WO2004029929A1 - Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät - Google Patents

Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät Download PDF

Info

Publication number
WO2004029929A1
WO2004029929A1 PCT/DE2003/003158 DE0303158W WO2004029929A1 WO 2004029929 A1 WO2004029929 A1 WO 2004029929A1 DE 0303158 W DE0303158 W DE 0303158W WO 2004029929 A1 WO2004029929 A1 WO 2004029929A1
Authority
WO
WIPO (PCT)
Prior art keywords
electronic
text
spoken
sequence
units
Prior art date
Application number
PCT/DE2003/003158
Other languages
English (en)
French (fr)
Inventor
Michael Küstner
Markus Schnell
Original Assignee
Infineon Technologies Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies Ag filed Critical Infineon Technologies Ag
Priority to EP03757683A priority Critical patent/EP1554715B1/de
Priority to DE50312627T priority patent/DE50312627D1/de
Publication of WO2004029929A1 publication Critical patent/WO2004029929A1/de
Priority to US11/086,801 priority patent/US7558732B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the invention relates to a method for computer-assisted speech synthesis of a stored electronic text for an analog speech signal, a speech synthesis device and a telecommunication device.
  • Speech synthesis is gaining importance as a means of communication for outputting information to humans in the context of systems in which other output media, such as Graphics are not possible due to space constraints, for example because no monitor is available to display information or cannot be used due to space constraints.
  • a speech synthesis device and a method for speech synthesis are required which can manage with very low demands on available resources in terms of computing power and in terms of the required storage space, and yet one provides full synthesis, for example for "reading" a text, preferably an electronic message.
  • [5] describes a text-to-speech conversion device in which the text-to-speech conversion is carried out for a special exception lexicon described.
  • [6] describes a parser device for determining predetermined expressions from a spoken speech signal sequence.
  • the invention is based on the problem of providing a speech synthesis which requires less storage space than is required in known speech synthesis methods or speech synthesis devices.
  • the problem is solved by the method for computer-assisted speech synthesis of a stored electronic text into an analog speech signal
  • Speech synthesis device and solved by a telecommunications device with the features according to the independent claims.
  • the stored electronic text is under Subjected to text analysis using the specified text analysis rules.
  • the stored electronic text is usually stored in a predetermined electronic word processing format, such as ASCII.
  • control characters of a word processing system such as page break control characters or formatting control characters, can also be contained in the electronic text.
  • this text is converted into an analog voice signal, which is output to a user by means of a loudspeaker.
  • text analysis rules are to be understood as a set of rules which are processed one after the other and which, as will be explained in more detail below, usually represent language-specific rules which describe the usual mapping of certain parts of the electronic text onto one or more spoken units.
  • the following units in particular can be used as spoken units for the subsequent concatenating speech synthesis:
  • the abbreviation lexicon contains an illustration table of given abbreviations, coded in the format in which the electronic text is available, and the associated phonetic transcription of the abbreviation, for example coded in SAMPA, as a corresponding representation of the given given abbreviation.
  • the electronic function word lexicon is a mapping table with predefined function words, again coded in the electronic text format used in each case, and the spoken units assigned to the respective function word, coded in the respective spoken transcription, preferably SAMPA, as a corresponding representation of the respective predefined function word ,
  • a functional word is to be understood as a word which is a noun or verb that is functional connects together, for example the words: "for”, “under”, “on”, “with”, etc.
  • the exception lexicon in turn contains predefined exception character strings that can be specified by a user, and the associated sequence of spoken units, with a data tuple again per
  • Data entry contains two elements, the first element of the data tuple being the respective term, encoded in the format of the electronic text, and the second element of the data tuple being the respective representation of the first element, encoded in the respective phonetic transcription.
  • a prosody is generated for the respectively formed sequence of spoken units using given prosody rules and then the respective sequence of spoken units and that for the respective one is created
  • the speech signal preferably the analog speech signal to be output, is generated.
  • a speech synthesis device for synthesizing a stored electronic text into an analog speech signal has a text memory for storing the electronic text, as well as a rule memory for storing text analysis rules and for storing prosody rules.
  • a lexicon memory is also provided for storing an electronic abbreviation lexicon, an electronic function dictionary lexicon and an electronic exception lexicon.
  • the speech synthesis device also has a processor which is set up in such a way that it carries out the method steps described above using the stored text analysis rules and prosody rules as well as the stored electronic dictionaries.
  • a telecommunication device with a speech synthesis device is provided.
  • Another advantage of the invention is the very easy scalability to increase the achievable quality of the speech synthesis, since the respective electronic lexicons and the rules can be expanded in a very simple manner.
  • the spoken units are stored in compressed form and at least some of the stored compressed ones spoken-language units, in particular the compressed spoken-language units required to form the sequence of spoken-language units, are decompressed before the respective sequence of spoken-language units is formed, in particular before the first sequence of spoken-language units is formed.
  • ADPCM Adaptive Differential Pulse Code Modulation
  • Diphones are preferably used as spoken units.
  • the method is preferably used in an embedded system, which is why the speech synthesis device is set up as an embedded system according to one embodiment of the invention.
  • FIG. 1 is a block diagram of a telecommunications terminal with a speech synthesis device according to an embodiment of the invention
  • FIG. 2 is a block diagram showing the individual in the
  • Telecommunications terminal shows embedded components
  • Figure 3 is a block diagram showing the individual components for speech synthesis according to an embodiment of the invention.
  • Figure 4 is a block diagram showing the components of word processing and prosody control in greater detail
  • Figure 6 is a structogram in which the individual
  • Figure 7 is a structogram in which the individual
  • FIG. 1 shows a telecommunications terminal 100 with a data display unit 101 for displaying information, an antenna 102 for receiving and / or broadcasting radio signals, a loudspeaker 103 for outputting an analog voice signal, and a keypad 104 with
  • the mobile radio telephone 100 is set up for communication in accordance with the GSM standard, alternatively in accordance with the UMTS standard, the GPRS standard or any other suitable mobile radio standard.
  • the mobile radio telephone 100 is set up to send and receive textual information, for example SMS messages (Short Message Service messages) or MMS messages (Multimedia Service messages).
  • SMS messages Short Message Service messages
  • MMS messages Multimedia Service messages
  • FIG. 2 shows in a block diagram the individual components integrated in the mobile radio telephone 100, in particular a speech synthesis unit explained in detail below, which is integrated in the mobile radio telephone 100 as an embedded system.
  • microphone 106 is coupled to an input interface 201.
  • a central processor unit 202 and a memory 203 and an ADPCM coding / decoding unit 204 are provided and an output interface 205.
  • the individual components are coupled to one another via a computer bus 206.
  • the loudspeaker 103 is coupled to the output interface 205.
  • the central processor unit 202 is set up in such a way that the method steps described below for voice synthesis, as well as those for operating the mobile radio telephone, in particular for decoding and coding Mobile radio signals, necessary procedural steps are carried out.
  • the mobile radio telephone 100 is additionally set up for voice recognition.
  • abbreviation lexicon 210 A predetermined number of abbreviations customary for the respective language, for example the following expressions and the sequence of spoken units assigned to the respective abbreviation, are stored in the abbreviation lexicon 210:
  • a predetermined number of function words and representations associated with the function words are stored in the spoken word transcription, in other words the sequence of spoken units assigned to the respective function word, in the function word lexicon 211.
  • the following function words are provided in the German language, for example: "For”, “under”, “with”, “on”,. , ,
  • a corresponding mapping to a sequence of spoken units is defined and stored in the exception lexicon 212 for certain predefinable textual units.
  • Diphones are used as phonetic units in this exemplary embodiment.
  • the diphones used in the context of the speech synthesis are stored in a diphone dictionary 213, which is also stored in the memory 203.
  • Compression of the diphones an LPC method, a CELP method or the GSM method are used, generally any compression method that achieves a sufficiently large compression even with small signal sections while ensuring a sufficiently small loss of information due to the compression.
  • a block synthesis 300 in FIG. 3 is used to explain a speech synthesis of a text message stored in the memory 203 and to be output as an analog speech signal.
  • the stored electronic text is stored in an electronic file 301 and, in addition to preferably ASCII-coded words, has special characters or control characters such as, for example, a “new line” control character or a “new paragraph” control character or a control character for formatting part or all of the data stored in the electronic file 301 electronic text.
  • the electronic text is subjected to different preprocessing rules as part of a word processor (block 302).
  • the processed electronic text 303 is then passed to a module, i.e. supplied to a computer program component for prosody control 304, in which, as will be explained in more detail below, the prosody for the electronic text is generated.
  • Processing ADPCM decoding is carried out using the ADPCM coding / decoding unit 204, a module selection, ie a selection of spoken units, according to this exemplary embodiment a selection of required diphones 307 (block 308).
  • the selected diphones 307 ie generally the selected spoken units, become a computer program component for acoustic synthesis (Block 309) and combined there to a voice signal to be output, which voice signal to be output is initially digital and is converted digitally / analogously to an analog voice signal 310, which is supplied to the loudspeaker 103 via the output interface 205 and is output to the user of the mobile radio telephone 100 ,
  • FIG. 4 shows the blocks of word processor 302 and prosody control 304 in greater detail.
  • a sufficiently long electronic text is stored in the electronic file 301 and is transferred to the processor unit 202 in a complete, contiguous memory area.
  • the electronic text has at least one partial sentence, so that an appropriate generation of prosody is made possible.
  • the text in the event that the respectively transferred electronic text from the electronic file 301 is shorter than a subset, i.e. in the event that no punctuation marks are found within the transferred electronic text, the text as a
  • Subset is understood and a point is artificially added as a punctuation mark.
  • the text preprocessing (block 401) has the function of sending the entered electronic text to the internally on the frame of the
  • a conversion to the internally used character set is necessary, because, for example, the German umlauts are not assigned the same codes in all character sets. Control characters are also removed from the text. Line feeds in combination with hyphens are eliminated.
  • a character table is provided which encodes format information for each character. The table (not shown), which is also stored in the memory 203, is accessed via the numerical value of the character.
  • Control characters or characters that are not included in the table are deleted from the entered electronic text.
  • the table is used by the two program components text preprocessing (block 401) and the program component "spelling" (block 408) described below.
  • the respective character class is coded in one byte and the pronunciation form of the character as a character string, i.e. as a result of spoken units, i.e. added as a diphon sequence according to the embodiment. Overall, there is a memory requirement of approximately one kbyte.
  • the input text 402 filtered by the text preprocessing 401 is then evaluated using a special text analysis rule set as part of a grapheme-phoneme implementation (block 403), which text analysis rule set is stored in the memory 203 and by means of the various connections of numbers in the filtered input text 402 are recognized and implemented (block 404). Since numbers can contain not only sequences of digits, but also measures or currency information, the evaluation is carried out before the further decomposition of the filtered electronic text 402.
  • the filtered and numbered electronic text 405 is then divided into sub-chains (i.e., words and sentences) using the Tokenizer program component (block 406).
  • the partial chains are referred to below as tokens.
  • the number rules of the number conversion text analysis rules are implemented in such a way that the rule interpreter, which is language-independent, and the rules themselves, which are language-dependent, are strictly separated.
  • the determined character string is converted into that of the respective text analysis rule 208
  • Rule-assigned sequence of diphones implemented, in other words, the found string is replaced by the rule target.
  • the rule target contains placeholders for the determined numbers, which are implemented by the second level of the rules.
  • the number to be converted must first meet one condition, otherwise the next text analysis rule is checked.
  • a second condition can be tested for which the number can be changed beforehand. Then arithmetic operations generate two numbers that are used in the control target for the final implementation. For example, a translation of the first rule outlined above into colloquial language would be as follows:
  • Model rules ie the rules of the first level and number rules, ie the rules of the second level, contain an additional conversion into a standard language form for easier troubleshooting. There Any messages can be generated in order to be able to understand the exact process of the rule replacement from outside.
  • Spelling mode 408 into a series of diphones, whereby one letter is converted separately, converted into the analog voice signal 306 and output to the user.
  • Word boundaries are detected by the program component "Tokenizer", i.e. individual words are detected on the basis of the white characters in between. According to the character types, the token is classified either as a word (upper and lower case) or as a special format (special characters).
  • sentence boundaries are marked at all points at which punctuation marks followed by spaces are detected immediately after a word. If a token that is not a number contains more than one special character, it is mapped and output in the analog voice signal by the spelling mode.
  • Function word lexicon 211 determines those words or expressions contained in the lexica 210, 211 and the abbreviations or function words determined are converted into the corresponding sequence of diphones.
  • the structure of the encyclopedias is the same for all filed entries: the graphemic form of the word and the phonemic form with word accent marks and syllable markers and the word class.
  • the word classes according to this exemplary embodiment are:
  • the class functional word contains words that occur very frequently and therefore have a low information content and are rarely accentuated which property is used in the context of acoustic synthesis 309, as will be explained in more detail below.
  • the word classes are encoded in a byte for later accentuation and assigned to the respective word.
  • the phonemic text analysis rules being structured according to the following scheme: XYZ ⁇ W
  • the phonemic text analysis rules are processed as follows:
  • Y is substituted by W if it appears to the right of X and Z to the left in the word to be transcribed.
  • X, Z and W can be empty or contain one to five characters or class symbols.
  • Class symbols are placeholders for a group of letters or sequences of letters, as shown in the following table:
  • N ⁇ chen 1er leein ling nis ⁇ # unstressed derivation suffixes for nouns
  • X and Z can contain the characters "@” and "#", where "@” can be a placeholder for any character and "@" represents the word boundary.
  • the rules are arranged according to the first letter of the rule body, so that only a part of all rules needs to be searched.
  • Sections arrange the rules from the most specific to the most general, so that it is ensured that at least the last rule is processed. If a rule is applicable, the rule processing is jumped to, the rule result W is appended to the sequence of phonemes that already exists for the current word, and the pointer to the character string to be converted is increased by the number of characters in the rule body.
  • the efforts to efficiently display the set of rules in the context of storage in the memory 203 are based on a rule number of 1254 rules. If all four parts of a rule are saved in a table with a fixed number of rows and columns in a row, the length of the longest overall rule must be used as the table width, in this case 19 bytes. Access to the rules is very easy due to the field structure, but the memory requirement is 23 kilobytes.
  • control components are packed tightly in an array, which is why an additional field of pointers with the length of 2500 bytes is required for access, but there is only a total memory requirement of 15 kilobytes. If all transcription attempts have failed, ie if the mapping according to the phonemic text analysis rules has not worked either, the token is spelled out by replacing each character with its corresponding phonetic representation and outputting it accordingly. Due to the disproportionate lengthening of the text caused thereby (substitution of each character by n new characters), the number of characters that can be spelled per token is limited to a maximum of 10 according to this exemplary embodiment.
  • the sequence of phonemes as a sequence of spoken units is available.
  • prosodic processing modules in the context of prosody control 304, namely accentuation and syllable control (block 409), loudness control (block 410) and intonation control (block 411), it is important to know syllable boundaries and accent positions or accent types, which are determined by means of the computer program component 409.
  • Some of the relevant information is already contained in the phoneme sequence of the token, provided that it was generated with the help of one of the dictionaries 210, 211, 212, with the rules for converting numbers and number intervals, or in spelling mode. In this part, the information mentioned is collected from the phoneme sequence.
  • Accentuation information is not yet available, so it is generated via further heuristic rules, which are explained in more detail below.
  • the information is also stored in the memory 203 stored phoneme table used.
  • phoneme table there are 49 phonemes and special characters (main and secondary accent, hyphenator, pauses) and
  • Classification characteristics (long vowel, short vowel, diphthong, consonant class etc.) included.
  • Syllable kernel types are determined and the syllable boundary is determined within the intervocal consonant sequence according to heuristic rules.
  • Word with long vowel or diphthong assigned an accent. If neither of these two syllable kernel types is present, the accent is assigned to the first syllable with a short vowel.
  • An output sound length in milliseconds, which is different for each sound class and is stored in the phoneme table, is modified using a set of rules which
  • Accent situations neighboring sounds (co-articulation factors), position of the sound in the syllable, position of the syllable in the word and in the sentence are used as influencing factors according to this exemplary embodiment. Other suitable criteria can of course be taken into account.
  • the output sound length can be stretched or shortened over the factors assigned to the influences, whereby a shortening is only permitted up to a minimum duration.
  • the duration of the sound is calculated according to the following rule:
  • Duration of sound k • ((D inh - D min ) • Pr cnt + D m i n )
  • the model provides a specific duration for each sound as well as the duration of pauses at syntactic limits. Phrase boundaries, sub-sentence boundaries and paragraph boundaries provide breaks with increasing length.
  • Program component duration control (block 410) and the determined accentuation information and the determined sentence type information from the grapheme-phoneme implementation 403, a speech melody is calculated for the entire electronic text in the context of the intonation control 411.
  • the following model is used for this, which meets the following requirements:
  • Phrasal and functional structures are audible (pauses, melody contours),
  • internation contours are composed of linear sub-components (see Fig.5a to Fig.5d) by additive superimposition.
  • the phrase-based component is formed using the knowledge that the fundamental frequency decreases continuously over every phrase from the beginning to the end of the phrase (declination).
  • the interval width of the fundamental frequency movement can be freely selected as the control variable of the model.
  • 5 a shows in a time diagram 500 a minimum fundamental frequency 501 and a relative mean fundamental frequency 502 as well as the course 503, the fundamental frequency over time.
  • the knowledge is used that depending on the type of sentence to be realized (statement sentence, continuation, exclamation, question) at the end of each phrase the declination line is linked to a phrase-typical final movement.
  • This movement extends from the position of the last sentence accent in the phrase to the end of the phrase, but at most over the last five syllables of the phrase.
  • a first fundamental frequency curve 511 represents the final movement, a second fundamental frequency curve 512 a forward-looking, i.e. a continuation theorem and a third fundamental frequency curve 513 a question.
  • an accent-based component is taken into account as a component for the entire prosody, the knowledge being used that in the event that a syllable bears a sentence accent, the fundamental frequency is raised over the entire syllable and over the duration of the
  • the accent stroke can be freely selected as a control variable for the model.
  • a first accent component 521 which consists of three areas, the basic frequency being raised from the declination line to the accent stroke 523 in a first ascending area (in a first time area 522) is kept there during a second time period 524 and is only returned to the declination line in a third time period 525.
  • a second accent structure 526 becomes just two
  • 5d shows a total prosody 531 in a fourth time diagram 530, the total prosody representing the additive superimposition of the individual components shown in FIGS. 5a to 5c.
  • the total contour 531 is assigned to each phoneme involved, i.e. each phoneme in the word string for which the overall melody was determined is assigned a value corresponding to the overall prosody determined.
  • the intonation contour is then reproduced by linearly interpolating between the phoneme-based reference points.
  • the accentuation takes place on the first long vowel or, if none can be found, on the first short vowel of the word.
  • the penultimate syllable is passed to. If the penultimate syllable can be emphasized, that is, it is not a "Schwa syllable", it is emphasized, otherwise in each step the syllable is moved forward towards the beginning of the word until a syllable that can be emphasized has been determined or the beginning of the word is reached ,
  • the syllables are differentiated into the phonetic categories “heavy syllables”, “light syllables” and “Schwa syllables” according to the definition given in [3] and [4].
  • Syllables that have no coda are basically light syllables. If the coda consists of two or more consonants, it is a heavy syllable.
  • the coda consists of exactly one consonant.
  • it is decided based on the syllable nucleus whether it is a light syllable (with a short vowel as syllable nucleus) or a heavy syllable (with a long vowel or diphthong in the syllable nucleus).
  • the syllable sound (onset) plays no role in determining the syllable weight.
  • the intensity parameter is generated by preprocessing and is used to influence the dynamic range (and thus the naturalness) of the speech-synthesized signal.
  • s p (i) denotes the i-th sample of the p-th period of the speech module to be synthesized u.
  • the desired intensity I p is recalculated for each period p of the spoken component u by linearly interpolating the target intensities of the speech signal specified at the interpolation points between these interpolation points.
  • the mode of operation of the intensity control is thus comparable to the mode of operation of the basic frequency control as described above.
  • the respective support points of the intensity control and the Basic frequency control can be freely selected independently of one another.
  • the target intensities are given in the unit [dB]. A target intensity of 0 dB does not change the sample values of the signal components.
  • the target intensities to be set provide an indication of the relative change in intensity that the inventory modules have. This means that it is advantageous to use an inventory with balanced intensity profiles.
  • the block selection 304 shown in FIG. 3 is explained in more detail below.
  • the function of the module selection 304 is to determine and select the dependency of the symbol sequence supplied by the preprocessing (phoneme sequence or syllable sequence) from the inventory or the inventory description of the suitable modules, according to the exemplary embodiment the suitable diphones, for acoustic synthesis.
  • the sequence of building blocks generated in this way is provided with additional prosodic information, as explained above (duration of loudness, fundamental frequency curve), which was generated by the preprocessing.
  • Each element of the array contains the information for a symbol (phoneme, syllable, ).
  • An array structure of the data structure SM is generated by the block selection and transferred to the acoustic synthesis.
  • the data structure SM has the following structure:
  • the component unit contains the name of the block, display the number of symbols (phonemes, syllables, ...) that appear in the
  • the array of the data structure INV contains the description data for an inventory. Before starting, the array is read from the corresponding binary file of the inventory to be used.
  • the structure INV has the following structure:
  • INV ⁇ char canon [MAX_UNIT_LENGTH]; long startBin; int num; long startPm; int face; int * lastPer;
  • Each element of the INV array contains the data of a spoken block.
  • the elements are sorted by the starting symbol of the element canon of the structure, by the number of symbols contained in the block (phonemes, syllables, ...) and by the length of the element sequence canon of the structure (in this order). This enables an effective search for the required component in the array.
  • FIG. 6 shows in a structure diagram 600 the procedure for selecting the blocks according to the exemplary embodiment of the invention.
  • a pause of length 0 is inserted before the first element which is identified by the pointer * SMPROS. This is used to find the start module in the inventory.
  • the variable i is then initialized to the value 0 (step 602) and the following steps are carried out in a first intonation loop 603 for all elements of the respective SMPROS structure (all sounds). The longest sound sequence that matches the element sequence at the current position i of the structure is determined in the inventory (step 604).
  • step 606 the module is added to the data structure SM and the variable i by the value anz of the maximum number Symbols whose symbol sequence is the same as the symbol sequence in * (SMPROS + i + j). is increased.
  • step 607 It is also checked whether there are substitute sounds for the sounds contained in the module (test step 607) and in the event that such a substitute sound exists, the sound is replaced (step 608). Otherwise, the value of variable i is increased by the value 1 (step 609) and the iteration loop of steps 604 to 609 is repeated for the new value of variable i until all elements of the SMPROS structure have been checked.
  • the acoustic synthesis 309 is explained in more detail below.
  • the function of the acoustic synthesis 309 is to chain the signal sections according to the specification of the component selection.
  • the basic frequency and the duration of the sound are manipulated using the PSOLA algorithm.
  • the input variable of acoustic synthesis 309 is the SM structure, which is derived from the program component "component selection"
  • the SM structure contains the building blocks to be linked and the information on the fundamental frequency and duration, which were generated by the preprocessing.
  • the individual are in the structogram 700 in FIG.
  • a first step it is checked whether the sound j represents a pause (step 702).
  • the pause is synthesized as a speech signal (step 703).
  • step 705 the desired duration of sound is calculated.
  • variable k is then assigned the value of the start period of the sound j (step 706).
  • step 708 a support point with the next target fundamental frequency is determined (step 707).
  • the desired period is then calculated based on the interpolated fundamental frequency contour (step 709).
  • step 710 It is now checked whether the previously synthesized duration is less than or equal to the proportionate desired duration (step 710) and, if this condition is fulfilled, the period with the desired duration is synthesized according to the PSOLA algorithm (step 711). A check is then carried out again to determine whether the previously synthesized duration is less than or equal to the proportionate desired duration (step 712).
  • the value of the variable k is incremented by the value 1 (step 713).
  • the fundamental frequency contour is determined from the desired period durations that are achieved using the PSOLA algorithm.
  • the specified duration of sounds is approximately achieved by introducing and omitting periods.
  • the signal sections i.e. the blocks are stored one after the other in the memory (short *).
  • Start samples of the blocks, the number of periods, the start samples of the periods etc. are stored in the structure INV, the information about the number of samples of each period in the PERIOD structure has the following structure:

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Unter Verwendung von Textanalyse-Regeln sowie unterschiedlicher elektronischer Lexika wird eine Sprachsynthese durchgeführt, welche unter Gewährleistung einer ausreichend guten Qualität eine erhebliche Reduktion des benötigten Speicherplatzbedarfs realisiert.

Description

Beschreibung
Verfahren zur rechnergestützten Sprachsynthese eines gespeicherten elektronischen Textes zu einem analogen Sprachsignal, Sprachsyntheseeinrichtung und Telekommunikationsgerät
Die Erfindung betrifft ein Verfahren zur rechnergestützten Sprachsynthese eines gespeicherten elektronischen Textes zu einem analogen Sprachsignal, eine Sprachsyntheseeinrichtung sowie ein Telekommunikationsgerät.
Zur Ausgabe von Informationen mittels eines Computers an einen Benutzer wird in der heutigen Zeit mehr und mehr von der künstlichen Sprachsynthese Gebrauch gemacht. Besondere
Bedeutung gewinnt die Sprachsynthese als Kommunikationsmittel zur Ausgabe von Informationen an den Menschen im Rahmen von Systemen, bei denen andere Ausgabemedien, wie z.B. Grafiken aus Platzgründen nicht möglich sind, beispielsweise weil kein Monitor zur Darstellung von In ormationen verfügbar oder aus Platzgründen nicht einsetzbar ist. Gerade für einen solchen Fall, bei dem aus Platzgründen andere Ausgabemedien nicht eingesetzt werden können, wird eine Sprachsyntheseeinrichtung und ein Verfahren zur Sprachsynthese benötigt, die bzw. das mit sehr geringen Anforderungen an verfügbare Ressourcen hinsichtlich der Rechenleistung und hinsichtlich des benötigten Speicherplatzbedarfs auskommt und dennoch eine vollwertige Synthese, beispielsweise zum "Vorlesen" eines Textes, vorzugsweise einer elektronischen Nachricht, bereit stellt.
Bekannte Ansätze, die aufgrund ihrer sehr großen Anforderungen hinsichtlich des benötigten Speicherplatzbedarfs noch nicht auf integrierten Systemen (Embedded Systems) verfügbar sind, werden üblicherweise unterschieden in Sprachsynthesesysteme, bei denen die Sprachsynthese auf der so genannten Diphonsynthese basieren und in Sprachsynthesesysteme, die auf der so genannten Korpus-basierten Sprachsynthese beruhen.
Selbst die mit einem geringeren Speicherplatzbedarf auskommenden Diphonsynthesesysteme benötigen einen Speicherplatz von ungefähr 20 MByte, Korpus-basierte Sprachsynthesesysteme benötigen bis zu 1 GByte Speicherplatz und mehr.
Dieser Speicherplatzbedarf ist wesentlich zu groß, um gerade in einem Embedded System realisiert werden zu können.
In [5] ist eine Text-Zu-Sprache-Wandlereinrichtung beschrieben, bei der für ein beschriebenes spezielles Ausnahmelexikon die Text-Zu-Sprache-Wandlung durchgeführt wird.
In [6] ist eine Parser-Einrichtung zum Ermitteln von vorgegebenen Ausdrücken aus einer eingesprochenen Sprachsignalfolge beschrieben.
Der Erfindung liegt das Problem zu Grunde, eine Sprachsynthese bereitzustellen, die mit reduziertem Speicherplatz auskommt als er bei bekannten Sprachsyntheseverfahren bzw. Sprachsyntheseeinrichtungen benötigt wird.
Das Problem wird durch das Verfahren zur rechnergestützten Sprachsynthese eines gespeicherten elektronischen Textes zu einem analogen Sprachsignal, durch eine
Sprachsyntheseeinrichtung sowie durch ein Telekommunikationsgerät mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.
Bei einem Verfahren zur rechnergestützten Sprachsynthese eines gespeicherten elektronischen Textes zu einem analogen Sprachsignal wird der gespeicherte elektronische Text unter Verwendung vorgegebener Textanalyse-Regeln einer Textanalyse unterzogen.
Der gespeicherte elektronische Text ist üblicherweise in einem vorgegebenen elektronischen Textverarbeitungsformat, wie beispielsweise ASCII, gespeichert. Zusätzlich können in dem elektronischen Text noch Steuerzeichen eines Textverarbeitungssystems, wie beispielsweise Seitenumbruchs- Steuerzeichen oder Formatierungs-Steuerzeichen enthalten sein.
Dieser Text wird mittels des Verfahrens umgesetzt in ein analoges Sprachsignal, welches mittels eines Lautsprechers einem Benutzer ausgegeben wird.
Unter Textanalyse-Regeln sind in diesem Zusammenhang ein Satz von Regeln zu verstehen, die nacheinander abgearbeitet werden und die, wie im Folgenden näher erläutert wird, üblicherweise sprachspezifische Regeln darstellen die eine übliche Abbildung bestimmter Teile des elektronischen Textes auf eine oder mehrere lautsprachliche Einheiten beschreiben.
Für den Fall, dass die Textanalyse-Regeln für den jeweils untersuchten elektronischen Text erfüllt werden oder sind, wird eine erste Folge lautsprachlicher Einheiten gebildet.
Als lautsprachliche Einheiten können erfindungsgemäß insbesondere folgende Einheiten für die anschließende konkatenierende Sprachsynthese verwendet werden: • Phonemsegmente,
• Phoneme ,
• Allophone,
• Diphone,
• Triphone , • Halbsilben, insbesondere Anfangshalbsilben und Endhalbsilben + Rudimente, Suffixe, • Mischinventare zur Abdeckung koartikulatorischer Effekte,
• Wörter, oder
• eine Folge von Wörtern.
Ferner wird gemäß dem erfindungsgemäßen Verfahren geprüft, ob der elektronische Text in einem elektronischen Abkürzungs- Lexikon enthalten ist .
Das Abkürzungs-Lexikon enthält eine Abbildungstabelle von vorgegebenen Abkürzungen, codiert in dem Format, in dem der elektronische Text vorliegt, und die zugehörige lautsprachliche Umschrift der Abkürzung, beispielsweise codiert in SAMPA, als entsprechende Repräsentation der jeweiligen vorgegebenen Abkürzung.
Für den Fall, dass der elektronische Text in dem elektronischen Abkurzungs-Lexikon enthalten ist, wird eine zweite Folge lautsprachlicher Einheiten gebildet, die der jeweiligen elektronischen Abkürzung im elektronischen Text in dem Abkurzungs-Lexikon zugeordnet ist.
Ferner wird geprüft, ob der elektronische Text in einem elektronischen Funktionswörter-Lexikon enthalten ist.
Das elektronische Funktionswörter-Lexikon ist in diesem Zusammenhang eine Abbildungstabelle mit vorgegebenen Funktionswδrtern, wiederum codiert in dem jeweils verwendeten elektronischen Textformat, und den dem jeweiligen Funktionswort zugeordneten lautsprachlichen Einheiten, codiert in der jeweiligen lautsprachlichen Umschrift, vorzugsweise SAMPA, als entsprechende Repräsentation des jeweiligen vorgegebenen Funktionsworts .
Unter einem Funktionswort ist in diesem Zusammenhang ein Wort zu verstehen, welches Substantive oder Verben funktional miteinander verbindet, beispielsweise die Worte: „für", „unter", „auf", „mit", etc.
Für den Fall, dass der elektronische Text in dem elektronischen Funktionswörter-Lexikon enthalten ist, wird eine dritte Folge lautsprachlicher Einheiten gebildet entsprechend dem zugehörigen Eintrag in dem elektronischen Funktionswörter-Lexikon.
Für den Fall, dass die Textanalyse-Regeln für den elektronischen Text nicht erfüllt werden und die Teile des elektronischen Textes oder der elektronische Text nicht in dem Abkürzungs-Lexikon oder in dem Funktionswörter-Lexikon enthalten sind, wird unter Verwendung eines Ausnahme-Lexikons eine vierte Folge lautsprachlicher Einheiten gebildet.
In dem Ausnahme-Lexikon sind wiederum von einem Benutzer vorgebbar in einer Abbildungstabelle vorgegebene Ausnahme- Zeichenfolgen gespeichert, und die zugehörige Folge von lautsprachlichen Einheiten, wobei ein Datentupel wiederum pro
Dateneintrag zwei Elemente enthält, wobei das erste Element des Datentupels der jeweilige Begriff, codiert in dem Format des elektronischen Textes, ist und das zweite Element des Datentupels die jeweilige Repräsentation des ersten Elements, codiert in der jeweiligen lautsprachlichen Umschrift, ist.
Ferner wird für die jeweils gebildete Folge lautsprachlicher Einheiten unter Verwendung vorgegebener Prosodie-Regeln eine Prosodie erzeugt und anschließend wird aus der jeweiligen Folge lautsprachlicher Einheiten und der für die jeweilige
Folge lautsprachlicher Einheiten gebildeten Prosodie das Sprachsignal, vorzugsweise das auszugebende analoge Sprachsignal , erzeugt .
Eine Sprachsyntheseeinrichtung zum Synthetisieren eines gespeicherten elektronischen Textes zu einem analogen Sprachsignal weist einen Text-Speicher zum Speichern des elektronischen Textes auf, sowie einen Regel-Speicher zum Speichern von Textanalyse-Regeln und zum Speichern von Prosodie-Regeln .
Ferner ist ein Lexikon-Speicher vorgesehen zum Speichern eines elektronischen Abkürzungs-Lexikons, eines elektronischen Funktionswδrter-Lexikons und eines elektronischen Ausnahme-Lexikons .
Die Sprachsyntheseeinrichtung weist ferner einen Prozessor auf, der derart eingerichtet ist, dass er unter Verwendung der gespeicherten Textanalyse-Regeln und Prosodie-Regeln sowie der gespeicherten elektronischen Lexika die oben beschriebenen Verfahrensschritte durchführt.
Weiterhin ist ein Telekommunikationsgerät mit einer erfindungsgemäßen Sprachsyntheseeinrichtung vorgesehen.
Durch den streng modularisierten regelbasierten Ansatz unter Verwendung der jeweils abgestuften und optimiert an die jeweilige Sprache angepassten elektronischen Lexika wird es möglich, dass eine Sprachsynthese mit ausreichend guter Qualität selbst in einem Embedded System mit sehr reduziertem Speicherplatzbedarf ermöglicht ist.
Ein weiterer Vorteil der Erfindung ist in der sehr leichten Skalierbarkeit zur Erhöhung der erreichbaren Qualität der Sprachsynthese zu sehen, da die jeweiligen elektronischen Lexika und die Regeln auf sehr einfache Weise erweiterbar sind.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Gemäß einer Ausgestaltung der Erfindung werden die lautsprachlichen Einheiten in komprimierter Form gespeichert und zumindest ein Teil der gespeicherten komprimierten lautsprachlichen Einheiten, insbesondere die zur Bildung der Folge von lautsprachlichen Einheiten benötigten komprimierten lautsprachlichen Einheiten werden vor Bildung der jeweiligen Folge lautsprachlicher Einheiten, insbesondere vor Bildung der erste Folge lautsprachlicher Einheiten dekomprimiert . Durch die Komprimierung der lautsprachlichen Einheiten wird eine weitere erhebliche Reduktion des Speicherplatzbedarfs erreicht .
Als Komprimierungsverfahren können sowohl verlustfreie als auch verlustbehaftete Komprimierungsalgorithmen eingesetzt werden.
Es hat sich gezeigt, dass insbesondere die folgenden Verfahren sehr gut geeignet sind, um eine hohe Komprimierung des Inventars bei nur geringem Qualitätsverlust zu gewährleisten :
• ADPCM (Adaptive Differential Pulse Code Modulation) ,
• GSM, • LPC (Linear Predictive Coding) , oder
• CELP (Code Excited Linear Prediction) .
Als lautsprachliche Einheiten werden vorzugsweise Diphone verwendet .
Bevorzugt wird das Verfahren in einem Embedded System eingesetzt, weshalb die Sprachsyntheseeinrichtung gemäß einer Ausgestaltung der Erfindung als Embedded System eingerichtet ist .
Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Folgenden näher erläutert.
Es zeigen Figur 1 ein Blockdiagramm ein Telekommunikations-Endgerät mit einer Sprachsyntheseeinrichtung gemäß einem Ausführungsbeispiel der Erfindung;
Figur 2 ein Blockdiagramm, das die einzelnen in das
Telekommunikations-Endgerät eingebetteten Komponenten zeigt ;
Figur 3 ein Blockdiagramm, in dem die einzelnen Komponenten zur Sprachsynthese gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Figur 4 ein Blockdiagramm, in dem die Komponenten der Textverarbeitung und der Prosodiesteuerung in größerem Detail dargestellt sind;
Figuren 5A bis 5D Skizzen von Einzelkomponenten eines
Intonationsmodells sowie deren additive Überlagerung zu einer Gesamt-Intonationskontur gemäß einem Ausführungsbeispiel der Erfindung;
Figur 6 ein Struktogramm, in dem die einzelnen
Verfahrensschritte zur Bausteinauswahl gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Figur 7 ein Struktogramm, in dem die einzelnen
Verfahrensschritte zur akustischen Synthese gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind.
Fig.l zeigt ein Telekommunikations-Endgerät 100 mit einer Datenanzeigeeinheit 101 zum Darstellen von Informationen, eine Antenne 102 zum Empfangen bzw. Ausstrahlen von Funksignalen, einem Lautsprecher 103 zum Ausgeben eines analogen Sprachsignals, einem Tastenfeld 104 mit
Eingabetasten 105 zur Steuerung des Mobilfunktelefons 100 sowie einem Mikrophon 106 zum Aufnehmen eines Sprachsignals. Das Mobilfunktelefon 100 ist zur Kommunikation gemäß dem GSM- Standard, alternativ gemäß dem UMTS-Standard, dem GPRS- Standard oder einem beliebigen anderen geeigneten Mobilfunk- Standard eingerichtet .
Ferner ist das Mobilfunktelefon 100 eingerichtet zum Senden und Empfangen von textueller Information, beispielsweise von SMS-Nachrichten (Short Message Service-Nachrichten) oder MMS- Nachrichten (Multimedia Service-Nachrichten) .
Fig.2 zeigt in einem Blockdiagramm die einzelnen, in das Mobilfunktelefon 100 integrierten Komponenten, insbesondere eine im Folgenden im Detail erläuterten Sprachsyntheseeinheit, welche in das Mobilfunktelefon 100 als Embedded System integriert ist.
Gemäß dem Blockdiagramm 200 ist das Mikrophon 106 mit einer Eingangsschnittstelle 201 gekoppelt.
Ferner sind eine zentrale Prozessoreinheit 202 sowie ein Speicher 203 und eine ADPCM-Codier-/Decodiereinheit 204 vorgesehen und eine Ausgangsschnittstelle 205. Die einzelnen Komponenten sind über einen Computerbus 206 miteinander gekoppelt. Mit der Ausgangsschnittstelle 205 ist der Lautsprecher 103 gekoppelt.
Bei der Dekompression der komprimierten Diphone in dem Diphon-Lexikon ist darauf zu achten, dass die Dekomprimierung gemäß dem ADPCM mittels der ADPCM-Codier-/Decodiereinheit 204 in Echtzeit erfolgt.
Die zentrale Prozessoreinheit 202 ist derart eingerichtet, dass die im Folgenden beschriebenen Verfahrensschritte zur Sprachsynthese, sowie die zum Betrieb des Mobilfunktelefons, insbesondere zur Decodierung und Codierung von Mobilfunksignalen, erforderlichen Verfahrensschritte durchgeführt werden.
In alternativen Ausführungsformen ist es vorgesehen, insbesondere für die Sprachsynthese eine separate Rechnereinheit, beispielsweise eine für die Sprachsysnthese speziell eingerichtete Rechnerkarte, vorzusehen, um damit die für andere Aufgaben innerhalb des Mobilfunktelefons vorgesehene zentrale Prozessoreinheit 202 zu entlasten.
In einer alternativen Ausführungsform ist das Mobilfunktelefon 100 zusätzlich zur Spracherkennung eingerichtet .
In dem Speicher 203 sind einerseits die zum Betrieb des
Mobilfunktelefons 100 erforderlichen Computerprogramme 207 gespeichert sowie ferner die entsprechenden im Folgenden näher erläuterten Textanalyse-Regeln 208 und Prosodie-Regeln 209. Weiterhin sind eine Vielzahl unterschiedlicher elektronischer Lexika in dem Speicher 203 gespeichert, gemäß diesem Ausführungsbeispiel ein Abkurzungs-Lexikon 210, ein Funktionswörter-Lexikon 211 sowie ein Ausnahme-Lexikon 212.
In dem Abkurzungs-Lexikon 210 sind eine vorgegebene Anzahl von für die jeweilige Sprache üblichen Abkürzungen, beispielsweise folgende Ausdrücke und die der jeweiligen Abkürzung zugeordnete Folge lautsprachlicher Einheiten, gespeichert :
„bsp.", „bspw.", „etc.", „usw.", „u.a.", „d.h.", ...
In dem Funktionswörter-Lexikon 211 sind eine vorgegebene Anzahl von Funktionswörtern und den Funktionswδrtern zugehörige Darstellungen in lautsprachlicher Umschrift, anders ausgedrückt die dem jeweiligen Funktionswort zugeordnete Folge lautsprachlicher Einheiten, gespeichert. Als Funktionswörter sind in der deutschen Sprache beispielsweise vorgesehen: „für" , „unter" , „mit" , „auf " , . . .
In dem Ausnahme-Lexikon 212 ist für bestimmte vorgebbare textuelle Einheiten, jeweils eine entsprechende Abbildung auf eine Folge lautsprachlicher Einheiten definiert und gespeichert .
Als lautsprachliche Einheiten werden gemäß diesem Ausführungsbeispiel Diphone verwendet. Die im Rahmen der Sprachsynthese verwendeten Diphone sind in einem ebenfalls in dem Speicher 203 gespeicherten Diphon-Lexikon 213 gespeichert .
Das Diphon-Lexikon 213, welches im Folgenden auch als Diphon- Inventar oder auch als Inventar bezeichnet wird, enthält, wie oben dargelegt, die zur Sprachsynthese verwendeten Diphone, gemäß diesem Ausführungsbeispiel jedoch abgebildet auf einer Abtastfrequenz von 8 kHz, wodurch eine weitere Reduktion des benötigten Speicherbedarfs erzielt wird, da üblicherweise eine Abtastfrequenz für die Diphone von 16 kHz oder sogar eine höhere Abtastfrequenz verwendet wird, was er indungsgemäß in einer alternativen Ausgestaltung der Erfindung selbstverständlich ebenfalls möglich ist.
Ferner sind gemäß diesem Ausführungsbeispiel die Diphone gemäß dem ADPCM (Adapted Differential Pulse Code Modulation) codiert und somit in komprimierter Form in dem Speicher 203 gespeichert .
Wie oben beschrieben wurde, können alternativ zur
Komprimierung der Diphone ein LPC-Verfahren, ein CELP- Verfahren oder auch das GSM-Verfahren eingesetzt werden, allgemein jedes Komprimierungsverfahren, das selbst bei kleinen Signalabschnitten eine ausreichend große Kompression erreicht unter Gewährleistung eines ausreichend geringen Informationsverlustes aufgrund der Komprimierung. Anders ausgedrückt ist ein Komprimierungsverfahren auszuwählen, welches einen kurzen Einschwingvorgang des Encoders aufweist und ein geringes Quantisierungsrauschen verursacht.
Anhand des Blockdiagramms 300 in Fig.3 wird eine Sprachsynthese einer in dem Speicher 203 gespeicherten und als analoges Sprachsignal auszugebenden Text-Nachricht erläutert .
Der gespeicherte elektronische Text ist in einer elektronischen Datei 301 gespeichert und weist neben vorzugsweise ASCII-codierten Wörtern Sonderzeichen oder Steuerzeichen wie beispielsweise einem "Neue Zeile" - Steuerzeichen oder ein „Neuer Absatz"-Steuerzeichen oder ein Steuerzeichen zur Formatierung eines Teils oder des gesamten in der elektronischen Datei 301 gespeicherten elektronischen Textes gespeichert.
Zur Sprachsynthese wird der elektronische Text im Rahmen einer Textverarbeitung (Block 302) unterschiedlichen Vorverarbeitungsregeln unterzogen. Der verarbeitete elektronische Text 303 wird anschließend einem Modul, d.h. einer Computerprogramm-Komponente zur Prosodiesteuerung 304 zugeführt, in dem, wie im Folgenden näher erläutert wird, die Prosodie für den elektronischen Text generiert wird, zugeführt.
Anschließend erfolgt für den auf diese Weise erzeugten elektronischen Text 305 eine unter Verwendung des Inventars, d.h. unter Verwendung des Diphon-Lexikons 213, dessen komprimierte Diphone 306 vor der im Folgenden beschriebenen
Verarbeitung ADPCM-decodiert werden mittels der ADPCM-Codier- /Decodiereinheit 204, eine Bausteinauswahl, d.h. eine Auswahl lautsprachlicher Einheiten, gemäß diesem Ausführungsbeispiel einer Auswahl von benötigten Diphonen 307 (Block 308) . Die ausgewählten Diphone 307, d.h. allgemein die ausgewählten lautsprachlichen Einheiten, werden einer Computerprogrammkomponente zur akustischen Synthese (Block 309) zugeführt und dort zu einem auszugebenden Sprachsignal zusammengeführt, welches auszugebende Sprachsignal zunächst digital vorliegt und digital/analog gewandelt wird zu einem analogen Sprachsignal 310, welches über die Ausgangsschnittstelle 205 dem Lautsprecher 103 zugeführt wird und an dem Benutzer des Mobilfunktelefons 100 ausgegeben wird.
Fig. zeigt in einem Blockdiagramm 400 die Blöcke der Textverarbeitung 302 und der Prosodiesteuerung 304 in größerem Detail.
Im Rahmen der Sprachsynthese ist in der elektronischen Datei 301 ein ausreichend langer elektronischer Text gespeichert, der in die Prozessoreinheit 202 in einem vollständigen zusammenhängenden Speicherbereich übergeben wird. Der elektronische Text weist gemäß diesem Ausführungsbeispiel mindestens eine Teilsatz auf, so dass eine angemessene Prosodiegenerierung ermöglicht ist.
Gemäß diesem Ausführungsbeispiel wird für den Fall, dass der jeweils übergebene elektronische Text aus der elektronischen Datei 301 kürzer ist als eine Teilsatz, d.h. für den Fall, dass keine Interpunktionszeichen innerhalb des übergebenen elektronischen Textes ermittelt werden, der Text wie ein
Teilsatz aufgefasst und es wird künstlich ein Punkt als Interpunktionszeichen angefügt.
Die Text-Vorverarbeitung (Block 401) hat die Funktion, den eingegebenen elektronischen Text an den intern am Rahmen der
Sprachsynthese verwendeten Zeichensatz anzupassen.
Für Texte, die aus unterschiedlichen Quellen stammen, ist eine Konvertierung auf den intern verwendeten Zeichensatz erforderlich, da beispielsweise die deutschen Umlaute nicht in allen Zeichensätzen den gleichen Codes zugeordnet sind. Weiterhin werden Steuerzeichen aus dem Text entfernt. Zeilenvorschübe in Kombination mit Bindestrichen werden beseitigt . Zu diesem Zweck wird eine Zeichentabelle zur Verfügung gestellt, die für jedes Zeichen FormatInformationen codiert. Der Zugriff auf die Tabelle (nicht dargestellt), die ebenfalls in dem Speicher 203 gespeichert ist, erfolgt über den Zahlenwert des Zeichens.
Folgende Zeichenklassen werden unterschieden und sind in der Tabelle in dem Speicher 203 gespeichert:
[0-9] Ziffer ZF
[a-z] Kleinbuchstaben KB
[A-Z] Großbuchstaben GB
[. - .. _ι
Figure imgf000015_0001
Weißzeichen (Wortgrenze) WZ
[. , ; : ? !] Interpunktion IP
[* 1 II # $ % & ' ( ) + _ / < > ... ]
Sonderzeichen SZ
['\n' '\r\n' '\t'] Steuerzeichen ST
Steuerzeichen oder Zeichen, die in der Tabelle nicht enthalten sind, werden aus dem eingegebenen elektronischen Text gelöscht. Die Tabelle wird von den beiden Programmkomponenten Text-Vorverarbeitung (Block 401) und der im Folgenden beschriebenen Programmkomponente "Buchstabieren" (Block 408) verwendet.
Die jeweilige Zeichenklasse ist einem Byte codiert und die Ausspracheform des Zeichens als Zeichenkette, d.h. als Folge lautsprachlicher Einheiten, d.h. gemäß dem Ausführungsbeispiel als Diphonfolge, angefügt. Insgesamt ergibt sich hier ein Speicherbedarf von ungefähr einem kByte.
Der durch die Text-Vorverarbeitung 401 gefilterte Eingangstext 402 wird anschließend mittels eines speziellen Textanalyse-Regelwerks im Rahmen einer Graphem-Phonem- Umsetzung (Block 403) ausgewertet, welches Textanalyse- Regelwerk in dem Speicher 203 gespeichert ist und mittels dem verschiedene Verbindungen von Zahlen in dem gefilterten Eingangstext 402 erkannt und umgesetzt werden (Block 404) . Da Zahlen nicht nur Ziffernfolgen enthalten können, sondern auch Maßzahlen oder Währungsangaben, erfolgt die Auswertung vor der weiteren Zerlegung des gefilterten elektronischen Textes 402.
Der gefilterte und auf Zahlen untersuchte elektronische Text 405 wird anschließend unter Verwendung der Programmkomponente Tokenizer (Block 406) in Teilketten (d.h. Wörter und Sätze) aufgeteilt . Die Teilketten werden im weiteren als Token bezeichnet .
Die Token durchlaufen die lexikalische Umsetzung bzw. das phonemische Textanalyse-Regelwerk 407. Kann das Token durch keine Verarbeitungsstufe in eine phonemischen, d.h. in eine Folge lautsprachlicher Einheiten umgewandelt werden, d.h. überführt werden, so erfolgt eine Umsetzung des jeweiligen Tokens im Rahmen der Ausgabe mittels Buchstabierens, d.h. das Token wird in der Sprachausgabe als Folge einzelner
Buchstaben betrachtet und entsprechend werden für die einzelnen Buchstaben auf eine Folge von Diphonen abgebildet und diese Folge wird als buchstabierte Zeichenkette dem Benutzer mittels der Computerprogrammkomponente „Buchstabieren" (Block 408) ausgegeben.
Mit einem speziellen Satz von Regeln aus den Textanalyse- Regeln werden im Rahmen der Zahlenumsetzung 404 Zahlen und Zahlenformate erkannt und in eine Folge lautsprachlicher Einheiten umgewandelt. Zunächst wird gemäß den
Zahlenumsetzungs-Textanalyse-Regeln überprüft, ob die Zeichenkette einer bekannten Folge von Zahlen und Zusatzinformationen einspricht.
Beispiele für solche Zahlenumsetzungs-Textanalyse-Regeln zum Ermitteln von Zahlen und Zahlenformaten sind unter Verwendung der phonemischen Umschrift SAMPA im folgenden angegebenen: "\Z{1900, 1999}" , "nOYntse:nhUnd@6t\l{-1900,θ}" "\Z,\Z{0, 99} DM" , "\l{0} mark \2{θ}"
In diesem Fall wird gemäß dem Ausdruck "\Z{l900, 1999}" nach einer Zahl gesucht die zwischen 1900 und 1999 liegt. Wird ein solche Zahl ermittelt, wird diese als Jahreszahl interpretiert und entsprechend in eine Diphonfolge und damit in eine Phonemfolge umgesetzt. Die Umsetzung erfolgt somit als eine Abbildung auf eine Folge von Diphonen als lautsprachliche Einheiten und den Platzhaltern für die ermittelten Zahlen, die von einer zweiten Stufe des Regelwerks umgesetzt werden.
Die Zahlenregeln der Zahlenumsetzungs-Textanalyse-Regeln werden derart implementiert, dass eine strenge Trennung des Regelinterpreters, welcher sprachunabhängig ist und der Regeln selbst, welche sprachabhängig sind, erfolgt.
Es ist in diesem Zusammenhang anzumerken, dass das Einlesen und Umwandeln der Textanalyse-Regeln aus der Textform und ein speichereffizientes binäres Format gemäß diesem Ausführungsbeispiel getrennt von dem eigentlichen Programm erfolgt, womit zur Laufzeit ein effizienter Umgang mit den Textanalyse-Regeln ermöglicht wird.
Bei der Definition der Umsetzungsregeln erfolgt eine Beschränkung auf die wichtigsten Ziffernformate, wiederum um Speicherplatz zu sparen. Umgesetzt werden Kardinalzahlen und Ordinalzahlen, Datum und Uhrzeit (inklusive nachgestelltem Token "Uhr") . Eine Ergänzung um andere Formate ist jedoch jederzeit ohne weiteres möglich durch einfache Ergänzung der Zahlenumsetzungs-Textanalyse-Regeln.
Trifft eine der Regeln zur Ermittlung von Zahlen und
Zahlenformaten zu, so wird die ermittelte Zeichenkette entsprechend der Textanalyse-Regel 208 in die der jeweiligen Regel zugeordnete Folge von Diphonen umgesetzt, anders ausgedrückt wird die gefundene Zeichenkette durch das Regelziel ersetzt. Das Regelziel enthält Platzhalter für die ermittelten Zahlen, die von der zweiten Stufe des Regelwerks umgesetzt werden. Es gibt dort mehrere Regelmengen, beispielsweise für Kardinalzahlen Ordinalzahlen oder Jahreszahlen, die gezielt von den Regeln der ersten Stufe, die oben geschrieben worden sind, aufgerufen werden.
Im folgenden wird ein Überblick über Beispiele von Prozessregeln für die Kardinalzahlen gegeben:
>99, %10 =0, /100 "\l{θ}hUnd@6t" "\l{θ}hundert"
>99, /100 %100 "\l{0}hUnd@6t\2{0}" "\l{θ}hundert\2{θ}
>30, %10 =0, /10 "\l{θ}sIC" "\l{θ}zig"
=30, / "dralsIC" "drei"sig"
>20, %10 "\l{0}?Unt\2{0}" "\l{0}und\2{0}"
Die umzusetzende Zahl muss zunächst eine Bedingung erfüllen, sonst wird die nächste Textanalyse-Regel überprüft. Optional kann auch noch ein zweite Bedingung getestet werden, für die die Zahl vorher verändert werden kann. Dann werden durch arithmetische Operationen zwei Zahlen erzeugt, die im Regelziel zur endgültigen Umsetzung benutzt werden. Eine Übersetzung der ersten oben dargestellten Regel in Umgangssprache würde beispielsweise so lauten:
"Wenn die Zahl größer ist als 99, und der Rest bei einer Modulo 10 Operation ist gleich Null, dann setze die Hilfszahl 1 zu Zahl durch 100, wandle sie mit Hilfe der
Kardinalzahlregeln um und ergänze das Ergebnis um die Zeichenkette "hUnd@6t"."
Musterregeln, d.h. die oben geschriebenen Regeln der ersten Stufe und Zahlenregeln, d.h. die Regeln der zweiten Stufe, enthalten zur Erleichterung bei der Fehlersuche eine zusätzliche Umsetzung in eine normalsprachliche Form. Dort können beliebige Meldungen erzeugt werden, um den genauen Ablauf der Regelersetzung von außen nachvollziehen zu können.
Bleibt nach der Umsetzung des Tokens ein einzelnes Interpunktionszeichen übrig, so wird an dieser Stelle eine Satzgrenze eingefügt.
Alle Zahlenformat, die keiner der vorhandenen Zahlenumsetzungs-Textanalyse-Regeln genügen, werden unbehandelt weitergereicht und schließlich im
Buchstabiermodus 408 in eine Folge Diphonen, wobei jeweils ein Buchstabe separat umgesetzt wird, in das analoge Sprachsignal 306 umgesetzt und dem Benutzer ausgegeben.
Von der Programmkomponente "Tokenizer" werden Wortgrenzen detektiert, d.h. es werden einzelne Wörter anhand der dazwischen liegenden Weißzeichen detektiert. Gemäß der Zeichentypen wird das Token entweder als Wort (Groß- und Kleinbuchstaben) oder als Sonderformat (Sonderzeichen) klassifiziert.
Ferner werden an all jenen Stellen Satzgrenzen markiert, an denen von Leerzeichen gefolgte Interpunktionszeichen unmittelbar nach einem Wort detektiert werden. Enthält ein Token, das keine Zahl ist, mehr als ein Sonderzeichen, so wird es durch den Buchstabiermodus in das analoge Sprachsignal abgebildet und ausgegeben.
Ferner werden in dem gefilterten elektronischen Text unter Verwendung des Abkürzungs-Lexikons 210 und des
Funktionswörter-Lexikons 211 diejenigen Worte bzw. Ausdrücke ermittelt, die in den Lexika 210, 211 enthalten sind und die ermittelten Abkürzungen bzw. Funktionswörter werden in die entsprechende Folge von Diphonen umgewandelt.
Gemäß diesem Ausführungsbeispiel werden vor der Suche eines Tokens in den Lexika 210, 211 alle Großbuchstaben in Kleinbuchstaben umgewandelt, wobei für großgeschriebene Wörter die Wortklasseninformationen "Nomen" erhalten bleibt . Wird das Wort in dem jeweiligen Lexikon 210, 211 gefunden, so wird durch seine phonemisch Umschrift, d.h. durch die Folge von Diphonen, wie oben erläutert, ersetzt.
Die Struktur der Lexika ist für alle abgelegten Einträge gleich: der graphemischen Form des Wortes und die phonemische Form mit Wortakzent-Marken und Silbengrenzen-Marken sowie die Wortklasse zugeordnet .
Für eine hinreichend korrekte Akzentuierung und Phrasierung werden gemäß diesem Ausführungsbeispiel die Wortklassen:
• Nomen S
• Verb VB
• Adverb AV
• Adjektiv ADJ
• Funktionswort Fkt unterschieden.
Die Klasse Funktionswort enthält Wörter, die sehr häufig auftreten und daher einen geringen Informationsgehalt besitzen und selten akzentuiert werden, welche Eigenschaft im Rahmen der akustischen Synthese 309, wie im Folgenden näher erläutert wird, ausgenutzt wird.
Die Wortklassen werden zur späteren Akzentuierung in einem Byte codiert und dem jeweiligen Wort zugeordnet.
Ferner wird überprüft, ob das jeweilige Wort oder der jeweilige Ausdruck dem Ausnahmen-Lexikon 212 enthalten ist.
Ist das Wort nicht im Ausnahme-Lexikon 212 enthalten, so wird es mit Hilfe des phonemischen Textanalyse-Regelwerks umgesetzt, wobei die phonemischen Textanalyse-Regeln nach folgendem Schema aufgebaut sind: XYZ → W
Die phonemischen Textanalyse-Regeln werden wie folgt abgearbeitet :
Y wird durch W substituiert, wenn es im Wort, das zu transkribieren ist, rechts von X und links Z auftritt. X, Z und W können dabei leer sein oder ein bis fünf Zeichen oder Klassensymbole enthalten. Klassensymbole sind Platzhalter für eine Gruppe von Buchstaben bzw. Buchstabenfolgen, wie in der folgenden Tabelle aufgeführt:
V { a e i o u ä ö ü y} # Vokale B { a o u} # hintere Vokale D {äu au ai ay ei ey eu} # Diphthonge C {b c ch d f g h j k l m n p # Konsonanten ph qu r s seh t v w x z ß}
P {b d g} # Stimmhafte Plosive K {b d g p t k} # Plosive L {1 m n r} # Liquide T {bb ck dd ff gg kk 11 mm nn # Doppelkonsonanten pp rr ss tt zz}
S = {abel al alis ant anz ärin ator # betonte Ableitungseil ent enz ett eur iant ibel suffixe für Nomina iell ient in ion ismus ist istik istin itis iv ivum}
N = {chen 1er lein lieh ling nis} # unbetonte Ableitungssuffixe für Nomina
O = {ein ik isch ium ius um ung} # unbetonte Ableitungssuffixe für Nomina
U = {ier} # Ableitungssuffixe für Verben
E = {e em en es er ern n nen s ere # Endungen erem eren erer eres ste sten} I = {e en est et ete eten etest etet # Verbale Endungen n st t te ten test tet}
X und Z können die Zeichen "@" und "#" enthalten, wobei "@" Platzhalter für jedes beliebige Zeichen sein kann und "@" die Wortgrenze repräsentiert .
Die Regeln sind nach dem ersten Buchstaben des Regelkörpers geordnet, so dass jeweils nur ein Teil aller Regeln durchsucht werden braucht. Innerhalb des jeweiligen
Abschnitts sind die Regeln von der speziellsten bis zur allgemeinsten geordnet, so dass sichergestellt ist, das mindestens die letzte Regel abgearbeitet wird. Bei Anwendbarkeit einer Regel wird aus der Regelabarbeitung gesprungen, das Regelergebnis W an die bereits für das aktuelle Wort existierende Folge von Phonemen angehängt und der Zeiger auf die umzusetzende Zeichenkette um die Anzahl der Zeichen im Regelkörper weitergesetzt.
Die Bemühungen um eine effiziente Darstellung des Regelwerks im Rahmen der Speicherung in dem Speicher 203 gehen von einer Regelzahl von 1254 Regeln aus. Werden alle vier Teile einer Regel in eine Tabelle mit fester Zeilenzahl und Spaltenzahl jeweils in einer Zeile unmittelbar hintereinander gespeichert, so muss als Tabellenbreite die Länge der längsten Gesamtregel verwendet werden, in diesem Fall 19 Byte. Der Zugriff auf die Regeln ist aufgrund der Feldstruktur sehr einfach, jedoch ergibt sich ein Speicherbedarf von 23 Kilobyte.
In einer alternativen Variante sind die Regelkomponenten eng in ein Array gepackt, weshalb für den Zugrifft ein weiteres Feld von Zeigern mit der Länge von 2500 Byte benötigt wird, jedoch insgesamt nur ein Speicherbedarf von 15 Kilobyte besteht. Haben alle Transkriptionsversuche versagt, d.h. hat auch die Abbildung gemäß den phonemischen Textanalyse-Regeln nicht funktioniert, so wird das Token buchstabiert, indem jedes Zeichen durch seine entsprechenden phonetische Darstellung ersetzt und in entsprechender Weise ausgegeben wird. Aufgrund der dadurch bewirkten unverhältnismäßigen Verlängerung des Textes (Substitution jedes Zeichen durch n neue Zeichen) wird die Anzahl der pro Token buchstabierbaren Zeichen gemäß diesem Ausführungsbeispiel auf maximal 10 begrenzt.
Ist die Teilkette erfolgreich in eine Ausspracheform umgewandelt worden, so liegt die Folge von Phonemen als Folge lautsprachlicher Einheiten dafür vor.
Für die nachfolgenden prosodischen Verarbeitungsmodule im Rahmen der Prosodiesteuerung 304, nämlich der Akzentuierung und Silbifizierung (Block 409) , der Lautdauer-Steuerung (Block 410) und Intonations-Steuerung (Block 411) ist es wichtig, Silbengrenzen und Akzentpositionen bzw. Akzenttypen zu kennen, welche mittels der Computerprogrammkomponente 409 ermittelt werden.
Ein Teil der diesbezüglichen Informationen ist bereits in der Phonemfolge des Tokens enthalten, sofern dieser mit Hilfe einer der Lexika 210, 211, 212, mit dem Regeln zur Umsetzung von Zahlen und Zahlenintervallen bzw. im Buchstabiermodus erzeugt wurde . In diesem Teil werden die genannten Informationen aus der Phonemfolge gesammelt.
Stehen die Silbengrenzinformationen bzw.
Akzentuierungsinformationen noch nicht zur Verfügung, so werden sie über weiteres heuristisches Regelwerk, welches im folgenden näher erläutert wird, erzeugt.
Für das Parsen der Phonemfolge und die Klassifikation einzelner Phoneme als Langvokal, Kurzvokal, Frikativ etc. werden die Informationen aus der ebenfalls in dem Speicher 203 gespeicherten Phonemtabelle verwendet. In der Phonemtabelle sind 49 Phoneme und Sonderzeichen (Haupt- und Nebenakzent, Silbentrenner, Pausen) sowie
Klassifizierungsmerkmale (Langvokal, Kurzvokal, Diphthong, Konsonantklasse etc.) enthalten.
Die Silbentrennungsregeln gehen davon aus, das aufgrund allgemeiner physiologischer Gesetzmäßigkeiten bestimmte Lautklassen in allen Sprachen ähnliche Funktionen aufweisen. Es werden zur Silbentrennung zunächst Silbenkerne und
Silbenkern-Typen bestimmt und innerhalb der intervokalischen Konsonantenfolge nach heuristischen Regeln wird die Silbengrenze bestimmt.
Mittels der Akzentuierungsregeln wird der ersten Silbe im
Wort mit Langvokal oder Diphthong ein Akzent zugewiesen. Ist keiner dieser beiden Silbenkern-Typen vorhanden, so wird der ersten Silbe mit Kurzvokal der Akzent zugewiesen.
Bestimmte Wortakzente werden abschließend mit einer
Heuristik, die Wortklasse, Abstand zum vorhergehenden Satzakzent und Position innerhalb der Phrase kombiniert, aufgewertet zu einem Satzakzent. Für die Berechnung des Sprachrhythmus der synthetisierten Sprache wurde ein lautbasiertes Regelwerk gemäß Klatt/Kohler (beschrieben in [1] und [2]) realisiert.
Es wird eine Ausgangs-Lautlänge in Millisekunden, die für jede Lautklasse verschieden ist, und in der Phonemtabelle abgelegt ist, über ein Regelwerk modifiziert, welches
Regelwerk verschiedene Einflussfaktoren berücksichtigt .
Als Einflussfaktoren werden gemäß diesem Ausführungsbeispiel Akzentsituationen, benachbarte Laute (Koartikulationsfaktoren) , Position des Lautes in der Silbe, Position der Silbe im Wort und im Satz, verwendet. Andere geeignete Kriterien können selbstverständlich berücksichtigt werden.
Die Ausgangs-Lautlänge kann über den Einflüssen zugeordnete Faktoren gedehnt oder gekürzt werden, wobei eine Kürzung nur bis auf eine Minimaldauer erlaubt ist.
Die Berechnung der Lautdauer erfolgt gemäß folgender Vorschrift :
Lautdauer = k • ((Dinh - Dmin) • Pr cnt + Dmin)
wobei mit
• k ein Koartikulationsfaktor, • Dinh eine inhärente Lautlänge,
Dmin eine minimale Lautlänge und
• Prcnt globale Einflussfaktoren bezeichnet werden.
Das Modell liefert für jeden Laut eine spezifische Lautdauer sowie an syntaktischen Grenzen die Dauer von Pausen. Phrasengrenzen, Teilsatzgrenzen und Absatzgrenzen liefern Pausen mit wachsender Länge .
Mittels der zuvor ermittelten Lautdauerangaben aus der
Programmkomponente Lautdauer-Steuerung (Block 410) sowie den ermittelten AkzentuierungsInformationen und den ermittelten Satztypeninformationen aus der Graphem-Phonem-Umsetzung 403 wird im Rahmen der Intonations-Steuerung 411 für den gesamten elektronischen Text eine Sprechmelodie berechnet. Dazu wird folgendes Modell verwendet, das folgenden Anforderungen gerecht wird:
• Akzente sind hörbar,
• Phrasale und funktionale Strukturen sind hörbar (Pausen, Melodiekonturen) ,
• es besteht eine Reproduktion natürlicher Variabilität und • eine neutrale Intonation ist gewährleistet, da Textverständnis fehlt.
Gemäß dem verwendeten Modell werden Internationskonturen aus linearen Teilkomponenten (vgl. Fig.5a bis Fig.5d) durch additive Überlagerung zusammengesetzt.
Dabei werden akzentbasierte Komponenten und phrasenbasierte Komponenten unterschieden.
Die phrasenbasierte Komponente wird gebildet unter Verwendung der Erkenntnis, dass über jede Phrase hinweg die Grundfrequenz vom Beginn zum Ende der Phrase hin kontinuierlich abfällt (Deklination) . Die Intervallbreite der Grundfrequenzbewegung ist frei wählbar als Steuervariable des Modells.
Fig.5a zeigt in einem Zeitdiagramm 500 eine minimale Grundfrequenz 501 und eine relative mittlere Grundfrequenz 502 sowie den Verlauf 503, der Grundfrequenz über die Zeit.
Zur Bildung der satztypbasierten Komponenten wird die Erkenntnis verwendet, dass je nach Typ des zu realisierenden Satzes (Aussagesatz, Kontinuierung, Ausruf, Frage) am Ende jeder Phrase die Deklinationslinie mit einer phrasentypischen finalen Bewegung verknüpft ist .
Diese Bewegung erstreckt sich von der Position des letzten Satzakzentes in der Phrase bis zum Phrasenende, maximal jedoch über die letzten fünf Silben der Phrase.
Aussage und Ausruf bewirken eine zusätzliche Absenkung der Grundfrequenz zum Phrasenende hin, Kontinuierungssätze sowie Phrasengrenze bewirken einen leichten Grundfrequenzanstieg, eine Frage einen starken Grundfrequenzanstieg zum Phrasenende hin. Der Wertebereich dieser phrasenfinalen Bewegungen kann im Rahmen des Modells frei gewählt werden.
Fig.5b zeigt in einem zweiten Zeitdiagramm 510 den Grundfrequenzverlauf zum Phrasenende hin für unterschiedliche Satztypen. Ein erster Grundfrequenzverlauf 511 stellt die finale Bewegung dar, ein zweiter Grundfrequenzverlauf 512 eine weiterweisende, d.h. einen Kontinuierungssatz und ein dritter Grundfrequenzverlauf 513 eine Frage.
Ferner wird als Komponente für die gesamte Prosodie eine akzentbasierte Komponente berücksichtigt, wobei die Erkenntnis verwendet wird, dass für den Fall, dass eine Silbe einen Satzakzent trägt, über die gesamte Silbe die Grundfrequenz angehoben wird und über die Dauer der
Folgesilbe wieder auf die Deklinationslinie abgesenkt wird. Der Akzenthub kann als Steuervariable des Models wiederum frei anwendungsangepasst gewählt werden.
Fig.5c zeigt in einem dritten Zeitdiagramm 520 eine solche Akzentuierung für unterschiedliche Silben, eine erste Akzentkomponente 521, die aus drei Bereichen besteht, wobei in einem ersten aufsteigenden Bereich (in einem ersten Zeitbereich 522) von der Deklinationslinie die Grundfrequenz auf den Akzenthub 523 angehoben wird, dort während eines zweiten Zeitbereichs 524 behalten wird und erst in einem dritten Zeitbereich 525 wieder auf die Deklinationslinie zurückgeführt wird.
Eine zweite Akzentstruktur 526 wird lediglich aus zwei
Zeitbereichen gebildet, dem aufsteigenden Ast 527, in dem die Grundfrequenz von der Deklinationslinie auf den Akzenthub 523 erhöht wird und dem absteigenden Ast 528, gemäß dem unmittelbar nach Erreichen des Akzenthubes 523 die Grundfrequenz wieder kontinuierlich auf die Deklinationslinie reduziert wird (zweiter Zeitbereich 528) . Fig.5d zeigt eine Gesamtprosodie 531 in einem vierten Zeitdiagramm 530, wobei die Gesamtprosodie die additive Überlagerung der in den Fig.5a bis Fig.5c dargestellten Einzelkomponenten darstellt.
Nach der Berechnung der Gesamtprosodie, d.h. der Gesamtkontur 531 wird jedem beteiligten Phonem, d.h. jedem Phonem in der Wortkette, zu der die Gesamtmelodie ermittelt wurde, jeweils ein Wert zugeordnet entsprechend der ermittelten Gesamtprosodie.
Im Rahmen der akustischen Synthese 309 wird dann die Intonationskontur reproduziert, indem sie zwischen den phonembasierten Stützstellen linear interpoliert wird.
In einer alternativen Ausgestaltung der Erfindung ist es vorgesehen, zur Wortakzentuierung einen linguistisch motivierten Akzentuierungsalgorithmus zu verwenden.
Gemäß dem oben beschriebenen Ausführungsbeispiel erfolgt die Akzentuierung auf dem ersten Langvokal bzw. wenn kein solcher gefunden werden kann auf dem ersten Kurzvokal des Wortes .
Dabei werden im Regelfall nur Substantive betrachtet, andere Wortarten nur, wenn der letzte Wortakzent weit zurück liegt, um eine monotone Aussprache zu vermeiden.
Funktionswörter kommen sehr häufig vor und werden im Sinne einer gewissen Redundanz grundsätzlich nicht betont.
Bei einer alternativen Ausführungsform wird von folgendem Satz von vier Regeln ausgegangen:
• Retrektion der "schweren" Endsilbe,
• Penultima-Regel, • Regel der nächsten betonbaren Silbe und
• Approximations-Regel. Die Wortsilben werden im Gegensatz zur oben beschriebenen Lösung von rechts nach links betrachtet, d.h. beginnend bei der Endsilbe des Wortes.
Wenn die Endsilbe eine "schwere" Silbe ist, so erhält diese die Betonung (1) ansonsten wird auf die vorletzte Silbe übergegangen. Wenn die vorletzte Silbe betonbar, also keine „Schwa-Silbe" ist, wird diese betont, ansonsten wird in jedem Schritt um eine Silbe weiter nach vorn in Richtung des Anfangs des Wortes gegangen, bis eine betonbare Silbe ermittelt worden ist oder der Wortanfang erreicht wird.
Die Unterscheidung der Silben in die phonetischen Kategorien „schwere Silben", „leichte Silben" und in „Schwa-Silben" erfolgt nach der Definition, wie sie in [3] und [4] gegeben sind.
Schwa-Silben sind Silben, die einen der Schwa-Laute „@", ,m=" oder „N=" enthalten.
Silben, die keine Koda besitzen, also mit Vokal enden, sind grundsätzlich leichte Silben. Wenn die Koda aus zwei oder mehr Konsonanten besteht, handelt es sich um eine schwere Silbe.
Komplizierter liegt der Fall, wenn die Koda aus genau einem Konsonanten besteht . In diesem Fall wird aufgrund des Silbenkerns entschieden, ob es sich um eine leichte (bei einem Kurzvokal als Silbenkern) oder um eine schwere Silbe (bei einem Langvokal oder Diphthonge im Silbenkern) handelt.
Mit der phonologischen CV-Darstellung, bei der "gespannte" (lange) Vokale als W, "nicht-gespannte" Vokale als V und Konsonanten als C dargestellt werden, lässt sich dies folgendermaßen zusammenfassen:
• Schwa-Silben: @, n=, m=, N= als Nukleus,
• leichte Silben: C+W, C+VC und • schwere Silben: C+WC+, C+VCC+, wobei C+ für einen oder mehrere Konsonanten steht .
Der Silbenanlaut (Onset) spielt bei der Bestimmung des Silbengewichtes keine Rolle.
Ferner ist es in einer alternativen Ausführungsform vorgesehen, die Intensität der Sprachsynthese zu steuern. Der Intensitätsparameter wird von einer Vorverarbeitung generiert und dient zur Beeinflussung des Dynamikbereichs (und damit der Natürlichkeit) des sprachsynthetisierten Signals.
Sie erfolgt periodenweise nach der Verkettung mit dem so genannten PSOLA-Algorithmus oder einem geeigneten Derivat dieses Verfahrens. Die einzelnen Abtastwerte des sprachsynthetisierten Signals werden mit einem Faktor multipliziert, der das Signal auf die gewünschte Zielintensität (in dB) einstellt.
Dieser Vorgang erfolgt gemäß folgender Vorschrift:
I LτPu ,20 dB sPu(i) = spu(i)-10<
Dabei bezeichnet sp (i) den i-ten Abtastwert der p-ten Periode des zu synthetisierenden lautsprachlichen Bausteins u. Die gewünschte Intensität Ip wird für jede Periode p des lautsprachlichen Bausteins u neu berechnet, indem die an den Stützstellen vorgegebenen Zielintensitäten des Sprachsignals linear zwischen diesen Stützstellen interpoliert werden.
Die Funktionsweise der Intensitäts-Steuerung ist damit vergleichbar mit der Funktionsweise der Grundfrequenz- Steuerung, wie sie oben beschrieben wurde. Die jeweiligen Stützstellen der Intensitäts-Steuerung und der Grundfrequenzsteuerung können unabhängig voneinander frei gewählt werden.
Die Zielintensitäten werden in der Einheit [dB] angegeben. Eine Zielintensität von 0 dB bewirkt keine Änderung der Abtastwerte der Signalbausteine. Die einzustellenden Zielintensitäten bilden eine Angabe über die relative Änderung der Intensität, welche die Inventarbausteine besitzen. Das bedeutet, dass es vorteilhaft ist, ein Inventar mit ausgewogenen Intensitätsverläufen zu verwenden.
Im Folgenden wird die in Fig.3 dargestellte Bausteinauswahl 304 näher erläutert.
Die Aufgabe der Bausteinauswahl 304 besteht darin, die Abhängigkeit der von der Vorverarbeitung gelieferten Symbolfolge (Phonemfolge bzw. Silbenfolge) aus dem Inventar bzw. der Inventarbeschreibung die geeigneten Bausteine, gemäß dem Ausführungsbeispiel die geeigneten Diphone, für die akustische Synthese zu ermitteln und auszuwählen.
Die auf diese Weise generierte Bausteinfolge wird mit prosodischer Zusatzinformation, wie oben erläutert wurde (Lautdauer, Grundfrequenzverlauf) versehen, welche von der Vorverarbeitung generiert wurde.
Zur vereinfachten Darstellung der Bausteinauswahl sind im folgenden unterschiedliche Datenstrukturen an den Schnittstellen der einzelnen Komponenten definiert.
Von der Vorverarbeitung wird ein Array der Datenstruktur SMPROS angelegt und mit den erforderlichen Daten gefüllt. Die Struktur ist im folgenden in einem Pseudocode angegeben:
Struct GF { int fn; int tn,- struct SMPROS { int anzEI ; char** EI; char* laut, int dauer; int gfAnz ; struct GF* gf;
};
Jedes Element des Arrays enthält die Informationen für ein Symbol (Phonem, Silbe, ...) .
Eine Arraystruktur der Datenstruktur SM wird von der Bausteinauswahl erzeugt und an die akustische Synthese übergeben.
Die Datenstruktur SM hat folgenden Aufbau:
struct SM { int anzEI ; char** EI; char* unit; int anzLaute; struct SMPROS ** laut ;
};
Die Komponente unit enthält den Namen des Bausteins, anzLaute die Anzahl der Symbole (Phoneme, Silben, ...), die im
Baustein enthalten sind. Alle andere Komponenten werden aus der Datenstruktur SMPROS der Vorverarbeitung übernommen.
Das Array der Datenstruktur INV enthält die Beschreibungsdaten für ein Inventar. Das Array wird vor dem Start aus der entsprechenden Binärdatei des zu verwendenden Inventars gelesen. Die Struktur INV hat folgenden Aufbau:
struct INV { char kanon [MAX_UNIT_LENGTH] ; long startBin; int anzPer; long startPm; int anzLaute; int* lastPer;
};
Jedes Element des Arrays INV enthält die Daten eines lautsprachlichen Bausteins. Die Elemente sind sortiert nach dem Anfangssymbol des Elements kanon der Struktur, nach der Anzahl der im Baustein enthaltenen Symbole (Phoneme, Silben, ... ) und nach der Länger der Elementenfolge kanon der Struktur (in dieser Reihenfolge) . Dies ermöglicht eine effektive Suche nach dem geforderten Baustein in dem Array.
Fig.6 zeigt in einem Struktogramm 600 die Vorgehensweise der Bausteinauswahl gemäß dem Ausführungsbeispiel der Erfindung.
In einem ersten Schritt 601 wird vor dem ersten Element welches durch den Zeiger *SMPROS identifiziert ist, eine Pause der Länge 0 eingefügt. Dies dient dazu, den Startbaustein im Inventar zu finden. Anschließend wird die Variable i auf den Wert 0 initialisiert (Schritt 602) und es werden in einer ersten Intonationsschleife 603 für alle Elemente der jeweiligen SMPROS-Struktur (alle Laute) die Folgenden Schritte durchgeführt. In dem Inventar wird die längste Lautfolge ermittelt, die auf die Elementfolge an der aktuellen Position i der Struktur passt (Schritt 604) .
Ist ein solcher Baustein gefunden (Schritt 605, Schritt 606) , so wird der Baustein in die Datenstruktur SM angefügt, und die Variable i um den Wert anz der maximalen Anzahl an Symbolen, deren Symbolfolge gleich der Symbolfolge in * (SMPROS+ i + j). ist, erhöht.
Ferner wird überprüft, ob es Ersatzlaute für die in dem Baustein enthaltenen Laute gibt (Prüfschritt 607) und für den Fall, dass ein solcher Ersatzlaut existiert, wird der Laut ersetzt (Schritt 608) . Sonst wird der Wert der Variablen i um den Wert 1 erhöht (Schritt 609) und es wird die Iterationsschleife der Schritte 604 bis 609 erneut für den neuen Wert der Variable i durchlaufen solange, bis alle Elemente der SMPROS-Struktur geprüft worden sind.
Anschaulich bedeutet dies, dass für den Fall, dass ein Baustein mit der entsprechenden Lautfolge gefunden wurde, dieser an die SM-Struktur angefügt wird und die aktuelle Position der SMPROS-Struktur um die Anzahl der Laute im gefundenen Baustein erhöht wird.
Im Folgenden wird die akustische Synthese 309 näher erläutert.
Die Funktion der akustischen Synthese 309 besteht darin, die Signalabschnitte nach Vorgabe der Bausteinauswahl zu verketten.
Im Rahmen der Verkettung werden die Grundfrequenz und die Lautdauer mittels des PSOLA-Algorithmus manipuliert.
Die Eingangsgröße der akustischen Synthese 309 ist die SM- Struktur, welche von der Programmkomponente "Bausteinauswahl"
308 erzeugt wird. Die SM-Struktur enthält die zu verkettenden Bausteine und die Information zur Grundfrequenz und Lautdauer, welche von der Vorverarbeitung generiert wurden.
In dem Struktogramm 700 in Fig.7 sind die einzelnen
Verfahrensschritte der akustischen Synthese 309 dargestellt. Im Rahmen der akustischen Synthese 305 werden periodenweise alle Laute des geforderten Bausteins synthetisiert, d.h. es wird eine äußere Schleife 701 durchlaufen für alle Elemente i in der Struktur SM.
In einem ersten Schritt wird jeweils überprüft, ob der Laut j eine Pause darstellt (Schritt 702) .
Ist dies der Fall, so wird die Pause als Sprachsignal synthetisiert (Schritt 703) .
Ist dies jedoch nicht der Fall, so wird für alle Laute j des Bausteins i folgende Intonationsschleife 704 durchgeführt:
In einem ersten Abschnitt der Intonationsschleife 704 (Schritt 705) wird die gewollte Lautdauer berechnet.
Anschließend wird der Variable k der Wert der Startperiode des Lautes j zugeordnet (Schritt 706) .
Solange der Wert der Variable k kleiner gleich der Endperiode des Lautes j ist (Überprüfungsschritt 707) werden folgende Verfahrensschritte durchgeführt :
In einem Schritt 708 wird eine Stützstelle mit nächster Ziel- Grundfrequenz ermittelt (Schritt 707) .
Anschließend wird die gewollte Periodendauer nach interpolierter Grundfrequenzkontur berechnet (Schritt 709) .
Nunmehr wird überprüft, ob die bisher synthetisierte Lautdauer kleiner oder gleich der anteiligen gewollten Lautdauer ist (Schritt 710) und für den Fall, dass diese Bedingung erfüllt ist, wird die Periode mit gewollter Periodendauer gemäß dem PSOLA-Algorithmus synthetisiert (Schritt 711) . Anschließend wird erneut geprüft, ob die bisher synthetisierte Lautdauer kleiner oder gleich der anteiligen gewollten Lautdauer ist (Schritt 712) .
Ist dies nicht der Fall, so wird der Wert der Variable k um den Wert 1 inkrementiert (Schritt 713) .
Anschaulich bedeutet diese Vorgehensweise, dass je nach Einfügungen und Auslassungen von Perioden unterschiedliche Perioden mittels des PSOLA-Algorithmus überlagert werden, sonst die Periode mit sich selbst.
Aus den gewollten Periodendauern, die mittels des PSOLA- Algorithmus erreicht werden, bestimmt sich die Grundfrequenzkontur. Die vorgegebenen Lautdauern werden mittels Einführungen und Auslassungen von Perioden näherungsweise erreicht .
Die Signalabschnitte, d.h. die Bausteine sind hintereinander im Speicher (short*) abgelegt. Die Information über die
Startabtastwerte der Bausteine, die Anzahl der Perioden, die Startabtastwerte der Perioden usw. sind in der Struktur INV abgelegt, die Information über die Anzahl der Abtastwerte jeder Periode in der Struktur PERIODE, die folgenden Aufbau hat:
struct PERIODE { short perLen; unsigned char anreg; unsigned char dummy;
} In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] Dennis H. Klatt, Synthesis by rule of segmental durations in English sentences, Frontiers of speech communication research, ed. B. Lindblom and S. Öhman, Academic Press, London, S. 287 - 300, 1979
[2] Klaus J. Kohler, Zeitstrukturierung in der
Sprachsynthese, in: Digitale Sprachverarbeitung, ITG- Tagung Bad Nauheim, hrsg. von A. Lacroix, VDE-Verlag, Berlin, S. 165 - 170, 1988
[3] Caroline Fery, German Stress in Optimality Theory,
Journal of Comparative Linguistics, S. 101 - 142, 1998
[4] Petra Wagner, Systematische Überprüfung deutscher Wortbetonungsregeln, in W. Hess, K. Stöber (Hrsg.), Elektronische Sprachsignalverarbeitung, Tagungsband zur 12. Konferenz 2001, S. 329 - 338, 2001
[5] WO 00/45373 AI
[6] DE 691 31 549 T2
Bezugszeichenliste
100 Telekommunikations-Endgerät
101 Datenanzeigeeinheit
102 Antenne
103 Lautsprecher
104 Tastenfeld
105 Taste
106 Mikrophon
200 Blockdiagramm
201 Eingangsschnittstelle
202 Prozessoreinheit
203 Speicher
204 ADPCM-Codier-/Decodiereinheit
205 Ausgangsschnittstelle
206 Computerbus
207 Computerprogramme
208 Textanalyse-Regeln
209 Prosodie-Regeln
210 Abkurzungs-Lexikon
211 Funktionswörter-Lexikon
212 Ausnahme-Lexikon
213 Diphon-Lexikon
300 Blockdiagramm 301 Datei
302 Textverarbeitung
303 Verarbeiteter elektronischer Text
304 Prosodiesteuerung
305 Elektronischer Text nach Prosodieerzeugung
306 Komprimiertes Diphon
307 Diphon
308 Bausteinauswahl
309 Akustische Synthese
310 Analoges Sprachsignal 400 Blockdiagramm
401 Text-Vorverarbeitung
402 Gefilterter Eingangstext
403 Graphem-Phonem-Umsetzung
404 Zahlenumsetzung
405 Gefilterter und auf Zahlen untersuchter Text
406 Tokenizer
407 Phonetische Regeln
408 Buchstabieren
406 Akzentuieren/Silbifizieren 407 Lautdauersteuerung 408 Intonationssteuerung
500 Erstes Zeitdiagramm
501 Minimale Grundfrequenz
502 Relative mittlere Grundfrequenz
503 Intonationskontur
510 Zweites Zeitdiagramm
511 Erster Konturverlauf
512 Zweiter Konturverlauf
513 Dritter Konturverlauf 520 Drittes Zeitdiagramm
521 Erste Akzentkomponente
522 Erster Zeitbereich
523 Akzenthub
524 Zweiter Zeitbereich
525 Dritter Zeitbereich
526 Zweite Akzentkomponente
527 Erster Zeitbereich
528 Zweiter Zeitbereich
530 Viertes Zeitdiagramm
513 Gesamt-Intonationskonturverlauf
600 Struktogramm 601 Verfahrensschritt
602 Verfahrensschritt
603 Verfahrensschritt
604 Verfahrensschritt
605 Verfahrensschritt
606 Verfahrensschritt
607 Verfahrensschritt
608 Verfahrensschritt
609 Verfahrensschritt
700 Struktogramm
701 Verfahrensschritt
702 Verfahrensschritt
703 Verfahrensschritt 704 Verfahrensschritt
705 Verfahrensschritt
706 Verfahrensschritt
707 Verfahrensschritt
708 Verfahrensschritt 709 Verfahrensschritt
710 Verfahrensschritt
711 Verfahrensschritt
712 Verfahrensschritt
713 Verfahrensschritt

Claims

Patentansprüche
1. Verfahren zur rechnergestützten Sprachsynthese eines gespeicherten elektronischen Textes zu einem analogen Sprachsignal ,
• bei dem der gespeicherte elektronische Text unter Verwendung vorgegebener Textanalyse-Regeln einer Textanalyse unterzogen wird,
• bei dem für den Fall, dass die Textanalyse-Regeln für den elektronischen Text erfüllt werden, eine erste Folge lautsprachlicher Einheiten gebildet wird,
• bei dem geprüft wird, ob der elektronische Text in einem elektronischen Abkurzungs-Lexikon enthalten ist,
• bei dem für den Fall, dass der elektronische Text in dem elektronischen Abkurzungs-Lexikon enthalten ist, eine zweite Folge lautsprachlicher Einheiten gebildet wird,
• bei dem geprüft wird, ob der elektronische Text in einem elektronischen Funktionswδrter-Lexikon enthalten ist,
• bei dem für den Fall, dass der elektronische Text in dem elektronischen Funktionswörter-Lexikon enthalten ist, eine dritte Folge lautsprachlicher Einheiten gebildet wird,
• bei dem für den Fall, dass die Textanalyse-Regeln für den elektronischen Text nicht erfüllt werden, unter Verwendung eines Ausnahme-Lexikons eine vierte Folge lautsprachlicher Einheiten gebildet wird, und
• bei dem für die jeweilige Folge lautsprachlicher Einheiten unter Verwendung vorgegebener Prosodie-Regeln eine Prosodie erzeugt wird, • bei dem aus der jeweiligen Folge lautsprachlicher
Einheiten und der Prosodie das analoge Sprachsignal erzeugt wird,
• wobei die lautsprachlichen Einheiten in komprimierter Form gespeichert werden, und • wobei zumindest ein Teil der gespeicherten komprimierten lautsprachlichen Einheiten vor Bildung der jeweiligen Folge lautsprachlicher Einheiten dekomprimiert wird.
2. Verfahren gemäß Anspruch 1 , bei dem die Komprimierung gemäß einem der Folgenden Verfahren erfolgt : • ADPCM,
• GSM,
• LPC, oder
• CELP .
3. Verfahren gemäß Anspruch 1 oder 2, bei dem als lautsprachliche Einheiten Diphone verwendet werden.
. Verfahren gemäß einem der Ansprüche 1 bis 3 , eingesetzt in einem Embedded System.
5. Sprachsyntheseeinrichtung zum Synthetisieren eines gespeicherten elektronischen Textes zu einem analogen Sprachsignal , • mit einem Text-Speicher zum Speichern des elektronischen
Textes,
• mit einem Regel-Speicher zum Speichern von Textanalyse- Regeln und Prosodie-Regeln,
• mit einem Lexikon-Speicher zum Speichern eines elektronischen Abkurzungs-Lexikons, eines elektronischen Funktionswörter-Lexikons und eines elektronischen Ausnahme-Lexikons,
• mit einem Prozessor, der derart eingerichtet ist, dass er unter Verwendung der gespeicherten Textanalyse-Regeln und Prosodie-Regeln sowie der gespeicherten elektronischen Lexika folgende Schritte durchführt: • der gespeicherte elektronische Text wird unter
Verwendung vorgegebener Textanalyse-Regeln einer
Textanalyse unterzogen, • für den Fall, dass die Textanalyse-Regeln für den elektronischen Text erfüllt werden, wird eine erste
Folge lautsprachlicher Einheiten gebildet, • es wird geprüft, ob der elektronische Text in einem elektronischen Abkurzungs-Lexikon enthalten ist,
• für den Fall, dass der elektronische Text in dem elektronischen Abkürzungs-Lexikon enthalten ist, wird eine zweite Folge lautsprachlicher Einheiten gebildet,
• es wird geprüft, ob der elektronische Text in einem elektronischen Funktionswörter-Lexikon enthalten ist, • für den Fall, dass der elektronische Text in dem elektronischen Funktionswörter-Lexikon enthalten ist, wird eine dritte Folge lautsprachlicher Einheiten gebildet,
• für den Fall, dass die Textanalyse-Regeln für den elektronischen Text nicht erfüllt werden, wird unter Verwendung eines Ausnahme-Lexikons eine vierte Folge lautsprachlicher Einheiten gebildet, und
• für die jeweilige Folge lautsprachlicher Einheiten wird unter Verwendung vorgegebener Prosodie-Regeln eine Prosodie erzeugt,
• aus der jeweiligen Folge lautsprachlicher Einheiten und der Prosodie wird das analoge Sprachsignal erzeugt, • wobei die lautsprachlichen Einheiten in komprimierter
Form gespeichert sind, und • wobei zumindest ein Teil der gespeicherten komprimierten lautsprachlichen Einheiten vor Bildung der jeweiligen Folge lautsprachlicher Einheiten dekomprimiert wird.
6. Sprachsyntheseeinrichtung gemäß Ansprüche 5 , eingerichtet als ein Embedded System.
7. Telekommunikationsgerät mit einer Sprachsyntheseeinrichtung gemäß Anspruch 5 oder 6.
PCT/DE2003/003158 2002-09-23 2003-09-23 Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät WO2004029929A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP03757683A EP1554715B1 (de) 2002-09-23 2003-09-23 Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
DE50312627T DE50312627D1 (de) 2002-09-23 2003-09-23 Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
US11/086,801 US7558732B2 (en) 2002-09-23 2005-03-22 Method and system for computer-aided speech synthesis

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10244166.9 2002-09-23
DE10244166 2002-09-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/086,801 Continuation US7558732B2 (en) 2002-09-23 2005-03-22 Method and system for computer-aided speech synthesis

Publications (1)

Publication Number Publication Date
WO2004029929A1 true WO2004029929A1 (de) 2004-04-08

Family

ID=32038177

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2003/003158 WO2004029929A1 (de) 2002-09-23 2003-09-23 Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät

Country Status (4)

Country Link
EP (1) EP1554715B1 (de)
CN (1) CN100354928C (de)
DE (1) DE50312627D1 (de)
WO (1) WO2004029929A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013219828B4 (de) * 2013-09-30 2019-05-02 Continental Automotive Gmbh Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
CN105895075B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 提高合成语音韵律自然度的方法及系统
CN108231058A (zh) * 2016-12-17 2018-06-29 鸿富锦精密电子(天津)有限公司 语音辅助测试系统及语音辅助测试方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MACCHI M: "Issues in text-to-speech synthesis", INTELLIGENCE AND SYSTEMS, 1998. PROCEEDINGS., IEEE INTERNATIONAL JOINT SYMPOSIA ON ROCKVILLE, MD, USA 21-23 MAY 1998, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 21 May 1998 (1998-05-21), pages 318 - 325, XP010288887, ISBN: 0-8186-8548-4 *
MOBERG M ET AL: "Optimizing speech synthesizer memory footprint through phoneme set reduction", PROCEEDINGS OF 2002 IEEE WORKSHOP ON SPEECH SYNTHESIS (CAT. NO.02EX555), PROCEEDINGS OF 2002 IEEE WORKSHOP ON SPEECH SYNTHESIS, SANTA MONICA, CA, USA, 11-13 SEPT. 2002, 2002, Piscataway, NJ, USA, IEEE, USA, pages 171 - 174, XP002267880, ISBN: 0-7803-7395-2 *
VAN DER VRECKEN O ET AL: "New techniques for the compression of synthesizer databases", CIRCUITS AND SYSTEMS, 1997. ISCAS '97., PROCEEDINGS OF 1997 IEEE INTERNATIONAL SYMPOSIUM ON HONG KONG 9-12 JUNE 1997, NEW YORK, NY, USA,IEEE, US, 9 June 1997 (1997-06-09), pages 2641 - 2644, XP010236271, ISBN: 0-7803-3583-X *

Also Published As

Publication number Publication date
EP1554715B1 (de) 2010-04-14
DE50312627D1 (de) 2010-05-27
CN100354928C (zh) 2007-12-12
EP1554715A1 (de) 2005-07-20
CN1685396A (zh) 2005-10-19

Similar Documents

Publication Publication Date Title
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
US7558732B2 (en) Method and system for computer-aided speech synthesis
KR900009170B1 (ko) 규칙합성형 음성합성시스템
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69620399T2 (de) Sprachsynthese
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE69413052T2 (de) Sprachsynthese
DE69521244T2 (de) System zur Text-Sprache-Umsetzung
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69427525T2 (de) Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE69710525T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system
Fletcher et al. Segment and syllable duration in Australian English

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003757683

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11086801

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20038226553

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2003757683

Country of ref document: EP