WO2002049003A1 - Verfahren und system zum umsetzen von text in sprache - Google Patents

Verfahren und system zum umsetzen von text in sprache Download PDF

Info

Publication number
WO2002049003A1
WO2002049003A1 PCT/DE2001/004658 DE0104658W WO0249003A1 WO 2002049003 A1 WO2002049003 A1 WO 2002049003A1 DE 0104658 W DE0104658 W DE 0104658W WO 0249003 A1 WO0249003 A1 WO 0249003A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
voice
receiving unit
unit
person
Prior art date
Application number
PCT/DE2001/004658
Other languages
English (en)
French (fr)
Inventor
Juan Dafcik
Stephan Mentz
Rainer Volland
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2002049003A1 publication Critical patent/WO2002049003A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions

Definitions

  • the present invention relates to a driving method for converting text present in electronic form into speech according to the preamble of claim 1 and a correspondingly designed system according to the preamble of claim 9.
  • Text-to-Speech technology
  • the voice with which the text in electronic form is read out is very impersonal and is generally the same for every text.
  • personal texts such as SMS messages ("Short Message Service”) or electronic mail (“E-Mail”)
  • SMS messages Short Message Service
  • E-Mail electronic mail
  • reading out with the voice of the author or sender of the respective text would be desirable to give the read text a personal touch.
  • the present invention is therefore based on the object of providing a possibility for reproducing texts in electronic form with a desired voice of an individual person.
  • a voice parameter set to the text to be read which describes a voice intended for the reproduction of the text of a previously selected person.
  • this can be the voice of the creator or sender of the text in electronic form.
  • a received SMS message could be read out from a mobile phone using the sender's voice. All that is required for this is that the voice parameters of the text creator or sender are extracted once on the sending device on which the text is created, the voice parameters for each text created by the same person, if desired, together with the text data to the respective person Receiving device can be sent.
  • the. Receiver already saved a database with voice parameters of different communication partners.
  • the identifier received together with the text data is then used to check whether a voice parameter data record already exists for the person identified by the identifier. If this is the case, the corresponding voice parameters are read out and used to reproduce the text in electronic form. If this is not the case, however, a command can be sent back to the sending device, whereby the sending device requests the desired voice parameters.
  • the transmitting device can also transmit voice parameters of any person together with the text data in order to achieve a certain effect. This is particularly advantageous, for example, if the text creator does not agree with the actual person of the sender (for example, in the event that a secretary writes an email for her boss and sends it on behalf of the boss). Voice parameters of well-known, prominent people (e.g. actors, politicians, etc.) can also be specified to reproduce the text.
  • the present invention is particularly suitable for the sending and voice reproduction of e-mails, SMS messages or electronic greeting cards via computers or mobile end devices, such as, for example, mobile telephones, cordless telephones or handheld organizers ("PDA").
  • PDA mobile telephones, cordless telephones or handheld organizers
  • the present invention can also be used to implement a personal reading voice for reading electronic books.
  • the present invention is not limited to the use case of sending texts in electronic form (for example via wireless radio connections), but can in principle also be used for use cases in which NEN the electronic text to be read is already stored in the respective playback device.
  • FIG. 1 shows a schematic illustration to explain the transmission and speech reproduction of text data according to a first exemplary embodiment of the present invention
  • FIG. 2 shows a schematic illustration to explain the transmission and speech reproduction of text data in accordance with a second exemplary embodiment of the present invention.
  • SMS message created and transmitted to the mobile phone 2 via radio link.
  • the text of the SMS message which is present in electronic form is converted from the mobile telephone 2 into speech by means of the so-called "text-to-speech" technology by means of synthetic speech generation and is reproduced via the loudspeaker of the mobile telephone 2.
  • the mobile telephone 1 comprises a unit 3 which takes a speech sample of a certain length for the user of the mobile telephone 1 and extracts from it certain voice parameters of the user of the mobile telephone 1, the voice parameters obtained in this way being as accurate as possible the voice describe or characterize the user of the mobile phone 1.
  • the voice parameters obtained in this way are stored in a voice parameter memory 4, so that in principle only a single extraction of the voice parameters of the Users of the mobile phone 1 is required. If the user of the mobile telephone 1 now creates an SMS message by key input, this is temporarily stored in an SMS memory 5 and then sent to the mobile telephone 2 of the desired recipient in the form of corresponding text data TD at the push of a button.
  • the mobile telephone 1 is designed such that not only the text data TD of the SMS message can be transmitted, but also the voice parameters assigned to the creator of the SMS message and read out from the voice parameter memory 4. As shown in FIG. 1, these voice parameters can be appended to the text data TD of the SMS message in the form of corresponding voice parameter data SD and transmitted to the mobile phone 2.
  • the receiving mobile phone 2 is designed such that when an SMS message is received, the text data TD of the received SMS message is first temporarily stored in an SMS memory 8.
  • a TTS unit 6 which converts a received and stored SMS message into speech at the push of a button by means of synthetic speech generation using the so-called "text-to-speech" technology (TTS) and reproduces it via the loudspeaker of the mobile telephone 2 ,
  • the SMS message is reproduced as a function of the voice parameter data SD transmitted together with the corresponding text data, which, when the corresponding SMS message is received, is temporarily stored in a voice parameter memory 7 and read out again by the TTS unit for later voice playback can be.
  • the text of the received SMS message received in electronic form is thus converted into speech by the TTS unit 6 by means of synthetic speech generation, taking into account the corresponding voice parameter data, in such a way that the text of the SMS message with the voice of the author or sender of the SMS Message or a similar voice is played.
  • the exemplary embodiment shown in FIG. 2 is similar in many points to the exemplary embodiment shown in FIG.
  • a transmission unit in the form of a mobile phone 1 is again provided, which has a unit 3 coupled to the microphone of the mobile phone 1 for extracting the voice parameters of the respective user of the mobile phone 1, a voice parameter memory 4 for storing the voice parameters thus obtained and an SMS memory 5 for storing SMS messages created on the mobile phone 1.
  • a receiving unit in the form of a mobile telephone 2 which comprises a TTS unit 6 for converting text present in electronic form by means of synthetic speech generation into speech and an SMS memory 8 for storing received SMS messages or the corresponding text data TD ,
  • the mobile telephone 2 instead of the voice parameter memory 7 shown in FIG. 1, the mobile telephone 2 has a voice parameter memory 9 in which a database with voice parameters of different communication partners is already stored.
  • the text data TD of the SMS message is transmitted to the mobile phone 2 after the creation of an SMS message on the mobile phone 1, as in the embodiment shown in FIG.
  • the voice parameters of the author of the SMS message are not transmitted to the mobile phone 2, but an identifier ID is used together with the text data TD of the SMS message transmitted, which clearly characterizes the mobile phone 1 or the user or author of the SMS message.
  • this can be, for example, the telephone number of the mobile telephone 1, which is also transmitted in any case in digital communication systems to the terminal device called in each case.
  • the corresponding text data TD is temporarily stored in the mobile phone 2 or in the SMS memory 8.
  • the identifier ID of the respective sender or author of the SMS message is stored for the received SMS message.
  • the TTS unit 6 checks whether a voice parameter set for the corresponding identifier ID has already been stored in the voice parameter memory 9. If this is the case, the voice parameters corresponding to the identifier ID are read out of the voice parameter memory 9 and used as a basis by the TTS unit for the speech generation or speech reproduction of the text data TD of the respective SMS message. On the other hand, if the respective identifier is ID, i.e.
  • the TTS unit 6 causes the mobile phone 2 to send a request to the mobile phone 1 from which the SMS message to be played back comes in order to request the missing voice parameters from the mobile phone 1.
  • a voice sample of the user of the mobile telephone 1 must then be recorded with the aid of the unit 3 and the corresponding voice parameters extracted therefrom, as has been described above with reference to FIG.
  • the voice parameters can then be sent to the mobile phone 2 via the radio link, where they are then stored in the voice parameter memory 9 in the form of a corresponding voice parameter set and thus for the desired speech reproduction of those previously transmitted from the mobile phone 1 to the mobile phone 2 SMS message through the TTS unit 6 are available.

Abstract

Zum persönlichen Vorlesen bzw. Wiedergeben von in elektronischer Form vorliegenden Texten mittels der sogenanten 'Text-to-Speech'-Technologie wird erfindungsgemäß vorgeschlagen, zusammen mit dem in elektronischer Form vorliegenden Text (TD) Stimmenparameter (SD) an eine zur Wiedergabe des Texts (TD) vorgesehene Empfangseinheit (2) zu übertragen, wobei die Empfangseinheit (2) den empfangenen Text (TD) unter Verwendung der zusammen mit dem Text empfangenen Stimmenparameter (SD) in Sprache umsetzt. Auf diese Weise ist das Vorlesen von in elektronischer Form vorliegenden Texten, wie beispielsweise von SMS-Mitteilungen oder E-Mails, mit der Stimme des Absenders möglich.

Description

Beschreibung
Verfahren und System zum Umsetzen von Text in Sprache
Die vorliegende Erfindung betrifft ein Nerfahren zum Umsetzen von in elektronischer Form vorliegendem Text in Sprache nach dem Oberbegriff des Anspruches 1 sowie ein entsprechend ausgestaltetes System nach dem Oberbegriff des Anspruches 9.
Werden auf einem elektronischen Gerät Texte in elektronischer Form gespeichert, so ist es in vielen Fällen günstig, diese von dem entsprechenden Gerät vorlesen zu lassen. Dies trifft insbesondere auf Situationen zu, bei denen man den Text selber nicht ablesen kann, wie beispielsweise beim Autofahren, bei Gebrauch eines Kopfhörers oder aber auch bei sehbehinderten Menschen. Das Vorlesen des in elektronischer Form vorliegenden Textes erfolgt durch die sogenannte "Text-to-Speech"- Technologie (TTS) , bei der die Textdaten durch synthetische Spracherzeugung in Sprache umgesetzt werden.
Bei herkömmlichen elektronischen Geräten ist die Stimme, mit welcher der in elektronischer Form vorliegende Text vorgelesen wird, sehr unpersönlich und in der Regel für jeden Text gleich. Besonders bei persönlichen Texten, wie beispielsweise bei SMS-Mitteilungen ("Short Message Service") oder bei e- lektronischer Post ("E-Mail"), wäre ein Vorlesen beispielsweise mit der Stimme des Verfassers oder Absenders des jeweiligen Textes wünschenswert, um somit dem vorgelesenen Text eine persönliche Note zu verleihen.
Zur Lösung dieses Problems sind bisher keine Ansätze bekannt . Bei herkömmlichen elektronischen Geräten mit "Text-to- Speech" -Technologie, wie beispielsweise Mobiltelefonen, welche zur Sprachwiedergabe von SMS-Mitteilungen oder E-Mails ausgestaltet sind, besteht lediglich die Möglichkeit, die zur Wiedergabe des in elektronischer Form vorliegenden Textes vorgesehene Stimme grob einzustellen. So kann beispielsweise zwischen einer männlichen und einer weiblichen Stimme oder zwischen einer Stimme einer jüngeren Person und einer Stimme einer älteren Person ausgewählt werden.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, eine Möglichkeit bereitzustellen, um in elektronischer Form vorliegende Texte mit einer gewünschten Stimme einer individuellen Person wiederzugeben.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruches 1 bzw. ein System mit den Merkmalen des Anspruches 9 gelöst. Die Unteransprüche definieren jeweils bevorzugte und vorteilhafte Ausführungsformen der vorliegenden Erfindung.
Erfindungsgemäß wird vorgeschlagen, dem jeweils vorzulesenden Text einen Stimmenparametersatz zuzuordnen, welcher eine für die Wiedergabe des Textes vorgesehene Stimme einer zuvor ausgewählten Person beschreibt . Dabei kann es sich insbesondere um die Stimme des Erstellers bzw. Absenders des jeweiligen, in elektronischer Form vorliegenden Textes handeln. Auf diese Weise könnte beispielsweise eine empfangene SMS-Mitteilung von einem Mobiltelefon mit der Stimme des Absenders vorgelesen werden. Hierzu ist lediglich erforderlich, dass auf dem Sendegerät, an dem der Text erstellt wird, einmalig eine Extraktion der Stimmenparameter des Texterstellers bzw. Absenders vorgenommen wird, wobei die Stimmenparameter dann für jeden von derselben Person erstellten Text auf Wunsch zusammen mit den Textdaten an das jeweilige Empfangsgerät gesendet werden kann.
Gemäß einer Variante der vorliegenden Erfindung ist auf dem . Empfangsgerät bereits eine Datenbank mit Stimmenparametern verschiedener Kommunikationspartner gespeichert . In diesem Fall ist lediglich erforderlich, von dem Sendegerät zusammen mit den Textdaten eine Kennung ("Identifier" , ID) zu übertragen, welche den jeweiligen Absender oder Ersteller des Textes bzw. deren Stimme bezeichnet. Im Empfangsgerät wird dann anhand der zusammen mit den Textdaten empfangenen Kennung überprüft, ob bereits ein Stimmenparameter-Datensatz für die durch die Kennung bezeichnete Person vorliegt. Ist dies der Fall, werden die entsprechenden Stimmenparameter ausgelesen und für die Wiedergabe des in elektronischer Form vorliegenden Textes verwendet. Ist dies jedoch nicht der Fall, kann an das Sendegerät ein Befehl zurückgesendet werden, wodurch vom Sendegerät die gewünschten Stimmenparameter angefordert wer- den.
Im Rahmen der vorliegenden Erfindung ist nicht nur vorgesehen, für die Wiedergabe des in elektronischer Form vorliegenden Textes die Stimmenparameter des Texterstellers zu verwen- den. Vielmehr können vom Sendegerät auch Stimmenparameter beliebiger Personen zusammen mit den Textdaten übertragen werden, um eine bestimmte Wirkung zu erzielen. Dies ist beispielsweise insbesondere dann vorteilhaft, wenn der Textersteller nicht mit der eigentlichen Person des Absenders über- einstimmt (beispielsweise für den Fall, dass eine Sekretärin eine E-Mail für ihren Chef verfasst und im Namen des Chefs versendet) . Ebenso können zur Wiedergabe des Textes Stimmenparameter bekannter, prominenter Personen (beispielsweise von Schauspielern, Politikern etc.) vorgegeben werden.
Die vorliegende Erfindung eignet sich insbesondere für die Versendung und sprachliche Wiedergabe von E-Mails, SMS- Mitteilungen oder elektronischen Grußkarten über Computer o- der mobile Endgeräte, wie beispielsweise Mobiltelefone, Schnurlostelefone oder Handheld-Organizer ("PDA"). Ebenso kann die vorliegende Erfindung auch zur Realisierung einer persönlichen Vorlesestimme zum Vorlesen von elektronischen Büchern verwendet werden. Die vorliegende Erfindung ist jedoch nicht auf den Anwendungsfall des Versendens von in e- lektronischer Form vorliegenden Texten (beispielsweise über kabellose Funkverbindungen) beschränkt, sondern kann grundsätzlich auch auf Anwendungsfälle angewendet werden, bei de- nen der vorzulesende elektronische Text bereits in dem jeweiligen Wiedergabegerät gespeichert ist.
Die vorliegende Erfindung wird nachfolgend anhand bevorzugter Ausführungsbeispiele unter Bezugnahme auf die beigefügte Zeichnung näher erläutert .
Figur 1 zeigt eine schematische Darstellung zur Erläuterung der Übertragung und sprachlichen Wiedergabe von Textdaten ge- maß einem ersten Ausführungsbeispiel der vorliegenden Erfindung, und
Figur 2 zeigt eine schematische Darstellung zur Erläuterung der Übertragung und sprachlichen Wiedergabe von Textdaten ge- maß einem zweiten Ausführungsbeispiel der vorliegenden Erfindung.
In Figur 1 ist eine Kommunikation zwischen zwei Mobiltelefonen 1, 2 dargestellt. Dabei wird davon ausgegangen, dass an dem Mobiltelefon 1 eine auch als SMS-Mitteilung bezeichnete
Kurzmitteilung erstellt und über Funkverbindung an das Mobiltelefon 2 übertragen wird. Von dem Mobiltelefon 2 wird der in elektronischer Form vorliegende Text der SMS-Mitteilung mittels der sogenannten "Text-to-Speech" -Technologie durch syn- thetische Spracherzeugung in Sprache umgesetzt und über den Lautsprecher des Mobiltelefons 2 wiedergegeben.
Bei dem in Figur 1 gezeigten Ausführungsbeispiel umfasst das Mobiltelefon 1 eine Einheit 3, welche eine Sprachprobe be- stimmter Länge des Benutzers des Mobiltelefons 1 aufnimmt und daraus bestimmte Stimmenparameter des Benutzers des Mobiltelefons 1 extrahiert, wobei die auf diese Weise gewonnenen Stimmenparameter möglichst exakt die Stimme des Benutzers des Mobiltelefons 1 beschreiben bzw. charakterisieren. Die auf diese Weise gewonnenen Stimmenparameter werden in einem Stimmenparameter-Speicher 4 gespeichert, so dass im Prinzip lediglich eine einmalige Extraktion der Stimmenparameter des Benutzers des Mobiltelefons 1 erforderlich ist. Wird nunmehr von dem Benutzer des Mobiltelefons 1 eine SMS-Mitteilung durch Tasteneingabe erstellt, wird diese in einem SMS- Speicher 5 zwischengespeichert und anschließend auf Tasten- druck in Form entsprechender Textdaten TD an das Mobiltelefon 2 des gewünschten Empfängers gesendet. Dabei ist das Mobiltelefon 1 derart ausgestaltet, dass auf Wunsch nicht nur die Textdaten TD der SMS-Mitteilung übertragen werden, sondern auch die dem Ersteller der SMS-Mitteilung zugeordneten und aus dem Stimmenparameter-Speicher 4 ausgelesenen Stimmenparameter. Diese Stimmenparameter können beispielsweise wie in Figur 1 gezeigt in Form entsprechender Stimmenparameterdaten SD an die Textdaten TD der SMS-Mitteilung angehängt und an das Mobiltelefon 2 übertragen werden.
Das empfangende Mobiltelefon 2 ist derart ausgestaltet, dass bei Empfang einer SMS-Mitteilung die Textdaten TD der empfangenen SMS-Mitteilung zunächst in einem SMS-Speicher 8 zwischengespeichert werden. Darüber hinaus ist eine TTS-Einheit 6 vorgesehen, welche auf Tastendruck mittels synthetischer Spracherzeugung unter Anwendung der sogenannten "Text-to- Speech" -Technologie (TTS) eine empfangene und gespeicherte SMS-Mitteilung in Sprache umsetzt und über den Lautsprecher des Mobiltelefons 2 wiedergibt. Dabei erfolgt die Wiedergabe der SMS-Mitteilung in Abhängigkeit von den zusammen mit den entsprechenden Textdaten übertragenen Stimmenparameterdaten SD, welche bei Empfang der entsprechenden SMS-Mitteilung in einen Stimmenparameter-Speicher 7 zwischengespeichert und für eine spätere Sprachwiedergabe von der TTS-Einheit wieder aus- gelesen werden können. Der in elektronischer Form vorliegende Text der empfangenen SMS-Mitteilung wird somit derart von der TTS-Einheit 6 mittels synthetischer Spracherzeugung unter Berücksichtigung der entsprechenden Stimmenparameterdaten in Sprache umgesetzt, dass der Text der SMS-Mitteilung mit der Stimme des Verfassers bzw. Absenders der SMS-Mitteilung oder einer möglichst ähnlichen Stimme wiedergegeben wird. Das in Figur 2 dargestellte Ausführungsbeispiel ist in vielen Punkten ähnlich zu dem in Figur 1 dargestellten Ausführungs- beispiel. Es ist wieder eine Sendeeinheit in Form eines Mobiltelefons 1 vorgesehen, welche eine mit dem Mikrophon des Mobiltelefons 1 gekoppelte Einheit 3 zur Extraktion der Stimmenparameter des jeweiligen Benutzers des Mobiltelefons 1, einen Stimmenparameter-Speicher 4 zum Speichern der somit gewonnenen Stimmenparameter und einen SMS-Speieher 5 zum Speichern von an dem Mobiltelefon 1 erstellten SMS-Mitteilungen umfasst. Ebenso ist eine Empfangseinheit in Form eines Mobiltelefons 2 vorgesehen, welche eine TTS-Einheit 6 zur Umsetzung von in elektronischer Form vorliegenden Text mittels synthetischer Spracherzeugung in Sprache und einen SMS- Speicher 8 zum Speichern von empfangenen SMS-Mitteilungen bzw. der entsprechenden Textdaten TD umfasst. Darüber hinaus weist das Mobiltelefon 2 anstelle des in Figur 1 gezeigten Stimmenparameter-Speichers 7 einen Stimmenparameter-Speicher 9 auf, in dem bereits eine Datenbank mit Stimmenparametern verschiedener Kommunikationspartner gespeichert ist.
Bei dem in Figur 2 gezeigten Ausführungsbeispiel werden nach Erstellung einer SMS-Mitteilung an dem Mobiltelefon 1 die Textdaten TD der SMS-Mitteilung wie bei dem in Figur 1 gezeigten Ausführungsbeispiel an das Mobiltelefon 2 übertragen. Im Gegensatz zu dem in Figur 1 gezeigten Ausführungsbeispiel werden jedoch bei dem in Figur 2 gezeigten Ausführungsbei- spiel nicht die Stimmenparameter des Verfassers der SMS- Mitteilung an das Mobiltelefon 2 übertragen, sondern es wird zusammen mit den Textdaten TD der SMS-Mitteilung eine Kennung ID übertragen, welche das Mobiltelefon 1 bzw. den Benutzer oder Verfasser der SMS-Mitteilung eindeutig charakterisiert. Dabei kann es sich beispielsweise im einfachsten Fall um die Rufnummer des Mobiltelefons 1 handeln, welche ohnehin in digitalen Kommunikationssystemen an das jeweils gerufene Endge- rät mit übertragen wird. Bei Empfang einer SMS-Mitteilung von dem Mobiltelefon 1 werden die entsprechenden Textdaten TD in dem Mobiltelefon 2 bzw. in dem SMS-Speicher 8 zwischengespeichert. Darüber hinaus wird zu der empfangenen SMS-Mitteilung die Kennung ID des jeweiligen Absenders bzw. Verfassers der SMS-Mitteilung abgespeichert.
Wird von dem Benutzer des Mobiltelefons 2 eine Sprachwiedergabe der empfangenen und zwischengespeicherten SMS-Mitteilung gewünscht, überprüft die TTS-Einheit 6, ob zu der entsprechenden Kennung ID bereits ein Stimmenparametersatz in dem Stimmenparameter-Speicher 9 gespeichert ist. Ist dies der Fall, werden die der Kennung ID entsprechenden Stimmenparameter aus dem Stimmenparameter-Speicher 9 ausgelesen und von der TTS-Einheit der Spracherzeugung bzw. Sprachwiedergabe der Textdaten TD der jeweiligen SMS-Mitteilung zugrundegelegt. Ist hingegen für die jeweilige Kennung ID, d.h. für die der jeweiligen Kennung ID entsprechende Person, noch kein Stimmenparametersatz in dem Stimmenparameter-Speicher 9 gespei- chert, veranlasst die TTS-Einheit 6, dass von dem Mobiltelefon 2 eine Aufforderung an dasjenige Mobiltelefon 1 gesendet wird, von dem die wiederzugebende SMS-Mitteilung stammt, um somit von dem Mobiltelefon 1 die fehlenden Stimmenparameter anzufordern. Bei Empfang einer derartigen Aufforderung muss dann, wie zuvor anhand von Figur 1 beschrieben worden ist, mit Hilfe der Einheit 3 eine Stimmenprobe des Benutzers des Mobiltelefons 1 aufgenommen und daraus die entsprechenden Stimmenparameter extrahiert werden. Anschließend können die Stimmenparameter über die Funkverbindung an das Mobiltelefon 2 gesendet werden, wo sie anschließend in dem Stimmenparameter-Speicher 9 in Form eines entsprechenden Stimmenparameter- satzes gespeichert werden und somit für die gewünschte Sprachwiedergabe der bereits zuvor von dem Mobiltelefon 1 an das Mobiltelefon 2 übertragenen SMS-Mitteilung durch die TTS- Einheit 6 zur Verfügung stehen.

Claims

Patentansprüche
1. Verfahren zum Umsetzen von Text in Sprache, wobei von einer Sendeeinheit (1) ein in elektronischer Form vorliegender Text (TD) an eine Empfangseinheit (2) übertragen und von der Empfangseinheit (2) mittels synthetischer Spracherzeugung in Sprache umgesetzt und wiedergegeben wird, dadurch g e k e n n z e i c h n e t , dass von der Sendeeinheit (1) zusammen mit dem in elektroni- scher Form vorliegenden Text (TD) personengebundene Informationen (SD, ID) an die Empfangseinheit (2) übertragen werden, und dass von der Empfangseinheit (2) aus den personengebundenen Informationen (SD, ID) eine für die Wiedergabe des Textes (TD) vorgesehene Stimme abgeleitet und bei der Umsetzung sowie Wiedergabe des Textes (TD) verwendet wird.
2. Verfahren nach Anspruch 1 , dadurch g e k e n n z e i c h n e t , dass von der Sendeeinheit (1) als personengebundene Informationen personengebundene Stimmenparameter (SD) zusammen mit dem in elektronischer Form vorliegenden Text (TD) an die Empfangseinheit (2) übertragen werden, wobei die personengebundenen Stimmenparameter (SD) eine für die Wiedergabe des Tex- tes (TD) vorgesehene Stimme einer bestimmten Person beschreiben, und dass von der Empfangseinheit (2) der Text (TD) in Abhängigkeit von den personengebundenen Stimmenparametern (SD) in Sprache umgesetzt und mit der entsprechenden Stimme wiederge- geben wird.
3. Verfahren nach Anspruch 2 , dadurch g e k e n n z e i c h n e t , dass von der Sendeeinheit (1) die Stimme der den Text (TD) erstellenden Person in die personengebundenen Stimmenparameter (SD) zerlegt und in Form der personengebundenen Stimmenparameter (SD) an die Empfangseinheit (2) übertragen wird.
4. Verfahren nach Anspruch 1 , dadurch g e k e n n z e i c h n e t , dass in der Empfangseinheit (2) mehrere Datensätze von perso- nengebundenen Stimmenparametern (SD) , welche die Stimmen unterschiedlicher Personen beschreiben, gespeichert werden, dass von der Sendeeinheit (1) zusammen mit dem in elektronischer Form vorliegenden Text (TD) als personengebundene Informationen eine für die Wiedergabe des Textes bestimmte Per- son oder deren Stimme beschreibende Kennung (ID) an die Empfangseinheit (2) übertragen wird, und dass in der Empfangseinheit (2) die der Kennung (ID) entsprechenden Stimmenparameter ausgelesen und für die Umsetzung des in elektronischer Form vorliegenden Textes (TD) in Sprache verwendet werden.
5. Verfahren nach Anspruch 4 , dadurch g e k e n n z e i c h n e t , dass von der Empfangseinheit (2) von der Sendeeinheit (1) die der zuvor von der Sendeeinheit (1) übertragenen Kennung (ID) entsprechenden Stimmenparameter angefordert werden, falls in der Empfangseinheit (2) noch kein der Kennung (ID) entsprechender Datensatz von personengebundenen Stimmenparametern gespeichert ist .
6. Verfahren nach Anspruch 4 oder 5 , dadurch g e k e n n z e i c h n e t , dass die von der Sendeeinheit (1) an die Empfangseinheit (2) zusammen mit dem in elektronischer Form vorliegenden Text (TD) übertragene Kennung (ID) diejenige Person oder deren
Stimme bezeichnet, welche den Text (TD) auf der Sendeeinheit (1) erstellt hat.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , dass als Empfangseinheit (2) ein mit der Sendeeinheit (1) kabellos kommunizierendes mobiles Gerät (2) verwendet wird.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , dass als Sendeeinheit (1) ein mit der Empfangseinheit (2) ka- beilos kommunizierendes mobiles Gerät verwendet wird. '
9. System zum Umsetzen von Text in Sprache, mit einer Sendeeinheit (1) zum Erstellen eines in elektronischer Form vorliegenden Texts (TD) und zur Übertragung des in elektronischer Form vorliegenden Texts (TD) an eine Empfangseinheit (2) , wobei die Empfangseinheit (2) Spracherzeugungsmittel (6) zur Umsetzung des von der Sendeeinheit (1) empfangenen und in e- lektronischen Form vorliegenden Texts (TD) in Sprache um- fasst, dadurch g e k e n n z e i c h n e t , dass die Sendeeinheit (1) zur Übertragung von personengebundenen Informationen (SD, ID) zusammen mit dem in elektronischer Form vorliegenden Text (TD) an die Empfangseinheit (2) ausgestaltet ist, und dass die Spracherzeugungsmittel (6) der Empfangseinheit (2) derart ausgestaltet sind, dass sie aus den von der Sendeeinheit (1) empfangenen personengebundenen Informationen (SD, ID) personengebundene Stimmenparameter, welche eine für die Wiedergabe des Texts (TD) vorgesehene Stimme einer bestimmten Person beschreiben, ableiten und die Umsetzung des Texts in die Sprache auf Grundlage dieser personengebundenen Stimmenparameter durchführen.
10. System nach Anspruch 9, dadurch g e k e n n z e i c h n e t , dass die Sendeeinheit (1) zur Übertragung des in elektronischer Form vorliegenden Texts (TD) zusammen mit den personengebundenen Stimmenparametern (SD) als personengebundene In- formationen an die Empfangseinheit (2) ausgestaltet ist, und dass die Spracherzeugungsmittel (6) der Empfangseinheit (2) derart ausgestaltet sind, dass sie den von der Empfangsein- heit (1) empfangenen Text (TD) in Abhängigkeit von den ebenfalls von der Empfangseinheit (1) empfangenen personengebundenen Stimmenparametern (SD) in Sprache umsetzen und mit der entsprechenden Stimme wiedergeben.
11. System nach Anspruch 10, dadurch g e k e n n z e i c h n e t , dass die Sendeeinheit (1) Stimmenparametererzeugungsmittel (3) zur Erzeugung von Stimmenparametern (SD) , welche die Stimme der den Text (TD) erstellenden Person beschreiben, umfassen.
12. System nach Anspruch 9, dadurch g e k e n n z e i c h n e t , dass die Empfangseinheit (2) Speichermittel (9) zum Speichern mehrerer Datensätze von personengebundenen Stimmenparametern, welche die Stimmen unterschiedlicher Personen beschreiben, umfassen, und dass die Sendeeinheit (1) derart ausgestaltet ist, dass sie zusammen mit dem in elektronischer Form vorliegenden Text
(TD) als personengebundene Information eine Kennung (ID) an die Sendeeinheit (2) überträgt, wobei diese Kennung (ID) diejenige Person, deren Stimme für die Wiedergabe des Textes (TD) vorgesehen ist, oder deren Stimme beschreibt und dass die Spracherzeugungsmittel (6) der Empfangseinheit (2) derart ausgestaltet sind, dass sie den der von der Sendeeinheit (1) empfangenen Kennung entsprechenden Datensatz von personengebundenen Stimmenparametern aus den Speichermitteln (9) auslesen und für die Umsetzung des von der Sendeeinheit (1) empfangenen Texts (TD) in Sprache zugrundelegen.
13. System nach Anspruch 12 , dadurch g e k e n n z e i c h n e t , dass die Empfangseinheit (2) derart ausgestaltet ist, dass sie für den Fall, dass in den Speichermitteln (9) kein der von der Sendeeinheit (1) empfangenen Kennung entsprechender Datensatz von personengebundenen Stimmenparametern gespei- chert ist, einen Befehl zur Anforderung von der Kennung (ID) entsprechenden personengebundenen Stimmenparametern an die Sendeeinheit (1) sendet.
14. System nach Anspruch 12 oder 13 , dadurch g e k e n n z e i c h n e t , dass die von der Sendeeinheit (1) an die Empfangseinheit (2) übertragene Kennung (ID) diejenige Person bezeichnet, welche zuvor an der Sendeeinheit (1) den Text (TD) erstellt hat, o- der deren Stimme bezeichnet.
PCT/DE2001/004658 2000-12-14 2001-12-11 Verfahren und system zum umsetzen von text in sprache WO2002049003A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10062379.4 2000-12-14
DE10062379A DE10062379A1 (de) 2000-12-14 2000-12-14 Verfahren und System zum Umsetzen von Text in Sprache

Publications (1)

Publication Number Publication Date
WO2002049003A1 true WO2002049003A1 (de) 2002-06-20

Family

ID=7667164

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2001/004658 WO2002049003A1 (de) 2000-12-14 2001-12-11 Verfahren und system zum umsetzen von text in sprache

Country Status (2)

Country Link
DE (1) DE10062379A1 (de)
WO (1) WO2002049003A1 (de)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2383502A (en) * 2001-11-02 2003-06-25 Nec Corp Voice syntehsis for text messaging to portable terminal
WO2003071520A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte sprachsynthese
GB2389762A (en) * 2002-06-13 2003-12-17 Seiko Epson Corp A semiconductor chip which includes a text to speech (TTS) system, for a mobile telephone or other electronic product
WO2004023828A2 (de) 2002-09-06 2004-03-18 Telion Telematics Gmbh Verfahren und system zur übermittlung von textdaten sowie teilnehmereinrichtung hiefür
GB2412046A (en) * 2004-03-11 2005-09-14 Seiko Epson Corp Semiconductor device having a TTS system to which is applied a voice parameter set
DE102004020710B4 (de) * 2003-04-24 2005-12-08 Visteon Global Technologies, Inc., Dearborn Anordnung zur Erzeugung von Informationsansagen
EP1623409A2 (de) * 2003-05-09 2006-02-08 Cisco Technology, Inc. Quellenabhängiges text-zu-sprache-system
EP1681840A1 (de) * 2005-01-12 2006-07-19 NEC Corporation Tragbares Kommunikationsendgerät, Nachrichtenausgabeverfahren und dazugehöriges Programm
WO2008043694A1 (en) * 2006-10-10 2008-04-17 International Business Machines Corporation Voice messaging feature provided for electronic communications
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
WO2016115716A1 (zh) * 2015-01-23 2016-07-28 华为技术有限公司 一种语音播放方法和语音播放设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10254183A1 (de) * 2002-11-20 2004-06-17 Siemens Ag Verfahren zur Wiedergabe von gesendeten Textnachrichten
DE102007055420B4 (de) * 2007-11-20 2010-09-16 Stöcklin, Norbert Verfahren zur Informationssammlung und Anlage zum Verteilen und Sammeln von Informationen

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0901000A2 (de) * 1997-07-31 1999-03-10 Toyota Jidosha Kabushiki Kaisha Nachrichtenverarbeitungssystem und Verfahren für die Verarbeitung von Nachrichten
EP1168297A1 (de) * 2000-06-30 2002-01-02 Nokia Mobile Phones Ltd. Sprachsynthese

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0901000A2 (de) * 1997-07-31 1999-03-10 Toyota Jidosha Kabushiki Kaisha Nachrichtenverarbeitungssystem und Verfahren für die Verarbeitung von Nachrichten
EP1168297A1 (de) * 2000-06-30 2002-01-02 Nokia Mobile Phones Ltd. Sprachsynthese

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2383502B (en) * 2001-11-02 2005-11-02 Nec Corp Voice synthesis system and method,and portable terminal and server therefor
GB2383502A (en) * 2001-11-02 2003-06-25 Nec Corp Voice syntehsis for text messaging to portable terminal
US7313522B2 (en) 2001-11-02 2007-12-25 Nec Corporation Voice synthesis system and method that performs voice synthesis of text data provided by a portable terminal
WO2003071520A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte sprachsynthese
GB2389762A (en) * 2002-06-13 2003-12-17 Seiko Epson Corp A semiconductor chip which includes a text to speech (TTS) system, for a mobile telephone or other electronic product
WO2004023828A2 (de) 2002-09-06 2004-03-18 Telion Telematics Gmbh Verfahren und system zur übermittlung von textdaten sowie teilnehmereinrichtung hiefür
DE102004020710B4 (de) * 2003-04-24 2005-12-08 Visteon Global Technologies, Inc., Dearborn Anordnung zur Erzeugung von Informationsansagen
EP1623409A2 (de) * 2003-05-09 2006-02-08 Cisco Technology, Inc. Quellenabhängiges text-zu-sprache-system
EP1623409A4 (de) * 2003-05-09 2007-01-10 Cisco Tech Inc Quellenabhängiges text-zu-sprache-system
US8005677B2 (en) 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
GB2412046A (en) * 2004-03-11 2005-09-14 Seiko Epson Corp Semiconductor device having a TTS system to which is applied a voice parameter set
EP1681840A1 (de) * 2005-01-12 2006-07-19 NEC Corporation Tragbares Kommunikationsendgerät, Nachrichtenausgabeverfahren und dazugehöriges Programm
US7885719B2 (en) 2005-01-12 2011-02-08 Nec Corporation Portable communication terminal, message output method used for the portable communication terminal, and program therefor
WO2008043694A1 (en) * 2006-10-10 2008-04-17 International Business Machines Corporation Voice messaging feature provided for electronic communications
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
WO2016115716A1 (zh) * 2015-01-23 2016-07-28 华为技术有限公司 一种语音播放方法和语音播放设备

Also Published As

Publication number Publication date
DE10062379A1 (de) 2002-06-20

Similar Documents

Publication Publication Date Title
WO2002049003A1 (de) Verfahren und system zum umsetzen von text in sprache
DE60124985T2 (de) Sprachsynthese
EP0644680B1 (de) Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
DE69725761T2 (de) System und verfahren zur kodierung und zur aussendung von sprachdaten
DE4436175B4 (de) Vorrichtung zum Fernzugreifen auf einen Computer ausgehend von einem Telefonhandapparat
EP1895745B1 (de) Verfahren und Kommunikationssystem zum kontinuierlichen Aufnehmen von Umgebungsdaten
DE3843662A1 (de) Vorrichtung und verfahren zum speichern und weitergeben von tonsignalen
WO2002018897A1 (de) Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung
DE19856441C2 (de) Verfahren zur Übertragung von Kurznachrichten
DE69534561T2 (de) Sender-empfänger
DE10117367B4 (de) Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten
DE69721404T2 (de) Diktiersystem
EP0856976B1 (de) Kommunikationssystem für Hörbehinderte, Telefon und Verfahren zum Telefonieren mit einem derartigen Kommunikationssystem
EP1397925A2 (de) Verfahren und vorrichtung zum übermitteln von informationen
DE69910412T2 (de) Sprachgesteuerte navigation für einen elektronischen post leser
DE102006032510B4 (de) Verfahren und Einrichtung zum Bereitstellen und Verbreiten von Informationen
EP1122716A2 (de) Vorrichtung zur Umwandlung von gedruckten Texten in Sprache
WO2001039440A1 (de) Versand von e-mails mittels telefon
DE2115709A1 (de) Endgerät für datenverarbeitende Anlagen
WO2004047466A2 (de) Verfahren zur wiedergabe von gesendeten textnachrichten
DE102016002496A1 (de) Verfahren und System zum Wiedergeben einer Textnachricht
DE10122192B4 (de) Kommunikationseinrichtung
EP0660299B1 (de) Verfahren und Vorrichtung zur Übertragung von Diktaten
EP1071056A2 (de) Verfahren zur drahtlosen Übertragung von Nachrichten zwischen einem fahrzeuginternen Kommunikationssytem und einem fahrzeuexternen Zentralrechner
DE3328085A1 (de) Verfahren zur quittierung von dokumenten durch ueber einen fernsprechkanal uebertragene signale zur sprecheridentifizierung

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN HU US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase