WO2005011235A1 - Verfahren und system zum bereitstellen einer freisprechfunktionalität bei mobilen telekommunikationsendeinrichtungen durch temporäres herunterladen eines sprachverarbeitungsalgorithmus - Google Patents

Verfahren und system zum bereitstellen einer freisprechfunktionalität bei mobilen telekommunikationsendeinrichtungen durch temporäres herunterladen eines sprachverarbeitungsalgorithmus Download PDF

Info

Publication number
WO2005011235A1
WO2005011235A1 PCT/DE2004/001253 DE2004001253W WO2005011235A1 WO 2005011235 A1 WO2005011235 A1 WO 2005011235A1 DE 2004001253 W DE2004001253 W DE 2004001253W WO 2005011235 A1 WO2005011235 A1 WO 2005011235A1
Authority
WO
WIPO (PCT)
Prior art keywords
telecommunications terminal
further characterized
service server
server
speech
Prior art date
Application number
PCT/DE2004/001253
Other languages
English (en)
French (fr)
Inventor
Fred Runge
Christel Müller
Marian Trinkel
Rainer Zelinski
Original Assignee
Deutsche Telecom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telecom Ag filed Critical Deutsche Telecom Ag
Priority to US10/565,629 priority Critical patent/US20060223512A1/en
Priority to EP04738704A priority patent/EP1649672A1/de
Publication of WO2005011235A1 publication Critical patent/WO2005011235A1/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42136Administration or customisation of services
    • H04M3/42178Administration or customisation of services by downloading data to substation equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72406User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by software upgrading or downloading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Definitions

  • the invention relates to a method for carrying out a hands-free communication using a telecommunication terminal, in particular a mobile telecommunication terminal, and a system for providing such a hands-free communication and for use within such a system appropriately adapted devices.
  • Voice services which can be called by telephone and which have implemented, server-based speech recognition (Automatic Speech Recognition, ASR) are known from the prior art.
  • a dialog system connected to the telephone network enables communication between these services and a user, the aforementioned speech recognition forming a technical basis for this communication.
  • Such server-based speech recognition generally has programs for implementing algorithms for processing digitized speech data and subsequently for recognizing spoken utterances by the user.
  • echo compensation and noise reduction methods are used on the corresponding server system connected to the telephone network to improve recognition in a preprocessing stage of speech recognition.
  • DSR distributed speech recognition
  • telecommunications terminals such as an MDA or PDA mentioned above, or even a telephone, including a cordless or mobile telephone, from a moving vehicle, for example also for the use of voice services, by the legislator different handsets are required in different countries.
  • Such hands-free systems generally have a so-called level scale to avoid feedback between the microphone and loudspeaker.
  • level scales can fluctuations in the occurrence of background noise
  • An object of the invention is to show a way which is new and significantly improved compared to the above-mentioned prior art, with which an extremely flexible hands-free functionality for
  • telecommunications terminal equipment can be guaranteed, but especially for the aforementioned mobile telecommunications terminal equipment, which generally only has a very limited storage capacity.
  • the invention thus proposes a method for carrying out hands-free communication using a telecommunications terminal, in particular a mobile telecommunications terminal, in which at least one program for realizing a communication connection, at least for the duration of a communication connection
  • Speech processing algorithm in particular a hands-free algorithm, is temporarily or permanently loaded into the communication device by a service server and implemented for use.
  • Telecommunication terminal devices such as a PDA, MDA or a mobile phone can be used, which have no or only a very small storage capacity, in particular also permanent storage capacity, and furthermore, similar to human-to-human communication, the transmission of
  • Voice signals are made possible during the telecommunication connection.
  • a voice service for example based on server-based voice recognition as with the ASR, can already use existing interfaces under hands-free conditions using existing interfaces
  • Telecommunication networks are used, ie without, as is the case with the distributed speech recognition DSR
  • the case is the need for an additional agreement or standardization of new or further interfaces.
  • the loading comprises the loading of at least one echo cancellation and / or noise reduction algorithm from the service server. Additionally or alternatively, at least one voice and / or voice verification, recognition, and / or
  • classification algorithm can be loaded by the service server, a user and / or a language can also be verified in this way, depending on the application, e.g. as registered with a service, recognizable, e.g. from a group of people, and / or classifiable, e.g. as male or female.
  • a program for realizing a "text-to-speech" algorithm that is to say for the automated conversion of texts into speech, can be loaded.
  • the voice signals to be transmitted are preferably digitized for transmission, with an additional coding of the, depending on the telecommunications terminal used
  • Voice signals can be carried out, for example based on a terminal device operating according to the GSM standard.
  • Preferred embodiments of correspondingly adapted devices thus comprise A / D and / or D / A converters and are system-system-specifically designed for the use of, in particular, digital algorithms.
  • the service server which expediently contains one Has stored a large number of algorithms for temporary loading, in order to further increase flexibility, in particular with regard to the provisioning and access capacities, it is provided that the latter is arranged so that it can be accessed centrally via at least one communication network. Connections can accordingly be established in a simple manner, essentially location-independent, between one or a plurality of telecommunication terminal devices and the service server via the at least one communication network, for example a radio network, fixed network and / or the Internet.
  • such a connection can be set up directly between the service server and a specific telecommunications terminal, such a connection for loading at least one algorithm or the program for implementing an algorithm preferably being set up on an automatic or user-defined request signal by the telecommunications terminal.
  • the invention also includes particularly preferred embodiments, in which a connection is further established via at least one communication network between the telecommunication terminal and a server-based speech recognition system.
  • connection is set up for the temporary loading of at least one algorithm between the service server and the telecommunication terminal device in response to a request signal from the server-based speech recognition system.
  • the method according to the invention further provides that the connection is application-specific between the telecommunication terminal device and the at least one communication network, by wire or wireless. The invention thus enables the connection of essentially everyone
  • Telecommunications terminal device and the implementation of the method according to the invention using essentially any communication network, in particular a mobile radio network, for example GSM (Global System for Mobile communication) or UMTS (Universal Mobile Telecommunication System) - based, a (W) LAN network (( Wireless) Local Area Network) and / or a landline network, for example in the case of a DECT (Digital Enhanced Cordless Telecommunication) telephone as a telecommunications terminal.
  • GSM Global System for Mobile communication
  • UMTS Universal Mobile Telecommunication System
  • WLAN network (W) Local Area Network)
  • landline network for example in the case of a DECT (Digital Enhanced Cordless Telecommunication) telephone as a telecommunications terminal.
  • DECT Digital Enhanced Cordless Telecommunication
  • the arrangement according to the invention of a server-based speech recognition system and / or the service server is also extremely flexible and can be handled in an application-specific manner.
  • the server systems are also provided using WEB servers, that is to say essentially computers and / or software which provide HTTP (HyperText Transfer Protocol) and Internet access in a network, with connections to the
  • the telecommunication terminal devices comprise interface devices for providing communication connections via the Internet.
  • the invention thus makes it possible in a particularly expedient manner to set up a call for a respective connection between the telecommunications terminal device and the service server and / or the server-based speech recognition system and / or between the speech recognition system and the service server using respectively assigned identifiers.
  • the invention consequently guarantees the use of a large number of such identifiers, in particular application-specific, depending on the telecommunication networks, servers and / or telecommunication terminal devices used.
  • Such identifiers can be, for example, subscriber line numbers and / or service numbers, IP addresses, call line identifiers (CLI, Calling Line Identification; ANI, Automatic Number Identification) and / or mobile phones assigned identifier addresses stored in a home location register (HLR, Home Location Register) of a respectively assigned communication network include.
  • CLI Calling Line Identification
  • ANI Automatic Number Identification
  • HLR Home Location Register
  • the telecommunications terminal is designed for multi-channel processing of signals. In this way it is additionally possible to ensure that the quality, in particular a noise reduction, for example at
  • connection of several microphones via a corresponding audio and / or stereo input is further improved by the location of the speech source, which is then fundamentally possible.
  • the multi-channel processing can also take place on the server, in which case a multi-channel or virtually multi-channel (multiplex) transmission between the server and the terminal is required. If the telecommunication terminal has at least two microphone channels, such as a stereo input, then a hands-free algorithm with multi-channel processing, in particular for locating the speech source for improved noise reduction, can advantageously be loaded into the telecommunication terminal.
  • the telecommunication terminal additionally has at least two loudspeaker channels and the signal transmission is multichannel or virtual multichannel (multiplex), then a stereo or hands-free algorithm and / or a stereo or multichannel echo compensation, in particular for hands-free transmission with spatial perception, can preferably be loaded into the telecommunication terminal.
  • a multi-channel transmission also has the advantage that, for example, in addition to speech data, further specific parameters, vector data, test and / or adjustment signals can be transmitted in a simple manner, which otherwise must be embedded together with the speech data in the mono signal, if necessary.
  • a comparison unit is preferably provided which compares a test signal output on the part of the telecommunication terminal device via a loudspeaker with the reception signal then obtainable via a microphone of the telecommunication terminal device.
  • such a check is carried out in response to a message transmitted by the server-based speech recognition system and / or the service server or by a test signal generated by the telecommunications terminal.
  • the invention includes embodiments in which the actual comparison check of the two signals takes place directly in the telecommunications terminal or only after the received signal has been retransmitted to one of the server-based systems.
  • the updating of an algorithm or the adaptation, adaptation or replacement of the at least one algorithm used, which corresponds to the current environment, is thus carried out in response to the check result, for example by reloading a corresponding program from the service server or, if a large number of algorithms on the telecommunications terminal are at least temporarily loaded by appropriate selection of the appropriate algorithm by the telecommunications terminal itself.
  • the invention also preferably provides a conversion functionality for the speech signals for transmission between communication units operating at different frequencies, for example from a telecommunications terminal device processing a speech signal on a 30 kHz basis 8 kHz basis provided communication link of a communication network used with subsequent subsequent conversion to 30 kHz by a conversion device corresponding to the server-based speech recognition.
  • the invention also proposes that specific identification parameters and / or tariffing parameters be transmitted by the telecommunications terminal for further processing and recorded by a device assigned to the speech recognition system and / or the service server.
  • one of the telecommunication terminal devices and / or the user of the telecommunication terminal devices By means of application-specific tariffing parameters, one of the telecommunication terminal devices and / or the user of the
  • Telecommunication terminal equipment preferably assigned automatic payroll accounting and / or charging of services and / or algorithms provided for a fee with essentially all accounting and / or charging methods known per se for this purpose in a very simple manner.
  • the invention further provides in a practical further development that before or during the application of a temporarily implemented algorithm the calibration of an analog-digital and / or digital-analog conversion to be carried out on the part of the telecommunication terminal device takes place.
  • a calibration can be carried out once for a communication connection or continuously.
  • digital calibration is also advantageous, in particular using a processor of the telecommunications terminal device that executes a respective algorithm.
  • the voice signal itself and / or correspondingly designed test signals for example a noise signal emitted during pauses in speech via the loudspeaker of the telecommunication terminal device and the noise signal received back via the microphone of the telecommunication terminal device.
  • the invention consequently comprises, in particular in accordance with the appended claims, a system which is appropriately designed to carry out the method according to the invention and which, in its individual embodiments, has the same and / or comparable advantages as the advantages listed above.
  • Fig. 1 is a highly simplified schematic diagram of a system according to the invention and 2 shows a simplified block diagram to illustrate a local processing principle for the hands-free functionality according to the invention on a mobile telecommunication terminal according to the invention.
  • a mobile telecommunications terminal 100 is shown, which via an air interface, e.g. by radio, as indicated by the double arrow 1, has access to a telecommunications network 200.
  • duplex communication is expediently made available via the air interface, full duplex communication.
  • the mobile telecommunication terminal 100 is a mobile telephone, a PDA or also an MDA, which communicate on a GSM standard based on a mobile radio network thus included in the present case by the telecommunication network 200 u and thus voice data corresponding to a person-to-person Can transmit communication over the network 200.
  • the mobile radio network and the telecommunications terminal device 100 assigned to it can also be based on another standard, for example a UMTS standard.
  • the term telecommunication network used generally means a single communication network or a plurality of
  • Communication networks including voice / data networks and data / data networks.
  • a voice-controlled CT server (computer telephony server) with algorithms for voice recognition 300, either permanently or, if necessary, with the telecommunications network 200 suitable for the transmission of voice data, directly via the mobile radio network or via other, is not via at least one other interface, identified by the double arrow 2 shown communication networks connected.
  • a permanent connection 3 to a service server 400 which can be set up if required and which contains a large number of digital hands-free algorithms and possibly further audio signals preprocessing algorithms such as in particular echo compensation and / or noise reduction algorithms.
  • the system arrangement shown comprises a third server 500, which is part of a tariffing and / or fee collection and charging system, that is to say essentially a so-called billing system or billing support system (BSS), to which a simplex connection 4 in the case under consideration here can be set up via the telecommunications network 200.
  • a third server 500 which is part of a tariffing and / or fee collection and charging system, that is to say essentially a so-called billing system or billing support system (BSS), to which a simplex connection 4 in the case under consideration here can be set up via the telecommunications network 200.
  • BSS billing support system
  • the servers 300, 400 and 500 preferably comprise for communication and / or data exchange with one another direct connections 5, 6, so that in an alternative embodiment, for example, only connection 2 from the servers 300, 400 and 500 to the telecommunications network 200 is necessary to carry out the method according to the invention described in detail below.
  • the servers 300, 400 and 500 are part of a common server device.
  • Servers 300, 400 and 500 are according to a preferred one
  • the system arrangement shown for the mobile telecommunication terminal 100 via the telecommunication network 200 provides at least one program for realizing a hands-free algorithm loadable from the Internet by the service server 400 and for use of a voice service provided by the server 300 temporarily loaded and implemented on the mobile telecommunications terminal 100. Since, in general, a working memory is already sufficient for the temporary loading, the mobile telecommunications terminal device 100 in this case essentially does not require any hard disk storage capacity, which, however, can still be used in special application forms.
  • a correspondingly suitable algorithm can be temporarily loaded and implemented on the telecommunication terminal 100. After specific use, the storage space is made available to other applications.
  • the at least one algorithm is transmitted, for example when the server 300 and / or 400 is called for the first time, based on a corresponding service subscription or also by direct request from the user of the mobile telecommunication terminal 100.
  • the mobile telecommunications terminal 100 has a transmitting and receiving unit 101, a coding device 102 and a processor unit 103 connected to the temporary memory, via which an algorithm temporarily loaded onto the memory can be executed.
  • the processor unit 103 is connected to a digital-to-analog converter 105, which is connected to an internal loudspeaker 108, or additionally or alternatively, for example via an infrared or Bluetooth interface or also via a wired interface to an external loudspeaker 110 is connectable.
  • An internal microphone 107 or, in a corresponding manner, an interface from an external microphone 109 provides a connection to the processor unit 103 via an interposed analog-to-digital converter 104
  • controllable calibration control unit 106 is provided for calibrating transducers 105 and 104.
  • the converters 104 and 105 or an associated unit expediently additionally provide a signal amplification that can be set in particular.
  • the transducers 104 and 105 are calibrated once each time the telecommunications terminal 100 is started up, or are monitored, for example continuously or time-based, during operation.
  • a digital calibration for example based on the signal present at the processor unit 103, which is fed to the converter 105 or received by the converter 104, can also be carried out.
  • Such a calibration is preferably specifically tailored to a specific group of temporarily loadable algorithms, in particular using a corresponding assignment and / or linking scheme.
  • digital signals transmitted from the speech recognition system server 300 to the mobile telecommunication terminal 100 are thus transmitted via the telecommunication network 200
  • Speech signals before being output to the loudspeaker 108 or 110 are digitized and sent to the hands-free algorithm activated by the processor unit 103 for processing and then via the digital-to-analog converter 105 fed to the speaker 108 and / or 110. Accordingly, a voice signal received via the microphone 107 and / or 109 after a digital-to-analog conversion is fed by the converter 104 with a correspondingly adapted amplification to the processor unit 103 and processed by the activated hands-free algorithm before it is forwarded via the telecommunications network 200.
  • the present invention enables the use of voice services under hands-free conditions, in particular also within a vehicle, by using the existing interfaces.
  • Noise reduction algorithms are correspondingly temporarily loaded onto the telecommunications terminal 100 for execution by the processor unit 103.
  • the mobile telecommunication terminal 100 connects several microphones, e.g. B. via a stereo input, offers, in addition, the possibility of the quality of the noise reduction through the then in principle possible location of the speech source, that is, the speaker or the user of the mobile telecommunications terminal 100 again decisively improve.
  • a noise reduction algorithm is carried out directly on the speech recognition system server 300, on the other hand, only a mono signal is generally available which, although it does reduce noise, generally does not make it possible to locate it.
  • Tariffing and / or identification parameters from the telecommunications terminal 100, the server 300 and / or the service server 400 to the tariffing server 500 are preferred for the duration of the use of the speech recognition service provided via the server 300 and / or for the use of an algorithm by the service server 400 transmitted, by means of which the service can be billed, wherein essentially all known or also to be developed methods can be used for billing and / or debiting of accounts.
  • a check of the current suitability of the algorithm or algorithms carried out by means of the processor unit 103 is preferably carried out via a comparison signal which, for example, in speech breaks packed in a noise signal, is output via the loudspeaker 108 or 110 and received again as a response signal via the microphone 107 and / or 109 and compared with the output signal.
  • a comparison signal which, for example, in speech breaks packed in a noise signal, is output via the loudspeaker 108 or 110 and received again as a response signal via the microphone 107 and / or 109 and compared with the output signal.
  • test or adjustment signal can be generated independently by the mobile telecommunications terminal when a corresponding signal generator (not shown) is provided, in particular if several algorithms that can be selected for activation are temporarily transferred to the mobile
  • Telecommunications terminal 100 are loaded. Such test or calibration signals can, however, also by the Server 300 and / or 400 for mobile
  • Telecommunication terminal 100 transmitted and after receiving the response signal with the server or a correspondingly assigned checking unit for the suitability of the currently activated algorithm compared, so that possibly a correspondingly adapted updated algorithm from the service server 400 to the mobile telecommunications terminal 100 and there is temporarily loaded.
  • Such a comparison or test signal is preferably embedded as a noise signal in the voice signal in the case of a single-channel version of the mobile telecommunications terminal device 100 and can be used in the case of a two-channel version of the mobile
  • Telecommunications terminal 100 can be transmitted via the additional channel, for example.
  • the invention provides for a two-channel design of the mobile
  • Telecommunication terminal 100 via the additional channel, i.e. essentially independently of the voice data, but possibly additional parameters, depending on the algorithm used, such as the above identification parameters, further data and / or possibly also
  • the invention further includes embodiments in which the interfaces 1 and 2 to the frequency band of the mobile telecommunications terminal 100 have different frequency bands. Based e.g. B. the signal processing of the telecommunications terminal 100 on a 30kHz band, the
  • Telecommunications terminal device 100 preferably has a conversion device in order to convert the 30 kHz voice signal for transmission to the voice-controlled CT server 300, for example to an 8 kHz voice signal.
  • the signals received in this way are, depending on the application, reset to the original 30 kHz signal, in turn, by a conversion unit assigned to the CT server 300 before speech recognition. For the detection of such signals, which may need to be implemented, e.g. above, additionally transmitted data or parameters used.
  • the invention also includes embodiments in which, on the basis of identification parameters specifying the telecommunication terminal 100, the data are transmitted when the speech recognition server 300 calls
  • Telecommunications terminal 100 with be transmitted and / or requested, a pre-selection of algorithms to be transmitted is made. Such preselected
  • Algorithms can be preset for the specified telecommunication terminal 100 or e.g. have proven to be suitable algorithms in the past, for example based on an environmental condition determined in the past with respect to the telecommunications terminal 100.
  • the service server 400 is subsequently instructed, for example via the connection 5, to transmit the selected or preset algorithm. In a corresponding manner, however, there is also a preselection
  • identification parameters are application-specific variable and can, for example, depending on the telecommunications terminal used, include an IP address, a CLI and / or parameters queried by the server 300 from an HLR assigned to the telecommunications terminal 100.
  • the telecommunication terminal device 100 is designed to be mobile.
  • the invention can also be a stationary or a telecommunication terminal permanently integrated in a vehicle, which depending on the underlying system, e.g. is also designed with a DECT, a Bluetooth, a (W) LAN or other, also wired, interface for access to a corresponding network.
  • the overall telecommunications network 200 used can thus be application-specific and can include, for example, mobile radio networks, (W) LAN, fixed networks and / or the Internet.
  • the telecommunications network used can also comprise an intelligent network, with at least the speech recognition system server 300 preferably being arranged in a service node and expediently having access to an intelligent peripheral.
  • the service server 400 is also designed, for example, directly, bypassing the telecommunication network 200, with the telecommunication terminal device 100 to provide algorithms.
  • the service server 400 is part of an intelligent one, for example in a vehicle accommodated unit, on which a large number of algorithms are available and, for example, from a central server unit (not shown in FIG. 1) is accordingly supplied with current algorithms via the telecommunications network.
  • a correspondingly suitable algorithm can consequently also be temporarily loaded onto the telecommunications terminal 100 from such an arranged service server by means of a direct connection to the telecommunications terminal 100.
  • call identifiers assigned in accordance with the individual system components 100, 300, 400 and / or possibly 500 it is thus possible, essentially independently of location and in the case of an application-specific selected or present arrangement, to have the desired or necessary
  • Such identifiers thus include in particular
  • a permanently installed speech processing functionality, in particular hands-free and / or noise reduction or speech recognition functionality, on a telecommunication terminal 100 is therefore no longer necessary due to the invention, so that the invention is used in particular in telecommunication terminals that have no or only a very small memory, none sufficient capacity on this more have at hand or this capacity is to be used for other purposes.
  • a connection to the service server 400 is first automatically established for the temporary loading and implementation of one or, if appropriate, also several algorithms on the telecommunication terminal 100, from which the telecommunication terminal 100 then uses suitable can be selected accordingly.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

Die Erfindung betrifft die Freisprechkommunikation unter Nutzung einer Telekommunikationsendeinrichtung. Eine Aufgabe der Erfindung ist es, einen gegenüber dem Stand der Technik neuen und verbesserten Weg aufzuzeigen, mit welchem eine äußerst flexible Freisprechfunktionalität für Telekommunikationsendeinrichtungen insgesamt gewährleistbar ist, insbesondere jedoch für mobile Telekommunikationsendeinrichtungen, die in der Regel nur eine sehr begrenzte Festspeicherkapazität aufweisen. Die Erfindung schlägt für eine Freisprechkommunikation unter Nutzung einer Telekommunikationsendeinrichtung, insbesondere einer mobilen Telekommunikationsendeinrichtung (100), vor, wenigstens für die Dauer einer Kommunikationsverbindung wenigstens ein Programm zur Realisierung eines Sprachverarbeitungsalgorithmus von einem Dienstserver (400) wenigstens temporär in die Telekommunikationsendeinrichtung (100) zu laden und zur Anwendung zu implementieren.

Description

VERFAHREN UND SYSTEM ZUM BEREITSTELLEN EINER FREISPRECHFUNKTIONALITAT BEI MOBILEN TELEKOMMUNIKATIONSENDRICHTUNGEN DURCH TEMPORÄRES HERUNTERLADEN EINES SPRACHVERARBEITUNGSALGORITHMUS Beschreibung
Die Erfindung betrifft ein Verfahren zum Durchführen einer Freisprechkommunikation unter Nutzung einer Telekommunikationsendeinrichtung, insbesondere einer mobilen Telekommunikationsendeinrichtung, sowie ein System zum Bereitstellen einer derartigen Freisprechkommunikation und zur Nutzung innerhalb eines derartigen Systems entsprechend angepasste Vorrichtungen. Aus dem Stand der Technik sind über ein Telefon anrufbare Sprachdienste bekannt, die eine implementierte, serverbasierte Spracherkennung (Automatic Speech Recognition, ASR) aufweisen. Ein an das Telefonnetz angeschlossenes Dialogsystem ermöglicht hierbei eine Kommunikation zwischen diesen Diensten und einem Nutzer, wobei die vorstehend genannte Spracherkennung eine technische Grundlage für diese Kommunikation bildet.
Eine derartige serverbasierte Spracherkennung verfügt in der Regel über Programme zur Realisierung von Algorithmen zur Verarbeitung digitalisierter Sprachdaten und in Folge zur Erkennung gesprochener Äußerungen des Nutzers . Üblicherweise werden auf dem entsprechenden, an das Telefonnetz angeschlossene Serversystem zur Verbesserung der Erkennung in einer Vorverarbeitungsstufe der Spracherkennung Echokompensations- und Geräuschreduktionsverfahren angewendet .
Darüber hinaus sind erste Versuche durchgeführt, ähnliche SpracherkennungsSysteme mit entsprechenden Vorverarbeitungsalgorithmen auf Telekommunikationsendgeräten wie z. B. einem persönlichen digitalen Assistenten (PDA, Personal Digital Assistent) oder einem multimedialen digitalen Assistenten (MDA) zu implementieren. Da hierbei jedoch zum Bereitstellen einer umfassenden Funktionalität der Speicherplatz auf derartigen Endgeräten für die fest zu installierende Software im Allgemeinen nur unzureichend ist, wird mit den verwendeten Vorverarbeitungsalgorithmen, insbesondere hinsichtlich deren Qualität, nicht der Standard der serverbasierten Spracherkennungslösungen erzielt und darüber hinaus nur ein wesentlich kleineres Vokabular eingesetzt .
Ein weiterer Ansatz für eine Spracherkennung basiert auf der aus der Literatur bekannten verteilten Spracherkennung (Distributed Speech Recognition, DSR) . Hier erfolgt die Vorverarbeitung auf dem an das Telefonnetz angeschlossene Telekommunikationsendgerät, also wie z. B. auf einem mobilen PDA MDA o.a., wobei hierbei als Ergebnis der Vorverarbeitung entstehende Merkmalsvektoren anschließend über das
Telefonnetz mit reduzierter Datenrate an einen Server übertragen und dort den folgenden Verarbeitungsstufen eines Spracherkenners zugeleitet werden. Diese, neu zu definierende Schnittstellen im Übertragungsnetz benötigende Technologie befindet sich jedoch noch in der Entwicklung und wird voraussichtlich erst in einigen Jahren zum Tragen kommen, falls dann reduzierte Datenraten bei der Sprachdatenübertragung noch eine wesentliche Rolle spielen.
Ferner ist bei der Nutzung von Telekommunikationsendgeräten, wie einem vorstehend genannten MDA oder PDA oder auch einem Telefon, einschließlich einem schnurlosen oder mobilen Telefon, aus einem fahrenden Fahrzeug heraus, beispielsweise auch zur Nutzung von Sprachdiensten, durch den Gesetzgeber verschiedener Länder die Benutzung von Freisprechanlagen vorgeschrieben.
Derartige Freisprechanlagen verfügen in der Regel über eine sogenannte Pegelwaage, um Rückkopplungen zwischen Mikrofon und Lautsprecher zu vermeiden. Diese Pegelwaagen können bei auftretenden Nebengeräuschen Schwankungen des
Lautstärkepegels hervorrufen, was in der zwischenmenschlichen Kommunikation zwar wenig ins Gewicht fällt, jedoch bei einer Spracherkennung die Spracherkennungsrate der jeweiligen Sprachdienste extrem verschlechtert. Folglich sind insbesondere derartige Sprachdienste nicht mehr oder nur noch eingeschränkt nutzbar.
Im Gegensatz zu mobilen Anwendungen existieren für stationäre Anwendungen im Festnetz sogenannte Freisprechboxen, in denen auf einem Hardwaremodul digitale Freisprechalgorithmen implementiert sind, die die Nachteile der Pegelwaagen vermeiden und eine verbesserte Nutzung insbesondere von sprachgesteuerten Diensten ermöglichen.
Eine Aufgabe der Erfindung ist es, einen gegenüber dem vorstehend erwähnten Stand der Technik neuen und wesentlich verbesserten Weg aufzuzeigen, mit welchem eine äußerst flexible Freisprechfunktionalität für
Telekommunikationsendeinrichtungen insgesamt gewährleistbar ist, insbesondere jedoch für vorstehend genannte mobile Telekommunikationsendeinrichtungen, die in der Regel nur eine sehr begrenzte Speicherkapazität aufweisen.
Die erfindungsgemäße Lösung der Aufgabe ist auf höchst überraschende Weise bereits durch die jeweiligen Gegenstände mit den Merkmalen der anhängenden unabhängigen Ansprüche gegeben. Vorteilhafte und/oder bevorzugte Ausführungsformen bzw. Weiterbildungen sind Gegenstand der jeweiligen anhängenden abhängigen Ansprüche.
Die Erfindung schlägt somit ein Verfahren zum Durchführen einer Freisprechkommunikation unter Nutzung einer Telekommunikationsendeinrichtung, insbesondere einer mobilen Teleko munikationsendeinrichtung, vor, bei welcher wenigstens für die Dauer einer Kommunikationsverbindung wenigstens ein Programm zur Realisierung eines
Sprachverarbeitungsalgorithmus, insbesondere eines Freisprechalgorithmus, von einem Dienstserver temporär oder auf Dauer in die Kommunikationseinrichtung geladen und zur Anwendung implementiert wird.
Von wesentlichem Vorteil ist somit insbesondere, dass aufgrund des lediglich wenigstens temporär geladenen Algorithmus eine Sprachverarbeitungsfunktionalitat insbesondere auch für das Freisprechen bei
Telekommunikationsendeinrichtungen wie einem PDA, MDA oder einem Mobiltelefon nutzbar sind, die keine oder nur eine sehr geringe Speicherkapazität, insbesondere auch Festspeicherkapazität, besitzen und ferner, ähnlich einer Mensch-zu-Mensch-Kommunikation, die Übertragung von
Sprachsignalen während der Telekommunikationsverbindung ermöglicht wird.
Folglich kann auch ein Sprachdienst, beispielsweise basierend auf einer serverbasierten Spracherkennung wie bei der ASR, unter FreiSprechbedingungen bereits unter Ausnutzung der vorhandenen Schnittstellen bestehender
Telekommunikationsnetzen genutzt werden, d. h. ohne, wie es beispielsweise bei der verteilten Spracherkennung DSR der Fall ist, die Notwendigkeit einer zusätzlichen Vereinbarung bzw. Standardisierung neuer bzw. weiterer Schnittstellen.
Gemäß einer bevorzugten Weiterbildung der Erfindung ist zur Verbesserung der Qualität und/oder zur Verifizierung übertragener Sprachsignale, insbesondere für eine nachfolgende Spracherkennung ferner vorgesehen, dass das Laden das Laden von wenigstens einem Echokompensationsund/oder Geräuschreduktionsalgorithmus von dem Dienstserver umfasst. Ist zusätzlich oder alternativ wenigstens ein Sprach- und/oder Sprecherverifizierungs- (voice verification) , -erkennungs-, und/oder
-klassifizierungsalgorithmus von dem Dienstserver ladbar, ist hierüber ferner appikationsspezifisch ein Nutzer und/oder eine Sprache verifizierbar, z.B. als bei einem Dienst registriert, erkennbar, z.B. aus einer Gruppe von Personen heraus, und/oder klassifizierbar, z.B. als männlich oder weiblich. In weiterer zweckmäßiger Ausführung ist ferner vorgesehen, dass ein Programm zur Realisierung eines "Text- To-Speech"-Algorithmus, also zur automatisierten Umsetzung von Texten in Sprache ladbar ist.
Die zu übertragenden Sprachsignale werden zur Übertragung bevorzugt digitalisiert, wobei zusätzlich je nach verwendeter Telekommunikationsendeinrichtung eine Codierung der
Sprachsignale durchführbar ist, beispielsweise basierend auf einer nach dem GSM-Standard arbeitenden Endeinrichtung. Bevorzugte Ausführungsformen von entsprechend angepassten Einrichtungen umfassen somit A/D- und/oder D/A-Wandler und sind systemapplikationsspezifisch auf die Anwendung von insbesondere digitalen Algorithmen ausgebildet.
Basierend auf dem ggf. temporären Laden wenigstens eines Algorithmus von dem Dienstserver, der zweckmäßigerweise eine Vielzahl von Algorithmen zum temporären Laden gespeichert hat, ist zur weiteren Erhöhung der Flexibilität insbesondere in Bezug auf die Bereitstellungs- und Zugriffskapazitäten vorgesehen, dass dieser zentral über wenigstens ein Kommunikationsnetz zugreifbar angeordnet ist. Über das wenigstens eine Kommunikationsnetz, beispielsweise ein Funknetz, Festnetz und/oder Internet, sind folglich auf einfache Weise im Wesentlichen ortsungebunden zwischen einer oder einer Vielzahl von Telekommunikationsendeinrichtungen und dem Dienstserver jeweilige Verbindungen aufbaubar.
Eine derartige Verbindung kann gemäß einer ersten bevorzugten Ausführungsform unmittelbar zwischen dem Dienstserver und einer bestimmten Telekommunikationsendeinrichtung aufgebaut werden, wobei eine derartige Verbindung zum Laden wenigstens eines Algorithmus bzw. des Programms zur Realisierung eines Algorithmus bevorzugt auf ein automatisches oder nutzerdefiniertes Anforderungssignal durch die Telekommunikationsendeinrichtung aufgebaut wird.
Die Erfindung umfasst darüber hinaus besonders bevorzugte Ausführungsformen, bei denen ferner eine Verbindung über wenigstens ein Kommunikationsnetz zwischen der Telekommunikationsendeinrichtung und einem serverbasierten SpracherkennungsSystem aufgebaut wird.
Insbesondere bei derartigen Ausführungsformen ist ergänzend oder alternativ vorgesehen, dass der Verbindungsaufbau zum ggf. temporären Laden wenigstens eines Algorithmus zwischen dem Dienstserver und der Telekommunikationsendeinrichtung unter Ansprechen auf ein Anforderungssignal des serverbasierten Spracherkennungssystems erfolgt. Das erfindungsgemäße Verfahren sieht zur äußerst flexiblen Nutzung ferner vor, dass die Anbindung applikationsspezifisch zwischen der Telekommunikationsendeinrichtung und dem wenigstens einen Kommunikationsnetz drahtgebunden oder drahtlos erfolgt. Die Erfindung ermöglicht somit die Anbindung von im Wesentlichen jeder
Telekommunikationsendeinrichtung und die Durchführung des erfindungsgemäßen Verfahren unter Nutzung von im Wesentlichen jedem Kommunikationsnetz, insbesondere einem Mobilfunknetz, beispielsweise GSM- (Global System for Mobile communication) oder UMTS (Universal Mobile Teleco munication System) - basiert, einem (W)LAN-Netz ( (Wireless) Local Area Network) und/oder einem Festnetz, beispielsweise im Fall eines DECT (Digital Enhanced Cordless Telecommunication) -Telefons als Telekommunikationsendeinrichtung.
Auch die erfindungsgemäße Anordnung eines serverbasierten Spracherkennungssystems und/oder des Dienstservers ist äußerst flexibel und applikationsspezifisch handhabbar. Bevorzugt ist insbesondere vorgesehen, die Serversysteme unmittelbar in ein Funk- oder Festnetz einzubinden, wobei hierbei ferner ein intelligentes Netz umfasst sein kann, so dass das oder die Serversysteme beispielsweise in einem Vermittlungsknoten angeordnet sind und Zugang zu einer intelligenten Peripherie aufweisen. In ergänzender oder alternativer Ausführung ist ferner vorgesehen die Serversysteme unter Verwendung von WEB-Servern, also im Wesentlichen von Rechnern und/oder Software, die in einem Netzwerk HTTP (HyperText Transfer Protocol) und den Internetzugang bereitstellen, mit Verbindungen in das
Internet auszubilden, wobei in diesem Fall die Telekommunikationsendeinrichtungen Schnittstelleneinrichtungen zum Bereitstellen von Ko munikationsverbindungen über das Internet umfassen. Die Erfindung ermöglicht somit in besonders zweckmäßiger Weise einen Rufaufbau für eine jeweilige Verbindung zwischen der Telekommunikationsendeinrichtung und dem Dienstserver und/oder dem serverbasierten Spracherkennungssystem und/oder zwischen dem Spracherkennungssystem und dem Dienstserver unter Verwendung von jeweils zugeordneten Kennungen. Die Erfindung gewährleistet folglich in bevorzugter praktischer Ausführung die Nutzung einer Vielzahl von derartigen, insbesondere applikationsspezifisch, je nach verwendeten Telekommunikationsnetzen, Servern und/oder Telekommunikationsendeinrichtungen unterschiedlichen Kennungen vor. Solche Kennungen können beispielsweise Teilnehmeranschlussnummern und/oder Dienstnummern, IP- Adressen, Rufleitungsidentifikatoren (CLI, Calling Line Identification; ANI, Automatic Number Identification) und/oder Mobiltelefonen zugewiesene, in einem Heimatregister (HLR, Home Location Register) eines jeweils zugeordneten Kommunikationsnetzes hinterlegte Kennungsadressen umfassen.
In weiterer vorteilhafter Fortbildung ist darüber hinaus vorgesehen, dass die Telekommunikationsendeinrichtung zur mehrkanaligen Verarbeitung von Signalen ausgebildet ist. So ist hierdurch zusätzlich gewährleistbar, dass die Qualität, insbesondere einer Geräuschreduktion, beispielsweise bei
Anschluss von mehreren Mikrofonen über einen entsprechenden Audio- und/oder Stereoeingang durch die dann grundsätzlich mögliche Ortung der Sprachquelle weiter wesentlich verbessert wird. Die mehrkanalige Verarbeitung kann auch auf dem Server stattfinden, wobei dann eine mehrkanalige oder virtuell mehrkanalige (multiplex) Übertragung zwischen Server und Endgerät erforderlich ist. Weist die Telekommunikationsendeinrichtung wenigstens zwei Mikrofonkanäle, wie z.B. einen Stereoeingang auf, so ist in vorteilhafter Weise ein Freisprechalgorithmus mit mehrkanaliger Verarbeitung, insbesondere zur Ortung der Sprachquelle zur verbesserten Geräuschreduktion in die Telekommunikationsendeinrichtung ladbar. Weist die Telekommunikationsendeinrichtung zusätzlich wenigstens zwei LautSprecherkanäle auf und erfolgt die Signalübertragung mehrkanalig oder virtuell mehrkanalig (multiplex) , so ist bevorzugt ein Stereo- oder Freisprechalgorithmus und/oder eine Stereo- oder mehrkanalige Echokompensation insbesondere zur FreiSprechübertragung mit räumlicher Wahrnehmung in die Telekommunikationsendeinrichtung ladbar .
Eine mehrkanalige Übertragung bietet ferner den Vorteil, dass beispielsweise zusätzlich zu Sprachdaten weitere spezifische Parameter, Vektordaten, Test- und/oder Abgleichsignale auf einfache Weise übertragbar sind, die ansonsten zusammen mit den Sprachdaten in das Monosignal eingebettet, soweit erforderlich, übertragen werden müssen.
Insbesondere ist mittels derartiger Test- und/oder Abgleichsignale eine individuelle Überprüfung des eingesetzten Algorithmus hinsichtlich jeweils aktueller Umgebungsbedingen im Wesentlichen jederzeit durchführbar. So ist hierzu bevorzugt eine Vergleichseinheit vorgesehen, die ein auf Seiten der Telekommunikationsendeinrichtung über einen Lautsprecher ausgegebenes Testsignal mit dem daraufhin über ein Mikrofon der Telekommunikationsendeinrichtung erhältliches Empfangssignal vergleicht.
Je nach spezifischer Applikation erfolgt eine derartige Überprüfung unter Ansprechen auf ein von dem serverbasierten Spracherkennungssystem und/oder dem Dienstserver übertragenes oder durch ein von der Telekommunikationsendeinrichtung generiertes Testsignal. Ferner umfasst die Erfindung Ausführungsformen, bei denen die eigentliche Vergleichsüberprüfung der beiden Signale unmittelbar in der Telekommunikationsendeinrichtung oder erst nach Rückübertragung des Empfangssignals zu einem der serverbasierten Systeme erfolgt.
Die Aktualisierung eines Algorithmus bzw. die der jeweils aktuellen Umgebung entsprechende Anpassung, Adaption oder Auswechslung des wenigstens einen eingesetzten Algorithmus erfolgt somit unter Ansprechen auf das Überprüfungsergebnis beispielsweise durch neues Laden eines entsprechenden Programms von dem Dienstserver oder aber, wenn eine Vielzahl von Algorithmen auf der Telekommunikationsendeinrichtung wenigstens temporär geladen sind, durch entsprechendes Selektieren des geeigneten Algorithmus durch die Telekommunikationsendeinrichtung selbst .
Zur weiteren Steigerung der Spracherkennungsqualität sowie der flexiblen Nutzung unterschiedlicher Frequenzspektren und/oder -bänder sieht die Erfindung ferner bevorzugt eine Umsetzfunktionalität für die Sprachsignale zur Übertragung zwischen mit unterschiedlichen Frequenzen arbeitenden Kommunikationseinheiten vor, beispielsweise von einer auf einer 30 kHz Basis Sprachsignalverarbeitenden Telekommunikationsendeinrichtung für eine auf einer 8 kHz Basis bereitgestellten Kommunikationsverbindung eines verwendeten Kommunikationsnetzes mit gegebenenfalls anschließender erneuten Umsetzung auf 30 kHz durch eine der serverbasierten Spracherkennung entsprechend zugeordneten Umsetzeinrichtung. In weiterer vorteilhafter Ausbildung schlägt die Erfindung ferner vor, dass von der Telekommunikationsendeinrichtung spezifische Kennungsparameter und/oder Tariffierungsparameter zur Weiterbearbeitung übertragen und von einer dem Spracherkennungssystem und/oder dem DienstServer zugeordneten Vorrichtung erfasst werden.
So ist insbesondere bei Zuordnung derartiger Kennungsparameter auf dem Dienstserver und/oder dem Server des SpracherkennungsSystems zu für die entsprechende Telekommunikationsendeinrichtung besonders geeigneten Algorithmen bereits bei Neu- und/oder wiederholter Anmeldung einer Telekommunikationsendeinrichtung bei einem der Serversysteme anhand derartig übertragener Parameter eine vorteilhafte, insbesondere zeitsparende Vorauswahl von geeigneten temporär zu ladenden Algorithmen möglich.
Mittels applikationsspezifischer Tariffierungsparameter ist ferner, ggf. in Verbindung mit dem Kennungsparametern, eine der Telekommunikationsendeinrichtung und/oder dem Nutzer der
Telekommunikationsendeinrichtung zugeordnete vorzugsweise automatische Entgeldabrechnung und/oder -belastung von kostenpflichtig bereitgestellten Diensten und/oder Algorithmen mit im Wesentlichen allen an und für sich hierfür bekannten Abrechnungs- und/oder Belastungsverfahren auf eine sehr einfache Weise gegeben.
Die Erfindung sieht ferner in praktischer Weiterbildung vor, dass vor oder während der Anwendung eines temporär implementierten Algorithmus die Kalibrierung einer auf Seiten der Telekommunikationsendeinrichtung durchzuführenden Analog- Digital- und/oder Digital-Analogwandlung erfolgt. Eine solche Kalibrierung kann einmalig für eine Kommunikationsverbindung oder kontinuierlich durchgeführt werden. Insbesondere für die flexible umgebungsbasierte Anwendung oder Auswahl entsprechend angepasster Algorithmen aus einer gemeinsamen Gruppe, oder eines gemeinsamen Anbieters ist ferner eine digitale Kalibrierung, insbesondere unter Verwendung eines einen jeweiligen Algorithmus ausführenden Prozessors der Telekommunikationsendeinrichtung von Vorteil.
Als Abgleichsignal für die folglich im Wesentlichen universell einsetzbare Kalibrierung ist ferner vorgesehen, das Sprachsignal selbst und/oder entsprechend ausgebildete Testsignale, beispielsweise ein in Sprechpausen über den Lautsprecher der Telekommunikationsendeinrichtung ausgesandtes und das über das Mikrofon der Telekommunikationsendeinrichtung rückempfangene Rauschsignal, zu verwenden.
Darüber hinaus umfasst die Erfindung folglich insbesondere gemäß den anhängenden Ansprüchen ein zur Durchführung des erfindungsgemäßen Verfahrens entsprechend ausgebildetes System, welches in deren einzelnen Ausführungsformen mit, zu vorstehend aufgeführten Vorteilen gleichen und/oder vergleichbaren Vorteilen belegt ist.
Weitergehende Vorteile und Charakteristika der Erfindung werden anhand der nachfolgenden detaillierteren Beschreibung bevorzugte jedoch lediglich beispielhafte erfindungsgemäße Ausführungsformen unter Bezugnahme auf die beigefügten Zeichnungen ersichtlich.
In den Zeichnungen zeigen:
Fig. 1 eine stark vereinfachte schematische Prinzipdarstellung eines erfindungsgemäßen Systems und Fig. 2 ein vereinfachtes Blockschaltbild zur Veranschaulichung eines lokalen Verarbeitungsprinzips für die erfindungsgemäße Freisprechfunktionalität auf einer mobilen Telekommunikationsendeinrichtung gemäß der Erfindung.
Nachfolgend werden anhand der Figuren 1 und 2 , welche eine schematische Darstellung eines erfindungsgemäßen
Freisprechsystems bzw. eine Blockdarstellung zur
Veranschaulichung eines lokalen erfindungsgemäßen
Verarbeitungsprinzip für die Anwendung einer
Freisprechfunktionalität auf einer mobilen Telekommunikationsendeinrichtung zeigen, bevorzugte
Ausführungsformen der Erfindung, beispielhaft beschrieben.
In Figur 1 ist eine mobile Telekommunikationsendeinrichtung 100 dargestellt, die über eine Luftschnittstelle, z.B. mittels Funk, wie mit dem Doppelpfeil 1 angedeutet, Zugang zu einem Telekommunikationsnetz 200 hat. Wie mit dem Doppelpfeil angezeigt, wird über die Luftschnittstelle eine Duplex- Kommunikation in zweckmäßiger Weise eine Vollduplex- Kommunikation bereitgestellt. Die mobile Telekommunikationsendeinrichtung 100 ist im vorliegenden betrachteten Fall ein Mobiltelefon, ein PDA oder auch ein MDA, welches auf einem GSM-Standard basierend über ein somit im vorliegenden Fall vom Telekommunikationsnetz 200 u fasstes Mobilfunknetz kommunizieren und also Sprachdaten entsprechend einer Mensch-zu-Mensch-Kommunikation über das Netz 200 übermitteln kann.
Es sei jedoch darauf hingewiesen, dass das Mobilfunknetz und die diesem zugeordnete Telekommunikationsendeinrichtung 100 auch auf einem anderen Standard, beispielsweise einem UMTS- Standard, basieren kann. Ferner sei für die nachfolgende Beschreibung und die anhängenden Ansprüche darauf hingewiesen, dass der verwendete Begriff Telekommunikationsnetz allgemein ein einziges Kommunikationsnetz oder eine Mehrzahl von
Kommunikationsnetzen, einschließlich Sprach/Daten Netze und Daten/Daten Netze, umfassen kann.
Über wenigstens eine weitere, mit dem Doppelpfeil 2 gekennzeichnete Schnittstelle ist ein sprachgesteuerter CT- Server (Computer-Telefonie Server) mit Algorithmen zur Spracherkennung 300 dauerhaft oder bei Bedarf mit dem zur Übertragung von Sprachdaten geeigneten Telekommunikationsnetz 200 direkt über das Mobilfunknetz oder über weitere, nicht dargestellte Kommunikationsnetze verbunden.
Ferner besteht eine dauerhafte oder bei Bedarf aufbaubare Verbindung 3 zu einem Dienstserver 400, der eine Vielzahl von digitalen FreiSprechalgorithmen und ggf. weitere Audiosignale vorverarbeitende Algorithmen wie insbesondere Echokompensations- und/oder Geräuschreduktionsalgorithmen beinhaltet .
Ferner umfasst die dargestellte Systemanordnung einen dritten Server 500, welcher Teil eines Tariffierungs- bzw. Kostenentgelterfassungs- und -belastungssystems, also im Wesentlichen eines sogenannten Billing Systems oder Billing Support Systems (BSS) ist, zu welchem im vorliegenden betrachteten Fall eine Simplex-Verbindung 4 über das Telekommunikationsnetz 200 aufbaubar ist.
In bevorzugter Weise umfassen die Server 300, 400 und 500 zur Kommunikation und/oder zum Datenaustausch untereinander direkte Verbindungen 5, 6, so dass in alternativer Ausführung beispielsweise lediglich die Verbindung 2 von den Servern 300, 400 und 500 zum Telekommunikationsnetz 200 zur Durchführung des nachfolgend detailliert beschriebenen erfindungsgemäßen Verfahrens notwendig ist. In weiterer alternativer Ausführung kann auch vorgesehen sein, dass die Server 300, 400 und 500 Teil einer gemeinsamen Servervorrichtung sind.
Sind die Server 300, 400 und 500 gemäß einer bevorzugten
Ausbildung beispielsweise als WEB-Server ausgebildet, wird mit der dargestellten Systemanordnung für die mobile Telekommunikationsendeinrichtung 100 über das Telekommunikationsnetz 200 zumindest jeweils ein Programm zur Realisierung eines Freisprechalgorithmus aus dem Internet ladbar vom den Dienstserver 400 zur Verfügung gestellt und zur Nutzung eines vom Server 300 bereitgestellten Sprachdienstes auf die mobile Telekommunikationsendeinrichtung 100 temporär geladen und implementiert. Da zum temporären Laden im Allgemeinem bereits ein Arbeitsspeicher ausreichend ist, benötigt die mobile Telekommunikationsendeinrichtung 100 in diesem Fall somit im Wesentlichen keine Festplattenspeicherkapazität, welche jedoch in speziellen Anwendungsformen noch verwendet werden kann.
Je nach aktuell bestehender Umgebungsbedingung, beispielsweise bei Nutzung der mobilen Telekommunikationsendeinrichtung 100 in einem bestimmten Fahrzeug, welches eine andere Geräuschumgebung darstellt, als die Nutzung der mobilen Telekommunikationsendeinrichtung 100 im Freien oder in einem anders konzipierten Fahrzeug, kann somit auch bei einer äußerst begrenzten Speicherkapazität von der Vielzahl von im Dienstserver 400 auf einem Massenspeicher bereitgestellten Algorithmen jeweils ein entsprechend geeigneter Algorithmus temporär auf die Telekommunikationsendeinrichtung 100 geladen und implementiert werden. Nach erfolgter spezifischer Nutzung wird der Speicherplatz wieder anderen Anwendungen zur Verfügung gestellt.
Je nach entsprechender, insbesondere applikationsspezifischer Ausbildung erfolgt die Übertragung des wenigstens einen Algorithmus beispielsweise bei Erstanruf des Servers 300 und/oder 400, basierend auf einem entsprechenden Dienstabonnement oder auch durch direkte Anforderung durch den Nutzer der mobilen Telekommunikationsendeinrichtung 100.
Bei der anschließenden Kommunikation zwischen der mobilen Telekommunikationsendeinrichtung 100 und dem Spracherkennungssystem 200 und/oder auch bei Aufbau einer KommunikationsVerbindung zu einer anderen Telekommunikationsendeinrichtung werden folglich keine Merkmalsvektoren wie bei einer verteilten Spracherkennung, also wie bei DSR notwendig, sondern übliche, im betrachteten Beispiel GSM-kodierte Sprachdaten übertragen.
Wie aus Figur 2 zu sehen ist, weist die mobile Telekommunikationsendeinrichtung 100 in bevorzugter Ausbildung eine Sende- und Empfangseinheit 101, eine Kodiereinrichtung 102 sowie eine mit dem temporären Speicher verbundene Prozessoreinheit 103 auf, über welche ein auf den Speicher temporär geladener Algorithmus ausführbar ist. Die Prozessoreinheit 103 ist mit einem Digital-Analog-Wandler 105 verbunden, der mit einem internen Lautsprecher 108 verbunden ist, oder ergänzend oder alternativ beispielsweise über eine Infrarot- oder Bluetooth-Schnittstelle oder auch über eine drahtgebundene Schnittstelle zu einem externen Lautsprecher 110 verbindbar ist. Von einem internen Mikrofon 107 oder in entsprechender Weise über eine Schnittstelle von einem externen Mikrofon 109 besteht eine Verbindung zu der Prozessoreinheit 103 über einen zwischengeschalteten Analog-Digital-Wandler 104. Ferner ist eine durch die
Prozessoreinheit 103 kontrollierbare Kalibriersteuereinheit 106 zur Kalibrierung der Wandler 105 und 104 vorgesehen. Zweckmäßiger Weise stellen die Wandler 104 und 105 oder eine zugeordnete Einheit zusätzlich eine insbesondere einstellbare Signal erstärkung bereit.
Eine Kalibrierung der Wandler 104 und 105 wird je nach spezifischer Ausbildung einmalig bei jeder Inbetriebnahme der Telekommunikationsendeinrichtung 100 durchgeführt oder, beispielsweise kontinuierlich oder zeitbasiert überwacht, während des Betriebs .
Auch eine digitale Kalibrierung, beispielsweise basierend auf dem an der Prozessoreinheit 103 vorliegenden Signal, welches dem Wandler 105 zugeführt bzw. von dem Wandler 104 empfangen wird, ist durchführbar. Eine derartige Kalibrierung wird bevorzugt speziell auf eine bestimmte Gruppe von temporär ladbaren Algorithmen, insbesondere unter Verwendung eines entsprechenden Zuordnungs- und/oder -verknüpfungsSchemata, abgestimmt.
Gemäß der Ausbildung gemäß Fig. 2 werden somit über das Telekommunikationsnetz 200 von dem SpracherkennungsSystemserver 300 zur mobilen Telekommunikationsendeinrichtung 100 übertragene digitale
Sprachsignale vor Ausgabe auf den Lautsprecher 108 oder 110 dem von der Prozessoreinheit 103 aktivierten Freisprechalgorithmus digitalisiert zur Verarbeitung zugeleitet und anschließend über den Digital-Analog-Wandler 105 dem Lautsprecher 108 und/oder 110 zugeleitet. Entsprechend wird ein über das Mikrofon 107 und/oder 109 empfangenes Sprachsignal nach einer Digital-Analog-Wandlung durch den Wandler 104 bei ggf. entsprechend angepasster Verstärkung der Prozessoreinheit 103 zugeführt und durch den aktivierten Freisprechalgorithmus verarbeitet, bevor es über das Telekommunikationsnetz 200 weitergeleitet wird.
Folglich ermöglicht die Erfindung ohne zusätzliche Vereinbarung oder Standardisierung neuer Schnittstellen im Übertragungsnetz 200, wie dies ansonsten bei der DSR notwendig ist, unter Ausnutzung der vorhandenen Schnittstellen bereits unter gegenwärtigen Bedingungen die Nutzung von Sprachdiensten unter Freisprechbedingungen, also insbesondere auch innerhalb eines Fahrzeuges.
Da, wie vorstehend erwähnt, auf dem Dienstserver 400 bevorzugt zusätzlich weitere Algorithmen zum wenigstens temporären Laden bereitgestellt sind, werden in äußerst bevorzugter Weiterbildung zusätzlich zu dem wenigstens einen
Freisprechalgorithmus beispielsweise auch
Geräuschreduktionsalgorithmen auf entsprechende Weise auf die Telekommunikationsendeinrichtung 100 zur Ausführung durch die Prozessoreinheit 103 temporär geladen.
Werden beispielsweise die letztgenannten Algorithmen auf der mobilen Telekommunikationsendeinrichtung 100 im Fahrzeug ausgeführt, so besteht, wenn die mobile Telekommunikationsendeinrichtung den Anschluss mehrerer Mikrofone, z. B. über einen Stereoeingang, bietet, zusätzlich die Möglichkeit, die Qualität der Geräuschreduktion durch die dann im Prinzip mögliche Ortung der Sprachquelle, also des Sprechers bzw. des Nutzers der mobilen Telekommunikationsendeinrichtung 100 nochmals entscheidend zu verbessern. Bei Durchführung eines Geräuschreduktionsalgorithmus unmittelbar auf dem SpracherkennungsSystemserver 300 hingegen steht im Allgemeinen nur ein Monosignal zur Verfügung, welches zwar eine Geräuschreduktion, jedoch im Allgemeinen keine Ortung ermöglicht.
Für die Dauer der Nutzung des über den Server 300 bereitgestellten Spracherkennungsdienstes und/oder für die Nutzung eines Algorithmus von dem Dienstserver 400 werden bevorzugt Tariffierungs- und/oder Kennungsparameter von der Telekommunikationsendeinrichtung 100, dem Server 300 und/oder dem Dienstserver 400 zu dem TariffierungsServer 500 übertragen, mittels welcher der Dienst abrechenbar ist, wobei zur Abrechnung und/oder Kontenbelastung im Wesentlichen alle bekannten oder auch noch in der Zukunft zu entwickelnden Verfahren anwendbar sind.
Eine Überprüfung des oder der mittels der Prozessoreinheit 103 durchgeführten Algorithmen auf deren aktuelle Eignung wird bevorzugt über ein Abgleichsignal durchgeführt, welches beispielsweise in Sprachpausen in einem Rauschsignal verpackt über den Lautsprecher 108 oder 110 ausgegeben, über das Mikrofon 107 und/oder 109 wieder als Antwortsignal empfangen und mit dem ausgegebenen Signal verglichen wird.
Ein derartiges Test- oder Abgleichsignal kann bei Bereitstellung eines entsprechenden, nicht dargestellten Signalgenerators durch die mobile Telekommunikationsendeinrichtung selbstständig erzeugt werden, insbesondere wenn mehrere zur Aktivierung auswählbare Algorithmen temporär auf die mobile
Telekommunikationsendeinrichtung 100 geladen sind. Derartige Test- oder -Abgleichsignale können jedoch auch durch den Server 300 und/oder 400 zur mobilen
Telekommunikationsendeinrichtung 100 übertragen und nach Empfang des AntwortSignals mit diesem auf dem Server oder einer entsprechend zugeordneten Überprüfungseinheit auf die Tauglichkeit des aktuell aktivierten Algorithmus hin verglichen werden, so dass ggf. ein entsprechend angepasster aktualisierter Algorithmus von dem Dienstserver 400 auf die mobile Telekommunikationsendeinrichtung 100 übertragen und dort temporär geladen wird.
Ein derartiges Abgleich- oder Testsignal wird bei einkanaliger Ausführung der mobilen Telekommunikationsendeinrichtung 100 bevorzugt als Rauschsignal in das Sprachsignal eingebettet und kann bei zweikanaliger Ausführung der mobilen
Telekommunikationsendeinrichtung 100 beispielsweise über den zusätzlichen Kanal übertragen werden.
Ferner ist erfindungsgemäß vorgesehen, bei einer zweikanaligen Ausbildung der mobilen
Telekommunikationsendeinrichtung 100 über den zusätzlichen Kanal, also im Wesentlichen unabhängig von den Sprachdaten jedoch ggf. in -Abhängigkeit des jeweils verwendeten Algorithmus zusätzliche Parameter, wie z.B. die vorstehenden Kennungsparameter, weitere Daten und/oder ggf. auch
Merkmalsvektoren zu übertragen, sofern das verwendete Telekommunikationsnetz 200 bzw. die Schnittstellen 1 und 2 hierzu entsprechend ausgebildet sind.
Die Erfindung umfasst ferner Ausführungsformen, bei denen die Schnittstellen 1 und 2 zu dem Frequenzband der mobilen Telekommunikationsendeinrichtung 100 unterschiedliche Frequenzbänder aufweisen. Basiert z. B. die Signalverarbeitung der Telekommunikationsendeinrichtung 100 auf einem 30kHz Band, weist die
Telekommunikationsendeinrichtung 100 vorzugsweise eine Umsetzeinrichtung auf, um das 30kHz-umfassende Sprachsignal zur Übertragung an den sprachgesteuerten CT-Server 300 beispielsweise auf ein 8kHz-umfassendes Sprachsignal umzusetzen. Die so empfangenen Signale werden applikationsspezifisch ggf. vor der Spracherkennung von einer dem CT-Server 300 zugeordneten Umsetzeinheit wiederum auf das ursprüngliche 30kHz-umfassende Signal rückgesetzt. Zur Erkennung derartiger, ggf. umzusetzender Signale werden z.B. vorstehende, zusätzlich übertragene Daten oder Parameter verwendet .
Von der Erfindung sind ferner Ausführungsformen umfasst, bei denen anhand von die Telekommunikationsendeinrichtung 100 spezifizierenden Kennungsparametern, die bei Ruf des SpracherkennungsServers 300 durch die
Telekommunikationsendeinrichtung 100 mit übertragen und/oder angefordert werden, eine Vorauswahl von zu übertragenen Algorithmen getroffen wird. Derartige vorselektierte
Algorithmen können hierbei für die spezifizierte Telekommunikationsendeinrichtung 100 voreingestellt sein oder z.B. sich in der Vergangenheit als geeignete Algorithmen erwiesen haben, beispielsweise basierend auf einer in Bezug auf die Telekommunikationsendeinrichtung 100 in der Vergangenheit festgestellten Umgebungsbedingung. Der Dienstserver 400 wird in Folge beispielsweise über die Verbindung 5 entsprechend zur Übertragung des ausgewählten bzw. voreingestellten Algorithmus angewiesen. In entsprechender Weise ist jedoch auch eine Vorauswahl unter
Umgehung des SpracherkennungsServers 300, also über die Schnittstellen 1 und 3 gemäß Figur 1 möglich. Derartige Kennungsparameter sind applikationsspezifisch variabel und können beispielsweise je nach verwendeter Telekommunikationsendeinrichtung eine IP-Adresse, eine CLI- und/oder aus einem der Telekommunikationsendeinrichtung 100 zugeordneten HLR von dem Server 300 abgefragte Parameter umfassen.
Darüber hinaus ist es für die Erfindung nicht zwingend, dass die Telekommunikationsendeinrichtung 100 mobil ausgebildet ist. Grundsätzlich kann für die Erfindung auch eine stationäre oder eine in einem Fahrzeug fest integrierte Telekommunikationsendeinrichtung sein, die je nach zugrunde gelegtem System z.B. auch mit einer DECT-, einer Bluetooth-, einer (W)LAN oder anderen, auch drahtgebundenen Schnittstelle für den Zugang zu einem entsprechenden Netz ausgebildet ist.
Das insgesamt verwendete Telekommunikationsnetz 200 kann somit applikationsspezifisch unterschiedlich sein und beispielsweise Mobilfunknetze, (W)LAN, Festnetze und/oder das Internet umfassen.
Auch kann das verwendete Telekommunikationsnetz ein intelligentes Netz umfassen, wobei zumindest der Spracherkennungssystemserver 300 hierbei bevorzugt in einem Dienstknoten angeordnet ist und in zweckmäßiger Weise Zugang zu einer intelligenten Peripherie besitzt.
Gemäß weiteren bevorzugten Ausführungsformen ist ferner vorgesehen, dass der Dienstserver 400 beispielsweise auch direkt, unter Umgehung des Telekommunikationsnetzes 200, mit der Telekommunikationsendeinrichtung 100 zum Bereitstellen von Algorithmen ausgebildet ist. So ist beispielsweise insbesondere vorgesehen, dass der Dienstserver 400 Teil einer intelligenten, beispielsweise in einem Fahrzeug untergebrachten Einheit ist, auf der eine Vielzahl von Algorithmen zur Verfügung stehen und beispielsweise von einer zentralen, in Figur 1 nicht dargestellten Servereinheit mit aktuellen Algorithmen entsprechend über das Telekommunikationsnetz versorgt wird. Von einem solchen angeordneten Dienstserver kann folglich auch mittels einer direkten Verbindung zur Telekommunikationsendeinrichtung 100 ein entsprechend geeigneter Algorithmus auf die Telekommunikationsendeinrichtung 100 temporär geladen werden.
Mittels entsprechend den einzelnen Systemkomponenten 100, 300, 400 und/oder ggf. 500 zugewiesenen Rufkennungen können somit im Wesentlichen ortsunabhängig und bei applikationsspezifisch gewählter oder vorliegender Anordnung entsprechende gewünschte oder auch notwendige
KommunikationsVerbindungen zwischen den einzelnen Einrichtungen und/oder Systeme zur Durchführung des erfindungsgemäßen Verfahrens aufgebaut werden.
Solche Kennungen umfassen somit insbesondere
Teilnehmeranschlussnummern und/oder Dienstnummern, IP- Adressen, Rufleitungsidentifikatoren und/oder Mobiltelefonen zugewiesene, in einem Heimatregister eines jeweils zugeordneten Kommunikationsnetzes hinterlegte Kennungsadressen.
Eine fest installierte Sprachverarbeitungsfunktionalitat, insbesondere Freisprech- und/oder Geräusehreduktions- oder Spracherkennungsfunktionalität, auf einer Telekommunikationsendeinrichtung 100 ist somit durch die Erfindung nicht mehr notwendig, so dass die Erfindung insbesondere bei Telekommunikationsendeinrichtungen Anwendung findet, die keinen oder nur einen sehr geringen Speicher besitzen, keine ausreichende Kapazität auf diesem mehr bereithalten oder aber diese Kapazität anderweitig genutzt werden soll .
So kann beispielsweise auf der Telekommunikationsendeinrichtung 100 voreingestellt sein, dass bei Aufbau einer Kommunikationsverbindung automatisch zunächst eine Verbindung zu dem Dienstserver 400 aufgebaut wird zum temporären Laden und Implementieren eines oder ggf. auch mehrerer Algorithmen auf die Telekommunikationsendeinrichtung 100, aus denen anschließend durch die Telekommunikationsendeinrichtung 100 der jeweils geeignete entsprechend auswählbar ist.
Erweist sich ein implementierter Algorithmus als nicht mehr geeignet und/oder nach Beendigung der gewünschten
Kommunikationsverbindung, wird die durch den Algorithmus belegte Speicherkapazität, beispielsweise des Arbeitsspeichers, wieder für andere Anwendungen freigegeben.

Claims

Patentansprüche
1. Verfahren zum Durchführen einer Freisprechkommunikation 5 unter Nutzung einer Telekommunikationsendeinrichtung (100) , insbesondere einer mobilen Telekommunikationsendeinrichtung (100) , dadurch gekennzeichnet, dass wenigstens für die Dauer einer Kommunikationsverbindung wenigstens ein Programm zur 10. Realisierung eines Sprachverarbeitungsalgorithmus von einem Dienstserver (400) wenigstens temporär in die Telekommunikationsendeinrichtung (100) geladen und zur Anwendung implementiert wird.
15 2. Verfahren nach Anspruch 1, ferner gekennzeichnet durch das wenigstens temporäre Laden wenigstens eines Freisprech-, Echokompensations-, Sprecherverifizierungs- , -erkennungs- , -klassifizierungs-, Sprachverifizierungs- ,
20 -erkennungs-, "Text-To-Speech"- und/oder Geräuschreduktionsalgorithmus von dem Dienstserver.
3. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass Sprachsignale zur
25 Übertragung digitalisiert und/oder codiert werden.
4. Verfahren nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch das Aufbauen einer Verbindung über wenigstens ein Kommunikationsnetz zwischen der
30 Telekommunikationsendeinrichtung (100) und einem Serverbasierten Spracherkennungssystem (300) .
5. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass auf dem Dienstserver (400) eine Vielzahl von Algorithmen zum temporären Laden gespeichert werden.
6. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass zum Laden des wenigstens einen Algorithmus eine Verbindung zu dem Dienstserver (400) über wenigstens ein Kommunikationsnetz aufgebaut wird.
7. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass die Verbindung zum Laden unmittelbar zwischen dem Dienstserver (400) und der Telekommunikationsendeinrichtung (100) aufgebaut wird oder über die Zwischenschaltung eines serverbasierten SpracherkennungsSystems (300) .
8. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass die Verbindung zum Laden zwischen dem Dienstserver und der Telekommunikationsendeinrichtung (100) unter Ansprechen auf ein automatisches oder nutzerdefiniertes Anforderungssignal durch die Telekommunikationsendeinrichtung (100) oder unter Ansprechen auf ein AnforderungsSignal eines serverbasierten Spracherkennungssystem (300) erfolgt.
9. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass ein Verbindungsaufbau zwischen der Telekommunikationsendeinrichtung (100) und dem Dienstserver (400) und/oder einem Serverbasierten Spracherkennungssystem (300) unter Verwendung von jeweils zugeordneten Kennungen, beispielsweise mittels CLI, ANI oder HLR, erfolgt.
10. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass die Anbindung zwischen der Telekommunikationsendeinrichtung (100) und dem wenigstens einen Kommunikationsnetz drahtgebunden oder drahtlos erfolgt.
11. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass die Übertragung von der Telekommunikationsendeinrichtung (100) ein- oder mehrkanalig durchgeführt wird.
12. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass zusätzlich zu Sprachsignalen weitere Signale, insbesondere Test- und/oder Abgleichsignale, Tariffierungs- und/oder Kennungsparameter und/oder Vektoren umfassende Signale übertragen werden.
13. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass zur Übertragung von Sprachsignalen eine Umsetzung zwischen unterschiedlichen Frequenzbändern und/oder -Spektren durchgeführt wird.
14. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass die Auswahl eines aktuell anzuwendenden Algorithmus von der Telekommunikationsendeinrichtung (100) , einem Spracherkennungssystem (300) oder dem DienstServer (400) durchgeführt wird.
15. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass zur Überprüfung eines aktuell angewendeten oder anzuwendenden Algorithmus ein Testsignal auf Seiten der Telekommunikationsendeinrichtung (100) ausgeben und mit dem wieder empfangenen Antwortsignal verglichen wird.
16. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass für die Dauer der Kommunikationsverbindung das Laden wenigstens eines Algorithmus einmalig erfolgt oder mehrmalig, insbesondere aktualisierend erfolgt.
17. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass von der Telekommunikationsendeinrichtung (100) spezifische Kennungsparameter und/oder Tariffierungsparameter zur Weiterbearbeitung durch eine einem Spracherkennungssystem (300) und/oder dem Dienstserver (400) zugeordnete Vorrichtung übertragen werden.
18. Verfahren nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass von der Telekommunikationsendeinrichtung (100) eine Kalibrierung einer A/D und/oder D/A- Wandlung (104, 105) durchgeführt wird.
19. Verfahren nach vorstehendem Anspruch, ferner dadurch gekennzeichnet, dass die Kalibrierung einmalig für eine Kommunikationsverbindung, kontinuierlich und/oder digital durchgeführt wird.
20. Verfahren nach einem der beiden vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass als Abgleichsignal für die Kalibrierung das Sprachsignal und/oder ein Testsignal verwendet wird.
21. Verfahren nach einem der beiden vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass, insbesondere bei mehrkanaliger Verarbeitung von wenigstens zwei Mikrofonsignalen und/oder zur Geräuschreduktion, eine Ortung der Sprachquelle durchgeführt wird.
22. System zum Bereitstellen einer FreiSprechkommunikation für wenigstens eine Telekommunikationsendeinrichtung (100) , insbesondere eine mobilen Telekommunikationsendeinrichtung, insbesondere zur Durchführung des Verfahrens nach einem der vorstehenden Ansprüche, umfassend einen Dienstserver (400) mit Mitteln zum Bereitstellen von wenigstens einem Sprachverarbeitungsalgorithmus, wobei der Dienstserver ausgebildet ist, unter Ansprechen auf ein definiertes Anforderungssignal wenigstens ein Programm zur Realisierung eines Sprachverarbeitungsalgorithmus zur wenigstens temporären -Anwendungsimplementierung an wenigstens eine bestimmte der wenigstens einen Telekommunikationsendeinrichtung (100) zu übertragen.
23. System nach einem der vorstehenden Ansprüche, ferner dadurch gekennzeichnet, dass der DienstServer (400) Mittel zum Bereitstellen von wenigstens einem Freisprech-, Echokompensations-, Sprecherverifizierungs- , -erkennungs- , -klassifizierungs- , Sprachverifizierungs- , -erkennungs-, "Text-To-Speech"- und/oder Geräuschreduktionsalgorithmus zur wenigstens temporären AnwendungsImplementierung für die wenigstens eine Telekommunikationsendeinrichtung (100) umfasst.
24. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch ein serverbasiertes Spracherkennungssystem (300) und ein Tariffierungs- und/oder Billingsystem (500) .
25. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch wenigstens einen WEB-Server zum Bereitstellen des Dienstservers (400) , des serverbasierten SpracherkennungsSystems (300) und/oder des Tariffierungs- und/oder Billingsystems (500) .
26. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch Schnittstellenmittel zum Aufbauen von Kommunikationsverbindungen (1, 2, 3) zwischen der Telekommunikationsendeinrichtung (100) , dem Dienstserver (400) und/oder dem Serverbasierten Spracherkennungssystem (300) .
27. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch Schnittstellenmittel zum Aufbauen von Verbindungen (1, 2, 3, 4) zur Signalübertragung zwischen der Telekommunikationsendeinrichtung (100) , dem Dienstserver (400) , dem Serverbasierten Spracherkennungssystem (300) und/oder dem Tariffierungs- und/oder Billingsystem (500) .
28. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch Mittel zum Bereitstellen einer Kommunikationsverbindung (5, 6) zwischen dem Dienstserver (400) und/oder dem Serverbasierten Spracherkennungssystem (300) und dem Tariffierungs- und/oder Billingsystem (500) .
29. System nach einem der vorstehenden Ansprüche, ferner umfassend ein zur Übertragung von Sprachsignalen ausgebildetes Telekommunikationsnetz (200) , insbesondere wenigstens ein Mobilfunknetz, Festnetz, (W) LAN und/oder das Internet umfassend.
30. System nach einem der vorstehenden Ansprüche dadurch gekennzeichnet, dass ein Verbindungsaufbau zwischen der Telekommunikationsendeinrichtung (100) , dem Dienstserver (400), dem Serverbasierten Spracherkennungssystem (300) und/oder dem Tariffierungs- und/oder Billingsystem (500) unter Verwendung von jeweils zugeordneten Rufkennungen erfolgt.
31. System nach einem der vorstehenden Ansprüche gekennzeichnet durch Mittel zum Umsetzen eines Sprachsignal zwischen unterschiedlichen Frequenzbändern .
32. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch der Teleko munikationsendeinrichtung (100) , Spracherkennungssystem (300) und/oder dem DienstServer (400) zugeordnete Mittel zum Auswählen eines aktuell von der Telekommunikationsendeinrichtung (100) anzuwendenden Algorithmus.
33. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch der Telekommunikationsendeinrichtung (100) , Spracherkennungssystem (300) und/oder dem DienstServer (400) zugeordnete Mittel zur Überprüfung eines aktuell angewendeten oder anzuwendenden Algorithmus .
34. System nach einem der vorstehenden Ansprüche, ferner gekennzeichnet durch der Telekommunikationsendeinrichtung (100) , Spracherkennungssystem (300) und/oder dem Dienstserver (400) zugeordnete Mittel zur Generierung eines Testsignals, welches zur Überprüfung eines aktuell angewendeten oder anzuwendenden Algorithmus über wenigstens einen Lautsprecher (108, 110) der Telekommunikationsendeinrichtung (100) ausgegeben und mit einem über wenigstens ein Mikrofon (107, 109) der Telekommunikationsendeinrichtung (100) empfangenen Antwortsignal verglichen wird.
35. Serverbasiertes Spracherkennungssystem (300) für ein System nach einem der vorstehenden Ansprüche, umfassend Mittel zur Auswahl wenigstens eines auf einem Dienstserver (400) bereitgestellten Sprachverarbeitungsalgorithmus , insbesondere Freisprech-, Echokompensations-, Sprecherverifizierungs- , -erkennungs- , -klassifizierungs- , Sprachverifizierungs- , -erkennungs-, "Text-To-Speech"- und/oder Geräuschreduktionsalgorithmus, zum wenigstens temporären Laden und Implementieren auf einer bestimmten Telekommunikationsendeinrichtung (100) unter Ansprechen auf der Telekommunikationsendeinrichtung (100) zugeordneten Kennungsungsparametern.
36. Dienstserver (400) für ein System nach einem der vorstehenden Ansprüche, umfassend Mittel zur Auswahl wenigstens eines auf dem DienstServer (400) bereitgestellten Sprachverarbeitungsalgorithmus, insbesondere Freisprech-, Echokompensations-, Sprecherverifizierungs- , -erkennungs- , -klassifizierungs- , Sprachverifizierungs- , -erkennungs-, "Text-To-Speech"- und/oder Geräuschreduktionsalgorithmus zum wenigstens temporären Laden und Implementieren auf wenigstens einer bestimmten Telekommunikationsendeinrichtung (100) unter Ansprechen auf der Telekommunikationsendeinrichtung (100) zugeordneten Kennungsparameter.
37. Tariffierungs- und/oder Billingsystem (500) für ein System nach einem der vorstehenden Ansprüche, umfassend Mittel zur Tariffierung eines einer bestimmten Telekommunikationsendeinrichtung (100) von einem Serverbasierten Spracherkennungssystem (300) wenigstens temporär bereitgestellten Dienstes und/oder eines von einem Dienstserver (400) wenigstens temporär geladenen Programms zur Realisierung eines Sprachverarbeitungsalgorithmus, insbesondere Freisprech-, Echokompensations-, Sprecherverifizierungs- , -erkennungs- , -klassifizierungs- , Sprachverifizierungs- , -erkennungs-, wText-To-Speech"- und/oder Geräuschreduktionsalgorithmus unter Ansprechen auf der Telekommunikationsendeinrichtung (100) zugeordnete Kennungs- und/oder Tariffierungsparameter.
38. Telekommunikationsendeinrichtung (100) für ein System nach einem der vorstehenden Ansprüche, umfassend Mittel (101, 103) zum wenigstens temporären Laden wenigstens eines Sprachverarbeitungsalgorithmus von einem Dienstserver (400) und zum temporären Implementieren.
39. Telekommunikationsendeinrichtung (100) nach vorstehendem Anspruch, umfassend Mittel (101, 103) zum wenigstens temporären Laden wenigstens eines Freisprech-, Echokompensations-, Stimmen- und/oder Sprachverifizierungs- und/oder Geräuschreduktionsalgorithmus von dem Dienstserver (400) und zum temporären Implementieren.
40. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden Ansprüche, ferner umfassend einen Prozessor zum Ausführen des implementierten Algorithmus .
41. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden Ansprüche, welche als mobile Telekommunikationsendeinrichtung ausgebildet ist, insbesondere als PDA, MDA, Mobiltelefon oder DECT- Telefon.
42. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden -Ansprüche, welches auf einem GSM-Standard oder UMTS-Standard basiert.
43. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden Ansprüche, ferner umfassend einen A/D- Wandler (104) und einen D/A-Wandler (105) .
44. Telekommunikationsendeinrichtung (100) nach vorstehendem Anspruch, ferner umfassend eine Einrichtung (106) zum Kalibrieren des A/D-Wandler (104) und des D/A-Wandler (105) und/oder zum Durchführen einer digitalen Kalibrierung.
45. Telekommunikationsendeinrichtung nach vorstehendem Anspruch, welche ausgebildet ist die Kalibrierung unter Verwendung eines Sprachsignals und/oder eines Testsignals als Abgleichsignal selbsttätig durchzuführen .
46. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden Ansprüche, ferner umfassend eine Kodiereinrichtung (102) .
47. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden Ansprüche, gekennzeichnet durch eine Einrichtung zum Umsetzen eines Sprachsignals zwischen unterschiedlichen Frequenzbändern.
48. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden Ansprüche, ferner umfassend Schnittstellenmittel zum drahtgebundenen und/oder drahtlosen Anschalten wenigstens eines externen Mikrofons (109) und/oder Lautsprechers (110) .
49. Telekommunikationsendeinrichtung (100) nach einem der vorstehenden Ansprüche, ferner umfassend wenigstens einen Mikrofonkanal und/oder Lautsprecherkanal, insbesondere wenigstens zwei Mikrofonkanäle und/oder Lautsprecherkanäle, und/oder Mittel zur Mehrkanal- Signalübertragung.
PCT/DE2004/001253 2003-07-22 2004-06-17 Verfahren und system zum bereitstellen einer freisprechfunktionalität bei mobilen telekommunikationsendeinrichtungen durch temporäres herunterladen eines sprachverarbeitungsalgorithmus WO2005011235A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/565,629 US20060223512A1 (en) 2003-07-22 2004-06-17 Method and system for providing a hands-free functionality on mobile telecommunication terminals by the temporary downloading of a speech-processing algorithm
EP04738704A EP1649672A1 (de) 2003-07-22 2004-06-17 Verfahren und system zum bereitstellen einer freisprechfunktionalität bei mobilen telekommunikationsendeinrichtungen durch temporäres herunterladen eines sprachverarbeitungsalgorithmus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10333896A DE10333896A1 (de) 2003-07-22 2003-07-22 Verfahren und System zum Bereitstellen einer Freisprechfunktionalität bei mobilen Telekomunikationsendeinrichtungen
DE10333896.9 2003-07-22

Publications (1)

Publication Number Publication Date
WO2005011235A1 true WO2005011235A1 (de) 2005-02-03

Family

ID=34042074

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2004/001253 WO2005011235A1 (de) 2003-07-22 2004-06-17 Verfahren und system zum bereitstellen einer freisprechfunktionalität bei mobilen telekommunikationsendeinrichtungen durch temporäres herunterladen eines sprachverarbeitungsalgorithmus

Country Status (4)

Country Link
US (1) US20060223512A1 (de)
EP (1) EP1649672A1 (de)
DE (1) DE10333896A1 (de)
WO (1) WO2005011235A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007079017A3 (en) * 2005-12-30 2007-09-07 Telenav Inc Communication system with remote applications
US8279895B2 (en) 2006-09-26 2012-10-02 Koninklijke Philips Electronics N.V. Efficient channel architectures for multi-channel MAC protocols in wireless ad hoc networks

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US7986914B1 (en) * 2007-06-01 2011-07-26 At&T Mobility Ii Llc Vehicle-based message control using cellular IP
US20090099848A1 (en) * 2007-10-16 2009-04-16 Moshe Lerner Early diagnosis of dementia
CN101719370A (zh) * 2009-11-25 2010-06-02 中兴通讯股份有限公司 实现移动终端音频编解码算法可重构的装置及方法
JP2013068532A (ja) * 2011-09-22 2013-04-18 Clarion Co Ltd 情報端末、サーバー装置、検索システムおよびその検索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581600A (en) * 1992-06-15 1996-12-03 Watts; Martin O. Service platform
WO1997050222A1 (en) * 1996-06-27 1997-12-31 Mci Communications Corporation Wireless smart phone
US6377825B1 (en) * 2000-02-18 2002-04-23 Cellport Systems, Inc. Hands-free wireless communication in a vehicle
US20020071396A1 (en) * 1999-12-08 2002-06-13 Lee William C.Y. Tunnelling wireless voice with software-defined vocoders
WO2003041440A1 (en) * 2001-10-17 2003-05-15 H.Information Contents providing system for portable terminal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPO214096A0 (en) * 1996-09-04 1996-09-26 Telefonaktiebolaget Lm Ericsson (Publ) A telecommunications system and method for automatic call recognition and distribution
JP3055514B2 (ja) * 1997-12-05 2000-06-26 日本電気株式会社 電話回線用音声認識装置
US20020034971A1 (en) * 1999-02-08 2002-03-21 Chienchung Chang Data allocation for multiple applications on a microprocessor or dsp
US20020138274A1 (en) * 2001-03-26 2002-09-26 Sharma Sangita R. Server based adaption of acoustic models for client-based speech systems
US6941135B2 (en) * 2001-08-13 2005-09-06 Qualcomm Inc. System and method for temporary application component deletion and reload on a wireless device
US20030195006A1 (en) * 2001-10-16 2003-10-16 Choong Philip T. Smart vocoder
US7099825B1 (en) * 2002-03-15 2006-08-29 Sprint Communications Company L.P. User mobility in a voice recognition environment
US20040204074A1 (en) * 2002-05-16 2004-10-14 Nimesh R. Desai Cellular phone speaker console
US7027842B2 (en) * 2002-09-24 2006-04-11 Bellsouth Intellectual Property Corporation Apparatus and method for providing hands-free operation of a device
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581600A (en) * 1992-06-15 1996-12-03 Watts; Martin O. Service platform
WO1997050222A1 (en) * 1996-06-27 1997-12-31 Mci Communications Corporation Wireless smart phone
US20020071396A1 (en) * 1999-12-08 2002-06-13 Lee William C.Y. Tunnelling wireless voice with software-defined vocoders
US6377825B1 (en) * 2000-02-18 2002-04-23 Cellport Systems, Inc. Hands-free wireless communication in a vehicle
WO2003041440A1 (en) * 2001-10-17 2003-05-15 H.Information Contents providing system for portable terminal

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007079017A3 (en) * 2005-12-30 2007-09-07 Telenav Inc Communication system with remote applications
US8279895B2 (en) 2006-09-26 2012-10-02 Koninklijke Philips Electronics N.V. Efficient channel architectures for multi-channel MAC protocols in wireless ad hoc networks

Also Published As

Publication number Publication date
EP1649672A1 (de) 2006-04-26
DE10333896A1 (de) 2005-02-10
US20060223512A1 (en) 2006-10-05

Similar Documents

Publication Publication Date Title
DE60304604T2 (de) Audio-prüfverfahren für akustische vorrichtungen
DE602004011109T2 (de) Verfahren und system zum senden von sprachnachrichten
DE102005038118A1 (de) Freisprecheinrichtung und Mobiltelefon-Handapparat
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE60127550T2 (de) Verfahren und system für adaptive verteilte spracherkennung
DE112016006334T5 (de) Verfahren und systeme zur erreichung einer konsistenz bei der rauschunterdrückung während sprachphasen und sprachfreien phasen
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
DE102006002276B4 (de) Verfahren zum Reduzieren einer Herstellungszeit eines Modemanrufs zu einer Telematikeinheit
EP1649672A1 (de) Verfahren und system zum bereitstellen einer freisprechfunktionalität bei mobilen telekommunikationsendeinrichtungen durch temporäres herunterladen eines sprachverarbeitungsalgorithmus
WO2004059962A1 (de) Echounterdrückung für komprimierte sprache mit nur teilweiser trancodierung des uplink-nutzerdatenstromes
EP3116237B1 (de) Verfahren zum betrieb eines hörgerätesystems und hörgerätesystem
EP1578098B1 (de) Präsentation von personalisierter Information bei einem Rufaufbau
US20090076824A1 (en) Remote control server protocol system
DE102019208742B4 (de) Sprachübersetzungssystem zum Bereitstellen einer Übersetzung eines Spracheingabesignals eines Sprechers in ein anderssprachiges Sprachausgabesignal für einen Hörer sowie Übersetzungsverfahren für ein derartiges Sprachübersetzungssystem
DE102015209192A1 (de) Ferneinstell- und Diagnose-Schnittstelle für Freisprechsysteme
DE102007028476A1 (de) Verfahren und Vorrichtung zur Kommunikation in einem Kraftfahrzeug
EP2490427B1 (de) Akustische Kopplungserkennung zwischen Kommunikationsendgeräten in einer Konferenzschaltung
EP2073581B1 (de) Übertragung von aus Sprachnachrichten erzeugten Textnachrichten in Telekommunikationsnetzen
DE202007009355U1 (de) Sprachdialogsystem für adaptive Sprachdialoganwendungen
WO2018188907A1 (de) Verarbeitung einer spracheingabe
DE102018213367A1 (de) Verfahren und Telefonievorrichtung zur Geräuschunterdrückung eines systemgenerierten Audiosignals bei einem Telefonat sowie ein Fahrzeug mit der Telefonievorrichtung
DE202014100437U1 (de) System zur Übertragung eines Audiosignals an mehrere mobile Endgeräte
DE10220519B4 (de) Verfahren und System zur Verarbeitung von Sprachinformation
DE102016214853A1 (de) Verfahren und Vorrichtung zur Verbesserung einer Sprachqualität einer mit einem Fahrzeug gekoppelten Kommunikationseinrichtung
WO2001015009A2 (de) Internetzugriff mit sprachein- und ausgabe

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004738704

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2006223512

Country of ref document: US

Ref document number: 10565629

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2004738704

Country of ref document: EP

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
WWP Wipo information: published in national office

Ref document number: 10565629

Country of ref document: US

WWR Wipo information: refused in national office

Ref document number: 2004738704

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2004738704

Country of ref document: EP