WO2003085640A1 - Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale - Google Patents

Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale Download PDF

Info

Publication number
WO2003085640A1
WO2003085640A1 PCT/JP2003/002952 JP0302952W WO03085640A1 WO 2003085640 A1 WO2003085640 A1 WO 2003085640A1 JP 0302952 W JP0302952 W JP 0302952W WO 03085640 A1 WO03085640 A1 WO 03085640A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
data
voice
transmission means
capability
Prior art date
Application number
PCT/JP2003/002952
Other languages
English (en)
French (fr)
Inventor
Eiko Yamada
Hiroshi Hagane
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to EP03708563A priority Critical patent/EP1394771A4/en
Priority to US10/476,638 priority patent/US20040162731A1/en
Publication of WO2003085640A1 publication Critical patent/WO2003085640A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • Speech recognition dialogue selection device Speech recognition dialogue system, Speech recognition dialogue selection method, Program technical field
  • the present invention transmits voice data input to a terminal (client terminal) such as a mobile phone or an in-vehicle terminal to the recognition dialog server side through the network, and the voice dialog by voice recognition / response on the recognition dialog server side.
  • the present invention relates to a voice recognition dialogue apparatus, a voice recognition dialogue selection method and apparatus, and a recording medium for a voice recognition dialogue selection program.
  • the voice data output from the client terminal side is transmitted to the recognition dialogue server side via the bucket network, and the voice recognition dialogue processing is performed on the recognition dialogue server side.
  • a speech recognition dialogue system using iceover Internet (Protocol) is known. This speech recognition dialogue system is described in detail, for example, in Nikkei Internet Technology, pp. 130-137, March 1998.
  • voice recognition or voice recognition and response (synthesis, recorded voice, etc.) is performed in advance using a framework in which the IP addresses of the client terminal side and the recognition conversation server side are already known. Is called. That is, the client terminal and the recognition dialog server are connected to each other in a state where packet communication is possible using the mutual IP address, and in this state, the voice data packet is transmitted from the client terminal side to the recognition dialog server side.
  • a framework for conducting speech recognition dialogue is a framework for conducting speech recognition dialogue.
  • voice data is transmitted from a client terminal to a voice recognition server via a packet network. It is built as a system that recognizes these audio data.
  • the above-described system using the conventional Vo IP performs voice recognition and voice dialogue in a framework in which the IP address between the client terminal side and the recognition dialogue server side is known. If a server exists, it is necessary to select a recognition dialogue server that is most suitable for the client terminal and to develop a new system that links the recognition dialogue server to the client terminal.
  • the object of the present invention is to select the optimum recognition / dialog server by referring to the client terminal side capability and the recognition dialog server side capability when there are a plurality of recognition dialogue servers, and To provide a voice recognition dialogue apparatus, a voice recognition dialogue selection method and apparatus, and a recording medium for a voice recognition dialogue selection program capable of performing a voice recognition dialogue between a recognition dialogue server and a client terminal. . Disclosure of the invention
  • a speech recognition dialogue apparatus provides speech recognition.
  • a plurality of interaction means for performing a dialogue a transmission means for transmitting voice information to the interaction means, a network for linking the transmission means and the interaction means, the capability of the transmission means, and the interaction means According to the capability, it includes a sorting means for selecting one dialogue means from the plurality of dialogue means.
  • the speech recognition dialogue apparatus includes a dialogue unit that performs a plurality of voice recognition dialogues, a request unit that requests a service from the dialogue unit, and a transmission unit that transmits voice information to the dialogue unit.
  • a network that links the transmitting means, the requesting means, and the interactive means, and the ability of the requesting means, the transmitting means, and the ability of the interactive means to select one from the plurality of interactive means. It is also possible to adopt a configuration that includes a sorting means for selecting a dialog means, and.
  • the speech recognition dialogue apparatus includes a dialogue means for performing a plurality of voice recognition dialogues, a service holding means for holding service contents requested to the dialogue means, and transmitting voice information to the dialogue means.
  • a plurality of dialogs by means of a transmission unit that performs communication, a network that links the service holding unit, the transmission unit, and the dialogue unit, and the capabilities of the service holding unit, the transmission unit, and the dialogue unit. It is also possible to adopt a configuration that includes a sorting means for selecting one dialogue means from the means.
  • the allocating means used in the voice recognition dialogue apparatus described above sends information for specifying the selected dialogue means to the transmission means, and is necessary for the voice recognition dialogue between the dialogue means and the transmission means. It is desirable to have a function to exchange voice information. Also, instead of the allocating means, information for specifying the selected dialog means is sent to the request means and the transmission means, and between the dialog means, the request means and the transmission means means. Therefore, a distribution means having a function of exchanging voice information with the service contents may be used. Further, as the allocating means, one having a function of changing one selected dialog means to another selected dialog means may be used.
  • the allocating means the capability of the transmitting means is compared with the abilities of the plurality of dialogue means, and based on the comparison result, the voice information input format to the dialogue means and the transmission are compared.
  • the output format of the voice information to the means is the same. It is also possible to use one having a function for determining the dialogue means having a desired ability.
  • the capabilities of the requesting means and the transmitting means are compared with the abilities of the plurality of interactive means, and based on the comparison result, the input format of the audio information to the interactive means It is also possible to use one having a function for determining the dialogue means having a desired ability, which matches the output format to the request means and the transmission means.
  • the voice information formed from digitized voice data, compressed voice data, or feature vector data as the voice information output from the transmission means.
  • the data for judging the capability of the transmission means include C ODEC capability, audio data format, and recording / synthesizing voice input / output function data.
  • the data that interrupts the ability of the interactive means include CODEC ability, voice data format, recording / synthesized voice output function, service contents, recognition ability, and operation information data. Is.
  • the voice recognition dialogue apparatus transmits a plurality of voice recognition dialogue servers that perform voice recognition dialogue, service contents requested to the voice recognition dialogue server, and voice information.
  • Voice recognition dialogue for selecting one dialogue means from the plurality of dialogue means with the client terminal A selection server; and a network that links the client terminal, the voice recognition dialogue server, and the voice recognition dialogue selection server.
  • the client terminal includes a data input unit for inputting voice information and data of service contents, a terminal information storage unit for storing data on the capability of the client terminal, and the voice via the network.
  • a data communication unit that communicates between the recognition dialogue server and the voice recognition selection server and transmits the voice information to the selected voice recognition dialogue server, and controls the operation of the client terminal.
  • a control unit controls the operation of the client terminal.
  • the voice recognition dialogue selection server has a data communication unit that communicates between the client terminal and the voice recognition dialogue server via the network, and each capability of the voice recognition dialogue server. Recognizing dialogue server information storage unit to be stored and capability data of the client terminal stored in the terminal information storage unit are read out, and the data and capability data of the voice recognition dialogue server in the recognition dialogue server information storage unit And at least one voice recognition dialogue server is determined from the plurality of voice recognition dialogue servers, and information necessary for specifying the determined voice recognition dialogue server is sent to the client terminal.
  • a recognition dialogue server determination unit wherein the voice recognition dialogue server is based on the voice information input from the client terminal.
  • a voice recognition dialogue execution unit that executes a voice recognition dialogue; a data communication unit that communicates between the client terminal and the voice recognition dialogue selection server via the network; and the voice recognition dialogue It may be constructed so as to have a control unit for controlling the operation of the server.
  • the service content holding server linked to the network and holding the content of the service requested from the client terminal and the voice recognition dialogue server are provided, and the service content holding server is provided. Hold on It is also possible to add a reading unit for reading the contents of the service.
  • a process transition unit is provided that is provided in the voice recognition dialogue server and outputs a request to the voice recognition dialogue selection server to transfer the voice recognition dialogue processing to the voice recognition dialogue server different from the voice recognition dialogue server. It may be.
  • the audio information output from the client terminal is formed from digitized audio data, compressed audio data, or feature vector data.
  • the data for determining the capabilities of the client terminal include data on the capabilities of the CODEC, voice data format, recording, and synthesized voice input / output function.
  • the data for judging the capability of the voice recognition dialogue server includes C0DEC capability, voice data format, recording ⁇ synthesized voice output function, service contents, recognition capability, and operation information data. It is desirable.
  • the speech recognition dialogue selection method performs data communication through a network between a transmission unit and a plurality of interaction units, and uses the voice information data output from the transmission unit as a specific dialogue unit. That performs the sort process,
  • a first step of receiving voice information data from the transmission means a second step of requesting the transmission means for capability data of the transmission means;
  • the ability data from the transmission means and the ability data of the plurality of interaction means are compared, and the specific interaction means is uniquely determined based on the comparison result.
  • the dialogue unit sends a request to transfer the destination of the transmission unit to another dialogue unit. 7 steps,
  • An eighth step of requesting the transmission means for capability data of the transmission means
  • the speech recognition dialogue selection method performs data communication through a network between the transmission means, the plurality of interaction means, and the service holding means, and the voice information data output from the transmission means. Is a process that distributes
  • Service contents including voice recognition dialogue processing output from the transmission means
  • a second step of requesting the transmission means for capability data of the transmission means
  • the dialogue unit can transmit the dialogue unit to another dialogue unit.
  • a first step of requesting the transmission means for capability data of the transmission means
  • a first step of transmitting capability data of the transmission data from the transmission means A first step of transmitting capability data of the transmission data from the transmission means;
  • a 16th step for performing a speech recognition dialogue process may be added between the dialogue means determined in the 14th step and the transmission means.
  • audio information including digitized audio data, compressed audio data, or feature vector data
  • the data for judging the capability of the transmission means include C ODEC capability, voice data format, recording / synthesized voice input / output function, and service content data.
  • the data for judging the ability of the dialog means include the data of C O DE C, voice data format, recording / synthetic voice output function, service contents, recognition ability, and operation information data.
  • the speech recognition dialogue selection apparatus performs data communication through a network between a transmission unit and a plurality of interaction units, and uses the voice information data output from the transmission unit as a specific dialogue unit.
  • a sorting means for sorting The distribution unit may be constructed so as to perform the distribution by specifying the dialog unit according to the capability of the transmission unit and the capability of the dialog unit when performing the distribution.
  • the speech recognition dialogue selection apparatus performs data communication through a network between a transmission unit and a plurality of interaction units, and uses the voice information data output from the transmission unit as a specific dialogue unit. That performs the sort process,
  • a second means for requesting the transmission means for capability data of the transmission means a third means for transmitting the capability data from the transmission means in response to a request from the second means;
  • It may be constructed as a configuration having a fifth means for notifying the transmitting means of information for specifying the dialogue means determined by the fourth means.
  • the audio information includes digitized audio data, compressed audio data, or feature vector data.
  • the data for judging the capability of the transmission means include the CODEC capability, voice data format, recording / synthetic voice input / output function, and service content data.
  • the data for judging the ability of the dialog means include CODEC ability, voice data format, recording / synthetic voice output function, service contents, recognition ability, and operation information. It is desirable to include the evening.
  • the present invention may be configured to store a voice recognition dialogue selection program on a recording medium. That is, the recording medium for a speech recognition conversation selection program according to the present invention performs data communication through a network between a transmission unit and a plurality of interaction units, and receives voice information data output from the transmission unit. A first step of receiving voice information data from the transmission unit; and a second step of requesting the transmission unit for capability data of the transmission unit. , '' A third step of transmitting capability data of the transmission means from the transmission means;
  • a voice recognition dialog selection program having a sixth step for performing voice recognition dialog processing between the transmission means and the uniquely determined dialog means may be recorded.
  • the dialogue unit sends a request to transfer the destination of the transmission unit to another dialogue unit.
  • An eighth step of requesting the transmission means for capability data of the transmission means
  • a voice recognition dialogue selection program for adding a first step for performing voice recognition dialogue processing between the dialogue means determined in the tenth step and the transmission means may be recorded. It is.
  • voice recognition dialogue selection program to be recorded on the recording medium data communication is performed through the network between the transmission means, the plurality of dialogue means, and the service holding means, and is output from the transmission means. This is a process that distributes audio information data to specific interactive means.
  • a second step of requesting the transmission means for capability data of the transmission means
  • a speech recognition dialogue selection program having a tenth step for performing speech recognition dialogue processing based on the contents of the read service between the transmission means and the dialogue means determined in the fourth step. It is desirable to use. In this case, while a speech recognition dialogue process is being performed between the transmission unit and the dialogue unit, a request to transfer the destination of the transmission unit from the dialogue unit to another dialogue unit is transmitted. 1st step 1 and
  • a first step of requesting the transmission means for capability data of the transmission means
  • the speech recognition dialogue system is a system in which a client terminal and a plurality of recognition dialogue servers are connected to each other through a network. It is possible to select and determine the appropriate recognition dialogue server and execute the voice recognition dialogue on the optimum recognition dialogue server.
  • the data used to determine the capabilities of the client terminal include CODEC capabilities (CODEC type, C 0 DEC compression mode, etc.), audio data formats (compressed audio data, feature vectors, etc.), recorded audio Input / output functions, synthesized speech input / output functions (no synthesis engine, intermediate expression input engine, character string input engine, etc.), service contents, etc. Also recognize
  • the data used to determine the talk server's capabilities include CODEC capabilities (CODEC type, CODEC expansion mode, etc.), recording voice output function, synthesized voice output function (no synthesis engine, intermediate expression output engine, Examples include data such as a waveform output engine), service contents, recognition engine capabilities (task engine, dictation engine, command recognition engine, etc.), and operation information.
  • C 0 DEC examples include AMR-NB and AMR-WB.
  • An example of the intermediate representation of synthesized speech is the representation after converting a character string to a phonetic symbol string.
  • Service contents include services such as address recognition, name recognition, song name recognition of incoming melody, phone number recognition, credit number recognition and so on.
  • the processing unit that determines the recognition dialogue server is included in the web server or the recognition dialogue selection server, in the recognition dialogue server, or in the web server, or the recognition dialogue selection server and the recognition dialogue server. It may be included in both cases.
  • the terminal can automatically access another appropriate recognition server even during the dialogue.
  • FIG. 1 is a diagram showing a configuration of a speech recognition dialogue system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of the client terminal 10 of the present invention.
  • FIG. 3 is a block diagram showing the configuration of the recognition dialogue server 30 according to the embodiment of the present invention.
  • FIG. 4 is a block diagram showing fc3 ⁇ 4 of the recognition dialogue selection server 20 according to the present invention.
  • FIG. 5 is a flowchart showing the processing when the recognition dialogue selection server 20 determines the recognition dialogue server in the speech recognition dialogue system according to the embodiment of the present invention.
  • FIG. 6 is a flowchart showing a speech recognition dialogue process in the speech recognition dialogue method according to the embodiment of the present invention.
  • FIG. 7 shows a case where the recognition dialogue server 30 determines the new recognition dialogue server 80 during the recognition dialogue processing in the recognition dialogue server 30 in the speech recognition dialogue system according to the embodiment of the present invention. This is a flowchart showing the processing.
  • FIG. 8 is a block diagram showing the configuration of the recognition dialogue representative server 40 according to the embodiment of the present invention.
  • FIG. 9 is a flowchart showing processing when the recognition dialogue representative server 40 determines a new recognition dialogue server 80 during the recognition dialogue processing in the speech recognition dialogue method according to the embodiment of the present invention.
  • FIG. 10 is a diagram showing the recognition dialogue server C 50 according to the embodiment of the present invention. The voice recognition dialogue starter and service content reader are added to the device in Fig. 4.
  • FIG. 11 is a flowchart showing processing when the recognition dialogue server C 50 reads service contents from the service content holding server 60 in the speech recognition dialogue method according to the embodiment of the present invention.
  • FIG. 12 is a diagram showing a program for executing the speech recognition dialogue method according to the embodiment of the present invention on the server computer 91 and a recording medium 900 on which the program is recorded.
  • the present invention provides a function for uniquely selecting and determining an optimum recognition dialogue server when there are a plurality of recognition dialogue servers in a voice recognition dialogue system for providing a voice recognition dialogue service using a network. It has a system.
  • FIG. 1 is a diagram showing the configuration of a speech recognition dialogue system according to an embodiment of the present invention.
  • the client terminal 10 is connected to the recognition dialogue selection server 2 0 via the network 1, the recognition dialogue server 30, the recognition dialogue representative server 40, the recognition dialogue server C 50, and the new recognition dialogue server 8. 0 and service content holding server 60 are connected.
  • the client terminal 10 functions as a transmission means for transmitting voice information and a request means for requesting service contents.
  • Network 1 types include Internet (including wired or wireless) and Internet.
  • FIG. 2 is a block diagram showing the configuration of the client terminal 10 of the present invention.
  • the client terminal 10 is a mobile terminal, PDA, in-vehicle terminal, personal computer, or home terminal.
  • the client terminal 10 communicates via a control unit 1 2 0 that controls the client terminal 1 0, a terminal information storage unit 1 4 0 that retains the capabilities of the client terminal 1 0, and the network 1. It is composed of a communication section 1 3 0 that performs
  • the data used to determine the capabilities of the client terminal 10 include the CODEC capability (CODEC type, CODEC compression mode, etc.), audio data format (compressed audio data, feature vector, etc.), recording audio input Data such as output function, synthesized voice input / output function (without synthesis engine, with intermediate expression input engine, with character string input engine, etc.) and service contents are used.
  • CODEC capability CODEC type, CODEC compression mode, etc.
  • audio data format compressed audio data, feature vector, etc.
  • recording audio input Data such as output function, synthesized voice input / output function (without synthesis engine, with intermediate expression input engine, with character string input engine, etc.) and service contents are used.
  • service contents include service data such as address recognition, name recognition, song name recognition of incoming melody, phone number recognition, credit number recognition and so on.
  • FIG. 3 is a block diagram showing the configuration of the recognition dialogue server 30 according to the embodiment of the present invention.
  • the recognition dialogue server 30 includes a control unit 3 20 that controls the recognition dialogue server 30, a voice recognition dialogue execution unit 3 30 that performs voice recognition and dialogue, and data communication that communicates via the network 1 It consists of part 3 1 0.
  • FIG. 4 is a block diagram showing the configuration of the recognition dialogue selection server 20 according to the present invention.
  • the recognition dialogue selection server 20 is a data communication unit 2 1 0 that communicates via the network 1, and a recognition dialogue server that uniquely selects and determines the optimum recognition dialogue server when there are multiple recognition dialogue servers. It comprises a determination unit 2 2 0 and a recognition dialog server information storage unit 2 3 0 for storing the selected and determined recognition dialog server capability information.
  • the recognition dialogue selection server 20 is configured to select a specific dialogue means from a plurality of dialogue means according to the ability of the client terminal 10 as a transmission means / request means and the ability of the egg recognition server.
  • the sorting means to be selected is configured.
  • the data used to determine the capabilities of the recognition dialogue server includes C0 DEC capabilities (CODEC type, CODEC expansion mode, etc.), audio data formats (compressed audio data, feature vectors, etc.), recorded audio output function, synthesis Voice output function (no synthesis engine, intermediate expression output engine, waveform output engine, etc.), service content, recognition engine capability (task-specific engine, dictation engine, command recognition engine, etc.), operation Use information such as information.
  • the new recognition dialogue server 80 is the same as any one of the recognition dialogue server 30, the recognition dialogue representative server 40, and the recognition dialogue server C 50.
  • the recognition dialogue selection server 20, the recognition dialogue server 30, the recognition dialogue representative server 40, the recognition dialogue server C 50, and the new recognition dialogue server 80 are Windows (registered trademark) NT, A computer equipped with Windows (registered trademark) 20000 is a server equipped with Solaris (registered trademark).
  • the configuration of the recognition dialogue representative server 40 and the recognition dialogue server C 50 will be described later.
  • the recognition dialogue selection server 20, the recognition dialogue server 30, the recognition dialogue representative server 40, the recognition dialogue server C 50, the new recognition dialogue server 80, and the like function as the above-described dialogue means.
  • FIG. 5 is a flowchart showing processing when the recognition dialogue selection server 20 determines the recognition dialogue server 30 in the speech recognition dialogue system according to the embodiment of the present invention.
  • a request for a service including voice recognition dialogue processing is made from the client terminal 10 to the recognition dialogue selection server 20 (step 5 0 1) ⁇ Specifically, the client terminal 10
  • the CGI URL of the program that executes the service and the arguments required for the processing are transmitted from the data communication unit 130 on the side to the recognition dialog selection server 20 side using an HTTP command or the like.
  • the recognition dialogue selection server 20 side receives the service request from the client terminal 10 side, and requests the capability information of the client terminal 10 (step 5002).
  • the client terminal 10 receives the capability information request from the recognition dialogue selection server 20, and transmits the capability information of the client terminal 10 stored in the terminal information storage unit 140 through the control unit 120.
  • the data communication unit 1 3 0 transmits to the recognition dialogue selection server 20 (step 5 03).
  • C OD EC capabilities C OD EC type, C OD EC compression mode, etc.
  • audio data formats compressed audio data, feature vectors, etc.
  • Input / output function synthesized speech input / output function (no synthesis engine, intermediate expression input engine, character string input engine, etc.), service contents, etc.
  • the recognition dialogue selection server 20 receives the capability information of the client terminal 10 transmitted from the client terminal 10, and recognizes a plurality of recognition units stored in the recognition dialogue server information storage unit 23 30 in advance.
  • the capability information of the dialogue server is read out, and the recognition dialogue server determination unit 220 compares the capability information on the client terminal 10 side with the capabilities of multiple recognition dialogue servers (step 5004). Considering the service content information requested by the terminal 10 side, the optimum recognition dialogue server is uniquely determined (step 05).
  • CODEC capabilities CODEC type, CODEC expansion mode, etc.
  • audio data formats compressed audio data, feature vectors, etc.
  • recording audio output function synthesized audio output function
  • synthesized audio output function No synthesis engine, intermediate expression output engine, waveform output engine, etc.
  • service content recognition engine capability (task dedicated engine, dictation engine, command recognition engine) Etc.) and operation information.
  • 3 0 exists, for example, address task server, name task server ⁇ phone number task server, card ID task server, etc., dedicated recognition dialog server 3 0 exists, client terminal 1
  • An example is a method of selecting a recognized dialogue server that can execute the service content requested from 0.
  • the recognition dialog selection server 20 notifies the client terminal 10 side of the information of the recognition dialog server determined by the recognition dialog server determination unit 2 20 (step 5 06).
  • the address of the recognition dialogue server 30 or the address of the execution program that executes the recognition dialogue on the recognition dialogue server 30 is embedded in a screen such as HTML and notified as an example. Can be mentioned.
  • the client terminal 10 receives the notification of the information of the recognition dialogue server 30 from the recognition dialogue selection server 20 and requests the notified recognition dialogue server 30 to start the voice recognition dialogue ( Step 5 0 7).
  • the request method for starting the speech recognition dialogue there is a method to send the URL of the address of the execution program that executes the recognition dialogue and the arguments necessary for executing the speech recognition dialogue using the HTTP P ⁇ ST command.
  • the arguments mentioned above include documents describing service contents (VoiceXML, etc.), service names, voice recognition dialogue execution commands, and so on.
  • the recognition dialogue server 30 receives the request for starting the voice recognition dialogue from the client terminal 10 and executes the voice recognition dialogue (step 5 0 8).
  • the dotted line connecting Step 5 0 8 and Step 5 0 9 indicates that data is exchanged several times between the terminal and the recognition dialogue server. ing.
  • the speech recognition dialogue process will be described in detail later using FIG.
  • a recognition conversation termination request is made from the client terminal 10 side (step 5 0 9).
  • the address of the execution program that terminates the recognition conversation is sent using the HTTP POST command, or the address of the execution program that executes the recognition conversation and the recognition conversation is terminated.
  • An example is the method of sending commands with the HTTP POST command.
  • the recognition dialogue server receives the voice recognition dialogue termination request from the client terminal 10 side, and terminates the voice recognition dialogue (step 7 10).
  • FIG. 6 is a flowchart showing speech recognition dialogue processing in the speech recognition dialogue method according to the embodiment of the present invention.
  • the voice input to the data input unit 110 of the client terminal 10 is transmitted to the control unit 120, and the control unit 120 performs data processing.
  • data processing include digitization, voice detection, and voice analysis. .
  • the processed voice data is transmitted from the data communication unit 2 10 to the recognition dialogue server (step 6 0 1).
  • audio data include digitized audio data, compressed audio data, and feature vectors.
  • Speech recognition dialogue execution unit 3 3 0 is the recognition required for speech recognition dialogue. It has an engine, a dictionary for recognition, a synthesis engine, a dictionary for synthesis, etc., and performs speech recognition dialogue processing step by step (step 60 3).
  • the processing contents vary depending on the type of voice data transmitted from the client terminal 10. For example, if the audio data to be transmitted is compressed audio data, decompression of the compressed data, audio analysis, and recognition processing are performed, and if a feature vector is transmitted, only audio recognition processing is performed. After the recognition process is completed, the output recognition result is transmitted to the client terminal 10 (step 60 4).
  • Examples of the recognition result format include text, synthesized speech / recorded speech that matches the content of the text, and the URL of the screen reflecting the recognition content.
  • the client terminal 10 processes the recognition result received from the recognition dialogue server 30 according to the recognition result format (step 6 0 5). For example, if the recognition result format is synthesized speech or recorded speech, a voice is output, and if the recognition result format is the screen URL, the screen is displayed.
  • step 6 0 1 to step 6 0 5 the process from step 6 0 1 to step 6 0 5 is repeated several times, and the voice dialogue proceeds.
  • the recognition dialogue server 30 that performs the speech recognition dialogue processing is configured to perform the voice recognition dialogue processing with the other new recognition dialogue server 80.
  • FIG. 7 shows a case where a new recognition dialog server 8 0 is added to the recognition dialog selection server 20 during recognition dialog processing in the recognition dialog server 30 in the speech recognition dialog system according to the embodiment of the present invention. It is a flowchart which shows the process in the case of determining.
  • Step 703 when a process in the new recognition dialogue server 80 is necessary after multiple exchanges between the client terminal 10 and the recognition dialogue server 30, the recognition dialogue server 30 To Recognition Dialogue Selection Server 2 0 New A process transfer to the recognition dialogue server 80 is requested (step 703).
  • the dotted line connecting Step 702 and Step 703 indicates that data is exchanged several times between the terminal and the recognition dialogue server.
  • the server migration request is triggered when the service content is changed during the conversation, when there is a mismatch between the service content and the server capability, or when there is a problem with the recognized dialogue server. Can be mentioned.
  • a capability information request of the client terminal 10 is made from the recognition dialogue selection server 20 to the client terminal 10 (step 704).
  • the client terminal 10 receives the capability information request from the recognition dialogue selection server 20 and receives the capability information of the client terminal 10 stored in the client terminal 10 information storage unit 140. Information is transmitted from the data communication unit 130 to the recognition dialogue server through the control unit 120 (step 705).
  • the recognition dialogue selection server 20 receives the capability information of the client terminal 10 transmitted from the client terminal 10 and receives a plurality of information stored in the recognition dialogue server information storage unit 230 in advance.
  • the capability information of the recognition dialogue server is read, and the recognition dialogue server determination unit 220 compares the capability information on the client terminal 10 side with the capabilities of the plurality of recognition dialogue servers (step 70 6). Taking into account the information on the service content that triggered the transition request from, the optimal recognition dialogue server is uniquely determined (Step 07 07).
  • the capability information of the client terminal 10, the capability information of the recognition dialogue server, and the method for determining the recognition dialogue server are the same as described above.
  • the recognition dialog selection server 20 notifies the client terminal 10 side of the information of the new recognition dialog server 80 determined by the recognition dialog server determination unit 220 (step 70 8).
  • new notification dialog server An example is the method of embedding the address of an executable program that executes the recognition dialogue on the 80 or the new recognition dialogue server 80 in a screen such as HTML, and the like. .
  • the client terminal 10 side receives the address notification of the new recognition dialogue server 80, and requests the notified new recognition dialogue server 80 to start the voice recognition dialogue (step 70). 9).
  • An example of a method for requesting the start of a speech recognition dialogue is the method of sending the URL of the address of the execution program that executes the recognition dialogue and the arguments required to execute the speech recognition dialogue using the HTTP POST command. It is done.
  • the above-described recognition dialogue selection server 20 and the recognition dialogue server 30 are mounted on the same server, so that the voice recognition dialogue and an appropriate voice recognition dialogue server are implemented.
  • the recognition dialogue representative server 40 can be selected.
  • FIG. 8 is a block diagram showing the configuration of the recognition dialogue representative server 40 according to the embodiment of the present invention.
  • the recognition dialogue representative server 40 has a recognition dialogue server determination unit 4 4 0 and a recognition dialogue server information storage unit 45 50 added to the recognition dialogue server 30 shown in FIG. .
  • Other configurations, for example, the data communication unit 4 10, the control unit 4 2 0, and the speech recognition dialogue execution unit 4 3 0 are the same as the corresponding configurations in FIG.
  • Control unit 4 2 voice recognition dialogue execution unit 4 3 0 for executing voice recognition and dialogue, data communication unit 4 1 0 for communicating via network 1, control unit 3 2 0, voice recognition This is the same as the voice recognition dialogue execution unit 3 30 for executing the dialogue and the data communication unit 3 1 0 for communicating via the network 1.
  • the recognition dialogue server determination unit 4 40 selects and decides the optimum recognition dialogue server uniquely when there are a plurality of recognition dialogue servers.
  • the recognized dialogue server information storage unit 45 50 stores the capability information of the recognized dialogue server selected and determined.
  • the CODEC capability CODEC type, C DEC expansion mode, etc.
  • audio data format compressed audio data, feature vector, etc.
  • recording Voice output function synthesized voice output function (no synthesis engine, intermediate expression output engine, waveform output engine, etc.)
  • service content recognition engine capability (task-specific engine, dictation engine, command recognition) Engine), operation information, etc.
  • FIG. 9 is a flow chart showing processing when the recognition dialogue representative server 40 determines the new recognition dialogue server 80 during the recognition dialogue processing in the speech recognition dialogue method according to the embodiment of the present invention.
  • the recognition dialogue representative server 40 will The client terminal 10 is requested for capability information of the client terminal 10 (step 903).
  • the dotted line connecting step 9 0 2 and step 9 0 3 indicates that data is exchanged several times between the terminal and the recognition dialogue server.
  • a trigger for requesting capability information of the client terminal 10 This can be the case when the service content is changed during the process, when the service content and server capabilities are inconsistent, or when a failure occurs in the recognition dialog server.
  • the client terminal 10 receives the capability information request from the recognition dialogue representative server 40 and receives the capability information of the client terminal 10 stored in the terminal information storage unit 14 0 as the control unit 1. Through 20, the data communication unit 13 30 transmits to the recognition dialogue representative server 40 (step 90 4).
  • the recognition dialogue representative server 40 receives the capability information of the client terminal 10 transmitted from the client terminal 10 side, and receives a plurality of units stored in the recognition dialogue server information storage unit 45 50 in advance.
  • the capability information of the recognized dialogue server is read out, and the capability information of the client terminal 10 is compared with the capabilities of the plurality of recognized dialogue servers at the recognition dialogue server determination unit 44 (0).
  • the optimum recognition dialogue server is uniquely determined (step 90 6).
  • the capability information of the client terminal 10, the capability information of the recognition dialogue server, and the method for determining the recognition dialogue server are the same as described above.
  • the recognition dialogue representative server 40 notifies the client terminal 10 of the information of the new recognition dialogue server 80 determined by the recognition dialogue server determination unit 44 (step 9 07).
  • the address of the newly recognized dialogue server 80 or the address of the execution program that executes the recognition dialogue on the newly recognized dialogue server 80 is embedded in a screen such as HTML and notified. As an example.
  • the client terminal 10 side receives the address notification of the new recognition dialogue server 80 and requests the notified new recognition dialogue server 80 to start the voice recognition dialogue (step). 9 0 8).
  • a method for requesting start of speech recognition dialogue An example is the method of sending the URL of the address of the execution program that executes the recognition dialog and the arguments required to execute the speech recognition dialog using the HTTP POST command.
  • the recognition dialogue server C 50 reads the service content from the service content holding server 60, for example, a content provider
  • the service content holding server 60 may be mounted on the recognition dialogue selection server 20 and may be a web server that uses web as an interface for providing the service to the user.
  • the web browser may be mounted on the client terminal 10 as an interface for selecting and inputting service contents.
  • FIG. 10 is a diagram showing a recognition dialogue server C (recognition dialogue server side device) 50 according to the embodiment of the present invention.
  • a speech recognition dialogue activation unit 5 3 0 and a service content reading unit 5 40 are added to the recognition dialogue representative server 40 shown in FIG.
  • Other configurations such as the data communication unit 5 10, the control unit 5 2 0, the speech recognition dialogue execution unit 5 3 0, the recognition dialogue server determination unit 5 6 0, and the recognition dialogue server information storage unit 5 7 0 are shown in FIG. Same as 8 corresponding configurations.
  • the voice recognition dialogue activation unit 5 3 0 activates the voice recognition dialogue processing, and requests service content from the service information transmitted from the client terminal 10 side to the server holding the service content.
  • Services include address recognition, name recognition, incoming song name recognition, phone number recognition, credit number recognition, and other services.
  • the service content reading unit 5 4 0 reads the service content from the service content holding server 60.
  • the data communication unit 5 1 0 is the same as the voice recognition dialogue execution unit 4 3 0, the control unit 4 2 0, and the data communication unit 4 1 0, respectively.
  • the recognition dialog server information storage unit 5700 and the recognition dialog server determination unit 5600 need not be implemented. In this case, one recognition dialogue server is determined by the recognition dialogue selection server 20.
  • the recognition dialog server information storage unit 5 70 and the recognition dialog server determination unit 5 60 are implemented, they are the same as the recognition dialog server information storage unit 4 5 0 and the recognition dialog server determination unit 44 0, respectively.
  • FIG. 11 is a flowchart showing processing when the recognition dialogue server C 50 reads the service content from the service content holding server 60 in the speech recognition dialogue method according to the embodiment of the present invention.
  • step 1 1 0 1 to step 1 1 0 5 in FIG. 11 is the same as the processing from step 5 0 1 to step 5 0 6 described above.
  • the client terminal 10 makes a voice recognition dialogue start request to the recognition dialogue server C 50 based on the information of the recognition dialogue server C 50 notified from the recognition dialogue selection server 20 (step 1). 1 0 6).
  • service information is transmitted.
  • An example of a method for requesting the start of a speech recognition dialogue is the method of transmitting the URL of the address of the execution program that executes the recognition dialogue and the service content information using the PTP command of HTP.
  • Service content information includes documents describing the service content (VoiceXML, etc.) and service names.
  • the recognition dialogue server C 50 receives the request from the client terminal 10 at the data communication unit 5 10 and starts the voice recognition dialogue processing at the voice recognition dialogue activation unit 5 30. From the service information sent from the mobile terminal 10 side, a service content request is made to the service content holding server 60 (state 1 1 0 7).
  • a method of accessing the address can be cited as an example.
  • the service information sent from the client terminal 10 is a service name
  • a method for searching for an address that is paired with the service name and accessing the address is also given as an example. It is done.
  • the service content holding server 60 receives the request from the recognition dialogue server C 50 and transmits the service content (step 1 1 0 8).
  • the recognition dialogue server C 50 receives the transmitted service content at the data communication unit 5 10 and reads it at the service content reading unit 5 40 (step 1 1 0 9), and starts the speech recognition dialogue processing ( Step 1 1 1 0).
  • step 1 1 1 0 to step 1 1 1 2 is the same as the processing from step 5 07 to step 5 1 0 described above.
  • the dotted line connecting Step 1 1 1 0 and Step 1 1 1 1 indicates that data is exchanged several times between the terminal and the recognition dialogue server.
  • FIG. 12 is a diagram showing a program for executing the speech recognition dialogue method of the embodiment of the present invention on the server computer 911, and a recording medium 9002 on which the program is recorded.
  • the client terminal can automatically access another appropriate recognition dialogue server. Dialogue can be continued.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

明 細 書 音声認識対話選択装置, 音声認識対話システム, 音声認識対話選択方 法、 プログラム 技術分野
本発明は、 携帯電話、 車載端末等の端末 (クライアン卜端末) に入力 された音声データをネッ 卜ワークに通して認識対話サーバ側に送信し、 認識対話サーバ側で音声認識 ·応答による音声対話を行う音声認識対話 装置, 音声認識対話選択方法及び装置、 音声認識対話選択プログラムの 記録媒体に関する。 背景技術
従来、 クライアント端末側から出力された音声データをバケツ ト網に て認識対話サーバ側へ送信し、 認識対話サーバ側にて音声認識対話処理 を行うサーバ ·クライアン卜型音声認識対話装置として VoIP (Vo iceover Int erne t Pro toco l)を用いた音声認識対話システムが知られている。 こ の音声認識対話システムは、例えば Nikke i Interne t Techno l ogy, pp. 130 〜137, March 1998 に詳しく述べられている。
前記 Vo IPを用いたシステムでは、 予め、 クライアント端末側と認識対 話サーバ側の I Pアドレスを既知とした枠組みで音声認識、 又は音声認 識と応答 (合成、 録音音声等) による音声対話が行われる。 すなわち、 クライアント端末と認識対話サーバとを相互の I Pアドレスを利用して パケッ ト通信可能な状態に接続しておき、 この状態で音声データのパケ ッ トをクライアント端末側から認識対話サーバ側に伝送することにより 音声認識対話を行う枠組みとなっている。
特開平 1 0— 3 3 3 6 9 3号公報に開示された自動スピーチ認識サ一 ビス提供方法およびシステムは、 クライアン ト端末から音声データをパ ケッ ト網に経由して音声認識サーバへ送信し、 これらの音声データを認 識するシステムとして構築されている。
しかしながら、 上述した従来の Vo IPを用いたシステムは、 クライアン ト端末側と認識対話サーバ側との I Pア ド レスを既知とした枠組みで音 声認識、 音声対話が行われるため、 複数の認識対話サーバが存在する場 合に、 クライ アン ト端末に最適な認識対話サーバを選択して、 当該認識 対話サーバをクライ アン ト端末に連携させるシステムを新たに開発する 必要がある。
また、 特開平 1 0— 3 3 3 6 9 3号公報に開示された自動スピ一チ認 識サービス提供方法およびシステムにおいても、 同様に複数の認識対話 サーバが存在する場合に、 クライアン ト端末に最適な認識対話サーバを 選択して、 当該認識対話サーバをク ライ アン ト端末に連携させるシステ ムを新たに開発する必要がある。
本発明の目的は、 複数の認識対話サーバが存在する場合に、 クライア ン ト端末側の能力と認識対話サーバ側の能力とを参照して、 最適な認識 対話サーバを選択し、 当該決定された認識対話サーバとクァライ アン ト 端末との間で音声認識対話を行うことが可能な、 音声認識対話装置, 音 声認識対話選択方法及び装置、 音声認識対話選択プログラムの記録媒体 を提供することにある。 発明の開示
前記目的を達成するため、 本発明に係る音声認識対話装置は、 音声認 識対話を行う複数の対話手段と、 前記対話手段に音声情報を送信する送 信手段と、 前記送信手段と前記対話手段とを連携するネッ ト ワーク と、 前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話手 段から 1つの対話手段を選択する振分手段とを含むという構成を採って いる。
さらに、 本発明に係る音声認識対話装置は、 複数の音声認識対話を行 う対話手段と、 前記対話手段に対してサービスを要求する要求手段と、 前記対話手段に音声情報を送信する送信手段と、 前記送信手段と前記要 求手段と前記対話手段とを連携するネッ ト ワーク と、 前記要求手段及び 前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話手 段から 1 つの対話手段を選択する振分手段と、 を含むという構成を採る よう に してもよいものである。
さらに、 本発明に係る音声認識対話装置は、 複数の音声認識対話を行 う対話手段と、 前記対話手段に対して要求するサービス内容を保持する サービス保持手段と、 前記対話手段に音声情報を送信する送信手段と、 前記サービス保持手段と前記送信手段と前記対話手段とを連携するネッ ト ワーク と、 前記サービス保持手段及び前記送信手段の能力と前記対話 手段の能力とによつて前記複数の対話手段から 1つの対話手段を選択す る振分手段とを含むという構成を採っても良いものである。
上述した音声認識対話装置に用いる前記振分手段は、 選択された前記 対話手段を特定するための情報を前記送信手段へ送り、 当該対話手段と 前記送信手段との間で音声認識対話に必要な音声情報を交換する機能を 備えたものであることが望ましい。 また、 前記振分手段に代えて、 選択 された前記対話手段を特定するための情報を前記要求手段と前記送信手 段とに送り、 当該対話手段と前記要求手段及び前記送信手段手段との間 で前記サービス内容と音声情報を交換する機能を備えた振分手段を用い てもよいものである。 さらには、 前記振分手段として、 選択された一の 前記対話手段を選択された他の前記対話手段に変更する機能を備えたも のを用いてもよいものである。
また前記振分手段と して、 前記送信手段の能力と複数個の前記対話手 段の能力とを比較し、 その比較結果に基いて、 当該対話手段への音声情 報の入力形式と前記送信手段への前記音声情報の出力形式とがー致した. 所望の能力を持つ前記対話手段を決定する機能を備えたものを用いても よいものである。 また、 前記振分手段として、 前記要求手段及び前記送 信手段の能力と複数個の前記対話手段の能力とを比較し、 その比較結果 に基いて、 当該対話手段への前記音声情報の入力形式と前記要求手段及 び前記送信手段への出力形式とがー致した、 所望の能力を持つ前記対話 手段を決定する機能を備えたものを用いてもよいものである。
また、 前記送信手段から出力される音声情報として、 デジタル化され た音声データ、 圧縮された音声データ、 又は特徴ベク トルデータから形 成されて音声情報を用いることが望ましいものである。 また、 前記送信 手段の能力を判断するデータには、 C O D E Cの能力, 音声データ形式, 録音 · 合成音声入出力機能のデータが含まれていることが望ま しいもの である。 また、 前記対話手段の能力を ^断するデータには、 C O D E C の能力, 音声データ形式, 録音 · 合成音声出力機能, サービス内容, 認 識の能力,稼動情報のデータが含まれていることが望ましいものである。
さらに具体的に説明すると、 本発明に係る音声認識対話装置は、 音声 認識対話を行う複数の音声認識対話サーバと、 前記音声認識対話サーバ に対して要求するサービス内容と音声情報とを送信するク ライ アン ト端 末と、 前記複数の対話手段から 1つの対話手段を選択する音声認識対話 選択サーバと、 前記クライ アン ト端末と前記音声認識対話サーバと前記 音声認識対話選択サーバとを連携するネッ ト ワーク とを含み、
前記クライ アン ト端末は、 音声情報とサービス内容とのデータを入力 するデータ入力部と、 前記クライアン ト端末の能力のデータを記憶する 端末情報記憶部と、 前記ネ ッ ト ワークを介して前記音声認識対話サーバ 及び前記音声認識選択サーバとの間に通信を行い、 かつ前記選択された 音声認識対話サーバに対して前記音声情報を送信するデータ通信部と、 当該クライ アン ト端末の動作制御を行う制御部とを有し、
前記音声認識対話選択サーバは、 前記ネッ ト ワークを介して前記クラ イ アン ト端末及び前記音声認識対話サーバとの間に通信を行うデータ通 信部と、 前記音声認識対話サーバのそれぞれの能力を記憶する認識対話 サーバ情報記憶部と、 前記端末情報記憶部内に記憶された前記クラィ ァ ン ト端末の能力データを読み出し、 当該データと前記認識対話サーバ情 報記憶部内の音声認識対話サーバの能力データとを比較して前記複数の 音声認識対話サーバから少なく とも一の音声認識対話サーバを決定する と共に、 当該決定された音声認識対話サーバを特定するために必要な情 報を前記クライアン ト端末へ送る認識対話サーバ決定部とを有し、 前記音声認識対話サーバは、 前記クライ アン ト端末から入力される前 記音声情報に基いて音声認識対話を実行する音声認識対話実行部と、 前 記ネッ ト ワークを介して前記クライ アン ト端末及び前記音声認識対話選 択サーバとの間に通信を行うデータ通信部と、 当該音声認識対話サーバ の動作制御を行う制御部とを有するとうに構築してもよいものである。 この場合、 前記ネッ ト ワークに連携され、 かつ前記ク ライ アン ト端末か ら要求されるサービスの内容を保持するサービス内容保持サーバと、 前 記音声認識対話サーバに備えられ、 前記サービス内容保持サーバに保持 された前記サービスの内容を読み込む読み込み部とを付加するようにし てもよいものである。 また、 前記音声認識対話サーバに備えられ、 当該 音声認識対話サーバとは異なる前記音声認識対話サーバへ音声認識対話 処理を移行させる要求を前記音声認識対話選択サーバへ出力する処理移 行手段を付加してもよいものである。 また、 前記クライ アン ト端末から 出力される音声情報が、 デジタル化された音声データ、 圧縮された音声 データ、 又は特徴べク トルデータから形成されていることが望ましいも のである。
また、 前記クライ アン ト端.末の能力を判断するデータには、 C O D E Cの能力, 音声データ形式, 録音 , 合成音声入出力機能のデータが含ま れていることが望ましいものである。 また、 前記音声認識対話サーバの 能力を判断するデータには、 C〇 D E Cの能力, 音声データ形式, 録音 ·. 合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデータが含 まれていることが望ま しいものである。
さらに、 本発明に係る音声認識対話選択方法は、 送信手段と複数の対 話手段との間にネッ ト ワークを通してデータ通信を行い、 前記送信手段 から出力される音声情報データを特定の対話手段に振分ける処理を行う ものであり、
前記送信手段からの音声情報データを受け取る第 1 のステップと、 前記送信手段に、 当該送信手段の能力データを要求する第 2のステツ プと、
前記送信手段から当該送信手段の能力データを送信する第 3 のステツ プと、
前記送信手段からの能力データと前記複数の対話手段の能力データと を比較し、 その比較結果に基いて前記特定の対話手段を一意に決定する 第 4のステップと、
決定された前記対話手段を特定するための情報を前記送信手段に通知 する第 5のステップと、
前記送信手段と一意に決定された前記対話手段との間で音声認識対話 処理を行う第 6のステップとを有する構成として構築される。
この場合、 前記送信手段と前記対話手段との間に音声認識対話処理が 行われている最中に、 当該対話手段から他の対話手段へ前記送信手段の 相手先を移行する要求を送信する第 7のステツプと、
前記送信手段へ当該送信手段の能力データを要求する第 8のステツプ と、
前記第 8のステツプでの要求に応えて前記送信手段から当該送信手段 の能力データを送信する第 9のステップと、
前記送信手段の能力データと複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに対話手段を一意に決定する第 1 0 のステップと、
前記第 1 0のステツプにて決定された対話手段を特定ずるために必要 な情報を前記送信手段に通知する第 1 1 のステ ップと、
前記第 1 0のステツプにて決定された対話手段と前記送信手段との間 に音声認識対話処理を行う第 1 2のステップとを、
付加するようにしてもよいものである。
さ らに、 本発明に係る音声認識対話選択方法は、 送信手段と複数の対 話手段とサービス保持手段との間にネッ ト ワークを通してデータ通信を 行い、 前記送信手段から出力される音声情報データを特定の対話手段に 振分ける処理を行うものであり、
前記送信手段から出力される、 音声認識対話処理を含むサービス内容 の要求を受け取る第 1 のステップと、
前記送信手段に対して、 当該送信手段の能力データを要求する第 2の ステッ プと、
前記送信手段から当該送信手段 力データを送信する第 3のステツ プと、
前記送信手段の能力データと複数の前記対話手段の能力データとを比 較し、 その比較結果に基いて複数の対話手段から特定の対話手段を一意 に決定する第 4のステップと、
前記第 4のステップにて決定された前記対話手段を特定するために必 要な情報を前記送信手段に通知する第 5のステップと、
前記送信手段と前記第 4のステップで決定された対話手段との間で音 声認識対話処理を行う第 6のステップと、
前記第 4のステップにて決定された前記対話手段から前記サービス保 持手段に、 前記送信手段が要求するサービスの内容を要求する第 7のス テツプと、
前記第 7のステップにて要求されたサービスの内容を前記第 4のステ ップにて決定された前記対話手段へ送信する第 8のステッ プと、
前記第 8のステップにて送信されたサービスの内容を、 前記第 4のス テップにて決定された対話手段にて読み込む第 9のステップと、
前記送信芋段と前記第 4のステップにて決定された前記対話手段との 間に、 前記読込まれたサービスの内容に基いて音声認識対話処理を行う 第 1 0のステツプを有する構成として構築するようにしてもよいもので あ 。
この場合、 前記送信手段と前記対話手段との間に音声認識対話処理が 行われている最中に、 当該対話手段から他の対話手段へ前記送信手段の 相手先を移行する要求を送信する第 1 1 のステップと、
前記送信手段に、 当該送信手段の能力データを要求する第 1 2のステ ッ プと、
前記送信手段から、 当該送信データの能力データを送信する第 1 3の ステッ プと、
前記送信手段の能力データと複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに前記対話手段を一意に決定する第 1 4のステップと、
前記第 1 4のステツプにて決定された前記対話手段を特定するために 必要な情報を前記送信手段に通知する第 1 5のステップと、
前記第 1 4のステツプにて決定された前記対話手段と前記送信手段と の間に音声認識対話処理を行う第 1 6のステツプを付加するようにして もよいものである。
また、 前記音声情報として、 デジタル化された音声データ, 圧縮され た音声データ又は特徴べク トルのデータを含む音声情報を用いることが 望ま しいものである。 また、 前記送信手段の能力を判断するデータに、 C O D E Cの能力, 音声データ形式, 録音 · 合成音声入出力機能, サー ビス内容のデータを含めることが望ましいものである。 また、 前記対話 手段の能力を判断するデータに、 C O D E Cの能力, 音声データ形式. 録音 · 合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデー タを含めることが望ま しいものである。
さらに、 本発明に係る音声認識対話選択装置は、 送信手段と複数の対 話手段との間にネッ ト ワークを通してデータ通信を行い、 前記送信手段 から出力される音声情報データを特定の対話手段に振分ける振分け手段 を備え、 前記振分け手段は、 前記振分けを行う際に前記送信手段の能力と前記 対話手段の能力とに応じて前記対話手段を特定して振り分けを行うもの と して構築してもよいものである。
さらに、 本発明に係る音声認識対話選択装置は、 送信手段と複数の対 話手段との間にネッ ト ワークを通してデータ通信を行い、 前記送信手段 から出力される音声情報データを特定の対話手段に振分ける処理を行う ものであり、
前記送信手段からの音声情報と、 前記対話手段を変更する旨のデータ を受け取る第 1 の手段と、
前記送信手段に、当該送信手段の能力データを要求する第 2の手段と、 前記第 2の手段からの要求に応じて、 前記送信手段から前記能力デー 夕を送信する第 3の手段と、
前記送信手段の能力データと複数の前記対話手段の能力データとを比 較し、 その比較結果に基いて前記対話手段を一意に決定する第 4の手段 と、
前記第 4の手段にて決定された前記対話手段を特定するための情報を 前記送信手段に通知する第 5の手段とを有する構成として構築してもよ いものである。
この場合、 前記音声情報は、 デジタル化された音声データ, 又は圧縮 された音声データ, 又は特徴ベク トルのデータを含むものであることが 望ま しいものである。 また、 前記送信手段の能力を判断するデータに、 C O D E Cの能力, 音声データ形式, 録音 · 合成音声入出力機能, サー ビス内容のデータを含むことがのぞましいものである。 また、 前記対話 手段の能力を判断するデータに、 C O D E Cの能力, 音声データ形式, 録音 · 合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデ一 夕を含むものであることが望ま しいものである。
さらに、 本発明は、 音声認識対話選択プログラムを記録媒体に記憶さ せるようにしてもよいものである。 すなわち、 本発明に係る音声認識対 話選択プログラムの記録媒体は、 送信手段と複数の対話手段との間にネ ッ ト ワークを通してデータ通信を行い、 前記送信手段から出力される音 声情報データを特定の対話手段に振分ける処理を行うものであり、 前記送信手段からの音声情報データを受け取る第 1 のステップと、 前記送信手段に、 当該送信手段の能力データを要求する第 2のステツ プと、 ' ' 前記送信手段から当該送信手段の能力データを送信する第 3のステツ プと、
前記送信手段からの能力データと前記複数の対話手段の能力データと を比較し、 その比較結果に基いて前記特定の対話手段を一意に決定する 第 4のステッ プと、
決定された前記対話手段を特定するための情報を前記送信手段に通知 する第 5のステップと、
前記送信手段と一意に決定された前記対話手段との間で音声認識対話 処理を行う第 6のステツプとを有する音声認識対話選択プログラムを記 録しても.よいものである。
この場合、 前記送信手段と前記対話手段との間に音声認識対話処理が 行われている最中に、 当該対話手段から他の対話手段へ前記送信手段の 相手先を移行する要求を送信する第 7のステッ プと、
前記送信手段へ当該送信手段の能力データを要求する第 8のステツプ と、
前記第 8のステツプでの要求に応えて前記送信手段から当該送信手段 の能力データを送信する第 9のステップと、
前記送信手段の能力データと複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに対話手段を一意に決定する第 1 0 のステップと、
前記第 1 0のステップにて決定された対話手段を特定するために必要 な情報を前記送信手段に通知する第 1 1 のステップと、
前記第 1 0 のステツプにて決定された対話手段と前記送信手段との間 に音声認識対話処理を行う第 1 2のステツプとを付加する音声認識対話 選択プログラムを記録するようにしても良いものである。
また、 記録媒体に記録する音声認識対話選択プログラムとしては、 送 信手段と複数の対話手段とサービス保持手段との間にネッ ト ワークを通 してデータ通信を行い、 前記送信手段から出力される音声情報データを 特定の対話手段に振分ける処理を行うものであり、
前記送信手段から出力される、 音声認識対話処理を含むサービス内容 の要求を受け取る第 1 のステップと、
前記送信手段に対して、 当該送信手段の能力データを要求する第 2の ステップと、
前記送信手段から当該送信手段の能力データを送信する第 3のステッ プと、
前記送信手段の能力データと複数の前記対話手段の能力データとを比 較し、 その比較結果に基いて複数の対話手段から特定の対話手段を一意 に決定する第 4のステップと、
前記第 4のステツプにて決定された前記対話手段を特定するために必 要な情報を前記送信手段に通知する第 5のステップと、
前記送信手段と前記第 4のステツプで決定された対話手段との間で音 声認識対話処理を行う第 6のステッ プと、
前記第 4のステップにて決定された前記対話手段から前記サービス保 持手段に、 前記送信手段が要求するサービスの内容を要求する第 7のス テツプと、
前記第 7のステップにて要求されたサービスの内容を前記第 4のステ ップにて決定された前記対話手段へ送信する第 8のステップと、
前記第 8のステップにて送信されたサービスの内容を、 前記第 4のス テップにて決定された対話手段にて読み込む第 9のステップと、
前記送信手段と前記第 4のステップにて決定された前記対話手段との 間に、 前記読込まれたサービスの内容に基いて音声認識対話処理を行う 第 1 0のステツプを有する音声認識対話選択プログラムを用いることが 望ま しいものである。 この場合、 前記送信手段と前記対話手段との間に 音声認識対話処理が行われている最中に、 当該対話手段から他の対話手 段へ前記送信手段の相手先を移行する要求を送信する第 1 1 のステップ と、
前記送信手段に、 当該送信手段の能力データを要求する第 1 2のステ ップと、
前記送信手段から、 当該送信データの能力データを送信する第 1 3の ステップと、
前記送信手段の能力データと複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに前記対話手段を一意に決定する第 1 4のステップと、
前記第 1 4のステツプにて決定された前記対話手段を特定するために 必要な情報を前記送信手段に通知する第 1 5のステップと、
前記第 1 4のステップにて決定された前記対話手段と前記送信手段と の間に音声認識対話処理を行う第 1 6のステツプを音声認識対話選択プ 口 f、ラムに付加することが望ま し )ものである。 また、 前記音声情報と して、 デジタル化された音声データ, 圧縮された音声データ又は特徴べ ク トルのデータを含む音声情報を用いることは望ましいものである。 ま た、 前記送信手段の能力を判断するデータに、 C O D E Cの能力, 音声 データ形式, 録音 · 合成音声入出力機能, サービス内容のデータを含め ることが望ま しいものである。 また、 前記対話手段の能力を判断するデ ータに、 C O D E Cの能力, 音声データ形式, 録音 ·合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデータを含めることが望ま しい ものである。
本発明よる音声認識対話システムは、 クライ アン ト端末とそれぞれ複 数の認識対話サーバがネッ ト ワークを通して接続されているシステムで あり、 認識対話サーバが複数台ある場合においても複数台の中から最適 な認識対話サーバを選択して決定し、 最適な認識対話サーバ上で音声認 識対話を実行することが可能となっている。
最適な認識対話サーバの決定方法については、 クライ アン ト端末の能 力と認識対話サーバ側との能力とを比較し、 クライアン ト端末と認識対 話サーバとの出入力が一致し、 且つ最も高い能力を有し、 さらに現在稼 動中であるとの条件を満たす認識対話サーバが選択されるような決定方 法を一例として挙げることができる。
ク ライ アン ト端末の能力を判断するデータとしては、 C O D E Cの能 力 (C O D E Cの種類、 C 0 D E C圧縮モー ド等)、 音声データ形式 (圧 縮音声データ、 特徴べク トル等)、 録音音声入出力機能、 合成音声入出力 機能 (合成エンジンなし、 中間表現入力用エンジンあり、 文字列入力用 エンジンあり等)、 サービス内容等のデータが挙げられる。 また、 認識対 話サーバの能力を判断するデータと しては、 C O D E Cの能力 (C O D E Cの種類、 C O D E C伸張モー ド等)、 録音音声出力機能、 合成音声出 力機能 (合成エンジンなし、 中間表現出力用エンジンあり、 波形出力用 エンジンあり等)、 サービス内容、 認識エンジンの能力 (タ スク専用ェン ジン、 ディ クテーシ ヨ ンエンジン、 コマン ド認識用エンジン等)、 稼動情 報等のデータが挙げられる。 C 0 D E Cの種類については、 AMR-NB や AMR-WB等が挙げられる。 また、 合成音声の中間表現としては、 文字列を 発音記号列に変換した後の表現を一例として挙げることができる。 サー ビス内容と しては、 住所認識、 名前認識、 着信メロディーの曲名認識、 電話番号認識、 ク レジッ ト番号認識などのサービスが挙げられる。
認識対話サーバを決定する処理部については、 W e bサーバ、 又は認 識対話選択サーバに含まれる場合や、認識対話サーバに含まれる場合や、 W e bサーバ、 又は認識対話選択サーバと認識対話サーバとの両方に含 まれる場合とが考えられる。
本発明によって、 最適な認識対話サーバを用いた音声認識対話を実行 することが可能となる。 また、 認識対話サーバ自身に認識対話サーバ決 定機能を持たせることで、 対話の最中においても、 端末側は他の適切な 認識サーバに自動的にアクセスすることが可能となる。
また、 本発明によると、 サービスの内容を認識対話サーバ以外のサー パ (例えば、 Web サーバやコ ンテンツプロバイ ダ一のサーバ等が挙げら れる) から受信し、 受信したサービスの内容に従った音声認識対話を実 行することも可能である。 サービスの内容の形式については、 Vo i ceXML 文書やサービス名を例として挙げることができる。 図面の簡単な説明 図 1 は、 本発明に係る実施形態の音声認識対話システムの構成を示す 図である。 図 2は、 本発明のクライ アン ト端末 1 0の構成を示すプロッ ク図である。 図 3は、 本発明に係る実施形態の認識対話サーバ 3 0の構 成を示すブロック図である。 図 4は、 本発明の認識対話選択サーバ 2 0 の fc¾を示すブロック図である。 図 5は、 本発明に係る実施形態の音声 認識対話システムにおいて、 認識対話選択サーバ 2 0にて認識対話サー バを決定する場合の処理を示すフローチャー トである。 図 6は、 本発明 に係る実施形態の音声認識対話方法において、 音声認識対話の処理を示 すフローチャー トである。 図 7は、 本発明に係る実施形態の音声認識対 話システムにおいて、 認識対話サーバ 3 0 にて認識対話処理中に認識対 話選択サーバ 2 0 にて新規認識対話サーバ 8 0を決定する場合の処理を 示すフローチャー トである。 図 8は、 本発明に係る実施形態の認識対話 代表サーバ 4 0の構成を示すブロック図である。 図 9は、 本発明に係る 実施形態の音声認識対話方法において、 認識対話処理中に認識対話代表 サーバ 4 0にて新規認識対話サーバ 8 0を決定する場合の処理を示すフ ローチャートである。 図 1 0は、 本発明に係る実施形態の認識対話サ一 バ C 5 0を示す図である。 図 4の装置に音声認識対話起動部とサービス 内容読み込み部とが追加されている。 図 1 1 は、 本発明に係る実施形態 の音声認識対話方法において、 認識対話サーバ C 5 0がサービス内容を サービス内容保持サーバ 6 0から読み込む場合の処理を示すフローチヤ ー トである。 図 1 2は、 本発明に係る実施形態の音声認識対話方法をサ ーバコンピュータ 9 0 1上で実行させるプログラムとそのプログラムが 記録された記録媒体 9 0 2を示す図である。 発明を実施するための最良な形態 以下、 本発明の実施の形態を図面により詳細に説明する。 本発明は、 ネッ トワークを利用して音声認識対話のサービスを提供す るための音声認識対話システムにおいて、 認識対話サーバが複数台ある 場合に最適な認識対話サーバを一意に選択、 決定する機能を持つシステ ムである。
次に本発明の実施の形態について図面を参照して詳細に説明する。 図 1 は、 本発明に係る実施形態の音声認識対話システムの構成を示す図で ある。 クライ アン ト端末 1 0は、 ネ ッ ト ワーク 1 を介して認識対話選択 サーバ 2 0 と、 認識対話サーバ 3 0、 認識対話代表サーバ 4 0、 認識対 話サーバ C 5 0、 新規認識対話サーバ 8 0 と、 サービス内容保持サーバ 6 0に接続している。 こ こに、 クライ アン ト端末 1 0は、 音声情報を送 信する送信手段, サービス内容を要求する要求手段として機能をする。
ネ ッ ト ワーク 1 の種類については、 イ ンターネッ ト (有線または無線 を含む)、 イ ン ト ラネッ トが挙げられる。
図 2は、 本発明のクライアン ト端末 1 0の構成を示すプロック図であ る。 クライ アン ト端末 1 0は携帯端末、 P D A、 車載端末、 パ一ソナル コンピュータ、 ホーム端末である。 クライアン ト端末 1 0は、 クライア ン ト端末 1 0 を制御する制御部 1 2 0、 クライ アン ト端末 1 0の能力を 保持する端末情報記憶部 1 4 0、 ネ ッ ト ワーク 1 を介して通信を行うデ 一夕通信部 1 3 0から構成される。
クライ アン ト端末 1 0側の能力を判断するデータには、 C O D E Cの 能力(C O D E Cの種類、 C O D E C圧縮モー ド等)、音声データ形式(圧 縮音声データ、 特徴べク トル等)、 録音音声入出力機能、 合成音声入出力 機能 (合成エンジンなし、 中間表現入力用エンジンあり、 文字列入力用 エンジンあり等)、 サービス内容などのデータを用いている。 なお、 クライ アン ト端末 1 0に w e bブラウザを実装し、 これにより、 利用者とのイ ンタフヱースを行うようにしてもよい。 サービス内容のデ 一夕には、 住所認識、 名前認識、 着信メ ロディ ーの曲名認識、 電話番号 認識、 ク レジッ ト番号認識などのサービスデータが含まれる。
図 3は、 本発明に係る実施形態の認識対話サーバ 3 0の構成を示すブ ロ ッ ク図である。 認識対話サーバ 3 0は、 認識対話サーバ 3 0を制御す る制御部 3 2 0、 音声認識および対話を実行する音声認識対話実行部 3 3 0、 ネッ ト ワーク 1 を介して通信を行うデータ通信部 3 1 0から構成 される。
図 4は、 本発明に係る認識対話選択サーバ 2 0の構成を示すブロック 図である。 認識対話選択サーバ 2 0は、 ネッ ト ワーク 1 を介して通信を 行うデータ通信部 2 1 0、 認識対話サーバが複数台ある場合に最適な認 識対話サーバを一意に選択、 決定する認識対話サーバ決定部 2 2 0と、 選択、 決定された認識対話サーバの能力情報を記憶する認識対話サーバ 情報記憶部 2 3 0から構成される。 こ こに、 認識対話選択サーバ 2 0は、 送信手段 · 要求手段をなすクライアン ト端末 1 0の能力と、 対話手段を ナス認識サーバの能力とによつて複数の対話手段から特定の対話手段を 選択する振分手段を構成する。
認識対話サーバの能力を判断するデータとしては、 C〇 D E Cの能力 ( C O D E Cの種類、 C O D E C伸張モー ド等)、 音声データ形式 (圧縮 音声データ、特徴べク トル等)、録音音声出力機能、合成音声出力機能(合 成エンジンなし、 中間表現出力用エンジンあり、 波形出力用エンジンあ り等)、 サービス内容、 認識エンジンの能力 (タスク専用エンジン、 ディ クテーシヨ ンエンジン、 コマンド認識用エンジン等)、 稼動情報等のデ一 夕を用いる。 新規認識対話サーバ 8 0は、 認識対話サーバ 3 0、 認識対話代表サー バ 40、 認識対話サ一バ C 50のうちのどれかひとつと同じである。 認識対話選択サ一パ 2 0、 認識対話サーバ 3 0、 認識対話代表サーバ 40、 認識対話サーバ C 5 0、 新規認識对話サ一パ 80は、 O Sと して W i n d o w s (登録商標) NT, W i n d o w s (登録商標) 2 00 0を搭載したコンピュータゃ、 S o l a l i s (登録商標) を搭載した サーバである。 認識対話代表サーバ 40、 認識対話サーバ C 50の構成 については後に説明する。 ここに、 認識対話選択サーバ 2 0、 認識対話 サーバ 3 0、 認識対話代表サーバ 40、 認識対話サーバ C 50、 新規認 識対話サーバ 80などは、 上述した対話手段と して機能する。
次に、 本発明に係る実施形態の音声認識対話システムの動作について 説明する。
第一に、 音声認識と対話を行う認識対話サーバ 30を決定する処理を 認識対話選択サーバ 20で行い、 決定した認識対話サーバ 30にて音声 認識対話処理を行う場合について説明する。 図 5は、 本発明に係る実施 形態の音声認識対話システムにおいて、 認識対話選択サーバ 2 0にて認 識対話サーバ 30を決定する場合の処理を示すフローチャー トである。
まず始めに、 クライ アン ト端末 1 0より認識対話選択サーバ 2 0へ音 声認識対話処理が含まれるサービスの要求が行われる(ステップ 5 0 1 )< 具体的には、 クライ アン ト端末 1 0側のデータ通信部 1 30から、 サ一 ビスを実行するプログラムの C G I の UR Lと処理に必要な引数とが H T T Pコマン ド等にて認識対話選択サーバ 20側に送信される。
次に、 認識対話選択サ一バ 20側では、 クライ アン ト端末 1 0側から のサービス要求を受け、クライ アン ト端末 1 0の能力情報を要求する(ス テツプ 5 02 )。 次に、 クライ アン ト端末 1 0は、 認識対話選択サーバ 2 0からの能力 情報要求を受け、 端末情報記憶部 1 40に記憶されているクライアン ト 端末 1 0の能力情報を制御部 1 20を通じ、 データ通信部 1 3 0から認 識対話選択サーバ 20へ送信する (ステップ 5 03)。 クライ アン ト端末 1 0の能力については、 C OD E Cの能力 (C OD E Cの種類、 C OD E C圧縮モ一 ド等)、音声データ形式(圧縮音声データ、特徴べク トル等). 録音音声入出力機能、 合成音声入出力機能 (合成エンジンなし、 中間表 現入力用エンジンあり、 文字列入力用エンジンあり等)、 サービス内容等 が挙げられる。
認識対話選択サーバ 20は、 クライ アン ト端末 1 0から送信されたク ライ アン ト端末 1 0の能力情報を受信し、 予め認識対話サーバ情報記憶 部 2 3 0に記憶されている複数台の認識対話サーバの能力情報を読み出 し、 認識対話サーバ決定部 220にてクライアン ト端末 1 0側の能力情 報と複数台の認識対話サーバの能力を比較し (ステップ 5 04)、 ク ライ アン ト端末 1 0側から要求されたサービス内容の情報も加味し、 最適な 認識対話サーバを一意に決定する (ステップ 5 05)。
認識対話サーバの能力については、 C O D E Cの能力 (C O D E Cの 種類、 C OD E C伸張モー ド等)、 音声データ形式 (圧縮音声データ、 特 徴べク トル等)、 録音音声出力機能、 合成音声出力機能 (合成エンジンな し、 中間表現出力用エンジンあり、 波形出力用エンジンあり等)、 サ一ビ ス内容、 認識エンジンの能力 (タ スク専用エンジン、 ディ クテ一シ ヨ ン エンジン、 コマン ド認識用エンジン等)、 稼動情報等が挙げられる。
最適な認識対話サーバ 30の決定方法については、 クライ アン ト端末 1 0の能力と認識対話サーバ側との能力とを比較し、 クライアン ト端末 1 0と認識対話サーバ 3 0との出入力が一致し、 且つ最も高い能力であ り、 且つ現在稼動中の認識対話サーバが選択されるような決定方法を一 例として挙げることができる。 また、 サービス内容毎に認識対話サーバ
3 0が存在する場合、 例えば、 住所タスク用サーバ、 氏名タスク用サー ノ^ 電話番号タスク用サーバ、 カー ド I Dタスク用サーバ等の専用の認識 対話サーバ 3 0が存在する場合、 クライアン ト端末 1 0から要求された サービス内容を実行可能な認識対話サーバを選択する方法も一例と して 挙げられる。
次に、 認識対話選択サーバ 2 0は、 認識対話サーバ決定部 2 2 0にて 決定した認識対話サーバの情報をクライ アン ト端末 1 0側に通知する (ステップ 5 0 6 )。 通知の方法については、 認識対話サーバ 3 0のア ド レス、 又は認識対話サーバ 3 0上の、 認識対話を実行する実行プロダラ ムのア ドレス等を H T M L等の画面に埋め込んで通知する方法を一例と して挙げることができる。
次に、 クライ アン ト端末 1 0は、 認識対話選択サーバ 2 0より認識対 話サーバ 3 0の情報の通知を受信し、 通知された認識対話サーバ 3 0へ 音声認識対話の開始を要求する (ステップ 5 0 7 )。 音声認識対話の開始 要求の方法については、 認識対話を実行する実行プログラムのァ ド レス の U R Lと音声認識対話を実行する際に必要な引数を H T T Pの P〇 S Tコマン ドにて送信する方法が一例として挙げられる。 前述の引数につ いては、 サービス内容を記述する文書(Vo i ceXML等)やサービス名、 音声 認識対話実行コマン ド等が挙げられる。
次に、 認識対話サーバ 3 0は、 ク ライ アン ト端末 1 0からの音声認識 対話開始の要求を受け、 音声認識対話を実行する (ステ ップ 5 0 8 )。 図 5において、 ステップ 5 0 8とステップ 5 0 9 との間を結ぶ点線は、 端 末, 認識対話サーバ間でデータの遣り取りが何回か行われることを示し ている。 音声認識対話処理については、 後で図 6を用いて詳しく説明す る。
音声認識対話を終了する場合は、 クライ アン ト端末 1 0側から認識対 話終了要求を行う (ステ ップ 5 0 9 )。 認識対話終了要求の方法について は、 認識対話を終了する実行プログラムのア ド レスを H T T Pの P O S Tコマン ドにて送信する方法や、 認識対話を実行する実行プログラムの ア ド レスと認識対話を終了させるコマン ドとを H T T Pの P O S Tコマ ン ドにて送信する方法を例として挙げることができる。 認識対話サーバ は、 クライ アン ト端末 1 0側からの音声認識対話終了要求を受信し、 音 声認識対話を終了する (ステップ 7 1 0 )。
次に、 音声認識対話処理について説明する。 図 6は、 本発明実施の形 態の音声認識対話方法において、 音声認識対話の処理を示すフ口一チヤ ー トである。
まず始めに、 クライアン ト端末 1 0のデータ入力部 1 1 0に入力され た音声が制御部 1 2 0に送信され、 制御部 1 2 0にてデータ処理が行わ れる。 データ処理の内容については、 デジタル化処理、 音声検出処理、 音声分析処理を例と して挙げることができる。 .
次に、 処理された音声データは、 データ通信部 2 1 0より認識対話サ ーバに送信される (ステップ 6 0 1 )。 音声データについては、 デジタル 化された音声データ、 圧縮された音声データ、 特徴ベク トルを例と して 挙げられる。
認識対話サーバ 3 0では、 クライ アン ト端末 1 0より逐次的に送信さ れた音声データをデ一夕通信部 3 1 0にて受信し (ステップ 6 0 2 )、 制 御部 3 2 0にて音声データであると判断し、 音声認識対話実行部 3 3 0_ に送信する。 音声認識対話実行部 3 3 0は、 音声認識対話に必要な認識 エンジン、 認識用辞書、 合成エンジン、 合成用辞書等を持っており、 逐 次的に音声認識対話処理を行う (ステッ プ 6 0 3 )。
音声認識対話処理については、 ク ライ アン ト端末 1 0から送信される 音声データの種類によって処理内容が変わる。 例えば、 送信される音声 データが圧縮音声データである場合は圧縮データの伸張、 音声分析、 認 識処理を行い、 特徴べク トルが送信される場合は音声の認識処理のみを 行う。 認識処理終了後、 出力された認識結果をクライ アン ト端末 1 0へ 送信する (ステップ 6 0 4 )。 認識結果の形式については、 テキス トゃ、 テキス トの内容に一致する合成音声 · 録音音声や、 認識内容を反映させ た画面の URL等を挙げることができる。 クライアン ト端末 1 0では、 認 識対話サーバ 3 0から受信した認識結果を認識結果の形式に従って処理 する (ステッ プ 6 0 5 )。 例えば、 認識結果の形式が合成音声、 又は録音 音声である場合は音声を出力させ、 認識結果の形式が画面の U R Lであ る場合は画面を表示する処理を行う。
このよう に してステッ プ 6 0 1 からステッ プ 6 0 5までの処理が何度 か繰り返され、 音声対話が進行する。
第二に、 本発明実施の形態の音声認識対話システムにおいて、 音声認 識対話処理を行っている認識対話サーバ 3 0を、 他の新規認識対話サー バ 8 0で音声認識対話処理を行うように変更する場合について説明する < 図 7は、 本発明実施の形態の音声認識対話システムにおいて、 認識対話 サーバ 3 0にて認識対話処理中に認識対話選択サーバ 2 0にて新規認識 対話サーバ 8 0を決定する場合の処理を示すフローチヤ一トである。
図 7において、 クライ アン ト端末 1 0と認識対話サーバ 3 0との間で 複数回やり とりが行われた後に新規認識対話サーバ 8 0での処理が必要 となった場合、 認識対話サーバ 3 0から認識対話選択サーバ 2 0へ新規 認識対話サーバ 8 0への処理移行が要求される (ステップ 703)。 図 7 において、 ステップ 70 2とステップ 703との間を結ぶ点線は、 端末, 認識対話サーバ間でデータの遣り取りが何回か行われることを示してい る。
サーバ移行要求が行われる契機と しては、 対話の最中にサービス内容 が変更された場合や、 サービス内容とサーバ能力に不整合が生じた場合 や、 認識対話サーバで不具合が生じた場合等を挙げることができる。 次に、 認識対話選択サーバ 20からクライ アン ト端末 1 0へクライア ン ト端末 1 0の能力情報要求が行われる (ステ ップ 704)。
次に、 ク ライ アン ト端末 1 0は、 認識対話選択サーバ 2 0からの能力 情報要求を受け、 クライ アン ト端末 1 0情報記憶部 1 40に記憶されて いるクライ アン ト端末 1 0の能力情報を制御部 1 20を通じ、 データ通 信部 1 30から認識対話サーバへ送信する (ステップ 705)。
認識対話選択サーバ 2 0では、 ク ライ アン ト端末 1 0から送信された クライ アン ト端末 1 0の能力情報を受信し、 予め認識対話サーバ情報記 憶部 23 0に記憶されている複数台の認識対話サーバの能力情報を読み 出し、 認識対話サーバ決定部 220にてクライ アン ト端末 1 0側の能力 情報と複数台の認識対話サーバの能力を比較し (ステップ 70 6 )、 認識 対話サーバ側からの移行要求の契機となったサービス内容の情報も加味 し、 最適な認識対話サーバを一意に決定する (ステップ 7 07)。 クライ アン ト端末 1 0の能力情報、 認識対話サーバの能力情報、 認識対話サー バの決定方法については前述と同様である。
次に、 認識対話選択サーバ 20は、 認識対話サーバ決定部 2 20にて 決定した新規認識対話サーバ 80の情報をクライアン ト端末 1 0側に通 知する (ステップ 70 8)。 通知の方法については、 新規認識対話サーバ 8 0のア ドレス、 又は新規認識対話サーバ 8 0上の、 認識対話を実行す る実行プログラムのァ ド レス等を H T M L等の画面に埋め込んで通知す る方法を一例と して挙げることができる。
次に、 クライ アン ト端末 1 0側は、 新規認識対話サーバ 8 0のァ ドレ スの通知を受信し、 通知された新規認識対話サーバ 8 0へ音声認識対話 の開始を要求する (ステップ 7 0 9 )。 音声認識対話の開始要求の方法に ついては、 認識対話を実行する実行プログラムのァ ドレスの URL と音声 認識対話を実行する際に必要な引数を H T T Pの P O S Tコマン ドにて 送信する方法が一例として挙げられる。
第三に、 本発明実施の形態の音声認識対話システムにおいて、 上述し た認識対話選択サーバ 2 0と認識対話サーバ 3 0を同一のサーバに実装 して、 音声認識対話と適切な音声認識対話サーバの選択を行うことがで きる認識対話代表サーバ 4 0とすることができる。
図 8は、 本発明に係る実施形態の認識対話代表サーバ 4 0の構成を示 すブロック図である。
図 8に示すように、 認識対話代表サーバ 4 0は、 図 3に示す認識対話 サーバ 3 0に、 認識対話サーバ決定部 4 4 0 と認識対話サーバ情報記憶 部 4 5 0とが追加されている。 これ以外の構成、 例えばデータ通信部 4 1 0, 制御部 4 2 0 , 音声認識対話実行部 4 3 0は、 図 3の対応する構 成と同じである。
制御部 4 2 0、 音声認識および対話を実行する音声認識対話実行部 4 3 0、 ネッ ト ワーク 1 を介して通信を行うデータ通信部 4 1 0は、 それ それ制御部 3 2 0、 音声認識および対話を実行する音声認識対話実行部 3 3 0、 ネッ ト ワーク 1 を介して通信を行うデータ通信部 3 1 0と同じ である。 認識対話サーバ決定部 4 4 0は、 認識対話サーバが複数台ある場合に 最適な認識対話サーバを一意に選択、 決定する。 認識対話サーバ情報記 憶部 4 5 0は、 選択、 決定された認識対話サーバの能力情報を記憶する。 認識対話サーバの能力については、 第一の場合と同様に、 C O D E Cの 能力(C O D E Cの種類、 C〇 D E C伸張モー ド等)、音声データ形式(圧 縮音声データ、 特徴べク トル等)、 録音音声出力機能、 合成音声出力機能 (合成エンジンなし、 中間表現出力用エンジンあり、 波形出力用ェンジ ンあり等)、 サービス内容、 認識エンジンの能力 (タスク専用エンジン、 ディ クテーシ ヨ ンエンジン、 コマン ド認識用エンジン等)、 稼動情報等が 挙げられる。
この場合の処理は上述の図 5の処理を認識対話代表サーバ 4 0が単独 で行う。
次に、 音声認識対話処理を行っている認識対話代表サーバ 4 0を、 他 の新規認識対話サーバ 8 0で音声認識対話処理を行うように変更する場 合について説明する。
図 9は、 本発明実施の形態の音声認識対話方法において、 認識対話処 理中に認識対話代表サーバ 4 0 にて新規認識対話サーバ 8 0を決定する 場合の処理を示すフローチャー トである。
図 9によると、 端末側と認識対話サーバ側との間で複数回やり とりが 行われた後に新規認識対話サーバ 8 0での処理が必要となった場合、 認 識対話代表サーバ 4 0からクライ アン ト端末 1 0へクライ アン ト端末 1 0の能力情報要求が行われる (ステップ 9 0 3 )。 図 9において、 ステツ プ 9 0 2とステップ 9 0 3 との間を結ぶ点線は、 端末, 認識対話サーバ 間でデータの遣り取りが何回か行われることを示している。
クライアン ト端末 1 0の能力情報要求が行われる契機と しては、 対話 の最中にサービス内容が変更された場合や、 サービス内容とサーバ能力 に不整合が生じた場合や、 認識対話サーバで不具合が生じた場合等を挙 げることができる。
次に、 クライ アン ト端末 1 0は、 認識対話代表サーバ 4 0からの能力 情報要求を受け、 端末情報記憶部 1 4 0に記憶されているクライ アン ト 端末 1 0の能力情報を制御部 1 2 0を通じ、 データ通信部 1 3 0から認 識対話代表サーバ 4 0へ送信する (ステップ 9 0 4 )。
認識対話代表サーバ 4 0では、 クライ アン ト端末 1 0側から送信され たクライ アン ト端末 1 0 の能力情報を受信し、 予め認識対話サーバ情報 記憶部 4 5 0に記憶されている複数台の認識対話サーバの能力情報を読 み出し、 認識対話サーバ決定部 4 4 0 にてクライ アン ト端末 1 0の能力 情報と複数台の認識対話サーバの能力を比較し (ステップ 9 0 5 )、 クラ イ アン ト端末 1 0から要求されたサービス内容の情報も加味し、 最適な 認識対話サーバを一意に決定する (ステップ 9 0 6 )。 クライアン ト端末 1 0の能力情報、 認識対話サーバの能力情報、 認識対話サーバの決定方 法については前述と同様である。
次に、 認識対話代表サーバ 4 0は、 認識対話サーバ決定部 4 4 0にて 決定した新規認識対話サーバ 8 0の情報をクライ アン ト端末 1 0に通知 する (ステップ 9 0 7 )。 通知の方法については、 新規認識対話サーバ 8 0のア ド レス、 又は新規認識対話サーバ 8 0上の、 認識対話を実行する 実行プログラムのア ドレス等を H T M L等の画面に埋め込んで通知する 方法を一例として挙げることができる。
次に、 クライ アン ト端末 1 0側は、 新規認識対話サ一バ 8 0のァ ドレ スの通知を受信し、 通知された新規認識対話サーバ 8 0へ音声認識対話 の開始を要求する (ステップ 9 0 8 )。 音声認識対話の開始要求の方法に ついては、 認識対話を実行する実行プログラムのァ ド レスの URL と音声 認識対話を実行する際に必要な引数を H T T Pの P O S Tコマン ドにて 送信する方法が一例と して挙げられる。
第四に、 本発明に係る実施形態の音声認識対話システムにおいて、 認 識対話サーバ C 5 0が、 サービス内容をサービス内容保持サーバ 6 0、 例えばコ ンテンツプロバイダ一から読み込む場合について説明する。 こ の場合、 サービス内容保持サーバ 6 0を認識対話選択サーバ 2 0に実装 し、 サービスを利用者へ提供するイ ンタフヱースと して w e bを用いる w e bサーバと してもよい。 また、 この場合クライアン ト端末 1 0には、 サービス内容を選択したり入力したりするィ ンタ フ ヱースとして w e b ブラゥザを実装してもよい。
図 1 0は、 本発明に係る実施形態の認識対話サーバ C (認識対話サ一 バ側装置) 5 0を示す図である。 図 1 0に示す認識対話サーバ側装置 5 0は、 図 8に示す認識対話代表サーバ 4 0に、 音声認識対話起動部 5 3 0 とサービス内容読み込み部 5 4 0とが追加されている。 これ以外の構 成、 例えばデータ通信部 5 1 0, 制御部 5 2 0, 音声認識対話実行部 5 3 0 , 認識対話サーバ決定部 5 6 0 , 認識対話サーバ情報記憶部 5 7 0 は、 図 8の対応する構成と同じである。
音声認識対話起動部 5 3 0は、 音声認識対話処理を起動し、 クライア ン ト端末 1 0側から送信されたサービス情報より、 サービス内容を保持 するサーバへサービス内容の要求を行う。 サービス内容には、 住所認識、 名前認識、 着信メ口ディ 一の曲名認識、 電話番号認識、 ク レジッ ト番号 認識などのサービスが挙げられる。
サービス内容読み込み部 5 4 0は、 サービス内容をサービス内容保持 サーバ 6 0から読み込む。 音声認識対話実行部 5 5 0、 制御部 5 2 0、 データ通信部 5 1 0は、 それぞれ音声認識対話実行部 4 3 0、 制御部 4 2 0、 データ通信部 4 1 0 と同じである。 認識対話サーバ情報記憶部 5 7 0、 認識対話サーバ決定部 5 6 0は、 実装されていなく てもよい。 こ の場合、 ひとつの認識対話サーバの決定は、 認識対話選択サーバ 2 0に より行われる。 認識対話サーバ情報記憶部 5 7 0、 認識対話サーバ決定 部 5 6 0が実装される場合は、 それぞれ認識対話サーバ情報記憶部 4 5 0、 認識対話サーバ決定部 4 4 0と同じである。
図 1 1 は、 本発明実施の形態の音声認識対話方法において、 認識対話 サーバ C 5 0がサービス内容をサービス内容保持サーバ 6 0から読み込 む場合の処理を示すフローチャー トである。
図 1 1 のステップ 1 1 0 1 からステップ 1 1 0 5 までの処理について は、 前述のステップ 5 0 1 からステップ 5 0 6の処理と同一である。 次に、 クライ アン ト端末 1 0は、 認識対話選択サーバ 2 0より通知さ れた認識対話サーバ C 5 0 の情報より、 認識対話サーバ C 5 0へ音声認 識対話開始要求を行う (ステップ 1 1 0 6 )。 要求の際に、 サービス情報 の送信を行う。
音声認識対話の開始要求の方法については、 認識対話を実行する実行 プログラムのァ ド レスの U R Lとサービス内容情報を H T T Pの P〇 S Tコマン ドにて送信する方法が一例として挙げられる。 サービス内容情 報については、 サービス内容を記述する文書(Vo i ceXML等)やサービス名 が挙げられる。
次に、 認識対話サーバ C 5 0は、 クライアン ト端末 1 0からの要求を データ通信部 5 1 0で受け、 音声認識対話起動部 5 3 0にて音声認識対 話処理を起動し、 クライ アン ト端末 1 0側から送信されたサービス情報 より、 サービス内容保持サーバ 6 0へサービス内容の要求を行う (ステ ップ 1 1 0 7 )。
サービス内容の要求方法については、 クライ アン ト端末 1 0から送信 されたサービス内容の情報がァ ドレスである場合、 そのァ ドレスにァク セスする方法を一例と して挙げることができる。 また、 クライアン ト端 末 1 0から送信されたサービス情報がサービス名である場合は、 サ一ビ ス名と対をなすァ ドレスを検索し、 そのァ ドレスにアクセスする方法も 例と して挙げられる。
次に、 サービス内容保持サーバ 6 0では、 認識対話サーバ C 5 0から の要求を受け、 サービス内容を送信する (ステップ 1 1 0 8 )。 認識対話 サーバ C 5 0では、 送信されたサービス内容をデータ通信部 5 1 0で受 け、 サービス内容読み込み部 5 4 0にて読み込み (ステップ 1 1 0 9 )、 音声認識対話処理を開始する (ステップ 1 1 1 0 )。
ステップ 1 1 1 0からステップ 1 1 1 2までの処理については、 前述 のステップ 5 0 7からステップ 5 1 0までの処理と同一である。 図 1 1 において、 ステップ 1 1 1 0とステップ 1 1 1 1 との間を結ぶ点線は、 端末, 認識対話サーバ間でデータの遣り取りが何回か行われることを示 している。
上述のシステムでは、 認識対話選択サーバ 2 0と認識対話サーバ C 5 0が双方ネッ ト ワークに接続されている例を説明したがどちらかひとつ がネッ ト ワークに接続されている構成でもよい。
上述の各ステップはサーバコンピュータ 9 0 1上で動作するプログラ ムにより実現することができる。 図 1 2は、 本発明実施の形態の音声認 識対話方法をサーバコンピュータ 9 0 1上で実行させるプログラムとそ のプログラムが記録された記録媒体 9 0 2を示す図である。 産業上の利用可能性
以上説明したように本発明によれば、 複数の認識対話サーバが存在す る場合においても、 複数台の中から最適な認識対話サーバを選択して決 定し、 音声認識対話を実行することが可能となる。
更に、 種々の理由により対話中に新規認識対話サーバでの処理が必要 となつた場合においても、 クライ アン ト端末は他の適切な認識対話サー バに自動的にアクセスすることが可能となり、 認識対話処理を続行する ことができる。

Claims

請 求 の 範 囲
1 音声認識対話を行う複数の対話手段と、
前記対話手段に音声情報を送信する送信手段と、·
前記送信手段と前記対話手段とを連携するネッ トワークと、
前記送信手段の能力と前記対話手段の能力とによつて前記複数の対話 手段から 1つの対話手段を選択する振分手段と、
を含むことを特徴とする音声認識対話装置。
複数の音声認識対話を行う対話手段と、
前記対話手段に対してサービスを要求する要求手段と、
前記対話手段に音声情報を送信する送信手段と、
前記送信手段と前記要求手段と前記対話手段とを連携するネッ ト ヮ一 クと、
前記要求手段及び前記送信手段の能力と前記対話手段の能力とによつ て前記複数の対話手段から 1つの対話手段を選択する振分手段と、 を含むことを特徴とする音声認識対話装置。
3 複数の音声認識対話を行う対話手段と、
前記対話手段に対して要求するサービス内容を保持するサービス保持 手段と、
前記対話手段に音声情報を送信する送信手段と、
前記サービス保持手段と前記送信手段と前記対話手段とを連携するネ ッ ト ワーク と、
前記サービス保持手段及び前記送信手段の能力と前記対話手段の能力 とによって前記複数の対話手段から 1 つの対話手段を選択する振分手段 と、 を含むこ とを特徴とする音声認識対話装置。
4 前記振分手段は、 選択された前記対話手段を特定するための情報を 前記送信手段へ送り、 当該対話手段と前記送信手段との間で音声認識対 話に必要な音声情報を交換する機能を備えたものであるこ とを特徴とす る請求の範囲第 1項または第 3項に記載の音声認識対話装置。
5 前記振分手段は、 選択された前記対話手段を特定するための情報を 前記要求手段と前記送信手段とに送り、 当該対話手段と前記要求手段及 び前記送信手段手段との間で前記サービス内容と音声情報を交換する機 能を備えたものであることを特徴とする請求の範囲第 2項に記載の音声 認識対話装置。
6 前記振分手段は、 選択された一の前記対話手段を選択された他の前 記対話手段に変更する機能を備えたものであることを特徴とする請求の 範囲第 4項または第 5項に記載の音声認識対話装置。
7 前記振分手段は、 前記送信手段の能力と複数個の前記対話手段の能 力とを比較し、 その比較結果に基いて、 当該対話手段への音声情報の入 力形式と前記送信手段への前記音声情報の出力形式とがー致した、 所望 の能力を持つ前記対話手段を決定する機能を備えたものであることを特 徴とする請求の範囲第 1 , 3 , 4項または第 6項のいずれか一項に記載 の音声認識対話装置。
8 前記振分手段は、 前記要求手段及び前記送信手段の能力と複数個の 前記対話手段の能力とを比較し、 その比較結果に基いて、 当該対話手段 への前記音声情報の入力形式と前記要求手段及び前記送信手段への出力 形式とがー致した、 所望の能力を持つ前記対話手段を決定する機能を備 えたものであることを特徴とする請求の範囲第 2, 5項または第 6項の いずれか一項に記載の音声認識対話装置。 9 前記送信手段から出力される音声情報が、 デジタル化された音声デ 一夕、 圧縮された音声データ、 又は特徴べク トルデータから形成されて いるこ とを特徴とする請求の範囲第 1項に記載の音声認識対話装置。 1 0 前記送信手段の能力を判断するデータには、 C O D E Cの能力, 音声データ形式, 録音 · 合成音声入出力機能のデータが含まれているこ とを特徴とする請求の範囲第 1項に記載の音声認識対話装置。
1 1 前記対話手段の能力を判断するデータには、 C O D E Cの能力, 音声データ形式, 録音 ·合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデータが含まれていることを特徴とする請求の範囲第 1項に 記載の音声認識対話装置。
1 2 音声認識対話を行う複数の音声認識対話サーバと、
前記音声認識対話サーバに対して要求するサービス内容と音声情報と を送信するクライ アン ト端末と、
前記複数の対話手段から 1 つの対話手段を選択する音声認識対話選択 サーバと、
前記クライ アン ト端末と前記音声認識対話サーバと前記音声認識対話 選択サーバとを連携するネッ トワークと、
を含み、
前記クライ アン ト端末は、 音声情報とサービス内容とのデータを入力 するデータ入力部と、 前記ク ライ アン ト端末の能力のデータを記憶する 端末情報記憶部と、 前記ネッ トワークを介して前記音声認識対話サーバ 及び前記音声認識選択サーバとの間に通信を行い、 かつ前記選択された 音声認識対話サーバに対して前記音声情報を送信するデータ通信部と、 当該クライ アン ト端末の動作制御を行う制御部とを有し、
前記音声認識対話選択サーバは、 前記ネッ ト ワークを介して前記クラ イアン ト端末及び前記音声認識対話サーバとの間に通信を行うデータ通 信部と、 前記音声認識対話サーバのそれぞれの能力を記憶する認識対話 サーバ情報記憶部と、 前記端末情報記憶部内に記憶された前記クライア ン ト端末の能力データを読み出し、 当該データと前記認識対話サーバ情 報記憶部内の音声認識対話サーバの能力データとを比較して前記複数の 音声認識対話サーバから少なく とも一の音声認識対話サーバを決定する と共に、 当該決定された音声認識対話サーバを特定するために必要な情 報を前記クライアン ト端末へ送る認識対話サ一パ決定部とを有し、 前記音声認識対話サーバは、 前記クライアン ト端末から入力される前 記音声情報に基いて音声認識対話を実行する音声認識対話実行部と、 前 記ネッ ト ワークを介して前記クライアン ト端末及び前記音声認識対話選 択サーバとの間に通信を行うデータ通信部と、 当該音声認識対話サーバ の動作制御を行う制御部とを有することを特徴とする音声認識対話装置 <
1 3 前記ネッ トワークに連携され、 かつ前記クライ アン ト端末から要 求されるサービスの内容を保持するサービス内容保持サーバと、
前記音声認識対話サーバに備えられ、 前記サービス内容保持サーバに 保持された前記サービスの内容を読み込む読み込み部とを付加したこと を特徴とする請求の範囲第 1 2項に記載の音声認識対話装置。
1 4 前記音声認識対話サーバに備えられ、 当該音声認識対話サーバと は異なる前記音声認識対話サーバへ音声認識対話処理を移行させる要求 を前記音声認識対話選択サーバへ出力する処理移行手段を付加したこと を特徴とする請求の範囲 1 2または 1 3に記載の音声認識対話装置。
1 5 前記クライ アン ト端末から出力される音声情報が、 デジタル化さ れた音声データ、 圧縮された音声データ、 又は特徴ベク トルデータから 形成されているこ とを特徴とする請求の範囲第 1 2項に記載の音声認識 対話装置。
1 6 前記クライアン ト端末の能力を判断するデータには、 C O D E C の能力, 音声データ形式, 録音 · 合成音声入出力機能のデータが含まれ ていることを特徴とする請求の範囲 1 2に記載の音声認識対話装置。 1 7 前記音声認識対話サーバの能力を判断するデータには、 C O D E Cの能力, 音声データ形式, 録音 · 合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデータが含まれていることを特徴とする請求の 範囲第 1 2項に記載の音声認識対話装置。
1 8 送信手段と複数の対話手段との間にネッ トワークを通してデータ 通信を行い、 前記送信手段から出力される音声情報データを特定の対話 手段に振分ける処理を行うものであり、
前記送信手段からの音声情報データを受け取る第 1 のステップと、 前記送信手段に、 当該送信手段の能力データを要求する第 2のステッ プと、
前記送信手段から当該送信手段の能力データを送信する第 3のステッ プと、
前記送信手段からの能力データと前記複数の対話手段の能力データと を比較し、 その比較結果に基いて前記特定の対話手段を一意に決定する 第 4のステップと、
決定された前記対話手段を特定するための情報を前記送信手段に通知 する第 5のステップと、
前記送信手段と一意に決定された前記対話手段との間で音声認識対話 処理を行う第 6のステップとを有することを特徴とする音声認識対話選 択方法。
1 9 前記送信手段と前記対話手段との間に音声認識対話処理が行われ ている最中に、 当該対話手段から他の対話手段へ前記送信手段の相手先 を移行する要求を送信する第 7のステップと、
前記送信手段へ当該送信手段の能力データを要求する第 8のステツプ と、
前記第 8のステップでの要求に応えて前記送信手段から当該送信手段 の能力データを送信する第 9のステップと、
前記送信手段の能力データ と複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに対話手段を一意に決定する第 1 0 のステップと、
前記第 1 0のステップにて決定された対話手段を特定するために必要 な情報を前記送信手段に通知する第 1 1 のステップと、
前記第 1 0のステツプにて決定された対話手段と前記送信手段との間 に音声認識対話処理を行う第 1 2のステップとを、
付加することを特徴とする請求の範囲第 1 8項に記載の音声認識対話 選択方法。
2 0 送信手段と複数の対話手段とサービス保持手段との間にネッ トヮ ークを通してデータ通信を行い、 前記送信手段から出力される音声情報 データを特定の対話手段に振分ける処理を行うものであり、
前記送信手段から出力される、 音声認識対話処理を含むサービス内容 の要求を受け取る第 1 のステップと、
前記送信手段に対して、 当該送信手段の能力データを要求する第 2の ステップと、
前記送信手段から当該送信手段の能力データを送信する第 3のステツ プと、
前記送信手段の能力データと複数の前記対話手段の能力データとを比 較し、 その比較結果に基いて複数の对話手段から特定の対話手段を一意 に決定する第 4のステップと、
前記第 4のステップにて決定された前記対話手段を特定するために必 要な情報を前記送信手段に通知する第 5のステップと、
前記送信手段と前記第 4のステップで決定された対話手段との間で音 声認識対話処理を行う第 6のステップと、
前記第 4のステップにて決定された前記対話手段から前記サービス保 持手段に、 前記送信手段が要求するサービスの内容を要求する第 7のス テツプと、
前記第 7のステップにて要求されたサービスの内容を前記第 4のステ ップにて決定された前記対話手段へ送信する第 8のステツプと、
前記第 8のステ ツプにて送信されたサービスの内容を、 前記第 4のス テップにて決定された対話手段にて読み込む第 9のステップと、
前記送信手段と前記第 4のステツプにて決定された前記対話手段との 間に、 前記読込まれたサービスの内容に基いて音声認識対話処理を行う 第 1 0のステッ プを有するこ とを特徴とする音声認識対話選択方法。 2 1 前記送信手段と前記対話手段との間に音声認識対話処理が行われ ている最中に、 当該対話手段から他の対話手段へ前記送信手段の相手先 を移行する要求を送信する第 1 1 のステップと、
前記送信手段に、 当該送信手段の能力データを要求する第 1 2のステ ップと、
前記送信手段から、 当該送信データの能力データを送信する第 1 3の ステップと、
前記送信手段の能力データと複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに前記対話手段を一意に決定する第 1 4のステップと、
前記第 1 4のステツプにて決定された前記対話手段を特定するために 必要な情報を前記送信手段に通知する第 1 5のステップと、
前記第 1 4のステツプにて決定された前記対話手段と前記送信手段と の間に音声認識対話処理を行う第 1 6のステップを付加することを特徴 とする請求の範囲第 2 0項に記載の音声認識対話方法。
2 2 前記音声情報として、 デジタル化された音声データ, 圧縮された 音声データ又は特徴べク トルのデータを含む音声情報を用いることを特 徴とする請求の範囲第 1 8項に記載の音声認識対話選択方法。
2 3 前記送信手段の能力を判断するデータに、 C O D E Cの能力, 音 声データ形式, 録音 · 合成音声入出力機能, サービス内容のデータを含 めることを特徴とする請求の範囲第 1 8項に記載の音声認識対話選択方 法。
2 4 前記対話手段の能力を判断するデータに、 C O D E Cの能力, 音 声データ形式, 録音 · 合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデータを含めることを特徴とする請求の範囲第 1 8項に記載 の音声認識対話選択方法。
2 5 送信手段と複数の対話手段との間にネッ トワークを通してデータ 通信を行い、 前記送信手段から出力される音声情報データを特定の対話 手段に振分ける振分け手段を備え、
前記振分け手段は、 前記振分けを行う際に前記送信手段の能力と前記 対話手段の能力とに応じて前記対話手段を特定して振り分けを行うもの であることを特徴とする音声認識対話選択装置。
2 6 送信手段と複数の対話手段との間にネッ トワークを通してデータ 通信を行い、 前記送信手段から出力される音声情報データを特定の対話 手段に振分ける処理を行うものであり、
前記送信手段からの音声情報と、 前記対話手段を変更する旨のデータ を受け取る第 1 の手段と、
前記送信手段に、当該送信手段の能力データを要求する第 2の手段と、 前記第 2の手段からの要求に応じて、 前記送信手段から前記能力デー タを送信する第 3の手段と、 - 前記送信手段の能力データと複数の前記対話手段の能力データとを比 較し、 その比較結果に基いて前記対話手段を一意に決定する第 4の手段 と、
前記第 4の手段にて決定された前記対話手段を特定するための情報を 前記送信手段に通知する第 5の手段とを有することを特徴とする音声認 識対話選択装置。
2 7 前記音声情報は、 デジタル化された音声データ, 又は圧縮された 音声データ, 又は特徴べク トルのデータを含むものであることを特徴と する請求の範囲第 2 6項に記載の音声認識対話選択装置。
2 8 前記送信手段の能力を判断するデータに、 C O D E Cの能力. 音 声データ形式, 録音 , 合成音声入出力機能, サービス内容のデータを含 むことを特徴とする請求の範囲 2 6に記載の音声認識対話選択装置。
2 9 前記対話手段の能力を判断するデータに、 C O D E Cの能力, 音 声データ形式, 録音 , 合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデータを含むものであることを特徴とする請求の範囲第 2 6 項に記載の音声認識対話選択装置。
3 0 送信手段と複数の対話手段との間にネッ トワークを通してデータ 通信を行い、 前記送信手段から出力される音声情報データを特定の対話 手段に振分ける処理を行うものであり、 前記送信手段からの音声情報データを受け取る第 1 のステップと、 前記送信手段に、 当該送信手段の能力データを要求する第 2のステッ プと、
前記送信手段から当該送信手段の能力データを送信する第 3のステツ プと、
前記送信手段からの能力データと前記複数の対話手段の能力データと を比較し、 その比較結果に基いて前記特定の対話手段を一意に決定する 第 4のステップと、
決定された前記対話手段を特定するための情報を前記送信手段に通知 する第 5のステップと、
前記送信手段と一意に決定された前記対話手段との間で音声認識対話 処理を行う第 6のステツプとを有する音声認識対話選択プログラムを記 録したことを特徴とする音声認識対話選択プ.口グラムの記録媒体。
3 1 前記送信手段と前記対話手段との間に音声認識対話処理が行われ ている最中に、 当該対話手段から他の対話手段へ前記送信手段の相手先 を移行する要求を送信する第 7のステップと、
前記送信手段へ当該送信手段の能力データを要求する第 8のステップ と、
前記第 8のステツプでの要求に応えて前記送信手段から当該送信手段 の能力データを送信する第 9のステップと、
前記送信手段の能力データと複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに対話手段を一意に決定する第 1 0 のステップと、
前記第 1 0のステツプにて決定された対話手段を特定するために必要 な情報を前記送信手段に通知する第 1 1 のステップと、 前記第 1 0のステツプにて決定された対話手段と前記送信手段との間 に音声認識対話処理を行う第 1 2のステツプとを付加する音声認識対話 選択プログラムを記録したことを特徴とする請求の範囲第 3 0項に記載 の音声認識対話選択プログラムの記録媒体。
3 2 送信手段と複数の対話手段とサービス保持手段との間にネッ ト ヮ ークを通してデータ通信を行い、 前記送信手段から出力される音声情報 データを特定の対話手段に振分ける処理を行うものであり、
前記送信手段から出力される、 音声認識対話処理を含むサービス内容 の要求を受け取る第 1 のステップと、
前記送信手段に対して、 当該送信手段の能力データを要求する第 2の ステップと、
前記送信手段から当該送信手段の能力データを送信する第 3のステツ プと、
前記送信手段の能力データと複数の前記対話手段の能力データとを比 較し、 その比較結果に基いて複数の対話手段から特定の対話手段を一意- に決定する第 4のステップと、
前記第 4のステツプにて決定された前記対話手段を特定するために必 要な情報を前記送信手段に通知する第 5のステップと、
前記送信手段と前記第 4のステツプで決定された対話手段との間で音 声認識対話処理を行う第 6のステップと、
前記第 4のステップにて決定された前記対話手段から前記サービス保 持手段に、 前記送信手段が要求するサービスの内容を要求する第 7のス テツプと、
前記第 7のステツプにて要求されたサービスの内容を前記第 4のステ ップにて決定された前記対話手段へ送信する第 8のステツプと、 前記第 8のステップにて送信されたサービスの内容を、 前記第 4のス テップにて決定された対話手段にて読み込む第 9のステップと、
前記送信手段と前記第 4のステップにて決定された前記対話手段との 間に、 前記読込まれたサービスの内容に基いて音声認識対話処理を行う 第 1 0のステツプを有する音声認識対話選択プログラムを記録したこと を特徴とする音声認識対話選択プログラムの記録媒体。
3 3 前記送信手段と前記対話手段との間に音声認識対話処理が行われ ている最中に、 当該対話手段から他の対話手段へ前記送信手段の相手先 を移行する要求を送信する第 1 1 のステップと、
前記送信手段に、 当該送信手段の能力データを要求する第 1 2のステ ップと、
前記送信手段から、 当該送信データの能力データを送信する第 1 3の ステップと、
前記送信手段の能力データと複数個の前記対話手段の能力データとを 比較し、 その比較結果に基いて新たに前記対話手段を一意に決定する第 1 4のステップと、
前記第 1 4のステツプにて決定された前記対話手段を特定するために 必要な情報を前記送信手段に通知する第 1 5のステッ プと、
前記第 1 4のステップにて決定された前記対話手段と前記送信手段と の間に音声認識対話処理を行う第 1 6のステップを付加する音声認識対 話選択プログラムを記録したことを特徴とする請求の範囲第 3 2項に記 載の音声認識対話選択プログラムの記録媒体。
3 4 前記音声情報と して、 デジタル化された音声データ, 圧縮された 音声データ又は特徴べク トルのデータを含む音声情報を用いることを特 徴とする請求の範囲第 3 0項に記載の音声認識対話選択プログラムの記 録媒体。
35 前記送信手段の能力を判断するデータに、 C O D E Cの能力, 音 声データ形式, 録音 ' 合成音声入出力機能, サービス内容のデータを含 めることを特徴とする請求の範囲第 3 0項に記載の音声認識対話選択プ 口グラムの記録媒体。
36 前記対話手段の能力を判断するデータに、 C O D E Cの能力, 音 声データ形式, 録音 · 合成音声出力機能, サービス内容, 認識の能力, 稼動情報のデータを含めることを特徴とする請求の範囲第 30項に記載 の音声認識対話選択プログラムの記録媒体。
PCT/JP2003/002952 2002-04-04 2003-03-12 Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale WO2003085640A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP03708563A EP1394771A4 (en) 2002-04-04 2003-03-12 VOICE-RECOGNIZING CONVERSATION SELECTION DEVICE, SYSTEM, METHOD, AND PROGRAM
US10/476,638 US20040162731A1 (en) 2002-04-04 2003-03-12 Speech recognition conversation selection device, speech recognition conversation system, speech recognition conversation selection method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002102274A JP2003295890A (ja) 2002-04-04 2002-04-04 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
JP2002-102274 2002-04-04

Publications (1)

Publication Number Publication Date
WO2003085640A1 true WO2003085640A1 (fr) 2003-10-16

Family

ID=28786256

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/002952 WO2003085640A1 (fr) 2002-04-04 2003-03-12 Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale

Country Status (6)

Country Link
US (1) US20040162731A1 (ja)
EP (1) EP1394771A4 (ja)
JP (1) JP2003295890A (ja)
CN (1) CN1282946C (ja)
TW (1) TWI244065B (ja)
WO (1) WO2003085640A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210082B2 (en) 2009-07-23 2021-12-28 S3G Technology Llc Modification of terminal and service provider machines using an update server machine

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
US8311822B2 (en) 2004-11-02 2012-11-13 Nuance Communications, Inc. Method and system of enabling intelligent and lightweight speech to text transcription through distributed environment
GB2427500A (en) * 2005-06-22 2006-12-27 Symbian Software Ltd Mobile telephone text entry employing remote speech to text conversion
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
EP1938310A2 (en) * 2005-10-21 2008-07-02 Callminer, Inc. Method and apparatus for processing heterogeneous units of work
US9330668B2 (en) * 2005-12-20 2016-05-03 International Business Machines Corporation Sharing voice application processing via markup
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
CN101079885B (zh) * 2007-06-26 2010-09-01 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的系统和方法
DE102008033056A1 (de) 2008-07-15 2010-01-21 Volkswagen Ag Kraftfahrzeug mit einem Mikrofon zur akustischen Eingabe eines Befehls zur Bedienung der Funktion des Kraftfahrzeuges
CN102237087B (zh) * 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
US20120059655A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
CN103024169A (zh) * 2012-12-10 2013-04-03 深圳市永利讯科技股份有限公司 一种通讯终端应用程序的语音启动方法和装置
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
CN103870547A (zh) * 2014-02-26 2014-06-18 华为技术有限公司 联系人的分组处理方法及装置
JP2018037819A (ja) * 2016-08-31 2018-03-08 京セラ株式会社 電子機器、制御方法及びプログラム
US11663535B2 (en) 2016-10-03 2023-05-30 Google Llc Multi computational agent performance of tasks
CN109844855B (zh) * 2016-10-03 2023-12-05 谷歌有限责任公司 任务的多重计算代理执行
CN106998359A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音识别服务的网络接入方法以及装置
JP6843388B2 (ja) * 2017-03-31 2021-03-17 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、情報処理方法及びプログラム
JP7119218B2 (ja) * 2018-05-03 2022-08-16 グーグル エルエルシー オーディオクエリのオーバーラップ処理の協調
JP6555838B1 (ja) * 2018-12-19 2019-08-07 Jeインターナショナル株式会社 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、チャットボットポータルサーバー装置、およびプログラム。
CN109949817B (zh) * 2019-02-19 2020-10-23 一汽-大众汽车有限公司 基于双操作系统双语音识别引擎的语音仲裁方法及装置
CN110718219B (zh) 2019-09-12 2022-07-22 百度在线网络技术(北京)有限公司 一种语音处理方法、装置、设备和计算机存储介质
JP7377668B2 (ja) * 2019-10-04 2023-11-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 制御装置、制御方法及びコンピュータプログラム
CN113450785B (zh) * 2020-03-09 2023-12-19 上海擎感智能科技有限公司 车载语音处理的实现方法、系统、介质及云端服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142488A (ja) * 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
JP2001222292A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体
EP1255193A2 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Servers for web enabled speech recognition

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708697A (en) * 1996-06-27 1998-01-13 Mci Communications Corporation Communication network call traffic manager
US6292782B1 (en) * 1996-09-09 2001-09-18 Philips Electronics North America Corp. Speech recognition and verification system enabling authorized data transmission over networked computer systems
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
WO1998050907A1 (en) * 1997-05-06 1998-11-12 Speechworks International, Inc. System and method for developing interactive speech applications
US7251315B1 (en) * 1998-09-21 2007-07-31 Microsoft Corporation Speech processing for telephony API
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6363349B1 (en) * 1999-05-28 2002-03-26 Motorola, Inc. Method and apparatus for performing distributed speech processing in a communication system
US6792086B1 (en) * 1999-08-24 2004-09-14 Microstrategy, Inc. Voice network access provider system and method
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6396898B1 (en) * 1999-12-24 2002-05-28 Kabushiki Kaisha Toshiba Radiation detector and x-ray CT apparatus
US6505161B1 (en) * 2000-05-01 2003-01-07 Sprint Communications Company L.P. Speech recognition that adjusts automatically to input devices
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
GB2389217A (en) * 2002-05-27 2003-12-03 Canon Kk Speech recognition system
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142488A (ja) * 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
JP2001222292A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体
EP1255193A2 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Servers for web enabled speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1394771A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210082B2 (en) 2009-07-23 2021-12-28 S3G Technology Llc Modification of terminal and service provider machines using an update server machine

Also Published As

Publication number Publication date
EP1394771A1 (en) 2004-03-03
US20040162731A1 (en) 2004-08-19
CN1282946C (zh) 2006-11-01
TW200307908A (en) 2003-12-16
JP2003295890A (ja) 2003-10-15
CN1514995A (zh) 2004-07-21
TWI244065B (en) 2005-11-21
EP1394771A4 (en) 2005-10-19

Similar Documents

Publication Publication Date Title
WO2003085640A1 (fr) Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale
US9761241B2 (en) System and method for providing network coordinated conversational services
CA2345660C (en) System and method for providing network coordinated conversational services
US6801604B2 (en) Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7421390B2 (en) Method and system for voice control of software applications
US8239204B2 (en) Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges
US8521527B2 (en) Computer-implemented system and method for processing audio in a voice response environment
US8296139B2 (en) Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system
EP1311102A1 (en) Streaming audio under voice control
JP2002528804A (ja) サービスアプリケーションに対するユーザインタフェースの音声制御
US8175084B2 (en) Data device to speech service bridge
JP2001503236A (ja) パーソナル音声メッセージプロセッサ及び方法
KR100826778B1 (ko) 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법
US6501751B1 (en) Voice communication with simulated speech data
JP2005151553A (ja) ボイス・ポータル
US8706501B2 (en) Method and system for sharing speech processing resources over a communication network
JP2000285063A (ja) 情報処理装置および情報処理方法、並びに媒体
JP4224305B2 (ja) 対話情報処理システム
JP2003271376A (ja) 情報提供システム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB IT

WWE Wipo information: entry into national phase

Ref document number: 10476638

Country of ref document: US

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2003708563

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 038003465

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2003708563

Country of ref document: EP