WO2003001511A1 - Server-client type speech recognition apparatus and method - Google Patents

Server-client type speech recognition apparatus and method Download PDF

Info

Publication number
WO2003001511A1
WO2003001511A1 PCT/JP2002/006156 JP0206156W WO03001511A1 WO 2003001511 A1 WO2003001511 A1 WO 2003001511A1 JP 0206156 W JP0206156 W JP 0206156W WO 03001511 A1 WO03001511 A1 WO 03001511A1
Authority
WO
WIPO (PCT)
Prior art keywords
waveform data
information
compression method
waveform
unit
Prior art date
Application number
PCT/JP2002/006156
Other languages
English (en)
French (fr)
Inventor
Eiko Yamada
Hiroshi Hagane
Kazunaga Yoshida
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to EP02743659A priority Critical patent/EP1411499B1/en
Priority to DE60229392T priority patent/DE60229392D1/de
Priority to US10/481,324 priority patent/US7478046B2/en
Publication of WO2003001511A1 publication Critical patent/WO2003001511A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Definitions

  • the present invention relates to a speech recognition technology. More particularly, the present invention relates to a server-type client-type speech recognition apparatus and method that performs speech detection on a terminal (client) such as a mobile phone and performs speech analysis and recognition on a server side.
  • client a terminal
  • server performs speech detection on a terminal (client) such as a mobile phone and performs speech analysis and recognition on a server side.
  • the first type of conventional server / client type voice recognition device detects voice on the terminal (client) device, transmits the detected waveform data to the server device, analyzes it on the server device, The recognition process is performed.
  • a speech recognition device using Dialogic CSP Continuous Speech Processing
  • the second type of conventional server / client type speech recognition device performs voice detection on the terminal device, compresses the detected waveform data, transmits the compressed waveform data to the server device, and sends the compressed data to the server device. It expands the waveform data transmitted by the device, performs voice detection for recognition again, analyzes the detected waveform data, and performs recognition processing.
  • VoIP Voiceover Internet Protocol
  • VoIP power S is known as a method for performing voice detection in the terminal device, compressing the detected waveform data, and transmitting the compressed waveform data to the server device.
  • Reference 1 Nikkei Internet Technology, pp. 75-93, May 1998).
  • the third type of conventional server 'client-type speech recognizer has recently been developed by the European Telecommunications Standards Institute (ETSI) -STQ Aurora DSR (Distributed (Speech Recognition) Standardization being promoted by the Working Group Proposed in the project. That is, the third type of server, the client-type voice recognition device, detects and analyzes voice on the terminal-side device, transmits the analyzed parameters (feature vector) to the server-side device, It performs voice recognition by using.
  • ETSI European Telecommunications Standards Institute
  • Aurora DSR Distributed (Speech Recognition) Standardization being promoted by the Working Group Proposed in the project. That is, the third type of server, the client-type voice recognition device, detects and analyzes voice on the terminal-side device, transmits the analyzed parameters (feature vector) to the server-side device, It performs voice recognition by using.
  • the first type of conventional server / client speech recognition device transmits the waveform data detected by the terminal device to the server device without compressing it, thus reducing the time and cost of transmission. There is a problem that many are required.
  • the second type of conventional server-client type speech recognition device overlaps because the server-side device performs speech detection for recognition again on the data decompressed and detected by the terminal-side device. There is a problem that the voice detection process is useless.
  • the second type of conventional server / client type speech recognition device performs speech detection for speech recognition on the server side, detection of the beginning of speech for short speech was canceled by the server side device. In this case, there is a problem that the terminal device receives the voice detection cancel information late, which causes a delay in the operation of the application.
  • the third type of conventional server / client type speech recognizer has the problem that the parameters used during recognition (after analysis) cannot be used because the parameters used are unique. .
  • the third type of conventional server-client type speech recognition device requires a large amount of cost and time to implement a new analysis method in the terminal because the analysis unit is set in the terminal device. This has the problem that
  • Japanese Patent Publication No. 2000-0—268087 discloses that the server system is based on speech information, position information, time information, weather information, biological information, etc., spoken by the operator.
  • An “information providing system, a client, an information providing server, and an information providing method” are disclosed that determine the mood and situation of the operator and transmit the providing information suitable for the mood and situation to the client. Provision of information disclosed in this publication
  • the service system has a client and a server system.
  • the client transmits the operator information, which is information about the operator, to the server system via the network, receives the providing information from the server system via the network, and outputs the received providing information. And an output unit.
  • the server system includes an analysis information storage unit that stores the information to be provided and the analysis information for analyzing the operator information, and transmits the analysis information to the client based on the operator information and the analysis information transmitted from the client.
  • a selection server that selects information to be provided suitable for the user from the provided information storage unit; and an information providing server that transmits the information to be provided selected by the selected server to the client via a network.
  • the server system also includes a speech recognition server.
  • the speech recognition server receives the speech information transmitted from the client, and performs speech recognition of the received speech information based on the acoustic analysis unit, the acoustic model, the language model, and the like.
  • the acoustic analysis unit refers to a processing unit that extracts an acoustic feature sequence from input speech information.
  • the acoustic model is an expression for evaluating the acoustic similarity to the individual features extracted by the acoustic analysis unit. Information for evaluating the similarity with the pattern.
  • the language model is information for giving restrictions on the connection of the acoustic model.
  • Japanese Patent Publication No. 2000-190470 discloses a "information processing apparatus and method" in which the contents of speech recognition and machine translation can be easily changed. , As well as the distribution media.
  • a terminal is, for example, a device having a telephone function and is connected to a network, and a user can make a call (conversation) via the terminal.
  • the user performs the content of the call via one of the three translation service providing devices, and interprets the content of the conversation there.
  • the interpreting service providing device is a server having a history information storage function in addition to a voice recognition function, a machine translation function, and a voice synthesis function.
  • the interpreting service providing device stores the contents of the conversation so far using the history information storage function, executes the interpreting process based on the content, and supplies the conversation history information to other interpreting service providing devices as necessary. . Disclosure of the invention
  • a main problem to be solved by the present invention is to provide a speech recognition device and a method for reducing transmission time and cost.
  • a server-client type voice recognition device includes: a voice detection unit that detects a voice section of input data; A terminal configured to include: a waveform compression unit that compresses waveform data of a voice section detected by the voice detection unit; and a waveform transmission unit that transmits waveform data compressed by the waveform compression unit.
  • (Client side) a device, a waveform receiving section for receiving waveform data transmitted from the terminal side device; a waveform expanding section for expanding the waveform data received by the waveform receiving section; A recognition unit that performs recognition processing using the obtained waveform data and outputs a recognition result; and a server-side device that includes:
  • the terminal-side apparatus receives the input waveform data and the waveform receiving the waveform data retransmission request signal transmitted from the server-side apparatus. While temporarily storing the waveform data compressed by the signal receiving unit and the waveform compressing unit, the waveform data is transmitted to the waveform transmitting unit, and the waveform / signal receiving unit receives a waveform data retransmission request signal from the server-side device.
  • the server-side device includes a waveform receiving a waveform data transmitted from the terminal-side device and a start-end cancel signal, and a signal receiving unit.
  • the recognizing unit may be configured to stop the recognizing process when the waveform / signal receiving unit receives the start cancel signal.
  • a server-client type voice recognition device includes: a voice detection unit that detects a voice section of input data; a voice synthesis unit that synthesizes a synthesized voice; A synthesized sound information generating unit that generates information of the synthesized synthesized sound and outputs a synthesized sound; and a synthesized sound generated by the synthesized sound information generating unit by compressing waveform data of a voice section detected by the voice detecting unit.
  • Waveform pressure that incorporates information into part of the waveform data
  • a terminal-side (client-side) device comprising: a compression unit; and a waveform transmission unit for transmitting the waveform data compressed by the waveform compression unit; and receiving the waveform data transmitted from the terminal-side device.
  • a waveform receiving unit that expands waveform data received by the waveform receiving unit; a synthesized sound information obtaining unit that obtains synthesized sound information from data expanded by the waveform expanding unit; Recognition processing is performed using the waveform data decompressed by the unit, the recognition result is output, and when recognition is completed, the correspondence between the synthesized sound and the recognition result is obtained from the synthesized sound information obtained by the synthesized sound information acquisition unit. And a recognition unit that outputs the recognition result or the recognition result and the synthesized sound information that are associated with each other.
  • a server-client type voice recognition apparatus using input waveform data, a waveform data retransmission request signal transmitted from a server-side apparatus, and a server apparatus transmitted from a server-side apparatus.
  • a compression method selection unit for selecting an optimum compression method from the compression method information sent from the waveform, signal, and compression method reception unit; and a compression method index generation for creating an index of the compression method selected by the compression method selection unit.
  • Speech detection unit that detects the speech section of the waveform data input by the waveform ⁇ signal ⁇ compression method receiving unit; Speech synthesis unit that synthesizes the synthesized sound; Speech synthesis unit A synthesized sound information generating section for generating information on the synthesized sound and outputting a synthesized sound; and compressing the waveform data of the voice section detected by the voice detecting section, and generating a synthesized sound information generated by the synthesized sound information generating section. And a waveform compression unit that incorporates the compression format index created by the compression format index creation unit into a part of the waveform data; and a waveform data and compression format request signal transmitted from the terminal device.
  • a signal receiving unit a compression method storage unit that stores compression methods available in the server-side device; a waveform; a compression method storage unit when a compression method request signal is sent from the signal receiving unit.
  • a compression method acquisition unit that acquires the stored compression method and transmits compression method information to the terminal device; a waveform expansion unit that expands the waveform data received by the waveform / signal reception unit; In the expanded data and the synthesized sound information acquisition unit for acquiring synthesized sound information; performs recognition processing by using the waveform data decompressed by the waveform decompression portion, recognition In addition to outputting the result, the synthesized sound and the recognition result are associated with each other based on the synthesized sound information acquired by the synthesized sound information acquisition unit when the recognition is completed.
  • a recognition unit that outputs synthesized sound information; a compression index acquisition unit that acquires a compression index from data expanded by the waveform expansion unit; and a compression index that is acquired by the compression index acquisition unit.
  • a recognition engine selection unit for selecting a recognition engine from the server; and a recognition engine setting unit for setting the engine selected by the recognition engine selection unit from among the stored engines. .
  • the server-side device transmits the waveform data, the start-end cancel signal, the compression scheme request signal, and the compression method request signal transmitted from the terminal-side device.
  • a task information storage unit that stores the task information received by the waveform, signal, and task information receiving unit; a task information storage unit that stores the task information received by the waveform, signal, and task information receiving unit;
  • a compression method that stores one or more compression methods that can be used for a task • A task information correspondence table storage unit; and a waveform, a signal, and a task information reception unit that are sent from the task information storage unit when a compression method request signal is received.
  • Task information and compression method ⁇ Task information correspondence Compression method available from the correspondence table of task information and compression method sent from the table storage unit Compression method acquisition unit that transmits acquired information to the terminal device and; further Bei Eteiru.
  • the terminal-side device includes the input waveform data, the task information transmitted from the content side, and the waveform transmitted from the server-side device.
  • Waveform for receiving the data retransmission request signal and information on the compression method available from the server device that can be used by the server device ⁇ Signal ⁇ Compression method ⁇ Task information receiver;
  • This waveform ⁇ Signal ⁇ Compression method 'Task information A task information storage unit for storing task information received by the receiving unit; a compression method / task information correspondence table storing task information and a correspondence table of one or more compression methods usable when the task is used;
  • the compression method information that can be used by the server device is received by the task information receiving unit, it is sent from the task information storage unit.
  • FIG. 1A is a block diagram illustrating a terminal device according to the first embodiment of the present invention
  • FIG. 1B is a block diagram illustrating a server device according to the first embodiment of the present invention.
  • FIG. 2A is a block diagram illustrating a terminal device according to the second embodiment of the present invention
  • FIG. 2B is a block diagram illustrating a server device according to the second embodiment of the present invention.
  • FIG. 3A is a block diagram illustrating a terminal device according to the third embodiment of the present invention
  • FIG. 3B is a block diagram illustrating a server device according to the third embodiment of the present invention.
  • FIG. 4A is a block diagram illustrating a terminal device according to the fourth embodiment of the present invention
  • FIG. 4B is a block diagram illustrating a server device according to the fourth embodiment of the present invention.
  • FIG. 5A is a block diagram illustrating a terminal device according to a fifth embodiment of the present invention
  • FIG. 5B is a block diagram illustrating a server device according to a fifth embodiment of the present invention.
  • FIG. 6A is a block diagram illustrating a terminal device according to the sixth embodiment of the present invention
  • FIG. 6B is a block diagram illustrating a server device according to the sixth embodiment of the present invention.
  • FIG. 7A is a block diagram illustrating a terminal device according to the seventh embodiment of the present invention
  • FIG. 7B is a block diagram illustrating a server device according to the seventh embodiment of the present invention.
  • the present invention includes a server-client type voice recognition device including a server-side device and a terminal-side device.
  • the server / client-type speech recognition device performs speech detection for recognition on the terminal device, compresses the detected waveform data, transmits the compressed waveform data to the server device, expands the voice on the server device, It performs analysis and recognition.
  • FIG. 1A shows the configuration of the terminal device 100
  • FIG. 1B shows the configuration of the server device 200.
  • the terminal device 100 is simply called a terminal
  • the server device 200 is also called a server device.
  • the terminal device 100 has an input terminal 100a and an output terminal 100b.
  • the terminal-side device 100 includes a voice detection unit 101, a waveform voice unit 102, and a waveform transmission unit 103.
  • the voice data input from the input terminal 100a to the terminal-side device 100 is sent to the voice detection unit 101, where voice detection is performed. That is, the voice detection unit 101 detects a voice section of the input voice data.
  • a code spotting method or the like is used as a voice detection method.
  • Reference 2 Nession Recognition by Stochastic Model
  • the audio data detected by the audio detection unit 101 is sent to the waveform compression unit 102.
  • the waveform compression unit 102 compresses the waveform data sent from the voice detection unit 11. That is, the waveform compression section 102 compresses the waveform data of the voice section detected by the voice detection section 101.
  • VSELP Vector Sura Excited Linear Prediction
  • PSI-CELP Pitch Synchronous Innovation CELP
  • the waveform data compressed by the audio compression unit 102 is sent to the waveform transmission unit 103.
  • the waveform transmitting section 103 transmits the compressed waveform data sent from the waveform compressing section 102 from the output terminal 100b to the server side apparatus 200. That is, the waveform transmission unit 103 sends the waveform data compressed by the waveform compression unit 102 from the output terminal 100 b to the server side device. To the address 200.
  • the server-side device 200 has an input terminal 2 ⁇ 0 a and an output terminal 200 b.
  • the server-side device 200 includes a waveform receiving unit 201, a waveform expanding unit 202, an analyzing unit 203, a recognizing unit 204, and a standard pattern storage unit 205. .
  • the compressed waveform data transmitted from the waveform transmitting section 103 of the terminal apparatus 100 is transmitted to the waveform receiving section 201 via the input terminal 200a in the server apparatus 200. Received. That is, the waveform receiving unit 201 receives the compressed waveform data transmitted from the terminal-side device 100. The waveform receiving unit 201 sends the received waveform data to the waveform expanding unit 202.
  • the waveform expansion unit 202 expands the compressed waveform data sent from the waveform reception unit 201. That is, the waveform expansion unit 202 expands the waveform data received by the waveform reception unit 201. The waveform data expanded by the waveform expansion unit 202 is sent to the analysis unit 203.
  • the analysis unit 203 converts the waveform data expanded by the waveform expansion unit 202 into a feature vector. In other words, the analysis unit 203 analyzes the voice using the waveform data expanded by the waveform expansion unit 202. Cebstrum, ⁇ cepstrum, etc. are used as feature vectors. For the ⁇ cepstrum, the description in reference 3 (Furui, “Digital Speech Processing,” Tokai University Press, pp. 44-47, 1989) is referred to.
  • the feature vector analyzed by the analysis unit 203 is sent to the recognition unit 204.
  • the recognition unit 204 calculates the likelihood between the feature vector sent from the analysis unit 203 and the standard pattern sent from the standard pattern storage unit 205 to obtain a recognition result. . That is, the recognition unit 204 performs recognition processing based on the analysis result (feature amount) of the analysis unit 203 and the standard pattern stored in the standard pattern storage unit 205.
  • the Viterbi algorithm, DP matching and the like are used as the likelihood calculation method.
  • the recognition result obtained by the recognition unit 204 is output from the output terminal 200a.
  • For the Viterbi algorithm see the description in Reference 2 (Nakagawa, "Speech Recognition by Probabilistic Model," IEICE, 1988).
  • DP matching See Reference 4 (Sakoe, "Speech Recognition by Slope-Limited DP Matching," Speech Lecture, 67-68 Pp. I974).
  • the combination of the analysis unit 203, the recognition unit 204, and the standard pattern storage unit 205 is performed by performing recognition processing using the waveform data expanded by the waveform expansion unit 202 and recognizing the result. It works as a recognition unit that outputs.
  • the compressed waveform data after voice detection is transmitted from the terminal device 100 to the server device 200, and the server device 200 performs voice analysis and recognition. Therefore, the specifications of the parameters (feature vectors) after analysis can be set freely.
  • the analysis unit 203 and the recognition unit 204 are provided in the server-side device 200, there is an advantage that the cost and time for mounting a new analysis method and a recognition method can be reduced.
  • the waveform data to be transmitted is data after compression, it also has the advantage of reducing the time and cost required for transmission.
  • the voice recognition method includes a step of detecting a voice section of the input voice data in the terminal device 100, and a step of compressing waveform data of the detected voice section. Transmitting the compressed waveform data to the server-side device 200.
  • the server-side device 200 receives the waveform data transmitted from the terminal-side device 100. And a step of performing a recognition process using the expanded waveform data and outputting a recognized result.
  • FIG. 2A shows the configuration of the terminal-side device 100A
  • FIG. 2B shows the configuration of the server-side device 200A.
  • the server-client type speech recognition device has the following framework and mechanism in addition to the configuration of the above-described first embodiment.
  • the framework and mechanism are to transmit a waveform data retransmission request signal from the server-side device 20 OA to the terminal-side device 10 OA when the server-side device 20 OA fails to receive compressed waveform data.
  • the compressed waveform data may be resent to the OA.
  • the terminal-side device 100OA has an input terminal 100OA and an output terminal 100b.
  • the terminal device 100 A includes a waveform / signal receiving unit 104, a voice detecting unit 101, a waveform compressing unit 102, a waveform transmitting unit 103, and a waveform storing unit 105. Is provided.
  • the waveform of the terminal-side device 100 A ⁇ The signal receiving unit 104 receives the audio data from the input terminal 1 • 0a or the waveform data retransmission request signal transmitted from the server-side device 200A. That is, the waveform / signal receiving unit 104 receives the input audio waveform data and the waveform data retransmission request signal transmitted from the server-side device 20OA.
  • the received audio data is sent from the waveform / signal receiving unit 104 to the audio detecting unit 101.
  • the voice detector 101 detects voice of the waveform data sent from the waveform / signal receiver 104. That is, the voice detecting unit 101 detects a voice section of the waveform data received by the waveform / signal receiving unit 104.
  • a detection method a word spotting method or the like is used.
  • the audio data detected by the audio detection unit 101 is sent to the waveform compression unit 102.
  • the waveform compression unit 102 compresses the waveform data sent from the voice detection unit 101. That is, the waveform compression unit 102 compresses the waveform data of the voice section detected by the voice detection unit 101.
  • a compression method a VSELP method, a PSI-CELP method, or the like is used.
  • the waveform data compressed by the waveform compression unit 102 is sent to the waveform storage unit 105.
  • the waveform storage unit 105 sends out the compressed waveform data sent from the waveform compression unit 102 to the waveform transmission unit 103 and stores the same data.
  • the waveform transmitting section 103 transmits the compressed waveform data sent from the waveform storing section 105 to the server-side device 200A from the output terminal 100b. That is, the waveform transmitting unit i03 transmits the waveform data.
  • Waveform Waveform data transmitted from server-side device 200A to signal receiver 104 Assume that a retransmission request signal is input via input terminal 100a. In this case, the waveform data retransmission request signal received by the waveform / signal receiving unit 104 is sent to the waveform storage unit 105. In response to the waveform data retransmission request signal, the waveform storage unit 105 sends the stored compressed waveform data to the waveform transmission unit 103. The waveform transmitting section 103 transmits the compressed waveform data sent from the waveform storing section 105 to the server-side device 20OA from the output terminal 100b.
  • the waveform storage unit 105 sends the stored waveform data to the waveform transmission unit 103 while temporarily storing the waveform data compressed by the waveform compression unit 102 as the stored waveform data, and
  • the waveform receiving unit 104 receives a waveform data retransmission request signal from the server-side device 20 OA, the waveform receiving unit 104 converts the stored waveform data in response to the received waveform data retransmission request signal. Transmit to transmitting section 103.
  • the server-side device 200A has an input terminal 200a, a recognition result output terminal 2OOb, and a signal output terminal 200c.
  • the server-side device 20OA includes a waveform receiving unit 201A, a waveform expanding unit 202, a waveform data retransmission request signal transmitting unit 206, an analyzing unit 203, and a recognizing unit 204. And a standard pattern storage unit 205.
  • the server-side device 200A receives the compressed waveform data transmitted from the waveform transmitting portion 103 of the terminal-side device 100A at the waveform receiving portion 201A via the input terminal 200a. You. That is, the waveform receiving unit 201A receives the compressed waveform data transmitted from the terminal device 100A. The waveform receiving section 201A sends the received waveform data to the waveform expanding section 202.
  • the waveform receiving unit 201 failed to receive compressed waveform data.
  • the waveform receiving unit 201A sends a signal to that effect (waveform data retransmission request signal) to the waveform data retransmission request signal transmitting unit 206.
  • the waveform data retransmission request signal transmitting section 206 transmits the waveform data retransmission request signal transmitted from the waveform receiving section 201A from the signal output terminal 200c to the terminal device 10OA. That is, if the waveform receiving unit 201A fails to receive the compressed waveform data, the waveform data retransmission request signal transmitting unit 206 receives the waveform data retransmission request signal from the waveform receiving unit 201A.
  • Waveform data retransmission The request signal is transmitted to the terminal device 10 OA.
  • the waveform expander 202 expands the compressed waveform data sent from the waveform receiver 201A. That is, the waveform expansion unit 202 expands the waveform data received by the waveform reception unit 201A. The waveform data expanded by the waveform expansion unit 202 is sent to the analysis unit 203.
  • the analysis unit 203 converts the waveform data expanded by the waveform expansion unit 202 into a feature vector. In other words, the analysis unit 203 analyzes the sound using the waveform data expanded by the waveform expansion unit 202. Cepstrum, ⁇ Cepstrum, etc. are used as feature vectors. The feature vector analyzed by the analysis unit 203 is sent to the recognition unit 204.
  • the recognition unit 204 calculates the likelihood between the feature vector sent from the analysis unit 203 and the standard pattern sent from the standard pattern storage unit 205 to obtain a recognition result. . That is, the recognition unit 204 performs a speech recognition process based on the analysis result of the analysis unit 203.
  • the Viterbi algorithm, DP matching, etc. are used as the likelihood calculation method.
  • the recognition result obtained by the recognition unit 204 is output from a recognition result output terminal 200b. ,
  • the combination of the analysis unit 203, the recognition unit 204, and the standard pattern storage unit 205 performs recognition processing using the waveform data expanded by the waveform expansion unit 202 and recognizes the result. It works as a recognition unit that outputs.
  • the speech recognition method is characterized in that, when the server-side device 200 A fails to receive the compressed waveform data transmitted from the terminal-side device 100 OA, A step of transmitting a retransmission request signal to the terminal-side device 10 OA; and, when the terminal-side device 10 OA receives the waveform data retransmission request signal transmitted from the server-side device 20 OA, Transmitting the waveform data stored in 105 to the server-side device 20 OA.
  • FIG. 3A shows the configuration of the terminal-side device 100 B
  • FIG. 3B shows the configuration of the server-side device 200 B
  • the server-client type speech recognition device according to the third embodiment of the present invention includes the following two frameworks in addition to the configuration of the second embodiment.
  • the first framework is that, when a speech section is detected by the terminal-side device 100 B and the compressed waveform data is transmitted to the server-side device 200 B, the beginning of the speech is canceled, and then the server-side device 200 This is a framework for transmitting a start end cancel signal to 0B.
  • the second framework is a framework that can stop the recognition process when the server-side device 200B receives the start end cancel signal. With such a configuration, the recognition process can be immediately stopped when the start end is canceled, so that a useless memory amount and a calculation amount can be reduced.
  • the terminal device 100B has an input terminal 100a, a compressed waveform output terminal 100b, and a signal output terminal 100c.
  • the terminal-side device 100B includes a waveform / signal receiving unit 104, a voice detecting unit 101A, a waveform compressing unit 102, a waveform transmitting unit 103, and a waveform storing unit 1. 05 and a start-end cancel signal transmission unit 106.
  • Waveform of terminal-side device 100BSignal receiver 104 receives audio data or waveform data retransmission request signal transmitted from server-side device 200B via input terminal 100a. Is entered. That is, the waveform / signal receiving unit 104 receives the input voice waveform data and the waveform data retransmission request signal transmitted from the server-side device 200B. When audio data is input from the input terminal 100a to the waveform / signal receiving unit 104, the waveform / signal receiving unit 104 sends the received audio data to the audio detecting unit 101A.
  • the audio detection unit 101 A performs audio detection of the received waveform data sent from the waveform / signal reception unit 104. That is, the voice detection unit 101A detects a voice section of the waveform data of the voice received by the waveform 'signal reception unit 104. As a detection method, a word spotting method or the like is used. The audio data detected by the audio detection unit 101A is sent to the waveform compression unit 102.
  • the audio detection unit 101A sends a signal at the time of the start cancellation (start cancellation signal) to the start cancellation signal transmission unit 106.
  • start cancellation signal a signal at the time of the start cancellation
  • the start end cancel signal transmission unit 106 this transmitted
  • the start end cancel signal is transmitted from the signal output terminal 100c to the server-side device 200B. That is, if the detection is canceled after the sound is detected by the sound detection unit 101A, the start-end cancellation signal transmission unit 106 receives the start-time cancellation signal sent from the sound detection unit 101A. Then, the start-end cancel signal is transmitted to the server-side device 200B.
  • the waveform compression unit 102 compresses the waveform data sent from the audio detection unit 101A. That is, the waveform compression unit 102 compresses the waveform data of the voice section detected by the voice detection unit 101A.
  • a compression method a VSELP method, a PSI-CELP method, or the like is used.
  • the waveform data compressed by the waveform compression unit 102 is sent to the waveform storage unit 105.
  • the waveform storage unit 105 sends out the compressed waveform data sent from the waveform compression unit 102 to the waveform transmission unit 103 and stores the same data.
  • the waveform transmission unit 103 transmits the compressed waveform data sent from the waveform compression unit 102 via the waveform storage unit 105 to the server-side device 200B from the compressed waveform output terminal 100b. I do.
  • the waveform data retransmission request signal transmitted from the server-side device 200B via the input terminal 100a to the signal receiving unit 104 is input.
  • the received waveform data retransmission request signal is sent from waveform / signal receiving section 104 to waveform storage section 105.
  • the waveform storage unit 105 sends the stored compressed waveform data to the waveform transmission unit 103.
  • the waveform transmitting unit 103 transmits the compressed waveform data transmitted from the waveform storage unit 105 to the server-side device 200B.
  • the waveform storage unit 105 sends the stored waveform data to the waveform transmission unit 103 while temporarily storing the waveform data compressed by the waveform compression unit 102 as the stored waveform data.
  • the waveform data retransmission request signal is received from the server-side device 200 B in the waveform / signal reception unit 104, the waveform data retransmission request signal is stored in response to the received waveform data retransmission request signal.
  • the waveform data is sent to the waveform transmitter 103.
  • the server-side device 200B has an input terminal 200a, a recognition result output terminal 200b, and a signal output terminal 200c.
  • the server-side device 200 B Waveform signal receiving section 201 B, waveform expanding section 202, waveform data retransmission request signal transmitting section 206, analyzing section 203, recognizing section 204A, standard pattern storage Unit 205.
  • the compressed waveform data transmitted from the waveform transmitter 103 of the terminal-side device 100B, or the signal at the time of the start cancellation transmitted from the start cancellation signal transmitter 106. (The start-end cancel signal) is received by the waveform / signal receiving unit 201B via the input terminal 200a. That is, the waveform / signal receiving unit 201B receives the waveform data and the start end cancel signal transmitted from the terminal device 100B.
  • the waveform / signal receiving section 201B sends the received compressed waveform data to the waveform expanding section 202. If the reception of the compressed waveform data has failed, the waveform / signal receiving section 201B sends a signal to that effect (waveform data retransmission request signal) to the waveform data retransmission request signal transmitting section 206.
  • the waveform data retransmission request signal transmitting unit 206 transmits the waveform data retransmission request signal transmitted from the waveform / signal receiving unit 201B to the terminal device 100B from the signal output terminal 200c.
  • the waveform data retransmission request signal transmitting unit 206 transmits the waveform data retransmission request signal to the waveform signal receiving unit 201B when the waveform signal receiving unit 201B fails to receive the compressed waveform data.
  • a waveform data retransmission request signal is transmitted from the signal output terminal 200c to the terminal device 100B.
  • the waveform expander 202 expands the compressed waveform data sent from the waveform / signal receiver 201B. That is, the waveform expansion unit 202 expands the waveform data of the voice received by the waveform / signal reception unit 201B. The waveform data expanded by the waveform expansion unit 202 is sent to the analysis unit 203.
  • the analysis unit 203 converts the waveform data expanded by the waveform expansion unit 202 into a feature vector. That is, the analysis unit 203 analyzes the sound using the waveform data expanded by the waveform expansion unit 202. Cepstrum, ⁇ cepstrum, etc. are used as feature vectors. The feature vector analyzed by the analysis unit 203 is sent to the recognition unit 204A.
  • the recognition unit 204A calculates the likelihood between the feature vector sent from the analysis unit 203 and the standard pattern sent from the standard pattern storage unit 205, and calculates the recognition result. Request Confuse. That is, the recognition unit 204A performs recognition processing based on the analysis result of the analysis unit 203. The Viterbi algorithm, DP matching, etc. are used as the likelihood calculation method. The recognition result obtained by the recognition unit 204A is output from a recognition result output terminal 200b.
  • Waveform ⁇ Assume that the signal at the start cancellation transmitted from the start cancellation signal transmission unit 106 to the signal reception unit 201 B is input via the input terminal 200a. In this case, the received start-end cancellation signal is sent from the waveform / signal receiving unit 201B to the recognition unit 204A. In the recognition unit 204A, when the signal at the start cancellation (start cancellation signal) is sent from the waveform 'signal reception unit 201B, the recognition is interrupted. In other words, the recognition unit 204A stops the recognition process when the waveform / signal reception unit 201B receives the start end cancel signal.
  • the combination of the analysis unit 203, the recognition unit 204A and the standard pattern storage unit 205 is the result of recognition using the waveform data expanded by the waveform expansion unit 202. And also serves as recognition means for stopping the recognition process in response to the start-end cancel signal received by the waveform / signal receiving section 201B.
  • the terminal-side device 100 B transmits a start-end cancellation signal to the server-side device 200 B when the detection is canceled after the voice is detected.
  • FIG. 4A shows the configuration of the terminal-side device 100 C
  • FIG. 4B shows the configuration of the server-side device 200 C.
  • the server-client type speech recognition device has the following two frameworks in addition to the configuration of the third embodiment.
  • the first framework is a framework in which the terminal-side device 1 OOC creates and outputs a synthesized sound, incorporates the synthesized sound information as a part of the waveform data, and transmits the created data to the server-side device 200C.
  • the second framework is server-side device 200. At It separates the data transmitted from the terminal-side device 100 C into waveform data and other information, acquires synthesized sound information from the other information, and associates the recognition result obtained from the waveform data with the synthesized sound. It is a framework to be performed.
  • the terminal device 100 C has an input terminal 100 a, a compressed waveform output terminal 100 b, a signal output terminal 100 c, and a synthesized sound output terminal 100 d. have.
  • the terminal device 100 C includes a waveform / signal receiving unit 104, a voice detecting unit 101 A, a waveform compressing unit 102 A, a waveform transmitting unit 103, and a waveform storing unit 1. 0, a start end cancel signal transmitting unit 106, a voice synthesizing unit 107, and a synthesized sound information generating unit 108.
  • Waveform of terminal-side device 100CSound data or waveform data retransmission request signal transmitted from server-side device 200C is input to signal receiver 104 via input terminal 100a. Is done.
  • the waveformsignal receiving unit 104 sends the received audio data to the audio detecting unit 101A. send.
  • the audio detection unit 101 A performs audio detection of the received waveform data sent from the waveform / signal reception unit 104. As a detection method, a word spotting method or the like is used.
  • the audio data detected by the audio detection unit 101A is sent to the waveform compression unit 102A.
  • the audio detection unit 101A sends a signal at the time of the start end cancellation (start end cancel signal) to the start end cancel signal transmission unit 106.
  • the start-end cancellation signal transmission unit 106 transmits the transmitted signal at the start-end cancellation (start-end cancellation signal) from the signal output terminal 100c to the server-side device 200C.
  • the terminal device 100C has a speech synthesis unit 107 for synthesizing synthesized speech.
  • the synthesized sound synthesized by the voice synthesis unit 107 is sent to the synthesized sound information creation unit 108.
  • the synthesized sound information creation unit 108 creates synthesized sound information, sends the created synthesized sound information to the waveform compression unit 102A, and converts the synthesized sound sent from the speech synthesis unit 107 into a synthesized sound.
  • Output from output terminal 100 d That is, the synthesized sound information creating unit 108 creates information of the synthesized sound synthesized by the speech synthesizing unit 107 and outputs the synthesized sound.
  • the waveform compression unit 102 A compresses the waveform data sent from the voice detection unit 101 A, and a part of the compressed waveform data obtained by compressing the synthesized sound information obtained by the synthesized sound information creation unit 108. Include in. That is, the waveform compression unit 102A compresses the waveform data of the voice section detected by the voice detection unit 101A, and compresses the synthesized voice information generated by the synthesized voice information generation unit 108. Embedded in some of the waveform data.
  • a method of including the synthesized sound information in a part of the waveform data a method of including the synthesized sound information in a header of the waveform data and compressing the data, a method of adding the synthesized sound information to the compressed waveform data, and the like are used.
  • the compressed waveform data is sent to the waveform storage unit 105.
  • the waveform storage unit 105 sends the compressed waveform data sent from the waveform compression unit 102A to the waveform transmission unit 103, and stores the same data.
  • the compressed waveform data sent from the waveform compressing section 102A via the waveform storing section 105 is transmitted from the compressed waveform output terminal 100b to the server side apparatus 200C. Send.
  • a waveform data retransmission request signal transmitted from the server-side device 200 C via the input terminal 100 a to the signal receiving unit 104 is input.
  • the waveform signal receiving unit 104 sends the received waveform data retransmission request signal to the waveform storage unit 105.
  • the waveform storage unit 105 sends the stored compressed waveform data to the waveform transmission unit 103.
  • the waveform transmitting unit 103 transmits the compressed waveform data sent from the waveform storage unit 105 to the server-side device 200 C from the compressed waveform output terminal 1 ⁇ b.
  • the server-side device 200C has an input terminal 200a, a recognition result, a synthesized sound information output terminal 200b, and a signal output terminal 200c.
  • the server-side device 200C includes a waveform signal receiving unit 201B, a waveform expanding unit 202A, a waveform data retransmission request signal transmitting unit 206, and an analyzing unit 203.
  • a recognition unit 204 B, a standard pattern storage unit 205, and a synthesized sound information acquisition unit 207 are provided.
  • the compressed waveform data transmitted from the waveform transmitter 1.03 of the terminal-side device 100C, or the compressed waveform data transmitted from the start-end cancel signal transmitter 106 The signal at the start end (start end cancel signal) is received by the waveform / signal receiving section 201B via the input terminal 200a.
  • the waveform / signal receiving section 201B transmits the received compressed waveform data to the waveform expanding section 202A. If reception of the compressed waveform data fails in the waveform signal receiving section 104, the waveform signal receiving section 201B sends a waveform data retransmission request signal to the waveform data retransmission request signal transmitting section 206. Send out.
  • the waveform data retransmission request signal transmitting section 206 transmits the waveform data retransmission request signal transmitted from the waveform / signal receiving section 201B from the signal output terminal 200c to the terminal-side apparatus 100C. You.
  • the waveform expander 202A separates the data sent from the waveform / signal receiver 201B into waveform data synthesized sound information and other information, and expands the compressed waveform data.
  • the expanded waveform data is sent to the analyzer 203.
  • Other information is sent to the synthetic sound information section 207.
  • the synthesized sound information acquisition unit 2007 acquires the synthesized sound information from the information sent from the waveform expansion unit 202A. That is, the synthesized sound information acquisition unit 2007 acquires the synthesized sound information from the data expanded by the waveform expansion unit 202A.
  • the analysis unit 203 converts the waveform data expanded by the waveform expansion unit 202A into a feature vector. Cepstrum, ⁇ Cepstrum, etc. are used as feature vectors.
  • the feature vector analyzed by the analysis unit 203 is sent to the recognition unit 204B.
  • the recognition unit 204 B calculates the likelihood between the feature vector sent from the analysis unit 203 and the standard pattern sent from the standard pattern storage unit 2 ⁇ 5, and calculates the recognition result. Ask for.
  • the likelihood is calculated using the Viterbi algorithm, DP matching, or the like.
  • the obtained recognition result and the synthesized sound information obtained by the synthesized sound information obtaining unit 207 are both shared by the recognition unit 204 B.
  • the terminal device via the synthesized sound information output terminal 200 b. Sent to 100 C.
  • the recognition result for which synthesized sound is associated is associated, and
  • the subsequent recognition result is transmitted from the recognition unit 204B to the terminal device 100C via the recognition result / synthesized sound information output terminal 200b.
  • the recognition unit 204 B associates the synthesized sound with the recognition result from the synthesized sound information acquired by the synthesized sound information acquisition unit 208 when the recognition is completed, and It outputs the recognition result or the recognition result and the synthesized speech information.
  • Waveform ⁇ Assume that the signal at the start cancellation (start cancellation signal) transmitted from the start cancellation signal transmission unit 106 to the signal reception unit 201 B is input via the input terminal 200a. In this case, the received signal at the start end cancellation (start end cancel signal) is sent from the waveform signal receiving section 201B to the recognition section 204B. In the recognition unit 204B, if the signal at the start cancellation (start cancellation signal) is sent from the waveform / signal reception unit 201B, the recognition is interrupted.
  • the combination of the analysis unit 203, the recognition unit 204B, and the standard pattern storage unit 205 performs recognition processing using the waveform data expanded by the waveform expansion unit 202A. In addition to outputting the result of the recognition, it functions as recognition means for stopping the recognition processing in response to the start-end cancel signal received by the waveform signal receiving unit 201B. Then, when the recognition is completed, the recognition unit associates the synthesized sound with the recognition result based on the synthesized sound information acquired by the synthesized sound information acquisition unit 207, and the associated recognition result, or Outputs recognition results and synthesized sound information.
  • the synthetic sound information various information such as the contents of the synthetic sound, the time stamp information at the time of outputting the synthetic sound, and the state number of the dialogue at the time of outputting the synthetic sound can be used. .
  • a method of incorporating the synthesized sound information as a part of the waveform data a method of including the synthesized sound information in the header of the waveform data and compressing it, a method of adding the synthesized sound information to the compressed waveform data, and the like can be used. it can.
  • the speech recognition method includes the steps of: synthesizing a synthesized sound in the terminal device 100 C; creating information on the synthesized sound; The step of outputting, and compressing the waveform data of the detected voice section, incorporating the synthesized sound information created by the synthesized sound information creation unit 108 into a part of the waveform data, and setting the server side device 200 C And in the server-side device 200 C, obtaining the synthesized sound information from the decompressed data. When the recognition is completed, the obtained synthesized sound information is obtained. The synthesized speech is associated with the recognition result, and the associated recognition result or the recognition result and the synthesized speech information are output.
  • FIG. 5A shows the configuration of the terminal-side device 100D
  • FIG. 5B shows the configuration of the server-side device 200D
  • the server-client type speech recognition device according to the fifth embodiment of the present invention includes the following two frameworks in addition to the configuration of the fourth embodiment.
  • the first framework is that a signal requesting a compression method is transmitted from the terminal device 100D to the server device 200D, and when the compression request signal is received by the server device OD, the server device
  • the compression method information that can be used by the device 200D is transmitted to the terminal device 100D, and the terminal device 100D transmits the compression information transmitted from the server device 200D and the terminal device. This is to select the most appropriate compression method based on the compression method available in 100D.
  • the index of the compression information selected by the terminal device 100D is embedded in a part of the waveform data together with the synthesized sound information, and the created data is transmitted to the server device 200D.
  • the server-side device 200D separates data into waveform data and other data, separates the separated data into synthesized sound information and a compression index, and uses the compression index information to compress the data.
  • the most suitable recognition engine is selected, and the recognition result is output using the analysis method, recognition, recognition method, and standard pattern of the selected recognition engine.
  • the terminal device 100 D has an input terminal 100 a, a compressed waveform output terminal 100 b, a first signal output terminal 100 c, and a synthesized sound output terminal 100. 0d and a second signal output terminal 100e.
  • the terminal-side device 100D includes a waveform, signal, and compression method receiving unit 104, a voice detecting unit 101A, a waveform compressing unit 102B, and a waveform transmitting unit 103.
  • Waveform storage unit 105, start end cancel signal transmission unit 106, audio Synthesizing section 107, synthetic sound information creating section 108, compression method index creating section 109, compression method selecting section 110, compression method storage section 111, compression method request signal transmission Shinbe 1 1 and 2 are provided.
  • Terminal-side device 100 D waveform ⁇ Signal ⁇ Compression system receiver 104 A, via input terminal 100 a, audio data or compression system request signal or server-side device 200
  • the waveform data retransmission request signal transmitted from D, or the compression method information transmitted from the server-side device 200 D is input. That is, the waveform / signal / compression method receiving unit 104 A receives the input waveform data, the input compression method request signal, the waveform data retransmission request signal transmitted from the server-side device 200 D, The compression method information that can be used by the server device 200D transmitted from the server device 200D is received.
  • Waveform ⁇ Signal ⁇ Compression method receiver Assume that a compression method request signal is input to 104A.
  • the received compression scheme request signal is sent from the waveform / signal / compression scheme receiver 1 / 4A to the compression scheme request signal transmitter 112.
  • the compression system request signal transmission unit 112 sends the compression system request signal sent from the waveform / signal / compression system reception unit 104 A to the server side device 200 via the second signal output terminal 100 e. Send to 0D.
  • the compression method information transmitted from the server-side device 200D is input to the waveform, signal, and compression method receiver 104A.
  • the received compression scheme information is sent from the waveform / signal / compression scheme receiver 104A to the compression scheme selector 110.
  • the terminal device 100 D includes a compression method storage unit 111 that stores available compression methods, and a compression method selection unit 110 that selects a method for compressing a waveform. Have.
  • the compression method stored in the compression method storage unit 111 includes information on the waveform compression method (full rate, half rate, etc.) and bandwidth (4 kHz, 8 kHz, etc.).
  • the compression method selection unit 110 the compression method information stored in the compression method storage unit 111 and the server-side device 20 ° D sent from the waveform 'signal' compression method reception unit 104A Based on available compression method information, select a compression method with a large amount of data information. For example, when both the terminal-side device 100D and the server-side device 200D have the full-rate and half-rate compression schemes, the full-rate having a large amount of data information is selected.
  • the compression method selection unit 110 receives the waveform, signal, and compression method.
  • the waveform / signal / compression method receiving unit 104 A is more optimal than the compression method information sent from the unit 104 A.
  • Select a compression method is sent to the compression scheme index creation unit 109.
  • the compression method index creation unit 109 creates an index of the method name selected by the compression method selection unit 110.
  • the compression method index creation unit 109 creates an index of the compression method selected by the compression method selection unit 110.
  • the index created by the compression type index creating unit 109 is sent to the waveform compressing unit 103B.
  • audio data is input to the waveform / signal / compression method receiver 104A.
  • the received audio data is sent from the waveform / signal / compression method receiving unit 104A to the audio detecting unit 101A.
  • the audio detector 101A detects the audio of the waveform data sent from the waveform / signal / compression method receiver 104A.
  • the audio detection unit 101A detects an audio section of the waveform data received by the waveform / signal / compression method reception unit 104A.
  • a detection method a pad spotting method or the like is used.
  • the detected audio data is sent from the audio detection unit 101A to the waveform compression unit 102B.
  • start end cancel signal a signal at the start end cancellation (start end cancel signal) is transmitted from the voice detection unit 101A to the start end cancellation signal transmission unit 106.
  • the start-end cancellation signal transmitting unit 106 transmits the sent start-end cancellation signal (start-end cancellation signal) from the first signal output terminal 100c to the server-side device 200D.
  • the terminal-side device 100D has a speech synthesis unit 107 that creates a synthesized sound.
  • the synthesized speech created by the speech synthesis unit 107 is sent to the synthesized speech information creation unit 108.
  • the synthesized sound information creation unit 108 creates synthesized sound information, sends the created synthesized sound information to the waveform compression unit 103B, and outputs the synthesized sound sent from the speech synthesis unit 107. .
  • the synthesized sound information the contents of the synthesized sound, time stamp information at the time of outputting the synthesized sound, and the like are used.
  • the waveform compression unit 102B compresses the waveform data sent from the audio detection unit 101A, and synthesizes the synthesized sound information created by the synthesized sound information creation unit 108 and the compression method index creation unit 10
  • the index of the compression method created in step 9 is included in a part of the waveform data.
  • the waveform compression unit 102 B compresses the waveform data of the voice section detected by the voice detection unit 101 A, synthesizes the synthesized voice information generated by the synthesized voice information generation unit 108, and compresses it.
  • the compression method index created by the method index creation unit 109 is incorporated into a part of the waveform data.
  • a method of including the synthesized sound information and the compression method index in a part of the waveform data there is a method of including the synthesized sound information and the compression method index in the header of the waveform data, or a method of compressing the synthesized waveform information into the compressed waveform data
  • a method of adding a compression method index is used.
  • a compression method a VSELP method, a PSI-CELP method, or the like is used.
  • the waveform data compressed by the waveform compression unit 102 B is sent to the waveform storage unit 105.
  • the waveform storage unit 105 sends the compressed waveform data sent from the waveform compression unit 102B to the waveform transmission unit 103, and stores the same data.
  • the waveform transmission unit 103 transmits the compressed waveform data transmitted from the waveform compression unit 102B via the waveform storage unit 105 to the server-side device 200D.
  • Waveform ⁇ Signal ⁇ Compression method Suppose that the waveform data retransmission request signal transmitted from the server device 200D is input to the 104A receiver. In this case, the received waveform data retransmission request signal is sent from the waveform / signal / compression method receiving section 104A to the waveform storage section 105. In response to the received waveform data retransmission request signal, the waveform storage unit 105 sends the stored compressed waveform data to the waveform transmission unit 103. The waveform transmitting unit 103 transmits the compressed waveform data transmitted from the waveform storage unit 105 to the server-side device 200D.
  • the waveform storage unit 105 temporarily stores the waveform data compressed by the waveform compression unit 102 B as the stored waveform data, and sends out the stored waveform data to the waveform transmission unit 103.
  • the waveform data retransmission request signal is received from the server-side device 200 D in the waveform / signal / compression method receiving unit 104 A, the waveform data retransmission request signal is responded to the received waveform data retransmission request signal.
  • the stored waveform data It is sent to the shape transmitter 103.
  • the server-side device 200 D recognizes the input terminal 200 a as the recognition result, the synthesized sound information output terminal 200 b, the signal output terminal 200 c, and the compression format information output terminal. With child 200 d.
  • the server-side device 200D recognizes the waveform signal receiving unit 201C, the waveform expanding unit 202B, the waveform data retransmission request signal transmitting unit 206, and the analyzing unit 203A.
  • Section 204 C standard pattern storage section 205 A, synthesized sound information acquisition section 207, compression method index acquisition section 209, recognition engine selection section 209, recognition engine setting section 21, a compression method acquisition unit 211, and a compression method storage unit 212.
  • the waveform / signal receiving unit 201C receives the waveform data transmitted from the terminal device 100D and the waveform compression scheme request signal.
  • Waveform ⁇ Assume that the signal receiving unit 201C has received the waveform compression method request signal. In this case, the waveform / signal receiving unit 201C sends the received request signal for the waveform compression method to the compression method acquisition unit 211.
  • the compression method stored in the compression method storage section 212 is transmitted.
  • the compression method that can be used by the server device 200D is acquired from the inside, and the acquired compression method information is transmitted from the compression method information output terminal 200d to the terminal device 100D.
  • the compression method storage unit 212 stores information on the compression method usable in the server-side device 200D.
  • the compression method acquisition unit 211 acquires the compression method information stored in the compression method storage unit 212 when a compression method request signal is transmitted from the waveform / signal reception unit 201, and It transmits the compression method information to the side device 100 D.
  • the waveform / signal receiving unit 201C When the waveform data is received by the waveform / signal receiving unit 201C, the waveform / signal receiving unit 201C sends the received waveform data to the waveform expanding unit 2 • 2B.
  • Waveform ⁇ Suppose that signal reception unit 201 C failed to receive waveform data. This In the case of, the waveform / signal receiving section 201C transmits a waveform data retransmission request signal to the waveform data retransmission request signal transmitting section 206.
  • the waveform data retransmission request signal transmission unit 206 transmits the waveform data retransmission request signal transmitted from the waveform / signal reception unit 201C from the signal output terminal 200c to the terminal device 100D.
  • the waveform data retransmission request signal transmission section 206 fails to receive the compressed waveform data in the waveform signal reception section 201C, the waveform data retransmission request signal transmission section 206 transmits the waveform data retransmission request signal to the waveform signal reception section. Received from 201C, and transmits a waveform data retransmission request signal to terminal device 100D.
  • the waveform expander 202B separates the data sent from the waveform / signal receiver 201C into waveform data and other data, and expands the waveform data.
  • the waveform expander 202B expands the waveform data of the voice received by the waveform / signal receiver 201C.
  • the synthesized sound information acquisition unit 2007 acquires the synthesized sound information from the information sent from the waveform expansion unit 202B.
  • the acquired synthesized speech information is sent from the synthesized speech information acquisition unit 207 to the recognition unit 204C.
  • the compression system index acquisition unit 208 acquires an index of the compression system from the information transmitted from the waveform expansion unit 202B.
  • the compression method index obtaining unit 208 obtains the compression method index from the data expanded by the waveform expansion unit 202B.
  • the index obtained by the compression type index obtaining unit 208 is sent to the recognition engine selecting unit 209.
  • the recognition engine selection unit 209 selects a recognition engine to be used for recognition based on the index acquired by the compression system index acquisition unit 208.
  • the recognition engine selection unit 209 selects a recognition engine from the compression type index acquired by the compression type index acquisition unit 208.
  • the information of the engine selected by the recognition engine selection unit 209 is sent to the recognition engine setting unit 210 and the standard pattern storage unit 205A.
  • the recognition engine setting unit 210 sends the analysis method of the engine to be used to the analysis unit 203A based on the engine information sent from the recognition engine selection unit 209, and Send the law to the recognition unit 204C.
  • the recognition engine setting unit 210 sets the engine selected by the recognition engine selection unit 209 from the stored engines.
  • a standard pattern to be used is set based on the engine information sent from the recognition engine selecting unit 209.
  • the analysis unit 203A converts the waveform data expanded by the waveform expansion unit 202B into a feature vector. In any case, the analysis unit 203A analyzes the speech using the waveform data expanded by the waveform expansion unit 202B. Cepstrum, ⁇ Cepstrum and the like are used as characteristic vectors. The feature vector analyzed by the analysis unit 203A is sent to the recognition unit 204C.
  • the recognition unit 204 C calculates the likelihood between the feature vector sent from the analysis unit 203 A and the standard pattern sent from the standard pattern storage unit 205 A, and performs recognition. Find the result. In any case, the recognition unit 204C performs recognition processing based on the analysis result, and outputs a recognized result.
  • the Viterbi algorithm, DP matching, etc. are used as the likelihood calculation method.
  • the obtained recognition result and the synthesized sound information obtained by the synthesized sound information obtaining unit 207 are both transmitted to the terminal device 100D, or the synthesized sound information is recognized by associating both.
  • the recognition result is transmitted to the terminal device 100D from the recognition result / synthesized sound information output terminal 200b.
  • Waveform ⁇ Assume that the signal at the start cancellation (start cancellation signal) transmitted from the start cancellation signal transmission unit 106 is input to the signal reception unit 201C. In this case, the received signal at the start end cancellation (start end cancel signal) is sent from the waveform-signal reception unit 201C to the recognition unit 204C. In the recognition unit 204C, when the signal at the start cancellation (start cancellation signal) received from the waveform / signal reception unit 201C is sent, the recognition is interrupted halfway.
  • the combination of the analysis unit 203A, the recognition unit 204C, and the standard pattern storage unit 205A performs recognition processing using the waveform data expanded by the waveform expansion unit 202B. It functions as a recognition unit that outputs a recognition result. Then, this recognition means uses the synthesized sound information acquired by the synthesized sound information acquisition unit 207 when the recognition is completed. The synthesized speech is associated with the recognition result, and the associated recognition result or the recognition result and the synthesized speech information are output.
  • the band information (8 kHz, 4 kHz, etc.) and the compression method (full rate) are used. , Half rate, etc.).
  • the method of including the synthesized sound information and the index of the compression method as part of the waveform data there is a method of including the synthesized sound information and the index of the compression method in the header of the waveform data, and a method of compressing the compressed wave.
  • a method of adding synthetic sound information or a compression type index to the shape data can be used.
  • the means for selecting the most appropriate compression method in the terminal device 100D from the compression methods available in the server device 200D and the compression methods available in the terminal device 100D is described below. Select a compression method that has a large amount of information (data amount). For example, if both the terminal device 100D and the server device 200D can use the full-rate and half-rate compression methods, the full rate with a large amount of data information is automatically selected.
  • the recognition engine can be selected by the server-side device 200 D according to the selected compression method
  • the recognition engine suitable for the compression method can be selected by the server-side device 200 D.
  • the voice recognition method corresponding to the fifth embodiment is a compression method that can be used in the terminal device 100 D and transmitted from the server device 200 D and used by the server device 200 D.
  • Receiving information selecting an optimal compression method based on the received compression method information, creating an index of the selected compression method, compressing waveform data of a voice section, and creating a compression method. Transmitting the index to a part of the compressed waveform data and transmitting the index data to the server-side device 200 D.
  • the server-side device 200 D transmits from the terminal-side device 100 D.
  • the compression method information stored in the compression method storage unit 212 that stores information on the compression method usable in the server device 200D is acquired, and the terminal side Device 100 D compression method Sending a multi-address, acquiring Indekkusu compression method from the decompressed data, I the obtained compression method Selecting a recognition engine from the index and setting the selected engine from among the stored engines.
  • FIG. 6A shows the configuration of the terminal device 100E
  • FIG. 6B shows the configuration of the server device 200E
  • the server-client type speech recognition device according to the sixth embodiment of the present invention has the following framework in addition to the configuration of the fifth embodiment.
  • the framework is that when the server-side device 200 E receives the compression method request signal transmitted from the terminal-side device 100 E, the task information input from the content side and the server-side device 200 From the correspondence table between the task information held in 0E and the compression methods available for that task, obtain the compression methods available on the server-side device 200E and send them to the terminal-side device 100E. It is.
  • the terminal device 100 E has an input terminal 100 a, a compressed waveform output terminal 100 b, a first signal output terminal 100 c, and a synthesized sound output terminal 100. 0d and a second signal output terminal 100e.
  • the terminal device 100 E includes a waveform signal receiving unit 104 A, a voice detecting unit 101 A, a waveform compressing unit 102 B, a waveform transmitting unit 103, Waveform storage unit 105, start end cancel signal transmission unit 106, voice synthesis unit 107, synthesized sound information creation unit 108, compression method index creation unit 109, and compression method selection unit 1, a compression method storage unit 111, and a compression method request signal transmission unit 112.
  • Waveform of terminal-side device 100 E Signal / Compression method receiver 104 A has audio data or compression method request signal, or waveform data retransmission request signal transmitted from server-side device 200 E , Or the compression method information transmitted from the server-side device 200 E is input.
  • Waveform ⁇ Signal ⁇ Compression method receiver Assume that a compression method request signal is input to 104A. In this case, the received compression scheme request signal is sent from the waveform / signal / compression scheme receiver 104A to the compression scheme request signal transmitter 112. The compression method request signal transmission unit 112 receives the waveform .signal .compression method reception unit 104 The signal is transmitted from the second signal output terminal 100 e to the server-side device 200 e.
  • the compression method receiver 104 A receives the compression method information that can be used by the server device 200 E transmitted from the server device 200 E.
  • the received compression scheme information is sent from the waveform / signal / compression scheme receiver 104A to the compression scheme selector 110.
  • the terminal-side device 100 E stores a compression-method storage unit 11 1 that stores a compression method usable in the terminal-side device 100 E. 1 and a compression method selection unit 110 for selecting a method of compressing the waveform.
  • the compression method stored in the compression method storage unit 111 includes information on the waveform compression method (full rate, half rate, etc.) and bandwidth (4 kHz, 8 kHz, etc.).
  • the compression method information usable in the terminal device 100E stored in the compression method storage unit 111 and the waveform, signal, and compression method reception unit 104A A compression method with a large data amount is selected based on the compression method information available in the server-side device 20 OE sent from the server. For example, if both the terminal-side device 100 E and the server-side device 200 E have the full-rate and half-rate compression schemes, the full-rate with a large amount of data information is selected.
  • the scheme name selected by the compression scheme selection unit 110 is sent to the compression scheme index creation unit 109.
  • the compression system index creation unit 109 creates an index of the system name selected by the compression system selection unit 110.
  • the index created by the compression type index creating unit 109 is sent to the waveform compressing unit 102B.
  • Waveform ⁇ Signal ⁇ Compression method Suppose audio data is input to 104A.
  • the received audio data is sent from the waveform / signal / compression method receiving unit 104A to the audio detecting unit 101A.
  • the sound detection unit 101A performs sound detection of the received waveform data sent from the waveform / signal 'compression method receiving unit 104A.
  • a detection method a word spotting method or the like is used.
  • the audio data detected by the audio detector 101A is sent to the waveform compressor 102B.
  • start end cancel signal a signal at the start end cancellation (start end cancel signal) is transmitted from the voice detection unit 101A to the start end cancellation signal transmission unit 106.
  • Start end cancel signal The transmitting unit 106 transmits the transmitted signal at the time of starting end cancellation (starting end cancellation signal) from the first signal output terminal 100c to the server side device 200E.
  • the terminal-side device 100 E has a speech synthesis unit 107 that creates a synthesized sound.
  • the synthesized speech created by the speech synthesis unit 107 is sent to the synthesized speech information creation unit 108.
  • the synthesized sound information creation unit 108 creates synthesized sound information, sends the created synthesized sound information to the waveform compression unit 102B, and converts the synthesized sound sent from the speech synthesis unit 107 into synthesized sound. Output Output from terminal 100d.
  • the synthesized sound information the contents of the synthesized sound, time stamp information at the time of outputting the synthesized sound, and the like are used.
  • the waveform compression unit 102B compresses the waveform data sent from the audio detection unit 101A, and synthesizes the synthesized sound information created by the synthesized sound information creation unit 108 and the compression method index creation unit 10
  • the index of the compression method created in step 9 is included in a part of the waveform data.
  • synthesized sound information and the compression method index in part of the waveform data: (1) a method of including the synthesized sound information and compression method index in the header of the waveform data, and (2) synthesis into compressed waveform data. A method of adding an index of sound information and a compression method is used.
  • the compressed waveform data is sent from the waveform compression unit 102B to the waveform storage unit 105.
  • the waveform storage unit 105 transmits the compressed waveform data sent from the waveform compression unit 102B to the waveform transmission unit 103, and stores the same data.
  • the compressed waveform data transmitted from the waveform compression unit 102B via the waveform storage unit 105 is transmitted from the compressed waveform output terminal 100b to the server-side device 200E. I do.
  • a waveform data retransmission request signal transmitted from the server-side device 200 E is input to the waveform-signal-compression-method receiver 104 A.
  • the received waveform data retransmission request signal is sent from the waveform .signal / compression method receiving section 104A to the waveform storage section 105.
  • the waveform storage unit 105 sends the stored compressed waveform data to the waveform transmission unit 103.
  • the waveform transmission unit 103 transmits the compressed waveform data sent from the waveform storage unit 105 to the server-side device 200 E from the compressed waveform output terminal 100 b.
  • the server-side device 200E has the input terminal 200a and the recognition result.
  • the server-side device 200E includes a waveform / signal / task information receiving unit 201D, a waveform expanding unit 202B, a waveform data retransmission request signal transmitting unit 206, and an analyzing unit 203A.
  • Recognition unit 204 C Standard pattern storage unit 205 A, Synthetic sound information acquisition unit 207, Compression index acquisition unit 208, Recognition engine selection unit 209, Recognition An engine setting unit 210, a compression method acquisition unit 211A, a compression method 'task information correspondence table storage unit 212A, and a task information storage unit 212 are provided.
  • Waveforms, signals' Task information is input to the task information receiver 201 from the content side.
  • the waveform / signal 'task information receiving section 201D sends the task information to the task information storage section 211.
  • the task information storage unit 21 3 stores the task information sent from the waveform / signal / task information receiving unit 201D, and sends the same information to the compression method acquisition unit 211A.
  • the task information storage unit 21 3 stores the task information received by the waveform / signal 'task information reception unit 201D.
  • a waveform compression method request signal was received by the waveform / signal / task information receiving unit 201D.
  • the waveform / signal 'task information receiving section 201D sends the received waveform compression scheme request signal to the compression scheme acquisition section 211A.
  • the compression method acquisition unit 211A when the waveform compression method request signal received from the waveform / signal / task information receiving unit 201D is sent, the compression method / task information correspondence table storage unit 2 1 2
  • the available compression method is obtained from the correspondence table between the task information stored in A and the compression method that can be used for the task, and the task information sent from the task information storage unit 2 13.
  • the acquired compression method information is transmitted from the compression method information output terminal 200 d to the terminal device 100 E.
  • the compression method / task information correspondence table storage unit 212A stores task information and one or more compression methods that can be used when the task is used.
  • the compression method acquisition unit 211A receives the task information and the compression method sent from the task information storage unit 213 when the waveform, signal, and task information reception unit 201D receives the compression method request signal.
  • Task information correspondence table storage unit 2 1 2 Acquires available compression method information from the correspondence table between task information and compression method sent from A, and stores the acquired compression method information in terminal device 100. Send to E.
  • the waveform ⁇ signal ⁇ task information receiving section 201D expands the received waveform data to the waveform expanding section. Send to 202B. If the waveform 'signal' task information receiving unit 201D fails to receive the waveform data, the waveform 'signal' task information receiving unit 201D sends the waveform data retransmission request signal transmitting unit 206 Sends a waveform data retransmission request signal.
  • the waveform data retransmission request signal transmission unit 206 receives the waveform data retransmission request signal sent from the waveform / signal / task information reception unit 201D from the signal output terminal 200c to the terminal device 100e. Send to
  • the waveform expander 202B separates the data sent from the waveform / signal 'task information receiver 201D into waveform data and other data, and expands the waveform data.
  • the other information is sent to the synthesized sound information acquisition unit 207 and the compression method index acquisition unit 208, and the expanded waveform data is sent to the analysis unit 203A.
  • the synthesized sound information acquisition section 2007 acquires synthesized sound information from the information sent from the waveform expansion section 202B.
  • the acquired synthesized sound information is sent from the synthesized sound information acquisition unit 207 to the recognition unit 204C.
  • the compression system index acquisition unit 208 acquires a compression system index from the information sent from the waveform expansion unit 202B.
  • the obtained index is sent from the compression method index obtaining unit 208 to the recognition engine selecting unit 209.
  • the recognition engine selection unit 209 selects a recognition engine to be used for recognition based on the index acquired by the compression system index acquisition unit 208. Information on the engine selected by the recognition engine selection unit 209 is sent to the recognition engine setting unit 210 and the standard pattern storage unit 205A.
  • the recognition engine setting unit 210 sends the analysis method of the engine to be used based on the engine information sent from the recognition engine selection unit 209 to the analysis unit 203A, and recognizes the recognition method. 4 Send to C In the standard pattern storage unit 205A, a standard pattern to be used is set based on the engine information sent from the recognition engine selecting unit 209.
  • the analysis unit 203A converts the waveform data expanded by the waveform expansion unit 202B into a feature vector. Cepstrum, ⁇ Cepstrum and the like are used as characteristic vectors.
  • the feature vector analyzed by the analysis unit 203A is sent to the recognition unit 204C.
  • the recognition unit 204C calculates the likelihood between the feature vector sent from the analysis unit 203A and the standard pattern sent from the standard pattern storage unit 205A, and performs recognition. Find the result. The likelihood is calculated using the Viterbi algorithm, DP matching, or the like.
  • the recognition result obtained by the recognition unit 204 C and the synthesized sound information obtained by the synthesized sound information obtaining unit 207 are both the recognition result.
  • the synthesized sound information output terminal 200 b and the terminal device 100 E Sent to. Alternatively, by associating the two, the recognition result for which synthesized sound is associated with the recognition result, and the recognition result after the association is transmitted from the recognition unit 204C to the terminal device 100E. .
  • a signal at the time of the start cancellation (start cancellation signal) transmitted from the start cancel signal transmission unit 106 is input to the waveform / signal task information reception unit 201D.
  • the received signal at the start end cancellation (start end cancel signal) is sent from the waveform / signal 'task information reception unit 201D to the recognition unit 204C.
  • the recognition unit 204C when the signal at the start cancellation (start cancellation signal) received from the waveform / signal'task information reception unit 201D is sent, the recognition is interrupted halfway.
  • the combination of the analysis unit 203A, the recognition unit 204C, and the standard pattern storage unit 205A performs recognition processing using the waveform data expanded by the waveform expansion unit 202B.
  • This recognition means In addition to outputting the recognition result, it functions as recognition means for stopping the recognition process in response to the start-end cancel signal received by the waveform / signal / task information receiving unit 201D.
  • This recognition means associates the synthesized sound with the recognition result based on the synthesized sound information obtained by the synthesized sound information obtaining unit 207 when the recognition is completed, and determines the associated recognition result or recognition result. And the synthesized sound information is output.
  • task information is added in addition to the compression method information that can be commonly used by the server-side device 200 E and the terminal-side device 100 OE when selecting a compression method.
  • the response time be short, so that the data transfer time is short and the compression method is the task information and the compression method. Described in the correspondence table.
  • a compression method with a large amount of data information is used. By describing in a table, it is possible to select a compression method suitable for the task.
  • the voice recognition method includes a step of receiving task information transmitted from the content side in the server-side device 200 E and storing the received task information in the task information storage unit 2 13.
  • a step of acquiring available compression method information from the task information and the compression method correspondence table 211A and transmitting the information to the terminal device 100E is performed. Have. .
  • FIG. 7A shows a configuration of the terminal device 100E
  • FIG. 7B shows a configuration of the server device 200F.
  • the server-client type speech recognition device includes the following framework in addition to the configuration of the fifth embodiment.
  • the framework is In the terminal device 100 F, when the compression method information that can be used in the server device 200 F is transmitted from the server device 200 F to the terminal device 200 F, the compression method information that can be used in the server device 200 E can be used. Compression method information, task information input from the content side, and terminal-side device; The most suitable compression method is selected from the correspondence table between the task information previously stored in 0 0 F and the compression methods available for the task.
  • the terminal device 100 F has an input terminal 100 a, a compressed waveform output terminal 100 b, a first signal output terminal 100 c, and a synthesized sound output terminal 100. 0d and a second signal output terminal 100e.
  • the terminal device 100 F has a waveform / signal / compression method / task information receiving unit 104 B, voice detecting unit 101 A, waveform compressing unit 102 B, and waveform transmitting unit 103 , Waveform storage unit 105, start-end canceller signal transmission unit 106, speech synthesis unit 107, synthesized sound information creation unit 108, compression method index creation unit 109, compression It includes a method selection unit 110A, a compression method / task information correspondence table storage unit 111A, a compression method request signal transmission unit 112, and a task information storage unit 113.
  • the task information receiving section 104 B retransmits audio data or a compression method request signal, or waveform data transmitted from the server device 200 F.
  • the request signal, the compression method information transmitted from the server-side device 200F, or the task information transmitted from the content side is input. That is, the waveform / signal / compression method / task information receiving unit 104B is input instead of the waveform / signal 'compression method receiving unit (104A in FIG. 5) of the fifth embodiment.
  • Waveform data, the task information transmitted from the content side, the waveform data retransmission request signal transmitted from the server side device 200F, and the server side device 200 transmitted from the server side device 200F. 0F and available compression method information are received.
  • Waveform ⁇ Signal ⁇ Compression method 'Task information is input to the task information receiver 104B.
  • the received task information is sent from the waveform / signal / compression method / task information receiving unit 104B to the task information storage unit 113.
  • the task information storage unit 113 sends the task information sent from the waveform, signal, compression method, and task information reception unit 104B to the compression method selection unit 11OA and stores it.
  • the task information storage unit 113 includes waveforms, signals, compression methods, and the data received by the task information reception unit 104B. Disk information is stored.
  • Waveform ⁇ Signal ⁇ Compression method Suppose that a compression method request signal is input to the task information receiver 104B.
  • the received compression scheme request signal is sent from the waveform / signal / compression scheme / task information receiver 104B to the compression scheme request signal transmitter 112.
  • the compression system request signal transmitting unit 112 receives the waveform, signal, and compression system.
  • the task information receiving unit 104 receives the received compression system request signal from the second signal output terminal 100 e from the second signal output terminal 100 e. Sent to server side device 200F.
  • Waveform ⁇ Signal ⁇ Compression method ⁇ Task information receiving section 104 B is assumed to have input compression method information that can be used by server-side device 200 F sent from server-side device 200 F.
  • the received compression method information is sent from the waveform / signal / compression method / task information receiving unit 104B to the compression method selection unit 110OA.
  • the terminal device 100 F stores a correspondence table between task information and a compression method usable in the task.
  • Compression method The compression method stored in the task information correspondence table storage unit 11A includes information on the waveform compression method (full rate, half rate, etc.) and bandwidth (4kHz, 8kHz, etc.).
  • Task information correspondence table storage unit 1 1 1A stores task information and a correspondence table of one or more compression methods that can be used when the task is used.
  • the compression method described in the correspondence table between the task information and the compression methods usable in the task includes information such as band information (8 kHz, 4 kHz, etc.) and compression method (full rate, half rate, etc.). .
  • the compression method selection unit 110A the task information sent from the task information storage unit 113 and the waveform device, the signal, the compression method, and the server device 20 sent from the task information reception unit 104B Large amount of data with task information added based on the compression method information that can be used in 0F and the compression method and task information correspondence table storage unit 1 1 1A Select a compression method.
  • the compression method selection unit 11 OA stores the waveform 'signal' compression method.
  • the task information receiving unit 104 B receives the compression method information that can be used by the server device 200 F, it stores the task information.
  • the compression method selection unit 110 The method name selected by the OA is sent to the compression method index creation unit 109.
  • the compression method index creation unit 109 creates an index of the method name selected by the compression method selection unit 110A.
  • the index created by the compression method index creating unit 109 is sent to the waveform compressing unit 102B.
  • Waveform ⁇ Signal ⁇ Compression method ⁇ Suppose that audio data is input to the task information receiver 104B.
  • the received audio data is sent from the waveform / signal / compression method / task information receiving unit 104B to the audio detecting unit 101A.
  • the audio detector 101A detects the audio of the waveform data sent from the waveform, signal, compression method, and task information receiver 104B. As a detection method, a word spotting method or the like is used.
  • the audio data detected by the audio detection unit 101A is sent to the waveform compression unit 102B.
  • the signal at the start end cancellation (start end cancellation signal) is sent from the sound detection unit 101A to the start end cancellation signal transmission unit 106. Sent out.
  • the start-end cancellation signal transmission unit 106 sends the start-end cancellation signal (start-end cancellation signal) sent from the audio detection unit 101A from the first signal output terminal 100c to the server-side device 20OF. Send.
  • the terminal device 10 OF has a speech synthesis unit 107 that creates a synthesized sound.
  • the synthesized speech created by the speech synthesis unit 107 is sent to the synthesized speech information creation unit 108.
  • the synthesized sound information creation unit 108 creates synthesized sound information, sends the created synthesized sound information to the waveform compression unit 102B, and outputs the synthesized sound sent from the speech synthesis unit 107. Output from terminal 100 d.
  • the synthesized sound information the contents of the synthesized sound, time stamp information at the time of outputting the synthesized sound, and the like are used.
  • the waveform compression unit 102B compresses the waveform data sent from the audio detection unit 101A, and synthesizes the synthesized sound information created by the synthesized sound information creation unit 108 and the compression method index creation unit 10 A part of the waveform data with the compression index created in 9 Include in.
  • a method of including the synthesized sound information and the compression method index in the header of the waveform data A method of adding information and an index of a compression method is used.
  • a compression method a VSELP method, a PSI-CELP method, or the like is used.
  • the waveform data compressed by the waveform compression unit 102 B is sent to the waveform storage unit 105.
  • the waveform storage unit 105 sends the compressed waveform data sent from the waveform compression unit 102B to the waveform transmission unit 103, and stores the same data.
  • the waveform transmission unit 103 transmits the compressed waveform data sent from the waveform compression unit 102 B through the waveform storage unit 105 to the compressed waveform output terminal 100 b from the server side device 200 F. Send to
  • a waveform data retransmission request signal transmitted from the server-side device 20 ° F is input to the waveform information, signal compression method, and task information receiver 104B.
  • the received waveform data retransmission request signal is sent from the waveform / signal / compression method / task information receiving unit 104B to the waveform storage unit 105.
  • waveform storage section 103 sends the stored compressed waveform data to waveform transmission section 103.
  • the waveform transmitting section 104 transmits the compressed waveform data sent from the waveform storage section 105 to the server side apparatus 200F from the compressed waveform output terminal 100b.
  • the server-side device 200F has an input terminal 200a, a recognition result, a synthesized sound information output terminal 200b, a signal output terminal 200c, and a compression method information output terminal. With child 200 d.
  • the server-side device 200F recognizes the waveform / signal receiving unit 201C, the waveform expanding unit 202B, the waveform data retransmission request signal transmitting unit 206, and the analyzing unit 203A.
  • Section 204 C standard pattern storage section 205 A, synthesized sound information acquisition section 207, compression method indettas acquisition section 208, recognition engine selection section 209, recognition engine It comprises a setting unit 210, a compression method acquisition unit 211, and a compression method storage unit 212.
  • the compressed waveform data transmitted from the waveform transmitting section 103 of the terminal-side apparatus 1 ⁇ 0F, or the start waveform transmitted from the starting end cancel signal transmitting section 106 The signal at the end cancellation (start end cancellation signal) or the waveform compression method request signal transmitted from the compression method request signal transmission unit 112 is received by the waveform / signal reception unit 201C.
  • the waveform / signal receiving section 201C When receiving the waveform compression scheme request signal, the waveform / signal receiving section 201C sends the received waveform compression scheme request signal to the compression scheme acquisition section 211.
  • the compression method acquisition section 211 when a waveform compression method request signal is sent from the waveform / signal reception section 201C, the server side is selected from the compression methods stored in the compression method storage section 212.
  • the compression method that can be used by the device 200 F is obtained, and the obtained compression method information is transmitted from the compression method information output terminal 200 d to the terminal device 100 F.
  • the received waveform data is transmitted from the waveform / signal receiving unit 201C to the waveform expanding unit 202B.
  • Waveform ⁇ Suppose that signal reception unit 201 C failed to receive waveform data.
  • the waveform / signal receiving unit 201C transmits a waveform data retransmission request signal to the waveform data retransmission request signal transmitting unit 206.
  • the waveform data retransmission request signal transmitting section 206 transmits the waveform data retransmission request signal transmitted from the waveform / signal receiving section 201C from the signal output terminal 200c to the terminal device 100F.
  • the waveform expander 202B separates the data sent from the waveform / signal receiver 201C into waveform data and other data, and expands the waveform data. Other information is sent to the synthesized sound information acquisition unit 207 and the compression method index acquisition unit 208, and the expanded waveform data is sent to the analysis unit 203A.
  • the synthesized sound information acquisition unit 2007 acquires the synthesized sound information from the information sent from the waveform expansion unit 202B.
  • the synthesized sound information acquired by the synthesized sound information acquisition unit 207 is sent to the recognition unit 204C.
  • the compression method index acquisition unit 208 acquires the compression method index from the information sent from the waveform expansion unit 202B.
  • the index obtained by the compression method index obtaining unit 208 is sent to the recognition engine selecting unit 209.
  • the recognition engine selection unit 209 selects a recognition engine to be used for recognition based on the index acquired by the compression system index acquisition unit 208.
  • Recognition engine selector 2 0 9 The information of the engine selected in is sent to the recognition engine setting unit 210 and the standard pattern storage unit 205A.
  • the recognition engine setting unit 210 sends the analysis method of the engine to be used based on the engine information sent from the recognition engine selection unit 209 to the analysis unit 203A, and recognizes the recognition method. 4 Send to C In the standard pattern storage unit 205A, a standard pattern to be used is set based on the engine information sent from the recognition engine selecting unit 209.
  • the analysis unit 203A converts the waveform data expanded by the waveform expansion unit 202B into a special vector. Cepstrum, ⁇ Cepstrum, etc. are used as feature vectors.
  • the feature vector analyzed by the analysis unit 203A is sent to the recognition unit 204C.
  • the recognition unit 204 C calculates the likelihood between the feature vector sent from the analysis unit 203 A and the standard pattern sent from the standard pattern storage unit 205 A, and performs recognition. Find the result.
  • the Viterbi algorithm, DP matching, etc. are used as the likelihood calculation method.
  • the obtained recognition result and the synthesized sound information obtained by the synthesized sound information obtaining section 207 are both transmitted from the recognition result / synthesized sound information output terminal 200b to the terminal device 100F. Or, by associating the two, the recognition result for which synthesized sound is associated with the recognition result, and the recognition result after being associated is the recognition result. Sent to.
  • Waveform ⁇ Assume that the signal at the start cancellation (start cancellation signal) transmitted from the start cancellation signal transmission unit 106 is input to the signal reception unit 201C. In this case, the received signal at the start end cancellation (start end cancel signal) is sent from the waveform signal reception unit 201C to the recognition unit 204C. In the recognition unit 204C, when the signal at the start cancellation (start cancellation signal) received from the waveform / signal reception unit 201C is sent, the recognition is interrupted halfway.
  • the combination of the analysis unit 203A, the recognition unit 204C, and the standard pattern storage unit 205A is recognized using the waveform data expanded by the waveform expansion unit 202B. It performs processing and acts as a recognition means to output the result of recognition.
  • the recognition unit associates the synthesized sound with the recognition result from the synthesized sound information acquired by the synthesized sound information acquisition unit 207, and the associated recognition result, or The recognition result and synthesized sound information are output.
  • the compression method can be commonly used by the server-side device 200 F and the terminal-side device 100 F. By adding task information in addition to the compression method information, the compression method can be used in common by the server-side device 200 F and the terminal-side device 100 F. It is possible to select a compression method suitable for the task.
  • the speech recognition method corresponding to the seventh embodiment is characterized in that, in the terminal device 100 F, the task information transmitted from the content side and the server device 200 transmitted from the server device 20 OF. Receiving compression method information usable in 0 F; and receiving the compression method information usable in 0 OF, the task information and the compression method / task correspondence table storage unit 1. And a step of selecting an optimum compression method based on the correspondence information between the task information and the compression method sent from 11A and the compression method information available in the server-side device 200F.
  • the voice processing specifications such as voice compression / decompression, etc. are confirmed by adapting to the size and difficulty of the task to be recognized, confirming the voice processing specifications and capabilities between the client and the server. Can be set optimally.
  • recognition processing is performed by the server, recognition processing of a large-scale task can be performed, and an effect is provided that an update of a recognition engine or the like can be promptly dealt with.
  • a mobile phone terminal is preferable as the terminal-side device, but the terminal-side device is not limited to the mobile phone terminal. Includes any information terminal capable of voice input that can be connected to the side device.

Description

明 細 書 サーバ · クライアント型音声認識装置及び方法
技術分野
本発明は、 音声認識技術に関する。 本発明は、 特に、 携帯電話等の端末 (クラ イアント) 側で音声検出を行い、 サーバ側で音声分析、 認識を行うサーバ 'クラ イアント型の音声認識装置と方法に関する。
背景技術
従来から種々のサーバ ·クライアント型音声認識装置が知られており、 それら は大別して次に述べる 3種類に分類される。
第 1の型の従来のサーバ ·クライアント型音声認識装置は、 端末側 (クライア ント側) 装置で音声検出を行い、 検出後の波形データをサーバ側装置へ送信し、 サーバ側装置にて分析、 認識処理を行うものである。 そのような第 1の型のサー パ .クライアント型音声認識装置の一例として、 Dialogic CSP (Continuous Speech Processing)を用いた音声認識装置が知られている。
また、 第 2の型の従来のサーバ ·クライアント型音声認識装置は、 端末側装置 で音声検出を行い、 検出後の波形データを圧縮し、 圧縮した波形データをサーバ 側装置へ送信し、 サーバ側装置にて送信された波形データを伸張し、 再度認識用 の音声検出を行い、 検出後の波形データを分析、 認識処理を行うものである。 こ こで、 端末側装置で音声検出を行い、 検出後の波形データを圧縮し、 圧縮した波 形データをサーバ側装置へ送信する方式としては、 VoIP (Voiceover Internet Protocol)力 S知られており、 文献 1 (Nikkei Internet Technology, pp. 75~ 93, May 1998) に詳しく述べられている。
また、 第 3の型の従来のサーバ 'クライアント型音声認識装置は、 近年、 3 G P P (Third Generation Partnership Project) のワークグループの 1つで ある ETSI (the European Telecommunications Standards Institute) -STQ Aurora DSR (Distributed Speech Recognition) Working Groupが進めている標準化 プロジェク トにおいて提案されている。 すなわち、 第 3の型のサーバ 'クライア ント型音声認識装置は、 端末側装置で音声検出、 分析を行い、 分析後のパラメ一 タ (特徴ベク トル) をサーバ側装置に送信し、 サーバ側装置で音声認識を行うも のである。
しかしながら、 第 1乃至第 3の型の従来のサーバ ·クライアント型音声認識装 置には、 次に述べるような問題点がある。
第 1の型の従来のサーバ ·クライアント型音声認識装置は、 端末側装置で検出 された波形データを圧縮することなく、 そのままサーバ側装置へ送信しているた め、 送信時の時間、 コストを多く必要とするという、 問題点を有している。 第 2の型の従来のサーバ ·クライアント型音声認識装置は、 端末側装置で伸張 し音声検出を行ったデータに対し、 サーバ側装置で認識用の音声検出を再度行つ ているため、 重複した音声検出処理が無駄な処理となっている、 という問題点を 有している。 更に、 第 2の型の従来のサーバ ·クライアント型音声認識装置は、 音声認識用の音声検出をサーバ側で行っていることから、 サーバ側装置で短い音 声について音声の始端検出がキャンセルされた場合に、 端末側装置で音声検出キ ヤンセル情報を受信するのが遅れ、 それによつてアプリケーションの動作に遅延 が生じるという、 という問題点を有している。
第 3の型の従来のサーバ ·クライアント型音声認識装置は、認識時に用いる(分 析後の) パラメータが決められているため独自仕様のパラメータを用いることが できない、 という問題点を有している。 また、 第 3の型の従来のサーバ ·クライ アント型音声認識装置は、 分析部が端末側装置に設定されているため、 新規の分 析手法を端末に搭载するためのコスト、 時間を多く必要とする、 という問題点を 有している。
尚、 本発明に関連する先行技術文献として次に述べるものが知られている。 日本国特許公開第 2 0 0 0— 2 6 8 0 4 7号公報には、 操作者の発話した発話 音声情報、 位置情報、 時間情報、 気象情報、 生体情報等に基づいて、 サーバシス テムが現在の操作者の気分や状況を判断し、 その気分や状況に適した提供用情報 をクライアントに送信するようにした 「情報提供システム、 クライアント、 情報 提供サーバ及び情報提供方法」 が開示されている。 この公報に開示された情報提 供システムは、 クライアントとサーバシステムとを有する。 クライアントは、 操 作者に関する情報である操作者情報をネッ トワークを介してサ バシステムに 送信する通信部と、 サーバシステムからネットワークを介して提供用情報を受信 し、 この受信した提供用情報を出力する出力部とを備える。 サーバシステムは、 提供用情報と操作者情報を分析するための分析情報とを記憶する分析情報記憶 部と、 クライアントから送信されてきた操作者情報と分析情報とに基づいてクラ イアントに送信するのに適した提供用情報を提供情報記憶部から選択する選択 サーバと、 この選択サーバにより選択された提供用情報をクライアントにネット ワークを介して送信する情報提供サーバとを備える。
日本国特許公開第 2 0 0 0 - 2 6 8 0 4 7号公報によれば、 サーバシステムは 音声認識サーバをも備えている。 音声認識サーバはクライアントから送信された 音声情報を受信して、 音響分析部、 音響モデル及び言語モデル等に基づいて受信 した音声情報の音声認識を行う。 音響分析部とは、 入力音声情報に対して音響的 な特徴量系列の抽出を行う処理部をいう。 また、 音響モデルとは、 この音響分析 部で抽出された個々の特徴量との音響的な類似性の評価を行うための評価式を 用いて、 音声の部分的或いは全体的な特徴量系列のパターンとの類似性の評価を 行うための情報をいう。 さらに、 言語モデルとは、 音響モデルの接続に関する制 約を与えるための情報をいう。
また、 日本国特許公開第 2 0 0 0 - 1 9 4 7 0 0号公報には、 音声認識および 機械翻訳の内容を、 容易に変更することができるようにした 「情報処理装置およ ぴ方法、 並びに提供媒体」 が開示されている。 この公報によれば、 端末は、 例え ば、 電話機能を有する装置で、 ネットワークに接続されており、 ユーザは、 端末 を介して、 通話 (会話) することができる。 ユーザは、 その通話の内容を、 3つ の通訳サービス提供装置のうちいずれかを介し T行い、 そこで会話の内容を通訳 させる。 通訳サービス提供装置は、 音声認識機能、 機械翻訳機能、 および音声合 成機能に加え、 履歴情報記憶機能を有するサーバである。 通訳サービス提供装置 は、 履歴情報記憶機能により、 いままでの会話の内容を記憶し、 それに基づいて、 通訳処理を実行し、 必要に応じて会話履歴情報を、 他の通訳サービス提供装置に 供給する。 発明の開示
したがって、 本発明が解決しょうとする主たる課題は、 送信時間の短縮、 コス トの低減を図る音声認識装置及び方法を提供することにある。
上記課題を解決するための手段を提供するために、 本発明の第 1のァスぺク ト によるサーバ ·クライアント型音声認識装置は、 入力されたデータの音声区間を 検出する音声検出部と ; この音声検出部で検出された音声区間の波形データを圧 縮する波形圧縮部と ; この波形圧縮部で圧縮された波形データを送信する波形送 信部と ;を有して構成される端末側 (クライアント側) 装置と、 端末側装置から 送信された波形データを受信する波形受信部と ; この波形受信部で受信された波 形データを伸張する波形伸張部と ; この波形伸張部で伸張された波形データを用 いて認識処理を行い、 認識した結果を出力する認識部と ;を有して構成されるサ ーバ側装置とを備えている。
本発明の第 2のァスぺク トによるサーバ ·クライアント型音声認識装置おいて、 端末側装置は、 入力された波形データとサーバ側装置から送信された波形データ 再送要求信号を受信する波形 ·信号受信部と、 波形圧縮部で圧縮された波形デー タを一時記憶しながらその波形データを波形送信部へ送信すると共に、 波形 ·信 号受信部においてサーバ側装置からの波形データ再送要求信号が受信された場 合に、 記憶された波形データを波形送信部へ送信する波形記憶部とを有する構成 としてもよレ、。
本発明の第 3のァスぺクトによるサーバ ·クライアント型音声認識装置おいて、 サーバ側装置は、 端末側装置から送信された波形データと始端キャンセル信号を 受信する波形 ·信号受信部を備え、 認識部では、 波形 ·信号受信部で始端キャン セル信号を受信した場合に認識処理を中止する構成としてもよい。
本発明の第 4のァスぺクトによるサーバ ·クライアント型音声認識装置は、 入 力されたデータの音声区間を検出する音声検出部と ;合成音を合成する音声合成 部と ;音声合成部で合成された合成音の情報を作成し、 合成音を出力する合成音 情報作成部と ;音声検出部で検出された音声区間の波形データを圧縮し、 合成音 情報作成部で作成された合成音情報を前記波形データの一部に組み込む波形圧 縮部と ; この波形圧縮部で圧縮された波形データを送信する波形送信部と ;を有 して構成される端末側 (クライアント側) 装置と、 端末側装置から送信された波 形データを受信する波形受信部と ;この波形受信部で受信された波形データを伸 張する波形伸張部と ; この波形伸張部で伸張されたデータから合成音情報を取得 する合成音情報取得部と ;波形伸張部で伸張された波形データを用いて認識処理 を行い、 認識した結果を出力すると共に、 認識が終了した場合に合成音情報取得 部で取得された合成音情報より合成音と認識結果との対応付けを行い、 対応付け された認識結果、 又は認識結果と合成音情報を出力する認識部と ;を有して構成 されるサーバ側装置とを備えている。
本発明の第 5のァスぺク トによるサーバ ·クライアント型音声認識装置は、 入 力された波形データとサーバ側装置から送信された波形データ再送要求信号と サーバ側装置から送信されたサーバ装置側で利用可能な圧縮方式情報を受信す る波形 ·信号 ·圧縮方式受信部と ; この波形 ·信号 ·圧縮方式受信都においてサ ーバ側装置で利用可能な圧縮方式情報を受信した場合に、 この波形 ·信号 ·圧縮 方式受信部から送られた圧縮方式情報より最適な圧縮方式を選択する圧縮方式 選択部と ; この圧縮方式選択部で選択された圧縮方式のィンデックスを作成する 圧縮方式ィンデックス作成部と ;波形 ·信号 ·圧縮方式受信部で入力された波形 データの音声区間を検出する音声検出部と ;合成音を合成する音声合成部と ;音 声合成部で合成された合成音の情報を作成し、 合成音を出力する合成音情報作成 部と ;音声検出部で検出された音声区間の波形データを圧縮し、 合成音情報作成 部で作成された合成音情報と、 圧縮方式ィンデックス作成部で作成された圧縮方 式ィンデックスを波形データの一部に組み込む波形圧縮部と ;を有する端末側装 置と、 端末側装置から送信された波形データと圧縮方式要求信号を受信する波 形 ·信号受信部と ;サーバ側装置で利用可能な圧縮方式を記憶する圧縮方式記憶 部と ;波形 ·信号受信部から圧縮方式要求信号が送られた場合に圧縮方式記憶部 に記憶されている圧縮方式を取得し、 端末側装置に圧縮方式情報を送信する圧縮 方式取得部と ; この波形 ·信号受信部で受信された波形データを伸張する波形伸 張部と ; この波形伸張部で伸張されたデータから合成音情報を取得する合成音情 報取得部と ;波形伸張部で伸張された波形データを用いて認識処理を行い、 認識 した結果を出力すると共に、 認識が終了した場合に合成音情報取得部で取得され た合成音情報より合成音と認識結果との対応付けを行い、 対応付けされた認識結 果、 又は認識結果と合成音情報を出力する認識部と ;波形伸張部で伸張されたデ ータから圧縮方式のインデックスを取得する圧縮方式インデックス取得部と ; こ の圧縮方式ィンデックス取得部で取得された圧縮方式のィンデックスから認識 エンジンを選択する認識エンジン選択部と ;この認識エンジン選択部で選択され たエンジンを記憶されているエンジンの中から設定する認識エンジン設定部 と ; を有するサーバ側の装置とを備えている。
本発明の第 6のァスぺクトによるサーバ 'クライアント型音声認識装置におい て、 サーバ側装置は、 端末側装置から送信された波形データと始端キャンセル信 号と圧縮方式要求信号とコンテンッ側から送信されたタスク情報とを受信する 波形 ·信号,タスク情報受信部と ; この波形,信号 · タスク情報受信部で受信さ れたタスク情報を記憶するタスク情報記憶部と ;タスク情報とそのタスク使用時 に利用可能な 1個以上の圧縮方式を記憶する圧縮方式 · タスク情報対応テーブル 記憶部と ;波形 ·信号 · タスク情報受信部において圧縮方式要求信号を受信した 場合に、 タスク情報記憶部から送られたタスク情報と圧縮方式 · タスク情報対応 テ一ブル記憶部から送られたタスク情報と圧縮方式との対応テーブルより利用 可能な圧縮方式情報を取得し端末側装置に送信する圧縮方式取得部と ;を更に備 えている。
本発明の第 7のァスぺク トによるサーバ ·クライアント型音声認識装置おいて、 端末側装置は、 入力された波形データとコンテンッ側から送信されたタスク情報 とサーバ側装置から送信された波形データ再送要求信号とサーバ側装置から送 信されたサーバ側装置で利用可能な圧縮方式情報とを受信する波形 ·信号 ·圧縮 方式 · タスク情報受信部と ; この波形 ·信号 ·圧縮方式 ' タスク情報受信部で受 信されたタスク情報を記憶するタスク情報記憶部と ; タスク情報とそのタスク使 用時に利用可能な 1個以上の圧縮方式の対応テーブルを記憶する圧縮方式 · タス ク情報対応テーブル記憶部と ;波形 ·信号 ·圧縮方式 · タスク情報受信部におい てサーバ側装置で利用可能な圧縮方式情報を受信した場合に、 タスク情報記憶部 から送られたタスク情報と、 圧縮方式 ·タスク対応テーブル記憶部から送られた タスク情報と圧縮方式との対応テープルと、 波形 ·信号 ·圧縮方式 ·タスク情報 受信部から送られたサーバ側装置で利用可能な圧縮方式情報をもとに最適な圧 縮方式を選択する圧縮方式選択部と ;を更に備えている。 図面の簡単な説明
図 1 Aは本発明の第 1の実施例における端末側装置を示すブロック図であり、 図 1 Bは本発明の第 1の実施例におけるサーバ側装置を示すプロック図であ り、
図 2 Aは本発明の第 2の実施例における端末側装置を示すブロック図であり、 図 2 Bは本発明の第 2の実施例におけるサーバ側装置を示すプロック図であ り、
図 3 Aは本発明の第 3の実施例における端末側装置を示すプロック図であり、 図 3 Bは本発明の第 3の実施例におけるサーバ側装置を示すブロック図であ り、
図 4 Aは本発明の第 4の実施例における端末側装置を示すブロック図であり、 図 4 Bは本発明の第 4の実施例におけるサーバ側装置を示すブロック図であ り、
図 5 Aは本発明の第 5の実施例における端末側装置を示すブロック図であり、 図 5 Bは本発明の第 5の実例例におけるサーバ側装置を示すブロック図であ り、
図 6 Aは本発明の第 6の実施例における端末側装置を示すブロック図であり、 図 6 Bは本発明の第 6の実施例におけるサーバ側装置を示すブロック図であ り、
図 7 Aは本発明の第 7の実施例における端末側装置を示すプロック図であり、 図 7 Bは本発明の第 7の実施例におけるサーバ側装置を示すブロック図であ る。 発明を実施するための最良の形態
発明の実施の形態について説明する。 前述した従来の技術の問題点を解決する 本発明は、 サーバ側装置と端末側装置とからなるサーバ ·クライアント型音声認 識装置より構成される。 サーバ ·クライアント型音声認識装置は、 端末側装置で 認識用の音声検出を行い、 検出後の波形データを圧縮し、 圧縮後の波形データを サーバ側装置に送信し、 サーバ側装置で音声伸張、 分析、 認識を行うものである。
[第 1の実施の形態]
図 1 Aおよぴ図 1 Bを参照して、 本発明の第 1の実施の形態に係るサーバ ·ク ライアント型音声認識装置について説明する。 図 1 Aには端末側装置 1 0 0の構 成が示され、 図 1 Bにはサーバ側装置 2 0 0の構成が示されている。 尚、 端末側 装置 1 0 0は単に端末とも呼ばれ、 サーバ側装置 2 0 0はサーバ装置とも呼ばれ る。
図 1 Aを参照すると、 端末側装置 1 0 0は入力端子 1 0 0 aと出力端子 1 0 0 bとを持つ。 端末側装置 1 0 0は、 音声検出部 1 0 1と、 波形音声部 1 0 2と、 波形送信部 1 0 3とを備えている。
入力端子 1 0 0 aから端末側装置 1 0 0に入力された音声データは、 音声検出 部 1 0 1に送られ、 ここで音声の検出が行われる。 すなわち、 音声検出部 1 0 1 は入力された音声データの音声区間を検出する。 音声の検出方法としては、 ヮー ドスポッティング手法等が用いられる。 ヮードスポッティング手法については、 文献 2 (中川、 "確率モデルによる音声認識、" 電子情報通信学会, 1 9 8 8年) の記載が参照される。
音声検出部 1 0 1で検出された音声データは、 波形圧縮部 1 0 2に送られる。 波形圧縮部 1 0 2では、 音声検出部 1 1から送られた波形データを圧縮する。 す なわち、 波形圧縮部 1 0 2は、 音声検出部 1 0 1で検出された音声区間の波形デ ータを圧縮する。 圧縮方式と しては、 VSELP (Vector Sura Excited Linear Prediction)方式、 PSI-CELP (Pitch Synchronous Innovation CELP)方式等が用い られる。
音声圧縮部 1 0 2で圧縮された波形データは波形送信部 1 0 3に送られる。 波 形送信部 1 0 3では、 波形圧縮部 1 0 2から送られた圧縮波形データを出力端子 1 0 0 bからサーバ側装置 2 0 0へ送信する。 すなわち、 波形送信部 1 0 3は、 波形圧縮部 1 0 2で圧縮された波形データを出力端子 1 0 0 bからサーバ側装 置 2 0 0へ送信する。
図 1 Bを参照すると、 サーバ側装置 2 0 0は入力端子 2 ◦ 0 aと出力端子 2 0 0 bとを持つ。 サーバ側装置 2 0 0は、 波形受信部 2 0 1 と、 波形伸張部 2 0 2 と、 分析部 2 0 3と、 認識部 2 0 4と、 標準パターン記憶部 2 0 5とを備えてい る。
端末側装置 1 0 0の波形送信部 1 0 3から送信されてきた圧縮された波形デ ータは、 サーバ側装置 2 0 0において入力端子 2 0 0 aを介して波形受信部 2 0 1で受信される。 すなわち、 波形受信部 2 0 1は、 端末側装置 1 0 0から送信さ れてきた圧縮された波形データを受信する。 波形受信部 2 0 1は、 受信された波 形データを波形伸張部 2 0 2に送出する。
波形伸張部 2 0 2では、 波形受信部 2 0 1から送られた圧縮波形データを伸張 する。 すなわち、 波形伸張部 2 0 2は、 波形受信部 2 0 1で受信された波形デー タを伸張する。 この波形伸張部 2 0 2で伸張された波形データは分析部 2 0 3に 送られる。
分析部 2 0 3では、 波形伸張部 2 0 2で伸長された波形データを特徴べクトル に変換する。 換言すれば、 分析部 2 0 3は波形伸張部 2 0 2で伸張された波形デ ータを用いて音声の分析を行う。 特徴べク トルとしてはケブストラム、 Δケプス トラム等が用いられる。 Δケプストラムは、 文献 3 (古井、 "ディジタル音声処 理、" 東海大学出版会、 4 4一 4 7頁、 1 9 8 5年) 等の記載が参照される。 分 析部 2 0 3で分析された特徴べク トルは認識部 2 0 4に送られる。
認識部 2 0 4では、 分析部 2 0 3から送られた特徴べク トノレと、 標準パターン 記憶部 2 0 5から送られた標準パターンとの間の尤度を計算し、 認識結果を求め る。 すなわち、 認識部 2 0 4は、 分析部 2 0 3での分析結果 (特徴量) と標準パ ターン記憶部 2 0 5に記憶されている標準パターンとに基づき認識処理を行う。 尤度の計算方法は、 Viterbi アルゴリズム、 D Pマッチング等が用いられる。 認 識部 2 0 4で求められた認識結果は出力端子 2 0 0 aから出力される。 Viterbi アルゴリズムについては、 文献 2 (中川、 "確率モデルによる音声認識、" 電子情 報通信学会、 1 9 8 8年) の記載が参照される。 D Pマッチングについては、 文 献 4 (迫江、 "傾斜制限 D Pマッチングによる音声認識、 " 音声講論、 6 7— 6 8 頁、 i 9 7 4年) の記載が参照される。
とにかく、 分析部 2 0 3と認識部 2 0 4と標準パターン記憶部 2 0 5との組み 合わせは、 波形伸張部 2 0 2で伸張された波形データを用いて認識処理を行い、 認識した結果を出力する認識手段として働く。
この第 1の実施の形態では、 端末側装置 1 0 0から音声検出後の圧縮された波 形データをサーバ側装置 2 0 0に送信し、 サーバ側装置 2 0 0で音声分析、 認識 を行うため、 分析後のパラメータ (特徴ベクトル) の仕様を自由に設定すること が可能である。
また、 分析部 2 0 3、 認識部 2 0 4をサーバ側装置 2 0 0に備えているため、 新規の分析手法、 認識手法を搭載するためのコストと時間が少なくて済むという 利点を持つ。
'また、 送信する波形データは圧縮後のデータであるため、 送信時に必要とする 時間、 コストが少なくて済むという利点も併せ持つ。
上記第 1の実施の形態に対応した音声認識方法は、 端末側装置 1 0 0において、 入力された音声データの音声区間を検出するステップと、 検出された音声区間の 波形データを圧縮するステップと、 圧縮された波形データをサーバ側装置 2 0 0 に送信するステップと、 を有し、 サーバ側装置 2 0 0において、 端末側装置 1 0 0から送信された波形データを受信するステツプと、 受信された波形データを伸 張するステップと、 伸張された波形データを用いて認識処理を行い、 認識した結 果を出力するステップと、 を有する。
[第 2の実施の形態]
図 2 Aおよび図 2 Bを参照して、 本発明の第 2の実施の形態に係るサーバ ·ク ライアント型音声認識装置について説明する。 図 2 Aには端末側装置 1 0 0 Aの 構成が示され、 図 2 Bにはサーバ側装置 2 0 O Aの構成が示されている。
本発明の第 2の実施の形態に係るサーバ ·クライアント型音声認識装置は、 上 述した第 1の実施の形態の構成に加え、 次に述べるような枠組み、 機構を備えた ものである。 その枠組み、 機構とは、 サーバ側装置 2 0 O Aにおいて圧縮波形デ ータの受信に失敗した場合に、 サーバ側装置 2 0 O Aから端末側装置 1 0 O Aへ 波形データ再送要求信号を送信することで、 端末側装置 1 0 O Aからサーバ側装 置 2 0 O Aへ圧縮波形データが再送されることある。 かかる構成によって、 電波 状態が良くない環境においても端末側装置 1 0 O Aからサーバ側装置 2 0 O A へ波形データを送信できる割合が高くなる。
図 2 Aを参照すると、 端末側装置 1 0 O Aは入力端子 1 O O aと出力端子 1 0 0 bとを持つ。 端末側装置 1 0 0 Aは、 波形 ·信号受信部 1 0 4と、 音声検出部 1 0 1 と、 波形圧縮部 1 0 2と、 波形送信部 1 0 3と、 波形記憶部 1 0 5とを備 えている。
端末側装置 1 0 0 Aの波形 ·信号受信部 1 0 4には、 入力端子 1◦ 0 aから音 声データ又はサーバ側装置 2 0 O Aから送信された波形データ再送要求信号が 入力される。 すなわち、 波形 ·信号受信部 1 0 4は、 入力された音声の波形デー タと、 サーバ側装置 2 0 O Aから送信された波形データ再送要求信号とを受信す る。
入力端子 1 0 0 aから音声データが入力されたとしょう。 この場合、 この受信 された音声データは、 波形 ·信号受信部 1 0 4から音声検出部 1 0 1に送られる。 音声検出部 1 0 1では、 波形 ·信号受信部 1 0 4から送られた波形データの音声 検出を行う。 すなわち、 音声検出部 1 0 1は、 波形 ·信号受信部 1 0 4で受信さ れた波形データの音声区間を検出する。 検出方法としてはワードスポッティング 手法等が用いられる。 音声検出部 1 0 1で検出された音声データは波形圧縮部 1 0 2に送られる。
波形圧縮部 1 0 2では、 音声検出部 1 0 1から送られた波形データを圧縮する。 すなわち、 波形圧縮部 1 0 2は、 音声検出部 1 0 1で検出された音声区間の波形 データを圧縮する。 圧縮方式としては、 VSELP方式、 PSI- CELP方式等が用いられ る。 波形圧縮部 1 0 2で圧縮された波形データは波形記憶部 1 0 5に送られる。 波形記憶部 1 0 5では、 波形圧縮部 1 0 2から送られた圧縮された波形データ を波形送信部 1 0 3に送出し、 同一データを記憶する。 波形送信部 1 0 3では、 波形記憶部 1 0 5から送られた圧縮された波形データを出力端子 1 0 0 bから サーバ側装置 2 0 O Aへ送信する。 すなわち、 波形送信部 i 0 3は波形データを 送信する。
波形 ·信号受信部 1 0 4に、 サーバ側装置 2 0 0 Aから送信された波形データ 再送要求信号が入力端子 1 0 0 aを介して入力されたとしょう。 この場合、 波 形 ·信号受信部 1 0 4で受信された波形データ再送要求信号は、 波形記憶部 1 0 5に送られる。 この波形データ再送要求信号に応答して、 波形記憶部 1 0 5では 記憶されている圧縮波形データを波形送信部 1 0 3に送出する。 波形送信部 1 0 3では、 波形記憶部 1 0 5から送られた圧縮波形データを出力端子 1 0 0 bから サーバ側装置 2 0 O Aへ送信する。
すなわち、 波形記憶部 1 0 5は、 波形圧縮部 1 0 2で圧縮された波形データを 記憶された波形データとして一時記憶しながら記憶された波形データを波形送 信部 1 0 3へ送出すると共に、 波形 '信号受信部 1 0 4においてサーバ側装置 2 0 O Aからの波形データ再送要求信号が受信された場合に、 その受信された波形 データ再送要求信号に応答して記憶された波形データを波形送信部 1 0 3へ送 出する。
図 2 Bを参照すると、 サーバ側装置 2 0 0 Aは、 入力端子 2 0 0 aと認識結果 出力端子 2 O O bと信号出力端子 2 0 0 cとを持つ。 サーバ側装置 2 0 O Aは、 波形受信部 2 0 1 Aと、 波形伸張部 2 0 2と、 波形データ再送要求信号送信部 2 0 6と、 分析部 2 0 3と、 認識部 2 0 4と、 標準パターン記憶部 2 0 5とを備え ている。
サーバ側装置 2 0 0 Aは、 端末側装置 1 0 0 Aの波形送信部 1 0 3から送信さ れた圧縮波形データを入力端子 2 0 0 aを介して波形受信部 2 0 1 Aで受信す る。 すなわち、 波形受信部 2 0 1 Aは端末側装置 1 0 O Aから送信された圧縮波 形データを受信する。 波形受信部 2 0 1 Aでは、 受信された波形データを波形伸 張部 2 0 2に送出する。
波形受信部 2 0 1において圧縮波形データの受信に失敗したとしょう。 この場 合、 波形受信部 2 0 1 Aはその旨 (波形データの再送要求信号) を波形データ再 送要求信号送信部 2 0 6に送る。 波形データ再送要求信号送信部 2 0 6では、 波 形受信部 2 0 1 Aから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 O Aへ送信する。 すなわち、 波形データ再送要求信号送信 部 2 0 6は、 波形受信部 2 0 1 Aで圧縮波形データの受信に失敗した場合には、 波形データの再送要求信号を波形受信部 2 0 1 Aから受け取り、 波形データ再送 要求信号を端末側装置 1 0 O Aに送信する。
波形伸張部 2 0 2では、 波形受信部 2 0 1 Aから送られた圧縮波形データを伸 張する。 すなわち、 波形伸張部 2 0 2は、 波形受信部 2 0 1 Aで受信された波形 データを伸張する。 この波形伸張部 2 0 2で伸張された波形データは分析部 2 0 3に送られる。
分析部 2 0 3では、 波形伸張部 2 0 2で伸張された波形データを特徴べク トル に変換する。 換言すれば、 分析部 2 0 3は、 波形伸張部 2 0 2で伸張された波形 データを用いて音声の分析を行う。 特徴ベク トルとしてはケプストラム、 Δケプ ストラム等が用いられる。 分析部 2 0 3で分析された特徴べクトルは認識部 2 0 4に送られる。
認識部 2 0 4では、 分析部 2 0 3から送られた特徴べク トノレと、 標準パターン 記憶部 2 0 5から送られた標準パターンとの間の尤度を計算し、 認識結果を求め る。 すなわち、 認識部 2 0 4は、 分析部 2 0 3での分析結果に基づき、 音声の認 識処理を行う。 尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用 いられる。 認識部 2 0 4で求められた認識結果は認識結果出力端子 2 0 0 bから 出力される。 ,
とにかく、 分析部 2 0 3と認識部 2 0 4と標準バターン記憶部 2 0 5との組み 合わせは、 波形伸張部 2 0 2で伸張された波形データを用いて認識処理を行い、 認識した結果を出力する認識手段として働く。
上記第 2の実施の形態に対応した音声認識方法は、 サーバ側装置 2 0 0 Aにお いて、 端末側装置 1 0 O Aから送信される圧縮波形データの受信に失敗した場合 には、 波形データ再送要求信号を端末側装置 1 0 O Aに送信するステップを有し、 端末側装置 1 0 O Aにおいて、 サーバ側装置 2 0 O Aから送信される波形データ 再送要求信号を受信した場合に、 波形記憶部 1 0 5に記憶された波形データを、 サーバ側装置 2 0 O Aに送信するステップを有する。
[第 3の実施の形態〕
図 3 Aおよび図 3 Bを参照して、 本発明の第 3の実施の形態に係るサーバ ·ク ライアント型音声認識装置について説明する。 図 3 Aには端末側装置 1 0 0 Bの 構成が示されており、 図 3 Bにはサーバ側装置 2 0 0 Bの構成が示されている。 本発明の第 3の実施の形態に係るサーバ ·クライアント型音声認識装置は、 第 2の実施の形態の構成に加え、 次に述べるような 2つの枠組みを備えている。 第 1の枠組みは、 端末側装置 1 0 0 Bで音声区間を検出しサーバ側装置 2 0 0 Bへ 圧縮した波形データを送信した後音声の始端がキヤンセルされた場合に、 サーバ 側装置 2 0 0 Bへ始端キャンセル信号を送信する枠組みである。 第 2の枠組みは、 サーバ側装置 2 0 0 Bで始端キャンセル信号を受信した場合に認識処理を停止 することができる枠組みである。 かかる構成によって、 始端キャンセル時に即座 に認識処理を停止することができるため、 無駄なメモリ量、 計算量を省くことが 可能となる。
図 3 Aを参照すると、 端末側装置 1 0 0 Bは、 入力端子 1 0 0 aと圧縮波形出 力端子 1 0 0 bと信号出力端子 1 0 0 cとを持つ。 端末側装置 1 0 0 Bは、 波 形 ·信号受信部 1 0 4と、 音声検出部 1 0 1 Aと、 波形圧縮部 1 0 2と、 波形送 信部 1 0 3と、 波形記憶部 1 0 5と、 始端キャンセル信号送信部 1 0 6とを備え ている。
端末側装置 1 0 0 Bの波形 ·信号受信部 1 0 4には、 入力端子 1 0 0 aを介し て、 音声データ又はサーバ側装置 2 0 0 Bから送信された波形データ再送要求信 号が入力される。 すなわち、 波形 ·信号受信部 1 0 4は、 入力された音声の波形 データと、 サーバ側装置 2 0 0 Bから送信された波形データ再送要求信号とを受 信する。 音声データが入力端子 1 0 0 aから波形 ·信号受信部 1 0 4に入力され た場合、 波形 ·信号受信部 1 0 4はその受信された音声データを音声検出部 1 0 1 Aに送る。
音声検出部 1 0 1 Aでは、 波形 ·信号受信部 1 0 4から送られた受信された波 形データの音声検出を行う。 すなわち、 音声検出部 1 0 1 Aは、 波形 '信号受信 部 1 0 4で受信された音声の波形データの音声区間を検出する。 検出方法として はワードスポッティング手法等が用いられる。 音声検出部 1 0 1 Aで検出された 音声データは波形圧縮部 1 0 2に送られる。
音声の検出後に検出がキャンセルされたとしょう。 この場合、 音声検出部 1 0 1 Aは、 始端キャンセル時の信号 (始端キャンセル信号) を始端キャンセル信号 送信部 1 0 6に送出する。 始端キャンセル信号送信部 1 0 6では、 この送られた 始端キャンセル時の信号を受けると、 始端キャンセル信号を信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Bへ送信する。 すなわち、 音声検出部 1 0 1 Aで音声 の検出後に該検出がキャンセルされた場合、 始端キャンセル信号送信部 1 0 6は、 音声検出部 1 0 1 Aから送られた始端キャンセル時の信号を受け取り、 始端キヤ ンセル信号をサーバ側装置 2 0 0 Bへ送信する。
波形圧縮部 1 0 2では、 音声検出部 1 0 1 Aから送られた波形データを圧縮す る。 すなわち、 波形圧縮部 1 0 2は、 音声検出部 1 0 1 Aで検出された音声区間 の波形データを圧縮する。 圧縮方式としては、 VSELP方式、 PSI- CELP方式等が用 いられる。 波形圧縮部 1 0 2で圧縮された波形データは波形記憶部 1 0 5に送ら れる。
波形記憶部 1 0 5では、 波形圧縮部 1 0 2から送られた圧縮波形データを波形 送信部 1 0 3に送出し、 同一データを記憶する。 波形送信部 1 0 3では、 波形記 憶部 1 0 5を介して波形圧縮部 1 0 2から送られた圧縮波形データを圧縮波形 出力端子 1 0 0 bからサーバ側装置 2 0 0 Bへ送信する。
波形 ·信号受信部 1 0 4に入力端子 1 0 0 aを介してサーバ側装置 2 0 0 Bか ら送信された波形データ再送要求信号が入力されたとしょう。 この場合、 この受 信された波形データ再送要求信号は波形 ·信号受信部 1 0 4から波形記憶部 1 0 5に送られる。 この波形データ再送要求信号に応答して、 波形記憶部 1 0 5では 記憶されている圧縮波形データを波形送信部 1 0 3に送出する。 波形送信部 1 0 3では波形記憶部 1 0 5から送られた圧縮波形データをサーバ側装置 2 0 0 B へ送信する。
すなわち、 波形記憶部 1 0 5は、 波形圧縮部 1 0 2で圧縮された波形データを 記憶された波形データとして一時記憶しながらその記憶された波形データを波 形送信部 1 0 3へ送出すると共に、 波形 ·信号受信部 1 0 4において、 サーバ側 装置 2 0 0 Bからの波形データ再送要求信号が受信された場合に、 その受信され た波形データ再送要求信号に応答して、 記憶された波形データを波形送信部 1 0 3へ送出する。
図 3 Bを参照すると、 サーバ側装置 2 0 0 Bは、 入力端子 2 0 0 aと認識結果 出力端子 2 0 0 bと信号出力端子 2 0 0 cとを持つ。 サーバ側装置 2 0 0 Bは、 波形 ·信号受信部 2 0 1 Bと、 波形伸張部 2 0 2と、 波形データ再送要求信号送 信部 2 0 6と、 分析部 2 0 3と、 認識部 2 0 4 Aと、 標準パターン記憶部 2 0 5 とを備えている。
サーバ側装置 2 0 0 Bでは、 端末側装置 1 0 0 Bの波形送信部 1 0 3から送信 された圧縮波形データ、 又は、 始端キャンセル信号送信部 1 0 6から送信された 始端キャンセル時の信号 (始端キャンセル信号) を入力端子 2 0 0 aを介して波 形 ·信号受信部 2 0 1 Bで受信する。 すなわち、 波形 ·信号受信部 2 0 1 Bは、 端末側装置 1 0 0 Bから送信された波形データと始端キャンセル信号を受信す る。
波形 ·信号受信部 2 0 1 Bでは、 受信した圧縮波形データを波形伸張部 2 0 2 に送出する。 圧縮波形データの受信に失敗した場合、 波形 ·信号受信部 2 0 1 B は、 波形データ再送要求信号送信部 2 0 6にその旨 (波形データ再送要求信号) を送出する。 波形データ再送要求信号送信部 2 0 6では、 波形 ·信号受信部 2 0 1 Bから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側 装置 1 0 0 Bへ送信する。 すなわち、 波形データ再送要求信号送信部 2 0 6は、 波形 ·信号受信部 2 0 1 Bで圧縮波形データの受信に失敗した場合には、 波形デ ータの再送要求信号を波形 ·信号受信部 2 0 1 Bから受け取り、 波形データ再送 要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Bへ送信する。
波形伸張部 2 0 2では、 波形 ·信号受信部 2 0 1 Bから送られた圧縮波形デー タを伸張する。 すなわち、 波形伸張部 2 0 2は、 波形 ·信号受信部 2 0 1 Bで受 信された音声の波形データを伸張する。 波形伸張部 2 0 2で伸張された波形デー タは分析部 2 0 3に送られる。
分析部 2 0 3では、 波形伸張部 2 0 2で伸張された波形データを特徴べクトル に変換する。 すなわち、 分析部 2 0 3は、 波形伸張部 2 0 2で伸張された波形デ ータを用いて音声の分析を行う。 特徴ベク トルとしてはケプストラム、 Δケプス トラム等が用いられる。 分析部 2 0 3で分析された特徴べク トルは認識部 2 0 4 Aに送られる。
認識部 2 0 4 Aでは、 分析部 2 0 3から送られた特徴べク トノレと、 標準パター ン記憶部 2 0 5から送られた標準パターンとの間の尤度を計算し、 認識結果を求 める。 すなわち、 認識部 2 0 4 Aは、 分析部 2 0 3での分析結果に基づき認識処 理を行う。 尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いら れる。 この認識部 2 0 4 Aで求められた認識結果は認識結果出力端子 2 0 0 b力 ら出力される。
波形 ·信号受信部 2 0 1 Bに始端キャンセル信号送信部 1 0 6から送信された 始端キャンセル時の信号が入力端子 2 0 0 aを介して入力されたとしょう。 この 場合、 この受信された始端キャンセル時信号は波形 ·信号受信部 2 0 1 Bから認 識部 2 0 4 Aに送られる。 認識部 2 0 4 Aでは、 波形 '信号受信部 2 0 1 Bから 始端キャンセル時の信号 (始端キャンセル信号) が送られてきた場合、 認識を途 中で中断する。 換言すれば、 認識部 2 0 4 Aは、 波形 ·信号受信部 2 0 1 Bにお いて始端キャンセル信号を受信した場合に、 認識処理を中止する。
とにかく、 分析部 2 0 3と認識部 2 0 4 Aと標準パタ一ン記憶部 2 0 5との組 み合わせは、 波形伸張部 2 0 2で伸張された波形データを用いて、 認識した結果 を出力すると共に、 波形 ·信号受信部 2 0 1 Bで受信された始端キャンセル信号 に応答して認識処理を中止する認識手段として働く。
上記第 3の実施の形態に対応した音声認識方法は、 端末側装置 1 0 0 Bにおい て、 音声の検出後に該検出がキャンセルされた場合、 始端キャンセル信号をサー バ側装置 2 0 0 Bに送信するステップを有し、 サーバ側装置 2 0 0 Bにおいて、 端末側装置 1 0 0 Bからの始端キャンセル信号を受信した場合に、 認識処理を中 止するステップを有する。
[第 4の実施の形態]
図 4 Aおよび図 4 Bを参照して、 本発明の第 4の実施の形態に係るサーバ .ク ライアント型音声認識装置について説明する。 図 4 Aには端末側装置 1 0 0 Cの 構成が示され、 図 4 Bにはサーバ側装置 2 0 0 Cの構成が示されている。
本発明の第 4の実施の形態に係るサーバ ·クライアント型音声認識装置は、 第 3の実施の形態の構成に加えて、 次に述べるような 2つの枠組みを備えている。 第 1の枠組みは、 端末側装置 1 O O Cにおいて、 合成音を作成、 出力し、 合成音 情報を波形データの一部として組み込み、 作成したデータをサーバ側装置 2 0 0 Cへ送信する枠組みである。 第 2の枠組みは、 サーバ側装置 2 0 0。において、 端末側装置 1 0 0 Cから送信されたデータを波形データとその他の情報に分離 し、 その他の情報から合成音情報を取得し、 波形データから得られた認識結果と 合成音との対応付けを行う枠組みである。
図 4 Aを参照すると、 端末側装置 1 0 0 Cは、 入力端子 1 0 0 aと圧縮波形出 力端子 1 0 0 bと信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dとを持つ。 端 末側装置 1 0 0 Cは、 波形 ·信号受信部 1 0 4と、 音声検出部 1 0 1 Aと、 波形 圧縮部 1 0 2 Aと、 波形送信部 1 0 3と、 波形記憶部 1 0 5と、 始端キャンセル 信号送信部 1 0 6と、 音声合成部 1 0 7と、 合成音情報作成部 1 0 8と、 を備え ている。
端末側装置 1 0 Cの波形 ·信号受信部 1 0 4には、 入力端子 1 0 0 aを介して、 音声データ、 又はサーバ側装置 2 0 0 Cから送信された波形データ再送要求信号 が入力される。 音声データが入力端子 1 0 0 aを介して波形 ·信号受信部 1 4に 入力された場合、 波形 ·信号受信部 1 0 4は、 その受信された音声データを音声 検出部 1 0 1 Aに送る。 音声検出部 1 0 1 Aでは、 波形 ·信号受信部 1 0 4から 送られた受信された波形データの音声検出を行う。 検出方法としてはワードスポ ッティング手法等が用いられる。 音声検出部 1 0 1 Aで検出された音声データは 波形圧縮部 1 0 2 Aに送られる。
音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとしょ う。 この場合、 音声検出部 1 0 1 Aは始端キャンセル時の信号 (始端キャンセル 信号) を始端キャンセル信号送信部 1 0 6に送出する。 始端キャンセル信号送信 部 1 0 6では、 この送られた始端キャンセル時の信号 (始端キャンセル信号) を 信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Cへ送信する。
本第 4の実施の形態では、 端末側装置 1 0 0 Cは合成音を合成する音声合成部 1 0 7を持つ。 音声合成部 1 0 7で合成された合成音は、 合成音情報作成部 1 0 8に送られる。 合成音情報作成部 1 0 8では、 合成音情報を作成し、 作成した合 成音情報を波形圧縮部 1 0 2 Aに送出し、 音声合成部 1 0 7から送られた合成音 を合成音出力端子 1 0 0 dから出力する。 すなわち、 合成音情報作成部 1 0 8は、 音声合成部 1 0 7で合成された合成音の情報を作成し、 合成音を出力する。
合成音情報については、 合成音の内容や合成音出力時のタイムスタンプ情報等 が用いられる。
波形圧縮部 1 0 2 Aでは、 音声検出部 1 0 1 Aから送られた波形データを圧縮 し、 合成音情報作成部 1 0 8で取得された合成音情報を圧縮された波形データの 一部に含める。 すなわち、 波形圧縮部 1 0 2 Aは、 音声検出部 1 0 1 Aで検出さ れた音声区間の波形データを圧縮し、 合成音情報作成部 1 0 8で作成された合成 音情報を圧縮された波形データの一部に組み込む。
波形データの一部に合成音情報を含める手法としては、 合成音情報を波形デー タのへッダに含めて圧縮する方法や、 圧縮した波形データに合成音情報を付加す る方法等が用いられる。
波形圧縮部 1 0 2 Aにおける圧縮方式としては、 VSELP方式、 PSI- CELP方式等 が用いられる。 圧縮された波形データは波形記憶部 1 0 5に送られる。 波形記憶 部 1 0 5では、 波形圧縮部 1 0 2 Aから送られた圧縮波形データを波形送信部 1 0 3に送出し、 同一データを記憶する。 波形送信部 1 0 3では、 波形圧縮部 1 0 2 Aから波形記憶部 1 0 5を介して送られた圧縮波形データを圧縮波形出力端 子 1 0 0 bからサーバ側装置 2 0 0 Cへ送信する。
波形 ·信号受信部 1 0 4に入力端子 1 0 0 aを介してサーバ側装置 2 0 0 Cか ら送信された波形データ再送要求信号が入力されたとしょう。 この場合、 波形 ' 信号受信部 1 0 4はこの受信された波形データ再送要求信号を波形記憶部 1 0 5に送る。 この波形データ再送要求信号に応答して、 波形記憶部 1 0 5では記憶 されている圧縮波形データを波形送信部 1 0 3に送出する。 波形送信部 1 0 3で は波形記憶部 1 0 5から送られた圧縮波形データを圧縮波形出力端子 1◦◦ b からサーバ側装置 2 0 0 Cへ送信する。
図 4 Bを参照すると、 サーバ側装置 2 0 0 Cは、 入力端子 2 0 0 aと認識結 果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cとを持つ。 サーバ側装 置 2 0 0 Cは、 波形 .信号受信部 2 0 1 Bと、 波形伸張部 2 0 2 Aと、 波形デー タ再送要求信号送信部 2 0 6と、 分析部 2 0 3と、 認識部 2 0 4 Bと、 標準パタ ーン記憶部 2 0 5と、 合成音情報取得部 2 0 7とを備えている。
サーバ側装置 2 0 0 Cでは、 端末側装置 1 0 0 Cの波形送信部 1 .0 3から送信 された圧縮波形データ、 又は、 始端キャンセル信号送信部 1 0 6から送信された 始端キャンセル時の信号 (始端キャンセル信号) を入力端子 2 0 0 aを介して波 形 ·信号受信部 2 0 1 Bで受信する。 波形 ·信号受信部 2 0 1 Bでは、 受信した 圧縮波形データを波形伸張部 2 0 2 Aに送信する。 波形 ·信号受信部 1 0 4にお いて圧縮波形データの受信に失敗した場合、 波形 ·信号受信部 2 0 1 Bは波形デ ータ再送要求信号送信部 2 0 6に波形データ再送要求信号を送出する。 波形デー タ再送要求信号送信部 2 0 6では、 波形 ·信号受信部 2 0 1 Bから送られた波形 データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Cへ送信す る。
波形伸張部 2 0 2 Aでは、 波形 ·信号受信部 2 0 1 Bから送られたデータを波 形データ合成音情報とその他の情報とに分離し、 圧縮波形データを伸張する。 伸 張された波形データは分析部 2 0 3に送られる。 その他の情報は合成音情報部 2 0 7に送られる。
合成音情報取得部 2 0 7では、 波形伸長部 2 0 2 Aから送られた情報から合成 音情報を取得する。 すなわち、 合成音情報取得部 2 0 7は、 波形伸張部 2 0 2 A で伸張されたデータから合成音情報を取得する。
分析部 2 0 3では、 波形伸張部 2 0 2 Aで伸張された波形データを特徴べク ト ルに変換する。 特徴べク トルとしてはケプストラム、 Δケプストラム等が用いら れる。 分析部 2 0 3で分析された特徴べクトルは認識部 2 0 4 Bに送られる。 認 識部 2 0 4 Bでは、 分析部 2 0 3から送られた特徴べク トノレと、 標準パターン記 憶部 2◦ 5から送られた標準パターンとの間の尤度を計算し、 認識結果を求める。 尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられる。
求められた認識結果と合成音情報取得部 2 0 7で取得された合成音情報は共 に認識部 2 0 4 Bから認識結果 .合成音情報出力端子 2 0 0 bを介して端末側装 置 1 0 0 Cへ送信される。 又は、 求められた認識結果と合成音情報取得部 2 0 7 で取得された合成音情報の両者が関連付けらることで、 どの合成音に対する認識 結果であるかが対応付けされ、 対応付けされた後の認識結果が認識部 2 0 4 B力 ら認識結果 ·合成音情報出力端子 2 0 0 bを介して端末側装置 1 0 0 Cに送信さ れる。 すなわち、 認識部 2 0 4 Bは、 認識が終了した場合に合成音情報取得部 2 0 8で取得された合成音情報より合成音と認識結果との対応付けを行い、 対応付 けされた認識結果、 又は認識結果と合成音情報を出力する。
波形 ·信号受信部 2 0 1 Bに始端キャンセル信号送信部 1 0 6から送信された 始端キャンセル時の信号 (始端キャンセル信号) が入力端子 2 0 0 aを介して入 力されたとしょう。 この場合、 この受信された始端キャンセル時の信号 (始端キ ャンセル信号) は波形 .信号受信部 2 0 1 Bから認識部 2 0 4 Bに送られる。 認 識部 2 0 4 Bでは、 波形 ·信号受信部 2 0 1 Bから始端キャンセル時の信号 (始 端キャンセル信号) が送られてきた場合、 認識を途中で中断する。
とにかく、 分析部 2 0 3と認識部 2 0 4 Bと標準パターン記憶部 2 0 5との組 み合わせは、 波形伸張部 2 0 2 Aで伸張された波形データを用いて認識処理を行 レ、、 認識した結果を出力すると共に、 波形 '信号受信部 2 0 1 Bで受信された始 端キャンセル信号に応答して認識処理を中止する認識手段として働く。 そして、 この認識手段は、 認識が終了した場合に合成音情報取得部 2 0 7で取得された合 成音情報より合成音と認識結果との対応付けを行い、 対応付けられた認識結果、 又は認識結果と合成音情報を出力する。
本発明の第 4の実施の形態において、 合成音情報については、 合成音の内容、 合成音出力時のタイムスタンプ情報、 合成音出力時の対話の状態番号等、 様々な 情報を用いることができる。
合成音情報を波形データの一部として組み込む手法については、 合成音情報を 波形データのへッダーに含めて圧縮する手法や、 圧縮済みの波形データに合成音 情報を付加する手法等を用いることができる。
合成音情報がサーバ側装置 2 0 0 Cに送られない場合、 端末側装置 1 0◦ Cか らサーバ側装置 2 0 0 Cへ波形データ送信に失敗した場合に、 次に送信に成功し た波形データがどの合成音に対して発声された音声であるか判断がつかない、 と いう問題点がある。
この問題は、 この第 4の実施の形態によって解決され、 合成音情報と波形デー タが 1対 1対応となることにより、 常に認識結果と合成音の対応付けをとること が可能となり、 状態遷移に誤りのない対話システムの構築が可能となる。
上記第 4の実施の形態に対応した音声認識方法は、 端末側装置 1 0 0 Cにおい て、 合成音を合成するステップと、 合成された合成音の情報を作成し、 合成音を 出力するステップと、 検出された音声区間の波形データを圧縮し、 合成音情報作 成部 1 0 8で作成された合成音情報を波形データの一部に組み込んで、 サーバ側 装置 2 0 0 Cに送信するステップと、 を含み、 サーバ側装置 2 0 0 Cにおいて、 伸張されたデ一タから合成音情報を取得するステップを有し、 認識が終了した場 合に、 取得された合成音情報より合成音と認識結果との対応付けを行い、 対応付 けされた認識結果、 又は認識結果と合成音情報を出力する。
[第 5の実施の形態]
図 5 Aおよび図 5 Bを参照して、 本発明の第 5の実施の形態に係るサーバ ·ク ライアント型音声認識装置について説明する。 図 5 Aには端末側装置 1 0 O Dの 構成が示されており、 図 5 Bにはサーバ側装置 2 0 0 Dの構成が示されている。 本発明の第 5の実施の形態に係るサーバ ·クライアント型音声認識装置は、 第 4の実施の形態の構成に加えて次に述べるような 2つの枠組みを備えている。 第 1の枠組みは、 端末側装置 1 0 0 Dからサーバ側装置 2 0 0 Dへ圧縮方式を要求 する信号を送信し、 サーバ側装置 2 0 O Dで圧縮方式要求信号を受信した場合、 サーバ側装置 2 0 0 Dで利用可能な圧縮方式情報を端末側装置 1 0 0 Dへ送信 し、 端末側装置 1 0 0 Dではサーバ側装置 2 0 0 Dから送信された圧縮情報と、 端末側装置 1 0 0 Dで利用可能な圧縮方式をもとに最適な圧縮方式を選択する ものである。 第 2の枠組みは、 端末側装置 1 0 0 Dで選択された圧縮情報のィン デックスを合成音情報とともに波形データの一部に組み込み、 作成したデータを サーバ側装置 2 0 0 Dへ送信し、 サーバ側装置 2 0 0 Dではデータを波形データ とその他のデータとに分離し、 分離後のその他のデータを合成音情報と圧縮方式 のィンデックスに分離し、 圧縮方式のィンデックス情報よりその圧縮方式に最適 な認識エンジンを選択し、 選択された認識エンジンの分析手法、 認、識手法、 標準 パターンを用いて認識結果を出力するものである。
図 5 Aを参照すると、 端末側装置 1 0 0 Dは、 入力端子 1 0 0 aと圧縮波形出 力端子 1 0 0 bと第 1の信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dと第 2の信号出力端子 1 0 0 eとを持つ。 端末側装置 1 0 0 Dは、 波形 ·信号 ·圧縮 方式受信部 1 0 4 Α·と、 音声検出部 1 0 1 Aと、 波形圧縮部 1 0 2 Bと、 波形送 信部 1 0 3と、 波形記憶部 1 0 5と、 始端キャンセル信号送信部 1 0 6と、 音声 合成部 1 0 7と、 合成音情報作成部 1 0 8と、 圧縮方式ィンデックス作成部 1 0 9と、 圧縮方式選択部 1 1 0と、 圧縮方式記憶部 1 1 1と、 圧縮方式要求信号送 信部 1 1 2とを備えている。
端末側装置 1 0 0 Dの波形 ·信号 ·圧縮方式受信部 1 0 4 Aには、 入力端子 1 0 0 aを介して、 音声データ、 又は圧縮方式要求信号、 又は、 サーバ側装置 2 0 0 Dから送信された波形データ再送要求信号、 又はサーバ側装置 2 0 0 Dから送 信された.圧縮方式情報が入力される。 すなわち、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aは、 入力された波形データと、 入力された圧縮方式要求信号と、 サーバ側 装置 2 0 0 Dから送信された波形データ再送要求信号と、 サーバ側装置 2 0 0 D から送信されたサーバ側装置 2 0 0 Dで利用可能な圧縮方式情報を受信する。 波形 ·信号 ·圧縮方式受信部 1 0 4 Aに圧縮方式要求信号が入力されたとしょ う。 この場合、 この受信された圧縮方式要求信号は波形 ·信号 ·圧縮方式受信部 1 ◦ 4 Aから圧縮方式要求信号送信部 1 1 2に送られる。 圧縮方式要求信号送信 部 1 1 2では、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aから送られた圧縮方式要求 信号を第 2の信号出力端子 1 0 0 eを介してサーバ側装置 2 0 0 Dへ送信する。 波形 ·信号 ·圧縮方式受信部 1 0 4 Aに、 サーバ側装置 2 0 0 Dから送信され た圧縮方式情報が入力されたとしょう。 この場合、 この受信された圧縮方式情報 は、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aから圧縮方式選択部 1 1 0へ送られる。 本実施の形態では、 端末側装置 1 0 0 Dは、 利用可能な圧縮方式を記憶する圧 縮方式記憶部 1 1 1と、 波形を圧縮する方式を選択する圧縮方式選択部 1 1 0と を備えている。
圧縮方式記憶部 1 1 1に記憶された圧縮方式については、 波形圧縮方法 (フル レート、 ハーフレート等) や帯域 (4kHz、 8kHz等) の情報を含む。
圧縮方式選択部 1 1 0では、 圧縮方式記憶部 1 1 1に記憶されている圧縮方式 情報と、 波形 '信号 '圧縮方式受信部 1 0 4 Aから送られたサーバ側装置 2 0◦ Dで利用可能な圧縮方式情報をもとに、 データの情報量の多い圧縮方式を選択す る。 例えば、 端末側装置 1 0 0 Dでもサーバ側装置 2 0 0 Dでも、 ともに、 フル レートとハーフレートの圧縮方式を持つ場合、 データの情報量の多いフルレート が選択される。 とにかく、 圧縮方式選択部 1 1 0は、 波形 .信号 ·圧縮方式受信 部 1 0 4 Aにおいて、 サーバ側装置 2 0 0 Dで利用可能な圧縮方式情報を受信し た場合に、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aから送られた圧縮方式情報より 最適な圧縮方式を選択する。 圧縮方式選択部 1 1 0で選択された方式名は、 圧縮 方式ィンデックス作成部 1 0 9に送られる。
圧縮方式インデックス作成部 1 0 9では、 圧縮方式選択部 1 1 0で選択された 方式名のインデックスを作成する。 とにかく、 圧縮方式ィンデックス作成部 1 0 9は、 圧縮方式選択部 1 1 0で選択された圧縮方式のインデックスを作成する。 圧縮方式ィンデックス作成部 1 0 9で作成されたィンデックスは波形圧縮部 1 0 3 Bに送られる。
一方、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aに音声データが入力されたとしょ う。 この場合、 その受信された音声データは波形 ·信号 ·圧縮方式受信部 1 0 4 Aから音声検出部 1 0 1 Aに送られる。 音声検出部 1 0 1 Aでは、 波形 ·信号 · 圧縮方式受信部 1 0 4 Aから送られた波形データの音声検出を行う。 とにかく、 音声検出部 1 0 1 Aは、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aで受信された波形 データの音声区間を検出する。 検出方法としてはヮードスポッティング手法等が 用いられる。 検出された音声データは音声検出部 1 0 1 Aから波形圧縮部 1 0 2 Bに送られる。
音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとしょ う。 この場合、 始端キャンセル時の信号 (始端キャンセル信号) が音声検出部 1 0 1 Aから始端キャンセル信号送信部 1 0 6に送出される。 始端キャンセル信号 送信部 1 0 6では、 送られた始端キャンセル時の信号 (始端キャンセル信号) を 第 1の信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Dに送信する。
本第 5の実施の形態では、 第 4の実施の形態の場合と同様に、 端末側装置 1 0 0 Dは、 合成音を作成する音声合成部 1 0 7を持つ。 音声合成部 1 0 7で作成さ れた合成音は合成音情報作成部 1 0 8に送られる。
合成音情報作成部 1 0 8では、 合成音情報を作成し、 作成した合成音情報を波 形圧縮部 1 0 3 Bに送出し、 音声合成部 1 0 7から送られた合成音を出力する。 合成音情報については、 合成音の内容や合成音出力時のタイムスタンプ情報等が 用いられる。 波形圧縮部 1 0 2 Bでは、 音声検出部 1 0 1 Aから送られた波形データを圧縮 し、 合成音情報作成部 1 0 8で作成された合成音情報と、 圧縮方式インデックス 作成部 1 0 9で作成された圧縮方式のインデックスとを前記波形データの一部 に含める。 とにかく、 波形圧縮部 1 0 2 Bは、 音声検出部 1 0 1 Aで検出された 音声区間の波形データを圧縮し、 合成音情報作成部 1 0 8で作成された合成音情 報と、 圧縮方式ィンデックス作成部 1 0 9で作成された圧縮方式ィンデックスを 波形データの一部に組み込む。
波形データの一部に合成音情報、 圧縮方式のインデックスを含める手法として は、 合成音情報、 圧縮方式のインデックスを波形データのヘッダに含めて圧縮す る方法や、 圧縮した波形データに合成音情報、 圧縮方式のインデックスを付加す る方法等が用いられる。 圧縮方式としては、 VSELP方式、 PSI - CELP方式等が用い られる。 波形圧縮部 1 0 2 Bで圧縮された波形データは波形記憶部 1 0 5に送ら れる。
波形記憶部 1 0 5では、 波形圧縮部 1 0 2 Bから送られた圧縮波形データを波 形送信部 1 0 3に送出し、 同一データを記憶する。
波形送信部 1 0 3では、 波形圧縮部 1 0 2 Bから波形記憶部 1 0 5を介して送 られた圧縮波形データをサーバ側装置 2 0 0 Dへ送信する。 波形 ·信号 ·圧縮方 式受信部 1 0 4 Aにサーバ側装置 2 0 0 Dから送信された波形データ再送要求 信号が入力されたとしょう。 この場合、 この受信された波形データ再送信要求信 号は波形 ·信号 ·圧縮方式受信部 1 0 4 Aから波形記憶部 1 0 5に送られる。 こ の受信された波形データ再送信要求信号に応答して、 波形記憶部 1 0 5では記憶 されている圧縮波形データを波形送信部 1 0 3に送出する。 波形送信部 1 0 3で は波形記憶部 1 0 5から送られた圧縮波形データをサーバ側装置 2 0 0 Dへ送 信する。
とにかく、 波形記憶部 1 0 5は、 波形圧縮部 1 0 2 Bで圧縮された波形データ を記憶された波形データとして一時記憶しながらその記憶された波形データを 波形送信部 1 0 3へ送出すると共に、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aにお いてサーバ側装置 2 0 0 Dからの波形データ再送要求信号が受信された場合に、 その受信された波形データ再送要求信号に応答して、 記憶された波形データを波 形送信部 1 0 3 へ送出する。
図 5 Bを参照すると、 サーバ側装置 2 0 0 Dは、 入力端子 2 0 0 a と認識結 果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cと圧縮方式情報出力端 子 2 0 0 dとを持つ。 サーバ側装置 2 0 0 Dは、 波形 '信号受信部 2 0 1 Cと、 波形伸張部 2 0 2 Bと、 波形データ再送要求信号送信部 2 0 6と、 分析部 2 0 3 Aと、 認識部 2 0 4 Cと、 標準パターン記憶 2 0 5 Aと、 合成音情報取得部 2 0 7と、 圧縮方式ィンデックス取得部 2 0 8と、 認識エンジン選択部 2 0 9と、 認 識エンジン設定部 2 1 ◦と、 圧縮方式取得部 2 1 1と、 圧縮方式記憶部 2 1 2と、 を備えている。
サーバ側装置 2 0 0 Dでは、 端末側装置 1 0 0 Dの波形送信部 1 0 3から送信 された圧縮波形データ、 又は始端キャンセル信号送信部 1 0 6から送信された始 端キャンセル時の信号 (始端キャンセル信号)、 又は圧縮方式要求信号送信部 1 1 2から送信された波形圧縮方式要求信号を波形 ·信号受信部 2 0 1 Cで受信す る。 とにかく、 波形 ·信号受信部 2 0 1 Cは、 端末側装置 1 0 0 Dから送信され た波形データと、 波形圧縮方式要求信号を受信する。
波形 ·信号受信部 2 0 1 Cにおいて波形圧縮方式要求信号が受信されたとしょ う。 この場合、 波形 ·信号受信部 2 0 1 Cは受信された波形圧縮方式用要求信号 を圧縮方式取得部 2 1 1 へ送る。
圧縮方式取得部 2 1 1では、 波形 ·信号受信部 2 0 1 Cから受信された波形圧 縮方式要求信号が送られた場合、 圧縮方式記憶部 2 1 2に記憶されている圧縮方 式の中からサーバ側装置 2 0 0 Dで利用可能な圧縮方式を取得し、 取得した圧縮 方式情報を圧縮方式情報出力端子 2 0 0 dから端末側装置 1 0 0 Dに送信する。 とにかく、 圧縮方式記憶部 2 1 2は、 サーバ側装置 2 0 0 Dで利用可能な圧縮方 式の情報を記憶する。 圧縮方式取得部 2 1 1は、 波形 ·信号受信部 2 0 1じから 圧縮方式要求信号が送られた場合に圧縮方式記憶部 2 1 2に記憶されている圧 縮方式情報を取得し、 端末側装置 1 0 0 Dに圧縮方式情報を送信する。
波形 ·信号受信部 2 0 1 Cにおいて波形データが受信された場合、 波形 ·信号 受信部 2 0 1 Cはその受信された波形データを波形伸張部 2◦ 2 Bに送出する。 波形 ·信号受信部 2 0 1 Cにおいて波形データの受信に失敗したとしょう。 こ の場合、 波形 ·信号受信部 2 0 1 Cは、 波形データ再送要求信号送信部 2 0 6に 波形データ再送要求信号を送出する。 波形データ再送要求信号送信部 2 0 6では、 波形 ·信号受信部 2 0 1 Cから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Dへ送信する。 とにかく、 波形データ再送要求信 号送信部 2 0 6は、 波形 ·信号受信部 2 0 1 Cで圧縮波形データの受信に失敗し た場合には、 波形データの再送要求信号を波形 ·信号受信部 2 0 1 Cから受け取 り、 波形データ再送要求信号を端末側装置 1 0 0 Dへ送信する。
波形伸張部 2 0 2 Bでは、 波形 ·信号受信部 2 0 1 Cから送られたデータを波 形デ一タとその他のデータとに分離し、 波形データを伸張する。 とにかく、 波形 伸張部 2 0 2 Bは、 波形 ·信号受信部 2 0 1 Cで受信された音声の波形データを 伸張する。
その他の情報は、 波形伸張部 2 0 2 Bから合成音情報取得部 2 0 7と圧縮方式 ィンデックス取得部 2 0 8に送られ、 伸張された波形データは波形伸張部 2 0 2 Bから分析部 2 0 3 Aに送られる。 合成音情報取得部 2 0 7では、 波形伸張部 2 0 2 Bから送られた情報から合成音情報を取得する。 この取得された合成音情報 は合成音情報取得部 2 0 7から認識部 2 0 4 Cに送られる。
圧縮方式ィンデッタス取得部 2 0 8では、 波形伸張部 2 0 2 Bから送られた情 報から圧縮方式のインデックスを取得する。 とにかく、 圧縮方式インデックス取 得部 2 0 8は、 波形伸張部 2 0 2 Bで伸張されたデータから圧縮方式のインデッ クスを取得する。 この圧縮方式ィンデックス取得部 2 0 8で取得されたィンデッ クスは認識エンジン選択部 2 0 9に送られる。
認識エンジン選択部 2 0 9では、 圧縮方式ィンデックス取得部 2 0 8で取得さ れたインデックスをもとに認識に用いる認識エンジンを選択する。 とにかく、 認 識エンジン選択部 2 0 9は、 圧縮方式ィンデックス取得部 2 0 8で取得された圧 縮方式のィンデッタスから認識エンジンを選択する。 この認識エンジン選択部 2 0 9で選択されたエンジンの情報は認識エンジン設定部 2 1 0と標準パターン 記憶部 2 0 5 Aに送られる。
認識エンジン設定部 2 1 0では、 認識エンジン選択部 2 0 9から送られたェン ジン情報を基に、 使用するエンジンの分析手法を分析部 2 0 3 Aへ送り、 認識手 法を認識部 2 0 4 Cへ送る。 とにかく、 認識エンジン設定部 2 1 0は、 認識ェン ジン選択部 2 0 9で選択されたエンジンを記憶されているエンジンの中から設 定する。
標準パターン記憶部 2 0 5 Aでは、 認識エンジン選択部 2 0 9から送られたェ ンジン情報より使用する標準パターンを設定する。
分析部 2 0 3 Aでは、 波形伸張部 2 0 2 Bで伸張された波形データを特徴べク トルに変換する。 とにかく、 分析部 2 0 3 Aは、 波形伸張部 2 0 2 Bで伸張され た波形データを用いて音声の分析を行う。 特徴べクトルとしてはケプストラム、 Δケプストラム等が用いられる。 分析部 2 0 3 Aで分析された特徴べクトルは認 識部 2 0 4 Cに送られる。
認識部 2 0 4 Cでは、 分析部 2 0 3 Aから送られた特徴べクトノレと、 標準パタ ーン記憶部 2 0 5 Aから送られた標準パターンとの間の尤度を計算し、 認識結果 を求める。 とにかく、 認識部 2 0 4 Cは、 分析結果に基づき認識処理を行い、 認 識した結果.を出力する。 尤度の計算方法は Viterbiアルゴリズム、 D Pマツチン グ等が用いられる。 求められた認識結果と合成音情報取得部 2 0 7で取得された 合成音情報は共に端末側装置 1 0 0 Dに送信されるか、 又は、 両者が関連付けら れることでどの合成音に対する認識結果であるかが対応付けされ、 対応付けされ た後の認識結果が端末側装置 1 0 0 Dに認識結果 ·合成音情報出力端子 2 0 0 b から送信される。
波形 ·信号受信部 2 0 1 Cに始端キャンセル信号送信部 1 0 6から送信された 始端キャンセル時の信号 (始端キャンセル信号) が入力されたとしょう。 この場 合、 この受信された始端キャンセル時の信号 (始端キャンセル信号) は波形 -信 号受信部 2 0 1 Cから認識部 2 0 4 Cに送られる。 認識部 2 0 4 Cでは、 波形 · 信号受信部 2 0 1 Cから受信された始端キャンセル時の信号 (始端キャンセル信 号) が送られてきた場合、 認識を途中で中断する。
とにかく、 分析部 2 0 3 Aと認識部 2 0 4 Cと標準パターン記憶部 2 0 5 Aと の組み合わせは、 波形伸張部 2 0 2 Bで伸張された波形データを用いて認識処理 を行い、 認識した結果を出力する認識手段として作用する。 そして、 この認識手 段は、 認識が終了した場合に合成音情報取得部 2 0 7で取得された合成音情報よ り合成音と認識結果との対応付けを行い、 対応付けられた認識結果、 又は認識結 果と合成音情報を出力する。
サーバ側装置 2 0 0 D、 端末側装置 1 0◦ Dの圧縮方式記憶部 2 1 2、 1 1 1 に記憶された圧縮方式については、 帯域情報(8kHz、 4kHz等)や圧縮方法 (フルレ ート、 ハーフレート等) 等の情報を含む。 また、 波形データの一部として合成音 情報と圧縮方式のインデックスを含める手法については、 合成音情報、 圧縮方式 のインデックスを波形データのへッダ一に含めて圧縮する手法や、 圧縮済みの波 形データに合成音情報、 圧縮方式のィンデックスを付加する手法等を用いること ができる。 また、 端末側装置 1 0 0 Dにおいて、 サーバ側装置 2 0 0 Dで利用可 能な圧縮方式と端末側装置 1 0 0 Dで利用可能な圧縮方式より最適な圧縮方式 を選択する手段については、 情報量 (データ量) の多い圧縮方式を選択する。 例 えば、 端末側装置 1 0 0 D、 サーバ側装置 2 0 0 Dともにフルレート、 ハーフレ ートの圧縮方式が利用可能な場合、 データの情報量の多いフルレートが自動的に 選択される。
本第 5の実施の形態では、 選択された圧縮方式によってサーバ側装置 2 0 0 D で認識エンジンを選択することが可能であるため、 サーバ側装置 2 0 0 Dで圧縮 方式に適した認識エンジンを用意することで、 様々な圧縮方式の音声データに対 して髙レ、認識率を得ることが可能となる。
上記第 5の実施の形態に対応した音声認識方法は、 端末側装置 1 0 0 Dにおい て、 サーバ側装置 2 0 0 Dから送信されたサーバ側装置 2 0 0 Dで利用可能な圧 縮方式情報を受信するステップと、 受信した圧縮方式情報により最適な圧縮方式 を選択するステップと、 選択された圧縮方式のィンデックスを作成するステップ と、 音声区間の波形データを圧縮し、 作成された圧縮方式インデックスを圧縮し た波形データの一部に組み込んで、 サーバ側装置 2 0 0 Dに送信するステップと を有し、 サーバ側装置 2 0 0 Dにおいて、 端末側装置 1 0 0 Dから送信される圧 縮方式要求信号を受信した場合に、 サーバ側装置 2 0 0 Dで利用可能な圧縮方式 の情報を記憶する圧縮方式記憶部 2 1 2に記憶されている圧縮方式情報を取得 し、 端末側装置 1 0 0 Dに圧縮方式情報を送信するステップと、 伸張されたデー タから圧縮方式のィンデックスを取得するステップと、 取得された圧縮方式のィ ンデックスから認識ェンジンを選択するステップと、 選択されたェンジンを記憶 されているエンジンの中から設定するステップと、 を有する。
[第 6の実施の形態]
次に、 図 6 Aおよび図 6 Bを参照して、 本発明の第 6の実施の形態に係るサー バ ·クライアント型音声認識装置について説明する。 図 6 Aには端末装置 1 0 0 Eの構成が示され、 図 6 Bにはサーバ側装置 2 0 0 Eの構成が示されている。 本発明の第 6の実施の形態に係るサーバ ·クライアント型音声認識装置は、 第 5の実施の形態の構成に加えて次に述べるような枠組みを備えている。 その枠組 みとは、 サーバ側装置 2 0 0 Eで端末側装置 1 0 0 Eから送信された圧縮方式要 求信号を受信した場合、 コンテンッ側より入力されたタスク情報と予めサーバ側 装置 2 0 0 Eで持つタスク情報とそのタスクで使用可能な圧縮方式との対応テ 一ブルより、 サーバ側装置 2 0 0 Eで利用可能な圧縮方式を取得し端末側装置 1 0 0 Eに送信するものである。
図 6 Aを参照すると、 端末側装置 1 0 0 Eは、 入力端子 1 0 0 aと圧縮波形出 力端子 1 0 0 bと第 1の信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dと第 2の信号出力端子 1 0 0 eとを持つ。 端末側装置 1 0 0 Eは、 波形 .信号 .圧縮 方式受信部 1 0 4 Aと、 音声検出部 1 0 1 Aと、 波形圧縮部 1 0 2 Bと、 波形送 信部 1 0 3と、 波形記憶部 1 0 5と、 始端キャンセル信号送信部 1 0 6と、 音声 合成部 1 0 7と、 合成音情報作成部 1 0 8と、 圧縮方式ィンデックス作成部 1 0 9と、 圧縮方式選択部 1 1 0と、 圧縮方式記憶部 1 1 1と、 圧縮方式要求信号送 信部 1 1 2と、 を備えている。
端末側装置 1 0 0 Eの波形 .信号 ·圧縮方式受信部 1 0 4 Aには、 音声データ、 又は圧縮方式要求信号、 又はサーバ側装置 2 0 0 Eから送信された波形データ再 送要求信号、 又はサーバ側装置 2 0 0 Eから送信された圧縮方式情報が入力され る。
波形 ·信号 ·圧縮方式受信部 1 0 4 Aに圧縮方式要求信号が入力されたとしょ う。 この場合、 この受信された圧縮方式要求信号は波形 ·信号 ·圧縮方式受信部 1 0 4 Aから圧縮方式要求信号送信部 1 1 2に送られる。 圧縮方式要求信号送信 部 1 1 2では、 波形 .信号 .圧縮方式受信部 1 0 4 Aから送られた圧縮方式要求 信号を第 2の信号出力端子 1 0 0 eからサーバ側装置 2 0 0 Eへ送信する。
波形 ·信号 .圧縮方式受信部 1 0 4 Aにサーバ側装置 2 0 0 Eから送信された サーバ側装置 2 0 0 Eで利用可能な圧縮方式情報が入力されたとしょう。 この場 合、 この受信された圧縮方式情報は波形 ·信号 ·圧縮方式受信部 1 0 4 Aから圧 縮方式選択部 1 1 0 へ送られる。
本第 6の実施の形態では、 第 4の実施の形態と同様に、 端末側装置 1 0 0 Eは、 端末側装置 1 0 0 Eで利用可能な圧縮方式を記憶する圧縮方式記憶部 1 1 1と、 波形を圧縮する方式を選択する圧縮方式選択部 1 1 0とを持つ。
圧縮方式記憶部 1 1 1に記憶された圧縮方式については、 波形圧縮方法 (フル レート、 ハーフレート等) や帯域 (4kHz、 8kHz等) の情報を含む。 圧縮方式選択 部 1 1 0では、 圧縮方式記憶部 1 1 1に記憶されている端末側装置 1 0 0 Eで利 用可能な圧縮方式情報と、 波形 ·信号 ·圧縮方式受信部 1 0 4 Aから送られたサ ーバ側装置 2 0 O Eで利用可能な圧縮方式情報とをもとにデータの情報量の多 い圧縮方式を選択する。 例えば、 端末側装置 1 0 0 Eでもサーバ側装置 2 0 0 E でもともにフルレートとハーフレートの圧縮方式を持つ場合、 データの情報量の 多いフルレートが選択される。 圧縮方式選択部 1 1 0で選択された方式名は圧縮 方式インデックス作成部 1 0 9に送られる。 圧縮方式ィンデックス作成部 1 0 9 では、 圧縮方式選択部 1 1 0で選択された方式名のィンデックスを作成する。 圧 縮方式ィンデックス作成部 1 0 9で作成されたィンデックスは波形圧縮部 1 0 2 Bに送られる。
波形 ·信号 ·圧縮方式受信部 1 0 4 Aに音声データが入力されたとしょう。 こ の場合、 その受信された音声データは波形 ·信号 ·圧縮方式受信部 1 0 4 Aから 音声検出部 1 0 1 Aに送られる。 音声検出部 1 0 1 Aでは、 波形 ·信号 '圧縮方 式受信部 1 0 4 Aから送られた受信された波形データの音声検出を行う。 検出方 法としてはワードスポッティング手法等が用いられる。 音声検出部 1 0 1 Aで検 出された音声データは波形圧縮部 1 0 2 Bに送られる。
音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとしょ う。 この場合、 始端キャンセル時の信号 (始端キャンセル信号) が音声検出部 1 0 1 Aから始端キャンセル信号送信部 1 0 6に送出される。 始端キャンセル信号 送信部 1 0 6では、 この送られた始端キャンセル時の信号(始端キャンセル信号) を第 1の信号出力端子 1 0 0 cからサーバ側装置 2 0 0 Eへ送信する。
本第 6の実施の形態では、 第 4、 第 5の実施の形態の場合と同様に、 端末側装 置 1 0 0 Eは合成音を作成する音声合成部 1 0 7を持つ。 音声合成部 1 0 7で作 成された合成音は合成音情報作成部 1 0 8に送られる。
合成音情報作成部 1 0 8では、 合成音情報を作成し、 作成した合成音情報を波 形圧縮部 1 0 2 Bに送出し、 音声合成部 1 0 7から送られた合成音を合成音出力 端子 1 0 0 dから出力する。 合成音情報については、 合成音の内容や合成音出力 時のタイムスタンプ情報等が用いられる。
波形圧縮部 1 0 2 Bでは、 音声検出部 1 0 1 Aから送られた波形データを圧縮 し、 合成音情報作成部 1 0 8で作成された合成音情報と、 圧縮方式インデックス 作成部 1 0 9で作成された圧縮方式のインデックスとを前記波形データの一部 に含める。 波形データの一部に合成音情報、 圧縮方式のィンデックスを含める手 法としては、 ①合成音情報、 圧縮方式のインデックスを波形データのヘッダーに 含めて圧縮する方法や、 ②圧縮した波形データに合成音情報、 圧縮方式のインデ ックスを付加する方法等が用いられる。
圧縮方式としては、 VSELP方式、 PSI- CELP方式等が用いられる。 圧縮された波 形データは波形圧縮部 1 0 2 Bから波形記憶部 1 0 5に送られる。 波形記憶部 1 0 5では、 波形圧縮部 1 0 2 Bから送られた圧縮波形データを波形送信部 1 0 3 に送信し、 同一データを記憶する。 波形送信部 1 0 3では、 波形圧縮部 1 0 2 B から波形記憶部 1 0 5を介して送られた圧縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Eへ送信する。
波形 ·信号 ·圧縮方式受信部 1 0 4 Aにサーバ側装置 2 0 0 Eから送信された 波形データ再送要求信号が入力されたとしょう。 この場合、 この受信された波形 データ再送要求信号は波形 .信号 ·圧縮方式受信部 1 0 4 Aから波形記憶部 1 0 5に送られる。 この受信された波形データ再送要求信号に応答して、 波形記憶部 1 0 5では記憶されている圧縮波形データを波形送信部 1 0 3に送出する。 波形 送信部 1 0 3では波形記憶部 1 0 5から送られた圧縮波形データを圧縮波形出 力端子 1 0 0 bからサーバ側装置 2 0 0 Eに送信する。 図 6 Bを参照すると、 サーバ側装置 2 0 0 Eは、 入力端子 2 0 0 a と認識結 果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cと圧縮方式情報出力端 子 2 0 0 dとを持つ。 サーバ側装置 2 0 0 Eは、 波形 ·信号 · タスク情報受信部 2 0 1 Dと、 波形伸張部 2 0 2 Bと、 波形データ再送要求信号送信部 2 0 6と、 分析部 2 0 3 Aと、 認識部 2 0 4 Cと、 標準パターン記憶部 2 0 5 Aと、 合成音 情報取得部 2 0 7と、 圧縮方式ィンデックス取得部 2 0 8と、 認識エンジン選択 部 2 0 9と、 認識エンジン設定部 2 1 0と、 圧縮方式取得部 2 1 1 Aと、 圧縮方 式 ' タスク情報対応テーブル記憶部 2 1 2 Aと、 タスク情報記憶部 2 1 3とを備 えている。
サーバ側装置 2 0 0 Eでは、 入力端子 2 0 0 aを介して、 端末側装置 1 0 0 E の波形送信部 1 0 3から送信された波形データ、 又は始端キャンセル信号送信部 1 0 6から送信された始端キャンセル時の信号 (始端キャンセル信号)、 又は圧 縮方式要求信号送信部 1 1 2から送信された波形圧縮方式要求信号、 又はコンテ ンッ側より入力されたタスク情報を波形 ·信号 · タスク情報受信部 2 0 1 Dで受 信する。 すなわち、 波形 ·信号 · タスク情報受信部 2 0 1 Dは、 前記した第 5の 実施の形態の波形 ·信号受信部 (図 5の 2 0 1 D ) に代わって、 端末側装置 1 0 0 Eから送信された波形データと、 始端キャンセル信号と、 圧縮方式要求信号と、 コンテンッ側から送信されたタスク情報とを受信する。
波形 ,信号 ' タスク情報受信部 2 0 1 Dにコンテンツ側よりタスク情報が入力 されたとしょう。 この場合、 波形 ·信号 ' タスク情報受信部 2 0 1 Dはそのタス ク情報をタスク情報記憶部 2 1 3に送出する。 タスク情報記憶部 2 1 3では、 波 形 ·信号 · タスク情報受信部 2 0 1 Dより送られたタスク情報を記憶し、 同一情 報を圧縮方式取得部 2 1 1 Aに送る。 とにかく、 タスク情報記憶部 2 1 3は、 波 形 ·信号 ' タスク情報受信部 2 0 1 Dで受信されたタスク情報を記憶する。
波形 ·信号 · タスク情報受信部 2 0 1 Dにおいて波形圧縮方式要求信号が受信 されたとしょう。 この場合、 波形 ·信号 ' タスク情報受信部 2 0 1 Dは、 この受 信され波形圧縮方式要求信号を圧縮方式取得部 2 1 1 Aへ送る。 圧縮方式取得部 2 1 1 Aでは、 波形 ·信号 · タスク情報受信部 2 0 1 Dから受信された波形圧縮 方式要求信号が送られた場合、 圧縮方式 · タスク情報対応テーブル記憶部 2 1 2 Aに記憶されているタスク情報とそのタスクで利用可能な圧縮方式との対応テ 一ブルと、 タスク情報記憶部 2 1 3から送られたタスク情報とから利用可能な圧 縮方式を取得し、 取得した圧縮方式情報を圧縮方式情報出力端子 2 0 0 dから端 末側装置 1 0 0 Eに送信する。
すなわち、 圧縮方式 ·タスク情報対応テーブル記憶部 2 1 2 Aは、 タスク情報 と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する。 圧縮方式取得部 2 1 1 Aは、 波形 ·信号 ·タスク情報受信部 2 0 1 Dにおいて圧縮方式要求信号 を受信した場合に、 タスク情報記憶部 2 1 3から送られたタスク情報と圧縮方 式 ·タスク情報対応テーブル記憶部 2 1 2 Aから送られたタスク情報と圧縮方式 との対応テーブルより利用可能な圧縮方式情報を取得し、 その取得された圧縮方 式情報を端末側装置 1 0 0 Eに送信する。
サーバ側装置 2 0 0 Eで持つタスク情報とそのタスクで使用可能な圧縮方式 との対応テーブル 2 1 2 Aに記述された圧縮方式については、 帯域情報(8kHz、 4kHz等)や圧縮方法 (フノレレート、 ハーフレート等) 等の情報を含む。
波形 ·信号 ·タスク情報受信部 2 0 1 Dにおいて波形データが受信されたとし て、 その場合、 波形 ·信号 ·タスク情報受信部 2 0 1 Dはその受信された波形デ ータを波形伸張部 2 0 2 Bに送出する。 波形 '信号 'タスク情報受信部 2 0 1 D において波形データの受信に失敗したとして、 その場合、 波形 .信号 'タスク情 報受信部 2 0 1 Dは波形データ再送要求信号送信部 2 0 6に波形データ再送要 求信号を送出する。 波形データ再送要求信号送信部 2 0 6では、 波形 ·信号 ·タ スク情報受信部 2 0 1 Dから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Eに送信する。
波形伸張部 2 0 2 Bでは、 波形 ·信号'タスク情報受信部 2 0 1 Dから送られ たデータを波形データとその他のデータとに分離し、 波形データを伸張する。 その他の情報は合成音情報取得部 2 0 7と圧縮方式インデックス取得部 2 0 8に送られ、 伸張された波形データは分析部 2 0 3 Aに送られる。 合成音情報取 得部 2 0 7では、 波形伸張部 2 0 2 Bから送られた情報から合成音情報を取得す る。 取得された合成音情報は合成音情報取得部 2 0 7から認識部 2 0 4 Cに送ら れる。 圧縮方式ィンデックス取得部 2 0 8では、 波形伸張部 2 0 2 Bから送られた情 報から圧縮方式のィンデックスを取得する。 取得されたィンデックスは圧縮方式 インデックス取得部 2 0 8から認識エンジン選択部 2 0 9に送られる。
認識エンジン選択部 2 0 9では、 圧縮方式ィンデックス取得部 2 0 8で取得さ れたィンデックスをもとに認識に用いる認識エンジンを選択する。 認識エンジン 選択部 2 0 9で選択されたエンジンの情報は認識エンジン設定部 2 1 0と標準 パターン記憶部 2 0 5 Aに送られる。
認識エンジン設定部 2 1 0では、 認識エンジン選択部 2 0 9から送られたェン ジン情報を元に使用するエンジンの分析手法を分析部 2 0 3 Aへ送り、 認識手法 を認識部 2 0 4 Cへ送る。 標準パターン記憶部 2 0 5 Aでは、 認識エンジン選択 部 2 0 9から送られたエンジン情報より使用する標準パターンを設定する。 分析 部 2 0 3 Aでは、 波形伸張部 2 0 2 Bで伸張された波形データを特徴べク トルに 変換する。 特徴べクトルとしてはケプストラム、 Δケプストラム等が用いられる。 分析部 2 0 3 Aで分析された特徴べクトルは認識部 2 0 4 Cに送られる。 認識 部 2 0 4 Cでは、 分析部 2 0 3 Aから送られた特徴べク トノレと、 標準パターン記 憶部 2 0 5 Aから送られた標準パターンとの間の尤度を計算し、 認識結果を求め る。 尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられる。 認識部 2 0 4 Cで求められた認識結果と合成音情報取得部 2 0 7で取得された 合成音情報は共に認識結果 ·合成音情報出力端子 2 0 0 bから端末側装置 1 0 0 Eに送信される。 又は、 両者が関連付けられることでどの合成音に対する認識結 果であるかが対応付けされ、 対応付けされた後の認識結果が認識部 2 0 4 Cから 端末側装置 1 0 0 Eに送信される。
波形 ·信号'タスク情報受信部 2 0 1 Dに始端キヤンセル信号送信部 1 0 6か ら送信された始端キャンセル時の信号 (始端キャンセル信号) が入力されたとし よう。 その場合、 この受信された始端キャンセル時の信号(始端キャンセル信号) は波形 ·信号 'タスク情報受信部 2 0 1 Dから認識部 2 0 4 Cに送られる。 認識 部 2 0 4 Cでは、 波形 ·信号'タスク情報受信部 2 0 1 Dから受信された始端キ ヤンセル時の信号 (始端キャンセル信号) が送られてきた場合、 認識を途中で中 断する。 とにかく、 分析部 2 0 3 Aと認識部 2 0 4 Cと標準パターン記憶部 2 0 5 Aと の組み合わせは、 波形伸張部 2 0 2 Bで伸張された波形データを用いて認識処理 を行い、 認識した結果を出力すると共に、 波形 ·信号 ·タスク情報受信部 2 0 1 Dで受信された始端キャンセル信号に応答して認識処理を中止する認識手段と して働く。 この認識手段は、 認識が終了した場合に合成音情報取得部 2 0 7で取 得された合成音情報より合成音と認識結果との対応付けを行い、 対応付けされた 認識結果、 又は認識結果と合成音情報を出力する。
この第 6の実施の形態では、 圧縮方式を選択する時にサーバ側装置 2 0 0 Eと 端末側装置 1 0 O Eとで共通に利用可能である圧縮方式情報の他に、 タスクの情 報を加えることによって、 サーバ側装置 2 0 0 Eと端末側装置 1 0 0 Eとで共通 に利用可能な圧縮方式であり、 且つ、 入力されたタスクに適した圧縮方式を選択 することが可能となる。 例えば、 端末側装置 1 0 0 Eとサーバ側装置 2 0 0 Eと で対話を行うタスクでは、 レスポンス時間が短いことが望ましいためデータの転 送時間の短レ、圧縮方式をタスク情報と圧縮方式との対応テーブルに記述する。 又、 端末側装置 1 0 0 Eで音声入力したキーワードをサーバ側装置 2 0 0 Eでキー ヮード検索するようなレスポンス時間を比較的問われないタスクではデータの 情報量の多い圧縮方式を、 前記テーブルに記述することで、 タスクに適した圧縮 方式の選択が可能となる。
上記第 6の実施の形態に対応した音声認識方法は、 サーバ側装置 2 0 0 Eにお いて、 コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部 2 1 3に記憶するステップと、 圧縮方式要求信号を受信した場合に、 タスク情報と、 圧縮方式との対応テーブル 2 1 2 Aより、 利用可能な圧縮方式情報を取得し、 端 末側装置 1 0 0 Eに送信するステップを有する。 .
[第 7の実施の形態]
図 7 Aおよび図 7 Bを参照して、 本発明の第 7の実施の形態によるサーバ - ク ライアント型音声認識装置について説明する。 図 7 Aには端末側装置 1 0 O Eの 構成が示され、 図 7 Bにはサーバ側装置 2 0 0 Fの構成が示されている。
本発明の第 7の実施の形態に係るサーバ .クライアント型音声認識装置は、 第 5の実施の形態の構成に加えて次に述べるような枠組みを備える。 その枠組みは、 端末側装置 1 0 0 Fにおいて、 サーバ側装置 2 0 0 Fからサーバ側装置 2 0 0 F で利用可能な圧縮方式情報が送信された場合に、 サーバ側装置 2 0 0 Eで利用可 能な圧縮方式情報と、 コンテンツ側から入力されたタスク情報と、 端末側装置;! 0 0 Fで予め持つタスク情報とそのタスクで使用可能な圧縮方式との対応テー ブルより、 最適な圧縮方式を選択するものである。
図 7 Aを参照すると、 端末側装置 1 0 0 Fは、 入力端子 1 0 0 aと圧縮波形出 力端子 1 0 0 bと第 1の信号出力端子 1 0 0 cと合成音出力端子 1 0 0 dと第 2の信号出力端子 1 0 0 eとを持つ。 端末側装置 1 0 0 Fは、 波形 ·信号 .圧縮 方式 . タスク情報受信部 1 0 4 Bと、 音声検出部 1 0 1 Aと、 波形圧縮部 1 0 2 Bと、 波形送信部 1 0 3と、 波形記憶部 1 0 5と、 始端キヤンセル信号送信部 1 0 6と、 音声合成部 1 0 7と、 合成音情報作成部 1 0 8と、 圧縮方式ィンデック ス作成部 1 0 9と、 圧縮方式選択部 1 1 0 Aと、 圧縮方式 .タスク情報対応テー ブル記憶部 1 1 1 Aと、 圧縮方式要求信号送信部 1 1 2と、 タスク情報記憶部 1 1 3と、 を備えている。
端末側装置 1 0 0 Eの波形 ·信号 ·圧縮方式 ' タスク情報受信部 1 0 4 Bには、 音声データ、 又は圧縮方式要求信号、 又はサーバ側装置 2 0 0 Fから送信された 波形データ再送要求信号、 又はサーバ側装置 2 0 0 Fから送信された圧縮方式情 報、又はコンテンッ側から送信されたタスク情報が入力される。すなわち、波形 · 信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bは、 前記第 5の実施の形態の波形 · 信号'圧縮方式受信部 (図 5の 1 0 4 A) に代わって、 入力された波形データと、 コンテンッ側から送信されたタスク情報と、 サーバ側装置 2 0 0 Fから送信され た波形データ再送要求信号と、 サーバ側装置 2 0 0 Fから送信されたサーバ側装 置 2 0 0 Fで利用可能な圧縮方式情報とを受信する。
波形 ·信号 ·圧縮方式 ' タスク情報受信部 1 0 4 Bに、 タスク情報が入力され たとしょう。 この場合、 受信されたタスク情報は波形 ·信号 ·圧縮方式 ·タスク 情報受信部 1 0 4 Bからタスク情報記憶部 1 1 3に送られる。 タスク情報記憶部 1 1 3では、 波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bから送られたタ スク情報を圧縮方式達択部 1 1 O Aに送り、 記憶する。 とにかく、 タスク情報記 憶部 1 1 3は波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bで受信されたタ スク情報を記憶する。
波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bに、 圧縮方式要求信号が入 力されたとしょう。 この場合、 この受信された圧縮方式要求信号は波形 ·信号 - 圧縮方式 · タスク情報受信部 1 0 4 Bから圧縮方式要求信号送信部 1 1 2に送ら れる。 圧縮方式要求信号送信部 1 1 2では、 波形 ·信号 ·圧縮方式 . タスク情報 受信部 1 0 4 Bから送られた受信された圧縮方式要求信号を第 2の信号出力端 子 1 0 0 eからサーバ側装置 2 0 0 Fへ送信する。
波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bに、 サーバ側装置 2 0 0 F から送信されたサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報が入力された としょう。 この場合、 この受信された圧縮方式情報は波形 ·信号 ·圧縮方式 · タ スク情報受信部 1 0 4 Bから圧縮方式選択部 1 1 O Aへ送られる。
本第 7の実施の形態では、 端末側装置 1 0 0 Fはタスク情報とそのタスクで利 用可能な圧縮方式との対応テーブルを記憶する圧縮方式 · タスク情報対応テープ ル記憶部 1 1 1 Aを持つ。 圧縮方式 ' タスク情報対応テーブル記憶部 1 1 Aに記 憶された圧縮方式については、 波形圧縮方法 (フルレート、 ハーフレート等) や 帯域 (4kHz、 8kHz等) の情報を含む。 とに力 く、 圧縮方式.タスク情報対応テー ブル記憶部 1 1 1 Aはタスク情報とそのタスク使用時に利用可能な 1個以上の 圧縮方式の対応テーブルを記憶する。 そして、 タスク情報とそのタスクで使用可 能な圧縮方式との対応テーブルに記述された圧縮方式については、 帯域情報 (8kHz、 4kHz等)や圧縮方法 (フルレート、 ハーフレート等) 等の情報を含む。 圧縮方式選択部 1 1 0 Aでは、 タスク情報記憶部 1 1 3から送られたタスク情 報と、 波形 ·信号 ·圧縮方式 · タスク情報受信部 1 0 4 Bから送られたサーバ側 装置 2 0 0 Fで利用可能な圧縮方式情報と、 圧縮方式 · タスク情報対応テーブル 記憶部 1 1 1 Aに記憶されている対応テーブル情報とをもとにタスク情報が加 味されたデータの情報量の多い圧縮方式を選択する。 とにかく、 圧縮方式選択部 1 1 O Aは、 波形 '信号 '圧縮方式 .タスク情報受信部 1 0 4 Bにおいてサーバ 側装置 2 0 0 Fで利用可能な圧縮方式情報を受信した場合に、 タスク情報記憶部 1 1 3から送られたタスク情報と、 圧縮方式 ·タスク対応テーブル記憶部 1 1 1 Aから送られたタスク情報と圧縮方式との対応テーブルと、 波形 ·信号 ·圧縮方 式 'タスク情報受信部 1 0 4 Bから送られたサーバ側装置 2 0 0 Fで利用可能な 圧縮方式情報をもとに最適な圧縮方式を選択する。 圧縮方式選択部 1 1 O Aで選 択された方式名は圧縮方式ィンデックス作成部 1 0 9に送られる。
圧縮方式インデックス作成部 1 0 9では、 圧縮方式選択部 1 1 O Aで選択され た方式名のインデックスを作成する。 圧縮方式ィンデックス作成部 1 0 9で作成 されたィンデックスは波形圧縮部 1 0 2 Bに送られる。
波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bに音声データが入力された としょう。 この場合、 その受信された音声データは波形 ·信号 ·圧縮方式 ·タス ク情報受信部 1 0 4 Bから音声検出部 1 0 1 Aに送られる。 音声検出部 1 0 1 A では、 波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bから送られた波形デー タの音声検出を行う。 検出方法としてはワードスポッティング手法等が用いられ る。 音声検出部 1 0 1 Aで検出された音声データは波形圧縮部 1 0 2 Bに送られ る。
音声検出部 1 0 1 Aにおいて音声の検出後に検出がキャンセルされたとして、 この場合、 始端キャンセル時の信号 (始端キャンセル信号) が音声検出部 1 0 1 Aから始端キャンセル信号送信部 1 0 6に送出される。 始端キャンセル信号送信 部 1 0 6では、 音声検出部 1 0 1 Aから送られた始端キャンセル時の信号 (始端 キャンセル信号) を第 1の信号出力端子 1 0 0 cからサーバ側装置 2 0 O Fへ送 信する。
本第 7の実施の形態では、 第 4、 第 5、 第 6の実施の形態の場合と同様に、 端 末側装置 1 0 O Fは、 合成音を作成する音声合成部 1 0 7を持つ。 音声合成部 1 0 7で作成された合成音は合成音情報作成部 1 0 8に送られる。 合成音情報作成 部 1 0 8では、 合成音情報を作成し、 作成した合成音情報を波形圧縮部 1 0 2 B に送出し、 音声合成部 1 0 7から送られた合成音を合成音出力端子 1 0 0 dから 出力する。 合成音情報については、 合成音の内容や合成音出力時のタイムスタン プ情報等が用いられる。
波形圧縮部 1 0 2 Bでは、 音声検出部 1 0 1 Aから送られた波形データを圧縮 し、 合成音情報作成部 1 0 8で作成された合成音情報と、 圧縮方式インデックス 作成部 1 0 9で作成された圧縮方式のィンデッタスとを前記波形データの一部 に含める。
波形データの一部に合成音情報、 圧縮方式のインデックスを含める手法として は、 ①合成音情報、 圧縮方式のインデックスを波形データのヘッダに含めて圧縮 する方法や、 ②圧縮した波形データに合成音情報、 圧縮方式のインデックスを付 加する方法等が用いられる。 圧縮方式としては、 VSELP方式、 PSI - CELP方式等が 用いられる。
波形圧縮部 1 0 2 Bで圧縮された波形データは波形記憶部 1 0 5に送られる。 波形記憶部 1 0 5では、 波形圧縮部 1 0 2 Bから送られた圧縮波形データを波形 送信部 1 0 3に送出し、 同一データを記憶する。 波形送信部 1 0 3では、 波形圧 縮部 1 0 2 Bから波形記憶部 1 0 5を介して送られた圧縮波形データを圧縮波 形出力端子 1 0 0 bからサーバ側装置 2 0 0 Fへ送信する。
波形 ·信号 ·圧縮方式,タスク情報受信部 1 0 4 Bにサーバ側装置 2 0◦ Fか ら送信された波形データ再送要求信号が入力されたとしょう。 この場合、 この受 信された波形データ再送要求信号は波形 ·信号 ·圧縮方式 ·タスク情報受信部 1 0 4 Bから波形記憶部 1 0 5に送られる。 この受信された波形データ再送要求信 号に応答して、 波形記憶部 1 0 3では記憶されている圧縮波形データを波形送信 部 1 0 3に送出する。 波形送信部 1 0 4 0では波形記憶部 1 0 5から送られた圧 縮波形データを圧縮波形出力端子 1 0 0 bからサーバ側装置 2 0 0 Fに送信す る。
図 7 Bを参照すると、 サーバ側装置 2 0 0 Fは、 入力端子 2 0 0 aと認識結 果 ·合成音情報出力端子 2 0 0 bと信号出力端子 2 0 0 cと圧縮方式情報出力端 子 2 0 0 dとを持つ。 サーバ側装置 2 0 0 Fは、 波形 ·信号受信部 2 0 1 Cと、 波形伸張部 2 0 2 Bと、 波形データ再送要求信号送信部 2 0 6と、 分析部 2 0 3 Aと、 認識部 2 0 4 Cと、 標準パタ一ン記憶部 2 0 5 Aと、 合成音情報取得部 2 0 7と、 圧縮方式ィンデッタス取得部 2 0 8と、 認識エンジン選択部 2 0 9と、 認識エンジン設定部 2 1 0と、 圧縮方式取得部 2 1 1と、 圧縮方式記憶部 2 1 2 とを備えている。
サーバ側装置 2 0 0 Fでは、 端末側装置 1 ◦ 0 Fの波形送信部 1 0 3から送信 された圧縮波形データ、 又は始端キャンセル信号送信部 1 0 6から送信された始 端キャンセル時の信号 (始端キャンセル信号)、 又は圧縮方式要求信号送信部 1 1 2から送信された波形圧縮方式要求信号を波形 ·信号受信部 2 0 1 Cで受信す る。
波形 ·信号受信部 2 0 1 Cでは、 波形圧縮方式要求信号が受信された場合、 そ の受信された波形圧縮方式要求信号を圧縮方式取得部 2 1 1へ送る。 圧縮方式取 得部 2 1 1では、 波形 ·信号受信部 2 0 1 Cから波形圧縮方式要求信号が送られ た場合、 圧縮方式記憶部 2 1 2に記憶されている圧縮方式の中からサーバ側装置 2 0 0 Fで利用可能な圧縮方式を取得し、 取得した圧縮方式情報を圧縮方式情報 出力端子 2 0 0 dから端末側装置 1 0 0 Fに送信する。
波形 ·信号受信部 2 0 1 Cにおいて波形データが受信された場合、 その受信さ れた波形データは波形 ·信号受信部 2 0 1 Cから波形伸張部 2 0 2 Bに送出され る。
波形 ·信号受信部 2 0 1 Cにおいて波形データの受信に失敗したとしょう。 こ の場合、 波形 ·信号受信部 2 0 1 Cは波形データ再送要求信号送信部 2 0 6に波 形データ再送要求信号を送出する。 波形データ再送要求信号送信部 2 0 6では、 波形 ·信号受信部 2 0 1 Cから送られた波形データ再送要求信号を信号出力端子 2 0 0 cから端末側装置 1 0 0 Fに送信する。
波形伸張部 2 0 2 Bでは、 波形 ·信号受信部 2 0 1 Cから送られたデータを波 形データとその他のデータとに分離し、 波形データを伸張する。 その他の情報は 合成音情報取得部 2 0 7と圧縮方式インデックス取得部 2 0 8に送られ、 伸張さ れた波形データは分析部 2 0 3 Aに送られる。
合成音情報取得部 2 0 7では、 波形伸張部 2 0 2 Bから送られた情報から合成 音情報を取得する。 合成音情報取得部 2 0 7で取得された合成音情報は認識部 2 0 4 Cに送られる。
圧縮方式インデックス取得部 2 0 8では、 波形伸張部 2 0 2 Bから送られた情 報から圧縮方式のインデックスを取得する。 圧縮方式インデックス取得部 2 0 8 で取得されたインデックスは認識エンジン選択部 2 0 9に送られる。 認識ェンジ ン選択部 2 0 9では、 圧縮方式ィンデックス取得部 2 0 8で取得されたィンデッ タスをもとに認識に用いる認識エンジンを選択する。 認識エンジン選択部 2 0 9 で選択されたエンジンの情報は認識ェンジン設定部 2 1 0と標準パターン記憶 部 2 0 5 Aに送られる。
認識エンジン設定部 2 1 0では、 認識エンジン選択部 2 0 9から送られたェン ジン情報を元に使用するエンジンの分析手法を分析部 2 0 3 Aへ送り、 認識手法 を認識部 2 0 4 Cへ送る。 標準パターン記憶部 2 0 5 Aでは、 認識エンジン選択 部 2 0 9から送られたエンジン情報より使用する標準パターンを設定する。
分析部 2 0 3 Aでは、 波形伸張部 2 0 2 Bで伸張された波形データを特徵ベタ トルに変換する。 特徴ベク トルとしてはケプストラム、 Δケプストラム等が用い られる。 分析部 2 0 3 Aで分析された特徴べクトルは認識部 2 0 4 Cに送られる。 認識部 2 0 4 Cでは、 分析部 2 0 3 Aから送られた特徴べク トルと、 標準パター ン記憶部 2 0 5 Aから送られた標準パターンとの間の尤度を計算し、 認識結果を 求める。 尤度の計算方法は Viterbiアルゴリズム、 D Pマッチング等が用いられ る。 求められた認識結果と合成音情報取得部 2 0 7で取得された合成音情報は共 に認識結果 ·合成音情報出力端子 2 0 0 bから端末側装置 1 0 0 Fに送信される。 又は、 両者が関連付けられることでどの合成音に対する認識結果であるかが対応 付けされ、 対応付けされた後の認識結果が認識結果 ·合成音情報出力端子 2 0 0 bから端末側装置 1 0 O Fに送信される。
波形 ·信号受信部 2 0 1 Cに始端キャンセル信号送信部 1 0 6から送信された 始端キャンセル時の信号 (始端キャンセル信号) が入力されたとしょう。 この場 合、 この受信された始端キャンセル時の信号. (始端キャンセル信号) は波形 '信 号受信部 2 0 1 Cから認識部 2 0 4 Cに送られる。 認識部 2 0 4 Cでは、 波形 · 信号受信部 2 0 1 Cから受信された始端キャンセル時の信号 (始端キャンセル信 号) が送られてきた場合、 認識を途中で中断する。
とにか.く、 分析部 2 0 3 Aと認識部 2 0 4 Cと標準パターン記憶部 2 0 5 Aと の組み合わせは、 波形伸張部 2 0 2 Bで伸張された波形データを用いて認識処理 を行い、 認識した結果を出力する認識手段として働く。 また、 この認識手段は、 認識が終了した場合に合成音情報取得部 2 0 7で取得された合成音情報より合 成音と認識結果との対応付けを行い、 対応付けらた認識結果、 又は認識結果と合 成音情報を出力する。 この第 7の実施の形態では、 前記第 6の実施の形態の場合と同様に、 圧縮方式 を選択する時にサーバ側装置 2 0 0 Fと端末側装置 1 0 0 Fとで共通に利用可 能である圧縮方式情報の他にタスクの情報を加味することによって、 サーバ側装 置 2 0 0 Fと端末側装置 1 0 0 Fとで共通に利用可能な圧縮方式であり、 且つ、 入力されたタスクに適した圧縮方式を選択することが可能となる。
上記第 7の実施の形態に対応した音声認識方法は、 端末側装置 1 0 0 Fにおい て、 コンテンツ側から送信されたタスク情報と、 サーバ側装置 2 0 O Fから送信 されたサーバ側装置 2 0 0 Fで利用可能な圧縮方式情報とを受信するステップ と、 サーバ側装置 2 0 O Fで利用可能な圧縮方式情報を受信した場合に、 前記タ スク情報と、 圧縮方式 ·タスク対応テーブル記憶部 1 1 1 Aから送られたタスク 情報と圧縮方式との対応テーブルと、 サーバ側装置 2 0 0 Fで利用可能な圧縮方 式情報をもとに最適な圧縮方式を選択するステツプと、 を有する。
以上説明したように、 本発明によれば、 認識対象となるタスクの規模や難易度 に適応し、 クライアントとサーバ間で相互の音声処理仕様、 能力を確認して音声 圧縮伸張等の音声処理仕様を最適に設定することができる、 という効果を奏する。 本発明によれば、 更に、 サーバで認識処理を行うため大規模なタスクの認識処 理が可能となり、 認識エンジン等のァップデートに迅速に対応することができる という効果を奏する。
上記実施の形態において、 上記端末側装置としては、 例えば携帯電話端末が好 適とされるが、端末側装置は、携帯電話端末に限定されるものではなく、サーバ · クライアント型音声認識装置のサーバ側装置に接続可能とされる音声入力可能 な任意の情報端末を含む。
以上本発明を上記各実施の形態に即して説明したが、 本発明は、 上記実施の形 態の構成にのみ限定されるものではなく、 各実施の形態の組合せを含むものであ り、 本発明は、 特許請求の範囲に記載の範囲内で当業者であればなし得るであろ う各種変形、 修正を含むことは勿論である。

Claims

請 求 の 範 囲
1. 端末側装置 (1 00) とサーバ側装置 (200) とを備えた音声認識装 置であって、
前記端末側装置 (1 00) 力
入力された音声データの音声区間を検出して、 検出された音声区間の波形デー タを出力する音声検出部 (1 01) と、
前記検出された音声区間の波形データを圧縮して、 圧縮された波形データを出 力する波形圧縮部 (102) と、
前記圧縮された波形データを前記サーバ側装置へ送信する波形送信部 (1 0 3) と、 を備え、
前記サーバ側装置 (200) 、
前記端末側装置から送信されてきた前記圧縮された波形データを受信して、 受 信された波形データを出力する波形受信部 (201) と、
前記受信された波形データを伸張して、 伸張された波形データを出力する波形 伸張部 (202) と、
前記伸張された波形データを用レ、て認識処理を行レ、、 認識した結果を出力する 認識手段 (203、 204、 205) と、
を備えている、 ことを特徴とする音声認識装置。
2. 端末側装置 ( 1 00 A) とサーバ側装置 ( 200 A) とを備えた音声認 識装置であって、
前記端末側装置 (1 0 OA) ,
入力された音声の波形データを受信して受信された波形データを出力すると 共に、 前記サーバ側装置から送信される波形データ再送要求信号を受信して受信 された波形データ再送要求信号を出力する波形 ·信号受信部 (1 04) と、 前記受信された波形データの音声区間を検出して、 検出された音声区間の波形 データを出力する音声検出部 (101) と、
前記検出された音声区間の波形データを圧縮して、 圧縮された波形データを出 力する波形圧縮部 (1 02) と、 前記圧縮された波形データを記憶された波形データとして一時記憶しながら 前記記憶された波形データを出力すると共に、 前記受信された波形データ再送要 求信号に応答して前記記憶された波形データを出力する波形記憶部 (105) と、 前記記憶された波形データを前記サーバ側装置に送信する波形送信部 (1 0 3) と、 を備え、
前記サーバ側装置 (20 OA) 、
前記端末側装置から送信された圧縮波形データを受信して受信された波形デ ータを出力すると共に、 前記圧縮波形データの受信に失敗した場合に前記波形デ ータ再送要求信号を出力する波形受信部 (201 A) と、
前記受信された波形データを伸張して、 伸張された波形データを出力する波形 伸張部 (202) と、
前記伸張された波形データを用レ、て認識処理を行レ、、 認識した結果を出力する 認識手段 (203、 204、 205) と、
前記波形受信部から受け取った前記波形データ再送要求信号を前記端末側装 置へ送信する波形データ再送要求信号送信部 (206) と、 を備えている、 ことを特徴とする音声認識装置。
3. 端末側装置 (1 Ο 0 Β、 1 00 C) とサーバ側装置 ( 200 B、 200 C) とを備えた音声認識装置であって、
前記端末側装置 ( 1 00 B、 1 00 C) 力
入力された音声の波形データを受信して受信された波形データを出力すると 共に、 前記サーバ側装置から送信される波形データ再送要求信号を受信して受信 された波形データ再送要求信号を出力する波形 ·信号受信部 (1 04) と、 前記受信された波形データの音声区間を検出して、 検出された音声区間の波形 データを出力すると共に、 音声の検出後に該検出がキャンセルされた場合に始端 キャンセル信号を出力する音声検出部 (101 A) と、
前記検出された音声区間の波形データを圧縮して、 圧縮された波形データを出 力する波形圧縮部 (1 02、 102 A) と、
前記圧縮された波形データを記憶された波形データとして一時記憶しながら 前記記憶された波形データを出力すると共に、 前記受信された波形データ再送要 求信号に応答して前記記憶された波形データを出力する波形記憶部 (1 05) と、 前記記憶された波形データを前記サーバ側装置に送信する波形送信部 (1 0 3) と、
前記音声検出部から出力された前記始端キャンセル信号を前記サーバ側装置 に送信する始端キャンセル信号送信部 (1 06) と、 を備え、
前記サーバ側装置 (200 B、 200 C) 、
前記端末側装置から送信された圧縮波形データと前記始端キャンセル信号と を受信して、 受信された波形データと受信された始端キヤンセル信号とを出力す ると共に、 前記圧縮波形データの受信に失敗した場合に波形データ再送要求信号 を出力する波形 ·信号受信部 (20 1 B) と、
前記受信された波形データを伸張して、 伸張された波形データを出力する波形 伸張部 (202、 202 A) と、
前記伸張された波形データを用いて認識処理を行い、 認識した結果を出力する と共に、 前記受信された始端キャンセル信号に応答して認識処理を中止する認識 手段 (203、 204 A、 204B、 205) と、
前記波形 ·信号受信部から出力される前記波形データ再送要求信号を前記端末 側装置へ送信する波形データ再送要求信号送信部 (206) と、
¾r備える、
ことを特徴とする音声認識装置。
4. 前記端末側装置 (1 0 O C) 1S
合成音を合成して、 合成された合成音を出力する音声合成部 (107) と、 前記合成された合成音の情報を作成して、 作成された合成音情報を出力すると 共に、 前記合成音を出力する合成音情報作成部 (108) と、 を更に備え、 前記波形圧縮部 (1 02A) は、 前記作成された合成音情報を前記圧縮された 波形データの一部に組み込んで前記波形記憶部へ送出し、
前記サーバ側装置 (200 C) 力
前記波形伸張部で伸張された波形データの中から前記合成音情報を取得して、 取得された合成音情報を出力する合成音情報取得部 (207) を更に備え、 前記認識手段 (204B) 力 S、 認識が終了した場合に前記取得された合成音情 報より合成音と前記認識結果との対応付けを行い、 対応付けされた認識結果、 又 は認識結果と合成音情報を出力する、 ことを特徴とする請求の範囲第 3項に記載
5. 端末側装置 (100D) とサーバ側装置 (200D) とを備えた音声認 識装置であって、
前記端末側装置 (10 OD)
入力された波形データと、 前記サーバ側装置から送信される波形データ再送要 求信号と、 前記サーバ側装置から送信される前記サーバ側装置で利用可能な圧縮 方式情報とを少なくとも受信して、 受信された波形データ、 受信された波形デー タ再送要求信号、 および受信された圧縮方式情報を出力する波形 ·信号 ·圧縮方 式受信部 ( 1 ◦ 4 A) と、
前記受信された波形データの音声区間を検出して、 検出された音声区間の波形 データを出力する音声検出部 (101 A) と、
前記受信した圧縮方式情報より最適な圧縮方式を選択して、 選択された圧縮方 式を出力する圧縮方式選択部 (110) と、
前記選択された圧縮方式のィンデックスを作成して、 作成された圧縮方式ィン デックスを出力する圧縮方式ィンデックス作成部 (109) と、
前記検出された音声区間の波形データを圧縮して、 前記作成された圧縮方式ィ ンデックスを圧縮された波形データの一部に組み込んだ状態で、 前記圧縮された 波形データを出力する波形圧縮部 (102B) と、
前記圧縮された波形データを記憶された波形データとして一時記憶しながら 前記記憶された波形データを出力すると共に、 前記受信された波形データ再送要 求信号に応答して、 前記記憶された波形データを出力する波形記憶部 (105) と、
前記記憶された波形データを前記サーバ側装置へ送信する波形送信部 (1 0 3) と、
圧縮方式要求信号を前記サーバ側装置へ送信する圧縮方式要求信号送信部 ( 1 12) と、 を備え、
前記サーバ側装置 (200D) 、 前記端末側装置から送信された圧縮波形データと圧縮方式要求信号とを受信 して、 受信された波形データと受信された圧縮方式要求信号とを出力すると共に、 前記圧縮波形データの受信に失敗した場合に波形データ再送要求信号を出力す る波形 ·信号受信部 (201 C) と、
前記受信された波形データを伸張して、 伸張された波形データを出力する波形 伸張部 (202 B) と、
前記伸張された波形データを用いて認識処理を行い、 認識した結果を出力する 認識手段 (203A、 204C、 205 A) と、
前記波形 ·信号受信部から出力された前記波形データ再送要求信号を前記端末 側装置に送信波形データ再送要求信号送信部 (206) と、
前記サーバ側装置で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 ( 2 12) と、
前記受信された圧縮方式要求信号に応答して、 前記圧縮方式記憶部に記憶され ている圧縮方式情報を取得し、 前記端末側装置に前記圧縮方式情報を送信する圧 縮方式取得部 (21 1) と、
前記伸張された波形データから圧縮方式のィンデックスを取得して、 取得され た圧縮方式のインデックスを出力する圧縮方式インデックス取得部 (208) と、 前記取得された圧縮方式のィンデッタスから認識エンジンを選択して、 選択さ れたエンジンを出力する認識ェンジン選択部 (210) と、
前記選択されたエンジンを記憶されているエンジンの中から前記認識手段に 設定する認識エンジン設定部 (210) と、
を備えている、 ことを特徴とする音声認識装置。
6. 前記端末側装置 (100D) 力、
合成音を合成して、 合成された合成音を出力する音声合成部 (107) と、 前記合成された合成音の情報を作成して、 作成された合成音情報を出力すると 共に、 前記合成音を出力する合成音情報作成部 (108) と、 を更に備え、 前記波形圧縮部 (102B) は、 前記作成された合成音情報を前記圧縮された 波形データの一部に組み込んで、 前記波形記憶部に送出し、
前記サーバ側装置 (200D) 力 前記伸張された波形データから前記合成音情報を取得して、 取得された合成音 情報を出力する合成音情報取得部 (2 0 7 ) を更に備え、
前記認識手段 (2 0 4 C ) 、 認識が終了した場合に前記取得された合成音情 報より合成音と認識結果との対応付けを行い、 対応付けされた認識結果、 又は認 識結果と合成音情報を出力する、 ことを特徴とする請求の範囲第 5項に記載の音 声認識装置。
7 . 端末側装置 ( 1 0 0 E ) とサーバ側装置 ( 2 0 O E ) とを備えた音声認 識装置であって、
前記端末側装置 (1 0 0 E ) 、
入力された波形データと、 前記サーバ側装置から送信される波形データ再送要 求信号と、 前記サーバ側装置から送信される前記サーバ側装置で利用可能な圧縮 方式情報とを少なくとも受信して、 受信された波形データ、 受信された波形デー タ再送要求信号、 および受信された圧縮方式情報とを出力する波形 ·信号 ·圧縮 方式受信部 ( 1 0 4 A) と、
前記受信された波形データの音声区間を検出して、 検出された音声区間の波形 データを出力すると共に、 音声の検出後に該検出がキャンセルされた場合に始端 キャンセル信号を出力する音声検出部 (1 0 1 A) と、
前記受信した圧縮方式情報より最適な圧縮方式を選択して、 選択された圧縮方 式を出力する圧縮方式選択部 (1 1 0 ) と、
前記選択された圧縮方式のィンデックスを作成して、 作成された圧縮方式ィン デッタスを出力する圧縮方式インデックス作成部 ( 1 0 9 ) と、
前記検出された音声区間の波形データを圧縮して、 圧縮された波形データを、 前記作成された圧縮方式ィンデックスを前記圧縮された波形データの一部に組 み込んだ状態で、 出力する波形圧縮部 (1 0 2 B ) と、
前記圧縮された波形データを記憶された波形データとして一時記憶しながら 前記記憶された波形データを出力すると共に、 前記受信された波形データ再送要 求信号に応答して、 前記記憶された波形データを出力する波形記憶部 (1 0 5 ) と、
前記記憶された波形データを前記サーバ側装置へ送信する波形送信部 (1 0 3 ) と、
前記音声検出部から出力された前記始端キャンセル信号を前記サーバ側装置 に送信する始端キャンセル信号送信部 ( 1 0 6 ) と、
圧縮方式要求信号を前記サーバ側装置へ送信する圧縮方式要求信号送信部 ( 1 1 2 ) と、 を備え、
前記サーバ側装置 (2 0 0 E ) 、
前記端末側装置から送信された圧縮波形データと、 前記始端キャンセル信号と、 前記圧縮方式要求信号と、 コンテンッ側から送信されたタスク情報とを受信して、 受信された波形データと、 受信された始端キャンセル信号と、 受信された圧縮方 式要求信号と、 受信されたタスク情報とを出力すると共に、 前記圧縮波形データ の受信に失敗した場合に波形データ再送要求信号を出力する波形 ·信号 ·タスク 情報受信部 (2 0 1 D ) と、
前記受信された波形データを伸張して、 伸張された波形データを出力する波形 伸張部 (2 0 2 B ) と、
前記伸張された波形データを用いて認識処理を行い、 認識した結果を出力する と共に、 前記受信された始端キャンセル信号に応答して認識処理を中止する認識 手段 ( 2 0 3 A、 2 0 4 C、 2 0 5 A) と、
前記波形 ·信号受信部から出力された前記波形データ再送要求信号を前記端末 側装置に送信波形データ再送要求信号送信部 (2 0 6 ) と、
前記受信されたタスク情報を記憶して、 記憶されたタスク情報を出力するタス ク情報記憶部 (2 1 3 ) と、
タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧 縮方式 ·タスク情報対応テーブル記憶部 ( 2 1 2 A) と、
前記受信された圧縮方式要求信号に応答して、 前記記憶されたタスク情報と前 記圧縮方式 ·タスク情報対応テーブル記憶部から送られたタスク情報と圧縮方式 との対応テーブルより利用可能な圧縮方式情報を取得し、 前記端末側装置に前記 圧縮方式情報を送信する圧縮方式取得部 (2 1 1 A) と、
前記伸張された波形データから圧縮方式のィンデックスを取得して、 取得され た圧縮方式のィンデックスを出力する圧縮方式ィンデックス取得部 ( 2 0 8 ) と、 前記取得された圧縮方式のィンデッタスから認識ェンジンを選択して、 選択さ れたエンジンを出力する認識エンジン選択部 (209) と、
前記選択されたエンジンを記憶されているエンジンの中から前記認識手段に 設定する認識エンジン設定部 (210) と、
を備えている、 ことを特徴とする音声認識装置。
8. 前記端末側装置 (1 00E) 力
合成音を合成して、 合成された合成音を出力する音声合成部 (107) と、 前記合成された合成音の情報を作成して、 作成された合成音情報を出力すると 共に、 前記合成音を出力する合成音情報作成部 (1 08) と、 を更に備え、 前記波形圧縮部 (1 02B) は、 前記作成された合成音情報を前記圧縮された 波形データの一部に組み込んで、 前記波形記憶部に送出し、
前記サーバ側装置 (200 E) 、
前記伸張された波形データから前記合成音情報を取得して、 取得された合成音 情報を出力する合成音情報取得部 (207) を更に備え、
前記認識手段 (204 C) 、 認識が終了した場合に前記取得された合成音情 報より合成音と認識結果との対応付けを行い、 対応付けされた認識結果、 又は認 識結果と合成音情報を出力する、 ことを特徴とする請求の範囲第 7項に記載の音 卢認識装 rf。
9. 端末側装置 ( 1 00 F) とサーバ側装置 ( 200 F) とを備えた音声認 識装置であって、
前記端末側装置 (1 0 O F) 、
入力された波形データと、 コンテンツ側から送信されたタスク情報と、 前記サ ーバ側装置から送信された波形データ再送要求信号と、 前記サーバ側装置から送 信された前記サーバ側装置で利用可能な圧縮方式情報とを受信して、 受信された 波形データ、 受信されたタスク情報、 受信された波形データ再送要求信号、 およ び受信された圧縮方式情報とを出力する波形 ·信号 ·圧縮方式 ·タスク情報受信 部 (1 04B) と、
前記受信されたタスク情報を記憶して、 記憶されたタスク情報を出力するタス ク情報記憶部 (1 1 3) と、 タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テー ブルを記憶する圧縮方式 ·タスク情報対応テーブル記憶部 (1 1 1 A) と、 前記受信された圧縮方式情報に応答して、 前記記憶されたタスク情報と、 前記 圧縮方式 · タスク対応テーブル記憶部から送られたタスク情報と圧縮方式との対 応テーブルとをもとに、 最適な圧縮方式を選択して、 選択された圧縮方式を出力 する圧縮方式選択部 (1 1 O A) と、
前記選択された圧縮方式のィンデックスを作成して、 作成された圧縮方式ィン デッタスを出力する圧縮方式インデックス作成部 (1 0 9 ) と、 。
前記受信された波形データの音声区間を検出して、 検出された音声区間の波形 データを出力する音声検出部 (1 0 1 A) と、
前記検出された音声区間の波形データを圧縮して、 圧縮された波形データを、 前記作成された圧縮方式ィンデックスを前記圧縮された波形データの一部に組 み込んだ状態で、 出力する波形圧縮部 (1 0 2 B ) と、
前記圧縮された波形データを記憶された波形データとして一時記憶しながら 前記記憶された波形データを出力すると共に、 前記受信された波形データ再送要 求信号に応答して、 前記記憶された波形データを出力する波形記憶部 (1 0 5 ) と、
前記記憶された波形データを前記サーバ側装置へ送信する波形送信部 (1 0 3 ) と、
圧縮方式要求信号を前記サーバ装置へ送信する圧縮方式要求信号送信部 (1 1 2 ) と、 を備え、
前記サーバ側装置 (2 0 0 F ) 、
前記端末側装置から送信された圧縮波形データと、 前記圧縮方式要求信号とを 受信して、 受信された波形データと受信された圧縮方式要求信号とを出力すると 共に、 前記圧縮波形データの受信に失敗した場合に波形データ再送要求信号を出 力する波形 ·信号受信部 (2 0 1 C) と、 .
前記受信された波形データを伸張して、 伸張された波形データを出力する波形 伸張部 (2 0 2 B ) と、
前記伸張された波形データを用いて認識処理を行い、 認識した結果を出力する 認識手段 (203A、 204C、 205 A) と、
前記波形 ·信号受信部から出力された前記波形データ再送要求信号を前記端末 側装置に送信する波形データ再送要求信号送信部 (206) と、
前記サーバ側装置で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 ( 2 12) と、
前記受信された圧縮方式要求信号に応答して、 前記圧縮方式記憶部に記憶され ている圧縮方式情報を取得し、 前記端末側装置に前記圧縮方式情報を送信する圧 縮方式取得部 (21 1) と、
前記伸張された波形データから圧縮方式のインデックスを取得して、 取得され た圧縮方式のインデックスを出力する圧縮方式インデックス取得部 (208) と、 前記取得された圧縮方式のィンデッタスから認識エンジンを選択して、 選択さ れたエンジンを出力する認識エンジン選択部 (210) と、
前記選択されたェンジンを記憶されているエンジンの中から前記認識部に設 定する認、識エンジン設定部 (210) と、
を備えている、 ことを特徴とする音声認識装置。
10. 前記端末側装置 ( 100 F) 、
合成音を合成して、 合成された合成音を出力する音声合成部 (107) と、 前記合成された合成音の情報を作成して、 作成された合成音情報を出力すると 共に、 前記合成音を出力する合成音情報作成部 (108) と、 を更に備え、 前記波形圧縮部 (102B) は、 前記作成された合成音情報を前記圧縮された 波形データの一部に組み込んで、 前記波形記憶部に送出し、
前記サーバ側装置 (200 F) 力
前記伸張された波形データから前記合成音情報を取得して、 取得された合成音 情報を出力する合成音情報取得部 (207) を更に備え、
前記認識手段 (204 C) 、 認識が終了した場合に前記取得された合成音情 報より合成音と認識結果との対応付けを行い、 対応付けされた認識結果、 又は認 識結果と合成音情報を出力する、 ことを特徴とする請求の範囲第 9項に記載の音 端末 (100) から送信された圧縮波形データを受信して伸張し、 該 伸張された波形データを用いて認識処理を行い、 認識した結果を出力するサーバ 装置 (200) に接続され、 サーバ ·クライアント音声認識装置を構成する端末 (1 00) であって、
入力された音声データの音声区間を検出して、 検出された音声区間の波形デー タを出力する音声検出部 (1 01) と、
前記検出された音声区間の波形データを圧縮して、 圧縮された波形デ タを出 力する波形圧縮部 (102) と、
前記圧縮された波形データを前記サーバ装置に送信する波形送信部 (1 03) と、
を備えている、 ことを特徴とする端末。
1 2. 端末 (100 A、 1 00B、 1 00C、 100D、 1 00 F) から送 信された圧縮波形データを受信して伸張し、 該伸張された波形データを用いて認 識処理を行い、 認識した結果を出力するサーバ装置 (20 OA) に接続され、 サ ーバ . クライアント音声認識装置を構成する端末 (100A、 1 0 OB, 1 00 C、 1 00 D、 1 00 F) であって、
入力された音声の波形データと、 前記サーバ装置から送信された波形データ再 送要求信号とを受信して、 受信された波形データと受信された波形データ再送要 求信号とを出力する波形 '信号受信部 (1 04、 1 04 A、 1 04 B) と、 前記受信された波形データの音声区間を検出して、 検出された音声区間の波形 データを出力する音声検出部 (1 01、 1 01A) と、
前記検出された音声区間の波形データを圧縮して、 圧縮された波形データを出 力する波形圧縮部 (102、 1 02 A、 1 02 B) と、
前記圧縮された波形データを一時記憶しながら、 記憶された波形データを出力 すると共に、 前記受信された波形データ再送要求信号に応答して前記記憶された 波形データを出力する波形記憶部 (1 05) と、
前記記憶された波形データを前記サーバ装置に送信する波形送信部 (1 03) と、
を備えている、 ことを特徴とする端末。
1 3. 前記音声検出部 (1 0 1 A) で音声の検出後に該検出がキャンセルさ れた場合、 前記音声検出部から送信された始端キャンセル時の信号を受け取り、 始端キャンセル信号を |ϋ記サーバ装置に送信する始端キャンセル信号送信部 (1
06) をさらに備えている、 ことを特徴とする請求の範囲第 12項に記載の端末。
14. 前記波形 ·信号受信部 ( 104 Α) 前記サーバ側装置から送信さ れた前記サーバ側装置で利用可能な圧縮方式情報を受信した場合に、 前記圧縮方 式情報より最適な圧縮方式を選択して、 圧縮された圧縮方式を出力する圧縮方式 選択部 (1 10) と、
前記選択された圧縮方式のィンデックスを作成して、 作成された圧縮方式ィン ディスクを出力する圧縮方式ィンデックス作成部 (109) と、 をさらに備え、 前記波形圧縮部 (102 B) は、 作成された圧縮方式インデックスを前記圧縮 された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 12項に記 載の端末。
15. 前記波形 ·信号受信部 (104 Α) 力 前記サーバ側装置から送信さ れた前記サーバ側装置で利用可能な圧縮方式情報を受信した場合に、 前記圧縮方 式情報より最適な圧縮方式を選択して、 圧縮された圧縮方式を出力する圧縮方式 選択部 (1 10) と、
前記選択された圧縮方式のィンデックスを作成して、 作成された圧縮方式ィン ディスクを出力する圧縮方式インデックス作成部 (109) と、 をさらに備え、 前記波形圧縮部 (102B) は、 作成された圧縮方式インデックスを前記圧縮 された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 13項に記 载の端术。
16. 合成音を合成して、合成された合成音を出力する音声合成部 (107) と、
前記合成された合成音の情報を作成し、 作成された合成音情報を出力すると共 に合成音を出力する合成音情報作成部 (108) と、
をさらに備え、 前記波形圧縮部 (102Α、 102 Β) は、 前記作成された合 成音情報を前記圧縮された波形データの一部に組み込む、 ことを特徵とする請求 の範囲第 12項に記載の端末。
17. 合成音を合成して、合成された合成音を出力する音声合成部 (107) と、
前記合成された合成音の情報を作成し、 作成された合成音情報を出力すると共 に合成音を出力する合成音情報作成部 (108) と、
をさらに備え、 前記波形圧縮部 (102A、 102 B) は、 前記作成された合 成音情報を前記圧縮された波形データの一部に組み込む、 ことを特徴とする請求 の範囲第 13項に記載の端末。
18. 合成音を合成して、合成された合成音を出力する音声合成部 (107) と、
前記合成された合成音の情報を作成し、 作成された合成音情報を出力すると共 に合成音を出力する合成音情報作成部 (108) と、
をさらに備え、 前記波形圧縮部 (102B) は、 前記作成された合成音情報を 前記圧縮された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 1 4項に記載の端末。
19. 合成音を合成して、合成された合成音を出力する音声合成部 (107) と、
前記合成された合成音の情報を作成し、 作成された合成音情報を出力すると共 に合成音を出力する合成音情報作成部 (108) と、
をさらに備え、 前記波形圧縮部 (102B) は、 前記作成された合成音情報を 前記圧縮された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 1 5項に記載の端末。
20. 前記波形 ·信号受信部 ( 104 B) では、 入力された波形データと、 コンテンッ側から送信されたタスク情報と、 前記サーバ装置から送信される波形 データ再送要求信号と、 前記サーバ装置から送信された前記サーバ装置で利用可 能な圧縮方式情報とを受信し、
前記受信されたタスク情報を記憶して、 記憶されたタスク情報を出力するタス ク情報記憶部 (1 1 3) と、
タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テー ブルを記憶する圧縮方式 · タスク情報対応テーブル記憶部 (1 1 1A) と、 前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受 信した場合、 前記記憶されたタスク情報と、 前記圧縮方式 · タスク対応テーブル 記憶部から送られたタスク情報と圧縮方式との対応テーブルと、 前記受信した圧 縮方式情報をもとに最適な圧縮方式を選択して、 選択された圧縮方式を出力する 圧縮方式選択部 ( 1 1 0 A) と、
前記選択された圧縮方式のィンデイクスを作成して、 作成された圧縮方式ィン デイクスを出力する圧縮方式ィンデイクス作成部 ( 1 0 9 ) と、 をさらに備え、 前記波形圧縮部 (1 0 2 B ) は、 作成された圧縮方式インデイクスを前記圧縮 された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 1 2項に記 載の端末。
2 1 . 前記波形 ·信号受信部 ( 1 0 4 B ) では、 入力された波形データと、 コンテンツ側から送信されたタスク情報と、 前記サーバ装置から送信される波形 データ再送要求信号と、 前記サーバ装置から送信された前記サーバ装置で利用可 能な圧縮方式情報とを受信し、
前記受信されたタスク情報を記憶して、 記憶されたタスク情報を出力するタス ク情報記憶部 (1 1 3 ) と、
タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テー ブルを記憶する圧縮方式' タスク情報対応テーブル記憶部 (1 1 1 A) と、 前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受 信した場合、 前記記憶されたタスク情報と、 前記圧縮方式 · タスク対応テーブル 記憶部から送られたタスク情報と圧縮方式との対応テーブルと、 前記受信した圧 縮方式情報をもとに最適な圧縮方式を選択して、 選択された圧縮方式を出力する 圧縮方式選択部 (1 1 O A) と、
前記選択された圧縮方式のィンデイクスを作成して、 作成された圧縮方式ィン デイクスを出力する圧縮方式インデイクス作成部 ( 1 0 9 ) と、 をさらに備え、 前記波形圧縮部 (1 0 2 B ) は、 作成された圧縮方式インデイクスを前記圧縮 された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 1 3項に記 載の端末。
2 2 . 前記波形 ·信号受信部 ( 1 0 4 B ) では、 入力された波形データと、 コンテンッ側から送信されたタスク情報と、 前記サーバ装置から送信される波形 データ再送要求信号と、 前記サーバ装置から送信された前記サーバ装置で利用可 能な圧縮方式情報とを受信し、
前記受信されたタスク情報を記憶して、 記憶されたタスク情報を出力するタス ク情報記憶部 (1 1 3 ) と、
タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テー ブルを記憶する圧縮方式 'タスク情報対応テーブル記憶部 (1 1 1 A) と、 前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受 信した場合、 前記記憶されたタスク情報と、 前記圧縮方式 'タスク対応テーブル 記憶部から送られたタスク情報と圧縮方式との対応テーブルと、 前記受信した圧 縮方式情報をもとに最適な圧縮方式を選択して、 選択された圧縮方式を出力する 圧縮方式選択部 ( 1 1 0 A) と、
前記選択された圧縮方式のィンデイクスを作成して、 作成された圧縮方式ィン デイクスを出力する圧縮方式インデイクス作成部 ( 1 0 9 ) と、 をさらに備え、 前記波形圧縮部 (1 0 2 B ) は、 作成された圧縮方式インデイクスを前記圧縮 された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 1 6項に記 載の端末。
2 3 . 前記波形 ·信号受信部 ( 1 0 4 B ) では、 入力された波形データと、 コンテンツ側から送信されたタスク情報と、 前記サーバ装置から送信される波形 データ再送要求信号と、 前記サーバ装置から送信された前記サーバ装置で利用可 能な圧縮方式情報とを受信し、
前記受信されたタスク情報を記憶して、 記憶されたタスク情報を出力するタス ク情報記憶部 (1 1 3 ) と、
タスク情報とそのタスク使用時に利用可能な 1個以上の圧縮方式の対応テー ブルを記憶する圧縮方式 'タスク情報対応テーブル記憶部 (1 1 1 A) と、 前記波形 ·信号受信部において前記サーバ装置で利用可能な圧縮方式情報を受 信した場合、 前記記憶されたタスク情報と、 前記圧縮方式 'タスク対応テーブル 記憶部から送られたタスク情報と圧縮方式との対応テーブルと、 前記受信した圧 縮方式情報をもとに最適な圧縮方式を選択して、 選択された圧縮方式を出力する 圧縮方式選択部 ( 1 1 0 A) と、 前記選択された圧縮方式のィンディクスを作成して、 作成された圧縮方式ィン デイクスを出力する圧縮方式インデイクス作成部 (1 09) と、 をさらに備え、 前記波形圧縮部 (1 02 B) は、 作成された圧縮方式インデイクスを前記圧縮 された波形データの一部に組み込む、 ことを特徴とする請求の範囲第 1 7項に記 載の端末。
24. 入力されたデータの音声区間を検出し、 該検出された音声区間の波形 データを圧縮し、 該圧縮された波形データを送信する端末 (100、 1 00A、 100 B、 1 00 C、 1 00 D、 1 00 E) に接続され、 前記端末とともに、 サ ーバ ' クライアント音声認識装置を構成するサーバ装置 (200、 20 OA, 2 00B、 200 C、 200D、 200 E) であって、
前記端末から送信された波形データを受信して、 受信された波形データを出力 する受信部 (201、 201 A、 201 B、 201 C、 201 D) と、
前記受信された波形データを伸張して、 伸張された波形データを出力する波形 伸張部 (202、 202 A、 202 B) と、
前記伸張された波形データを用いて認識処理を行い、 認識した結果を出力する 認識手段 (203、 203 A、 204、 204 A、 204B、 204C、 205、 205 A) と、
を備えている、 ことを特徴とするサーバ装置。
25. 前記受信部 (201 A、 201 B、 201 C、 201 D) で、 前記圧 縮波形データの受信に失敗した場合に、 波形データ再送要求信号を前記端末に送 信する波形データ再送要求信号送信部 (206) をさらに備えている、 ことを特 徴とする請求の範囲第 24項に記載のサーバ装置。
26. 前記端末において音声の検出後に該検出がキャンセルされた場合に送 信される始端キャンセル信号を前記受信部 (20 1 B、 201 C、 20 ID) が 受信した場合に、 前記受信部からの通知に基づき、 前記認識手段 (204A、 2 04B、 204 C) は認識処理を中止する、 ことを特徴とする請求の範囲第 24 項に記載のサーバ装置。
27. 前記受信部 (201 C) は、 前記端末から送信される圧縮方式要求信 号を受信して、 受信された圧縮方式要求信号を出力し、 前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 (2 1 2 ) と、
前記受信された圧縮方式要求信号に応答して、 前記圧縮方式記憶部に記憶され ている圧縮方式情報を取得し、 前記端末に圧縮方式情報を送信する圧縮方式取得 部 ( 2 1 1 ) と、
前記伸張されたデ一タから圧縮方式のィンデックスを取得して、 取得された圧 縮方式のインデックスを出力する圧縮方式インデックス取得部 (2 0 8 ) と、 前記取得された圧縮方式のインデックスから認識エンジンを選択して、 選択さ れた認識エンジンを出力する認識エンジン選択部 (2 0 9 ) と、
前記選択されたェンジンを記憶されているエンジンの中から設定する認識ェ ンジン設定部 ( 2 1 0 ) と、
を備えている、 ことを特徴とする請求の範囲第 2 4項に記載のサーバ装置。
2 8 . 前記受信部 (2 0 1 C) は、 前記端末から送信される圧縮方式要求信 号を受信して、 受信された圧縮方式要求信号を出力し、
前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 (2 1 2 ) と、
前記受信された圧縮方式要求信号に応答して、 前記圧縮方式記憶部に記憶され ている圧縮方式情報を取得し、 前記端末に圧縮方式情報を送信する圧縮方式取得 部 (2 1 1 ) と、
前記伸張されたデータから圧縮方式のィンデックスを取得して、 取得された圧 縮方式のインデックスを出力する圧縮方式インデックス取得部 ( 2 0 8 ) と、 前記取得された圧縮方式のィンデッタスから認識ェンジンを選択して、 選択さ れた認識エンジンを出力する認識エンジン選択部 ( 2 0 9 ) と、
前記選択されたエンジンを記憶されているエンジンの中から設定する認識ェ ンジン設定部 ( 2 1 0 ) と、
を備えている、 ことを特徴とする請求の範囲第 2 5項に記載のサーバ装置。
2 9 . 前記受信部 (2 0 1 C) は、 前記端末から送信される圧縮方式要求信 号を受信して、 受信された圧縮方式要求信号を出力し、
前記サーバ側で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 (2 1 2) と、
前記受信された圧縮方式要求信号に応答して、 前記圧縮方式記憶部に記憶され ている圧縮方式情報を取得し、 前記端末に圧縮方式情報を送信する圧縮方式取得 部 (21 1) と、
前記伸張されたデータから圧縮方式のィンデックスを取得して、 取得された圧 縮方式のィンデックスを出力する圧縮方式ィンデックス取得部 (208) と、 前記取得された圧縮方式のインデックスから認識エンジンを選択して、 選択さ れた認識エンジンを出力する認識エンジン選択部 (209) と、
前記選択されたエンジンを記憶されているエンジンの中から設定する認識ェ ンジン設定部 (2 1 0) と、
を備えている、 ことを特徴とする請求の範囲第 26項に記載のサーバ装置。
30. 前記波形伸張部 (202A) で伸張された波形データから合成音情報 を取得して、 取得された合成音情報を出力する合成音情報取得部 (207) をさ らに備え、 前記認識部 (204B) ,、 認識が終了した場合に前記取得された合 成音情報より合成音と認識結果との対応付けを行い、 対応付けされた認識結果、 又は認識結果と合成音情報を出力する、 ことを特徵とする請求の範囲第 24項に 記載のサーバ装置。
31. 前記波形伸張部 (202 A) で伸張された波形データから合成音情報 を取得して、 取得された合成音情報を出力する合成音情報取得部 (207) をさ らに備え、 前記認識部 (204B) 力 認識が終了した場合に前記取得された合 成音情報より合成音と認識結果との対応付けを行 、、 対応付けされた認識結果、 又は認識結果と合成音情報を出力する、 ことを特徴とする請求の範囲第 25項に 記載のサーバ装置。
32. 前記波形伸張部 (202 A) で伸張された波形データから合成音情報 を取得して、 取得された合成音情報を出力する合成音情報取得部 (207) をさ らに備え、 前記認識部 (204B) 力 S、 認識が終了した場合に前記取得された合 成音情報より合成音と認識結果との対応付けを行い、 対応付けされた認識結果、 又は認識結果と合成音情報を出力する、 ことを特徴とする請求の範囲第 26項に 記載のサーバ装置。
3 3 . 前記波形伸張部 (2 0 2 B ) で伸張された波形データから合成音情報 を取得して、 取得された合成音情報を出力する合成音情報取得部 (2 0 7 ) をさ らに備え、 前記認識部 (2 0 4 C) 力 S、 認識が終了した場合に前記取得された合 成音情報より合成音と認識結果との対応付けを行い、 対応付けされた認識結果、 又は認識結果と合成音情報を出力する、 ことを特徴とする請求の範囲第 2 7項に 記載のサーバ装置。
3 4 . 前記受信部 (2 0 1 D) 、 前記端末から送信される波形データと、 始端キャンセル信号と、 圧縮方式要求信号と、 コンテンツ側から送信されたタス ク情報とを受信し、
前記受信部で受信されたタスク情報を記憶して、 記憶されたタスク情報を出力 するタスク情報記憶部 (2 1 3 ) と、
タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧 縮方式 · タスク情報対応テーブル記憶部 (2 1 2 A) と、
前記受信部において圧縮方式要求信号を受信した場合に、 前記記憶されたタス ク情報と前記圧縮方式 · タスク情報対応テープル記憶部から送られたタスク情報 と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、 前記端末に 送信する圧縮方式取得部 (2 1 1 A) とをさらに備えている、 ことを特徴とする 請求の範囲第 2 4項に記載のサーバ装置。
3 5 . 前記受信部 (2 0 1 D) 力 前記端末から送信される波形データと、 始端キャンセル信号と、 圧縮方式要求信号と、 コンテンツ側から送信されたタス ク情報とを受信し、
前記受信部で受信されたタスク情報を記憶して、 記憶されたタスク情報を出力 するタスク情報記憶部 (2 1 3 ) と、
タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧 縮方式 · タスク情報対応テーブル記憶部 (2 1 2 A) と、
前記受信部において圧縮方式要求信号を受信した場合に、 前記記憶されたタス ク情報と前記圧縮方式 · タスク情報対応テーブル記憶部から送られたタスク情報 と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、 前記端末に 送信する圧縮方式取得部 (2 1 1 A) とをさらに備えている、 ことを特徴とする 請求の範囲第 25項に記載のサーバ装置。
36. 前記受信部 (201D) 力 前記端末から送信される波形データと、 始端キャンセル信号と、 圧縮方式要求信号と、 コンテンッ側から送信されたタス ク情報とを受信し、
前記受信部で受信されたタスク情報を記憶して、 記憶されたタスク情報を出力 するタスク情報記憶部 (213) と、
タスク情報と該タスク使用時に利用可能な 1個以上の圧縮方式を記憶する圧 縮方式 .タスク情報対応テーブル記憶部 (212 A) と、
前記受信部において圧縮方式要求信号を受信した場合に、 前記記憶されたタス ク情報と前記圧縮方式 ·タスク情報対応テーブル記憶部から送られたタスク情報 と圧縮方式との対応テーブルより利用可能な圧縮方式情報を取得し、 前記端末に 送信する圧縮方式取得部 (21 1A) とをさらに備えている、 ことを特徴とする 請求の範囲第 26項に記載のサーバ装置。
37. サーバ装置 (200) と端末 (100、 100 B) を有するサーバ · クライアントシステムの音声認識方法であって、
前記端末 (100、 100B) において、
入力されたデータの音声区間を検出するステップ (101) と、
前記検出された音声区間の波形データを圧縮するステップ (102) と、 前記圧縮された波形データを前記サーバ装置に送信するステップ (1 03) と、 を有し、
前記サーバ装置 (200、 200 B) において、
前記端末から出力された波形データを受信するステップ (201) と、 前記受信された波形データを伸張するステップ (202) と、
前記伸張された波形データを用いて認識処理を行い、 認識した結果を出力する ステップ (203, 204, 204A、 205) と、
を有する、 ことを特徴とする音声認識方法。
38. サーバ装置 (200A、 200 B、 200 C、 200D、 200 E、 200 F) と端末 (100A、 100B、 100C、 100D、 100E、 10 0 F) を有するサーバ ·クライアントシステムの音声認識方法であって、 前記端末 (100 A、 100 B、 100 C、 100D、 100 F) において、 入力された音声の波形データを受信するステップ (104、 104A、 104 B) と、
前記受信された波形データの音声区間を検出するステップ(101、 101 A) と、
前記検出された音声区間の波形データを圧縮するステップ(102、 102B) と、
前記圧縮された波形データを波形記憶部 (105) に一時記憶しながら前記サ —バ装置に送信するステップ (103) と、
前記サーバ装置から送信される波形データ再送要求信号を受信した場合に、 波 形記憶部 (105) に記憶された波形データを、 前記サーバ装置に送信するステ ップ (1 04, 104A、 104B、 103) と、
を有し、
前記サーバ装置 (200 A、 200B、 200 C、 200 D、 200 E) に おいて、
前記端末から出力される波形データを受信するステップ (2◦ 1 A、 201 B、
201 C、 201 D) と、
前記受信された波形データを伸張するステップ (202、 202 B) と、 前記伸張された波形データを用いて認識処理を行い、 認識した結果を出力する ステップ (203, 203 A、 204, 204 A、 204C、 205、 205 A) と、
前記端末から送信される圧縮波形データの受信に失敗した場合には、 波形デー タ再送要求信号を前記端末に送信するステップ (206) と、
を有する、 ことを特徵とする音声認識方法。
39. 前記端末 (100B) において、
音声の検出後に該検出がキャンセルされた場合、 始端キャンセル信号を前記サ —パ装置に送信するステップ (106) をさらに有し、
前記サーバ装置 (200 B) において、
前記端末からの前記始端キヤンセル信号を受信した場合に、 認識処理を中止す るステップ (201 B, 204A) を有する、 ことを特徴とする請求の範囲第 3 7項記載の音声認識方法。
40. 前記端末 (100B、 100D、 100C、 100E、 100 F) に おいて、
音声の検出後に該検出がキャンセルされた場合、 始端キャンセル信号を前記サ ーバ装置に送信するステップ (106) をさらに有し、
前記サーバ装置 (200B、 200D、 200C、 200E、 200 F) に おいて、
前記端末からの前記始端キャンセル信号を受信した場合に、 認識処理を中止す るステップ (201 B, 201 C、 201 D、 204 A、 204 C) を有する、 ことを特徴とする請求の範囲第 38項記載の音声認識方法。
41. 前記端末 (100D) において、
前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報を受 信するステップ (104 A) と、
前記受信した圧縮方式情報により最適な圧縮方式を選択するステップ (1 1 0) と、
前記選択された圧縮方式のィンデックスを作成するステップ (109) と、 音声区間の波形データを圧縮し、 作成された圧縮方式ィンデックスを圧縮され た波形データの一部に組み込んで、 前記サーバ装置に送信するステップ (102 B, 105, 103) と、
さらにを有し、
前記サーバ装置 (200D) において、
前記端末から送信される圧縮方式要求信号を受信した場合に、 前記サーバ側で 利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 (212) に記憶されてい る圧縮方式情報を取得し、前記端末に圧縮方式情報を送信するステップ(211) と、
伸張されたデータから圧縮方式のィンデックスを取得するステップ (208) と、
前記取得された圧縮方式のィンデックスから認識エンジンを選択するステツ プ ( 209 ) と、
前記選択されたエンジンを記憶されているエンジンの中から設定するステツ プと (21 0)、
さらにを有する、 ことを特徴とする請求の範囲第 38項記載の音声認識方法。 42. 前記端末 (100D、 1 0 OF) において、
前記サーバ装置から送信された前記サーバ側で利用可能な圧縮方式情報を受 信するステップ (1 04 A) と、
前記受信した圧縮方式情報により最適な圧縮方式を選択するステップ (1 1 0) と、
前記選択された圧縮方式のィンデックスを作成するステツプ (1 09) と、 音声区間の波形データを圧縮し、 作成された圧縮方式ィンデックスを圧縮され た波形データの一部に組み込んで、 前記サーバ装置に送信するステップ (1 02
B, 105, 103) と、
を有し、
前記サーバ装置 (200D、 2 O OF) において、
前記端末から送信される圧縮方式要求信号を受信した場合に、 前記サーバ側で 利用可能な圧縮方式の情報を記憶する圧縮方式記憶部 (21 2) に記憶されてい る圧縮方式情報を取得し、前記端末に圧縮方式情報を送信するステップ(21 1) と、
伸張されたデータから圧縮方式のインデックスを取得するステップ (208) と、
前記取得された圧縮方式のィンデッタスから認識ェンジンを選択するステツ プ (209) と、
前記選択されたエンジンを記憶されているエンジンの中から設定するステツ プと (2 1 0)、
を有する、 ことを特徴とする請求の範囲第 40項記載の音声認識方法。
43. 前記端末 (100D、 1 00E、 1 00 F) において、
合成音を合成するステップ (1 07) と、
前記合成された合成音の情報を作成し、 合成音を出力するステップ (1 08) と、
検出された音声区間の波形データを圧縮し、 前記作成された合成音情報を前記 波形データの一部に組み込んで、 前記サーバ装置に送信するステップ (102B, 105、 103) と、
をさらに含み、
前記サーバ装置 (200D、 200 E、 200 F) において、
前記伸張されたデータから合成音情報を取得するステップ (207) を有し、 認識が終了した場合に、 前記取得された合成音情報より合成音と認識結果との 対応付けを行い、 対応付けされた認識結果、 又は認識結果と合成音情報を出力す る (204C)、 ことを特徴とする請求の範囲第 38項に記載の音声認識方法。
44. 前記端末 (100 D、 100E、 100 F) において、
合成音を合成するステップ (107) と、
前記合成された合成音の情報を作成し、 合成音を出力するステップ (1 08) と、
検出された音声区間の波形データを圧縮し、 前記作成された合成音情報を前記 波形データの一部に組み込んで、 前記サーバ装置に送信するステップ (102B, 105, 103) と、
をさらに含み、
前記サーバ装置 (200 D、 200E、 200 F) において、
前記伸張されたデータから合成音情報を取得するステップ (207) を有し、 認識が終了した場合に、 前記取得された合成音情報より合成音と認識結果との 対応付けを行い、 対応付けされた認識結果、 又は認識結果と合成音情報を出力す る (204 C)、 ことを特徴とする請求の範囲第 40項に記載の音声認識方法。
45. 前記端末 (100 D、 100 F) において、
合成音を合成するステップ (107) と、
前記合成された合成音の情報を作成し、 合成音を出力するステップ (108) と、
検出された音声区間の波形データを圧縮し、 前記作成された合成音情報を前記 波形データの一部に組み込んで、 前記サーバ装置に送信するステップ (102B, 1 0 5, 1 0 3) と、
をさらに含み、
前記サーバ装置 (200D、 2 0 O F) において、
前記伸張されたデータから合成音情報を取得するステップ (20 7) を有し、 認識が終了した場合に、 前記取得された合成音情報より合成音と認識結果との 対応付けを行い、 対応付けされた認識結果、 又は認識結果と合成音情報を出力す る (204 C)、 ことを特徴とする請求の範囲第 4 2項に記載の音声認識方法。
46. 前記サーバ装置 (200 E) において、
コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部 ( 2 1 3) に記憶するステップ (20 1 D) と、
圧縮方式要求信号を受信した場合に、 タスク情報と、 圧縮方式との対応テープ ル (2 1 2 A) より、 利用可能な圧縮方式情報を取得し、 前記端末に送信するス テツプ (2 0 1 D, 2 1 1 A) をさらに有することを特徴とする請求の範囲第 3 8項に記載の音声認識方法。
47. 前記サーバ装置 (20 0 E) において、
コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部 (2 1 3) に記憶するステップ (20 1 D) と、
圧縮方式要求信号を受信した場合に、 タスク情報と、 圧縮方式との対応テープ ル (2 1 2A) より、 利用可能な圧縮方式情報を取得し、 前記端末に送信するス テツプ (2 0 1 D, 2 1 1 A) をさらに有することを特徴とする請求の範囲第 4 0項に記載の音声認識方法。
48. 前記サーバ装置 (20 0 E) において、
コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部 (2 1 3) に記憶するステップ (2 0 1 D) と、
圧縮方式要求信号を受信した場合に、 タスク情報と、 圧縮方式との対応テープ ル (2 1 2 A) より、 禾 lj用可能な圧縮方式情報を取得し、 前記端末に送信するス テツプ (2 0 1 D, 2 1 1 A) をさらに有することを特徴とする請求の範囲第 4 3項に記載の音声認識方法。
4 9. 前記サーバ装置 (200 E) において、 コンテンツ側から送信されたタスク情報を受信してタスク情報記憶部 (2 1 3) に記憶するステップ (201 D) と、
圧縮方式要求信号を受信した場合に、 タスク情報と、 圧縮方式との対応テープ ル (2 1 2A) より、 利用可能な圧縮方式情報を取得し、 前記端末に送信するス テツプ (20 1 D, 21 1 A) をさらに有することを特徴とする請求の範囲第 4 4項に記載の音声認識方法。
50. 前記端末 (1 0 O F) において、
コンテンッ側から送信されたタスク情報と、 前記サーバ装置から送信された前 記サーバ側で利用可能な圧縮方式情報とを受信するステップ (1 04B) と、 前記サーバ側で利用可能な圧縮方式情報を受信した場合に、 前記タスク情報と、 圧縮方式 ' タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧 縮方式との対応テーブルと、 サーバ装置で利用可能な圧縮方式情報をもとに最適 な圧縮方式を選択するステップ (1 1 OA) と、
をさらに有する、 ことを特徴とする請求の範囲第 40項記載の音声認識方法。
51. 前記端末 (1 0 O F) において、
コンテンッ側から送信されたタスク情報と、 前記サーバ装置から送信された前 記サーバ側で利用可能な圧縮方式情報とを受信するステップ (1 04B) と、 前記サーバ側で利用可能な圧縮方式情報を受信した場合に、 前記タスク情報と、 圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧 縮方式との対応テーブルと、 サーバ装置で利用可能な圧縮方式情報をもとに最適 な圧縮方式を選択するステップ (1 1 OA) と、
をさらに有する、 ことを特徴とする請求の範囲第 40項記載の音声認識方法。
52. 前記端末 (1 00 F) において、
コンテンッ側から送信されたタスク情報と、 前記サーバ装置から送信された前 記サーバ側で利用可能な圧縮方式情報とを受信するステップ (1 04B) と、 前記サーバ側で利用可能な圧縮方式情報を受信した場合に、 前記タスク情報と、 圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧 縮方式との対応テーブルと、 サーバ装置で利用可能な圧縮方式情報をもとに最適 な圧縮方式を選択するステップ (1 1 0A) と、 をさらに有する、 ことを特徴とする請求の範囲第 43項記載の音声認識方法。 53. 前記端末 (1 0 O F) において、
コンテンッ側から送信されたタスク情報と、 前記サーバ装置から送信された前 記サーバ側で利用可能な圧縮方式情報とを受信するステップ U 04B) と、 前記サーバ側で利用可能な圧縮方式情報を受信した場合に、 前記タスク情報と、 圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧 縮方式との対応テーブルと、 サーバ装置で利用可能な圧縮方式情報をもとに最適 な圧縮方式を選択するステップ (1 1 OA) と、
をさらに有する、 ことを特徴とする請求の範囲第 44項記載の音声認識方法。
54. 前記端末 (1 0 O F) において、
コンテンッ側から送信されたタスク情報と、 前記サーバ装置から送信された前 記サーバ側で利用可能な圧縮方式情報とを受信するステップ (104B) と、 前記サーバ側で利用可能な圧縮方式情報を受信した場合に、 前記タスク情報と、 圧縮方式 ·タスク対応テーブル記憶部 (1 1 1 A) から送られたタスク情報と圧 縮方式との対応テーブルと、 サーバ装置で利用可能な圧縮方式情報をもとに最適 な圧縮方式を選択するステップ (1 1 OA) と、
をさらに有する、 ことを特徴とする請求の範囲第 45項記載の音声認識方法。
PCT/JP2002/006156 2001-06-20 2002-06-20 Server-client type speech recognition apparatus and method WO2003001511A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP02743659A EP1411499B1 (en) 2001-06-20 2002-06-20 Server; client type speech recognition apparatus and method
DE60229392T DE60229392D1 (de) 2001-06-20 2002-06-20 Spracherkennungsvorrichtung und verfahren des server-client-typs
US10/481,324 US7478046B2 (en) 2001-06-20 2002-06-20 Server-client type speech recognition apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001186926A JP3885523B2 (ja) 2001-06-20 2001-06-20 サーバ・クライアント型音声認識装置及び方法
JP2001-186926 2001-06-20

Publications (1)

Publication Number Publication Date
WO2003001511A1 true WO2003001511A1 (en) 2003-01-03

Family

ID=19026294

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/006156 WO2003001511A1 (en) 2001-06-20 2002-06-20 Server-client type speech recognition apparatus and method

Country Status (5)

Country Link
US (1) US7478046B2 (ja)
EP (2) EP1926088A3 (ja)
JP (1) JP3885523B2 (ja)
DE (1) DE60229392D1 (ja)
WO (1) WO2003001511A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
JP4368138B2 (ja) 2003-05-02 2009-11-18 ソニー株式会社 ネットワークシステム、電子機器端末およびサーバ装置並びにコンテンツの配信再生方法
US7835728B2 (en) 2004-03-18 2010-11-16 Nec Corporation Voice processing unit and system, and voice processing method
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US8626152B2 (en) 2008-01-31 2014-01-07 Agero Connected Sevices, Inc. Flexible telematics system and method for providing telematics to a vehicle
EP2483777A4 (en) * 2009-09-30 2016-05-11 Altera Corp ENHANCED EXCHANGE OF WAVEFORM DATA BETWEEN MULTIPLE PROCESSORS USING COMPRESSION AND DECOMPRESSION
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
JP5524131B2 (ja) * 2011-05-30 2014-06-18 日本電信電話株式会社 テキスト及び音声特徴量収集方法、そのシステム、プログラム
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
JP6275606B2 (ja) 2014-09-17 2018-02-07 株式会社東芝 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566793A (ja) * 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd 音声入力装置
JPH05181493A (ja) * 1991-12-27 1993-07-23 Toshiba Corp 音声認識装置
JPH09106300A (ja) * 1995-10-13 1997-04-22 Fujitsu Ltd 音声の符号・復号方式
JPH09275391A (ja) * 1996-04-04 1997-10-21 Oki Electric Ind Co Ltd 情報符号化装置及び情報復号装置
JPH11110913A (ja) * 1997-10-01 1999-04-23 Sony Corp 音声情報伝送装置及び方法、並びに音声情報受信装置及び方法、並びに記録媒体
JP2000224226A (ja) * 1999-01-27 2000-08-11 Denso Corp 誤り制御方式及び装置、送信及び受信制御装置
JP2001118330A (ja) * 1999-10-18 2001-04-27 Yamaha Corp データ生成方法、記録装置、記録媒体、および再生装置
JP2001144663A (ja) * 1999-11-16 2001-05-25 Toyo Commun Equip Co Ltd 部分再送データを用いた時間ダイバーシチ回路

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2545914B2 (ja) * 1988-02-09 1996-10-23 日本電気株式会社 音声認識方法
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
JPH0296800A (ja) * 1988-10-03 1990-04-09 Nec Corp 連続音声認識装置
JP2841404B2 (ja) * 1989-01-12 1998-12-24 日本電気株式会社 連続音声認識装置
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
US5884269A (en) * 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
JP2991287B2 (ja) * 1997-01-28 1999-12-20 日本電気株式会社 抑制標準パターン選択式話者認識装置
JPH10243048A (ja) 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 情報伝送方法及びシステム
JP4203140B2 (ja) * 1997-03-25 2008-12-24 パナソニック株式会社 ストリームデータ転送方法およびシステム
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
US6775652B1 (en) * 1998-06-30 2004-08-10 At&T Corp. Speech recognition over lossy transmission systems
JP2000040051A (ja) 1998-07-23 2000-02-08 Toyo Commun Equip Co Ltd クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置
JP3014366B2 (ja) 1998-08-12 2000-02-28 日本電信電話株式会社 インターネット電話通信方法及び装置、及びそのプログラムを記録した記録媒体
US6336090B1 (en) * 1998-11-30 2002-01-01 Lucent Technologies Inc. Automatic speech/speaker recognition over digital wireless channels
JP2000194700A (ja) 1998-12-25 2000-07-14 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000268047A (ja) 1999-03-17 2000-09-29 Sony Corp 情報提供システム、クライアント、情報提供サーバ及び情報提供方法
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP2001142488A (ja) 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
JP2001195087A (ja) 2000-01-06 2001-07-19 Mitsubishi Electric Corp 音声認識システム
JP3322262B2 (ja) * 2000-12-22 2002-09-09 日本電気株式会社 無線携帯端末通信システム
US6760705B2 (en) * 2001-05-31 2004-07-06 Motorola, Inc. Virtual speech interface system and method of using same
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7835728B2 (en) * 2004-03-18 2010-11-16 Nec Corporation Voice processing unit and system, and voice processing method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566793A (ja) * 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd 音声入力装置
JPH05181493A (ja) * 1991-12-27 1993-07-23 Toshiba Corp 音声認識装置
JPH09106300A (ja) * 1995-10-13 1997-04-22 Fujitsu Ltd 音声の符号・復号方式
JPH09275391A (ja) * 1996-04-04 1997-10-21 Oki Electric Ind Co Ltd 情報符号化装置及び情報復号装置
JPH11110913A (ja) * 1997-10-01 1999-04-23 Sony Corp 音声情報伝送装置及び方法、並びに音声情報受信装置及び方法、並びに記録媒体
JP2000224226A (ja) * 1999-01-27 2000-08-11 Denso Corp 誤り制御方式及び装置、送信及び受信制御装置
JP2001118330A (ja) * 1999-10-18 2001-04-27 Yamaha Corp データ生成方法、記録装置、記録媒体、および再生装置
JP2001144663A (ja) * 1999-11-16 2001-05-25 Toyo Commun Equip Co Ltd 部分再送データを用いた時間ダイバーシチ回路

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SATORU IMAI: "Onsei shingo shori", 30 November 1996, MORIKITA SHUPPAN CO., LTD., pages: 48 - 49, XP002955100 *
See also references of EP1411499A4 *

Also Published As

Publication number Publication date
EP1926088A2 (en) 2008-05-28
EP1411499A4 (en) 2005-12-21
JP2003005949A (ja) 2003-01-10
US7478046B2 (en) 2009-01-13
JP3885523B2 (ja) 2007-02-21
EP1411499A1 (en) 2004-04-21
US20040243414A1 (en) 2004-12-02
EP1411499B1 (en) 2008-10-15
EP1926088A3 (en) 2008-06-11
DE60229392D1 (de) 2008-11-27

Similar Documents

Publication Publication Date Title
US7519536B2 (en) System and method for providing network coordinated conversational services
JP4212809B2 (ja) 音声認識に基づく情報信号の供給する方法および装置
EP1125279B1 (en) System and method for providing network coordinated conversational services
JP5306503B2 (ja) 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置
JP6139598B2 (ja) オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
CN1653521B (zh) 用于音频代码转换中的自适应码本音调滞后计算的方法
JP2003295890A (ja) 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
KR20040028784A (ko) 분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법및 장치
AU8355398A (en) A vocoder-based voice recognizer
WO2013027360A1 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
JP2003044091A (ja) 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP2003511924A (ja) ローカルなインターラプト検出に基づく音声認識技術
WO2001099096A1 (fr) Systeme de communication a entree vocale, terminal d&#39;utilisateur et systeme central
US6195636B1 (en) Speech recognition over packet networks
WO2003001511A1 (en) Server-client type speech recognition apparatus and method
US20020077811A1 (en) Locally distributed speech recognition system and method of its opration
US7050974B1 (en) Environment adaptation for speech recognition in a speech communication system
TWI282547B (en) A method and apparatus to perform speech recognition over a voice channel
JP2004515859A (ja) インターネット・アクセス用分散型音声認識
JP2000151827A (ja) 電話音声認識システム
Annapurna et al. Transmission by an Embedded System with Enhancements in Voice Processing Technologies
JP2002099298A (ja) 音声認識システム
JPH10289092A (ja) 情報処理システムおよび情報管理方法
JP2003259013A (ja) 問い合わせ方法および問い合わせシステム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AU CA US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BE DE FR GB IT

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2002743659

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2002743659

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10481324

Country of ref document: US