WO2001099096A1 - Systeme de communication a entree vocale, terminal d'utilisateur et systeme central - Google Patents

Systeme de communication a entree vocale, terminal d'utilisateur et systeme central Download PDF

Info

Publication number
WO2001099096A1
WO2001099096A1 PCT/JP2001/005174 JP0105174W WO0199096A1 WO 2001099096 A1 WO2001099096 A1 WO 2001099096A1 JP 0105174 W JP0105174 W JP 0105174W WO 0199096 A1 WO0199096 A1 WO 0199096A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
recognition
user
phoneme
input
Prior art date
Application number
PCT/JP2001/005174
Other languages
English (en)
French (fr)
Inventor
Shin Kamiya
Original Assignee
Sharp Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Kabushiki Kaisha filed Critical Sharp Kabushiki Kaisha
Priority to US10/311,768 priority Critical patent/US7225134B2/en
Publication of WO2001099096A1 publication Critical patent/WO2001099096A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the present invention relates to a voice input communication system for performing an information service via a communication line, an information service via a home network, and a device control via a home network by voice.
  • FIG. 11 shows a flowchart of a speech recognition / information processing operation performed by a conventional speech input information processing system.
  • step S1 an audio waveform is input to the user terminal.
  • step S2 the input voice waveform data is transmitted to the center system via a communication line.
  • step S3 the waveform analysis is performed on the center system side.
  • phoneme recognition is performed in step S4
  • word recognition is performed in step S5
  • sentence recognition is performed in step S6.
  • the application program is executed in step S7 according to the voice input sentence obtained as a result of the language processing.
  • the voice waveform data is transmitted to the center system via the communication line, the user's voice is distorted, and the voice recognition on the center system is difficult. It is. Furthermore, when speaker-independent speech recognition is used to handle a large number of users, there is a certain probability that a speaker with low recognition performance exists.
  • a specific speaker voice recognition function or a speaker-adapted voice recognition function is provided on the user terminal side, and the vocabulary grammar information necessary for recognition is sent from the center system to the communication line.
  • a voice input information processing system for example, Japanese Patent Application Laid-Open No. H8-65889
  • Figure 12 shows The flowchart of the voice recognition / information processing operation by the voice input information processing system as described above is shown.
  • step S11 vocabulary grammar information communication is performed between the user terminal side and the center system side, and vocabulary grammar information necessary for recognition is transmitted from the center system side to the user terminal side.
  • step S12 an audio waveform is input to the user terminal.
  • step S13 a waveform analysis is performed.
  • step S14 speaker-applied phoneme recognition is performed, word recognition is performed in step S15, sentence recognition is performed in step S16, and the recognition result is transmitted to the center system side.
  • step S17 the center system executes the application program according to the voice input sentence obtained at the user terminal.
  • the above-mentioned conventional voice input information processing system in which the voice recognition function is provided on the user terminal side has the following problems. That is, in this speech input information processing system, high speech recognition performance can be realized. However, every time the application changes, it is necessary to send information about the vocabulary and grammar according to the application from the center system to the user terminal via the communication line. If the communication speed of the application is low, there is a problem that the waiting time for information transfer occurring when the application is switched is troublesome.
  • user terminals are mobile devices such as mobile phones and PDAs (personal digital assistants). In such cases, there is a problem in terms of power consumption. Disclosure of the invention
  • an object of the present invention is to provide a voice input communication system capable of obtaining high recognition performance even with voice input from a user terminal having low power consumption, and a user terminal used in the voice input communication system. Center system.
  • the present invention provides a user system having a user terminal, A plurality of parts having different functions in a voice input communication system in which a center system is connected via a first communication line and an instruction is given by voice from the user terminal to the center system. And a voice instruction recognition processing means for recognizing the instruction content from a result of the waveform analysis of the input voice instruction.
  • the plurality of partial voice instruction recognition processing means includes the user system and the center. It is characterized by being provided separately with the system.
  • the first communication line is transmitted from the user system to the center system as in the case where all functions such as the voice recognition function, the word recognition and the sentence recognition functions of the voice instruction recognition processing means are provided in the center system. There is no need to send the input audio waveform via the. Therefore, it is possible to prevent the recognition rate of the voice instruction from being lowered due to the transmission distortion of the input voice waveform. Further, unlike the case where all functions of the voice instruction recognition processing means are provided in the user system, there is no need to transmit vocabulary grammar information from the center system to the user system. Therefore, there is no waiting time during the transmission of the vocabulary grammar information when the voice instruction is switched, and prompt voice instruction recognition is performed. Furthermore, the recognition processing load on the user system is reduced.
  • the user system in the voice input communication system of the present invention, includes a user system connected to the user terminal via a second communication line. Is connected to the center system via the first communication line.
  • the partial voice instruction recognition processing means held in the user system can be further held separately in the user terminal and the user system. Therefore, the recognition processing load on the user terminal is further reduced, and the processing speed can be increased. As a result, even if the user terminal is a low-power mobile device such as a mobile phone or a PDA, it is possible to cope with a large number of vocabulary words and voice instructions.
  • a plurality of the above-mentioned center systems exist, and each center system is connected via a third communication line.
  • the partial voice instruction recognition processing held in the center system can be further distributed and held by a plurality of center systems. Also, it becomes possible to separate a center system that performs voice instruction recognition processing from a center system that performs application processing according to the recognized instruction content. Also, it becomes possible to give an instruction from the user terminal to a different center system by voice.
  • At least the final stage center system includes output control means for outputting the instruction content recognized by the voice instruction recognition processing means.
  • the partial voice instruction for recognizing an input voice and outputting an intermediate recognition result is provided to one of the user terminal and the user side system in the user system.
  • Voice recognition means as recognition processing means; and transmission control means for transmitting the intermediate recognition result to the center system via the first communication line.
  • the input voice is recognized by the voice recognition means to obtain an intermediate recognition result, and the intermediate recognition result is transmitted by the transmission control means to the center via the first communication line. Sent to the system. In this way, the intermediate recognition result having less transmission distortion as compared with the case of transmitting a voice waveform is transmitted via the communication line, thereby preventing a reduction in the recognition rate.
  • At least one center system uses a vocabulary grammar memory for storing a vocabulary grammar, and the vocabulary grammar for an intermediate recognition result from the user system.
  • a language processing means is provided as the partial voice instruction recognition processing means for performing language processing.
  • the language processing means uses the vocabulary grammar for the intermediate recognition result from the user system. Processing is performed to eliminate erroneous recognition candidates and obtain linguistically correct instructions. Thus, the user terminal An accurate instruction content of the input voice instruction can be obtained.
  • the speech recognition means is a phoneme recognition means or a syllable recognition means
  • the intermediate recognition result is a phoneme lattice or a syllable lattice.
  • an intermediate recognition result with less transmission distortion as compared to the case of transmitting a speech waveform can be easily obtained as a phoneme lattice or a syllable lattice.
  • a phoneme similarity sequence for each analysis frame is an average for each of a plurality of continuous analysis frames.
  • a phoneme similarity sequence is used.
  • the processing load on the phoneme recognition means is reduced by using a phoneme similarity sequence for each analysis frame or an average phoneme similarity sequence for each of a plurality of consecutive analysis frames as the intermediate recognition result. Become. Therefore, it is possible to mount the phoneme recognition means on a user terminal having low processing capability.
  • the first communication line and the second and third communication lines are different types of communication lines.
  • the first communication line connecting the user system and the center system is a WAN (wide 'area' network), and the user terminal and the user side system are connected in the user system.
  • WAN wide 'area' network
  • the user terminal and the user side system are connected in the user system.
  • LAN local area network
  • different user terminals in the branch office can connect to the main office in Tokyo. It is possible to give voice instructions to different center systems.
  • a voice synthesis control parameter of voice content to be voiced by a user is generated in at least one of the center systems, and the voice synthesis control parameter is generated via the first communication line.
  • An utterance instructing means for transmitting the utterance content to the user system based on the voice synthesis control parameter provided through the first communication line and provided to the user terminal in the user system.
  • Voice synthesis means for generating a synthesized voice; input means provided in one of the user terminal and the user side system in the user system;
  • a waveform analysis means for analyzing the waveform of the input voice to extract the characteristics of the input voice and transmit the extracted voice to the center system via the first communication line, and a center system provided with the voice instruction means.
  • the synthesized voice of the utterance content is output by the voice synthesis means of the user system based on the voice synthesis control parameter of the utterance content transmitted from the utterance instruction means of the center system. Then, the characteristics of the voice uttered by the user in accordance with the voice content of the synthesized voice are extracted by the waveform analysis means of the user system and transmitted to the center system. Then, the speaker is recognized by the speaker recognition means of the center system based on the characteristics of the input voice.
  • the user system and the center system perform the text designation type speaker recognition via the first communication line. Therefore, it is possible to execute the processing according to the voice instruction only when the voice instruction is given by the specific user.
  • the user terminal of the present invention includes a phoneme recognition unit that recognizes input speech in units of phonemes to generate a phoneme lattice, and a transmission control unit that transmits the phoneme lattice via a communication line. It is characterized by.
  • the phoneme lattice as the intermediate recognition result is transmitted. Therefore, unlike the case where the input voice waveform is transmitted via the communication line, the recognition rate of the input voice does not decrease due to the transmission distortion.
  • the present invention is a center system for transmitting and receiving information to and from a user system via a communication line, wherein the receiving unit receives a phoneme lattice transmitted via the communication line, and a vocabulary grammar is stored. It is characterized by comprising a vocabulary grammar memory and language processing means for performing language processing on the phoneme lattice using the vocabulary grammar.
  • the intermediate sent from the user system via the communication line Linguistic processing using vocabulary grammar is performed on the phoneme lattice that is the recognition result. Therefore, as in the case of performing speech waveform analysis, phoneme recognition, and linguistic processing on the input speech waveform transmitted via the communication line, the recognition rate of the input speech is reduced due to transmission distortion. There is no. BRIEF DESCRIPTION OF THE FIGURES
  • FIG. 1 is a block diagram of the voice input communication system of the present invention.
  • FIG. 2 is a specific block diagram of the voice input communication system shown in FIG.
  • FIG. 3 is a flowchart showing a speech recognition / information processing operation by the speech input communication system shown in FIG.
  • FIG. 4 is a diagram showing an example of a phoneme lattice generated by the phoneme recognition means in FIG.
  • FIG. 5 is a diagram showing an example of a time series of phoneme similarity for each analysis frame.
  • FIG. 6 is a diagram showing an example of a time series of the average phoneme similarity for each of a plurality of continuous analysis frames.
  • FIG. 7 is a specific block diagram different from FIG. 2 of the voice input communication system shown in FIG.
  • FIG. 8 is a flowchart of a speech recognition / information processing operation by the speech input communication system shown in FIG.
  • FIG. 9 is a specific block diagram different from FIGS. 2 and 1 of the voice input communication system shown in FIG.
  • FIG. 10 is a flowchart of a voice recognition / information processing operation by the voice input communication system shown in FIG.
  • FIG. 11 is a flowchart of a voice recognition / information processing operation by a conventional voice input information processing system.
  • FIG. 12 is a flowchart of a voice recognition / information processing operation by a conventional voice input information processing system different from FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 12 is a flowchart of a voice recognition / information processing operation by a conventional voice input information processing system different from FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a block diagram showing a basic configuration of the voice input communication system according to the present embodiment.
  • 1 is a user system and 2 is a center system.
  • User system 1 and center system 2 are connected by communication line 3.
  • the user system 1 and the center system 2 are equipped with voice instruction recognition processing means 4 and 5, and the voice instruction recognition processing means 4 processes the input voice data, while the voice instruction recognition processing means 5 The processing result of the preceding voice instruction recognition processing means 4 is further processed. Further, the user system 1 is equipped with a transmission control means 6 for transmitting the processing result of the voice instruction recognition processing means 4 to the subsequent center system 2 via the communication line 3. Also, the center system 2 includes a reception control means 7 for receiving the processing result of the preceding voice instruction recognition processing means 4 via the communication line 3, and a processing result of the own voice instruction recognition processing means 5 for voice. Output control means 8 for outputting as instruction contents is mounted.
  • the voice instruction recognition processing means 4.5, transmission control means 6, reception control means 7, and output control means 8 mounted on the user system 1 and the center system 2 are separate LSIs (large-scale integrated circuits). ).
  • each of the user system 1 and the center system 2 may be configured by a peripheral terminal having a CPU (Central Processing Unit) and a communication function.
  • the communication line 3 may be either LAN or AN, or may be wired or wireless.
  • the case where the communication line 3 is WAN is described as an example.
  • the voice instruction recognition processing means 4 and 5 mounted on the user system 1 and the center system 2 collectively recognize the voice instruction input to the user system 1 and obtain the voice instruction content. I have.
  • the voice instruction recognition processing means 4 of the user system 1 analyzes, for example, an input voice waveform and performs phoneme recognition or syllable recognition. Then, a phoneme lattice or a syllable lattice is output as an intermediate recognition result.
  • the voice instruction recognition processing means 5 of the system 2 performs language processing on the intermediate recognition result such as the received phoneme lattice or the syllable lattice. Then, the final voice instruction is obtained.
  • the user system 1 and the center system 2 may be divided into a plurality of units of the voice instruction recognition processing means 4 and 5 mounted on the system and connected by a communication line. Further, another processing system may be added.
  • the voice instruction recognition processing means 4 has an input voice waveform analysis function and a phoneme recognition (or syllable recognition) function. Therefore, it is divided into a first device equipped with voice instruction recognition processing means for performing waveform analysis processing of an input voice and a second device equipped with voice instruction recognition processing means for performing phoneme recognition (or syllable recognition) processing. Connect with a communication line. Then, the first device is equipped with transmission control means for transmitting the waveform analysis result, and the second device is equipped with reception control means for receiving the waveform analysis result.
  • the sharing of processing by the voice instruction recognition processing means of the first device and the voice instruction recognition processing means of the second device is not limited to the above.
  • the voice instruction recognition processing means of the first device simply digitally converts the input voice waveform and outputs the result as a processing result.
  • the voice instruction recognition processing means of the second device performs both the waveform analysis processing and the phoneme recognition processing (or syllable recognition processing), and as a processing result, the intermediate recognition result of the phoneme lattice (or syllable lattice). May be output.
  • the communication distortion of the voice waveform can be minimized.
  • both the waveform analysis processing and the phoneme recognition processing are performed by the voice instruction recognition processing means of the first device, and the intermediate recognition result of the phoneme lattice (or the syllable lattice) is obtained as a processing result. May be transmitted to the second device.
  • the voice instruction recognition processing means In the case of the center system 2, the voice instruction recognition processing means
  • the third device equipped with voice instruction recognition processing means for performing word recognition processing and the fourth device equipped with voice instruction recognition processing means for performing sentence recognition processing are divided and connected by a communication line.
  • the third device is provided with transmission control means for transmitting the word recognition result (word lattice), and the fourth device is provided with a transmission control means. Is equipped with reception control means for receiving the word recognition and recognition results.
  • the sharing of processing by the voice instruction recognition processing means of the third device and the voice instruction recognition processing means of the fourth device is not limited to the above.
  • the voice instruction recognition processing means of the third device performs both a word recognition process and a sentence recognition process, and outputs a voice instruction content as a processing result. Then, the voice instruction recognition processing means on the fourth device side passes the received voice instruction content to the control unit that executes the application as it is.
  • the voice instruction recognition processing means of the third device transmits the received phoneme lattice (or syllable lattice) from the user system 1 to the fourth device as it is.
  • the voice instruction recognition processing means of the fourth device performs both the word recognition processing and the sentence recognition processing, and outputs the contents of the voice instruction as a processing result.
  • each of the voice instruction recognition processing means of the third device and the fourth device may perform both the word recognition processing and the sentence recognition processing and output the voice instruction content as a processing result.
  • the voice instruction recognition processing means 4 and the transmission control means 6 are mounted when constructing a voice input communication system for recognizing the input voice instruction and obtaining the voice instruction content.
  • the user system 1 connected to the center system 2 equipped with the reception control means 7, the voice instruction recognition processing means 5, and the output control means 8 is connected by a communication line (WAN) 3.
  • WAN communication line
  • the voice instruction recognition processing means 4 of the user system 1 and the voice instruction recognition processing means 5 of the center system 2 share the processing of analyzing and recognizing the input voice instruction to obtain the voice instruction content. I have. Therefore, a high recognition result can be obtained without lowering the recognition rate due to the distortion of the transmission of the voice waveform data as in the case where the voice analysis / recognition processing device is provided only on the conventional center system side.
  • the speech analysis and recognition processing device is provided only on the user system side, there is no waiting time due to the transmission of the vocabulary grammar information, and the prompt speech recognition processing can be performed.
  • the processing load on the user system 1 can be reduced, and large-vocabulary voice instructions can be handled and handled even if the user terminals that make up the user system 1 are mobile devices with low power consumption, such as mobile phones and PDAs. become.
  • the voice instruction recognition processing means 4 of the user system 1 described above performs parsing recognition processing and outputs intermediate recognition results such as phoneme lattice or syllable lattice. Then, the intermediate recognition result is transmitted to the center side via the communication line (WAN) 3, and the center side performs language processing. Therefore, the transmission distortion can be reduced as compared with the case where the audio waveform data is directly transmitted, and the recognition rate can be prevented from lowering. Also, the user system 1 and the center system 2 can be divided into a plurality of units of each function of the voice instruction recognition processing units 4 and 5 mounted on the system and connected by a communication line. It is also possible to add other processing systems. In that case, a voice input communication system that is more agile and applicable to a variety of AIDS can be constructed.
  • the division position between the user system 1 and the center system 2, the division position in the user system 1, and the division position in the center system 2 are not particularly limited.
  • the point is that the voice to be constructed takes into account the communication speed of the connected communication line, the presence or absence of communication distortion, the communication fee, and the processing capacity, processing data amount, and weight of the voice instruction recognition processing means in each division unit. What is necessary is just to determine so that the input communication system can exhibit the target function most efficiently.
  • FIG. 2 is a block diagram of the voice input communication system according to the present embodiment.
  • This voice input communication system is a direct version of the voice input communication system in the first embodiment, and includes a user terminal 11 and a center system 12.
  • the user terminal 11 corresponds to the user system 1 in the first embodiment, and receives an instruction by voice and outputs an intermediate recognition result.
  • the center system 12 is connected to the user terminal 11 via a communication line (WAN) 13 and corresponds to the center system 2 in the first embodiment, and recognizes and outputs a voice instruction content. I do.
  • WAN communication line
  • the user terminal 11 has a phoneme recognition unit 15 and a communication control unit 16.
  • the phoneme recognition unit 15 obtains a sound parameter time series from the input speech and recognizes phonemes.
  • the communication control unit 16 controls the connection between the phoneme recognition unit 15 and the communication line 13. I will. That is, the phoneme recognition section 15 constitutes the voice instruction recognition processing section 4 in the first embodiment, and the communication control section 16 constitutes the transmission control section 6.
  • the center system 12 has a controller 17, a language processor 18, and a vocabulary grammar memory 19.
  • the control unit 17 controls the connection between the communication line 13 and the center system 12.
  • the language processing unit 18 stores the phoneme lattice as a recognition result by the phoneme recognition unit 15 transmitted from the user terminal 11 via the communication line 13 in the vocabulary grammar memory 19.
  • the language processing is performed using the vocabulary grammar information, and the instruction sentence input to the phoneme recognition unit 15 is recognized. Then, the recognition result is returned to the control unit 17. That is, the control section 17 constitutes the reception control means 7 in the first embodiment, and the language processing section 18 constitutes the voice instruction recognition processing means 5 and the output control means 8.
  • FIG. 3 shows a flowchart of a voice recognition / information processing operation performed by the user terminal 11 and the center system 12 in the voice input communication system having the above configuration.
  • the speech recognition / information processing operation will be described in detail with reference to FIG.
  • Steps S21 to S24 are processing operations on the user terminal 11 side
  • steps S25 to S27 are processing operations on the center system 12 side.
  • step S21 a speech waveform generated by the user's utterance is input to the phoneme recognition unit 15 of the user terminal 11.
  • step S22 the input speech waveform is analyzed by the phoneme recognition unit 15 to obtain a time series of acoustic parameters such as cepstrum and power.
  • step S23 a phoneme is recognized by a speaker-adapted phoneme recognition method with high recognition performance based on the obtained acoustic parameter time series. Then, as the phoneme recognition result, a phoneme lattice (a phoneme name of the recognition candidate, its likelihood, the start time, the end time, and the like) as shown in FIG. 4 is obtained. In step S24, the phoneme lattice is transmitted to the center system 12 via the communication line 13 by the communication control unit 16.
  • the phoneme lattice is transmitted.
  • a time series of phoneme similarity for each analysis frame as shown in Fig. 5 is generated. May be sent.
  • a time series of the average phoneme similarity for each of a plurality of continuous analysis frames as shown in FIG. 6 may be generated and transmitted.
  • the processing load on the force phoneme recognition unit 15, which is larger in data amount than when transmitting the phoneme lattice, can be reduced. Therefore, it is desirable to use it in the case of the user terminal 11 having a low processing capability.
  • step S25 the control unit 17 of the center system 12 receives the phoneme lattice transmitted via the communication line 13 and sends it to the language processing unit 18. Then, the linguistic processing unit 18 refers to the lexical grammar information stored in the lexical grammar memory 19, analyzes the phoneme lattice, and recognizes words uttered by the user. In step S26, a sentence uttered by the user is further recognized based on the recognized word. Then, the recognized sentence is returned to the control unit 17 as the voice instruction content. In step S27, the control unit 17 executes the application program according to the content of the received instruction. After that, the voice recognition / information processing operation ends.
  • the vocabulary grammar information stored in the vocabulary grammar memory 19 includes a phoneme symbol notation as vocabulary information, and a word network using word names as arcs as grammar information (for example, see Japanese Patent Application Laid-Open No. Hei 8-6 589 publication) or the word n-gram (n-word set).
  • the voice waveform analysis, phoneme recognition, word Speech waveform analysis and phoneme recognition of recognition and sentence recognition are performed on the user terminal 11 side, and word recognition and sentence recognition (language processing) are performed on the center system 12 side. Therefore, the recognition processing load on the user terminal 11 can be reduced, and even a low power consumption user terminal 11 such as a mobile phone or PDA can correctly and quickly recognize phonemes of voice instructions in a large vocabulary. can do.
  • the time series of the phoneme lattice obtained by the phoneme recognition unit 15 of the user terminal 11 or the time series of the phoneme similarity for each analysis frame or the time series of the average phoneme similarity for each of a plurality of continuous analysis frames And other intermediate recognition results via communication line 13.
  • the language processing unit 18 of the center system 12 performs word recognition and sentence recognition based on the received intermediate recognition result. Therefore, data transmitted via the communication line 13 is not distorted, and high recognition performance can be obtained.
  • FIG. 7 is a block diagram showing another specific example of the voice input communication system shown in the first embodiment.
  • the voice input communication system in the present embodiment divides the function of the user system 1 in the first embodiment into user terminals 21, 22, 23 and a user side system 24 and a center system. 26 corresponds to the center system 2 in the first embodiment.
  • a voice instruction is input to each of the user terminals 21, 22, and 23.
  • the user-side system 24 is connected to each of the user terminals 21, 22, and 23 via a communication line (wired or wireless LAN) 25, and performs voice recognition to perform intermediate recognition. Output the result.
  • the center system 26 is connected to the user system 24 via a communication line (WAN) 27, and recognizes and outputs a voice instruction content.
  • Each of the user terminals 21, 22, and 23 has a control unit 31, 32, 33.
  • the control units 3 1, 3 2, 3 3 digitize the input audio waveform data and transmit it to the user side system 24 via the communication line 25. That is, the control units 31, 32, and 33 constitute the voice instruction recognition processing unit and the transmission control unit of the first device in the first embodiment.
  • the user-side system 24 has a communication control unit 34 and a phoneme recognition unit 35.
  • the communication control section 34 controls connection between the phoneme recognition section 35 and the communication lines 25 and 27. Further, the phoneme recognition unit 35 recognizes phonemes by obtaining a sound parameter time series from the speech waveform data received by the communication control unit 34. That is, the phoneme recognition unit 35 constitutes voice instruction recognition processing means of the second device in the first embodiment, and the communication control unit 34 implements reception control means and transmission control means 6 of the second device. It is composed.
  • the center system 26 includes a control unit 36, a word processing unit 37, and a vocabulary grammar memory.
  • the control unit 36 controls the connection between the communication line 27 and the center system 26.
  • the language processing unit 37 stores the phoneme lattice as a recognition result of the phoneme recognition unit 35 transmitted from the user system 24 via the communication line 27 in the vocabulary grammar memory 38. Language processing is performed using the vocabulary grammar information thus obtained, and the instructions sentence-input to the user terminals 21, 22, and 23 are recognized. Then, the recognition result is returned to the control unit 36. That is, the control section 36 constitutes the reception control means 7 in the first embodiment, and the language processing section 37 constitutes the voice instruction recognition processing means 5 and the output control means 8. .
  • FIG. 8 shows a flow chart of a speech recognition / information processing operation performed by the user terminal 2 1-2 3, user system 2 4 and the center system 2 6 in the voice-input communication system having the above configuration.
  • the speech recognition / information processing operation will be described in detail with reference to FIG.
  • Steps S31 and S32 are processing operations of any one of the user terminals 21 to 23 (hereinafter, referred to as user terminal 21).
  • Steps S33 to S35 are the user system 24.
  • Steps S36 to S38 are processing operations of the center system 26.
  • step S31 a voice waveform generated by a user's voice is input to the control unit 31 of the user terminal 21.
  • the input voice waveform is transmitted to the user system 24 via the communication line 25 by the control unit 31.
  • step S33 the communication control section 34 of the user side system 24 receives the voice waveform data transmitted via the communication line 25 and sends it to the phoneme recognition section 35. Then, the speech waveform is analyzed by the phoneme recognition unit 35 to obtain a time series of acoustic parameters such as cepstrum and power. In step S34, based on the obtained acoustic parameter time series, a phoneme is recognized by a speaker-adapted phoneme recognition method having a high recognition performance. Then, the phoneme lattice is obtained as a phoneme recognition result. In step S35, the communication control unit 34 transmits the phoneme lattice to the center system 26 via the communication line 27.
  • step S36 the control unit 36 of the center system 26 receives the phoneme lattice transmitted via the communication line 27 and sends it to the language processing unit 37.
  • the words stored in the vocabulary grammar memory 38 by the language processing unit 37 The phoneme lattice is analyzed with reference to the vocabulary grammar information, and words uttered by the user are recognized.
  • step S37 a sentence uttered by the user is further recognized based on the recognized word. Then, the recognized sentence is returned to the control unit 36 as the voice instruction content.
  • step S38 the control unit 36 executes the application program according to the content of the received instruction. After that, the voice recognition / information processing operation ends.
  • each of the user terminals 21, 22, and 23 need only transmit the input voice waveform to the user-side system 24 via the communication line (LAN) 35, and perform voice recognition.
  • the processing load on the user terminals 21, 22, and 23 in the processing can be further reduced than that of the user terminal 11 in the second embodiment.
  • This embodiment is a modified example of the second embodiment.
  • the user's voice instruction input to the user terminal 11 is recognized in phoneme units by the phoneme recognition unit 15, and the user's voice instruction is recognized by the language processing unit 18 of the center system 12. Recognized on a sentence basis. Then, the application program corresponding to the content of the recognized instruction is executed.
  • the center system recognizes and recognizes the speaker, and outputs a sound to the user terminal. The user who has input the voice instruction is specified.
  • a utterance content-dependent type in which words used for speaker recognition are determined in advance
  • an independent type in which any words can be uttered.
  • the target keyword since the target keyword is fixed, the burden on the speaker is small, and recognition is high.
  • the registered speaker's characteristic pattern is recorded, it is completely powerless.
  • the latter is strong against the above-mentioned problems, but puts a great burden on the speaker because the speaker needs to utter many words. Therefore, in the present embodiment, a text designation type speaker recognition method in which a different utterance word is designated each time from the speaker recognition device side is used.
  • FIG. 9 is a block diagram of the voice input communication system according to the present embodiment.
  • the voice input communication system according to the present embodiment is composed of a user terminal 41 and a center system 42 connected to each other via a communication line 43 as in the case of the second embodiment.
  • the user terminal 41 receives a voice instruction and outputs the intermediate recognition result.
  • the center system 42 recognizes and outputs the voice instruction contents.
  • the center system 42 generates text information for utterance and sends it to the user terminal 41 in order to perform text-designated speaker recognition.
  • the user terminal 41 synthesizes and outputs speech based on the text information from the center system 42.
  • the user terminal 41 has a phoneme recognition unit 45, a control unit 46, and a speech synthesis unit 47.
  • the phoneme recognition and recognition unit 45 obtains a sound parameter time series from the input speech and recognizes phonemes.
  • the voice characteristics of the speaker pitch frequency, long-time statra, etc.
  • the speech synthesis section 47 synthesizes and outputs a speech based on the speech synthesis control parameters.
  • the control unit 46 transmits the recognition result of the phoneme from the phoneme recognition unit 45 and the voice characteristics of the speaker to the center system 42 via the communication line 43. On the other hand, it receives the time series of speech synthesis control parameters transmitted via the communication line 43 and sends it to the speech synthesis unit 47.
  • the center system 42 includes a control unit 48, a speaker recognition unit 49, a language processing unit 50, and a vocabulary grammar memory 51.
  • the control unit 48 communicates with the communication line 43.
  • the application program according to the voice instruction input from the user terminal 41 is executed.
  • the speaker recognition unit 49 determines a text to be uttered by the user, generates a speech synthesis control parameter of the text, and sends it to the control unit 48. Furthermore, speaker recognition is performed based on the voice characteristics of the speaker corresponding to the text extracted by the phoneme recognition unit 45, and the input person of the voice instruction is specified.
  • the language processing unit 50 uses the vocabulary grammar information stored in the vocabulary grammar memory 51 to perform language processing on the phoneme lattice as a phoneme recognition result transmitted from the user terminal 41 via the communication line 43. Processing is performed, and the instruction sentence input to the phoneme recognition unit 45 is recognized. Then, the recognition result is returned to the control unit 48.
  • control unit 48 determines whether the recognized speaker is a registered speaker, or whether the recognized speaker matches the account holder specified in the recognized instruction.
  • the recognition speaker is evaluated, and if it is determined that the speaker is correct, the application program is executed.
  • FIG. 10 shows a flowchart of a voice recognition / information processing operation performed by the user terminal 41 and the center system 42 in the voice input communication system having the above configuration.
  • Step S41 is a processing operation on the side of the center system 42.
  • Steps S42 to S47 are processing operations on the side of the user terminal 41.
  • Steps S48 to S51 are processing operations on the center system 42. Side processing operation.
  • step S41 the utterance content for the user is determined by the speaker recognition unit 49 of the center system 42, and the speech synthesis control parameters (vowel-consonant-vowel (VCV) unit chain, pitch) of the utterance content are determined. , Basic intonations, accents, etc.) are generated and sent to the control unit 48. Then, the control unit 48 transmits the speech synthesis control parameter to the user terminal 41 via the communication line 43.
  • the determination of the utterance content by the speaker recognition unit 49 is performed, for example, by selecting one word string at random from the feature patterns registered for each word string for each speaker. Will be
  • step S42 the control unit 46 of the user terminal 41 sends the communication line 43
  • the voice synthesis control parameters transmitted for this reason are received and transmitted to the voice synthesis unit 47.
  • the voice synthesis section 47 performs voice synthesis based on the voice synthesis control parameters.
  • step S43 the voice synthesizer 47 outputs a voice waveform of the obtained utterance content. In other words, a synthesized speech of the uttered content (text) is output.
  • step S44 the user utters the utterance content (text) output in step S43, and then utters a voice instruction.
  • a speech waveform generated by the user's utterance is input to the phoneme recognition and recognition unit 45.
  • step S45 the input speech waveform is analyzed by the phoneme recognition unit 45 to obtain a time series of acoustic parameters such as cepstrum, power, and pitch frequency.
  • step S46 based on the obtained acoustic parameter time series, phonemes are recognized by a speaker-adapted phoneme recognition method with high recognition performance. Then, a phoneme lattice is obtained as a phoneme recognition result.
  • step S47 the control unit 46 transmits the phoneme lattice and voice characteristics (pitch frequency, long-time spectrum, etc.) force S to the center system 42 via the communication line 43.
  • a time series of phoneme similarity for each analysis frame and a time series of average phoneme similarity for each of a plurality of consecutive analysis frames are generated and transmitted instead of the phoneme lattice. No problem.
  • step S48 the control unit 48 of the center system 42 receives the phoneme lattice and the voice feature transmitted via the communication line 43, and sends the phoneme lattice to the language processing unit 50.
  • the language processing unit 50 refers to the vocabulary grammar information stored in the vocabulary grammar memory 51, analyzes the phoneme lattice, and recognizes words uttered by the user.
  • step S49 a sentence uttered by the user is further recognized based on the recognized word. Then, the recognized sentence is returned to the control unit 48 as the voice instruction content.
  • step S50 the control unit 48 searches for the word sequence of the utterance content (text) from the beginning of the received sentence, and if there is a word sequence of the utterance content (text), the utterance content (text)
  • the voice characteristics of the text) portion are sent to the speaker recognition unit 49.
  • speaker recognition is performed by the speaker recognition unit 49 based on the voice feature. It is.
  • step S51 the above-mentioned recognized speaker is evaluated by the control unit 48. If the speaker is the correct speaker, readout and transmission of in-house documents and execution of application programs such as banking services and electronic commerce are performed according to the content of the instruction sentence received. After that, the voice recognition / information processing operation ends.
  • the intermediate recognition result of the user's voice instruction to the user terminal 41 is transmitted to the center system 42, and the center system 42 recognizes the user's instruction before the center system 42 recognizes the instruction.
  • the speaker recognition unit 49 of the center system 42 determines the utterance content for the user, generates speech synthesis control parameters, and transmits the generated speech synthesis control parameters to the user terminal 41.
  • the speech synthesizer 47 of the user terminal 41 outputs a synthesized speech of the uttered content based on the received speech synthesis control parameter.
  • the characteristics of the voice uttered by the user according to the content of the synthesized voice are transmitted to the center system 42, and the speaker recognition of the center system 42 and the speaker recognition are performed based on the voice characteristics received by the recognition unit 49. I'm trying to do it.
  • text-specific speaker recognition can be performed between the user terminal 41 and the center system 42 via the communication line 43, and can also be used for banking services and electronic commerce.
  • a speech input communication system with high security that can be applied can be constructed.
  • the center system 42 performs heavy-load processing such as text analysis including syntax analysis, connection in units of VCV, and generation of speech synthesis control parameters. Therefore, the voice synthesis processing load on the user terminal 41 can be reduced, and a highly secure voice input communication can be performed by the user terminal 41 with low power consumption, such as a mobile phone or a PDA.
  • the fourth embodiment has a configuration in which the speech synthesis unit 47 and the speaker recognition unit 49 are provided in the user terminal 11 and the center system 12 in the second embodiment.
  • the configuration provided in the user terminal 21 to the user terminal 23 and the center system 26 in the third embodiment may be adopted.
  • the user system 1 in the first embodiment is divided into a plurality of units based on the function of the voice instruction recognition processing unit 4 mounted thereon.
  • the computer system 2 may be divided into a plurality of units based on the function of the voice instruction recognition processing unit 5 installed. Other processing systems can be added.
  • the center system 2 in the first embodiment described above includes a first center system equipped with a language processing unit and a lexical grammar memory, and a second center system equipped with a Japanese-English machine translation processor. It is conceivable to configure with. In this case, the Japanese sentence recognized and recognized by the first center system can be translated into English by the second center system. In this way, even if the language of the partner country cannot be spoken, it is possible to send a message directly to a foreign center system via a communication line such as a WAN using a mobile phone.
  • a communication line such as a WAN using a mobile phone.
  • the center system 2 in the first embodiment described above is composed of a first center system equipped with a language processing unit and a vocabulary grammar memory, and a second center system to an n-th center system equipped with different application program execution units. It consists of and. Then, the first center system can specify a center system equipped with an application program execution unit for executing the instruction from the content of the recognized instruction, and pass the instruction to the center system to execute the instruction.
  • the center system 2 according to the first embodiment is constituted by a plurality of center systems equipped with a language processing unit, a vocabulary grammar memory, and an execution processing unit for a different application program.
  • the center system When the center system receives the intermediate recognition and recognition results, it starts recognizing the directives all at once, and if it determines from the content of the recognized directives that it is not its own instruction, it stops the subsequent processing. Alternatively, the center system that has determined that the instruction is for itself can execute the application program.
  • one syllable using a phoneme as the speech recognition unit may be used.
  • the voice input communication system of the present invention provides an input voice instruction when a user terminal of a user system gives an instruction to the center system by voice via the first communication line.
  • the voice instruction recognition processing means for recognizing the instruction content from the waveform analysis results of each function is performed in units of functions such as voice recognition, word recognition, and sentence recognition. Since the partial voice instruction recognition processing means is divided and held separately in the user system and the center system, as in the case where all the functions of the voice instruction recognition processing means are provided in the center system, There is no need to transmit the input audio waveform from the user system to the center system. Therefore, it is possible to prevent the recognition rate from being lowered due to the transmission distortion of the voice waveform.
  • the user system is provided with a user system connected to a user terminal via a second communication line.
  • the voice instruction recognition and recognition processing means can be distributed and held between the user terminal and the user system. Therefore, the processing load on the user terminal can be further reduced, and even if the user terminal is a low power consumption mobile device such as a mobile phone or a PDA, it can sufficiently cope with a voice instruction with a large number of words. Becomes possible.
  • the center system since the center system is provided in a plurality and each center system is connected via the third communication line, the partial voice instruction recognition processing held in the center system is performed.
  • the means can also be distributed and maintained in multiple center systems. Further, it is possible to separate a center system that performs voice instruction recognition processing from a center system that performs application processing according to the recognized instruction contents. Also, the user terminal can give an instruction to a different center system by voice.
  • the voice input communication system of the invention of one embodiment includes at least the output control means for outputting the instruction content obtained by the voice instruction recognition and recognition processing means in at least the final stage center system.
  • the final stage center system can execute various application programs and the like according to the contents of the instruction.
  • the voice input communication system of the invention of one embodiment Either the user terminal or the user side system includes a voice recognition means as the partial voice instruction recognition processing means and a transmission control means, so that the intermediate recognition result of the input voice from the user system is sent to the center system. Can be sent. Therefore, it is possible to transmit the intermediate recognition result with less transmission distortion as compared with the case of directly transmitting an audio waveform, and it is possible to prevent a decrease in recognition and recognition rate.
  • the speech input communication system includes at least one center system including a vocabulary grammar memory for storing vocabulary grammar and language processing means as the partial voice instruction recognition processing means.
  • the voice recognition means is a phoneme recognition means or a syllable recognition means
  • the intermediate recognition result is a phoneme lattice or a syllable lattice.
  • Intermediate recognition results with less transmission distortion compared to are easily obtained as phoneme lattices or syllable lattices.
  • the speech input communication system according to the embodiment of the present invention uses the phoneme similarity sequence for each analysis frame or the average phoneme similarity sequence for each of a plurality of continuous analysis frames as the intermediate recognition result instead of the phoneme lattice.
  • the processing load of the phoneme recognition means can be reduced. Therefore, the phoneme recognition means can be mounted on a user terminal having low processing capability.
  • the first communication line and the second and third communication lines are different types of communication lines, for example, the first communication line is a WAN.
  • the second and third communication lines are different types of communication lines, for example, the first communication line is a WAN.
  • the second and third communication lines as LANs, different user terminals in the branch office can give voice instructions to different center systems in the head office in Tokyo.
  • the voice input communication system includes: a voice instructing unit that transmits a voice synthesis control parameter of voice content to be voiced by a user to at least one center system; and an input voice extracted by the user system.
  • Speaker recognition means for recognizing a speaker based on the features of The user terminal is provided with voice synthesis means for generating a synthesized voice of the utterance content based on the voice synthesis control parameter, and one of the user terminal and the user side system extracts a feature of the input voice.
  • the center system recognizes the user's voice instruction to the user terminal by the center system, the user system and the center system specify text via the first communication line. Type speaker recognition can be performed.
  • the user terminal of the present invention includes phoneme recognition means for recognizing the input speech in phoneme units to generate a phoneme lattice, and transmission control means for transmitting the phoneme lattice via a communication line.
  • the phoneme lattice which is the result of the intermediate recognition, can be transmitted. Therefore, unlike the case where the input voice waveform is transmitted via the communication line, the recognition rate of the input voice does not decrease due to the transmission distortion.
  • the center system of the present invention comprises a receiving means for receiving a phoneme lattice transmitted from a user system via a communication line, and a language processing means for performing language processing on the phoneme lattice using a vocabulary grammar. Therefore, as in the case of performing speech waveform analysis, phoneme recognition, and language processing on the input speech waveform transmitted via the communication line, the recognition rate of the input speech may be reduced due to transmission distortion. There is no.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)

Description

明 細 書 音声入力通信システム、 ユーザ端末およびセンターシステム 技術分野
この発明は、 通信回線を介した情報サービスやホームネットを介した情報サー ビスやホームネットを介した機器制御を音声によって行う音声入力通信システム に関する。 背景技術
従来より、 ユーザが、 センターシステムと通信回線を介して音声によって情報 交換を行うことができる情報処理システムがある。 図 1 1は、 従来の音声入力情 報処理システムによる音声認識/情報処理動作のフローチャートを示す。 図 1 1 において、 ステップ S 1で、 ユーザ端末側に音声波形が入力される。 ステップ S 2 で、 上記入力された音声波形データが通信回線を介してセンターシステム側へ送 信される。 そうすると、 ステップ S 3で、 上記センターシステム側で波形分析が 行われる。 そして、 ステップ S 4で音素認識が行われ、 ステップ S 5で単語認識が 行われ、 ステップ S 6で文認識が行われる。 こうして、 言語処理の結果得られた 音声入力文に従って、 ステップ S 7でアプリケーションプログラムが実行される のである。
このように、 従来の音声入力情報処理システムにおいては、 音声波形データを センターシステム側へ通信回線を介して送信するため、 ユーザの音声に歪みが生 じ、 上記センターシステム側での音声認識が困難である。 さらに、 多数のユーザ に対応するために不特定話者音声認識を使用する場合には、 認識性能の低い話者 がある確率で存在することになる。
上述のような問題点を解決するために、 特定話者音声認識機能または話者適応 済み音声認識機能をユーザ端末側に用意し、 認識に必要な語彙文法情報をセンタ 一システム側から通信回線を介してユーザ端末側へ送って音声認識を行う音声入 力情報処理システム(例えば、 特開平 8 - 6 5 8 9号公報)がある。 図 1 2は、 こ のような音声入力情報処理システムによる音声認識/情報処理動作のフローチヤ 一トを示す。
ステップ S 11で、 ユーザ端末側とセンターシステム側とで語彙文法情報通信が 行われ、 センターシステム側からユーザ端末側に、 認識に必要な語彙文法情報が 送信される。 ステップ S 12で、 ユーザ端末側に音声波形が入力される。 ステップ S 13で、 波形分析が行われる。 ステップ S 14で、 話者適用化音素認識が行われ、 ステップ S 15で単語認識が行われ、 ステップ S 16で文認識が行われて認識結果が センターシステム側に送信される。 ステップ S 17で、 センターシステム側で、 上 記ユーザ端末側で得られた音声入力文に従ってアプリケーションプログラムが実 行されるのである。
しかしながら、 上記従来の音声認識機能をユーザ端末側に用意する音声入力情 報処理システムには、 以下のような問題がある。 すなわち、 この音声入力情報処 理システムにおいては、 高い音声認識性能を実現することは可能である。 しかし ながら、 アプリケーションが変わる度に、 アプリケーションに応じた語彙と文法 に関する情報をセンターシステム側から通信回線を介してユーザ端末側へ送る必 要があり、 語彙文法情報の情報量に比して通信回線の通信速度が遅い場合には、 上記アプリケーションの切替時に発生する情報転送のための待ち時間が煩わしい という問題がある。
さらに、 語彙数が数千語以上になると実時間処理に要するプロセッサの処理速 度を上げる必要が生ずるために、 ユーザ端末が携帯電話や P D A (パーソナル'デ イジタル'アシスタント)等のモパイル機器である場合には、 消費電力の面で問題 がある。 発明の開示
そこで、 この発明の目的は、 消費電力が低いユーザ端末からの音声入力であつ ても高い認識性能を得ることができる音声入力通信システム、 並びに、 この音声 入力通信システムに用いられるユーザ端末おょぴセンターシステムを提供するこ とにある。
上記目的を達成するため、 この発明は、 ユーザ端末を有するユーザシステムと センターシステムとが第 1の通信回線を介して接続され,上記ユーザ端末から上 記センターシステムに対-して音声によつて指示を行なう音声入力通信システムに おいて、 異なる機能を有する複数の部分音声指示認識処理手段から成ると共に, 入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手 段を備え、 上記複数の部分音声指示認識処理手段を上記ユーザシステムと上記セ ンターシステムとに分散して備えたことを特徴としている。
上記構成によれば、 センターシステムに音声指示認識処理手段の音声認識機能, 単語認識および文認識機能等の全機能を置いた場合のように、 ユーザシステムか ら上記センターシステムに第 1の通信回線を介して入力音声波形を送信する必要 がない。 したがって、 上記入力音声波形の送信歪みに起因する音声指示の認識率 の低下が防止される。 また、 上記ユーザシステムに上記音声指示認識処理手段の 全機能を置いた場合のように、 上記センターシステムからユーザシステムに語彙 文法情報を送信する必要がない。 したがって、 音声指示の切替り時に上記語彙文 法情報を送信する間の待ち時間がなく、 迅速な音声指示の認識が行われる。 さら に、 上記ユーザシステムの認識処理負荷が低減される。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 上記ユーザ システムには上記ユーザ端末に第 2の通信回線を介して接続されたユーザ側シス テムが設けられており、 上記ユーザ側システムは上記第 1の通信回線を介して上 記センターシステムに接続されている。
この実施例によれば、 上記ユーザシステムで保持する部分音声指示認識処理手 段を、 更に上記ユーザ端末とユーザ側システムとで分散して保持することが可能 になる。 したがって、 上記ユーザ端末の認識処理負荷がさらに低減され、 処理速 度を上げることができる。 その結果、 上記ユーザ端末が携帯電話や P D A等の消 費電力が低レヽモバイル機器であつても、語彙数が多レ、音声指示文にも十分対処す ることが可能になる。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 上記センタ 一システムは複数存在し、 各センターシステムは第 3の通信回線を介して接続さ れている。
この実施例によれば、 上記センターシステムで保持する部分音声指示認識処理 手段を、 さらに複数のセンターシステムで分散して保持することが可能になる。 また、 音声指示認識処理を行うセンターシステムと、 認識された指示内容に従つ てアプリケーション処理を行うセンターシステムとを分離することが可能になる。 また、 上記ユーザ端末から異なるセンターシステムに対して音声によって指示を 行なうことが可能になる。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 少なくとも 最終段のセンターシステムは、 上記音声指示認識処理手段によつて認識された指 示内容を出力する出力制御手段を備えている。
この実施例によれば、 少なくとも最終段のセンターシステムでは、 出力制御手 段から出力される指示内容に応じた様々なアプリケーションプログラム等が実行 可能になる。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 上記ユーザ システムにおける上記ユーザ端末およびユーザ側システムの何れかには、 入力音 声を認識して中間認識結果を出力する上記部分音声指示認識処理手段としての音 声認識手段と、 上記中間認識結果を上記第 1の通信回線を介して上記センターシ ステムに送信する送信制御手段を備えている。
この実施例によれば、 上記ユーザシステムにおいて、 音声認識手段によって入 力音声が認識されて中間認識結果が得られ、 この中間認識結果が送信制御手段に よって第 1の通信回線を介して上記センターシステムに送信される。 こうして、 音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果が通信回線 を介して送信されて、 認識率の低下が防止される。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 少なくとも 一つのセンターシステムは、 語彙文法を記憶する語彙文法メモリと、 上記ユーザ システムからの中間認識結果に対して上記語彙文法を用いた言語処理を行なう上 記部分音声指示認識処理手段としての言語処理手段を備えている。
この実施例によれば、 語彙文法メモリおよぴ言語処理手段が備えられたセンタ 一システムにおいては、 上記言語処理手段によって、 上記ユーザシステムからの 中間認識結果に対して上記語彙文法を用いた言語処理が行なわれ、 誤った認識候 補が除かれて言語的に正しい指示内容が得られる。 こうして、 上記ユーザ端末に 入力された音声指示の正確な指示内容が得られる。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 上記音声認 識手段を音素認識手段あるいは音節認識手段とし、 上記中間認識結果を音素ラテ イスあるいは音節ラテイスとしている。
この実施例によれば、 音声波形を送信する場合に比して送信歪みの少ない中間 認識結果が、 音素ラテイスあるいは音節ラテイスとして容易に得られる。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 上記中間認 識結果として、 上記音素ラテイスに代えて、 分析フレーム毎の音素類似度系列あ るレヽは連続する複数分析フレーム毎の平均音素類似度系列を用いている。
この実施例によれば、 上記中間認識結果として分析フレーム毎の音素類似度系 列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることによ つて、 上記音素認識手段の処理負荷が小さくなる。 したがって、 上記音素認識手 段を、 処理能力の低いユーザ端末に搭載することが可能になる。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 上記第 1の 通信回線と第 2 ,第 3の通信回線とは、 異なる種類の通信回線である。
この実施例によれば、 例えば、 上記ユーザシステムと上記センターシステムと を接続する第 1の通信回線を WAN (ワイド'エリア'ネットワーク)とし、 上記ュ 一ザシステムにおいて上記ユーザ端末とユーザ側システムとを接続する第 2の通 信回線および各センターシステム間を接続する第 3の通信回線を L A N (ロー力 ル.エリア.ネットワーク)とすることによって、 支社内の異なるユーザ端末から 東京の本社内の異なるセンターシステムに対して、 音声によって指示を行うこと が可能になる。
また、 1実施例では、 この発明の音声入力通信システムにおいて、 少なくとも —つのセンターシステムに設けられて,ユーザが発声すべき発声内容の音声合成 制御パラメータを生成し,上記第 1の通信回線を介してユーザシステムに送信す る発声指示手段と、 上記ユーザシステムにおける上記ユーザ端末に設けられて, 上記第 1の通信回線を介して送信されてくる上記音声合成制御パラメータに基づ いて上記発声内容の合成音声を生成する音声合成手段と、 上記ユーザシステムに おける上記ユーザ端末およびユーザ側システムの何れか一方に設けられて,入力 された音声の波形を分析して入力音声の特徴を抽出し,上記第 1の通信回線を介 してセンターシステムに送信する波形分析手段と、 上記発声指示手段が設けられ たセンターシステムに設けられて,上記第 1の通信回線を介して送信されてくる 上記入力音声の特徴に基づいて話者を認識する話者認識手段を備えている。 この実施例によれば、 センターシステムの発声指示手段から送信された発声内 容の音声合成制御パラメータに基づいて、 上記ユーザシステムの音声合成手段に よって、 上記発声内容の合成音声が出力される。 そして、 この合成音声による発 声内容に従ってユーザが発声した音声の特徴が、 上記ユーザシステムの波形分析 手段によって抽出されて上記センターシステムに送信される。 そして、 上記セン ターシステムの話者認識手段によって、 上記入力音声の特徴に基づいて話者が認 識される。
こうして、 ユーザによる上記ユーザ端末に対する音声指示を上記センターシス テムで認識するに先立って、 上記第 1の通信回線を介してユーザシステムとセン ターシステムとでテキスト指定型の話者認識が行われる。 したがって、 特定ユー ザによる音声指示である場合にのみ当該音声指示応じた処理を実行することが可 能になる。
また、 この発明のユーザ端末は、 入力された音声を音素単位で認識して音素ラ テイスを生成する音素認識手段と、 上記音素ラテイスを,通信回線を介して送信 する送信制御手段を備えたことを特徴としている。
上記構成によれば、 入力された音声を通信回線を介して送信するに際して、 中 間認識結果である音素ラテイスが送信される。 したがって、 上記通信回線を介し て入力音声波形を送信する場合のように、 送信歪みに起因して入力音声の認識率 が低下することはない。
また、 この発明は、 ユーザシステムと通信回線を介して情報を送受信するセン ターシステムであって、 上記通信回線を介して送信されてくる音素ラテイスを受 信する受信手段と、 語彙文法を記憶する語彙文法メモリと、 上記音素ラテイスに 対して上記語彙文法を用いた言語処理を行なう言語処理手段を備えたことを特徴 としている。
上記構成によれば、 通信回線を介してユーザシステムから送信されてくる中間 認識結果である音素ラテイスに対して、 語彙文法を用いた言語処理が行われる。 したがって、 上記通信回線を介して送信されてくる入力音声波形に対して音声波 形分析,音素認識および言語処理を行う場合のように、 送信歪みに起因して入力 音声の認識率が低下することはない。 図面の簡単な説明
図 1は、 この発明の音声入力通信システムのプロック図である。
図 2は、 図 1に示す音声入力通信システムの具体的なプロック図である。 図 3は、 図 2に示す音声入力通信システムよる音声認識/情報処理動作のフ口 一チャートである。
図 4は、 図 2における音素認識手段によって生成される音素ラテイスを一例を 示す図である。
図 5は、 分析フレーム毎の音素類似度の時系列の一例を示す図である。
図 6は、 連続する複数分析フレーム毎の平均音素類似度の時系列の一例を示す 図である。
図 7は、 図 1に示す音声入力通信システムの図 2とは異なる具体的なプロック 図である。
図 8は、 図 7に示す音声入力通信システムによる音声認識/情報処理動作のフ ローチャートである。
図 9は、 図 1に示す音声入力通信システムの図 2および図 1とは異なる具体的 なプロック図である。
図 1 0は、 図 9に示す音声入力通信システムによる音声認識/情報処理動作の フローチャートである。
図 1 1は、 従来の音声入力情報処理システムによる音声認識/情報処理動作の フローチャートである。
図 1 2は、 図 1 1とは異なる従来の音声入力情報処理システムによる音声認識 /情報処理動作のフローチャートである。 発明を実施するための最良の形態 以下、 この発明を図示の実施の形態によつて詳細に説明する。
(第 1実施の形態)
図 1は、 本実施の形態の音声入力通信システムにおける基本構成を示すプロッ ク図である。 図 1において、 1はユーザシステムであり、 2はセンターシステム である。 ユーザシステム 1とセンターシステム 2とは通信回線 3によって接続さ れている。
上記ユーザシステム 1とセンターシステム 2とには音声指示認識処理手段 4 , 5が搭載されており、 音声指示認識処理手段 4は入力された音声データを処理す る一方、 音声指示認識処理手段 5は前段の音声指示認識処理手段 4の処理結果を さらに処理する。 また、 上記ユーザシステム 1には、 上記音声指示認識処理手段 4による処理結果を後段のセンターシステム 2に通信回線 3を介して送信する送 信制御手段 6が搭載されている。 また、 上記センターシステム 2には、 通信回線 3を介して前段の音声指示認識処理手段 4による処理結果を受信する受信制御手 段 7と、 自段の音声指示認識処理手段 5による処理結果を音声指示内容として出 力する出力制御手段 8が搭載されている。
ここで、 上記ユーザシステム 1およびセンターシステム 2に搭載されている音 声指示認識処理手段 4 . 5,送信制御手段 6 ,受信制御手段 7,出力制御手段 8は、 個別の L S I (大規模集積回路)で構築してもよい。 あるいは、 ユーザシステム 1 及びセンターシステム 2の夫々を、 C P U (中央演算処理装置)と通信機能とを有 する周辺端末で構成しても差し支えない。 また、 通信回線 3は、 L ANおよひ ANの何れであっても、 有線および無線の何れであっても差し支えない。 以下、 通信回線 3は W A Nである場合を例に説明する。
上記ユーザシステム 1およびセンターシステム 2に搭載されている音声指示認 識処理手段 4, 5は、 全体で、 ユーザシステム 1に入力された音声による指示を 認識して音声指示内容を得るようになつている。 その場合、 ユーザシステム 1の 音声指示認識処理手段 4では、 例えば、 入力された音声波形を分析し、 音素認識 あるいは音節認識を行う。 そして、 中間認識結果として音素ラテイスあるいは音 節ラテイスを出力する。
一方、 上記ユーザシステム 1に WANである通信回線 3で接続されたセンター システム 2の音声指示認識処理手段 5では、 例えば、 受信した音素ラテイスある いは音節ラテイス等の中間認識結果に対して言語処理を行う。 そして、 最終的な 音声指示内容を得るようになっているのである。
ところで、 上記ユーザシステム 1およびセンターシステム 2は、 搭載している 音声指示認識処理手段 4, 5の各機能を単位として複数に分割し、 通信回線で接 続しても差し支えない。 また、 他の処理システムを追加してもよい。 例えば、 ュ 一ザシステム 1の場合について言えば、 音声指示認識処理手段 4は入力音声波形 の分析機能と音素認識(あるいは音節認識)機能とを有している。 そこで、 入力音 声の波形分析処理を行う音声指示認識処理手段を搭載した第 1装置と、 音素認識 (または音節認識)処理を行う音声指示認識処理手段を搭載した第 2装置とに分割 し、 通信回線で接続する。 そして、 第 1装置側には波形分析結果を送信する送信 制御手段を搭載し、 第 2装置側には上記波形分析結果を受信する受信制御手段を 搭載するのである。
伹し、 その場合における上記第 1装置の音声指示認識処理手段と第 2装置の音 声指示認識処理手段とによる処理の分担は、 上述に限定するものではない。 例え ば、 上記第 1装置側の音声指示認識処理手段は、 単に入力された音声波形をディ ジタルイ匕して処理結果として出力する。 そして、 上記第 2装置側の音声指示認識 処理手段で、 波形分析処理と音素認識処理(または音節認識処理)との両方を行つ て、 処理結果として音素ラテイス(または音節ラテイス)の中間認識結果を出力し てもよい。 この場合、 上記第 1 ,第 2装置間の通信回線は L AN等とすることに よって音声波形の通信歪みを極小さくできる。 あるいは、 上記第 1装置側の音声 指示認識処理手段で、 波形分析処理と音素認識処理(または音節認識処理)との両 方を行って、 処理結果として音素ラテイス(または音節ラテイス)の中間認識結果 を上記第 2装置に送信してもよい。
また、 上記センターシステム 2の場合について言えば、 音声指示認識処理手段
5は単語認識機能と文認識機能とを有している。 そこで、 単語認識処理を行う音 声指示認識処理手段を搭載した第 3装置と、 文認識処理を行う音声指示認識処理 手段を搭載した第 4装置とに分割し、 通信回線で接続する。 そして、 第 3装置側 には単語認識結果 (単語ラテイス)を送信する送信制御手段を搭載し、 第 4装置側 には上記単語認、識結果を受信する受信制御手段を搭載するのである。
但し、 その場合における上記第 3装置の音声指示認識処理手段と第 4装置の音 声指示認識処理手段とによる処理の分担は、 上述に限定するものではない。 例え ば、 上記第 3装置側の音声指示認識処理手段は、 単語認識処理と文認識処理との 両方を行い、 処理結果として音声指示内容を出力する。 そして、 上記第 4装置側 の音声指示認識処理手段は、 受信した音声指示内容をそのままアプリケーション を実行する制御部へ渡す。 あるいは、 上記第 3装置側の音声指示認識処理手段で は、 受信したユーザシステム 1からの音素ラテイス(または音節ラテイス)をその まま第 4装置へ送信する。 そして、 上記第 4装置側の音声指示認識処理手段で、 単語認識処理と文認識処理との両方を行い、 処理結果として音声指示内容を出力 する。 あるいは、 上記第 3装置及び第 4装置の音声指示認識処理手段の夫々で、 単語認識処理と文認識処理との両方を行つて処理結果として音声指示内容を出力 するようにしてもよい。
このように、 本実施の形態においては、 入力された音声による指示を認識して 音声指示内容を得る音声入力通信システムを構築するに際して、 音声指示認識処 理手段 4と送信制御手段 6とを搭載したユーザシステム 1と、 受信制御手段 7と 音声指示認識処理手段 5と出力制御手段 8とを搭載したセンターシステム 2とを 通信回線 (WAN) 3で接続する。
そして、 上記ユーザシステム 1の音声指示認識処理手段 4とセンターシステム 2の音声指示認識処理手段 5とで、 入力された音声による指示を波形分析し認識 して音声指示内容を得る処理を分担している。 したがって、 従来のセンターシス テム側のみに音声分析認識処理装置を置いた場合のごとく音声波形データの送信 歪みに起因する認識率の低下が生ずることがなく、 高い認識結果を得ることがで きる。 また、 ユーザシステム側のみに音声分析認識処理装置を置いた場合めごと く語彙文法情報の送信に起因する待ち時間がなく、 迅速な音声指示の認識処理を 行うことができる。 さらに、 ユーザシステム 1の処理負荷を小さくでき、 ユーザ システム 1を構成するユーザ端末が携帯電話や P DA等の消費電力が低いモバイ ル機器であつても大語彙の音声指示が取り扱レ、可能になる。
さらに、 その際に、 上記ユーザシステム 1の音声指示認識処理手段 4で音声分 析認識処理を行つて、 音素ラテイスまたは音節ラテイス等の中間認識結果を出力 する。 そして、 この中間認識結果を通信回線 (WAN) 3でセンター側へ送信し、 センター側で言語処理するようにしている。 したがって、 音声波形データを直接 送信する場合に比して送信歪みを少なくでき、 認識率の低下を防止することがで きるのである。 また、 ユーザシステム 1およびセンターシステム 2は、 搭載して いる音声指示認識処理手段 4, 5の各機能を単位として複数に分割し、 通信回線 で接続することも可能である。 また、 他の処理システムを追加することも可能で ある。 その場合には、 より機動性に富み、 エーズの多様性に適用可能な音声入力 通信システムを構築できる。
尚、 上記ユーザシステム 1とセンターシステム 2との分割位置、 ユーザシステ ム 1内での分割位置、 および、 センターシステム 2内での分割位置は、 特に限定 されるものではない。 要は、 接続する通信回線の通信速度,通信歪みの有無,通信 料金や、 各分割単位における音声指示認識処理手段の処理能力,処理データ量,重 量等を考慮して、 構築しようとしている音声入力通信システムが最も効率よく目 的とする機能を発揮できるように決定すればよい。
(第 2実施の形態)
以下、 上記構成を有する音声入力通信システムについて具体的に説明する。 図 2は、 本実施の形態における音声入力通信システムのブロック図である。 本音声 入力通信システムは、 第 1実施の形態における音声入力通信システムをそのまま 具体ィ匕したものであり、 ユーザ端末 1 1とセンターシステム 1 2とから構成され ている。
上記ユーザ端末 1 1は、 上記第 1実施の形態におけるユーザシステム 1に相当 し、 音声による指示が入力されて中間認識結果を出力する。 センターシステム 1 2は、 上記ユーザ端末 1 1と通信回線 (WAN) 1 3を介して接続されており、 上 記第 1実施の形態におけるセンターシステム 2に相当し、 音声指示内容を認識し て出力する。
上記ユーザ端末 1 1は、 音素認識部 1 5と通信制御部 1 6を有している。 上記 音素認識部 1 5は、 入力された音声から音響パラメータ時系列を求めて音素を認 識する。 また、 通信制御部 1 6は、 音素認識部 1 5と通信回線 1 3との接続を制 御する。 すなわち、 音素認識部 1 5で上記第 1実施の形態における上記音声指示 認識処理手段 4を構成し、 通信制御部 1 6で上記送信制御手段 6を構成している のである。
上記センターシステム 1 2は、 制御部 1 7と言語処理部 1 8と語彙文法メモリ 1 9を有している。 上記制御部 1 7は、 通信回線 1 3とセンターシステム 1 2と の接続を制御する。 上記言語処理部 1 8は、 通信回線 1 3を介してユーザ端末 1 1から送信されて来る音素認識部 1 5による認識結果としての音素ラテイスに対 して、 語彙文法メモリ 1 9に格納された語彙文法情報を用いて言語処理を行い、 音素認識部 1 5に音声入力された指示文を認識する。 そして、 認識結果を制御部 1 7に返す。 すなわち、 制御部 1 7で上記第 1実施の形態における上記受信制御 手段 7を構成し、 言語処理部 1 8で上記音声指示認識処理手段 5および出力制御 手段 8を構成しているのである。
図 3は、 上記構成を有する音声入力通信システムにおけるユーザ端末 1 1およ びセンターシステム 1 2によって行われる音声認識/情報処理動作のフローチヤ ートを示す。 以下、 図 3に従って、 音声認識/情報処理動作について詳細に説明 する。 尚、 ステップ S 21〜ステップ S 24はユーザ端末 1 1側の処理動作であり、 ステップ S 25〜ステップ S 27はセンターシステム 1 2側の処理動作である。 ステップ S 21で、 上記ユーザ端末 1 1の音素認識部 1 5に対してユーザの発声 による音声波形が入力される。 ステップ S 22で、 音素認識部 1 5によって、 入力 された音声波形が波形分析されて、 ケプストラム,パワー等の音響パラメータ時 系列が求められる。 ステップ S 23で、 さらに、 上記得られた音響パラメータ時系 列に基づいて、 話者適応化済みの高認識性能の音素認識方式によって音素が認識 される。 そして、 音素認識結果として、 図 4に示すような音素ラテイス(認識候 補の音素名とその尤度と始端時間および終端時間等)が得られる。 ステップ S 24 で、 通信制御部 1 6によって、 上記音素ラテイスが、 通信回線 1 3を介してセン ターシステム 1 2に送信される。
尚、 本実施の形態においては、 上記音素ラテイスを送信するようにしている。 しかしながら、 通信回線 1 3における通信速度の増加に伴って、 上記音素ラティ スの代りに、 図 5に示すような分析フレーム毎の音素類似度の時系列を生成して 送信してもよい。 あるいは、 図 6に示すような連続する複数分析フレーム毎の平 均音素類似度の時系列を生成して送信しても差し支えない。 その場合には、 音素 ラテイスを送信する場合よりもデータ量は多くなる力 音素認識部 1 5の処理負 荷を小さくできる。 したがって、 処理能力の低いユーザ端末 1 1の場合に用いる ことが望ましい。
ステップ S 25で、 上記センターシステム 1 2の制御部 1 7によって、 通信回線 1 3経由で送信されてくる上記音素ラテイスが受信され、 言語処理部 1 8に送出 される。 そして、 言語処理部 1 8によって、 語彙文法メモリ 1 9に格納された語 彙文法情報が参照されて上記音素ラテイスが解析され、 ユーザが発声した単語が 認識される。 ステップ S 26で、 さらに、 上記認識された単語に基づいてユーザが 発声した文が認識される。 そして、 上記認識された文が上記音声指示内容として 制御部 1 7に返される。 ステップ S 27で、 制御部 1 7によって、 受け取った指示 文の内容に応じてアプリケーションプログラムの実行が行われる。 そうした後、 音声認識/情報処理動作を終了する。
ここで、 上記語彙文法メモリ 1 9に格納された語彙文法情報としては、 語彙情 報としての音素記号表記と、 文法情報としての単語名をアークとする単語ネット ワーク(例えば、 特開平 8 - 6 5 8 9号公報)または単語 n -グラム(gram) ( n単 語組み)で与えられる。
このように、 本実施の形態においては、 ユーザによるユーザ端末 1 1に対する 音声による指示を、 通信回線 1 3を介してセンターシステム 1 2に送信するに際 して、 音声波形分析,音素認識,単語認識および文認識のうち音声波形分析および 音素認識をユーザ端末 1 1側で行い、 単語認識および文認識 (言語処理)をセンタ 一システム 1 2側で行うようにしている。 したがって、 ユーザ端末 1 1の認識処 理負荷を小さくすることができ、 携帯電話や P D A等の消費電力が低いユーザ端 末 1 1であっても大語彙による音声指示の音素を正しく且つ迅速に認識すること ができる。
その際に、 上記ユーザ端末 1 1の音素認識部 1 5によって得られた音素ラティ スあるいは分析フレーム毎の音素類似度の時系列あるいは連続する複数分析フレ ーム毎の平均音素類似度の時系列等の中間認識結果を、 通信回線 1 3を介してセ ンターシステム 1 2に送信する。 そして、 センターシステム 1 2の言語処理部 1 8によって、 上記受信した中間認識結果に基づいて、 単語認識および文認識を行 うようにしている。 したがって、 通信回線 1 3を介して送信されるデータに歪み が生ずることがなく、 高い認識性能を得ることができるのである。
(第 3実施の形態)
図 7は、 上記第 1実施の形態に示す音声入力通信システムの他の具体例を示す ブロック図である。 本実施の形態における音声入力通信システムは、 上記第 1実 施の形態におけるユーザシステム 1の機能をユーザ端末 2 1 , 2 2 , 2 3とユーザ 側システム 2 4とに分割しており、 センターシステム 2 6は上記第 1実施の形態 におけるセンターシステム 2に相当する。
上記各ユーザ端末 2 1 , 2 2 , 2 3の夫々には、 音声による指示が入力される。 また、 ユーザ側システム 2 4は、 各ユーザ端末 2 1, 2 2, 2 3の夫々と通信回線 (有線または無線の L AN) 2 5を介して接続されており、 音声認識を行って中間 認識結果を出力する。 また、 センターシステム 2 6は、 ユーザ側システム 2 4と 通信回線 (WAN) 2 7を介して接続されており、 音声指示内容を認識して出力す る。
上記各ユーザ端末 2 1 , 2 2 , 2 3は、 制御部 3 1 , 3 2 , 3 3を有している。 こ の制御部 3 1 , 3 2, 3 3は、 入力された音声波形データをディジタル化し、 通信 回線 2 5を介してユーザ側システム 2 4に送信する。 すなわち、 制御部 3 1, 3 2, 3 3で上記第 1実施の形態における上記第 1装置の音声指示認識処理手段お よぴ送信制御手段を構成しているのである。
上記ユーザ側システム 2 4は、 通信制御部 3 4と音素認識部 3 5とを有してい る。 上記通信制御部 3 4は、 音素認識部 3 5と通信回線 2 5, 2 7との接続を制 御する。 また、 音素認識部 3 5は、 通信制御部 3 4によって受信された音声波形 データから音響パラメータ時系列を求めて音素を認識する。 すなわち、 音素認識 部 3 5で上記第 1実施の形態における上記第 2装置の音声指示認識処理手段を構 成し、 通信制御部 3 4で上記第 2装置の受信制御手段および送信制御手段 6を構 成しているのである。
上記センターシステム 2 6は、 制御部 3 6と賁語処理部 3 7と語彙文法メモリ 3 8を有している。 上記制御部 3 6は、 通信回線 2 7とセンターシステム 2 6と の接続を制御する。 また、 言語処理部 3 7は、 通信回線 2 7を介してユーザ側シ ステム 2 4から送信されてくる音素認識部 3 5の認識結果としての音素ラテイス に対して、 語彙文法メモリ 3 8に格納された語彙文法情報を用いて言語処理を行 レ、、 ユーザ端末 2 1 , 2 2 , 2 3に音声入力された指示文を認識する。 そして、 認 識結果を制御部 3 6に返す。 すなわち、 制御部 3 6で上記第 1実施の形態におけ る上記受信制御手段 7を構成し、 言語処理部 3 7で上記音声指示認識処理手段 5 および出力制御手段 8を構成しているのである。
図 8は、 上記構成を有する音声入力通信システムにおけるユーザ端末2 1〜2 3,ユーザ側システム 2 4及びセンターシステム 2 6によって行われる音声認識/ 情報処理動作のフローチャートを示す。 以下、 図 8に従って、 音声認識/情報処 理動作について詳細に説明する。 尚、 ステップ S 31,ステップ S 32はユーザ端末 2 1〜2 3の何れ力 (以下においてはユーザ端末 2 1とする)の処理動作であり、 ステップ S 33〜ステップ S 35はユーザ側システム 2 4の処理動作であり、 ステツ プ S 36〜ステップ S 38はセンターシステム 2 6の処理動作である。
ステップ S 31で、 上記ユーザ端末 2 1の制御部 3 1に対してユーザの発声によ る音声波形が入力される。 ステップ S 32で、 制御部 3 1によって、 入力された音 声波形が通信回線 2 5を介してユーザ側システム 2 4に送信される。
ステップ S 33で、 上記ユーザ側システム 2 4の通信制御部 3 4によって、 通信 回線 2 5経由で送信されてくる上記音声波形データが受信され、 上記音素認識部 3 5に送出される。 そして、 音素認識部 3 5によって、 音声波形が波形分析され てケプストラム,パワー等の音響パラメータ時系列が求められる。 ステップ S 34 で、 さらに、 上記得られた音響パラメータ時系列に基づいて、 話者適応化済みの 高認識性能の音素認識方式によって音素が認識される。 そして、 音素認識結果と して上記音素ラテイスが得られる。 ステップ S 35で、 通信制御部 3 4によって、 上記音素ラテイスが通信回線 2 7を介してセンターシステム 2 6に送信される。 ステップ S 36で、 上記センターシステム 2 6の制御部 3 6によって、 通信回線 2 7経由で送信されてくる上記音素ラテイスが受信され、 言語処理部 3 7に送出 される。 そして、 言語処理部 3 7によって、 語彙文法メモリ 3 8に格納された語 彙文法情報が参照されて上記音素ラテイスが解析され、 ユーザが発声した単語が 認識される。 ステップ S 37で、 さらに、 上記認識された単語に基づいてユーザが 発声した文が認識される。 そして、 上記認識された文が上記音声指示内容として 制御部 3 6に返される。 ステップ S 38で、 制御部 3 6によって、 受け取った指示 文の内容に応じてアプリケーションプログラムの実行が行われる。 そうした後、 音声認識/情報処理動作を終了する。
このように、 本実施の形態においては、 ユーザによるユーザ端末 2 1 , 2 2 , 2 3に対する音声による指示を、 通信回線 2 5 , 3 7を介してセンターシステム 2 6に送信するに際して、 音声波形分析,音素認識,単語認識および文認識のうち音 声波形分析および音素認識をユーザ側システム 2 4で行い、 単語認識および文認 識をセンターシステム 2 6側で行うようにしている。 したがって、 ユーザ端末 2 1 , 2 2 , 2 3の夫々は、 単に、 入力された音声波形を通信回線(L AN) 3 5を介 してユーザ側システム 2 4に送信するだけでよく、 音声認識処理におけるユーザ 端末 2 1 , 2 2 , 2 3の処理負荷を、 上記第 2実施の形態におけるユーザ端末 1 1 よりも更に小さくできる。
すなわち、 本実施の形態によれば、 ユーザ端末 2 1 , 2 2, 2 3の更なる小型軽 量化を図ることができ、 消費電力が低いモパイル機器に更に適した音声入力通信 システムを構築できるのである。
(第 4実施の形態)
本実施の形態は、 上記第 2実施の形態の変形例である。 第 2実施の形態におい ては、 ユーザ端末 1 1に入力されたユーザの音声指示が音素認識部 1 5によって 音素単位で認識され、 センターシステム 1 2の言語処理部 1 8によってユーザの 音声指示が文単位で認識される。 そして、 認識した指示文の内容に応じたアプリ ケーションプログラムが実行される。
ところが、 その場合に、 上記アプリケーションプログラムが社内文書の読み出 し送信の実行に関するものである場合、 機密文書が外部に漏れる場合が当然予測 される。 また、 バンキングサービス(送金,揖替,残高照会,振り込み通知)に関す るものである場合には、 個人情報が他人に漏れることが予想される。 そこで、 本 実施の形態においては、 センターシステム側で話者認、識を行い、 ユーザ端末に音 声指示を入力したユーザの特定を行うのである。
ところで、 上記話者認識には、 話者認識に用いる言葉を予め決めておく発声内 容依存型と、 どんな言葉を発声してもよい独立型とがある。 一般に、 前者は、 対 象キーワードが定まっているために、 発声者の負担は少なく認、識率も高い。 とこ ろが、 登録話者の特徴パターンが録音された場合には全く無力となる。 一方、 後 者は、 上記のような問題に対しては強いが、 話者は多くの単語を発声する必要が あるため話者に多大な負担を強いることになる。 そこで、 本実施の形態において は、 話者認識装置側からその都度異なる発声単語を指定するテキスト指定型の話 者認識方法を用いるのである。
図 9は、 本実施の形態における音声入力通信システムのブロック図である。 本 実施の形態における音声入力通信システムは、 上記第 2実施の形態の場合と同様 に、 互いに通信回線 4 3で接続されたユーザ端末 4 1とセンターシステム 4 2と から構成されている。
上記ユーザ端末 4 1は、 音声による指示が入力されて上記中間認識結果を出力 する。 一方、 センターシステム 4 2は、 音声指示内容を認識して出力する。 それ に加えて、 センターシステム 4 2は、 テキスト指定型の話者認識を行うために発 声用のテキスト情報を生成してユーザ端末 4 1に送出する。 一方、 ユーザ端末 4 1は、 センターシステム 4 2からのテキスト情報に基づいて音声を合成して出力 するのである。
上記ユーザ端末 4 1は、 音素認識部 4 5と制御部 4 6と音声合成部 4 7を有し ている。 上記音素認、識部 4 5は、 入力された音声から音響パラメータ時系列を求 めて音素を認識する。 さらに、 話者の音声特徴(ピッチ周波数や長時間スぺタト ラム等)を抽出する。 音声合成部 4 7は、 音声合成制御パラメータに基づいて音 声を合成して出力する。 また、 制御部 4 6は、 音素認識部 4 5からの音素の認識 結果および話者の音声特徴を、 通信回線 4 3を介してセンタ一システム 4 2側へ 送信する。 一方、 通信回線 4 3を介して送信されてくる音声合成制御パラメータ の時系列を受信し、 音声合成部に 4 7に送出する。
上記センターシステム 4 2は、 制御部 4 8と話者認識部 4 9と言語処理部 5 0 と語彙文法メモリ 5 1とを有している。 上記制御部 4 8は、 通信回線 4 3とセン ターシステム 4 2との接続を制御すると共に、 ユーザ端末 4 1から入力された音 声指示に応じたアプリケーションプログラムを実行する。
上記話者認識部 4 9は、 ユーザが発声すべきテキストを決定し、 当該テキスト の音声合成制御パラメータを生成して制御部 4 8に送出する。 さらに、 音素認識 部 4 5で抽出された当該テキストに対応する話者の音声特徴に基づいて話者認識 を行い、 音声指示の入力者を特定する。 言語処理部 5 0は、 通信回線 4 3を介し てユーザ端末 4 1から送信されて来る音素認識結果としての音素ラテイスに対し て、 語彙文法メモリ 5 1に格納された語彙文法情報を用いて言語処理を行い、 音 素認識部 4 5に音声入力された指示文を認識する。 そして、 認識結果を制御部 4 8に返す。
そうすると、 上記制御部 4 8は、 認識された話者が登録された話者か、 あるい は、 認識された話者が認識された指示文で指定された口座の名義人と一致するか 等の認識話者の評価を行い、 正しい話者であると判定するとアプリケーションプ ログラムを実行するのである。
図 1 0は、 上記構成を有する音声入力通信システムにおけるユーザ端末 4 1お よびセンターシステム 4 2によって行われる音声認識/情報処理動作のフローチ ヤートを示す。 以下、 図 1 0に従って、 音声認識/情報処理動作について詳細に 説明する。 尚、 ステップ S 41はセンターシステム 4 2側の処理動作であり、 ステ ップ S 42〜ステップ S 47はユーザ端末 4 1側の処理動作であり、 ステップ S 48〜 ステップ S 51はセンターシステム 4 2側の処理動作である。
ステップ S 41で、 上記センターシステム 4 2の話者認識部 4 9で、 ユーザに対 する発声内容が決定され、 当該発声内容の音声合成制御パラメータ(母音 -子音 -母音( V C V)単位連鎖,ピッチ,基本ィントネーシヨン,アクセント等)が生成さ れて制御部 4 8に送出される。 そして、 制御部 4 8によって、 上記音声合成制御 パラメータが通信回線 4 3を介してユーザ端末 4 1に送信される。 尚、 その場合 における話者認識部 4 9による発声内容の決定は、 例えば、 各話者各単語列毎に 登録されている特徴パターンの中からランダムに一つの単語列を選出することに よって行われる。
ステップ S 42で、 上記ユーザ端末 4 1の制御部 4 6によって、 通信回線 4 3経 由で送信されてくる上記音声合成制御パラメータが受信され、 音声合成部 4 7に 送出される。 そして、 音声合成部 4 7によって、 上記音声合成制御パラメータに 基づいて音声合成が行われる。 ステップ S 43で、 音声合成部 4 7によって、 得ら れた発声内容の音声波形が出力される。 つまり、 発声内容(テキスト)の合成音声 が出力されるのである。
ステップ S 44で、 ユーザによって、 上記ステップ S 43において音声出力された 発声内容 (テキスト)が発声され、 引き続いて音声指示が発声される。 こうして、 音素認、識部 4 5に対してユーザの発声による音声波形が入力される。 ステップ S 45で、 音素認識部 4 5によって、 入力された音声波形が波形分析されて、 ケプス トラム,パワー,ピッチ周波数等の音響パラメータ時系列が求められる。 ステップ S 46で、 さらに、 上記得られた音響パラメータ時系列に基づいて、 話者適応化済 みの高認識性能の音素認識方式によって音素が認識される。 そして、 音素認識結 果として音素ラテイスが得られる。 ステップ S 47で、 制御部 4 6によって、 上記 音素ラテイスおよび音声特徴(ピッチ周波数や長時間スぺクトラム等)力 S、 通信回 線 4 3を介してセンタ一システム 4 2に送信される。
尚、 本実施の形態においても、 上記音素ラテイスの代りに、 上記分析フレーム 毎の音素類似度の時系列や連続する複数分析フレーム毎の平均音素類似度の時系 列を生成して送信しても差し支えない。
ステップ S 48で、 上記センターシステム 4 2の制御部 4 8によって、 通信回線 4 3経由で送信されてくる上記音素ラテイスおよび音声特徴が受信され、 上記音 素ラテイスが言語処理部 5 0に送出される。 そして、 言語処理部 5 0によって、 語彙文法メモリ 5 1に格納された語彙文法情報が参照されて上記音素ラテイスが 解析され、 ユーザが発声した単語が認識される。 ステップ S 49で、 さらに、 上記 認識された単語に基づいてユーザが発声した文が認識される。 そして、 上記認識 された文が上記音声指示内容として制御部 4 8に返される。
ステップ S 50で、 上記制御部 4 8によって、 受け取つた指示文の文頭部分から 上記発声内容 (テキスト)の単語列が検索され、 上記発声内容 (テキスト)の単語列 があれば、 その発声内容 (テキスト)部分の音声特徴が話者認識部 4 9に送出され る。 そして、 話者認識部 4 9によって、 当該音声特徴に基づいて話者認識が行わ れる。 ステップ S 51で、 制御部 4 8によって、 上記認識話者の評価が行われる。 そして、 正しい話者である場合には、 受け取った指示文の内容に応じて、 社内文 書の読出し送信やバンキングサービスや電子商取引等のアプリケーションプログ ラムの実行が行われる。 そうした後、 音声認識/情報処理動作を終了する。
このように、 本実施の形態においては、 ユーザによるユーザ端末 4 1に対する 音声による指示の中間認識結果をセンターシステム 4 2に送信し、 センターシス テム 4 2側でユーザによる指示文を認識するに先立って、 センターシステム 4 2 の話者認識部 4 9で、 ユーザに対する発声内容を決定して音声合成制御パラメ一 タを生成してユーザ端末 4 1に送信する。 そして、 ユーザ端末 4 1の音声合成部 4 7で、 受信した上記音声合成制御パラメータに基づいて発声内容の合成音声を 出力する。 さらに、 合成音声による発声内容に従ってユーザが発声した音声の特 徴をセンターシステム 4 2に送信し、 センターシステム 4 2の話者認、識部 4 9で 受信した音声特徴に基づいて話者認識を行うようにしている。
したがって、 本実施の形態によれば、 通信回線 4 3を介してユーザ端末 4 1と センターシステム 4 2とでテキスト指定型の話者認識を行うことができ、 バンキ ングサービスや電子商取引等にも適用可能なセキュリティ^の高い音声入力通信 システムを構築することができる。
その際に、 構文解析を含むテキスト解析, V C V単位の結合,音声合成制御パラ メータ生成等の負荷の大きい処理をセンターシステム 4 2側で行うようにしてい る。 したがって、 ユーザ端末 4 1の音声合成処理負荷を小さくすることができ、 携帯電話や P D A等の消費電力が低いユーザ端末 4 1によってセキュリティ性の 高い音声入力通信を行うことができるのである。
尚、 上記第 4実施の形態においては、 上記音声合成部 4 7および話者認識部 4 9を、 上記第 2実施の形態におけるユーザ端末 1 1およびセンターシステム 1 2 に設けた構成を有しているが、 上記第 3実施の形態におけるユーザ端末 2 1〜ュ 一ザ端末 2 3およびセンターシステム 2 6に設けた構成に成しても構わない。 また、 上記第 3,第 4実施の形態においては、 上記第 1実施の形態におけるュ 一ザシステム 1を、 搭載している音声指示認識処理手段 4の機能を単位として複 数に分割する場合について説明している。 しかしながら、 上述したように、 セン ターシステム 2を、 搭載している音声指示認識処理手段 5の機能を単位として複 数に分割しても差し支えない。 また、 他の処理システムを追加しても差し支えな い。
その場合の例として、 上記第 1実施の形態におけるセンターシステム 2を、 言 語処理部および語彙文法メモリを搭載した第 1センターシステムと、 日英機械翻 訳処理装置を搭載した第 2センターシステムとで構成することが考えられる。 こ の場合は、 第 1センターシステムで認、識したユーザの発声による日本文を、 第 2 センターシステムで英文に翻訳することができる。 こうすれば、 相手国の言語を 話すことができなくとも、 携帯電話で WAN等の通信回線を介して外国のセンタ 一システムに直接メッセージを送信することが可能になる。
あるいは、 上記第 1実施の形態におけるセンターシステム 2を、 言語処理部お よぴ語彙文法メモリを搭載した第 1センターシステムと、 異なるアプリケーショ ンプログラム実行部を搭載した第 2センターシステム〜第 nセンターシステムと で構成する。 そして、 第 1センターシステムは、 認識した指示文の内容から当該 指示を実行するアプリケーションプログラム実行部を搭載したセンターシステム を特定し、 そのセンターシステムに指示文を渡して実行させることもできる。 あるいは、 上記第 1実施の形態におけるセンターシステム 2を、 言語処理部と 語彙文法メモリと異なるアプリケーシヨンプログラムの実行処理部とを搭載した 複数のセンターシステムで構成する。 そして、 各センターシステムは、 中間認、識 結果を受信すると指示文の認識を一斉に開始し、 認識した指示文の内容から自分 当ての指示ではないと判断した場合には以後の処理を停止し、 自分当ての指示で あると判断したセンターシステムがアプリケーションプログラムを実行するよう にもできる。
尚、 上記各実施の形態においては、 上記音声認識単位として音素を用いている 1 音節であっても一向に差し支えない。
以上より明らかなように、 この発明の音声入力通信システムは、 ユーザシステ ムのユーザ端末からセンターシステムに対して第 1の通信回線を介して音声によ つて指示を行うに際して、 入力された音声指示の波形分析結果から指示内容を認 識する音声指示認識処理手段を音声認識,単語認識およぴ文認識等の機能単位で 分割し、 個々の部分音声指示認識処理手段を上記ユーザシステムと上記センター システムとに分散して保持するので、 上記センターシステム側に上記音声指示認 識処理手段の全機能を置く場合のように、 ユーザシステムからセンターシステム に入力音声波形を送信する必要がない。 したがって、 上記音声波形の送信歪みに 起因する認識率低下を防止できる。 また、 上記ユーザシステムに上記音声指示認 識処理手段の全機能を置く場合のように、 上記センターシステムからユーザシス テムに語彙文法情報を送信する必要がない。 したがって、 上記音声指示が変わる 毎の上記語彙文法情報の送信に起因する待ち時間を無くすことができ、 迅速な音 声指示内容の認識を行うことができる。 さらに、 上記ユーザシステムの処理負荷 を低減できる。
また、 1実施例の発明の音声入力通信システムは、 上記ユーザシステムに、 ュ 一ザ端末に第 2の通信回線を介して接続されたユーザ側システムを設けたので、 上記ユーザシステムで保持する部分音声指示認、識処理手段を、 さらに上記ユーザ 端末とユーザ側システムとで分散して保持できる。 したがって、 上記ユーザ端末 の処理負荷を更に低減することができ、 上記ユーザ端末が携帯電話や P D A等の 消費電力が低いモパイル機器であっても、 語彙数の多い音声指示文に十分対処す ることが可能になる。
また、 1実施例の発明の音声入力通信システムは、 上記センターシステムを複 数にし、 各センターシステムを第 3の通信回線を介して接続したので、 上記セン ターシステムで保持する部分音声指示認識処理手段を、 さらに複数のセンターシ ステムで分散して保持することができる。 また、 音声指示認識処理を行うセンタ 一システムと、 認識された指示内容に従ってアプリケーション処理を行うセンタ 一システムとを分離することができる。 また、 上記ユーザ端末から異なるセンタ 一システムに対して、 音声によって指示を行なうことができる。
また、 1実施例の発明の音声入力通信システムは、 少なくとも最終段のセンタ 一システムに、 上記音声指示認、識処理手段によって取得された指示内容を出力す る出力制御手段を備えたので、 少なくとも最終段のセンターシステムでは、 指示 内容に応じた様々なアプリケーションプログラム等を実行することができる。 また、 1実施例の発明の音声入力通信システムは、 上記ユーザシステムにおけ る上記ユーザ端末およびユーザ側システムの何れかに、 上記部分音声指示認識処 理手段としての音声認識手段と送信制御手段を備えたので、 上記ユーザシステム から入力音声の中間認識結果を上記センターシステムに送信できる。 したがって、 直接音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果を送信 することができ、 認、識率の低下を防止できる。
また、 1実施例の発明の音声入力通信システムは、 少なくとも一つのセンター システムに、 語彙文法を記憶する語彙文法メモリと、 上記部分音声指示認識処理 手段としての言語処理手段を備えたので、 上記ユーザシステムからの中間認識結 果に対して言語処理を行って、 誤った認識候補が除かれた言語的に正しい指示内 容を得ることができる。 したがって、 上記ユーザ端末に入力された音声指示の正 確な指示内容を得ることができる。
また、 1実施例の発明の音声入力通信システムは、 上記音声認識手段を音素認 識手段あるいは音節認識手段とし、 上記中間認識結果を音素ラテイスあるいは音 節ラテイスとしたので、 音声波形を送信する場合に比して送信歪みの少ない中間 認識結果を、 音素ラテイスまたは音節ラテイスとして容易に得ることができる。 また、 1実施例の発明の音声入力通信システムは、 音素ラテイスに代えて、 分 析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素 類似度系列を上記中間認識結果として用いるので、 上記音素認識手段の処理負荷 を小さくできる。 したがって、 上記音素認識手段を、 処理能力の低いユーザ端末 に搭載することができる。
また、 1実施例の発明の音声入力通信システムは、 上記第 1の通信回線と第 2 , 第 3の通信回線とを異なる種類の通信回線にしたので、 例えば、 上記第 1の通信 回線を WANとし、 上記第 2 ,第 3の通信回線を L ANとすることによって、 支 社内の異なるユーザ端末から東京の本社内の異なるセンターシステムに対して音 声によって指示を行うことができる。
また、 1実施例の発明の音声入力通信システムは、 少なくとも一つのセンター システムに、 ユーザが発声すべき発声内容の音声合成制御パラメータを送信する 発声指示手段と、 上記ユーザシステムで抽出された入力音声の特徴に基づ!/ヽて話 者を認識する話者認識手段を備える一方、 上記ユーザシステムにおける上記ユー ザ端末には、 上記音声合成制御パラメータに基づいて上記発声内容の合成音声を 生成する音声合成手段を備え、 上記ユーザ端末およぴユーザ側システムの何れか 一方には、 入力音声の特徴を抽出して送信する波形分析手段を備えたので、 ユー ザによる上記ユーザ端末に対する音声指示を上記センターシステムで認識するに 先立って、 上記第 1の通信回線を介してユーザシステムとセンターシステムとで テキスト指定型の話者認識を行うことができる。
したがって、 特定ユーザによる音声指示である場合にのみ当該音声指示に応じ た処理を実行することができ、 バンキングサービスや電子商取弓 I等にも適用可能 なセキュリティ性の高い音声入力通信システムを構築することができる。
また、 この発明のユーザ端末は、 入力された音声を音素単位で認識して音素ラ テイスを生成する音素認識手段と、 上記音素ラテイスを通信回線を介して送信す る送信制御手段を備えたので、 中間認識結果である音素ラテイスを送信すること ができる。 したがって、 上記通信回線を介して入力音声波形を送信する場合のよ うに、 送信歪みに起因して入力音声の認識率が低下することはない。
また、 この発明のセンターシステムは、 通信回線を介してユーザシステムから 送信されてくる音素ラテイスを受信する受信手段と、 上記音素ラテイスに対して 語彙文法を用いた言語処理を行なう言語処理手段を備えたので、 上記通信回線を 介して送信されてくる入力音声波形に対して音声波形分析,音素認識および言語 処理を行う場合のように、 送信歪みに起因して入力音声の認識率が低下すること はない。

Claims

請 求 の 範 囲
1 . ユーザ端末を有するユーザシステムとセンターシステムとが第 1の通信回 線を介して接続され、 上記ユーザ端末から上記センターシステムに対して音声に よって指示を行なう音声入力通信システムにおいて、
異なる機能を有する複数の部分音声指示認識処理手段から成ると共に、 入力さ れた音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を備 え、
上記複数の部分音声指示認識処理手段を上記ユーザシステムと上記センターシ ステムとに分散して備えたことを特徴とする音声入力通信システム。
2. 請求項 1に記載の音声入力通信システムにおいて、
上記ユーザシステムには、 上記ユーザ端末に第 2の通信回線を介して接続され たユーザ側システムが設けられており、
上記ユーザ側システムは、 上記第 1の通信回線を介して上記センターシステム に接続されていることを特徴とする音声入力通信システム。
3 . 請求項 1に記載の音声入力通信システムにおいて、
上記センターシステムは複数存在し、 各センターシステムは第 3の通信回線を 介して接続されていることを特徴とする音声入力通信システム。
4. 請求項 3に記載の音 入力通信システムにおいて、
少なくとも最終段のセンターシステムは、 上記音声指示認識処理手段によって 認識された指示内容を出力する出力制御手段を備えていることを特徴とする音声 入力通信システム。
5 . 請求項 2に記載の音声入力通信システムにおいて、
上記ユーザシステムにおける上記ユーザ端末およぴユーザ側システムの何れか には、 入力音声を認識して中間認識結果を出力する上記部分音声指示認識処理手 段としての音声認識手段と、 上記中間認識結果を上記第 1の通信回線を介して上 記センターシステムに送信する送信制御手段を備えたことを特徴とする音声入力 通信システム。
6 . 請求項 5に記載の音声入力通信システムにおいて、
少なくとも一つのセンターシステムは、
語彙文法を記憶する語彙文法メモリと、
上記ユーザシステムからの中間認識結果に対して上記語彙文法を用いた言語処 理を行なう上記部分音声指示認識処理手段としての言語処理手段を備えているこ とを特徴とする音声入力通信システム。
7 . 請求項 5あるいは請求項 6に記載の音声入力通信システムにおいて、 上記音声認識手段は音素認識手段であり、
上記中間認識結果は音素ラテイスであることを特徴とする音声入力通信システ ム。
8 . 請求項 7に記載の音声入力通信システムにおいて、
上記中間認識結果として、 上記音素ラテイスに代えて、 分析フレーム毎の音素 類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いる ことを特徴とする音声入力通信システム。
9 . 請求項 5あるいは請求項 6に記載の音声入力通信システムにおいて、 上記音声認識手段は音節認識手段であり、
上記中間認識結果は音節ラテイスであることを特徴とする音声入力通信システ ム。
1 0 . 請求項 2あるいは請求項 3に記載の音声入力通信システムにおいて、 上記第 1の通信回線と第 2,第 3の通信回線とは、 異なる種類の通信回線であ ることを特 ¾とする音声入力通信システム。 .
1 1 . 請求項 2に記載の音声入力通信システムにおいて、 少なくとも一つのセンターシステムに設けられて、 ユーザが発声すべき発声内 容の音声合成制御パラメータを生成し、 上記第 1の通信回線を介してユーザシス テムに送信する発声指示手段と、
上記ユーザシステムにおける上記ユーザ端末に設けられて、 上記第 1の通信回 線を介して送信されてくる上記音声合成制御パラメータに基づいて上記発声内容 の合成音声を生成する音声合成手段と、
上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れか 一方に設けられて、 入力された音声の波形を分析して入力音声の特徴を抽出し、 上記第 1の通信回線を介してセンターシステムに送信する波形分析手段と、 上記発声指示手段が設けられたセンターシステムに設けられて、 上記第 1の通 信回線を介して送信されてくる上記入力音声の特徴に基づいて話者を認識する話 者認識手段を備えたことを特徴とする音声入力通信システム。
1 2 . 入力された音声を音素単位で認識して音素ラティスを生成する音素認識 手段と、
上記音素ラテイスを、 通信回線を介して送信する送信制御手段を備えたことを 特徴とするユーザ端末。
1 3 . ユーザシステムと通信回線を介して情報を送受信するセンターシステム であって、
上記通信回線を介して送信されてくる音素ラテイスを受信する受信手段と、 語彙文法を記憶する語彙文法メモリと、
上記音素ラティスに対して上記語彙文法を用いた言語処理を行なう言語処理手 段を備えたことを特徴とするセンターシステム。
PCT/JP2001/005174 2000-06-20 2001-06-18 Systeme de communication a entree vocale, terminal d'utilisateur et systeme central WO2001099096A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US10/311,768 US7225134B2 (en) 2000-06-20 2001-06-18 Speech input communication system, user terminal and center system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000184475A JP3672800B2 (ja) 2000-06-20 2000-06-20 音声入力通信システム
JP2000-184475 2000-06-20

Publications (1)

Publication Number Publication Date
WO2001099096A1 true WO2001099096A1 (fr) 2001-12-27

Family

ID=18684916

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/005174 WO2001099096A1 (fr) 2000-06-20 2001-06-18 Systeme de communication a entree vocale, terminal d'utilisateur et systeme central

Country Status (3)

Country Link
US (1) US7225134B2 (ja)
JP (1) JP3672800B2 (ja)
WO (1) WO2001099096A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005024781A1 (en) * 2003-08-29 2005-03-17 Johnson Controls Technology Company System and method of operating a speech recognition system in a vehicle
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030037004A1 (en) 2001-08-14 2003-02-20 Chuck Buffum Dialog-based voiceprint security for business transactions
US8996379B2 (en) * 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20080221900A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile local search environment speech processing facility
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110184740A1 (en) 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
CN103871401B (zh) * 2012-12-10 2016-12-28 联想(北京)有限公司 一种语音识别的方法及电子设备
CN103763597A (zh) * 2014-01-08 2014-04-30 宇龙计算机通信科技(深圳)有限公司 控制设备的遥控方法及其装置
CN110265004B (zh) * 2019-06-27 2021-11-02 青岛海尔科技有限公司 智能家居操作系统中目标终端的控制方法及装置
US11900921B1 (en) 2020-10-26 2024-02-13 Amazon Technologies, Inc. Multi-device speech processing
US11721347B1 (en) * 2021-06-29 2023-08-08 Amazon Technologies, Inc. Intermediate data for inter-device speech processing

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4987596A (en) * 1985-03-25 1991-01-22 Kabushiki Kaisha Toshiba Knowledge-guided automatic speech recognition apparatus and method
EP0423800A2 (en) * 1989-10-19 1991-04-24 Matsushita Electric Industrial Co., Ltd. Speech recognition system
JPH03221999A (ja) * 1990-01-29 1991-09-30 Sharp Corp 音声認識装置
JPH0695689A (ja) * 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
JPH07141309A (ja) * 1993-11-16 1995-06-02 Canon Inc 情報処理装置
JPH1020883A (ja) * 1996-07-02 1998-01-23 Fujitsu Ltd ユーザ認証装置
JPH10133847A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS607498A (ja) 1983-06-28 1985-01-16 富士通株式会社 単語音声認識装置とその方法
JP2655086B2 (ja) 1994-06-21 1997-09-17 日本電気株式会社 電話回線音声入力システム
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4987596A (en) * 1985-03-25 1991-01-22 Kabushiki Kaisha Toshiba Knowledge-guided automatic speech recognition apparatus and method
EP0423800A2 (en) * 1989-10-19 1991-04-24 Matsushita Electric Industrial Co., Ltd. Speech recognition system
JPH03221999A (ja) * 1990-01-29 1991-09-30 Sharp Corp 音声認識装置
JPH0695689A (ja) * 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
JPH07141309A (ja) * 1993-11-16 1995-06-02 Canon Inc 情報処理装置
JPH1020883A (ja) * 1996-07-02 1998-01-23 Fujitsu Ltd ユーザ認証装置
JPH10133847A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005024781A1 (en) * 2003-08-29 2005-03-17 Johnson Controls Technology Company System and method of operating a speech recognition system in a vehicle
US11818458B2 (en) 2005-10-17 2023-11-14 Cutting Edge Vision, LLC Camera touchpad
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US11314214B2 (en) 2017-09-15 2022-04-26 Kohler Co. Geographic analysis of water conditions
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance
US11949533B2 (en) 2017-09-15 2024-04-02 Kohler Co. Sink device

Also Published As

Publication number Publication date
JP2002006882A (ja) 2002-01-11
US7225134B2 (en) 2007-05-29
US20040078202A1 (en) 2004-04-22
JP3672800B2 (ja) 2005-07-20

Similar Documents

Publication Publication Date Title
WO2001099096A1 (fr) Systeme de communication a entree vocale, terminal d'utilisateur et systeme central
US7450698B2 (en) System and method of utilizing a hybrid semantic model for speech recognition
US7209880B1 (en) Systems and methods for dynamic re-configurable speech recognition
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US20030120493A1 (en) Method and system for updating and customizing recognition vocabulary
EP1047046A2 (en) Distributed architecture for training a speech recognition system
JP2003044091A (ja) 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
US20080059191A1 (en) Method, system and apparatus for improved voice recognition
JP2007233412A (ja) ユーザが定義したフレーズの話者に依存しない認識方法及びシステム
US7392184B2 (en) Arrangement of speaker-independent speech recognition
JP4960596B2 (ja) 音声認識の方法およびシステム
US8488750B2 (en) Method and system of providing interactive speech recognition based on call routing
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
US20030135371A1 (en) Voice recognition system method and apparatus
EP1899955B1 (en) Speech dialog method and system
WO2001020597A1 (en) Automatic speech recognition to control integrated communication devices
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2002049390A (ja) 音声認識方法およびサーバならびに音声認識システム
US20020077814A1 (en) Voice recognition system method and apparatus
JP2655086B2 (ja) 電話回線音声入力システム
JP2002082691A (ja) 発声内に含まれる会社名の自動認識方法
JP2000047684A (ja) 音声認識方法および音声サービス装置
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法
JPH0950290A (ja) 音声認識装置および該装置を用いた通信装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 10311768

Country of ref document: US