WO2005091274A1 - 音声処理方法と通信システム並びに通信端末およびサーバとプログラム - Google Patents

音声処理方法と通信システム並びに通信端末およびサーバとプログラム Download PDF

Info

Publication number
WO2005091274A1
WO2005091274A1 PCT/JP2005/004981 JP2005004981W WO2005091274A1 WO 2005091274 A1 WO2005091274 A1 WO 2005091274A1 JP 2005004981 W JP2005004981 W JP 2005004981W WO 2005091274 A1 WO2005091274 A1 WO 2005091274A1
Authority
WO
WIPO (PCT)
Prior art keywords
program
data
processing
communication terminal
language information
Prior art date
Application number
PCT/JP2005/004981
Other languages
English (en)
French (fr)
Inventor
Minako Miyamoto
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Publication of WO2005091274A1 publication Critical patent/WO2005091274A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72406User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by software upgrading or downloading

Definitions

  • the present invention relates to a voice processing method, a communication system, a communication terminal, a server, and a program.
  • the present invention relates to a voice processing method, a communication system, a communication terminal, a server, and a program.
  • the communication terminal described in Document 1 includes a voice recognition unit, a voice synthesis unit, a control unit, a transmission / reception unit, and a data conversion unit.
  • the communication terminal converts an input voice into text by voice recognition and transmits the text, and receives the text from the transmission / reception unit.
  • the synthesized data is read out by speech synthesis.
  • the communication terminal described in Document 2 includes a voice recognition unit, a voice synthesis unit, and a control unit (mail processing unit), creates a mail by voice input, and reads out the mail by voice synthesis.
  • a program received from the outside of the terminal dynamically changes according to a program built in the terminal or data managed by the program, particularly, user-specific data or a state of the system.
  • Data and the voice processing function cannot be operated in cooperation with each other, for example, in a desired mode unique to the terminal.
  • an object of the present invention is to realize a desired function by combining at least one of programs and data built in a communication terminal with processing such as audio processing.
  • a communication terminal stores processing means for performing a predetermined process, and at least one of a first program and first data.
  • the first storage means and at least one of the second program and the second data are recorded.
  • Second storage means for storing, and control means for associating processing by the processing means with at least one of the first program and the first data using at least one of the second program and the second data. It is characterized by having.
  • the server controls the manner of cooperation between at least one of the first program and the first data stored in the communication terminal in advance and a predetermined process performed in the communication terminal.
  • a first transmission means for transmitting at least one of the prescribed second program and second data to the communication terminal.
  • the communication system includes a communication terminal and at least one server that is communicably connected to the communication terminal, wherein the communication terminal performs at least one of voice processing of voice recognition and voice synthesis.
  • Processing means terminal speech processing language information creation means for creating speech processing language information in accordance with at least one of a first program and first data stored in the communication terminal in advance, And at least one of the second program and the second data provided with a voice processing using linguistic information, and control means for causing at least one of the first program and the first data to cooperate with the second program and the second data.
  • the communication terminal may include a step of receiving at least one of the second program and the second data from outside the communication terminal; Voice processing performed by the communication terminal using at least one of the first data and the step of performing a control for causing at least one of the first program and the first data stored in the communication terminal to operate in cooperation with each other. It is characterized by the following.
  • the program according to the present invention includes a function of performing at least one of speech recognition and speech synthesis on a computer constituting a communication terminal, and a first program and a second program stored in advance in the communication terminal.
  • a function of creating language information for voice processing based on at least one of the first data, and at least one of the received second program and the second data, the voice processing, the first program and the first And a function of controlling at least one of the data to operate in cooperation with each other.
  • the electronic device includes a processing unit that performs a predetermined process, a first storage unit that stores at least one of a first program and first data, Second storage means for storing at least one of the second program and the second data; processing by the processing means using at least one of the second program and the second data; And control means for linking at least one of the data.
  • the program is downloaded from a server to link with a voice processing function. Can be operated.
  • FIG. 1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention.
  • FIG. 2A is a flowchart showing an operation of the first exemplary embodiment of the present invention. The case where speech language information is generated on the communication terminal side is shown.
  • FIG. 2B is a flowchart showing the operation of the first exemplary embodiment of the present invention. It shows the case where speech linguistic information is generated on the server side.
  • FIG. 3 is a diagram showing a specific example of a program and data stored in a communication terminal according to the first embodiment of the present invention.
  • FIG. 4 is a diagram showing a specific example of a program and its data stored in the communication terminal of the first embodiment of the present invention in advance.
  • FIG. 5 is a diagram showing a specific example of a program and data stored in a communication terminal in advance in the communication terminal according to the first embodiment of the present invention.
  • FIG. 6 is a diagram showing a specific example of a program and data stored in the communication terminal of the first embodiment of the present invention in advance.
  • FIG. 7 is a diagram showing a specific example of a program and its data stored in the communication terminal of the first embodiment of the present invention in advance.
  • FIG. 8 is a diagram showing a specific example of a program and data stored in the communication terminal of the first embodiment of the present invention in advance.
  • FIG. 9 is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the first embodiment of the present invention.
  • FIG. 10 is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the first embodiment of the present invention.
  • FIG. 11A is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the first embodiment of the present invention. An example of a grammar template for grammar generation is shown.
  • FIG. 11B is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the first embodiment of the present invention. It shows an example of a word string registered according to the grammar template of FIG. 11A.
  • FIG. 11C is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the first embodiment of the present invention.
  • FIG. 11A and FIG. 11B show correspondence between an example of utterance that can be recognized as a result of inserting a word string into the template and the template.
  • FIG. 12 is a diagram showing a specific example of data stored in a server according to the first embodiment of the present invention.
  • FIG. 13 is a diagram showing a specific example of creating speech language information for speech processing in the server according to the first embodiment of the present invention.
  • FIG. 14A is a diagram showing a specific example of creating speech language information for speech processing in the server according to the first embodiment of the present invention. Show the grammar for speech recognition that has already been generated.
  • FIG. 14B is a diagram showing a specific example of creating speech language information for speech processing in the server according to the first embodiment of the present invention. Show the grammar for speech recognition that has already been generated.
  • FIG. 14C is a diagram showing a specific example of creating speech language information for speech processing in the server according to the first embodiment of the present invention. 14 shows a grammar template for generating a new grammar by fusing the grammars of FIGS. 14A and 14B.
  • FIG. 14D is a diagram showing a specific example of creating speech language information for speech processing in the server according to the first embodiment of the present invention. It shows the grammar created using the grammar template in FIG. 14C.
  • FIG. 15 is a diagram showing an example of the operation of a program downloaded from outside the terminal according to the first embodiment of the present invention.
  • FIG. 16A is a diagram showing an example of the operation of a program downloaded from outside the terminal according to the first embodiment of the present invention.
  • FIG. 16B is a diagram showing an example of the operation of the program downloaded from the outside of the terminal according to the first embodiment of the present invention.
  • FIG. 16C is a diagram showing an example of the operation of a program downloaded from the outside of the terminal according to the first embodiment of the present invention.
  • FIG. 17 is a diagram showing an example of the operation of a program downloaded from the outside of the terminal according to the first embodiment of the present invention.
  • FIG. 18 is a diagram showing an example of the operation of a program downloaded from outside the terminal according to the first embodiment of the present invention.
  • FIG. 19 is a diagram showing an example of an operation of a program downloaded from outside the terminal according to the first embodiment of the present invention.
  • FIG. 20 is a diagram showing a configuration of a second exemplary embodiment of the present invention.
  • FIG. 21 is a flowchart showing an operation of the second example of the present invention.
  • FIG. 22A is a diagram showing a specific example of creating speech language information for speech processing in a communication terminal according to the second embodiment of the present invention.
  • FIG. 4 is a diagram for explaining programs and data read from a first program and data storage means by voice processing language information creating means.
  • FIG. 22B is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the second embodiment of the present invention.
  • FIG. 8 is a diagram for explaining a program and data read from a second program and data storage means by a speech processing language information creating means.
  • FIG. 22C is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the second embodiment of the present invention. It is a figure for explaining an example of goods data.
  • FIG. 22D is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the second embodiment of the present invention.
  • the grammar generated by the speech processing language information creation means It is a template.
  • FIG. 22E is a diagram showing a specific example of creating speech language information for speech processing in the communication terminal according to the second embodiment of the present invention.
  • FIG. 11 is a diagram for explaining that a grammar is generated by referring to data in a grammar template.
  • FIG. 23 is a diagram showing a configuration of a third example of the present invention.
  • FIG. 24 is a flowchart showing an operation of the third example of the present invention.
  • FIG. 25A is a diagram showing a specific example of voice processing language information integration in a communication terminal according to a third embodiment of the present invention.
  • FIG. 25B is a diagram showing a specific example of voice processing linguistic information integration in the communication terminal according to the third embodiment of the present invention.
  • FIG. 25C is a diagram showing a specific example of voice processing language information integration in a communication terminal according to the third embodiment of the present invention. An example of speech language information generated by the communication terminal is shown below.
  • FIG. 25D is a diagram showing a specific example of voice processing language information integration in the communication terminal according to the third embodiment of the present invention. An example for synthesizing speech language information by speech processing language information integration means is shown.
  • FIG. 25E is a diagram showing a specific example of voice processing linguistic information integration in the communication terminal according to the third embodiment of the present invention.
  • FIG. 9 is a diagram for explaining generation of a grammar by referring to data in a grammar template.
  • the first embodiment of the present invention includes a communication terminal 100 and a server 200.
  • the communication terminal 100 includes a first program and data storage means 101, a voice processing means 102, a voice processing language information creating means 103, a transmission / reception means 104, a second program and data storage means 105, a control means 106
  • the server 200 includes a transmitting / receiving means 201 and a speech processing language information creating means 202. Each of these means operates as follows. [0017]
  • the first program and data storage means 101 stores a program (first program) built in the communication terminal 100 in advance and data (first data) managed by the program.
  • the data stored in the first program and data storage means 101 includes data that dynamically changes according to the state of the communication terminal 100 and personal data of a user of the communication terminal 100.
  • Voice processing means 102 performs at least one of voice recognition and voice synthesis.
  • the voice processing language information creating means 103 generates a dictionary, a grammar, a language model, and the like for the voice processing means 102 based on the first program and data storage means 101 based on the stored first program and data. create.
  • the transmission / reception unit 104 transmits information on the communication terminal 100 side to the server 200, and receives programs and data from outside the communication terminal 100.
  • the second program and data storage means 105 is transmitted and received by the transmission / reception means 104.
  • the control means 106 calls the program and data from the second program and data acquired by the transmission / reception means 104 (subroutine call or the like), and
  • the transmission / reception means 201 of the server 200 receives information on the communication terminal 100 side, and transmits programs and data from the server 200 to the communication terminal 100 side.
  • the voice processing language information generating means 202 generates a voice processing dictionary from the data stored in the server 200 based on the data transmitted from the communication terminal 100.
  • FIG. 2A and FIG. 2B are flowcharts for explaining the operation of one embodiment of the present invention. The overall operation of the present embodiment will be described in detail with reference to FIG. 1, FIG. 2A, and FIG. 2B.
  • the speech language information used by the speech processing means 102 of the communication terminal 100 includes two cases: a case where it is generated on the communication terminal 100 side and a case where it is generated on the server 200 side.
  • the case where it is generated on the communication terminal 100 side will be described with reference to FIG. 2A, and the case where it will be generated with the server 200 will be described with reference to FIG. 2B.
  • the transmission / reception means 104 receives a program and data from outside the communication terminal 100 (Step Sal) and stores the program and data in the second program and data storage means 105 (Step Sa2).
  • control means 106 calls and activates the program and data stored in the second program and data storage means 105 (step Sa3).
  • Linguistic information is generated by using the data of the first program and the data storage means 101
  • the control means 106 reads the generated speech processing language information and activates the speech processing means 102 (step Sa5).
  • step Sa6 According to the program started in step Sa3, the first program and the program of the data storage means 101 are called (step Sa6), and are operated in cooperation with the voice processing means 102.
  • the transmission / reception means 104 receives a program and data from outside the communication terminal 100 (step Sbl) and stores the program and data in the second program and data storage means 105 (step Sb2). .
  • control means 106 starts the above-mentioned program and data from the second program and data storage means 105 (step Sb3).
  • step Sb4 The procedure for creating language information for speech processing described in the activated program and the data necessary for creating the language information are transmitted to the server 200 (step Sb4).
  • the speech processing language information creation means 202 On the server 200 side, the speech processing language information creation means 202 generates speech language information using the language information creation procedure and data transmitted from the communication terminal 100 and the data stored in the server 200 side. (Step Sb5), and transmits to the communication terminal 100 (Step Sb6).
  • the communication terminal 100 reads out the generated speech processing language information, and activates the speech processing means 102 (step Sb7).
  • step Sb8 the first program and the program of the data storage means 101 are called in accordance with the program started in step Sb3 (step Sb8), and cooperated with the voice processing means 102 (step Sb9).
  • step Sb9 the operation and effect of the present embodiment will be described.
  • the communication terminal 100 and the server 200 are configured to execute the voice processing language information creating means 103 and 202. Therefore, a program pre-installed in the communication terminal 100, Even if the data managed by does not support voice processing such as voice recognition and voice synthesis, the communication terminal 100 downloads a program that is linked to voice processing from outside the communication terminal 100. Processing functions can be used.
  • the transmission / reception unit 104 includes a transmission / reception unit 104, a unit for storing a program obtained by reception, and a control unit 106 for performing control for calling and executing the program, Programs with different cooperation methods can be replaced according to the user's preference.
  • FIGS. 3 to 8 illustrate examples of programs and data stored in the first program and data storage unit 101 of the specific example shown in FIG.
  • FIG. 3 is a diagram for explaining the correspondence between the first program and the program stored in the data storage means 101 and the data managed by the program.
  • five programs are stored: terminal management, address book, sent / received (outgoing / received) history, GPS (Global Positioning System), and infrared.
  • terminal management data address book data
  • transmission / reception history data GPS data
  • infrared data are stored as corresponding data.
  • FIGS. 4 to 8 are diagrams showing an example of data managed by the first program shown in FIG. 3 and the program stored in the data storage means 101.
  • FIG. Assumes dynamically changing data for terminals.
  • FIG. 4 is an example of terminal management data managed by the terminal management program of FIG. As shown in Fig. 4, terminal management data consists of items and their values (parameters).
  • FIG. 5 is an example of address book data managed by the address book program of FIG.
  • the address book data is composed of ID, name, name reading, mail address, and telephone number for numbering the data.
  • ID 001
  • name Ichiro Tanaka
  • reading Ichiyan
  • e-mail address ichiro@xxx.com
  • telephone number 090—2222—3333.
  • FIG. 6 is an example of outgoing / incoming (transmitting / receiving) history data managed by the outgoing / incoming (outgoing / receiving) history program shown in FIG.
  • the outgoing / incoming call history data consists of an ID for numbering the data, classification of outgoing / incoming calls, date and time of outgoing / incoming calls, and telephone number of the outgoing / incoming call.
  • FIG. 7 is an example of GPS data managed by the GPS program in FIG.
  • GPS data the data acquired when the GPS program was run immediately before is retained.
  • the GPS data includes an item name and its value.
  • the items consist of the measurement date and time, latitude, longitude, and the current location address. It is 1_1-1 Shiba, Minato-ku, Tokyo.
  • FIG. 8 is an example of infrared data managed by the infrared program in FIG.
  • the infrared data holds the communication history with the infrared port outside the terminal.
  • the infrared ray data includes an ID for numbering the data, a communication date and time, a communication destination ID, a communication command, and parameters attached to the command. There are 4 data,
  • the speech processing language information creating means 103 creates speech language information used by the speech processing means 102.
  • the voice processing means 102 performs voice recognition and voice synthesis.
  • the speech language information for speech recognition includes a word dictionary composed of a word string and its readings.
  • a grammar by a finite language network and a language model based on a stochastic statistical model.
  • a dictionary including a word string and its reading ability is used as the speech language information for speech synthesis.
  • morphological analysis is performed using a target program or data format, words of a specific part of speech are read, and registered in the word dictionary. At this time, a reading rule is determined for each part of speech, and reading is performed according to the rules.
  • Examples of the data for which the former morphological analysis is effective include Web page data managed by a Web browser and mail data managed by a mailer.
  • Examples of the case where the latter data structure analysis is effective include address book data and terminal state data.
  • the analysis result is a person's name, if there is corresponding reading information in the same data, that information is given priority, and if there is no reading, the reading is generated by the kana-kanji conversion function.
  • the analysis results include telephone numbers and e-mail addresses including numbers and alphabets, as well as names including "Tanaka-san's telephone” and "Tanaka-san's e-mail address”. To register.
  • nouns indicating terminal functions and parts such as "battery” and “power supply”, and nouns, adjectives and verbs indicating their states are read in advance for synonyms, pronunciation variants, and abbreviations.
  • a database is prepared in advance, and the corresponding database is registered in the dictionary.
  • a grammar template is prepared in advance for each target program.
  • This grammar template defines the network of word strings, which is the structure of the grammar, and the method of generating word strings.
  • the speech processing language information creating means 103 inserts data according to the grammar template to create a grammar.
  • a morphological analysis is performed using a target program or data format in the same manner as a word dictionary for speech recognition, and a reading rule is determined for each part of speech. Determine and register readings according to these rules.
  • a reading rule there is the following method. [0068] If the analysis result is a person's name, as a reading rule, if there is corresponding reading information in the same data, that reading information is given priority, and if there is no reading, the kana-kanji conversion function is used. Generate readings.
  • the result of the analysis is an e-mail address
  • the owner can be determined from the relationship before and after the e-mail address using the result of the morphological analysis as a reading rule, if the owner can be determined, such as “Mr. If the owner cannot be determined, the reading is performed as “this mail address”.
  • the owner can be determined from the relationship before and after the telephone number using the result of the morphological analysis as a reading rule, for example, “Tanaka's telephone number "And read the name of the owner. On the other hand, if the owner cannot be determined, read as "this phone number”.
  • the type of telephone such as a fixed telephone, a mobile telephone, an IP telephone, and a free dial is determined from the station number.
  • the analysis result indicates a noun indicating a terminal function or component such as “battery” or “power supply”, its reading is registered in a database in advance, and a corresponding one from the database is registered in a dictionary.
  • FIG. 9 is a diagram for explaining generation of a word dictionary for speech recognition.
  • FIG. 9 shows an example in which a dictionary is generated for the terminal information data shown in FIG. 4 as an example. Since the terminal information data is a noun indicating the function or part of the terminal or a noun indicating their state, the corresponding information is registered in a dictionary from a database registered in advance.
  • the dictionary includes notations of "power” and “remaining battery power”, which are the item names of the terminal information data. Here is an example of how is generated.
  • FIG. 10 is a diagram for explaining generation of a dictionary for speech synthesis.
  • FIG. 10 shows an example in which a dictionary is generated for the address book data shown in FIG. 5 as an example, and “Ichiro Tanaka”, “ichiro@xxx.com”, “090- An example of generating a voice-combination reading for the three types of notation “2222-3333” is shown below.
  • FIGS. 11A to 11C are diagrams for explaining generation of a grammar for speech recognition.
  • 11A to 11C show a grammar for performing an operation on an address book using the address book data shown in FIG. 5 as an example.
  • FIG. 11A shows an example of a grammar template for grammar generation.
  • the grammar template defines the structure of the grammar and the method of defining the word strings to be registered.
  • the wording is defined such that the address book [read], [particle], and the address book [item], [particle], and [operation] are uttered in order. Also, of these, [Read] and [Item] registered
  • the word string to be referred also refers to the address book power.
  • the word strings to be registered are defined in advance.
  • FIG. 11B shows an example of a word string registered according to the grammar template of FIG. 11A.
  • Each word string is composed of a notation and a reading.
  • the word strings of 4 items, [Read] and [Item name] referred to in the address book, and [Register] and [Operation] registered in advance!
  • [Reading] has 1 word power of "Ichiyan”.
  • [Item name] has 4 words of "Name”, “Reading”, “Email address”, and "Phone number”. The two words “” and “” are registered.
  • [Operation] five words “Delete”, “Delete”, “Edit”, “Edit”, and “Edit” are registered. . Each word is given a reading and a notation.
  • FIG. 11C shows the correspondence between an example of utterance that can be recognized as a result of inserting a word string into the template and the template, based on FIGS. 11A and 11B.
  • the speech processing language information creating means 103 transmits the data generation method and the data managed by the communication terminal 100 to the server 200 from the communication terminal 100 side. Using these, speech linguistic information is generated by the data stored in the server 200.
  • the speech language information generated by the speech processing language information creation means 202 of the server 200 is similar to the speech language information created by the speech synthesis information creation means 103 of the communication terminal 100. It assumes a word dictionary composed of reading characters, a grammar using a finite language network, and a language model based on a probabilistic statistical model.
  • Speech language information for speech synthesis also assumes a dictionary composed of word strings and their readings.
  • the method of creating a word dictionary, a grammar, and a language model for speech recognition is the same except that data stored in the server 200 is used. The same applies to speech synthesis dictionaries.
  • FIGS. 12 and 13 as an example of speech language information generation in the server 200, the server 200 An example in which a word dictionary for voice recognition is generated using the stored data will be described.
  • FIG. 12 is a diagram showing usage history data which is an example of data managed by the server 200.
  • This data consists of an ID for numbering the data, the user's phone number, the service name, the number of uses, the date of last use, the total amount used, and a campaign showing the degree of desire of the service provider for use. .
  • FIG. 13 is a word dictionary for speech recognition created using FIG.
  • services that can also use the usage history are listed, and registered service names and words for using the services are registered in the dictionary.
  • a word string for using the service is defined in the server 200 in advance.
  • generation of speech language information for causing a plurality of programs to operate in cooperation will be described.
  • generation of a speech recognition grammar for operating the information guidance program of the complex facility and the service reservation program of the store in the complex facility in cooperation with each other will be described.
  • FIGS. 14A and 14B show the already generated speech recognition grammar.
  • FIG. 14A is a grammar for controlling the information guidance program of the complex facility by voice.
  • This grammar is based on four word strings: [category] for specifying the category of the store in the complex, [store name], [item] for specifying the content of the guidance, and [command]. It is composed.
  • Word string [Category] has three word powers of "restaurant”, “esthetic”, “museum,”
  • [Store Facility Name] contains four words, "Store A”, "Museum A”, and "Esthetic Salon A”.
  • Each word registered in each word string has a notation and a reading.
  • FIG. 14B is a service reservation program for a store in the complex
  • [Time] contains two words, "10:00” and "11:00"
  • FIG. 14C is a grammar template for generating a new grammar by fusing the grammars of FIGS. 14A and 14B.
  • FIG. 14D is a diagram showing a grammar created using the grammar template of FIG. 14C. This allows
  • the programs stored in the second program and data storage means 105 include the programs and data stored in the first program and data storage means 101, the voice processing means 102, and the method of cooperative operation with the server 200. Is defined.
  • the first program and the program stored in the data storage means 101 include a transmission / reception program for managing transmission / reception and a GPS for determining the current location.
  • Program and infrared for infrared communication Line communication programs include a transmission / reception program for managing transmission / reception and a GPS for determining the current location.
  • FIG. 16A to FIG. 16C as an example of the second program and the program stored in data storage means 105, the first program and the transmission / reception program stored in data storage means 101 are referred to.
  • the operation of a program that operates in cooperation with the audio processing means 102 will be described. Specifically, in the above-mentioned program, when an incoming call is received, a message corresponding to the outgoing / incoming call history and the terminal status is output as a synthesized sound.
  • FIG. 15 is a flowchart for explaining the processing procedure of the second program and the program stored in the data storage means 105.
  • the control means 106 first searches the address book for data corresponding to the received telephone number (step S1301). If the called number has been registered (step S1302: "Yes" branch), the name is temporarily saved (step S1303). Next, the outgoing / incoming call histories are searched, and if there is a corresponding telephone number ("Yes" branch in step S1304), the number of outgoing calls and the number of received calls are temporarily stored (step S1305). Next, the terminal state is searched, and the battery state is temporarily stored (step S1306).
  • step S1305 a sentence to be output is created (step S1307), and output by speech synthesis (step S1308).
  • FIG. 16A to FIG. 16C are diagrams for explaining an example of a rule for creating an utterance sentence in step S1307.
  • step S1302 if there is no corresponding data in the address book, it is determined to be "phone”. If there is data corresponding to the address book, it is registered in the address book, and is created using a reading, such as "Call from Ichiro Tanaka.”
  • step S1304 if the number of outgoing calls and the number of incoming calls are both 0-4, do not create the corresponding text!
  • step S1306 If the remaining battery power is 40% or more in step S1306, as shown in FIG. 16C, there is no corresponding sentence. If it is less than 40%, say, "I don't care, but please plug it in. I'll drain the battery.”
  • step S1302 For example, if there is applicable data in step S1302, the number of incoming calls is 5 or more, and the remaining battery power is less than 0%, "Tanaka-san is a phone call. But it's okay, please connect to the power supply. The battery will run out. "In step S1302, if the remaining data is 0% or more, the number of incoming calls and outgoing calls is less than the corresponding data , "It's a phone.”
  • FIG. 17 shows an example of the second program and the program stored in the data storage means 105.
  • the operation of the first program and the program for causing the GPS program stored in the data storage means 101 to operate in cooperation with the voice processing will be described.
  • Fig. 17 is a diagram showing an example in which the GPS program, the server, and the voice processing are operated in cooperation with each other.
  • 3 is a flowchart of the program of FIG.
  • the first program in communication terminal 100 and the GSP program stored in data storage means 101 are started (step S1501), and the current position is measured (step S1502).
  • the data of the current location is transmitted to the server from the transmitting / receiving means 104, and the transmitting / receiving means 201 of the server 200 receives the data (step S1503).
  • the speech processing language information creating means 202 of the server 200 creates a dictionary based on the current location data received in step S1503 and the service list of the complex facility managed in the server (step S1504).
  • the dictionary is transmitted to the communication terminal 100 by the transmission / reception means 201 of the server 200, and the dictionary is received by the transmission / reception means 104 of the communication terminal 100 (step S1505).
  • step S1506 voice recognition of voice processing means 102 is started (step S1506).
  • step S1507 the browser stored in the first program and data storage means 101 in the communication terminal 100 is started (step S1507), and the complex facility service page is displayed from the current address acquired in step S1502. (Step S1508).
  • step SI509 If a user utters a voice while displaying the browser (step SI509), the voice is recognized by the voice processing means 102 (step S1510), and command processing such as jumping to a link in a page or inputting characters is performed. This is performed (step S1511). If the command is a termination command, terminate.
  • FIGS. 18 and 19 are diagrams showing an example of a program that uses the infrared program and the audio processing means 102 in conjunction with each other. Specifically, FIG. 18 and FIG. 19 show a program in a complex facility such as a movie theater or a shopping mall. This is an example of a program for receiving services by voice recognition or synthesis.
  • This program is based on the premise that an infrared port is embedded in fixtures such as walls, pillars, and furniture of a complex facility, and infrastructure such as a terminal dedicated to the infrared port is provided.
  • FIG. 18 is a diagram for explaining the form of service, and shows a list of services for each infrared port in the complex facility.
  • each port is represented by a port ID unique to each infrared ray, fixed position information such as a store name and an installation floor of each port, information for specifying fixtures and terminals, and a service received from the port.
  • FIG. 19 is a diagram showing an operation procedure of a program that links an infrared program and audio processing.
  • programs required for operation and dictionaries required for speech processing are stored in advance. Generated and stored in the first program and data storage means 101.
  • the infrared program stored in the first program and data storage means 101 is started (step S1701), and the infrared port ID of the current location is obtained (step S1702). Switch to the service program according to the acquired port ID (step S1703).
  • step S 1705 If there is a user input such as a button input or an utterance to the activated program (step S 1705), a voice process is executed (step S 1706). Specifically, in this process, the output by speech synthesis and the result of speech recognition are converted into commands and executed. Further, when the result of the voice processing is completed (step S1707), the processing ends.
  • a voice process is executed (step S 1706). Specifically, in this process, the output by speech synthesis and the result of speech recognition are converted into commands and executed. Further, when the result of the voice processing is completed (step S1707), the processing ends.
  • the second embodiment of the present invention includes a communication terminal 1000 and a server 200.
  • the communication terminal 1000 includes a first program and data storage unit 1101, a voice processing unit 1102, a voice processing language information creating unit 1103, a transmitting and receiving unit 1104, a second program and data storage unit 1105, and a control unit 1106.
  • the server 200 includes a transmitting / receiving unit 201 and a voice processing language information creating unit 202. Each of these means operates as follows.
  • the first program and data storage unit 1101 stores a program built in the communication terminal 1000 in advance and data managed by the program.
  • the data stored in the first program and data storage means 1101 includes data that dynamically changes according to the state of the communication terminal 1000, personal data of the terminal user, and the like.
  • the voice processing means 1102 performs at least one of voice recognition and voice synthesis.
  • Speech processing language information creating means 1103 creates a dictionary, grammar, language model, and the like for speech processing means 1102 according to the contents stored in the first program and data and the second program and data. .
  • Transmission / reception means 1104 transmits information on communication terminal 1000 side, and receives programs and data from outside the terminal.
  • the second program and data storage unit 1105 stores the program and data that have also been received by the communication terminal 1000 by the transmission / reception unit 1104.
  • the control unit 1106 calls the second program and the data program and the data acquired by the transmission / reception unit 1104 to link the audio processing unit 1102 with the first program and the data.
  • the transmitting / receiving means 201 receives the information of the communication terminal 1000, and transmits the programs and data generated by the server 200 to the terminal.
  • the speech processing language information creating means 202 creates a dictionary for speech processing from data stored in the server 200 based on the data transmitted from the communication terminal 1000.
  • the transmission / reception unit 1104 receives a program and data from the outside of the communication terminal 1000 to the second program and data storage unit 1105 (step S2101) and stores the program and data in the second program and data storage unit 1105 (step S2101). S2102).
  • control means 1106 activates the above-mentioned program and data from the second program and data storage means 1105 (step S2103), and executes a subroutine for creating language information for speech processing described in the program. Call by call, etc. (Step S2104)
  • step S2104 the program and data to be created are called from both the first program and data storage unit 1101 and the second program and data storage unit 1105 in the creation procedure called out (step S2105). ).
  • the speech processing language information creating means 1103 of the communication terminal 1000 When the speech processing language information creating means 1103 of the communication terminal 1000 generates the speech processing language information according to the language information creation procedure read in step S2104 (step S2106), the speech processing language is generated based on the program and data called in step S2105. The linguistic information is generated by the information generating means 1103 (step S2107).
  • step S2107 If it is determined in step S2107 that the speech processing language information creation unit 1103 of the communication terminal 1000 does not create the speech processing language information, the process advances to step S2108.
  • the voice processing language of server 200 is used.
  • the data read in step S2105 is transmitted to the server 200 by the transmission / reception means 1104, and the transmission / reception means 201 receives the data (step S2109).
  • speech processing language information creating means 202 Based on the data described above and the data stored in the server, speech processing language information creating means 202 generates speech processing language information (step S2110).
  • the dictionary for speech processing generated by the transmitting / receiving means 201 of the server 200 is stored in the communication terminal 100
  • step S2111 the transmitting / receiving means 1104 receives this (step S2111).
  • step S2108 if speech processing language information creation means 202 of server 200 does not create speech processing language information, the process advances to step S2112.
  • control means 1106 reads the generated linguistic information for speech processing and activates the speech processing means 1102 (step S2112).
  • step S2103 the first program and the program in data storage means 1102 are called out (step S2113), and are operated in cooperation with voice processing means 1102 (step S2114).
  • the speech processing language information creating means 1103 calls up programs and data from both the first program and data storage means 1101 and the second program and data storage means 1105 to convert the speech language information.
  • voice processing such as voice recognition and voice synthesis by linking a program built in the communication terminal 1000 in advance with a received program.
  • FIG. 20 is a diagram showing the configuration of this specific example.
  • This specific example is characterized in that the speech processing language information creating means 1103 generates speech language information by referring to both the first program and data storage means 1101 and the second program and data storage means 1105. This is different from the specific example of 1.
  • FIGS. 22A to 22E are diagrams for explaining the operation of the speech processing language information creation unit 1103.
  • FIG. 22A shows that voice processing language information creating means 1103 stores first program and data.
  • FIG. 8 is a diagram for explaining programs and data read from a means 1103. In this example, a mailer and address book data and mail data which are data managed by the mailer are used.
  • FIG. 22B is a diagram for explaining programs and data read from the second program and data storage unit 1105 by the voice processing language information creating unit 1103.
  • a product search program and product data are used.
  • FIG. 22C is a diagram for explaining an example of the product data, and is composed of a product ID, a product name, and a product data file.
  • FIG. 22D shows a grammar template generated by speech processing language information creating means 1103. Using this template, a grammar consisting of readings, particles, product names, and mail commands is generated. A mail command is composed of a mail and a command (mail). Reading is referred from the address book. The product name is referred to from the product data.
  • Word strings registered in particles, mails, and commands (mails) that cannot be referenced from data managed by each program are given in advance.
  • Fig. 22E is a diagram for explaining that a grammar is generated by referring to data in a grammar template. After the reference, the utterance "Whenever the product 001 is sent by e-mail" is voice-recognized. This means that the grammar was generated.
  • the speech processing language information creating means 1103 compares the program and data read from the first program and data storage means 1101 with the program and data read from the second program and data storage means 1101. Generating spoken language information in cooperation with the terminal, programs and models specific to the user, information specific to the user, and information that dynamically changes depending on the state of the terminal and general-purpose programs created independently of the model It is possible to control by voice processing such as voice recognition and voice synthesis by linking the data and its data.
  • the third embodiment of the present invention includes a communication terminal 2000, a plurality of servers 200, and a server # 00.
  • the communication terminal 2000 has the first program and data format.
  • the server 200 includes a transmitting / receiving means 201 and a speech processing language information creating means 202.
  • the server nOO is composed of transmission / reception means ⁇ and speech processing language information creation means n02. Each of these means operates as follows.
  • the first program and data storage means 2101 stores programs built in the communication terminal 2000 in advance and data managed by the programs.
  • the data stored in the first program and data storage means 2101 include data that dynamically changes according to the state of the communication terminal 2000 and personal data of the terminal user.
  • the voice processing means 2102 performs at least one of voice recognition and voice synthesis.
  • Speech processing language information creating means 2103 creates a dictionary, grammar, language model, and the like for speech processing means 2102 in accordance with the contents stored in the first program and data and the second program and data. I do.
  • the transmission / reception means 2104 transmits information on the communication terminal 2000 side, and receives programs and data external to the terminal.
  • the second program and data storage means 2105 stores programs and data which have also received external force from the terminal by the transmission / reception means 2104.
  • the control means 2106 calls the second program and the data program and the data acquired by the transmission / reception means 2104, and associates the sound processing means 2102 with the first program and the data.
  • the voice processing language information integration means 2107 includes the voice processing language information generated by the voice processing language information creation means 2103 of the communication terminal 2000, the voice processing language information generation means 202 of the server 200, and the voice processing language of the server nOO.
  • the speech language information generated by the information generation means n02 is synthesized to generate speech language information.
  • the transmission / reception means 201 of the server 200 receives the information of the communication terminal 2000 side, and transmits the program and data generated by the server 200 to the communication terminal 2000 side.
  • the voice processing language information generating means 202 generates voice language information for voice processing from data stored in the server 200 based on the data transmitted from the communication terminal 2000.
  • transmitting / receiving means ⁇ receives information from communication terminal 2000 and transmits programs and data generated in server nOO to communication terminal 2000.
  • the voice processing language information generating means n02 generates voice language information for voice processing from the data stored in the server nOO based on the data transmitted from the communication terminal 2000.
  • the transmission / reception means 2104 receives a program and data from the outside of the communication terminal 2000 to the second program and data storage means 2105 (step S2401), and stores them in the second program and data storage means 2105 (step S2401). Step S2402).
  • control means 2106 activates the above-described program and data from the second program and data storage means 2105 (step S2403), and executes a language information creation procedure for speech processing described in the program. Call out.
  • the program and data to be created are called from both the first program and data storage means 2101 and the second program and data storage means 2105 (step S2405 ).
  • step S2406 When the speech processing language information generation means 2103 of the communication terminal 2000 generates the language processing information read out in step S2404 (step S2406), the voice processing language information is generated based on the program and data called in step S2405. Language information is generated by the processing language information creating means 2103 (step S2407).
  • step S2406 if the speech processing language information creation unit 2103 of the communication terminal 2000 does not create the speech processing language information, the process advances to step S2408.
  • step S2408 When the speech processing linguistic information generation means 202 of the sano 200 generates the linguistic information read out in step S2404 (step S2408), the data read in step S2405 is transmitted to the server 200 by the transmission / reception means 2104. The transmission / reception means 201 receives this data (step S2409).
  • the speech processing language information creating means 202 generates speech processing language information from the above data and the data stored in the server (step S2410).
  • the dictionary for speech processing generated by the transmitting / receiving means 201 of the server 200 is transmitted to the communication terminal 2000, and the transmitting / receiving means 2104 receives the dictionary (step S2411).
  • step S2408 If it is determined in step S2408 that the speech processing language information creating means 202 of the server 200 does not create speech processing language information, the process advances to step S2412.
  • the speech processing language information integration means 2107 the speech processing language information creation means 2103 of the communication terminal 2000, the speech language creation means 202 of the server 200, and the speech processing language information creation means n02 of Sano nOO are generated.
  • the linguistic information is synthesized into one speech linguistic information (step S2412).
  • control means 2106 reads the generated speech processing language information and activates speech processing means 2102 (step S2413).
  • step S2414 the first program and the program of data storage means 2101 are called (step S2414), and are operated in cooperation with voice processing means 2102 (step S2415).
  • a speech processing language information integrating unit 2107 is provided, and the speech language information generated by the communication terminal 2000 and the speech language information generated by the plurality of servers 200—nOO are synthesized. This makes it possible to perform audio processing by linking multiple programs and data.
  • FIG. 23 is a diagram showing the configuration of the third example of the present invention.
  • the communication terminal 2000 is composed of a plurality of servers 200—nOO and the communication terminal 2000 or the communication terminal 2000 for integrating the speech language information generated by the plurality of servers 200—nOO.
  • the point that the processing language information integration means 2107 is provided is different from the first specific example.
  • FIG. 24 is a diagram for explaining the operation of the voice processing language information integration means 2107.
  • the voice processing language information integration means 2107 reads the voice language information generated by each of the server 200, the server nOO, and the communication terminal 2000, and generates voice language information.
  • FIG. 25A is a diagram showing an example of the speech language information generated by the server 200.
  • FIG. 25A shows a configuration diagram of a speech recognition grammar for performing information search on a movie and a grammar corresponding to the configuration diagram. An example is shown.
  • This grammar is composed of [movie] which is an item related to a movie name, [item (200)] which is an item related to a movie, and [command (200)] which is an item for inquiry. Word strings to be registered for each item are defined. With this definition, “tell me the start time of movie A” can be recognized by this grammar.
  • FIG. 25B is an example of speech linguistic information generated by the server nOO, and shows an example of the configuration of a speech recognition grammar for searching for information on the shop II and the facility, and an example of the corresponding grammar.
  • This grammar is an item for specifying a store or facility [Store and Facility Name], an item for store and facility [Item (nOO)], and an item for inquiry [ Command (nOO)], which defines the word strings to be registered in the [category] and [name] items of [store and facility name]. From this definition, "how much is the budget for restaurant A" can be recognized by this grammar.
  • FIG. 25C is an example of speech language information generated by communication terminal 2000, and shows an example of a configuration of a speech recognition grammar for performing a mail operation and a corresponding grammar.
  • This grammar consists of [read], an item for specifying the destination of an email, [mail], an item related to the email, and [command (mail)], an item for matching.
  • the word string to be registered in each item is defined.
  • FIG. 25D is an example for synthesizing speech language information by speech processing language information integration means 2107, and shows a configuration of a grammar template for synthesizing speech language information in FIGS. 25A to 25C.
  • This grammar template assumes a grammar for sending movie and facility information by e-mail.
  • the grammar is [read] to specify the destination of the mail, [particles], [movie and facility information] to specify the name and item of the movie or facility, and [mail command to send the mail. ].
  • the item [reading] is referred from the grammar generated by the communication terminal 2000.
  • the item [Movie and Facility Information] is composed of [Movie Information], [Particle], [Facility Information], and [Particle].
  • [Movie information] is composed of [Movie] and [Item (200)]. [Movie] and [Item (2 00)] is referred to from the grammar generated by the server 200.
  • [Facility information] is composed of [Store and facility name] and [Item (nOO)], and [Store and facility name] and [Item (nOO)] are based on the grammar generated by server nOO. refer.
  • FIG. 25E is a diagram for describing generating a grammar by referring to data in the grammar template.
  • a grammar for voice recognition was generated, which uttered, "Email the start time of movie A and the budget of restaurant A in restaurant” by email. I have.
  • the speech processing linguistic information creation means combines speech linguistic information generated by a plurality of servers with speech linguistic information generated in a communication terminal to generate speech linguistic information.
  • the speech processing linguistic information creation means combines terminal-specific programs and models, user-specific information and information that dynamically changes depending on the state of the terminal with general-purpose programs and data created independently of the model, speech recognition and It becomes possible to control by voice synthesis and voice processing.
  • the various functions of the communication terminals 100, 1000, 2000 or the server 200 include an arithmetic device (CPU) and a storage device (internal memory such as ROM and RAM, as well as an external storage device such as HDD). ) And the computer's program (software) installed on this computer in cooperation with the computer's hardware resources.
  • CPU central processing unit
  • storage device internal memory such as ROM and RAM, as well as an external storage device such as HDD).
  • HDD external storage device
  • the present invention can be applied to applications in which voice processing such as voice recognition and voice synthesis is linked to a program incorporated in a terminal and data managed by the program in a mobile phone or a mobile terminal.
  • voice processing such as voice recognition and voice synthesis
  • the present invention can be applied to an application in which data and personal information that dynamically change depending on the state of a system managed by a terminal are linked with voice processing.
  • the present invention is also applicable to an application for linking a server with voice processing and a program incorporated in a terminal or data managed by the program. Specifically, using a mobile phone, The present invention is applicable to the information search and guidance service of a combined facility.
  • the portable communication terminal has been described as an example, but the present invention can be applied to any electronic device or the like having a voice processing function or other processing functions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 通信端末(100)は、音声処理を行う音声処理手段(102)と、予め定められた機能を実現するための第1のプログラム及び第1のデータを記憶する第1格納手段(101)と、サーバ(200)から送信される第2のプログラム及び第2のデータを記憶する第2格納手段(105)と、第2のプログラム及び第2のデータを用いて、音声処理手段による音声処理と、第1のプログラム及び第1のデータによる機能とを、互いに連携動作させる制御手段(106)とを備える。  これにより、通信端末に内蔵されている第1のプログラム及び第1のデータが、音声処理に対応していない場合でも、サーバから第2のプログラム及び第2のデータをダウンロードすることで、第1のプログラム及び第1のデータによる機能を音声処理機能と連携させて動作させることができる。

Description

明 細 書
音声処理方法と通信システム並びに通信端末およびサーバとプログラム 技術分野
[0001] 本発明は、音声処理方法と通信システム並びに通信端末およびサーバとプロダラ ムに関する。
背景技術
[0002] 従来の通信端末およびシステムの一例力 特開 2003— 188948号公報(文献 1)に 記載されている。この文献 1に記載された通信端末は、音声認識部と、音声合成部、 制御部、送受信部、データ変換部を備え、入力音声を音声認識によりテキストに変換 して送信し、送受信部より受信したデータを音声合成により読み上げるものである。
[0003] また、従来の通信端末およびシステムの他の例力 特開 2002— 077315号公報 ( 文献 2)に記載されている。この文献 2に記載された通信端末は、音声認識部と、音 声合成部、制御部 (メール処理部)を備え、音声入力によりメールを作成し、音声合 成によりメールを読み上げるものである。
発明の開示
発明が解決しょうとする課題
[0004] 上記した従来の端末では、端末外部より受信したプログラムが、端末に内蔵されて いるプログラムや、プログラムが管理するデータ、特に、ユーザ独自のデータやシステ ムの状態に応じてダイナミックに変化するデータと、音声処理機能とを、例えば端末 に固有の所望の態様で、連携させて動作させることができない。
[0005] したがって、本発明の目的は、通信端末に内蔵されたプログラムおよびデータの少 なくとも一方と、音声処理等の処理とを組み合わせて所望の機能を実現可能すること にある。
課題を解決するための手段
[0006] このような目的を達成するために、本発明に係る通信端末は、予め定められた所定 の処理を行う処理手段と、第 1のプログラムおよび第 1のデータの少なくとも一方を記 憶する第 1の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を記 憶する第 2の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を用 いて、処理手段による処理と、第 1のプログラムおよび第 1のデータの少なくとも一方 とを連携させる制御手段とを備えることを特徴とする。
[0007] また、本発明に係るサーバは、通信端末に予め記憶されている第 1のプログラムお よび第 1のデータの少なくとも一方と、通信端末で行われる所定の処理との、連携の 仕方を規定する第 2のプログラムおよび第 2のデータの少なくとも一方を通信端末に 送信する第 1の送信手段を備えることを特徴とする。
[0008] また、本発明に係る通信システムは、通信端末と、通信端末と通信接続する少なく とも 1つのサーバとを備え、通信端末が、音声認識および音声合成の少なくとも一方 の音声処理を行う音声処理手段と、当該通信端末に予め記憶されている第 1のプロ グラムおよび第 1のデータの少なくとも一方に従って、音声処理用の言語情報を作成 する端末音声処理言語情報作成手段と、サーバからダウンロードされた第 2のプログ ラムおよび第 2のデータの少なくとも一方により、言語情報を用いた音声処理と、第 1 のプログラムおよび第 1のデータの少なくとも一方とを連携動作させる制御手段とを備 えることを特徴とする。
[0009] また、本発明に係る音声処理方法は、通信端末が、通信端末の外部から第 2のプ ログラムおよび第 2のデータの少なくとも一方を受信する工程と、第 2のプログラムお よび第 2のデータの少なくとも一方を用いて、通信端末で行われる音声処理と、通信 端末に予め記憶されている第 1のプログラムおよび第 1のデータの少なくとも一方とを 連携動作させる制御を行う工程とを備えることを特徴とする。
[0010] また、本発明に係るプログラムは、通信端末を構成するコンピュータに、音声認識 および音声合成の少なくとも一方の音声処理を行なう機能と、通信端末に予め記憶 されている第 1のプログラムおよび第 1のデータの少なくとも一方に基づいて音声処 理用の言語情報を作成する機能と、受信した第 2のプログラムおよび第 2のデータの 少なくとも一方により、音声処理と、第 1のプログラムおよび第 1のデータの少なくとも 一方とを、互いに連携動作させる制御を行う機能とを実現させることを特徴とする。
[0011] また、本発明に係る電子装置は、予め定められた所定の処理を行う処理手段と、第 1のプログラムおよび第 1のデータの少なくとも一方を記憶する第 1の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を記憶する第 2の記憶手段と、第 2のプログラムおよび第 2のデータの少なくとも一方を用いて、処理手段による処理と 、第 1のプログラムおよび第 1のデータの少なくとも一方とを連携させる制御手段とを 備えることを特徴とする。
発明の効果
[0012] 本発明によれば、携帯端末等の通信端末に内蔵されているプログラムが、音声処 理に対応していない場合でも、サーバより、プログラムをダウンロードすることで、音声 処理機能と連携させて動作させることができる。
[0013] また、本発明によれば、連携方法が異なるプログラムを、ユーザの好み等によって 自在に入れ替えて、実行させることができる。
図面の簡単な説明
[0014] [図 1]図 1は、本発明の第 1の実施例の構成を示すブロック図である。
[図 2A]図 2Aは、本発明の第 1の実施例の動作を示す流れ図である。通信端末側で 音声言語情報が生成される場合を示して ヽる。
[図 2B]図 2Bは、本発明の第 1の実施例の動作を示す流れ図である。サーバ側で音 声言語情報が生成される場合を示して ヽる。
[図 3]図 3は、本発明の第 1の実施例の通信端末に記憶されているプログラムおよび そのデータの具体例を示す図である。
[図 4]図 4は、本発明の第 1の実施例の通信端末に予め格納されているプログラムお よびそのデータの具体例を示す図である。
[図 5]図 5は、本発明の第 1の実施例の通信端末に予め格納されているプログラムお よびそのデータの具体例を示す図である。
[図 6]図 6は、本発明の第 1の実施例の通信端末に予め格納されているプログラムお よびそのデータの具体例を示す図である。
[図 7]図 7は、本発明の第 1の実施例の通信端末に予め格納されているプログラムお よびそのデータの具体例を示す図である。
[図 8]図 8は、本発明の第 1の実施例の通信端末に予め格納されているプログラムお よびそのデータの具体例を示す図である。 [図 9]図 9は、本発明の第 1の実施例の通信端末での音声処理用の音声言語情報作 成の具体例を示す図である。
[図 10]図 10は、本発明の第 1の実施例の通信端末での音声処理用の音声言語情報 作成の具体例を示す図である。
圆 11A]図 11Aは、本発明の第 1の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。文法生成のための文法テンプレートの一例を示 している。
圆 11B]図 11Bは、本発明の第 1の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。図 11Aの文法テンプレートに従って登録される 単語列の例を示している。
圆 11C]図 11Cは、本発明の第 1の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。図 11Aおよび図 11Bにより、テンプレートに単 語列を挿入した結果、認識可能となる発声の一例とテンプレートとの対応を示して ヽ る。
[図 12]図 12は、本発明の第 1の実施例のサーバに格納されているデータの具体例を 示す図である。
[図 13]図 13は、本発明の第 1の実施例のサーバでの音声処理用の音声言語情報作 成の具体例を示す図である。
圆 14A]図 14Aは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情 報作成の具体例を示す図である。すでに生成された音声認識用文法を示して 、る。 圆 14B]図 14Bは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情 報作成の具体例を示す図である。すでに生成された音声認識用文法を示して 、る。 圆 14C]図 14Cは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情 報作成の具体例を示す図である。図 14Aおよび図 14Bの文法を融合して、新たな文 法を生成するための文法テンプレートを示している。
圆 14D]図 14Dは、本発明の第 1の実施例のサーバでの音声処理用の音声言語情 報作成の具体例を示す図である。図 14Cの文法テンプレートを用いて作成された文 法を示している。 [図 15]図 15は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラム の動作の一例を示すための図である。
[図 16A]図 16Aは、本発明の第 1の実施例の端末外部よりダウンロードされたプログ ラムの動作の一例を示すための図である。
[図 16B]図 16Bは、本発明の第 1の実施例の端末外部よりダウンロードされたプロダラ ムの動作の一例を示すための図である。
[図 16C]図 16Cは、本発明の第 1の実施例の端末外部よりダウンロードされたプログ ラムの動作の一例を示すための図である。
[図 17]図 17は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラム の動作の一例を示すための図である。
[図 18]図 18は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラム の動作の一例を示すための図である。
[図 19]図 19は、本発明の第 1の実施例の端末外部よりダウンロードされたプログラム の動作の一例を示すための図である。
[図 20]図 20は、本発明の第 2の実施例の構成を示す図である。
[図 21]図 21は、本発明の第 2の実施例の動作を示す流れ図である。
圆 22A]図 22Aは、本発明の第 2の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。音声処理言語情報作成手段が第 1プログラムお よびデータ格納手段より読み込んだプログラムおよびデータを説明するための図で ある。
圆 22B]図 22Bは、本発明の第 2の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。音声処理言語情報作成手段が、第 2プログラム およびデータ格納手段より読み込んだプログラムおよびデータを説明するための図 である。
圆 22C]図 22Cは、本発明の第 2の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。商品データの一例を説明するための図である。
[図 22D]図 22Dは、本発明の第 2の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。音声処理言語情報作成手段で生成する文法の テンプレートである。
[図 22E]図 22Eは、本発明の第 2の実施例の通信端末での音声処理用の音声言語 情報作成の具体例を示す図である。文法テンプレートに、データを参照して文法を 生成することを説明するための図である。
[図 23]図 23は、本発明の第 3の実施例の構成を示す図である。
[図 24]図 24は、本発明の第 3の実施例の動作を示す流れ図である。
[図 25A]図 25Aは、本発明の第 3の実施例の通信端末での音声処理言語情報統合 の具体例を示す図である。サーバで生成された音声言語情報の一例を示して!/、る。
[図 25B]図 25Bは、本発明の第 3の実施例の通信端末での音声処理言語情報統合 の具体例を示す図である。サーバで生成された音声言語情報の一例を示して!/、る。
[図 25C]図 25Cは、本発明の第 3の実施例の通信端末での音声処理言語情報統合 の具体例を示す図である。通信端末で生成された音声言語情報の一例を示して 、る
[図 25D]図 25Dは、本発明の第 3の実施例の通信端末での音声処理言語情報統合 の具体例を示す図である。音声処理言語情報統合手段で音声言語情報を合成する ための一例を示している。
[図 25E]図 25Eは、本発明の第 3の実施例の通信端末での音声処理言語情報統合 の具体例を示す図である。文法テンプレートに、データを参照して文法を生成するこ とを説明するための図である。
発明を実施するための最良の形態
[0015] 次に、本発明を実施例について、図面を参照して詳細に説明する。
[0016] [第 1の実施例]
図 1を参照すると、本発明の第 1の実施例は、通信端末 100とサーバ 200とを備え ている。通信端末 100は、第 1プログラムおよびデータ格納手段 101と、音声処理手 段 102と、音声処理言語情報作成手段 103と、送受信手段 104と、第 2プログラムお よびデータ格納手段 105と、制御手段 106とを備えている。サーバ 200は、送受信手 段 201と、音声処理言語情報作成手段 202とを備えている。これらの手段はそれぞ れ概略つぎのように動作する。 [0017] 第 1プログラムおよびデータ格納手段 101は、通信端末 100に予め内蔵されている プログラム(第 1のプログラム)やプログラムが管理するデータ(第 1のデータ)を格納 する。第 1プログラムおよびデータ格納手段 101に格納されるデータとしては、通信 端末 100の状態に応じて動的に変化するデータや、通信端末 100の利用者の個人 データがある。
[0018] 音声処理手段 102は、音声認識と音声合成の少なくとも 1つを行う。
[0019] 音声処理言語情報作成手段 103は、第 1プログラムおよびデータ格納手段 101〖こ 記憶されている第 1のプログラムおよびデータ基づいて、音声処理手段 102用の辞 書や文法や言語モデル等を作成する。
[0020] 送受信手段 104は、通信端末 100側の情報をサーバ 200に送信し、また、プロダラ ムおよびデータを、通信端末 100外部から受信する。
[0021] 第 2プログラムおよびデータ格納手段 105は、送受信手段 104により、通信端末 10
0外部から受信したプログラム (第 2のプログラム)およびデータ (第 2のデータ)を格納 する。
[0022] 制御手段 106は、送受信手段 104により取得した第 2のプログラムおよびデータか ら、プログラムおよびデータを呼び出して (サブルーチンコール等)、音声処理手段 1
02と、第 1のプログラムおよびデータを連携させる。
[0023] サーバ 200の送受信手段 201は、通信端末 100側力もの情報を受信し、またサー バ 200からプログラムやデータを通信端末 100側に送信する。
[0024] 音声処理言語情報作成手段 202は、通信端末 100から送信されたデータを基に、 サーバ 200側に格納されて 、るデータより、音声処理用の辞書を作成する。
[0025] 図 2Aおよび図 2Bは、本発明の一実施例の動作を説明するためのフローチャート である。図 1および図 2A,図 2Bを参照して、本実施例の全体の動作について詳細に 説明する。
[0026] 通信端末 100の音声処理手段 102で用いる音声言語情報は、通信端末 100側で 生成される場合と、サーバ 200側で生成される場合の 2通りがある。通信端末 100側 で生成される場合については図 2Aを参照し、サーバ 200側で生成される場合につ いては図 2Bを参照して説明する。 [0027] 通信端末 100側で生成する場合、送受信手段 104により、通信端末 100外部から プログラムおよびデータを受信し (ステップ Sal)、第 2プログラムおよびデータ格納手 段 105に格納する(ステップ Sa2)。
[0028] 次に、制御手段 106は、第 2プログラムおよびデータ格納手段 105に記憶されたプ ログラムおよびデータを呼び出し、起動する (ステップ Sa3)。
[0029] 起動されたプログラム中に記述されている、音声処理用の言語情報作成手順により
、第 1プログラムおよびデータ格納手段 101のデータを用いて、言語情報を生成する
(ステップ Sa4)。
[0030] 制御手段 106では、前述の生成された音声処理用言語情報を読み出し、音声処 理手段 102を起動させる (ステップ Sa5)。
[0031] ステップ Sa3で起動されたプログラムに従って、第 1プログラムおよびデータ格納手 段 101のプログラムを呼び出し (ステップ Sa6)、音声処理手段 102と連携動作させる
(ステップ Sa7)。
[0032] サーバ 200側で生成する場合には、送受信手段 104により、通信端末 100外部か らプログラムおよびデータを受信し (ステップ Sbl)、第 2プログラムおよびデータ格納 手段 105に格納する (ステップ Sb2)。
[0033] 次に、制御手段 106は、第 2プログラムおよびデータ格納手段 105から前述のプロ グラムおよびデータを起動する(ステップ Sb3)。
[0034] 起動されたプログラム中に記述された音声処理用の言語情報作成手順と、言語情 報作成に必要なデータを、サーバ 200に送信する(ステップ Sb4)。サーバ 200側で は、音声処理言語情報作成手段 202が、通信端末 100から送信された言語情報作 成手順とデータと、サーバ 200側に格納しているデータとを用いて音声言語情報を 生成し (ステップ Sb5)、通信端末 100に送信する(ステップ Sb6)。
[0035] 通信端末 100では、これを受けて、生成された音声処理用言語情報を読み出し、 音声処理手段 102を起動させる (ステップ Sb7)。
[0036] さらに、ステップ Sb3で起動されたプログラムに従って第 1プログラムおよびデータ 格納手段 101のプログラムを呼び出し (ステップ Sb8)、音声処理手段 102と連携動 作させる(ステップ Sb9)。 [0037] 次に、本実施例の作用効果について説明する。
[0038] 本実施例では、通信端末 100およびサーバ 200で音声処理言語情報作成手段 10 3、 202を実行するように構成されているため、通信端末 100に予め内蔵されている プログラムや、該プログラムが管理するデータが、音声認識や音声合成といった音声 処理に対応していない場合であっても、通信端末 100外から、音声処理と連携される プログラムをダウンロードすることで、通信端末 100で、音声処理機能を利用すること ができる。
[0039] また、本実施例では、送受信手段 104と、受信により取得したプログラムを格納する 手段と、このプログラムを呼び出して実行するための制御を行う制御手段 106と、を 有しているため、連携方法が異なるプログラムを、ユーザの好みによって入れ替え可 能である。
[0040] 次に、本発明の第 1の具体例を、図面を参照して説明する。本発明の第 1の具体例 の構成は、図 1に示した構成とされる。図 3乃至図 8は、図 1に示した本具体例の第 1 プログラムおよびデータ格納手段 101に格納されるプログラムおよびデータの一例を 説明するものである。
[0041] 図 3は、第 1プログラムおよびデータ格納手段 101に格納されるプログラムと、プログ ラムが管理するデータとの対応を説明するための図である。図 3では、プログラムとし て、端末管理、アドレス帳、送信着信 (発信受信)履歴、 GPS (Global Positioning System)、赤外線の 5つのプログラムが格納されている。また、それぞれに対応す るデータとして、端末管理データ、アドレス帳データ、送信着信履歴データ、 GPSデ ータ、赤外線でデータが格納されている。
[0042] 図 4乃至図 8は、図 3に示した第 1プログラムおよびデータ格納手段 101に格納され るプログラムが管理するデータの一例を示す図であり、通信端末 100のユーザ独自 の情報や通信端末の動的に変化するデータを想定している。
[0043] 図 4は、図 3の端末管理プログラムが管理する端末管理データの一例である。図 4 に示すように、端末管理データは、項目と、その値 (パラメータ)より構成される。
[0044] 項目としては、電源、電池の残量、電波状態、蓋の開閉があり、それぞれの値は、 電源 = ON、電池の残量 =45%、電波状態 =良好、蓋の開閉 =閉となっている。 [0045] 図 5は、図 3のアドレス帳プログラムが管理するアドレス帳データの一例である。アド レス帳データは、データに番号付けをするための ID、名前、名前の読み、メールアド レス、電話番号から構成される。図 5に示す例では、 ID=001、名前 =田中一郎、読み =いっちやん、メールアドレス = ichiro@xxx.com、電話番号 =090— 2222— 3333となつ ている。
[0046] 図 6は、図 3に示した発信着信 (発信受信)履歴プログラムが管理する発信着信 (送 信受信)履歴データの一例である。発信着信履歴データは、データを番号付けする ための ID、発信着信の別、発信または着信した日時、発信または着信した先の電話 番号より構成される。
[0047] 図 6に示す例では、データが 3件あり、
ID=001のデータでは、発信着信の別 =発信、発信日時 =2003年 12月 18日 1時 2分 34秒、発信先 = 090- 2222- 3333となっており、
ID=002のデータでは、発信着信の別 =着信、着信日時 =2003年 12月 18日 1時 4分 34秒、着信先 = 090- 2222- 3333となっており、
ID=003のデータでは、発信着信の別 =着信、着信日時 =2003年 12月 18日 2時 4分 34秒、着信先 = 090- 2222- 3333となっている。
[0048] 図 7は、図 3の GPSプログラムが管理する GPSデータの一例である。 GPSデータで は、直前に GPSプログラムが動作したときに取得したデータを保持する。図 7に示す 例では、 GPSデータは、項目名とその値とから構成される。項目としては、計測日時 、緯度、経度、現在地の住所より構成され、計測日時 =2003年 12月 18日 1時 0分 34秒 、緯度 = N35° 51.475、経度 = E139° 51.475、現在地の住所 =東京都港区芝 1_1-1 となっている。
[0049] 図 8は、図 3の赤外線プログラムが管理する赤外線データの一例である。赤外線デ ータでは、端末外の赤外線ポートとの通信履歴を保持する。図 8に示す例では、赤外 線データは、データを番号付けするための IDと、通信日時と、通信先 IDと、通信コマ ンドと、コマンドに付随したパラメータと、から構成されており、 4件のデータがあり、
ID = 001のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 10ms、通信先 = IDxxxxxx,通信コマンド =接続要求となっており、 ID = 002のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 30ms、通信先 = IDxxxxxx,通信コマンド =接続要求応答となっており、
ID = 003のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 50ms、通信先 = IDxxxxxx,通信コマンド =データ読み出し要求、パラメータ = "データ名 =ファイル l.txtファイルタイプ =txt"となっており、
ID = 004のデータでは、通信日時 =2003年 12月 18日 1時 0分 34秒 0ms、通信先 = Idxxxxxx,通信コマンド =データ読み出し応答、パラメータ = "データ名 =ファイル l.txtファイルタイプ =txt"となっている。
[0050] 図 8に示す例では、
ID=001のデータの示す時刻に、 ID=001のデータの示す通信先に、通信端末より接 続要求が送信され、
ID=002のデータの示す時刻に通信先との接続が確立し、
ID=003のデータの示す時刻にテキスト形式のファイルであるファイル 1.txtのフアイ ルを読み出すように要求を送信し、
ID=004のデータの示す時刻に前記ファイル l.txtのファイルが通信端末に送信され た、
ことを意味している。
[0051] 次に、図 9乃至図 11Cを用いて、本発明の一具体例の通信端末 100の音声処理 言語情報作成手段 103の動作を説明する。
[0052] 音声処理言語情報作成手段 103は、音声処理手段 102で用いる音声言語情報を 作成する。音声処理手段 102は、音声認識と音声合成を行う。
[0053] 音声認識用の音声言語情報としては、単語列とその読みカゝら構成される単語辞書
、有限言語ネットワークによる文法、確率統計モデルに基づく言語モデルを用いる。
[0054] また、音声合成用の音声言語情報としては、単語列とその読み力も構成される辞書 を用いる。
[0055] 音声認識用の単語辞書作成の一例としては、対象とするプログラムやデータの形 式を用いて形態素解析を行い、特定の品詞の単語に読み付けを行い、単語辞書に 登録する。 [0056] この際、品詞ごとに読み付けルール定め、これに従って、読みを行う。
[0057] また、格納されているデータの構造が明らかなものに関しては、構造解析を、事前 に行い、この結果を用いて、データの種類を分類し、分類した結果毎に、読みづけを 行う。
[0058] 前者の形態素解析が有効なデータとしては、 Webブラウザが管理する Webページ データやメーラが管理するメールデータなどがある。
[0059] また後者のデータの構造解析が有効な例としては、アドレス帳データや端末状態 データがある。
[0060] 解析結果が人名のものは、同じデータ内に該当する読み情報がある場合、その情 報を優先し、読みがない場合は仮名漢字変換機能により、読みを生成する。
[0061] 解析の結果が、電話番号およびメールアドレスでは、数字やアルファベットでの読 みの他、「田中さんの電話」や「田中さんのメールアドレス」のように名前をふくめたも のも含めて登録する。
[0062] 解析の結果が、「電池」や「電源」などの端末の機能や部品を示す名詞や、それら の状態を示す名詞や形容詞や動詞は、予め類義語、発音変形、省略形の読みを予 めデータベースとしておき、データベースより該当するものを辞書に登録する。
[0063] 音声認識用の文法作成方法の一例としては、対象とするプログラム毎に、文法のテ ンプレートを予め用意しておく。この文法テンプレートは、文法の構造である単語列 のネットワークや単語列の生成方法を定義するものである。
[0064] 音声処理言語情報作成手段 103では、文法テンプレートしたがって、データを挿入 し、文法を作成する。
[0065] 音声合成用の辞書生成方法の一例としては、音声認識用の単語辞書と同様に対 象とするプログラムやデータの形式を用いて形態素解析を行い、品詞ごとに、読み付 けルールを定め、このルールに従って、読みを登録する。
[0066] また、格納されているデータの構造が明らかなものに関しては、構造解析を事前に おこな 、この結果を用いてデータの種類を分類し、分類した結果ごとに読みづけル ールを用意しておき、これを用いて読み付けを行う。
[0067] 読み付けのルールの一例としては、以下のような方法がある。 [0068] 解析結果が人名のものは、読み付けルールとして、同じデータ内に、該当する読み 情報がある場合、その情報を優先し、読みがない場合には、仮名漢字変換機能によ り、読みを生成する。
[0069] 解析の結果が、メールアドレス場合、読み付けのルールとして、形態素解析の結果 を用いて、メールアドレスの前後の関係から、持ち主が判定できる場合、「田中さんの メールアドレス」のように、メールアドレスの持ち主の名前を含めた読み付けを行い、 持ち主が判定できな 、場合、「このメールアドレス」のように読み付けを行う。
[0070] 辞書への登録を必要としな!/、通常のアルファベットや、数字の読み付けを用いるか 、前記読み付けルールを用いるかは、プログラム中に定義しておく。
[0071] 解析の結果が、電話番号の場合、読み付けルールとしては、形態素解析の結果を 用いて、電話番号の前後の関係から持ち主が判定できる場合には、例えば「田中さ んの電話番号」のように、持ち主の名前を含めた読み付けを行う。一方、持ち主が判 定できない場合には、「この電話番号」のように読み付けを行う。また、局番から固定 電話、携帯電話、 IP電話、フリーダイアル等の電話の種類を判定し、たとえば、 0120 で始まるものの場合、「このフリーダイアル」のように読み付けを行う。
[0072] このほかにも、音声合成が定義して!/、る数字や記号の読みを用いる方法や、局番 間の区切り記号であるハイフンやマイナスや括弧を'の'に置き換える方法などがある 。たとえば、ハイフンやマイナスや括弧を'の,に置き換える方法では、「044— 999— 1 234」は、「ぜろよんよんのきゆ一きゆ一きゆ一のいちに一さんし一」と読みづけがされ る。いずれの読み付けルールを採用するかは、プログラム中に定義する。
[0073] 解析の結果が「電池」や「電源」などの端末の機能や部品をしめす名詞では、予め 、その読みをデータベースに登録しておき、データベースより該当するものを辞書に 登録する。
[0074] 図 9は、音声認識用の単語辞書の生成を説明するための図である。図 9には、一例 として、図 4に示した端末情報データに対して、辞書が生成される例が示されている。 端末情報データは、端末の機能や部品をしめす名詞や、それらの状態を示す名詞 であることから、予め登録されたデータベースより、該当するものを辞書に登録する。
[0075] 端末情報データの項目名である、「電源」および「電池の残量」を表記として、辞書 が生成される例を示して 、る。
[0076] 表記「電源」には、単語の読み仮名である「でんげん」と、電源の類義語である「ぱ わ一」の 2つを音声認識用の読みとして登録する。
[0077] また、表記「電池の残量」では、単語の読み仮名である「でんちのざんりょう」のほか に、「電池」の類義語である「ばってり一」および「ばってり一」の発音変形「ばってり」、 「残量」の類義語である「のこり」とを合わせて、「でんちののこり」、「ばってり一のざん りょう」、「ばってりのざんりょう」、「ばってり一ののこり」、「ばってりののこり」を登録する
[0078] また、「電池の残量」の省略形である「でんち」、「ざんりょう」と、これらの類義語や発 音変形の「ばってり一」、「ばってり」、「のこり」もあわせて登録する。
[0079] 図 10は、音声合成用の辞書の生成を説明するための図である。図 10には、一例と して、図 5に示したアドレス帳データに対して、辞書が生成される例が示されており、「 田中一郎」、「ichiro@xxx.com」、「090-2222-3333」の 3種類の表記に対して、音声合 成の読みを生成する例を示して!/、る。
[0080] 表記「田中一郎」に対しては、人名であることから、アドレス帳データに与えられてい る読み「 ヽっちゃん」を登録する。
[0081] また、表記「ichiro@xxx.com」に対しては、メールアドレスであるので、メールの持ち 主の読みを含めた形式である「いつちゃんのめ一るあどれす」を登録する。
[0082] さらに、表記「090-2222-3333」に対しては、電話番号であるので、電話番号の持ち 主の読みと局番の解析結果を含めた形式である「 、つちゃんのけ ヽた 、でんわ」を登 録する。
[0083] 図 11A乃至図 11Cは、音声認識用文法の生成を説明するための図である。図 11 A乃至図 11Cには、一例として図 5で示したアドレス帳データを用いてアドレス帳に対 して操作を行うための文法が示されて 、る。
[0084] 図 11Aでは、文法生成のための文法テンプレートの一例を示している。文法テンプ レートでは、文法の構造や登録する単語列の定義の方法を定義する。この例では、 アドレス帳の [読み]、 [助詞]、アドレス帳の [項目]、 [助詞]、 [操作]の各項目を順々 に発声するような言い回しを定義している。また、このうち、 [読み]と、 [項目]に登録 する単語列はアドレス帳力も参照する。また、それ以外の [助詞]と、 [操作]は、登録 する単語列を予め定義しておく。
[0085] 図 11Bでは、図 11Aの文法テンプレートに従って登録される単語列の例を示したも のである。各単語列は、表記と読みで構成されている。アドレス帳カゝら参照された [読 み]と [項目名]、予め登録された [助詞]と [操作]の 4項目の単語列を定義して!/、る。
[読み]には、 "いっちやん"の 1単語力 [項目名]には、 "名前"、 "読み"、 "メールアド レス"、 "電話番号"の 4単語が、 [助詞]には、 "の"、 "を"の 2単語が、 [操作]には、 " 消去する"、 "消す"、 "編集する"、 "編集します"、 "編集したい"の 5単語が登録され ている。また、各単語には読みと表記が与えられている。
[0086] 図 11Cでは、図 11Aおよび図 11Bにより、テンプレートに単語列を挿入した結果、 認識可能となる発声の一例とテンプレートとの対応を示したものである。
[0087] 以上のように定義することにより、「いつちゃんの電話番号を編集したい」という発声 を、認識するための文法が生成される。
[0088] 次に、図 12乃至図 14Dを用いて、図 1に示した具体例のサーバ 200の音声処理言 語情報作成手段 202の動作を説明する。
[0089] 音声処理言語情報作成手段 103では、通信端末 100側からデータの生成方法と、 通信端末 100で管理しているデータを、サーバ 200に送信する。これらを用いて、サ ーバ 200内に格納しているデータにより、音声言語情報を生成する。
[0090] サーバ 200の音声処理言語情報作成手段 202で生成する音声言語情報は、通信 端末 100の音声合成情報作成手段 103で生成されるものと同様に、音声認識用とし ては単語列とその読みカゝら構成される単語辞書、有限言語ネットワークによる文法、 確率統計モデルに基づく言語モデルを想定している。
[0091] 音声合成用の音声言語情報も、単語列と、その読みから構成される辞書を想定し ている。また、音声認識用の単語辞書および文法および言語モデルの作成方法は、 サーバ 200内に格納しているデータを用いる他は同様とする。音声合成用辞書に関 しても同様とする。
[0092] 以下、図 12乃至図 14Dを参照して、音声言語情報の生成について説明する。
[0093] 図 12と図 13では、サーバ 200での音声言語情報生成の一例として、サーバ 200に 格納されたデータを用いて、音声認識用の単語辞書を生成する例を示して 、る。
[0094] ここでは、サーバ 200側から、通信端末 100の電話番号を送信し、サーバ 200で管 理して!/ヽる利用履歴を基に、サービスを利用するための単語辞書を作成する方法を 説明する。
[0095] 図 12は、サーバ 200で管理しているデータの一例である利用履歴データを示す図 である。このデータは、データを番号付けするための ID、利用者の電話番号、サービ ス名、利用回数、最終利用日、利用金額合計、サービス主体者の利用希望の度合い を示すキャンペーンより構成されている。図 12では、通信端末 100よりサーバ 200に 送付された通信端末の電話番号が、 090— XXXXYYYYの場合、該当するものが、 ID=001— 003の 3件があることを示して!/、る。
[0096] また、それぞれの利用につ!/、ては、
ID=001では、 AA美術館のチケット購入力 回利用があり、最終利用日時が 2003年 03月 12日 19時 30分 25秒で利用金額が 5500円でサービス主体者の利用希望の度合 いは低であり、
ID=002では、中華料理店 B力 回利用があり、最終利用日時が 2003年 03月 12日 22 時 30分 25秒で利用金額力 ^5800円でサービス主体者の利用希望の度合いは中であ り、
ID=003では、エステサロン Cは利用履歴がなくサービス主体者の利用希望の度合 いは高である、
ことを示している。
[0097] 図 13は、図 12を用いて作成された音声認識用の単語辞書である。図 13に示す例 では、利用履歴力も利用可能なサービスを列挙し、登録されたサービス名やサービ スを利用するための単語を辞書に登録する。サービスを利用するための単語列は、 予めサーバ 200内に定義しておく。
[0098] 登録する単語列に登録可能な数や登録順などの制約がある場合には、利用回数、 最終の利用日、金額合計やサービス主体者の利用希望の度合いにより制約を行う。
[0099] 例えば、図 12の ID = 001に登録されている AA美術館チケット購入のサービスにつ いての場合、利用するための言い回しとして、 AA美術館、美術館、チケット購入などを
音声認識用の単語辞書に登録する。
[0100] サーバ 200の音声処理言語情報作成手段 202が生成する音声言語情報としては 、複数のプログラムを連携動作させるための音声言語情報を作成することも想定して いる。
[0101] 図 14A乃至図 14Dを参照して、複数のプログラムを連携動作させるための音声言 語情報の生成について説明する。図 14乃至図 14Dに示す例では、複合施設の情 報案内プログラムと、複合施設内の店舗のサービス予約プログラムと、を連携させて 動作させるための音声認識用文法の生成について説明する。
[0102] 図 14Aおよび図 14Bは、すでに生成された音声認識用文法を示している。
[0103] 図 14Aは、複合施設の情報案内プログラムを音声で制御させるための文法である。
この文法は、複合施設内の店舗のカテゴリーを特定するための [カテゴリー]と、 [店 舗名]と、案内の内容を指定するための [項目]と、 [コマンド]の 4つの単語列より構成 される。
[0104] 単語列 [カテゴリー]には"レストラン"、 "エステティック"、 "美術館,,の 3つの単語力
[店舗施設名]には、 "店 A"、 "美術館 A"、 "エステティックサロン A"の 4つの単語が
[項目]には、 "場所"、 "営業時間"、 "定休日"、 "予算"の 4つの単語が、
[コマンド]には、 "どこ"、 "いくら,,、 "いつ,,
の 3つの単語が登録されて!、る。
[0105] なお、各単語列に登録された単語はそれぞれ表記と読みをもつ。
[0106] この文法では、「エステティックのエステサロン Aの定休日は!、つ」が認識可能であ る。
[0107] 図 14Bは、複合施設内の店舗のサービス予約プログラムで、
サービスを特定するための [サービス名 ]と、
サービスを受けたい時間を指定するための [時間]と、
予約に関する操作を指定するための [予約コマンド]
より構成されている。 [0108] 単語列 [サービス名 ]には"サービス Aを"、 "サービス Bを"の 2つの単語が、
[時間]には" 10 : 00に"、 "11 : 00に"の 2つの単語が、
[予約コマンド]には"予約"、 "取り消し"、 "確認"の 3つの単語が登録されている。 なお、各単語列に登録された単語は、それぞれ表記と読みをもつ。
[0109] この文法では、「サービス Aを 10 : 00に予約」が認識可能である。
[0110] 図 14Cは、図 14Aおよび図 14Bの文法を融合して、新たな文法を生成するための 文法テンプレートである。
[0111] このテンプレートでは、
[カテゴリー]と、 [店舗施設名]と、 [項目]と、 [コマンド]を順々に指定する文法と、 [カテゴリー]と、 [店舗施設名]と、 [サービス名]と、 [時間]と、 [予約コマンド]と、を 順々に指定する文法の 2つを定義している。
[0112] [カテゴリー]と、 [店舗施設名]と、 [項目]と、 [コマンド]の項目に定義する単語列 は、図 14Aの文法より挿入する。
[0113] また、 [サービス名]と、 [時間]と、 [予約コマンド]の各項目に定義する単語列は、 図 14Bより挿入する。
[0114] 図 14Dは、図 14Cの文法テンプレートを用いて作成された文法を示す図である。こ れにより、
「エステティックのエステティックサロン Aの定休日はいつ」と、
「エステイツクのエステティックサロン Aのサービス Aを 10: 00に予約」
の双方の文法が認識可能となる。
[0115] 次に、図 15乃至図 19を参照して、図 1の第 2プログラムおよびデータ格納手段 105 に格納されるプログラムについて説明する。
[0116] 第 2プログラムおよびデータ格納手段 105に格納されるプログラムでは、第 1プログ ラムおよびデータ格納手段 101に格納されたプログラムおよびデータや、音声処理 手段 102や、サーバ 200との連携動作の方法を定義して 、る。
[0117] この場合、第 1プログラムおよびデータ格納手段 101に格納されるプログラム (通信 端末 100に予め格納されるプログラム)としては、発信や着信を管理する発信着信プ ログラム、現在地を割り出すための GPSプログラムや、赤外線通信を行うための赤外 線通信プログラムなどがある。
[0118] 以下では、図 15乃至図 19を参照して、具体的なプログラムについて説明する。
[0119] 図 15、図 16A乃至図 16Cを参照して、第 2プログラムおよびデータ格納手段 105 に格納されるプログラムの一例として、第 1プログラムおよびデータ格納手段 101に格 納された発信着信プログラムと、音声処理手段 102とを連携して動作させるプロダラ ムの動作を説明する。具体的には前述のプログラムでは、電話を着信すると、発信着 信履歴や、端末状態に応じたメッセージを合成音で出力する。
[0120] 図 15は、第 2プログラムおよびデータ格納手段 105に格納されるプログラムの処理 手順を説明するためのフローチャートである。図 15に示すように、制御手段 106は、 電話を着信すると、まずアドレス帳より着信した電話番号に該当するデータを検索す る(ステップ S 1301)。着信番号が登録されて!、る場合 (ステップ S 1302の「ある」分 岐)、名前を一時的保存する (ステップ S1303)。次に、発信着信履歴を検索し、該当 する電話番号がある場合 (ステップ S1304の「ある」分岐)、発信回数と受信回数を一 時的に保存する (ステップ S 1305)。次に、端末状態を検索し、バッテリー状態を一 時的に保存する (ステップ S 1306)。
[0121] さらに、ステップ S1303、ステップ S1305、およびステップ SI 306での保存状態を 受けて、出力する文章を作成し (ステップ S1307)、音声合成で出力する (ステップ S 1308)。
[0122] 図 16A乃至図 16Cは、ステップ S1307における発声文を作成するためのルールの 一例を説明するための図である。まず、図 16Aに示すように、ステップ S1302におい て、アドレス帳に該当するデータがない場合、「でんわだよ」とする。アドレス帳に該当 するデータがある場合、アドレス帳に登録されて 、る読みを用いて「田中一郎さんか ら電話だよ」のように作成する。
[0123] 次に、図 16Bに示すように、ステップ S1304において、発信回数および着信回数 がともに 0— 4回の場合、該当する文章は作成しな!、。
[0124] 発信回数が 5回以上で、着信回数が 0— 4回のときは、「お待ちどう様、やっと、かか つてきてよ力つたね」とする。さらに、着信回数が 5回以上のときは、「今日は、よくかか つてくるね」とする。 [0125] さら〖こ、図 16C〖こ示すよう〖こ、ステップ S1306〖こおいて、電池の残量が、 40%以上 の場合は、該当する文章はない。 40%未満の場合は、「どうでもいいけど、電源につ ないでくれよ一。電池の残量がきれるよ。」とする。
[0126] 例えば、ステップ S1302において該当するデータがあり、着信回数が 5回以上で、 電池の残量力 0%未満の場合、「田中さん力 電話だよ。今日は、よくかかってくる ね。どうでもいいけど、電源につないでくれよ一。電池の残量がきれるよ。」となり、ス テツプ S1302において該当するデータがなぐ着信回数および発信回数がなぐ電 池の残量力 0%以上の場合には、「でんわだよ」となる。
[0127] 次に、図 17には、第 2プログラムおよびデータ格納手段 105に格納されれたプログ ラムの一例が示されている。図 17を参照して、第 1プログラムおよびデータ格納手段 101に格納された GPSプログラムと音声処理とを連携動作させるプログラムの動作に ついて説明する。図 17は、 GPSプログラムとサーバと音声処理とを連携して動作させ る例を示す図であり、具体的には通信端末の現在の位置力 複合施設を割り出し複 合施設サービスを音声検索するためのプログラムのフローチャートである。
[0128] まず、通信端末 100内の第 1プログラムおよびデータ格納手段 101に格納されてい る GSPプログラムを起動し (ステップ S1501)、現在地を計測する(ステップ S1502)。 送受信手段 104より現在地のデータをサーバに送信し、サーバ 200の送受信手段 2 01ではこれを受信する(ステップ S 1503)。
[0129] サーバ 200の音声処理言語情報作成手段 202では、ステップ S 1503で受信した 現在地データとサーバ内で管理している複合施設のサービスリストとにより辞書を作 成する(ステップ S 1504)。
[0130] 辞書を、サーバ 200の送受信手段 201により通信端末 100に送信し、通信端末 10 0の送受信手段 104で、辞書を受信する (ステップ S1505)。
[0131] 次に、ステップ S1505において受信した音声処理辞書を用いて、音声処理手段 10 2の音声認識を起動する (ステップ S 1506)。
[0132] さらに、通信端末 100内の第 1プログラムおよびデータ格納手段 101に格納されて いるブラウザを起動し (ステップ S 1507)、ステップ S 1502において取得した現在地 の住所から複合施設サービスページを表示する (ステップ S 1508)。 [0133] ブラウザの表示中にユーザの発声があった場合 (ステップ SI 509)、音声処理手段 102で音声認識され (ステップ S 1510)、ページ中のリンクへのジャンプや文字入力 などのコマンド処理が行われる(ステップ S1511)。コマンドが終了コマンドであった 場合、終了する。
[0134] 次に、図 18および図 19を参照して、図 1の第 2プログラムおよびデータ格納手段 1 05に格納されるプログラムの一例として、第 1プログラムおよびデータ格納手段 101 に格納された赤外線プログラムと、音声処理と、サーバ 200とを連携動作させるプロ グラムの動作にっ 、て説明する。
[0135] 図 18および図 19は、赤外線プログラムと、音声処理手段 102とを連動させて使用 するプログラムの一例を示す図であり、具体的には映画館やショッピングモール等の 複合型施設でのサービスを音声認識や合成により受けるためのプログラムの一例で ある。
[0136] このプログラムでは、複合施設の壁や柱や家具などの什器に、赤外線ポートを埋め 込んだり、赤外線ポート専用の端末などのインフラを設けておくことが前提とされてい る。
[0137] 図 18は、サービスの形態を説明するための図であり、複合施設内の赤外線ポート 毎のサービス一覧を表している。この例では、各赤外線固有のポート IDと、各ポート の店舗名や設置フロアなど固定の位置情報と、什器や端末を特定するための情報と 、ポートより受けられるサービスにより表している。
[0138] 例えば、ポート ID=001の赤外線ポートは、美術館 1階の A2柱に設置の展示 Aに設 置されている。このポートからは、展示品情報提供サービスの呼び出しが可動である 。具体的には、展示 Aに関連した情報を音声合成により読み上げを行う。
[0139] また、ポート ID=100の赤外線ポートは、西館 6F中華料理店 Bにある T100テーブル に設置されている。このポートからは、メニュー説明注文のサービスが可動である。具 体的には、メニューの紹介を音声合成により読み上げたり、音声認識により注文を行
[0140] 図 19は、赤外線プログラムと、音声処理とを連動させるプログラムの動作手順を示 す図である。この例では、動作に必要なプログラムや音声処理に必要な辞書は、予 め生成し、第 1プログラムおよびデータ格納手段 101に格納しておく。
[0141] まず、第 1プログラムおよびデータ格納手段 101に格納されている赤外線プロダラ ムを起動し (ステップ S1701)、現在地の赤外線ポート IDを取得する(ステップ S170 2)。取得したポート IDに従ったサービスプログラムに切り替える(ステップ S1703)。
[0142] サービスプログラムでは、音声認識または音声合成が設定されて!、るので、音声処 理機能を起動する (ステップ S 1704)。
[0143] 起動されたプログラムに対して、ボタン入力や発声などのユーザ入力ある場合 (ステ ップ S 1705)は、音声処理を実行する(ステップ S 1706)。具体的に、この処理では、 音声合成による出力や、音声認識の結果をコマンドに変換して実行する。さらに、音 声処理の結果が終了の場合には (ステップ S1707)、終了する。
[0144] [第 2の実施例]
次に、本発明を第 2の実施例について図面を参照して詳細に説明する。
[0145] 図 20を参照すると、本発明の第 2の実施例は、通信端末 1000とサーバ 200とを備 えている。通信端末 1000は、第 1プログラムおよびデータ格納手段 1101と、音声処 理手段 1102と、音声処理言語情報作成手段 1103と、送受信手段 1104と、第 2プロ グラムおよびデータ格納手段 1105と、制御手段 1106とを備えている。サーバ 200は 、送受信手段 201と、音声処理言語情報作成手段 202を備えている。これらの手段 はそれぞれ概略つぎのように動作する。
[0146] 第 1プログラムおよびデータ格納手段 1101は、通信端末 1000に予め内蔵されて いるプログラムや、プログラムが管理するデータを格納する。第 1プログラムおよびデ ータ格納手段 1101に格納されるデータとしては、通信端末 1000の状態に応じて、 動的に変化するデータや、端末利用者の個人データ等がある。音声処理手段 1102 は、音声認識および音声合成の少なくとも一方を行う。
[0147] 音声処理言語情報作成手段 1103は、第 1のプログラムおよびデータと第 2のプロ グラムおよびデータが記憶している内容に従って、音声処理手段 1102用の辞書や 文法や言語モデル等を作成する。
[0148] 送受信手段 1104は、通信端末 1000側の情報を送信し、プログラムおよびデータ を端末外部から受信する。 [0149] 第 2プログラムおよびデータ格納手段 1105は、送受信手段 1104により、通信端末 1000外部力も受信したプログラムおよびデータを格納する。
[0150] 制御手段 1106は、送受信手段 1104により取得した第 2のプログラムおよびデータ 力 プログラムおよびデータを呼び出して、音声処理手段 1102および第 1のプロダラ ムおよびデータを連携させる。
[0151] 送受信手段 201は、通信端末 1000側力もの情報を受信し、サーバ 200で生成さ れたプログラムやデータを端末側に送信する。
[0152] 音声処理言語情報作成手段 202は、通信端末 1000から送信されたデータを基に 、サーバ 200側に格納されているデータより音声処理用の辞書を作成する。
[0153] 次に、図 20および図 21のフローチャートを参照して、本実施例の全体の動作につ いて詳細に説明する。
[0154] まず、送受信手段 1104により、通信端末 1000外部から第 2プログラムおよびデー タ格納手段 1105にプログラムおよびデータを受信し (ステップ S2101)、第 2プロダラ ムおよびデータ格納手段 1105に格納する(ステップ S2102)。
[0155] 次に、制御手段 1106は、第 2プログラムおよびデータ格納手段 1105より、前述の プログラムおよびデータを起動し (ステップ S2103)、プログラム中に記述された音声 処理用の言語情報作成手順をサブルーチンコール等で呼び出す (ステップ S2104)
[0156] ステップ S2104で、呼び出した作成手順において、作成の対象となるプログラムお よびデータを、第 1プログラムおよびデータ格納手段 1101と、第 2プログラムおよび データ格納手段 1105の双方よりを呼び出す (ステップ S2105)。
[0157] ステップ S2104で読み出した言語情報生成手順により、通信端末 1000の音声処 理言語情報作成手段 1103で生成する場合 (ステップ S2106)、ステップ S2105で 呼び出したプログラムおよびデータを基に、音声処理言語情報作成手段 1103にお いて言語情報を生成する (ステップ S2107)。
[0158] ステップ S2107において、通信端末 1000の音声処理言語情報作成手段 1103で 作成しない場合、ステップ S 2108に進む。
[0159] ステップ S2104で読み出した言語情報生成手順により、サーバ 200の音声処理言 語情報作成手段 202で生成する場合 (ステップ S2108)、ステップ S2105において 読み出したデータを送受信手段 1104によりサーバ 200に送信し送受信手段 201で は、このデータを受信する(ステップ S2109)。前述のデータとサーバ内に格納してい るデータより、音声処理言語情報作成手段 202で音声処理用言語情報を生成する( ステップ S2110)。
[0160] サーバ 200の送受信手段 201により生成された音声処理用辞書を、通信端末 100
0に送信し、送受信手段 1104は、これを受信する (ステップ S2111)。
[0161] ステップ S2108において、サーバ 200の音声処理言語情報作成手段 202におい て音声処理用言語情報を作成しな 、場合、ステップ S 2112に進む。
[0162] 制御手段 1106ではこれを受けて、前述の生成された音声処理用言語情報を読み こんで、音声処理手段 1102を起動させる (ステップ S2112)。
[0163] さらに、ステップ S2103で起動されたプログラムに従って、第 1プログラムおよびデ ータ格納手段 1102のプログラムをよびだし (ステップ S2113)、音声処理手段 1102 と連携動作させる (ステップ S2114)。
[0164] 次に、本実施例の作用効果について説明する。
[0165] 本実施例では、音声処理言語情報作成手段 1103において、第 1プログラムおよび データ格納手段 1101と、第 2プログラムおよびデータ格納手段 1105の双方よりプロ グラムおよびデータを呼び出して、音声言語情報を作成するため、通信端末 1000に 予め内蔵されて ヽるプログラムと、受信したプログラムとを連携させて音声認識や音 声合成などの音声処理を行うことが可能である。
[0166] 次に、本発明の第 2の具体例を図面を参照して説明する。図 20は、この具体例の 構成を示す図である。本具体例では、音声処理言語情報作成手段 1103が、第 1プ ログラムおよびデータ格納手段 1101と第 2プログラムおよびデータ格納手段 1105の 双方を参照して、音声言語情報を生成する点が、前記第 1の具体例とは相違してい る。
[0167] 図 22A乃至図 22Eは、音声処理言語情報作成手段 1103の動作を説明するため の図である。
[0168] 図 22Aは、音声処理言語情報作成手段 1103が第 1プログラムおよびデータ格納 手段 1103より読み込んだプログラムおよびデータを説明するための図であり、この例 では、メーラとメーラの管理するデータであるアドレス帳データとメールデータとを用 いるものとする。
[0169] 図 22Bは、音声処理言語情報作成手段 1103が、第 2プログラムおよびデータ格納 手段 1105より読み込んだプログラムおよびデータを説明するための図である。この 例では、商品検索プログラムと商品データを用いる。
[0170] 図 22Cは、前記商品データの一例を説明するための図であり、商品 IDと商品名と 商品データファイルとにより構成されている。
[0171] 図 22Dは、音声処理言語情報作成手段 1103で生成する文法のテンプレートであ る。このテンプレートを用いると、読みと助詞と商品名とメールコマンドより構成される 文法が生成される。また、メールコマンドは、メールとコマンド (メール)より構成される 。読みはアドレス帳より参照する。また、商品名は商品データより参照する。
[0172] それぞれのプログラムが管理するデータより参照できない、助詞、メール、コマンド( メール)に登録する単語列は予め与えておく。
[0173] 図 22Eは、文法テンプレートに、データを参照して文法を生成することを説明する ための図で、参照後、「いつちゃんに商品 001をメールで送る」という発声を音声認識 するための文法が生成されたことを意味して 、る。
[0174] 以上のように、音声処理言語情報作成手段 1103で、第 1プログラムおよびデータ 格納手段 1101より読み込んだプログラムおよびデータと、第 2プログラムおよびデー タ格納手段 1101より読み込んだプログラムおよびデータとを連携させて音声言語情 報を生成することにより、端末に固有のプログラムや機種やユーザに固有の情報や 端末の状態によってダイナミックに変化する情報と機種に依存することなく作られた 汎用的なプログラムやそのデータとを連携させ、音声認識や音声合成といった音声 処理で制御することが可能になる。
[0175] [第 3の実施例]
次に、本発明の第 3の実施例について図面を参照して詳細に説明する。
[0176] 図 23を参照すると、本発明の第 3の実施例は、通信端末 2000と、複数のサーバ 2 00と、サーノ¾00を備えている。通信端末 2000は、第 1プログラムおよびデータ格 納手段 2101と、音声処理手段 2102と、音声処理言語情報作成手段 2103と、送受 信手段 2104と、第 2プログラムおよびデータ格納手段 2105と、制御手段 2106と、 音声処理言語情報統合手段 2107を備えている。
[0177] サーバ 200は、送受信手段 201と、音声処理言語情報作成手段 202を備えている 。サーバ nOOは、送受信手段 ηθΐと、音声処理言語情報作成手段 n02から構成され て 、る。これらの手段はそれぞれ概略つぎのように動作する。
[0178] 第 1プログラムおよびデータ格納手段 2101は、通信端末 2000に予め内蔵されて V、るプログラムやプログラムが管理するデータを格納する。第 1プログラムおよびデー タ格納手段 2101に格納されるデータとしては、通信端末 2000の状態に応じて動的 に変化するデータや端末利用者の個人データがある。音声処理手段 2102は、音声 認識および音声合成の少なくとも一方を行う。
[0179] 音声処理言語情報作成手段 2103は、第 1のプログラムおよびデータと第 2のプロ グラムおよびデータとが記憶している内容に従って、音声処理手段 2102用の辞書や 文法や言語モデル等を作成する。送受信手段 2104は、通信端末 2000側の情報を 送信し、プログラムおよびデータを端末外部力 受信する。第 2プログラムおよびデー タ格納手段 2105は、送受信手段 2104により端末外部力も受信したプログラムおよ びデータを格納する。
[0180] 制御手段 2106は、送受信手段 2104により取得した第 2のプログラムおよびデータ 力 プログラムおよびデータを呼び出して、音声処理手段 2102、および第 1のプログ ラムおよびデータを連携させる。
[0181] 音声処理言語情報統合手段 2107は、通信端末 2000の音声処理言語情報作成 手段 2103で生成された音声言語情報と、サーバ 200の音声処理言語情報生成手 段 202およびサーバ nOOの音声処理言語情報生成手段 n02で生成された音声言語 情報とを合成して音声言語情報を生成する。
[0182] サーバ 200の送受信手段 201は、通信端末 2000側力もの情報を受信し、サーバ 2 00で生成されたプログラムやデータを通信端末 2000側に送信する。音声処理言語 情報作成手段 202は、通信端末 2000から送信されたデータを基に、サーバ 200側 に格納されて ヽるデータより、音声処理用の音声言語情報を作成する。 [0183] また、サーバ nOOでも同様に、送受信手段 ηθΐは、通信端末 2000側からの情報を 受信し、サーバ nOOで生成されたプログラムやデータを通信端末 2000側に送信する 。音声処理言語情報作成手段 n02は、通信端末 2000から送信されたデータを基に サーバ nOO側に格納されて!ヽるデータより、音声処理用の音声言語情報を作成する
[0184] 次に、図 23および図 24のフローチャートを参照して、本実施例の全体の動作につ いて詳細に説明する。
[0185] まず、送受信手段 2104により、通信端末 2000外部から第 2プログラムおよびデー タ格納手段 2105に、プログラムおよびデータを受信し (ステップ S2401)、第 2プログ ラムおよびデータ格納手段 2105に格納する(ステップ S2402)。
[0186] 次に、制御手段 2106は、第 2プログラムおよびデータ格納手段 2105より前述のプ ログラムおよびデータを起動し (ステップ S2403)、プログラム中に記述された音声処 理用の言語情報作成手順を呼びだす。ステップ S2404で呼び出した音声情報作成 手順において、作成の対象となるプログラムおよびデータを、第 1プログラムおよびデ ータ格納手段 2101と、第 2プログラムおよびデータ格納手段 2105の双方よりを呼び だす (ステップ S2405)。
[0187] ステップ S2404で読み出した言語情報生成手順により、通信端末 2000の音声処 理言語情報作成手段 2103で生成する場合 (ステップ S 2406)、ステップ S 2405で 呼び出したプログラムおよびデータを基に、音声処理言語情報作成手段 2103にお V、て言語情報を生成する (ステップ S2407)。
[0188] ステップ S2406において、通信端末 2000の音声処理言語情報作成手段 2103で 作成しない場合、ステップ S 2408に進む。
[0189] ステップ S2404で読みだした言語情報生成手順により、サーノ 200の音声処理言 語情報作成手段 202で生成する場合 (ステップ S 2408)、ステップ S2405において 読み出したデータを送受信手段 2104によりサーバ 200に送信し、送受信手段 201 では、このデータを受信する(ステップ S2409)。
[0190] 前述のデータとサーバ内に格納しているデータより音声処理言語情報作成手段 20 2で音声処理用言語情報を生成する (ステップ S2410)。 [0191] サーバ 200の送受信手段 201により生成された音声処理用辞書を通信端末 2000 に送信し、送受信手段 2104は、これを受信する (ステップ S 2411)。
[0192] ステップ S2408において、サーバ 200の音声処理言語情報作成手段 202におい て音声処理用言語情報を作成しな ヽ場合には、ステップ S 2412に進む。
[0193] 音声処理言語情報統合手段 2107では、通信端末 2000の音声処理言語情報作 成手段 2103およびサーバ 200の音声言語作成手段 202およびサーノ nOOの音声 処理言語情報作成手段 n02のそれぞれで生成した音声言語情報を、 1つの音声言 語情報に合成する (ステップ S2412)。
[0194] ステップ S2412を受けて、制御手段 2106では、前述の生成された音声処理用言 語情報を読みこんで音声処理手段 2102を起動させる (ステップ S2413)。
[0195] さらに、ステップ S2403で起動されたプログラムに従って、第 1プログラムおよびデ ータ格納手段 2101のプログラムを呼び出し (ステップ S 2414)、音声処理手段 2102 と連携動作させる (ステップ S2415)。
[0196] 次に、本実施例の作用効果について説明する。本実施例では、音声処理言語情 報統合手段 2107を有し、通信端末 2000側で生成した音声言語情報と、複数のサ ーバ 200— nOO側で生成した音声言語情報とを合成する構成としており、複数のプ ログラムやデータを連携させて、音声処理を行う、ことが可能になる。
[0197] 次に、本発明の第 3の具体例を図面を参照して説明する。図 23は、本発明の第 3 の具体例の構成を示す図である。
[0198] 本具体例では、複数のサーバ 200— nOOより構成されて 、る点と、通信端末 2000 や複数のサーバ 200— nOOで生成される音声言語情報を統合するための通信端末 2000が音声処理言語情報統合手段 2107を備えている点が前記第 1の具体例と相 違している。
[0199] 図 24は、音声処理言語情報統合手段 2107の動作を説明するための図である。音 声処理言語情報統合手段 2107は、サーバ 200とサーバ nOOと通信端末 2000のそ れぞれで生成された音声言語情報を読み込んで、音声言語情報を生成する。
[0200] 図 25Aは、サーバ 200で生成された音声言語情報の一例を示す図であり、映画に 関する情報検索を行うための音声認識用文法の構成図と構成図に対応する文法の 一例を示している。
[0201] この文法は、映画名に関する項目である [映画]と、映画に関する項目である [項目 (200)]と、問い合わせのための項目である [コマンド (200)]より構成されており、それぞ れの項目に登録する単語列が定義されている。このように定義することにより、「映画 Aの開始時間を教えて」がこの文法で認識可能となる。
[0202] 図 25Bは、サーバ nOOで生成された音声言語情報の一例で、店 IIおよび施設に関 する情報検索を行うための音声認識用文法の構成と対応する文法の一例を示してい る。
[0203] この文法は、店舗や施設を特定するための項目である [店舗および施設名 ]と、店 舗および施設に関する項目である [項目(nOO) ]と、問い合わせのための項目である [コマンド (nOO) ]より構成されており、 [店舗および施設名 ]の [カテゴリ]と [名前]の それぞれの項目に登録する単語列が定義されている。このよう〖こ定義すること〖こより、 「レストランの店 Aの予算はいくら」がこの文法で認識可能となる。
[0204] 図 25Cは、通信端末 2000で生成された音声言語情報の一例で、メール操作を行 うための音声認識用文法の構成と対応する文法の一例を示している。
[0205] この文法は、メールのあて先を指定するための項目である [読み]と、メールに関す る項目である [メール]と、問 、合わせのための項目である [コマンド (メール) ]より構 成されており、それぞれの項目に登録する単語列が定義されている。このように定義 することにより、「いつちゃんにメールを送る」がこの文法で認識可能となる。
[0206] 図 25Dは、音声処理言語情報統合手段 2107で音声言語情報を合成するための 一例であり、図 25Aから図 25Cでの音声言語情報を合成するための文法テンプレー トの構成を示している。この文法テンプレートでは、映画や施設の情報をメールで送 信するための文法を想定している。文法は、メールのあて先を指定するための [読み ]と、 [助詞]と、映画や施設の名前や項目を指定するための [映画および施設情報] と、メールを送信するための [メールコマンド]より構成される。項目 [読み]は、通信端 末 2000で生成された文法より参照する。また、項目 [映画および施設情報]は、 [映 画情報]と、 [助詞]と、 [施設情報]と [助詞]より構成される。
[0207] さらに、 [映画情報]は、 [映画]と、 [項目(200) ]より構成され、 [映画]と、 [項目(2 00) ]は、サーバ 200で生成された文法より参照する。
[0208] [施設情報]は [店舗および施設名]と [項目(nOO) ]より構成され、 [店舎および施 設名]と [項目(nOO) ]は、サーバ nOOで生成された文法より参照する。
[0209] 図 25Eは、文法テンプレートに、データを参照して文法を生成することを説明する ための図である。データを参照することで、「いつちゃんに映画 Aの開始時間とレスト ランの店 Aの予算をメールで送る」という発声を行う、音声認識のための文法が生成さ れたことを意味している。
[0210] 以上のように、音声処理言語情報作成手段で複数のサーバで生成された音声言 語情報と通信端末内で生成された音声言語情報を合成して音声言語情報を生成す ることにより、端末に固有のプログラムや機種やユーザに固有の情報や端末の状態 によってダイナミックに変化する情報と機種に依存することなく作られた汎用的なプロ グラムやそのデータとを連携させ、音声認識や音声合成と 、つた音声処理で制御す ることが可能になる。
[0211] 以上本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にの み限定されるものでなぐ本発明の範囲内で当業者であればなし得るであろう各種変 形、修正を含むことは勿論である。
[0212] 例えば、上述した通信端末 100, 1000, 2000またはサーバ 200の諸機能は、演 算装置(CPU)や記憶装置 (ROMおよび RAM等の内部メモリの他、 HDD等の外部 記憶装置を含む)などのコンピュータのハードウェア資源とこのコンピュータにインスト ールされたコンピュータ 'プログラム (ソフトウェア)とが協働することによって実現する ことができる。
産業上の利用可能性
[0213] 本発明によれば、携帯電話や携帯端末で音声認識や音声合成などの音声処理と 端末に内蔵されたプログラムやそのプログラムが管理するデータとを連携されるとい つた用途に適用できる。特に、端末が管理するシステムの状態によって動的に変化 するデータや個人情報を音声処理とを連携させる用途に適用できる。
[0214] また、音声処理と端末に内蔵されたプログラムやそのプログラムが管理するデータと サーバとを連携させる用途にも適用可能である。具体的には、携帯電話を用いて複 合施設の情報検索案内サービス用途に適用可能である。上記実施例では、携帯型 通信端末を例に説明したが、音声処理機能またはそれ以外の処理機能を具備した 任意の電子装置等に対して適用できる。

Claims

請求の範囲
[1] 予め定められた所定の処理を行う処理手段と、
第 1のプログラム及び第 1のデータの少なくとも一方を記憶する第 1の記憶手段と、 第 2のプログラム及び第 2のデータの少なくとも一方を記憶する第 2の記憶手段と、 前記第 2のプログラム及び前記第 2のデータの少なくとも一方を用いて、前記処理 手段による前記処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一 方とを連携させる制御手段と
を備えることを特徴とする通信端末。
[2] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現 するためのプログラム及びデータであり、
前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び 前記第 1のデータの少なくとも一方と、前記処理手段による前記処理との連携の仕方 を規定するプログラム及びデータであり、
前記制御手段は、前記第 2のプログラム及び前記第 2のデータの少なくとも一方に カロえて、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて 、前記処理手段による前記処理と、前記第 1のプログラム及び前記第 1のデータの少 なくとも一方による前記機能とを、互いに連携動作させる制御を行う
ことを特徴とする請求項 1に記載の通信端末。
[3] 前記処理手段は、音声認識及び音声合成の少なくとも一方の音声処理を行う音声 処理手段であることを特徴とする請求項 1に記載の通信端末。
[4] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現 するためのプログラム及びデータであり、
前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び 前記第 1のデータの少なくとも一方と、前記音声処理手段による前記音声処理との連 携の仕方を規定するプログラム及びデータであり、
前記制御手段は、前記第 2のプログラム及び前記第 2のデータの少なくとも一方に カロえて、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて 、前記音声処理手段による前記音声処理と、前記第 1のプログラム及び前記第 1のデ ータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行う ことを特徴とする請求項 3に記載の通信端末。
[5] 前記制御手段は、前記第 2のプログラムを起動し、起動された前記第 2のプログラム によって前記第 1のプログラムを呼び出し、前記音声処理手段による前記音声処理と 、前記第 1のプログラムとを連携動作させることを特徴とする請求項 4に記載の通信端 末。
[6] 前記制御手段は、前記第 2のプログラムを起動し、起動された前記第 2のプログラム によって前記第 1のデータを用い、前記音声処理手段による前記音声処理と、前記 第 1のデータとを連携動作させることを特徴とする請求項 4に記載の通信端末。
[7] 前記第 2のプログラムは、音声処理用の言語情報を作成する手順を規定した第 3の プログラムを含み、
前記制御手段は、前記第 3のプログラムを起動し、起動された前記第 3のプログラム によって前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用い、前記 音声処理手段での前記音声処理に用いられる言語情報を作成し、
前記音声処理手段は、作成された前記言語情報を用いて前記音声処理を行う ことを特徴とする請求項 3に記載の通信端末。
[8] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現 するためのプログラム及びデータであり、
前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び 前記第 1のデータの少なくとも一方と、前記音声処理手段による前記音声処理との連 携の仕方を規定する第 4のプログラム及び第 4のデータを含み、
前記制御手段は、前記第 4のプログラム及び前記第 4のデータの少なくとも一方を 用いて、前記音声処理手段による前記音声処理と、前記第 1のプログラム及び前記 第 1のデータの少なくとも一方による前記機能とを、互いに連携動作させる制御を行
5
ことを特徴とする請求項 7に記載の通信端末。
[9] 外部から前記第 2のプログラム及び前記第 2のデータの少なくとも一方を受信する 第 1の受信手段をさらに備え、 前記第 2の記憶手段は、受信した前記第 2のプログラム及び前記第 2のデータを記 憶する
ことを特徴とする請求項 3に記載の通信端末。
[10] 前記第 2のプログラム及び前記第 2のデータは、当該通信端末と通信接続するサー バから転送されることを特徴とする請求項 9に記載の通信端末。
[11] 前記サーバに対して音声処理用の言語情報の作成に必要な情報を送信する送信 手段と、
前記サーバから音声処理用の言語情報を受信する第 2の受信手段とをさらに備え 前記音声処理手段は、受信した前記言語情報を用いて前記音声処理を行う ことを特徴とする請求項 10に記載の通信端末。
[12] 前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、音声処理 用の言語情報を作成する音声処理言語情報作成手段をさらに備えることを特徴とす る請求項 3に記載の通信端末。
[13] 前記第 1のプログラム及び前記第 1のデータのそれぞれは、辞書、文法及び言語モ デルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータである ことを特徴とする請求項 12に記載の通信端末。
[14] 前記第 1のデータは、当該通信端末の状態に応じて変化するデータであり、
前記音声処理言語情報作成手段は、当該通信端末の状態に応じて変化する前記 データを基に前記言語情報を作成することを特徴とする請求項 12に記載の通信端 末。
[15] 前記音声処理言語情報作成手段は、前記第 1のプログラム及び前記第 1のデータ の少なくとも一方に加えて、さらに前記第 2のプログラム及び前記第 2のデータの少な くとも一方を用いて、前記音声処理用の言語情報を作成する手段を備えることを特徴 とする請求項 12に記載の通信端末。
[16] 前記第 2のプログラム及び前記第 2のデータのそれぞれは、辞書、文法及び言語モ デルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータである ことを特徴とする請求項 15に記載の通信端末。
[17] 前記音声処理言語情報作成手段で作成された前記音声処理用の言語情報と、外 部から入力される少なくとも一つの音声処理用の言語情報とを合成し、前記音声処 理手段で用いられる言語情報を作成する音声処理言語情報統合手段をさらに備え ることを特徴とする請求項 12に記載の通信端末。
[18] 外部から入力される前記音声処理用の言語情報は、当該通信端末と通信接続す るサーバで作成され前記サーノから転送されることを特徴とする請求項 17に記載の 迪信端末。
[19] 通信端末に予め記憶されている第 1のプログラム及び第 1のデータの少なくとも一 方と、前記通信端末で行われる所定の処理との、連携の仕方を規定する第 2のプロ グラム及び第 2のデータの少なくとも一方を前記通信端末に送信する第 1の送信手 段を備えることを特徴とするサーバ。
[20] 前記通信端末で行われる前記所定の処理は、音声処理であることを特徴とする請 求項 19に記載のサーバ。
[21] 前記通信端末から音声処理用の言語情報の作成に必要なデータを前記サーバを 受信する受信手段と、
受信したデータを基に、当該サーバに格納されているデータより、音声処理用の言 語情報を作成する音声処理言語情報作成手段と
をさらに備えることを特徴とする請求項 20に記載のサーバ。
[22] 前記受信したデータは、前記通信端末の状態に応じて変化するデータであり、 前記音声処理言語情報作成手段は、このデータを基に前記言語情報を作成する ことを特徴とする請求項 21に記載のサーバ。
[23] 前記音声処理言語情報作成手段で作成した前記言語情報を前記通信端末に送 信する第 2の送信手段をさらに備えることを特徴とする請求項 21に記載のサーバ。
[24] 前記音声処理言語情報作成手段は、前記音声処理用の言語情報として辞書、文 法及び言語モデルのうちの少なくとも一つを作成することを特徴とする請求項 21に 記載のサーバ。
[25] 通信端末と、前記通信端末と通信接続する少なくとも 1つのサーバとを備え、 肯 己通信端末は、 音声認識及び音声合成の少なくとも一方の音声処理を行う音声処理手段と、 当該通信端末に予め記憶されている第 1のプログラム及び第 1のデータの少なくと も一方に従って、音声処理用の言語情報を作成する端末音声処理言語情報作成手 段と、
前記サーノくからダウンロードされた第 2のプログラム及び第 2のデータの少なくとも 一方により、前記言語情報を用いた前記音声処理と、前記第 1のプログラム及び前記 第 1のデータの少なくとも一方とを連携動作させる制御手段と
を備えることを特徴とする通信システム。
[26] 前記サーバは、前記第 2のプログラム及び前記第 2のデータの少なくとも一方を前 記通信端末に送信する第 1のサーバ送信手段を備え、
肯 己通信端末は、
前記第 1のプログラム及び前記第 1のデータの少なくとも一方を記憶する第 1の記 憶手段と、
前記サーバから前記第 2のプログラム及び前記第 2のデータの少なくとも一方を受 信する第 1の端末受信手段と、
受信した前記第 2のプログラム及び前記第 2のデータの少なくとも一方を記憶する 第 2の記憶手段とを備える
ことを特徴とする請求項 25に記載の通信システム。
[27] 前記通信端末は、音声処理用の言語情報の作成に必要なデータを前記サーバに 送信する第 1の端末送信手段をさらに備え、
前記サーバは、
前記通信端末から前記データを受信する第 1のサーバ受信手段と、
受信した前記データを基に、当該サーバに格納されているデータより、音声処理用 の言語情報を作成するサーバ音声処理言語情報作成手段とをさらに備える
ことを特徴とする請求項 26に記載の通信システム。
[28] 前記サーバは、前記サーバ音声処理言語情報作成手段で作成した前記言語情報 を前記通信端末に送信する第 2のサーバ送信手段をさらに備え、
前記通信端末は、前記サーバから前記言語情報を受信する第 2の端末受信手段と をさらに備え、
前記音声処理手段は、受信した前記言語情報を用いて前記音声処理を行う ことを特徴とする請求項 27に記載の通信システム。
[29] 前記端末音声処理言語情報作成手段は、前記第 1のプログラム及び前記第 1のデ ータの少なくとも一方にカ卩えて、さらに前記第 2のプログラム及び前記第 2のデータの 少なくとも一方に従って、前記音声処理用の言語情報を作成する手段を備えることを 特徴とする請求項 25に記載の通信システム。
[30] 前記通信端末は、前記端末音声処理言語情報作成手段で作成した前記音声処理 用の言語情報と、前記サーバ音声処理言語情報作成手段で作成した少なくとも一つ の前記音声処理用の言語情報とを合成し、前記音声処理手段で用いられる言語情 報を作成する音声処理言語情報統合手段をさらに備えることを特徴とする請求項 28 に記載の通信システム。
[31] 通信端末が、
前記通信端末の外部力 第 2のプログラム及び第 2のデータの少なくとも一方を受 信する工程と、
前記第 2のプログラム及び前記第 2のデータの少なくとも一方を用いて、前記通信 端末で行われる音声処理と、前記通信端末に予め記憶されている第 1のプログラム 及び第 1のデータの少なくとも一方とを連携動作させる制御を行う工程と
を備えることを特徴とする音声処理方法。
[32] 受信した前記第 2のプログラム及び前記第 2のデータを記憶手段に記憶する工程 をさらに備えることを特徴とする請求項 31に記載の音声処理方法。
[33] 前記通信端末で行われる前記音声処理は、音声認識及び音声合成の少なくとも一 方であることを特徴とする請求項 31に記載の音声処理方法。
[34] 前記第 1のプログラム及び第 1のデータのそれぞれは、前記通信端末上で予め定 められた機能を実現するためのプログラム及びデータであり、
前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び 前記第 1のデータの少なくとも一方と、前記音声処理との連携の仕方を規定するプロ グラム及びデータであり、 前記制御を行なう工程は、前記第 2のプログラム及び前記第 2のデータの少なくとも 一方に加えて、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を 用いて、前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも 一方による前記機能とを、互いに連携動作させる制御を行う工程を備える
ことを特徴とする請求項 31に記載の音声処理方法。
[35] 前記制御を行なう工程は、前記第 2のプログラムを起動し、起動された前記第 2のプ ログラムによって前記第 1のプログラムを呼び出し、前記音声処理と、前記第 1のプロ グラムとを連携動作させる工程を備えることを特徴とする請求項 34に記載の音声処 理方法。
[36] 前記制御を行なう工程は、前記第 2のプログラムを起動し、起動された前記第 2のプ ログラムによって前記第 1のデータを用い、前記音声処理と、前記第 1のデータとを連 携動作させる工程を備えることを特徴とする請求項 34に記載の音声処理方法。
[37] 前記第 2のプログラムは、音声処理用の言語情報を作成する手順を規定した第 3の プログラムを含み、
前記第 3のプログラムを起動する工程と、
起動された前記第 3のプログラムによって前記第 1のプログラム及び前記第 1のデ ータの少なくとも一方を用い、前記音声処理に用いられる言語情報を作成する工程 と、
作成された前記言語情報を用いて前記音声処理を行う工程と
をさらに備えることを特徴とする請求項 31に記載の音声処理方法。
[38] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現 するためのプログラム及びデータであり、
前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び 前記第 1のデータの少なくとも一方と、前記音声処理手段による前記音声処理との連 携の仕方を規定する第 4のプログラム及び第 4のデータを含み、
前記制御する工程は、前記第 4のプログラム及び前記第 4のデータの少なくとも一 方を用いて、前記音声処理と、前記第 1のプログラム及び前記第 1のデータの少なく とも一方による前記機能とを、互いに連携動作させる制御を行う工程を備える ことを特徴とする請求項 37に記載の音声処理方法。
[39] 前記通信端末と通信接続するサーバが、前記第 2のプログラム及び前記第 2のデ ータを前記通信端末に送信する工程をさらに備えることを特徴とする請求項 31に記 載の音声処理方法。
[40] 前記通信端末が、音声処理用の言語情報の作成に必要な情報を前記サーバに送 信する工程と、
前記サーバが、前記情報を受信し、音声処理用の言語情報を作成する工程と、 前記サーバが、作成した前記音声処理用の言語情報を前記通信端末に送信する 工程と、
前記通信端末が、前記音声処理用の言語情報を受信し、前記音声処理を行うェ 程と
をさらに備えることを特徴とする請求項 39に記載の音声処理方法。
[41] 前記通信端末が、前記第 1のプログラム及び前記第 1のデータの少なくとも一方を 用いて、音声処理用の言語情報を作成する工程をさらに備えることを特徴とする請求 項 31に記載の音声処理方法。
[42] 前記第 1のプログラム及び前記第 1のデータのそれぞれは、辞書、文法及び言語モ デルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータである ことを特徴とする請求項 41に記載の音声処理方法。
[43] 前記言語情報を作成する工程は、前記第 1のプログラム及び前記第 1のデータの 少なくとも一方に加えて、さらに前記第 2のプログラム及び前記第 2のデータの少なく とも一方を用いて、前記音声処理用の言語情報を作成する工程を備えることを特徴 とする請求項 42に記載の音声処理方法。
[44] 前記第 2のプログラム及び前記第 2のデータのそれぞれは、辞書、文法及び言語モ デルのうちの少なくとも一つを含む言語情報を生成するプログラム及びデータである ことを特徴とする請求項 43に記載の音声処理方法。
[45] 前記制御する工程は、前記音声処理用の言語情報を用いて、前記第 1のプロダラ ム及び前記第 1のデータの少なくとも一方と、前記第 2のプログラム及び前記第 2のデ ータの少なくとも一方と、前記音声処理とを連携動作させる工程を備えることを特徴と する請求項 43に記載の音声処理方法。
[46] 前記通信端末が、
前記通信端末の外部力 音声処理用の言語情報を少なくとも一つ受信する工程と 前記言語情報を作成する工程で作成した前記音声処理用の言語情報と、前記受 信する工程で受信した前記音声処理用の言語情報とを合成し、音声処理用の言語 情報を作成する工程と
をさらに備えることを特徴とする請求項 41に記載の音声処理方法。
[47] 受信する前記音声処理用の言語情報は、前記通信端末と通信接続する少なくとも 一つのサーバで作成され前記サーノから転送されることを特徴とする請求項 46に記 載の音声処理方法。
[48] 前記制御する工程は、前記合成する工程で作成した前記音声処理用の言語情報 を用いて、前記第 1のプログラム及び前記第 1のデータの少なくとも一方と、前記第 2 のプログラム及び前記第 2のデータの少なくとも一方と、前記音声処理とを連携動作 させる工程を備えることを特徴とする請求項 46に記載の音声処理方法。
[49] 通信端末を構成するコンピュータに、
音声認識及び音声合成の少なくとも一方の音声処理を行なう機能と、
前記通信端末に予め記憶されている第 1のプログラム及び第 1のデータの少なくと も一方に基づいて音声処理用の言語情報を作成する機能と、
受信した第 2のプログラム及び第 2のデータの少なくとも一方により、前記音声処理 と、前記第 1のプログラム及び前記第 1のデータの少なくとも一方とを、互いに連携動 作させる制御を行う機能と
を実現させるためのプログラム。
[50] 前記コンピュータに、
前記第 1のプログラム及び前記第 1のデータの少なくとも一方を記憶する機能と、 前記通信端末の外部力 前記第 2のプログラム及び前記第 2のデータの少なくとも 一方を受信する機能と、
受信した前記第 2のプログラム及び前記第 2のデータの少なくとも一方を記憶する 機能と
をさらに実現させるための請求項 49に記載のプログラム。
[51] 前記コンピュータに、
前記第 1のプログラム及び前記第 1のデータの少なくとも一方に加えて、さらに前記 第 2のプログラム及び前記第 2のデータの少なくとも一方に基づいて、前記音声処理 用の言語情報を作成する機能
を実現させるための請求項 49に記載のプログラム。
[52] 前記コンピュータに、
前記音声処理用の言語情報を用いて、前記第 1のプログラム及び前記第 1のデー タと、前記第 2のプログラム及び前記第 2のデータと、前記音声処理とを、互いに連携 動作させる制御を行う機能
を実現させるための請求項 51に記載のプログラム。
[53] 前記コンピュータに、
少なくとも 1つのサーバから音声処理用の言語情報を受信する機能と、 前記通信端末内で作成した前記音声処理用の言語情報と、受信した前記音声処 理用の言語情報とを合成する機能と
をさらに実現させるための請求項 49に記載のプログラム。
[54] 予め定められた所定の処理を行う処理手段と、
第 1のプログラム及び第 1のデータの少なくとも一方を記憶する第 1の記憶手段と、 第 2のプログラム及び第 2のデータの少なくとも一方を記憶する第 2の記憶手段と、 前記第 2のプログラム及び前記第 2のデータの少なくとも一方を用いて、前記処理 手段による前記処理と、前記第 1のプログラム及び前記第 1のデータの少なくとも一 方とを連携させる制御手段と
を備えることを特徴とする電子装置。
[55] 前記第 1のプログラム及び第 1のデータのそれぞれは、予め定められた機能を実現 するためのプログラム及びデータであり、
前記第 2のプログラム及び第 2のデータのそれぞれは、前記第 1のプログラム及び 前記第 1のデータの少なくとも一方と、前記処理手段による前記処理との連携の仕方 を規定するプログラム及びデータであり、
制御手段は、前記第 2のプログラム及び前記第 2のデータの少なくとも一方に加え て、さらに前記第 1のプログラム及び前記第 1のデータの少なくとも一方を用いて、前 記処理手段による前記処理と、前記第 1のプログラム及び前記第 1のデータの少なく とも一方による前記機能とを、互いに連携動作させる制御を行う
ことを特徴とする請求項 54に記載の電子装置。
[56] 外部から前記第 2のプログラム及び前記第 2のデータの少なくとも一方を受信する 受信手段をさらに備え、
前記第 2の記憶手段は、受信した前記第 2のプログラム及び前記第 2のデータを記 憶する
ことを特徴とする請求項 54に記載の電子装置。
[57] 前記処理手段は、音声認識及び音声合成の少なくとも一方の音声処理を行う音声 処理手段であることを特徴とする請求項 54に記載の電子装置。
PCT/JP2005/004981 2004-03-18 2005-03-18 音声処理方法と通信システム並びに通信端末およびサーバとプログラム WO2005091274A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-079081 2004-03-18
JP2004079081A JP2007256297A (ja) 2004-03-18 2004-03-18 音声処理方法と通信システム並びに通信端末およびサーバとプログラム

Publications (1)

Publication Number Publication Date
WO2005091274A1 true WO2005091274A1 (ja) 2005-09-29

Family

ID=34993935

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/004981 WO2005091274A1 (ja) 2004-03-18 2005-03-18 音声処理方法と通信システム並びに通信端末およびサーバとプログラム

Country Status (2)

Country Link
JP (1) JP2007256297A (ja)
WO (1) WO2005091274A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257055A (ja) * 2006-03-20 2007-10-04 Fujitsu Ltd 読上げ情報登録装置、その方法、そのプログラム及び携帯端末装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5493537B2 (ja) * 2009-07-24 2014-05-14 富士通株式会社 音声認識装置、音声認識方法及びそのプログラム
JP6009396B2 (ja) * 2013-04-24 2016-10-19 日本電信電話株式会社 発音付与方法とその装置とプログラム
KR20180101063A (ko) 2017-03-03 2018-09-12 삼성전자주식회사 사용자 입력을 처리하는 전자 장치 및 그 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148176A (ja) * 1998-11-18 2000-05-26 Sony Corp 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム
JP2002132639A (ja) * 2000-10-25 2002-05-10 Adgrams Inc 言語データ送信システム及び方法
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
WO2002088880A2 (en) * 2001-04-27 2002-11-07 Accenture Llp Location-based services
JP2003044091A (ja) * 2001-07-31 2003-02-14 Ntt Docomo Inc 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP2003091412A (ja) * 2001-09-18 2003-03-28 Hcx:Kk ドキュメント処理装置およびドキュメント処理方法
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ
JP2003271183A (ja) * 2002-03-19 2003-09-25 Sharp Corp 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2004037953A (ja) * 2002-07-04 2004-02-05 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148176A (ja) * 1998-11-18 2000-05-26 Sony Corp 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム
JP2002132639A (ja) * 2000-10-25 2002-05-10 Adgrams Inc 言語データ送信システム及び方法
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
WO2002088880A2 (en) * 2001-04-27 2002-11-07 Accenture Llp Location-based services
JP2003044091A (ja) * 2001-07-31 2003-02-14 Ntt Docomo Inc 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP2003091412A (ja) * 2001-09-18 2003-03-28 Hcx:Kk ドキュメント処理装置およびドキュメント処理方法
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ
JP2003271183A (ja) * 2002-03-19 2003-09-25 Sharp Corp 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2004037953A (ja) * 2002-07-04 2004-02-05 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257055A (ja) * 2006-03-20 2007-10-04 Fujitsu Ltd 読上げ情報登録装置、その方法、そのプログラム及び携帯端末装置
JP4749902B2 (ja) * 2006-03-20 2011-08-17 富士通株式会社 読上げ情報登録装置、その方法、そのプログラム及び携帯端末装置

Also Published As

Publication number Publication date
JP2007256297A (ja) 2007-10-04

Similar Documents

Publication Publication Date Title
US20220221959A1 (en) Annotations in software applications for invoking dialog system functions
KR102189855B1 (ko) 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성
CA3023918C (en) Using context information to facilitate processing of commands in a virtual assistant
CA2793741C (en) Disambiguation based on active input elicitation by intelligent automated assistant
US7421390B2 (en) Method and system for voice control of software applications
JP4651613B2 (ja) マルチメディアおよびテキストエディタを用いた音声起動メッセージ入力方法および装置
KR20200013152A (ko) 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US8725492B2 (en) Recognizing multiple semantic items from single utterance
TW201239652A (en) Location-based conversational understanding
JP2002125050A (ja) 音声通訳サービス方法および音声通訳サーバ
CN102737096A (zh) 基于位置的会话理解
KR20120066523A (ko) 음성 인식 방법 및 이를 위한 시스템
CN105989840A (zh) 自然语言语音服务环境中的混合处理的系统及方法
CN105336326A (zh) 用于使用上下文信息的语音识别修复的方法和系统
JP2004288018A (ja) 対話制御システム及び方法
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
US20210327424A1 (en) Electronic device and method for executing task corresponding to shortcut command
JP2005031758A (ja) 音声処理装置及び方法
WO2005091274A1 (ja) 音声処理方法と通信システム並びに通信端末およびサーバとプログラム
JP2001268669A (ja) 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP2006344039A (ja) 電子メール装置、および、プログラム
Dasgupta et al. VoiceMail architecture in desktop and mobile devices for the Blind people
Seneff et al. Exploiting context information in spoken dialogue interaction with mobile devices
CN103428363A (zh) 提供改进的语音激活功能的方法和装置
JP2022184102A (ja) 情報提供方法、データベースの生成方法、およびプログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP