WO2001080020A1 - Apparatus for transmitting and receiving voice message, method of manufacture thereof, relay device, method of transmitting, receiving and relaying, and recording medium - Google Patents

Apparatus for transmitting and receiving voice message, method of manufacture thereof, relay device, method of transmitting, receiving and relaying, and recording medium Download PDF

Info

Publication number
WO2001080020A1
WO2001080020A1 PCT/JP2001/002332 JP0102332W WO0180020A1 WO 2001080020 A1 WO2001080020 A1 WO 2001080020A1 JP 0102332 W JP0102332 W JP 0102332W WO 0180020 A1 WO0180020 A1 WO 0180020A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
text file
transmitting
receiving
document
Prior art date
Application number
PCT/JP2001/002332
Other languages
French (fr)
Japanese (ja)
Inventor
Kenichi Ohmae
Original Assignee
Kenichi Ohmae
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenichi Ohmae filed Critical Kenichi Ohmae
Priority to AU2001242768A priority Critical patent/AU2001242768A1/en
Publication of WO2001080020A1 publication Critical patent/WO2001080020A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/066Format adaptation, e.g. format conversion or compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Definitions

  • the present invention relates to an audio document transmitting apparatus, a transmitting method, a receiving apparatus, a receiving method, a method of manufacturing a transmitting apparatus receiving apparatus, a maintenance apparatus, a relay method, and a recording medium, and particularly, to efficiently transmit an audio document in a short time.
  • TECHNICAL FIELD The present invention relates to a transmitting device, a transmitting method, a receiving device, a receiving method, a method of manufacturing a transmitting device, a relay device, a relay method, and a recording medium that can perform transmission.
  • voice has been transmitted to a remote location by means of transmitting the voice as it is, such as by telephone, or by transmitting voice data to a remote location via the Internet.
  • the transmitting device since the spoken word is transmitted in real time over the telephone, the transmitting device is occupied during the conversation and the amount of data to be transmitted is large, so the telephone charge is reduced. It was expensive and won. Also, when transmitting voice data over the Internet, the amount of voice data was large, so the burden on the Internet equipment was increased, and this was a win.
  • an object of the present invention is to provide a transmitting apparatus, a transmitting method, a receiving apparatus, a receiving method, a relay apparatus, a relay method, and a recording medium of a voice document with reduced data amount.
  • Voice document transmission apparatus ⁇ 0 0 is a so-called voice mail transmitting device, for example, Remind as in FIG. 1, a voice input device 1 0 1 for inputting document by voice; Recognizes the voice input by the voice input device 101 and converts it to text.
  • a transmission mechanism 104 for transmitting the mixed data.
  • the fact that the speech recognition mechanism 107 did not convert to a text file typically means that the speech recognition mechanism 107 did not recognize the text file. Considering this, the case may be such that the input is made from the input device 101. The same applies to the voice document transmission method described below.
  • the text file converted by the voice recognition mechanism and the voice file including the voice document that could not be converted to the text file because it could not be recognized by the voice recognition mechanism were mixed. Since a transmission mechanism is provided for transmitting data, all or a part of the audio file can be transmitted as a text file having a small data load. When all audio files can be converted to text files, the transmission mechanism may of course transmit only text files.
  • a voice file creation mechanism that converts voice that could not be recognized as a text file by the voice recognition mechanism into a voice file may be provided.
  • the transmitting mechanism 104 may further include a setting mechanism 109, and the transmitting mechanism 104 may be configured to mix and transmit the identifiers of the example sentences.
  • the example sentence identifier may be a symbol, a character, or a code using a number, or may be image data such as an icon or a picture.
  • the voice recognition mechanism 107 may be configured to refer to the voice profile.
  • a voice profile is a representation of the sound quality, language structure, etc. of the voice, such as gender, age, the place of origin representing the language structure, such as the speaker's dialect (displays Japanese, English, or a dialect), the period of inflection Before or after, whether or not you have a cold, etc.
  • a parameterized version of these may be used as a profile.
  • the voice profile may be detected by analyzing the input voice, or may be detected by the voice input person inputting his / her gender, age, etc. using an input device such as a keyboard. Is also good.
  • the sending mechanism also sends the profile to a text file. It may be configured to be transmitted together with.
  • the configuration of referring to the voice profile improves the accuracy of voice recognition.
  • the profile is sent together with the text file, the reproducibility and conversion accuracy when reproducing the audio file from the text file on the receiving side are improved.
  • the voice document transmitting method according to the embodiment of the present invention is a so-called voice electronic mail transmitting method, and transmits a voice document using the voice document transmitting apparatus as described above.
  • a voice document transmitting method is a so-called voice e-mail transmitting method, and includes a voice input step of inputting a voice document; and a voice input step of recognizing voice input in the voice input step.
  • a voice recognition step of converting to a text file; and a text file converted in the voice recognition step and a voice file including a voice document which has not been converted to a text file in the voice recognition step. And a transmitting step.
  • a transmission step of transmitting the text file and the audio file in a mixed manner is provided, so that all or a part of the audio file can be transmitted as a text file having a small data amount.
  • the voice document transmitting method further includes an example sentence identification step of converting the voice input in the voice input step into an identifier of a pre-registered example sentence.
  • the transmitting step includes transmitting the identifiers of the example sentences in a mixed manner.
  • the example sentence identification step is used, and the transmission step further transmits the identifier of the example sentence, so that the amount of data to be transmitted is smaller than that of the text file. It becomes possible.
  • the voice recognition step may be configured to recognize voice by referring to the voice profile.
  • the voice profile may be detected by analyzing the input voice, or may be detected by a voice input person inputting his / her gender, age, etc. using an input device such as a keyboard. Good.
  • the method may include a step of transmitting the profile together with the audio text file. With this configuration, the voice profile is referenced so that the accuracy of voice recognition is improved.When the profile is transmitted together with the text file, the audio file is transmitted from the text file on the receiving side. Reproducibility when reproducing files is improved.
  • a method of manufacturing a voice document transmitting apparatus includes: voice input processing for inputting a voice document; voice recognition processing for recognizing voice input in the voice input processing and converting the voice into a text file. Transmitting a text file converted by the voice recognition processing and a voice file including a voice document that has not been converted to a text file by the voice recognition processing;
  • a program for controlling the device is provided to the transmitting device, and is configured as a voice document transmitting device.
  • the transmitting device is typically a computer such as a personal computer, and the program is typically provided via a network such as the Internet and downloaded by a user.
  • a program for controlling the transmitting device is provided to the transmitting device such as a combi- ter through communication means such as the Internet.
  • a general-purpose computer is used as the voice document transmitting device. Can be configured.
  • a recording medium readable by the voice document transmitting device includes: voice input processing for inputting a voice document; and recognizing voice input in the voice input processing.
  • a voice recognition process for converting the text file into a text file, and a text file converted in the voice recognition process and a voice file including a voice document not converted to a text file in the voice recognition process.
  • a program for controlling the voice document transmitting device is stored so as to perform a transmitting process to be transmitted. With this configuration, the program stored in the recording medium is installed as, for example, a personal computer which is used as a voice document transmitting device, so that the personal computer has a predetermined transmitting function as a voice document transmitting device. be able to.
  • a voice document receiving apparatus 200 is a so-called voice electronic mail receiving apparatus, and receives a signal including a text file as shown in FIG. 2, for example.
  • Receiving mechanism 203 for decoding the signal received by the receiving device 203; and converting the text file decoded by the decoding device 206 to voice.
  • An audio conversion mechanism 207 is provided.
  • a text file decrypted by the decryption mechanism is provided with a voice conversion mechanism, and a document transmitted and received in a text file with a small amount of data can be output as voice.
  • an output device 201 may be provided which outputs the voice converted by the voice conversion mechanism as voice, but the output device 201 outputs the voice as well as a decrypted text file. It may be configured so that it can be output as text as it is. In this case, it is possible to output as audio, output as a text document, or output format as desired.
  • the signal received by the receiving device 200 may include the identifier of the example sentence, and may further include an audio file.
  • the output is converted to one of two formats: speech or text.
  • the voice document receiving device 200 may have the function of the voice document transmitting device 100, and in this case, it can be used as a voice document transmitting / receiving device.
  • a sender can change positions and become a recipient. Therefore, it is preferable that the terminal device has both a transmission function and a reception function.
  • a voice document receiving method receives a voice document using the voice document receiving apparatus.
  • a voice document receiving method includes: a receiving step of receiving a signal including a text file; a decoding step of decoding the signal received in the receiving step; and a text file decoded in the decoding step.
  • the voice converted by the voice of step c is found and a speech step of converting the voice may include an audio output step of outputting as a voice.
  • the signal received in the receiving step may include an example sentence identifier, and may further include an audio file. In any case, the output is converted to the audio format.
  • the decrypted text file may be output as it is. At this time, the user can output a sound, a text document, or select an output format as desired.
  • a method for manufacturing a voice document receiving apparatus 200 includes: a receiving process of receiving a signal including a text file; and a decoding process of the signal received in the receiving process.
  • the receiving device is typically a computer such as a personal computer, and the program is typically provided through a network such as the Internet and downloaded by a user.
  • a program for controlling the receiving device is provided to the receiving device such as a computer via a communication means such as the Internet.
  • a general-purpose computer is used as the voice document receiving device. Can be configured.
  • a recording medium readable by the voice document receiving device includes: a receiving process for receiving a signal including a text file; and a decoding process for decoding the signal received in the receiving process. And a voice processing for converting a text file included in the signal decrypted by the decryption processing into a voice; and storing a program for controlling the voice document receiving apparatus.
  • the voice document receiving device can have a predetermined receiving function.
  • the voice document relay device 300 is a so-called voice mail relay device, and for example, as shown in FIG. 3, a receiving mechanism 3 for receiving a signal including a text file and a voice file. And a voice recognition mechanism 309 for converting a voice file in a signal received by the receiving mechanism 307 into a text file; and a text file and a voice recognition mechanism 309 received by the receiving mechanism 307.
  • a text file transmitting mechanism 307 for transmitting the converted text file together is provided.
  • a receiving mechanism and a transmitting mechanism a mechanism or a device having a ⁇ function is used as a communication interface.
  • a decoding mechanism 303 for decoding the received signal before converting it into a text file by a speech recognition mechanism.
  • the signal received by the receiving mechanism 307 may include the identifier of the example sentence.
  • an example sentence identifier or a text file of the text example sentence is also transmitted.
  • a voice document relay method relays a voice document using the voice document relay device.
  • a voice document relay method is a so-called voice electronic mail relay method, and a receiving step of receiving a signal including a text file and a voice file; a voice file in the signal received in the receiving step; A text file converting step of converting the text file into a text file; and a text file transmitting step of transmitting the text file received in the receiving step and the text file converted in the text converting step together.
  • a text conversion step is provided to convert the audio file in the signal received in the reception step into a text file.
  • FIG. 1 is a block diagram illustrating a configuration example of a transmission device according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a configuration example of a receiving device according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration example of the relay device according to the embodiment of the present invention.
  • FIG. 4 is a conceptual diagram showing a state in which a voice electronic mail transmitting device, a receiving device, and a relay device are connected via a network.
  • FIG. 5 is a flowchart showing an example of a process when transmitting a voice electronic mail.
  • FIG. 6 is a flowchart showing a continuation of FIG.
  • FIG. 7 is a diagram illustrating an example of a screen displayed in a process of inputting a transmission voice electronic mail in the transmission device.
  • FIG. 8 is a diagram illustrating an example of a format of a packet transmitted by the transmission device.
  • FIG. 9 is a flowchart showing an example of processing performed by the relay device for voice electronic mail. .
  • FIG. 10 is a flowchart showing an example of a process when the receiving device receives an e-mail bucket.
  • FIG. 11 is a flowchart showing a continuation of FIG. 10.
  • FIG. 12 is a flowchart showing an example of processing at the time of reception when the contents of the received bucket are all text files.
  • FIG. 13 is a flowchart showing an example of the processing of each device when the voice of the sender is profiled and the receiving device converts the voice based on the profiling.
  • FIG. 14 is a flowchart showing a continuation of FIG. 13. BEST MODE FOR CARRYING OUT THE INVENTION
  • the transmitting device shown in FIG. 1 is a voice document transmitting device 100 that transmits voice e-mail via a network such as the Internet.
  • the transmitting device 100 is a dedicated device, but is not limited thereto.
  • IC integrated circuit, LSI May be incorporated in a mobile phone or a bath computer equipped with.
  • a document when referring to a voice document transmission device, a document generally represents a person's thought in characters, but here it is sufficient if it can be represented by characters, and it does not necessarily take the form of characters. You may. For example, it may be expressed by a verbal sound without passing through characters.
  • the transmitting device 100 includes an input device 101 for inputting the voice of the sender and an output device 102 for reproducing the input voice and displaying operation instructions to the sender.
  • the input device 101 is, for example, a microphone
  • the output device 102 is, for example, a speaker as an audio output device, and a display or a printer as a visual output device.
  • the transmission device 1 • 0 further includes an IZO interface unit 103 that controls the input device 101 and the output device 102.
  • a communication interface unit 104 is provided as a transmission mechanism for transmitting / receiving an e-mail by connecting to another transmission / reception device via a network.
  • control unit 105 connected to an IZO interface: I03 and a communication interface 104 for sending and receiving e-mails and controlling the entire apparatus.
  • the control unit 105 includes an operation instruction mechanism 106 for performing an operation command and its management, and recognizes a text sent by voice, dictates and documents it, and creates a text file.
  • a transmission bucket creation mechanism 110 is included.
  • the storage unit 111 is further connected to the control unit 105.
  • the storage unit 111 stores example sentences D ⁇ (database) that stores registered example sentences in association with example sentence identifiers corresponding to each example sentence, and various types of people (gender, age, hometown, etc.). It has a voice DB that stores the voice data of) and has a database, and a language DB that holds the language data. Speech DB and language D ⁇ are D D groups necessary for speech recognition.
  • the example sentence identifier may be an image data such as an icon or a picture, in addition to a symbol or a character code.
  • the set example sentence is put on the transmission packet in the form of an identifier.
  • the present invention is not limited to this, and may be placed in the form of a text file.
  • the input voice file is converted into a text file as much as possible by the voice recognition mechanism 107, but the unrecognizable portion is directly put on the transmission packet as a voice file.
  • the device shown in FIG. 2 is a voice document receiving device 200 for receiving an electronic mail via a network.
  • the receiving device 200 is a dedicated device, but is not limited thereto, and may be a device incorporated in a mobile phone, a personal computer, or the like having an IC (which may be an integrated circuit or an LSI).
  • the receiving device 200 is provided with an output device 201 for reproducing the received mail by voice and displaying an operation instruction to a recipient.
  • the output device 201 is, for example, a speaker as an audio output device, or a display as a visual output device.
  • the receiving device 200 further includes an I / O interface unit 202 that controls the output device 201.
  • a communication interface unit 203 is provided as a receiving mechanism for transmitting and receiving e-mails by connecting to another transmission / reception device via a network.
  • a control unit 204 is connected to the IZO interface 202 and the communication interface 203 and performs transmission and reception of mail and control of the entire apparatus.
  • the control unit 204 has a mixture of an operation instruction mechanism 205 for operating instructions and their management, and three types of text files, audio files, and example sentences (one to three of the three types).
  • a packet deciphering mechanism 206 that decomposes received packets into various formats and deciphers them, and a voice deciphering mechanism 200 that verifies received mail texts are included.
  • the control unit 204 is further connected to a storage unit 208.
  • the storage unit 208 stores an example sentence DB that stores registered example sentences and audio data of various types of people (gender, age, hometown, etc.) and creates a database. I have it.
  • the example sentence DB and the voice DB in the storage unit 208 are stored in the storage unit 1 1 on the transmission device side, respectively. 1 corresponds to the example sentence DB and the voice DB. Alternatively, use the same DB. Therefore, when the text file or the example sentence identifier is vocalized on the receiving side, the voice can have the same content as or close to the content on the transmitting side.
  • the device shown in FIG. 3 is a voice document keeping device 300 for relaying voice email transmission and reception.
  • the media device 300 is configured by a personal computer and a workstation.
  • the relay device 300 is provided with a control unit 301 for sending and receiving mails and controlling the entire device, and includes the following mechanism.
  • the operation instruction mechanism 302 performs an operation instruction and its management.
  • the packet decryption mechanism 303 decomposes a received packet in which one to three of the three formats of text files, audio files, and example sentences are mixed.
  • the voice recognition mechanism 304 further dictates and documents the voice file part (the part that could not be dictated by the transmitting device) of the received packet, and documents the text file. create. .
  • the voice recognition mechanism 304 here is configured to have higher performance than the voice recognition mechanism 107 in the transmission device 100. Therefore, audio data that could not be converted to a text file by the transmitting device 100 can also be converted to text data.
  • the transmission bucket creating mechanism 305 collects a text file, an example sentence, or any one existing in one mail into a single packet.
  • the control unit 301 is connected to a storage unit 306, which stores voice data of various types of people (gender, age, hometown, etc.) and creates a database of voice data. It has a DB and a language DB that holds language data.
  • the example sentence DB and the voice DB in the storage unit 303 are provided in the storage unit 111 on the transmission device side or the reception device 200, respectively, as described in the case of the reception device 200. Corresponding to the example sentence DB and the voice DB.
  • a communication interface unit 307 is connected to the control unit 301, and the relay unit 300 is connected to a network to transmit and receive mail.
  • an electronic mail transmitting device 401 and an electronic mail receiving device 4 The relationship between 02 and the electronic mail transmitting / receiving device (relay device) 4 ⁇ 03 will be described. These devices are connected via a network 404.
  • the network 404 is a public line such as an Internet telephone line, for example.
  • the route connecting the e-mail transmitting device 401 and the e-mail receiving device 402 includes a route directly connecting each device via the network 404 and an e-mail transmitting / receiving device. (Relay device) There are two routes that relay 403 between them.
  • the transmission device 401 and the reception device 402 perform transmission and reception specially like the transmission device 100 described in FIG. 1 and the reception device 200 described in FIG. 2, respectively. Although they are separate devices, the present invention is not limited to this, and a device in which a transmitting device 100 and a receiving device 20 0,0 exist in one device so that both transmitting and receiving can be performed may be used.
  • the e-mail transmitting / receiving device (relay device) 400 3 for example, the relay device 300 described with reference to FIG. 3 is used.
  • a program that allows a personal computer to have the function of a voice e-mail transmission device is stored.
  • a computer-readable recording medium such as an FD or CD-ROM 405 stores the program therein. Install the installed program on the personal computer.
  • a personal computer to be the transmitting device 401 is equipped with a recording medium driving device.
  • a computer-readable recording medium such as an FD or CD-ROM 406 which stores a program for causing a personal computer to have a function as a voice electronic mail receiving device
  • the program is stored therein.
  • the personal computer to be the receiving device 402 is equipped with a recording medium driving device.
  • the program can be installed from the server on the provider side via a network 404 such as a telephone line internet.
  • a general-purpose computer may be configured as the transmitting / receiving device 401 or the receiving device 402 or a transmitting / receiving device having both functions.
  • Step 500 an example of a process when the content (text) of an e-mail is input by voice and transmitted will be described. As long as the sender does not finish inputting the e-mail, the processing from step 501 will be started. Step 500).
  • the sender determines whether to enter the mail text by himself or to select from pre-registered example texts (step 501). If you want to enter it yourself, input the e-mail text by voice (step 502). Then, the voice recognition mechanism 107 in the transmission device determines whether or not the input voice can be recognized (step 503). If voice recognition is possible, dictate the input voice and create a text file (step 504).
  • the created text files are sequentially stored in the transmission bucket (step 505), and the process returns to step 550. If it is determined that the speech cannot be recognized, the speech file creation mechanism 108 creates a speech file of the portion (step 506). The created audio files are sequentially stored in the transmission packet (step 507), and the process returns to step 509.
  • step 501 if it is determined that a message is created using an example sentence registered in the example sentence DB in advance, the sender sends a command to the device to select an example sentence ( Step 5 08).
  • the example sentence setting mechanism 109 receives this instruction (step 509), and displays the example sentence group registered in the example sentence DB in the storage unit 111 on the output device 102 such as a display. (Step 5 10).
  • the sender verbally inputs an identifier (example sentence number, word included in the example sentence, keyword, etc.) that identifies the example sentence to be used by referring to the displayed information (step 51). 1). Then, the voice recognition mechanism 107 determines whether or not the input voice can be recognized (step 512). If it is determined that speech recognition is not possible (step 5 12), a message prompting re-entry is displayed (step 5 13), and the sender is again asked to input the example sentence identifier (step 5). 1 1).
  • an identifier example sentence number, word included in the example sentence, keyword, etc.
  • the sentence-transmitted example sentence identifier is transmitted to the example sentence setting mechanism 109 (step 514).
  • the example sentence setting mechanism 109 searches for an example sentence from this identifier (step 515). If there is no corresponding example sentence (step 5 16), an error message is displayed (step 5 17). If there is a corresponding example sentence (step 5 16), the example sentence is displayed or played back (step 5 18).
  • the sender confirms the selected example sentence of the device (step 5 19)
  • the confirmed The identification numbers of the example sentences are sequentially stored in the transmission packet (step 502), and the process returns to step 500. If the sender is not confirmed, the example sentence setting mechanism selects another example sentence again (return to step 515).
  • step 500 When the sender completes the input of the e-mail message (step 500), one of the transmission buckets (text file, audio file, or example sentence identification number) created by the processing up to this point is performed. And the three forms are mixed) to complete it (Step 5 2 1).
  • the transmission buckets text file, audio file, or example sentence identification number
  • the example screen 600 is an example of a screen in which the sender selects whether to create an e-mail message by inputting it yourself or to select and create an e-mail message from pre-registered example sentences. If the sender selects the method of inputting by himself, the input screen shown in screen example 61 is displayed, and the sender's words (eg, how are you) are displayed on the screen. If the method of creating an e-mail is selected by selecting an example sentence, a screen for selecting an example sentence is displayed.
  • Screen example 62 is an example in which a list of example sentence types is displayed.
  • the sender who wants to select the example sentence of “1.
  • Delivery S setting” has uttered a word (1, delivery date, etc.) that is the identifier of this item.
  • Screen example 603 is a screen on which an example sentence group of “1. Delivery date setting” is subsequently displayed.
  • the sender utters the identifier of the example (3, 10 or February 2, PM, etc.) that you also want to select.
  • a screen example 604 shows a state in which a mail sentence created by the selected example sentence is displayed. In other words, the specific sentence and the information of the morning and afternoon are woven into the example sentence. "Please change to February 20 (Tue.)."""I would like to specify the time zone.” This is the afternoon.
  • An example of the format of a packet transmitted by this device will be described with reference to FIG.
  • a packet is a mixture of one to three types of text files, audio files, and example sentence identification numbers.
  • Each file in the packet has a sequence tag indicating the sequence number in the packet, a file type tag indicating the type of file (text file or audio file example identification number), and a file length indicating the length of the file. It is stored after the tag.
  • the length of the file is represented, for example, by the number of bytes. Sequence tag, file type tag, file length tag, file (or example sentence identification number) No.), one set, and there are multiple sets from one set, and one packet.
  • the e-mail transmission device 100 stores a voice DB, which is a database obtained by sampling voices of various types of people (gender, age group, region, etc.), and a language DB that holds language data. It is held within 1 1.
  • the speech recognition mechanism 107 compares the input voice data with the voice DB data, performs matching, and performs language analysis using the language DB data to indicate the input voice. Finalize the sentence. In this case, since the data of the speech DB and the data of the language DB are referred to, speech recognition accuracy is significantly improved.
  • the e-mail packet created by the transmitting device 401 is transmitted and received via the network 404 as a relay e-mail. It is transmitted to the device (relay device) 403 or the receiving device 402 which is the final destination. If the packet to be transmitted contains a voice file (a part that cannot be recognized by the transmitting device), it is transmitted to the central device 403, which has a higher-performance voice recognition mechanism than the transmitting device 401. Is done. If the packet does not include an audio file, the packet may be transmitted via the relay device 403 or may be directly transmitted to the reception device 402.
  • Step 800 an example of processing in an e-mail transmitting / receiving device (relay device) that has received a packet including an audio file will be described in the case of the relay device 300 described in FIG. I do.
  • the packet decryption mechanism 303 in the relay device 300 repeats the processing from step 801, one by one (for each file or for each example sentence identification number) for the contents of the received packet. (Step 800).
  • step 801 it is determined whether one file (or one example sentence identification number) stored in the packet is a voice file (step 801). If it is not an audio file, it is either a text file or an identification number as an example identifier. These are stored as they are in the packet for transmission (step 802), and the process returns to step 800.
  • an audio file it is dictated by the voice recognition mechanism 304,
  • the audio is converted to a text file (step 803).
  • the packet creation mechanism 305 stores the text file in the packet for transmission (step 804), and returns to step 800.
  • the transmission packet (text file, example sentence identification number, etc.) created by the processing up to this point is completed. Of the identifiers of which one or two formats are mixed) and complete (step 805). Thereafter, this packet is transmitted to the e-mail receiving device 200 that is the final destination.
  • the content of the packet of the e-mail received by the receiving device 200 as the final destination is a text file, an example sentence identification number, or a mixture of both. This is because the transmitted audio file has been converted into a text file by the relay device 300.
  • the recipient selects the ability to listen to the received e-mail by voice, or to view it visually (for example, to view it on a screen or print it out on a printer) (step 900).
  • the process in the case of selecting to listen by voice will be described first.
  • the packet decoding mechanism 206 in the receiving device 200 repeats the processing for the contents of the received packet one by one (for each file or for each example sentence identification number) until the end (step 9). 0 1).
  • one file (or one example sentence identification number) stored in the packet is a text file or an example sentence identification number (step 902).
  • the voice generator 207 voices the text sentence (step 905) and returns to step 901.
  • the example sentence is called from the example sentence DB in the storage unit 208 using the example sentence identification number as a key (step 903), and a text file of the corresponding example sentence is created (step 904).
  • the voice conversion mechanism 207 voices the text sentence (in this case, an example sentence) of the text file (step 905), and returns to step 901.
  • step 900 select the received e-mail by viewing it on the screen.
  • the processing in the case of the case will be described.
  • the packet decryption mechanism 206 in the receiving device 200 repeats the processing up to the end of the contents of the received packet one by one (for each file or for each example sentence identification number) (step 9). 0 6).
  • step 906 If it is a text file, return to step 906.
  • the example sentence identification number the example sentence is called from the example sentence DB using the example sentence identification number as a key (step 908), and a text file of the example sentence is created (step 909). Then, this text file is inserted into the location where the example sentence identification number was stored (step 910), and the process returns to step 906.
  • the completed text file is output to the screen (step 911), and the process ends.
  • the method of transmitting and receiving example sentences is as follows.
  • the contents of the example sentence may be transmitted and received in a text file format.
  • a text file of an example sentence is stored in the transmission packet.
  • the transmitted packet is a mixed type of text file and audio file.
  • the contents of the packets received by the receiving device 200 at the final destination are all in the text file format.
  • the recipient selects whether to listen to the received e-mail by voice or not to see it on the screen (step 100). If the user selects to listen by voice, the voice generator 207 voices the text sentence of the text file (step 1001). On the other hand, if it is selected to be viewed on the screen, a text file is output to the screen (step 1002). In this way, the output format can be selected as desired according to the recipient's preference and need. Referring to the series of flowcharts in FIGS.
  • FIGS. 13 and 14 show an example of the processing in the transmitting apparatus 100. This is almost the same as the flowcharts shown in FIGS. 5 and 6, except that the processing from step 503 to step 505 in FIG. Substitute, replace the processing from Step 5 1 2 to Step 5 1 4, replace Step 1 1 1 4 with Step 1 1 1, 8, and replace Step 5 2 0 in Figure 6 with Step 1 1 2 4 I have.
  • step 1103 the speech recognition mechanism 107 determines whether or not the orally input mail text can be recognized by speech. Deciding. If voice recognition is possible, if voice profiling has not been completed at that time (step 1104), voice profiling is performed here (step 1105).
  • input speech is classified into gender, age group, etc., while referring to speech DB which is a database obtained by sampling speech of various types of people (gender, age group, region, etc.).
  • speech DB is a database obtained by sampling speech of various types of people (gender, age group, region, etc.).
  • Step 1 124 processing is performed to store the selected example sentence number and the profile result in the transmission packet.
  • the processing in the receiving device 100 is such that step 905 of the flowchart shown in FIG. 10 is replaced with “speech the text sentence of the text file based on the voice profile”.
  • step 905 of the flowchart shown in FIG. 10 is replaced with “speech the text sentence of the text file based on the voice profile”.
  • Becomes The voice profiling classifies the input voice into gender, age group, etc. while referring to the voice DB, or the sender may directly input the voice. Processing can be omitted, and processing speed can be increased accordingly.
  • the profile result is stored together with the text file and transmitted. Therefore, the receiving device 200 that has received the profile uses the profiling result.
  • the sound can be reproduced by using this function, so the reproducibility of the sound is improved.
  • an audio file that has not been converted into text can be converted into text using the profiling result, so that the conversion accuracy can be increased.
  • the recognized speech is converted into at least a text file, and is mixed with the audio file and transmitted.
  • the example sentence identifier is also mixed and transmitted.
  • a text file may be combined with an image file.
  • at least one of the three files of the audio file, the example sentence identifier, and the image file is transmitted to the text file, and the data is relayed and received.
  • the text file document converted by the voice recognition mechanism and the voice file including the voice document not converted to the text file by the voice recognition mechanism are mixed and transmitted. Since a transmission mechanism is provided, it is possible to provide a transmission device capable of transmitting all or a part of an audio file in a text file with a reduced data amount.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Abstract

The invention provides a method and an apparatus for transmitting and receiving voice messages with reduced amount of data as well as a method and an apparatus for relaying such messages, and also provides a recording medium. A voice message transmitter comprises a voice input device (101) for receiving voice messages, a speech-recognition unit (107) for recognizing a voice message input through the voice input device (101) to convert it into a text file, and a transmitting unit (104) for transmitting the text file converted by the speech-recognition unit (107), together with the voice file including the voice message which has not been recognized as a text file by the speech-recognition unit (107). Compared with the transmission of a voice file alone, the amount of data to be transmitted is reduced because the voice file has converted in part to a text file.

Description

明 細 書 音声文書の送信、 受信装置、 装置の製造方法、 中継装置、 送信受信中継方法及び 記録媒体 技術分野  Description Voice document transmission / reception device, device manufacturing method, relay device, transmission / reception relay method, and recording medium
本発明は、 音声文書の送信装置、 送信方法、 受信装置、 受信方法、 送信装置受 信装置の製造方法、 中維装置、 中継方法及び記録媒体に関し、 特に短時間で効率 的に音声文書を伝達することのできる送信装置、 送信方法、 受信装置、 受信方法、 送信装置受信装置の製造方法、 中継装置、 中継方法及び記録媒体に関するもので ある。 背景技術  The present invention relates to an audio document transmitting apparatus, a transmitting method, a receiving apparatus, a receiving method, a method of manufacturing a transmitting apparatus receiving apparatus, a maintenance apparatus, a relay method, and a recording medium, and particularly, to efficiently transmit an audio document in a short time. TECHNICAL FIELD The present invention relates to a transmitting device, a transmitting method, a receiving device, a receiving method, a method of manufacturing a transmitting device, a relay device, a relay method, and a recording medium that can perform transmission. Background art
従来から音声を遠隔地に伝達するには、 電話のよ うに音声をそのまま送信する 手段を用いたり、 音声データをインターネッ トに乗せて遠隔地に送信することが 行われていた。  Conventionally, voice has been transmitted to a remote location by means of transmitting the voice as it is, such as by telephone, or by transmitting voice data to a remote location via the Internet.
以上のよ うな従来の方法によれば、 電話では、 話言葉をリアルタイムに送信す るので、 話をしている間中、 送信装置は占有され、 送信すべきデータ量も多く 、 そのため電話料金は高額になり勝ちであった。 またィンターネッ トで音声データ を送信する場合は、 音声データのデータ量が多いので、 インターネッ ト装置の負 担が大きく なり勝ちであった。  According to the conventional method as described above, since the spoken word is transmitted in real time over the telephone, the transmitting device is occupied during the conversation and the amount of data to be transmitted is large, so the telephone charge is reduced. It was expensive and won. Also, when transmitting voice data over the Internet, the amount of voice data was large, so the burden on the Internet equipment was increased, and this was a win.
そこで本発明は、 データ量を減縮した音声文書の送信装置、 送信方法、 受信装 置、 受信方法、 中継装置、 中継方法及び記録媒体を提供することを目的と してい る。 発明の開示 '  Therefore, an object of the present invention is to provide a transmitting apparatus, a transmitting method, a receiving apparatus, a receiving method, a relay apparatus, a relay method, and a recording medium of a voice document with reduced data amount. DISCLOSURE OF THE INVENTION ''
本発明の一つの実施態様による音声文書送信装置丄 0 0は、 いわゆる音声電子 メール送信装置であり、 例えば図 1 に示すよ う に、 音声による文書を入力する音 声入力装置 1 0 1 と ; 音声入力装置 1 0 1 で入力された音声を認識してテキス ト ファイルに変換する音声認識機構 1 0 7 と ; 音声認識機構 1 0 7で変換されたテ キス ト ファイルと、 音声認識機構 1 0 7でテキス トファイルに変換しなかった音 声文書を含む音声ファイルとを混在させて送信する送信機構 1 0 4 とを備える。 音声認識機構 1 0 7でテキス トフアイルに変換しなかったとは、 典型的には音 声認識機構 1 0 7でテキス トファイルに認識できなかった場合であるが、 送信者 が音声のまま送信したいと考えて、 そのよ うに入力装置 1 0 1 から入力した場合 であってもよい。 以下で説明する、 音声文書送信方法の場合も同様である。 Voice document transmission apparatus丄0 0 according to an exemplary embodiment of the present invention is a so-called voice mail transmitting device, for example, Remind as in FIG. 1, a voice input device 1 0 1 for inputting document by voice; Recognizes the voice input by the voice input device 101 and converts it to text. A voice recognition mechanism 107 for converting to a file; a text file converted by the voice recognition mechanism 107, and a voice file including a voice document not converted to a text file by the voice recognition mechanism 107. And a transmission mechanism 104 for transmitting the mixed data. The fact that the speech recognition mechanism 107 did not convert to a text file typically means that the speech recognition mechanism 107 did not recognize the text file. Considering this, the case may be such that the input is made from the input device 101. The same applies to the voice document transmission method described below.
このよ う に構成する と、 音声認識機構で変換されたテキス トファイルと、 音声 認識機構で認識できなかった等のためテキス トファイルに変換しなかった音声文 書を含む音声ファイルとを混在させて送信する送信機構を備えるので、 音声ファ ィルの全てまたは一部を、 データ量負担の少ないテキス トファイルで送信するこ とができる。 送信機構では、 全ての音声ファイルがテキス トファイルに変換でき たときは、 もちろんテキス トフアイルだけを送信する場合があってもよい。  With this configuration, the text file converted by the voice recognition mechanism and the voice file including the voice document that could not be converted to the text file because it could not be recognized by the voice recognition mechanism were mixed. Since a transmission mechanism is provided for transmitting data, all or a part of the audio file can be transmitted as a text file having a small data load. When all audio files can be converted to text files, the transmission mechanism may of course transmit only text files.
ここで、 音声認識機構でテキス トファイルに認識できなかった音声を音声ファ ィルにする音声ファイル作成機構を備えるよ うにしてもよい。  Here, a voice file creation mechanism that converts voice that could not be recognized as a text file by the voice recognition mechanism into a voice file may be provided.
また本発明の別の実施の態様による音声文書送信装置: I 0 0では、 さ らに、 音 声入力装置 1 0 1 で入力された音声を予め登録されている例文の識別子に変換す る例文設定機構 1 0 9 を備え ; 送信機構 1 0 4は、 さ らに例文の識別子を混在さ せて送信するよ う に構成してもよい。 例文の識別子は、 記号や文字、 番号による 符号の他、 アイコン、 絵などの画像データであってもよい。  Further, in the voice document transmitting device according to another embodiment of the present invention: I 00, an example sentence for converting the voice input by the voice input device 101 into an identifier of a pre-registered example sentence. The transmitting mechanism 104 may further include a setting mechanism 109, and the transmitting mechanism 104 may be configured to mix and transmit the identifiers of the example sentences. The example sentence identifier may be a symbol, a character, or a code using a number, or may be image data such as an icon or a picture.
また本発明のさ らに別の実施の態様による音声文書送信装置では、 音声認識機 構 1 0 7は、 前記音声のプロファイルを参照するよ う に構成されてもよい。 音声 プロファイルとは、 音声の音質、 言語構造等を代理表示する事項、 例えば、 性別、 年齢、 発声者の方言等の言語構造を表す出身地名 (日本語、 英語、 あるいは方言 を表示する)、 変声期の前か後か、 風邪をひいているか否か、 等である。 これら をパラメータ化したものをプロファイルと してもよい。  Further, in the voice document transmitting apparatus according to still another embodiment of the present invention, the voice recognition mechanism 107 may be configured to refer to the voice profile. A voice profile is a representation of the sound quality, language structure, etc. of the voice, such as gender, age, the place of origin representing the language structure, such as the speaker's dialect (displays Japanese, English, or a dialect), the period of inflection Before or after, whether or not you have a cold, etc. A parameterized version of these may be used as a profile.
ここで、 音声のプロファイルは、入力された音声を分析して検出してもよいし、 音声入力者が自分の性別、 年齢等をキーボー ド等の入力装置で入力することによ つて検知してもよい。 さ らに、 送信機構は前記プロファイルもテキス トファイル と併せて送信するよ うに構成してもよい。 Here, the voice profile may be detected by analyzing the input voice, or may be detected by the voice input person inputting his / her gender, age, etc. using an input device such as a keyboard. Is also good. In addition, the sending mechanism also sends the profile to a text file. It may be configured to be transmitted together with.
このよ うに構成すると、 音声のプロファイルを参照するよ うに構成されている ので、 音声認識の精度が向上する。 プロファイルをテキス トファイルと一緒に送 信するときは、 受信側でテキス トフアイルから音声ファイルを再現するときの再 現性、 変換精度が向上する。  With such a configuration, the configuration of referring to the voice profile improves the accuracy of voice recognition. When the profile is sent together with the text file, the reproducibility and conversion accuracy when reproducing the audio file from the text file on the receiving side are improved.
また本発明の実施の態様による音声文書送信方法は、 いわゆる音声電子メール 送信方法であり、 以上のよ う な音声文書送信装置を用いて、 音声による文書を送 信する。  Further, the voice document transmitting method according to the embodiment of the present invention is a so-called voice electronic mail transmitting method, and transmits a voice document using the voice document transmitting apparatus as described above.
また本発明の別の実施の態様による音声文書送信方法は、 いわゆる音声電子 メール送信方法であり、 音声による文書を入力する音声入力工程と ; 前記音声入 力工程で入力された音声を認識してテキス トフアイルに変換する音声認識工程 と ; 前記音声認識工程で変換されたテキス トファイルと、 前記音声認識工程でテ キス トファイルに変換しなかった音声文書を含む音声ファイルとを混在させて送 信する送信工程とを備える。  A voice document transmitting method according to another embodiment of the present invention is a so-called voice e-mail transmitting method, and includes a voice input step of inputting a voice document; and a voice input step of recognizing voice input in the voice input step. A voice recognition step of converting to a text file; and a text file converted in the voice recognition step and a voice file including a voice document which has not been converted to a text file in the voice recognition step. And a transmitting step.
このよ う に構成すると、 テキス トファイルと音声ファイルとを混在させて送信 する送信工程を備えるので、 音声ファイルの全てまたは一部を、 データ量の少な いテキス トファイルで送信することができる。  With such a configuration, a transmission step of transmitting the text file and the audio file in a mixed manner is provided, so that all or a part of the audio file can be transmitted as a text file having a small data amount.
また本発明のさ らに別の実施の態様による音声文書送信方法では、 さ らに、 音 声入力工程で入力された,音声を予め登録されている例文の識別子に変換する例文 識別工程を備え ; 前記送信工程は、 さ らに例文の識別子を混在させて送信する。 このよ う に構成すると、 例文識別工程を傭え、 前記送信工程はさらに例文の識 別子を混在させて送信するので、 テキス トファイルよ り もさ らに送信すべきデー タ量を少なくすることが可能となる。  The voice document transmitting method according to still another embodiment of the present invention further includes an example sentence identification step of converting the voice input in the voice input step into an identifier of a pre-registered example sentence. The transmitting step includes transmitting the identifiers of the example sentences in a mixed manner. With this configuration, the example sentence identification step is used, and the transmission step further transmits the identifier of the example sentence, so that the amount of data to be transmitted is smaller than that of the text file. It becomes possible.
また本発明のさ らに別の実施の態様による音声文書送信方法では、 前記音声認 識工程は、 前記音声のプロファイルを参照して音声を認識するよ うに構成しても よい。 ここで、 音声のプロファイルは、 入力された音声を分析して検出してもよ いし、 音声入力者が自分の性別、 年齢等をキーボー ド等の入力装置で入力するこ とによって検知してもよい。 さらにプロファイルを、 音声のテキス トファイルと 併せて送信する工程を備えてもよい。 このよ うに構成すると、 音声のプロファイルを参照するよ うに構成されている ので、 音声認識の精度が向上するし、 プロファイルをテキス トファイルと一緒に 送信するときは、 受信側でテキス トファイルから音声フアイルを再現するときの 再現性が向上する。 In the voice document transmitting method according to still another embodiment of the present invention, the voice recognition step may be configured to recognize voice by referring to the voice profile. Here, the voice profile may be detected by analyzing the input voice, or may be detected by a voice input person inputting his / her gender, age, etc. using an input device such as a keyboard. Good. Further, the method may include a step of transmitting the profile together with the audio text file. With this configuration, the voice profile is referenced so that the accuracy of voice recognition is improved.When the profile is transmitted together with the text file, the audio file is transmitted from the text file on the receiving side. Reproducibility when reproducing files is improved.
本発明の実施の態様による音声文書送信装置の製造方法は、 音声による文書を 入力する音声入力処理と ; 前記音声入力処理で入力された音声を認識してテキス トファイルに変換する音声認識処理と ; 前記音声認識処理で変換されたテキス ト ファイルと、 前記音声認識処理でテキス トファイルに変換しなかった音声文書を 含む音声ファイルとを混在させて送信する送信処理とを行う よ う に ; 送信装置を 制御するためのプログラムを、 前記送信装置に提供して、 音声文書送信装置と し て構成する。 ここで、 送信装置は典型的にはパソコン等のコンピュータであり、 プログラムの提供は典型的にはィンターネッ ト等のネッ トワークを介して提供し、 利用者にダウンロー ドさせるこ とによって行う。  A method of manufacturing a voice document transmitting apparatus according to an embodiment of the present invention includes: voice input processing for inputting a voice document; voice recognition processing for recognizing voice input in the voice input processing and converting the voice into a text file. Transmitting a text file converted by the voice recognition processing and a voice file including a voice document that has not been converted to a text file by the voice recognition processing; A program for controlling the device is provided to the transmitting device, and is configured as a voice document transmitting device. Here, the transmitting device is typically a computer such as a personal computer, and the program is typically provided via a network such as the Internet and downloaded by a user.
このよ うに構成すると、 送信装置を制御するためのプログラムを、 コンビユー タ等の送信装置に例えばインターネッ ト等の通信手段を介して提供するので、 例 えば汎用のコンピュータを音声文書送信装置と して構成することができる。  With this configuration, a program for controlling the transmitting device is provided to the transmitting device such as a combi- ter through communication means such as the Internet. For example, a general-purpose computer is used as the voice document transmitting device. Can be configured.
本発明の実施の態様による音声文書送信装置 (音声電子メール送信装置) で読 み取り可能な記録媒体は、 音声による文書を入力する音声入力処理と ; 前記音声 入力処理で入力された音声を認識してテキス トファイルに変換する音声認識処理 と ; 前記音声認識処理で変換されたテキス トファイルと、 前記音声認識処理でテ キス トフアイルに変換しなかった音声文書を含む音声ファイルとを混在させて送 信する送信処理とを行う よ うに ; 音声文書送信装置を制御するためのプログラム を格納する。 このよ うに構成すると、 記録媒体に格納されたプログラムを音声文 書送信装置と して用いる例えばパソコンにインス トールすることによって、 その パソコンに音声文書送信装置と しての所定の送信機能を持たせることができる。 また本発明のさ らに別の実施の態様による音声文書受信装置 2 0 0は、 いわゆ る音声電子メール受信装置であり、 例えば図 2に示すよ う に、 テキス トファイル を含む信号を受信する受信機構 2 0 3 と ; 受信装置 2 0 3で受信した信号を解読 する解読機構 2 0 6 と ; 解読機構 2 0 6で解読したテキス トファイルを音声に変 換する音声化機構 2 0 7を備える。 A recording medium readable by the voice document transmitting device (voice e-mail transmitting device) according to the embodiment of the present invention includes: voice input processing for inputting a voice document; and recognizing voice input in the voice input processing. A voice recognition process for converting the text file into a text file, and a text file converted in the voice recognition process and a voice file including a voice document not converted to a text file in the voice recognition process. A program for controlling the voice document transmitting device is stored so as to perform a transmitting process to be transmitted. With this configuration, the program stored in the recording medium is installed as, for example, a personal computer which is used as a voice document transmitting device, so that the personal computer has a predetermined transmitting function as a voice document transmitting device. be able to. A voice document receiving apparatus 200 according to still another embodiment of the present invention is a so-called voice electronic mail receiving apparatus, and receives a signal including a text file as shown in FIG. 2, for example. Receiving mechanism 203 for decoding the signal received by the receiving device 203; and converting the text file decoded by the decoding device 206 to voice. An audio conversion mechanism 207 is provided.
このよ うに構成すると、 解読機構で解読したテキス トファイルを音声に変換す る音声化機構を備えるので、 データ量の少ないテキス トファイルで送信され受信 された文書を音声で出力させることができる。  With such a configuration, a text file decrypted by the decryption mechanism is provided with a voice conversion mechanism, and a document transmitted and received in a text file with a small amount of data can be output as voice.
ここで、 音声化機構で変換された音声を音声と して出力する出力装置 2 0 1 を 備えてもよいが、 出力装置 2 0 1 は、 音声で出力する他、 解読されたテキス トフ アイルをそのままテキス トで出力することができるよ うに構成されていてもよい このときは、 好みに応じて音声で出力したり、 テキス ト文書で出力したり、 出力 形式を任意に選択できる。  Here, an output device 201 may be provided which outputs the voice converted by the voice conversion mechanism as voice, but the output device 201 outputs the voice as well as a decrypted text file. It may be configured so that it can be output as text as it is. In this case, it is possible to output as audio, output as a text document, or output format as desired.
このとき、 受信装置 2 0 0で受信する信号は、 例文の識別子を含んでいてもよ く 、 さ らに音声ファイルを含んでいてもよい。 いずれにしても、 出力は音声かテ キス トかのいずれか 1つの型式に変換されてなされる。  At this time, the signal received by the receiving device 200 may include the identifier of the example sentence, and may further include an audio file. In any case, the output is converted to one of two formats: speech or text.
さらに、 音声文書受信装置 2 0 0は、 音声文書送信装置 1 0 0 の機能を併せて 備えていてもよく 、 このときは、 音声文書送受信装置と して使用することができ る。 通常は、 送信者は立場を変えて受信者にもなり得るものである。 したがって、 端末装置と しては、 送信機能と受信機能とを兼ね備えるのが好ま しい。  Further, the voice document receiving device 200 may have the function of the voice document transmitting device 100, and in this case, it can be used as a voice document transmitting / receiving device. Usually, a sender can change positions and become a recipient. Therefore, it is preferable that the terminal device has both a transmission function and a reception function.
また本発明の実施の態様による音声文書受信方法は、 上記音声文書受信装置を 用いて、 音声による文書を受信する。  A voice document receiving method according to an embodiment of the present invention receives a voice document using the voice document receiving apparatus.
本発明の実施の態様による音声文書受信方法は、 テキス トファイルを含む信号 を受信する受信工程と ; 前記受信工程で受信した信号を解読する解読工程と ; 前 記解読工程で解読したテキス トフアイルを音声に変換する音声化工程とを備える c さ らに音声化工程で変換された音声を音声と して出力する音声出力工程を備えて もよい。 受信工程で受信する信号は、 例文の識別子を含んでいてもよく 、 さ らに 音声ファイルを含んでいてもよい。 いずれにしても、 出力は音声型式に変換して なされる。 但し、 音声で出力する他、 解読されたテキス トファイルをそのままテ キス トで出力するよ う にしてもよい。 このときは、 好みに応じて音声で出力した り、 テキス ト文書で出力したり、 出力形式を任意に選択できる。 A voice document receiving method according to an embodiment of the present invention includes: a receiving step of receiving a signal including a text file; a decoding step of decoding the signal received in the receiving step; and a text file decoded in the decoding step. the voice converted by the voice of step c is found and a speech step of converting the voice may include an audio output step of outputting as a voice. The signal received in the receiving step may include an example sentence identifier, and may further include an audio file. In any case, the output is converted to the audio format. However, in addition to outputting the sound, the decrypted text file may be output as it is. At this time, the user can output a sound, a text document, or select an output format as desired.
本発明の実施の態様による音声文書受信装置 2 0 0の製造方法は、 テキス トフ アイルを含む信号を受信する受信処理と ; 前記受信処理で受信した信号を解読す る解読処理と ; 前記解読処理で解読した信号に含まれるテキス トファイルを音声 に変換する音声化処理とを行う よ うに;受信装置を制御するためのプログラムを、 前記受信装置に提供して、 音声文書受信装置と して構成する。 ここで、 受信装置 は典型的にはパソコン等のコンピュータであり、 プログラムの提供は典型的には インターネッ ト等のネッ トワークを介して提供し、 利用者にダウンロー ドさせる ことによって行う。 A method for manufacturing a voice document receiving apparatus 200 according to an embodiment of the present invention includes: a receiving process of receiving a signal including a text file; and a decoding process of the signal received in the receiving process. Providing a program for controlling the receiving device to the receiving device so as to perform a decoding process of converting the text file included in the signal decoded by the decoding process into a voice; It is configured as a voice document receiving device. Here, the receiving device is typically a computer such as a personal computer, and the program is typically provided through a network such as the Internet and downloaded by a user.
このよ うに,構成すると、 受信装置を制御するためのプログラムを、 コンビユー タ等の受信装置に例えばインターネッ ト等の通信手段を介して提供するので、 例 えば汎用のコンピュータを音声文書受信装置と して構成することができる。  With this configuration, a program for controlling the receiving device is provided to the receiving device such as a computer via a communication means such as the Internet. For example, a general-purpose computer is used as the voice document receiving device. Can be configured.
本発明の実施の態様による音声文書受信装置 (音声電子メール受信装置) で読 み取り可能な記録媒体は、 テキス トファイルを含む信号を受信する受信処理と ; 前記受信処理で受信した信号を解読する解読処理と ; 前記解読処理で解読した信 号に含まれるテキス トフアイルを音声に変換する音声化処理とを行う よ うに ; 音 声文書受信装置を制御するためのプログラムを格納する。このよ うに構成すると、 音声文書受信装置に、 所定の受信機能を持たせることができる。  A recording medium readable by the voice document receiving device (voice email receiving device) according to the embodiment of the present invention includes: a receiving process for receiving a signal including a text file; and a decoding process for decoding the signal received in the receiving process. And a voice processing for converting a text file included in the signal decrypted by the decryption processing into a voice; and storing a program for controlling the voice document receiving apparatus. With this configuration, the voice document receiving device can have a predetermined receiving function.
本発明の実施の態様による音声文書中継装置 3 0 0は、 いわゆる音声電子メー ル中継装置であり、 例えば図 3に示すよ うに、 テキス トファイルと音声ファイル とを含む信号を受信する受信機構 3 0 7 と ; 受信機構 3 0 7で受信した信号中の 音声ファイルをテキス トフアイルに変換する音声認識機構 3 0 9 と ; 受信機構 3 0 7で受信したテキス トファイルと音声認識機構 3 0 9で変換したテキス トファ ィルとを併せて送信するテキス トフアイル送信機構 3 0 7 とを備える。 ここで、 典型的には受信機構と送信機構と しては、 通信インターフェースと して、 1つの 機構ないし装置に两機能を備えたものを用いる。  The voice document relay device 300 according to the embodiment of the present invention is a so-called voice mail relay device, and for example, as shown in FIG. 3, a receiving mechanism 3 for receiving a signal including a text file and a voice file. And a voice recognition mechanism 309 for converting a voice file in a signal received by the receiving mechanism 307 into a text file; and a text file and a voice recognition mechanism 309 received by the receiving mechanism 307. A text file transmitting mechanism 307 for transmitting the converted text file together is provided. Here, typically, as a receiving mechanism and a transmitting mechanism, a mechanism or a device having a 两 function is used as a communication interface.
典型的には、 受信した信号を、 音声認識機構でテキス トファイルに変換する前 に信号を解読する解読機構 3 0 3 を備える。 受信機構 3 0 7で受信する信号は、 例文の識別子を含んでいてもよい。 このときは、 例文の識別子あるいはテキス ト 化された例文のテキス トファイルも併せて送信される。  Typically, there is provided a decoding mechanism 303 for decoding the received signal before converting it into a text file by a speech recognition mechanism. The signal received by the receiving mechanism 307 may include the identifier of the example sentence. At this time, an example sentence identifier or a text file of the text example sentence is also transmitted.
本発明の実施の態様による音声文書中継方法は、 上記音声文書中継装置を用い て、 音声による文書を中継する。 本発明の実施の態様による音声文書中継方法は、 いわゆる音声電子メール中継 方法であり、 テキス トファイルと音声ファイルとを含む信号を受信する受信工程 と ; 前記受信工程で受信した信号中の音声ファイルをテキス トファイルに変換す るテキス ト化工程と ; 前記受信工程で受信したテキス トファイルと前記テキス ト 化工程で変換したテキス トファイルとを併せて送信するテキス トファイル送信ェ 程とを備える。 A voice document relay method according to an embodiment of the present invention relays a voice document using the voice document relay device. A voice document relay method according to an embodiment of the present invention is a so-called voice electronic mail relay method, and a receiving step of receiving a signal including a text file and a voice file; a voice file in the signal received in the receiving step; A text file converting step of converting the text file into a text file; and a text file transmitting step of transmitting the text file received in the receiving step and the text file converted in the text converting step together. .
このよ うに構成すると、 受信工程で受信した信号中の音声ファイルをテキス ト ファイルに変換するテキス ト化工程を備えるので、 受信信号中に音声ファイルが 含まれていても、 それをテキス ト化することが可能であり、 受信工程で受信した テキス トファイルと前記テキス ト化工程で変換したテキス トファイルとを併せて 送信するテキス トファイル送信工程を備えるので、 これを受信する受信装置では 音声ファイルを含まないテキス トファイルを受信することが可能となる。 したが つて、 比較的少ないデータ量を受信すればすむ。 この出願は、 日本国で 2 0 0 0年 4 '月 1 7 日 に出願された特願 2 0 0 0— 1 1 5 1 7 9号に基づいており、 その内容は本出願の内容と して、 その一部を形成 する。  With this configuration, a text conversion step is provided to convert the audio file in the signal received in the reception step into a text file. And a text file transmission step of transmitting the text file received in the reception step and the text file converted in the text conversion step together. It is possible to receive a text file that does not include. Therefore, only a relatively small amount of data needs to be received. This application is based on Japanese Patent Application No. 2000-1-1715179 filed in Japan on April 17, 2000, the content of which is incorporated herein by reference. And form a part of it.
また、 本発明は以下の詳細な説明によ り さ らに完全に理解できるであろう。 本 発明のさ らなる応用範囲は、 以下の詳細な説明によ り明らかとなろう。 しかしな がら、 詳細な説明及ぴ特定の実例は、 本発明の望ましい実施の形態であり、 説明 の目的のためにのみ記載されているものである。 この詳細な説明から、 種々の変 更、 改変が、 本発明の精神と範囲内で、 当業者にとって明らかであるからである。 出願人は、 記載された実施の形態のいずれをも公衆に献上する意図はなく 、 開 示された改変、 代替案のうち、 特許請求の範囲内に文言上含まれないかもしれな いものも、 均等論下での発明の一部とする。 図面の簡単な説明  Also, the present invention may be more completely understood from the following detailed description. Further areas of applicability of the present invention will become apparent from the detailed description provided hereinafter. However, the detailed description and specific examples are preferred embodiments of the present invention, and are described for illustrative purposes only. From this detailed description, various changes and modifications will be apparent to those skilled in the art within the spirit and scope of the present invention. Applicant does not intend to publish any of the described embodiments to the public and discloses any of the disclosed modifications and alternatives that may not be literally included within the scope of the claims. It shall be part of the invention under the doctrine of equivalents. BRIEF DESCRIPTION OF THE FIGURES
図 1 は、本発明の実施の形態である送信装置の構成例を示すプロック図である。 図 2は、本発明の実施の形態である受信装置の構成例を示すプロック図である。 図 3は、本発明の実施の形態である中継装置の構成例を示すブロック図である。 図 4は、 音声電子メール送信装置、 受信装置、 中継装置が、 ネッ トワークを介 して接続されている様子を示す概念図である。 FIG. 1 is a block diagram illustrating a configuration example of a transmission device according to an embodiment of the present invention. FIG. 2 is a block diagram illustrating a configuration example of a receiving device according to an embodiment of the present invention. FIG. 3 is a block diagram showing a configuration example of the relay device according to the embodiment of the present invention. FIG. 4 is a conceptual diagram showing a state in which a voice electronic mail transmitting device, a receiving device, and a relay device are connected via a network.
図 5は、 音声電子メールを送信する際の処理の一例を示すフローチャー トであ る。  FIG. 5 is a flowchart showing an example of a process when transmitting a voice electronic mail.
図 6は、 図 5の続きを示すフローチャー トである。  FIG. 6 is a flowchart showing a continuation of FIG.
図 7は、 送信装置で送信音声電子メールを入力する処理で表示される画面の例 を示す図である。  FIG. 7 is a diagram illustrating an example of a screen displayed in a process of inputting a transmission voice electronic mail in the transmission device.
図 8は、 送信装置で送信されるパケッ 卜の形式の一例を示す図である。  FIG. 8 is a diagram illustrating an example of a format of a packet transmitted by the transmission device.
図 9は、 音声電子メールの中継装置での処理の一例を示すフローチャー トであ る。 .  FIG. 9 is a flowchart showing an example of processing performed by the relay device for voice electronic mail. .
図 1 0は、 受信装置が電子メールのバケツ トを受信した際の処理の一例を示す フローチヤ一 トである。  FIG. 10 is a flowchart showing an example of a process when the receiving device receives an e-mail bucket.
図 1 1 は、 図 1 0の続きを示すフローチャー トである。  FIG. 11 is a flowchart showing a continuation of FIG. 10.
図 1 2は、 受信するバケツ トの中身が全てテキス トファイルであるときの受信 時の処理の一例を示すフローチャー トである。  FIG. 12 is a flowchart showing an example of processing at the time of reception when the contents of the received bucket are all text files.
図 1 3 は、 送信者の音声をプロフアイ リ ングし、 受信装置でそのプロファイ リ ングに基づいて音声化をする場合の、 各装置の処理の一例を示すフローチヤ一ト である。  FIG. 13 is a flowchart showing an example of the processing of each device when the voice of the sender is profiled and the receiving device converts the voice based on the profiling.
図 1 4は、 図 1 3の続きを示すフローチャー トである。 発明を実施するための最良の形態  FIG. 14 is a flowchart showing a continuation of FIG. 13. BEST MODE FOR CARRYING OUT THE INVENTION
以下、 本発明の実施の形態について、 図面を参照して説明する。 なお、 各図に おいて互いに同一あるいは相当する部材には同一符号を付し、 重複した説明は省 略する。  Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings, the same or corresponding members are denoted by the same reference numerals, and redundant description will be omitted.
図 1のプロック図を参照して、 本発明による実施の形態である音声電子メール の送信装置の構成例を説明する。 図 1 に示す送信装置は、 インターネッ トなどの ネッ トワークを介して音声電子メールを送信する音声文書送信装置 1 0 0である < 送信装置 1 0 0は、 専用の装置とするが、 それに限らず I C (集積回路、 L S I であってもよい) を備える携帯電話やバソコン等に組み込んだものであってもよ い。 ここで、 音声文書送信装置という とき、 文書とは一般に文字で人の思想をあ らわしたものであるが、 ここでは文字で表し得るものであればよく、 必ずしも文 字の形をと らなく てもよい。 例えば文字を経由することなく 、 いきなり 口頭の音 声で表現されたものであってもよい。 With reference to the block diagram of FIG. 1, a configuration example of a voice electronic mail transmitting apparatus according to an embodiment of the present invention will be described. The transmitting device shown in FIG. 1 is a voice document transmitting device 100 that transmits voice e-mail via a network such as the Internet. <The transmitting device 100 is a dedicated device, but is not limited thereto. IC (integrated circuit, LSI May be incorporated in a mobile phone or a bath computer equipped with. Here, when referring to a voice document transmission device, a document generally represents a person's thought in characters, but here it is sufficient if it can be represented by characters, and it does not necessarily take the form of characters. You may. For example, it may be expressed by a verbal sound without passing through characters.
送信装置 1 0 0は、 送信者の音声を入力するための入力装置 1 0 1 と、 入力し た音声を再生したり、 送信者に操作指示を表示したりするための出力装置 1 0 2 を持っている。 入力装置 1 0 1 は、 例えばマイク ロフォンであり 、 出力装置 1 0 2は、 例えば音声による出力装置と してのスピーカー、 視覚的出力装置と しての ディスプレイやプリ ンターである。  The transmitting device 100 includes an input device 101 for inputting the voice of the sender and an output device 102 for reproducing the input voice and displaying operation instructions to the sender. have. The input device 101 is, for example, a microphone, and the output device 102 is, for example, a speaker as an audio output device, and a display or a printer as a visual output device.
送信装置 1 ◦ 0は、 さ らに入力装置 1 0 1 と出力装置 1 0 2を制御する I Z O インターフェース部 1 0 3を具備している。 また、 ネッ トワークを介して、 他の 送信受信装置と接続して、 電子メールを送受信する送信機構と しての通信ィンタ 一フェース部 1 0 4を備えている。  The transmission device 1 • 0 further includes an IZO interface unit 103 that controls the input device 101 and the output device 102. In addition, a communication interface unit 104 is provided as a transmission mechanism for transmitting / receiving an e-mail by connecting to another transmission / reception device via a network.
さらに、 I Z Oインターフェイス : I 0 3及ぴ通信イ ンターフェイス 1 0 4 と接 続され、 メールの送受信や装置全体の制御を行う制御部 1 0 5を備える。 制御部 1 0 5には、 操作命令やその管理を行う操作指示機構 1 0 6 と、 音声で入力され たメ一ル文を認識し、 ディクテ一ショ ンして文書化し、 テキス トフアイルを作成 する音声認識機構 1 0 7 と、 音声で入力されたメール文から音声ファイルを作成 する音声ファイル作成機構 1 0 8 と、送信者の音声入力したキーワー ドをもとに、 予め登録してある例文群から例文を設定する例文設定機構 1 0 9 と、 1 メール內 に混在する、 テキス トファイル、 音声ファイル、 例文の 3形式 ( 3形式のう ち 1 つから 3つの形式) を、 1つのパケッ トにまとめる送信バケツ ト作成機構 1 1 0 が含まれる。  Furthermore, a control unit 105 connected to an IZO interface: I03 and a communication interface 104 for sending and receiving e-mails and controlling the entire apparatus is provided. The control unit 105 includes an operation instruction mechanism 106 for performing an operation command and its management, and recognizes a text sent by voice, dictates and documents it, and creates a text file. An example sentence group registered in advance based on a voice recognition mechanism 107, a voice file creation mechanism 108 that creates a voice file from an e-mail sentence input by voice, and a keyword input by the sender's voice A text packet, audio file, and three sample text formats (one to three of the three formats) mixed in one email A transmission bucket creation mechanism 110 is included.
制御部 1 0 5には、 さ らに記憶部 1 1 1 が接続されている。 記憶部 1 1 1 には、 登録されている例文を各例文に対応する例文識別子に対応させて保管する例文 D Β (データベース)、 およぴ様々なタイプの人々 (性別、 年齢、 出身地等) の音 声データを蓄積し、 データベース化した音声 D Β、 および言語データを保有する 言語 D Bを持っている。 音声 D B と言語 D Βは音声認識に必要な D Β群である。 例文識別子は、 記号や文字による符号の他、 アイ コン、 絵などの画像データであ つてもよい。 例文設定機構では、 設定された例文は識別子の形で送信パケッ トに 乗せられる。 ただし、 これに限らずテキス トファイルの形で乗せてもよい。 The storage unit 111 is further connected to the control unit 105. The storage unit 111 stores example sentences D Β (database) that stores registered example sentences in association with example sentence identifiers corresponding to each example sentence, and various types of people (gender, age, hometown, etc.). It has a voice DB that stores the voice data of) and has a database, and a language DB that holds the language data. Speech DB and language DΒ are D D groups necessary for speech recognition. The example sentence identifier may be an image data such as an icon or a picture, in addition to a symbol or a character code. In the example sentence setting mechanism, the set example sentence is put on the transmission packet in the form of an identifier. However, the present invention is not limited to this, and may be placed in the form of a text file.
送信装置 1 0 0では、 入力された音声ファィルは、 音声認識機構 1 0 7で出来 る限りテキス トファイルに変換するが、 認識できない部分はそのまま音声フアイ ルと して送信パケッ トに乗せられる。  In the transmitting device 100, the input voice file is converted into a text file as much as possible by the voice recognition mechanism 107, but the unrecognizable portion is directly put on the transmission packet as a voice file.
図 2のブロ ック図を参照して、音声電子メールの受信装置の構成例を説明する。 図 2に示す装置は、 ネッ トワークを介して電子メールを受信する音声文書受信装 置 2 0 0である。 受信装置 2 0 0は、 専用の装置とするが、 それに限らず I C (集 積回路、 L S I であってもよい) を備える携帯電話やパソコン等に組み込んだも のであってもよい。  With reference to the block diagram of FIG. 2, a configuration example of a voice electronic mail receiving device will be described. The device shown in FIG. 2 is a voice document receiving device 200 for receiving an electronic mail via a network. The receiving device 200 is a dedicated device, but is not limited thereto, and may be a device incorporated in a mobile phone, a personal computer, or the like having an IC (which may be an integrated circuit or an LSI).
受信装置 2 0 0は、 受信したメールを音声で再生したり、 受信者に操作指示を 表示したりするための出力装置 2 0 1 を備えている。 出力装置 2 0 1 は、 例えば 音声による出力装置と してのス ピーカー、 視覚的出力装置と してのディスプレイ である。  The receiving device 200 is provided with an output device 201 for reproducing the received mail by voice and displaying an operation instruction to a recipient. The output device 201 is, for example, a speaker as an audio output device, or a display as a visual output device.
受信装置 2 0 0は、 さ らに出力装置 2 0 1 を制御する I / Oイ ンターフェース 部 2 0 2 を具備している。 また、 ネッ トワークを介して、 他の送信受信装置と接 続して、 電子メールを送受信する受信機構と しての通信ィンターフェース部 2 0 3 を備えている。  The receiving device 200 further includes an I / O interface unit 202 that controls the output device 201. In addition, a communication interface unit 203 is provided as a receiving mechanism for transmitting and receiving e-mails by connecting to another transmission / reception device via a network.
さらに、 I Z Oインターフェイス 2 0 2及び通信インターフェイス 2 0 3 と接 続され、 メールの送受信や装置全体の制御を行う制御部 2 0 4を備える。 制御部 2 0 4には、 操作命令やその管理を行う操作指示機構 2 0 5 と、 テキス トフアイ ル、 音声ファイル、 例文の 3形式 ( 3形式のう ち 1つから 3つの形式) が混在す る受信パケッ トを、 各形式に分解し、 それぞれを解読するパケッ ト解読機構 2 0 6 と、 受信したメール文を音声化する音声化機構 2 0 7が含まれている。  Further, a control unit 204 is connected to the IZO interface 202 and the communication interface 203 and performs transmission and reception of mail and control of the entire apparatus. The control unit 204 has a mixture of an operation instruction mechanism 205 for operating instructions and their management, and three types of text files, audio files, and example sentences (one to three of the three types). A packet deciphering mechanism 206 that decomposes received packets into various formats and deciphers them, and a voice deciphering mechanism 200 that verifies received mail texts are included.
制御部 2 0 4には、 さ らに記憶部 2 0 8が接続されている。 記憶部 2 0 8には、 登録されている例文を保管する例文 D B、 およぴ様々なタイプの人々 (性別、 年 齢、 出身地等) の音声データを蓄積し、 データベース化した音声 D Bを備えてい る。 記憶部 2 0 8中の例文 D B と音声 D Bは、 それぞれ送信装置側の記憶部 1 1 1 が備えている例文 D B と音声 D B とに対応する。 あるいは同一內容の D B とす る。 したがって、 受信側でテキス トファイルまたは例文識別子を音声化したとき、 送信側と同じ内容あるいは近い内容の音声とすることができる。 The control unit 204 is further connected to a storage unit 208. The storage unit 208 stores an example sentence DB that stores registered example sentences and audio data of various types of people (gender, age, hometown, etc.) and creates a database. I have it. The example sentence DB and the voice DB in the storage unit 208 are stored in the storage unit 1 1 on the transmission device side, respectively. 1 corresponds to the example sentence DB and the voice DB. Alternatively, use the same DB. Therefore, when the text file or the example sentence identifier is vocalized on the receiving side, the voice can have the same content as or close to the content on the transmitting side.
図 3のブロ ック図を参照して、 音声電子メールの送信装置 1 0 0 と受信装置 2 0 0の中維地点となる、 音声電子メール送受信装置 (中継装置) の構成例を説明 する。 図 3に示す装置は、 音声電子メール送受信の中継を行う音声文書中維装置 3 0 0である。  With reference to the block diagram of FIG. 3, a description will be given of a configuration example of a voice electronic mail transmitting / receiving device (relay device), which is a median point of the voice electronic mail transmitting device 100 and the receiving device 200. The device shown in FIG. 3 is a voice document keeping device 300 for relaying voice email transmission and reception.
中維装置 3 0 0は、 パソコンやワークステーショ ンによつ'て構成される。 中継 装置 3 0 0は、 メールの送受信や装置全体の制御を行う制御部 3 0 1 を備えてお り、 ここには以下のよ うな機構が含まれている。 先ず操作指示機構 3 0 2は、 操 作命令やその管理を行う。 パケッ ト解読機構 3 0 3は、 テキス トファイル、 音声 ファイル、 例文の 3形式のう ち、 1つから 3つの形式が混在する受信パケッ トを 各形式に分解する。 音声認識機構 3 0 4は、 受信したパケッ トのうち、 音声ファ ィルの部分 (送信装置でディクテーシヨ ンが不可能だった部分) をさ らにデイク テーシヨ ンして文書化し、 テキス トファイルを作成する。 .  The media device 300 is configured by a personal computer and a workstation. The relay device 300 is provided with a control unit 301 for sending and receiving mails and controlling the entire device, and includes the following mechanism. First, the operation instruction mechanism 302 performs an operation instruction and its management. The packet decryption mechanism 303 decomposes a received packet in which one to three of the three formats of text files, audio files, and example sentences are mixed. The voice recognition mechanism 304 further dictates and documents the voice file part (the part that could not be dictated by the transmitting device) of the received packet, and documents the text file. create. .
ここでの音声認識機構 3 0 4は、 送信装置 1 0 0内の音声認識機構 1 0 7よ り 性能が高く構成されている。 したがって、 送信装置 1 0 0 でテキス トファイルに 変換できなかった音声データもテキス トデータに変換できる。 送信バケツ ト作成 機構 3 0 5は、 1 メール内に存在するテキス トファイル、 例文、 あるいはどちら か一つを、 再ぴ一つのパケッ トにまとめる。  The voice recognition mechanism 304 here is configured to have higher performance than the voice recognition mechanism 107 in the transmission device 100. Therefore, audio data that could not be converted to a text file by the transmitting device 100 can also be converted to text data. The transmission bucket creating mechanism 305 collects a text file, an example sentence, or any one existing in one mail into a single packet.
また、 制御部 3 0 1 には記憶部 3 0 6が接続されており、 ここには、 様々なタ イブの人々 (性別、 年齢、 出身地等) の音声データを蓄積し、 データベース化し た音声 D B、 および言語データを保有する言語 D Bを持っている。 記憶部 3 0 6 中の例文 D B と音声 D Bは、 受信装置 2 0 0の場合で説明したのと同様に、 それ ぞれ送信装置側の記憶部 1 1 1、 あるいは受信装置 2 0 0が備えている例文 D B と音声 D Bとに対応する。  The control unit 301 is connected to a storage unit 306, which stores voice data of various types of people (gender, age, hometown, etc.) and creates a database of voice data. It has a DB and a language DB that holds language data. The example sentence DB and the voice DB in the storage unit 303 are provided in the storage unit 111 on the transmission device side or the reception device 200, respectively, as described in the case of the reception device 200. Corresponding to the example sentence DB and the voice DB.
制御部 3 0 1には、 通信ィンターフェース部 3 0 7が接続されており、 中継装 置 3 0 0をネッ トワークに接続し、 メールの送受信を行う。  A communication interface unit 307 is connected to the control unit 301, and the relay unit 300 is connected to a network to transmit and receive mail.
図 4の概念図を参照して、 電子メ一ル送信装置 4 0 1、 電子メール受信装置 4 0 2及び電子メール送受信装置 (中継装置) 4 · 0 3の関係を説明する。 これらの 装置は、 ネッ トワーク 4 0 4を介して結ばれている。 ネッ トワーク 4 0 4は、 例 えばィンターネッ トゃ電話回線などの公衆回線である。 Referring to the conceptual diagram of FIG. 4, an electronic mail transmitting device 401 and an electronic mail receiving device 4 The relationship between 02 and the electronic mail transmitting / receiving device (relay device) 4 · 03 will be described. These devices are connected via a network 404. The network 404 is a public line such as an Internet telephone line, for example.
ここで、 電子メール送信装置 4 0 1 と電子メール受信装置 4 0 2 とを結ぶルー トには、 ネッ トワーク 4 0 4を介して各装置を直接結ぶルー ト と、 電子メ一ル送 受信装置 (中継装置) 4 0 3を間に中継させるルー トの二つが存在する。  Here, the route connecting the e-mail transmitting device 401 and the e-mail receiving device 402 includes a route directly connecting each device via the network 404 and an e-mail transmitting / receiving device. (Relay device) There are two routes that relay 403 between them.
また、 送信装置 4 0 1 と受惲装置 4 0 2は、 それぞれ図 1で説明した送信装置 1 0 0 と図 2で説明した受信装置 2 0 0 のよ う に、 送信と受信を専門に行う別々 の装置であるが、 これに限らず、 一つの装置内に送信装置 1 0 0 と受信装置 2 0 , 0 とが存在し、 送信も受信も行えるよ うにした装置であっても"よい。 電子メール 送受信装置 (中継装置) 4 0 3 と しては、 例えば図 3で説明した中継装置 3 0 0 を用いる。  Further, the transmission device 401 and the reception device 402 perform transmission and reception specially like the transmission device 100 described in FIG. 1 and the reception device 200 described in FIG. 2, respectively. Although they are separate devices, the present invention is not limited to this, and a device in which a transmitting device 100 and a receiving device 20 0,0 exist in one device so that both transmitting and receiving can be performed may be used. As the e-mail transmitting / receiving device (relay device) 400 3, for example, the relay device 300 described with reference to FIG. 3 is used.
また、 例えばパソコンに音声電子メール送信装置と しての機能を持たせるプロ グラムを格納した、 コンピュータ読み取り可能な記録媒体と,しての例えば F Dや C D— R O M 4 0 5から、 その中に格納されたプログラムをパソコンにイ ンス ト ールする。 送信装置 4 0 1 となるべきパソコンには、 記録媒体の駆動装置が搭載 されている。  In addition, for example, a program that allows a personal computer to have the function of a voice e-mail transmission device is stored. A computer-readable recording medium such as an FD or CD-ROM 405 stores the program therein. Install the installed program on the personal computer. A personal computer to be the transmitting device 401 is equipped with a recording medium driving device.
同様に例えばパソコンに音声電子メール受信装置と しての機能を持たせるプロ グラムを格納した、 コンピュータ読み取り可能な記録媒体と しての例えば F Dや C D— R O M 4 0 6から、 その中に格納されたプログラムをパソコンにイ ンス ト ールする。 受信装置 4 0 2 となるべきパソコンには、 記録媒体の駆動装置が搭載 されている。  Similarly, for example, from a computer-readable recording medium, such as an FD or CD-ROM 406, which stores a program for causing a personal computer to have a function as a voice electronic mail receiving device, the program is stored therein. Install the installed program on the personal computer. The personal computer to be the receiving device 402 is equipped with a recording medium driving device.
また記録媒体 4 0 5、 4 0 6でプログラムを提供する代わり に、 電話回線ゃィ ンターネッ ト等のネッ ト 4 0 4を介してプログラムを提供者側のサーバからイ ン ス トールすることによつて汎用のコンピュータを送信装置 4 0 1 または受信装置 4 0 2または両者の機能を有する送受信装置と して構成してもよい。  Also, instead of providing the program on the recording media 405 and 406, the program can be installed from the server on the provider side via a network 404 such as a telephone line internet. Alternatively, a general-purpose computer may be configured as the transmitting / receiving device 401 or the receiving device 402 or a transmitting / receiving device having both functions.
次に、 図 5及ぴ図 6 に示す一連のフローチャー トを参照して、 電子メールの内 容 (文章) を音声入力し送信する際の処理の一例を説明する。 送信者が、 メール の入力を終了しない限り、 以下ステップ 5 0 1からの処理が開始される (ステツ プ 5 0 0 )。 Next, with reference to a series of flowcharts shown in FIG. 5 and FIG. 6, an example of a process when the content (text) of an e-mail is input by voice and transmitted will be described. As long as the sender does not finish inputting the e-mail, the processing from step 501 will be started. Step 500).
まず、 送信者は、 メール文を自分で入力するのか、 あるいは予め登録されてい る例文の中から選択するのかを判断する (ステップ 5 0 1 )。 自分で入力する場 合は、 メール文を音声入力する (ステップ 5 0 2 )。 する と、 送信装置内の音声 認識機構 1 0 7は、 入力された音声の認識が可能かどうかを判断する (ステップ 5 0 3 )。 音声認識可能の場合は、 入力された音声をディクテーシヨ ンし、 テキ ス トファイルを作成する (ステップ 5 0 4 )。  First, the sender determines whether to enter the mail text by himself or to select from pre-registered example texts (step 501). If you want to enter it yourself, input the e-mail text by voice (step 502). Then, the voice recognition mechanism 107 in the transmission device determines whether or not the input voice can be recognized (step 503). If voice recognition is possible, dictate the input voice and create a text file (step 504).
作成したテキス トファイルは、送信バケツ トに順次格納し (ステップ 5 0 5 )、 ステップ 5 0 0に戻る。 また、 音声認識不可能と判断した場合は、 音声ファイル 作成機構 1 0 8が、 その部分の音声ファイルを作成する (ステップ 5 0 6 )。 作 成した音声ファイルは、 送信パケッ トに順次格納し (ステップ 5 0 7 )、 ステツ プ 5 0 0に戻る。  The created text files are sequentially stored in the transmission bucket (step 505), and the process returns to step 550. If it is determined that the speech cannot be recognized, the speech file creation mechanism 108 creates a speech file of the portion (step 506). The created audio files are sequentially stored in the transmission packet (step 507), and the process returns to step 509.
また、 ステップ 5 0 1 において、 予め例文 D Bに登録してある例文を使ってメ 一ル文を作成すると判断した場合は、 送信者は装置に対して例文選択を行う とい う命令を発信する (ステップ 5 0 8 )。 例文設定機構 1 0 9 は、 この命令を受信 し (ステップ 5 0 9 )、 記憶部 1 1 1 内の例文 D Bに登録してある例文群を、 デ イスプレイ等の出力装置 1 0 2 に表示する (ステップ 5 1 0 )。  Also, in step 501, if it is determined that a message is created using an example sentence registered in the example sentence DB in advance, the sender sends a command to the device to select an example sentence ( Step 5 08). The example sentence setting mechanism 109 receives this instruction (step 509), and displays the example sentence group registered in the example sentence DB in the storage unit 111 on the output device 102 such as a display. (Step 5 10).
送信者は、 表示された情報を参考にするなどして、 使いたい例文を識別する識 別子 (例文番号、 例文に含まれる単語、 キーワー ド等) を口頭で入力する (ステ ップ 5 1 1 )。 する と、 音声認識機構 1 0 7は、 入力された音声の認識が可能か どうかを判断する (ステップ 5 1 2 )。 音声認識不可能と判断した場合は (ステ ップ 5 1 2 )、 再入力を促すメ ッセージを表示し (ステップ 5 1 3 )、 送信者にも う一度、 例文識別子を口頭入力させる (ステップ 5 1 1 )。  The sender verbally inputs an identifier (example sentence number, word included in the example sentence, keyword, etc.) that identifies the example sentence to be used by referring to the displayed information (step 51). 1). Then, the voice recognition mechanism 107 determines whether or not the input voice can be recognized (step 512). If it is determined that speech recognition is not possible (step 5 12), a message prompting re-entry is displayed (step 5 13), and the sender is again asked to input the example sentence identifier (step 5). 1 1).
音声認識可能の場合は、 音声入力された例文識別子を例文設定機構 1 0 9へ送 信する (ステップ 5 1 4 )。 例文設定機構 1 0 9は、 この識別子から、 例文を検 索する (ステップ 5 1 5 )。 該当する例文が存在しない場合は (ステップ 5 1 6 )、 エラーメ ッセージを表示する (ステップ 5 1 7 )。 該当する例文が存在した場合 は (ステップ 5 1 6 )、 その例文を表示または音声再生する (ステップ 5 1 8 )。 送信者が、 装置の選択した例文を確定する と (ステップ 5 1 9 )、 確定された 例文の識別番号を送信パケッ トに順次格納し (ステップ 5 2 0 )、 ステップ 5 0 0に戻る。 送信者が確定しなかった場合は、 例文設定機構は、 別の例文を選択し なおす (ステップ 5 1 5に戻る)。 そして、 送信者によるメール文の入力がすべ て終了した時 (ステップ 5 0 0 )、 これまでの処理で作成された送信バケツ ト (テ キス トファイル、 音声ファイル、 例文識別番号のうち、 1つから 3つの形式が混 在するもの) を閉じ、 完成させる (ステップ 5 2 1 )。 If speech recognition is possible, the sentence-transmitted example sentence identifier is transmitted to the example sentence setting mechanism 109 (step 514). The example sentence setting mechanism 109 searches for an example sentence from this identifier (step 515). If there is no corresponding example sentence (step 5 16), an error message is displayed (step 5 17). If there is a corresponding example sentence (step 5 16), the example sentence is displayed or played back (step 5 18). When the sender confirms the selected example sentence of the device (step 5 19), the confirmed The identification numbers of the example sentences are sequentially stored in the transmission packet (step 502), and the process returns to step 500. If the sender is not confirmed, the example sentence setting mechanism selects another example sentence again (return to step 515). When the sender completes the input of the e-mail message (step 500), one of the transmission buckets (text file, audio file, or example sentence identification number) created by the processing up to this point is performed. And the three forms are mixed) to complete it (Step 5 2 1).
図 7の画面表示例の図を参照して、 送信装置 1 0 0で送信メールを入力する処 理を説明する。 画面の例 6 0 0は、 メール文を自分で入力して作成するか、 予め 登録してある例文から選択して作成するかを、送信者が選択する画面の例である。 送信者が、 自分で入力する手段を選択した場合は、 画面例 6 0 1 で示す入力画 面が表示され、 送信者の言葉 (例 : お元気ですか) が画面上に表示される。 例文 選択によってメールを作成する手段が選ばれた場合は、 例文選択の画面が表示さ れる。  With reference to the screen display example in FIG. 7, a process of inputting outgoing mail in the transmitting device 100 will be described. The example screen 600 is an example of a screen in which the sender selects whether to create an e-mail message by inputting it yourself or to select and create an e-mail message from pre-registered example sentences. If the sender selects the method of inputting by himself, the input screen shown in screen example 61 is displayed, and the sender's words (eg, how are you) are displayed on the screen. If the method of creating an e-mail is selected by selecting an example sentence, a screen for selecting an example sentence is displayed.
画面例 6 0 2は、 例文の種類の一覧を表示している例である。 この例では、 「 1 . 配送 S設定」 の例文を選びたい送信者が、 この項目の識別子となる言葉 ( 1、 配 送日等) を発声している。  Screen example 62 is an example in which a list of example sentence types is displayed. In this example, the sender who wants to select the example sentence of “1. Delivery S setting” has uttered a word (1, delivery date, etc.) that is the identifier of this item.
画面例 6 0 3は、 続いて、 「 1 . 配送日設定」 の例文群が表示されている画面 である。 この例で、 送信者は、 同様に選択したい例 の識別子 ( 3、 1 0または 2月 2 日、 午後等) を発声する。 選択された例文で作成されたメール文が表示さ れている様子が画面例 6 0 4である。 すなわち、 例文の中に具体的な日付や午前 ノ午後の情報が織り込まれて 「 2月 2 0 (火) に変更お願いします。」 「時間帯指 定を希望します。」 「希望時間は午後です。」 のよ うな文書が画面上に表示される。 図 8 を参照して、 この装置で送信されるパケッ トの形式の一例を説明する。 パ ケッ トは、 テキス トファイル、 音声ファィル、 例文識別番号のう ち、 1つから 3 つの形式が混在するものである。 パケッ ト内の各ファイルは、 パケッ ト内での順 番を表すシーケンスタグ、 フアイルの種類 (テキス トファイルか、 音声ファイル カ 例文識別番号) を表すファイル種類タグ、 ファイルの長さを表すファイル長 タグに続いて格納されている。 ファイルの長さは例えばバイ ト数で表される。 シ 一ケンスタグ、 ファイル種類タグ、 ファイル長タグ、 ファイル (又は例文識別番 号) で 1セッ トになっており、 これが 1セッ トから複数セッ ト存在して 1パケッ ト となる。 Screen example 603 is a screen on which an example sentence group of “1. Delivery date setting” is subsequently displayed. In this example, the sender utters the identifier of the example (3, 10 or February 2, PM, etc.) that you also want to select. A screen example 604 shows a state in which a mail sentence created by the selected example sentence is displayed. In other words, the specific sentence and the information of the morning and afternoon are woven into the example sentence. "Please change to February 20 (Tue.).""I would like to specify the time zone." This is the afternoon. " An example of the format of a packet transmitted by this device will be described with reference to FIG. A packet is a mixture of one to three types of text files, audio files, and example sentence identification numbers. Each file in the packet has a sequence tag indicating the sequence number in the packet, a file type tag indicating the type of file (text file or audio file example identification number), and a file length indicating the length of the file. It is stored after the tag. The length of the file is represented, for example, by the number of bytes. Sequence tag, file type tag, file length tag, file (or example sentence identification number) No.), one set, and there are multiple sets from one set, and one packet.
ここで、 電子メール送受信装置が、 入力された音声を認識する、 あるいは認識 できないと判断する方法の一例を示す。 電子メール送信装置 1 0 0は、 様々なタ イブの人 (性別、 年齢層、 地域等) の音声をサンプリ ングしてデータベース化し た音声 D B と、 言語データを保有する言語 D Bを、 記憶部 1 1 1 内に保有してい る。 音声認識機構 1 0 7では、 入力された声のデータ と、 音声 D Bのデータ との 比較 ' マッチング、 および、 言語 D Bのデータを用いての言語解析を行う ことに よって、 入力された音声が示す文章を確定して行く。 この場合は、 音声 D Bのデ —タ と言語 D Bのデータを参照するので、 音声認識精度が著しく 向上する。  Here, an example of a method in which the e-mail transmitting / receiving device recognizes the input voice or determines that the voice cannot be recognized will be described. The e-mail transmission device 100 stores a voice DB, which is a database obtained by sampling voices of various types of people (gender, age group, region, etc.), and a language DB that holds language data. It is held within 1 1. The speech recognition mechanism 107 compares the input voice data with the voice DB data, performs matching, and performs language analysis using the language DB data to indicate the input voice. Finalize the sentence. In this case, since the data of the speech DB and the data of the language DB are referred to, speech recognition accuracy is significantly improved.
以上のよ うな方法で、 図 4の例で説明すれば、 送信装置 4 0 1 で作成された電 子メールのパケッ トは、 ネッ ト ワーク 4 0 4を介して、 中継となる電子メール送 受信装置 (中継装置) 4 0 3、 あるいは最終目的地である受信装置 4 0 2へと送 信される。 送信するパケッ トに、 音声ファイル (送信装置では音声認識不可能だ つた部分) が含まれる場合は、 送信装置 4 0 1 よ り高性能の音声認識機構を保有 する中維装置 4 0 3へ送信される。パケッ トに音声ファイルが含まれない場合は、 中継装置 4 0 3を介してもよいが、 受信装置 4 0 2へ直接送信されよ うにしても よい。  Using the method described above and referring to the example of FIG. 4, the e-mail packet created by the transmitting device 401 is transmitted and received via the network 404 as a relay e-mail. It is transmitted to the device (relay device) 403 or the receiving device 402 which is the final destination. If the packet to be transmitted contains a voice file (a part that cannot be recognized by the transmitting device), it is transmitted to the central device 403, which has a higher-performance voice recognition mechanism than the transmitting device 401. Is done. If the packet does not include an audio file, the packet may be transmitted via the relay device 403 or may be directly transmitted to the reception device 402.
図 9のフローチャー トを参照して、 音声ファイルを含むパケッ トを受信した電 子メール送受信装置 (中継装置) での処理の一例を、 図 3で説明した中継装置 3 0 0の場合で説明する。 中継装置 3 0 0内のパケッ ト解読機構 3 0 3は、 受信し たパケッ トの中身について、 一つずつ ( 1 ファイル毎または、 1例文識別番号毎). ステップ 8 0 1 からの処理を繰り返す (ステップ 8 0 0 )。  Referring to the flowchart of FIG. 9, an example of processing in an e-mail transmitting / receiving device (relay device) that has received a packet including an audio file will be described in the case of the relay device 300 described in FIG. I do. The packet decryption mechanism 303 in the relay device 300 repeats the processing from step 801, one by one (for each file or for each example sentence identification number) for the contents of the received packet. (Step 800).
まず、 パケッ トに格納されている 1 ファイル (または 1例文識別番号) が音声 ファイルなのか否かを判断する (ステップ 8 0 1 )。 音声ファイルではない場合、 つま りそれは、 テキス トファイルか例文識別子と しての識別番号である。 これら は、 そのまま送信用パケッ トに格納され (ステップ 8 0 2 )、 ステップ 8 0 0に 戻る。  First, it is determined whether one file (or one example sentence identification number) stored in the packet is a voice file (step 801). If it is not an audio file, it is either a text file or an identification number as an example identifier. These are stored as they are in the packet for transmission (step 802), and the process returns to step 800.
音声ファイルの場合は、 音声認識機構 3 0 4によってディクテーシヨ ンされ、 音声はテキス トファイルに変換される (ステップ 8 0 3 )。 そして、 パケッ ト作 成機構 3 0 5が、 送信用パケッ トにこのテキス トフアイルを格納し (ステップ 8 0 4 )、 ステップ 8 0 0 に戻る。 そして、 受信したパケッ トの中身をすぺて検証 し終わり、 空になった時点で (ステップ 8 0 0 )、 これまでの処理で作成された 送信用パケッ ト (テキス トファイル、 例文識別番号等の識別子のうち、 1つから 2つの形式が混在するもの) を閉じ、 完成させる (ステップ 8 0 5 )。 この後、 このパケッ トは、 最終目的地である電子メール受信装置 2 0 0 へ送信される。 次に、 図 1 0及ぴ図 1 1 に示す一連のフローチャー トを参照して、 電子メール 受信装置 2 0 0が電子メールのバケツ トを受信した際の処理の一例を説明する。 ここで、 最終目的地である受信装置 2 0 0が受信した電子メールのパケッ トの中 身は、 テキス トファイル、 または例文識別番号、 或いは両者の混在である。 送信 された音声ファイルは、 中継装置 3 0 0によってテキス トファイルに変換されて いるからである。 In the case of an audio file, it is dictated by the voice recognition mechanism 304, The audio is converted to a text file (step 803). Then, the packet creation mechanism 305 stores the text file in the packet for transmission (step 804), and returns to step 800. When the contents of the received packet have been completely verified and become empty (step 800), the transmission packet (text file, example sentence identification number, etc.) created by the processing up to this point is completed. Of the identifiers of which one or two formats are mixed) and complete (step 805). Thereafter, this packet is transmitted to the e-mail receiving device 200 that is the final destination. Next, with reference to a series of flowcharts shown in FIG. 10 and FIG. 11, an example of processing when the electronic mail receiving device 200 receives an electronic mail bucket will be described. Here, the content of the packet of the e-mail received by the receiving device 200 as the final destination is a text file, an example sentence identification number, or a mixture of both. This is because the transmitted audio file has been converted into a text file by the relay device 300.
最初に、 受信者は、 受信した電子メールを音声で聞く 力 、 目で見るか (例えば 面面上で見るかプリ ンタに打ち出すか) を選択する (ステップ 9 0 0 )。 音声で 聞く と選択した場合の処理を、 先ず以下に説明する。 受信装置 2 0 0内のパケッ ト解読機構 2 0 6は、 受信したパケッ トの中身について、 一つずつ ( 1 ファイル 毎または、 1例文識別番号毎)、 以下終了までの処理を繰り返す (ステップ 9 0 1 )。  First, the recipient selects the ability to listen to the received e-mail by voice, or to view it visually (for example, to view it on a screen or print it out on a printer) (step 900). The process in the case of selecting to listen by voice will be described first. The packet decoding mechanism 206 in the receiving device 200 repeats the processing for the contents of the received packet one by one (for each file or for each example sentence identification number) until the end (step 9). 0 1).
まず、 パケッ トに格納されている 1 ファイル (または 1例文識別番号) がテキ ス トファイルなのか、 例文識別番号なのかを判断する (ステップ 9 0 2 )。 テキ ス トフアイルの場合は、 音声化機構 2 0 7がテキス ト文を音声化し (ステップ 9 0 5 )、 ステップ 9 0 1 に戻る。 例文識別番号の場合は、 例文識別番号をキーに して記憶部 2 0 8 中の例文 D Bから例文を呼び出し (ステップ 9 0 3 )、 該当例 文のテキス トフアイルを作成する (ステップ 9 0 4 )。 そして、 音声化機構 2 0 7がテキス トファイルのテキス ト文 (この場合は、 例文) を音声化し (ステップ 9 0 5 )、 ステップ 9 0 1 に戻る。 このよ うにして、 受信したパケッ トの中身を すべて音声化し終わり、 空になった時点で (ステップ 9 0 1 )、 処理は終了する。 次に、 ステップ 9 0 0において、 受信した電子メールを画面上で見ると選択し た場合の処理を説明する。 受信装置 2 0 0内のパケッ ト解読機構 2 0 6は、 受信 したパケッ トの中身について、 一つずつ ( 1 ファイル毎または、 1例文識別番号 毎)、 以下終了までの処理を繰り返す (ステップ 9 0 6 )。 まず、 パケッ トに格納 されている 1 ファイル (または 1例文識別番号) がテキス トファイルなのか、 例 文識別番号なのかを判断する (ステップ 9 0 7 )。 First, it is determined whether one file (or one example sentence identification number) stored in the packet is a text file or an example sentence identification number (step 902). In the case of a text file, the voice generator 207 voices the text sentence (step 905) and returns to step 901. In the case of an example sentence identification number, the example sentence is called from the example sentence DB in the storage unit 208 using the example sentence identification number as a key (step 903), and a text file of the corresponding example sentence is created (step 904). . Then, the voice conversion mechanism 207 voices the text sentence (in this case, an example sentence) of the text file (step 905), and returns to step 901. In this way, all the contents of the received packet have been converted to speech, and when the packet becomes empty (step 901), the process ends. Next, in step 900, select the received e-mail by viewing it on the screen. The processing in the case of the case will be described. The packet decryption mechanism 206 in the receiving device 200 repeats the processing up to the end of the contents of the received packet one by one (for each file or for each example sentence identification number) (step 9). 0 6). First, it is determined whether one file (or one example sentence identification number) stored in the packet is a text file or an example sentence identification number (step 907).
テキス トファイルの場合は、 ステップ 9 0 6に戻る。 例文識別番号の場合は、 例文識別番号をキーにして例文 D Bよ り例文を呼び出し (ステップ 9 0 8 )、 該 当例文のテキス トファイルを作成する (ステップ 9 0 9 )。 そして、 例文識別番 号が格納してあった場所に、 このテキス トファイルを揷入し (ステップ 9 1 0 )、 ステップ 9 0 6に戻る。 そして、 受信したパケッ トの中身をすベて検証し終わつ た時点で (ステップ 9 0 6 )、 出来あがったテキス トファイルを画面に出力し (ス テツプ 9 1 1 )、 処理は終了する。  If it is a text file, return to step 906. In the case of the example sentence identification number, the example sentence is called from the example sentence DB using the example sentence identification number as a key (step 908), and a text file of the example sentence is created (step 909). Then, this text file is inserted into the location where the example sentence identification number was stored (step 910), and the process returns to step 906. When all the contents of the received packet have been verified (step 906), the completed text file is output to the screen (step 911), and the process ends.
例文を送受信する方法については、 図 5、 図 6 (送信の場合)、 図 1 0、 図 1 1 (受信の場合) で示しているよ う に例文識別番号を送受信し、 送受信装置 1 0 0、 2 0 0内で例文のテキス トファイルを作成して再生または表示する方法のほ カ 例文の内容をテキス トフアイル形式の形で送受信してもよい。  As shown in Fig. 5, Fig. 6 (for transmission), Fig. 10 and Fig. 11 (for reception), the method of transmitting and receiving example sentences is as follows. In addition to the method of creating and reproducing or displaying a text file of an example sentence within an example, the contents of the example sentence may be transmitted and received in a text file format.
この方法では、 図 6のステップ 5 2 0 において、 送信パケッ トの中には例文の テキス トファイルが格納される。 このとき、 送信されるパケッ トは、 テキス トフ アイルと音声ファイルの混在型となる。 また、 音声ファイルは中継装置 3 0 0に よって、 全てテキス トファイルに変換されるので、 最終目的地の受信装置 2 0 0 に受信されるパケッ トの中身は、 全てテキス トフアイル形式である。  In this method, in step 520 of FIG. 6, a text file of an example sentence is stored in the transmission packet. At this time, the transmitted packet is a mixed type of text file and audio file. Also, since all the audio files are converted to text files by the relay device 300, the contents of the packets received by the receiving device 200 at the final destination are all in the text file format.
この場合の受信時の処理を、 図 1 2のフローチャー トを参照して説明する。 こ のフローは、 図 1 0、 図 1 1 で示されるフローチャー トの一部が省略されたもの である。 まず受信者は、 受信した電子メールを音声で聞く カ 画面上で見るかを 選択する (ステップ 1 0 0 0 )。 音声で聞く と選択した場合、 音声化機構 2 0 7 がテキス トファイルのテキス ト文を音声化する (ステップ 1 0 0 1 )。 一方、 画 面上で見ると選択した場合は、 テキス トファイルを画面に出力させる (ステップ 1 0 0 2 )。 このよ うに受信者の好みや必要に応じて出力形式をいずれかに選択 することができる。 図 1 3及ぴ図 1 4の一連のフローチャートを参照して、 送信者によって入力さ れた音声をプロフアイ リ ングし (男性、 女性、 子供、 高齢者等)、 受信装置 2 0 0ではそのプロフアイルにあった音声で音声化を行う場合の各装置の処理を説明 する。 図 1 3、 図 1 4のフローチヤ一トで示すのは、 送信装置 1 0 0における処 理の一例である。 これは、 図 5、 図 6 に示したフローチャー ト とほぼ同様である が、 図 5のステップ 5 0 3からステップ 5 0 5の処理を、 ステップ 1 1 0 3力 ら ステップ 1 1 0 7に代替し、 ステップ 5 1 2からステップ 5 1 4の処理を、 ステ ップ 1 1 1 4からステップ 1 1 1 8に代替し、 図 6のステップ 5 2 0をステップ 1 1 2 4に代替している。 The processing at the time of reception in this case will be described with reference to the flowchart of FIG. In this flow, a part of the flow charts shown in FIGS. 10 and 11 is omitted. First, the recipient selects whether to listen to the received e-mail by voice or not to see it on the screen (step 100). If the user selects to listen by voice, the voice generator 207 voices the text sentence of the text file (step 1001). On the other hand, if it is selected to be viewed on the screen, a text file is output to the screen (step 1002). In this way, the output format can be selected as desired according to the recipient's preference and need. Referring to the series of flowcharts in FIGS. 13 and 14, the voice input by the sender is profiled (male, female, child, elderly, etc.), and the profile is received by the receiver 200. A description will be given of the processing of each device in the case of performing voice conversion using voices suitable for the aisle. The flowcharts of FIGS. 13 and 14 show an example of the processing in the transmitting apparatus 100. This is almost the same as the flowcharts shown in FIGS. 5 and 6, except that the processing from step 503 to step 505 in FIG. Substitute, replace the processing from Step 5 1 2 to Step 5 1 4, replace Step 1 1 1 4 with Step 1 1 1 8, and replace Step 5 2 0 in Figure 6 with Step 1 1 2 4 I have.
代替されたステップ 1 1 0 3からステップ 1 1 0 7の処理は以下の通りである c ステップ 1 1 0 3では、 音声認識機構 1 0 7が、 口頭入力されたメール文が音声 認識可能かどうか判断している。 音声認識可能の場合、 そのとき音声プロフアイ リ ングが終了していなければ (ステップ 1 1 0 4 )、 ここで音声プロフアイ リ ン グを行う (ステップ 1 1 0 5 )。 The processing from step 1 103 to step 1 107 is as follows.c In step 1103, the speech recognition mechanism 107 determines whether or not the orally input mail text can be recognized by speech. Deciding. If voice recognition is possible, if voice profiling has not been completed at that time (step 1104), voice profiling is performed here (step 1105).
すなわち、 様々なタイプの人 (性別、 年齢層、 地域等) の音声をサンプリ ング してデータベース化した音声 D Bを参照しながら、 入力された音声を性別や年齢 層などに分類する。 そして、 入力されたメール文をデイクテーシヨ ンしテキス ト フアイルを作成した後 (ステップ 1 1 0 6 )、 送信パケッ トに、 作成したテキス トファイルと、 プロファイル結果を格納する (ステップ 1 1 0 7 )。  In other words, input speech is classified into gender, age group, etc., while referring to speech DB which is a database obtained by sampling speech of various types of people (gender, age group, region, etc.). After dictating the input e-mail message and creating a text file (step 1106), the created text file and the profile result are stored in the transmission packet (step 1107). .
また、 ステップ 1 1 1 4力 ら 1 1 1 8、 及ぴステップ 1 1 2 4の処理もこれと 同様である。 ステップ 1 1 2 4では、 選択された例文番号と、 プロフアイル結果 を送信パケッ トに格納する処理を行っている。 また、 受信装置 1 0 0における処 理は、 図 1 0で示したフローチャー トのステップ 9 0 5 を、 「テキス トファイル のテキス ト文を音声プロファイルに基づいて音声化する」に代替したものとなる。 音声プロフアイ リ ングは、 音声 D Bを参照しながら、 入力された音声を性別や 年齢層などに分類する他、 送信者が直接入力してもよく、 このときは、 入力音声 を分析して分類する処理を省略でき、 その分だけ処理速度を高く できる。  In addition, the processing in Steps 1 1 1 1 to 1 1 4 and Step 1 1 2 4 and Step 1 1 2 4 are the same. In step 1 124, processing is performed to store the selected example sentence number and the profile result in the transmission packet. Also, the processing in the receiving device 100 is such that step 905 of the flowchart shown in FIG. 10 is replaced with “speech the text sentence of the text file based on the voice profile”. Becomes The voice profiling classifies the input voice into gender, age group, etc. while referring to the voice DB, or the sender may directly input the voice. Processing can be omitted, and processing speed can be increased accordingly.
送信バケツ トには、 テキス トファイルと共にプロフアイル結果も格納されて送 信されるので、 それを受信した受信装置 2 0 0では、 プロフアイ リ ング結果を利 用して音声の再生ができるので、 音声の再現性が高く なる。 中継装置の場合も、 プロファイ リ ング結果を利用して、 テキス ト化未了の音声ファイルをテキス トに 変換できるので、 変換精度を高くすることができる。 In the transmission bucket, the profile result is stored together with the text file and transmitted. Therefore, the receiving device 200 that has received the profile uses the profiling result. The sound can be reproduced by using this function, so the reproducibility of the sound is improved. In the case of a relay device as well, an audio file that has not been converted into text can be converted into text using the profiling result, so that the conversion accuracy can be increased.
以上の実施の形態では、 認識された音声を少なく ともテキス トファイルに変換 して、 音声ファイルと混在させて送信し、 またこれを中継する場合、 さ らに例文 識別子を混在させて送信し、 またこれを中継する場合、 テキス トファイルを、 あ るいはテキス トファイルと識別子を受信し、 音声であるいはテキス トで出力する 場合で説明したが、 さらにテキス トファイルに画像フアイルを組合せてもよい。 このときはテキス トファィルに、 音声ファィル、 例文識別子、 画像フアイルの 3 つのうち少なく とも 1つを混在させて送信し、 中継し受信する。  In the above embodiment, the recognized speech is converted into at least a text file, and is mixed with the audio file and transmitted.When relaying this, the example sentence identifier is also mixed and transmitted. Also, in the case of relaying this, a case where a text file or a text file and an identifier are received and output as audio or text has been described, but a text file may be combined with an image file. . In this case, at least one of the three files of the audio file, the example sentence identifier, and the image file is transmitted to the text file, and the data is relayed and received.
例えば 「あけましておめでと う ございます」 と送信装置に音声で入力し、 併せ てキーボード、 専用ポタン等の入力装置から、 毛筆体で表示すべしの指示を入力 する。 次に 「本年もどうぞよろしく」 と音声で入力し、 この文書については別途 キーポ一 ドで画像表示指示の入力はしない。 このよ うな情報を含んだ信号を受信 した受信装置は、 「あけましておめでと う ございます J の部分は、 毛筆フォン ト あるいは毛筆画像イメージで画面に表示し、 「本年もどうぞよろしく」の部分は、 何の飾り もない標準文字のテキス ト文書で表示する。 このよ うに構成すると、 受 信側では、 送信者の意思に従って視覚的に変化に富んだ文書を表示することがで さる。 産業上の利用の可能性 '  For example, input “Happy New Year” by voice to the transmitting device, and also input an instruction to display in brush with input devices such as a keyboard and a special button. Then, say "Thank you again this year" by voice, and do not enter any image display instructions using a separate keypad for this document. The receiver that received the signal containing such information displays the `` Happy New Year J '' on the screen in a brush font or a brush image, and the `` Thank you for this year '' Displays in a plain text text document without any decoration. With this configuration, the receiving side can display a visually varied document according to the sender's intention. Industrial potential ''
以上のよ うに本発明によれば、 音声認識機構で変換されたテキス トファイル文 書と、 音声認識機構でテキス トファイルに変換しなかった音声文書を含む音声フ アイルとを混在させて送信する送信機構を備えるので、 音声ファイルの全てまた は一部を、 データ量の圧縮されたテキス トファイルで送信することができる、 送 信装置を提供することが可能となる。  As described above, according to the present invention, the text file document converted by the voice recognition mechanism and the voice file including the voice document not converted to the text file by the voice recognition mechanism are mixed and transmitted. Since a transmission mechanism is provided, it is possible to provide a transmission device capable of transmitting all or a part of an audio file in a text file with a reduced data amount.

Claims

請 求 の 範 囲 The scope of the claims
1 . 音声による文書を入力する音声入力装置と ; 1. a voice input device for inputting a voice document;
前記音声入力装置で入力された音声を認識してテキス トファイルに変換する音 声認識機構と ;  A voice recognition mechanism for recognizing voice input by the voice input device and converting it into a text file;
前記音声認識機構で変換されたテキス トファイルと、 前記音声認識機構でテキ ス トファイルに変換しなかった音声文書を含む音声ファイルとを混在させて送信 する送信機構とを備える ;  A transmission mechanism for mixing and transmitting a text file converted by the voice recognition mechanism and a voice file including a voice document not converted to a text file by the voice recognition mechanism;
音声文書送信装置。  Voice document transmission device.
2 . 前記音声入力装置で入力された音声を予め登録されている例文の識別子 に変換する例文設定機構を備え ; 2. An example sentence setting mechanism for converting a voice input by the voice input device into an identifier of an example sentence registered in advance;
前記送信機構は、 さ らに例文の識別子を混在させて送信するよ う に構成され た ;  The transmitting mechanism is further configured to transmit an example sentence identifier mixedly;
請求項 1 に記載の音声文書送信装置。  The voice document transmitting device according to claim 1.
3 . 前記音声認識機構は、 前記音声のプロファイルを参照するよ うに構成さ れた、 請求項 1 または請求項 2に記載の音声文書送信装置。 3. The voice document transmitting device according to claim 1, wherein the voice recognition mechanism is configured to refer to the voice profile.
4 . 請求項 1 乃至請求項 3のいずれか 1項に記載の音声文書送信装置を用い て、 音声による文書を送信する、 音声文書送信方法。 4. A voice document transmitting method for transmitting a voice document using the voice document transmitting device according to any one of claims 1 to 3.
5 . 音声による文書を入力する音声入力工程と ; 5. a voice input process for inputting a voice document;
前記音声入力工程で入力された音声を認識してテキス トファイルに変換する音 声認識工程と ;  A voice recognition step of recognizing the voice input in the voice input step and converting it into a text file;
前記音声認識工程で変換されたテキス トファイルと、 前記音声認識工程でテキ ス トファイルに変換しなかった音声文書を含む音声ファイルとを混在させて送信 する送信工程とを備える ;  A transmitting step of mixing and transmitting the text file converted in the voice recognition step and a voice file including a voice document not converted to the text file in the voice recognition step;
音声文書送信方法。 Voice document transmission method.
6 . 音声入力工程で入力された音声を予め登録されている例文の識別子に変 換する例文識別工程を備え ; 6. An example sentence identification step for converting the speech input in the speech input step into an identifier of an example sentence registered in advance;
前記送信工程は、 さ らに例文の識別子を混在させて送信する ;  The transmitting step further transmits an example sentence identifier mixedly;
請求項 5に記載の音声文書送信方法。  The voice document transmission method according to claim 5.
7 . 前記音声認識工程は、 前記音声のプロファイルを参照して音声を認識す るよ うに構成きれた、 請求項 5または請求項 6に記載の音声文書送信方法。 7. The voice document transmitting method according to claim 5, wherein the voice recognition step is configured to recognize the voice by referring to the voice profile.
8 . 音声による文書を入力する音声入力処理と ; 8. Voice input processing for inputting a document by voice;
前記音声入力処理で入力された音声を認識してテキス トファイルに変換する音 声認識処理と ;  Voice recognition processing for recognizing the voice input in the voice input processing and converting it into a text file;
前記音声認識処理で変換されたテキス トファイルと、 前記音声認識処理でテキ ス トファイルに変換しなかった音声文書を含む音声ファイルとを混在させて送信 する送信処理とを行う よ うに ;  Transmitting a text file converted by the voice recognition process and a voice file including a voice document that has not been converted into a text file by the voice recognition process;
送信装置を制御するためのプログラムを、 前記送信装置に提供して、 音声文書 送信装置と して構成する ;  Providing a program for controlling the transmitting device to the transmitting device, to constitute a voice document transmitting device;
音声文書送信装置の製造方法。  A method for manufacturing a voice document transmitting device.
9 . 音声による文書を入力する音声入力処理と ; 9. voice input processing for inputting a document by voice;
前記音声入力処理で入力された音声を認識してテキス トファイルに変換する音 声認識処理と ;  Voice recognition processing for recognizing the voice input in the voice input processing and converting it into a text file;
前記音声認識処理で変換されたテキス トファイルと、 前記音声認識処理でテキ ス トファイルに変換しなかった音声文書を含む音声ファイルとを混在させて送信 する送信処理とを行う よ うに ;  Transmitting a text file converted by the voice recognition process and a voice file including a voice document that has not been converted into a text file by the voice recognition process;
音声文書送信装置を制御するためのプログラムを格納した、 音声文書送信装置 で読み取り可能な記録媒体。  A recording medium that stores a program for controlling the voice document transmission device and is readable by the voice document transmission device.
1 0 . テキス トファイルを含む信号を受信する受信機構と ; 前記受信装置で受信した信号を解読する解読機構と ; 10. A receiving mechanism for receiving a signal containing a text file; A decoding mechanism for decoding a signal received by the receiving device;
前記解読機構で解読したテキス トファイルを音声に変換する音声化機構を備え る ;  A voice conversion mechanism for converting the text file decrypted by the decryption mechanism into voice;
音声文書受信装置。  Voice document receiving device.
1 1 . 請求項 1 0 に記載の音声文書受信装置を用いて、 音声による文書を受信 する、 音声文書受信方法。 11. A voice document receiving method for receiving a voice document using the voice document receiving device according to claim 10.
1 2 . テキス ト ファイルを含む信号を受信する受信工程と ; 12. receiving a signal containing a text file;
前記受信工程で受信した信号を解読する解読工程と ; '  A decoding step of decoding the signal received in the receiving step;
前記解読工程で解読したテキス トファイルを音声に変換する音声化工程とを備 える ;  An audio converting step of converting the text file decrypted in the decrypting step into voice.
音声文書受信方法。  How to receive voice documents.
1 3 . テキス トファイルを含む信号を受信する受信処理と ; 1 3. Reception processing for receiving a signal containing a text file;
前記受信処理で受信した信号を解読する解読処理と ;  Decoding processing for decoding the signal received in the reception processing;
前記解読処理で解読した信号に含まれるテキス トファイルを音声に変換する音 声化処理とを行う よ うに ;  Performing a voice conversion process for converting a text file included in the signal decoded in the decoding process into a voice;
受信装置を制御するためのプログラムを、 前記受信装置に提供して、 音声文書 受信装置と して構成する ;  A program for controlling the receiving device is provided to the receiving device, and is configured as a voice document receiving device;
音声文書受信装置の製造方法。  A method for manufacturing a voice document receiving device.
1 4 . テキス トファイルを含む信号を受信する受信処理と ; 14. Reception processing for receiving a signal containing a text file;
前記受信処理で受信した信号を解読する解読処理と ;  Decoding processing for decoding the signal received in the reception processing;
前記解読処理で解読した信号に含まれるテキス トファイルを音声に変換する音 声化処理とを行う よ う に ;  Performing a voice conversion process of converting a text file included in the signal decoded by the decoding process into a voice;
音声文書受信装置を制御するためのプログラムを格納した、 音声文書受信装置 で読み取り可能な記録媒体。 A recording medium that stores a program for controlling the voice document receiving device and is readable by the voice document receiving device.
1 5 . テキス トファイルと音声ファイルとを含む信号を受信する受信機構と ; 前記受信機構で受信した信号中の音声ファイルをテキス トファイルに変換する 音声認識機構と ; 15. A receiving mechanism for receiving a signal including a text file and a voice file; a voice recognition mechanism for converting a voice file in the signal received by the receiving mechanism into a text file;
前記受信機構で受信したテキス トファイルと前記音声認識機構で変換したテキ ス トファイルとを併せて送信するテキス トファイル送信機構とを備える ; 音声文書中継装置。  A text file transmitting mechanism for transmitting the text file received by the receiving mechanism and the text file converted by the voice recognition mechanism together; a voice document relay device;
1 6 . 請求項 1 5 に記載の音声文書中継装置を用いて、 音声による文書を中継 する、 音声文書中継方法。 16. A voice document relay method for relaying a voice document using the voice document relay device according to claim 15.
1 7 . テキス トファイルと音声ファイルとを含む信号を受信する受信工程と ; 前記受信工程で受信した信号中の音声ファイルをテキス トファイルに変換する テキス ト化工程と ; 17. A receiving step of receiving a signal including a text file and an audio file; a text converting step of converting an audio file in the signal received in the receiving step into a text file;
前記受信工程で受信したテキス トファイルと前記テキス ト化工程で変換したテ キス トファイルとを併せて送信するテキス トフアイル送信工程とを備える ; 音声文書中継方法。  A text file transmitting step of transmitting together the text file received in the receiving step and the text file converted in the text converting step; a voice document relay method.
PCT/JP2001/002332 2000-04-17 2001-03-23 Apparatus for transmitting and receiving voice message, method of manufacture thereof, relay device, method of transmitting, receiving and relaying, and recording medium WO2001080020A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2001242768A AU2001242768A1 (en) 2000-04-17 2001-03-23 Apparatus for transmitting and receiving voice message, method of manufacture thereof, relay device, method of transmitting, receiving and relaying, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000-115179 2000-04-17
JP2000115179A JP2001306461A (en) 2000-04-17 2000-04-17 Transmitter, transmitting method, receiver, and receiving method for voice document, manufacturing method for the transmitter and the receiver, and repeater, repeating method and recording medium, for voice document

Publications (1)

Publication Number Publication Date
WO2001080020A1 true WO2001080020A1 (en) 2001-10-25

Family

ID=18626874

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/002332 WO2001080020A1 (en) 2000-04-17 2001-03-23 Apparatus for transmitting and receiving voice message, method of manufacture thereof, relay device, method of transmitting, receiving and relaying, and recording medium

Country Status (3)

Country Link
JP (1) JP2001306461A (en)
AU (1) AU2001242768A1 (en)
WO (1) WO2001080020A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011461A (en) * 1996-06-26 1998-01-16 Sharp Corp Retrieval device applying recognition of voice
JPH10285275A (en) * 1997-04-11 1998-10-23 Nec Corp Calling method, voice transmitting device and voice receiving device
JPH1152987A (en) * 1997-07-31 1999-02-26 Hitachi Ltd Speech synthesis device with speaker adaptive function
JPH11112550A (en) * 1997-09-30 1999-04-23 Nec Corp Electronic mail system terminal and electronic mail system
JP2000020279A (en) * 1998-07-03 2000-01-21 Olympus Optical Co Ltd Recording medium where voice information transmitting program is recorded, and voice information transmitting device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011461A (en) * 1996-06-26 1998-01-16 Sharp Corp Retrieval device applying recognition of voice
JPH10285275A (en) * 1997-04-11 1998-10-23 Nec Corp Calling method, voice transmitting device and voice receiving device
JPH1152987A (en) * 1997-07-31 1999-02-26 Hitachi Ltd Speech synthesis device with speaker adaptive function
JPH11112550A (en) * 1997-09-30 1999-04-23 Nec Corp Electronic mail system terminal and electronic mail system
JP2000020279A (en) * 1998-07-03 2000-01-21 Olympus Optical Co Ltd Recording medium where voice information transmitting program is recorded, and voice information transmitting device

Also Published As

Publication number Publication date
AU2001242768A1 (en) 2001-10-30
JP2001306461A (en) 2001-11-02

Similar Documents

Publication Publication Date Title
US6895257B2 (en) Personalized agent for portable devices and cellular phone
US6975988B1 (en) Electronic mail method and system using associated audio and visual techniques
JP3884851B2 (en) COMMUNICATION SYSTEM AND RADIO COMMUNICATION TERMINAL DEVICE USED FOR THE SAME
WO2005112374A1 (en) Method for transmitting messages from a sender to a recipient, a messaging system and message converting means
EP1160704A2 (en) E-mail processing system, processing method and processing device
US20070143495A1 (en) Personal messaging systems
WO2006085565A1 (en) Information communication terminal, information communication system, information communication method, information communication program, and recording medium on which program is recorded
CN101356427A (en) Email text-to-speech conversion in sender&#39;s voice
US6574598B1 (en) Transmitter and receiver, apparatus and method, all for delivery of information
JP2002288213A (en) Data-forwarding device, data two-way transmission device, data exchange system, data-forwarding method, data-forwarding program, and data two-way transmission program
KR20090054609A (en) Voip telephone communication system and method for providing users with telephone communication service comprising emotional contents effect
JPH04175049A (en) Audio response equipment
JP2001109487A (en) Voice reproduction device and voice reproduction method for electronic mail and recording medium recording voice reproduction program
WO2001080020A1 (en) Apparatus for transmitting and receiving voice message, method of manufacture thereof, relay device, method of transmitting, receiving and relaying, and recording medium
KR101916107B1 (en) Communication Terminal and Information Processing Method Thereof
JP2012518308A (en) Messaging system
JPH0561637A (en) Voice synthesizing mail system
JPH10290256A (en) Received electronic mail report device and storage medium
JP2003152870A (en) Method for identifying mother language (official language) and foreign language voice guide service device
WO2011004207A1 (en) Method and system for compressing short messages, computer program and computer program product therefor
JP3147897B2 (en) Voice response system
KR20010091677A (en) selective on-line interactive system using voice synthesis and method therefore
JP3147898B2 (en) Voice response system
US20230259719A1 (en) Multilingual conversation tool
JPH09258764A (en) Communication device, communication method and information processor

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
122 Ep: pct application non-entry in european phase