WO2005086010A1 - メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム - Google Patents

メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム Download PDF

Info

Publication number
WO2005086010A1
WO2005086010A1 PCT/JP2005/003216 JP2005003216W WO2005086010A1 WO 2005086010 A1 WO2005086010 A1 WO 2005086010A1 JP 2005003216 W JP2005003216 W JP 2005003216W WO 2005086010 A1 WO2005086010 A1 WO 2005086010A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image
voice quality
configuration information
voice
Prior art date
Application number
PCT/JP2005/003216
Other languages
English (en)
French (fr)
Inventor
Reishi Kondo
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Publication of WO2005086010A1 publication Critical patent/WO2005086010A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Definitions

  • the present invention relates to a message transmission system that reads out a message received by a reception device and displays an image, a message transmission method, a reception device, a transmission device, and a message transmission program.
  • Non-Patent Document 1 describes an example of a conventional message transmission system.
  • FIG. 1 is a block diagram showing one configuration example of a conventional message transmission system.
  • the conventional message transmission system includes a speech synthesis unit 21 and an image display unit 22.
  • the conventional message transmission system having such a configuration operates as follows.
  • Voice synthesis unit 21 reads out the content of the received e-mail.
  • the nature of the voice used for reading (hereinafter referred to as voice quality information) is either the voice quality information set by the user of the receiving device 11 (hereinafter referred to as the receiver) or the voice quality information automatically selected by the receiving device 11.
  • the image display unit 22 displays an image corresponding to the e-mail received by the receiving device 13, and changes the image as the reading-out progresses.
  • image information and image configuration information that is information for changing the image are used.
  • the image configuration information is an image previously stored in the receiving device 13 by the receiver, and position information of a face part such as an eye and a mouth set by the receiver with respect to the image.
  • the image configuration information is stored in the terminal in advance instead of being set by the receiver.
  • Patent Document 1 Another system capable of reading out a received electronic mail is described in Patent Document 1.
  • the system described in Patent Literature 1 reads out an e-mail with a synthetic voice and moves the robot at the same time based on operation control information embedded in a character string in a received message. Also, the voice data of the received e-mail is stored in association with the sender.
  • Patent Document 2 Another method for reading out a received electronic mail is described in Patent Document 2.
  • the method described in Patent Document 2 is to select an image from a plurality of images stored in advance on a receiving side by a sender ID and display the received e-mail, and to display the e-mail. Read aloud with synthesized speech. The voice quality information of the synthesized speech is used by analyzing the sender's speech in advance.
  • Patent Document 1 JP-A-2003-308142
  • Patent Document 2 Japanese Patent Application Laid-Open No. 07-066832
  • Non-Patent Document 1 "NTT DoCoMo mobile phone comprehensive catalog De Ce mber2003 (9 edition)" stock company NTT DoCoMo, December 2003, p 27
  • a first problem of the conventional technique is that when voice quality information and image configuration information are both set, they must be set separately.
  • the second problem is that the receiver must make preparations such as selecting in advance voice quality information or image composition information suitable for the sender of the received e-mail.
  • voice quality information or image composition information suitable for the sender often there is no way to provide voice quality information or image composition information suitable for the sender via a communication line.
  • the third problem is that there is no method for providing voice quality information or image configuration information provided by a third party other than the sender and the receiver to the receiver via a communication line.
  • an object of the present invention is to provide a message transmission system, a message transmission method, a reception device, a transmission device, and a message transmission program that can integrally handle voice quality information or image configuration information. Further, the present invention provides a message transmission system, a message transmission method, a receiving device, and a communication method that allow a sender of an e-mail to provide voice quality information or image configuration information suitable for the sender at the time of sending the e-mail via a communication line. It is intended to provide a transmission device and a message transmission program.
  • the present invention provides a message transmission system, a message transmission method, a reception device, a transmission device, and a message for providing voice quality information or image configuration information provided by a third party other than the sender and the recipient via a communication line.
  • the purpose is to provide a communication program.
  • a message transmission system includes a transmitting unit for transmitting a text message, a voice synthesizing unit for generating a synthesized voice based on the received text message, and generating information of an image to be displayed together with an output of the synthesized voice.
  • Image information generating means image display means for displaying an image based on the image information generated by the image information generating means, image configuration information which is information of an image to be displayed on the image display means, and sound generating means.
  • Expression information storage means for pre-storing expression information including voice quality information which is information on the characteristics of the synthesized speech to be made, wherein the image information generation means generates image information based on the image configuration information, and performs speech synthesis.
  • the means generates a synthesized speech based on the voice quality information, generates delimiter information indicating information of a delimiter of the generated synthesized speech, and generates an image display means. Input to the image display means, based on the input delimiter information, and wherein the changing the image to be displayed in timing separator synthesized speech.
  • a transmitting device including a transmitting device, a voice synthesizing device, an image information generating device, an image displaying device, and a receiving device including an expression information storing device may be provided. According to such a configuration, the image and sound desired by the user of the receiving device can be output to the receiving device.
  • a receiving device including a voice synthesizing unit, an image information generating unit, and an image displaying unit, a transmitting unit, an expression information storing unit, and transmitting expression information stored in the expression information storing unit to the receiving device.
  • a transmitting device including expression information transmitting means.
  • the image information generating means may include voice quality information generating means for receiving the expression information and generating voice quality information.
  • the image configuration information may be generated from the expression information received from the transmission device. According to such a configuration, an image and sound desired by the user of the transmitting device can be output to the receiving device.
  • the transmitting device may include a charging unit that generates expression information charging information that is fee information according to the expression information transmitted to the receiving device. According to such a configuration, a fee can be charged to the user of the transmitting device according to the expression information transmitted to the receiving device.
  • External image configuration information storage means for storing all or a part of the image configuration information
  • a receiving apparatus for storing all or part of the image configuration information stored in the external image configuration information storage means
  • An image configuration information providing device that includes an image configuration information transmission unit that transmits the image configuration information to the device. According to such a configuration, an image provided by a third party other than the user of the transmitting device and the receiving device, which is stored in the external image configuration information storage unit, can be output to the receiving device.
  • the receiving device and the image configuration information providing device may be connected by a dedicated line! According to such a configuration, the communication protocol between the receiving device and the image configuration information providing device can be simplified, so that the construction of the message transmission system is simplified.
  • the receiving device and the image configuration information providing device may be connected via a public line network! According to such a configuration, the user of the receiving device can use the image configuration information stored in the plurality of image configuration information providing devices via a public line network such as the Internet.
  • the expression information may include image index information which is information indicating the position of all or a part of the image configuration information stored in the external image configuration information storage means. Based on this, the image configuration information transmitting unit may request transmission of all or a part of the image configuration information stored in the external image configuration information storage unit.
  • the image configuration information transmitting unit may transmit all or a part of the image configuration information stored in the external image configuration information storage unit to the receiving device in response to a request from the image information generation unit.
  • the image configuration information providing apparatus may include a charging unit that generates image charging information, which is information on a fee corresponding to the image configuration information transmitted to the receiving apparatus. According to such a configuration, a fee can be charged to the user of the receiving apparatus according to the image configuration information transmitted to the receiving apparatus.
  • External voice quality information storage means for storing all or part of the voice quality information, and voice quality information transmitting means for transmitting all or a part of the voice quality information stored in the external voice quality information storage means to the receiving device are included.
  • a voice quality information providing device may be provided.
  • the external voice quality information storage means can store, in the receiving device, a synthesized voice having a characteristic of voice provided by a third party other than the user of the transmitting device and the receiving device. Can be.
  • the receiving device and the voice quality information providing device may be connected by a dedicated line.
  • a dedicated line In such a configuration According to this, since the communication protocol between the receiving device and the voice quality information providing device can be simplified, the construction of the message transmission system is simplified.
  • the receiving device and the voice quality information providing device may be connected via a public line network.
  • the user of the receiving apparatus can use the image configuration information stored in the plurality of voice quality information providing apparatuses via a public line network such as the Internet.
  • the expression information may include voice quality index information, which is information indicating the position of all or a part of voice quality information stored in the external voice quality information storage means, and the voice synthesis means may use the voice quality index information based on the voice quality index information.
  • the voice quality information transmitting means may be requested to transmit all or a part of the voice quality information stored in the external voice quality information storage means.
  • the voice quality information transmitting means may transmit all or part of the voice quality information stored in the external voice quality information storage means to the receiving device in response to a request from the voice synthesis means.
  • the voice quality information providing device may include a billing unit that generates voice quality billing information that is fee information according to the voice quality information transmitted to the receiving device. According to such a configuration, it is possible to charge a fee to the user of the receiving device according to the voice quality information transmitted to the receiving device.
  • the message transmission method is a method for receiving voice message, comprising: voice information of expression information including image composition information which is information of an image to be displayed and voice quality information which is information of characteristics of synthesized voice; Generates synthesized speech based on the generated text message, generates delimiter information indicating the delimiter of the synthesized voice, outputs the synthesized voice, and displays the image information to be displayed together with the output of the synthesized voice based on the image configuration information. Is generated, an image based on the information of the image is displayed, and the image to be displayed is changed at the timing of the break of the synthesized voice based on the break information.
  • Image composition information may be generated from expression information, or voice quality information may be generated from expression information. According to such a method, it is possible to output images and sounds desired by the user.
  • Expression information charging information which is information on a fee corresponding to the transmitted expression information, may be generated. According to such a method, a fee can be charged to the user on the receiving side according to the transmitted expression information.
  • the expression information indicates the position where all or a part of the image configuration information is stored in the external image configuration information storage means by storing all or a part of the image configuration information.
  • the external image configuration information storage means is requested to transmit all or a part of the stored image configuration information. All or part of the image configuration information may be received from the external image configuration information storage unit. According to such a method, an image of a third party or the like stored in the external image configuration information storage means can be output to the receiving side.
  • image charging information may be generated, which is information on a fee corresponding to the transmitted image configuration information. According to such a method, it is possible to charge a fee to the user on the receiving side according to the image configuration information transmitted to the receiving side.
  • the expression information is stored in the external voice quality information storage means storing all or a part of the voice quality information, and stores all or a part of the voice quality information, Based on the voice quality index information that may be included, the external voice quality information storage means may request transmission of all or part of the voice quality information from the external voice quality information storage means. You may receive it. According to such a method, the external voice quality information storage means can store and output the synthesized voice having the characteristics of the voice of the third party to the receiving side.
  • voice quality billing information which is information of a fee corresponding to the transmitted voice quality information, may be generated. According to such a method, a fee can be charged to the user on the receiving side according to the voice quality information transmitted to the receiving side.
  • a receiving device is a receiving device for receiving a text message, and includes a voice quality of expression information including image configuration information that is image information and voice quality information that is information of characteristics of synthesized speech.
  • Voice synthesis means for generating a synthesized voice based on the information and the text message received from the transmission device; and a synthesized voice based on the image configuration information.
  • An image information generating means for generating information on an image to be displayed together with the output; and an image display means for displaying an image based on the information on the image generated by the image information generating means.
  • the image display means changes the image to be displayed at the delimiter timing of the synthesized voice based on the input delimiter information. It is characterized by.
  • the image information generating means which may include an expression information storage means for storing expression information in advance,
  • the expression information power may generate the image configuration information. According to such a configuration, it is possible to output images and sounds desired by the user of the receiving device.
  • the image information generating means which may include voice quality information generating means for receiving the expression information and generating voice quality information from the expression information, receives the expression information and generates image composing information from the expression information. May be. According to such a configuration, an image and a sound desired by the user of the transmitting device can be output to the receiving device.
  • All or part of the image configuration information may be received from an image configuration information providing device that stores all or part of the image configuration information. According to such a configuration, the image of the third party or the like stored in the image information providing device can be output to the receiving device.
  • the expression information may include image index information which is information indicating the position of all or a part of the image configuration information stored in the image configuration information providing apparatus. Requesting the image configuration information providing device to transmit all or a part of the image configuration information stored in the image configuration information providing device, and requesting transmission of the image configuration information stored in the image configuration information providing device from the image configuration information providing device. All or some may be received.
  • the image information providing device may be connected to a public line network. According to such a configuration, the user of the receiving apparatus can use the image configuration information stored in the plurality of image information providing apparatuses.
  • All or part of the voice quality information may be received from a voice quality information providing device that stores all or part of the voice quality information.
  • the voice quality information providing device The receiving device can output a synthesized voice having the nature of the voice of the third party.
  • the expression information may include voice quality index information which is information indicating the position of all or a part of voice quality information stored in the voice quality information providing device, and the voice synthesizing means may use voice quality index information based on the voice quality index information. Requests the information providing device to transmit all or part of the voice quality information stored in the voice quality information providing device, and receives all or part of the voice quality information stored in the voice quality information providing device from the voice quality information providing device. Is also good.
  • the user of the receiving device can use the voice quality information stored in the plurality of voice quality information providing devices.
  • the transmitting apparatus uses a text message to be transmitted to the receiving apparatus, image configuration information that is information on an image to be displayed on the receiving apparatus, and information on characteristics of a synthesized voice of the text message to be generated by the receiving apparatus. It is characterized by including transmitting means for transmitting expression information including certain voice quality information.
  • the message transmission program allows a computer to perform processing based on voice quality information of expression information including image composition information as image information and voice quality information as information on characteristics of synthesized speech, and a received text message.
  • a speech synthesis process that generates synthesized speech by generating synthesized speech, and generates delimiter information that is information indicating a delimiter of the synthesized speech, and generates image information to be displayed together with the output of the synthesized voice of the text message based on the image configuration information.
  • an image display unit that displays an image based on the delimiter information, and executes an image display process that changes and displays the image at the timing of the delimitation of the synthesized voice.
  • the expression information is received, and the expression A process for generating configuration information may be executed.
  • the expression information is received, and the expression A process for generating configuration information may be executed.
  • an image desired by the user on the transmission side can be displayed on the image display means, and a synthesized voice having a property desired by the user on the transmission side can be output to the sound output means.
  • the external image configuration information storage means for storing all or a part of the image configuration information and the external image configuration information storage means are stored!
  • An image information providing device including an image configuration information transmitting unit for transmitting all or a part of the image configuration information is transmitted from the external image configuration information storage unit to the entire image configuration information included in the expression information and stored in the external image configuration information storage unit.
  • Based on the image index information which is information indicating a part of the image, an image that can be processed by requesting the image information providing apparatus to transmit all or part of the image configuration information stored in the image information providing apparatus.
  • a process for receiving all or a part of the image configuration information from the information providing device may be executed.
  • the image information providing device can display an image of a third party or the like stored on the image display means.
  • the external voice quality information storage means for storing all or a part of the voice quality information in the computer in the voice synthesis processing, and the external voice quality information storage means for storing all or a part of the voice quality information stored in the computer.
  • a voice quality index which is information indicating the position of all or part of voice quality information included in the expression information and stored in the external voice quality information storage means from the voice quality information providing apparatus including the voice quality information transmitting means to be transmitted.
  • the voice quality information providing device may perform a process of requesting the voice quality information providing device to transmit all or a part of the voice quality information stored in the voice quality information providing device. May be executed to receive all or a part of. According to such a configuration, it is possible to cause the voice output means to output a synthesized voice having the characteristics of the voice of the third party stored in the voice quality information providing device.
  • a first effect of the present invention is that an electronic mail can be expressed by a synthesized voice and an image using voice quality information and image configuration information, which are contents linked to a sender. Further, the second effect is that closer communication can be performed by using voice quality information or image composition information provided by the sender of the e-mail. Furthermore, the third effect is that, for example, a third party who has the right to use the voice or image of a celebrity or a character provides voice quality information or image composition information to the receiver so that the sender and the receiver can communicate with each other. This means that a wider variety of communication can be performed.
  • FIG. 2 is a block diagram showing one configuration example of the first embodiment of the present invention.
  • a transmitting device 11 for transmitting a text message such as an e-mail via a communication line 12 and a synthetic voice based on the text message received from the transmitting device 11 are provided.
  • a receiving device 13 for outputting an image corresponding to the output of the synthesized voice.
  • the transmission device 11 includes a text message storage unit 31 that stores a text message, and a transmission unit 32 that transmits the text message stored in the text message storage unit 31 to the reception device 13 via the communication line 12.
  • the receiving device 13 includes an expression information storage unit (expression information storage means) 34 for storing expression information including voice quality information and image configuration information, a voice quality information generation unit (voice information generation) for generating voice quality information from expression information. Means) 23, an image configuration information generation unit (image information generation unit) 24 that generates image configuration information from expression information, an image configuration information storage unit 33 that stores image configuration information, and converts a text message into a synthesized voice based on voice quality information.
  • expression information storage unit expression information storage means
  • voice quality information generation unit voice information generation
  • Means 23
  • image configuration information generation unit image information generation unit 24 that generates image configuration information from expression information
  • an image configuration information storage unit 33 that stores image configuration information, and converts a text message into a synthesized voice based on voice quality information.
  • Speech synthesis unit speech synthesis means 21 that converts and generates delimiter information that is information indicating the delimitation of synthesized speech, an image display unit (image display unit) that displays images based on image configuration information and delimiter information Display means) 22 and a speaker 27 for outputting synthesized voice.
  • the voice quality information generation unit 23 generates voice quality information from the expression information stored in the expression information storage unit 34.
  • the voice quality information is information that specifies the voice quality of the synthesized voice generated by the voice synthesis unit 21 by converting the text message power.
  • the voice quality information includes the name of the speaker, the pitch of the voice, the intensity of the intonation, the characteristics of the ending, etc. Includes one or more of the elements that are pronounced of the situation at the time.
  • the image configuration information generation section 24 generates image configuration information from the expression information stored in the expression information storage section 34.
  • the image configuration information is information used by the image display unit 22 to compose and display an image of the sender or a character representing the sender.
  • the image configuration information includes a basic image, which is a basic image, and a face for generating an image.
  • the image may include information on the position and shape of the eyes, mouth, eyebrows, and the like.
  • the image of other parts may include the same information.
  • the image configuration information generation unit 24 stores the generated image configuration information in the image configuration information storage unit 33.
  • the image configuration information storage unit 33 stores the image configuration information.
  • the image configuration information may be information such as a portrait of the sender, a full-length photograph, a portrait, or an inanimate object such as a character that reminds the receiver of the sender.
  • the image composition information is not limited to the above, but uses parameters for combining and displaying characters in computer graphics (CG), information obtained by attaching a number or the like to each of a plurality of still images, and the like.
  • CG computer graphics
  • the voice synthesis unit 21 converts the text message received from the transmission device 11 into a synthesized voice based on the voice quality information generated by the voice quality information generation unit 23, and outputs it to the speaker 27.
  • There are various types of breaks in the output of synthesized speech such as the start of synthesized speech output, paragraph breaks, sentence breaks, syllable breaks, and end of synthesized speech output.
  • the voice synthesizing unit 21 outputs the delimiter information to the image display unit 22 at timings of some of these delimiters.
  • the image display unit 22 generates and generates an image based on the image configuration information stored in the image configuration information storage unit 33 at the timing when the speech synthesis unit 21 inputs the delimiter information. Display the image.
  • the image display unit 22 stores in advance the elements of the image configuration information that are read in accordance with the delimiter information input by the speech synthesis unit 21.
  • the transmitting device 11 and the receiving device 13 are, for example, a mobile phone having an e-mail transmitting / receiving function
  • the communication line 12 is a mobile phone communication network and a data communication network attached thereto.
  • the application of the present invention is not limited to these, and may be an electronic mail system or chat system via a general Internet, a personal computer communication system using a dedicated host, an IP telephone network, a video communication network, or the like.
  • the communication between the transmitting device 11 and the receiving device 13 via the communication line 12 may be unidirectional communication from the transmitting device 11 to the receiving device 13 instead of bidirectional communication.
  • the receiving device 13 is based on the voice quality information of the expression information including the image configuration information that is the information of the image and the voice quality information that is the information of the characteristic of the synthesized voice, and the received text message.
  • a speech synthesis process for generating delimiter information that is information indicating a delimiter of the synthesized speech, and generating image information to be displayed together with the output of the synthesized voice of the text message based on the image configuration information.
  • a message transmission program for executing an image information generation process and an image display process for changing and displaying an image at a timing of a delimiter of a synthesized voice is mounted on the image display unit 22 for displaying an image based on the delimiter information. I do.
  • FIG. 3 is a flowchart illustrating the operation of the first exemplary embodiment of the present invention.
  • the transmission unit 32 of the transmission device 11 transmits the text message stored in the text message storage unit 31 to the reception device 13 via the communication line 12 (Step S101).
  • FIG. 4 shows an example of a text message stored in the text message storage unit 31.
  • the text message storage unit 31 stores a text message “Today is fine weather”.
  • the transmitting unit 32 transmits a text message “This day is fine weather” to the receiving device 13 via the communication line 12.
  • the voice synthesizing unit 21 when the voice synthesizing unit 21 receives the text message, it notifies the voice quality information generating unit 23 and the image configuration information generating unit 24 that the text message has been received (step S102).
  • the voice quality information generation unit 23 and the image configuration information generation unit 24 read the expression information stored in the expression information storage unit 34 (step S103).
  • FIG. 5 is an explanatory diagram showing an example of the expression information.
  • the expression information includes voice quality information and image configuration information.
  • the voice quality information generation unit 23 generates voice quality information from the read expression information
  • the image configuration information generation unit 24 generates image configuration information from the read expression information (step S104).
  • FIG. 6 is an explanatory diagram showing an example of voice quality information.
  • Voice quality information is information indicating the speaker, the utterance speed, and the pitch of the voice.
  • the pitch of the voice is set to the reference value + 100 Hz, but may be indicated by an absolute value such as 350 Hz.
  • FIG. 7 is an explanatory diagram showing an example of the image configuration information.
  • the image configuration information indicates the basic image, the relative position of the eye, the size of the eye, the relative position of the mouth, and the opening of the mouth.
  • the relative position of the eyes and the relative position of the mouth are represented by, for example, coordinate values normalized using the center of the face image as the origin.
  • the eye phase In the opposite position, the relative position of the right eye is, for example, the Y coordinate value and the X coordinate value of the intersection of the diagonal lines of the rectangle enclosing the right eye, and the relative position of the left eye is the diagonal line of the rectangle enclosing the left eye.
  • the relative position of the mouth includes, for example, the Y coordinate value of the upper side of the rectangle surrounding the mouth (indicating the vertical position of the mouth) and the value of the width of the rectangle (indicating the width of the mouth). , The height of the square (indicating the thickness of the mouth).
  • the size of the right eye is indicated by the height (indicating the thickness of the right eye) and the width (indicating the width of the right eye) of the rectangle surrounding the right eye
  • the size is indicated by the height (indicating the thickness of the left eye) and the width (indicating the width of the left eye) of the rectangle surrounding the left eye.
  • the opening degree of the mouth is represented by a value obtained by, for example, setting the height of a square surrounding the mouth when the mouth is opened most wide to 100 as a regular angle. For example, a mouth opening of 75 indicates that the mouth is open at 75% of the height when the mouth was opened widest.
  • the image indicated by the image configuration information is quantified and shown by the above-described method. However, the present invention is not limited to this, and the image is formed by another method. The information may indicate.
  • the image configuration information generation unit 24 stores the generated image configuration information in the image configuration information storage unit 33.
  • the image display unit 22 reads out the image configuration information stored in the image configuration information storage unit 33, and displays the basic image (step S105).
  • the voice synthesis unit 21 synthesizes the voice of the received text message based on the voice quality information generated by the voice quality information generation unit 23, generates a synthesized voice, and starts outputting the synthesized voice to the speaker 27. Yes (step S106).
  • FIG. 8 is an explanatory diagram showing an example of a speech waveform of a synthesized speech generated by the speech synthesis section 21 performing speech synthesis of a received text message based on voice quality information.
  • the voice synthesizing unit 21 internally has information on timing points.
  • time A to time D are shown in FIG.
  • Time A is the time at the start of the utterance
  • time B is the time at the reading point
  • time C is the time at the segment break recognized by the speech synthesis unit 21
  • time D is the end of the utterance.
  • the speech synthesizer 21 generates delimiter information at the time of each timing point and outputs the information to the image display 22.
  • the image information display unit 22 changes the image to be displayed on the predetermined image at the time of each timing point based on the delimiter information.
  • the image display unit 22 stores the image configuration information storage unit 33.
  • the information of the relative position of the mouth and the opening of the mouth is read (step S108).
  • the image display unit generates an image around the mouth in accordance with the read information on the relative position of the mouth and the degree of opening of the mouth, and overwrites the image around the mouth of the displayed basic image. I do.
  • the opening degree of the mouth of the basic image is 75, the image is rewritten to an image with the opening of the mouth having the opening degree of 100 (step S109).
  • the image display unit 22 reads information on the relative position and size of the eyes stored in the image configuration information storage unit 33 (step S111). Then, centering on the relative position of the eyes, for example, the image in the rectangle that touches and surrounds the right eye is tilted 30 degrees counterclockwise. Also, tilt the image inside the rectangle that touches and surrounds the left eye by 30 degrees clockwise. Then, an image in which the eyes look laughing is generated, and the image display unit 22 rewrites the image around the eyes of the basic image into an image in which the eyes look laughing (step S112).
  • the image display unit 22 reads the information on the relative position and size of the eyes stored in the image configuration information storage unit 33 (step S114). Then, the image display unit generates and displays an image around the eye in accordance with the read information on the relative position of the eye and the size of the eye, and displays it! Then, the image around the eye is overwritten with the basic image (step S115).
  • the image display unit 22 reads the information on the relative position of the mouth and the opening degree of the mouth stored in the image configuration information storage unit 33 (step S117). Then, the image display unit generates an image around the mouth according to the read information on the relative position of the mouth and the degree of opening of the mouth, and overwrites the displayed image around the open mouth. I do. In this embodiment, since the opening of the mouth of the basic image is 75, the image is rewritten into a basic image with the opening of the mouth being 100 and the opening of the mouth being 75 (step S118). ).
  • the voice synthesis unit 21 ends the output of the synthesized voice (step S119), and the image display unit 22 ends the display of the image (step S120).
  • FIG. 9 is an explanatory diagram illustrating an example of an image output by the image display unit 22 in the first embodiment. As described in the description of the operation of the first embodiment, it can be seen that the image output from the image display unit 22 changes from time A to time D according to the time. As described above, according to the present embodiment, image display unit 22 can output an image so that the image appears to move in conjunction with the output of the text message.
  • a text message may be a rich text accompanied by force modification information described using plain text as an example, or a phonetic symbol string representing the contents of speech synthesis.
  • the corresponding speech synthesizer 21 is used.
  • the operation shown in the flowchart of FIG. 3 is performed according to the force set in advance at each break time, the type of word in a sentence, a specific character type such as a symbol, and the modification information in the case of rich text. May be predetermined.
  • the expression information storage unit 34 stores a plurality of expression information corresponding to the transmission devices 11. Then, the transmitting device 11 transmits the sender ID indicating the transmitting device together with the text message, and the voice synthesizing unit 21 transmits the received sender ID to the voice quality information generating unit 23 and the image configuration information generating unit 24.
  • the voice quality information generation unit 23 and the image composition information generation unit 24 read out the expression information corresponding to the sender ID, respectively.
  • FIG. 10 is a block diagram showing a configuration example of the second embodiment of the present invention.
  • the configuration of the present embodiment is such that the expression information storage unit 34 of the reception device 13 of the first embodiment is provided in the transmission device 11, and the other configuration is the same as that of the first embodiment. Therefore, the same circuits and the like as those in the first embodiment are denoted by the same reference numerals as in FIG. 2, and the description is omitted.
  • the transmitting section (expression information transmitting means) 32 included in the transmitting apparatus 11 is connected to the expression information storage section 34 via the communication line 12 together with or separately from the text message stored in the text message storage section 31.
  • the stored expression information is transmitted to the receiving device 13.
  • the voice quality information generation unit 23 and the image configuration information generation unit 24 receive the expression information.
  • the transmission unit 32 may transmit the text message and the expression information as a unit on the communication line 12 or may transmit them separately.
  • the communication line 12 for transmitting the text message and expression information is They need not be logically identical.
  • Receiving device 13 generates synthesized speech based on the received text message and voice quality information of expression information including image configuration information that is image information and voice quality information that is information of characteristics of synthesized speech.
  • the image display unit 22 that displays an image based on the delimiter information is provided with a message transmission program that executes an image display process of changing and displaying an image at the timing of delimiting a synthesized voice.
  • the expression information is received, and image configuration information is generated from the expression information. May be performed.
  • FIG. 11 is a flowchart illustrating the operation of the second exemplary embodiment of the present invention.
  • the transmission unit 32 of the transmission device 11 transmits the text message and the expression information to the reception device 13 via the communication line 12 (Step S201).
  • the transmitting unit 32 adds a common header to the text message and the expression information, and transmits the communication line 12 as a unit.
  • the transmitting unit 32 may transmit the text message and the expression information as separate data. Further, once the text message and the expression information are sent as a unit, the expression information is stored in the storage unit (not shown) of the receiving device 13 and the transmission of the expression information is performed unless the expression information is changed. It may be omitted. Then, the configuration is the same as that of the first embodiment of the present invention.
  • the voice quality information generating unit 23 and the image configuration information generating unit 24 receive the expression information, and the voice synthesizing unit 21 receives the text message (step S202).
  • the voice quality information generation unit 23 generates voice quality information from the received expression information, and the image configuration information generation unit 24 also generates image configuration information based on the received expression information power (step S 203).
  • the image configuration information generation unit 24 stores the generated image configuration information in the image configuration information storage unit 33.
  • the image display unit 22 reads the image configuration information stored in the image configuration information storage unit 33. And display the basic image (step S204).
  • the voice synthesis unit 21 synthesizes the voice of the received text message based on the voice quality information generated by the voice quality information generation unit 23, generates a synthesized voice, and starts outputting the synthesized voice to the speaker 27. Yes (step S205).
  • step S206 steps S206 to S219 are the same as the operations after step S107 (steps S107 to S120) in the first embodiment, and a description thereof will not be repeated.
  • transmitting apparatus 11 since transmitting apparatus 11 transmits expression information to receiving apparatus 13, the user of transmitting apparatus 11 can synthesize desired voice quality.
  • the sound can be output from the speaker 27 of the receiving device 13 or an image desired by the user of the transmitting device 11 can be displayed on the image display unit 22 in conjunction with the output of the synthesized voice.
  • FIG. 12 is a block diagram showing one configuration example of the third embodiment of the present invention.
  • a server image configuration information providing device, voice quality information providing device 15 connected to the image configuration information generating unit 24 of the receiving device 13 of the second embodiment via the communication line 14 is used.
  • the server 15 includes a server image configuration information storage unit (external image configuration information storage unit) 35 storing image configuration information in advance, and image configuration information stored in the server image configuration information storage unit 35.
  • an image configuration information transmission unit (image configuration information transmission means) 25 for transmitting the image configuration information to the image configuration information generation unit 24 of the reception device 13 via the communication line 14.
  • the communication line 14 may connect the image information generation unit 24 and the server 15 with a dedicated line such as a LAN (Local Area Network), or may connect the image information generation unit 24 and the server 15 with a public line such as the Internet. May be connected. If the communication line 14 is a public line such as the Internet, the communication line 14 may be partially shared with the communication line 12.
  • a dedicated line such as a LAN (Local Area Network)
  • a public line such as the Internet
  • FIG. 13 is an explanatory diagram illustrating an example of the expression information according to the third embodiment.
  • the expression information includes voice quality information and an index of image configuration information.
  • the index of the image configuration information refers to the device that stores the image configuration information and the image configuration in the device. This is information indicating the location where the composition information is stored.
  • the index of the image configuration information since the server image configuration information storage unit 35 of the server 15 stores the image configuration information, the index of the image configuration information includes the IP address of the server 15 and the image in the server 15.
  • a position number is a number indicating the position where the configuration information is stored.
  • the index of the image configuration information is not limited to the pair of the server IP address and the position number in the server 15, but may be a pair of the server name and the full path name, a URI (Uniform Resource Identifier s), or the like. Good.
  • the image configuration information generation unit 24 When receiving the expression information including the index of the image configuration information, the image configuration information generation unit 24 connects to the server 15 via the communication line 14 based on the index of the image configuration information, and sets the position number of the image configuration information.
  • Send The image configuration information transmitting unit 25 of the server 15 reads the image configuration information of the position number received from the image configuration information generation unit 24 from the server image configuration information storage unit 35, and reads the read image configuration information via the communication line 14. To the image configuration information generation unit 24.
  • the receiving apparatus 13 is based on the voice information of the expression information including the image composition information that is the information of the image and the voice quality information that is the information of the characteristic of the synthesized voice, and the received text message.
  • Speech synthesis processing that generates synthesized speech and generates delimiter information that is information indicating the delimitation of synthesized speech, and image information that generates image information to be displayed together with the output of the synthesized voice of the text message based on the image configuration information
  • the image display unit 22 that displays an image based on the generation information and the delimiter information is loaded with a message transmission program that executes an image display process that changes and displays the image at the timing of the delimitation of the synthesized voice.
  • a server image configuration information storage unit 35 that stores all or a part of the image configuration information, and all or all of the image configuration information stored in the server image configuration information storage unit 35 From the server 15 including the image configuration information transmitting unit 25 for transmitting a part, information indicating the position of all or a part of the image configuration information included in the expression information and stored in the server image configuration information storage unit 35. Based on an index of a certain image configuration information, the server 15 may execute a process of requesting the server 15 to transmit all or a part of the image configuration information stored by the server 15 based on the index of the image configuration information. The processing of receiving all or a part of the information may be executed.
  • a voice quality information transmitting unit (not shown) for transmitting all or a part of the voice quality information stored in the external voice quality information storing unit. 15 and stored in the server 15 based on an index of voice quality information, which is information included in the expression information and indicates the position of all or a part of the voice quality information stored in the external voice quality information storage unit.
  • a process for requesting the server 15 to transmit all or a part of the voice quality information may be executed, and a process for receiving all or a part of the voice quality information from the server 15 may be performed.
  • FIG. 14 is a sequence diagram illustrating an operation when the image configuration information generation unit 24 receives image configuration information from the image configuration information transmission unit 25.
  • the image configuration information generation unit 24 When receiving the index of the image configuration information (Step S301), the image configuration information generation unit 24 requests the image configuration information transmission unit 25 of the server 15 to connect via the communication line 14 (Step S302). .
  • the image configuration information transmitting unit 25 permits the connection (step S303).
  • the image configuration information generation unit 24 transmits the position number included in the index of the image configuration information to the image configuration information transmission unit 25 via the communication line 14, and requests transmission of the image configuration information (step S304).
  • the image configuration information transmitting unit 25 Upon receiving the position number (step S305), the image configuration information transmitting unit 25 also reads out the image configuration information of the received position number from the server image configuration information storage unit 35 (step S306), and reads the read image configuration information.
  • the information is transmitted to the image configuration information generation unit 24 via the communication line 14 (step S307).
  • the image configuration information generation unit 24 When receiving the image configuration information (step S308), the image configuration information generation unit 24 requests the image configuration information transmission unit 25 to disconnect the connection (step S309). The image configuration information transmitting unit 25 permits disconnection (step S310). The image configuration information generation unit 24 disconnects from the image configuration information transmission unit 25 (step S311).
  • FIG. 15 is a flowchart illustrating the operation of the third exemplary embodiment of the present invention.
  • the transmitting unit 32 of the transmitting device 11 transmits the text message and the expression information to the receiving device 113 via the communication line 12 (Step S401).
  • the voice quality information generation unit 23 and the image configuration information generation unit 24 receive the expression information
  • the speech synthesis unit 21 receives the text message (step S402).
  • the image information generation unit 24 receives the image configuration information from the server 15 via the communication line 14 based on the index of the image configuration information included in the expression information (step S403).
  • the image information generation unit 24 performs the operation shown in the sequence diagram of FIG. 14, and receives the image configuration information from the server 15. Then, the image information generation unit 24 stores the received image configuration information in the image configuration information storage unit 33, and notifies the voice synthesis unit 21 that the image configuration information has been received.
  • Voice quality information generation section 23 generates voice quality information from the received expression information (step S404).
  • the image display unit 22 reads out the image configuration information stored in the image configuration information storage unit 33 and displays the basic image (Step S405).
  • the voice synthesizer 21 performs voice synthesis of the received text message based on the voice quality information generated by the voice quality information generator 23, generates a synthesized voice, and starts outputting the synthesized voice to the speaker 27. Yes (step S406).
  • step S407 steps S407 to S420
  • steps S106 steps S107 to S120
  • the image configuration information generation unit 24 is configured to receive the image configuration information from the server 15 in the form of an image that is not limited to this. Part of the configuration information may be received from the transmission device 11 as expression information, and the remaining information may be received from the server 15. Specifically, the image configuration information of the expression information lacks a part of information (for example, a basic image) necessary for the image display unit to display an image, or the image configuration information of the expression information includes When information indicating that there is no basic image and an index in which the basic image is stored are included, the image configuration information generation unit 24 connects to the server 15 to receive the basic image, and Alternatively, the image configuration information may be generated using the basic image received from the other and other information included in the expression information.
  • a part of information for example, a basic image
  • the image configuration information generation unit 24 connects to the server 15 to receive the basic image, and Alternatively, the image configuration information may be generated using the basic image received from the other and other information included in the expression information.
  • all or a part of the image configuration information is received from the server 15, but the server 15 stores the voice quality information
  • the information generation unit 23 may be connected to the server 15 via the communication line 14, receive all or part of the voice quality information from the server 15, and generate the voice quality information.
  • the expression information An index of voice quality information is included.
  • the image configuration information unit 24 may receive all or part of the image configuration information from the server 15 and the voice quality information generation unit 23 may receive all or part of the voice quality information from the server 15. .
  • the image displayed by the image display unit 22 or the synthesized voice generated by the voice synthesis unit 21 is stored in the image configuration information stored in the server 15.
  • the image configuration information stored in the server 15 since it is generated based on voice quality information, for example, a third party who has the right to use images and voices of celebrities and characters stores the image configuration information or voice quality information in the server 15 and transmits it to the receiving device 13 By doing so, the user of the transmitting device 11 and the user of the receiving device 13 can perform various communication.
  • the communication line 14 is a dedicated line such as a LAN
  • the communication protocol between the image information generation unit 24 and the server 15 can be simplified, so that the system construction is simplified.
  • the image information generation unit 24 can connect to another server and receive image configuration information or voice quality information stored in the other server. Therefore, the user of the receiving device 13 can properly use the image configuration information or the voice quality information stored in the plurality of servers.
  • FIG. 16 is a block diagram showing a configuration example of the fourth embodiment of the present invention.
  • the configuration of the present embodiment is characterized in that the server 15 of the third embodiment includes a charging information generation unit (charging means) 26 connected to an external charging processing system via a communication line 16. Different from the embodiment. Then, when the image configuration information transmitting unit 25 transmits the image configuration information stored in the server image configuration information storage unit 35 to the image configuration information generation unit 24 of the receiving device 13 via the communication line 14, the transmission is performed. It outputs the image configuration information and the information indicating the receiving device 13 of the transmission destination to the charging information generation unit 26.
  • Other configurations are the same as those of the third embodiment. Therefore, circuits and the like similar to those in the third embodiment are denoted by the same reference numerals as in FIG. 12, and description thereof is omitted.
  • FIG. 17 shows that the image configuration information generation unit 24 receives the image configuration information from the image configuration information transmission unit 25, and the image configuration information transmission unit 25 transmits the information indicating the transmitted image configuration information and the receiving device 13 of the transmission destination.
  • the billing information FIG. 7 is a sequence diagram illustrating an operation when outputting to a report generation unit 26.
  • the image configuration information generation unit 24 transmits information indicating the receiving device 13 to the image configuration information transmission unit 25 of the server 15 and requests connection. (Step S502).
  • the image configuration information transmitting unit 25 authenticates the receiving device 13 (step S503), and permits connection (step S504).
  • the image configuration information generation unit 24 transmits the position number included in the index of the image configuration information to the image configuration information transmission unit 25 (Step S505).
  • the image configuration information transmitting unit 25 Upon receiving the position number (step S506), the image configuration information transmitting unit 25 reads the image configuration information of the received position number from the server image configuration information storage unit 35 (step S507), and reads the read image configuration information.
  • the data is transmitted to the image configuration information generator 24 (step S508).
  • the image configuration information transmitting unit 25 outputs the transmitted image configuration information and the information indicating the destination receiving device 13 to the charging information generating unit 26 (Step S509).
  • the charging information generation unit 26 determines the amount to be charged to the receiving device 13 based on the transmitted image configuration information and the information indicating the receiving device 13 of the transmission destination, and indicates the determined amount to be charged and the receiving device 13.
  • Information and charging information are generated (step S510), and the generated charging information is transmitted to an external charging processing system via the communication line 16 (step S511).
  • the external charging system charges the user of the receiving device 13 based on the received charging information, and charges the user.
  • the amount to be charged may be determined by an external charging system.
  • the billing information is information including the transmitted image configuration information and information indicating the receiving device 13 of the transmission destination.
  • the image configuration information generation unit 24 When receiving the image configuration information (step S512), the image configuration information generation unit 24 requests the image configuration information transmission unit 25 to disconnect the connection (step S513). The image configuration information transmitting unit 25 permits disconnection (step S514). The image configuration information generation unit 24 disconnects from the image configuration information transmission unit 25 (step S515).
  • the charging information generation unit 26 determines the amount to be charged to the receiving device 13 based on the transmitted image configuration information and the information indicating the receiving device 13 of the transmission destination.
  • the server 15 may store the voice quality information, and determine the amount to be charged to the receiving device 13 based on the transmitted voice quality information and the information indicating the receiving device 13 of the transmission destination.
  • the user of the receiving apparatus 13 it is possible for the user of the receiving apparatus 13 to perform a billing process in accordance with the number of times and type of image configuration information and voice quality information.
  • the voice quality information and the image configuration information can be provided to the user of the receiving device 13 for a fee.
  • the advertiser can be charged according to the number of times such image configuration information and the voice quality information are used.
  • charging information generating section 26 is included in server 15, but transmitting apparatus 11 includes charging information generating section 26, and charging information generating section 26 includes transmitting section 32 in which expression information is transmitted. Is transmitted to the receiving device 13, the user of the receiving device 13 is charged according to the transmitted expression information.
  • the present invention can be applied to applications for transmitting and receiving text messages, such as electronic mail, electronic conference, and chat. It can also be applied to applications that output messages that are generated mechanically, such as a man-machine interface.
  • FIG. 1 is a block diagram showing a configuration example of a conventional message transmission system.
  • FIG. 2 is a block diagram showing a configuration example of a first embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating an operation of the first exemplary embodiment of the present invention.
  • FIG. 4 is an example of a text message stored in a text message storage unit.
  • FIG. 5 is an explanatory diagram showing an example of expression information.
  • FIG. 6 is an explanatory diagram showing an example of voice quality information.
  • FIG. 7 is an explanatory diagram showing an example of image configuration information.
  • FIG. 8 is an explanatory diagram showing an example of a speech waveform of a synthesized speech.
  • FIG. 9 is an explanatory diagram showing an example of an image output by the image display unit.
  • FIG. 10 is a block diagram showing a configuration example of a second embodiment of the present invention.
  • FIG. 11 is a flowchart illustrating an operation of the second exemplary embodiment of the present invention.
  • FIG. 12 is a block diagram showing one configuration example of a third embodiment of the present invention.
  • FIG. 13 is an explanatory diagram showing an example of expression information according to the third embodiment.
  • FIG. 14 is a sequence diagram for explaining an operation 1- 1 when the image configuration information generating section receives the image configuration information from the image configuration information transmitting section.
  • Fig. 15 is a flowchart for explaining the operation of the third embodiment of the present invention.
  • FIG. 16 is a block diagram showing a configuration example of a fourth embodiment of the present invention.
  • FIG. 17 An image configuration information generation unit receives image configuration information from the image configuration information transmission unit, and the image configuration information transmission unit generates billing information based on the transmitted image configuration information and information indicating the receiving device of the transmission destination.
  • FIG. 7 is a sequence diagram illustrating an operation when outputting to a unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 画像を表示しながら、送信装置が送信したテキストメッセージを読み上げる受信装置を含むメッセージ伝達システムを提供する。  送信装置11がテキストメッセージを受信装置13に送信する。受信装置13では、音声合成部21が、受信したテキストメッセージにもとづいて合成音声を生成し、スピーカ27から出力する。画像構成情報生成部24が、合成音声の出力とともに表示する画像の情報を生成し、画像表示部22が画像の情報にもとづく画像を表示する。このとき、音声合成部21は、生成した合成音声の区切りを示す情報である区切り情報を生成して、画像表示部22に入力し、画像表示部22は、入力された区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変化させる。

Description

明 細 書
メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およ びメッセージ伝達プログラム
技術分野
[0001] 本発明は、受信装置が受信したメッセージを読み上げ、画像を表示するメッセージ 伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プロ グラムに関する。
背景技術
[0002] 従来のメッセージ伝達システムの一例力 非特許文献 1に記載されている。図 1は、 従来のメッセージ伝達システムの一構成例を示すブロック図である。図 1に示すように 、この従来のメッセージ伝達システムは、音声合成部 21と、画像表示部 22とを含む。 このような構成を有する従来のメッセージ伝達システムは、次のように動作する。
[0003] 音声合成部 21は、受信した電子メールの内容を読み上げる。このとき読み上げに 用いる音声の性質 (以下、声質情報という。)は、受信装置 11の使用者 (以下、受信 者という。)が設定した声質情報か、または受信装置 11が自動に選択した声質情報 を使用する。また、画像表示部 22は、受信装置 13が受信した電子メールに対応した 画像を表示するとともに、読み上げの進行にともなって、画像を変化させる。
[0004] このため、画像の情報および画像を変化させるための情報である画像構成情報を 用いる。ここで、画像構成情報とは、受信者が予め受信装置 13に記憶させている画 像と、その画像に対して受信者が設定した目、口などの顔の部位の位置情報である 。また、他の例では、画像構成情報を、受信者が設定する代わりに、予め端末内に記 憶しているものがある。
[0005] また、受信した電子メールを読み上げる他のシステム力 特許文献 1に記載されて いる。特許文献 1に記載されているシステムは、受信したメッセージ中の文字列に埋 め込まれた動作制御情報にもとづいて、電子メールを合成音声で読み上げると同時 に、ロボットを動かす。また、送信者に対応付けて受信した電子メールの音声データ を記憶する。 [0006] さらに、受信した電子メールを読み上げる別の方法力 特許文献 2に記載されて 、 る。特許文献 2に記載されている方法は、受信した電子メールに対して、予め受信側 で記憶している複数の画像のうちから、送信者 IDによって画像を選択して表示し、電 子メールを合成音声で読み上げる。合成音声の声質情報は、送信者の音声を予め 分析して利用する。
特許文献 1:特開 2003—308142号公報
特許文献 2:特開平 07-066832号公報
非特許文献 1:「NTTドコモ携帯電話総合カタログ DeCember2003 (9版)」株式会 社 NTTドコモ、 2003年 12月、 p. 27
発明の開示
発明が解決しょうとする課題
[0007] しかし、従来の技術の第 1の問題点は、声質情報と画像構成情報とをともに設定す る場合、それぞれを別々に設定しなければならない点である。また、第 2の問題点は 、受信した電子メールの送信者に適した声質情報または画像構成情報を、受信者が 予め選択する等の準備をしなければならず、送信者が電子メールの送信時に送信者 に適した声質情報または画像構成情報を通信回線を介して提供する方法が無いと いうことである。さらに、第 3の問題点は、送信者と受信者以外の第三者が提供する 声質情報または画像構成情報を、通信回線を介して受信者に提供する方法が無 、 ということである。
[0008] そこで、本発明は、声質情報または画像構成情報を一体として扱うことのできる、メ ッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ 伝達プログラムを提供することを目的とする。また、本発明は、電子メールの送信者が 、電子メールの送信時に送信者に適した声質情報または画像構成情報を、通信回 線を介して提供できるメッセージ伝達システム、メッセージ伝達方法、受信装置、送 信装置およびメッセージ伝達プログラムを提供することを目的とする。さらに、本発明 は、送信者と受信者以外の第三者が提供する声質情報または画像構成情報を、通 信回線を介して提供するメッセージ伝達システム、メッセージ伝達方法、受信装置、 送信装置およびメッセージ伝達プログラムを提供することを目的とする。 課題を解決するための手段
[0009] 本発明によるメッセージ伝達システムは、テキストメッセージを送信する送信手段と 、受信したテキストメッセージにもとづいて合成音声を生成する音声合成手段と、合 成音声の出力とともに表示する画像の情報を生成する画像情報生成手段と、画像情 報生成手段が生成した画像の情報にもとづく画像を表示する画像表示手段と、画像 表示手段に表示させる画像の情報である画像構成情報と、音声合成手段に生成さ せる合成音声の特徴の情報である声質情報とを含む表現情報を予め記憶する表現 情報記憶手段とを含み、画像情報生成手段は、画像構成情報にもとづいて画像の 情報を生成し、音声合成手段は、声質情報にもとづいて合成音声を生成し、生成し た合成音声の区切りを示す情報である区切り情報を生成して、画像表示手段に入力 し、画像表示手段は、入力された区切り情報にもとづいて、合成音声の区切りのタイ ミングで表示する画像を変化させることを特徴とする。
[0010] 送信手段を含む送信装置と、音声合成手段と、画像情報生成手段と、画像表示手 段と、表現情報記憶手段とを含む受信装置とを備えてもよい。そのような構成によれ ば、受信装置のユーザが希望する画像と音声とを受信装置に出力させることができる
[0011] 音声合成手段と、画像情報生成手段と、画像表示手段とを含む受信装置と、送信 手段と、表現情報記憶手段と、表現情報記憶手段が記憶している表現情報を受信 装置に送信する表現情報送信手段とを含む送信装置とを備えてもよぐ受信装置は 、表現情報を受信して声質情報を生成する声質情報生成手段を含んでもよぐ画像 情報生成手段は、表現情報を送信装置から受信して、表現情報から画像構成情報 を生成してもよい。そのような構成によれば、送信装置のユーザが希望する画像と音 声とを、受信装置に出力させることができる。
[0012] 送信装置は、受信装置に送信した表現情報に応じた料金の情報である表現情報 課金情報を生成する課金手段を含んでもよい。そのような構成によれば、受信装置 に送信した表現情報に応じて、送信装置のユーザに料金を課金することができる。
[0013] 画像構成情報の全部または一部を記憶する外部画像構成情報記憶手段と、外部 画像構成情報記憶手段が記憶している画像構成情報の全部または一部を受信装置 に送信する画像構成情報送信手段とを含む画像構成情報提供装置を備えてもよい 。そのような構成によれば、外部画像構成情報記憶手段が記憶している、送信装置 および受信装置のユーザ以外の第三者が提供する画像を、受信装置に出力させる ことができる。
[0014] 受信装置と画像構成情報提供装置とは専用回線で接続されてもよ!ヽ。そのような構 成によれば、受信装置と画像構成情報提供装置との通信のプロトコルを簡易なもの にできるので、メッセージ伝達システムの構築が簡単になる。
[0015] 受信装置と画像構成情報提供装置とは公衆回線網で接続されてもよ!ヽ。そのような 構成によれば、受信装置のユーザは、インターネット等の公衆回線網を介して複数 の画像構成情報提供装置が記憶して 、る画像構成情報を用いることができる。
[0016] 表現情報は、外部画像構成情報記憶手段が記憶する画像構成情報の全部または 一部の位置を示す情報である画像インデックス情報を含んでもよぐ画像情報生成手 段は、画像インデックス情報にもとづいて、画像構成情報送信手段に、外部画像構 成情報記憶手段が記憶する画像構成情報の全部または一部の送信を要求してもよ い。
[0017] 画像構成情報送信手段は、画像情報生成手段の要求に応じて、外部画像構成情 報記憶手段が記憶する画像構成情報の全部または一部を受信装置に送信してもよ い。
[0018] 画像構成情報提供装置は、受信装置に送信した画像構成情報に応じた料金の情 報である画像課金情報を生成する課金手段を含んでもょ ヽ。そのような構成によれ ば、受信装置に送信した画像構成情報に応じて、受信装置のユーザに料金を課金 することができる。
[0019] 声質情報の全部または一部を記憶する外部声質情報記憶手段と、外部声質情報 記憶手段が記憶している声質情報の全部または一部を受信装置に送信する声質情 報送信手段を含む声質情報提供装置を備えてもよい。そのような構成によれば、外 部声質情報記憶手段が記憶して 、る、送信装置および受信装置のユーザ以外の第 三者が提供する音声の性質の合成音声を、受信装置に出力させることができる。
[0020] 受信装置と声質情報提供装置とは専用回線で接続されてもよい。そのような構成に よれば、受信装置と声質情報提供装置との通信のプロトコルを簡易なものにできるの で、メッセージ伝達システムの構築が簡単になる。
[0021] 受信装置と声質情報提供装置とは公衆回線網で接続されてもよい。そのような構成 によれば、受信装置のユーザは、インターネット等の公衆回線網を介して複数の声 質情報提供装置が記憶して 、る画像構成情報を用いることができる。
[0022] 表現情報は、外部声質情報記憶手段が記憶する声質情報の全部または一部の位 置を示す情報である声質インデックス情報を含んでもよぐ音声合成手段は、声質ィ ンデッタス情報にもとづいて、声質情報送信手段に、外部声質情報記憶手段が記憶 する声質情報の全部または一部の送信を要求してもよい。
[0023] 声質情報送信手段は、音声合成手段の要求に応じて、外部声質情報記憶手段が 記憶する声質情報の全部または一部を受信装置に送信してもよい。
[0024] 声質情報提供装置は、受信装置に送信した声質情報に応じた料金の情報である 声質課金情報を生成する課金手段を含んでもよい。そのような構成によれば、受信 装置に送信した声質情報に応じて、受信装置のユーザに料金を課金することができ る。
[0025] 本発明によるメッセージ伝達方法は、テキストメッセージを受信し、表示する画像の 情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情 報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生成し、合成 音声の区切りを示す情報である区切り情報を生成し、合成音声を出力し、画像構成 情報にもとづいて合成音声の出力とともに表示する画像の情報を生成し、画像の情 報にもとづく画像を表示し、区切り情報にもとづいて、合成音声の区切りのタイミング で表示する画像を変化させることを特徴とする。
[0026] 表現情報から画像構成情報を生成してもよぐ表現情報から声質情報を生成しても よい。そのような方法によれば、ユーザが希望する画像と音声とを出力させることがで きる。
[0027] 予め記憶している表現情報を送信してもよぐ表現情報を受信すると、受信した表 現情報力 画像構成情報を生成してもよぐ受信した表現情報力 声質情報を生成 してもよい。そのような方法によれば、送信側のユーザが希望する画像と音声とを、出 力側に出力させることができる。
[0028] 送信した表現情報に応じた料金の情報である表現情報課金情報を生成してもよい 。そのような方法によれば、送信した表現情報に応じて、受信側のユーザに料金を課 金することができる。
[0029] 表現情報は、画像構成情報の全部または一部を記憶して!/、る外部画像構成情報 記憶手段における、画像構成情報の全部または一部を記憶して!/、る位置を示す情 報である画像インデックス情報を含んでもよぐ画像インデックス情報にもとづ 、て、 外部画像構成情報記憶手段に、記憶して 、る画像構成情報の全部または一部の送 信を要求してもよぐ外部画像構成情報記憶手段から、画像構成情報の全部または 一部を受信してもよい。そのような方法によれば、外部画像構成情報記憶手段が記 憶している第三者等の画像を、受信側に出力させることができる。
[0030] 外部画像構成情報記憶手段にお!、て、送信した画像構成情報に応じた料金の情 報である画像課金情報を生成してもよい。そのような方法によれば、受信側に送信し た画像構成情報に応じて、受信側のユーザに料金を課金することができる。
[0031] 表現情報は、声質情報の全部または一部を記憶している外部声質情報記憶手段 における、声質情報の全部または一部を記憶して 、る位置を示す情報である声質ィ ンデッタス情報を含んでもよぐ声質インデックス情報にもとづいて、外部声質情報記 憶手段に、声質情報の全部または一部の送信を要求してもよぐ外部声質情報記憶 手段から、声質情報の全部または一部を受信してもよい。そのような方法によれば、 外部声質情報記憶手段が記憶して 、る第三者の音声の性質の合成音声を、受信側 に出力させることができる。
[0032] 外部声質情報記憶手段にお!、て、送信した声質情報に応じた料金の情報である 声質課金情報を生成してもよい。そのような方法によれば、受信側に送信した声質情 報に応じて、受信側のユーザに料金を課金することができる。
[0033] 本発明による受信装置は、送信装置力 テキストメッセージを受信する受信装置で あって、画像の情報である画像構成情報と合成音声の特徴の情報である声質情報と を含む表現情報の声質情報と、送信装置から受信したテキストメッセージとにもとづ いて合成音声を生成する音声合成手段と、画像構成情報にもとづいて、合成音声の 出力とともに表示する画像の情報を生成する画像情報生成手段と、画像情報生成手 段が生成した画像の情報にもとづく画像を表示する画像表示手段とを含み、音声合 成手段は、生成した合成音声の区切りを示す情報である区切り情報を生成して、画 像表示手段に入力し、画像表示手段は、入力された区切り情報にもとづいて、合成 音声の区切りのタイミングで表示する画像を変化させることを特徴とする。
[0034] 表現情報を予め記憶する表現情報記憶手段を含んでもよぐ画像情報生成手段は
、表現情報力も画像構成情報を生成してもよい。そのような構成によれば、受信装置 のユーザが希望する画像と音声とを出力させることができる。
[0035] 表現情報を受信して、表現情報から声質情報を生成する声質情報生成手段を含 んでもよぐ画像情報生成手段は、表現情報を受信して、表現情報から画像構成情 報を生成してもよい。そのような構成によれば、送信装置のユーザが希望する画像と 音声とを、受信装置に出力させることができる。
[0036] 画像構成情報の全部または一部を記憶する画像構成情報提供装置から、画像構 成情報の全部または一部を受信してもよい。そのような構成によれば、画像情報提供 装置が記憶している第三者等の画像を、受信装置に出力させることができる。
[0037] 表現情報は、画像構成情報提供装置が記憶する画像構成情報の全部または一部 の位置を示す情報である画像インデックス情報を含んでもよぐ画像情報生成手段は 、画像インデックス情報にもとづいて、画像構成情報提供装置に、画像構成情報提 供装置が記憶する画像構成情報の全部または一部の送信を要求し、画像構成情報 提供装置から、画像構成情報提供装置が記憶する画像構成情報の全部または一部 を受信してもよい。
[0038] 画像情報提供装置と専用回線で接続されて!、てもよ ヽ。そのような構成によれば、 受信装置と画像構成情報提供装置との通信のプロトコルを簡易なものにできる。
[0039] 画像情報提供装置と公衆回線網で接続されて 、てもよ 、。そのような構成によれば 、受信装置のユーザは、複数の画像情報提供装置が記憶している画像構成情報を 用!/、ることができる。
[0040] 声質情報の全部または一部を記憶する声質情報提供装置から、声質情報の全部 または一部を受信してもよい。そのような構成によれば、声質情報提供装置が記憶し ている第三者の音声の性質の合成音声を、受信装置に出力させることができる。
[0041] 表現情報は、声質情報提供装置が記憶する声質情報の全部または一部の位置を 示す情報である声質インデックス情報を含んでもよぐ音声合成手段は、声質インデ ックス情報にもとづいて、声質情報提供装置に、声質情報提供装置が記憶する声質 情報の全部または一部の送信を要求し、声質情報提供装置から、声質情報提供装 置が記憶する声質情報の全部または一部を受信してもよい。
[0042] 声質情報提供装置と専用回線で接続されて!、てもよ ヽ。そのような構成によれば、 受信装置と声質情報提供装置との通信のプロトコルを簡易なものにできる。
[0043] 声質情報提供装置と公衆回線網で接続されて!ヽてもよ ヽ。そのような構成によれば
、受信装置のユーザは、複数の声質情報提供装置が記憶している声質情報を用い ることがでさる。
[0044] 本発明による送信装置は、受信装置に伝達するテキストメッセージ、受信装置に表 示させる画像の情報である画像構成情報、および受信装置に生成させるテキストメッ セージの合成音声の特徴の情報である声質情報を含む表現情報とを送信する送信 手段を含むことを特徴とする。
[0045] 本発明によるメッセージ伝達プログラムは、コンピュータに、画像の情報である画像 構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と 、受信したテキストメッセージとにもとづいて合成音声を生成させ、合成音声の区切り を示す情報である区切り情報を生成させる音声合成処理と、テキストメッセージの合 成音声の出力とともに表示する画像の情報を、画像構成情報にもとづいて生成させ る画像情報生成処理と、区切り情報にもとづいて、画像を表示する画像表示手段に 、合成音声の区切りのタイミングで画像を変化させて表示させる画像表示処理とを実 行させることを特徴とする。
[0046] コンピュータに、表現情報を受信して、表現情報から声質情報を生成する声質情報 生成処理を実行させてもよぐ画像情報生成処理で、表現情報を受信して、表現情 報力も画像構成情報を生成する処理を実行させてもよい。そのような構成によれば、 送信側のユーザが希望する画像を画像表示手段に表示させ、送信側のユーザが希 望する性質の合成音声を音声出力手段に出力させることができる。 [0047] コンピュータに、画像情報生成処理で、画像構成情報の全部または一部を記憶す る外部画像構成情報記憶手段と、外部画像構成情報記憶手段が記憶して!/ヽる画像 構成情報の全部または一部を送信する画像構成情報送信手段とを含む画像情報提 供装置から、表現情報に含まれ、外部画像構成情報記憶手段が記憶する画像構成 情報の全部または一部の位置を示す情報である画像インデックス情報にもとづいて、 画像情報提供装置が記憶する画像構成情報の全部または一部の送信を画像情報 提供装置に要求する処理を実行させてもよぐ画像情報提供装置から画像構成情報 の全部または一部を受信する処理を実行させてもよい。そのような構成によれば、画 像情報提供装置が記憶して!/、る第三者等の画像を、画像表示手段に表示させること ができる。
[0048] コンピュータに、音声合成処理で、声質情報の全部または一部を記憶する外部声 質情報記憶手段と、外部声質情報記憶手段が記憶して!/、る声質情報の全部または 一部を送信する声質情報送信手段とを含む声質情報提供装置から、表現情報に含 まれ、外部声質情報記憶手段が記憶して!/、る声質情報の全部または一部の位置を 示す情報である声質インデックス情報にもとづ 、て、声質情報提供装置が記憶する 声質情報の全部または一部の送信を、声質情報提供装置に要求する処理を実行さ せてもよぐ声質情報提供装置から、声質情報の全部または一部を受信する処理を 実行させてもよい。そのような構成によれば、声質情報提供装置が記憶している第三 者の音声の性質の合成音声を、音声出力手段に出力させることができる。
発明の効果
[0049] 本発明の第 1の効果は、電子メールを、 送信者に結び付いた内容である声質情報 と画像構成情報を用いて、合成音声と画像とで表現することができることである。また 、第 2の効果は、電子メールの送信者が提供した声質情報または画像構成情報を使 うことで、より緊密なコミュニケーションを行うことが可能になるということである。さらに 、第 3の効果は、例えば著名人やキャラクタの音声や画像を使用する権利を有する 第三者が、声質情報または画像構成情報を受信者に提供することで、送信者と受信 者とがより多彩なコミュニケーションを行うことが可能になるということである。
発明を実施するための最良の形態 [0050] 実施の形態 1.
本発明の第 1の実施の形態について、図面を参照して説明する。図 2は、本発明の 第 1の実施の形態の一構成例を示すブロック図である。
[0051] 本発明の第 1の実施の形態は、電子メール等のテキストメッセージを通信回線 12を 介して送信する送信装置 11と、送信装置 11から受信したテキストメッセージにもとづ く合成音声の出力と、合成音声の出力に対応した画像の出力とを行う受信装置 13と を含む。
[0052] 送信装置 11は、テキストメッセージを記憶するテキストメッセージ記憶部 31と、テキ ストメッセージ記憶部 31が記憶しているテキストメッセージを、通信回線 12を介して 受信装置 13に送信する送信部 32とを含む。
[0053] 受信装置 13は、声質情報と画像構成情報とを含む表現情報を記憶する表現情報 記憶部 (表現情報記憶手段) 34、表現情報から声質情報を生成する声質情報生成 部 (声質情報生成手段) 23、表現情報から画像構成情報を生成する画像構成情報 生成部 (画像情報生成手段) 24、画像構成情報を記憶する画像構成情報記憶部 33 、声質情報にもとづいてテキストメッセージを合成音声に変換したり、合成音声の区 切りを示す情報である区切り情報を生成したりする音声合成部 (音声合成手段) 21、 画像構成情報と区切り情報とにもとづいて画像を表示する画像表示部 (画像表示手 段) 22、および合成音声を出力するスピーカ 27を含む。
[0054] 声質情報生成部 23は、表現情報記憶部 34が記憶して 、る表現情報から声質情報 を生成する。ここで、声質情報は、音声合成部 21がテキストメッセージ力も変換して 生成する合成音声の声質を指定する情報である。なお、声質情報は、話者名、声の 高さ、抑揚の強さ、語尾の特徴等の特定個人あるいは概念的な人物像の声を想起さ せる要素や、発声速度、焦り方などの発話の際におかれている状況を想起させる要 素のうち 1以上を含む。
[0055] 画像構成情報生成部 24は、表現情報記憶部 34が記憶して 、る表現情報から、画 像構成情報を生成する。ここで、画像構成情報は、画像表示部 22が、送信者本人ま たはその代理となるキャラクタの画像を構成、表示するために用いる情報である。また 、画像構成情報は、画像を生成するために、基本となる画像である基本画像や、顔 の画像の場合は目や口や眉毛などの位置と形状との情報を含んでもよぐそれ以外 の部位の画像の場合も同等の情報を含んでもよい。画像構成情報生成部 24は、生 成した画像構成情報を画像構成情報記憶部 33に記憶させる。画像構成情報記憶部 33は、画像構成情報を記憶する。
[0056] なお、画像構成情報は、送信者本人の顔写真や、全身写真のほか、似顔絵や、送 信者を受信者に想起させるキャラクタなどの無生物等の情報であってもよ 、。そして 、画像構成情報は、上記に限定したものでは無ぐコンピュータグラフィックス (CG)で キャラクタを合成表示するためのパラメータや、複数の静止画像のそれぞれに番号 等を付けて束ねたもの等を用いてもょ 、。
[0057] 音声合成部 21は、声質情報生成部 23が生成した声質情報にもとづいて、送信装 置 11から受信したテキストメッセージを合成音声に変換し、スピーカ 27に出力する。 合成音声の出力中には、合成音声の出力の開始、段落の区切り、文の区切り、音節 の区切り、合成音声の出力の終了、などの各種の区切りが存在する。音声合成手段 21は、これらの区切りのうち、予め定めたいくつかの区切りのタイミングで、区切り情 報を画像表示部 22に出力する。
[0058] 画像表示部 22は、音声合成部 21が区切り情報を入力したタイミングで、画像構成 情報記憶部 33が記憶して 、る画像構成情報にもとづ 、て画像を生成し、生成した画 像を表示する。なお、画像表示部 22は、予め音声合成部 21が入力した区切り情報 に応じて読み込む画像構成情報の要素を記憶している。
[0059] ここで、送信装置 11と受信装置 13とは、例えば、電子メール送受信機能を備えた 携帯電話機であり、通信回線 12は携帯電話通信網およびそれに付随するデータ通 信網である。ただし、本発明の適用はこれらに限定されるものではなぐ一般のインタ 一ネットを介した電子メールシステムやチャットシステム、専用ホストによるパソコン通 信システム、 IP電話網、ビデオ通信網などでもよい。また、通信回線 12を介する送信 装置 11と受信装置 13との間の通信は、双方向通信でなくてもよぐ送信装置 11から 受信装置 13への単一方向通信でもよい。
[0060] ここで、受信装置 13は、画像の情報である画像構成情報と合成音声の特徴の情報 である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもと づいて合成音声を生成させ、合成音声の区切りを示す情報である区切り情報を生成 させる音声合成処理と、テキストメッセージの合成音声の出力とともに表示する画像 の情報を、画像構成情報にもとづいて生成させる画像情報生成処理と、区切り情報 にもとづいて、画像を表示する画像表示部 22に、合成音声の区切りのタイミングで画 像を変化させて表示させる画像表示処理とを実行するメッセージ伝達プログラムを搭 載する。
[0061] 次に、本発明の第 1の実施の形態の動作について説明する。図 3は、本発明の第 1 の実施の形態の動作を説明するフローチャートである。
[0062] 送信装置 11の送信部 32は、通信回線 12を介して受信装置 13に、テキストメッセ一 ジ記憶部 31が記憶しているテキストメッセージを送信する (ステップ S101)。図 4に、 テキストメッセージ記憶部 31が記憶しているテキストメッセージの一例を示す。図 4に 示す例では、テキストメッセージ記憶部 31は、「今日は、良い天気です。」というテキス トメッセージを記憶している。送信部 32は、通信回線 12を介して受信装置 13に、「今 日は、良い天気です。」というテキストメッセージを送信する。
[0063] 受信装置 13において、音声合成部 21がテキストメッセージを受信すると、声質情 報生成部 23および画像構成情報生成部 24に、テキストメッセージを受信したことを 通知する (ステップ S 102)。声質情報生成部 23および画像構成情報生成部 24は、 表現情報記憶部 34が記憶して 、る表現情報を読み出す (ステップ S 103)。図 5は、 表現情報の一例を示す説明図である。図 5に示す例では、表現情報は、声質情報と 画像構成情報とを含む。
[0064] 声質情報生成部 23は、読み出した表現情報から声質情報を生成し、画像構成情 報生成部 24は、読み出した表現情報から画像構成情報を生成する (ステップ S104) 。図 6は、声質情報の一例を示す説明図である。声質情報は、話者と、発声速度と、 声の高さとを示す情報である。ここで、図 6に示す例では、声の高さを基準値 + 100 Hzとしているが、例えば 350Hz等の絶対値で示してもよい。図 7は、画像構成情報 の一例を示す説明図である。画像構成情報は、基本画像と、目の相対位置と、目の 大きさと、口の相対位置と、口の開度とを示している。目の相対位置と口の相対位置 とは、例えば、顔の画像の中心を原点として正規化した座標値で示す。なお、目の相 対位置において、右目の相対位置は、例えば、右目を接して囲む四角形の対角線 の交点の Y座標値と、 X座標値とであり、左目の相対位置は、左目を接して囲む四角 形の対角線の交点の Y座標値と、 X座標値とである。また、口の相対位置は、例えば 、口を接して囲む四角形の上辺の Y座標値(口の上下方向の位置を示す。)と、四角 形の幅の値(口の幅を示す。)と、四角形の高さの値(口の厚さを示す。)とで示す。目 の大きさにおいて、例えば、右目の大きさは、右目を接して囲む四角形の高さ(右目 の厚さを示す。 )と幅 (右目の幅を示す。 )との値で示し、左目の大きさは、左目を接し て囲む四角形の高さ (左目の厚さを示す。)と幅 (左目の幅を示す。)との値で示す。 口の開度は、例えば、口を最も大きく開けた時の口を接して囲む四角形の高さを 100 として、正規ィ匕した値で示す。例えば、口の開度が 75の場合、口を最も大きく開けた ときの 75%の高さで口が開いていることを示す。なお、この実施の形態の例では、上 述の方法で、画像構成情報が示す画像を数値化して示したが、本発明はこれに限 定されるものではなぐ他の方法で画像を画像構成情報が示してもよい。画像構成情 報生成部 24は、生成した画像構成情報を画像構成情報記憶部 33に記憶させる。
[0065] 画像表示部 22は、画像構成情報記憶部 33が記憶して ヽる画像構成情報を読み 出し、基本画像を表示する (ステップ S105)。音声合成部 21は、声質情報生成部 23 が生成した声質情報にもとづ 、て、受信したテキストメッセージの音声合成を行な ヽ 、合成音声を生成し、スピーカ 27に合成音声の出力を開始する (ステップ S106)。
[0066] 図 8は、音声合成部 21が声質情報にもとづいて、受信したテキストメッセージの音 声合成を行ない、生成した合成音声の音声波形の一例を示す説明図である。ここで 、音声合成部 21は内部でタイミング点の情報を持つ。本実施例におけるタイミング点 の例として、図 8中に時刻 Aから時刻 Dを示す。それぞれ、時刻 Aは発声の開始時点 の時刻、時刻 Bは読点の時点の時刻、時刻 Cは音声合成部 21が認識した文節区切 りの時点の時刻、時刻 Dは発声の終了時点を表している。音声合成部 21はそれぞれ のタイミング点の時刻で、区切り情報を生成して画像表示部 22に出力する。画像情 報表示部 22は、区切り情報にもとづいて、それぞれのタイミング点の時刻で、予め決 められた画像に表示する画像を変化させる。
[0067] 時刻 Aになると (ステップ S 107)、画像表示部 22は画像構成情報記憶部 33が記憶 している口の相対位置と口の開度との情報を読み出す (ステップ S108)。そして、画 像表示部は、読み出した口の相対位置と口の開度との情報に応じて、口の周辺の画 像を生成し、表示している基本画像の口の周辺の画像に上書きする。この実施の形 態では、基本画像の口の開度は 75なので、口の開度が 100である、口が開いた画 像に書き換えられる (ステップ S 109)。
[0068] 時刻 Bになると (ステップ S110)、画像表示部 22は画像構成情報記憶部 33が記憶 している目の相対位置と目の大きさとの情報を読み出す (ステップ S111)。そして、目 の相対位置を中心に、例えば、右目を囲んで接する四角形の中の画像を、反時計回 りの方向に 30度傾ける。また、左目を囲んで接する四角形の中の画像を、時計回り の方向に 30度傾ける。すると、目が笑っているように見える画像が生成され、画像表 示部 22は、基本画像の目の周辺の画像を、目が笑っているように見える画像に書き 換える(ステップ S 112)。
[0069] 時刻 Cになると (ステップ S 113)、画像表示部 22は画像構成情報記憶部 33が記憶 している目の相対位置と目の大きさとの情報を読み出す (ステップ S114)。そして、画 像表示部は、読み出した目の相対位置と目の大きさとの情報に応じて、目の周辺の 画像を生成し、表示して!/、る笑って!/、る目の周辺の画像に上書きし、目の周辺を基 本画像に書き換える(ステップ S 115)。
[0070] 時刻 Dになると (ステップ S116)、画像表示部 22は画像構成情報記憶部 33が記憶 している口の相対位置と口の開度との情報を読み出す (ステップ S 117)。そして、画 像表示部は、読み出した口の相対位置と口の開度との情報に応じて、口の周辺の画 像を生成し、表示している開いている口の周辺の画像に上書きする。この実施の形 態では、基本画像の口の開度は 75なので、口の開度が 100である、口が開いた画 像力 口の開度が 75である基本画像に書き換えられる (ステップ S118)。
[0071] 音声合成部 21は合成音声の出力を終了し (ステップ S119)、画像表示部 22は、画 像の表示を終了する (ステップ S 120)。
[0072] 図 9は、第 1の実施の形態において、画像表示部 22が出力する画像の例を示す説 明図である。第 1の実施の形態の動作の説明で述べたように、時刻 Aから時刻 Dまで 、画像表示部 22が出力する画像が時刻に応じて変化することがわかる。 [0073] 以上、述べたように、この実施の形態によれば、テキストメッセージの出力に連動し て画像が動くように見えるように、画像表示部 22は画像を出力することができる。
[0074] なお、この実施の形態では、テキストメッセージは、プレーンテキストを例に説明した 力 修飾情報を伴うリッチテキスト、音声合成の発声内容を表した発音記号列などを 用いてもよい。その場合には、それぞれに対応した音声合成部 21を用いる。また、図 3のフローチャートに示した動作は、各区切りの時刻毎に予め定められている力 そ のほか文中の単語の種類や、記号等の特定の文字種、リッチテキストの場合の修飾 情報に応じて予め定められて 、てもよ 、。
[0075] また、この実施例においては、説明のため、表現情報は単一としている。ここで、送 信装置 11 (送信者)が複数ある場合には、表現情報記憶部 34は、送信装置 11に対 応する表現情報を複数記憶しておく。そして、送信装置 11は、テキストメッセージとと もに送信装置を示す送信者 IDを送信し、音声合成部 21は、受信した送信者 IDを声 質情報生成部 23および画像構成情報生成部 24に出力し、声質情報生成部 23およ び画像構成情報生成部 24は、送信者 IDに対応した表現情報をそれぞれ読み出す
[0076] 実施の形態 2.
本発明の第 2の実施の形態について、図面を参照して説明する。図 10は、本発明 の第 2の実施の形態の一構成例を示すブロック図である。本実施の形態の構成は、 第 1の実施の形態の受信装置 13の表現情報記憶部 34を、送信装置 11が備えたも のであり、その他の構成は第 1の実施例と同様である。そのため、第 1の実施の形態 と同様の回路等については図 2と同じ符号を付し、説明を省略する。
[0077] 送信装置 11が備える送信部(表現情報送信手段) 32は、テキストメッセージ記憶部 31が記憶しているテキストメッセージとともに、または別々に、通信回線 12を介して表 現情報記憶部 34が記憶している表現情報を受信装置 13に送信する。受信装置 13 では、声質情報生成部 23と画像構成情報生成部 24とが表現情報を受信する。
[0078] ここで、送信部 32は、テキストメッセージと表現情報とを、一体として通信回線 12を 送信してもよいし、別々に送信してもよい。また、テキストメッセージと表現情報とを別 々に送信する場合、テキストメッセージと表現情報とを伝送する通信回線 12は物理 的'論理的に同一のものでなくてもよい。
[0079] 受信装置 13は、画像の情報である画像構成情報と合成音声の特徴の情報である 声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもとづい て合成音声を生成させ、合成音声の区切りを示す情報である区切り情報を生成させ る音声合成処理と、テキストメッセージの合成音声の出力とともに表示する画像の情 報を、画像構成情報にもとづいて生成させる画像情報生成処理と、区切り情報にもと づいて、画像を表示する画像表示部 22に、合成音声の区切りのタイミングで画像を 変化させて表示させる画像表示処理とを実行するメッセージ伝達プログラムを搭載す る。また、表現情報を受信して、表現情報から声質情報を生成する声質情報生成処 理を実行してもよぐ画像情報生成処理で、表現情報を受信して、表現情報から画像 構成情報を生成する処理を実行してもよ ヽ。
[0080] 次に、本発明の第 2の実施の形態の動作について、図面を参照して説明する。図 1 1は、本発明の第 2の実施の形態の動作を説明するフローチャートである。
[0081] 送信装置 11の送信部 32は、テキストメッセージと表現情報とを、通信回線 12を介 して受信装置 13に送信する (ステップ S201)。送信部 32は、テキストメッセージと表 現情報とに、共通のヘッダを付して通信回線 12を一体として送信する。ただし、本発 明は、これに限定されることはなぐ送信部 32は、テキストメッセージと表現情報とを 別々のデータとして送信してもよい。また、一度テキストメッセージと表現情報とを一 体として送付した後は、表現情報に変更の無い限り、表現情報を受信装置 13の記憶 部(図示せず)に記憶させて、表現情報の送信を省略してもよい。すると、本発明の 第 1の実施の形態と同様の構成となる。
[0082] 受信装置 13では、声質情報生成部 23と画像構成情報生成部 24とが表現情報を 受信し、音声合成手段 21がテキストメッセージを受信する (ステップ S202)。
[0083] 声質情報生成部 23は、受信した表現情報から声質情報を生成し、画像構成情報 生成部 24は、受信した表現情報力も画像構成情報を生成する (ステップ S 203)。画 像構成情報生成部 24は、生成した画像構成情報を画像構成情報記憶部 33に記憶 させる。
[0084] 画像表示部 22は、画像構成情報記憶部 33が記憶して ヽる画像構成情報を読み 出し、基本画像を表示する (ステップ S204)。音声合成部 21は、声質情報生成部 23 が生成した声質情報にもとづ 、て、受信したテキストメッセージの音声合成を行な ヽ 、合成音声を生成し、スピーカ 27に合成音声の出力を開始する (ステップ S205)。
[0085] ステップ S206以降 (ステップ S206— S219)の動作は、第 1の実施の形態における ステップ S107以降 (ステップ S107— S120)の動作と同様なため、説明を省略する。
[0086] 以上、述べたように、本発明の第 2の実施の形態によれば、送信装置 11が表現情 報を受信装置 13に送信するため、送信装置 11のユーザの希望する声質の合成音 声を受信装置 13のスピーカ 27から出力させたり、送信装置 11のユーザの希望する 画像を、合成音声の出力に連動して画像表示部 22に表示させたりすることができる
[0087] 実施の形態 3.
本発明の第 3の実施の形態について、図面を参照して説明する。図 12は、本発明 の第 3の実施の形態の一構成例を示すブロック図である。本実施の形態の構成は、 第 2の実施の形態の受信装置 13の画像構成情報生成部 24に通信回線 14を介して 接続されるサーバ (画像構成情報提供装置、声質情報提供装置) 15を含む点が第 2 の実施の形態と異なる。そして、サーバ 15は、予め画像構成情報を記憶しているサ ーバ画像構成情報記憶部 (外部画像構成情報記憶手段) 35と、サーバ画像構成情 報記憶部 35が記憶している画像構成情報を通信回線 14を介して受信装置 13の画 像構成情報生成部 24に送信する画像構成情報送信部 (画像構成情報送信手段) 2 5とを含む。その他の構成は第 2の実施の形態と同様である。そのため、第 2の実施 の形態と同様の回路等については図 10と同じ符号を付し、説明を省略する。なお、 通信回線 14は、 LAN (Local Area Network)等の専用回線で画像情報生成部 24とサーバ 15とを接続してもよいし、インターネット等の公衆回線で画像情報生成部 24とサーバ 15とを接続してもよい。そして、通信回線 14は、インターネット等の公衆 回線であった場合、通信回線 12と一部共用していてもよい。
[0088] 図 13は、第 3の実施の形態の表現情報の一例を示す説明図である。図 13に示す 例では、表現情報は、声質情報と画像構成情報のインデックスとを含む。画像構成 情報のインデックスとは、画像構成情報を記憶している装置と、その装置内で画像構 成情報を記憶している位置とを示す情報である。この実施の形態の例では、サーバ 1 5のサーバ画像構成情報記憶部 35が画像構成情報を記憶しているため、画像構成 情報のインデックスは、サーバ 15の IPアドレスと、サーバ 15内での画像構成情報を 記憶している位置を示す番号である位置番号とで構成されている。ここで、画像構成 情報のインデックスは、サーバの IPアドレスとサーバ 15内における位置番号との組に 限らず、サーバの名称とフルパス名の組や、 URI (Uniform Resource Identifier s)等を用いてもよい。
[0089] 画像構成情報生成部 24は、画像構成情報のインデックスを含む表現情報を受信 すると、画像構成情報のインデックスにもとづいて通信回線 14を介してサーバ 15に 接続し、画像構成情報の位置番号を送信する。サーバ 15の画像構成情報送信部 2 5は、画像構成情報生成部 24から受信した位置番号の画像構成情報をサーバ画像 構成情報記憶部 35から読み出して、読み出した画像構成情報を通信回線 14を介し て画像構成情報生成部 24に送信する。
[0090] ここで、受信装置 13は、画像の情報である画像構成情報と合成音声の特徴の情報 である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもと づいて合成音声を生成させ、合成音声の区切りを示す情報である区切り情報を生成 させる音声合成処理と、テキストメッセージの合成音声の出力とともに表示する画像 の情報を、画像構成情報にもとづいて生成させる画像情報生成処理と、区切り情報 にもとづいて、画像を表示する画像表示部 22に、合成音声の区切りのタイミングで画 像を変化させて表示させる画像表示処理とを実行するメッセージ伝達プログラムを搭 載する。また、画像情報生成処理で、画像構成情報の全部または一部を記憶するサ ーバ画像構成情報記憶部 35と、サーバ画像構成情報記憶部 35が記憶して ヽる画 像構成情報の全部または一部を送信する画像構成情報送信部 25とを含むサーバ 1 5から、表現情報に含まれ、サーバ画像構成情報記憶部 35が記憶する画像構成情 報の全部または一部の位置を示す情報である画像構成情報のインデックスにもとづ V、て、サーバ 15が記憶する画像構成情報の全部または一部の送信をサーバ 15に 要求する処理を実行してもよぐサーバ 15から画像構成情報の全部または一部を受 信する処理を実行してもよい。さらに、音声合成処理で、声質情報の全部または一部 を記憶する外部声質情報記憶部(図示せず)と、外部声質情報記憶部が記憶して ヽ る声質情報の全部または一部を送信する声質情報送信部(図示せず)とを含むサー バ 15から、表現情報に含まれ、外部声質情報記憶部が記憶している声質情報の全 部または一部の位置を示す情報である声質情報のインデックスにもとづ 、て、サーバ 15が記憶する声質情報の全部または一部の送信を、サーバ 15に要求する処理を実 行してもよぐサーバ 15から、声質情報の全部または一部を受信する処理を実行して ちょい。
[0091] 次に、本発明の第 3の実施の形態の動作について説明する。図 14は、画像構成情 報生成部 24が画像構成情報送信部 25から画像構成情報を受信する際の動作を説 明するシーケンス図である。
[0092] 画像構成情報生成部 24は、画像構成情報のインデックスを受信すると (ステップ S 301)、通信回線 14を介してサーバ 15の画像構成情報送信部 25に接続を要求する 、(ステップ S302)。画像構成情報送信部 25は、接続を許可する (ステップ S303)。
[0093] 画像構成情報生成部 24は、画像構成情報のインデックスに含まれる位置番号を、 画像構成情報送信部 25に通信回線 14を介して送信して、画像構成情報の送信を 要求する (ステップ S304)。画像構成情報送信部 25は、位置番号を受信すると (ステ ップ S305)、受信した位置番号の画像構成情報をサーバ画像構成情報記憶部 35 力も読み出し (ステップ S306)、読み出した画像構成情報を、画像構成情報生成部 2 4に通信回線 14を介して送信する (ステップ S307)。
[0094] 画像構成情報生成部 24は、画像構成情報を受信すると (ステップ S308)、画像構 成情報送信部 25に接続の切断を要求する (ステップ S309)。画像構成情報送信部 25は、接続の切断を許可する (ステップ S310)。画像構成情報生成部 24は、画像構 成情報送信部 25との接続を切断する (ステップ S311)。
[0095] 本発明の第 3の実施の形態の、送信装置 11と受信装置 13とサーバ 15との動作に ついて説明する。図 15は、本発明の第 3の実施の形態の動作を説明するフローチヤ ートである。
[0096] 送信装置 11の送信部 32は、テキストメッセージと表現情報とを、通信回線 12を介 して受信装置 113に送信する (ステップ S401)。受信装置 13では、声質情報生成部 23と画像構成情報生成部 24とが表現情報を受信し、音声合成手段 21がテキストメッ セージを受信する(ステップ S402)。
[0097] 画像情報生成部 24は、表現情報に含まれる画像構成情報のインデックスにもとづ いて、画像構成情報をサーバ 15から通信回線 14を介して受信する (ステップ S403) 。画像情報生成部 24は、図 14のシーケンス図に示す動作を行ない、サーバ 15から 画像構成情報を受信する。そして、画像情報生成部 24は、受信した画像構成情報 を画像構成情報記憶部 33に記憶させ、画像構成情報を受信したことを音声合成手 段 21に通知する。
[0098] 声質情報生成部 23は、受信した表現情報から声質情報を生成する (ステップ S40 4)。画像表示部 22は、画像構成情報記憶部 33が記憶している画像構成情報を読 み出し、基本画像を表示する (ステップ S405)。音声合成部 21は、声質情報生成部 23が生成した声質情報にもとづ 、て、受信したテキストメッセージの音声合成を行な い、合成音声を生成し、スピーカ 27に合成音声の出力を開始する (ステップ S406)。
[0099] ステップ S407以降 (ステップ S407— S420)の動作は、第 1の実施の形態における ステップ S106以降 (ステップ S107— S120)の動作と同様なため、説明を省略する。
[0100] なお、第 3の実施の形態で述べた例では、画像構成情報生成部 24は、画像構成 情報の全てをサーバ 15から受信した力 本発明はこれに限定されるものではなぐ画 像構成情報の一部を送信装置 11から表現情報として受信し、残りの情報をサーバ 1 5から受信してもよい。具体的には、表現情報の画像構成情報に、画像表示部が画 像を表示するのに必要となる情報の一部(例えば、基本画像)が欠けていたり、表現 情報の画像構成情報に、基本画像がないことを示す情報と、基本画像が記憶されて いるインデックスとが含まれていたりする場合、画像構成情報生成部 24は、サーバ 1 5に接続して基本画像を受信し、サーバ 15から受信した基本画像と、表現情報に含 まれて ヽる他の情報とで画像構成情報を生成してもよ 、。
[0101] また、第 3の実施の形態で述べた例では、画像構成情報の全部または一部をサー バ 15から受信するという構成になっているが、サーバ 15が声質情報を記憶し、声質 情報生成部 23が通信回線 14を介してサーバ 15と接続され、声質情報の全部または 一部をサーバ 15から受信して、声質情報を生成してもよい。その場合、表現情報に 声質情報のインデックスが含まれる。さらに、画像構成情報部 24が画像構成情報の 全部または一部をサーバ 15から受信し、声質情報生成部 23が声質情報の全部また は一部をサーバ 15から受信する構成であってもよ 、。
[0102] 以上、述べたように、この実施の形態によれば、画像表示部 22が表示する画像ま たは音声合成部 21が生成する合成音声を、サーバ 15が記憶している画像構成情報 または声質情報にもとづいて生成するため、例えば著名人やキャラクタの画像や音 声を使用する権利を有する第三者が、画像構成情報または声質情報をサーバ 15に 記憶させて、受信装置 13に送信することで、送信装置 11のユーザと受信装置 13の ユーザとは、より多彩なコミュニケーションを行うことができる。
[0103] また、通信回線 14が LAN等の専用回線であれば、画像情報生成部 24とサーバ 1 5との通信プロトコルを簡易なものにできるので、システムの構築が簡単になる。また、 通信回線 14力インターネット等の公衆回線網であれば、画像情報生成部 24は、他 のサーバに接続して、他のサーバが記憶している画像構成情報または声質情報を 受信することができるため、受信装置 13のユーザは、複数のサーバが記憶している 画像構成情報または声質情報を使い分けることができる。
[0104] 実施の形態 4.
本発明の第 4の実施の形態について、図面を参照して説明する。図 16は、本発明 の第 4の実施の形態の一構成例を示すブロック図である。本実施の形態の構成は、 第 3の実施の形態のサーバ 15に通信回線 16を介して外部の課金処理システムに接 続される課金情報生成部 (課金手段) 26を含む点が第 3の実施の形態と異なる。そし て、画像構成情報送信部 25は、サーバ画像構成情報記憶部 35が記憶している画 像構成情報を通信回線 14を介して受信装置 13の画像構成情報生成部 24に送信 すると、送信した画像構成情報と、送信先の受信装置 13を示す情報とを課金情報生 成部 26に出力する。その他の構成は第 3の実施の形態と同様である。そのため、第 3 の実施の形態と同様の回路等については図 12と同じ符号を付し、説明を省略する。
[0105] 次に、本発明の第 4の実施の形態の動作について説明する。図 17は、画像構成情 報生成部 24が画像構成情報送信部 25から画像構成情報を受信し、画像構成情報 送信部 25が、送信した画像構成情報と送信先の受信装置 13とを示す情報を課金情 報生成部 26に出力する際の動作を説明するシーケンス図である。
[0106] 画像構成情報生成部 24が、画像構成情報のインデックスを受信すると (ステップ S 501)、サーバ 15の画像構成情報送信部 25に受信装置 13を示す情報を送信して 接続を要求する、(ステップ S502)。画像構成情報送信部 25は、受信装置 13の認 証を行な 、 (ステップ S503)、接続を許可する (ステップ S504)。
[0107] 画像構成情報生成部 24は、画像構成情報のインデックスに含まれる位置番号を、 画像構成情報送信部 25に送信する (ステップ S505)。画像構成情報送信部 25は、 位置番号を受信すると (ステップ S506)、受信した位置番号の画像構成情報をサー バ画像構成情報記憶部 35から読み出し (ステップ S507)、読み出した画像構成情 報を、画像構成情報生成部 24に送信する (ステップ S508)。
[0108] 画像構成情報送信部 25は、送信した画像構成情報と送信先の受信装置 13を示 す情報とを課金情報生成部 26に出力する (ステップ S509)。課金情報生成部 26は 、送信した画像構成情報と送信先の受信装置 13を示す情報とにもとづいて、受信装 置 13に課金する金額を決定し、決定した課金する金額と受信装置 13を示す情報と である課金情報を生成し (ステップ S510)、生成した課金情報を通信回線 16を介し て外部の課金処理システムに送信する (ステップ S511)。外部の課金処理システム は、受信した課金情報にもとづいて、受信装置 13のユーザに課金し、料金を請求す る。なお、課金する金額は、外部の課金処理システムが決定してもよい。その場合、 課金情報は、送信した画像構成情報と送信先の受信装置 13を示す情報を含む情報 である。
[0109] 画像構成情報生成部 24は、画像構成情報を受信すると (ステップ S512)、画像構 成情報送信部 25に接続の切断を要求する (ステップ S513)。画像構成情報送信部 25は、接続の切断を許可する (ステップ S514)。画像構成情報生成部 24は、画像構 成情報送信部 25との接続を切断する (ステップ S515)。
[0110] なお、以上に述べた例では、課金情報生成部 26は、送信した画像構成情報と送信 先の受信装置 13を示す情報とにもとづいて、受信装置 13に課金する金額を決定し ているが、サーバ 15が声質情報を記憶し、送信した声質情報と送信先の受信装置 1 3を示す情報とにもとづいて、受信装置 13に課金する金額を決定してもよい。 [0111] 以上、述べたように、この実施の形態によれば、受信装置 13のユーザによる、画像 構成情報や声質情報の利用回数や種類に応じた課金処理が可能となり、例えば著 名人やキャラクタの声質情報や画像構成情報を有料で受信装置 13のユーザに提供 することができる。また、例えば、画像構成情報や声質情報に広告'宣伝の要素を入 れると、そのような画像構成情報や声質情報を利用した回数に応じて広告主に対し て課金することができる。
[0112] なお、本実施の形態では、課金情報生成部 26はサーバ 15に含まれるが、送信装 置 11が課金情報生成部 26を含み、課金情報生成部 26は、送信部 32が表現情報を 受信装置 13に送信すると、送信した表現情報に応じて、受信装置 13のユーザに課 金してちょい。
産業上の利用可能性
[0113] 本発明によれば、電子メールや電子会議、チャット等の、テキストのメッセージの送 受信を行う用途に適用することができる。また、マンマシンインタフェースのような、機 械的に生成されるメッセージを出力する用途に適用することができる。
図面の簡単な説明
[0114] [図 1]従来のメッセージ伝達システムの一構成例を示すブロック図である。
[図 2]本発明の第 1の実施の形態の一構成例を示すブロック図である。
[図 3]本発明の第 1の実施の形態の動作を説明するフローチャートである。
[図 4]テキストメッセージ記憶部が記憶しているテキストメッセージの一例である。
[図 5]表現情報の一例を示す説明図である。
[図 6]声質情報の一例を示す説明図である。
[図 7]画像構成情報の一例を示す説明図である。
[図 8]合成音声の音声波形の一例を示す説明図である。
[図 9]画像表示部が出力する画像の例を示す説明図である。
[図 10]本発明の第 2の実施の形態の一構成例を示すブロック図である。
[図 11]本発明の第 2の実施の形態の動作を説明するフローチャートである。
[図 12]本発明の第 3の実施の形態の一構成例を示すブロック図である。
[図 13]第 3の実施の形態の表現情報の一例を示す説明図である。 [図 14]画像構成情報生成部が画像構成情報送信部から画像構成情報を受信する 際1—の1—動作を説明するシーケンス図である。
圆 15]本発明の第 3の実施の形態の動作を説明するフローチャートである。
圆 16]本発明の第 4の実施の形態の一構成例を示すブロック図である。
[図 17]画像構成情報生成部が画像構成情報送信部から画像構成情報を受信し、画 像構成情報送信部が、送信した画像構成情報と送信先の受信装置とを示す情報を 課金情報生成部に出力する際の動作を説明するシーケンス図である。
符号の説明
送信装置
12、 14、 16 通信回線
13 受信装置
15 サーノ
21 音声合成部
22 画像表示部
23 声質情報生成部
24 画像構成情報生成部
25 画像構成情報送信部
26 課金情報生成部
27 スピーカ
31 テキストメッセージ記憶部
32 送信部
33 画像構成情報記憶部
34 表現情報記憶部
35 サーバ画像構成情報記憶部

Claims

請求の範囲
[1] テキストメッセージを送信する送信手段と、
受信したテキストメッセージにもとづいて合成音声を生成する音声合成手段と、 前記合成音声の出力とともに表示する画像の情報を生成する画像情報生成手段と 前記画像情報生成手段が生成した画像の情報にもとづく画像を表示する画像表示 手段と、
前記画像表示手段に表示させる画像の情報である画像構成情報と、前記音声合 成手段に生成させる合成音声の特徴の情報である声質情報とを含む表現情報を予 め記憶する表現情報記憶手段と
を含み、
前記画像情報生成手段は、前記画像構成情報にもとづ!/、て画像の情報を生成し、 前記音声合成手段は、前記声質情報にもとづいて合成音声を生成し、生成した前 記合成音声の区切りを示す情報である区切り情報を生成して、前記画像表示手段に 入力し、
前記画像表示手段は、入力された区切り情報にもとづいて、合成音声の区切りのタ イミングで表示する画像を変化させる
ことを特徴とするメッセージ伝達システム。
[2] 送信手段を含む送信装置と、
音声合成手段と、画像情報生成手段と、画像表示手段と、表現情報記憶手段とを 含む受信装置とを備えた
請求項 1記載のメッセージ伝達システム。
[3] 音声合成手段と、画像情報生成手段と、画像表示手段とを含む受信装置と、
送信手段と、表現情報記憶手段と、前記表現情報記憶手段が記憶している表現情 報を前記受信装置に送信する表現情報送信手段とを含む送信装置とを備え、 前記受信装置は、前記表現情報を受信して声質情報を生成する声質情報生成手 段を含み、
前記画像情報生成手段は、前記表現情報を前記送信装置から受信して、前記表 現情報力 画像構成情報を生成する
請求項 1記載のメッセージ伝達システム。
[4] 送信装置は、受信装置に送信した表現情報に応じた料金の情報である表現情報 課金情報を生成する課金手段を含む
請求項 3記載のメッセージ伝達システム。
[5] 画像構成情報の全部または一部を記憶する外部画像構成情報記憶手段と、前記 外部画像構成情報記憶手段が記憶している前記画像構成情報の全部または一部を 受信装置に送信する画像構成情報送信手段とを含む画像構成情報提供装置を備 えた
請求項 3または請求項 4記載のメッセージ伝達システム。
[6] 受信装置と画像構成情報提供装置とは専用回線で接続される
請求項 5記載のメッセージ伝達システム。
[7] 受信装置と画像構成情報提供装置とは公衆回線網で接続される
請求項 5記載のメッセージ伝達システム。
[8] 表現情報は、外部画像構成情報記憶手段が記憶する画像構成情報の全部または 一部の位置を示す情報である画像インデックス情報を含み、
画像情報生成手段は、前記画像インデックス情報にもとづいて、画像構成情報送 信手段に、前記外部画像構成情報記憶手段が記憶する前記画像構成情報の全部 または一部の送信を要求する
請求項 5から請求項 7のうちいずれ力 1項記載のメッセージ伝達システム。
[9] 画像構成情報送信手段は、画像情報生成手段の要求に応じて、外部画像構成情 報記憶手段が記憶する画像構成情報の全部または一部を受信装置に送信する 請求項 8記載のメッセージ伝達システム。
[10] 画像構成情報提供装置は、受信装置に送信した画像構成情報に応じた料金の情 報である画像課金情報を生成する課金手段を含む
請求項 5から請求項 9のうちいずれ力 1項記載のメッセージ伝達システム。
[11] 声質情報の全部または一部を記憶する外部声質情報記憶手段と、前記外部声質 情報記憶手段が記憶している前記声質情報の全部または一部を受信装置に送信す る声質情報送信手段を含む声質情報提供装置を備えた
請求項 3から請求項 10のうちいずれ力 1項記載のメッセージ伝達システム。
[12] 受信装置と声質情報提供装置とは専用回線で接続される
請求項 11記載のメッセージ伝達システム。
[13] 受信装置と声質情報提供装置とは公衆回線網で接続される
請求項 11記載のメッセージ伝達システム。
[14] 表現情報は、外部声質情報記憶手段が記憶する声質情報の全部または一部の位 置を示す情報である声質インデックス情報を含み、
音声合成手段は、前記声質インデックス情報にもとづいて、声質情報送信手段に、 前記外部声質情報記憶手段が記憶する前記声質情報の全部または一部の送信を 要求する
請求項 11から請求項 13のうちいずれ力 1記載のメッセージ伝達システム。
[15] 声質情報送信手段は、音声合成手段の要求に応じて、外部声質情報記憶手段が 記憶する声質情報の全部または一部を受信装置に送信する
請求項 14記載のメッセージ伝達システム。
[16] 声質情報提供装置は、受信装置に送信した声質情報に応じた料金の情報である 声質課金情報を生成する課金手段を含む
請求項 11から請求項 15のうちいずれ力 1項記載のメッセージ伝達システム。
[17] テキストメッセージを受信し、
表示する画像の情報である画像構成情報と合成音声の特徴の情報である声質情 報とを含む表現情報の声質情報と、受信した前記テキストメッセージとにもとづいて 合成音声を生成し、
前記合成音声の区切りを示す情報である区切り情報を生成し、
前記合成音声を出力し、
前記画像構成情報にもとづいて前記合成音声の出力とともに表示する画像の情報 を生成し、
前記画像の情報にもとづく画像を表示し、
前記区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変 化させる
ことを特徴とするメッセージ伝達方法。
[18] 表現情報から画像構成情報を生成し、
前記表現情報から声質情報を生成する
請求項 17記載のメッセージ伝達方法。
[19] 予め記憶している表現情報を送信し、
前記表現情報を受信すると、受信した前記表現情報から画像構成情報を生成し、 受信した前記表現情報から声質情報を生成する
請求項 17記載のメッセージ伝達方法。
[20] 送信した表現情報に応じた料金の情報である表現情報課金情報を生成する 請求項 19記載のメッセージ伝達方法。
[21] 表現情報は、画像構成情報の全部または一部を記憶して!/、る外部画像構成情報 記憶手段における、前記画像構成情報の全部または一部を記憶して!/、る位置を示 す情報である画像インデックス情報を含み、
前記画像インデックス情報にもとづ!/、て、前記外部画像構成情報記憶手段に前記 画像構成情報の全部または一部の送信を要求し、
前記外部画像構成情報記憶手段から、前記画像構成情報の全部または一部を受 信する
請求項 19または請求項 20記載のメッセージ伝達方法。
[22] 外部画像構成情報記憶手段にお!、て、送信した画像構成情報に応じた料金の情 報である画像課金情報を生成する
請求項 21記載のメッセージ伝達方法。
[23] 表現情報は、声質情報の全部または一部を記憶して!/、る外部声質情報記憶手段 における、前記声質情報の全部または一部を記憶して 、る位置を示す情報である声 質インデックス情報を含み、
前記声質インデックス情報にもとづいて、前記外部声質情報記憶手段に、前記声 質情報の全部または一部の送信を要求し、
前記外部声質情報記憶手段から、前記声質情報の全部または一部を受信する 請求項 19から請求項 22のうちいずれ力 1項記載のメッセージ伝達方法。
[24] 外部声質情報記憶手段にお!、て、送信した声質情報に応じた料金の情報である 声質課金情報を生成する
請求項 23記載のメッセージ伝達方法。
[25] 送信装置力 テキストメッセージを受信する受信装置において、
画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含 む表現情報の声質情報と、前記送信装置から受信したテキストメッセージとにもとづ いて合成音声を生成する音声合成手段と、前記画像構成情報にもとづいて、合成音 声の出力とともに表示する画像の情報を生成する画像情報生成手段と、前記画像情 報生成手段が生成した画像の情報にもとづく画像を表示する画像表示手段とを含み 前記音声合成手段は、生成した前記合成音声の区切りを示す情報である区切り情 報を生成して、前記画像表示手段に入力し、
前記画像表示手段は、入力された区切り情報にもとづいて、合成音声の区切りのタ イミングで表示する画像を変化させる
ことを特徴とする受信装置。
[26] 表現情報を予め記憶する表現情報記憶手段を含み、
画像情報生成手段は、前記表現情報から画像構成情報を生成する
請求項 25記載の受信装置。
[27] 表現情報を受信して、前記表現情報から声質情報を生成する声質情報生成手段 を含み、
画像情報生成手段は、前記表現情報を受信して、前記表現情報から画像構成情 報を生成する
請求項 25記載の受信装置。
[28] 画像構成情報の全部または一部を記憶する画像構成情報提供装置から、前記画 像構成情報の全部または一部を受信する
請求項 26または請求項 27記載の受信装置。
[29] 表現情報は、画像構成情報提供装置が記憶する画像構成情報の全部または一部 の位置を示す情報である画像インデックス情報を含み、
画像情報生成手段は、前記画像インデックス情報にもとづいて、前記画像情報提 供装置に、前記画像情報提供装置が記憶する前記画像構成情報の全部または一 部の送信を要求し、前記画像情報提供装置から、前記画像情報提供装置が記憶す る前記画像構成情報の全部または一部を受信する
請求項 28記載の受信装置。
[30] 画像情報提供装置と専用回線で接続された
請求項 28または請求項 29記載の受信装置。
[31] 画像情報提供装置と公衆回線網で接続された
請求項 28または請求項 29記載の受信装置。
[32] 声質情報の全部または一部を記憶する声質情報提供装置から、前記声質情報の 全部または一部を受信する
請求項 26から請求項 31のうちいずれ力 1項記載の受信装置。
[33] 表現情報は、声質情報提供装置が記憶する声質情報の全部または一部の位置を 示す情報である声質インデックス情報を含み、
音声合成手段は、前記声質インデックス情報にもとづいて、前記声質情報提供装 置に、前記声質情報提供装置が記憶する声質情報の全部または一部の送信を要求 し、前記声質情報提供装置から、前記声質情報提供装置が記憶する前記声質情報 の全部または一部を受信する
請求項 32記載の受信装置。
[34] 声質情報提供装置と専用回線で接続された
請求項 32または請求項 33記載の受信装置。
[35] 声質情報提供装置と公衆回線網で接続された
請求項 32または請求項 33記載の受信装置。
[36] 受信装置に伝達するテキストメッセージ、受信装置に表示させる画像の情報である 画像構成情報、および受信装置に生成させるテキストメッセージの合成音声の特徴 の情報である声質情報を含む表現情報とを送信する送信手段を含む
ことを特徴とする送信装置。
[37] コンピュータに、
画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含 む表現情報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生 成させ、前記合成音声の区切りを示す情報である区切り情報を生成させる音声合成 処理と、
テキストメッセージの合成音声の出力とともに表示する画像の情報を、前記画像構 成情報にもとづいて生成させる画像情報生成処理と、
前記区切り情報にもとづいて、画像を表示する画像表示手段に、合成音声の区切 りのタイミングで画像を変化させて表示させる画像表示処理と
を実行させることを特徴とするメッセージ伝達プログラム。
[38] コンピュータに、
表現情報を受信して、前記表現情報から声質情報を生成する声質情報生成処理 を実行させ、
画像情報生成処理で、前記表現情報を受信して、前記表現情報から画像構成情 報を生成する処理を実行させる
請求項 37記載のメッセージ伝達プログラム。
[39] コンピュータに、
画像情報生成処理で、画像構成情報の全部または一部を記憶する外部画像構成 情報記憶手段と、前記外部画像構成情報記憶手段が記憶して!/ヽる前記画像構成情 報の全部または一部を送信する画像構成情報送信手段とを含む画像情報提供装置 から、表現情報に含まれ、前記外部画像構成情報記憶手段が記憶する画像構成情 報の全部または一部の位置を示す情報である画像インデックス情報にもとづ 、て、前 記画像情報提供装置が記憶する前記画像構成情報の全部または一部の送信を、前 記画像情報提供装置に要求する処理を実行させ、前記画像情報提供装置から前記 画像構成情報の全部または一部を受信する処理を実行させる
請求項 38記載のメッセージ伝達プログラム。
[40] コンピュータに、
音声合成処理で、声質情報の全部または一部を記憶する外部声質情報記憶手段 と、前記外部声質情報記憶手段が記憶して 、る前記声質情報の全部または一部を 送信する声質情報送信手段とを含む声質情報提供装置から、表現情報に含まれ、 前記外部声質情報記憶手段が記憶している前記声質情報の全部または一部の位 置を示す情報である声質インデックス情報にもとづ!/、て、前記声質情報提供装置が 記憶する前記声質情報の全部または一部の送信を、前記声質情報提供装置に要求 する処理を実行させ、前記声質情報提供装置から、前記声質情報の全部または一 部を受信する処理を実行させる
請求項 38または請求項 39記載のメッセージ伝達プログラム。
PCT/JP2005/003216 2004-03-05 2005-02-25 メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム WO2005086010A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004062408A JP2007241321A (ja) 2004-03-05 2004-03-05 メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム
JP2004-062408 2004-03-05

Publications (1)

Publication Number Publication Date
WO2005086010A1 true WO2005086010A1 (ja) 2005-09-15

Family

ID=34918115

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/003216 WO2005086010A1 (ja) 2004-03-05 2005-02-25 メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム

Country Status (2)

Country Link
JP (1) JP2007241321A (ja)
WO (1) WO2005086010A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101981614B (zh) * 2008-04-08 2012-06-27 株式会社Ntt都科摩 媒体处理服务器设备及其媒体处理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5743471B2 (ja) * 2010-09-24 2015-07-01 東芝アルパイン・オートモティブテクノロジー株式会社 情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162167A (ja) * 1992-11-20 1994-06-10 Fujitsu Ltd 合成画像表示システム
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
JP2000347956A (ja) * 1999-03-31 2000-12-15 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162167A (ja) * 1992-11-20 1994-06-10 Fujitsu Ltd 合成画像表示システム
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
JP2000347956A (ja) * 1999-03-31 2000-12-15 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101981614B (zh) * 2008-04-08 2012-06-27 株式会社Ntt都科摩 媒体处理服务器设备及其媒体处理方法
KR101181785B1 (ko) 2008-04-08 2012-09-11 가부시키가이샤 엔.티.티.도코모 미디어 처리 서버 장치 및 미디어 처리 방법

Also Published As

Publication number Publication date
JP2007241321A (ja) 2007-09-20

Similar Documents

Publication Publication Date Title
FI115868B (fi) Puhesynteesi
US7756536B2 (en) Device and method for providing and displaying animated SMS messages
JP4489121B2 (ja) 移動通信網における3dキャラクターを利用したニュース情報を提供する方法及びニュース情報提供サーバ
JP2000305583A (ja) 音声合成装置
EP1587288A2 (en) Wireless communication terminal for providing integrated messaging service and method thereof
JPH03238961A (ja) ネットワークシステム
JP6218568B2 (ja) 通信装置、通信システム、通信方法、および通信プログラム
JP3923712B2 (ja) メッセージ交換システムおよび記録媒体
WO2005086010A1 (ja) メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラム
KR101916107B1 (ko) 통신 단말 및 그 통신 단말의 정보처리 방법
KR100499769B1 (ko) 이동 통신 단말의 인스턴트 메신저를 통한 사진 표시 방법및 이를 위한 이동 통신 단말
JP2006254119A (ja) 携帯通信端末連携システム
KR100572464B1 (ko) 통합 메시징 서비스 기능을 가지는 무선통신단말기 및 그방법
KR20040025029A (ko) 유무선통신단말기의 문자데이터 입력을 통한 영상데이터전송방법
EP2224427A1 (en) Mobile wireless communications device for hearing and/or speech impaired user
JP4783264B2 (ja) 電子メール作成方法及び通信端末装置
JP5344623B2 (ja) 電子メールシステム、電子メール受信装置および表示方法
JP3598509B2 (ja) 端末装置およびその制御方法
JP2009157082A (ja) 情報機器、情報機器の制御方法、コンピュータプログラム、及び通信システム
KR100995761B1 (ko) 이동 통신 시스템의 이메일 서비스 장치 및 방법
KR20030035677A (ko) 사서함기능이 구비된 인터넷폰 시스템 및 그 제어방법
JP2008172359A (ja) Ipインターホンシステム
JP2008117142A (ja) 携帯端末、電子メール送受信システム、電子メール送受信方法、電子メール送受信プログラム
JP2007193670A (ja) 電子メール通信方法、通信端末装置及び電子メール通信システム
JP2004343649A (ja) 音声応答システム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP