WO2006011295A1 - Communication device - Google Patents

Communication device Download PDF

Info

Publication number
WO2006011295A1
WO2006011295A1 PCT/JP2005/010024 JP2005010024W WO2006011295A1 WO 2006011295 A1 WO2006011295 A1 WO 2006011295A1 JP 2005010024 W JP2005010024 W JP 2005010024W WO 2006011295 A1 WO2006011295 A1 WO 2006011295A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
agent
communication
address book
character
Prior art date
Application number
PCT/JP2005/010024
Other languages
French (fr)
Japanese (ja)
Inventor
Katsunori Orimoto
Toshiki Hijiri
Akira Uesaki
Yoshiyuki Mochizuki
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Publication of WO2006011295A1 publication Critical patent/WO2006011295A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone

Definitions

  • the present invention relates to a communication device that transmits a message using a CG character agent that imitates a specific individual, and more particularly, to a communication device having a videophone function.
  • information terminals have transmitted various messages to users. For example, there is a message to inform the state of the device such as “The battery is about to run out”, a message to convey the event such as “E-mail from Mr. OO arrived”, etc.
  • the content of the sent e-mail itself can be regarded as a message from the mail sender.
  • the simplest interface is to display text information on the screen.
  • the display of only characters is (1) the number of characters that can be displayed simultaneously is limited, (2) information that is difficult to express by characters (for example, emotions, etc.) cannot be conveyed, etc. It was difficult.
  • an easy-to-understand and friendly interface has been proposed by combining various interfaces such as displaying an image of a message sender and reading out a message by voice.
  • One such multi-modal interface is an interface that reads out CG character power messages in the form of a human voice.
  • Such an interface using CG characters is called a CG character agent.
  • This CG character agent can be broadly divided into two types: one using a general CG character and one using a personal information-powered CG character.
  • the former is an agent that can be created without depending on the personal information of the user, and refers to, for example, an anime character or a character in the form of an animal.
  • the latter is generated based on the user's personal information, and refers to, for example, a character pasted with a user's face photo or a character using a portrait that reflects the user's characteristics.
  • Patent Document 1 Japanese Unexamined Patent Publication No. 2003-141564
  • Patent Document 2 Japanese Patent Laid-Open No. 06-162167
  • the present invention aims to solve the above-described problems. By using information transmitted together with communication such as a videophone, it is possible to automatically perform communication for each communication partner without requiring a user.
  • the primary purpose is to provide a communication device that can generate and update personal CG character agents.
  • a second object is to provide an apparatus.
  • the communication device of the present invention is a communication device for communicating a message using a CG character agent, and communication means for communicating communication data with other terminals.
  • agent data creation means for creating agent data including personal characteristic data of the communication partner based on the communication data, and address book data including the agent data corresponding to the personal information of the communication partner.
  • the address book data creating means, the address book data storing means for storing the address book data, and the agent data included in the address book data of the communication partner are referred to, and the CG character agent of the communication partner is referred to.
  • the communication apparatus automatically creates agent data of a communication partner using communication data received during communication with another terminal, and generates address book data. It is possible to create a CG character agent by referring to the agent data of the communication partner registered in the address book in the agent creation means.
  • the agent data creation means extracts an image feature extraction unit that automatically extracts image feature data from the communication data, and extracts voice feature data.
  • a speech feature extraction unit that performs at least the agent data. Includes the image feature data and the audio feature data.
  • the agent data creation means of the communication device temporarily stores a reliability degree assigning unit that assigns reliability to the created agent data, and the agent data to which the reliability is assigned. Compares the temporary storage data storage unit for storage with the reliability of newly created agent data during communication and the reliability of agent data already stored in the temporary storage data storage unit! A reliability determination unit that automatically updates the agent data stored in the temporary storage data storage unit to agent data having high reliability, and the agent creation means further includes the temporary storage data storage The CG character agent is created using the agent data stored in the section.
  • the communication device assigns reliability to the image feature data and the sound feature data, which are personal feature data, and is automatically stored in the temporary storage data storage unit. Because agent data can be updated to highly reliable agent data, it is always possible to communicate messages using the latest reliable image and voice CG character agent of the communication partner.
  • the present invention can be realized as a CG character agent creating apparatus having characteristic means of a communication apparatus, a communication method using the means as a step, or each step in a computer. It can also be realized as a program for execution. It goes without saying that such a program can be distributed through a recording medium such as a CD-ROM or a transmission medium such as the Internet.
  • the communication apparatus can automatically generate and update a CG character agent that reflects the characteristics of a communication partner that does not require user effort. Therefore, it is possible to realize a familiar interface using CG character agents and an easy-to-use interface.
  • the communication device stores image feature data and sound feature data of a communication partner. This makes it easy to manage agent data, and can use this agent data for various applications other than videophone and mail.
  • FIG. 1 is an external view of a mobile phone terminal for explaining an information terminal according to the present invention.
  • FIG. 2 shows a configuration of a communication device according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of an agent data creation unit in an embodiment of the present invention.
  • FIG. 4 is a conceptual diagram for explaining address book data in an embodiment of the present invention.
  • FIG. 5 is a conceptual diagram for explaining feature extraction of an image in an embodiment of the present invention.
  • FIG. 6 is a conceptual diagram for explaining a method for generating an animation image using feature points of an image in an embodiment of the present invention.
  • Fig. 7 is a flowchart for explaining generation processing of agent data in one embodiment of the present invention.
  • FIG. 8 is a flowchart for explaining processing of an application using a personal CG agent in one embodiment of the present invention.
  • FIG. 9 is a conceptual diagram for explaining animation control in an agent output unit in one embodiment of the present invention.
  • FIG. 1 is an external view of the mobile phone terminal 10.
  • a mobile phone terminal 10 is a mobile phone having a television phone function, and includes a key 101, a speaker 102, a display 103, a camera 104, and a microphone 105.
  • the key 101 is composed of a number key for making a call and a plurality of keys for a camera function and a mail function.
  • the speaker 102 outputs sound when receiving a call, or outputs a ring tone for a telephone or e-mail.
  • the display 103 displays images and characters, and specifically may be a liquid crystal display or an organic EL display.
  • the camera 104 acquires a still image or a moving image, and acquires a user image when using a videophone. As an example of the camera 104, a CCD camera or a CMOS camera may be used.
  • the microphone 105 is for inputting voice, and acquires the voice of the user when using the telephone.
  • the communication device is described as the mobile phone terminal 10, but a communication device having a videophone function, such as a stationary telephone, a PDA (Personal Digital Assistant), a personal It can be a computer or the like.
  • a communication device having a videophone function such as a stationary telephone, a PDA (Personal Digital Assistant), a personal It can be a computer or the like.
  • FIG. 2 is a functional block diagram of the communication device 20 in the mobile phone terminal 10.
  • the communication device 20 includes a communication processing unit 210, a videophone processing unit 220, an agent data creation unit 230, an address book data management unit 240, an address book data storage unit 250, an agent setting unit 260, an agent output unit 270, an output unit. 280, an input unit 290, and an application processing unit 300.
  • the communication device may be provided with the CG character agent creation device constituting each functional block shown in FIG.
  • the input unit 290 includes an image input unit 291, an audio input unit 292, and a key input unit 293.
  • the image input unit 291 also captures image data from the camera 104 and acquires it as bitmap data.
  • bitmap data formats include RGB format and YU V format etc.!
  • the voice input unit 292 acquires voice data from the microphone 105.
  • An example of audio data may be PCM (Pulse Code Modulation) data.
  • the key input unit 293 acquires the pressed state when the key 101 is pressed.
  • the output unit 280 includes an image output unit 281 and an audio output unit 282.
  • the image output unit 281 receives bitmap data or a memory address where the bitmap data is stored, and displays it on the display 103.
  • the audio output unit 282 receives audio data and outputs sound through the speaker 105.
  • a communication processing unit 210 shown in FIG. 1 performs transmission / reception of communication in a videophone.
  • the communication processing unit 210 passes the received packet data, which has also received the information terminal capability of the other party, to the videophone processing unit 220.
  • the transmission packet data generated from the videophone processing unit 220 is received and transmitted to the information terminal of the other party.
  • a data format of MPEG4 (Moving Picture Experts Group phase 4) may be used.
  • the videophone packet data may have any data format as long as voice and moving images can be transmitted.
  • the present invention can be applied to any data format.
  • the videophone processing unit 220 performs videophone transmission processing and reception processing.
  • the received packet data force received from the communication processing unit 210 also generates image data (bitmap data) as image information and sound data as sound information.
  • the generated bit map data is transferred to the screen output unit 281 and the audio data is transferred to the audio output unit 282, whereby the transmitted image is displayed on the display 103, and the transmitted audio is output to the speaker 102.
  • video packet transmission packet data is created from the image data acquired from the image input unit 291 and the audio data acquired from the audio input unit 292, and passed to the communication processing unit 210.
  • the videophone processing unit 220 informs the address book data management unit 240 of the telephone number of the other party (videophone partner) and the agent in the corresponding address data.
  • Get data update settings for data When the update setting is ON, the generated image data and audio data are passed to the agent data creation unit 230 during the reception process.
  • timing for passing data timing at which reception processing is executed may be used. However, in order to reduce the processing, the timing may be set at regular intervals so that the number of times is less than that of the reception processing.
  • the agent data creation unit 230 creates agent data for the image information and voice information provided from the videophone processing unit 220 and stores them in the address book data storage unit 250.
  • agent data creation unit 230 creates agent data for the image information and voice information provided from the videophone processing unit 220 and stores them in the address book data storage unit 250.
  • the agent data creation unit 230 includes an image feature extraction unit 231, an audio feature extraction unit 232, a reliability determination unit 233, and a temporarily saved data storage unit 234.
  • the image feature extraction unit 231 generates image feature data from the image data received from the videophone processing unit 220.
  • image feature data is the image data (still image) from which the position coordinates of feature points indicating the part of the face and feature points are extracted.
  • FIG. 5 is a conceptual diagram for explaining the facial feature points extracted by the image feature extraction unit 230.
  • the face image shown in the upper part of FIG. 5 shows the image data delivered from the videophone processing unit 220, and the face of the other party is displayed on a 240 ⁇ 320 size bitmap.
  • P1 upper lip upper end point
  • P2 upper lip lower end point
  • P3 lower lip upper end point
  • P4 lower lip lower end point
  • P5 lip left end point
  • P6 lip
  • the result of recognizing 6 points (right end point) is shown below.
  • the numerical value in the box next to the feature point name indicates the position coordinates of the feature point.
  • the upper right point is the origin and the lower right point is (240, 320) t Use the coordinate system! /
  • the voice feature extraction unit 232 generates voice feature data from the voice data received from the videophone processing unit 220.
  • voice feature data a voice control parameter for controlling the pitch, accent, and the like at the time of voice synthesis may be used.
  • Voice feature data May be voice data obtained by extracting specific phonemes or words used at the time of voice synthesis, or data such as a difference from the voice dictionary data stored in the basic data storage unit 273.
  • the address book data management unit 240 manages the address book data recorded in the address book data storage unit 250.
  • This address book data includes personal information of multiple persons.
  • the address book data management unit 240 has a function of searching for one element included in address book data such as a telephone number as a key and acquiring a memory address of the address book data as a search result. For example, by passing a numerical value of “13” as the data ID or “0901234 5678” as the telephone number, the memory address for accessing the address book data as shown in FIG. 4 is managed.
  • An example of the address book data 400 shown in FIG. 4 is address book data for one person.
  • a data ID for uniquely identifying the data, and an individual such as a name, telephone number, e-mail address, group number, icon, etc. Information is recorded. These data are used for various purposes, such as displaying icons when receiving a phone call, and sorting to a directory by group when receiving a mail.
  • the present invention is characterized in that the address book data 400 includes agent data 401.
  • agent data 401 includes image feature data, voice feature data, data update settings, and an agent type.
  • the image feature data consists of image data itself, or a certain type of feature data obtained by extracting features from the image data.
  • the image feature data the position coordinates of the feature points by state generated by the image feature extraction unit 231, the reliability indicating the certainty of the information about the feature points by state, and the bit of the image data corresponding to the feature points Consists of a file name indicating the map.
  • the position coordinates of the feature points of the image data are data indicating the positions of the human eyes and mouth and the connected parts in the image data, as shown in the lower diagram of FIG. 5 and the conceptual diagram of FIG.
  • it can be defined as position coordinates indicating points on the contours such as eyes, nose and mouth.
  • the characteristic points for each state are the states in which phonemes such as “A”, “I”, “U”, “E”, “O” are generated, “Angry”, “Laughing”. This means the position coordinates of feature points in emotional states such as “sad”.
  • By having feature points for each state it is possible to generate personal CG agents with various facial expressions.
  • the bitmap of the image data corresponding to the feature point is image data that becomes a base when the image is divided and displayed as shown in the upper diagram of FIG. 6, and may be image data in a specific state.
  • image data may be provided for each of a plurality of states using a single image data. For example, it is possible to improve the expressive power by providing a plurality of image data corresponding to feature points by emotion.
  • the reliability is a numerical value representing the certainty of image recognition and voice recognition when extracting feature data. For example, if the other party is not clearly shown in the image data of a videophone, there is a high possibility that image feature data cannot be extracted accurately. Even if a CG character agent is generated using image feature data in such a case, a clear image cannot be generated. Therefore, in the present invention, a realistic CG character reflecting the features of the other party is added by adding an index of reliability to the image feature data and voice feature data, and selecting and recording feature data with high reliability. Realizes creating an agent.
  • the reliability it is necessary to generate a numerical value in which the reliability of recognition is high, the value is 100, the reliability is low !, and the value is 0.
  • a method of generating the reliability of the image feature data it is also possible to generate a value of a table function when recognizing (detecting) a face (or a face portion) from the image data.
  • a table function As an example of the evaluation function in face detection, for example, an evaluation function g for face Z non-face identification disclosed in Japanese Patent Laid-Open No. 2003-44853 may be used.
  • this evaluation function g it is possible to perform face Z non-face discrimination by assuming that a face that should be determined as a face is negative and that a face that should be determined is positive.
  • the reliability of the speech feature data it can be generated from the value of the recognition evaluation function used during speech recognition.
  • the value of the cost function V disclosed in JP 2004-198656 may be used.
  • the reliability of face recognition can also be used to determine the reliability of speech recognition. In this case, when determining the reliability of the audio feature data, the reliability of the corresponding image feature data is used.
  • the reliability of the image feature data is created in the image feature extraction unit 231 and the reliability of the audio feature data is the audio feature extraction unit 232.
  • the agent data creation unit 230 may be provided with a reliability providing unit that provides reliability.
  • the voice feature data also includes the reliability of the voice feature data for each state generated by the voice feature extraction unit 232 and the voice feature data for each state.
  • voice feature data as with image feature data, phonemes such as “A”, “I”, “U”, “E”, “O”, “Angry”, “Laughing” , Voice control parameters in emotional states such as “sad” may be used.
  • the reliability indicates the certainty of recognition and classification, similar to the reliability of the image feature data.
  • the data update setting indicates whether or not agent data is to be generated. When ON, it indicates that agent data is generated and updated when a call is received for a TV phone call. Indicates that agent data is not updated during a call. This setting can be specified by the user using an address book editing application.
  • the agent type sets what type of agent is used when generating a personal CG agent.
  • the present invention comprises image feature data and audio feature data as agent data. Therefore, these types of data can be used to generate various types of agents. For example, on the image side, it is possible to generate a realistic agent with a face photo of a person or to generate a portrait with image feature data power. On the sound side, the voice feature data power is similar to that person. It is also possible to generate robotic speech with the person's accent.
  • Agent setting unit 260 is an application processing unit 300 power personal CG age Enter the agent settings when using the agent message transfer function. The details will be described below.
  • the agent setting unit 260 includes a personal identifier setting unit 261, a state setting unit 262, and a message setting unit 263.
  • the personal identifier setting unit 261 sets a personal identifier that is identification data for specifying a personal CG agent to be used.
  • the personal identifier is a key for searching the address book data by the address book data management unit 240. For example, a data ID included in the address book data or a telephone number may be used.
  • the state setting unit 262 designates a state when a message is transmitted.
  • An example of the state may be emotions such as “angry” and “laughing”.
  • the state setting unit 262 sets the animation state and the like. For example, it includes settings for whether the same message is repeatedly transmitted, settings for message transmission speed, and the like.
  • Message setting section 263 sets a character string of a message to be transmitted. For example, the character string “Denwa Dayo” is set as the message string.
  • the application processing unit 300 indicates an arbitrary application that uses a CG character agent, and performs agent setting for the agent setting unit 300.
  • a specific personal identifier may be acquired from various information such as a telephone number and a name by using the data search function of the address book data management unit 240.
  • the agent output unit 270 acquires the personal CG agent data stored in the address book data storage unit 250 from the address book data management unit 240, and performs image display Z sound output of the personal CG agent based on the data. Details will be described below.
  • the agent output unit 270 includes a CG character drawing unit 271, a voice synthesis unit 272, and a basic data storage unit 273.
  • the CG character drawing unit 271 generates a CG character on a bitmap on a certain memory from the data stored in the basic data storage unit 273 and the image feature data stored in the address book data storage unit 250. Draw and draw bitmap data or bitmap data Is passed to the image output unit 281.
  • FIG. 6 An example of a method of drawing a CG character with image feature data power will be described with reference to FIG.
  • the upper figure in Fig. 6 displays the facial feature points and the facial image data from which the feature points have been extracted, and the lower figure in Fig. 6 shows the facial image data using the coordinates of those feature points.
  • various animation images such as opening and closing eyes, opening and closing mouth, angry state, and laughing state can be generated by animation that moves feature points.
  • the two-dimensional animation technology has been explained.
  • the image data of the face is pasted on the face of the 3DCG character and animated to create a three-dimensional animation. Variations can also be applied.
  • the speech synthesizer 282 generates speech data reflecting personal features from the speech dictionary data stored in the basic data storage unit 273 and the speech feature data stored in the address book data storage unit 250. To the audio output unit 282.
  • the basic data storage unit 273 stores basic data necessary for image generation and speech synthesis of the personal CG agent. Examples of basic data include bitmap data and shape data for displaying character images, and speech dictionary data required for speech synthesis.
  • the agent data stored in the address book data storage unit 250 is data for reflecting the characteristics of the individual. When used together with the basic data in the basic data storage unit 273, the personal CG agent can be output. it can.
  • the agent data in the address book data storage unit 250 includes all of the personal CG agent data, the basic data storage unit 273 can be eliminated.
  • FIG. 7 is a flowchart showing agent data generation processing performed during a videophone call.
  • the agent data generation process is a videophone call.
  • image feature data and voice feature data are generated from the image data and voice data of the calling party, and stored in address book data in which personal information of the calling party is recorded. This will be described in detail below.
  • the videophone call is started when the power of the other terminal is applied, or when the terminal calls the other terminal (step S101).
  • the videophone processing unit 220 notifies the address book data management unit 240 of the telephone number of the other party, and acquires the data update setting value of the agent data. .
  • the address book data management unit 240 searches the address book data stored in the address book data storage unit 250 from the passed telephone number, and sets the “data update setting” value of the address book data (see FIG. 4). It is acquired and returned to the videophone processing unit 220 (step S102).
  • the videophone processing unit 220 ends the agent data generation process (step S103), and only the videophone call process is executed.
  • the videophone processing unit 220 performs processing for passing image data and audio data to the agent data creation unit 230 simultaneously with the videophone call processing (step S104).
  • the agent data creation unit 230 generates agent data from the image data and the sound data.
  • the image feature extraction unit 231 generates image feature data from image data using image recognition technology
  • the audio feature extraction unit 232 generates audio feature data from audio data using audio recognition technology. (Step S105). The details will be described below.
  • the image data is image data transmitted from the other party's power of the videophone, and mainly the face image of the sender is shown.
  • the image data is subjected to facial feature extraction by the image feature extraction unit 231.
  • a face image feature extraction method a pattern matching technique may be used in which the color value of image data is compared with a preliminarily prepared pattern.
  • An example of an object to recognize is whether the entire face is shown What is necessary is just to recognize such as the position of the eyes, nose and mouth. It may also recognize color information.
  • An example of the image feature data acquired here may be position coordinates indicating a specific position such as position coordinates of both ends of the lips as shown in FIG.
  • any data such as color information and face contour information can be applied as long as it can be acquired from the image data.
  • voice data the type of "sound” uttered by voice recognition technology (for example, “O”, “Ha”, “Yo”, “U”, etc.), and the emotional state of the speaker
  • this control parameter shows information such as specific vowel consonants and voice data of frequently used words as they are, and information such as voice pitch, loudness, and speed that changes according to the state of emotion.
  • the type of sound and the type of emotion are defined in advance, and the typical speech feature amount is defined only for the defined type, and it is classified into any type by comparing with the speech feature amount. If you can determine the power that can be.
  • the reliability of the generated image feature data and audio feature data is passed to the reliability determination unit 233, which determines the reliability of the data stored in the temporary storage data storage unit 234 and the state-specific reliability.
  • the degree of comparison is compared (step S106), and feature data with high reliability is updated and stored in the temporary storage data storage unit 234 (step S107).
  • the reliability of the image feature data and the reliability of the audio feature data may be separately compared for determination. Also, if the person appears in the image and the sound is correct and the sound is transmitted, or if the sound is incorrect and the person is displayed in the state, the characteristics of the other party Since there is a high possibility that it will not be reflected, the reliability of the audio data is reflected in the determination of the image data, and the reliability of the audio data is reflected in the determination of the image data. It may be reflected in the determination.
  • the method for storing highly reliable data has been described. However, the created image feature data and audio feature data are stored in the temporary storage data storage unit 234 using the reliability. You may merge with feature data. An example of a merge method is to linearly interpolate two values with confidence as a weight value. Yes.
  • the agent data creation unit 230 asks the videophone processing unit 220 whether or not the power of the videophone call has been terminated (step S108). If it is not terminated (NO in step S108) ), Return to the processing in step S104 and the subsequent steps, and repeat the agent data generation processing.
  • agent data creation unit 230 performs the processing in step S109 and subsequent steps for storing the generated agent data in address book data storage unit 250. Details will be described below.
  • the video phone processing unit 220 notifies the address book data management unit 240 that the video phone call has ended, and passes the phone number of the other party.
  • Address book data management unit 240 receives agent data stored in temporary storage data storage unit 234 from agent data creation unit 230.
  • the address book data of the other party is searched from the address book data storage unit 250 based on the telephone number that has been passed, and the agent data is obtained.
  • the reliability judgment unit 233 compares the reliability for each state (step S109), and when the reliability is high (YES in step S110), the reliability of the address book data Update agent data (step S111). On the other hand, if the reliability is low (NO in step S110), the process is terminated without updating the agent data of the address book data.
  • the method for storing highly reliable data has been described. However, the two data may be merged using the reliability.
  • the present invention can be applied to a TV conference system in which a plurality of persons can participate. Needless to say, the present invention can also be applied to a system that communicates various images and sounds.
  • This section describes the flow of the abrasion process in which the client sends the message “Denwa Dayo” to the user's communication device.
  • the application processing unit 300 refers to a processing unit of a telephone application that processes a call when an incoming call is received.
  • the application processing unit 300 sets the personal CG agent to be used for the agent setting unit 260 (step 201).
  • An example of this setting is personal identifier setting, status setting, and message setting power, which will be described in detail below.
  • application processing unit 300 sets an identifier for identifying an individual in individual identifier setting unit 261.
  • the personal identifier is an identifier for retrieving data in the address book data management unit 240, and may be a telephone number or address book data ID, for example.
  • the application processing unit 300 passes the telephone number of the incoming call to the address book data management unit 240, searches the address book data in the address book data storage unit 250, and You only need to get the corresponding data ID.
  • a message character string to be transmitted is set in the message setting unit 263.
  • a fixed character string such as “Denwa Dayo” may be used.
  • a personal message may be set in the address book and the character string may be read out.
  • the name of the other party may be obtained from the address book data management unit 240 and may include a character string unique to the individual such as “From Mr. OO.
  • the message is information of only a character string, but parameters used in speech synthesis such as accent, size, and interval may be added to the message.
  • a state parameter for controlling the personal CG agent is set in the state setting unit 262.
  • the state parameter there is a state meter that indicates the state of the agent, and setting power related to animation such as repeated actions.
  • the status parameter may be an emotion parameter for changing the way of reading depending on the emotion such as “angry” or “laughing” when reading the character string “Denwa Dayo”.
  • Repetitive action settings include the ability to read out the message “Calla phone” just once, the power to read it repeatedly as “Phone phone, phone call, phone call, etc.” With settings for repeated control Yes, at the time of repetition, you can also specify the change of reading when repeating, such as “Repeat gradually” and “Repeat gradually”. From these settings, the type of CG agent operation and the type of animation can be determined.
  • the agent setting unit 260 passes the setting value to the agent output unit 270.
  • the agent output unit 270 first passes the personal identifier to the address book data management unit and receives the corresponding agent data (step S202). The data transfer may be performed by copying the actual state of the data to a certain memory. You may pass the address of the memory where the data is stored. Further, the image feature data included in the agent data is passed to the CG character drawing unit 271, and the voice feature data is passed to the speech synthesis unit 272.
  • the CG character drawing unit 271 draws a CG character reflecting the personal features based on the personal feature data (step S203).
  • a CG character drawing method will be described.
  • the method of directly using the facial photo and the method of displaying the portrait are selected.
  • the facial parts stored in the basic data storage unit 273 (“eyes”, “nose”, “mouth”, etc.) from the bitmap of the facial photo and the coordinates of the facial feature points )
  • Bitmaps are selected, and further scaled according to the position coordinates are combined to generate various facial bitmaps.
  • the generated portrait bitmap can be handled in the same way as the portrait bitmap.
  • an animation image of opening and closing of the mouth and opening and closing of the eyes is generated.
  • this animation technology as shown in Fig. 6, a mesh is defined based on facial feature points, and bit map data (face photo or caricature data) of the face is texture-mapped on the mesh, and the mesh is created.
  • bit map data face photo or caricature data
  • By using these technologies it is possible to draw animated images with lip sync or blinking as bitmap data in accordance with the sound.
  • a full body model of the character is created using the 3DCG force, which shows only the method of animating the facial image data, and the above facial image is pasted on the facial mesh to display the full body character. May be.
  • the speech synthesizer 272 utters a speech corresponding to the given character string (step 204).
  • the phoneme data of the character to be uttered is acquired from the default phoneme database stored in the basic data storage unit 273, and the phoneme control data included in the personal voice feature data is further acquired. Use to change phoneme data and connect phoneme data of character units to generate voice data of the corresponding character string
  • bitmap data generated by the agent output unit 270 is sent to the screen output unit 281 (step S203), and the voice data is sent to the voice output unit 282 (step S204).
  • the agent output unit 270 controls animation according to the setting of the agent setting unit 260. For example, if a message with the string “Good morning” is conveyed as voice in 4 seconds, an animation of 4 seconds is also drawn for the screen display. As an example of how to create an animation image, as shown in Fig. 9, every second, the face of the face is shaped like “O”, “Ha”, “Yo”, “U”. Control animation and use multiple frames per second to draw animated images that change mouth shape continuously.
  • step S205 the personal CG agent output processing ends (step S205).
  • step S206 the position coordinates used in the drawing, such as control parameters for voice processing, are changed according to the change in time (step S206), and the personal CG agent The output process (step S203 to step S204) is repeated.
  • the communication device 20 of the present invention uses the image information and audio information sent in a videophone call to reflect the characteristics of the other party. Can be automatically generated. Therefore, it is possible to realize a communication device that transmits a message using a CG character agent that reduces the time and effort of the user.
  • agent data created in the agent data creation unit 230 in correspondence with the address book data of the other party of the call, all kinds of messages from persons registered in the address book can be personalized. Can be communicated as a CG character agent.
  • the agent data 401 including the image feature data and the voice feature data is assigned to the address book data 400 and managed for each communication partner. Management can be facilitated, and the address book data 400 can be used in various other applications other than message transmission applications such as videophone and mail.
  • the processing of the application using the present invention has been explained for the incoming call message.
  • the present invention reads out the incoming message of the e-mail and the content of the e-mail. Needless to say, it is equally applicable to various applications that handle personal information, such as applications transmitted by the personal CG agent of the e-mail sender.
  • the present invention can be applied to entertainment applications such as games.
  • CG characters that reflect the characteristics of a person who knows! / Can appear in the virtual world and convey information (messages), creating their own characters and stories. To provide new entertainment.
  • the communication apparatus can realize a familiar and easily understandable interface using a CG character agent, and is useful for information terminals having a videophone function, such as a mobile phone terminal, a PDA, and a PC.

Abstract

A communication device for communication using a CG character agent while automatically creating/updating a personal CG agent from image information and speech information sent during conversation through a video telephone. The communication device comprises a communication processing section (210) for communicating video telephone packet data with another terminal, a video telephone processing section (220) for creating image information and speech information on the conversation party from the video telephone packet data, and an agent data creating section (230) for creating agent data on the conversation party from the image information and speech information, an address book data storage unit (250) storing the agent data after associating the agent data with the personal information on the conversation party, an address book data management section (240) for performing data management of the address book data such as data search, and an agent output unit (270) for creating a CG character agent from the agent data.

Description

明 細 書  Specification
通信装置  Communication device
技術分野  Technical field
[0001] 本発明は、特定の個人を模した CGキャラクタエージェントを利用してメッセージを 伝える通信装置に関し、特に、テレビ電話機能を有する通信装置に関する。  The present invention relates to a communication device that transmits a message using a CG character agent that imitates a specific individual, and more particularly, to a communication device having a videophone function.
背景技術  Background art
[0002] 従来、情報端末は、ユーザに対して、様々なメッセージを伝えてきた。例えば、「電 池が切れそうです。」といった機器の状態を伝えるためのメッセージや、「〇〇さんか らの電子メールが到着しました。」などのイベントを伝えるためのメッセージなどがあり 、さらに、送信されてきた電子メールの内容自体もメール送信者からのメッセージとし て捉えることができる。これらのメッセージの伝達において、最も単純なインターフエ ースは、画面上に文字情報として表示することである。しかし、文字だけの表示は、 ( 1)同時に表示できる文字数に制限がある、(2)文字によって表現しにくい情報 (例え ば、感情など)は伝えられない、などの理由によって、親しみにくぐ分かりにくいとい う面があった。  Conventionally, information terminals have transmitted various messages to users. For example, there is a message to inform the state of the device such as “The battery is about to run out”, a message to convey the event such as “E-mail from Mr. OO arrived”, etc. The content of the sent e-mail itself can be regarded as a message from the mail sender. In the transmission of these messages, the simplest interface is to display text information on the screen. However, the display of only characters is (1) the number of characters that can be displayed simultaneously is limited, (2) information that is difficult to express by characters (for example, emotions, etc.) cannot be conveyed, etc. It was difficult.
[0003] そこで、メッセージ発信者の画像を表示することや、メッセージを音声で読み上げる など、様々なインターフェースを組み合わせることで、分かり易ぐ親しみ易いインター フェースが提案されてきた。このようなマルチモーダルなインターフェースの 1つに、 人間の姿をした CGキャラクタ力 メッセージを音声で読み上げるインターフェースが ある。このような CGキャラクタを使用したインターフェースは CGキャラクタエージェント と呼ばれる。  [0003] Therefore, an easy-to-understand and friendly interface has been proposed by combining various interfaces such as displaying an image of a message sender and reading out a message by voice. One such multi-modal interface is an interface that reads out CG character power messages in the form of a human voice. Such an interface using CG characters is called a CG character agent.
[0004] この CGキャラクタエージェントは、大きく分けると、一般的な CGキャラクタを使用し たものと、個人情報力 作られた CGキャラクタを使用したものの、 2つに分けることが できる。前者は、ユーザの個人情報に依存せずに作ることができるエージェントであり 、例えば、アニメのキャラクタや動物の姿をしたキャラクタなどを指す。後者は、ユーザ の個人情報を元に生成するものであり、例えば、ユーザの顔写真を貼り付けたキャラ クタや、ユーザの特徴を反映させた似顔絵を使ったキャラクタなどを指す。 [0005] そして、後者を使用したアプリケーションの一例としては、電子メール受信時に、電 子メールの送信者の姿をした CGキャラクタが表示され、電子メール送信者の声で電 子メールを読み上げてくれるものが提案されている。このように、個人情報を反映させ ることで、親しみのある声でのメッセージを分力りやすく読み上げることや、視覚的に 一目で送信者を把握できるようになるなどのメリットが生まれ、親しみやすさ、分かりや すさの向上が可能となる。以下では、このような CGキャラクタエージェントをパーソナ ル CGエージェントと呼ぶ。 [0004] This CG character agent can be broadly divided into two types: one using a general CG character and one using a personal information-powered CG character. The former is an agent that can be created without depending on the personal information of the user, and refers to, for example, an anime character or a character in the form of an animal. The latter is generated based on the user's personal information, and refers to, for example, a character pasted with a user's face photo or a character using a portrait that reflects the user's characteristics. [0005] As an example of an application using the latter, when an e-mail is received, a CG character in the form of an e-mail sender is displayed, and the e-mail is read out by the voice of the e-mail sender. Things have been proposed. In this way, by reflecting personal information, it is possible to read out messages in a friendly voice so that they can be easily read and visually understand the sender at a glance. Now, it becomes possible to improve comprehension. Below, such a CG character agent is called a personal CG agent.
[0006] パーソナル CGエージェントを実現するための技術として、音声と画像の両面で、対 象とする個人を模した CGキャラクタを作成する技術が提案されてきた。画像に関して は、人物の写真 (または映像)から人物の形状モデルを作成し、さらに人物の写真を 形状モデルに貼り付けることで、特定の人物の任意のアニメーション画像を表示する 技術などがある。音声に関しては、音声合成と呼ばれる技術があり、これは、母音や 子音といった音素単位、あるいは、頻繁に使われる単語単位の音声を音声辞書デー タとして蓄積しておき、再生時にそれらの音声辞書データを組み合わせることによつ て、任意の文字列の音声を発音するものである。  [0006] As a technique for realizing a personal CG agent, a technique for creating a CG character imitating a target individual in both voice and image has been proposed. With regard to images, there is a technology that displays an arbitrary animated image of a specific person by creating a person's shape model from a person's photograph (or video) and pasting the person's photograph on the shape model. As for speech, there is a technology called speech synthesis, which stores speech units such as vowels and consonants, or frequently used word units as speech dictionary data, and those speech dictionary data during playback. By combining these, the sound of an arbitrary character string is pronounced.
[0007] これまでにも、これら技術を使用し、画像と音声の両面から、特定の個人を模した C Gキャラクタを生成する技術が提案されてきた (例えば、特許文献 1参照)。  [0007] In the past, there has been proposed a technique for generating a CG character imitating a specific individual from both the image and the sound by using these techniques (see, for example, Patent Document 1).
[0008] また、このような CGキャラクタを制御するためのパラメータをメッセージ (例えば、電 子メール)に添付することによって、メッセージ作成者の意図するように CGキャラクタ エージェントを制御する技術が提案されている(例えば、特許文献 2参照)。  [0008] In addition, there has been proposed a technique for controlling a CG character agent as intended by a message creator by attaching parameters for controlling such a CG character to a message (for example, an electronic mail). (For example, see Patent Document 2).
特許文献 1 :特開 2003— 141564号公報  Patent Document 1: Japanese Unexamined Patent Publication No. 2003-141564
特許文献 2 :特開平 06— 162167号公報  Patent Document 2: Japanese Patent Laid-Open No. 06-162167
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0009] し力しながら、上述した従来技術では、(1)ユーザが通信装置においてパーソナル CGエージェントを利用するためには、例えば、通信相手毎に画像指定を行うなど、 ユーザが意図的に通信相手毎のデータ作成することが前提であり、ユーザの手間を 要している。また、(2)通信装置のデータ管理という面において、メッセージに制御パ ラメータを添付する方法が開示されているが、メッセージ管理におけるデータ量が増 大することや、任意のメッセージデータに対して適用できないなどの問題がある。 However, in the above-described conventional technology, (1) in order for the user to use the personal CG agent in the communication device, the user intentionally communicates, for example, by specifying an image for each communication partner. The premise is to create data for each partner, which requires user effort. In addition, in (2) data management of communication devices, control Although a method for attaching parameters has been disclosed, there are problems such as an increase in the amount of data in message management and inapplicability to arbitrary message data.
[0010] 本発明は、上記課題を解決することを目的としており、テレビ電話等の通信と共に 送られてくる情報を利用することにより、自動的に、ユーザの手間を要することなぐ 通信相手毎のパーソナル CGキャラクタエージェントを生成 ·更新することができる通 信装置を提供することを第一の目的とする。  [0010] The present invention aims to solve the above-described problems. By using information transmitted together with communication such as a videophone, it is possible to automatically perform communication for each communication partner without requiring a user. The primary purpose is to provide a communication device that can generate and update personal CG character agents.
[0011] また、特別な添付データを必要としな 、、任意のメッセージの伝達にエージェントデ ータを使用する際においても、通信相手ごとに作成される CGキャラクタエージェント のデータ管理を容易化した通信装置を提供することを第二の目的とする。 [0011] Communication that facilitates data management of the CG character agent created for each communication partner even when agent data is used for transmission of any message that does not require special attached data. A second object is to provide an apparatus.
課題を解決するための手段  Means for solving the problem
[0012] 前記従来課題を解決するために、本発明の通信装置は、 CGキャラクタエージェン トを利用してメッセージを伝える通信する通信装置であって、他端末と通信データを 通信するための通信手段と、前記通信データに基づいて、通信相手の個人特徴デ ータを含むエージェントデータを作成するエージェントデータ作成手段と、通信相手 の個人情報と対応させて、前記エージェントデータを含むアドレス帳データを作成す るアドレス帳データ作成手段と、前記アドレス帳データを記憶するアドレス帳データ記 憶手段と、通信相手の前記アドレス帳データに含まれる前記エージェントデータを参 照して、前記通信相手の CGキャラクタエージェントを作成するエージェント作成手段 と、前記 CGキャラクタエージェントを出力するエージェント出力手段とを備えることを 特徴とする。 [0012] In order to solve the above-described conventional problem, the communication device of the present invention is a communication device for communicating a message using a CG character agent, and communication means for communicating communication data with other terminals. And agent data creation means for creating agent data including personal characteristic data of the communication partner based on the communication data, and address book data including the agent data corresponding to the personal information of the communication partner. The address book data creating means, the address book data storing means for storing the address book data, and the agent data included in the address book data of the communication partner are referred to, and the CG character agent of the communication partner is referred to. Creating means for creating the agent and an agent for outputting the CG character agent Characterized in that it comprises a power means.
[0013] この構成により、本発明に係る通信装置は、他端末との通信中に受信した通信デ ータを用いて、自動的に、通信相手のエージェントデータを作成して、アドレス帳デ ータに通信相手のエージェントデータを付与して管理すると共に、エージェント作成 手段において、アドレス帳に登録されている通信相手のエージェントデータを参照し て CGキャラクタエージェントを作成することが可能となる。  [0013] With this configuration, the communication apparatus according to the present invention automatically creates agent data of a communication partner using communication data received during communication with another terminal, and generates address book data. It is possible to create a CG character agent by referring to the agent data of the communication partner registered in the address book in the agent creation means.
[0014] また、本発明に係る通信装置にお!/、て、前記エージェントデータ作成手段は、前記 通信データから自動的に画像特徴データを抽出する画像特徴抽出部、及び音声特 徴データを抽出する音声特徴抽出部を備え、前記エージェントデータには、少なくと も前記画像特徴データ及び前記音声特徴データが含まれることを特徴とする。 [0014] Further, in the communication apparatus according to the present invention, the agent data creation means extracts an image feature extraction unit that automatically extracts image feature data from the communication data, and extracts voice feature data. A speech feature extraction unit that performs at least the agent data. Includes the image feature data and the audio feature data.
[0015] この構成により、本発明に係る通信装置においては、通信データに含まれる画像特 徴データ及び音声特徴データを抽出して、エージェントデータとして自動的に管理. 更新することが可能となる。  With this configuration, in the communication device according to the present invention, it is possible to extract image feature data and audio feature data included in the communication data and automatically manage and update them as agent data.
[0016] また、本発明に係る通信装置の前記エージェントデータ作成手段は、作成された前 記エージェントデータに信頼度を付与する信頼度付与部と、信頼度が付与された前 記エージェントデータを一時保存するための一時保存データ記憶部と、通信中に、 新たに作成したエージェントデータの信頼度と前記一時保存データ記憶部に既に保 存されて!/、るエージェントデータの信頼度とを比較し、前記一時保存データ記憶部に 記憶されているエージェントデータを、自動的に、信頼度の高いエージェントデータ に更新する信頼性判定部とを備え、前記エージェント作成手段は、さらに、前記一時 保存データ記憶部に記憶されているエージェントデータを用いて CGキャラクタエー ジェントを作成することを特徴とする。  [0016] Further, the agent data creation means of the communication device according to the present invention temporarily stores a reliability degree assigning unit that assigns reliability to the created agent data, and the agent data to which the reliability is assigned. Compares the temporary storage data storage unit for storage with the reliability of newly created agent data during communication and the reliability of agent data already stored in the temporary storage data storage unit! A reliability determination unit that automatically updates the agent data stored in the temporary storage data storage unit to agent data having high reliability, and the agent creation means further includes the temporary storage data storage The CG character agent is created using the agent data stored in the section.
[0017] この構成により、本発明に係る通信装置は、個人特徴データである画像特徴デー タ及び音声特徴データに信頼度を付与して、自動的に、一時保存データ記憶部に 記憶されているエージェントデータを信頼度の高いエージェントデータに更新できる ため、常に通信相手の最新の信頼性の高 ヽ画像及び音声に対応した CGキャラクタ エージェントを利用してメッセージを伝えることが可能となる。  [0017] With this configuration, the communication device according to the present invention assigns reliability to the image feature data and the sound feature data, which are personal feature data, and is automatically stored in the temporary storage data storage unit. Because agent data can be updated to highly reliable agent data, it is always possible to communicate messages using the latest reliable image and voice CG character agent of the communication partner.
[0018] 尚、前記目的を達成するために、本発明は、通信装置の特徴的な手段を備える C Gキャラクタエージェント作成装置、当該手段をステップとする通信方法として実現し たり、コンピュータに各ステップを実行させるためのプログラムとして実現することもで きる。そのようなプログラムは、 CD— ROM等の記録媒体やインターネット等の伝送 媒体を通じて配信することができるのは言うまでもない。  [0018] In order to achieve the above object, the present invention can be realized as a CG character agent creating apparatus having characteristic means of a communication apparatus, a communication method using the means as a step, or each step in a computer. It can also be realized as a program for execution. It goes without saying that such a program can be distributed through a recording medium such as a CD-ROM or a transmission medium such as the Internet.
発明の効果  The invention's effect
[0019] 本発明に係る通信装置は、ユーザの手間を要することがなぐ通信相手の特徴を反 映させた CGキャラクタエージェントを自動的に生成'更新できる。従って、 CGキャラク タエージェントを用いた親しみやすぐ分力りやすいインターフェースを実現できる。  [0019] The communication apparatus according to the present invention can automatically generate and update a CG character agent that reflects the characteristics of a communication partner that does not require user effort. Therefore, it is possible to realize a familiar interface using CG character agents and an easy-to-use interface.
[0020] また、本発明に係る通信装置は、通信相手の画像特徴データや音声特徴データを 含むエージェントデータのデータ管理を容易化して、また、このエージェントデータを テレビ電話やメール以外の様々なアプリケーションにお!/、て利用できる。 [0020] In addition, the communication device according to the present invention stores image feature data and sound feature data of a communication partner. This makes it easy to manage agent data, and can use this agent data for various applications other than videophone and mail.
図面の簡単な説明  Brief Description of Drawings
[0021] [図 1]図 1は、本発明に関わる情報端末を説明するための携帯電話端末の外観図 [図 2]図 2は、本発明の一実施の形態における、通信装置の構成を示すブロック図 [図 3]図 3は、本発明の一実施の形態における、エージェントデータ作成部の構成を 示すブロック図  1 is an external view of a mobile phone terminal for explaining an information terminal according to the present invention. [FIG. 2] FIG. 2 shows a configuration of a communication device according to an embodiment of the present invention. FIG. 3 is a block diagram showing a configuration of an agent data creation unit in an embodiment of the present invention.
[図 4]図 4は、本発明の一実施の形態における、アドレス帳データを説明するための 概念図  FIG. 4 is a conceptual diagram for explaining address book data in an embodiment of the present invention.
[図 5]図 5は、本発明の一実施の形態における、画像の特徴抽出を説明するための 概念図  FIG. 5 is a conceptual diagram for explaining feature extraction of an image in an embodiment of the present invention.
[図 6]図 6は、本発明の一実施の形態における、画像の特徴点を利用したアニメーシ ヨン画像の生成方法を説明するための概念図  FIG. 6 is a conceptual diagram for explaining a method for generating an animation image using feature points of an image in an embodiment of the present invention.
[図 7]図 7は、本発明の一実施の形態における、エージェントデータの生成処理を説 明するためのフローチャート  [Fig. 7] Fig. 7 is a flowchart for explaining generation processing of agent data in one embodiment of the present invention.
[図 8]図 8は、本発明の一実施の形態における、パーソナル CGエージェントを使用す るアプリケーションの処理を説明するためのフローチャート  [FIG. 8] FIG. 8 is a flowchart for explaining processing of an application using a personal CG agent in one embodiment of the present invention.
[図 9]図 9は、本発明の一実施の形態における、エージェント出力部におけるアニメ一 シヨンの制御を説明するための概念図  FIG. 9 is a conceptual diagram for explaining animation control in an agent output unit in one embodiment of the present invention.
符号の説明  Explanation of symbols
[0022] 10 携帯電話端末 [0022] 10 mobile phone terminals
20 通信装置  20 Communication equipment
101 キー  101 keys
102 スピーカ  102 Speaker
103 ディスプレイ  103 display
104 カメラ  104 camera
105 マイク  105 microphone
210 通信処理部 220 テレビ電話処理部 210 Communication processor 220 Videophone processor
230 エージェントデータ作成部  230 Agent Data Creation Department
231 画像特徴抽出部  231 Image feature extraction unit
232 音声特徴抽出部  232 Voice feature extraction unit
233 信頼性判定部  233 Reliability judgment unit
234 一時保存データ記憶部  234 Temporary storage data storage
240 アドレス帳データ管理部  240 Address Book Data Management Department
250 アドレス帳データ記憶部  250 Address book data storage
260 エージェント設定部  260 Agent setting section
261 個人識別子設定部  261 Personal identifier setting section
262 状態設定部  262 Status setting section
263 メッセージ設定部  263 Message setting section
270 エージェント出力部  270 Agent output section
271 CGキャラクタ描画咅  271 CG character drawing
272 音声合成部  272 Speech synthesis unit
273 基本データ記憶部  273 Basic data storage
280 出力部  280 output section
281 画像出力部  281 Image output section
282 音声出力部  282 Audio output section
290 入力部  290 input section
291 画像入力部  291 Image input section
292 音声入力部  292 Audio input section
293 キー入力部  293 Key input section
300 アプリケーション処理部  300 Application processing section
400 アドレス帳データ  400 address book data
401 エージェントデータ  401 Agent data
発明を実施するための最良の形態 BEST MODE FOR CARRYING OUT THE INVENTION
以下、本発明の一実施の形態として、 CGキャラクタエージェントを利用してメッセ ジを伝える通信装置について、図面を参照しながら説明する。 Hereinafter, as an embodiment of the present invention, a message is obtained using a CG character agent. A communication device for transmitting information will be described with reference to the drawings.
[0024] (携帯電話端末の外観)  [0024] (Appearance of mobile phone terminal)
図 1は、携帯電話端末 10の外観図である。図 1において、携帯電話端末 10は、テ レビ電話機能を有する携帯電話であり、キー 101、スピーカ 102、ディスプレイ 103、 カメラ 104、及びマイク 105を有する。  FIG. 1 is an external view of the mobile phone terminal 10. In FIG. 1, a mobile phone terminal 10 is a mobile phone having a television phone function, and includes a key 101, a speaker 102, a display 103, a camera 104, and a microphone 105.
[0025] キー 101は、電話をかけるための数字キーやカメラ機能用やメール機能用などの複 数のキーによって構成される。スピーカ 102は、電話受信時に音声を出力することや 、電話や電子メールの着信音などを出力する。ディスプレイ 103は、画像や文字を表 示するものであり、具体的には、液晶ディスプレイや、有機 ELディスプレイでよい。ま た、カメラ 104は、静止画や動画像を取得するものであり、テレビ電話の使用時には 、ユーザの画像を取得する。カメラ 104の一例としては、 CCDカメラや CMOSカメラ などでよい。マイク 105は、音声を入力するものであり、電話使用時には、ユーザの音 声を取得する。  [0025] The key 101 is composed of a number key for making a call and a plurality of keys for a camera function and a mail function. The speaker 102 outputs sound when receiving a call, or outputs a ring tone for a telephone or e-mail. The display 103 displays images and characters, and specifically may be a liquid crystal display or an organic EL display. The camera 104 acquires a still image or a moving image, and acquires a user image when using a videophone. As an example of the camera 104, a CCD camera or a CMOS camera may be used. The microphone 105 is for inputting voice, and acquires the voice of the user when using the telephone.
[0026] なお、本実施の形態の説明において、通信装置を携帯電話端末 10として説明を行 うが、テレビ電話機能を有する通信装置、例えば、据え置き型電話機、 PDA (Perso nal Digital Assistant)、パーソナルコンピュータなどとすることが可能である。  [0026] In the description of the present embodiment, the communication device is described as the mobile phone terminal 10, but a communication device having a videophone function, such as a stationary telephone, a PDA (Personal Digital Assistant), a personal It can be a computer or the like.
[0027] (キャラクタ CGエージェント装置の概要)  [0027] (Outline of character CG agent device)
図 2は、携帯電話端末 10における通信装置 20の機能ブロック図である。この通信 装置 20は、通信処理部 210、テレビ電話処理部 220、エージェントデータ作成部 23 0、アドレス帳データ管理部 240、アドレス帳データ記憶部 250、エージェント設定部 260、エージェント出力部 270、出力部 280、入力部 290、及びアプリケーション処理 部 300を有する。尚、図 2に示す各機能ブロックを構成する CGキャラクタエージェント 作成装置が通信装置に備えられる構成とすることも可能であることは言うまでもない。  FIG. 2 is a functional block diagram of the communication device 20 in the mobile phone terminal 10. The communication device 20 includes a communication processing unit 210, a videophone processing unit 220, an agent data creation unit 230, an address book data management unit 240, an address book data storage unit 250, an agent setting unit 260, an agent output unit 270, an output unit. 280, an input unit 290, and an application processing unit 300. Needless to say, the communication device may be provided with the CG character agent creation device constituting each functional block shown in FIG.
[0028] (入出力)  [0028] (Input / output)
入力部 290は、画像入力部 291、音声入力部 292、及びキー入力部 293からなる  The input unit 290 includes an image input unit 291, an audio input unit 292, and a key input unit 293.
[0029] 画像入力部 291は、カメラ 104力も画像データを取り込み、ビットマップデータとして 取得する。ビットマップデータのフォーマットの一例としては、 RGBフォーマットや YU Vフォーマットなどでよ!ヽ。 [0029] The image input unit 291 also captures image data from the camera 104 and acquires it as bitmap data. Examples of bitmap data formats include RGB format and YU V format etc.!
[0030] 音声入力部 292は、マイク 105から音声データを取得する。音声データの一例とし ては、 PCM (Pulse Code Modulation)データなどでよい。  The voice input unit 292 acquires voice data from the microphone 105. An example of audio data may be PCM (Pulse Code Modulation) data.
[0031] キー入力部 293は、キー 101が押されたときに、押された状態を取得する。  The key input unit 293 acquires the pressed state when the key 101 is pressed.
出力部 280は、画像出力部 281、及び音声出力部 282からなる。  The output unit 280 includes an image output unit 281 and an audio output unit 282.
[0032] 画像出力部 281は、ビットマップデータあるいは、ビットマップデータが格納されたメ モリアドレスを受け取り、ディスプレイ 103上に表示する。  The image output unit 281 receives bitmap data or a memory address where the bitmap data is stored, and displays it on the display 103.
[0033] 音声出力部 282は、音声データを受け取り、スピーカ 105を通して音を出力する。  The audio output unit 282 receives audio data and outputs sound through the speaker 105.
[0034] (テレビ電話の処理)  [0034] (Videophone processing)
図 1に示す通信処理部 210は、テレビ電話における通信の送受信を行う。通信処 理部 210は、テレビ電話データの受信時に、通話相手の情報端末力も送られてきた 受信パケットデータをテレビ電話処理部 220に渡す。また、テレビ電話データの送信 時には、テレビ電話処理部 220から生成した送信パケットデータを受け取り、通話相 手の情報端末に送信する。  A communication processing unit 210 shown in FIG. 1 performs transmission / reception of communication in a videophone. When receiving the videophone data, the communication processing unit 210 passes the received packet data, which has also received the information terminal capability of the other party, to the videophone processing unit 220. When transmitting videophone data, the transmission packet data generated from the videophone processing unit 220 is received and transmitted to the information terminal of the other party.
[0035] そして、このテレビ電話用のパケットデータの一例としては、 MPEG4 (Moving Pi cture Experts Group phase 4)のデータフォーマットを用いればよい。なお、 テレビ電話用パケットデータは、音声と動画像を送信可能であればどのようなデータ フォーマットでもよい。本発明は、任意のデータフォーマットに対して適用できる。  [0035] As an example of packet data for this videophone, a data format of MPEG4 (Moving Picture Experts Group phase 4) may be used. The videophone packet data may have any data format as long as voice and moving images can be transmitted. The present invention can be applied to any data format.
[0036] (テレビ電話処理部)  [0036] (Videophone processor)
テレビ電話処理部 220は、テレビ電話の送信処理と受信処理を行う。受信処理は、 通信処理部 210から受け取った、受信パケットデータ力も画像情報として画像データ (ビットマップデータ)、音声情報として音声データを生成する。この生成したビットマツ プデータを画面出力部 281に渡し、音声データは音声出力部 282に渡すことによつ て、送信されてきた画像をディスプレイ 103上に表示し、送信されてきた音声をスピー 力 102から出力する。また、送信処理では、画像入力部 291から取得した画像データ と、音声入力部 292から取得した音声データから、テレビ電話用の送信パケットデー タを作成し、通信処理部 210に渡す。以上の受信処理と送信処理を、一定時間間隔 (例えば、 1秒間に 15回)で繰り返すことによって、 TV電話機能を実現できる。 [0037] また、テレビ電話処理部 220は、テレビ電話開始時に、アドレス帳データ管理部 24 0に対して、通話先 (テレビ電話の相手)の電話番号を伝え、対応するアドレスデータ 内にあるエージェントデータのデータ更新設定を取得する。更新設定が ONの場合、 前記受信処理にぉ 、て生成した画像データと音声データを、エージェントデータ作 成部 230に渡す。データを渡すタイミングの一例としては、受信処理が実行されるタ イミングで良い。ただし、処理を軽減するために、受信処理よりも少ない回数とさせる ような、一定時間ごとのタイミングでもよい。 The videophone processing unit 220 performs videophone transmission processing and reception processing. In the reception process, the received packet data force received from the communication processing unit 210 also generates image data (bitmap data) as image information and sound data as sound information. The generated bit map data is transferred to the screen output unit 281 and the audio data is transferred to the audio output unit 282, whereby the transmitted image is displayed on the display 103, and the transmitted audio is output to the speaker 102. Output from. In the transmission process, video packet transmission packet data is created from the image data acquired from the image input unit 291 and the audio data acquired from the audio input unit 292, and passed to the communication processing unit 210. By repeating the above reception process and transmission process at regular time intervals (for example, 15 times per second), the TV phone function can be realized. [0037] In addition, when starting a videophone call, the videophone processing unit 220 informs the address book data management unit 240 of the telephone number of the other party (videophone partner) and the agent in the corresponding address data. Get data update settings for data. When the update setting is ON, the generated image data and audio data are passed to the agent data creation unit 230 during the reception process. As an example of the timing for passing data, timing at which reception processing is executed may be used. However, in order to reduce the processing, the timing may be set at regular intervals so that the number of times is less than that of the reception processing.
[0038] (エージェントデータの作成)  [0038] (Create agent data)
エージェントデータ作成部 230は、テレビ電話処理部 220から渡された画像情報と 音声情報力もエージェントデータを作成し、アドレス帳データ記憶部 250に保存する ものである。以下では、図 3に示すエージェントデータ作成部 230の構成図を使用し て、詳細に説明する。  The agent data creation unit 230 creates agent data for the image information and voice information provided from the videophone processing unit 220 and stores them in the address book data storage unit 250. Hereinafter, detailed description will be given using the configuration diagram of the agent data creation unit 230 shown in FIG.
[0039] エージェントデータ作成部 230は、画像特徴抽出部 231、音声特徴抽出部 232、 信頼性判定部 233、及び一時保存データ記憶部 234からなる。  The agent data creation unit 230 includes an image feature extraction unit 231, an audio feature extraction unit 232, a reliability determination unit 233, and a temporarily saved data storage unit 234.
[0040] 画像特徴抽出部 231は、テレビ電話処理部 220から受け取った画像データから、 画像特徴データを生成する。画像特徴データの一例としては、顔の部位を示す特徴 点の位置座標や特徴点を抽出した画像データ (静止画像)でよ 、。  The image feature extraction unit 231 generates image feature data from the image data received from the videophone processing unit 220. An example of image feature data is the image data (still image) from which the position coordinates of feature points indicating the part of the face and feature points are extracted.
[0041] 図 5は、画像特徴抽出部 230において抽出される顔の特徴点を説明するための概 念図である。図 5上図に示す顔画像は、テレビ電話処理部 220から渡された画像デ ータを示しており、 240 X 320のサイズのビットマップに通話相手の顔が映し出されて いる。このとき、口周辺の特徴点である P1 (上唇上端点)、 P2 (上唇下端点)、 P3 (下 唇上端点)、 P4 (下唇下端点)、 P5 (唇左端点)、 P6 (唇右端点)の 6点を認識した結 果を下に表示した。特徴点名の横にあるカツコ内の数値は、特徴点の位置座標を示 しており、ビットマップのサイズを元に、右上の点を原点として、右下の点が(240, 32 0) t 、う座標系を使用して!/、る。  FIG. 5 is a conceptual diagram for explaining the facial feature points extracted by the image feature extraction unit 230. The face image shown in the upper part of FIG. 5 shows the image data delivered from the videophone processing unit 220, and the face of the other party is displayed on a 240 × 320 size bitmap. P1 (upper lip upper end point), P2 (upper lip lower end point), P3 (lower lip upper end point), P4 (lower lip lower end point), P5 (lip left end point), P6 (lip The result of recognizing 6 points (right end point) is shown below. The numerical value in the box next to the feature point name indicates the position coordinates of the feature point. Based on the bitmap size, the upper right point is the origin and the lower right point is (240, 320) t Use the coordinate system! /
[0042] 音声特徴抽出部 232は、テレビ電話処理部 220から受け取った音声データから、 音声特徴データを生成する。音声特徴データの一例としては、音声合成時に、音の 高さやアクセント等を制御する音声制御パラメータでよい。また、音声の特徴データ は、音声合成時に使用する特定の音素や単語を抽出した音声データや、基本デー タ記憶部 273に記憶された音声辞書データとの差分などのデータでもよい。 The voice feature extraction unit 232 generates voice feature data from the voice data received from the videophone processing unit 220. As an example of the voice feature data, a voice control parameter for controlling the pitch, accent, and the like at the time of voice synthesis may be used. Voice feature data May be voice data obtained by extracting specific phonemes or words used at the time of voice synthesis, or data such as a difference from the voice dictionary data stored in the basic data storage unit 273.
[0043] (アドレス帳データ管理)  [0043] (Address book data management)
アドレス帳データ管理部 240は、アドレス帳データ記憶部 250に記録されているァ ドレス帳データを管理する。このアドレス帳データには、複数人の個人情報が含まれ る。アドレス帳データ管理部 240は、電話番号などのアドレス帳データに含まれる 1つ の要素をキーとして検索し、検索結果のアドレス帳データのメモリアドレスを取得する 機能を有する。例えば、データ IDとして「13」、あるいは、電話番号として「0901234 5678」という数値を渡すことで、図 4に示すようなアドレス帳データにアクセスするた めのメモリアドレスを管理する。  The address book data management unit 240 manages the address book data recorded in the address book data storage unit 250. This address book data includes personal information of multiple persons. The address book data management unit 240 has a function of searching for one element included in address book data such as a telephone number as a key and acquiring a memory address of the address book data as a search result. For example, by passing a numerical value of “13” as the data ID or “0901234 5678” as the telephone number, the memory address for accessing the address book data as shown in FIG. 4 is managed.
[0044] ここで、図 4を使用して、本実施の形態の通信装置で使用するアドレス帳データ 40 0のデータ構成を説明する。図 4に示すアドレス帳データ 400の一例は、 1人分のアド レス帳データであり、データを一意に識別するためのデータ IDと、名前、電話番号、 メールアドレス、グループ番号、アイコンなどの個人情報などが記録されている。これ らのデータは、電話受信時にアイコンを表示することや、メール受信時に、グループ 別のディレクトリに振り分けるなど、様々な用途で使用される。  Here, the data configuration of the address book data 400 used in the communication apparatus according to the present embodiment will be described with reference to FIG. An example of the address book data 400 shown in FIG. 4 is address book data for one person. A data ID for uniquely identifying the data, and an individual such as a name, telephone number, e-mail address, group number, icon, etc. Information is recorded. These data are used for various purposes, such as displaying icons when receiving a phone call, and sorting to a directory by group when receiving a mail.
[0045] さらに、本発明では、アドレス帳データ 400に、エージェントデータ 401が含まれるこ とを特徴とする。図 4におけるエージェントデータ 401の一例は、画像特徴データと音 声特徴データ、及びデータ更新設定、及びエージェントタイプによって構成される。  Further, the present invention is characterized in that the address book data 400 includes agent data 401. An example of the agent data 401 in FIG. 4 includes image feature data, voice feature data, data update settings, and an agent type.
[0046] 画像特徴データは、画像データそのもの、ある ヽは、画像データから特徴抽出する ことで得られる特徴データからなる。画像特徴データの一例としては、画像特徴抽出 部 231で生成した状態別の特徴点の位置座標と、状態別の特徴点について情報の 確かさを現す信頼度、特徴点に対応した画像データのビットマップを示すファイル名 からなる。  [0046] The image feature data consists of image data itself, or a certain type of feature data obtained by extracting features from the image data. As an example of the image feature data, the position coordinates of the feature points by state generated by the image feature extraction unit 231, the reliability indicating the certainty of the information about the feature points by state, and the bit of the image data corresponding to the feature points Consists of a file name indicating the map.
[0047] 尚、画像データの特徴点の位置座標は、図 5下図及び図 6の概念図にあるように、 画像データに写って 、る人物の目や口と 、つた部品の位置を示すデータであり、例 えば、目や鼻、口などの輪郭上の点を示す位置座標として定義できる。状態別の特 徴点は、「あ」、「い」、「う」、「え」、「お」などの音素を発生した状態や、「怒る」、「笑う」 、「悲しむ」などの感情の状態における特徴点の位置座標を意味しており、状態別に 特徴点を持つことで、様々な表情のパーソナル CGエージェントを生成することを可 能とする。 It should be noted that the position coordinates of the feature points of the image data are data indicating the positions of the human eyes and mouth and the connected parts in the image data, as shown in the lower diagram of FIG. 5 and the conceptual diagram of FIG. For example, it can be defined as position coordinates indicating points on the contours such as eyes, nose and mouth. The characteristic points for each state are the states in which phonemes such as “A”, “I”, “U”, “E”, “O” are generated, “Angry”, “Laughing”. This means the position coordinates of feature points in emotional states such as “sad”. By having feature points for each state, it is possible to generate personal CG agents with various facial expressions.
[0048] そして、特徴点に対応した画像データのビットマップは、図 6上図のように、メッシュ に分割して表示する際のベースとなる画像データであり、特定の状態の画像データ でよい。また、本実施の形態では、 1枚の画像データを使用している力 複数の状態 別に画像データを持たせてもよい。例えば、感情別の特徴点に対応させて、画像デ ータを複数持たせることで、表現力を向上させることが可能である。  [0048] Then, the bitmap of the image data corresponding to the feature point is image data that becomes a base when the image is divided and displayed as shown in the upper diagram of FIG. 6, and may be image data in a specific state. . In the present embodiment, image data may be provided for each of a plurality of states using a single image data. For example, it is possible to improve the expressive power by providing a plurality of image data corresponding to feature points by emotion.
[0049] (信頼度)  [0049] (Reliability)
信頼度は、特徴データを抽出する際の、画像認識及び音声認識の確かさを表す数 値である。例えば、テレビ電話の画像データに通話相手がはっきりと映っていない場 合、画像特徴データを正確に抽出できない可能性が高くなる。このような場合の画像 特徴データを使用して、 CGキャラクタエージェントを生成しても、明瞭な画像を生成 することはできない。そこで、本発明では、画像特徴データ及び音声特徴データに信 頼度という指標を付加し、信頼度の高い特徴データを選択して記録することにより、 通話相手の特徴を反映させたリアルな CGキャラクタエージェントを生成することを実 現する。  The reliability is a numerical value representing the certainty of image recognition and voice recognition when extracting feature data. For example, if the other party is not clearly shown in the image data of a videophone, there is a high possibility that image feature data cannot be extracted accurately. Even if a CG character agent is generated using image feature data in such a case, a clear image cannot be generated. Therefore, in the present invention, a realistic CG character reflecting the features of the other party is added by adding an index of reliability to the image feature data and voice feature data, and selecting and recording feature data with high reliability. Realizes creating an agent.
[0050] 信頼度の一例としては、認識の信頼性が高 、ものを 100、信頼性が低!、ものを 0と する数値を生成すればょ ヽ。  [0050] As an example of the reliability, it is necessary to generate a numerical value in which the reliability of recognition is high, the value is 100, the reliability is low !, and the value is 0.
[0051] 画像特徴データの信頼度を生成する方法としては、画像データから顔 (あるいは顔 部分)を認識 (検出)する際の表関数の値力も生成することができる。顔検出における 評価関数の一例としては、例えば、特開 2003— 44853に開示されている、顔 Z非 顔識別用の評価関数 gを使用してもよい。この評価関数 gを用いて、顔でないと判断 すべきものを負、顔と判断すべきものが正として顔 Z非顔識別を行うことが可能となる  [0051] As a method of generating the reliability of the image feature data, it is also possible to generate a value of a table function when recognizing (detecting) a face (or a face portion) from the image data. As an example of the evaluation function in face detection, for example, an evaluation function g for face Z non-face identification disclosed in Japanese Patent Laid-Open No. 2003-44853 may be used. By using this evaluation function g, it is possible to perform face Z non-face discrimination by assuming that a face that should be determined as a face is negative and that a face that should be determined is positive.
[0052] また、音声特徴データの信頼度を生成する方法としては、音声認識時に使用される 認識の評価関数の値から生成することができる。音声認識における評価関数の一例 としては、特開 2004— 198656に開示されているコスト関数 Vの値を使用してもよい 。なお、音声認識の信頼度を判断するために、顔認識の信頼度を利用することもでき る。この場合、音声特徴データの信頼度を判断する際に、対応する画像特徴データ の信頼度を利用するものである。 [0052] As a method of generating the reliability of the speech feature data, it can be generated from the value of the recognition evaluation function used during speech recognition. As an example of the evaluation function in speech recognition, the value of the cost function V disclosed in JP 2004-198656 may be used. . Note that the reliability of face recognition can also be used to determine the reliability of speech recognition. In this case, when determining the reliability of the audio feature data, the reliability of the corresponding image feature data is used.
[0053] 尚、本実施の形態に係る通信装置 20の説明にお 、て、画像特徴データの信頼度 は画像特徴抽出部 231において作成され、音声特徴データの信頼度は音声特徴抽 出部 232において作成されるものとして説明を行うが、エージェントデータ作成部 23 0に信頼度を付与する信頼度付与部を備える構成としても構わない。  In the description of the communication device 20 according to the present embodiment, the reliability of the image feature data is created in the image feature extraction unit 231 and the reliability of the audio feature data is the audio feature extraction unit 232. However, the agent data creation unit 230 may be provided with a reliability providing unit that provides reliability.
[0054] (音声特徴データ)  [0054] (voice feature data)
音声特徴データは、音声特徴抽出部 232で生成した状態別の音声特徴データと、 状態別の音声特徴データの信頼度力もなる。音声特徴データの一例としては、画像 特徴データと同様に、「あ」、「い」、「う」、「え」、「お」などの音素を発生した状態や、「 怒る」、「笑う」、「悲しむ」などの感情の状態における、音声の制御パラメータでよい。 また、信頼度は、画像特徴データの信頼度と同様に、認識や分類の確かさを表すも のである。  The voice feature data also includes the reliability of the voice feature data for each state generated by the voice feature extraction unit 232 and the voice feature data for each state. As an example of audio feature data, as with image feature data, phonemes such as “A”, “I”, “U”, “E”, “O”, “Angry”, “Laughing” , Voice control parameters in emotional states such as “sad” may be used. In addition, the reliability indicates the certainty of recognition and classification, similar to the reliability of the image feature data.
[0055] データ更新設定は、エージェントデータの生成を行うかどうかを示すものであり、 O Nの場合、 TV電話受信の通話時にエージェントデータを生成 ·更新することを表し、 OFFの場合、 TV電話の通話時にエージェントデータを更新しないことを示す。この 設定は、ユーザがアドレス帳編集アプリケーション等を使用して指定することができる  [0055] The data update setting indicates whether or not agent data is to be generated. When ON, it indicates that agent data is generated and updated when a call is received for a TV phone call. Indicates that agent data is not updated during a call. This setting can be specified by the user using an address book editing application.
[0056] エージェントタイプは、パーソナル CGエージェントを生成する際に、どのようなタイ プのエージェントにするかを設定する。本発明は、エージェントデータとして、画像特 徴データと音声特徴データからなる。そのため、これらのデータを使用して、様々なタ イブのエージェントを生成することができる。例えば、画像面では、人物の顔写真を貼 り付けたリアルなエージェントや、画像特徴データ力 似顔絵を生成することなどが可 能であり、音声面では、音声特徴データ力 その人物にそっくりな音声や、その人物 のアクセントでのロボット的な音声を生成することなどが可能である。 [0056] The agent type sets what type of agent is used when generating a personal CG agent. The present invention comprises image feature data and audio feature data as agent data. Therefore, these types of data can be used to generate various types of agents. For example, on the image side, it is possible to generate a realistic agent with a face photo of a person or to generate a portrait with image feature data power. On the sound side, the voice feature data power is similar to that person. It is also possible to generate robotic speech with the person's accent.
[0057] (エージェントの設定) [0057] (Agent setting)
エージェント設定部 260は、アプリケーション処理部 300力 パーソナル CGエージ ェントによるメッセージ伝達機能を使用する際に、エージェントの設定を入力する。以 下、詳細に説明する。 Agent setting unit 260 is an application processing unit 300 power personal CG age Enter the agent settings when using the agent message transfer function. The details will be described below.
[0058] エージェント設定部 260は、個人識別子設定部 261、状態設定部 262、及びメッセ ージ設定部 263からなる。  The agent setting unit 260 includes a personal identifier setting unit 261, a state setting unit 262, and a message setting unit 263.
[0059] 個人識別子設定部 261は、使用するパーソナル CGエージェントを特定するための 識別用データである個人識別子を設定する。個人識別子は、アドレス帳データ管理 部 240によって、アドレス帳データを検索するためのキーであり、一例としては、アド レス帳データに含まれるデータ IDや、電話番号などでよ!、。  [0059] The personal identifier setting unit 261 sets a personal identifier that is identification data for specifying a personal CG agent to be used. The personal identifier is a key for searching the address book data by the address book data management unit 240. For example, a data ID included in the address book data or a telephone number may be used.
[0060] 状態設定部 262は、メッセージを伝える際の状態を指定する。状態の一例としては 、「怒っている」、「笑っている」などの感情などでよい。また、状態設定部 262では、ァ 二メーシヨンの状態等を設定する。例えば、同じメッセージを繰り返し伝達するかどう かの設定や、メッセージ伝達のスピードなどの設定を含む。  [0060] The state setting unit 262 designates a state when a message is transmitted. An example of the state may be emotions such as “angry” and “laughing”. The state setting unit 262 sets the animation state and the like. For example, it includes settings for whether the same message is repeatedly transmitted, settings for message transmission speed, and the like.
[0061] メッセージ設定部 263は、伝達するメッセージの文字列を設定する。例えば、メッセ ージの文字列として、「でんわだよ」 、う文字列を設定する。  [0061] Message setting section 263 sets a character string of a message to be transmitted. For example, the character string “Denwa Dayo” is set as the message string.
[0062] また、アプリケーション処理部 300は、 CGキャラクタエージェントを使用する任意の アプリケーションを指し、エージェント設定部 300に対してエージェントの設定を行う。 なお、個人識別子を設定する際は、アドレス帳データ管理部 240のデータ検索機能 を使用することによって、電話番号や名前など様々な情報から、特定の個人識別子 を取得すればよい。  The application processing unit 300 indicates an arbitrary application that uses a CG character agent, and performs agent setting for the agent setting unit 300. When setting a personal identifier, a specific personal identifier may be acquired from various information such as a telephone number and a name by using the data search function of the address book data management unit 240.
[0063] (エージェントの出力)  [0063] (Agent output)
エージェント出力部 270は、アドレス帳データ記憶部 250に保存されたパーソナル CGエージェントデータを、アドレス帳データ管理部 240から取得し、それらを元に、 パーソナル CGエージェントの画像表示 Z音声出力を行う。以下、詳細に説明する。  The agent output unit 270 acquires the personal CG agent data stored in the address book data storage unit 250 from the address book data management unit 240, and performs image display Z sound output of the personal CG agent based on the data. Details will be described below.
[0064] エージェント出力部 270は、 CGキャラクタ描画部 271と、音声合成部 272と、基本 データ記憶部 273からなる。  The agent output unit 270 includes a CG character drawing unit 271, a voice synthesis unit 272, and a basic data storage unit 273.
[0065] CGキャラクタ描画部 271は、基本データ記憶部 273に記憶されたデータと、ァドレ ス帳データ記憶部 250に記憶された画像特徴データから、あるメモリ上のビットマップ 上に、 CGキャラクタを描画し、描画したビットマップデータまたは、ビットマップデータ のメモリアドレスを画像出力部 281に渡す。 [0065] The CG character drawing unit 271 generates a CG character on a bitmap on a certain memory from the data stored in the basic data storage unit 273 and the image feature data stored in the address book data storage unit 250. Draw and draw bitmap data or bitmap data Is passed to the image output unit 281.
[0066] そして、画像特徴データ力も CGキャラクタを描画する方法の一例を、図 6を使用し て説明する。図 6上図は、顔の特徴点と、特徴点を抽出した顔の画像データを重ねて 表示したものであり、図 6下図は、それらの特徴点の座標を使用して、顔の画像デー タをメッシュ状に分割したものである。これらのメッシュは、特徴点を動かすことによつ て、変形させることができ、そのメッシュに連動して、顔の画像データも変形する。これ らの変形を利用すると、特徴点を動かすアニメーションによって、目の開閉や口の開 閉、怒った状態、笑った状態などの様々なアニメーション画像を生成することができる 。なお、図 6では、 2次元的なアニメーション技術を説明したが、 3DCGの技術を使用 し、 3DCGキャラクタの顔部分に、上記顔の画像データを貼り付け、アニメーションさ せることで、 3次元的な変形を適用することもできる。  [0066] An example of a method of drawing a CG character with image feature data power will be described with reference to FIG. The upper figure in Fig. 6 displays the facial feature points and the facial image data from which the feature points have been extracted, and the lower figure in Fig. 6 shows the facial image data using the coordinates of those feature points. Is divided into meshes. These meshes can be deformed by moving feature points, and the face image data is also deformed in conjunction with the mesh. Using these deformations, various animation images such as opening and closing eyes, opening and closing mouth, angry state, and laughing state can be generated by animation that moves feature points. In Fig. 6, the two-dimensional animation technology has been explained. However, by using the 3DCG technology, the image data of the face is pasted on the face of the 3DCG character and animated to create a three-dimensional animation. Variations can also be applied.
[0067] 音声合成部 282は、基本データ記憶部 273に記憶された音声辞書データと、アド レス帳データ記憶部 250に記憶された音声特徴データから、個人の特徴を反映させ た音声データを生成し、音声出力部 282に渡す。  [0067] The speech synthesizer 282 generates speech data reflecting personal features from the speech dictionary data stored in the basic data storage unit 273 and the speech feature data stored in the address book data storage unit 250. To the audio output unit 282.
[0068] 基本データ記憶部 273は、パーソナル CGエージェントの画像生成や音声合成す るために必要な基本データを記憶する。基本データの一例としては、キャラクタ画像 を表示するためのビットマップデータや形状データ、音声合成に必要となる音声辞書 データなどでょ 、。アドレス帳データ記憶部 250に記憶されるエージェントデータは、 個人の特徴を反映させるためのデータであり、基本データ記憶部 273の基本データ と合わせて使用することで、パーソナル CGエージェントを出力することができる。  [0068] The basic data storage unit 273 stores basic data necessary for image generation and speech synthesis of the personal CG agent. Examples of basic data include bitmap data and shape data for displaying character images, and speech dictionary data required for speech synthesis. The agent data stored in the address book data storage unit 250 is data for reflecting the characteristics of the individual. When used together with the basic data in the basic data storage unit 273, the personal CG agent can be output. it can.
[0069] なお、アドレス帳データ記憶部 250のエージェントデータに、パーソナル CGエージ ェントデータのすべてを含む場合は、基本データ記憶部 273をなくすこともできる。  [0069] Note that if the agent data in the address book data storage unit 250 includes all of the personal CG agent data, the basic data storage unit 273 can be eliminated.
[0070] (処理の流れの説明)  [0070] (Description of processing flow)
以上のように構成された通信装置について、フローチャートを使用して、処理の流 れを説明する。  With respect to the communication apparatus configured as described above, the flow of processing will be described using a flowchart.
[0071] まず、図 7を使用して、本発明に係る通信装置におけるエージェントデータの生成 処理を説明する。図 7は、テレビ電話の通話中に行うエージェントデータの生成処理 を示すフローチャートである。エージェントデータの生成の処理は、テレビ電話通話 時に、通話相手の画像データと音声データから、画像特徴データと音声特徴データ を生成し、通話相手の個人情報を記録したアドレス帳データ内に保存するものである 。以下、詳細に説明する。 First, the agent data generation process in the communication apparatus according to the present invention will be described with reference to FIG. FIG. 7 is a flowchart showing agent data generation processing performed during a videophone call. The agent data generation process is a videophone call. Occasionally, image feature data and voice feature data are generated from the image data and voice data of the calling party, and stored in address book data in which personal information of the calling party is recorded. This will be described in detail below.
[0072] (エージェントデータの生成開始)  [0072] (Start generating agent data)
まず、他端末力も電話力かかってくる、あるいは、 自端末が他端末に対して電話を かけることによって、テレビ電話の通話が開始される (ステップ S101)。  First, the videophone call is started when the power of the other terminal is applied, or when the terminal calls the other terminal (step S101).
[0073] そして、テレビ電話開始時にぉ 、て、テレビ電話処理部 220は、アドレス帳データ 管理部 240に対して、通話相手の電話番号を通知し、エージェントデータのデータ 更新設定の値を取得する。アドレス帳データ管理部 240は、渡された電話番号から、 アドレス帳データ記憶部 250に記憶されているアドレス帳データを検索し、アドレス帳 データ(図 4参照)の「データ更新設定」の値を取得し、テレビ電話処理部 220に返す (ステップ S 102)。  [0073] Then, at the start of the videophone call, the videophone processing unit 220 notifies the address book data management unit 240 of the telephone number of the other party, and acquires the data update setting value of the agent data. . The address book data management unit 240 searches the address book data stored in the address book data storage unit 250 from the passed telephone number, and sets the “data update setting” value of the address book data (see FIG. 4). It is acquired and returned to the videophone processing unit 220 (step S102).
[0074] テレビ電話処理部 220は、設定値が OFFの場合は、エージェントデータの生成処 理は終了とし (ステップ S103)、テレビ電話の通話処理のみが実行される。一方、設 定値が ONの場合、テレビ電話処理部 220は、テレビ電話の通話処理と同時に、ェ ージェントデータ作成部 230に、画像データと音声データを渡す処理を行う(ステップ S104)。  If the set value is OFF, the videophone processing unit 220 ends the agent data generation process (step S103), and only the videophone call process is executed. On the other hand, when the set value is ON, the videophone processing unit 220 performs processing for passing image data and audio data to the agent data creation unit 230 simultaneously with the videophone call processing (step S104).
[0075] (エージェントデータの生成)  [0075] (Agent data generation)
次に、エージェントデータ作成部 230は、画像データと音声データから、エージヱン トデータを生成する。画像特徴抽出部 231は、画像データから、画像認識技術を使 用し、画像特徴データを生成し、音声特徴抽出部 232は、音声データから、音声認 識技術を使用し、音声特徴データを生成する (ステップ S105)。以下、詳細に説明す る。  Next, the agent data creation unit 230 generates agent data from the image data and the sound data. The image feature extraction unit 231 generates image feature data from image data using image recognition technology, and the audio feature extraction unit 232 generates audio feature data from audio data using audio recognition technology. (Step S105). The details will be described below.
[0076] 画像データは、テレビ電話の通話相手力 送信されてきた画像データであり、主に 、送信者の顔画像が映されている。画像データは、画像特徴抽出部 231によって、 顔画像の特徴抽出が行われる。顔画像の特徴抽出方法の一例としては、画像デー タの色値を対象に、あら力じめ用意されたパターンと比較する、パターンマッチングの 技術を使用してもよい。認識する対象物の一例としては、顔全体が映っているかどう かの判別や、目や鼻や口の位置などを認識すればよい。また、色情報なども認識し ても良い。ここで取得する画像特徴データの一例は、図 5で示されるような、唇の両端 の位置座標などの、特定の位置を示す位置座標でよい。なお、画像特徴データは、 画像データから取得可能なデータであれば、色情報、顔の輪郭線情報などの任意の データを適用できる。 [0076] The image data is image data transmitted from the other party's power of the videophone, and mainly the face image of the sender is shown. The image data is subjected to facial feature extraction by the image feature extraction unit 231. As an example of a face image feature extraction method, a pattern matching technique may be used in which the color value of image data is compared with a preliminarily prepared pattern. An example of an object to recognize is whether the entire face is shown What is necessary is just to recognize such as the position of the eyes, nose and mouth. It may also recognize color information. An example of the image feature data acquired here may be position coordinates indicating a specific position such as position coordinates of both ends of the lips as shown in FIG. As the image feature data, any data such as color information and face contour information can be applied as long as it can be acquired from the image data.
[0077] 音声データに関しては、音声認識の技術により発話している「音」の種類 (例えば、 「お」、「は」、「よ」、「う」など)や、発話者の感情の状態を認識し、音声合成で使用す る制御パラメータを生成する。この制御パラメータの一例としては、特定の母音'子音 や頻繁に使用する単語の音声データをそのまま保存したものや、感情の状態に応じ て変化する声の高さや大きさ、スピードなどの情報を示すパラメータなどがある。音声 認識方法の一例としては、音の種類や感情の種類を予め定義し、定義した種類だけ 代表的な音声の特徴量を定義し、その音声の特徴量と比較することで、どの種類に 分類できる力判別すればょ 、。  [0077] Regarding voice data, the type of "sound" uttered by voice recognition technology (for example, "O", "Ha", "Yo", "U", etc.), and the emotional state of the speaker To generate control parameters for use in speech synthesis. As an example of this control parameter, it shows information such as specific vowel consonants and voice data of frequently used words as they are, and information such as voice pitch, loudness, and speed that changes according to the state of emotion. There are parameters. As an example of the speech recognition method, the type of sound and the type of emotion are defined in advance, and the typical speech feature amount is defined only for the defined type, and it is classified into any type by comparing with the speech feature amount. If you can determine the power that can be.
[0078] (エージェントデータの一時保存)  [0078] (Temporary save of agent data)
次に、生成された画像特徴データ及び音声特徴データの信頼度は信頼性判定部 233に渡され、信頼性判定部 233は、一時保存データ記憶部 234に保存されたデー タと、状態別に信頼度を比較し (ステップ S106)、信頼度が高い特徴データを一時保 存データ記憶部 234に更新して保存する (ステップ S107)。  Next, the reliability of the generated image feature data and audio feature data is passed to the reliability determination unit 233, which determines the reliability of the data stored in the temporary storage data storage unit 234 and the state-specific reliability. The degree of comparison is compared (step S106), and feature data with high reliability is updated and stored in the temporary storage data storage unit 234 (step S107).
[0079] このとき、信頼性判定部 233の信頼度を比較する方法の一例としては、画像特徴デ ータの信頼度と音声特徴データの信頼度を別々に比較して判断をしても良い。また、 画像に人物が写って 、な 、状態で正 、音声が送信されて 、る場合や、音声がお かし 、状態で画像に人物が表示されて ヽる場合は、通話相手の特徴を反映して ヽな い可能性が高いため、音声と画像の信頼性を別々に判定するのではなぐ音声デー タの信頼度を画像データの判定に反映させ、画像データの信頼度を音声データの 判定に反映させてもよい。なお、上記説明では、信頼度が高いデータを保存する方 法を説明したが、信頼度を使用して、作成した画像特徴データ及び音声特徴データ を、一時保存データ記憶部 234に保存されている特徴データとマージしてもよい。マ ージの方法の一例としては、信頼度をウェイト値として 2つの値を線形補間すればよ い。 At this time, as an example of a method of comparing the reliability of the reliability determination unit 233, the reliability of the image feature data and the reliability of the audio feature data may be separately compared for determination. . Also, if the person appears in the image and the sound is correct and the sound is transmitted, or if the sound is incorrect and the person is displayed in the state, the characteristics of the other party Since there is a high possibility that it will not be reflected, the reliability of the audio data is reflected in the determination of the image data, and the reliability of the audio data is reflected in the determination of the image data. It may be reflected in the determination. In the above description, the method for storing highly reliable data has been described. However, the created image feature data and audio feature data are stored in the temporary storage data storage unit 234 using the reliability. You may merge with feature data. An example of a merge method is to linearly interpolate two values with confidence as a weight value. Yes.
[0080] 次に、エージェントデータ作成部 230は、テレビ電話処理部 220に対して、テレビ 電話の通話が終了した力どうかを尋ね (ステップ S108)、終了していない場合は (ス テツプ S108で NO)、ステップ S104以下の処理に戻り、エージェントデータの生成処 理を繰り返す。  [0080] Next, the agent data creation unit 230 asks the videophone processing unit 220 whether or not the power of the videophone call has been terminated (step S108). If it is not terminated (NO in step S108) ), Return to the processing in step S104 and the subsequent steps, and repeat the agent data generation processing.
[0081] (アドレス帳データへの保存)  [0081] (Save to address book data)
次に、テレビ電話通話が終了すると (ステップ S108で YES)、エージェントデータ作 成部 230は、生成したエージェントデータを、アドレス帳データ記憶部 250に記憶す るためのステップ S109以下の処理を行う。以下、詳細に説明する。  Next, when the videophone call is finished (YES in step S108), agent data creation unit 230 performs the processing in step S109 and subsequent steps for storing the generated agent data in address book data storage unit 250. Details will be described below.
[0082] まず、テレビ電話処理部 220は、アドレス帳データ管理部 240にテレビ電話の通話 が終了したことを通知し、通話相手の電話番号を渡す。アドレス帳データ管理部 240 は、エージェントデータ作成部 230から、一時保存データ記憶部 234に保存されたェ ージェントデータを受け取る。また、渡された電話番号を元に、アドレス帳データ記憶 部 250から、通話相手のアドレス帳データを検索し、そのエージェントデータを取得 する。そして、 2つのデータに対して、信頼性判定部 233は、状態別に信頼度を比較 し (ステップ S 109)、信頼度が高い場合には (ステップ S 110で YES)、アドレス帳デ ータのエージェントデータを更新する (ステップ S 111)。一方、信頼度が低い場合に は(ステップ S110で NO)、アドレス帳データのエージェントデータの更新は行わずに 処理を終了する。なお、上記説明では、信頼度が高いデータを保存する方法を説明 したが、信頼度を使用して、 2つのデータをマージしてもよい。  First, the video phone processing unit 220 notifies the address book data management unit 240 that the video phone call has ended, and passes the phone number of the other party. Address book data management unit 240 receives agent data stored in temporary storage data storage unit 234 from agent data creation unit 230. In addition, the address book data of the other party is searched from the address book data storage unit 250 based on the telephone number that has been passed, and the agent data is obtained. For the two data, the reliability judgment unit 233 compares the reliability for each state (step S109), and when the reliability is high (YES in step S110), the reliability of the address book data Update agent data (step S111). On the other hand, if the reliability is low (NO in step S110), the process is terminated without updating the agent data of the address book data. In the above description, the method for storing highly reliable data has been described. However, the two data may be merged using the reliability.
[0083] 以上が、エージェントデータの生成処理の流れである。  The above is the flow of the agent data generation process.
[0084] なお、上記の実施の形態は、 1人対 1人のテレビ電話を対象に本発明のデータ生 成処理を説明したが、本発明は、複数の人数が参加可能な TV会議システムなどの、 様々な画像と音声を通信するシステムでも同様に適用可能であることはいうまでもな い。  [0084] Although the above embodiment has described the data generation processing of the present invention for one-to-one videophone, the present invention can be applied to a TV conference system in which a plurality of persons can participate. Needless to say, the present invention can also be applied to a system that communicates various images and sounds.
[0085] (パーソナル CGエージェントを使用するアプリケーションの処理の流れ)  [0085] (Processing flow of application using personal CG agent)
次に、以下では、図 8のフローチャートを使用してパーソナル CGエージェントを利 用したアプリケーション、特に、電話着信時に、電話相手のパーソナル CGエージェ ントが、利用者の通信装置に通信相手の「でんわだよ」というメッセージを伝えるアブ リケーシヨンの処理の流れを説明する。このとき、アプリケーション処理部 300は、電 話着信時に通話の処理を行う電話アプリケーションの処理部を指す。 Next, in the following, an application using a personal CG agent using the flowchart of FIG. 8, particularly the personal CG agent of the other party at the time of incoming call. This section describes the flow of the abrasion process in which the client sends the message “Denwa Dayo” to the user's communication device. At this time, the application processing unit 300 refers to a processing unit of a telephone application that processes a call when an incoming call is received.
[0086] まず、アプリケーション処理部 300は、エージェント設定部 260に対して、使用する パーソナル CGエージェントの設定を行う(ステップ 201)。この設定の一例としては、 個人識別子の設定、状態の設定、メッセージの設定力 なり、以下で、詳細に説明す る。 First, the application processing unit 300 sets the personal CG agent to be used for the agent setting unit 260 (step 201). An example of this setting is personal identifier setting, status setting, and message setting power, which will be described in detail below.
[0087] 電話着信時に、アプリケーション処理部 300は、個人を識別するための識別子を個 人識別子設定部 261に設定する。個人識別子は、アドレス帳データ管理部 240でデ ータを検索するための識別子であり、一例としては、電話番号やアドレス帳のデータ I Dで良い。識別子がアドレス帳のデータ IDの場合、アプリケーション処理部 300は、 アドレス帳データ管理部 240に対して、着信した電話の電話番号を渡し、アドレス帳 データ記憶部 250のアドレス帳データを検索して、対応するデータ IDを取得すれば よい。  At the time of incoming call, application processing unit 300 sets an identifier for identifying an individual in individual identifier setting unit 261. The personal identifier is an identifier for retrieving data in the address book data management unit 240, and may be a telephone number or address book data ID, for example. When the identifier is the address book data ID, the application processing unit 300 passes the telephone number of the incoming call to the address book data management unit 240, searches the address book data in the address book data storage unit 250, and You only need to get the corresponding data ID.
[0088] 次に、メッセージ設定部 263に、伝えるメッセージの文字列を設定する。メッセージ の一例としては、「でんわだよ」などの固定的な文字列でもよいし、あら力じめアドレス 帳に個人別のメッセージを設定しておき、その文字列を読み上げる方法でも良い。ま た、アドレス帳データ管理部 240から通話相手の名前を取得し、「〇〇さんからでん わだよ」など、個人特有の文字列を含めても良い。なお、本実施の形態では、メッセ ージは文字列だけの情報であるが、アクセントや大きさ、間など、音声合成で使用す るパラメータをメッセージに付加しても良い。  Next, a message character string to be transmitted is set in the message setting unit 263. As an example of the message, a fixed character string such as “Denwa Dayo” may be used. Alternatively, a personal message may be set in the address book and the character string may be read out. In addition, the name of the other party may be obtained from the address book data management unit 240 and may include a character string unique to the individual such as “From Mr. OO. In the present embodiment, the message is information of only a character string, but parameters used in speech synthesis such as accent, size, and interval may be added to the message.
[0089] さらに、状態設定部 262に、パーソナル CGエージェントを制御するための、状態パ ラメータを設定する。状態パラメータの一例としては、エージェントの状態を示す状態 ノ メータや、繰り返し動作などのアニメーションに関する設定力もなる。状態パラメ ータは、「でんわだよ」という文字列を読む際に、「怒っている」、「笑っている」などの 感情によって読み方を変えるための感情パラメータなどでよい。繰り返し動作の設定 とは、「でんわだよ」というメッセージを 1回だけ読み上げるの力、「でんわだよ、でんわ だよ、でんわだよ、、、」と何度も繰り返して読むの力、などの繰り返し制御用の設定で あり、繰り返し時に、「だんだん強く繰り返す」や「だんだん弱く繰り返す」など、繰り返 す際の読み上げの変化も指定することもできる。これらの設定から、 CGエージェント の動作の種類や、アニメーションの種類などが決められる。 [0089] Further, a state parameter for controlling the personal CG agent is set in the state setting unit 262. As an example of the state parameter, there is a state meter that indicates the state of the agent, and setting power related to animation such as repeated actions. The status parameter may be an emotion parameter for changing the way of reading depending on the emotion such as “angry” or “laughing” when reading the character string “Denwa Dayo”. Repetitive action settings include the ability to read out the message “Calla phone” just once, the power to read it repeatedly as “Phone phone, phone call, phone call, etc.” With settings for repeated control Yes, at the time of repetition, you can also specify the change of reading when repeating, such as “Repeat gradually” and “Repeat gradually”. From these settings, the type of CG agent operation and the type of animation can be determined.
[0090] 次に、エージェント設定が終わると、エージェント設定部 260は、エージェント出力 部 270に対して設定値を渡す。エージェント出力部 270は、まず、個人識別子をアド レス帳データ管理部に渡し、対応するエージェントデータを受け取る(ステップ S202 ) oデータの受け渡しは、データの実態をあるメモリ上にコピーしても良いし、データが 記憶されたメモリのアドレスを渡しても良い。さらに、エージェントデータに含まれる画 像特徴データを、 CGキャラクタ描画部 271に渡し、音声特徴データを音声合成部 2 72に渡す。 Next, when the agent setting is completed, the agent setting unit 260 passes the setting value to the agent output unit 270. The agent output unit 270 first passes the personal identifier to the address book data management unit and receives the corresponding agent data (step S202). The data transfer may be performed by copying the actual state of the data to a certain memory. You may pass the address of the memory where the data is stored. Further, the image feature data included in the agent data is passed to the CG character drawing unit 271, and the voice feature data is passed to the speech synthesis unit 272.
[0091] 次に、 CGキャラクタ描画部 271は、個人の特徴データをもとに、個人の特徴を反映 させた CGキャラクタを描画する(ステップ S203)。ここで、 CGキャラクタの描画方法 の一例を説明する。ここでは、個人特徴データに含まれるエージェントタイプの設定 に応じて、顔写真を直接使用する方法と、似顔絵を表示する方法を選択する。似顔 絵を表示する方法の一例としては、顔写真のビットマップ及び顔の特徴点の座標から 、基本データ記憶部 273に記憶された顔の部品(「目」や「鼻」、「口」など)のビットマ ップを選択して、さらに位置座標に応じて拡大縮小したものを、組み合わせることで、 様々な顔のビットマップを生成する。生成した似顔絵のビットマップは、顔写真のビッ トマップと同様に扱うことができる。次に、顔の特徴点データを使用して、口の開閉や 目の開閉のアニメーション画像を生成する。本アニメーション技術の一例としては、図 6に示すように、顔の特徴点を元にメッシュを定義し、そのメッシュ上に、顔のビットマ ップデータ (顔写真あるいは似顔絵データ)をテクスチャマッピングし、メッシュを構成 する頂点を動かすことによって、口の開閉や目の開閉などのアニメーションを描画す ることができる。これらの技術を使用することで、音声に合わせて、リップシンクや瞬き をするアニメーション画像をビットマップデータとして描画することができる。なお、本 実施の形態では、顔の画像データをアニメーションさせる方法のみ示した力 3DCG によりキャラクタの全身モデルを作成し、顔のメッシュ上に、上記の顔画像を貼り付け て、全身のキャラクタを表示してもよい。 [0092] また、音声合成部 272は、与えられた文字列に対応する音声を発話する (ステップ 204)。音声合成の方法の一例としては、基本データ記憶部 273に保存されたデフォ ルト音素データベースから、発話する文字の音素データを取得し、さらに、個人の音 声特徴データに含まれる音素制御用データを用いて音素データを変化させ、文字単 位の音素データをつなぎ合わせることで、対応する文字列の音声データを生成する [0091] Next, the CG character drawing unit 271 draws a CG character reflecting the personal features based on the personal feature data (step S203). Here, an example of a CG character drawing method will be described. Here, depending on the setting of the agent type included in the personal feature data, the method of directly using the facial photo and the method of displaying the portrait are selected. As an example of a method of displaying a portrait, the facial parts stored in the basic data storage unit 273 (“eyes”, “nose”, “mouth”, etc.) from the bitmap of the facial photo and the coordinates of the facial feature points ) Bitmaps are selected, and further scaled according to the position coordinates are combined to generate various facial bitmaps. The generated portrait bitmap can be handled in the same way as the portrait bitmap. Next, using the facial feature point data, an animation image of opening and closing of the mouth and opening and closing of the eyes is generated. As an example of this animation technology, as shown in Fig. 6, a mesh is defined based on facial feature points, and bit map data (face photo or caricature data) of the face is texture-mapped on the mesh, and the mesh is created. You can draw animations such as opening and closing of the mouth and opening and closing of the eyes by moving the constituent vertices. By using these technologies, it is possible to draw animated images with lip sync or blinking as bitmap data in accordance with the sound. In this embodiment, a full body model of the character is created using the 3DCG force, which shows only the method of animating the facial image data, and the above facial image is pasted on the facial mesh to display the full body character. May be. In addition, the speech synthesizer 272 utters a speech corresponding to the given character string (step 204). As an example of the speech synthesis method, the phoneme data of the character to be uttered is acquired from the default phoneme database stored in the basic data storage unit 273, and the phoneme control data included in the personal voice feature data is further acquired. Use to change phoneme data and connect phoneme data of character units to generate voice data of the corresponding character string
[0093] エージェント出力部 270で生成した、ビットマップデータは画面出力部 281に送り( ステップ S203)、音声データは音声出力部 282に送る (ステップ S 204)。 [0093] The bitmap data generated by the agent output unit 270 is sent to the screen output unit 281 (step S203), and the voice data is sent to the voice output unit 282 (step S204).
[0094] さらに、エージェント出力部 270は、エージェント設定部 260の設定応じて、アニメ ーシヨンの制御を行う。例えば、「おはよう」という文字列のメッセージを、 4秒で音声と して伝える場合、画面表示に関しても、 4秒間のアニメーションを描画する。アニメ一 シヨン画像の生成方法の一例としては、図 9に示すように、 1秒ごとに、「お」、「は」、「 よ」、「う」という口の形になるように、顔のアニメーションを制御し、さらに、 1秒間に複 数のフレームを使用して、口の形を連続的に変化するようにアニメーション画像を描 画すればよい。  Further, the agent output unit 270 controls animation according to the setting of the agent setting unit 260. For example, if a message with the string “Good morning” is conveyed as voice in 4 seconds, an animation of 4 seconds is also drawn for the screen display. As an example of how to create an animation image, as shown in Fig. 9, every second, the face of the face is shaped like “O”, “Ha”, “Yo”, “U”. Control animation and use multiple frames per second to draw animated images that change mouth shape continuously.
[0095] そして、アニメーションが終了した場合 (ステップ S205で YES)、パーソナル CGェ ージェントの出力の処理は終了となる(ステップ S205)。一方、アニメーションが終了 していない場合 (ステップ S205で NO)、時間の変化に応じて、描画で用いる位置座 標ゃ音声処理の制御パラメータなどの状態を変化させ (ステップ S 206)、パーソナル CGエージェントの出力の処理 (ステップ S203〜ステップ S204)を繰り返す。  [0095] When the animation ends (YES in step S205), the personal CG agent output processing ends (step S205). On the other hand, if the animation has not ended (NO in step S205), the position coordinates used in the drawing, such as control parameters for voice processing, are changed according to the change in time (step S206), and the personal CG agent The output process (step S203 to step S204) is repeated.
[0096] 以上で説明した図 8の処理の流れにより、電話の着信時に、着信者の顔写真や似 顔絵をベースに作られた CGキャラクタが表示され、着信者の特徴を反映させた音声 で「でんわだよ」という音声を発し、それに合わせて、口の開閉を含むアニメーション 画像が表示される。  [0096] According to the processing flow of FIG. 8 described above, when a call arrives, a CG character created based on the photograph of the caller's face and a portrait is displayed, and the voice reflecting the characteristics of the callee is displayed. Screams “Denwa Dayo” and an animated image that includes opening and closing the mouth is displayed.
[0097] 以上が、パーソナル CGエージェントを使用するアプリケーションの処理の流れであ る。  The above is the processing flow of the application that uses the personal CG agent.
[0098] 以上の説明のように、本発明の通信装置 20は、テレビ電話の通話で送られてくる 画像情報と音声情報を利用し、通話相手の特徴を反映させた CGキャラクタエージェ ントを自動的に生成'更新することができる。このため、ユーザの手間を軽減した CG キャラクタエージェントを利用してメッセージを伝える通信装置を実現できる。 [0098] As described above, the communication device 20 of the present invention uses the image information and audio information sent in a videophone call to reflect the characteristics of the other party. Can be automatically generated. Therefore, it is possible to realize a communication device that transmits a message using a CG character agent that reduces the time and effort of the user.
[0099] また、エージェントデータ作成部 230において作成したエージェントデータを、通話 相手のアドレス帳データに対応させて保存することによって、アドレス帳に登録された 人物からの、あらゆる種類のメッセージを、個人別の CGキャラクタエージェントとして 伝えることが可能となる。  [0099] Further, by storing the agent data created in the agent data creation unit 230 in correspondence with the address book data of the other party of the call, all kinds of messages from persons registered in the address book can be personalized. Can be communicated as a CG character agent.
[0100] さらに、本発明の通信装置 20においては、画像特徴データと音声特徴データを含 むエージェントデータ 401をアドレス帳データ 400に付与して通信相手毎に管理する ため、 CGキャラクタエージェント作成におけるデータ管理を容易化し、また、このアド レス帳データ 400を、テレビ電話やメール等のメッセージ伝達用のアプリケーションの みでなぐ他の様々なアプリケーションで利用することができる。  [0100] Furthermore, in the communication device 20 of the present invention, the agent data 401 including the image feature data and the voice feature data is assigned to the address book data 400 and managed for each communication partner. Management can be facilitated, and the address book data 400 can be used in various other applications other than message transmission applications such as videophone and mail.
[0101] (他のアプリケーションへ展開)  [0101] (Deploy to other applications)
なお、上記の実施の形態においては、電話の着信メッセージを対象に本発明を使 用したアプリケーションの処理を説明したが、本発明は、電子メールの着信メッセージ や、電子メールの内容の読み上げを、電子メール送信者のパーソナル CGエージェ ントが伝えるアプリケーションなど、個人情報を扱う様々なアプリケーションで、同様に 適用可能であることは言うまでもない。  In the above embodiment, the processing of the application using the present invention has been explained for the incoming call message. However, the present invention reads out the incoming message of the e-mail and the content of the e-mail. Needless to say, it is equally applicable to various applications that handle personal information, such as applications transmitted by the personal CG agent of the e-mail sender.
[0102] さらに、ゲームなどのエンターテイメントアプリケーションにも適用することができる。  [0102] Furthermore, the present invention can be applied to entertainment applications such as games.
例えば、複数の人物が登場するアドベンチャーゲームやロールプレイングゲームに 適用することで、アドレス帳力 ランダムに選択した人物、あるいは、ユーザが指定し た人物のパーソナル CGエージェントをゲームのキャラクタとして使用することで、自 分の知って!/、る人物の特徴を反映させた CGキャラクタが仮想的な世界の中に登場 して、情報 (メッセージ)を伝えることができ、自分だけの登場人物やストーリーを生み 出す、新しいエンターテイメントを提供することができる。  For example, by applying it to an adventure game or role-playing game in which multiple people appear, by using a personal CG agent with a random address book or a person specified by the user as a game character. CG characters that reflect the characteristics of a person who knows! / Can appear in the virtual world and convey information (messages), creating their own characters and stories. To provide new entertainment.
産業上の利用可能性  Industrial applicability
[0103] 本発明に係る通信装置は、 CGキャラクタエージェントによる、親しみやすぐ分かり やすいインターフェースを実現でき、テレビ電話機能を有する情報端末、例えば、携 帯電話端末、 PDA, PC等に有用である。 [0103] The communication apparatus according to the present invention can realize a familiar and easily understandable interface using a CG character agent, and is useful for information terminals having a videophone function, such as a mobile phone terminal, a PDA, and a PC.

Claims

請求の範囲 The scope of the claims
[1] CGキャラクタエージェントを利用してメッセージを伝える通信装置であって、  [1] A communication device that transmits a message using a CG character agent,
他端末と通信データを通信するための通信手段と、  Communication means for communicating communication data with other terminals;
前記通信データに基づ 、て、通信相手の個人特徴データを含むエージェントデー タを作成するエージェントデータ作成手段と、  Agent data creating means for creating agent data including personal characteristic data of a communication partner based on the communication data;
通信相手の個人情報と対応させて、前記エージェントデータを含むアドレス帳デー タを作成するアドレス帳データ作成手段と、  Address book data creating means for creating address book data including the agent data in correspondence with personal information of a communication partner;
前記アドレス帳データを記憶するアドレス帳データ記憶手段と、  Address book data storage means for storing the address book data;
通信相手の前記アドレス帳データに含まれる前記エージェントデータを参照して、 前記通信相手の CGキャラクタエージェントを作成するエージェント作成手段と、 前記 CGキャラクタエージェントを出力するエージェント出力手段とを備える ことを特徴とする通信装置。  An agent creating means for creating the CG character agent of the communication partner with reference to the agent data included in the address book data of the communication partner, and an agent output means for outputting the CG character agent. Communication device.
[2] 前記エージェントデータ作成手段は、前記通信データから自動的に画像特徴データ を抽出する画像特徴抽出部、及び音声特徴データを抽出する音声特徴抽出部を備 え、 [2] The agent data creation means includes an image feature extraction unit that automatically extracts image feature data from the communication data, and an audio feature extraction unit that extracts audio feature data.
前記エージェントデータには、少なくとも前記画像特徴データ及び前記音声特徴デ ータが含まれる  The agent data includes at least the image feature data and the sound feature data.
ことを特徴とする請求項 1記載の通信装置。  The communication device according to claim 1, wherein:
[3] 前記画像特徴データには、少なくとも画像の感情状態毎の特徴点の位置座標が含 まれ、 [3] The image feature data includes at least the position coordinates of the feature points for each emotional state of the image,
前記音声特徴データには、少なくとも音質、及び音声の感情状態毎の制御パラメ ータが含まれる  The voice feature data includes at least sound quality and control parameters for each emotional state of the voice.
ことを特徴とする請求項 2記載の通信装置。  The communication device according to claim 2, wherein:
[4] 前記通信データは、テレビ電話用パケットデータである [4] The communication data is videophone packet data.
ことを特徴とする請求項 1又は 2記載の通信装置。  The communication apparatus according to claim 1 or 2, wherein
[5] 前記エージェントデータ作成手段は、 [5] The agent data creation means includes:
作成された前記エージェントデータに信頼度を付与する信頼度付与部と、 信頼度が付与された前記エージェントデータを一時保存するための一時保存デー タ記憶部と、 A reliability level assigning section for giving a reliability level to the created agent data; and a temporary storage data for temporarily storing the agent data to which the reliability level is given. Data storage unit,
通信中に、新たに作成したエージェントデータの信頼度と前記一時保存データ記 憶部に既に保存されているエージェントデータの信頼度とを比較し、前記一時保存 データ記憶部に記憶されているエージェントデータを、自動的に、信頼度の高いェ ージェントデータに更新する信頼性判定部とを備え、  During communication, the reliability of newly created agent data is compared with the reliability of agent data already stored in the temporary storage data storage unit, and agent data stored in the temporary storage data storage unit is compared. And a reliability judgment unit that automatically updates the agent data with high reliability.
前記エージェント作成手段は、さらに、前記一時保存データ記憶部に記憶されてい るエージェントデータを用いて CGキャラクタエージェントを作成する  The agent creating means further creates a CG character agent using the agent data stored in the temporarily stored data storage unit.
ことを特徴とする請求項 1記載の通信装置。  The communication device according to claim 1, wherein:
[6] 前記信頼性判定部は、さらに、通信後に、前記アドレス帳データ記憶手段に記憶さ れて 、る通信相手のエージェントデータの信頼度と、前記一時保存データ記憶部に 記憶されて 、る通信相手のエージェントデータの信頼度とを比較して、前記アドレス 帳データ記憶手段に記憶されているエージェントデータを、自動的に、信頼度の高 いエージェントデータに更新する [6] The reliability determination unit is further stored in the address book data storage means after communication, and stored in the temporary storage data storage unit and the reliability of the agent data of the communication partner. The agent data stored in the address book data storage means is automatically updated to highly reliable agent data by comparing with the reliability of the agent data of the communication partner.
ことを特徴とする請求項 5記載の通信装置。  6. The communication device according to claim 5, wherein
[7] 前記エージェント出力手段は、 [7] The agent output means includes:
前記 CGキャラクタエージェントを作成するための基本データを記憶する基本デー タ記憶部と、  A basic data storage unit for storing basic data for creating the CG character agent;
前記基本データと前記画像特徴データ力 前記 CGキャラクタエージェントの画像 データを作成する CGキャラクタ描画部と、  The basic data and the image feature data force; a CG character drawing unit for creating image data of the CG character agent;
前記基本データと前記音声特徴データから前記 CGキャラクタエージェントの音声 データを作成する音声合成部とを備える  A speech synthesis unit that creates speech data of the CG character agent from the basic data and the speech feature data.
ことを特徴とする請求項 2記載の通信装置。  The communication device according to claim 2, wherein:
[8] 前記通信装置は、さらに、 [8] The communication device further includes:
前記 CGキャラクタエージェントによるメッセージ伝達を利用するアプリケーションを 処理するアプリケーション処理手段と、  Application processing means for processing an application using message transmission by the CG character agent;
前記 CGキャラクタエージェントの設定を入力するエージェント設定手段とを備える ことを特徴とする請求項 1記載の通信装置。  The communication apparatus according to claim 1, further comprising agent setting means for inputting settings of the CG character agent.
[9] 前記アプリケーション処理手段は、前記 CGキャラクタエージェントを用いて電話着信 メッセージを表示するアプリケーション、又は前記 CGキャラクタエージェントを用いて メール着信メッセージを表示するアプリケーションを処理する [9] The application processing means receives a call using the CG character agent. Processing an application that displays a message or an application that displays an incoming mail message using the CG character agent
ことを特徴とする請求項 8記載の通信装置。  9. The communication apparatus according to claim 8, wherein
[10] CGキャラクタエージェントを利用してメッセージを伝える通信装置に備えられる CGキ ャラクタエージェント作成装置であって、 [10] A CG character agent creation device provided in a communication device that transmits a message using a CG character agent,
他端末と通信データを通信するための通信手段と、  Communication means for communicating communication data with other terminals;
前記通信データに基づ 、て、通信相手の個人特徴データを含むエージェントデー タを作成するエージェントデータ作成手段と、  Agent data creating means for creating agent data including personal characteristic data of a communication partner based on the communication data;
通信相手の個人情報と対応させて、前記エージェントデータを含むアドレス帳デー タを作成するアドレス帳データ作成手段と、  Address book data creating means for creating address book data including the agent data in correspondence with personal information of a communication partner;
前記アドレス帳データを記憶するアドレス帳データ記憶手段と、  Address book data storage means for storing the address book data;
通信相手の前記アドレス帳データに含まれる前記エージェントデータを参照して、 前記通信相手の CGキャラクタエージェントを作成するエージェント作成手段と、 前記 CGキャラクタエージェントを出力するエージェント出力手段とを備える ことを特徴とする CGキャラクタエージェント作成装置。  An agent creating means for creating the CG character agent of the communication partner with reference to the agent data included in the address book data of the communication partner, and an agent output means for outputting the CG character agent. CG character agent creation device.
[11] 前記エージェントデータ作成手段は、前記通信データから自動的に画像特徴データ を抽出する画像特徴抽出部、及び音声特徴データを抽出する音声特徴抽出部を備 え、 [11] The agent data creation means includes an image feature extraction unit that automatically extracts image feature data from the communication data, and an audio feature extraction unit that extracts audio feature data.
前記エージェントデータには、少なくとも前記画像特徴データ及び前記音声特徴デ ータが含まれる  The agent data includes at least the image feature data and the sound feature data.
ことを特徴とする請求項 10記載の CGキャラクタエージェント作成装置。  The CG character agent creation device according to claim 10.
[12] 前記エージェントデータ作成手段は、 [12] The agent data creation means includes:
作成された前記エージェントデータに信頼度を付与する信頼度付与部と、 信頼度が付与された前記エージェントデータを一時保存するための一時保存デー タ記憶部と、  A reliability level granting unit for imparting reliability level to the created agent data; a temporary storage data storage unit for temporarily storing the agent data level with the reliability level;
通信中に、新たに作成したエージェントデータの信頼度と前記一時保存データ記 憶部に既に保存されているエージェントデータの信頼度とを比較し、前記一時保存 データ記憶部に記憶されているエージェントデータを、自動的に、信頼度の高いェ ージェントデータに更新する信頼性判定部とを備え、 During communication, the reliability of newly created agent data is compared with the reliability of agent data already stored in the temporary storage data storage unit, and agent data stored in the temporary storage data storage unit is compared. Automatically and reliably. A reliability judgment unit that updates the agent data,
前記エージェント作成手段は、さらに、前記一時保存データ記憶部に記憶されてい るエージェントデータを用いて CGキャラクタエージェントを作成する  The agent creating means further creates a CG character agent using the agent data stored in the temporarily stored data storage unit.
ことを特徴とする請求項 10記載の CGキャラクタエージェント作成装置。  The CG character agent creation device according to claim 10.
[13] CGキャラクタエージェントを利用してメッセージを伝える通信装置に用いる通信方法 であって、 [13] A communication method used for a communication device that transmits a message using a CG character agent,
他端末と通信データを通信するための通信ステップと、  A communication step for communicating communication data with another terminal;
前記通信データに基づ 、て、通信相手の個人特徴データを含むエージェントデー タを作成するエージェントデータ作成ステップと、  Based on the communication data, an agent data creation step of creating agent data including personal characteristic data of the communication partner;
通信相手の個人情報と対応させて、前記エージェントデータを含むアドレス帳デー タを作成するアドレス帳データ作成ステップと、  An address book data creating step for creating address book data including the agent data in correspondence with personal information of a communication partner;
前記アドレス帳データを記憶するアドレス帳データ記憶ステップと、  An address book data storage step for storing the address book data;
通信相手の前記アドレス帳データに含まれる前記エージェントデータを参照して、 前記通信相手の CGキャラクタエージェントを作成するエージェント作成ステップと、 前記 CGキャラクタエージェントを出力するエージェント出力ステップとを含む ことを特徴とする通信方法。  An agent creating step of creating the CG character agent of the communication partner with reference to the agent data included in the address book data of the communication partner, and an agent output step of outputting the CG character agent. Communication method.
[14] CGキャラクタエージェントを利用してメッセージを伝える通信装置に用いるプログラム であって、 [14] A program used in a communication device that transmits a message using a CG character agent,
他端末と通信データを通信するための通信ステップと、  A communication step for communicating communication data with another terminal;
前記通信データに基づ 、て、通信相手の個人特徴データを含むエージェントデー タを作成するエージェントデータ作成ステップと、  Based on the communication data, an agent data creation step of creating agent data including personal characteristic data of the communication partner;
通信相手の個人情報と対応させて、前記エージェントデータを含むアドレス帳デー タを作成するアドレス帳データ作成ステップと、  An address book data creating step for creating address book data including the agent data in correspondence with personal information of a communication partner;
前記アドレス帳データを記憶するアドレス帳データ記憶ステップと、  An address book data storage step for storing the address book data;
通信相手の前記アドレス帳データに含まれる前記エージェントデータを参照して、 前記通信相手の CGキャラクタエージェントを作成するエージェント作成ステップと、 前記 CGキャラクタエージェントを出力するエージェント出力ステップとをコンビユー タに実行させる ことを特徴とするプログラム。 Referring to the agent data included in the address book data of the communication partner, causes the computer to execute an agent creation step of creating the CG character agent of the communication partner and an agent output step of outputting the CG character agent A program characterized by that.
PCT/JP2005/010024 2004-07-23 2005-06-01 Communication device WO2006011295A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-215234 2004-07-23
JP2004215234A JP2007279776A (en) 2004-07-23 2004-07-23 Cg character agent device

Publications (1)

Publication Number Publication Date
WO2006011295A1 true WO2006011295A1 (en) 2006-02-02

Family

ID=35786049

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/010024 WO2006011295A1 (en) 2004-07-23 2005-06-01 Communication device

Country Status (2)

Country Link
JP (1) JP2007279776A (en)
WO (1) WO2006011295A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235581A (en) * 2006-03-01 2007-09-13 Funai Electric Co Ltd Television receiver
JP2015516625A (en) * 2012-03-14 2015-06-11 グーグル・インク Modifying the appearance of participants during a video conference
CN106791165A (en) * 2017-01-10 2017-05-31 努比亚技术有限公司 A kind of address list block terminal and method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4844614B2 (en) 2008-10-07 2011-12-28 ソニー株式会社 Information processing apparatus, information processing method, and computer program
JP4686619B2 (en) * 2009-03-23 2011-05-25 株式会社東芝 Information processing method and information display device using face authentication
JP2010272077A (en) 2009-05-25 2010-12-02 Toshiba Corp Method and device for reproducing information
TW201236444A (en) 2010-12-22 2012-09-01 Seyyer Inc Video transmission and sharing over ultra-low bitrate wireless communication channel
WO2012154618A2 (en) * 2011-05-06 2012-11-15 Seyyer, Inc. Video generation based on text
JP5787644B2 (en) * 2011-07-01 2015-09-30 キヤノン株式会社 Image processing apparatus and image processing apparatus control method
JP5857531B2 (en) * 2011-08-24 2016-02-10 カシオ計算機株式会社 Image processing apparatus, image processing method, and program
JP6828530B2 (en) * 2017-03-14 2021-02-10 ヤマハ株式会社 Pronunciation device and pronunciation control method
US11151979B2 (en) * 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
JP6796762B1 (en) * 2019-11-28 2020-12-09 有限会社クロマニヨン Virtual person dialogue system, video generation method, video generation program

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09138767A (en) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd Communication equipment for feeling expression
JPH1125016A (en) * 1997-07-09 1999-01-29 Matsushita Electric Ind Co Ltd Communication method using avator and medium for recording program for the method
JPH11306322A (en) * 1998-04-23 1999-11-05 Fujitsu Ltd Picture filtering system
JP2000020683A (en) * 1998-06-30 2000-01-21 Victor Co Of Japan Ltd Communication conference system
JP2002016676A (en) * 2000-06-28 2002-01-18 Sony Corp Wireless transmission method and wireless transmitter
JP2002077840A (en) * 2000-08-30 2002-03-15 Toshiba Corp Communication terminal
JP2002140697A (en) * 2000-10-31 2002-05-17 Toshiba Corp Communication image generation device, communication device, method for generating communication image, method for processing communication information, and program
JP2002176632A (en) * 2000-12-08 2002-06-21 Mitsubishi Electric Corp Mobile phone and image transmission method
JP2003016475A (en) * 2001-07-04 2003-01-17 Oki Electric Ind Co Ltd Information terminal device with image communication function and image distribution system
JP2003244425A (en) * 2001-12-04 2003-08-29 Fuji Photo Film Co Ltd Method and apparatus for registering on fancy pattern of transmission image and method and apparatus for reproducing the same
JP2004179997A (en) * 2002-11-27 2004-06-24 Sony Corp Interactive communication system, video image communication device, and image data distribution method for the same

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09138767A (en) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd Communication equipment for feeling expression
JPH1125016A (en) * 1997-07-09 1999-01-29 Matsushita Electric Ind Co Ltd Communication method using avator and medium for recording program for the method
JPH11306322A (en) * 1998-04-23 1999-11-05 Fujitsu Ltd Picture filtering system
JP2000020683A (en) * 1998-06-30 2000-01-21 Victor Co Of Japan Ltd Communication conference system
JP2002016676A (en) * 2000-06-28 2002-01-18 Sony Corp Wireless transmission method and wireless transmitter
JP2002077840A (en) * 2000-08-30 2002-03-15 Toshiba Corp Communication terminal
JP2002140697A (en) * 2000-10-31 2002-05-17 Toshiba Corp Communication image generation device, communication device, method for generating communication image, method for processing communication information, and program
JP2002176632A (en) * 2000-12-08 2002-06-21 Mitsubishi Electric Corp Mobile phone and image transmission method
JP2003016475A (en) * 2001-07-04 2003-01-17 Oki Electric Ind Co Ltd Information terminal device with image communication function and image distribution system
JP2003244425A (en) * 2001-12-04 2003-08-29 Fuji Photo Film Co Ltd Method and apparatus for registering on fancy pattern of transmission image and method and apparatus for reproducing the same
JP2004179997A (en) * 2002-11-27 2004-06-24 Sony Corp Interactive communication system, video image communication device, and image data distribution method for the same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235581A (en) * 2006-03-01 2007-09-13 Funai Electric Co Ltd Television receiver
JP2015516625A (en) * 2012-03-14 2015-06-11 グーグル・インク Modifying the appearance of participants during a video conference
CN106791165A (en) * 2017-01-10 2017-05-31 努比亚技术有限公司 A kind of address list block terminal and method

Also Published As

Publication number Publication date
JP2007279776A (en) 2007-10-25

Similar Documents

Publication Publication Date Title
WO2006011295A1 (en) Communication device
EP2127341B1 (en) A communication network and devices for text to speech and text to facial animation conversion
US6909453B2 (en) Virtual television phone apparatus
CN110134484B (en) Message icon display method and device, terminal and storage medium
CN100359941C (en) Visuable telephone terminal
EP1480425B1 (en) Portable terminal and program for generating an avatar based on voice analysis
US10360716B1 (en) Enhanced avatar animation
US8373799B2 (en) Visual effects for video calls
CN110446000B (en) Method and device for generating dialogue figure image
US20100060647A1 (en) Animating Speech Of An Avatar Representing A Participant In A Mobile Communication
JP2005115896A (en) Communication apparatus and method
BRPI0904540B1 (en) method for animating faces / heads / virtual characters via voice processing
KR20090007216A (en) Mobile apparatus for receiving an electronic message including a text message from a sender and method for editing the electronic message
WO2008087621A1 (en) An apparatus and method for animating emotionally driven virtual objects
JP2005078427A (en) Mobile terminal and computer software
KR100733772B1 (en) Method and system for providing lip-sync service for mobile communication subscriber
CN113395597A (en) Video communication processing method, device and readable storage medium
CN113538628A (en) Expression package generation method and device, electronic equipment and computer readable storage medium
JP2005064939A (en) Portable telephone terminal having animation function and its control method
KR20200040625A (en) An electronic device which is processing user's utterance and control method thereof
KR20010082779A (en) Method for producing avatar using image data and agent system with the avatar
WO2003091902A1 (en) Method and apparatus for conveying messages and simple patterns in communications network
JPH09305787A (en) Animation production and reproduction device and animation retrieval device
CN107678617A (en) The data interactive method and system of Virtual robot
JP3073176U (en) Image data generator for audio drive video plane

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase