WO2005099262A1 - 通信端末及び通信方法 - Google Patents

通信端末及び通信方法 Download PDF

Info

Publication number
WO2005099262A1
WO2005099262A1 PCT/JP2005/006313 JP2005006313W WO2005099262A1 WO 2005099262 A1 WO2005099262 A1 WO 2005099262A1 JP 2005006313 W JP2005006313 W JP 2005006313W WO 2005099262 A1 WO2005099262 A1 WO 2005099262A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
videophone
terminal
image
communication
Prior art date
Application number
PCT/JP2005/006313
Other languages
English (en)
French (fr)
Inventor
Tetsu Hada
Hideaki Matsuo
Hiroki Nogoshi
Naoyuki Suzuki
Takahiro Makino
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US10/596,855 priority Critical patent/US20070139512A1/en
Publication of WO2005099262A1 publication Critical patent/WO2005099262A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/08Telephonic communication systems specially adapted for combination with other electrical systems specially adapted for optional reception of entertainment or informative matter
    • H04M11/085Telephonic communication systems specially adapted for combination with other electrical systems specially adapted for optional reception of entertainment or informative matter using a television receiver, e.g. viewdata system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Definitions

  • the present invention relates to a communication terminal having a communication function and having a function common to a function of a communication partner terminal, and a communication method therefor.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2003-109036 (Page 3, Page 4, Figure 2)
  • the videophone device is set to a videophone device having a low processing capability, and there is a problem that the processing is smoothly performed between these videophone devices.
  • the present invention has been made in view of the above circumstances, and has as its object to provide a communication terminal and a communication method that allow a communication partner terminal to execute a function at a level requested by the terminal itself. .
  • a communication terminal of the present invention has a communication function, and has a function common to a function mounted on a communication partner terminal.
  • the communication terminal has data and data for executing a function mounted on the terminal itself.
  • a data generating means for generating data for executing a function mounted on the communication partner terminal, and a transmitting means for transmitting data for executing a function mounted on the communication partner terminal.
  • data generation means for generating data for executing a function mounted on the own terminal and data for executing a function mounted on the communication partner terminal.
  • the communication terminal of the present invention has a videophone function, an input data analyzing means for analyzing input data, and data of the terminal itself and data of the communication partner terminal based on the analysis result. And a data matching unit that outputs data obtained by matching the data to the generation unit. Further, the communication terminal of the present invention includes input means for inputting, as input data, at least one selected from image data, audio data, and key input data to the input data analysis means. According to the above configuration, by providing the input data analyzing means for analyzing the input data, data reflecting the input data can be generated.
  • the communication method of the present invention is a communication method for a communication terminal having a communication function and having a function common to a function mounted on a communication partner terminal, and executes a function mounted on the own terminal.
  • the communication device generates data for executing the function mounted on the communication partner terminal and data for executing the function mounted on the communication partner terminal.
  • the terminal capability of the communication partner terminal can be improved. Even if the terminal is lower than the terminal, the function of the level requested by the own terminal can be executed by the communication partner terminal.
  • FIG. 1 A schematic configuration diagram of a videophone system for explaining Embodiment 1 of the present invention.
  • FIG. 2 A diagram showing a face recognition process in a facial expression 'emotion analysis unit 16
  • FIG. 3 Diagram showing face recognition processing in facial expression 'emotion analysis unit 16
  • FIG. 4 is a diagram showing an example of an operation table used by the operation data generation unit 17 and the operation matching unit 18
  • FIG. 5 Diagram showing an operation outline of operation matching unit 18 (1)
  • FIG. 6 Diagram showing an operation outline of operation matching unit 18 (2)
  • FIG. 7 A diagram showing an operation outline of the operation matching unit 18 (3)
  • FIG. 8 is a flowchart showing the operation of the videophone device 1
  • FIG. 9 is a flowchart showing the operation of the operation matching unit 18
  • FIG. 10 is a flowchart showing the operation of the videophone device 2
  • FIG. 11 is a schematic configuration diagram of a videophone system for explaining Embodiment 2 of the present invention.
  • FIG. 12 is a flowchart showing an operation of the videophone device 4
  • FIG. 13 is a flowchart showing the operation of the operation matching unit 18A
  • FIG. 14 is a flowchart showing the operation of the videophone device 5
  • FIG. 15 is a flowchart showing the operation of the operation matching unit 18B
  • FIG. 16 is a schematic configuration diagram of a videophone system for explaining Embodiment 3 of the present invention.
  • FIG. 17 is a diagram showing images taken by videophone device 6 and videophone device 7
  • FIG. 18 is a diagram showing an example of an operation table used by the image maple deciding section 21 and the image maple arranging section 22
  • FIG. 19 is a diagram showing an outline of the operation of the image processing matching unit 22
  • FIG. 20 is a flowchart showing the operation of the videophone device 6
  • FIG. 21 is a flowchart showing the operation of the operation matching unit 18A
  • FIG. 22 is a flowchart showing the operation of the videophone device 7
  • 16A, 16B Facial expression, sentiment analysis
  • FIG. 1 is a schematic configuration diagram of a videophone system for explaining Embodiment 1 of the present invention.
  • the videophone system shown in Fig. 1 has a communication function, has the same functions as those of the communication partner terminal, has videophone devices 1 and 2 with different terminal capabilities, and has a network 3 It is configured to be able to communicate with each other via the Internet.
  • IP Internet Protocol
  • IP Internet Protocol
  • the videophone device 1 has a function of generating a character that is commonly used with the videophone device 2 (a character called an avatar that is used as an alter ego of the user). A character is displayed instead of the face image of.
  • portions common to the videophone devices 1 and 2 are denoted by the same numerals, and in order to distinguish between the videophone devices 1 and 2, ⁇ A '' is added to the videophone device 1.
  • “B” is added to the videophone device 2.
  • Videophone devices 1 and 2 share input data portions 10A and 10B, data transmission portions 11A and 11B, data reception portions 12A and 12B, display image generation portions 13A and 13B, and videophone display portions 14A and 14B.
  • the videophone device 1 further includes a character data storage unit 15, a facial expression / emotional analysis unit 16, an operation data generation unit 17, and an operation matching unit 18.
  • the display image generation unit 13A of the videophone device 1 is used to execute the data provided for the videophone device 1 (own terminal) and the function provided for the videophone device 2 (communication partner terminal).
  • the data transmission unit 11A transmits the data for executing the function of the videophone device 2.
  • the facial expression 'emotion analysis unit 16 of the videophone device 1 analyzes the input data, and the motion data generation unit 17 generates a TV based on the analysis result.
  • the data obtained by matching the data of the telephone device 1 with the data of the videophone device 2 is output to the display image generation unit 13A.
  • the input data unit 10A of the videophone device 1 inputs at least one selected image data, audio data, and key input data to the expression / emotional analysis unit 16 as the input data.
  • the input data sections 10A and 10B are connected to various input means such as a camera, a microphone, and a key input section (all not shown), and are used to acquire information (user information) representing a user's facial expression, emotion, and action. Is done.
  • the input data section 10B of the videophone device 2 receives at least one of the selected data as image data, audio data, and key input data via the data transmission section 11B and the data reception section 12A as input data.
  • Data transmission section 11A transmits image data to be displayed on videophone device 2.
  • the data transmission unit 11B transmits information representing the expression and emotion of the user of the video telephone device 2 to the video telephone device 1.
  • the data receiving unit 12A receives information representing the expression and emotion of the user of the videophone device 2 transmitted from the videophone device 2.
  • the data receiving unit 12B receives image data transmitted from the videophone device 1.
  • Display image generation unit 13A displays an image to be displayed on videophone display unit 14A and a display on videophone display unit 14B based on input data from input data unit 10A and input data from input data unit 10B. Generate an image. Further, the display image generation unit 13A passes the generated image data to be displayed on the videophone display unit 14B to the data transmission unit 11A.
  • the display image generation unit 13B generates a display image from the image data generated by the display image generation unit 13A acquired via the data reception unit 12B.
  • the display image generation unit 13B may display the acquired image data on the videophone display unit 14B without processing it.
  • the videophone display section 14A has a liquid crystal display and displays the image generated by the display image generation section 13A.
  • the videophone display unit 14B has a liquid crystal display, and displays the image generated by the display image generation unit 13B.
  • the character data storage unit 15 stores data for creating a character image.
  • the character data is image data for displaying a character on the television telephone devices 1 and 2, and a plurality of character data are prepared corresponding to the operation data generated by the operation data generation unit 17. Note that this implementation In the form, two types of characters can be displayed.
  • the expression 'emotion analysis unit 16 analyzes the expression and emotion of the user of the videophone device 1 based on the video data, audio data, or key input data from the input data unit 10A. Further, the expression / emotional analysis unit 16 analyzes the facial expression and emotion of the user of the videophone device 2 based on the video data, audio data, or key input data from the videophone device 2. The expression 'emotional analysis unit 16 analyzes the facial image when the user's facial image is input, and detects facial expressions and emotions such as laughing, angry, and ru.
  • FIG. 2 is a diagram schematically illustrating face recognition processing in the case of “laughing”, “surprising”, and “sad”.
  • FIG. 2A shows the average facial expression feature point coordinates obtained by the face recognition processing for each frame.
  • Fig. 2 (b) is the facial feature point coordinates for "laughing”
  • Fig. 2 (c) is the facial feature point coordinates for "surprise”
  • Fig. 2 (d) is the facial feature point coordinates for "sad” Are respectively shown.
  • FIG. 3 is a diagram schematically illustrating the face recognition processing in the case of “shaking the head” and “nodding”.
  • “ ⁇ ” indicates a detection point by the face recognition processing, and a plurality of detection points are set for each of eyebrows, eyes, and mouth.
  • Figure 3 (a) shows the place where the user shakes his head.
  • FIG. 3 (b) shows the change of the expression feature point coordinates in the case of “nodding”.
  • the two conditions are satisfied that the coordinates of the facial expression feature points change by a threshold value K1 or more in the horizontal direction from the face center, and change by at least the threshold value K2 in the opposite direction from the face center.
  • the two conditions are satisfied that the coordinates of the facial expression feature points change by a threshold value U1 or more below the face center and change by more than the threshold value U2 above the face center.
  • the facial expression / emotional analysis unit 16 analyzes the key input data and detects the facial expression ′ emotion associated with each key.
  • various expressions and feelings are associated with each key of the key operation unit (not shown), and the user operates (presses) a key that matches his / her own expression or feeling during a call.
  • the expression / emotion analysis unit 16 detects the expression / emotion and determines an action corresponding to the expression / emotion.
  • the expression “emotion” of “angry” is associated with the key of “1”, and when the user presses the key, the action of “angry” is determined.
  • the expression “emotional” of “laughing” is associated with the key “2”, and “laughing” is determined when the user presses the key.
  • the expression “emotional” of “surprise” is associated with the key of “3”, and “surprise” is determined when the user presses the key. Also, it is associated with the expression “fear” expression “emotional power s ” “4” key, and when the user presses the key, “fear” is determined.
  • the operation of “raising hand” is associated with the key “5”, and when the user presses the key, the operation of “raising hand” is determined. Also, the operation of “jumping” is associated with the key of “6”, and when the user presses the key, the operation of “jumping” is determined. Also, the action of “attack” is associated with the key of “7”, and when the user presses the key, the action of “attack” is determined. The operation of “holding hands” is associated with the key “8”, and the operation of “holding hands” is determined when the user presses the key. In addition, the operation of “hug” is associated with the key “9”, and when the user presses the key, the operation of “hug” t is determined.
  • the facial expression and emotion conversion processing is associated with a single action table or an interactive motion table, and the character's "laughing”, “surprise”, “sad”, The actions of "shaking the head”, “nodding”, “holding hands” and “hugging” are confirmed.
  • the expression 'emotion analysis unit 16 analyzes voice data to detect an emotion such as a loud voice of the user.
  • the expression 'emotion conversion processing is associated with the single action table or the interactive action table, and the character's actions of “laughing”, “surprising”, “sad”, “holding hands”, and “hugging” are determined. .
  • the expression / emotional analysis unit 14 analyzes a user's facial expression and emotion based on video data, audio data, and key input data. Then, the analysis result is input to the operation data generation unit 17. Note that all of the video data, audio data, and key input data may not be required, but may be one of them.
  • FIG. 4 is a diagram showing an example of an operation table used by the operation data generation unit 17 and the operation matching unit 18.
  • the motion data generation unit 17 refers to the table shown in FIG. 4 based on the analysis result of the facial expression 'emotion analysis unit 16 and expresses the facial expressions and emotions of the user of the videophone device 1 and the user of the videophone device 2 respectively. Generate the corresponding operation data.
  • FIG. 4 (a) is a single operation table TA of the videophone device 1, which shows a set of operation data of the character Ca alone.
  • FIG. 4 (b) is an independent operation table TB on the videophone device 2 side, and shows a set of operation data of the character Cb alone.
  • FIG. 4 (c) is an interaction table TC of the videophone devices 1 and 2, and shows a set of operation data affecting the character Ca or Cb of the other party.
  • the operation data generation unit 17 When the input data IA of the videophone device 1 indicates a single operation, the operation data generation unit 17 generates the operation data DA from the single operation table TA, and the input data IB of the videophone device 2 is used alone. When the operation is indicated, a single operation table TB is generated and the operation data DB is generated. When the input data IA of the video telephone 1 indicates an interoperation, the interoperation table TC is generated and the operation data DA is generated. If the input data IB indicates the interaction, the interaction table TC also generates the operation data DB.
  • FIG. 5D is a diagram illustrating an example of an expression / emotional analysis table used by the facial expression / emotional analysis unit 16. In the expression 'emotion analysis table, the result analyzed by the expression' emotion analysis unit 16 is temporarily stored.
  • the motion data DA “push off” is generated.
  • FIG. 6 shows a relationship between audio data and operation data DA when audio data is input as input data IA in videophone device 1. Also in this case, since the operation is performed by the videophone device 1, the independent operation table TA shown in FIGS. 6 (a) and 4 (a) and the mutual operation table TC shown in FIGS. 6 (c) and 4 (c) are used. Is done.
  • the input data IA of the videophone device 1 is voice data indicating the feeling of being angry In this case, the action data DA “attack” is generated.
  • the input data IB is the same regardless of whether the input data IB is video or audio in the video telephone device 2 that was provided for the video telephone device 1. That is, the input data IA of the videophone device 1 is replaced with the input data IB, and the operation data DA is replaced with the operation data DB.
  • the independent operation table TB of FIG. 4B and the mutual operation table TC of FIG. 4C are used.
  • the operation data generation unit 17 inputs the operation data DA and DB generated as described above to the display image generation unit 13A and the operation matching unit 18, respectively.
  • the operation matching unit 18 matches the operation data DA and DB, and matches the operation data DA and DB as follows.
  • the operation data DA and the operation data DB are single operation data
  • the operation data DA and the operation data DB are output as they are (eg, the character Ca is “laughing” and the character Cb is “crying”).
  • FIG. 7 is a diagram showing an outline of the operation of the operation matching unit, and shows an outline of the operation of the operation matching unit 18 in the case shown in (2).
  • the operation data DB When the operation data DA is data for single operation and the operation data DB is data for mutual operation, the operation data DB has priority.
  • the operation data DB outputs the main operation data in the interoperation table TC, and the operation data DA outputs the reception operation data corresponding to the main operation data in the interoperation table TC (for example, when the character Cb “jumps”, Character Ca “blows”).
  • the operation data DA is "laughing” and the operation data DB is "jumping out.”
  • the operation data DA is the operation data of “blow off”.
  • both the operation data DA and the operation data DB are data of the mutual operation, for example, the one obtained earlier is prioritized, and the operation data of the higher-level interaction is output (eg, the operation data If DA is prioritized, character Ca "attacks" and character Cb "falls")
  • the motion data generation unit 17 When there is no input data from the facial expression 'emotion analysis unit 16 (no video data, audio data, or key input data is input), the motion data generation unit 17 performs the operation as shown in Figs. 5 and 6. , And generates the operation data of the “default operation” of the independent operation tables TA and TB.
  • the display image generation unit 13A stores the operation data DA generated by the operation data generation unit 17 or the operation data obtained by matching the operation data DA with the operation matching unit 18.
  • the corresponding character data is stored in the character data storage unit 15. Obtain and display the image on the videophone display section 14A.
  • the operation data DB for the videophone device 2 generated by the operation data generation unit 17 or the operation data obtained by matching the operation data DB with the operation matching unit 18 ⁇
  • the corresponding character data is obtained from the character data storage unit 15. Then, the data is transmitted from the data transmission unit 11 # to the television telephone device 2.
  • an operation data DA of an interactive operation of "throwing out” and an operation data DB of a single operation of "laughing", “crying”, “surprise” or “frightened” are generated.
  • a character image in which the character Ca of the videophone device 1 is jumping over the character Cb of the videophone device 2 is displayed as shown in the motion data DA, that is, as shown in FIG. 1, and the other videophone display section 14B
  • the matched motion data is displayed, that is, a character image in which the character Cb of the videophone device 2 is pushed off by the character Ca of the videophone device 1 as shown in FIG.
  • the character images displayed on the videophone display unit 14A and the videophone display unit 14B in FIG. 1 are such that the operation data DB is the operation data of the mutual operation and the generation timing is after the operation data DA. Is the same. However, this does not apply if priority is not determined around the time.
  • FIG. 8 is a flowchart showing the operation of the videophone device 1.
  • the video phone The device 1 starts a call with the videophone device 2 (ST10).
  • input data IA is obtained from the input data section 10A (ST11). That is, at least one of video data, audio data, and key input data is obtained.
  • the expression and emotion of the user of the videophone device 1 are analyzed from the acquired input data IA (ST12). For example, when the laughing face of the user of the videophone device 1 is photographed, an analysis result of “laughing” is obtained.
  • reception of input data IB from videophone device 2 is started (ST13).
  • the user analyzes the expression and emotion of the user of the video telephone 2 from the input data IB (ST14). For example, if a crying face of the user of the videophone device 2 is captured, an analysis result of “crying” is obtained.
  • Analysis data of input data IA Generates operation data DA (ST15), and then generates operation data DB from the analysis result of input data IB (ST16).
  • the operation data DA and DB After generating the operation data DA and DB, if at least one of them is a mutual operation, matching is performed (ST17). If the two are mutually operating, the matching is performed so that the operation data based on the input data generated earlier in time becomes the main operation.
  • a display image of a character to be displayed on the videophone display units 14A and 14B is generated (ST18). Then, the display image data of the character for videophone device 2 is transmitted to videophone device 2 (ST19). After transmitting the display image data of the character to the videophone device 2, the display image of the character for the videophone device 1 is displayed on the videophone display unit 14A (ST20).
  • a call in the case of No in ST21
  • the process from ST11 to ST20 is repeated, and when the call is ended (in the case of Yes in ST21), the process ends.
  • FIG. 9 is a flowchart showing the operation of the operation matching unit 18.
  • the operation matching unit 18 receives the input of the operation data DA (ST20), and judges whether or not the operation data DA exists (ST21). If there is no operation data DA ("none" in ST21), the operation data DA is changed to the default operation data DA (ST22). On the other hand, if the operation data DA is present (if “YES” in ST21), the operation data DB is input (ST23), and the presence or absence of the operation data DB is determined (ST24). If there is no operation data DB (in the case of “none” in ST24), the operation data DB is changed to the default operation data DB (ST25).
  • the combination priority of operation data DA and DB is determined (ST26).
  • the mutual operation has a higher priority, and in the case of the mutual operations, for example, the earlier of the time when the input data is obtained is selected.
  • the operation data DA and DB are changed according to the priority (ST27). That is, as described above, when the operation data DA is “laughing” and the operation data DB is “push out”, the operation data DB that is an inter-operation is given priority, and as a result, the operation data DA of “laughing” is given. "Blow off" motion data ⁇ This will be changed. After changing the operation data DA and DB, these are output (ST28).
  • FIG. 10 is a flowchart showing the operation of the videophone device 2.
  • the videophone device 2 starts a call with the videophone device 1 (ST40).
  • the input data section 10B also acquires the input data IB (ST41). That is, at least one of video data, audio data, and key input data is obtained.
  • the obtained input data IB is transmitted to the videophone device 1 (ST42).
  • the display image data of the character is received (ST43).
  • the display image data of the character transmitted from the videophone device 1 can be received, the display image of the character is displayed on the videophone display unit 14B (ST44).
  • ST41 the case of No in ST45
  • the processing from ST41 to ST45 is repeated, and when the call ends (in the case of Yes in ST45), the processing is terminated.
  • the videophone device 1 transmits the image data to be displayed on the communication partner terminal (videophone device 2) in addition to the image data displayed on its own terminal.
  • the function of the level requested by the own terminal can be communicated. It can be executed by the partner terminal.
  • the video telephone 1 has character data to be displayed on the video telephones 1 and 2. May be transmitted.
  • the image data corresponding to the operation is acquired from the character data storage unit 15 and transmitted to the videophone device 2 as described above.
  • the description has been given of the case in which the character data serving as the basis of the image to be displayed is transmitted at the start of the call, only the difference data corresponding to the movement of the character may be transmitted during the call. As a result, the amount of data communication can be reduced as compared with the case where all image data is transmitted during a call as in the related art.
  • FIG. 11 is a schematic configuration diagram of a videophone system for explaining Embodiment 2 of the present invention.
  • the videophone system shown in FIG. 11 has a communication function, has a function common to a function mounted on a communication partner terminal, and has videophone devices 4 and 5 having terminal capabilities of the same level.
  • the same parts as those in FIG. 1 are denoted by the same reference numerals, and both have a character data storage unit, a facial expression / emotional analysis unit, a motion data generation unit, and a motion matching unit. Therefore, “A” is attached to the videophone device 4 side and “B” is attached to the videophone device 5 side to the reference numerals attached to these blocks.
  • the videophone devices 4 and 5 exchange character data with each other at the start of a call, they have character data storage units 19A and 19B for storing character data of each other.
  • FIG. 12 is a flowchart showing the operation of the videophone device 4.
  • the video phone 4 starts talking with the video phone 5 (ST50).
  • the character data CA stored in the character data storage 15A is transmitted to the video telephone 5 (ST51).
  • the other party's videophone The reception of the character data CB transmitted from the device 5 is started (S52).
  • the character data CB is transmitted, it is stored in the character data storage unit 19A (ST53).
  • input data IA is obtained (ST54). That is, at least one of video data, audio data, and key input data is obtained from the input data section 10A of the own device.
  • the user's own user's facial expressions and emotions are analyzed (ST55). For example, if the user's laugh ⁇ face is photographed, “laugh” t ⁇ analysis result is obtained.
  • motion data DA corresponding to the facial expressions and feelings of the own user is generated from the analysis result (ST56).
  • the generated operation data DA is transmitted to the partner videophone device 5 (ST57). After transmitting the operation data DA, reception of the operation data DB from the other party's videophone device 5 is started (ST58).
  • FIG. 13 is a flowchart showing the operation of the operation matching unit 18A.
  • the operation matching unit 18A starts processing for taking in the operation data DA generated by the operation data generation unit 17A (ST70), and determines whether or not the operation data DA exists (ST71). If there is no operation data DA input ("none" in ST71), change to the default operation data DA (ST72). On the other hand, when the operation data DA is input (in the case of “Yes” in ST21), the input operation data DA is transmitted to the partner videophone device 5 (ST73). After transmitting the operation data DA, a process for receiving the operation data DB from the partner videophone device 5 is started (ST74), and it is determined whether or not the operation data DB exists (ST75).
  • the operation data DB is changed to the default operation data DB (ST76).
  • the combination priority of the operation data DA and DB is determined (ST77). In this case, in the case of the single operation and the mutual operation, the priority is given to the mutual operation, and in the case of the mutual operations, for example, the one obtained earlier in time is selected. However, when the time is determined, the time is set between the TV telephone device 4 and the TV telephone device 5 when communication is first started.
  • the operation data DA and DB are changed according to the priority (ST78).
  • the operation data DA power S is “laughing” and the operation data DB is “push out”
  • the operation data DB that is an interactive operation has priority, and as a result, the operation data DA of “laughing” becomes “ “Blow off” operation data
  • they are output (ST 79).
  • FIG. 14 is a flowchart showing the operation of the videophone device 5.
  • the videophone device 5 starts talking with the videophone device 4 (ST90).
  • the character data CB stored in the character data storage 15B is transmitted to the video telephone 4 (ST91).
  • the reception of the character data CA transmitted from the other party's videophone 4 starts (S92), and when the character data CA is transmitted, it is stored in the character data storage unit 19B (S92). ST93).
  • input data IB is obtained (ST94). That is, at least one of video data, audio data, and key input data is obtained from the input data section 10B of the own terminal.
  • the user's own terminal's expression and emotion are analyzed (ST95). For example, when a user's crying face is photographed, an analysis result of "crying" is obtained.
  • an action data DB corresponding to the facial expressions and emotions of the own terminal user is generated from the analysis result (ST96). Then, the generated operation data DB is transmitted to the partner videophone 4 (ST97). After transmitting the operation data DB, the reception of the operation data DA from the other party's videophone device 4 is started (ST98).
  • FIG. 15 is a flowchart showing the operation of the operation matching unit 18B.
  • the operation matching unit 18B starts processing for taking in the operation data DB generated by the operation data generation unit 17B (ST110), and determines whether there is an operation data DB (ST111). If there is no operation data DB input ("NO" in ST111), change to the default operation data DB (ST112). On the other hand, when the operation data DB is input (in the case of “Yes” in ST111), the input operation data DB is transmitted to the other videophone 4 (ST113). After transmitting the operation data DB, processing for receiving the operation data DA from the partner videophone 4 is started (ST114), and the presence or absence of the operation data DA is determined (ST115). If the operation data DA cannot be obtained (“NO” in ST115), the operation data DA is changed to the default operation data DA (ST116).
  • the combination priority of motion data DB and DA is determined (ST117).
  • the priority is given to the mutual operation, and in the case of the mutual operations, for example, the one obtained earlier in time is selected.
  • the time is set between the videophone device 5 and the videophone device 4 when communication is first started.
  • the operation data DB and DA are changed according to the priority (ST118).
  • the operation data DB is "crying" and the operation data DA is "jumping"
  • the operation data DA which is an interoperation is given priority, whereby the operation data DB of "crying" becomes the operation data of "blowing off”. Be changed.
  • the operation data DB and DA they are output (ST119).
  • FIG. 16 is a schematic configuration diagram of a videophone system for explaining Embodiment 3 of the present invention.
  • the videophone system shown in FIG. 16 has a communication function and a communication partner terminal is installed. It is equipped with videophone devices 6 and 7, which have the same functions as those described above and have the same terminal capabilities as each other.
  • the same reference numerals are given to parts common to the respective parts in FIG. 1, and the video telephone device 6 further includes an image processing data storage unit 20 instead of the character data storage unit 15 of the video telephone device 1.
  • the image processing determining unit 21 in place of the motion data generating unit 17 and the motion matching unit 22 in place of the motion matching unit 18 are provided. “A” is attached to the 6 side, and “B” is attached to the videophone unit 7 side.
  • a display image and a transmission image to be created are processed images based on a camera input image instead of a character.
  • the videophone image is composed of images from both the videophone devices 6 and 7, and all the display data combining processing is performed only by the videophone device 6. Alternatively, all the display data combining processing may be performed only by the videophone device 7.
  • FIG. 17 is a diagram showing an example of a camera image taken by the videophone devices 6 and 7.
  • FIG. 17A is a camera image PIA of a user of the videophone device 6, and
  • FIG. 17B is a camera image PIB of a user of the videophone device 7.
  • FIG. 18 is a diagram illustrating an example of an operation table used by the image processing determination unit 21 and the image processing matching unit 22.
  • the image processing determination unit 21 refers to the table shown in FIG. 18 on the basis of the analysis result of the facial expression 'emotion analysis unit 16 and expresses the expressions and emotions of the user of the videophone device 6 and the user of the videophone device 7. Generate the corresponding image processing data.
  • Fig. 18 (a) shows the single processing table TD on the videophone device 6 side
  • Fig. 18 (b) shows the single processing table TE on the videophone device 2 side.
  • Shows a set of FIG. 18 (c) is an interactive operation table TF of the videophone devices 6 and 7, which shows a set of image processing data that affects the partner image.
  • the image processing determination unit 21 When the input data IA of the videophone device 6 indicates a single process, the image processing determination unit 21 generates the single process table TD color image data DPA and outputs the input data of the videophone device 7. If IB indicates single machining, single machining table TE Cara image data DP B is generated, and when the input data IA of the videophone device 6 indicates the mutual operation, the image data DAP is generated from the mutual processing table TF, and the input data IB of the videophone device 7 indicates the mutual operation. Generates the data table DPB
  • the following image processing data is generated.
  • the image processing determining unit 21 stores the generated image processing data DPA and DPB in the image processing data storage unit 20.
  • the image processing data matching unit 22 determines the image processing data DPA of the videophone device 6 and the image processing data of the videophone device 7 which are determined by the image processing determination unit 21 and stored in the image processing data storage unit 20. Match image processing methods with DPB. For example, when the image processing data of the video telephone device 6 is “enlarged”, the image processed data of the video telephone device 7 is “reduced”.
  • the image map matching unit 22 performs the following four operations according to the combination of the image map data.
  • both the image data DPA and the image data DPB are the data of the independent processing tables TD and TE, the image data DPA and the image data DPB are output as they are.
  • the image processing data DPA is the data of the single processing table TD and the image processing data DPB is the data of the mutual processing table TF
  • the image processing data DPB is prioritized.
  • the image processing data DPB outputs main operation data in the mutual processing table TF
  • the image calorie data DPA outputs receiving operation data corresponding to the main operation data in the mutual processing table TF. For example, the image of the user of the videophone device 6 is enlarged, Image of the user is reduced.
  • the image processing data DPA is data of the mutual processing table TF and the image processing data DPB is data of the single processing table TE.
  • the image of the user of the videophone device 6 is enlarged, and the image of the user of the videophone device 7 is reduced.
  • both the image processing data DPA and the image processing data DPB are data of the mutual processing table TF
  • the image processing data determined earlier also has priority in terms of time information, and the higher-level mutual processing table is used.
  • FIG. 19 is a diagram showing an outline of the operation of the image matching unit 22 in the case of the above (2).
  • the image processing data DPA is “heart”
  • the image processing data DPB is “cancer”
  • the image processing data DPB which is an interactive operation, has priority.
  • “Heart” image data DPA is “Tankobu” image processing data DPA
  • the display image generation unit 13 A includes the camera image and image processing data of the videophone device 6 and the camera image and image processing of the videophone device 7 that have been matched by the image adjustment unit 22. Generate display data from data.
  • the display data generated by the display image generation unit 13A is input to the videophone display unit 14A, and an image based on the display data is displayed.
  • the data transmission unit 11A transmits the display data generated by the display image generation unit 13A to the television telephone device 7.
  • the videophone device 7 receives the display data transmitted from the data transmission unit 11A of the videophone device 6, and displays it on the videophone display unit 14B.
  • FIG. 20 is a flowchart showing the operation of the videophone device 6.
  • videophone device 6 starts a call with videophone device 7 (ST130).
  • the input data IA is obtained from the input data section 10A (ST131). That is, at least one of video data, audio data, and key input data is acquired.
  • the expression and emotion of the user of the videophone device 6 are analyzed from the acquired input data IA (ST 132). For example, when the laughing face of the user of the videophone device 6 is photographed, an analysis result of “laughing” is obtained.
  • reception of input data IB from videophone device 7 is started (ST133).
  • the expression and emotion of the user of the video telephone 7 are analyzed from the input data IB (ST134). For example, if a crying face of the user of the videophone device 7 is captured, “cry” is obtained, and an analysis result is obtained.
  • Analysis result power of input data IA The image data DPA is determined (ST135), and the analysis result power of the input data IB is also determined the image data DPB (ST136).
  • FIG. 21 is a flowchart showing the operation of the image matching unit 22.
  • the image processing matching unit 22 receives the input of the image data DPA (ST150), and determines the presence or absence of the image data DPA (ST151). If there is no image processing data DPA ("NO" in ST151), the image processing data DPA is changed to the default image processing data DPA (ST152). On the other hand, if the image data DPA is present (if “YES” in ST151), the input of the image data DPB is received (ST153), and the presence or absence of the image data DPB is determined (ST154). If there is no image data DPB (ST154 "None"), the image processing data DPB is changed to the default image data DPB (ST155).
  • the image processing data DPA and DPB are changed according to the priority (ST157). That is, as described above, when the image data DPA is “heart” and the image data DPB is “canada”, the interactive image data DPB that is an interoperation is given priority, thereby The heart image data DPA is changed to the “Tankob” image data. After changing the image processing data DPA and DPB, they are output (ST158).
  • FIG. 22 is a flowchart showing the operation of the videophone device 7.
  • videophone device 7 starts a call with videophone device 6 (ST160).
  • the input data IB is obtained from the input data section 10B (ST161). That is, at least one of video data, audio data, and key input data is acquired.
  • the obtained input data IB is transmitted to the videophone device 6 (ST162).
  • the display image data after the image processing is received (ST163).
  • the display image data transmitted from the videophone device 6 can be received, it is displayed on the videophone display unit 14B (ST164).
  • ST164 the processes from ST161 to ST165 are repeated, and when the call ends (Yes in ST165), the process ends.
  • the present invention provides a terminal for a communication partner terminal by generating data for executing a function mounted on the terminal itself and data for executing a function mounted on the communication partner terminal. Even if the capability is lower than that of the terminal, it has the effect of allowing the partner terminal to execute the function of the level requested by the terminal itself, has a communication function, and is common to the functions installed in the partner terminal.
  • the present invention is useful for a communication terminal having the above function and a communication method thereof.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 本発明は、自端末が要求するレベルの機能を通信相手端末に実行させることができる通信端末を提供することを目的とする。  本発明の通信端末は、通信機能を有し、テレビ電話装置2が搭載する機能と共通の機能を搭載するテレビ電話装置1であって、テレビ電話装置1が搭載する機能を実行させる為のデータ及びテレビ電話装置2が搭載する機能を実行させる為のデータを生成する表示画像生成部13Aと、テレビ電話装置2が搭載する機能を実行させる為のデータを送信するデータ送信部11Aと、を備える。

Description

明 細 書
通信端末及び通信方法
技術分野
[0001] 本発明は、通信機能を有し、通信相手端末が搭載する機能と共通の機能を搭載す る通信端末及びその通信方法に関する。
背景技術
[0002] 従来、ユーザを撮影した映像に代わってアバターと呼ばれるキャラクタを通信相手 端末に送る機能を持たせたテレビ電話装置が開発されている (例えば、特許文献 1 参照)。
[0003] 特許文献 1 :特開 2003— 109036号公報 (第 3頁、第 4頁、第 2図)
発明の開示
発明が解決しょうとする課題
[0004] し力しながら、従来のテレビ電話装置においては、全てのテレビ電話装置が同一の 処理能力を有しているとは限らず、処理能力に差のあるテレビ電話装置同士間で通 信を行う場合には、処理能力の低いテレビ電話装置に合わせることになり、これらの テレビ電話装置間で処理がスムーズに 、かな 、と 、う問題がある。
[0005] 本発明は、上記事情に鑑みてなされたものであり、自端末が要求するレベルの機 能を通信相手端末に実行させることができる通信端末及び通信方法を提供すること を目的とする。
課題を解決するための手段
[0006] 本発明の通信端末は、通信機能を有し、通信相手端末が搭載する機能と共通の機 能を搭載する通信端末であって、自端末が搭載する機能を実行させる為のデータ及 び通信相手端末が搭載する機能を実行させる為のデータを生成するデータ生成手 段と、前記通信相手端末が搭載する機能を実行させる為のデータを送信する送信手 段と、を備える。
[0007] 上記構成によれば、自端末が搭載する機能を実行させる為のデータ及び通信相手 端末が搭載する機能を実行させる為のデータを生成するデータ生成手段を備えるこ とにより、通信相手端末の端末能力が自端末より低い場合であっても、自端末が要 求するレベルの機能を通信相手端末に実行させることができる。
[0008] また、本発明の通信端末は、テレビ電話機能を有し、入力されたデータを解析する 入力データ解析手段と、解析結果に基づいて、自端末側のデータと通信相手端末 側のデータとを整合させたデータを前記生成手段に出力するデータ整合手段と、を 有する。また、本発明の通信端末は、入力されたデータとして、画像データ、音声デ ータ及びキー入力データ力 選択した少なくとも 1つのデータを前記入力データ解析 手段へ入力する入力手段を備える。上記構成によれば、入力されたデータを解析す る入力データ解析手段を備えることにより、入力されたデータを反映したデータを生 成できる。
[0009] さらに、本発明の通信方法は、通信機能を有し、通信相手端末が搭載する機能と 共通の機能を搭載する通信端末の通信方法であって、自端末が搭載する機能を実 行させる為のデータ及び通信相手端末が搭載する機能を実行させる為のデータを 生成し、前記通信相手端末が搭載する機能を実行させる為のデータを送信する。 発明の効果
[0010] 本発明によれば、自端末が搭載する機能を実行させる為のデータ及び通信相手端 末が搭載する機能を実行させる為のデータを生成することにより、通信相手端末の 端末能力が自端末より低い場合であっても、自端末が要求するレベルの機能を通信 相手端末に実行させることができる。
図面の簡単な説明
[0011] [図 1]本発明の実施の形態 1を説明するためのテレビ電話システムの概略構成図 [図 2]表情'感情解析部 16における顔認識処理を示す図
[図 3]表情'感情解析部 16における顔認識処理を示す図
[図 4]動作データ生成部 17及び動作整合部 18が使用する動作テーブルの一例を示 す図
[図 5]動作整合部 18の動作概要を示す図(1)
[図 6]動作整合部 18の動作概要を示す図(2)
[図 7]動作整合部 18の動作概要を示す図(3) [図 8]テレビ電話装置 1の動作を示すフローチャート
[図 9]動作整合部 18の動作を示すフローチャート
[図 10]テレビ電話装置 2の動作を示すフローチャート
[図 11]本発明の実施の形態 2を説明するためのテレビ電話システムの概略構成図 [図 12]テレビ電話装置 4の動作を示すフローチャート
[図 13]動作整合部 18Aの動作を示すフローチャート
[図 14]テレビ電話装置 5の動作を示すフローチャート
[図 15]動作整合部 18Bの動作を示すフローチャート
[図 16]本発明の実施の形態 3を説明するためのテレビ電話システムの概略構成図 [図 17]テレビ電話装置 6とテレビ電話装置 7で撮影された画像を示す図
[図 18]画像カ卩工決定部 21及び画像カ卩工整合部 22が使用する動作テーブルの一例 を示す図
[図 19]画像加工整合部 22の動作概要を示す図
[図 20]テレビ電話装置 6の動作を示すフローチャート
[図 21]動作整合部 18Aの動作を示すフローチャート
[図 22]テレビ電話装置 7の動作を示すフローチャート
符号の説明
1、 2、 4、 5、 6、 7 テレビ電話装置
3 ネットワーク
10A、 10B 入力データ部
11A、 11B データ送信部
12A、 12B データ受信部
13A、 13B 表示画像生成部
14A、 14B テレビ電話表示部
15、 15A、 15B キャラクタデータ格納部
16A、 16B 表情,感情解析部
17、 17A、 17B 動作データ生成部
18、 18A、 18B 動作整合部 19A、 19B キャラクタデータ保存部
20 画像加工データ格納部
21 画像加工決定部
22 画像加工整合部
発明を実施するための最良の形態
[0013] (実施の形態 1)
図 1は、本発明の実施の形態 1を説明するためのテレビ電話システムの概略構成図 である。図 1に示すテレビ電話システムは、通信機能を有し、通信相手端末が搭載す る機能と共通の機能を搭載し、互いに端末能力が異なるテレビ電話装置 1及び 2を 備えており、ネットワーク 3を介して互いに通信可能に構成されている。テレビ電話装 置 1とテレビ電話装置 2との間の通信には例えば IP (インターネットプロトコル)が用い られる。本実施の形態では、テレビ電話装置 1の端末能力がテレビ電話装置 2の端 末能力よりも高い場合について説明する。なお、テレビ電話装置 1は、テレビ電話装 置 2と共通に用いられるキャラクタ(アバターと呼ばれるユーザの分身として使用され るキャラクタ)を生成する機能を有し、テレビ電話装置 2との通話中にユーザの顔画像 の代りにキャラクタを表示するものとする。以下、テレビ電話装置 1とテレビ電話装置 2 に共通する部分には同一の数字を付し、さらにテレビ電話装置 1とテレビ電話装置 2 を区別するために、テレビ電話装置 1には「A」を、テレビ電話装置 2には「B」を付カロ することとする。
[0014] テレビ電話装置 1及び 2は、入力データ部 10A、 10B、データ送信部 11A、 11B、 データ受信部 12A、 12B、表示画像生成部 13A、 13B、テレビ電話表示部 14A、 1 4Bを共通して有する。テレビ電話装置 1は、更にキャラクタデータ格納部 15、表情- 感情解析部 16、動作データ生成部 17、動作整合部 18を有している。テレビ電話装 置 1の表示画像生成部 13Aは、テレビ電話装置 1 (自端末)が搭載する機能を実行さ せる為のデータ及びテレビ電話装置 2 (通信相手端末)が搭載する機能を実行させる 為のデータを生成し、データ送信部 11 Aは、テレビ電話装置 2が搭載する機能を実 行させる為のデータを送信する。また、テレビ電話装置 1の表情'感情解析部 16は、 入力されたデータを解析し、動作データ生成部 17は、解析結果に基づいて、テレビ 電話装置 1側のデータとテレビ電話装置 2側のデータとを整合させたデータを表示画 像生成部 13Aに出力する。また、テレビ電話装置 1の入力データ部 10Aは、入力さ れたデータとして、画像データ、音声データ及びキー入力データ力 選択した少なく とも 1つのデータを表情 ·感情解析部 16へ入力する。
[0015] 入力データ部 10A及び 10Bは、カメラ、マイク、キー入力部(いずれも図示略)など 各種入力手段と接続され、ユーザの表情、感情、動作を表す情報 (ユーザ情報)の 取得に使用される。テレビ電話装置 2の入力データ部 10Bは、入力されたデータとし て、画像データ、音声データ及びキー入力データ力 選択した少なくとも 1つのデー タを、データ送信部 11B及びデータ受信部 12Aを介して、表情'感情解析部 16へ入 力する。データ送信部 11Aは、テレビ電話装置 2に表示させる画像データを送信す る。データ送信部 11Bは、テレビ電話装置 2のユーザの表情や感情を表す情報をテ レビ電話装置 1に送信する。データ受信部 12Aは、テレビ電話装置 2から送信される テレビ電話装置 2のユーザの表情や感情を表す情報を受信する。データ受信部 12B は、テレビ電話装置 1から送信される画像データを受信する。
[0016] 表示画像生成部 13Aは、入力データ部 10Aからの入力データ及び入力データ部 10Bからの入力データに基づいて、テレビ電話表示部 14Aに表示させる画像及びテ レビ電話表示部 14Bに表示させる画像を生成する。また、表示画像生成部 13Aは、 生成した、テレビ電話表示部 14Bに表示させる画像データをデータ送信部 11 Aに渡 す。
[0017] 表示画像生成部 13Bは、データ受信部 12Bを介して取得した、表示画像生成部 1 3Aで生成された画像データから表示画像を生成する。なお、表示画像生成部 13B は、取得した画像データを加工せずにテレビ電話表示部 14Bにそのまま表示させて もよい。テレビ電話表示部 14Aは、液晶ディスプレイを有し、表示画像生成部 13Aで 生成された画像を表示する。テレビ電話表示部 14Bは、液晶ディスプレイを有し、表 示画像生成部 13Bで生成された画像を表示する。キャラクタデータ格納部 15には、 キャラクタ画像を作成するためのデータが格納されている。キャラクタデータは、テレ ビ電話装置 1及び 2にキャラクタを表示するための画像データであり、動作データ生 成部 17で生成される動作データに対応して複数個用意されている。なお、本実施の 形態では 2種類のキャラクタを表示可能として 、る。
[0018] 表情'感情解析部 16は、入力データ部 10Aからの映像データ、音声データ又はキ 一入力データを基にテレビ電話装置 1のユーザの表情、感情を解析する。また、表 情'感情解析部 16は、テレビ電話装置 2からの映像データ、音声データ又はキー入 力データを基にテレビ電話装置 2のユーザの表情、感情を解析する。表情'感情解 析部 16は、ユーザの顔画像が入力されている場合に顔画像を解析し、笑っている、 怒って 、る等の表情や感情を検知する。
[0019] 表情'感情を検知する方法としては、例えば周期的に取得する映像入力データから 、顔認識処理を行い、検出した眉'目 ·口等の各顔部位の特徴点座標の平均値を求 め、平均表情特徴点座標とする。そして、今回取得した映像入力データによって顔 認識処理を行った眉'目 ·口等の各顔部位の特徴点座標と平均表情特徴点座標とを 比較し、各顔部位の変化が特定の条件を満たした場合、「笑う」 ·「驚く」 ·「悲しむ」等 の表情'感情を検知する。図 2は、「笑う」 '「驚く」'「悲しむ」の場合の顔認識処理を模 式的に示した図である。この図において、 "□"は顔認識処理による検出点を示し、眉 •目 ·口それぞれに複数個設定される。図 2 (a)は、フレーム毎の顔認識処理による平 均表情特徴点座標を示している。図 2 (b)は「笑う」の場合の表情特徴点座標、図 2 (c )は「驚く」の場合の表情特徴点座標、図 2 (d)は「悲しむ」の場合の表情特徴点座標 をそれぞれ示している。
[0020] 「笑う」の場合は、眉両端が上方向に閾値 W3以上変化し、目下端が上方向に閾値 W2以上変化し、口両端が上方向に閾値 W1以上変化するという 3つの条件全て満 たす。「驚く」の場合は、眉両端が上方向に閾値 Ol以上変化し、目上下幅が閾値 O 2以上増加し、口上下幅が閾値 Ol以上増加するという 3つの条件を全て満たす。「悲 しむ」の場合は、眉両端が下方向に閾値 N1以上変化し、目上下幅が閾値 N2以上 減少し、口両端が下方向に閾値 N3以上変化するという 3つの条件を全て満たす。
[0021] また、表情'感情解析部 16は、一定時間の顔の動きを検出することにより、「首を振 る」 ·「頷く」等の動作を検知する。図 3は、「首を振る」 ·「頷く」の場合の顔認識処理を 模式的に示した図である。この図において、上記同様に、 "□"は顔認識処理による 検出点を示し、眉 ·目 ·口それぞれに複数個設定される。図 3 (a)は「首を振る」の場 合の表情特徴点座標の変化、図 3 (b)は「頷く」の場合の表情特徴点座標の変化を それぞれ示している。「首を振る」の場合は、表情特徴点座標が顔中心より横方向に 閾値 K1以上変化、顔中心より反対方向に閾値 K2以上変化するという 2つの条件を 満たす。「頷く」の場合は、表情特徴点座標が顔中心より下方向に閾値 U1以上変化 、顔中心より上方向に閾値 U2以上変化するという 2つの条件を満たす。
[0022] また、表情 ·感情解析部 16は、キー入力データを解析し、各キーに対応付けられた 表情'感情を検知する。ここで、キー操作部(図示略)の各キーには様々な表情、感 情が対応付けされており、ユーザが通話中に自分の表情、感情に合致するキーを操 作 (押下)することで、表情 ·感情解析部 16は、表情 ·感情を検知し、表情 '感情に対 応する動作を決定する。例えば「怒る」という表情'感情が「1」のキーに対応付けられ ており、ユーザが当該キーを押下することで「怒る」という動作が確定される。また、「 笑う」という表情'感情が「2」のキーに対応付けられており、ユーザが当該キーを押下 することで「笑う」が確定される。また、「驚く」という表情'感情が「3」のキーに対応付 けられており、ユーザが当該キーを押下することで「驚く」が確定される。また、「怯え る」という表情'感情力 s「4」のキーに対応付けられており、ユーザが当該キーを押下す ることで「怯える」が確定される。
[0023] また、「手を上げる」という動作が「5」のキーに対応付けられており、ユーザが当該キ 一を押下することで、「手を上げる」という動作が確定される。また、「突き飛ばす」とい う動作が「6」のキーに対応付けられており、ユーザが当該キーを押下することで、「突 き飛ばす」という動作が確定される。また、「攻撃する」という動作が「7」のキーに対応 付けられており、ユーザが当該キーを押下することで、「攻撃する」という動作が確定 される。また、「手をつなぐ」という動作が「8」のキーに対応付けられており、ユーザが 当該キーを押下することで、「手をつなぐ」という動作が確定される。また、「抱きつく」 という動作が「9」のキーに対応付けられており、ユーザが当該キーを押下することで、 「抱きつく」 t 、う動作が確定される。
[0024] 上述した顔認識処理により検知した表情 '感情から、表情 ·感情変換処理により単 独動作テーブルまたは相互動作テーブルに対応づけられ、キャラクタの「笑う」、「驚 く」、「悲しむ」、「首を振る」、「頷く」、「手をつなぐ」「抱きつく」という動作が確定される [0025] また、表情'感情解析部 16は、音声データを解析してユーザが大声を出した等の 感情を検知する。感情を検知する方法としては、例えば音声入力データのリズムが速 くなり、音が大きくなつた場合「笑う」、リズムがそのままで、音が大きくなつた場合「驚く 」、リズムが遅ぐ音が小さくなつた場合「悲しむ」といったようにリズム ·音の大小の変 ィ匕からユーザの感情を検知する。検知した感情から、表情'感情変換処理により単独 動作テーブルまたは相互動作テーブルに対応づけられ、キャラクタの「笑う」「驚く」、 「悲しむ」、「手をつなぐ」「抱きつく」という動作が確定される。
[0026] このように、表情'感情解析部 14は、映像データ、音声データ、キー入力データを 基にユーザの表情、感情を解析する。そして、解析した結果を動作データ生成部 17 に入力する。なお、映像データ、音声データ、キー入力データの全てを必要とするこ とはなぐそのうちの 1つでも構わない。
[0027] 図 4は、動作データ生成部 17及び動作整合部 18が使用する動作テーブルの一例 を示す図である。動作データ生成部 17は、表情'感情解析部 16の解析結果に基づ いて、図 4に示すテーブルを参照して、テレビ電話装置 1のユーザとテレビ電話装置 2のユーザそれぞれの表情、感情に応じた動作データを生成する。図 4 (a)はテレビ 電話装置 1側の単独動作テーブル TAであり、キャラクタ Ca単独の動作データの集 合を示す。図 4 (b)はテレビ電話装置 2側の単独動作テーブル TBであり、キャラクタ C b単独の動作データの集合を示す。図 4 (c)はテレビ電話装置 1及び 2の相互動作テ 一ブル TCであり、相手のキャラクタ Ca又は Cbに影響を与える動作データの集合を 示す。
[0028] 動作データ生成部 17は、テレビ電話装置 1の入力データ IAが単独動作を示す場 合は単独動作テーブル TAから動作データ DAを生成し、テレビ電話装置 2の入力デ ータ IBが単独動作を示す場合は単独動作テーブル TBカゝら動作データ DBを生成し 、テレビ電話装置 1の入力データ IAが相互動作を示す場合は相互動作テーブル TC 力 動作データ DAを生成し、テレビ電話装置 2の入力データ IBが相互動作を示す 場合は相互動作テーブル TC力も動作データ DBを生成する。
[0029] ここで、一例として、テレビ電話装置 1にお 、て、入力データ IAとして映像データが 入力された場合の映像データと動作データ DAとの関係を図 5に示す。この場合、テ レビ電話装置 1の動作であるので、図 5 (a) (図 4 (a) )の単独動作テーブル TAと図 5 ( c) (図 4 (c) )の相互動作テーブル TCが使用される。また、図 5 (d)は、表情 ·感情解 析部 16が使用する表情'感情解析テーブルの一例を示す図である。この表情'感情 解析テーブルには、表情'感情解析部 16が解析した結果が一時的に保持される。
[0030] (1)テレビ電話装置 1の入力データ IAが「笑う」という感情を示す映像データである場 合、「笑う」という動作データ DAが生成される。
(2)テレビ電話装置 1の入力データ IAが「悲しむ」 t 、う感情を示す映像データであ る場合、「泣く」という動作データ DAが生成される。
(3)テレビ電話装置 1の入力データ IAが「驚く」という感情を示す映像データである場 合、「驚く」という動作データ DAが生成される。
(4)テレビ電話装置 1の入力データ IAが「怒り」という動作を示す映像データである場 合、「攻撃する」 t 、う動作データ DAが生成される。
(5)テレビ電話装置 1の入力データ IAが「首を振る」 t 、う動作を示す映像データで ある場合、「突き飛ばす」という動作データ DAが生成される。
(6)テレビ電話装置 1の入力データ IAが「頷く」 t 、う動作を示す映像データである場 合、「手をつなぐ」という動作データ DAが生成される。
[0031] また、テレビ電話装置 1において、入力データ IAとして音声データが入力された場 合の音声データと動作データ DAとの関係を図 6に示す。この場合もテレビ電話装置 1の動作であるので、図 6 (a) (図 4 (a) )の単独動作テーブル TAと図 6 (c) (図 4 (c) ) の相互動作テーブル TCが使用される。
[0032] (1)テレビ電話装置 1の入力データ IAが「笑う」という感情を示す音声データである場 合、「笑う」という動作データ DAが生成される。
(2)テレビ電話装置 1の入力データ IAが「悲しむ」という感情を示す音声データであ る場合、「泣く」という動作データ DAが生成される。
(3)テレビ電話装置 1の入力データ IAが「驚く」という感情を示す音声データである場 合、「驚く」という動作データ DAが生成される。
(4)テレビ電話装置 1の入力データ IAが「怒る」という感情を示す音声データである 場合、「攻撃する」という動作データ DAが生成される。
(5)テレビ電話装置 1の入力データ IAが「大声を出す」という感情を示す音声データ である場合、「突き飛ばす」という動作データ DAが生成される。
(6)テレビ電話装置 1の入力データ IAが「無言」という感情を示す音声データである 場合、「怯える」という動作データ DAが生成される。
[0033] 上記の例は、テレビ電話装置 1についてあった力 テレビ電話装置 2においても、入 力データ IBが映像、音声を問わず同様である。つまり、テレビ電話装置 1の入力デー タ IAが入力データ IBに置き換わり、動作データ DAが動作データ DBに置き換わる。 また、当然ながらテレビ電話装置 2の場合は、図 4 (b)の単独動作テーブル TBと図 4 (c)相互動作テーブル TCが使用される。
[0034] 動作データ生成部 17は、上述のようにして生成した動作データ DA、 DBを表示画 像生成部 13Aと動作整合部 18それぞれに入力する。動作整合部 18は、動作データ DA及び DBの整合をとるものであり、以下のように動作データ DA、 DBの整合を行う
(1)動作データ DA、動作データ DBが共に単独動作のデータの場合、そのまま動作 データ DAと動作データ DBを出力する(例:キャラクタ Caが「笑 、」、キャラクタ Cbが「 泣く」)
[0035] 図 7は、動作整合部の動作概要を示す図であり、 (2)に示す場合の動作整合部 18 の動作概要を示す。
(2)動作データ DAが単独動作のデータで、動作データ DBが相互動作のデータの 場合は、動作データ DBを優先させる。動作データ DBは相互動作テーブル TC内の 主動作データを出力し、動作データ DAは相互動作テーブル TC内の主動作データ に対応した受動作データを出力する(例:キャラクタ Cbが「突き飛ばす」と、キャラクタ Caが「吹き飛ぶ」)。図 7に示すように、動作整合される前は動作データ DAが「笑う」、 動作データ DBが「突き飛ばす」であり、相互動作である動作データ DBが優先される こと力ら、「笑う」の動作データ DAは「吹き飛ぶ」の動作データ になる。
(3)動作データ DAが相互動作のデータで、動作データ DBが単独動作のデータの 場合、 (2)の場合と同様である(例:キャラクタ Caが「突き飛ばす」と、キャラクタ Cbが「 吹き飛ぶ」)
(4)動作データ DA、動作データ DBが共に相互動作のデータである場合、例えば時 間的に早く取得された方を優先し、上位側の相互動作の動作データを出力する (例: 動作データ DAが優先された場合、キャラクタ Caが「攻撃する」と、キャラクタ Cbが「倒 れる」)
[0036] 動作データ生成部 17は、表情'感情解析部 16からの入力データが無い(映像デー タ、音声データ、キー入力データのいずれも入力されない)ときには、図 5及び図 6に 示すように、単独動作テーブル TA、 TBの「デフォルト動作」の動作データを生成す る。
[0037] 表示画像生成部 13Aは、動作データ生成部 17で生成された動作データ DA又は 動作データ DAを動作整合部 18で整合させた動作データ ϋΑΊこ対応するキャラクタ データをキャラクタデータ格納部 15から取得し、テレビ電話表示部 14Aに画像を表 示させる。また、動作データ生成部 17で生成されたテレビ電話装置 2用の動作デー タ DB又は動作データ DBを動作整合部 18で整合させた動作データ ϋΒΊこ対応する キャラクタデータをキャラクタデータ格納部 15から取得し、データ送信部 11 Αからテ レビ電話装置 2に送信する。
[0038] テレビ電話表示部 14Aには、例えば「突き飛ばす」という相互動作の動作データ D Aと、「笑う」、「泣く」、「驚く」又は「怯える」という単独動作の動作データ DBとが生成 された場合、動作データ DAによる表示即ち図 1に示すように、テレビ電話装置 1のキ ャラクタ Caがテレビ電話装置 2のキャラクタ Cbを突き飛ばしているキャラクタ画像が表 示され、他方のテレビ電話表示部 14Bには、整合された動作データ ϋΒΊこよる表示 即ち図 1に示すようにテレビ電話装置 2のキャラクタ Cbがテレビ電話装置 1のキャラク タ Caによって突き飛ばされているキャラクタ画像が表示される。
[0039] なお、図 1のテレビ電話表示部 14Aとテレビ電話表示部 14Bに表示されるキャラク タ画像は、動作データ DBが相互動作の動作データで、かつその発生タイミングが動 作データ DAより後である場合も同様になる。但し、時間の前後で優先を決定しない 場合はこの限りではない。
[0040] 図 8は、テレビ電話装置 1の動作を示すフローチャートである。まず、テレビ電話装 置 1は、テレビ電話装置 2との間で通話を開始する(ST10)。テレビ電話装置 2と通話 を開始すると、入力データ部 10Aから入力データ IAを取得する(ST11)。すなわち、 映像データ、音声データ、キー入力データの少なくとも 1つを取得する。次いで、取 得した入力データ IAからテレビ電話装置 1のユーザの表情、感情を解析する(ST12 )。例えば、テレビ電話装置 1のユーザの笑い顔を撮影すると、「笑う」という解析結果 を得る。
[0041] 入力データ IAから表情、感情を解析した後、テレビ電話装置 2からの入力データ IB の受信を開始する(ST13)。テレビ電話装置 2から送信された入力データ IBを受信 すると、入力データ IBからテレビ電話装置 2のユーザの表情、感情を解析する(ST1 4)。例えば、テレビ電話装置 2のユーザの泣いた顔を取り込んだとすると、「泣く」とい う解析結果を得る。入力データ IAの解析結果力 動作データ DAを生成し (ST15)、 続けて入力データ IBの解析結果から動作データ DBを生成する(ST16)。
[0042] 動作データ DA及び DBを生成した後、これらのうち 1つでも相互動作であれば、整 合を行う(ST17)。 2つとも相互動作であれば、時間的に先に発生した入力データに よる動作データが主動作となるように整合を行う。動作データ DA及び DBの整合を行 つた後、テレビ電話表示部 14A及び 14Bに表示するキャラクタの表示画像を生成す る(ST18)。そして、テレビ電話装置 2用のキャラクタの表示画像データをテレビ電話 装置 2に送信する(ST19)。テレビ電話装置 2にキャラクタの表示画像データを送信 した後、テレビ電話装置 1用のキャラクタの表示画像をテレビ電話表示部 14Aに表示 する(ST20)。通話中は(ST21の Noの場合)、上記 ST11から ST20までの処理を 繰り返し行い、通話が終了すると(ST21の Yesの場合)、処理を終了する。
[0043] 図 9は、動作整合部 18の動作を示すフローチャートである。まず、動作整合部 18は 、動作データ DAの入力を受け(ST20)、動作データ DAの有無を判定する(ST21) 。動作データ DAが無 、場合(ST21の「無し」 )は動作データ DAをデフォルトの動作 データ DAに変更する(ST22)。これに対して、動作データ DAが有る場合(ST21の 「有り」の場合)は動作データ DBの入力を受け(ST23)、動作データ DBの有無を判 定する(ST24)。動作データ DBが無 、場合 (ST24の「無し」の場合)は、動作デー タ DBをデフォルトの動作データ DBに変更する(ST25)。 [0044] これに対して、動作データ DBが有る場合 (ST214「有り」の場合)は、動作データ D A、 DBの組み合わせ優先順位を決定する(ST26)。この場合、単独動作と相互動作 の場合は相互動作の方が優先され、相互動作同士の場合は例えば入力データが取 得された時間の早い方が選択される。動作データ DA、 DBの組み合わせ優先順位 を決定した後、その優先順位に従って動作データ DA、 DBを変更する(ST27)。す なわち、上述したように、動作データ DAが「笑う」、動作データ DBが「突き飛ばす」の 場合、相互動作である動作データ DBが優先され、これによつて「笑う」の動作データ DAが「吹き飛ぶ」の動作データ ϋΑΊこ変更される。動作データ DA、 DBの変更後、 これらを出力する(ST28)。
[0045] 図 10は、テレビ電話装置 2の動作を示すフローチャートである。まず、テレビ電話装 置 2は、テレビ電話装置 1との間で通話を開始する(ST40)。テレビ電話装置 1と通話 を開始すると、入力データ部 10B力も入力データ IBを取得する(ST41)。すなわち、 映像データ、音声データ、キー入力データの少なくとも 1つを取得する。次いで、取 得した入力データ IBをテレビ電話装置 1に送信する(ST42)。入力データ IBをテレビ 電話装置 1に送信した後、キャラクタの表示画像データの受信を行う(ST43)。テレビ 電話装置 1から送信されたキャラクタの表示画像データを受信できると、テレビ電話 表示部 14Bにキャラクタの表示画像を表示する(ST44)。通話中は(ST45の Noの 場合)、上記 ST41から ST45までの処理を繰り返し行い、通話が終了すると(ST45 の Yesの場合)、処理を終了する。
[0046] このように、以上説明したテレビ電話システムによれば、テレビ電話装置 1が、自端 末で表示する画像データに加え、通信相手端末 (テレビ電話装置 2)に表示させる画 像データを生成し、テレビ電話装置 2に表示させる画像データをテレビ電話装置 2に 送信することにより、通信相手端末の端末能力が自端末より低い場合であっても、自 端末が要求するレベルの機能を通信相手端末に実行させることができる。
[0047] なお、以上の説明では、テレビ電話装置 1及び 2に表示させるキャラクタデータをテ レビ電話装置 1が有する場合について説明したが、通話開始時にテレビ電話装置 2 力もテレビ電話装置 1にキャラクタデータを送信してもよい。また、以上、動作に対応 する画像データをキャラクタデータ格納部 15から取得してテレビ電話装置 2に送信 する場合について説明したが、表示させる画像の基となるキャラクタデータを通話開 始時に送信し、通話中にはキャラクタの動作に相当する差分データのみを送信して もよい。これにより、従来のように通話中に画像データ全てを送信するのに比べてデ ータ通信量が低減できる。
[0048] なお、上記実施の形態では、単独動作として「笑う」、「泣く」、「驚く」、「怯える」、「怒 る」、「叫ぶ」、相互動作として「突き飛ばす」→「吹き飛ぶ」、「攻撃する」→「倒れる」、 「手をつなぐ」→「手をつなぐ」、「抱きつく」→「抱きつかれる」を例に挙げた画像、これ らに限定されるものではなぐ様々な例を挙げることができる。また、単独動作のデー タでも相互動作のデータとすることもできる。例えば、「叫ぶ」に対して「驚く」を相互動 作にすることができる。
[0049] また、上記実施の形態では、キー操作による動作の確定として、単にキーを操作 ( 押下)すると、そのキーに割り当てられた動作を確定するようにした力 キーの操作の 仕方 (例えば押下し続ける、断続的に押下する、強弱を付けて押下するなど)によつ ては新たな動作を確定できるようにしてもよ!、。
[0050] (実施の形態 2)
図 11は、本発明の実施の形態 2を説明するためのテレビ電話システムの概略構成 図である。図 11に示すテレビ電話システムは、通信機能を有し、通信相手端末が搭 載する機能と共通の機能を搭載し、互いに端末能力が同程度のテレビ電話装置 4及 び 5を備える。図 11では、図 1の各部と共通する部分に同一の符号を付けており、さ らに双方が共にキャラクタデータ格納部、表情 ·感情解析部、動作データ生成部、動 作整合部を備えているので、これらのブロックに付す符号には、テレビ電話装置 4側 には「A」を、テレビ電話装置 5側には「B」を付けている。また、テレビ電話装置 4及び 5は、通話開始時に互いのキャラクタデータの交換を行うので、互いに相手のキャラク タデータを保存するためのキャラクタデータ保存部 19A、 19Bを有して 、る。
[0051] 図 12は、テレビ電話装置 4の動作を示すフローチャートである。まず、テレビ電話装 置 4は、テレビ電話装置 5との間で通話を開始する(ST50)。テレビ電話装置 5と通話 を開始すると、キャラクタデータ格納部 15Aに格納しているキャラクタデータ CAをテ レビ電話装置 5に送信する(ST51)。キャラクタデータ CAの送信後、相手テレビ電話 装置 5から送信されるキャラクタデータ CBの受信を開始し (S52)、キャラクタデータ C Bが送信されてくると、それをキャラクタデータ保存部 19Aに格納する(ST53)。
[0052] キャラクタデータ CBを受信し保存した後、入力データ IAを取得する(ST54)。すな わち、自機の入力データ部 10Aから映像データ、音声データ、キー入力データを少 なくとも 1つ取得する。入力データ IAを取得すると、それから自機のユーザの表情、 感情を解析する(ST55)。例えばユーザの笑 ヽ顔を撮影した場合には「笑う」 t ヽぅ 解析結果を得る。自機ユーザの表情、感情を解析した後、その解析結果から自機ュ 一ザの表情、感情に応じた動作データ DAを生成する(ST56)。そして、生成した動 作データ DAを相手テレビ電話装置 5に送信する(ST57)。動作データ DAの送信後 、相手テレビ電話装置 5からの動作データ DBの受信を開始する(ST58)。
[0053] テレビ電話装置 5の動作データ DBを取得すると、その動作データ DBと自端末の 動作データ DAのうち 1つでも相互動作であれば整合を行う(ST59)。 2つとも相互動 作の場合は、例えば時間的に先に得られた方が主動作となるように整合を行う。この 整合処理の詳細にっ ヽては後述する。動作データ DA及び DBの整合を行った後、 動作データ DAを基にキャラクタの表示画像を生成して(ST60)、テレビ電話表示部 14Aに表示する(ST61)。通話中は(ST62の Noの場合)、上記 ST54から ST62ま での処理を繰り返し行い、通話が終了すると(ST62の Yesの場合)、処理を終了する
[0054] 図 13は、動作整合部 18Aの動作を示すフローチャートである。まず、動作整合部 1 8Aは、動作データ生成部 17Aで生成される動作データ DAを取り込むための処理を 開始し(ST70)、動作データ DAの有無を判定する(ST71)。動作データ DAの入力 が無 、場合(ST71の「無し」の場合)、デフォルトの動作データ DAに変更する(ST7 2)。これに対して、動作データ DAが入力された場合 (ST21の「有り」の場合)、入力 された動作データ DAを相手テレビ電話装置 5に送信する(ST73)。この動作データ DAの送信後、相手テレビ電話装置 5からの動作データ DBを受信するための処理を 開始し(ST74)、動作データ DBの有無を判定する(ST75)。動作データ DBが得ら れな力つた場合(ST76の「無し」 )は、デフォルトの動作データ DBに変更する(ST7 6)。 [0055] これに対して、動作データ DBが得られた場合(ST75の「有り」)は、動作データ DA 、 DBの組み合わせ優先順位を決定する(ST77)。この場合、単独動作と相互動作 の場合は相互動作の方を優先し、相互動作同士の場合は例えば時間的に先に得ら れた方が選択される。但し、時間で決定する場合は、最初に通信を開始したときにテ レビ電話装置 4とテレビ電話装置 5との間で時間合わせが行われる。
[0056] このようにして動作データ DA、 DBの組み合わせ優先順位を決定した後、その優 先順位に従って動作データ DA、 DBを変更する(ST78)。すなわち、上述したように 動作データ DA力 S「笑う」、動作データ DBが「突き飛ばす」の場合、相互動作である動 作データ DBが優先され、これによつて「笑う」の動作データ DAが「吹き飛ぶ」の動作 データ ϋΑΊこ変更される。動作データ DA及び DBの変更後、これらを出力する(ST 79)。
[0057] 図 14は、テレビ電話装置 5の動作を示すフローチャートである。まず、テレビ電話装 置 5は、テレビ電話装置 4との間で通話を開始する(ST90)。テレビ電話装置 4と通話 を開始すると、キャラクタデータ格納部 15Bに格納しているキャラクタデータ CBをテレ ビ電話装置 4に送信する(ST91)。キャラクタデータ CBの送信後、相手テレビ電話装 置 4から送信されるキャラクタデータ CAの受信を開始し(S92)、キャラクタデータ CA が送信されてくると、それをキャラクタデータ保存部 19Bに格納する(ST93)。
[0058] キャラクタデータ CAを受信し保存した後、入力データ IBを取得する(ST94)。すな わち、自端末の入力データ部 10Bから映像データ、音声データ、キー入力データを 少なくとも 1つ取得する。入力データ IBを取得すると、それから自端末のユーザの表 情、感情を解析する(ST95)。例えばユーザの泣き顔を撮影した場合には「泣く」とい う解析結果を得る。自端末ユーザの表情、感情を解析した後、その解析結果から自 端末ユーザの表情、感情に応じた動作データ DBを生成する(ST96)。そして、生成 した動作データ DBを相手テレビ電話装置 4に送信する(ST97)。動作データ DBの 送信後、相手テレビ電話装置 4からの動作データ DAの受信を開始する(ST98)。
[0059] 相手テレビ電話装置 4の動作データ DAを取得すると、その動作データ DAと自端 末の動作データ DBのうち 1つでも相互動作であれば整合を行う(ST99)。 2つとも相 互動作の場合は、例えば時間的に先に得られた方が主動作となるように整合を行う。 この整合処理の詳細にっ ヽては後述する。動作データ DB及び D Aの整合を行った 後、動作データ DBを基にキャラクタの表示画像を生成して(ST100)、テレビ電話表 示部 14Bに表示する(ST101)。通話中は(ST102の Noの場合)、上記 ST94から S T102までの処理を繰り返し行い、通話が終了すると(ST102の Yesの場合)、処理 を終了する。
[0060] 図 15は、動作整合部 18Bの動作を示すフローチャートである。まず、動作整合部 1 8Bは、動作データ生成部 17Bで生成される動作データ DBを取り込むための処理を 開始し(ST110)、動作データ DBの有無を判定する(ST111)。動作データ DBの入 力が無 、場合 (ST111の「無し」の場合)、デフォルトの動作データ DBに変更する(S T112)。これに対して、動作データ DBが入力された場合(ST111の「有り」の場合) 、入力された動作データ DBを相手テレビ電話装置 4に送信する(ST113)。この動 作データ DBの送信後、相手テレビ電話装置 4からの動作データ DAを受信するため の処理を開始し(ST114)、動作データ DAの有無を判定する(ST115)。動作デー タ DAが得られなかった場合(ST115の「無し」)は、デフォルトの動作データ DAに変 更する(ST116)。
[0061] これに対して、動作データ DAが得られた場合(ST115の「有り」)は、動作データ D B、 DAの組み合わせ優先順位を決定する(ST117)。この場合、単独動作と相互動 作の場合は相互動作の方を優先し、相互動作同士の場合は例えば時間的に先に得 られた方が選択される。但し、時間で決定する場合は、最初に通信を開始したときに テレビ電話装置 5とテレビ電話装置 4との間で時間合わせが行われる。
[0062] このようにして動作データ DB、 DAの組み合わせ優先順位を決定した後、その優 先順位に従って動作データ DB、 DAを変更する(ST118)。すなわち、動作データ D Bが「泣く」、動作データ DAが「突き飛ばす」の場合、相互動作である動作データ DA が優先され、これによつて「泣く」の動作データ DBが「吹き飛ぶ」の動作データ に 変更される。動作データ DB、 DAの変更後、これらを出力する(ST119)。
[0063] (実施の形態 3)
図 16は、本発明の実施の形態 3を説明するためのテレビ電話システムの概略構成 図である。図 16に示すテレビ電話システムは、通信機能を有し、通信相手端末が搭 載する機能と共通の機能を搭載し、互いに端末能力が同程度のテレビ電話装置 6及 び 7を備える。図 16では、図 1の各部と共通する部分に同一の符号を付けており、さ らにテレビ電話装置 6は、テレビ電話装置 1のキャラクタデータ格納部 15に代わる画 像加工データ格納部 20と、動作データ生成部 17に代わる画像加工決定部 21と、動 作整合部 18に代わる動作カ卩工整合部 22とを備えているので、これらのブロック〖こ付 す符号には、テレビ電話装置 6側には「A」を、テレビ電話装置 7側には「B」を付けて いる。
[0064] 本実施の形態は、作成する表示画像及び送信画像を、キャラクタではなくカメラ入 力画像を元にした加工画像として 、る。テレビ電話画像はテレビ電話装置 6及び 7の 双方の画像からなり、表示データの合成処理を全てテレビ電話装置 6のみで行う。な お、表示データの合成処理を全てテレビ電話装置 7のみで行うようにしても構わな ヽ 。図 17はテレビ電話装置 6及び 7で撮影されたカメラ画像の一例を示す図である。図 17 (a)はテレビ電話装置 6のユーザを撮影したカメラ画像 PIAであり、図 17 (b)はテ レビ電話装置 7のユーザを撮影したカメラ画像 PIBである。テレビ電話装置 6及び 7で 撮影されたこれらのカメラ画像 PIA、 PIBは、図 16に示すようにテレビ電話装置 6のテ レビ電話表示部 14Aとテレビ電話装置 7のテレビ電話表示部 14Bそれぞれに合成さ れた形で表示される。
[0065] 図 18は、画像加工決定部 21及び画像加工整合部 22が使用する動作テーブルの 一例を示す図である。画像加工決定部 21は、表情'感情解析部 16の解析結果に基 づいて、図 18に示すテーブルを参照して、テレビ電話装置 6のユーザとテレビ電話 装置 7のユーザそれぞれの表情、感情に応じた画像加工データを生成する。図 18 (a )はテレビ電話装置 6側の単独加工テーブル TD、図 18 (b)はテレビ電話装置 2側の 単独加工テーブル TEであり、それぞれ相手画像に影響を与えな!/ヽ画像加工データ の集合を示す。図 18 (c)はテレビ電話装置 6及び 7の相互動作テーブル TFであり、 相手画像に影響を与える画像加工データの集合を示す。
[0066] 画像加工決定部 21は、テレビ電話装置 6の入力データ IAが単独加工を示す場合 は単独加工テーブル TDカゝら画像カ卩ェデータ DP Aを生成し、テレビ電話装置 7の入 力データ IBが単独加工を示す場合は単独加工テーブル TEカゝら画像カ卩ェデータ DP Bを生成し、テレビ電話装置 6の入力データ IAが相互動作を示す場合は相互加工テ 一ブル TFから画像カ卩ェデータ DAPを生成し、テレビ電話装置 7の入力データ IBが 相互動作を示す場合は相互カ卩工テーブル TFカゝら画像カ卩ェデータ DPBを生成する
[0067] 一例として、以下の画像加工データを生成する。
(1)特定のキー入力があったら、カメラ画像に吹き出しを入れる画像加工データを生 成する。
(2)カメラ画像で顔が笑ったら、カメラ画像にハートマークを入れる画像加工データを 生成する。
(3)ユーザが大声を出したときに、カメラ画像を拡大する画像加工データを生成する 画像加工決定部 21は、生成した画像加工データ DPA及び DPBを画像加工デー タ格納部 20に格納する。
[0068] 画像カ卩工整合部 22は、画像加工決定部 21で決定されて画像加工データ格納部 2 0に格納されたテレビ電話装置 6の画像加工データ DPAとテレビ電話装置 7の画像 加工データ DPBとから画像加工方法の整合をとる。例えば、テレビ電話装置 6の画 像加工データが「拡大」のときに、テレビ電話装置 7の画像加工データが「縮小」にな る。
[0069] 画像カ卩工整合部 22は、画像カ卩ェデータの組み合わせにより、以下の 4通りの動作 を行う。
(1)画像カ卩ェデータ DPA、画像カ卩ェデータ DPBが共に単独加工テーブル TD、 TE のデータの場合は、そのまま画像カ卩ェデータ DPAと画像カ卩ェデータ DPBを出力す る。
(2)画像加工データ DPAが単独加工テーブル TDのデータで、画像加工データ DP Bが相互カ卩工テーブル TFのデータの場合は、画像加工データ DPBを優先させる。 画像加工データ DPBは、相互加工テーブル TF内の主動作データを出力し、画像カロ ェデータ DPAは相互カ卩工テーブル TF内の主動作データに対応した受動作データ を出力する。例えば、テレビ電話装置 6のユーザの画像が拡大し、テレビ電話装置 7 のユーザの画像が縮小する。
(3)画像加工データ DPAが相互加工テーブル TFのデータで、画像加工データ DP Bが単独加工テーブル TEのデータの場合も同様である。例えば、テレビ電話装置 6 のユーザの画像が拡大し、テレビ電話装置 7のユーザの画像が縮小する。
(4)画像加工データ DPA、画像加工データ DPBが共に相互加工テーブル TFのデ ータである場合には、時間情報力もより早く決定された画像加工データを優先し、上 位側の相互カ卩工テーブル TFのデータを出力する。
[0070] 図 19は、上記(2)の場合の画像カ卩工整合部 22の動作概要を示す図である。この 図に示すように、画像加工整合される前は画像加工データ DPAが「ハート」、画像加 ェデータ DPBが「カナヅチ」であり、相互動作である画像カ卩ェデータ DPBが優先さ れることから、「ハート」の画像カ卩ェデータ DPAは「タンコブ」の画像加工データ DPA
Ίこなる。
なお、有効な入力がされていない(画像、音声、キー入力のいずれか)ために、何も 画像加工データが選択されていない場合は、単独加工テーブル TD、 TEの「デフォ ルト」を出力する。
[0071] 図 16において、表示画像生成部 13Aは、画像カ卩工整合部 22にて整合がとられた テレビ電話装置 6のカメラ画像及び画像加工データとテレビ電話装置 7のカメラ画像 及び画像加工データから表示データを生成する。表示画像生成部 13Aで生成され た表示データはテレビ電話表示部 14Aに入力されて表示データに基づく画像が表 示される。データ送信部 11 Aは、表示画像生成部 13Aで生成された表示データをテ レビ電話装置 7へ送信する。テレビ電話装置 7では、テレビ電話装置 6のデータ送信 部 11 Aから送信された表示データを受信し、それをテレビ電話表示部 14Bに表示さ せる。
[0072] 図 20は、テレビ電話装置 6の動作を示すフローチャートである。まず、テレビ電話装 置 6は、テレビ電話装置 7との間で通話を開始する(ST130)。テレビ電話装置 7と通 話を開始すると、入力データ部 10Aから入力データ IAを取得する(ST131)。すなわ ち、映像データ、音声データ、キー入力データの少なくとも 1つを取得する。次いで、 取得した入力データ IAからテレビ電話装置 6のユーザの表情、感情を解析する(ST 132)。例えば、テレビ電話装置 6のユーザの笑い顔を撮影すると、「笑う」という解析 結果を得る。
[0073] 入力データ IAから表情、感情を解析した後、テレビ電話装置 7からの入力データ IB の受信を開始する(ST133)。テレビ電話装置 7から送信された入力データ IBを受信 すると、入力データ IBからテレビ電話装置 7のユーザの表情、感情を解析する(ST1 34)。例えば、テレビ電話装置 7のユーザの泣いた顔を取り込んだとすると、「泣く」と V、う解析結果を得る。入力データ IAの解析結果力 画像カ卩ェデータ DPAを決定し( ST135)、続けて入力データ IBの解析結果力も画像カ卩ェデータ DPBを決定する(S T136)。
[0074] 画像加工データ DPA及び DPBを生成した後、これらのうち 1つでも相互動作であ れば、整合を行う(ST137)。 2つとも相互動作であれば、時間的に先に発生した入 力データによる動作データが主動作となるように整合を行う。画像加工データ DPA 及び DPBの整合を行った後、テレビ電話表示部 14A及び 14Bに表示するキャラクタ の表示画像を生成する(ST138)。そして、テレビ電話装置 7用のキャラクタの表示画 像データをテレビ電話装置 7に送信する(ST139)。テレビ電話装置 7にキャラクタの 表示画像データを送信した後、テレビ電話装置 6用のキャラクタの表示画像をテレビ 電話表示部 14Aに表示する(ST140)。通話中は(ST141の Noの場合)、上記 ST1 31から ST140までの処理を繰り返し行い、通話が終了すると(ST141の Yesの場合 )、処理を終了する。
[0075] 図 21は、画像カ卩工整合部 22の動作を示すフローチャートである。まず、画像加工 整合部 22は、画像カ卩ェデータ DPAの入力を受け(ST150)、画像カ卩ェデータ DPA の有無を判定する(ST151)。画像加工データ DPAが無 、場合(ST151の「無し」 ) は画像加工データ DPAをデフォルトの画像加工データ DPAに変更する(ST152)。 これに対して、画像カ卩ェデータ DPAが有る場合 (ST151の「有り」の場合)は画像加 ェデータ DPBの入力を受け(ST153)、画像カ卩ェデータ DPBの有無を判定する(S T154)。画像カ卩ェデータ DPBが無い場合(ST154の「無し」の場合)は、画像加工 データ DPBをデフォルトの画像カ卩ェデータ DPBに変更する(ST155)。
[0076] これに対して、画像カ卩ェデータ DPBが有る場合 (ST154の「有り」の場合)は、画像 加工データ DPA、 DPBの組み合わせ優先順位を決定する(SI 56)。この場合、単 独加工と相互加工の場合は相互加工の方が優先され、相互加工同士の場合は例え ば入力データが取得された時間の早い方が選択される。画像加工データ DPA、 DP Bの組み合わせ優先順位を決定した後、その優先順位に従って画像加工データ DP A、 DPBを変更する(ST157)。すなわち、上述したように、画像カ卩ェデータ DPAが「 ハート」、画像カ卩ェデータ DPBが「カナヅチ」の場合、相互動作である画像力卩ェデ一 タ DPBが優先され、これによつて「ハート」の画像カ卩ェデータ DPAが「タンコブ」の画 像カ卩ェデータ ϋΡΑΊこ変更される。画像加工データ DPA、 DPBの変更後、これらを 出力する(ST158)。
[0077] 図 22は、テレビ電話装置 7の動作を示すフローチャートである。まず、テレビ電話装 置 7は、テレビ電話装置 6との間で通話を開始する(ST160)。テレビ電話装置 6と通 話を開始すると、入力データ部 10Bから入力データ IBを取得する(ST161)。すなわ ち、映像データ、音声データ、キー入力データの少なくとも 1つを取得する。次いで、 取得した入力データ IBをテレビ電話装置 6に送信する(ST162)。入力データ IBをテ レビ電話装置 6に送信した後、画像加工された表示画像データの受信を行う (ST16 3)。テレビ電話装置 6から送信された表示画像データを受信できると、テレビ電話表 示部 14Bに表示する(ST164)。通話中は(ST165の Noの場合)、上記 ST161から ST165までの処理を繰り返し行い、通話が終了すると(ST165の Yesの場合)、処理 を終了する。
[0078] 本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲 を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明ら かである。
本出願は、 2004年 4月 7日出願の日本特許出願(特願 2004— 112854)、 2005年 3月 24日出願の日本特許出願 (特願 2005— 086335)に基づくものであり、その内容はここ に参照として取り込まれる。
産業上の利用可能性
[0079] 本発明は、自端末が搭載する機能を実行させる為のデータ及び通信相手端末が 搭載する機能を実行させる為のデータを生成することにより、通信相手端末の端末 能力が自端末より低い場合であっても、自端末が要求するレベルの機能を通信相手 端末に実行させることができる効果を有し、通信機能を有し、通信相手端末が搭載 する機能と共通の機能を搭載する通信端末及びその通信方法等に有用である。

Claims

請求の範囲
[1] 通信機能を有し、通信相手端末が搭載する機能と共通の機能を搭載する通信端 末であって、
自端末が搭載する機能を実行させる為のデータ及び通信相手端末が搭載する機 能を実行させる為のデータを生成するデータ生成手段と、
前記通信相手端末が搭載する機能を実行させる為のデータを送信する送信手段と を備える通信端末。
[2] 請求項 1記載の通信端末であって、
テレビ電話機能を有し、
入力されたデータを解析する入力データ解析手段と、
解析結果に基づ!、て、自端末側のデータと通信相手端末側のデータとを整合させ たデータを前記生成手段に出力するデータ整合手段と、
を有する通信端末。
[3] 請求項 2記載の通信端末であって、
入力されたデータとして、画像データ、音声データ及びキー入力データから選択し た少なくとも 1つのデータを前記入力データ解析手段へ入力する入力手段を備える 迪信端末。
[4] 通信機能を有し、通信相手端末が搭載する機能と共通の機能を搭載する通信端 末の通信方法であって、
自端末が搭載する機能を実行させる為のデータ及び通信相手端末が搭載する機 能を実行させる為のデータを生成し、
前記通信相手端末が搭載する機能を実行させる為のデータを送信する通信方法。
PCT/JP2005/006313 2004-04-07 2005-03-31 通信端末及び通信方法 WO2005099262A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US10/596,855 US20070139512A1 (en) 2004-04-07 2005-03-31 Communication terminal and communication method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004112854 2004-04-07
JP2004-112854 2004-04-07
JP2005086335A JP2005323340A (ja) 2004-04-07 2005-03-24 通信端末及び通信方法
JP2005-086335 2005-03-24

Publications (1)

Publication Number Publication Date
WO2005099262A1 true WO2005099262A1 (ja) 2005-10-20

Family

ID=35125463

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/006313 WO2005099262A1 (ja) 2004-04-07 2005-03-31 通信端末及び通信方法

Country Status (3)

Country Link
US (1) US20070139512A1 (ja)
JP (1) JP2005323340A (ja)
WO (1) WO2005099262A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008087621A1 (en) * 2007-01-16 2008-07-24 Mobilesolid Ltd. An apparatus and method for animating emotionally driven virtual objects

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4118296B2 (ja) * 2005-11-28 2008-07-16 株式会社エヌ・ティ・ティ・ドコモ 機能情報通知システム及び機能情報通知方法
US20090017910A1 (en) * 2007-06-22 2009-01-15 Broadcom Corporation Position and motion tracking of an object
JP4789825B2 (ja) * 2007-02-20 2011-10-12 キヤノン株式会社 撮像装置及びその制御方法
US8615112B2 (en) * 2007-03-30 2013-12-24 Casio Computer Co., Ltd. Image pickup apparatus equipped with face-recognition function
FR2917931A1 (fr) * 2007-06-22 2008-12-26 France Telecom Procede et systeme de mise en relation entre des personnes dans un systeme de telecommunications.
US8111281B2 (en) * 2007-06-29 2012-02-07 Sony Ericsson Mobile Communications Ab Methods and terminals that control avatars during videoconferencing and other communications
CN100514353C (zh) * 2007-11-26 2009-07-15 清华大学 一种基于人脸生理性运动的活体检测方法及系统
US8184869B2 (en) * 2008-05-30 2012-05-22 Hewlett-Packard Development Company, L.P. Digital image enhancement
TW201021550A (en) * 2008-11-19 2010-06-01 Altek Corp Emotion-based image processing apparatus and image processing method
KR101533065B1 (ko) * 2008-12-01 2015-07-01 삼성전자주식회사 화상통화 중 애니메이션 효과 제공 방법 및 장치
JP2010258781A (ja) * 2009-04-24 2010-11-11 Ntt Docomo Inc 携帯端末及び情報伝達方法
US8390680B2 (en) 2009-07-09 2013-03-05 Microsoft Corporation Visual representation expression based on player expression
KR101647305B1 (ko) * 2009-11-23 2016-08-10 삼성전자주식회사 이동통신 단말기에서 영상 통화 방법 및 장치
US10869626B2 (en) * 2010-06-07 2020-12-22 Affectiva, Inc. Image analysis for emotional metric evaluation
CN104104898B (zh) * 2013-04-03 2017-06-27 联想(北京)有限公司 一种数据处理方法、装置和电子设备
JP6922686B2 (ja) * 2017-11-20 2021-08-18 トヨタ自動車株式会社 操作装置
KR102044241B1 (ko) 2017-12-28 2019-11-13 주식회사 하이퍼커넥트 영상 통화 서비스를 제공하는 단말
JP2020136921A (ja) * 2019-02-20 2020-08-31 株式会社オプテージ ビデオ通話システム、およびコンピュータプログラム
JP7080212B2 (ja) * 2019-12-27 2022-06-03 グリー株式会社 コンピュータプログラム、サーバ装置及び方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0824440A (ja) * 1994-07-18 1996-01-30 Hitachi Ltd 携帯ゲーム端末
JP2000175168A (ja) * 1998-12-01 2000-06-23 Matsushita Electric Ind Co Ltd 代理画像通信装置及び方法
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2003283604A (ja) * 2002-03-20 2003-10-03 Oki Electric Ind Co Ltd 表情伝送機能付情報端末装置
JP2004349851A (ja) * 2003-05-20 2004-12-09 Ntt Docomo Inc 携帯端末、画像通信プログラム、及び画像通信方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6522417B1 (en) * 1997-04-28 2003-02-18 Matsushita Electric Industrial Co., Ltd. Communication terminal device that processes received images and transmits physical quantities that affect the receiving communication terminal device
JP3898029B2 (ja) * 2001-10-31 2007-03-28 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー X線発生装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0824440A (ja) * 1994-07-18 1996-01-30 Hitachi Ltd 携帯ゲーム端末
JP2000175168A (ja) * 1998-12-01 2000-06-23 Matsushita Electric Ind Co Ltd 代理画像通信装置及び方法
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2003283604A (ja) * 2002-03-20 2003-10-03 Oki Electric Ind Co Ltd 表情伝送機能付情報端末装置
JP2004349851A (ja) * 2003-05-20 2004-12-09 Ntt Docomo Inc 携帯端末、画像通信プログラム、及び画像通信方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008087621A1 (en) * 2007-01-16 2008-07-24 Mobilesolid Ltd. An apparatus and method for animating emotionally driven virtual objects

Also Published As

Publication number Publication date
JP2005323340A (ja) 2005-11-17
US20070139512A1 (en) 2007-06-21

Similar Documents

Publication Publication Date Title
WO2005099262A1 (ja) 通信端末及び通信方法
US8693553B2 (en) Methods, apparatuses, and computer program products for adaptive synchronized decoding of digital video
CN100359941C (zh) 可视电话终端
US8125507B2 (en) Video call apparatus for mobile communication terminal and method thereof
US7508413B2 (en) Video conference data transmission device and data transmission method adapted for small display of mobile terminals
JP2006330958A (ja) 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
EP1423978A2 (en) Video warping system
WO2007105222A2 (en) Method and system for providing video game sounds to a mobile device
WO2008079505A2 (en) Method and apparatus for hybrid audio-visual communication
US20040189791A1 (en) Videophone device and data transmitting/receiving method applied thereto
US20090054156A1 (en) Communication Game System, Communication Game Control Method, Information Recording Medium, and Program
JP6688378B1 (ja) コンテンツ配信システム、配信装置、受信装置及びプログラム
JP2000324463A (ja) テレビ会議システム
JP2000076167A (ja) コミュニケーション方法及びコミュニケーション装置
JP4896118B2 (ja) テレビ電話端末
JP2000042247A (ja) ゲームシステム、ゲームデータ配信装置、ゲーム装置、リアルタイム画像表示システムおよび情報記録媒体
JP2002290973A (ja) マルチメディア通信装置
JPH11355747A (ja) 映像・音声通信装置と同装置を用いたテレビ会議装置
CN1906939A (zh) 通信终端和通信方法
KR100650334B1 (ko) 무선 온라인 게임 기능을 갖는 휴대폰
KR20040039603A (ko) 링백톤제공시스템 및 그 방법
JP2004216033A (ja) 端末装置、プログラム及びゲームシステム
GB2351638A (en) Telephone that receives image of caller
JP2000201237A (ja) 通話録音システムおよび通話録音方法、並びに記録媒体
KR100923307B1 (ko) 화상 통화용 이동 통신 단말기와 이를 이용한 화상 통화서비스 제공 방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200580001777.9

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007139512

Country of ref document: US

Ref document number: 10596855

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 10596855

Country of ref document: US

122 Ep: pct application non-entry in european phase