WO2011027475A1 - テレビ会議装置 - Google Patents

テレビ会議装置 Download PDF

Info

Publication number
WO2011027475A1
WO2011027475A1 PCT/JP2009/065607 JP2009065607W WO2011027475A1 WO 2011027475 A1 WO2011027475 A1 WO 2011027475A1 JP 2009065607 W JP2009065607 W JP 2009065607W WO 2011027475 A1 WO2011027475 A1 WO 2011027475A1
Authority
WO
WIPO (PCT)
Prior art keywords
conference
information
unit
state history
user
Prior art date
Application number
PCT/JP2009/065607
Other languages
English (en)
French (fr)
Inventor
晃嗣 上野
信宏 下郡
創吾 坪井
圭亮 西村
明 熊野
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to PCT/JP2009/065607 priority Critical patent/WO2011027475A1/ja
Publication of WO2011027475A1 publication Critical patent/WO2011027475A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/10Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
    • H04M2203/1016Telecontrol
    • H04M2203/1025Telecontrol of avatars
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/55Aspects of automatic or semi-automatic exchanges related to network data storage and management
    • H04M2203/555Statistics, e.g. about subscribers but not being call statistics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents

Definitions

  • the present invention relates to a video conference apparatus.
  • a video conference system in which a plurality of people in remote locations participate in a conference at the same time, there is a system with a high sense of presence using an avatar that models the participants and is represented by CG (Computer Graphics) and a virtual conference room.
  • CG Computer Graphics
  • each actual participant uses a video conference device equipped with a display, a speaker, a camera, a microphone, and the like, and inputs and outputs audio and video.
  • On the display of the video conference apparatus all the participants are displayed as if they are in one virtual conference room, and it is possible to give the participants the feeling of having a meeting in the same room.
  • Patent Document 1 a system in which a participant operates a mouse or a keyboard to raise an avatar or climb a podium is known (for example, see Patent Document 1).
  • Patent Document 2 a system in which when a participant watches another participant, a line of sight is sent from the participant's avatar to the other participant in the virtual conference room (see, for example, Patent Document 2).
  • Patent Document 1 requires a special operation of the participant, the participant may not be able to concentrate on the conference.
  • the system of Patent Document 2 does not require any special operation by participants.
  • the focus was on the ease of communication between participants, and it was difficult to make the overall situation of the conference easy to understand, such as the degree of participation of each participant and the relationship between participants.
  • the present invention has been made in view of the above, and it is an object of the present invention to provide a video conference device that can automatically and easily present the entire status of a conference in an easily understandable manner.
  • the present invention is a video conference device, in which a participant who speaks in a conference in which a plurality of participants at different points participate, and the participant watched Each of the plurality of participants modeled using an acquisition unit for acquiring conference state history information indicating the other party's participants and speech state information indicating presence / absence of speech together with time, and the conference state history information
  • a determining unit that determines a parameter for drawing a model image
  • a combining unit that combines the model images according to the parameter
  • a display control unit that displays the combined model image on a display unit.
  • FIG. 1 is a diagram illustrating a configuration of a video conference system to which the video conference apparatus according to the present embodiment is applied.
  • a plurality of video conference apparatuses 50 at different points are connected to each other via a network, and a plurality of participants in different locations participate in the conference by performing communication with each other.
  • each user who is a participant in the conference uses one video conference device 50 per person.
  • Each user is given a user ID that identifies each user.
  • each video conference device 50 holds a user ID of each user for all video conference devices 50 connected to the video conference system.
  • the network is, for example, a LAN (Local Area Network), an intranet, an Ethernet (registered trademark), the Internet, or a P2P (peer to peer) network.
  • the video conference apparatus 50 includes a control unit 51 such as a CPU (Central Processing Unit) that controls the entire apparatus, and a main storage unit such as a ROM (Read Only Memory) and a RAM (Random Access Memory) that store various data and various programs. 52, an auxiliary storage unit 53 such as an HDD (Hard Disk Drive) or CD (Compact Disk) drive device for storing various data and various programs, and a bus for connecting them, using a normal computer It has a hardware configuration.
  • the control unit 51 has a timer (not shown) that measures time.
  • the video conference device 50 includes a communication I / F (interface) 54 for controlling communication with an external device, a display unit 55 for displaying information, a photographing unit 56 such as a camera for photographing a subject, and a user instruction.
  • An operation input unit 57 such as a keyboard and a mouse that accepts input
  • a sound input unit 58 such as a microphone that records sound
  • a sound output unit 59 such as a speaker that outputs sound are connected by wire or wirelessly.
  • the photographing unit 56 is arranged at a position where the user's face can be photographed, and photographs the user's face as an image.
  • FIG. 3 is a diagram illustrating a functional configuration of the video conference device 50.
  • the video conference device 50 includes a recording unit 102, a voice information transmission unit 103, a generation unit 104, an avatar information transmission unit 105, a voice information reception unit 106, a speaker information extraction unit 107, and an avatar information reception unit 108.
  • the history management unit 111, the determination unit 112, the synthesis unit 113, and the display control unit 114 are generated on a main storage unit such as a RAM when the CPU program is executed, for example.
  • the recording unit 102 represents the function of the voice input unit 58 and records the voice spoken by the user. The recorded voice is output by the voice output unit 59.
  • the audio information transmitting unit 103 transmits audio information including at least the audio recorded by the recording unit 102 and the user ID of the video conference device 50 to another video conference device 50 connected to the video conference system via the network. Send to all.
  • the audio may be encoded by a method such as PCM, ADPCM, or H.323.
  • the generation unit 104 generates posture information regarding the posture of the user of the video conference device 50 using the video shot by the shooting unit 56.
  • the posture of the user includes a state in which the user is gazing, and the posture information includes at least a user ID of a target user to whom the user of the video conference device 50 is looking.
  • the posture indicated by this posture information is reflected in the posture of the avatar, which is an image modeling the user.
  • the avatar is represented by, for example, a three-dimensional CG.
  • a method disclosed in Japanese Patent Application Laid-Open No. 2008-194146 may be used as a method for determining the direction in which the user is looking at the user.
  • the generation unit 104 determines that the user's line of sight is directed in any direction of another user by analyzing the user's video captured by the imaging unit 56 using the above-described method. And the production
  • the avatar information transmitting unit 105 transmits other avatars that are connected to the video conference system via the network with the avatar information including at least the posture information generated by the generation unit 104 and the user ID of the user of the video conference device 50. Send to all devices 50.
  • the audio information receiving unit 106 receives the audio information transmitted by the audio information transmitting units 103 of all the other video conference apparatuses 50 connected to the video conference system via the network. In addition, the voice information receiving unit 106 causes the voice output unit 59 to output the voice represented by the received voice information.
  • the speaker information extracting unit 107 analyzes the voice information received by the voice information receiving unit 106 and the voice recorded by the recording unit 102, and each time a user's speech starts or ends, speaker information indicating the state of the speaker To extract. For example, it is possible to consider that speech is made when the sound pressure of the sound included in the sound information exceeds a certain value. And a speaker can specify to the user to whom the user ID contained in audio
  • the speaker information extraction unit 107 analyzes the speech information and determines that the speech is started, the user ID included in the speech information, the speech state change information indicating “speech start”, and the start If the speaker information including the time is extracted and it is determined that the speech has ended, the user ID included in the voice information, the speech state change information indicating “utterance end”, and the speech including the end time Person information is extracted.
  • the time for example, a time measured by a timer included in the control unit is used. For example, speaker information “1, speech start, 13:00:05” is extracted from the voice information transmitted when the user with the user ID “1” starts speaking.
  • the avatar information receiving unit 108 receives the avatar information transmitted by the avatar information transmitting units 105 of all other video conference apparatuses 50 connected to the video conference system via the network.
  • the line-of-sight information extraction unit 109 uses the avatar information received by the avatar information reception unit 108 and the posture information generated by the generation unit 104 to determine which user directed the line of sight to which other user for all users.
  • the line-of-sight information to be shown is extracted every time the line-of-sight target changes.
  • the avatar information includes the user ID of the user of the other video conference device 50 that transmitted the avatar information, and the user ID of the target user to whom the user of the user ID is looking. Yes.
  • the gaze information extraction unit 109 extracts gaze information including the former and the time as the gaze source user ID and the latter as the gaze target user ID.
  • the line-of-sight information “1, 5, 13:00:07” is transmitted from the avatar information transmitted when the user with the user ID “1” is looking toward the user with the user ID “5”. Extracted.
  • the conference state history management unit 111 has a conference state table and a conference state history table, and uses the speaker information extracted by the speaker information extraction unit 107 and the line-of-sight information extracted by the line-of-sight information extraction unit 109,
  • the conference state information indicating the conference state is stored in the conference state table, and the conference state history information indicating the history of the conference state for each time is generated and stored in the conference state history table.
  • FIG. 4 is a diagram illustrating conference state information stored in the conference state table. As shown in the figure, in the conference state table, conference state information including a user ID, a gaze target user ID, and speech state information indicating a speech state is stored for each user. This speech state is either during speech or silence, and associates the presence / absence of speech for each user.
  • FIG. 5 is a diagram illustrating conference state history information stored in the conference state history table.
  • the conference state history information includes time, a user ID of a user who is a speaker, a gaze target user ID, and speech state change information indicating a speech state.
  • This speech state is one of speech start, speech continuation, or speech end.
  • the speaker and his gaze target change in the conference status history table the user ID of the speaker, the gaze target user ID, and the speech status change information are newly stored together with the time. How to generate such conference state history information will be described in the operation column described later.
  • the determination unit 112 has an avatar parameter table, and when the conference state changes and new conference state history information is stored in the conference state history table, the position where each avatar is arranged in the virtual conference room accordingly And size are determined as avatar parameters and stored in the avatar parameter table. It is preferable in terms of easy understanding that the avatar parameter is determined so as to indicate the degree of participation in the meeting of the user and the attitude toward each other.
  • Rule 1 The speaker's avatar becomes larger when the speaking time is longer. (One person has given a speech and is in an unusual situation)
  • Rule 2 Move away from the center of the field when the frequency of speaking is low. (Indicates participation level)
  • Rule 3 When the frequency of attention is high, it approaches the center of the field. (Indicates importance)
  • Rule 4 The partner whose attention is long is moved to the speaker's face. (Considered as a conflict or dialogue)
  • Rule 5 If the statement is changed without changing the line of sight, the two avatars approach. (Consider that the same group exists)
  • the avatar parameter table stores the position of each avatar, that is, the two-dimensional polar coordinates (r, ⁇ ) with the center O of the field as the origin, and the avatar size s as avatar parameters.
  • FIG. 6 is a diagram illustrating a data configuration of the avatar parameter table.
  • the conference history history information illustrated in FIG. 5 is stored in the conference history status table as the actual progress of the conference.
  • the meeting starts at 13:00:00, and the users who are participants are five users who are assigned user IDs “1” to “5”, respectively.
  • the avatar parameters in the initial state when the conference starts at 13:00:00 are shown.
  • r and s are 1.0 and 1.0, respectively, for all users.
  • the angle represented by ⁇ is 1.0 on a half circumference, and is arranged on a half circumference at equal intervals by 5 persons separated by 0.25. How the determination unit 112 determines such avatar parameters based on the conference state history information will be described in the operation column described later.
  • the synthesizing unit 113 synthesizes the images of each avatar based on the avatar parameters determined by the determining unit 112 for each user's avatar and stored in the avatar parameter table. Generate.
  • a method for synthesizing an image a method for synthesizing a known three-dimensional CG may be used.
  • FIG. 7 is a diagram showing an example in which each avatar is arranged in an actual virtual conference room using the avatar parameters shown in FIG.
  • FIG. 8 is a diagram illustrating an image obtained by rendering a video from the viewpoint at the position where the camera shown in FIG. 7 is arranged as a three-dimensional CG. In the figure, as an initial state, it is shown that five persons are arranged in a half circle at equal intervals.
  • the display control unit 114 causes the display unit 55 to display the image generated by the synthesis unit 113.
  • the video conference device 50 records the voice spoken by the user by the function of the recording unit 102, and the voice information including at least the recorded voice and the user ID of the video conference device 50 by the function of the voice information transmission unit 103. Then, the data is transmitted to all the other video conference apparatuses 50 connected to the video conference system via the network, and the recorded audio is output from the audio output unit 58. Further, the video conference device 50 generates posture information regarding the posture of the user of the video conference device 50 using the video captured by the imaging unit 56 by the function of the generation unit 104, and the function of the avatar information transmission unit 105.
  • the avatar information including at least the posture information and the user ID of the user of the video conference device 50 is transmitted to all the other video conference devices 50 connected to the video conference system via the network.
  • the video conference device 50 receives voice information by the function of the voice information receiving unit 106 (step S1), and the voice information and the video conference device 50 record by the function of the speaker information extracting unit 107.
  • speaker information is extracted from at least one of the voices (step S2: YES)
  • the conference state information stored in the conference state table is updated by the function of the conference state history management unit 111, and a new conference state history is recorded. Information is generated and stored in the conference state history table (step S3).
  • the video conference device 50 receives avatar information by the function of the avatar information receiving unit 108 (step S4), and the avatar information and the posture information generated by the video conference device 50 by the function of the line-of-sight information extraction unit 109.
  • the conference state information stored in the conference state table is updated by the function of the conference state history management unit 111, and the new conference state history information is obtained. This is generated and stored in the conference state history table (step S6).
  • the conference state history management unit 111 acquires the speaker information extracted by the speaker information extraction unit 107 (step S700), and stores the conference information stored in the conference state table corresponding to the user ID included in the speaker information. With reference to the state information, the gaze target user ID included in the conference state information is extracted (step S701). Next, the conference state history management unit 111 determines whether or not the speech state change information included in the speaker information acquired in step S700 indicates “start” (step S702).
  • the conference state history management unit 111 determines the current time, the user ID included in the speaker information acquired in step S700, and the step The conference state history information including the gaze target user ID extracted in S701 and the utterance state change information indicating “speech start” is newly generated and stored in the conference state history table (step S703).
  • the conference state history management unit 111 indicates that the speech state information included in the conference state information stored in the conference state table corresponding to the user ID included in the speaker information acquired in step S700 is “speaking”. As shown, the conference state information is updated (step S704), and the process ends.
  • the conference state history management unit 111 includes the current time and the speaker information acquired in step S700.
  • Conference state history information is newly generated and stored in the conference state history table (step 701), the gaze target user ID extracted in step S701, and the utterance state change information indicating “end speech”. S705).
  • the conference state history management unit 111 indicates “silence” in the speech state information included in the conference state information stored in the conference state table corresponding to the user ID included in the speaker information acquired in step S700.
  • the conference state information is updated (step S706), and the process ends.
  • the conference state history management unit 111 performs the above processing every time speaker information is obtained.
  • the meeting state history management unit 111 acquires the line-of-sight information extracted by the line-of-sight information extraction unit 109 (step S800), and the meeting state stored in the meeting state table corresponding to the gaze source user ID included in the line-of-sight information. With reference to the information, the expression state information included in the conference state information is extracted (step S801). Then, the conference state history management unit 111 determines whether or not the speech state information indicates “speaking” (step S802).
  • the conference state history management unit 111 acquires the current time, the gaze source user ID included in the line-of-sight information acquired in step S800, and acquired in step S800.
  • the conference state history information including the gaze target user ID included in the line-of-sight information and the speech state change information indicating “continuation” is newly generated and stored in the conference state history table (step S803).
  • the conference state history management unit 111 determines the gaze target user ID included in the conference state information stored in the conference state table in correspondence with the gaze source user ID included in the line-of-sight information acquired in step S800. By updating to the gaze target user ID included in the information, the conference state information is updated (step S804), and the process ends.
  • step S802 if the speech state information indicates “silence” in step S802 (step S802: NO), the process proceeds to step S804 without passing through step S803.
  • the conference state history management unit 111 performs the above processing every time line-of-sight information is obtained.
  • the video conference device 50 uses the function of the determination unit 112 to set the position and size of each avatar as an avatar parameter according to the new conference state history information. This is determined and stored in the avatar parameter table (step S7).
  • the determination unit 112 analyzes the conference state history information, and determines the user participation degree indicating how important the user plays in the conference, and the user Calculate the relationship between.
  • the determination unit 112 analyzes the conference state history information when the conference state history information is stored for the first time in the conference state history table, A user relationship table indicating the relationship as a distance is generated, and thereafter, each time new conference state history information is stored in the conference state history table, the user participation table and the user relationship table are updated.
  • the method for calculating the degree of user participation is as follows.
  • the determination unit 112 analyzes the conference state history information and calculates the number of utterances, the average utterance time, and the number of times of gazing, which is the number of times of gazing, for each user. And the determination part 112 calculates each deviation value of the frequency
  • the method for calculating the deviation value is as follows.
  • the size of the population is N
  • each value is x i
  • the average of the population is ⁇ x
  • the standard deviation of the population is ⁇ x
  • the deviation value T i of the item i is obtained by the following Equation 1.
  • FIG. 12 is a diagram illustrating a data configuration of the user participation degree table.
  • the user participation degree table includes the number of utterances, the average utterance time, the number of times of gazing, which is the number of times of attention, the speech rate k, the speech level l, and the attention rate n. Stored for each user.
  • the determination unit 112 determines the size s of each avatar according to the following equation 2 incorporating the rules 1 to 3 described above, and determines the position of each avatar according to the equation 3.
  • r is determined, and these values are stored in the avatar parameter table.
  • Size s 1.0 + (l-50) * 0.1 (if n> 50) ...
  • 1.0 (if n ⁇ 50)
  • Distance r 1.0 + (50-k) * 0.2 + (50-n) * 0.1 (Equation 3)
  • r 1.0
  • the determination unit 112 analyzes the conference state history information stored in the conference state history table, and calculates the time (referred to as the gaze time) when one of the two users gazes at the other party while speaking. In addition, the number of times that the utterance is changed without paying attention to the other party, or the other person starts utterance during the utterance of either of the utterances (referred to as the “number of times without gaze change”) is calculated. Further, the determination unit 112 adds 1.0 to the value obtained by multiplying the gaze time by 0.05, and divides the result by the result obtained by adding 1.0 to the number of changes without gaze, which is used as the cost.
  • FIG. 13 is a diagram illustrating a data configuration of the user relationship table. As shown in the figure, for each combination of two users, the gaze time, the number of line-of-sight changes, and the cost are stored. The determination unit 112 determines ⁇ among the two-dimensional polar coordinates representing the position of each avatar using the cost and the rules 4 to 5 described above.
  • the diagram on the right side of FIG. 14 represents the relationship between avatars at each step as a one-dimensional network with edge weights.
  • Each node represented by a circle represents each user's avatar, a line between the nodes is an edge, and a number below the edge is an edge cost.
  • the nodes a1 to a5 correspond to the user avatars with the user IDs “1” to “5”, respectively.
  • the determination unit 112 extracts a combination of users having the maximum cost among the costs stored in the user relationship table, and inserts the combination into the one-dimensional network with edge weight as the edge cost 1.0.
  • the determination unit 112 calculates the network cost for each of the two users (referred to as nodes ay1 and ay2) extracted in Step S1400 for all other users (referred to as nodes ax) not extracted in Step S1400. To do.
  • the calculation of the network cost is performed by summing up the costs on the route in the cost network shown in FIG.
  • the determination unit 112 generates an input list indicating the result of cost calculation (step S1401).
  • FIG. 16 is a diagram illustrating an input list.
  • the network cost calculated for the nodes a3 and a5 and the node a4 that is the node ay1 and the value of these values are calculated.
  • the smaller cost and the parent node are shown. Since the network cost cannot be calculated for the node a2, the cost is not shown in the input list in FIG. 9, and the parent node is not determined.
  • the determination unit 112 selects the node with the highest cost (step S1402), and inserts the selected node inside the parent node. Further, the determination unit 112 deletes the inserted node from the input list (step S1403). At the time of insertion, the determination unit 112 stores the existing edge cost as it is, and sets the cost of the inserted node as the edge cost between the node and the parent node. If there is a node whose cost is indicated in the input list (step S1404: NO), the determination unit 112 repeats the processing of steps S1402 to S1403.
  • the determining unit 112 does not perform the processing of steps S1402 to S1403, that is, a node where the network cost cannot be calculated (here, the node a2).
  • steps S1402 to S1403 that is, a node where the network cost cannot be calculated.
  • the edge cost on both sides of the inserted node is the edge cost before insertion.
  • the node a2 is between nodes a3 and a5, which are nodes having the highest edge cost (here, 1.4).
  • the edge cost on both sides is 1.4, respectively.
  • the determination unit 112 normalizes each edge cost so that the total edge cost becomes 1.0, and determines the normalized edge cost value as a value of ⁇ between nodes, that is, between avatars (step S1406). . And the determination part 112 memorize
  • the total edge cost is 4.3.
  • FIG. 17 is a two-dimensional polar coordinate representing the size s of each avatar and the position of each avatar stored in the avatar parameter table based on the user participation table illustrated in FIG. 12 and the user relationship table illustrated in FIG. It is a figure which illustrates r, (theta). From the initial state shown in FIG. 6, the size s of each avatar and the position (r, ⁇ ) of each avatar are changed according to the degree of participation of each user and the relationship between users.
  • the video conference apparatus 50 synthesizes the images of the avatars based on the avatar parameters stored in the avatar parameter table in step S7 by the function of the synthesizing unit 113, and puts each avatar in the virtual conference room.
  • the arranged image is generated (step S8).
  • FIG. 18 is a diagram illustrating a state in which each avatar is arranged in the virtual conference room based on the avatar parameters illustrated in FIG.
  • FIG. 19 is a diagram illustrating an image generated by rendering the state of FIG. 18 as a three-dimensional CG.
  • the video conference device 50 causes the display unit 55 to display the generated image generated in step S8 by the function of the display control unit 114 (step S9). For example, an image as shown in FIG.
  • the user with the user ID “4” and the user ID “5” are in the same group, and this group has a dialogue with the user with the user ID “1”. It can be determined that the user with “3” exists as an observer, the user with the user ID “2” is not so important, and the user with the user ID “4” tends to speak for a long time.
  • the conference state history information is generated using the speaker information and the line-of-sight information, and the position and size of the avatar representing each user are determined using the conference state history information, which are arranged in the virtual conference room.
  • the overall situation of the conference such as the degree of participation of each user and the relationship between users can be presented automatically and in an easily understandable manner.
  • a plurality of video conference apparatuses 50 ' are connected to a central server via a network, and each video conference apparatus 50' communicates via the central server.
  • the central server has a hardware configuration using, for example, an MCU (Multipoint Control Unit) or the above-described normal computer.
  • FIG. 20 is a diagram illustrating a functional configuration of the central server 200 and the video conference apparatus 50 ′.
  • the central server 200 includes an audio information reception unit 106, an avatar information reception unit 108, a speaker information extraction unit 107, a line-of-sight information extraction unit 109, a conference state history management unit 111, a conference state history transmission unit 201, A voice information transmitting unit (not shown).
  • the configurations of the speaker information extraction unit 107, the line-of-sight information extraction unit 109, and the conference state history management unit 111 are substantially the same as those in the first embodiment.
  • the audio information receiving unit 106 receives the audio information transmitted by the audio information transmitting units 103 of all the video conference apparatuses 50 ′ connected to the central server 200.
  • the avatar information receiving unit 108 receives the avatar information transmitted by the avatar information transmitting unit 105 of all the video conference apparatuses 50 ′ connected to the central server 200.
  • the conference state history transmission unit 201 transmits the conference state history information stored in the conference state history table included in the conference state history management unit 111 to all the video conference apparatuses 50 ′ connected to the central server 200 via the network. Send.
  • the audio information transmitting unit transmits the audio information received by the audio information receiving unit 106 from the information processing device 50 'to each of the other information processing devices 50'.
  • the video conference device 50 ′ includes a recording unit 102, a voice information transmission unit 103, a generation unit 104, an avatar information transmission unit 105, a voice information reception unit 106, a conference state history reception unit 202, and a determination unit 112. , A synthesizing unit 113, a display control unit 114, and an audio information receiving unit (not shown).
  • combination part 113, and the display control part 114 is as substantially the same as the above-mentioned 1st Embodiment.
  • the conference state history reception unit 202 receives the conference state history information transmitted from the conference state history transmission unit 201 of the central server 200 and stores it in a main storage unit such as a RAM.
  • a conference state history table illustrated in FIG. 5 is configured.
  • the voice information receiving unit receives the voice information of the other video conference device 50 ′ transmitted from the central server 200 and causes the voice output unit 59 to output the voice represented by the voice information.
  • Step S20 the central server 200 uses the conference state history transmission unit 201 to convert the conference state history information newly generated in step S6 to all the video conference devices 50 connected to the central server 200 via the network. Send to ⁇ .
  • the video conference apparatus 50 ′ receives the conference state history information transmitted from the central server 200 and stores it in the main storage unit (step S21). Steps S7 to S9 are the same as those in the first embodiment.
  • the central server 200 even through the central server 200, the overall status of the conference, such as the degree of participation of each user and the relationship between users, can be presented automatically and easily and naturally. Can do. Further, the central server 200 generates conference state history information using the speaker information and the line-of-sight information and transmits the conference state history information to the video conference device 50 ′, so that the video conference device 50 ′ generates the conference state history information. Therefore, it is possible to reduce the processing load of the video conference apparatus 50 ′.
  • various programs executed by the video conference device 50 are stored on a computer connected to a network such as the Internet and are provided by being downloaded via the network. Also good.
  • the various programs are recorded in a computer-readable recording medium such as a CD-ROM, a flexible disk (FD), a CD-R, a DVD (Digital Versatile Disk), etc. in a file that can be installed or executed.
  • the computer program product may be provided. The same applies to the various programs executed by the video conference apparatus 50 ′ and the various programs executed by the central server 200 in the second embodiment.
  • the reception unit 108, the line-of-sight information extraction unit 109, the conference state history management unit 111, the determination unit 112, and the synthesis unit 113 unit may be configured by hardware such as an electronic circuit. Further, all or a part of these units may be configured by different processors and connected via a network such as a LAN or the Internet.
  • the video conference apparatus connected to the video conference system is the video conference apparatus 50 having the configuration according to the present embodiment.
  • Some of the video conference apparatuses connected to the video conference apparatus 50 may be the video conference apparatus 50 according to the embodiment.
  • a part of the video conference apparatus connected to the central server 200 may be the video conference apparatus 50 ′ having the configuration according to the present embodiment.
  • the video conference device 50 may not include the generation unit 104 and the avatar information transmission unit 105. In this case, only the avatar information received from the other video conference devices 50 is used as the avatar information used by the video conference device 50 to generate the conference state history information.
  • the video conference device 50 ′ may not include the generation unit 104 and the avatar information transmission unit 105. In this case, only the avatar information received from the other video conference apparatus 50 ′ is used as the avatar information used by the central server 200 for generating the conference state history information.
  • the conference status history information may be transmitted to other video conference devices 50 ′ connected to the central server 200 including the video conference device 50 ′ that has not transmitted the avatar information.
  • the video conference device 50 may be able to reproduce the image of the conference after the conference.
  • the video conference device 50 instructs the conference status history management unit 111 to specify the conference status history at the specified time.
  • Information is acquired and passed to the determination unit 112.
  • the determination unit 112 may determine the avatar parameter using the conference state history information in the same manner as described above.
  • the determination part 112 may determine an avatar parameter using the meeting state log
  • the video conference apparatus 50 ′ saves the conference state history information received from the central server 200 in an auxiliary storage unit such as an HDD, and the user passes the operation input unit 57 via the operation input unit 57.
  • the determination unit 112 may acquire the conference state history information at the designated time.
  • the posture information is not limited to the gaze target user ID, and may include information representing the posture of the user such as the angle of each joint of the user and a facial expression parameter, and is represented by this information.
  • the posture may be reflected in the avatar image.
  • the avatar information may include other information for synthesizing the avatar image.
  • the method of determining the direction facing the user's line of sight is not limited to the above.
  • the avatar parameters are not limited to those described above.
  • the polar coordinate system centered on the center of the “field” is defined in determining the avatar parameter, but another form in which the position of the avatar can be defined may be used.
  • a normal two-dimensional coordinate system composed of two orthogonal axes can be assumed.
  • the method for determining the avatar parameter is not limited to the above-described method. For example, it may be one that gradually returns to the initial position over time.
  • an algorithm known as an automatic layout method can be applied.
  • avatars with close distances may have the property of gathering in a “small room”.
  • the position of the camera used for image synthesis need not be fixed.
  • the video conference device 50 may transmit voice information and avatar information in response to a request from the video conference device 50 on the receiving side.
  • the video conference apparatus 50 ′ may transmit voice information and avatar information in response to a request from the central server 200.
  • the central server 200 may transmit the conference status history information in response to a request from the video conference device 50 ′ that receives the conference status history information.
  • the conference state history receiving unit 202 of the video conference apparatus 50 ′ matches the conference state history information to the conference state history transmitting unit of the central server 200 in accordance with the timing at which the display control unit 114 updates the image displayed on the display unit 55. 201 may be requested.
  • the conference state history management unit 111 is a database, for example, the speaker information extraction unit 107 stores the speaker information in the database, and the line-of-sight information extraction unit 109 stores the database in the database.
  • the line-of-sight information may be stored, and the determination unit 112 may acquire the conference state history information by sending a query to the database.
  • the conference state history transmission unit 201 may acquire the conference state history information by sending a query to the conference state history management unit 111.
  • the conference state history information and the avatar parameters may be stored across a plurality of consecutive conferences.
  • the video conference device for example, at the start of the conference, for example, each of the avatar parameters determined by the previous avatar, not the initial state shown in FIG.
  • An image in which each avatar is arranged in the virtual conference room is displayed on the display unit 55 using the size and position of the avatar.
  • the target user ID (gaze target user ID) was extracted and stored in the conference state history information.
  • a gaze target user ID may be extracted and stored in the conference state history information.
  • the central server 200 does not include the conference state history transmission unit 201 but includes the determination unit 112, which uses the conference state history information to determine the avatar parameter. May be transmitted to all or some of the video conference apparatuses 50 ′ connected to the central server 200.
  • all or some of the video conference apparatuses 50 ′ connected to the central server 200 have an avatar parameter receiving unit that receives the avatar parameters transmitted from the central server 200 instead of the conference state history receiving unit 202. You may make it produce
  • the central server 200 transmits the audio information received from the video conference apparatus 50 ′ to the other video conference apparatus 50 ′ connected to the central server 200. Audio information may be transmitted and received between 50 '.
  • the video conference device 50 transmits video information representing the video captured by the imaging unit 56 to the other video conference device 50, and the video transmitted from the other video conference device 50.
  • Information may be received, and a video represented by the video information may be displayed on the display unit 55.
  • the video conference apparatus 50 divides the display area in the display unit 55 and displays a plurality of videos in each of the divided display areas.
  • the video represented by the video information transmitted from the other information processing apparatus 50 and the image generated in step S8 may be displayed in different display areas of the display unit 55. You may make it display in an overlapping manner. In the case of overlapping display, the transparency of one side may be increased.
  • the information processing apparatus 50 includes a plurality of display units 55, and displays the video represented by the video information transmitted from the other information processing apparatus 50 and the image generated in step S8 on different display units 55, respectively. You may do it.
  • the video conference apparatus 50 ′ transmits video information representing the video captured by the imaging unit 56 to the central server 200, and the video information transmitted from the other video conference apparatus 50 ′. May be received via the central server 200, and a video represented by the video information may be displayed on the display unit 55.
  • the central server 200 may transmit it to the other video conference device 50 ′. Further, video information may be transmitted and received between the video conference apparatuses 50 '.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 異地点にいる複数の参加者が参加するテレビ会議システムにおいて、テレビ会議装置50は、他のテレビ会議装置50から送信された音声情報及びアバター情報に基づいて、会議において発言した参加者と、当該参加者が注視した相手の参加者と、発言の有無とを時刻と共に示す会議状態履歴情報を生成する。そして、テレビ会議装置50は、当該会議状態履歴情報を用いて、複数の参加者を各々モデル化した各アバターを描画するためのパラメータを決定し、当該パラメータに従って、各アバターを仮想会議室に配置した画像を生成し、生成した画像を表示部に表示させる。

Description

テレビ会議装置
 本発明は、テレビ会議装置に関する。
 遠隔地にいる複数人が同時に会議に参加するテレビ会議システムにおいて、参加者をモデル化してCG(Computer Graphics)により表したアバターと、仮想会議室とを用いた臨場感の高いシステムがある。典型的には、実際のそれぞれの参加者は、ディスプレイ、スピーカ、カメラ及びマイク等を備えたテレビ会議装置を使用し、音声や映像の入出力を行う。テレビ会議装置のディスプレイには、参加者全員が一つの仮想会議室にいるように表示され、あたかも同じ部屋で会議をしているような感覚を参加者に与えることができる。こうしたテレビ会議システムにおいて、参加者がマウスやキーボードを操作して、アバターに挙手させたり、演壇に登らせたりするシステムが知られている(例えば特許文献1参照)。また、参加者が他の参加者を注視すると、仮想会議室内の当該参加者のアバターから当該他の参加者へ視線を送るシステムも開発されている(例えば特許文献2参照)。
特開平6-274596号公報 特開2005-216310号公報
 しかし、特許文献1のシステムでは、参加者の特別な操作を必要とするため、参加者は会議に集中できない恐れがある。一方、特許文献2のシステムでは、参加者の特別な操作を必要としない。しかし、参加者同士のコミュニケーションのしやすさを主眼に置いており、各参加者の参加度や参加者同士の関係など、会議の全体的な状況を分かりやすくすることは困難であった。
 本発明は、上記に鑑みてなされたものであって、会議の全体的な状況を、自動的に且つ分かりやすく自然に提示可能なテレビ会議装置を提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明は、テレビ会議装置であって、異地点にいる複数の参加者が参加する会議において発言した参加者と、当該参加者が注視した相手の参加者と、発言の有無を示す発言状態情報とを時刻と共に示す会議状態履歴情報を取得する取得部と、前記会議状態履歴情報を用いて、前記複数の参加者を各々モデル化した各モデル画像を描画するためのパラメータを決定する決定部と、前記パラメータに従って、各前記モデル画像を合成する合成部と、合成された前記モデル画像を表示部に表示させる表示制御部とを備えることを特徴とする。
 本発明によれば、会議の全体的な状況を、自動的に且つ分かりやすく自然に提示可能になる。
第1の実施の形態のテレビ会議システムの構成を例示する図。 テレビ会議装置50のハードウェア構成を例示する図。 テレビ会議装置50の機能的構成を例示する図。 会議状態テーブルに記憶される会議状態情報を例示する図。 会議状態履歴テーブルに記憶される会議状態履歴情報を例示する図。 アバターパラメータテーブルのデータ構成を例示する図。 仮想会議室に各アバターを配置した例を示す図。 三次元CGとしてレンダリングした画像を例示する図。 画像表示処理の手順を示すフローチャート。 ステップS3の処理の詳細な手順を示すフローチャート。 ステップS6の処理の詳細な手順を示すフローチャート。 ユーザ参加度テーブルのデータ構成を例示する図。 ユーザ関係テーブルのデータ構成を例示する図。 θを決定する処理の手順を示すフローチャート。 アバター間コストのネットワークを示す図。 入力リストを例示する図。 各アバターのサイズs及び各アバターの位置(r,θ)を例示する図。 仮想会議室に各アバターを配置した状態を例示する図。 三次元CGとしてレンダリングして生成した画像を例示する図。 第2の実施の形態の中央サーバ200と、テレビ会議装置50´との機能的構成を例示する図。 会議状態履歴情報送信処理の手順を示すフローチャート。 画像表示処理の手順を示すフローチャート。
 以下に添付図面を参照して、本実施の形態にかかるテレビ会議装置の一実施の形態を詳細に説明する。
 図1は、本実施の形態にかかるテレビ会議装置を適用したテレビ会議システムの構成を例示する図である。本実施の形態にかかるテレビ会議システムでは、異地点にある複数のテレビ会議装置50がネットワークを介して各々接続され、各々通信を行なうことにより、異地にいる複数の参加者が会議に参加する。ここでは、会議の参加者である各ユーザは、1人につき1つのテレビ会議装置50を用いるものとする。各ユーザには、各ユーザを識別するユーザIDが付与されている。各テレビ会議装置50は、テレビ会議システムに接続されるテレビ会議装置50全てについてユーザのユーザIDを各々保持しているものとする。また、ネットワークとは、例えば、LAN(Local Area Network)、イントラネット、イーサネット(登録商標)、インターネット又はP2P(peer to peer)ネットワークなどである。
 次に、テレビ会議装置50のハードウェア構成について図2を用いて説明する。テレビ会議装置50は、装置全体を制御するCPU(Central Processing Unit)等の制御部51と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の主記憶部52と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の補助記憶部53と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。制御部51は、時刻を計時するタイマ(不図示)を有する。また、テレビ会議装置50には、外部装置の通信を制御する通信I/F(interface)54と、情報を表示する表示部55と、被写体を撮影するカメラ等の撮影部56と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部57と、音声を録音するマイク等の音声入力部58と、音声を出力するスピーカ等の音声出力部59とが有線又は無線により各々接続される。撮影部56は、例えば、ユーザの顔を撮影可能な位置に配置され、ユーザの顔を映像として撮影する。
 次に、このようなハードウェア構成において、テレビ会議装置50のCPUが主記憶部や補助記憶部に記憶された各種プログラムを実行することにより実現される各種機能について説明する。図3は、テレビ会議装置50の機能的構成を例示する図である。テレビ会議装置50は、録音部102と、音声情報送信部103と、生成部104と、アバター情報送信部105と、音声情報受信部106と、発言者情報抽出部107と、アバター情報受信部108と、視線情報抽出部109と、会議状態履歴管理部111と、決定部112と、合成部113部と、表示制御部114とを有する。音声情報送信部103と、生成部104と、アバター情報送信部105と、音声情報受信部106と、発言者情報抽出部107と、アバター情報受信部108と、視線情報抽出部109と、会議状態履歴管理部111と、決定部112と、合成部113と、表示制御部114とは、例えば、CPUのプログラム実行時にRAMなどの主記憶部上に生成されるものである。録音部102は、音声入力部58の機能を表したものであり、ユーザの発言した音声を録音する。録音された音声は、音声出力部59により出力される。
 音声情報送信部103は、録音部102が録音した音声と、当該テレビ会議装置50のユーザIDとを少なくとも含む音声情報を、ネットワークを介して、テレビ会議システムに接続される他のテレビ会議装置50全てに送信する。尚、音声はPCM、ADPCM、H.323などの方式でエンコードされていても良い。
 生成部104は、撮影部56が撮影した映像を用いて、当該テレビ会議装置50のユーザの姿勢に関する姿勢情報を生成する。ユーザの姿勢には、ユーザが注視する状態を含み、姿勢情報は、当該テレビ会議装置50のユーザが視線を向けている対象のユーザのユーザIDを少なくとも含む。この姿勢情報によって示される姿勢は、ユーザをモデル化した画像であるアバターの姿勢に反映される。アバターは、例えば、三次元CGにより表される。ユーザが視線を向けている方向を判断する方法は、例えば、特許文献2008-194146号公報に開示されている方法を用いれば良い。本実施の形態においては、例えば、他のユーザの写真や映像や他の各ユーザを特定するものがユーザの前方に存在するとする。生成部104は、当該ユーザの視線が他のユーザのいずれかの方向を向いているのを、撮影部56が撮影したユーザの映像を上述の方法により解析することにより判断する。そして、生成部104は、当該ユーザが視線を向けている方向にいる他のユーザを注視対象のユーザとして特定することができる。そして、生成部104は、注視対象として特定したユーザに付与されたユーザIDを取得して、このユーザIDを含む姿勢情報を生成する。
 アバター情報送信部105は、生成部104が生成した姿勢情報と、当該テレビ会議装置50のユーザのユーザIDとを少なくとも含むアバター情報を、ネットワークを介して、テレビ会議システム接続される他のテレビ会議装置50全てに送信する。
 音声情報受信部106は、ネットワークを介してテレビ会議システム接続される他の全てのテレビ会議装置50の音声情報送信部103が各々送信した音声情報を各々受信する。また、音声情報受信部106は、受信した音声情報によって表される音声を音声出力部59から出力させる。
 発言者情報抽出部107は、音声情報受信部106が受信した音声情報及び録音部102が録音した音声を解析して、各ユーザの発言が開始又は終了する都度、発言の状態を示す発言者情報を抽出する。例えば、音声情報に含まれる音声の音圧が一定値を超えた時に発言が行われていると見なすことで可能である。そして、発言者は、音声情報に含まれるユーザIDが付与されているユーザに特定することが可能である。このため、発言者情報抽出部107は、音声情報を解析して、発言が開始されたと判断した場合、当該音声情報に含まれるユーザIDと、「発言開始」を表す発言状態変化情報と、開始の時刻とを含む発言者情報を抽出し、発言が終了したと判断した場合、当該音声情報に含まれるユーザIDと、「発言終了」を表す発言状態変化情報と、終了の時刻とを含む発言者情報を抽出する。時刻には、例えば、制御部の有するタイマによって計時される時刻を用いる。例えば、ユーザIDが「1」のユーザが発言を開始した場合に送信された音声情報からは、「1、発言開始、13:00:05」という発言者情報が抽出される。
 アバター情報受信部108は、ネットワークを介してテレビ会議システム接続される他の全てのテレビ会議装置50のアバター情報送信部105が各々送信したアバター情報を各々受信する。
 視線情報抽出部109は、アバター情報受信部108が受信したアバター情報及び生成部104が生成した姿勢情報を用いて、全てのユーザについてそれぞれどのユーザが他のどのユーザに対して視線を向けたかを示す視線情報を、視線を向ける対象が変更する都度、抽出する。上述したように、アバター情報には、当該アバター情報を送信した他のテレビ会議装置50のユーザのユーザIDと、当該ユーザIDのユーザが視線を向けている対象のユーザのユーザIDとを含んでいる。このため、前者を注視元ユーザIDとし、後者を注視対象ユーザIDとしてこれらと、その時刻とを含む視線情報を視線情報抽出部109は抽出する。例えばユーザIDが「1」のユーザが、ユーザIDが「5」のユーザに視線を向けている場合に送信されたアバター情報からは、「1、5、13:00:07」という視線情報が抽出される。
 会議状態履歴管理部111は、会議状態テーブルと、会議状態履歴テーブルとを有し、発言者情報抽出部107が抽出した発言者情報及び視線情報抽出部109が抽出した視線情報を用いて、現在の会議状態を示す会議状態情報を会議状態テーブルに記憶させ、時刻毎の会議状態の履歴を示す会議状態履歴情報を生成してこれを会議状態履歴テーブルに記憶させる。図4は、会議状態テーブルに記憶される会議状態情報を例示する図である。同図に示されるように、会議状態テーブルには、ユーザIDと、注視対象ユーザIDと、発言状態を示す発言状態情報とを含む会議状態情報がユーザ毎に記憶される。この発言状態とは、発言中か沈黙しているかのいずれかであり、ユーザ毎の発言の有無を対応付ける。会議状態履歴管理部111は、発言者情報抽出部107が発言者情報を抽出する度に、会議状態テーブルに記憶される会議状態情報を適宜更新する。尚、会議状態情報をどのように更新するかは後述の動作欄で説明する。図5は、会議状態履歴テーブルに記憶される会議状態履歴情報を例示する図である。同図に示されるように、会議状態履歴情報は、時刻と、発言者であるユーザのユーザIDと、注視対象ユーザIDと、発言状態を示す発言状態変化情報とを含む。この発言状態は、発言開始、発言継続又は発言終了のいずれかである。会議状態履歴テーブルには、発言者とその注視対象とが変化する度に、その時刻と共に、発言者のユーザID及び注視対象ユーザID及び発言状態変化情報が新たに記憶されることになる。このような会議状態履歴情報をどのように生成するかについては後述の動作欄で説明する。
 決定部112は、アバターパラメータテーブルを有し、会議状態が変化して、会議状態履歴テーブルに新たな会議状態履歴情報が記憶されると、それに応じて、仮想会議室において各アバターを配置する位置とサイズとをアバターパラメータとして決定してこれをアバターパラメータテーブルに記憶させる。アバターパラメータは、ユーザの会議への参加度やお互いへの態度を示すように決定されることが、分かりやすさの点で好ましい。
 例えば、アバターパラメータを決定するためのルールとして、以下を想定する。
ルール1:一回の発言時間が長いと、発言者のアバターが大きくなる。(一人が演説を行ってしまっており、異常な状況)
ルール2:発言頻度が低いと、場の中心から遠ざかる。(参加度を示す)
ルール3:注目される頻度が高いと、場の中心に近づく。(重要度を示す)
ルール4:発言者の注目の長い相手は、発言者の対面に移動する。(対立もしくは対話と見なす)
ルール5:視線を交わさずに発言が交代される場合は、その二人のアバターが近づく。(同一グループの存在と見なす)
 アバターパラメータテーブルは、各アバターの位置、即ち場の中心Oを原点とした二次元極座標(r,θ)と、アバターのサイズsとをアバターパラメータとして記憶する。図6は、アバターパラメータテーブルのデータ構成を例示する図である。ここでは、実際の会議の経過として、会議履歴状態テーブルには、図5に例示される会議状態履歴情報が記憶されているものとする。会議は13:00:00に開始し、参加者であるユーザは、ユーザIDが「1」~「5」が各々付与されている5名である。図6の例では、13:00:00に会議が開始したときの初期状態のアバターパラメータが示されている。初期状態では、rとsとはユーザ一律でそれぞれ1.0,1.0とする。また、θが表す角度は半周で1.0とし、0.25ずつ離して5名で等間隔に半周に並ぶものとする。このようなアバターパラメータを会議状態履歴情報に基づいて決定部112がどのように決定するかは後述の動作欄で説明する。
 図3の説明に戻る。合成部113は、決定部112が各ユーザのアバターについて決定してアバターパラメータテーブルに記憶させたアバターパラメータに基づいて、各アバターの画像を合成して、仮想会議室に各アバターを配置した画像を生成する。画像を合成する方法は、既知の三次元CGを合成する方法を用いれば良い。図7は、図6に示されるアバターパラメータを用いて、実際の仮想会議室に各アバターを配置した例を示す図である。図8は、図7で示すカメラが配置された位置の視点からの映像を三次元CGとしてレンダリングした画像を例示する図である。同図においては、初期状態として、5名が等間隔に半周に並んでいることが示されている。表示制御部114は、合成部113が生成した画像を表示部55に表示させる。
 次に、本実施の形態にかかるテレビ会議装置50の行うアバター表示処理の手順について図9を用いて説明する。テレビ会議装置50は、録音部102の機能により、ユーザの発言した音声を録音し、音声情報送信部103の機能により、録音した音声と当該テレビ会議装置50のユーザIDとを少なくとも含む音声情報を、ネットワークを介して、テレビ会議システムに接続される他のテレビ会議装置50全てに送信し、録音した音声を音声出力部58から出力させる。また、テレビ会議装置50は、生成部104の機能により、撮影部56が撮影した映像を用いて、当該テレビ会議装置50のユーザの姿勢に関する姿勢情報を生成し、アバター情報送信部105の機能により、当該姿勢情報と、当該テレビ会議装置50のユーザのユーザIDとを少なくとも含むアバター情報を、ネットワークを介して、テレビ会議システムに接続される他のテレビ会議装置50全てに送信する。一方で、テレビ会議装置50は、音声情報受信部106の機能により、音声情報を受信し(ステップS1)、発言者情報抽出部107の機能により、当該音声情報及び当該テレビ会議装置50が録音した音声のうち少なくとも一方から発言者情報を抽出した場合(ステップS2:YES)、会議状態履歴管理部111の機能により、会議状態テーブルに記憶されている会議状態情報を更新し、新たに会議状態履歴情報を生成してこれを会議状態履歴テーブルに記憶させる(ステップS3)。また、テレビ会議装置50は、アバター情報受信部108の機能により、アバター情報を受信し(ステップS4)、視線情報抽出部109の機能により、当該アバター情報及び当該テレビ会議装置50が生成した姿勢情報のうち少なくとも一方から視線情報を抽出した場合(ステップS5:YES)、会議状態履歴管理部111の機能により、会議状態テーブルに記憶されている会議状態情報を更新し、新たに会議状態履歴情報を生成してこれを会議状態履歴テーブルに記憶させる(ステップS6)。
 ここで、ステップS3で会議状態履歴管理部111の機能により行う処理の詳細な手順について図10を用いて説明する。会議状態履歴管理部111は、発言者情報抽出部107が抽出した発言者情報を取得し(ステップS700)、当該発言者情報に含まれるユーザIDに対応して会議状態テーブルに記憶されている会議状態情報を参照して、当該会議状態情報に含まれる注視対象ユーザIDを抽出する(ステップS701)。次いで、会議状態履歴管理部111は、ステップS700で取得した発言者情報に含まれる発言状態変化情報が「開始」を示しているか否かを判断する(ステップS702)。当該発言状態変化情報が「開始」を示している場合(ステップS702:YES)、会議状態履歴管理部111は、現在の時刻と、ステップS700で取得した発言者情報に含まれるユーザIDと、ステップS701で抽出した注視対象ユーザIDと、「発言開始」を示す発言状態変化情報とを含む会議状態履歴情報を新たに生成してこれを会議状態履歴テーブルに記憶させる(ステップS703)。次いで、会議状態履歴管理部111は、ステップS700で取得した発言者情報に含まれるユーザIDに対応して会議状態テーブルに記憶されている会議状態情報に含まれる発言状態情報が「発言中」を示すよう、当該会議状態情報を更新して(ステップS704)、処理を終了する。
 一方、ステップS702で、発言状態変化情報が「発言終了」を示している場合(ステップS702:NO)、会議状態履歴管理部111は、現在の時刻と、ステップS700で取得した発言者情報に含まれるユーザIDと、ステップS701で抽出した注視対象ユーザIDと、「発言終了」を示す発言状態変化情報とを含む会議状態履歴情報を新たに生成してこれを会議状態履歴テーブルに記憶させる(ステップS705)。次いで、会議状態履歴管理部111は、ステップS700で取得した発言者情報に含まれるユーザIDに対応して会議状態テーブルに記憶されている会議状態情報に含まれる発言状態情報が「沈黙」を示すよう、当該会議状態情報を更新して(ステップS706)、処理を終了する。以上の処理を会議状態履歴管理部111は発言者情報が得られる都度行う。
 次に、ステップS6で会議状態履歴管理部111の機能により行う処理の詳細な手順について図11を用いて説明する。会議状態履歴管理部111は、視線情報抽出部109が抽出した視線情報を取得し(ステップS800)、当該視線情報に含まれる注視元ユーザIDに対応して会議状態テーブルに記憶されている会議状態情報を参照して、当該会議状態情報に含まれる発現状態情報を抽出する(ステップS801)。そして、会議状態履歴管理部111は、当該発言状態情報が「発言中」を示しているか否かを判断する(ステップS802)。「発言中」を示している場合(ステップS802:YES)、会議状態履歴管理部111は、現在の時刻と、ステップS800で取得した視線情報に含まれる注視元ユーザIDと、ステップS800で取得した視線情報に含まれる注視対象ユーザIDと、「継続」を示す発言状態変化情報とを含む会議状態履歴情報を新たに生成してこれを会議状態履歴テーブルに記憶させる(ステップS803)。次いで、会議状態履歴管理部111は、ステップS800で取得した視線情報に含まれる注視元ユーザIDに対応して会議状態テーブルに記憶されている会議状態情報に含まれる注視対象ユーザIDを、当該視線情報に含まれる注視対象ユーザIDに更新することにより、当該会議状態情報を更新して(ステップS804)、処理を終了する。一方、ステップS802で、発言状態情報が「沈黙」を示している場合(ステップS802:NO)、ステップS803を経ずに、S804に進む。以上の処理を会議状態履歴管理部111は視線情報が得られる都度行う。
 図9の説明に戻る。テレビ会議装置50は、会議状態履歴テーブルに新たな会議状態履歴情報が記憶されると、決定部112の機能により、新たな会議状態履歴情報に応じて各アバターの位置とサイズとをアバターパラメータとして決定してこれをアバターパラメータテーブルに記憶させる(ステップS7)。ここで、ステップS7で決定部112の機能により行う処理の詳細について説明する。決定部112は、会議状態履歴テーブルに会議状態履歴情報が記憶されると、会議状態履歴情報を解析して、ユーザが会議においてどれぐらい重要な役割を占めているかというユーザの参加度と、ユーザ間の関係とを計算する。具体的には、決定部112は、会議状態履歴テーブルに初めて会議状態履歴情報が記憶されたとき、会議状態履歴情報を解析して、ユーザの参加度を示すユーザ参加度テーブルと、ユーザ間の関係を距離として示すユーザ関係テーブルとを生成し、その後、会議状態履歴テーブルに新たな会議状態履歴情報が記憶される度に、ユーザ参加度テーブルと、ユーザ関係テーブルとを更新する。ユーザの参加度を計算する方法は以下の通りである。決定部112は、会議状態履歴情報を解析して、ユーザ毎に、発言回数と、平均発言時間と、注視された回数である被注視回数とを計算する。そして、決定部112は、発言回数と、平均発言時間と、被注視回数との各偏差値を計算する。これらを各々発言率k、演説度l、注目率nとする。尚、偏差値を計算する方法は、以下の通りである。母集団のサイズがN、各値がxi、母集団の平均がμx、母集団の標準偏差がσxであるとき、項目iの偏差値Tiは以下の式1により求められる。
Figure JPOXMLDOC01-appb-M000001
 そして、決定部112は、計算した各値をユーザ毎にユーザ参加度テーブルに記憶させる。図12は、ユーザ参加度テーブルのデータ構成を例示する図である。同図に示されるように、ユーザ参加度テーブルには、発言回数と、平均発言時間と、注視された回数である被注視回数と、発言率kと、演説度lと、注目率nとがユーザ毎に記憶される。
 決定部112は、これらの変数k,l,nを用いて、上述のルール1~ルール3を組み込んだ以下の式2により各アバターのサイズsを決定し、式3により、各アバターの位置を表す二次元極座標のうちrを決定し、これらの値をアバターパラメータテーブルに記憶させる。
 サイズs=1.0+(l-50)*0.1   (if n>50)    ・・・(式2)
       1.0      (if n<=50)
距離r=1.0+(50-k)*0.2+(50-n)*0.1        ・・・(式3)
ただし、r<1.0の時、r=1.0とする
 また、ユーザの関係を距離として計算する方法は以下の通りである。決定部112は、会議状態履歴テーブルに記憶されている会議状態履歴情報を解析して、任意のユーザ2人について、どちらかが発言中に相手を注視した時間(注視時間という)を計算する、また、どちらも相手を注視していないまま発言が交代した、もしくはどちらかの発言の最中にもう1人が発言を開始した回数(視線なし交代回数という)を計算する。更に、決定部112は、注視時間に0.05を乗算したものに1.0を加算し、その結果を、視線なし交代回数に1.0を加算したもので除算し、これをコストとする。尚、除算の分子が0である場合は、1.0とする。なお、注視時間も視線無し交代回数も定義されていない場合は、コストは未定義状態とする。そして、決定部112は、相手のユーザIDと、当該相手に対する注視時間、視線なし交代回数及びコストとをユーザ毎にユーザ関係テーブルに記憶させる。図13は、ユーザ関係テーブルのデータ構成を例示する図である。同図に示されるように、2人のユーザの各組み合わせについて、注視時間、視線なし交代回数及びコストが各々記憶される。決定部112は、このコスト及び上述のルール4~ルール5を用いて、各アバターの位置を表す二次元極座標のうちθを決定する。
 ここで、このコスト及び上述のルール4~ルール5を用いてθを決定する処理の手順について図14を用いて説明する。図14の右側の図は、各ステップにおけるアバター間の関係をエッジ重み付き一次元ネットワークとして表したものである。丸で表される各ノードは各ユーザのアバターを表し、ノード間の線はエッジ、エッジ下の数字はエッジコストである。各ノードa1~a5は、ユーザID「1」~「5」のユーザのアバターに各々対応している。まず、ステップS1400では、決定部112は、ユーザ関係テーブルに記憶されているコストのうち最大のコストを有するユーザの組み合わせを抽出し、エッジコスト1.0としてエッジ重み付き一次元ネットワークに挿入する。ここでは、ユーザIDが「1」のユーザとユーザID「4」のユーザとの組み合わせについて、コストが最大であるので、ノードa1,a4について、エッジコスト1.0のエッジが張られる。次に、決定部112は、ステップS1400で抽出していない他のユーザ(ノードaxとする)全てについて、ステップS1400で抽出した2人のユーザ(ノードay1,ay2とする)それぞれに対するネットワークコストを計算する。このネットワークコストの計算は、図15に示すコストのネットワークにおける、経路上のコストを合計することで行う。ノードaxについてノードay1,ay2に対してそれぞれ計算した2つのネットワークコストのうち、値の小さい方をノードaxのコストとして決定し、その時の相手のノード(ノードay1,ay2のいずれかである)を親ノードとして決定する。例えば図15の例では、ノードa1,a5のネットワークコストは2.0であり、ノードa4,a5のネットワークコストは0.5であるから、ノードa5のコストは0.5であり、親ノードはノードa4である。決定部112は、コストの計算を行った結果を示す入力リストを生成する(ステップS1401)。図16は、入力リストを例示する図である。同図においては、ノードaxであるノードa2,a3,a5のうち、ノードa3,a5について、ノードay1であるa1及びノードay2であるノードa4に対してそれぞれ計算したネットワークコストと、このうち値の小さい方であるコストと、親ノードとが示されている。尚、ノードa2については、ネットワークコストが計算できないため、同図の入力リストにおいては、コストが示されておらず、親ノードが決定されていない。
 図14の説明に戻る。次に、決定部112は、最もコストの高いノードを選択し(ステップS1402)、選択したノードを親ノードの内側に挿入する。また、決定部112は、挿入したノードを入力リストから削除する(ステップS1403)。尚、挿入の際には、決定部112は、既に存在しているエッジコストをそのまま保存し、挿入したノードのコストを、当該ノードと親ノードとの間のエッジコストとする。入力リストにコストが示されるノードがあれば(ステップS1404:NO)、決定部112は、ステップS1402~S1403の処理を繰り返す。入力リストにコストが示されるノードがなくなると(ステップS1404:YES)、決定部112は、ステップS1402~S1403の処理を行っていない残りのノード、即ち、ネットワークコストの計算できないノード(ここではノードa2である)を、エッジ重み付き一次元ネットワークの最もエッジコストの高いノード間に挿入する(ステップS1405)。この時、挿入したノードの両側のエッジコストはそれぞれ、挿入前のエッジコストとする。例えば、図14のステップS1405の右側の図に示されるように、ノードa2が、最も高いエッジコスト(ここでは1.4である)のノード間であるノードa3,a5の間に、ノードa2が挿入され、この両側のエッジコストはそれぞれ、1.4となる。その後、決定部112は、エッジコストの合計が1.0となるように各エッジコストを正規化し、正規化したエッジコストの値をノード間、即ち、アバター間のθの値として決定する(ステップS1406)。そして、決定部112は、決定したθの値を、ユーザID毎にアバターパラメータテーブルに記憶させる。図14の例では、エッジコストの合計は4.3である。各エッジコストを4.3で割った値を、ノード間の角度(ラジアン)とする。例えばノードa1,a3の間は1/4.3=0.23(rad)である。さらに、一次元ノードリストの両端ノードの、番号が若い方をθ=0、もう一方をθ=1.0とし、それ以外のノードのθを前述のノード間の角度に従って決定する。
 図17は、図12に例示されるユーザ参加度テーブル及び図13に例示されるユーザ関係テーブルに基づいてアバターパラメータテーブルに記憶された各アバターのサイズs及び各アバターの位置を表す二次元極座標(r,θ)を例示する図である。図6に示される初期状態から、各ユーザの参加度及びユーザ間の関係に応じて、各アバターのサイズs及び各アバターの位置(r,θ)が変更される。
 図9の説明に戻る。ステップS7の後、テレビ会議装置50は、合成部113の機能により、ステップS7でアバターパラメータテーブルに記憶されたアバターパラメータに基づいて、各アバターの画像を合成して、仮想会議室に各アバターを配置した画像を生成する(ステップS8)。図18は、図17に例示されるアバターパラメータに基づいて、仮想会議室に各アバターを配置した状態を例示する図である。図19は、図18の状態を三次元CGとしてレンダリングして生成した画像を例示する図である。そして、テレビ会議装置50は、表示制御部114の機能により、ステップS8で生成した生成した画像を表示部55に表示させる(ステップS9)。例えば図19に示されるような画像が表示される。この画像を見ると、ユーザIDが「4」のユーザとユーザIDが「5」が同じグループであり、このグループが、ユーザIDが「1」のユーザと対話を行っていること、ユーザIDが「3」のユーザはオブザーバ的に存在すること、ユーザIDが「2」のユーザはあまり重要でないこと、ユーザIDが「4」のユーザが長く喋りがちであることなどが判断できる。
 以上のように、テレビ会議システムにおいて、発言者情報と視線情報とを用いて会議状態履歴情報を生成し、これを用いて各ユーザを表すアバターの位置及びサイズを決定し、仮想会議室に配置した各アバターを表示することで、各ユーザの参加度やユーザ同士の関係などの会議の全体的な状況を、自動的に且つ分かりやすく自然に提示することができる。
[第2の実施の形態]
 次に、テレビ会議装置の第2の実施の形態について説明する。なお、上述の第1の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
 本実施の形態にかかるテレビ会議システムでは、中央サーバに、複数のテレビ会議装置50´がネットワークを介して接続され、各テレビ会議装置50´は、中央サーバを介して通信を行なう。中央サーバは、例えば、MCU(Multipoint Control Unit)や、上述した通常のコンピュータを利用したハードウェア構成となっている。
 図20は、中央サーバ200と、テレビ会議装置50´との機能的構成を例示する図である。同図においては、図の簡略化のため、中央サーバ200に接続される1つのテレビ会議装置50´についてのみ図示しているが、中央サーバ200に接続される他のテレビ会議装置50´についても同様の構成である。中央サーバ200は、音声情報受信部106と、アバター情報受信部108と、発言者情報抽出部107と、視線情報抽出部109と、会議状態履歴管理部111と、会議状態履歴送信部201と、音声情報送信部(不図示)とを有する。発言者情報抽出部107と、視線情報抽出部109と、会議状態履歴管理部111との各構成は、上述の第1の実施の形態と略同様である。音声情報受信部106は、当該中央サーバ200に接続される全てのテレビ会議装置50´の音声情報送信部103が各々送信した音声情報を各々受信する。アバター情報受信部108は、当該中央サーバ200に接続される全てのテレビ会議装置50´のアバター情報送信部105が各々送信したアバター情報を各々受信する。会議状態履歴送信部201は、会議状態履歴管理部111の有する会議状態履歴テーブルに記憶された会議状態履歴情報を、ネットワークを介して、中央サーバ200に接続される全てのテレビ会議装置50´に送信する。音声情報送信部は、音声情報受信部106が情報処理装置50´から受信した音声情報を他の情報処理装置50´に各々送信する。
 テレビ会議装置50´は、録音部102と、音声情報送信部103と、生成部104と、アバター情報送信部105と、音声情報受信部106と、会議状態履歴受信部202と、決定部112と、合成部113と、表示制御部114と、音声情報受信部(不図示)とを有する。決定部112と、合成部113と、表示制御部114との各構成は、上述の第1の実施の形態と略同様である。会議状態履歴受信部202は、中央サーバ200の会議状態履歴送信部201から送信された会議状態履歴情報を受信して、これをRAMなどの主記憶部に記憶させる。複数の会議状態履歴情報が主記憶部に記憶されることにより、図5に例示される会議状態履歴テーブルが構成される。音声情報受信部は、中央サーバ200から送信された、他のテレビ会議装置50´の音声情報を受信し、当該音声情報によって表される音声を、音声出力部59から出力させる。
 次に、本実施の形態にかかる中央サーバ200の行う会議状態履歴情報送信処理の手順について図21を用いて説明する。ステップS1~S6は上述の第1の実施の形態と同様である。ステップS20では、中央サーバ200は、ステップS6で新たに生成した会議状態履歴情報を、会議状態履歴送信部201の機能により、ネットワークを介して、中央サーバ200に接続される全てのテレビ会議装置50´に送信する。
 次に、本実施の形態にかかるテレビ会議装置50´の行う会画像表示処理の手順について図22を用いて説明する。テレビ会議装置50´は、中央サーバ200から送信された会議状態履歴情報を受信してこれを主記憶部に記憶させる(ステップS21)。ステップS7~S9は上述の第1の実施の形態と同様である。
 以上のように、テレビ会議システムにおいて、中央サーバ200を介することによっても、各ユーザの参加度やユーザ同士の関係などの会議の全体的な状況を、自動的に且つ分かりやすく自然に提示することができる。また、中央サーバ200が、発言者情報と視線情報とを用いて会議状態履歴情報を生成してこれをテレビ会議装置50´に送信することで、テレビ会議装置50´が会議状態履歴情報を生成する必要がないので、テレビ会議装置50´の処理負担を軽減することができる。
[変形例]
 なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
 上述した第1の実施の形態において、テレビ会議装置50で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成しても良い。第2の実施の形態におけるテレビ会議装置50´で実行される各種プログラム及び中央サーバ200で実行される各種プログラムについても同様である。
 上述した各実施の形態においては、録音部102と、音声情報送信部103と、生成部104と、アバター情報送信部105と、音声情報受信部106と、発言者情報抽出部107と、アバター情報受信部108と、視線情報抽出部109と、会議状態履歴管理部111と、決定部112と、合成部113部とは、電子回路等のハードウェアにより構成されても良い。また、これらの各部の全部又は一部は、各々異なるプロセッサにより構成され、LANやインターネット等のネットワークを介して接続されるようにしても良い。
 上述した第1の実施の形態においては、テレビ会議システムに接続されるテレビ会議装置は、当該実施の形態にかかる構成を有するテレビ会議装置50であるとしたが、これに限らず、テレビ会議システムに接続される一部のテレビ会議装置が、当該実施の形態にかかるテレビ会議装置50であっても良い。第2の実施の形態においても同様に、中央サーバ200に接続される一部のテレビ会議装置が、当該実施の形態にかかる構成を有するテレビ会議装置50´であっても良い。
 また、上述した第1の実施の形態においては、テレビ会議装置50は、生成部104及びアバター情報送信部105を備えなくても良い。この場合、テレビ会議装置50が会議状態履歴情報の生成に用いるアバター情報には、他のテレビ会議装置50から受信したアバター情報のみを用いる。上述の第2の実施の形態においても同様に、テレビ会議装置50´は、生成部104及びアバター情報送信部105を備えなくても良い。この場合、中央サーバ200が会議状態履歴情報の生成に用いるアバター情報には、他のテレビ会議装置50´から受信したアバター情報のみを用いる。会議状態履歴情報の送信は、アバター情報を送信していないテレビ会議装置50´を含む、当該中央サーバ200に接続される他のテレビ会議装置50´に対して行えば良い。
 上述した第1の実施の形態においては、テレビ会議装置50は、会議後に当該会議の画像を再生可能であっても良い。この場合、テレビ会議装置50は、ユーザが操作入力部57を介して、過去の時刻を指定して会議の画像の再生を指示すると、会議状態履歴管理部111は指定された時刻の会議状態履歴情報を取得して、これを決定部112に渡す。決定部112は、上述と同様にして、当該会議状態履歴情報を用いて、アバターパラメータを決定しても良い。また、決定部112は、指定された時刻よりも後の時刻の会議状態履歴情報を用いて、アバターパラメータを決定しても良い。
 上述した第2の実施の形態においても、テレビ会議装置50´は、中央サーバ200から受信した会議状態履歴情報をHDDなどの補助記憶部に保存しておき、ユーザが操作入力部57を介して、過去の時刻を指定して会議の画像の再生を指示すると、決定部112が指定された時刻の会議状態履歴情報を取得するようにしても良い。
 上述の各実施の形態においては、姿勢情報は、注視対象ユーザIDに限らず、ユーザの各関節の角度や表情のパラメータなどのユーザの姿勢を表す情報を含んでも良く、この情報によって表される姿勢を、アバターの画像に反映させるようにしても良い。また、アバター情報は、アバターの画像を合成するためのその他の情報を含んでいても良い。また、ユーザの視線を向いている方向を判断する方法は、上述のものに限らない。
 上述の各実施の形態においては、アバターパラメータは上述のものに限らない。また、アバターパラメータを決定する上で「場」の中心を中心とする極座標系を定義したが、アバターの位置を定義可能な別の形態であっても良い。例えば直行する二軸からなる通常の二次元座標系を想定できる。また、アバターパラメータを決定する方法は、上述の方法に限らない。例えば、時間が経つと徐々に初期位置に戻っていくようなものであっても良い。一般的には自動レイアウト手法として知られるアルゴリズムが適応できる。また、複雑な地形を持つ仮想世界において、関係距離の近いアバター同士が「小部屋」に集まろうとする性質を持つものが考えられる。さらに、画像の合成に用いるカメラの位置についても固定されている必要はない。
 上述の第1の実施の形態においては、テレビ会議装置50は、音声情報やアバター情報の送信を、これを受信する側のテレビ会議装置50からの要求に応じて行うようにしても良い。第2の実施の形態においても同様に、テレビ会議装置50´は、音声情報やアバター情報の送信を、中央サーバ200からの要求に応じて行うようにしても良い。
 また、第2の実施の形態においては、中央サーバ200は、会議状態履歴情報の送信を、これを受信する側のテレビ会議装置50´からの要求に応じて行うようにしても良い。例えば、テレビ会議装置50´の会議状態履歴受信部202は、表示制御部114が表示部55に表示させる画像を更新するタイミングに合わせて、会議状態履歴情報を中央サーバ200の会議状態履歴送信部201に要求するようにしても良い。
 上述の第1の実施の形態においては、特に会議状態履歴管理部111は、例えばデータベースであって、発言者情報抽出部107はデータベースに発言者情報に記憶させ、視線情報抽出部109はデータベースに視線情報を記憶させ、決定部112は、データベースにクエリ送ることで、会議状態履歴情報を取得するようにしても良い。
 また、第2の実施の形態においては、会議状態履歴送信部201は、会議状態履歴管理部111にクエリを送ることで、会議状態履歴情報を取得しても良い。
 上述の各実施の形態においては、会議状態履歴情報やアバターパラメータは、連続する複数の会議をまたがって保存されるものであっても良い。この場合、同じ参加者で再開される会議においては、テレビ会議装置は、当該会議の開始時に、例えば、図6に示される初期状態ではなく、前回の会議で決定されたアバターパラメータによって示される各アバターのサイズ及び位置を用いて、仮想会議室に各アバターを配置した画像を表示部55に表示させる。これにより、現在の会議の開始時に、前回の会議状態が再現され、最初から分かりやすい提示を行うことができる。
 上述の各実施の形態においては、参加者であるユーザのうち発言者について、注視した対象のユーザID(注視対象ユーザID)を抽出して、これを会議状態履歴情報に記憶したが、全ての参加者について、注視対象ユーザIDを抽出してこれを会議状態履歴情報に記憶するようにしても良い。
 上述の第2の実施の形態においては、中央サーバ200が、会議状態履歴送信部201を有するのではなく、決定部112を有し、決定部112が、会議状態履歴情報を用いて、アバターパラメータを決定してこれを、中央サーバ200に接続される全て又は一部のテレビ会議装置50´に送信するようにしても良い。一方、中央サーバ200に接続される全て又は一部のテレビ会議装置50´は、会議状態履歴受信部202ではなく、中央サーバ200から送信されたアバターパラメータを受信するアバターパラメータ受信部を有し、受信したアバターパラメータを用いて画像を生成するようにしても良い。
 上述の第2の実施の形態においては、中央サーバ200が、テレビ会議装置50´から受信した音声情報を、中央サーバ200に接続される他のテレビ会議装置50´に送信したが、テレビ会議装置50´間で互いに音声情報の送受信するようにしても良い。
 上述の第1の実施の形態においては、テレビ会議装置50は、撮影部56が撮影した映像を表す映像情報を他のテレビ会議装置50に送信し、他のテレビ会議装置50から送信された映像情報を受信し、当該映像情報によって表される映像を表示部55に表示させるようにしても良い。例えば、テレビ会議装置50は、表示部55における表示領域を分割して、分割された各表示領域に複数の映像を各々表示させる。この場合、他の情報処理装置50から送信された映像情報によって表される映像と、ステップS8で生成された画像とは、表示部55の各々異なる表示領域に表示させるようにしても良いし、重ねて表示させるようにしても良い。重ねて表示させる場合には、一方の透明度を増すようにしても良い。また、情報処理装置50は表示部55を複数備え、他の情報処理装置50から送信された映像情報によって表される映像と、ステップS8で生成された画像とを各々異なる表示部55に表示させるようにしても良い。
 上述の第2の実施の形態においても、テレビ会議装置50´は、撮影部56が撮影した映像を表す映像情報を中央サーバ200に送信し、他のテレビ会議装置50´から送信された映像情報を中央サーバ200を介して受信し、当該映像情報によって表される映像を表示部55に表示させるようにしても良い。この場合、中央サーバ200は、テレビ会議装置50´から送信された映像情報を受信すると、これを他のテレビ会議装置50´に送信すれば良い。また、テレビ会議装置50´間で互いに映像情報の送受信するようにしても良い。
50,50´ テレビ会議装置
51 制御部
52 主記憶部
53 補助記憶部
55 表示部
56 撮影部
57 操作入力部
58 音声入力部
59 音声出力部
102 録音部
103 音声情報送信部
104 生成部
105 アバター情報送信部
106 音声情報受信部
107 発言者情報抽出部
108 アバター情報受信部
109 視線情報抽出部
111 会議状態履歴管理部
112 決定部
113 合成部
114 表示制御部
200 中央サーバ
201 会議状態履歴送信部
202 会議状態履歴受信部

Claims (7)

  1.  異地点にいる複数の参加者が参加する会議において発言した参加者と、当該参加者が注視した相手の参加者と、発言の有無を示す発言状態情報とを時刻と共に示す会議状態履歴情報を取得する取得部と、
     前記会議状態履歴情報を用いて、前記複数の参加者を各々モデル化した各モデル画像を描画するためのパラメータを決定する決定部と、
     前記パラメータに従って、各前記モデル画像を合成する合成部と、
     合成された前記モデル画像を表示部に表示させる表示制御部とを備える
    ことを特徴とするテレビ会議装置。
  2.  他のテレビ会議装置から送信された、第1参加者の発言を表す第1音声情報から、発言者である第1参加者と発言の有無とを示す発言者情報を抽出する第1抽出部と、
     前記他のテレビ会議装置から送信された、前記第1参加者の姿勢に関する第1姿勢情報から、前記第1参加者が注視した相手である第2参加者を示す視線情報を抽出する第2抽出部と、
     前記発言者情報及び前記視線情報を用いて、前記第1参加者と、前記第2参加者と、発言の有無を示す発言状態情報とを時刻と共に示す会議状態履歴情報を生成する生成部と、
     前記会議状態履歴情報を記憶する記憶部とを更に備え、
     前記取得部は、前記記憶部に記憶された前記会議状態履歴情報を取得する
    ことを特徴とする請求項1に記載のテレビ会議装置。
  3.  前記記憶部は、複数の会議に関する前記会議状態履歴情報を記憶し、
     前記決定部は、過去の会議に関する前記会議状態履歴情報及び現在の会議に関する前記会議状態履歴情報を用いて、前記パラメータを決定し、
     前記合成部は、現在の会議の開始時に、過去の会議に関する前記会議状態履歴情報を用いて決定された前記パラメータに従って、各前記モデル画像を合成する
    ことを特徴とする請求項2に記載のテレビ会議装置。
  4.  前記決定部は、第1時刻における前記パラメータを、当該第1時刻より後の第2時刻を示す前記会議状態履歴情報を用いて決定する
    ことを特徴とする請求項3に記載のテレビ会議装置。
  5.  前記取得部は、前記会議状態履歴情報をサーバから受信する
    ことを特徴とする請求項1に記載のテレビ会議装置。
  6.  当該テレビ会議装置のユーザである第3参加者の発言を表す音声情報を前記他のテレビ会議装置又はサーバに送信する第1送信部と、
     前記第3参加者を撮影した映像を用いて判断した前記第3参加者の姿勢に関する姿勢情報を前記他のテレビ会議装置又はサーバに送信する第2送信部とを更に備える
    ことを特徴とする請求項1に記載のテレビ会議装置。
  7.  前記合成部は、仮想会議室に複数の前記モデル画像を配置した画像を生成し、
     前記決定部は、前記会議状態履歴情報を用いて、前記仮想会議室において前記モデル画像を配置する位置及びサイズである前記パラメータを決定する
    ことを特徴とする請求項1に記載のテレビ会議装置。
PCT/JP2009/065607 2009-09-07 2009-09-07 テレビ会議装置 WO2011027475A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/065607 WO2011027475A1 (ja) 2009-09-07 2009-09-07 テレビ会議装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/065607 WO2011027475A1 (ja) 2009-09-07 2009-09-07 テレビ会議装置

Publications (1)

Publication Number Publication Date
WO2011027475A1 true WO2011027475A1 (ja) 2011-03-10

Family

ID=43649037

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/065607 WO2011027475A1 (ja) 2009-09-07 2009-09-07 テレビ会議装置

Country Status (1)

Country Link
WO (1) WO2011027475A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013017027A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 音像定位制御システム、コミュニケーション用サーバ、多地点接続装置、及び音像定位制御方法
WO2014186757A3 (en) * 2013-05-17 2015-01-15 Huawei Technologies Co., Ltd. Multi-tier push hybrid service control architecture for large scale conferencing over information centric network, icn
CN106506908A (zh) * 2016-10-26 2017-03-15 宇龙计算机通信科技(深圳)有限公司 一种视频合成方法及装置
WO2017098780A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2018168247A1 (ja) * 2017-03-15 2020-01-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
EP3996365A1 (en) * 2020-11-10 2022-05-11 Fujifilm Business Innovation Corp. Information processing device and program
WO2022252866A1 (zh) * 2021-05-31 2022-12-08 腾讯科技(深圳)有限公司 一种互动处理方法、装置、终端及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08511917A (ja) * 1993-04-22 1996-12-10 エイ・ティー・アンド・ティ・コーポレーション マルチメディア通信ネットワーク
JP2000184345A (ja) * 1998-12-14 2000-06-30 Nec Corp マルチモーダルコミュニケーション支援装置
JP2007150918A (ja) * 2005-11-29 2007-06-14 Kyocera Corp 通信端末およびその表示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08511917A (ja) * 1993-04-22 1996-12-10 エイ・ティー・アンド・ティ・コーポレーション マルチメディア通信ネットワーク
JP2000184345A (ja) * 1998-12-14 2000-06-30 Nec Corp マルチモーダルコミュニケーション支援装置
JP2007150918A (ja) * 2005-11-29 2007-06-14 Kyocera Corp 通信端末およびその表示方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013017027A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 音像定位制御システム、コミュニケーション用サーバ、多地点接続装置、及び音像定位制御方法
WO2014186757A3 (en) * 2013-05-17 2015-01-15 Huawei Technologies Co., Ltd. Multi-tier push hybrid service control architecture for large scale conferencing over information centric network, icn
WO2014186760A3 (en) * 2013-05-17 2015-01-15 Huawei Technologies Co., Ltd. Multi-tier push hybrid service control architecture for large scale conferencing over information centric network, icn
US10171523B2 (en) 2013-05-17 2019-01-01 Futurewei Technologies, Inc. Multi-tier push service control architecture for large scale conference over ICN
US10375353B2 (en) 2015-12-11 2019-08-06 Sony Corporation Information processing apparatus, information processing method, and program
WO2017098780A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN108370431A (zh) * 2015-12-11 2018-08-03 索尼公司 信息处理装置、信息处理方法和程序
JPWO2017098780A1 (ja) * 2015-12-11 2018-09-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN106506908A (zh) * 2016-10-26 2017-03-15 宇龙计算机通信科技(深圳)有限公司 一种视频合成方法及装置
JPWO2018168247A1 (ja) * 2017-03-15 2020-01-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US11244510B2 (en) 2017-03-15 2022-02-08 Sony Corporation Information processing apparatus and method capable of flexibility setting virtual objects in a virtual space
JP7131542B2 (ja) 2017-03-15 2022-09-06 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
EP3996365A1 (en) * 2020-11-10 2022-05-11 Fujifilm Business Innovation Corp. Information processing device and program
WO2022252866A1 (zh) * 2021-05-31 2022-12-08 腾讯科技(深圳)有限公司 一种互动处理方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
US10699482B2 (en) Real-time immersive mediated reality experiences
WO2011027475A1 (ja) テレビ会議装置
JP4697907B2 (ja) 画像処理装置及び方法
JP4474013B2 (ja) 情報処理装置
JP5208810B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、およびネットワーク会議システム
US11948241B2 (en) Robot and method for operating same
WO2014192457A1 (ja) クライアント装置、制御方法、システム、およびプログラム
CN113508369A (zh) 交流支持系统、交流支持方法、交流支持程序以及图像控制程序
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
US20240012839A1 (en) Apparatus, systems and methods for providing conversational assistance
US11651541B2 (en) Integrated input/output (I/O) for a three-dimensional (3D) environment
JP2005322125A (ja) 情報処理システム、情報処理方法、プログラム
JP2017118364A (ja) コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
US11412178B2 (en) Information processing device, information processing method, and program
JP6803485B1 (ja) コンピュータプログラム、方法及びサーバ装置
JP3452348B2 (ja) 仮想空間における発話者特定方法及びそのプログラムを記録した記録媒体
JPWO2018135304A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2011118632A (ja) 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP2006338493A (ja) 次発言者検出方法、装置、およびプログラム
JP6697512B2 (ja) コンテンツ配信システム、コンテンツ配信方法、およびコンピュータプログラム
CN111144287A (zh) 视听辅助交流方法、装置及可读存储介质
JP2016048855A (ja) 遠隔意思疎通装置及びプログラム
WO2024116529A1 (ja) システム、システムの制御方法
JP7062126B1 (ja) 端末、情報処理方法、プログラム、および記録媒体
WO2024009653A1 (ja) 情報処理装置、情報処理方法、及び情報処理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09849005

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09849005

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP