WO2021220494A1 - 通信端末装置、通信方法、およびソフトウェアプログラム - Google Patents

通信端末装置、通信方法、およびソフトウェアプログラム Download PDF

Info

Publication number
WO2021220494A1
WO2021220494A1 PCT/JP2020/018345 JP2020018345W WO2021220494A1 WO 2021220494 A1 WO2021220494 A1 WO 2021220494A1 JP 2020018345 W JP2020018345 W JP 2020018345W WO 2021220494 A1 WO2021220494 A1 WO 2021220494A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
image
display
communication terminal
space
Prior art date
Application number
PCT/JP2020/018345
Other languages
English (en)
French (fr)
Inventor
塁 佐藤
Original Assignee
塁 佐藤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 塁 佐藤 filed Critical 塁 佐藤
Priority to US17/919,082 priority Critical patent/US20230164304A1/en
Priority to EP20933086.9A priority patent/EP4145397A4/en
Priority to JP2022518567A priority patent/JPWO2021220494A1/ja
Priority to PCT/JP2020/018345 priority patent/WO2021220494A1/ja
Publication of WO2021220494A1 publication Critical patent/WO2021220494A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1423Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/008Aspects relating to glasses for viewing stereoscopic images

Definitions

  • the present invention relates to a communication terminal device that realizes good dialogue between users in remote locations.
  • Patent Document 1 discloses a remote conference system in which a plurality of members share the same space.
  • the teleconferencing system of Patent Document 1 is composed of a server device and a plurality of client devices.
  • the client device includes a headset having an acceleration sensor and a display device worn by the user, and a three-dimensional shape acquisition sensor having an infrared sensor, an imaging means, and a sound collecting means.
  • the server device analyzes the user's motion using the depth signal transmitted from the client device, generates CG (computer graphics) based on the motion analysis, displays the real object data, synthesizes the augmented reality space, and synthesizes the augmented reality space.
  • the synthesized augmented reality space information is transmitted to the client device.
  • the client device displays an image on the display device of the headset and outputs an audio signal to the speaker based on the augmented reality space information received from the server device.
  • Patent Document 1 also discloses that a face texture acquired in advance is attached to the shape information of CG.
  • Patent Document 2 discloses a technique in which a virtual space is shared by a plurality of users and the position in the real space of each user is associated with the position in the virtual space.
  • the virtual space sharing system disclosed in Patent Document 2 transmits a means for detecting position information and visibility information at each location of a plurality of users at remote locations, and transmits the location information and visibility information to each user.
  • a user control means that receives the virtual space information transmitted to each user, and a position corresponding to the position information of each user in one virtual space that receives the position information and the visibility information of each user and is shared by a plurality of users.
  • Information processing means that arranges virtual objects that represent each user, generates virtual space information that displays the corresponding virtual space from each user's viewpoint according to each user's position information and visibility information, and transmits it to each user. And, each user is provided with a display means for inputting received virtual space information to each user control means and displaying the virtual space as seen from the viewpoint of each user.
  • Patent Document 3 discloses a technique for reducing a communication load in a virtual reality space sharing system.
  • the technique disclosed in Patent Document 3 is the above-mentioned first in a virtual reality space sharing system in which a virtual reality space is shared between a first terminal used by a first user and a second terminal used by a second user.
  • An image generation device that generates a virtual reality space image for display on one terminal is a line-of-sight information acquisition unit that acquires line-of-sight information including the position and line-of-sight direction of the second user in the virtual reality space from the second terminal.
  • An image generation unit that generates a virtual reality space image to be displayed on the first terminal based on the line-of-sight information from the second terminal, and the virtual reality space image generated by the image generation unit are the first. It includes an image supply unit that supplies one terminal. Further, Patent Document 3 discloses that an object such as an avatar is displayed in the virtual reality space instead of the other user, and the face orientation of the object is made to match the face orientation of the other user.
  • the partner user appearing in the virtual space shared by a plurality of users is an image of CG such as an avatar or an image in which a face texture acquired in advance is attached to the shape of the partner user. ..
  • the other user appearing in the virtual space shared by a plurality of users is a virtual object.
  • the other user who appears in the virtual space shared by a plurality of users is an avatar. Therefore, it cannot be said that non-verbal information transmission is sufficient for communication using the techniques of Patent Documents 1 to 3.
  • An object of the present invention is to provide a technique for realizing good dialogue between users in remote locations.
  • the communication terminal device includes a voice acquisition unit that acquires voice including the voice of the own user who uses the own device, and visual information that enables formation of three-dimensional data of a person in a predetermined user space.
  • the visual information acquisition unit that acquires The information transmission unit that transmits to other devices, the first virtual space in which the user space is fixedly arranged, and the second virtual space in which the user space of the other device is fixedly arranged are arranged at predetermined relative positions and relative angles.
  • An image display unit that displays an image of the shared virtual space that can be seen from the viewpoint position of the own user based on the image transmission information transmitted from another device on the display surface whose relative position is fixed with respect to the shared virtual space. It has an audio output unit that outputs audio based on audio transmission information transmitted from another device.
  • FIG. 1 It is a block diagram of the communication system by embodiment. It is a block diagram of the communication terminal apparatus by embodiment. It is a conceptual diagram for demonstrating the process of displaying an image. It is a figure which shows the appearance that the image of the shared virtual space is displayed on the display surface. It is a figure which shows the state of change of the image displayed on a display surface. It is a block diagram of the communication terminal apparatus according to Example 1.
  • FIG. 1 It is the schematic plan view of the communication terminal apparatus according to Example 1.
  • FIG. It is a schematic perspective view of the communication terminal apparatus of Example 1.
  • FIG. It is a flowchart of the image display processing in Example 1. It is a figure which shows an example of the arrangement designation screen in Example 1.
  • FIG. It is the schematic perspective view of the communication terminal apparatus of Example 3.
  • FIG. It is a block diagram of the communication terminal apparatus according to Example 4. It is a schematic plan view of the communication terminal apparatus according to Example 4.
  • FIG. It is a flowchart of the image display processing in Example 4. It is a block diagram of the communication terminal apparatus according to Example 5. It is a schematic plan view of the communication terminal apparatus according to Example 5. It is a schematic perspective view of the communication terminal apparatus of Example 5. It is a figure which shows an example of the arrangement designation screen in Example 5. It is a conceptual diagram which shows how a plurality of users have realized the face-to-face dialogue in a shared space in a pseudo manner. It is a block diagram of the communication terminal apparatus according to Example 6. It is a schematic plan view of the communication terminal apparatus according to Example 6. It is a schematic perspective view of the communication terminal apparatus of Example 6. It is a conceptual diagram which shows the field of view obtained from the user of Example 6.
  • FIG. 1 is a block diagram of a communication system according to the present embodiment.
  • the communication system 1 includes a plurality of communication terminal devices 10.
  • the communication system 1 is a system that reproduces an experience in which a plurality of remote users 91 have a face-to-face dialogue in the same space.
  • the plurality of communication terminal devices 10 have basically the same configurations and functions, and can be connected to each other via the communication network 90.
  • the communication terminal device 10 is referred to as a self-device
  • the user 91 who uses the self-device is referred to as a self-user
  • the communication terminal device 10 different from the self-device is referred to as another device.
  • the user 91 who uses another device may be referred to as another user.
  • the number of other devices may be one or more, and may be plural.
  • FIG. 2 is a block diagram of the communication terminal device according to the present embodiment.
  • the communication terminal device 10 includes a voice acquisition unit 11, a visual information acquisition unit 12, a person capture unit 13, an information transmission unit 14, an image display unit 15, and a voice output unit 16.
  • a predetermined range of the real space in which the user 91 using the communication terminal device 10 will exist is set as the user space, and it is assumed that the user 91 moves in the user space.
  • the voice acquisition unit 11 acquires voice including the voice of the user 91 in the user space.
  • the voice acquisition unit 11 includes a microphone (not shown), and acquires voice information by the microphone.
  • the visual information acquisition unit 12 acquires visual information that enables generation of three-dimensional data of an object in the user space.
  • the three-dimensional data may be data that represents a three-dimensional object in a three-dimensional space, and the specific method is not particularly limited.
  • the object in the user space may include a user 91 using the communication terminal device 10.
  • Visual information includes, for example, image information and depth information. Further, the visual information is acquired at a predetermined frame rate such as 30 to 60 fps (frames per second).
  • the visual information acquisition unit 12 includes an image sensor (not shown) and a depth sensor (not shown), and may acquire an image in real time by the image sensor and acquire the depth in real time by the depth sensor.
  • the person capture unit 13 identifies the viewpoint position of the user 91 based on the image and / or depth of the user space acquired by the visual information acquisition unit 12.
  • the viewpoint is the position where the eyeball is located.
  • the viewpoint position is a position in three-dimensional space, and can be represented by, for example, the coordinates of a three-axis Cartesian coordinate system.
  • the person capturing unit 13 detects a person in the user space in real time based on the image and / or depth information, further identifies the head of the detected person, and sets the center of the head to the user 91.
  • the viewpoint position of is a position in three-dimensional space, and can be represented by, for example, the coordinates of a three-axis Cartesian coordinate system.
  • the viewpoint position may be any position as long as it can be regarded as the position of the viewpoint of the user 91 or the viewpoint of the user 91, and is not limited to the example of the present embodiment.
  • the center of the face area recognized by the face recognition process or the person recognition process, or the center of the recognized eyes may be the viewpoint position of the user 91.
  • the information transmission unit 14 transmits the image transmission information based on the image and depth of the user space acquired by the visual information acquisition unit 12 and the voice transmission information based on the voice acquired by the voice acquisition unit 11 to another device. ..
  • the image transmission information is information that enables the image display unit 15 of another device to reproduce an image.
  • the image transmission information may include, for example, the image and depth information as acquired by the visual information acquisition unit 12, or may include compressed information thereof, and a part of them may be reduced.
  • the information may be included, or the image and depth information of only the feature points of the person may be included.
  • the feature points are the face and body feature points of the user 91, and indicate, for example, the position of the joint of the arm, the position of the eye, the position of the mouth, and the like. From the information of these feature points, it is possible to reproduce the posture, movement, and facial expression of the person.
  • the voice transmission information is information that enables voice output by the voice output unit 16 of another device.
  • the voice transmission information may include, for example, voice information as it is acquired by the voice acquisition unit 11, compressed information thereof, or partially reduced information. May be included, or information processed from them may be included.
  • the image display unit 15 is a shared virtual space in which the first virtual space in which the user space of the own device is fixedly arranged and the second virtual space in which the user space of the other device is fixedly arranged are arranged at predetermined relative positions.
  • An image of the shared virtual space that can be seen from the viewpoint position of the own user is displayed on a display surface that forms a space and whose relative position is fixed with respect to the virtual space, based on the image transmission information transmitted from another device.
  • the place where the physical entity that performs the process of generating the image to be displayed on the display surface of the other device based on the visual information acquired by the own device exists is not particularly limited.
  • the processing may be performed by the own device, another device, or cloud computing between the own device and the other device.
  • the viewpoint position of the own user is updated in real time by the person capture unit 13, and the image display unit 15 displays the image of the shared virtual space seen from the viewpoint position in real time by using the information of the viewpoint position of the own user updated in real time. Display on the surface. As a result, an image having motion parallax is projected on the display surface.
  • the display surface on which the image is displayed is not particularly limited, and includes a display surface for displaying the image of the display device, a display surface on which the image of the projector is projected, and the like.
  • the display surface may be composed of one or more planes. If the display surface is rectangular and flat, the position of the display surface as a whole (for example, the position of the center), without having to represent the display surface by the position in the three-dimensional space for each point included in the display surface. It can be represented by posture (eg roll angle, pitch angle, and yaw angle) and size (eg length and width respectively). Further, the display surface may be composed of one or a plurality of curved surfaces.
  • the curved surface extends over a predetermined angle range in the circumferential direction of the inner surface of the cylinder, it is uniquely determined by the radius of the cross section of the cylinder, the height of the cylinder, and the angle range in which the curved surface extends when viewed from the center of the circle.
  • the curved surface extends over a predetermined angle range of the inner surface of the sphere, it is uniquely determined by the radius of the sphere and the angle range (roll angle, pitch angle, and yaw angle) seen from the center of the sphere. ..
  • the display surface of a curved surface can generally be represented by the position of each point included in the display surface in three-dimensional space. Further, the display surface may be configured to include one or more curved surfaces and one or more planes.
  • the image transmitted from the other device is used as a process for the own user to make the image look as if it is a certain and natural image so as to give the user the illusion that another user in the shared virtual space exists there.
  • 3D data data of the 3D object in the shared virtual space
  • the 3D in the shared virtual space defined in the 3D data is generated.
  • a projection transformation is performed so that the original object is projected onto a display surface, that is, a two-dimensional surface.
  • other processing methods that obtain the same effect may be used.
  • a shared virtual space is used as a reference coordinate space, and each point of the three-dimensional data is projected on the point where the straight line connecting each point and the viewpoint position intersects the display surface in the reference coordinate space.
  • four arithmetic operations of a specific matrix or numerical value according to an empirical rule may be performed on the image or the three-dimensional parameter of the image. ..
  • FIG. 3 is a conceptual diagram for explaining the process of displaying an image.
  • FIG. 3 shows a plan view of the first virtual space 21, the second virtual space 31, and the shared virtual space 41 as viewed from above.
  • the space is shown as a plane for convenience of drawing, but it also extends in the height direction.
  • the image display unit 15 defines a first virtual space 21 in which the user space 22 of the own device is fixedly arranged.
  • the visual information acquisition unit 12 has an imager 40 in which an image sensor for acquiring an image and a depth sensor for acquiring the depth are integrally configured, and the user space 22 has an angle of view of the imager 40.
  • the space extends over the area.
  • the size and shape of the user space 22 are not particularly limited.
  • the size and shape of the first virtual space 21 are not particularly limited.
  • the size of the first virtual space 21 may be infinite.
  • In the user space 22 of the own device there is a viewpoint position 24 of the own user 23 specified by the person capturing unit 13.
  • the image display unit 15 defines a second virtual space 31 in which the user space 32 of the other device is fixedly arranged.
  • the size and shape of the second virtual space 31 are also not particularly limited.
  • the size of the second virtual space 31 may be infinite.
  • the second virtual space 31 and the first virtual space 21 show an example in which the size and shape are the same. However, they do not necessarily have to be equal.
  • the other user 33 exists in the user space 32 of the other device, the image and depth of the other user 33 are acquired by the other device, and the image transmission information based on the image and depth information is transmitted to the own device.
  • the image display unit 15 defines a shared virtual space 41 in which the first virtual space 21 and the second virtual space 31 are arranged at predetermined relative positions.
  • the shared virtual space 41 is a superposition of the first virtual space 21 and the second virtual space 31.
  • the viewpoint position 24 of the own user 23 and the other user 33 exist.
  • the image display unit 15 is a shared virtual space that can be seen from the viewpoint position 24 of the own user 23 based on the image transmission information transmitted from another device on the display surface 42 whose relative position with respect to the shared virtual space 41 is fixed. Display the image.
  • FIG. 4 is a diagram showing a state in which an image of the shared virtual space is displayed on the display surface.
  • the image acquired by the imager 40 and / or the image of the shared virtual space 41 seen from the viewpoint position 24 of the own user 23 specified based on the depth is displayed on the display surface 42. From the own user 23, it seems that another user 33 is in front of itself.
  • the image display unit 15 configures the shared virtual space 41 not only an object that actually exists in the user space of the communication terminal devices 10 connected to each other but also a virtual object that is common to a plurality of communication terminal devices 10.
  • the image may be displayed on the display surface. For example, when a user 91 holds a real object over an imager of a visual information acquisition unit 12 in a certain communication terminal device 10, the visual information acquisition unit 12 acquires three-dimensional data of the object and a plurality of communication terminals. In the device 10, the image display unit 15 may be able to configure a virtual object based on the three-dimensional data on the shared virtual space 41.
  • the voice output unit 16 outputs voice based on the voice transmission information transmitted from another device.
  • the audio output unit 16 includes, for example, a speaker (not shown), and outputs audio by the speaker.
  • the audio output unit 16 arranges the audio based on the audio transmission information transmitted from the other device by the stereo system, the surround system, the three-dimensional acoustic system, or the like, at a user fixed position of the other user in the shared virtual space 41. It may be reproduced as a sound heard from the same direction. Multiple people in remote areas can communicate with each other by live-action images and stereophonic sound in a virtual space.
  • FIG. 5 is a diagram showing how the image displayed on the display surface changes.
  • the person capturing unit 13 identifies the viewpoint position 24 of the own user 23, and the image display unit 15 displays the viewpoint of the own user 23 based on the image transmission information transmitted from the other device to the display surface 42.
  • the image of the shared virtual space seen from the position 24 is displayed. Therefore, as shown in FIG. 5, even if the other user 33 does not move, if the viewpoint position 24 of the own user 23 changes, the image displayed on the display surface 42 changes due to the motion parallax. For example, if the own user 23 shifts the viewpoint position 24 from the front to the right, he / she can look into the diagonally left profile of the other user 33.
  • the communication terminal device 10 shares a virtual space with another communication terminal device 10, and the virtual space is provided on the display surface 42 whose relative position is fixed to the virtual space. Since the live-action image of the other user 33 that is shared is displayed so that it can be seen from the viewpoint position 24 of the own user 23, good communication is performed while viewing each other's live-action images in a virtual space shared by a plurality of people in a remote location. Is realized.
  • the processing executed by the audio acquisition unit 11, the visual information acquisition unit 12, the information transmission unit 14, the person capture unit 13, the audio output unit 16, and the image display unit 15 shown in FIG. 2 is defined by a software program, and the memory is stored. And a computer with a processor may execute the software program.
  • Example 1 exemplifies a remote conference system that simulates a conference in which a plurality of users hold a face-to-face conference in the same conference room.
  • the remote conference system of the first embodiment has the same basic configuration as the communication system 1 according to the embodiments shown in FIGS. 1 to 4.
  • FIG. 6 is a block diagram of the communication terminal device according to the first embodiment.
  • the communication terminal device 10 includes a voice acquisition unit 11, a visual information acquisition unit 12, a person capture unit 13, an information transmission unit 14, an image display unit 15, a voice output unit 16, and an arrangement designation reception. It has a part 17.
  • the audio acquisition unit 11, the visual information acquisition unit 12, the person capture unit 13, the information transmission unit 14, the image display unit 15, and the audio output unit 16 are basically the same as those of the embodiment shown in FIG. ..
  • the arrangement designation reception unit 17 receives the arrangement of the user space 22 of the own device and the user space 32 of the other device with respect to the shared virtual space 41 by the designation from the user 91, and shares it with the other device.
  • the visual information acquisition unit 12 includes three imagers 40A, 40B, 40C, and the image display unit 15 includes three indicators 42A, 42B, 42C.
  • the visual information acquisition unit 12 and the image display unit 15 perform the operations described later based on the arrangement received by the arrangement designation reception unit 17.
  • FIG. 7 is a schematic plan view of the communication terminal device according to the first embodiment.
  • FIG. 8 is a schematic perspective view of the communication terminal device of the first embodiment.
  • a predetermined position in the user space 22 is a user fixed position 51
  • a predetermined direction from the user fixed position 51 is a user fixed direction 52.
  • the user fixed position 51 is a position where the user 91 using the communication terminal device 10 will mainly exist.
  • the user fixed direction 52 is the direction in which the user 91 using the communication terminal device 10 will mainly face.
  • the displays 42A to 42C are all display devices having a rectangular and flat display surface, and the display surface is arranged toward the user's fixed position 51.
  • the display 42B is arranged in the user fixed direction 52 when viewed from the user fixed position 51.
  • the display 42C is arranged on the right side of the user fixed direction 52 when viewed from the user fixed position 51.
  • the display 42A is arranged on the left side of the user fixed direction 52 when viewed from the user fixed position 51.
  • the displays 42A to 42C are all arranged with the display surface facing the user fixed position 51.
  • the display 42C preferably has an angle of 90 ° or more and less than 180 ° between the display 42B and each other's display surfaces.
  • the display 42C is 90 ° and is close to the right side of the display 42B, but the user is comfortable.
  • the device may be arranged at an angle of less than 90 ° as long as it can be used.
  • the display 42A preferably has an angle of 90 ° or more and less than 180 ° between the display 42B and each other's display surfaces.
  • the display 42A is 90 ° and is close to the left side of the display 42B, but the user is comfortable.
  • the device may be arranged at an angle of less than 90 ° as long as it can be used.
  • the indicators 42A to 42C all show an example in which they are erected at 90 ° with respect to the horizontal plane, they may be angled between 0 ° and 180 ° with respect to the horizontal plane.
  • Each of the imagers 40A to 40C has a fixed relative position with respect to the user fixed position 51, is fixed in the relative direction with respect to the user fixed direction 52, is isolated from each other, and directs the imaging direction toward the user fixed position 51 in the user space 22. It is arranged so that at least a part of the image is taken.
  • the imager 40B is arranged near the center of the upper side of the display surface of the display 42B.
  • the imager 40A is arranged on the upper side of the display surface of the display 42A or on the left side of the display surface of the display 42A.
  • the imager 40C is arranged on the upper side of the display surface of the display 42C or on the right side of the display surface of the display 42C. In this embodiment, as shown in FIG. 8, the imager 40A is arranged on the left side of the display surface of the display 42A, and the imager 40C is arranged on the right side of the display surface of the display 42C.
  • FIG. 9 is a flowchart of the image display process in the first embodiment.
  • the image display process is a process in which the own device realizes a remote conference by mutual communication with another device, and is mainly executed by the information transmission unit 14, the image display unit 15, and the arrangement designation reception unit 17.
  • the arrangement designation reception unit 17 receives the designation of the arrangement of the own device and the other device with respect to the shared virtual space 41.
  • the user space 22 and the user fixed position 51 are fixedly defined for the displays 42A to 42C and the imagers 40A to 40C of the own device, and the user for the displays 42A to 42C and the imagers 40A to 40C of the other device. Since the user fixed positions of the space 32 and other devices are fixedly defined, the user spaces 22 and 32 with respect to the shared virtual space 41 and the user fixed positions are set by accepting the arrangement of the own device and the other device with respect to the shared virtual space 41. The arrangement of the position 51 and the user's fixed position of the other device can be determined.
  • the arrangement designation reception unit 17 displays, for example, the arrangement designation screen by the plan view of the shared space in which the object corresponding to the own device and the object corresponding to the other device can be movablely arranged. It may be displayed on the surface and the designation of the arrangement of the user spaces 22 and 32 with respect to the shared virtual space 41 may be accepted based on the position of the object designated with respect to the plan view.
  • FIG. 10 is a diagram showing an example of the arrangement designation screen in the first embodiment.
  • the layout designation screen 60 includes a conference room area 61 and a decision button 63.
  • the conference room area 61 is a plan view imitating a shared virtual space 41 corresponding to a virtual conference room.
  • a desk icon 62 which is an object corresponding to the communication terminal device 10 used by each member participating in the conference, is arranged.
  • the desk icon 62 can be moved or fixed by, for example, a mouse operation, a touch operation on the display 42B, or a gesture operation described later.
  • the shape and size of the conference room area 61 may be changed.
  • the shape and size of the shared virtual space 41 may be determined according to the shape and size of the conference room area 61.
  • the enter button 63 is pressed, the user spaces 22, 32, user fixed positions 51, and the like of each communication terminal device 10 in the shared virtual space 41 are based on the arrangement of the desk icon 62 with respect to the conference room area 61 at that time. The placement of the user's home position on the device is determined.
  • the arrangement designation reception unit 17 shows an example in which the user 91 freely moves the desk icon 62 to specify the arrangement, but other examples are also possible.
  • the arrangement designation reception unit 17 may assist the arrangement designation, or the arrangement designation reception unit 17 may automatically set or propose the arrangement.
  • a typical pattern of a plurality of arrangement configurations may be prepared in advance, and the user 91 may be allowed to select one of them. For example, when the number of users who participate in the meeting for the first time is input, the arrangement designation reception unit 17 may present the user with a pattern corresponding to the number of users and have the user select one of them.
  • the arrangement designation reception unit 17 automatically sets or proposes the arrangement, for example, when this conference is a place for making some presentation, the main presenter is in a position that can be easily seen by all the conference participants (example of FIG. 10). Then, it may be arranged at the positions of Mr. B of Company X and Mr. E of Y Company). Further, for example, the main presenter may be specified and the arrangement may be set based on the amount of speech at the meeting.
  • the user fixed positions 51 of the plurality of communication terminal devices 10 are arranged on each of the two straight lines parallel to each other, and the user fixed direction 52 of the communication terminal device 10 on each straight line is perpendicular to the other straight line. This can be achieved by setting the direction toward.
  • the arrangement of the user fixed position 51 on the straight line does not mean strict positioning, and the vertical orientation of the user fixed direction 52 to the straight line does not mean strict orientation determination. In both cases, it is sufficient that a user of a plurality of communication terminal devices 10 can simulate a state in which desks are arranged side by side in a conference.
  • step S102 the information transmission unit 14 sets the relative angle between the imaging direction of the imagers 40A to 40C of the own device in the shared virtual space and the straight line connecting the user fixed position of the other device and the user fixed position of the own device. Based on this, an image of a part that can be seen when an object within a predetermined range (for example, user space) of a user fixed position of another device is viewed within a predetermined range (for example, user space) of a user fixed position of the own device is acquired.
  • the imager is selected in such a manner, and image transmission information including image and depth information acquired by the selected imager is transmitted to other devices.
  • the information transmission unit 14 includes information from the imager 40C on the right side when the user fixed position of another device is arranged on the right side of the user fixed position 51 of the own device and the user fixed direction 52 in the shared virtual space 41. , Image transmission information that does not include information from the imager 40A on the left side may be transmitted to another device. Further, when the user fixed position of the other device is arranged on the left side of the user fixed position 51 of the own device and the user fixed direction 52 in the shared virtual space 41, the information transmission unit 14 provides information by the imager 40A on the left side. Image transmission information including the above and not including the information by the imager 40C on the right side may be transmitted to another device.
  • the information transmission unit 14 of the own device used by Mr. A of company X uses the image transmission information based on the image and depth data acquired by the imager 14B and the imager 14C in another device used by Mr. F of company Y. Communicate to. Focusing on the combination that the own user 23 is Mr.
  • a of company X and the other user 33 is Mr. B of company X, the image of Mr. A of company X acquired by the imager 40A on the left side of the own device Even if there is no image and depth data, it is possible to generate an image of Mr. A of Company X within a range that can be seen from the viewpoint position of Mr. B of Company X on another device.
  • the information transmission unit 14 of the own device used by Mr. A of company X transmits image transmission information based on the image and depth data acquired by the imager 14B and the imager 14C to another device used by Mr. B of company X. do.
  • the information transmission unit 14 sets the relative angle between the imaging direction of the imager and the straight line connecting the user's fixed position of the other device and the user's fixed position of the own device.
  • the process of selecting an imager is illustrated based on the above, other examples are also possible.
  • the information transmission unit 14 includes, in addition to the relative angle between the imaging direction of the imager and the straight line connecting the user's fixed position of the other device and the user's fixed position of the own device among the plurality of imagers 40A to 40C.
  • the imager may be selected based on the position, angle, and size of the display surface of the device.
  • the information transmission unit 14 is within a predetermined range (for example, user space) of the user fixed position of the own device via the display surface of the other device from within the predetermined range of the user fixed position of the other device (for example, user space).
  • the imager may be selected so that an image of the portion visible when the object is viewed is acquired.
  • an example is shown in which the information transmission unit 14 of the own user selects the image transmission information to be sent to the communication network 90 in advance and then sends the information, but the method is not limited to this method.
  • the information transmission unit 14 transmits the image transmission information obtained from all the imagers once to the server on the communication network 90, and then performs a process of selecting the image transmission information on the server side and sends it to another user. Very good.
  • the transmission data is not always selected in step S102, and this step may be skipped in an environment where a sufficient data communication band can be secured and the amount of data on the network does not need to be reduced.
  • step S103 the image display unit 15 can see from the viewpoint position 24 of the own user 23 on the display surface of the displays 42A, 42B, 42C based on the image transmission information transmitted from another device.
  • the image of the space 41 is displayed. Since the user spaces 22 and 32 of each user are fixedly arranged in the shared virtual space 41, other users at positions corresponding to the arrangement can be seen from the viewpoint position 24 of the own user 23.
  • FIG. 11 is a conceptual diagram showing a state of a remote conference in which a conference in which a plurality of users hold face-to-face in the same conference room is simulated.
  • FIG. 11 shows an example in which the arrangement shown in FIG. 10 is simulated.
  • the image display unit 15 arranges the user fixed position 51 of at least one of the own device and the other device on each of the first straight line and the second straight line parallel to each other, and the user fixed position is on the first straight line.
  • the user fixed direction 52 of the arranged device is set to the direction toward the second straight line perpendicular to the first straight line, and the user fixed direction 52 of the device in which the user fixed position 51 is arranged on the second straight line is set to the second straight line.
  • the shared virtual space may be formed so as to be perpendicular to the first straight line.
  • Mr. A, Mr. B, and Mr. C of Company X are lined up side by side on a straight line and face the back.
  • Mr. D, Mr. E, and Mr. F of Company Y are lined up side by side in a straight line and facing the front.
  • Mr. A, Mr. B, Mr. C, Mr. D, Mr. E, and Mr. F actually use the communication terminal device 10 in different places.
  • the displays 42A to 42C of the communication terminal device 10 of each user display an image of the shared virtual space 41 that can be seen from the viewpoint position of each user in the arrangement shown in FIG. As a result, all users can obtain the field of view from their respective seats when a meeting is held by six people who have desks arranged in the meeting room in the arrangement shown in FIG.
  • step S104 the arrangement designation reception unit 17 determines whether or not there is a request to change the arrangement of the own device and the other device with respect to the shared virtual space 41. If there is a request to change the arrangement, the arrangement designation receiving unit 17 returns to step S101 and accepts the arrangement designation.
  • the own user or another user can access the shape and size of the shared virtual space 41 corresponding to the conference room and the shared virtual space 41 corresponding to the arrangement of each user in the conference room.
  • the layout of the user space can be changed.
  • FIG. 12 is a conceptual diagram showing a state of a remote conference with another configuration.
  • Mr. A, Mr. B, and Mr. C of Company X who actually use the communication terminal device 10 in different places, face each other so as to surround the round table in the shared virtual space 41.
  • the image display unit 15 arranges the user fixed position 51 of the own device and the other device on a predetermined circle or polygon shape, and makes the user fixed direction of the own device and the other device a direction toward the center of the circle or the polygon.
  • the shared virtual space 41 may be formed.
  • FIG. 13 is a conceptual diagram showing a state of a remote conference with still another configuration.
  • Mr. A, Mr. B, and Mr. C of Company X who actually use the communication terminal device 10 in different places, are arranged side by side in the shared virtual space 41 to share images. It faces a possible image screen 65.
  • the image display unit 15 arranges the user fixed position 51 of the own device and the other device on a predetermined straight line, and makes the user fixed direction of the own device and the other device the same direction perpendicular to the straight line.
  • the space 41 may be formed. Multiple users can lie side by side and watch the projected image on a huge screen in virtual space together.
  • the shared virtual space is defined as a sphere with a size that allows all users to be included inside, and the entire space is shared by pasting a 360 ° image that is being streamed or shot inside the sphere. It can be used to see together.
  • the image screen 65 of FIG. 13 is configured in the shared virtual space 41 as a virtual object common to a plurality of communication terminal devices 10, and the image is displayed on the display surface. In the example of FIG. 13, the image displayed on Mr. C's personal computer 68 is displayed on the image screen 65.
  • step S104 the image display unit 15 determines in step S105 whether or not there is a request to end the remote conference. If there is no request to end the remote conference, the image display unit 15 returns to step S103. If there is a request to end the remote conference, the communication terminal device 10 ends the remote conference.
  • the virtual space of the own device and the other device is superposed and shared, and the actual image of the other user in the virtual space is displayed on the display surface whose relative position is fixed to the virtual space. Since it is displayed so that it can be seen from the viewpoint position of, good communication is realized while looking at each other's live-action images in a virtual space shared by a plurality of people in a remote place.
  • an image selected from the three imagers 40A to 40C based on the relative angle between the image pickup direction and the straight line connecting the user fixed position of the other device and the user fixed position 51 of the own device Since image transmission information based on the visual information acquired by the imager can be transmitted to other devices only for the device, the image transmission information transmitted from the own device to other devices is reduced, and the amount of data on the network is reduced. Can also be reduced.
  • the display surface is arranged so as to surround the user fixed position 51, so that the configuration for displaying the shared virtual space 41 in a wide angle range is compact. It can be realized by a large occupied space.
  • the positional relationship between the own device and the other device can be easily set as if the desk in the conference room is moved in the plan view on the screen.
  • the image display unit 15 represents three-dimensional data of the shared virtual space 41 in which an object in the second virtual space is represented by a point cloud or a polygon mesh based on the image and depth information transmitted from another device.
  • the image of the shared virtual space 41 that can be seen from the viewpoint position 24 of the own user 23 may be displayed on the display surface based on the generated three-dimensional data.
  • the image display unit 15 may be able to process the points in the point cloud.
  • the image display unit 15 displays the three-dimensional object semi-transparently by reducing the display size of the point on which the three-dimensional object is represented on the front side of the own user in the three-dimensional data, and is behind the three-dimensional object. Three-dimensional objects may also be visible.
  • FIG. 14 is a conceptual diagram showing how a screen in which a point cloud is processed is displayed on a display surface.
  • the characters of the whiteboard 35 on the virtual space behind the other user 33, which is displayed semi-transparently by processing the point cloud, are visible on the display surfaces of the indicators 42A, 42B, and 42C. It is shown.
  • the processing for changing the display size of the points in the point cloud is illustrated, but various other processing is also possible.
  • the information representing the skeleton obtained by calculation from the acquired image and / or depth information for the part other than the face of the human body is virtual.
  • the part of the user's body is displayed based on the information representing the skeleton, such as not drawing anything other than the face or only the face and one hand.
  • the light is wrapped around the user to make it stand out so that a certain user is noticed, while each point is close to the background color according to the viewpoint position so that only a certain user is noticed.
  • optical camouflage which is a process that makes it blend into the background and makes it inconspicuous by coloring it appropriately with color.
  • the person capturing unit 13 constantly and continuously identifies the viewpoint position 24 of the user 91, and the image display unit 15 tracks the viewpoint position 24 and is a shared virtual space that can be seen from the viewpoint position 24.
  • An example of displaying the image of 41 on the display surface of the displays 42A to 42C is shown.
  • the user 91 moves, the user 91 is visually given a sense of presence by the motion parallax.
  • the movement of the viewpoint position 24 of the user 91 may not be large. Considering such a case, it is possible to configure the viewpoint position 24 of the user 91 not to be constantly tracked.
  • the image display unit 15 fixes the viewpoint position 24 and displays the image of the shared virtual space 41 that can be seen from the viewpoint positions 24 of the displays 42A to 42C. It may be displayed on the display surface.
  • the user 91 may be made to take a natural posture, and the person capturing unit 13 may specify the viewpoint position 24 during that time.
  • the person capturing unit 13 specifies the viewpoint position 24 a plurality of times in a certain period of time, and the average value thereof is used as the average viewpoint position, and the image display unit 15 displays the image of the shared virtual space 41 that can be seen from the average viewpoint position.
  • the person capturing unit 13 continuously calculates the viewpoint position 24 of the user 91 for a certain period of time, and the image display unit 15 tracks the viewpoint position 24 and sees the shared virtual space 41 from the viewpoint position 24.
  • the image of is displayed on the display surface of the displays 42A to 42C, during which the person capturing unit 13 calculates the average viewpoint position, and the image display unit 15 is the average viewpoint position from the viewpoint position 24 specified by the person capturing unit 13. May be converged over a predetermined time.
  • the image display unit 15 may determine the reference viewpoint position in advance and display the image of the shared virtual space 41 that can be seen from the reference designated position on the display surfaces of the displays 42A to 42C. In that case, the process of the person capturing unit 13 specifying the viewpoint position 24 of the user 91 becomes unnecessary.
  • the reference viewpoint position for example, the viewpoint position may be used when a person having a standard physique uses the communication terminal device 10.
  • the viewpoint positions of a plurality of users using the communication terminal device 10 may be measured, and the average value thereof may be used as the reference designated position.
  • the viewpoint position fixed by such calculation or definition reads the information saved in the server on the communication network 90 when each user connects to the communication network 90, or saves it in the communication terminal device of the own user. By reading the obtained information, the viewpoint position determined when the present device was used before may be used again.
  • the communication terminal device 10 of this embodiment constitutes, for example, a conference booth for one person. Multiple conference booths may be located in the same room. Meeting booths may also be located in private homes for home work. In such a case, it is preferable to take noise countermeasures so that the voice of the user 91 does not leak to the surroundings. Therefore, the sound output unit 16 may be capable of outputting sound by an earphone, a neck speaker, or the like. Further, the audio output unit 16 may have a speaker having directivity toward the user's fixed position 51. Further, the communication terminal device 10 may reduce the voice of the user 91 leaking to the surroundings by the muffling speaker. Further, the output from the voice output unit 16 may be completely cut off, and the voice from another user may be converted into characters by the voice recognition technology and output to the image display unit 15 instead of the output from the voice output unit 16.
  • the image display unit 15 includes three indicators 42A to 42C is shown, but other configurations are also possible.
  • the image display unit 15 may further include an indicator arranged close to the bottom of the indicators 42A, 42B, 42C and having a display surface on the upper surface of a rectangle.
  • the image display unit 15 may include a display that is arranged close to the side of the display 42A, 42B, 42C in the ceiling direction and has a display surface on the lower surface of the rectangle.
  • the image display unit 15 uses the information on the viewpoint position of the own user, which is updated in real time, to display the image of the shared virtual space seen from the viewpoint position in real time on the display surfaces of the four indicators.
  • the field of view of the image of the shared virtual space is widened to the lower surface or the upper surface. You can see it in a wide field of view.
  • the communication terminal device 10 has a computer function capable of executing application software, and for example, the screen of the application software may be displayed on the display surface of a display having a display surface on the upper surface.
  • the display may be a touch panel display and the user 91 may accept the operation of the application software.
  • the display having a display surface on the upper surface and the display having a display surface on the lower surface may be arranged at an angle of 0 ° to 180 ° with respect to the horizontal plane.
  • the imager 40A is arranged on the upper side or the left side of the display surface of the display 42A, and the imager 40C is arranged on the upper side or the right side of the display surface of the display 42C. ..
  • the imager 40A is arranged so that the upper side of the display surface of the display 42A and the upper side of the display surface of the display 42B are adjacent to each other, and the imager 40C is the upper side of the display surface of the display 42C and the display.
  • the upper sides of the display surfaces of 42B may be arranged at positions adjacent to each other, and may not be directly above or close to the sides of these indicators.
  • the purpose of arranging the imagers 40A to 40C is to widely acquire the image and depth information of the own user 23 so that the entire image of the own user can be obtained, or to obtain a specific part such as the facial expression or palm of the own user. This is for acquisition in high resolution, and the imagers 40A to 40C may be arranged so as to be far from the user fixed position 51 or close to each other according to the purpose. Further, even if each imager and each display are not directly or indirectly connected via a connector or the like, if the relative positions and angles thereof are fixed, for example, the image display unit 15 Each indicator may be fixed to a fixing bracket that stands on the floor or a fixing bracket that is hung from the ceiling.
  • the communication terminal device 10 of the present embodiment may have an external connection terminal, connect a personal computer to the external connection terminal, and control the personal computer.
  • the communication terminal device 10 is a control for receiving control regarding a voice acquisition unit 11, a visual information acquisition unit 12, a person capture unit 13, an information transmission unit 14, an image display unit 15, an audio output unit 16, and an arrangement designation reception unit 17.
  • Data is output from the external connection terminal, and control information for it is input from the external connection terminal.
  • the arrangement designation reception unit 17 outputs the data of the arrangement designation screen 60 shown in FIG. 10 to the personal computer via the external connection terminal, and outputs control information such as moving the desk icon 62 from the personal computer to the external connection terminal.
  • the image display unit 15 configures the image screen 65 illustrated in FIG. 13 in the shared virtual space 41 based on the control information acquired from the personal computer via the external connection terminal, and displays the image on the display surface. You may decide to do it.
  • the external connection terminal is, for example, a wired LAN terminal or a USB terminal.
  • the control information is directly exchanged between the personal computer and the communication terminal device 10, or is exchanged via a server on the communication network 90. At this time, it may be a wireless connection by wireless LAN, Bluetooth, or the like instead of the physical connection terminal.
  • HDMI High-Definition Multimedia Interface
  • HDMI High-Definition Multimedia Interface
  • the control information is inserted into the HDMI capture information and transmitted.
  • the control may be one-sided transmission of a control signal from the personal computer to the communication terminal device 10, that is, control in a situation where control data is not transmitted from the communication terminal device 10 to the personal computer. ..
  • the communication terminal device 10 of this embodiment may be controlled by the user 91 by a gesture.
  • the communication terminal device 10 includes a predetermined operation using a hand (hereinafter referred to as a control operation), a voice acquisition unit 11, a visual information acquisition unit 12, an information transmission unit 14, an image display unit 15, an audio output unit 16, and an arrangement.
  • Gesture setting information associated with a predetermined control regarding the designated reception unit 17 is stored in advance.
  • the voice acquisition unit 11 acquires visual information for the control associated with the control operation in the gesture setting information. Instruct the unit 12, the information transmission unit 14, the image display unit 15, the audio output unit 16, or the arrangement designation reception unit 17.
  • the gesture setting information is associated with the first control operation of holding a hand over an object and the first control of keeping the object in a selected state, and the second control of moving the grasped hand toward the object.
  • the movement and the second control of moving the object in the shared virtual space 41 are associated with each other.
  • the person capturing unit 13 detects the first control operation based on the visual information acquired by the visual information acquisition unit 12. When the first control operation is detected by the person capturing unit 13, the image display unit 15 puts the object in the selected state.
  • the person capturing unit 13 is on a straight line connecting the viewpoint position 24 and the central position of the open hand on the shared virtual space 41, or the joint position of a specific part of the body such as the elbow or shoulder joint and the central position of the hand.
  • the image display unit 15 determines that the object selected by the user 41 is an object on or near the straight line connecting the two, and the image display unit 15 sets the object in the selected state. For example, it may be indicated that the object has been selected by highlighting the object, for example, by color, light, shadow, or the like.
  • the information transmission unit 14 may notify another device that the first control operation has been detected or that the object has been selected.
  • the image display unit 15 moves the object on the shared virtual space 41.
  • the image display unit 15 moves the object when the second control operation is detected after the first control operation is detected, but when the first control operation is not detected and the second control operation is detected, the image display unit 15 moves the object. Do not move the object.
  • the movement of the object in the shared virtual space 41 is transmitted to other devices by the image transmission information, and the object also moves in the display of the other device.
  • the movement of a virtual object is illustrated here, the object that moves by gesture is not particularly limited.
  • the image screen 65 shown in FIG. 13 may be moved, or the size, position, and angle may be changed.
  • the communication terminal device 10 displays the image of the shared virtual space 41 viewed from one viewpoint position 24 on the display surface, but the present invention is not limited to this example.
  • the communication terminal device 10 will display an image composed of two images of the shared virtual space 41 (hereinafter, each of which is referred to as an image for the left eye and an image for the right eye) in which the parallax of the left and right eyes is given. You may.
  • the image display unit 15 includes a display device for displaying an image on a display surface and a three-dimensional eyeglass device worn by the user 91. The image display unit 15 generates an image for the left eye and an image for the right eye and displays them on the display surface.
  • the three-dimensional spectacle device shows the image for the left eye to the left eye of the user 91 and the image for the right eye to the right eye of the user 91.
  • the method of showing an image having parallax to the left and right eyes is not particularly limited.
  • it may be an anaglyph type, a polarized type, or a liquid crystal shutter type.
  • three-dimensional glasses do not give anxiety or discomfort like a head-mounted display.
  • the arrangement of the user space 22 of the own device and the user space 32 of the other device with respect to the shared virtual space 41 may be different between the own device and the other device.
  • the arrangement may be adjusted for each user so that the facial expressions and movements of other users can be easily seen by the user 91 within a range that does not make the user feel uncomfortable.
  • the arrangement information used by each device should be shared by all the devices, and each device should transmit visual information to each other device.
  • An imager may be selected.
  • each device may specify from which direction each other device wants the visual information imaged, and each device may send the visual information imaged from the direction specified by the device to each device.
  • the transmitting device may notify the receiving device of the psychological state of the user 91, and the receiving device may process the user's facial expression to be displayed based on the notified psychological state. good.
  • the person capturing unit 13 of the own device estimates the psychological state of the own user from the facial expression of the own user. For example, the user is happy, angry, sad, having fun, agreeing with the conversation, disagreeing, or not understanding. Estimate.
  • the information transmission unit 14 of the own device transmits the information of the psychological state estimated by the person capture unit 13 to the device on the receiving side as image transmission information instead of the image of the face portion.
  • the receiving device generates and displays an image of the face portion of the transmitting user based on the notified psychological state information. According to this, it is possible to visualize qualitative information such as the psychology of the other party, which is difficult to visualize, and it can be an aid for realizing more strategically effective communication. In addition, the amount of data transmitted between the devices can be reduced.
  • the device on the transmitting side may be able to process the facial expression in the visual information of the user 91 into a facial expression expressing the psychological state desired by the user 91, at the request of the user 91.
  • the person capturing unit 13 of the own device receives the designation of the desired psychological state from the user 91
  • the person capturing unit 13 processes the facial expression of the user 91 into a facial expression representing the designated psychological state.
  • the information transmission unit 14 transmits the image transmission information in which the facial expression is processed by the person capture unit 13 to another device. Since the facial expression can be processed at the request of the user 91, the user 91 can intentionally use the information transmitted from the facial expression to achieve effective communication.
  • the communication terminal device 10 selects an imager that acquires an image to be transmitted to another device, and transmits image transmission information including image and depth information acquired by the selected imager to the other device. do. As a result, the amount of image transmission information transmitted from the own device to another device is reduced. In the second embodiment, an example of further reducing the amount of image transmission information transmitted from the own device to another device is shown.
  • the configuration of the communication system 1 of the second embodiment is basically the same as that of the first embodiment shown in FIG. Further, the configuration of the communication terminal device 10 of the second embodiment is the same as that of the first embodiment shown in FIGS. 6 to 8.
  • the image display process executed by the communication terminal device 10 of the second embodiment is basically the same as that of the first embodiment shown in FIG. However, in the second embodiment, the specific processing in the steps S102 and S103 is different from the processing of the first embodiment.
  • the person capturing unit 13 detects the own user in the user space 22 based on the image and / or the depth of the user space 22 acquired by the visual information acquisition unit 12, and provides information.
  • the transmission unit 14 generates information representing the face portion of the own user detected from the image and / or depth information of the user space 22 acquired by the visual information acquisition unit 12 and information representing the skeleton of the own user.
  • the information is transmitted to another device as image transmission information.
  • the information representing the skeleton is information that enables the identification of the posture of a person, and indicates the positions of characteristic parts of the body such as the head, torso, buttocks, shoulders, elbows, hands, knees, and heels. It may be information.
  • the posture of a person is a form of the human body to the extent that nonverbal information useful for communication can be obtained by visually observing poses and movements. There is no particular limitation on how detailed and accurate the identification of the posture is required.
  • the image display unit 15 displays a face image based on information representing a face portion received from another device and an image of a person's posture based on information representing a skeleton received from another device.
  • the three-dimensional object in the shared virtual space including the synthesized person is appropriately converted into a two-dimensional image according to the viewpoint position of the user and displayed on the display surface of the displays 42A to 42C.
  • An image of a person's posture based on information representing the skeleton is, for example, an image processed to express the posture and movement of the person by fleshing out the information representing the skeleton using a virtual 3DCG object. There may be.
  • the communication terminal device 10 on the transmitting side it is not necessary to send the entire information captured by the communication terminal device 10 on the transmitting side to the communication terminal device 10 on the receiving side, so that the amount of data transmitted between the communication terminal devices 10 can be reduced. Can be done. Moreover, since the part other than the face of the human body is represented by a virtual object, it is possible to avoid the realistic display of the live-action image.
  • each communication terminal device has a rectangular and flat display surface, and has three indicators arranged so that the display surface faces the user's fixed position.
  • the configuration is illustrated.
  • the configuration in which the communication terminal device 10 has one display having a curved display surface curved so as to surround the user's fixed position is illustrated.
  • FIG. 15 is a block diagram of the communication terminal device according to the third embodiment.
  • the communication terminal device 10 includes a voice acquisition unit 11, a visual information acquisition unit 12, a person capture unit 13, an information transmission unit 14, an image display unit 15, a voice output unit 16, and an arrangement designation reception. It has a part 17.
  • the audio acquisition unit 11, the visual information acquisition unit 12, the person capture unit 13, the information transmission unit 14, the image display unit 15, and the audio output unit 16 are basically the same as those of the embodiment shown in FIG. ..
  • the arrangement designation reception unit 17 accepts the designation by the user of the arrangement of the user space 22 of the own device and the user space 32 of the other device with respect to the shared virtual space 41.
  • the image display unit 15 includes one display 42B.
  • FIG. 16 is a schematic plan view of the communication terminal device according to the third embodiment.
  • FIG. 17 is a schematic perspective view of the communication terminal device of the third embodiment.
  • a predetermined position in the user space 22 is set as the user fixed position 51, and a predetermined direction from the user fixed position 51 is set as the user fixed direction 52.
  • the user fixed position 51 is a position where the own user 23 using the communication terminal device 10 will exist.
  • the user fixed direction 52 is the direction in which the own user 23 using the communication terminal device 10 will be facing.
  • the display 42B is a display device having a curved display surface curved so as to surround the user fixed position 51. More specifically, the display surface of the display 42B is a curved surface extending over a predetermined angle range (180 ° as an example) in the circumferential direction of the inner surface of the cylinder.
  • the display 42B may be configured to project an image on a curved screen with a plurality of projectors, or may be an organic EL display arranged in a curved shape.
  • the center of the display surface of the display 42B in the left-right direction is arranged in the user fixed direction 52 when viewed from the user fixed position 51.
  • the communication terminal device has three indicators, each of which has a rectangular and flat display surface and is arranged so that the display surface faces the user's fixed position.
  • An example is shown in which a configuration has three imagers arranged horizontally isolated from each other and the imaging direction is directed to a user's fixed position.
  • the communication terminal device 10 is arranged with one display having a rectangular and flat display surface and the display surface facing the user's fixed position and the imaging direction toward the user's fixed position. The configuration having one image pickup device is illustrated.
  • FIG. 18 is a block diagram of the communication terminal device according to the fourth embodiment.
  • the communication terminal device 10 includes a voice acquisition unit 11, a visual information acquisition unit 12, a person capture unit 13, an information transmission unit 14, an image display unit 15, a voice output unit 16, and an arrangement designation reception. It has a part 17.
  • the audio acquisition unit 11, the visual information acquisition unit 12, the person capture unit 13, the information transmission unit 14, the image display unit 15, and the audio output unit 16 are basically the same as those of the embodiment shown in FIG. ..
  • the arrangement designation reception unit 17 accepts the designation by the user of the arrangement of the user space 22 of the own device and the user space 32 of the other device with respect to the shared virtual space 41.
  • the visual information acquisition unit 12 includes one imager 40B, and the image display unit 15 includes one display 42B.
  • FIG. 19 is a schematic plan view of the communication terminal device according to the fourth embodiment.
  • FIG. 20 is a schematic perspective view of the communication terminal device of the fourth embodiment.
  • the predetermined position in the user space 22 is the user fixed position 51
  • the predetermined direction from the user fixed position 51 is the user fixed direction 52, as in the first embodiment.
  • the user fixed position 51 is a position where the own user 23 using the communication terminal device 10 will exist.
  • the user fixed direction 52 is the direction in which the own user 23 using the communication terminal device 10 will be facing.
  • the display 42B is a display device having a rectangular and flat display surface, and the display surface is arranged toward the user's fixed position 51.
  • the display 42B is arranged in the user fixed direction 52 when viewed from the user fixed position 51.
  • the imager 40B is arranged so that the relative position with respect to the user fixed position 51 is fixed, the relative direction with respect to the user fixed direction 52 is fixed, and the imaging direction is directed toward the user fixed position 51.
  • the imager 40B is arranged near the center of the upper side or the lower side of the display surface of the display 42B.
  • FIG. 21 is a flowchart of the image display process in the fourth embodiment.
  • the image display process in the fourth embodiment is different from that of the first embodiment shown in FIG. 9 in that there is no process of step S102 for selecting transmission data, but other than that, the image display process is basically the same as that of the first embodiment. The same is true.
  • the visual information acquisition unit 12 has one imager 40B, and the information transmission unit 14 transmits image transmission information including the image and depth information acquired by the imager 40B. Send to another device.
  • the voice acquisition unit 11, the visual information acquisition unit 12, the person capture unit 13, the information transmission unit 14, the image display unit 15, and the audio output unit 16 are built in the housing.
  • the imager 40B of the visual information acquisition unit is arranged at a predetermined position in the housing, and is connected to a display device having a flat display surface, and an external output terminal for outputting image data by the image display unit 15 to the display unit is a housing. It can be configured as a device provided on the body. In that configuration, the image display unit 15 receives designation of the size of the display surface and the relative position and posture of the display surface with respect to the housing, and based on the designation, the shared virtual space that can be seen on the display surface from the viewpoint position of the own user.
  • the communication terminal device 10 of this embodiment since the communication terminal device 10 of this embodiment has only one imager 40B included in the visual information acquisition unit 12, the three-dimensional data that can be generated from the image transmission information that can be transmitted to other devices is limited. NS. Further, even in the configurations of Examples 1 and 3 represented by the configurations shown in FIGS. 8 and 16, the three-dimensional data that can be generated is limited and complete depending on the arrangement of each imager of the installed visual information acquisition unit 12. It may not be. Therefore, for example, in the own device or another device, a portion not included in the visual information or the image transmission information of the user 91 of the communication terminal device 10 of this embodiment may be complemented.
  • the information transmission unit 14 complements the part not included in the captured person's visual information.
  • the information transmission unit 14 stores the complementary visual information on the side surface and the back surface of the user 91 acquired by the visual information acquisition unit 12 in advance, and uses the visual information acquired by the visual information acquisition unit 12 as the visual information.
  • the side and back parts of the person that are not included may be complemented by complementary visual information.
  • the person capture unit 13 complements the side and back portions of the person that are not included in the visual information acquired by the visual information acquisition unit 12 based on the information of the portion included in the visual information. You may.
  • the information transmission unit 14 and / or the server on the communication network 90 transmits the image of the person included in the image transmission information transmitted from the own device (other device for the other device). Complement the part that is not included in the information.
  • the information transmission unit 14 acquires and saves complementary visual information on the side surface and the back surface of the user 91 from its own device (another device for other devices) in advance, and includes the information transmission unit 14 in the image transmission information.
  • the side and back parts of a missing person may be complemented by complementary visual information.
  • the person capturing unit 13 may complement the side or back portion of the person that is not included in the image transmission information based on the information of the portion included in the image transmission information.
  • Example 1 illustrates a configuration in which the communication terminal device includes a display having a rectangular and flat display surface as shown in FIGS. 7 to 8.
  • Example 1 illustrates a configuration in which the communication terminal device includes a display having a curved display surface is illustrated.
  • FIG. 22 is a block diagram of the communication terminal device according to the fifth embodiment.
  • the communication terminal device 10 includes a voice acquisition unit 11, a visual information acquisition unit 12, a person capture unit 13, an information transmission unit 14, an image display unit 15, a voice output unit 16, and an arrangement designation reception. It has a part 17.
  • the voice acquisition unit 11, the visual information acquisition unit 12, the person capture unit 13, the information transmission unit 14, the image display unit 15, the audio output unit 16, and the arrangement designation reception unit 17 are basically examples shown in FIG. It is the same as that of 1.
  • the visual information acquisition unit 12 includes three imagers 40A, 40B, and 40C, and the image display unit 15 includes one display 42D.
  • FIG. 23 is a schematic plan view of the communication terminal device according to the fifth embodiment.
  • FIG. 24 is a schematic perspective view of the communication terminal device of the fifth embodiment.
  • the display 42D of the image display unit 15 has a configuration in which a vertical cylindrical inner peripheral surface is used as a display surface.
  • the inside of the cylinder of the display 42D is the user space 22.
  • a predetermined position in the user space 22 is a user fixed position 51.
  • the user fixed position 51 is a position where the own user 23 using the communication terminal device 10 will exist. Since the display 42D has a cylindrical shape, a user fixed position 51 may be set in the vicinity of the central axis thereof.
  • the display 42D is a display device having a cylindrical inner peripheral surface surrounding the user fixed position 51 as a display surface.
  • Each of the imagers 40A to 40C is close to the display surface of the display 42D, the relative position with respect to the user fixed position 51 is fixed, and the image pickup direction is arranged toward the user fixed position 51.
  • the imagers 40A to 40C are, for example, in a direction in which the imager 40A forms an angle of 110 ° with the imager 40B about the central axis of the display 42D, and the imager 40C is centered on the central axis of the display 42D. It may be arranged in a direction forming an angle of ⁇ 110 ° with the imager 40B.
  • the height of the imagers 40A to 40C may be, for example, the height of a person having a standard height as the own user 23, and the height of the head, feet, or face of the person.
  • FIG. 25 is a diagram showing an example of the arrangement designation screen in the fifth embodiment.
  • the layout designation screen 60 includes a shared space area 64 and a decision button 63.
  • the shared space area 64 is a plan view simulating a shared virtual space 41 corresponding to a virtual space shared by the own user 23 and another user 33.
  • a booth icon 66 which is an object corresponding to the communication terminal device 10 used by each member participating in the dialogue, is arranged.
  • the booth icon 66 can be moved or fixed by, for example, a mouse operation, a touch operation on the display surface of the display 42D, or a gesture operation detected based on visual information acquired by the imagers 40A to 40C.
  • the shape and size of the shared space area 64 may be changed.
  • the shape and size of the shared virtual space 41 may be determined according to the shape and size of the shared space area 64.
  • the enter button 63 When the enter button 63 is pressed, the user space of each communication terminal device 10 in the shared virtual space 41, the user fixed position 51, and the other device are arranged based on the arrangement of the booth icon 66 with respect to the shared space area 64 at that time. The arrangement with the user fixed position is determined. In the example of FIG. 25, an arrangement in which three users form the vertices of a triangle is illustrated.
  • FIG. 26 is a conceptual diagram showing how a plurality of users have simulated face-to-face dialogue in a shared space.
  • FIG. 26 shows an example in which the arrangement shown in FIG. 25 is simulated.
  • Mr. A, Mr. B, and Mr. C of Company X stand at positions forming the vertices of a triangle and have a dialogue.
  • the display 42D of the communication terminal device 10 of each user displays an image of the shared virtual space 41 that can be seen from the viewpoint position of each user in the arrangement shown in FIG. As a result, all users can obtain a field of view in which they are interacting in the arrangement shown in FIG.
  • an image of a virtual space shared with other users is displayed at 360 ° degrees from the own user 23 in any direction, and the own user 23 can be given a high sense of presence.
  • a virtual space composed of CG or a three-dimensional space composed of live-action video as a shared virtual space, it is possible to reproduce a state in which a plurality of users are together and have a dialogue in the shared virtual space.
  • the live-action video may be, for example, a real-time video shot by a 360-degree camera or a recorded video at a point different from the installation location of any communication terminal device 10.
  • the visual information acquisition unit 12 includes three imagers 40A to 40C, but the number of imagers included in the visual information acquisition unit 12 is not limited to three. As another example, it may be two or four or more. Further, the position where the imager is arranged is not limited to the arrangement described in this embodiment.
  • Example 5 a communication terminal device having a display surface on a cylindrical inner peripheral surface was illustrated.
  • Example 6 a communication terminal device having a display surface on a cylindrical outer peripheral surface is illustrated.
  • FIG. 27 is a block diagram of the communication terminal device according to the sixth embodiment.
  • the communication terminal device 10 includes a voice acquisition unit 11, a visual information acquisition unit 12, a person capture unit 13, an information transmission unit 14, an image display unit 15, a voice output unit 16, and an arrangement designation reception. It has a part 17.
  • the voice acquisition unit 11, the visual information acquisition unit 12, the person capture unit 13, the information transmission unit 14, the image display unit 15, the audio output unit 16, and the arrangement designation reception unit 17 are basically examples shown in FIG. It is the same as that of 1.
  • the visual information acquisition unit 12 includes eight imagers 40A to 40H, and the image display unit 15 includes one display 42E.
  • FIG. 28 is a schematic plan view of the communication terminal device according to the sixth embodiment.
  • FIG. 29 is a schematic perspective view of the communication terminal device of the sixth embodiment.
  • the display 42E of the image display unit 15 has a configuration in which the outer peripheral surface having a vertical cylindrical shape is used as the display surface.
  • the display 42E is a display device having a cylindrical outer peripheral surface as a display surface.
  • the outside of the cylinder of the display 42E is the user space 22.
  • Each of the imagers 40A to 40H is close to the display surface of the display 42E, is fixed toward the outside of the cylinder, and is arranged with the image pickup direction toward the user fixed position 51.
  • the imagers 40A to 40H may be arranged, for example, in a direction forming an angle of 45 ° with respect to the central axis of the display 42E.
  • the height of the imagers 40A to 40H may be, for example, the height of a person having a standard height as the own user 23, and the height of the head, feet, or face of the person.
  • the communication terminal device 10 of the sixth embodiment is suitable for dialogue with the communication terminal device 10 of the fifth embodiment.
  • the user of the communication terminal device 10 of the sixth embodiment will be referred to as a user 91 (5)
  • the user of the communication terminal device 10 of the fifth embodiment will be referred to as a user 91 (4).
  • the size of the shared virtual space 41 is set based on the size of the real space in which the communication terminal device 10 of the sixth embodiment is installed.
  • the shared virtual space 41 in the communication terminal device 10 of the sixth embodiment may be set to infinity.
  • the relative positions of the cylindrical central axis of the communication terminal device 10 of the sixth embodiment and the cylindrical central axis of the communication terminal device 10 of the fifth embodiment are matched in the shared virtual space 41.
  • the user 91 (4) creates a 360 ° image in the real space in which the user 91 (5) on which the communication terminal device 10 is installed is created by synthesizing the image images obtained from the imagers 40A to 40H in real time.
  • FIG. 30 is a conceptual diagram showing a field of view obtained from the user of the sixth embodiment.
  • the own user can simultaneously see the real space in which he / she is actually present and the shared virtual space displayed by the display surface, another user appears in the place where he / she is. It is possible to communicate with other users with the same feeling. Further, for another user who uses the communication terminal device 10 of the fifth embodiment, it is possible to communicate as if he / she is visiting the place where the communication terminal device 10 of the sixth embodiment is installed together with his / her own user. For example, a use case such as a visit to a remote place is assumed.
  • the shape of the display surface is not limited to this configuration.
  • a polygonal prism or a spherical outer surface may be a display surface, or an egg-shaped outer surface may be a display surface.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

通信端末装置は、自装置を用いる自ユーザの声を含む音声を取得し、所定のユーザ空間上にある物体の三次元データを形成可能にする視覚情報を取得し、ユーザ空間の視覚情報に基づいて自ユーザの視点位置を特定し、ユーザ空間の視覚情報に基づく画像伝達情報と、音声に基づく音声伝達情報とを他装置に伝達し、ユーザ空間を固定的に配置した第1仮想空間と他装置のユーザ空間が固定的に配置された第2仮想空間とを所定の相対位置および相対角度で配置した共有仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示し、他装置から伝達された音声伝達情報に基づいて音声を出力する。

Description

通信端末装置、通信方法、およびソフトウェアプログラム
 本発明は、遠隔地にいるユーザ同士の良好な対話を実現する通信端末装置に関する。
 遠隔でのコミュニケーションの手段として、汎用的なパーソナルコンピュータ等で行うウェブ会議、専用の機器を用いるテレビ会議、スマートフォン等で利用可能なビデオ通話がある。いずれも遠隔地にいる相手を主に正面から撮影した映像を平面の画面に表示し、音声で通話を行うというものである。そのため、実際に同じ空間にいて対面で会話をしているような感覚は得にくい。これに対して、仮想空間を共有してコミュニケーションの質を高める様々な技術が提案されている。
 特許文献1には、複数のメンバーが同一の空間を共有する遠隔会議システムが開示されている。特許文献1の遠隔会議システムは、サーバ装置と複数のクライエント装置から構成される。クライエント装置は、ユーザが装着する、加速度センサおよびディスプレイ装置を有するヘッドセットと、赤外線センサと撮像手段と収音手段とを有する3次元形状取得センサと、を有する。サーバ装置は、クライエント装置から送信された深度信号を用いてユーザの動作解析を行い、動作解析に基づくCG(コンピュータグラフィック)を生成し、実物体データを表示し、拡張現実空間を合成し、合成した拡張現実空間の情報をクライエント装置に送信する。クライエント装置は、サーバ装置から受信した拡張現実空間情報に基づいて、ヘッドセットのディスプレイ装置に画像を表示し、スピーカに音声信号を出力する。また、特許文献1には、CGの形状情報に、予め取得しておいた顔のテクスチャを張り付けることも開示されている。
 特許文献2には、仮想空間を複数のユーザで共有し、各ユーザの実空間における位置と仮想空間における位置を対応させる技術が開示されている。特許文献2に開示された仮想空間共有システムは、離れた場所にいる複数のユーザのそれぞれの場所における位置情報と視界情報を検出する手段と、その位置情報および視界情報を送信し、各ユーザ宛てに送信された仮想空間情報をそれぞれ受信するユーザ制御手段と、各ユーザの位置情報および視界情報を受信し、複数のユーザで共有する1つの仮想空間内で各ユーザの位置情報に応じた位置に各ユーザを表す仮想オブジェクトを配置し、各ユーザの位置情報および視界情報に応じた各ユーザの視点からそれぞれ対応する仮想空間を表示する仮想空間情報を生成し、各ユーザ宛てに送信する情報処理手段と、各ユーザごとにそれぞれのユーザ制御手段に受信した仮想空間情報を入力し、各ユーザの視点から見た仮想空間を表示する表示手段とを備える。
 特許文献3には、仮想現実空間共有システムにおいて通信負荷を低減する技術が開示されている。特許文献3に開示された技術は、第1ユーザによって使用される第1端末と第2ユーザによって使用される第2端末との間で仮想現実空間を共有する仮想現実空間共有システムにおいて、前記第1端末に表示するための仮想現実空間画像を生成する画像生成装置が、前記第2端末から仮想現実空間における前記第2ユーザの位置と視線方向とを含む視線情報を取得する視線情報取得部と、前記第2端末からの前記視線情報に基づいて前記第1端末に表示するための仮想現実空間画像を生成する画像生成部と、前記画像生成部によって生成された前記仮想現実空間画像を前記第1端末へ供給する画像供給部と、を備える。また、特許文献3には、仮想現実空間に相手ユーザの代わりにアバター等のオブジェクトを表示し、そのオブジェクトの顔の向きを相手ユーザの顔の向きと一致させることが開示されている。
特開2015-184986号公報 特開2002-149581号公報 特開2017-078891号公報
 人と人とが対面で行うコミュニケーションによる意思疎通や信頼関係構築などにおいて、お互いの動作、姿勢、表情、顔色、視線などが非言語(non-verbal)の情報伝達手段として重要な役割を果たすと言われている。仮想空間を共有して行うコミュニケーションにおいてもこれら非言語情報の伝達が重要となる。
 しかし、特許文献1の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザはアバター等のCGの画像、あるいは予め取得しておいた顔のテクスチャを相手ユーザの形状に張り付けた画像となる。特許文献2の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザは仮想オブジェクトとなる。特許文献3の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザはアバターとなる。そのため、特許文献1~3の技術を用いたコミュニケーションは、非言語の情報伝達が十分とは言えなかった。
 また、特許文献1~3のいずれにおいても、ヘッドマウントディスプレイを頭に装着することは、ユーザにとって不快であると共に、対面での会話と異なる違和感を与えるものである。
 本発明の目的は、遠隔地にいるユーザ同士の良好な対話を実現する技術を提供することである。
 本開示のひとつの態様による通信端末装置は、自装置を用いる自ユーザの声を含む音声を取得する音声取得部と、所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得する視覚情報取得部と、ユーザ空間の視覚情報に基づいて自ユーザの視点位置を特定する人物捕捉部と、ユーザ空間の視覚情報に基づく画像伝達情報と、音声に基づく音声伝達情報とを他装置に伝達する情報伝達部と、ユーザ空間を固定的に配置した第1仮想空間と他装置のユーザ空間が固定的に配置された第2仮想空間とを所定の相対位置および相対角度で配置した共有仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示する画像表示部と、他装置から伝達された音声伝達情報に基づいて音声を出力する音声出力部と、を有する。
 本開示のひとつの態様によれば、遠隔地にいるユーザ同士の良好な対話を実現する通信端末装置を提供できる。
実施形態による通信システムのブロック図である。 実施形態による通信端末装置のブロック図である。 画像を表示する処理について説明するための概念図である。 表示面に共有仮想空間の画像が表示された様子を示す図である。 表示面に表示される画像の変化の様子を示す図である。 実施例1による通信端末装置のブロック図である。 実施例1による通信端末装置の概略平面図である。 実施例1の通信端末装置の概略斜視図である。 実施例1における画像表示処理のフローチャートである。 実施例1における配置指定画面の一例を示す図である。 複数のユーザが同じ会議室で対面で行う会議が模擬的に実現された遠隔会議の様子を示す概念図である。 他の構成による遠隔会議の様子を示す概念図である。 更に他の構成による遠隔会議の様子を示す概念図である。 点群を加工した画面が表示面に表示された様子を示す概念図である。 実施例3による通信端末装置のブロック図である。 実施例3による通信端末装置の概略平面図である。 実施例3の通信端末装置の概略斜視図である。 実施例4による通信端末装置のブロック図である。 実施例4による通信端末装置の概略平面図である。 実施例4の通信端末装置の概略斜視図である。 実施例4における画像表示処理のフローチャートである。 実施例5による通信端末装置のブロック図である。 実施例5による通信端末装置の概略平面図である。 実施例5の通信端末装置の概略斜視図である。 実施例5における配置指定画面の一例を示す図である。 複数のユーザが共有スペースでの対面による対話が擬似的に実現された様子を示す概念図である。 実施例6による通信端末装置のブロック図である。 実施例6による通信端末装置の概略平面図である。 実施例6の通信端末装置の概略斜視図である。 実施例6のユーザから得られる視界を示す概念図である。
 以下、本発明の実施形態について図面を参照して説明する。
 図1は、本実施形態による通信システムのブロック図である。通信システム1は、複数の通信端末装置10を備えている。通信システム1は、遠隔にいる複数のユーザ91があたかも同じ空間で対面で対話しているような体験を再現するシステムである。複数の通信端末装置10は、基本的に同様の構成および機能を備え、通信ネットワーク90を介して相互に接続可能である。
 なお、ここでは、ある通信端末装置10に着目し、その通信端末装置10を自装置と称し、その自装置を用いるユーザ91を自ユーザと称し、自装置と異なる通信端末装置10を他装置と称し、他装置を用いるユーザ91を他ユーザと称する場合がある。他装置は1つ以上であればよく、複数であってもよい。
 図2は、本実施形態による通信端末装置のブロック図である。通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16とを有する。
 本実施形態では、通信端末装置10を用いているユーザ91が存在するであろう実空間の所定の範囲をユーザ空間とし、そのユーザ空間内でユーザ91が動くことを想定している。
 音声取得部11は、ユーザ空間にいるユーザ91の声を含む音声を取得する。例えば、音声取得部11は、不図示のマイクロフォンを備え、マイクロフォンにより音声の情報を取得する。
 視覚情報取得部12は、ユーザ空間にある物体の三次元データを生成可能にする視覚情報を取得する。三次元データは、三次元空間上の三次元オブジェクトを表現するデータであればよく、特に具体的手法は限定されない。ユーザ空間にある物体には、通信端末装置10を用いているユーザ91が含まれうる。視覚情報は、例えば画像の情報および深度の情報を含む。また、視覚情報は、例えば30~60fps(frames per second)といった所定のフレームレートで取得される。視覚情報取得部12は、不図示のイメージセンサおよび不図示の深度センサを備え、イメージセンサにより画像をリアルタイムで取得し、深度センサにより深度をリアルタイムで取得してもよい。
 人物捕捉部13は、視覚情報取得部12で取得されたユーザ空間の画像および/または深度に基づいて、ユーザ91の視点位置を特定する。ここで視点とは眼球がある位置のことである。視点位置は、三次元空間上の位置であり、例えば、三軸の直交座標系の座標で表すことができる。例えば、人物捕捉部13は、画像および/または深度の情報に基づいてユーザ空間内の人物をリアルタイムで検出し、更に、検出された人物の頭部を特定し、その頭部の中央をユーザ91の視点位置とする。なお、視点位置は、ユーザ91の視点の位置あるいはユーザ91の視点とみなすことができる位置であればよく、本実施形態の例に限定されない。顔認識処理または人物認識処理により認識された顔の領域の中央、あるいは認識された両目の中央をユーザ91の視点位置としてもよい。
 情報伝達部14は、視覚情報取得部12で取得されたユーザ空間の画像および深度に基づく画像伝達情報と、音声取得部11で取得された音声に基づく音声伝達情報とを、他装置に伝達する。
 画像伝達情報は、他装置の画像表示部15による画像の再生を可能にする情報である。画像伝達情報は、例えば、視覚情報取得部12で取得されたままの画像および深度の情報を含んでいてもよいし、それらを圧縮した情報を含んでいてもよいし、それらの一部が削減された情報を含んでいてもよいし、人物の特徴点のみの画像および深度の情報を含んでいてもよい。特徴点は、ユーザ91の顔および身体の特徴点であり、例えば、腕の関節の位置、眼の位置、口の位置などを示す。これらの特徴点の情報から人物の姿勢、動作、および表情の再現が可能となる。
 音声伝達情報は、他装置の音声出力部16による音声の出力を可能にする情報である。音声伝達情報は、例えば、音声取得部11で取得されたままの音声の情報を含んでいてもよいし、それらを圧縮した情報を含んでいてもよいし、それらの一部が削減された情報を含んでいてもよいし、それらを加工した情報をふくんでいてもよい。
 画像表示部15は、自装置のユーザ空間を固定的に配置した第1仮想空間と、他装置のユーザ空間が固定的に配置された第2仮想空間とを所定の相対位置に配置した共有仮想空間を形成し、その仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示する。なお、自装置で取得された視覚情報に基づき他装置の表示面に表示する画像を生成する処理を行う物理的実体が存在する場所は特に限定されない。当該処理を、自装置にて行っても良いし、他装置にて行ってもよいし、自装置と他装置の間でクラウドコンピューティングにより行ってもよい。
 自ユーザの視点位置が人物捕捉部13によりリアルタイムで更新され、画像表示部15は、リアルタイムで更新される自ユーザの視点位置の情報を用い、リアルタイムの視点位置から見える共有仮想空間の映像を表示面に表示する。その結果、表示面には運動視差を有する映像が映し出される。
 画像が表示される表示面は、特に限定されず、ディスプレイ装置の画像を表示する表示面や、プロジェクタの画像が投射される表示面などを含む。表示面は、1つまたは複数の平面で構成されてもよい。表示面が矩形で平面であれば、表示面を、その表示面に含まれる点毎に三次元空間における位置により表すことをしなくても、表示面全体としての位置(例えば中心の位置)、姿勢(例えばロール角、ピッチ角、およびヨー角)、およびサイズ(例えば縦および横それぞれの長さ)により表すことができる。また、表示面は、1つまたは複数の曲面で構成されてもよい。例えば、円筒形の内面の周方向の所定角度範囲に渡る曲面であれば、円筒の断面の半径と、円筒の高さと、円の中心から見て曲面がひろがる角度範囲とにより、一意に決まる。また、他の例として、球形の内面の所定角度範囲に渡る曲面であれば、球の半径と、球の中心から見た角度範囲(ロール角、ピッチ角、およびヨー角)により、一意に決まる。曲面の表示面は、一般に、その表示面に含まれる各点の三次元空間における位置で表すことができる。更に、表示面は、1つまたは複数の曲面と、1つまたは複数の平面とを含んで構成されてもよい。
 このように、自ユーザにとって共有仮想空間上の他ユーザがそこに存在するかのように錯覚させるべく確からしく自然な画像に見えるような処理として、本実施形態では、他装置から伝達された画像および深度の情報に基づいて共有仮想空間の三次元オブジェクトのデータ(以下、三次元データ)を生成し、表示面に表示する画像を生成するとき、三次元データに定義された共有仮想空間における三次元オブジェクトを表示面、すなわち二次元の面に投影させるような射影変換を行う。ただし、同様な効果を得る他の処理手法を用いてもよい。他の処理手法の例として、共有仮想空間を基準座標空間とし、その基準座標空間において三次元データの各点をその各点と視点位置とを結ぶ直線が表示面と交わる点に投影するという手法がある。また、表示面に表示する画像を生成する他の処理方法として、経験則に従った特定の行列や数値の四則演算処理を、画像や画像がもつ三次元パラメータに対して行うことにしてもよい。
 図3は、画像を表示する処理について説明するための概念図である。図3には、第1仮想空間21と、第2仮想空間31と、共有仮想空間41とが上方から見た平面図により示されている。図3には、図に表す都合で、空間が平面で示されているが、高さ方向にも広がっている。
 画像表示部15は、自装置のユーザ空間22を固定的に配置した第1仮想空間21を定義する。図3の例では、視覚情報取得部12が、画像を取得するイメージセンサと深度を取得する深度センサを一体的に構成した撮像器40を有するものとし、ユーザ空間22は撮像器40の画角範囲に拡がる空間としている。ただし、ユーザ空間22の大きさおよび形状は特に限定されない。第1仮想空間21の大きさおよび形状は特に限定されない。第1仮想空間21の大きさは無限大であってもよい。自装置のユーザ空間22には、人物捕捉部13により特定された自ユーザ23の視点位置24が存在する。
 また、画像表示部15は、他装置のユーザ空間32を固定的に配置した第2仮想空間31を定義する。第2仮想空間31の大きさおよび形状も特に限定されない。第2仮想空間31の大きさは無限大であってもよい。図3の例では、第2仮想空間31と第1仮想空間21は大きさおよび形状が等しい例を示している。しかし、それらは必ずしも等しくなくてもよい。他装置のユーザ空間32には他ユーザ33が存在し、他ユーザ33の画像および深度は他装置により取得され、その画像および深度の情報に基づく画像伝達情報が自装置に伝達される。
 画像表示部15は、第1仮想空間21と第2仮想空間31とを所定の相対位置に配置した共有仮想空間41を定義する。ここでは、共有仮想空間41は第1仮想空間21と第2仮想空間31とを重ね合わせたものとなっている。共有仮想空間41には自ユーザ23の視点位置24と他ユーザ33とが存在することになる。
 さらに、画像表示部15は、共有仮想空間41に対する相対位置が固定された表示面42に、他装置から伝達された画像伝達情報に基づいて、自ユーザ23の視点位置24から見える共有仮想空間の画像を表示する。
 図4は、表示面に共有仮想空間の画像が表示された様子を示す図である。
 撮像器40で取得された画像および/または深度に基づいて特定された自ユーザ23の視点位置24から見える共有仮想空間41の画像が表示面42に表示されている。自ユーザ23からは自身の前に他ユーザ33が居るように見える。
 なお、画像表示部15は、互いに接続された通信端末装置10のユーザ空間に実際に存在する物体だけでなく、複数の通信端末装置10が共通する仮想的な物体を共有仮想空間41に構成し、表示面にその画像を表示可能としてもよい。例えば、ある通信端末装置10にてユーザ91が視覚情報取得部12の撮像器に、ある実在の物体をかざすと、視覚情報取得部12がその物体の三次元データを取得し、複数の通信端末装置10にて、画像表示部15がその三次元データに基づく仮想的な物体を共有仮想空間41上に構成することを可能にしてもよい。
 音声出力部16は、他装置から伝達された音声伝達情報に基づいて音声を出力する。音声出力部16は、例えば、不図示のスピーカを備え、スピーカにより音声を出力する。その際、音声出力部16は、ステレオ方式、サラウンド方式、三次元音響方式などにより、他装置から伝達された音声伝達情報に基づく音声を、共有仮想空間41における他ユーザのユーザ定位置が配置された方向から聞こえる音声として再現してもよい。遠隔地の複数人が仮想空間において互いの実写画像と立体音響によるコミュニケーションを行うことができる。
 図5は、表示面に表示される画像の変化の様子を示す図である。
 上述したように、人物捕捉部13が自ユーザ23の視点位置24を特定し、画像表示部15は、表示面42に、他装置から伝達された画像伝達情報に基づいて、自ユーザ23の視点位置24から見える共有仮想空間の画像を表示する。したがって、図5に示すように、仮に他ユーザ33が動かなかったとしても、自ユーザ23の視点位置24が変化すれば、運動視差により、表示面42に表示される画像は変化する。例えば、自ユーザ23は視点位置24を正面から右方向にずらせば、他ユーザ33の斜め左の横顔を覗き込むことも可能である。
 以上説明したように、本実施形態によれば、通信端末装置10は他の通信端末装置10と仮想空間を共有し、その仮想空間に相対位置が固定された表示面42に、その仮想空間を共有している他ユーザ33の実写の姿を自ユーザ23の視点位置24から見えるように表示するので、遠隔地の複数人が共有する仮想空間において互いの実写の画像を見ながら行う良好なコミュニケーションが実現される。
 なお、図2に示した音声取得部11、視覚情報取得部12、情報伝達部14、人物捕捉部13、音声出力部16、および画像表示部15が実行する処理をソフトウェアプログラムにより規定し、メモリおよびプロセッサを有するコンピュータがそのソフトウェアプログラムを実行することにしてもよい。
 以下、より具体的な実施例について説明する。
 実施例1では、複数のユーザが同じ会議室で対面で行う会議を模擬的に実現する遠隔会議システムを例示する。実施例1の遠隔会議システムは基本的な構成は図1~図4に示した実施形態による通信システム1と同じである。
 図6は、実施例1による通信端末装置のブロック図である。本実施例による通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16と、配置指定受付部17とを有する。音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、および音声出力部16は、基本的に、図2に示した実施形態のものと同様である。配置指定受付部17は、共有仮想空間41に対する自装置のユーザ空間22および他装置のユーザ空間32の配置をユーザ91からの指定により受け付け、他装置と共有する。本実施例では、視覚情報取得部12が3つの撮像器40A、40B、40Cを備え、画像表示部15が3つの表示器42A、42B、42Cを備えている。本実施例では、視覚情報取得部12および画像表示部15は、配置指定受付部17により受け付けられた配置に基づき、後述する動作を行う。
 図7は、実施例1による通信端末装置の概略平面図である。図8は、実施例1の通信端末装置の概略斜視図である。
 図7に示すように、実施例1では、ユーザ空間22における所定の位置をユーザ定位置51とし、そのユーザ定位置51から所定の方向をユーザ定方向52とする。例えば、ユーザ定位置51は通信端末装置10を用いているユーザ91が主に存在するであろう位置である。例えば、ユーザ定方向52は、通信端末装置10を用いているユーザ91が主に向いているであろう方向である。
 図8に示すように、表示器42A~42Cはいずれも矩形で平面の表示面を有し、表示面をユーザ定位置51に向けて配置された表示装置である。表示器42Bは、ユーザ定位置51から見てユーザ定方向52に配置される。表示器42Cは、ユーザ定位置51から見てユーザ定方向52の右側に配置される。表示器42Aは、ユーザ定位置51から見てユーザ定方向52の左側に配置される。表示器42A~42Cはいずれも表示面をユーザ定位置51に向けて配置される。表示器42Cは、表示器42Bと互いの表示面同士で90°以上180°未満の角度が好ましく、本実施例では90°で、表示器42Bの右辺に近接しているが、ユーザが快適に本装置を利用できる限りにおいて90°未満の角度で配置されていてもよい。表示器42Aは、表示器42Bと互いの表示面同士で90°以上180°未満の角度が好ましく、本実施例では90°で、表示器42Bの左辺と近接しているが、ユーザが快適に本装置を利用できる限りに90°未満の角度で配置されていてもよい。また、表示器42A~42Cはいずれも水平面に対して90°で立たせた例を示しているが、水平面に対して0°~180°の間で角度をつけてもよい。
 撮像器40A~40Cは、それぞれがユーザ定位置51との相対位置が固定され、ユーザ定方向52に対する相対方向が固定されて、互いに隔離して、撮像方向をユーザ定位置51に向けユーザ空間22の少なくとも一部が撮像されるように配置されている。好ましくは、撮像器40Bは、表示器42Bの表示面の上辺の中央近傍に配置される。撮像器40Aは、表示器42Aの表示面の上辺、あるいは表示器42Aの表示面の左辺に配置される。撮像器40Cは、表示器42Cの表示面の上辺、あるいは表示器42Cの表示面の右辺に配置される。本実施例では、図8に示すように、撮像器40Aは表示器42Aの表示面の左辺に配置され、撮像器40Cは表示器42Cの表示面の右辺に配置されている。
 図9は、実施例1における画像表示処理のフローチャートである。画像表示処理は、自装置が他装置との相互通信による遠隔会議を実現する処理であり、主に情報伝達部14、画像表示部15、および配置指定受付部17により実行される。
 まず、ステップS101にて、配置指定受付部17は、共有仮想空間41に対する自装置および他装置の配置の指定を受け付ける。自装置の表示器42A~42Cおよび撮像器40A~40Cに対してユーザ空間22およびユーザ定位置51が固定的に定義され、他装置の表示器42A~42Cおよび撮像器40A~40Cに対してユーザ空間32および他装置のユーザ定位置が固定的に定義されているので、共有仮想空間41に対する自装置および他装置の配置を受け付けることにより、共有仮想空間41に対するユーザ空間22、32と、ユーザ定位置51と、他装置のユーザ定位置との配置を決定できる。
 このとき、配置指定受付部17は、例えば、自装置に対応するオブジェクトと他装置に対応するオブジェクトを移動可能に配置できる共有空間を上方から見た平面図による配置指定画面を表示器42Bの表示面に表示し、平面図に対して指定されたオブジェクトの位置に基づいて、共有仮想空間41に対するユーザ空間22、32の配置の指定を受け付けることにしてもよい。
 図10は、実施例1における配置指定画面の一例を示す図である。配置指定画面60には会議室領域61と決定ボタン63が含まれている。会議室領域61は、仮想的な会議室に相当する共有仮想空間41を模した平面図である。会議室領域61には、会議に参加する各メンバーが利用する通信端末装置10に相当するオブジェクトである机アイコン62が配置されている。机アイコン62は、例えばマウス操作あるいは表示器42Bへのタッチ操作や後述するジェスチャ操作により移動させたり固定させたりできる。会議室領域61の形状および大きさを変更できるようにしてもよい。ここでは一例として会議室領域61が共有仮想空間41を模したものとしているので、会議室領域61の形状および大きさに応じて共有仮想空間41の形状および大きさを決定してもよい。決定ボタン63が押下されると、そのときの会議室領域61に対する机アイコン62の配置に基づいて、共有仮想空間41における各通信端末装置10のユーザ空間22、32、ユーザ定位置51、および他装置のユーザ定位置の配置が決定される。
 複数人が向かい合う会議の場面がある。交渉などで複数人対複数人で向かい合う会議の典型的な形態がある。1人対1人、1人対複数人など様々な配置が可能であるが、図10の例では、6人のユーザが3人対3人で対向する配置が例示されている。また、ここでは、X社に所属するAさん、Bさん、Cさんと、Y社に所属するDさん、Eさん、Fさんとが向かい合って配置されているが、この所属と配置の関係は例示である。
 また、ここでは、配置指定受付部17は、ユーザ91が机アイコン62を自由に移動させて配置を指定する例を示したが、他の例も可能である。例えば、配置指定受付部17が配置の指定を補助してもよいし、配置指定受付部17が配置を自動で設定あるいは提案してもよい。
 配置指定受付部17が配置の指定を補助する場合、典型的な複数の配置構成のパターンを予め用意しておき、ユーザ91にいずれかを選択させることにしてもよい。配置指定受付部17は、例えば、最初に会議に参加するユーザの人数が入力されると、その人数に対応するパターンをユーザに提示し、いずれかを選択させることにしてもよい。
 また、配置指定受付部17が配置を自動で設定あるいは提案する場合、例えば、この会議が何らかの発表を行う場である場合に、メインプレゼンターは、会議参加者全員からよく見える位置(図10の例では、X社Bさん、Y社Eさんの位置)に配置されるようにしてもよい。また、例えば、会議での発言量の多寡でメインプレゼンターを特定し、配置を設定することにしてもよい。
 本実施例では、互いに平行な2つの直線のそれぞれの上に複数の通信端末装置10のユーザ定位置51を配置し、各直線上の通信端末装置10のユーザ定方向52を他方の直線に垂直に向かう方向とすることで実現できる。なお、ここでユーザ定位置51の直線上への配置は厳密な位置決めを意味するものではなく、またユーザ定方向52の直線への垂直な方向づけは厳密な方向決めを意味するものではない。どちらも複数の通信端末装置10のユーザが会議において机を横に並べている状態が模擬できる程度でよい。
 ステップS102にて、情報伝達部14は、共有仮想空間における自装置の撮像器40A~40Cの撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置とを結ぶ直線との相対角度に基づいて、他装置のユーザ定位置の所定範囲内(例えばユーザ空間)から自装置のユーザ定位置の所定範囲内(例えばユーザ空間)にある物体を見たときに見える部分の画像が取得されるように撮像器を選択し、選択した撮像器で取得される画像および深度の情報を含む画像伝達情報をその他装置に送信する。
 情報伝達部14は、共有仮想空間41において自装置のユーザ定位置51からユーザ定方向52の右側に他装置のユーザ定位置が配置される場合には、右側にある撮像器40Cによる情報を含み、左側にある撮像器40Aによる情報を含まない画像伝達情報を他装置に送信すればよい。また、情報伝達部14は、共有仮想空間41において自装置のユーザ定位置51からユーザ定方向52の左側に他装置のユーザ定位置が配置される場合には、左側にある撮像器40Aによる情報を含み右側にある撮像器40Cによる情報を含まない画像伝達情報を他装置に送信すればよい。
 例えば、自ユーザ23がX社のAさんであり、他ユーザ33がY社のFさんであるという組合せに着目すると、自装置の左側にある撮像器40Aで取得されるX社のAさんの画像および深度のデータがなくても、他装置においてY社のFさんの視点位置から見える範囲のX社のAさんの画像を生成することができる。そのため、X社のAさんが用いる自装置の情報伝達部14は、撮像器14Bと撮像器14Cで取得される画像および深度のデータに基づく画像伝達情報を、Y社のFさんが用いる他装置に伝達する。また、自ユーザ23がX社のAさんであり、他ユーザ33がX社のBさんであるという組合せに着目すると、自装置の左側にある撮像器40Aで取得されるX社のAさんの画像および深度のデータがなくても、他装置においてX社のBさんの視点位置から見える範囲のX社のAさんの画像を生成することができる。X社のAさんが用いる自装置の情報伝達部14は、撮像器14Bと撮像器14Cで取得される画像および深度のデータに基づく画像伝達情報を、X社のBさんが用いる他装置に伝達する。
 なお、ここでは、情報伝達部14は、複数の撮像器40A~40Cのうち、その撮像器の撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置を結ぶ直線との相対角度に基づいて撮像器を選択する処理を例示したが、他の例も可能である。例えば、情報伝達部14は、複数の撮像器40A~40Cのうち、その撮像器の撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置を結ぶ直線との相対角度に加え、他装置の表示面の位置、角度、および大きさに基づいて、撮像器を選択することにしてもよい。その場合、情報伝達部14は、他装置のユーザ定位置の所定範囲内(例えばユーザ空間)から他装置の表示面を介して自装置のユーザ定位置の所定範囲内(例えばユーザ空間)にある物体を見たときに見える部分の画像が取得されるように撮像器を選択してもよい。なお、ここでは、自ユーザの情報伝達部14が通信ネットワーク90へ送る画像伝達情報をあらかじめ選択してから送る例を示したが、この方法に限らない。情報伝達部14は一度すべての撮像器から得られた画像伝達情報を通信ネットワーク90上のサーバに送信した後に、このサーバ側で画像伝達情報を取捨選択する処理を行って他ユーザに送る方式をとってもよい。また、ステップS102における送信データの選択は必ず行うものではなく、データ通信帯域が十分確保でき、ネットワーク上のデータ量の削減が不要な環境下においてはこのステップをスキップしてもよい。
 次に、ステップS103にて、画像表示部15は、表示器42A、42B、42Cの表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザ23の視点位置24から見える共有仮想空間41の画像を表示する。共有仮想空間41には各ユーザのユーザ空間22、32が固定的に配置されているので、自ユーザ23の視点位置24からは、その配置に応じた位置にいる他ユーザが見える。
 図11は、複数のユーザが同じ会議室で対面で行う会議が模擬的に実現された遠隔会議の様子を示す概念図である。図11には、図10に示した配置が模擬的に実現された例が示されている。画像表示部15は、互いに平行な第1直線と第2直線のそれぞれの上に自装置および他装置のうち少なくとも1つの装置のユーザ定位置51を配置し、第1直線上にユーザ定位置が配置された装置のユーザ定方向52を第1直線に対して垂直に第2直線に向かう方向とし、第2直線上にユーザ定位置51が配置された装置のユーザ定方向52を第2直線に対して垂直に第1直線に向かう方向とするように、共有仮想空間を形成すればよい。
 図11における手前側には、X社のAさんとBさんとCさんが直線上に横に並び奥を向いている。奥側には、Y社のDさんとEさんとFさんが直線上に横に並び手前を向いている。Aさん、Bさん、Cさん、Dさん、Eさん、Fさんは、実際にはそれぞれ異なる場所で通信端末装置10を用いている。それぞれのユーザの通信端末装置10の表示器42A~42Cには、図11に示した配置で、それぞれのユーザの視点位置から見える共有仮想空間41の画像が表示される。それにより、全てのユーザは、図11に示したような配置で会議室に机を並べた6人で会議しているときのそれぞれの座席からの視界が得られる。
 次に、ステップS104にて、配置指定受付部17は、共有仮想空間41に対する自装置および他装置の配置を変更する要求があるか否か判定する。配置の変更の要求があれば、配置指定受付部17は、ステップS101に戻り配置の指定を受け付ける。
 自ユーザあるいは他ユーザは、図10に例示した配置指定画面60に対する操作により、会議室に相当する共有仮想空間41の形状および大きさと、会議室における各ユーザの配置に相当する共有仮想空間41に対するユーザ空間の配置を変更することができる。
 図12は、他の構成による遠隔会議の様子を示す概念図である。図12の例では、実際にはそれぞれ異なる場所で通信端末装置10を用いているX社のAさん、Bさん、Cさんが、共有仮想空間41において円卓を囲むように対面している。画像表示部15は、所定の円上もしくは多角形状に自装置および他装置のユーザ定位置51を配置し、自装置および他装置のユーザ定方向を円もしくは多角形の中心に向かう方向とするように、共有仮想空間41を形成すればよい。
 図13は、更に他の構成による遠隔会議の様子を示す概念図である。図13の例では、実際にはそれぞれ異なる場所で通信端末装置10を用いているX社のAさん、Bさん、Cさんが、共有仮想空間41において、互いに横に並んで、画像の共有が可能な画像画面65を向いている。画像表示部15は、所定の直線上に自装置および他装置のユーザ定位置51を配置し、自装置および他装置のユーザ定方向を直線に対して垂直な同一方向とするように、共有仮想空間41を形成すればよい。複数のユーザが横並びになって、一緒に仮想空間上の巨大スクリーンに投影された映像を見ることができる。例えば、通信端末装置10に接続したパーソナルコンピュータ上の映像や、撮影現場で取得された映像をリアルタイムでストリーミング再生された映像などである。また、共有仮想空間をユーザ全員が内側に包含されるような広さの球体として定義し、その球体の内側にストリーミング再生中もしくは撮影済みの360°映像を貼り付けることで空間全体を共有しながら一緒に見るという利用が可能である。なお、図13の画像画面65は、複数の通信端末装置10が共通する仮想的な物体として共有仮想空間41に構成し、表示面にその画像を表示したものである。図13の例では、画像画面65には、Cさんのパーソナルコンピュータ68に表示されている画像が表示されている。
 ステップS104にて配置の変更の要求がなければ、ステップS105にて、画像表示部15は、遠隔会議の終了の要求があるか否か判定する。遠隔会議の終了の要求がなければ、画像表示部15はステップS103に戻る。遠隔会議の終了の要求があれば、通信端末装置10は遠隔会議を終了する。
 本実施例によれば、自装置と他装置の仮想空間を重ね合わせて共有し、その仮想空間に相対位置が固定された表示面に、その仮想空間にいる他ユーザの実写の姿を自ユーザの視点位置から見えるように表示するので、遠隔地の複数人が共有する仮想空間において互いの実写の画像を見ながら行う良好なコミュニケーションが実現される。
 また、本実施例によれば、3つの撮像器40A~40Cのうち、撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置51を結ぶ直線との相対角度に基づいて選択した撮像器のみについて、その撮像器で取得された視覚情報に基づく画像伝達情報を、その他装置に送信することもできるので、自装置から他装置に送信する画像伝達情報が削減され、ネットワーク上のデータ量を低減することもできる。
 また、本実施例によれば、図7、図8に示したように、表示面がユーザ定位置51を囲むように配置されるので、共有仮想空間41を広い角度範囲で表示する構成をコンパクトな占有スペースにより実現することができる。
 また、本実施例によれば、画面上で平面図の中で会議室の机を動かす感覚で自装置と他装置の位置関係を容易に設定することができる。
 また、本実施例において、画像表示部15は、他装置から伝達された画像および深度の情報に基づいて、第2仮想空間の物体を点群もしくはポリゴンメッシュで表す共有仮想空間41の三次元データを生成し、生成した三次元データに基づいて、自ユーザ23の視点位置24から見える共有仮想空間41の画像を表示面に表示することにしてもよい。その際、画像表示部15は、点群の点を加工可能にしてもよい。例えば、画像表示部15は、三次元データにおける自ユーザの手前側にある三次元オブジェクトが表現された点の表示サイズを小さくすることにより、その三次元オブジェクトを半透明に表示し、後ろにある三次元オブジェクトも見えるようにしてもよい。点群により表示される人物を半透明に加工することにより、人物の顔あるいは体による非言語情報を残しつつ人物の背後の情報も伝達することができる。例えば、文字を書いている手を半透明にし、書いているときに手で隠れている文字を見えるようにすることで、手の動きによる非言語情報と書かれた文字の情報を同時に伝えることができる。また、例えば、文字を書いている人物を半透明にし、書いているとき人物の姿に隠れている文字を見えるようにすることで、人物の動きによる非言語情報と書かれた文字の情報を同時に伝えることができる。図14は、点群を加工した画面が表示面に表示された様子を示す概念図である。図14には、表示器42A、42B、42Cの表示面に、点群を加工して半透明に表示された他ユーザ33の背景にある仮想空間上のホワイトボード35の文字が見えている様子が示されている。ここでは、点群の点の表示サイズを変化させる加工を例示したが、他の様々な加工も可能である。例えば、点群を構成する各点の色を変えたり、表示する点をまびいたり、各点を特定の形状をもった立体オブジェクトに置換するなどしたうえで描画させる加工も可能である。こうした加工により、例えば、外殻形状だけを維持した単色の人物に変換し、化粧をしていない女性ユーザの使用や、表情や着衣物を特定されない目的での使用にあわせた人物表現が可能となる。また、伝達するデータ量の削減および実写画像によるリアルな表現を避けるために人体の顔以外の部分について、取得された画像および/または深度情報から計算によって求められた骨格を表す情報に対し、仮想的な3DCGオブジェクトを用いて肉付けすることで、人物の姿勢や動作を表現するような加工も可能である。あるいは、顔以外、もしくは顔と片手以外は描画させないなど、骨格を表す情報をもとに表示するユーザの体の部位を選択的に表示することも可能である。加えて、あるユーザが注目されるように、ユーザの周囲に光をまとわせて目立たせたり、一方で、あるユーザ以外が注目されないように、各点を視点位置に応じた背景色に近い色で適切に着色することで背景に溶け込むようにさせて目立たせなくする加工、いわゆる光学迷彩を実装することも可能である。
 また、本実施例では、人物捕捉部13が常時継続的にユーザ91の視点位置24を特定し、画像表示部15が、その視点位置24を追跡して、その視点位置24から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示する例を示した。この構成は、ユーザ91が動いたときに運動視差によりユーザ91に視覚的に臨場感を与えるものである。しかし、会議などの場面では、ユーザ91の視点位置24の動きが大きくないことがある。そのような場合を考慮すると、ユーザ91の視点位置24を常時追跡しない構成も可能である。
 他の例として、画像表示部15は、人物捕捉部13でユーザ91の視点位置24を一旦特定したら、視点位置24を固定してそこから見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示することにしてもよい。例えば、事前のセンシング動作において、ユーザ91に自然な姿勢を採らせ、その間に、人物捕捉部13が視点位置24を特定することにしてもよい。あるいは、人物捕捉部13が一定時間の間に視点位置24の特定を複数回実行し、その平均値を平均視点位置とし、画像表示部15は、平均視点位置から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示することにしてもよい。あるいは、人物捕捉部13は一定時間の間はユーザ91の視点位置24を継続的に算出し、画像表示部15が、その視点位置24を追跡して、その視点位置24から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示し、その間に、人物捕捉部13が平均視点位置を算出し、画像表示部15が人物捕捉部13により特定される視点位置24から平均視点位置に所定時間をかけて収束させることにしてもよい。
 さらに他の例として、画像表示部15は、予め基準視点位置を定めておき、基準指定位置から見える共有仮想空間41の画像を表示器42A~42Cの表示面に表示することにしてもよい。その場合、人物捕捉部13がユーザ91の視点位置24を特定する処理は不要となる。基準視点位置として、例えば、標準的な体格の人物が通信端末装置10を用いるとき視点位置を用いてもよい。あるいは、通信端末装置10を用いた複数のユーザの視点位置を測定し、その平均値を基準指定位置として用いることにしてもよい。このような計算や定義により固定された視点位置は、各ユーザが通信ネットワーク90に接続した際に通信ネットワーク90上のサーバに保存された情報を読み込むこと、もしくは、自ユーザの通信端末装置に保存された情報を読み込むことで、以前に本装置を使用した際に決定した視点位置を再度使うことにしてもよい。
 なお、本実施例の通信端末装置10は、例えば、1人用の会議ブースを構成する。この会議ブースは同じ部屋に複数配置される可能性がある。また、在宅ワークのために会議ブースが個人の住宅に配置される可能性もある。そのような場合には、ユーザ91の声が周囲に漏れないように騒音対策が採られることが好ましい。そこで、音声出力部16は、イヤホン、ネックスピーカーなどにより音声を出力できるものであってもよい。また、音声出力部16は、ユーザ定位置51に向かう指向性を有するスピーカーを有するものであってもよい。さらに、通信端末装置10は、消音スピーカーにより周囲に漏れるユーザ91の音声を低減するものであってもよい。さらに、音声出力部16からの出力を完全に切り、他ユーザからの声は音声出力部16からの出力の代わりに、音声認識技術により文字化されて画像表示部15に出力されてもよい。
 また、本実施例では、画像表示部15が3つの表示器42A~42Cを備える例を示したが、他の構成も可能である。例えば、画像表示部15は、表示器42A~42Cに加え、表示器42A、42B、42Cの底辺に近接して配置され矩形の上面に表示面を有する表示器をさらに備えてもよい。さらに、画像表示部15は、表示器42A、42B、42Cの天井方向の辺に近接して配置され矩形の下面に表示面を有する表示器を備えてもよい。そのいずれの場合も、画像表示部15は、リアルタイムで更新される自ユーザの視点位置の情報を用い、リアルタイムの視点位置から見える共有仮想空間の映像を4つの表示器の表示面に表示する。図13に示したように各装置のユーザ定位置51およびユーザ定方向52を配置して複数のユーザが一緒にスクリーン映像を見るという利用形態において、共有仮想空間の映像を下面や上面まで視野が広がる視野でみることができる。また、通信端末装置10はアプリケーションソフトウェアを実行可能なコンピュータの機能を持ち、例えば、上面に表示面を有する表示器の表示面にアプリケーションソフトウェアの画面を表示してもよい。その場合に、その表示器をタッチパネル式ディスプレイとし、ユーザ91によるアプリケーションソフトウェアの操作を受け付けてもよい。なお、ここで記載した上面に表示面を有する表示器および下面に表示面を有する表示器の配置は、水平面に対して0°から180°までの角度で配置されていてもよい。
 また、本実施例では、撮像器40Aが表示器42Aの表示面の上辺あるいは左辺に配置され、撮像器40Cが表示器42Cの表示面の上辺あるいは表示面の右辺に配置される例を示した。しかし、本構成に限定されることはない。他の例として、撮像器40Aが表示器42Aの表示面の上辺と表示器42Bの表示面の上辺が互い隣接する位置に配置され、撮像器40Cが表示器42Cの表示面の上辺と表示器42Bの表示面の上辺が互いに隣接する位置に配置されてもよいし、それら表示器の辺の直上や近接した位置でなくともよい。撮像器40A~40Cを配置する目的は自ユーザ23のイメージ画像および深度情報を自ユーザの全体像を取得できるように広く取得するため、もしくは、自ユーザの顔の表情や掌など特定部位をより高解像度で取得するためであり、その目的に合わせて、撮像器40A~40Cはそれぞれユーザ定位置51に対し遠ざけるように配置されていてもよいし、近づけるように配置されていてもよい。また、各撮像器と各表示器とは直接もしくは接続具などを介して間接的に接続されていなくとも、それらの相対位置や相対角度が固定される方法であれば、例えば、画像表示部15が固定的に配置されている室内の床に立たせた固定金具や天井からつるされた固定金具などに各表示器が固定されていてもよい。
 また、本実施例の通信端末装置10は、外部接続端子を有し、その外部接続端子にパーソナルコンピュータを接続し、パーソナルコンピュータから制御できてもよい。通信端末装置10は、音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、音声出力部16、および配置指定受付部17に関する制御を受け付けるための制御用データを外部接続端子から出力し、それに対する制御情報を外部接続端子から入力する。例えば、配置指定受付部17は、図10に示した配置指定画面60のデータを外部接続端子を介してパーソナルコンピュータに出力し、机アイコン62を移動させるなどの制御情報をパーソナルコンピュータから外部接続端子を介して取得し、取得した制御情報に基づいて共有仮想空間41に対するユーザ空間22、32の配置の指定を受け付けてもよい。また、画像表示部15は、パーソナルコンピュータから外部接続端子を介して取得される制御情報に基づいて、図13に例示した画像画面65を共有仮想空間41に構成し、表示面にその画像を表示することにしてもよい。外部接続端子は、一例として、有線LAN端子やUSB端子である。制御情報はパーソナルコンピュータと通信端末装置10との間で直接やりとりされる、もしくは、通信ネットワーク90上のサーバを介してやりとりされる。このとき物理的な接続端子でなくとも無線LANやBluetooth等による無線接続であってもよい。またほかの例としてHDMI(High-Definition Multimedia Interface)(HDMIは登録商標)の通信規格に従う端子である。制御情報は、HDMIキャプチャ情報の中に挿入して伝送される。また、いずれの場合においても、パーソナルコンピュータから通信端末装置10への一方的な制御信号の送信、すなわち通信端末装置10からパーソナルコンピュータへの制御データが送られない状況での制御であってもよい。
 また、本実施例の通信端末装置10は、ユーザ91がジェスチャにより制御できてもよい。通信端末装置10は、手を用いた所定の動作(以下、制御動作という)と、音声取得部11、視覚情報取得部12、情報伝達部14、画像表示部15、音声出力部16、および配置指定受付部17に関する所定の制御とを予め対応付けたジェスチャ設定情報を格納しておく。人物捕捉部13が捕捉した人物の動作を監視し、人物が制御動作を行ったことを検知すると、ジェスチャ設定情報にて制御動作に対応付けられている制御を、音声取得部11、視覚情報取得部12、情報伝達部14、画像表示部15、音声出力部16、または配置指定受付部17に指示する。
 一例として、複数の通信端末装置10が共有する仮想的な物体として共有仮想空間41に構成し、表示面にその画像を表示した物体を移動させる操作について述べる。ジェスチャ設定情報には、物体に手をかざすという第1制御動作とその物体を選択された状態にするという第1制御とが対応づけられ、物体に向けて握った手を移動するという第2制御動作とその物体を共有仮想空間41内で移動させるという第2制御とが対応付けられている。視覚情報取得部12で取得される視覚情報に基づいて人物捕捉部13が第1制御動作を検知する。人物捕捉部13で第1制御動作が検知されると、画像表示部15は物体を選択された状態にする。このとき、人物捕捉部13は、共有仮想空間41上での視点位置24と開いた手の中央位置とを結ぶ直線上あるいは、肘や肩関節など体の特定部位の関節位置と手の中央位置とを結ぶ直線上、あるいはそのどちらかの直線の近傍にある物体をユーザ41が選択した物体であると判断し、画像表示部15は、その物体を選択された状態にする。例えば、物体を例えば色、光、影などによる強調表示することにより、その物体が選択されたことを表してもよい。第1制御動作が検知されたことあるいは物体が選択状態になったことは、情報伝達部14から他装置に通知されてもよい。その状態で、人物捕捉部13が第2制御動作を検知すると、画像表示部15は共有仮想空間41上でその物体を移動させる。このとき、画像表示部15は、第1制御動作が検知された後に第2制御動作が検知されたら物体を移動させるが、第1制御動作が検知されずに第2制御動作が検知されたときには物体を移動させない。共有仮想空間41で物体が移動したことは、画像伝達情報により他装置にも伝わり、他装置の表示においても物体が移動する。なお、ここでは仮想的な物体の移動を例示したが、ジェスチャにより移動する物体は特に限定されない。例えば、図13に示した画像画面65を移動させたり、サイズ、位置、角度を変化させたりするものとしてもよい。
 また、本実施例では、通信端末装置10は、1つの視点位置24から見た共有仮想空間41の画像を表示面に表示するものとしたが、この例に限定されることはない。変形例として、通信端末装置10は、左右の眼の視差を与えた共有仮想空間41の2つの画像(以下、それぞれを左眼用画像、右眼用画像という)からなる画像を表示することにしてもよい。画像表示部15は、画像を表示面に表示する表示装置と、ユーザ91が着用する三次元眼鏡装置とを有する。画像表示部15は、左眼用画像および右眼用画像を生成し、表示面に表示する。三次元眼鏡装置は、左眼用画像をユーザ91の左眼に見せ、右眼用画像をユーザ91の右眼に見せる。左右の眼に視差を持たせることで、画像に立体感を与え、より高い臨場感および没入感をユーザ91に与えることができる。なお、左右の眼に視差を有する画像を見せる手法は特に限定されない。例えば、アナグリフ式であってもよいし、偏光式であってもよいし、液晶シャッター式であってもよい。なお、一般に三次元眼鏡はヘッドマウントディスプレイのように不安感や不快感を与えることはない。
 なお、本実施例では、自装置と他装置とで全く同じ共有仮想空間41を共有する例を示したが、これに限定されることはない。他の例として、共有仮想空間41に対する自装置のユーザ空間22および他装置のユーザ空間32の配置を自装置と他装置とで異ならせてもよい。例えば、各装置の表示器の配置やサイズを考慮してユーザ91にとって違和感ない範囲で、自ユーザから他ユーザの表情や動作が見えやすいように、それぞれに配置を調整してもよい。自装置と他装置とで異なる配置の共有仮想空間41を用いる場合には、各装置が用いる配置の情報すべての装置で共有し、それぞれの装置が他のそれぞれの装置に視覚情報を送信すべき撮像器を選択することしてもよい。あるいは、各装置が他の各装置にどの方向から撮像された視覚情報が欲しいかを指定し、各装置は各装置へ当該装置が指定した方向から撮像した視覚情報を送ることにしてもよい。
 また、本実施例では、通信端末装置10が、顔部分についてはリアルタイムの実写画像を表示する例を示したが、この例に限定されることはない。他の例として、送信側の装置からはユーザ91の心理状態を受信側の装置に通知し、受信側の装置では通知された心理状態に基づいて表示するユーザの表情を加工することにしてもよい。自装置の情報伝達部14は、自装置の人物捕捉部13が自ユーザの表情から自ユーザの心理状態を推定する。例えば、自ユーザが、喜んでいる状態、怒っている状態、悲しんでいる状態、楽しんでいる状態、会話内容に合意している状態、合意していない状態、理解できていない状態のいずれであるかを推定する。自装置の情報伝達部14は、人物捕捉部13で推定された心理状態の情報を、顔部分の画像の代わりに、画像伝達情報として受信側の装置に送信する。受信側の装置では、通知された心理状態の情報に基づいて、送信側のユーザの顔部分の画像を生成し、表示する。これによれば、相手の心理という可視化しづらい定性的な情報を可視化でき、より戦略的に有効なコミュニケーションを実現するための補助となりうる。また、装置間で伝達するデータ量を削減することができる。
 また、さらに他の例として、送信側の装置がユーザ91の所望により、ユーザ91の視覚情報における顔の表情をユーザ91が所望する心理状態を表す表情に加工可能にしてもよい。自装置の人物捕捉部13は、ユーザ91から所望の心理状態の指定を受けると、ユーザ91の顔の表情を指定された心理状態を表す表情に加工する。情報伝達部14は、人物捕捉部13で顔の表情が加工された画像伝達情報を他装置に送信する。ユーザ91の所望により表情を加工することができるので、表情から伝わる情報をユーザ91が意図的に利用して有効なコミュニケーションを図ることができる。
 実施例1では、通信端末装置10は、他装置に送信すべき画像を取得する撮像器を選択し、選択した撮像器で取得される画像および深度の情報を含む画像伝達情報をその他装置に送信する。これにより、自装置から他装置へ送信する画像伝達情報のデータ量を削減している。実施例2では、更に自装置から他装置へ送信する画像伝達情報のデータ量を削減する例を示す。
 実施例2の通信システム1の構成は図1に示した実施例1のものと基本的に同じ構成である。また、実施例2の通信端末装置10の構成は、図6~図8に示した実施例1のものと同様である。実施例2の通信端末装置10が実行する画像表示処理は、図9に示した実施例1のものと基本的に同様である。ただし、実施例2では、ステップS102およびステップS103における具体的処理が実施例1の処理と異なる。
 ステップS102にて、実施例2では、人物捕捉部13が、視覚情報取得部12で取得されるユーザ空間22の画像および/または深度に基づいて、ユーザ空間22内に自ユーザを検出し、情報伝達部14が、視覚情報取得部12で取得されるユーザ空間22の画像および/または深度の情報から検出された自ユーザの顔部分を表す情報と、自ユーザの骨格を表す情報とを生成し、それらの情報を画像伝達情報として他装置に送信する。ここで骨格を表す情報とは、人物の体勢の特定を可能にする情報であり、例えば、頭、胴、尻、肩、肘、手、膝、踵など身体の特徴的な箇所の位置を示す情報であってもよい。ここでいう人物の体勢は、ポーズや動作などを人間が目で見てコミュニケーションに役立つ非言語情報が得られる程度の人体の形態である。どの程度まで詳細で正確な体勢の特定を要するかは特に限定されない。
 ステップS103にて、実施例2では、画像表示部15は、他装置から受信した顔部分を表す情報に基づく顔画像と、他装置から受信した骨格を表す情報に基づく人物の体勢の画像とを合成した人物を含む、共有仮想空間の3次元オブジェクトを、ユーザの視点位置に合わせて適切に2次元の画像に変換し表示器42A~42Cの表示面に表示する。骨格を表す情報に基づく人物の体勢の画像は、例えば、骨格を表す情報に対し、仮想的な3DCGオブジェクトを用いて肉付けすることで、人物の姿勢や動作を表現するような加工をした画像であってもよい。
 本実施例によれば、送信側の通信端末装置10から受信側の通信端末装置10に撮像された全体の情報を送らなくてよいので、通信端末装置10間で伝達するデータ量を削減することができる。また、人体の顔以外の部分は仮想的なオブジェクトで表現されるので、実写画像のリアルな表示を避けることが可能となる。
 実施例1では、図6~図8に示したように、通信端末装置が、それぞれに矩形で平面の表示面を有し表示面をユーザ定位置に向けて配置された3つの表示器を有する構成を例示した。これに対して、実施例3では、通信端末装置10が、ユーザ定位置を囲むように湾曲した曲面の表示面を有する1つの表示器を有する構成を例示する。
 図15は、実施例3による通信端末装置のブロック図である。本実施例による通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16と、配置指定受付部17とを有する。音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、および音声出力部16は、基本的に、図2に示した実施形態のものと同様である。配置指定受付部17は、共有仮想空間41に対する自装置のユーザ空間22および他装置のユーザ空間32の配置のユーザによる指定を受け付ける。
 本実施例では、実施例1と異なり、画像表示部15が1つの表示器42Bを備えている。
 図16は、実施例3による通信端末装置の概略平面図である。図17は、実施例3の通信端末装置の概略斜視図である。
 図16に示すように、実施例4では、実施例1と同様に、ユーザ空間22における所定の位置をユーザ定位置51とし、そのユーザ定位置51から所定の方向をユーザ定方向52とする。例えば、ユーザ定位置51は通信端末装置10を用いている自ユーザ23が存在するであろう位置である。例えば、ユーザ定方向52は、通信端末装置10を用いている自ユーザ23が向いているであろう方向である。
 図17に示すように、表示器42Bはユーザ定位置51を囲むように湾曲した曲面の表示面を有する表示装置である。より具体的には、表示器42Bの表示面は、円筒形の内面の周方向の所定角度範囲(一例として180°)に渡る曲面である。表示器42Bは、曲面のスクリーンに対して複数のプロジェクタで映像を投射する構成でもよいし、有機ELディスプレイを湾曲させて配置したものであってもよい。表示器42Bの表示面の左右方向の中央は、ユーザ定位置51から見てユーザ定方向52に配置される。
 実施例1では、図6~図8に示したように、通信端末装置が、それぞれに矩形で平面の表示面を有し表示面をユーザ定位置に向けて配置された3つの表示器と、互いに水平方向に隔離して撮像方向をユーザ定位置に向けて配置された3つの撮像器とを有する構成を例示した。これに対して、実施例4では、通信端末装置10が、矩形で平面の表示面を有し表示面をユーザ定位置に向けた1つの表示器と、撮像方向をユーザ定位置に向けて配置された1つの撮像器とを有する構成を例示する。
 図18は、実施例4による通信端末装置のブロック図である。本実施例による通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16と、配置指定受付部17とを有する。音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、および音声出力部16は、基本的に、図2に示した実施形態のものと同様である。配置指定受付部17は、共有仮想空間41に対する自装置のユーザ空間22および他装置のユーザ空間32の配置のユーザによる指定を受け付ける。
 本実施例では、実施例1と異なり、視覚情報取得部12が1つの撮像器40Bを備え、画像表示部15が1つの表示器42Bを備えている。
 図19は、実施例4による通信端末装置の概略平面図である。図20は、実施例4の通信端末装置の概略斜視図である。
 図19に示すように、実施例4では、実施例1と同様に、ユーザ空間22における所定の位置をユーザ定位置51とし、そのユーザ定位置51から所定の方向をユーザ定方向52とする。例えば、ユーザ定位置51は通信端末装置10を用いている自ユーザ23が存在するであろう位置である。例えば、ユーザ定方向52は、通信端末装置10を用いている自ユーザ23が向いているであろう方向である。
 図20に示すように、表示器42Bは矩形で平面の表示面を有し、表示面をユーザ定位置51に向けて配置された表示装置である。表示器42Bは、ユーザ定位置51から見てユーザ定方向52に配置される。撮像器40Bは、ユーザ定位置51との相対位置が固定され、ユーザ定方向52に対する相対方向が固定されて、撮像方向をユーザ定位置51に向けて配置されている。好ましくは、撮像器40Bは、表示器42Bの表示面の上辺もしくは下辺の中央近傍に配置される。
 図21は、実施例4における画像表示処理のフローチャートである。実施例4における画像表示処理は、図9に示した実施例1のものとは、送信データを選択するステップS102の処理が無い点で異なるが、それ以外は基本的に実施例1のものと同様である。上述したように、実施例4では、視覚情報取得部12は1つの撮像器40Bを有し、情報伝達部14は、その撮像器40Bで取得された画像および深度の情報を含む画像伝達情報を他装置に送信する。
 なお、本実施例の通信端末装置10は、音声取得部11と視覚情報取得部12と人物捕捉部13と情報伝達部14と画像表示部15と音声出力部16とが筐体に内蔵され、視覚情報取得部の撮像器40Bが筐体の所定の位置に配設され、平面の表示面を備える表示器に接続され画像表示部15による画像のデータを表示器に出力する外部出力端子が筐体に設けられた装置として構成できる。その構成において、画像表示部15は、表示面のサイズと筐体に対する表示面の相対位置および相対姿勢の指定を受け、その指定に基づいて、表示面に自ユーザの視点位置から見える共有仮想空間の画像のデータを生成し、外部出力端子から出力する。外部に汎用的な平面の表示器を接続することにより、空間を共有したコミュニケーションを実現する通信端末装置10を容易に構成することができる。なお、本実施例においては表示器42Bを1つだけ備える構成を示したが、筐体からの外部出力端子を複数とし、複数の表示器を備える構成としてもよい。この場合、画像表示部15が受ける、表示面のサイズと筐体に対する表示面の相対位置および相対姿勢の指定は、接続される表示器の数だけ必要となる。
 また、上述したように、本実施例の通信端末装置10は、視覚情報取得部12が有する撮像器40Bがひとつであるため、他装置に伝達できる画像伝達情報から生成できる三次元データが限定される。また図8、図16に示す構成に代表される実施例1、3の構成においても、設置される視覚情報取得部12の各撮像器の配置によっては生成できる三次元データは限定され完全なものにならないことがある。したがって、例えば、自装置あるいは他装置において、本実施例の通信端末装置10のユーザ91の視覚情報あるいは画像伝達情報に含まれていない部分を補完することにしてもよい。
 自装置にて補完する場合、人物捕捉部13が視覚情報取得部12からの視覚情報から人物を捕捉したら、情報伝達部14が、その捕捉された人物の視覚情報に含まれていない部分を補完して画像伝達情報を生成する。具体的には、情報伝達部14は、予め視覚情報取得部12により取得されたユーザ91の側面や背面の補完用視覚情報を保存しておき、視覚情報取得部12で取得される視覚情報に含まれていない人物の側面や背面の部分を補完視覚情報により補完してもよい。あるいは、人物捕捉部13は、視覚情報取得部12で取得される視覚情報に含まれていない人物の側面や背面の部分を、その視覚情報に含まれている部分の情報をもとに補完してもよい。例えば、ユーザ91が黒色の服を着ていれば、ユーザ91の背中の視覚情報を黒色で作成してもよい。
 他装置にて補完する場合、情報伝達部14及び/もしくは通信ネットワーク90上のサーバが、自装置(他装置にとっては他装置)から伝達された画像伝達情報に含まれる人物についての、その画像伝達情報に含まれていない部分を補完する。具体的には、情報伝達部14は、予め自装置(他装置にとっては他装置)からユーザ91の側面や背面の補完用視覚情報を取得して保存しておき、画像伝達情報に含まれていない人物の側面や背面の部分を補完視覚情報により補完してもよい。あるいは、人物捕捉部13は、画像伝達情報に含まれていない人物の側面や背面の部分を、その画像伝達情報に含まれている部分の情報をもとに補完してもよい。
 実施例1は、図7~図8に示したように、通信端末装置が矩形で平面の表示面を有する表示器を備える構成を例示した。実施例5では、通信端末装置が曲面の表示面を有する表示器を備える構成を例示する。
 図22は、実施例5による通信端末装置のブロック図である。本実施例による通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16と、配置指定受付部17とを有する。音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、音声出力部16、および配置指定受付部17は、基本的に、図6に示した実施例1のものと同様である。
 本実施例では、視覚情報取得部12が3つの撮像器40A、40B、40Cを備え、画像表示部15が1つの表示器42Dを備えている。
 図23は、実施例5による通信端末装置の概略平面図である。図24は、実施例5の通信端末装置の概略斜視図である。
 図23、24に示すように、実施例5では、画像表示部15の表示器42Dは垂直な円筒形状の内周面を表示面とする構成である。表示器42Dの円筒の内部がユーザ空間22となっている。ユーザ空間22における所定の位置をユーザ定位置51とする。例えば、ユーザ定位置51は通信端末装置10を用いている自ユーザ23が存在するであろう位置である。表示器42Dが円筒形状なのでその中心軸の近傍にユーザ定位置51を設定してもよい。
 表示器42Dはユーザ定位置51を囲む円筒形状の内周面を表示面とした表示装置である。
 撮像器40A~40Cは、それぞれが表示器42Dの表示面に近接し、ユーザ定位置51との相対位置が固定され、撮像方向をユーザ定位置51に向けて配置されている。撮像器40A~40Cは、例えば、撮像器40Aは表示器42Dの中心軸を中心として撮像器40Bとの間に110°の角度をなす方向に、撮像器40Cは表示器42Dの中心軸を中心として撮像器40Bとの間にー110°の角度をなす方向に配置されていてもよい。また、撮像器40A~40Cの高さは、例えば、自ユーザ23として標準的な身長の人物を想定し、その頭上、足元、あるいは顔の高さとしてもよい。
 実施例5における画像表示処理のフローチャートは、図9に示した実施例1のものと同様である。
 図25は、実施例5における配置指定画面の一例を示す図である。配置指定画面60には共有スペース領域64と決定ボタン63が含まれている。共有スペース領域64は、自ユーザ23と他ユーザ33とが共有する仮想的なスペースに相当する共有仮想空間41を模した平面図である。共有スペース領域64には、対話に参加する各メンバーが利用する通信端末装置10に相当するオブジェクトであるブースアイコン66が配置されている。ブースアイコン66は、例えばマウス操作、表示器42Dの表示面へのタッチ操作、撮像器40A~40Cで取得される視覚情報に基づき検出されるジェスチェー操作により移動させたり固定させたりできる。共有スペース領域64の形状および大きさを変更できるようにしてもよい。ここでは一例として共有スペース領域64が共有仮想空間41を模したものとしているので、共有スペース領域64の形状および大きさに応じて共有仮想空間41の形状および大きさを決定してもよい。決定ボタン63が押下されると、そのときの共有スペース領域64に対するブースアイコン66の配置に基づいて、共有仮想空間41における各通信端末装置10のユーザ空間と、ユーザ定位置51と、他装置のユーザ定位置との配置が決定される。図25の例では、3人のユーザが三角形の頂点をなす配置が例示されている。
 図26は、複数のユーザが共有スペースでの対面による対話が擬似的に実現された様子を示す概念図である。図26には、図25に示した配置が模擬的に実現された例が示されている。図26には、X社のAさんとBさんとCさんが三角形の頂点をなす位置に立ち、対話を行っている。それぞれのユーザの通信端末装置10の表示器42Dには、図26に示した配置で、それぞれのユーザの視点位置から見える共有仮想空間41の画像が表示される。それにより、全てのユーザは、図26に示したような配置で対話をしている視界が得られる。
 本実施例によれば、自ユーザ23から見て360°度どの方向にも他のユーザと共有する仮想空間の画像が表示され、自ユーザ23に高い臨場感を与えることができる。例えば、共有仮想空間としてCGで構成された仮想空間あるいは実写映像で構成される三次元空間を用い、その共有仮想空間の中で複数のユーザが一緒に居て対話をする状態を再現することができる。実写映像は、いずれの通信端末装置10の設置場所と異なる地点で、例えば、360度カメラで撮影されるリアルタイムの映像あるいは録画された映像であってもよい。
 なお、本実施例では、視覚情報取得部12が3つの撮像器40A~40Cを備える例を示したが、視覚情報取得部12が備える撮像器の個数は3つに限定されない。他の例として、2つであってもよいし、4つ以上であってもよい。また、撮像器が配置される位置についても本実施例に記載された配置に限定されない。
 実施例5では、円筒形状の内周面に表示面を有する通信端末装置を例示した。これに対して、実施例6では、円柱形状の外周面に表示面を有する通信端末装置を例示する。
 図27は、実施例6による通信端末装置のブロック図である。本実施例による通信端末装置10は、音声取得部11と、視覚情報取得部12と、人物捕捉部13と、情報伝達部14と、画像表示部15と、音声出力部16と、配置指定受付部17とを有する。音声取得部11、視覚情報取得部12、人物捕捉部13、情報伝達部14、画像表示部15、音声出力部16、および配置指定受付部17は、基本的に、図6に示した実施例1のものと同様である。
 本実施例では、視覚情報取得部12が8つの撮像器40A~40Hを備え、画像表示部15が1つの表示器42Eを備えている。
 図28は、実施例6による通信端末装置の概略平面図である。図29は、実施例6の通信端末装置の概略斜視図である。
 図28、29に示すように、実施例6では、画像表示部15の表示器42Eは垂直な円柱形状の外周面を表示面とする構成である。
 表示器42Eは円柱形状の外周面を表示面とした表示装置である。表示器42Eの円柱の外部がユーザ空間22となっている。撮像器40A~40Hは、それぞれが表示器42Eの表示面に近接し、円柱の外側に向けて固定され、撮像方向をユーザ定位置51に向けて配置されている。撮像器40A~40Hは、例えば、表示器42Eの中心軸を中心として互いに45°の角度をなす方向に配置されていてもよい。また、撮像器40A~40Hの高さは、例えば、自ユーザ23として標準的な身長の人物を想定し、その頭上、足元、あるいは顔の高さとしてもよい。
 実施例6の通信端末装置10は、実施例5の通信端末装置10との組合せにより対話を行うのに好適である。以下、実施例6の通信端末装置10のユーザをユーザ91(5)と称し、実施例5の通信端末装置10のユーザをユーザ91(4)と称することにする。
 実施例6の通信端末装置10が設置された実空間の広さをもとに共有仮想空間41の大きさを設定する。例えば、実施例6の通信端末装置10における共有仮想空間41を無限大としてもよい。実施例6の通信端末装置10の円柱形状の中心軸と、実施例5の通信端末装置10の円筒形状の中心軸との相対位置を共有仮想空間41において一致させる。そのうえで、例えば、撮像器40A~40Hから得られるイメージ映像をリアルタイムに合成して作成した、通信端末装置10が設置されたユーザ91(5)がいる実空間の360°映像をユーザ91(4)の通信端末装置10の表示器に投影することで、ユーザ91(4)には、ユーザ91(5)がいる実空間に自身が入り込んだような視界が得られる。ユーザ91(5)には、自身がいる実空間にユーザ91(4)が現れたような視界が得られる。図30は、実施例6のユーザから得られる視界を示す概念図である。ユーザ91(5)が実際にいる室内の実空間71に、実際には遠隔にいるユーザ91(4)が現れ、ユーザ91(5)とユーザ91(4)が直接対面して対話している状態が模擬されている。
 本実施例によれば、自ユーザは、自身が実際に居る実空間と表示面により表示される共有仮想空間とを同時に見ることができるので、自ユーザにとって自身の居る場所に他ユーザが現れたような感覚での他ユーザとのコミュニケーションが可能となる。また、実施例5の通信端末装置10を用いる他ユーザにとっては、実施例6の通信端末装置10が設置された場所を自ユーザとともに訪問している感覚でのコミュニケーションが可能となる。例えば、遠隔地の視察といったユースケースが想定される。
 なお、本実施例では、円柱形状の外周面が表示面となっている構成を例示したが、表示面の形状が本構成に限定されることはない。例えば、多角柱や球体形状の外面が表示面となる構成であってもよいし、卵型形状の外面が表示面となる構成であってもよい。
1…通信システム、10…通信端末装置、11…音声取得部、12…視覚情報取得部、13…人物捕捉部、14…情報伝達部、14C…撮像器、14B…撮像器、15…画像表示部、16…音声出力部、17…配置指定受付部、21…仮想空間、22…ユーザ空間、23…自ユーザ、24…視点位置、31…仮想空間、32…ユーザ空間、33…他ユーザ、35…ホワイトボード、40…撮像器、41…共有仮想空間、42…表示面、42A~42E…表示器、51…ユーザ定位置、52…ユーザ定方向、60…配置指定画面、61…会議室領域、62…机アイコン、63…決定ボタン、64…共有スペース領域、65…画像画面、66…ブースアイコン、71…実空間、90…通信ネットワーク、91…ユーザ

 

Claims (29)

  1.  通信回線を介して複数で相互接続する通信端末装置であって、
     自装置を用いる自ユーザの声を含む音声を取得する音声取得部と、
     所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得する視覚情報取得部と、
     前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達する情報伝達部と、
    前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前記共有仮想空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示する画像表示部と、
     前記他装置から伝達された音声伝達情報に基づいて音声を出力する音声出力部と、
    を有する通信端末装置。
  2.  前記ユーザ空間の視覚情報に基づいて前記自ユーザの視点位置を特定する人物捕捉部を更に有する、
    請求項1に記載の通信端末装置。
  3.  前記人物捕捉部は、前記ユーザ空間の視覚情報に基づいて、前記自ユーザを検出し、
     前記情報伝達部は、前記自ユーザが検出されると、前記画像伝達情報として、前記自ユーザの顔部分を表す情報を前記他装置に送信し、
     前記画像表示部は、前記他装置から受信した顔部分を表す情報に基づく顔画像を含む画像を前記表示面に表示する、
    請求項1に記載の通信端末装置。
  4.  前記情報伝達部は、前記自ユーザが検出されると、前記画像伝達情報として、更に、前記自ユーザの骨格を表す情報を前記他装置に送信し、
     前記画像表示部は、前記他装置から受信した顔部分を表す情報に基づく顔画像と、前記他装置から受信した骨格を表す情報に基づく画像とを含む前記共有仮想空間の画像を前記表示面に表示する、
    請求項1に記載の通信端末装置。
  5.  前記画像表示部は、前記共有仮想空間の人物を加工処理が可能な点群および/もしくはポリゴンメッシュにより表示する、
    請求項1に記載の通信端末装置。
  6.  前記音声出力部は、前記他装置から伝達された音声伝達情報に基づいて、前記共有仮想空間における前記他装置のユーザ空間が配置された方向から聞こえる音声を再生する、
    請求項1に記載の通信端末装置。
  7.  前記ユーザ空間における所定の位置をユーザ定位置とし、
     前記視覚情報取得部は、それぞれの撮像方向の視覚情報を取得する複数の撮像器を有し、前記複数の撮像器は、それぞれが、互いに隔離して前記ユーザ定位置との相対位置を固定し、前記ユーザ空間の少なくとも一部が撮像される方向に前記撮像方向を向けて配置され、
     前記情報伝達部は、前記他装置の複数の撮像器のうち、前記撮像器の撮像方向と、前記他装置のユーザ定位置と前記自装置のユーザ定位置を結ぶ直線との相対角度に基づいて選択した撮像器のみについて、当該撮像器で取得された視覚情報に基づく画像伝達情報を、前記他装置から取得する、
    請求項1に記載の通信端末装置。
  8.  前記ユーザ空間における所定の位置をユーザ定位置とし、
     前記視覚情報取得部は、前記ユーザ定位置から所定の方向をユーザ定方向とし、前記ユーザ定方向の右側に配置された右側撮像器と、前記ユーザ定方向の左側に配置された左側撮像器とを含み、
     前記情報伝達部は、前記共有仮想空間において前記自装置のユーザ定位置から前記ユーザ定方向の右側に前記他装置のユーザ定位置が配置される場合には前記他装置の右側撮像器による情報を含み前記他装置の左側撮像器による情報を含まない画像伝達情報を前記他装置から取得し、前記共有仮想空間において前記自装置のユーザ定位置から前記ユーザ定方向の左側に前記他装置のユーザ定位置が配置される場合には前記他装置の左側撮像器による情報を含み前記他装置の右側撮像器による情報を含まない画像伝達情報を前記他装置から受信する、
    請求項1に記載の通信端末装置。
  9.  前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
     前記画像表示部は、互いに並んだ第1線と第2線のそれぞれの上に前記自装置および前記他装置のうち少なくとも1つの装置のユーザ定位置を配置し、前記第1線上にユーザ定位置が配置された装置のユーザ定方向を前記第2線に向かう方向とし、前記第2線上にユーザ定位置が配置された装置のユーザ定方向を前記第1線に向かう方向とするように、前記共有仮想空間を形成する、
    請求項1に記載の通信端末装置。
  10.  前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
     前記画像表示部は、前記自装置および前記他装置のユーザ定位置をリングもしくは多角形状に配置し、前記自装置および前記他装置のユーザ定方向を前記リングもしくは多角形の内側に向かう方向とするように、前記共有仮想空間を形成する、
    請求項1に記載の通信端末装置。
  11.  前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
     前記画像表示部は、所定の線上に前記自装置および前記他装置のユーザ定位置を配置し、前記自装置および前記他装置のユーザ定方向を前記線に対して同一方向とするように、前記共有仮想空間を形成する、
    請求項1に記載の通信端末装置。
  12.  前記ユーザ定位置から所定の方向をユーザ定方向とし、
     前記画像表示部は、前記ユーザ定位置から見て前記ユーザ定方向に配置された矩形で平面の表示面を有する正面表示器と、前記ユーザ定位置から見て前記ユーザ定方向の右側に配置された矩形で平面の表示面を有する右側表示器と、前記ユーザ定位置から見て前記ユーザ定方向の左側に配置された矩形で平面の表示面を有する左側表示器とを有し、前記右側表示器の表示面は、前記正面表示器の表示面の右辺に近接し、前記左側表示器の表示面は、前記正面表示器の表示面の左辺と近接する、
    請求項1に記載の通信端末装置。
  13.  前記画像表示部は、前記正面表示器、前記左側表示器、前記右側表示器からなる3つの表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器、前記左側表示器、前記右側表示器からなる3つの表示器の天井側の辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
    請求項12に記載の通信端末装置。
  14.  前記ユーザ空間における所定の位置をユーザ定位置とし、
     前記画像表示部は、前記ユーザ定位置から見て前記ユーザ定方向に配置された矩形で平面の表示面を有する正面表示器と、前記正面表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
    請求項1に記載の通信端末装置。
  15.  前記ユーザ空間における所定の位置をユーザ定位置とし、
     前記画像表示部は、前記表示面が前記ユーザ定位置を水平方向に囲む内面である、
    請求項1に記載の通信端末装置。
  16.  前記画像表示部は、前記ユーザ定位置を水平方向に囲む内面である表示面を有する表示器と、前記表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
    請求項15に記載の通信端末装置。
  17.  前記ユーザ空間における所定の位置をユーザ定位置とし、
     前記画像表示部は、前記表示面の少なくとも一部の外縁近傍が前記ユーザ定位置に向かって湾曲している、
    請求項1に記載の通信端末装置。
  18.  前記画像表示部は、前記表示面の少なくとも一部の外縁近傍が前記ユーザ定位置に向かって湾曲している表示面を有する表示器と、前記表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および/または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
    請求項17に記載の通信端末装置。
  19.  前記画像表示部は、前記表示面が柱形状の外周面である、
    請求項1に記載の通信端末装置。
  20.  前記自装置に対応するオブジェクトと前記他装置に対応するオブジェクトを移動可能に配置することができる画面を表示し、前記画面に対する前記オブジェクトの配置により、前記共有仮想空間に対する前記自装置および前記他装置のユーザ空間の配置の指定を受け付ける配置指定受付部を更に有する、
    請求項1に記載の通信端末装置。
  21.  前記音声取得部と前記視覚情報取得部と前記情報伝達部と前記画像表示部と前記音声出力部とが筐体に内蔵され、前記視覚情報取得部の撮像器が前記筐体の所定の位置に配設され、平面の表示面を備える少なくとも1つ以上の表示器に接続され前記画像表示部による画像のデータを前記表示器に出力する少なくとも1つ以上の外部出力端子が前記筐体に設けられ、
     前記画像表示部は、前記表示面のサイズと前記筐体に対する前記表示面の相対位置および相対姿勢の指定を受け、前記指定に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、前記外部出力端子から出力する、
    請求項1に記載の通信端末装置。
  22.  前記情報伝達部は、前記画像伝達情報に含まれている人物の該画像伝達情報に含まれていない部分の情報を補完する、
    請求項1に記載の通信端末装置。
  23.  外部接続端子を更に有し、
     前記音声取得部、前記視覚情報取得部、人物捕捉部、前記情報伝達部、前記画像表示部、前記音声出力部の少なくともひとつに対する制御を受け付けるための制御情報を前記外部接続端子から入力する、
    請求項1に記載の通信端末装置。
  24.  前記人物捕捉部は、前記自ユーザが所定の動作を行ったことを検知し、
     前記音声取得部、前記視覚情報取得部、前記情報伝達部、前記画像表示部、前記音声出力部の少なくともひとつが前記動作に対応する処理を実行する、
    請求項1に記載の通信端末装置。
  25.  前記人物捕捉部は、前記自ユーザが前記共有仮想空間上の物体に手をかざす第1動作と、前記物体に向けた手を握って移動させる第2動作とを検知し、
     前記画像表示部は、前記第1動作が検知された後に前記第2動作が検知されたら前記物体を移動させ、前記第1動作が検知されずに前記第2動作が検知されても前記物体を移動させない、
    請求項21に記載の通信端末装置。
  26.  前記画像表示部は、前記画像を前記表示面に表示する表示装置と、前記ユーザが着用する三次元眼鏡装置とを有し、
     前記表示装置は、前記視点位置に応じて、視差を有する左眼用画像および右眼用画像を生成し、前記表示面に表示し、
     前記三次元眼鏡装置は、前記左眼用画像を前記自ユーザの左眼に見せ、前記右眼用画像を前記自ユーザの右眼に見せる、
    請求項1に記載の通信端末装置。
  27.  前記人物捕捉部は、所望の心理状態の指定を受けると、前記視覚情報における前記自ユーザの顔部分を前記心理状態を表す表情に加工し、
     前記情報伝達部は、前記自ユーザの顔部分が加工された視覚情報に基づく画像伝達情報を他装置に伝達する、
    請求項1に記載の通信端末装置。
  28.  通信回線を介して複数で相互接続する通信端末装置による通信方法であって、
     前記通信端末装置が、
     自装置を用いる自ユーザの声を含む音声を取得し、
     所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得し、
     前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達し、
     前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示し、
     前記他装置から伝達された音声伝達情報に基づいて音声を出力する、
    通信方法。
  29.  コンピュータを通信回線を介して複数で相互接続する通信端末装置の制御装置として動作させるためのソフトウェアプログラムであって、
     自装置を用いる自ユーザの声を含む音声を取得し、
     所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得し、
     前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達し、
    前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示し、
     前記他装置から伝達された音声伝達情報に基づいて音声を出力する、
    手順をコンピュータに実行させるためのソフトウェアプログラム。
PCT/JP2020/018345 2020-04-30 2020-04-30 通信端末装置、通信方法、およびソフトウェアプログラム WO2021220494A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/919,082 US20230164304A1 (en) 2020-04-30 2020-04-30 Communication terminal device, communication method, and software program
EP20933086.9A EP4145397A4 (en) 2020-04-30 2020-04-30 COMMUNICATION TERMINAL DEVICE, COMMUNICATION METHOD, AND SOFTWARE PROGRAM
JP2022518567A JPWO2021220494A1 (ja) 2020-04-30 2020-04-30
PCT/JP2020/018345 WO2021220494A1 (ja) 2020-04-30 2020-04-30 通信端末装置、通信方法、およびソフトウェアプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/018345 WO2021220494A1 (ja) 2020-04-30 2020-04-30 通信端末装置、通信方法、およびソフトウェアプログラム

Publications (1)

Publication Number Publication Date
WO2021220494A1 true WO2021220494A1 (ja) 2021-11-04

Family

ID=78331883

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/018345 WO2021220494A1 (ja) 2020-04-30 2020-04-30 通信端末装置、通信方法、およびソフトウェアプログラム

Country Status (4)

Country Link
US (1) US20230164304A1 (ja)
EP (1) EP4145397A4 (ja)
JP (1) JPWO2021220494A1 (ja)
WO (1) WO2021220494A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11991222B1 (en) * 2023-05-02 2024-05-21 Meta Platforms Technologies, Llc Persistent call control user interface element in an artificial reality environment

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000165831A (ja) * 1998-11-30 2000-06-16 Nec Corp 多地点テレビ会議システム
JP2002149581A (ja) 2000-11-09 2002-05-24 Nippon Telegr & Teleph Corp <Ntt> 複数のユーザによる仮想空間共有システム
JP2006287297A (ja) * 2005-03-31 2006-10-19 Yamaha Corp 携帯通信端末、通信端末、中継装置およびプログラム
JP2012169948A (ja) * 2011-02-16 2012-09-06 Brother Ind Ltd 通信端末、通信方法、及び通信プログラム
JP2015184986A (ja) 2014-03-25 2015-10-22 学校法人 創価大学 複合現実感共有装置
JP2017017522A (ja) * 2015-06-30 2017-01-19 Necネッツエスアイ株式会社 コミュニケーションシステム及びコミュニケーション方法
JP2017078891A (ja) 2015-10-19 2017-04-27 株式会社コロプラ 画像生成装置、画像生成方法、及び画像生成プログラム
WO2018182063A1 (ko) * 2017-03-28 2018-10-04 라인 가부시키가이샤 영상 통화 제공 장치, 방법, 및 컴퓨터 프로그램
WO2019187747A1 (ja) * 2018-03-28 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019230852A1 (ja) * 2018-06-01 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020065229A (ja) * 2018-10-19 2020-04-23 西日本電信電話株式会社 映像通信方法、映像通信装置及び映像通信プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8928659B2 (en) * 2010-06-23 2015-01-06 Microsoft Corporation Telepresence systems with viewer perspective adjustment
US8675067B2 (en) * 2011-05-04 2014-03-18 Microsoft Corporation Immersive remote conferencing
US8976224B2 (en) * 2012-10-10 2015-03-10 Microsoft Technology Licensing, Llc Controlled three-dimensional communication endpoint

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000165831A (ja) * 1998-11-30 2000-06-16 Nec Corp 多地点テレビ会議システム
JP2002149581A (ja) 2000-11-09 2002-05-24 Nippon Telegr & Teleph Corp <Ntt> 複数のユーザによる仮想空間共有システム
JP2006287297A (ja) * 2005-03-31 2006-10-19 Yamaha Corp 携帯通信端末、通信端末、中継装置およびプログラム
JP2012169948A (ja) * 2011-02-16 2012-09-06 Brother Ind Ltd 通信端末、通信方法、及び通信プログラム
JP2015184986A (ja) 2014-03-25 2015-10-22 学校法人 創価大学 複合現実感共有装置
JP2017017522A (ja) * 2015-06-30 2017-01-19 Necネッツエスアイ株式会社 コミュニケーションシステム及びコミュニケーション方法
JP2017078891A (ja) 2015-10-19 2017-04-27 株式会社コロプラ 画像生成装置、画像生成方法、及び画像生成プログラム
WO2018182063A1 (ko) * 2017-03-28 2018-10-04 라인 가부시키가이샤 영상 통화 제공 장치, 방법, 및 컴퓨터 프로그램
WO2019187747A1 (ja) * 2018-03-28 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019230852A1 (ja) * 2018-06-01 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020065229A (ja) * 2018-10-19 2020-04-23 西日本電信電話株式会社 映像通信方法、映像通信装置及び映像通信プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4145397A4

Also Published As

Publication number Publication date
EP4145397A1 (en) 2023-03-08
JPWO2021220494A1 (ja) 2021-11-04
US20230164304A1 (en) 2023-05-25
EP4145397A4 (en) 2024-03-27

Similar Documents

Publication Publication Date Title
US11228622B2 (en) Multiuser asymmetric immersive teleconferencing
US7626569B2 (en) Movable audio/video communication interface system
US9654734B1 (en) Virtual conference room
US10602121B2 (en) Method, system and apparatus for capture-based immersive telepresence in virtual environment
JP4059513B2 (ja) 没入型仮想環境において注視を伝達する方法およびシステム
Beck et al. Immersive group-to-group telepresence
KR20160135652A (ko) 헤드 마운티드 디스플레이(Head Mounted Display: HMD) 디바이스를 위한 이미지 처리
TR201702966A2 (tr) Kafaya takilan görüntüleme ci̇hazi (hmd&amp;#8217#&amp;ler)i̇le vi̇deo konferanslari i̇çi̇n i̇yi̇leşti̇ri̇lmi̇ş yöntem ve si̇stem
WO2017094543A1 (ja) 情報処理装置、情報処理システム、情報処理装置の制御方法、及び、パラメーターの設定方法
CN107274491A (zh) 一种三维场景的空间操控虚拟实现方法
Lincoln et al. Animatronic shader lamps avatars
Lincoln et al. Animatronic shader lamps avatars
Steptoe et al. Acting rehearsal in collaborative multimodal mixed reality environments
JP2020068513A (ja) 画像処理装置および画像処理方法
Smit et al. Macroscope: First-person perspective in physical scale models
US11727645B2 (en) Device and method for sharing an immersion in a virtual environment
WO2021220494A1 (ja) 通信端末装置、通信方法、およびソフトウェアプログラム
JP2023095862A (ja) プログラム及び情報処理方法
US11741674B1 (en) Navigating a virtual camera to a video avatar in a three-dimensional virtual environment, and applications thereof
WO2022091832A1 (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理端末
Dean et al. Refining personal and social presence in virtual meetings
EP2355500A1 (en) Method and system for conducting a video conference with a consistent viewing angle
Jasche et al. Mixed Reality for supporting Remote-Meetings
US11776227B1 (en) Avatar background alteration
US11748939B1 (en) Selecting a point to navigate video avatars in a three-dimensional environment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20933086

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2022518567

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020933086

Country of ref document: EP

Effective date: 20221130