WO2018225518A1 - 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム - Google Patents

画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム Download PDF

Info

Publication number
WO2018225518A1
WO2018225518A1 PCT/JP2018/019953 JP2018019953W WO2018225518A1 WO 2018225518 A1 WO2018225518 A1 WO 2018225518A1 JP 2018019953 W JP2018019953 W JP 2018019953W WO 2018225518 A1 WO2018225518 A1 WO 2018225518A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
user
fidelity
unit
display
Prior art date
Application number
PCT/JP2018/019953
Other languages
English (en)
French (fr)
Inventor
青司 木村
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/609,043 priority Critical patent/US11068699B2/en
Publication of WO2018225518A1 publication Critical patent/WO2018225518A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present disclosure relates to an image processing device, an image processing method, a program, and a telecommunications system, and more particularly, to an image processing device, an image processing method, a program, and a telecommunications system that enable more realistic telecommunications. .
  • Patent Document 1 discloses image generation in which a plurality of cameras arranged outside and inside the display (behind in the case of a transflective display) generate a subject image subjectively viewed from the front. A method is disclosed.
  • Patent Document 2 3D modeling of a face is performed, and a face texture is mapped in a state in which the orientation of the model is rotated so that the line of sight matches, thereby generating an image that matches the line of sight.
  • Image processing for video conferencing is disclosed.
  • An image processing apparatus is an image in which a first user is copied, and a predetermined area including at least an eye area in which the eyes of the first user are copied is a high fidelity display area.
  • a high-fidelity display area setting unit that is set as the first and at least a part of a plurality of photographed images photographed by the first user by each of a plurality of photographing devices arranged outside the display device.
  • the viewpoint position of the second user displayed on the display device is set as a virtual shooting position, and the first user appears to be shot from the virtual shooting position, and has higher fidelity.
  • a high-fidelity image generation unit that generates a high-fidelity image to be viewed, and a second image generation process using at least a part of the plurality of captured images captured by the first user, The first from the virtual shooting position
  • a low-fidelity image generation unit that generates a low-fidelity image that appears to have taken a user and has a lower fidelity than the high-fidelity image, and the high-fidelity display area in the low-fidelity image
  • An image superimposing unit that generates an output image to be output as an image processing result by superimposing the high-fidelity image.
  • An image processing method or program is a high fidelity image in which a first user is captured, and a predetermined region including at least an eye region in which the eyes of the first user are captured.
  • a first image generation process is performed using at least a part of a plurality of captured images captured by the first user by each of a plurality of imaging devices that are set as display areas and arranged outside the display device.
  • the second user's viewpoint position displayed on the display device is taken as a virtual shooting position, and the high fidelity that looks as if the first user has been shot from the virtual shooting position and has a higher fidelity appearance.
  • An image is generated, and a second image generation process is performed using at least a part of a plurality of photographed images photographed by the first user, and the first user is photographed from the virtual photographing position.
  • a low-fidelity image with lower fidelity than the high-fidelity image is generated, and the high-fidelity image is superimposed on the high-fidelity display area in the low-fidelity image, and output as an image processing result Generating an output image to be generated.
  • a predetermined area including at least an eye area in which the eyes of the first user are captured is set as a high fidelity display area in an image in which the first user is captured.
  • the display device performs a first image generation process using at least a part of the plurality of photographed images photographed by the first user by each of a plurality of photographing devices arranged outside the display device.
  • a high fidelity image that looks as if the first user's viewpoint position displayed on the virtual photographing position is photographed from the virtual photographing position and looks like a higher fidelity is generated, It seems that the first user performs a second image generation process using at least a part of a plurality of photographed images photographed by the first user, and photographs the first user from the virtual photographing position. From fidelity images A low fidelity image with low fidelity is generated, and an output image to be output as an image processing result is generated by superimposing the high fidelity image on the high fidelity display area in the low fidelity image.
  • a telecommunications system is a high fidelity display area including a predetermined area including at least an eye area in which the eyes of the first user are captured in an image in which the first user is captured.
  • a high-fidelity display area setting unit that is set as the first and at least a part of a plurality of photographed images photographed by the first user by each of a plurality of photographing devices arranged outside the display device.
  • the viewpoint position of the second user displayed on the display device is set as a virtual shooting position, and the first user appears to be shot from the virtual shooting position, and has higher fidelity.
  • a high-fidelity image generation unit that generates a high-fidelity image to be viewed, and a second image generation process using at least a part of the plurality of captured images captured by the first user
  • Virtual A low-fidelity image generation unit that generates a low-fidelity image that appears to have taken the first user from a position and that is lower in fidelity than the high-fidelity image
  • the high-fidelity in the low-fidelity image A teleuser on the first user side having a first image processing device including at least an image superimposing unit that generates an output image output as an image processing result by superimposing the high-fidelity image on a display area.
  • a telecommunications apparatus on the second user side including a second image processing apparatus including at least a display image generation unit for generating a display image to be displayed is connected via a network. It is.
  • the first user's eyes are captured in an image of the first user.
  • a predetermined area including at least the eye area is set as a high fidelity display area, and a plurality of photographed images taken by the first user by each of a plurality of photographing apparatuses arranged outside the display apparatus are displayed.
  • the first image generation processing is performed using at least a part, and the viewpoint position of the second user displayed on the display device is set as the virtual shooting position, and the first user is shot from the virtual shooting position.
  • a high-fidelity image that is visible and has a higher fidelity appearance is generated, and a second image generation process is performed using at least a part of the plurality of captured images captured by the first user, Above A low-fidelity image that appears to have photographed the first user from the virtual photographing position and has a lower fidelity than the high-fidelity image is generated, and the high-fidelity display area in the low-fidelity image By superimposing the high-fidelity image, an output image to be output as an image processing result is generated.
  • the second image processing apparatus provided in the second user-side telecommunications apparatus, the first user is copied based on the viewpoint position of the first user in the three-dimensional space. From the output image, a display image for generating the first user in a specific size and position is generated.
  • FIG. 3 is a block diagram illustrating a configuration example of a subject viewpoint information setting unit in FIG. 2. It is a figure which shows an example of the feature point of each part of the face on an image. It is a figure explaining the corresponding point of three picked-up images. It is a block diagram which shows the structural example of the high fidelity display area setting part of FIG. It is a figure explaining the mask image which designates the high fidelity display area of FIG. It is a block diagram which shows the structural example of the high fidelity image generation part of FIG.
  • FIG. 1 It is a block diagram which shows the structural example of the encoding part of FIG. It is a block diagram which shows the structural example of the decoding part of FIG. It is a block diagram which shows the structural example of the pseudo gaze coincidence image display part of FIG. It is a flowchart explaining the process which outputs the pseudo gaze coincidence image in which the user himself was copied. It is a flowchart explaining the process which displays the pseudo gaze coincidence image in which the other party user was copied. It is a block diagram which shows the 2nd structural example of an image process part. It is a block diagram which shows the 3rd structural example of an image process part. It is a figure which shows an example of the subject viewpoint information set fixedly.
  • FIG. 1 It is a block diagram which shows the structural example of the encoding part of FIG. It is a block diagram which shows the structural example of the decoding part of FIG. It is a block diagram which shows the structural example of the pseudo gaze coincidence image display part of FIG. It is a flowchart explaining the process which outputs the pseudo
  • FIG. 24 is a block diagram illustrating a configuration example of a high fidelity display area setting unit in FIG. 23.
  • FIG. 24 is a block diagram illustrating a configuration example of an encoding unit in FIG. 23. It is a block diagram which shows the structural example of the decoding part of FIG. It is a block diagram which shows the structural example of the pseudo gaze coincidence image display part of FIG. It is a figure explaining the geometric correction parameter containing a scaling component. It is a block diagram which shows the 4th structural example of an image process part. PTZ control by the imaging means control unit will be described. It is a block diagram which shows the 5th structural example of an image process part.
  • FIG. 33 is a block diagram illustrating a configuration example of a subject viewpoint information setting unit in FIG. 32.
  • FIG. 33 is a block diagram illustrating a configuration example of a subject viewpoint information setting unit in FIG. 32.
  • FIG. 33 is a block diagram illustrating a configuration example of a high fidelity display area setting unit in FIG. 32. It is a figure explaining the high fidelity display area set avoiding the part where the rim
  • FIG. 40 is a block diagram illustrating a configuration example of an encoding unit in FIG. 39.
  • FIG. 57 is a block diagram illustrating a configuration example of a subject viewpoint information setting unit in FIG. 56.
  • FIG. 57 is a block diagram illustrating a configuration example of a pseudo line-of-sight matching image generation unit in FIG. 56.
  • FIG. 59 is a block diagram illustrating a configuration example of a catch light emphasis unit in FIG. 58. It is a figure explaining the detection of a pupil area
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of a telecommunications system to which the present technology is applied.
  • the telecommunication system 11 is configured by connecting two telecommunication devices 12a and 12b via a network 13 such as the Internet.
  • the telecommunications system 11 can provide a telecommunications service that allows a user of the telecommunications device 12a and a user of the telecommunications device 12b to communicate bidirectionally.
  • a user who performs telecommunications using the telecommunications apparatus 12a is also referred to as a user himself / herself
  • a user of the telecommunications apparatus 12b that is a partner who performs telecommunications with the user is also referred to as a partner user.
  • the telecommunication device 12a includes a plurality of photographing devices 21a, a display device 22a, and an information processing device 23a.
  • the information processing device 23a includes an image processing unit 24a and a communication unit 25a.
  • the telecommunication device 12a includes three photographing devices 21a-1 to 21a-3, the photographing device 21a-1 is arranged on the upper side of the display device 22a, and the photographing device 21a-2 is on the left side of the display device 22a.
  • a configuration example in which the photographing device 21a-3 is arranged on the right side of the display device 22a is shown.
  • the number of photographing devices 21a is not limited to three, but may be two or four or more, and their arrangement is not limited to the example shown in FIG. In the following, a state in which the three photographing devices 21a-1 to 21a-3 have a user standing alone in front of the display device 22a as a subject will be described.
  • the imaging devices 21a-1 to 21a-3 include, for example, an imaging device such as a CMOS (Complementary Metal Oxide Semiconductor) image sensor, and three captured images obtained by photographing the subject with the user as the subject, The information is supplied to the information processing apparatus 23a.
  • CMOS Complementary Metal Oxide Semiconductor
  • the photographing device 21a when it is not necessary to distinguish the photographing devices 21a-1 to 21a-3 as appropriate, they are simply referred to as the photographing device 21a.
  • the display device 22a includes, for example, a display device such as a liquid crystal panel or an organic EL (Electro Luminescence) panel, and an image transmitted from the telecommunications device 12b, for example, of the telecommunications device 12b shown in the image is displayed.
  • a display device such as a liquid crystal panel or an organic EL (Electro Luminescence) panel
  • an image transmitted from the telecommunications device 12b, for example, of the telecommunications device 12b shown in the image is displayed.
  • the user is displayed in a size that is life-size.
  • the information processing apparatus 23a can be configured by a computer including a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like. Then, when the information processing apparatus 23a executes an application for realizing telecommunications, the image processing unit 24a performs image processing, and the communication unit 25a performs communication processing.
  • a computer including a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like. Then, when the information processing apparatus 23a executes an application for realizing telecommunications, the image processing unit 24a performs image processing, and the communication unit 25a performs communication processing.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the image processing unit 24a performs image processing that allows the user himself / herself to recognize in a pseudo manner when the line of sight matches the user on the other side displayed on the display device 22a.
  • the image processing unit 24a uses the three photographed images supplied from the photographing devices 21a-1 to 21a-3, and sets the virtual position of the other user's eye displayed on the display device 22a.
  • Image processing is performed to generate an image (hereinafter referred to as a pseudo-gaze matching image) that is a photograph of the user from a specific viewpoint.
  • the image processing unit 24a displays the pseudo-gaze coincidence image in which the other-side user is photographed in a size and position (eye height) that makes the other-side user life-size. Such image processing is performed and displayed on the display device 22a.
  • the communication unit 25 a can perform communication via the network 13. For example, the communication unit 25a transmits the encoded stream output from the image processing unit 24a to the telecommunications apparatus 12b, receives the encoded stream transmitted from the telecommunications apparatus 12b, and supplies the encoded stream to the image processing unit 24a. .
  • the telecommunications device 12a configured as described above uses the captured images taken by the imaging devices 21a-1 to 21a-3 and the user himself / herself from the viewpoint of the other user set on the display device 22a. Can be generated. Further, the telecommunication device 12a can display the counterpart user in a size and position that is life-size, using the pseudo gaze matching image transmitted from the telecommunication device 12b. Similarly, the telecommunication device 12b can generate a pseudo gaze matching image in which the user is copied and can display the pseudo gaze matching image in which the other user is copied.
  • users who use the telecommunications system 11 can perform telecommunications in a state in which their eyes are coincident with each other, for example, by turning their eyes to the opponent's life size. Thereby, the users of each other can perform more realistic communication by the telecommunications system 11.
  • the telecommunication device 12b is configured in the same manner as the telecommunication device 12a.
  • the configuration of the telecommunication device 12a will be described, and the description of the configuration of the telecommunication device 12b will be omitted.
  • the telecommunication device 12 is referred to as the telecommunication device 12, and each component constituting each is also referred to as the same.
  • FIG. 2 is a block diagram illustrating a first configuration example of the image processing unit 24.
  • the image processing unit 24 includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a low fidelity image generation unit 34, and a pseudo gaze matching image generation.
  • the block arranged above the broken line uses a plurality of images in which the user himself / herself is copied, and the user's own line of sight is viewed from the other user's side. Image processing for generating a pseudo line-of-sight image that looks like the eyes of the user on the side is performed.
  • the blocks arranged below the broken line show the pseudo-gaze matching image in which the other user is copied from the viewpoint of the user himself / herself. Image processing is performed so that the user's line of sight looks like the user.
  • the image processing unit 24 captures images of the user himself / herself from three directions by the imaging devices 21-1 to 21-3 in FIG. 1, and depth information indicating the distance in the depth direction detected by a depth sensor (not shown).
  • An input photographing signal in which a signal indicating the above is multiplexed is input. This input photographing signal is supplied to the subject viewpoint information setting unit 31, the high fidelity image generation unit 33, and the low fidelity image generation unit 34.
  • the image processing unit 24 decodes the subject viewpoint information, which is information indicating the viewpoint position of the user in the three-dimensional space, after the subject viewpoint information of the partner user is encoded and transmitted.
  • the decoded subject viewpoint information is input.
  • the decoded subject viewpoint information is supplied to the high fidelity image generation unit 33 and the low fidelity image generation unit 34.
  • the subject viewpoint information setting unit 31 analyzes the user's own face to be imaged by the imaging device 21 based on the three captured images and the depth information obtained from the input imaging signal. Thereby, the subject viewpoint information setting unit 31 acquires analysis information including coordinates indicating the feature points of each part of the face on the image, and supplies the analysis information to the high fidelity display region setting unit 32. Further, the subject viewpoint information setting unit 31 obtains the viewpoint position in the user's own three-dimensional space based on the three captured images obtained from the input imaging signal and the depth information, and the subject viewpoint indicating the viewpoint position. Information is acquired and supplied to the encoding unit 36.
  • the subject viewpoint information is used when the image processing unit 24 on the other side generates a pseudo line-of-sight matching display image from a pseudo line-of-sight matching image in which the user is captured.
  • the detailed processing in the subject viewpoint information setting unit 31 will be described with reference to FIGS.
  • the high fidelity display region setting unit 32 Based on the analysis information supplied from the subject viewpoint information setting unit 31, the high fidelity display region setting unit 32 has a high fidelity, which will be described later, in a region where the user's own face is captured in the pseudo gaze matching image. A high fidelity display area that is an area for displaying an image is set. Then, the high fidelity display area setting unit 32 supplies the high fidelity display area information indicating the high fidelity display area to the high fidelity image generation unit 33 and the low fidelity image generation unit 34. The detailed processing in the high fidelity display area setting unit 32 will be described later with reference to FIGS.
  • the high fidelity image generation unit 33 sets the viewpoint position of the partner user indicated by the decoded subject viewpoint information as a virtual shooting position, and takes a picture of the user himself from the virtual shooting position. Generate fidelity images.
  • the high fidelity image generation unit 33 uses a viewpoint interpolation technique or the like for at least a part of the three captured images captured by the imaging devices 21-1 to 21-3.
  • the high fidelity image generation unit 33 generates a high fidelity image only in the high fidelity display region indicated by the high fidelity display region information supplied from the high fidelity display region setting unit 32.
  • the high fidelity image generation unit 33 supplies the generated high fidelity image to the pseudo line-of-sight matching image generation unit 35.
  • the low fidelity image generation unit 34 assumes that the viewpoint position of the counterpart user indicated by the decoded subject viewpoint information is a virtual shooting position, and has a higher fidelity than the high fidelity image, assuming that the user has been shot from the virtual shooting position. Produce low low fidelity images.
  • the low-fidelity image generation unit 34 performs virtual transformation by performing projective transformation on at least some of the three photographed images photographed by the photographing devices 21-1 to 21-3. It is possible to generate a low-fidelity image that reproduces the appearance from the position at a certain level.
  • the low fidelity image generation unit 34 performs projective transformation when generating a low fidelity image for the high fidelity display region indicated by the high fidelity display region information supplied from the high fidelity display region setting unit 32. Make corrections that reflect the effects of. Then, the low fidelity image generation unit 34 supplies the corrected high fidelity display region information indicating the corrected high fidelity display region to the pseudo line-of-sight matching image generation unit 35 together with the generated low fidelity image. .
  • the detailed processing in the low fidelity image generation unit 34 will be described later with reference to FIGS.
  • the pseudo line-of-sight matching image generation unit 35 is a high fidelity image generation unit in the corrected high fidelity display area indicated by the corrected high fidelity display area information with respect to the low fidelity image supplied from the low fidelity image generation unit 34.
  • the high fidelity image supplied from 33 is superimposed.
  • the pseudo line-of-sight matching image generation unit 35 makes a pseudo-match such that the lines of sight of each other coincide with each other as if the line of sight of the user is looking at the eyes of the other user as viewed from the virtual shooting position.
  • a line-of-sight matching image can be generated, and the pseudo line-of-sight matching image is supplied to the encoding unit 36.
  • the encoding unit 36 encodes the user's own subject viewpoint information supplied from the subject viewpoint information setting unit 31 and the pseudo gaze matching image supplied from the pseudo gaze matching image generation unit 35. Accordingly, the encoding unit 36 generates an encoded stream in which the subject viewpoint information and the pseudo gaze matching image are encoded, and supplies the encoded stream to the transmission unit 37.
  • the transmission unit 37 outputs the encoded stream supplied from the encoding unit 36 to the communication unit 25 as a transmission stream transmitted via the network 13 in FIG. At this time, the transmission unit 37 can multiplex a separately encoded audio stream together with the encoded stream supplied from the encoding unit 36 and output the multiplexed audio stream as a transmission stream.
  • the receiving unit 38 receives a transmission stream transmitted from the telecommunications device 12 on the other side via the network 13 in FIG. 1, returns it to the encoded stream, and supplies it to the decoding unit 39. At this time, when the audio stream is multiplexed with the received transmission stream, the reception unit 38 demultiplexes the audio stream and the encoded stream from the transmission stream, and outputs the encoded stream to the decoding unit 39. To do.
  • the decoding unit 39 supplies the decoded subject viewpoint information and the decoded pseudo gaze coincidence image obtained by decoding the encoded stream supplied from the reception unit 38 to the pseudo gaze coincidence image display unit 40.
  • the decoded subject viewpoint information is subject viewpoint information indicating the viewpoint position of the counterpart user
  • the decoded pseudo gaze coincidence image is a pseudo gaze coincidence image in which the counterpart user is captured.
  • the pseudo-gaze coincidence image display unit 40 Based on the decoded subject viewpoint information and the decoded pseudo-gaze coincidence image supplied from the decoding unit 39, the pseudo-gaze coincidence image display unit 40, for example, displays the other user on the display device 22 in a size and position that is life-size. A pseudo line-of-sight matching display image for display is generated. Then, the pseudo line-of-sight matching image display unit 40 outputs the generated pseudo line-of-sight matching display image to the display device 22.
  • FIG. 3 is a block diagram illustrating a configuration example of the subject viewpoint information setting unit 31 in FIG.
  • the subject viewpoint information setting unit 31 includes a face part detection unit 51, an eye area corresponding point detection unit 52, a viewpoint distance calculation unit 53, and a subject viewpoint information generation unit 54.
  • the face part detection unit 51 performs facial part detection (facial landmark detection) on the three photographed images photographed by the photographing devices 21-1 to 21-3.
  • the face part detection unit 51 performs face part detection using a technique disclosed in a non-patent document “One" Millisecond Face Alignment with an Ensemble of Regression Trees ”by Vahid Kazemi and Josephine Sullivan, CVPR 2014. be able to.
  • the face part detection part 51 can obtain
  • it is supplied to the eye region corresponding point detection unit 52.
  • FIG. 4 shows an example of analysis information obtained by the face part detection unit 51.
  • 68 feature points are arranged for the eyes, nose, mouth, eyebrows, and face contour detected as face parts.
  • the eye area corresponding point detection unit 52 extracts feature points arranged for the eye area from the analysis information supplied from the face part detection unit 51, and regarding these feature points, the imaging device 21- Corresponding points corresponding to the three images taken by 1 to 21-3 are detected. Specifically, the eye area corresponding point detection unit 52 performs the eye area feature points shown in FIG. 4 (the feature points 37 to 48 or the 28th feature point may be added thereto). Are detected as corresponding points among the feature points with the same number between the three images. The eye area corresponding point detection unit 52 may detect corresponding points for all feature points of the eye area, or may detect corresponding points for some feature points, for example.
  • FIG. 5 shows an example in which the eye area corresponding point detection unit 52 detects the feature points arranged for the right eye as corresponding points.
  • the right eye between the captured image P1 captured by the capturing device 21-1, the captured image P2 captured by the capturing device 21-2, and the captured image P3 captured by the capturing device 21-3.
  • the feature points arranged with respect to are detected as corresponding points.
  • the viewpoint distance calculation unit 53 calculates the distance to the eye of the subject as the viewpoint distance based on the corresponding points detected by the eye region corresponding point detection unit 52. For example, the viewpoint distance calculation unit 53 can determine the viewpoint distance by correcting the imaging device 21 to a parallel state if necessary and using the principle of triangulation. The viewpoint distance calculation unit 53 calculates the viewpoint distance using only the corresponding points detected from the two photographed images among the three photographed images photographed by the photographing devices 21-1 to 21-3. May be. Note that the viewpoint distance calculation unit 53 may calculate the viewpoint distance using all the corresponding points detected from the three captured images using the Plane-Sweep method or the like.
  • the subject viewpoint information generation unit 54 converts the viewpoint distance calculated by the viewpoint distance calculation unit 53 into coordinate values of the world coordinate system, generates subject viewpoint information indicating the viewpoint position of the subject, and sets the subject viewpoint information as the subject viewpoint information. Output.
  • FIG. 6 is a block diagram showing a configuration example of the high fidelity display area setting unit 32 of FIG.
  • the high fidelity display area setting unit 32 includes a high fidelity display mask generation unit 61.
  • the analysis information output from the subject viewpoint information setting unit 31 is supplied to the high fidelity display mask generation unit 61.
  • the high-fidelity display mask generation unit 61 displays an area for displaying the high-fidelity image generated by the high-fidelity image generation unit 33 in the pseudo-gaze matching image generated by the pseudo-gaze matching image generation unit 35 based on the analysis information.
  • a mask image for designating a high fidelity display area is generated.
  • the high fidelity display mask generation unit 61 outputs a mask image designating the high fidelity display area as high fidelity display area information.
  • the high fidelity display mask generation unit 61 includes a polygon that includes all feature points included in the analysis information, that is, a polygon that covers all face parts. Can be generated as a mask image showing a high fidelity display area. Further, as shown in B of FIG. 7, the high fidelity display mask generation unit 61 limits only the feature points arranged in the eye among the feature points included in the analysis information, and the region of the eye May be generated as a mask image showing a high fidelity display area. In addition, the high fidelity display mask generation unit 61 is a region other than these, and includes a predetermined region including at least an eye region in which the user's own eyes are copied as a mask image indicating the high fidelity display region. Also good.
  • the mask image may be a binary image or an image having continuous gradation.
  • FIG. 8 is a block diagram illustrating a configuration example of the high fidelity image generation unit 33 in FIG.
  • the high fidelity image generation unit 33 includes a high fidelity display area crop unit 71 and a viewpoint interpolation image generation unit 72.
  • the high fidelity display area crop unit 71 captures three images obtained by photographing the portions corresponding to the high fidelity display area (mask image) indicated by the high fidelity display area information by the photographing devices 21-1 to 21-3. Crop from an image. Then, the high fidelity display area crop unit 71 supplies three images cropped from each of the three captured images to the viewpoint interpolation image generation unit 72.
  • the viewpoint interpolation image generation unit 72 first calculates the position of the eye when displaying the counterpart user in life size according to the viewpoint position in the three-dimensional real space of the counterpart user indicated by the decoded subject viewpoint information. Set as shooting position. For example, in FIG. 9, the counterpart user displayed in a life size on the display device 22 of FIG. 1 is indicated by a broken line, and the viewpoint interpolation image generation unit 72 displays the middle point between the eyes of the counterpart user. Set the virtual shooting position to.
  • the viewpoint interpolation image generation unit 72 performs viewpoint interpolation processing that interpolates between the three images that are cropped as the high fidelity display area by the high fidelity display area cropping unit 71, and the user himself / herself from the virtual shooting position.
  • a viewpoint-interpolated image that looks like the above is generated and output as a high-fidelity image.
  • the viewpoint interpolation image generation unit 72 generates two virtual viewpoint intermediate images, which are horizontal interpolation images at the position of ⁇ , from the two photographed images photographed by the photographing devices 21-2 and 21-3. It is generated so that the degree of influence from the captured image becomes half each. Then, the viewpoint interpolation image generation unit 72 generates an interpolation image in the vertical direction in which the degree of influence between the virtual viewpoint intermediate image and the captured image captured by the imaging device 21-1 is halved.
  • the interpolated image generated in this way is a viewpoint interpolated image viewed from the virtual shooting position (point indicated by x) shown in FIG. 10, that is, a high fidelity image.
  • FIG. 11 is a block diagram illustrating a configuration example of the low fidelity image generation unit 34 of FIG.
  • the low fidelity image generation unit 34 includes a projection conversion parameter estimation unit 81 and a projection conversion processing unit 82.
  • the projective transformation parameter estimation unit 81 sets parameters for performing the projective transformation so as to be close to the image viewed from the virtual shooting position according to the viewpoint position in the three-dimensional real space of the counterpart user indicated by the decoded subject viewpoint information. presume. Then, the projection conversion parameter estimation unit 81 supplies the projection conversion parameter indicating the estimated parameter to the projection conversion processing unit 82.
  • the projective transformation processing unit 82 performs, for example, projective transformation using a parameter indicated by the projective transformation parameter supplied from the projective transformation parameter estimating unit 81 on the photographed image photographed by the photographing device 21a-1. Generate low fidelity images. Further, the projective transformation processing unit 82 applies low fidelity to the mask image (see FIG. 7) that is the high fidelity display region indicated by the high fidelity display region information supplied from the high fidelity display region setting unit 32. Performs projective transformation using the parameters used to generate the image. Thereby, the projective transformation processing unit 82 corrects the mask image so as to correspond to the low-fidelity image, and uses the mask image as corrected high-fidelity display area information. Then, the projective transformation processing unit 82 outputs the low fidelity image and the corrected high fidelity display area information.
  • the captured image of the capturing device 21-1 disposed on the upper side of the display device 22 is used to reduce the captured image. Processing for generating a fidelity image will be described.
  • FIG. 12A when the subject stands in front of the display device 22, the subject is assumed to be a subject approximate plane that is approximated as a flat plate having no thickness in the depth direction. Is realized by projective transformation.
  • FIG. 12B shows a schematic diagram of a human image obtained by photographing a subject with the photographing device 21-1.
  • the angle a is the same as the angle a formed by the straight line connecting the photographing device 21-1 and the subject viewpoint and the straight line connecting the virtual photographing position and the subject viewpoint. What is necessary is just to estimate the parameters of the projective transformation that projects the rotated state so that the side is in front.
  • projective transformation is performed on the approximate object plane using such parameters, it is possible to generate a low-fidelity image that is close to the image of the subject viewed from the front, as shown in FIG. 13B.
  • FIG. 14 the projective transformation when the virtual shooting position is higher than the subject viewpoint will be described.
  • FIG. 14A it is equivalent to rotating at the same angle b as the angle b formed by the straight line connecting the photographing device 21-1 and the subject viewpoint and the straight line connecting the virtual photographing position and the subject viewpoint.
  • What is necessary is just to estimate the parameters of the projective transformation.
  • FIG. 14B When projective transformation is performed on the approximate object plane using such parameters, as shown in FIG. 14B, a low-fidelity image that spreads from the bottom to the top, looking down on the subject, can be generated. it can.
  • the low fidelity image generation unit 34 uses the other user's viewpoint as the virtual shooting position, and looks at the other user's viewpoint (facing, looking down, looking up). ) Near-fidelity images can be generated.
  • FIG. 16 is a block diagram illustrating a configuration example of the pseudo line-of-sight matching image generation unit 35 of FIG.
  • the pseudo line-of-sight matching image generation unit 35 includes a mask image filter processing unit 91 and a high fidelity display region blend processing unit 92.
  • the mask image filter processing unit 91 applies a morphological filter or low-pass to the high fidelity display region (corrected mask image) indicated by the corrected high fidelity display region information output from the low fidelity image generation unit 34. Apply filtering such as filtering. As a result, the mask image filter processing unit 91 generates a blend map image in which the value (blend ratio) at the boundary of the mask image changes gently, and the boundary is less noticeable in the subsequent blend processing, and the high fidelity display is performed. This is supplied to the region blend processing unit 92.
  • the high fidelity display area blend processing unit 92 performs alpha blend processing of the high fidelity image and the low fidelity image according to the blend ratio set in the blend map image supplied from the mask image filter processing unit 91. As a result, the high fidelity display region blend processing unit 92 performs a pseudo-gaze matching image in which the face portion as illustrated in FIG. 7 described above is replaced with the high fidelity image with respect to the low fidelity image. Generate and output.
  • FIG. 17 is a block diagram illustrating a configuration example of the encoding unit 36 of FIG.
  • the encoding unit 36 includes a subject viewpoint information encoding unit 101, a video codec encoding unit 102, and a stream integration unit 103.
  • the subject viewpoint information encoding unit 101 encodes the subject viewpoint information by an arbitrary encoding method consistent with the decoding side, and the stream integration unit 103 generates an additional stream generated by encoding the subject viewpoint information. To supply.
  • the subject viewpoint information encoding unit 101 can employ an encoding method using general lossless encoding such as an LZ (Ziv-Lempel) code.
  • the video codec encoding unit 102 uses, for example, an arbitrary video codec that is generally used, such as MPEG (Moving Picture Experts Group) -2, H.264, HEVC (High Efficiency Video Coding), and the like.
  • the video stream is generated by encoding the pseudo gaze matching image. Then, the video codec encoding unit 102 supplies the generated video stream to the stream integration unit 103.
  • the stream integration unit 103 integrates the additional stream supplied from the subject viewpoint information encoding unit 101 and the video stream supplied from the video codec encoding unit 102, and outputs the integrated stream as an encoded stream from the encoding unit 36.
  • the stream integration unit 103 can employ an integration method in which the additional stream generated by the subject viewpoint information encoding unit 101 is embedded in a header portion in which user information of a video stream can be recorded.
  • FIG. 18 is a block diagram illustrating a configuration example of the decoding unit 39 in FIG.
  • the decoding unit 39 includes a stream separation unit 111, a subject viewpoint information decoding unit 112, and a video codec decoding unit 113.
  • the stream separation unit 111 separates the encoded stream supplied from the reception unit 38 in FIG. 2 into an additional stream and a video stream. Then, the stream separation unit 111 supplies the additional stream to the subject viewpoint information decoding unit 112, and supplies the video stream to the video codec decoding unit 113.
  • the subject viewpoint information decoding unit 112 decodes the additional stream supplied from the stream separation unit 111 into decoded subject viewpoint information and outputs the decoded subject viewpoint information. That is, the decoded subject viewpoint information is obtained by decoding the subject viewpoint information indicating the viewpoint position of the user on the other party side after being encoded and transmitted on the other side.
  • the video codec decoding unit 113 decodes the video stream supplied from the stream separation unit 111 into a decoded pseudo line-of-sight matching image and outputs it.
  • the decoded pseudo-gaze matching image is a decoded pseudo-gaze matching image in which the counterpart user is copied and then encoded and transmitted on the counterpart side.
  • FIG. 19 is a block diagram illustrating a configuration example of the pseudo gaze coincidence image display unit 40 in FIG.
  • the pseudo-gaze matching image display unit 40 includes a life-size display geometric correction parameter estimation unit 121 and a life-size display geometric correction processing unit 122.
  • the life-size display geometric correction parameter estimation unit 121 displays the partner displayed on the display device 22 based on the viewpoint position (defined in world coordinates) of the counterpart user in the three-dimensional real space indicated by the decoded subject viewpoint information.
  • a life-size display geometric correction parameter is estimated so that the size of the face and the position of the eyes of the user on the side are displayed in full size.
  • the life-size display geometric correction parameter estimation unit 121 estimates the life-size display geometric correction parameter in consideration of the resolution and size of the display device 22, the resolution of the decoded pseudo-gaze coincidence image, and the like. This is supplied to the correction processing unit 122.
  • the life-size display geometric correction processing unit 122 performs geometric correction using the life-size display geometric correction parameter supplied from the life-size display geometric correction parameter estimation unit 121 on the decoded pseudo-gaze matching image. Accordingly, the life-size display geometric correction processing unit 122 generates a pseudo-gaze matching display image that is displayed on the display device 22 with a size and position (eye height) at which the counterpart user is life-size. . Then, the life-size display geometric correction processing unit 122 outputs the pseudo-gaze matching display image to the display device 22 of FIG. 1 for display.
  • each block included in the image processing unit 24 is configured. For example, in bidirectional communication performed with the other-side user displayed in a life-size manner, a video with a line of sight coincident with the other-side user. A communication experience can be provided.
  • FIG. 20 shows a flowchart for explaining image processing for outputting a pseudo gaze matching image in which the user himself is photographed.
  • a captured image captured by the image capturing device 21 an input captured signal in which a signal indicating depth information detected by a depth sensor and the like are multiplexed, and the other user's three-dimensional space are displayed.
  • the decoded subject viewpoint information indicating the viewpoint position is input to the image processing unit 24, the processing is started.
  • the subject viewpoint information setting unit 31 acquires analysis information indicating the coordinates of each part of the face on the image based on the captured image and depth information obtained from the input captured signal, and sets the high fidelity display area. To the unit 32. Further, the subject viewpoint information setting unit 31 acquires subject viewpoint information indicating the viewpoint position of the user himself / herself in the three-dimensional space based on the captured image and the depth information obtained from the input imaging signal, and sends the subject viewpoint information to the encoding unit 36. Supply.
  • step S12 the high fidelity display area setting unit 32 sets a high fidelity display area for displaying a high fidelity image based on the analysis information supplied from the subject viewpoint information setting unit 31 in step S11. Then, the high fidelity display area setting unit 32 supplies the high fidelity display area information indicating the high fidelity display area to the high fidelity image generation unit 33 and the low fidelity image generation unit 34.
  • step S13 the high fidelity image generation unit 33 captures the viewpoint position of the partner user as a virtual shooting position only in the high fidelity display region set by the high fidelity display region setting unit 32 in step S12. A high-fidelity image is generated using a viewpoint interpolation technique for the image. Then, the high fidelity image generation unit 33 supplies the high fidelity image to the pseudo line-of-sight matching image generation unit 35.
  • step S14 the low fidelity image generation unit 34 performs geometric correction on the captured image with the viewpoint position of the counterpart user as the virtual shooting position, and generates a low fidelity image. Further, the low fidelity image generation unit 34 reflects the influence of the geometric correction when generating the low fidelity image on the high fidelity display region set by the high fidelity display region setting unit 32 in step S12. Make corrections. Then, the low fidelity image generation unit 34 supplies the low fidelity image and the corrected high fidelity display area information to the pseudo line-of-sight matching image generation unit 35.
  • step S15 the pseudo line-of-sight matching image generation unit 35 generates a high fidelity image in step S13 in the corrected high fidelity display area for the low fidelity image supplied from the low fidelity image generation unit 34 in step S14.
  • the high fidelity image supplied from the unit 33 is superimposed.
  • the pseudo line-of-sight matching image generation unit 35 performs pseudo-matching so that the user himself / herself matches the line of sight with the counterpart user displayed on the display device 22 when viewed by the counterpart user.
  • a line-of-sight image is generated and supplied to the encoding unit 36.
  • step S16 the encoding unit 36 includes the user's own subject viewpoint information supplied from the subject viewpoint information setting unit 31 in step S11, and the pseudo gaze matching image supplied from the pseudo gaze matching image generation unit 35 in step S15. And the encoded stream is supplied to the transmission unit 37.
  • step S17 the transmission unit 37 outputs the encoded stream supplied from the encoding unit 36 in step S16 to the communication unit 25 as a transmission stream transmitted via the network 13 in FIG. Then, after the communication unit 25 transmits the transmission stream to the telecommunications device 12 on the other side, the processing returns to step S11, and thereafter, the same processing is repeated until the telecommunications are completed.
  • the image processing unit 24 transmits the subject viewpoint information of the user himself / herself, and displays a pseudo gaze matching image in which the gaze coincides with the user himself / herself in a pseudo manner when viewed from the other user. Can be sent.
  • FIG. 21 shows a flowchart for explaining image processing for displaying a pseudo gaze matching image in which the other user is copied.
  • the processing is started.
  • step S21 the reception unit 38 receives the transmission stream, returns it to the encoded stream, and supplies it to the decoding unit 39.
  • step S ⁇ b> 22 the decoding unit 39 decodes the encoded stream supplied from the reception unit 38 in step S ⁇ b> 21, acquires decoded subject viewpoint information and a decoded pseudo gaze coincidence image, and supplies them to the pseudo gaze coincidence image display unit 40. To do.
  • step S23 the pseudo gaze coincidence image display unit 40 generates a pseudo gaze coincidence display image based on the decoded subject viewpoint information and the decoded pseudo gaze coincidence image supplied from the decoding unit 39 in step S22, and displays them on the display device 22. Output.
  • the pseudo line-of-sight matching image display unit 40 matches the line of sight in a pseudo manner as viewed from the user when the partner user aligns his / her line of sight with the user displayed on the partner display device 22. A pseudo line-of-sight matching display image that is displayed in this manner is generated. Then, after the display device 22 displays the pseudo-gaze matching display image, the process returns to step S21, and thereafter, the same process is repeatedly performed until the telecommunications are completed.
  • the image processing unit 24 can display a pseudo line-of-sight matching display image in which the line-of-sight coincides with the counterpart user in a pseudo manner as viewed from the user himself / herself.
  • FIG. 22 is a block diagram illustrating a second configuration example of the image processing unit 24.
  • the same reference numerals are given to the same components as those in the image processing unit 24 in FIG. 2, and detailed descriptions thereof are omitted.
  • the image processing unit 24A includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a low fidelity image generation unit 34, and a pseudo line-of-sight matching image generation.
  • the configuration is the same as that of the image processing unit 24 in FIG. 2 in that the unit 35 and the pseudo line-of-sight matching image display unit 40 are provided.
  • the image processing unit 24 ⁇ / b> A includes a mirror image display processing unit 41.
  • the image processing unit 24 ⁇ / b> A is configured not to be used as interactive telecommunications but as an electronic mirror that displays the user itself.
  • the image processing unit 24A receives not the decoded subject viewpoint information described above with reference to FIG. 2 but the subject viewpoint information of the user from the subject viewpoint information setting unit 31 to the high fidelity image generation unit 33 and the low fidelity.
  • the image generation unit 34 is configured to be supplied. Accordingly, the high fidelity image generation unit 33 and the low fidelity image generation unit 34 generate a high fidelity image and a low fidelity image, respectively, with the user's own viewpoint position as a virtual shooting position.
  • the image processing unit 24A is directly supplied with the subject viewpoint information of the user himself / herself from the subject viewpoint information setting unit 31 to the pseudo gaze matching image display unit 40, and the pseudo gaze matching image generation unit 35 displays the pseudo gaze matching image display.
  • the pseudo-gaze coincidence image is directly supplied to the unit 40.
  • the pseudo line-of-sight matching image display unit 40 generates a pseudo line-of-sight matching display image for displaying the user himself / herself on the display device 22 in a size and position that is life-size in consideration of the user's own viewpoint position. Then, the pseudo line-of-sight matching image display unit 40 supplies the generated pseudo line-of-sight matching display image to the mirror image display processing unit 41.
  • the mirror image display processing unit 41 assumes a use as an electronic mirror, performs mirror image display processing for horizontally inverting the pseudo gaze coincidence display image supplied from the pseudo gaze coincidence image display unit 40, and outputs it to the display device 22. .
  • the pseudo gaze coincidence display image in which the user himself / herself is photographed so as to be reversed left and right is displayed on the display device 22 as if the user himself / herself saw the mirror.
  • the image processing unit 24A configured in this way takes into account the viewpoint position of the user himself / herself when the user himself / herself is displayed in a life-size electronic mirror display, and performs viewpoint interpolation processing in the high fidelity image generation unit 33 or pseudo gaze. Geometric correction in the coincidence image display unit 40 can be performed. Thereby, the user himself / herself can confirm the facial expression and the like whose line of sight matches that of the user, such as when looking at the mirror.
  • AR Augmented Reality
  • various types of AR are applied to the pseudo-gaze matching display image generated by the image processing unit 24A to perform virtual experiences such as trying on clothes and changing hairstyles, for example. Can be made. At this time, a more realistic service can be provided by matching the line of sight as described above.
  • FIG. 23 is a block diagram illustrating a third configuration example of the image processing unit 24.
  • the same reference numerals are given to the same components as those in the image processing unit 24 in FIG. 2, and the detailed description thereof is omitted.
  • the image processing unit 24B includes a high fidelity image generation unit 33, a low fidelity image generation unit 34, a pseudo line-of-sight matching image generation unit 35, a transmission unit 37, and a reception unit 38.
  • the configuration is the same as that of the image processing unit 24 of FIG.
  • the image processing unit 24B includes a subject viewpoint information setting unit 31B, a high fidelity display area setting unit 32B, an encoding unit 36B, a decoding unit 39B, a pseudo line-of-sight matching image display unit 40B, a high fidelity display information setting unit 42, And a subject viewpoint information setting unit 43.
  • the image processing unit 24 in FIG. 2 uses the viewpoint position of the partner user measured three-dimensionally as the virtual shooting position
  • the image processing unit 24B has a simply fixed virtual shooting position. Used.
  • the subject viewpoint information setting unit 31B is not supplied with an input video signal, and sets fixed subject viewpoint information so that the high fidelity image generation unit 33 and The low-fidelity image generation unit 34 is configured to be supplied. Then, the high fidelity image generation unit 33 and the low fidelity image generation unit 34 respectively generate a high fidelity image and a low fidelity image based on fixed subject viewpoint information.
  • the fixed subject viewpoint information is also output to the pseudo gaze coincidence image display unit 40B provided in the image processing unit 24B on the other side.
  • the fixed subject viewpoint information set by the subject viewpoint information setting unit 31B is the relative positional relationship between the three photographing devices 21-1 to 21-3 and the display device 22. It is information which shows.
  • the fixed subject viewpoint information can be determined from an average value of the height of the user who uses the telecommunication device 12 and the distance from the display device 22 to the user's standing position.
  • the high fidelity display information setting unit 42 sets the representative position (for example, the coordinates of the center of gravity and the coordinates of the position corresponding to the eye) and the area of the mask region of the corrected high fidelity display region information to the high level. It outputs to the encoding part 36B as fidelity display information.
  • the subject viewpoint information setting unit 43 is configured to set fixed subject viewpoint information and supply it to the pseudo gaze coincidence image display unit 40B, similarly to the subject viewpoint information setting unit 31B.
  • the This subject viewpoint information is also output to the high fidelity image generation unit 33 and the low fidelity image generation unit 34 included in the image processing unit 24B on the other side.
  • FIG. 25 is a block diagram illustrating a configuration example of the high fidelity display area setting unit 32B of FIG. Unlike the high fidelity display region setting unit 32 of FIG. 2, the high fidelity display region setting unit 32B is configured to be supplied with an input video signal.
  • the high fidelity display area setting unit 32B has the same configuration as the high fidelity display area setting unit 32 in FIG. Further, the face parts detection unit 62 is provided.
  • An input video signal is supplied to the face part detector 62. Then, the face part detection unit 62 obtains coordinates indicating the feature points of each part of the face included in the photographed image, similarly to the face part detection unit 51 provided in the subject viewpoint information setting unit 31 shown in FIG. This is supplied to the high fidelity display mask generation unit 61 as analysis information. That is, the analysis information is used as an internal signal of the high fidelity display area setting unit 32B.
  • FIG. 26 is a block diagram illustrating a configuration example of the encoding unit 36B of FIG. As described above, the high fidelity display information is supplied from the high fidelity display information setting unit 42 to the encoding unit 36B.
  • the encoding unit 36B has the same configuration as the encoding unit 36 of FIG. 17 in that it includes a video codec encoding unit 102 and a stream integration unit 103, and further displays high fidelity.
  • An information encoding unit 104 is provided.
  • the high fidelity display information encoding unit 104 encodes the high fidelity display information supplied from the high fidelity display information setting unit 42 in FIG. 23 and supplies the high fidelity display information to the stream integration unit 103 as an additional stream. Therefore, the stream integration unit 103 integrates the additional stream encoded with the high fidelity display information and the video stream supplied from the video codec encoding unit 102, and outputs the integrated stream from the encoding unit 36B. .
  • FIG. 27 is a block diagram illustrating a configuration example of the decoding unit 39B in FIG.
  • the encoded stream encoded by the encoding unit 36B is supplied to the decoding unit 39B.
  • the decoding unit 39B has the same configuration as the decoding unit 39 of FIG. 18 in that it includes a stream separation unit 111 and a video codec decoding unit 113, and further, a high fidelity display information decoding unit. 114.
  • the high fidelity display information decoding unit 114 is supplied with the additional stream separated from the encoded stream by the stream separation unit 111. Then, the high fidelity display information decoding unit 114 decodes the additional stream into decoded high fidelity display information and outputs the decoded high fidelity display information. That is, the decoded high-fidelity display information is obtained by decoding the high-fidelity display information of the counterpart user after being encoded and transmitted on the counterpart side.
  • FIG. 28 is a block diagram illustrating a configuration example of the pseudo gaze matching image display unit 40B of FIG.
  • the pseudo line-of-sight matching image display unit 40B is supplied with the decoded high fidelity display information and the decoded pseudo line-of-sight matching image output from the decoding unit 39B, and is supplied with the subject viewpoint information from the subject viewpoint information setting unit 43.
  • the pseudo line-of-sight matching image display unit 40B has the same configuration as the pseudo line-of-sight matching image display unit 40 of FIG. A large display geometric correction parameter estimation unit 131 is provided.
  • the life-size display geometric correction parameter estimation unit 131 is similar to the life-size display geometric correction parameter estimation unit 121 in FIG. 19 in that the size of the face and the eye position of the partner user displayed on the display device 22 are real. Estimate a life-size display geometric correction parameter that gives a large display. At this time, in order to match the lines of sight of the users, the virtual shooting position in the user's own pseudo-gaze matching display image matches the position of the eye (viewpoint) displayed in the pseudo-gaze matching display image of the other user. It is necessary to display it (or close position).
  • the component that translates in accordance with the difference between the subject viewpoint indicated by the fixed subject viewpoint information and the position indicated by the decoded high-fidelity display information, and the decoded high-fidelity display information indicate.
  • a geometric correction parameter including a scaling component such that the area is life-size is estimated.
  • the life-size display geometric correction processing unit 122 performs the geometric correction using the geometric correction parameter supplied from the life-size display geometric correction parameter estimation unit 131 to generate a pseudo gaze match display image, and displays the display shown in FIG.
  • the data is output to the device 22 and displayed.
  • the image processing unit 24B configured as described above does not use the measured subject viewpoint information unlike the image processing unit 24 in FIG. 2, and therefore has a higher degree of matching of the line of sight than the image processing unit 24 in FIG. Will be reduced.
  • the image processing unit 24B does not need to perform processing for measuring the subject viewpoint, and has an advantage that the effect of matching the line of sight does not depend on calibration accuracy or the like. Therefore, for example, when the change in the viewpoint position of each user is small, the image processing unit 24B can realize a more robust operation while maintaining the effect of performing telecommunications by matching the line of sight.
  • FIG. 30 is a block diagram illustrating a fourth configuration example of the image processing unit 24.
  • the same reference numerals are given to the same components as those in the image processing unit 24 in FIG. 2, and the detailed description thereof is omitted.
  • the image processing unit 24C includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a low fidelity image generation unit 34, and a pseudo gaze matching image generation.
  • the configuration is the same as that of the image processing unit 24 in FIG. 2 in that the unit 35, the encoding unit 36, the transmission unit 37, the reception unit 38, the decoding unit 39, and the pseudo line-of-sight matching image display unit 40 are provided.
  • the image processing unit 24 ⁇ / b> C is configured to include an imaging unit control unit 44. That is, the image processing unit 24C has a configuration in which a photographing unit control unit 44 is newly added to the image processing unit 24 of FIG.
  • the photographed image output from the photographing device 21 is input to the photographing unit control unit 44, and the photographing unit control unit 44 can output an input photographing signal. Furthermore, the imaging means control unit 44 changes the focal length, the posture, and the like of the imaging device 21 by feeding back the high-fidelity display area information output from the high-fidelity display area setting unit 32, so that the pitch, tilt, In addition, zoom control (PTZ control) can be performed.
  • zoom control PTZ control
  • the image processing unit 24C includes a photographed image P1 photographed by the photographing device 21-1, a photographed image P2 photographed by the photographing device 21-2, and a photographing device 21-3.
  • An input image signal obtained by multiplexing the captured image P3 is input.
  • the high fidelity image generation unit 33 generates a high fidelity image using the captured image P2 and the captured image P3, and the low fidelity image generation unit 34 uses the captured image P1 to generate a low fidelity image. Is generated.
  • FIG. 31A shows captured images P1 to P3 captured in the initial capturing state.
  • the high fidelity display area setting unit 32 performs high fidelity.
  • the area where the degree display area is set is hatched.
  • the photographing means control unit 44 obtains the ratio of the high fidelity display area to the entire area of the photographed image P2 and the photographed image P3. Then, when the ratio of the high fidelity display area to the entire area of the captured image P2 and the captured image P3 is equal to or less than a predetermined value, the imaging means control unit 44 adjusts the imaging device 21- so that the ratio becomes a predetermined value. 2 and the photographing apparatus 21-3. That is, when the high fidelity display area is narrow in the photographed image P2 and the photographed image P3, the photographing means control unit 44 performs zooming (panning or tilting as necessary) so that the high fidelity display area is widened. I do.
  • the ratio of the high fidelity display area is set to a predetermined value with respect to the entire area. It will be in a state that is widely captured.
  • the captured images P2 'and P3' whose high-fidelity display area has been zoomed by the imaging unit control unit 44 are supplied to the high-fidelity image generation unit 33.
  • the high fidelity image generation unit 33 can generate a high fidelity image with higher resolution
  • the pseudo line-of-sight matching image generation unit 35 displays a pseudo line-of-sight display with increased resolution in the high fidelity display area. An image can be generated.
  • the image processing unit 24C configured as described above can generate a higher-resolution, higher-fidelity image by using the pseudo-gaze-matched display image in which the resolution of the higher-fidelity display area is increased, thereby enabling more realistic telecommunications. Can be planned.
  • FIG. 32 is a block diagram illustrating a fifth configuration example of the image processing unit 24. Note that in the image processing unit 24D illustrated in FIG. 32, the same reference numerals are given to configurations common to the image processing unit 24 in FIG. 2, and detailed description thereof is omitted.
  • the image processing unit 24D includes a high fidelity image generation unit 33, a low fidelity image generation unit 34, a pseudo gaze match image generation unit 35, an encoding unit 36, a transmission unit 37, a reception unit 38,
  • the configuration is the same as that of the image processing unit 24 in FIG. 2 in that the decoding unit 39 and the pseudo line-of-sight matching image display unit 40 are provided.
  • the image processing unit 24D includes a subject viewpoint information setting unit 31D and a high fidelity display area setting unit 32D.
  • FIG. 33 is a block diagram illustrating a configuration example of the subject viewpoint information setting unit 31D of FIG.
  • the subject viewpoint information setting unit 31D includes an eye region corresponding point detection unit 52, a viewpoint distance calculation unit 53, and a subject viewpoint information generation unit 54. And a face part detecting unit 51D and a spectacle wearing recognizing unit 55.
  • the face part detection unit 51D detects the reliability when the face part is detected in addition to the coordinates indicating the feature points of each part of the face included in the photographed image. Then, the analysis information including the reliability is output to the high fidelity display area setting unit 32D.
  • the spectacle wearing recognition unit 55 recognizes whether or not spectacles are worn on the face shown in the photographed image.
  • the spectacle wear recognition unit 55 recognizes that the spectacles are worn, the spectacle wear information is output to the high fidelity display region setting unit 32D.
  • the spectacle wearing recognition unit 55 can be obtained as attribute information of a general face recognition technique.
  • FIG. 34 is a block diagram showing a configuration example of the high fidelity display area setting unit 32D in FIG.
  • the high fidelity display area setting unit 32D includes a high fidelity display mask generation unit 61D, and analysis information and spectacle wearing information are supplied to the high fidelity display mask generation unit 61D. Is done.
  • the high fidelity display mask generating unit 61D avoids the portion where the spectacle rim is present from the face shown in the photographed image.
  • Set the fidelity display area For example, it is judged that artifacts are likely to occur in the part where the rim of the glasses exists, so avoiding that part and setting a high fidelity display area avoids data errors and signal distortion. Can do.
  • a high fidelity display area is set in an area that avoids the portion where the rim of the glasses exists.
  • the high fidelity display mask generation unit 61D determines that the reliability of the face part such as the face contour portion is low based on the analysis information, as shown in FIG. A high fidelity display area may be set.
  • the image processing unit 24 ⁇ / b> D configured as described above may generate artifacts in the subsequent high-fidelity image generation unit 33 by setting the high-fidelity display area information using spectacle wearing information, reliability, and the like. It is possible to generate a high fidelity image by avoiding a region having high characteristics in advance. Thereby, the fidelity of the high fidelity image can be increased, and more realistic telecommunications can be achieved.
  • FIG. 36 is a block diagram illustrating a sixth configuration example of the image processing unit 24.
  • the same reference numerals are given to the same components as those in the image processing unit 24 in FIG. 2, and the detailed description thereof is omitted.
  • the image processing unit 24E includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a low fidelity image generation unit 34, an encoding unit 36,
  • the configuration is the same as that of the image processing unit 24 in FIG. 2 in that it includes a transmission unit 37, a reception unit 38, a decoding unit 39, and a pseudo-gaze matching image display unit 40.
  • the image processing unit 24E includes a pseudo line-of-sight matching image generation unit 35E.
  • FIG. 37 is a block diagram illustrating a configuration example of the pseudo gaze matching image generation unit 35E in FIG.
  • the pseudo line-of-sight matching image generation unit 35E is common to the pseudo line-of-sight matching image generation unit 35 of FIG. 16 in that it includes a mask image filter processing unit 91 and a high fidelity display region blend processing unit 92. And further includes a high fidelity determination unit 93.
  • the high fidelity determination unit 93 performs image data of the high fidelity image and the low fidelity image in the corrected high fidelity display region indicated by the corrected high fidelity display region information supplied from the low fidelity image generation unit 34. Determine similarity.
  • the high fidelity determination unit 93 can obtain the similarity of the image data according to the ratio of the positions of the parts of the face that match between the high fidelity image and the low fidelity image. That is, when the ratio of the positions of the face parts between the high-fidelity image and the low-fidelity image is high, the similarity of the image data is high, and the ratio of the positions of the face parts is low. In this case, the similarity of the image data becomes low.
  • the high fidelity determination unit 93 sets the blend ratio so that the higher the similarity, the higher the blend ratio of the high fidelity image and the lower the high fidelity image blend ratio in the low similarity region.
  • the blend ratio map image is generated and supplied to the mask image filter processing unit 91.
  • the corrected high-fidelity display area indicated by the corrected high-fidelity display area information is thinly hatched.
  • the higher the fidelity area the higher the fidelity image blend ratio is (higher hatching), and the lower the fidelity image blend ratio is, the lower the blend ratio of the high fidelity image is.
  • FIG. 38A shows an example in which the similarity between the image data of the high fidelity image and the low fidelity image is high in the corrected high fidelity display area. Therefore, a blend ratio map image in which the blend ratio of the high fidelity image is set high in the entire corrected high fidelity display area is generated.
  • FIG. 38B shows an example in which the nose and mouth are misaligned and synthesized, and the similarity between the image data of the high fidelity image and the low fidelity image is low in the corrected high fidelity display area. ing. Accordingly, a blend ratio map image is generated in which the similarity is low in a region such as the nose or mouth, and the blend ratio of the high fidelity image in that region is set low.
  • the determination process by the high fidelity determination unit 93 is performed, and the blend ratio map image according to the similarity is supplied to the mask image filter processing unit 91.
  • the processing subsequent to the mask image filter processing unit 91 is performed in the same manner as the image processing unit 24 in FIG.
  • the image processing unit 24E configured as described above displays an image without causing artifacts, although the effect of matching the line of sight decreases when the quality of the high fidelity image generated by the viewpoint interpolation processing is poor. Can do.
  • FIG. 39 is a block diagram illustrating a seventh configuration example of the image processing unit 24. Note that in the image processing unit 24F illustrated in FIG. 39, the same reference numerals are given to configurations common to the image processing unit 24 in FIG. 2, and detailed descriptions thereof are omitted.
  • the image processing unit 24F includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a transmission unit 37, a reception unit 38, and a pseudo line-of-sight matching image.
  • the configuration is the same as that of the image processing unit 24 in FIG. 2 in that the display unit 40 is provided.
  • the image processing unit 24F includes an encoding unit 36F, a decoding unit 39F, a low-fidelity image generation parameter generation unit 45, a subject viewpoint information setting unit 46, a low-fidelity image generation unit 47, and a pseudo line-of-sight matching image generation unit 48. It is configured with.
  • the image processing unit 24F is different from the image processing unit 24 in FIG. 2 in that the low-fidelity image is composed of CG (Computer Graphics) avatar animation. That is, in the image processing unit 24F, the low fidelity image generation parameter generation unit 45 arranged on the transmission side generates parameters for generating a low fidelity image by CG avatar animation. In the image processing unit 24F, the low-fidelity image generated by the CG avatar animation is generated by the low-fidelity image generation unit 47 arranged on the receiving side.
  • CG Computer Graphics
  • the viewpoint position for example, the decoded subject viewpoint information described with reference to FIG. 2
  • the low-fidelity image generation unit 47 is arranged after reception, unlike the low-fidelity image generation unit 34 of FIG. 2, information on the user's own viewpoint position set by the subject viewpoint information setting unit 46 is provided. Will be used.
  • FIG. 40 is a block diagram illustrating a configuration example of the low-fidelity image generation parameter generation unit 45 in FIG.
  • the low-fidelity image generation parameter generation unit 45 includes a person skeleton analysis unit 141, a person body model parameter extraction unit 142, a person body model parameter motion estimation unit 143, a face modeling parameter extraction unit 144, a face model.
  • a parameter motion estimation unit 145 and a model parameter information integration unit 146 are provided.
  • the person skeleton analysis unit 141 generates person skeleton information for a part of the captured image obtained from the input video signal, and supplies the person skeleton information to the person body model parameter extraction unit 142.
  • the person body model parameter extraction unit 142 generates person mesh information based on the person skeleton information supplied from the person skeleton analysis unit 141, and supplies the person mesh information to the person body model parameter motion estimation unit 143 and the model parameter information integration unit 146. .
  • the human body model parameter motion estimation unit 143 corresponds to the motion of the subject, obtains human mesh motion information indicating the motion of the vertices of each mesh of the human mesh information (or mesh geometric conversion parameters), and model parameter information This is supplied to the integration unit 146.
  • the face modeling parameter extraction unit 144 uses the analysis information obtained from the input video signal, and generates face mesh information according to the face part position indicated by the analysis information.
  • the face model parameter motion estimation unit 145 corresponds to the motion of the face, obtains face mesh motion information indicating the motion of the vertices of each mesh (or mesh geometric transformation parameter) of the face mesh information, and integrates the model parameter information. To the unit 146.
  • the model parameter information integration unit 146 integrates the person mesh information, the person mesh motion information, the face mesh information, and the face mesh motion information, and outputs the result as subject mesh information. Further, the model parameter information integration unit 146 performs labeling on the mesh corresponding to the high fidelity display area information among the meshes configured from the subject mesh information, and outputs the result as high fidelity display mesh label information.
  • FIG. 41 is a block diagram illustrating a configuration example of the encoding unit 36F in FIG.
  • the encoding unit 36F includes a subject viewpoint information encoding unit 101, a video codec encoding unit 102, and a stream integration unit 103, and has the same configuration as the encoding unit 36 of FIG.
  • the subject mesh coding unit 105 and the high fidelity display mesh label coding unit 106 are further provided.
  • the subject viewpoint information encoding unit 101 encodes the subject viewpoint information and supplies it to the stream integration unit 103 as an additional stream.
  • the video codec encoding unit 102 encodes the high-fidelity image using various codecs as described above, and supplies the high-fidelity image to the stream integration unit 103 as a video stream.
  • the subject mesh encoding unit 105 encodes the subject mesh information and supplies it to the stream integration unit 103 as a subject mesh stream.
  • the high fidelity display mesh label encoding unit 106 encodes the fidelity display mesh label information and supplies it to the stream integration unit 103 as a high fidelity display mesh label stream.
  • the stream integration unit 103 integrates the additional stream, the video stream, the subject mesh stream, and the high fidelity display mesh label stream, and outputs the integrated stream to the transmission unit 37 as an encoded stream.
  • FIG. 42 is a block diagram showing a configuration example of the decoding unit 39F in FIG.
  • the decoding unit 39F has the same configuration as the decoding unit 39 in FIG. 18 in that it includes a stream separation unit 111, a subject viewpoint information decoding unit 112, and a video codec decoding unit 113. Further, the subject mesh decoding unit 115 and the high fidelity display mesh label decoding unit 116 are provided.
  • the stream separation unit 111 separates the encoded stream supplied from the reception unit 38 in FIG. 39 into an additional stream, a video stream, a subject mesh stream, and a high fidelity display mesh label stream. Then, the stream separation unit 111 supplies the subject mesh stream to the subject mesh decoding unit 115 and also supplies the high fidelity display mesh label stream to the high fidelity display mesh label decoding unit 116.
  • the subject mesh decoding unit 115 decodes the subject mesh stream supplied from the stream separation unit 111 into decoded subject mesh information and outputs the decoded subject mesh information.
  • the high fidelity display mesh label decoding unit 116 decodes the high fidelity display mesh label stream supplied from the stream separation unit 111 into decoded high fidelity display mesh label information and outputs the decoded high fidelity display mesh label information.
  • FIG. 43 is a block diagram illustrating a configuration example of the low-fidelity image generation unit 47 of FIG.
  • the low-fidelity image generation unit 47 includes an animation rendering unit 151 and a database 152. And the low fidelity image generation part 47 produces
  • the animation rendering unit 151 performs rendering so that the image is displayed on the display device 22 in a life-size manner as viewed from the viewpoint of the other user indicated by the subject viewpoint information.
  • the animation rendering unit 151 stores various types of information (text information on the other party's user, actual size information on the other party) registered in the database 152 in a 3D mesh structure composed of subject mesh information with the other user as the subject. , Background CG information, light source information, etc.) can be rendered.
  • the animation rendering unit 151 reproduces the animation based on the motion information included in the subject mesh information, and outputs it as a low fidelity image.
  • the animation rendering unit 151 generates a mask image corresponding to the region indicated by the decoded high fidelity display mesh label information, and outputs this as corrected high fidelity display region information.
  • the pseudo gaze matching image generation unit 48 uses the corrected high fidelity display area information and the low fidelity image and replaces the high fidelity image with the same processing as the processing performed by the pseudo gaze matching image generation unit 35 of FIG.
  • the pseudo high-fidelity image is generated using the decoded high fidelity image.
  • the pseudo line-of-sight matching image display unit 40 generates a pseudo line-of-sight matching display image and outputs it to the display device 22.
  • parameters for generating a low-fidelity image by CG avatar animation are transmitted to the other party, and based on the parameters transmitted from the other party, CG avatar animation is used.
  • Low fidelity images can be generated.
  • the image processing unit 24 of each embodiment described above allows users of the telecommunications apparatus 12 to achieve more realistic telecommunications using life-size images and live-action avatar animations. At this time, for example, it is possible to provide a video communication experience that matches each other's line of sight in consideration of the viewpoint position of the user without arranging the photographing device inside the display device 22.
  • FIG. 44 is a block diagram illustrating an eighth configuration example of the image processing unit 24. Note that in the image processing unit 24G illustrated in FIG. 44, the same reference numerals are given to configurations common to the image processing unit 24 in FIG. 2, and detailed descriptions thereof are omitted.
  • the image processing unit 24G includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a low fidelity image generation unit 34, an encoding unit 36,
  • the configuration is the same as that of the image processing unit 24 in FIG. 2 in that it includes a transmission unit 37, a reception unit 38, a decoding unit 39, and a pseudo-gaze matching image display unit 40.
  • the image processing unit 24G includes a pseudo line-of-sight matching image generation unit 35G.
  • the image processing unit 24G is configured so that the analysis information output from the subject viewpoint information setting unit 31 is also supplied to the pseudo gaze matching image generation unit 35G.
  • FIG. 45 is a block diagram illustrating a configuration example of the pseudo line-of-sight matching image generation unit 35G of FIG.
  • the pseudo line-of-sight matching image generation unit 35G is common to the pseudo line-of-sight matching image generation unit 35 of FIG. 16 in that it includes a mask image filter processing unit 91 and a high fidelity display region blend processing unit 92. It becomes the composition of.
  • the pseudo line-of-sight matching image generation unit 35G has the same configuration as the pseudo line-of-sight matching image generation unit 35E of FIG. 37 in that it includes a high fidelity determination unit 93, and further includes an interference signal removal unit 94. Composed.
  • the interference signal removal unit 94 is supplied with analysis information from the subject viewpoint information setting unit 31, is supplied with a high fidelity image from the high fidelity image generation unit 33, and receives a low fidelity image from the low fidelity image generation unit 34. Supplied. Then, the interference signal removing unit 94 uses the analysis information and the low-fidelity image to remove the signal that interferes with the line-of-sight match included in the high-fidelity image, and removes the signal that causes the interference removal high.
  • the fidelity image is supplied to the high fidelity display area blend processing unit 92 and the high fidelity determination unit 93.
  • the interference signal removing unit 94 sets the error amount between the high-fidelity image and the low-fidelity image in the region near both eyes of the user before the alpha blending process by the high-fidelity display region blending processing unit 92 is performed. In response, elements that interfere with line-of-sight matching are removed from the high fidelity image.
  • the rim of the spectacles when wearing high spectacles, the rim of the spectacles may be deformed when the high fidelity image generation unit 33 generates a high fidelity image. It is assumed that the deformation of the rim of the spectacles interferes with the line-of-sight coincidence. Therefore, the interference signal removal unit 94 identifies a region that is supposed to cause a line-of-sight interference based on the analysis information, and in that region, the undeformed glasses that are captured in the low-fidelity image. Using the rim, the rim of the deformed glasses that obstructs the line-of-sight matching is removed.
  • the alpha blending process is performed based on the blend ratio map image that avoids the portion where the rim of the glasses exists.
  • the mask image filter processing unit 91 since it is smoothed by the mask image filter processing unit 91 (see FIG. 16), a part of the rim of the distorted glasses close to the eye area of the high fidelity image interferes with the line-of-sight matching. (Interfering signal) may be mixed on the pseudo-gaze matching image.
  • the interference signal removal unit 94 removes the interference signal on the pseudo line-of-sight matching image and outputs an interference removal high-fidelity image as shown on the right side of FIG. Can generate a pseudo gaze matching display image that can match the gaze more.
  • the area from which the interference signal removing unit 94 removes the interference signal is an area in the vicinity of both eyes as shown by a thick broken line in FIG. 46, and gray hatching is applied to FIG. As shown in the figure, the eye areas corresponding to the right eye and the left eye are excluded.
  • FIG. 47 is a block diagram showing a configuration example of the interference signal removing unit 94 of FIG.
  • the interference signal removal unit 94 includes an interference signal removal target region setting unit 161, an eye region setting unit 162, an interference signal removal blending unit 163, and a remaining interference signal removal smoothing unit 164.
  • the interference signal removal target region setting unit 161 Based on the analysis information supplied from the subject viewpoint information setting unit 31, the interference signal removal target region setting unit 161 identifies a region containing both eyes as the interference signal removal target region, as described with reference to FIG. .
  • the interference signal removal target area setting unit 161 sets the interference signal removal target area for the interference signal removal blending unit 163.
  • the eye area setting unit 162 specifies the areas corresponding to the right eye and the left eye as the eye areas as described with reference to FIG. 46 based on the analysis information supplied from the subject viewpoint information setting unit 31. Then, the eye area setting unit 162 sets the eye area for the interference signal removal blending unit 163 and the remaining interference signal removal smoothing unit 164.
  • the interference signal removal blending unit 163 includes a high fidelity image and a low fidelity image in a region other than the eye region set by the eye region setting unit 162 among the interference signal removal target regions set by the interference signal removal target region setting unit 161. The amount of error from the fidelity image is obtained. Then, the interference signal removal blending unit 163, as shown in FIG. 48, in the interference signal removal target region excluding the eye region, the low-fidelity image whose value increases as the obtained error amount increases. The alpha blending process is performed using the blend ratio.
  • the interference signal removal blending unit 163 displays the high fidelity image as it is for the eye region set by the eye region setting unit 162. That is, the interference signal removal blending unit 163 performs alpha blending processing with the blend ratio of the low fidelity image in the eye region set to zero. Accordingly, the interference signal removal blending unit 163 generates an interference signal removal blend image in which most of the rim portion of the distorted glasses of the high fidelity image is removed as the interference signal, and a residual interference signal removal smoothing unit 164. In the interference signal removal blend image, as shown in the center of FIG. 46, the rim edge of the distorted spectacles may not be removed and may remain as a linear interference signal.
  • the residual interference signal removal / smoothing unit 164 performs edge storage such as a median filter that removes an impulse-like signal with respect to the interference signal remaining in the interference signal removal blend image supplied from the interference signal removal blend unit 163. A smoothing process using a non-linear filter of the type is performed. Thereby, the remaining interference signal removal smoothing unit 164 generates an interference removal high-fidelity image in which all the interference signals remaining in the interference signal removal blend image are removed, and the subsequent high-fidelity display region blend processing unit 92. And it supplies to the high fidelity determination part 93 (FIG. 45).
  • edge storage such as a median filter that removes an impulse-like signal with respect to the interference signal remaining in the interference signal removal blend image supplied from the interference signal removal blend unit 163.
  • a smoothing process using a non-linear filter of the type is performed.
  • the remaining interference signal removal smoothing unit 164 generates an interference removal high-fidelity image in which all the interference signals remaining in the interference signal removal blend image are removed, and the subsequent high-fidelity display region blend processing unit
  • the mask image filter processing unit 91, the high fidelity display area blend processing unit 92, and the high fidelity determination unit 93 generate the pseudo line-of-sight matching image described above with reference to FIG. Processing similar to that of the unit 35E is performed.
  • the remaining interference signal removal smoothing unit 164 does not blur the edge portion of the low-fidelity image glasses rim, so that the high-fidelity display region blend processing unit 92 finally performs alpha blending.
  • the reproducibility of the rim portion of the processed pseudo gaze matching image is maintained.
  • the image processing unit 24G configured as described above can display without generating artifacts in the vicinity of the eye region.
  • FIG. 49 is a block diagram illustrating a ninth configuration example of the image processing unit 24. Note that in the image processing unit 24H illustrated in FIG. 49, the same reference numerals are given to components common to the image processing unit 24 in FIG. 2, and detailed description thereof is omitted.
  • the image processing unit 24H includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a low fidelity image generation unit 34, a pseudo line-of-sight matching image generation unit 35, a transmission unit 37, and The configuration is the same as that of the image processing unit 24 in FIG. 2 in that the receiving unit 38 is provided. Further, the image processing unit 24H includes a high fidelity image generation unit 33H, an encoding unit 36H, a decoding unit 39H, and a pseudo line-of-sight matching image display unit 40H.
  • the face of the partner user displayed on the display device 22 based on the viewpoint position (defined by world coordinates) in the three-dimensional real space of the partner user.
  • the size and eye position were displayed so as to be equivalent to the actual size.
  • the image processing unit 24H in consideration of the difference in processing characteristics using a plurality of captured images depending on the facial part, display is performed so that the line of sight can be more easily met.
  • the Wollaston illusion is described in the non-patent document "William Hyde Wollaston," On the apparent direction of eyes in a portrait. "Philosophical Transactions of the Royal Society of London, Vol. Explained.
  • the display device 22 includes a low-fidelity image having a face orientation as indicated by a broken line, and a dotted line.
  • the high fidelity image having the eye orientation as indicated by is displayed in a superimposed state.
  • the perceived direction of the gaze as shown by the alternate long and short dash line shifts to the face direction as shown by the broken line with respect to the true eye direction as shown by the dotted line, and the gaze is perceived in such a direction. Will be.
  • the high fidelity image generation unit 33 ⁇ / b> H encodes virtual shooting position information related to differences in processing characteristics using a plurality of shot images depending on a facial part. To the control unit 36H.
  • the high fidelity image generation unit 33H is configured to include a high fidelity display area cropping unit 71 as in the high fidelity image generation unit 33 of FIG.
  • a generation unit 72H is provided.
  • the viewpoint interpolation image generation unit 72H sets a virtual shooting position and outputs virtual shooting position information indicating the virtual shooting position.
  • the encoding unit 36H supplies the user's own subject viewpoint information supplied from the subject viewpoint information setting unit 31 and the pseudo gaze matching image generation unit 35.
  • encoding is performed in a form in which virtual shooting position information is newly added.
  • the encoding unit 36H generates an encoded stream in which the subject viewpoint information, the pseudo line-of-sight matching image, and the virtual shooting position information are encoded, and supplies the encoded stream to the transmission unit 37.
  • the decoding unit 39H in addition to the decoded subject viewpoint information and the decoded pseudo-gaze matching image obtained by decoding the encoded stream supplied from the receiving unit 38, newly decoded virtual photographing position information is displayed as a pseudo-gaze matching image display. To the unit 40H.
  • FIG. 52 is a block diagram showing a configuration example of the pseudo gaze coincidence image display unit 40H of FIG.
  • the virtual virtual coincidence image display unit 40H is supplied with the decoded virtual photographing position information together with the decoded subject viewpoint information and the decoded pseudo visual line coincidence image output from the decoding unit 39H. Further, instead of the life-size display geometric correction parameter estimation unit 121 and the life-size display geometric correction processing unit 122 of the pseudo-gaze coincidence image display unit 40 in FIG. 19, a line-of-sight coincidence display geometric correction parameter estimation unit 121H and a line-of-sight promotion The display geometric correction processing unit 122H is provided.
  • the line-of-sight promotion display geometric correction parameter estimation unit 121H has the viewpoint position in the three-dimensional real space of the partner user indicated by the decoded subject viewpoint information (world Based on the definition of coordinates), a parameter is calculated so that the face size and the eye position of the partner user displayed on the display device 22 are displayed in full size.
  • a reference state the state as a reference (hereinafter referred to as a reference state).
  • the size of the display device 22 and the resolution of the decoded pseudo-gaze matching image are considered, but the gaze matching promotion display geometric correction parameter estimation unit 121H.
  • the gaze coincidence promotion display geometric correction parameter estimation unit 121H is used as a reference. The correction amount for the reference state is determined, and the line-of-sight matching display geometric correction parameter is set.
  • the left x shown in FIG. 53 be the viewpoint interpolation position set when generating the decoded pseudo gaze coincidence image obtained from the decoded virtual shooting position information.
  • the distance from the vertical of the photographing device 21-1 installed on the upper side of the display device 22 to the straight line connecting the photographing devices 21-2 and 21-3 is normalized to 1.0, it is shown in FIG. left ⁇ indicia are internally divided vertically and r a and (1.0-r a).
  • r a is a number from 0.0 to 1.0 (0.0 ⁇ r a ⁇ 1.0 ).
  • the correction amount of the upward direction as in the graph shown in A of FIG. 54, view interpolation position as the value of r a large is determined away from the imaging device 21-1. That is, the face orientation of the low-fidelity image based on the image captured by the image capturing device 21-1 (looks slightly downward) and the three image capturing devices 21-1 to 21-3 are faithfully generated at the viewpoint interpolation position. In addition, the consistency of the eye direction of the high fidelity image (camera line of sight seen from the front) is lowered. Accordingly, since the line of sight is perceived as slightly shifted downward, the upward correction amount is increased.
  • the correction amount of the left as the graph B in FIG. 54, as the value of s a large view interpolation position is calculated away from the center position of the imaging device 21-2 and 21-3. That is, as in the upward correction amount setting method, the consistency between the face orientation of the low-fidelity image (slightly looking right) and the eye orientation of the high-fidelity image (camera view looking in front) is reduced. . Accordingly, since the line of sight is perceived as slightly shifted in the right direction, the correction amount in the left direction is increased.
  • the final correction amount at the right side x shown in FIG. 53 is expressed by a two-dimensional vector (DXL, DY), and is displayed after being corrected to the shifted position by the amount of that vector.
  • DXL, DY the two-dimensional vector
  • the two-dimensional vector (DXR) is the same as the left x mark except that the horizontal correction amount is in the right direction. , DY) is determined.
  • the line-of-sight promotion display geometric correction parameter estimation unit 121H estimates the line-of-sight coincidence display geometric correction parameter by reflecting the correction amount obtained by such a determination method, and sends it to the line-of-sight promotion display geometric correction processing unit 122H. Supply.
  • the line-of-sight promotion display geometric correction processing unit 122H performs geometric correction on the decoded pseudo line-of-sight coincidence image using the line-of-sight coincidence display geometric correction parameter supplied from the line-of-sight promotion display geometric correction parameter estimation unit 121H. Thereby, the line-of-sight matching display geometric correction processing unit 122H determines the line-of-sight based on the viewpoint interpolation position described above from the state where the size and position (eye height) of the counterpart user are life-size. A pseudo-gaze matching display image that is displayed on the display device 22 so as to be more easily matched is generated. Then, the line-of-sight coincidence display geometric correction processing unit 122H outputs and displays the pseudo line-of-sight coincidence display image on the display device 22 of FIG.
  • each block included in the image processing unit 24H is configured. For example, in interactive communication performed by displaying a user on the other side, as shown in FIG. By correcting this, it is possible to provide a video communication experience in which the line of sight is more easily met with the other user.
  • FIG. 56 is a block diagram illustrating a tenth configuration example of the image processing unit 24.
  • the same reference numerals are given to the same components as those in the image processing unit 24 in FIG. 2, and the detailed description thereof is omitted.
  • the image processing unit 24J includes a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a low fidelity image generation unit 34, an encoding unit 36, a transmission unit 37, and a reception unit 38.
  • 2 is the same as the image processing unit 24 in FIG. 2 in that the decoding unit 39 and the pseudo line-of-sight matching image display unit 40 are provided.
  • the image processing unit 24J includes a subject viewpoint information setting unit 31J and a pseudo line-of-sight matching image generation unit 35J.
  • FIG. 57 is a block diagram illustrating a configuration example of the subject viewpoint information setting unit 31J in FIG.
  • the subject viewpoint information setting unit 31J includes a face part detection unit 51, an eye region corresponding point detection unit 52, a viewpoint distance calculation unit 53, and a subject viewpoint information generation unit 54 in FIG.
  • the configuration is the same as that of the subject viewpoint information setting unit 31, and further includes a line-of-sight direction detection unit 56.
  • the line-of-sight direction detection unit 56 is supplied with an input photographing signal and analysis information is supplied from the face part detection unit 51.
  • the line-of-sight direction detection unit 56 outputs at least one of the three photographed images photographed by the photographing devices 21-1 to 21-3 and each part of the face output by the face part detection unit 51.
  • the analysis information indicating the coordinates of the feature points the line-of-sight direction of the eyes of both eyes is detected.
  • the gaze direction detection unit 56 detects the gaze direction using a technique disclosed in a non-patent document "" Rendering of Eyes for Eye-Shape Registration and Gaze Estimation "by Erroll Wood, et al. ICCV2015". be able to.
  • the gaze direction detection unit 56 supplies the detection result as gaze direction information to the pseudo gaze coincidence image generation unit 35J, and the gaze direction information is output from the subject viewpoint information setting unit 31J together with the analysis information.
  • FIG. 58 is a block diagram illustrating a configuration example of the pseudo gaze coincidence image generation unit 35J in FIG.
  • the pseudo line-of-sight matching image generation unit 35J includes a mask image filter processing unit 91, a high fidelity display region blend processing unit 92, a high fidelity determination unit 93, and an interference signal removal unit 94.
  • 45 has the same configuration as that of the pseudo line-of-sight matching image generation unit 35G of FIG. 45, and further includes a catchlight enhancement unit 95.
  • the catchlight emphasis unit 95 is supplied with analysis information and line-of-sight direction information from the subject viewpoint information setting unit 31 and with a disturbance removal high-fidelity image from the disturbance signal removal unit 94. Then, the catchlight enhancement unit 95 reflects the pupil in the interference removal high-fidelity image using the analysis information and the line-of-sight direction in advance before the alpha blending process by the high-fidelity display region blending unit 92 is performed. Emphasize the catchlight part.
  • FIG. 59 is a block diagram showing a configuration example of the catch light emphasizing unit 95 of FIG.
  • the catchlight enhancement unit 95 includes a pupil region detection unit 171, a catchlight saliency determination unit 172, and a catchlight enhancement processing unit 173.
  • the processing performed in the catchlight emphasizing unit 95 will be described with reference to FIGS. 60 and 61 as well.
  • the pupil region detection unit 171 connects four feature points close to the boundary of the pupil (pupil + iris) as shown in FIG. 60 from the face part of the eye of the analysis information supplied from the subject viewpoint information setting unit 31. A rectangular area is output as pupil area information.
  • the catchlight is conspicuous in the rectangular region indicated by the pupil region information supplied from the pupil region detecting unit 171 with respect to the high fidelity interference-removed image supplied from the interference signal removing unit 94. It is determined whether it is in a state.
  • the catchlight saliency determining unit 172 first obtains a luminance occurrence probability distribution (histogram) as shown in FIG. 61 for the luminance signal of the rectangular region indicated by the pupil region information.
  • FIG. 61A shows an example of the occurrence probability when a brighter catchlight is generated
  • FIG. 61B shows an example of the occurrence probability when a darker catchlight is generated. It is shown.
  • the catchlight saliency determination unit 172 sets the catchlight saliency CLS to 1.0. Then, the catchlight saliency determining unit 172 supplies the catchlight saliency CLS obtained in this way to the catchlight enhancement processing unit 173.
  • the catchlight emphasis processing unit 173 is supplied with catchlight saliency CLS and line-of-sight direction information. Then, the catchlight enhancement processing unit 173 converts the catchlight saliency CLS into the catchlight obscuration level Clr with the characteristics shown in FIG. Further, the catchlight enhancement processing unit 173 obtains the magnitude of the deviation from the front in the line-of-sight direction from the line-of-sight direction information as the front line-of-sight error GE, and converts it into the front line-of-sight Fgr with the characteristics shown in FIG.
  • the image processing unit 24J configured as described above can enhance the line-of-sight matching effect by the catchlight clue even in a poor lighting environment.
  • FIG. 63 is a block diagram illustrating an eleventh configuration example of the image processing unit 24. Note that in the image processing unit 24K illustrated in FIG. 63, the same reference numerals are given to configurations common to the image processing unit 24 in FIG. 2, and detailed descriptions thereof are omitted.
  • the image processing unit 24K includes a subject viewpoint information setting unit 31, a high fidelity display area setting unit 32, a high fidelity image generation unit 33, a low fidelity image generation unit 34, and a pseudo gaze matching image generation.
  • the configuration is the same as that of the image processing unit 24 in FIG. 2 in that the unit 35, the encoding unit 36, the transmission unit 37, the reception unit 38, and the decoding unit 39 are provided.
  • the image processing unit 24 includes a pseudo line-of-sight matching image display unit 40K.
  • the image processing unit 24K uses a plurality of photographed images based on the facial part on the basis of the display equivalent to the actual size of the face size and eye position of the other user displayed on the display device 22. Considering the difference in the processing characteristics, the display based on the Wollaston illusion makes it possible to display more easily the line of sight, as in the image processing unit 24H described above with reference to FIG.
  • the image processing unit 24K is configured so that virtual imaging position information is not transmitted as additional information, and a difference in processing characteristics using a plurality of captured images depending on a facial part is detected by the pseudo gaze matching image display unit 40K. To detect.
  • FIG. 64 is a block diagram showing a configuration example of the pseudo line-of-sight matching image display unit 40K in FIG.
  • the pseudo-gaze matching image display unit 40K is supplied with the decoded subject viewpoint information and the decoded pseudo-gaze matching image output from the decoding unit 39, similarly to the pseudo gaze matching image display unit 40 of FIG. Is done.
  • the pseudo line-of-sight matching image display unit 40K includes a line-of-sight matching promotion display geometric correction processing unit 122K, similar to the pseudo line-of-sight matching image display unit 40H of FIG.
  • the pseudo gaze coincidence image display unit 40K includes a gaze coincidence promotion display geometric correction parameter estimation unit 121K, a face part detection unit 51K, a gaze direction detection unit 132, and a face direction detection unit 133.
  • the face part detection unit 51K obtains coordinates indicating the feature points of each part of the face included in the decoded pseudo-gaze matching image, similarly to the face part detection unit 51 included in the subject viewpoint information setting unit 31 shown in FIG.
  • the gaze direction detection unit 132 detects the gaze direction of both eyes from the analysis information detected by the front face part detection unit 51K and the decoded pseudo gaze coincidence image, similarly to the gaze direction detection unit 56 of FIG. 57 described above.
  • the face direction detection unit 133 detects the face direction in the decoded pseudo-gaze matching image using the analysis information other than the eyes detected by the front face part detection unit 51K.
  • the face orientation detection unit 133 is disclosed in a non-patent document “OpenFace: an open source facial behavior analysis toolkit” by Tadas Baltru? Aitis, et al. In IEEE Winter Conference on Applications of Computer Vision, 2016.
  • the direction of the face is detected using the existing technology. These detected directions are expressed as vector angles (roll, pitch, yaw) on a three-dimensional space axis as shown in FIG.
  • the face direction includes the direction of the head.
  • the line-of-sight promotion display geometric correction parameter estimation unit 121K includes line-of-sight direction information indicating the line-of-sight direction of both eyes detected by the line-of-sight direction detection unit 132 and face direction information indicating the face direction detected by the face direction detection unit 133. Supplied. Then, the line-of-sight coincidence display geometric correction parameter estimation unit 121K estimates line-of-sight coincidence display geometric correction parameters based on the error between the line-of-sight direction and the face direction of both eyes, as shown in FIG.
  • a three-dimensional vector indicating the eye gaze direction and a three-dimensional vector indicating the face direction are obtained as detection results.
  • the pitch error PitchDiff depends on the value shown in FIG. Set the amount of direction correction.
  • the correction amount in the left-right direction is set according to the characteristic shown in B of FIG. 66 according to the value of the yaw error YawDiff.
  • the final correction amount on the two-dimensional image is expressed by a two-dimensional vector (Hshift, Vshift), and is corrected and displayed at the shifted position by the amount of the vector.
  • the line-of-sight promotion display geometric correction parameter estimation unit 121K estimates the line-of-sight coincidence display geometric correction parameter by reflecting the correction amount obtained by the above determination method, and supplies it to the line-of-sight promotion display geometric correction processing unit 122K. To do.
  • the line-of-sight coincidence display geometric correction processing unit 122K performs the same operation as the line-of-sight coincidence display geometric correction processing unit 122H described with reference to FIG. That is, the line-of-sight promotion display geometric correction processing unit 122K uses a correction amount based on the above-described angle error from a state where the size and position (eye height) of the counterpart user are life-size. Then, a pseudo line-of-sight matching display image that is displayed on the display device 22 is corrected so that the line of sight is more easily matched.
  • each block included in the image processing unit 24K is configured, and like the image processing unit 24H in FIG. 49, by correcting the display position with respect to the actual size display, without increasing the additional information, It is possible to provide a video communication experience that makes it easier to match the line of sight with the other user.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs.
  • the program is installed in a general-purpose personal computer from a program recording medium on which the program is recorded.
  • FIG. 67 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 205 is further connected to the bus 204.
  • the input / output interface 205 includes an input unit 206 composed of a keyboard, mouse, microphone, etc., an output unit 207 composed of a display, a speaker, etc., a storage unit 208 composed of a hard disk or nonvolatile memory, and a communication unit 209 composed of a network interface.
  • a drive 210 for driving a removable medium 211 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is connected.
  • the CPU 201 loads, for example, the program stored in the storage unit 208 to the RAM 203 via the input / output interface 205 and the bus 204 and executes the program. Is performed.
  • Programs executed by the computer (CPU 201) are, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disk, or a semiconductor.
  • the program is recorded on a removable medium 211 that is a package medium composed of a memory or the like, or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 208 via the input / output interface 205 by attaching the removable medium 211 to the drive 210.
  • the program can be received by the communication unit 209 via a wired or wireless transmission medium and installed in the storage unit 208.
  • the program can be installed in the ROM 202 or the storage unit 208 in advance.
  • this technique can also take the following structures.
  • a high fidelity display area setting unit that sets a predetermined area including at least an eye area in which the eyes of the first user are photographed as an image showing the first user;
  • First image generation processing is performed on at least a part of the plurality of captured images captured by the first user by each of a plurality of imaging devices arranged outside the display device, and the display device
  • the viewpoint position of the second user to be displayed is set as a virtual shooting position, and a high fidelity image that appears to have shot the first user from the virtual shooting position and has a higher fidelity appearance is generated.
  • a degree image generator It seems that the first user performs a second image generation process using at least a part of a plurality of photographed images photographed by the first user, and photographs the first user from the virtual photographing position.
  • a low-fidelity image generation unit that generates a low-fidelity image having a lower fidelity than the fidelity image;
  • An image processing apparatus comprising: an image superimposing unit that generates an output image to be output as an image processing result by superimposing the high fidelity image on the high fidelity display region in the low fidelity image.
  • the image processing apparatus further including a display image generation unit that generates a display image.
  • the display image generation unit is based on the viewpoint position of the second user in the three-dimensional space, the resolution of the output image in which the second user is captured, and the resolution and size of the display device.
  • the image processing apparatus wherein the display image is generated such that the second user performs a geometric correction using the parameters, and the second user is displayed in a size substantially the same as a real object.
  • a subject viewpoint information setting unit that obtains subject viewpoint information indicating the viewpoint position of the first user based on the obtained coordinates, The subject viewpoint information is used when generating the display image from the output image in which the first user is photographed on the second user side who is a partner who performs telecommunications with the first user.
  • the image processing apparatus according to (2) or (3).
  • the high fidelity display area setting unit generates a mask image that specifies the high fidelity display area using analysis information including coordinates indicating the feature points obtained by the subject viewpoint information setting unit. ).
  • the high-fidelity image generation unit crops a portion corresponding to the high-fidelity display area from the plurality of captured images captured by the first user, and converts the cropped images into a plurality of cropped images.
  • the image processing device according to any one of (1) to (5), wherein the high-fidelity image is generated by performing viewpoint interpolation processing according to the virtual shooting position.
  • the low fidelity image generation unit is estimated to be close to the image viewed from the virtual shooting position according to the viewpoint position of the second user with respect to the shot image shot by the first user.
  • the image processing apparatus according to any one of (1) to (6), wherein the low-fidelity image is generated by performing a projective transformation process using a projective transformation parameter.
  • the low fidelity image generation unit performs a projective transformation process using the projective transformation parameter on the mask image designating the high fidelity display region, thereby affecting the effect of the projective transformation on the low fidelity image.
  • the image superimposing unit generates a blend map image obtained by performing a filtering process on a mask image designating the high fidelity display region, and the high fidelity according to a blend ratio set in the blend map image.
  • the image processing apparatus according to any one of (1) to (8), wherein the output image is generated by performing an alpha blend process for blending the image and the low fidelity image.
  • An encoding unit that encodes subject viewpoint information indicating the viewpoint position of the first user and the output image in which the first user is copied to generate an encoded stream;
  • the image processing apparatus according to (4), further including: a transmission unit that outputs the encoded stream as a transmission stream transmitted via a network.
  • the object viewpoint information indicating the viewpoint position of the second user and the output image in which the second user is copied are encoded, and a transmission stream transmitted via a network is received.
  • a receiving unit for returning to a stream A decoding unit that decodes the encoded stream and supplies subject viewpoint information indicating the viewpoint position of the second user and the output image in which the second user is copied to the display image generation unit;
  • the image processing apparatus according to any one of (2) to (10), further provided.
  • the first user and the second user are the same person,
  • the high fidelity image generation unit generates the high fidelity image using the viewpoint position of the person itself as a virtual shooting position, and the low fidelity image generation unit uses the viewpoint position of the person itself as a virtual shooting position.
  • the image processing apparatus according to any one of (1) to (11), further including a mirror image display processing unit that performs a mirror image display process for horizontally inverting the output image.
  • the high fidelity image generation unit and the low fidelity image generation unit generate the high fidelity image and the low fidelity image based on fixed viewpoint information, respectively.
  • the image processing apparatus further including: a high fidelity display information setting unit that outputs the representative position and area of the mask image as high fidelity display information.
  • the first user is zoomed as the captured image used by the high fidelity image generation unit to generate the high fidelity image, and the low fidelity image generation unit generates the low fidelity image.
  • the high fidelity display area setting unit avoids a portion where a rim of glasses is present from the face shown in the image, and The image processing apparatus according to any one of (1) to (12), wherein the degree display area is set.
  • the image superimposing unit generates a blend ratio map image based on the similarity between the high fidelity image and the low fidelity image, such that the higher the similarity, the higher the blend ratio of the high fidelity image.
  • the image processing apparatus may blend the high fidelity image and the low fidelity in a region near the eyes of the first user before blending the high fidelity image and the low fidelity image according to the blend ratio map image.
  • the image processing apparatus Based on the first user's line of sight based on at least one photographed image of the first user as a subject and analysis information including coordinates indicating feature points of each part of the face of the first user
  • a subject viewpoint information setting unit having a gaze direction detection unit for detecting a direction
  • the image superimposing unit preliminarily blends the high fidelity image and the low fidelity image according to the blend ratio map image, using the analysis information and the line-of-sight direction in advance of the pupil region of the high fidelity image.
  • the image processing apparatus according to (16), further including a catchlight emphasis unit that emphasizes the catchlight.
  • the display image generation unit is a viewpoint interpolation position set when the second user generates the display image generated so as to be displayed in substantially the same size as the real object, and generates the high-fidelity image.
  • the image processing apparatus according to (2) wherein the first user is caused to display at a display position according to a correction amount for correcting a shift in a direction in which the first user perceives the line of sight of the second user.
  • the display image generation unit indicates the line-of-sight direction of the second user in the output image when the second user generates the display image displayed in substantially the same size as a real object.
  • Deviation in the direction in which the first user perceives the line of sight of the second user based on an error in the angle between the dimension vector and the three-dimensional vector indicating the face orientation of the second user in the output image The image processing apparatus according to (2), wherein the image is displayed at a display position according to a correction amount for correcting.
  • a predetermined area including at least the eye area where the eyes of the first user are copied is set as a high fidelity display area
  • First image generation processing is performed on at least a part of the plurality of captured images captured by the first user by each of a plurality of imaging devices arranged outside the display device, and the display device
  • the second user's viewpoint position to be displayed is set as a virtual shooting position, and a high fidelity image that looks as if the first user has been shot from the virtual shooting position and has a higher fidelity appearance is generated. It seems that the first user performs a second image generation process using at least a part of a plurality of photographed images photographed by the first user, and photographs the first user from the virtual photographing position.
  • An image processing method including a step of generating an output image to be output as an image processing result by superimposing the high fidelity image on the high fidelity display region in the low fidelity image.
  • a predetermined area including at least the eye area where the eyes of the first user are copied is set as a high fidelity display area
  • First image generation processing is performed on at least a part of the plurality of captured images captured by the first user by each of a plurality of imaging devices arranged outside the display device, and the display device
  • the second user's viewpoint position to be displayed is set as a virtual shooting position, and a high fidelity image that looks as if the first user has been shot from the virtual shooting position and has a higher fidelity appearance is generated.
  • a program for causing a computer to execute image processing including a step of generating an output image to be output as an image processing result by superimposing the high fidelity image on the high fidelity display region in the low fidelity image.
  • a high fidelity display area setting unit that sets a predetermined area including at least an eye area in which the eyes of the first user are photographed as an image showing the first user; First image generation processing is performed on at least a part of the plurality of captured images captured by the first user by each of a plurality of imaging devices arranged outside the display device, and the display device
  • the viewpoint position of the second user to be displayed is set as a virtual shooting position, and a high fidelity image that appears to have shot the first user from the virtual shooting position and has a higher fidelity appearance is generated.
  • a degree image generator It seems that the first user performs a second image generation process using at least a part of a plurality of photographed images photographed by the first user, and photographs the first user from the virtual photographing position.
  • a low-fidelity image generation unit that generates a low-fidelity image having a lower fidelity than the fidelity image; First image processing including at least an image superimposing unit that generates an output image to be output as an image processing result by superimposing the high fidelity image on the high fidelity display region in the low fidelity image.
  • a first user telecommunications device comprising the device; A display image that displays the first user in a specific size and position from the output image in which the first user is captured based on the viewpoint position of the first user in the three-dimensional space.
  • a telecommunications system in which a second user-side telecommunications device including a second image processing device including at least a display image generating unit for generating the synthesizer is connected via a network.
  • 11 telecommunications system 12 telecommunications device, 13 network, 21 imaging device, 22 display device, 23 information processing device, 24 image processing unit, 25 communication unit, 25 subject viewpoint information setting unit, 32 high fidelity display area setting unit , 33 high fidelity image generation unit, 34 low fidelity image generation unit, 35 pseudo gaze matching image generation unit, 36 encoding unit, 37 transmission unit, 38 receiving unit, 39 decoding unit, 40 pseudo gaze matching image display unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本開示は、よりリアルなテレコミュニケーションを図ることができる画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステムに関する。 第1のユーザが写されている画像で、第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、仮想撮影位置から第1のユーザを撮影したように見え、高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、低忠実度画像における高忠実度表示領域に対して、高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部とを備える。本技術は、例えば、テレコミュニケーションシステムに適用できる。

Description

画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム
 本開示は、画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステムに関し、特に、よりリアルなテレコミュニケーションを図ることができるようにした画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステムに関する。
 従来、遠隔地に居るユーザどうしが対面しているかのように会話することでコミュニケーションを図るテレコミュニケーションシステムが利用されている。一般的に、テレコミュニケーションシステムでは、撮影装置および表示装置の配置位置が制限されているため、ユーザどうしの視線を一致させることができず、例えば、アイコンタクトが成立しないことがあった。
 そこで、特許文献1には、ディスプレイの外側および内側(半透過ディスプレイの場合には、その背後)に配置された複数台のカメラにより、主観的に正面から見た被写体の映像を生成する画像生成方法が開示されている。
 また、特許文献2には、顔の3Dモデリングを行い、視線が合うようにモデルの向きを回転させた状態で、顔のテクスチャをマッピングすることで、視線を一致させたような映像を生成するビデオ会議用の画像処理が開示されている。
特開2011-165081号公報 特表2015-513833号公報
 しかしながら、上述した特許文献1および2で開示されている技術では、例えば、大型の表示装置を利用する場合に、その表示装置の周辺に配置された撮影装置で被写体を撮影した画像を用いて画像処理を行っても、不自然な画像となってしまうことが想定される。そのため、ユーザどうしの視線が一致するように、よりリアルなテレコミュニケーションを図ることは困難であった。
 本開示は、このような状況に鑑みてなされたものであり、よりリアルなテレコミュニケーションを図ることができるようにするものである。
 本開示の第1の側面の画像処理装置は、第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部とを備える。
 本開示の第1の側面の画像処理方法またはプログラムは、第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成するステップを含む。
 本開示の第1の側面においては、第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域が高忠実度表示領域として設定され、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像が生成され、前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像が生成され、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像が生成される。
 本開示の第2の側面のテレコミュニケーションシステムは、第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部とを少なくとも含む第1の画像処理装置を備える第1のユーザ側のテレコミュニケーション装置と、前記第1のユーザの三次元空間上での視点位置に基づいて、前記第1のユーザが写されている前記出力画像から、前記第1のユーザを特定の大きさおよび位置で表示させる表示画像を生成する表示画像生成部を少なくとも含む第2の画像処理装置を備える第2のユーザ側のテレコミュニケーション装置とが、ネットワークを介して接続されて構成される。
 本開示の第2の側面においては、第1のユーザ側のテレコミュニケーション装置が備える第1の画像処理装置では、第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域が高忠実度表示領域として設定され、表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像が生成され、前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像が生成され、前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像が生成される。一方、第2のユーザ側のテレコミュニケーション装置が備える第2の画像処理装置では、前記第1のユーザの三次元空間上での視点位置に基づいて、前記第1のユーザが写されている前記出力画像から、前記第1のユーザを特定の大きさおよび位置で表示させる表示画像が生成される。
 本開示の第1および第2の側面によれば、よりリアルなテレコミュニケーションを図ることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用したテレコミュニケーションシステムの一実施の形態の構成例を示す図である。 画像処理部の第1の構成例を示すブロック図である。 図2の被写体視点情報設定部の構成例を示すブロック図である。 画像上における顔の各パーツの特徴点の一例を示す図である。 3枚の撮影画像の対応点について説明する図である。 図2の高忠実度表示領域設定部の構成例を示すブロック図である。 図2の高忠実度表示領域を指定するマスク画像について説明する図である。 図2の高忠実度画像生成部の構成例を示すブロック図である。 仮想撮影位置の一例を示す図である。 視点補間処理について説明する図である。 図2の低忠実度画像生成部の構成例を示すブロック図である。 上側に配置される撮影装置により被写体を撮影した人物画像について説明する図である。 仮想撮影位置が被写体視点と同じ高さである場合における射影変換について説明する図である。 仮想撮影位置が被写体視点よりも高い場合における射影変換について説明する図である。 仮想撮影位置が被写体視点よりも低い場合における射影変換について説明する図である。 図2の疑似視線一致画像生成部の構成例を示すブロック図である。 図2の符号化部の構成例を示すブロック図である。 図2の復号部の構成例を示すブロック図である。 図2の疑似視線一致画像表示部の構成例を示すブロック図である。 ユーザ自身が写された疑似視線一致画像を出力する処理を説明するフローチャートである。 相手側のユーザが写された疑似視線一致画像を表示する処理を説明するフローチャートである。 画像処理部の第2の構成例を示すブロック図である。 画像処理部の第3の構成例を示すブロック図である。 固定的に設定される被写体視点情報の一例を示す図である。 図23の高忠実度表示領域設定部の構成例を示すブロック図である。 図23の符号化部の構成例を示すブロック図である。 図23の復号部の構成例を示すブロック図である。 図23の疑似視線一致画像表示部の構成例を示すブロック図である。 スケーリング成分を含んだ幾何補正パラメータについて説明する図である。 画像処理部の第4の構成例を示すブロック図である。 撮影手段制御部によるPTZ制御について説明する。 画像処理部の第5の構成例を示すブロック図である。 図32の被写体視点情報設定部の構成例を示すブロック図である。 図32の高忠実度表示領域設定部の構成例を示すブロック図である。 顔から眼鏡のリムが存在する部分を避けて設定される高忠実度表示領域について説明する図である。 画像処理部の第6の構成例を示すブロック図である。 図36の疑似視線一致画像生成部の構成例を示すブロック図である。 高忠実度判定部による判定処理について説明する図である。 画像処理部の第7の構成例を示すブロック図である。 図39の低忠実度画像生成パラメータ生成部の構成例を示すブロック図である。 図39の符号化部の構成例を示すブロック図である。 図39の復号部の構成例を示すブロック図である。 図39の低忠実度画像生成部の構成例を示すブロック図である。 画像処理部の第8の構成例を示すブロック図である。 図44の疑似視線一致画像生成部の構成例を示すブロック図である。 視線一致の妨害となる信号の除去について説明する図である。 図45の妨害信号除去部の構成例を示すブロック図である。 低忠実度画像のブレンド比の一例を示す図である。 画像処理部の第9の構成例を示すブロック図である。 視線の知覚方向のずれについて説明する図である。 図49の高忠実度画像生成部の構成例を示すブロック図である。 図49の疑似視線一致画像表示部の構成例を示すブロック図である。 視点補間位置について説明する図である。 上方向補正量、左方向補正量、および右方向補正量の一例を示す図である。 補正の後における視線の知覚方向ついて説明する図である。 画像処理部の第10の構成例を示すブロック図である。 図56の被写体視点情報設定部の構成例を示すブロック図である。 図56の疑似視線一致画像生成部の構成例を示すブロック図である。 図58のキャッチライト強調部の構成例を示すブロック図である。 瞳領域の検出について説明する図である。 瞳領域における輝度の発生確率分布の一例を示す図である。 キャッチライト強調処理で用いられるパラメータの一例を示す図である。 画像処理部の第11の構成例を示すブロック図である。 図63の疑似視線一致画像表示部の構成例を示すブロック図である。 目の視線方向と顔向きとの誤差について説明する図である。 上下方向補正量および左右方向補正量の一例を示す図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <テレコミュニケーションシステムの構成例>
 図1は、本技術を適用したテレコミュニケーションシステムの一実施の形態の構成例を示す図である。
 図1に示すように、テレコミュニケーションシステム11は、2台のテレコミュニケーション装置12aおよび12bが、例えば、インターネットなどのネットワーク13を介して接続されて構成される。
 例えば、テレコミュニケーションシステム11は、テレコミュニケーション装置12aのユーザと、テレコミュニケーション装置12bのユーザとが、双方向的なコミュニケーションを図ることができるテレコミュニケーションサービスを提供することができる。なお、以下適宜、テレコミュニケーション装置12aを使用してテレコミュニケーションを行うユーザを、ユーザ自身とも称し、そのユーザとテレコミュニケーションを行う相手となるテレコミュニケーション装置12bのユーザを、相手側のユーザとも称する。
 テレコミュニケーション装置12aは、複数台の撮影装置21a、表示装置22a、および情報処理装置23aを備えて構成され、情報処理装置23aは、画像処理部24aおよび通信部25aを有している。
 図1では、テレコミュニケーション装置12aが3台の撮影装置21a-1乃至21a-3を備え、撮影装置21a-1が表示装置22aの上側に配置され、撮影装置21a-2が表示装置22aの左側に配置され、撮影装置21a-3が表示装置22aの右側に配置された構成例が示されている。なお、撮影装置21aの台数は、3台に限定されることはなく、2台、または4台以上でもよく、それらの配置も図1に示す例に限定されることはない。また、以下では、3台の撮影装置21a-1乃至21a-3が、表示装置22aの前に一人で立っているユーザを被写体とした状態について説明する。
 撮影装置21a-1乃至21a-3は、例えば、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの撮像素子を備え、ユーザを被写体として、それぞれが被写体を撮影して得られる3枚の撮影画像を、情報処理装置23aに供給する。なお、以下適宜、撮影装置21a-1乃至21a-3を区別する必要がない場合、単に、撮影装置21aと称する。
 表示装置22aは、例えば、液晶パネルや有機EL(Electro Luminescence)パネルなどの表示デバイスを備え、テレコミュニケーション装置12bから送信されてくる画像を、例えば、その画像に写されているテレコミュニケーション装置12bのユーザが等身大となる大きさで表示する。
 情報処理装置23aは、例えば、CPU(Central Processing Unit)や、ROM(Read Only Memory)、RAM(Random Access Memory)などを備えるコンピュータにより構成することができる。そして、情報処理装置23aが、テレコミュニケーションを実現するアプリケーションを実行することで、画像処理部24aにより画像処理が行われ、通信部25aにより通信処理が行われる。
 画像処理部24aは、表示装置22aに表示されている相手側のユーザと視線が一致していると、ユーザ自身に疑似的に認識させるような画像処理を行う。例えば、画像処理部24aは、撮影装置21a-1乃至21a-3から供給される3枚の撮影画像を用いて、表示装置22aに表示される相手側のユーザの目の位置に設定される仮想的な視点からユーザ自身を写したような画像(以下、疑似視線一致画像と称する)を生成する画像処理を行う。また、画像処理部24aは、相手側のユーザが写されている疑似視線一致画像を表示する際に、相手側のユーザが等身大となる大きさおよび位置(目の高さ)で表示されるような画像処理を行って、表示装置22aに表示させる。
 通信部25aは、ネットワーク13を介した通信を行うことができる。例えば、通信部25aは、画像処理部24aから出力される符号化ストリームをテレコミュニケーション装置12bに送信し、テレコミュニケーション装置12bから送信されてくる符号化ストリームを受信して画像処理部24aに供給する。
 このように構成されるテレコミュニケーション装置12aは、撮影装置21a-1乃至21a-3がユーザ自身を撮影した撮影画像を用いて、表示装置22a上に設定される相手側のユーザの視点からユーザ自身が写されたような疑似視線一致画像を生成することができる。また、テレコミュニケーション装置12aは、テレコミュニケーション装置12bから送信されてくる疑似視線一致画像を用いて、相手側のユーザを等身大となる大きさおよび位置で表示することができる。同様に、テレコミュニケーション装置12bは、ユーザ自身が写された疑似視線一致画像を生成し、相手側のユーザが写された疑似視線一致画像を表示することができる。
 従って、テレコミュニケーションシステム11を利用するユーザどうしは、例えば、等身大で表示される相手の目に視線を向けて、互いの視線が一致しているような状態でテレコミュニケーションを行うことができる。これにより、テレコミュニケーションシステム11により、互いのユーザは、よりリアルなコミュニケーションを行うことが可能となる。
 なお、テレコミュニケーション装置12bは、テレコミュニケーション装置12aと同様に構成されており、以下では、テレコミュニケーション装置12aの構成について説明し、テレコミュニケーション装置12bの構成については説明を省略する。 また、以下適宜、テレコミュニケーション装置12aおよび12bを区別する必要がない場合、テレコミュニケーション装置12と称し、それぞれを構成する各部も同様に称する。
 <画像処理部の第1の構成例>
 図2乃至図19を参照して、画像処理部24の第1の構成例について説明する。
 図2は、画像処理部24の第1の構成例を示すブロック図である。
 図2に示すように、画像処理部24は、被写体視点情報設定部31、高忠実度表示領域設定部32、高忠実度画像生成部33、低忠実度画像生成部34、疑似視線一致画像生成部35、符号化部36、伝送部37、受信部38、復号部39、および疑似視線一致画像表示部40を備えて構成される。
 また、図2に示す画像処理部24において、破線より上側の配置されているブロックは、ユーザ自身が写された複数枚の画像を用い、相手側のユーザから見て、ユーザ自身の視線が相手側のユーザの目を見ているような疑似視線一致画像を生成する画像処理を施す。一方、図2に示す画像処理部24において、破線より下側に配置されているブロックは、相手側のユーザが写されている疑似視線一致画像を、ユーザ自身の視点から見て、相手側のユーザの視線がユーザ自身を見ているように表示する画像処理を施す。
 また、画像処理部24には、図1の撮影装置21-1乃至21-3により3つの方向からユーザ自身を撮影した撮影画像や、図示しないデプスセンサにより検出される奥行き方向の距離を示すデプス情報などを示す信号が多重化された入力撮影信号が入力される。この入力撮影信号は、被写体視点情報設定部31、高忠実度画像生成部33、および低忠実度画像生成部34に供給される。
 さらに、画像処理部24には、ユーザの三次元空間上での視点位置を示す情報である被写体視点情報であって、相手側のユーザの被写体視点情報が符号化されて送信されてきた後に復号されたデコード被写体視点情報が入力される。このデコード被写体視点情報は、高忠実度画像生成部33、および低忠実度画像生成部34に供給される。
 被写体視点情報設定部31は、入力撮影信号から得られる3枚の撮影画像とデプス情報とに基づいて、撮影装置21による撮影の対象となるユーザ自身の顔を解析する。これにより、被写体視点情報設定部31は、画像上における顔の各パーツの特徴点を示す座標からなる解析情報を取得し、高忠実度表示領域設定部32に供給する。さらに、被写体視点情報設定部31は、入力撮影信号から得られる3枚の撮影画像とデプス情報とに基づいて、ユーザ自身の三次元空間上での視点位置を求め、その視点位置を示す被写体視点情報を取得して符号化部36に供給する。例えば、被写体視点情報は、相手側の画像処理部24において、ユーザ自身が写されている疑似視線一致画像から疑似視線一致表示画像を生成する際に利用される。なお、被写体視点情報設定部31における詳細な処理については、図3乃至図5を参照して説明する。
 高忠実度表示領域設定部32は、被写体視点情報設定部31から供給される解析情報に基づいて、疑似視線一致画像においてユーザ自身の顔が写されている領域のうちの、後述する高忠実度画像を表示する領域となる高忠実度表示領域を設定する。そして、高忠実度表示領域設定部32は、高忠実度表示領域を示す高忠実度表示領域情報を、高忠実度画像生成部33および低忠実度画像生成部34に供給する。なお、高忠実度表示領域設定部32における詳細な処理については、図6および図7を参照して後述する。
 高忠実度画像生成部33は、デコード被写体視点情報が示す相手側のユーザの視点位置を仮想撮影位置とし、その仮想撮影位置からユーザ自身を撮影したものとして、より忠実度が高い見た目となる高忠実度画像を生成する。例えば、高忠実度画像生成部33は、撮影装置21-1乃至21-3により撮影された3枚の撮影画像のうちの、少なくとも一部の撮影画像に対して視点補間技術などを使用することによって、仮想撮影位置からの見た目を非常に高いレベルで再現したような高忠実度画像を生成することができる。このとき、高忠実度画像生成部33は、高忠実度表示領域設定部32から供給される高忠実度表示領域情報が示す高忠実度表示領域に限定して、高忠実度画像を生成する。そして、高忠実度画像生成部33は、生成した高忠実度画像を疑似視線一致画像生成部35に供給する。なお、高忠実度画像生成部33における詳細な処理については、図8乃至図10を参照して後述する。
 低忠実度画像生成部34は、デコード被写体視点情報が示す相手側のユーザの視点位置を仮想撮影位置とし、その仮想撮影位置からユーザ自身を撮影したものとして、高忠実度画像よりも忠実度が低い低忠実度画像を生成する。例えば、低忠実度画像生成部34は、撮影装置21-1乃至21-3により撮影された3枚の撮影画像のうちの、少なくとも一部の画像に対して射影変換を行うことによって、仮想撮影位置からの見た目をある程度のレベルで再現したような低忠実度画像を生成することができる。
 さらに、低忠実度画像生成部34は、高忠実度表示領域設定部32から供給される高忠実度表示領域情報が示す高忠実度表示領域に対し、低忠実度画像を生成する際の射影変換による影響を反映させる補正を施す。そして、低忠実度画像生成部34は、その補正が施された高忠実度表示領域を示す補正高忠実度表示領域情報を、生成した低忠実度画像とともに疑似視線一致画像生成部35に供給する。なお、低忠実度画像生成部34における詳細な処理については、図11乃至図15を参照して後述する。
 疑似視線一致画像生成部35は、低忠実度画像生成部34から供給される低忠実度画像に対し、補正高忠実度表示領域情報が示す補正高忠実度表示領域において、高忠実度画像生成部33から供給される高忠実度画像を重畳する。これにより、疑似視線一致画像生成部35は、仮想撮影位置から見て、ユーザ自身の視線が相手側のユーザの目を見ているように、疑似的に、互いの視線が一致するような疑似視線一致画像を生成することができ、その疑似視線一致画像を符号化部36に供給する。
 符号化部36は、被写体視点情報設定部31から供給されるユーザ自身の被写体視点情報、および、疑似視線一致画像生成部35から供給される疑似視線一致画像を符号化する。これにより、符号化部36は、被写体視点情報および疑似視線一致画像が符号化された符号化ストリームを生成して、伝送部37に供給する。
 伝送部37は、符号化部36から供給される符号化ストリームを、図1のネットワーク13を介して伝送される伝送ストリームとして通信部25に出力し、相手側のテレコミュニケーション装置12に送信させる。このとき、伝送部37は、別途、符号化された音声ストリームを、符号化部36から供給される符号化ストリームとともに多重化し、伝送ストリームとして出力することができる。
 受信部38は、図1のネットワーク13を介して相手側のテレコミュニケーション装置12から伝送されてくる伝送ストリームを受信し、符号化ストリームに戻して復号部39に供給する。このとき、受信部38は、受信した伝送ストリームに音声ストリームが多重化されている場合、その伝送ストリームから、音声ストリームと符号化ストリームとを逆多重化して、符号化ストリームを復号部39に出力する。
 復号部39は、受信部38から供給される符号化ストリームを復号して得られるデコード被写体視点情報およびデコード疑似視線一致画像を、疑似視線一致画像表示部40に供給する。ここで、デコード被写体視点情報は、相手側のユーザの視点位置を示す被写体視点情報であり、デコード疑似視線一致画像は、相手側のユーザが写された疑似視線一致画像である。
 疑似視線一致画像表示部40は、復号部39から供給されるデコード被写体視点情報およびデコード疑似視線一致画像に基づいて、例えば、相手側のユーザを等身大となる大きさおよび位置で表示装置22に表示させるための疑似視線一致表示画像を生成する。そして、疑似視線一致画像表示部40は、生成した疑似視線一致表示画像を表示装置22に出力する。
 図3は、図2の被写体視点情報設定部31の構成例を示すブロック図である。
 図3に示すように、被写体視点情報設定部31は、顔パーツ検出部51、目領域対応点検出部52、視点距離算出部53、および被写体視点情報生成部54を備えて構成される。
 顔パーツ検出部51は、撮影装置21-1乃至21-3により撮影された3枚の撮影画像に対し、顔パーツ検出(facial landmark detection)を行う。例えば、顔パーツ検出部51は、非特許文献「"One Millisecond Face Alignment with an Ensemble of Regression Trees" by Vahid Kazemi and Josephine Sullivan, CVPR 2014」などに開示されている技術を用いて顔パーツ検出を行うことができる。これにより、顔パーツ検出部51は、撮影画像に含まれる顔の各パーツの特徴点を示す座標を求めることができ、これを解析情報として、図2の高忠実度表示領域設定部32に出力するとともに、目領域対応点検出部52に供給する。
 ここで、図4には、顔パーツ検出部51により求められる解析情報の一例が示されている。図4に示されている解析情報では、顔パーツとして検出された目、鼻、口、眉毛、および顔輪郭に対して68点の特徴点が配置されている。
 目領域対応点検出部52は、顔パーツ検出部51から供給される解析情報の中から、目の領域に対して配置されている特徴点を抽出し、それらの特徴点について、撮影装置21-1乃至21-3により撮影された3枚の画像間で対応している対応点を検出する。具体的には、目領域対応点検出部52は、図4に示す目の領域の特徴点(37番から48番までの特徴点、または、これらに28番の特徴点を加えてもよい)の中から、3枚の画像間で同じ番号付けされた特徴点どうしを対応点として検出する。また、目領域対応点検出部52は、目の領域の全ての特徴点に対して対応点を検出する他、例えば、一部の特徴点に対して対応点を検出してもよい。
 例えば、図5には、目領域対応点検出部52が、右目に対して配置された特徴点を、対応点として検出している例が示されている。図示するように、撮影装置21-1により撮影された撮影画像P1、撮影装置21-2により撮影された撮影画像P2、および、撮影装置21-3により撮影された撮影画像P3それぞれ間で、右目に対して配置された特徴点が対応点として検出される。
 視点距離算出部53は、目領域対応点検出部52により検出された対応点に基づいて、被写体の目までの距離を、視点距離として算出する。例えば、視点距離算出部53は、必要であれば撮影装置21を平行化した状態に補正し、三角測量の原理を利用することで、視点距離を求めることができる。また、視点距離算出部53は、撮影装置21-1乃至21-3により撮影された3枚の撮影画像のうちの、2枚の撮影画像から検出された対応点だけを用いて視点距離を算出してもよい。なお、視点距離算出部53は、Plane Sweep手法などを利用して、3枚の撮影画像から検出された対応点すべてを用いて視点距離を算出してもよい。
 被写体視点情報生成部54は、視点距離算出部53により算出された視点距離を、ワールド座標系の座標値に変換して、被写体の視点位置を示す被写体視点情報を生成し、その被写体視点情報を出力する。
 図6は、図2の高忠実度表示領域設定部32の構成例を示すブロック図である。
 図6に示すように、高忠実度表示領域設定部32は、高忠実度表示マスク生成部61を備えて構成される。
 高忠実度表示マスク生成部61には、被写体視点情報設定部31から出力される解析情報が供給される。高忠実度表示マスク生成部61は、解析情報に基づいて、疑似視線一致画像生成部35が生成する疑似視線一致画像において、高忠実度画像生成部33が生成した高忠実度画像を表示する領域となる高忠実度表示領域を指定するマスク画像を生成する。そして、高忠実度表示マスク生成部61は、高忠実度表示領域を指定するマスク画像を、高忠実度表示領域情報として出力する。
 例えば、図7のAに示すように、高忠実度表示マスク生成部61は、解析情報に含まれている全ての特徴点を内包するような多角形、即ち、すべての顔パーツを覆う多角形を、高忠実度表示領域を示すマスク画像として生成することができる。また、図7のBに示すように、高忠実度表示マスク生成部61は、解析情報に含まれている特徴点のうちの、目に配置された特徴点のみに限定し、その目の領域を覆う多角形を、高忠実度表示領域を示すマスク画像として生成してもよい。その他、高忠実度表示マスク生成部61は、これら以外の他の領域であって、ユーザ自身の目が写された目領域を少なくとも含む所定の領域を、高忠実度表示領域を示すマスク画像としてもよい。なお、マスク画像は、2値からなる画像でもよいし、連続階調を持った画像でもよい。
 図8は、図2の高忠実度画像生成部33の構成例を示すブロック図である。
 図8に示すように、高忠実度画像生成部33は、高忠実度表示領域クロップ部71および視点補間画像生成部72を備えて構成される。
 高忠実度表示領域クロップ部71は、高忠実度表示領域情報が示す高忠実度表示領域(マスク画像)に対応する部分を、撮影装置21-1乃至21-3により撮影された3枚の撮影画像からクロップする。そして、高忠実度表示領域クロップ部71は、3枚の撮影画像それぞれからクロップした3枚の画像を視点補間画像生成部72に供給する。
 視点補間画像生成部72は、まず、デコード被写体視点情報が示す相手側のユーザの三次元実空間上での視点位置に従って、相手側のユーザを等身大で表示するときの目の位置を、仮想撮影位置として設定する。例えば、図9には、図1の表示装置22に等身大で表示される相手側のユーザが破線で示されており、視点補間画像生成部72は、その相手側のユーザの両目の中間点に仮想撮影位置を設定する。
 視点補間画像生成部72は、次に、高忠実度表示領域クロップ部71により高忠実度表示領域としてクロップされた3枚の画像どうしで補間する視点補間処理を施して、仮想撮影位置からユーザ自身を見たような視点補間画像を生成し、高忠実度画像として出力する。
 ここで、図10に示すように、左右に配置される撮影装置21-2および21-3の中間点(Δ印で示す点)と、上側に配置される撮影装置21-1との中間点(×印で示す点)に、仮想撮影位置が設定されて行われる視点補間処理について説明する。
 このとき、視点補間画像生成部72は、撮影装置21-2および21-3により撮影された2枚の撮影画像からΔ印の位置の水平方向の補間画像である仮想視点中間画像を、2枚の撮影画像からの影響度が半分ずつになるように生成する。そして、視点補間画像生成部72は、その仮想視点中間画像と、撮影装置21-1により撮影された撮影画像との影響度が半分ずつになるような垂直方向の補間画像を生成する。このように生成された補間画像が、図10に示す仮想撮影位置(×印で示す点)から見た視点補間画像、即ち、高忠実度画像となる。
 図11は、図2の低忠実度画像生成部34の構成例を示すブロック図である。
 図11に示すように、低忠実度画像生成部34は、射影変換パラメータ推定部81、および射影変換処理部82を備えて構成される。
 射影変換パラメータ推定部81は、デコード被写体視点情報が示す相手側のユーザの三次元実空間上での視点位置に従って、仮想撮影位置から見た画像に近くなるように射影変換を行うためのパラメータを推定する。そして、射影変換パラメータ推定部81は、推定したパラメータを示す射影変換パラメータを射影変換処理部82に供給する。
 射影変換処理部82は、例えば、撮影装置21a-1により撮影された撮影画像に対して、射影変換パラメータ推定部81から供給される射影変換パラメータが示すパラメータを用いた射影変換を施すことにより、低忠実度画像を生成する。さらに、射影変換処理部82は、高忠実度表示領域設定部32から供給される高忠実度表示領域情報が示す高忠実度表示領域であるマスク画像(図7参照)に対して、低忠実度画像を生成するのに使用したパラメータを用いた射影変換を施す。これにより、射影変換処理部82は、低忠実度画像に対応するようにマスク画像を補正し、そのマスク画像を補正高忠実度表示領域情報とする。そして、射影変換処理部82は、低忠実度画像および補正高忠実度表示領域情報を出力する。
 ここで、低忠実度画像生成部34に入力される入力撮影信号から得られる3枚の撮影画像のうち、表示装置22の上側に配置される撮影装置21-1の撮影画像を使用して低忠実度画像を生成する処理について説明する。
 例えば、図12のAに示すように、表示装置22の前に被写体が立った状態において、被写体は、奥行き方向に厚みがない平面の板であるように近似した被写体近似平面とすると、幾何補正は射影変換で実現される。図12のBには、撮影装置21-1により被写体を撮影して得られる人物画像の模式図が示されている。
 まず、図13を参照して、仮想撮影位置が、被写体視点と同じ高さである場合における射影変換について説明する。この場合、図13のAに示すように、撮影装置21-1および被写体視点を結ぶ直線と、仮想撮影位置および被写体視点を結ぶ直線との成す角度aと同じ角度aで、被写体近似平面の下側が手前にくるように回転させた状態を投影する射影変換のパラメータを推定すればよい。そして、このようなパラメータを用いて被写体近似平面を射影変換すると、図13のBに示すように、被写体を正面から見た画像に近くなるような低忠実度画像を生成することができる。
 また、図14を参照して、仮想撮影位置が、被写体視点よりも高い場合における射影変換について説明する。この場合、図14のAに示すように、撮影装置21-1および被写体視点を結ぶ直線と、仮想撮影位置および被写体視点を結ぶ直線との成す角度bと同じ角度bで回転することと等価な射影変換のパラメータを推定すればよい。そして、このようなパラメータを用いて被写体近似平面を射影変換すると、図14のBに示すように、被写体を上から見下ろすような、下から上に向かって広がる低忠実度画像を生成することができる。
 同様に、図15を参照して、仮想撮影位置が、被写体視点よりも低い場合における射影変換について説明する。この場合、図15のAに示すように、撮影装置21-1および被写体視点を結ぶ直線と、仮想撮影位置および被写体視点を結ぶ直線との成す角度cと同じ角度cで回転することと等価な射影変換のパラメータを推定すればよい。そして、このようなパラメータを用いて被写体近似平面を射影変換すると、図15のBに示すように、被写体を下から見上げるような、上から下に向かって広がる低忠実度画像を生成することができる。
 図13乃至図15に示したように、低忠実度画像生成部34は、相手側のユーザの視点を仮想撮影位置として、相手側のユーザの視点に対応した見え方(正対、見下ろす、見上げる)に近い低忠実度画像を生成することができる。
 図16は、図2の疑似視線一致画像生成部35の構成例を示すブロック図である。
 図16に示すように、疑似視線一致画像生成部35は、マスク画像フィルタ処理部91、および高忠実度表示領域ブレンド処理部92を備えて構成される。
 マスク画像フィルタ処理部91は、低忠実度画像生成部34から出力される補正高忠実度表示領域情報が示す高忠実度表示領域(補正されたマスク画像)に対して、モロフォロジーフィルタやローパスフィルタなどのフィルタ処理を施す。これにより、マスク画像フィルタ処理部91は、マスク画像の境界における値(ブレンド比)が緩やかに変化して、後段のブレンド処理で境界が目立ちにくいようなブレンドマップ画像を生成し、高忠実度表示領域ブレンド処理部92に供給する。
 高忠実度表示領域ブレンド処理部92は、マスク画像フィルタ処理部91から供給されるブレンドマップ画像で設定されるブレンド比に応じて、高忠実度画像および低忠実度画像のアルファブレンド処理を行う。これにより、高忠実度表示領域ブレンド処理部92は、低忠実度画像に対して、上述した図7に示したような顔の部分を、高忠実度画像で置き換えたような疑似視線一致画像を生成して出力する。
 図17は、図2の符号化部36の構成例を示すブロック図である。
 図17に示すように、符号化部36は、被写体視点情報符号化部101、映像コーデック符号化部102、およびストリーム統合部103を備えて構成される。
 被写体視点情報符号化部101は、デコード側と整合が取れている任意の符号化方法で、被写体視点情報を符号化し、被写体視点情報を符号化することで生成される付加ストリームをストリーム統合部103に供給する。具体的には、被写体視点情報符号化部101は、LZ(Ziv-Lempel)符号などの一般的な可逆符号化を用いた符号化方法を採用することができる。
 映像コーデック符号化部102は、例えば、MPEG(Moving Picture Experts Group)-2や、H.264,HEVC(High Efficiency Video Coding)などのような一般的に用いられている任意の映像コーデックを用いて、疑似視線一致画像を符号化することで、映像ストリームを生成する。そして、映像コーデック符号化部102は、生成した映像ストリームをストリーム統合部103に供給する。
 ストリーム統合部103は、被写体視点情報符号化部101から供給される付加ストリームと、映像コーデック符号化部102から供給される映像ストリームとを統合し、符号化ストリームとして符号化部36から出力する。例えば、ストリーム統合部103は、被写体視点情報符号化部101で生成された付加ストリームを、映像ストリームのユーザ情報を記録できるヘッダ部分に埋め込むような統合方法を採用することができる。
 図18は、図2の復号部39の構成例を示すブロック図である。
 図18に示すように、復号部39は、ストリーム分離部111、被写体視点情報復号部112、および映像コーデック復号部113を備えて構成される。
 ストリーム分離部111は、図2の受信部38から供給される符号化ストリームを、付加ストリームおよび映像ストリームに分離する。そして、ストリーム分離部111は、付加ストリームを被写体視点情報復号部112に供給し、映像ストリームを映像コーデック復号部113に供給する。
 被写体視点情報復号部112は、ストリーム分離部111から供給される付加ストリームを、デコード被写体視点情報に復号して出力する。即ち、デコード被写体視点情報は、相手側のユーザの視点位置を示す被写体視点情報が、相手側で符号化されて送信された後、復号されたものである。
 映像コーデック復号部113は、ストリーム分離部111から供給される映像ストリームを、デコード疑似視線一致画像に復号して出力する。即ち、デコード疑似視線一致画像は、相手側のユーザが写された疑似視線一致画像が、相手側で符号化されて送信された後、復号されたものである。
 図19は、図2の疑似視線一致画像表示部40の構成例を示すブロック図である。
 図19に示すように、疑似視線一致画像表示部40は、等身大表示幾何補正パラメータ推定部121、および等身大表示幾何補正処理部122を備えて構成される。
 等身大表示幾何補正パラメータ推定部121は、デコード被写体視点情報が示す相手側のユーザの三次元実空間上での視点位置(世界座標で定義)に基づいて、表示装置22上で表示される相手側のユーザの顔の大きさや目の位置が、実物大表示になるような等身大表示幾何補正パラメータを推定する。このとき、等身大表示幾何補正パラメータ推定部121は、表示装置22の解像度および大きさや、デコード疑似視線一致画像の解像度などを考慮して、等身大表示幾何補正パラメータを推定し、等身大表示幾何補正処理部122に供給する。
 等身大表示幾何補正処理部122は、デコード疑似視線一致画像に対して、等身大表示幾何補正パラメータ推定部121から供給される等身大表示幾何補正パラメータを用いた幾何補正を施す。これにより、等身大表示幾何補正処理部122は、相手側のユーザが等身大となる大きさおよび位置(目の高さ)で表示装置22に表示されるような疑似視線一致表示画像を生成する。そして、等身大表示幾何補正処理部122は、その疑似視線一致表示画像を、図1の表示装置22に出力して表示させる。
 以上のように画像処理部24が備える各ブロックは構成されており、例えば、相手側のユーザが等身大で表示されて行われる双方向コミュニケーションにおいて、相手側のユーザと視線の一致を伴った映像コミュニケーション体験を提供することができる。
 <画像処理部による画像処理>
 図20および図21に示すフローチャートを参照して、画像処理部24により行われる画像処理について説明する。
 図20には、ユーザ自身が写された疑似視線一致画像を出力する画像処理を説明するフローチャートが示されている。
 例えば、テレコミュニケーションが始まって、撮影装置21により撮影された撮影画像やデプスセンサにより検出されたデプス情報などを示す信号が多重化された入力撮影信号、および、相手側のユーザの三次元空間上での視点位置を示すデコード被写体視点情報が、画像処理部24に入力されると処理が開始される。
 ステップS11において、被写体視点情報設定部31は、入力撮影信号から得られる撮影画像およびデプス情報に基づいて、画像上における顔の各パーツの座標を示す解析情報を取得し、高忠実度表示領域設定部32に供給する。また、被写体視点情報設定部31は、入力撮影信号から得られる撮影画像およびデプス情報に基づいて、ユーザ自身の三次元空間上での視点位置を示す被写体視点情報を取得し、符号化部36に供給する。
 ステップS12において、高忠実度表示領域設定部32は、ステップS11で被写体視点情報設定部31から供給される解析情報に基づいて、高忠実度画像を表示する高忠実度表示領域を設定する。そして、高忠実度表示領域設定部32は、その高忠実度表示領域を示す高忠実度表示領域情報を、高忠実度画像生成部33および低忠実度画像生成部34に供給する。
 ステップS13において、高忠実度画像生成部33は、ステップS12で高忠実度表示領域設定部32が設定した高忠実度表示領域に限定して、相手側のユーザの視点位置を仮想撮影位置として撮影画像に対して視点補間技術などを使用し、高忠実度画像を生成する。そして、高忠実度画像生成部33は、高忠実度画像を疑似視線一致画像生成部35に供給する。
 ステップS14において、低忠実度画像生成部34は、相手側のユーザの視点位置を仮想撮影位置として撮影画像に対する幾何補正を行い、低忠実度画像を生成する。さらに、低忠実度画像生成部34は、ステップS12で高忠実度表示領域設定部32により設定された高忠実度表示領域に対し、低忠実度画像を生成する際の幾何補正による影響を反映させる補正を施す。そして、低忠実度画像生成部34は、低忠実度画像および補正高忠実度表示領域情報を疑似視線一致画像生成部35に供給する。
 ステップS15において、疑似視線一致画像生成部35は、ステップS14で低忠実度画像生成部34から供給される低忠実度画像に対し、補正高忠実度表示領域において、ステップS13で高忠実度画像生成部33から供給される高忠実度画像を重畳する。これにより、疑似視線一致画像生成部35は、ユーザ自身が、表示装置22に表示される相手側のユーザに視線を合わせたときに、相手側のユーザから見て疑似的に一致するような疑似視線一致画像を生成して符号化部36に供給する。
 ステップS16において、符号化部36は、ステップS11で被写体視点情報設定部31から供給されるユーザ自身の被写体視点情報と、ステップS15で疑似視線一致画像生成部35から供給される疑似視線一致画像とを符号化し、符号化ストリームを伝送部37に供給する。
 ステップS17において、伝送部37は、ステップS16で符号化部36から供給される符号化ストリームを、図1のネットワーク13を介して伝送される伝送ストリームとして通信部25に出力する。そして、通信部25が、伝送ストリームを相手側のテレコミュニケーション装置12に送信した後、処理はステップS11に戻って、以下、テレコミュニケーションが終了するまで、同様の処理が繰り返して行われる。
 以上のように、画像処理部24は、ユーザ自身の被写体視点情報を送信するとともに、相手側のユーザから見て、ユーザ自身と疑似的に視線が一致するような疑似視線一致画像を相手側に送信することができる。
 図21には、相手側のユーザが写された疑似視線一致画像を表示する画像処理を説明するフローチャートが示されている。
 例えば、テレコミュニケーションが始まって、相手側のテレコミュニケーション装置12から送信されてくる伝送ストリームを通信部25が受信部38に供給すると、処理が開始される。
 ステップS21において、受信部38は、伝送ストリームを受信し、符号化ストリームに戻して復号部39に供給する。
 ステップS22において、復号部39は、ステップS21で受信部38から供給される符号化ストリームを復号し、デコード被写体視点情報およびデコード疑似視線一致画像を取得して、疑似視線一致画像表示部40に供給する。
 ステップS23において、疑似視線一致画像表示部40は、ステップS22で復号部39から供給されるデコード被写体視点情報およびデコード疑似視線一致画像に基づいて、疑似視線一致表示画像を生成し、表示装置22に出力する。このとき、疑似視線一致画像表示部40は、相手側のユーザが、相手側の表示装置22に表示されているユーザ自身に視線を合わせたときに、ユーザ自身から見て疑似的に視線が一致するように表示される疑似視線一致表示画像を生成する。そして、表示装置22が、疑似視線一致表示画像を表示した後、処理はステップS21に戻って、以下、テレコミュニケーションが終了するまで、同様の処理が繰り返して行われる。
 以上のように、画像処理部24は、ユーザ自身から見て、相手側のユーザと疑似的に視線が一致するような疑似視線一致表示画像を表示することができる。
 <画像処理部の第2の構成例>
 図22を参照して、画像処理部24の第2の構成例について説明する。
 図22は、画像処理部24の第2の構成例を示すブロック図である。なお、図22に示す画像処理部24Aにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図22に示すように、画像処理部24Aは、被写体視点情報設定部31、高忠実度表示領域設定部32、高忠実度画像生成部33、低忠実度画像生成部34、疑似視線一致画像生成部35、および疑似視線一致画像表示部40を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Aは、鏡像表示処理部41を備えて構成される。
 例えば、画像処理部24Aは、図2の画像処理部24と異なり、双方向的なテレコミュニケーションとしての用途ではなく、ユーザ自身を表示する電子ミラーとしての用途を想定した構成となっている。
 このため、画像処理部24Aは、図2を参照して上述したデコード被写体視点情報ではなく、ユーザ自身の被写体視点情報が、被写体視点情報設定部31から高忠実度画像生成部33および低忠実度画像生成部34に供給されるように構成される。従って、高忠実度画像生成部33および低忠実度画像生成部34は、ユーザ自身の視点位置を仮想撮影位置として、それぞれ高忠実度画像および低忠実度画像を生成する。
 また、画像処理部24Aは、被写体視点情報設定部31から疑似視線一致画像表示部40に直接的に、ユーザ自身の被写体視点情報が供給され、疑似視線一致画像生成部35から疑似視線一致画像表示部40に直接的に疑似視線一致画像が供給されるように構成される。従って、疑似視線一致画像表示部40は、ユーザ自身の視点位置を考慮して、ユーザ自身を等身大となる大きさおよび位置で表示装置22に表示させるための疑似視線一致表示画像を生成する。そして、疑似視線一致画像表示部40は、生成した疑似視線一致表示画像を鏡像表示処理部41に供給する。
 鏡像表示処理部41は、電子ミラーとしての用途を想定して、疑似視線一致画像表示部40から供給される疑似視線一致表示画像を左右反転させる鏡像表示処理を行って、表示装置22に出力する。これにより、ユーザ自身が鏡を見たように、左右反転したように自分自身が写された疑似視線一致表示画像が、表示装置22に表示される。
 このように構成される画像処理部24Aは、ユーザ自身を等身大で電子ミラー表示する際に、ユーザ自身の視点位置を考慮して、高忠実度画像生成部33における視点補間処理や、疑似視線一致画像表示部40における幾何補正を行うことができる。これにより、ユーザ自身は、鏡を見たときのように、自分と視線が一致した顔の表情などを確認することができる。
 また、画像処理部24Aにより生成される疑似視線一致表示画像に対し、各種のAR(Augmented Reality)技術を適用して、例えば、着衣の試着や、ヘアスタイルの変更などの仮想的な体験を行わせることができる。このとき、上述したように視線を一致させることで、よりリアリティのあるサービスを提供することができる。
 <画像処理部の第3の構成例>
 図23乃至図29を参照して、画像処理部24の第3の構成例について説明する。
 図23は、画像処理部24の第3の構成例を示すブロック図である。なお、図23に示す画像処理部24Bにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図23に示すように、画像処理部24Bは、高忠実度画像生成部33、低忠実度画像生成部34、疑似視線一致画像生成部35、伝送部37、および受信部38を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Bは、被写体視点情報設定部31B、高忠実度表示領域設定部32B、符号化部36B、復号部39B、疑似視線一致画像表示部40B、高忠実度表示情報設定部42、および被写体視点情報設定部43を備えて構成される。
 例えば、図2の画像処理部24では、三次元計測した相手側のユーザの視点位置を仮想撮影位置として用いていたのに対し、画像処理部24Bでは、簡易的に固定された仮想撮影位置が用いられる。
 このため、被写体視点情報設定部31Bは、図2の被写体視点情報設定部31と異なって入力映像信号が供給されず、固定的な被写体視点情報を設定して、高忠実度画像生成部33および低忠実度画像生成部34に供給するように構成される。そして、高忠実度画像生成部33および低忠実度画像生成部34は、固定的な被写体視点情報に基づいて高忠実度画像および低忠実度画像をそれぞれ生成する。また、この固定的な被写体視点情報は、相手側の画像処理部24Bが備える疑似視線一致画像表示部40Bにも出力される。
 例えば、図24に示すように、被写体視点情報設定部31Bにより設定される固定的な被写体視点情報は、3台の撮影装置21-1乃至21-3と表示装置22との相対的な位置関係を示す情報である。例えば、固定的な被写体視点情報は、テレコミュニケーション装置12を利用するユーザの身長と、表示装置22からユーザの立ち位置までの距離との平均的な値から決定することができる。
 また、画像処理部24Bでは、高忠実度表示情報設定部42が、補正高忠実度表示領域情報のマスク領域の代表位置(例えば、重心位置や目に対応する位置の座標)および面積を、高忠実度表示情報として符号化部36Bに出力する。
 また、画像処理部24Bでは、被写体視点情報設定部43が、被写体視点情報設定部31Bと同様に、固定的な被写体視点情報を設定して疑似視線一致画像表示部40Bに供給するように構成される。この被写体視点情報は、相手側の画像処理部24Bが備える高忠実度画像生成部33および低忠実度画像生成部34にも出力される。
 図25は、図23の高忠実度表示領域設定部32Bの構成例を示すブロック図である。高忠実度表示領域設定部32Bは、図2の高忠実度表示領域設定部32と異なって入力映像信号が供給されるように構成される。
 図25に示すように、高忠実度表示領域設定部32Bは、高忠実度表示マスク生成部61を備える点で、図6の高忠実度表示領域設定部32と共通の構成となっており、さらに顔パーツ検出部62を備えた構成となっている。
 顔パーツ検出部62には、入力映像信号が供給される。そして、顔パーツ検出部62は、図3に示した被写体視点情報設定部31が備える顔パーツ検出部51と同様に、撮影画像に含まれる顔の各パーツの特徴点を示す座標を求めることができ、これを解析情報として高忠実度表示マスク生成部61に供給する。即ち、解析情報は、高忠実度表示領域設定部32Bの内部信号として使用される。
 図26は、図23の符号化部36Bの構成例を示すブロック図である。上述したように、符号化部36Bには、高忠実度表示情報設定部42から高忠実度表示情報が供給される。
 図26に示すように、符号化部36Bは、映像コーデック符号化部102およびストリーム統合部103を備える点で、図17の符号化部36と共通の構成となっており、さらに高忠実度表示情報符号化部104を備えて構成される。
 高忠実度表示情報符号化部104は、図23の高忠実度表示情報設定部42から供給される高忠実度表示情報を符号化し、付加ストリームとしてストリーム統合部103に供給する。従って、ストリーム統合部103は、高忠実度表示情報が符号化された付加ストリームと、映像コーデック符号化部102から供給される映像ストリームとを統合し、符号化ストリームとして符号化部36Bから出力する。
 図27は、図23の復号部39Bの構成例を示すブロック図である。復号部39Bには、符号化部36Bにおいて符号化された符号化ストリームが供給される。
 図27に示すように、復号部39Bは、ストリーム分離部111および映像コーデック復号部113を備える点で、図18の復号部39と共通の構成となっており、さらに高忠実度表示情報復号部114を備えて構成される。
 高忠実度表示情報復号部114には、ストリーム分離部111において符号化ストリームから分離された付加ストリームが供給される。そして、高忠実度表示情報復号部114は、付加ストリームを、デコード高忠実度表示情報に復号して出力する。即ち、デコード高忠実度表示情報は、相手側のユーザの高忠実度表示情報が、相手側で符号化されて送信された後、復号されたものである。
 図28は、図23の疑似視線一致画像表示部40Bの構成例を示すブロック図である。疑似視線一致画像表示部40Bには、復号部39Bから出力されるデコード高忠実度表示情報およびデコード疑似視線一致画像が供給されるとともに、被写体視点情報設定部43から被写体視点情報が供給される。
 図28に示すように、疑似視線一致画像表示部40Bは、等身大表示幾何補正処理部122を備える点で、図19の疑似視線一致画像表示部40と共通の構成となっており、さらに等身大表示幾何補正パラメータ推定部131を備えて構成される。
 等身大表示幾何補正パラメータ推定部131は、図19の等身大表示幾何補正パラメータ推定部121と同様に、表示装置22上で表示される相手側のユーザの顔の大きさや目の位置が、実物大表示になるような等身大表示幾何補正パラメータを推定する。このとき、ユーザどうしの視線を一致させるためには、ユーザ自身の疑似視線一致表示画像における仮想撮影位置と、相手側のユーザの疑似視線一致表示画像で表示される目(視点)の位置が一致するよう(または、近接した位置)に表示する必要がある。
 そこで、図29に示すように、固定的な被写体視点情報が示す被写体視点と、デコード高忠実度表示情報が示す位置との差分に応じて平行移動する成分と、デコード高忠実度表示情報が示す面積が等身大となるようなスケーリング成分を含んだ幾何補正パラメータが推定される。
 これにより、等身大表示幾何補正処理部122は、等身大表示幾何補正パラメータ推定部131から供給される幾何補正パラメータを用いた幾何補正を施して疑似視線一致表示画像を生成し、図1の表示装置22に出力して表示させる。
 このように構成される画像処理部24Bは、図2の画像処理部24のように、計測された被写体視点情報が用いられないので、図2の画像処理部24よりも視線を一致させる度合いが低下することになる。しかしながら、画像処理部24Bは、被写体視点を計測する処理を行う必要がなく、視線を一致させる効果が、キャリブレーション精度などに依存しないというメリットを有する。そのため、画像処理部24Bは、例えば、それぞれのユーザの視点位置の変化が少ない場合には、視線を一致させてテレコミュニケーションを行う効果を保持しつつ、よりロバストな動作を実現することができる。
 <画像処理部の第4の構成例>
 図30および図31を参照して、画像処理部24の第4の構成例について説明する。
 図30は、画像処理部24の第4の構成例を示すブロック図である。なお、図30に示す画像処理部24Cにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図30に示すように、画像処理部24Cは、被写体視点情報設定部31、高忠実度表示領域設定部32、高忠実度画像生成部33、低忠実度画像生成部34、疑似視線一致画像生成部35、符号化部36、伝送部37、受信部38、復号部39、および疑似視線一致画像表示部40を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Cは、撮影手段制御部44を備えて構成される。即ち、画像処理部24Cは、図2の画像処理部24に撮影手段制御部44が新たに追加された構成となっている。
 撮影手段制御部44には、撮影装置21から出力される撮影画像が入力され、撮影手段制御部44は、入力撮影信号を出力することができる。さらに、撮影手段制御部44は、高忠実度表示領域設定部32から出力される高忠実度表示領域情報をフィードバックさせることで、撮影装置21の焦点距離や姿勢などを変化させ、ピッチ、チルト、およびズームの制御(PTZ制御)を行うことができる。
 図31を参照して、撮影手段制御部44によるPTZ制御について説明する。
 例えば、図31に示すように、画像処理部24Cには、撮影装置21-1により撮影された撮影画像P1、撮影装置21-2により撮影された撮影画像P2、および、撮影装置21-3により撮影された撮影画像P3が多重化された入力撮影信号が入力される。そして、高忠実度画像生成部33は、撮影画像P2および撮影画像P3を使用して高忠実度画像を生成し、低忠実度画像生成部34は、撮影画像P1を使用して低忠実度画像を生成する。
 例えば、図31のAには、初期の撮影状態で撮影された撮影画像P1乃至撮影画像P3が示されており、撮影画像P1乃至撮影画像P3において、高忠実度表示領域設定部32において高忠実度表示領域が設定される領域に、ハッチングが施されている。
 そして、撮影手段制御部44は、撮影画像P2および撮影画像P3の全体の面積に対する高忠実度表示領域の割合を求める。そして、撮影手段制御部44は、撮影画像P2および撮影画像P3の全体の面積に対する高忠実度表示領域の割合が所定値以下である場合、その割合が所定値となるように、撮影装置21-2および撮影装置21-3に対するPTZ制御を行う。即ち、撮影手段制御部44は、撮影画像P2および撮影画像P3において高忠実度表示領域が狭い場合、高忠実度表示領域が広くなるようにズーム(必要に応じてパンまたはチルト)するような制御を行う。
 これにより、図31のBに示すように、ズーム制御が行われた撮影画像P2’およびP3’において、高忠実度表示領域の割合が所定値となるように、それぞれの全体の面積に対して広く写されるような状態となる。
 従って、画像処理部24Cでは、撮影手段制御部44により高忠実度表示領域がズームされた撮影画像P2’およびP3’が、高忠実度画像生成部33に供給される。これにより、高忠実度画像生成部33は、より解像度の高い高忠実度画像を生成することができ、疑似視線一致画像生成部35は、高忠実度表示領域の解像度を高めた疑似視線一致表示画像を生成することができる。
 このように構成される画像処理部24Cは、高忠実度表示領域の解像度を高めた疑似視線一致表示画像により、より高解像度な高忠実度画像を生成することができ、よりリアルなテレコミュニケーションを図ることができる。
 <画像処理部の第5の構成例>
 図32乃至図35を参照して、画像処理部24の第5の構成例について説明する。
 図32は、画像処理部24の第5の構成例を示すブロック図である。なお、図32に示す画像処理部24Dにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図32に示すように、画像処理部24Dは、高忠実度画像生成部33、低忠実度画像生成部34、疑似視線一致画像生成部35、符号化部36、伝送部37、受信部38、復号部39、および疑似視線一致画像表示部40を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Dは、被写体視点情報設定部31Dおよび高忠実度表示領域設定部32Dを備えて構成される。
 図33は、図32の被写体視点情報設定部31Dの構成例を示すブロック図である。
 図33に示すように、被写体視点情報設定部31Dは、目領域対応点検出部52、視点距離算出部53、および被写体視点情報生成部54を備える点で、図3の被写体視点情報設定部31と共通の構成となっており、さらに顔パーツ検出部51Dおよび眼鏡着用認識部55を備えて構成される。
 顔パーツ検出部51Dは、図3の顔パーツ検出部51と同様に、撮影画像に含まれる顔の各パーツの特徴点を示す座標に加えて、顔パーツを検出した際の信頼度を検出し、その信頼度を含めた解析情報を高忠実度表示領域設定部32Dに出力する。
 眼鏡着用認識部55は、撮影画像に写されている顔に、眼鏡が着用されているか否かを認識する。そして、眼鏡着用認識部55は、眼鏡が着用されていると認識した場合には、そのことを示す眼鏡着用情報を高忠実度表示領域設定部32Dに出力する。なお、眼鏡着用認識部55は、一般的な顔認識技術の属性情報として入手することが可能である。
 図34は、図32の高忠実度表示領域設定部32Dの構成例を示すブロック図である。
 図34に示すように、高忠実度表示領域設定部32Dは、高忠実度表示マスク生成部61Dを備えて構成され、高忠実度表示マスク生成部61Dには、解析情報および眼鏡着用情報が供給される。
 高忠実度表示マスク生成部61Dは、眼鏡着用情報が、眼鏡が着用されていると認識されたことを示す場合、撮影画像に写されている顔から眼鏡のリムが存在する部分を避けて高忠実度表示領域を設定する。例えば、眼鏡のリムが存在する部分は、アーティファクトが発生しやすいと判断されるため、その部分を避けて高忠実度表示領域を設定することで、データの誤りや、信号の歪みなどを避けることができる。
 例えば、図35のAに示すように、上述した図7のAのマスク画像と比べて、眼鏡のリムが存在する部分を避けた領域に高忠実度表示領域が設定される。
 また、高忠実度表示マスク生成部61Dは、解析情報に基づいて、顔の輪郭部分などの顔パーツの信頼度が低いと判定された場合、図35のBに示すように、目の領域のみ、高忠実度表示領域を設定してもよい。
 このように構成される画像処理部24Dは、眼鏡着用情報や信頼度などを用いて高忠実度表示領域情報を設定することで、後段の高忠実度画像生成部33において、アーティファクトが発生する可能性が高い領域を事前に避けて高忠実度画像を生成することができる。これにより、高忠実度画像の忠実度を高めることができ、よりリアルなテレコミュニケーションを図ることができる。
 <画像処理部の第6の構成例>
 図36乃至図38を参照して、画像処理部24の第6の構成例について説明する。
 図36は、画像処理部24の第6の構成例を示すブロック図である。なお、図36に示す画像処理部24Eにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図36に示すように、画像処理部24Eは、被写体視点情報設定部31、高忠実度表示領域設定部32、高忠実度画像生成部33、低忠実度画像生成部34、符号化部36、伝送部37、受信部38、復号部39、および疑似視線一致画像表示部40を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Eは、疑似視線一致画像生成部35Eを備えて構成される。
 図37は、図36の疑似視線一致画像生成部35Eの構成例を示すブロック図である。
 図37に示すように、疑似視線一致画像生成部35Eは、マスク画像フィルタ処理部91、および高忠実度表示領域ブレンド処理部92を備える点で、図16の疑似視線一致画像生成部35と共通の構成となっており、さらに高忠実度判定部93を備えて構成される。
 高忠実度判定部93は、低忠実度画像生成部34から供給される補正高忠実度表示領域情報で示される補正高忠実度表示領域において、高忠実度画像および低忠実度画像の画像データの類似度を判定する。例えば、高忠実度判定部93は、高忠実度画像および低忠実度画像どうしで顔の各パーツの位置が一致する割合に応じて、画像データの類似度を求めることができる。即ち、高忠実度画像および低忠実度画像どうしで、顔の各パーツの位置が一致する割合が高い場合には画像データの類似度が高くなり、顔の各パーツの位置が一致する割合が低い場合には画像データの類似度が低くなる。
 そして、高忠実度判定部93は、類似度の高いほど、高忠実度画像のブレンド比が高くなり、類似度の低い領域の高忠実度画像のブレンド比が低くなるようにブレンド比が設定されたブレンド比マップ画像を生成して、マスク画像フィルタ処理部91に供給する。
 図38を参照して、高忠実度判定部93による判定処理について説明する。
 図38では、低忠実度画像および高忠実度画像において、補正高忠実度表示領域情報で示される補正高忠実度表示領域に、薄いハッチングが施されている。また、ブレンド比のマップ画像において、類似度の高い領域ほど、高忠実度画像のブレンド比を高くし(濃いハッチング)、類似度の低い領域ほど、高忠実度画像のブレンド比を低くする。
 例えば、図38のAには、補正高忠実度表示領域において、高忠実度画像と低忠実度画像の画像データの類似度が高い例が示されている。従って、補正高忠実度表示領域の全体において、高忠実度画像のブレンド比が高く設定されるブレンド比マップ画像が生成される。
 一方、図38のBには、鼻や口などがずれて合成されてしまい、補正高忠実度表示領域において、高忠実度画像と低忠実度画像の画像データの類似度が低い例が示されている。従って、鼻や口などの領域において類似度が低くなり、その領域における高忠実度画像のブレンド比が低く設定されるブレンド比マップ画像が生成される。
 このように高忠実度判定部93による判定処理が行われ、類似度に従ったブレンド比マップ画像がマスク画像フィルタ処理部91に供給される。なお、マスク画像フィルタ処理部91より後段の処理は、図2の画像処理部24と同様に行われる。
 このように構成される画像処理部24Eは、視点補間処理で生成された高忠実度画像の品質が悪い場合には、視線を一致させる効果が減少するものの、アーティファクトを発生させずに表示することができる。
 <画像処理部の第7の構成例>
 図39乃至図43を参照して、画像処理部24の第7の構成例について説明する。
 図39は、画像処理部24の第7の構成例を示すブロック図である。なお、図39に示す画像処理部24Fにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図39に示すように、画像処理部24Fは、被写体視点情報設定部31、高忠実度表示領域設定部32、高忠実度画像生成部33、伝送部37、受信部38、および疑似視線一致画像表示部40を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Fは、符号化部36F、復号部39F、低忠実度画像生成パラメータ生成部45、被写体視点情報設定部46、低忠実度画像生成部47、および疑似視線一致画像生成部48を備えて構成される。
 例えば、画像処理部24Fでは、低忠実度画像がCG(Computer Graphics)アバターアニメーションで構成される点で、図2の画像処理部24と処理が異なるものとなっている。即ち、画像処理部24Fでは、送信側に配置される低忠実度画像生成パラメータ生成部45により、CGアバターアニメーションによる低忠実度画像を生成するためのパラメータが生成される。そして、画像処理部24Fでは、受信側に配置される低忠実度画像生成部47により、CGアバターアニメーションによる低忠実度画像が生成される。
 また、画像処理部24Fでは、送信側において、相手側のユーザの視点位置(例えば、図2を参照して説明したデコード被写体視点情報)は、高忠実度画像生成部33で使用される。一方、低忠実度画像生成部47は、受信後に配置されているため、図2の低忠実度画像生成部34とは異なり、被写体視点情報設定部46で設定されたユーザ自身の視点位置の情報を使用することになる。
 図40は、図39の低忠実度画像生成パラメータ生成部45の構成例を示すブロック図である。
 図40に示すように、低忠実度画像生成パラメータ生成部45は、人物スケルトン解析部141、人物ボディモデルパラメータ抽出部142、人物ボディモデルパラメータ動き推定部143、顔モデリングパラメータ抽出部144、顔モデルパラメータ動き推定部145、およびモデルパラメータ情報統合部146を備えて構成される。
 人物スケルトン解析部141は、入力映像信号から得られる一部の撮影画像に対し、人物スケルトン情報を生成して、人物ボディモデルパラメータ抽出部142に供給する。
 人物ボディモデルパラメータ抽出部142は、人物スケルトン解析部141から供給される人物スケルトン情報に基づいて、人物メッシュ情報を生成し、人物ボディモデルパラメータ動き推定部143およびモデルパラメータ情報統合部146に供給する。
 人物ボディモデルパラメータ動き推定部143は、被写体の動きに対応しており、人物メッシュ情報の各メッシュの頂点の動き(または、メッシュの幾何変換パラメータ)を示す人物メッシュ動き情報を求め、モデルパラメータ情報統合部146に供給する。
 顔モデリングパラメータ抽出部144は、入力映像信号から得られる解析情報を用い、解析情報が示す顔パーツ位置に従って、顔メッシュ情報を生成する。
 顔モデルパラメータ動き推定部145は、顔の動きに対応しており、顔メッシュ情報の各メッシュの頂点の動き(または、メッシュの幾何変換パラメータ)を示す顔メッシュ動き情報を求め、モデルパラメータ情報統合部146に供給する。
 モデルパラメータ情報統合部146は、人物メッシュ情報、人物メッシュ動き情報、顔メッシュ情報、および顔メッシュ動き情報を統合し、被写体メッシュ情報として出力する。さらに、モデルパラメータ情報統合部146は、被写体メッシュ情報から構成されるメッシュのうち、高忠実度表示領域情報に対応するメッシュに対してラベル付けを行い、高忠実度表示メッシュラベル情報として出力する。
 図41は、図39の符号化部36Fの構成例を示すブロック図である。
 図41に示すように、符号化部36Fは、被写体視点情報符号化部101、映像コーデック符号化部102、およびストリーム統合部103を備える点で、図17の符号化部36と共通の構成となっており、さらに被写体メッシュ符号化部105および高忠実度表示メッシュラベル符号化部106を備えて構成される。
 被写体視点情報符号化部101は、被写体視点情報を符号化して、付加ストリームとしてストリーム統合部103に供給する。
 映像コーデック符号化部102は、上述したような各種のコーデックを用いて高忠実度画像を符号化して、映像ストリームとしてストリーム統合部103に供給する。
 被写体メッシュ符号化部105は、被写体メッシュ情報を符号化して、被写体メッシュストリームとしてストリーム統合部103に供給する。
 高忠実度表示メッシュラベル符号化部106は、忠実度表示メッシュラベル情報を符号化して、高忠実度表示メッシュラベルストリームとしてストリーム統合部103に供給する。
 ストリーム統合部103は、付加ストリーム、映像ストリーム、被写体メッシュストリーム、および高忠実度表示メッシュラベルストリームを統合し、符号化ストリームとして、伝送部37に出力する。
 図42は、図39の復号部39Fの構成例を示すブロック図である。
 図42に示すように、復号部39Fは、ストリーム分離部111、被写体視点情報復号部112、および映像コーデック復号部113を備える点で、図18の復号部39と共通の構成となっており、さらに被写体メッシュ復号部115および高忠実度表示メッシュラベル復号部116を備えて構成される。
 例えば、復号部39Fでは、ストリーム分離部111は、図39の受信部38から供給される符号化ストリームを、付加ストリーム、映像ストリーム、被写体メッシュストリーム、および高忠実度表示メッシュラベルストリームに分離する。そして、ストリーム分離部111は、被写体メッシュストリームを被写体メッシュ復号部115に供給するとともに、高忠実度表示メッシュラベルストリームを高忠実度表示メッシュラベル復号部116に供給する。
 被写体メッシュ復号部115は、ストリーム分離部111から供給される被写体メッシュストリームを、デコード被写体メッシュ情報に復号して出力する。
 高忠実度表示メッシュラベル復号部116は、ストリーム分離部111から供給される高忠実度表示メッシュラベルストリームを、デコード高忠実度表示メッシュラベル情報に復号して出力する。
 図43は、図39の低忠実度画像生成部47の構成例を示すブロック図である。
 図43に示すように、低忠実度画像生成部47は、アニメーションレンダリング部151、および、データベース152を備えて構成される。そして、低忠実度画像生成部47は、低忠実度画像としてCGアバターアニメーションをレンダリングすることにより生成する。
 アニメーションレンダリング部151は、被写体視点情報で示される相手側のユーザの視点から見て、表示装置22上で等身大に表示されるようにレンダリングを行う。アニメーションレンダリング部151は、相手側のユーザを被写体とした被写体メッシュ情報から構成される3Dメッシュ構造に、データベース152に予め登録されている各種情報(相手側のユーザのテクスチャ情報や、実物大サイズ情報、背景CG情報、光源情報など)を取得することで、レンダリングを行うことができる。
 さらに、アニメーションレンダリング部151は、被写体メッシュ情報に含まれる動き情報によってアニメーション再生を行い、低忠実度画像として出力する。同時に、アニメーションレンダリング部151は、デコード高忠実度表示メッシュラベル情報で示される領域に対応するマスク画像を生成し、これを補正高忠実度表示領域情報として出力する。
 なお、疑似視線一致画像生成部48は、図2の疑似視線一致画像生成部35が行う処理と同様に、補正高忠実度表示領域情報および低忠実度画像を用いるとともに、高忠実度画像に替えてデコード高忠実度画像を用いて、疑似視線一致画像を生成する。さらに、図2と同様に疑似視線一致画像表示部40は、疑似視線一致表示画像を生成して表示装置22に出力する。
 以上のように構成される画像処理部24Fでは、CGアバターアニメーションによる低忠実度画像を生成するためのパラメータを相手側に送信し、相手側から送信されてくるパラメータに基づいて、CGアバターアニメーションによる低忠実度画像を生成することができる。
 上述した各実施の形態の画像処理部24により、テレコミュニケーション装置12のユーザどうしは、等身大の映像や実写ベースのアバターアニメーションを用いて、よりリアルなテレコミュニケーションを図ることができる。このとき、例えば、表示装置22の内側に撮影装置を配置することなく、ユーザの視点位置などを考慮して、互いの視線を一致させるような映像コミュニケーション体験を提供することができる。
 <画像処理部の第8の構成例>
 図44乃至図48を参照して、画像処理部24の第8の構成例について説明する。
 図44は、画像処理部24の第8の構成例を示すブロック図である。なお、図44に示す画像処理部24Gにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図44に示すように、画像処理部24Gは、被写体視点情報設定部31、高忠実度表示領域設定部32、高忠実度画像生成部33、低忠実度画像生成部34、符号化部36、伝送部37、受信部38、復号部39、および疑似視線一致画像表示部40を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Gは、疑似視線一致画像生成部35Gを備えて構成される。
 画像処理部24Gでは、被写体視点情報設定部31から出力される解析情報が疑似視線一致画像生成部35Gにも供給されるように構成されている。
 図45は、図44の疑似視線一致画像生成部35Gの構成例を示すブロック図である。
 図45に示すように、疑似視線一致画像生成部35Gは、マスク画像フィルタ処理部91、および高忠実度表示領域ブレンド処理部92を備える点で、図16の疑似視線一致画像生成部35と共通の構成となっている。また、疑似視線一致画像生成部35Gは、高忠実度判定部93を備える点で、図37の疑似視線一致画像生成部35Eと共通の構成となっており、さらに妨害信号除去部94を備えて構成される。
 妨害信号除去部94には、被写体視点情報設定部31から解析情報が供給され、高忠実度画像生成部33から高忠実度画像が供給され、低忠実度画像生成部34から低忠実度画像が供給される。そして、妨害信号除去部94は、解析情報および低忠実度画像を用いて、高忠実度画像に含まれる視線一致の妨害となる信号を除去し、その妨害となる信号が除去された妨害除去高忠実度画像を高忠実度表示領域ブレンド処理部92および高忠実度判定部93に供給する。例えば、妨害信号除去部94は、高忠実度表示領域ブレンド処理部92によるアルファブレンド処理が行われる前に、ユーザの両目の近傍の領域における高忠実度画像と低忠実度画像との誤差量に応じて、視線一致を妨害する要素を高忠実度画像から除去する。
 具体的には、図46に示すように、眼鏡を着用している場合、高忠実度画像生成部33が高忠実度画像を生成する際に眼鏡のリムが変形することがあり、そのような眼鏡のリムの変形が視線一致の妨害となることが想定される。そこで、妨害信号除去部94は、解析情報に基づいて、視線一致の妨害となることが想定される領域を特定し、その領域において、低忠実度画像に写されている変形していない眼鏡のリムを用いて、視線一致の妨害となる変形した眼鏡のリムを除去する。
 即ち、図46の左側に示すような視線が一致していない低忠実度画像、および、眼鏡のリムが変形してしまった高忠実度画像に対し、上述の図35のAに示したマスク画像のように、眼鏡のリムが存在する部分を避けたブレンド比マップ画像に基づいてアルファブレンド処理が行われる。このとき、マスク画像フィルタ処理部91(図16参照)で平滑化されるため、高忠実度画像の目の領域に近接している歪んだ眼鏡のリムの一部が、視線一致を妨害する要素(妨害信号)となって疑似視線一致画像上で混入することがある。
 そこで、妨害信号除去部94が、疑似視線一致画像上の妨害信号を除去し、図46の右側に示すような妨害除去高忠実度画像を出力することで、高忠実度表示領域ブレンド処理部92は、より視線を一致させることができる疑似視線一致表示画像を生成することができる。ここで、妨害信号除去部94が、妨害信号を除去する対象となる領域は、図46において太線の破線で示すように、両目の近傍の領域であって、図46にグレーのハッチングが施されているように右目および左目それぞれに対応する目領域を除いた領域である。
 図47は、図44の妨害信号除去部94の構成例を示すブロック図である。
 図47に示すように、妨害信号除去部94は、妨害信号除去対象領域設定部161、目領域設定部162、妨害信号除去ブレンド部163、および残存妨害信号除去平滑化部164を備えて構成される。
 妨害信号除去対象領域設定部161は、被写体視点情報設定部31から供給される解析情報に基づいて、図46を参照して説明したように両目を内包する領域を妨害信号除去対象領域として特定する。そして、妨害信号除去対象領域設定部161は、その妨害信号除去対象領域を妨害信号除去ブレンド部163に対して設定する。
 目領域設定部162は、被写体視点情報設定部31から供給される解析情報に基づいて、図46を参照して説明したように右目および左目それぞれに対応する領域を目領域として特定する。そして、目領域設定部162は、その目領域を妨害信号除去ブレンド部163および残存妨害信号除去平滑化部164に対して設定する。
 妨害信号除去ブレンド部163は、妨害信号除去対象領域設定部161により設定された妨害信号除去対象領域のうちの、目領域設定部162により設定された目領域以外の領域における高忠実度画像と低忠実度画像との誤差量を求める。そして、妨害信号除去ブレンド部163は、目領域を除いた妨害信号除去対象領域において、図48に示すように、求めた誤差量が大きくなるのに伴って値が大きくなるような低忠実度画像のブレンド比を用いて、アルファブレンド処理を行う。
 一方、妨害信号除去ブレンド部163は、目領域設定部162により設定された目領域については、高忠実度画像をそのまま表示する。即ち、妨害信号除去ブレンド部163は、目領域における低忠実度画像のブレンド比を0としてアルファブレンド処理を行う。これにより、妨害信号除去ブレンド部163は、高忠実度画像の歪んだ眼鏡のリムの部分が、妨害信号として大部分が除去された妨害信号除去ブレンド画像を生成し、残存妨害信号除去平滑化部164に供給する。なお、妨害信号除去ブレンド画像には、図46の中央に示したように、歪んだ眼鏡のリムの縁が除去されずに線状の妨害信号として残ってしまうことがある。
 残存妨害信号除去平滑化部164は、妨害信号除去ブレンド部163から供給される妨害信号除去ブレンド画像に残っている妨害信号に対して、例えば、インパルス的な信号を除去するメディアンフィルタなどのエッジ保存型の非線形フィルタによる平滑化処理を施す。これにより、残存妨害信号除去平滑化部164は、妨害信号除去ブレンド画像に残存していた妨害信号を全て除去した妨害除去高忠実度画像を生成し、後段の高忠実度表示領域ブレンド処理部92および高忠実度判定部93(図45)に供給する。
 その後、疑似視線一致画像生成部35Gでは、マスク画像フィルタ処理部91、高忠実度表示領域ブレンド処理部92、および高忠実度判定部93において、図37を参照して上述した疑似視線一致画像生成部35Eと同様の処理が行われる。
 なお、残存妨害信号除去平滑化部164おいて、低忠実度画像の眼鏡のリムの部分は、エッジ部分はぼかさないようにするので、最終的に高忠実度表示領域ブレンド処理部92でアルファブレンド処理された疑似視線一致画像の眼鏡のリム部分の再現性は維持される。このように構成される画像処理部24Gは、目の領域付近でアーティファクトを発生させずに表示することができる。
 <画像処理部の第9の構成例>
 図49乃至図55を参照して、画像処理部24の第9の構成例について説明する。
 図49は、画像処理部24の第9の構成例を示すブロック図である。なお、図49に示す画像処理部24Hにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図49に示すように、画像処理部24Hは、被写体視点情報設定部31、高忠実度表示領域設定部32、低忠実度画像生成部34、疑似視線一致画像生成部35、伝送部37、および受信部38を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Hは、高忠実度画像生成部33H、符号化部36H、復号部39H、および疑似視線一致画像表示部40Hを備えて構成される。
 例えば、図2の画像処理部24では、相手側のユーザの3次元実空間上での視点位置(世界座標で定義)に基づいて、表示装置22上で表示される相手側のユーザの顔の大きさや目の位置が、実物大と等価になるように表示していた。これに対し、画像処理部24Hでは、顔の部位による複数の撮影画像を用いた処理特性の違いを考慮して、より視線が合い易くなるような表示を行う。
 これは、顔の向きが異なると、知覚される視線方向は、顔の向きの方にずれて知覚されるという、ウォラストン錯視と称される現象に基づいた表示方法である。なお、ウォラストン錯視については、非特許文献「William Hyde Wollaston , "On the apparent direction of eyes in a portrait." Philosophical Transactions of the Royal Society of London, Vol. 114 (1824), pp. 247-256」において説明されている。
 具体的には、図50に示すように、実際の姿勢が正面を向いている場合であっても、表示装置22には、破線で示すような顔の向きとなる低忠実度画像と、点線で示すような目の向きとなる高忠実度画像とが重畳合成された状態で表示される。このため、一点鎖線で示すような視線の知覚方向は、点線で示すような真の目の向きに対し、破線で示すような顔向き方向にずれることになり、そのような方向で視線が知覚されてしまう。
 そこで、高忠実度画像生成部33Hは、図2の高忠実度画像生成部33と異なり、顔の部位による複数の撮影画像を用いた処理特性の差異に関係している仮想撮影位置情報を符号化部36Hに供給する。
 例えば、図51に示すように、高忠実度画像生成部33Hは、図8の高忠実度画像生成部33と同様に、高忠実度表示領域クロップ部71を備えて構成され、さらに視点補間画像生成部72Hを備えて構成される。視点補間画像生成部72Hは、仮想撮影位置を設定し、この仮想撮影位置を示す仮想撮影位置情報を出力する。
 そして、符号化部36Hは、図2の高忠実度画像生成部33と同様に、被写体視点情報設定部31から供給されるユーザ自身の被写体視点情報、および、疑似視線一致画像生成部35から供給される疑似視線一致画像とともに、新たに仮想撮影位置情報を加えた形で符号化する。これにより、符号化部36Hは、被写体視点情報、疑似視線一致画像、および仮想撮影位置情報が符号化された符号化ストリームを生成して、伝送部37に供給する。
 一方、復号部39Hでは、受信部38から供給される符号化ストリームを復号して得られるデコード被写体視点情報およびデコード疑似視線一致画像に加え、新たにデコード仮想撮影位置情報を、疑似視線一致画像表示部40Hに供給する。
 ここで、図52は、図49の疑似視線一致画像表示部40Hの構成例を示すブロック図である。
 図52に示すように、疑似視線一致画像表示部40Hには、復号部39Hから出力されるデコード被写体視点情報およびデコード疑似視線一致画像とともに、デコード仮想撮影位置情報が供給される。さらに、図19の疑似視線一致画像表示部40の等身大表示幾何補正パラメータ推定部121と等身大表示幾何補正処理部122に代わって、視線一致促進表示幾何補正パラメータ推定部121H、および視線一致促進表示幾何補正処理部122Hを備えて構成される。
 視線一致促進表示幾何補正パラメータ推定部121Hは、図19の等身大表示幾何補正パラメータ推定部121と同様に、デコード被写体視点情報が示す相手側のユーザの3次元実空間上での視点位置(世界座標で定義)に基づいて、表示装置22上で表示される相手側のユーザの顔の大きさや目の位置が、実物大表示になるようなパラメータを求めるが、そのパラメータをそのまま使用するのではなく、その状態を基準(以下、基準状態)として補正を加える。
 具体的には、図19の等身大表示幾何補正パラメータ推定部121と同様に、表示装置22の大きさや、デコード疑似視線一致画像の解像度を考慮するが、視線一致促進表示幾何補正パラメータ推定部121Hでは、それらに加え、デコード仮想撮影位置情報から求められる、デコード疑似視線一致画像を生成する際に設定された視点補間位置も考慮に入れて、視線一致促進表示幾何補正パラメータ推定部121Hが基準とした基準状態に対する補正量を決め、視線一致促進表示幾何補正パラメータを設定する。
 ここで、図53乃至図55を参照して、視線一致促進表示幾何補正パラメータ推定部121Hによる補正量の決定方法について説明する。なお、補正量の水平成分は、簡潔のため、左方向の補正と右方向の補正とに分けて考える。
 まず、図53に示す左側×印を、デコード仮想撮影位置情報から求めたデコード疑似視線一致画像を生成する際に設定された視点補間位置とする。この場合、表示装置22の上側に設置された撮影装置21-1の垂直から、撮影装置21-2および21-3を結んだ直線までの距離を1.0に正規化すると、図53に示す左側×印は、垂直方向をraと(1.0-ra)とに内分している。ここで、raは、0.0から1.0までの数値である(0.0≦ra≦1.0)。
 一方、水平方向は、撮影装置21-2および21-3の中央の位置から、撮影装置21-2までの距離を1.0に正規化すると、図53に示す左側×印は、左側をsaと(1.0-sa)とに内分している。ここで、Saは、0.0から1.0までの数値である(0.0≦Sa≦1.0)。
 この状態で、上方向の補正量は、図54のAに示すグラフのように、raの値が大きいほど視点補間位置が撮影装置21-1から離れるように求められる。即ち、撮影装置21-1の撮影画像をベースとした低忠実度画像の顔の向き(やや下向きに見える)と、3つの撮影装置21-1乃至21-3から視点補間位置で忠実に生成された高忠実度画像の目の向き(正面に見えるカメラ目線)の整合性が低くなる。従って、視線がやや下方向にずれて知覚されるので、上方向の補正量を大きくする。
 また、左方向の補正量は、図54のBのグラフのように、saの値が大きいほど視点補間位置が撮影装置21-2および21-3の中央位置から離れるように求められる。即ち、上方向の補正量の設定方法と同様に、低忠実度画像の顔の向き(やや右向きに見える)と高忠実度画像の目の向き(正面に見えるカメラ目線)の整合性が低くなる。従って、視線がやや右方向にずれて知覚されるため、左方向の補正量を大きくする。
 最終的な、図53に示す右側×印のときの補正量は、2次元ベクトル(DXL,DY)で表現され、そのベクトルの分だけ、シフトした位置に補正して表示する。同様に、図53に示す右側×印の場合は、図54のCのグラフで示すように、水平の補正量が右方向になる以外は、左側×印の場合と同様に2次元ベクトル(DXR,DY)が決定される。
 以上より、視線一致促進表示幾何補正パラメータ推定部121Hは、このような決定方法で求めた補正量を反映して視線一致促進表示幾何補正パラメータを推定し、視線一致促進表示幾何補正処理部122Hに供給する。
 視線一致促進表示幾何補正処理部122Hは、デコード疑似視線一致画像に対して、視線一致促進表示幾何補正パラメータ推定部121Hから供給される視線一致促進表示幾何補正パラメータを用いた幾何補正を施す。これにより、視線一致促進表示幾何補正処理部122Hは、相手側のユーザが等身大となる大きさおよび位置(目の高さ)を基準とした状態から、上述した視点補間位置に基づいて、視線がより合いやすくなるように表示装置22に表示されるような疑似視線一致表示画像を生成する。そして、視線一致促進表示幾何補正処理部122Hは、その疑似視線一致表示画像を、図1の表示装置22に出力して表示させる。
 以上のように画像処理部24Hが備える各ブロックは構成されており、例えば、相手側のユーザが表示されて行われる双方向コミュニケーションにおいて、図55に示すように、実物大表示に対し、表示位置を補正することで、相手側のユーザと、より視線が合いやすくなった映像コミュニケーション体験を提供することができる。
 <画像処理部の第10の構成例>
 図56乃至図62を参照して、画像処理部24の第10の構成例について説明する。
 図56は、画像処理部24の第10の構成例を示すブロック図である。なお、図56に示す画像処理部24Jにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図56に示すように、画像処理部24Jは、高忠実度表示領域設定部32、高忠実度画像生成部33、低忠実度画像生成部34、符号化部36、伝送部37、受信部38、復号部39、および疑似視線一致画像表示部40を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24Jは、被写体視点情報設定部31J、および疑似視線一致画像生成部35Jを備えて構成される。
 図57は、図56の被写体視点情報設定部31Jの構成例を示すブロック図である。
 図57に示すように、被写体視点情報設定部31Jは、顔パーツ検出部51、目領域対応点検出部52、視点距離算出部53、および被写体視点情報生成部54を備える点で、図3の被写体視点情報設定部31と共通の構成となっており、さらに視線方向検出部56を備えて構成される。
 視線方向検出部56には、入力撮影信号が供給されるとともに、顔パーツ検出部51から解析情報が供給される。そして、視線方向検出部56は、撮影装置21-1乃至21-3により撮影された3枚の撮影画像うち、少なくとも1枚の画像と、顔パーツ検出部51で出力される顔の各パーツの特徴点の座標を示す解析情報とに基づいて、両目の瞳の視線方向を検出する。例えば、視線方向検出部56は、非特許文献「"Rendering of Eyes for Eye-Shape Registration and Gaze Estimation" by Erroll Wood, et al. ICCV2015」などに開示されている技術を用いて視線方向を検出することができる。そして、視線方向検出部56は、その検出結果を視線方向情報として疑似視線一致画像生成部35Jに供給し、解析情報とともに視線方向情報が、被写体視点情報設定部31Jから出力される。
 図58は、図56の疑似視線一致画像生成部35Jの構成例を示すブロック図である。
 図58に示すように、疑似視線一致画像生成部35Jは、マスク画像フィルタ処理部91、高忠実度表示領域ブレンド処理部92、高忠実度判定部93、および妨害信号除去部94を備える点で、図45の疑似視線一致画像生成部35Gと共通の構成となっており、さらにキャッチライト強調部95を備えて構成される。
 キャッチライト強調部95には、被写体視点情報設定部31から解析情報および視線方向情報が供給されるとともに、妨害信号除去部94から妨害除去高忠実度画像が供給される。そして、キャッチライト強調部95は、高忠実度表示領域ブレンド処理部92によるアルファブレンド処理が行われる前に、予め、解析情報および視線方向を用いて妨害除去高忠実度画像中の瞳の映っているキャッチライトの部分を強調する。
 図59は、図58のキャッチライト強調部95の構成例を示すブロック図である。
 図59に示すように、キャッチライト強調部95は、瞳領域検出部171、キャッチライト顕著性判定部172、およびキャッチライト強調処理部173を備えて構成される。ここで、図60および図61も参照して、キャッチライト強調部95において行われる処理について説明する。
 瞳領域検出部171は、被写体視点情報設定部31から供給された解析情報の目の顔パーツから、図60に示すように、瞳(瞳孔+虹彩)の境界に近接する4つの特徴点を結ぶ矩形領域を瞳領域情報として出力する。
 キャッチライト顕著性判定部172は、妨害信号除去部94から供給された高忠実度妨害除去画像に対し、瞳領域検出部171から供給される瞳領域情報が示す矩形領域でキャッチライトが目立っている状態であるかを判定する。
 具体的には、キャッチライト顕著性判定部172は、まず、瞳領域情報が示す矩形領域の輝度信号に対し、図61に示すような輝度の発生確率分布(ヒストグラム)を求める。図61のAには、より明るいキャッチライトが発生しているときの発生確率の一例が示されており、図61のBには、より暗いキャッチライトが発生しているときの発生確率の一例が示されている。続いて、キャッチライト顕著性判定部172は、キャッチライト顕著度CLSを、発生確率のPthを超えた中で最も高い輝度値Lmaxを、予め設定した高輝度を判定する閾値Lthで除算すること(CLS=Lmax/Lth)により求める。但し、求められたキャッチライト顕著度CLSが1.0より大きい場合(CLS>1.0)、キャッチライト顕著性判定部172は、キャッチライト顕著度CLSを1.0とする。そして、キャッチライト顕著性判定部172は、このようにして求めたキャッチライト顕著度CLSをキャッチライト強調処理部173に供給する。
 キャッチライト強調処理部173には、キャッチライト顕著度CLSおよび視線方向情報が供給される。そして、キャッチライト強調処理部173は、キャッチライト顕著度CLSから、図62のAに示すような特性でキャッチライト不明瞭度Clrに変換する。また、キャッチライト強調処理部173は、視線方向情報から視線方向の正面からのずれの大きさを正面視線誤差GEとして求め、図62のBに示すような特性で正面視線度Fgrに変換する。
 そして、キャッチライト強調処理部173は、キャッチライト不明瞭度Clrおよび正面視線度Fgrを用いて、妨害除去高忠実度画像の強調処理を行う。例えば、キャッチライト強調処理部173は、キャッチライト強調度Cleを、キャッチライト不明瞭度Clrおよび正面視線度Fgrを乗算すること(Cle=Fgr×Clr)により求める。これにより、図62のCに示すように、視線方向が正面に近くかつ、キャッチライトが不明瞭な状態なときほど、強調処理を強めて、キャッチライトを目立つようにすることができる。なお、キャッチライト強調処理部173の強調処理は、アンシャープマスクや、超解像、コントラスト強調、色強調などを用いることができる。
 このように構成される画像処理部24Jは、照明環境が悪い状態においても、キャッチライトの手がかりにより、視線一致効果を高めることができる。
 <画像処理部の第11の構成例>
 図63乃至図66を参照して、画像処理部24の第11の構成例について説明する。
 図63は、画像処理部24の第11の構成例を示すブロック図である。なお、図63に示す画像処理部24Kにおいて、図2の画像処理部24と共通する構成については同一の符号を付し、その詳細な説明は省略する。
 図63に示すように、画像処理部24Kは、被写体視点情報設定部31、高忠実度表示領域設定部32、高忠実度画像生成部33、低忠実度画像生成部34、疑似視線一致画像生成部35、符号化部36、伝送部37、受信部38、および復号部39を備える点で、図2の画像処理部24と共通する構成となっている。さらに、画像処理部24は、疑似視線一致画像表示部40Kを備えて構成される。
 例えば、画像処理部24Kでは、表示装置22上で表示される相手側のユーザの顔の大きさや目の位置を、実物大と等価な表示を基準として、顔の部位による複数の撮影画像を用いた処理特性の違いを考慮して、ウォラストン錯視に基づいた補正により、視線がより合いやすいように表示を行う点については、図49を参照して上述した画像処理部24Hと同様である。しかし、画像処理部24Kでは、仮想撮影位置情報が付加情報として伝送されないように構成されており、顔の部位による複数の撮影画像を用いた処理特性の差異を、疑似視線一致画像表示部40Kで検出する。
 図64は、図63の疑似視線一致画像表示部40Kの構成例を示すブロック図である。
 図64に示すように、疑似視線一致画像表示部40Kには、図19の疑似視線一致画像表示部40と同様に、復号部39から出力されるデコード被写体視点情報およびデコード疑似視線一致画像が供給される。また、疑似視線一致画像表示部40Kは、図52の疑似視線一致画像表示部40Hと同様に、視線一致促進表示幾何補正処理部122Kを備えて構成される。さらに、疑似視線一致画像表示部40Kは、視線一致促進表示幾何補正パラメータ推定部121K、顔パーツ検出部51K、視線方向検出部132、および顔向き検出部133を備えて構成される。
 顔パーツ検出部51Kは、図3に示した被写体視点情報設定部31が備える顔パーツ検出部51と同様に、デコード疑似視線一致画像に含まれる顔の各パーツの特徴点を示す座標を求める。
 視線方向検出部132は、上述した図57の視線方向検出部56と同様に、前段の顔パーツ検出部51Kで検出された解析情報とデコード疑似視線一致画像から両目の視線方向を検出する。
 顔向き検出部133は、前段の顔パーツ検出部51Kで検出された、目以外の解析情報を用いて、デコード疑似視線一致画像中の顔向きの検出を行う。例えば、顔向き検出部133は、非特許文献「"OpenFace: an open source facial behavior analysis toolkit" by Tadas Baltru?aitis, et al. in IEEE Winter Conference on Applications of Computer Vision, 2016」などに開示されている技術を用いて顔向きの検出を行う。また、これらの検出した方向は、図65に示すような3次元空間軸上のベクトルの角度(roll, pitch, yaw)として表される。なお、本実施の形態において、顔向きとは、頭部の向きも含むものとする。
 視線一致促進表示幾何補正パラメータ推定部121Kには、視線方向検出部132により検出された両目の視線方向を示す視線方向情報と、顔向き検出部133により検出された顔向きを示す顔向き情報が供給される。そして、視線一致促進表示幾何補正パラメータ推定部121Kは、図65に示すように、両目の視線方向と顔向きとの誤差に基づいて、視線一致促進表示幾何補正パラメータを推定する。
 具体的には、図65に示すように、目の視線方向を示す3次元ベクトルと、顔向きを示す3次元ベクトルとが検出結果として得られたとする。この場合、これらの2つの3次元ベクトルの角度の誤差(RollDiff, PitchDiff,YawDiff)の3つの成分で表現されるとき、ピッチ誤差PitchDiffの値に応じて、図66のAに示す特性に従って、上下方向の補正量を設定する。同様に、ヨー誤差YawDiffの値に応じて、図66のBに示す特性に従って、左右方向の補正量を設定する。
 そして、最終的な二次元画像上の補正量は、2次元ベクトル(Hshift, Vshift)で表現され、そのベクトルの分だけ、シフトした位置に補正して表示する。以上より、視線一致促進表示幾何補正パラメータ推定部121Kは、上記の決定方法で求めた補正量を反映して視線一致促進表示幾何補正パラメータを推定し、視線一致促進表示幾何補正処理部122Kに供給する。
 なお、視線一致促進表示幾何補正処理部122Kは、上述の図52を参照して説明した視線一致促進表示幾何補正処理部122Hと同様の動作を行う。即ち、視線一致促進表示幾何補正処理部122Kは、相手側のユーザが等身大となる大きさおよび位置(目の高さ)を基準とした状態から、上述した角度の誤差に基づいた補正量で、視線がより合いやすくなるように補正して表示装置22に表示されるような疑似視線一致表示画像を生成する。
 以上のように画像処理部24Kが備える各ブロックは構成されており、図49の画像処理部24Hと同様に、実物大表示に対し、表示位置を補正することで、付加情報を増やすことなく、相手側のユーザと、より視線が合いやすくなった映像コミュニケーション体験を提供することができる。
 <コンピュータのハードウエアの構成例>
 なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、単一のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
 また、上述した一連の処理(画像処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
 図67は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
 そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 <構成の組み合わせ例>
 なお、本技術は以下のような構成も取ることができる。
(1)
 第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
 表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
 前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
 前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
 を備える画像処理装置。
(2)
 前記第2のユーザの三次元空間上での視点位置に従って、前記第2のユーザが写されている前記出力画像から、前記第2のユーザを特定の大きさおよび位置で前記表示装置に表示させる表示画像を生成する表示画像生成部
 をさらに備える上記(1)に記載の画像処理装置。
(3)
 前記表示画像生成部は、前記第2のユーザの三次元空間上での視点位置、前記第2のユーザが写されている前記出力画像の解像度、および、前記表示装置の解像度および大きさに基づいたパラメータを用いた幾何補正を行い、前記第2のユーザが、実物と略同一の大きさで表示されるように前記表示画像を生成する
 上記(2)に記載の画像処理装置。
(4)
 前記第1のユーザを被写体とした複数枚の前記撮影画像に写されている前記第1のユーザの顔を解析して、それらの撮影画像上における前記顔の各パーツの特徴点を示す座標を求め、それらの座標に基づいて、前記第1のユーザの視点位置を示す被写体視点情報を取得する被写体視点情報設定部
 をさらに備え、
 前記被写体視点情報は、前記第1のユーザとテレコミュニケーションを行う相手となる前記第2のユーザ側において、前記第1のユーザが写されている前記出力画像から前記表示画像を生成する際に利用される
 上記(2)または(3)に記載の画像処理装置。
(5)
 前記高忠実度表示領域設定部は、前記被写体視点情報設定部が求めた前記特徴点を示す座標からなる解析情報を用いて、前記高忠実度表示領域を指定するマスク画像を生成する
 上記(4)に記載の画像処理装置。
(6)
 前記高忠実度画像生成部は、前記第1のユーザが撮影された複数枚の前記撮影画像から、前記高忠実度表示領域に対応する部分をクロップし、それらのクロップされた複数枚の画像に対して前記仮想撮影位置に従った視点補間処理を行うことにより、前記高忠実度画像を生成する
 上記(1)から(5)までのいずれかに記載の画像処理装置。
(7)
 前記低忠実度画像生成部は、前記第1のユーザが撮影された前記撮影画像に対して、前記第2のユーザの視点位置に従って前記仮想撮影位置から見た画像に近くなるように推定される射影変換パラメータを用いた射影変換処理を施すことにより、前記低忠実度画像を生成する
 上記(1)から(6)までのいずれかに記載の画像処理装置。
(8)
 前記低忠実度画像生成部は、前記高忠実度表示領域を指定するマスク画像に対して、前記射影変換パラメータを用いた射影変換処理を施すことで、前記低忠実度画像に対する射影変換の影響を反映させる補正を行う
 上記(7)に記載の画像処理装置。
(9)
 前記画像重畳部は、前記高忠実度表示領域を指定するマスク画像に対してフィルタ処理を施したブレンドマップ画像を生成し、前記ブレンドマップ画像で設定されるブレンド比に応じて、前記高忠実度画像および前記低忠実度画像をブレンドするアルファブレンド処理を行うことで、前記出力画像を生成する
 上記(1)から(8)までのいずれかに記載の画像処理装置。
(10)
 前記第1のユーザの視点位置を示す被写体視点情報と、前記第1のユーザが写されている前記出力画像とを符号化して符号化ストリームを生成する符号化部と、
 前記符号化ストリームを、ネットワークを介して伝送される伝送ストリームとして出力する伝送部と
 をさらに備える上記(4)に記載の画像処理装置。
(11)
 前記第2のユーザの視点位置を示す被写体視点情報と、前記第2のユーザが写されている前記出力画像とが符号化されて、ネットワークを介して伝送されてくる伝送ストリームを受信し、符号化ストリームに戻す受信部と、
 前記符号化ストリームを復号し、前記第2のユーザの視点位置を示す被写体視点情報と、前記第2のユーザが写されている前記出力画像とを前記表示画像生成部に供給する復号部と
 をさらに備える上記(2)から(10)までのいずれかに記載の画像処理装置。
(12)
 前記第1のユーザと前記第2のユーザとは同一の人物であり、
 前記高忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記高忠実度画像を生成するとともに、前記低忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記低忠実度画像を生成し、
 前記出力画像を左右反転させる鏡像表示処理を行う鏡像表示処理部
 をさらに備える上記(1)から(11)までのいずれかに記載の画像処理装置。
(13)
 前記高忠実度画像生成部および前記低忠実度画像生成部は、固定的な視点情報に基づいて前記高忠実度画像および前記低忠実度画像をそれぞれ生成し、
 前記マスク画像の代表位置および面積を、高忠実度表示情報として出力する高忠実度表示情報設定部
 をさらに備える上記(8)に記載の画像処理装置。
(14)
 前記高忠実度画像生成部が前記高忠実度画像を生成するのに用いる前記撮影画像として、前記第1のユーザをズーム撮影し、前記低忠実度画像生成部が前記低忠実度画像を生成するのに用いる前記撮影画像として、前記第1のユーザを広角撮影するように、複数台の前記撮影装置に対する制御を行う撮影制御部
 をさらに備える上記(1)から(12)までのいずれかに記載の画像処理装置。
(15)
 前記高忠実度表示領域設定部は、前記第1のユーザが眼鏡を着用していると認識された場合、前記画像に写されている顔から眼鏡のリムの存在部分を避けて、前記高忠実度表示領域を設定する
 上記(1)から(12)までのいずれかに記載の画像処理装置。
(16)
 前記画像重畳部は、前記高忠実度画像と前記低忠実度画像との類似度に基づいて、類似度の高いほど、前記高忠実度画像のブレンド比が高くなるようなブレンド比マップ画像を生成し、そのブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする
 上記(9)に記載の画像処理装置。
(17)
 前記低忠実度画像として、前記第2のユーザが写された画像から生成されるパラメータに基づいて、CG(Computer Graphics)アバタ画像を生成するアニメーションレンダリング部
 をさらに備える上記(1)から(12)までのいずれかに記載の画像処理装置。
(18)
 前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、前記第1のユーザの目の近傍の領域における前記高忠実度画像と前記低忠実度画像との誤差量に応じて、視線一致を妨害する要素を前記高忠実度画像から除去する除去部を有する
 上記(16)に記載の画像処理装置。
(19)
 前記第1のユーザを被写体とした少なくとも1枚の前記撮影画像と、前記第1のユーザの顔の各パーツの特徴点を示す座標からなる解析情報とに基づいて、前記第1のユーザの視線方向を検出する視線方向検出部を有する被写体視点情報設定部をさらに備え、
 前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、予め、前記解析情報および前記視線方向を用いて前記高忠実度画像の瞳領域のキャッチライトを強調するキャッチライト強調部を有する
 上記(16)に記載の画像処理装置。
(20)
 前記表示画像生成部は、前記第2のユーザが、実物と略同一の大きさで表示されるように生成した前記表示画像を、前記高忠実度画像を生成する際に設定された視点補間位置に基づいて、前記第1のユーザが前記第2のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
 上記(2)に記載の画像処理装置。
(21)
 前記表示画像生成部は、前記第2のユーザが、実物と略同一の大きさで表示される前記表示画像を生成する際に、前記出力画像中の前記第2のユーザの視線方向を示す3次元ベクトルと、前記出力画像中の前記第2のユーザの顔向きを示す3次元ベクトルとの角度の誤差に基づいて、前記第1のユーザが前記第2のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
 上記(2)に記載の画像処理装置。
(22)
 第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
 表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
 前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
 前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
 ステップを含む画像処理方法。
(23)
 第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
 表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
 前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
 前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
 ステップを含む画像処理をコンピュータに実行させるプログラム。
(24)
  第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
  表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
  前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
  前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
 を少なくとも含む第1の画像処理装置を備える第1のユーザ側のテレコミュニケーション装置と、
  前記第1のユーザの三次元空間上での視点位置に基づいて、前記第1のユーザが写されている前記出力画像から、前記第1のユーザを特定の大きさおよび位置で表示させる表示画像を生成する表示画像生成部
 を少なくとも含む第2の画像処理装置を備える第2のユーザ側のテレコミュニケーション装置と
 が、ネットワークを介して接続されるテレコミュニケーションシステム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 11 テレコミュニケーションシステム, 12 テレコミュニケーション装置, 13 ネットワーク, 21 撮影装置, 22 表示装置, 23 情報処理装置, 24 画像処理部, 25 通信部, 31 被写体視点情報設定部, 32 高忠実度表示領域設定部, 33 高忠実度画像生成部, 34 低忠実度画像生成部, 35 疑似視線一致画像生成部, 36 符号化部, 37 伝送部, 38 受信部, 39 復号部, 40 疑似視線一致画像表示部

Claims (24)

  1.  第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
     表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
     前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
     前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
     を備える画像処理装置。
  2.  前記第2のユーザの三次元空間上での視点位置に従って、前記第2のユーザが写されている前記出力画像から、前記第2のユーザを特定の大きさおよび位置で前記表示装置に表示させる表示画像を生成する表示画像生成部
     をさらに備える請求項1に記載の画像処理装置。
  3.  前記表示画像生成部は、前記第2のユーザの三次元空間上での視点位置、前記第2のユーザが写されている前記出力画像の解像度、および、前記表示装置の解像度および大きさに基づいたパラメータを用いた幾何補正を行い、前記第2のユーザが、実物と略同一の大きさで表示されるように前記表示画像を生成する
     請求項2に記載の画像処理装置。
  4.  前記第1のユーザを被写体とした複数枚の前記撮影画像に写されている前記第1のユーザの顔を解析して、それらの撮影画像上における前記顔の各パーツの特徴点を示す座標を求め、それらの座標に基づいて、前記第1のユーザの視点位置を示す被写体視点情報を取得する被写体視点情報設定部
     をさらに備え、
     前記被写体視点情報は、前記第1のユーザとテレコミュニケーションを行う相手となる前記第2のユーザ側において、前記第1のユーザが写されている前記出力画像から前記表示画像を生成する際に利用される
     請求項2に記載の画像処理装置。
  5.  前記高忠実度表示領域設定部は、前記被写体視点情報設定部が求めた前記特徴点を示す座標からなる解析情報を用いて、前記高忠実度表示領域を指定するマスク画像を生成する
     請求項4に記載の画像処理装置。
  6.  前記高忠実度画像生成部は、前記第1のユーザが撮影された複数枚の前記撮影画像から、前記高忠実度表示領域に対応する部分をクロップし、それらのクロップされた複数枚の画像に対して前記仮想撮影位置に従った視点補間処理を行うことにより、前記高忠実度画像を生成する
     請求項1に記載の画像処理装置。
  7.  前記低忠実度画像生成部は、前記第1のユーザが撮影された前記撮影画像に対して、前記第2のユーザの視点位置に従って前記仮想撮影位置から見た画像に近くなるように推定される射影変換パラメータを用いた射影変換処理を施すことにより、前記低忠実度画像を生成する
     請求項1に記載の画像処理装置。
  8.  前記低忠実度画像生成部は、前記高忠実度表示領域を指定するマスク画像に対して、前記射影変換パラメータを用いた射影変換処理を施すことで、前記低忠実度画像に対する射影変換の影響を反映させる補正を行う
     請求項7に記載の画像処理装置。
  9.  前記画像重畳部は、前記高忠実度表示領域を指定するマスク画像に対してフィルタ処理を施したブレンドマップ画像を生成し、前記ブレンドマップ画像で設定されるブレンド比に応じて、前記高忠実度画像および前記低忠実度画像をブレンドするアルファブレンド処理を行うことで、前記出力画像を生成する
     請求項1に記載の画像処理装置。
  10.  前記第1のユーザの視点位置を示す被写体視点情報と、前記第1のユーザが写されている前記出力画像とを符号化して符号化ストリームを生成する符号化部と、
     前記符号化ストリームを、ネットワークを介して伝送される伝送ストリームとして出力する伝送部と
     をさらに備える請求項4に記載の画像処理装置。
  11.  前記第2のユーザの視点位置を示す被写体視点情報と、前記第2のユーザが写されている前記出力画像とが符号化されて、ネットワークを介して伝送されてくる伝送ストリームを受信し、符号化ストリームに戻す受信部と、
     前記符号化ストリームを復号し、前記第2のユーザの視点位置を示す被写体視点情報と、前記第2のユーザが写されている前記出力画像とを前記表示画像生成部に供給する復号部と
     をさらに備える請求項2に記載の画像処理装置。
  12.  前記第1のユーザと前記第2のユーザとは同一の人物であり、
     前記高忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記高忠実度画像を生成するとともに、前記低忠実度画像生成部は、前記人物自身の視点位置を仮想撮影位置として前記低忠実度画像を生成し、
     前記出力画像を左右反転させる鏡像表示処理を行う鏡像表示処理部
     をさらに備える請求項1に記載の画像処理装置。
  13.  前記高忠実度画像生成部および前記低忠実度画像生成部は、固定的な視点情報に基づいて前記高忠実度画像および前記低忠実度画像をそれぞれ生成し、
     前記マスク画像の代表位置および面積を、高忠実度表示情報として出力する高忠実度表示情報設定部
     をさらに備える請求項8に記載の画像処理装置。
  14.  前記高忠実度画像生成部が前記高忠実度画像を生成するのに用いる前記撮影画像として、前記第1のユーザをズーム撮影し、前記低忠実度画像生成部が前記低忠実度画像を生成するのに用いる前記撮影画像として、前記第1のユーザを広角撮影するように、複数台の前記撮影装置に対する制御を行う撮影制御部
     をさらに備える請求項1に記載の画像処理装置。
  15.  前記高忠実度表示領域設定部は、前記第1のユーザが眼鏡を着用していると認識された場合、前記画像に写されている顔から眼鏡のリムの存在部分を避けて、前記高忠実度表示領域を設定する
     請求項1に記載の画像処理装置。
  16.  前記画像重畳部は、前記高忠実度画像と前記低忠実度画像との類似度に基づいて、類似度の高いほど、前記高忠実度画像のブレンド比が高くなるようなブレンド比マップ画像を生成し、そのブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする
     請求項9に記載の画像処理装置。
  17.  前記低忠実度画像として、前記第2のユーザが写された画像から生成されるパラメータに基づいて、CG(Computer Graphics)アバタ画像を生成するアニメーションレンダリング部
     をさらに備える請求項1に記載の画像処理装置。
  18.  前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、前記第1のユーザの両目の近傍の領域における前記高忠実度画像と前記低忠実度画像との誤差量に応じて、視線一致を妨害する要素を前記高忠実度画像から除去する除去部を有する
     請求項16に記載の画像処理装置。
  19.  前記第1のユーザを被写体とした少なくとも1枚の前記撮影画像と、前記第1のユーザの顔の各パーツの特徴点を示す座標からなる解析情報とに基づいて、前記第1のユーザの視線方向を検出する視線方向検出部を有する被写体視点情報設定部をさらに備え、
     前記画像重畳部は、前記ブレンド比マップ画像に従って前記高忠実度画像および前記低忠実度画像をブレンドする前に、予め、前記解析情報および前記視線方向を用いて前記高忠実度画像の瞳領域のキャッチライトを強調するキャッチライト強調部を有する
     請求項16に記載の画像処理装置。
  20.  前記表示画像生成部は、前記第2のユーザが、実物と略同一の大きさで表示されるように生成した前記表示画像を、前記高忠実度画像を生成する際に設定された視点補間位置に基づいて、前記第1のユーザが前記第2のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
     請求項2に記載の画像処理装置。
  21.  前記表示画像生成部は、前記第2のユーザが、実物と略同一の大きさで表示される前記表示画像を生成する際に、前記出力画像中の前記第2のユーザの視線方向を示す3次元ベクトルと、前記出力画像中の前記第2のユーザの顔向きを示す3次元ベクトルとの角度の誤差に基づいて、前記第1のユーザが前記第2のユーザの視線を知覚する方向のずれを補正する補正量に従った表示位置に表示させる
     請求項2に記載の画像処理装置。
  22.  第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
     表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
     前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
     前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
     ステップを含む画像処理方法。
  23.  第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定し、
     表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成し、
     前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成し、
     前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する
     ステップを含む画像処理をコンピュータに実行させるプログラム。
  24.   第1のユーザが写されている画像で、前記第1のユーザの目が写された目領域を少なくとも含む所定の領域を高忠実度表示領域として設定する高忠実度表示領域設定部と、
      表示装置の外側に配置された複数台の撮影装置それぞれにより前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第1の画像生成処理を行って、前記表示装置に表示される第2のユーザの視点位置を仮想撮影位置として、その仮想撮影位置から前記第1のユーザを撮影したように見え、より忠実度が高い見た目となる高忠実度画像を生成する高忠実度画像生成部と、
      前記第1のユーザが撮影された複数枚の撮影画像の少なくとも一部を用いて第2の画像生成処理を行って、前記仮想撮影位置から前記第1のユーザを撮影したように見え、前記高忠実度画像よりも忠実度が低い低忠実度画像を生成する低忠実度画像生成部と、
      前記低忠実度画像における前記高忠実度表示領域に対して、前記高忠実度画像を重畳することで、画像処理結果として出力する出力画像を生成する画像重畳部と
     を少なくとも含む第1の画像処理装置を備える第1のユーザ側のテレコミュニケーション装置と、
      前記第1のユーザの三次元空間上での視点位置に基づいて、前記第1のユーザが写されている前記出力画像から、前記第1のユーザを特定の大きさおよび位置で表示させる表示画像を生成する表示画像生成部
     を少なくとも含む第2の画像処理装置を備える第2のユーザ側のテレコミュニケーション装置と
     が、ネットワークを介して接続されて構成されるテレコミュニケーションシステム。
PCT/JP2018/019953 2017-06-07 2018-05-24 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム WO2018225518A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/609,043 US11068699B2 (en) 2017-06-07 2018-05-24 Image processing device, image processing method, and telecommunication system to generate an output image for telecommunication

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2017112488 2017-06-07
JP2017-112488 2017-06-07
JP2018-003139 2018-01-12
JP2018003139 2018-01-12

Publications (1)

Publication Number Publication Date
WO2018225518A1 true WO2018225518A1 (ja) 2018-12-13

Family

ID=64567049

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/019953 WO2018225518A1 (ja) 2017-06-07 2018-05-24 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム

Country Status (2)

Country Link
US (1) US11068699B2 (ja)
WO (1) WO2018225518A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7343760B2 (ja) 2019-08-08 2023-09-13 富士通株式会社 画像処理プログラム、画像処理方法および画像処理装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10692290B2 (en) * 2016-10-14 2020-06-23 Tremolant Inc. Augmented reality video communications
US11068699B2 (en) * 2017-06-07 2021-07-20 Sony Corporation Image processing device, image processing method, and telecommunication system to generate an output image for telecommunication
US11410331B2 (en) * 2019-10-03 2022-08-09 Facebook Technologies, Llc Systems and methods for video communication using a virtual camera
JP7423251B2 (ja) * 2019-10-25 2024-01-29 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2023137370A (ja) * 2022-03-18 2023-09-29 セイコーエプソン株式会社 表示方法、及び表示システム
CN115456855B (zh) * 2022-11-11 2023-04-11 湖北晓雲科技有限公司 一种无人机辅助倾斜摄影图像采集系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09154114A (ja) * 1995-11-28 1997-06-10 Nec Corp 電子会議端末装置
JP2009517745A (ja) * 2005-11-30 2009-04-30 シーイング・マシーンズ・プロプライエタリー・リミテッド 視覚的に頭と目を追跡するシステムにおける眼鏡の視覚的追跡
JP2011165081A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 画像生成方法、画像生成装置、及びプログラム
JP2016192687A (ja) * 2015-03-31 2016-11-10 大和ハウス工業株式会社 映像表示システム及び映像表示方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738870B2 (ja) * 2005-04-08 2011-08-03 キヤノン株式会社 情報処理方法、情報処理装置および遠隔複合現実感共有装置
US8260008B2 (en) * 2005-11-11 2012-09-04 Eyelock, Inc. Methods for performing biometric recognition of a human eye and corroboration of same
US8280115B2 (en) * 2007-10-30 2012-10-02 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP5449162B2 (ja) * 2008-07-31 2014-03-19 三菱電機株式会社 映像符号化装置、映像符号化方法、映像再生装置、及び映像再生方法
JP5572437B2 (ja) * 2010-03-29 2014-08-13 富士フイルム株式会社 3次元医用画像に基づいて立体視用画像を生成する装置および方法、並びにプログラム
WO2012081194A1 (ja) * 2010-12-17 2012-06-21 パナソニック株式会社 医療支援装置、医療支援方法および医療支援システム
US9684953B2 (en) 2012-02-27 2017-06-20 Eth Zurich Method and system for image processing in video conferencing
US9057826B2 (en) * 2013-01-31 2015-06-16 Google Inc. See-through near-to-eye display with eye prescription
CN104704818B (zh) * 2013-06-19 2018-08-31 松下知识产权经营株式会社 图像显示装置和图像显示方法
JP6025690B2 (ja) * 2013-11-01 2016-11-16 ソニー株式会社 情報処理装置および情報処理方法
US10136101B2 (en) * 2015-03-31 2018-11-20 Sony Corporation Information processing apparatus, communication system, and information processing method
US11068699B2 (en) * 2017-06-07 2021-07-20 Sony Corporation Image processing device, image processing method, and telecommunication system to generate an output image for telecommunication

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09154114A (ja) * 1995-11-28 1997-06-10 Nec Corp 電子会議端末装置
JP2009517745A (ja) * 2005-11-30 2009-04-30 シーイング・マシーンズ・プロプライエタリー・リミテッド 視覚的に頭と目を追跡するシステムにおける眼鏡の視覚的追跡
JP2011165081A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 画像生成方法、画像生成装置、及びプログラム
JP2016192687A (ja) * 2015-03-31 2016-11-10 大和ハウス工業株式会社 映像表示システム及び映像表示方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAEK, E. T. ET AL.: "Intermediate view synthesis for eye-gazing", PROCEEDINGS OF SPIE, vol. 9406, 8 February 2015 (2015-02-08), pages 1 - 8, XP060045038 *
ISHII, R. ET AL.: "MoPaCo: Window interface to enhance telepresence in video communication", THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. J96-D, no. 1, 1 January 2013 (2013-01-01), pages 110 - 119, ISSN: 1880-4535 *
NODA, S. ET AL.: "A study of high presence video communication system in tiled display environment", IPSJ SIG TECHNICAL REPORT, 26 February 2015 (2015-02-26), pages 1 - 6, Retrieved from the Internet <URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_ view_main&active_action=repository_view_main_item_ detail&item_id=113620&item_no=1&page_id=13&block_i d=8> [retrieved on 20180613] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7343760B2 (ja) 2019-08-08 2023-09-13 富士通株式会社 画像処理プログラム、画像処理方法および画像処理装置

Also Published As

Publication number Publication date
US11068699B2 (en) 2021-07-20
US20200151427A1 (en) 2020-05-14

Similar Documents

Publication Publication Date Title
WO2018225518A1 (ja) 画像処理装置、画像処理方法、プログラム、およびテレコミュニケーションシステム
CN107818305B (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
US20180158246A1 (en) Method and system of providing user facial displays in virtual or augmented reality for face occluding head mounted displays
EP2299726B1 (en) Video communication method, apparatus and system
US9684953B2 (en) Method and system for image processing in video conferencing
WO2011148449A1 (ja) 映像処理装置、映像処理方法、および映像通信システム
CN107920202B (zh) 基于增强现实的视频处理方法、装置及电子设备
WO2018188277A1 (zh) 视线校正方法、装置、智能会议终端及存储介质
JP2006114023A (ja) 画像処理装置及び方法
JP7519390B2 (ja) 新規ビュー合成のためのニューラルブレンド
CN109584358A (zh) 一种三维人脸重建方法及装置、设备和存储介质
WO2016183380A1 (en) Facial signature methods, systems and software
CN114631127A (zh) 说话头的小样本合成
US9380263B2 (en) Systems and methods for real-time view-synthesis in a multi-camera setup
KR101933037B1 (ko) 360도 동영상에서의 가상현실 재생 장치
US20180310025A1 (en) Method and technical equipment for encoding media content
Turban et al. Extrafoveal video extension for an immersive viewing experience
US20190110003A1 (en) Image processing method and system for eye-gaze correction
WO2020056769A1 (en) Method and system of facial resolution upsampling for image processing
JP4461739B2 (ja) 撮像装置
KR20200079162A (ko) 실감형 콘텐츠 제공 장치 및 방법
Bleyer et al. Temporally consistent disparity maps from uncalibrated stereo videos
JP4617965B2 (ja) 画像処理方法、その装置およびプログラム
JP2017207818A (ja) 画像処理装置、画像処理方法、プログラム
US20230122149A1 (en) Asymmetric communication system with viewer position indications

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18812688

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18812688

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP