WO2019097639A1 - 情報処理装置および画像生成方法 - Google Patents

情報処理装置および画像生成方法 Download PDF

Info

Publication number
WO2019097639A1
WO2019097639A1 PCT/JP2017/041324 JP2017041324W WO2019097639A1 WO 2019097639 A1 WO2019097639 A1 WO 2019097639A1 JP 2017041324 W JP2017041324 W JP 2017041324W WO 2019097639 A1 WO2019097639 A1 WO 2019097639A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
subject
user
display
information
Prior art date
Application number
PCT/JP2017/041324
Other languages
English (en)
French (fr)
Inventor
篠原 隆之
晋平 山口
智 又吉
森貞 英彦
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to JP2019554119A priority Critical patent/JP6916896B2/ja
Priority to US16/759,655 priority patent/US11310472B2/en
Priority to PCT/JP2017/041324 priority patent/WO2019097639A1/ja
Publication of WO2019097639A1 publication Critical patent/WO2019097639A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/20Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/74Circuits for processing colour signals for obtaining special effects
    • H04N9/75Chroma key

Definitions

  • the present invention relates to a technique for chroma keying a subject image of a subject and a background image.
  • a head mounted display provides images throughout the user's field of view and enhances the user's sense of immersion in the visual world.
  • HMD head mounted display
  • An object of the present invention is to provide a technique for adjusting the direction of a subject image to perform chroma key composition.
  • an image acquisition unit for acquiring an object image in which an object is located in front of a single color background, an object included in the object image is a background image
  • a display control unit that generates a display image according to the user's viewpoint position by performing chroma key composition so as to become the foreground image of the user's viewpoint.
  • the direction of the subject is determined so as to make the subject face the viewpoint position.
  • Another aspect of the present invention is an image generation method.
  • This method comprises the steps of acquiring an object image in which the object is located in front of a single-color background, and performing chroma key synthesis so that the object contained in the object image becomes the foreground image of the background image.
  • This apparatus comprises a three-dimensional data acquisition unit for acquiring a three-dimensional space model created from a photographed image of space, an image acquisition unit for acquiring a subject image in which a subject moves in front of a single color background, A subject layer image generation unit that projects a subject image on a virtual screen that moves in accordance with the movement of a subject included and applies chroma key processing to extract a subject part, and arranges a subject layer image in a three-dimensional space model. And a display processing unit that generates a display image according to the viewpoint position of
  • Yet another aspect of the present invention is an image generation method.
  • This method includes the steps of acquiring a three-dimensional space model created from a photographed image of space, acquiring an object image in which the object moves in front of a single color background, and moving the object included in the object image.
  • any combination of the above-described components, a method, an apparatus, a system, a computer program, a recording medium in which a computer program is readably recorded, a data structure, etc. are also used. It is effective as an aspect of
  • FIG. 1 is a diagram showing an example of the configuration of an information processing system according to a first embodiment. It is a figure which shows the example of the external appearance shape of HMD. It is a figure which shows the functional block of HMD.
  • FIG. 2 is a diagram showing functional blocks of the information processing apparatus in the first embodiment. It is a figure which shows an example of the chroma key synthetic
  • (A) And (b) is a figure for demonstrating the positional relationship of a viewpoint position, a to-be-photographed image, and a background image. It is a figure which shows an example of a chroma key synthetic
  • FIG. 7 is a diagram showing functional blocks of the information processing apparatus in the second embodiment.
  • FIG. 1 shows a configuration example of the information processing system 1 in the first embodiment.
  • the information processing system 1 includes an information processing apparatus 10, a head mounted display (HMD) 100, an input device 16 operated by a user with a finger, an imaging device 14 for photographing a user wearing the HMD 100, and an output for displaying an image. And an apparatus 15.
  • the output device 15 may be a television.
  • the information processing apparatus 10 is connected to an external network 2 such as the Internet via an access point (AP) 17.
  • the AP 17 has the functions of a wireless access point and a router, and the information processing apparatus 10 may be connected to the AP 17 by a cable or may be connected by a known wireless communication protocol.
  • the information processing apparatus 10 is connected to the distribution server 18 via the network 2.
  • the distribution server 18 is a streaming distribution device for live relaying an image captured in a shooting studio or the like.
  • the subject is a reporter having a microphone, and the news is read out to the imaging device 19.
  • the imaging device 19 stands in front of the color screen 5 configured with a single color, and captures a reporter facing the imaging device 19.
  • the color screen 5 may be a screen of a single color such as blue or green, but may be another color.
  • the image captured by the imaging device 19 is subjected to chroma key processing in the information processing device 10, and chroma key combined with the background image.
  • the HMD 100 is mounted on the user's head to provide the user with a video world.
  • the HMD 100 provides the user with a composite image obtained by chroma keying the subject image provided from the distribution server 18.
  • the HMD 100 By providing the HMD 100 with a head tracking function and updating the chromakey composite image in conjunction with the movement of the head of the user, the user can view the image from the favorite viewing direction and viewpoint position.
  • the information processing device 10 includes a processing device 11, an output control device 12, and a storage device 13.
  • the processing device 11 is a terminal device that chroma-key synthesizes the subject image distributed from the distribution server 18 with the background image, and provides the HMD 100 with the chroma-key synthesized image.
  • the processing device 11 and the input device 16 may be connected by a cable and may be connected by a known wireless communication protocol.
  • the processing apparatus 11 according to the first embodiment has a function of receiving the position information and posture information of the HMD 100 as user operation information for changing the gaze position and the gaze direction, and updating an image displayed on the HMD 100.
  • the output control unit 12 is a processing unit that outputs the image data generated by the processing unit 11 to the HMD 100.
  • the output control unit 12 and the HMD 100 may be connected by a cable, and are connected by a known wireless communication protocol. It is also good.
  • the imaging device 14 is a stereo camera, and captures a user wearing the HMD 100 at a predetermined cycle, and supplies a captured image to the processing device 11.
  • the HMD 100 is provided with a marker (tracking LED) for tracking the user's head, and the processing device 11 detects the movement of the HMD 100 based on the position of the marker included in the captured image.
  • a posture sensor acceleration sensor and gyro sensor
  • the processing device 11 obtains sensor data detected by the posture sensor from the HMD 100, thereby achieving high accuracy along with the use of the photographed image of the marker.
  • the output device 15 is not necessarily required for the user wearing the HMD 100, but another user can view the display image of the output device 15 by preparing the output device 15.
  • the output control device 12 or the processing device 11 may cause the output device 15 to display the same image as the image viewed by the user wearing the HMD 100.
  • the HMD 100 is a display device that displays an image on a display panel located in front of the eyes when the user wears the head.
  • the HMD 100 separately displays an image for the left eye on the display panel for the left eye and an image for the right eye on the display panel for the right eye. These images constitute parallax images viewed from the left and right viewpoints to realize stereoscopic vision. Since the user views the display panel through the optical lens, the information processing apparatus 10 supplies the HMD 100 with parallax image data in which the optical distortion due to the lens has been corrected.
  • the optical distortion correction process may be performed by either the processing device 11 or the output control device 12.
  • the function of the output control device 12 may be incorporated into the processing device 11.
  • the processing unit of the information processing device 10 may be configured of one processing device 11 or may be configured of the processing device 11 and the output control device 12.
  • the function of providing an image to the HMD 100 will be collectively described as the function of the information processing apparatus 10.
  • the information processing apparatus 10 detects the position coordinates and orientation of the user's head (in fact, the HMD 100) by performing head tracking processing of the user.
  • the position coordinates of the HMD 100 are position coordinates in a three-dimensional space with the reference position as the origin, and the reference position may be position coordinates (latitude, longitude) when the power of the HMD 100 is turned on.
  • the attitude of the HMD 100 is an inclination in the direction of three axes with respect to the reference attitude in the three-dimensional space.
  • the reference posture may be a posture in which the user's gaze direction is horizontal, and may be set when the power of the HMD 100 is turned on.
  • the information processing apparatus 10 can detect the position coordinates and attitude of the HMD 100 only from the sensor data detected by the attitude sensor of the HMD 100, and further performs image analysis on the markers (LEDs for tracking) of the HMD 100 photographed by the imaging apparatus 14
  • the position coordinates and attitude of the HMD 100 can be detected with high accuracy.
  • FIG. 2 shows an example of the appearance of the HMD 100.
  • the HMD 100 includes an output mechanism unit 102 and a mounting mechanism unit 104.
  • the mounting mechanism unit 104 includes a mounting band 106 for fixing the HMD 100 to the head by circling the head by being worn by the user.
  • the mounting band 106 is made of a material or structure that can be adjusted in length in accordance with the head circumference of the user.
  • the output mechanism unit 102 includes a housing 108 shaped to cover the eyes of the left and right eyes in a state where the user wears the HMD 100, and internally includes a display panel that faces the eyes when worn.
  • the display panel may be a liquid crystal panel or an organic EL panel.
  • the housing 108 is further provided with a pair of left and right optical lenses located between the display panel and the eyes of the user and enlarging the viewing angle of the user.
  • the HMD 100 may further include a speaker and an earphone at a position corresponding to the user's ear, and may be configured to be connected with an external headphone.
  • Luminescent markers 110 a, 110 b, 110 c, and 110 d are provided on the outer surface of the housing 108.
  • the tracking LED constitutes the light emission marker 110, but it may be another type of marker, and in any case, it can be imaged by the imaging device 14 and the information processing device 10 can analyze the marker position. I hope there is.
  • the number and arrangement of the light emission markers 110 are not particularly limited, but they need to be the number and arrangement for detecting the posture and position of the HMD 100. In the illustrated example, they are provided at four corners on the front surface of the housing 108.
  • the light emission marker 110 may be provided on the side or the rear of the mounting band 106 so that the user can shoot even when the user turns his back to the imaging device 14.
  • the HMD 100 may be connected to the information processing apparatus 10 by a cable or may be connected by a known wireless communication protocol.
  • the HMD 100 transmits sensor data detected by the posture sensor to the information processing apparatus 10, receives image data output from the information processing apparatus 10, and displays the image data on the left-eye display panel and the right-eye display panel.
  • FIG. 3 shows functional blocks of the HMD 100.
  • the control unit 120 is a main processor that processes and outputs various data such as image data, voice data, sensor data, and instructions.
  • the storage unit 122 temporarily stores data and instructions processed by the control unit 120.
  • the attitude sensor 124 detects attitude information of the HMD 100.
  • the attitude sensor 124 includes at least a 3-axis acceleration sensor and a 3-axis gyro sensor.
  • the communication control unit 128 transmits data output from the control unit 120 to the external information processing apparatus 10 by wired or wireless communication via a network adapter or an antenna.
  • the communication control unit 128 also receives data from the information processing apparatus 10 by wired or wireless communication via a network adapter or an antenna, and outputs the data to the control unit 120.
  • control unit 120 When the control unit 120 receives image data and audio data from the information processing apparatus 10, the control unit 120 supplies the image data and audio data to the display panel 130 for display, and supplies the image data and audio data to the audio output unit 132 for audio output.
  • the display panel 130 includes a display panel 130a for the left eye and a display panel 130b for the right eye, and a pair of parallax images are displayed on each display panel. Further, the control unit 120 causes the communication control unit 128 to transmit the sensor data from the posture sensor 124 and the voice data from the microphone 126 to the information processing apparatus 10.
  • FIG. 4 shows functional blocks of the information processing apparatus 10 in the first embodiment.
  • the information processing apparatus 10 includes a sensor data receiving unit 20, a camera image receiving unit 22, an input data receiving unit 24, an image acquiring unit 40, and an image providing unit 52 as an input / output interface with the outside.
  • the information processing apparatus 10 further includes an HMD information acquisition unit 30, a line-of-sight information determination unit 32, a reception unit 34, a display control unit 50, and a background image storage unit 54.
  • each element described as a functional block that performs various processing can be configured in hardware as a circuit block, a memory, or another LSI, and software can be loaded in a memory. It is realized by a program etc. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any of them.
  • the sensor data reception unit 20 receives sensor data at a predetermined cycle from the posture sensor 124 of the HMD 100 worn by the user, and supplies the sensor data to the HMD information acquisition unit 30.
  • the camera image reception unit 22 receives an image obtained by photographing the HMD 100 at a predetermined cycle from the imaging device 14, and supplies the image to the HMD information acquisition unit 30.
  • the imaging device 14 captures the forward space every (1/60) seconds, and the camera image receiving unit 22 receives a camera image every (1/60) seconds.
  • the HMD information acquisition unit 30 derives, from the sensor data and the photographed image, posture information indicating the posture of the HMD 100 mounted on the head of the user and positional information indicating the position.
  • the HMD information acquisition unit 30 supplies the derived posture information and position information to the line-of-sight information determination unit 32.
  • the HMD information acquisition unit 30 detects changes in the attitude and position of the HMD 100 from the sensor data of the attitude sensor 124. At this time, the HMD information acquisition unit 30 may specify the change in posture of the HMD 100 from the sensor data of the three-axis gyro sensor, and specify the change in position from the sensor data of the three-axis acceleration sensor. Preferably, the HMD information acquisition unit 30 further utilizes the imaging result of the tracking light emission marker 110 to enhance the detection accuracy of the posture change and the position change.
  • the gaze information determination unit 32 determines the gaze direction and the viewpoint position of the user according to the posture information and the position information of the HMD 100. The gaze information determination unit 32 provides the display control unit 50 with the determined gaze direction and the viewpoint position.
  • the input data receiving unit 24 receives key data input by the user from the input device 16 and supplies the key data to the receiving unit 34.
  • the receiving unit 34 receives a user operation input to the input device 16.
  • the information processing apparatus 10 acquires an image in which the subject is located in front of the single-color background from the distribution server 18, and performs chroma key synthesis so that the subject included in the subject image becomes the foreground image of the background image. , Have the functions provided to HMD100.
  • This video combining function is realized by the chroma key combining application installed in the information processing apparatus 10.
  • the user can use the chroma key composition application by downloading the chroma key composition application from the content server to the information processing apparatus 10 in advance.
  • the image acquisition unit 40 transmits a distribution request for the subject image to the distribution server 18.
  • the distribution server 18 receives a distribution request from the information processing apparatus 10, and photographs a photographed image of the image pickup apparatus 19, which is a subject (reporter) standing in front of the color screen 5 and facing the image pickup apparatus 19 here.
  • the image is streamed to the information processing apparatus 10.
  • the image acquisition unit 40 acquires a subject image to be streamed and provides the display control unit 50.
  • the display control unit 50 performs chroma key synthesis so that the subject included in the subject image becomes the foreground image of the background image, and generates a display image according to the viewpoint position of the user.
  • FIG. 5 shows an example of a chroma key composite image displayed on the HMD 100.
  • the background image holding unit 54 holds an image to be a background in the chroma key composition process.
  • the background image holding unit 54 may hold various background images.
  • the display control unit 50 reads the background image from the background image holding unit 54, performs chroma key synthesis so that the subject included in the subject image becomes the foreground image of the read background image, and corresponds to the user's viewpoint position. Generate a display image.
  • the display control unit 50 reads a background image of a four-storey building from the background image holding unit 54, and a subject who is a reporter generates a chroma key composite image in which news is reported in front of the building. ing.
  • the background image holding unit 54 holds a background image which is a two-dimensional image, but may hold a background image which is a three-dimensional image.
  • the user of the information processing apparatus 10 may arbitrarily select the background image to be used from the background image storage unit 54.
  • the background image may be provided from the distribution server 18.
  • the distribution server 18 when the distribution server 18 distributes the image of the reporter that transmits the news, the distribution server 18 transmits an appropriate background image to the information processing apparatus 10 according to the content of the news. It is also good.
  • the image acquisition unit 40 may acquire the subject image and the background image, and the display control unit 50 may perform chroma key synthesis so that the subject included in the subject image becomes the foreground image of the background image.
  • the distribution server 18 provides the news program, but the technology of the first embodiment can also be used, for example, when friends have a conversation.
  • the technique of the first embodiment it is possible to freely set the background image in the information processing apparatus 10, and by using the HMD 100, it is possible to view the subject at a very short distance. Then, the user can select a place of memories with a friend as a background image and enjoy a conversation with the friend.
  • the background image holding unit 54 may hold a photographed image actually shot by a camera, but may hold an image created by computer graphics as a background image.
  • the line-of-sight information determination unit 32 determines the line-of-sight direction and the viewpoint position of the user according to the posture information and the position information of the HMD 100, and provides the display control unit 50 with it.
  • the display control unit 50 generates a display image according to the gaze direction and the viewpoint position of the user.
  • the display control unit 50 controls the direction of the subject to face the user's viewpoint.
  • 6A and 6B are diagrams for explaining the positional relationship between the viewpoint position, the subject image, and the background image. This explanatory view schematically shows the viewpoint position, the subject image, and the background image viewed from above.
  • FIG. 6A represents the positional relationship before the movement of the viewpoint position
  • FIG. 6B represents the positional relationship after the movement of the viewpoint position.
  • the display control unit 50 determines the direction and position of the subject image such that a perpendicular drawn from the viewpoint position to the subject image passes through the center in the width direction of the subject image.
  • 6A shows a state before moving the viewpoint position, but as shown in FIG. 6B, when the user moves in the horizontal direction and moves the viewpoint position, the display control unit 50 Is controlled so that a perpendicular drawn from the viewpoint position to the subject image passes through the center of the subject image in the width direction.
  • the subject image faces the user.
  • the display control unit 50 may change the direction of the subject so that the subject faces the subject slightly delayed with respect to the change of the viewpoint position of the user.
  • FIG. 7 shows an example of a chroma key composite image when moving the viewpoint position.
  • the viewpoint position the position of the HMD 100
  • the reporter moves in the right direction relative to the background building.
  • the reporter is displayed facing the user, so that the user can feel as if the reporter is speaking to him.
  • this technology is used to communicate with friends, it is possible to have a sense of intimacy by maintaining the state in which the two face each other.
  • the live video of the reporter is distributed.
  • the image to be distributed may not be a live image, but may be a photographed image.
  • the information processing apparatus 10 may receive provision of the subject image from the distribution server 18, or may receive the subject image from a recording medium such as a DVD.
  • Example 2 In the second embodiment, a case is described in which a display image in which a subject moves relative to a background image is generated.
  • FIG. 8 shows functional blocks of the information processing apparatus 10 in the second embodiment.
  • the information processing apparatus 10 includes a display control unit 50, a 3D model holding unit 60, a 3D data acquisition unit 62, a subject image holding unit 64, and an image acquisition unit 66.
  • the sensor data receiving unit 20, the camera image receiving unit 22, the input data receiving unit 24, the HMD information acquiring unit 30, the line-of-sight information determining unit 32, the receiving unit 34 and the image are the common configuration shown in FIG. 4. Illustration of the provision unit 52 is omitted.
  • each element described as a functional block performing various processing can be configured as a circuit block, a memory, or another LSI in terms of hardware, and is loaded into a memory in terms of software It is realized by a program etc. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any of them.
  • the information processing apparatus 10 has a function of generating an image in which a layer image of a subject is arranged in a three-dimensional space model and providing the image to the HMD 100.
  • the video combining function is realized by the chroma key combining application installed in the information processing apparatus 10.
  • the three-dimensional space model is created by analyzing an image obtained by capturing an actual space, defining a shape model of the space, and pasting the captured image (texture image) to the defined shape.
  • a three-dimensional space model created from a captured image of space, and a subject image obtained by shooting a situation in which a subject moves on the front side of a single color background are transmitted from the distribution server 18 serving as a content providing server 10 and is held by the 3D model holding unit 60 and the subject image holding unit 64, respectively.
  • the information processing apparatus 10 generates a display image to be provided to the HMD 100 from the three-dimensional space model held by the 3D model holding unit 60 and the subject image held by the subject image holding unit 64.
  • the three-dimensional space image and the subject image may be provided to the information processing apparatus 10 from a recording medium such as a DVD.
  • FIG. 9 shows an example of a three-dimensional space model.
  • This three-dimensional space model is a model obtained by modeling the inside of an actual room, and is configured such that a user wearing the HMD 100 can observe the inside of the room.
  • modeling of the inside of the three-dimensional room is performed using an image taken of the inside of the room with a camera. In the shooting work, place the camera in the center of the room and shoot the inside of the room without gaps, then connect the captured images with high accuracy, identify the boundaries between the wall, floor, and ceiling, and then wall, floor, and ceiling Model the shape of The photographed image is pasted as a texture image to the modeled shape, thereby creating a three-dimensional space model representing the inside of the room.
  • the three-dimensional space model may be created on the distribution server 18 side and distributed to the information processing apparatus 10.
  • the interior space of the room has a simple shape such as a rectangular parallelepiped, it is possible to prepare a photographed image sufficient for modeling by changing the direction of the camera arranged at the center of the room and taking pictures without gaps.
  • FIG. 10 shows an example of an object 200 arranged in a three-dimensional space model.
  • This object 200 is a desk of four legs, and is created as a layer image in which positional information in a three-dimensional space model is defined.
  • a desk image is extracted from a difference between an in-room image photographed without a desk and an in-room image photographed with a desk disposed, and a layer image having position information in the room as attribute information Is created.
  • the 3D model holding unit 60 holds the layer image of the object 200 in addition to the three-dimensional space model.
  • FIG. 11 is a diagram for explaining a subject image.
  • the subject image is a moving image of a subject actually moving in the same room taken to create a three-dimensional space model.
  • the imaging device 19 captures an image of one subject moving from the left to the right along the back wall.
  • the desk which is a real object
  • the subject moves between the place where the desk is placed and the wall on the far side, and does not walk where the desk was placed Do.
  • a single-color sheet such as blue or green is covered on the far-side wall that forms the background of the subject to perform chroma key composition, and thus the subject image is an image from which the subject can be extracted by chroma key processing. It has become.
  • the subject image holding unit 64 holds a subject image.
  • the 3D data acquisition unit 62 acquires a 3D space model from the 3D model holding unit 60 and provides the display processing unit 72 with the 3D space model. Further, the image acquisition unit 66 acquires a subject image which is a moving image from the subject image holding unit 64 and provides the subject layer image generation unit 70 with the subject image. The display processing unit 72 generates a display image in which the movement of the subject is combined with the image of the room configured by the three-dimensional space model.
  • the subject layer image generation unit 70 sets a virtual screen that moves in accordance with the movement of the subject included in the subject image.
  • the virtual screen has a size at least including the subject in the subject image.
  • the subject layer image generation unit 70 projects a subject image on a virtual screen, applies chroma key processing to extract a subject part, and generates a subject layer image.
  • the subject layer image generation unit 70 determines the direction of the virtual screen on which the subject image is projected, according to the position of the subject included in the subject image.
  • FIG. 12 is a diagram for explaining the process of generating a subject layer image.
  • the subject layer image generation unit 70 sets virtual screens 202a, 202b and 202c (hereinafter referred to as "virtual screen 202" as representative) to project the subject image. Is shown.
  • the virtual screen 202 shown in FIG. 12 combines a flat plate (standing surface) extending in the vertical direction and a flat plate extending horizontally at the foot, but even if the rising surface has unevenness in order to give a three-dimensional effect to people. Good.
  • the subject layer image generation unit 70 determines the orientation of the virtual screen 202 in accordance with the relationship between the position of the imaging device 19 (camera position) and the subject position.
  • the direction of the virtual screen 202 is determined such that the line connecting the camera position and the subject is a vertical line of the rising surface of the virtual screen 202a.
  • the user is provided with an image that looks in the room near the camera position in the three-dimensional space model, but the user moves from the camera position and looks at the subject from a different viewpoint position.
  • the information processing apparatus 10 provides the HMD 100 with a display image having no sense of incongruity, even when the user slightly moves from the camera position, by causing the virtual screen 202 on which the subject is projected to face the camera position. it can.
  • the display processing unit 72 is provided with the three-dimensional space model from the 3D data acquisition unit 62, and creates a background image for the subject.
  • FIG. 13 shows how the subject moves in the space between the back wall and the desk.
  • the display processing unit 72 generates an image in the room using the three-dimensional space model and the layer image of the object 200, and projects the subject on the virtual screen 202 to move the virtual screen 202 in the three-dimensional space.
  • the subject generates a moving image moving between the desk and the back wall.
  • the display processing unit 72 arranges the subject layer image and the object layer image in the three-dimensional space model, and generates a display image according to the viewpoint position of the user. By placing it in the foreground, it is possible to express that a part of the subject is shielded by the desk.
  • the line-of-sight information determination unit 32 determines the line-of-sight direction and the viewpoint position of the user according to the posture information and position information of the HMD 100, and provides the display processing unit 72 with it.
  • the display processing unit 72 generates a display image according to the gaze direction and the viewpoint position of the user.
  • the display processing unit 72 may set the initial position of the user in the three-dimensional space to the position where the imaging device 19 is disposed, but the relative positional relationship between the object 200 and the subject and the three-dimensional space model Changes.
  • the display processing unit 72 displays the display image without discomfort. Can be generated.
  • one subject image is combined with the background image, but a plurality of subject images may be combined with the background image.
  • ... information processing system 20 ... sensor data reception unit, 22 ... camera image reception unit, 24 ... input data reception unit, 30 ... HMD information acquisition unit, 32 ... gaze information Determination unit 34: Reception unit 40: Image acquisition unit 50: Display control unit 52: Image provision unit 54: Background image holding unit 60: 3D model holding Unit 62 2 3D data acquisition unit 64 Subject image holding unit 66 Image acquisition unit 70 Subject layer image generation unit 72 Display processing unit 100 HMD.
  • the present invention can be applied to a technique for generating a chroma key composite image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Controls And Circuits For Display Device (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

画像取得部40は、被写体が単一色の背景の前側に位置する被写体画像を取得する。視線情報決定部32は、HMDを装着したユーザの視線方向および視点位置を決定して、表示制御部50に提供する。表示制御部50は、被写体画像に含まれる被写体が、背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成する。表示制御部50は、ユーザの視点位置に変更があった場合に、ユーザの視点位置に対して被写体を正対させるように被写体の向きを定める。

Description

情報処理装置および画像生成方法
 本発明は、被写体を撮影した被写体画像と背景画像とをクロマキー合成する技術に関する。
 ヘッドマウントディスプレイ(HMD)はユーザの視野全体に画像を提供し、ユーザの映像世界への没入感を高める。HMDにヘッドトラッキング機能をもたせ、ユーザの頭部の姿勢や位置と連動して3次元空間の画像を提供することで、映像世界への没入感をさらに高めることができる。
 従来より、被写体を撮影した被写体画像と背景画像とをクロマキー合成する技術がある。本発明者は、クロマキー合成技術の可能性を模索し、被写体画像の向きを調整することで、新たな体験をユーザに提供できる可能性に想到した。
 本発明の目的は、被写体画像の向きを調整してクロマキー合成を実施する技術を提供することにある。
 上記課題を解決するために、本発明のある態様の情報処理装置は、被写体が単一色の背景の前側に位置する被写体画像を取得する画像取得部と、被写体画像に含まれる被写体が、背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成する表示制御部とを備え、表示制御部は、視点位置に変更があった場合に、ユーザの視点位置に対して被写体を正対させるように被写体の向きを定める。
 本発明の別の態様は、画像生成方法である。この方法は、被写体が単一色の背景の前側に位置する被写体画像を取得するステップと、被写体画像に含まれる被写体が、背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成するステップと、ユーザの視点位置に変更があった場合に、ユーザの視点位置に対して被写体を正対させるように被写体の向きを動かして表示画像を生成するステップと、を有する。
 本発明のさらに別の態様は、情報処理装置である。この装置は、空間の撮影画像から作成された3次元空間モデルを取得する3次元データ取得部と、被写体が単一色の背景の前側で移動する被写体画像を取得する画像取得部と、被写体画像に含まれる被写体の移動に合わせて動く仮想スクリーンに被写体画像を投影し、クロマキー処理を適用して被写体部分を抜き取る被写体レイヤー画像生成部と、3次元空間モデル内に被写体レイヤー画像を配置して、ユーザの視点位置に応じた表示画像を生成する表示処理部とを備える。
 本発明のさらに別の態様は、画像生成方法である。この方法は、空間の撮影画像から作成された3次元空間モデルを取得するステップと、被写体が単一色の背景の前側で移動する被写体画像を取得するステップと、被写体画像に含まれる被写体の移動に合わせて動く仮想スクリーンに被写体画像を投影するステップと、被写体画像を投影した仮想スクリーンにクロマキー処理を適用して被写体部分を抜き取るステップと、3次元空間モデル内に被写体を配置して、ユーザの視点位置に応じた表示画像を生成するステップとを有する。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを読み取り可能に記録した記録媒体、データ構造などの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、被写体画像の向きを調整してクロマキー合成を実施する技術を提供できる。
実施例1における情報処理システムの構成例を示す図である。 HMDの外観形状の例を示す図である。 HMDの機能ブロックを示す図である。 実施例1における情報処理装置の機能ブロックを示す図である。 HMDに表示されるクロマキー合成画像の一例を示す図である。 (a)および(b)は、視点位置、被写体画像、背景画像の位置関係を説明するための図である。 視点位置を動かしたときのクロマキー合成画像の一例を示す図である。 実施例2における情報処理装置の機能ブロックを示す図である。 3次元空間モデルの一例を示す図である。 3次元空間モデルに配置されるオブジェクトの例を示す図である。 被写体画像を説明するための図である。 被写体レイヤー画像を生成する処理を説明するための図である。 部屋内の壁と机の間のスペースを被写体が移動する様子を示す図である。
<実施例1>
 図1は、実施例1における情報処理システム1の構成例を示す。情報処理システム1は、情報処理装置10と、ヘッドマウントディスプレイ(HMD)100と、ユーザが手指で操作する入力装置16と、HMD100を装着したユーザを撮影する撮像装置14と、画像を表示する出力装置15とを備える。出力装置15はテレビであってよい。情報処理装置10は、アクセスポイント(AP)17を介して、インターネットなどの外部のネットワーク2に接続される。AP17は無線アクセスポイントおよびルータの機能を有し、情報処理装置10はAP17とケーブルで接続してもよく、既知の無線通信プロトコルで接続してもよい。
 情報処理装置10は、ネットワーク2経由で、配信サーバ18と接続する。配信サーバ18は、撮影スタジオなどで撮影している画像をライブ中継するストリーミング配信装置である。実施例1で被写体はマイクを持ったレポーターであり、撮像装置19に向かってニュースを読み上げている。撮像装置19は、単一色で構成されるカラースクリーン5の前に立ち、撮像装置19に対して正対しているレポーターを撮影する。カラースクリーン5は青色や緑色などの単一色のスクリーンであってよいが、他の色であってもよい。撮像装置19で撮影された画像は、情報処理装置10においてクロマキー処理を適用されて、背景画像とクロマキー合成される。
 HMD100はユーザの頭部に装着されて映像世界をユーザに提供する。実施例1でHMD100は、配信サーバ18から提供される被写体画像をクロマキー合成した合成画像をユーザに提供する。HMD100にヘッドトラッキング機能をもたせ、ユーザの頭部の動きに連動してクロマキー合成画像を更新することで、ユーザは、好みの視線方向、視点位置から画像を見ることができる。
 情報処理装置10は、処理装置11、出力制御装置12および記憶装置13を備える。処理装置11は、配信サーバ18から配信される被写体画像を背景画像とクロマキー合成し、クロマキー合成画像をHMD100に提供する端末装置である。処理装置11と入力装置16とはケーブルで接続されてよく、また既知の無線通信プロトコルで接続されてもよい。なお実施例1の処理装置11は、HMD100の位置情報および姿勢情報を、視線位置および視線方向を変更するためのユーザの操作情報として受け付けて、HMD100に表示する画像を更新する機能をもつ。出力制御装置12は、処理装置11で生成された画像データをHMD100に出力する処理ユニットであり、出力制御装置12とHMD100とはケーブルで接続されてよく、また既知の無線通信プロトコルで接続されてもよい。
 撮像装置14はステレオカメラであって、HMD100を装着したユーザを所定の周期で撮影し、撮影画像を処理装置11に供給する。後述するがHMD100にはユーザ頭部をトラッキングするためのマーカ(トラッキング用LED)が設けられ、処理装置11は、撮影画像に含まれるマーカの位置にもとづいてHMD100の動きを検出する。なおHMD100には姿勢センサ(加速度センサおよびジャイロセンサ)が搭載され、処理装置11は、姿勢センサで検出されたセンサデータをHMD100から取得することで、マーカの撮影画像の利用とあわせて、高精度のトラッキング処理を実施する。なおトラッキング処理については従来より様々な手法が提案されており、処理装置11はHMD100の動きを検出できるのであれば、どのようなトラッキング手法を採用してもよい。
 ユーザはHMD100で画像を見るため、HMD100を装着したユーザにとって出力装置15は必ずしも必要ではないが、出力装置15を用意することで、別のユーザが出力装置15の表示画像を見ることができる。出力制御装置12または処理装置11は、HMD100を装着したユーザが見ている画像と同じ画像を出力装置15に表示させてよい。
 HMD100は、ユーザが頭部に装着することによりその眼前に位置する表示パネルに画像を表示する表示装置である。HMD100は、左目用表示パネルに左目用の画像を、右目用表示パネルに右目用の画像を、それぞれ別個に表示する。これらの画像は左右の視点から見た視差画像を構成し、立体視を実現する。なおユーザは光学レンズを通して表示パネルを見るため、情報処理装置10は、レンズによる光学歪みを補正した視差画像データをHMD100に供給する。この光学歪みの補正処理は、処理装置11、出力制御装置12のいずれが行ってもよい。
 出力制御装置12による機能は、処理装置11に組み込まれてよい。情報処理装置10の処理ユニットは、1台の処理装置11から構成されても、また処理装置11および出力制御装置12から構成されてもよい。以下、画像をHMD100に提供する機能を、まとめて情報処理装置10の機能として説明する。
 情報処理装置10は、ユーザのヘッドトラッキング処理を行うことで、ユーザ頭部(実際にはHMD100)の位置座標および姿勢を検出する。ここでHMD100の位置座標とは、基準位置を原点とした3次元空間における位置座標であり、基準位置はHMD100の電源がオンされたときの位置座標(緯度、経度)であってよい。またHMD100の姿勢とは、3次元空間における基準姿勢に対する3軸方向の傾きである。なお基準姿勢は、ユーザの視線方向が水平方向となる姿勢であり、HMD100の電源がオンされたときに基準姿勢が設定されてよい。
 情報処理装置10は、HMD100の姿勢センサが検出したセンサデータのみから、HMD100の位置座標および姿勢を検出でき、さらに撮像装置14で撮影したHMD100のマーカ(トラッキング用LED)を画像解析することで、高精度にHMD100の位置座標および姿勢を検出できる。
 図2は、HMD100の外観形状の例を示す。HMD100は、出力機構部102および装着機構部104から構成される。装着機構部104は、ユーザが被ることにより頭部を一周してHMD100を頭部に固定する装着バンド106を含む。装着バンド106はユーザの頭囲に合わせて長さの調節が可能な素材または構造をもつ。
 出力機構部102は、HMD100をユーザが装着した状態において左右の目を覆う形状の筐体108を含み、内部には装着時に目に正対する表示パネルを備える。表示パネルは液晶パネルや有機ELパネルなどであってよい。筐体108内部にはさらに、表示パネルとユーザの目との間に位置し、ユーザの視野角を拡大する左右一対の光学レンズが備えられる。HMD100はさらに、ユーザの耳に対応する位置にスピーカーやイヤホンを備えてよく、外付けのヘッドホンが接続されるように構成されてもよい。
 筐体108の外面には、発光マーカ110a、110b、110c、110dが備えられる。この例ではトラッキング用LEDが発光マーカ110を構成するが、その他の種類のマーカであってよく、いずれにしても撮像装置14により撮影されて、情報処理装置10がマーカ位置を画像解析できるものであればよい。発光マーカ110の数や配置は特に限定されないが、HMD100の姿勢や位置を検出できるための数および配置である必要があり、図示した例では筐体108の前面の4隅に設けている。さらにユーザが撮像装置14に対して背を向けたときにも撮影できるように、発光マーカ110は装着バンド106の側部や後部に設けられてもよい。
 HMD100は、情報処理装置10にケーブルで接続されても、既知の無線通信プロトコルで接続されてもよい。HMD100は、姿勢センサが検出したセンサデータを情報処理装置10に送信し、また情報処理装置10から出力された画像データを受信して、左目用表示パネルおよび右目用表示パネルに表示する。
 図3は、HMD100の機能ブロックを示す。制御部120は、画像データ、音声データ、センサデータなどの各種データや、命令を処理して出力するメインプロセッサである。記憶部122は、制御部120が処理するデータや命令などを一時的に記憶する。姿勢センサ124は、HMD100の姿勢情報を検出する。姿勢センサ124は、少なくとも3軸の加速度センサおよび3軸のジャイロセンサを含む。
 通信制御部128は、ネットワークアダプタまたはアンテナを介して、有線または無線通信により、制御部120から出力されるデータを外部の情報処理装置10に送信する。また通信制御部128は、ネットワークアダプタまたはアンテナを介して、有線または無線通信により、情報処理装置10からデータを受信し、制御部120に出力する。
 制御部120は、画像データや音声データを情報処理装置10から受け取ると、表示パネル130に供給して表示させ、また音声出力部132に供給して音声出力させる。表示パネル130は、左目用表示パネル130aと右目用表示パネル130bから構成され、各表示パネルに一対の視差画像が表示される。また制御部120は、姿勢センサ124からのセンサデータや、マイク126からの音声データを、通信制御部128から情報処理装置10に送信させる。
 図4は、実施例1における情報処理装置10の機能ブロックを示す。情報処理装置10は、外部との入出力インタフェースとして、センサデータ受信部20、カメラ画像受信部22、入力データ受信部24、画像取得部40および画像提供部52を備える。情報処理装置10は、さらにHMD情報取得部30、視線情報決定部32、受付部34、表示制御部50および背景画像保持部54を備える。
 図4において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、回路ブロック、メモリ、その他のLSIで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 センサデータ受信部20は、ユーザが装着したHMD100の姿勢センサ124から所定の周期でセンサデータを受信して、HMD情報取得部30に供給する。カメラ画像受信部22は、撮像装置14から所定の周期でHMD100を撮影した画像を受信して、HMD情報取得部30に供給する。たとえば撮像装置14は(1/60)秒ごとに前方の空間を撮影し、カメラ画像受信部22は(1/60)秒ごとにカメラ画像を受信する。実施例1においてHMD情報取得部30は、センサデータおよび撮影画像から、ユーザの頭部に装着されたHMD100の姿勢を示す姿勢情報および位置を示す位置情報を導出する。HMD情報取得部30は、導出した姿勢情報および位置情報を、視線情報決定部32に供給する。
 HMD情報取得部30は、姿勢センサ124のセンサデータから、HMD100の姿勢および位置の変化を検出する。このときHMD情報取得部30は3軸ジャイロセンサのセンサデータから、HMD100の姿勢変化を特定し、3軸加速度センサのセンサデータから位置変化を特定してよい。なおHMD情報取得部30は、トラッキング用の発光マーカ110の撮影結果をさらに利用して、姿勢変化および位置変化の検出精度を高めることが好ましい。視線情報決定部32は、HMD100の姿勢情報および位置情報に応じてユーザの視線方向および視点位置を定める。視線情報決定部32は、決定した視線方向および視点位置を、表示制御部50に提供する。
 入力データ受信部24は入力装置16から、ユーザが入力したキーデータを受信して、受付部34に供給する。受付部34は、入力装置16に入力されたユーザ操作を受け付ける。
 実施例1の情報処理装置10は、単一色の背景の前側に被写体が位置する画像を配信サーバ18から取得し、被写体画像に含まれる被写体が背景画像の前景画像となるようにクロマキー合成して、HMD100に提供する機能をもつ。この映像合成機能は、情報処理装置10にインストールされたクロマキー合成アプリケーションにより実現される。ユーザはコンテンツサーバからクロマキー合成アプリケーションを情報処理装置10に事前にダウンロードすることで、クロマキー合成アプリケーションを利用できるようになる。
 ユーザがクロマキー合成アプリケーションを起動すると、画像取得部40が、被写体画像の配信要求を配信サーバ18に送信する。配信サーバ18は、情報処理装置10からの配信要求を受けて、撮像装置19の撮影画像、ここではカラースクリーン5の前に立っていて、撮像装置19に正対している被写体(レポーター)の撮影画像を、情報処理装置10にストリーミング配信する。画像取得部40は、ストリーミング配信される被写体画像を取得し、表示制御部50に提供する。表示制御部50は、被写体画像に含まれる被写体が、背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成する。
 図5は、HMD100に表示されるクロマキー合成画像の一例を示す。背景画像保持部54は、クロマキー合成処理において背景となる画像を保持する。背景画像保持部54は様々な背景画像を保持してよい。表示制御部50は、背景画像保持部54から背景画像を読み出し、被写体画像に含まれる被写体が、読み出した背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成する。
 図5に示す例では、表示制御部50が、4階建ての建物の背景画像を背景画像保持部54から読み出し、レポーターである被写体が、建物の前でニュースをレポートするクロマキー合成画像を生成している。なお背景画像保持部54は、2次元画像である背景画像を保持するが、3次元画像である背景画像を保持していてもよい。情報処理装置10のユーザは、利用する背景画像を背景画像保持部54から任意に選択できてよい。
 なお背景画像は、配信サーバ18から提供されてもよい。特に実施例1のように、配信サーバ18が、ニュースを伝えるレポーターの画像を配信する場合には、ニュースの内容に応じて、配信サーバ18が適切な背景画像を情報処理装置10に送信してもよい。このとき画像取得部40は、被写体画像および背景画像を取得し、表示制御部50が、被写体画像に含まれる被写体が背景画像の前景画像となるようにクロマキー合成を実施してよい。
 上記した例では、配信サーバ18がニュース番組を提供しているが、たとえば実施例1の技術は、友人同士が会話をするときにも利用できる。実施例1の技術によると、情報処理装置10において背景画像を自由に設定でき、またHMD100を利用することで非常に近距離で被写体を見ることができるようになる。そこでユーザは、友人との思い出の場所を背景画像に選択して、友人との会話を楽しむこともできる。また背景画像保持部54は、実際にカメラで撮影された撮影画像を保持してよいが、コンピュータグラフィックスにより作成した画像を、背景画像として保持してもよい。
 上記したように、視線情報決定部32は、HMD100の姿勢情報および位置情報に応じて、ユーザの視線方向および視点位置を定め、表示制御部50に提供する。表示制御部50は、ユーザの視線方向および視点位置に応じて表示画像を生成する。
 実施例1では、表示制御部50が、被写体の向きを、ユーザの視点位置に対して正対するように制御する。
 図6(a)および(b)は、視点位置、被写体画像、背景画像の位置関係を説明するための図である。この説明図では、視点位置、被写体画像、背景画像を上方から俯瞰した様子を模式的に示している。ここで図6(a)は、視点位置移動前の位置関係を、図6(b)は、視点位置移動後の位置関係を表現している。
 表示制御部50は、視点位置から被写体画像に引いた垂線が被写体画像の幅方向中央を通るように、被写体画像の向きおよび位置を定める。図6(a)は視点位置移動前の様子を示しているが、図6(b)に示すように、ユーザが横方向に移動して視点位置を動かすと、表示制御部50は、被写体画像の向きを変更して、視点位置から被写体画像に引いた垂線が被写体画像の幅方向中央を通るように制御する。これにより被写体画像は、ユーザに正対するようになる。なおユーザの視点移動に対して、被写体の向きを素早く追従させるとユーザが違和感を覚えることを、発明者は知見により得た。そこで表示制御部50は、被写体をユーザの視点位置の変更に対して、僅かに遅れて正対させるように被写体の向きを変更させてもよい。
 図7は、視点位置を動かしたときのクロマキー合成画像の一例を示す。図6(b)に示すようにユーザが視点位置(HMD100の位置)を左方向にずらしてレポーターを見た場合、レポーターは、背景の建物に対して相対的に右方向に移動する。このときレポーターはユーザに正対して表示されることで、ユーザは、レポーターが自分に対して話しかけているような感覚をもつことができる。上記したように、この技術を友人同士のコミュニケーションに利用すると、お互いが正対した状態を維持できることで、親密感をもって会話できるようになる。
 実施例1では、レポーターのライブ映像を配信することを説明したが、配信する画像はライブ画像でなくてよく、撮影済のものであってもよい。この場合、情報処理装置10は、配信サーバ18から被写体画像の提供を受けてもよく、またDVDなどの記録媒体から被写体画像を提供されてもよい。
<実施例2>
 実施例2では、背景画像に対して被写体が移動する表示画像を生成するケースを説明する。
 図8は、実施例2における情報処理装置10の機能ブロックを示す。情報処理装置10は、表示制御部50、3Dモデル保持部60、3Dデータ取得部62、被写体画像保持部64および画像取得部66を備える。なお図8において、図4に示した共通の構成であるセンサデータ受信部20、カメラ画像受信部22、入力データ受信部24、HMD情報取得部30、視線情報決定部32、受付部34および画像提供部52の図示は省略している。
 図8において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、回路ブロック、メモリ、その他のLSIで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 実施例2の情報処理装置10は、3次元空間モデル内に被写体のレイヤー画像を配置した画像を生成して、HMD100に提供する機能をもつ。映像合成機能は、情報処理装置10にインストールされたクロマキー合成アプリケーションにより実現される。ここで3次元空間モデルは、現実の空間を撮影した画像を解析して空間の形状モデルを定義し、定義した形状に撮影画像(テクスチャ画像)を貼り付けることで作成される。
 実施例2では、空間の撮影画像から作成された3次元空間モデル、および被写体が単一色の背景の前側で移動する様子を撮影した被写体画像が、コンテンツ提供サーバである配信サーバ18から情報処理装置10に配信され、3Dモデル保持部60および被写体画像保持部64にそれぞれ保持される。情報処理装置10は、3Dモデル保持部60に保持された3次元空間モデル、および被写体画像保持部64に保持された被写体画像から、HMD100に提供する表示画像を生成する。なお3次元空間画像および被写体画像は、DVDなどの記録媒体から情報処理装置10に提供されてもよい。
 図9は、3次元空間モデルの一例を示す。この3次元空間モデルは実際の部屋内部をモデリングしたものであり、HMD100を装着したユーザが部屋内を観察できるように構成される。上記したように3次元の部屋内部のモデリングは、部屋内をカメラで撮影した画像を用いて行われる。撮影作業は、部屋中央にカメラを配置して、隙間なく部屋内部を撮影し、その後、撮影画像を高精度につなぎ合わせて、壁、床、天井の境界を特定して、壁、床、天井の形状をモデリングする。モデリングした形状に対して、撮影画像をテクスチャ画像として貼り付け、これにより部屋内部を表現した3次元空間モデルが作成される。3次元空間モデルは、配信サーバ18側で作成されて、情報処理装置10に配信されてよい。
 なお部屋の内部空間が直方体のような単純な形状であれば、部屋中央に配置したカメラの向きを変えて隙間なく撮影することで、モデリングに十分な撮影画像を用意できるが、たとえば部屋の形状によっては一つのカメラ位置からでは撮影できないような領域(死角)が存在することもある。そのような場合は、カメラ位置を動かして、死角を撮影し、撮影画像をつなぎ合わせることで、空間の形状モデリングを高精度に実施することが好ましい。
 図10は、3次元空間モデルに配置されるオブジェクト200の例を示す。このオブジェクト200は4脚の机であり、3次元空間モデルにおける位置情報を定義されたレイヤー画像として作成される。実施例2では、机のない状態で撮影した部屋内画像と、机を配置した状態で撮影した部屋内画像の差分から、机画像を抜き出して、部屋内における位置情報を属性情報として有するレイヤー画像が作成される。実施例2において、3Dモデル保持部60は、3次元空間モデルに加えて、オブジェクト200のレイヤー画像も保持するものとする。
 図11は、被写体画像を説明するための図である。被写体画像は、3次元空間モデルを作成するために撮影された同じ部屋の中を実際に移動する被写体を撮影した動画像である。図11では、撮像装置19が、奥側の壁に沿って一人の被写体が左から右に移動している様子を撮影している。撮像装置19を3次元空間モデル作成用の部屋内画像を作成したときと同じ位置に配置することで、3次元空間モデルにおける被写体の位置情報の設定が容易となるが、別の位置から被写体を撮影して、3次元空間モデルにおける被写体の位置情報を別途定義してもよい。
 被写体の撮影時、部屋からは実オブジェクトである机は取り除かれ、被写体は、机が配置される場所と、奥側の壁の間を移動し、机が配置されていた場所は歩かないようにする。なお被写体の背景を構成する奥側の壁には、クロマキー合成を行うために、青色や緑色などの単一色のシートが被せられており、したがって被写体画像は、クロマキー処理により被写体を抜き出せる画像となっている。被写体画像保持部64は、被写体画像を保持する。
 ユーザがクロマキー合成アプリケーションを起動すると、3Dデータ取得部62が、3Dモデル保持部60から3次元空間モデルを取得し、表示処理部72に提供する。また画像取得部66が、被写体画像保持部64から動画像である被写体画像を取得し、被写体レイヤー画像生成部70に提供する。表示処理部72は、3次元空間モデルで構成される部屋の画像に、被写体が移動する様子を合成した表示画像を生成する。
 まず被写体レイヤー画像生成部70は、被写体画像に含まれる被写体の移動に合わせて動く仮想スクリーンを設定する。仮想スクリーンは、被写体画像の中で、被写体を少なくとも包含する大きさをもつ。被写体レイヤー画像生成部70は、仮想スクリーンに被写体画像を投影し、クロマキー処理を適用して被写体部分を抜き取り、被写体レイヤー画像を生成する処理を行う。被写体レイヤー画像生成部70は、被写体画像に含まれる被写体の位置に応じて、被写体画像を投影する仮想スクリーンの向きを定める。
 図12は、被写体レイヤー画像を生成する処理を説明するための図である。図12には、被写体レイヤー画像生成部70が被写体の位置に応じて、被写体画像を投影する仮想スクリーン202a、202b、202c(以下、代表する場合は「仮想スクリーン202」と呼ぶ)を設定する様子を示している。図12に示す仮想スクリーン202は、鉛直方向に延びる平板(起立面)および足元で水平に広がる平板とを組み合わせているが、人の立体感を出すために起立面には凹凸が付与されてもよい。
 被写体レイヤー画像生成部70は、撮像装置19の位置(カメラ位置)と被写体位置の関係に応じて、仮想スクリーン202の向きを定める。ここではカメラ位置と被写体を結ぶ線が仮想スクリーン202aの起立面の垂線となるように、仮想スクリーン202の向きが定められている。実施例2では、ユーザには、3次元空間モデル内のカメラ位置近傍で部屋内を見渡すような画像が提供されるが、ユーザは、カメラ位置から移動して、異なる視点位置から被写体を見ることができる。カメラ位置に対して、被写体を投影された仮想スクリーン202を正対させることで、情報処理装置10は、ユーザがカメラ位置から多少移動した場合であっても、違和感のない表示画像をHMD100に提供できる。
 表示処理部72は、3Dデータ取得部62から3次元空間モデルを提供され、被写体に対する背景画像を作成する。
 図13は、奥側の壁と机の間のスペースを、被写体が移動する様子を示す。表示処理部72は、3次元空間モデルおよびオブジェクト200のレイヤー画像を用いて、部屋内の画像を生成するとともに、仮想スクリーン202に被写体を投影して、仮想スクリーン202を3次元空間内で動かすことで、被写体が、机と奥の壁の間を移動する動画像を生成する。このとき表示処理部72は、3次元空間モデル内に被写体レイヤー画像およびオブジェクトレイヤー画像を配置して、ユーザの視点位置に応じた表示画像を生成するが、オブジェクト200のレイヤー画像を被写体レイヤー画像の手前に配置することで、被写体の一部が机で遮蔽される様子を表現できる。
 視線情報決定部32は、HMD100の姿勢情報および位置情報に応じて、ユーザの視線方向および視点位置を定め、表示処理部72に提供する。表示処理部72は、ユーザの視線方向および視点位置に応じて表示画像を生成する。表示処理部72は、3次元空間におけるユーザの初期位置を、撮像装置19を配置した位置に定めてよいが、視点位置の移動により、オブジェクト200および被写体と3次元空間モデルとの相対的位置関係が変化する。このとき被写体の仮想スクリーン202が、基本的にはユーザの初期視点位置に正対しているため、そこから視点位置が若干動いた場合であっても、表示処理部72は、違和感ない表示画像を生成することができる。
 以上、本発明を複数の実施例をもとに説明した。実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 実施例1,2では、1人の被写体画像を背景画像に合成したが、複数の被写体画像を背景画像に合成してもよい。
1・・・情報処理システム、20・・・センサデータ受信部、22・・・カメラ画像受信部、24・・・入力データ受信部、30・・・HMD情報取得部、32・・・視線情報決定部、34・・・受付部、40・・・画像取得部、50・・・表示制御部、52・・・画像提供部、54・・・背景画像保持部、60・・・3Dモデル保持部、62・・・3Dデータ取得部、64・・・被写体画像保持部、66・・・画像取得部、70・・・被写体レイヤー画像生成部、72・・・表示処理部、100・・・HMD。
 本発明は、クロマキー合成画像を生成する技術に利用できる。

Claims (12)

  1.  被写体が単一色の背景の前側に位置する被写体画像を取得する画像取得部と、
     被写体画像に含まれる被写体が、背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成する表示制御部と、を備え、
     前記表示制御部は、視点位置に変更があった場合に、ユーザの視点位置に対して被写体を正対させるように被写体の向きを定める、
     ことを特徴とする情報処理装置。
  2.  前記表示制御部は、被写体をユーザの視点位置の変更に対して、僅かに遅れて正対させるように、被写体の向きを変更させる、
     ことを特徴とする請求項1に記載の情報処理装置。
  3.  前記画像取得部は、ストリーミング配信される被写体画像を取得する、
     ことを特徴とする請求項1または2に記載の情報処理装置。
  4.  ユーザの頭部に装着されたヘッドマウントディスプレイの姿勢情報および位置情報を取得するHMD情報取得部と、
     ヘッドマウントディスプレイの姿勢情報および位置情報に応じて、視線方向および視点位置を定める視線情報決定部と、を備え、
     前記表示制御部は、視線方向および視点位置に応じて表示画像を生成する、
     ことを特徴とする請求項1から3のいずれかに記載の情報処理装置。
  5.  被写体が単一色の背景の前側に位置する被写体画像を取得するステップと、
     被写体画像に含まれる被写体が、背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成するステップと、
     ユーザの視点位置に変更があった場合に、ユーザの視点位置に対して被写体を正対させるように被写体の向きを動かして表示画像を生成するステップと、
     を有することを特徴とする画像生成方法。
  6.  コンピュータに、
     被写体が単一色の背景の前側に位置する被写体画像を取得する機能と、
     被写体画像に含まれる被写体が、背景画像の前景画像となるようにクロマキー合成を実施して、ユーザの視点位置に応じた表示画像を生成する機能と、
     ユーザの視点位置に変更があった場合に、ユーザの視点位置に対して被写体を正対させるように被写体の向きを動かして表示画像を生成する機能と、
     を実現させるためのプログラム。
  7.  空間の撮影画像から作成された3次元空間モデルを取得する3次元データ取得部と、
     被写体が単一色の背景の前側で移動する被写体画像を取得する画像取得部と、
     被写体画像に含まれる被写体の移動に合わせて動く仮想スクリーンに被写体画像を投影し、クロマキー処理を適用して被写体部分を抜き取る被写体レイヤー画像生成部と、
     3次元空間モデル内に被写体レイヤー画像を配置して、ユーザの視点位置に応じた表示画像を生成する表示処理部と、を備える、
     ことを特徴とする情報処理装置。
  8.  被写体レイヤー画像生成部は、被写体画像に含まれる被写体の位置に応じて、被写体画像を投影する仮想スクリーンの向きを定める、
     ことを特徴とする請求項7に記載の情報処理装置。
  9.  被写体画像は、3次元空間モデルを作成するために撮影された空間内を移動する被写体を撮影した画像である、
     ことを特徴とする請求項7または8に記載の情報処理装置。
  10.  ユーザの頭部に装着されたヘッドマウントディスプレイの姿勢情報および位置情報を取得するHMD情報取得部と、
     ヘッドマウントディスプレイの姿勢情報および位置情報に応じて、視線方向および視点位置を定める視線情報決定部と、を備え、
     前記表示制御部は、視線方向および視点位置に応じて表示画像を生成する、
     ことを特徴とする請求項7から9のいずれかに記載の情報処理装置。
  11.  空間の撮影画像から作成された3次元空間モデルを取得するステップと、
     被写体が単一色の背景の前側で移動する被写体画像を取得するステップと、
     被写体画像に含まれる被写体の移動に合わせて動く仮想スクリーンに被写体画像を投影するステップと、
     被写体画像を投影した仮想スクリーンにクロマキー処理を適用して被写体部分を抜き取るステップと、
     3次元空間モデル内に被写体を配置して、ユーザの視点位置に応じた表示画像を生成するステップと、
     を有することを特徴とする画像生成方法。
  12.  コンピュータに、
     空間の撮影画像から作成された3次元空間モデルを取得する機能と、
     被写体が単一色の背景の前側で移動する被写体画像を取得する機能と、
     被写体画像に含まれる被写体の移動に合わせて動く仮想スクリーンに被写体画像を投影する機能と、
     被写体画像を投影した仮想スクリーンにクロマキー処理を適用して被写体部分を抜き取る機能と、
     3次元空間モデル内に被写体を配置して、ユーザの視点位置に応じた表示画像を生成する機能と、
     を実現させるためのプログラム。
PCT/JP2017/041324 2017-11-16 2017-11-16 情報処理装置および画像生成方法 WO2019097639A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019554119A JP6916896B2 (ja) 2017-11-16 2017-11-16 情報処理装置および画像生成方法
US16/759,655 US11310472B2 (en) 2017-11-16 2017-11-16 Information processing device and image generation method for projecting a subject image onto a virtual screen
PCT/JP2017/041324 WO2019097639A1 (ja) 2017-11-16 2017-11-16 情報処理装置および画像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/041324 WO2019097639A1 (ja) 2017-11-16 2017-11-16 情報処理装置および画像生成方法

Publications (1)

Publication Number Publication Date
WO2019097639A1 true WO2019097639A1 (ja) 2019-05-23

Family

ID=66538701

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/041324 WO2019097639A1 (ja) 2017-11-16 2017-11-16 情報処理装置および画像生成方法

Country Status (3)

Country Link
US (1) US11310472B2 (ja)
JP (1) JP6916896B2 (ja)
WO (1) WO2019097639A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003219382A (ja) * 2002-01-25 2003-07-31 Megafusion Corp 遠隔教育システム用サーバ及び遠隔教育システム
JP2012104021A (ja) * 2010-11-12 2012-05-31 Konami Digital Entertainment Co Ltd 画像処理装置、画像処理プログラム、及び画像処理方法
WO2014091824A1 (ja) * 2012-12-10 2014-06-19 ソニー株式会社 表示制御装置、表示制御方法およびプログラム
JP2017097122A (ja) * 2015-11-20 2017-06-01 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および画像生成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2709060B1 (en) * 2012-09-17 2020-02-26 Apple Inc. Method and an apparatus for determining a gaze point on a three-dimensional object
US10268438B2 (en) * 2016-06-30 2019-04-23 Sony Interactive Entertainment Inc. Display screen front panel of HMD for viewing by users viewing the HMD player
US11778154B2 (en) * 2017-08-09 2023-10-03 Apple Inc. Low latency chroma keying embedded in a head-mounted display for mixed reality

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003219382A (ja) * 2002-01-25 2003-07-31 Megafusion Corp 遠隔教育システム用サーバ及び遠隔教育システム
JP2012104021A (ja) * 2010-11-12 2012-05-31 Konami Digital Entertainment Co Ltd 画像処理装置、画像処理プログラム、及び画像処理方法
WO2014091824A1 (ja) * 2012-12-10 2014-06-19 ソニー株式会社 表示制御装置、表示制御方法およびプログラム
JP2017097122A (ja) * 2015-11-20 2017-06-01 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および画像生成方法

Also Published As

Publication number Publication date
US11310472B2 (en) 2022-04-19
JP6916896B2 (ja) 2021-08-11
US20200336717A1 (en) 2020-10-22
JPWO2019097639A1 (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
US9959676B2 (en) Presentation of enhanced communication between remote participants using augmented and virtual reality
EP3712840A1 (en) Method and system for generating an image of a subject in a scene
US10602121B2 (en) Method, system and apparatus for capture-based immersive telepresence in virtual environment
US10681276B2 (en) Virtual reality video processing to compensate for movement of a camera during capture
US20220264068A1 (en) Telepresence system and method
WO2018056155A1 (ja) 情報処理装置、画像生成方法およびヘッドマウントディスプレイ
KR20190112712A (ko) 헤드 마운트 디스플레이(hmd)를 이용한 화상회의를 위한 개선된 방법 및 시스템
WO2019039378A1 (ja) 情報処理装置および画像表示方法
JP2019087226A (ja) 情報処理装置、情報処理システムおよび表情画像出力方法
JP7456034B2 (ja) 複合現実表示装置および複合現実表示方法
JP2018033107A (ja) 動画の配信装置及び配信方法
JP6518645B2 (ja) 情報処理装置および画像生成方法
JP6916896B2 (ja) 情報処理装置および画像生成方法
KR20200115631A (ko) 멀티뷰잉 가상 현실 사용자 인터페이스
WO2017163649A1 (ja) 画像処理装置
JP2020530218A (ja) 没入型視聴覚コンテンツを投影する方法
JP6091850B2 (ja) テレコミュニケーション装置及びテレコミュニケーション方法
JP6921204B2 (ja) 情報処理装置および画像出力方法
WO2017092369A1 (zh) 一种头戴设备、三维视频通话系统和三维视频通话实现方法
JP5924833B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム、及び撮像装置
JP2005064681A (ja) 撮像・表示装置、撮像・表示システム、映像生成方法、この方法のプログラム、およびこのプログラムを記録した記録媒体
WO2022255058A1 (ja) 情報処理装置および画像生成方法
WO2024042929A1 (ja) 情報処理装置および画像生成方法
US20220337805A1 (en) Reproduction device, reproduction method, and recording medium
JP2024031113A (ja) 情報処理装置および画像生成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17931860

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019554119

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17931860

Country of ref document: EP

Kind code of ref document: A1