WO2011148449A1 - 映像処理装置、映像処理方法、および映像通信システム - Google Patents
映像処理装置、映像処理方法、および映像通信システム Download PDFInfo
- Publication number
- WO2011148449A1 WO2011148449A1 PCT/JP2010/007616 JP2010007616W WO2011148449A1 WO 2011148449 A1 WO2011148449 A1 WO 2011148449A1 JP 2010007616 W JP2010007616 W JP 2010007616W WO 2011148449 A1 WO2011148449 A1 WO 2011148449A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- unit
- glasses
- face
- subject
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/332—Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
- H04N13/341—Displays for viewing with the aid of special glasses or head-mounted displays [HMD] using temporal multiplexing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Definitions
- the present invention relates to a video processing device, a video processing method, and a video communication system.
- the present invention has been made in view of such a situation, and an object thereof is to provide a new field of use of glasses for observing stereoscopic images.
- an aspect of the present invention is a video processing apparatus.
- This apparatus captures an object including a face of a person wearing glasses for observing a stereoscopic image including a first parallax image and a second parallax image when the object in a three-dimensional space is viewed from different viewpoints.
- An imaging unit a spectacle specifying unit that specifies the glasses from the video of the subject imaged by the imaging unit, Based on the spectacles identified by the eyeglass identification unit, a face detection unit that detects a human face area from the subject image captured by the imaging unit, and a human face area detected by the face detection unit
- an augmented reality presentation unit for adding features.
- This system is a video communication system that includes at least two of the above-described video processing devices, and the video processing devices are communicably connected to each other through a communication line.
- Still another aspect of the present invention is a video processing method.
- a subject including a face of a person wearing glasses for observing a stereoscopic image including a first parallax image and a second parallax image when the subject in a three-dimensional space is viewed from different viewpoints is imaged.
- a step of identifying the glasses from the captured subject image a step of detecting a human face region from the captured subject image based on the spectacles, and a virtual image of the detected human face region. Adding a special feature to the processor.
- FIG. 1 is a diagram showing an overview of a video processing system according to an embodiment. It is a figure which shows the relationship between the timing of the shutter of 3D glasses, and the timing of lighting of the backlight in a 3D television. It is a figure which shows typically the function structure of the video processing apparatus which concerns on embodiment.
- FIG. 4A is a diagram showing an image when the shutters of the left and right lenses of the three-dimensional glasses are closed.
- FIG. 4B is a diagram illustrating an image when the shutter of the right-eye lens of the three-dimensional glasses is closed and the shutter of the left-eye lens is open.
- FIG. 4C is a diagram showing an image when the shutter of the left eye lens of the three-dimensional glasses is closed and the shutter of the right eye lens is open.
- FIG. 4A is a diagram showing an image when the shutters of the left and right lenses of the three-dimensional glasses are closed.
- FIG. 4B is a diagram illustrating an image when the shutter of the right-eye lens of the three-dimensional glasses
- FIG. 4D is a diagram illustrating a result of extracting a user's face area using a lens area of three-dimensional glasses as a starting point.
- FIG. 5A is a diagram showing facial expression areas near the eyes and mouth where human facial expressions are likely to appear.
- FIG. 5B is a diagram showing feature points of the facial expression area shown in FIG. It is a figure explaining operation
- an image including a face of a person wearing glasses for observing a stereoscopic image is acquired, and the face area of the person is detected using the glasses as a landmark. Centering on the detected face area, an augmented reality effect is added to add virtual features.
- FIG. 1 is a diagram showing an overview of a video processing system 100 according to the embodiment.
- the video processing system 100 includes a stereo camera 200, a video processing device 300, a three-dimensional television 400, and three-dimensional glasses 500 for observing a stereoscopic video displayed on the three-dimensional television 400.
- the stereo camera 200 includes a first camera 202 and a second camera 204 for capturing an image of a user who is a subject from different viewpoints.
- a parallax image an image when the subject in the three-dimensional space is viewed from different viewpoints.
- the human brain is said to recognize the depth of an object using parallax images perceived by the left and right eyes. For this reason, when a parallax image perceived by the left eye and a parallax image perceived by the right eye are projected on the respective eyes, a human is recognized as a stereoscopic video having a depth.
- a video including a parallax image for the left eye and a parallax image for the right eye when the subject in the three-dimensional space is viewed from different viewpoints is simply referred to as “stereoscopic video”.
- the stereo camera 200 can be realized by using an individual image sensor such as a CCD (Charge-Coupled Device) or a CMOS (Complementary Metal-Oxide Semiconductor).
- the video processing device 300 processes the video of the subject imaged by the stereo camera 200. Details of the video processing apparatus 300 will be described later.
- the 3D television 400 displays the stereoscopic video generated by the video processing device 300. By wearing the 3D glasses 500, the user can recognize the video displayed on the 3D television 400 as a stereoscopic video having a depth.
- a parallax image for the left eye and a parallax image for the right eye are alternately displayed.
- a description will be given by taking an example of a three-dimensional television in which the display is divided.
- the 3D television 400 alternately presents the left-eye parallax image and the right-eye parallax image generated by the video processing device 300 in a time-sharing manner.
- the video processing apparatus 300 transmits the display timing of the parallax image of the 3D television 400 to the 3D glasses 500 as a synchronization signal.
- the three-dimensional glasses 500 shutter the left and right lenses according to the received synchronization signal.
- the shutter can be realized by using, for example, a known liquid crystal shutter technique.
- the three-dimensional glasses 500 shield the video entering the user's right eye by closing the shutter of the right eye lens.
- the 3D television 400 displays a parallax image for the left eye
- the parallax image for the left eye is projected only to the left eye of the user.
- the three-dimensional television 400 displays a right-eye parallax image
- the right-eye parallax image is projected only to the user's right eye by the three-dimensional glasses 500 closing the shutter of the left-eye lens.
- FIG. 1 illustrates a case where the video processing device 300 and the 3D television 400 are different devices, and the video processing device 300 is, for example, a stationary game machine. All or some of the functions of the video processing device 300 may be incorporated as part of the three-dimensional television 400.
- FIG. 2 is a diagram showing the relationship between the shutter timing of the three-dimensional glasses 500 and the display timing of the parallax image on the three-dimensional television 400.
- FIG. 2 shows that the backlight of the display panel of the three-dimensional television 400 is turned on at the same time as the shutter of the right eye of the three-dimensional glasses 500 is opened for a predetermined time (for example, 10 milliseconds) at time 2t.
- a predetermined time for example, 10 milliseconds
- the backlight of the display panel of the three-dimensional television 400 is turned on for the same period as the shutter of the left eye of the three-dimensional glasses 500 is opened for a predetermined time.
- the right eye shutter and left eye shutter of the 3D glasses 500 are closed, and the backlight of the display panel of the 3D television 400 is turned off.
- the 3D television 400 displays the right-eye parallax image and presents the right-eye parallax image to the user's right eye
- the 3D television 400 displays the left-eye parallax image and the user's left eye.
- FIG. 3 is a diagram schematically illustrating a functional configuration of the video processing apparatus 300 according to the embodiment.
- the video processing apparatus 300 includes a left-eye video generation unit 302, a right-eye video generation unit 304, a glasses specification unit 306, a face detection unit 308, a feature point detection unit 310, a three-dimensional model generation unit 312, an augmented reality presentation unit 314, and a stereoscopic video generation A unit 316 and an output unit 318.
- the left-eye video generation unit 302 converts the information acquired from the first camera 202 into an image, and generates a left-eye parallax image.
- the right-eye video generation unit 304 converts the information acquired from the second camera 204 into an image, and generates a right-eye parallax image.
- the eyeglass identification unit 306 identifies the three-dimensional glasses 500 from the subject images captured by the stereo camera 200 and imaged by the left-eye image generation unit 302 and the right-eye image generation unit 304, respectively.
- the present embodiment employs shutter glasses in which shutters are applied to the left and right lenses in accordance with the synchronization signal received from the video processing device 300.
- the spectacles specifying unit 306 includes a shutter region specifying unit 320 and a frame specifying unit 322.
- the 3D glasses 500 shield the image projected on the user's eyes by alternately closing the lens shutters in a time-sharing manner. This means that in the image of the face of the user wearing the 3D glasses 500, the user's eyes seen through the left and right lenses of the 3D glasses 500 are alternately shielded in a time-division manner and cannot be imaged. means. Accordingly, the shutter area specifying unit 320 detects, as a lens area, an area in which the passage of the subject image is blocked from the image of the subject including the face of the user wearing the three-dimensional glasses 500, and thereby the three-dimensional glasses 500. Is identified.
- the frame specifying unit 322 tracks and specifies the glasses frame of the three-dimensional glasses 500, starting from the lens region specified by the shutter region specifying unit 320.
- the face detection unit 308 detects the face of the user using the eyeglass region specified by the glasses specification unit 306 as a starting point.
- the lens region of the three-dimensional glasses 500 can be specified as a landmark.
- the lens area is larger than the size of the human face and can be detected stably and at high speed.
- the lens has a two-dimensional spread, so that it can be detected stably and at high speed.
- FIG. 4 is a diagram showing an image of the face portion of the user wearing the three-dimensional glasses 500 and the user's face area extracted based on the shutter area.
- FIG. 4A is a diagram showing an image when the shutters of the left and right lenses of the three-dimensional glasses 500 are closed.
- FIG. 4B is a diagram showing an image when the shutter of the right-eye lens of the three-dimensional glasses 500 is closed and the shutter of the left-eye lens is open.
- FIG. 4C is a diagram illustrating an image when the shutter of the lens for the left eye of the three-dimensional glasses 500 is closed and the shutter of the lens for the right eye is open.
- FIG. 4D is a diagram illustrating a result of extracting a user's face area using the lens area of the three-dimensional glasses 500 as a starting point. In each figure of FIG. 4, the hatched area is the area where the shutter is closed.
- the shutter area specifying unit 320 displays an image when the left and right lens shutters of the three-dimensional glasses 500 are closed as shown in FIG. 4A and the right eye of the three-dimensional glasses 500 shown in FIG.
- the pixel difference from the image when the shutter of the lens for the lens is closed and the shutter of the lens for the left eye is open is calculated. Since there is a big difference between the two in the lens area for the left eye, the difference value of the pixels in this area becomes large. Therefore, the shutter area specifying unit 320 specifies an area having a large difference value of s as a lens area for the left eye.
- the shutter area specifying unit 320 also displays an image when the left and right lens shutters of the three-dimensional glasses 500 are closed as shown in FIG.
- the shutter area specifying unit 320 can specify the lens area for the right eye.
- the frame specifying unit 322 can specify the frame of the three-dimensional glasses 500 by tracking the edges connected to the regions. Further, if the lens area of the three-dimensional glasses 500 can be specified, both eyes of the user can be specified, and therefore the approximate size of the user's face can be estimated from the distance between both eyes.
- the face detection unit 308 can specify the user's face area by detecting the skin color area and the edge using the lens area of the three-dimensional glasses 500 as a starting point.
- FIG. 5 is a diagram showing a facial expression area of a person and feature points of the facial expression area.
- FIG. 5A is a diagram showing facial expression areas near the eyes and mouth where human facial expressions are likely to appear.
- FIG. 5A shows a facial expression area 334a near the eyes, collectively called a facial expression area 334, and a facial expression area 334b near the mouth.
- the expression area 334 is an area in which a person's emotion (for example, anger, embarrassment, laughter, etc.) tends to appear, and is used to produce augmented reality (AR) to be described later.
- AR augmented reality
- FIG. 5B is a diagram showing feature points (generically referred to by reference numeral 334) of the facial expression area 334 shown in FIG.
- the characteristic points include, for example, eyebrows (reference numerals 336a and 336d), eyebrows (reference numerals 336b and 336c), eye corners (reference numerals 336e and 336g), eyes (reference numerals 336f and 336h), mouth corners (reference numerals 336i and 336k), upper lip A central portion 336j, a lower lip central portion 336l, a jaw 336m, a pupil center, and the like.
- These feature points are used when the depth information of the user's face is calculated using the augmented reality effect described later, the user's face orientation, facial expression analysis, and the principle of triangulation.
- the feature point detection unit 310 detects the feature points shown in FIG. 5B based on the user's face area detected by the face detection unit 308. This can be realized by using a general-purpose technique such as edge detection.
- the 3D model generation unit 312 maps the user's face to a general-purpose human face 3D model. For example, a facial wire frame model composed of a plurality of polygons or the like is used to map the feature points detected by the feature point detection unit 310 to the vertices of the polygons, and then the face area detected by the face detection unit 308 is mapped. This can be achieved by texture mapping.
- the three-dimensional model may be generated by calculating the depth information of the user's face from the feature points using the principle of triangulation.
- the image of the user's face area detected by the face detection unit 308 may be referred to as “expression image”
- the feature point of the user's face detected by the feature point detection unit 310 may be referred to as “expression data”.
- the augmented reality presentation unit 314 adds a virtual feature to the face area of the person detected by the face detection unit and the surrounding area.
- augmented reality refers to various virtual features in the real space by projecting the three-dimensional model onto the real space projected on the three-dimensional television 400 worn with the three-dimensional glasses 500. It is a general term for the concept of adding and the technology for realizing it.
- the augmented reality rendering unit 314 adds various augmented reality based on the three-dimensional model of the user's face generated by the three-dimensional model generating unit 312. Therefore, the augmented reality effect unit 314 includes a background effect unit 326, a mirror image generation unit 328, an imaging position correction unit 330, a face effect unit 332, and an effect control unit 324 that controls the operations of these units.
- the background effect unit 326 performs an augmented reality effect on the background region, which is a region other than the user's face detected by the face detection unit 308 and modeled by the three-dimensional model generation unit 312. For example, the background area is replaced with another image, or the background area is blurred.
- the video processing system 100 can be used as, for example, a videophone by connecting to another video processing system 100 via a network.
- the stereo camera 200 is usually installed in the user's home, but it may not be preferable to transmit the state in the home as it is.
- the background effect unit 326 can prevent the situation in the home from being transmitted as it is by replacing the background area with another image or blurring the background area.
- FIG. 6 is a diagram for explaining the operation of the imaging position correction unit 330 according to the embodiment. Since the user normally views the 3D television 400 from the front, the stereo camera 200 cannot be installed at a position where the user is imaged from the front (reference numeral 216 in FIG. 6). It is installed at the lower part (reference numeral 212 in FIG. 6). In this case, the video of the user acquired by the stereo camera 200 is a video when looking down at the user or a video when looking up at the user.
- the imaging position correction unit 330 can generate an image when the user is imaged from an arbitrary direction. Therefore, the imaging position correction unit 330 generates an image when the user is imaged from the front direction based on the three-dimensional model of the user's face generated by the three-dimensional model generation unit 312. As a result, the user can observe an image when his / her face is imaged from the front. Also, when making a videophone call, the other party can see the video of the user's face taken from the front and can make eye contact with each other. Compared with, it is possible to reduce the sense of incongruity when talking.
- the face rendering unit 332 removes the 3D glasses 500 specified by the glasses specifying unit 306, and generates a face image when the user does not wear the 3D glasses 500.
- the face production unit 332 also performs image processing such as applying makeup to the user's face or making the skin beautiful.
- the face production unit 332 performs disguise by image processing such as replacing the user's face with another person's face or a character such as an animal. In this way, the face rendering unit 332 performs the augmented reality effect on the user's face considered to be an important subject. This is advantageous in that it can provide an extraordinary presentation to the user.
- FIG. 7 is a diagram illustrating an example of a disguise effect by the face effect unit 332.
- the face rendering unit 332 matches the feature point detected by the feature point detection unit 310 with a dog image and its feature point (not shown) prepared in advance, thereby representing the user's face. Produce a dog face.
- the mirror image generation unit 328 generates a 3D model when the user is reflected in the mirror based on the 3D model of the user's face detected by the face detection unit 308 and generated by the 3D model generation unit 312.
- the user can observe his / her face with augmented reality as a mirrored image before transmitting the videophone.
- you can confirm the appearance of the augmented reality effect before entering the cyber world, and feel the transition from daily sight to extraordinary. can do.
- FIG. 8 is a diagram illustrating an example of a mirror image generated by the mirror image generation unit 328 based on the image obtained by removing the three-dimensional glasses 500 by the face effect unit 332.
- the actual user wears the three-dimensional glasses 500, but the screen when the three-dimensional glasses 500 are not worn is presented on the screen of the three-dimensional television 400.
- a mirror image of an actual user is presented on the screen of the three-dimensional television 400.
- the user can directly display the image wearing the 3D glasses 500 on the 3D television 400 or send it to the other party. Not necessarily what you want. Rather, in a videophone using augmented reality, the user is not so active in projecting and transmitting the video as it is, and may wish to give an extraordinary presentation to the video. is there.
- the three-dimensional model generation unit 312 since the three-dimensional model generation unit 312 generates a three-dimensional model of the user's face, it is possible to give extraordinary effects to the video using various augmented reality.
- the 3D glasses 500 can be used for face detection processing as preprocessing for generating a 3D model. This is because it is guaranteed that the user wears the three-dimensional glasses 500.
- the effect control unit 324 receives an instruction from the user via a user interface such as a remote controller (not shown), and controls the effects of each unit in the augmented reality effect unit 314.
- a user interface such as a remote controller (not shown)
- the augmented reality rendering unit 314 may have a function of adding other augmented reality, for example, displaying characters using a “speech balloon” near the user's face.
- the stereoscopic video generation unit 316 is based on the user's 3D model generated by the 3D model generation unit 312 or the user's 3D model produced by the augmented reality rendering unit 314 in a virtual 3D space.
- a stereoscopic video including a parallax image for the left eye and a parallax image for the right eye when the user's three-dimensional model is viewed from different viewpoints is generated.
- the output unit 318 outputs the stereoscopic video generated by the stereoscopic video generation unit 316 to the 3D television 400 or transmits it to another video processing system 100 via a network such as the Internet.
- FIG. 3 shows a functional configuration for realizing the video processing apparatus 300 according to the embodiment, and other configurations are omitted.
- each element described as a functional block for performing various processes can be configured by a CPU, a main memory, and other LSIs in terms of hardware, and loaded into the main memory in terms of software. It is realized by the program. Accordingly, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
- FIG. 9 is a flowchart showing a processing procedure for realizing extension in the video processing apparatus 300 according to the embodiment.
- the processing procedure of each part is displayed by a combination of S (acronym for Step) meaning a step and a number.
- S acronym for Step
- the processing in this flowchart starts when the left-eye video generation unit 302 and the right-eye video generation unit 304 visualize the output of the stereo camera 200.
- the left-eye video generation unit 302 and the right-eye video generation unit 304 visualize the subject including the user's face with the three-dimensional glasses 500 output from the stereo camera 200 (S10).
- the glasses specifying unit 306 specifies the three-dimensional glasses 500 from the video of the subject imaged by the left eye video generating unit 302 and the right eye video generating unit 304 (S12).
- the face detection unit 308 determines the user's face area from the subject image including the user's face imaged by the left eye image generation unit 302 and the right eye image generation unit 304 based on the 3D glasses specified by the eyeglass specification unit 306. Detect (S14).
- the feature point detection unit 310 detects feature points from the user's face area detected by the face detection unit 308 (S16).
- the 3D model generation unit 312 generates a 3D model of the user's face based on the user's face area detected by the face detection unit 308 and the feature points detected by the feature point detection unit 310 (S18).
- the augmented reality rendering unit 314 performs augmented reality based on the 3D model of the user's face generated by the 3D model generating unit 312 (S20).
- the stereoscopic video generation unit 316 is a user in a virtual three-dimensional space based on the user's three-dimensional model generated by the three-dimensional model generation unit 312 or the user's three-dimensional model produced by the augmented reality presentation unit 314.
- a three-dimensional image including a left-eye parallax image and a right-eye parallax image when the three-dimensional model is viewed from different viewpoints is generated (S22).
- the output unit 318 outputs the stereoscopic video generated by the stereoscopic video generation unit 316 to an external device such as the 3D television 400 (S24).
- the processing in this flowchart ends.
- FIG. 10 is a diagram schematically showing a three-dimensional videophone system 700 according to the embodiment.
- the three-dimensional videophone system 700 is a video communication system in which at least two video processing systems 100 are communicably connected via a communication line 600.
- a first video processing system 100a including a first stereo camera 200a, a first video processing device 300a, and a first three-dimensional television 400a, a second stereo camera 200b, and a second
- the video processing apparatus 300b and the second video processing system 100b including the second three-dimensional television 400b are connected to each other through a communication line 600 such as the Internet.
- FIG. 11 is a diagram illustrating a usage example of the three-dimensional videophone system 700 according to the embodiment.
- the first stereo camera 200a images a subject including the face of the first user 800 wearing the three-dimensional glasses 500a.
- the video captured by the first stereo camera 200a is subjected to various augmented reality effects such as eyeglass removal and imaging position correction in the first video processing device 300a in FIG. Is transmitted to the three-dimensional television 400b.
- the second user 900 can view the stereoscopic video sent from the first video processing device 300a by wearing the three-dimensional glasses 500b and watching the second three-dimensional television 400b.
- the second user can wear the second three-dimensional television 400b even if the first user 800 wears the three-dimensional glasses 500a.
- the three-dimensional glasses 500a are removed from the image of the first user 800 shown in FIG.
- the video of the second user 900 wearing the three-dimensional glasses 500b is also transmitted to the first three-dimensional television 400a that the first user 800 appreciates after the augmented reality effect has been given.
- the user can execute a video chat with an image provided with augmented reality.
- FIG. 12 is a diagram illustrating a transmission frequency according to the type of information transmitted in the three-dimensional videophone system 700 according to the embodiment.
- the stereoscopic video generated on the transmission side is converted into a stereoscopic video transmission format such as MVC (Multiview Video Coding) and then transmitted.
- MVC Multiview Video Coding
- 3D glasses are used as landmarks to generate a 3D model of a face with high accuracy and stability, or to separate rendering materials such as background images and facial expression images. It becomes possible to do. Therefore, in the present embodiment, information that requires real-time properties, such as the position, orientation, facial expression image, and facial expression data of the user's face is collected in units of MVC frames and transmitted in real time. On the other hand, effects such as a three-dimensional model of face and augmented reality are transmitted in advance prior to communication by a three-dimensional videophone, and are not transmitted in units of frames.
- high-quality and low-bit-rate three-dimensional videophones are obtained by transmitting information that requires a high degree of real-time property more frequently than information that requires a low degree of real-time property. Is possible. Further, since the background images are separated, it is possible to reduce the frame rate at the time of replacement or transmission, or to increase the compression rate.
- Operation with the above configuration is as follows.
- a user wears the three-dimensional glasses 500 and uses the video processing system 100.
- Stereo camera 200 captures an image of a subject including the face of the user wearing three-dimensional glasses 500.
- the user's face area is detected using the three-dimensional glasses 500 as a landmark, and various augmented reality effects are applied.
- the video that has been rendered by augmented reality is displayed on the 3D television 400 or transmitted to another video processing system 100 via the communication line 600.
- the embodiment it is possible to provide a new field of use in which the 3D glasses 500 are used not only for observing a stereoscopic image but also as a landmark when performing an augmented reality effect. Can do.
- the three-dimensional glasses 500 are not limited to the shutter type, and may be, for example, glasses based on polarized light.
- a lenticular marker, a light emitting diode, or the like is added to the eyeglass frame, it can be used as a landmark.
- the lenticular marker has the characteristic that the pattern of the pattern changes depending on the viewing angle, so it is advantageous in that the orientation and angle of the face can be measured by converting the relative angle between the glasses and the camera into a pattern change. is there.
- an underrim type eyeglass frame that covers only the lower half of the lens may be adopted.
- the imaging apparatus is not limited to a stereo camera, and is monocular. It can be a camera.
- the feature points detected by the feature point detection unit 310 are directly mapped to a general-purpose face three-dimensional model.
- the accuracy of mapping may be reduced compared to the case of using a stereo camera, considering that accuracy is not so important in augmented reality using a 3D model, the cost is reduced by using only one camera. This is advantageous.
- the present invention can be used for glasses for observing stereoscopic images.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Graphics (AREA)
- Architecture (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
映像処理装置において、撮像部は、3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する。めがね特定部306は、前記撮像部が撮像した被写体の映像から前記めがねを特定する。顔検出部308は、めがね特定部306が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する。拡張現実演出部314は、顔検出部が検出した人物の顔領域に仮想的な特徴を付加する。
Description
本発明は、映像処理装置、映像処理方法、および映像通信システムに関する。
近年、民生用テレビの高性能化が進み、奥行きを持った立体映像を提示することが可能な3次元テレビが普及してきている。このような3次元テレビを実現するための方式は種々存在するが、中には立体映像を観察するためにユーザが専用のめがねを着用する方式が存在する。
立体映像を観察するために専用のめがねを要する方式においては、当然のことながら、ユーザは必ず専用のめがねを着用することになる。本発明者は、ユーザが必ず専用のめがねを着用する点に着目し、本めがねを立体映像を観察するために利用するのみならず、新たな利用の可能性を探求できると考えた。
本発明はこのような状況を鑑みてなされたものであり、その目的は、立体映像を観察するためのめがねの新たな利用分野を提供することにある。
上記課題を解決するために、本発明のある態様は映像処理装置である。この装置は、3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する撮像部と、前記撮像部が撮像した被写体の映像から前記めがねを特定するめがね特定部と、
前記めがね特定部が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する顔検出部と、前記顔検出部が検出した人物の顔領域に仮想的な特徴を付加する拡張現実演出部とを含む。
前記めがね特定部が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する顔検出部と、前記顔検出部が検出した人物の顔領域に仮想的な特徴を付加する拡張現実演出部とを含む。
本発明の別の態様は映像通信システムである。このシステムは、上記の映像処理装置を少なくともふたつ含み、当該映像処理装置が通信回線を通じて相互に通信可能に接続されている映像通信システムである。
本発明のさらに別の態様は、映像処理方法である。この方法は、3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像するステップと、撮像した被写体の映像から前記めがねを特定するステップと、特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出するステップと、検出した人物の顔領域に仮想的な特徴を付加するステップとをプロセッサに実行させる。
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によると、立体映像を観察するためのめがねの新たな利用分野を提供することができる。
本発明の実施の形態の概要を述べる。実施の形態は、立体映像を観察するためのめがねを着用した人物の顔を含む映像を取得し、そのめがねをランドマークとして人物の顔領域を検出する。検出した顔領域を中心に、仮想的な特徴を付加する拡張現実による演出を施す。
図1は、実施の形態に係る映像処理システム100の概観を示す図である。映像処理システム100は、ステレオカメラ200、映像処理装置300、3次元テレビ400、および3次元テレビ400が表示する立体映像を観察するための3次元めがね500を含む。
ステレオカメラ200は、被写体であるユーザを異なる視点から撮像するための第1のカメラ202と第2のカメラ204とを含む。ここで、3次元空間における被写体を異なる視点から見た場合の画像を「視差画像」という。人間の左右の目は6cm程度離れているため、左目から見える映像と右目から見える映像には視差が生じる。人間の脳は、左右の目で知覚した視差画像を利用して物体の奥行きを認識しているといわれている。そのため、左目で知覚される視差画像と右目で知覚される視差画像とをそれぞれの目に投影すると、人間には奥行きを持った立体映像として認識される。以下、3次元空間における被写体を異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む映像を単に「立体映像」という。ステレオカメラ200は、例えばCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の個体撮像素子を用いて実現できる。
映像処理装置300は、ステレオカメラ200が撮像した被写体の映像を処理する。映像処理装置300の詳細については後述する。3次元テレビ400は、映像処理装置300が生成した立体映像を表示する。ユーザは3次元めがね500を着用することにより、3次元テレビ400に表示される映像を奥行きを持った立体映像として認識することが可能となる。
視差画像を利用して人間に奥行きを持った映像を見せるための3次元テレビには様々な方式があるが、本実施の形態では左目用の視差画像と右目用の視差画像とを交互に時分割で表示する方式の3次元テレビを例に説明する。
3次元テレビ400は、映像処理装置300が生成した左目用の視差画像と右目用の視差画像とを交互に時分割で提示する。映像処理装置300は、3次元テレビ400の視差画像の表示タイミングを同期信号として3次元めがね500に送信する。3次元めがね500は、受信した同期信号に応じて左右のレンズにシャッタをかける。シャッタは、例えば既知の液晶シャッタの技術を用いることで実現できる。
具体的には、3次元テレビ400が左目用の視差画像を表示する場合、3次元めがね500は右目のレンズのシャッタを閉じることで、ユーザの右目に入る映像を遮蔽する。これにより、3次元テレビ400が左目用の視差画像を表示する場合、ユーザの左目にのみ左目用の視差画像が投影される。反対に、3次元テレビ400が右目用の視差画像を表示する場合、3次元めがね500が左目のレンズのシャッタを閉じることにより、ユーザの右目にのみ右目用の視差画像が投影される。
図1は映像処理装置300と3次元テレビ400とが別の装置の場合について図示したものであり、映像処理装置300は例えば据置型のゲーム機である。映像処理装置300の機能の全部または一部は、3次元テレビ400の一部として組み込まれていてもよい。
図2は、3次元めがね500のシャッタのタイミングと、3次元テレビ400における視差画像の表示のタイミングとの関係を示す図である。図2においては、時刻2tにおいて所定の時間(例えば10ミリ秒)3次元めがね500の右目のシャッタが開くと同時に同じ期間3次元テレビ400の表示パネルのバックライトが点灯することを示している。また、時刻4tにおいて所定の時間3次元めがね500の左目のシャッタが開くと同時に同じ期間3次元テレビ400の表示パネルのバックライトが点灯することを示している。それ以外の時刻においては3次元めがね500の右目のシャッタおよび左目のシャッタが閉じ、かつ3次元テレビ400の表示パネルのバックライトは消灯する。
時刻2tにおいて3次元テレビ400が右目用の視差画像を表示してユーザの右目に右目用視差画像を提示し、時刻4tにおいて3次元テレビ400が左目用の視差画像を表示してユーザの左目に左目用視差画像を提示することで、ユーザに奥行き感のある3次元映像を提示することが可能となる。
図3は、実施の形態に係る映像処理装置300の機能構成を模式的に示す図である。映像処理装置300は、左目映像生成部302、右目映像生成部304、めがね特定部306、顔検出部308、特徴点検出部310、3次元モデル生成部312、拡張現実演出部314、立体映像生成部316、および出力部318を含む。
左目映像生成部302は、第1のカメラ202から取得した情報を画像化して、左目用の視差画像を生成する。右目映像生成部304は、第2のカメラ204から取得した情報を画像化して、右目用の視差画像を生成する。
めがね特定部306は、ステレオカメラ200が撮像し、左目映像生成部302および右目映像生成部304がそれぞれ画像化した被写体の映像から、3次元めがね500を特定する。前述したように、本実施の形態は、映像処理装置300から受信した同期信号に応じて左右のレンズにシャッタをかける方式のシャッタめがねを採用する。このため、めがね特定部306は、シャッタ領域特定部320とフレーム特定部322とを含む。
3次元めがね500は、レンズのシャッタを交互に時分割で閉じることにより、ユーザの目に投影される映像を遮蔽する。このことは、3次元めがね500を装着しているユーザの顔を撮像した映像においては、3次元めがね500の左右のレンズを通して見えるユーザの目が交互に時分割に遮蔽され、撮像されなくなることを意味する。そこでシャッタ領域特定部320は、3次元めがね500を着用したユーザの顔を含む被写体の映像から、被写体の映像の通過が遮蔽されている領域をレンズの領域として検出することにより、3次元めがね500を特定する。
フレーム特定部322は、シャッタ領域特定部320が特定したレンズの領域を出発点として、3次元めがね500のめがねフレームを追跡して特定する。顔検出部308は、めがね特定部306が特定しためがね領域を出発点として、ユーザの顔を検出する。
このように、専用のめがねを着用する方式の3次元テレビ400を鑑賞するユーザは、3次元めがね500を着用することが保証される。このため、めがね領域を特定することから始めることが可能となる。特にシャッタ方式の3次元めがね500の場合、3次元めがね500のレンズ領域をランドマークとして特定することが可能となる。レンズ領域は人間の顔の大きさと比較しても大きめの領域であり、安定かつ高速に検出することができる。例えばめがねフレームを検出する場合と比較して、レンズは2次元的な広がりを持っているため、安定かつ高速に検出することができる。
図4は、3次元めがね500を着用したユーザの顔部分の映像と、シャッタ領域をもとに抽出したユーザの顔領域を示す図である。図4(a)は、3次元めがね500の左右のレンズのシャッタが閉じている場合の映像を示す図である。図4(b)は、3次元めがね500の右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像を示す図である。図4(c)は、3次元めがね500の左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像を示す図である。図4(d)は、3次元めがね500のレンズ領域を出発点としてユーザの顔領域を抽出した結果を示す図である。図4の各図において、斜線のハッチングで示す領域はシャッタの閉じている領域である。
シャッタ領域特定部320は、例えば図4(a)に示すような、3次元めがね500の左右のレンズのシャッタが閉じている場合の映像と、図4(b)に示す3次元めがね500の右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像との画素の差分を計算する。両者は左目用のレンズの領域に大きな相違点があるため、この領域の画素の差分値が大きくなる。そこでシャッタ領域特定部320は、がsの差分値の大きな領域を左目用のレンズの領域として特定する。また、シャッタ領域特定部320は、図4(a)に示すような、3次元めがね500の左右のレンズのシャッタが閉じている場合の映像と、図4(c)に示す3次元めがね500の左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像との画素の差分を計算する。これにより、シャッタ領域特定部320は右目用のレンズ領域を特定することができる。
3次元めがね500のレンズ領域が特定できれば、フレーム特定部322はその領域と連結しているエッジを追跡することで、3次元めがね500のフレームを特定することができる。また、3次元めがね500のレンズ領域が特定できればユーザの両目を特定できるので、両目間の距離からユーザの顔のおおよその大きさも推定できる。顔検出部308は、3次元めがね500のレンズ領域を出発点として肌色領域やエッジを検出することで、ユーザの顔領域を特定することができる。
図5は、人物の表情エリアや、表情エリアの特徴点を示す図である。図5(a)は、人物の表情が現れやすい目や口付近の表情エリアを示す図である。図5(a)は、表情エリア334と総称する目付近の表情エリア334aと、口付近の表情エリア334bとを示す。表情エリア334は人物の感情(例えば怒りや戸惑い、笑い等)の特徴が出やすい領域であり、後述する拡張現実(Augmented Reality;AR)の演出に利用される。
図5(b)は、図5(a)に示す表情エリア334の特徴点(符号334で総称する。)を示す図である。特徴点とは、例えば、眉尻(符号336aおよび336d)、眉頭(符号336bおよび336c)、目尻(符号336eおよび336g)、目頭(符号336fおよび336h)、口角(符号336iおよび336k)、上唇の中央部336j、下唇の中央部336l、あご336m、および瞳の中央などである。これらの特徴点は、後述する拡張現実の演出や、ユーザの顔の向き、表情の解析、および三角測量の原理を用いてユーザの顔の奥行き情報を計算する際に利用される。
図3の説明に戻る。特徴点検出部310は、顔検出部308が検出したユーザの顔領域をもとに、図5(b)に示す特徴点を検出する。これは例えばエッジ検出等の汎用的な技術を用いて実現できる。3次元モデル生成部312は、ユーザの顔を汎用的な人物の顔の3次元モデルにマッピングする。これは例えば、複数のポリゴン等で構成される顔のワイヤーフレームモデルを用いて、ポリゴンの頂点に特徴点検出部310が検出した特徴点をマッピングした後、顔検出部308が検出した顔領域をテクスチャマッピングすることで実現できる。あるいは、三角測量の原理を用いて特徴点からユーザの顔の奥行き情報を計算し、3次元モデルを生成してもよい。以下、顔検出部308が検出したユーザの顔領域の画像を「表情画像」、特徴点検出部310が検出したユーザの顔の特徴点を「表情データ」と呼ぶことがある。
拡張現実演出部314は、顔検出部が検出した人物の顔領域、およびその周辺の領域に仮想的な特徴を付加する。ここで「拡張現実」とは、3次元めがね500を着用して観察する3次元テレビ400に映される現実の空間に3次元モデルを投影することによって、現実の空間に様々な仮想的な特徴を付加するという考え方や、それを実現するための技術の総称である。
具体的には、拡張現実演出部314は、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、種々の拡張現実を付加する。このため、拡張現実演出部314は、背景演出部326、鏡像生成部328、撮像位置補正部330、顔演出部332、およびこれら各部の動作を制御する演出制御部324を含む。
背景演出部326は、顔検出部308が検出し、3次元モデル生成部312がモデル化したユーザの顔以外の領域である背景領域に対して拡張現実による演出を施す。例えば、背景領域を他の画像に差し替えたり、背景領域をぼかしたりする。後述するように、映像処理システム100はネットワークを介して他の映像処理システム100と接続することにより、例えばテレビ電話として利用可能である。この場合、ステレオカメラ200はユーザの家庭内に設置されることが通常であると考えられるが、家庭内の様子をありのまま送信することは好ましくない場合もある。このようなとき、背景演出部326が背景領域を他の画像に差し替えたり、背景領域をぼかしたりすることにより、家庭内の様子をありのまま送信することを防止できる点で有利である。
図6は、実施の形態に係る撮像位置補正部330の動作を説明する図である。ユーザは通常3次元テレビ400を正面から見るため、ステレオカメラ200はユーザを正面から撮像する位置(図6において符号216)に設置することができず、例えば3次元テレビ400の上部(図6において符号212)または、下部(図6において符号214)に設置することになる。この場合、ステレオカメラ200が取得するユーザの映像はユーザを見下ろした場合の映像となるか、あるいはユーザを見上げる場合の映像となる。
3次元モデル生成部312がユーザの顔の3次元モデルを生成しているため、撮像位置補正部330は、ユーザを任意の方向から撮像した場合の映像を生成することが可能である。そこで撮像位置補正部330は、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、ユーザを正面の方向から撮像した場合の映像を生成する。これにより、ユーザは自分の顔を正面から撮像した場合の映像を観察することが可能となる。また、テレビ電話をする場合には、相手はユーザの顔を正面から撮像した場合の映像を見ることができ、互いにアイコンタクトができるため、相手を正面以外から撮像した映像を用いて会話する場合と比較して、会話をする上での違和感を低減することが可能となる。
図3に戻り、顔演出部332は、めがね特定部306が特定した3次元めがね500を除去し、ユーザが3次元めがね500をかけない場合の顔の映像を生成する。顔演出部332はまた、ユーザの顔に化粧をしたり、美肌にしたりする等の画像処理を施す。顔演出部332はユーザの顔を別人の顔、あるいは動物等のキャラクタに置換する等の画像処理による変装を施す。このように、顔演出部332は、重要な被写体と考えられるユーザの顔に、拡張現実による演出を施す。ユーザに非日常的な演出を提供できる点で有利である。
図7は、顔演出部332による変装の演出の例を示す図である。この例では、顔演出部332は、特徴点検出部310が検出した特徴点と、あらかじめ用意してある犬の画像およびその特徴点(図示せず)とをマッチングすることにより、ユーザの顔を犬の顔に変装させる演出を施す。
鏡像生成部328は、顔検出部308が検出し、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、ユーザが鏡に映った場合の3次元モデルを生成する。ユーザはテレビ電話の送信の前に、拡張現実の施された自分の顔を鏡のように映る映像として観察することが可能となる。3次元めがね500を着用して本システムを利用することにより、いわばサイバーワールドに入る前に拡張現実による演出が施された自分の姿を確認し、日常的な光景から非日常への切り替わりを実感することができる。
図8は、顔演出部332が3次元めがね500を除去した画像をもとに、鏡像生成部328が生成した鏡像画像の例を示す図である。現実のユーザは3次元めがね500を着用しているのであるが、3次元テレビ400の画面には3次元めがね500をかけていない場合の映像が提示されている。また、3次元テレビ400の画面には現実のユーザの鏡像が提示されている。
立体映像を観察するために3次元めがね500の着用が必要ではあるが、ユーザは、3次元めがね500を着用している映像をそのまま3次元テレビ400に映したり、相手に送信したりすることを必ずしも望むわけではない。むしろ、拡張現実を用いたテレビ電話でにおいては、ユーザはありのままの映像を映し出したり送信したりすることにはそれほど積極的ではなく、映像に対して非日常的な演出を施すことを望む場合がある。
本実施の形態では、3次元モデル生成部312がユーザの顔の3次元モデルを生成するため、映像に種々の拡張現実による非日常的な演出を施すことが可能となる。そして、3次元モデルを生成するための前処理としての顔検出処理に、3次元めがね500を利用することができる。ユーザが3次元めがね500を着用していることが保証されているからである。
演出制御部324は、図示しないリモコン等のユーザインタフェースを介してユーザからの指示を受け付け、拡張現実演出部314内の各部の演出を制御する。なお、図示はしないが、拡張現実演出部314は、例えばユーザの顔付近に「吹き出し」を用いて文字を表示する等、他の拡張現実を付加する機能を備えていてもよい。
立体映像生成部316は、3次元モデル生成部312が生成したユーザの3次元モデル、または拡張現実演出部314が演出を施したユーザの3次元モデルをもとに、仮想的な3次元空間におけるユーザの3次元モデルを異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む立体映像を生成する。出力部318は、立体映像生成部316が生成した立体映像を3次元テレビ400に出力したり、インターネット等のネットワークを介して他の映像処理システム100に送信したりする。
図3は、実施の形態に係る映像処理装置300を実現するための機能構成を示しており、その他の構成は省略している。図3において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メインメモリ、その他のLSIで構成することができ、ソフトウェア的には、メインメモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
図9は、実施の形態に係る映像処理装置300における拡張実現の処理手順を示すフローチャートである。以下フローチャートにおいては、各部の処理手順を、ステップを意味するS(Stepの頭文字)と数字との組み合わせによって表示する。本フローチャートにおける処理は、左目映像生成部302および右目映像生成部304がステレオカメラ200の出力を映像化したときに開始する。
左目映像生成部302および右目映像生成部304は、ステレオカメラ200から出力された3次元めがね500をかけたユーザの顔を含む被写体を映像化する(S10)。めがね特定部306は、左目映像生成部302および右目映像生成部304が映像化した被写体の映像から3次元めがね500を特定する(S12)。
顔検出部308は、めがね特定部306が特定した3次元めがねをもとに、左目映像生成部302および右目映像生成部304が映像化したユーザの顔を含む被写体の映像からユーザの顔領域を検出する(S14)。特徴点検出部310は、顔検出部308が検出したユーザの顔領域から特徴点を検出する(S16)。
3次元モデル生成部312は、顔検出部308が検出したユーザの顔領域および特徴点検出部310が検出した特徴点をもとにユーザの顔の3次元モデルを生成する(S18)。拡張現実演出部314は、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、拡張現実による演出を施す(S20)。
立体映像生成部316は、3次元モデル生成部312が生成したユーザの3次元モデルまたは拡張現実演出部314が演出を施したユーザの3次元モデルをもとに、仮想的な3次元空間におけるユーザの3次元モデルを異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む立体映像を生成する(S22)。出力部318は、立体映像生成部316が生成した立体映像を3次元テレビ400等の外部デバイスに出力する(S24)。出力部318が立体映像を出力すると、本フローチャートにおける処理は終了する。
図10は、実施の形態に係る3次元テレビ電話システム700を模式的に示す図である。3次元テレビ電話システム700は、少なくともふたつの映像処理システム100が通信回線600を介して通信可能に接続された映像通信システムである。図10に示す例では、第1のステレオカメラ200a、第1の映像処理装置300a、および第1の3次元テレビ400aを含む第1の映像処理システム100aと、第2のステレオカメラ200b、第2の映像処理装置300b、および第2の3次元テレビ400bを含む第2の映像処理システム100bとが、インターネット等の通信回線600を通じて相互に通信可能に接続されている。
図11は、実施の形態に係る3次元テレビ電話システム700の使用例を示す図である。第1のステレオカメラ200aは、3次元めがね500aを着用した第1のユーザ800の顔を含む被写体を撮像する。第1のステレオカメラ200aが撮像した映像は図10における第1の映像処理装置300aにおいて、例えばめがね除去や撮像位置補正等の様々な拡張現実による演出が施され、通信回線600を介して第2の3次元テレビ400bに送信される。第2のユーザ900は、3次元めがね500bを着用して第2の3次元テレビ400bを見ることにより、第1の映像処理装置300aから送られた立体映像を鑑賞することができる。
図11において、第1のステレオカメラ200aが撮像した映像は拡張現実による演出が施されているため、第1のユーザ800は3次元めがね500aを着用していても、第2の3次元テレビ400bに映される第1のユーザ800の映像においては、3次元めがね500aが除去されている。
同様に、3次元めがね500bを着用している第2のユーザ900の映像も拡張現実による演出が施された後、第1のユーザ800の鑑賞する第1の3次元テレビ400aに送信される。このように、3次元テレビ電話システム700を利用することで、ユーザは拡張現実による演出を施した映像でビデオチャットを実行することができる。
図12は、実施の形態に係る3次元テレビ電話システム700において送信する情報の種類に応じた送信頻度を示す図である。実施の形態に係る3次元テレビ電話システム700においては、送信側で生成した立体映像をMVC(Multiview Video Coding)等の立体映像の伝送フォーマットに変換した後に送信する。
前述したとおり、本実施の形態では3次元めがねをランドマークとすることにより、顔の3次元モデルの生成を高精度かつ安定して生成したり、背景画像や表情画像等のレンダリング素材の分離したりすることが可能となる。そこで、本実施の形態では、ユーザの顔の位置、向き、表情画像、表情データ等のリアルタイム性が要求される情報はMVCのフレーム単位にまとめられ、リアルタイムに送信される。一方で、顔の3次元モデルや拡張現実による演出等は、3次元テレビ電話による通信に先立ってあらかじめ送信しておき、フレーム単位での送信は行わない。
図12に示すように、リアルタイム性が要求される度合いが高い情報はリアルタイム性が要求される度合いが低い情報よりも高頻度で送信することにより、高品質かつ低ビットレートでの3次元テレビ電話が可能となる。また背景画像は分離されているので、差し替えや送信の際のフレームレートを低くしたり、圧縮率を高めたりすることも可能である。
以上の構成による動作は以下のとおりである。ユーザは3次元めがね500を着用して映像処理システム100を利用する。ステレオカメラ200は、3次元めがね500を着用したユーザの顔を含む被写体を撮像する。3次元めがね500をランドマークとしてユーザの顔領域が検出され、種々の拡張現実による演出が施される。拡張現実による演出が施された映像は3次元テレビ400に映されたり、通信回線600を介して他の映像処理システム100に送信されたりする。
以上説明したように、実施の形態によれば、3次元めがね500を立体映像を観察するためのみならず、拡張現実による演出を施す際のランドマークとして利用するという新たな利用分野を提供することができる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
上記の説明では3次元めがね500としてシャッタ方式のめがねを採用する場合について説明したが、3次元めがね500はシャッタ方式に限らず、例えば偏光を利用した方式のめがねでもよい。この場合、めがねフレームにレンチキュラーマーカや発光ダイオード等を付加すれば、ランドマークとして利用可能となる。特にレンチキュラーマーカは見る角度によって絵柄のパターンが変化する特性があるため、めがねとカメラとの相対角度をパターンの変化に変換することにより、顔の向きや角度を測定することができる点で有利である。また、表情エリア334を観察しやすくするために、レンズの下半分のみを覆うアンダーリム方式のめがねフレームを採用してもよい。
上記の説明では、ユーザを異なる視点から撮像するための第1のカメラ202と第2のカメラ204とを含むステレオカメラ200を利用する場合ついて説明したが、撮像装置はステレオカメラに限らず、単眼カメラでもよい。この場合、特徴点検出部310が検出した特徴点をそのまま汎用的な顔の3次元モデルにマッピングすることになる。ステレオカメラを用いる場合と比較してマッピングの精度が落ちる可能性もあるが、3次元モデルを用いる拡張現実においては正確性はそれほど重要でないことを考えると、むしろカメラがひとつで済むことによるコスト抑制の点で有利である。
100,200 ステレオカメラ、 202 第1のカメラ、 204 第2のカメラ、 300 映像処理装置、 306 特定部、 308 顔検出部、 310 特徴点検出部、 312 3次元モデル生成部、 314 拡張現実演出部、 316 立体映像生成部、 318 出力部、 320 シャッタ領域特定部、 322 フレーム特定部、 324 演出制御部、 326 背景演出部、 328 鏡像生成部、 330 撮像位置補正部、 332 顔演出部、 400 3次元テレビ、 600 通信回線、 700 3次元テレビ電話システム。
本発明は、立体映像を観察するためのめがねに利用することができる。
Claims (8)
- 3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する撮像部と、
前記撮像部が撮像した被写体の映像から前記めがねを特定するめがね特定部と、
前記めがね特定部が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する顔検出部と、
前記顔検出部が検出した人物の顔領域に仮想的な特徴を付加する拡張現実演出部とを含むことを特徴とする映像処理装置。 - 前記めがねは、左右のレンズが交互に時分割で当該レンズを通過する映像を遮蔽するシャッタめがねであり、
前記めがね特定部は、前記撮像部が撮像した映像から被写体の映像の通過が遮蔽されている領域をレンズの領域として検出することにより、前記シャッタめがねを特定するシャッタ領域特定部をさらに含むことを特徴とする請求項1に記載の映像処理装置。 - 前記拡張現実演出部は、前記めがね特定部が特定しためがねを除去し、当該めがねをかけない場合の顔の映像を生成する顔演出部をさらに含むことを特徴とする請求項1または2に記載の映像処理装置。
- 前記撮像部は、3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とをそれぞれ撮像する第1のカメラと第2のカメラとを含むステレオカメラであり、
前記顔検出部は、前記第1の視差画像と前記第2の視差画像とのそれぞれについて顔領域を検出するものであり、
前記顔検出部が前記第1の視差画像と前記第2の視差画像とのそれぞれから検出した被写体の顔領域から特徴点を検出する特徴点検出部と、
前記顔検出部が検出した被写体の顔領域および前記特徴点検出部が前記第1の視差画像と前記第2の視差画像とのそれぞれから検出した特徴点をもとに、前記人物の3次元モデルを生成する3次元モデル生成部と、
前記3次元モデル生成部が生成した人物の3次元モデルをもとに、当該人物を任意の方向から撮像した場合の映像を生成する撮像位置補正部とをさらに含むことを特徴とする請求項1から3のいずれかに記載の映像処理装置。 - 前記拡張現実演出部は、前記3次元モデル生成部が生成した人物の3次元モデルをもとに、当該人物が鏡に映った場合の3次元モデルを生成する鏡像生成部をさらに含み、
前記鏡像生成部が生成した人物の鏡像モデルをもとに、仮想的な3次元空間における当該人物の3次元モデルを異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を生成する立体映像生成部と、
前記立体映像生成部が生成した立体映像を、当該立体映像を表示するための3次元テレビに出力する出力部とをさらに含むことを特徴とする請求項4に記載の映像処理装置。 - 請求項1から5のいずれかに記載の映像処理装置を少なくともふたつ含み、当該映像処理装置が通信回線を通じて相互に通信可能に接続されていることを特徴とする映像通信システム。
- 3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像するステップと、
撮像した被写体の映像から前記めがねを特定するステップと、
特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出するステップと、
検出した人物の顔領域に仮想的な特徴を付加するステップとをプロセッサに実行させることを特徴とする映像処理方法。 - 3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する機能と、
撮像した被写体の映像から前記めがねを特定するステップと、
特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出する機能と、
検出した人物の顔領域に仮想的な特徴を付加する機能とをコンピュータに実現させることを特徴とするプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/605,571 US9225973B2 (en) | 2010-05-24 | 2012-09-06 | Image processing apparatus, image processing method, and image communication system |
US14/944,478 US9798920B2 (en) | 2010-05-24 | 2015-11-18 | Image processing apparatus, image processing method, and image communication system |
US15/712,343 US10235560B2 (en) | 2010-05-24 | 2017-09-22 | Image processing apparatus, image processing method, and image communication system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-118665 | 2010-05-24 | ||
JP2010118665A JP4794678B1 (ja) | 2010-05-24 | 2010-05-24 | 映像処理装置、映像処理方法、および映像通信システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US13/605,571 Continuation US9225973B2 (en) | 2010-05-24 | 2012-09-06 | Image processing apparatus, image processing method, and image communication system |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011148449A1 true WO2011148449A1 (ja) | 2011-12-01 |
Family
ID=44946742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/007616 WO2011148449A1 (ja) | 2010-05-24 | 2010-12-28 | 映像処理装置、映像処理方法、および映像通信システム |
Country Status (3)
Country | Link |
---|---|
US (3) | US9225973B2 (ja) |
JP (1) | JP4794678B1 (ja) |
WO (1) | WO2011148449A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232929A1 (en) * | 2012-02-13 | 2018-08-16 | Moodme Belgium Sprl | Method for sharing emotions through the creation of three-dimensional avatars and their interaction |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8878773B1 (en) | 2010-05-24 | 2014-11-04 | Amazon Technologies, Inc. | Determining relative motion as input |
KR101350996B1 (ko) | 2012-06-11 | 2014-01-13 | 재단법인 실감교류인체감응솔루션연구단 | 아이콘텍이 가능한 3차원 원격회의 장치 및 이를 이용한 방법 |
US9418480B2 (en) * | 2012-10-02 | 2016-08-16 | Augmented Reailty Lab LLC | Systems and methods for 3D pose estimation |
US9094576B1 (en) | 2013-03-12 | 2015-07-28 | Amazon Technologies, Inc. | Rendered audiovisual communication |
US9269012B2 (en) | 2013-08-22 | 2016-02-23 | Amazon Technologies, Inc. | Multi-tracker object tracking |
JP6368919B2 (ja) * | 2013-08-30 | 2018-08-08 | パナソニックIpマネジメント株式会社 | メイクアップ支援装置、メイクアップ支援方法、およびメイクアップ支援プログラム |
US10055013B2 (en) * | 2013-09-17 | 2018-08-21 | Amazon Technologies, Inc. | Dynamic object tracking for user interfaces |
WO2015066037A1 (en) * | 2013-10-28 | 2015-05-07 | Brown University | Virtual reality methods and systems |
US9503705B2 (en) * | 2013-12-12 | 2016-11-22 | Lenovo (Singapore) Pte. Ltd. | Stereoscopic image generation |
JP6334715B2 (ja) | 2014-01-31 | 2018-05-30 | エンパイア テクノロジー ディベロップメント エルエルシー | 拡張現実スキンの評価 |
WO2015116183A2 (en) * | 2014-01-31 | 2015-08-06 | Empire Technology Development, Llc | Subject selected augmented reality skin |
EP3100240B1 (en) | 2014-01-31 | 2018-10-31 | Empire Technology Development LLC | Evaluation of augmented reality skins |
KR101827550B1 (ko) | 2014-01-31 | 2018-02-08 | 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 | 증강 현실 스킨 매니저 |
US9536351B1 (en) * | 2014-02-03 | 2017-01-03 | Bentley Systems, Incorporated | Third person view augmented reality |
US10282696B1 (en) | 2014-06-06 | 2019-05-07 | Amazon Technologies, Inc. | Augmented reality enhanced interaction system |
CA2956508C (en) | 2014-08-04 | 2020-04-21 | Facebook, Inc. | Method and system for reconstructing obstructed face portions for virtual reality environment |
JP5720068B1 (ja) * | 2014-10-27 | 2015-05-20 | 治幸 岩田 | 自己撮影機能付スマートグラス |
ES1136432Y (es) * | 2015-01-28 | 2015-05-11 | Rubio Pablo Abad | Sistema de adaptacion de gafas de realidad virtual para visualizacion de realidad aumentada estereoscopica envolvente |
US9507241B1 (en) | 2015-11-17 | 2016-11-29 | Lenovo (Singapore) Pte, Ltd. | Adjustable camera field of view |
DE102015222782A1 (de) * | 2015-11-18 | 2017-05-18 | Sirona Dental Systems Gmbh | Verfahren zur Visualisierung einer Zahnsituation |
CN105867617B (zh) | 2016-03-25 | 2018-12-25 | 京东方科技集团股份有限公司 | 增强现实设备、系统、图像处理方法及装置 |
WO2018119786A1 (zh) * | 2016-12-28 | 2018-07-05 | 深圳前海达闼云端智能科技有限公司 | 一种显示数据处理方法及装置 |
JP6855872B2 (ja) | 2017-03-24 | 2021-04-07 | アイシン精機株式会社 | 顔認識装置 |
US11145124B2 (en) | 2017-08-30 | 2021-10-12 | Ronald H. Winston | System and method for rendering virtual reality interactions |
US10867161B2 (en) * | 2017-09-06 | 2020-12-15 | Pixart Imaging Inc. | Auxiliary filtering device for face recognition and starting method for electronic device |
CN109474844B (zh) * | 2017-09-08 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 视频信息处理方法及装置、计算机设备 |
US10636419B2 (en) | 2017-12-06 | 2020-04-28 | Sony Interactive Entertainment Inc. | Automatic dialogue design |
CN116700489A (zh) * | 2018-03-13 | 2023-09-05 | 罗纳德·温斯顿 | 虚拟现实系统和方法 |
US11055920B1 (en) * | 2019-06-27 | 2021-07-06 | Facebook Technologies, Llc | Performing operations using a mirror in an artificial reality environment |
US11145126B1 (en) | 2019-06-27 | 2021-10-12 | Facebook Technologies, Llc | Movement instruction using a mirror in an artificial reality environment |
US11036987B1 (en) | 2019-06-27 | 2021-06-15 | Facebook Technologies, Llc | Presenting artificial reality content using a mirror |
KR20190106852A (ko) * | 2019-08-27 | 2019-09-18 | 엘지전자 주식회사 | Xr 컨텐츠 제공 방법 및 xr 컨텐츠 제공 디바이스 |
US20240177359A1 (en) * | 2022-11-30 | 2024-05-30 | Sony Interactive Entertainment Inc. | Training a machine learning model for reconstructing occluded regions of a face |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002196855A (ja) * | 2000-10-06 | 2002-07-12 | Sony Computer Entertainment Inc | 画像処理装置、画像処理方法、記録媒体、コンピュータプログラム、半導体デバイス |
JP2005092657A (ja) * | 2003-09-19 | 2005-04-07 | Hitachi Ltd | 画像表示装置および画像表示方法 |
JP2006520570A (ja) * | 2003-03-14 | 2006-09-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 三次元映像による会議開催 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2656787B2 (ja) * | 1988-03-31 | 1997-09-24 | 日本電信電話株式会社 | 3次元画像通信装置 |
JP2000004395A (ja) * | 1998-06-15 | 2000-01-07 | Sony Corp | ビデオカメラの画像処理装置及びヘッドマウントディスプレイ |
WO2004040502A1 (en) * | 2002-10-31 | 2004-05-13 | Korea Institute Of Science And Technology | Image processing method for removing glasses from color facial images |
JP4445454B2 (ja) * | 2005-10-20 | 2010-04-07 | アイシン精機株式会社 | 顔中心位置検出装置、顔中心位置検出方法、及び、プログラム |
US9088425B2 (en) * | 2006-05-04 | 2015-07-21 | Verizon Patent And Licensing Inc. | Method and apparatus for collaboration among individuals |
KR101324440B1 (ko) * | 2009-02-11 | 2013-10-31 | 엘지디스플레이 주식회사 | 입체 영상의 뷰 제어방법과 이를 이용한 입체 영상표시장치 |
-
2010
- 2010-05-24 JP JP2010118665A patent/JP4794678B1/ja active Active
- 2010-12-28 WO PCT/JP2010/007616 patent/WO2011148449A1/ja active Application Filing
-
2012
- 2012-09-06 US US13/605,571 patent/US9225973B2/en active Active
-
2015
- 2015-11-18 US US14/944,478 patent/US9798920B2/en active Active
-
2017
- 2017-09-22 US US15/712,343 patent/US10235560B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002196855A (ja) * | 2000-10-06 | 2002-07-12 | Sony Computer Entertainment Inc | 画像処理装置、画像処理方法、記録媒体、コンピュータプログラム、半導体デバイス |
JP2006520570A (ja) * | 2003-03-14 | 2006-09-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 三次元映像による会議開催 |
JP2005092657A (ja) * | 2003-09-19 | 2005-04-07 | Hitachi Ltd | 画像表示装置および画像表示方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232929A1 (en) * | 2012-02-13 | 2018-08-16 | Moodme Belgium Sprl | Method for sharing emotions through the creation of three-dimensional avatars and their interaction |
US10347028B2 (en) * | 2012-02-13 | 2019-07-09 | Moodme Belgium Sprl | Method for sharing emotions through the creation of three-dimensional avatars and their interaction |
US20200219302A1 (en) * | 2012-02-13 | 2020-07-09 | Moodme Belgium Sprl | Method for Sharing Emotions Through the Creation of Three-Dimensional Avatars and Their Interaction |
Also Published As
Publication number | Publication date |
---|---|
US20180012064A1 (en) | 2018-01-11 |
JP4794678B1 (ja) | 2011-10-19 |
US9798920B2 (en) | 2017-10-24 |
US9225973B2 (en) | 2015-12-29 |
US20160071330A1 (en) | 2016-03-10 |
JP2011248466A (ja) | 2011-12-08 |
US20120327196A1 (en) | 2012-12-27 |
US10235560B2 (en) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4794678B1 (ja) | 映像処理装置、映像処理方法、および映像通信システム | |
US11199706B2 (en) | Head-mounted display for virtual and mixed reality with inside-out positional, user body and environment tracking | |
US10269177B2 (en) | Headset removal in virtual, augmented, and mixed reality using an eye gaze database | |
JP6023801B2 (ja) | シミュレーション装置 | |
CN107924589B (zh) | 通信系统 | |
JP7148634B2 (ja) | ヘッドマウントディスプレイ装置 | |
WO2018095317A1 (zh) | 视频数据处理方法、装置及设备 | |
JP2014011655A (ja) | 映像処理装置、映像処理方法、および映像処理システム | |
CN109510975B (zh) | 一种视频图像的提取方法、设备及系统 | |
US9380263B2 (en) | Systems and methods for real-time view-synthesis in a multi-camera setup | |
KR20120106919A (ko) | 시청자세를 반영하는 3차원 입체영상 생성 시스템 및 방법 | |
US20210327121A1 (en) | Display based mixed-reality device | |
EP4030752A1 (en) | Image generation system and method | |
KR100400209B1 (ko) | 텔레비젼(tv)신호로부터삼차원동영상을발생시키는장치 | |
CN118535018A (zh) | 基于头戴显示设备的表情交互方法、头戴显示设备及介质 | |
WO2023146882A1 (en) | Display system with machine learning (ml) based stereoscopic view synthesis over a wide field of view | |
JP2013131884A (ja) | 眼鏡 | |
CN116612234A (zh) | 基于增强或虚拟现实应用程序内立体视觉的高效动态遮挡 | |
JP2021086287A (ja) | 情報処理システム、情報処理装置、及び情報処理方法 | |
JP2012253447A (ja) | 表示装置、表示システム、表示装置の制御方法、制御プログラム、及び記録媒体 | |
KR20000001039A (ko) | 가상 세계 모델링 언어에 의해 표현된 영상의 입체화방법 및그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10852120 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10852120 Country of ref document: EP Kind code of ref document: A1 |