WO2018162509A2 - Vorrichtung und verfahren zur darstellung eines raumbilds von einem objekt in einer virtuellen umgebung - Google Patents

Vorrichtung und verfahren zur darstellung eines raumbilds von einem objekt in einer virtuellen umgebung Download PDF

Info

Publication number
WO2018162509A2
WO2018162509A2 PCT/EP2018/055518 EP2018055518W WO2018162509A2 WO 2018162509 A2 WO2018162509 A2 WO 2018162509A2 EP 2018055518 W EP2018055518 W EP 2018055518W WO 2018162509 A2 WO2018162509 A2 WO 2018162509A2
Authority
WO
WIPO (PCT)
Prior art keywords
image
data stream
image data
virtual environment
data
Prior art date
Application number
PCT/EP2018/055518
Other languages
English (en)
French (fr)
Other versions
WO2018162509A3 (de
Inventor
Peter Schickel
Ulrich Seng
Original Assignee
Bitmanagement Software GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bitmanagement Software GmbH filed Critical Bitmanagement Software GmbH
Priority to EP18764183.2A priority Critical patent/EP3593528A2/de
Publication of WO2018162509A2 publication Critical patent/WO2018162509A2/de
Priority to US16/561,341 priority patent/US11652970B2/en
Publication of WO2018162509A3 publication Critical patent/WO2018162509A3/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present invention relates to the field of generating spatial images, that is, images that give a user a three-dimensional impression in a virtual environment, wherein the virtual environment may also include spatial images.
  • Embodiments show a virtual conference room where one or more people are based on a current video of the person in real time, i. without a noticeable delay of the own movement with the movement of the space picture in the virtual space is recognizable for the person (s).
  • the users can be given a complete three-dimensional impression of the persons who are in the same conference room as well as of the conference room itself.
  • the conference room as well as the persons can not be generated by means of computer-animated representations, but rather based on real recorded videos.
  • Embodiments show an apparatus for displaying a spatial image from an object to a virtual environment.
  • the apparatus comprises a first image capture element configured to generate a first stereoscopic image data stream from an environment.
  • a second image capture element can display a second stereo image element. generate scopic image data stream from the object.
  • a computing unit is configured to receive the first and the second stereoscopic image data streams, starting from a reference point, based on the first stereoscopic image data stream to generate a spatial image of the virtual environment and the object, starting from the reference point from the second stereoscopic image data stream in the insert virtual environment.
  • a display element can, starting from the reference point, display the spatial image of the object in the virtual environment, so that the impression of a 3D object in a 3D environment is conveyed to a viewer of the display element.
  • the present disclosure is based on the idea of maximizing the user experience, ie the impression of a virtual space, by displaying both the environment and the objects displayed therein both stereoscopically and with the original video recording of the scene.
  • a user may dive into a video world (rather than into a computer-animated world) of video space via video glasses or other suitable display, thereby enhancing the fidelity of the surfaces.
  • the stereoscopic representation of the videos preserves the depth information of the environment as well as of the objects displayed therein, and thus also reproduces the spatial representation true to reality.
  • the combination of the surface representation and the spatial representation thus gives the user the impression that he is actually in the recorded, real environment.
  • Embodiments show the device with a third image capture element configured to generate a third stereoscopic image data stream from another object.
  • the computing unit may receive the third stereoscopic image data stream and determine an orientation of the further object in the third stereoscopic image data stream.
  • the arithmetic unit can also set disparities of the spatial image of the virtual environment as well as disparities of the spatial image of the object based on the orientation of the further object starting from the reference point.
  • the arithmetic unit is designed to insert the object from the third stereoscopic image data stream as a spatial image in the virtual environment.
  • the disparities or a depth map can also be generated or set starting from the reference point disparities or based on the depth map of the space image and the virtual environment, the spatial image of the object in the virtual environment, ie in the space image of the virtual environment, display.
  • the terms disparity and depth map can also be used reciprocally.
  • Embodiments show the device, wherein the arithmetic unit is designed to insert a spatial image of the further object from the third stereoscopic image data stream into the virtual environment and to set disparities of the spatial image of the further object based on an orientation of the object.
  • the disparities can be set starting from another reference point.
  • another display element can display the spatial image of the further object in the virtual environment, so that a viewer of the further display element is given the impression of a 3D object in a 3D environment.
  • the viewer of the further display element can thus display the spatial image of the object from the second stereoscopic image data stream, whereas the viewer of the display element can see the spatial image of the further object displayed.
  • Embodiments show the arithmetic unit which, when the reference point and / or the further reference point change, regenerate the spatial image of the virtual environment and the spatial image of the object based on the changed reference point. This can lead to the disparities being recalculated based on the changed (further) reference point.
  • the display element can then display the newly calculated images.
  • embodiments show the device, wherein the first image capture element is configured to generate the first stereoscopic image data stream in an initialization phase.
  • the arithmetic unit can receive the first stereoscopic data stream, store it in a memory and, in an operating mode, generate a spatial image of the environment from the stored first stereoscopic data stream, depending on the reference point.
  • the first stereoscopic image data stream can be generated (once) in an initialization phase and then stored locally on a memory.
  • the first stereoscopic image data stream can be information, ie recordings of at least one, but optionally of a plurality of different positions in space.
  • the reference points may be in the virtual environment. If the reference points are outside the positions, the representation can be estimated, eg. B. be interpolated.
  • the virtual environment can also be updated during the specified time period.
  • a stereo camera or a plurality of stereo cameras may be arranged in the real environment in order to record the first stereoscopic image data stream at regular intervals. All-round or 360 ° stereo cameras can be used for this, so that the first stereoscopic image data stream can also be recorded or updated in real time. This can be useful if external influences such.
  • Embodiments further illustrate the apparatus, wherein the second image capture element is configured to generate the second stereoscopic image data stream from the object at a further time.
  • the arithmetic unit may receive the second stereoscopic image data stream at a further time, determine a position and / or orientation of the object at the further time from a reference point, and based on the position and / or orientation of the object at the further time adjust the spatial image of the object in the virtual environment.
  • the arithmetic unit for.
  • a 3D engine that dynamically and optionally adjusts room images of both the object and the virtual environment in real time.
  • the reference point can therefore be set dynamically.
  • the arithmetic unit can then redetermined and set the disparities based on the new reference point and an orientation thereof.
  • a person who stands on the reference point can be assumed for generating the spatial images or determining / adjusting the disparities. The person may also look in a certain direction, thereby characterizing the orientation of the reference point.
  • the position and / or the orientation can calculate the arithmetic unit from the third image data stream by z. B. the position and / or orientation of the further object from the third image data stream to a receiving (stereo) camera is determined.
  • a 3D view of the objects, in addition to the stereoscopic view, the one spatial depth also provides a panoramic view to allow the object and thus to include this from every page.
  • Embodiments also show the arithmetic unit which can superimpose sub-picture data on at least a part of the spatial image of the object.
  • the object and / or the further object if they are persons, a face or eye area of another, for example, prominent person are superimposed.
  • the person wears data goggles during the production of the image data stream to acquire the goggles in the virtual environment with an image of the eye area or the face of the person without data goggles, which is kept in a memory, for example replace or overlay.
  • the sub-picture data may also be recorded stereoscopically, so that the overall impression of the user by the sub-picture data is still realistic.
  • the description of the object can also be applied to the further object. Only the reference point and the corresponding image acquisition elements or display elements are to be adapted accordingly.
  • the arithmetic unit may determine an actual appearance of the object and adjust the sub-picture data based on the determined current appearance or select sub-picture data from a plurality of sub-picture data based on the determined current appearance and superimpose the selected sub-picture data on the part of the space picture.
  • the (second or third) image capturing element can capture an eye area or a face of a person as an object and store it as overlay image data.
  • the arithmetic unit can superimpose, for example, a pair of data goggles placed on the person with the overlay images obtained in the initialization phase.
  • the arithmetic unit may adjust the eye area or the face in the sub-picture data based on a state of mind (here, the appearance) of the person and superimpose the adjusted sub-picture data of the person.
  • z. B. in the superposition of the data glasses with the face or the eye area from the overlay image data prominent areas in the overlay image data in the face such as the eyes or the mouth can be adapted to a state of mind of the person. So can be closed by upwardly pointing corner of the mouth on a laugh of the person, so that the inserted eye area laughing, so for example slightly narrowed eyes represents.
  • This modification is applied, for example, to static overlay image data by means of an image processing algorithm so that the static overlay image data is dynamic.
  • a plurality of sub-picture data are stored or stored, for example, by comparing the current recording of the mouth with a mouth from the stored sub-picture data, a matching eye-area or face to be overlaid is obtained.
  • the image pickup unit may apply a plurality of sub-picture data, wherein the arithmetic unit is configured to compare the state of mind based on a comparison of a current position of the mouth angle of the person with a position of the corners of the mouth in the plurality of sub-picture data and the sub-picture containing the current facial expression best possible to select.
  • a method may represent the operations performed by the device.
  • the method can be mapped by a program code which, when executed on a computer, performs the corresponding method steps.
  • FIG. 1 shows a schematic representation of a conventional approach to the production, transmission and display of a stereoscopic film comprising a multiplicity of individual images
  • FIG. a schematic representation of a procedure for the production, transmission and presentation of a stereoscopic film with single models generated from a 3D engine
  • Fig. 3 shows schematically the procedure for removing the background of a
  • FIG. 3 (a) shows the scene initially taken, and wherein Fig. 3 (b) shows the scene with no background;
  • 5 is a flowchart of an embodiment in which the 3D model under
  • FIG. 6 is a flowchart illustrating an embodiment for changing a human face
  • FIG. 7 shows a flow chart of an embodiment of the described method for producing a three-dimensional representation of at least one part of an object, as is carried out, for example, by the system described with reference to FIG. 2;
  • Fig. 8 is a schematic block diagram of the apparatus for displaying a
  • Fig. 9 is a schematic block diagram of the apparatus for displaying a
  • FIG. 8 shows a schematic block diagram of a device 800 for displaying a spatial image from an object into a virtual environment.
  • the device 800 has a first image capture element 802 and a second image capture element 804.
  • a computing unit 806 may receive, process and output the image data of the two image capture elements to a display element 808.
  • the first image capture element 802 may generate a first stereoscopic image data stream 810 from an environment.
  • the image data so z.
  • a video can be used to form the virtual environment. This is for example a meeting room, it can but also to any other scenery in which (as described below) an object is inserted.
  • the second image capture element may generate a second stereoscopic image data stream 812 from the object.
  • the arithmetic unit 806 receives both image data streams 810, 812.
  • the first and second sheet detection members may be physically different. It can therefore be different cameras. It is thus possible to record the environment spatially and temporally independently of the object, for example in an initialization phase. Also, the object may be at a different location, for example, in a room that is optimized to free the object from the background by means of color-based image chroma keying. It can therefore be a "blue screen” or "green screen” box. However, it is also possible that the object is actually in the real environment, which is then recorded, for example, in advance. In this case, the first and second image capture elements can also be the same camera, which, however, records the environment and the object at different times. Thus, the distinction between the first and second image sensing elements may also be purely functional rather than physical.
  • this z. B a 360 ° stereo camera can be used, which records in all directions (or a plurality of discrete directions) a stereoscopic Operajstein- ström from a recording point.
  • This recording can also be carried out from different recording points in order to be able to set disparities starting from the reference point based on real recordings.
  • the reference point is at a distance from a real pick-up point, then the view can also be interpolated or calculated.
  • stereo cameras can be arranged in the room in which the person is for the recording.
  • the stereo cameras can be aimed at the person and record them from different sides.
  • 5 or 7 or any other number of stereo cameras are used to simultaneously capture the object from different sides and to generate with each camera a stereoscopic sub-frame data stream that composes the second stereoscopic image data stream. Since the stereo cameras typically have a distance to each other, they can not provide every possible angle to the object.
  • the arithmetic unit When the reference point is changed to a viewing angle which differs from a viewing angle of one of the stereo cameras, the arithmetic unit has the possibility of viewing the object from z. B. interpolate two stereo cameras have a similar angle. Furthermore, however, a so-called billboard technique can also be used. In this technique, the spatial image of the object is always rotated to the reference point so that the viewing angle of one of the stereo cameras coincides with the viewing angle of the reference point. As a corresponding stereo camera advantageously the stereo camera is selected, which comes closest to the viewpoint of the reference point.
  • the arithmetic unit 806 may receive the first and second stereoscopic image data streams 810, 812. Starting from a reference point, based on the first stereoscopic image data stream, a spatial image of the virtual environment can now be generated. In addition, a spatial image of the object, starting from the reference point, can be inserted from the second stereoscopic image data stream into the virtual environment. The spatial images can be generated based on disparities that are matched to a person standing on the reference point and having a particular line of sight. The arithmetic unit can thus take over the 3D rendering, or more precisely the generation of the spatial images from the stereoscopic image data streams.
  • the arithmetic unit may first select the stereoscopic sub-picture data stream of the first stereoscopic image data stream and / or the second stereoscopic image data stream that comes closest to the reference point. A possible difference between the reference point and a pick-up point from which the environment or the object was recorded can be deducted. For this purpose, among other techniques, an interpolation between two pickup points can be used.
  • the display element 808, starting from the reference point, can display the spatial image of the object in the virtual environment. In this way, the impression of a 3D object in a 3D environment can be conveyed to a viewer of the pointing element.
  • the display element 808 uses, for example, the position and direction for the show that the arithmetic unit has already used to generate the spatial images. In other words, the display element displays the data 814 provided by the arithmetic unit. These are the space image 814a of the object and the space image 814b of the virtual environment.
  • the image capture element 802 can record the environment 820 before the actual usage and transmit the first stereoscopic image data stream 812 to the computing unit 806.
  • the arithmetic unit 806 may be constructed in a decentralized manner, so that a partial computing unit 806a is arranged on the side of a first user 822a and a second partial computing unit 806b is arranged on the side of a second user 822b.
  • the second image capture element 804 may now record the first user 822a and the third image capture element 816 the second user 822b and generate the second and third stereoscopic image data streams 810 and 818, respectively, and transmit them to the respective partial computing unit.
  • connection 824 the two stereoscopic image data streams can be exchanged between the two particle computation units.
  • the connection is z. B. via the Internet.
  • the first stereoscopic image data stream can also be transmitted via the Internet to the first and second partial computing units 806a, 806b.
  • the first partial computing unit can now generate the spatial image of the further object as well as the spatial image of the environment and transmit both for display to the display element 808.
  • the data stream 814a can therefore be the spatial image of the further observer. and the spatial image of the environment.
  • a current position and / or a current viewing direction of the first user 822a can be used as a reference point for the calculation of the spatial images or for the determination of the depth map.
  • a reference point in its real environment usually this is not the environment 820
  • a reference point in its real environment (usually this is not the environment 820) can be specified, which is mapped to a reference point in the virtual environment.
  • a deviation from this reference point in the real environment of the first user can then be provided analogously or with a corresponding scaling factor, transmitted to the virtual environment in order to set the reference point to the corresponding point in the virtual environment. Likewise, it is possible to proceed with the orientation of the user.
  • the spatial image of the environment with the spatial image of the object can now be displayed.
  • the object can be arranged here on the reference point determined above and have a viewing direction in accordance with the orientation.
  • the position and / or orientation of the further object 822b can now be used, which can be determined analogously to the determination thereof in the object 822a.
  • a computing system 826a, 826b each having an image capture element (one or more stereo cameras), a display element, for. B. a screen or a VR (virtual reality) glasses and a corresponding computer has.
  • a computing system 826a, 826b each having an image capture element (one or more stereo cameras), a display element, for. B. a screen or a VR (virtual reality) glasses and a corresponding computer has.
  • other topologies or subdivisions into subunits of the device are also possible.
  • the second and / or the third image-capturing element can record sub-picture data in an initialization phase, ie before the actual operation of the device.
  • These sub-picture data are z.
  • These sub-picture data may also be recorded once for multiple use and then reused in each mode of operation.
  • this z. B. find where the objects, so in this case the user, wearing (in the operating mode) VR glasses.
  • the arithmetic unit can now retouch the VR glasses or overlay them with the overlay image data so that the VR glasses are no longer visible. The users thus have the impression that the other user without VR glasses is filmed, although both users wear such glasses.
  • the overlay image data may be extracted from a corresponding image or image data stream in the initialization phase, and, e.g. B. as well as the image data stream 812 store in a memory of the arithmetic unit.
  • the display element can display the spatial image of the object, for example a user, with the superimposed or textured overlay image data.
  • the sub-picture data may be static (frame) or dynamic ([short] video sequence).
  • sub-picture data are conceivable. It is thus possible, for example, to superimpose the face of a (famous) person over the face of the spatial image of the object instead of the eye area. Alternatively, it is also conceivable to cover one's own face or the eye area with a mask in order to preserve its anonymity in a chat room, for example. Such a mask can also be extracted without an explicit record, for example, from a corresponding stereographic photo or video. Optionally, a computer animation is also conceivable here, since the mask does not necessarily depend on the real impression.
  • natural markers such. B. nose, ears or mouth of the object are used.
  • external markers ie z. As light emitting diodes / lamps or reflectors are attached to the object.
  • the arithmetic unit is configured to determine an actual appearance of the object 822a, 822b and to adjust the sub-picture data based on the determined current appearance.
  • the manifestation is, for example, a smile or another facial expression of a person. This can be determined from the facial features, eg the corners of the mouth.
  • Static overlay image data such as a single image, can now be manipulated such that the eye area in the overlay image data matches the current facial expression.
  • the eye area can be processed in such a way that they appear slightly pinched in order to present a smile.
  • dynamics in the sub-picture data can be generated.
  • a plurality of sub-picture data may also be applied.
  • the current position of the mouth angle of the person can be compared with the position of the corner of the mouth in the overlay image data.
  • the overlay image that best reflects the current facial expression and to match the entire face or even only the eye area of the space image with the overlay image data overlap.
  • a dynamic in the sub-picture data can also be generated from the static sub-picture data.
  • the arithmetic unit may select sub-picture data from a plurality of sub-picture data based on the determined current appearance, and superimpose the selected sub-picture data on the part of the object.
  • the image capture element in the initialization phase, can be designed to scan an eye area or a person's face as an object and to store it as overlay image data, wherein the computing unit is designed to have a person-eye-mounted data goggle with those obtained in the initialization phase in the operating mode Overlay images superimpose.
  • the arithmetic unit can adjust the eye area or the face in the sub-picture data based on a mood of the person and superimpose the adjusted sub-picture data of the person.
  • the image pickup unit may apply a plurality of sub-picture data, wherein the arithmetic unit is configured to compare the state of mind based on a comparison of a current position of the mouth angle of the person with a position of the corners of the mouth in the plurality of sub-picture data and the sub-picture, the best possible the current facial expression to select.
  • the current appearance of the object may be determined 30 to 60 times per second, 35 to 55 times per second, or 40 to 50 times per second.
  • the current appearance of the object for example the facial expression of a person, for each image or each frame of the image data stream, as an average or median of a plurality of images or frames of the image data stream is determined.
  • the image data stream may also have 30 to 60 frames per second, 35 to 55 frames per second or 40 to 50 frames per second, or a multiple thereof. This comparatively high refresh rate makes it possible to update the spatial image in the virtual environment in real time, that is, assuming a sufficient transmission speed, no difference visible to the human being between the object in the real environment and the object in the virtual environment can be recognized.
  • the latency of the object in the virtual environment compared to the object in the real environment is less than 50 ms, less than 30 ms, or less than 20 ms.
  • a user for example by means of an input device, to set his viewing angle in the virtual environment 820 independently of his position in the virtual environment.
  • the user can obtain an individual view of an external observer (third person view) on the room images of himself and the other user in the virtual environment 820. Users can virtually sit face to face and hold their meeting in the virtual conference room.
  • visual objects as a model, room image or hologram in the virtual conference room.
  • the model of an object for example a car, which is true to the original, can be integrated into the conference room whose orientation, size and / or level of detailing can be adapted individually and independently by each of the two persons.
  • Embodiments show that both the image data stream and the overlay image data are generated or recorded by a camera.
  • the user can be given an improved impression of reality than with computer-generated avatars or avatars in which, for example, only the upper body is recorded and computer-animated legs are inserted to give the avatar in the virtual world the opportunity to move.
  • the recorded camera image can be converted by means of the procedure described in FIGS. 1 to 7 into a 3D spatial image in order to enable a reduction in the amount of data to be transmitted.
  • the data reduction is not limited to this method and moreover it is completely optional, since the uncompressed recorded camera images can also be transmitted.
  • the overlay image data can already be recorded in advance and stored in the arithmetic unit. Since one field of application of the device described is a virtual meeting or conference room, the arithmetic unit can be arranged decentrally with the participants of the conference. In order to use the overlay image data efficiently, they can be exchanged, for example, once between the particle computation units of all participants or sent to them. For this purpose, the recorded images or photos or video sequences of the sub-picture data can be used without converting them into a corresponding computer model.
  • the recorded objects in the image data stream and / or the sub-picture data from their real background can be recorded, for example, in a "green box" (in front of a green or a blue background), so that the object can be read by means of color-based image release , chroma keying) can be inserted into the virtual environment.
  • a green box in front of a green or a blue background
  • Embodiments also show that the apparatus shown can be used to visualize cosmetic corrections.
  • sub-picture data e.g. be stored differently lips so that the user from the set of stored overlay image data, the corresponding make-up lips of his choice can overlay his own lips.
  • users can get a better impression of whether the chosen lipstick color matches the rest of the outfit, as they see both in combination.
  • the user may once apply different lipsticks in advance and in an initialization phase and store the overlay image data as a shot from his own lips.
  • the user can thus also in the virtual world and thus, for. make-up for a (professional) meeting without spending time in make-up in real life.
  • the manufacturers of lipsticks corresponding pattern can be provided as overlay image data.
  • the lips have been selected here by way of example, but the principle can be used for any cosmetic corrections, such as a different hairstyle or hair color. Likewise, thus also an existing reading or seeing glasses can be retouched.
  • a similar principle can be applied to the general change of (facial) attributes.
  • the sub-picture data may be manipulated (with the computer) to alter certain attributes of the user. This principle can e.g. used in cosmetic surgery to give the user an idea of what it looks like after a potential procedure.
  • a corresponding method for displaying a spatial image from an object to a virtual environment may include the steps of: generating a first stereoscopic image data stream from an environment; Generating a second stereoscopic image data stream from the object; Receiving the first and second stereoscopic image data streams; Generating a spatial image of the virtual environment starting from a reference point based on the first stereoscopic image data Strom; Inserting the object, starting from the reference point, from the second stereoscopic image data stream into the virtual environment; and displaying, based on the reference point, the spatial image of the object in the virtual environment. Further embodiments of the device can also be applied to the method accordingly.
  • a mesh model of the object may be generated from, for example, the second stereoscopic image data stream.
  • the grid model is invisible to the user, but contains the depth information of the object from the perspective of the stereo camera used.
  • the mesh model can then be inserted into the virtual environment and overlaid with the video images without depth information.
  • the transmission of an image data stream of the stereoscopic image data stream (this contains at least two image data streams) is sufficient to obtain both the real image of the object and the corresponding depth information for generating the spatial image from the object.
  • model and room image refer to the same object, the image of the object in the virtual environment.
  • the spatial image already implies the generation by means of stereoscopic image data, whereas in the model a simple image data stream is sufficient.
  • All embodiments which are directed to a model are analogous to a spatial image transferable.
  • the model has a reduced amount of data when storing or transmitting the model.
  • the aforementioned embodiments can be performed even at low transmission rates or bandwidths in real time.
  • the following embodiments are only illustrative and do not limit the creation of the model to the same.
  • Fig. 1 shows a schematic representation of a conventional approach for the production, transfer and presentation of a stereoscopic film comprising a plurality of individual images.
  • a cube 100 is shown in FIG. 1 as an object to be displayed.
  • a first camera 102 generates a first shot 100a of the cube from a first perspective
  • a second camera 104 generates a second shot 100b of the cube from a second perspective that is different from the first perspective.
  • the receptacles 100a and 100b of the cube 100 are generated from different angles.
  • the thus generated and received frames 100a, 100b are provided to a suitable stereoscopic display unit 108, such as a monitor, for display.
  • a suitable stereoscopic display unit 108 such as a monitor
  • a common 3D camera can also be used, which likewise generates two images of the object 100, which are then transmitted to the monitor 108 for display in the manner described above.
  • the conventional approach described with reference to FIG. 1 is disadvantageous, since the amount of data to be transmitted via the transmission medium 106 of at least two images 100a and 100b is very large, which is accompanied by a correspondingly high data transmission time. Even with a compression of the two-dimensional images or images 100a, 100b, the time required for the compression of the data is large, so that the total transfer time from the location where the image of the object 100 is generated to the location where the three-dimensional rendering should be done, is very high.
  • a stereoscopic image of the cube 100 is assumed, and in the procedure described with reference to FIG.
  • the just mentioned transmission of a live stream in three-dimensional quality or the transmission of a three-dimensional live sequence is desired, for example, in connection with the recording of people and surrounding spaces.
  • the inclusion of humans and surrounding spaces using 3D cameras and playing back as a 3 D film has the above-mentioned problem of immense amounts of data that are not transferable on the Internet, which is due to the fact that the data is as conventional 2D sequences -Bildem must be stored and transferred.
  • FIG. 2 shows a schematic representation of a procedure for producing, transmitting and displaying a stereoscopic film with individual models generated from a 3D engine. Similar to FIG. 1, the three-dimensional image of a cube 100 is also selected in FIG. 2 as the basis for explaining the approach.
  • FIG. 2 shows a schematic overall representation of the system 200 according to exemplary embodiments for generating a three-dimensional representation of at least one part of an object, namely the cube 100.
  • the system 100 comprises the transmission medium 106 already described with reference to FIG and a receiver side 204. Elements which have already been described with reference to FIG. 1 are provided with the same reference symbols in FIG. 2 and will not be explained again in detail.
  • the transmitter side 202 shown in FIG. 2 may, for example, comprise a device for generating data for a three-dimensional representation of at least a part of an object, wherein the device according to the exemplary embodiment shown comprises a 3D engine 206, which is shown schematically in FIG. and receiving as input the SD picture comprising the two pictures 100a and 100b of the cube 100. Based on the 3-D image, the 3D engine generates a model 208 of the cube 100 comprising the vertices A to H located in space at different positions. Depending on which different perspectives the cube 100 is captured from, this includes the 3D engine 206 generated 3D model either the entire object, so the entire cube 100 or only a portion of the cube 100. In the embodiment shown in FIG. 2, it is assumed that only a single 3D image of the cube 100 exists from a perspective, so that the 3D model according to this embodiment would represent only the front and the top of the cube, and correspondingly the vertices A to G exist.
  • the 3D engine 206 would be based on the input data, namely based on the two 3D images, create a 3D model of the cube 208, which includes the vertices A to H, ie a 3D model that can be viewed from all sides.
  • the 3D engine 206 is operative to define the 3D model 208 of the cube 100 in the form of the vertices A through H and as color values associated with the respective vertices.
  • the scene captured by the camera 102, 104 which includes, for example, the cube 100, provides at the output of the 3D engine 206 a frame including color values and depth information.
  • the color values consist in each case, according to one embodiment, of one byte for red, one byte for green and one byte for blue (RGB color values), ie 3 bytes in total.
  • the depth information includes the X, Y, and Z values for the vertices of the 3D model in three-dimensional space.
  • the X, Y, and Z values may each be stored as single precision floating point numbers, for example, 32 bits long.
  • the sequence of X, Y and Z values are referred to as vertices, and the set of all vertices of the SD model 208 is referred to as a point cloud.
  • the example of the generation of data for the three-dimensional representation of a cube 100 shown there does not represent a restriction; in fact, the object 100 can be any object of arbitrarily complex structure, for example also a representation of a person or a machine.
  • the 3D engines shown in Fig. 2 may be e.g. be implemented by computer systems, which are possibly equipped for a generation of 3 D models hardware technically and on which appropriate software is provided for execution.
  • the device 202 is configured to repeatedly generate a 3D image 100a, 100b of the object 100 to provide data for a plurality of consecutive frames for transmission over the medium 106 so as to provide a live 3D sequence on the receiver side 204 or a 3D movie.
  • up to 30 frames per second are generated by device 202, i. Up to 30 frames are taken by the object 100.
  • Each frame is encoded via the 3D engine 206 using the 3D model, as described above, so that each of the 30 frames per second contains a dataset containing the vertices and the color values of the object 00 associated with the vertices at the time of acquisition ,
  • the device 202 and the method implemented thereby is advantageous because an amount of data that is transmitted via the transmission medium 106 is significantly reduced, which also significantly reduces the transmission time.
  • the time for calculating the 3D models is shorter than that for compressing individual images according to Time required in the prior art.
  • the complete transmission of the 3D information via the 3D model on the receiver side makes it possible to freely choose a viewpoint on the object on the receiver side, since the actual images after transmission of the data of the 3D model at the receiver side by a 3D engine at runtime be generated and displayed.
  • the data (the data set) describing the 3-D model 208 generated on the transmitter side is transmitted via the transmission medium 106 to the receiver side 204, so that the corresponding data representing the 3D model 208 'is transmitted. be present on the receiver side 204.
  • These data are fed to a 3D engine 210 which, on the basis of the 3D model, generates the 3D image of the object in the corresponding frame, for example the two images 100a, 100b, which then, as in the prior art, a suitable monitor 108 or other suitable display device for the three-dimensional representation of the object on the receiver side 204 are provided.
  • an approach is taught in which a transmission of a sequence of individual 3D models is performed, rather than a transmission of a sequence of individual 2D images, as is the case in the prior art.
  • the SD models 208 are generated prior to transmission using the 3D engine 206, where the 3D engine recognizes edges from the images 100a, 100b, for example, and generates the 3D model based on the detected edges.
  • the 3D engine 206 may determine common areas in the images 100a, 100b, eg, common edges associated with the object 100 to determine the resulting 3D mesh from the object 100.
  • the 3-D model described by the vertex and color values is converted back into the two images 100a and 100b by the receiver-side 3D engine 210 to image the 3-D object from different angles with the individual images of a and b which are then displayed on the stereoscopic output device 108.
  • the object is a person who is inside a scene.
  • the scene encompasses the human being, who stands in a room and easily moves back and forth in his or her place.
  • the device 202 (see FIG. 2) records 30 frames per frame of this scene per second, and generates for each frame a corresponding 3D model of the scene and describes it by the vertices and color values.
  • each frame (each As mentioned above, the color values and the depth information, for example RGB values and XY and Z values, each defining a vertex, the plurality of vertexes forming a point cloud.
  • it may be desirable to extract the background from the scene for example, when only the person's image is to be transmitted to the receiver side 204 (see FIG. 2) and displayed there for example with a different background, either from the scene Sender is transmitted to the receiver in advance or in parallel or is specified at the receiver.
  • the Z value of each vertex is compared with a corridor distance (threshold distance) of the standing area of the person to be represented, and distances indicating that a vertex is farther away or closer than the corridor distance is recognized as a background vertex and omitted. ie, only those vertices are allowed that are within the corridor distance, and the data thus obtained are those that map the person in a point cloud. In other words, the number of vertices that define the point cloud per frame is reduced by those that are clearly assigned to the background.
  • FIG. 3 schematically illustrates this approach, with FIG. 3 (a) showing the initially recorded scene 300, in which a person 302 (object) is depicted standing on a floor 304. Furthermore, a rear wall 306 is shown. Along the Z-coordinate is shown the area 308 bounded by the dashed lines 308a, 308b extending in the X-direction.
  • the region 308 is the above-mentioned threshold corridor, and according to embodiments, vertex values of a 3D model generated due to the 3-D image of the scene 300 are deleted, provided that they are outside the threshold corridor 308, so that the in Fig. 3 (b) shows that only the person 302 and part of the bottom 304 'remain.
  • the data model of the person 302 generated by the 3D engine may be, for example, a mesh model or a triangular mesh, depending on the 3D engine used.
  • a mesh model or a triangular mesh, depending on the 3D engine used.
  • the edge region of the 3D model can be smoothed by a smoothing algorithm, for example by a smoothing algorithm that filters out large depth values or depth separations.
  • an object 100, 302 can be picked up from multiple perspectives.
  • One reason for the multiple shots may be that the object is to be completely imaged, so that a complete 3 D model is present.
  • a situation may arise that due to the design of the object, for example due to a concealment of a part the body of a person by a hand of the person or by a projecting portion of an object underlying sections are not detected by a 3 D shot.
  • these holes are caused by the fact that the distance of the infrared sensor and the imaging camera is a few centimeters, so that the viewing pyramids of both sensors are not completely covered.
  • perspective occlusions e.g. a hand of a person in front of their body, thus arise areas that have no triangular mesh or no portion of the 3 D model as a basis, or even areas that have no image texture.
  • the textured 3D models of the person's various overlapping views obtained in the manner described above are subsequently connected, according to embodiments, to a 360 ° all-round view of the person.
  • Each two overlapping triangular meshes are brought to overlap in overlapping areas and starting with a given plane, for example a horizontal plane (X-Z plane), those vertices are identified which have a predetermined distance from each other.
  • a given plane for example a horizontal plane (X-Z plane)
  • those vertices are identified which have a predetermined distance from each other.
  • the distance can be varied. For example, depending on the later transmission of the data, with knowledge of the transmission medium, the amount of data can be adapted to a bandwidth and the distance determined accordingly.
  • the identified points are grouped together in a new triangle mesh, and when a point set, for example, a circular point set is found on a plane, the method moves to the next higher level, which is repeated until the relevant point cloud or vertices for the outer shell of the object are found. For example, all the resulting points can be displayed from bottom to top in a linked spindle. As a result, a textured connected point cloud of the outer shell of the object is obtained as a frame, in short, a plurality of X, Y, Z values in an order.
  • a 3D model of the part of the object is generated using a 3D image of the part of the object.
  • data is provided using the 3-D model describing the vertices of the part of the object in three-dimensional space and the color values associated with the vertices.
  • the method includes, as an optional step, extracting the background S104 from the data using the Z value of each As discussed above, and as a further optional step, correcting S106 of a peripheral area of the object by filtering out of depth intervals exceeding a predetermined threshold, as discussed above.
  • edge region correction may include anti-aliasing and avoidance of spikes containing large steep slope depth values.
  • Steps S100 through S106 may be used to generate a 3-D live sequence or 3D movie for each frame of the sequence, respectively / of the movie, each frame being a frame of the sequence / movie.
  • the repetition rate is 30 frames per second.
  • texture information may be interpolated between the vertex values (vertices) and thus requires little data width.
  • step S108 a first 3D model is generated using the first 3D shot and a second 3D model using the second 3D shot.
  • step S1 10 the first 3 D model and the second 3 D model are connected to generate a common 3 D model, using the data provided in step S102 (see FIG generated and deployed in a common 3D model.
  • the joining of the two SD models according to the illustrated embodiment comprises the step S110a, in which the two 3D models are arranged so that their overlapping areas are in coincidence.
  • step S1 10b the vertices that are within a predefined distance are defined, and the identified vertices are summarized in step S1 10c.
  • Steps S1 10a to S1 10c are repeated if it is determined in step S1 12 that not all predetermined levels relating to the 3-D model have been processed yet. In this case, another plane is selected in step S1 14, and the process returns to step S1 10b. Otherwise, if it is determined in step S1 12 that all levels have been processed, the method ends in step 1 16.
  • the object may also be the background of a Be room to be displayed on the receiver side so that a user on the receiver side can view the room from different perspectives and can move within predetermined limits within the room.
  • the 3D image includes a 3D image of the background of a room, for example, according to the steps S100 to S116, but without the step S104, as removal of the background at this point is of course not meaningful.
  • the steps in block S110 result in a connection of the various receptacles of the interior to produce the inner envelope of the space.
  • it can be provided to define an area, for example a circular area, in which a user can "move freely” when displaying the thus generated three-dimensional space on the receiver side, so as to create the illusion of a live 3D image. To get movies.
  • FIG. 6 shows a flowchart illustrating the embodiment for changing a human face.
  • the method is based on an object representing the face of a person, and in a step S1 18, a static facial model of an original face of another person is first provided.
  • the first position may be, for example, a so-called look-a-like person who looks similar to the other person, for example a known person.
  • the face model of the other person's original face is a textured 3D model with texture that example, from a photo or film recording of the other person has emerged and thus can have a correspondingly high recognition effect.
  • a position of the person's face in space is determined upon generation of the 3D shot.
  • a positioning device e.g. Nexonar, a device equipped with a sonar sensor that is worn on the back of the head, or a raycasting device.
  • the 3D model of the person's face is superimposed on the other person's static face model, and in step S124, the 3D model of the person's face is adjusted to those points where there is no movement, to the other person's static facial model.
  • the difference between the two 3D models or triangular gratings may be added at those locations where there is no movement, e.g.
  • step S126 a texture is created from the 3D image of the person's face, at those locations where there is movement, to create a hole mask texture that is semi-transparently textured to the common or new 3D model in step S128 so as to obtain, at runtime, a 3D model that is recognizable to human eyes as a sequence of moving and animated representation of the original face.
  • step S130 An exemplary embodiment for generating a three-dimensional representation of at least one part of an object is explained in more detail below with reference to FIG. 7, as is carried out, for example, by the system described with reference to FIG. 2.
  • step S130 data are generated for the three-dimensional representation of the at least one part of the object, in accordance with the method described above, as explained, for example, with reference to FIGS. 4, 5 and 6 or as with the receiver side 202 in Fig. 2 has been explained.
  • step S132 transmission of the data via the transmission medium 106 is performed from the transmitter side 202 to the receiver side 204 (see FIG. 2), and in step S134, the 3D images 100a and 100b shown in FIG 3D engine 210 generated on receiver side 204.
  • step S 36 The production of the 3D image is done by a 3D engine to stereoscopically display or project the object.
  • the 3D image is displayed by a display device, for example an autostereoscopic 3D monitor 108 or a battery of high-speed projectors.
  • the data generated in step S130 may be appropriately reduced again by quantization, but at the cost of data loss.
  • a region of interest encoding Rol coding
  • the amount of data can be binary coded and further reduced, e.g. by run-length coding and similar approaches known in the art.
  • the transmission in step S132 may be over the Internet or an intranet, for example, through a client-server relationship using the TCP-IP protocol, the UDP protocol, or the server-side protocol.
  • the transmission S132 can also lead to a local storage of the received frames / frames as a local file.
  • step S134 prior to providing the data to the 3D engine 210, the data may be unpacked prior to transmission and buffering the data, buffers being provided to ensure that after reaching an initial desired filling state continuous processing of the data packets is possible, even at different or varying data rates with which the corresponding data packets are received at the receiver.
  • step S138 may include displaying using the stereoscopic 3D Pepper's ghost method to generate holograms, as illustrated in step S140, where an autostereoscopic SD monitor or a battery of high-speed projectors is provided, in order to project suitable SD images, for example the images 100a, 100b (see FIG. 2) generated by the 3D engine 210, onto a glass pane comprising a lenticular grid or a suitable 3D structure, so that in a predetermined viewing direction the glass pane for the human eye creates a 3D hologram.
  • suitable SD images for example the images 100a, 100b (see FIG. 2) generated by the 3D engine 210
  • a user selects a perspective on the receiver side from which the object is to be viewed, as indicated in step S142, and according to step S144 the object is subsequently represented from the selected perspective, based on the received data describing the 3-D model of the object without requiring a return channel to the point where the 3-D image of the object is generated.
  • step S142 the object is subsequently represented from the selected perspective, based on the received data describing the 3-D model of the object without requiring a return channel to the point where the 3-D image of the object is generated.
  • the recipient side has the option of a user freely selecting a perspective with which he wants to look at the corresponding object Representation required 3D recordings generated from the 3 D model on the receiver side.
  • a perspective with which he wants to look at the corresponding object Representation required 3D recordings generated from the 3 D model on the receiver side.
  • the corresponding 3D images for the representation on the receiver-side monitor can be generated without the need for a new recording and thus a retransmission of the data or a return channel to the transmitter.
  • This embodiment is preferably used in the following applications: ⁇ Presentations at trade fairs or shows with glass panel in human size or larger;
  • Communication application in the desk e.g. in the form of a monitor-sized glass panel that can be moved out of the desk, on which a hologram of the face of a conversation partner appears;
  • In the living area, in which a glass pane with projection hardware of any size is set up, or outside window panes, so that one or more conversation partners standing in the living area can be displayed as a hologram.
  • the present embodiments are applied to monitoring as display and transmission of changing contents. For some applications, monitoring, detection, and transmission of changing content is particularly important.
  • differences of a static 3 D model within certain limits (thresholds) are created to a recorded live image to detect changes faster and more accurate than in a 2D video image. For example, consider the monitoring of a drilling rig.
  • a static 3 D model of the drilling rig is compared several times a second with a 3D image from a viewpoint on the drilling rig, whereby, for example, the drilling rig can be animated via the 3-D engine during runtime.
  • Changes in the live 3D model such as entering a human into a shooting area, are compared to the static SD model and can trigger alerts.
  • embodiments provide a method for generating data for a two- or three-dimensional representation of at least a portion of an object, comprising: Generating a 3-D model of the part of the object using an SD photograph of the part of the object; and
  • the approach for generating data for a two- or three-dimensional representation is advantageous since, unlike in conventional approaches, the elaborate transmission of two-dimensional image data is dispensed with. Rather, starting from the three-dimensional image data, which represent a 3D image of the part of the object, a 3 D model is created, which represents at least the part of the object from which the SD image was obtained.
  • This 3D model can be, for example, a grid model or a triangular mesh, as is known, for example, from the field of CAD technology.
  • the model obtained in this way can be described by the position of the vertex values in three-dimensional space, for example in the Cartesian coordinate system by the X, Y and Z values of the vertices.
  • the color values can be assigned to the corresponding vertices, if necessary also texture information is transmitted.
  • the amount of data generated thereby is many times less than the amount of data obtained when transferring a 2D image with a size of 1024 x 768 pixels, so that due to the small amount of data for displaying the object in three-dimensional form and delay-free transmission of the data over a transmission medium is made possible, in particular the problems associated with the conventionally incurred in the prior art large amounts of data are prevented.
  • the data thus generated can either be used to generate a three-dimensional representation (eg a 3D I_ivesequenz or a 3D movie) or to generate a two-dimensional representation (eg a 2 D-Livesequenz or a 2D film) on a suitable display device for displaying the object or part of the object.
  • a three-dimensional representation eg a 3D I_ivesequenz or a 3D movie
  • a two-dimensional representation eg a 2 D-Livesequenz or a 2D film
  • the 3D capture includes the portion of the object and a background, the method further comprising extracting the background from the data using the Z value of each vertex, for example, by removing a vertex from the data when the Z value the peak value is outside a predefined range.
  • the method may additionally be provided to correct the edge region of the object by filtering out depth distances exceeding a predetermined threshold.
  • This procedure is advantageous because it allows the recorded object to be displayed in a simple manner without the likewise recorded background, and thus only the data for the actual object is generated, but not the background data that may not even be required, so that This achieves a further reduction in the amount of data. Furthermore, this procedure makes it possible to represent the object to be displayed three-dimensionally by the generated data on the receiving side in another context, for example in front of another background.
  • the 3D model is generated using at least a first 3D image and a second 3D image of the object from respectively different positions, the first and second 3D images overlapping at least partially.
  • the different positions may be selected such that a region of the object that is not visible in the first 3D image of the object is visible in the second 3D image of the object.
  • it may be provided to generate a first 3D model using the first 3D image and a second 3D model using the second 3D image, and to add the first and second 3D models into a common 3D model connect, providing the data using the common 3D model.
  • connecting the first and second 3D models to a common 3D model may include: arranging the first and second SD models such that their overlapping areas are in registration, identifying the vertices from the first 3D model, and from the second 3D model lying within a plane within a predefined distance, and merging the identified vertices into a new vertex in the common 3D model.
  • the identifying and summarizing is repeated for a plurality of levels, wherein the number and the spacing of the plurality of levels is selected so that the part of the object is represented by the common 3D model.
  • This refinement is advantageous since it ensures that all regions of the part of the object which is to be represented three-dimensionally are described by corresponding data of the 3D model, so that, in particular in a representation, not shown sections of the object can be seen from FIG different perspective and from a different perspective.
  • the provision of the data comprises reducing the amount of data without data loss, by determining the spatial distances of the peak values, and correcting the spatial distances as a sequence difference starting from a predetermined starting point. According to embodiments, it may be provided to start coding at a lower point of the object and to continue spiraling to an upper point of the object.
  • This procedure is advantageous since it allows a further reduction in the amount of data without any loss of data since, starting from the starting point which is completely encoded, only the difference values to the positions of the adjacent vertices have to be defined, which leads to the further reduction mentioned the amount of data.
  • the generation of the 3 D model comprises providing the 3D image of the object or the part of the object by a 3D camera or providing a stereoscopic image of the object or the part of the object.
  • the object is a person, an animal, an object or a background.
  • This approach is advantageous because the approach has not been subject to any restrictions with regard to the object to be displayed, since from the 3D images of the object in the manner described a significantly reduced data set for describing the same can be obtained in three-dimensional form.
  • the object is a background
  • this is advantageous since it provides the possibility of providing a desired background and of providing it to a remote position for display in a three-dimensional configuration, in particular the representation of the entire background, for example one Space taken by several cameras in a three-dimensional way, the creation of data to represent the background based on the 3D model, which are transmitted with a reduced amount of data and allow it at the receiving point, the background, such as the room to be generated in such a way that a viewer at the place of reception is able to perceive the background from any position / perspective.
  • generating the 3D model and providing the data at a predetermined repetition rate are repeated to generate a plurality of temporally consecutive frames, each containing the provided data and displayable as a 3-D sequence.
  • the repetition rate is selected such that up to 30 frames are generated in one second.
  • the object is at least the face of a person
  • the present method comprises for each frame the following: see facial model of an original face of another person, determining a position of the face of the person in the room in the generation of the 3 D shot, overlaying the 3D model of the person's face with the static face model of the other person, fitting the 3D model of the face the person in those places where there is no movement, to the static face model of the other person, creating a texture from the 3D image of the person's face, which is transparent at the respective locations where there is movement, to create a hole mask texture, and semi-transparent texturing of the hole mask texture to the customized 3D model of the person's face so that a resulting 3D sequence to the human eye shows a moving and animated representation of the original face.
  • This approach is advantageous in that it allows a simple way of associating a person resembling a known person in terms of physique and stature with the facial contours of the other person, so that the data provided are based on those described Have a small amount of data, can be prepared at the receiving point so that the local viewer gets the impression that the other person is shown, which is particularly advantageous in the field of entertainment industry and similar areas.
  • Embodiments also provide a method of generating a two- or three-dimensional representation of at least a portion of an object, comprising:
  • This procedure is advantageous because, due to the described approach, the data generated for the three-dimensional representation have only a small amount of data and are therefore transmitted in a simple manner.
  • the data thus received, which display the 3D model, make it possible, by applying a 3D engine, to generate a corresponding 3D image of the part of the object, which then opens conventional manner for three-dimensional representation on a display device, such as a stereoscopic monitor can be used.
  • a display device such as a stereoscopic monitor
  • the 3D engine generates up to 30 3D images per second, which is advantageous since moving images, ie 3 D films or 3 D sequences, can be generated from the received data.
  • the method includes displaying the 3D shot by a display device, e.g. an autostereoscopic 3D monitor or by a battery of high-speed projectors, wherein it may be provided that the display device using the stereoscopic 3D Pepper's Ghost method for generating holograms works.
  • the method may comprise projecting the 3D images generated by the 3D engine onto a glass pane comprising a lenticular grid or a suitable 3D structure such that a 3D hologram is provided within a region in front of the glass pane for the human eye arises.
  • the transmission of the data may include transmission over the Internet or an intranet, e.g. through a client-server relationship using, for example, the TCP-IP, UDP, or Serverside protocol.
  • a local storage of the data may be provided as a file.
  • This procedure is advantageous because conventional transmission media are used since, due to the described procedure, there are no special requirements for the provided bandwidth and transmission capacity.
  • This approach is a particular advantage of the approach described because a 3D model of the object or part of the object is generated at the receiver side, which is transmitted in the manner described above to the receiver side, with a reduced amount of data. This allows the receiver side, based on a corresponding 3D engine, to recover the original 3D model so that the entire 3D representation of the object is present at the receiver side.
  • Such a procedure is not readily possible in the state of the art, as here only the images generated on the transmitter side are present, which are to be combined for the three-dimensional representation on the display.
  • Embodiments further provide a computer program with instructions for carrying out the method when the instructions are executed by a computer, whereby the advantages mentioned above are also achieved in a computer implementation of the described approach.
  • Embodiments further provide apparatus for generating data for a two- or three-dimensional representation of at least a portion of an object, comprising: an input configured to receive a 3D photograph of the portion of the object; a 3D engine connected to the input and configured to generate a 3D model of the part of the object using the received 3D image and, using the 3D model, to generate data representing the vertices of the part of the object in three-dimensional space and the
  • Describe color values associated with vertices and an output connected to the 3D engine and configured to provide the generated data.
  • the 3D engine is configured to extract a background in the 3D image from the data using the Z value of each vertex, preferably an edge region of the part of the object by filtering out depth distances exceeding a predetermined threshold. Getting corrected.
  • the input is configured to receive at least a first SD image and a second 3D image of the object from respectively different positions, the first and second 3D images at least partially overlapping.
  • the 3D engine is configured to generate the 3D model using the first 3D image and the second 3D image of the object.
  • the 3D engine generates a first 3D model using the first 3D shot and a second 3D model using the second 3D shot and a common 3D model using the first and second 3D models, wherein the data is generated using the common 3D model.
  • the 3D engine effects a reduction in the amount of data without loss of data by determining the spatial distances of the peaks, and coding the spatial distances as a sequence, starting from a given starting point to an end point.
  • the device comprises a 3D camera or a stereoscopic recording device for generating the 3D image of the object, wherein the 3D camera or the stereoscopic recording device is connected to the input.
  • the 3D engine is configured to generate the 3D model and data at a particular repetition rate to generate a plurality of temporally consecutive frames, each containing the provided data and displayable as a 3D sequence.
  • the object is at least a person's face
  • the 3D engine is configured to determine, for each frame, a position of the person's face in space in the generation of the 3D shot, the 3D model of the person's face overlaying another person's face with a static facial model of an original face in order to fit the 3D model of the person's face in those areas where there is no movement to the static facial model of the other person in order to obtain a texture from the 3D
  • Embodiments provide a system for generating a two- or three-dimensional representation of at least a portion of an object, comprising: means for generating data for the two- or three-dimensional representation of the at least one portion of the object according to embodiments, a transmission medium for transmitting the data is connected to the device for generating the data, and a 3D engine connected to the transmission medium and configured to generate a 2D or 3D photograph of the portion of the object using the transmitted data.
  • the system comprises a display device, for example in the form of an autostereoscopic 3D monitor or in the form of a battery of high-speed projectors, which is connected to the 3D engine.
  • the display device operates using the stereoscopic 3D Pepper's Ghost method for generating holograms, and is configured to project the 3D images generated by the 3D engine onto a glass panel that includes a lenticular grid or a suitable 3D structure. so that a 3D hologram is created for the human eye within an area in front of the glass pane.
  • the 3D engine of the system is configured to receive a selection of a perspective from which to view the object and the object from the selected perspective based on the received data representing the 3D model of the object describe, so that no return channel is required to the point where the 3D image of the object is generated.
  • Embodiments thus provide the opportunity for interactive real-time SD graphics.
  • the existing problem in the prior art with regard to the enormous amount of data concerning the representation of 3D objects is addressed in accordance with embodiments with the aid of a 3D engine on which, for example, a so-called real-time software for the representation of a computer graphic runs.
  • the spatial component of the 3D model is exploited as a deterministic sequence of spatial distances, so that the amount of data is significantly reduced while the quality remains the same.
  • the resulting amount of data as a result of spatial distances is orders of magnitude smaller than the amount of data in the prior art for transmitting 3D image data as a result of 2D images.
  • the spatial encoding of distance values can be performed faster than the compression of 2D image data, making it possible to perform a live transmission of 3D image data in real time, with a suitable 3D engine at the receiver in three dimensions with interactive viewpoint change or as a stereoscopic movie as multiple 2D images per frame.
  • Embodiments have been described in connection with the 3D representation of an object or a part of the object.
  • the described approach can also be used in a two-dimensional representation of the object or part of the object, e.g. in that the generated data, which reproduce the SD model, are processed and displayed on the receiver side only as 2D images or as a 2D image sequence. Also in this case, the above-mentioned advantages result over a conventional transmission of 2D images.
  • aspects have been described in the context of a device, it will be understood that these aspects also constitute a description of the corresponding method, so that a block or a component of a device is also to be understood as a corresponding method step or as a feature of a method step. Similarly, aspects described in connection with or as a method step also represent a description of a corresponding block or detail or feature of a corresponding device. Depending on particular implementation requirements, embodiments of the invention may be implemented in hardware or in software.
  • the implementation may be performed using a digital storage medium, such as a floppy disk, a DVD, a Blu-ray Disc, a CD, a ROM, a PROM, an EPROM, an EEPROM or FLASH memory, a hard disk, or other magnetic disk or optical memory are stored on the electronically readable control signals that can cooperate with a programmable computer system or cooperate such that the respective method is performed. Therefore, the digital storage medium can be computer readable.
  • some embodiments according to the invention include a data carrier having electronically readable control signals capable of interacting with a programmable computer system such that one of the methods described herein is performed.
  • embodiments of the present invention may be implemented as a computer program product having a program code, wherein the program code is operable to perform one of the methods when the Computer program product runs on a computer.
  • the program code can also be stored, for example, on a machine-readable carrier.
  • inventions include the computer program for performing any of the methods described herein, wherein the computer program is stored on a machine-readable medium.
  • an embodiment of the method according to the invention is thus a computer program which has a program code for performing one of the methods described herein when the computer program runs on a computer.
  • a further embodiment of the inventive method is thus a data carrier (or a digital storage medium or a computer-readable medium) on which the computer program is recorded for carrying out one of the methods described herein.
  • a further embodiment of the method according to the invention is thus a data stream or a sequence of signals, which represent the computer program for performing one of the methods described herein.
  • the data stream or the sequence of signals may be configured, for example, to be transferred via a data communication connection, for example via the Internet.
  • Another embodiment includes a processing device, such as a computer or a programmable logic device, that is configured or adapted to perform one of the methods described herein.
  • a processing device such as a computer or a programmable logic device, that is configured or adapted to perform one of the methods described herein.
  • Another embodiment includes a computer on which the computer program is installed to perform one of the methods described herein.
  • a programmable logic device eg, a field programmable gate array, an FPGA
  • a field programmable gate array may cooperate with a microprocessor to perform one of the methods described herein.
  • the methods are performed by any hardware device. These may be a universal hardware such as a computer processor (CPU) or hardware specific to the process, such as an ASIC.

Abstract

Es ist eine Vorrichtung zur Darstellung eines Raumbilds von einem Objekts in eine virtuellen Umgebung gezeigt. Die Vorrichtung weist ein erstes Bilderfassungselement auf, das ausgebildet ist, einen ersten stereoskopischen Bilddatenstrom von einer Umgebung zu erzeugen. Ein zweites Bilderfassungselement kann einen zweiten stereoskopischen Bilddatenstrom von dem Objekt erzeugen. Ferner ist eine Recheneinheit ausgebildet, den ersten und den zweiten stereoskopischen Bilddatenstrom zu empfangen, ausgehend von einem Bezugspunkt, basierend auf dem ersten stereoskopischen Bilddatenstrom ein Raumbild der virtuelle Umgebung zu erzeugen und das Objekt, ausgehend von dem Bezugspunkt, aus dem zweiten stereoskopischen Bilddatenstrom in die virtuelle Umgebung einzufügen. Ein Anzeigeelement kann, ausgehend von dem Bezugspunkt, das Raumbild von dem Objekt in der virtuellen Umgebung anzeigen, so dass einem Betrachter des Anzeigeelements der Eindruck eines 3D-Objekts in einer 3D-Umgebung vermittelt wird.

Description

Vorrichtung und Verfahren zur Darstellung eines Raumbilds von einem Objekt in einer virtuellen Umgebung
Beschreibung
Die vorliegende Erfindung bezieht sich auf das Gebiet der Erzeugung von Raumbildern, also Bildern, die einem Anwender einen dreidimensionalen Eindruck vermitteln in eine virtuelle Umgebung, wobei die virtuelle Umgebung ebenfalls Raumbilder aufweisen kann. Ausführungsbeispiele zeigen einen virtuellen Konferenzraum, in dem eine oder mehrere Personen basierend auf einem aktuellen Video der Person in Echtzeit, d.h. ohne dass für die Person(en) eine nennenswerte Verzögerung der eigenen Bewegung mit der Bewegung des Raumbilds im virtuellen Raum erkennbar ist, dargestellt wird. Somit kann den Nutzern ein vollständiger dreidimensionaler Eindruck der Personen, die sich im gleichen Konferenzraum befinden, sowie des Konferenzraumes selber, vermittelt werden. Ergän- zend kann der Konferenzraum sowie die Personen nicht mittels computeranimierter Darstellungen sondern vielmehr basierend auf real aufgenommenen Videos erzeugt werden.
Bekannte Systeme, die beispielsweise die Unterhaltung in Chaträumen visualisieren, nutzen bislang zur Darstellung von Personen Avatare, d.h. künstliche Darstellungen, die kei- nen oder nur einen sehr geringen Bezug zu der dargestellten Person haben. So sind derzeit zumindest die Umgebung, die dargestellten Personen oder beide bei einer vollständig stereoskopischen Darstellung computergeneriert. Bestenfalls wird eine reale Aufnahme z.B. mittels Polygonen nachgebildet. Das Resultat ist jedoch eine computergenerierte virtuelle Darstellung, die jedoch keinen realitätstreuen Eindruck bei Benutzern hinterlasen kann.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein verbessertes Konzept zur Darstellung von Objekten in einer virtuellen Umgebung zu schaffen. Diese Aufgabe wird durch den Gegenstand der unabhängigen Patentansprüche gelöst. Erfindungsgemäße Weiterbildungen sind in den Unteransprüchen definiert.
Ausführungsbeispiele zeigen eine Vorrichtung zur Darstellung eines Raumbilds von einem Objekts in eine virtuellen Umgebung. Die Vorrichtung weist ein erstes Bilderfassungsele- ment auf, das ausgebildet ist, einen ersten stereoskopischen Bilddatenstrom von einer Umgebung zu erzeugen. Ein zweites Bilderfassungselement kann einen zweiten stereo- skopischen Bilddatenstrom von dem Objekt erzeugen. Ferner ist eine Recheneinheit ausgebildet, den ersten und den zweiten stereoskopischen Bilddatenstrom zu empfangen, ausgehend von einem Bezugspunkt, basierend auf dem ersten stereoskopischen Bilddatenstrom ein Raumbild der virtuelle Umgebung zu erzeugen und das Objekt, ausgehend von dem Bezugspunkt, aus dem zweiten stereoskopischen Bilddatenstrom in die virtuelle Umgebung einzufügen. Ein Anzeigeelement kann, ausgehend von dem Bezugspunkt, das Raumbild von dem Objekt in der virtuellen Umgebung anzeigen, so dass einem Betrachter des Anzeigeelements der Eindruck eines 3D-Objekts in einer 3D-Umgebung vermittelt wird.
Der vorliegenden Offenbarung basiert auf der Idee, die User Experience, also den Eindruck eines virtuellen Raumes zu maximieren, indem sowohl die Umgebung als auch die darin dargestellten Objekte sowohl stereoskopisch als auch mit der ursprünglichen Videoaufnahme der Szenerie dargestellt werden. Ein Benutzer kann somit beispielsweise über eine Videobrille oder eine andere geeignete Anzeige in eine Videowelt (und nicht wie bisher in eine computeranimierte Welt) des virtuellen Raumes eintauchen, wodurch die realitätstreue der Oberflächen verbessert wird. Ferner wird durch die stereoskopische Darstellung der Videos die Tiefeninformation der Umgebung sowie der darin dargestellten Objekte gewahrt und dem Benutzer somit auch die räumliche Darstellung realitätstreu widerge- geben. Durch die Kombination der Oberflächendarstellung und der räumlichen Darstellung wird dem Benutzer somit der Eindruck vermittelt, er stünde tatsächlich in der aufgenommenen, echten Umgebung.
Ausführungsbeispiele zeigen die Vorrichtung mit einem dritten Bilderfassungselement, das ausgebildet ist, einen dritten stereoskopischen Bilddatenstrom von einem weiteren Objekt zu erzeugen. Die Recheneinheit kann den dritten stereoskopischen Bilddatenstrom empfangen und eine Orientierung des weiteren Objekts in dem dritten stereoskopischen Bilddatenstrom ermitteln. Optional kann die Recheneinheit ferner Disparitäten des Raumbilds der virtuellen Umgebung sowie Disparitäten des Raumbild des Objekts basierend auf der Orientierung des weiteren Objekts ausgehend von dem Bezugspunkt einstellen. Allgemein ist die Recheneinheit ausgebildet, das Objekt aus dem dritten stereoskopischen Bilddatenstrom als Raumbild in der virtuellen Umgebung einzufügen. Um die Tiefeninformationen des Raumbildes (bzw. die Lage der zumindest zwei Bilddatenströme des stereoskopischen Bilddatenstroms anzupassen, können ferner die Disparitäten bzw. eine Tie- fenkarte ausgehend von dem Bezugspunkt erzeugt bzw. eingestellt werden. Das Anzeigeelement kann nun, unter Berücksichtigung der ermittelten/eingestellten Disparitäten bzw. basierend auf der Tiefenkarte des Raumbilds und der virtuellen Umgebung, das Raumbild von dem Objekt in der virtuellen Umgebung, d.h. in dem Raumbild der virtuellen Umgebung, anzeigen. Die Begriffe Disparität und Tiefenkarte können ferner wechselseitig verwendet werden.
Ausführungsbeispiele zeigen die Vorrichtung, wobei die Recheneinheit ausgebildet ist, ein Raumbild des weiteren Objekts aus dem dritten stereoskopischen Bilddatenstrom in die virtuelle Umgebung einzufügen und Disparitäten des Raumbilds des weiteren Objekts basierend auf einer Orientierung es Objekts einzustellen. Die Disparitäten können ausge- hend von einem weiteren Bezugspunkt eingestellt werden. Ein weiteres Anzeigeelement kann, unter Berücksichtigung der Disparitäten des Raumbilds und der virtuellen Umgebung, das Raumbild des weiteren Objekts in der virtuellen Umgebung anzeigen, so dass einem Betrachter des weiteren Anzeigeelements der Eindruck eines 3D-Objekts in einer 3D-Umgebung vermittelt wird. Der Betrachter des weiteren Anzeigeelements kann somit das Raumbild des Objekt aus dem zweiten stereoskopischen Bilddatenstrom angezeigt bekommen wohingegen der Betrachter des Anzeigeelements das Raumbild des weiteren Objekts angezeigt bekommen kann.
Ausführungsbeispiele zeigen die Recheneinheit, die bei einer Änderung des Bezugspunk- tes und/oder des weiteren Bezugspunkts, das Raumbild der virtuelle Umgebung und das Raumbild des Objekts basierend auf dem geänderten Bezugspunkt erneut zu erzeugen. Dies kann dazu führen, dass die Disparitäten basierend auf dem geänderten (weiteren) Bezugspunkt neu berechnet werden. Das Anzeigeelement kann die neu berechneten Bilder dann darstellen.
Ferner zeigen Ausführungsbeispiele die Vorrichtung, wobei das erste Bilderfassungselement ausgebildet ist, den ersten stereoskopischen Bilddatenstrom in einer Initialisierungsphase zu erzeugen. Die Recheneinheit kann den ersten stereoskopischen Datenstrom empfangen, in einem Speicher abspeichern und in einem Betriebsmodus abhängig von dem Bezugspunkt ein Raumbild der Umgebung aus dem gespeicherten ersten stereoskopischen Datenstroms zu erzeugen. In anderen Worten ist es möglich, einmalig eine Aufnahme von der Umgebung zu erstellen, die in dem virtuellen Raum als virtuelle Umgebung verwendet wird, da diese typischerweise nicht verändert wird bzw. über einen bestimmten Zeitraum konstant bleibt. Somit kann der erste stereoskopische Bilddatenstrom (einmalig) in einer Initialisierungsphase erzeugt werden und dann lokal auf einem Speicher vorgehalten werden. Der erste stereoskopische Bilddatenstrom kann Informationen, d. h. Aufnahmen, von zumindest einem, optional jedoch von einer Mehrzahl von verschiedenen Positionen im Raum aufweisen. Auf diesen Positionen können die Bezugspunkte in der virtuellen Umgebung liegen. Liegen die Bezugspunkte außerhalb der Positionen, kann die Darstellung geschätzt, also z. B. interpoliert werden.
Die virtuelle Umgebung kann jedoch auch während des bestimmten Zeitraums angepasst bzw. upgedated werden. Hierzu kann eine Stereokamera oder eine Mehrzahl von Stereokameras in der realen Umgebung angeordnet sein, um den ersten stereoskopischen Bilddatenstrom in regelmäßigen Abständen erneut aufzunehmen. Hierfür können auch Rund- um bzw. 360° Stereokameras verwendet werden, so dass der erste stereoskopische Bilddatenstrom auch in Echtzeit aufgenommen bzw. upgedated werden kann. Dies kann sinnvoll sein, wenn äußere Einflüsse wie z. B. sich ändernde Lichtverhältnisse oder bewegliche Objekte wie z. B. Bäume, Tiere oder Menschen in der virtuellen Umgebung dargestellt werden sollen.
Ausführungsbeispiele zeigen ferner die Vorrichtung, wobei das zweite Bilderfassungselement ausgebildet ist, den zweiten stereoskopischen Bilddatenstrom von dem Objekt an einem weiteren Zeitpunkten zu erzeugen. Die Recheneinheit kann den zweiten stereoskopischen Bilddatenstrom zu einem weiteren Zeitpunkt zu empfangen, eine Position und/oder eine Orientierung des Objekts zu dem weiteren Zeitpunkt ausgehend von einem Bezugspunkt zu bestimmen und, basierend auf der Position und/oder der Orientierung des Objekts zu dem weiteren Zeitpunkt das Raumbild des Objekts in der virtuellen Umgebung anzupassen. In anderen Worten kann die Recheneinheit, z. B. eine 3D-engine, die Raumbilder sowohl des Objekts als auch der virtuellen Umgebung dynamisch und optio- nal in Echtzeit anpassen. Der Bezugspunkt kann also dynamisch eingestellt werden. Die Recheneinheit kann daraufhin die Disparitäten basierend auf dem neuen Bezugspunkt und einer Orientierung desselben, neu bestimmt und eingestellt werden. Allgemein kann für das Erzeugen der Raumbilder bzw. das Ermitteln/Anpassen der Disparitäten eine Person angenommen werden, die auf dem Bezugspunkt steht. Die Person kann ferner in eine bestimmte Richtung blicken, wodurch die Orientierung des Bezugspunkts charakterisiert wird. Die Position und/oder die Orientierung kann die Recheneinheit aus dem dritten Bilddatenstrom berechnen, indem z. B. die Position und/oder die Orientierung das weiteren Objekts aus dem dritten Bilddatenstrom zu einer aufnehmenden (Stereo-) Kamera bestimmt wird. Um den Bezugspunkt beliebig im Raum verändern zu können, ist es ferner vorteilhaft, eine 3D-Ansicht der Objekte, neben der stereoskopischen Darstellung, die eine räumliche Tiefe vermittelt, ferner auch eine Rundumsicht um das Objekt zu ermöglichen und dieses somit von jeder Seite aufzunehmen.
Ausführungsbeispiele zeigen ferner die Recheneinheit, die zumindest einem Teil des Raumbilds des Objekts Überlagerungsbilddaten überlagern kann. Somit können dem Objekt und/oder dem weiteren Objekt, wenn es sich um Personen handelt, ein Gesicht oder eine Augenpartie einer anderen, beispielsweise prominenten, Person überlagert werden. Ferner ist es möglich, wenn die Person bei der Erstellung des Bilddatenstroms eine Datenbrille trägt, die Datenbrille dem Raumbild in der virtuellen Umgebung mit einer Auf- nähme der Augenpartie bzw. des Gesichts der Person ohne Datenbrille, die beispielsweise in einem Speicher vorgehalten wird, zu ersetzen bzw. zu überlagern. Weiterhin können die Überlagerungsbilddaten jedoch auch stereoskopisch aufgenommen werden, so dass der Gesamteindruck des Benutzers durch die Überlagerungsbilddaten weiterhin realistisch ist. Allgemein kann die Beschreibung zu dem Objekt auch auf das weitere Objekt angewendet werden. Lediglich die Bezugspunkts und die entsprechenden Bilderfassungselemente bzw. Anzeigeelemente sind entsprechend anzupassen.
In Ausführungsbeispielen kann die Recheneinheit eine aktuelle Erscheinungsform des Objekts bestimmen und die Überlagerungsbilddaten basierend auf der bestimmen aktuel- len Erscheinungsform anpassen oder Überlagerungsbilddaten aus einer Mehrzahl von Überlagerungsbilddaten basierend auf der bestimmen aktuellen Erscheinungsform auswählen und die ausgewählten Überlagerungsbilddaten dem Teil des Raumbilds überlagern. Ferner kann das (zweite oder dritte) Bilderfassungselement, in der Initialisierungsphase eine Augenpartie oder ein Gesicht einer Person als Objekt aufnehmen und als Überlagerungsbilddaten speichern. Die Recheneinheit kann in dem Betriebsmodus beispielsweise eine von der Person aufgesetzte Datenbrille mit den in der Initialisierungsphase erhaltenen Überlagerungsbildern überlagern. Ferner kann die Recheneinheit die Augenpartie oder das Gesicht in den Überlagerungsbilddaten basierend auf einem Gemütszustand (hier die Erscheinungsform) der Person anpassen und die angepassten Überlagerungsbilddaten der Person überlagern.
In anderen Worten können z. B. bei der Überlagerung der Datenbrille mit dem Gesichtbzw, der Augenpartie aus den Überlagerungsbilddaten, markante Stellen in den Überlagerungsbilddaten im Gesicht wie z.B. die Augen oder der Mund an einen Gemütszustand der Person angepasst werden kann. So kann durch nach oben zeigende Mundwinkel auf ein Lachen der Person geschlossen werden, so dass auch die eingefügte Augenpartie lachende, also beispielsweise leicht zusammengekniffene Augen darstellt. Diese Modifikation wird z.B. mittels eines Bildbearbeitungsalgorithmus auf statische Überlagerungsbilddaten angewendet, so dass die statischen Überlagerungsbilddaten dynamisch wirken. Weitere Ausführungsbeispiele zeigen, dass eine Mehrzahl von Überlagerungsbilddaten vorgehalten bzw. gespeichert sind, wobei beispielsweise durch einen Vergleich der aktuellen Aufnahme des Munds mit einem Mund aus den gespeicherten Überlagerungsbilddaten eine passende zu überlagernde Augenpartie oder ein passendes Gesicht gewonnen wird. In anderen Worten kann die Bildaufnahmeeinheit eine Mehrzahl von Überlagerungsbilddaten anlegen, wobei die Recheneinheit ausgebildet ist, den Gemütszustand anhand eines Vergleichs einer aktuellen Position der Mundwinkel der Person mit einer Position der Mundwinkel in der Mehrzahl von Überlagerungsbilddaten zu vergleichen und das Überlagerungsbild, das den aktuellen Gesichtsausdruck bestmöglich wiedergibt, auszuwählen.
Ein Verfahren kann die Abläufe, die von der Vorrichtung durchgeführt werden, darstellen. Das Verfahren kann durch einen Programmcode abgebildet werden, der wenn er auf einem Computer ausgeführt wird, die entsprechenden Verfahrensschritte ausführt.
Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. Es zeigen: eine schematische Darstellung eines herkömmlichen Ansatzes zur Herstellung, Übertragung und Darstellung eines stereoskopischen Films umfassend eine Vielzahl von Einzelbildern; eine schematische Darstellung einer Vorgehensweise zur Herstellung, Übertragung und Darstellung eines stereoskopischen Films mit aus einer 3D-Engine erzeugten Einzelmodellen; Fig. 3 schematisch die Vorgehensweise zur Entfernung des Hintergrunds aus einer
Szene gemäß einem Ausführungsbeispiel, wobei Fig. 3(a) die anfänglich aufgenommene Szene zeigt, und wobei Fig. 3(b) die Szene ohne Hintergrund zeigt; ein Flussdiagramm eines Ausführungsbeispiels des Verfahrens gemäß Ausführungsbeispielen zum Erzeugen von Daten für eine dreidimensionale Darstellung zumindest eines Teils eines Objekts; Fig. 5 ein Flussdiagramm eines Ausführungsbeispiels, bei dem das 3D-Modell unter
Verwendung zumindest einer ersten 3D-Aufnahme und einer zweiten SD- Aufnahme des Objekts aus jeweils unterschiedlichen, sich zumindest teilweise überlappenden Positionen erzeugt wird; Fig. 6 ein Flussdiagramm, welches ein Ausführungsbeispiel zur Veränderung eines menschlichen Gesichts darstellt;
Fig. 7 ein Flussdiagramm eines Ausführungsbeispiels des beschriebenen Verfahrens zum Erzeugen einer dreidimensionalen Darstellung zumindest eines Teils eines Objekts, wie es beispielsweise durch das anhand der Fig. 2 beschriebene System durchgeführt wird;
Fig. 8 ein schematisches Blockdiagramm der Vorrichtung zur Darstellung eines
Raumbilds von einem Objekts in eine virtuellen Umgebung;
Fig. 9 ein schematisches Blockdiagramm der Vorrichtung zur Darstellung eines
Raumbilds von einem Objekts in eine virtuellen Umgebung gemäß Ausführungsbeispielen.
In der nachfolgenden Beschreibung der Figuren werden gleiche oder gleichwirkende Elemente mit den gleichen Bezugszeichen versehen, so dass deren Beschreibung in den unterschiedlichen Ausführungsbeispielen untereinander austauschbar ist.
Fig. 8 zeigt ein schematisches Blockdiagramm einer Vorrichtung 800 zur Darstellung ei- nes Raumbilds von einem Objekts in eine virtuellen Umgebung. Die Vorrichtung 800 weist ein erstes Bilderfassungselement 802 und ein zweiten Bilderfassungselement 804 auf. Eine Recheneinheit 806 kann die Bilddaten der beiden Bilderfassungselemente empfangen, verarbeiten und an ein Anzeigeelement 808 ausgeben. Das erste Bilderfassungselement 802 kann einen ersten stereoskopischen Bilddatenstrom 810 von einer Umge- bung zu erzeugen. Die Bilddaten, also z. B. ein Video können verwendet werden, um die virtuelle Umgebung zu bilden. Dies ist beispielsweise ein Meetingraum, es kann sich je- doch auch um jegliche andere Szenerie handeln, in die (wie nachfolgend beschrieben) ein Objekt eingefügt wird. Das zweite Bilderfassungselement kann einen zweiten stereoskopischen Bilddatenstrom 812 von dem Objekt erzeugen. Die Recheneinheit 806 empfängt beide Bilddatenströme 810, 812.
Das erste und das zweite Büderfassungselement können physisch verschieden sein. Es kann sich demnach um unterschiedliche Kameras handeln. So ist es möglich, die Umgebung örtlich und zeitlich unabhängig von dem Objekt, beispielsweise in einer Initialisierungsphase, aufzunehmen. Auch kann sich das Objekt an einem anderen Ort, beispiels- weise in einem Raum befinden, der optimiert ist um das Objekt mittels farbbasierter Bildfreistellung (engl.: chroma keying) von dem Hintergrund freizustellen. Es kann sich demnach um eine„Blue-Screen" oder„Green-Screen" Box handeln. Allerdings ist es auch möglich, dass sich das Objekt tatsächlich in der realen Umgebung befindet, die dann beispielsweise im Vorhinein aufgezeichnet ist. In diesem Fall kann es sich bei dem ersten und dem zweiten Bilderfassungselement auch um dieselbe Kamera handeln, die jedoch die Umgebung und das Objekt zu unterschiedlichen Zeitpunkten aufzeichnet. Somit kann die Unterscheidung zwischen erstem und zweiten Bilderfassungselement auch rein funktional und nicht physischer Natur sein. Dennoch kann es auch hier vorteilhaft sein, unterschiedliche Kameras zu nutzen, da das Hauptaugenmerk bei der Erzeugung des Umgebung darauf liegt, eine Berandung für die virtuelle Umgebung zu schaffen, in der sich der Bezugspunkt bewegen kann. Demnach kann hierfür z. B. eine 360° Stereo-Kamera eingesetzt werden, die in alle Raumrichtungen (bzw. eine Mehrzahl von diskreten Richtungen) einen stereoskopischen Teilbilddaten- ström von einem Aufnahmepunkt aufzeichnet. Diese Aufnahme kann ferner von verschiedenen Aufnahmepunkten durchgeführt werden, um Disparitäten ausgehend von dem Bezugspunkt basierend auf realen Aufnahmen einstellen zu können. Liegt der Bezugspunkt beabstandet von einem reale Aufnahmepunkt, so kann die Ansicht jedoch auch interpoliert bzw. berechnet werden.
Bei der Aufzeichnung des Objekts steht jedoch im Vordergrund, dass dieses von allen Seiten aufgenommen wird, damit der Bezugspunkt um das Objekt herum angeordnet werden kann und eine Darstellung des Objekts in Rundumsicht möglich ist. Somit können hier verschiedene Stereokameras in dem Raum angeordnet sein, in dem sich die Person für die Aufzeichnung befindet. Die Stereokameras können auf die Person ausgerichtet sein und diese von verschiedenen Seiten aufzeichnen. Beispielsweise können für die Auf- Zeichnung 3, 5 oder 7 oder eine beliebige andere Anzahl an Stereokameras verwendet werden, um das Objekt zeitgleich von verschiedenen Seiten aufzunehmen und mit jeder Kamera einen stereoskopischen Teilbilddatenstrom zu erzeugen, aus denen sich der zweite stereoskopische Bilddatenstrom zusammensetzt. Da die Stereokameras typi- scherweise einen Abstand zueinander aufweisen, können diese nicht jeden möglichen Blickwinkel auf das Objekt ermöglichen. Die Recheneinheit hat bei einer Änderung des Bezugspunkts auf einen Blickwinkel, der von einem Blickwinkel einer der Stereokameras abweicht, die Möglichkeit, die Ansicht des Objekts aus z. B. zwei Stereokameras die einen ähnlichen Blickwinkel aufweisen, zu interpolieren. Ferner kann jedoch auch eine so- genannte Billboard Technik (dt.: etwa Plakatwandtechnik) angewendet werden. Bei diese Technik wird das Raumbild des Objekts immer so zu dem Bezugspunkt gedreht, dass der Blickwinkel einer der Stereokameras mit dem Blickwinkel von dem Bezugspunkt übereinstimmt. Als entsprechende Stereokamera wird vorteilhafterweise die Stereokamera ausgewählt, die dem Blickwinkel von dem Bezugspunkt am nächsten kommt.
Wie bereits beschrieben kann die Recheneinheit 806 den ersten und den zweiten stereoskopischen Bilddatenstrom 810, 812 empfangen. Ausgehend von einem Bezugspunkt kann nun, basierend auf dem ersten stereoskopischen Bilddatenstrom, ein Raumbild der virtuelle Umgebung erzeugt werden. Ergänzend kann ein Raumbild des Objekts, ausge- hend von dem Bezugspunkt, aus dem zweiten stereoskopischen Bilddatenstrom in die virtuelle Umgebung eingefügt werden. Die Raumbilder können basierend auf Disparitäten erzeugt werden, die eine Person abgestimmt sind, die auf dem Bezugspunkt steht und eine bestimmte Blickrichtung aufweist. Die Recheneinheit kann somit das 3D-rendering, oder genauer gesagt, die Erzeugung der Raumbilder aus den stereoskopischen Bildda- tenströmen, übernehmen. Zum Einstellen der Disparitäten kann die Recheneinheit zunächst den stereoskopischen Teilbilddatenstrom des ersten stereoskopischen Bilddatenstroms und/oder des zweiten stereoskopischen Bilddatenstroms auswählen, der dem Bezugspunkt am nächsten kommt. Eine mögliche Differenz zwischen Bezugspunkt und einem Aufnahmepunkt, von dem die Umgebung bzw. das Objekt aufgenommen wurde, kann herausgerechnet werden. Hierfür kann neben anderen Techniken eine Interpolation zwischen zwei Aufnahmepunkten verwendet werden.
Das Anzeigeelement 808, kann ausgehend von dem Bezugspunkt, das Raumbild von dem Objekt in der virtuellen Umgebung anzeigen. So kann bei einem Betrachter des An- Zeigeelements der Eindruck eines 3 D-Objekts in einer 3D-Umgebung vermittelt werden. Das Anzeigeelement 808 verwendet beispielsweise die Position und Richtung für die An- zeige, die die Recheneinheit bereits zur Erzeugung der Raumbilder verwendet hat. In anderen Worten zeigt das Anzeigeelement die Daten 814 an, die die Recheneinheit bereitstellt. Dies sind das Raumbild 814a von dem Objekt und das Raumbild 814b von der virtuellen Umgebung.
Optional weist die Vorrichtung 800 ferner ein dritten Bilderfassungselement 816 auf. Das dritte Bilderfassungselement kann aller Merkmale des zweiten Bilderfassungselements 804 aufweisen, wobei jedoch ein abweichendes, weiteres Objekt aufgenommen wird. Von diesem weiteren Objekt wird der dritte Bilddatenstrom 818 erzeugt und der Recheneinheit 806 übermittelt. Die Recheneinheit extrahiert das weitere Objekt aus dem 3. stereoskopischen Bilddatenstrom 818, erzeugt ein optionales Raumbild 814c von dem weiteren Objekt und dasselbe in die virtuelle Umgebung ein. Das Anzeigeelement zeigt ferner die virtuelle Umgebung an. Sofern unter Berücksichtigung des Bezugspunkts und des Blickwinkels, das Raumbild von dem Objekt oder das Raumbild von dem weiteren Objekt in Blick- richtung liegt, wird das entsprechende Raumbild ebenfalls angezeigt. Die Bilddatenströme können eine Folge von Einzelbildern, beispielsweise ein (Life- oder Echtzeit)-Video bzw. Video Stream sein.
Fig. 9 zeigt eine schematische Blockdarstellung eines Ausführungsbeispiels der Vorrich- tung 800. Das Bilderfassungselement 802 kann die Umgebung 820 vor der eigentlichen Nutzung aufzeichnen und den ersten stereoskopischen Bilddatenstrom 812 an die Recheneinheit 806 übermitteln. Die Recheneinheit 806 kann jedoch dezentral aufgebaut sein, sodass eine Teilrecheneinheit 806a auf Seiten eines ersten Nutzers 822a und eine zweite Teilrecheneinheit 806b auf Seiten eines zweiten Nutzers 822b angeordnet ist. Das zweite Bilderfassungselement 804 kann nun den ersten Nutzer 822a und das dritte Bilderfassungselement 816 den zweiten Nutzer 822b aufzeichnen und den zweiten bzw. dritten stereoskopischen Bilddatenstrom 810 bzw. 818 erzeugen und an die jeweilige Teilrecheneinheit übermitteln. Über eine Verbindung 824 können die beiden stereoskopischen Bilddatenströme zwischen den beiden Teilrecheneinheiten ausgetauscht werden. Die Verbindung wird z. B. über das Internet aufgebaut. Auch der erste stereoskopische Bilddatenstrom kann über das Internet an die erste und die zweite Teilrecheneinheit 806a, 806b übermittelt werden.
Die erste Teilrecheneinheit kann nun das Raumbild des weiteren Objekts sowie das Raumbild der Umgebung erzeugen und beides zur Darstellung an das Anzeigeelement 808 übersenden. Der Datenstrom 814a kann demnach das Raumbild des weiteren Ob- jekts sowie das Raumbild der Umgebung aufweisen. Als Bezugspunkt für die Berechnung der Raumbilder bzw. zur Bestimmung der Tiefenkarte kann eine aktuelle Position und/oder eine aktuelle Blickrichtung des ersten Nutzers 822a herangezogen werden. Hierzu kann ein Referenzpunkt in seiner realen Umgebung (in der Regel ist dies nicht die Umgebung 820) vorgegeben werden, der auf einen Referenzpunkt in der virtuellen Umgebung abgebildet wird. Eine Abweichung von diesem Referenzpunkt in der realen Umgebung des ersten Nutzers kann dann analog oder mit einem entsprechenden Skalierungsfaktor versehen, auf die virtuelle Umgebung übertragen werden um den Bezugspunkt an die entsprechende Stelle in der virtuellen Umgebung zu setzen. Ebenso kann mit der Orientierung des Nutzers verfahren werden.
Auf dem weiteren Anzeigeelement 808' kann nun das Raumbild der Umgebung mit dem Raumbild des Objekts dargestellt werden. Das Objekt kann hier auf dem oben bestimmten Bezugspunkt angeordnet sein und eine Blickrichtung entsprechend der Orientierung aufweisen. Als weiterer Bezugspunkt kann nun die Position und/oder Orientierung des weiteren Objekts 822b herangezogen werden, die analog zu der Bestimmung derselben bei dem Objekt 822a ermittelt werden können. Somit ist es möglich, das sich zwei Nutzer, die sich an verschiedenen Orten befinden, in der gleichen virtuellen Umgebung treffen und sich dort frei bewegen können. Hierfür sind diese nur über mit einem Rechensystem 826a, 826b verbunden, das jeweils ein Bilderfassungselement (eine oder mehrere Stereokameras), ein Anzeigeelement, z. B. einen Bildschirm oder eine VR (Virtual reality / virtuelle Realität) Brille und einen entsprechenden Rechner aufweist. Entsprechend der Funktionalität sind auch andere Topologien bzw. Einteilungen in Subeinheiten der Vorrichtung möglich.
Nach Ausführungsbeispielen kann das zweite und/oder das dritte Bilderfassungselement in einer Initialisierungsphase, d. h. vor dem eigentlichen Betrieb der Vorrichtung, Überlagerungsbilddaten aufnehmen. Diese Überlagerungsbilddaten sind z. B. die Augen oder das Gesicht des ersten und/oder des zweiten Nutzers. Diese Überlagerungsbilddaten können auch zur mehrfachen Verwendung einmalig aufgezeichnet werden und dann in jedem Betriebsmodus wieder verwendet werden. Anwendung kann dies z. B. dort finden, wo die Objekte, also in diesem Fall die Nutzer, (im Betriebsmodus) VR Brillen tragen. Mittels der Überlagerungsbilddaten kann die Recheneinheit die VR Brille nun wegretuschieren bzw. mit den Überlagerungsbilddaten überlagern so dass die VR Brille nicht mehr sichtbar ist. Die Nutzer haben somit den Eindruck, dass der jeweils andere Nutzer ohne VR Brille gefilmt wird, obwohl beide Nutzer eine solche Brille tragen. Die Recheneinheit kann die Überlagerungsbilddaten ferner aus einem entsprechenden Bild bzw. einem entsprechenden Bilddatenstrom in der Initialisierungsphase extrahieren und, z. B. ebenso wie den Bilddatenstrom 812 in einem Speicher der Recheneinheit abspeichern. Das Anzeigeelement kann das Raumbild des Objekts, beispielsweise einen Nutzer, mit den über- lagerten bzw. texturierten Überlagerungsbilddaten anzeigen. Die Überlagerungsbilddaten können statisch (Einzelbild) oder dynamisch ([kurze] Videosequenz) sein.
Alternativ sind auch weitere Formen von Überlagerungsbilddaten denkbar. So ist es möglich, anstelle der Augenpartie beispielsweise das Gesicht einer (berühmten) Person über das Gesicht des Raumbilds des Objekts zu überlagern. Alternativ ist es auch denkbar, das eigene Gesicht bzw. die Augenpartie mit einer Maske zu verhüllen, um beispielsweise in einem Chatroom seine Anonymität zu bewahren. Eine solche Maske kann auch ohne explizite Aufzeichnung beispielsweise von einem entsprechenden stereographischen Foto bzw. Video extrahiert werden. Optional ist hier auch eine Computeranimation denkbar, da es bei der Maske nicht auf zwingend auf den realen Eindruck ankommt. Um die Überlagerungsbilddaten an die exakte Position in dem Objekt einfügen zu können, können natürliche Marker wie z. B. Nase, Ohren oder Mund des Objekts herangezogen werden. Alternativ können auch externe Marker, also z. B. Leuchtdioden/Lampen oder Reflektoren an dem Objekt angebracht werden.
Gemäß Ausführungsbeispielen ist die Recheneinheit ausgebildet, eine aktuelle Erscheinungsform des Objekts 822a, 822b zu bestimmen und die Überlagerungsbilddaten basierend auf der bestimmen aktuellen Erscheinungsform anzupassen. Die Erscheinungsform ist beispielsweise ein Lächeln oder ein anderer Gesichtsausdruck einer Person. Dieses kann aus den Gesichtszügen, z.B. den Mundwinkeln bestimmt werden. Statische Überlagerungsbilddaten, beispielsweise ein Einzelbild, können nun derartig manipuliert werden, dass die Augenpartie in den Überlagerungsbilddaten an den aktuellen Gesichtsausdruck angepasst ist. Somit kann mittels Bildbearbeitungsalgorithmen die Augenpartie derart bearbeitet werden, dass diese leicht zusammengekniffen wirken, um ein Lächeln darzu- stellen. Somit kann eine Dynamik in den Überlagerungsbilddaten erzeugt werden. Gemäß weiteren Ausführungsbeispielen kann auch eine Mehrzahl von Überlagerungsbilddaten, beispielsweise von verschiedenen Gesichtsausdrücken angelegt werden. So kann die aktuelle Position der Mundwinkel der Person mit der Position der Mundwinkel in den Überlagerungsbilddaten verglichen werden. Somit ist es möglich, das Überlagerungsbild, das den aktuellen Gesichtsausdruck bestmöglich wiedergibt, auszuwählen und das ganze Gesicht oder auch nur die Augenpartie des Raumbilds mit den Überlagerungsbilddaten zu überlagern. So kann auch hier aus den statischen Überlagerungsbilddaten eine Dynamik in den Überlagerungsbilddaten erzeugt werden. In anderen Worten kann die Recheneinheit Überlagerungsbilddaten aus einer Mehrzahl von Überlagerungsbilddaten basierend auf der bestimmten aktuellen Erscheinungsform auswählen und die ausgewählten Über- lagerungsbilddaten dem Teil des Objekts überlagern.
In anderen Worten kann das Bilderfassungselement ausgebildet sein, in der Initialisierungsphase eine Augenpartie oder ein Gesicht einer Person als Objekt zu scannen und als Überlagerungsbilddaten zu speichern, wobei die Recheneinheit ausgebildet ist, in dem Betriebsmodus eine von der Person aufgesetzte Datenbrille mit den in der Initialisierungsphase erhaltenen Überlagerungsbildern zu überlagern. Somit kann die Recheneinheit die Augenpartie oder das Gesicht in den Überlagerungsbilddaten basierend auf einem Gemütszustand der Person anpassen und die angepassten Überlagerungsbilddaten der Person zu überlagern. Darüber hinaus kann die Bildaufnahmeeinheit eine Mehrzahl von Überlagerungsbilddaten anlegen, wobei die Recheneinheit ausgebildet ist, den Gemütszustand anhand eines Vergleichs einer aktuellen Position der Mundwinkel der Person mit einer Position der Mundwinkel in der Mehrzahl von Überlagerungsbilddaten zu vergleichen und das Überlagerungsbild, das den aktuellen Gesichtsausdruck bestmöglich wiedergibt, auszuwählen.
Gemäß Ausführungsbeispielen kann die aktuelle Erscheinungsform des Objekts 30 bis 60 mal pro Sekunde, 35 bis 55 mal pro Sekunde oder 40 bis 50 mal pro Sekunde bestimmt werden. Vorteilhafterweise wird die aktuelle Erscheinungsform des Objekts, beispielsweise der Gesichtsausdruck einer Person, für jedes Bild bzw. jeden Frame des Bilddaten- Stroms, als Mittelwert oder Median aus einer Mehrzahl von Bildern oder Frames des Bilddatenstroms bestimmt. Demnach kann auch der Bilddatenstrom 30 bis 60 Bilder pro Sekunde, 35 bis 55 Bilder pro Sekunde oder 40 bis 50 Bilder pro Sekunde oder ein Vielfaches derselben aufweisen. Diese vergleichsweise hohe Bildwiederholfrequenz ermöglicht eine Aktualisierung des Raumbilds in der virtuellen Umgebung in Echtzeit, d.h., dass, eine ausreichende Übertragungsgeschwindigkeit vorausgesetzt, zwischen dem Objekt in der realen Umgebung und dem Objekt in der virtuellen Umgebung kein für den Menschen sichtbarer Unterschied zu erkennen ist.
Gemäß einem Ausführungsbeispiel beträgt die Latenz bzw. Verzögerung des Objekts in der virtuellen Umgebung im Vergleich zum Objekt in der realen Umgebung weniger als 50 ms, weniger als 30 ms oder weniger als 20 ms. Ferner ist es möglich, dass ein Nutzer beispielsweise mittels eines Eingabegeräts seinen Blickwinkel in der virtuellen Umgebung 820 unabhängig von seiner Position in der virtuellen Umgebung einstellt. So kann der Nutzer eine individuelle Ansicht eines externen Be- obachters (third person view) auf die Raumbilder von sich und dem anderen Nutzer in der virtuellen Umgebung 820 erhalten. Nutzer können sich so virtuell gegenübersitzen und ihr Meeting in dem virtuellen Konferenzraum abhalten. Ferner ist es auch möglich, Anschauungsobjekte als Modell, Raumbild bzw. Hologramm in den virtuellen Konferenzraum zu integrieren. So kann beispielsweise von einem weiteren Standort das (originalgetreue) Modell eines Objekts, beispielsweise eines Autos, in den Konferenzraum integriert werden, deren Orientierung, Größe und/oder Detaillierungsgrad von jeder der beiden Personen individuell und unabhängig voneinander angepasst werden kann.
Ausführungsbeispiele zeigen, dass sowohl der Bilddatenstrom als auch die Überlage- rungsbilddaten von einer Kamera erzeugt bzw. aufgenommen werden. Somit kann dem Nutzer ein verbesserter Realitätseindruck vermittelt werden, als bei computergenerierten Avatars oder Avatars, bei denen beispielsweise nur der Oberkörper aufgenommen wird und computeranimierte Beine eingefügt werden, um dem Avatar in der virtuellen Welt die Möglichkeit zu geben, sich zu bewegen. Das aufgenommene Kamerabild kann mittels der in Fig. 1 bis 7 beschriebenen Vorgehensweise in ein 3D Raumbild überführt werden um eine Reduzierung der zu übertragenen Datenmenge zu ermöglichen. Die Datenreduzierung ist jedoch nicht auf dieses Verfahren beschränkt und darüber hinaus ferner in Gänze optional, da auch die unkomprimierten aufgenommenen Kamerabilder übermittelt werden können. Insbesondere für den Bilddatenstrom ist eine Komprimierung des Videos bzw. der Einzelbilder des Bilddatenstroms vorteilhaft.
Die Überlagerungsbilddaten können bereits im Vorhinein aufgenommen und in der Recheneinheit gespeichert werden. Da ein Anwendungsbereich der beschriebenen Vorrichtung ein virtueller Meeting- bzw. Konferenzraum ist, kann die Recheneinheit dezentral bei den Teilnehmern der Konferenz angeordnet sein. Um die Überlagerungsbilddaten effizient zu nutzen, können diese z.B. einmalig zwischen den Teilrecheneinheiten aller Teilnehmer ausgetauscht bzw. an diese übersendet werden. Hierfür können die aufgenommenen Bilder bzw. Fotos oder Videosequenzen der Überlagerungsbilddaten verwendet werden, ohne diese in ein entsprechendes Computermodell umzuwandeln. Um die aufgenommenen Objekte in dem Bilddatenstrom und/oder den Überlagerungsbilddaten von Ihrem realen Hintergrund zu separieren, können diese z.B. in einer„Green- Box" (vor einem grünen oder einem blauen Hintergrund) aufgenommen werden, so dass das Objekt mittels farbbasierter Bildfreistellung (engl, chroma keying) in die virtuelle Um- gebung eingefügt werden kann.
Ausführungsbeispiele zeigen ferner, dass die gezeigte Vorrichtung zur Visualisierung von kosmetischen Korrekturen verwendet werden kann. So können als Überlagerungsbilddaten z.B. unterschiedlich geschminkte Lippen gespeichert sein, so dass der Nutzer aus dem Set an gespeicherten Überlagerungsbilddaten die entsprechend geschminkten Lippen seiner Wahl seinen eigenen Lippen überlagern kann. Somit können Nutzer einen besseren Eindruck erhalten, ob die gewählte Lippenstiftfarbe zu dem restlichen Outfit passt, da sie beides in Kombination sehen. Um die Überlagerungsbilddaten zu erzeugen, kann der Nutzer einmalig im Vorhinein bzw. in einer Initialisierungsphase verschiedene Lippenstifte auftragen und die Überlagerungsbilddaten als Aufnahme von seinen eigenen Lippen speichern. Darüber hinaus kann der Nutzer sich somit auch in der virtuellen Welt und somit z.B. für eine (berufliche) Besprechung schminken, ohne im echten Leben die Zeit für das Schminken aufzuwenden. Ergänzend oder alternativ können beispielsweise von den Herstellern der Lippenstifte entsprechende Muster als Überlagerungsbilddaten bereitgestellt werden. Die Lippen wurden hier beispielhaft ausgewählt, das Prinzip kann jedoch für jegliche kosmetische Korrekturen, wie beispielsweise auch eine andere Frisur oder Haarfarbe verwendet werden. Ebenso kann somit auch eine vorhandene Lese- bzw. Sehbrille retuschiert werden. Ein ähnliches Prinzip kann für die generelle Veränderung von (Gesichts-) Attributen angewendet werden. So können die Überlagerungsbilddaten derart (mit dem Computer) bearbeitet werden, dass bestimmte Attribute des Nutzers verändert werden. Dieses Prinzip kann z.B. in der Schönheitschirurgie verwendet werden, um dem Nutzer eine Vorstellung zu vermitteln, wie er nach einem potentiellen Eingriff aussieht.
Ein entsprechendes Verfahren zur Darstellung eines Raumbilds von einem Objekts in eine virtuellen Umgebung kann folgende Schritte aufweisen: Erzeugen eines ersten stereoskopischen Bilddatenstrom von einer Umgebung; Erzeugen eines zweiten stereoskopischen Bilddatenstroms von dem Objekt; Empfangen des ersten und des zweiten stereo- skopischen Bilddatenstroms; Erzeugen eines Raumbildes der virtuellen Umgebung, ausgehend von einem Bezugspunkt, basierend auf dem ersten stereoskopischen Bilddaten- ström; Einfügen des Objekts, ausgehend von dem Bezugspunkt, aus dem zweiten stereoskopischen Bilddatenstrom in die virtuelle Umgebung; und Anzeigen, ausgehend von dem Bezugspunkt, das Raumbild von dem Objekt in der virtuellen Umgebung. Weitere Ausgestaltungen der Vorrichtung können entsprechend auch auf das Verfahren angewendet werden.
Zur Reduktion der Datenmengen bei der Übertragung, also z. B. um die Verbindung 824 aus Fig. 9 zu entlasten, kann die nachfolgend hinsichtlich der Fig. 1 bis 7 beschriebene Technik verwendet werden. Hierbei kann die Datenmenge gegenüber bekannten Verfah- ren zur Erzeugung der Raumbilder reduzieren werden, womit auch bei einer geringen Bandbreite eine ausreichende Übertragungsgeschwindigkeit gewährleistet ist. So kann die Recheneinheit bereits in den Bilderfassungselementen eine Verarbeitung vornehmen. So kann wie nachfolgend beschrieben ein Gitter-Modell des Objekts aus beispielsweise dem zweiten stereoskopischen Bilddatenstrom erzeugt werden. Das Gitter-Modell ist je- doch für den Nutzer unsichtbar, enthält jedoch die Tiefeninformationen des Objekts aus dem entsprechenden Blickwinkel der verwendeten Stereokamera. Das Gitter-Modell kann dann in die virtuelle Umgebung eingefügt und mit den Videobildern ohne Tiefeninformation überlagert werden. So reicht die Übertragung eines Bilddatenstroms des stereoskopischen Bilddatenstroms (dieser enthält zumindest zwei Bilddatenströme) aus, um sowohl die reale Aufnahme des Objekts als auch die entsprechende Tiefeninformation zur Erzeugung des Raumbilds von dem Objekt zu erhalten.
Nachfolgend werden Ausführungsformen insbesondere zur Erstellung des Modells bzw. des Raumbilds des Objekts hinsichtlich Fig. 1 bis Fig. 7 beschrieben. Die Ausdrücke Mo- dell und Raumbild beziehen sich auf den gleichen Gegenstand, die Abbildung des Objekts in der virtuellen Umgebung. Raumbild impliziert jedoch bereits die Erzeugung mittels stereoskopischer Bilddaten, wohingegen bei dem Modell auch ein einfacher Bilddatenstrom ausreichend ist. Alle Ausführungsbeispiele, die auf ein Modell gerichtet sind, sind jedoch analog auch auf ein Raumbild übertragbar. Das Modell weist gemäß Ausführungsbeispie- len eine reduzierte Datenmenge bei der Speicherung oder Übertragung des Modells auf. Somit können die vorgenannten Ausführungsbeispiele auch bei geringen Übertragungsraten bzw. Bandbreiten in Echtzeit ausgeführt werden. Die nachfolgenden Ausführungsformen sind jedoch nur beispielhaft zu sehen und beschränken die Erstellung des Modells nicht auf dieselben. In anderen Worten können die Modelle auch in alternativen Verfahren erstellt werden. Es sind verschiedene Ansätze bekannt, um eine dreidimensionale Darstellung eines Objekts, beispielsweise in Form einer Sequenz von Einzelbildern oder eines 3D-Films zu erzeugen und anzuzeigen. Fig. 1 zeigt eine schematische Darstellung eines herkömmlichen Ansatzes zur Herstellung, Übertragung und Darstellung eines stereoskopischen Films umfassend eine Vielzahl von Einzelbildern. Der Einfachheit halber ist in Fig. 1 als darzustellendes Objekt ein Würfel 100 dargestellt. Eine erste Kamera 102 erzeugt eine erste Aufnahme 100a des Würfels aus einer ersten Perspektive, und eine zweite Kamera 104 erzeugt eine zweite Aufnahme 100b des Würfels aus einer zweiten Perspektive, die sich von der ersten Perspektive unterscheidet. Mit anderen Worten werden die Aufnah- men 100a und 100b des Würfels 100 aus verschiedenen Blickwinkeln erzeugt. Die so erzeugten und die empfangenen Einzelbilder 100a, 100b werden einer geeigneten stereoskopischen Wiedergabeeinheit 108, beispielsweise einem Monitor, zur Darstellung bereitgestellt. Anstelle der Kameras 102 und 104 kann auch eine gemeinsame 3D-Kamera eingesetzt werden, welche ebenfalls zwei Aufnahmen des Objekts 100 erzeugt, die dann auf die oben beschriebene Art und Weise an den Monitor 108 zur Darstellung übertragen werden.
Der anhand der Fig. 1 beschriebene, herkömmliche Ansatz ist nachteilhaft, da die über das Übertragungsmedium 106 zu übertragende Datenmenge von mindestens zwei Bil- dem 100a und 100b sehr groß ist, was mit einer entsprechend hohen Datenübertragungszeit einhergeht. Selbst bei einer Komprimierung der zweidimensionalen Aufnahmen oder Bilder 100a, 100b ist die erforderliche Dauer für die Komprimierung der Daten groß, so dass die Gesamtübertragungszeit von der Stelle, an der die Aufnahme des Objekts 100 erzeugt wird, bis zur Stelle, an der die dreidimensionale Wiedergabe erfolgen soll, sehr hoch ist. Beispielhaft sei eine stereoskopische Aufnahme des Würfels 100 angenommen, und bei der anhand der Fig. 1 beschriebenen Vorgehensweise ist für die Übertragung der erforderlichen Daten zur Darstellung eines Einzelbilds des Würfels am Monitor 108 unter Zugrundelegung einer Bildgröße von 1024 x 768 Pixel folgender Speicherplatz erforderlich: 2 Bilder x 1024(X-Wert) x 768(Y-Wert) x 3(RGB-Farb-Wert) = 4718592 Byte.
Diese große Datenmenge führt zu den oben angesprochenen hohen Übertragungszeiten, und macht die Übertragung von Bewegtbildern eines sich bewegenden Objekts in dreidimensionaler Ausgestaltung nahezu unmöglich, da hierfür eine Übertragung von bis zu 30 Frames pro Sekunde erforderlich ist, wobei jeder Frame die oben angegebene Datenmenge aufweist. Somit ist eine solche Übertragung eines sich bewegenden Objekts 100, dessen Bewegung dreidimensional an der Empfangsseite 108 dargestellt werden soll, nur mit einer hohen Zeitverzögerung möglich, so dass insbesondere ein Livestream oder Ähnliches gar nicht möglich ist. Auch eine Übertragung eines 3D-Films ist aufgrund der erforderlichen Bandbreite nahezu unmöglich.
Die gerade erwähnte Übertragung eines Livestreams in dreidimensionaler Qualität bzw. die Übertragung einer dreidimensionalen Live-Sequenz ist beispielsweise im Zusammenhang mit der Aufnahme von Menschen und Umgebungsräumen erwünscht. Die Aufnahme von Menschen und Umgebungsräumen unter Verwendung von 3D-Kameras und die Wie- dergabe als 3 D-Film birgt das oben erwähnte Problem der immensen Datenmengen, die im Internet nicht übertragbar sind, was daher rührt, dass die Daten als herkömmliche Sequenzen aus 2D-Bildem gespeichert und übertragen werden müssen. Im Stand der Technik bekannte Ansätze beschäftigen sich mit der Kodierung und Übertragung von 2D- Bilddaten aus Videoaufnahmen, jedoch ist die Datenmenge und die damit einhergehende Kodierungszeit für diese zweidimensionale Lösung im Zusammenhang mit 3D-Bilddaten zu umfangreich, so dass das grundlegende Problem der Übertragung der erforderlichen Daten zur dreidimensionalen Darstellung eines Objekts, beispielsweise auch als Bewegtbild, bleibt. Die Fig. 2 zeigt eine schematische Darstellung einer Vorgehensweise zur Herstellung, Übertragung und Darstellung eines stereoskopischen Films mit aus einer 3D-Engine erzeugten Einzelmodellen. Ähnlich wie in Fig. 1 wird auch in Fig. 2 die dreidimensionale Abbildung eines Würfels 100 als Grundlage für die Erläuterung des Ansatzes gewählt. Fig. 2 zeigt eine schematische Gesamtdarstellung des Systems 200 gemäß Ausführungs- beispielen zur Erzeugung einer dreidimensionalen Darstellung zumindest eines Teils eines Objekts, nämlich des Würfels 100. Das System 100 umfasst das bereits anhand der Fig. 1 beschriebene Übertragungsmedium 106, welches zwischen einer Senderseite 202 und einer Empfängerseite 204 angeordnet ist. Elemente, die bereits anhand der Fig. 1 beschrieben wurden, sind in der Fig. 2 mit den gleichen Bezugszeichen versehen und werden nicht nochmals im Detail erläutert.
Die in Fig. 2 gezeigte Senderseite 202 kann beispielsweise eine Vorrichtung zum Erzeugen von Daten für eine dreidimensionale Darstellung zumindest eines Teils eines Objekts umfassen, wobei die Vorrichtung gemäß dem gezeigten Ausführungsbeispiel eine 3D- Engine 206 umfasst, die in Fig. 2 schematisch dargestellt ist, und die als Eingang die SD- Aufnahme umfassend die zwei Bilder 100a und 100b des Würfels 100 erhält. Basierend auf der 3 D-Aufnahme erzeugt die 3D-Engine ein Modell 208 des Würfels 100 umfassend die im Raum an unterschiedlichen Positionen angeordneten Scheitelpunkte A bis H. Abhängig davon, aus welchen unterschiedlichen Perspektiven der Würfel 100 aufgenommen wird, umfasst das durch die 3D-Engine 206 erzeugte 3D-Modell entweder das gesamte Objekt, also den gesamten Würfel 100 oder nur einen Teil des Würfels 100. Bei dem in Fig. 2 dargestellten Ausführungsbeispiel sei angenommen, dass lediglich eine einzelne 3D-Aufnahme des Würfels 100 aus einer Perspektive existiert, so dass das 3D-Modell entsprechend dieser Ausführungsform lediglich die Vorderseite und die Oberseite des Würfels darstellen würde, und entsprechend die Scheitelpunkte A bis G existieren.
Bei anderen Ausführungsbeispielen kann vorgesehen sein, den Würfel aus einer zweiten Perspektive aufzunehmen, die sich von der ersten Perspektive unterscheidet, so dass auch dessen Rückseite und gegebenenfalls auch dessen Unterseite als Modell abgebildet werden können, in diesem Fall würde die 3D-Engine 206 auf Grundlage der Eingangsda- ten, nämlich auf Grundlage der zwei 3D-Aufnahmen, ein 3D-Modell des Würfels 208 erzeugen, welches die Scheitelpunkte A bis H umfasst, also ein 3D-Modell, welches von allen Seiten betrachtet werden kann.
Gemäß Ausführungsbeispielen ist die 3D-Engine 206 wirksam, um das 3D-Modell 208 des Würfels 100 in Form der Scheitelpunkte A bis H und als Farbwerte, die den entsprechenden Scheitelpunkten zugeordnet sind, zu definieren. Die durch die Kamera 102, 104 aufgenommene Szene, welche beispielsweise den Würfel 100 umfasst, liefert am Ausgang der 3D-Engine 206 ein Einzelbild umfassend Farbwerte und Tiefeninformationen. Die Farbwerte bestehen jeweils, gemäß einem Ausführungsbeispiel, aus einem Byte für Rot, einem Byte für Grün und einem Byte für Blau (RGB-Farbwerte), also aus 3 Bytes insgesamt. Die Tiefeninformationen umfassen die X-, Y- und Z-Werte für die Scheitelpunkte des 3D-Modells im dreidimensionalen Raum. Gemäß Ausführungsbeispielen können die X-, Y- und Z-Werte jeweils als Gleitkommazahlen mit einfacher Genauigkeit gespeichert werden, mit einer Länge von beispielsweise 32 Bit. Die Folge von X-, Y- und Z- Werten wird als Scheitelpunkte bezeichnet, und die Menge aller Scheitelpunkte des SD- Modells 208 wird als Punktwolke bezeichnet.
Vergleicht man die Vorgehensweise gemäß dem Stand der Technik, wie sie anhand der Fig. 1 erläutert wurde, und den oben beschriebenen Ansatz, so ergibt sich eine massive Datenreduzierung aufgrund der Darstellung des Objekts 100 in Form eines 3D-Model!s, welches über die Scheitelpunkte und Farbwerte definiert ist. Wie oben bereits erläutert wurde, erzeugen herkömmliche Ansätze einen zu übertragenen Datensatz für einen Würfel, der eine Größe von 4718592 Byte aufweist, unter Zugrundelegung von Bildern mit einer Auflösung von 024x768 Pixel, so dass sich bei zwei Bildern und drei Farbwerten die gerade genannte Bytezahl ergibt. Im Gegensatz hierzu ist der obige Ansatz von deut- lichem Vorteil, da eine massive Reduzierung der Datenmenge erreicht wird, da beispielsweise bei der in Fig. 2 dargestellten Vorgehensweise, unter der Annahme, dass das SD- Modell 208 eine vollständige Abbildung des Würfels 100 darstellt, nur 8 Scheitelpunkte ä 4 Byte Fließkommawert erforderlich sind, und jeweils 3 Byte als Farbwert, so dass als Datenmenge für einen Rahmen/ein Einzelbild zur Darstellung des 3D-Objekts 100 nur 8x4x3 Byte = 96 Byte erforderlich sind.
Hinsichtlich der Fig. 2 wird darauf hingewiesen, dass das dort gezeigte Beispiel der Erzeugung von Daten zur dreidimensionalen Darstellung eines Würfels 100 keine Einschränkung darstellt, tatsächlich kann es sich beim Objekt 100 um einen beliebigen Ge- genstand mit beliebig komplexer Struktur handeln, beispielsweise auch um eine Darstellung einer Person oder einer Maschine. Die in Fig. 2 gezeigten 3D-Engines können z.B. durch Computersysteme realisiert sein, die ggf. für eine Erzeugung von 3 D-Modellen hardwaretechnisch entsprechend ausgerüstet sind und auf denen entsprechende Software zur Ausführung vorgesehen ist.
Gemäß Ausführungsbeispielen ist die Vorrichtung 202 ausgebildet, um eine 3D-Aufnahme 100a, 100b des Objekts 100 wiederholt zu erzeugen, um Daten für eine Vielzahl von aufeinanderfolgenden Frames für die Übertragung über das Medium 106 bereitzustellen, um so auf der Empfängerseite 204 eine 3D-Livesequenz bzw. einen 3D-Film darzustellen. Um dies zu erreichen, werden gemäß Ausführungsbeispielen pro Sekunde durch die Vorrichtung 202 bis zu 30 Frames erzeugt, d.h. es werden bis zu 30 Einzelbilder von dem Objekt 100 aufgenommen. Jedes Einzelbild wird entsprechend den obigen Ausführungen über die 3D-Engine 206 unter Verwendung des 3D-Modells Kodiert, so dass jeder der 30 Frames pro Sekunde einen Datensatz enthält, der zum Zeitpunkt der Aufnahme die Scheitelpunkte und die den Scheitelpunkten zugeordneten Farbwerte des Objekts 00 enthält.
Die Vorrichtung 202 und das hierdurch implementierte Verfahren ist vorteilhaft, da eine Datenmenge, die über das Übertragungsmedium 106 übertragen ist, deutlich reduziert wird, wodurch sich auch die Übertragungszeit deutlich reduziert. Insofern ist die Zeit zur Berechnung der 3D-Modelle kürzer als die zur Komprimierung von Einzelbildern gemäß dem Stand der Technik erforderliche Zeit. Zusätzlich ermöglicht die vollständige Übertragung der 3D-lnformationen über das 3D-Modell empfängerseitig die Möglichkeit, einen Blickpunkt auf das Objekt auf der Empfängerseite frei zu wählen, da die eigentlichen Bilder nach Übertragung der Daten des 3D-Modells empfängerseitig durch eine 3D-Engine zur Laufzeit erzeugt werden und zur Anzeige gebracht werden. Genauer gesagt werden gemäß Ausführungsbeispielen die Daten (der Datensatz), die das 3 D-Modell 208, welches senderseitig erzeugt wurde, beschreiben, über das Übertragungsmedium 106 zu der Empfängerseite 204 übertragen, so dass die entsprechenden Daten, welche das 3D- Modell 208' beschreiben, auf der Empfängerseite 204 vorliegen. Diese Daten werden ei- ner 3D-Engine 210 zugeführt, welche auf Grundlage des 3D-Modells die 3D-Aufnahme des Objekts im entsprechenden Frame/Rahmen, z.B. die zwei Aufnahmen 100a, 100b, erzeugt, die dann, wie im Stand der Technik, einem geeigneten Monitor 108 oder einer anderen geeigneten Anzeigevorrichtung zur dreidimensionalen Darstellung des Objekts auf Empfängerseite 204 bereitgestellt werden.
Gemäß Ausführungsbeispielen wird somit ein Ansatz gelehrt, bei dem eine Übertragung einer Sequenz von einzelnen 3D-Modellen durchgeführt wird, anstelle einer Übertragung einer Sequenz von einzelnen 2D-Bildern, wie es im Stand der Technik der Fall ist. Die SD- Modelle 208 werden vor der Übertragung mit Hilfe der 3D-Engine 206 erzeugt, wobei die 3D-Engine beispielsweise aus den Bildern 100a, 100b Kanten erkennt und basierend auf den erkannten Kanten das 3D-Modell erzeugt. Beispielsweise kann die 3D-Engine 206 gemeinsame Bereiche in den Bildern 100a, 100b ermitteln, z.B. gemeinsame Kanten, die zu dem Objekt 100 gehören, um daraus das resultierende 3D-Modell bzw. 3D-Gitter (Mesh) des Objekts 100 zu ermitteln. Nach Übertragung wird das durch die Scheitelpunk- te und Farbwerte beschriebene 3 D-Modell durch die empfängerseitige 3D-Engine 210 wieder in die zwei Bilder 100a und 100b umgewandelt, um das 3 D-Objekt aus verschiedenen Blickwinkeln mit den Einzelbildern einer a und einer b darzustellen, die dann auf dem stereoskopischen Ausgabegerät 108 dargestellt werden. Nachfolgend werden weitere Ausführungsbeispiele erläutert. Es sei angenommen, dass als Objekt eine Person aufzunehmen ist, der sich innerhalb einer Szene befindet. Die Szene umfasst den Menschen, der in einem Raum steht und sich z.B. an seinem Platz leicht hin und her bewegt. Gemäß Ausführungsbeispielen ist vorgesehen, dass die Vorrichtung 202 (siehe Fig. 2) 30 Frames/Rahmen dieser Szene pro Sekunde aufnimmt, und für jeden Rahmen ein entsprechendes 3D-Modell der Szene erzeugt und durch die Scheitelpunkte und Farbwerte beschreibt. Die so erzeugten Daten für jeden Frame (jedes Ein- zelbild) umfassen, wie erwähnt, die Farbwerte und die Tiefeninformationen, beispielsweise RGB-Werte und X-Y- und Z-Werte, die jeweils einen Scheitelpunkt definieren, wobei die Mehrzahl der Scheitelpunkte eine Punktwolke bildet. Gemäß Ausführungsbeispielen kann erwünscht sein, den Hintergrund aus der Szene zu extrahieren, beispielsweise dann, wenn lediglich die Darstellung der Person an die Empfängerseite 204 (siehe Fig. 2) übertragen werden soll und dort beispielsweise mit einem anderen Hintergrund dargestellt werden soll, der entweder vom Sender zum Empfänger vorab oder parallel übertragen wird oder der am Empfänger vorgegeben ist. Zur Entfernung des Hintergrunds wird zunächst aus jeder einzelnen Punktwolke der Hintergrund extrahiert, d.h. aus der Vielzahl von Scheitelpunkten, die für ein Einzelbild existieren (= einzelne Punktwolke) werden diejenigen Scheitelpunkte gelöscht, die als dem Hintergrund zugehörig erkannt werden. Gemäß Ausführungsbeispielen wird der Z-Wert jedes einzelnen Scheitelpunkts mit einem Korridor-Abstand (Schwellwertabstand) des Standbereichs der darzustellenden Person verglichen, und Abstände, die anzeigen, dass ein Scheitelpunkt weiter entfernt oder näher als der Korridorabstand ist, wird als Hintergrundscheitelpunkt erkannt und weggelassen, d.h. es werden nur diejenigen Scheitelpunkte (Vertices) zugelassen, die innerhalb des Korridorabstands liegen, und die so gewonnenen Daten sind diejenigen, die die Person in einer Punktwolke abbilden. Mit anderen Worten wird die Anzahl von Scheitelpunkten (Vertices), welche die Punktwolke pro Einzelbild definieren, um diejenigen reduziert, die ein- deutig dem Hintergrund zugeordnet werden.
Fig. 3 zeigt schematisch diese Vorgehensweise, wobei Fig. 3(a) die anfänglich aufgenommene Szene 300 zeigt, in der eine Person 302 (Objekt) auf einem Boden 304 stehend dargestellt ist. Ferner ist eine Rückwand 306 dargestellt. Entlang der Z-Koordinate ist der Bereich 308 dargestellt, der durch die in X-Richtung verlaufenden gestrichelten Linien 308a, 308b begrenzt ist. Der Bereich 308 ist der oben erwähnte Schwellwertkorridor, und entsprechend Ausführungsbeispielen werden Scheitelwerte eines 3D-Modells, das aufgrund der 3 D-Aufnahme der Szene 300 erzeugt wurde, gestrichen, sofern diese außerhalb des Schwellwertkorridors 308 liegen, so dass sich die in Fig. 3(b) gezeigte Darstellung ergibt, bei der lediglich die Person 302 sowie ein Teil des Bodens 304' verbleiben.
Bei weiteren Ausführungsbeispielen kann zusätzlich vorgesehen sein, den Schwellwertkorridor auch in X-Richtung zu beschränken, wie dies durch die gestrichelten Linien 308c und 308d in Fig. 3(a) dargestellt ist. Scheitelwerte, mit X-Werten außerhalb des Bereichs 308' werden aus den Daten, welche das 3D-Modell basierend auf der Szene 300 be- schreiben gestrichen, so dass der verbleibende Bodenbereich 304' noch weiter reduziert werden kann.
Das durch die 3D-Engine erzeugte Datenmodell der Person 302 (siehe beispielsweise Fig. 3(b)) kann beispielsweise ein Gitter-Modell oder ein Dreiecks-Netz sein, abhängig von der verwendeten 3D-Engine. Am äußeren Rand des Dreiecks-Netzes, welches nach dem Abschneiden oder Extrahieren des Hintergrunds verbleibt, kann es aufgrund von Rauschen zu ungenauen Tiefenwerten kommen, die sich in fehlerhaften Abschnitten des 3 D-Modells, beispielsweise in Dreiecken mit großer Tiefe, äußern. Gemäß Ausführungs- beispielen kann der Randbereich des 3D-Modells durch einen Glättungsalgorithmus geglättet werden, beispielsweise durch einen Glättungsalgorithmus, der große Tiefenwerte bzw. Tiefenabstände herausfiltert.
Wie oben erwähnt wurde, kann ein Objekt 100, 302 aus mehreren Perspektiven aufge- nommen werden. Ein Grund für die mehreren Aufnahmen kann darin bestehen, dass das Objekt vollständig abzubilden ist, so dass ein vollständiges 3 D-Modell vorliegt. In einem solchen Fall, aber auch in einem Fall, in dem nur ein Teil des Objekts, beispielsweise eine Vorderseite einer Person oder eines Objekts abgebildet werden, kann eine Situation auftreten, dass aufgrund der Ausgestaltung des Objekts, beispielsweise aufgrund einer Ver- deckung eines Teils des Körpers einer Person durch eine Hand der Person oder durch einen vorspringenden Abschnitt eines Objekts dahinterliegende Abschnitte durch die eine 3 D-Aufnahme nicht erfasst werden. Hierdurch entstehen bei der 3 D-Aufnahme sogenannte Löcher, die als schwarze Stellen im 3D-Modell, beispielsweise im Dreiecks-Gitter, erkennbar sind. Bei der Verwendung einer 3D-Kamera entstehen diese Löcher dadurch, dass der Abstand des Infrarot-Sensors und der bildgebenden Kamera einige Zentimeter beträgt, so dass sich die Blickpyramiden beider Sensoren nicht vollständig überdecken. Durch perspektivische Verdeckungen, z.B. eine Hand einer Person vor ihrem Körper, entstehen somit Bereiche, die kein Dreiecks-Netz bzw. keinen Abschnitt des 3 D-Modells als Grundlage haben, oder auch Bereiche, die keine Bildtextur besitzen.
Diese Problematik wird gemäß Ausführungsbeispielen dadurch gelöst, dass zumindest zwei 3 D-Kameras verwendet werden, wobei gemäß anderen Ausführungsbeispielen auch mehr als zwei 3D-Kameras eingesetzt werden, die in einem Abstand zueinander angeordnet sind, so dass die hierdurch erzeugten 3D-Aufnahmen zumindest teilweise überlap- pend sind. Dies ermöglicht es, die Bereiche einer ersten 3D-Aufnahme, in denen sich eines der oben genannten Löcher befindet, durch die 3D-Aufnahme der weiteren Kamera(s) abzudecken. Beispielsweise wird aus den Scheitelpunktwerten jede 3D-Aufnahme, also aus den verschiedenen Punktwolken der verschiedenen 3D-Aufnahmen durch Triangulie- rung ein Dreiecks-Netz erstellt und die aufgenommenen Bilder werden auf dieses Dreiecks-Netz projiziert. Triangulierung kann beispielsweise unter Verwendung des Verfah- rens gemäß Delauny oder unter Verwendung eines Höhenfeldes durchgeführt werden. Stellt man beide Dreiecksnetze übereinander sind keine schwarzen Bereiche ohne SD- Informationen bzw. Farbinformationen mehr zu sehen.
Die auf die oben beschriebene Art und Weise erhaltenen texturierten 3 D-Modelle bzw. Dreiecksnetze von verschiedenen, sich überlappenden Ansichten der Person werden nachfolgend, gemäß Ausführungsbeispielen, zu einer 360°-Rundumsicht der Person verbunden. Jeweils zwei sich überlappende Dreiecksnetze werden zur Überdeckung in Überlappungsbereichen gebracht und beginnend mit einer vorgegebenen Ebene, beispielsweise einer horizontalen Ebene (X-Z-Ebene) werden diejenigen Scheitelpunkte identifiziert, die einen vorbestimmten Abstand zueinander aufweisen. Abhängig von der Wahl des Ab- stands stellt sich die Datenmenge ein, und abhängig von den Gegebenheiten kann der Abstand variiert werden. Beispielsweise kann abhängig von der späteren Übertragung der Daten, bei Kenntnis des Übertragungsmediums, die Datenmenge an eine Bandbreite an- gepasst werden und entsprechend der Abstand bestimmt werden. Die identifizierten Punkte werden in einem neuen Dreiecksnetz zusammengefasst, und wenn eine Punktmenge, beispielsweise eine kreisförmige Punktmenge auf einer Ebene gefunden wurde, geht das Verfahren zur nächst höheren Ebene, was wiederholt wird, bis die relevante Punktewolke oder die relevanten Scheitelpunkte für die Außenhülle des Objekts gefunden sind. Beispielsweise können alle resultierenden Punkte von unten nach oben in einer ver- bundenen Spindel dargestellt werden. Als Ergebnis wird eine texturierte, verbundene Punktwolke der Außenhülle des Objekts als ein Frame erhalten, kurz gesagt, eine Vielzahl von X-, Y-, Z-Werten mit einer Reihenfolge.
Fig. 4 zeigt ein Flussdiagramm eines Ausführungsbeispiels des Verfahrens zum Erzeugen von Daten für eine dreidimensionale Darstellung zumindest eines Teils eines Objekts, wie es oben erläutert wurde. In einem ersten Schritt S100 wird ein 3D-Modell des Teils des Objekts unter Verwendung einer 3D-Aufnahme des Teils des Objekts erzeugt. Im Schritt S102 werden Daten unter Verwendung des 3 D-Modells bereitgestellt, die die Scheitelpunkte des Teils des Objekts im dreidimensionalen Raum und die den Scheitelpunkten zugeordneten Farbwerte beschreiben. Das Verfahren umfasst als optionalen Schritt das Extrahieren S104 des Hintergrunds aus den Daten unter Verwendung des Z-Werts jedes Scheitelpunkts, wie es oben erläutert wurde, und als weiteren optionalen Schritt das Korrigieren S106 eines Randbereichs des Objekts durch Herausfiltern von Tiefenabständen, die einen vorbestimmten Schwellenwert überschreiten, wie es oben erläutert wurde. Gemäß Ausführungsbeispielen kann die Korrektur des Randbereichs ein Antialiasing und die Vermeidung von Spikes, die große Tiefenwerte mit steilem Anstieg enthalten, umfassen Die Schritte S100 bis S106 werden gemäß Ausführungsbeispielen zur Erzeugung einer 3 D-Livesequenz bzw. eines 3D-Films für jeden Frame der Sequenz/des Films wiederholt, wobei jeder Frame ein Einzelbild der Sequenz/des Films ist. Gemäß Ausführungsbeispielen beträgt die Wiederholungsrate 30 Frames pro Sekunde. Gemäß Ausführungsbeispie- len können Texturinformationen zwischen den Scheitelpunktwerten (Vertizeswerten) interpoliert werden und benötigen somit wenig Datenbreite.
Fig. 5 zeigt ein Flussdiagramm mit weiteren Schritten gemäß Ausführungsbeispielen, bei denen das 3D-Modell unter Verwendung zumindest einer ersten 3 D-Aufnahme und einer zweiten 3D-Aufnahme des Objekts aus jeweils unterschiedlichen, sich zumindest teilweise überlappenden Positionen erzeugt wird. Im Schritt S108 wird ein erstes 3D-Modell unter Verwendung der ersten 3D-Aufnahme und ein zweites 3D-Modell unter Verwendung der zweiten 3D-Aufnahme erzeugt. Im Schritt S1 10 werden das erste 3 D-Modell und das zweite 3 D-Modell verbunden, um ein gemeinsames 3 D-Modell zu erzeugen, wobei die Daten, die im Schritt S102 (siehe Fig. 4) bereitgestellt werden, unter Verwendung des gemeinsamen 3D-Modells erzeugt und bereitgestellt werden. Das Verbinden der zwei SD- Modelle umfasst gemäß dem dargestellten Ausführungsbeispiel den Schritt S110a, bei dem die zwei 3D-Modelle so angeordnet werden, dass deren Überlappungsbereiche in Deckung sind. Im Schritt S1 10b werden die Scheitelpunkte definiert, die innerhalb eines vordefinierten Abstands liegen, und die identifizierten Scheitelpunkte werden im Schritt S1 10c zusammengefasst. Die Schritte S1 10a bis S1 10c werden wiederholt, wenn im Schritt S1 12 festgestellt wird, dass noch nicht alle vorbestimmten Ebenen betreffend das 3 D-Modell abgearbeitet wurden. In diesem Fall wird im Schritt S1 14 eine weitere Ebene ausgewählt, und das Verfahren kehrt zum Schritt S1 10b zurück. Anderenfalls, wenn im Schritt S1 12 festgestellt wird, dass alle Ebenen abgearbeitet wurden, endet das Verfahren im Schritt 1 16.
Die anhand der Fig. 4 und 5 beschriebenen Ausführungsbeispiele wurden im Zusammenhang mit der Erzeugung von 3 D-Darstellungen für ein Objekt oder für eine Person erläu- tert, allerdings sind die beschriebenen Ausführungsbeispiele nicht hierauf beschränkt. Gemäß anderen Ausführungsbeispielen kann das Objekt auch der Hintergrund eines Raumes sein, der empfängerseitig derart angezeigt werden soll, dass ein Benutzer auf der Empfängerseite den Raum aus verschiedenen Perspektiven betrachten kann und sich innerhalb vorbestimmter Grenzen auch innerhalb des Raumes bewegen kann. In diesem Fall umfasst die 3D-Aufnahme eine 3D-Aufnahme des Hintergrunds eines Raumes, bei- spielsweise entsprechend den Schritten S100 bis S1 16, jedoch ohne den Schritt S104, da eine Entfernung des Hintergrunds an dieser Stelle natürlich nicht sinnvoll ist. Im Verfahren gemäß der Fig. 5 erfolgt durch die Schritte im Block S110 eine Verbindung der verschiedenen Aufnahmen des Innenraumes, um die Innenhülle des Raumes zu erzeugen. Gemäß Ausführungsbeispielen kann vorgesehen sein, bei einer Darstellung des so erzeug- ten dreidimensionalen Raumes auf der Empfängerseite einen Bereich, beispielsweise einen kreisförmigen Bereich, zu definieren, in dem sich ein Benutzer„frei bewegen" kann, um so die Illusion eines Live-3D-Films zu erhalten.
Nachfolgend wird ein weiteres Ausführungsbeispiel näher erläutert, bei dem eine Möglich- keit eröffnet wird, ein menschliches Gesicht zu verändern. Bei solchen Ansätzen geht es darum, eine Aufnahme einer Person, die einer anderen, beispielsweise bekannten Persönlichkeit, ähnlich sieht, beispielsweise im Bereich des Gesichts so weit zu modifizieren, dass die Ähnlichkeit noch größer wird. Bei diesem Ausführungsbeispiel wird eine Änderung des 3D-Modells bzw. des Dreiecksnetzes mit hoher Frequenz bewirkt, und die sich ergebende Animation besteht, wie bei einem Film aus einer Folge von komplett neuen Dreiecksnetzen, die hintereinander angezeigt werden, um dem menschlichen Betrachter den Anschein eines sich bewegenden Bilds zu vermitteln. Dies hat zur Folge, dass für das menschliche Auge eine kontinuierliche Bewegung in drei Dimensionen entsteht, da die Augen die diskreten Zustände nicht mehr unterscheiden können, da sie zu schnell aufei- nanderfolgen. Stellt man diese Änderungen schnell genug auf einem autostereoskopi- schen Monitor dar, so entsteht für einen mit zwei Augen sehenden Menschen eine Hologramm-Illusion. Diese Hologramm-Illusion kann zur Laufzeit verändert werden.
Die Fig. 6 zeigt ein Flussdiagramm, welches das Ausführungsbeispiel zur Veränderung eines menschlichen Gesichts verdeutlicht. Das Verfahren basiert auf einem Objekt, welches das Gesicht einer Person darstellt, und in einem Schritt S1 18 wird zunächst ein statisches Gesichtsmodell eines Originalgesichts einer anderen Person bereitgestellt. Die erste Position kann beispielsweise eine sogenannte Look-a-Like-Person sein, die der anderen Person, beispielsweise einer bekannten Person, ähnlich sieht. Das Gesichtsmodell des Originalgesichts der anderen Person ist ein statisches 3 D-Modell mit Textur, das bei- spielsweise aus einer Photo- oder Filmaufnahme der anderen Person entstanden ist und somit einen entsprechend hohen Wiedererkennungseffekt haben kann.
Im Schritt S120 wird eine Position des Gesichts der Person im Raum bei der Erzeugung der 3D-Aufnahme bestimmt. Hierzu kann beispielsweise eine Positionsbestimmungsanlage, z.B. Nexonar, ein mit einem Sonarsensor bestücktes Gerät, das am Hinterkopf getragen wird, oder ein Raycasting verwendet werden. Nach Feststellung der Position des Gesichts wird im Schritt S122 das 3D-Modell des Gesichts der Person mit dem statischen Gesichtsmodell der anderen Person überlagert und im Schritt S124 erfolgt eine Anpas- sung des 3 D-Modells des Gesichts der Person an denjenigen Stellen, an denen keine Bewegung vorliegt, an das statische Gesichtsmodell der anderen Person. Hierfür kann beispielsweise die Differenz aus den beiden 3D-Modellen oder Dreiecksgittern an denjenigen Stellen addiert werden, an denen sich keine Bewegung findet, z.B. im Bereich der Nase, der Wangen und Ähnlichem, so dass sich ein gemeinsames 3D-Mode!l oder 3D- Mesh ergibt, welches sich, aufgrund der Tatsache, dass die gerade beschriebenen Schritte für jeden Frame/jedes Einzelbild des 3D-Films durchgeführt werden, zur Laufzeit aktualisiert.
Im Schritt S126 wird eine Textur aus der 3D-Aufnahme des Gesichts der Person erstellt, und zwar an denjenigen Stellen, an denen eine Bewegung vorliegt, um eine Lochmaskentextur zu erzeugen, die im Schritt S128 halbtransparent auf das gemeinsame oder neue 3D-Modell texturiert wird, um so zur Laufzeit ein 3D-Modell zu erhalten, das für die menschlichen Augen als eine Sequenz einer bewegten und animierten Darstellung des Originalgesichts erkennbar ist.
Anhand der Fig. 7 wird nachfolgend ein Ausführungsbeispiel zum Erzeugen einer dreidimensionalen Darstellung zumindest eines Teils eines Objekts näher erläutert, wie es beispielsweise durch das anhand der Fig. 2 beschriebene System durchgeführt wird. In einem ersten Schritt S130 werden Daten für die dreidimensionale Darstellung des zumin- dest einen Teils des Objekts erzeugt, und zwar entsprechend dem oben beschriebenen Verfahren, wie es beispielsweise anhand der Fig. 4, 5 und 6 erläutert wurde oder wie es anhand der Empfängerseite 202 in Fig. 2 erläutert wurde. Nachfolgend wird im Schritt S132 eine Übertragung der Daten über das Übertragungsmedium 106 von der Senderseite 202 zu der Empfängerseite 204 (siehe Fig. 2) durchgeführt, und im Schritt S134 werden die in Fig. 2 gezeigten 3D-Aufnahmen 100a und 100b, beispielsweise durch die 3D- Engine 210 auf Empfängerseite 204 erzeugt. Wie in Fig. 7 im Schritt S 36 gezeigt ist, erfolgt die Erzeugung der 3D-Aufnahme durch eine 3D-Engine, um das Objekt stereoskopisch darzustellen oder zu projizieren. Gemäß einem Ausführungsbeispiel (siehe den Schritt S138) wird die 3D-Aufnahme durch eine Anzeigevorrichtung, z.B. einen autostere- oskopischen 3D-Monitor 108 oder eine Batterie von lichtstarken Projektoren angezeigt.
Vor der Übertragung im Schritt S132 können die im Schritt S130 erzeugten Daten gemäß Ausführungsbeispiel nochmals durch eine Quantisierung geeignet reduziert werden, jedoch unter Inkaufnahme eines Datenverlusts. Ferner kann gemäß anderen Ausführungsbeispielen vorgesehen sein, auf die durch den Schritt S130 bereitgestellte Datenmenge bereits eine Region of Interest Encoding (Rol-Kodierung) anzuwenden, ebenso ist eine Differenz-Kodierung einzelner, aufeinanderfolgender Frames/Einzelbilder denkbar. Ferner kann die Datenmenge binär Kodiert werden und weiter reduziert werden, z.B. durch eine Lauflängenkodierung und ähnliche, im Stand der Technik bekannte Ansätze. Die Übertragung im Schritt S132 kann über das Internet oder ein Intranet erfolgen, beispielsweise durch eine Client-Server-Beziehung unter Verwendung des TCP-IP- Protokolls, des UDP-Protokolls oder des Serverside-Protokolls. Alternativ oder zusätzlich kann die Übertragung S132 auch zu einer lokalen Abspeicherung der empfangenen Einzelbilder/Frames als lokale Datei führen.
Im Schritt S134 kann vor dem Bereitstellen der Daten an die 3D-Engine 210 ein Entpa- cken der Daten entsprechend der Kodierung derselben vor der Übertragung und ein Puffern derselben vorgesehen sein, wobei das Puffern vorgesehen ist, um sicherzustellen, dass nach Erreichen eines anfänglichen, erwünschten Füllzustands ein kontinuierliches Verarbeiten der Datenpakete möglich ist, auch bei unterschiedlichen oder variierenden Datenraten, mit denen die entsprechenden Datenpakete am Empfänger empfangen werden.
Gemäß einer Ausführungsform kann der Schritt S138 ein Anzeigen unter Verwendung des stereoskopischen 3D-Pepper's-Ghost- Verfahrens zur Erzeugung von Hologrammen umfassen, wie dies im Schritt S140 dargestellt ist, bei dem ein autostereoskopischer SD- Monitor oder eine Batterie von lichtstarken Projektoren vorgesehen ist, um geeignete SD- Bilder, beispielsweise die von der 3D-Engine 210 erzeugten Bilder 100a, 100b (siehe Fig. 2), auf eine Glasscheibe zu projizieren, die ein Linsenraster oder eine geeignete 3D- Struktur umfasst, so dass in einer vorbestimmten Blickrichtung vor der Glasscheibe für das menschliche Auge ein 3D-Hologramm entsteht. Gemäß weiteren Ausführungsbeispielen kann vorgesehen sein, dass beispielsweise ein Benutzer empfängerseitig eine Perspektive auswählt, aus der das Objekt zu betrachten ist, wie dies im Schritt S142 angegeben ist, und entsprechend dem Schritt S144 wird das Objekt anschließend aus der gewählten Perspektive dargestellt, basierend auf den empfangenen Daten, die das 3 D-Modell des Objekts beschreiben, ohne dass ein Rückkanal zu der Stelle erforderlich ist, an der die 3 D-Aufnahme des Objekts erzeugt wird. Dies ist ein besonderes bevorzugtes Ausführungsbeispiel, da an der Empfängerseite ein SD- Modell des Objekts oder eines Teils des Objekts erzeugt wird, welches auf die oben be- schriebene Art und Weise an die Empfängerseite übertragen wird, mit einer reduzierten Datenmenge, und an der Empfängerseite unter Zugrundelegung einer entsprechenden 3D-Engine die Rückgewinnung des ursprünglichen 3D-Modells ermöglicht, so dass die gesamte 3 D-Darstellung des Objekts an der Empfängerseite vorliegt. Wurde z.B. das gesamte Objekt als 3D-Modell erfasst und verarbeitet, so wird an der Empfängerseite die Möglichkeit geschaffen, dass ein Benutzer eine Perspektive frei auswählt, mit der er auf das entsprechende Objekt blicken möchte, und entsprechend der ausgewählten Perspektive werden die für die entsprechende Darstellung erforderlichen 3D-Aufnahmen aus dem 3 D-Modell an der Empfängerseite erzeugt. Somit kann empfängerseitig frei bestimmt werden, aus welcher Perspektive bzw. welchen Blickwinkeln ein 3D-Model! zu betrachten ist, so dass dann die entsprechenden 3D-Aufnahmen für die Darstellung auf dem emp- fängerseitigen Monitor generiert werden können, ohne dass es einer Neuaufnahme und damit einer Neuübertragung der Daten oder eines Rückkanals an den Sender bedarf. Diese Ausgestaltung wird vorzugsweise bei folgenden Anwendungen verwendet: · Präsentationen auf Messen oder Shows mit Glasscheibe in Menschengröße oder größer;
• Kommunikationsanwendung im Schreibtisch, z.B. in Form einer Glasscheibe in Monitorgröße, die aus dem Schreibtisch herausfahrbar ist, auf der ein Hologramm des Gesichts eines Gesprächspartners erscheint;
· im Wohnbereich, in dem eine Glasscheibe mit Projektionshardware in beliebiger Größe aufgestellt ist, oder Außenfensterscheiben, so dass ein oder mehrere Gesprächspartner im Wohnbereich stehend als Hologramm darstellbar sind.
Die Vorgehensweise, wie sie oben anhand der verschiedenen Ausführungsbeispiele im Detail beschrieben wurde, wird gemäß Ausführungsbeispielen vorzugsweise bei folgenden Anwendungen eingesetzt: interaktiver und immersiver 3D Film für Filminhalte jeglicher Art;
Kommunikation in Multi-User 3D Welten, z.B. für E-Learning, Edutainment, Vertrieb,
Politik, Unterhaltung, Shows;
realistischere Avatare für Spiele und Unterhaltung;
virtuelle Greeter als Menschendarstellungen zur lokalen Kommunikation mit Menschen;
virtuelle Spiegel, die verschiedene Kleider am Menschen anzeigen;
Überwachung von Maschinen in Produktionsanlagen im Rahmen von Industrie 4.0 und Internet der Dinge und Logistik, Betrieb und Beschaffung von Verschleißteilen; Überwachung von Menschen in kritischen Infrastrukturen, z.B. Grenzüberwachung; Training und Simulation von gefährlichen oder nicht existierenden Umgebungen mit menschlichen Interaktionen. Ferner findet die vorliegenden Ausführungsbeispiele Anwendung bei der Überwachung als Darstellung und Übertragung von sich ändernden Inhalten. Für einige Anwendungen ist die Überwachung, Erkennung und Übertragung von sich ändernden Inhalten besonders wichtig. Hierbei werden Differenzen eines statischen 3 D-Modells in bestimmten Grenzen (Schwellenwerte) zu einem aufgenommenen Livebild erzeugt, um Änderungen schneller und genauer als in einem 2D-Videobild zu erkennen. Beispielsweise sei die Überwachung einer Bohranlage betrachtet. Ein statisches 3 D-Modell der Bohranlage wird mehrfach pro Sekunde mit einer 3D-Aufnahme aus einem Blickwinkel auf die Bohranlage verglichen, wobei beispielsweise die Bohranlage während der Laufzeit über die 3D- Engine animiert werden kann. Änderungen im Live-3D-Modell, wie beispielsweise das Eintreten eines Menschen in einen Aufnahmebereich, werden mit dem statischen SD- Modell verglichen und können Alarme auslösen. Für eine 3D-Sicht der Situation und der Lage der Anlage mit dem Menschen ist nur die Übertragung der Unterschiede nötig, da die statische Anlage bereits als 3 D-Modell vorliegt, was gegenüber der vollständigen Videoübertragung in Bezug auf Datenmenge, Geschwindigkeit, 3D-Raumansicht mit inter- aktiven Blickpunkt und Darstellungsqualität sowie Güte der Visualisierung vorteilhaft ist.
Nachfolgend werden weitere Ausführungsbeispiele beschrieben bzw. bereits beschriebene Ausführungsbeispiele konkretisiert. So schaffen Ausführungsbeispiele ein Verfahren zum Erzeugen von Daten für eine zwei- oder dreidimensionale Darstellung zumindest eines Teils eines Objekts, mit: Erzeugen eines 3 D-Modells des Teils des Objekts unter Verwendung einer SD- Aufnahme des Teils des Objekts; und
Bereitstellen von Daten unter Verwendung des 3D-Modells, die die Scheitelpunkte des Teils des Objekts im dreidimensionalen Raum und die den Scheitelpunkten zugeordneten Farbwerte beschreiben.
Der Ansatz zum Erzeugen von Daten für eine zwei- oder dreidimensionale Darstellung ist vorteilhaft, da, anders als in herkömmlichen Ansätzen, auf die aufwendige Übertragung von zweidimensionalen Bilddaten verzichtet wird. Vielmehr wird ausgehend von den dreidimensionalen Bilddaten, welche eine 3D-Aufnahme des Teils des Objekts darstellen, ein 3 D-Modell erstellt, welches zumindest den Teil des Objekts darstellt, von dem die SD- Aufnahme erhalten wurde. Dieses 3 D-Modell kann beispielsweise ein Gittermodell oder ein Dreiecksnetz sein, wie es beispielsweise aus dem Bereich der CAD-Technik bekannt ist. Das so erhaltene Modell lässt sich durch die Position der Scheitelwerte im dreidimensionalen Raum beschreiben, beispielsweise im kartesischen Koordinatensystem durch die X-, Y- und Z-Werte der Scheitelpunkte. Ferner lassen sich die Farbwerte den entsprechenden Scheitelpunkten zuordnen, ggf. werden auch noch Texturinformationen übertragen. Die hierdurch erzeugte Datenmenge ist um ein Vielfaches geringer als die Daten- menge, die bei der Übertragung eines 2D-Bilds mit einer Größe von 1024 x 768 Pixel anfällt, so dass hierdurch eine aufgrund der geringen Datenmenge zur Darstellung des Objekts in dreidimensionaler Form eine schnelle und verzögerungsfreie Übertragung der Daten über ein Übertragungsmedium ermöglicht wird, insbesondere werden die Probleme im Zusammenhang mit den im Stand der Technik herkömmlicherweise anfallenden gro- ßen Datenmengen verhindert. Die so erzeugten Daten können entweder zur Erzeugung einer dreidimensionalen Darstellung (z.B. eine 3D-I_ivesequenz oder ein 3D-Film) oder zur Erzeugung einer zweidimensionalen Darstellung (z.B. eine 2 D-Livesequenz oder ein 2D- Film) auf einer geeigneten Anzeigevorrichtung zur Darstellung des Objekts oder des Teils des Objekts verwendet werden.
Gemäß Ausführungsbeispielen umfasst die 3D-Aufnahme den Teils des Objekts und einen Hintergrund, wobei das Verfahren ferner das Extrahieren des Hintergrunds aus den Daten unter Verwendung des Z-Werts jedes Scheitelpunkts umfasst, beispielsweise durch Entfernen eines Scheitelpunkts aus den Daten, wenn der Z-Wert des Scheitelwerts au- ßerhalb eines vordefinierten Bereichs ist. Gemäß Ausführungsbeispielen kann zusätzlich vorgesehen sein, den Randbereichs des Objekts zu korrigieren, indem Tiefenabstände, die einen vorbestimmten Schwellwert überschreiten, herausgefiltert werden.
Diese Vorgehensweise ist vorteilhaft, da hierdurch das aufgenommene Objekt auf einfa- che Art und Weise ohne den ebenfalls aufgenommenen Hintergrund dargestellt werden kann, und so nur die Daten für das eigentliche Objekt erzeugt werden, nicht jedoch die ggf. gar nicht erforderlichen Hintergrunddaten, so dass hierdurch eine weitere Reduzierung der Datenmenge erreicht wird. Ferner ermöglicht diese Vorgehensweise, das durch die erzeugten Daten dreidimensional darzustellende Objekt an der Empfangsseite in ei- nem anderen Kontext darzustellen, beispielsweise vor einem anderen Hintergrund.
Gemäß Ausführungsbeispielen wird das 3D-Modell unter Verwendung zumindest einer ersten 3D-Aufnahme und einer zweiten 3D-Aufnahme des Objekts aus jeweils unterschiedlichen Positionen erzeugt, wobei die erste und zweite 3D-Aufnahme zumindest teilweise überlappen. Die unterschiedlichen Positionen können derart gewählt sein, dass ein Bereich des Objekts, der in der ersten 3D-Aufnahme des Objekts nicht sichtbar ist, in der zweiten 3D-Aufnahme des Objekts sichtbar ist. Gemäß Ausführungsbeispielen kann vorgesehen sein, ein erstes 3D-Modell unter Verwendung der ersten 3D-Aufnahme und ein zweites 3D-Modell unter Verwendung der zweiten 3D-Aufnahme zu erzeugen, und das erste und zweite 3D-Modell in ein gemeinsames 3 D-Modell zu verbinden, wobei die Daten unter Verwendung des gemeinsamen 3 D-Modells bereitgestellt werden. Gemäß Ausführungsbeispielen kann das Verbinden des ersten und zweiten 3D-Modells in ein gemeinsames 3 D-Modell Folgendes umfassen: Anordnen des ersten und zweiten SD- Modells derart, dass deren Überlappungsbereiche in Deckung sind, Identifizieren der Scheitelpunkte aus dem ersten 3 D-Modell und aus dem zweiten 3D-Modell, die in einer Ebene innerhalb eines vordefinierten Abstands liegen, und Zusammenfassen der identifizierten Scheitelpunkte zu einem neuen Scheitelpunkt in dem gemeinsamen 3D-Modell. Vorzugsweise wird das Identifizieren und Zusammenfassen für eine Mehrzahl von Ebenen wiederholt, wobei die Anzahl und der Abstand der Mehrzahl von Ebenen so gewählt ist, dass der Teil des Objekts durch das gemeinsame 3D-Modell dargestellt ist.
Gemäß Ausführungsbeispielen kann vorgesehen sein, dass eine Mehrzahl von SD- Aufnahmen des Objekts aus unterschiedlichen, zumindest teilweise überlappenden Positionen verwendet wird, um das 3 D-Modell zu erzeugen, so dass das 3D-Modell mehrere Abschnitte des Objekts oder sogar das vollständige Objekt umfasst. Diese Ausgestaltung ist vorteilhaft, da hierdurch sichergestellt wird, dass alle Bereiche des Teils des Objekts, welches dreidimensional darzustellen ist, durch entsprechende Daten des 3D-Modells beschrieben werden, so dass insbesondere in einer Darstellung nicht gezeigte Abschnitte des Objekts aufgrund der zweiten Darstellung aus einer ande- ren Perspektive bzw. aus einem anderen Blickwinkel erkannt werden und zusammengeführt werden. Dies ermöglicht insbesondere für den Fall einer Mehrzahl von Aufnahmen aus einer Mehrzahl von Blickrichtungen die Erzeugung eines 3 D-Modells des gesamten Objekts, welches dann entsprechend der Scheitelpunkte und der Farbwerte des SD- Modells beschrieben werden, so dass bei einer Wiedergewinnung der Aufnahmen auf einfache Art und Weise an der Empfangsstelle eine Betrachtung des Objekts aus einer beliebig festlegbaren Perspektive möglich ist, insbesondere eine Betrachtung ohne fehlerhafte oder fehlende Stellen.
Gemäß Ausführungsbeispielen umfasst das Bereitstellen der Daten ein Reduzieren der Datenmenge ohne Datenverlust, durch Bestimmen der räumlichen Abstände der Scheitel werte, und Korrigieren der räumlichen Abstände als Folgedifferenzen ausgehend von einem vorgegebenen Startpunkt. Gemäß Ausführungsbeispielen kann vorgesehen sein, mit dem Kodieren an einem unteren Punkt des Objekts zu beginnen, und spiralförmig bis zu einem oberen Punkt des Objekts fortzuführen.
Diese Vorgehensweise ist vorteilhaft, da hierdurch eine nochmalige Reduzierung der Datenmenge ermöglicht wird, ohne dass ein Datenverlust eintritt, da ausgehend vom Anfangspunkt, der vollständig Kodiert ist, lediglich die Differenzwerte zu den Positionen der benachbarten Scheitelpunkte zu definieren sind, wodurch sich die angesprochene weitere Reduzierung der Datenmenge ergibt.
Gemäß Ausführungsbeispielen umfasst das Erzeugen des 3 D-Modells das Bereitstellen der 3D-Aufnahme des Objekts bzw. des Teils des Objekts durch eine 3D-Kamera oder das Bereitstellen einer stereoskopischen Aufnahme des Objekts bzw. des Teils des Ob- jekts.
Diese Ausgestaltung ist vorteilhaft, da auf bekannte Ansätze zur Erzeugung von SD- Aufnahmen bzw. stereoskopischen Aufnahmen zurückgegriffen werden kann, die dann als Eingabe für den Prozess, der beispielsweise durch eine 3D-Engine durchgeführt wird, dienen, um das 3D-Modell zu erfassen und entsprechend zu Kodieren. Gemäß Ausführungsbeispielen handelt es sich bei dem Objekt um eine Person, ein Tier, einen Gegenstand oder einen Hintergrund.
Diese Vorgehensweise ist vorteilhaft, da der Ansatz im Hinblick auf das darzustellende Objekt keinerlei Beschränkungen unterworden ist, da aus den 3D-Aufnahmen des Objekts auf die beschriebene Art und Weise ein deutlich reduzierter Datensatz zur Beschreibung desselben in dreidimensionaler Form gewonnen werden kann. Handelte es sich bei dem Objekt um einen Hintergrund, so ist dies vorteilhaft, da hierdurch die Möglichkeit besteht, einen erwünschten Hintergrund bereitzustellen, und an eine entfernte Position zur Darstel- lung in dreidimensionaler Ausgestaltung bereitzustellen, insbesondere ermöglicht die Darstellung des gesamten Hintergrunds, beispielsweise eines Raums, der durch mehrere Kameras in dreidimensionaler Art aufgenommen wird, die Erstellung von Daten zur Darstellung des Hintergrunds auf Grundlage des 3D-Modells, die mit einer reduzierten Datenmenge übertragen werden und die es an der Empfangsstelle ermöglichen, den Hinter- grund, beispielsweise den Raum, so zu generieren, dass ein Betrachter am Empfangsort in der Lage ist, aus einer beliebigen Position/Perspektive den Hintergrund wahrzunehmen.
Gemäß Ausführungsbeispielen werden das Erzeugen des 3D-Modells und das Bereitstel- len der Daten mit einer vorbestimmten Wiederholungsrate wiederholt, um eine Vielzahl von zeitlich aufeinanderfolgenden Frames zu erzeugen, die jeweils die bereitgestellten Daten enthalten und als 3 D-Sequenz anzeigbar sind. Vorzugsweise ist die Wiederholungsrate derart gewählt, dass in einer Sekunde bis zu 30 Frames erzeugt werden. Diese Vorgehensweise ist vorteilhaft, da hierdurch die Möglichkeit eröffnet wird, SD- Sequenzen oder 3D-Filme zu erzeugen, die aufgrund der geringen Datenmenge jedes Einzelframes ohne Probleme im Hinblick auf die Übertragungsdauer, Übertragungsbandbreite und Datenmenge von der Stelle, an der die Daten erzeugt werden, an eine Empfangsstelle, an der die Daten anzuzeigen sind, übertragen werden können. Diese Vorge- hensweise ermöglicht erstmals, anders als im Stand der Technik, die zuverlässige und schnelle Erzeugung von Daten zur Darstellung eines 3D-Films bzw. einer 3D-Sequenz, die für eine Übertragung über ein Übertragungsmedium mit beschränkter Bandbreite, beispielsweise das Internet, geeignet sind. Gemäß Ausführungsbeispielen ist das Objekt zumindest das Gesicht einer Person, und das vorliegende Verfahren umfasst für jeden Frame Folgendes: Bereitstellen eines stati- sehen Gesichtsmodells eines Originalgesichts einer anderen Person, Bestimmen einer Position des Gesichts der Person im Raum bei der Erzeugung der 3 D-Aufnahme, Überlagern des 3D-Modells des Gesichts der Person mit dem statischen Gesichtsmodell der anderen Person, Anpassen des 3D- odells des Gesichts der Person an denjenigen Stel- len, an denen keine Bewegung vorliegt, an das statische Gesichtsmodell der anderen Person, Erstellen einer Textur aus der 3D-Aufnahme des Gesichts der Person, die an den jeweiligen Stellen, an denen eine Bewegung vorliegt, transparent ist, um eine Lochmaskentextur zu erzeugen, und halbtransparentes Texturieren der Lochmaskentextur auf das angepasste 3 D-Modell des Gesichts der Person, so dass eine sich ergebende 3D- Sequenz für das menschliche Auge eine bewegte und animierte Darstellung des Originalgesichts zeigt.
Diese Vorgehensweise ist vorteilhaft, da hierdurch auf einfache Art und Weise ermöglicht wird, einer Person, die im Hinblick auf Körperbau und Statur einer bekannten Person ähn- lieh ist, die Gesichtskonturen der anderen Person zuzuordnen, so dass die bereitgestellten Daten, die aufgrund der beschriebenen Vorgehensweise eine geringe Datenmenge aufweisen, an der Empfangsstelle so aufbereitet werden können, dass der dortige Betrachter den Eindruck gewinnt, dass die andere Person dargestellt ist, was insbesondere im Bereich der Unterhaltungsindustrie und ähnlichen Bereichen vorteilhaft ist.
Ausführungsbeispiele schaffen ferner ein Verfahren zum Erzeugen einer zwei- oder dreidimensionalen Darstellung zumindest eines Teils eines Objekts, mit:
Erzeugen von Daten für die zwei- oder dreidimensionale Darstellung des zumindest einen Teils des Objekts gemäß dem beschriebenen Verfahren;
Übertragen der Daten; und
Erzeugen einer 2D- oder 3D-Aufnahme des Teils des Objekts unter Verwendung der übertragenen Daten.
Diese Vorgehensweise ist vorteilhaft, da aufgrund des beschriebenen Ansatzes, die für die dreidimensionale Darstellung erzeugten Daten nur eine geringe Datenmenge aufweisen und somit auf einfache Art und Weise übertragen werden. Die so empfangenen Da- ten, welche das 3D-Modell anzeigen, ermöglichen durch Anwenden einer 3D-Engine das Erzeugen einer entsprechenden 3D-Aufnahme des Teils des Objekts, welche dann auf herkömmliche Art und Weise zur dreidimensionalen Darstellung auf einer Anzeigevorrichtung, beispielsweise einem stereoskopischen Monitor, verwendet werden kann. Dies kann beispielsweise durch Erzeugen einer 3D-Aufnahme durch die 3D-Engine erfolgen, um das Objekt stereoskopisch darzustellen oder zu projizieren. Vorzugsweise erzeugt die 3D- Engine bis zu 30 3D-Aufnahmen pro Sekunde, was vorteilhaft ist, da hierdurch Bewegtbilder, also 3 D-Filme oder 3 D-Sequenzen, aus den empfangenen Daten erzeugt werden können.
Gemäß Ausführungsbeispielen umfasst das Verfahren einen Anzeigen der 3D-Aufnahme durch eine Anzeigevorrichtung, z.B. einen autostereoskopischen 3D-Monitor oder durch eine Batterie von lichtstarken Projektoren, wobei vorgesehen sein kann, dass die Anzeigevorrichtung unter Verwendung des stereoskopischen 3D-Pepper's-Ghost- Verfahrens zur Erzeugung von Hologrammen arbeitet. Bei dieser Ausgestaltung kann das Verfahren ein Projizieren der von der 3D-Engine erzeugten 3D-Aufnahmen auf eine Glasscheibe umfassen, die ein Linsenraster oder eine geeignete 3D-Struktur umfasst, so dass innerhalb eines Bereichs vor der Glasscheibe für das menschliche Auge ein 3D-Hologramm entsteht.
Diese Vorgehensweise ist vorteilhaft, da hierdurch die Möglichkeit geschaffen wird, her- kömmliche Anzeigevorrichtungen zur Erzeugung von 3D-Darstellungen von Objekten zu verwenden, die auf Grundlage von Eingangsdaten arbeiten, wie sie auch im Stand der Technik verwendet werden, die jedoch unter Zugrundelegung der erzeugten Daten aus dem 3D-Modell generiert werden. Gemäß Ausführungsbeispielen kann das Übertragen der Daten eine Übertragung über das Internet oder ein Intranet umfassen, z.B. durch eine Client-Server-Beziehung, beispielsweise unter Verwendung des TCP-IP-, des UDP- oder des Serverside-Protokolls. Alternativ oder zusätzlich kann auch ein lokales Abspeichern der Daten als Datei vorgesehen sein.
Diese Vorgehensweise ist vorteilhaft, da herkömmliche Übertragungsmedien zum Einsatz gelangen, da aufgrund der beschriebenen Vorgehensweise keine besonderen Anfordernisse an die bereitgestellte Bandbreite und Übertragungskapazität vorliegen.
Gemäß Ausführungsbeispielen kann an der Empfängerseite vorgesehen sein, eine Perspektive auszuwählen, aus der das Objekt zu betrachten ist, und das Objekt aus darge- stellten Perspektive basierend auf den empfangenen Daten darzustellen, wobei die Daten das 3 D-Modell des Objekts beschreiben, so dass kein Ruckkanal zu der Stelle erforderlich ist, an der die 3D-Aufnahme des Objekts erzeugt wird. Diese Vorgehensweise stellt einen besonderen Vorteil des beschriebenen Ansatzes dar, da an der Empfängerseite ein 3D-Modell des Objekts oder eines Teils des Objekts erzeugt wird, welches auf die oben beschriebene Art und Weise an die Empfängerseite übertragen wird, mit einer reduzierten Datenmenge. Dies ermöglicht an der Empfängerseite unter Zugrundelegung einer entsprechenden 3D-Engine, die Rückgewinnung des ursprünglichen 3D-Modells, so dass die gesamte 3D-Darstellung des Objekts an der Empfängerseite vorliegt. Wurde nun das gesamte Objekt als 3D-Modell erfasst und verarbeitet, so wird an der Empfängerseite die Möglichkeit geschaffen, dass beispielsweise ein Benutzer eine Perspektive auswählt, mit der er auf das entsprechende Objekt blicken möchte, und entsprechend der ausgewählten Perspektive werden die für die entspre- chende Darstellung erforderlichen 3D-Aufnahmen aus dem 3D-Modell an der Empfängerseite erzeugt. Eine solche Vorgehensweise ist im Stand der Technik nicht ohne weiteres möglich, da hier empfängerseitig nur die senderseitig erzeugten Bilder vorliegen, die zur dreidimensionalen Darstellung auf der Anzeige zu kombinieren sind. Um eine andere Perspektive zu erhalten, ist es erforderlich, senderseitig eine entsprechende andere Aufnah- me aus einer anderen Perspektive zu erzeugen, diese zu übertragen, um dann entsprechend eine Darstellung zu ermöglichen. Dies erfordert zum einen eine nochmalige Übertragung der Daten mit den oben bereits beschriebenen Problemen aufgrund der hohen Datenmenge, und zum anderen wäre ein Rückkanal vom Empfänger an die Senderseite nötig, um die geänderte Perspektive an den Sender zu übermitteln, um die erwünschte Neuaufnahme zu ermöglichen. Diese Problematik wird vermieden, da empfängerseitig bereits das 3 D-Modell des Objekts bzw. des Teils des Objekts vorliegt, so dass empfängerseitig bestimmt werden kann, aus welcher Perspektive dieses 3D-Modell zu betrachten ist, so dass dann die entsprechenden 3 D-Aufnahmen für die Darstellung auf dem emp- fängerseitigen Monitor generiert werden können, ohne dass es einer Neuaufnahme und damit einer Neuübertragung der Daten oder eines Rückkanals an den Sender bedarf.
Ausführungsbeispiele schaffen ferner ein Computerprogramm mit Anweisungen zum Ausführen des Verfahrens, wenn die Anweisungen durch einen Computer ausgeführt werden, wodurch bei einer Computerimplementierung des beschriebenen Ansatzes ebenfalls die oben erwähnten Vorteile erreicht werden. Ausführungsbeispiele schaffen ferner eine Vorrichtung zum Erzeugen von Daten für eine zwei- oder dreidimensionale Darstellung zumindest eines Teils eines Objekts, mit: einem Eingang, der konfiguriert ist, um eine 3D-Aufnahme des Teils des Objekts zu empfangen; einer 3D-Engine, die mit dem Eingang verbunden ist und konfiguriert ist, um unter Verwendung der empfangenen 3D-Aufnahme ein 3D-Modell des Teils des Objekts zu erzeugen, und um unter Verwendung des 3D-Modells, Daten zu erzeugen, die die Scheitelpunkte des Teils des Objekts im dreidimensionalen Raum und die den
Scheitelpunkten zugeordneten Farbwerte beschreiben; und einem Ausgang, der mit der 3D-Engine verbunden ist und konfiguriert ist, um die erzeugten Daten bereitzustellen.
Gemäß Ausführungsbeispielen ist die 3D-Engine konfiguriert, um einen Hintergrund in der 3D-Aufnahme aus den Daten unter Verwendung des Z-Wertes jedes Scheitelpunkts zu extrahieren, wobei vorzugsweise ein Randbereich des Teils des Objekts durch Herausfiltern von Tiefenabständen, die einen vorbestimmten Schwellenwert überschreiten, korri- giert werden.
Gemäß Ausführungsbeispielen ist der Eingang konfiguriert, um zumindest eine erste SD- Aufnahme und eine zweite 3D-Aufnahme des Objekts aus jeweils unterschiedlichen Positionen zu empfangen, wobei die erste und zweite 3D-Aufnahme zumindest teilweise über- läppen. Die 3D-Engine ist konfiguriert, um das 3D- odell unter Verwendung der ersten 3D-Aufnahme und der zweiten 3D-Aufnahme des Objekts zu erzeugen. Vorzugsweise erzeugt die 3D-Engine ein erstes 3D-Modell unter Verwendung der ersten 3D-Aufnahme und ein zweites 3D-Modell unter Verwendung der zweiten 3 D-Aufnahme und ein gemeinsames 3 D-Modell unter Verwendung des ersten und zweiten 3D-Modells, wobei die Daten unter Verwendung des gemeinsamen 3 D-Modells erzeugt werden.
Gemäß Ausführungsbeispielen bewirkt die 3D-Engine eine Reduzierung der Datenmenge ohne Datenverlust, indem die räumlichen Abstände der Scheitelwerte bestimmt werden, und die räumlichen Abstände als Folgedifferenzen ausgehend von einem vorgegebenen Startpunkt bis zu einem Endpunkt spindelartig Kodiert werden. Gemäß Ausführungsbeispielen umfasst die Vorrichtung eine 3D-Kamera oder eine stereoskopische Aufnahmevorrichtung zum Erzeugen der 3D-Aufnahme des Objekts, wobei die 3D-Kamera bzw. die stereoskopische Aufnahmevorrichtung mit dem Eingang verbunden ist.
Gemäß Ausführungsbeispielen ist die 3D-Engine konfiguriert, um das 3D-Modell und die Daten mit einer bestimmten Wiederholungsrate zu erzeugen, um eine Vielzahl von zeitlich aufeinanderfolgenden Frames zu erzeugen, die jeweils die bereitgestellten Daten enthalten und als 3D-Sequenz anzeigbar sind.
Gemäß Ausführungsbeispielen ist das Objekt zumindest das Gesicht einer Person, und die 3D-Engine ist konfiguriert, um für jeden Frame eine Position des Gesichts der Person im Raum bei der Erzeugung der 3D-Aufnahme zu bestimmen, um das 3D-Modell des Gesichts der Person mit einem statischen Gesichtsmodell eines Originalgesichts einer ande- ren Person zu überlagern, um das 3D-Modell des Gesichts der Person an denjenigen Stellen, an denen keine Bewegung vorliegt, an das statische Gesichtsmodell der anderen Person anzupassen, um eine Textur aus der 3 D-Aufnahme des Gesichts der Person, die an denjenigen Stellen, an denen eine Bewegung vorliegt, transparent ist, zu erstellen, um eine Lochmaskentextur zu erzeugen, und um die Lochmaskentextur auf das angepasste 3 D-Modell des Gesichts der Person halbtransparent zu texturieren, so dass eine sich ergebende 3D-Sequenz für das menschliche Auge eine bewegte und animierte Darstellung des Originalgesichts zeigt.
Die gerade genannten Ausführungsbeispiele bieten die Vorteile, die oben im Zusammen- hang mit dem beschriebenen Verfahren erläutert wurden.
Ausführungsbeispiele schaffen ein System zum Erzeugen einer zwei- oder dreidimensionalen Darstellung zumindest eines Teils eines Objekts, mit: einer Vorrichtung zum Erzeugen von Daten für die zwei- oder dreidimensionale Darstellung des zumindest einen Teils des Objekts gemäß Ausführungsbeispielen, einem Übertragungsmedium zum Übertragen der Daten, das mit der Vorrichtung zum Erzeugen der Daten verbunden ist, und einer 3D-Engine, die mit dem Übertragungsmedium verbunden ist, und konfiguriert ist, um eine 2D- oder 3D-Aufnahme des Teils des Objekts unter Verwendung der übertragenen Daten zu erzeugen. Gemäß Ausführungsbeispielen umfasst das System eine Anzeigevorrichtung, z.B. in Form eines autostereoskopischen 3D-Monitos oder in Form einer Batterie von lichtstarken Projektoren, die mit der 3D-Engine verbunden ist. Vorzugsweise arbeitet die Anzeigevorrichtung unter Verwendung des stereoskopischen 3D Pepper's-Ghost Verfahrens zur Erzeugung von Hologrammen, und ist konfiguriert, um die von der 3D-Engine erzeugten 3D- Aufnahmen auf eine Glasscheibe zu projizieren, die ein Linsenraster oder eine geeignete 3D-Struktur umfasst, so dass innerhalb eines Bereichs vor der Glasscheibe für das menschliche Auge ein 3D-Hologramm entsteht.
Gemäß Ausführungsbeispielen ist die 3D-Engine des Systems konfiguriert, um eine Aus- wähl einer Perspektive zu empfangen, aus der das Objekt zu betrachten ist, und um das Objekt aus der ausgewählten Perspektive basierend auf den empfangenen Daten, die das 3D-Modell des Objekts beschreiben, darzustellen, so dass kein Rückkanal zu der Stelle erforderlich ist, an der die 3D-Aufnahme des Objekts erzeugt wird. Das beschriebene System hat die oben, im Zusammenhang mit dem Verfahren näher beschriebenen Vorteile.
Ausführungsbeispiele schaffen somit die Möglichkeit für eine interaktive Echtzeit-SD- Graphik. Das im Stand der Technik bestehende Problem im Hinblick auf die ungeheure Datenmenge betreffend die Darstellung von 3D-Objekten wird gemäß Ausführungsbeispielen mit Hilfe einer 3D-Engine angegangen, auf der beispielsweise eine sogenannte Echtzeitsoftware für die Darstellung einer Computergraphik läuft. Bei der Kodierung der 3D-Bilddaten wird die räumliche Komponente des 3D-Modells als eine deterministische Folge von räumlichen Abständen ausgenutzt, so dass die Datenmenge bei gleichbleiben- der Qualität merklich reduziert wird. Die sich ergebende Datenmenge als Folge von räumlichen Abständen ist um Größenordnungen kleiner als die im Stand der Technik anfallende Datenmenge zur Übertragung von 3D-Bilddaten als Folge von 2D-Bildern. Darüber hinaus kann die räumliche Kodierung von Abstandswerten schneller durchgeführt werden als die Kompression von 2D-Bilddaten, was es ermöglicht, eine Live-Übertragung von 3D- Bilddaten in Echtzeit durchzuführen, die mit einer geeigneten 3D-Engine beim Empfänger in drei Dimensionen mit interaktiver Blickpunktänderung oder als stereoskopischer Film als mehrere 2D-Bilder pro Frame dargestellt werden können.
Ausführungsbeispiele wurden im Zusammenhang mit der 3D-Darstellung eines Objekts oder eines Teils des Objekts beschrieben. Gemäß weiteren Ausführungsbeispielen kann der beschriebene Ansatz auch bei einer zweidimensionalen Darstellung des Objekts oder des Teils des Objekts eingesetzt werden, z.B. indem die erzeugten Daten, die das SD- Modell wiedergeben, empfängerseitig nur als 2D-Bilder bzw. als 2D-Bildfolge aufbereitet und zur Anzeige gebracht werden. Auch in diesem Fall ergeben sich die oben erwähnten Vorteile gegenüber einer herkömmlichen Übertragung von 2D-Bildern.
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein. Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.
Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft. Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.

Claims

Paten tan sprüche
Vorrichtung (800) zur Darstellung eines Raumbilds von einem Objekts in eine virtuellen Umgebung, wobei die Vorrichtung folgende Merkmale aufweist: ein erstes Bilderfassungselement (802), das ausgebildet ist, einen ersten stereoskopischen Bilddatenstrom (810) von einer Umgebung (820) zu erzeugen; ein zweites Bilderfassungselement (804), das ausgebildet ist, einen zweiten stereoskopischen Bilddatenstrom (812) von dem Objekt zu erzeugen; eine Recheneinheit (806), die ausgebildet ist, den ersten und den zweiten stereoskopischen Bilddatenstrom (812) zu empfangen, ausgehend von einem Bezugspunkt, basierend auf dem ersten stereoskopischen Bilddatenstrom (810) ein Raumbild der virtuelle Umgebung zu erzeugen und ein Raumbild des Objekts, ausgehend von dem Bezugspunkt, aus dem zweiten stereoskopischen Bilddatenstrom (812) in die virtuelle Umgebung einzufügen; und ein Anzeigeelement (808), das ausgebildet ist, ausgehend von dem Bezugspunkt, das Raumbild von dem Objekt in der virtuellen Umgebung anzuzeigen.
Vorrichtung (800) gemäß Anspruch 1 , mit einem dritten Bilderfassungselement (816), das ausgebildet ist, einen dritten stereoskopischen Bilddatenstrom (818) von einem weiteren Objekt zu erzeugen; wobei die Recheneinheit (806) ausgebildet ist, den dritten stereoskopischen Bilddatenstrom (818) zu empfangen und eine Orientierung des weiteren Objekts in dem dritten stereoskopischen Bilddatenstrom (818) zu ermitteln und Disparitäten des Raumbilds der virtuellen Umgebung und Disparitäten des Raumbild des Objekts basierend auf der Orientierung des weiteren Objekts ausgehend von dem Bezugspunkt einzustellen; wobei das Anzeigeelement (808) ausgebildet ist, unter Berücksichtigung der ermittelten Disparitäten des Raumbilds und der virtuellen Umgebung, das Raumbild von dem Objekt in der virtuellen Umgebung anzuzeigen.
3. Vorrichtung (800) gemäß Anspruch 2, wobei die Recheneinheit (806) ausgebildet ist, ein Raumbild des weiteren Objekts aus dem dritten stereoskopischen Bilddatenstrom (818) in die virtuelle Umgebung einzufügen und Disparitäten des Raumbilds des weiteren Objekts basierend auf einer Orientierung es Objekts einzustellen; und ein weiteres Anzeigeelement (808'), das ausgebildet ist, unter Berücksichtigung der Disparitäten des Raumbilds und der virtuellen Umgebung, das Raumbild des weiteren Objekts in der virtuellen Umgebung anzuzeigen, so dass einem Betrachter des weiteren Anzeigeelements (808') der Eindruck eines 3D-Objekts in einer SD- Umgebung vermittelt wird.
4. Vorrichtung (800) gemäß einem der vorherigen Ansprüche, wobei die Recheneinheit (806) ausgebildet ist, bei einer Änderung des Bezugspunktes, das Raumbild der virtuelle Umgebung und das Raumbild des Objekts basierend auf dem geänderten Bezugspunkt erneut zu erzeugen.
5. Vorrichtung (800) gemäß einem der vorherigen Ansprüche, wobei das erste Bilderfassungselement (802) ausgebildet ist, den ersten stereoskopischen Bilddatenstrom (810) in einer Initialisierungsphase zu erzeugen; wobei die Recheneinheit (806) ausgebildet ist, den ersten stereoskopischen Datenstrom (810) zu empfangen, in einem Speicher abzuspeichern und in einem Betriebsmodus abhängig von dem Bezugspunkt ein Raumbild der Umgebung aus dem gespeicherten ersten stereoskopischen Datenstrom zu erzeugen.
6. Vorrichtung (800) gemäß einem der vorherigen Ansprüche, wobei das zweite Bilderfassungselement (804) ausgebildet ist, den zweiten stereoskopischen Bilddatenstrom (812) von dem Objekt an einem weiteren Zeitpunkten zu erzeugen; wobei die Recheneinheit (806) ausgebildet ist, den zweiten stereoskopischen Bilddatenstrom (812) zu einem weiteren Zeitpunkt zu empfangen, eine Position und/oder eine Orientierung des Objekts zu dem weiteren Zeitpunkt ausgehend von einem Bezugspunkt zu bestimmen und, basierend auf der Position und/oder der Orientierung des Objekts zu dem weiteren Zeitpunkt das Raumbild des Objekts in der virtuellen Umgebung anzupassen.
Vorrichtung (800) gemäß einem der vorherigen Ansprüche, wobei die Recheneinheit (806) ausgebildet ist, zumindest einem Teil des Raumbilds des Objekts Überlagerungsbilddaten zu überlagern
Vorrichtung (800) gemäß Anspruch 7, wobei die Recheneinheit (806) ausgebildet ist, eine aktuelle Erscheinungsform des Objekts (822a, 822b) zu bestimmen und die Überlagerungsbilddaten basierend auf der bestimmen aktuellen Erscheinungsform anzupassen oder Überlagerungsbilddaten aus einer Mehrzahl von Überlagerungsbilddaten basierend auf der bestimmen aktuellen Erscheinungsform auszuwählen und die ausgewählten Überlagerungsbilddaten dem Teil des Raumbilds zu überlagern.
Vorrichtung (800) gemäß einem der Ansprüche 7 oder 8, wobei das Bilderfassungselement ausgebildet ist, in der Initialisierungsphase eine Augenpartie oder ein Gesicht einer Person als Objekt zu scannen und als Überlagerungsbilddaten zu speichern, wobei die Recheneinheit (806) ausgebildet ist, in dem Betriebsmodus eine von der Person aufgesetzte Datenbrille mit den in der Initialisierungsphase erhaltenen Überlagerungsbildern zu überlagern.
Vorrichtung (800) Anspruch 9, wobei die Recheneinheit (806) ausgebildet ist, die Augenpartie oder das Gesicht in den Überlagerungsbilddaten basierend auf einem Gemütszustand der Person anzupassen und die angepassten Überlagerungsbilddaten der Person zu überlagern. 1 1. Vorrichtung (800) gemäß Anspruch 10, wobei die Bildaufnahmeeinheit ausgebildet ist, eine Mehrzahl von Überlagerungsbilddaten anzulegen, wobei die Recheneinheit (806) ausgebildet ist, den Gemütszustand anhand eines Vergleichs einer aktuellen Position der Mundwinkel der Person mit einer Position der Mundwinkel in der Mehrzahl von Überlagerungsbilddaten zu vergleichen und das Überlagerungsbild, das den aktuellen Gesichtsausdruck bestmöglich wiedergibt, auszuwählen.
12. Vorrichtung (800) gemäß einem der vorherigen Ansprüche, wobei das erste Bilderfassungselement (802) das Bilderfassungselement gemäß Anspruch 16 ist.
13. Vorrichtung (800) gemäß einem der vorherigen Ansprüche, wobei das Raumbild des Objekts und/oder das Raumbild der Umgebung die Abwesenheit eines Gittermodells aufweist.
14 Verfahren zur Darstellung eines Raumbilds von einem Objekts in eine virtuellen Umgebung, mit folgenden Schritten:
Erzeugen eines ersten stereoskopischen Bilddatenstrom von einer Umgebung;
Erzeugen eines zweiten stereoskopischen Bilddatenstroms von dem Objekt;
Empfangen des ersten und des zweiten stereoskopischen Bilddatenstroms;
Erzeugen eines Raumbildes der virtuellen Umgebung, ausgehend von einem Bezugspunkt, basierend auf dem ersten stereoskopischen Bilddatenstrom
Einfügen des Objekts, ausgehend von dem Bezugspunkt, aus dem zweiten stereoskopischen Bilddatenstrom in die virtuelle Umgebung; und
Anzeigen, ausgehend von dem Bezugspunkt, das Raumbild von dem Objekt in der virtuellen Umgebung.
15. Computerprogramm mit einem Programmcode zur Ausführung des Verfahrens gemäß Anspruch 14.
16. Bilderfassungselement, das ausgebildet ist, ein Raumbild von einem Objekt und/oder ein Raumbild einer Umgebung aufzunehmen.
PCT/EP2018/055518 2017-03-07 2018-03-06 Vorrichtung und verfahren zur darstellung eines raumbilds von einem objekt in einer virtuellen umgebung WO2018162509A2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP18764183.2A EP3593528A2 (de) 2017-03-07 2018-03-06 Vorrichtung und verfahren zur darstellung eines raumbilds von einem objekt in einer virtuellen umgebung
US16/561,341 US11652970B2 (en) 2017-03-07 2019-09-05 Apparatus and method for representing a spatial image of an object in a virtual environment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102017203721.0 2017-03-07
DE102017203721.0A DE102017203721A1 (de) 2017-03-07 2017-03-07 Vorrichtung und Verfahren zur Darstellung eines Raumbilds von einem Objekt in einer virtuellen Umgebung

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/561,341 Continuation US11652970B2 (en) 2017-03-07 2019-09-05 Apparatus and method for representing a spatial image of an object in a virtual environment

Publications (2)

Publication Number Publication Date
WO2018162509A2 true WO2018162509A2 (de) 2018-09-13
WO2018162509A3 WO2018162509A3 (de) 2020-01-02

Family

ID=63259000

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2018/055518 WO2018162509A2 (de) 2017-03-07 2018-03-06 Vorrichtung und verfahren zur darstellung eines raumbilds von einem objekt in einer virtuellen umgebung

Country Status (4)

Country Link
US (1) US11652970B2 (de)
EP (1) EP3593528A2 (de)
DE (1) DE102017203721A1 (de)
WO (1) WO2018162509A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021086792A1 (en) 2019-10-28 2021-05-06 Magic Leap, Inc. Edge detection and smoothing for virtual object presentation

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3729242A4 (de) 2017-12-22 2021-01-20 Magic Leap, Inc. Verfahren und system zur erzeugung und darstellung von 3d-videos in einer virtuellen umgebung der erweiterten realität
CN111464828A (zh) * 2020-05-14 2020-07-28 广州酷狗计算机科技有限公司 虚拟特效显示方法、装置、终端及存储介质
US11538214B2 (en) * 2020-11-09 2022-12-27 Meta Platforms Technologies, Llc Systems and methods for displaying stereoscopic rendered image data captured from multiple perspectives
US20240096033A1 (en) * 2021-10-11 2024-03-21 Meta Platforms Technologies, Llc Technology for creating, replicating and/or controlling avatars in extended reality

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153146A (ja) * 1995-09-28 1997-06-10 Toshiba Corp 仮想空間表示方法
US6873340B2 (en) * 1997-05-15 2005-03-29 Visimatix, Inc. Method and apparatus for an automated reference indicator system for photographic and video images
JP4772544B2 (ja) * 2005-04-27 2011-09-14 富士フイルム株式会社 撮像装置、撮像方法、及びプログラム
US8094928B2 (en) * 2005-11-14 2012-01-10 Microsoft Corporation Stereo video for gaming
US20070210985A1 (en) * 2006-03-13 2007-09-13 Royer George R Three dimensional imaging system
DE102007028654A1 (de) * 2007-06-19 2009-01-15 Institut für Arbeitsphysiologie an der Universität Dortmund Vorrichtung und Verfahren zur ergonomischen Darstellung der räumlichen Tiefe von Objekten in virtuellen Umgebungen
US8743176B2 (en) * 2009-05-20 2014-06-03 Advanced Scientific Concepts, Inc. 3-dimensional hybrid camera and production system
US8368696B2 (en) * 2009-06-19 2013-02-05 Sharp Laboratories Of America, Inc. Temporal parallax induced display
US9013559B2 (en) * 2010-02-02 2015-04-21 Konica Minolta Holdings, Inc. System, method and program for capturing images from a virtual viewpoint
US20130278631A1 (en) * 2010-02-28 2013-10-24 Osterhout Group, Inc. 3d positioning of augmented reality information
US8438590B2 (en) * 2010-09-22 2013-05-07 General Instrument Corporation System and method for measuring audience reaction to media content
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
DE102011008886A1 (de) * 2011-01-19 2012-07-19 Sterrix Technologies UG (haftungsbeschränkt) Verfahren und Vorrichtung zur Stereobasis-Erweiterung von stereoskopischen Bildern und Bildfolgen
US9292959B2 (en) * 2012-05-16 2016-03-22 Digizig Media Inc. Multi-dimensional stacking with self-correction
US10008027B1 (en) * 2014-10-20 2018-06-26 Henry Harlyn Baker Techniques for determining a three-dimensional representation of a surface of an object from a set of images
US11956414B2 (en) * 2015-03-17 2024-04-09 Raytrx, Llc Wearable image manipulation and control system with correction for vision defects and augmentation of vision and sensing
US10555021B2 (en) * 2015-08-31 2020-02-04 Orcam Technologies Ltd. Systems and methods for selecting content based on a user's behavior
WO2017038774A1 (ja) * 2015-09-01 2017-03-09 オリンパス株式会社 撮像システム、処理装置、処理方法及び処理プログラム
GB2544971B (en) * 2015-11-27 2017-12-27 Holition Ltd Locating and tracking fingernails in images
CN113050293B (zh) * 2016-07-21 2023-02-17 天马微电子股份有限公司 立体显示装置
US10735691B2 (en) * 2016-11-08 2020-08-04 Rockwell Automation Technologies, Inc. Virtual reality and augmented reality for industrial automation
EP3343432B1 (de) * 2016-12-29 2024-03-20 Elektrobit Automotive GmbH Erzeugen von trainingsbildern für objekterkennungssysteme, die auf maschinenlernen basieren

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021086792A1 (en) 2019-10-28 2021-05-06 Magic Leap, Inc. Edge detection and smoothing for virtual object presentation
US11315333B2 (en) 2019-10-28 2022-04-26 Magic Leap, Inc. Edge detection and smoothing for virtual object presentation
CN114616821A (zh) * 2019-10-28 2022-06-10 奇跃公司 用于虚拟对象呈现的边缘检测和平滑处理
CN114616821B (zh) * 2019-10-28 2023-03-24 奇跃公司 用于虚拟对象呈现的边缘检测和平滑处理
EP4052457A4 (de) * 2019-10-28 2023-07-05 Magic Leap, Inc. Kantendetektion und glättung zur darstellung virtueller objekte
US11727652B2 (en) 2019-10-28 2023-08-15 Magic Leap, Inc. Edge detection and smoothing for virtual object presentation

Also Published As

Publication number Publication date
DE102017203721A1 (de) 2018-09-13
WO2018162509A3 (de) 2020-01-02
EP3593528A2 (de) 2020-01-15
US11652970B2 (en) 2023-05-16
US20190394443A1 (en) 2019-12-26

Similar Documents

Publication Publication Date Title
EP3347876B1 (de) Vorrichtung und verfahren zur erzeugung eines modells von einem objekt mit überlagerungsbilddaten in einer virtuellen umgebung
EP3304496B1 (de) Verfahren und vorrichtung zum erzeugen von daten für eine zwei- oder dreidimensionale darstellung zumindest eines teils eines objekts und zum erzeugen der zwei- oder dreidimensionalen darstellung zumindest des teils des objekts
WO2018162509A2 (de) Vorrichtung und verfahren zur darstellung eines raumbilds von einem objekt in einer virtuellen umgebung
DE69932619T2 (de) Verfahren und system zum aufnehmen und repräsentieren von dreidimensionaler geometrie, farbe und schatten von animierten objekten
DE112018001822T5 (de) Skelettbasierte Effekte und Hintergrundaustausch
DE112018000311T5 (de) Stereoskopisches Rendering unter Verwendung von Raymarching und ein Broadcaster für eine virtuelle Ansicht für solches Rendering
DE112016004640T5 (de) Filmische bearbeitung für virtuelle realität und erweiterte realität
US9582918B2 (en) Techniques for producing creative stereo parameters for stereoscopic computer animation
CN112446939A (zh) 三维模型动态渲染方法、装置、电子设备及存储介质
US20220114784A1 (en) Device and method for generating a model of an object with superposition image data in a virtual environment
DE112015004871T5 (de) Verfahren zur automatisierten Echtzeit-Konversion von 2D-RGB-Bildern und -Video in stereoskopische Rot-Cyan-3D-Anaglyphen
DE112019002353T5 (de) Techniken zum umschalten zwischen immersionsebenen
WO2017085325A1 (de) Vorrichtung und verfahren zur überlagerung zumindest eines teils eines objekts mit einer virtuellen oberfläche
EP3057316B1 (de) Erzeugung dreidimensionaler bilder zur ergänzung existierender inhalte
WO2009118156A2 (de) Verfahren zum erzeugen einer 3d-abbildung einer szene aus einer 2d-abbildung der szene
WO2011032642A1 (de) Verfahren und vorrichtung zum erzeugen von teilansichten und/oder einer raumbildvorlage aus einer 2d-ansicht für eine stereoskopische wiedergabe
DE102015017128A1 (de) Verfahren und Vorrichtung zum Erzeugen von Daten für eine zwei- oder dreidimensionale Darstellung zumindest eines Teils eines Objekts und zum Erzeugen der zwei- oder dreidimensionalen Darstellung zumindest des Teils des Objekts
JP2009500878A (ja) 奥行錯覚デジタル撮像
DE112021003549T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
Caviedes et al. Real time 2D to 3D conversion: Technical and visual quality requirements
KR20210090180A (ko) 화상 처리 디바이스, 화상 처리 방법, 프로그램, 및 표시 디바이스
US7212662B2 (en) Method for the compressed transmission of image data for 3-dimensional representation of scenes and objects
WO2024055211A1 (zh) 基于NeRF多景层结合的三维视频重建方法及系统
DE112020001322T5 (de) Eine szene darstellendes bildsignal
Wen et al. A new methodology for evaluating various methods of 3D reconstruction from single image

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18764183

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018764183

Country of ref document: EP

Effective date: 20191007