WO2020054605A1 - 映像表示装置、映像処理装置 - Google Patents

映像表示装置、映像処理装置 Download PDF

Info

Publication number
WO2020054605A1
WO2020054605A1 PCT/JP2019/035160 JP2019035160W WO2020054605A1 WO 2020054605 A1 WO2020054605 A1 WO 2020054605A1 JP 2019035160 W JP2019035160 W JP 2019035160W WO 2020054605 A1 WO2020054605 A1 WO 2020054605A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
information
display device
camera
video display
Prior art date
Application number
PCT/JP2019/035160
Other languages
English (en)
French (fr)
Inventor
難波 秀夫
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US17/273,911 priority Critical patent/US20210344890A1/en
Publication of WO2020054605A1 publication Critical patent/WO2020054605A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/167Synchronising or controlling image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/232Image signal generators using stereoscopic image cameras using a single 2D image sensor using fly-eye lenses, e.g. arrangements of circular lenses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking

Definitions

  • the present invention relates to a video display device and a video processing device.
  • This application claims priority based on Japanese Patent Application No. 2018-170471 for which it applied to Japan on September 12, 2018, and uses the content here.
  • UHD Ultra High Density
  • Ultra-high resolution display devices can provide images with a sense of realism by utilizing the abundant amount of information that can be provided to viewers. The study of video communication using this video with excellent realism is also in progress.
  • the image of the communication partner displayed on the display device is displayed so as to face the user who is performing communication, and the presence of the image is enhanced as if the user is gazing.
  • the display device does not transmit light, so it is not possible to shoot with a video camera device from behind the display device, and if the video camera device is placed on the front side of the display device, the image displayed on the display device and the user This is because there is a problem that the presence of the camera device causes a decrease in the sense of realism. This will be described with reference to FIG.
  • FIG. 2A shows an example of an outline in the case of performing video communication.
  • the user 1, 201 who performs video communication displays an image of the user 2, 203 as a communication partner displayed on the video display device 202. At this time, it is preferable to take an image of the user 2.203 from a location corresponding to the line of sight of the user 1/201 shown as 208. However, as shown in FIG. 2B, since the image display device 207 used by the user 2.203 does not completely transmit light, a place corresponding to the line of sight of the user 1.201 described above. You cannot shoot from 204. It is only possible to shoot from places 205 and 206 that are not blocked by the video display device 207.
  • a video camera device is arranged between the video display device 207 and the user 2/203 and the image is taken, it is possible to take an image from a place corresponding to the line of sight of the user 1/201.
  • the video camera enters the field of view when viewing the video display device 207 from 2.203, and the sense of reality of the user 2.203 is hindered.
  • a video camera device for capturing an image of an ultra-high resolution often uses a lens having a high resolution, and the effect is increased because the video camera device is often increased in size. This impairs the user experience.
  • One embodiment of the present invention has been made in view of the above problems, and uses a plurality of video camera devices arranged outside a display area of a display device, and transmits images captured by the plurality of video camera devices on a network.
  • a device that realizes a highly realistic video communication by generating a video of an arbitrary viewpoint using the video processing device of the above and displaying the video on a display device of a communication partner side, and a configuration thereof are disclosed.
  • a video display device that communicates with one or more video processing devices, comprising a video display unit, a plurality of video camera units, A synchronization control unit, comprising a control unit, each of the plurality of video camera units is installed outside a video display unit, the synchronization control unit synchronizes the shutter of the plurality of video camera units, the control unit is For one or more of the video processing devices, camera capability information indicating the capabilities of the plurality of video camera units, camera arrangement information indicating an arrangement condition of the plurality of video camera units, and image display of the image display unit Display capability information indicating a capability, transmitting video information captured by each of the plurality of video camera units, receiving video information transmitted from the one or more video processing devices, Video display apparatus is provided, characterized in that displayed on the image display unit.
  • the camera arrangement information includes the plurality of videos based on a predetermined point in a video display unit provided in the video display device.
  • An image display device is provided, which includes position information of a camera unit and information on optical axes of the plurality of video camera units with reference to a display surface of the image display unit.
  • the camera capability information includes information on a focal length and an aperture of a lens setting used by each of the plurality of video camera units.
  • An image display device is provided.
  • the display display capability is information about a size of the video display unit provided in the video display device, and the video display unit can display the information.
  • a video display device comprising at least one of information on a resolution, information on a color depth that can be displayed by the video display device, and information on an arrangement of the video display unit.
  • control unit receives setting information of the video camera unit from one of the one or more video processing devices, and
  • the video display device is characterized in that each of the plurality of video camera units is set according to the following.
  • a video display device is provided, wherein a combination of values of the display capability information, the camera capability information, and the camera arrangement information sent to the device is partially restricted.
  • a video processing device that communicates with a plurality of video display devices including a first video display device and a second video display device.
  • a camera performance information indicating a capability of a plurality of video camera units from the first video display device, a camera arrangement information indicating an arrangement condition of the plurality of video camera units, and a display indicating an image display capability of the video display unit
  • Capability information and video information captured by each of the plurality of video camera units are received, an arbitrary viewpoint video is generated from the received video information, and the arbitrary video viewpoint video is transmitted to the second video display device. Is transmitted.
  • the display capability information, the camera capability information, and the camera arrangement information can take a plurality of values
  • the display An image processing apparatus is provided, wherein a combination of capability information, the camera capability information, and the camera arrangement information is restricted.
  • video information captured by each of a plurality of video camera units is transmitted to a video processing device, video information of an arbitrary viewpoint transmitted from the video processing device is received, and the video display unit By displaying, video communication using a video with a high sense of reality becomes possible, and the user experience of the user can be enhanced.
  • FIG. 2 is a diagram illustrating a configuration example of a light field and a video camera unit according to an embodiment of the present invention. It is a figure showing an example of a light field camera of one embodiment of the present invention. It is a figure showing an example of composition at the time of learning of one embodiment of the present invention.
  • FIG. 1 shows an example of a device connection configuration according to the present embodiment.
  • Reference numerals 101 and 102 denote video display devices in which a plurality of video camera devices are arranged outside the display area.
  • a network 103 communicates between the video display device 101 and the video display device 102 as a system.
  • Each of the video display devices 101 and 102 can communicate with the video processing devices 1 and 104 and the video processing devices 2 and 105 via the network 103.
  • the video processing apparatuses 1 and 104 and the video processing apparatuses 2 and 105 may be directly accommodated in the network 103 or may be connected via another network connected to the network 103.
  • the type and shape of the network 103 are not particularly limited, and a metal connection such as Ethernet (registered trademark), an optical fiber connection, a public wireless network such as a cellular wireless network, a private wireless network using a wireless LAN, or the like may be used.
  • the network 103 transmits the information speed of the photographing data transmitted from each of the video display devices 101 and 102 to the video processing devices 1 and 104, and is transmitted from the video processing devices 2 and 105 to the video display devices 101 and 102. It is sufficient if there is a capacity that can satisfy the information speed of the video data.
  • the video processing devices 1 and 104 receive display capability information, camera capability information, camera arrangement information, and captured video information from the video display processing devices 101 and 102, and generate light field data from these information.
  • the display capability information, the camera capability information, and the camera arrangement information are obtained directly from the video display devices 101 and 102, as well as from a preset method, another network device, such as a device that manages network connection, and the like.
  • the connection management information 102 or an identifier capable of specifying the video display devices 101 and 102 may be obtained, and the connection management information and the identifier may be obtained using a method of obtaining information associated with the connection management information and the identifier.
  • the video processing devices 2 and 105 generate video data of an arbitrary viewpoint using the light field data generated by the video processing devices 1 and 104 and transmit the video data to the video display devices 101 and 102.
  • the viewpoint of the video data to be generated may be specified from the video display device 101 or the video display device 102 that receives the generated video information. Further, the viewpoint of the video data to be generated may be generated by the video processing devices 1 and 104. At this time, using the camera capability information, the camera arrangement information, and the captured video information possessed by the video processing devices 1 and 104, one of the video processing devices 1 and 104 or the video processing devices 2 and 105 determines the viewpoint of the video data. May be set.
  • the video processing is shared between the video processing devices 1 and 104 and the video processing devices 2 and 105. However, this may be performed by one video processing device, or shared by more than two video processing devices. You may. When the processing is performed by one processing device, the processing device may be divided into blocks and the processing may be shared.
  • Communication between the video display device 101 and the video display device 102 is performed by the video display device 101 such as display capability information, camera capability information, camera arrangement information, and video information captured by a plurality of cameras installed in the video display device 101.
  • the video processing devices 2 and 105 Is input to the video processing devices 1 and 104, the video processing devices 2 and 105 generate video data of an arbitrary viewpoint using the light field data generated by the video processing devices 1 and 104, and the generated video of the arbitrary viewpoint is generated.
  • the flow of data for displaying data on the video display device 102, display capability information, camera capability information, camera arrangement information from the video display device 102, and video information captured by a plurality of cameras installed on the video display device 102 The light field data input to the video processing devices 1 and 104 and generated by the video processing devices 1 and 104 There generates image data of an arbitrary view point image processing device 2, 105, and the image data of the generated arbitrary view from the stream of data to be displayed on the video display device 101.
  • the two data flows are composed of the same processing, and the following description describes the data flow from the video display device 101 to the video display device 102, and the flow from the video display device 102 to the video display device 101 The description of the data flow directed to this is omitted.
  • FIG. 3 shows an outline of the structure of the video display devices 101 and 102.
  • Eight video camera units 303 to 310 are arranged outside a cabinet 301 that accommodates the video display unit 302.
  • the display capability information of the video display devices 101 and 102 may include information on the shapes of the video display devices 101 and 102.
  • the horizontal length 312 and the vertical length 311 of the video display unit representing the size of the video display unit 302 may be included in the display capability information.
  • the distance 313 between the center position of the video display unit 302 and the grounding surfaces of the video display devices 101 and 102 may be included in the display capability information as information on the installation conditions.
  • the image display unit 302 arranges the display surface along the vertical direction, and arranges the image display unit in the horizontal direction perpendicular to the vertical direction.
  • Information on the inclination and rotation of the display unit with respect to the vertical direction may be included in the display capability information.
  • information on the resolution of the video display unit for example, information indicating that 3840 pixels in the horizontal direction and 2048 pixels in the vertical direction can be displayed may be included in the display capability information.
  • the displayable resolution may be included in the display capability information.
  • information such as all of 7680 ⁇ 4320, 3840 ⁇ 2160, 1920 ⁇ 1080 (pixel ⁇ pixel), or information corresponding to any two resolutions may be included in the display capability information.
  • information on the color depth that can be displayed by the video display unit 302 may be included in the display capability information.
  • information on the color depth that can be displayed by the video display unit 302 may be included in the display capability information.
  • information such as 8 bits or 10 bits as the maximum color depth per pixel may be included in the display capability information.
  • the camera arrangement information of the video display apparatuses 101 and 102 may include the arrangement conditions of the plurality of video camera units 303 to 310 included in each of the video display apparatuses 101 and 102.
  • the arrangement position of the video camera unit 304 which is one of the plurality of video camera units 303 to 310
  • the center position of the front principal point of the lens included in the video camera unit 304 from the center position of the video display unit 302 May be included.
  • a specific point other than the center position may be used as a reference.
  • a vertical distance 314 and a horizontal distance 315 from the center position of the video display unit 302 to the center position of the front principal point of the lens may be used.
  • the relationship between the center position of the video display unit 302 and the center position of the front principal point of the lens may be expressed in a polar coordinate format.
  • the camera arrangement information may include information on the direction of the optical axis of the lens included in each of the video camera units 303 to 310, the specification of the lens, and the setting.
  • the angle of the optical axis of the lens 316 is set to an angle ( ⁇ , ⁇ ) 317 from the vertical direction of the surface of the image display device 302, the focal length f ⁇ 318 of the lens 316, the aperture setting a ⁇ 319, and the brightness of the lens 316.
  • Information F (F value) (not shown) may be included in the camera arrangement information.
  • information F (F value) relating to the focal length f ⁇ 318 of the lens 316, the aperture setting a ⁇ 319, and the brightness of the lens 316, which are the lens settings, may be included in the camera capability information.
  • F value the focal length f ⁇ 318 of the lens 316
  • the aperture setting a ⁇ 319 the brightness of the lens 316
  • the present invention is not limited to this.
  • the video camera units 303 to 310 do not need to be arranged on the same plane as the unit 302, and when each of the video camera units 303 to 310 has a zoom lens, the front principal point position of the lens 316 may be changed when the shooting angle of view changes.
  • information on the position of the front principal point of the lens 316 may be included in the camera position information.
  • Information on the position of the front principal point of the lens 316 may use the total distance from the plane of the video display unit 320, or may be other position information.
  • the positional relationship between the lens 316, the image display unit 302, and the lens 316 is not limited to the front principal point of the lens 316, and may be a value based on the position of the flange back or the image sensor.
  • the camera capability information may include the capability of the video camera unit with respect to the image sensor provided in each of the video camera units.
  • one or a plurality of resolutions of a video signal that can be output by each video camera unit, a color depth that can be output, information on an arrangement of color filters to be used, information on an arrangement of an image sensor, and the like can be given.
  • the arrangement positions of the video camera units 303 to 310 with respect to the video display unit 302 may be determined in advance.
  • the size may be determined according to the size of the video display unit 302 and the number of video camera units to be used.
  • the size of the element used as the video display unit 302 is standardized, and some of the available locations for the video camera unit are defined based on the size of the element of the video display unit. You may make it possible to show.
  • the video camera units 303 to 310 may be partially movable so that a plurality of optical axes to be used can be set, and information on the usable optical axes may be included in the camera capability information.
  • FIG. 4 is a block diagram showing an example of the configuration of the video display devices 101 and 102.
  • the video display devices 101 and 102 have the same configuration, and the video display device 101 will be described below.
  • Reference numerals 401 to 408 denote video camera units, which correspond to the video camera units 303 to 310 in FIG.
  • Reference numeral 409 denotes a microphone unit including one or more microphone elements.
  • Reference numerals 411 to 418 denote video encoding units for video encoding video output signals from the video camera units 401 to 408, and reference numeral 419 denotes an audio encoding unit for audio encoding the audio output signal of the microphone unit.
  • Reference numeral 410 synchronizes the shutters of the video camera units 401 to 408, synchronizes the timing of a coding unit (for example, GOP (Group @ Of @ Picture) or the like) of the video coding units 411 to 418, and codes the audio coding unit 419.
  • the timing of a coding unit (such as an audio frame) is synchronized with the coding unit of video coding. It is desirable that the synchronization of the shutters be completely synchronized. However, it is sufficient that the synchronization is performed to such an extent that there is no inconsistency in the video output from each video camera unit at the time of signal processing such as encoding processing.
  • Reference numeral 420 denotes a multiplexing unit that multiplexes the encoded video data output from the video encoding units 411 to 418 and the encoded audio data output from the audio encoding unit 419.
  • the container format used in the multiplexing is not particularly limited.
  • Reference numeral 422 denotes a communication control unit which transmits multiplexed data to the video processing devices 1 and 104 for display on the video display device 103 and is transmitted from the video display device 103 to display on the video display device 102.
  • the video data generated from the data is received from the video processing apparatuses 2 and 105 and output to the demultiplexing unit 423.
  • Reference numeral 423 denotes a demultiplexing unit that demultiplexes the video data output from the communication control unit 422 and extracts video encoded data and audio encoded data.
  • the encoded video data is output to the video decoding unit 424, and the encoded audio data is output to the audio decoding unit 426. If the video data includes information on the time of the encoded data, for example, a time stamp, the video decoding unit 424 and the audio decoding unit may reproduce the decoded video and audio in accordance with the information on the time.
  • the encoded data input to 426 may be adjusted.
  • Reference numeral 424 denotes a video decoding unit that decodes the input video coded data and outputs a video signal.
  • Reference numeral 425 denotes a video display unit that displays the input video signal so that a human can see it. Equivalent to.
  • Reference numeral 426 denotes an audio decoding unit that decodes the input encoded audio data and outputs an audio signal
  • 427 denotes an audio output unit that amplifies the audio signal and converts it into audio using a speaker or the like.
  • # 428 is an interface unit for connecting the video display device 101 and the network 103, and has a configuration according to the method used by the network 103.
  • the network 103 is a wireless network
  • a wireless modem may be used, and when the network 103 uses Ethernet (registered trademark), an Ethernet (registered trademark) adapter may be used.
  • the control unit 421 controls all the other blocks, communicates with the video processing devices 1 and 104, the video processing devices 2 and 105, and the video display device 102 via the communication control unit 422, and controls each device. Exchange data.
  • the control data includes display capability information, camera capability information, and camera arrangement information.
  • a light field is used to obtain an image of an arbitrary viewpoint.
  • a light field is a set representation of light rays in a certain space, and is generally represented as a set of four or more dimensional vectors.
  • a set of four-dimensional vectors also called a light slab (Light @ Slab) is used as light field data.
  • the outline of the light field data used in the present embodiment will be described with reference to FIG. As shown in FIG.
  • the light field data used in the present embodiment is a point (u, v) 503 on the parallel plane 1.501 to a point (x, y) on the plane 2.502.
  • a light ray passing toward 504 is represented as a four-dimensional vector L (x, y, u, v) 505.
  • u, v, x, and y need only be present in a range necessary for subsequent calculations.
  • L a set of L obtained for x, y, u, and v in a necessary range is defined as L ‘(x, y, u, v).
  • Reference numeral 511 denotes light field data L '(x, y, u, v), which is a light ray from the (x, y) of the area 514 on L' in the direction of the viewpoint 512 as viewed from a certain viewpoint 512. Is represented by a set of Similarly, an image of a certain angle of view 516 viewed from another viewpoint 515 is represented by a set of light rays from the L'-shaped region 517 (x, y) toward the viewpoint 515.
  • the video obtained by shooting the ⁇ light field data L ⁇ with a video camera in which a virtual lens, aperture, and image sensor are set can be similarly calculated.
  • the video camera has a lens 521, an aperture 522, and an image sensor 523 as components of the video camera, a length 525 from the front principal point of the lens 512 to the light field data L ', and light field data L on the extension of the optical axis of the lens 512. It is assumed that information on the position (x, y) (not shown) of ', the angle relationship between the optical axis of the lens 512 and the vertical direction of the light field data L' is set.
  • An image capturing range 524 is set in the image sensor 523.
  • a set of light rays coming from the light field L ′ entering the photographable range 524 can be calculated, and the setting of the aperture 522 and the lens 521 and the setting of the positional relationship between the lens 512 and the light field data L ′ can be performed by a so-called ray tracing technique.
  • ⁇ Light field data L ⁇ is a set of data arriving from various directions at various places, and it is common to use a device called a light field camera to capture light field data.
  • Various types of light field camera systems have already been proposed. As an example, an outline of a system using a microlens array will be described with reference to FIG.
  • the light field camera includes a main lens 601, a micro lens array 602, and an image sensor 603. It is assumed that the specifications of the main lens 601, the positional relationship between the main lens 601 and the micro lens array 602, the image sensor 603, and the resolution of the micro lens array 602 and the image sensor 603 are predetermined.
  • a light ray 606 passing through the main lens 601 and passing through a specific lens of the microlens array 602 reaches a specific position on the image sensor 603. This position is determined by the specifications of the main lens 601, the positional relationship among the main lens 601, the micro lens array 602, and the image sensor 603. Assuming a condition that a point 609 on a plane 604 is focused on the microlens array 602 for simplicity, a ray passing from a point 610 on another plane 605 to a point 609 on the plane 604 will be the main lens 601. Through the microlens array 602 to a point 607 on the image sensor 603.
  • a light beam passing from a point 611 on the plane 605 to a point 609 on the plane 604 passes through the main lens 601 and the microlens array 602, and reaches a point 608 on the image sensor 603.
  • This means that the light ray reaching the point p 1 (x 1 , y 1 ) on the image sensor 601 uses the light field data L ′ composed of the planes 604 and 605,
  • F 1 is the main lens 601, a microlens array 602, the specifications of the image pickup device 603, the main lens 601, a microlens array 602, a matrix determined by the positional relationship between the imaging element 603. This means that when such a light field camera is used, light field data can be generated within a range reflected on the image sensor 603.
  • the video camera units 303 to 310 included in the video display devices 101 and 102 used in the present embodiment cannot capture a video having an angle of view that can be captured by the users shown in FIG.
  • the data captured by the video camera units 303 to 310 corresponds to a part of the light field data or data substantially equivalent to a part of the light field data. This is because if the video camera units 303 to 310 can be installed near the light field camera, it is possible to take an image from a light ray direction close to the light ray direction acquired by the light field camera.
  • the video processing apparatuses 1 and 104 generate light field data used for generating an arbitrary viewpoint video from a part of video information of the light field data.
  • nonlinear interpolation using a neural network is performed for interpolation of light field data.
  • the neural network previously learns light field data output from the light field camera as teacher data.
  • FIG. 7 shows an example of the configuration of a device used for learning a neural network.
  • 701 is a light field camera
  • 702 and 703 are video camera units.
  • the video camera units 702 and 703 are blocks corresponding to the video camera units 303 to 310 in FIG. 3.
  • FIG. 3 there are eight video camera units, whereas in FIG. 7, only two video camera units 702 and 703 are provided. It is not shown, and the other six video camera units are omitted.
  • the omitted video camera unit performs the same processing as the video camera units 702 and 703.
  • it is assumed that the number of video cameras installed in the video display devices 102 and 103 is the same as the number of video cameras used for learning.
  • the present invention is not limited to this.
  • the light field camera 701 and the video camera units 702 and 703 allow the subject 702 arranged near the front of the video display device to enter the shooting range of each camera.
  • a synchronization control unit 704 synchronizes the shutters of the light field camera 701 and the video camera units 702 and 703.
  • the learning unit 705 advances the optimization of the weight coefficient of the neural network model by machine learning while changing the subject and the arrangement of the subject. It is assumed that the neural network used here uses light from video cameras 702 and 703 as input and outputs light field data.
  • the output of the light field camera 701 is used as the teacher data, and the optimization of the weight coefficient is advanced so that the output of the neural network and the output of the light field camera 701 become the same.
  • the structure of the neural network is not particularly limited.
  • a CNN Convolutional @ Neural @ Network
  • an RNN Recurrent ⁇ Neural ⁇ Network
  • Light field data which is the output of the neural network
  • the input to the neural network that is, the output of the video camera units 702 and 703, so that learning of the neural network may not proceed.
  • the light field data output from the neural network may be restricted.
  • the scale of the light field data can be reduced, and the learning efficiency of the neural network can be increased.
  • There are various methods for this restriction and it is only necessary that the position and the direction of the light beam included in the light field can be restricted.
  • Examples include limiting the position, optical axis, and angle of view of a virtual video camera used when generating an arbitrary viewpoint video to be synthesized using a light field, and limiting the resolution and color depth of the arbitrary viewpoint video to be synthesized. Method is available. Also, some conditions may be set for the signal input to the neural network, that is, the outputs of the video camera units 702 and 703, to improve the learning efficiency of the neural network. As an example, the arrangement conditions of the light field camera 701 and the video camera units 702 and 703 used as teacher data and the setting of the video camera unit may be restricted.
  • the number of video cameras used as the video camera units, the arrangement conditions set for each video camera (the relative positions of the video display devices 101 and 102 from the center of the video display unit, and the location of the video display devices 101 and 102) , The tilt of the optical axis from the vertical direction of the image display unit, and the lens setting (focal length, aperture amount, etc.) of each video camera may be limited.
  • the number of video cameras used as the video camera unit, the position where each video camera can be arranged, the direction in which the optical axis can be set, the set focal length, and the value that can be set for each of the set aperture settings are determined in advance. Alternatively, only one of the values may be used.
  • the combination of possible values for at least two parameters of the number of video cameras used as the video camera unit, the position where each video camera can be arranged, the direction in which the optical axis can be set, the settable focal length, and the set aperture setting can be set. May be restricted. Further, at least one of these parameters may be related to the size of the video display unit provided in the video display devices 101 and 102. At this time, a possible value for the size of the video display unit may be determined in advance.
  • the video processing apparatuses 1 and 104 if either of the camera capability information or the camera arrangement information obtained from the video display apparatus 101 indicates that they correspond to a plurality of settings, Information indicating the setting to be used may be sent to the display device 101 to instruct the setting to be used by the video display device 101. Also, when each of the camera capability information, the camera arrangement information, and the display display capability information can take a plurality of values, the combinations of values that can be processed by the neural network are limited in advance, and the image display is performed for combinations other than the processable combinations. Information indicating that combination is impossible may be sent to the device 101. As long as the combination can be approximated, an approximate combination may be used instead of the specified combination. Alternatively, it may be notified that an approximate combination has been used.
  • the learning unit 705 sends the weight of the neural network to the storage unit 706 and stores the learning result.
  • the number of video cameras to be used as the video camera unit, the position where each video camera can be arranged, the direction in which the optical axis can be set, the settable focal length, the settable aperture value, etc., or a combination of these values Learning results may be accumulated.
  • the accumulated learned weights are sent to the video processing devices 1 and 104.
  • Means for sending to the video processing apparatuses 1 and 104 are not particularly limited, and may be sent using some kind of network, or may be sent using a physical portable recording medium.
  • the system including the learning unit 705 illustrated in FIG. 7 may or may not be connected to the network 103.
  • the video processing devices 1 and 104 include a neural network similar to the neural network used by the learning unit 705, and use the weight obtained from the storage unit 706 to display the display capability information transmitted from the video display device 101, Light field data is generated from at least one of the capability information and the camera arrangement information and the captured video information transmitted from the video display device 101.
  • the weight obtained from the storage unit 706 changes based on at least one of the display capability information, the camera capability information, and the camera arrangement information transmitted from the video display device 101, the weight corresponding to the parameter based on this is used. To generate light field data.
  • the demultiplexing process is performed, and the same configuration as the video camera configuration used when learning the neural network is performed. Is input to the neural network.
  • audio data is multiplexed in a signal transmitted from the video display device 101
  • demultiplexing is performed including audio data at the time of demultiplexing, and signals other than video data including audio data are converted to the video processing device 2.
  • control information other than video data and audio data for example, control information such as display capability information, camera capability information, and camera arrangement information may be transmitted to the video processing devices 2 and 105. If the captured video information transmitted from the video display device 101 has been video-encoded, it performs composite processing and inputs the decoded signal to the neural network.
  • the light field data generated by the video processing devices 1 and 104 is input to the video processing devices 2 and 105.
  • the video processing apparatuses 2 and 105 generate video data of an arbitrary viewpoint in the manner shown in FIG.
  • a virtual video camera in which a virtual lens, an aperture, and an image sensor are set may be used to generate an image of an arbitrary viewpoint.
  • the setting of the arbitrary viewpoint and the setting of the virtual video camera may be performed by the video display device 102, or may be performed by the video processing devices 1 and 104 based on various data transmitted from the video display device 102.
  • the video display device 102 sets an arbitrary viewpoint and a virtual video camera, it estimates the position where the user is located using the video camera provided in the video display device 102, and estimates the position of the user and the video display device 102.
  • An arbitrary viewpoint may be set on an extension of a line connecting the vicinity of the center of the video display unit 302 included in the video display unit 302, and the virtual video camera may be set based on the size of the video display unit 302 included in the video display device 102.
  • a parallax map is created from each of the video information obtained from the plurality of video camera units provided in the video display device 102, and an area of the parallax map close to the video display device 102 is estimated as the user.
  • the position of the user may be estimated from the parallax of the area.
  • the image display apparatus 102 may include a sensor other than the video camera, for example, a pattern irradiation type depth sensor, estimate an object closer to the background as a user, and set an arbitrary viewpoint using the position of the object. Good.
  • the video display device 102 similarly includes the video display device 102 transmitted from the video display device 102.
  • a parallax map is created using the video information captured by the video camera units 303 to 310, an area of the parallax map close to the video display device 102 is estimated as a user, and the position of the user is estimated from the parallax of the area. May be.
  • the setting of the virtual video camera may be performed by using the size of the video display device 102 included in the display capability information sent from the video display device 102.
  • the image data of the arbitrary viewpoint is generated using the setting with the virtual video camera.
  • the resolution of the video data of the arbitrary viewpoint generated at this time may be set based on the display capability information of the video display device 102.
  • the resolution of the video data at an arbitrary viewpoint may be set by setting the sampling interval of the light field data.
  • the generated video data of an arbitrary viewpoint is video-encoded, and when audio data is input from the video processing devices 1 and 104, the encoded video data and the audio data are multiplexed and transmitted to the video display device 102. I do.
  • the video display device 102 receives the multiplexed video data and audio data of the arbitrary viewpoint, passes through the network interface unit 428 and the communication control unit 422, and encodes the video data and the audio data encoded by the demultiplexing unit 423.
  • the encoded audio data is separated, the encoded video data is decoded by the video decoding unit 424 and displayed on the video display unit 425, and the encoded audio data is decoded by the audio decoding unit 426 and the audio output unit 427 Is output as audio.
  • video data of an arbitrary viewpoint is generated using video data captured from a plurality of video camera units 303 to 310 disposed outside the video display unit 302 of the video display devices 101 and 102.
  • video data captured from a plurality of video camera units 303 to 310 disposed outside the video display unit 302 of the video display devices 101 and 102 By doing so, it becomes possible for the users to generate video data of an arbitrary viewpoint facing each other with the video display devices 101 and 102 sandwiched therebetween, and video communication with a high sense of reality can be realized.
  • the plurality of video camera units 303 to 310 may be photographed with the same setting, but different settings are performed for each of the plurality of video camera units 303 to 310 to generate light field data. Good. This is because when the performance of the plurality of video camera units 303 to 310 provided in the video display devices 101 and 102 is lower than the performance of the light field camera 701 used at the time of learning, the setting of each of the plurality of video camera units 303 to 310 is changed. This is because, in some cases, light field data close to the performance of the light field camera 701 can be generated by capturing an image.
  • the video camera units 303 to 310 are divided into a plurality of groups.
  • a group of aperture settings adapted to a scene with high illuminance and a group of aperture settings adapted to a scene with low illuminance may be set.
  • the aperture settings of the video camera units 303, 305, 307, and 309 are set to aperture settings to suit the scenes with high illuminance, and the aperture settings of the video camera units 304, 306, 308, and 310 are opened, and the video settings are set to low illumination settings. May be taken.
  • the aperture setting and arrangement of the video camera units (camera units 702 and 703 are omitted) used for learning the neural network using the light field camera 701 are described in the video camera units 303 to 303 described above.
  • the learning by the learning unit 705 is performed in the same manner as the setting of 310.
  • the light field data output by the neural network becomes close to the performance of the light field camera 701.
  • the video display device 101 allows the video processing devices 1 and 104 to set the video camera units 303 to 310, and the video processing devices 1 and 104 use the camera capability information and the camera arrangement information received from the video display device 101.
  • the settings of the video camera units 303 to 310 of the video display device 101 may be made.
  • the quality of the light field data generated by the video processing devices 1 and 104 is improved, and the video of the arbitrary viewpoint generated by the video processing devices 2 and 105 is improved. It is possible to improve the quality of data and realize a highly realistic video communication.
  • the different settings for each of the video camera units 303 to 310 may be made for other parameters such as the focal length, the color depth of the video data to be output, and the resolution, in addition to the aperture setting.
  • video data of an arbitrary viewpoint is generated using light field data in the first embodiment, but video data of an arbitrary viewpoint is generated using surface data.
  • the configuration of the video display devices 101 and 102 is the same as that of the first embodiment.
  • the processing of the video processing apparatus 1 is changed, a parallax map is created using video data captured by the video cameras 303 to 310 of the video display apparatus 101, and a 3D surface model is generated based on the parallax map.
  • the 3D surface model generates texture data based on video data captured by a plurality of video camera units 303 to 310 overlaid on the 3D surface model, and converts the 3D surface model and the texture data and the audio data transmitted from the video display device 101 into a video. It is sent to the processing device 2.
  • the processing of the video processing device 2 is also changed, and video data of an arbitrary viewpoint is generated and encoded as 3DCG video from the 3D surface model and texture data received from the video processing device 1 and information of the virtual camera to be set, and the video display device 101 Are multiplexed and transmitted to the video display device 102.
  • video data of an arbitrary viewpoint is generated using video data captured from a plurality of video camera units 303 to 310 disposed outside the video display unit 302 of the video display devices 101 and 102.
  • video data captured from a plurality of video camera units 303 to 310 disposed outside the video display unit 302 of the video display devices 101 and 102 By doing so, it becomes possible for the users to generate video data of an arbitrary viewpoint facing each other with the video display devices 101 and 102 sandwiched therebetween, and video communication with a high sense of reality can be realized.
  • the program that operates on the device according to the present invention may be a program that controls a Central Processing Unit (CPU) or the like to cause a computer to function so as to realize the functions of the embodiment according to the present invention.
  • the program or information handled by the program is temporarily stored in a volatile memory such as a Random Access Memory (RAM), a nonvolatile memory such as a flash memory, a Hard Disk Drive (HDD), or another storage device system.
  • RAM Random Access Memory
  • HDD Hard Disk Drive
  • a program for realizing the functions of the embodiment according to the present invention may be recorded on a computer-readable recording medium.
  • the program may be realized by causing a computer system to read and execute the program recorded on the recording medium.
  • the “computer system” is a computer system built in the device, and includes an operating system and hardware such as peripheral devices.
  • the “computer-readable recording medium” is a semiconductor recording medium, an optical recording medium, a magnetic recording medium, a medium that dynamically holds a program for a short time, or another computer-readable recording medium. Is also good.
  • Each functional block or various features of the device used in the above-described embodiment may be implemented or executed by an electric circuit, for example, an integrated circuit or a plurality of integrated circuits.
  • An electrical circuit designed to perform the functions described herein may be a general purpose processor, digital signal processor (DSP), application specific integrated circuit (ASIC), field programmable gate array (FPGA), or other Logic devices, discrete gate or transistor logic, discrete hardware components, or a combination thereof.
  • a general purpose processor may be a microprocessor, or may be a conventional processor, controller, microcontroller, or state machine.
  • the above-described electric circuit may be constituted by a digital circuit, or may be constituted by an analog circuit. Further, in the case where a technology for forming an integrated circuit that substitutes for a current integrated circuit appears due to the progress of semiconductor technology, one or more aspects of the present invention can use a new integrated circuit based on the technology.
  • the present invention is not limited to the above embodiment.
  • an example of the device has been described.
  • the present invention is not limited to this, and stationary or non-movable electronic devices installed indoors and outdoors, for example, AV devices, office devices, It can be applied to terminal devices or communication devices such as vending machines and other household appliances.
  • the present invention is applicable to a video display device and a video processing device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

視聴者が大画面の超高解像度ディプレイ装置による映像通信を行う場合、ビデオカメラの配置制限により撮影可能な映像に制限を受け、臨場感の低下が発生しユーザ体験が損なわれる。ディスプレイ装置の表示領域外に配置された複数のビデオカメラ装置を使用し、これら複数のビデオカメラ装置で撮影した映像をネットワーク上の映像処理装置を使用して任意視点の映像を生成し、通信相手側のディスプレイ装置に表示する。

Description

映像表示装置、映像処理装置
 本発明は、映像表示装置、映像処理装置に関する。本願は、2018年9月12日に日本に出願された特願2018-170471号に基づき優先権を主張し、その内容をここに援用する。
 近年、ディスプレイ装置の解像度が向上し、超高解像度(Ultra High Density:UHD)表示が可能なディスプレイ(画像表示)装置が登場している。このUHDディスプレイの中で特に高解像度の表示が可能なディスプレイ装置を使用する、横方向に8千ピクセル前後のテレビジョン放送を8Kスーパーハイビジョン放送の実用化が進められている。このような超高解像度表示を効果的に行うため、ディスプレイ装置は大型化する傾向にある。
 このような超高解像度の映像信号の伝送には広い帯域を有するネットワークが必要となるが、光ファイバーネットワークや、高度化された無線ネットワークの利用により超高解像度の映像信号の伝送が実用化されつつある。
 超高解像度ディスプレイ装置は視聴者に提供可能な豊富な情報量を利用し、臨場感を有する映像を伝えることができる。この臨場感に優れる映像を利用した映像通信の検討も進んでいる。
総務省."4K・8Kの推進に関する現状について".総務省ホームページ.<www.soumu.go.jp/main_content/000276941.pdf>
 映像による通信を行う場合、ディスプレイ装置に表示される通信相手の映像が通信を行っている使用者と正対するように表示され、視線を交わしているかのように表示されると臨場感が高まる。しかし、ディプレイ装置の大きさが大きくなるとビデオカメラ装置に大きな制限が発生する。これはディスプレイ装置が光を透過するものではないためディスプレイ装置の背後からビデオカメラ装置で撮影できない事、ディスプレイ装置の前面側にビデオカメラ装置を配置するとディスプレイ装置に表示される映像と使用者の間にカメラ装置が存在することによる臨場感の低下が問題となるためである。このことを、図2を使用して説明する。図2(a)に映像による通信を行う場合の概要の一例を示す。映像通信を行う使用者1・201は映像表示装置202に表示される通信相手となる使用者2・203の映像が表示される。このとき208として示す使用者1・201の視線上に相当する場所から使用者2・203を撮影する事が好ましい。しかし、図2(b)に示すように、使用者2・203が使用する映像表示装置207が光を完全に透過するものではないため、前述の使用者1・201の視線上に相当する場所204から撮影することはできない。映像表示装置207に遮られない場所205や206から撮影することしかできない。映像表示装置207と使用者2・203の間にビデオカメラ装置を配置して撮影すれば使用者1・201の視線上に相当する場所から撮影することが可能となるが、この場合は使用者2・203から映像表示装置207を見る際にビデオカメラが視界に入ることになり、使用者2・203の臨場感が阻害される。特に超高解像度の映像を撮影するためのビデオカメラ装置は使用するレンズも解像度が高いものが使われる事が多く、ビデオカメラ装置が大型化することが多いことにより影響が大きくなる。これによりユーザ体験が損なわれる。
 本発明の一態様は以上の課題を鑑みてなされたものであり、ディスプレイ装置の表示領域外に配置された複数のビデオカメラ装置を使用し、これら複数のビデオカメラ装置で撮影した映像をネットワーク上の映像処理装置を使用して任意視点の映像を生成し、通信相手側のディスプレイ装置に表示することで、臨場感の高い映像通信を実現する機器とその構成を開示するものである。
 (1)上記の目的を達成するために、本発明の一観点によれば、1以上の映像処理装置と通信を行う映像表示装置であって、映像表示部と、複数のビデオカメラ部と、同期制御部と、制御部を備え、前記複数のビデオカメラ部のそれぞれは映像表示部の外側に設置され、前記同期制御部は前記複数のビデオカメラ部のシャッターを同期させ、前記制御部は前記1以上のいずれかの映像処理装置に対し、前記複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示部の映像表示能力を示すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を送信し、前記1以上のいずれかの映像処理装置から送信された映像情報を受信し、前記映像表示部に表示する事を特徴とする映像表示装置が提供される。
 (2)上記の目的を達成するために、本発明の一観点によれば、前記カメラ配置情報は、前記映像表示装置が備える映像表示部の中の所定の点を基準とした前記複数のビデオカメラ部の位置情報を含み、前記映像表示部の表示面を基準とした前記複数のビデオカメラ部の光軸の情報を含むことを特徴とする映像表示装置が提供される。
 (3)上記の目的を達成するために、本発明の一観点によれば、前記カメラ能力情報は、前記複数のビデオカメラ部のそれぞれが使用するレンズ設定の、焦点距離、絞りに関する情報を含むことを特徴とする映像表示装置が提供される。
 (4)上記の目的を達成するために、本発明の一観点によれば、前記ディスプレイ表示能力は、前記映像表示装置が備える前記映像表示部の大きさに関する情報、前記映像表示部が表示可能な解像度に関する情報、前記映像表示装置が表示可能な色深度に関する情報、前記映像表示部の配置に関する情報の少なくとも1つを含むことを特徴とする映像表示装置が提供される。
 (5)上記の目的を達成するために、本発明の一観点によれば、前記制御部は前記1以上の映像処理装置のいずれかから前記ビデオカメラ部の設定情報を受信し、前記設定情報に従って前記複数のビデオカメラ部のそれぞれを設定する事を特徴とする映像表示装置が提供される。
 (6)上記の目的を達成するために、本発明の一観点によれば、前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも2つが複数の値を取り得る場合、 前記映像処理装置に対して送る前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の値の組み合わせが一部制限されることを特徴とする映像表示装置が提供される。
 (7)上記の目的を達成するために、本発明の一観点によれば、第1の映像表示装置と第2の映像表示装置を含む複数の映像表示装置と通信する映像処理装置であって、前記第1の映像表示装置から複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示部の映像表示能力を示すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を受信し、受信した前記映像情報から任意視点映像を生成し、前記第2の映像表示装置に対して前記任意映像視点映像を送信する事を特徴とする映像処理装置が提供される。
 (8)上記の目的を達成するために、本発明の一観点によれば、前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも2つが複数の値を取り得るときに、前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報がの組み合わせを制限することを特徴とする映像処理装置が提供される。
 本発明の一態様によれば、複数のビデオカメラ部のそれぞれで撮影された映像情報を映像処理装置に送信し、映像処理装置から送信された任意視点の映像情報を受信し、映像表示部に表示することにより、臨場感が高い映像を使用した映像通信が可能となり、使用者のユーザ体験を高めることができる。
本発明の一実施形態の機器構成例を示す図である。 映像表示装置とビデオカメラ部の配置の例を示す図である。 本発明の一実施形態の映像表示装置の構成例を示す図である。 本発明の一実施形態の映像表示装置の構成例を示す図である。 本発明の一実施形態のライトフィールドとビデオカメラ部の構成例を示す図である。 本発明の一実施形態のライトフィールドカメラの成例を示す図である。 本発明の一実施形態の学習時の構成例を示す図である。
 以下、本発明の実施形態による無線通信技術について図面を参照しながら詳細に説明する。
 (第1の実施形態)
 以下、図を利用して本発明の一実施形態を詳細に説明する。図1は本実施の形態の機器接続構成の一例を示している。101、102は映像表示装置で、表示領域の外側に複数のビデオカメラ装置を配置している。103はネットワークを表しており、系として映像表示装置101と映像表示装置102の間の通信を行う。また、ネットワーク103を経由して映像表示装置101、102のそれぞれは映像処理装置1・104、映像処理装置2・105と通信することができる。映像処理装置1・104、映像処理装置2・105はネットワーク103内部に直接収容してもよく、また、ネットワーク103に接続される他のネットワーク経由で接続してもよい。ネットワーク103の形式、形状は特に制限されず、イーサネット(登録商標)等のメタル接続、光ファイバ接続、セルラー無線ネットワーク等の公衆無線ネットワーク、無線LANによる自営無線ネットワークなどを使用してよい。ネットワーク103は、映像表示装置101、102のそれぞれが映像処理装置1・104に対して送信する撮影データの情報速度と、映像処理装置2・105から映像表示装置101、102に対して送信される映像データの情報速度を満足できる容量があれば良い。映像処理装置1・104は映像表示処理装置101、102からディスプレイ能力情報、カメラ能力情報、カメラ配置情報、撮影した映像情報を受信し、これらの情報からライトフィールドデータを生成する。ディスプレイ能力情報、カメラ能力情報、カメラ配置情報は映像表示装置101、102から直接得る方法以外に、予め設定する方法、別のネットワーク機器、例えばネットワークの接続管理を行う機器等から映像表示装置101、102の接続管理情報、または映像表示装置101、102を特定することが可能な識別子を得て、これらの接続管理情報や識別子に関連付けられた情報として得る方法などをもちいて取得してもよい。映像処理装置2・105は、映像処理装置1・104が生成したライトフィールドデータを用い、任意視点の映像データを生成し、映像表示装置101、102に送信する。生成する映像データの視点は、生成される映像情報を受信する映像表示装置101、または映像表示装置102から指定されてよい。また、生成する映像データの視点は、映像処理装置1・104が生成してもよい。このとき、映像処理装置1・104が有するカメラ能力情報、カメラ配置情報、撮影した映像情報を利用し、映像処理装置1・104、または映像処理装置2・105のいずれかが映像データの視点を設定してもよい。本実施の形態では映像処理を映像処理装置1・104と映像処理装置2・105で分担するが、これを1つの映像処理装置で行ってもよく、また、2を超える映像処理装置で分担してもよい。1つの処理装置で行う場合、その処理装置内をブロック分割し、処理を分担してもよい。
 映像表示装置101と映像表示装置102の間の通信は、映像表示装置101からディスプレイ能力情報、カメラ能力情報、カメラ配置情報、そして映像表示装置101に設置された複数のカメラで撮影された映像情報が映像処理装置1・104に入力され、映像処理装置1・104で生成されたライトフィールドデータを用いて映像処理装置2・105で任意視点の映像データを生成し、生成された任意視点の映像データを映像表示装置102で表示するデータの流れと、映像表示装置102からディスプレイ能力情報、カメラ能力情報、カメラ配置情報、そして映像表示装置102に設置された複数のカメラで撮影された映像情報が映像処理装置1・104に入力され、映像処理装置1・104で生成されたライトフィールドデータを用いて映像処理装置2・105で任意視点の映像データを生成し、生成された任意視点の映像データを映像表示装置101で表示するデータの流れから構成される。この2つのデータの流れは同等の処理から構成されるもので、以降の説明は映像表示装置101から映像表示装置102に向けたデータの流れについて説明し、映像表示装置102から映像表示装置101に向けたデータの流れの説明は省略する。
 図3に映像表示装置101、102の構造概要を示す。映像表示部302を収めるキャビネット301の外側に8つのビデオカメラ部303~310が配置される。映像表示装置101、102のディスプレイ能力情報は、映像表示装置101、102の形状に関する情報を含んでよい。一例として映像表示部302の大きさを表す映像表示部の横方向の長さ312、縦方向の長さ311をディスプレイ能力情報に含めてよい。また、設置条件に関する情報として映像表示部302の中心位置と映像表示装置101、102の接地面との距離313をディスプレイ能力情報に含めてよい。本実施の形態では映像表示部302は鉛直方向に沿って表示面を配置し、鉛直方向と垂直に映像表示部の横方向を配置するものとするが、これ以外の配置方法をする場合は映像表示部の鉛直方向に対する傾き、回転の情報をディスプレイ能力情報に含めてよい。また、映像表示部の解像度に関する情報、例えば横方向に3840ピクセル、縦方向に2048ピクセルの表示が可能であるなどの情報をディスプレイ能力情報に含めてよい。また、映像表示部302が複数の解像度の表示に対応できる場合、表示可能な解像度をディスプレイ能力情報に含めてよい。一例として、7680×4320、3840×2160、1920×1080(ピクセル×ピクセル)のすべて、またはいずれか2つの解像度に対応するなどの情報をディスプレイ能力情報に含めてよい。また、映像表示部302が表示可能な色深度に関する情報をディスプレイ能力情報に含めてよい。例えばピクセル当たりの最大色深度として8ビット、または10ビットなどの情報をディスプレイ能力情報に含めてもよい。また、対応可能な色フォーマット、例えばRGB=888、YUV=422、YUV=420、YUV=444などの情報をディスプレイ能力情報に含めてもよい。
 映像表示装置101、102のカメラ配置情報は、映像表示装置101、102のそれぞれが備える複数のビデオカメラ部303~310のそれぞれの配置条件を含めてよい。一例として、これら複数のビデオカメラ部303~310の中の一つであるビデオカメラ部304の配置位置として、映像表示部302の中心位置からビデオカメラ部304が備えるレンズの前側主点の中心位置の相対位置情報を含めてよい。また、中心位置以外の特定の点を基準としてもよい。この相対位置情報として、映像表示部302の中心位置からレンズの前側主点の中心位置までの鉛直方向の距離314と水平方向の距離315を使用してよい。また、映像表示部302の中心位置からレンズの前側主点の中心位置の関係を極座標形式としてもよい。また、カメラ配置情報はビデオカメラ部303~310のそれぞれが備えるレンズの光軸の向き、レンズの仕様、設定に関する情報を含めてよい。一例として、レンズ316の光軸の角度を映像表示装置302の表面の垂直方向からの角度(θ,φ)317、レンズ316の焦点距離f・318、絞り設定a・319、レンズ316の明るさに関する情報F(F値)(図示せず)をカメラ配置情報に含めてよい。また、レンズの設定であるレンズ316の焦点距離f・318、絞り設定a・319、レンズ316の明るさに関する情報F(F値)はカメラ能力情報に含めてよい。本実施の形態ではビデオカメラ部303~310が備えるレンズの前側主点は映像表示部302と同一平面に配置していることを前提とするが、これにかぎらずレンズの前側主点は映像表示部302と同一平面に配置しなくてもよく、また、ビデオカメラ部303~310のそれぞれがズームレンズを備える場合、撮影画角が変わるときにレンズ316の前側主点位置を変えてもよい。このような場合、レンズ316の前側主点の位置に関する情報をカメラ位置情報に含めてよい。レンズ316の前側主点の位置に関する情報は映像表示部320の平面からの総体距離を使用してもよく、また他の位置情報でもよい。また、レンズ316と映像表示部302とレンズ316の位置関係はレンズ316の前側主点に限らず、フランジバックやイメージセンサーの位置を基準とした値でも良い。カメラ能力情報は、ビデオカメラ部のそれぞれが備える撮像素子に関する能力を含めてもよい。一例としてビデオカメラ部のそれぞれが出力可能な映像信号の1つ、または複数の解像度、出力可能な色深度、使用するカラーフィルタの配列に関する情報、撮像素子の配列に関する情報などがあげられる。
 ビデオカメラ部303~310の映像表示部302に対する配置位置は予め決められてもよい。一例として、映像表示部302の大きさと、使用するビデオカメラ部の数によってきめられてもよい。また、映像表示部302として使用する素子の大きさを規格化し、映像表示部の素子の大きさからビデオカメラ部の配置位置として使用可能な場所いくつか規定し、その中から使用する配置位置を示すことができるようにしてもよい。また、ビデオカメラ部303~310を一部可動として、使用する光軸を複数設定できるようにし、この使用可能な光軸の情報をカメラ能力情報に含めてもよい。
 図4に映像表示装置101、102の構成の一例を示すブロック図である。映像表示装置101、102は同様の構成をとるものとし、以下、映像表示装置101について説明する。401~408はビデオカメラ部で、図3のビデオカメラ部303~310に対応する。409は1以上のマイクロホン素子を備えるマイクロホン部である。411~418は、ビデオカメラ部401~408の映像出力信号を映像符号化する映像符号化部、419はマイクロホン部の音声出力信号を音声符号化する音声符号化部である。410はビデオカメラ部401~408のシャッターを同期し、また、映像符号化部411~418の符号化単位(例えばGOP(Group Of Picture)など)のタイミングを同期させ、音声符号化部419の符号化単位(音声フレームなど)のタイミングを映像符号化の符号化単位に同期させる。このシャッターの同期は完全に同期することが望ましいが、以降の符号化処理などの信号処理時に各ビデオカメラ部から出力される映像に矛盾が生じない程度に同期がとれていればよい。このとき、映像符号化の符号化単位の周期と音声符号化の符号化単位の周期が異なる場合、これらの符号化単位の周期以外の周期、例えば映像符号化単位の周期の所定の整数倍毎に音声の符号化単位のタイミングが合うようにしてもよい。420は映像符号化部411~418が出力する映像符号化データと、音声符号化部419が出力する音声符号化データを多重する多重化部である。この多重化の際に使用するコンテナフォーマットは特に制限されないが、例えばMPEG2-systemフォーマットやMMT(MPEG Media Transport)フォーマット、MKV(Matroska Video)フォーマットなどを使用してよい。422は通信制御部で、映像処理装置1・104に対して映像表示装置103に表示するために多重化したデータを送信し、映像表示装置103から映像表示装置102に表示するために送信されたデータから生成された映像データを映像処理装置2・105から受信し、逆多重化部423に対して出力する。423は通信制御部422から出力される映像データを逆多重化し、映像符号化データと音声符号化データを取り出す逆多重化部である。この映像符号化データは映像復号部424に、この音声符号化データは音声復号部426に出力する。映像データに符号化されたデータの時間に関する情報、例えばタイムスタンプなどが含まれていた場合は、復号後の映像、音声がこの時間に関する情報に従って再生されるよう、映像復号部424、音声復号部426に入力する符号化データを調整してもよい。424は入力される映像符号化データを復号し、映像信号を出力する映像復号部、425は入力される映像信号を人間が見ることができるように表示する映像表示部で、図3の302に相当する。426は入力される音声符号化データを復号し、音声信号を出力する音声復号部、427は音声信号を増幅し、スピーカーなどを用いて音声に変換する音声出力部である。
 428は映像表示装置101とネットワーク103を接続するためのインターフェース部で、ネットワーク103が使用する方式に合わせた構成とする。ネットワーク103が無線ネットワークの場合は無線モデムを使用し、ネットワーク103がイーサネット(登録商標)を使用する場合はイーサネット(登録商標)アダプタを使用してよい。制御部421は他の全てのブロックを制御し、また、通信制御部422を経由して映像処理装置1・104、映像処理装置2・105、映像表示装置102と通信を行い、各装置と制御データの交換を行う。この制御データにはディスプレイ能力情報、カメラ能力情報、カメラ配置情報が含まれる。
 続いて、映像処理装置1・104と映像処理装置2・105が、映像表示装置101から出力される複数のデータを用いて映像表示装置102で表示するために使用する映像データを生成する方法を説明する。本実施例では任意視点の映像を得るためにライトフィールドを用いる。ライトフィールドはある空間中の光線の集合表現であり、一般的には4次元以上のベクトルの集合として表現される。本実施の形態ではライトスラブ(Light Slab)とも呼ばれる4次元ベクトルの集合をライトフィールドデータとして使用する。本実施の形態で使用するライトフィールドデータの概要を、図5を使用して説明する。図5(a)に示すように、本実施例で使用するライトフィールドデータは並行する平面1・501上のある点(u,v)503から平面2・502上のある点(x,y)504に向かって通過する光線を4次元のベクトルL(x,y,u,v)505として表現する。u,v,x,yは、以降の計算に必要な範囲以上存在すればよい。以降必要な範囲のx,y,u,vにいて求められたLの集合体をL‘(x,y,u,v)とする。このL’を利用すると、L‘を通過する任意視点の映像を任意の画角で求めることが可能となる。この概要を図5(b)に示す。511はライトフィールドデータL’(x,y,u,v)で、ある視点512から見たある画角513の映像は、L‘上の領域514の(x,y)から視点512方向の光線の集合で表現される。同様に別の視点515から見たある画角516の映像は、L’状の領域517(x,y)から視点515方向の光線の集合で表現される。
 ライトフィールドデータL‘を仮想的なレンズ、絞り、撮像素子を設定したビデオカメラで撮影する映像も同様に計算可能である。一例を、図5(c)を用いて説明する。ビデオカメラの構成要素としてレンズ521、絞り522、撮像素子523を持ち、レンズ512の前側主点からライトフィールドデータL’までの長さ525、レンズ512の光軸の延長上にあるライトフィールドデータL‘の位置(x,y)(図示せず)、レンズ512の光軸とライトフィールドデータL’の垂直方向との角度関係の情報が設定されるものとする。撮像素子523には撮影可能な範囲524が設定される。この撮影可能な範囲524に入光するライトフィールドL’から来る光線の集合は計算でき、いわゆるレイトレーシングの技術で絞り522、レンズ521の設定、レンズ512とライトフィールドデータL‘の位置関係の設定を用いて計算することができる。
 ライトフィールドデータL‘は様々な場所に様々な方向から到来するデータの集合であり、ライトフィールドデータを撮影するためにはライトフィールドカメラと呼ばれる機器を使用することが一般的である。ライトフィールドカメラの方式は既に様々な方式が提案されているが、一例としてマイクロレンズアレーを使用する方式の概要を、図6を利用して説明する。ライトフィールドカメラは主レンズ601、マイクロレンズアレー602、撮像素子603を含んで構成される。主レンズ601の仕様、主レンズ601とマイクロレンズアレー602、撮像素子603の位置関係、マイクロレンズアレー602と撮像素子603の解像度は予め決められているものとする。
 主レンズ601を通過し、マイクロレンズアレー602の特定のレンズを通過する光線606は、撮像素子603の特定の位置に到達する。この位置は主レンズ601の仕様、主レンズ601、マイクロレンズアレー602、撮像素子603の位置関係で決まる。簡単化のためにある平面604上の点609がマイクロレンズアレー602上に焦点を結ぶ条件を想定すると、別の平面605上の点610から平面604上の点609を通過する光線は主レンズ601、マイクロレンズアレー602を通り、撮像素子603上の点607に辿り着く。また、平面605上の点611から平面604上の点609を通過する光線は主レンズ601、マイクロレンズアレー602を通り、撮像素子603上の点608に辿り着く。このことは撮像素子601上の点p(x,y)に辿り着く光線は、平面604、平面605で構成されるライトフィールドデータL‘を用い、
Figure JPOXMLDOC01-appb-M000001
と表現することができる。Fは主レンズ601、マイクロレンズアレー602、撮像素子603の仕様、主レンズ601、マイクロレンズアレー602、撮像素子603の位置関係で決まる行列である。これは、このようなライトフィールドカメラを用いると、撮像素子603に映り込む範囲でライトフィールドデータを生成する事が出来ることを意味する。
 本実施の形態で使用する映像表示装置101、102が備えるビデオカメラ部303~310は図2に示した使用者同士が正対するように撮影できる画角の映像を撮影できない。しかし、ビデオカメラ部303~310が撮影するデータは、ライトフィールドデータの一部またはライトフィールドデータの一部とほぼ同等なデータに相当する。これはライトフィールドカメラの近くにビデオカメラ部303~310を設置できればライトフィールドカメラが取得する光線方向と近い光線方向から撮影することが可能であるためである。映像処理装置1・104はライトフィールドデータの一部の映像情報から、任意視点映像を生成するために使用するライトフィールドデータを生成する。本実施の形態ではライトフィールドデータの補間のためにニューラルネットワークを用いる非線形補間を行う。ニューラルネットワークはライトフィールドカメラから出力されるライトフィールドデータを教師データとして予め学習させる。
 ニューラルネットの学習時に使用する機器の構成の一例を図7に示す。701はライトフィールドカメラ、702、703はビデオカメラ部である。ビデオカメラ部702、703は図3のビデオカメラ部303~310に相当するブロックで、図3では8つのビデオカメラ部があるのに対し、図7にはビデオカメラ部702、703は2つしか図示しておらず、他の6つのビデオカメラ部は省略している。省略したビデオカメラ部はビデオカメラ部702、703と同様の処理を行うものとする。なお、本実施の形態では映像表示装置102、103に設置されるビデオカメラ部の数と、学習時に使用するビデオカメラの数が同じことを想定しているがこれに制限されず、映像表示装置が備えるカメラの数と学習時に使用するビデオカメラの数が異なってもよい。ライトフィールドカメラ701、ビデオカメラ部702、703は映像表示装置の正面付近に相当するところに配置された被写体702をそれぞれのカメラの撮影範囲に入るようにする。704は同期制御部で、ライトフィールドカメラ701とビデオカメラ部702、703のシャッターを同期させる。被写体や、被写体の配置を変えながら学習部705は機械学習によりニューラルネットワークのモデルの重み係数の最適化を進める。ここで使用するニューラルネットワークは、入力としてビデオカメラ部702、703の映像を使用し、ライトフィールドデータを出力するものとする。教師データとしてライトフィールドカメラ701の出力を使用し、このニューラルネットワークの出力とライトフィールドカメラ701の出力が同じようになるよう重み係数の最適化を進める。このニューラルネットワークの構造は特に限定されないが、一例として画像の補間処理に向いているとされるCNN(Convolutional Neural Network)を用いてもよい。複数の時間、つまり求めようとするある時間のライトフィールドデータに対応するビデオカメラ部702、703の映像出力だけではなく、その前後の時間のビデオカメラ部702、703の映像出力を用いてライトフィールドデータの計算を行う場合、ニューラルネットワークの構造としてRNN(Recurrent Nueral Network)を用いてもよい。
 ニューラルネットワークへの入力、すなわちビデオカメラ部702、703の出力に対し、ニューラルネットワークの出力であるライトフィールドデータは規模が大きいため、ニューラルネットワークの学習が進まない場合がある。このような状況の対策として、ニューラルネットワークから出力されるライトフィールドデータに制限をかけてもよい。これによりライトフィールドデータの規模を小さくし、ニューラルネットワークの学習効率を高めることができる。この制限はさまざまな方法が考えられ、結果ライトフィールドに含まれる光線の位置、方向を制限できれば良い。一例として、ライトフィールドを使用して合成する任意視点映像生成時に使用する仮想ビデオカメラの位置、光軸、画角を制限する、合成する任意視点映像の解像度、色深度を制限する、のような方法が使用できる。また、ニューラルネットワークに入力する信号、つまりビデオカメラ部702、703の出力にいくつかの条件を設定し、ニューラルネットワークの学習効率を高めてもよい。一例として、教師データとして使用するライトフィールドカメラ701とビデオカメラ部702、703の配置条件、ビデオカメラ部の設定を制限してもよい。言い換えると、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラに設定される配置条件(映像表示装置101、102の映像表示部中心からの相対位置、映像表示装置101、102の配置場所からの相対位置、光軸の映像表示部の垂直方向からの傾きなど)、各ビデオカメラのレンズ設定(焦点距離、絞り量など)などを制限してもよい。制限の方法として、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラが配置できる位置、光軸を設定できる向き、設定できる焦点距離、設定できる絞り設定のそれぞれが取り得る値を予め決めておき、いずれかの値のみを使用できるとしてもよい。また、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラが配置できる位置、光軸を設定できる向き、設定できる焦点距離、設定できる絞り設定の少なくとも2つのパラメータについて、取り得る値の組み合わせを制限してもよい。また、これらのパラメータの少なくとも1つは、映像表示装置101、102が備える映像表示部の大きさと関係づけられてよい。また、このとき、映像表示部の大きさについても取り得る値を予め決めておいてもよい。
 なお、これらのパラメータを映像処理装置1・104が扱う場合、映像表示装置101から得ているカメラ能力情報、カメラ配置情報のいずれかが複数の設定に対応する事が示されている場合、映像表示装置101に対して使用する設定を示す情報を送り、映像表示装置101が使用する設定を指示してもよい。また、カメラ能力情報、カメラ配置情報、ディスプレイ表示能力情報のそれぞれが複数の値を取り得る場合、ニューラルネットワークで処理可能な値の組み合わせを予め制限しておき、処理可能な組み合わせ以外については映像表示装置101に対して組み合わせ不能であることを示す情報を送ってもよい。また、近似可能な組み合わせであれば、指定された組み合わせではなく近似の組み合わせを使用してもよい。また、近似の組み合わせを使用したことを通知してもよい。
 ニューラルネットワークの学習を進めた後、学習部705は蓄積部706にニューラルネットワークの重みを送り、学習結果を蓄積する。このとき、ビデオカメラ部として使用するビデオカメラの数、各ビデオカメラが配置できる位置、光軸を設定できる向き、設定できる焦点距離、設定できる絞り設定などの値、またはこれらの値の組み合わせ毎に学習結果を蓄積してもよい。蓄積された学習済みの重みは映像処理装置1・104に送られる。映像処理装置1・104に送る手段は特に限定されず、何かしらのネットワークを使用して送ってもよく、また、物理的な可搬記録媒体を利用して送ってもよい。図7に示した学習部705を含む系はネットワーク103に接続されていても接続されていなくてもよい。
 映像処理装置1・104は学習部705が使用しているニューラルネットワークと同様のニューラルネットワークを備え、蓄積部706から得られた重みを利用し、映像表示装置101から送信されるディスプレイ能力情報、カメラ能力情報、カメラ配置情報の少なくとも1つと、映像表示装置101から送信される撮影した映像情報からライトフィールドデータを生成する。蓄積部706から得られた重みが映像表示装置101から送信されるディスプレイ能力情報、カメラ能力情報、カメラ配置情報の少なくとも1つに基づいて変わる場合、この基づいているパラメータに対応する重みを使用してライトフィールドデータを生成する。映像表示装置101から送信される撮影した映像情報が複数のビデオカメラ部で撮影した映像を多重している場合、逆多重化処理を行い、ニューラルネットワークの学習時に使用したビデオカメラ配置と同様の配置のビデオカメラ部から出力された信号をニューラルネットワークに入力する。映像表示装置101から送信される信号に音声データが多重化されている場合は逆多重化時に音声データを含めて逆多重化を行い、音声データを含む映像データ以外の信号を映像処理装置2・105に送信してよい。また、映像データと音声データ以外の制御情報、例えばディスプレイ能力情報、カメラ能力情報、カメラ配置情報などの制御情報を映像処理装置2・105に送信してよい。また、映像表示装置101から送信される撮影した映像情報が映像符号化されている場合、複合処理を行い、復号後の信号をニューラルネットワークに入力する。
 映像処理装置1・104が生成したライトフィールドデータは映像処理装置2・105に入力される。映像処理装置2・105は図5に示した要領で任意視点の映像データを生成する。このとき、任意視点の映像を生成するために仮想的なレンズ、絞り、撮像素子を設定した仮想ビデオカメラを使用してもよい。任意視点の設定、仮想ビデオカメラの設定は映像表示装置102が行ってもよく、また、映像表示装置102から送られた各種データに基づいて映像処理装置1・104が行ってもよい。映像表示装置102が任意視点の設定、仮想ビデオカメラの設定を行う場合、映像表示装置102が備えるビデオカメラを用いて使用者が居る位置を推定し、推定した使用者の位置と映像表示装置102が備える映像表示部302の中心付近を結ぶ線の延長上に任意視点の設定を行い、映像表示装置102が備える映像表示部302の大きさに基づいて仮想ビデオカメラの設定を行ってよい。使用者の位置推定の一例として、映像表示装置102が備える複数のビデオカメラ部から得られる映像情報のそれぞれから視差マップを作成し、この視差マップの映像表示装置102に近い領域を使用者として推定し、その領域の視差から使用者の位置を推定してもよい。また、映像表示装置102がビデオカメラ以外のセンサ、例えばパターン照射型の深度センサを備え、背景より近い物体を使用者として推定し、その物体の位置を利用して任意視点の設定を行ってもよい。映像表示装置102から送られた各種データに基づいて映像処理装置1・104が任意視点の設定、仮想ビデオカメラの設定を行う場合、同様に映像表示装置102から送られた映像表示装置102が備えるビデオカメラ部303~310が撮影した映像情報を使用して視差マップを作成し、この視差マップの映像表示装置102に近い領域を使用者として推定し、その領域の視差から使用者の位置を推定してもよい。また、映像表示装置102から送られたディスプレイ能力情報に含まれる映像表示装置102の大きさを利用して仮想ビデオカメラの設定を行ってよい。
 映像処理装置2・105が設定された任意視点を用いて、仮想ビデオカメラが設定されている場合は仮想ビデオカメラとの設定も用いて任意視点の映像データを生成する。このとき生成する任意視点の映像データの解像度を、映像表示装置102のディスプレイ能力情報に基づいて設定してよい。任意視点の映像データの解像度の設定は、ライトフィールドデータのサンプリング間隔の設定により行ってもよい。生成した任意視点の映像データは映像符号化し、映像処理装置1・104から音声データが入力されている場合は符号化済みの映像データとこの音声データを多重化し、映像表示装置102に対して送信する。
 映像表示装置102は、多重化された任意視点の映像データと音声データを受信し、ネットワークインターフェース部428、通信制御部422を経由し、逆多重化部423で符号化された映像データと符号化された音声データを分離し、符号化された映像データは映像復号部424で復号され、映像表示部425で表示され、符号化された音声データは音声復号部426で復号され、音声出力部427から音声として出力される。
 以上のように動作することで、映像表示装置101、102の映像表示部302の外側に配置された複数のビデオカメラ部303~310から撮影された映像データを用いて任意視点の映像データを生成することで、使用者同士が映像表示装置101、102を挟んで正対した任意視点の映像データを生成することが可能となり、臨場感の高い映像通信を実現することができる。
 なお、複数のビデオカメラ部303~310を同等の設定をして撮影してもよいが、複数のビデオカメラ部303~310のそれぞれに対して異なる設定を行い、ライトフィールドデータの生成を行ってよい。これは学習時に使用するライトフィールドカメラ701の性能より映像表示装置101、102が備える複数のビデオカメラ部303~310の性能が低い場合、複数のビデオカメラ部303~310のそれぞれの設定を変えて映像を撮影することで、ライトフィールドカメラ701の性能に近いライトフィールドデータを生成できる場合があるためである。一例として、映像表示装置101、102が備える複数のビデオカメラ部303~310が撮影するデータの色深度がライトフィールドカメラ701より少ない場合、複数のビデオカメラ部303~310を複数のグループに分け、それぞれのグループの絞り設定を変えて照度の高い場面に合わせた絞り設定のグループと照度の低い場面に合わせた絞り設定のグループを設定してよい。例えば、ビデオカメラ部303、305、307、309の絞り設定を絞り、照度の高い場面に合わせた設定とし、ビデオカメラ部304、306、308、310の絞り設定を開き、照度の低い設定として映像の撮影を行ってよい。このような設定を行う場合、ライトフィールドカメラ701を用いたニューラルネットワークの学習時に使用するビデオカメラ部(702、703と記載を省力したカメラ部)の絞り設定と配置を先述のビデオカメラ部303~310の設定と同様にして学習部705による学習を行う。このような状態で学習を進めると、ニューラルネットによって出力されるライトフィールドデータはライトフィールドカメラ701の性能に近いものとなる。映像表示装置101が映像処理装置1・104からビデオカメラ部303~310の設定を行えるようにし、映像表示装置101から受信したカメラ能力情報、カメラ配置情報を利用して映像処理装置1・104が映像表示装置101のビデオカメラ部303~310の設定を行ってもよい。
 以上のようにビデオカメラ部303~310のそれぞれに異なる設定を行うことで、映像処理装置1・104が生成するライトフィールドデータの品質を高め、映像処理装置2・105が生成する任意視点の映像データの品質を向上させ、臨場感の高い映像通信を実現することができる。このビデオカメラ部303~310のそれぞれに異なる設定は絞り設定以外に、焦点距離、出力する映像データの色深度、解像度などの他のパラメータに対して行ってもよい。
 (第2の実施形態)
 本実施の形態は、第1の実施形態ではライトフィールドデータを使用して任意視点の映像データを生成していたものを、サーフェスデータを使用して任意視点の映像データを生成するものである。
 映像表示装置101、102の構成は第1の実施形態と同等のものを使用する。映像処理装置1の処理を変え、映像表示装置101の複数のビデオカメラ部303~310で撮影された映像データを用いて視差マップを作成し、視差マップを基に3Dのサーフェスモデルを生成する。この3Dのサーフェスモデル上張る複数のビデオカメラ部303~310で撮影された映像データに基づいたテクスチャデータを生成し、3Dのサーフェスモデルとテクスチャデータ、映像表示装置101から送信された音声データを映像処理装置2に送る。映像処理装置2の処理も変え、映像処理装置1から受信した3Dサーフェスモデル、テクスチャデータと、設定する仮想カメラの情報から任意視点の映像データを3DCG映像として生成して符号化し、映像表示装置101から送信された音声データを多重化して映像表示装置102に送信する。
 以上のように動作することで、映像表示装置101、102の映像表示部302の外側に配置された複数のビデオカメラ部303~310から撮影された映像データを用いて任意視点の映像データを生成することで、使用者同士が映像表示装置101、102を挟んで正対した任意視点の映像データを生成することが可能となり、臨場感の高い映像通信を実現することができる。
 (全実施形態共通)
 本発明に関わる装置で動作するプログラムは、本発明に関わる実施形態の機能を実現するように、Central Processing Unit(CPU)等を制御してコンピュータを機能させるプログラムであっても良い。プログラムあるいはプログラムによって取り扱われる情報は、一時的にRandom Access Memory(RAM)などの揮発性メモリあるいはフラッシュメモリなどの不揮発性メモリやHard Disk Drive(HDD)、あるいはその他の記憶装置システムに格納される。
 尚、本発明に関わる実施形態の機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録しても良い。この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。ここでいう「コンピュータシステム」とは、装置に内蔵されたコンピュータシステムであって、オペレーティングシステムや周辺機器等のハードウェアを含むものとする。また、「コンピュータが読み取り可能な記録媒体」とは、半導体記録媒体、光記録媒体、磁気記録媒体、短時間動的にプログラムを保持する媒体、あるいはコンピュータが読み取り可能なその他の記録媒体であっても良い。
 また、上述した実施形態に用いた装置の各機能ブロック、または諸特徴は、電気回路、たとえば、集積回路あるいは複数の集積回路で実装または実行され得る。本明細書で述べられた機能を実行するように設計された電気回路は、汎用用途プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはその他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェア部品、またはこれらを組み合わせたものを含んでよい。汎用用途プロセッサは、マイクロプロセッサであってもよいし、従来型のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであっても良い。前述した電気回路は、デジタル回路で構成されていてもよいし、アナログ回路で構成されていてもよい。また、半導体技術の進歩により現在の集積回路に代替する集積回路化の技術が出現した場合、本発明の一または複数の態様は当該技術による新たな集積回路を用いることも可能である。
 なお、本願発明は上述の実施形態に限定されるものではない。実施形態では、装置の一例を記載したが、本願発明は、これに限定されるものではなく、屋内外に設置される据え置き型、または非可動型の電子機器、たとえば、AV機器、オフィス機器、自動販売機、その他生活機器などの端末装置もしくは通信装置に適用出来る。
 以上、この発明の実施形態に関して図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。
 本発明は、映像表示装置、映像処理装置に利用可能である。

Claims (8)

  1.  1以上の映像処理装置と通信を行う映像表示装置であって、
     映像表示部と、
     複数のビデオカメラ部と、
     同期制御部と、
     制御部を備え、
     前記複数のビデオカメラ部のそれぞれは映像表示部の外側に設置され、
     前記同期制御部は前記複数のビデオカメラ部のシャッターを同期させ、
     前記制御部は前記1以上のいずれかの映像処理装置に対し、前記複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示部の映像表示能力を示すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を送信し、
     前記1以上のいずれかの映像処理装置から送信された映像情報を受信し、前記映像表示部に表示する事を特徴とする映像表示装置。
  2.  請求項1に記載の映像表示装置であって、
     前記カメラ配置情報は、前記映像表示装置が備える映像表示部の中の所定の点を基準とした前記複数のビデオカメラ部の位置情報を含み、前記映像表示部の表示面を基準とした前記複数のビデオカメラ部の光軸の情報を含むことを特徴とする映像表示装置。
  3.  請求項1に記載の映像表示装置であって、
     前記カメラ能力情報は、前記複数のビデオカメラ部のそれぞれが使用するレンズ設定の、焦点距離、絞りに関する情報を含むことを特徴とする映像表示装置。
  4.  請求項1に記載の映像表示装置であって、
     前記ディスプレイ能力情報は、前記映像表示装置が備える前記映像表示部の大きさに関する情報、前記映像表示部が表示可能な解像度に関する情報、前記映像表示装置が表示可能な色深度に関する情報、前記映像表示部の配置に関する情報の少なくとも1つを含むことを特徴とする映像表示装置。
  5.  請求項1に記載の映像表示装置であって、
     前記制御部は前記1以上の映像処理装置のいずれかから前記ビデオカメラ部の設定情報を受信し、前記設定情報に従って前記複数のビデオカメラ部のそれぞれを設定する事を特徴とする映像表示装置。
  6.  請求項1に記載の映像表示装置であって、
     前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも2つが複数の値を取り得る場合、
     前記映像処理装置に対して送る前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の値の組み合わせが一部制限されることを特徴とする映像表示装置。
  7.  第1の映像表示装置と第2の映像表示装置を含む複数の映像表示装置と通信する映像処理装置であって、
     前記第1の映像表示装置から複数のビデオカメラ部の能力を示すカメラ能力情報と、前記複数のビデオカメラ部の配置条件を示すカメラ配置情報と、前記映像表示装置の映像表示能力を示すディスプレイ能力情報と、前記複数のビデオカメラ部のそれぞれで撮影された映像情報を受信し、
     受信した前記映像情報から任意視点映像を生成し、
     前記第2の映像表示装置に対して前記任意視点映像を送信する事を特徴とする映像処理装置。
  8.  請求項7に記載の映像処理装置であって、
     前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報の少なくとも2つが複数の値を取り得るときに、
     前記ディスプレイ能力情報、前記カメラ能力情報、前記カメラ配置情報がの組み合わせを制限することを特徴とする映像処理装置。
PCT/JP2019/035160 2018-09-12 2019-09-06 映像表示装置、映像処理装置 WO2020054605A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/273,911 US20210344890A1 (en) 2018-09-12 2019-09-06 Video display apparatus and video processing apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-170471 2018-09-12
JP2018170471A JP2020043507A (ja) 2018-09-12 2018-09-12 映像表示装置、映像処理装置

Publications (1)

Publication Number Publication Date
WO2020054605A1 true WO2020054605A1 (ja) 2020-03-19

Family

ID=69778311

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/035160 WO2020054605A1 (ja) 2018-09-12 2019-09-06 映像表示装置、映像処理装置

Country Status (3)

Country Link
US (1) US20210344890A1 (ja)
JP (1) JP2020043507A (ja)
WO (1) WO2020054605A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09163336A (ja) * 1995-12-08 1997-06-20 Ricoh Co Ltd テレビ会議システム
JPH11355804A (ja) * 1998-06-04 1999-12-24 Nec Corp ネットワーク会議画像処理装置
JP2010171695A (ja) * 2009-01-22 2010-08-05 Nippon Telegr & Teleph Corp <Ntt> テレビ会議装置および表示撮像方法
WO2010119852A1 (ja) * 2009-04-14 2010-10-21 学校法人東京理科大学 任意視点画像合成装置
JP2010283550A (ja) * 2009-06-04 2010-12-16 Sharp Corp コミュニケーションシステム、コミュニケーション装置
WO2014097465A1 (ja) * 2012-12-21 2014-06-26 日立マクセル株式会社 映像処理装置および映像処理方法
WO2015037473A1 (ja) * 2013-09-11 2015-03-19 ソニー株式会社 画像処理装置および方法
WO2017195513A1 (ja) * 2016-05-10 2017-11-16 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2018025458A1 (ja) * 2016-08-01 2018-02-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09163336A (ja) * 1995-12-08 1997-06-20 Ricoh Co Ltd テレビ会議システム
JPH11355804A (ja) * 1998-06-04 1999-12-24 Nec Corp ネットワーク会議画像処理装置
JP2010171695A (ja) * 2009-01-22 2010-08-05 Nippon Telegr & Teleph Corp <Ntt> テレビ会議装置および表示撮像方法
WO2010119852A1 (ja) * 2009-04-14 2010-10-21 学校法人東京理科大学 任意視点画像合成装置
JP2010283550A (ja) * 2009-06-04 2010-12-16 Sharp Corp コミュニケーションシステム、コミュニケーション装置
WO2014097465A1 (ja) * 2012-12-21 2014-06-26 日立マクセル株式会社 映像処理装置および映像処理方法
WO2015037473A1 (ja) * 2013-09-11 2015-03-19 ソニー株式会社 画像処理装置および方法
WO2017195513A1 (ja) * 2016-05-10 2017-11-16 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2018025458A1 (ja) * 2016-08-01 2018-02-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20210344890A1 (en) 2021-11-04
JP2020043507A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
US10645369B2 (en) Stereo viewing
US10334220B2 (en) Aggregating images and audio data to generate virtual reality content
US10237548B2 (en) Video transmission based on independently encoded background updates
US20150358539A1 (en) Mobile Virtual Reality Camera, Method, And System
US10511766B2 (en) Video transmission based on independently encoded background updates
KR20100085188A (ko) 3차원 비디오 통신 단말기, 시스템 및 방법
CA3018600C (en) Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
US10937462B2 (en) Using sharding to generate virtual reality content
US11431901B2 (en) Aggregating images to generate content
KR20190032670A (ko) 다시점 카메라를 이용한 실감 영상 서비스 제공 시스템
WO2020054605A1 (ja) 映像表示装置、映像処理装置
EP2852149A1 (en) Method and apparatus for generation, processing and delivery of 3D video
CN114302127A (zh) 一种数字全景3d影片制作的方法及系统
CN115706793A (zh) 适用虚拟现实的影像传输方法、影像处理装置及影像生成系统
Naemura et al. Multiresolution stereoscopic immersive communication using a set of four cameras

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19860803

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19860803

Country of ref document: EP

Kind code of ref document: A1