WO2017163720A1 - 情報処理装置、情報処理システム、および情報処理方法 - Google Patents

情報処理装置、情報処理システム、および情報処理方法 Download PDF

Info

Publication number
WO2017163720A1
WO2017163720A1 PCT/JP2017/006353 JP2017006353W WO2017163720A1 WO 2017163720 A1 WO2017163720 A1 WO 2017163720A1 JP 2017006353 W JP2017006353 W JP 2017006353W WO 2017163720 A1 WO2017163720 A1 WO 2017163720A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
area
definition
information processing
display
Prior art date
Application number
PCT/JP2017/006353
Other languages
English (en)
French (fr)
Inventor
隆行 石田
大場 章男
彰彦 菅原
靖展 亘理
鈴木 章
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to KR1020187026421A priority Critical patent/KR102066890B1/ko
Priority to EP17769766.1A priority patent/EP3422296A4/en
Priority to CN201780017547.4A priority patent/CN108885799B/zh
Priority to US16/080,231 priority patent/US10957104B2/en
Publication of WO2017163720A1 publication Critical patent/WO2017163720A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/39Control of the bit-mapped memory
    • G09G5/391Resolution modifying circuits, e.g. variable screen formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/14Display of multiple viewports
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/0407Resolution change, inclusive of the use of different resolutions for different screen areas

Definitions

  • the present invention relates to an information processing apparatus that performs information processing accompanied by analysis of a captured image and generation of a display image, an information processing system, and an information processing method that it implements.
  • a system has been developed in which a panoramic image is displayed on a head mounted display, and when a user wearing the head mounted display rotates the head, a panoramic image corresponding to the viewing direction is displayed.
  • the head mounted display By using the head mounted display, it is possible to enhance the immersive feeling to the image and to improve the operability of the application such as the game.
  • a walk-through system has also been developed which can virtually walk around in a space displayed as an image by physically moving a user wearing a head mounted display.
  • the present invention has been made in view of these problems, and it is an object of the present invention to provide a technique capable of achieving both high-accuracy image processing and immediacy of display.
  • one mode of the present invention relates to an information processor.
  • the information processing apparatus generates a display image based on a result of analysis, and a display image generation unit that generates a display image based on a result of analysis, and a captured image acquisition unit that acquires captured image data from a camera, an image analysis unit that analyzes the captured image.
  • at least one of the image analysis unit and the display image generation unit is characterized in that the definition of processing is different depending on the area on the image plane.
  • This information processing system is an information processing system including a head mounted display provided with a camera, and an information processing apparatus that generates an image to be displayed on the head mounted display based on a captured image by the camera, A captured image acquisition unit that acquires captured image data from a camera, an image analysis unit that analyzes the captured image, and a display image generation unit that generates a display image based on the analysis result and outputs the generated display image to a head mounted display.
  • the image processing apparatus is characterized in that at least one of the image analysis unit and the display image generation unit makes the process definition different depending on the area on the image plane.
  • Yet another aspect of the present invention relates to an information processing method.
  • the information processing apparatus acquires data of a photographed image from a camera, analyzes a photographed image, generates a display image based on a result of analysis, and displays data of the display image Outputting, and at least one of the analyzing and generating steps is characterized in that the definition of the processing is different depending on the area on the image plane.
  • FIG. 1 shows an example of the appearance of the head mounted display according to the present embodiment.
  • the head mounted display 100 includes an output mechanism section 102 and a mounting mechanism section 104.
  • the mounting mechanism unit 104 includes a mounting band 106 that turns around the head and achieves fixation of the device by being worn by the user.
  • the mounting band 106 is made of a material or a structure whose length can be adjusted to fit the head circumference of each user. For example, an elastic body such as rubber may be used, or a buckle or a gear may be used.
  • the output mechanism section 102 includes a housing 108 shaped to cover the left and right eyes when the head mounted display 100 is worn by the user, and the display mechanism internally includes a display panel so as to face the eyes when worn.
  • the display panel is realized by a liquid crystal panel or an organic EL panel.
  • the housing 108 is further provided with a pair of lenses positioned between the display panel and the eye of the user when the head mounted display 100 is mounted, for enlarging the viewing angle of the user.
  • the head mounted display 100 may further include a speaker and an earphone at a position corresponding to the user's ear when worn.
  • the head mounted display 100 includes a camera 140 on the front surface of the output mechanism unit 102.
  • the camera 140 is provided with an imaging device such as a charge coupled device (CCD) or a complementary metal oxide semiconductor (CMOS), and the real space at a predetermined frame rate in a field of view corresponding to the direction of the face of the user wearing the head mounted display 100. Take a picture.
  • CCD charge coupled device
  • CMOS complementary metal oxide semiconductor
  • the installation location of the camera 140 is not particularly limited as long as it can capture the front of the user.
  • An image captured by the camera 140 can be used as at least a part of a display image on the head mounted display 100, and can also be input data for image analysis necessary for generating a virtual world. For example, if the photographed image is used as a display image as it is, the user is in the same state as directly looking at the real space in front of the eyes.
  • AR Augmented Reality: Augmented Reality
  • AR can be realized by drawing an object that stays on a real object such as a desk in the field of view or interacts with the real object on a captured image to make it a display image. .
  • VR Virtual Reality
  • v-SLAM Visual Simultaneous Localization And Mapping
  • the rotation angle and tilt of the head may be measured by a motion sensor built in or externally attached to the head mounted display 100.
  • the analysis result of the captured image and the measurement value of the motion sensor may be used complementarily.
  • FIG. 2 is a functional block diagram of the head mounted display 100.
  • the control unit 10 is a main processor that processes and outputs signals such as image signals and sensor signals, and instructions and data.
  • the camera 140 supplies data of the photographed image to the control unit 10.
  • the display 30 is a liquid crystal display or the like, and receives an image signal from the control unit 10 and displays it.
  • the communication control unit 40 transmits data input from the control unit 10 to the outside through wired or wireless communication via the network adapter 42 or the antenna 44.
  • the communication control unit 40 also receives data from the outside by wired or wireless communication via the network adapter 42 or the antenna 44, and outputs the data to the control unit 10.
  • the storage unit 50 temporarily stores data to be processed by the control unit 10, parameters, operation signals and the like.
  • the motion sensor 64 detects posture information such as the rotation angle and tilt of the head mounted display 100.
  • the motion sensor 64 is realized by appropriately combining a gyro sensor, an acceleration sensor, an angular acceleration sensor, and the like.
  • the external input / output terminal interface 70 is an interface for connecting peripheral devices such as a USB (Universal Serial Bus) controller.
  • the external memory 72 is an external memory such as a flash memory.
  • the control unit 10 can supply and output image and audio data to the display 30 and headphones (not shown) and can supply the image and audio data to the communication control unit 40 to be transmitted to the outside.
  • FIG. 3 is a block diagram of the information processing system according to the present embodiment.
  • the head mounted display 100 is connected to the information processing apparatus 200 via an interface 300 that connects peripheral devices such as wireless communication or USB.
  • the information processing apparatus 200 may be further connected to a server via a network.
  • the server may provide the information processing apparatus 200 with an online application such as a game in which a plurality of users can participate via the network.
  • the head mounted display 100 may be connected to a computer or a portable terminal instead of the information processing device 200.
  • the information processing apparatus 200 acquires data of an image captured by the camera 140 of the head mounted display 100, performs predetermined processing, generates a display image, and transmits the generated processing to the head mounted display 100. Repeat at a rate.
  • various images such as AR and VR are displayed in a field of view corresponding to the direction of the user's face.
  • the final purpose of such a display can be considered variously, such as games, virtual experiences, and movie watching.
  • the information processing apparatus 200 may appropriately perform processing according to such purpose, but general techniques can be applied to them. In the following description, in particular, a method of acquiring necessary information from a photographed image to achieve the purpose and a method of drawing an image to be displayed as a result thereof will be described.
  • FIG. 4 shows an internal circuit configuration of the information processing apparatus 200.
  • the information processing apparatus 200 includes a central processing unit (CPU) 222, a graphics processing unit (GPU) 224, and a main memory 226. These units are connected to one another via a bus 230. An input / output interface 228 is further connected to the bus 230.
  • CPU central processing unit
  • GPU graphics processing unit
  • main memory 226 main memory
  • the input / output interface 228 includes a communication unit 232 including a peripheral device interface such as USB or IEEE 1394, or a network interface such as a wired or wireless LAN, a storage unit 234 such as a hard disk drive or nonvolatile memory, a display device such as a head mounted display 100 An output unit 236 for outputting data, an input unit 238 for inputting data from the head mounted display 100, and a recording medium drive unit 240 for driving a removable recording medium such as a magnetic disk, an optical disk or a semiconductor memory are connected.
  • a communication unit 232 including a peripheral device interface such as USB or IEEE 1394, or a network interface such as a wired or wireless LAN, a storage unit 234 such as a hard disk drive or nonvolatile memory, a display device such as a head mounted display 100
  • An output unit 236 for outputting data an input unit 238 for inputting data from the head mounted display 100
  • a recording medium drive unit 240 for driving a removable recording medium such as a
  • the CPU 222 controls the entire information processing apparatus 200 by executing the operating system stored in the storage unit 234.
  • the CPU 222 also executes various programs read from the removable storage medium and loaded into the main memory 226 or downloaded via the communication unit 232.
  • the GPU 224 has a function of a geometry engine and a function of a rendering processor, performs drawing processing according to a drawing command from the CPU 222, and stores a display image in a frame buffer (not shown). Then, the display image stored in the frame buffer is converted into a video signal and output to the output unit 236.
  • the main memory 226 is configured by a RAM (Random Access Memory), and stores programs and data necessary for processing.
  • FIG. 5 is a diagram for explaining the relationship between the real space and the display image in the present embodiment.
  • the user 370 wearing the head mounted display 100 faces the real space including the table 376 and the box 378 placed thereon.
  • the camera 140 of the head mounted display 100 captures a visual field space represented by a dotted line centered on the direction (arrow 372) in which the user is facing. If the user 370 changes or moves the posture of the head, the field of view of the captured image also changes.
  • the information processing apparatus 200 can perform, for example, the following processing other than acquiring the position and orientation of the user's head by v-SLAM or the like using the image captured in this manner.
  • Generation of depth image 2.
  • Three-dimensional modeling of real space 3.
  • Interaction calculation between real object and virtual object 4.
  • Tracking of real objects 5.
  • Image recognition by matching 6.
  • Computer graphics drawing
  • the depth image is an image representing the distance of the subject from the camera as the pixel value of the corresponding image on the photographed image.
  • the camera 140 is a stereo camera
  • corresponding points can be extracted from the photographed left and right parallax images, and the distance of the subject can be calculated based on the parallax between the two according to the principle of triangulation.
  • the distance of the subject can be calculated from the size of the image in the captured image by making the shape and size of the subject known or by mounting a predetermined marker.
  • the above 2 is a process of modeling a real object which is a subject as an object in a computational three-dimensional space. For example, by projecting each pixel of the depth image back to the three-dimensional space based on the distance from the camera represented by the pixel value, it is possible to acquire a point cloud discretely representing the real object surface.
  • the shape of each real object can be recognized by analyzing this in units of three-dimensional regions formed by dividing a three-dimensional space.
  • the surface of a real object can be represented by modeling using voxels, octrees, polygon meshes, etc., and can be treated in the same manner as computer graphics objects.
  • the modeling method of the real object is not limited to this, and it is understood by those skilled in the art that various techniques can be applied.
  • the above 3 is processing for physically obtaining an interaction between a modeled real object and a virtual object to be drawn by computer graphics for the purpose of AR and the like.
  • a more realistic AR can be realized by representing the state of bouncing or rolling on a table which is a real object by motion based on accurate physical calculation.
  • the above 4 is a process of tracking the movement of a predetermined real object such as a user's own hand or another user on a captured image for the purpose of AR, gesture recognition, a match game, and the like.
  • Various techniques have been put to practical use as techniques for tracking an image on an image.
  • the above 5 is a process of matching with a template image for tracking and recognition / detection of a real object.
  • the above 6 is a process of drawing an object on a photographed image or drawing a virtual world in a view corresponding to the position and posture of the head.
  • the information processing apparatus 200 executes one of the processes 1 to 6 or a combination of two or more processes according to an image to be displayed on the head mounted display 100 and contents of information processing such as a game.
  • a general technique can be used for each processing itself, but as the required processing increases and as processing is performed with high accuracy, it takes more time from shooting to display, and latency tends to occur. Therefore, in the present embodiment, by making the aspect different even in the same processing in a plurality of areas formed by dividing an image plane or a three-dimensional space, the processing is made efficient with less visual influence.
  • FIG. 6 is a diagram for explaining a method of making the processing mode different depending on the area of the image plane.
  • An image 380 exemplifies a display image when an AR is realized using an image captured in the environment shown in FIG. 5. That is, the image 380 is obtained by drawing a cat object 386 and sphere objects 388a, 388b and 388c as virtual objects on a photographed image including a table image 382 and a box image 384 as objects.
  • the efficiency to the display is improved by differentiating at least one aspect of the processing between the area 390 where the user is gazing and the other area. Specifically, high definition processing is performed for the region 390, and processing with a lower definition than the region 390 is performed for the other regions.
  • “definition” is any processing parameter that affects the accuracy of the processing result, the quality perceived by people, etc., such as resolution, processing rate, calculation unit, quantization unit, approximation accuracy, etc.
  • processing algorithms with different precision may be used.
  • processing with high definition means making the unit of processing finer in any one of space and time, or adopting an algorithm that can obtain a more accurate result.
  • the higher the definition the higher the accuracy of the processing result and the larger the processing load.
  • the visual impression can be improved without increasing the processing load.
  • the interaction calculation with the box is performed at a higher rate than the interaction calculation with respect to the spherical objects 388a, 388b and 388c in other areas, or the calculation unit is subdivided. It is also conceivable to Furthermore, when drawing the cat object 386, lighting and shading may be calculated more precisely or drawn at a higher resolution.
  • Such differentiation of definition may be performed by only one process or may be performed by a plurality of processes.
  • the definition may be three or more by dividing the image plane into three or more regions, or a plurality of regions with the same definition may be present.
  • the processing mode may not be common. For example, even if the area 390 is processed with high definition, the generation rate of the depth image of the area may be adjusted according to the distance from the camera of the real object captured there.
  • FIG. 7 shows functional blocks of the information processing device 200 in the present embodiment. Note that at least a part of the functions of the information processing apparatus 200 described here may be implemented in the control unit 10 of the head mounted display 100. Also, the functional blocks shown in FIG. 7 can be realized as hardware with the configuration of the CPU, GPU, various memories shown in FIG. 4 and software, a data input function loaded into a memory from a recording medium etc. , And a program that exhibits various functions such as a data holding function, an image processing function, and a communication function. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any of them.
  • the information processing apparatus 200 includes a captured image acquisition unit 250 that acquires captured image data from the head mounted display 100, an image storage unit 252 that stores the acquired data, an area determination unit 254 that determines an area to be differentiated in definition, A position / posture acquisition unit 256 that acquires the position and orientation of the head mount display 100 from the image, an image analysis unit 258 that analyzes the captured image and acquires necessary information, and an information processing unit 260 that performs information processing based on the result of the image analysis. And an image generation unit 262 that generates data of an image to be displayed as a result of the information processing, and an output unit 264 that outputs the generated data.
  • the captured image acquisition unit 250 acquires data of an image captured by the camera 140 of the head mounted display 100 at a predetermined rate, performs necessary processing such as decoding processing, and stores the processed data in the image storage unit 252.
  • the captured image acquisition unit 250 acquires data of parallax images captured from the left and right viewpoints.
  • the area determination unit 254 determines an area to be processed with each definition in order to make the definition of various processes different as described above. Among the processing to be performed on one image frame, the processing for which the definition is to be different, the number of divisions of the area, the division criteria, etc., the information processing or display content, the required processing accuracy, Various combinations are conceivable according to the processing performance of 200. In the following description, as shown in FIG. 6 in particular, the definition of the area 390 where the user is gazing is increased, and the other areas are processed with lower definition.
  • the area determination unit 254 determines an area in which the user is gazing at the display image. In the case of an image displayed on the head mounted display 100, it is common for the user to turn the face itself in the direction that he / she wants to see.
  • the camera 140 targets the direction in which the user turned the face, and as a result, it can be estimated that the central portion of the captured image corresponds to the user's gaze area. Therefore, the area determination unit 245 determines an area of a predetermined size including the center on the captured image plane as the gaze area.
  • a fixation point detector may be provided inside the head mounted display 100 to precisely measure which position in the display image the user is gazing at.
  • the fixation point detector is a device that detects the infrared ray emitted by the infrared irradiation mechanism and reflected at the pupil and detecting the fixation point from the direction of the pupil specified by the detection.
  • the area determination unit 254 acquires position information of the fixation point on the image plane from a fixation point detector (not shown), and determines an area of a predetermined size including the fixation point as a fixation area.
  • the area determination unit 254 may also set an area including a specific subject shown in the photographed image or an object drawn in the display image as the gaze area. For example, in the case of realizing an AR in which virtual blocks are assembled by the user's own hand, it can be estimated that the user is looking near his or her hand. In this case, the area determination unit 254 detects an image of the hand from the captured image, and determines an area including the image as a gaze area. In the battle game, when another user who is the opponent is ahead, a predetermined part such as a face or a hand of the user may be used. A general technique such as pattern matching and feature point extraction can be applied to a method of detecting an image of a predetermined part of a human body such as a hand or a face from a photographed image.
  • the subject estimated as the target of gaze is not limited to the part of the human body. That is, depending on the content of the image to be displayed finally, there are various possible targets to be watched by a person. For example, in the case of the display image shown in FIG. 6, the user is likely to mainly look at the cat object 386 being drawn.
  • the area determination unit 254 detects the box image 384 from the captured image, and includes the cat object 386 to be drawn later.
  • An area to be selected (for example, the area 390) may be determined as a gaze area. Based on the general tendency that it is easier to look at the top of the table than at the floor or wall, or at the hand of the room more easily than at the floor or wall, even when drawing an object, The gaze area can be determined accordingly.
  • the internal memory of the area determination unit 254 pays attention to the contents of information processing such as a game performed using a photographed image, the image world or scene to be displayed, the characteristics of objects, the positional relationship of real objects, etc.
  • Information relating to the setting of real objects or objects with high probability or their derivation rules is stored in advance. For example, characters and objects that are likely to be focused on in an electronic game can be estimated as a general tendency, and thus can be set directly.
  • the area determination unit 254 determines an area having a high probability of being watched in an actual captured image as a watch area. At this time, necessary information such as recognition of an object shown in the captured image, positional relationship, and a position where the object to be gazed should be drawn is acquired from the image analysis unit 258, the image generation unit 262, and the like. The area determination unit 254 notifies the image analysis unit 258 and the image generation unit 262 of the information related to the determined gaze area.
  • the region determination unit 254 may predict the subsequent gaze region based on the movement of the gaze region in the previous frames. For example, based on the time change of the face orientation represented by the arrow 372 in FIG. 5, the face orientation of the time corresponding to the subsequent frame can be estimated. If the line of sight is also in that direction, it is possible to identify the area that will be watched after a short time, so that the image analysis and drawing processing can be performed by increasing the definition of that part. As a result, the focus area may move during intermediate processing such as image analysis, information processing, and image drawing, and a shift may occur between the actual focus area and the portion represented in high quality on the display image. You can lower the sex.
  • the area determination unit 254 sequentially acquires information related to the position and orientation of the head from the position / posture acquisition unit 256, and records a history such as a vector representing the direction of the face as indicated by an arrow 372. Then, by extrapolating the time change of the vector representing the direction of the face, for example, the gaze area after one frame is predicted and supplied to the image analysis unit 258 and the image generation unit 262. The image analysis unit 258 and the image generation unit 262 perform high-resolution processing on the gaze area.
  • the process of estimating the gaze area by recording the history is not limited to the case where the face direction is regarded as the line of sight. That is, when the fixation point detector is used, the position of the subsequent fixation point can be predicted from the movement of the fixation point up to that point. Also in the case where a predetermined part of a human body, a specific real object, a predetermined object or the like is inferred as a gaze target, the subsequent position can be predicted from the change in the position on the image plane. In any case, if the gaze area predicted as such is supplied to the image analysis unit 258 or the image generation unit 262, the subsequent processing is the same.
  • the position / posture acquisition unit 256 reads the data of the captured image from the image storage unit 252, and the position and orientation of the head mounted display 100 in the real space by a method such as v-SLAM, and hence the head of the user wearing it. Get the position and attitude of the department.
  • the image analysis unit 258 reads data of a captured image from the image storage unit 252, and acquires predetermined information by analysis. The specific content of the processing depends on the purpose of the information processing etc. However, for example, at least one of the processing 1 to 6 is performed.
  • the image analysis unit 258 includes a first definition processing unit 270 and a second definition processing unit 272, and performs the same processing with different definitions as described above.
  • the first definition processing unit 270 performs processing with high definition for the gaze area
  • the second definition processing unit 272 targets the area other than the gaze area.
  • the processing is performed with a resolution lower than that of the 1-definition processing unit 270.
  • the area to be processed by the second definition processing unit 272 may include the area to be processed by the first definition processing unit 270 according to the processing content or algorithm.
  • the second definition processing unit 272 processes the entire area of the captured image with low definition from the viewpoint of processing efficiency, the result of the high definition processing of the first definition processing unit 270 for the gaze area Should be used. If the image analysis performed by the image analysis unit 258 is only to make the spatial definition of the captured image different, the analysis result with different definition depending on the region is the same timing for all regions and the information processing unit 260 or the image generation unit It is supplied to 262.
  • gaze area is strictly an area where the user is gazing at the display area, but if the field of view of the captured image and the display image correspond to each other as in the present embodiment, even in the captured image An area at the same position on the image plane can be set as a gaze area.
  • the present embodiment is not limited to this, and if the image analysis unit can determine the area that differentiates the processing in the captured image as the area corresponding to the focused area in the display image, the positions of both do not match. It is also good.
  • the information processing unit 260 performs predetermined information processing using the result of the analysis performed by the image analysis unit 258.
  • the processing performed here may be general information processing that is not directly related to a captured image, such as adding a game element to a display image, interpreting a user's gesture, and realizing a predetermined function.
  • the function of the information processing unit 260 may be omitted.
  • the image generation unit 262 generates an image to be displayed as a result of the process performed by the information processing unit 260 or as a result of the process performed by the image analysis unit 258. This process corresponds to the process 6 out of the processes 1 to 6 above.
  • a captured image is used as a display image like AR
  • the data is read from the image storage unit 252.
  • the object is drawn so as to correspond to the three-dimensional model of the real object acquired by the image analysis unit 258 and interaction calculation.
  • the image generation unit 262 acquires information related to the position and orientation of the head from the position and orientation acquisition unit 256 regardless of whether a captured image is used for the display image, and draws an image from the corresponding viewpoint.
  • the image generation unit 262 includes a first definition processing unit 274 and a second definition processing unit 276, and performs the same drawing processing with different definitions.
  • the first definition processing unit 274 draws the object in the gaze area at a high definition
  • the second definition processing unit 276 displays the objects in the other areas.
  • the image is drawn with a resolution lower than that of the 1-definition processing unit 274.
  • the resolution differs depending on the area, such as drawing objects in the gaze area at a super resolution higher than the original captured image or drawing objects outside the gaze area at a low resolution, as a method of changing the definition in drawing It is conceivable that Alternatively, as described above, it may be considered to change the level of detail and algorithm of calculation necessary for drawing such as shading, or to change the drawing rate.
  • the area drawn by the second definition processing unit 276 may include the area drawn by the first definition processing unit 274. Similar to the image analysis unit 258, even if the second definition processing unit 276 draws the entire display image from the viewpoint of processing efficiency, the high definition image drawn by the first definition processing unit 274 for the gaze area Can be used for display. If only the degree of spatial detail of the display image is made different, the display image having different definition depending on the area is supplied to the output unit 264 at the same timing for all the areas.
  • the display image of the gaze area is supplied at a higher rate than the display images of the other areas.
  • the definition of drawing may not necessarily be different, and for example, only the second definition processing unit 276 may be operated to draw the entire area with the same definition. That is, if at least one of the image analysis unit 258 and the image generation unit 262 makes the definition different between the focused area and the other area, the processing efficiency is improved while maintaining the quality of the viewed image as much as possible. It can display less images.
  • the output unit 264 acquires data of a display image from the image generation unit 262 and transmits the data to the head mounted display 100.
  • the output unit 264 is internally provided with a buffer memory, and connects the image of the gaze area with the image of the other area at an appropriate position to make a final display image.
  • the image generation unit 262 also notifies the output unit 264 of position information of the gaze area on the image plane.
  • the output unit 264 updates and outputs only the focused area in the image stored immediately before in the buffer memory.
  • the output unit 264 further causes a normal image to be viewed in a distorted state by the lens. Perform reverse distortion correction on the displayed image and output.
  • the definition may be changed in three or more stages.
  • third, fourth,... Definition processing units are added to the first definition processing unit and the second definition processing unit.
  • the following table exemplifies the processing performed by the image analysis unit 258 and the image generation unit 262 and specific objects that can be changed in order to make the definition different in each processing, as described above.
  • the processing required for image analysis and drawing is not limited to this, and various targets for varying the definition may be considered.
  • FIG. 8 is a diagram for explaining an example of processing in which the image analysis unit 258 makes the definition different in image analysis.
  • (A) of FIG. 8 is a bird's-eye view of the head mounted display 100 and the real space in front of it, and (b) schematically shows the depth image acquired by the image analysis unit 258 from the photographed image under such environment. Is shown.
  • (a) it is assumed that real objects 400a and 400b exist in the field of view of the camera 140 indicated by a dotted line. The real object 400a is closer to the camera 140 than the real object 400b.
  • the real space is photographed with the camera 140 as a stereo camera, the distance from the camera of each real object is determined from the parallax, and the depth image of (b) is obtained by representing the pixel value of the image on the photographed image.
  • the luminance is higher as it is closer to the camera. That is, the images 402a and 402b in the depth image correspond to the real objects 400a and 400b, respectively.
  • the region A is set as a gaze region.
  • the real object 400 b is estimated as a target to be gazed by the user
  • the region B is set as a gaze region. In some cases, both of the areas A and B may be considered as gaze areas at the same time, assuming that both real objects 400a and 400b can be gazed.
  • the image analysis unit 258 analyzes the area A and the area B with higher definition than the other areas.
  • the image 402a of the real object on the front side in the photographed image and in the depth image is the image of the real object on the rear.
  • the apparent moving speed is higher than 402b.
  • the method of increasing the definition is adjusted according to the distance from the camera of the real object included in the gaze area even in the gaze area.
  • the image analysis unit 258 reduces the captured parallax image, and performs processing for searching for corresponding points in units of pixels at a high rate.
  • the image analysis unit 258 performs processing for searching for the corresponding point at a rate lower than that of the region A with the resolution of the captured image for the region B.
  • the search may be performed in units of subpixels smaller than the pixels.
  • the gaze region increases the rate of the depth image generation processing, and the resolution of the image used for the corresponding point search is medium. And the degree.
  • the gaze region has a medium rate of depth image generation processing, and the resolution of the image used for the corresponding point search Increase the
  • both the rate of the depth image generation process and the resolution of the image used for the corresponding point search are made smaller than in the gaze area.
  • a range of distance is set to “near” and “far”, and specific values of processing rates and resolutions are set to “large”, “medium” and “small”.
  • the distance from the camera is divided into two steps, and the processing rate and resolution are divided into three steps, but may be divided into more steps in practice.
  • the distance from the camera of the real object in the focused area is specified from the depth image of the previous frame. Similar to the fixation area, the distance of the real object after a minute time may be predicted from the time change of the position of the real object before. For example, assuming that only the real object 400a is present in FIG. 8A, if it moves to the position of the real object 404 after the minute time t, it can be predicted that the real object 400b is after the minute time t. Thus, the region determination unit 254 can predict the region B as a gaze region and can also predict the distance from the camera of the target real object.
  • the image analysis unit 528 refers to the settings as shown in the above table, and adjusts the degree of making the definition different according to the distance of the real object, and the balance between the processing rate and the resolution of the image used.
  • the process of making the definition different in consideration of the position in the three-dimensional space including the depth direction from the camera as well as the image plane as described above is not limited to the depth image generation process. For example, if the real object is far from the camera even within the gaze area, if the height of the definition does not contribute much to the subsequent processing or appearance, the difference in definition from other areas May be reduced as the distance increases.
  • FIG. 9 is a diagram for explaining another example of the process in which the image analysis unit 258 makes the definition different in image analysis.
  • various methods have been proposed for representing a solid in a three-dimensional space.
  • the Octree (Octree) representation is a method proposed to improve the data size problem in voxel representation.
  • octree representation a region obtained by dividing a space by an octree is represented by a finally obtained region set by repeatedly repeating the division until the region does not straddle the inside and the outside of the solid. .
  • the octree representation basically divides the cube that composes the space into three planes that pass through the midpoints of each side and parallel to each plane, so ultimately expressing a solid with a set of cubes of different sizes become.
  • Such an expression method is generally used to model an object provided as a three-dimensional object in the global space.
  • modeling or analysis of an object in the real space is performed. So we apply octree expression and adapt it to such a system. Specifically, a square frustum formed by dividing the visual field space by a predetermined distance range Z is divided into eight.
  • FIG. 9 is a bird's eye view schematically showing the state of the space division, and the division boundaries in the vertical direction are indicated by lines. Naturally, it divides in the horizontal direction. That is, the space of the quadrangular frustum that constitutes the field of view of the camera 140 is inside or outside of the real object for each area divided into eight by two vertical planes passing through the middle points of each side and one horizontal plane. It is judged whether it is straddling or straddling, and if straddling, it is further divided into eight. Thus, a real object is represented by a set of square frustum regions of various sizes.
  • the photographed image is an image formed on the imaging surface of the camera 140 in a visual field space that is generally in the shape of a truncated pyramid. That is, a certain pixel on the photographed image represents, for example, information of an object on the area 420 of FIG. Therefore, in order to correspond to the range of distance from the camera based on the depth image and the area of the image on the image plane, it is more accurate and efficient to divide into a quadrangular frustum shape as illustrated. It can be said.
  • the gaze area on the image plane is set as a rectangle
  • the area of the real space corresponding to it is also a quadrangular frustum as an aggregate of a plurality of areas such as the area 420 in the vertical direction and the horizontal direction on the image. Therefore, by dividing the space into a quadrangular frustum shape, it is possible to make efficient the process of increasing the resolution of only the gaze area.
  • the inside / outside determination with the real object is performed in more detail.
  • the definition of processing may be changed in units of frustums according to the distance from the camera on the same principle as changing the definition of processing according to the distance of a real object.
  • FIG. 10 is a flowchart showing a processing procedure in which the information processing apparatus 200 generates a display image based on a photographed image.
  • This flowchart is started, for example, when the user mounts the head mounted display 100 and inputs a process start instruction by a predetermined input unit (not shown).
  • the photographed image acquisition unit 250 of the information processing apparatus 200 causes the head mounted display 100 to start photographing by transmitting a request signal to start photographing, etc., and accordingly, the first of the photographed images transmitted from the head mounted display 100.
  • the data of the frame is acquired (S10).
  • the position and orientation acquisition unit 256 acquires the position and orientation of the head mount display 100 and hence the head of the user based on the photographed image (S12), and the area determination unit 254 predicts a gaze area (S14).
  • the process of S12 may be obtained by a measurement value by a motion sensor incorporated in the head mounted display 100.
  • a predetermined area such as the central part of the image may be set as the gaze area in the process related to the first frame.
  • the first definition processing unit 270 of the image analysis unit 258 performs predetermined image analysis processing with high definition on the predicted gaze area (S16).
  • the second definition processing unit 272 performs processing similar to that of the first definition processing unit 270 with a definition lower than that of the first definition processing unit 270 for an area other than the gaze area or for the entire image area. It carries out (S18). Note that, as described above, the second definition processing unit 272 may perform processing for the whole area as a process for not differentiating the definition.
  • the information processing unit 260 performs predetermined information processing using the result of the image analysis (S20). As described above, this process may be general information processing that does not require differentiation of definition. In some cases, user operation by an input device (not shown) may also be used as input information.
  • the image generation unit 262 generates a display image based on at least one of the image analysis result by the image analysis unit 258 and the result of the information processing by the information processing unit 260.
  • the first definition processing unit 274 of the image generation unit 262 draws an image with high definition for the predicted gaze area (S22).
  • the second definition processing unit 276 draws an image with a definition lower than that of the first definition processing unit 274 with respect to an area other than the gaze area or the entire image (S24).
  • the second definition processing unit 276 draws an image necessary for the entire area.
  • the output unit 264 connects the image of the gaze area and the images of the other areas as necessary, and outputs the result to the head mounted display 100 (S26).
  • the processes of S10 to S26 are repeated for the next frame, and all processes are ended if it is necessary to end the process (Y in S28) .
  • all the processes are sequentially performed. However, as described above, when the processing rate is increased as the high definition process, the processes of S16 and S22 are performed more frequently than the processes of S18 and S24. It will be
  • At least a part of the image analysis processing and the image drawing processing necessary to generate an image to be displayed on the head mount display based on the photographed image is defined by the area on the image.
  • the area on the image is defined by the area on the image.
  • the gaze area is determined based on the line of sight of the user estimated from the position and attitude of the head mounted display, the detection result of the gaze point detector, and the like. Alternatively, objects with high probability of being seen or real objects are determined according to the general tendency or the tendency for each user. At this time, by predicting the gaze area after a minute time based on the time change of the line of sight and the gaze point up to that time, even if it takes time for image processing etc., the actual gaze area for the display image Deviation from the area processed finely can be reduced.
  • how to increase the definition is adjusted by the distance of the real object appearing inside the gaze area. For example, when the real object is at a short distance, a low resolution image is used to generate a depth image at a high rate. When the real object is at a distance, a high resolution image is used to generate a depth image at a low rate. Even in both cases as high-resolution processing from outside the gaze area, by balancing the processing rate and the resolution, a greater effect can be obtained without performing excessive processing.
  • an octree representation is performed in a frustum shape. That is, the real object is represented by dividing the frustum, which is the visual field space of the camera, into eight frustum shapes until the real object is completely included or excluded. According to such a frustum-shaped space division, it is possible to extract a three-dimensional space corresponding to a region on an image as a set of frustums formed by division. Therefore, if the definition is adjusted in units of such a frustum, the definition load can be applied more effectively to a limited space taking into consideration both the area on the display image and the distance from the camera. Can be enhanced.
  • the area is the user's gaze area as a division reference of the area in which the definition is made different.
  • the division criterion is not limited thereto.
  • the density of the image may be different between the center and the periphery of the user's field of view.
  • the processing aspect differs between the center and the periphery of the displayed image as in the present embodiment, thereby When viewed, it may be uniform throughout the field of view.
  • the image analysis unit and the image generation unit can increase the definition of processing with respect to a common area such as a gaze area. As an effect, the quality of the area can be enhanced.
  • the image analysis unit and the image generation unit can perform independent processing, it is possible to independently determine an area in which the former increases the definition with respect to the captured image and an area in which the latter increases the definition in the display image. Therefore, the image analysis unit and the image generation unit may make the definition different with respect to the regions determined based on different criteria.
  • the field of view of the photographed image and the display image may not correspond. That is, in the present embodiment, a head mounted display on which a camera is mounted is assumed. However, depending on the purpose of information processing and the contents to be displayed, the head mounted display and the camera may have separate housings. Thus, even if the field of view of the photographed image and the display image is not related, if the image analysis unit and the image generation unit independently perform the processing with different definition for the regions determined independently for each as described above. The same effect as that of the present embodiment can be obtained.
  • the display device is not limited to the head mounted display, and may be a flat panel display or the like.
  • FIG. 11 shows an example of the appearance of a head mounted display provided with a camera for capturing two types of images.
  • the head mounted display 100a has a configuration in which a second camera 142 is further provided to the head mounted display 100 shown in FIG.
  • the lens of the second camera 142 is disposed on a vertical line passing through the middle point of the two lenses of the stereo camera constituting the camera 140.
  • the second camera 142 is, for example, a camera having a wider view than each camera of the camera 140. When both pixels have the same number of pixels, the image captured by the second camera 142 has a lower resolution than the image captured by the camera 140 from each viewpoint.
  • Such a second camera 142 is provided, and the image captured thereby is processed by the second definition processing units 272 and 276.
  • the image captured by the camera 140 is processed by the first definition processing units 270 and 274. If the target is used, the same effect as that of the present embodiment can be obtained.
  • the manufacturing cost can be reduced by reducing the number of pixels of the camera 140, or the resolution can be further increased by narrowing the field of view without changing the number of pixels. You can also. Further, according to the same principle, the second camera 142 may shoot at a rate lower than that of the camera 140, and using this, the second definition processing unit 272, 276 may execute various processes with low time resolution.
  • the present invention is applicable to various information processing apparatuses such as game machines, image processing apparatuses, image reproduction apparatuses, personal computers, and information processing systems including them.

Abstract

情報処理装置200において撮影画像取得部250は、ヘッドマウントディスプレイ100のカメラが撮影した画像を取得する。領域決定部254は表示画像においてユーザが注視する領域を予測する。画像解析部258の第1精細度処理部270は、撮影画像のうち注視領域に対応する領域について、第2精細度処理部272より高精細に解析処理を行う。情報処理部260は解析結果を用いて情報処理を実施する。画像生成部262の第1精細度処理部274は、注視領域について、第2精細度処理部276より高精細に表示画像を生成する。出力部264は表示画像のデータをヘッドマウントディスプレイ100に送信する。

Description

情報処理装置、情報処理システム、および情報処理方法
 この発明は、撮影画像の解析や表示画像の生成を伴う情報処理を行う情報処理装置、情報処理システム、およびそれが実施する情報処理方法に関する。
 ヘッドマウントディスプレイにパノラマ映像を表示し、ヘッドマウントディスプレイを装着したユーザが頭部を回転させると視線方向に応じたパノラマ画像が表示されるようにしたシステムが開発されている。ヘッドマウントディスプレイを利用することで、映像への没入感を高めたり、ゲームなどのアプリケーションの操作性を向上させたりすることもできる。また、ヘッドマウントディスプレイを装着したユーザが物理的に移動することで、映像として表示された空間内を仮想的に歩き回ることのできるウォークスルーシステムも開発されている。
 上記のような技術において、十分な臨場感、没入感を与えるためには、頭部や視線の動きと表示画像の視野変化が常に対応していることが望ましい。ヘッドマウントディスプレイに限らず、撮影画像を入力データとして表示画像を即時生成する形式のシステムでは、その即時性が重要となる。一方で、より高品質で魅力的な画像世界を実現しようとするほど、データ入力から画像表示までに必要な処理が複雑化したり、扱うデータが膨大になったりする。その結果、画像表示に遅延が生じ、実際の動きと表示がずれているといった違和感をユーザに与えることもあり得る。このように、高精度な画像処理と表示の即時性は常にトレードオフの関係にある。
 本発明はこうした課題に鑑みてなされたものであり、その目的は、高精度な画像処理と表示の即時性を両立させることのできる技術を提供することにある。
 上記課題を解決するために、本発明のある態様は情報処理装置に関する。この情報処理装置は、カメラから撮影画像のデータを取得する撮影画像取得部と、撮影画像を解析する画像解析部と、解析の結果に基づく表示画像を生成し表示装置に出力する表示画像生成部と、を備え、画像解析部および表示画像生成部の少なくとも一方は、画像平面上の領域によって、処理の精細度を異ならせることを特徴とする。
 本発明の別の態様は情報処理システムに関する。この情報処理システムは、カメラを備えたヘッドマウントディスプレイと、当該カメラによる撮影画像に基づき前記ヘッドマウントディスプレイに表示させる画像を生成する情報処理装置と、を含む情報処理システムであって、情報処理装置は、カメラから撮影画像のデータを取得する撮影画像取得部と、撮影画像を解析する画像解析部と、解析の結果に基づく表示画像を生成しヘッドマウントディスプレイに出力する表示画像生成部と、を備え、画像解析部および表示画像生成部の少なくとも一方は、画像平面上の領域によって、処理の精細度を異ならせることを特徴とする。
 本発明のさらに別の態様は情報処理方法に関する。この情報処理方法は情報処理装置が、カメラから撮影画像のデータを取得するステップと、撮影画像を解析するステップと、解析の結果に基づく表示画像を生成するステップと、表示画像のデータを表示装置に出力するステップと、を含み、解析するステップおよび前記生成するステップの少なくとも一方は、画像平面上の領域によって、処理の精細度を異ならせることを特徴とする。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、高精度な画像処理と表示の即時性を両立させることができる。
本実施の形態のヘッドマウントディスプレイの外観図である。 本実施の形態のヘッドマウントディスプレイの機能構成図である。 本実施の形態の情報処理システムの構成図である。 本実施の形態の情報処理装置の内部回路構成を示す図である。 本実施の形態における実空間と表示画像の関係を説明するための図である。 本実施の形態において画像平面の領域によって処理態様を異ならせる手法を説明するための図である。 本実施の形態における情報処理装置の機能ブロックを示す図である。 本実施の形態における画像解析部が画像解析において精細度を異ならせる処理の例を説明するための図である。 本実施の形態における画像解析部画が像解析において精細度を異ならせる処理の別の例を説明するための図である。 本実施の形態における情報処理装置が撮影画像に基づき表示画像を生成する処理手順を示すフローチャートである。 本実施の形態の変形例として、2種類の画像を撮影するカメラを備えたヘッドマウントディスプレイの外観形状の例を示す図である。
 図1は、本実施の形態におけるヘッドマウントディスプレイの外観形状の例を示している。この例においてヘッドマウントディスプレイ100は、出力機構部102および装着機構部104で構成される。装着機構部104は、ユーザが被ることにより頭部を一周し装置の固定を実現する装着バンド106を含む。装着バンド106は各ユーザの頭囲に合わせて長さの調節が可能な素材または構造とする。例えばゴムなどの弾性体としてもよいし、バックルや歯車などを利用してもよい。
 出力機構部102は、ヘッドマウントディスプレイ100をユーザが装着した状態において左右の目を覆うような形状の筐体108を含み、内部には装着時に目に正対するように表示パネルを備える。表示パネルは液晶パネルや有機ELパネルなどで実現する。筐体108内部にはさらに、ヘッドマウントディスプレイ100の装着時に表示パネルとユーザの目との間に位置し、ユーザの視野角を拡大する一対のレンズを備える。またヘッドマウントディスプレイ100はさらに、装着時にユーザの耳に対応する位置にスピーカーやイヤホンを備えてよい。
 ヘッドマウントディスプレイ100は、出力機構部102の前面にカメラ140を備える。カメラ140はCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を備え、ヘッドマウントディスプレイ100を装着したユーザの顔の向きに対応する視野で、実空間を所定のフレームレートで撮影する。なおカメラ140はヘッドマウントディスプレイ100の前面に1つのみ設けられてもよいし、既知の間隔を有するように2つのカメラを左右に配置することによりステレオカメラを実現してもよい。またカメラ140は、ユーザの前方を撮影できれば、その設置箇所は特に限定されない。
 カメラ140が撮影した画像は、ヘッドマウントディスプレイ100における表示画像の少なくとも一部として使用できるほか、仮想世界の生成に必要な画像解析のための入力データとすることもできる。例えば撮影画像をそのまま表示画像とすれば、ユーザは目の前の実空間を直接見ているのと同じ状態となる。また、視野内にある机などの実物体上に滞留したり実物体とインタラクションしたりするオブジェクトを撮影画像上に描画して表示画像とすることにより、AR(Augmented Reality:拡張現実)を実現できる。
 さらに、ヘッドマウントディスプレイ100を装着したユーザの頭部の位置や姿勢を撮影画像から特定し、それに対応するように視野を変化させて仮想世界を描画することによりVR(Virtual Reality:仮想現実)も実現できる。撮影画像からカメラの位置や姿勢を推定する技術には、v-SLAM(Visual Simultaneous Localization And Mapping)などの一般的な技術を適用できる。頭部の回転角や傾きは、ヘッドマウントディスプレイ100に内蔵または外付けされたモーションセンサによって計測してもよい。撮影画像の解析結果とモーションセンサの計測値を相補完的に利用してもよい。
 図2は、ヘッドマウントディスプレイ100の機能構成図である。制御部10は、画像信号、センサ信号などの信号や、命令やデータを処理して出力するメインプロセッサである。カメラ140は撮影画像のデータを制御部10に供給する。ディスプレイ30は液晶ディスプレイなどであり、制御部10から画像信号を受け取り表示する。
 通信制御部40は、ネットワークアダプタ42またはアンテナ44を介して、有線または無線通信により、制御部10から入力されるデータを外部に送信する。通信制御部40は、また、ネットワークアダプタ42またはアンテナ44を介して、有線または無線通信により、外部からデータを受信し、制御部10に出力する。記憶部50は、制御部10が処理するデータやパラメータ、操作信号などを一時的に記憶する。
 モーションセンサ64は、ヘッドマウントディスプレイ100の回転角や傾きなどの姿勢情報を検出する。モーションセンサ64は、ジャイロセンサ、加速度センサ、角加速度センサなどを適宜組み合わせて実現される。外部入出力端子インタフェース70は、USB(Universal Serial Bus)コントローラなどの周辺機器を接続するためのインタフェースである。外部メモリ72は、フラッシュメモリなどの外部メモリである。制御部10は、画像や音声データをディスプレイ30や図示しないヘッドホンに供給して出力させたり、通信制御部40に供給して外部に送信させたりすることができる。
 図3は、本実施の形態に係る情報処理システムの構成図である。ヘッドマウントディスプレイ100は、無線通信またはUSBなどの周辺機器を接続するインタフェース300で情報処理装置200に接続される。情報処理装置200は、さらにネットワークを介してサーバに接続されてもよい。その場合、サーバは、複数のユーザがネットワークを介して参加できるゲームなどのオンラインアプリケーションを情報処理装置200に提供してもよい。ヘッドマウントディスプレイ100は、情報処理装置200の代わりに、コンピュータや携帯端末に接続されてもよい。
 情報処理装置200は基本的に、ヘッドマウントディスプレイ100のカメラ140が撮影した画像のデータを取得し、所定の処理を実施したうえ表示画像を生成してヘッドマウントディスプレイ100に送信する処理を所定のレートで繰り返す。これによりヘッドマウントディスプレイ100には、ユーザの顔の向きに応じた視野で、ARやVRなど様々な画像が表示される。なおこのような表示の最終的な目的は、ゲーム、仮想体験、動画鑑賞など様々に考えられる。
 情報処理装置200はそのような目的に応じた処理を適宜、行ってよいが、それら自体には一般的な技術を適用できる。以後の説明では特に、それらの目的を達するために撮影画像から必要な情報を取得する手法、および、その結果として表示すべき画像の描画手法に着目して説明する。
 図4は情報処理装置200の内部回路構成を示している。情報処理装置200は、CPU(Central Processing Unit)222、GPU(Graphics Processing Unit)224、メインメモリ226を含む。これらの各部は、バス230を介して相互に接続されている。バス230にはさらに入出力インタフェース228が接続されている。
 入出力インタフェース228には、USBやIEEE1394などの周辺機器インタフェースや有線又は無線LANなどのネットワークインタフェースからなる通信部232、ハードディスクドライブや不揮発性メモリなどの記憶部234、ヘッドマウントディスプレイ100などの表示装置へデータを出力する出力部236、ヘッドマウントディスプレイ100からデータを入力する入力部238、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部240が接続される。
 CPU222は、記憶部234に記憶されているオペレーティングシステムを実行することにより情報処理装置200の全体を制御する。CPU222はまた、リムーバブル記録媒体から読み出されてメインメモリ226にロードされた、あるいは通信部232を介してダウンロードされた各種プログラムを実行する。GPU224は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、CPU222からの描画命令に従って描画処理を行い、表示画像を図示しないフレームバッファに格納する。そしてフレームバッファに格納された表示画像をビデオ信号に変換して出力部236に出力する。メインメモリ226はRAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。
 図5は、本実施の形態における実空間と表示画像の関係を説明するための図である。同図の例では、ヘッドマウントディスプレイ100を装着したユーザ370が、テーブル376とその上に置かれた箱378を含む実空間の方を向いている。ヘッドマウントディスプレイ100のカメラ140は、ユーザが向いている方向(矢印372)を中心とする、点線で表されるような視野空間を撮影する。ユーザ370が頭部の姿勢を変化させたり移動したりすれば、撮影画像の視野も変化する。
 情報処理装置200は、このようにして撮影された画像を用いて、v-SLAMなどによってユーザ頭部の位置および姿勢を取得する以外に、例えば次の処理を行うことができる。
 1.デプス画像の生成
 2.実空間の3次元モデリング
 3.実物体と仮想オブジェクトとのインタラクション計算
 4.実物体の追跡
 5.マッチングによる画像認識
 6.コンピュータグラフィクスの描画
 上記1においてデプス画像とは、被写体のカメラからの距離を、撮影画像上の対応する像の画素値として表した画像である。例えばカメラ140をステレオカメラとした場合、撮影された左右の視差画像から対応点を抽出し、両者間の視差に基づき三角測量の原理で被写体の距離を算出できる。カメラ140が単眼カメラであっても、被写体の形状およびサイズを既知としたり、所定のマーカーを装着させたりすることにより、撮影画像における像の大きさから被写体の距離を算出できる。
 上記2は、被写体となっている実物体を、計算上の3次元空間におけるオブジェクトとしてモデル化する処理である。例えばデプス画像の各画素を、画素値が表すカメラからの距離に基づき3次元空間に逆射影することで、実物体表面を離散的に表すポイントクラウドを取得できる。これを、3次元空間を分割してなる立体領域単位で解析することにより、個々の実物体の形状を認識できる。またその形状情報に基づき、実物体の表面をボクセル、オクトリー、ポリゴンメッシュ等で表現してモデル化し、コンピュータグラフィックスのオブジェクトと同等に扱うこともできる。なお実物体のモデリング手法はこれに限らず、様々な技術を適用できることは当業者には理解されるところである。
 上記3は、ARなどの目的で、モデル化した実物体とコンピュータグラフィクスで描画すべき仮想オブジェクトとのインタラクションを物理的に求める処理である。例えば仮想オブジェクトとしてボールを描画する際、実物体であるテーブル上で跳ね返ったり転がったりする様子を、正確な物理計算に基づく動きで表現することにより、よりリアリティーのあるARを実現できる。
 上記4は、AR、ジェスチャ認識、対戦ゲームなどの目的で、ユーザ自身の手や他のユーザなど、所定の実物体の動きを撮影画像上で追跡する処理である。画像上の像を追跡する技術として様々な手法が実用化されている。上記5は、追跡や実物体の認識・検出のために、テンプレート画像とのマッチングを行う処理である。上記6は、撮影画像上にオブジェクトを描画したり、頭部の位置や姿勢に対応する視野で仮想世界を描画したりする処理である。
 情報処理装置200は、ヘッドマウントディスプレイ100に表示させたい画像や、ゲームなどの情報処理の内容に応じて、1~6の処理のいずれか、あるいは2つ以上の処理を組み合わせて実施する。個々の処理自体には一般的な技術を利用できるが、必要な処理が増えるほど、また、高精度に処理を行おうとするほど、撮影から表示までに時間を要し、レイテンシが生じやすくなる。そこで本実施の形態では、画像平面あるいは3次元空間を分割してなる複数の領域で、同じ処理でもその態様を異ならせることにより、見た目の影響を少なく処理を効率化する。
 図6は、画像平面の領域によって処理態様を異ならせる手法を説明するための図である。画像380は、図5に示した環境において撮影された画像を用いてARを実現したときの表示画像を例示している。すなわち画像380は、被写体であるテーブルの像382および箱の像384を含む撮影画像上に、仮想的なオブジェクトとしてネコのオブジェクト386および球体のオブジェクト388a、388b、388cを描画したものである。
 このような画像を所定のレートで生成、表示させることにより、ネコのオブジェクト386が箱の上に座り、球体のオブジェクト388a、388b、388cが浮遊しながら時にテーブルによって跳ね返されるような世界を表現できる。オブジェクトを描画する前の撮影画像はユーザの頭部の動きによって視野が変化するため、仮想オブジェクトはその変化に対応するように位置を調整して描画する必要がある。このとき例えば、上記1のデプス画像の生成、2の3次元モデリング、3のインタラクション計算、6のコンピュータグラフィクスの描画、といった処理が必要になる。
 ここで、ユーザが注視している領域390とそれ以外の領域で、それらの処理の少なくともいずれかの態様を異ならせることにより、表示までの効率性を向上させる。具体的には、領域390については高精細な処理とし、それ以外の領域については、領域390より低い精細度での処理とする。ここで「精細度」とは、処理結果の精度や人が感じる品質などに影響を与える、処理上の何らかのパラメータであり、解像度、処理レート、計算単位、量子化単位、近似の精度など、空間的、時間的、あるいは時空間の双方での処理の細かさのほか、精度の異なる処理アルゴリズムそのものでもよい。
 つまり精細度が高い処理とは、時空間のいずれか一方で処理の単位を細かくしたり、より精度の高い結果が得られるようなアルゴリズムを採用したりすることを意味する。一般的には、精細度が高いほど処理結果の精度が高くなるとともに処理の負荷が大きくなる。そのような処理を注視領域など限定的な領域で行うことにより、処理の負荷を増大させずに見た目の印象を良好にすることができる。画像380の場合、例えばデプス画像の生成レートを領域390のみ高くしたり、領域390に含まれる箱やテーブル天板のモデリングのレートや解像度を高くしたりすることが考えられる。
 また、領域390内にいるネコのオブジェクト386を動かすとき、箱とのインタラクション計算を、他の領域にある球体のオブジェクト388a、388b、388cに関するインタラクション計算より高いレートで行ったり、計算単位を細かくしたりすることも考えられる。さらにネコのオブジェクト386の描画時に、ライティングやシェーディングの計算を他より精密に行ったり、高い解像度で描画したりしてもよい。
 このような精細度の差別化を、1つの処理のみで行ってもよいし、複数の処理で行ってもよい。また同図の例では画像平面を2つの領域に分けたが、3つ以上の領域に分割し精細度を3つ以上としてもよいし、同じ精細度の領域が複数あってもよい。また高精細に処理する領域であっても、その処理態様は共通でなくてもよい。例えば領域390を高精細に処理するとしても、そこに写されている実物体のカメラからの距離によって、当該領域のデプス画像の生成レートなどを調整してもよい。
 図7は、本実施の形態における情報処理装置200の機能ブロックを示している。なおここで示した情報処理装置200の機能のうち少なくとも一部を、ヘッドマウントディスプレイ100の制御部10に実装してもよい。また図7に示す機能ブロックは、ハードウェア的には、図4に示したCPU、GPU、各種メモリなどの構成で実現でき、ソフトウェア的には、記録媒体などからメモリにロードした、データ入力機能、データ保持機能、画像処理機能、通信機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 情報処理装置200は、ヘッドマウントディスプレイ100から撮影画像のデータを取得する撮影画像取得部250、取得したデータを格納する画像記憶部252、精細度を異ならせる領域を決定する領域決定部254、撮影画像からヘッドマウントディスプレイ100の位置や姿勢を取得する位置・姿勢取得部256、撮影画像を解析し必要な情報を取得する画像解析部258、画像解析の結果に基づく情報処理を行う情報処理部260、情報処理の結果として表示すべき画像のデータを生成する画像生成部262、および生成されたデータを出力する出力部264を備える。
 撮影画像取得部250は、ヘッドマウントディスプレイ100のカメラ140が撮影した画像のデータを所定のレートで取得し、復号処理など必要な処理を施して画像記憶部252に格納する。カメラ140をステレオカメラで構成する場合、撮影画像取得部250は左右の視点から撮影された視差画像のデータを取得する。
 領域決定部254は、上述したように各種処理の精細度を異ならせるため、各精細度で処理すべき領域を決定する。1つの画像フレームに対してなされる処理のうち精細度を異ならせる対象とする処理、領域の分割数、分割基準、といった規則には、情報処理や表示の内容、求められる処理精度、情報処理装置200の処理性能などに応じて様々な組み合わせが考えられる。以後の説明では特に図6で示したように、ユーザが注視している領域390の精細度を高くし、それ以外の領域はそれより低い精細度で処理する場合を例示する。
 この場合、領域決定部254は、表示画像中、ユーザが注視している領域を決定する。ヘッドマウントディスプレイ100に表示される画像の場合、ユーザは見たい方向に顔そのものを向けることが一般的である。カメラ140は、ユーザが顔を向けた方向を撮影対象としているため、結果として撮影画像の中心部分がユーザの注視領域に対応すると推定できる。したがって領域決定部245は、撮影画像平面における中心を含む所定サイズの領域を注視領域として決定する。
 あるいは、ヘッドマウントディスプレイ100の内部に注視点検出器を設け、ユーザが表示画像中のどの位置を注視しているかを厳密に測定してもよい。注視点検出器は、赤外線照射機構により照射され瞳孔において反射した赤外線を検出し、それにより特定される瞳孔の向きなどから注視点を検出する装置である。この場合、領域決定部254は、図示しない注視点検出器から画像平面における注視点の位置情報を取得し、当該注視点を含む所定サイズの領域を注視領域として決定する。
 領域決定部254はまた、撮影画像に写る特定の被写体や表示画像に描画するオブジェクトを含む領域を注視領域としてもよい。例えばユーザ自身の手で仮想的な積み木を組み立てるARを実現する場合、ユーザは自分の手の付近を見ていることが推定できる。この場合、領域決定部254は、撮影画像から手の像を検出し、それを包含する領域を注視領域として決定する。また対戦ゲームにおいて、対戦相手である別のユーザが前方にいる場合は、当該ユーザの顔や手など所定の部位でもよい。撮影画像から手や顔など人体の所定の部位の像を検出する手法には、パターンマッチングや特徴点抽出など一般的な技術を適用できる。
 あるいは所定の色やサイズを有するマーカーを設けたコントローラを持つようにすれば、手の検出はさらに容易になる。注視の対象として推定される被写体は人体の部位に限らない。すなわち最終的に表示される画像の内容によって、人が注視する対象は様々に考えられる。例えば図6で示した表示画像の場合、ユーザは、描画されているネコのオブジェクト386を主に見ている可能性が高い。
 ネコのオブジェクト386が実物体である箱の近傍にいる設定であれば、領域決定部254は、撮影画像から箱の像384を検出し、それと、後段で描画されるべきネコのオブジェクト386を包含する領域(例えば領域390)を注視領域として決定すればよい。オブジェクトを描画する場合でなくとも、床や壁よりテーブルの上の方が注視されやすい、部屋の奥より手元の方が注視されやすい、といった一般的な傾向に基づき、実物体の特性や位置関係に応じて注視領域を決定できる。
 そのため領域決定部254の内部メモリには、撮影画像を利用して行うゲームなどの情報処理の内容、表示される画像世界やシーン、物の特性、実物体の位置関係などに対し、注目される確率の高い実物体やオブジェクトの設定、あるいはそれらの導出規則に係る情報をあらかじめ格納しておく。例えば電子ゲームにおいて注目されやすいキャラクタや物などは、一般的な傾向として推定できるため、直接設定が可能である。
 あるいは、顔が向いている方向に表示されているキャラクタの履歴をユーザごとに取得しておけば、当該ユーザが高確率で注目するキャラクタが特定できる。この場合、上記の確率の設定を、ユーザごとに最適化できる。そして領域決定部254は、メモリに格納しておいた情報に基づき、実際の撮影画像において注視される確率の高い領域を注視領域として決定する。この際、撮影画像に写っている物の認識、位置関係、注視されるオブジェクトが描画されるべき位置などの必要な情報は、画像解析部258や画像生成部262などから取得する。領域決定部254は決定した注視領域に係る情報を、画像解析部258および画像生成部262に通知する。
 ここで領域決定部254は、それまでのフレームにおける注視領域の動きに基づき、その後の注視領域を予測してもよい。例えば、図5の矢印372で表される顔の向きのそれまでの時間変化に基づき、以後のフレームに対応する時刻の顔の向きを推定できる。視線もその方向にあるとすれば、微小時間後に注視されるであろう領域を特定できるため、その部分の精細度を上げて画像解析や描画処理を行える。これにより、画像解析、情報処理、画像描画といった中間処理をしている間に注視領域が移動してしまい、実際の注視領域と表示画像上で高品質に表されている部分にずれが生じる可能性を低くできる。
 この場合、領域決定部254は、位置・姿勢取得部256から頭部の位置や姿勢に係る情報を逐次取得し、矢印372のような顔の向きを表すベクトル等の履歴を記録しておく。そして顔の向きを表すベクトルの時間変化を外挿することにより、例えば1フレーム後の注視領域を予測して、画像解析部258や画像生成部262に供給する。画像解析部258や画像生成部262は当該注視領域について高精細に処理を行う。
 なお履歴を記録することにより注視領域を推定する処理は、顔の向きを視線と捉える場合に限らない。すなわち注視点検出器を利用する場合は注視点のそれまでの動きから以後の注視点の位置を予測できる。人体の所定の部位、特定の実物体、所定のオブジェクト等を注視対象と推測する場合も、画像平面におけるそれらの位置の変化から以後の位置を予測できる。いずれにしろそのようにして予測した注視領域を画像解析部258や画像生成部262に供給すれば、その後の処理は同様である。
 位置・姿勢取得部256は、画像記憶部252から撮影画像のデータを読み出し、v-SLAMなどの手法によりヘッドマウントディスプレイ100の実空間での位置や姿勢、ひいてはそれを装着しているユーザの頭部の位置や姿勢を取得する。画像解析部258は、画像記憶部252から撮影画像のデータを読み出し、解析を行うことにより所定の情報を取得する。具体的な処理の内容は情報処理の目的などによるが、例えば上記1~6の処理のうち1~5の少なくともいずれかを行う。
 画像解析部258は第1精細度処理部270と第2精細度処理部272を含み、同様の処理を上述したように異なる精細度で行う。注視領域を高精細に処理する場合、第1精細度処理部270は注視領域を対象として高い精細度で処理を行い、第2精細度処理部272は、注視領域以外の領域を対象として、第1精細度処理部270より低い精細度で処理を行う。ただし処理内容やアルゴリズムによって、第2精細度処理部272が処理対象とする領域は、第1精細度処理部270が処理対象とする領域を含んでいてもよい。
 すなわち、処理効率の観点から第2精細度処理部272が撮影画像全体の領域を低い精細度で処理するようにしても、注視領域については第1精細度処理部270が高精細に処理した結果を用いればよい。画像解析部258が行う画像解析を、撮影画像の空間的な精細度を異ならせるのみとした場合、領域によって精細度の異なる解析結果が、全領域について同じタイミングで情報処理部260や画像生成部262に供給される。
 時間的な精細度を異ならせる場合は、精細度の高い注視領域についての解析結果が、その他の領域の解析結果より高いレートで供給される。なお上述のとおり画像解析部258が行う処理の全てについて精細度を異ならせる主旨ではなく、例えば第2精細度処理部272のみを動作させて、全体領域を同じ精細度で行う処理があってよい。
 また「注視領域」は厳密には、ユーザが表示領域に対し注視している領域であるが、本実施の形態のように撮影画像と表示画像の視野が対応している場合、撮影画像においても画像平面上で同じ位置にある領域を注視領域として設定できる。ただし本実施の形態をそれに限る主旨ではなく、画像解析部が撮影画像において処理を差別化する領域が、表示画像中の注視領域に対応する領域として決定できれば、両者の位置が一致していなくてもよい。
 情報処理部260は、画像解析部258が行った解析の結果を利用して、所定の情報処理を実施する。ここで行う処理は、表示画像にゲームの要素を加えたり、ユーザのジェスチャを解釈して所定の機能を実現したり、といった、撮影画像と直接的な関連のない一般的な情報処理でよい。単に実物体とインタラクションするオブジェクトを表示する場合など、画像解析部258および画像生成部262のみで処理が完了する場合は、情報処理部260の機能は省略してもよい。
 画像生成部262は、情報処理部260が行った処理の結果、あるいは画像解析部258が行った処理の結果として表示すべき画像を生成する。この処理は上記1~6の処理のうち6の処理に対応する。ARのように表示画像に撮影画像を用いる場合は、画像記憶部252から当該データを読み出す。そして、画像解析部258が取得した実物体の3次元モデルやインタラクション計算に対応するようにオブジェクトを描画する。表示画像に撮影画像を用いるか否かに関わらず、画像生成部262は位置・姿勢取得部256から頭部の位置や姿勢に係る情報を取得し、それに対応する視点からの画像を描画する。
 画像生成部262は第1精細度処理部274と第2精細度処理部276を含み、同様の描画処理を異なる精細度で行う。注視領域を高精細に描画する例では、第1精細度処理部274は注視領域内のオブジェクトについて高い精細度で描画を行い、第2精細度処理部276はそれ以外の領域のオブジェクトを、第1精細度処理部274より低い精細度で描画する。描画における精細度の変化のさせ方として、注視領域内のオブジェクトを元の撮影画像より高い超解像度で描画したり、注視領域外のオブジェクトを低解像度で描画したりするなど、領域によって解像度を異ならせることが考えられる。あるいは上述のとおり、シェーディングなど描画に必要な演算の詳細度やアルゴリズムを異ならせたり、描画のレートを異ならせたりすることも考えられる。
 ただし描画処理についても、第2精細度処理部276が描画する領域は、第1精細度処理部274が描画する領域を含んでもよい。画像解析部258と同様、処理効率の観点から第2精細度処理部276が表示画像の全体を描画するようにしても、注視領域については第1精細度処理部274が描画した高精細な画像を表示に用いればよい。表示画像の空間的な詳細度を異ならせるのみとした場合、領域によって精細度の異なる表示画像が、全領域について同じタイミングで出力部264に供給される。
 時間的な精細度を異ならせる場合は、注視領域の表示画像がその他の領域の表示画像より高いレートで供給される。なお必ずしも描画の精細度を異ならせなくてもよく、例えば第2精細度処理部276のみを動作させて全体領域を同じ精細度で描画してもよい。すなわち少なくとも画像解析部258および画像生成部262のいずれかにおいて、注視領域とそれ以外の領域で精細度を異ならせれば、視認される画像の質をできるだけ維持しながら処理効率を向上させ、レイテンシの少ない画像を表示できる。
 出力部264は、画像生成部262から表示画像のデータを取得し、ヘッドマウントディスプレイ100に送信する。出力部264は内部にバッファメモリを備え、注視領域の画像をその他の領域の画像と適切な位置でつなげて最終的な表示画像とする。第2精細度処理部276が全体領域を描画する場合は、その画像のうち注視領域については、第1精細度処理部274が描画した画像で上書きする。画像生成部262はそのため、画像平面における注視領域の位置情報も出力部264に通知する。
 注視領域の画像をより高いレートで描画する場合、注視領域の画像のみが画像生成部262から供給されるタイミングが生じる。このとき出力部264は、バッファメモリに直前に格納した画像のうち注視領域のみを更新して出力する。なお視野範囲を広げるため、ディスプレイに表示された画像を、レンズを介して見る構造のヘッドマウントディスプレイの場合、出力部264はさらに、レンズにより歪められた状態で正常な画像が見られるように、表示画像に逆の歪み補正を施したうえで出力する。
 なお上述のように精細度は3段階以上に変化させてもよい。この場合、画像解析部258および画像生成部262において、第1精細度処理部、第2精細度処理部にさらに第3、第4、・・・の精細度処理部を加える。下表はこれまで述べたように、画像解析部258および画像生成部262が行う処理と、各処理で精細度を異ならせるために変化させることのできる具体的な対象を例示している。ただし画像解析や描画に必要な処理はこれに限らず、精細度を異ならせるための対象も様々に考えられる。
Figure JPOXMLDOC01-appb-T000001
 図8は、画像解析部258が画像解析において精細度を異ならせる処理の例を説明するための図である。図8の(a)は、ヘッドマウントディスプレイ100とその前方の実空間の俯瞰図、(b)は、そのような環境での撮影画像から画像解析部258が取得したデプス画像を、それぞれ模式的に示している。(a)において、点線で示したカメラ140の視野内には、実物体400a、400bが存在するとする。実物体400aは実物体400bよりカメラ140に近い位置にある。
 カメラ140をステレオカメラとして実空間を撮影し、その視差から各実物体のカメラからの距離を求め、撮影画像上の像の画素値として表すと、(b)のデプス画像が得られる。この例のデプス画像は、カメラから近いほど輝度を高くしている。すなわちデプス画像における像402a、402bはそれぞれ、実物体400a、400bに対応する。ここで、実物体400aがユーザによって注視される対象として推定される場合、領域Aが注視領域として設定される。一方、実物体400bがユーザによって注視される対象として推定される場合、領域Bが注視領域として設定される。場合によっては実物体400a、400bの双方が注視され得るとして、領域A、Bの双方を同時に注視領域としてもよい。
 いずれにしろ画像解析部258は、領域Aや領域Bを他の領域より高い精細度で解析する。ここで、実空間において実物体400a、400bが撮像面と平行に同じ速度で移動したとしても、撮影画像、ひいてはデプス画像において、手前にある実物体の像402aは、後方にある実物体の像402bより見かけ上の移動速度が大きくなる。この特性を考慮し、注視領域であってもそれに含まれる実物体のカメラからの距離によって、精細度の上げ方を調整する。
 すなわち、実物体が手前にあるほどフレーム間での移動量が大きいため、デプス画像の生成レートを増加させ、時間的な精細度を上げる。その一方で、手前にある物はステレオカメラにおける視差が大きいため、視差画像の対応点を抽出するために用いる画像の解像度を下げても処理精度への影響が小さい。したがって画像解析部258は、領域Aについては、撮影された視差画像を縮小し、その画素単位で対応点を探索する処理を高レートで実施する。
 逆に、カメラから遠くにある物は視差が小さいため正確に距離を求めるには高い解像度の画像を用いる必要があるが、見かけ上の移動速度が遅いため、デプス画像の生成レートを高くしても精度に対する効果は薄い。したがって画像解析部258は、領域Bについては、撮影された画像の解像度のまま、対応点を探索する処理を、領域Aより低いレートで実施する。なお探索は画素より小さいサブピクセル単位としてもよい。
 このように、実物体のカメラからの距離に応じて、解像度や処理レートなど時間的、空間的に精細度のバランスを最適化することにより、処理の無駄を極力抑え、かつ処理精度や見た目への影響を少なくすることができる。なおカメラから近い物ほど、ユーザとの衝突の可能性が高くなるため、その観点においても、近い実物体ほど高レートで位置を求めることが有効となる。注視領域の内か外かに加え、注視領域内にある実物体の距離をも考慮して処理の精細度を設定すると、例えば次のようになる。
Figure JPOXMLDOC01-appb-T000002
 すなわち領域Aのように、注視領域内にある実物体が所定のしきい値より近くにある場合、当該注視領域はデプス画像生成処理のレートを大きくし、対応点探索に用いる画像の解像度を中程度とする。領域Bのように、注視領域内にある実物体が所定のしきい値またはそれより遠くにある場合、当該注視領域はデプス画像生成処理のレートを中程度とし、対応点探索に用いる画像の解像度を大きくする。
 注視領域外は、デプス画像生成処理のレートおよび対応点探索に用いる画像の解像度のどちらも、注視領域内より小さくする。なお実際には、「近」、「遠」には距離の範囲を、「大」、「中」、「小」には処理レートや解像度の具体的な値を設定する。また、この表ではカメラからの距離を2段階、処理レートや解像度を3段階に分けているが、実際にはより多くの段階に分けてもよい。
 注視領域内にある実物体のカメラからの距離は、それより前のフレームのデプス画像から特定する。注視領域と同様、以前の実物体の位置の時間変化から、微小時間後の実物体の距離を予測してもよい。例えば図8の(a)において実物体400aのみが存在するとして、微小時間t後に実物体404の位置に移動した場合、さらに微小時間t後に実物体400bの位置にあると予測できる。これにより領域決定部254は、領域Bを注視領域として予測できるとともに、対象の実物体のカメラからの距離も予測できる。
 画像解析部528は、上表に示したような設定を参照し、実物体の距離に応じて精細度を異ならせる程度や、処理レートと用いる画像の解像度とのバランスなどを調整していく。なおこのように、画像平面のみならずカメラからの奥行き方向を含めた3次元空間での位置を考慮して精細度を異ならせる処理は、デプス画像生成処理に限らない。例えば注視領域内であっても実物体がカメラから離れているときは、精細度の高さがその後の処理や見た目にあまり貢献しないような処理であれば、他の領域との精細度の差を、距離の増加に応じて減らしていくようにしてもよい。
 図9は、画像解析部258が画像解析において精細度を異ならせる処理の別の例を説明するための図である。従来、3次元空間における立体を表現するための様々な手法が提案されている。このうち、ボクセル表現におけるデータサイズの問題を改善するために提案された手法がオクトリー(Octree)表現である。オクトリー表現では、空間を8分木により分割してなる領域が、立体の内部と外部にまたがることがなくなるまで、再帰的に分割を繰り返すことにより、最終的に得られた領域集合で立体を表す。
 オクトリー表現は基本的に、空間を構成する立方体を、各辺の中点を通り各面に平行な3つの面で分割するため、最終的にはサイズの異なる立方体の集合で立体を表現することになる。このような表現手法は一般的に、グローバル空間に立体として与えられている物のモデリングに用いられる。一方、本実施の形態では、ヘッドマウントディスプレイ100のカメラ140が撮影している画像に基づき、実空間にある物をモデリングしたり解析したりする。そこでオクトリー表現を応用し、そのような系に適合させる。具体的には、視野空間を所定の距離範囲Zで区切ってなる四角錐台を8分割していく。
 図9はその空間分割の様子を模式的に表す俯瞰図であり、垂直方向の分割境界を線で示している。当然、水平方向にも分割する。すなわちカメラ140の視野を構成する四角錐台の空間を、各辺の中点を通る2つの垂直面および1つの水平面により8分割してなる領域ごとに、実物体の内部にあるか外部にあるか、またがっているかを判定していき、またがっている場合はさらに8分割する。これにより、実物体を、様々なサイズの四角錐台の領域の集合で表す。
 撮影画像は、全体がおよそ四角錐台形状である視野空間が、カメラ140の撮像面に結像したものである。すなわち撮影画像上のある画素は、例えば図9の領域420上の物の情報を表している。したがって、デプス画像に基づくカメラからの距離の範囲と、画像平面での像の領域に対応させるためには、図示するような四角錐台形状に分割していくのがより高精度かつ効率的といえる。画像平面での注視領域を矩形として設定すると、それに対応する実空間の領域も、領域420のような領域を画像上の縦方向および横方向に複数まとめた集合体として四角錐台形状となる。したがって空間を四角錐台形状に分割することにより、注視領域のみを高精細化する処理も効率化できる。
 例えば、注視領域に対応する四角錐台の集合体の領域においては、より詳細に実物体との内外判定を行う。これにより、より小さいサイズの錐台で、実物体を精密に表せる。また、図8で説明したように、実物体の距離に応じて処理の精細度を変化させるのと同様の原理で、カメラからの距離によって錐台単位で処理の精細度を変化させてもよい。例えばある錐台領域で実物体の一部が表されているとき、それより奥にある錐台は、実物体を表していたとしてもオクルージョンによって画像上には表れない。したがって、注視領域内であっても、そのような領域は、画像解析部258による解析対象から除外したり、そのような領域に描画すべきオブジェクトの描画を省略したりすることができる。
 以上述べた構成によって実現できる、情報処理装置200の動作を説明する。図10は情報処理装置200が、撮影画像に基づき表示画像を生成する処理手順を示すフローチャートである。このフローチャートは、ユーザがヘッドマウントディスプレイ100を装着し、図示しない所定の入力手段により処理の開始指示を入力したときなどに開始される。まず情報処理装置200の撮影画像取得部250は、ヘッドマウントディスプレイ100に撮影開始の要求信号を送信するなどして撮影を開始させ、それに応じてヘッドマウントディスプレイ100から送信された撮影画像の第1フレームのデータを取得する(S10)。
 すると位置・姿勢取得部256が、撮影画像に基づきヘッドマウントディスプレイ100、ひいてはユーザの頭部の位置や姿勢を取得するとともに(S12)、領域決定部254が注視領域を予測する(S14)。なおS12の処理は、ヘッドマウントディスプレイ100に内蔵されたモーションセンサによる計測値により求めてもよい。またS14において、それまでの履歴により注視領域を予測する場合は、第1フレームに係る処理では画像の中心部分など所定の領域を注視領域としてよい。
 次に画像解析部258の第1精細度処理部270は、予測された注視領域について高精細に所定の画像解析処理を実施する(S16)。並行して第2精細度処理部272は、注視領域以外の領域、あるいは画像全体の領域について、第1精細度処理部270より低い精細度で、第1精細度処理部270と同様の処理を実施する(S18)。なお上述のとおり精細度の差別化をしない処理については、第2精細度処理部272が全領域を対象として実施すればよい。
 続いて情報処理部260は、画像解析の結果を利用して所定の情報処理を実施する(S20)。この処理は上述のように、精細度の差別化をする必要のない一般的な情報処理でよい。また、場合によっては図示しない入力装置などによるユーザ操作も入力情報として利用してよい。次に画像生成部262は、画像解析部258による画像解析結果および情報処理部260による情報処理の結果の少なくともいずれかに基づき表示画像を生成する。
 このとき画像生成部262の第1精細度処理部274は、予測された注視領域について高精細に画像を描画する(S22)。並行して第2精細度処理部276は、注視領域以外の領域、あるいは画像全体の領域について、第1精細度処理部274より低い精細度で、画像を描画する(S24)。ただし描画処理において精細度の差別化をしない場合は、第2精細度処理部276が全領域について必要な画像を描画する。
 出力部264は、注視領域の画像とその他の領域の画像を必要に応じてつなげたうえで、ヘッドマウントディスプレイ100に出力する(S26)。ユーザ操作などにより処理を終了させる必要のない期間は(S28のN)、次のフレームについてS10~S26の処理を繰り返し、処理を終了させる必要が生じたら全ての処理を終了させる(S28のY)。なお図示する例では、全ての処理を順次行っているが、上述のとおり、高精細な処理として処理レートを高める場合は、S16およびS22の処理が、S18およびS24の処理より高頻度で実施されることになる。
 以上述べた本実施の形態によれば、撮影画像に基づきヘッドマウントディスプレイに表示させる画像を生成するために必要な画像解析処理や画像描画処理の少なくとも一部を、画像上の領域によって精細度を異ならせて実施する。例えばユーザが注視している領域に限定して精細度を上げることにより、処理の負荷を増大させることなく、見た目の印象として高度な画像世界を表すことができる。
 注視領域は、ヘッドマウントディスプレイの位置や姿勢から推定されるユーザの視線や、注視点検出器による検出結果などに基づき決定する。あるいは、見られる確率の高いオブジェクトや実物体を、一般的な傾向やユーザごとの傾向などに応じて決定する。このとき、それまでの視線や注視点の時間変化などに基づき、微小時間後の注視領域を予測することにより、画像処理等に時間を要しても、表示画像に対する実際の注視領域と、高精細に処理をした領域とのずれを少なくできる。
 また注視領域内部に写っている実物体の距離によって、精細度の高め方を調整する。例えば実物体が近距離にある場合は低解像度の画像を用いて高レートでデプス画像を生成する。実物体が遠距離にある場合は、高解像度の画像を用いて低レートでデプス画像を生成する。どちらも注視領域外よりは高精細な処理としても、処理レートと解像度でバランスを図ることで、過度な処理をせずにより大きな効果を得ることができる。
 さらに実物体のモデリング手法として、オクトリー表現を錐台形状で行う。すなわちカメラの視野空間である錐台を、実物体を完全に含むか含まなくなるまで錐台形状に8分割していくことで実物体を表す。このような錐台形状の空間分割によれば、画像上の領域に対応する3次元空間を、分割してなる錐台の集合体として抽出できる。したがって、このような錐台を単位として精細度を調整すれば、表示画像上の領域とカメラからの距離の双方を考慮した限定的な空間に対し、処理負荷をかけずより効果的に精細度を高めることができる。
 以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 例えば本実施の形態では主に、精細度を異ならせる領域の分割基準として、ユーザの注視領域か否かを例に説明した。一方、分割基準はそれに限定されない。例えば、レンズを介してディスプレイを見る構造のヘッドマウントディスプレイでは、レンズによって表示画像が歪められた結果、ユーザの視野の中心と周辺では画像の密度が異なることが考えられる。このような光学的な特性を想定して、あらかじめ逆方向の歪み補正をかけることに加え、表示画像の中心と周辺で本実施の形態と同様に処理の態様を異ならせることにより、レンズを介して見たときに視野全体で一様に見えるようにしてもよい。
 また本実施の形態のように撮影画像と表示画像が対応する視野を有する場合、注視領域など共通の領域に対し、画像解析部および画像生成部が処理の精細度を高くすることができ、相乗効果として当該領域の品質を高めることができる。一方、画像解析部および画像生成部は互いに独立な処理が可能なため、前者が撮影画像に対し精細度を高くする領域と、後者が表示画像において精細度を高くする領域は独立に決定できる。したがって画像解析部と画像生成部は、それぞれ異なる基準で決定された領域に対し、精細度を異ならせてもよい。
 その観点において、撮影画像と表示画像の視野は対応していなくてもよい。すなわち本実施の形態では、カメラが装着されたヘッドマウントディスプレイを想定したが、情報処理の目的や表示する内容によっては、ヘッドマウントディスプレイとカメラは別の筐体を有していてもよい。これにより撮影画像と表示画像の視野に関連性がなくとも、上述のとおりそれぞれについて独立に決定された領域に対し、画像解析部および画像生成部が独立に精細度を異ならせて処理を行えば、本実施の形態と同様の効果を得ることができる。また表示装置はヘッドマウントディスプレイに限らず、フラットパネルディスプレイなどでもよい。
 さらに本実施の形態では、入力データとして取得した、同じ撮影画像について、画像平面上で領域を分けることにより精細度を異ならせた。一方、空間的、時間的、あるいはその双方で、精細度の異なる複数種類の撮影画像を入力データとして取得してもよい。図11は、2種類の画像を撮影するカメラを備えたヘッドマウントディスプレイの外観形状の例を示している。この例においてヘッドマウントディスプレイ100aは、図1で示したヘッドマウントディスプレイ100に、さらに第2のカメラ142を設けた構成を有する。
 第2のカメラ142のレンズは、カメラ140を構成するステレオカメラの2つのレンズの中点を通る垂直線上に配置される。そして第2のカメラ142は例えば、カメラ140の各カメラより広い視野を有するカメラとする。両者を同程度の画素数とした場合、第2カメラ142が撮影した画像は、カメラ140がそれぞれの視点から撮影した画像より解像度が低くなる。このような第2のカメラ142を設け、それにより撮影された画像を第2精細度処理部272、276の処理対象とし、カメラ140が撮影した画像を第1精細度処理部270、274の処理対象とすれば、本実施の形態と同様の効果を得ることができる。
 ここで高精細な処理を行う領域は限定的なため、カメラ140の画素数を低くすることにより製造コストを軽減させたり、画素数をそのままに視野を狭めることにより解像度をさらに高くしたりすることもできる。また同様の原理により、第2のカメラ142はカメラ140より低いレートで撮影し、それを用いて第2精細度処理部272、276が低い時間分解能で各種処理を実施するようにしてもよい。
 100 ヘッドマウントディスプレイ、 140 カメラ、 200 情報処理装置、 222 CPU、 224 GPU、 226 メインメモリ、 250 撮影画像取得部、 252 画像記憶部、 254 領域決定部、 256 位置・姿勢取得部、 258 画像解析部、 260 情報処理部、 262 画像生成部、 264 出力部、 270 第1精細度処理部、 272 第2精細度処理部、 274 第1精細度処理部、 276 第2精細度処理部。
 以上のように本発明は、ゲーム装置、画像処理装置、画像再生装置、パーソナルコンピュータなど各種情報処理装置と、それらを含む情報処理システムなどに利用可能である。

Claims (15)

  1.  カメラから撮影画像のデータを取得する撮影画像取得部と、
     前記撮影画像を解析する画像解析部と、
     前記解析の結果に基づく表示画像を生成し表示装置に出力する表示画像生成部と、
     を備え、
     前記画像解析部および前記表示画像生成部の少なくとも一方は、画像平面上の領域によって、処理の精細度を異ならせることを特徴とする情報処理装置。
  2.  前記表示画像におけるユーザの注視領域を決定する領域決定部をさらに備え、
     前記画像解析部は、前記撮影画像における、前記注視領域に対応する領域に対する処理の精細度を、その他の領域に対する処理の精細度より高くすることを特徴とする請求項1に記載の情報処理装置。
  3.  前記表示画像におけるユーザの注視領域を決定する領域決定部をさらに備え、
     前記表示画像生成部は、前記注視領域に対する処理の精細度を、その他の領域に対する処理の精細度より高くすることを特徴とする請求項1に記載の情報処理装置。
  4.  前記領域決定部は、前記注視領域を決定づけるパラメータの時間変化に基づき後の時間における注視領域を予測することを特徴とする請求項2または3に記載の情報処理装置。
  5.  前記領域決定部は、前記表示装置としてヘッドマウントディスプレイを装着しているユーザの頭部の動きに基づき前記注視領域を決定することを特徴とする請求項2から4のいずれかに記載の情報処理装置。
  6.  前記領域決定部は、前記表示装置としてヘッドマウントディスプレイの内部に設けた注視点検出器による検出結果に基づき前記注視領域を決定することを特徴とする請求項2から4のいずれかに記載の情報処理装置。
  7.  前記領域決定部は、表示画像に表されている物のうち、注視される確率の高い物を履歴に基づいて特定し、当該物を含む領域を、前記注視領域として決定することを特徴とする請求項2から4のいずれかに記載の情報処理装置。
  8.  前記画像解析部および前記表示画像生成部の少なくとも一方は、画像平面上の領域によって、空間的な精細度および時間的な精細度の少なくとも一方を異ならせることを特徴とする請求項1から7のいずれかに記載の情報処理装置。
  9.  前記画像解析部は、前記撮影画像に写っている実物体の、カメラからの距離によって、精細度を異ならせる程度を変化させることを特徴とする請求項2から7のいずれかに記載の情報処理装置。
  10.  前記画像解析部は、前記実物体のカメラからの距離によって、前記撮影画像におけるその像を含む領域のデプス画像の生成処理のレートと、当該生成処理に使用する視差画像の解像度と、のバランスを変化させることを特徴とする請求項9に記載の情報処理装置。
  11.  前記領域決定部は、前記実物体の動きに基づき、前記撮影画像におけるその像を含む領域および当該実物体のカメラからの距離を予測し、
     前記画像解析部は、予測された前記領域の処理の精細度を異ならせる程度を、予測された前記カメラからの距離に基づき変化させることを特徴とする請求項9または10に記載の情報処理装置。
  12.  前記画像解析部は、前記カメラの視野を構成する四角錘台の空間を、各辺の中点を通る2つの垂直面および1つの水平面により8分割する処理を、実物体との位置関係に基づき繰り返すことにより、実物体を四角錘台の集合体で表してモデル化することを特徴とする請求項1から11のいずれかに記載の情報処理装置。
  13.  カメラを備えたヘッドマウントディスプレイと、当該カメラによる撮影画像に基づき前記ヘッドマウントディスプレイに表示させる画像を生成する情報処理装置と、を含む情報処理システムであって、
     前記情報処理装置は、
     前記カメラから撮影画像のデータを取得する撮影画像取得部と、
     前記撮影画像を解析する画像解析部と、
     前記解析の結果に基づく表示画像を生成し前記ヘッドマウントディスプレイに出力する表示画像生成部と、
     を備え、
     前記画像解析部および前記表示画像生成部の少なくとも一方は、画像平面上の領域によって、処理の精細度を異ならせることを特徴とする情報処理システム。
  14.  カメラから撮影画像のデータを取得するステップと、
     前記撮影画像を解析するステップと、
     前記解析の結果に基づく表示画像を生成するステップと、
     前記表示画像のデータを表示装置に出力するステップと、
     を含み、
     前記解析するステップおよび前記生成するステップの少なくとも一方は、画像平面上の領域によって、処理の精細度を異ならせることを特徴とする、情報処理装置による情報処理方法。
  15.  カメラから撮影画像のデータを取得する機能と、
     前記撮影画像を解析する機能と、
     前記解析の結果に基づく表示画像を生成する機能と、
     前記表示画像のデータを表示装置に出力する機能と、
     を含み、
     前記解析する機能および前記生成する機能の少なくとも一方は、画像平面上の領域によって、処理の精細度を異ならせることを特徴とするコンピュータプログラム。
PCT/JP2017/006353 2016-03-23 2017-02-21 情報処理装置、情報処理システム、および情報処理方法 WO2017163720A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020187026421A KR102066890B1 (ko) 2016-03-23 2017-02-21 정보 처리 장치, 정보 처리 시스템, 정보 처리 방법 및 컴퓨터 프로그램
EP17769766.1A EP3422296A4 (en) 2016-03-23 2017-02-21 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, AND INFORMATION PROCESSING METHOD
CN201780017547.4A CN108885799B (zh) 2016-03-23 2017-02-21 信息处理设备,信息处理系统以及信息处理方法
US16/080,231 US10957104B2 (en) 2016-03-23 2017-02-21 Information processing device, information processing system, and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016058924A JP6632443B2 (ja) 2016-03-23 2016-03-23 情報処理装置、情報処理システム、および情報処理方法
JP2016-058924 2016-03-23

Publications (1)

Publication Number Publication Date
WO2017163720A1 true WO2017163720A1 (ja) 2017-09-28

Family

ID=59899984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/006353 WO2017163720A1 (ja) 2016-03-23 2017-02-21 情報処理装置、情報処理システム、および情報処理方法

Country Status (6)

Country Link
US (1) US10957104B2 (ja)
EP (1) EP3422296A4 (ja)
JP (1) JP6632443B2 (ja)
KR (1) KR102066890B1 (ja)
CN (1) CN108885799B (ja)
WO (1) WO2017163720A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019069575A1 (ja) * 2017-10-05 2019-04-11 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2021199184A1 (ja) * 2020-03-30 2021-10-07 株式会社ソニー・インタラクティブエンタテインメント 画像表示システム、画像処理装置、画像表示方法、およびコンピュータプログラム

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962780B2 (en) * 2015-10-26 2021-03-30 Microsoft Technology Licensing, Llc Remote rendering for virtual images
JP2018004950A (ja) * 2016-07-01 2018-01-11 フォーブ インコーポレーテッド 映像表示システム、映像表示方法、映像表示プログラム
US10506217B2 (en) * 2017-10-09 2019-12-10 Facebook Technologies, Llc Head-mounted display tracking system
US11176747B2 (en) 2017-10-30 2021-11-16 Sony Corporation Information processing apparatus and information processing method
JP7418075B2 (ja) * 2018-09-18 2024-01-19 キヤノン株式会社 撮像表示装置、ウェアラブルデバイスおよび撮像表示システム
US11048465B2 (en) 2018-09-18 2021-06-29 Canon Kabushiki Kaisha Imaging display device, wearable device, and imaging display system
US11544865B1 (en) 2019-02-15 2023-01-03 Apple Inc. Posture detection and correction
JP6611143B1 (ja) * 2019-03-08 2019-11-27 アビームコンサルティング株式会社 画像表示方法、画像表示システム、プログラム
JP7365185B2 (ja) * 2019-03-29 2023-10-19 株式会社ソニー・インタラクティブエンタテインメント 画像データ伝送方法、コンテンツ処理装置、ヘッドマウントディスプレイ、中継装置、および、コンテンツ処理システム
CN114008582A (zh) * 2019-06-28 2022-02-01 索尼集团公司 信息处理装置、信息处理方法和程序
US11579688B2 (en) 2019-06-28 2023-02-14 Canon Kabushiki Kaisha Imaging display device and wearable device
CN110990917A (zh) * 2019-11-19 2020-04-10 北京长空云海科技有限公司 Bim模型展示的方法、装置及系统
US11308698B2 (en) * 2019-12-05 2022-04-19 Facebook Technologies, Llc. Using deep learning to determine gaze
CN113329165A (zh) * 2020-02-28 2021-08-31 佳能株式会社 成像显示设备、可穿戴设备以及成像显示系统
CN111553846B (zh) * 2020-05-12 2023-05-26 Oppo广东移动通信有限公司 超分辨率处理方法及装置
JP2021182344A (ja) * 2020-05-20 2021-11-25 京セラ株式会社 視点検出装置および表示装置
CN111696039B (zh) * 2020-05-28 2023-07-28 Oppo广东移动通信有限公司 图像处理方法及装置、存储介质和电子设备
CN114079728A (zh) * 2020-08-19 2022-02-22 Oppo广东移动通信有限公司 拍摄防抖方法、装置、电子设备及存储介质
CN111988525A (zh) * 2020-08-25 2020-11-24 Oppo广东移动通信有限公司 图像处理方法及相关装置
US11735138B2 (en) * 2021-04-22 2023-08-22 GM Global Technology Operations LLC Dual image plane HUD with automated illuminance setting for AR graphics displayed in far virtual image plane
CN113327663B (zh) * 2021-05-19 2023-03-31 郑州大学 移动终端辅助的脑卒中交互式锻炼控制系统
JP2023061262A (ja) * 2021-10-19 2023-05-01 キヤノン株式会社 画像表示システム
WO2023162504A1 (ja) * 2022-02-28 2023-08-31 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
WO2024071862A1 (ko) * 2022-09-28 2024-04-04 삼성전자 주식회사 응시점에 기반한 정보 제공을 위한 방법 및 이를 위한 전자 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60198684A (ja) * 1984-03-21 1985-10-08 Fujitsu Ltd 3次元物体認識方式
JP2004279031A (ja) * 2003-03-12 2004-10-07 Toyota Central Res & Dev Lab Inc 距離分布検知装置及び距離分布検知方法
JP2012216006A (ja) * 2011-03-31 2012-11-08 Sony Computer Entertainment Inc 情報処理システム、情報処理装置、撮像装置、および情報処理方法
US20140361977A1 (en) * 2013-06-07 2014-12-11 Sony Computer Entertainment Inc. Image rendering responsive to user actions in head mounted display

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0928460B1 (en) * 1997-07-29 2003-01-29 Philips Electronics N.V. Method of reconstruction of tridimensional scenes and corresponding reconstruction device and decoding system
JP2002542505A (ja) * 1999-04-08 2002-12-10 ニューヨーク ユニバーシティ 超解像力を有する中心窩画像表示装置
JP3860550B2 (ja) * 2003-03-07 2006-12-20 日本電信電話株式会社 インタフェース方法、装置、およびプログラム
JP2011215968A (ja) * 2010-03-31 2011-10-27 Namco Bandai Games Inc プログラム、情報記憶媒体及び物体認識システム
US9213405B2 (en) * 2010-12-16 2015-12-15 Microsoft Technology Licensing, Llc Comprehension and intent-based content for augmented reality displays
US9690099B2 (en) * 2010-12-17 2017-06-27 Microsoft Technology Licensing, Llc Optimized focal area for augmented reality displays
US9274597B1 (en) * 2011-12-20 2016-03-01 Amazon Technologies, Inc. Tracking head position for rendering content
US20130300634A1 (en) * 2012-05-09 2013-11-14 Nokia Corporation Method and apparatus for determining representations of displayed information based on focus distance
US20130328925A1 (en) * 2012-06-12 2013-12-12 Stephen G. Latta Object focus in a mixed reality environment
EP2979446A1 (en) * 2013-03-26 2016-02-03 Seiko Epson Corporation Head-mounted display device, control method of head-mounted display device, and display system
JP6515086B2 (ja) * 2013-04-29 2019-05-15 ミラメトリックス インコーポレイテッド 経時的な確率的オブジェクト追跡のためのシステムおよび方法
JP2014238731A (ja) * 2013-06-07 2014-12-18 株式会社ソニー・コンピュータエンタテインメント 画像処理装置、画像処理システム、および画像処理方法
US10176639B2 (en) * 2014-11-27 2019-01-08 Magic Leap, Inc. Virtual/augmented reality system having dynamic region resolution
US10217286B1 (en) * 2015-09-21 2019-02-26 Amazon Technologies, Inc. Realistic rendering for virtual reality applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60198684A (ja) * 1984-03-21 1985-10-08 Fujitsu Ltd 3次元物体認識方式
JP2004279031A (ja) * 2003-03-12 2004-10-07 Toyota Central Res & Dev Lab Inc 距離分布検知装置及び距離分布検知方法
JP2012216006A (ja) * 2011-03-31 2012-11-08 Sony Computer Entertainment Inc 情報処理システム、情報処理装置、撮像装置、および情報処理方法
US20140361977A1 (en) * 2013-06-07 2014-12-11 Sony Computer Entertainment Inc. Image rendering responsive to user actions in head mounted display

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019069575A1 (ja) * 2017-10-05 2019-04-11 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2019069575A1 (ja) * 2017-10-05 2020-11-19 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US11107287B2 (en) 2017-10-05 2021-08-31 Sony Corporation Information processing apparatus and information processing method
WO2021199184A1 (ja) * 2020-03-30 2021-10-07 株式会社ソニー・インタラクティブエンタテインメント 画像表示システム、画像処理装置、画像表示方法、およびコンピュータプログラム

Also Published As

Publication number Publication date
US10957104B2 (en) 2021-03-23
CN108885799A (zh) 2018-11-23
US20200090403A1 (en) 2020-03-19
KR102066890B1 (ko) 2020-01-17
JP2017174125A (ja) 2017-09-28
EP3422296A1 (en) 2019-01-02
KR20180113576A (ko) 2018-10-16
EP3422296A4 (en) 2019-10-16
CN108885799B (zh) 2023-09-05
JP6632443B2 (ja) 2020-01-22

Similar Documents

Publication Publication Date Title
WO2017163720A1 (ja) 情報処理装置、情報処理システム、および情報処理方法
US20170324899A1 (en) Image pickup apparatus, head-mounted display apparatus, information processing system and information processing method
CN109002164B (zh) 头戴显示设备的显示方法、装置及头戴显示设备
CN107844190B (zh) 基于虚拟现实vr设备的图像展示方法及装置
WO2019026789A1 (ja) 情報処理装置および位置情報取得方法
WO2017086244A1 (ja) 画像処理装置、情報処理装置、および画像処理方法
WO2019017300A1 (ja) 情報処理装置および位置情報取得方法
US20190139246A1 (en) Information processing method, wearable electronic device, and processing apparatus and system
JP6533761B2 (ja) 情報処理装置、情報処理システム、および情報処理方法
RU2020126876A (ru) Устройство и способ формирования изображений вида
JP6768933B2 (ja) 情報処理装置、情報処理システム、および画像処理方法
JP2022028091A (ja) 画像処理装置、画像処理方法、及び、プログラム
US11107276B2 (en) Scaling voxels in a virtual space
US11128836B2 (en) Multi-camera display
US11187895B2 (en) Content generation apparatus and method
JP6996450B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7044846B2 (ja) 情報処理装置
WO2023079623A1 (ja) 画像表示システム、画像送信装置、表示制御装置、および画像表示方法
WO2022255058A1 (ja) 情報処理装置および画像生成方法
WO2023149126A1 (ja) 情報処理装置および情報処理方法
JP6930011B2 (ja) 情報処理装置、情報処理システム、および画像処理方法
JP6645949B2 (ja) 情報処理装置、情報処理システム、および情報処理方法
JP2024018242A (ja) 情報処理装置および画像生成方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 1020187026421

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 201780017547.4

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2017769766

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017769766

Country of ref document: EP

Effective date: 20180919

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17769766

Country of ref document: EP

Kind code of ref document: A1