WO2020049665A1 - 情報処理装置、情報処理システム、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2020049665A1
WO2020049665A1 PCT/JP2018/032926 JP2018032926W WO2020049665A1 WO 2020049665 A1 WO2020049665 A1 WO 2020049665A1 JP 2018032926 W JP2018032926 W JP 2018032926W WO 2020049665 A1 WO2020049665 A1 WO 2020049665A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information processing
head
image
information
Prior art date
Application number
PCT/JP2018/032926
Other languages
English (en)
French (fr)
Inventor
昭 西山
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to PCT/JP2018/032926 priority Critical patent/WO2020049665A1/ja
Publication of WO2020049665A1 publication Critical patent/WO2020049665A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer

Definitions

  • the present invention relates to an information processing device, an information processing system, an information processing method, and a program.
  • VR virtual reality
  • AR augmented reality
  • MR mixed reality
  • a marker fixed to the display device is imaged by a camera arranged outside the display device, and the position and direction of the marker are detected from the captured image, so that the user wearing the display device on the head can be used.
  • Techniques for detecting the direction of the head have been developed.
  • the present invention has been made in view of the above circumstances, and provides an information processing apparatus, an information processing system, an information processing method, and a program that can acquire information on the direction of a user's head in more environments.
  • One embodiment of the present invention that solves the problems of the above conventional example is an information processing device connected to an imaging device that is mounted on a head by a user and that captures a visual field range in a direction different from the visual field direction of the mounted user.
  • An image acquisition unit that acquires an image from the imaging device; a sensor information acquisition unit that acquires information from a sensor that detects a movement of the user's head; and the acquired user information acquired by the sensor.
  • information on the direction of the user's head can be acquired in more environments.
  • FIG. 1 is a schematic configuration block diagram illustrating an example of an information processing system according to an embodiment of the present invention.
  • 1 is a functional block diagram illustrating an example of an information processing device according to an embodiment of the present invention. It is an explanatory view showing the schematic structure of the marker device concerning an embodiment of the invention.
  • FIG. 5 is a flowchart illustrating an operation example of the information processing apparatus according to the embodiment of the present invention.
  • an information processing system 1 including an information processing apparatus 10 includes an information processing apparatus 10, a marker 20, and a display device 30 worn by a user. Have been.
  • the display device 30 is a display device such as a head-mounted display worn by the user on the head and used, and includes a control unit 31, a display unit 32, an imaging unit 33, and a sensor unit. You.
  • the control unit 31 of the display device 30 receives the image data supplied from the information processing device 10. Then, the control unit 31 generates a video signal based on the input image data and outputs the video signal to the display unit 32.
  • the control unit 31 sends image data input from the imaging unit 33 described later and information (referred to as a sensor signal) representing an output signal of the sensor input from the sensor unit 34 to the information processing apparatus 10. I do.
  • the display unit 32 includes, for example, a pair of display units such as an organic EL display panel and a liquid crystal display panel for displaying images visually recognized by the left eye and the right eye of the user. Includes an optical system (such as a lens) for coupling to the surface of the part.
  • the control unit 31 generates two video signals, one for the left eye and the other for the right eye, and outputs them to the corresponding display units of the display unit 32.
  • control unit 31 performs, for example, a process of correcting distortion generated by the optical system of the display unit 32 on the image represented by the supplied image data, and outputs a video signal representing the corrected image. May be generated.
  • the display device 30 may use the screen of the smartphone as it is as the display unit. In this case, a part of one screen is used as a display unit for the left eye and another part is used as a display unit for the right eye. Further, the display device 30 may use a retinal irradiation type (retinal projection type) that projects an image directly on a user's retina.
  • a retinal irradiation type retina projection type
  • the smartphone When using the screen of a smartphone as the display unit, the smartphone also functions as the control unit 31 that receives image data supplied from the information processing device 1 and generates a video signal.
  • the display device 30 may be a non-transmissive display device in which the user cannot visually recognize the external world, or the user may display the external world together with the video displayed on the display unit.
  • a transmissive display device that can be recognized may be used.
  • the imaging unit 33 is fixed to the housing of the display device 30 and, together with the display device 30, captures an image of a visual field range in a direction different from the viewing direction of the user wearing the imaging unit 33, and performs the imaging.
  • the obtained image data is output to the control unit 31.
  • the imaging unit 33 captures an image of the field of view in the direction from the center of the user's head to the top of the head (the direction that becomes the zenith direction when the user faces front and stands upright). I do.
  • an imaging unit that can also capture light outside human visible light (hereinafter, simply referred to as visible light) is used.
  • the sensor unit 34 includes an acceleration sensor or the like, and outputs information indicating the direction and amount of the translation when the user translates the head.
  • the sensor unit 34 uses the Z-axis as the parietal direction from the center of the user's head (the parietal direction in a coronal plane that traverses the head left and right), and sets the left-right direction (for example, The positive direction is defined as the X axis, and the axis orthogonal to both the Z axis and the X axis (the front-rear direction in the sagittal plane) is defined as the Y axis, and the head in each of the X, Y, and Z directions is defined as the head.
  • the amount of movement of the unit is detected and output.
  • the sensor unit 34 includes a gyro sensor, and outputs information indicating the angle of the rotation when the user rotates the head.
  • the gyro sensor of the sensor unit 34 has a cross section (head in the direction perpendicular to the surface of the user's field of view) in the direction of the user's face (the direction perpendicular to the surface of the user's field of view) from the direction in which the user was initially facing (the beginning of detection)
  • the angular direction in the transverse cross section that is, the angle around the Z axis (roll angle), the angular direction in the sagittal plane, that is, the angle around the X axis (elevation direction: tilt angle), the angular direction in the coronal plane,
  • the amount of change in the angle around the Y axis angular direction in a plane parallel to the plane of the user's field of view: pitch angle
  • the information processing device 10 is a computer, a home game machine, or the like, and includes a control unit 11, a storage unit 12, an operation unit 13, a display control unit 14, and a communication unit 15, as shown in FIG. It is composed of
  • the control unit 11 is a program control device such as a CPU, and operates according to a program stored in the storage unit 12.
  • the control unit 11 of the present embodiment acquires, from the imaging unit 33 of the display device 30, image data obtained by the imaging unit 33 capturing an image.
  • the control unit 11 also controls the movement of the head, such as information on the amount of movement of the user's head (translation amount in the translation direction) and the amount of movement in the angular direction (rotation angle in each angle direction) output by the sensor unit 34.
  • the obtained information is acquired, and the visual field direction of the user is estimated based on the accumulation result of the motion of the user's head based on the information output by the acquired sensor unit 34 (first estimation processing).
  • the control unit 11 estimates the user's visual field direction based on the image data captured by the imaging unit 33 (second estimation process). Then, the control unit 11 combines and outputs the estimation result obtained by the second estimation processing and the estimation result obtained by the first estimation processing. This output is used as information indicating the user's view in the virtual space. The process of estimating the user's view direction by the control unit 11 will be described later in detail.
  • the storage unit 12 is a memory device, a disk device, or the like, and holds a program executed by the control unit 11. This program may be provided stored in a non-transitory computer-readable recording medium, and may be installed in the storage unit 12. Further, the storage unit 12 of the present embodiment also operates as a work memory of the control unit 11.
  • the operation unit 13 is connected to input devices such as a mouse, a keyboard, and a game controller, and accepts a user's instruction operation from these input devices and outputs the operation to the control unit 11.
  • the display control unit 14 performs processing such as outputting image data to the display device 30 according to an instruction input from the control unit 11.
  • the communication unit 15 is a network interface or the like, and communicates with an external device via a network.
  • the communication unit 15 outputs information received from the outside to the control unit 11.
  • the communication unit 15 sends various information to an external device via a network according to an instruction input from the control unit 11.
  • control unit 11 functionally includes an image acquisition unit 41, a sensor information acquisition unit 42, a first estimation unit 43, a second estimation unit 44, as illustrated in FIG. It is configured to include a synthesizing unit 45 and an output unit 46.
  • the image acquisition unit 41 repeatedly acquires image data captured by the imaging unit 33 of the display device 30 at predetermined timings (for example, at regular timings such as every 1/30 second).
  • the information is stored in the storage unit 12 in association with the information indicating the acquired time (acquired from a time measuring unit such as a clock IC not shown). As for this image data, only the latest predetermined plural numbers are stored.
  • the sensor information acquisition unit 42 controls the movement of the head, such as information on the amount of movement of the user's head (translation amount in the translation direction) and the amount of movement in the angular direction (rotation angle in each angle direction) output by the sensor unit 34. Is repeatedly acquired at predetermined timings (for example, regular timings such as every 1/30 second, which may not be the same as the timings acquired by the image acquisition unit 41).
  • the sensor information acquisition unit 42 stores the acquired information in the storage unit 12 in association with the information indicating the acquired time (acquired from a clock unit such as a clock IC not shown). This information is also stored in a predetermined number of the latest plurality (which does not necessarily have to match the number of image data to be stored).
  • the first estimating unit 43 accumulates the information output by the sensor unit 34, which is acquired and recorded by the sensor information acquiring unit 42, and estimates the viewing direction of the user based on the accumulation result. More specifically, the first estimating unit 43 performs the same processing as in the widely known inertial measurement device (IMU) to determine the direction of the user's field of view (based on the initial direction of the user's head). The translation amount and the rotation angle amount are estimated.
  • IMU inertial measurement device
  • the second estimating unit 44 estimates the viewing direction of the user based on the image data captured by the image capturing unit 33 and acquired by the image acquiring unit 41 and recorded.
  • the second estimating unit 44 estimates the viewing direction of the user by using a so-called SLAM (Simultaneous Localization and Mapping) technique.
  • SLAM Simultaneous Localization and Mapping
  • the second estimating unit 44 extracts a feature point from each of the repeatedly acquired image data, and positions the common feature points (in the image data) included in the image data acquired at different timings from each other.
  • the user's head that is, the translational movement amount and the rotation angle amount based on the initial position and direction of the user's head.
  • a widely known SLAM processing module such as an ORB-SLAM can be used for this estimation process, and therefore detailed description of the operation is omitted.
  • the second estimation unit 44 is stored in the storage unit 12.
  • the reference image data selected from the image data (excluding the last recorded image data) and the last recorded image data (current data) are extracted.
  • the second estimating unit 44 detects a corresponding feature amount (for example, an ORB feature amount) from each of the extracted reference image data and the current data, and generates a plurality of maps by a randomly sampled eight-point algorithm.
  • the second estimating unit 44 calculates a basic matrix assuming a non-plane for each of the generated maps.
  • the second estimating unit 44 checks the coincidence (consensus) of the calculated plurality of fundamental matrices, and the degree of coincidence between the respective fundamental matrices is higher than a predetermined coincidence (the evaluation value based on the consensus is a predetermined threshold). If it is higher, the process of estimating the direction of the user's head from the calculated basic matrix is performed.
  • the second estimating unit 44 performs processing until the next image data is acquired without calculating a basic matrix. May be interrupted.
  • the second estimating unit 44 estimates the user's visual field direction as the user's visual field direction based on this information. For this reason, the second estimation unit 44 does not always output the estimation result of the direction of the user's head.
  • the synthesis unit 45 synthesizes the estimation result and the estimation result of the first estimation unit 43.
  • the translation amount V and the rotation angle amount R of the user's head based on the initial position and direction of the user's head, which are the estimation results of the first estimation unit 43 are used.
  • the translation amount V and the rotation angle amount R are vector amounts including components in the X, Y, and Z axis directions and angle components around the X, Y, and Z axes, respectively.
  • the translation amount is not sufficiently accurate (accumulated error is generated).
  • the rotational movement amount obtained by the method of the inertial measurement device has sufficient accuracy
  • the second estimator 44 using the SLAM process has a sufficient accuracy.
  • the first estimating unit 43 accumulates the respective information of the translation direction component and the rotation direction component of the user's head movement detected by the sensor unit 34.
  • the weighted average May be set to be different from each other in the weight related to the translation direction component (each component of the translation amount) and the weight related to the rotation direction component (each component of the rotation angle amount).
  • the combining unit 45 outputs to the output unit 46 the translational movement amount V ′ and the rotation angle amount R ′ of the user's head based on the position and direction of the user's head after combining in this manner. I do.
  • the first estimating unit 43 receives the information of the translational movement amount V ′ and the rotation angle amount R ′ synthesized here and calculates the translational movement amount and the rotation angle amount at that time. And the estimation process by accumulation may be continued.
  • the synthesis unit 45 outputs the estimation result of the first estimation unit 43 as it is.
  • the output unit 46 provides the information on the translation amount and the rotation angle amount output from the combining unit 45 to a predetermined process using the information. For example, the output unit 46 provides these pieces of information to a process of determining the direction of the user's view in the virtual space.
  • the marker 20 that presents a pattern that can be detected as a feature point in the SLAM processing in the information processing device 10 is set to the At least one may be arranged in the viewing direction (a direction different from the viewing direction of the user).
  • such a marker 20 has a box-shaped housing 21, and a plurality of light sources 22a, 22b... If it is not necessary to perform the operation, the light source 22 is collectively described below). Further, a control unit 23 for controlling lighting of at least a part of the plurality of light sources 22 is provided inside the housing 21.
  • the light source 22 emits light outside the visible light (light of a wavelength which is invisible to humans but is imaged by the imaging unit 33) when the lighting is controlled, for example, an infrared LED (Light Emission Diode) or the like. It is.
  • the light sources 22 are arranged, for example, in a matrix on one surface (referred to as a light source surface) of the housing 21 as illustrated in FIG.
  • the arrangement of the light sources 22 is not limited to a matrix, and may be arranged in another pattern.
  • the control unit 23 includes a plurality of light sources arranged between the power source (not shown) (which may be a battery power source or a power source supplied from a commercial power source) and an infrared LED as each light source 22. Circuit. Of the switches of the control unit 23, the light sources 22 corresponding to the switches that are turned on are controlled to emit light outside the visible light, and the light sources 22 corresponding to the switches that are turned off are not turned on.
  • the marker 20 presents an image of visible light outside light in the pattern specified by the control unit 23.
  • an attachment member for attaching the marker 20 to the ceiling or wall of the room is provided on the back side of the light source surface of the housing 21 of the marker 20 (the back side when the light source surface is front, hereinafter referred to as an attachment surface).
  • This attachment member may be the same as, for example, a hanging ceiling for fixing an electric lamp.
  • the marker ceiling body is fixed to the ceiling side of the room, and the marker sealing cap provided on the mounting surface of the marker 20 is hooked and fixed to the hooking sealing body, so that the marker 20 is fixed to the ceiling or wall. I do.
  • the installer of the markers 20 arranges the plurality of markers 20 at, for example, various locations on the ceiling, and controls the control units of the respective markers 20 so that the patterns of images by visible light outside light presented by the respective markers 20 are different from each other. 23 is set.
  • the predetermined visual field in the direction of the user's head (in the direction parallel to the floor surface or in the direction of the ceiling when the head is oriented within a predetermined angle range in the elevation direction from the parallel direction) is defined as the imaging range. If the imaging unit 33 performs imaging of at least one of these markers 20, the control unit 11 can use the lighting pattern of the marker 20 as information of a feature point in SLAM as a process of the second estimation unit 44.
  • the light source 22 of the marker 20 presents an image of the pattern with light other than visible light, the user who wears the display device 30 when the display device 30 is a transmissive head-mounted display, or the user At the same time, another person present there does not notice the light of the marker 20.
  • Such a marker 20 includes, for example, a facility such as a cinema where the surroundings need to be darkened during the screening, or a characteristic image that can be a characteristic point in the SLAM processing on the ceiling (imaging direction of the imaging unit 33).
  • This marker is effective in a place where it does not exist, but when there are enough elements to be feature points in the imaging direction of the imaging unit 33 and the surroundings are sufficiently bright (elements that can be feature points can be imaged), this marker 20 is not always necessary.
  • the information processing system 1 is installed in a facility such as a movie theater, for example. Specifically, in facilities such as movie theaters, There may be a user who wears the display device 30 and receives the service of the video presentation by the display device 30, and a viewer who does not (does not watch the video presented by the display device 30).
  • the lighting inside the hall is turned off, so even if an image in a direction other than the screen being screened is taken, only a substantially black image is obtained,
  • the natural gaze direction of the user is the direction of the screen, but in the direction of the screen there is the head of another person (moving object) seated in the front row, and the image projected on the screen is SLAM processing cannot be performed based on the video in this direction because There is such a feature.
  • the manager of the movie theater sets a plurality of markers 20 on the ceiling, and sets the lighting pattern of the light source 22 in each control unit 23 so as to present images of different patterns.
  • the display device 30 is lent to a user (a user who receives a video presentation service provided by the display device 30), and is connected to the information processing device 10 wirelessly or by wire.
  • the imaging unit 33 sets the imaging range to a direction different from the screen direction (the direction of the user's field of view), for example, the ceiling direction. And the display device 30.
  • the imaging unit 33 can capture the image of the lighting pattern presented by the marker 20 using the visible light outside light, even if the user faces the screen. Yes, it does not capture the image of the head or the screen of another person sitting in the front row of the user.
  • the information processing apparatus 10 performs the process illustrated in FIG. 4 to acquire image data captured by the imaging unit 33 (S1), and also acquires the image of the user's head attached to the display device 30 worn by the user. Information is acquired from the sensor unit 34 that detects movement (S2).
  • the information processing apparatus 10 calculates the translation amount V and the rotation angle of the user's field of view (user's head) based on the acquired cumulative result of the movement of the user's head detected by the sensor unit 34.
  • the amount R is obtained (S3: IMU processing).
  • the information processing apparatus 10 obtains the translational movement amount v and the rotation angle amount r in the user's visual field direction (user's head) by SLAM processing based on the image data acquired in the processing S1 (S4: SLAM processing). As described above, in the process S4, the translation amount v and the rotation angle amount r cannot be obtained when sufficient feature points cannot be found from the captured image data.
  • the information processing apparatus 10 checks whether or not the translation amount v and the rotation angle amount r have been obtained in step S4 (S5). If they have been obtained (step S5: Yes), the translation movement obtained in step S4. The amount v and the rotation angle amount r are combined with the translational movement amount V and the rotation angle amount R in the user's viewing direction (the user's head) obtained in step S3 (S6).
  • ⁇ and ⁇ are real values of 0 or more and 1 or less.
  • the translation amounts V, v, and V 'and the rotation angle amounts R, r, and R' are components in the X, Y, and Z-axis directions and around the X, Y, and Z axes, respectively. Is a vector quantity including the angle component of
  • the information processing apparatus 10 outputs the synthesized translational movement amount V ′ and rotation angle amount R ′ in the user's visual field direction (user's head) as information on the user's line of sight (S7).
  • step S4 determines whether the translation amount v and the rotation angle amount r have not been determined in step S4 (step S5: No).
  • step S3 determines whether the translation in the user's view direction (user's head) have been determined in step S4 (step S5: No).
  • step S3 determines whether the translation in the user's view direction (user's head) have been determined in step S4 (step S5: No).
  • step S3 determines the translation in the user's view direction (user's head) determined in step S3.
  • the amount V and the rotation angle amount R are output as they are as information on the user's line of sight (S8).
  • the information processing apparatus 10 outputs information in steps S7 and S8, and then returns to step S1 to continue the processing.
  • the information output in the processes S7 and S8 (information on the line of sight of the user wearing the display device 30) is used for other processes of the information processing device 10.
  • the information processing apparatus 10 acquires the information on the gaze direction of each user wearing the display device 30 and provides information to each user based on the information on the corresponding gaze direction (in the virtual space of the gaze direction). Image presentation) may be performed.
  • information on the gaze direction of each user may be statistically processed, and may be used for processing such as analyzing what part the user focuses on.
  • the information processing apparatus 10 may have a portion outside the map formed by the SLAM processing up to that time, such as when the user greatly changes the position of the head. In some cases, an image is captured and tracking of a feature point cannot be performed (lost).
  • the information processing apparatus 10 discards the map formed so far (initializes the SLAM processing) and May start the SLAM process.
  • the SLAM processing of the second estimating unit 44 uses the conventional SLAM processing as it is, but the present embodiment is not limited to this example. That is, in the above description, a map is formed, and the posture of the user's head (the amount of translation and the amount of rotation) is determined while referring to the map. However, the present embodiment is not limited to this. Alternatively, the motion prediction model may be replaced with a model other than the map.
  • the marker 20 is provided with the light source 22 that emits light in order to enable imaging even in a dark place.
  • the present embodiment is not limited to this, and is not limited to a simple two-dimensional barcode.
  • An illustration that can be used as a feature point may be arranged in an imaging range of the imaging unit 33 (a range where the imaging unit 33 is assumed to capture an image when the user moves his / her head).
  • the illustration may have a pattern formed of a material that reflects light other than visible light instead of visible light. Also in this case, by irradiating this pattern with a non-visible light source, an image of a predetermined pattern can be presented with non-visible light without using a plurality of light sources 22 arranged as described above. Becomes possible.
  • REFERENCE SIGNS LIST 1 information processing system 10 information processing device, 11 control unit, 12 storage unit, 13 operation unit, 14 display control unit, 15 communication unit, 20 marker, 21 housing, 22 light source, 23 control unit, 30 display device, 31 Control unit, 32 display unit, 33 imaging unit, 34 sensor unit, 41 image acquisition unit, 42 sensor information acquisition unit, 43 first estimation unit, 44 second estimation unit, 45 synthesis unit, 46 output unit.

Abstract

ユーザが頭部に装着し、装着したユーザの視野方向とは異なる方向の視野範囲を撮像する撮像装置に接続された情報処理装置が、当該撮像装置から画像を取得し、ユーザの頭部の動きを検出するセンサから情報を取得する。情報処理装置は、当該取得した、センサにより検出されたユーザの頭部の動きの累算結果に基づき、ユーザの視野方向を推定し、また上記取得した画像に基づいて、ユーザの視野方向を推定する。情報処理装置は、画像に基づく推定結果と、センサから得た情報に基づく推定結果とを合成して出力する。

Description

情報処理装置、情報処理システム、情報処理方法、及びプログラム
 本発明は、情報処理装置、情報処理システム、情報処理方法、及びプログラムに関する。
 近年、VR(仮想現実)や、AR(拡張現実)、MR(複合現実)に係る技術が普及している。これらの技術では、ユーザが頭部にヘッドマウントディスプレイ等の表示装置を装着して、例えば仮想現実空間の画像を視聴するのが一般的である。
 またこの場合に、ユーザの視野に応じて提示する情報を異ならせるため、ユーザの頭部の方向(ユーザの見ている方向)を検出することが必要となっている。
 そこで表示装置に固定したマーカーを、表示装置の外側に配したカメラで撮像し、当該撮像された画像から、マーカーの位置及び方向を検出することで、当該表示装置を頭部に装着したユーザの頭部の方向を検出する技術が開発されている。
 しかしながら、このような装置では、複数のユーザが一斉に仮想現実空間の画像を視聴するような環境や、ユーザの他に(仮想現実空間の画像を視聴しているか否かに関わらず)人が存在する環境では、ユーザの頭部に装着したマーカーが他の人によって遮られる場合があり、ユーザが装着したマーカーを検出するためのカメラの配置が難しい場合がある。
 本発明は上記実情に鑑みて為されたもので、より多くの環境でユーザの頭部の方向に関する情報を取得できる情報処理装置、情報処理システム、情報処理方法、及びプログラムを提供することを、その目的の一つとする。
 上記従来例の問題点を解決する本発明の一態様は、ユーザが頭部に装着し、装着したユーザの視野方向とは異なる方向の視野範囲を撮像する撮像装置に接続された情報処理装置であって、前記撮像装置から画像を取得する画像取得手段と、前記ユーザの頭部の動きを検出するセンサから情報を取得するセンサ情報取得手段と、前記取得した、前記センサにより検出されたユーザの頭部の動きの累算結果に基づき、ユーザの視野方向を推定する第1推定手段と、前記取得した画像に基づいて、ユーザの視野方向を推定する第2推定手段と、を含み、前記第2推定手段による推定結果と、前記第1推定手段の推定結果とを合成して出力するものである。
 本発明によると、より多くの環境でユーザの頭部の方向に関する情報を取得できる。
本発明の実施の形態に係る情報処理システムの例を表す概略構成ブロック図である。 本発明の実施の形態に係る情報処理装置の例を表す機能ブロック図である。 本発明の実施の形態に係るマーカー装置の概略構成を表す説明図である。 本発明の実施の形態に係る情報処理装置の動作例を表すフローチャート図である。
 本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理装置10を含む情報処理システム1は、図1に例示するように、情報処理装置10と、マーカー20と、ユーザが装着する表示装置30とを含んで構成されている。
 この表示装置30は、ユーザが頭部に装着して使用するヘッドマウントディスプレイ等の表示デバイスであり、制御部31と、表示部32と、撮像部33と、センサ部34とを含んで構成される。
 この表示装置30の制御部31は、情報処理装置10から供給される画像データを受け付ける。そしてこの制御部31は、入力された画像データに基づく映像信号を生成して表示部32に出力する。またこの制御部31は、後に述べる撮像部33から入力される画像データや、センサ部34から入力されるセンサの出力信号を表す情報(センサ信号と呼ぶ)を、情報処理装置10に対して送出する。
 表示部32は、一例としてはユーザの左目と右目とのそれぞれの目で視認される画像を表示する一対の有機EL表示パネルや液晶表示パネル等のディスプレイ部と、ユーザの目の焦点をこのディスプレイ部の面に結ばせるための光学系(レンズ等)を含む。この場合、制御部31は、左目用のものと右目用のものとの二つの映像信号を生成して、対応する表示部32のディスプレイ部にそれぞれ出力する。
 なお、制御部31は必要に応じて、供給された画像データが表す画像に対して、表示部32の光学系によって生じる歪みを補正する処理などを実行し、補正された画像を表す映像信号を生成してもよい。
 また、本実施の形態の別の例では、表示装置30は、スマートフォンの画面をそのままディスプレイ部として用いてもよい。この場合、一つの画面の一部を左目用、他の部分を右目用のディスプレイ部として用いる。さらに表示装置30は、ユーザの網膜に直接映像を投影する網膜照射型(網膜投影型)を用いるものであってもよい。
 ディスプレイ部としてスマートフォンの画面を用いる場合、このスマートフォンが情報処理装置1から供給される画像データを受け付けて映像信号を生成する制御部31としても機能することとなる。
 なお、本実施形態において表示装置30は、ユーザが外界の様子を視認することができない非透過型の表示装置であってもよいし、ユーザが外界の様子を、ディスプレイ部に表示された映像とともに認識可能な透過型の表示装置であってもよい。
 撮像部33は、この表示装置30の筐体に固定されており、表示装置30とともに、この撮像部33を装着したユーザの視野方向とは異なる方向の視野範囲を撮像して、当該撮像して得た画像データを制御部31に出力する。
 本実施の形態の一例では、撮像部33は、ユーザの頭部の中心から頭頂に向かう向き(ユーザが正面を向いて直立したときに天頂方向となる向き)の方向の視野範囲の画像を撮像する。
 またこの撮像部33としては、人間の可視光外(以下、単に可視光外と呼ぶ)の光も撮像可能なものを用いる。
 センサ部34は、加速度センサ等を含み、ユーザが頭部を並進移動させたときに、当並進移動の方向及び量を表す情報を出力する。具体的にこのセンサ部34は、ユーザの頭部の中心から頭頂方向(頭部を左右に横断する冠状面内で頭頂方向)をZ軸とし、当該冠状面内の左右方向(例えば右手方向を正の向きとする)をX軸とし、これらZ軸,X軸の双方に直交する軸(矢状面内の前後方向)をY軸として、これらX,Y,Z方向の各軸方向の頭部の移動量を検出して出力する。
 また、このセンサ部34は、ジャイロセンサを含み、ユーザが頭部を回転させたときに、当該回転の角度を表す情報を出力する。具体的にこのセンサ部34のジャイロセンサは、当初(検出開始の当初)ユーザが向いていた方向から、ユーザの顔の向き(ユーザの視野の面に鉛直な方向)の横断面(頭部を横断する横断面)内の角度方向、つまりZ軸まわりの角度(ロール角)、矢状面内の角度方向、つまりX軸まわりの角度(仰角方向:チルト角)、冠状面内の角度方向、つまりY軸まわりの角度(ユーザの視野の面に平行な面内の角度方向:ピッチ角)の変化量をそれぞれ回転角度の情報として出力する。
 情報処理装置10は、コンピュータや家庭用ゲーム機等であり、図1に示すように、制御部11と、記憶部12と、操作部13と、表示制御部14と、通信部15とを含んで構成されている。
 この制御部11は、CPUなどのプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態の制御部11は、表示装置30の撮像部33から、撮像部33が撮像して得た画像データを取得する。また制御部11は、センサ部34が出力するユーザの頭部の移動量(並進方向移動量)や、角度方向の移動量(各角度方向の回転角度)の情報等の、頭部の動きを表す情報を取得し、当該取得したセンサ部34が出力する情報に基づくユーザの頭部の動きの累算結果に基づいてユーザの視野方向を推定する(第1の推定処理)。
 また制御部11は、撮像部33が撮像した画像データに基づいて、ユーザの視野方向を推定する(第2の推定処理)。そして制御部11は、第2の推定処理による推定結果と、第1の推定処理の推定結果とを合成して出力する。この出力は、仮想空間内のユーザの視野を表す情報として利用される。この制御部11によるユーザの視野方向の推定処理については、後に詳しく説明する。
 なお、ユーザの視野の方向の情報を利用する処理については、種々の広く知られた方法を用いることができるので、ここでの詳しい説明を省略する。
 記憶部12は、メモリデバイスやディスクデバイス等であり、制御部11により実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ非一時的な記録媒体に格納されて提供され、この記憶部12にインストールされたものであってもよい。また本実施の形態の記憶部12は、制御部11のワークメモリとしても動作する。
 操作部13は、マウスやキーボード、ゲームコントローラ等の入力デバイスに接続されており、ユーザの指示操作をこれらの入力デバイスから受け入れて制御部11に出力する。表示制御部14は、制御部11から入力される指示に従って、画像データを表示装置30に出力する等の処理を実行する。
 通信部15は、ネットワークインタフェース等であり、ネットワークを介して外部の装置との間で通信を行う。この通信部15は、外部から受信した情報を制御部11に出力する。またこの通信部15は、制御部11から入力された指示に従って、種々の情報を、ネットワークを介して外部の装置へ送出する。
 次に、本実施の形態における制御部11の動作について説明する。本実施の形態では、制御部11は、機能的には図2に例示するように、画像取得部41と、センサ情報取得部42と、第1推定部43と、第2推定部44と、合成部45と、出力部46とを含んで構成される。
 画像取得部41は、表示装置30の撮像部33にて撮像された画像データを、所定のタイミング(例えば1/30秒ごとなどの定期的なタイミング)ごとに、繰り返し取得し、当該画像データを、取得した時刻を表す情報(図示しない時計IC等の計時手段から取得する)に関連付けて記憶部12に格納する。この画像データは、直近の所定複数個だけ保持することとしておく。
 センサ情報取得部42は、センサ部34が出力するユーザの頭部の移動量(並進方向移動量)や、角度方向の移動量(各角度方向の回転角度)の情報等の、頭部の動きを表す情報を、所定のタイミング(例えば1/30秒ごとなどの定期的なタイミング、画像取得部41が取得するタイミングと同じでなくてもよい)ごとに、繰り返し取得する。
 そしてセンサ情報取得部42は、当該取得した情報を、取得した時刻を表す情報(図示しない時計IC等の計時手段から取得する)に関連付けて、記憶部12に格納する。この情報についても、直近の所定の複数個(保持する画像データの個数と必ずしも一致しなくてもよい)だけ保持することとしておく。
 第1推定部43は、センサ情報取得部42が取得して記録した、センサ部34が出力する情報を累算して、当該累算結果に基づいてユーザの視野方向を推定する。具体的にこの第1推定部43は、広く知られている慣性計測装置(IMU)におけるのと同様の処理により、ユーザの視野の方向(当初のユーザの頭部の方向を基準としたときの並進移動量、及び回転角度量)を推定する。
 第2推定部44は、画像取得部41が取得して記録した、撮像部33により撮像された画像データに基づいて、ユーザの視野方向を推定する。この第2推定部44は、いわゆるSLAM(Simultaneous Localization and Mapping)技術により、ユーザの視野方向を推定する。具体的に、この第2推定部44は、繰り返し取得された画像データのそれぞれから特徴点を抽出し、互いに異なるタイミングで取得された画像データに含まれる、共通した特徴点の位置(画像データ内の位置)に基づいてユーザの頭部の動きである、当初のユーザの頭部の位置・方向を基準としたときの並進移動量、及び回転角度量を推定する。この推定の処理には、ORB-SLAM等の広く知られたSLAMの処理モジュールを利用できるため、詳細な動作の説明は省略するが、例えば第2推定部44は、記憶部12に記録された、画像データ(最後に記録された画像データを除く)から選択された参照画像データと、最後に記録された画像データ(現在データ)とを抽出する。そして第2推定部44は、抽出した参照画像データと現在データとのそれぞれから、対応する特徴量(例えばORB特徴量)を検出し、ランダムサンプリングした8点アルゴリズムにより複数のマップを生成する。第2推定部44は、生成したマップのそれぞれについて非平面を想定した、基礎行列を計算する。第2推定部44は、計算された複数の基礎行列の一致度(コンセンサス)を調べ、それぞれの基礎行列の互いの一致度が予め定めた一致度より高い(コンセンサスによる評価値が予め定めた閾値より高い)場合に、当該計算された基礎行列からユーザの頭部の方向を推定する処理を行うこととする。
 またこの第2推定部44は、検出した、対応する特徴量の数が予め定めたしきい値を下回る場合は、基礎行列の計算を行うことなく、次の画像データが取得されるまで、処理を中断してもよい。
 そして第2推定部44は、推定が行われ、頭部の方向の情報が推定されたときには、この情報に基づいてユーザの視野の方向としてユーザの視野方向を推定する。このため、第2推定部44は、必ずしも常にユーザの頭部の方向の推定結果を出力するものではない。
 合成部45は、第2推定部44の推定結果が得られるときには、当該推定結果と第1推定部43による推定結果とを合成する。本実施の形態の一例では、第1推定部43の推定結果である、当初のユーザの頭部の位置・方向を基準としたときのユーザの頭部の並進移動量V、及び回転角度量Rと、第2推定部44が出力する、当初のユーザの頭部の位置・方向を基準としたときのユーザの頭部の並進移動量v、及び回転角度量rとを用い、合成後の当初のユーザの頭部の位置・方向を基準としたときのユーザの頭部の並進移動量V′、及び回転角度量R′を、
V′=αV+(1-α)v
R′=βR+(1-β)r
として加重平均して求める。ここで、α,βは0以上1以下の、例えば実験的に定められる実数であり、α=βであってもよいし、αとβとは異なる値であってもよい。また、並進移動量Vや回転角度量Rはいずれも、それぞれX,Y,Z軸方向の成分と、X,Y,Z軸まわりの角度成分とを含むベクトル量である。
 また本実施の形態のある例では、慣性計測装置の方法により得られる第1推定部43の推定結果においては、並進移動量については十分な精度がでない(累積誤差が生じる)のに対して、SLAMの処理を用いる第2推定部44の推定結果が比較的優良であることに鑑み、αの値を比較的0に近い値(例えばα=0.1)としてもよい。
 また第1推定部43の推定結果のうち、回転移動量については慣性計測装置の方法により得られる結果が十分な精度を有しているのに対し、SLAMの処理を用いる第2推定部44の推定結果においては比較的精度が低いことに鑑み、βの値を比較的1に近い値(例えばβ=0.9)などと設定してもよい。
 このように本実施の形態のある例では、第1推定部43が得る、センサ部34により検出されたユーザの頭部の動きの並進方向成分と回転方向成分とのそれぞれの情報を累算した推定結果と、第2推定部44が推定した、ユーザの頭部の動きの情報の並進方向成分と回転方向成分との対応する成分との加重平均に基づいて合成を行う際に、当該加重平均の重みの値を、並進方向成分(並進移動量の各成分)に係る重みと、回転方向成分(回転角度量の各成分)に係る重みとで互いに異なるよう設定してもよい。
 合成部45は、このようにして合成した後のユーザの頭部の位置・方向を基準としたときのユーザの頭部の並進移動量V′、及び回転角度量R′を出力部46に出力する。
 このとき、第1推定部43は、ここで合成された並進移動量V′、及び回転角度量R′の情報の入力を受けて、その時点での並進移動量と回転角度量の値をこれらで置き換えて、累算による推定処理を続けてもよい。
 なお、合成部45は、第2推定部44の推定結果が得られていないときには、第1推定部43による推定結果をそのまま出力する。
 出力部46は、合成部45が出力した並進移動量、及び回転角度量の情報を、これらを利用する所定の処理に供する。例えば出力部46は、これらの情報を、仮想空間内におけるユーザの視野方向を決定する処理に供する。
[マーカー]
 また本実施の形態のある例では、上記情報処理装置10におけるSLAM処理において特徴点として検出可能なパターンを提示するマーカー20を、表示装置30を装着したユーザが所在する室内の、撮像部33の視野方向(ユーザの視野方向とは異なる方向)に少なくとも一つ配してもよい。
 このようなマーカー20は、例えば図3に例示するように、箱状の筐体21を有し、この筐体21の一方の面側に複数の光源22a,22b…22n(個々の光源を区別する必要がない場合、以下、光源22としてまとめて表記する)を備える。またこの筐体21の内部には、複数の光源22のうち、少なくとも一部を点灯制御する制御部23を備えている。
 ここで光源22は、点灯制御されたときに可視光外の光(人間には視認できないが、撮像部33には撮像される波長の光)を放射する、例えば赤外線LED(Light Emission Diode)等である。またこの光源22は、例えば図3に例示したように、筐体21の一つの面(光源面と呼ぶ)内に、例えばマトリクス状に配される。もっとも、この光源22の配列は、マトリクス状に限られず、別のパターンで配されていても構わない。
 また制御部23は、例えば図示しない電源(電池電源であってもよいし、商用電源からの電力供給を受けるものであってもよい)から各光源22である赤外線LEDの間に配された複数のスイッチを含む回路である。この制御部23のスイッチのうち、オンとなっているスイッチに対応する光源22は点灯制御されて可視光外の光を放射し、オフとなっているスイッチに対応する光源22は点灯しない。
 これにより、マーカー20は、制御部23によって指定されたパターンの可視光外光の像を提示することとなる。
 またこのマーカー20の筐体21の光源面の裏側(光源面を正面としたときの背面側、以下取り付け面と呼ぶ)には、部屋の天井や壁にこのマーカー20を取り付けるための取り付け部材が配されている。この取り付け部材は、例えば、電灯を固定する引掛シーリングと同様のもので構わない。この場合引掛シーリングボディを部屋の天井側に固定し、マーカー20の取り付け面に配された引掛シーリングキャップを、この引掛シーリングボディに引っ掛けて固定することで、マーカー20を天井や壁に取り付けて固定する。
 マーカー20の設置者は、複数のマーカー20を例えば天井の各所に配置するとともに、各マーカー20が提示する可視光外光による像のパターンが互いに異なるパターンとなるよう、それぞれのマーカー20の制御部23を設定しておく。
 このようにすると、天井に複数の、互いに異なる点灯パターンで点灯したマーカー20が設置された状態となる。このため、ユーザの頭頂方向(ユーザが床面に平行な方向、あるいは平行な方向から仰角方向に所定の角度範囲内に頭部を向けている場合、天井の方向)の所定視野を撮像範囲とする撮像部33が、これらのマーカー20の少なくとも一つを撮像できれば、制御部11が第2推定部44の処理として、当該マーカー20の点灯パターンを、SLAMにおける特徴点の情報として利用できる。
 また、マーカー20の光源22が当該パターンの像を、可視光外の光で提示するので、表示装置30が透過型のヘッドマウントディスプレイである場合などに表示装置30を装着するユーザや、当該ユーザとともにその場にいる他の人物が、マーカー20の光に気付くことがない。
 このようなマーカー20は、例えば映画館のように、上映中周囲を暗くする必要のある施設や、天井(撮像部33の撮像方向)にSLAM処理における特徴点となり得る特徴的な像があまり含まれないような場所において有効であるが、特徴点となるような要素が撮像部33の撮像方向に十分にあり、かつ、周囲が十分明るい(特徴点となり得る要素が撮像できる)ときには、このマーカー20は必ずしも必要ではない。
[設置及び動作]
 本発明の実施の形態に係る情報処理システム1は、例えば映画館等の施設に設置される。具体的に映画館等の施設においては、
・表示装置30を装着して、表示装置30による映像提示のサービスを受けるユーザと、そうでない(表示装置30が提示する映像を視聴しない)視聴者とが存在する場合がある、
・上映中、館内の照明が落とされるので、上映されているスクリーン以外の方向の画像を撮像しても、実質的に黒一色の画像が得られるだけとなる、
・ユーザの自然な視線方向は、スクリーンの方向であるが、スクリーンの方向には前列に着席している他者の頭部(移動する対象物)があり、また、スクリーンに映される映像は変化するため、この方向の映像に基づいてSLAM処理は行えない、
といった特徴がある。
 そこで映画館の管理者は、天井に複数のマーカー20を設置し、それぞれの制御部23において、互いに異なるパターンの像を提示するように光源22の点灯パターンを設定する。また、ユーザ(表示装置30による映像提示のサービスを受けるユーザ)に対しては、表示装置30を貸し出して、情報処理装置10に無線または有線にて接続させる。
 なお、ユーザが表示装置30を装着して、スクリーンの方向を向いたとき、撮像部33は、当該スクリーンの方向(ユーザの視野の方向)とは異なる方向、例えば天井方向を撮像範囲とするよう、表示装置30に対して取り付けられているものとする。
 従って上映開始後(周囲の照明が落とされた状態)、ユーザがスクリーンの方向を向いていても、この撮像部33はマーカー20が提示する、可視光外光による点灯パターンの像を撮像可能であり、また、ユーザの前列に着席している他者の頭部や、スクリーンの像は撮像しない。
 情報処理装置10は、図4に例示する処理を行い、この撮像部33が撮像した画像データを取得し(S1)、また、ユーザが装着する表示装置30に取り付けられた、ユーザの頭部の動きを検出するセンサ部34から情報を取得する(S2)。
 そして情報処理装置10は、当該取得した、センサ部34が検出されたユーザの頭部の動きの累算結果に基づき、ユーザの視野方向(ユーザの頭部)の並進移動量V、及び回転角度量Rを求める(S3:IMU処理)。
 また情報処理装置10は、処理S1で取得した画像データに基づくSLAM処理により、ユーザの視野方向(ユーザの頭部)の並進移動量v、及び回転角度量rを求める(S4:SLAM処理)。既に述べたように、この処理S4では、撮像された画像データから十分な特徴点が見いだせなかった場合などでは、並進移動量v、及び回転角度量rを求めることができない。
 情報処理装置10は、処理S4において並進移動量v、及び回転角度量rが求められたか否かを調べ(S5)、求められたならば(処理S5:Yes)、処理S4で求めた並進移動量v、及び回転角度量rと、処理S3で求めたユーザの視野方向(ユーザの頭部)の並進移動量V、及び回転角度量Rとを合成する(S6)。
 具体的にこの処理S6では、処理S3で求められた、当初のユーザの頭部の位置・方向を基準としたときのユーザの頭部の並進移動量V、及び回転角度量Rと、処理S4で求められた、当初のユーザの頭部の位置・方向を基準としたときのユーザの頭部の並進移動量v、及び回転角度量rとを用い、合成後の当初のユーザの頭部の位置・方向を基準としたときのユーザの頭部の並進移動量V′、及び回転角度量R′を、
V′=αV+(1-α)v
R′=βR+(1-β)r
として加重平均して求める。ここで、α,βは0以上1以下の実数値であるが、ここではα=0.1(つまり並進移動方向についてはSLAM処理を信頼する)とし、β=0.9(つまり回転角度についてはIMU処理を信頼する)とする。なお、既に述べたように、並進移動量V,v,V′や回転角度量R,r,R′はいずれも、それぞれX,Y,Z軸方向の成分と、X,Y,Z軸まわりの角度成分とを含むベクトル量である。
 そして情報処理装置10は、この合成したユーザの視野方向(ユーザの頭部)の並進移動量V′、及び回転角度量R′を、ユーザの視線方向の情報として出力する(S7)。
 一方、処理S5において処理S4において並進移動量v、及び回転角度量rが求められなかったと判断すると(処理S5:No)、処理S3で求めたユーザの視野方向(ユーザの頭部)の並進移動量V、及び回転角度量Rをそのまま、ユーザの視線方向の情報として出力する(S8)。
 そして情報処理装置10は、処理S7,S8にて情報を出力した後、処理S1に戻って処理を続ける。
 ここで処理S7,S8にて出力された情報(表示装置30を装着するユーザの視線方向の情報)は、情報処理装置10の他の処理に利用される。情報処理装置10は、これにより表示装置30を装着した各ユーザの視線方向の情報を取得し、それぞれのユーザに対して、対応する視線方向の情報に基づく情報提供(当該視線方向の仮想空間の像を提示するなど)を行ってもよい。また、各ユーザの視線方向の情報を統計処理して、ユーザがどのような部分に注目するかを分析するなどといった処理に供してもよい。
[SLAM処理]
 情報処理装置10は、第2推定部44においてSLAM処理を行っているときに、ユーザが頭部の位置を大きく変えたときなど、それまでにSLAM処理にて形成していたマップ外の部分が撮像され、特徴点の追跡ができなくなる場合がある(ロスト)。
 本実施の形態では、マップの形成が主な目的ではないため、この場合には情報処理装置10は、それまでに形成していたマップを破棄して(SLAMの処理を初期化して)、新たにSLAM処理を開始してもよい。
[マップ形成を行わない例]
 またここまでの説明では、第2推定部44のSLAM処理は、従来のSLAM処理をそのまま用いるものとしたが、本実施の形態はこの例に限られない。すなわちここまでの説明では、マップを形成して、当該マップを参照しつつ、ユーザの頭部の姿勢(並進移動量や回転角度量)を求めていたが、本実施の形態はこれに限られず、動きの予測モデルをマップ以外のものに置き換えても構わない。
 もっとも、このように動きの予測モデルを置き換えた場合であってもSLAM処理のように撮像部33が単眼である場合(単一の撮像部による撮像)に対応した処理を行うことが可能なものとすることが、コストの観点からは好ましい。
[マーカーの別の例]
 また本実施の形態においては、マーカー20は暗い場所でも撮像可能とするため、自ら発光する光源22を備えるものとしたが、本実施の形態はこれに限られず、単なる二次元バーコード等のような特徴点として利用可能な図版を、撮像部33の撮像範囲(ユーザが頭部を移動させたときに撮像部33が撮像すると想定される範囲)に配することとしてもよい。さらに、この図版は、可視光ではなく可視光外の光を反射する素材でパターンを形成したものとしてもよい。この場合も、可視光外の光源で、このパターンを照射することで、上述のように配された複数の光源22を用いることなく、所定のパターンの像を可視光外の光で提示することが可能となる。
1 情報処理システム、10 情報処理装置、11 制御部、12 記憶部、13 操作部、14 表示制御部、15 通信部、20 マーカー、21 筐体、22 光源、23 制御部、30 表示装置、31 制御部、32 表示部、33 撮像部、34 センサ部、41 画像取得部、42 センサ情報取得部、43 第1推定部、44 第2推定部、45 合成部、46 出力部。
 

Claims (8)

  1. ユーザが頭部に装着し、装着したユーザの視野方向とは異なる方向の視野範囲を撮像する撮像装置に接続された情報処理装置であって、
     前記撮像装置から画像を取得する画像取得手段と、
     前記ユーザの頭部の動きを検出するセンサから情報を取得するセンサ情報取得手段と、
     前記取得した、前記センサにより検出されたユーザの頭部の動きの累算結果に基づき、ユーザの視野方向を推定する第1推定手段と、
     前記取得した画像に基づいて、ユーザの視野方向を推定する第2推定手段と、
    を含み、
     前記第2推定手段による推定結果と、前記第1推定手段の推定結果とを合成して出力する情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
     前記画像取得手段は、前記表示装置を装着したユーザの視野方向とは異なる方向の視野範囲にある所定のマーカーを撮像する撮像装置から画像を取得し、
     前記第2推定手段は、前記取得した画像に含まれるマーカーの画像に基づいて、ユーザの視野方向を推定する情報処理装置。
  3. 請求項1または2に記載の情報処理装置であって、
     前記画像取得手段は、前記撮像装置から画像を繰り返し取得し、
     前記第2推定手段は、前記繰り返し取得した画像のそれぞれから特徴点を抽出し、互いに異なるタイミングで取得された画像に含まれる、共通した特徴点の位置に基づいてユーザの頭部の動きを推定し、当該推定したユーザの頭部の動きの情報に基づいて、ユーザの視野方向を推定する情報処理装置。
  4. 請求項3に記載の情報処理装置であって、
     前記第1推定手段の推定結果の合成は、第1推定手段が累算した前記センサにより検出されたユーザの頭部の動きの情報と、前記第2推定手段が推定したユーザの頭部の動きの情報との加重平均に基づいて行う情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
     前記センサは、ユーザの頭部の動きを並進方向の成分と回転方向の成分とに分けて出力し、
     前記第2推定手段は、前記ユーザの頭部の動きを、並進方向の成分と回転方向の成分とに分けて推定し、
     前記第1推定手段の推定結果の合成は、第1推定手段が累算した前記センサにより検出されたユーザの頭部の動きの並進方向成分と回転方向成分とのそれぞれの情報と、前記第2推定手段が推定したユーザの頭部の動きの情報の並進方向成分と回転方向成分との対応する成分との加重平均に基づいて行い、
     当該加重平均の重みの値は、並進方向成分に係る重みと、回転方向成分に係る重みとで互いに異なるよう設定される情報処理装置。
  6. ユーザが頭部に装着し、装着したユーザの視野方向とは異なる方向の視野範囲を撮像する撮像装置に接続された情報処理装置と、少なくとも一つのマーカー装置と、を含む情報処理システムであって、
     前記情報処理装置は、
     前記撮像装置から画像を取得する画像取得手段と、
     前記ユーザの頭部の動きを検出するセンサから情報を取得するセンサ情報取得手段と、
     前記取得した、前記センサにより検出されたユーザの頭部の動きの累算結果に基づき、ユーザの視野方向を推定する第1推定手段と、
     前記取得した画像に基づいて、ユーザの視野方向を推定する第2推定手段と、
    を含み、
     前記第2推定手段による推定結果と、前記第1推定手段の推定結果とを合成して出力しており、
     前記マーカー装置はそれぞれ、
     点灯制御されると、可視光外の光を放射する複数の光源と、
     前記光源の少なくとも一部を点灯制御する制御部と、
     を備え、前記点灯制御された光源の位置により所定のパターンの可視光外の像を提示しており、
     当該マーカー装置の少なくとも一つは、前記撮像装置が撮像する範囲に配され、
     前記情報処理装置の第2推定手段は、前記撮像装置が撮像したマーカー装置が提示する可視光外の像が表すパターンの位置に基づいてユーザの視野方向を推定する情報処理システム。
  7. ユーザが頭部に装着し、装着したユーザの視野方向とは異なる方向の視野範囲を撮像する撮像装置に接続された情報処理装置を用いた情報処理方法であって、
     画像取得手段が、前記撮像装置から画像を取得する工程と、
     センサ情報取得手段が、前記ユーザの頭部の動きを検出するセンサから情報を取得する工程と、
     第1推定手段が、前記取得した、前記センサにより検出されたユーザの頭部の動きの累算結果に基づき、ユーザの視野方向を推定する工程と、
     第2推定手段が、前記取得した画像に基づいて、ユーザの視野方向を推定する工程と、
    を含み、
     前記第2推定手段による推定結果と、前記第1推定手段の推定結果とを合成して出力する情報処理方法。
  8. ユーザが頭部に装着し、装着したユーザの視野方向とは異なる方向の視野範囲を撮像する撮像装置に接続された情報処理装置を、
     前記撮像装置から画像を取得する画像取得手段と、
     前記ユーザの頭部の動きを検出するセンサから情報を取得するセンサ情報取得手段と、
     前記取得した、前記センサにより検出されたユーザの頭部の動きの累算結果に基づき、ユーザの視野方向を推定する第1推定手段と、
     前記取得した画像に基づいて、ユーザの視野方向を推定する第2推定手段と、
     前記第2推定手段による推定結果と、前記第1推定手段の推定結果とを合成して出力する手段と、
     として機能させるプログラム。
     
     
PCT/JP2018/032926 2018-09-05 2018-09-05 情報処理装置、情報処理システム、情報処理方法、及びプログラム WO2020049665A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/032926 WO2020049665A1 (ja) 2018-09-05 2018-09-05 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/032926 WO2020049665A1 (ja) 2018-09-05 2018-09-05 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2020049665A1 true WO2020049665A1 (ja) 2020-03-12

Family

ID=69721886

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/032926 WO2020049665A1 (ja) 2018-09-05 2018-09-05 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2020049665A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000271342A (ja) * 1999-03-26 2000-10-03 Sony Corp 位置情報発信装置およびこれを使用した仮想空間映像表示装置
JP2016181267A (ja) * 2016-05-16 2016-10-13 株式会社コロプラ コンピュータ・プログラム
JP2018010657A (ja) * 2013-06-08 2018-01-18 株式会社ソニー・インタラクティブエンタテインメント ヘッドマウントディスプレイにおいて、透過モードと非透過モードとの間を移行するシステム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000271342A (ja) * 1999-03-26 2000-10-03 Sony Corp 位置情報発信装置およびこれを使用した仮想空間映像表示装置
JP2018010657A (ja) * 2013-06-08 2018-01-18 株式会社ソニー・インタラクティブエンタテインメント ヘッドマウントディスプレイにおいて、透過モードと非透過モードとの間を移行するシステム及び方法
JP2016181267A (ja) * 2016-05-16 2016-10-13 株式会社コロプラ コンピュータ・プログラム

Similar Documents

Publication Publication Date Title
EP2826414B1 (en) Point-of-gaze detection device, point-of-gaze detection method, personal parameter calculating device, personal parameter calculating method, program, and computer-readable storage medium
KR101930657B1 (ko) 몰입식 및 대화식 멀티미디어 생성을 위한 시스템 및 방법
US20180046874A1 (en) System and method for marker based tracking
CN107430785B (zh) 用于显示三维对象的方法和系统
US10365711B2 (en) Methods, systems, and computer readable media for unified scene acquisition and pose tracking in a wearable display
JP7423683B2 (ja) 画像表示システム
JP5869712B1 (ja) 没入型仮想空間に実空間のユーザの周辺環境を提示するためのヘッドマウント・ディスプレイ・システムおよびコンピュータ・プログラム
US11567568B2 (en) Display apparatuses and methods incorporating foveated rendering
JP3372926B2 (ja) ヘッドマウントディスプレイ装置およびヘッドマウントディスプレイシステム
CN110031975B (zh) 在车辆中校准增强现实眼镜的方法和系统与增强现实眼镜
US10634918B2 (en) Internal edge verification
CN110895676B (zh) 动态对象跟踪
JP2023501079A (ja) 共有人工現実環境における同じ場所での姿勢推定
JP2018029764A (ja) 診断支援装置、診断支援方法、及びコンピュータプログラム
JP2019066618A (ja) 画像表示システム、画像表示方法及び画像表示プログラム
JP2012055418A (ja) 視線検出装置及び視線検出方法
WO2020049665A1 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
CN112819970B (zh) 一种控制方法、装置及电子设备
JP7367689B2 (ja) 情報処理装置、情報処理方法、及び記録媒体
CN114365077A (zh) 观看者同步的照明感测
Kim et al. AR timewarping: A temporal synchronization framework for real-Time sensor fusion in head-mounted displays
JP6929037B2 (ja) 情報処理装置、情報処理方法、プログラム
EP4322114A1 (en) Projective bisector mirror
WO2024047990A1 (ja) 情報処理装置
US20210134061A1 (en) Display system and method of using environment map to generate extended-reality images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18932536

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18932536

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP