WO2022029894A1 - 情報処理装置、情報処理システム、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2022029894A1
WO2022029894A1 PCT/JP2020/029856 JP2020029856W WO2022029894A1 WO 2022029894 A1 WO2022029894 A1 WO 2022029894A1 JP 2020029856 W JP2020029856 W JP 2020029856W WO 2022029894 A1 WO2022029894 A1 WO 2022029894A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
time
eye tracking
unit
Prior art date
Application number
PCT/JP2020/029856
Other languages
English (en)
French (fr)
Inventor
充 望月
真一郎 永徳
仁志 瀬下
治 松田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/029856 priority Critical patent/WO2022029894A1/ja
Publication of WO2022029894A1 publication Critical patent/WO2022029894A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Definitions

  • the present invention relates to information processing using eye tracking technology.
  • Eye tracking technology for measuring the human gaze point (where the human is looking) is being researched and developed (see, for example, Non-Patent Document 1).
  • eye tracking technology makes it possible to show the user's gaze point on an image that corresponds to the user's field of view, such as a gaze plot or heat map.
  • Non-Patent Document 2 uses an eye tracking technique to analyze which part of the content such as digital signage the user is paying attention to.
  • eye tracking technology is used to analyze where the user is paying attention in a specific area of space (eg digital signage).
  • a specific area of space eg digital signage
  • the object or the tendency thereof that the user pays attention to differs depending on the user It has not been analyzed what the user is paying attention to in such an unspecified area of space.
  • the present invention has been made by paying attention to the above circumstances, and an object of the present invention is to provide a technique capable of grasping an object or a tendency thereof that a user pays attention to in an unspecified area of space.
  • the information processing apparatus includes an image corresponding to the user's view during a period within a period in which the user is determined to be stationary, and the image corresponding to the user's gaze point at the time.
  • a generator that generates eye tracking information including gaze point information indicating a position inside, line-of-sight information indicating the direction of the user's line of sight at the time, and position information indicating the position of the user at the time.
  • a transmission unit for transmitting the eye tracking information to an external device is provided.
  • FIG. 1 is a diagram showing an information processing system 100 according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a functional configuration example of the user terminal device shown in FIG.
  • FIG. 3 is a diagram showing a configuration example of eye tracking information stored in the storage unit shown in FIG. 2.
  • FIG. 4 is a block diagram showing a hardware configuration example of the user terminal device shown in FIG.
  • FIG. 5 is a block diagram showing a functional configuration example of the server device shown in FIG.
  • FIG. 6 is a diagram illustrating an example of a method in which the second specific unit shown in FIG. 5 identifies an object in front of the user's line of sight.
  • FIG. 7 is a diagram showing a configuration example of spatial information stored in the second storage unit shown in FIG.
  • FIG. 8 is a block diagram showing a hardware configuration example of the server device shown in FIG.
  • FIG. 9 is a flowchart showing an operation example of the user terminal device shown in FIG.
  • FIG. 10 is a flowchart
  • FIG. 1 schematically shows an information processing system 100 according to an embodiment of the present invention.
  • the information processing system 100 includes a user device 110 and a server device 120, and the server device 120 communicates with the user device 110 via a communication network 130 such as the Internet.
  • the server device is simply referred to as a server.
  • the user device 110 includes at least one user terminal device carried or worn by the user.
  • the user device 110 includes user terminal devices 112 and 114.
  • the user terminal device 112 has a function of tracking the line of sight of the user, and is configured as a wearable device such as a glasses-type device, for example.
  • the user terminal device 112 may be a non-wearable device.
  • the user terminal device 114 is, for example, a mobile terminal such as a smartphone.
  • the user terminal device 114 wirelessly directly communicates with the user terminal device 112, and wirelessly communicates with the server 120 via the communication network 130.
  • the user terminal device is simply referred to as a user terminal.
  • the user terminal 112 detects the movement status of the user. Specifically, the user terminal 112 determines whether or not the user is stopped. The user terminal 112 generates eye tracking information at regular intervals during the period when the user determines that the user is stopped.
  • the eye tracking information includes an image corresponding to the user's field of view at a specific time, a gaze point information indicating a position in the image corresponding to the user's gaze point (point gaze by the user) at the time, and the time.
  • the line-of-sight information indicating the direction of the user's line of sight in the above time, the position information indicating the position of the user at the time, and the time information indicating the time may be included.
  • the image corresponding to the user's field of view may be referred to as a field of view image.
  • the position indicated by the position information corresponds to the position where the user has stopped.
  • the time information indicates the date and time when the field of view image was taken.
  • the user terminal 112 transmits eye tracking information to the server 120 via the user terminal 114 and the communication network 130.
  • the server 120 receives eye tracking information from the user device 110 via the communication network 130.
  • the server 120 generates spatial information based on the received eye tracking information, and registers the spatial information in the database.
  • the spatial information may include object information indicating an object that the user is gazing at, attribute information indicating the attributes of the object, and a distance between the user and the object.
  • FIG. 1 shows a single user device 110 for the sake of brevity.
  • the information processing system 100 may include a plurality of user devices associated with individual users.
  • the server 120 collects eye tracking information from a plurality of user devices, generates spatial information for each user, associates the spatial information with a user ID, and registers the information in a database.
  • the user ID corresponds to the identification information that identifies the user.
  • the user terminal 114 generates eye tracking information while the user is stopped, and the server 120 generates spatial information from the eye tracking information generated by the user terminal 114. ..
  • Spatial information includes information about an object that the user gazes at while standing still. In other words, the spatial information indicates an object or a tendency thereof that the user pays attention to. Since the spatial information is generated from the eye tracking information, the eye tracking information is information that enables the user to grasp the object of interest or its tendency.
  • the reason why the eye tracking information is generated only during the period when the user is stopped is that when the human pays attention to something, the human tends to stop and look at the object. For example, when a user gets lost, he / she may stop and search for a landmark object (for example, a building). Also, if the user becomes interested in any object while walking, he / she may stop and look at the object. In addition, the user may be forced to stop due to a red light or the like. Further, by generating the eye tracking information only during the period when the user is stopped, the amount of data and the power consumption can be suppressed.
  • a landmark object for example, a building
  • the user may stop and look at the object.
  • the user may be forced to stop due to a red light or the like.
  • the configuration of the user terminal 112 will be described with reference to FIGS. 2 to 4.
  • the user terminal 112 corresponds to the information processing apparatus of the present invention.
  • FIG. 2 schematically shows a functional configuration example of the user terminal 112.
  • the user terminal 112 includes a determination unit 202, a generation unit 204, a communication unit 206, a control unit 208, and a storage unit 220.
  • the control unit 208 controls the determination unit 202, the generation unit 204, the communication unit 206, and the storage unit 220.
  • the determination unit 202 determines whether or not the user is stopped. Specifically, the user terminal 112 determines whether or not the user is stopped based on the sensor data acquired from at least one sensor. In one example, the user terminal 112 includes an acceleration sensor, and the determination unit 202 makes a determination based on the output of the acceleration sensor. Positioning sensors may be used in place of or in addition to the accelerometers.
  • the determination unit 202 When the determination unit 202 detects that the user has stopped, it sends a first notification indicating that the user has stopped to the control unit 208. Further, when the determination unit 202 detects that the user has started walking, the determination unit 202 sends a second notification indicating that the user has started walking to the control unit 208.
  • the control unit 208 recognizes the period in which the user is stopped based on the first notification and the second notification from the determination unit 202. Specifically, the control unit 208 recognizes that the period from the time when the first notification is received to the time when the second notification is received is the period during which the user is stopped.
  • the generation unit 204 generates eye tracking information.
  • the control unit 208 controls the generation unit 204 to generate eye tracking information at regular intervals (for example, at 1-second intervals) while the user is stopped.
  • the generation unit 204 generates a field of view image, which is an image corresponding to the user's field of view.
  • the user terminal 112 includes an image pickup device, and the generation unit 204 drives the image pickup device to acquire a view image from the image pickup device.
  • the generation unit 204 generates gaze point information indicating a position in the image corresponding to the gaze point of the user.
  • the user terminal 112 includes an eye tracker that measures the movement of the user's line of sight, and the generation unit 204 generates gaze point information based on the output of the eye tracker.
  • the position in the image corresponding to the user's gaze point represents a point (position) in the visual field image in which the object the user is gazing at exists, that is, the user's viewpoint projected on the visual field image.
  • the gazing point information may include an X coordinate value and a Y coordinate value.
  • the generation unit 204 generates line-of-sight information indicating the direction of the user's line of sight.
  • the user terminal 112 includes an acceleration sensor and a geomagnetic sensor, and the generation unit 204 generates line-of-sight information based on the outputs of the acceleration sensor and the geomagnetic sensor.
  • the direction of the user's line of sight indicates the direction in which the user looks.
  • the line-of-sight information may include information indicating an azimuth angle and an elevation angle. The azimuth represents the horizontal component of the direction of the line of sight, and the elevation angle represents the vertical component of the direction of the line of sight.
  • the generation unit 204 generates position information indicating the user's three-dimensional position.
  • the user terminal 112 includes a positioning sensor and an altitude sensor, and the generation unit 204 generates position information based on the output of the positioning sensor and the altitude sensor.
  • location information may include information indicating longitude, latitude, and altitude.
  • the generation unit 204 sends out the eye tracking information including the view image, the gazing point information, the line-of-sight information, and the position information to the control unit 208 in association with the time information.
  • the time information indicates the date and time when the field of view image was generated.
  • the control unit 208 receives eye tracking information from the generation unit 204 and stores it in the storage unit 220.
  • Eye tracking information is generated at regular intervals during the period when the user is stopped. Therefore, a large amount of eye tracking information is stored in the storage unit 220.
  • the communication unit 206 communicates with an external device.
  • the communication unit 206 functions as a transmission unit that transmits eye tracking information to an external device.
  • the communication unit 206 transmits the eye tracking information to the user terminal 114 in order to provide the eye tracking information to the server 120.
  • the communication unit 206 transmits eye tracking information at a timing designated by the control unit 208.
  • the communication unit 206 may transmit eye tracking information in real time.
  • the communication unit 206 may collectively transmit the eye tracking information generated during the period when the user is stopped after the user starts walking.
  • the communication unit 206 may transmit eye tracking information on a daily basis.
  • FIG. 3 schematically shows a configuration example of eye tracking information stored in the storage unit 220.
  • the eye tracking information includes the user ID, the date and time, the stop sequence number, the latitude, the longitude, the altitude, the horizontal and vertical components of the line-of-sight direction, the view image, and the X and Y coordinates of the gazing point. including.
  • the user ID corresponds to the identification information that identifies the user.
  • the date and time correspond to the time information.
  • the stop sequence number corresponds to the identification information that identifies the period during which the user has stopped. Eye tracking information with the same stop sequence number was generated during the same period.
  • Longitude, latitude, and altitude correspond to location information.
  • the horizontal and vertical components of the gaze direction correspond to the gaze information.
  • the X and Y coordinates of the gazing point correspond to the gazing point information.
  • FIG. 4 schematically shows a hardware configuration example of the user terminal 112.
  • the user terminal 112 includes a processor 402, a RAM (RandomAccessMemory) 404, a program memory 406, a storage device 408, an input / output interface 410, a camera 412, an eye tracker 414, an acceleration sensor 416, and a geomagnetic sensor 418. It includes a positioning sensor 420, an altitude sensor 422, and a battery 424.
  • the processor 402 controls RAM 404, program memory 406, storage device 408, input / output interface 410, camera 412, eye tracker 414, acceleration sensor 416, geomagnetic sensor 418, positioning sensor 420, and altitude sensor 422, and exchanges signals with them. do.
  • the processor 402 includes a general-purpose circuit such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the RAM 404 is used by the processor 402 as a working memory.
  • RAM 404 includes volatile memory such as SDRAM (Synchronous Dynamic Random Access Memory).
  • the program memory 406 stores a program executed by the processor 402, including an information generation program.
  • the program contains computer executable instructions.
  • a ROM Read-Only Memory
  • the processor 402 expands the program stored in the program memory 406 to the RAM 404, interprets and executes the program.
  • the information generation program causes the processor 402 to perform the processing described with respect to the user terminal 112.
  • the storage device 408 stores data such as eye tracking information.
  • the storage device 408 includes a non-volatile memory such as a flash memory. A part of the storage device 408 may be used as the program memory 406.
  • the input / output interface 410 includes a communication module for communicating with an external device and an operation unit (for example, a button) that receives input from the user.
  • the external device is, for example, a user terminal 114.
  • the communication module may include, for example, a wireless module such as a Bluetooth® module or a Wi-Fi module.
  • the camera 412 is an example of an image pickup device that captures a field of view image.
  • the camera 412 is provided so that the shooting range of the camera 412 covers the user's field of view while the user is wearing the user terminal 112.
  • the camera 412 may be a monocular camera.
  • the eye tracker 414 tracks the user's line of sight.
  • eye tracking based on the corneal reflex method (PCCR; Pupil Center Corneal Reflection) can be used.
  • the eye tracker 414 processes an image obtained by a pair of light sources that irradiate weak near-infrared light to both eyes of the user, a pair of cameras that capture both eyes of the user, and a pair of cameras. It is equipped with a processing circuit.
  • the image processing circuit measures the user's line of sight based on the images obtained by the pair of cameras.
  • the eye tracker 414 outputs line-of-sight measurement data indicating the measurement result of the user's line-of-sight.
  • the processor 402 may measure the user's line of sight based on the images obtained by the pair of cameras.
  • the acceleration sensor 416 detects the acceleration acting on the user terminal 112.
  • the acceleration sensor 416 is, for example, a three-axis acceleration sensor, and outputs acceleration data indicating acceleration in three directions orthogonal to each other.
  • the geomagnetic sensor 418 detects the direction of the geomagnetism.
  • the geomagnetic sensor 418 outputs geomagnetic data indicating the direction of the geomagnetism.
  • the positioning sensor 420 detects the geographical position of the user terminal 112.
  • the geographical position of the user terminal 112 corresponds to the geographical position of the user who carries or wears the user terminal 112.
  • the positioning sensor 420 includes, for example, a GPS (Global Positioning System) receiver and a signal processing circuit that calculates the position of the user terminal 112 based on the GPS signal received by the GPS receiver.
  • the positioning sensor 420 outputs position data indicating the latitude and longitude of the user terminal 112.
  • the processor 402 may calculate the position of the user terminal 112 based on the GPS signal received by the GPS receiver.
  • the altitude sensor 422 detects the altitude of the user terminal 112.
  • the altitude of the user terminal 112 corresponds to the altitude of the user who carries or wears the user terminal 112.
  • Altitude represents the height from the reference plane (for example, the sea level).
  • the altitude sensor 422 outputs altitude data indicating the altitude of the user terminal 112.
  • the altitude detection may be performed by using the positioning sensor 420 in place of or in addition to the altitude sensor 422.
  • Battery 424 is a rechargeable battery such as a lithium ion battery.
  • the battery 424 powers the other components. Specifically, the battery 424 is used in the processor 402, RAM 404, program memory 406, storage device 408, input / output interface 410, camera 412, eye tracker 414, acceleration sensor 416, geomagnetic sensor 418, positioning sensor 420, and altitude sensor 422. Supply power.
  • the determination unit 202, the generation unit 204, and the control unit 208 shown in FIG. 2 are implemented by the processor 402.
  • the communication unit 206 shown in FIG. 2 is implemented by the processor 402 and the input / output interface 410.
  • the storage unit 220 shown in FIG. 2 is implemented by the storage device 408.
  • the acceleration data output from the acceleration sensor 416 and the position data output from the positioning sensor 420 are used by the determination unit 202 to detect the movement status of the user.
  • the field-of-view image obtained by the camera 412 and the line-of-sight measurement data output from the eye tracker 414 are used in the generation unit 204 to generate the gazing point information.
  • the acceleration data output from the acceleration sensor 416 and the geomagnetic data output from the geomagnetic sensor 418 are used in the generation unit 204 to generate line-of-sight information.
  • the position data output from the positioning sensor 420 and the altitude data output from the altitude sensor 422 are used in the generation unit 204 to generate position information.
  • At least a part of the processing described with respect to the user terminal 112 may be performed by a dedicated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the user terminal 114 is used to transfer eye tracking information from the user terminal 112 to the server 120.
  • the user terminal 114 includes a first communication unit that communicates with the user terminal 112, a second communication unit that communicates with the server 120 via the communication network 130, and a storage unit.
  • the first communication unit receives eye tracking information from the user terminal 112.
  • the storage unit stores the eye tracking information received by the first communication unit.
  • the second communication unit transmits the eye tracking information stored in the storage unit to the server 120.
  • the second communication unit may transmit eye tracking information in real time. Specifically, every time the first communication unit receives the eye tracking information, the second communication unit may transmit the eye tracking information received by the first communication unit. In another example, the second communication unit may transmit eye tracking information at regular intervals (for example, on a daily basis).
  • the user terminal 114 may include a processor, RAM, program memory, storage device, input / output interface, acceleration sensor, positioning sensor, altitude sensor, and battery as a hardware configuration.
  • the processor, RAM, program memory, storage device, acceleration sensor, positioning sensor, altitude sensor, and battery are the processor 402, RAM404, program memory 406, storage device 408, acceleration sensor 416, positioning sensor 420, and altitude shown in FIG. Since it is the same as the sensor 422 and the battery 424, the description thereof will be omitted.
  • the input / output interface includes a communication module for communicating with an external device and an operation unit that receives input from the user.
  • the external devices are, for example, a user terminal 112 and a server 120.
  • the communication module may include at least one wireless module.
  • the communication module includes a mobile communication module (eg, LTE® (LongTerm Evolution) module), a Bluetooth module, and a Wi-Fi module
  • the user terminal 114 includes a Bluetooth module or a Wi-Fi module. It is used to communicate with the user terminal 112, and a mobile communication module or Wi-Fi module is used to communicate with the server 120.
  • the operation unit includes a touch screen, buttons, a microphone, a speaker, and a camera.
  • the touch screen includes a display device and a touch panel.
  • the first communication unit and the second communication unit are implemented by a processor and an input / output interface.
  • the storage unit is implemented by the storage device.
  • the server 120 corresponds to the information processing apparatus of the present invention.
  • FIG. 5 schematically shows a functional configuration example of the server 120.
  • the server 120 includes a communication unit 502, a generation unit 504, a control unit 512, a first storage unit 520, and a second storage unit 522.
  • the control unit 512 controls the communication unit 502, the generation unit 504, the first storage unit 520, and the second storage unit 522.
  • the communication unit 502 communicates with the user device 110 (user terminal 114 in this embodiment). For example, the communication unit 502 receives eye tracking information from the user device 110 and sends the received eye tracking information to the control unit 512.
  • the control unit 512 receives eye tracking information from the communication unit 502 and stores it in the first storage unit 520.
  • the communication unit 502 functions as an acquisition unit that acquires eye tracking information from an external device.
  • the communication unit 502 receives eye tracking information from a plurality of user devices including the user device 110. Therefore, the first storage unit 520 stores eye tracking information related to each user. The first storage unit 520 manages eye tracking information for each user.
  • the generation unit 504 generates spatial information based on the eye tracking information stored in the first storage unit 520.
  • the generation unit 504 acquires an eye tracking information set, which is a set of eye tracking information having the same user ID and the same stop sequence number, from the first storage unit 520, and generates spatial information based on the acquired eye tracking information set. ..
  • the eye tracking information set may be referred to as movement history, and spatial information may be referred to as gaze point history.
  • the generation unit 504 generates spatial information at predetermined intervals (for example, on a daily basis).
  • the generation unit 504 generates spatial information based on an instruction from the user.
  • the user inputs a spatial information generation instruction to the user terminal 114
  • the user terminal 114 transmits the spatial information generation instruction to the server 120
  • the control unit 512 of the server 120 generates spatial information from the user terminal 114.
  • the generation unit 504 is made to generate spatial information.
  • the generation unit 504 includes a specific unit 506, a calculation unit 508, and an acquisition unit 510.
  • the identification unit 506 identifies an object to be gazed by the user based on at least the gaze point information and the field of view image.
  • the object that the user gazes at may be referred to as a gaze object or an object.
  • the specific unit 506 identifies the type and color of the gaze object. Examples of types include signs, signs, traffic lights, and buildings.
  • the identification unit 506 recognizes an object for the visual field image, and identifies an object located at a point in the visual field image indicated by the gaze point information as a detection object.
  • object recognition a machine-learned model prepared in advance may be used.
  • the eye-tracking information set typically contains a plurality of eye-tracking information, and thus object recognition may extract a plurality of objects. Of the extracted objects, the most extracted object is determined to be the detected object. For example, suppose the eye tracking information set contains 5 eye tracking information, the indicator is extracted once, and the signal is extracted 4 times. In this case, the signal is determined to be the detection object.
  • the specific unit 506 determines whether or not the detected object is of a predetermined type. Predetermined types include, for example, buildings and signals. Specifically, the specific unit 506 determines whether or not the detected object is a signal, and determines whether or not the detected object is a building.
  • the specific unit 506 determines the detected object as a gaze object.
  • the identification unit 506 is a predetermined type of object (land) existing beyond the user's viewpoint based on the position information, the line-of-sight information, and the three-dimensional (3D) map. (Also called a mark) is determined as a gaze object.
  • the predetermined type can be, for example, a building.
  • the specifying unit 506 identifies a predetermined type of object whose starting point is a three-dimensional position indicated by position information, and a line segment extending from the starting point in the direction of the line of sight indicated by the line-of-sight information first intersects.
  • the 3D map corresponds to map information and includes attribute information of an object such as a building.
  • the 3D map may reside in the server 120 or in another device accessible to the server 120.
  • the calculation unit 508 calculates the distance from the user to the gaze object.
  • the calculation unit 508 may calculate the distance from the user to the gaze object from the image.
  • a technique for estimating the distance to an object in an image obtained by a monocular camera is well known, and the calculation unit 508 may use such a technique.
  • the calculation unit 508 may calculate the position of the gaze object with reference to the 3D map, and calculate the distance from the user to the gaze object based on the position indicated by the position information and the calculated position of the gaze object. ..
  • the acquisition unit 510 acquires attribute information indicating the attributes of the gaze object specified by the specific unit 506 from the 3D map.
  • the attribute information may include information indicating the type, height, area, and name of the object.
  • the generation unit 504 generates one spatial information from one eye tracking information set.
  • the control unit 512 registers the spatial information generated by the generation unit 504 in the database of the second storage unit 522.
  • the control unit 512 functions as a registration unit for registering spatial information in the database.
  • FIG. 6 schematically shows an example of a method in which the specific unit 506 identifies the gaze object.
  • four buildings 602, 604, 606, and 608 are shown, and a line segment extending the direction of the line of sight indicated by the line-of-sight information from the position indicated by the position information is indicated by an arrow.
  • the line segment intersects the two buildings 606, 608, and the building 606 is closer to the position indicated by the location information. Therefore, the building 606 is specified as a gaze object. Further, the distance between the position indicated by the position information and the building 606 is calculated.
  • FIG. 7 schematically shows a configuration example of spatial information stored in the second storage unit 522.
  • the spatial information includes the user ID, the date and time, the stop sequence number, the type and color of the object, the distance to the object, the horizontal and vertical components of the direction of the line of sight, and the area and height of the object. And name included.
  • the type and color of the object correspond to the object information.
  • the area, height, and name of the object correspond to the attribute information.
  • FIG. 8 schematically shows a hardware configuration example of the server 120.
  • the server 120 includes a processor 802, a RAM 804, a program memory 806, a storage device 808, and an input / output interface 810.
  • the processor 802 controls the RAM 804, the program memory 806, the storage device 808, and the input / output interface 810, and exchanges signals with these.
  • the processor 802 includes a general-purpose circuit such as a CPU or GPU.
  • the RAM 804 is used by the processor 802 as a working memory.
  • RAM 804 includes volatile memory such as SDRAM.
  • the program memory 806 stores a program executed by the processor 802, including an information generation program.
  • the program contains computer executable instructions.
  • the processor 802 expands the program stored in the program memory 806 to the RAM 804, interprets and executes the program.
  • the information generation program causes the processor 802 to perform the processing described with respect to the server 120.
  • the storage device 808 stores data such as eye tracking information and spatial information.
  • the storage device 808 includes a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive). A part of the storage device 808 may be used as the program memory 806.
  • the input / output interface 810 includes a communication module for communicating with an external device and a plurality of terminals for connecting peripheral devices.
  • the external device is, for example, a user terminal 114.
  • the communication module may include, for example, a wired module and / or a wireless module. Examples of peripherals include display devices, keyboards, and mice.
  • the generation unit 504 and the control unit 512 shown in FIG. 5 are implemented by the processor 802.
  • the communication unit 502 shown in FIG. 5 is implemented by the processor 802 and the input / output interface 810.
  • the first storage unit 520 and the second storage unit 522 shown in FIG. 5 are implemented by the storage device 808.
  • At least a part of the processing described with respect to the server 120 may be carried out by a dedicated circuit such as an ASIC or FPGA.
  • FIG. 9 schematically shows an example of a procedure of processing executed by the user terminal 112.
  • the process shown in FIG. 9 is started when the user starts the application on the user terminal 112, is continuously executed during the startup of the application, and ends when the user terminates the application on the user terminal 112. ..
  • step S901 of FIG. 9 the determination unit 202 determines whether or not the user is stopped based on the acceleration data output from the acceleration sensor 416 and the position data output from the positioning sensor 420.
  • the determination unit 202 determines that the user is walking (step S901; No)
  • the process of step S901 is repeated.
  • the generation unit 204 When the determination unit 202 detects that the user has stopped (step S901; Yes), the generation unit 204 generates eye tracking information in step S902.
  • the eye tracking information includes a field of view image, a gazing point information, a line of sight information, a position information, and a time information.
  • the generation unit 204 acquires a view image from the camera 412.
  • the generation unit 204 acquires gaze measurement data from the eye tracker 414, calculates the gaze point of the user in the view image based on the acquired gaze measurement data, and generates gaze point information.
  • the generation unit 204 generates line-of-sight information based on the acceleration data output from the acceleration sensor 416 and the geomagnetic data output from the geomagnetic sensor 418.
  • the generation unit 204 generates position information based on the position data output from the positioning sensor 420 and the altitude data output from the altitude sensor 422.
  • step S903 the determination unit 202 determines whether or not the user is stopped based on the acceleration data output from the acceleration sensor 416 and the position data output from the positioning sensor 420.
  • the determination unit 202 determines that the user is stopped (step S903; Yes)
  • the process returns to step S902.
  • the generation unit 204 ends the generation of the eye tracking information. In this way, the generation unit 204 repeats the process of generating the eye tracking information while the user is stopped.
  • the storage unit 220 stores a plurality of eye tracking information generated while the user is stopped.
  • step S904 the communication unit 206 takes out the eye tracking information from the storage unit 220 and transmits the eye tracking information to the user terminal 114.
  • the communication unit 206 takes out the eye tracking information generated in the above period (that is, has the same stop sequence number) from the storage unit 220 and transmits it to the user terminal 114.
  • FIG. 10 schematically shows an example of a procedure of processing executed by the server 120.
  • the communication unit 502 acquires the eye tracking information set.
  • the eye tracking information set is a set of eye tracking information having the same user ID and the same stop sequence number.
  • the communication unit 502 receives the eye tracking information set from the user terminal 112 via the communication network 130 and the user terminal 114.
  • the eye tracking information set contains at least one eye tracking information.
  • the eye tracking information set includes one eye tracking information.
  • step S1002 the specific unit 506 detects an object that the user is gazing at from the visual field image included in the eye tracking information based on the gazing point information included in the eye tracking information.
  • the generation unit 504 recognizes an object on the visual field image and detects an object located at a point in the visual field image indicated by the gazing point information.
  • step S1003 the specific unit 506 determines whether or not the detected object is a signal.
  • the process ends. In this case, the spatial information is not generated and is not registered in the database.
  • step S1004 the specific unit 506 determines whether or not the detected object is a building. When the detected object is a building (step S1004; Yes), the specific unit 506 determines the detected object as a gaze object, and the process proceeds to step S1006.
  • step S1004 the process proceeds to step S1005.
  • the specific unit 506 extracts a predetermined type of object (landmark) existing in front of the user's viewpoint from the 3D map based on the position information and the line-of-sight information included in the eye tracking information, and the extracted object. Is determined as a gaze object.
  • the object of a predetermined type can be, for example, a building such as a store.
  • step S1006 the calculation unit 508 calculates the distance from the position indicated in the position information to the gaze object.
  • the acquisition unit 510 acquires the attribute information of the gaze object from the 3D map.
  • the control unit 512 registers the spatial information generated by the generation unit 504 in the database of the second storage unit 522.
  • the spatial information includes the distance to the gaze object calculated by the calculation unit 508 and the attribute information of the gaze object acquired by the acquisition unit 510.
  • the gaze object is a building.
  • Other objects such as advertising signs, may be identified as gaze objects.
  • the spatial information does not have to include attribute information such as height and area.
  • the user terminal 114 generates eye tracking information while the user is stopped, and the server 120 generates spatial information from the eye tracking information generated by the user terminal 114. ..
  • the eye tracking information includes a visual field image and time-series data of the user's gaze point.
  • Spatial information includes information about an object that the user gazes at while standing still. In other words, the spatial information indicates an object or a tendency thereof that the user pays attention to. Since the spatial information is generated from the eye tracking information, the eye tracking information is information that enables the user to grasp the object of interest or its tendency.
  • the server 120 does not generate spatial information and does not register it in the database. This is because when the detected object is a signal, it is considered that the cause of the user's stop is the signal. As a result, it is possible to exclude information that is not useful for grasping the object or the tendency thereof that the user pays attention to.
  • the object detected based on the field of view image and the gaze point information may not be a signal or a building.
  • the detected object may be a sign.
  • the user may actually be looking at the building beyond.
  • Spatial information can be used, for example, in services such as a route guidance service that guides a route for moving from a departure point to a destination on foot.
  • the route guidance service provides effective services by using information on buildings that match the spatial information and buildings that are similar to the spatial information (the type, color, area, height, etc. of the object are similar). be able to.
  • the route guidance service provides route guidance using a building that is easy for the user to pay attention to as a landmark, so that even an unknown route can be reached to the destination without hesitation. Become.
  • the route guidance service using spatial information can provide guidance information suitable for the user.
  • the signage advertisement from the viewpoint of the service provider, by arranging the signage advertisement in a building that matches the spatial information or a building similar thereto, it is possible to realize a signage advertisement that is easily noticed by more people.
  • the present invention is not limited to the above embodiment.
  • a part of the above-mentioned processing of the user terminal 112 may be performed by the user terminal 114.
  • the user terminal 114 may determine whether or not the user has stopped based on the sensor data acquired from the sensor (for example, an acceleration sensor). When the user terminal 114 detects that the user has stopped, the user terminal 114 transmits a first notification indicating that the user has stopped to the user terminal 112. Upon receiving the first notification from the user terminal 114, the user terminal 112 starts generating eye tracking information. Further, when the user terminal 114 detects that the user has started walking, the user terminal 114 transmits a second notification indicating that the user has started walking to the user terminal 112. When the user terminal 112 receives the second notification from the user terminal 114, the user terminal 112 ends the generation of the eye tracking information. In this example, the user terminal 112 determines whether or not the user is stopped based on the first notification and the second notification from the user terminal 114.
  • the sensor for example, an acceleration sensor
  • the user terminal 114 generates a part of the eye tracking information. For example, the user terminal 114 generates location information, associates the location information with the time information, and stores the location information in the memory. When the user terminal 114 receives the eye tracking information from the user terminal 112, the user terminal 114 identifies the position information associated with the time information closest to the time information included in the eye tracking information, and uses the specified position information as the eye tracking information. to add.
  • the user terminal 112 may communicate with the server 120 without going through the user terminal 114.
  • the database of the second storage unit 522 may be provided in a device different from the server 120.
  • the program may be provided to a computer device (for example, user terminal 112 or server 120) in a state of being stored in a computer-readable recording medium.
  • the computer device includes a drive for reading data from the recording medium and acquires a program from the recording medium.
  • Examples of recording media include magnetic disks, optical disks (CD-ROM, CD-R, DVD-ROM, DVD-R, etc.), magneto-optical disks (MO, etc.), and semiconductor memories.
  • the program may also be distributed through a communication network. Specifically, the program may be stored in a server on the network, and the computer device may download the program from the server.
  • the present invention is not limited to the above embodiment, and can be variously modified at the implementation stage without departing from the gist thereof.
  • each embodiment may be carried out in combination as appropriate, in which case the combined effect can be obtained.
  • the above-described embodiment includes various inventions, and various inventions can be extracted by a combination selected from a plurality of disclosed components. For example, if the problem can be solved and the effect can be obtained even if some components are deleted from all the components shown in the embodiment, the configuration in which these components are deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明の一態様に係る情報処理装置は、ユーザが立ち止まっているかどうかを判定する判定部と、前記ユーザが立ち止まっていると判定された期間内の時間における前記ユーザの視界に対応する画像と、前記時間における前記ユーザの注視点に対応する前記画像中の位置を示す注視点情報と、前記時間における前記ユーザの視線の向きを示す視線情報と、前記時間における前記ユーザの位置を示す位置情報と、を含むアイトラッキング情報を生成する生成部と、前記アイトラッキング情報を外部装置に送信する送信部と、を備える。

Description

情報処理装置、情報処理システム、情報処理方法、及びプログラム
 本発明は、アイトラッキング技術を利用した情報処理に関する。
 人間の注視点(人間がどこを見ているか)を測定するアイトラッキング技術が研究開発されている(例えば非特許文献1を参照)。例えば、アイトラッキング技術は、ゲイズプロット又はヒートマップのように、ユーザの視界に対応する画像上にユーザの注視点を示すことを可能にする。
 アイトラッキング技術は様々な用途に利用されている。例えば、非特許文献2に開示される技術は、アイトラッキング技術を用いてユーザがデジタルサイネージなどのコンテンツ中のどの部分を注目しているかを解析している。
小杉 大輔、「アイトラッキング技術を用いた地域実践的研究の報告」、静岡文化芸術大学研究紀要 VOL.17、2016、p.177-181. 澤木 みゆ、外1名、「デジタルサイネージコンテンツにおけるアイトラッキングの利用と効果」、第78回情報処理学会全国大会論文集、2016(1)、p.69-70.
 上述したように、空間の特定領域(例えばデジタルサイネージ)においてユーザがどこに注目しているかを解析するためにアイトラッキング技術が使用されている。一方、対象物が限定されない不特定な領域では、ユーザが注目する対象又はその傾向はユーザによって異なる。このような空間の不特定領域においてユーザが何に注目しているかを解析することはなされていない。
 本発明は、上記事情に着目してなされたものであり、その目的は、空間の不特定領域においてユーザが注目する物体又はその傾向を把握することを可能にする技術を提供することにある。
 本発明の一態様に係る情報処理装置は、前記ユーザが立ち止まっていると判定された期間内の時間における前記ユーザの視界に対応する画像と、前記時間における前記ユーザの注視点に対応する前記画像中の位置を示す注視点情報と、前記時間における前記ユーザの視線の向きを示す視線情報と、前記時間における前記ユーザの位置を示す位置情報と、を含むアイトラッキング情報を生成する生成部と、前記アイトラッキング情報を外部装置に送信する送信部と、を備える。
 本発明によれば、空間の不特定領域においてユーザが注目する物体又はその傾向を把握することを可能にする技術が提供される。
図1は、本発明の一実施形態に係る情報処理システム100を示す図である。 図2は、図1に示したユーザ端末装置の機能構成例を示すブロック図である。 図3は、図2に示した記憶部に記憶されるアイトラッキング情報の構成例を示す図である。 図4は、図1に示したユーザ端末装置のハードウェア構成例を示すブロック図である。 図5は、図1に示したサーバ装置の機能構成例を示すブロック図である。 図6は、図5に示した第2特定部がユーザの視線の先にある物体を特定する方法例を説明する図である。 図7は、図5に示した第2記憶部に記憶される空間情報の構成例を示す図である。 図8は、図1に示したサーバ装置のハードウェア構成例を示すブロック図である。 図9は、図2に示したユーザ端末装置の動作例を示すフローチャートである。 図10は、図5に示したサーバ装置の動作例を示すフローチャートである。
 以下、図面を参照しながら本発明の実施形態を説明する。
 [構成]
 図1は、本発明の一実施形態に係る情報処理システム100を概略的に示している。図1に示すように、情報処理システム100は、ユーザ装置110及びサーバ装置120を備え、サーバ装置120は、インターネットなどの通信ネットワーク130を介してユーザ装置110と通信する。以降では、サーバ装置を単にサーバと称する。
 ユーザ装置110は、ユーザに携帯又は装着される少なくとも1つのユーザ端末装置を含む。図1に示す例では、ユーザ装置110は、ユーザ端末装置112、114を含む。ユーザ端末装置112は、ユーザの視線を追跡する機能を備えるものであり、例えば、メガネ型デバイスなどのウェアラブルデバイスとして構成される。なお、ユーザ端末装置112は非装着型のデバイスであってもよい。ユーザ端末装置114は、例えば、スマートフォンなどの携帯端末である。ユーザ端末装置114は、ユーザ端末装置112と無線で直接に通信し、通信ネットワーク130を介してサーバ120と無線で通信する。以降では、ユーザ端末装置を単にユーザ端末と称する。
 ユーザ端末112はユーザの移動状況を検出する。具体的には、ユーザ端末112は、ユーザが立ち止まっているか否かを判定する。ユーザ端末112は、ユーザが立ち止まっていると判定した期間の間において一定間隔でアイトラッキング情報を生成する。アイトラッキング情報は、特定の時間におけるユーザの視界に対応する画像と、前記時間におけるユーザの注視点(ユーザが注視しているポイント)に対応する画像中の位置を示す注視点情報と、前記時間におけるユーザの視線の向きを示す視線情報と、前記時間におけるユーザの位置を示す位置情報と、前記時間を示す時間情報と、を含んでよい。以降では、ユーザの視界に対応する画像を視界画像と称することもある。位置情報により示される位置は、ユーザが立ち止まった位置に対応する。例えば、時間情報は視界画像が撮影された日時を示す。ユーザ端末112は、ユーザ端末114と通信ネットワーク130とを介してサーバ120にアイトラッキング情報を送信する。
 サーバ120は、通信ネットワーク130を介してユーザ装置110からアイトラッキング情報を受信する。サーバ120は、受信したアイトラッキング情報に基づいて空間情報を生成し、空間情報をデータベースに登録する。空間情報は、ユーザが注視している物体を示す物体情報と、当該物体の属性を示す属性情報と、ユーザと当該物体との距離と、を含んでよい。
 図1では、説明を簡単にするために、単一のユーザ装置110が示されている。典型的には、情報処理システム100は、個々のユーザに関連付けられる複数のユーザ装置を備えてよい。サーバ120は、複数のユーザ装置からアイトラッキング情報を収集し、ユーザごとに空間情報を生成し、空間情報をユーザIDに関連付けてデータベースに登録する。ユーザIDは、ユーザを識別する識別情報に対応する。
 上述した構成を有する情報処理システム100では、ユーザ端末114は、ユーザが立ち止まっている期間においてアイトラッキング情報を生成し、サーバ120は、ユーザ端末114により生成されたアイトラッキング情報から空間情報を生成する。空間情報は、ユーザが立ち止まっている期間に注視した物体に関する情報を含む。言い換えると、空間情報は、ユーザが注目する物体又はその傾向を示す。空間情報はアイトラッキング情報から生成されるので、アイトラッキング情報は、ユーザが注目する物体又はその傾向を把握することを可能にする情報である。
 ユーザが立ち止まっている期間に限ってアイトラッキング情報を生成する理由は、人間が何かに注目する場合には人間は立ち止まって対象物を見る傾向があるためである。例えば、ユーザは、道に迷ったときに、立ち止まって目印となる物体(例えば建物)を探索することがある。また、ユーザは、歩行中に何らかの物体に興味を持った場合、立ち止まってその物体を見ることがある。また、ユーザは、赤信号などにより強制的に立ち止まることもある。さらに、ユーザが立ち止まっている期間に限ってアイトラッキング情報を生成することにより、データ量及び電力消費を抑制することができる。
 図2から図4を参照してユーザ端末112の構成について説明する。ユーザ端末112は、本発明の情報処理装置に対応する。
 図2は、ユーザ端末112の機能構成例を概略的に示している。図2に示すように、ユーザ端末112は、判定部202、生成部204、通信部206、制御部208、及び記憶部220を備える。制御部208は、判定部202、生成部204、及び通信部206、及び記憶部220を制御する。
 判定部202は、ユーザが立ち止まっているか否かを判定する。具体的には、ユーザ端末112は、少なくとも1つのセンサから取得されるセンサデータに基づいて、ユーザが立ち止まっているか否かを判定する。一例では、ユーザ端末112が加速度センサを備え、判定部202は加速度センサの出力に基づいて判定を行う。加速度センサに代えて又は追加して、測位センサが使用されてもよい。
 判定部202は、ユーザが立ち止まったことを検出すると、ユーザが立ち止まったことを示す第1通知を制御部208に送出する。さらに、判定部202は、ユーザが歩き出したことを検出すると、ユーザが歩き出したことを示す第2通知を制御部208に送出する。制御部208は、判定部202からの第1通知及び第2通知に基づいて、ユーザが立ち止まっている期間を認識する。具体的には、制御部208は、第1通知を受け取った時刻から第2通知を受け取った時刻までの期間をユーザが立ち止まっている期間と認識する。
 生成部204は、アイトラッキング情報を生成する。制御部208は、ユーザが立ち止まっている期間において一定間隔で(例えば1秒間隔で)アイトラッキング情報の生成を行うように、生成部204を制御する。
 生成部204は、ユーザの視界に対応する画像である視界画像を生成する。例えば、ユーザ端末112が撮像装置を備え、生成部204は、撮像装置を駆動して撮像装置から視界画像を取得する。さらに、生成部204は、ユーザの注視点に対応する画像中の位置を示す注視点情報を生成する。例えば、ユーザ端末112は、ユーザの視線の動きを測定するアイトラッカを備え、生成部204は、アイトラッカの出力に基づいて注視点情報を生成する。ユーザの注視点に対応する画像中の位置は、ユーザが注視している物体が存在する視界画像中のポイント(位置)、すなわち、視界画像上に投影したユーザの視点を表す。例えば、注視点情報はX座標値及びY座標値を含んでよい。
 さらに、生成部204は、ユーザの視線の向きを示す視線情報を生成する。例えば、ユーザ端末112が加速度センサ及び地磁気センサを備え、生成部204は、加速度センサ及び地磁気センサの出力に基づいて視線情報を生成する。ユーザの視線の向きはユーザが目を向けた方向を表す。例えば、視線情報は方位角及び仰角を示す情報を含んでよい。方位角は視線の向きの水平成分を表し、仰角は視線の向きの垂直成分を表す。
 さらに、生成部204は、ユーザの3次元位置を示す位置情報を生成する。例えば、ユーザ端末112が測位センサ及び高度センサを備え、生成部204は、測位センサ及び高度センサの出力に基づいて位置情報を生成する。例えば、位置情報は、経度、緯度、及び高度を示す情報を含んでよい。
 生成部204は、視界画像と注視点情報と視線情報と位置情報とを含むアイトラッキング情報を時間情報に関連付けて制御部208に送出する。例えば、時間情報は視界画像が生成された日時を示す。制御部208は、生成部204からアイトラッキング情報を受け取り、それを記憶部220に記憶させる。
 アイトラッキング情報はユーザが立ち止まっている期間において一定間隔で生成される。よって、多数のアイトラッキング情報が記憶部220に蓄積される。
 通信部206は、外部装置と通信する。通信部206は、外部装置にアイトラッキング情報を送信する送信部として機能する。本実施形態では、通信部206は、サーバ120にアイトラッキング情報を提供するために、ユーザ端末114にアイトラッキング情報を送信する。通信部206は、制御部208により指定されるタイミングでアイトラッキング情報の送信を行う。一例では、通信部206は、リアルタイムでアイトラッキング情報を送信してよい。他の例では、通信部206は、ユーザが歩き出した後に、ユーザが立ち止まっていた期間に生成されたアイトラッキング情報をまとめて送信してよい。さらに他の例では、通信部206は、日次単位でアイトラッキング情報を送信してよい。
 図3は、記憶部220に記憶されているアイトラッキング情報の構成例を概略的に示している。図3に示す例では、アイトラッキング情報は、ユーザID、日時、立ち止まりシーケンス番号、緯度、経度、高度、視線の向きの水平成分及び垂直成分、視界画像、並びに、注視点のX座標及びY座標を含む。
 ユーザIDは、ユーザを識別する識別情報に対応する。日時は時間情報に対応する。立ち止まりシーケンス番号は、ユーザが立ち止まった期間を識別する識別情報に対応する。同じ立ち止まりシーケンス番号を有するアイトラッキング情報は同じ期間に生成されたものである。経度、緯度、及び高度は、位置情報に対応する。視線の向きの水平成分及び垂直成分は、視線情報に対応する。注視点のX座標及びY座標は、注視点情報に対応する。
 図4は、ユーザ端末112のハードウェア構成例を概略的に示している。図4に示すように、ユーザ端末112は、プロセッサ402、RAM(Random Access Memory)404、プログラムメモリ406、ストレージデバイス408、入出力インタフェース410、カメラ412、アイトラッカ414、加速度センサ416、地磁気センサ418、測位センサ420、高度センサ422、及びバッテリ424を備える。プロセッサ402は、RAM404、プログラムメモリ406、ストレージデバイス408、入出力インタフェース410、カメラ412、アイトラッカ414、加速度センサ416、地磁気センサ418、測位センサ420、及び高度センサ422を制御し、これらと信号をやり取りする。
 プロセッサ402は、CPU(Central Processing Unit)又はGPU(Graphics Processing Unit)などの汎用回路を含む。RAM404はワーキングメモリとしてプロセッサ402により使用される。RAM404はSDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。プログラムメモリ406は、情報生成プログラムを含む、プロセッサ402により実行されるプログラムを記憶する。プログラムはコンピュータ実行可能命令を含む。プログラムメモリ406として、例えば、ROM(Read-Only Memory)が使用される。
 プロセッサ402は、プログラムメモリ406に記憶されたプログラムをRAM404に展開し、プログラムを解釈及び実行する。情報生成プログラムは、プロセッサ402により実行されると、ユーザ端末112に関して説明される処理をプロセッサ402に行わせる。
 ストレージデバイス408はアイトラッキング情報などのデータを記憶する。ストレージデバイス408は、フラッシュメモリなどの不揮発性メモリを含む。ストレージデバイス408の一部領域がプログラムメモリ406として使用されてもよい。
 入出力インタフェース410は、外部機器と通信するための通信モジュール及びユーザからの入力を受け付ける操作部(例えばボタンなど)を備える。外部機器は例えばユーザ端末114である。通信モジュールは、例えば、Bluetooth(登録商標)モジュール又はWi-Fiモジュールなどの無線モジュールを含んでよい。
 カメラ412は、視界画像を撮影する撮像装置の一例である。カメラ412は、ユーザがユーザ端末112を装着した状態でカメラ412の撮影範囲がユーザの視界をカバーするように、設けられる。カメラ412は単眼カメラであってよい。
 アイトラッカ414は、ユーザの視線を追跡する。例えば、角膜反射法(PCCR;Pupil Centre Corneal Reflection)に基づくアイトラッキングを使用することができる。この場合、アイトラッカ414は、ユーザの両目に弱い近赤外光を照射する1対の光源と、ユーザの両目を撮像する1対のカメラと、1対のカメラにより得られた画像を処理する画像処理回路と、を備える。画像処理回路は、1対のカメラにより得られた画像に基づいてユーザの視線を測定する。アイトラッカ414は、ユーザの視線の測定結果を示す視線測定データを出力する。
 なお、眼電図法(Electrooculography)などの他のアイトラッキングアルゴリズムを使用してもよい。また、画像処理回路に代えて、プロセッサ402が1対のカメラにより得られた画像に基づいてユーザの視線を測定してもよい。
 加速度センサ416は、ユーザ端末112に作用する加速度を検出する。加速度センサ416は、例えば、3軸加速度センサであり、互いに直交する3つの方向における加速度を示す加速度データを出力する。地磁気センサ418は、地磁気の向きを検出する。地磁気センサ418は、地磁気の向き示す地磁気データを出力する。
 測位センサ420は、ユーザ端末112の地理的位置を検出する。ユーザ端末112の地理的位置は、ユーザ端末112を携帯又は装着するユーザの地理的位置に対応する。測位センサ420は、例えば、GPS(Global Positioning System)受信機と、GPS受信機により受信されたGPS信号に基づいてユーザ端末112の位置を算出する信号処理回路と、を備える。測位センサ420は、ユーザ端末112の緯度及び経度を示す位置データを出力する。
 なお、ユーザが屋内にいる場合のようにGPSの精度が低い状況では、GPS測位に代えて又は追加して、BLE(Bluetooth Low Energy)又はWi-Fiなどに基づく他の測位技術を使用してもよい。また、信号処理回路に代えて、プロセッサ402がGPS受信機により受信されたGPS信号に基づいてユーザ端末112の位置を算出してもよい。
 高度センサ422は、ユーザ端末112の高度を検出する。ユーザ端末112の高度は、ユーザ端末112を携帯又は装着するユーザの高度に対応する。高度は基準面(例えば海面)からの高さを表す。高度センサ422は、ユーザ端末112の高度を示す高度データを出力する。なお、高度の検出は、高度センサ422に代えて又は追加して測位センサ420を使用することにより行われてもよい。
 バッテリ424は、リチウムイオン電池などの充電可能なバッテリである。バッテリ424は、他の構成要素に電力を供給する。具体的には、バッテリ424は、プロセッサ402、RAM404、プログラムメモリ406、ストレージデバイス408、入出力インタフェース410、カメラ412、アイトラッカ414、加速度センサ416、地磁気センサ418、測位センサ420、及び高度センサ422に電力を供給する。
 ユーザ端末112が図4に示すハードウェア構成を有する例では、図2に示した判定部202、生成部204、及び制御部208は、プロセッサ402により実施される。図2に示した通信部206は、プロセッサ402及び入出力インタフェース410により実施される。図2に示した記憶部220は、ストレージデバイス408により実施される。
 加速度センサ416から出力される加速度データ及び測位センサ420から出力される位置データは、判定部202においてユーザの移動状況を検出するために使用される。カメラ412により得られる視界画像及びアイトラッカ414から出力される視線測定データは、生成部204において注視点情報を生成するために使用される。加速度センサ416から出力される加速度データ及び地磁気センサ418から出力される地磁気データは、生成部204において視線情報を生成するために使用される。測位センサ420から出力される位置データ及び高度センサ422から出力される高度データは、生成部204において位置情報を生成するために使用される。
 ユーザ端末112に関して説明した処理の少なくとも一部は、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)などの専用回路で実施されてもよい。
 次に、ユーザ端末114の構成について簡単に説明する。
 本実施形態では、ユーザ端末114は、ユーザ端末112からサーバ120にアイトラッキング情報を転送するために使用される。ユーザ端末114は、ユーザ端末112と通信する第1通信部と、通信ネットワーク130を介してサーバ120と通信する第2通信部と、記憶部と、を備える。第1通信部は、ユーザ端末112からアイトラッキング情報を受信する。記憶部は、第1通信部により受信されたアイトラッキング情報を記憶する。第2通信部は、記憶部に記憶されているアイトラッキング情報をサーバ120に送信する。一例では、第2通信部はリアルタイムでアイトラッキング情報を送信してよい。具体的には、第1通信部がアイトラッキング情報を受信するたびに、第2通信部は第1通信部が受信したアイトラッキング情報を送信してよい。他の例では、第2通信部は、一定間隔で(例えば日次単位で)アイトラッキング情報を送信してよい。
 ユーザ端末114は、ハードウェア構成として、プロセッサ、RAM、プログラムメモリ、ストレージデバイス、入出力インタフェース、加速度センサ、測位センサ、高度センサ、及びバッテリを備えてよい。プロセッサ、RAM、プログラムメモリ、ストレージデバイス、加速度センサ、測位センサ、高度センサ、及びバッテリは、図4に示したプロセッサ402、RAM404、プログラムメモリ406、ストレージデバイス408、加速度センサ416、測位センサ420、高度センサ422、及びバッテリ424と同様であるので、これらについての説明は省略する。
 入出力インタフェースは、外部機器と通信するための通信モジュール及びユーザからの入力を受け付ける操作部を備える。外部機器は例えばユーザ端末112及びサーバ120である。通信モジュールは、少なくとも1つの無線モジュールを含んでよい。一例として、通信モジュールは、移動体通信モジュール(例えばLTE(登録商標)(Long Term Evolution)モジュール)、Bluetoothモジュール、及びWi-Fiモジュールを含み、ユーザ端末114は、Bluetoothモジュール又はWi-Fiモジュールを使用してユーザ端末112と通信し、移動体通信モジュール又はWi-Fiモジュールを使用してサーバ120と通信する。操作部は、タッチスクリーン、ボタン、マイクロフォン、スピーカ、及びカメラを備える。タッチスクリーンはディスプレイ装置とタッチパネルとを含む。
 第1通信部及び第2通信部は、プロセッサ及び入出力インタフェースにより実施される。記憶部は、ストレージデバイスにより実施される。
 次に、図5から図8を参照してサーバ120の構成について説明する。サーバ120は、本発明の情報処理装置に対応する。
 図5は、サーバ120の機能構成例を概略的に示している。図5に示すように、サーバ120は、通信部502、生成部504、制御部512、第1記憶部520、及び第2記憶部522を備える。制御部512は、通信部502、生成部504、第1記憶部520、及び第2記憶部522を制御する。
 通信部502は、ユーザ装置110(本実施形態ではユーザ端末114)と通信する。例えば、通信部502は、ユーザ装置110からアイトラッキング情報を受信し、受信したアイトラッキング情報を制御部512に送出する。制御部512は、通信部502からアイトラッキング情報を受け取り、それを第1記憶部520に記憶させる。通信部502は、外部装置からアイトラッキング情報を取得する取得部として機能する。
 通信部502は、ユーザ装置110を含む複数のユーザ装置からアイトラッキング情報を受信する。よって、第1記憶部520は、個々のユーザに関連するアイトラッキング情報を蓄積する。第1記憶部520は、ユーザごとにアイトラッキング情報を管理する。
 生成部504は、第1記憶部520に記憶されているアイトラッキング情報に基づいて空間情報を生成する。生成部504は、第1記憶部520から同じユーザID及び同じ立ち止まりシーケンス番号を有するアイトラッキング情報のセットであるアイトラッキング情報セットを取得し、取得したアイトラッキング情報セットに基づいて空間情報を生成する。アイトラッキング情報セットを移動履歴、空間情報を注視点履歴と称することもある。一例では、生成部504は、所定の間隔で(例えば日次単位で)空間情報の生成を行う。他の例では、生成部504は、ユーザからの指示に基づいて空間情報の生成を行う。具体的には、ユーザがユーザ端末114に空間情報生成指示を入力し、ユーザ端末114がサーバ120に空間情報生成指示を送信し、サーバ120の制御部512は、ユーザ端末114からの空間情報生成指示に応答して生成部504に空間情報の生成を行わせる。生成部504は、特定部506、算出部508、及び取得部510を備える。
 特定部506は、注視点情報及び視界画像に少なくとも基づいてユーザが注視する物体を特定する。ユーザが注視する物体を注視物体又は対象物体と称することもある。例えば、特定部506は、注視物体の種別及び色を識別する。種別の例は、標識、看板、信号、及び建物を含む。
 特定部506は、視界画像に対して物体認識を行い、注視点情報により示される視界画像中のポイントに位置する物体を検出物体として特定する。物体認識は、予め用意された機械学習済みモデルを用いてよい。アイトラッキング情報セットは典型的には複数のアイトラッキング情報を含み、よって、物体認識により複数の物体が抽出されることがある。抽出された物体のうち、最も多く抽出された物体が検出物体と決定される。例えば、アイトラッキング情報セットが5つのアイトラッキング情報を含み、標識が1回抽出され、信号が4回抽出されたとする。この場合、信号が検出物体と決定される。特定部506は、検出物体が所定種別のものであるかどうかを判定する。所定種別は、例えば、建物及び信号を含む。具体的には、特定部506は、検出物体が信号であるかどうかを判定し、検出物体が建物であるかどうかを判定する。
 特定部506は、検出物体が建物である場合には、検出物体を注視物体と決定する。特定部506は、検出物体が信号及び建物のいずれでもない場合には、位置情報、視線情報、及び3次元(3D)マップに基づいて、ユーザの視点の先に存在する所定種別の物体(ランドマークとも称する)を注視物体と決定する。所定種別は例えば建物であり得る。具体的には、特定部506は、位置情報により示される3次元位置を始点とし、始点から視線情報により示される視線の向きに延ばした線分が最初に交差する所定種別の物体を特定する。3Dマップは、地図情報に対応し、建物などの物体の属性情報を含む。3Dマップは、サーバ120に存在してもよく、サーバ120がアクセス可能な他の装置に存在してもよい。
 算出部508は、ユーザから注視物体までの距離を算出する。注視物体が画像から特定されたものである場合、算出部508は、画像から、ユーザから注視物体までの距離を算出してよい。単眼カメラで得られた画像内の物体までの距離を推定する技術は周知であり、算出部508はそのような技術を利用してよい。算出部508は、3Dマップを参照して注視物体の位置を算出し、位置情報により示される位置と注視物体の算出された位置とに基づいてユーザから注視物体までの距離を算出してもよい。
 取得部510は、3Dマップから、特定部506により特定された注視物体の属性を示す属性情報を取得する。例えば、属性情報は、物体の種別、高さ、面積、及び名称を示す情報を含んでよい。
 生成部504は、1つのアイトラッキング情報セットから1つの空間情報を生成する。
制御部512は、生成部504により生成された空間情報を第2記憶部522のデータベースに登録する。制御部512は、空間情報をデータベースに登録する登録部として機能する。
 図6は、特定部506が注視物体を特定する方法例を概略的に示している。図6において、4つの建物602、604、606、608が示されるとともに、位置情報により示される位置から視線情報により示される視線の向きを延ばした線分が矢印で示されている。線分は2つの建物606、608と交差し、建物606が位置情報により示される位置により近い。このため、建物606が注視物体として特定される。さらに、位置情報により示される位置と建物606との間の距離が算出される。
 図7は、第2記憶部522に記憶される空間情報の構成例を概略的に示している。図7に示すように、空間情報は、ユーザID、日時、立ち止まりシーケンス番号、物体の種別及び色、物体までの距離、視線の向きの水平成分及び垂直成分、並びに、物体の面積、高さ、及び名称を含む。物体の種別及び色は物体情報に対応する。物体の面積、高さ、及び名称は属性情報に対応する。
 図8は、サーバ120のハードウェア構成例を概略的に示している。図8に示すように、サーバ120は、プロセッサ802、RAM804、プログラムメモリ806、ストレージデバイス808、及び入出力インタフェース810を備える。プロセッサ802は、RAM804、プログラムメモリ806、ストレージデバイス808、及び入出力インタフェース810を制御し、これらと信号をやり取りする。
 プロセッサ802は、CPU又はGPUなどの汎用回路を含む。RAM804はワーキングメモリとしてプロセッサ802により使用される。RAM804はSDRAMなどの揮発性メモリを含む。プログラムメモリ806は、情報生成プログラムを含む、プロセッサ802により実行されるプログラムを記憶する。プログラムはコンピュータ実行可能命令を含む。プログラムメモリ806として、例えば、ROMが使用される。
 プロセッサ802は、プログラムメモリ806に記憶されたプログラムをRAM804に展開し、プログラムを解釈及び実行する。情報生成プログラムは、プロセッサ802により実行されると、サーバ120に関して説明される処理をプロセッサ802に行わせる。
 ストレージデバイス808はアイトラッキング情報及び空間情報などのデータを記憶する。ストレージデバイス808は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性メモリを含む。ストレージデバイス808の一部領域がプログラムメモリ806として使用されてもよい。
 入出力インタフェース810は、外部機器と通信するための通信モジュール及び周辺機器を接続するための複数の端子を備える。外部機器は例えばユーザ端末114である。通信モジュールは、例えば、有線モジュール及び/又は無線モジュールを含んでよい。周辺機器の例は、ディスプレイ装置、キーボード、及びマウスを含む。
 サーバ120が図8に示すハードウェア構成を有する例では、図5に示した生成部504及び制御部512は、プロセッサ802により実施される。図5に示した通信部502は、プロセッサ802及び入出力インタフェース810により実施される。図5に示した第1記憶部520及び第2記憶部522は、ストレージデバイス808により実施される。
 サーバ120に関して説明した処理の少なくとも一部は、ASIC又はFPGAなどの専用回路で実施されてもよい。
 [動作]
 次に、情報処理システム100の動作について説明する。
 図9は、ユーザ端末112により実行される処理の手順例を概略的に示している。例えば、図9に示す処理は、ユーザがユーザ端末112上でアプリケーションを起動することで開始され、アプリケーションの起動中に継続的に実行され、ユーザがユーザ端末112上でアプリケーションを終了させると終了する。
 図9のステップS901において、判定部202は、加速度センサ416から出力される加速度データ及び測位センサ420から出力される位置データに基づいて、ユーザが立ち止まっているか否かを判定する。ユーザが歩行していると判定部202が判定した場合(ステップS901;No)、ステップS901の処理が繰り返される。
 ユーザが立ち止まったことを判定部202が検出すると(ステップS901;Yes)、ステップS902において、生成部204は、アイトラッキング情報を生成する。アイトラッキング情報は、視界画像、注視点情報、視線情報、位置情報、及び時間情報を含む。例えば、生成部204は、カメラ412から視界画像を取得する。生成部204は、アイトラッカ414から視線測定データを取得し、取得した視線測定データに基づいて視界画像中のユーザの注視点を算出して注視点情報を生成する。生成部204は、加速度センサ416から出力される加速度データ及び地磁気センサ418から出力される地磁気データに基づいて視線情報を生成する。生成部204は、測位センサ420から出力される位置データ及び高度センサ422から出力される高度データに基づいて位置情報を生成する。
 ステップS903において、判定部202は、加速度センサ416から出力される加速度データ及び測位センサ420から出力される位置データに基づいて、ユーザが立ち止まっているか否かを判定する。ユーザが立ち止まっていると判定部202が判定した場合(ステップS903;Yes)、処理はステップS902に戻る。
 ユーザが歩き出したことを判定部202が検出すると(ステップS903;No)、生成部204は、アイトラッキング情報の生成を終了する。このようにして、生成部204は、ユーザが立ち止まっている期間においてアイトラッキング情報を生成する処理を繰り返す。記憶部220は、ユーザが立ち止まっている期間に生成された複数のアイトラッキング情報を蓄積する。
 ステップS904において、通信部206は、記憶部220からアイトラッキング情報を取り出してユーザ端末114にアイトラッキング情報を送信する。例えば、通信部206は、記憶部220から上記期間に生成された(すなわち同じ立ち止まりシーケンス番号を有する)アイトラッキング情報を取り出してユーザ端末114に送信する。
 図10は、サーバ120により実行される処理の手順例を概略的に示している。図10のステップS1001において、通信部502は、アイトラッキング情報セットを取得する。アイトラッキング情報セットは、同じユーザID及び同じ立ち止まりシーケンス番号を有するアイトラッキング情報のセットである。例えば、通信部502は、通信ネットワーク130とユーザ端末114とを介してユーザ端末112からアイトラッキング情報セットを受信する。アイトラッキング情報セットは少なくとも1つのアイトラッキング情報を含む。ここでは、説明を簡単にするために、アイトラッキング情報セットが1つのアイトラッキング情報を含むものとする。
 ステップS1002において、特定部506は、アイトラッキング情報に含まれる注視点情報に基づいて、アイトラッキング情報に含まれる視界画像からユーザが注視している物体を検出する。例えば、生成部504は、視界画像に対して物体認識を行い、注視点情報により示される視界画像中のポイントに位置する物体を検出する。
 ステップS1003において、特定部506は、検出された物体が信号であるか否かを判定する。検出された物体が信号である場合(ステップS1003;Yes)、処理が終了となる。この場合、空間情報は、生成されず、データベースに登録されない。
 検出された物体が信号でない場合(ステップS1003;No)、処理はステップS1004に進む。ステップS1004において、特定部506は、検出された物体が建物であるか否かを判定する。検出された物体が建物である場合(ステップS1004;Yes)、特定部506は、検出された物体を注視物体と決定し、処理はステップS1006に進む。
 検出された物体が建物でない場合(ステップS1004;No)、処理はステップS1005に進む。ステップS1005において、特定部506は、アイトラッキング情報に含まれる位置情報及び視線情報に基づいて3Dマップから、ユーザの視点の先に存在する所定種別の物体(ランドマーク)を抽出し、抽出した物体を注視物体と決定する。所定種別の物体は、例えば、店舗などの建物であり得る。
 ステップS1006において、算出部508は、位置情報に示される位置から注視物体までの距離を算出する。ステップS1007において、取得部510は、3Dマップから注視物体の属性情報を取得する。ステップS1008において、制御部512は、生成部504により生成された空間情報を第2記憶部522のデータベースに登録する。空間情報は、算出部508により算出された注視物体までの距離と、取得部510により取得された注視物体の属性情報と、を含む。
 上述した例では、注視物体は建物である。広告看板などの他の物体が注視物体として特定されてもよい。この場合、空間情報は、高さ及び面積などの属性情報を含まなくてよい。
 [効果]
 以上のように、情報処理システム100では、ユーザ端末114は、ユーザが立ち止まっている期間においてアイトラッキング情報を生成し、サーバ120は、ユーザ端末114により生成されたアイトラッキング情報から空間情報を生成する。アイトラッキング情報は、視界画像及びユーザの注視点の時系列データを含む。空間情報は、ユーザが立ち止まっている期間に注視した物体に関する情報を含む。言い換えると、空間情報は、ユーザが注目する物体又はその傾向を示す。空間情報はアイトラッキング情報から生成されるので、アイトラッキング情報は、ユーザが注目する物体又はその傾向を把握することを可能にする情報である。
 ユーザが立ち止まっている期間においてアイトラッキング情報を生成することにより、アイトラッキング情報のデータ量及びアイトラッキング情報の生成に関連する電力消費を抑制することができる。データ量の抑制は、通信トラフィック量の抑制及び通信に関連する電力消費の抑制につながる。
 視界画像及び注視点情報に基づいて検出された物体が信号である場合には、サーバ120は空間情報を生成せずデータベースに登録しない。検出された物体が信号である場合、ユーザが立ち止まった要因が信号によるものだと考えられるためである。これにより、ユーザが注目する物体又はその傾向を把握する上で有用でない情報を排除することができる。
 視界画像及び注視点情報に基づいて検出された物体が信号でも建物でもない場合がある。例えば、検出された物体が標識である場合がある。このような場合、ユーザは実際にはその先にある建物を見ていることがある。地図情報からユーザの視線上に存在する建物を注視物体と決定することにより、ユーザが注目する物体又はその傾向を把握する上で有用な情報を得ることができる。
 空間情報は、例えば、出発地から目的地まで徒歩で移動するための経路を案内する経路案内サービスなどのサービスにおいて利用することができる。例えば、経路案内サービスは、空間情報に合致する建物や空間情報と類似(物体の種別、色、面積、高さ等が類似である)の建物の情報を利用して効果的なサービス提供をすることができる。具体的には、ユーザは、経路案内サービスから自身が着目しやすい建物をランドマークとして利用された経路案内がなされることにより、未知の経路であってもより迷うことなく目的地へたどれることとなる。このように、空間情報を利用した経路案内サービスは、ユーザに適した案内情報を提供することができる。また、サービス提供側の視点では、空間情報に合致する建物やその類似の建物にサイネージ広告を配置することにより、より多くの人の目に留まりやすいサイネージ広告を実現することが可能となる。
 [変形例]
 本発明は、上記実施形態に限定されない。例えば、ユーザ端末112の上述した処理の一部がユーザ端末114により実施されてもよい。
 一例では、ユーザ端末114は、センサ(例えば加速度センサ)から取得されるセンサデータに基づいてユーザが立ち止まったか否かを判定してよい。ユーザ端末114は、ユーザが立ち止まったことを検出すると、ユーザが立ち止まったことを示す第1通知をユーザ端末112に送信する。ユーザ端末112は、ユーザ端末114から第1通知を受信すると、アイトラッキング情報の生成を開始する。さらに、ユーザ端末114は、ユーザが歩き出したことを検出すると、ユーザが歩き出したことを示す第2通知をユーザ端末112に送信する。ユーザ端末112は、ユーザ端末114から第2通知を受信すると、アイトラッキング情報の生成を終了する。この例では、ユーザ端末112は、ユーザ端末114からの第1通知及び第2通知に基づいてユーザが立ち止まっている否かを判定する。
 他の例では、ユーザ端末114がアイトラッキング情報の一部を生成する。例えば、ユーザ端末114は、位置情報を生成し、位置情報を時間情報に関連付けてメモリに記憶させる。ユーザ端末114は、ユーザ端末112からアイトラッキング情報を受信すると、アイトラッキング情報に含まれる時間情報に最も近い時間情報に関連付けられている位置情報を特定し、特定された位置情報をアイトラッキング情報に追加する。
 他の実施形態では、ユーザ端末112は、ユーザ端末114を介さずにサーバ120と通信してよい。他の実施形態では、第2記憶部522のデータベースはサーバ120とは異なる装置に設けられてよい。
 プログラムは、コンピュータで読み取り可能な記録媒体に記憶された状態でコンピュータ装置(例えばユーザ端末112又はサーバ120)に提供されてよい。この場合、例えば、コンピュータ装置は、記録媒体からデータを読み出すドライブを備え、記録媒体からプログラムを取得する。記録媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、及び半導体メモリを含む。また、プログラムは通信ネットワークを通じて配布するようにしてもよい。具体的には、プログラムをネットワーク上のサーバに格納し、コンピュータ装置がサーバからプログラムをダウンロードするようにしてもよい。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。さらに、上記実施形態には種々の発明が含まれており、開示される複数の構成要素から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要素からいくつかの構成要素が削除されても、課題が解決でき、効果が得られる場合には、この構成要素が削除された構成が発明として抽出され得る。
 100…情報処理システム
 110…ユーザ装置
 112、114…ユーザ端末装置
 120…サーバ装置
 130…通信ネットワーク
 202…判定部
 204…生成部
 206…通信部
 208…制御部
 220…記憶部
 402…プロセッサ
 404…RAM
 406…プログラムメモリ
 408…ストレージデバイス
 410…入出力インタフェース
 412…カメラ
 414…アイトラッカ
 416…加速度センサ
 418…地磁気センサ
 420…測位センサ
 422…高度センサ
 424…バッテリ
 502…通信部
 504…生成部
 506…特定部
 508…算出部
 510…取得部
 512…制御部
 520、522…記憶部
 802…プロセッサ
 804…RAM
 806…プログラムメモリ
 808…ストレージデバイス
 810…入出力インタフェース
 

Claims (8)

  1.  ユーザが立ち止まっているかどうかを判定する判定部と、
     前記ユーザが立ち止まっていると判定された期間内の時間における前記ユーザの視界に対応する画像と、前記時間における前記ユーザの注視点に対応する前記画像中の位置を示す注視点情報と、前記時間における前記ユーザの視線の向きを示す視線情報と、前記時間における前記ユーザの位置を示す位置情報と、を含むアイトラッキング情報を生成する生成部と、
     前記アイトラッキング情報を外部装置に送信する送信部と、
     を備える情報処理装置。
  2.  ユーザが立ち止まっている期間内の時間における前記ユーザの視界に対応する画像と、前記時間における前記ユーザの注視点に対応する前記画像中の位置を示す注視点情報と、前記時間における前記ユーザの視線の向きを示す視線情報と、前記時間における前記ユーザの位置を示す位置情報と、を含むアイトラッキング情報を取得する第1の取得部と、
     前記アイトラッキング情報に含まれる前記画像及び前記注視点情報に基づいて、前記ユーザが前記時間において注視している所定種別の物体を注視物体として特定する特定部と、
     前記ユーザから前記注視物体までの距離を算出する算出部と、
     前記注視物体の属性を示す属性情報を取得する第2の取得部と、
     前記算出された距離と前記取得された属性情報とを含む空間情報をデータベースに登録する登録部と、
     を備える情報処理装置。
  3.  前記特定部は、前記注視点情報により示される前記画像中の位置に存在する物体を検出し、前記検出された物体が信号であるか否かを判定し、
     前記検出された物体が前記信号である場合、前記空間情報は前記データベースに登録されない、
     請求項2に記載の情報処理装置。
  4.  前記特定部は、前記注視点情報により示される前記画像中の位置に存在する物体を検出し、前記検出された物体が建物であるか否かを判定し、前記検出された物体が前記建物である場合には、前記検出された物体を前記注視物体と決定し、前記検出された物体が前記建物でない場合には、前記位置情報と前記視線情報と地図情報とに基づいて、前記注視物体を特定する、
     請求項2又は3に記載の情報処理装置。
  5.  第1の情報処理装置及び第2の情報処理装置を備え、
     前記第1の情報処理装置は、
     ユーザが立ち止まっているかどうかを判定する判定部と、
     前記ユーザが立ち止まっていると判定された期間内の時間における前記ユーザの視界に対応する画像と、前記時間における前記ユーザの注視点に対応する前記画像中の位置を示す注視点情報と、前記時間における前記ユーザの視線の向きを示す視線情報と、前記時間における前記ユーザの位置を示す位置情報と、を含むアイトラッキング情報を生成する生成部と、
     前記アイトラッキング情報を前記第2の情報処理装置に送信する送信部と、
     を備え、
     前記第2の情報処理装置は、
     前記第1の情報処理装置から前記アイトラッキング情報を取得する第1の取得部と、
     前記取得されたアイトラッキング情報に含まれる前記画像及び前記注視点情報に基づいて、前記ユーザが前記時間において注視している所定種別の物体を注視物体として特定する特定部と、
     前記ユーザから前記注視物体までの距離を算出する算出部と、
     前記注視物体の属性を示す属性情報を取得する第2の取得部と、
     前記算出された距離と前記取得された属性情報とを含む空間情報をデータベースに登録する登録部と、
     を備える、情報処理システム。
  6.  情報処理装置により実行される情報処理方法であって、
     センサから取得されるセンサデータに基づいて、ユーザが立ち止まっているかどうかを判定することと、
     前記ユーザが立ち止まっていると判定された期間内の時間における前記ユーザの視界に対応する画像と、前記時間における前記ユーザの注視点に対応する前記画像中の位置を示す注視点情報と、前記時間における前記ユーザの視線の向きを示す視線情報と、前記時間における前記ユーザの位置を示す位置情報と、を含むアイトラッキング情報を生成することと、
     前記アイトラッキング情報を外部装置に送信することと、
     を備える情報処理方法。
  7.  情報処理装置により実行される情報処理方法であって、
     ユーザが立ち止まっている期間内の時間における前記ユーザの視界に対応する画像と、前記時間における前記ユーザの注視点に対応する前記画像中の位置を示す注視点情報と、前記時間における前記ユーザの視線の向きを示す視線情報と、前記時間における前記ユーザの位置を示す位置情報と、を含むアイトラッキング情報を取得することと、
     前記アイトラッキング情報に含まれる前記画像及び前記注視点情報に基づいて、前記ユーザが前記時間において注視している所定種別の物体を注視物体として特定することと、
     前記ユーザから前記注視物体までの距離を算出することと、
     前記注視物体の属性を示す属性情報を取得することと、
     前記算出された距離と前記取得された属性情報とを含む空間情報をデータベースに登録することと、
     を備える情報処理方法。
  8.  請求項1乃至4のいずれか1項に記載の情報処理装置が備える各部としてコンピュータを機能させるためのプログラム。
     
PCT/JP2020/029856 2020-08-04 2020-08-04 情報処理装置、情報処理システム、情報処理方法、及びプログラム WO2022029894A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/029856 WO2022029894A1 (ja) 2020-08-04 2020-08-04 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/029856 WO2022029894A1 (ja) 2020-08-04 2020-08-04 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2022029894A1 true WO2022029894A1 (ja) 2022-02-10

Family

ID=80117860

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/029856 WO2022029894A1 (ja) 2020-08-04 2020-08-04 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2022029894A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155238A (ja) * 2004-11-29 2006-06-15 Hiroshima Univ 情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体
JP2012078224A (ja) * 2010-10-01 2012-04-19 Olympus Corp 画像生成システム、プログラム及び情報記憶媒体
JP2016048192A (ja) * 2014-08-27 2016-04-07 株式会社ゼンリンデータコム 情報処理システム、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155238A (ja) * 2004-11-29 2006-06-15 Hiroshima Univ 情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体
JP2012078224A (ja) * 2010-10-01 2012-04-19 Olympus Corp 画像生成システム、プログラム及び情報記憶媒体
JP2016048192A (ja) * 2014-08-27 2016-04-07 株式会社ゼンリンデータコム 情報処理システム、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US10499002B2 (en) Information processing apparatus and information processing method
CN106993181B (zh) 多vr/ar设备协同系统及协同方法
US11257294B2 (en) Cross reality system supporting multiple device types
US10169923B2 (en) Wearable display system that displays a workout guide
US10462406B2 (en) Information processing apparatus and information processing method
US10636185B2 (en) Information processing apparatus and information processing method for guiding a user to a vicinity of a viewpoint
WO2016098457A1 (ja) 情報処理装置、情報処理方法およびプログラム
JPWO2018179644A1 (ja) 情報処理装置、情報処理方法及び記録媒体
CN103091844A (zh) 将头戴式显示连接到外部显示和其他通信网络
CN109059929B (zh) 导航方法、装置、穿戴式设备及存储介质
US20220084290A1 (en) Systems and methods for gps-based and sensor-based relocalization
US20200341284A1 (en) Information processing apparatus, information processing method, and recording medium
CN113544748A (zh) 交叉现实系统
KR20200103837A (ko) 객체 또는 장면의 수동 스캐닝을 위한 장치 및 방법(an apparatus and a method for passive scanning of an object or a scene)
TW202300201A (zh) 興趣點之重複性預測
Narimoto et al. Wayfinding Behavior Detection by Smartphone
CN108012141A (zh) 显示装置、显示系统和显示装置的控制方法
WO2022029894A1 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
US11562499B2 (en) System and method for image position determination using one or more anchors
US11438725B2 (en) Site selection for display of information
JP7176792B1 (ja) 情報処理システム及び情報処理方法
JP2022152222A (ja) 拡張現実用眼鏡、拡張現実用眼鏡の制御方法及び制御プログラム
US20150358782A1 (en) Catch the screen
JP6435640B2 (ja) 混雑度推定システム
CN111344776B (zh) 信息处理装置、信息处理方法和程序

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20948109

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20948109

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP