WO2020255408A1 - 撮影データ生成装置、撮影データ生成方法及びプログラム - Google Patents

撮影データ生成装置、撮影データ生成方法及びプログラム Download PDF

Info

Publication number
WO2020255408A1
WO2020255408A1 PCT/JP2019/024816 JP2019024816W WO2020255408A1 WO 2020255408 A1 WO2020255408 A1 WO 2020255408A1 JP 2019024816 W JP2019024816 W JP 2019024816W WO 2020255408 A1 WO2020255408 A1 WO 2020255408A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
shooting
data
data generation
captured
Prior art date
Application number
PCT/JP2019/024816
Other languages
English (en)
French (fr)
Inventor
敬之 越智
良徳 大橋
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to PCT/JP2019/024816 priority Critical patent/WO2020255408A1/ja
Priority to JP2021528626A priority patent/JP7195430B2/ja
Priority to US17/614,817 priority patent/US20220230435A1/en
Publication of WO2020255408A1 publication Critical patent/WO2020255408A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video

Definitions

  • the present invention relates to a shooting data generation device, a shooting data generation method, and a program.
  • the present invention has been made in view of the above problems, and one of the objects thereof is to provide a shooting data generation device, a shooting data generation method, and a program capable of enriching the data accumulated as a life log. ..
  • the shooting data generation device includes a shooting image receiving unit that sequentially receives shot images, an environment map generation unit that generates an environment map based on the plurality of shot images, and the above. It includes a shooting data generation unit that generates shooting data indicating the shooting position of the shot image or the subject of the shot image, which is associated with the environment map.
  • One aspect of the present invention further includes a specific part that specifies a part of the plurality of captured images that satisfies a predetermined condition based on the environmental map and the captured data.
  • the specific unit captures a subject existing at a given position in the environmental map from among a plurality of the captured images based on the environmental map and the captured data. May be specified.
  • the specific unit identifies a part of the plurality of captured images, which is evaluated based on the captured data, based on a certain degree that the captured image associated with the captured data is rare. You may.
  • the specific unit may specify a part of the plurality of captured images based on the density of the position where the captured image is captured.
  • the shooting data may be data indicating the shooting position and shooting direction of the shot image on the environment map, or data indicating the position of the subject on the environment map.
  • the shooting data generation unit may further generate a new image having a higher quality than the shooting image for the specified shooting image.
  • the shooting data generation method includes a step of sequentially accepting shot images, a step of generating an environmental map based on the plurality of shot images, and a shooting position of the shot image associated with the environmental map.
  • it includes a step of generating shooting data indicating the subject of the shot image.
  • the program according to the present invention includes a procedure for sequentially accepting captured images, a procedure for generating an environmental map based on a plurality of the captured images, a photographing position of the captured image or a captured image associated with the environmental map. Have the computer execute the procedure for generating shooting data indicating the subject.
  • FIG. 1 is a configuration diagram showing an example of a life log management system 1 according to an embodiment of the present invention.
  • the life log management system 1 includes a server 10 and a tracker 12.
  • the server 10 and the tracker 12 are connected to a computer network 14 such as the Internet. Then, in the present embodiment, the server 10 and the tracker 12 can communicate with each other.
  • the server 10 is, for example, a server computer used by a user of the life log management system 1.
  • the server 10 includes a processor 20, a storage unit 22, and a communication unit 24.
  • the processor 20 is, for example, a program control device such as a CPU that operates according to a program installed in the server 10.
  • the storage unit 22 is, for example, a storage element such as a ROM or RAM, a hard disk drive, or the like.
  • a program or the like executed by the processor 20 is stored in the storage unit 22.
  • the communication unit 24 is a communication interface such as a network board or a wireless LAN module.
  • the tracker 12 is a device that tracks the position and orientation of the user who wears the tracker 12.
  • the tracker 12 includes a processor 30, a storage unit 32, a communication unit 34, a display unit 36, and a sensor unit 38.
  • the processor 30 is a program control device such as a microprocessor that operates according to a program installed on the tracker 12, for example.
  • the storage unit 32 is, for example, a storage element such as a memory. A program or the like executed by the processor 30 is stored in the storage unit 32.
  • the communication unit 34 is a communication interface such as a wireless LAN module.
  • the display unit 36 is a display arranged in front of the tracker 12, such as a liquid crystal display or an organic EL display.
  • the display unit 36 according to the present embodiment can display a three-dimensional image by displaying, for example, an image for the left eye and an image for the right eye.
  • the display unit 36 may not be able to display a three-dimensional image and may only display a two-dimensional image.
  • the sensor unit 38 is a sensor such as a camera, a microphone, an inertial sensor (IMU), a geomagnetic sensor (direction sensor), a GPS (Global Positioning System) module, a depth sensor, or the like.
  • the camera included in the sensor unit 38 captures an image at a predetermined sampling rate, for example.
  • the microphone included in the sensor unit 38 generates voice data based on the input voice, for example, at a predetermined sampling rate.
  • the inertial sensor included in the sensor unit 38 outputs data indicating the acceleration, rotation amount, movement amount, etc. of the tracker 12 to the processor 30 at a predetermined sampling rate.
  • the geomagnetic sensor included in the sensor unit 38 outputs data indicating the direction in which the tracker 12 faces to the processor 30 at a predetermined sampling rate. Further, the GPS module included in the sensor unit 38 outputs data indicating the latitude and longitude of the tracker 12 to the processor 30 at a predetermined sampling rate.
  • the depth sensor included in the sensor unit 38 is, for example, a depth sensor using technologies such as ToF (Time of Flight), Patterned stereo, and Structured Light.
  • the depth sensor outputs data indicating the distance from the tracker 12 to the processor 30 at a predetermined sampling rate.
  • the sensor unit 38 may include other sensors such as an RF sensor, an ultrasonic sensor, an event driven sensor, a pulse sensor, a heart rate sensor, and a body temperature sensor.
  • sensors such as an RF sensor, an ultrasonic sensor, an event driven sensor, a pulse sensor, a heart rate sensor, and a body temperature sensor.
  • the tracker 12 may include, for example, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, a USB port, an input / output port such as an AUX port, headphones, a speaker, and the like.
  • HDMI registered trademark
  • AUX AUX Port
  • the tracker 12 transmits the sensing data output by the various sensors included in the sensor unit 38 of the tracker 12 to the server 10.
  • SLAM Simultaneous Localization and Mapping
  • self-position estimation for example, at least one of the position and orientation of the tracker 12 is estimated.
  • the global position and orientation of the tracker 12 may be estimated.
  • the SLAM process generates an environmental map based on the sensing data acquired by the tracker 12.
  • the environment map is data showing objects such as point clouds, 3D meshes, and textures, which are generated based on sensing data by, for example, SLAM processing.
  • the above-mentioned sensing data and the environmental map, and various data generated from the sensing data and the environmental map are accumulated in the server 10 as a life log.
  • the accumulated life log data is enriched.
  • FIG. 3 is a functional block diagram showing an example of the functions implemented by the server 10 and the tracker 12 according to the present embodiment. It is not necessary that all the functions shown in FIG. 3 are implemented in the server 10 and the tracker 12 according to the present embodiment, and functions other than the functions shown in FIG. 3 may be implemented.
  • the server 10 functionally includes, for example, a sensing data receiving unit 40, a life log data generating unit 42, and a life log data storage unit 44.
  • the sensing data receiving unit 40 mainly implements the communication unit 24.
  • the life log data generation unit 42 mainly implements the processor 20.
  • the life log data storage unit 44 mainly implements the storage unit 22.
  • the above functions may be implemented by executing a program installed on the server 10 which is a computer and including a command corresponding to the above functions on the processor 20.
  • This program may be supplied to the server 10 via a computer-readable information storage medium such as an optical disk, a magnetic disk, a magnetic tape, a magneto-optical disk, or a flash memory, or via the Internet or the like.
  • the tracker 12 functionally includes, for example, a sensing data acquisition unit 46 and a sensing data transmission unit 48.
  • the sensing data acquisition unit 46 mainly mounts the processor 30 and the sensor unit 38.
  • the sensing data transmission unit 48 is mainly mounted with the communication unit 34.
  • the above functions may be implemented by executing a program installed on the tracker 12 which is a computer and including a command corresponding to the above functions on the processor 30.
  • This program may be supplied to the tracker 12 via a computer-readable information storage medium such as an optical disk, a magnetic disk, a magnetic tape, a magneto-optical disk, or a flash memory, or via the Internet or the like.
  • the sensing data acquisition unit 46 sequentially acquires the sensing data generated by the sensor unit 38 of the tracker 12, for example.
  • the sensing data acquired by the sensing data acquisition unit 46 may include, for example, a captured image captured by the camera included in the sensor unit 38.
  • the camera may capture a moving image.
  • the sensing data acquired by the sensing data acquisition unit 46 may include, for example, a captured image which is a frame of a moving image captured by the camera.
  • the sensing data acquired by the tracker 12 may include voice data generated by the microphone included in the sensor unit 38. Depth data measured by a camera or depth sensor included in the sensor unit 38 of the tracker 12 may be included.
  • the sensing data acquired by the tracker 12 may include data indicating the orientation of the tracker 12 measured by the geomagnetic sensor included in the sensor unit 38 of the tracker 12. Further, the sensing data acquired by the tracker 12 may include data indicating the acceleration, rotation amount, movement amount, etc. of the tracker 12 measured by the inertial sensor included in the sensor unit 38.
  • the sensing data acquired by the tracker 12 may include data indicating the latitude and longitude of the tracker 12 measured by the GPS module included in the sensor unit 38. Further, the sensing data acquired by the tracker 12 may include a feature point cloud (keyframe).
  • the sensing data acquired by the tracker 12 may include health care data indicating pulse, heart rate, body temperature, and the like.
  • the sensing data transmission unit 48 sequentially transmits the sensing data acquired by the sensing data acquisition unit 46 to the server 10.
  • sensing data associated with sensing time point data indicating a time point at which sensing by the tracker 12 is performed is transmitted.
  • the acquisition and transmission of sensing data in the tracker 12 are repeatedly executed.
  • the acquisition and transmission of the sensing data in the tracker 12 may be repeatedly executed at predetermined time intervals.
  • the sensing data receiving unit 40 sequentially receives the sensing data transmitted from the sensing data transmitting unit 48 of the tracker 12, for example.
  • the life log data generation unit 42 generates life log data based on the sensing data received by the sensing data receiving unit 40, for example. Then, in the present embodiment, the life log data generation unit 42 stores the generated life log data in the life log data storage unit 44, for example.
  • the life log data storage unit 44 stores, for example, the above-mentioned life log data.
  • FIG. 4 is a diagram showing an example of the data structure of the life log data stored in the life log data storage unit 44.
  • the life log data includes, for example, an environmental map and a plurality of individual data.
  • the life log data generation unit 42 executes SLAM processing including estimation of the position or orientation of the tracker 12 based on a plurality of sensing data received by the sensing data receiving unit 40, for example.
  • the global position and orientation of the tracker 12 may be estimated.
  • the life log data generation unit 42 may execute SLAM processing including relocalization processing, loop closing processing, 3D meshing processing, object recognition processing, and the like.
  • the SLAM process may include a plane detection / 3D mesh segmentation process.
  • Plane detection / 3D mesh segmentation processing refers to the processing of detecting continuous planes such as the ground and walls and dividing the entire 3D mesh into individual 3D meshes such as the ground, buildings, and trees.
  • the SLAM process may include a 3D mesh optimization process.
  • the 3D mesh optimization process refers to a process of removing presumed moving objects, dust due to noise, etc., reducing the number of polygons, and smoothing the surface of the mesh from the 3D mesh.
  • the SLAM process may include a texture generation process.
  • the texture generation process refers to a process of generating a texture image for a 3D mesh based on the colors of the vertices of the mesh.
  • the life log data generation unit 42 may execute the SLAM process using the time-series sensing data.
  • An environmental map is generated by the above-mentioned SLAM processing executed by the life log data generation unit 42.
  • the life log data generation unit 42 may generate a four-dimensional environment map including a three-dimensional space and time in which a three-dimensional environment map at a designated time can be specified.
  • the environment map generated in this way is stored in the life log data storage unit 44 as a part of the life log data.
  • the life log data generation unit 42 generates, for example, the sensing data received by the sensing data receiving unit 40 and individual data including the sensing time point data associated with the sensing data.
  • FIG. 5 is a diagram showing an example of a data structure of individual data.
  • the ID is identification information of individual data.
  • the individual data includes the sensing data including the captured image received by the sensing data receiving unit 40 and the sensing time point data associated with the sensing data.
  • the life log data generation unit 42 generates the generated life log data based on at least one of the environment map and the sensing data.
  • the generated life log data generated in this way is added to the individual data including the sensing data.
  • the life log data generation unit 42 indicates the shooting position of the shot image or the subject of the shot image associated with the environment map based on the shot image included in the sensing data and the environment map. To generate. Then, the life log data generation unit 42 may add the generated life log data including the shooting data generated in this way to the individual data.
  • the shooting data may be data indicating the shooting position of the shot image and the shooting direction of the shot image.
  • the shooting position and shooting direction are represented by the position and direction in the environment map.
  • the shooting data may be data indicating the shooting position of the shot image and the subject position which is the position of the subject of the shot image.
  • the shooting position and the subject position are represented by positions in the environment map.
  • the generated life log data includes posture data indicating the posture of the whole body of the user wearing the tracker 12, data indicating a person extracted from the captured image, text extracted from the captured image and audio data, and the like. You may.
  • reorganization processing such as deletion of captured images included in life log data and improvement of image quality is executed.
  • the life log data generation unit 42 executes preprocessing (S101).
  • the life log data generation unit 42 deletes, for example, a captured image satisfying a predetermined condition indicating that it is a bad image from a series of captured images included in the life log data. For example, a captured image that satisfies conditions such as blurring or blurring, pure white or pure black is deleted.
  • the life log data generation unit 42 identifies a captured image in which a specific subject such as a building is only partially captured. Then, the life log data generation unit 42 changes the specified photographed image into a photographed image in which the entire subject is captured by combining the photographed image with another frame.
  • the life log data generation unit 42 identifies a plurality of representative images from the captured images stored in the life log data storage unit 44 (S102).
  • the life log data generation unit 42 identifies a plurality of captured images similar to each other, and identifies any one of the plurality of captured images as a representative image corresponding to the plurality of captured images. To do.
  • the life log data generation unit 42 specifies the importance of the representative image for each representative image (S103).
  • the higher the importance the higher the importance of the value is specified.
  • the representative image when the voice data corresponding to the representative image shows an important keyword or a voice representing the name of the above-mentioned predetermined person, the representative image is specified to have a higher importance than the non-representative image. May be good.
  • a representative image showing a subject that the user is gazing at may be specified with a higher importance than an image that does not.
  • a representative image in which a subject that is longer than a predetermined time that the user is gazing at may be specified as having a higher importance than that that is not.
  • the gaze position of the user may be specified based on, for example, the posture of the tracker 12 specified based on the sensing data.
  • the sensor unit 38 includes an eye tracker
  • the gaze position may be specified based on the result of detecting the line of sight by the eye tracker.
  • a place registered as a favorite place by the user or another user a representative image of a predetermined event, a place where the frequency of visits exceeds a predetermined number of times, or a representative image of an event occurring at the place is not so. Higher importance than one may be identified. Further, for a representative image similar to a representative image whose importance value specified in the past is larger than a predetermined value, a higher importance may be specified than that of a representative image that is not.
  • the degree of excitement of the situation appearing in the representative image may be specified. Then, for a representative image having a high degree of excitement, a higher importance may be specified than that of a representative image that does not.
  • a representative image showing a predetermined subject such as a famous landmark may be specified with a higher importance than the other image.
  • the representative image shows a subject at a predetermined location. For example, it may be determined whether or not the representative image shows a subject at a predetermined location based on the environment map, the shooting position, and the shooting direction. Further, for example, it may be determined whether or not the representative image shows the subject at a predetermined location based on the environment map and the subject position indicated by the shooting data.
  • a machine learning model such as deep learning or composition analysis may be used to determine whether or not the representative image represents a good scene. For example, a scene close to one scene of a famous painting or movie may be determined to represent a good scene. And what is determined to be a good scene may be identified as having a higher importance than what is not.
  • the life log data generation unit 42 executes a classification process for classifying a plurality of representative images into image groups associated with each event (S104).
  • the classification process may be executed using the information used for specifying the importance in the process shown in S103 described above.
  • the life log data generation unit 42 satisfies a predetermined condition from the plurality of representative images based on the environment map and the shooting data associated with each of the plurality of representative images.
  • the unit may be specified as an image group associated with one event.
  • the life log data generation unit 42 captures a subject existing at a given position in the environment map from among a plurality of representative images based on the environment map and the shooting data associated with the representative image. You may identify a part of it. Then, the life log data generation unit 42 may classify a part identified in this way into an image group associated with an event for the subject at the position.
  • the representative image For example, based on the environment map and the shooting data associated with the representative image, it may be determined whether or not the representative image shows the subject at a predetermined location. For example, based on the environment map and the shooting position and shooting direction indicated by the shooting data associated with the representative image, it is determined whether or not the representative image shows a subject at a predetermined location. May be good. Further, for example, it may be determined whether or not the representative image shows the subject at a predetermined location based on the environment map and the subject position indicated by the shooting data associated with the representative image. .. Then, a representative image determined to capture a subject at a predetermined location may be classified into an image group associated with an event for the subject.
  • the position of the subject of the photographed image in the environment map can be easily specified based on the environment map and the photographed data associated with the photographed image. Therefore, according to the present embodiment, it is possible to easily identify the captured image with the subject as the key.
  • the classification process for classifying the shooting positions into representative image groups separated from each other may be executed.
  • the classification process may be executed based on the magnitude of the movement amount corresponding to the distance between the shooting positions indicated by the shooting data associated with the representative image. For example, when the distance between the shooting positions indicated by the shooting data associated with each of the two consecutive representative images at the shooting time (sensing time) is longer than a predetermined distance, the image group is between the two representative images. May be split. Similarly, the image group may be divided between two representative images having a large change in acceleration.
  • the image group may be divided between the two representative images.
  • the life log data generation unit 42 identifies at least one important image for each event (S105).
  • the importance corresponding to each event is specified.
  • a representative value such as a total value or an average value of the importance of the representative image corresponding to the event may be specified as the value of the importance corresponding to the event.
  • the higher the importance of the event the larger the number of important images may be identified.
  • a number of representative images corresponding to the event may be specified as important images in order of importance.
  • a predetermined number of important images may be specified in descending order of the product of the importance value of the event and the importance value of the representative image.
  • the life log data generation unit 42 may evaluate to some extent that the representative image is rare based on the shooting data associated with the representative image. Then, the life log data generation unit 42 may specify a part of the plurality of representative images as an important image based on a rare image evaluated in this way.
  • the life log data generation unit 42 may specify a part of the plurality of representative images as an important image based on the density of the positions where the plurality of captured images including the representative image are captured. For example, the life log data generation unit 42 may specify the number of captured images captured in a region having a predetermined size centered on the position where the representative image is captured. Then, the representative image with a small number specified may be preferentially specified as an important image. For example, a representative image whose specified number is smaller than a predetermined number may be specified as an important image.
  • important images may be specified so that the shooting positions are dispersed as much as possible.
  • important images may be specified so that the composition and the shooting time (sensing time) are dispersed as much as possible.
  • an important image may be specified based on health care data such as pulse, heart rate, and body temperature.
  • health care data such as pulse, heart rate, and body temperature.
  • a representative image associated with healthcare data having a large pulse, a large heartbeat, or a high body temperature may be specified as an important image.
  • the life log data generation unit 42 executes post-processing on the important image specified by the process shown in S105 (S106).
  • the life log data generation unit 42 may generate a new image having a higher quality than the important image for the important image.
  • the shooting position and the shooting direction in the environment map may be specified based on the shooting data associated with the important image.
  • the direction from the shooting position indicated by the shooting data toward the subject position indicated by the shooting data may be specified as the shooting direction.
  • an image showing how the environment map is viewed from the shooting position toward the shooting direction may be generated.
  • the life log data generation unit 42 may add the image generated in this way to the individual data including the important image.
  • an image with high image quality of the important image may be generated by using the captured image, the depth information, and the photographing direction for a predetermined number of frames before and after the important image.
  • the depth information may be generated based on, for example, the depth data included in the sensing data. Further, the depth information may be generated based on the environment map and the shooting data. Further, the shooting direction may be specified based on the shooting data. Further, the shooting direction may be specified based on the sensing data. Then, the life log data generation unit 42 may add the image generated in this way to the individual data including the important image.
  • the life log data generation unit 42 may add the image generated in this way to the individual data including the important image.
  • a moving image including these important images may be specified as an important moving image.
  • stabilization processing such as camera shake correction may be executed for the important moving image.
  • the life log data generation unit 42 may add the important moving image on which the stabilization process is executed to the individual data associated with at least one frame among the plurality of frames.
  • the processes shown in S101 to S106 may be executed, for example, at predetermined time intervals.
  • a high-quality image can be obtained for an important scene based on the captured image without separately capturing a high-quality image.
  • the life log according to the present embodiment is, for example, generation of minutes, search of life log based on text, past re-experience by virtual reality (VR), restoration of three-dimensional space from childhood at a specific time, It can be used for conversations by voice synthesis.
  • VR virtual reality
  • the life log according to the present embodiment may include, for example, reproduction of changes at a specific point by fixed point observation, identification of who was with a person at a specific time, places where a person has traveled in the past, and visits. It can be used for good places, extraction of past periodic actions, etc.
  • the user always wears the tracker 12. Then, for the moving image taken by the tracker 12 that the user always wears without being particularly conscious, the above-mentioned preprocessing, identification of the important image, and post-processing for the important image (high image quality, etc.) Is executed. Then, the high-quality still image generated in this way is presented to the user. In this way, even if the user does not consciously take a picture, the user is presented with a high-quality picture of the days spent by the user.
  • the present invention is not limited to the above-described embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)

Abstract

ライフログとして蓄積されるデータを充実化できる撮影データ生成装置、撮影データ生成方法及びプログラムを提供する。センシングデータ受付部(40)は、複数の撮影画像を順次受け付ける。ライフログデータ生成部(42)は、複数の撮影画像に基づいて、環境地図を生成する。ライフログデータ生成部(42)は、環境地図に関連付けられる、撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成する。

Description

撮影データ生成装置、撮影データ生成方法及びプログラム
 本発明は、撮影データ生成装置、撮影データ生成方法及びプログラムに関する。
 トラッカーが取得する映像、音声、位置情報などのセンシングデータを、当該トラッカーを装着しているユーザのライフログとして記録する技術が知られている。
 上記のライフログの活用にあたっては、当該ライフログにセンシングデータのみならず様々な種類のデータが蓄積されることが望ましい。
 本発明は上記課題に鑑みてなされたものであって、その目的の1つは、ライフログとして蓄積されるデータを充実化できる撮影データ生成装置、撮影データ生成方法及びプログラムを提供することにある。
 上記課題を解決するために、本発明に係る撮影データ生成装置は、撮影画像を順次受け付ける撮影画像受付部と、複数の前記撮影画像に基づいて、環境地図を生成する環境地図生成部と、前記環境地図に関連付けられる、前記撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成する撮影データ生成部と、を含む。
 本発明の一態様では、前記環境地図と前記撮影データとに基づいて、複数の前記撮影画像のうちから、所定の条件を満足する一部を特定する特定部、をさらに含む。
 この態様では、前記特定部は、前記環境地図と前記撮影データとに基づいて、複数の前記撮影画像のうちから、前記環境地図内の所与の位置に存在する被写体が撮影された前記撮影画像を特定してもよい。
 あるいは、前記特定部は、前記撮影データに基づいて評価される、当該撮影データに対応付けられる前記撮影画像がレアなものである程度に基づいて、複数の前記撮影画像のうちから一部を特定してもよい。
 この態様では、前記特定部は、前記撮影画像が撮影された位置の密度に基づいて、複数の前記撮影画像のうちから一部を特定してもよい。
 また、前記撮影データは、前記環境地図における前記撮影画像の撮影位置及び撮影方向を示すデータ、又は、前記環境地図における被写体の位置を示すデータであってもよい。
 また、前記撮影データ生成部は、さらに、特定される一部の前記撮影画像について、当該撮影画像よりも高品質な新たな画像を生成してもよい。
 また、本発明に係る撮影データ生成方法は、撮影画像を順次受け付けるステップと、複数の前記撮影画像に基づいて、環境地図を生成するステップと、前記環境地図に関連付けられる、前記撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成するステップと、を含む。
 また、本発明に係るプログラムは、撮影画像を順次受け付ける手順、複数の前記撮影画像に基づいて、環境地図を生成する手順、前記環境地図に関連付けられる、前記撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成する手順、をコンピュータに実行させる。
本発明の一実施形態に係るライフログ管理システムの一例を示す構成図である。 本発明の一実施形態に係るサーバの一例を示す構成図である。 本発明の一実施形態に係るトラッカーの一例を示す構成図である。 本発明の一実施形態に係るライフログ管理システムで実装される機能の一例を示す機能ブロック図である。 ライフログデータのデータ構造の一例を示す図である。 個別データのデータ構造の一例を示す図である。 本発明の一実施形態に係るサーバで行われる処理の流れの一例を示すフロー図である。
 以下、本発明の一実施形態について図面に基づき詳細に説明する。
 図1は、本発明の一実施形態に係るライフログ管理システム1の一例を示す構成図である。図1に示すように、本実施形態に係るライフログ管理システム1には、サーバ10とトラッカー12とが含まれる。
 サーバ10、トラッカー12は、インターネット等のコンピュータネットワーク14に接続されている。そして本実施形態では、サーバ10とトラッカー12とは、互いに通信可能となっている。
 本実施形態に係るサーバ10は、例えば、ライフログ管理システム1のユーザが利用するサーバコンピュータである。
 図2Aに示すように、本実施形態に係るサーバ10には、プロセッサ20、記憶部22、及び、通信部24、が含まれる。プロセッサ20は、例えばサーバ10にインストールされているプログラムに従って動作するCPU等のプログラム制御デバイスである。記憶部22は、例えばROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部22には、プロセッサ20によって実行されるプログラムなどが記憶される。通信部24は、ネットワークボードや無線LANモジュールなどといった通信インタフェースである。
 本実施形態に係るトラッカー12は、当該トラッカー12を装着したユーザの位置や向きを追跡する装置である。
 図2Bに示すように、本実施形態に係るトラッカー12には、プロセッサ30、記憶部32、通信部34、表示部36、センサ部38、が含まれる。
 プロセッサ30は、例えばトラッカー12にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。記憶部32は、例えばメモリ等の記憶素子などである。記憶部32には、プロセッサ30によって実行されるプログラムなどが記憶される。通信部34は、例えば無線LANモジュールなどの通信インタフェースである。
 表示部36は、トラッカー12の前側に配置されている、例えば液晶ディスプレイや有機ELディスプレイ等のディスプレイである。本実施形態に係る表示部36は、例えば左目用の画像と右目用の画像を表示することによって三次元画像を表示させることができるようになっている。なお表示部36は三次元画像の表示ができず二次元画像の表示のみができるものであっても構わない。
 センサ部38は、例えばカメラ、マイク、慣性センサ(IMU)、地磁気センサ(方位センサ)、GPS(Global Positioning System)モジュール、デプスセンサなどといったセンサである。センサ部38に含まれるカメラは、例えば所定のサンプリングレートで画像を撮影する。また、センサ部38に含まれるマイクは、例えば所定のサンプリングレートで、入力される音声に基づいて音声データを生成する。またセンサ部38に含まれる慣性センサは、トラッカー12の加速度、回転量、移動量などを示すデータを、所定のサンプリングレートで、プロセッサ30に出力する。またセンサ部38に含まれる地磁気センサは、トラッカー12が向く方位を示すデータを、所定のサンプリングレートで、プロセッサ30に出力する。またセンサ部38に含まれるGPSモジュールは、トラッカー12の緯度及び経度を示すデータを、所定のサンプリングレートで、プロセッサ30に出力する。
 センサ部38に含まれるデプスセンサは、例えば、ToF(Time of Flight)、Patterned stereo、Structured Lightなどの技術を用いたデプスセンサである。当該デプスセンサは、トラッカー12からの距離を示すデータを、所定のサンプリングレートで、プロセッサ30に出力する。
 また、センサ部38に、RFセンサ、超音波センサ、イベントドリブンセンサ、脈拍センサ、心拍センサ、体温センサなどの他のセンサが含まれていてもよい。
 なお本実施形態に係るトラッカー12が、例えばHDMI(登録商標)(High-Definition Multimedia Interface)ポート、USBポート、AUXポートなどの入出力ポート、ヘッドホン、スピーカなどを含んでいてもよい。
 本実施形態では、トラッカー12のセンサ部38に含まれる上述の各種のセンサが出力するセンシングデータを、トラッカー12がサーバ10に送信する。
 また、本実施形態では、センシングデータに基づいて、自己位置推定、及び、環境地図生成を含むSLAM(Simultaneous Localization and Mapping)処理が実行される。当該自己位置推定においては、例えば、トラッカー12の位置及び向きの少なくとも一方が推定される。ここでトラッカー12のグローバルな位置や向きが推定されてもよい。
 また、本実施形態では、SLAM処理によって、トラッカー12が取得するセンシングデータに基づく環境地図が生成される。環境地図とは、本実施形態では例えば、SLAM処理によってセンシングデータに基づいて生成される、ポイントクラウド、3Dメッシュ、テクスチャなどのオブジェクトを示すデータである。
 そして本実施形態では、上述のセンシングデータや環境地図や、センシングデータ及び環境地図から生成される各種のデータが、ライフログとしてサーバ10に蓄積される。
 このようにして本実施形態では、蓄積されるライフログデータが充実化される。
 以下、本実施形態に係るサーバ10及びトラッカー12の機能、及び、サーバ10で行われる処理についてさらに説明する。
 図3は、本実施形態に係るサーバ10及びトラッカー12で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るサーバ10及びトラッカー12で、図3に示す機能のすべてが実装される必要はなく、また、図3に示す機能以外の機能が実装されていても構わない。
 図3に示すように、サーバ10には、機能的には例えば、センシングデータ受信部40、ライフログデータ生成部42、ライフログデータ記憶部44、が含まれる。センシングデータ受信部40は、通信部24を主として実装する。ライフログデータ生成部42は、プロセッサ20を主として実装される。ライフログデータ記憶部44は、記憶部22を主として実装する。
 以上の機能は、コンピュータであるサーバ10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ20で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してサーバ10に供給されてもよい。
 また、図3に示すように、トラッカー12には、機能的には例えば、センシングデータ取得部46、センシングデータ送信部48、が含まれる。センシングデータ取得部46は、プロセッサ30及びセンサ部38を主として実装される。センシングデータ送信部48は、通信部34を主として実装される。
 以上の機能は、コンピュータであるトラッカー12にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ30で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してトラッカー12に供給されてもよい。
 センシングデータ取得部46は、本実施形態では例えば、トラッカー12のセンサ部38により生成されるセンシングデータを順次取得する。
 また、センシングデータ取得部46が取得するセンシングデータには、例えば、センサ部38に含まれるカメラにより撮影される撮影画像が含まれていてもよい。ここで、当該カメラが動画像を撮影してもよい。そして、センシングデータ取得部46が取得するセンシングデータには、例えば、当該カメラにより撮影される動画像のフレームである撮影画像が含まれていてもよい。また、トラッカー12が取得するセンシングデータに、センサ部38に含まれるマイクにより生成される音声データが含まれていてもよい。トラッカー12のセンサ部38に含まれるカメラやデプスセンサにより計測されるデプスデータが含まれていてもよい。
 また、トラッカー12が取得するセンシングデータには、トラッカー12のセンサ部38に含まれる地磁気センサにより計測される、トラッカー12の方位を示すデータが含まれていてもよい。また、トラッカー12が取得するセンシングデータには、センサ部38に含まれる慣性センサにより計測される、トラッカー12の加速度、回転量、移動量などを示すデータが含まれていてもよい。
 また、トラッカー12が取得するセンシングデータには、センサ部38に含まれるGPSモジュールにより計測される、トラッカー12の緯度及び経度を示すデータが含まれていてもよい。また、トラッカー12が取得するセンシングデータに、特徴点群(キーフレーム)が含まれていてもよい。
 また、トラッカー12が取得するセンシングデータには、脈拍、心拍、体温などを示すヘルスケアデータが含まれていてもよい。
 センシングデータ送信部48は、本実施形態では例えば、センシングデータ取得部46が取得するセンシングデータをサーバ10に順次送信する。本実施形態では例えば、トラッカー12によるセンシングが行われた時点を示すセンシング時点データが関連付けられたセンシングデータが送信される。
 本実施形態では例えば、トラッカー12におけるセンシングデータの取得及び送信は、繰り返し実行される。ここでトラッカー12におけるセンシングデータの取得及び送信が、所定の時間間隔で繰り返し実行されてもよい。
 センシングデータ受信部40は、本実施形態では例えば、トラッカー12のセンシングデータ送信部48から送信されるセンシングデータを順次受信する。
 ライフログデータ生成部42は、本実施形態では例えば、センシングデータ受信部40が受信するセンシングデータに基づいて、ライフログデータを生成する。そして、ライフログデータ生成部42は、本実施形態では例えば、生成されたライフログデータをライフログデータ記憶部44に記憶させる。
 ライフログデータ記憶部44は、本実施形態では例えば、上述のライフログデータを記憶する。
 図4は、ライフログデータ記憶部44に記憶されるライフログデータのデータ構造の一例を示す図である。図4に示すように、ライフログデータには、例えば、環境地図と、複数の個別データと、が含まれる。
 ライフログデータ生成部42は、例えば、センシングデータ受信部40が受信する複数のセンシングデータに基づいて、トラッカー12の位置又は向きの推定を含むSLAM処理を実行する。ここでトラッカー12のグローバルな位置や向きが推定されてもよい。ここで例えば、ライフログデータ生成部42が、リロカライズ処理、ループクロージング処理、3Dメッシュ化処理、物体認識処理などを含むSLAM処理を実行してもよい。
 ここで当該SLAM処理に、平面検出/3Dメッシュのセグメンテーション処理が含まれていてもよい。平面検出/3Dメッシュのセグメンテーション処理とは、地面、壁などといった連続した平面を検出して、全体の3Dメッシュを、地面、建物、木、などといった個々の3Dメッシュに分割する処理を指す。また、当該SLAM処理に、3Dメッシュの最適化処理が含まれていてもよい。3Dメッシュの最適化処理とは、3Dメッシュから、移動体と推定される部分や、ノイズなどによるゴミを除去したり、ポリゴン数を減らしたり、メッシュの表面を滑らかにしたりする処理を指す。また、当該SLAM処理に、テクスチャ生成処理が含まれていてもよい。テクスチャ生成処理とは、メッシュの頂点の色に基づいて3Dメッシュに対するテクスチャイメージを生成する処理を指す。
 また例えば、ライフログデータ生成部42が、時系列のセンシングデータを用いてSLAM処理を実行してもよい。
 ライフログデータ生成部42が実行する上述のSLAM処理によって、環境地図が生成される。ここで、ライフログデータ生成部42は、指定された時点における三次元環境地図が特定可能な、三次元空間と時間とを次元に含む四次元の環境地図を生成してもよい。このようにして生成される環境地図は、ライフログデータの一部としてライフログデータ記憶部44に記憶される。
 また、ライフログデータ生成部42は、本実施形態では例えば、センシングデータ受信部40が受信するセンシングデータ、及び、当該センシングデータに関連付けられているセンシング時点データを含む個別データを生成する。
 図5は、個別データのデータ構造の一例を示す図である。IDは、個別データの識別情報である。そして上述のように、個別データには、センシングデータ受信部40が受信する、撮影画像を含むセンシングデータ、及び、当該センシングデータに関連付けられているセンシング時点データが含まれる。
 また、本実施形態では例えば、ライフログデータ生成部42は、環境地図、及び、センシングデータのうちの少なくとも一方に基づいて、生成ライフログデータを生成する。このようにして生成される生成ライフログデータは、当該センシングデータを含む個別データに追加される。
 ここで例えば、ライフログデータ生成部42が、センシングデータに含まれる撮影画像と環境地図とに基づいて、当該環境地図に関連付けられる、当該撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成する。そして、ライフログデータ生成部42は、このようにして生成される撮影データを含む生成ライフログデータを個別データに追加してもよい。
 撮影データは、撮影画像の撮影位置及び当該撮影画像の撮影方向を示すデータであってもよい。ここで当該撮影位置及び撮影方向は、環境地図内における位置及び方向によって表現される。
 また、撮影データは、撮影画像の撮影位置及び当該撮影画像の被写体の位置である被写体位置を示すデータであってもよい。ここで、当該撮影位置及び被写体位置は、環境地図内における位置によって表現される。
 また、生成ライフログデータに、トラッカー12を装着するユーザの全身の姿勢を示す姿勢データ、撮影画像から抽出される人物を示すデータ、撮影画像や音声データから抽出されるテキスト、などが含まれていてもよい。
 また本実施形態では、ライフログデータに含まれる撮影画像の削除や高画質化などといった、再編成処理が実行される。
 ここで、本実施形態に係るサーバ10で行われる再編成処理の流れの一例を、図6に例示するフロー図を参照しながら説明する。
 まず、ライフログデータ生成部42が、前処理を実行する(S101)。S101に示す前処理では、ライフログデータ生成部42は、例えば、ライフログデータに含まれる一連の撮影画像のなかから、悪い画像であることを示す所定の条件を満足する撮影画像を削除する。例えば、ボケやブレが発生している、真っ白や真っ黒である、などといった条件を満足する撮影画像が削除される。また、S101に示す前処理では、ライフログデータ生成部42は、建物などの特定の被写体が一部にしか写っていない撮影画像を特定する。そして、ライフログデータ生成部42は、特定された撮影画像を、他のフレームの撮影画像と結合することによって、被写体全体が写っている撮影画像に変更する。
 そして、ライフログデータ生成部42は、ライフログデータ記憶部44に記憶されている撮影画像のうちから、複数の代表画像を特定する(S102)。S102に示す処理では、例えば、ライフログデータ生成部42は、互いに類似する複数の撮影画像を特定し、当該複数の撮影画像のうちのいずれかを当該複数の撮影画像に対応する代表画像に特定する。
 そして、ライフログデータ生成部42は、それぞれの代表画像について、当該代表画像の重要度を特定する(S103)。ここでは例えば、重要度が高いものほど大きな値の重要度が特定されることとする。
 S103に示す処理では、例えば、写っている人物が所定の人物(例えば、予め定められた、ユーザにとって重要な人物)である代表画像は、そうでない代表画像よりも高い重要度が特定されてもよい。
 また例えば、代表画像に対応する音声データにおいて、重要なキーワードや上述の所定の人物の名前を表す音声が示されている場合は、当該代表画像はそうでないものよりも高い重要度が特定されてもよい。
 また例えば、ユーザが注視している被写体が写っている代表画像はそうでないものよりも高い重要度が特定されてもよい。また、ユーザが注視している所定時間よりも長い被写体が写っている代表画像はそうでないものよりも高い重要度が特定されてもよい。ここでユーザの注視位置は、例えば、センシングデータに基づいて特定されるトラッカー12の姿勢に基づいて特定されてもよい。あるいはセンサ部38にアイトラッカーが含まれる場合は、アイトラッカーによる視線の検出結果に基づいて注視位置が特定されてもよい。
 また例えば、当該ユーザや他のユーザによってお気に入りの場所として登録されている場所や所定のイベントの代表画像、訪問頻度が所定回数より多い場所や当該場所で発生したイベントの代表画像については、そうでないものよりも高い重要度が特定されてもよい。また、過去に特定された重要度の値が所定値よりも大きな代表画像に類似する代表画像については、そうでないものよりも高い重要度が特定されてもよい。
 また、代表画像に対応する音声データや代表画像に写っている人物の表情を解析することで、当該代表画像に表れている状況が盛り上がっている程度が特定されてもよい。そして盛り上がっている程度が高い代表画像については、そうでないものよりも高い重要度が特定されてもよい。
 また例えば、有名なランドマークなどといった所定の被写体が写っている代表画像については、そうでないものよりも高い重要度が特定されてもよい。ここで例えば、環境地図と、代表画像に対応する撮影データに基づいて、当該代表画像が所定の場所の被写体が写っているものであるか否かが判定されてもよい。例えば、環境地図と、撮影位置及び撮影方向と、に基づいて、代表画像が所定の場所の被写体が写っているものであるか否かが判定されてもよい。また例えば、環境地図と、撮影データが示す被写体位置と、に基づいて、代表画像が所定の場所の被写体が写っているものであるか否かが判定されてもよい。
 また例えば、ディープラーニングなどの機械学習モデルや構図解析を用いて、代表画像がよいシーンを表すものであるか否かが判定されてもよい。例えば、有名な絵画や映画の1シーンに近いものがよいシーンを表すものと判定されてもよい。そしてよいシーンであると判定されるものは、そうでないものよりも高い重要度が特定されてもよい。
 そして、ライフログデータ生成部42は、複数の代表画像を、それぞれイベントに対応付けられる画像群に分類する分類処理を実行する(S104)。
 ここで上述のS103に示す処理における重要度の特定に用いられた情報を用いて、分類処理が実行されてもよい。ここで例えば、ライフログデータ生成部42は、環境地図と、複数の代表画像のそれぞれに対応付けられる撮影データと、に基づいて、当該複数の代表画像のうちから、所定の条件を満足する一部を、1つのイベントに対応付けられる画像群に特定してもよい。
 例えば、ライフログデータ生成部42は、環境地図と、代表画像に対応付けられる撮影データとに基づいて、複数の代表画像のうちから、当該環境地図内の所与の位置に存在する被写体が撮影された一部を特定してもよい。そして、ライフログデータ生成部42は、このようにして特定された一部を、当該位置の被写体についてのイベントに対応付けられる画像群に分類してもよい。
 例えば、環境地図と、代表画像に対応付けられる撮影データに基づいて、当該代表画像が所定の場所の被写体が写っているものであるか否かが判定されてもよい。例えば、環境地図と、代表画像に対応付けられる撮影データが示す撮影位置及び撮影方向と、に基づいて、当該代表画像が所定の場所の被写体が写っているものであるか否かが判定されてもよい。また例えば、環境地図と、代表画像に対応付けられる撮影データが示す被写体位置と、に基づいて、当該代表画像が所定の場所の被写体が写っているものであるか否かが判定されてもよい。そして所定の場所の被写体が写っているものと判定される代表画像が、当該被写体についてのイベントに対応付けられる画像群に分類されてもよい。
 本実施形態では上述のように、環境地図と、撮影画像に対応付けられる撮影データと、に基づいて、環境地図内における当該撮影画像の被写体の位置が容易に特定可能である。そのため、本実施形態によれば、被写体をキーにした撮影画像の特定を容易に行うことができる。
 また例えば、代表画像に対応付けられる撮影データが示す撮影位置についてクラスタリング処理を実行することで、それぞれ撮影位置が互いに離れた代表画像群に分類する分類処理が実行されてもよい。
 また例えば、代表画像に対応付けられる撮影データが示す撮影位置の間の距離に対応する移動量の大きさに基づいて、分類処理が実行されてもよい。例えば、撮影時点(センシング時点)が連続する2つの代表画像のそれぞれに対応付けられる撮影データが示す撮影位置の間の距離が所定の距離より長い場合は、当該2つの代表画像の間で画像群が分割されるようにしてもよい。また同様に、加速度の変化が大きい2つの代表画像の間で画像群が分割されるようにしてもよい。
 また例えば、2つの代表画像の変化が所定の変化よりも大きな変化である場合は、当該2つの代表画像の間で画像群が分割されるようにしてもよい。
 そして、ライフログデータ生成部42は、それぞれのイベントについて、少なくとも1つの重要画像を特定する(S105)。
 S105に示す処理では、それぞれのイベントに対応する重要度が特定される。ここでは例えばイベントに対応する代表画像の重要度の合計値や平均値などの代表値が当該イベントに対応する重要度の値として特定されてもよい。そして、重要度が高いイベントであるほど多くの数の重要画像が特定されてもよい。ここで1つのイベントに対応付けられる複数の代表画像のうちから、重要度の高いものから順に、当該イベントに対応する数の代表画像が重要画像に特定されてもよい。
 また例えば、イベントの重要度の値と代表画像の重要度の値との積が大きいものから順に、所定数の重要画像が特定されてもよい。
 また例えば、ライフログデータ生成部42は、代表画像に対応付けられる撮影データに基づいて、当該代表画像がレアなものである程度を評価してもよい。そしてライフログデータ生成部42は、このようにして評価されるレアなものである程度に基づいて、複数の代表画像のうちの一部を重要画像に特定してもよい。
 例えば、ライフログデータ生成部42は、代表画像を含む複数の撮影画像が撮影された位置の密度に基づいて、複数の代表画像のうちから一部を重要画像に特定してもよい。例えば、ライフログデータ生成部42は、代表画像が撮影された位置を中心にした所定の大きさの領域内において撮影された撮影画像の数を特定してもよい。そして特定された数が小さい代表画像が優先的に重要画像に特定されてもよい。例えば特定された数が所定数より小さい代表画像が重要画像に特定されてもよい。
 以上のように、撮影位置ができるだけ分散するよう重要画像が特定されてもよい。また同様にして、構図や撮影時点(センシング時点)ができるだけ分散するよう重要画像が特定されてもよい。
 また例えば、脈拍、心拍、体温などといったヘルスケアデータに基づいて、重要画像が特定されてもよい。例えば、脈拍が大きな、心拍が大きな、あるいは、体温が高いヘルスケアデータに対応付けられる代表画像が重要画像に特定されてもよい。
 そして、ライフログデータ生成部42は、S105に示す処理で特定された重要画像について後処理を実行する(S106)。
 S106に示す処理では、ライフログデータ生成部42は、重要画像について、当該重要画像よりも高品質な新たな画像を生成してもよい。
 例えば、重要画像に対応付けられる撮影データに基づいて、環境地図内における撮影位置、及び、撮影方向が特定されてもよい。ここで撮影データが示す撮影位置から撮影データが示す被写体位置に向かう方向が撮影方向に特定されてもよい。そして、当該撮影位置から当該撮影方向に向かって環境地図を見た様子を表す画像が生成されてもよい。そして、ライフログデータ生成部42が、このようにして生成される画像を、当該重要画像を含む個別データに追加してもよい。
 また例えば、重要画像の前後所定数フレームについての、撮影画像、奥行き情報、撮影方向を用いて、当該重要画像を高画質化した画像が生成されてもよい。ここで奥行き情報は、例えば、センシングデータに含まれるデプスデータに基づいて生成されてもよい。また、奥行き情報は、環境地図と撮影データとに基づいて生成されてもよい。また、撮影方向は、撮影データに基づいて特定されてもよい。また、撮影方向は、センシングデータに基づいて、特定されてもよい。そして、ライフログデータ生成部42が、このようにして生成される画像を、当該重要画像を含む個別データに追加してもよい。
 また例えば、重要画像については、複数のフレームにまたがって写っている被写体を連結するなどの、高画角化処理が実行されてもよい。また、重要画像についてはフレーム加算によるHDR化が行われてもよい。そして、ライフログデータ生成部42が、このようにして生成される画像を、当該重要画像を含む個別データに追加してもよい。
 また例えば、重要画像について、前後のフレームだけではなく、異なる日の同じ時刻付近の撮影画像や、異なる日の同じ場所を撮影した撮影画像や、同じ人物が写っている撮影画像が合成されるようにしてもよい。
 また例えば、複数のフレームについて重要画像が連続する場合は、これらの重要画像を含む動画像が重要動画像として特定されてもよい。そして、S106に示す処理で、重要動画像について手ブレ補正などの安定化処理が実行されてもよい。そして、ライフログデータ生成部42が、安定化処理が実行された重要動画像を、当該複数のフレームのうちの少なくとも1つのフレームに対応付けられる個別データに追加してもよい。
 S101~S106に示す処理は、例えば、所定の時間間隔で実行されてもよい。
 以上のようにすることで、例えば、高品質な画像を別途撮影しなくても、撮影画像に基づいて、重要なシーンについては高画質な画像が得られることとなる。
 本実施形態に係るライフログは、例えば、議事録の生成、テキストに基づくライフログの検索、バーチャルリアリティ(VR)による過去の追体験、特定の時期の子供のころからの三次元空間の復元、音声合成による会話、などに活用可能である。
 また、本実施形態に係るライフログは、例えば、定点観測による特定の地点の変化の再現、特定の時間に一緒にいた人物が誰であるかの特定、過去に旅行に行った場所、訪問してよかった場所、過去の周期的な行動の抽出、などに活用可能である。
 本実施形態においては例えば、ユーザがトラッカー12を常時身に着ける運用が行われる。そして、ユーザが特段意識することなく、常時身に着けたトラッカー12が撮影した動画像に対して、上述した、前処理、重要画像の特定、及び、重要画像に対する後処理(高画質化など)が実行される。そして、このようにして生成された高画質な静止画像がユーザに提示される。このようにすれば、ユーザが意識して写真を撮らなくても、ユーザが過ごした日々における高画質な写真がユーザに提示されることとなる。
 なお、本発明は上述の実施形態に限定されるものではない。

Claims (9)

  1.  撮影画像を順次受け付ける撮影画像受付部と、
     複数の前記撮影画像に基づいて、環境地図を生成する環境地図生成部と、
     前記環境地図に関連付けられる、前記撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成する撮影データ生成部と、
     を含むことを特徴とする撮影データ生成装置。
  2.  前記環境地図と前記撮影データとに基づいて、複数の前記撮影画像のうちから、所定の条件を満足する一部を特定する特定部、をさらに含む、
     ことを特徴とする請求項1に記載の撮影データ生成装置。
  3.  前記特定部は、前記環境地図と前記撮影データとに基づいて、複数の前記撮影画像のうちから、前記環境地図内の所与の位置に存在する被写体が撮影された前記撮影画像を特定する、
     ことを特徴とする請求項2に記載の撮影データ生成装置。
  4.  前記特定部は、前記撮影データに基づいて評価される、当該撮影データに対応付けられる前記撮影画像がレアなものである程度に基づいて、複数の前記撮影画像のうちから一部を特定する、
     ことを特徴とする請求項2に記載の撮影データ生成装置。
  5.  前記特定部は、前記撮影画像が撮影された位置の密度に基づいて、複数の前記撮影画像のうちから一部を特定する、
     ことを特徴とする請求項4に記載の撮影データ生成装置。
  6.  前記撮影データは、前記環境地図における前記撮影画像の撮影位置及び撮影方向を示すデータ、又は、前記環境地図における被写体の位置を示すデータである、
     ことを特徴とする請求項2から5のいずれか一項に記載の撮影データ生成装置。
  7.  前記撮影データ生成部は、さらに、特定される一部の前記撮影画像について、当該撮影画像よりも高品質な新たな画像を生成する、
     ことを特徴とする請求項2から6のいずれか一項に記載の撮影データ生成装置。
  8.  撮影画像を順次受け付けるステップと、
     複数の前記撮影画像に基づいて、環境地図を生成するステップと、
     前記環境地図に関連付けられる、前記撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成するステップと、
     を含むことを特徴とする撮影データ生成方法。
  9.  撮影画像を順次受け付ける手順、
     複数の前記撮影画像に基づいて、環境地図を生成する手順、
     前記環境地図に関連付けられる、前記撮影画像の撮影位置又は当該撮影画像の被写体を示す撮影データを生成する手順、
     をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2019/024816 2019-06-21 2019-06-21 撮影データ生成装置、撮影データ生成方法及びプログラム WO2020255408A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/024816 WO2020255408A1 (ja) 2019-06-21 2019-06-21 撮影データ生成装置、撮影データ生成方法及びプログラム
JP2021528626A JP7195430B2 (ja) 2019-06-21 2019-06-21 撮影データ生成装置、撮影データ生成方法及びプログラム
US17/614,817 US20220230435A1 (en) 2019-06-21 2019-06-21 Imaging data generation apparatus, imaging data generation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/024816 WO2020255408A1 (ja) 2019-06-21 2019-06-21 撮影データ生成装置、撮影データ生成方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2020255408A1 true WO2020255408A1 (ja) 2020-12-24

Family

ID=74040467

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024816 WO2020255408A1 (ja) 2019-06-21 2019-06-21 撮影データ生成装置、撮影データ生成方法及びプログラム

Country Status (3)

Country Link
US (1) US20220230435A1 (ja)
JP (1) JP7195430B2 (ja)
WO (1) WO2020255408A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248832A (ja) * 2010-05-31 2011-12-08 Denso It Laboratory Inc 画像収集システム、携帯端末、画像収集装置、及び画像収集方法
JP2018128314A (ja) * 2017-02-07 2018-08-16 富士通株式会社 移動体位置推定システム、移動体位置推定端末装置、情報格納装置、及び移動体位置推定方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627148B2 (en) * 2004-07-06 2009-12-01 Fujifilm Corporation Image data processing apparatus and method, and image data processing program
JP4287465B2 (ja) * 2006-12-18 2009-07-01 シャープ株式会社 画像処理装置
JP4655238B2 (ja) * 2008-09-19 2011-03-23 ソニー株式会社 画像処理装置および方法、並びにプログラム
US9152700B2 (en) * 2011-09-30 2015-10-06 Google Inc. Applying query based image relevance models
US10311096B2 (en) * 2012-03-08 2019-06-04 Google Llc Online image analysis
JP5703255B2 (ja) 2012-04-27 2015-04-15 株式会社東芝 画像処理装置、画像処理方法およびプログラム
US9720505B2 (en) * 2013-01-03 2017-08-01 Meta Company Extramissive spatial imaging digital eye glass apparatuses, methods and systems for virtual or augmediated vision, manipulation, creation, or interaction with objects, materials, or other entities
US20150242405A1 (en) * 2014-02-26 2015-08-27 Sony Corporation Methods, devices and systems for context-sensitive organization of media files
JP6149015B2 (ja) * 2014-09-10 2017-06-14 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
CN105912667A (zh) * 2016-04-12 2016-08-31 玉环看知信息科技有限公司 一种信息推荐方法、装置及移动终端
US10929461B2 (en) * 2016-07-25 2021-02-23 Evernote Corporation Automatic detection and transfer of relevant image data to content collections
US10140675B2 (en) * 2016-11-28 2018-11-27 Google Llc Image grid with selectively prominent images
JP2018110637A (ja) * 2017-01-10 2018-07-19 コニカミノルタ株式会社 動態画像処理装置
JP6905390B2 (ja) 2017-06-01 2021-07-21 株式会社豊田中央研究所 自車位置推定用環境地図生成装置、自車位置推定装置、自車位置推定用環境地図生成プログラム、及び自車位置推定プログラム
US11170269B2 (en) * 2018-12-12 2021-11-09 International Business Machines Corporation Selective image compression of an image stored on a device based on user preferences

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248832A (ja) * 2010-05-31 2011-12-08 Denso It Laboratory Inc 画像収集システム、携帯端末、画像収集装置、及び画像収集方法
JP2018128314A (ja) * 2017-02-07 2018-08-16 富士通株式会社 移動体位置推定システム、移動体位置推定端末装置、情報格納装置、及び移動体位置推定方法

Also Published As

Publication number Publication date
US20220230435A1 (en) 2022-07-21
JP7195430B2 (ja) 2022-12-23
JPWO2020255408A1 (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
US11238606B2 (en) Method and system for performing simultaneous localization and mapping using convolutional image transformation
US11238668B2 (en) Method for detecting objects and localizing a mobile computing device within an augmented reality experience
US11321385B2 (en) Visualization of image themes based on image content
CN109891189B (zh) 策划的摄影测量
US9911196B2 (en) Method and apparatus to generate haptic feedback from video content analysis
KR102480362B1 (ko) 클라우드 기반 증강 현실
EP3229459B1 (en) Information processing device, information processing method and program
JP7490784B2 (ja) 拡張現実マップキュレーション
DE112019001257T5 (de) Stabilisierung von video zur verringerung von kamera- und gesichtsbewegung
WO2022041182A1 (zh) 音乐推荐方法和装置
US20230103650A1 (en) System and method for providing scene information
JP7195430B2 (ja) 撮影データ生成装置、撮影データ生成方法及びプログラム
Ganapathy et al. Crowd Social Distance Measurement and Mask Detection
CN117119287A (zh) 一种无人机拍摄角度的确定方法、装置及介质
US20200137321A1 (en) Pulsating Image

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19933350

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021528626

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19933350

Country of ref document: EP

Kind code of ref document: A1