WO2019198200A1 - 学習用画像生成装置、学習用画像生成方法及びプログラム - Google Patents

学習用画像生成装置、学習用画像生成方法及びプログラム Download PDF

Info

Publication number
WO2019198200A1
WO2019198200A1 PCT/JP2018/015400 JP2018015400W WO2019198200A1 WO 2019198200 A1 WO2019198200 A1 WO 2019198200A1 JP 2018015400 W JP2018015400 W JP 2018015400W WO 2019198200 A1 WO2019198200 A1 WO 2019198200A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
background
composite
background image
continuous
Prior art date
Application number
PCT/JP2018/015400
Other languages
English (en)
French (fr)
Inventor
諒 川合
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/015400 priority Critical patent/WO2019198200A1/ja
Priority to US17/044,405 priority patent/US11429814B2/en
Priority to JP2020513015A priority patent/JP6908183B2/ja
Publication of WO2019198200A1 publication Critical patent/WO2019198200A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Definitions

  • the present invention relates to a learning image generation device, a learning image generation method, and a program.
  • CNN Conventional Neural Network
  • Patent Document 1 an image of a crowded person is reproduced by pasting an image of several persons on a background image, and is used for recognizing a congestion situation. Further, in Patent Document 2, when a new image is generated by combining two images, the color information on one side is converted to be similar to the color information on the other side, thereby suppressing the unnaturalness of the color. ing.
  • Patent Documents 1 and 2 presuppose generation of a still image.
  • continuous images a certain number of still images (hereinafter referred to as “continuous images”) continuous in time.
  • continuous images a certain number of still images
  • Patent Document 1, Patent Document 2, and Non-Patent Document 1 do not disclose means for solving the problem.
  • An object of the present invention is to provide means for increasing a learning image that is made up of continuous images and that reduces the unnatural movement of an object indicated by the continuous images.
  • Background image acquisition means for acquiring a background image
  • Background camera posture information acquisition means for acquiring posture information of the background camera that generated the background image
  • An object continuous image acquisition means for acquiring an object continuous image including an object
  • Combined position determining means for determining a combined position on the background image of the object included in each of the plurality of object still images included in the object continuous image based on posture information of the background camera;
  • Based on the background image, the object continuous image, and the composite position determined by the composite position determination means Based on the background image, the object continuous image, and the composite position determined by the composite position determination means, a composite continuous image is generated by combining the object included in each of the plurality of object still images with the background image.
  • Image synthesizing means A learning image generating apparatus having the above is provided.
  • An image compositing process There is provided a learning image generation method for executing the above.
  • Computer Background image acquisition means for acquiring a background image
  • Background camera posture information acquisition means for acquiring posture information of the background camera that generated the background image
  • Object continuous image acquisition means for acquiring an object continuous image including an object
  • a composite position determining means for determining a composite position on the background image of the object included in each of the plurality of object still images included in the object continuous image based on posture information of the background camera; Based on the background image, the object continuous image, and the composite position determined by the composite position determination means, a composite continuous image is generated by combining the object included in each of the plurality of object still images with the background image.
  • Image synthesizing means A program is provided that functions as:
  • the learning image generation device generates a plurality of continuous images by combining an object included in each of a plurality of still images included in the continuous image with a background image. Then, the learning image generation apparatus determines the synthesis position of the object on the background image using the posture information of the background camera when the background image is generated. By determining the synthesis position using the posture information, it is possible to reduce an unnatural point of motion of the object indicated by the continuous image generated by the synthesis. Details will be described below.
  • FIG. 1 shows an example of a functional block diagram of the learning image generation apparatus 100.
  • the functional block diagram shows a functional unit block, not a hardware unit configuration.
  • the learning image generation device 100 may be configured by a plurality of devices physically and / or logically separated, or may be configured by a single device physically and logically.
  • the learning image generation apparatus 100 includes a background image acquisition unit 111, a background camera posture information acquisition unit 112, an object continuous image acquisition unit 113, a synthesis position determination unit 121, and an image synthesis unit 131. Have.
  • Each functional unit included in the learning image generation apparatus 100 includes a CPU (Central Processing Unit) of an arbitrary computer, a memory, a program loaded into the memory, a storage unit such as a hard disk storing the program (stage of shipping the device in advance)
  • a CPU Central Processing Unit
  • programs stored on the Internet programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet can also be stored.) Realized by combination. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus.
  • FIG. 2 is a block diagram illustrating a hardware configuration of the learning image generation apparatus 100 according to this embodiment.
  • the learning image generating apparatus 100 includes a processor 1A, a memory 2A, an input / output interface 3A, a peripheral circuit 4A, and a bus 5A.
  • the peripheral circuit 4A includes various modules. Note that the device may not have the peripheral circuit 4A.
  • the bus 5A is a data transmission path through which the processor 1A, the memory 2A, the peripheral circuit 4A, and the input / output interface 3A transmit / receive data to / from each other.
  • the processor 1A is an arithmetic processing unit such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is a memory such as a RAM (Random Access Memory) or a ROM (Read Only Memory).
  • the input / output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, and the like, an interface for outputting information to an output device, an external device, an external server, and the like.
  • the input device is, for example, a keyboard, a mouse, a microphone, or the like.
  • the output device is, for example, a display, a speaker, a printer, a mailer, or the like.
  • the processor 1A can issue a command to each module and perform a calculation based on the calculation
  • the background image acquisition unit 111 acquires a background image.
  • FIG. 3 shows an example of the background image B.
  • “Acquisition” in the present embodiment includes at least one of active acquisition and passive acquisition.
  • the active acquisition can include, for example, that the own device (the learning image generation device 100) obtains data or information stored in another device or a storage device of the own device.
  • a request or an inquiry is transmitted from the own device to another device, data or information returned in response thereto is received, and another device or a storage device of the own device is accessed and read.
  • Passive acquisition can include acquiring data or information that is voluntarily output from another device toward itself.
  • Passive acquisition is, for example, receiving data or information that is distributed, transmitted, push notification, etc., or data or information input via an input device included in the own device or an input device connected to the own device.
  • Receiving. Acquisition may include selecting and acquiring from received data or information, or selecting and receiving distributed data or information. Note that the assumption regarding acquisition is the same in all of the following embodiments.
  • the background camera posture information acquisition unit 112 acquires posture information when the background image of the background camera that generated the background image acquired by the background image acquisition unit 111 is generated.
  • the posture information includes at least the elements of the focal length of the camera, the lens center of the camera, the rotation matrix of the camera, and the translation vector.
  • camera internal parameters for example, camera internal parameters (focal length, image center coordinates, distortion coefficient, etc.) and external parameters (rotation matrix, translation vector, etc.) at the time of generating a background image may be calculated by camera calibration. Then, the background camera posture information acquisition unit 112 may acquire the internal parameter and the external parameter as posture information.
  • the object continuous image acquisition unit 113 acquires an object continuous image that is a plurality of continuous images including an object.
  • Each of the plurality of still images included in the object continuous image includes an object.
  • a still image included in a continuous object image is referred to as an “object still image”.
  • the object is preferably moving, but may be stationary.
  • FIG. 4 shows an example of an object continuous image. In the figure, object still images O 1 to O 3 are shown.
  • the object still images O 1 to O 3 each include the same person (object).
  • the composition position determination unit 121 determines the composition position on the background image of the object included in each of the plurality of object still images based on the posture information of the background camera.
  • the coordinates shown in the two-dimensional coordinate system set on the image (hereinafter sometimes referred to as “coordinates on the image”) and the real camera are set.
  • the coordinates (hereinafter also referred to as “coordinates in the real space”) indicated by a three-dimensional coordinate system (hereinafter also referred to as the “coordinate system in the real space”) are mutually converted. be able to.
  • the composite position determined by the composite position determination unit 121 the moving distance of the object indicated by the composite continuous image is a natural content.
  • a technique for mutually converting the coordinates on the image and the coordinates on the real space using the posture information of the camera is a well-known technique, and thus description thereof is omitted here.
  • the image compositing unit 131 is based on the background image acquired by the background image acquiring unit 111, the object continuous image acquired by the object continuous image acquiring unit 113, and the composite position determined by the composite position determining unit 121.
  • a composite continuous image is generated by generating a plurality of composite still images by combining an object included in each image with a background image.
  • the image synthesizing unit 131 synthesizes a person included in the object still image O 1 of FIG. 4 with the background image B of FIG. 3 to generate a synthesized still image O 1 shown in FIG.
  • the image composition unit 131 synthesizes the person included in the object still image O 2 of FIG. 4 with the background image B of FIG. 3 to generate a composite still image O 2 shown in FIG.
  • the image composition unit 131 synthesizes the person included in the object still image O 3 of FIG. 4 with the background image B of FIG. 3 to generate a composite still image O 3 shown in FIG.
  • the image composition unit 131 cuts out a part of the image from each of the plurality of object still images, and synthesizes the cut image on the background image.
  • the area to be cut out is an area where an object exists. There are various means for determining a region to be cut out from an object still image. An example will be described below.
  • information indicating the position on the image of the object included in each of the plurality of object still images may be generated in advance. Then, the image composition unit 131 may determine a partial region to be cut out from each of the plurality of object still images based on the information.
  • the information may be, for example, a silhouette image as shown in FIG.
  • the illustrated silhouette images S 1 to S 3 indicate positions on the images of the persons included in the plurality of object still images O 1 to O 3 shown in FIG.
  • a silhouette image is, for example, an image in which a pixel including a body including a person's clothes is painted in white and a pixel not included is painted in black.
  • the image composition unit 131 may detect an object included in each of a plurality of object still images by using any image analysis means such as binarization processing, contour extraction processing, and pattern matching. Then, the image composition unit 131 may determine a region where the detected object exists as a region to be cut out.
  • image analysis means such as binarization processing, contour extraction processing, and pattern matching.
  • the background image acquisition unit 111 acquires a background image.
  • the background camera posture information acquisition unit 112 acquires posture information when the background image of the background camera that generated the background image acquired by the background image acquisition unit 111 is generated.
  • the object continuous image acquisition unit 113 acquires an object continuous image including an object.
  • the background image acquisition unit 111 acquires the background image
  • the background camera posture information acquisition unit 112 acquires the background camera posture information
  • the object continuous image acquisition unit 113 acquires the object continuous image. It may be performed in parallel.
  • the composite position determination unit 121 determines the composite position on the background image of the object included in each of the plurality of object still images included in the object continuous image based on the posture information of the background camera.
  • the image composition unit 131 performs multiple processing based on the background image acquired by the background image acquisition unit 111, the object continuous image acquired by the object continuous image acquisition unit 113, and the composite position determined by the composite position determination unit 121.
  • a composite continuous image is generated by generating a plurality of composite still images by combining an object included in each of the object still images with a background image.
  • the learning image generation apparatus 100 of the present embodiment described above it is possible to generate a learning image that is a learning image used for machine learning and is a continuous image. Further, according to the learning image generation apparatus 100 of the present embodiment that determines the composite position of an object based on the posture information of the background camera that generated the background image, the natural distance can be obtained from the moving distance of the object indicated by the composite continuous image. Can be.
  • the learning image generation apparatus 100 of the present embodiment it is possible to increase learning images that are composed of continuous images and reduce the unnatural movement of an object indicated by the continuous images.
  • the learning image generation apparatus 100 executes the same processing as in the first embodiment, but the processing content is embodied. This will be described below.
  • An example of the hardware configuration of the learning image generation apparatus 100 of this embodiment is the same as that of the first embodiment.
  • the learning image generation apparatus 100 includes a background image acquisition unit 111, a background camera posture information acquisition unit 112, an object continuous image acquisition unit 113, a synthesis position determination unit 121, and an image synthesis unit 131.
  • a background image acquisition unit 111 a background camera posture information acquisition unit 112
  • an object continuous image acquisition unit 113 a background camera posture information acquisition unit 112
  • a synthesis position determination unit 121 a synthesis position determination unit 131.
  • the background image acquisition unit 111 acquires a background image.
  • the background camera posture information acquisition unit 112 acquires posture information when the background image of the background camera that generated the background image acquired by the background image acquisition unit 111 is generated.
  • the learning image generation apparatus 100 includes a background image database (hereinafter referred to as “background image DB”) that stores one or more background images.
  • background image DB stores one or more background images.
  • An arbitrary image may be included in the background image stored in the background image DB, and a publicly available image DB may be used.
  • the background image DB stores posture information when each background image of the background camera that generated each background image is generated.
  • the background image acquisition unit 111 acquires a background image from the background image DB.
  • the background image acquisition unit 111 can acquire background images randomly from the background image DB.
  • the background image acquisition unit 111 may acquire the background image stored in the background image DB as it is, or may randomly acquire a part of the background image stored in the background image DB.
  • the background camera posture information acquisition unit 112 acquires posture information from the background image DB.
  • the object continuous image acquisition unit 113 acquires an object continuous image including an object.
  • the object is a person, but is not limited thereto.
  • the learning image generation apparatus 100 has an object continuous image database (hereinafter referred to as “object continuous image DB”) that stores one or a plurality of object continuous images.
  • object continuous image DB an object continuous image database
  • the object continuous image DB includes one or a plurality of object continuous images, person position information indicating positions and areas where a person is present in each of the plurality of object still images included in each object continuous image, and a frame of each object continuous image. Rate information is stored.
  • the person position information is, for example, the silhouette image described in the first embodiment, but is not limited thereto.
  • the object continuous image DB may include an object continuous image including an arbitrary person, but it is desirable that an object continuous image including various persons with different gender, age, clothes, and the like be included.
  • the object continuous image acquisition unit 113 can acquire an object continuous image from the object continuous image DB.
  • the height information can be acquired from the object continuous image acquisition unit 113 and the object continuous image DB.
  • the object continuous image acquisition unit 113 may acquire an object continuous image whose frame rate is the same as or a multiple of the desired frame rate of the composite continuous image from the object continuous image DB. That is, the object continuous image acquisition unit 113 may search the object continuous image DB using the frame rate as a key, and acquire an object continuous image that matches the key.
  • the object continuous image acquisition unit 113 receives a plurality of object still images included in the acquired object continuous image. By extracting partly, it is possible to generate a continuous object image having the same frame rate as the desired frame rate of the composite continuous image. For example, when the desired frame rate of the composite continuous image is 10 fps and the frame rate of the acquired object continuous image is 30 fps, by extracting an object still image from every second object continuous image, An object continuous image having the same frame rate as the desired frame rate of the composite continuous image can be generated.
  • the desired frame rate of the composite continuous image may be registered in advance in the learning image generation device 100, or may be input by an operator operating the learning image generation device 100.
  • the composite position determination unit 121 determines, for each composite still image, a composite position on the background image of a person included in each of the plurality of object still images based on the posture information of the background camera.
  • An example of a specific procedure is as follows.
  • the composition position determination unit 121 determines where the foot of each person to be synthesized is positioned on the background image in the first composite still image in the composite continuous image. At this time, the step may be outside the image. It is natural to define the feet as the midpoint of the straight line connecting the centers of the left and right feet (if either foot is floating, the midpoint is straight down to the ground). Not exclusively.
  • first still image in the continuous image is a still image that is displayed first when the continuous image is played back.
  • last still image in continuous images is a still image that is displayed last when a continuous image is played back.
  • Nth still image in the continuous image is the Nth displayed still image when the continuous image is played back. This assumption is the same in all the following embodiments.
  • the composition position determination unit 121 determines the actual moving distance that each person moves from the first composite still image to the last composite still image in the composite continuous image.
  • the step length of a person is approximately 0.45 times the height, and the time taken for a person to walk one step is approximately 0.5 seconds. From these, it can be seen that a person can walk a distance approximately 0.9 times his height in one second. Therefore, the actual moving distance can be estimated from the fact, the reproduction time of the composite continuous image, and information on the height of the person (assuming the average height of the person as with the image composition unit 131 if there is no height information).
  • the moving distance on the image (on the background image) from the first synthesized still image to the last synthesized still image of the synthesized continuous image is estimated based on the background camera posture information.
  • the moving direction is the same as that of the continuous object image, and the position of each person's foot is determined for the last synthesized still image. Then, the position of the foot is determined by dividing the moving distance from the first synthesized still image to the last synthesized still image at equal intervals with respect to the synthesized position of other synthesized still images.
  • the actual length and the length on the image may be mutually converted from the camera posture information. However, since this method is widely known, a description thereof will be omitted. Note that the distance that a person can walk in 1 second may be calculated not by the above numerical value but by independently taking statistics.
  • FIG. 8 shows an example of a functional block diagram of the synthesis position determination unit 121.
  • the composite position determination unit 121 includes a movement direction determination unit 1211, a movement distance determination unit 1212, and a position determination unit 1213.
  • the above processing is realized by cooperation of these.
  • the flow of processing will be described with reference to the flowchart of FIG.
  • the position determining means 1213 arbitrarily determines the combination position (first combined position) of the person on the background image in the first combined still image in the combined continuous image (S20). Thereafter, the position determination unit 1213 converts the coordinates on the image indicating the first combined position into coordinates in the real space using the posture information of the background camera (S21).
  • the composite position indicates coordinates on the image of a person's foot, the vertex of the head, the center of the face, or an arbitrary part of the body.
  • the synthesis position may be determined so that the entire body of the person fits in the image, or the synthesis position may be determined so that a part of the body of the person leaks from the image.
  • the moving direction determining means 1211 determines the moving direction on the background image that is the moving direction of the person on the background image in the composite continuous image (S22). For example, the movement direction determination unit 1211 determines the movement direction of the person on the image in the object continuous image as the movement direction on the background image.
  • the moving direction of the person on the image in the object continuous image is, for example, from the position on the person image (coordinates on the image) in the first object still image to the position on the person image in the last object still image (on the image Direction).
  • the moving direction determining unit 1211 converts the moving direction on the background image into the moving direction on the real space using the posture information of the background camera (S23).
  • the moving distance determining means 1212 determines the distance (actual moving distance) that the person moves in the real space during the reproduction time of the composite continuous image (S24).
  • the actual movement distance may be determined based on the height of the person indicated by the height information acquired by the object continuous image acquisition unit 113 and the reproduction time of the composite continuous image. For example, as described above, the moving distance determination unit 1212 calculates the product of “0.9 times the height of the person indicated by the height information” and “reproduction time (seconds) of the composite continuous image” as the actual moving distance. can do. It should be noted that the coefficient (0.9) to be multiplied by the person's height can be another value based on this. For example, it may be calculated by independently taking statistics. Further, when the object continuous image acquisition unit 113 does not acquire the height information, the object continuous image acquisition unit 113 may calculate the actual moving distance using other values such as an average height of an arbitrary group.
  • the processing order of the processing of S20 and S21 by the position determination means 1213, the processing of S22 and S23 by the movement direction determination means 1211, and the processing of S24 by the movement distance determination means 1212 is limited to that shown in the flowchart of FIG. Instead, other orders may be used, or these may be performed in parallel.
  • the position determining means 1213 is based on the coordinates in the real space indicating the first combined position calculated in S21, the moving direction in the real space calculated in S23, and the actual moving distance calculated in S24. Then, the synthesis position in the last synthesized still image is determined.
  • the position determination means 1213 is only the “actual movement distance” from the “coordinates indicating the first composite position” toward the “movement direction in the real space” in the coordinate system in the real space.
  • the end point position after the movement is calculated, and this is set as the synthesis position in the last synthesized still image (S25).
  • the position determining unit 1213 converts the coordinates in the real space indicating the combined position in the last combined still image into the coordinates on the image using the posture information of the background camera (S26).
  • the moving distance determining unit 1212 calculates the first composite position indicated by the coordinates on the image determined in S20 and the composite position in the final composite still image indicated by the coordinates on the image calculated in S26.
  • the straight line distance is calculated as the movement distance on the background image (S27).
  • the position determining means 1213 determines the composite position of another composite still image (S28). Specifically, the position determining unit 1213 is configured to move the linear distance (moving on the background image) between the combined position (first combined position) on the image in the first combined still image and the combined position on the image in the last combined still image. (Distance) is divided at equal intervals based on the number of remaining image still images to calculate a division distance. Then, the position determining unit 1213 moves as a composite position in the Nth (N> 1) composite still image from the composite position in the (N ⁇ 1) th composite still image by a division distance in the moving direction on the background image. Determine the position after. Note that the method for dividing the movement distance on the background image is not limited to equal division, and other division methods may be adopted.
  • FIG. 10 shows the concept of the synthesis position Ns (first synthesis position) of the first synthesized still image, the synthesis position Ne of the last synthesized still image, the background image moving direction, and the background image moving distance.
  • the position determining unit 1213 determines the composite position in the final composite still image after determining the composite position in the first composite still image, and then determines the composite position in the other composite still image.
  • the composite position in the first composite still image is similarly determined, and then the composite position in the other composite still image is similarly determined.
  • the first synthesis position is the synthesis position in the last synthesized still image.
  • the position determination means 1213 is changed from “the coordinates indicating the first composite position” to “the reverse direction of the movement direction in the real space (180 ° opposite direction)” in the coordinate system in the real space. The end point position after moving by “actual moving distance” is calculated, and this is set as the composite position in the first composite still image.
  • the position determining unit 1213 determines one composite position among the plurality of composite still images included in the composite continuous image, and then determines the other based on the movement direction on the background image and the movement distance on the background image.
  • the composite position of the composite still image can be determined.
  • composition position determination unit 121 Other configurations of the composition position determination unit 121 are the same as those in the first embodiment.
  • the image compositing unit 131 is based on the background image acquired by the background image acquiring unit 111, the object continuous image acquired by the object continuous image acquiring unit 113, and the composite position determined by the composite position determining unit 121.
  • a composite continuous image is generated by combining a person included in each image with a background image to generate a plurality of composite still images.
  • the image composition unit 131 may adjust (enlarge / reduce) the size of an image showing a person cut out from the object still image, and then compose the image on the background image.
  • the image composition unit 131 can adjust the size of the cut image so that the person on the background image has a natural size based on the composition position, the height of the person, and the posture information of the background camera. .
  • the size of the cut image is set so that the height of the person obtained by converting the coordinates of the vertex of the person's head on the background image and the coordinates of the feet into the coordinates of the real space becomes a predetermined height.
  • the predetermined height may be the height of each person indicated by the height information described above, or the average height of an arbitrary group.
  • An example of the processing flow of the learning image generation apparatus 100 of the present embodiment is the same as that of the first embodiment.
  • the learning image generating apparatus 100 according to the present embodiment is different from the second embodiment in the means for calculating the movement distance on the background image.
  • Other configurations are the same as those of the second embodiment. This will be described below.
  • An example of the hardware configuration of the learning image generation apparatus 100 of the present embodiment is the same as that of the first and second embodiments.
  • FIG. 11 shows an example of a functional block diagram of the learning image generation apparatus 100 of the present embodiment.
  • the learning image generation apparatus 100 includes a background image acquisition unit 111, a background camera posture information acquisition unit 112, an object continuous image acquisition unit 113, an object camera posture information acquisition unit 114, and a composite position determination unit. 121 and an image composition unit 131.
  • the composite position determination unit 121 includes a movement direction determination unit 1211, a movement distance determination unit 1212, and a position determination unit 1213.
  • the configurations of the background image acquisition unit 111, the background camera posture information acquisition unit 112, the object continuous image acquisition unit 113, the image composition unit 131, the movement direction determination unit 1211, and the position determination unit 1213 are the same as those in the first and second embodiments. It is.
  • the object camera posture information acquisition unit 114 acquires posture information at the time of image generation of the object camera that generated the object continuous image. For example, by camera calibration, internal parameters (focal length, image center coordinates, distortion coefficient, etc.) and external parameters (rotation matrix, translation vector, etc.) of the object camera at the time of continuous object image generation are calculated. Then, the object camera posture information acquisition unit 114 acquires the internal parameter and the external parameter as posture information. Note that the posture information at the time of image generation of the object camera that generated each object continuous image may be registered in the object continuous image DB described in the second embodiment. Then, the object camera posture information acquisition unit 114 may acquire the posture information of the object camera from the object continuous image DB.
  • the moving distance determining means 1212 is a means different from the second embodiment, and determines the distance (actual moving distance) that the person moves in the real space during the reproduction time of the composite continuous image. Specifically, the moving distance determination unit 1212 calculates the actual moving distance of the object indicated by the object continuous image based on the object continuous image and the posture information of the object camera. For example, the moving distance determination unit 1212 converts the coordinates of the person on the image in the first object still image into the coordinates in the real space based on the posture information of the object camera. Further, the moving distance determining unit 1212 converts the coordinates of the person on the image in the last object still image into coordinates in the real space based on the posture information of the object camera.
  • the movement distance determining means 1212 calculates the straight line distance between the two coordinates in the calculated real space as the actual movement distance. Note that the playback time from the first object still image to the last object still image is the same as the playback time of the composite continuous image.
  • An example of the processing flow of the learning image generation apparatus 100 of the present embodiment is the same as in the first and second embodiments.
  • the actual movement distance of the person indicated by the object continuous image is calculated, and the person's composition position is determined so as to move the movement distance in the composite continuous image. can do.
  • the unnaturalness of the moving distance can be eliminated.
  • the walking speed is different and the actual travel distance can be different.
  • the speed at which the hands and feet move is different.
  • the actual moving distance of the person indicated by the object continuous image can be calculated, and the combined position of the person can be determined so as to move the moving distance in the combined continuous image. Can reduce unnaturalness.
  • the learning image generation apparatus 100 is different from the first to third embodiments in that a plurality of persons can be combined into one background image.
  • Other configurations are the same as those of the first to third embodiments. This will be described below.
  • An example of the hardware configuration of the learning image generation apparatus 100 of the present embodiment is the same as that of the first to third embodiments.
  • the learning image generation apparatus 100 includes a background image acquisition unit 111, a background camera posture information acquisition unit 112, an object continuous image acquisition unit 113, a composite position determination unit 121, and an image composition unit 131. And have. As illustrated in FIG. 11, the learning image generation apparatus 100 may further include an object camera posture information acquisition unit 114.
  • the composite position determination unit 121 includes a movement direction determination unit 1211, a movement distance determination unit 1212, and a position determination unit 1213.
  • the configurations of the background image acquisition unit 111, the background camera posture information acquisition unit 112, the object continuous image acquisition unit 113, and the object camera posture information acquisition unit 114 are the same as those in the first to third embodiments.
  • the composite position determination unit 121 determines the composite position of each of a plurality of persons on the same background image in the same manner as in the first to third embodiments.
  • Other configurations of the synthesis position determination unit 121 are the same as those in the first to third embodiments.
  • the configurations of the moving direction determining unit 1211, the moving distance determining unit 1212, and the position determining unit 1213 are the same as those in the second and third embodiments.
  • the image composition unit 131 composes a plurality of persons on one background image. Means for synthesizing a person with a background image is the same as in the first to third embodiments.
  • the image composition unit 131 can compose in order from a person who is far away from the camera. If a part or all of the person to be synthesized later overlaps the person synthesized earlier on the image, the image of the person to be synthesized later is positioned on the upper side. In this case, the overlapping portion of the previously synthesized person does not appear on the image.
  • the order of the distance from the camera can be determined by any means.For example, the coordinates of the feet of each person synthesized on the background image are calculated based on the combination position determined for each person, and the coordinates of the feet are A person closer to the lower end may be determined as a person having a smaller distance from the camera.
  • An example of the processing flow of the learning image generation apparatus 100 of the present embodiment is the same as in the first to third embodiments.
  • the learning image generating apparatus 100 of the present embodiment described above the same operational effects as those of the first to third embodiments are realized. Further, according to the learning image generation apparatus 100 of the present embodiment that can synthesize a plurality of persons on one background image, it is possible to generate a variety of combined continuous images.
  • the learning image generating apparatus 100 includes means for determining whether there is no contradiction between the combined positions of a plurality of persons when a plurality of persons are combined with one background image. This is different from the fourth embodiment. Other configurations are the same as those of the first to fourth embodiments. This will be described below.
  • An example of the hardware configuration of the learning image generation apparatus 100 of the present embodiment is the same as that of the first to fourth embodiments.
  • the learning image generation apparatus 100 includes a background image acquisition unit 111, a background camera posture information acquisition unit 112, an object continuous image acquisition unit 113, a composite position determination unit 121, and an image composition unit 131. And have. As illustrated in FIG. 11, the learning image generation apparatus 100 may further include an object camera posture information acquisition unit 114.
  • the composite position determination unit 121 includes a movement direction determination unit 1211, a movement distance determination unit 1212, a position determination unit 1213, and a contradiction determination unit 1214.
  • the configurations of the background image acquisition unit 111, the background camera posture information acquisition unit 112, the object continuous image acquisition unit 113, and the object camera posture information acquisition unit 114 are the same as those in the first to fourth embodiments.
  • the contradiction determining unit 1214 determines whether there is a contradiction among the composite positions of the plurality of objects determined by the position determining unit 1213.
  • FIG. 13 shows three synthesized still images P 1 to P 3 . Note that the background image and the detailed appearance of the person are not necessary for the description here, and are omitted in the figure.
  • the contradiction determining unit 1214 determines whether there is any unnaturalness in the arrangement order of the plurality of persons as described above based on the composite position determined by the position determining unit 1213.
  • the contradiction determining unit 1214 determines that if the distance in the left-right direction on the image between the combined position of the first person and the combined position of the second person in the Nth combined still image is equal to or smaller than the threshold, In the composite still image and the (N + 1) -th composite still image, if the order of the first person's composite position and the second person's composite position in the front-rear direction is reversed, there is a contradiction. You may judge.
  • the first person and the second person that satisfy the condition that “the distance in the left-right direction on the image between the composite position of the first person and the composite position of the second person is equal to or less than the threshold” The distance in the left-right direction on the image is so close that the operation of shifting one side to the other (the operation shifting in the left-right direction in the figure) is necessary to change the order of arrangement in the front-rear direction. It would be unnatural if the order of front and back on the two images, which should require such a dodging action to switch the order of front and back on each other's images, is switched between two consecutive composite still images. .
  • the contradiction determination means 1214 can detect such a contradiction.
  • the order of arrangement in the front-rear direction on the image can be determined based on the coordinates of the feet of each person, for example. For example, it is determined based on a rule in which the foot coordinates are in front of a person closer to the lower end of the image.
  • the contradiction determining unit 1214 performs the Nth synthesis when the distance in the vertical direction in the figure between the synthesis position of the first person and the synthesis position of the second person in the Nth synthesized still image is equal to or smaller than the threshold value.
  • the still image and the (N + 1) th composite still image if the arrangement order of the first person's composite position and the second person's composite position in the horizontal direction in the figure is reversed, it is determined that there is a contradiction. May be.
  • the first person and the second person satisfying the condition that “the vertical distance on the image between the composite position of the first person and the composite position of the second person is equal to or less than the threshold”
  • the distance in the vertical direction on the image is so close that an operation in which one of the two does the other (an operation that shifts in the vertical direction in the figure) is required. It would be unnatural if the order of left and right images on two images, which should require such a dodging action, is switched between two consecutive still images. .
  • the contradiction determination means 1214 can detect such a contradiction.
  • the composition position determination unit 121 re-determines the composition position when the contradiction determination unit 1214 determines that there is a contradiction.
  • Other configurations of the synthesis position determination unit 121 are the same as those in the first to fourth embodiments.
  • the configurations of the moving direction determining unit 1211, the moving distance determining unit 1212, and the position determining unit 1213 are the same as those in the second to fourth embodiments.
  • the image composition unit 131 generates a composite continuous image based on the composite position determined by the contradiction determination unit 1214 to be consistent.
  • Other configurations of the image composition unit 131 are the same as those in the first to fourth embodiments.
  • the background image acquisition unit 111 acquires a background image.
  • the background camera posture information acquisition unit 112 acquires posture information when the background image of the background camera that generated the background image acquired by the background image acquisition unit 111 is generated.
  • the object continuous image acquisition unit 113 acquires an object continuous image including an object.
  • the background image acquisition unit 111 acquires the background image
  • the background camera posture information acquisition unit 112 acquires the background camera posture information
  • the object continuous image acquisition unit 113 acquires the object continuous image. It may be performed in parallel.
  • the composite position determination unit 121 determines the composite position on the background image of each person included in each of the plurality of object still images for each composite still image.
  • the contradiction determination unit 1214 determines whether there is a contradiction between the combined positions of a plurality of persons. Since the details of the determination are as described above, a description thereof is omitted here.
  • the process returns to S31 and the composite position determination unit 121 determines the composite position again.
  • the image composition unit 131 acquires the background image acquired by the background image acquisition unit 111 and the object continuous image acquired by the object continuous image acquisition unit 113. Based on the combination position determined by the combination position determination unit 121, a plurality of persons are combined with the background image to generate a plurality of combined still images, thereby generating a combined continuous image (S33).
  • the same function and effect as those of the first to fourth embodiments are realized. Further, it is possible to reduce the unnaturalness of the arrangement order that may occur when a plurality of persons are combined. As a result, it is possible to reduce unnaturalness and generate various composite continuous images.
  • Background image acquisition means for acquiring a background image
  • Background camera posture information acquisition means for acquiring posture information of the background camera that generated the background image
  • An object continuous image acquisition means for acquiring an object continuous image including an object
  • Combined position determining means for determining a combined position on the background image of the object included in each of the plurality of object still images included in the object continuous image based on posture information of the background camera;
  • Based on the background image, the object continuous image, and the composite position determined by the composite position determination means Based on the background image, the object continuous image, and the composite position determined by the composite position determination means, a composite continuous image is generated by combining the object included in each of the plurality of object still images with the background image.
  • Image synthesizing means A learning image generating apparatus having 2.
  • the synthetic position determining means includes A moving direction determining means for determining a moving direction on the background image that is a moving direction of the object on the background image in the composite continuous image; Based on the posture information of the background camera, a moving distance determining means for determining a moving distance on the background image that is a moving distance of the object on the background image in the composite continuous image; Position determining means for determining the composite position based on the moving direction on the background image and the moving distance on the background image; A learning image generating apparatus having 3.
  • the object is a person;
  • the moving distance determining means includes Based on the height information indicating the height of the person and the reproduction time of the composite continuous image, the actual movement distance that the person moves within the reproduction time is estimated, A learning image generating device that converts the actual moving distance into the moving distance on the background image based on the posture information of the background camera. 4).
  • the learning image generating apparatus Further comprising object camera posture information acquisition means for acquiring posture information of the object camera that generated the object continuous image;
  • the moving distance determining means includes Based on the object continuous image and the posture information of the object camera, the actual moving distance of the object is calculated, A learning image generating device that converts the actual moving distance into the moving distance on the background image based on the posture information of the background camera. 5.
  • the position determining means includes After determining one of the plurality of combined still images included in the combined continuous image, the other positions included in the combined continuous image based on the moving direction on the background image and the moving distance on the background image A learning image generating apparatus for determining the composite position of the composite still image. 6).
  • the composite position determining means determines the composite position of each of the plurality of objects;
  • the image synthesizing unit is a learning image generating apparatus that synthesizes a plurality of the objects with one background image. 7).
  • the learning image generating device wherein The learning image generation apparatus includes a contradiction determining unit that determines whether there is a contradiction among the combined positions of a plurality of the objects. 8).
  • Computer Background image acquisition means for acquiring a background image
  • Background camera posture information acquisition means for acquiring posture information of the background camera that generated the background image
  • Object continuous image acquisition means for acquiring an object continuous image including an object
  • a composite position determining means for determining a composite position on the background image of the object included in each of the plurality of object still images included in the object continuous image based on posture information of the background camera; Based on the background image, the object continuous image, and the composite position determined by the composite position determination means, a composite continuous image is generated by combining the object included in each of the plurality of object still images with the background image.
  • Image synthesizing means Program to function as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Circuits (AREA)

Abstract

本発明は、背景画像を取得する背景画像取得部(111)と、背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得部(112)と、物体を含む物体連続画像を取得する物体連続画像取得部(113)と、物体連続画像に含まれる複数の物体静止画像各々に含まれる物体の背景画像上の合成位置を、背景カメラの姿勢情報に基づき決定する合成位置決定部(121)と、背景画像と、物体連続画像と、合成位置とに基づき、複数の物体静止画像各々に含まれる物体を背景画像に合成した合成連続画像を生成する画像合成部(131)と、を有する学習用画像生成装置(100)を提供する。

Description

学習用画像生成装置、学習用画像生成方法及びプログラム
 本発明は、学習用画像生成装置、学習用画像生成方法及びプログラムに関する。
 近年、監視カメラ等の画像をコンピュータにより処理することで、不審、あるいは異常な行動を行う人物等の検出などを行う技術が多数開発されている。このような技術は、機械学習をもとに確立されていることが多い。
 最近特に広く用いられている機械学習技術として、非特許文献1で述べられているCNN(Convolutional Neural Network)に代表される、ディープラーニングと呼ばれる技術がある。この技術は様々な認識対象に対して高い認識率を得ることができることが示されている。
 ディープラーニングにおいては、非常に多くの学習用データが必要とされている。認識対象によっては、インターネット上にアップロードされている画像や動画を用いて大量の学習用画像を得るなどの手段がとられているが、監視の用途で用いる映像は公開される性質の映像でないため、インターネットなどを利用して画像を集めることは困難である。
 そこで、学習するための画像を人工的に生成する技術が提案されている。たとえば特許文献1では、背景画像に何人かの人物の画像を貼り付けることで、人が込み合っている状態の画像を再現し、混雑状況の認識に利用している。また、特許文献2では、2枚の画像を合成して新しい画像を生成する際、片方の色情報をもう片方の色情報に類似するように変換することで、色の不自然さを抑制している。
特許第6008045号公報 特開2017-45441号公報
LeCun et al., "Gradient-based learning applied to document recognition", Proceedings of the IEEE, 1998
 特許文献1及び2は、静止画像の生成を前提としている。しかし、人物の行動を認識するときは、一定時間の動画像、即ち時間的に連続した一定枚数の静止画像(以下、「連続画像」と呼ぶ)の認識が必要になる場合が多い。連続画像からなる学習用画像を生成する場合、連続画像で示される物体の動きが不自然になることを軽減する必要がある。特許文献1、特許文献2及び非特許文献1は当該課題を解決する手段を開示していない。
 本発明は、連続画像からなり、連続画像で示される物体の動きが不自然になることを軽減した学習用画像を増やす手段を提供することを課題とする。
 本発明によれば、
 背景画像を取得する背景画像取得手段と、
 前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段と、
 物体を含む物体連続画像を取得する物体連続画像取得手段と、
 前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段と、
 前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段と、
を有する学習用画像生成装置が提供される。
 また、本発明によれば、
 コンピュータが、
 背景画像を取得する背景画像取得工程と、
 前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得工程と、
 物体を含む物体連続画像を取得する物体連続画像取得工程と、
 前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定工程と、
 前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成工程と、
を実行する学習用画像生成方法が提供される。
 また、本発明によれば、
 コンピュータを、
 背景画像を取得する背景画像取得手段、
 前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段、
 物体を含む物体連続画像を取得する物体連続画像取得手段、
 前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段、
 前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段、
として機能させるプログラムが提供される。
 本発明によれば、連続画像からなり、連続画像で示される物体の動きが不自然になることを軽減した学習用画像を増やすことができる。
 上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本実施形態の学習用画像生成装置の機能ブロック図の一例である。 本実施形態の学習用画像生成装置のハードウエア構成の一例を示す図である。 本実施形態の背景画像の一例を示す図である。 本実施形態の物体連続画像の一例を示す図である。 本実施形態の合成連続画像の一例を示す図である。 本実施形態のシルエット画像の一例を示す図である。 本実施形態の学習用画像生成装置の処理の流れの一例を示すフローチャートである。 本実施形態の合成位置決定部の機能ブロック図の一例である。 本実施形態の合成位置決定部の処理の流れの一例を示すフローチャートである。 本実施形態の背景画像上移動距離及び背景画像上移動方向等を説明するための図である。 本実施形態の学習用画像生成装置の機能ブロック図の一例である。 本実施形態の合成位置決定部の機能ブロック図の一例である。 本実施形態の矛盾判断手段の処理を説明するための図である。 本実施形態の学習用画像生成装置の処理の流れの一例を示すフローチャートである。
<第1の実施形態>
 まず、本実施形態の学習用画像生成装置の概要を説明する。学習用画像生成装置は、連続画像に含まれる複数の静止画像各々に含まれる物体を背景画像に合成して、複数の連続画像を生成する。そして、学習用画像生成装置は、背景画像を生成した時の背景カメラの姿勢情報を利用して、背景画像上の物体の合成位置を決定する。上記姿勢情報を利用して合成位置を決定することで、合成により生成された連像画像で示される物体の動きの不自然な点を軽減できる。以下、詳細に説明する。
 図1に、学習用画像生成装置100の機能ブロック図の一例を示す。機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。学習用画像生成装置100は、物理的及び/又は論理的に分かれた複数の装置により構成されてもよいし、物理的及び論理的に1つの装置により構成されてもよい。
 図示するように、学習用画像生成装置100は、背景画像取得部111と、背景カメラ姿勢情報取得部112と、物体連続画像取得部113と、合成位置決定部121と、画像合成部131とを有する。
 学習用画像生成装置100が備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図2は、本実施形態の学習用画像生成装置100のハードウエア構成を例示するブロック図である。図2に示すように、学習用画像生成装置100は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。なお、装置は周辺回路4Aを有さなくてもよい。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPUやGPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
 図1に戻り、背景画像取得部111は、背景画像を取得する。図3に、背景画像Bの一例を示す。
 ここで、本実施形態における「取得」について説明する。本実施形態における「取得」は、能動的な取得及び受動的な取得の少なくとも一方を含む。能動的な取得は、例えば、自装置(学習用画像生成装置100)が他の装置や自装置の記憶装置に格納されているデータまたは情報を取りに行くことを含めることができる。能動的な取得は、例えば、自装置から他の装置にリクエストまたは問い合わせを送信し、それに応じて返信されたデータ又は情報を受信すること、他の装置や自装置の記憶装置にアクセスして読み出すこと等を含む。受動的な取得は、他の装置から自装置に向けて自発的に出力されるデータまたは情報を取得することを含めることができる。受動的な取得は、例えば、配信、送信、プッシュ通知等されるデータまたは情報を受信することや、自装置が備える入力装置又は自装置に接続された入力装置を介して入力されたデータ又は情報を受信すること等を含む。取得は、受信したデータまたは情報の中から選択して取得することや、配信されたデータまたは情報を選択して受信することを含んでもよい。なお、取得に関する当該前提は、以下のすべての実施形態において同様である。
 背景カメラ姿勢情報取得部112は、背景画像取得部111により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。姿勢情報は、少なくともカメラの焦点距離、カメラのレンズ中心、カメラの回転行列及び並進ベクトルの各要素を含む。
 例えば、カメラキャリブレーションにより、背景画像生成時のカメラの内部パラメータ(焦点距離、画像中心座標、歪み係数等)や外部パラメータ(回転行列、並進ベクトル等)が算出されてもよい。そして、背景カメラ姿勢情報取得部112は、当該内部パラメータや外部パラメータを姿勢情報として取得してもよい。
 物体連続画像取得部113は、物体を含む複数の連続画像である物体連続画像を取得する。物体連像画像に含まれる複数の静止画像各々には、物体が含まれている。以下、物体連続画像に含まれる静止画像を「物体静止画像」と呼ぶ。物体は動いているのが好ましいが、静止していてもよい。図4に、物体連続画像の一例を示す。図には、物体静止画像O乃至Oが示されている。物体静止画像O乃至O各々には同一人物(物体)が含まれている。
 合成位置決定部121は、複数の物体静止画像各々に含まれる物体の背景画像上の合成位置を、背景カメラの姿勢情報に基づき決定する。
 背景カメラの姿勢情報を利用することで、画像上に設定された2次元の座標系で示された座標(以下、「画像上の座標」と呼ぶ場合がある)と、実空間上に設定された3次元の座標系(以下、「実空間上の座標系」と呼ぶ場合がある)で示された座標(以下、「実空間上の座標」と呼ぶ場合がある)とを相互に変換することができる。これを利用することで、物体の実空間上の移動距離が自然な内容となるように、画像上に設定された2次元の座標系での物体の合成位置を決定することができる。結果、合成位置決定部121により決定された合成位置によれば、合成連続画像で示される物体の移動距離が自然な内容となる。なお、カメラの姿勢情報を利用して画像上の座標と実空間上の座標とを相互に変換する技術は広く知られている技術であるので、ここでの説明は省略する。
 画像合成部131は、背景画像取得部111が取得した背景画像と、物体連続画像取得部113が取得した物体連続画像と、合成位置決定部121が決定した合成位置とに基づき、複数の物体静止画像各々に含まれる物体を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する。例えば、画像合成部131は、図4の物体静止画像Oに含まれる人物を図3の背景画像Bに合成して、図5に示す合成静止画像Oを生成する。また、画像合成部131は、図4の物体静止画像Oに含まれる人物を図3の背景画像Bに合成して、図5に示す合成静止画像Oを生成する。さらに、画像合成部131は、図4の物体静止画像Oに含まれる人物を図3の背景画像Bに合成して、図5に示す合成静止画像Oを生成する。
 画像合成部131は、複数の物体静止画像各々から一部の領域の画像を切り取り、切り取った画像を背景画像上に合成する。切り取る領域は、物体が存在する領域である。物体静止画像から切り取る領域を決定する手段は様々であるが、以下一例を説明する。
 例えば、予め、複数の物体静止画像各々に含まれる物体の画像上の位置を示す情報が生成されていてもよい。そして、画像合成部131は、当該情報に基づき、複数の物体静止画像各々から切り取る一部の領域を決定してもよい。当該情報は、例えば、図6に示すようなシルエット画像であってもよい。図示するシルエット画像S乃至Sは、各々、図4に示す複数の物体静止画像O乃至Oに含まれる人物の画像上の位置を示す。シルエット画像は例えば、人物の衣服を含む身体が含まれている画素を白、含まれていない画素を黒で塗った画像である。
 その他、画像合成部131は、二値化処理、輪郭抽出処理、パターンマッチング等のあらゆる画像解析手段を用いて、複数の物体静止画像各々に含まれる物体を検出してもよい。そして、画像合成部131は、検出した物体が存在する領域を、切り取る領域として決定してもよい。
 次に、図7のフローチャートを用いて、本実施形態の学習用画像生成装置100の処理の流れの一例を説明する。
 S10では、背景画像取得部111が、背景画像を取得する。また、S10では、背景カメラ姿勢情報取得部112が、背景画像取得部111により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。また、S10では、物体連続画像取得部113が、物体を含む物体連続画像を取得する。
 なお、背景画像取得部111による背景画像の取得、背景カメラ姿勢情報取得部112による背景カメラの姿勢情報の取得、物体連続画像取得部113による物体連像画像の取得は、任意の順番で行われてもよいし、並行して行われてもよい。
 S11では、合成位置決定部121が、物体連続画像に含まれる複数の物体静止画像各々に含まれる物体の背景画像上の合成位置を、背景カメラの姿勢情報に基づき決定する。
 S12では、画像合成部131が、背景画像取得部111が取得した背景画像と、物体連続画像取得部113が取得した物体連続画像と、合成位置決定部121が決定した合成位置とに基づき、複数の物体静止画像各々に含まれる物体を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する。
 以上説明した本実施形態の学習用画像生成装置100によれば、機械学習に用いる学習用画像であって、連続画像からなる学習用画像を生成することができる。また、背景画像を生成した背景カメラの姿勢情報に基づき物体の合成位置を決定する本実施形態の学習用画像生成装置100によれば、合成連続画像で示される物体の移動距離等を自然な内容にすることができる。
 以上、本実施形態の学習用画像生成装置100によれば、連続画像からなり、連続画像で示される物体の動きが不自然になることを軽減した学習用画像を増やすことができる。
<第2の実施形態>
 本実施形態の学習用画像生成装置100は、第1の実施形態と同様な処理を実行するが、処理内容が具体化される。以下、説明する。
 本実施形態の学習用画像生成装置100のハードウエア構成の一例は、第1の実施形態と同様である。
 本実施形態の学習用画像生成装置100の機能ブロック図の一例は、図1で示される。図示するように、学習用画像生成装置100は、背景画像取得部111と、背景カメラ姿勢情報取得部112と、物体連続画像取得部113と、合成位置決定部121と、画像合成部131とを有する。
 背景画像取得部111は、背景画像を取得する。背景カメラ姿勢情報取得部112は、背景画像取得部111により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。
 ここで、背景画像取得部111及び背景カメラ姿勢情報取得部112が背景画像や姿勢情報を取得する手段の一例を説明する。なお、あくまで一例でありこれに限定されない。
 当該例では、学習用画像生成装置100は、1つ又は複数の背景画像を記憶する背景画像データベース(以下、「背景画像DB」と呼ぶ)を有する。背景画像DBに記憶される背景画像には任意の画像が含まれていてよく、一般に公開されている画像DBを利用してもよい。また、背景画像DBには、各背景画像を生成した背景カメラの各背景画像を生成した時の姿勢情報が保存される。
 そして、背景画像取得部111は、背景画像DBから背景画像を取得する。背景画像取得部111は、背景画像DBから無作為に背景画像を取得することができる。背景画像取得部111は、背景画像DBに保存されている背景画像をそのまま取得してもよいし、背景画像DBに保存されている背景画像の一部分を無作為に切り出して取得してもよい。
 また、背景カメラ姿勢情報取得部112は、背景画像DBから姿勢情報を取得する。
 背景画像取得部111及び背景カメラ姿勢情報取得部112のその他の構成は、第1の実施形態と同様である。
 物体連続画像取得部113は、物体を含む物体連続画像を取得する。以下、物体は人物とするが、これに限定されない。
 ここで、物体連続画像取得部113が物体連続画像を取得する手段の一例を説明する。なお、あくまで一例でありこれに限定されない。
 当該例では、学習用画像生成装置100は、1つ又は複数の物体連続画像を記憶する物体連続画像データベース(以下、「物体連続画像DB」と呼ぶ)を有する。
 物体連続画像DBには、1つ又は複数の物体連続画像、各物体連続画像に含まれる複数の物体静止画像各々の中で人物がいる位置や領域を示す人物位置情報、各物体連続画像のフレームレートの情報が保存されている。人物位置情報は、例えば第1の実施形態で説明したシルエット画像であるが、これに限定されない。
 なお、物体連続画像DBには、各物体連続画像に含まれる人物の身長を示す身長情報が付加されていてもよい。物体連続画像DBには任意の人物を含む物体連続画像が含まれていてよいが、性別、年齢、服装等が互いに異なる多様な人物を含む物体連続画像が含まれていることが望ましい。
 物体連続画像取得部113は、物体連続画像DBから物体連続画像を取得することができる。また、物体連続画像DBに身長情報が登録されている場合、物体連続画像取得部113さらに物体連続画像DBから身長情報を取得することができる。
 ところで、画像合成部131による画像の合成に利用される物体連続画像のフレームレートは、合成連続画像の所望のフレームレートと同じにすることが望まれる。これを実現するため、物体連続画像取得部113は、フレームレートが合成連続画像の所望のフレームレートと同じ又はその整数倍である物体連続画像を物体連続画像DBから取得してもよい。すなわち、物体連続画像取得部113はフレームレートをキーとして物体連続画像DBを検索し、キーに合致する物体連続画像を取得してもよい。
 なお、合成連続画像の所望のフレームレートの整数倍(2倍以上)である物体連続画像を取得した場合、物体連続画像取得部113は、取得した物体連続画像に含まれる複数の物体静止画像を部分的に抽出することで、合成連続画像の所望のフレームレートと同じフレームレートとなった物体連続画像を生成することができる。例えば、合成連続画像の所望のフレームレートが10fpsであり、取得した物体連続画像のフレームレートが30fpsであった場合は、物体連続画像の中から2個おきに物体静止画像を抽出することで、合成連続画像の所望のフレームレートと同じフレームレートとなった物体連続画像を生成することができる。
 合成連続画像の所望のフレームレートは、予め学習用画像生成装置100に登録されていてもよいし、オペレータが学習用画像生成装置100を操作して入力してもよい。
 物体連続画像取得部113のその他の構成は、第1の実施形態と同様である。
 合成位置決定部121は、背景カメラの姿勢情報に基づき、複数の物体静止画像各々に含まれる人物の背景画像上の合成位置を、合成静止画像毎に決定する。具体的な手順の例は以下の通りである。
 合成位置決定部121はまず、合成連続画像の中の最初の合成静止画像において、合成させる各人物の足元を背景画像上のどこに位置させるか決定する。このとき、足元が画像の外に出ても構わない。足元は、左足と右足の中心を結んだ直線の中点(もしどちらかの足が浮いていればその中点をまっすぐ地面に下ろした点)と定義するのが自然であるが、この定義に限らない。
 なお、「連続画像の中の最初の静止画像」は、連続画像を再生処理する際に最初に表示される静止画像である。「連続画像の中の最後の静止画像」は、連続画像を再生処理する際に最後に表示される静止画像である。「連続画像の中の第N番目の静止画像」は、連続画像を再生処理する際にN番目に表示される静止画像である。当該前提は、以下のすべての実施形態において同様である。
 合成位置決定部121は次に、合成連続画像の中の最初の合成静止画像から最後の合成静止画像までの間で各人物が移動する実移動距離を決定する。人の歩行に関しては、人の歩幅は身長のおおよそ0.45倍であること、また人が1歩歩くのにかかる時間はおおよそ0.5秒であることが知られている。これらのことから、人は1秒で身長のおおよそ0.9倍の距離を歩くことができることがわかる。したがって、この事実と、合成連続画像の再生時間と、当該人物の身長(身長情報がなければ画像合成部131と同様人の平均身長と仮定する)の情報とから、実移動距離を推定できる。この距離を合成連続画像でも移動するとし、合成連続画像の最初の合成静止画像から最後の合成静止画像までの画像上(背景画像上)での移動距離を背景カメラ姿勢情報に基づいて推定する。移動方向は物体連続画像と同じとして、最後の合成静止画像について各人物の足元の位置を決定する。そして、その他の合成静止画像の合成位置については、最初の合成静止画像から最後の合成静止画像までの移動距離を等間隔に区切ることによって足元の位置を決定する。なお、以下でもカメラ姿勢情報から実際の長さと画像上の長さを相互に換算することがあるが、この方法については広く知られていることであるため説明は割愛する。なお、人が1秒で歩くことのできる距離は、前記の数値ではなく独自に統計を取って算出しても構わない。
 次に、合成位置決定部121による上記処理の具体例を説明する。図8に、合成位置決定部121の機能ブロック図の一例を示す。図示するように、合成位置決定部121は、移動方向決定手段1211と、移動距離決定手段1212と、位置決定手段1213とを有する。これらが協働することで、上記処理が実現される。以下、図9のフローチャートを用いて処理の流れを説明する。
 まず、位置決定手段1213が、合成連続画像の中の最初の合成静止画像における背景画像上の人物の合成位置(第1の合成位置)を任意に決定する(S20)。その後、位置決定手段1213は、背景カメラの姿勢情報を用いて、第1の合成位置を示す画像上の座標を、実空間上の座標に変換する(S21)。合成位置は、人物の足元、頭部の頂点、顔の中心、又は、身体の任意の部分の画像上の座標を示す。人物の身体の全てが画像内に収まるように合成位置を決定してもよいし、人物の身体の一部が画像から漏れるように合成位置を決定してもよい。
 次に、移動方向決定手段1211は、合成連続画像における背景画像上での人物の移動方向である背景画像上移動方向を決定する(S22)。例えば、移動方向決定手段1211は、物体連続画像における画像上での人物の移動方向を、背景画像上移動方向として決定する。物体連続画像における画像上での人物の移動方向は、例えば最初の物体静止画像における人物の画像上の位置(画像上の座標)から、最後の物体静止画像における人物の画像上の位置(画像上の座標)に向かう方向とすることができる。背景画像上移動方向を決定した後、移動方向決定手段1211は、背景カメラの姿勢情報を用いて、背景画像上移動方向を実空間上の移動方向に変換する(S23)。
 次に、移動距離決定手段1212は、合成連続画像の再生時間の間に人物が実空間で移動する距離(実移動距離)を決定する(S24)。実移動距離は、物体連続画像取得部113により取得された身長情報で示される人物の身長と、合成連続画像の再生時間とに基づき決定されてもよい。例えば、移動距離決定手段1212は、上述の通り、「身長情報で示される人物の身長の0.9倍」と「合成連続画像の再生時間(秒)」との積を、実移動距離として算出することができる。なお、人物の身長に掛ける係数(0.9)は、これに準じた他の値とすることもできる。例えば、独自に統計を取って算出してもよい。また、物体連続画像取得部113が身長情報を取得しない場合、物体連続画像取得部113は任意のグループの平均身長等の他の値を利用して、実移動距離を算出してもよい。
 なお、位置決定手段1213によるS20及びS21の処理、移動方向決定手段1211によるS22及びS23の処理、及び、移動距離決定手段1212によるS24の処理の処理順は図9のフローチャートで示すものに限定されず、他の順であってもよいし、これらが並行して行われてもよい。
 その後、位置決定手段1213は、S21で算出された第1の合成位置を示す実空間上の座標、S23で算出された実空間上の移動方向、及び、S24で算出された実移動距離に基づき、最後の合成静止画像における合成位置を決定する。
 具体的には、まず、位置決定手段1213は、実空間上の座標系で、「第1の合成位置を示す座標」から、「実空間上の移動方向」に向かって「実移動距離」だけ移動した後の終点位置を算出し、これを、最後の合成静止画像における合成位置とする(S25)。その後、位置決定手段1213は、背景カメラの姿勢情報を用いて、最後の合成静止画像における合成位置を示す実空間上の座標を、画像上の座標に変換する(S26)。
 次いで、移動距離決定手段1212は、S20で決定された画像上の座標で示される第1の合成位置と、S26で算出された画像上の座標で示される最後の合成静止画像における合成位置との直線距離を、背景画像上移動距離として算出する(S27)。
 次いで、位置決定手段1213は、他の合成静止画像の合成位置を決定する(S28)。具体的には、位置決定手段1213は、最初の合成静止画像における画像上の合成位置(第1の合成位置)と最後の合成静止画像における画像上の合成位置との直線距離(背景画像上移動距離)を、残りの画像静止画像の数に基づき等間隔で分割して分割距離を算出する。そして、位置決定手段1213は、第N番目(N>1)の合成静止画像における合成位置として、第(N-1)番目の合成静止画像における合成位置から背景画像上移動方向に分割距離だけ移動した後の位置を決定する。なお、背景画像上移動距離の分割方法は均等分割に限定されず、他の分割方法を採用してもよい。
 図10に、最初の合成静止画像の合成位置Ns(第1の合成位置)、最後の合成静止画像の合成位置Ne、背景画像上移動方向及び背景画像上移動距離の概念を示す。
 なお、ここでは、位置決定手段1213は、最初の合成静止画像における合成位置を決定した後、最後の合成静止画像における合成位置を決定し、次いで、その他の合成静止画像における合成位置を決定する例を説明した。変形例として、最後の合成静止画像における合成位置を決定した後、同様にして最初の合成静止画像における合成位置を決定し、次いで、同様にしてその他の合成静止画像における合成位置を決定してもよい。この場合、第1の合成位置は、最後の合成静止画像における合成位置となる。そして、位置決定手段1213は、S25の処理において、実空間上の座標系で、「第1の合成位置示す座標」から、「実空間上の移動方向の逆方向(180°反対方向)」に向かって「実移動距離」だけ移動した後の終点位置を算出し、これを、最初の合成静止画像における合成位置とする。
 このように、位置決定手段1213は、合成連続画像に含まれる複数の合成静止画像の中の1つの合成位置を決定した後、背景画像上移動方向と背景画像上移動距離とに基づき、他の合成静止画像の合成位置を決定することができる。
 合成位置決定部121のその他の構成は、第1の実施形態と同様である。
 画像合成部131は、背景画像取得部111が取得した背景画像と、物体連続画像取得部113が取得した物体連続画像と、合成位置決定部121が決定した合成位置とに基づき、複数の物体静止画像各々に含まれる人物を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する。
 なお、画像合成部131は、物体静止画像から切り取った人物を示す画像の大きさを調整(拡大/縮小)した後、背景画像上に合成してもよい。画像合成部131は、合成位置と、人物の身長と、背景カメラの姿勢情報とに基づき、背景画像上の人物が自然な大きさとなるように、切り取った画像の大きさを調整することができる。例えば、背景画像上の人物の頭部の頂点の座標及び足元の座標を実空間の座標に変換して求めた当該人物の身長が、所定の身長となるように、切り取った画像の大きさを調整することができる。所定の身長は、上述した身長情報で示される各人物の身長であってもよいし、任意のグループの平均身長等であってもよい。
 画像合成部131のその他の構成は、第1の実施形態と同様である。
 本実施形態の学習用画像生成装置100の処理の流れの一例は、第1の実施形態と同様である、
 以上説明した本実施形態の学習用画像生成装置100によれば、第1の実施形態と同様な作用効果が実現される。
<第3の実施形態>
 本実施形態の学習用画像生成装置100は、背景画像上移動距離を算出する手段において、第2の実施形態と異なる。その他の構成は、第2の実施形態と同様である。以下、説明する。
 本実施形態の学習用画像生成装置100のハードウエア構成の一例は、第1及び第2の実施形態と同様である。
 本実施形態の学習用画像生成装置100の機能ブロック図の一例は、図11で示される。図示するように、学習用画像生成装置100は、背景画像取得部111と、背景カメラ姿勢情報取得部112と、物体連続画像取得部113と、物体カメラ姿勢情報取得部114と、合成位置決定部121と、画像合成部131とを有する。
 合成位置決定部121の機能ブロック図の一例は、第2の実施形態同様、図8で示される。図示するように、合成位置決定部121は、移動方向決定手段1211と、移動距離決定手段1212と、位置決定手段1213とを有する。
 背景画像取得部111、背景カメラ姿勢情報取得部112、物体連続画像取得部113、画像合成部131、移動方向決定手段1211及び位置決定手段1213の構成は、第1及び第2の実施形態と同様である。
 物体カメラ姿勢情報取得部114は、物体連続画像を生成した物体カメラの当該画像生成時の姿勢情報を取得する。例えば、カメラキャリブレーションにより、物体連続画像生成時の物体カメラの内部パラメータ(焦点距離、画像中心座標、歪み係数等)や外部パラメータ(回転行列、並進ベクトル等)が算出される。そして、物体カメラ姿勢情報取得部114は、当該内部パラメータや外部パラメータを姿勢情報として取得する。なお、第2の実施形態で説明した物体連続画像DBに、各物体連続画像を生成した物体カメラの当該画像生成時の姿勢情報が登録されてもよい。そして、物体カメラ姿勢情報取得部114は、物体連続画像DBから物体カメラの姿勢情報を取得してもよい。
 移動距離決定手段1212は、第2の実施形態と異なる手段で、合成連続画像の再生時間の間に人物が実空間で移動する距離(実移動距離)を決定する。具体的には、移動距離決定手段1212は、物体連続画像と物体カメラの姿勢情報とに基づき、物体連続画像で示される物体の実移動距離を算出する。例えば、移動距離決定手段1212は、物体カメラの姿勢情報に基づき、最初の物体静止画像における画像上の人物の座標を、実空間上の座標に変換する。また、移動距離決定手段1212は、物体カメラの姿勢情報に基づき、最後の物体静止画像における画像上の人物の座標を、実空間上の座標に変換する。そして、移動距離決定手段1212は、上記算出した実空間上の2つの座標間の直線距離を、実移動距離として算出する。なお、最初の物体静止画像から最後の物体静止画像までの再生時間は、合成連続画像の再生時間と同じである。
 本実施形態の学習用画像生成装置100の処理の流れの一例は、第1及び第2の実施形態と同様である、
 以上説明した本実施形態の学習用画像生成装置100によれば、第1及び第2の実施形態と同様な作用効果が実現される。
 また、本実施形態の学習用画像生成装置100によれば、物体連続画像で示される人物の実際の移動距離を算出し、合成連続画像においてその移動距離を移動するように人物の合成位置を決定することができる。
 身長に基づき実移動距離を推定する第1の実施形態においても、移動距離の不自然さを解消することができる。しかし、同じ身長であっても歩く速さは異なり、実移動距離は異なり得る。そして、歩く速さが異なると、手や足が動くスピードが異なる。同じ身長であるが、手や足が動くスピードが互いに異なる人物を同じ距離だけ移動するように合成位置を決定する場合、多少不自然になり得る。
 物体連続画像で示される人物の実際の移動距離を算出し、合成連続画像においてその移動距離を移動するように人物の合成位置を決定できる本実施形態の学習用画像生成装置100によれば、上述のような不自然さを軽減することができる。また、高齢者、子ども、体調不良者など、平均的な歩行と異なった歩行となる人物からも違和感の少ない合成連続画像を生成することが可能になる。このため、より多様な合成連続画像を生成することが可能になる。
<第4の実施形態>
 本実施形態の学習用画像生成装置100は、複数の人物を1つの背景画像に合成できる点で、第1乃至第3の実施形態と異なる。その他の構成は、第1乃至第3の実施形態と同様である。以下、説明する。
 本実施形態の学習用画像生成装置100のハードウエア構成の一例は、第1乃至第3の実施形態と同様である。
 本実施形態の学習用画像生成装置100の機能ブロック図の一例は、図1又は図11で示される。図1に示すように、学習用画像生成装置100は、背景画像取得部111と、背景カメラ姿勢情報取得部112と、物体連続画像取得部113と、合成位置決定部121と、画像合成部131とを有する。図11に示すように、学習用画像生成装置100は、物体カメラ姿勢情報取得部114をさらに有してもよい。
 合成位置決定部121の機能ブロック図の一例は、図8で示される。図示するように、合成位置決定部121は、移動方向決定手段1211と、移動距離決定手段1212と、位置決定手段1213とを有する。
 背景画像取得部111、背景カメラ姿勢情報取得部112、物体連続画像取得部113、物体カメラ姿勢情報取得部114の構成は、第1乃至第3の実施形態と同様である。
 合成位置決定部121は、第1乃至第3の実施形態と同様にして、複数の人物各々の同じ背景画像上への合成位置を決定する。合成位置決定部121のその他の構成は、第1乃至第3の実施形態と同様である。移動方向決定手段1211、移動距離決定手段1212及び位置決定手段1213の構成は、第2及び第3の実施形態と同様である。
 画像合成部131は、1つの背景画像に複数の人物を合成する。背景画像に人物を合成する手段は、第1乃至第3の実施形態と同様である。画像合成部131は、カメラからの距離が遠い人物から順に合成することができる。なお、後から合成する人物の一部又は全部が先に合成した人物と画像上で重なる場合、後から合成する人物の画像を上側に位置させる。この場合、先に合成した人物の上記重なる部分は画像上に現れない。
 カメラからの距離の順番は任意の手段で決定できるが、例えば、人物毎に決定された合成位置等に基づき背景画像上に合成した人物各々の足元の座標を算出し、足元の座標が画像の下端により近い人物を、カメラからの距離がより小さい人物として決定してもよい。
 本実施形態の学習用画像生成装置100の処理の流れの一例は、第1乃至第3の実施形態と同様である。
 以上説明した本実施形態の学習用画像生成装置100によれば、第1乃至第3の実施形態と同様な作用効果が実現される。また、複数の人物を1つの背景画像上に合成できる本実施形態の学習用画像生成装置100によれば、多様な合成連続画像を生成することが可能になる。
<第5の実施形態>
 本実施形態の学習用画像生成装置100は、複数の人物を1つの背景画像に合成した場合に、複数の人物の合成位置間で矛盾がないか判断する手段を有する点で、第1乃至第4の実施形態と異なる。その他の構成は、第1乃至第4の実施形態と同様である。以下、説明する。
 本実施形態の学習用画像生成装置100のハードウエア構成の一例は、第1乃至第4の実施形態と同様である。
 本実施形態の学習用画像生成装置100の機能ブロック図の一例は、図1又は図11で示される。図1に示すように、学習用画像生成装置100は、背景画像取得部111と、背景カメラ姿勢情報取得部112と、物体連続画像取得部113と、合成位置決定部121と、画像合成部131とを有する。図11に示すように、学習用画像生成装置100は、物体カメラ姿勢情報取得部114をさらに有してもよい。
 合成位置決定部121の機能ブロック図の一例は、図12で示される。図示するように、合成位置決定部121は、移動方向決定手段1211と、移動距離決定手段1212と、位置決定手段1213と、矛盾判断手段1214とを有する。
 背景画像取得部111、背景カメラ姿勢情報取得部112、物体連続画像取得部113及び物体カメラ姿勢情報取得部114の構成は、第1乃至第4の実施形態と同様である。
 矛盾判断手段1214は、位置決定手段1213により決定された複数の物体の合成位置間で矛盾がないか判断する。
 ここで、図13を用いて、矛盾判断手段1214が判断する矛盾を説明する。図13は、3つの合成静止画像P乃至Pを示している。なお、背景画像や、人物の詳細な外観はここでの説明に不要なので、当該図において省略している。
 合成静止画像P及び合成静止画像Pにおいては、人物Hが画面手前に位置し、人物Hが画面奥に位置する。しかし、合成静止画像Pの直後の合成静止画像Pにおいては、人物Hが画面奥に位置し、人物Hが画面手前に位置する。このような人物の並び順の変化が突然現れると、不自然になる。なお、並び順の変化の不自然さは、ここで例示した図中前後方向の並び順のみならず、図中左右方向の並び順においても現れる。
 矛盾判断手段1214は、位置決定手段1213が決定した合成位置に基づき、上述したような複数の人物の並び順において不自然さがないか判断する。
 例えば、矛盾判断手段1214は、第Nの合成静止画像における第1の人物の合成位置と第2の人物の合成位置との画像上の左右方向の距離が閾値以下である場合に、第Nの合成静止画像と第(N+1)の合成静止画像において第1の人物の合成位置と第2の人物の合成位置との画像上の前後方向の並び順が逆転している場合、矛盾していると判断してもよい。
 「第1の人物の合成位置と第2の人物の合成位置との画像上の左右方向の距離が閾値以下」の条件を満たす第1の人物と第2の人物とは、互いの画像上の前後の並び順が入れ替わるためには一方が他方をかわす動作(図中、左右方向にずれる動作)が必要になるほど画像上の左右方向の距離が近接している状態にある。互いの画像上の前後の並び順の入れ替わりにこのようなかわす動作を要するはずの2人の画像上の前後の並び順が、連続する2つの合成静止画像間で入れ替わっていると不自然である。矛盾判断手段1214は、このような矛盾を検出できる。
 なお、画像上の前後方向の並び順は、例えば、各人物の足元の座標に基づき決定することができる。例えば、足元の座標が画像の下端により近い人物を前にするルールに基づき決定される。
 その他、矛盾判断手段1214は、第Nの合成静止画像における第1の人物の合成位置と第2の人物の合成位置との図中上下方向の距離が閾値以下である場合に、第Nの合成静止画像と第(N+1)の合成静止画像において第1の人物の合成位置と第2の人物の合成位置との図中左右方向の並び順が逆転している場合、矛盾していると判断してもよい。
 「第1の人物の合成位置と第2の人物の合成位置との画像上の上下方向の距離が閾値以下」の条件を満たす第1の人物と第2の人物とは、互いの画像上の左右の並び順が入れ替わるためには一方が他方をかわす動作(図中、上下方向にずれる動作)が必要になるほど画像上の上下方向の距離が近接している状態にある。互いの画像上の左右の並び順の入れ替わりにこのようなかわす動作を要するはずの2人の画像上の左右の並び順が、連続する2つの合成静止画像間で入れ替わっていると不自然である。矛盾判断手段1214は、このような矛盾を検出できる。
 合成位置決定部121は、矛盾判断手段1214が矛盾していると判断すると、合成位置を決定し直す。合成位置決定部121のその他の構成は、第1乃至第4の実施形態と同様である。移動方向決定手段1211、移動距離決定手段1212及び位置決定手段1213の構成は、第2乃至第4の実施形態と同様である。
 画像合成部131は、矛盾判断手段1214が矛盾しないと判断した合成位置に基づき、合成連続画像を生成する。画像合成部131のその他の構成は、第1乃至第4の実施形態と同様である。
 次に、図14のフローチャートを用いて、本実施形態の学習用画像生成装置100の処理の流れの一例を説明する。
 S30では、背景画像取得部111が、背景画像を取得する。また、S30では、背景カメラ姿勢情報取得部112が、背景画像取得部111により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。また、S30では、物体連続画像取得部113が、物体を含む物体連続画像を取得する。
 なお、背景画像取得部111による背景画像の取得、背景カメラ姿勢情報取得部112による背景カメラの姿勢情報の取得、物体連続画像取得部113による物体連像画像の取得は、任意の順番で行われてもよいし、並行して行われてもよい。
 S31では、合成位置決定部121が、合成静止画像毎に、複数の物体静止画像各々に含まれる人物各々の背景画像上の合成位置を決定する。
 S32では、矛盾判断手段1214が複数の人物の合成位置間で矛盾がないか判断する。判断の詳細は上述の通りであるので、ここでの説明は省略する。
 矛盾判断手段1214が矛盾すると判断した場合(S32のNo)、S31に戻って合成位置決定部121が合成位置を決定し直す。一方、矛盾判断手段1214が矛盾なしと判断した場合(S32のYes)、画像合成部131が、背景画像取得部111が取得した背景画像と、物体連続画像取得部113が取得した物体連続画像と、合成位置決定部121が決定した合成位置とに基づき、複数の人物を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する(S33)。
 以上説明した本実施形態の学習用画像生成装置100によれば、第1乃至第4の実施形態と同様な作用効果が実現される。また、複数の人物を合成した際に生じ得る並び順の不自然さを軽減することができる。結果、不自然さを軽減し、多様な合成連続画像を生成することが可能になる。
 以下、参考形態の例を付記する。
1. 背景画像を取得する背景画像取得手段と、
 前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段と、
 物体を含む物体連続画像を取得する物体連続画像取得手段と、
 前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段と、
 前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段と、
を有する学習用画像生成装置。
2. 1に記載の学習用画像生成装置において、
 前記合成位置決定手段は、
  前記合成連続画像における前記背景画像上での前記物体の移動方向である背景画像上移動方向を決定する移動方向決定手段と、
  前記背景カメラの前記姿勢情報に基づき、前記合成連続画像における前記背景画像上での前記物体の移動距離である背景画像上移動距離を決定する移動距離決定手段と、
  前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成位置を決定する位置決定手段と、
を有する学習用画像生成装置。
3. 2に記載の学習用画像生成装置において、
 前記物体は人物であり、
 前記移動距離決定手段は、
  前記人物の身長を示す身長情報と前記合成連続画像の再生時間とに基づき、前記人物が前記再生時間内に移動する実移動距離を推定し、
  前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
4. 2に記載の学習用画像生成装置において、
 前記物体連続画像を生成した物体カメラの姿勢情報を取得する物体カメラ姿勢情報取得手段をさらに有し、
 前記移動距離決定手段は、
  前記物体連続画像と、前記物体カメラの前記姿勢情報とに基づき、前記物体の実移動距離を算出し、
  前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
5. 1から4のいずれかに記載の学習用画像生成装置において、
 前記位置決定手段は、
  前記合成連続画像に含まれる複数の合成静止画像の中の1つの前記合成位置を決定した後、前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成連続画像に含まれる他の前記合成静止画像の前記合成位置を決定する学習用画像生成装置。
6. 1から5のいずれかに記載の学習用画像生成装置において、
 前記合成位置決定手段は、複数の前記物体各々の前記合成位置を決定し、
 前記画像合成手段は、1つの前記背景画像に複数の前記物体を合成する学習用画像生成装置。
7. 6に記載の学習用画像生成装置において、
 前記合成位置決定手段は、複数の前記物体の前記合成位置間で矛盾がないか判断する矛盾判断手段を有する学習用画像生成装置。
8. コンピュータが、
 背景画像を取得する背景画像取得工程と、
 前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得工程と、
 物体を含む物体連続画像を取得する物体連続画像取得工程と、
 前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定工程と、
 前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成工程と、
を実行する学習用画像生成方法。
9. コンピュータを、
 背景画像を取得する背景画像取得手段、
 前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段、
 物体を含む物体連続画像を取得する物体連続画像取得手段、
 前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段、
 前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段、
として機能させるプログラム。

Claims (9)

  1.  背景画像を取得する背景画像取得手段と、
     前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段と、
     物体を含む物体連続画像を取得する物体連続画像取得手段と、
     前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段と、
     前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段と、
    を有する学習用画像生成装置。
  2.  請求項1に記載の学習用画像生成装置において、
     前記合成位置決定手段は、
      前記合成連続画像における前記背景画像上での前記物体の移動方向である背景画像上移動方向を決定する移動方向決定手段と、
      前記背景カメラの前記姿勢情報に基づき、前記合成連続画像における前記背景画像上での前記物体の移動距離である背景画像上移動距離を決定する移動距離決定手段と、
      前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成位置を決定する位置決定手段と、
    を有する学習用画像生成装置。
  3.  請求項2に記載の学習用画像生成装置において、
     前記物体は人物であり、
     前記移動距離決定手段は、
      前記人物の身長を示す身長情報と前記合成連続画像の再生時間とに基づき、前記人物が前記再生時間内に移動する実移動距離を推定し、
      前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
  4.  請求項2に記載の学習用画像生成装置において、
     前記物体連続画像を生成した物体カメラの姿勢情報を取得する物体カメラ姿勢情報取得手段をさらに有し、
     前記移動距離決定手段は、
      前記物体連続画像と、前記物体カメラの前記姿勢情報とに基づき、前記物体の実移動距離を算出し、
      前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
  5.  請求項1から4のいずれか1項に記載の学習用画像生成装置において、
     前記位置決定手段は、
      前記合成連続画像に含まれる複数の合成静止画像の中の1つの前記合成位置を決定した後、前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成連続画像に含まれる他の前記合成静止画像の前記合成位置を決定する学習用画像生成装置。
  6.  請求項1から5のいずれか1項に記載の学習用画像生成装置において、
     前記合成位置決定手段は、複数の前記物体各々の前記合成位置を決定し、
     前記画像合成手段は、1つの前記背景画像に複数の前記物体を合成する学習用画像生成装置。
  7.  請求項6に記載の学習用画像生成装置において、
     前記合成位置決定手段は、複数の前記物体の前記合成位置間で矛盾がないか判断する矛盾判断手段を有する学習用画像生成装置。
  8.  コンピュータが、
     背景画像を取得する背景画像取得工程と、
     前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得工程と、
     物体を含む物体連続画像を取得する物体連続画像取得工程と、
     前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定工程と、
     前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成工程と、
    を実行する学習用画像生成方法。
  9.  コンピュータを、
     背景画像を取得する背景画像取得手段、
     前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段、
     物体を含む物体連続画像を取得する物体連続画像取得手段、
     前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段、
     前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段、
    として機能させるプログラム。
PCT/JP2018/015400 2018-04-12 2018-04-12 学習用画像生成装置、学習用画像生成方法及びプログラム WO2019198200A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/015400 WO2019198200A1 (ja) 2018-04-12 2018-04-12 学習用画像生成装置、学習用画像生成方法及びプログラム
US17/044,405 US11429814B2 (en) 2018-04-12 2018-04-12 Learning image generation apparatus, learning image generation method, and non-transitory storage medium
JP2020513015A JP6908183B2 (ja) 2018-04-12 2018-04-12 学習用画像生成装置、学習用画像生成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/015400 WO2019198200A1 (ja) 2018-04-12 2018-04-12 学習用画像生成装置、学習用画像生成方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2019198200A1 true WO2019198200A1 (ja) 2019-10-17

Family

ID=68164160

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/015400 WO2019198200A1 (ja) 2018-04-12 2018-04-12 学習用画像生成装置、学習用画像生成方法及びプログラム

Country Status (3)

Country Link
US (1) US11429814B2 (ja)
JP (1) JP6908183B2 (ja)
WO (1) WO2019198200A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020190950A (ja) * 2019-05-22 2020-11-26 東芝テック株式会社 情報処理装置、物品識別装置、及び物品識別システム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019212106A (ja) * 2018-06-06 2019-12-12 日本電信電話株式会社 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム
US11461907B2 (en) * 2019-02-15 2022-10-04 EchoPixel, Inc. Glasses-free determination of absolute motion
KR102403166B1 (ko) * 2021-09-29 2022-05-30 주식회사 인피닉 기계 학습용 데이터 증강 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102395406B1 (ko) * 2021-09-29 2022-05-10 주식회사 인피닉 기계 학습용 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010511241A (ja) * 2006-12-01 2010-04-08 パナソニック株式会社 動きに対する繰り返しセグメンテーション
JP2014178957A (ja) * 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4136420B2 (ja) * 2002-03-29 2008-08-20 キヤノン株式会社 情報処理方法および装置
JP5092722B2 (ja) * 2007-12-07 2012-12-05 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
JP6008045B2 (ja) 2013-06-28 2016-10-19 日本電気株式会社 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム
JP6663285B2 (ja) 2015-08-28 2020-03-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像生成方法及び画像生成システム
CN111886624A (zh) * 2018-03-28 2020-11-03 三菱电机株式会社 图像处理装置、图像处理方法及图像处理程序

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010511241A (ja) * 2006-12-01 2010-04-08 パナソニック株式会社 動きに対する繰り返しセグメンテーション
JP2014178957A (ja) * 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020190950A (ja) * 2019-05-22 2020-11-26 東芝テック株式会社 情報処理装置、物品識別装置、及び物品識別システム
JP7340353B2 (ja) 2019-05-22 2023-09-07 東芝テック株式会社 情報処理装置、物品識別装置、及び物品識別システム

Also Published As

Publication number Publication date
JP6908183B2 (ja) 2021-07-21
US20210117731A1 (en) 2021-04-22
JPWO2019198200A1 (ja) 2021-04-08
US11429814B2 (en) 2022-08-30

Similar Documents

Publication Publication Date Title
WO2019198200A1 (ja) 学習用画像生成装置、学習用画像生成方法及びプログラム
US11470303B1 (en) Two dimensional to three dimensional moving image converter
US10074012B2 (en) Sound and video object tracking
JP6961612B2 (ja) 三次元モデル配信方法及び三次元モデル配信装置
JP4473754B2 (ja) 仮想試着装置
US6400374B2 (en) Video superposition system and method
JP6548518B2 (ja) 情報処理装置および情報処理方法
KR101507242B1 (ko) 영상 분석을 통하여 모션 햅틱 효과를 제공하는 장치 및 방법
US11748870B2 (en) Video quality measurement for virtual cameras in volumetric immersive media
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP6433559B1 (ja) 提供装置および提供方法、プログラム
CN109685797B (zh) 骨骼点检测方法、装置、处理设备及存储介质
JPH09289638A (ja) 3次元画像符号化復号方式
US11494963B2 (en) Methods and systems for generating a resolved threedimensional (R3D) avatar
US11652978B2 (en) Depth map generation device
JP2021125138A (ja) 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム
WO2019124248A1 (ja) 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
EP4392933A1 (en) System and method for generating a three-dimensional photographic image
KR20230148239A (ko) 신경망을 사용하는 비디오로부터의 로버스트 얼굴 애니메이션
JP4979083B2 (ja) 監視システム、監視方法、及びプログラム
KR20180094532A (ko) 연속된 깊이 영상들을 합성하여 사용자 동작을 학습하고 분석하는 방법 및 그 시스템
KR20220003087A (ko) Vr 영상 품질 평가 방법 및 장치
US11936839B1 (en) Systems and methods for predictive streaming of image data for spatial computing
WO2020008511A1 (ja) 電子機器、コンテンツ処理装置、コンテンツ処理システム、画像データ出力方法、および画像処理方法
WO2022259618A1 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18914475

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020513015

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18914475

Country of ref document: EP

Kind code of ref document: A1