WO2023175652A1 - 動画生成装置、動画生成方法、および動画生成プログラム - Google Patents

動画生成装置、動画生成方法、および動画生成プログラム Download PDF

Info

Publication number
WO2023175652A1
WO2023175652A1 PCT/JP2022/011186 JP2022011186W WO2023175652A1 WO 2023175652 A1 WO2023175652 A1 WO 2023175652A1 JP 2022011186 W JP2022011186 W JP 2022011186W WO 2023175652 A1 WO2023175652 A1 WO 2023175652A1
Authority
WO
WIPO (PCT)
Prior art keywords
moving image
image
images
partial
detection target
Prior art date
Application number
PCT/JP2022/011186
Other languages
English (en)
French (fr)
Inventor
大二郎 秋月
一樹 市川
雄介 大井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/011186 priority Critical patent/WO2023175652A1/ja
Publication of WO2023175652A1 publication Critical patent/WO2023175652A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Definitions

  • It relates to a video generation device etc. that automatically generates video images.
  • Patent Document 1 discloses that a frame surrounding a pre-designated subject image is set in each of a plurality of frame images constituting a moving image, and the image included in the frame is cut out and enlarged to the size of the frame image.
  • an image processing device is disclosed that creates a moving image centered on a specific subject by joining the enlarged images in the order of frame images.
  • Patent Document 1 In the image processing device described in Patent Document 1, the user manually sets the frame, so there is a problem in that it takes time and effort to set the frame. Patent Document 1 also describes detecting a portion that has changed from the previous frame and setting a rectangular frame surrounding the detected changed portion, but this method is applicable to objects other than constantly moving subjects. I can't. As described above, with the conventional technology, it is not easy to generate a moving image focused on a predetermined detection target.
  • One aspect of the present invention has been made in view of the above problem, and an example of the purpose is to provide a video generation device or the like that can easily generate a video focused on a predetermined detection target. There is a particular thing.
  • a video generation device connects in chronological order partial images generated by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images, and
  • the present invention includes a moving image generating means that generates a moving image having a frame image of , and a correcting means that performs correction to align the positions of detection targets between frames of the moving image.
  • At least one processor generates partial images generated by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images in chronological order.
  • the method includes connecting the partial images to generate a moving image using the partial images as frame images, and performing correction to align the positions of the detection target between frames of the moving image.
  • a video generation program causes a computer to connect partial images generated by extracting regions in which a predetermined detection target is captured from each of a plurality of time-series still images in chronological order, It functions as a moving image generation unit that generates a moving image using the partial image as a frame image, and a correction unit that performs correction to align the positions of detection targets between frames of the moving image.
  • FIG. 1 is a block diagram showing the configuration of a moving image generation device according to an exemplary embodiment 1 of the present invention.
  • FIG. 2 is a flow diagram showing the flow of a video generation method according to exemplary embodiment 1 of the present invention.
  • FIG. 2 is a diagram showing an overview of a video generation system according to a second exemplary embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an overview of a method for generating a moving image in the moving image generation system.
  • FIG. 2 is a block diagram showing the configuration of a video generation device according to a second exemplary embodiment of the present invention. It is a figure which shows the example of the masking process by the masking part with which the said moving image generation apparatus is provided.
  • FIG. 1 is a block diagram showing the configuration of a moving image generation device according to an exemplary embodiment 1 of the present invention.
  • FIG. 2 is a flow diagram showing the flow of a video generation method according to exemplary embodiment 1 of the present invention.
  • FIG. 2 is a
  • FIG. 7 is a flow diagram showing the flow of a video generation method according to exemplary embodiment 2 of the present invention.
  • 1 is a diagram illustrating an example of a computer that executes instructions of a program that is software that implements each function of each device according to each exemplary embodiment of the present invention.
  • FIG. 1 is a diagram illustrating an example of a computer that executes instructions of a program that is software that implements each function of each device according to each exemplary embodiment of the present invention.
  • FIG. 1 is a block diagram showing the configuration of a moving image generation device 1. As shown in FIG. As illustrated, the video generation device 1 includes a video generation section 11 and a correction section 12.
  • the video generation unit 11 connects in chronological order partial images generated by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images, and generates a video in which the partial images are used as frame images. Generate an image. Then, the correction unit 12 performs correction to align the positions of the detection targets between the frames of the generated moving image.
  • the video generation device 1 generates partial images in chronological order by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images.
  • a configuration comprising: a moving image generation unit 11 that connects the partial images to generate a moving image using the partial images as frame images; and a correction unit 12 that performs correction to align the position of the detection target between frames of the generated moving image. has been adopted. Therefore, according to the video generation device 1 according to the present exemplary embodiment, it is possible to easily generate a video that focuses on a predetermined detection target.
  • Video generation program The functions of the video generation device 1 described above can also be realized by a program.
  • the video generation program according to the exemplary embodiment causes a computer to connect in chronological order partial images generated by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images. It functions as a moving image generating means that generates a moving image using the partial image as a frame image, and as a correcting means that performs correction to align the position of the detection target between frames of the generated moving image. According to this video generation program, it is possible to easily generate a video that focuses on a predetermined detection target.
  • FIG. 2 is a flow diagram showing the flow of the moving image generation method.
  • the main body executing each step in this video generation method may be a processor included in the video generating device 1, or may be a processor provided in another device, and the main body executing each step may be a processor provided in a different device. It may be a processor provided.
  • At least one processor connects partial images generated by extracting regions in which a predetermined detection target is captured from each of a plurality of time-series still images in chronological order, and converts the partial images into frame images. A moving image is generated. Subsequently, in S12, at least one processor performs correction to align the positions of the detection target between frames of the moving image generated in S11.
  • At least one processor generates a partial image generated by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images.
  • the method includes connecting the partial images in chronological order to generate a moving image using the partial images as frame images, and performing correction to align the positions of the detection targets between the frames of the generated moving image. configuration has been adopted. Therefore, according to the video generation method according to the present exemplary embodiment, it is possible to easily generate a video that focuses on a predetermined detection target.
  • Example Embodiment 2 A second exemplary embodiment of the invention will be described in detail with reference to the drawings. Note that components having the same functions as those described in the first exemplary embodiment are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • FIG. 3 is a diagram showing an overview of the video generation system 7.
  • the video generation system 7 is a system that automatically generates a video that focuses on each racehorse. As illustrated, the video generation system 7 includes a video generation device 2, a photographing device 3, an edge server 4, a terminal device 5, and a terminal device 6.
  • the photographing device 3 photographs moving images of racehorses. Specifically, the photographing device 3 photographs a moving image of a racehorse running around a paddock, as shown in FIG. Since the position of the photographing device 3 is fixed, the photographing device 3 photographs a moving image in a predetermined range (for example, the range indicated by the broken line in FIG. 3). It is preferable that the photographing device 3 is capable of wide-angle photographing so that a plurality of racehorses can be photographed at once. Further, it is preferable that the photographing device 3 photographs the horse body from the side as shown in FIG. 3, since it facilitates detection and identification of the horse body, which will be described later.
  • a plurality of photographing devices 3 may be installed in order to simultaneously photograph a larger number of racehorses.
  • a photographing device 3 capable of ultra-wide-angle photographing such as a 360-degree camera, may be used.
  • the photographing devices 3 are placed near the racehorse or if too many photographic devices 3 are placed, this is not preferable because it will irritate the racehorse. For this reason, as in the example of FIG. 3, it is preferable to arrange the photographing device 3 capable of wide-angle photographing at a position away from the racehorse.
  • the edge server 4 acquires a moving image photographed by the photographing device 3 and transfers it to the moving image generating device 2. At this time, the edge server 4 adjusts the image quality and frame rate of the moving image and then transfers the moving image to the moving image generation device 2. For example, the edge server 4 may transfer a moving image having a predetermined frame rate (for example, 30 fps) and a certain quality or higher to the moving image generation device 2 in real time. Note that the moving image captured by the imaging device 3 may be directly transferred to the moving image generating device 2 without going through the edge server 4.
  • a predetermined frame rate for example, 30 fps
  • the video generation device 2 generates a video focusing on each racehorse using the video received from the edge server 4, and publishes the generated video so that users of the video generation system 7 can access it. Do it like this. Note that a method for generating a moving image will be described later based on FIG. 4.
  • the terminal devices 5 and 6 are terminal devices used by users of the video generation system 7.
  • the user of the video generation system 7 can use any terminal device such as the terminal device 5 or 6 to view the video generated by the video generation device 2, that is, the video focused on each racehorse.
  • the terminal device 5 shown in FIG. 3 displays a video that focuses on the racehorse with the bib number 2
  • the terminal device 6 displays a video that focuses on the racehorse with the bib number 1. ing.
  • the terminal devices that can be used in the video generation system 7 are not limited to tablet-type terminal devices and smartphones as shown in FIG. 3.
  • a terminal device such as a personal computer.
  • the number of terminal devices that can be used in the video generation system 7 is not particularly limited.
  • a video focusing on each racehorse can be generated from the video captured by the photographing device 3, and the user of the video generation system 7 can view this video. Since the moving image is automatically generated without any operation by the user, the moving image can be generated more easily and in a shorter time than the image processing device described in Patent Document 1 mentioned above. Further, since the video generation system 7 detects the area in which the racehorse is photographed, it is possible to generate a video by detecting whether or not the racehorse is moving.
  • the moving images taken by the photographing device 3 are taken at a wide angle, it is difficult to determine the condition of each racehorse from these moving images. According to the focused moving image, the condition of each racehorse can be easily determined. Furthermore, in the video generation system 7, there is no need to photograph each racehorse individually, so it is possible to minimize the number of photographic equipment and photographers, and as mentioned above, it does not cause unnecessary stimulation to the racehorses. There is also the advantage that there is no problem.
  • the video generation system 7 is not limited to racehorses, and can generate video images of any detection target.
  • a video image that focuses on a specific person, vehicle, etc. appearing in those images can be generated from video images or still images taken by a photographing device such as a surveillance camera or a drive recorder. You can also do it. Therefore, "racehorse" in the following description can be read as any detection target.
  • FIG. 4 is a diagram illustrating an overview of the video generation method (hereinafter referred to as the present method) in this exemplary embodiment.
  • the still image 211 may be a frame image extracted from a moving image generated by photographing a racehorse with the photographing device 3.
  • Frame image extraction may be performed by the edge server 4 shown in FIG. 3.
  • the photographing device 3 may photograph time-series still images 211 instead of photographing moving images, and in this case, the still images 211 photographed by the photographing device 3 may be acquired as they are.
  • an area in which a racehorse appears in the still image 211 is detected.
  • the detected area is indicated by a dashed rectangle.
  • an area where the racehorse with number 1 is photographed and an area where the racehorse with number 2 is photographed are extracted. This process is performed for each of the time-series still images 211.
  • the region detected as described above is extracted from the still image 211 to generate a partial image 215.
  • the partial images 215 generated in this way include an image in which the racehorse with the number 1 mentioned above is captured and an image in which the racehorse with the number 2 in the race is captured.
  • the plurality of generated partial images 215 are classified according to the detection target appearing in the partial images 215.
  • the plurality of generated partial images 215 are classified into a partial image 2151 that shows the racehorse with the number 1 number and a partial image 2152 that shows the racehorse with the number 2 number.
  • the partial images 2151 are connected in chronological order to generate a moving image using the partial images 2151 as frame images.
  • a moving image is generated from the partial image 2152 as well.
  • the position of the racehorse may be blurred between frames due to factors such as the accuracy of region extraction. When such blurring occurs, the moving image may look unnatural.
  • FIG. 5 is a block diagram showing the configuration of the video generation device 2.
  • the moving image generation device 2 is a device that generates a moving image from a moving image or a plurality of time-series still images.
  • the video generation device 2 includes a control section 20 that centrally controls each section of the video generation device 2, and a storage section 21 that is a storage device that stores various data used by the video generation device 2.
  • the video generation device 2 includes an input section 22 that receives a user's input operation to the video generation device 2, and an output section 23 through which the video generation device 2 outputs data.
  • the video generation device 2 may be a device dedicated to video generation, or may be a general-purpose device that can be used for other purposes.
  • the control unit 20 also includes a data acquisition unit 201, a detection unit (detection means) 202, a partial image generation unit (partial image generation means) 203, a masking unit (masking means) 204, and an image classification unit (image classification means) 205. , a video generation section (video generation means) 206, and a correction section (correction means) 207.
  • the storage unit 21 stores a still image 211, a detection model 212, a face detection model 213, an individual identification model 214, a partial image 215, and a moving image 216. Note that the masking unit 204 and face detection model 213 will be explained in the section "About masking processing" below.
  • the data acquisition unit 201 acquires a plurality of time-series still images 211 that are the basis of a moving image, and stores them in the storage unit 21.
  • the data acquisition unit 201 acquires a moving image from the edge server 4 shown in FIG. It may also be an image. Note that the process of extracting a frame image from a moving image may be performed by the edge server 4. In this case, the data acquisition unit 201 acquires the frame image received from the edge server 4 and stores it in the storage unit 21 as a still image 211. Just remember it.
  • the detection unit 202 detects an area where the detection target is captured from the still image 211. More specifically, the detection unit 202 detects an area in which a racehorse is depicted from the still image 211 using a detection model 212 constructed by machine learning using an image in which a racehorse, which is a detection target, is depicted as training data.
  • the training data of the detection model 212 includes, for an image in which a racehorse is a detection target, information indicating the area in which the racehorse appears in the image (for example, information indicating the representative coordinates of the area and the width and height of the area). may be associated with the correct answer data.
  • the machine learning algorithm is not particularly limited, and for example, a convolutional neural network or the like may be applied. Note that the detection model 212 does not need to be able to identify individual detection targets. In other words, the detection model 212 may be one that has been trained to detect any racehorse.
  • the partial image generation unit 203 extracts the area detected by the detection unit 202 from the still image 211, generates a partial image 215, and stores it in the storage unit 21. At this time, the partial image generation unit 203 may perform size adjustment such as enlargement, or adjustment of the aspect ratio of the image, etc., on the area extracted from the still image 211. Note that if the partial image 215 generated by the partial image generation unit 203 includes a person such as an audience member, the generated partial image 215 is subjected to masking processing by the masking unit 204 and then stored in the storage unit 21. is memorized.
  • the image classification unit 205 classifies the partial image 215 according to the detection target appearing in the partial image 215.
  • An individual identification model 214 is used to classify the partial images 215.
  • the individual identification model 214 is a model for identifying the detection target, that is, each individual racehorse appearing in the partial image 215.
  • the image classification unit 205 stores the partial images 215 in the storage unit 21 in association with information indicating the classification results.
  • the individual identification model 214 may be a trained model that has been machine learned to identify racehorse bib numbers. Such an individual identification model 214, for example, associates information indicating the area where the bib is photographed (for example, information indicating the representative coordinates of the area and the width and height of the area) with the number of the bib as correct data. It can be constructed by machine learning using the partial image 215 as training data. This configuration utilizes the bib number attached to each racehorse as identification information for the racehorse.
  • the image classification unit 205 may classify the partial images 215 by detecting identification information attached to the detection targets from the partial images 215 in order to identify a plurality of detection targets. According to this configuration, since the identification information attached to the detection target is used, in addition to the effects achieved by the video generation device 1 according to the first exemplary embodiment, a plurality of detection targets can be identified with high accuracy. Effects can be obtained.
  • the moving image generation unit 206 connects the partial images 215 in chronological order to generate a moving image 216 using the partial images 215 as frame images.
  • the video generation unit 206 generates a video 216 by connecting the partial images 215 classified into the same category by the image classification unit 205 in chronological order.
  • the correction unit 207 performs correction to align the positions of the detection targets between frames of the video image 216 generated by the video generation unit 206. Then, the correction unit 207 stores the corrected moving image 216 in the storage unit 21.
  • the method of correction is not particularly limited.
  • the correction unit 207 may perform the above correction using an algorithm for correcting camera shake for moving images. Thereby, it is possible to easily perform correction to align the positions of the detection targets between frames of the moving image 216.
  • the video generation device 2 connects in chronological order the partial images 215 generated by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images 211, and It includes a moving image generation unit 206 that generates a moving image 216 using the image 215 as a frame image, and a correction unit 207 that performs correction to align the positions of detection targets between frames of the generated moving image 216.
  • the detection target can be detected regardless of whether or not it is moving.
  • the moving image 216 can be generated by
  • the positions of the detection targets in the partial image 215 are not necessarily aligned.
  • a moving image 216 is generated from a partial image 215 in which the positions of detection targets are not aligned, the positions of the detection targets shift between frames, resulting in a moving image that is difficult to see. Therefore, according to the above configuration, once the moving image 216 is generated, correction is performed to align the positions of the detection targets between the frames of the generated moving image 216. Thereby, it is possible to automatically generate a moving image 216 in which the positions of the detection targets are aligned between frames from the partial images 215 in which the positions of the detection targets are not aligned. Therefore, according to the moving image generation device 2, it is possible to easily generate a moving image 216 focused on a predetermined detection target.
  • the video generation device 2 includes a detection unit that detects an area in which the detection target is captured from the still image 211 using the detection model 212 constructed by machine learning using an image in which the detection target is captured as training data. 202, and a partial image generation unit 203 that extracts the area detected by the detection unit 202 from the still image 211 and generates a partial image 215.
  • the partial image 215 can be automatically generated from the still image 211.
  • the video generation device 2 includes the image classification unit 205 that classifies the partial images 215 according to the detection target appearing in the partial images 215, and the video generation unit 206 classifies the partial images 215 into the same classification.
  • a moving image 216 is generated by connecting the classified partial images 215 in chronological order.
  • the individual identification model 214 may be machine-learned to identify this bib number.
  • the image classification unit 205 may determine the classification destination of the partial image 215 by considering information regarding the identification of the detection target in addition to the output value of the individual identification model 214.
  • the image classification unit 205 determines whether or not the identification result specified from the output value of the individual identification model 214 is valid. The verification may be based on the entry order of the racehorse or the time when the racehorse was photographed. As a result of this verification, a partial image 215 whose identification result is determined to be invalid may be excluded from the target of video conversion. Further, such a partial image 215 may be output to the output unit 23 and presented to the user of the video generation device 2, and the user may determine the correct classification destination.
  • the image classification unit 205 may identify racehorses based on the order in which they enter the paddock. For example, the image classification unit 205 may identify the racehorse that appears first in the still image 211 as the first racehorse. In this case, the image classification unit 205 only needs to identify the racehorse appearing at the front as the first racehorse in the time-series still images 211 taken before the racehorse leaves the field of view of the photographing device 3. . Furthermore, the image classification unit 205 may identify the racehorse that appears next to the first racehorse as the second racehorse. Thereafter, in the same manner, the image classification unit 205 can identify up to the last racehorse.
  • the image classification unit 205 may analyze the partial image 215 to detect such a special movement of the racehorse.
  • the image classification unit 205 may exclude the partial image 215 in which a special movement has been detected from being converted into a moving image, or may allow the user to determine the correct classification destination.
  • the image classification unit 205 may perform identification by recognizing the person's face.
  • FIG. 6 is a diagram illustrating an example of masking processing by the masking unit 204.
  • FIG. 6 shows a partial image 215A before the masking process and a partial image 215B after the masking process.
  • the masking unit 204 detects an area where a person's face appears in the partial image 215, and performs masking processing on the detected area.
  • the masking process is a process that makes a person unidentifiable, and may be, for example, a mosaic process or a blurring process.
  • the masking unit 204 detects regions in which the faces of persons A and B appear in the partial image 215A, and generates a partial image 215B by performing blurring processing on these regions.
  • the video generation device 2 includes the masking unit 204, so that in addition to the effects of the video generation device 1 according to the first exemplary embodiment, the video generation device 2 can protect the privacy and portrait rights of the person in the photo.
  • the effect is that the moving image 216 can be automatically generated with consideration given to the following.
  • a face detection model 213 is used to detect an area where a person's face is captured.
  • the face detection model 213 uses, as training data, a partial image 215 that is associated with information indicating an area in which a person's face is captured (for example, representative coordinates of the area and information indicating the width and height of the area) as correct data. It may also be constructed using machine learning.
  • the machine learning algorithm is not particularly limited, and for example, a convolutional neural network or the like may be applied.
  • the partial image 215B in FIG. 6 also includes a jockey guiding a racehorse, but the jockey's face is not blurred.
  • the masking unit 204 may not perform the masking process on the face of a predetermined person appearing in the partial image 215B, but may perform the masking process on the faces of other people.
  • an identification model constructed by machine learning to be able to identify spectators and jockeys respectively may be used.
  • the masking unit 204 only needs to perform masking processing on the face area of the spectator and the jockey identified using the identification model.
  • the masking unit 204 performs masking processing on the face area detected in the band-shaped area at the upper end of the partial image 215 (region of the audience seats), and does not perform masking processing on the face area detected in other areas.
  • the masking unit 204 may perform face detection processing only on a band-shaped area at the upper end of the partial image 215 (region of the audience seats).
  • FIG. 7 is a flowchart showing the flow of the video generation method executed by the video generation device 2. The following processing may be performed in parallel with the photographing of a moving image of a racehorse running around a paddock by the photographing device 3 (see FIG. 3).
  • the data acquisition unit 201 acquires a predetermined number of still images 211 in time series.
  • the data acquisition unit 201 may acquire from the edge server 4 a moving image of a racehorse running around a paddock, which is photographed by the photographing device 3, and may acquire frame images forming the moving image as the still image 211.
  • the detection unit 202 detects an area where the horse's body appears from each still image 211 acquired in S21. Specifically, the detection unit 202 detects a region in each still image 211 in which the horse body appears, based on an output value obtained by inputting each still image 211 acquired in S21 to the detection model 212.
  • the partial image generation unit 203 extracts the area detected in S22 from each still image 211 acquired in S21 to generate a partial image 215.
  • the masking unit 204 detects a region in which a person's face appears in each partial image 215 generated in S23, and performs a masking process on the detected region. Specifically, the masking unit 204 detects an area where a person's face appears in the partial image 215 based on the output value obtained by inputting the partial image 215 generated in S23 to the face detection model 213, Masking processing is performed on that area. Note that the process in S24 may be performed on the still image 211 acquired in S21. In this case, the process of S24 is performed after S21 and before S23.
  • the image classification unit 205 classifies the partial images 215 generated in S23 and subjected to the masking process in S24 for each individual racehorse depicted in the partial images 215. Specifically, the image classification unit 205 classifies the partial image 215 based on the output value obtained by inputting the partial image 215 into the individual identification model 214.
  • the video generation unit 206 connects the partial images 215 classified into the same category in S25 in chronological order to generate a video 216 using the partial images 215 as frame images.
  • the correction unit 207 performs correction to align the positions of the racehorses to be detected between the frames of the moving image 216 generated in S26.
  • a moving image 216 focusing on each racehorse is completed.
  • the completed moving image 216 may be published online so that it can be viewed from a terminal device used by a user of the moving image generation system 7, such as terminal devices 5 and 6 shown in FIG. 3, for example.
  • the video generation device 2 may perform the processes of S21 to S27 described above every time a new video is received, and update the previously generated video 216.
  • the execution entity of each process explained in the above-mentioned embodiment is arbitrary and is not limited to the above-mentioned example.
  • the functions of the video generation device 2 can be replaced by a plurality of devices (which can also be called processors) that can communicate with each other.
  • a system having the same functions as the video generation device 2 can be constructed.
  • the partial images 215 of each classification may be converted into moving images using separate devices.
  • a moving image focused on each detection target can be generated by parallel processing by a plurality of devices, and therefore a moving image focused on each detection target can be generated in a short time.
  • Some or all of the functions of the video generation devices 1 and 2 may be realized by hardware such as an integrated circuit (IC chip), or may be realized by software.
  • the video generation devices 1 and 2 are realized, for example, by a computer that executes instructions of a program that is software that implements each function.
  • a computer that executes instructions of a program that is software that implements each function.
  • An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
  • Computer C includes at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the moving image generation devices 1 and 2 is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the video generation devices 1 and 2.
  • Examples of the processor C1 include a CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating Point Number Processing Unit), and PPU (Physics Processing Unit). , a microcontroller, or a combination thereof.
  • a flash memory for example, a flash memory, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data. Further, the computer C may further include a communication interface for transmitting and receiving data with other devices. Further, the computer C may further include an input/output interface for connecting input/output devices such as a keyboard, a mouse, a display, and a printer.
  • RAM Random Access Memory
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, a disk, a card, a semiconductor memory, or a programmable logic circuit can be used.
  • Computer C can acquire program P via such recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • Video generation that connects partial images in chronological order that are generated by extracting regions in which a predetermined detection target appears from each of a plurality of time-series still images, and generates a moving image using the partial images as frame images. and a correction means for performing correction to align the positions of the detection target between frames of the moving image.
  • a detection means for detecting an area in which the detection object is shown from the still image using a detection model constructed by machine learning using an image in which the detection object is shown as training data;
  • the moving image generation device according to supplementary note 1, further comprising: partial image generation means for generating the partial image by extracting it from a still image.
  • the video generation means includes an image classification means for classifying the partial images according to the detection target reflected in the partial images, and the video generation means connects the partial images classified into the same classification by the image classification means in chronological order to create a video.
  • the moving image generation device according to supplementary note 1 or 2, which generates an image.
  • a moving image generation method comprising: generating an image; and performing correction to align the positions of the detection target between frames of the moving image.
  • the processor includes at least one processor, and the processor connects in chronological order partial images generated by extracting a region in which a predetermined detection target is captured from each of a plurality of time-series still images, and generates the partial images.
  • a moving image generation device that executes a process of generating a moving image as a frame image, and a process of performing correction for aligning the positions of the detection target between frames of the moving image.
  • this video generation device may further include a memory, and this memory stores a program for causing the processor to execute the process of generating the video image and the process of performing the correction. It's okay. Further, this program may be recorded on a computer-readable non-transitory tangible recording medium.
  • Video generation device 11 Video generation unit 12 Correction unit 2
  • Video generation device 202 Detection unit 203 Partial image generation unit 204
  • Masking unit 205 Image classification unit 206

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

所定の検出対象にフォーカスした動画像を容易に生成することを可能にするために、動画生成装置(1)は、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成部(11)と、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正部(12)を備えている。

Description

動画生成装置、動画生成方法、および動画生成プログラム
 動画像を自動生成する動画生成装置等に関する。
 広範囲を写した動画像からは、特定の対象物を詳細に観察することが困難な場合がある。このような問題を解決するための技術として、例えば下記の特許文献1が挙げられる。特許文献1には、動画像を構成する複数のフレーム画像の各々に、予め指定された被写体像を囲む枠体を設定し、その枠体に含まれる画像を切り出してフレーム画像のサイズにまで拡大し、拡大された画像をフレーム画像の順番に従って繋ぎ合わせることにより、特定の被写体を中心とした動画像を作成する画像処理装置が開示されている。
特開2006-279894号公報
 特許文献1に記載の画像処理装置においては、枠体の設定をユーザが手動で行うため、その設定に手間がかかるという問題があった。また、特許文献1には、前のフレームから変化した部分を検出して、検出した変化部分を囲む矩形枠を設定することも記載されているが、この手法は常に動いている被写体以外に適用することはできない。このように、従来技術では、所定の検出対象にフォーカスした動画像を生成することは容易ではなかった。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、所定の検出対象にフォーカスした動画像を容易に生成することが可能な動画生成装置等を提供することにある。
 本発明の一側面に係る動画生成装置は、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段と、動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正手段と、を備える。
 本発明の一側面に係る動画生成方法は、少なくとも1つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、動画像のフレーム間で検出対象が写る位置を揃える補正を行うことと、を含む。
 本発明の一側面に係る動画生成プログラムは、コンピュータを、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段、および動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正手段、として機能させる。
 本発明の一態様によれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になる。
本発明の例示的実施形態1に係る動画生成装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る動画生成方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る動画生成システムの概要を示す図である。 上記動画生成システムにおける動画像の生成方法の概要を示す図である。 本発明の例示的実施形態2に係る動画生成装置の構成を示すブロック図である。 上記動画生成装置が備えるマスキング部によるマスキング処理の例を示す図である。 本発明の例示的実施形態2に係る動画生成方法の流れを示すフロー図である。 本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 (動画生成装置の構成)
 本例示的実施形態に係る動画生成装置1の構成について、図1を参照して説明する。図1は、動画生成装置1の構成を示すブロック図である。図示のように動画生成装置1は、動画生成部11と補正部12とを備えている。
 動画生成部11は、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する。そして、補正部12は、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う。
 このように、本例示的実施形態に係る動画生成装置1においては、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成部11と、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正部12とを備える、という構成が採用されている。このため、本例示的実施形態に係る動画生成装置1によれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になるという効果が得られる。
 (動画生成プログラム)
 上述の動画生成装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る動画生成プログラムは、コンピュータを、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段、および生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正手段、として機能させる。この動画生成プログラムによれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になるという効果が得られる。
 (動画生成方法の流れ)
 本例示的実施形態に係る動画生成方法の流れについて、図2を参照して説明する。図2は、動画生成方法の流れを示すフロー図である。なお、この動画生成方法における各ステップの実行主体は、動画生成装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
 S11では、少なくとも1つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する。続いて、S12では、少なくとも1つのプロセッサが、S11で生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う。
 このように、本例示的実施形態に係る動画生成方法においては、少なくとも1つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行うことと、を含む、という構成が採用されている。このため、本例示的実施形態に係る動画生成方法によれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になるという効果が得られる。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 (システム概要)
 本例示的実施形態に係る動画生成システムの概要を図3に基づいて説明する。図3は、動画生成システム7の概要を示す図である。動画生成システム7は、競走馬の一頭一頭にフォーカスした動画像を自動で生成するシステムである。図示のように、動画生成システム7には、動画生成装置2、撮影装置3、エッジサーバ4、端末装置5、および端末装置6が含まれている。
 撮影装置3は、競走馬の動画像を撮影する。具体的には、撮影装置3は、図3に示すように、パドックを回る競走馬の動画像を撮影する。撮影装置3の位置は固定されているため、撮影装置3により決まった範囲(例えば図3に破線で示す範囲)の動画像が撮影される。撮影装置3は、複数頭の競走馬を一度に撮影できるように、広角撮影を行うことができるものとすることが好ましい。また、後述する馬体の検出や識別が容易になるという点で、撮影装置3は、図3のように馬体を側方から撮影することが好ましい。
 なお、図3には撮影装置3を1台のみ示しているが、より多数の競走馬を同時に撮影するために複数台の撮影装置3を設置してもよい。また、例えば、360度カメラ等の超広角撮影が可能な撮影装置3を用いてもよい。ただし、競走馬の近くに撮影装置3を配置したり、あまりに多くの撮影装置3を配置したりすると、競走馬に刺激を与えることになり好ましくない。このため、図3の例のように、競走馬から離れた位置に広角撮影が可能な撮影装置3を配置することが好ましい。
 エッジサーバ4は、撮影装置3が撮影する動画像を取得し、動画生成装置2に転送する。この際、エッジサーバ4は、動画像の画質やフレームレートを調整した上で動画生成装置2に転送する。例えば、エッジサーバ4は、所定のフレームレート(例えば30fps)であり、かつ、一定以上の画質の動画像をリアルタイムで動画生成装置2に転送してもよい。なお、エッジサーバ4を介さずに、撮影装置3が撮影する動画像をそのまま動画生成装置2に転送してもよい。
 動画生成装置2は、エッジサーバ4から受信した動画像を用いて、競走馬の一頭一頭にフォーカスした動画像を生成し、生成した動画像を公開して、動画生成システム7のユーザがアクセスできるようにする。なお、動画像の生成方法については図4に基づいて後述する。
 端末装置5および6は、動画生成システム7のユーザが使用する端末装置である。動画生成システム7のユーザは、端末装置5や6のような任意の端末装置を用いて動画生成装置2が生成する動画像、すなわち競走馬の一頭一頭にフォーカスした動画像を視聴することができる。例えば、図3に示す端末装置5にはゼッケン番号2番の競走馬にフォーカスした動画像が表示されており、一方端末装置6にはゼッケン番号1番の競走馬にフォーカスした動画像が表示されている。
 なお、動画生成システム7で使用可能な端末装置は、図3に示すようなタブレット型の端末装置やスマートフォンに限られない。例えば、パーソナルコンピュータ等の端末装置を使用して、動画生成システム7により生成された動画像を視聴することも可能である。また、動画生成システム7で使用可能な端末装置の数も特に限定されない。
 以上のように、動画生成システム7によれば、撮影装置3が撮影する動画像から、各競走馬にフォーカスした動画像を生成し、これを動画生成システム7のユーザに視聴させることができる。動画像はユーザが何ら操作を行うことなく自動で生成されるから、首記の特許文献1に記載されている画像処理装置と比べて容易かつ短時間で動画像を生成することができる。また、動画生成システム7では、競走馬の写る領域を検出するから、競走馬が動いているか否かにかかわらず、それを検出して動画像を生成することができる。
 また、撮影装置3が撮影する動画像は広角で撮影されたものであるから、この動画像から個々の競走馬の状態を判別することは難しいが、動画生成システム7が生成する各競走馬にフォーカスした動画像によれば、個々の競走馬の状態を容易に判別することができる。さらに、動画生成システム7では、各競走馬を個別に撮影する必要がないことにより、撮影機材や撮影人員を最小限に抑えることができ、また、上述のように競走馬に不要な刺激を与えることもないという利点もある。
 なお、動画生成システム7は、競走馬に限られず、任意の検出対象の動画像を生成することが可能である。例えば、動画生成システム7によれば、競馬以外の公営競技(例えばボートレースや競輪等)において、複数の競技者が写る動画像から、個々の競技者にフォーカスした動画像を生成することもできる。この他にも、例えば、スポーツの試合を撮影した動画像から、個々の選手にフォーカスした動画像を生成することもできるし、コンサートを撮影した動画像から、個々の演者にフォーカスした動画像を生成することもできる。また、動画生成システム7によれば、監視カメラやドライブレコーダ等の撮影装置で撮影された動画像または静止画像から、それらの画像に写る特定の人物や車両等にフォーカスした動画像を生成することもできる。したがって、以下の説明における「競走馬」は任意の検出対象に読み替えることができる。
 (動画生成方法の概要)
 図4は、本例示的実施形態における動画生成方法(以下、本方法と称する)の概要を示す図である。本方法では、まず、所定の検出対象である競走馬が写る時系列の静止画像211を取得する。静止画像211は、撮影装置3により競走馬を撮影することにより生成された動画像から抽出したフレーム画像であってもよい。フレーム画像の抽出は、図3に示したエッジサーバ4が行ってもよい。また、撮影装置3は、動画像を撮影する代わりに時系列の静止画像211を撮影してもよく、この場合、撮影装置3が撮影する静止画像211をそのまま取得すればよい。
 次に、本方法では、静止画像211において競走馬が写る領域を検出する。図4では、検出された領域を破線の矩形で示している。つまり図示の例では、ゼッケン1番の競走馬が写る領域と、ゼッケン2番の競走馬が写る領域が抽出されている。この処理は、時系列の静止画像211のそれぞれについて行われる。
 次に、本方法では、上記のようにして検出した領域を静止画像211から抽出して部分画像215を生成する。このようにして生成された部分画像215には、上述したゼッケン1番の競走馬が写るものと、ゼッケン2番の競走馬が写るものとが含まれている。
 そこで、本方法では、生成した複数の部分画像215を、その部分画像215に写る検出対象に応じて分類する。図4の例では、生成した複数の部分画像215を、ゼッケン1番の競走馬が写る部分画像2151と、ゼッケン2番の競走馬が写る部分画像2152に分類している。
 そして、本方法では、部分画像2151を時系列順で繋いで、部分画像2151をフレーム画像とする動画像を生成する。同様にして、部分画像2152からも動画像が生成される。ここで生成した動画像は、領域抽出の精度等の要因により、フレーム間で競走馬の位置がぶれたものとなっている可能性がある。このようなぶれが生じたときには不自然な動画像となり得る。
 そこで、本方法では、動画像を生成した後、動画像のフレーム間で検出対象が写る位置を揃える補正を行い、これにより動画像が完成となる。この補正を行うことにより、競走馬の一頭一頭にフォーカスした自然な動画像を生成することができる。
 (動画生成装置の構成)
 本例示的実施形態に係る動画生成装置2の構成を図5に基づいて説明する。図5は、動画生成装置2の構成を示すブロック図である。動画生成装置2は、動画像または時系列の複数の静止画像から動画像を生成する装置である。図示のように、動画生成装置2は、動画生成装置2の各部を統括して制御する制御部20と、動画生成装置2が使用する各種データを記憶する記憶装置である記憶部21を備えている。また、動画生成装置2は、動画生成装置2に対するユーザの入力操作を受け付ける入力部22と、動画生成装置2がデータを出力するための出力部23を備えている。なお、動画生成装置2は、動画生成専用の装置であってもよいし、他の用途にも使用できる汎用的な装置であってもよい。
 また、制御部20には、データ取得部201、検出部(検出手段)202、部分画像生成部(部分画像生成手段)203、マスキング部(マスキング手段)204、画像分類部(画像分類手段)205、動画生成部(動画生成手段)206、および補正部(補正手段)207が含まれている。そして、記憶部21には、静止画像211、検出モデル212、顔検出モデル213、個体識別モデル214、部分画像215、および動画像216が記憶されている。なお、マスキング部204および顔検出モデル213については後記「マスキング処理について」の項目で説明する。
 データ取得部201は、動画像の元になる時系列の複数の静止画像211を取得し、記憶部21に記憶させる。例えば、データ取得部201は、図3に示したエッジサーバ4から動画像を取得し、取得した動画像からフレーム画像を抽出して、それらのフレーム画像を動画像の元になる時系列の静止画像としてもよい。なお、動画像からフレーム画像を抽出する処理はエッジサーバ4が行ってもよく、この場合、データ取得部201は、エッジサーバ4から受信するフレーム画像を取得し、静止画像211として記憶部21に記憶させればよい。
 検出部202は、静止画像211から検出対象が写る領域を検出する。より詳細には、検出部202は、検出対象である競走馬が写る画像を教師データとした機械学習により構築された検出モデル212を用いて、静止画像211から競走馬が写る領域を検出する。
 検出モデル212の教師データは、検出対象である競走馬が写る画像に対し、当該画像における競走馬が写る領域を示す情報(例えば当該領域の代表座標および当該領域の幅および高さを示す情報)を正解データとして対応付けたものであってもよい。機械学習のアルゴリズムは特に限定されず、例えば畳み込みニューラルネットワーク等を適用してもよい。なお、検出モデル212は、個々の検出対象を識別できる必要はない。つまり、検出モデル212は、任意の競走馬を検出するように学習されたものであってもよい。
 部分画像生成部203は、検出部202が検出する領域を静止画像211から抽出して部分画像215を生成し、記憶部21に記憶させる。この際、部分画像生成部203は、静止画像211から抽出する領域に対し、拡大等のサイズ調整や画像の縦横比等の調整を行ってもよい。なお、部分画像生成部203が生成した部分画像215に観客等の人物が写り込んでいる場合には、生成された部分画像215は、マスキング部204によりマスキング処理が施された上で記憶部21に記憶される。
 画像分類部205は、部分画像215をその部分画像215に写る検出対象に応じて分類する。部分画像215の分類には個体識別モデル214が用いられる。個体識別モデル214は、部分画像215に写る検出対象すなわち競走馬の各個体を識別するためのモデルである。画像分類部205は、部分画像215に分類結果を示す情報を対応付けて記憶部21に記憶させる。
 個体識別モデル214は、競走馬のゼッケン番号を識別するように機械学習された学習済みモデルであってもよい。このような個体識別モデル214は、例えば、ゼッケンが写る領域を示す情報(例えば当該領域の代表座標および当該領域の幅および高さを示す情報)とそのゼッケンの番号とを正解データとして対応付けた部分画像215を教師データとした機械学習により構築することができる。この構成は、各競走馬に付されたゼッケン番号を競走馬の識別情報として利用したものである。
 このように、画像分類部205は、複数の検出対象を識別するために検出対象に付された識別情報を部分画像215から検出することにより、部分画像215を分類してもよい。この構成によれば、検出対象に付された識別情報を利用するので、例示的実施形態1に係る動画生成装置1の奏する効果に加えて、複数の検出対象を精度よく識別することができるという効果が得られる。
 動画生成部206は、部分画像215を時系列順で繋いで、部分画像215をフレーム画像とする動画像216を生成する。この際、動画生成部206は、画像分類部205が同じ分類に分類した部分画像215を時系列順で繋いで動画像216を生成する。
 補正部207は、動画生成部206が生成する動画像216のフレーム間で検出対象が写る位置を揃える補正を行う。そして、補正部207は、補正後の動画像216を記憶部21に記憶させる。補正の方法は特に限定されない。例えば、補正部207は、動画像の手振れ補正用のアルゴリズムを用いて上記補正を行ってもよい。これにより、動画像216のフレーム間で検出対象が写る位置を揃える補正を簡易に行うことができる。
 以上のように、動画生成装置2は、時系列の複数の静止画像211のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像215を時系列順で繋いで、当該部分画像215をフレーム画像とする動画像216を生成する動画生成部206と、生成された動画像216のフレーム間で検出対象が写る位置を揃える補正を行う補正部207と、を備えている。
 この構成によれば、静止画像211のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像215を用いるため、検出対象が動いているか否かにかかわらず、それを検出して動画像216を生成することができる。
 ただし、部分画像215に写る検出対象の位置が揃っているとは限らない。検出対象の位置が揃っていない部分画像215から動画像216を生成した場合には、フレーム間で検出対象の位置がずれて見にくい動画像となってしまう。そこで、上記の構成によれば、一度動画像216を生成した後で、生成した動画像216のフレーム間で検出対象が写る位置を揃える補正を行っている。これにより、検出対象の位置が揃っていない部分画像215から、フレーム間で検出対象の位置が揃った動画像216を自動で生成することができる。したがって、動画生成装置2によれば、所定の検出対象にフォーカスした動画像216を容易に生成することが可能になるという効果が得られる。
 また、以上のように、動画生成装置2は、検出対象が写る画像を教師データとした機械学習により構築された検出モデル212を用いて、静止画像211から検出対象が写る領域を検出する検出部202と、検出部202が検出する領域を静止画像211から抽出して部分画像215を生成する部分画像生成部203とを備える。これにより、例示的実施形態1に係る動画生成装置1の奏する効果に加えて、静止画像211から部分画像215を自動で生成することができるという効果が得られる。
 また、以上のように、動画生成装置2は、部分画像215を当該部分画像215に写る検出対象に応じて分類する画像分類部205を備え、動画生成部206は、画像分類部205が同じ分類に分類した部分画像215を時系列順で繋いで動画像216を生成する。これにより、例示的実施形態1に係る動画生成装置1の奏する効果に加えて、複数の検出対象が写る静止画像211から、各検出対象にフォーカスした動画像216を自動で生成することができるという効果が得られる。
 (検出対象の識別について)
 上述のように、個体識別モデル214を用いることにより部分画像215に写る検出対象を識別することができる。そして、上述のように、競走馬にはゼッケン番号という識別情報が付されたゼッケンが取り付けられているから、個体識別モデル214はこのゼッケン番号を識別するように機械学習したものとすればよい。
 ただし、数字には1と7のように外観が類似したものがあり、また、光の当たり具合や画角等によっては数字が読み取りにくい状態となることもあるため、個体識別モデル214による識別結果が必ずしも正しいとは限らない。このため、画像分類部205は、個体識別モデル214の出力値に加えて、検出対象の識別に関する情報を考慮することにより、部分画像215の分類先を決定してもよい。
 例えば、パドックには、基本的に決まった順序で競走馬が入場するから、画像分類部205は、個体識別モデル214の出力値から特定される識別結果が妥当であるか否かを、競走馬の入場順、あるいは、当該競走馬が撮影された時刻に基づいて検証してもよい。この検証の結果、識別結果が妥当ではないと判定された部分画像215については、動画像化の対象から外すようにしてもよい。また、そのような部分画像215については、例えば出力部23に出力させる等して動画生成装置2のユーザに提示し、正しい分類先をユーザに決定させてもよい。
 また、より簡易的な識別方法を採用してもよい。例えば、画像分類部205は、パドックに入場した順序に基づいて競走馬を識別してもよい。例えば、画像分類部205は、静止画像211に最初に写った競走馬を1番目の競走馬と識別してもよい。この場合、画像分類部205は、当該競走馬が撮影装置3の画角から外れるまでに撮影された時系列の静止画像211において、先頭に写る競走馬を1番目の競走馬と識別すればよい。また、画像分類部205は、1番目の競走馬の次に写る競走馬を2番目の競走馬と識別すればよい。以後同様にして、画像分類部205は、最後の競走馬まで識別することができる。
 なお、パドックでは興奮した競走馬が暴れたりしてゼッケン番号の識別が困難になることがある。このため、画像分類部205は、部分画像215を解析してこのような競走馬の特殊な動きを検出してもよい。そして、画像分類部205は、特殊な動きが検出された部分画像215については、動画像化の対象から外してもよいし、正しい分類先をユーザに決定させてもよい。
 上記した以外にも、例えば競走馬の毛色や騎手等に基づいて競走馬を識別することも可能である。また、検出対象が競走馬ではなく例えば人物である場合には、画像分類部205は、人物の顔を認識することにより識別を行ってもよい。
 (マスキング処理について)
 マスキング部204および顔検出モデル213について図6に基づいて説明する。図6は、マスキング部204によるマスキング処理の例を示す図である。図6には、マスキング処理を行う前の部分画像215Aと、マスキング処理後の部分画像215Bを示している。
 マスキング部204は、部分画像215における人物の顔が写る領域を検出し、検出した領域をマスキング処理する。なお、マスキング処理は、人物を識別不能にする処理であり、例えばモザイク処理やぼかし処理等であってもよい。図6の例では、マスキング部204は、部分画像215Aにおける人物AおよびBの顔が写る領域を検出し、それらの領域にぼかし処理を施して部分画像215Bを生成している。
 本例示的実施形態に係る動画生成装置2は、マスキング部204を備えていることにより、例示的実施形態1に係る動画生成装置1の奏する効果に加えて、写り込んだ人物のプライバシーや肖像権に配慮した動画像216を自動で生成することができるという効果が得られる。
 人物の顔が写る領域の検出には顔検出モデル213が用いられる。顔検出モデル213は、例えば、人物の顔が写る領域を示す情報(例えば当該領域の代表座標および当該領域の幅および高さを示す情報)を正解データとして対応付けた部分画像215を教師データとした機械学習により構築されたものであってもよい。機械学習のアルゴリズムは特に限定されず、例えば畳み込みニューラルネットワーク等を適用してもよい。
 ここで、図6の部分画像215Bには、人物A、Bの他に競走馬を誘導する騎手も写っているが、騎手の顔にはぼかし処理が施されていない。このように、マスキング部204は、部分画像215Bに写る所定の人物の顔にはマスキング処理を施さず、他の人物の顔にはマスキング処理を施すようにしてもよい。
 ここで、パドックを撮影した画像においては、図6の部分画像215Aおよび215Bに示すように、観客である人物A、Bの顔は正面から写る一方、騎手については横顔が写ることが多い。このため、正面から撮影された顔を正解データとした教師データを用いて機械学習することにより構築された顔検出モデル213を用いれば、人物A、Bの顔は検出し、騎手の顔は検出しないようにすることができる。よって、このような顔検出モデル213を用いれば、自動的に観客の顔にはマスキング処理を施し、騎手の顔にはマスキング処理を施さないようにし、騎手や馬の視認性が低下することを防ぐことができる。
 また、例えば、観客と騎手をそれぞれ識別できるように機械学習することにより構築された識別モデルを用いてもよい。この場合、マスキング部204は、当該識別モデルを用いて識別した観客と騎手のうち観客の顔領域のみにマスキング処理を施せばよい。
 また、パドックを一定の位置から撮影した動画像においては、その撮影位置を予め調整しておけば、観客と騎手が異なった領域に写るようにすることができる。例えば、図6の部分画像215Aおよび215Bでは、観客である人物A、Bはそれらの画像の上端部の帯状の領域(客席の領域)に写り、騎手はそれより下方の領域に写る。よって、マスキング部204は、部分画像215の上端部の帯状の領域(客席の領域)で検出された顔領域はマスキング処理し、他の領域で検出された顔領域にはマスキング処理しないようにしてもよい。あるいは、マスキング部204は、部分画像215の上端部の帯状の領域(客席の領域)のみを対象として顔検出処理を行ってもよい。
 (処理の流れ)
 動画生成装置2が実行する処理(動画生成方法)の流れを図7に基づいて説明する。図7は、動画生成装置2が実行する動画生成方法の流れを示すフロー図である。以下の処理は、撮影装置3によるパドックを回る競走馬の動画像の撮影(図3参照)と並行して行われてもよい。
 S21では、データ取得部201が、時系列の所定数の静止画像211を取得する。例えば、データ取得部201は、撮影装置3が撮影する、パドックを回る競走馬の動画像をエッジサーバ4から取得し、その動画像を構成するフレーム画像を静止画像211として取得してもよい。
 S22では、検出部202が、S21で取得された各静止画像211から馬体が写る領域を検出する。具体的には、検出部202は、S21で取得された各静止画像211を検出モデル212に入力することにより得られる出力値に基づいて、各静止画像211における馬体が写る領域を検出する。
 S23では、部分画像生成部203が、S21で取得された各静止画像211における、S22で検出された領域を抽出して部分画像215を生成する。
 S24では、マスキング部204が、S23で生成された各部分画像215において、人の顔が写る領域を検出し、検出した領域にマスキング処理を施す。具体的には、マスキング部204は、S23で生成された部分画像215を顔検出モデル213に入力することにより得られる出力値に基づいて、部分画像215における人の顔が写る領域を検出し、その領域にマスキング処理を施す。なお、S24の処理は、S21で取得された静止画像211に対して行ってもよい。この場合、S24の処理は、S21の後、S23より前に行われる。
 S25では、画像分類部205が、S23で生成され、S24でマスキング処理が施された部分画像215を、その部分画像215に写る競走馬の個体ごとに分類する。具体的には、画像分類部205は、部分画像215を個体識別モデル214に入力することにより得られる出力値に基づいて部分画像215を分類する。
 S26では、動画生成部206が、S25で同じ分類に分類された部分画像215を時系列順で繋いで、当該部分画像215をフレーム画像とする動画像216を生成する。
 S27では、補正部207が、S26で生成された動画像216のフレーム間で検出対象である競走馬が写る位置を揃える補正を行う。これにより、各競走馬にフォーカスした動画像216が完成する。完成した動画像216は、例えば図3に示した端末装置5および6のような動画生成システム7のユーザが使用する端末装置から視聴できるように、オンラインで公開されてもよい。
 なお、パドックを回る競走馬の動画像の撮影と並行して以上の処理を行う場合、エッジサーバ4から継続的に新たな動画像(より正確には動画像を構成するフレーム画像)が受信される。このため、動画生成装置2は、新たな動画像が受信される毎に上記S21~S27の処理を行い、先に生成した動画像216を更新してもよい。
 〔変形例〕
 上述の実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置(プロセッサということもできる)により、動画生成装置2の機能を代替することができる。例えば、図5に示す各ブロックを複数の装置に分散して設けることにより、動画生成装置2と同様の機能を有するシステムを構築することができる。
 また、部分画像215をその部分画像215に写る検出対象に応じて分類した後、各分類の部分画像215をそれぞれ別の装置で動画像化してもよい。これにより、各検出対象にフォーカスした動画像を複数の装置による並列処理で生成することができるので、各検出対象にフォーカスした動画像を短時間で生成することが可能になる。
 〔ソフトウェアによる実現例〕
 動画生成装置1および2の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、動画生成装置1および2は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図8に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを動画生成装置1および2として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、動画生成装置1および2の各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段と、前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う補正手段と、を備える動画生成装置。
 (付記2)
 前記検出対象が写る画像を教師データとした機械学習により構築された検出モデルを用いて、前記静止画像から前記検出対象が写る領域を検出する検出手段と、前記検出手段が検出する前記領域を前記静止画像から抽出して前記部分画像を生成する部分画像生成手段と、を備える付記1に記載の動画生成装置。
 (付記3)
 前記部分画像を当該部分画像に写る前記検出対象に応じて分類する画像分類手段を備え、前記動画生成手段は、前記画像分類手段が同じ分類に分類した前記部分画像を時系列順で繋いで動画像を生成する付記1又は2に記載の動画生成装置。
 (付記4)
 前記画像分類手段は、複数の前記検出対象を識別するために当該検出対象に付された識別情報を前記部分画像から検出することにより、前記部分画像を分類する、付記3に記載の動画生成装置。
 (付記5)
 前記部分画像における人物の顔が写る領域を検出し、検出した領域をマスキング処理して当該人物を識別できなくするマスキング手段を備える付記1から4の何れかに記載の動画生成装置。
 (付記6)
 少なくとも1つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行うことと、を含む、動画生成方法。
 (付記7)
 コンピュータを付記1~5の何れか一に記載の動画生成装置として動作させるためのプログラムであって、前記コンピュータを前記各手段として機能させる、ことを特徴とする動画生成プログラム。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。少なくとも1つのプロセッサを備え、前記プロセッサは、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する処理と、前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う処理とを実行する動画生成装置。
 なお、この動画生成装置は、更にメモリを備えていてもよく、このメモリには、前記動画像を生成する処理と、前記補正を行う処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
  1   動画生成装置
 11   動画生成部
 12   補正部
  2   動画生成装置
202   検出部
203   部分画像生成部
204   マスキング部
205   画像分類部
206   動画生成部
207   補正部

 

Claims (7)

  1.  時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段と、
     前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う補正手段と、を備える動画生成装置。
  2.  前記検出対象が写る画像を教師データとした機械学習により構築された検出モデルを用いて、前記静止画像から前記検出対象が写る領域を検出する検出手段と、
     前記検出手段が検出する前記領域を前記静止画像から抽出して前記部分画像を生成する部分画像生成手段と、を備える請求項1に記載の動画生成装置。
  3.  前記部分画像を当該部分画像に写る前記検出対象に応じて分類する画像分類手段を備え、
     前記動画生成手段は、前記画像分類手段が同じ分類に分類した前記部分画像を時系列順で繋いで動画像を生成する、請求項1または2に記載の動画生成装置。
  4.  前記画像分類手段は、複数の前記検出対象を識別するために当該検出対象に付された識別情報を前記部分画像から検出することにより、前記部分画像を分類する、請求項3に記載の動画生成装置。
  5.  前記部分画像における人物の顔が写る領域を検出し、検出した領域をマスキング処理するマスキング手段を備える、請求項1から4の何れか1項に記載の動画生成装置。
  6.  少なくとも1つのプロセッサが、
     時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、
     前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行うことと、を含む、動画生成方法。
  7.  コンピュータを、
     時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段、および
     前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う補正手段、として機能させる、動画生成プログラム。

     
PCT/JP2022/011186 2022-03-14 2022-03-14 動画生成装置、動画生成方法、および動画生成プログラム WO2023175652A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/011186 WO2023175652A1 (ja) 2022-03-14 2022-03-14 動画生成装置、動画生成方法、および動画生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/011186 WO2023175652A1 (ja) 2022-03-14 2022-03-14 動画生成装置、動画生成方法、および動画生成プログラム

Publications (1)

Publication Number Publication Date
WO2023175652A1 true WO2023175652A1 (ja) 2023-09-21

Family

ID=88022803

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/011186 WO2023175652A1 (ja) 2022-03-14 2022-03-14 動画生成装置、動画生成方法、および動画生成プログラム

Country Status (1)

Country Link
WO (1) WO2023175652A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004363775A (ja) * 2003-06-03 2004-12-24 Oki Electric Ind Co Ltd 撮影システムおよびその画像配信の提供方法
JP2006099058A (ja) * 2004-09-03 2006-04-13 Fuji Photo Film Co Ltd 表示装置、表示方法、およびプログラム
JP2009033738A (ja) * 2007-07-04 2009-02-12 Sanyo Electric Co Ltd 撮像装置、画像ファイルのデータ構造
JP2018156453A (ja) * 2017-03-17 2018-10-04 グローリー株式会社 画像提供システム、画像提供方法、および画像提供プログラム
WO2019142658A1 (ja) * 2018-01-18 2019-07-25 ソニー株式会社 画像処理装置および方法、並びにプログラム
WO2021149252A1 (ja) * 2020-01-24 2021-07-29 株式会社日立国際電気 学習データセット生成装置および方法
JP2021124868A (ja) * 2020-02-04 2021-08-30 オムロン株式会社 情報処理装置、シルエット抽出方法、プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004363775A (ja) * 2003-06-03 2004-12-24 Oki Electric Ind Co Ltd 撮影システムおよびその画像配信の提供方法
JP2006099058A (ja) * 2004-09-03 2006-04-13 Fuji Photo Film Co Ltd 表示装置、表示方法、およびプログラム
JP2009033738A (ja) * 2007-07-04 2009-02-12 Sanyo Electric Co Ltd 撮像装置、画像ファイルのデータ構造
JP2018156453A (ja) * 2017-03-17 2018-10-04 グローリー株式会社 画像提供システム、画像提供方法、および画像提供プログラム
WO2019142658A1 (ja) * 2018-01-18 2019-07-25 ソニー株式会社 画像処理装置および方法、並びにプログラム
WO2021149252A1 (ja) * 2020-01-24 2021-07-29 株式会社日立国際電気 学習データセット生成装置および方法
JP2021124868A (ja) * 2020-02-04 2021-08-30 オムロン株式会社 情報処理装置、シルエット抽出方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAEKO MAEDA, YUTAKA NASU, SATORU OKAMOTO, NAOAKI YAMANAKA: "A Real-Time Multi-Viewpoint Video Distribution Method Using a Dynamic Camera Clustering Method Based on Frame Meta-information", IEICE TECHNICAL REPORT, PN, IEICE, JP, vol. 120, no. 388 (PN2020-50), JP, pages 51 - 57, XP009548971, Retrieved from the Internet <URL:https://ken.ieice.org/ken/paper/20210302GCd2/eng/> *

Similar Documents

Publication Publication Date Title
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
JP5567853B2 (ja) 画像認識装置および方法
US7844135B2 (en) Detecting orientation of digital images using face detection information
US8494286B2 (en) Face detection in mid-shot digital images
JP4970469B2 (ja) デジタル画像を選択的に不適格とする方法及び装置
CN109325933A (zh) 一种翻拍图像识别方法及装置
US10467498B2 (en) Method and device for capturing images using image templates
CN111597938B (zh) 活体检测、模型训练方法及装置
US20120155709A1 (en) Detecting Orientation of Digital Images Using Face Detection Information
CN110738116B (zh) 活体检测方法及装置和电子设备
JP2009223580A (ja) 優先対象決定装置、電子機器、優先対象決定方法、プログラム、および記録媒体
CN109299658B (zh) 脸部检测方法、脸部图像渲染方法、装置及存储介质
CN112733802B (zh) 图像的遮挡检测方法、装置、电子设备及存储介质
JP2007074143A (ja) 撮像装置及び撮像システム
JP6969878B2 (ja) 識別器学習装置および識別器学習方法
JP5937823B2 (ja) 画像照合処理装置、画像照合処理方法及び画像照合処理プログラム
JP7448043B2 (ja) 撮影制御システム
WO2023175652A1 (ja) 動画生成装置、動画生成方法、および動画生成プログラム
CN116057570A (zh) 机器学习装置以及图像处理装置
JP2011071925A (ja) 移動体追尾装置および方法
JP2015139001A (ja) 情報処理装置、情報処理方法及びプログラム
JP2009187348A (ja) 不審物自動検出装置
CN113822927B (zh) 一种适用弱质量图像的人脸检测方法、装置、介质及设备
JP2005149145A (ja) 物体検出装置、物体検出方法、およびコンピュータプログラム
JP6820489B2 (ja) 画像処理装置、および、画像処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22931937

Country of ref document: EP

Kind code of ref document: A1