WO2022269891A1 - 画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム - Google Patents

画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム Download PDF

Info

Publication number
WO2022269891A1
WO2022269891A1 PCT/JP2021/024093 JP2021024093W WO2022269891A1 WO 2022269891 A1 WO2022269891 A1 WO 2022269891A1 JP 2021024093 W JP2021024093 W JP 2021024093W WO 2022269891 A1 WO2022269891 A1 WO 2022269891A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
target
information
image processing
unit
Prior art date
Application number
PCT/JP2021/024093
Other languages
English (en)
French (fr)
Inventor
俊明 久保
聡 道籏
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023529395A priority Critical patent/JPWO2022269891A1/ja
Priority to PCT/JP2021/024093 priority patent/WO2022269891A1/ja
Publication of WO2022269891A1 publication Critical patent/WO2022269891A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present disclosure relates to an image processing device, a learning device, an image processing system, an image processing method, a generation method, an image processing program, and a generation program.
  • Multiple cameras may capture an object.
  • a technique has been proposed for displaying an object from various directions based on a plurality of images obtained by imaging the object with a plurality of cameras (see Patent Document 1).
  • an optimum image which is an image that the user wants to see
  • the method allows the user to view the optimal image via the terminal device.
  • an object that the user wants to see may move. If the object moves, the image produced by one camera is not always the best image. Therefore, the problem is how to identify the camera that generated the optimum image from among a plurality of cameras.
  • the purpose of this disclosure is to identify the camera that produced the optimal image.
  • the image processing device includes an acquisition unit that acquires a plurality of images generated by a plurality of imaging devices existing at different locations and a target object image that is an image including the target, and the plurality of images and the target. a detection unit that detects object information, which is information about the object, for each image using an object image; an identifying unit that identifies the first imaging device that generated the best image containing the object.
  • FIG. 1 illustrates an image processing system according to Embodiment 1;
  • FIG. 2 is a diagram showing an example (part 1) of arrangement of cameras according to the first embodiment;
  • FIG. 2 is a diagram showing an example (part 2) of arrangement of cameras according to the first embodiment;
  • FIG. 2 illustrates hardware included in the image processing apparatus according to the first embodiment;
  • FIG. 2 is a block diagram showing functions of the image processing apparatus according to Embodiment 1;
  • FIG. 4 is a diagram (part 1) for explaining target information according to the first embodiment; 3A to 3C are diagrams (part 2) for explaining target information according to the first embodiment;
  • FIG. 4 is a diagram showing an example of specific information according to Embodiment 1;
  • FIG. 4 is a flowchart showing an example of processing executed by the image processing apparatus according to Embodiment 1;
  • 4 is a diagram showing a specific example of processing executed by the image processing system according to the first embodiment;
  • FIG. 3 is a block diagram showing functions of an image processing apparatus according to a modification of Embodiment 1;
  • FIG. 3 is a block diagram showing functions of an image processing apparatus according to a second embodiment;
  • FIG. FIG. 10 is a diagram showing an example of using a plurality of trained models according to Embodiment 2;
  • FIG. FIG. 10 is a diagram showing an example of using one trained model according to Embodiment 2;
  • FIG. 10 is a diagram showing an example of a neural network according to Embodiment 2;
  • FIG. FIG. 12 is a diagram showing an example of random forest according to the second embodiment;
  • FIG. 11 is a block diagram showing functions of a learning device according to Embodiment 2;
  • FIG. 12 illustrates an image processing system according to a third embodiment;
  • FIG. 11 is a block diagram showing functions of an information processing apparatus according to a third embodiment;
  • 14 is a block diagram showing functions of an image processing apparatus according to Embodiment 4;
  • FIG. FIG. 13 is a diagram showing an example of a trained model for events according to Embodiment 4;
  • FIG. 11 is a block diagram showing functions of an information processing apparatus according to a fifth embodiment;
  • FIG. 1 is a diagram showing an image processing system according to Embodiment 1.
  • the image processing system includes an image processing device 100 and cameras 200_1 to 200_6.
  • the image processing system may include terminal device 300 .
  • the image processing device 100, the cameras 200_1 to 200_6, and the terminal device 300 are connected via a network.
  • the network may be a wired network or a wireless network.
  • the image processing device 100 is a device that executes an image processing method.
  • the camera 200_1 is called camera A.
  • the camera 200_2 is called camera B.
  • the camera 200_3 is called camera C.
  • the camera 200_4 is called camera D.
  • the camera 200_5 is called camera E.
  • Camera 200_6 is called camera F.
  • FIG. 1 illustrates six cameras. The number of cameras is not limited to six. Note that the camera is also called an imaging device.
  • Each of the cameras 200_1 to 200_6 is installed to photograph the same event, is capable of photographing the state of the event, and exists at different points.
  • the camera 200_1 exists at the A point.
  • the camera 200_2 is present at the B point.
  • each of the cameras 200_1-200_6 exists at a different point.
  • Events are, for example, live performances, boxing, futsal, and the like. In the discussion below, the event is assumed to be live.
  • Cameras 200_1 to 200_6 capture images of a plurality of women appearing at the event.
  • the plural females are W, X, Y, Z.
  • Several women are dancing while singing a song. Therefore, multiple women may not exist in a fixed position.
  • the object is a person, an animal, a moving machine, or the like.
  • the object may appear in the event and move during the event.
  • the object may be a person specified by the user from among the list of event characters displayed on the screen of the terminal device 300 .
  • X is the object.
  • the terminal device 300 is a device used by a user.
  • the terminal device 300 acquires an image (more specifically, video) including the object X via the image processing device 100 .
  • a user can view the object X using the terminal device 300 .
  • the image including the object X is the optimum image. In other words, the image containing the object X is the image that the user wants to see.
  • object X moves. Therefore, the image produced by one camera is not always the best image. For example, in FIG. 1, since the object X exists in front of the camera C, the image generated by the camera C can be said to be the optimum image. However, because the object X moves, the image produced by camera C is not always the best image. Therefore, a method by which the image processing apparatus 100 identifies the camera that generated the optimum image from among the plurality of cameras will be described below.
  • FIG. 1 shows a case where the cameras 200_1 to 200_6 are arranged substantially in a line. Multiple cameras may be arranged as follows.
  • FIG. 2 is a diagram showing an example (part 1) of camera arrangement according to the first embodiment.
  • FIG. 2 shows that the cameras are arranged in a circle.
  • FIG. 2 shows cameras 200_7 and 200_8.
  • the camera 200_7 is also called camera G.
  • the camera 200_8 is also called camera H.
  • FIG. 3 is a diagram illustrating an example (part 2) of camera arrangement according to the first embodiment.
  • FIG. 3 shows that camera 200_7 and camera 200_8 are placed far away.
  • the case of FIG. 1 will be used. That is, the description will be made using the case where the cameras A to F are arranged substantially in a line.
  • FIG. 4 illustrates hardware included in the image processing apparatus according to the first embodiment.
  • the image processing apparatus 100 has a processor 101 , a volatile memory device 102 and a nonvolatile memory device 103 .
  • the processor 101 controls the image processing apparatus 100 as a whole.
  • the processor 101 is a CPU (Central Processing Unit), FPGA (Field Programmable Gate Array), or the like.
  • Processor 101 may be a multiprocessor.
  • the image processing apparatus 100 may have a processing circuit.
  • the processing circuit may be a single circuit or multiple circuits.
  • the volatile storage device 102 is the main storage device of the image processing device 100 .
  • the volatile memory device 102 is RAM (Random Access Memory).
  • a nonvolatile storage device 103 is an auxiliary storage device of the image processing apparatus 100 .
  • the nonvolatile storage device 103 is a HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • FIG. 5 is a block diagram showing functions of the image processing apparatus according to the first embodiment.
  • the image processing apparatus 100 has a storage unit 110 , an acquisition unit 120 , a detection unit 130 , an identification unit 140 , a selection unit 150 and an output control unit 160 .
  • the storage unit 110 may be implemented as a storage area secured in the volatile storage device 102 or the nonvolatile storage device 103 .
  • a part or all of the acquisition unit 120, the detection unit 130, the identification unit 140, the selection unit 150, and the output control unit 160 may be implemented by a processing circuit.
  • Part or all of the acquisition unit 120, the detection unit 130, the identification unit 140, the selection unit 150, and the output control unit 160 may be implemented as modules of a program executed by the processor 101.
  • the program executed by the processor 101 is also called an image processing program.
  • an image processing program is recorded on a recording medium.
  • the acquisition unit 120 acquires a plurality of images generated by cameras A to F. For example, the acquisition unit 120 acquires multiple images from cameras A to F. Note that the object X is included in at least one of the plurality of images.
  • the acquisition unit 120 acquires an object image.
  • the acquisition unit 120 acquires the target object image from the storage unit 110 .
  • the acquisition unit 120 acquires the target object image from the terminal device 300 .
  • the target object image is an image including the target object X.
  • FIG. Object images may be referred to as sample images.
  • the acquisition unit 120 may acquire the name information of the target object X from the terminal device 300 and acquire the target object image from the storage unit 110 based on the name information.
  • the detection unit 130 detects target information for each image using a plurality of images and target object images. For example, the detection unit 130 detects target information based on an image generated by the camera A. FIG. Also, for example, the detection unit 130 detects target information based on the image generated by the camera B. FIG. Thus, the detection unit 130 detects six pieces of target information based on the six images generated by the cameras A to F. The target information also includes the identifier of the camera that generated the image. For example, based on the image generated by Camera A, the detected object information includes the identifier of Camera A.
  • Target information is information about the target in the image.
  • the object information includes information indicating whether or not the object X is included in the image, the size of the object X in the image, the position of the object X in the image, the orientation of the object X, One or more of information indicating whether or not the object X in the image is blurred, information indicating the brightness of the object X in the image, and skeleton information of the object X.
  • the target information is not limited to the above information.
  • the object information may be other information as long as it is information about how the object X appears in the image.
  • FIG. 6 is a diagram (part 1) for explaining target information according to the first embodiment.
  • Image 400 in FIG. 6 is an image generated by camera C.
  • the detection unit 130 creates information indicating whether or not the target object X is included in the image 400 using the image 400 and the target object image. Specifically, the detection unit 130 creates information indicating whether or not the object X is included in the image 400 using pattern matching, object recognition technology, or the like. Note that, for example, the object recognition technology is a specific object recognition technology.
  • the detection unit 130 detects the size of the object X in the image 400 when the object X is included in the image 400 .
  • FIG. 6 shows the size of the object X with a frame 401 .
  • the size of object X is indicated by the area of frame 401 .
  • the size of the object X may indicate whether or not it is larger than the reference size.
  • the detection unit 130 detects the position of the object X within the image. For example, the detection unit 130 detects the distance between the center line of the image 400 and the center line of the frame 401 as the position of the object X. FIG. Also, the detection unit 130 may detect where the object X exists within the image 400 . For example, the detection results are center, left, right, and so on.
  • the detection unit 130 detects the orientation of the object X when the object X is included in the image 400 .
  • the detection unit 130 detects the orientation of the object X using Head Pose Estimation. Examples of detection results are shown.
  • FIGS. 7A to 7C are diagrams (part 2) for explaining target information according to the first embodiment.
  • FIGS. 7A to 7C show detection results.
  • FIG. 7A shows that the orientation of the object X is the front.
  • the detection result in FIG. 7A may indicate 0 degrees.
  • FIG. 7B shows that the orientation of the target object X is right beside.
  • the detection result in FIG. 7B may indicate 90 degrees.
  • FIG. 7C shows that the object X is oriented directly behind.
  • the detection result of FIG. 7C may indicate 180 degrees.
  • the detection unit 130 creates information indicating whether or not the object X in the image 400 is blurred. For example, the detection unit 130 creates information indicating whether or not the object X is blurred, based on the steepness of luminance change in the edge portion of the image 400, the amount of high frequency components in the image 400, and the like. Information indicating whether or not the object X is blurred may be expressed as information indicating whether or not the object X is in focus.
  • the detection unit 130 creates information indicating the brightness of the object X in the image 400 when the object X is included in the image 400 .
  • the detection unit 130 creates the brightness or brightness of the area of the object X in the image 400 as information indicating the brightness of the object X.
  • the information indicating the brightness of the object X may be expressed as information indicating whether or not the image is obtained by imaging the object X in backlight.
  • the detection unit 130 detects skeleton information of the object X when the object X is included in the image 400 .
  • the detection unit 130 detects skeleton information of the target object X using Open Pose. An example of skeleton information is shown.
  • FIG. 8 is a diagram (part 3) for explaining target information according to the first embodiment.
  • the detection unit 130 detects skeleton information 402 of the object X based on the image 400 . Further, based on the skeleton information 402, the detection unit 130 may detect information such as whether the whole body is included in the image or part of the body is not included in the image. Thus, the detection unit 130 detects target information for each image. That is, the detection unit 130 detects six pieces of target information. 6 examples of target information are shown.
  • FIG. 9 is a diagram showing an example of target information according to the first embodiment. In FIG. 9, six target information are illustrated. The detection unit 130 detects such six pieces of target information.
  • the identification unit 140 identifies the camera that generated the optimum image from cameras A to F using the target information detected for each image.
  • the camera that generated the optimum image is also referred to as the first imaging device.
  • the optimum image is an image including the object X.
  • FIG. Specifically, the identification unit 140 identifies the camera that generated the optimum image using the target information detected for each image and the identification information. exemplifies specific information;
  • the identification information 111 is information for identifying the camera that generated the optimum image.
  • the specific information 111 is acquired by the acquisition unit 120 .
  • the acquisition unit 120 acquires the specific information 111 from the storage unit 110 .
  • the acquisition unit 120 acquires the specific information 111 from an external device (for example, a cloud server).
  • the identification unit 140 identifies the camera that generated the optimum image using the point addition method.
  • the point addition method will be explained concretely.
  • the object information corresponding to camera C indicates that object X is included in the image.
  • the specifying unit 140 specifies that the target information corresponding to the camera C satisfies the condition “the target is included in the image” indicated by the specifying information 111 . Therefore, the specifying unit 140 gives 1 point to the target information corresponding to the camera C.
  • FIG. the object information corresponding to the camera C indicates that the size of the object X is large.
  • the specifying unit 140 specifies that the target information corresponding to the camera C satisfies the condition “the target object is large” indicated by the specifying information 111 .
  • the specifying unit 140 further assigns 1 point to the target information corresponding to the camera C.
  • the specifying unit 140 gives 1 point to the target information corresponding to the camera C when the condition is satisfied.
  • the specifying unit 140 performs similar processing on the target information corresponding to cameras A to F.
  • the specifying unit 140 specifies the camera corresponding to the target information with the highest score among the target information corresponding to the cameras A to F as the camera that generated the optimum image.
  • the identifying unit 140 identifies camera C. FIG.
  • the selection unit 150 selects an image generated by the camera identified by the identification unit 140 from among the plurality of images.
  • the image contains the identifier of the camera.
  • an identifier of the camera is attached to the image. Therefore, the selection unit 150 can select the image generated by the camera identified by the identification unit 140 from among the plurality of images. Note that the selected image is the optimal image.
  • the output control unit 160 outputs the selected image.
  • the output control section 160 outputs the selected image to the terminal device 300 .
  • the output control section 160 may output the selected image to the storage section 110 .
  • FIG. 11 is a flowchart illustrating an example of processing executed by the image processing apparatus according to Embodiment 1.
  • the acquisition unit 120 acquires a plurality of images generated by the cameras A to F.
  • the acquisition unit 120 acquires the target object image and the specific information.
  • the detection unit 130 detects object information for each image using a plurality of images and object images.
  • Step S14 The identifying unit 140 identifies the camera that generated the optimum image using the target information detected for each image and the specific information.
  • Step S15 The selection unit 150 selects an image generated by the identified camera from among the plurality of images.
  • Step S16 The output control section 160 outputs the selected image.
  • FIG. 12 is a diagram showing a specific example of processing executed by the image processing system according to the first embodiment.
  • FIG. 12 shows images generated by cameras AF.
  • image "A001" is an image generated by camera A at time "1p".
  • the image processing device 100 acquires an object image including the object X from the terminal device 300 .
  • the image processing device 100 identifies the camera B that generated the optimum image.
  • the image processing apparatus 100 selects the image "B002" generated by the camera B from among the images "A002" to "F002".
  • the image processing device 100 outputs the image “B002” to the terminal device 300 . Thereby, the terminal device 300 displays the image “B002”.
  • the image processing device 100 After the image "B002" is output, the image processing device 100 identifies the camera B that generated the optimum image.
  • the image processing apparatus 100 selects the image “B003” generated by the camera B from among the images "A003" to "F003".
  • the image processing device 100 outputs the image “B003” to the terminal device 300 . Accordingly, the terminal device 300 displays the image "B003".
  • the image processing device 100 After the image "B003" is output, the image processing device 100 identifies the camera C that generated the optimum image.
  • the image processing apparatus 100 selects the image “C004” generated by the camera C from among the images “A004” to “F004”.
  • the image processing device 100 outputs the image “C004” to the terminal device 300 . Thereby, the terminal device 300 displays the image “C004”.
  • the image processing device 100 repeats the above processing. This allows the user to continuously view the optimum image.
  • the image processing apparatus 100 can identify the camera that generated the optimum image, as described above.
  • FIG. 13 is a block diagram showing the functions of the image processing device of the modification of the first embodiment.
  • Acquisition unit 120 stores a plurality of images in storage unit 110 .
  • Acquisition unit 120 acquires a plurality of images from storage unit 110 at a predetermined timing. For example, the obtaining unit 120 obtains a plurality of images from the storage unit 110 when receiving a process execution instruction from the user. Then, the detection unit 130, the identification unit 140, and the selection unit 150 execute processing.
  • the selected image (that is, the optimum image) is stored in storage unit 110 .
  • the output control unit 160 acquires the optimum image from the storage unit 110 at a predetermined timing. For example, when the acquisition unit 120 acquires from the terminal device 300 an instruction to transmit an optimal image (that is, an image including the object X), the output control unit 160 acquires the optimal image from the storage unit 110 . The output control unit 160 outputs the acquired optimum image. For example, the output control unit 160 outputs the optimum image to the terminal device 300. FIG.
  • the image processing device 100 can output an optimal image at a predetermined timing.
  • Embodiment 2 Next, Embodiment 2 will be described. In Embodiment 2, mainly matters different from Embodiment 1 will be described. In the second embodiment, descriptions of items common to the first embodiment are omitted. Embodiment 2 describes a case where detection and specific processing are performed using a trained model.
  • FIG. 14 is a block diagram showing functions of the image processing apparatus according to the second embodiment.
  • the image processing device 100a has an acquisition unit 120a, a detection unit 130a, and an identification unit 140a.
  • the function of the acquisition unit 120a will be explained later.
  • the detection unit 130a uses at least one trained model in the process of detecting target information for each image. A case where a trained model is used will be described using a specific example.
  • FIG. 15 is a diagram showing an example of using a plurality of trained models according to the second embodiment.
  • FIG. 15 shows an image 410 and an object image 411 .
  • Image 410 is an image generated by camera C.
  • FIG. The detection unit 130 a detects a person in the image 410 using the person detection model 131 , which is a trained model, and the image 410 . Thereby, W, X, and Y are detected.
  • the detection unit 130a identifies the object X in the image 410 using the person identification model 132, which is a trained model, the image 410, and the object image 411. Also, the detection unit 130 a detects the size of the object X in the image 410 and the position of the object X in the image 410 using the person identification model 132 , the image 410 and the object image 411 .
  • the detection unit 130 a detects the orientation of the target object X using the orientation detection model 133 that is a trained model and the image 410 .
  • the detection unit 130a uses the focus detection model 134, which is a trained model, and the image 410 to detect whether or not the object X in the image 410 is blurred.
  • the detection unit 130 a detects the brightness of the object X in the image 410 using the brightness detection model 135 that is a trained model and the image 410 .
  • the detection unit 130a detects the skeleton information of the target object X using the skeleton detection model 136, which is a trained model, and the image 410.
  • the human detection model 131, the human identification model 132, the orientation detection model 133, the focus detection model 134, the brightness detection model 135, and the skeleton detection model 136 are acquired by the acquisition unit 120a.
  • the acquisition unit 120a acquires these trained models from the storage unit 110.
  • FIG. Also, for example, the acquisition unit 120a acquires these learned models from an external device.
  • the detection unit 130 a may detect target information corresponding to the camera C using one trained model, the image 410 and the target object image 411 .
  • a case where one trained model is used is illustrated.
  • FIG. 16 is a diagram showing an example in which one trained model of Embodiment 2 is used.
  • FIG. 16 shows that the trained model constitutes a neural network.
  • the detection unit 130 a detects target information corresponding to the camera C using the learned model, the image 410 and the target object image 411 .
  • the learned model is obtained by the obtaining unit 120a.
  • the acquiring unit 120a acquires the learned model from the storage unit 110.
  • FIG. Also, for example, the acquiring unit 120a acquires the learned model from an external device.
  • the identification unit 140a identifies the camera that generated the optimum image using the target information detected for each image and the learned model.
  • a trained model consists of a neural network. Illustrate a neural network.
  • FIG. 17 is a diagram showing an example of a neural network according to the second embodiment.
  • the identifying unit 140a identifies the camera that generated the optimum image using the target information detected for each image and the learned model. Specifically, target information detected for each image is input to the trained model, and the trained model outputs the camera that generated the optimum image.
  • the identification unit 140a identifies the camera that generated the optimum image by outputting the camera that generated the optimum image.
  • a trained model may consist of a random forest. Illustrate a random forest.
  • FIG. 18 is a diagram showing an example of random forest according to the second embodiment.
  • the identifying unit 140a may identify the camera that generated the optimum image using a trained model that forms a random forest.
  • the learned model that configures the neural network or random forest is acquired by the acquiring unit 120a.
  • the acquiring unit 120a acquires the learned model from the storage unit 110.
  • FIG. Also, for example, the acquiring unit 120a acquires the learned model from an external device.
  • the image processing apparatus 100 can detect target information for each image using a trained model. Also, the image processing apparatus 100 can identify the camera that generated the optimum image using the learned model.
  • FIG. 19 is a block diagram showing functions of the learning device according to the second embodiment.
  • Learning device 500 has a processor, volatile storage, and non-volatile storage.
  • the learning device 500 may have processing circuitry.
  • the learning device 500 is a device that executes the generation method.
  • Learning device 500 has acquisition unit 510 and generation unit 520 .
  • Part or all of the acquisition unit 510 and the generation unit 520 may be realized by a processing circuit of the learning device 500 .
  • part or all of the acquisition unit 510 and the generation unit 520 may be implemented as modules of programs executed by the processor of the learning device 500 .
  • the program is also called a generation program.
  • the generation program is recorded on a recording medium.
  • the acquisition unit 510 acquires object information created for each image based on a plurality of images generated by a plurality of cameras existing at different points and the object image. A label indicating that the target information is created based on the optimum image is added to one target information among the plurality of acquired target information. By adding a label to the target information in this way, the learning device 500 can perform supervised learning.
  • the acquisition unit 510 acquires the target information from an external device.
  • the target information may be information created by the user.
  • the target information also includes the identifier of the camera.
  • the generation unit 520 generates a learned model that identifies the camera that generated the optimum image from among the plurality of cameras, using the target information created for each image. Note that the optimal image includes the object.
  • the camera is also called a first imaging device.
  • a device such as the image processing device 100a can identify the camera that generated the optimum image.
  • Embodiment 3 Next, Embodiment 3 will be described. In Embodiment 3, mainly matters different from Embodiments 1 and 2 will be described. In the third embodiment, descriptions of items common to the first and second embodiments are omitted. In the third embodiment, a case will be described in which the process of identifying the camera that generated the optimum image is performed by an apparatus other than the image processing apparatus.
  • FIG. 20 is a diagram showing an image processing system according to the third embodiment.
  • the image processing system includes cameras 200_1 to 200_6, an image processing device 600, and an information processing device 700.
  • FIG. The image processing system may include terminal device 300 .
  • the image processing device 600 and the information processing device 700 communicate via a network.
  • the network may be a wired network or a wireless network.
  • the image processing device 600 is a device that detects target information.
  • the method for detecting target information is the same as the method for detecting target information in the first embodiment. That is, the image processing apparatus 600 detects object information for each image using a plurality of images generated by the cameras A to F and object images.
  • the information processing device 700 is a device that executes an information processing method.
  • the information processing device 700 has a processor, a volatile memory device, and a non-volatile memory device.
  • the information processing device 700 may have a processing circuit. Next, functions of the information processing device 700 will be described.
  • FIG. 21 is a block diagram showing functions of the information processing apparatus according to the third embodiment.
  • the information processing device 700 has a storage unit 710 , an acquisition unit 720 , an identification unit 730 and an output unit 740 .
  • the storage unit 710 may be implemented as a storage area secured in a volatile storage device or a non-volatile storage device included in the information processing device 700 .
  • a part or all of the acquisition unit 720 , the identification unit 730 , and the output unit 740 may be realized by a processing circuit included in the information processing device 700 . Also, part or all of the acquisition unit 720 , the identification unit 730 , and the output unit 740 may be implemented as modules of a program executed by a processor included in the information processing device 700 .
  • the program is also called an information processing program. For example, the information processing program is recorded on a recording medium.
  • the acquisition unit 720 acquires target information detected for each image. For example, the acquisition unit 720 acquires target information detected for each image from the image processing device 600 .
  • the identification unit 730 identifies the camera that generated the optimum image from cameras A to F using the target information detected for each image.
  • the optimal image contains object X.
  • the camera is also called a first imaging device.
  • the identification unit 730 identifies the camera that generated the optimum image using the target information detected for each image and the identification information 111 . That is, the specifying unit 730 performs the same processing as the specifying unit 140.
  • FIG. Note that the specific information 111 is acquired by the acquisition unit 720 .
  • the acquisition unit 720 acquires the specific information 111 from the storage unit 710 .
  • the acquisition unit 720 acquires the specific information 111 from an external device.
  • the identifying unit 730 may identify the camera that generated the optimum image by the following method.
  • the identification unit 730 identifies the camera that generated the optimum image using the target information detected for each image and the learned model. That is, the identifying unit 730 performs the same processing as the identifying unit 140a.
  • the learned model is acquired by the acquisition unit 720.
  • the acquisition unit 720 acquires the learned model from the storage unit 710 .
  • the acquiring unit 720 acquires the learned model from an external device.
  • the output unit 740 outputs information indicating the specified camera to the image processing device 600 .
  • camera C be the camera.
  • the image processing device 600 selects an image generated by the camera C from among multiple images. That is, the image processing device 600 performs the same processing as the selection unit 150.
  • FIG. Image processing device 600 outputs the selected image to terminal device 300 . That is, the image processing device 600 executes the same processing as the output control section 160.
  • the information processing device 700 can identify the camera that generated the optimum image.
  • Embodiment 4 Next, Embodiment 4 will be described. In Embodiment 4, mainly matters different from Embodiment 1 will be described. In the fourth embodiment, descriptions of items common to the first embodiment are omitted.
  • FIG. 22 is a block diagram showing functions of the image processing apparatus according to the fourth embodiment.
  • the image processing device 100b has an acquisition unit 120b and a specification unit 140b.
  • the acquisition unit 120b acquires event information.
  • the acquiring unit 120b acquires event information from the terminal device 300.
  • FIG. Further, for example, the acquisition unit 120b acquires event information through an input operation by the user.
  • the acquisition unit 120b acquires from the storage unit 110 .
  • the storage unit 110 may store event information about an event that is currently being held (that is, an event for which an image is being distributed).
  • the event information is information indicating the type of event. For example, the event is live, boxing, futsal, and the like.
  • the event information may include information indicating a person appearing in the event.
  • the acquisition unit 120b acquires a trained model for an event based on the event information. Demonstrate a trained model for an event.
  • FIG. 23 is a diagram illustrating an example of a learned model for events according to the fourth embodiment. FIG. 23 illustrates three learned models as learned models for events.
  • the three trained models are a trained model for live performance 113a, a trained model for futsal 113b, and a trained model for boxing 113c.
  • the trained model for live performance 113a, the trained model for futsal 113b, and the trained model for boxing 113c may be stored in the storage unit 110 or may be stored in an external device.
  • the learned model for live performance 113a is a learned model generated by learning to identify the camera that generated the image that satisfies the points of importance in the live performance.
  • the live trained model 113a uses target information created for each image based on a plurality of images generated by a plurality of cameras existing at different locations and a target object image to obtain the Among them, a trained model that identifies the camera that produced the best image.
  • a plurality of pieces of target information used in learning for generating the trained model for live performance 113a are created based on a plurality of images generated by a plurality of cameras existing at different points in past live performances.
  • a label is attached to the target information created based on the image selected by a person as being preferable among the plurality of created target information.
  • the learned model for futsal 113b is a learned model generated by learning to identify the camera that generated the image that satisfies important points in futsal. Further, the trained model for futsal 113b uses target information created for each image based on a plurality of images generated by a plurality of cameras existing at different points and a target object image, and uses the target information of the plurality of cameras. Among them, a trained model that identifies the camera that produced the best image. A plurality of pieces of target information used in learning for generating the trained model 113b for futsal are created based on a plurality of images generated by a plurality of cameras existing at different points in past futsal. A label is attached to the target information created based on the image selected by a person as being preferable among the plurality of created target information.
  • the trained model for boxing 113c is a trained model generated by learning to identify the camera that generated the image that satisfies the point of importance in boxing.
  • the trained model for boxing 113c uses target information created for each image based on a plurality of images generated by a plurality of cameras existing at different locations and a target object image, and uses target information generated for each of the images. Among them, a trained model that identifies the camera that produced the best image.
  • a plurality of pieces of target information used in learning for generating the boxing trained model 113c are created based on a plurality of images generated by a plurality of cameras existing at different points in past boxing.
  • a label is attached to the target information created based on the image selected by a person as being preferable among the plurality of created target information.
  • two cameras located at different points can capture images that include the whole body but the face is turned slightly to the side, or images that face the front but partially hide the legs. may generate If the event is live, the user selects the latter as the preferred image. Also, if the event is futsal, the user selects the former as the preferred image. In this way, the point that the user determines to be preferable differs depending on the event. Therefore, it is desirable to identify the camera that generated the optimum image using the trained model generated corresponding to each event, and provide the optimum image to the user. Therefore, the acquisition unit 120b acquires the learned model for the event based on the event information. For example, when the event information indicates futsal, the acquisition unit 120b acquires the learned model 113b for futsal from the storage unit 110 .
  • the identifying unit 140b identifies the camera that generated the optimum image using the target information detected for each image and the learned model for the event. For example, the identification unit 140b identifies the camera that generated the optimum image using the target information detected for each image and the learned model for futsal 113b.
  • the selection unit 150 selects an image generated by the identified camera from among the plurality of images. Thereby, for example, when the event information indicates futsal, the selection unit 150 selects an image including the player's feet.
  • the output control section 160 outputs the selected image to the terminal device 300 . This allows the user to see the player's feet through the terminal device 300 .
  • the image processing apparatus 100b can switch the reference of the optimum image according to the event, and therefore can select the optimum image according to the event.
  • Embodiment 5 Next, Embodiment 5 will be described. In Embodiment 5, mainly matters different from Embodiments 3 and 4 will be described. Further, in the fifth embodiment, descriptions of matters common to the third and fourth embodiments are omitted. Embodiment 5 describes a case where an information processing apparatus has the functions of Embodiment 4. FIG.
  • FIG. 24 is a block diagram showing functions of the information processing apparatus according to the fifth embodiment.
  • the information processing device 700a has an acquisition unit 720a and an identification unit 730a.
  • Acquisition unit 720a acquires event information. For example, the acquisition unit 720 a acquires event information from the terminal device 300 or the image processing device 600 . Further, for example, the acquisition unit 720a acquires event information through an input operation by the user. Acquisition unit 720a acquires a trained model for an event based on the event information. For example, the acquisition unit 720a acquires a trained model for an event from the storage unit 710. FIG. Also, for example, the acquisition unit 720a acquires a learned model for an event from an external device.
  • the identifying unit 730a identifies the camera that generated the optimum image using the target information detected for each image and the learned model for the event.
  • the specifying unit 730a has the same function as the specifying unit 140b.
  • the information processing device 700a can identify the camera that generated the image corresponding to the event (that is, the optimum image).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

画像処理装置(100)は、異なる地点に存在する複数のカメラ(200_1~200_6)が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部(120)と、複数の画像と対象物画像とを用いて、対象物に関する情報である対象情報を画像毎に検出する検出部(130)と、画像毎に検出された対象情報を用いて、複数のカメラ(200_1~200_6)の中から、対象物を含む、最適な画像を生成したカメラを特定する特定部(140)と、を有する。

Description

画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム
 本開示は、画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラムに関する。
 複数のカメラが対象物を撮像する場合がある。複数のカメラが対象物を撮像することにより得られた複数の画像に基づいて、色々な方向から対象物を表示する技術が提案されている(特許文献1を参照)。
特許6568670号公報
 ところで、複数のカメラが生成した複数の画像の中から、ユーザが見たい画像である最適な画像を、ユーザが用いる端末装置に配信する方法が考えられる。当該方法により、ユーザは、当該端末装置を介して最適な画像を見ることができる。
 複数のカメラの中から、最適な画像を生成したカメラを特定したい場合がある。ここで、ユーザが見たい対象である対象物が移動する場合がある。対象物が移動する場合、1つのカメラが生成する画像が、常に最適な画像ではない。そのため、複数のカメラの中から、どのように、最適な画像を生成したカメラを特定するかが問題である。
 本開示の目的は、最適な画像を生成したカメラを特定することである。
 本開示の一態様に係る画像処理装置が提供される。画像処理装置は、異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部と、前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出する検出部と、画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する特定部と、を有する。
 本開示によれば、最適な画像を生成したカメラを特定することができる。
実施の形態1の画像処理システムを示す図である。 実施の形態1のカメラの配置の例(その1)を示す図である。 実施の形態1のカメラの配置の例(その2)を示す図である。 実施の形態1の画像処理装置が有するハードウェアを示す図である。 実施の形態1の画像処理装置の機能を示すブロック図である。 実施の形態1の対象情報を説明する図(その1)を示す図である。 (A)~(C)は、実施の形態1の対象情報を説明する図(その2)を示す図である。 実施の形態1の対象情報を説明する図(その3)を示す図である。 実施の形態1の対象情報の例を示す図である。 実施の形態1の特定情報の例を示す図である。 実施の形態1の画像処理装置が実行する処理の例を示すフローチャートである。 実施の形態1の画像処理システムで実行される処理の具体例を示す図である。 実施の形態1の変形例の画像処理装置の機能を示すブロック図である。 実施の形態2の画像処理装置の機能を示すブロック図である。 実施の形態2の複数の学習済モデルが用いられる場合の例を示す図である。 実施の形態2の1つの学習済モデルが用いられる場合の例を示す図である。 実施の形態2のニューラルネットワークの例を示す図である。 実施の形態2のランダムフォレストの例を示す図である。 実施の形態2の学習装置の機能を示すブロック図である。 実施の形態3の画像処理システムを示す図である。 実施の形態3の情報処理装置の機能を示すブロック図である。 実施の形態4の画像処理装置の機能を示すブロック図である。 実施の形態4のイベント用の学習済モデルの例を示す図である。 実施の形態5の情報処理装置の機能を示すブロック図である。
 以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
 図1は、実施の形態1の画像処理システムを示す図である。画像処理システムは、画像処理装置100及びカメラ200_1~200_6を含む。画像処理システムは、端末装置300を含んでもよい。
 画像処理装置100、カメラ200_1~200_6、及び端末装置300は、ネットワークを介して、接続する。なお、ネットワークは、有線ネットワークでもよいし、無線ネットワークでもよい。
 画像処理装置100は、画像処理方法を実行する装置である。
 カメラ200_1は、カメラAと呼ぶ。カメラ200_2は、カメラBと呼ぶ。カメラ200_3は、カメラCと呼ぶ。カメラ200_4は、カメラDと呼ぶ。カメラ200_5は、カメラEと呼ぶ。カメラ200_6は、カメラFと呼ぶ。図1は、6つのカメラを例示している。カメラの数は、6つに限らない。なお、カメラは、撮像装置とも言う。
 カメラ200_1~200_6のそれぞれは、同一のイベントを撮影するために設置されたカメラであり、イベントの様子を撮影することが可能であり、かつ、異なる地点に存在する。例えば、カメラ200_1は、A地点に存在する。また、カメラ200_2は、B地点に存在する。このように、カメラ200_1~200_6のそれぞれは、異なる地点に存在する。イベントは、例えば、ライブ、ボクシング、フットサルなどである。以下の説明では、イベントは、ライブとする。
 カメラ200_1~200_6は、イベントに登場する複数の女性を撮像する。複数の女性は、W、X、Y、Zである。複数の女性は、歌を歌いながら、踊っている。そのため、複数の女性は、一定の位置に存在しない場合がある。
 以下の説明では、カメラ200_1~200_6のうちの少なくとも1つは、対象物を撮像するものとする。ここで、対象物は、人、動物、移動する機械などである。また、対象物は、イベントに登場し、イベント中に移動するものでもよい。例えば、対象物は、端末装置300の画面に表示される、イベントの登場人物の一覧の中から、ユーザが指定した人物でもよい。以下の説明では、対象物は、Xとする。
 端末装置300は、ユーザが用いる装置である。端末装置300は、画像処理装置100を介して、対象物Xを含む画像(詳細には映像)を取得する。ユーザは、端末装置300を用いて、対象物Xを見ることができる。また、対象物Xを含む画像は、最適な画像である。言い換えれば、対象物Xを含む画像は、ユーザが見たい画像である。
 ここで、対象物Xは、移動する。そのため、1つのカメラが生成する画像が、常に最適な画像ではない。例えば、図1では、カメラCの正面に対象物Xが存在するため、カメラCが生成する画像が、最適な画像とも言える。しかし、対象物Xが移動するため、カメラCが生成する画像は、常に最適な画像ではない。そこで、以下、画像処理装置100が、複数のカメラの中から、最適な画像を生成したカメラを特定する方法を説明する。
 図1では、カメラ200_1~200_6がほぼ一列に配置されている場合を示している。複数のカメラは、次のように配置されてもよい。
 図2は、実施の形態1のカメラの配置の例(その1)を示す図である。図2では、複数のカメラが円形状に配置されていることを示している。なお、図2は、カメラ200_7,200_8を示している。カメラ200_7は、カメラGとも言う。カメラ200_8は、カメラHとも言う。
 図3は、実施の形態1のカメラの配置の例(その2)を示す図である。図3は、カメラ200_7とカメラ200_8とが遠方に配置されていることを示している。
 以下の説明では、図1の場合を用いて、説明する。すなわち、カメラA~Fがほぼ一列に配置されている場合を用いて、説明する。
 次に、画像処理装置100が有するハードウェアを説明する。
 図4は、実施の形態1の画像処理装置が有するハードウェアを示す図である。画像処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
 プロセッサ101は、画像処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、画像処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
 揮発性記憶装置102は、画像処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、画像処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
 次に、画像処理装置100が有する機能を説明する。
 図5は、実施の形態1の画像処理装置の機能を示すブロック図である。画像処理装置100は、記憶部110、取得部120、検出部130、特定部140、選択部150、及び出力制御部160を有する。
 記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
 取得部120、検出部130、特定部140、選択部150、及び出力制御部160の一部又は全部は、処理回路によって実現してもよい。また、取得部120、検出部130、特定部140、選択部150、及び出力制御部160の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、画像処理プログラムとも言う。例えば、画像処理プログラムは、記録媒体に記録されている。
 取得部120は、カメラA~Fが生成した複数の画像を取得する。例えば、取得部120は、複数の画像をカメラA~Fから取得する。なお、複数の画像のうちの少なくとも1つには、対象物Xが含まれている。
 また、取得部120は、対象物画像を取得する。例えば、取得部120は、対象物画像を記憶部110から取得する。また、例えば、取得部120は、対象物画像を端末装置300から取得する。なお、対象物画像は、対象物Xが含まれている画像である。対象物画像は、サンプル画像と呼んでもよい。また、取得部120は、対象物Xの名称情報を端末装置300から取得し、当該名称情報に基づいて、対象物画像を記憶部110から取得してもよい。
 検出部130は、複数の画像と対象物画像とを用いて、対象情報を画像毎に検出する。例えば、検出部130は、カメラAが生成した画像に基づいて対象情報を検出する。また、例えば、検出部130は、カメラBが生成した画像に基づいて対象情報を検出する。このように、検出部130は、カメラA~Fが生成した6つの画像に基づいて6つの対象情報を検出する。また、対象情報には、画像を生成したカメラの識別子が含まれている。例えば、カメラAが生成した画像に基づいて、検出された対象情報には、カメラAの識別子が含まれている。
 対象情報とは、画像内における対象物に関する情報である。具体的には、対象情報は、対象物Xが画像に含まれているか否かを示す情報、画像内における対象物Xの大きさ、画像内における対象物Xの位置、対象物Xの向き、画像内の対象物Xがぼやけているか否かを示す情報、画像内における対象物Xの明るさを示す情報、及び対象物Xの骨格情報のうちの1つ以上である。しかし、対象情報は、上記の情報に限らない。対象情報は、画像内における対象物Xの写り具合に関する情報であれば、他の情報でもよい。
 具体的に、対象情報を説明する。また、以下の説明では、カメラCが生成した画像に基づいて対象情報が検出される場合を説明する。
 図6は、実施の形態1の対象情報を説明する図(その1)を示す図である。図6の画像400は、カメラCが生成した画像である。
 検出部130は、画像400と対象物画像とを用いて、対象物Xが画像400に含まれているか否かを示す情報を作成する。詳細には、検出部130は、パターンマッチング、物体認識技術などを用いて、対象物Xが画像400に含まれているか否かを示す情報を作成する。なお、例えば、物体認識技術は、特定物体認識技術である。
 検出部130は、対象物Xが画像400に含まれている場合、画像400内における対象物Xの大きさを検出する。図6は、対象物Xの大きさを、枠401で示している。例えば、対象物Xの大きさは、枠401の面積で示される。また、対象物Xの大きさは、基準の大きさよりも大きいか否かを示してもよい。
 検出部130は、対象物Xが画像400に含まれている場合、画像内における対象物Xの位置を検出する。例えば、検出部130は、画像400の中心線と枠401の中心線との距離を、対象物Xの位置として検出する。また、検出部130は、対象物Xが画像400内でどこに存在しているかを検出してもよい。例えば、検出結果は、中央、左、右などである。
 検出部130は、対象物Xが画像400に含まれている場合、対象物Xの向きを検出する。例えば、検出部130は、Head Pose Estimationを用いて、対象物Xの向きを検出する。検出結果を例示する。
 図7(A)~(C)は、実施の形態1の対象情報を説明する図(その2)を示す図である。図7(A)~(C)は、検出結果を示している。図7(A)は、対象物Xの向きが正面であることを示している。図7(A)の検出結果は、0度を示してもよい。
 図7(B)は、対象物Xの向きが真横であることを示している。図7(B)の検出結果は、90度を示してもよい。図7(C)は、対象物Xの向きが真後であることを示している。図7(C)の検出結果は、180度を示してもよい。
 検出部130は、対象物Xが画像400に含まれている場合、画像400内の対象物Xがぼやけているか否かを示す情報を作成する。例えば、検出部130は、画像400におけるエッジ部分の輝度変化の急峻さ、画像400における高周波成分の量などに基づいて、対象物Xがぼやけているか否かを示す情報を作成する。なお、対象物Xがぼやけているか否かを示す情報は、対象物Xにピントが合っているか否かを示す情報と表現してもよい。
 検出部130は、対象物Xが画像400に含まれている場合、画像400内における対象物Xの明るさを示す情報を作成する。例えば、検出部130は、画像400内における対象物Xの領域の輝度又は明度を、対象物Xの明るさを示す情報として作成する。また、対象物Xの明るさを示す情報は、対象物Xを逆光で撮像することにより得られた画像であるか否かを示す情報と表現してもよい。
 検出部130は、対象物Xが画像400に含まれている場合、対象物Xの骨格情報を検出する。例えば、検出部130は、Open Poseを用いて、対象物Xの骨格情報を検出する。骨格情報を例示する。
 図8は、実施の形態1の対象情報を説明する図(その3)を示す図である。検出部130は、画像400に基づいて、対象物Xの骨格情報402を検出する。また、検出部130は、骨格情報402に基づいて、全身が画像内に含まれているか、体の一部が画像内に含まれていないなどの情報を検出してもよい。
 このように、検出部130は、対象情報を画像毎に検出する。すなわち、検出部130は、6つの対象情報を検出する。6つの対象情報を例示する。
 図9は、実施の形態1の対象情報の例を示す図である。図9では、6つの対象情報が例示されている。検出部130は、このような、6つの対象情報を検出する。
 特定部140は、画像毎に検出された対象情報を用いて、カメラA~Fの中から、最適な画像を生成したカメラを特定する。なお、最適な画像を生成したカメラは、第1の撮像装置とも言う。また、最適な画像は、対象物Xを含む画像である。
 詳細には、特定部140は、画像毎に検出された対象情報と、特定情報とを用いて、最適な画像を生成したカメラを特定する。特定情報を例示する。
 図10は、実施の形態1の特定情報の例を示す図である。特定情報111は、最適な画像を生成したカメラを特定するための情報である。
 特定情報111は、取得部120により取得される。例えば、取得部120は、特定情報111を記憶部110から取得する。また、例えば、取得部120は、特定情報111を外部装置(例えば、クラウドサーバ)から取得する。
 例えば、特定部140は、加点法を用いて、最適な画像を生成したカメラを特定する。具体的に加点法を説明する。図9では、カメラCに対応する対象情報は、対象物Xが画像に含まれていることを示している。特定部140は、カメラCに対応する対象情報が、特定情報111が示す条件“対象物が画像に含まれていること”を満たすことを特定する。そのため、特定部140は、カメラCに対応する対象情報に、1点を与える。また、カメラCに対応する対象情報は、対象物Xの大きさが大きいことを示している。特定部140は、カメラCに対応する対象情報が、特定情報111が示す条件“対象物が大きいこと”を満たすことを特定する。そのため、特定部140は、カメラCに対応する対象情報に、さらに、1点を与える。このように、特定部140は、条件を満たす場合、カメラCに対応する対象情報に1点を与える。特定部140は、カメラA~Fに対応する対象情報に、同様の処理を行う。そして、特定部140は、カメラA~Fに対応する対象情報の中で、最も得点が高い対象情報に対応するカメラを、最適な画像を生成したカメラとして特定する。例えば、特定部140は、カメラCを特定する。
 次に、図5に戻って、選択部150を説明する。
 選択部150は、複数の画像の中から、特定部140によって特定されたカメラが生成した画像を選択する。例えば、画像には、カメラの識別子が含まれている。また、例えば、画像には、カメラの識別子が付加されている。そのため、選択部150は、複数の画像の中から、特定部140によって特定されたカメラが生成した画像を選択できる。なお、選択された画像は、最適な画像である。
 出力制御部160は、選択された画像を出力する。例えば、出力制御部160は、選択された画像を端末装置300に出力する。これにより、ユーザは、端末装置300を介して、最適な画像を見ることができる。また、出力制御部160は、選択された画像を記憶部110に出力してもよい。
 次に、画像処理装置100が実行する処理を、フローチャートを用いて、説明する。
 図11は、実施の形態1の画像処理装置が実行する処理の例を示すフローチャートである。
 (ステップS11)取得部120は、カメラA~Fが生成した複数の画像を取得する。
 (ステップS12)取得部120は、対象物画像と特定情報とを取得する。
 (ステップS13)検出部130は、複数の画像と対象物画像とを用いて、対象情報を画像毎に検出する。
 (ステップS14)特定部140は、画像毎に検出された対象情報と、特定情報とを用いて、最適な画像を生成したカメラを特定する。
 (ステップS15)選択部150は、複数の画像の中から、特定されたカメラが生成した画像を選択する。
 (ステップS16)出力制御部160は、選択された画像を出力する。
 次に、画像処理システムで実行される処理を、具体例を用いて、説明する。
 図12は、実施の形態1の画像処理システムで実行される処理の具体例を示す図である。図12は、カメラA~Fが生成した画像を示している。例えば、画像“A001”は、カメラAが時刻“1p”に生成した画像である。
 画像処理装置100は、端末装置300から、対象物Xが含まれている対象物画像を取得する。画像処理装置100は、最適な画像を生成したカメラBを特定する。画像処理装置100は、画像“A002”~画像“F002”の中から、カメラBが生成した画像“B002”を選択する。画像処理装置100は、画像“B002”を端末装置300に出力する。これにより、端末装置300は、画像“B002”を表示する。
 画像“B002”が出力された後、画像処理装置100は、最適な画像を生成したカメラBを特定する。画像処理装置100は、画像“A003”~画像“F003”の中から、カメラBが生成した画像“B003”を選択する。画像処理装置100は、画像“B003”を端末装置300に出力する。これにより、端末装置300は、画像“B003”を表示する。
 画像“B003”が出力された後、画像処理装置100は、最適な画像を生成したカメラCを特定する。画像処理装置100は、画像“A004”~画像“F004”の中から、カメラCが生成した画像“C004”を選択する。画像処理装置100は、画像“C004”を端末装置300に出力する。これにより、端末装置300は、画像“C004”を表示する。
 画像処理装置100は、上記の処理を繰り返す。これにより、ユーザは、最適な画像を継続して見ることができる。
 実施の形態1によれば、画像処理装置100は、上記で説明したように、最適な画像を生成したカメラを特定することができる。
実施の形態1の変形例.
 実施の形態1では、リアルタイムで画像が出力される場合を説明した。実施の形態1の変形例では、リアルタイムで画像が出力されない場合を説明する。
 図13は、実施の形態1の変形例の画像処理装置の機能を示すブロック図である。取得部120は、複数の画像を記憶部110に格納する。取得部120は、所定のタイミングで、複数の画像を記憶部110から取得する。例えば、取得部120は、ユーザから処理実行指示を取得した場合、複数の画像を記憶部110から取得する。そして、検出部130、特定部140、及び選択部150は、処理を実行する。選択された画像(すなわち、最適な画像)は、記憶部110に格納される。
 出力制御部160は、所定のタイミングで、最適な画像を記憶部110から取得する。例えば、取得部120が、最適な画像(すなわち、対象物Xを含む画像)の送信指示を端末装置300から取得した場合、出力制御部160は、最適な画像を記憶部110から取得する。出力制御部160は、取得された最適な画像を出力する。例えば、出力制御部160は、最適な画像を端末装置300に出力する。
 実施の形態1の変形例によれば、画像処理装置100は、所定のタイミングで、最適な画像を出力できる。
実施の形態2.
 次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。実施の形態2では、学習済モデルを用いて、検出及び特定の処理が行われる場合を説明する。
 図14は、実施の形態2の画像処理装置の機能を示すブロック図である。画像処理装置100aは、取得部120a、検出部130a、及び特定部140aを有する。
 取得部120aの機能は、後で説明する。
 検出部130aは、画像毎に対象情報を検出するまでの過程で、少なくとも1つの学習済モデルを用いる。具体例を用いて、学習済モデルが用いられる場合を説明する。
 図15は、実施の形態2の複数の学習済モデルが用いられる場合の例を示す図である。図15は、画像410と対象物画像411を示している。画像410は、カメラCが生成した画像である。
 検出部130aは、学習済モデルである人検出モデル131と画像410とを用いて、画像410内の人を検出する。これにより、W、X、及びYが、検出される。
 検出部130aは、学習済モデルである人特定モデル132と画像410と対象物画像411とを用いて、画像410内の対象物Xを特定する。また、検出部130aは、人特定モデル132と画像410と対象物画像411とを用いて、画像410内における対象物Xの大きさ、及び画像410内における対象物Xの位置を検出する。
 検出部130aは、学習済モデルである向き検出モデル133と画像410とを用いて、対象物Xの向きを検出する。
 検出部130aは、学習済モデルであるピント検出モデル134と画像410とを用いて、画像410内の対象物Xがぼやけているか否かを検出する。
 検出部130aは、学習済モデルである明るさ検出モデル135と画像410とを用いて、画像410内における対象物Xの明るさを検出する。
 検出部130aは、学習済モデルである骨格検出モデル136と画像410とを用いて、対象物Xの骨格情報を検出する。
 なお、人検出モデル131、人特定モデル132、向き検出モデル133、ピント検出モデル134、明るさ検出モデル135、及び骨格検出モデル136は、取得部120aによって取得される。例えば、取得部120aは、これらの学習済モデルを記憶部110から取得する。また、例えば、取得部120aは、これらの学習済モデルを外部装置から取得する。
 上記では、複数の学習済モデルが用いられる場合を説明した。検出部130aは、1つの学習済モデル、画像410、及び対象物画像411を用いて、カメラCに対応する対象情報を検出してもよい。1つの学習済モデルが用いられる場合を例示する。
 図16は、実施の形態2の1つの学習済モデルが用いられる場合の例を示す図である。図16は、当該学習済モデルがニューラルネットワークを構成していることを示している。検出部130aは、当該学習済モデル、画像410、及び対象物画像411を用いて、カメラCに対応する対象情報を検出する。
 なお、当該学習済モデルは、取得部120aによって取得される。例えば、取得部120aは、当該学習済モデルを記憶部110から取得する。また、例えば、取得部120aは、当該学習済モデルを外部装置から取得する。
 図14に戻って、特定部140aを説明する。
 特定部140aは、画像毎に検出された対象情報と、学習済モデルとを用いて、最適な画像を生成したカメラを特定する。例えば、学習済モデルは、ニューラルネットワークで構成される。ニューラルネットワークを例示する。
 図17は、実施の形態2のニューラルネットワークの例を示す図である。特定部140aは、画像毎に検出された対象情報と、学習済モデルとを用いて、最適な画像を生成したカメラを特定する。詳細には、画像毎に検出された対象情報が学習済モデルに入力することで、学習済モデルは、最適な画像を生成したカメラを出力する。特定部140aは、最適な画像を生成したカメラが出力することで、最適な画像を生成したカメラを特定する。
 学習済モデルは、ランダムフォレストで構成されてもよい。ランダムフォレストを例示する。
 図18は、実施の形態2のランダムフォレストの例を示す図である。特定部140aは、ランダムフォレストを構成する学習済モデルを用いて、最適な画像を生成したカメラを特定してもよい。
 なお、ニューラルネットワーク又はランダムフォレストを構成する学習済モデルは、取得部120aによって取得される。例えば、取得部120aは、当該学習済モデルを記憶部110から取得する。また、例えば、取得部120aは、当該学習済モデルを外部装置から取得する。
 実施の形態2によれば、画像処理装置100は、学習済モデルを用いて、画像毎に対象情報を検出することができる。また、画像処理装置100は、学習済モデルを用いて、最適な画像を生成したカメラを特定することができる。
 ここで、特定部140aが用いる学習済モデルは、学習装置によって生成される。学習装置を説明する。
 図19は、実施の形態2の学習装置の機能を示すブロック図である。学習装置500は、プロセッサ、揮発性記憶装置、及び不揮発性記憶装置を有する。学習装置500は、処理回路を有してもよい。
 学習装置500は、生成方法を実行する装置である。学習装置500は、取得部510と生成部520とを有する。取得部510と生成部520の一部又は全部は、学習装置500が有する処理回路によって実現してもよい。また、取得部510と生成部520の一部又は全部は、学習装置500が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。当該プログラムは、生成プログラムとも言う。例えば、生成プログラムは、記録媒体に記録されている。
 取得部510は、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を取得する。取得された複数の対象情報のうちの1つの対象情報には、最適な画像に基づいて作成された対象情報であることを示すラベルが付加される。このように、対象情報にラベルが付加されることで、学習装置500は、教師あり学習を行うことができる。例えば、取得部510は、当該対象情報を外部装置から取得する。なお、対象情報は、ユーザが作成した情報でもよい。また、対象情報の中には、カメラの識別子が含まれている。
 生成部520は、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルを生成する。なお、最適な画像は、対象物を含む。また、当該カメラは、第1の撮像装置とも言う。
 学習装置500が生成した学習済モデルが提供されることで、画像処理装置100aなどの装置は、最適な画像を生成したカメラを特定することができる。
実施の形態3.
 次に、実施の形態3を説明する。実施の形態3では、実施の形態1,2と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1,2と共通する事項の説明を省略する。実施の形態3では、最適な画像を生成したカメラを特定する処理が、画像処理装置以外の装置で行われる場合を説明する。
 図20は、実施の形態3の画像処理システムを示す図である。画像処理システムは、カメラ200_1~200_6、画像処理装置600、及び情報処理装置700を含む。画像処理システムは、端末装置300を含んでもよい。
 画像処理装置600及び情報処理装置700は、ネットワークを介して、通信する。ネットワークは、有線ネットワークでもよいし、無線ネットワークでもよい。
 画像処理装置600は、対象情報を検出する装置である。対象情報を検出する方法は、実施の形態1の対象情報を検出する方法と同じである。すなわち、画像処理装置600は、カメラA~Fが生成した複数の画像と、対象物画像とを用いて、画像毎に対象情報を検出する。
 情報処理装置700は、情報処理方法を実行する装置である。情報処理装置700は、プロセッサ、揮発性記憶装置、及び不揮発性記憶装置を有する。情報処理装置700は、処理回路を有してもよい。
 次に、情報処理装置700の機能を説明する。
 図21は、実施の形態3の情報処理装置の機能を示すブロック図である。情報処理装置700は、記憶部710、取得部720、特定部730、及び出力部740を有する。
 記憶部710は、情報処理装置700が有する揮発性記憶装置又は不揮発性記憶装置に確保した記憶領域として実現してもよい。
 取得部720、特定部730、及び出力部740の一部又は全部は、情報処理装置700が有する処理回路によって実現してもよい。また、取得部720、特定部730、及び出力部740の一部又は全部は、情報処理装置700が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。当該プログラムは、情報処理プログラムとも言う。例えば、情報処理プログラムは、記録媒体に記録されている。
 取得部720は、画像毎に検出された対象情報を取得する。例えば、取得部720は、画像毎に検出された対象情報を画像処理装置600から取得する。
 特定部730は、画像毎に検出された対象情報を用いて、カメラA~Fの中から、最適な画像を生成したカメラを特定する。最適な画像は、対象物Xを含む。また、当該カメラは、第1の撮像装置とも言う。
 詳細に、最適な画像を生成したカメラを特定する方法を説明する。特定部730は、画像毎に検出された対象情報と、特定情報111とを用いて、最適な画像を生成したカメラを特定する。すなわち、特定部730は、特定部140と同じ処理を実行する。
 なお、特定情報111は、取得部720により取得される。例えば、取得部720は、特定情報111を記憶部710から取得する。また、例えば、取得部720は、特定情報111を外部装置から取得する。
 また、特定部730は、以下の方法で、最適な画像を生成したカメラを特定してもよい。特定部730は、画像毎に検出された対象情報と、学習済モデルとを用いて、最適な画像を生成したカメラを特定する。すなわち、特定部730は、特定部140aと同じ処理を実行する。
 なお、学習済モデルは、取得部720によって取得される。例えば、取得部720は、当該学習済モデルを記憶部710から取得する。また、例えば、取得部720は、当該学習済モデルを外部装置から取得する。
 出力部740は、特定されたカメラを示す情報を画像処理装置600に出力する。当該カメラは、カメラCとする。画像処理装置600は、複数の画像の中から、カメラCが生成した画像を選択する。すなわち、画像処理装置600は、選択部150と同じ処理を実行する。画像処理装置600は、選択された画像を端末装置300に出力する。すなわち、画像処理装置600は、出力制御部160と同じ処理を実行する。
 実施の形態3によれば、情報処理装置700は、最適な画像を生成したカメラを特定することができる。
実施の形態4.
 次に、実施の形態4を説明する。実施の形態4では、実施の形態1と相違する事項を主に説明する。そして、実施の形態4では、実施の形態1と共通する事項の説明を省略する。
 図22は、実施の形態4の画像処理装置の機能を示すブロック図である。画像処理装置100bは、取得部120bと特定部140bとを有する。
 取得部120bは、イベント情報を取得する。例えば、取得部120bは、イベント情報を端末装置300から取得する。また、例えば、取得部120bは、ユーザによる入力操作により、イベント情報を取得する。また、例えば、取得部120bは、記憶部110から取得する。記憶部110には、現在、開催されているイベント(つまり、画像を配信中のイベント)に関するイベント情報が格納されていてもよい。なお、イベント情報は、イベントの種別を示す情報である。例えば、イベントは、ライブ、ボクシング、フットサルなどである。また、イベント情報には、イベントに登場する人物を示す情報が含まれてもよい。
 取得部120bは、イベント情報に基づいて、イベント用の学習済モデルを取得する。イベント用の学習済モデルを例示する。
 図23は、実施の形態4のイベント用の学習済モデルの例を示す図である。図23は、イベント用の学習済モデルとして、3つの学習済モデルを例示している。3つの学習済モデルは、ライブ用学習済モデル113a、フットサル用学習済モデル113b、及びボクシング用学習済モデル113cである。ライブ用学習済モデル113a、フットサル用学習済モデル113b、及びボクシング用学習済モデル113cは、記憶部110に格納されてもよいし、外部装置に格納されてもよい。
 ライブ用学習済モデル113aは、ライブで重視するポイントを満たす画像を生成したカメラを特定するための学習により、生成された学習済モデルである。また、ライブ用学習済モデル113aは、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルである。なお、ライブ用学習済モデル113aを生成するための学習で用いられる複数の対象情報は、過去のライブにおいて、異なる地点に存在する複数のカメラが生成した複数の画像に基づいて作成される。作成された複数の対象情報のうち、人が好ましいと判断して選ばれた画像に基づいて作成された対象情報には、ラベルが付加される。
 フットサル用学習済モデル113bは、フットサルで重視するポイントを満たす画像を生成したカメラを特定するための学習により、生成された学習済モデルである。また、フットサル用学習済モデル113bは、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルである。なお、フットサル用学習済モデル113bを生成するための学習で用いられる複数の対象情報は、過去のフットサルにおいて、異なる地点に存在する複数のカメラが生成した複数の画像に基づいて作成される。作成された複数の対象情報のうち、人が好ましいと判断して選ばれた画像に基づいて作成された対象情報には、ラベルが付加される。
 ボクシング用学習済モデル113cは、ボクシングで重視するポイントを満たす画像を生成したカメラを特定するための学習により、生成された学習済モデルである。また、ボクシング用学習済モデル113cは、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルである。なお、ボクシング用学習済モデル113cを生成するための学習で用いられる複数の対象情報は、過去のボクシングにおいて、異なる地点に存在する複数のカメラが生成した複数の画像に基づいて作成される。作成された複数の対象情報のうち、人が好ましいと判断して選ばれた画像に基づいて作成された対象情報には、ラベルが付加される。
 例えば、異なる地点に存在する2台のカメラは、全身が含まれているが、顔がやや横を向いている画像、又は顔が正面を向いているが、足の一部が隠れている画像を生成する場合がある。イベントがライブである場合、ユーザは、後者を好ましい画像として選択する。また、イベントがフットサルである場合、ユーザは、前者を好ましい画像として選択する。このように、イベントにより、ユーザが好ましいと判断するポイントは、異なる。そのため、各イベントに対応して生成された学習済モデルを用いて、最適な画像を生成したカメラを特定し、最適な画像をユーザに提供することが望ましい。そこで、取得部120bは、イベント情報に基づいて、イベント用の学習済モデルを取得する。例えば、イベント情報がフットサルを示している場合、取得部120bは、フットサル用学習済モデル113bを記憶部110から取得する。
 特定部140bは、画像毎に検出された対象情報と、イベント用の学習済モデルとを用いて、最適な画像を生成したカメラを特定する。例えば、特定部140bは、画像毎に検出された対象情報と、フットサル用学習済モデル113bとを用いて、最適な画像を生成したカメラを特定する。
 選択部150は、複数の画像の中から、特定されたカメラが生成した画像を選択する。これにより、例えば、イベント情報が、フットサルを示している場合、選択部150は、プレイヤーの足を含む画像を選択する。出力制御部160は、選択された画像を端末装置300に出力する。これにより、ユーザは、端末装置300を介して、プレイヤーの足を見ることができる。
 よって、実施の形態4によれば、画像処理装置100bは、イベントに応じて最適な画像の基準を切り替えることができるので、イベントに応じた最適な画像を選択できる。
実施の形態5.
 次に、実施の形態5を説明する。実施の形態5では、実施の形態3,4と相違する事項を主に説明する。そして、実施の形態5では、実施の形態3,4と共通する事項の説明を省略する。実施の形態5では、情報処理装置が、実施の形態4の機能を有する場合を説明する。
 図24は、実施の形態5の情報処理装置の機能を示すブロック図である。情報処理装置700aは、取得部720aと特定部730aとを有する。
 取得部720aは、イベント情報を取得する。例えば、取得部720aは、端末装置300又は画像処理装置600からイベント情報を取得する。また、例えば、取得部720aは、ユーザによる入力操作により、イベント情報を取得する。
 取得部720aは、イベント情報に基づいて、イベント用の学習済モデルを取得する。例えば、取得部720aは、イベント用の学習済モデルを記憶部710から取得する。また、例えば、取得部720aは、イベント用の学習済モデルを外部装置から取得する。
 特定部730aは、画像毎に検出された対象情報と、イベント用の学習済モデルとを用いて、最適な画像を生成したカメラを特定する。このように、特定部730aは、特定部140bと同じ機能を有する。
 実施の形態5によれば、情報処理装置700aは、イベントに応じた画像(すなわち、最適な画像)を生成したカメラを特定できる。
 以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
 100,100a,100b 画像処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 特定情報、 111a ライブ用特定情報、 111b フットサル用特定情報、 111c ボクシング用特定情報、 112 重視テーブル、 113a ライブ用学習済モデル、 113b フットサル用学習済モデル、 113c ボクシング用学習済モデル、 120,120a,120b 取得部、 130,130a 検出部、 131 人検出モデル、 132 人特定モデル、 133 向き検出モデル、 134 ピント検出モデル、 135 明るさ検出モデル、 136 骨格検出モデル、 140,140a,140b 特定部、 150 選択部、 160 出力制御部、 200_1~200_6 カメラ、 300 端末装置、 400 画像、 401 枠、 402 骨格情報、 410 画像、 411 対象物画像、 500 学習装置、 510 取得部、 520 生成部、 600 画像処理装置、 700,700a 情報処理装置、 710 記憶部、 720,720a 取得部、 730,730a 特定部、 740 出力部。

Claims (14)

  1.  異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部と、
     前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出する検出部と、
     画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する特定部と、
     を有する画像処理装置。
  2.  前記取得部は、前記第1の撮像装置を特定するための情報である特定情報を取得し、
     前記特定部は、画像毎に検出された前記対象情報と、前記特定情報とを用いて、前記第1の撮像装置を特定する、
     請求項1に記載の画像処理装置。
  3.  前記取得部は、学習済モデルを取得し、
     前記特定部は、画像毎に検出された前記対象情報と、前記学習済モデルとを用いて、前記第1の撮像装置を特定する、
     請求項1に記載の画像処理装置。
  4.  前記取得部は、イベントの種別を示す情報であるイベント情報を取得し、前記イベント情報に基づいて、前記イベント用の学習済モデルを取得し、
     前記特定部は、画像毎に検出された前記対象情報と、前記イベント用の前記学習済モデルとを用いて、前記第1の撮像装置を特定する、
     請求項3に記載の画像処理装置。
  5.  前記対象情報は、前記対象物が画像に含まれているか否かを示す情報、画像内における前記対象物の大きさ、画像内における前記対象物の位置、前記対象物の向き、画像内の前記対象物がぼやけているか否かを示す情報、画像内における前記対象物の明るさを示す情報、及び前記対象物の骨格情報のうちの1つ以上である、
     請求項1から4のいずれか1項に記載の画像処理装置。
  6.  前記検出部は、画像毎に前記対象情報を検出するまでの過程で、少なくとも1つの学習済モデルを用い、
     前記取得部は、用いられる学習済モデルを取得する、
     請求項1から5のいずれか1項に記載の画像処理装置。
  7.  前記複数の画像の中から、前記第1の撮像装置が生成した画像を選択する選択部と、
     選択された画像を出力する出力制御部と、
     をさらに有する、
     請求項1から6のいずれか1項に記載の画像処理装置。
  8.  選択された画像を記憶する記憶部をさらに有し、
     前記出力制御部は、選択された画像を前記記憶部から取得し、取得された画像を出力する、
     請求項7に記載の画像処理装置。
  9.  異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とに基づいて、画像毎に作成された、前記対象物に関する情報である対象情報を取得する取得部と、
     画像毎に作成された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する学習済モデルを生成する生成部と、
     を有する学習装置。
  10.  異なる地点に存在する複数の撮像装置と、
     画像処理装置と、
     を含み、
     前記画像処理装置は、
     前記複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部と、
     前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出する検出部と、
     画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する特定部と、
     を有する、
     画像処理システム。
  11.  画像処理装置が、
     異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得し、
     前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出し、
     画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する、
     画像処理方法。
  12.  学習装置が、
     異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とに基づいて、画像毎に作成された、前記対象物に関する情報である対象情報を取得し、
     画像毎に作成された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する学習済モデルを生成する、
     生成方法。
  13.  画像処理装置に、
     異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得し、
     前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出し、
     画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する、
     処理を実行させる画像処理プログラム。
  14.  学習装置に、
     異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とに基づいて、画像毎に作成された、前記対象物に関する情報である対象情報を取得し、
     画像毎に作成された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第1の撮像装置を特定する学習済モデルを生成する、
     処理を実行させる生成プログラム。
PCT/JP2021/024093 2021-06-25 2021-06-25 画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム WO2022269891A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023529395A JPWO2022269891A1 (ja) 2021-06-25 2021-06-25
PCT/JP2021/024093 WO2022269891A1 (ja) 2021-06-25 2021-06-25 画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/024093 WO2022269891A1 (ja) 2021-06-25 2021-06-25 画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム

Publications (1)

Publication Number Publication Date
WO2022269891A1 true WO2022269891A1 (ja) 2022-12-29

Family

ID=84543960

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/024093 WO2022269891A1 (ja) 2021-06-25 2021-06-25 画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム

Country Status (2)

Country Link
JP (1) JPWO2022269891A1 (ja)
WO (1) WO2022269891A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018025734A (ja) * 2016-08-03 2018-02-15 由希子 岡 画像表示システムおよび画像表示プログラム
JP2018081515A (ja) * 2016-11-17 2018-05-24 日本電信電話株式会社 リソース検索装置およびリソース検索方法
WO2019077697A1 (ja) * 2017-10-18 2019-04-25 三菱電機株式会社 画像共有支援装置、画像共有システム、及び、画像共有支援方法
JP2019129328A (ja) * 2018-01-22 2019-08-01 西日本電信電話株式会社 高精細動画生成装置、高精細動画生成方法、およびプログラム
JP2019212938A (ja) * 2018-05-31 2019-12-12 シャープ株式会社 撮像装置、撮像方法およびプログラム
JP2020088647A (ja) * 2018-11-27 2020-06-04 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2021026744A (ja) * 2019-08-09 2021-02-22 日本テレビ放送網株式会社 情報処理装置、画像認識方法及び学習モデル生成方法
US20210146218A1 (en) * 2019-11-15 2021-05-20 Toca Football, Inc. System and method for a user adaptive training and gaming platform

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018025734A (ja) * 2016-08-03 2018-02-15 由希子 岡 画像表示システムおよび画像表示プログラム
JP2018081515A (ja) * 2016-11-17 2018-05-24 日本電信電話株式会社 リソース検索装置およびリソース検索方法
WO2019077697A1 (ja) * 2017-10-18 2019-04-25 三菱電機株式会社 画像共有支援装置、画像共有システム、及び、画像共有支援方法
JP2019129328A (ja) * 2018-01-22 2019-08-01 西日本電信電話株式会社 高精細動画生成装置、高精細動画生成方法、およびプログラム
JP2019212938A (ja) * 2018-05-31 2019-12-12 シャープ株式会社 撮像装置、撮像方法およびプログラム
JP2020088647A (ja) * 2018-11-27 2020-06-04 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2021026744A (ja) * 2019-08-09 2021-02-22 日本テレビ放送網株式会社 情報処理装置、画像認識方法及び学習モデル生成方法
US20210146218A1 (en) * 2019-11-15 2021-05-20 Toca Football, Inc. System and method for a user adaptive training and gaming platform

Also Published As

Publication number Publication date
JPWO2022269891A1 (ja) 2022-12-29

Similar Documents

Publication Publication Date Title
CN104919794B (zh) 用于从主从式相机跟踪系统提取元数据的方法和系统
US8775916B2 (en) Validation analysis of human target
JP5890825B2 (ja) オブジェクト検出方法、オブジェクト検出装置及び撮像装置
JP2007194819A5 (ja)
US20160314620A1 (en) Virtual reality sports training systems and methods
CN102681657A (zh) 交互式内容创建
JP7068745B2 (ja) 学習済モデル提案システム、学習済モデル提案方法、およびプログラム
CN106662916A (zh) 用于一个或多个用户的注视跟踪
JP2020035095A (ja) アノテーション装置およびアノテーション方法
US10049605B2 (en) Display apparatus, display control method, and display system
US9443158B1 (en) Method for computer vision to recognize objects marked for identification with a bigram of glyphs, and devices utilizing the method for practical purposes
JP7063393B2 (ja) 教師データ拡張装置、教師データ拡張方法およびプログラム
JP2017188715A (ja) 映像表示システム及び映像表示方法
CN109417600A (zh) 自适应相机视野
Koehnsen et al. Step by step and frame by frame–Workflow for efficient motion tracking of high-speed movements in animals
WO2022269891A1 (ja) 画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム
JP2019201397A (ja) 撮影装置及びプログラム
JP2009521758A (ja) モーションキャプチャにおけるグループトラッキング
JP2017123589A (ja) 情報処理装置、情報処理方法および映像投影システム
Mellmann et al. Toward data driven development in RoboCup
US20130106689A1 (en) Methods of operating systems having optical input devices
EP4212219A1 (en) Exercise improvement instruction device, exercise improvement instruction method, and exercise improvement instruction program
Rahman et al. Understanding how the kinect works
JP7132643B2 (ja) 撮影装置、画像の生産方法、およびプログラム
US20150154438A1 (en) Method for processing information, information processor, and computer program product

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21947175

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023529395

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21947175

Country of ref document: EP

Kind code of ref document: A1