WO2023276005A1 - 制御装置、撮影システムおよび追尾制御方法 - Google Patents

制御装置、撮影システムおよび追尾制御方法 Download PDF

Info

Publication number
WO2023276005A1
WO2023276005A1 PCT/JP2021/024593 JP2021024593W WO2023276005A1 WO 2023276005 A1 WO2023276005 A1 WO 2023276005A1 JP 2021024593 W JP2021024593 W JP 2021024593W WO 2023276005 A1 WO2023276005 A1 WO 2023276005A1
Authority
WO
WIPO (PCT)
Prior art keywords
tracking
angle
view
event
unit
Prior art date
Application number
PCT/JP2021/024593
Other languages
English (en)
French (fr)
Inventor
智明 龍
孝幸 永井
貴文 甲斐
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/024593 priority Critical patent/WO2023276005A1/ja
Priority to JP2023531205A priority patent/JPWO2023276005A1/ja
Publication of WO2023276005A1 publication Critical patent/WO2023276005A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Definitions

  • the present disclosure relates to a control device, an imaging system, and a tracking control method for controlling a tracking imaging device in an event.
  • Japanese Unexamined Patent Application Publication No. 2002-200001 discloses an imaging device that automatically tracks a person to be photographed.
  • the control parameters of the imaging device are determined in advance as a control model according to the position of the imaging subject, the position of the imaging subject in the three-dimensional space is detected, and the detected position and the control are determined.
  • control parameters corresponding to the position of the person to be photographed are determined, and photographing is performed using the determined control parameters.
  • Patent Literature 1 discloses an automatic tracking technique, in which control parameters are determined according to the position of one predetermined track target person, and the relative relationship with other performers is not considered. For this reason, the technique described in Patent Document 1 has a problem that when there are a plurality of tracking targets, the control parameters of the tracking imaging device cannot be determined appropriately.
  • the present disclosure has been made in view of the above, and aims to obtain a control device that can appropriately determine the control parameters of a tracking imaging device when there are multiple tracking targets.
  • a control device for controlling one or more tracking imaging devices capable of adjusting an imaging direction and an imaging angle of view, wherein an event Using the position-related information, which is information about the position of each of the multiple tracked people who are the performers of the event, for each tracked person, the tracked person is set as a judgment target, and the position of the other performers of the event a view angle determination unit that determines a view angle adjustment amount that is an adjustment amount of the shooting view angle according to the position of the person to be determined.
  • the control device has the effect of being able to appropriately determine the control parameters of the tracking imaging device when there are multiple tracking targets.
  • FIG. 1 is a diagram showing a configuration example of an imaging system according to a first embodiment
  • FIG. 4 is a sequence diagram showing an example of operations in the imaging system of Embodiment 1.
  • FIG. 3 is a flowchart showing an example of a control processing procedure of the tracking imaging device in the control device according to the first embodiment
  • FIG. 4 is a diagram showing an example of image information according to Embodiment 1
  • a diagram showing an example of imaging device information according to the first embodiment A diagram showing an example of types of regions according to the first embodiment
  • FIG. 1 is a diagram showing a configuration example of a computer system that implements the control device of Embodiment 1;
  • FIG. FIG. 2 is a diagram showing a configuration example of an imaging system of Modification 1 according to Embodiment 1;
  • FIG. 11 is a diagram showing a configuration example of an imaging system of Modification 2 according to Embodiment 1;
  • FIG. 11 is a diagram showing a configuration example of an area determination unit according to Embodiment 2; Schematic diagram showing an example of a neural network
  • FIG. 11 is a diagram showing a configuration example of a view angle determination unit of Modification 1 according to Embodiment 2
  • FIG. 11 is a diagram showing a configuration example of an area determination unit of Modification 2 according to Embodiment 2;
  • FIG. 11 is a diagram showing a configuration example of an area determination unit of Modification 3 according to Embodiment 2;
  • control device imaging system, and tracking control method according to the embodiment will be described in detail below with reference to the drawings.
  • FIG. 1 is a diagram illustrating a configuration example of an imaging system according to a first embodiment;
  • An imaging system 100 of this embodiment includes a control device 1 and tracking imaging devices 5-1 to 5-N.
  • N is an integer of 2 or more.
  • the imaging system 100 can acquire tracking images in which a plurality of tracking target persons among the performers appearing in the event are tracked.
  • the imaging system 100 transmits the video of each tracking target person to the distributor device 2 .
  • the user terminal 3 receives the tracking image of the tracking target selected by the user from among the plurality of tracking targets from the distributor device 2 . Thereby, the user can use the user terminal 3 to view the tracking image of the tracking target selected from among the plurality of tracking targets. Note that in FIG.
  • the control device 1 transmits the tracking video to the user terminal 3 via the distributor device 2 , but the control device 1 transmits the tracking image to the user terminal 3 without via the distributor device 2 . You may transmit a tracking image.
  • the number of user terminals 3 is not limited to the example shown in FIG.
  • the imaging system 100 of the present embodiment can acquire tracking images in which each of a plurality of tracking targets is tracked.
  • a tracking target is, for example, a performer at an event such as a concert or a play.
  • the tracking target may be all or part of the performers of the event.
  • each member of the group may be set as a tracking target, and other performers such as backup dancers may not be included in the tracking target.
  • all the members of the group may be the tracking targets, or some of the members may be the tracking targets.
  • the tracking imaging devices 5-1 to 5-N are an example of one or more tracking imaging devices capable of adjusting the imaging direction and the imaging angle of view (hereinafter abbreviated as the angle of view). A tracking image is acquired by photographing each of them.
  • the tracking imaging devices 5-1 to 5-N may be optically adjusted in angle of view, and the tracking images acquired by the tracking imaging devices 5-1 to 5-N are transmitted by the control device 1.
  • the angle of view may be adjusted by clipping. It should be noted here that the angle of view of the tracking imaging devices 5-1 to 5-N is adjustable when the tracking images acquired by the tracking imaging devices 5-1 to 5-N are clipped by the control device 1. It also includes cases where Although FIG.
  • FIG. 1 shows the configuration of the tracking imaging device 5-1
  • the configuration of the tracking imaging devices 5-2 to 5-N is the same as that of the tracking imaging device 5-1.
  • each of the tracking imaging devices 5-1 to 5-N is indicated without distinguishing them individually, they will be referred to as a tracking imaging device 5.
  • FIG. The tracking imaging device 5 may correspond to the tracking target person on a one-to-one basis. may be used to track one tracked person.
  • a plurality of target persons are tracked by one tracking imaging device 5, for example, all of the plurality of target persons may be set to be included in the image, or the tracking target persons may be set in a time division manner. good too.
  • An example in which the tracking imaging device 5 is provided in one-to-one correspondence with the tracking target person will be described below. It doesn't have to be.
  • the tracking imaging device 5 includes a video transmission unit 51, an imaging unit 52, a tracking driving unit 53, and an angle-of-view driving unit .
  • the photographing unit 52 acquires an image by photographing, and outputs the image to the image transmitting unit 51 .
  • the tracking drive unit 53 is a drive unit that changes the imaging direction of the imaging unit 52 and can control panning and tilting based on instructions from the control device 1 .
  • the angle-of-view driving unit 54 is a driving unit that changes the angle of view of the photographing unit 52 , and can control the angle of view based on instructions from the control device 1 .
  • the video transmission unit 51 transmits the video acquired by the imaging unit 52 to the control device 1 . Note that the video transmission unit 51 may transmit the video to the control device 1 via a communication device (not shown).
  • the overall shooting device 4 is a shooting device capable of acquiring the overall video of the event.
  • the whole video is, for example, a video including all of a plurality of tracking targets or a video including all of the performers.
  • a full video is an example of position-related information that is information about the positions of each of a plurality of tracking targets.
  • the overall video may be a video of the entire stage of the event.
  • the overall image capturing device 4 includes an image capturing unit 41 that captures an overall image, and an image transmission unit 42 that transmits the overall image captured by the image capturing unit 41 to the control device 1 . Note that the overall image capturing device 4 may transmit the overall image to the control device 1 via a communication device (not shown).
  • the control device 1 uses the overall image acquired by the overall image capturing device 4 to determine the shooting direction adjustment amount, which is the adjustment amount of the shooting direction of the tracking image capturing device 5, and uses the overall image to determine the tracking target person.
  • the type of the existing area is determined, and the determined type is used to determine the angle of view adjustment amount, which is the amount of adjustment of the angle of view. Then, the control device 1 instructs the tracking imaging device 5 of the determined shooting direction adjustment amount and angle of view adjustment amount.
  • the type of area corresponds to the degree of attention of the area in the event, and is determined according to, for example, the positions of a plurality of tracking targets.
  • the types of areas are, for example, types such as center, edge, and middle.
  • An appropriate angle of view may differ depending on which type of region the tracked target person is located in among these types of regions. Also, if multiple tracking targets are members of a group, the size and type of each area are not necessarily fixed relative to the position on the stage, and may change due to the movement of all members. .
  • the control device 1 uses the entire video to determine the type of region according to the positions of other performers in the event or the positions of a plurality of tracking targets. The angle of view adjustment amount is determined depending on whether the area is located in the area of .
  • the tracking imaging device 5 not only tracks the tracking target according to the position of the tracking target in the entire image, but also adjusts the angle of view according to the type of area in which the tracking target exists. can.
  • the control device 1 includes an event information acquisition unit 11, a tracking target person information notification unit 12, an image information acquisition unit 13, a tracking target person detection unit 14, an area determination unit 15, and a view angle adjustment rule storage unit. 16 , a tracking control unit 17 , an imaging device information storage unit 18 , an angle-of-view control unit 19 , an image transmission unit 20 , an entire image acquisition unit 21 and a tracking image acquisition unit 22 .
  • the event information acquisition unit 11 acquires event information, which is information about an event to be photographed.
  • the event information includes tracking target person information indicating tracking target persons among the performers appearing in the event, and image information including an image of each tracking target person.
  • the event information may also include an itinerary showing the itinerary of the event.
  • the tracking target person information may be, for example, the stage name, nickname, etc. of the tracking target person, or may be associated with the identification number given to the tracking target person.
  • the stage name, nickname, etc. and the identification number are all identification information for identifying the tracking target.
  • the image information is information in which the identification information of the tracking target person and the image of the corresponding tracking target person are associated with each other.
  • the event information acquisition unit 11 may acquire event information by receiving an input from an operator, or acquire event information by receiving event information transmitted from the distributor device 2 or another device (not shown). You may The event information acquisition unit 11 outputs the tracking target person information of the event information to the tracking target person information notification unit 12 and outputs the image information to the image information acquisition unit 13 .
  • the tracked person information notification unit 12 notifies the tracked person information to the distributor device 2 .
  • the image information acquisition unit 13 outputs the image information received from the event information acquisition unit 11 to the tracking target person detection unit 14 and the area determination unit 15 .
  • image information is included in the event information.
  • the image information acquisition unit 13 acquires the image information by accepting an input from the operator.
  • the image information may be obtained by receiving image information transmitted from the distributor device 2 or another device (not shown).
  • the overall image acquisition unit 21 acquires the overall image by receiving the overall image from the overall image capturing device 4, and outputs the acquired overall image to the image transmission unit 20, the tracking target person detection unit 14, and the area determination unit 15. do.
  • the tracking target person detection unit 14 uses the overall video received from the overall video acquisition unit 21 and the image information received from the image information acquisition unit 13 to detect the tracking target person in the overall video for each tracking target person. , the position of the tracking target person in the entire image is calculated, and the calculated position is output to the tracking control unit 17 .
  • the tracking target person detection unit 14 also outputs image information to the tracking control unit 17 . Specifically, for each tracking target person, the tracking target person detection unit 14 detects the tracking target person from the entire video by image recognition processing using the image of the tracking target person, and Calculate the position.
  • a position in the entire image is represented, for example, by the number of pixels or the horizontal (X direction) and vertical (Y direction) distance from the predetermined reference position of the entire image.
  • the imaging device information storage unit 18 stores imaging device information indicating the correspondence between the tracking target person and the tracking imaging device 5 .
  • the imaging device information may be input by an operator through input means (not shown) and stored in the imaging device information storage unit 18, or may be received from another device (not shown) and stored in the imaging device information storage unit 18. .
  • the tracking control unit 17 uses the overall image and the tracking image to determine the shooting direction adjustment amount, which is the adjustment amount of the shooting direction of the tracking shooting device 5 corresponding to each of the plurality of tracking target persons, and determines the shooting direction.
  • the adjustment amount is output to the corresponding tracking imaging device 5 .
  • the tracking control unit 17 controls the tracking target person detection unit 14 and the camera information read from the camera information storage unit 18 to calculate the shooting direction adjustment amount of each tracking camera 5, and the calculated shooting direction adjustment amount is used as a correspondence It is transmitted to the tracking imaging device 5 to be used.
  • the tracking control unit 17 uses the tracking image and image information to determine whether the target person corresponding to the tracking imaging device 5 has entered the shooting range, that is, whether the tracking target person has been captured. uses the tracking image to calculate the shooting direction adjustment amount of the tracking shooting device 5 so that the corresponding tracking target is at the center of the shooting range, for example.
  • the imaging device information includes conversion information indicating the correspondence between pan and tilt adjustment amounts of each tracking imaging device 5 and positions in the entire video.
  • the tracking control unit 17 determines the tracking target person corresponding to each tracking imaging device 5 using the imaging device information, and determines the position of the tracking target person corresponding to the tracking imaging device 5 and the tracking target person in the imaging device information. Using information about the photographing device 5, panning and tilting adjustment amounts are calculated as photographing direction adjustment amounts.
  • the area determination unit 15 and the angle-of-view control unit 19 of the present embodiment use the entire video, for each tracking target person, determine the tracking target person as a determination target person, and determine the positions of the other performers of the event and the determination target.
  • a field angle determination unit is configured to determine a field angle adjustment amount, which is a photographing field angle adjustment amount corresponding to the position of a person, and to correspond to the determined field angle adjustment amount for a person to be determined.
  • the adjustment of the shooting angle of view is at least one of the adjustment of the optical angle of view and the adjustment by clipping.
  • the adjustment amount of the imaging angle of view may be an optical angle of view adjustment amount or a clipping adjustment amount.
  • the angle-of-view control unit 19 determines the angle-of-view adjustment amount, which is the adjustment amount of the shooting angle of view according to the positions of the other performers of the event or the positions of the plurality of tracking targets and the positions of the judgment target. good too.
  • the region determination unit 15 uses the entire video to determine, for each tracking target person, the tracking target person as a determination target person, and determines the positions of other performers in the event, or the positions of a plurality of tracking target persons, and the determination target person.
  • the type of the area where the person to be judged exists is determined according to the position of the .
  • the region determination unit 15 uses the entire video received from the full video acquisition unit 21 and the image information received from the image information acquisition unit 13 to detect and detect the positions of the plurality of tracking targets. Using the position, the entire video is divided into regions, the types of the divided regions are determined, and the type of region in which the determination target person who is the tracking target person exists is determined for each tracking target person.
  • the region determination unit 15 outputs the type of the region in which the tracking target person exists to the angle-of-view control unit 19 for each tracking target person.
  • the tracking image acquisition unit 22 also outputs the tracking image to the area determination unit 15, and the area determination unit 15 uses the tracking image (tracking image before clipping) captured by the tracking imaging device 5 to
  • the tracking target person tracked by the tracking imaging device 5 is defined as a determination target person, and the determination target person is determined according to the positions of other performers in the event or the positions of a plurality of tracking target persons and the positions of the determination target person. may determine the type of region in which is present. That is, the position-related information may be a tracking image.
  • the angle-of-view adjustment rule storage unit 16 stores angle-of-view adjustment rules that define the correspondence between the type of area and the adjustment details of the shooting angle of view.
  • the view angle adjustment rule may be input by an operator through input means (not shown) and stored in the view angle adjustment rule storage unit 16, or may be received from another device (not shown) and stored in the view angle adjustment rule storage unit 16. may
  • the angle-of-view control unit 19 uses the type of the area in which the tracking target person who is the determination target person received from the area determination unit 15 exists and the angle-of-view adjustment rule read from the angle-of-view adjustment rule storage unit 16 to perform tracking.
  • the details of the angle of view adjustment corresponding to the type of the area received from the area determination unit 15 are determined for each subject. That is, the angle-of-view control unit 19 determines the adjustment details of the photographing angle of view corresponding to the type of the area in which the person to be judged exists as determined by the area determination unit 15 according to the angle-of-view adjustment rule.
  • the angle-of-view control unit 19 determines the amount of angle-of-view adjustment for each tracking camera 5 using the content of the determined angle-of-view adjustment and the camera information read from the camera device information storage unit 18. The field angle adjustment amount is transmitted to the corresponding tracking imaging device 5 . When the angle of view is adjusted by clipping, the angle-of-view control unit 19 instructs the video transmission unit 20 of the determined angle-of-view adjustment amount.
  • the tracking image acquisition unit 22 receives the tracking image from the tracking imaging device 5 and outputs the received tracking image to the image transmission unit 20 and the tracking control unit 17 .
  • the video transmission unit 20 transmits the full video received from the full video acquisition unit 21 and the tracking video received from the tracking video acquisition unit 22 to the distributor device 2 .
  • the overall video may not be transmitted to distributor device 2 .
  • the tracking imaging device 5 transmits the acquired tracking image (tracking image before clipping) to the video transmission unit 20, and the video transmission unit 20 sends the tracking control device Clipping is performed based on the instruction from 17, and the tracking image after clipping is transmitted to the distributor apparatus 2.
  • the distributor device 2 transmits the tracking target person information received from the control device 1 to the user terminal 3 . Further, when the distribution provider device 2 receives the tracking target person identification information, which is the tracking target person identification information selected by the user, from the user terminal 3, the tracking target person identification information in the tracking image received from the control device 1 to the user terminal 3. Further, the distributor apparatus 2 may transmit the entire video to the user terminal 3 as well.
  • the user terminal 3 includes a tracking target person information acquisition unit 31, a selection reception unit 32, a selection result notification unit 33, a video output unit 34, and a video reception unit 35.
  • the tracking target person information acquisition unit 31 acquires the tracking target person information by receiving the tracking target person information from the distributor device 2 and outputs the acquired tracking target person information to the selection accepting unit 32 .
  • the selection reception unit 32 has a display function and an input reception function, displays a plurality of tracking targets indicated by the tracking target person information, and performs display prompting the user to select a tracking target.
  • the selection accepting unit 32 accepts selection of a tracking target person from the user, and outputs tracking target person identification information corresponding to the selection result to the selection result notification unit 33 .
  • the selection result notification unit 33 transmits the tracking target person identification information, which is the selection result, to the distributor device 2 .
  • the video reception unit 35 outputs the tracking video received from the distributor device 2 to the video output unit 34 .
  • the video output unit 34 outputs the tracking video received from the video reception unit 35 .
  • the video output unit 34 has a display function and a sound output function, displays the tracking video, and outputs sound according to sound data transmitted together with the video. Thereby, the user can view the tracking video of the selected tracking target person.
  • FIG. 2 is a sequence diagram showing an example of operations in the imaging system 100 of this embodiment.
  • the overall image capturing device 4 transmits the overall image to the control device 1 (step S1)
  • each tracking image capturing device 5 transmits the tracking image to the control device 1 (step S2).
  • each of the tracking imaging devices 5-1 to 5-N transmits a tracking image to the control device 1.
  • FIG. 2 the tracking image transmitted from the tracking imaging device 5-1 is denoted as tracking image #1, and the tracking image transmitted from the tracking imaging device 5-2 is denoted as tracking image #2.
  • control device 1 may be controlling the imaging direction and the angle of view of each tracking imaging device 5, and steps S7 to S10, which will be described later, may be performed before steps S1 and S2.
  • steps S7 to S10 which will be described later, may be performed before steps S1 and S2.
  • the process may be started from step S3 without performing steps S1 and S2.
  • the control device 1 acquires tracking target person information (step S3). Specifically, for example, the event information acquisition unit 11 acquires the event information and extracts the tracking target person information from the acquired event information, thereby acquiring the tracking target person information.
  • the control device 1 transmits the tracked person information to the distributor device 2, and the distributor device 2 transmits the tracked person information to the user terminal 3 (step S4).
  • the user terminal 3 determines the tracking target person (step S5).
  • the selection reception unit 32 displays the tracking target person information and receives the selection of the tracking target person from the user to determine the tracking target person.
  • the user terminal 3 transmits the tracking target person identification information to the distributor device 2 (step S6). Specifically, the selection receiving unit 32 transmits tracking target person identification information indicating the tracking target person selected by the user to the distributor apparatus 2 .
  • control device 1 calculates the shooting direction adjustment amount and the angle of view adjustment amount for each of the tracking shooting devices 5 using the entire image and the identification information (step S7).
  • the amount is transmitted to the corresponding tracking imaging device 5 (step S8).
  • Each of the tracking imaging devices 5-1 to 5-N controls the direction of imaging according to the adjustment amount of the imaging direction (step S9), and controls the angle of view according to the adjustment amount of the angle of view (step S10).
  • Each of the tracking imaging devices 5-1 to 5-N transmits the tracking image to the control device 1, and the control device 1 transmits the tracking video received from the tracking imaging devices 5-1 to 5-N to the distributor. It is transmitted to the device 2 (step S11).
  • tracking images are transmitted from the tracking imaging devices 5-1 to 5-N from step S2 to step S11, the illustration is omitted. Similarly, the entire video is also transmitted after step S2.
  • the distributor apparatus 2 transmits to the user terminal 3 the tracking image corresponding to the tracking target person identification information received from the user terminal 3 in step S6, among the tracking images received from the control device 1 (step S12).
  • the tracking image #2 is transmitted to the user terminal 3 in step S12.
  • the distributor apparatus 2 transmits a tracking image corresponding to the tracking target person identification information for each user terminal 3 . Thereafter, for example, steps S7 to S10 are performed periodically, and control is performed according to the position of the tracking target. As a result, the user terminal 3 is provided with a tracking image in which the tracking target person is tracked.
  • FIG. 3 is a flow chart showing an example of a control processing procedure of the tracking imaging device 5 in the control device 1 of the present embodiment.
  • the control device 1 determines whether or not it is adjustment timing (step S21). For example, when calculating the shooting direction adjustment amount and the angle of view adjustment amount for each predetermined control cycle, the tracking target person detection unit 14 of the control device 1 determines that it is time to adjust each control cycle. do.
  • step S21 No If it is not the adjustment timing (step S21 No), the control device 1 repeats step S21. If it is the adjustment timing (step S21 Yes), the control device 1 sets the tracking target (step S22). Specifically, the tracking target person detection unit 14 sets any one of all the tracking target persons as the tracking target person.
  • the control device 1 detects the tracking target using image information from the entire video (step S23). Specifically, the tracking target person detection unit 14 performs image recognition processing using the entire video received from the entire video acquisition unit 21 and the image of the tracking target included in the image information received from the image information acquisition unit 13. A tracking target person is detected from the whole video, and the position of the detected tracking target person in the whole video is calculated. The tracking target person detection unit 14 outputs the calculated position to the tracking control unit 17 and the region determination unit 15 together with the tracking target person identification information.
  • FIG. 4 is a diagram showing an example of image information according to this embodiment.
  • the image information includes, for example, an image for each tracking target person, as shown in FIG.
  • the number of tracking target persons is M (M is an integer equal to or greater than 2)
  • performer #1 and performer #M are tracking target person identification information.
  • the control device 1 specifies the tracking imaging device 5 that tracks the tracking target based on the imaging device information indicating the correspondence between the tracking target and the tracking imaging device 5 (step S24).
  • the tracking control unit 17 uses the imaging device information read from the imaging device information storage unit 18 to specify the tracking imaging device 5 that tracks the tracking target person set in step S22.
  • FIG. 5 is a diagram showing an example of imaging device information according to this embodiment. As shown in FIG. 5, the imaging device information is information indicating the correspondence between the tracking target person and the tracking imaging device 5 . In addition, although illustration is omitted, the photographing device information includes conversion information, which is information indicating the correspondence between the pan and tilt adjustment amounts of each tracking photographing device 5 and the position in the entire image, as described above. ing.
  • the control device 1 calculates the shooting direction adjustment amount of the tracking camera 5 that tracks the performer of the tracking target based on the position of the tracking target in the tracking video and the overall video (step S25 ). Specifically, when the tracking imaging device 5 does not capture the tracking target, the tracking control unit 17 determines the position of the tracking target received from the tracking target detection unit 14 and the conversion included in the imaging device information. The information is used to calculate the shooting direction adjustment amount of the tracking shooting device 5 that tracks the performer of the tracking target. When the tracking imaging device 5 captures the tracking target, the tracking control unit 17 adjusts the shooting direction adjustment amount of the tracking imaging device 5 that tracks the tracking target based on the position of the tracking target in the tracking image. Calculate As described above, when the tracking imaging device 5 performs panning, the entire image need not be used to calculate the imaging direction adjustment amount.
  • control device 1 instructs the shooting direction adjustment amount to the tracking camera 5 that tracks the performer of the tracking target (step S26). Specifically, the tracking control unit 17 transmits the shooting direction adjustment amount calculated in step S25 to the tracking imaging device 5 specified in step S24.
  • control device 1 determines the type of area where the performer of the tracking target exists, based on the position of the tracking target in the entire video (step S27).
  • the types of areas in this embodiment will be described.
  • the type of area indicates, for example, the level of attention in the event.
  • FIG. 6 is a diagram showing an example of types of areas according to the present embodiment.
  • FIG. 6 shows an example of an overall video of the entire event stage shot from the front.
  • the types of areas are center, middle, and edge.
  • the type of the area 201 located in the center is the center
  • the area 202 located at the edge is the edge
  • the area located between the edge and the center is judged to be intermediate.
  • the attention level of the area corresponding to each of the center, the middle, and the edge is the highest in the center, the next highest in the middle, and the lowest in the edge.
  • the degree of attention of each type of area may vary depending on the event, and the correspondence between the position on the stage and the degree of attention is not limited to this example, and may be determined in advance according to the content of the event. .
  • the appropriate angle of view for capturing the tracking target differs depending on whether the tracking target is positioned in the center, middle, or end area. is assumed.
  • the type of area can be said to be a type corresponding to the angle of view to be set. Note that the relationship between the type of area and the angle of view is not limited to this example.
  • the positions of the multiple performers who are the multiple tracking targets may not be fixed but may change. For example, when all group members are spread out on the stage, and when all group members are gathered near the edge of the stage, for example, the center of the stage as a whole position attracts more attention. different.
  • FIG. 7 is a diagram showing an example of the overall video of this embodiment when the members of the group are spread over the entire stage.
  • FIG. 8 is a diagram showing an example of an entire video image according to the present embodiment when group members are gathered near the edge.
  • FIGS. 7 and 8 show an example in which each member of the group is a tracking target person 300.
  • a figure having the same shape as the figure with the reference numeral 300 and omitting the reference numeral is also the tracking target person 300. be.
  • calculations were made based on the coordinate values of the positions of the plurality of tracking targets 300 in the horizontal direction (horizontal direction) in the entire image, assuming that the masses of the tracking targets 300 are the same.
  • a line indicating the position of the center of gravity in the left-right direction is shown as the center of gravity 301 .
  • the center of gravity 301 is near the center of the entire image, but in the example shown in FIG. is also close to the left edge.
  • the type of the area 201 near the center of the overall video is the center with the highest degree of attention.
  • the tracking target person 300 does not exist near the center of the entire image, and the attention level near the center is low, and the attention level near the center of gravity 301 is high. get higher Therefore, in the example shown in FIG. 8, the type of the area 201 is set to the center with the highest degree of attention.
  • the area determination unit 15 uses the overall video received from the overall video acquisition unit 21 and the image information received from the image information acquisition unit 13 to identify the plurality of tracking target persons 300 in the overall video.
  • the coordinate values in the left-right direction of the positions of the plurality of detected tracking target persons 300 in the overall video are calculated.
  • the region determination unit 15 calculates the center of gravity in the horizontal direction using the coordinate values in the horizontal direction of the plurality of tracking target persons 300, and sets the region including the center of gravity and a predetermined number of tracking target persons 300 to the center. Decide on the corresponding area.
  • an area including two tracking target persons 300 is set as the center. In the examples shown in FIGS.
  • the area determination unit 15 is not limited to this, and may divide areas other than the center into edge and middle areas, as in the example of FIG. 6 .
  • the area determination unit 15 determines the end areas by, for example, predetermining the number of tracking target persons 300 in the end areas.
  • an area that is neither an edge nor a center is defined as an intermediate area. Since the edges exist on both the left and right sides, for example, the number of tracking target persons 300 per edge area is determined in advance. Performers in the overall video may be detected and the regions determined in the same manner as described above.
  • the example described above is just an example, and the number of types of areas and the method of determining areas are not limited to the above examples.
  • the region determining unit 15 determines which type of region the set tracking target person exists, and displays the determined result in the image.
  • the angle control unit 19 is notified. For example, in the example shown in FIG. 7, when the set tracking target person is the third tracking target person 300 from the left, the third tracking target person 300 from the left is located in the area 201 corresponding to the center. Since it is positioned, the area determination unit 15 determines that the type of the area corresponding to the set tracking target person is the center. Further, even when the tracking target person exists in the center region, the region determination unit 15 determines that the tracking target person exists in the middle region, for example, when it is determined that the tracking target person is not in the front row.
  • the region determining unit 15 may For example, if the region determining unit 15 determines that part of the tracked target is hidden by another tracked target by analyzing the entire video, it determines that the tracked target is not in the front row.
  • the method of determining whether or not the vehicle is in the front row is not limited to this example.
  • the type of area is determined based on the centroids 301 of the plurality of tracking target persons 300.
  • the arrangement of the plurality of tracking targets 300 may be in a state where the degree of attention cannot be defined.
  • the region determining unit 15 determines that the arrangement of the plurality of tracking target persons 300 in the entire image is random or moving, for example, when the arrangement is not laterally symmetrical. set rules for Then, if the area determination unit 15 determines that the area is random or moving based on the rule, the area determination unit 15 may determine the entire area of the entire video as another type of area.
  • the control device 1 uses the field angle adjustment rule to calculate the field angle adjustment amount according to the type of the determined area (step S28).
  • the view angle control unit 19 refers to the view angle adjustment rule stored in the view angle adjustment rule storage unit 16, and determines the image corresponding to the type of the area, which is the determination result notified from the area determination unit 15. Determines the details of angle adjustment.
  • FIG. 9 is a diagram showing an example of the angle-of-view adjustment rule in this embodiment.
  • the view angle adjustment rule includes information indicating details of view angle adjustment for each region type.
  • Wide angle #1 and wide angle #2 are both wide angles, but the angles of view may be different.
  • wide angle #1 is an angle of view that includes the tracking target and several people, that is, an angle of view that allows the tracking target to be located in the center.
  • the angle of view should be such that the whole body is included.
  • FIG. 9 is an example, and the content of the angle of view adjustment is not limited to this, and may be set according to the content of the event.
  • the details of the angle of view adjustment may be determined by obtaining information in advance as to what kind of angle of view adjustment should be performed when the object exists in another area, or may be determined in advance based on a user questionnaire or the like.
  • the method of determining the field angle adjustment rule is not limited to this example. In the above example, the angle of view is set according to the type of the area. You may make it decide.
  • the angle of view control unit 19 calculates the amount of angle of view adjustment corresponding to the determined content of the angle of view adjustment according to the size of the tracking target person in the entire image, the position of the face, and the like. .
  • the control device 1 instructs the angle-of-view adjustment amount to the tracking imaging device 5 that tracks the performer of the tracking target (step S29).
  • the angle-of-view control unit 19 uses the imaging device information read from the imaging device information storage unit 18 to identify and identify the tracking imaging device 5 that tracks the tracking target person set in step S22.
  • the angle of view adjustment amount determined in step S28 is transmitted to the tracking imaging device 5.
  • the detection unit 14 refers to the image capturing device information, specifies the tracking image capturing device 5 that tracks the set tracking target person, and notifies the tracking control unit 17 and the view angle control unit 19 of the specified tracking image capturing device 5. You may Alternatively, the tracking target person detection unit 14 may notify the view angle control unit 19 of the result identified in step S24.
  • step S30 determines whether or not all tracking targets have been set (step S30), and if all tracking targets have been set (step S30 Yes), the control device 1 moves to step S21.
  • step S30 the tracking target person detection unit 14 determines whether or not the setting in step S22 has been performed for all tracking target people. If all tracking targets have not been set (step S30 No), that is, if there is a tracking target that has not been set in step S22 among all tracking targets, the control device 1 selects the tracking target to be set. is changed (step S31), and the processing from step S23 is repeated.
  • step S31 the tracking target person detection unit 14 selects an arbitrary tracking target person from among the unset tracking target persons, and sets the selected tracking target person as a setting target, thereby setting the tracking target person to be set. to change
  • the type of area is determined according to the positions of multiple tracking targets, and the angle of view is adjusted according to the type of area in which the tracking target exists.
  • the control device 1 can appropriately determine the control parameters of the tracking imaging device 5 when there are a plurality of tracking targets.
  • FIG. 10 is a diagram showing a configuration example of a computer system that implements the control device 1 of this embodiment. As shown in FIG. 10, this computer system comprises a control section 101, an input section 102, a storage section 103, a display section 104, a communication section 105 and an output section 106, which are connected via a system bus 107. there is
  • the control unit 101 is, for example, a processor such as a CPU (Central Processing Unit), and executes a program describing the processing in the control device 1 of the present embodiment.
  • part of the control unit 101 may be realized by dedicated hardware such as a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array).
  • the input unit 102 is composed of, for example, a keyboard and a mouse, and is used by the user of the computer system to input various information.
  • the storage unit 103 includes various memories such as RAM (Random Access Memory) and ROM (Read Only Memory) and storage devices such as hard disks, and stores programs to be executed by the control unit 101 and necessary information obtained in the process of processing. store data, etc.
  • the storage unit 103 is also used as a temporary storage area for programs.
  • the display unit 104 includes a display, LCD (liquid crystal display panel), etc., and displays various screens to the user of the computer system.
  • a communication unit 105 is a receiver and a transmitter that perform communication processing.
  • the output unit 106 is a printer, speaker, or the like. Note that FIG. 10 is an example, and the configuration of the computer system is not limited to the example in FIG.
  • a computer program is stored in a storage unit from a CD-ROM or DVD-ROM set in a CD (Compact Disc)-ROM drive or a DVD (Digital Versatile Disc)-ROM drive (not shown).
  • 103 installed. Then, when the program is executed, the program read from storage unit 103 is stored in the main storage area of storage unit 103 . In this state, control unit 101 executes processing as control device 1 of the present embodiment according to the program stored in storage unit 103 .
  • a program describing processing in the control device 1 is provided using a CD-ROM or DVD-ROM as a recording medium.
  • a program provided by a transmission medium such as the Internet via the communication unit 105 may be used depending on the capacity.
  • the image information acquisition unit 13, the tracking target person detection unit 14, the area determination unit 15, the tracking control unit 17, and the angle of view control unit 19 shown in FIG. It is realized by being executed by the control unit 101 shown in FIG.
  • the storage unit 103 is also used to implement the image information acquisition unit 13 , the tracking target person detection unit 14 , the region determination unit 15 , the tracking control unit 17 and the angle of view control unit 19 .
  • the view angle adjustment rule storage unit 16 and the imaging device information storage unit 18 shown in FIG. 1 are part of the storage unit 103 .
  • the event information acquisition unit 11, the tracking target person information notification unit 12, the video transmission unit 20, the whole video acquisition unit 21, and the tracking video acquisition unit 22 shown in FIG. 1 are realized by the communication unit 105 shown in FIG.
  • the control unit 101 is also used to realize the event information acquisition unit 11 , the tracking target person information notification unit 12 , the image transmission unit 20 , the whole image acquisition unit 21 and the tracking image acquisition unit 22 .
  • Input unit 102 may also be used for event information acquisition unit 11 and image information acquisition unit 13 .
  • the control device 1 may be realized by a plurality of computer systems.
  • the control device 1 may be realized by a cloud computer system.
  • the control device 1 transmits the video such as the tracking video and the overall video to the distributor device 2 .
  • the tracking image acquired by the tracking image capturing device 5 is transmitted to the distributor device 2 via the image providing device, and the control device 1 does not need to acquire the tracking image from the tracking image capturing device 5.
  • the control device 1 acquires the overall image from the overall image capturing device 4 .
  • the video providing device may acquire the overall video from the overall video camera 4 and transmit it to the control device 1, or the overall video camera 4 may The entire video may be transmitted to the video providing device and the control device 1 .
  • the distributor apparatus 2 is realized by, for example, a computer system with the configuration shown in FIG.
  • the user terminal 3 is similarly realized by, for example, a computer system with the configuration shown in FIG.
  • the tracking target person information acquisition unit 31, the selection result notification unit 33, and the video reception unit 35 shown in FIG. 1 are implemented by the communication unit 105 shown in FIG.
  • Selection reception unit 32 shown in FIG. 1 is implemented by control unit 101, input unit 102, and display unit 104 shown in FIG.
  • the video output unit 34 shown in FIG. 1 is implemented by the display unit 104 and the output unit 106 which is a speaker.
  • the user terminal 3 may be a smartphone terminal, a television, or a combination of a game machine and a television.
  • FIG. 11 is a diagram showing a configuration example of an imaging system of Modification 1 according to the present embodiment.
  • a photographing system 100a shown in FIG. 11 is the same as the photographing system 100 shown in FIG.
  • Components having the same functions as those of the imaging system 100 shown in FIG. 1 are assigned the same reference numerals as in FIG. 1, and overlapping descriptions are omitted.
  • the control device 1a is the same as the control device 1 shown in FIG.
  • each tracking target person wears a BLE (Bluetooth (registered trademark) Low Energy) terminal capable of transmitting wireless signals, or an RFID (Radio Frequency IDentifier) tag.
  • the tag communication unit 23 communicates with the BLE terminal or tag corresponding to each tracking target person, and from the BLE terminal or tag, the tracking target person, for example, the left-right direction and the depth direction of the stage, or the height direction is added. Acquire position information indicating a three-dimensional position.
  • the tag communication unit 23 outputs the position information to the area determination unit 15a in association with the tracking target person identification information.
  • the event information acquired by the event information acquisition unit 11 includes event venue information indicating the arrangement position of the event venue.
  • the event information acquisition unit 11 outputs the event venue information to the area determination unit 15a.
  • the event venue information is, for example, information indicating the range of the stage in the event by coordinate values.
  • the position-related information is position information indicating the two-dimensional or three-dimensional position of each of a plurality of tracking targets.
  • the region determination unit 15a uses the two-dimensional or three-dimensional position information received from the tag communication unit 23 and the event venue information received from the event information acquisition unit 11 to divide the regions and determine the type of each region. do. If the coordinate values indicating the range of the stage in the event venue information are indicated in a different coordinate system from the two-dimensional or three-dimensional positional information received from the tag communication unit 23, one of them can be converted into the same coordinate system. A value in a coordinate system. Then, the region determination unit 15a converts the two-dimensional or three-dimensional positional information received from the tag communication unit 23 into coordinate values of a coordinate system in which the left-right direction and the depth direction of the stage are X and Y, respectively.
  • the region determination unit 15a uses the coordinate values of each tracking target person on the XY two-dimensional plane, the region determination unit 15a obtains the center of gravity in the left-right direction, and divides into regions based on the center of gravity, in the same manner as in the above-described control device 1 of FIG. and the type of each area can be determined.
  • the type of each area may be determined by considering not only the position of the tracking target person in the horizontal direction but also the position of the tracking target person in the depth direction.
  • FIG. 12 is a diagram showing an example of the arrangement of the tracking target in Modification 1 of the present embodiment.
  • the horizontal direction indicates the horizontal direction of the stage at the venue of the event
  • the vertical direction indicates the depth of the stage. Therefore, FIG. 12 corresponds to a top view of the tracking target person 300 .
  • the region determining unit 15a uses the coordinate values of each tracking target person on such a two-dimensional plane, the region determining unit 15a sets the type of the region 201, which is the region in the front row near the center of gravity in the left-right direction, to the center, and The type of the entire area 203 on the left and right sides and the second row is intermediate, and the type of the area 204 on the last row is the last row or end.
  • the area determination unit 15a may determine the type of each area by also considering the depth direction. Also in Modification 1, the type of each region and the content of view angle adjustment are stored in the view angle adjustment rule storage unit 16 as the view angle adjustment rule.
  • the operation of the imaging system 100a of Modification 1 other than the above is the same as the operation of the imaging system 100 shown in FIG.
  • the photographing system 100a of Modification 1 has the same effect as that of Embodiment 1, and can also adjust the angle of view according to the depth.
  • FIG. 13 is a diagram showing a configuration example of an imaging system according to Modification 2 of the present embodiment.
  • a photographing system 100b shown in FIG. 13 is the same as the photographing system 100 shown in FIG.
  • Components having the same functions as those of the imaging system 100 shown in FIG. 1 are assigned the same reference numerals as in FIG. 1, and overlapping descriptions are omitted.
  • the control device 1b is the same as the control device 1 shown in FIG.
  • the event information acquired by the event information acquisition unit 11 includes the itinerary.
  • the event information acquisition unit 11 outputs the itinerary to the area determination unit 15b.
  • the itinerary includes, for example, information indicating the type of region in which at least some of the plurality of tracked targets exist for each event segment.
  • FIG. 14 is a diagram showing an example of the itinerary of the present embodiment.
  • the itinerary includes event progress information indicating the progress of events and movement schedule information that is information regarding movement of the tracking target.
  • the event progress information includes, for example, the correspondence between time information indicating time and the content of the event.
  • the time information may be information indicating the time itself, or may be information indicating the elapsed time from the start of the event.
  • the event is a concert, and the songs to be played are described as the content of the event.
  • a section name indicating a section in which the content of the event is further subdivided is associated with the time information.
  • the break of the event is, for example, the break of each section into which the song is divided.
  • sections are divided according to the melody such as A melody, B melody, chorus, etc., but the method of dividing the sections is not limited to this. can be delimited by major changes in the arrangement of
  • the movement schedule information indicates in which type of region each tracked person exists among the types of regions corresponding to the degree of attention described above.
  • the movement schedule information indicates which type of area each performer who is the tracking target is, but the movement schedule information is not limited to this. It may be in a format other than this, such as containing only information indicating whether or not there is.
  • the event progress information includes the event content and the section name, which is an example of information indicating the section. may be alone. If the event progress information is only the content of the event and the name of the section, the information such as the lyrics indicating the division of the section and the musical score of the accompaniment are input to the region determining section 15b together with the schedule. In addition, lighting, sound effects, background images, and the like, which serve as section breaks, may be input to the area determination unit 15b together with the itinerary.
  • the region determination unit 15b uses the itinerary received from the event information acquisition unit 11 to determine the type of region in which the tracking target person is located. For example, if the event progress information is time information, the type of region where the tracking target is located is determined by referring to the corresponding movement schedule information in the itinerary according to the current time. When the event progress information is indicated by the content of the event and the name of the section, the sound is detected by a microphone (not shown), and the area determination unit 15b uses the lyrics indicating the break and the musical score of the accompaniment to detect the sound detected by the microphone. Delimitation is determined by voice recognition, frequency analysis, etc. using data.
  • the area determination unit 15b determines the type of area in which the tracking target person is located by referring to the movement schedule information corresponding to each section in the itinerary. Also, when a break is indicated by lighting, sound effects, background video, or the like, the area determination unit 15b detects the break by image recognition using the entire video, analysis of sound data, or the like. In this way, instead of using time information, section delimiters are determined using voice recognition, image recognition, etc., and by referring to the corresponding travel schedule information in the itinerary according to the section delimiters, the event can be scheduled at the scheduled time. Appropriate control of the angle of view can be performed even when the camera is not moving forward.
  • the area determination unit 15b uses the itinerary according to the current time to determine who is the center.
  • the position of the tracking target person specified as the center is detected from the entire video using the image information.
  • the position of the tracking target person may be treated as the center of gravity described above, regions may be divided, and the type of each region may be determined as described as the operation of the control device 1 in FIG.
  • the area determining unit 15b determines the type of area in which the tracking target person exists, using the position in the entire video of the tracking target person and the type of each area.
  • the region determination unit 15b may combine determination using the itinerary and determination using the entire video. For example, the region determination unit 15b uses the itinerary received from the event information acquisition unit 11 to determine the type of region in which the tracking target person is located, and at least some of the tracking target person Similar to , the type of the area where the tracking target person is located is determined using the entire image, and if the two determination results match, the determination result is used as it is. When the number of tracking targets whose two determination results do not match each other is equal to or greater than a predetermined threshold value, the determination using the itinerary is stopped, and all the tracking targets are determined using the entire video. As a result, even when the event does not proceed as planned, the angle of view can be appropriately controlled.
  • the type of the region in which the set tracking target exists is determined,
  • the angle of view adjustment amount, which is a control parameter, is determined according to the type of area. Therefore, when there are a plurality of persons to be tracked, it is possible to appropriately determine the control parameters of the tracking imaging device 5 .
  • FIG. 15 is a diagram showing a configuration example of an area determination unit according to this embodiment.
  • the imaging system according to the second embodiment is the same as the imaging system according to the first embodiment, except that an area determining section 15c is provided in place of the area determining section 15 in the control device 1 according to the first embodiment.
  • Components having functions similar to those of the first embodiment are denoted by the same reference numerals as those of the first embodiment. Differences from the first embodiment will be mainly described below.
  • a rule for determining the type of each region based on the positions of a plurality of tracking targets in the entire video is determined in advance, and the type of the region determined based on the rule is used to determine whether the tracking target exists.
  • the type of area to be used was determined.
  • the type of the region where the tracking target, ie, the judgment target exists is determined using a trained model for inferring the type of the region where the tracking target, ie, the judgment target, exists from the entire video. do.
  • the area determination unit 15c includes a learned model generation unit 151, a learned model storage unit 152, and an inference unit 153.
  • the inference unit 153 reads out the learned model stored in the learned model storage unit 152, inputs the entire video received from the entire video acquisition unit 21 to the read-out learned model, and thereby determines the area of the entire video.
  • the type that is, the type of the region at each position in the entire image is inferred. For example, the inference unit 153 infers which type, such as center or edge, each position in the entire video belongs to. Then, the inference unit 153 uses the type of region at each position in the entire video, which is the inference result, and the position of the tracking target detected by the tracking target detection unit 14 to determine the region in which the tracking target exists. Infer the type.
  • the inference unit 153 uses the output obtained by inputting the entire video to the trained model to obtain the type of the region where the tracking target person exists.
  • the tracking video acquisition unit 22 outputs the tracking video (tracking video before clipping) to the inference unit 153, and the inference unit 153 inputs the tracking video instead of the entire video to the trained model.
  • the type of region in the tracked image may be inferred. In this case, there is no need to use the position of the tracking target detected by the tracking target detection unit 14, and the inference unit 153 assumes that the tracking target is located in the center of the tracking image, for example, and uses the inference result to perform tracking. Obtain the type of area in which the target person exists.
  • a trained model is generated, for example, as follows, by the trained model generation unit 151 before the start of provision of the video of the event.
  • the trained model generating unit 151 generates a trained model using a plurality of learning data sets including videos and corresponding correct data, and stores the generated trained model in the trained model storage unit 152 .
  • the video used to generate the learned model may be the full video received from the full video acquisition unit 21, the tracking video received from the tracking video acquisition unit 22, or the learning video.
  • the learning videos are, for example, videos in which a plurality of tracking targets appeared, videos distributed in the past, videos of TV broadcasts in the past, and the like.
  • the learning video may be an image or video acquired at an event in which a plurality of tracking targets have appeared.
  • a trained model is generated before the video of the event is provided.
  • the trained model may be generated according to the size of the group, such as for a large group or a small group, or may be generated for each group.
  • the inference unit 153 switches the learned model to be used according to the size of the group or the group at the time of inference.
  • the learning video input to the trained model generation unit 151 may be one shot for other purposes, or may be a video or image of the entire event shot during the rehearsal of the event.
  • the whole video for learning or the whole video may be input to the control device 1 by an input means (not shown) and input to the trained model generation unit 151 from the input means, or may be transmitted from another device and received by a receiving means (not shown). may be input to the learned model generating unit 151 from the receiving means.
  • the correct answer data is data indicating whether the type of the area at each position in the corresponding video is, for example, center, middle, or edge.
  • Each position in the overall image may be indicated in units of pixels, or may be indicated in units of a plurality of pixels, such as 10 ⁇ 10 pixels.
  • the correct data is determined by, for example, confirming the entire video by an expert such as the event organizer, the person in charge of production, or the manager of the tracked target who knows the information of the tracked target well.
  • the correct data may be input to the control device 1 by an input means (not shown) and input to the learned model generation unit 151 from the input means, or may be transmitted from another device, received by a receiving means (not shown), and sent from the receiving means. It may be input to the trained model generation unit 151 .
  • the generation of a trained model in the trained model generation unit 151 is performed, for example, by supervised learning. Any supervised learning algorithm may be used, and for example, a neural network model may also be used.
  • a neural network consists of an input layer made up of multiple neurons, an intermediate layer (hidden layer) made up of multiple neurons, and an output layer made up of multiple neurons.
  • the intermediate layer may be one layer, or two or more layers.
  • FIG. 16 is a schematic diagram showing an example of a neural network.
  • a three-layer neural network as shown in FIG. 16, when a plurality of inputs are input to the input layer (X1-X3), the value is multiplied by the weight W1 (w11-w16) and the intermediate layer ( Y1-Y2), and the result is multiplied by weight W2 (w21-w26) and output from the output layer (Z1-Z3).
  • This output result changes depending on the value of weight W1 and the value of weight W2.
  • the weight W1 and the weight W2 are set so that the output from the output layer when the entire video is input approaches the correct data.
  • the relationship between the entire video and the correct data is learned.
  • the weight W1 and the weight W2 are adjusted so that the output from the output layer when the whole video is input approaches the correct data, and the whole video and the correct answer are adjusted. Relationships with data are learned. Note that machine learning algorithms are not limited to neural networks.
  • the region determination unit 15c includes a learned model generation unit 151.
  • a learning device that generates a learned model is provided separately from the control device 1, and the learning device generates a learned model.
  • a model generator 151 may be provided.
  • the region determination unit 15c does not need to include the trained model generation unit 151, and the trained model generation unit 151 of the learning device generates a trained model in the same manner as described above. Then, the learned model generated by the learning device is stored in the learned model storage unit 152 of the region determination unit 15c.
  • step S27 described in the first embodiment the area determination unit 15c uses the learned model to determine the type of area where the tracking target person exists, as described above. Other operations in this embodiment are the same as those in the first embodiment. Also in this embodiment, the control device is implemented by a computer system.
  • a plurality of tracking targets may wear tags, and the tag communication unit 23 may acquire the position information of each tracking target.
  • the area determination unit 15c may correct the result determined using the learned model using the position information. For example, as described in Modification 1 of Embodiment 1, correction may be performed by reflecting the position in the depth direction.
  • the control parameters of the tracking imaging device 5 can be appropriately determined.
  • the arrangement of group members may be diverse, and even if a person can judge whether the tracking target is the center or the edge by looking at the overall image, Sometimes it is difficult to define the extent of a domain as a rule.
  • the type of the area where the tracking target person exists is determined by machine learning using the result of human judgment as the correct data, it is necessary to predetermine the rule for determining the type of the area. No.
  • the accuracy of the trained model can be improved by re-learning using the overall video shot at the event.
  • FIG. 17 is a diagram illustrating a configuration example of a view angle control unit of Modification 1 according to the present embodiment.
  • the imaging system of Modification 1 of the present embodiment includes a view angle determination unit 24 instead of the area determination unit 15, the view angle control unit 19, and the view angle adjustment rule storage unit 16 in the control device 1 of the first embodiment. Other than that, it is the same as the imaging system of the first embodiment. Components having functions similar to those of the first embodiment are denoted by the same reference numerals as those of the first embodiment. Differences from the first embodiment will be mainly described below.
  • a learned model for inferring the type of region in which the tracking target person exists is used with the input of the overall video received from the overall video acquisition unit 21 .
  • the process of obtaining the adjustment details of the angle of view from the type of area is performed based on the angle of view adjustment rule, as in the first embodiment.
  • Modification 1 uses a learned model for inferring the angle of view adjustment amount by inputting the whole video received from the whole video acquiring unit 21 .
  • learning is performed including the field angle adjustment rule. That is, the view angle determination unit 24 has both a function corresponding to the area determination units such as the area determination units 15 , 15 a , 15 b and 15 c and a function of the view angle control unit 19 .
  • the view angle determination unit 24 includes a learned model generation unit 191, a learned model storage unit 192, and an inference unit 193.
  • the inference unit 193 reads the learned model stored in the learned model storage unit 192, and inputs the whole video received from the whole video acquisition unit 21 and the tracking video of the tracking target person to the read-out learned model. By doing so, the angle of view adjustment amount is inferred. That is, the angle-of-view determination unit 24 adjusts the shooting angle of view using a learned model for inferring the adjustment amount of the shooting angle of view corresponding to the tracking target, that is, the determination target using the entire video and the tracking image. Determine quantity.
  • a trained model is generated, for example, as follows, by the trained model generation unit 191 before the start of provision of the video of the event.
  • the trained model generation unit 191 generates a trained model using a plurality of learning data sets including the whole video or learning video received from the whole video acquisition unit 21, the tracking video, and the corresponding correct data,
  • the generated learned model is stored in the learned model storage unit 192 .
  • the learning video is a video in which a plurality of tracking targets appeared, and is a video distributed in the past, a video of a television broadcast in the past, and the like.
  • a trained model is generated before the video of the event is provided.
  • the trained model may be generated according to the size of the group, such as for a large group or a small group, or may be generated for each group.
  • the method of generating the trained model is the same as the example shown in FIG.
  • the correct data is the angle of view adjustment amount.
  • an expert such as a professional photographer may determine the correct data.
  • an expert such as a cameraman may determine correct data corresponding to the entire video during a camera test during event rehearsal. Operations other than those described above are the same as those of the first embodiment.
  • the position information acquired by the tag communication unit 23 may be used to correct the angle of view adjustment amount.
  • learning may be performed by inputting a tracking target person detected from the entire video.
  • FIG. 18 is a diagram illustrating a configuration example of an area determination unit of Modification 2 according to the present embodiment.
  • the imaging system of Modified Example 2 of the present embodiment is the same as the imaging system of Embodiment 1 except that an area determining section 15c is provided in place of the area determining section 15 in the control device 1 of Embodiment 1.
  • FIG. Components having functions similar to those of the first embodiment are denoted by the same reference numerals as those of the first embodiment. Differences from the first embodiment will be mainly described below.
  • the area determination unit 15c includes a learned model generation unit 151, a learned model storage unit 152, and an inference unit 153, similar to the example shown in FIG.
  • the region determination unit 15c receives the entire video as input and determines the type of region in which the tracking target person exists.
  • event venue information which is information about the venue of the event, is input to determine the type of region in which the tracking target person exists.
  • the tracking image acquisition unit 22 also outputs the tracking image to the inference unit 153, and the inference unit 153 inputs the tracking image to the trained model instead of the overall image.
  • event venue information is included in event information, for example, and is input from event information acquisition section 11 to area determination section 15c.
  • the event venue information includes, for example, identification information indicating the venue of the event and information indicating the shape of the stage in the event.
  • FIG. 19 is a diagram showing an example of event venue information in Modification 2 of the present embodiment.
  • the event venue information includes identification information of the event venue (denoted as event venue in FIG. 19) and information indicating the shape of the event venue, that is, information indicating the shape of the stage (shape and shape in FIG. 19). description). For example, stages with different shapes, such as shape A and shape B, may be used even at event venue ⁇ .
  • the information indicating the shape of the stage included in the event venue information is also input to the learned model.
  • the information shown in the top row of FIG. 19 is input from the event information acquisition unit 11 to the area determination unit 15c as the event venue information.
  • the information indicating the shape an image, coordinate values of the area of the stage, etc. may be input as information indicating the shape itself, or identification information such as a number indicating the shape A may be input.
  • the method of generating a learned model in the area determination unit 15c of modification 2 is the same as the method of generating a learned model in the area determination unit 15c shown in FIG. 15, except that the event venue information is added to the input.
  • the inference operation of the area determination unit 15c of Modification 2 is the same as the operation of the area determination unit 15c shown in FIG. 15, except that the event venue information is added to the input.
  • a trained model may be generated for each combination of event venue and shape. In this case, the area determination unit 15c selects a learned model to be used based on the event venue information during inference.
  • the type of the area where the tracking target person exists which is the inference result of the area determination unit 15c of the modified example 2
  • event venue information may be added to the input.
  • FIG. 20 is a diagram illustrating a configuration example of an area determination unit according to Modification 3 according to the present embodiment.
  • the imaging system of Modified Example 3 of the present embodiment is the same as the imaging system of Embodiment 1 except that an area determination section 15c is provided in place of the area determination section 15 in the control device 1 of Embodiment 1.
  • FIG. Components having functions similar to those of the first embodiment are denoted by the same reference numerals as those of the first embodiment. Differences from the first embodiment will be mainly described below.
  • the region determination unit 15c includes a learned model generation unit 151, a learned model storage unit 152, and an inference unit 153, similar to the example shown in FIG.
  • the region determination unit 15c receives the entire video as input and determines the type of region in which the tracking target person exists.
  • Modified Example 3 in addition to the overall video, information indicating the content of the event such as the song to be played is input, and the type of the area where the tracking target person exists is determined.
  • the tracking image acquisition unit 22 also outputs the tracking image to the inference unit 153, and the inference unit 153 inputs the tracking image to the trained model instead of the overall image.
  • the method of generating a learned model in the area determination unit 15c of Modification 2 is the same as the method of generating a learned model in the area determination unit 15c shown in FIG. 15, except that information indicating the content of the event is added to the input. is. If the event is a concert, the content of the event is, for example, a song, and information indicating the name of the song is used as input data when generating a trained model.
  • the event content information including the content of the event is included in the event information itinerary, for example, as described in the modification 2 of the first embodiment. It is input to the part 15c.
  • FIG. 21 is a diagram showing an example of event content information in Modification 3 of the present embodiment.
  • the event content information includes, for example, time information indicating time and event content.
  • the event content is music.
  • the region determination unit 15c uses the current time to input information indicating songs in the time zone corresponding to the current time among the time information in the event content information to the learned model together with the entire video. The type of region at each position in the video is inferred, and the type of region where the tracking target person exists is determined using the inference result.
  • the method of generating a learned model in the area determination unit 15c of Modification 3 is the same as the method of generating a learned model in the area determination unit 15c shown in FIG. 15, except that information indicating the content of the event is added to the input. is.
  • the inference operation of the area determination unit 15c of Modification 3 is the same as the operation of the area determination unit 15c shown in FIG. 15, except that information indicating the content of the event is added to the input.
  • a learned model may be generated for each information indicating the content of the event.
  • the region determination unit 15c selects a learned model to be used based on information indicating the content of the event during inference. If the information indicating the content of the event is a song, a learned model is generated for each song.
  • the type of the area where the tracking target person exists which is the inference result of the area determination unit 15c of Modification 3
  • the type of the area where the tracking target person exists which is the inference result of the area determination unit 15c of Modification 3
  • information indicating the content of the event may be added to the input.
  • the type of the region in which the set tracking target person exists is determined by machine learning using the entire video, and the angle of view, which is the control parameter, is adjusted according to the type of the region. to determine the quantity. Therefore, when there are a plurality of persons to be tracked, it is possible to appropriately determine the control parameters of the tracking imaging device 5 .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Studio Devices (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract

本開示にかかる制御装置(1)は、撮影方向および撮影画角が調整可能な1つ以上の追尾用撮影装置(5-1~5-N)を制御する制御装置(1)であって、イベントの出演者である複数の追尾対象者のそれぞれの位置に関する情報である位置関連情報を用いて、追尾対象者ごとに、当該追尾対象者を判断対象者とし、イベントの他の出演者の位置と判断対象者の位置とに応じた撮影画角の調整量である画角調整量を決定する領域判断部(15)および画角制御部(19)と、を備える。

Description

制御装置、撮影システムおよび追尾制御方法
 本開示は、イベントにおいて追尾用撮影装置を制御する制御装置、撮影システムおよび追尾制御方法に関する。
 放送または配信によりユーザに提供する映像を撮影する際に、移動する撮影対象者を追尾して撮影を行うことがある。特許文献1には、撮影対象者を自動追尾する撮影装置が開示されている。特許文献1に記載の技術では、撮影装置の制御パラメータを撮影対象者の位置に応じてあらかじめ制御モデルとして定めておき、撮影対象者の3次元空間内の位置を検出し、検出した位置と制御モデルとを用いて撮影対象者の位置に応じた制御パラメータを決定し、決定した制御パラメータを用いて撮影を行う。
特開平9-322052号公報
 コンサート、演劇などのイベントでは、複数の出演者が出演する。近年、このような複数の出演者のうち2人以上のそれぞれを追尾対象とし、ユーザが複数の追尾対象者のなかから映像の配信を希望する追尾対象者を選択し、選択した映像がユーザに配信される追尾サービスの提供が進められている。追尾対象者が複数の場合、追尾対象者ごとに追尾用撮影装置およびカメラマンを配置すると、追尾対象者の数に応じたカメラマンの人件費を要することになる。このため、このような追尾サービスの普及のために、自動追尾により人件費が抑制されることが望ましい。
 一方、例えば、グループのコンサートなどでは、グループのメンバー全体がステージ上で様々な位置に移動する。このため、例えば、グループの各メンバーを追尾対象者とする場合、追尾対象者自体の位置が同一であっても、グループ内の他のメンバーとの相対的な関係によっては、追尾用撮影装置における適切な制御パラメータが異なることも考えられる。特許文献1には、自動追尾の技術が開示されているが、定められた一人の追尾対象者の位置に応じて制御パラメータが決定されており、他の出演者との相対的な関係については考慮されていない。このため、特許文献1に記載の技術では、追尾対象者が複数存在する場合に、追尾用撮影装置の制御パラメータを適切に決定することができないという問題があった。
 本開示は、上記に鑑みてなされたものであって、追尾対象者が複数存在する場合に、追尾用撮影装置の制御パラメータを適切に決定することができる制御装置を得ることを目的とする。
 上述した課題を解決し、目的を達成するために、本開示にかかる制御装置は、撮影方向および撮影画角が調整可能な1つ以上の追尾用撮影装置を制御する制御装置であって、イベントの出演者である複数の追尾対象者のそれぞれの位置に関する情報である位置関連情報を用いて、追尾対象者ごとに、当該追尾対象者を判断対象者とし、イベントの他の出演者の位置と判断対象者の位置とに応じた撮影画角の調整量である画角調整量を決定する画角判断部と、を備える。
 本開示にかかる制御装置は、追尾対象者が複数存在する場合に、追尾用撮影装置の制御パラメータを適切に決定することができるという効果を奏する。
実施の形態1にかかる撮影システムの構成例を示す図 実施の形態1の撮影システムにおける動作の一例を示すシーケンス図 実施の形態1の制御装置における追尾用撮影装置の制御処理手順の一例を示すフローチャート 実施の形態1の画像情報の一例を示す図 実施の形態1の撮影装置情報の一例を示す図 実施の形態1の領域の種別の一例を示す図 グループのメンバーがステージ全体に広がっている場合の実施の形態1の全体映像の一例を示す図 グループのメンバーが端付近に集まっている場合の実施の形態1の全体映像の一例を示す図 実施の形態1における画角調整規則の一例を示す図 実施の形態1の制御装置を実現するコンピュータシステムの構成例を示す図 実施の形態1にかかる変形例1の撮影システムの構成例を示す図 実施の形態1の変形例1における追尾対象者の配置の一例を示す図 実施の形態1にかかる変形例2の撮影システムの構成例を示す図 実施の形態1の行程表の一例を示す図 実施の形態2の領域判断部の構成例を示す図 ニューラルネットワークの一例を示す模式図 実施の形態2にかかる変形例1の画角判断部の構成例を示す図 実施の形態2にかかる変形例2の領域判断部の構成例を示す図 実施の形態2の変形例2におけるイベント会場情報の一例を示す図 実施の形態2にかかる変形例3の領域判断部の構成例を示す図 実施の形態2の変形例3におけるイベント内容情報の一例を示す図
 以下に、実施の形態にかかる制御装置、撮影システムおよび追尾制御方法を図面に基づいて詳細に説明する。
実施の形態1.
 図1は、実施の形態1にかかる撮影システムの構成例を示す図である。本実施の形態の撮影システム100は、制御装置1および追尾用撮影装置5-1~5-Nを備える。Nは2以上の整数である。撮影システム100は、イベントに出演する出演者のうち複数の追尾対象者をそれぞれ追尾した追尾映像を取得可能である。撮影システム100は、配信事業者装置2へ追尾対象者ごとの映像を送信する。ユーザ端末3は、複数の追尾対象者のうちユーザによって選択された追尾対象者の追尾映像を、配信事業者装置2から受信する。これにより、ユーザは、複数の追尾対象者のうち選択した追尾対象者の追尾映像を、ユーザ端末3を用いて視聴することができる。なお、図1では、制御装置1が、配信事業者装置2を介してユーザ端末3に追尾映像を送信しているが、配信事業者装置2を介さずに、制御装置1がユーザ端末3に追尾映像を送信してもよい。また、図1では、ユーザ端末3を1台図示しているが、ユーザ端末3の数は図1に示した例に限定されない。
 本実施の形態の撮影システム100は、上述したように、複数の追尾対象者のそれぞれを追尾した追尾映像を取得可能である。追尾対象者は、例えば、コンサート、演劇などのイベントにおける出演者である。追尾対象者は、イベントの出演者の全てであってもよく一部であってもよい。例えば、アイドルグループなどのグループのコンサートにおいては、グループのメンバーのそれぞれを追尾対象者とし、バックダンサーなどの他の出演者は追尾対象者に含めないようにしてもよい。また、グループのメンバーについても、グループのメンバー全員を追尾対象者としてもよいし、一部のメンバーを追尾対象者としてもよい。
 追尾用撮影装置5-1~5-Nは、撮影方向および撮影画角(以下、画角と略す)が調整可能な1つ以上の追尾用撮影装置の一例であり、複数の追尾対象者のそれぞれを撮影することにより追尾映像を取得する。なお、追尾用撮影装置5-1~5-Nは、光学的に画角を調整してもよいし、追尾用撮影装置5-1~5-Nによって取得された追尾映像が制御装置1によってクリッピングされることにより画角が調整されてもよい。なお、ここでは、追尾用撮影装置5-1~5-Nの画角が調整可能であるとは、追尾用撮影装置5-1~5-Nによって取得された追尾映像が制御装置1によってクリッピングされる場合も含むとする。なお、図1では、追尾用撮影装置5-1の構成を図示しているが、追尾用撮影装置5-2~5-Nの構成は追尾用撮影装置5-1と同様である。以下、追尾用撮影装置5-1~5-Nのそれぞれを個別に区別せずに示すときには、追尾用撮影装置5と記載する。追尾用撮影装置5は、追尾対象者と1対1に対応していてもよいし、複数の対象者を1つの追尾用撮影装置5により追尾してもよいし、複数の追尾用撮影装置5を用いて1人の追尾対象者を追尾してもよい。複数の対象者を1つの追尾用撮影装置5により追尾する場合には、例えば、複数の対象者全員が映像に含まれるように設定してもよいし、時分割で追尾対象者を設定してもよい。以下では、追尾用撮影装置5が、追尾対象者と1対1に対応して設けられる例を説明するが、上述したように、追尾用撮影装置5は追尾対象者と1対1に対応していなくてもよい。
 追尾用撮影装置5は、図1に示すように、映像送信部51、撮影部52、追尾駆動部53および画角駆動部54を備える。撮影部52は、撮影を行うことで映像を取得し、映像送信部51へ出力する。追尾駆動部53は撮影部52の撮影方向を変更する駆動部であり、制御装置1からの指示に基づいて、パン、チルトを制御することができる。画角駆動部54は、撮影部52の画角を変更する駆動部であり、制御装置1からの指示に基づいて、画角を制御することができる。映像送信部51は、撮影部52により取得された映像を制御装置1へ送信する。なお、映像送信部51は、図示しない通信装置を介して映像を制御装置1へ送信してもよい。
 全体用撮影装置4は、イベントの全体映像を取得することが可能な撮影装置である。全体映像とは、例えば、複数の追尾対象者の全体が含まれる映像、あるいは出演者の全体が含まれる映像である。全体映像は、複数の追尾対象者のそれぞれの位置に関する情報である位置関連情報の一例である。全体映像は、イベントのステージ全体が撮影された映像であってもよい。全体用撮影装置4は、全体映像を撮影する撮影部41と、撮影部41によって撮影された全体映像を制御装置1へ送信する映像送信部42とを備える。なお、全体用撮影装置4は図示しない通信装置を介して、全体映像を制御装置1へ送信してもよい。
 制御装置1は、全体用撮影装置4によって取得された全体映像を用いて、追尾用撮影装置5の撮影方向の調整量である撮影方向調整量を決定し、全体映像を用いて追尾対象者が存在する領域の種別を判断し、判断した種別を用いて画角の調整量である画角調整量を決定する。そして、制御装置1は、決定した撮影方向調整量および画角調整量を追尾用撮影装置5へ指示する。領域の種別は、イベントにおける当該領域の注目度に対応し、例えば、複数の追尾対象者の位置に応じて定められる。領域の種別は、例えば、センター、端、中間などの種別である。追尾対象者がこれらの領域の種別のうちどの種別の領域に位置するかにより、適切な画角が異なる場合がある。また、複数の追尾対象者をグループのメンバーであるとすると、各領域の大きさと領域の種別とはステージ上の位置に対して固定とは限らず、メンバー全員の移動などにより変わる可能性がある。本実施の形態では、制御装置1が、全体映像を用いて、イベントの他の出演者の位置または複数の追尾対象者の位置に応じて、領域の種別を決定し、追尾対象者がどの種別の領域に位置するかに応じて画角調整量を決定する。これにより、追尾用撮影装置5は、全体映像における追尾対象者の位置に応じて追尾対象者を追尾するだけでなく、追尾対象者が存在する領域の種別に応じて画角を調整することができる。
 制御装置1は、図1に示すように、イベント情報取得部11、追尾対象者情報通知部12、画像情報取得部13、追尾対象者検出部14、領域判断部15、画角調整規則記憶部16、追尾制御部17、撮影装置情報記憶部18、画角制御部19、映像送信部20、全体映像取得部21および追尾映像取得部22を備える。
 イベント情報取得部11は、撮影対象のイベントに関する情報であるイベント情報を取得する。イベント情報は、イベントに出演する出演者のうちの追尾対象者を示す追尾対象者情報と、各追尾対象者の画像を含む画像情報と、を含む。また、イベント情報は、イベントにおける行程を示す行程表を含んでいてもよい。追尾対象者情報は、例えば、追尾対象者の芸名、愛称などであってもよいし、芸名、愛称などが追尾対象者に付与される識別番号と対応付けられたものであってもよい。芸名、愛称などと識別番号とは、いずれも追尾対象者を識別する識別情報である。画像情報は、追尾対象者の識別情報と、対応する追尾対象者の画像とが対応付けられた情報である。イベント情報取得部11は、オペレータから入力を受け付けることでイベント情報を取得してもよいし、配信事業者装置2または図示しない他の装置から送信されたイベント情報を受信することでイベント情報を取得してもよい。イベント情報取得部11は、イベント情報のうち追尾対象者情報を追尾対象者情報通知部12へ出力し、画像情報を画像情報取得部13へ出力する。
 追尾対象者情報通知部12は、追尾対象者情報を配信事業者装置2へ通知する。画像情報取得部13は、イベント情報取得部11から受け取った画像情報を追尾対象者検出部14および領域判断部15へ出力する。なお、ここでは、画像情報がイベント情報に含まれる例を説明するが、イベント情報に画像情報が含まれない場合は、画像情報取得部13が、オペレータから入力を受け付けることで画像情報を取得してもよいし、配信事業者装置2または図示しない他の装置から送信された画像情報を受信することで画像情報を取得してもよい。
 全体映像取得部21は、全体用撮影装置4から全体映像を受信することで全体映像を取得し、取得した全体映像を、映像送信部20、追尾対象者検出部14および領域判断部15へ出力する。
 追尾対象者検出部14は、全体映像取得部21から受け取った全体映像と、画像情報取得部13から受け取った画像情報とを用いて、追尾対象者ごとに、全体映像における追尾対象者を検出し、追尾対象者の全体映像における位置を算出し、算出した位置を追尾制御部17へ出力する。また、追尾対象者検出部14は、画像情報を追尾制御部17へ出力する。詳細には、追尾対象者検出部14は、追尾対象者ごとに、当該追尾対象者の画像を用いて画像認識処理により全体映像から追尾対象者を検出し、検出した追尾対象者の全体映像における位置を算出する。全体映像における位置は、例えば、全体映像の基準位置をあらかじめ定めておき基準位置からの横(X方向)と縦(Y方向)との距離または画素数により表わされる。
 撮影装置情報記憶部18は、追尾対象者と追尾用撮影装置5との対応を示す撮影装置情報を記憶する。撮影装置情報は、図示しない入力手段によってオペレータから入力されて撮影装置情報記憶部18に記憶されてもよいし、図示しない他の装置から受信されて撮影装置情報記憶部18に記憶されてもよい。
 追尾制御部17は、全体映像および追尾映像を用いて、複数の追尾対象者のそれぞれに対応する追尾用撮影装置5の撮影方向の調整量である撮影方向調整量を決定し、決定した撮影方向調整量を対応する追尾用撮影装置5へ出力する。詳細には、追尾制御部17は、追尾用撮影装置5が追尾対象者を捉えていない場合すなわち追尾用撮影装置5の撮影範囲に追尾対象者が存在しない場合には、追尾対象者検出部14から受け取った追尾対象者の位置と、撮影装置情報記憶部18から読み出した撮影装置情報とを用いて、各追尾用撮影装置5の撮影方向調整量を算出し、算出した撮影方向調整量を対応する追尾用撮影装置5へ送信する。追尾制御部17は、追尾映像および画像情報を用いて、追尾用撮影装置5に対応する対象者が撮影範囲に入ったか、すなわち追尾対象者を捉えたかを判断し、追尾対象者を捉えた後は、追尾映像を用いて、対応する追尾対象者が例えば撮影範囲の中央となるように追尾用撮影装置5の撮影方向調整量を算出する。なお、ここでは、全体映像を用いて初期の撮影方向調整量を決定する例を説明したが、追尾用撮影装置5をパンニングさせて追尾対象者を捉える場合には、全体映像を用いる必要はない。撮影装置情報には、各追尾用撮影装置5のパン、チルトの調整量と、全体映像における位置との対応を示す情報である変換情報とが含まれているとする。追尾制御部17は、追尾用撮影装置5ごとに、撮影装置情報を用いて対応する追尾対象者を決定し、追尾用撮影装置5に対応する追尾対象者の位置と、撮影装置情報における追尾用撮影装置5に関する情報とを用いて、パン、チルトの調整量を撮影方向調整量として算出する。
 本実施の形態の領域判断部15および画角制御部19は、全体映像を用いて、追尾対象者ごとに、当該追尾対象者を判断対象者とし、イベントの他の出演者の位置と判断対象者の位置とに応じた撮影画角の調整量である画角調整量を決定し、決定した画角調整量を判断対象者に対応する画角判断部を構成する。なお、撮影画角の調整は、光学的な画角の調整とクリッピングによる調整とのうちの少なくとも一方である。撮影画角の調整量は、光学的な画角の調整量であってもよいし、クリッピングの調整量であってもよい。画角制御部19は、イベントの他の出演者の位置または複数の追尾対象者の位置と、判断対象者の位置とに応じた撮影画角の調整量である画角調整量を決定してもよい。
 領域判断部15は、全体映像を用いて、追尾対象者ごとに、当該追尾対象者を判断対象者とし、イベントの他の出演者の位置、あるいは複数の追尾対象者の位置と、判断対象者の位置とに応じて、判断対象者が存在する領域の種別を判断する。詳細には、領域判断部15は、全体映像取得部21から受け取った全体映像と、画像情報取得部13から受け取った画像情報とを用いて、複数の追尾対象者の位置を検出し、検出した位置を用いて、全体映像を領域に区分し、区分した領域の種別を決定し、追尾対象者ごとに、追尾対象者である判断対象者が存在する領域の種別を判断する。領域判断部15の処理の詳細については後述する。領域判断部15は、追尾対象者ごとの、追尾対象者が存在する領域の種別を画角制御部19へ出力する。なお、追尾映像取得部22が追尾映像を領域判断部15にも出力するようにし、領域判断部15は、追尾用撮影装置5によって撮影された追尾映像(クリッピング前の追尾映像)を用いて、当該追尾用撮影装置5が追尾する追尾対象者を判断対象者とし、イベントの他の出演者の位置、あるいは複数の追尾対象者の位置と、判断対象者の位置とに応じて、判断対象者が存在する領域の種別を判断してもよい。すなわち、位置関連情報は、追尾映像であってもよい。
 画角調整規則記憶部16は、領域の種別と撮影画角の調整内容との対応を定めた画角調整規則を記憶する。画角調整規則は、図示しない入力手段によってオペレータから入力されて画角調整規則記憶部16に記憶されてもよいし、図示しない他の装置から受信されて画角調整規則記憶部16に記憶されてもよい。
 画角制御部19は、領域判断部15から受け取った判断対象者である追尾対象者が存在する領域の種別と、画角調整規則記憶部16から読み出した画角調整規則とを用いて、追尾対象者ごとに、領域判断部15から受け取った領域の種別に対応する画角調整の内容を決定する。すなわち、画角制御部19は、画角調整規則に従って、領域判断部15によって判断された判断対象者が存在する領域の種別に対応する撮影画角の調整内容を決定する。画角制御部19は、決定した画角調整の内容と、撮影装置情報記憶部18から読み出した撮影装置情報と、を用いて追尾用撮影装置5ごとに画角調整量を決定し、決定した画角調整量を対応する追尾用撮影装置5へ送信する。なお、クリッピングにより画角が調整される場合には、画角制御部19は、決定した画角調整量を映像送信部20へ指示する。
 追尾映像取得部22は、追尾用撮影装置5から追尾映像を受信し、受信した追尾映像を映像送信部20および追尾制御部17へ出力する。映像送信部20は、全体映像取得部21から受け取った全体映像と、追尾映像取得部22から受け取った追尾映像とを配信事業者装置2へ送信する。なお、ここでは、追尾映像だけでなく全体映像も配信事業者装置2へ送信される例を説明するが、全体映像は配信事業者装置2へ送信されなくてもよい。なお、クリッピングにより画角が調整される場合には、追尾用撮影装置5は取得した追尾画像(クリッピング前の追尾画像)を、映像送信部20へ送信し、映像送信部20が、追尾制御装置17からの指示に基づいてクリッピングを行い、クリッピング後の追尾映像を配信事業者装置2へ送信する。
 配信事業者装置2は、制御装置1から受信した追尾対象者情報をユーザ端末3へ送信する。また、配信事業者装置2は、ユーザ端末3から、ユーザが選択した追尾対象者の識別情報である追尾対象者識別情報を受信すると、制御装置1から受信した追尾映像のうち追尾対象者識別情報に対応する追尾映像をユーザ端末3へ送信する。また、配信事業者装置2は、全体映像についてもユーザ端末3へ送信してもよい。
 ユーザ端末3は、追尾対象者情報取得部31、選択受付部32、選択結果通知部33、映像出力部34および映像受信部35を備える。追尾対象者情報取得部31は、配信事業者装置2から追尾対象者情報を受信することで追尾対象者情報を取得し、取得した追尾対象者情報を選択受付部32へ出力する。選択受付部32は、表示機能と入力受付機能とを有し、追尾対象者情報によって示される複数の追尾対象者を表示し、ユーザに追尾対象者の選択を促す表示を行う。選択受付部32は、ユーザから追尾対象者の選択を受け付け、選択結果に対応する追尾対象者識別情報を選択結果通知部33へ出力する。選択結果通知部33は、選択結果である追尾対象者識別情報を配信事業者装置2へ送信する。
 映像受信部35は、配信事業者装置2から受信した追尾映像を映像出力部34へ出力する。映像出力部34は、映像受信部35から受け取った追尾映像を出力する。例えば、映像出力部34は、表示機能と音の出力機能とを有し、追尾映像を表示するとともに映像とともに送信される音データに応じて音を出力する。これにより、ユーザは、選択した追尾対象者の追尾映像を視聴することができる。
 次に、本実施の形態の動作について説明する。図2は、本実施の形態の撮影システム100における動作の一例を示すシーケンス図である。図2に示すように、全体用撮影装置4は、全体映像を制御装置1へ送信し(ステップS1)、各追尾用撮影装置5は追尾映像を制御装置1へ送信する(ステップS2)。図2では、記載を省略しているが、追尾用撮影装置5-1~5-Nのそれぞれが追尾映像を制御装置1へ送信する。また、図2では、追尾用撮影装置5-1から送信される追尾映像を追尾映像#1と記載し、追尾用撮影装置5-2から送信される追尾映像を追尾映像#2と記載している。なお、この時点では、各追尾用撮影装置5に制御装置1による撮影方向および画角の制御が行われていてもよいし、ステップS1,S2の前に、後述するステップS7からステップS10までが行われていてもよいし、また、ステップS1,S2は行われずに、ステップS3から処理が開始されてもよい。
 制御装置1は、追尾対象者情報を取得する(ステップS3)。詳細には、例えば、イベント情報取得部11がイベント情報を取得し、取得したイベント情報から追尾対象者情報を抽出することで、追尾対象者情報を取得する。
 制御装置1は、追尾対象者情報を配信事業者装置2へ送信し、配信事業者装置2は追尾対象者情報をユーザ端末3へ送信する(ステップS4)。ユーザ端末3は、追尾対象者を決定する(ステップS5)。詳細には、選択受付部32が、追尾対象者情報を表示し、ユーザから追尾対象者の選択を受け付けることにより追尾対象者を決定する。
 ユーザ端末3は、追尾対象者識別情報を配信事業者装置2へ送信する(ステップS6)。詳細には、選択受付部32が、ユーザにより選択された追尾対象者を示す追尾対象者識別情報を配信事業者装置2へ送信する。
 一方、制御装置1は、全体映像と識別情報とを用いて追尾用撮影装置5ごとの撮影方向調整量および画角調整量を算出し(ステップS7)、算出した撮影方向調整量および画角調整量を対応する追尾用撮影装置5へ送信する(ステップS8)。ステップS7およびステップS8の処理である制御装置1における追尾用撮影装置5の制御処理の詳細については後述する。
 追尾用撮影装置5-1~5-Nのそれぞれは、撮影方向調整量に応じて撮影の向きを制御し(ステップS9)、画角調整量に応じて画角を制御する(ステップS10)。追尾用撮影装置5-1~5-Nのそれぞれは、追尾映像を制御装置1へ送信し、制御装置1は、追尾用撮影装置5-1~5-Nから受信した追尾映像を配信事業者装置2へ送信する(ステップS11)。なお、ステップS2からステップS11までの間も追尾用撮影装置5-1~5-Nから追尾映像は送信されているが、図示を省略している。同様に、全体映像もステップS2以降でも送信されている。
 配信事業者装置2は、制御装置1から受信した追尾映像のうち、ユーザ端末3からステップS6で受信した追尾対象者識別情報に対応する追尾映像をユーザ端末3へ送信する(ステップS12)。なお、ここでは、ユーザが追尾映像#2に対応する追尾対象者を選択した例を示しているため、ステップS12では、追尾映像#2がユーザ端末3に送信される。配信事業者装置2は、複数のユーザ端末3から、追尾対象者識別情報を受信した場合は、ユーザ端末3ごとに、追尾対象者識別情報に対応する追尾映像を送信する。以降、例えば、ステップS7~S10が周期的に行われ、追尾対象者の位置に応じた制御が行われる。これにより、追尾対象者を追尾した追尾映像がユーザ端末3に提供される。
 次に、制御装置1における追尾用撮影装置5の制御処理について説明する。図3は、本実施の形態の制御装置1における追尾用撮影装置5の制御処理手順の一例を示すフローチャートである。図3に示すように、制御装置1は、調整タイミングであるか否かを判断する(ステップS21)。例えば、あらかじめ定められた制御周期ごとに撮影方向調整量および画角調整量を算出する場合、制御装置1の追尾対象者検出部14が、1制御周期が経過するごとに調整タイミングであると判断する。
 調整タイミングでない場合(ステップS21 No)、制御装置1はステップS21を繰り返す。調整タイミングである場合(ステップS21 Yes)、制御装置1は追尾対象者を設定する(ステップS22)。詳細には、追尾対象者検出部14が、全ての追尾対象者のうちの任意の一人を追尾対象者に設定する。
 次に、制御装置1は、全体映像から画像情報を用いて追尾対象者を検出する(ステップS23)。詳細には、追尾対象者検出部14が、全体映像取得部21から受け取った全体映像と、画像情報取得部13から受け取った画像情報に含まれる追尾対象者の画像とを用いて画像認識処理により全体映像から追尾対象者を検出し、検出した追尾対象者の全体映像における位置を算出する。追尾対象者検出部14は、算出した位置を追尾対象者識別情報とともに、追尾制御部17および領域判断部15へ出力する。図4は、本実施の形態の画像情報の一例を示す図である。画像情報は、例えば、図4に示すように、追尾対象者ごとの画像を含む。図4に示した例では、追尾対象者の数はM(Mは2以上の整数)であり、出演者#1、出演者#Mは、追尾対象者識別情報である。
 図3の説明に戻る。ステップS23の後、制御装置1は、追尾対象者と追尾用撮影装置5との対応を示す撮影装置情報に基づき、追尾対象者を追尾する追尾用撮影装置5を特定する(ステップS24)。詳細には、追尾制御部17が、撮影装置情報記憶部18から読み出した撮影装置情報を用いて、ステップS22で設定された追尾対象者を追尾する追尾用撮影装置5を特定する。図5は、本実施の形態の撮影装置情報の一例を示す図である。図5に示すように、撮影装置情報は、追尾対象者と追尾用撮影装置5との対応を示す情報である。また、撮影装置情報には、図示を省略するが上述したように、各追尾用撮影装置5のパン、チルトの調整量と、全体映像における位置との対応を示す情報である変換情報が含まれている。
 図3の説明に戻る。ステップS24の後、制御装置1は、追尾映像および全体映像における追尾対象者の位置に基づいて、追尾対象者の出演者を追尾する追尾用撮影装置5の撮影方向調整量を算出する(ステップS25)。詳細には、追尾制御部17は、追尾用撮影装置5が追尾対象者を捉えていない場合には、追尾対象者検出部14から受け取った追尾対象者の位置と、撮影装置情報に含まれる変換情報とを用いて追尾対象者の出演者を追尾する追尾用撮影装置5の撮影方向調整量を算出する。追尾用撮影装置5が追尾対象者を捉えている場合には、追尾制御部17は、追尾映像における追尾対象者の位置に基づいて追尾対象者を追尾する追尾用撮影装置5の撮影方向調整量を算出する。上述したように、追尾用撮影装置5がパンニングする場合には、撮影方向調整量の算出に全体映像が用いられてなくてもよい。
 次に、制御装置1は、追尾対象者の出演者を追尾する追尾用撮影装置5へ撮影方向調整量を指示する(ステップS26)。詳細には、追尾制御部17が、ステップS25で算出した撮影方向調整量をステップS24で特定した追尾用撮影装置5へ送信する。
 次に、制御装置1は、全体映像における追尾対象者の位置に基づいて、追尾対象者の出演者の存在する領域の種別を判断する(ステップS27)。ここで、本実施の形態における領域の種別について説明する。領域の種別は、例えば、イベントにおける注目度を示す。
 図6は、本実施の形態の領域の種別の一例を示す図である。図6は、イベントのステージ全体を正面から撮影した全体映像の例を示している。図6に示した例では、領域の種別は、センター、中間、端であり、中央に位置する領域201の種別がセンター、端に位置する領域202が端、端とセンターの間に位置する領域の種別が中間と判断されている。この場合、例えば、センター、中間、端の各種別に対応する領域の注目度は、センターが最も高く、次に中間の注目度が高く、端の注目度が最も低い。各領域の種別の注目度の高さは、イベントによって異なることがあり、ステージにおける位置と注目度との対応はこの例に限定されず、イベントの内容などに応じてあらかじめ定められていればよい。
 例えば、ある追尾対象者の追尾映像を視聴するユーザにとって、当該追尾対象者がセンター、中間、端のいずれの領域に位置するかにより、追尾対象者を撮影する際の適切な画角が異なることが想定される。例えば、追尾対象者がセンターの領域201に存在するときには、センターであることがわかるようにある程度広い範囲まで撮影されることが好ましく、また追尾対象者が端の領域202に存在する場合には、追尾対象者を大きく撮影することが好ましいといったことが考えられる。したがって、領域の種別は、設定する画角に応じた種別ということもできる。なお、領域の種別と画角との関係はこの例に限定されない。
 一方、イベントにおいては、複数の追尾対象者である複数の出演者の位置は固定ではなく変化する場合がある。例えば、ステージ上にグループのメンバー全員が広がっている場合と、ステージの端付近にグループのメンバー全員が集まっている場合とでは、例えば、ステージの全体位置としての中央付近における注目度の高さが異なる。
 図7は、グループのメンバーがステージ全体に広がっている場合の本実施の形態の全体映像の一例を示す図である。図8は、グループのメンバーが端付近に集まっている場合の本実施の形態の全体映像の一例を示す図である。図7および図8では、グループのメンバーがそれぞれ追尾対象者300である例を示しており、300の符号を付した図形と同一の形状の図形であり符号を省略した図形も追尾対象者300である。図7および図8では、複数の追尾対象者300のそれぞれの全体映像における横方向(左右方向)の位置の座標値をもとに、各追尾対象者300の質量を同一と仮定して算出した場合の左右方向における重心の位置を示す線を重心301として示している。図7に示した例では、重心301は、全体映像の中央付近であるが、図8に示した例では、複数の追尾対象者300が全体映像における中央より左側に集まっているため、重心301も左端に近い位置となっている。
 図7に示した複数の追尾対象者300の配置では、全体映像の中央付近である領域201の種別を最も注目度の高いセンターとする。一方、図8に示した複数の追尾対象者300の配置では、全体映像における中央付近には追尾対象者300が存在せず中央付近の注目度は低くなり、重心301に近い部分の注目度が高くなる。このため、図8に示した例では、領域201の種別を最も注目度の高いセンターとする。
 具体的には、例えば、領域判断部15が、全体映像取得部21から受け取った全体映像と、画像情報取得部13から受け取った画像情報とを用いて、全体映像における複数の追尾対象者300を検出し、検出した複数の追尾対象者300のそれぞれの全体映像における位置の左右方向における座標値を算出する。そして、領域判断部15が、複数の追尾対象者300の左右方向における座標値を用いて左右方向の重心を算出し、重心を含み定められた数の追尾対象者300を含む領域を、センターに対応する領域に決定する。例えば、図7および図8に示した例では、追尾対象者300が2人含まれる領域をセンターとしている。図7および図8に示した例では、領域の種別をセンターとセンター以外との2種類としており、領域201以外の領域の種別をセンター以外としている。また、領域判断部15は、これに限らず、図6の例と同様に、センター以外の領域を端および中間の領域に分割してもよい。センター以外の領域を端および中間の領域に分ける場合も、同様に、例えば端の領域内の追尾対象者300の数をあらかじめ定めておくことで、領域判断部15が、端の領域を決定し、端でもセンターでもない領域を中間の領域とする。なお、端は左右の両側に存在するため、例えば、1つの端の領域あたりの追尾対象者300の数をあらかじめ定めておく。全体映像における出演者を検出し、上記と同様に領域を判断してもよい。以上述べた例は一例であり、領域の種別の数、領域の決定方法は上述した例に限定されない。
 上記のように、全体映像における各領域の種別を決定すると、領域判断部15は、設定されている追尾対象者が存在する領域がどの種別の領域であるかを判断し、判断した結果を画角制御部19へ通知する。例えば、図7に示した例において、設定されている追尾対象者が左から3番目の追尾対象者300である場合には、左から3番目の追尾対象者300はセンターに対応する領域201に位置しているため、領域判断部15は、設定されている追尾対象者に対応する領域の種別をセンターと判断する。また、領域判断部15は、センターの領域に追尾対象者が存在する場合であっても、追尾対象者が最前列ではないと判断される場合には、例えば、中間の領域に存在すると判定してもよい。例えば、領域判断部15は、全体映像を解析することにより、追尾対象者の一部が別の追尾対象者により隠れていると判断した場合に、追尾対象者が最前列ではないと判断する。最前列か否かの判断方法はこの例に限定されない。
 また、上述した例では、複数の追尾対象者300の重心301をもとに、領域の種別を決定したが、例えば、複数の追尾対象者300がランダムに広がっていたり、複数の追尾対象者300が移動中であったりといったように、複数の追尾対象者300の配置が、注目度を定義できない状態である場合もある。このため、領域判断部15は、複数の追尾対象者300の全体映像における配置が、例えば左右対象でない場合にはランダムまたは移動中であると判断するといったように、ランダムまたは移動中と判断するための規則を定めておく。そして、領域判断部15は、規則に基づいて、ランダムまたは移動中と判断した場合には、全体映像の全領域を、その他の種別の領域と判断してもよい。
 図3の説明に戻る。ステップS27の後、制御装置1は、画角調整規則を用いて、判断した領域の種別に応じた画角調整量を算出する(ステップS28)。詳細には、画角制御部19が、画角調整規則記憶部16に記憶されている画角調整規則を参照し、領域判断部15から通知された判断結果である領域の種別に対応する画角調整内容を決定する。
 図9は、本実施の形態における画角調整規則の一例を示す図である。図9に示すように、画角調整規則は、領域の種別ごとの、画角調整の内容を示す情報を含む。図9に示した例では、領域の種別をセンター、端、中間、その他の4種類としているが、種別の数および種別の内容はこの例に限定されず、どのような場合に画角を変更するかに応じて決定されればよい。図9に示した例では、設定された追尾対象者がセンターの領域に位置する場合に、画角を広角#1に設定し、設定された追尾対象者が端の領域に位置する場合に、追尾対象者の顔へズームするすなわち追尾対象者の顔を拡大して撮影するように画角を設定する。また、図9に示した例では、設定された追尾対象者が中間の領域に位置する場合に、画角を広角#2に設定し、設定された追尾対象者がその他の領域に位置する場合に、グループ全員を撮影するように画角を設定する。
 広角#1と広角#2は、いずれも広角ではあるが、画角が異なっていてもよい。例えば、広角#1は、追尾対象者を中心に数人が含まれる画角、すなわち追尾対象者がセンターに位置することがわかる程度の画角とし、広角#2は、例えば、追尾対象者の全身が含まれるような画角とする。また、図9は、一例であり、これに限らず、画角調整の内容は、イベントの内容などに応じて設定されればよく、例えば、プロのカメラマンなどの有識者から、追尾対象者が各種別の領域に存在する場合にどのような画角調整を行うかの情報をあらかじめ取得して画角調整の内容を決定してもよいし、ユーザによるアンケートなどによりあらかじめ決定してもよい。画角調整規則の決定方法はこの例に限定されない。また、上記の例では、領域の種別に応じて画角を設定する例を説明したが、画角以外の追尾用撮影装置5における制御パラメータを、追尾対象者が存在する領域の種別に応じて決定するようにしてもよい。
 画角制御部19は、画角調整内容を決定した後、全体映像における追尾対象者の大きさ、顔の位置などに応じて、決定した画角調整内容に対応した画角調整量を算出する。
 図3の説明に戻る。ステップS28の後、制御装置1は、追尾対象者の出演者を追尾する追尾用撮影装置5へ画角調整量を指示する(ステップS29)。詳細には、画角制御部19が、撮影装置情報記憶部18から読み出した撮影装置情報を用いて、ステップS22で設定された追尾対象者を追尾する追尾用撮影装置5を特定し、特定した追尾用撮影装置5へステップS28で決定した画角調整量を送信する。なお、ここでは、追尾制御部17および画角制御部19がそれぞれ撮影装置情報を参照して、設定された追尾対象者を追尾する追尾用撮影装置5を特定するようにしたが、追尾対象者検出部14が撮影装置情報を参照して、設定された追尾対象者を追尾する追尾用撮影装置5を特定し、特定した追尾用撮影装置5を追尾制御部17および画角制御部19へ通知してもよい。または、追尾対象者検出部14が、ステップS24で特定した結果を、画角制御部19へ通知してもよい。
 次に、制御装置1は、全追尾対象者を設定済であるか否かを判断し(ステップS30)、全追尾対象者を設定済である場合(ステップS30 Yes)、制御装置1はステップS21からの処理を繰り返す。ステップS30では、詳細には、追尾対象者検出部14が、全追尾対象者に関して、ステップS22の設定が行われたか否かを判断する。全追尾対象者を設定済でない場合(ステップS30 No)、すなわち、全追尾対象者のうち、ステップS22で設定されていない追尾対象者が存在する場合、制御装置1は、設定する追尾対象者を変更し(ステップS31)、ステップS23からの処理を繰り返す。ステップS31では、追尾対象者検出部14は、設定されていない追尾対象者のなかから任意の追尾対象者を選択し、選択した追尾対象者を設定の対象とすることで、設定する追尾対象者を変更する。
 以上の処理により、複数の追尾対象者の位置に応じて領域の種別が決定され、追尾対象者が存在する領域の種別に応じて画角が調整される。これにより、制御装置1は、追尾対象者が複数存在する場合に、追尾用撮影装置5の制御パラメータを適切に決定することができる。
 次に、本実施の形態の制御装置1のハードウェア構成について説明する。本実施の形態の制御装置1は、コンピュータシステム上で、制御装置1における処理が記述されたコンピュータプログラムであるプログラムが実行されることにより、コンピュータシステムが制御装置1として機能する。図10は、本実施の形態の制御装置1を実現するコンピュータシステムの構成例を示す図である。図10に示すように、このコンピュータシステムは、制御部101と入力部102と記憶部103と表示部104と通信部105と出力部106とを備え、これらはシステムバス107を介して接続されている。
 図10において、制御部101は、例えば、CPU(Central Processing Unit)等のプロセッサであり、本実施の形態の制御装置1における処理が記述されたプログラムを実行する。なお、制御部101の一部が、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの専用ハードウェアにより実現されてもよい。入力部102は、たとえばキーボード、マウスなどで構成され、コンピュータシステムの使用者が、各種情報の入力を行うために使用する。記憶部103は、RAM(Random Access Memory),ROM(Read Only Memory)などの各種メモリおよびハードディスクなどのストレージデバイスを含み、上記制御部101が実行すべきプログラム、処理の過程で得られた必要なデータ、などを記憶する。また、記憶部103は、プログラムの一時的な記憶領域としても使用される。表示部104は、ディスプレイ、LCD(液晶表示パネル)などで構成され、コンピュータシステムの使用者に対して各種画面を表示する。通信部105は、通信処理を実施する受信機および送信機である。出力部106は、プリンタ、スピーカなどである。なお、図10は、一例であり、コンピュータシステムの構成は図10の例に限定されない。
 ここで、本実施の形態のプログラムが実行可能な状態になるまでのコンピュータシステムの動作例について説明する。上述した構成をとるコンピュータシステムには、たとえば、図示しないCD(Compact Disc)-ROMドライブまたはDVD(Digital Versatile Disc)-ROMドライブにセットされたCD-ROMまたはDVD-ROMから、コンピュータプログラムが記憶部103にインストールされる。そして、プログラムの実行時に、記憶部103から読み出されたプログラムが記憶部103の主記憶領域に格納される。この状態で、制御部101は、記憶部103に格納されたプログラムに従って、本実施の形態の制御装置1としての処理を実行する。
 なお、上記の説明においては、CD-ROMまたはDVD-ROMを記録媒体として、制御装置1における処理を記述したプログラムを提供しているが、これに限らず、コンピュータシステムの構成、提供するプログラムの容量などに応じて、たとえば、通信部105を経由してインターネットなどの伝送媒体により提供されたプログラムを用いることとしてもよい。
 図1に示した画像情報取得部13、追尾対象者検出部14、領域判断部15、追尾制御部17および画角制御部19は、図10に示した記憶部103に記憶されたコンピュータプログラムが図10に示した制御部101により実行されることにより実現される。画像情報取得部13、追尾対象者検出部14、領域判断部15、追尾制御部17および画角制御部19の実現には、記憶部103も用いられる。図1に示した画角調整規則記憶部16および撮影装置情報記憶部18は、記憶部103の一部である。図1に示したイベント情報取得部11、追尾対象者情報通知部12、映像送信部20、全体映像取得部21および追尾映像取得部22は、図10に示した通信部105により実現される。イベント情報取得部11、追尾対象者情報通知部12、映像送信部20、全体映像取得部21および追尾映像取得部22の実現には制御部101も用いられる。また、イベント情報取得部11および画像情報取得部13には、入力部102も用いられてもよい。また、制御装置1は複数のコンピュータシステムにより実現されてもよい。例えば、制御装置1は、クラウドコンピュータシステムにより実現されてもよい。
 また、図1では、制御装置1が追尾映像、全体映像などの映像を配信事業者装置2へ送信したが、配信事業者装置2へ映像を配信する映像提供装置を、制御装置1とは別に設けてもよい。この場合、追尾用撮影装置5によって取得された追尾映像は映像提供装置を介して配信事業者装置2へ送信され、制御装置1は追尾映像を追尾用撮影装置5から取得しなくてもよい。なお、この場合も制御装置1は、全体映像については、全体用撮影装置4から取得する。全体映像を配信事業者装置2へ送信する場合には、例えば、映像提供装置が全体用撮影装置4から全体映像を取得し、制御装置1へ送信してもよいし、全体用撮影装置4が映像提供装置および制御装置1に全体映像を送信してもよい。
 配信事業者装置2も、同様に、例えば、図10に示した構成のコンピュータシステムにより実現される。ユーザ端末3も、同様に、例えば、図10に示した構成のコンピュータシステムにより実現される。図1に示した追尾対象者情報取得部31、選択結果通知部33および映像受信部35は、図10に示した通信部105により実現される。図1に示した選択受付部32は、図10に示した制御部101、入力部102および表示部104により実現される。図1に示した映像出力部34は、表示部104および、スピーカである出力部106により実現される。ユーザ端末3は、スマートフォンの端末であってもよいし、テレビなどであってもよく、ゲーム機とテレビの組み合わせなどであってもよい。
<変形例1>
 次に、変形例1の撮影システムについて説明する。図11は、本実施の形態にかかる変形例1の撮影システムの構成例を示す図である。図11に示した撮影システム100aは、制御装置1の代わりに制御装置1aを備える以外は、図1に示した撮影システム100と同様である。図1に示した撮影システム100と同様の機能を有する構成要素は図1と同一の符号を付して重複する説明を省略する。
 制御装置1aは、タグ通信部23を追加し、領域判断部15の代わりに領域判断部15aを備える以外は、図1に示した制御装置1と同様である。変形例1では、追尾対象者はそれぞれ無線信号を送信可能なBLE(Bluetooth(登録商標) Low Energy)端末、またはRFID(Radio Frequency IDentifier)タグなどを身に着ける。タグ通信部23は、各追尾対象者に対応するBLE端末あるいはタグと通信を行い、BLE端末あるいはタグから追尾対象者の例えばステージの左右方向と奥行き方向の2次元、あるいは高さ方向を加えた3次元の位置を示す位置情報を取得する。タグ通信部23は、位置情報を追尾対象者識別情報と対応付けて領域判断部15aへ出力する。また、変形例1では、イベント情報取得部11が取得するイベント情報にはイベントの会場の配置位置を示すイベント会場情報を含む。イベント情報取得部11は、イベント会場情報を領域判断部15aへ出力する。イベント会場情報は、例えば、イベントにおけるステージの範囲を座標値で示した情報である。本実施の形態では、位置関連情報は、複数の追尾対象者のそれぞれの2次元または3次元の位置を示す位置情報である。
 領域判断部15aは、タグ通信部23から受け取った2次元または3次元の位置情報と、イベント情報取得部11から受け取ったイベント会場情報とを用いて、領域を区分して各領域の種別を決定する。イベント会場情報におけるステージの範囲を示す座標値が、タグ通信部23から受け取った2次元または3次元の位置情報と異なる座標系で示されている場合には、いずれかを座標変換することで同じ座標系における値とする。そして、領域判断部15aは、タグ通信部23から受け取った2次元または3次元の位置情報を、ステージの左右方向と奥行き方向とをそれぞれX、Yとする座標系の座標値に変換する。領域判断部15aは、このXYの2次元平面における各追尾対象者の座標値を用いて、上述した図1の制御装置1と同様に、左右方向の重心を求め、重心に基づいて領域に区分し、各領域の種別を決定することができる。または、左右方向における追尾対象者の位置だけでなく、奥行方向の追尾対象者の位置も考慮して各領域の種別を決定してもよい。
 図12は、本実施の形態の変形例1における追尾対象者の配置の一例を示す図である。図12では、横方向はイベントの会場のステージの左右方向を示し、縦方向はステージの奥行を示している。したがって、図12は、追尾対象者300を上からみた図に相当する。領域判断部15aは、このような2次元平面における各追尾対象者の座標値を用いて、例えば、左右方向における重心の付近の最前列の領域である領域201の種別をセンターとし、領域201の左右の両脇と2列目の全体の領域203の種別を中間とし、最後列の領域204の種別を最後列、あるいは端とする。このように、領域判断部15aは、奥行方向も考慮して各領域の種別を決定してもよい。変形例1においても、各領域の種別と画角調整内容とは画角調整規則として画角調整規則記憶部16に記憶されている。以上述べた以外の変形例1の撮影システム100aの動作は、図1に示した撮影システム100の動作と同様である。変形例1の撮影システム100aは、実施の形態1と同様の効果を奏するとともに、奥行に応じた画角の調整も行うことができる。
<変形例2>
 次に、変形例2の撮影システムについて説明する。図13は、本実施の形態にかかる変形例2の撮影システムの構成例を示す図である。図13に示した撮影システム100bは、制御装置1の代わりに制御装置1bを備える以外は、図1に示した撮影システム100と同様である。図1に示した撮影システム100と同様の機能を有する構成要素は図1と同一の符号を付して重複する説明を省略する。
 制御装置1bは、領域判断部15の代わりに領域判断部15bを備える以外は、図1に示した制御装置1と同様である。変形例2では、イベント情報取得部11が取得するイベント情報には行程表が含まれる。イベント情報取得部11は、行程表を領域判断部15bへ出力する。行程表は、例えば、イベントの区切りごとの、複数の追尾対象者のうち少なくとも一部の追尾対象者が存在する領域の種別を示す情報を含む。
 図14は、本実施の形態の行程表の一例を示す図である。図14に示すように、行程表は、イベントの進行を示すイベント進行情報と追尾対象者の移動に関する情報である移動予定情報とを含む。イベント進行情報は、図14に示すように、例えば、時間を示す時間情報とイベントの内容との対応を含む。時間情報は、時刻自体を示す情報であってもよいし、イベント開始時からの経過時間を示す情報であってもよい。図14に示した例では、イベントはコンサートであり、イベントの内容として演奏される曲が記載されている。また、図14に示した例では、イベントの内容がさらに細分化されたセクションを示すセクション名が時間情報と対応付けられている。このように、イベントがコンサートの場合、イベントの区切りは、例えば、曲を分割したセクション単位の区切りである。図14に示した例では、Aメロ、Bメロ、サビなどのように曲調に応じてセクションに区切っているが、セクションの区切り方はこれに限定されず、例えば、追尾対象者である出演者の配置の大きな変更ごとに区切ることができる。
 また、図14では、上述した注目度に応じた領域の種別のうちどの種別の領域に各追尾対象者が存在するかが、移動予定情報として示されている。なお、図14では、移動予定情報として、追尾対象者である出演者ごとに、どの種別の領域であるかが示されているが、これに限らず、移動予定情報には、だれがセンターであるかを示す情報だけが含まれているなどこれ以外の形式であってもよい。また、図14では、イベント進行情報にイベントの内容とセクションを示す情報の一例であるセクション名が含まれているが、イベント進行情報は時間情報だけであってもよく、イベントの内容およびセクション名だけであってもよい。イベント進行情報がイベントの内容およびセクション名だけである場合、セクションの区切りを示す歌詞、伴奏の楽譜などの情報が行程表とともに領域判断部15bに入力される。また、セクションの区切りとなる、照明、効果音、背景映像などが行程表とともに領域判断部15bに入力されてもよい。
 領域判断部15bは、イベント情報取得部11から受け取った行程表を用いて、追尾対象者の位置する領域の種別を判断する。例えば、イベント進行情報が時間情報である場合には、現在の時刻に応じて、行程表における対応する移動予定情報を参照することで、追尾対象者の位置する領域の種別を判断する。また、イベント進行情報がイベントの内容およびセクション名で示される場合、図示しないマイクで音を検出し、領域判断部15bは、区切りを示す歌詞、伴奏の楽譜を用いて、マイクによって検出された音データを用いて音声認識、周波数解析などにより、区切りを判定する。そして、領域判断部15bは、行程表における各セクションに応じた移動予定情報を参照することで、追尾対象者の位置する領域の種別を判断する。また、領域判断部15bは、照明、効果音、背景映像などにより区切りが示される場合には、全体映像を用いた画像認識、音データの解析などにより、区切りを検出する。このように、時間情報ではなくセクションの区切りを音声認識、画像認識などを用いて判定し、セクションの区切りに応じて行程表における対応する移動予定情報を参照することで、イベントが予定通りの時刻で進行していない場合でも、適切な画角の制御を行うことができる。
 また、領域判断部15bは、移動予定情報として、だれがセンターであるかを示す情報が格納されている場合には、現在の時刻に応じて行程表を用いて、だれがセンターであるがを特定し、画像情報を用いて全体映像からセンターとして特定された追尾対象者の位置を検出する。そして、この追尾対象者の位置を上述した重心として扱って、図1の制御装置1の動作として説明したように、領域を区分し、各領域の種別を決定してもよい。そして、図1の制御装置1と同様に、領域判断部15bは、追尾対象者の全体映像における位置と各領域の種別とを用いて、追尾対象者が存在する領域の種別を判断する。
 なお、上述した行程表は、イベントがコンサートである例を説明したが、イベントが演劇である場合にも同様に、行程表に演劇の脚本、台本、演出内容などを基に、セクションを区切り、移動予定情報を定めておいてもよい。
 また、領域判断部15bは、行程表を用いた判断と全体映像を用いた判断とを組み合わせてもよい。例えば、領域判断部15bは、イベント情報取得部11から受け取った行程表を用いて、追尾対象者の位置する領域の種別を判断するとともに、少なくとも一部の追尾対象者に関して図1の制御装置1と同様に全体映像を用いた追尾対象者の位置する領域の種別の判断を実施し、2つの判断結果が一致した場合には、判断結果をそのまま使用する。2つの判断結果が一致しない追尾対象者の数が、あらかじめ定めた閾値以上の場合には、行程表を用いた判断を停止して、全ての追尾対象者に関して全体映像を用いた判断を行う。これにより、イベントが予定通りに進行しない場合にも、適切な画角の制御を行うことができる。
 以上述べたように、本実施の形態では、複数の追尾対象者の位置と、設定された追尾対象者の位置とを用いて、設定された追尾対象者が存在する領域の種別を判断し、領域の種別に応じて制御パラメータである画角調整量を決定するようにした。このため、追尾対象者が複数する場合に、追尾用撮影装置5の制御パラメータを適切に決定することができる。
実施の形態2.
 次に、実施の形態2にかかる撮影システムについて説明する。図15は、本実施の形態の領域判断部の構成例を示す図である。実施の形態2の撮影システムは、実施の形態1の制御装置1における領域判断部15の代わりに領域判断部15cを備える以外は実施の形態1の撮影システムと同様である。実施の形態1と同様の機能を有する構成要素は実施の形態1と同一の符号を付して説明する。以下、実施の形態1と異なる点を主に説明する。
 実施の形態1では、全体映像における複数の追尾対象者の位置に基づく各領域の種別を決定するルールをあらかじめ定めておき、ルールに基づいて決定した領域の種別を用いて、追尾対象者が存在する領域の種別を決定した。本実施の形態では、全体映像から、追尾対象者すなわち判断対象者が存在する領域の種別を推論するための学習済モデルを用いて、追尾対象者すなわち判断対象者が存在する領域の種別を決定する。
 図15に示すように、領域判断部15cは、学習済モデル生成部151、学習済モデル記憶部152および推論部153を備える。
 推論部153は、学習済モデル記憶部152に格納されている学習済モデルを読み出し、読み出した学習済モデルに、全体映像取得部21から受け取った全体映像を入力することで、全体映像における領域の種別すなわち全体映像における各位置の領域の種別を推論する。例えば、推論部153は、全体映像における各位置が例えば、センター、端などのどの種別に属するかを推論する。そして、推論部153は、推論結果である全体映像における各位置の領域の種別と、追尾対象者検出部14により検出された追尾対象者の位置とを用いて、追尾対象者が存在する領域の種別を推論する。すなわち、推論部153は、学習済モデルに、全体映像を入力して得られる出力を用いて、追尾対象者が存在する領域の種別を求める。なお、追尾映像取得部22が、追尾映像(クリッピング前の追尾映像)を推論部153にも出力するようにし、推論部153が、全体映像の代わりに追尾映像を学習済モデルに入力することで、追尾映像における領域の種別を推論してもよい。この場合、追尾対象者検出部14により検出された追尾対象者の位置を用いる必要はなく、推論部153は、例えば、追尾対象者が追尾映像の中央に位置するとして、推論結果を用いて追尾対象者が存在する領域の種別を求める。
 学習済モデルは、イベントの映像の提供の開始前に、学習済モデル生成部151によって、例えば、以下のように生成される。学習済モデル生成部151は、映像と、対応する正解データとを含む学習用データセットを複数用いて学習済モデルを生成し、生成した学習済モデルを学習済モデル記憶部152に格納する。学習済モデルの生成に用いられる映像は、全体映像取得部21から受け取った全体映像であってもよいし、追尾映像取得部22から受け取った追尾映像であってもよいし、学習用映像であってもよい。学習用映像は、例えば、複数の追尾対象者が出演した映像であり、過去に配信された映像、過去のテレビ放送の映像などである。学習用映像は、複数の追尾対象者が出演したイベントにおいて取得された画像または映像であってもよい。学習済モデルの生成は、イベントの映像の提供が行われる前に実施しておく。なお、学習済モデルは、大人数のグループ用、少人数のグループ用といったように、グループの規模に応じて生成されてもよいし、グループごとに生成されてもよい。この場合、推論部153は、推論時に、グループの規模またはグループに応じて使用される学習済モデルを切替える。
 なお、学習済モデル生成部151に入力される学習用映像は、他の用途のために撮影されたものであってもよいし、イベントのリハーサル時に、イベントの全体を撮影した映像または画像であってもよい。学習用の全体映像または全体映像は、図示しない入力手段によって制御装置1に入力され入力手段から学習済モデル生成部151に入力されてもよいし、他の装置から送信され図示しない受信手段により受信され受信手段から学習済モデル生成部151に入力されてもよい。
 正解データは、対応する映像における各位置の領域の種別が、例えば、センター、中間、端などのうちのいずれであるかであるかを示すデータである。全体映像における各位置は、画素単位で示されてもよいし、例えば10×10の画素など複数の画素単位で示されてもよい。正解データは、例えば、全体映像を、追尾対象者の情報をよく知るイベントの主催者、演出担当者、追尾対象者のマネージャなどの有識者が確認することで決定される。正解データは、例えば、図示しない入力手段によって制御装置1に入力され入力手段から学習済モデル生成部151に入力されてもよいし、他の装置から送信され図示しない受信手段により受信され受信手段から学習済モデル生成部151に入力されてもよい。
 学習済モデル生成部151における学習済モデルの生成は、例えば、教師あり学習により行われる。教師あり学習のアルゴリズムとしては、どのようなものを用いてもよいが、例えば、ニューラルネットワークモデルを用いることもできる。ニューラルネットワークは、複数のニューロンからなる入力層、複数のニューロンからなる中間層(隠れ層)、および複数のニューロンからなる出力層で構成される。中間層は、1層、又は2層以上でもよい。
 図16は、ニューラルネットワークの一例を示す模式図である。例えば、図16に示すような3層のニューラルネットワークであれば、複数の入力が入力層(X1-X3)に入力されると、その値に重みW1(w11-w16)を掛けて中間層(Y1-Y2)に入力され、その結果にさらに重みW2(w21-w26)を掛けて出力層(Z1-Z3)から出力される。この出力結果は、重みW1の値と重みW2の値とによって変わる。
 本実施の形態においては、追尾対象者ごとに学習済モデルが生成される場合には、全体映像が入力されたときの出力層からの出力が正解データに近づくように、重みW1と重みW2とを調整することで全体映像と正解データとの関係が学習される。グループごとに学習済モデルが生成される場合には、全体映像が入力されたときの出力層からの出力が正解データに近づくように、重みW1と重みW2とを調整することで全体映像と正解データとの関係が学習される。なお、機械学習のアルゴリズムはニューラルネットワークに限定されない。
 なお、図15に示した例では、領域判断部15cが、学習済モデル生成部151を備えているが、制御装置1とは別に学習済モデルを生成する学習装置を設け、学習装置が学習済モデル生成部151を備えてもよい。この場合、領域判断部15cは学習済モデル生成部151を備えなくてよく、学習装置の学習済モデル生成部151が、上記と同様に学習済モデルを生成する。そして、学習装置によって生成された学習済モデルが、領域判断部15cの学習済モデル記憶部152に格納される。
 本実施の形態では、実施の形態1で述べたステップS27において、領域判断部15cが、上記のように、学習済モデルを用いて、追尾対象者が存在する領域の種別を決定する。本実施の形態におけるその他の動作は、実施の形態1と同様である。本実施の形態においても制御装置は、コンピュータシステムにより実現される。
 また、実施の形態1の変形例1で述べたように、複数の追尾対象者がタグを身に着け、タグ通信部23が各追尾対象者の位置情報を取得してもよい。この場合、領域判断部15cは、学習済モデルを用いて判断した結果を、位置情報を用いて補正してもよい。例えば、実施の形態1の変形例1で述べたように奥行方向の位置を反映して補正が行われてもよい。
 本実施の形態においても、実施の形態1と同様に、追尾対象者が複数する場合に、追尾用撮影装置5の制御パラメータを適切に決定することができる。また、グループのメンバーの配置は多様な場合があり、人が全体映像をみて追尾対象者がセンターであるか端であるかを判断することはできても、多様な配置を考慮して事前に領域の範囲をルールとして定義することが難しい場合もある。本実施の形態では、正解データとして人がみて判断した結果を用いて機械学習により追尾対象者が存在する領域の種別を決定するため、領域の種別を判断するためのルールを事前に定める必要がない。また、イベントにおいて撮影された全体映像を用いて、再学習を行うことで、学習済モデルの精度を高めていくことができる。
<変形例1>
 次に、本実施の形態の変形例1について説明する。図17は、本実施の形態にかかる変形例1の画角制御部の構成例を示す図である。本実施の形態の変形例1の撮影システムは、実施の形態1の制御装置1における領域判断部15、画角制御部19および画角調整規則記憶部16の代わりに画角判断部24を備える以外は実施の形態1の撮影システムと同様である。実施の形態1と同様の機能を有する構成要素は実施の形態1と同一の符号を付して説明する。以下、実施の形態1と異なる点を主に説明する。
 図15に示した例では、全体映像取得部21から受け取った全体映像を入力として、追尾対象者の存在する領域の種別を推論するための学習済モデルを用いた。このため、図15に示した例では、領域の種別から画角の調整内容を求める処理は実施の形態1と同様に画角調整規則に基づいて行う。変形例1では、全体映像取得部21から受け取った全体映像を入力として画角調整量を推論するための学習済モデルを用いる。これにより、画角調整規則も含めて学習が行われることになる。すなわち、画角判断部24は、領域判断部15,15a,15b,15cなどの領域判断部に対応する機能と画角制御部19との両方の機能を有する。
 図17に示すように、画角判断部24は、学習済モデル生成部191、学習済モデル記憶部192および推論部193を備える。
 推論部193は、学習済モデル記憶部192に格納されている学習済モデルを読み出し、読み出した学習済モデルに、全体映像取得部21から受け取った全体映像と、追尾対象者の追尾映像とを入力することで、画角調整量を推論する。すなわち、画角判断部24は、全体映像および追尾画像を用いて追尾対象者すなわち判断対象者に対応する撮影画角の調整量を推論するための学習済モデルを用いて、撮影画角の調整量を決定する。学習済モデルは、イベントの映像の提供の開始前に、学習済モデル生成部191によって、例えば、以下のように生成される。
 学習済モデル生成部191は、全体映像取得部21から受け取った全体映像または学習用映像と、追尾映像と、対応する正解データとを含む学習用データセットを複数用いて学習済モデルを生成し、生成した学習済モデルを学習済モデル記憶部192に格納する。学習用映像は、図15に示した例と同様に、複数の追尾対象者が出演した映像であり、過去に配信された映像、過去のテレビ放送の映像などである。学習済モデルの生成は、イベントの映像の提供が行われる前に実施しておく。なお、学習済モデルは、大人数のグループ用、少人数のグループ用といったように、グループの規模に応じて生成されてもよいし、グループごとに生成されてもよい。学習済モデルの生成方法は、正解データが画角調整量となること以外は、図15に示した例と同様である。本実施の形態では、正解データが画角調整量であるため、例えば、プロのカメラマンなどの有識者が正解データを決定してもよい。例えば、イベントのリハーサルにおけるカメラテストなどの際に、カメラマンなどの有識者が全体映像に対応する正解データを決定してもよい。以上述べた以外の動作は、実施の形態1と同様である。また、本実施の形態の変形例1においても、タグ通信部23によって取得された位置情報を用いて画角調整量を補正してもよい。また、本実施の形態の変形例1においても、全体映像から検出した追尾対象者を入力として学習を行ってもよい。
<変形例2>
 次に、本実施の形態の変形例2について説明する。図18は、本実施の形態にかかる変形例2の領域判断部の構成例を示す図である。本実施の形態の変形例2の撮影システムは、実施の形態1の制御装置1における領域判断部15の代わりに領域判断部15cを備える以外は実施の形態1の撮影システムと同様である。実施の形態1と同様の機能を有する構成要素は実施の形態1と同一の符号を付して説明する。以下、実施の形態1と異なる点を主に説明する。
 図18に示すように、領域判断部15cは、図15に示した例と同様に、学習済モデル生成部151、学習済モデル記憶部152および推論部153を備える。図15に示した例では、領域判断部15cは、全体映像を入力として、追尾対象者の存在する領域の種別を決定した。変形例2では、全体映像に加えて、さらにイベントの会場に関する情報であるイベント会場情報を入力として、追尾対象者の存在する領域の種別を決定する。なお、図15に示した例と同様に、追尾映像取得部22が追尾映像を推論部153にも出力するようにし、推論部153が、全体映像の代わりに追尾映像を学習済モデルに入力してもよい。
 イベント会場情報は、実施の形態1の変形例1で述べたように、例えばイベント情報に含まれており、イベント情報取得部11から領域判断部15cへ入力される。イベント会場情報は、例えば、イベントの会場を示す識別情報と、イベントにおけるステージの形状を示す情報とを含む。
 図19は、本実施の形態の変形例2におけるイベント会場情報の一例を示す図である。図19に示した例では、イベント会場情報は、イベント会場の識別情報(図19ではイベント会場と記載)と、イベントの会場の形状を示す情報すなわちステージの形状を示す情報(図19では形状と記載)とを示す。例えば、イベント会場αであっても、形状Aと形状Bのように、異なる形状のステージが用いられる場合がある。このように、形状によって複数の追尾対象者の配置が異なる場合があるため、本実施の形態では、イベント会場情報に含まれるステージの形状を示す情報についても学習済モデルの入力とする。
 例えば、イベント会場αの形状Aのステージにおいてイベントが行われる場合には、図19の最上段に示した情報がイベント会場情報としてイベント情報取得部11から領域判断部15cへ入力される。なお、形状を示す情報としては、形状自体を示す情報として画像、ステージの領域を座標値などが入力されてもよいし、形状Aを示す番号などのように識別情報が入力されてもよい。
 変形例2の領域判断部15cにおける学習済モデルの生成方法は、入力にイベント会場情報が追加される以外は、図15に示した領域判断部15cにおける学習済モデルの生成方法と同様である。変形例2の領域判断部15cの推論時の動作についても、入力にイベント会場情報が追加される以外は、図15に示した領域判断部15cにおける動作と同様である。また、イベント会場情報を入力に学習済モデルに用いるかわりに、イベント会場と形状の組み合わせごとに、学習済モデルを生成してもよい。この場合、領域判断部15cは、推論時には、イベント会場情報に基づいて使用する学習済モデルを選択する。
 また、変形例2の領域判断部15cの推論結果である、追尾対象者の存在する領域の種別を、タグ通信部23によって取得された位置情報を用いて補正してもよい。また、本実施の形態の変形例1で述べた画角調整量を学習する場合に、イベント会場情報を入力に追加してもよい。
<変形例3>
 次に、本実施の形態の変形例3について説明する。図20は、本実施の形態にかかる変形例3の領域判断部の構成例を示す図である。本実施の形態の変形例3の撮影システムは、実施の形態1の制御装置1における領域判断部15の代わりに領域判断部15cを備える以外は実施の形態1の撮影システムと同様である。実施の形態1と同様の機能を有する構成要素は実施の形態1と同一の符号を付して説明する。以下、実施の形態1と異なる点を主に説明する。
 図20に示すように、領域判断部15cは、図15に示した例と同様に、学習済モデル生成部151、学習済モデル記憶部152および推論部153を備える。図15に示した例では、領域判断部15cは、全体映像を入力として、追尾対象者の存在する領域の種別を決定した。変形例3では、全体映像に加えて、さらに演奏する曲などのイベントの内容を示す情報を入力として、追尾対象者の存在する領域の種別を決定する。なお、図15に示した例と同様に、追尾映像取得部22が追尾映像を推論部153にも出力するようにし、推論部153が、全体映像の代わりに追尾映像を学習済モデルに入力してもよい。
 変形例2の領域判断部15cにおける学習済モデルの生成方法は、入力にイベントの内容を示す情報が追加される以外は、図15に示した領域判断部15cにおける学習済モデルの生成方法と同様である。イベントがコンサートである場合、イベントの内容は例えば、曲であり、曲名を示す情報が学習済モデルの生成時に入力データとして用いられる。
 また、イベントの内容を含むイベント内容情報は、例えば、実施の形態1の変形例2で述べたように、イベント情報の行程表に含まれており、推論時には、イベント情報取得部11から領域判断部15cへ入力される。
 図21は、本実施の形態の変形例3におけるイベント内容情報の一例を示す図である。図21に示すように、イベント内容情報は、例えば、時間を示す時間情報と、イベント内容とを含む。図21に示した例では、イベント内容は曲である。領域判断部15cは、推論時には、現在時刻を用いて、イベント内容情報における時間情報のうち現在時刻に対応する時間帯の曲を示す情報を、全体映像とともに学習済モデルへ入力することで、全体映像における各位置の領域の種別を推論し、推論結果を用いて追尾対象者の存在する領域の種別を決定する。
 変形例3の領域判断部15cにおける学習済モデルの生成方法は、入力にイベントの内容を示す情報が追加される以外は、図15に示した領域判断部15cにおける学習済モデルの生成方法と同様である。変形例3の領域判断部15cの推論時の動作についても、入力にイベントの内容を示す情報が追加される以外は、図15に示した領域判断部15cにおける動作と同様である。また、イベントの内容を示す情報を学習済モデルの入力に用いるかわりに、イベントの内容を示す情報ごとに、学習済モデルを生成してもよい。この場合、領域判断部15cは、推論時には、イベントの内容を示す情報に基づいて使用する学習済モデルを選択する。イベントの内容を示す情報が曲である場合には、曲ごとに学習済モデルが生成される。
 また、変形例3の領域判断部15cの推論結果である、追尾対象者の存在する領域の種別を、タグ通信部23によって取得された位置情報を用いて補正してもよい。また、本実施の形態の変形例1で述べた画角調整量を学習する場合に、イベントの内容を示す情報を入力に追加してもよい。
 以上述べたように、本実施の形態では、全体映像を用いて機械学習により、設定された追尾対象者が存在する領域の種別を判断し、領域の種別に応じて制御パラメータである画角調整量を決定するようにした。このため、追尾対象者が複数する場合に、追尾用撮影装置5の制御パラメータを適切に決定することができる。
 以上の実施の形態に示した構成は、一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、実施の形態同士を組み合わせることも可能であるし、要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。
 1,1a,1b 制御装置、2 配信事業者装置、3 ユーザ端末、4 全体用撮影装置、5 追尾用撮影装置、11 イベント情報取得部、12 追尾対象者情報通知部、13 画像情報取得部、14 追尾対象者検出部、15,15a,15b,15c 領域判断部、16 画角調整規則記憶部、17 追尾制御部、18 撮影装置情報記憶部、19 画角制御部、20,42,51 映像送信部、21 全体映像取得部、22 追尾映像取得部、23 タグ通信部、24 画角判断部、31 追尾対象者情報取得部、32 選択受付部、33 選択結果通知部、34 映像出力部、35 映像受信部、41,52 撮影部、53 追尾駆動部、54 画角駆動部、100 撮影システム、151,191 学習済モデル生成部、152,192 学習済モデル記憶部、153,193 推論部。

Claims (15)

  1.  撮影方向および撮影画角が調整可能な1つ以上の追尾用撮影装置を制御する制御装置であって、
     イベントの出演者である複数の追尾対象者のそれぞれの位置に関する情報である位置関連情報を用いて、前記追尾対象者ごとに、当該追尾対象者を判断対象者とし、当該イベントの他の出演者の位置と前記判断対象者の位置とに応じた前記撮影画角の調整量である画角調整量を決定する画角判断部と、
     を備えることを特徴とする制御装置。
  2.  前記画角判断部は、
     前記位置関連情報を用いて、前記追尾対象者ごとに、当該追尾対象者を判断対象者とし、前記複数の追尾対象者の位置と前記判断対象者の位置とに応じて、前記判断対象者が存在する領域の種別を判断する領域判断部と、
     領域の種別と前記撮影画角の調整内容との対応を定めた画角調整規則に従って、前記領域判断部によって判断された前記判断対象者が存在する領域の種別に対応する前記撮影画角の調整内容を決定し、決定した前記撮影画角の調整内容に基づいて前記撮影画角の調整量を決定し、決定した前記画角調整量を前記判断対象者に対応する前記追尾用撮影装置へ出力する画角制御部と、
     を備えることを特徴とする請求項1に記載の制御装置。
  3.  前記領域判断部は、前記イベントの区切りごとの、前記複数の追尾対象者のうち少なくとも一部の前記追尾対象者が存在する領域の種別を示す情報を含む行程表を用いて、前記判断対象者が存在する領域の種別を判断することを特徴とする請求項2に記載の制御装置。
  4.  前記イベントはコンサートであり、イベントの区切りは、曲を分割したセクション単位の区切りであることを特徴とする請求項3に記載の制御装置。
  5.  領域の種別は前記イベントにおける注目度を示すことを特徴とする請求項1から4のいずれか1つに記載の制御装置。
  6.  前記位置関連情報は、前記複数の追尾対象者を含む全体映像であることを特徴とする請求項1から5のいずれか1つに記載の制御装置。
  7.  前記位置関連情報は、前記複数の追尾対象者のそれぞれの2次元または3次元の位置を示す位置情報であることを特徴とする請求項1から5のいずれか1つに記載の制御装置。
  8.  前記位置関連情報は、前記複数の追尾対象者を含む全体映像であり、
     前記領域判断部は、前記全体映像における領域の種別を推論するための学習済モデルを用いて前記判断対象者が存在する領域の種別を判断することを特徴とする請求項2に記載の制御装置。
  9.  前記学習済モデルは、前記全体映像と前記イベントの会場の形状を示す情報とを用いて前記全体映像における領域の種別を判断するための学習済モデルであることを特徴とする請求項8に記載の制御装置。
  10.  前記学習済モデルは、前記全体映像と前記イベントの内容を示す情報とを用いて前記全体映像における領域の種別を判断するための学習済モデルであることを特徴とする請求項8に記載の制御装置。
  11.  前記イベントはコンサートであり、
     前記イベントの内容を示す情報は、曲を示す情報であることを特徴とする請求項10に記載の制御装置。
  12.  前記位置関連情報は、前記複数の追尾対象者を含む全体映像であり、
     前記画角判断部は、前記全体映像を用いて前記判断対象者に対応する撮影画角の調整内容を推論するための学習済モデルを用いて、前記撮影画角の調整内容を決定し、決定した前記撮影画角の調整内容を用いて前記撮影画角の調整量を決定することを特徴とする請求項1に記載の制御装置。
  13.  撮影方向および撮影画角が調整可能な1つ以上の追尾用撮影装置と、
     前記追尾用撮影装置を制御する制御装置とを備え、
     前記制御装置は、
     イベントの出演者である複数の追尾対象者のそれぞれの位置に関する情報である位置関連情報を用いて、前記追尾対象者ごとに、当該追尾対象者を判断対象者とし、当該イベントの他の出演者の位置と前記判断対象者の位置とに応じた前記撮影画角の調整量である画角調整量を決定する画角判断部と、
     を備えることを特徴とする撮影システム。
  14.  前記複数の追尾対象者を含む全体映像を撮影する全体用撮影装置、
     を含み、
     前記位置関連情報は、前記全体映像であることを特徴とする請求項13に記載の撮影システム。
  15.  撮影方向および撮影画角が調整可能な1つ以上の追尾用撮影装置を制御する制御装置における追尾制御方法であって、
     イベントの出演者である複数の追尾対象者のそれぞれの位置に関する情報である位置関連情報を用いて、前記追尾対象者ごとに、当該追尾対象者を判断対象者とし、当該イベントの他の出演者の位置と前記判断対象者の位置とに応じた前記撮影画角の調整量である画角調整量を決定するステップと、
     を含むことを特徴とする追尾制御方法。
PCT/JP2021/024593 2021-06-29 2021-06-29 制御装置、撮影システムおよび追尾制御方法 WO2023276005A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/024593 WO2023276005A1 (ja) 2021-06-29 2021-06-29 制御装置、撮影システムおよび追尾制御方法
JP2023531205A JPWO2023276005A1 (ja) 2021-06-29 2021-06-29

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/024593 WO2023276005A1 (ja) 2021-06-29 2021-06-29 制御装置、撮影システムおよび追尾制御方法

Publications (1)

Publication Number Publication Date
WO2023276005A1 true WO2023276005A1 (ja) 2023-01-05

Family

ID=84691616

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/024593 WO2023276005A1 (ja) 2021-06-29 2021-06-29 制御装置、撮影システムおよび追尾制御方法

Country Status (2)

Country Link
JP (1) JPWO2023276005A1 (ja)
WO (1) WO2023276005A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277845A (ja) * 2004-03-25 2005-10-06 Sony Corp 撮影制御装置
JP2009004873A (ja) * 2007-06-19 2009-01-08 Canon Inc カメラ制御システム及び方法、並びにプログラム及び記憶媒体
JP2011211598A (ja) * 2010-03-30 2011-10-20 Sony Corp 撮像システムおよび撮像装置
WO2020100438A1 (ja) * 2018-11-13 2020-05-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277845A (ja) * 2004-03-25 2005-10-06 Sony Corp 撮影制御装置
JP2009004873A (ja) * 2007-06-19 2009-01-08 Canon Inc カメラ制御システム及び方法、並びにプログラム及び記憶媒体
JP2011211598A (ja) * 2010-03-30 2011-10-20 Sony Corp 撮像システムおよび撮像装置
WO2020100438A1 (ja) * 2018-11-13 2020-05-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JPWO2023276005A1 (ja) 2023-01-05

Similar Documents

Publication Publication Date Title
JP6725038B2 (ja) 情報処理装置及び方法、表示制御装置及び方法、プログラム、並びに情報処理システム
JP6558587B2 (ja) 情報処理装置、表示装置、情報処理方法、プログラム、および情報処理システム
US10083578B2 (en) Crowd-based haptics
JP6759451B2 (ja) 人による追跡装置のオクルージョンの影響を低減するシステム及び方法
WO2016088566A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20040105004A1 (en) Automated camera management system and method for capturing presentations using videography rules
JP2017531979A (ja) スポーツ競技場における視覚的な選手追跡のためのシステムおよび方法
JP2011033993A (ja) 情報提示装置、および情報提示方法
CN115086736A (zh) 动态图像分发系统及其方法和记录介质
KR20210135520A (ko) 라이브 배신 시스템 및 라이브 배신 방법
JP2004334269A (ja) 画像処理装置および方法、記録媒体、並びにプログラム
KR20200057484A (ko) 입체 스트라이크 존 표시 방법 및 장치
CN114651448A (zh) 信息处理系统、信息处理方法和程序
JP2005033570A (ja) 移動体画像提供方法、移動体画像提供システム
US20230154106A1 (en) Information processing apparatus, information processing method, and display apparatus
WO2023276005A1 (ja) 制御装置、撮影システムおよび追尾制御方法
JP2020102782A (ja) コンテンツ配信システム、配信装置、受信装置及びプログラム
CN113727353B (zh) 娱乐设备的配置方法、装置及娱乐设备
CN113596353A (zh) 体感互动数据处理方法、装置及体感互动设备
WO2023286367A1 (ja) 情報処理装置、情報処理方法、プログラム
WO2022264203A1 (ja) 信号生成装置、信号処理システムおよび信号生成方法
JP2010130403A (ja) 映像制御装置およびそれを備えた撮像装置、表示装置
JP2019198058A (ja) 視聴ユーザからのメッセージを含む動画を配信する動画配信システム
JP6600186B2 (ja) 情報処理装置、制御方法およびプログラム
JP6592214B1 (ja) 視聴ユーザからのメッセージを含む動画を配信する動画配信システム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2023531205

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE