WO2021240654A1 - 情報処理装置、制御方法及び記憶媒体 - Google Patents

情報処理装置、制御方法及び記憶媒体 Download PDF

Info

Publication number
WO2021240654A1
WO2021240654A1 PCT/JP2020/020775 JP2020020775W WO2021240654A1 WO 2021240654 A1 WO2021240654 A1 WO 2021240654A1 JP 2020020775 W JP2020020775 W JP 2020020775W WO 2021240654 A1 WO2021240654 A1 WO 2021240654A1
Authority
WO
WIPO (PCT)
Prior art keywords
video data
candidate
camera
digest
information processing
Prior art date
Application number
PCT/JP2020/020775
Other languages
English (en)
French (fr)
Inventor
悠 鍋藤
克 菊池
壮馬 白石
はるな 渡辺
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/020775 priority Critical patent/WO2021240654A1/ja
Priority to JP2022527327A priority patent/JP7375926B2/ja
Priority to US17/926,903 priority patent/US20230206635A1/en
Publication of WO2021240654A1 publication Critical patent/WO2021240654A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Definitions

  • the present disclosure relates to technical fields of information processing devices, control methods, and storage media that perform processing related to digest generation.
  • Patent Document 1 discloses a method of confirming and producing highlights from a video stream of a sporting event on the ground.
  • Patent Document 1 does not disclose any method for generating a digest based on video data generated by a plurality of cameras.
  • An object of the present disclosure is to provide an information processing device, a control method, and a storage medium capable of suitably generating digest candidates based on video data of a plurality of cameras in consideration of the above problems.
  • One aspect of the information processing device is a reference for extracting video data of a second camera different from the first camera based on candidate video data that is a candidate for a digest of the first material video data taken by the first camera.
  • a reference time determining means for determining a reference time, which is a time or time zone, and another camera shot which is a part of the second material video data taken by the second camera based on the reference time.
  • a digest candidate that generates a digest candidate that is a digest candidate for the first material video data and the second material video data based on the other camera shot extraction means to be extracted, the candidate video data, and the other camera shot. It is an information processing apparatus having a generation means.
  • One aspect of the control method is to extract video data of a second camera different from the first camera based on candidate video data that is a candidate for a digest of the first material video data taken by the first camera by a computer.
  • a reference time which is a reference time or time zone, is determined, and another camera shot, which is a part of the second material video data taken by the second camera, is extracted based on the reference time.
  • One aspect of the storage medium is a reference for extracting video data of a second camera different from the first camera based on candidate video data that is a candidate for a digest of the first material video data taken by the first camera.
  • a reference time determining means for determining a reference time, which is a time or time zone, and another camera shot, which is a part of the second material video data taken by the second camera, are extracted based on the reference time.
  • a digest candidate generation that generates a digest candidate that is a digest candidate for the first material video data and the second material video data based on the other camera shot extraction means, the candidate video data, and the other camera shot.
  • It is a storage medium in which a program that makes a computer function as a means is stored.
  • digest candidates based on video data generated by a plurality of cameras can be suitably generated.
  • the configuration of the digest candidate selection system in the first embodiment is shown.
  • the hardware configuration of the information processing device is shown. This is an example of a functional block of an information processing device.
  • (A) It is a figure showing the 1st material video data by the band graph of the length corresponding to the reproduction time length of the 1st material video data.
  • (B) It is a line graph which shows the 1st score in the time series of the 1st material video data.
  • C It is a figure showing the 2nd material video data by the band graph of the length corresponding to the reproduction time length of the 2nd material video data.
  • D It is a line graph which shows the 1st score in the time series of the 2nd material video data.
  • (A) It is a band graph of the first material video data.
  • (B) It is a band graph of the second material video data which clearly shows the other camera shots.
  • (C) It is a band graph of the digest candidate generated based on the 1st material video data and the 2nd material video data.
  • (A) It is a band graph of the 1st material video data D1.
  • (B) It is a band graph of the second material video data which clearly shows the other camera shots.
  • (C) It is a band graph of the digest candidate generated based on the 1st material video data and the 2nd material video data.
  • a band graph of the first material video data is shown.
  • B The band graph of the second material video data which clearly shows the other camera shot is shown.
  • C The band graph of the generated digest candidate is shown. It is an example of a flowchart showing the procedure of the process executed by the information processing apparatus in the modification 3. It is a functional block diagram of the information processing apparatus in 2nd Embodiment. This is an example of a flowchart executed by the information processing apparatus in the second embodiment.
  • System Configuration Figure 1 shows the configuration of the digest candidate selection system 100 according to the first embodiment.
  • the digest candidate selection system 100 preferably selects video data (also referred to as “digest candidate Cd”) as a digest candidate from video data captured by a plurality of cameras.
  • the digest candidate selection system 100 mainly includes an information processing device 1, an input device 2, an output device 3, a storage device 4, a first camera 8a, and a second camera 8b.
  • the video data may include sound data.
  • the video data used as the material in the selection of the digest candidate CDd is called "material video data”.
  • the information processing device 1 performs data communication with the input device 2 and the output device 3 via a communication network or by direct communication by radio or wire.
  • the information processing apparatus 1 generates a digest candidate CD based on each material video data captured by the first camera 8a and the second camera 8b.
  • the first camera 8a and the second camera 8b are cameras used in, for example, a venue for an event (for example, a sports field), and take pictures of the event from different positions in the same time zone.
  • the first camera 8a is a camera that generates a main image that generates a digest candidate Cd
  • the second camera 8b is a camera that generates an image that is adopted as a part of the digest candidate Cd in a specific important scene.
  • the first camera 8a may be a camera that shoots the entire ball game field
  • the second camera 8b may be a camera that mainly shoots a player near the ball.
  • the input device 2 is an arbitrary user interface that accepts user input, and corresponds to, for example, a button, a keyboard, a mouse, a touch panel, a voice input device, and the like.
  • the input device 2 supplies the input signal "S1" generated based on the user input to the information processing device 1.
  • the output device 3 is, for example, a display device such as a display or a projector, and a sound output device such as a speaker, and is a predetermined display and / or sound output based on the output signal “S2” supplied from the information processing device 1. (Including reproduction of digest candidate Cd) is performed.
  • the storage device 4 is a memory for storing various information necessary for processing of the information processing device 1.
  • the storage device 4 stores, for example, the first material video data D1, the second material video data D2, the first inference device information D3, and the second inference device information D4.
  • the first material video data D1 is video data generated by the first camera 8a.
  • the second material video data D2 is video data generated by the second camera 8b.
  • the first material video data D1 and the second material video data D2 are video data captured at least in a partially overlapping time zone. Further, the first material video data D1 and the second material video data D2 include meta information indicating the shooting time.
  • the first material video data D1 and the second material video data D2 may be stored in the storage device 4 from the first camera 8a and the second camera 8b via data communication, respectively, and are portable storage media. It may be stored in the storage device 4 via the storage device 4. In these cases, the information processing apparatus 1 receives the first material video data D1 and the second material video data D2 from the first camera 8a and the second camera 8b via data communication or a storage medium, and then the first material. The video data D1 and the second material video data D2 may be stored in the storage device 4.
  • the first inference device information D3 is information about the first inference device, which is an inference device for inferring a first score (also referred to as a "first score") for the input video data.
  • the first score is, for example, a score indicating the importance of the input video data, and the above-mentioned importance is whether the input video data is an important section or a non-important section (that is, one of the digests). It is an index that serves as a reference for determining whether or not it is suitable as a section.
  • the first inference device is learned in advance so as to infer the first score for the target video data when a predetermined number (one or more) of images constituting the video data are input, and the first inference device is used.
  • Information D3 includes learned parameters of the first inferior.
  • the information processing apparatus 1 uses video data (also referred to as "section video data") in which the first material video data D1 is divided into sections of a predetermined reproduction time length. Input to the first inferencer in sequence.
  • the first inference device may infer the first score by inputting the sound data included in the video data in addition to the image constituting the target video data. In this case, the feature amount calculated from the sound data may be input to the first inference device.
  • the second inference device information D4 is information about the second inference device, which is an inference device that infers a second score (also referred to as a "second score") for the input video data.
  • the second score is a score indicating the certainty of whether or not a specific event has occurred.
  • specific event refers to an important event in the event to be photographed, for example, in the occurrence of a specific action (for example, a home run in baseball) or other event (for example, in a competition for scoring) that is important in the event. (Score generation) etc. are applicable.
  • the second inference device is learned in advance so as to infer a second score for the target video data when a predetermined number of images constituting the video data are input, and the second inference device information D4 is provided with the second inference device information D4. It contains the learned parameters of the second inferior.
  • the information processing apparatus 1 sequentially inputs each of the section video data selected based on the first score output by the first inference device to the second inference device.
  • the second inference device may infer the second score by inputting the sound data included in the video data in addition to the image constituting the target video data.
  • the learning model of the first inference device and the second inference device may be learning models based on arbitrary machine learning such as a neural network or a support vector machine, respectively.
  • a neural network such as a convolutional neural network
  • the first inference device information D3 and the second inference device information D4 have a layer structure, a neuron structure of each layer, and the like. Includes various parameters such as the number and size of filters in each layer and the weight of each element of each filter.
  • the storage device 4 may be an external storage device such as a hard disk connected to or built in the information processing device 1, or may be a storage medium such as a flash memory. Further, the storage device 4 may be a server device that performs data communication with the information processing device 1. Further, the storage device 4 may be composed of a plurality of devices. In this case, the storage device 4 may store the first inference device information D3 and the second inference device information D4 in a distributed manner.
  • the configuration of the digest candidate selection system 100 described above is an example, and various changes may be made to the configuration.
  • the input device 2 and the output device 3 may be integrally configured.
  • the input device 2 and the output device 3 may be configured as a tablet-type terminal integrated with the information processing device 1.
  • the digest candidate selection system 100 does not have to include at least one of the input device 2 and the output device 3.
  • the information processing device 1 may be composed of a plurality of devices. In this case, the plurality of devices constituting the information processing device 1 exchange information necessary for executing the pre-assigned process among the plurality of devices.
  • FIG. 2 shows the hardware configuration of the information processing device 1.
  • the information processing apparatus 1 includes a processor 11, a memory 12, and an interface 13 as hardware.
  • the processor 11, the memory 12, and the interface 13 are connected via the data bus 19.
  • the processor 11 executes a predetermined process by executing the program stored in the memory 12.
  • the processor 11 is a processor such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and a quantum processor.
  • the memory 12 is composed of various volatile memories such as RAM (Random Access Memory) and ROM (Read Only Memory) and non-volatile memory. Further, the memory 12 stores a program executed by the information processing apparatus 1. Further, the memory 12 is used as a working memory and temporarily stores information and the like acquired from the storage device 4. The memory 12 may function as the storage device 4. Similarly, the storage device 4 may function as the memory 12 of the information processing device 1. The program executed by the information processing apparatus 1 may be stored in a storage medium other than the memory 12.
  • the interface 13 is an interface for electrically connecting the information processing device 1 and another device.
  • the interface for connecting the information processing device 1 and another device may be a communication interface such as a network adapter for transmitting / receiving data to / from another device based on the control of the processor 11 by wire or wirelessly. good.
  • the information processing apparatus 1 and the other apparatus may be connected by a cable or the like.
  • the interface 13 includes a hardware interface compliant with USB (Universal Serial Bus), SATA (Serial AT Atchment), etc. for exchanging data with other devices.
  • USB Universal Serial Bus
  • SATA Serial AT Atchment
  • the hardware configuration of the information processing device 1 is not limited to the configuration shown in FIG.
  • the information processing device 1 may include at least one of an input device 2 and an output device 3.
  • the functional block information processing apparatus 1 has a shooting time or a reference for extracting the video data of the second camera based on the candidate of the section video data to be included in the digest candidate Cd (also referred to as “candidate video data Cd1”).
  • the shooting time zone also referred to as “reference time Tref”
  • the information processing apparatus 1 is a digest candidate based on a set of video data (also referred to as “other camera shot Sh”) extracted from the second material video data D2 based on the reference time Tref and the candidate video data Cd1. Generate Cd.
  • the functional block of the information processing apparatus 1 for realizing the above-mentioned processing will be described.
  • the processor 11 of the information processing apparatus 1 functionally has a candidate video data selection unit 15, a reference time determination unit 16, another camera shot extraction unit 17, and a digest candidate generation unit 18.
  • a candidate video data selection unit 15 a reference time determination unit 16
  • another camera shot extraction unit 17 a digest candidate generation unit 18.
  • FIG. 3 the blocks in which data is exchanged are connected by a solid line, but the combination of blocks in which data is exchanged is not limited to FIG. The same applies to the figures of other functional blocks described later.
  • the candidate video data selection unit 15 calculates a first score for each section with respect to the first material video data D1 acquired via the interface 13, and selects the candidate video data Cd1 from the section video data based on the first score. .. Then, the candidate video data selection unit 15 supplies the selected candidate video data Cd1 to the reference time determination unit 16 and the digest candidate generation unit 18.
  • the candidate video data selection unit 15 first, the candidate video data selection unit 15 generates section video data, which is video data obtained by dividing the first material video data D1 into sections.
  • the section video data is, for example, data obtained by dividing the first material video data D1 by a section having a unit time length, and is data including a predetermined number of images.
  • the candidate video data selection unit 15 configures the first inference device by referring to the first inference device information D3, and sequentially inputs the section video data to the first inference device with respect to the input section video data. Calculate the first score.
  • the candidate video data selection unit 15 calculates the first score, which is higher as the importance of the section video data is higher.
  • the candidate video data selection unit 15 selects the section video data whose first score is equal to or higher than a predetermined threshold value (also referred to as “threshold value Th1”) as the candidate video data Cd1.
  • a predetermined threshold value also referred to as “threshold value Th1”
  • the candidate video data selection unit 15 uses the continuous section video data as one set of candidate video data. It may be regarded as Cd1.
  • the candidate video data Cd1 is video data that includes at least one section video data and may have different reproduction time lengths.
  • the reference time determination unit 16 determines the reference time Tref based on the candidate video data Cd1. Then, the reference time determination unit 16 supplies the determined reference time Tref to the other camera shot extraction unit 17.
  • the reference time determination unit 16 configures the second inference device by referring to the second inference device information D4, and sequentially inputs the candidate video data Cd1 to the second inference device to input the candidate video.
  • the second score for the data Cd1 is calculated.
  • the second score shows a higher value as the probability that a specific event has occurred is higher.
  • the reference time determination unit 16 uses the candidate video data Cd1 (also referred to as “threshold value Th2”) whose second score is equal to or higher than a predetermined threshold value (also referred to as “threshold value Th2”) to be the candidate video data Cd1 (which is the target for providing the reference time TF). It is also selected as "reference candidate video data Cd2").
  • the reference time determination unit 16 determines the shooting time zone or the shooting time of the reference candidate video data Cd2 as the reference time Tref.
  • the reference time determination unit 16 sets the shooting time zone of the reference candidate video data Cd2 as the reference time Tref as it is.
  • the reference time determination unit 16 sets the center time (or other representative time) of the shooting time zone of the reference candidate video data Cd2 as the reference time Tref.
  • the reference time Tref set in this way is a characteristic shooting time or shooting time zone in which a specific event is likely to occur.
  • the other camera shot extraction unit 17 extracts another camera shot Sh, which is a set of video data, from the second material video data D2 based on the reference time Tref, and supplies the extracted other camera shot Sh to the digest candidate generation unit 18. do.
  • the other camera shot extraction unit 17 detects two times (also referred to as “switching points”) at which the video or sound changes or switches in the second material video data D2 based on the reference time TF. Then, the other camera shot extraction unit 17 extracts the video data corresponding to the section of the second material video data D2 determined by the two detected switching points as the other camera shot Sh.
  • the switching point may be the time when the shooting target is switched between the continuous images constituting the second material video data D2, and the time when the volume of the sound included in the second material video data D2 is significantly changed. It may be.
  • the switching point that is the start point of the other camera shot Sh is referred to as a “first switching point”
  • the switching point that is the end point of the other camera shot Sh is referred to as a “second switching point”.
  • the digest candidate generation unit 18 generates a digest candidate Cd based on the candidate video data Cd1 supplied from the candidate video data selection unit 15 and the other camera shot Sh supplied from the other camera shot extraction unit 17. For example, the digest candidate generation unit 18 generates one video data in which all candidate video data Cd1 and all other camera shots Sh are combined as digest candidate Cd. In this case, the digest candidate generation unit 18 generates, for example, a digest candidate Cd in which the candidate video data Cd1 and another camera shot Sh are arranged and concatenated in chronological order for each scene.
  • the digest candidate generation unit 18 may generate a list of the candidate video data Cd1 and another camera shot Sh as the digest candidate Cd instead of generating one video data as the digest candidate Cd.
  • the digest candidate generation unit 18 may display the digest candidate Cd on the output device 3 and accept the user input for selecting the video data to be included in the final digest by the input device 2. Further, the digest candidate generation unit 18 may generate a digest candidate Cd using only a part of the selected candidate video data Cd1 and another camera shot Sh.
  • the digest candidate generation unit 18 may store the generated digest candidate Cd in the storage device 4 or the memory 12, or may transmit the generated digest candidate Cd to an external device other than the storage device 4. Further, the digest candidate generation unit 18 may reproduce the digest candidate Cd by the output device 3 by transmitting the output signal S2 for reproducing the digest candidate Cd to the output device 3.
  • FPGA field-programmable gate array
  • FIG. 4A is a diagram showing the first material video data D1 by a band graph having a length corresponding to the reproduction time length (that is, the number of frames) of the first material video data D1.
  • FIG. 4B is a line graph showing the first score of the first material video data D1 in time series.
  • FIG. 4C is a diagram showing the second material video data D2 by a band graph having a length corresponding to the reproduction time length of the second material video data D2.
  • FIG. 4D is a line graph showing the first score of the second material video data D2 in time series.
  • the candidate video data selection unit 15 determines that the first score of the section video data corresponding to “scene A1” and “scene B1” is the threshold value Th1 or more. Then, these section video data are selected as the candidate video data Cd1.
  • the candidate video data selection unit 15 determines the candidate video data Cd1 for each group of section video data whose first score is the threshold value Th1 or more.
  • the scene A1 and the scene B1 each correspond to a scene in which one or a plurality of section video data having a first score of the threshold value Th1 or more are continuous.
  • the candidate video data selection unit 15 has the scene A1 corresponding to the section from the reproduction time “t1” to the reproduction time “t2” of the first material video data D1 and the reproduction time “t3” to the reproduction time “t4”.
  • the scene B1 corresponding to the section of is defined as the candidate video data Cd1 respectively.
  • the reference time determination unit 16 calculates a second score for the candidate video data Cd1 constituting the scene A1 and the scene B1, and uses the candidate video data Cd1 having the second score equal to or higher than the threshold value Th2 as the reference candidate video. It is regarded as data Cd2.
  • the reference time determination unit 16 determines that the second score of the candidate video data Cd1 corresponding to the scene A1 is equal to or higher than the threshold value Th2, and the second score of the candidate video data Cd1 corresponding to the scene B1 is less than the threshold value Th2. do. Therefore, in this case, the reference time determination unit 16 regards the scene A1 as the reference candidate video data Cd2 and sets the reference time Tref.
  • the reference time determination unit 16 calculates the second score for each candidate video data Cd1 by inputting the candidate video data Cd1 into the second inferior configured with reference to the second inferior information D4. At this time, when the candidate video data Cd1 is composed of a plurality of section video data, the reference time determination unit 16 divides the candidate video data Cd1 into sections and sequentially inputs the candidate video data Cd1 to the second inference device, and the second inference device.
  • the above-mentioned second score may be calculated by performing statistical processing such as averaging the inference results of.
  • FIG. 5A is a band graph of the first material video data D1 which is the same as FIG. 4A.
  • FIG. 5B is a band graph of the second material video data D2 clearly showing the other camera shot Sh.
  • 5 (C) is a band graph of the digest candidate Cd generated based on the first material video data D1 shown in FIG. 5 (A) and the second material video data D2 shown in FIG. 5 (B).
  • the reference time determination unit 16 sets the shooting time zone of the scene A1 determined to be the reference candidate video data Cd2 (that is, the time zone from the time t1 to the time t2) as the reference time Tref.
  • the other camera shot extraction unit 17 extracts "scene A2" of the second material video data D2 as another camera shot Sh based on the reference time TF.
  • the other camera shot extraction unit 17 searches for a first switching point that is the start point of the other camera shot Sh with reference to the start point t1 of the reference time Tref, and uses the end point t2 of the reference time Tref as a reference for the other camera shot Sh. Search for the second switching point that is the end point.
  • the other camera shot extraction unit 17 detects the time "t11", which is the switching point of the second material video data D2 closest to the time t1, as the first switching point, and the second material video data D2 closest to the time t2.
  • the time "t21" which is the switching point of, is detected as the second switching point.
  • the other camera shot extraction unit 17 extracts the scene A2 specified by the first switching point and the second switching point as another camera shot Sh.
  • the digest candidate generation unit 18 is a digest in which the scene A1 and the scene B1 which are the candidate video data Cd1 and the scene A2 which is another camera shot Sh are connected in chronological order. Generate candidate Cd.
  • the digest candidate generation unit 18 collectively incorporates the continuous video data in the time series extracted from the same material video data into the digest candidate Cd without separating them.
  • the digest candidate generation unit 18 sets each of these scenes into a single scene. Is incorporated into the digest candidate Cd. As a result, the digest candidate generation unit 18 suppresses the generation of unnatural digest candidate Cd.
  • FIG. 6A is a band graph of the first material video data D1 which is the same as FIG. 4A.
  • FIG. 6B is a band graph of the second material video data D2 clearly showing the other camera shot Sh.
  • FIG. 6C is a band graph of the digest candidate Cd generated based on the first material video data D1 shown in FIG. 6A and the second material video data D2 shown in FIG. 6B.
  • the reference time determination unit 16 sets the representative time “t10” of the shooting time zone of the scene A1 that is determined to require the setting of the reference time Tref as the reference time Tref.
  • the time t10 is an intermediate time between the start time t1 and the end time t2 of the shooting time zone.
  • the other camera shot extraction unit 17 extracts "scene A3" of the second material video data D2 as another camera shot Sh based on the reference time TF.
  • the other camera shot extraction unit 17 searches for the first switching point from the time before the reference time Tref, and searches for the second switching point from the time after the reference time Tref, for example.
  • the other camera shot extraction unit 17 detects the time "t31”, which is the closest switching point at the time before the reference time Tref, as the first switching point, and is the closest at the time after the time t10.
  • the time "t41" which is the switching point is detected as the second switching point.
  • the digest candidate generation unit 18 is a digest candidate in which the scene A1 and the scene B1 which are the candidate video data Cd1 and the scene A3 which is another camera shot Sh are connected in chronological order. Generate Cd.
  • the scene A2 which is the other camera shot Sh included in the digest candidate Cd shown in FIG. 5 (C) and the scene A3 which is the other camera shot Sh included in the digest candidate Cd shown in FIG. 6 (C) are Each corresponds to a section of the second material video data D2 in which the first score is less than the threshold Th1 (see FIG. 4D).
  • the information processing apparatus 1 uses the video data of the second camera corresponding to the important scene as the digest candidate Cd regardless of the first score regardless of whether the reference time Tref is the time zone or the time. Can be suitably included in.
  • the other camera shot extraction unit 17 may, for example, have an index value (for example, the total luminance difference for each pixel) based on the difference in the luminance distribution between consecutive images of the second material video data D2 or between images spaced by a predetermined number of images. Value) is calculated. Then, the other camera shot extraction unit 17 detects the time between the target images as a switching point when the calculated index value is equal to or higher than a predetermined threshold value. In another example, the other camera shot extraction unit 17 calculates the difference in the number of detected edges between consecutive images of the second material video data D2 or between images spaced by a predetermined number of sheets. Then, when the calculated difference is equal to or greater than a predetermined threshold value, the other camera shot extraction unit 17 detects the time between the target images as a switching point.
  • an index value for example, the total luminance difference for each pixel
  • the other camera shot extraction unit 17 calculates the sound volume of the first material video data D1 in time series, and detects the time when the degree of change in the sound volume becomes equal to or higher than a predetermined threshold value as a switching point. do.
  • the other camera shot extraction unit 17 may arbitrarily combine the switching point detection methods. In this case, the other camera shot extraction unit 17 compares, for example, the index values calculated for each detection method to be adopted with the threshold values prepared individually (or compares these total index values with a single threshold value). By), the switching point is detected.
  • FIG. 7 is a schematic configuration diagram of a learning system for learning the first inference device and the second inference device.
  • the learning system has a learning device 6 that can refer to the learning data D5.
  • the learning device 6 has the same configuration as that of the information processing device 1 shown in FIG. 2, for example, and mainly has a processor 21, a memory 22, and an interface 23.
  • the learning device 6 may be an information processing device 1 or any device other than the information processing device 1.
  • the learning data D5 is a learning material data that is learning material data, a first label that is a correct answer label for a first score for learning material data, and a first label that is a correct answer label for a second score for learning material data. Includes 2 labels.
  • the first label is, for example, information for distinguishing an important section and a non-important section in the learning material data.
  • the second label is, for example, information for identifying the occurrence section of a specific event in the learning material data.
  • the second label may be information for distinguishing an important section from a non-important section in the learning material data, like the first label.
  • the learning material data may be provided for each of the learning of the first inference device and the learning of the second inference device.
  • the learning device 6 refers to the learning data D5, and learns the first inference device based on the learning material data and the first label.
  • the learning device 6 outputs the output of the first inference device when the section video data extracted from the learning material data is input to the first inference device, and the first correct answer indicated by the first label corresponding to the input data.
  • the parameters of the first inferior are determined so that the error (loss) from the score is minimized.
  • the algorithm for determining the above parameters to minimize the loss may be any learning algorithm used in machine learning such as gradient descent or backpropagation.
  • the learning device 6 sets the first score of the correct answer as the maximum value of the first score for the section video data of the learning material data designated as the important section by the first label, and the other section video data. , The first score of the correct answer may be the lowest value of the first score.
  • the learning device 6 refers to the learning data D5 and learns the second inference device based on the learning material data and the second label.
  • the learning device 6 outputs the output of the second inference device when the section video data extracted from the learning material data is input to the second inference device, and the second correct answer indicated by the second label corresponding to the input data.
  • the parameters of the second inferior are determined so that the error (loss) from the score is minimized.
  • the learning device 6 generates the parameter of the first inference device obtained by learning as the first inference device information D3, and the parameter of the second inference device obtained by learning is used as the second inference device information D4. Generate.
  • the generated first inference device information D3 and second inference device information D4 may be immediately stored in the storage device 4 by data communication between the storage device 4 and the learning device 6, and may be immediately stored in the storage device 4 via a removable storage medium. It may be stored in the storage device 4.
  • the learning of the first inference device and the second inference device may be performed by different devices.
  • the learning device 6 is composed of a plurality of devices that perform learning of the first inference device and learning of the second inference device, respectively. Further, the first inference device and the second inference device may be learned for each type of the event for which the learning material data is photographed.
  • FIG. 8 is an example of a flowchart showing a procedure of processing executed by the information processing apparatus 1 in the first embodiment.
  • the information processing apparatus 1 processes the flowchart shown in FIG. 8, for example, when it detects a user input instructing the start of processing by designating the target first material video data D1 and the second material video data D2. To run.
  • the information processing apparatus 1 determines whether or not it is the end of the first material video data D1 (step S11). In this case, the information processing apparatus 1 is determined to be the end of the first material video data D1 when the processes of steps S12 and S13, which will be described later, are completed for all the sections of the target first material video data D1. judge. Then, when the information processing apparatus 1 is the end of the first material video data D1 (step S11; Yes), the information processing apparatus 1 proceeds to step S14. On the other hand, when the information processing apparatus 1 is not the end of the first material video data D1 (step S11; No), the information processing apparatus 1 targets the section video data of the first material video data D1 in which the processes of steps S12 and S13 have not been performed. , Step S12 and step S13 are executed.
  • step S12 the candidate video data selection unit 15 of the information processing apparatus 1 acquires the section video data corresponding to one section of the first material video data D1 (step S12).
  • the candidate video data selection unit 15 acquires the section video data of the first material video data D1 that has not been processed in steps S12 and S13 in the order of earliest reproduction time.
  • the candidate video data selection unit 15 calculates a first score for the section video data acquired in step S12, and determines whether or not the section video data is the candidate video data Cd1 (step S13). In this case, if the first score calculated by inputting the section video data into the first inferior configured with reference to the first inferior information D3 is the threshold Th1 or more, the candidate video data selection unit 15 has the section. The video data is considered to be the candidate video data Cd1. On the other hand, when the first score of the section video data is less than the threshold value Th1, the candidate video data selection unit 15 considers that the section video data is not the candidate video data Cd1.
  • the information processing apparatus 1 returns the process to step S11 and repeats steps S12 and S13 until the end of the first material video data D1 to all the section video data constituting the first material video data D1. The suitability for the candidate video data Cd1 is determined.
  • step S14 the reference time determination unit 16 determines the reference time Tref based on the second score for the candidate video data Cd1 selected in step S13 (step S14).
  • the reference time determination unit 16 calculates the second score by inputting the candidate video data Cd1 into the second inference device configured by referring to the second inference device information D4. Then, the reference time determination unit 16 considers the candidate video data Cd1 whose second score is the threshold value Th2 or more as the reference candidate video data Cd2, and sets the shooting time zone or the representative time of the reference candidate video data Cd2 as the reference time Tref. stipulate.
  • the other camera shot extraction unit 17 extracts another camera shot Sh from the second material video data D2 based on the reference time Tref determined in step S14 (step S15).
  • the other camera shot extraction unit 17 can suitably extract the video data taken from the second camera 8b as the other camera shot Sh in the time zone when a predetermined event is likely to occur.
  • the digest candidate generation unit 18 generates a digest candidate Cd based on the candidate video data Cd1 selected in step S13 and the other camera shot Sh selected in step S15 (step S16).
  • the digest candidate generation unit 18 generates video data in which the candidate video data Cd1 and another camera shot Sh are connected in chronological order as the digest candidate Cd.
  • the digest candidate generation unit 18 generates a list of the candidate video data Cd1 and the other camera shot Sh as the digest candidate Cd.
  • the need for automatic editing of sports video is increasing due to the two needs of shortening the time for editing sports video and expanding the content.
  • the automatic editing technology when an important scene is detected from the input video, it may be determined that it is important for one camera at a certain time, but it may not be determined to be important for another camera. In this case, the important scenes of another camera are missed, and it may not be possible to effectively produce the important scenes.
  • the information processing apparatus 1 also digests the video data of the second camera 8b taken in the same time zone as the important scene taken by the first camera 8a which is the main camera. Include in candidate Cd.
  • the information processing apparatus 1 can suitably generate digest candidate CDs using video data of a plurality of cameras for important scenes. This makes it possible to generate a digest video that is impressed by the viewer.
  • the information processing device 1 mainly shoots a player holding a ball for a scene determined to be important by a first camera 8a (such as a soccer camera) that takes a bird's-eye view of the whole.
  • the video data of (lower camera) from the same time to several seconds later can be included in the digest candidate Cd.
  • the information processing apparatus 1 can suitably generate the digest candidate Cd that incorporates the scene where the shot is shot at another angle and the goal performance.
  • the information processing apparatus 1 selects the candidate video data Cd1 for setting the reference time Tref based on the first score calculated by referring to the first inference device information D3 without referring to the second inference device information D4. You may go.
  • FIG. 9 is an example of a flowchart executed by the information processing apparatus 1 in the modified example 1.
  • the information processing apparatus 1 selects candidate video data Cd1 and reference candidate video data Cd2 by setting two threshold values (first threshold value Th11 and second threshold value Th12) for the first score. Make a selection.
  • the candidate video data selection unit 15 of the information processing apparatus 1 selects the section video data to be the candidate video data Cd1 by performing steps S21 to S23 in the same manner as steps S11 to S13 of FIG. ..
  • the candidate video data selection unit 15 selects the section video data whose first score is equal to or higher than the first threshold value Th11 as the candidate video data Cd1.
  • the reference time determination unit 16 determines the reference time Tref based on the reference candidate video data Cd2 whose first score is the second threshold value Th12 or more (step S24).
  • the second threshold value Th12 is set to a value higher than the first threshold value Th11. Therefore, in this case, the reference time determination unit 16 selects the reference candidate video data Cd2 having a particularly high importance among the candidate video data Cd1 selected in step S23 by the second threshold value Th12, and uses the selected reference candidate video data Cd2 as the selected reference candidate video data Cd2.
  • a reference time Threshold is provided.
  • the other camera shot extraction unit 17 extracts the other camera shot Sh from the second material video data D2 based on the reference time Tref (step S25). Then, the digest candidate generation unit 18 generates a digest candidate Cd based on the candidate video data Cd1 and the other camera shot Sh (step S26).
  • the information processing apparatus 1 preferably includes the camera shot Sh in addition to the second material video data D2 corresponding to the scene of particularly high importance in the first material video data D1 as the digest candidate Cd. can.
  • the information processing apparatus 1 may extract the video data of the second material video data D2 in the same shooting time zone as the reference candidate video data Cd2 for setting the reference time Tref as another camera shot Sh.
  • FIG. 10 (A) shows a band graph of the first material video data D1 which is the same as in FIGS. 4 (A) and 5 (A).
  • FIG. 10B shows a band graph of the second material video data D2 in which the other camera shot Sh is clearly shown.
  • FIG. 10C shows a band graph of the generated digest candidate Cd.
  • the reference time determination unit 16 sets the shooting time zone (time zone from time t1 to time t2) of the scene A1 in which the candidate video data Cd1 whose first score is the threshold Th1 or more is continuous as the reference time Tref. do.
  • the other camera shot extraction unit 17 extracts the “scene A4” of the second material video data D2, which is the shooting time zone from the time t1 to the time t2 corresponding to the reference time Tref, as the other camera shot Sh.
  • the digest candidate generation unit 18 generates a digest candidate Cd in which the scene A1 and the scene B1 which are the candidate video data Cd1 and the scene A4 which is another camera shot Sh are combined in chronological order.
  • the scene A4 which is another camera shot Sh and the scene A1 which is the corresponding candidate video data Cd1 are in the same shooting time zone.
  • the information processing apparatus 1 extracts another camera shot Sh from the second material video data D2 without detecting the switching point. Then, the scenes taken by the second camera 8b at the same time as the important scenes taken by the first camera 8a can be preferably included in the digest candidate Cd.
  • the information processing apparatus 1 may generate a digest candidate Cd based on the first material video data D1 to which a label for identifying whether or not it is an important section is attached in advance. In this case, the information processing apparatus 1 selects the candidate video data Cd1 by referring to the above label instead of selecting the candidate video data Cd1 by referring to the first inferencer information D3.
  • FIG. 11 is an example of a flowchart executed by the information processing apparatus 1 in the modified example 3.
  • the candidate video data selection unit 15 of the information processing device 1 acquires the first material video data D1 with a label for identifying whether or not it is an important section from the storage device 4 (step S31).
  • the reference time determination unit 16 sets the reference time Tref based on the candidate video data Cd1 selected based on the label attached to the first material video data D1 (step S32).
  • the candidate video data selection unit 15 considers the video data of the important section identified based on the label attached to the first material video data D1 as the candidate video data Cd1.
  • the reference time determination unit 16 selects the reference candidate video data Cd2 from the candidate video data Cd1 based on the second score, and sets the reference time Tref according to the shooting time zone of the reference candidate video data Cd2.
  • the reference time determination unit 16 sets the reference time Tref according to the shooting time zone of all the candidate video data Cd1 without selecting the reference candidate video data Cd2. You may.
  • the other camera shot extraction unit 17 extracts the other camera shot Sh from the second material video data D2 based on the reference time Tref (step S33). Then, the digest candidate generation unit 18 generates a digest candidate Cd based on the candidate video data Cd1 and the other camera shot Sh (step S34).
  • the information processing apparatus 1 can suitably generate the digest candidate Cd including the other camera shot Sh generated by the second camera 8b. Further, in this modification, the information processing apparatus 1 generates the digest candidate Cd without using the first inference device information D3.
  • the information processing apparatus 1 may generate a digest candidate CD based on video data generated by three or more cameras.
  • the other camera shot extraction unit 17 extracts the other camera shot Sh from the second material video data D2, and other from each material video data taken by cameras other than the first camera 8a and the second camera 8b. Extract the camera shot Sh.
  • the other camera shot extraction unit 17 extracts the other camera shot Sh for each material video data by, for example, detecting the first switching point and the second switching point of each material video data based on the reference time TF. do.
  • the other camera shot extraction unit 17 may extract video data in the same shooting time zone as the reference candidate video data Cd2 from each material video data as another camera shot Sh based on the modification 2.
  • the digest candidate generation unit 18 generates a digest candidate Cd based on the other camera shot Sh extracted from each material video data and the candidate video data Cd1.
  • the information processing apparatus 1 can suitably generate the digest candidate CDd based on the video data generated by the three or more cameras.
  • the reference time determination unit 16 sets the reference time Tref based on the shooting time zone of all the candidate video data Cd1 without using the second score.
  • the information processing apparatus 1 can preferably include the other camera shot Sh of the second material video data D2 corresponding to the scene of high importance in the first material video data D1 as the digest candidate Cd.
  • the information processing apparatus 1 also calculates the first time-series score for the second material video data D2 in the same manner as the first material video data D1, and the second material video data D2 having the first score equal to or higher than the threshold Th1.
  • the video data (scene) of the section of may be included in the digest candidate Cd.
  • FIG. 12 is a functional block diagram of the information processing apparatus 1X according to the second embodiment.
  • the information processing apparatus 1X mainly includes a reference time determining means 16X, another camera shot extracting means 17X, and a digest candidate generating means 18X.
  • the reference time determining means 16X is a reference for extracting the video data of the second camera different from the first camera based on the candidate video data "Cd1" which is a candidate for the digest of the first material video data taken by the first camera.
  • the reference time "Tref" which is the time or time zone, is determined.
  • the reference time determining means 16X can be the reference time determining unit 16 of the first embodiment (including a modification, the same applies hereinafter).
  • the reference time determining means 16X may receive the candidate video data Cd1 from other components in the information processing apparatus 1X that selects the candidate video data Cd1, and the external device that selects the candidate video data Cd1.
  • Candidate video data Cd1 may be received from (that is, a device other than the information processing device 1X).
  • the other camera shot extracting means 17X extracts another camera shot "Sh" which is a part of the video data of the second material video data taken by the second camera based on the reference time TF.
  • the other camera shot extraction means 17X can be the other camera shot extraction unit 17 of the first embodiment.
  • the digest candidate generation means 18X generates a digest candidate "Cd" which is a digest candidate for the first material video data and the second material video data based on the candidate video data Cd1 and the other camera shot Sh.
  • the digest candidate generation means 18X can be the digest candidate generation unit 18 of the first embodiment.
  • the digest candidate generation means 18X generates a digest candidate Cd, which is one video data obtained by combining the candidate video data Cd1 and another camera shot Sh.
  • the digest candidate generation means 18X may generate a list of the candidate video data Cd1 and the other camera shot Sh as the digest candidate Cd.
  • the digest candidate Cd may include video data other than the candidate video data Cd1 and other camera shot Sh.
  • FIG. 13 is an example of a flowchart executed by the information processing apparatus 1X in the second embodiment.
  • the reference time determining means 16X is a reference time or time zone for extracting the video data of the second camera based on the candidate video data Cd1 which is a candidate for the digest of the first material video data taken by the first camera.
  • the reference time Tref is determined (step S41).
  • the other camera shot extracting means 17X extracts another camera shot Sh, which is a part of the video data of the second material video data taken by the second camera, based on the reference time TF (step S42).
  • the digest candidate generation means 18X generates a digest candidate Cd based on the candidate video data Cd1 and the other camera shot Sh (step S43).
  • the information processing apparatus 1X can suitably generate a digest candidate including images taken from a plurality of cameras.
  • Non-temporary computer-readable media include various types of tangible storage media.
  • Examples of non-temporary computer-readable media include magnetic storage media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical storage media (eg, magneto-optical disks), CD-ROMs (ReadOnlyMemory), CD-Rs, Includes CD-R / W, semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (RandomAccessMemory)).
  • the program may also be supplied to the computer by various types of temporary computer readable medium.
  • temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • a reference that is a reference time or time zone for extracting video data of a second camera different from the first camera based on candidate video data that is a candidate for a digest of the first material video data taken by the first camera.
  • a reference time determining means for determining the time, and Other camera shot extraction means for extracting other camera shots, which are part of the video data of the second material video data taken by the second camera, based on the reference time.
  • a digest candidate generation means for generating a digest candidate that is a candidate for the digest for the first material video data and the second material video data based on the candidate video data and the other camera shot.
  • the other camera shot extraction means detects a switching point at which a change or switching of video or sound occurs in the second material video data based on the reference time, and extracts the other camera shot based on the switching point.
  • the information processing apparatus according to Appendix 1.
  • Appendix 3 When the reference time indicates a time zone, the other camera shot extracting means searches with reference to the first switching point of the second material video data searched with reference to the start point of the time zone and the end point of the time zone.
  • the information processing apparatus according to Appendix 2 which extracts the other camera shot based on the second switching point of the second material video data.
  • Appendix 4 The information processing apparatus according to Appendix 1, wherein the other camera shot extracting means extracts the video data of the second material video data corresponding to the time zone indicated by the reference time as the other camera shot.
  • the reference time determining means selects reference candidate video data, which is the candidate video data used for determining the reference time, based on the first score for the candidate video data or a second score different from the first score. , The information processing apparatus according to Appendix 5.
  • the candidate video data selection means inputs section video data for each section of the first material video data to the first inference device learned to infer the first score for the input video data.
  • the candidate video data is selected based on the first score obtained by the above.
  • the reference time determining means obtains the second score by inputting the candidate video data to the second inference device learned to infer the second score with respect to the input video data.
  • the information processing apparatus according to Appendix 5 or 6, which selects the reference candidate video data based on the above.
  • the first inference device is an inference device learned based on learning material video data labeled as to whether or not it is an important section.
  • the candidate video data selection means selects the candidate video data from the first material video data by comparing the first score with the first threshold value.
  • the information processing apparatus according to Appendix 6, wherein the reference time determining means selects the reference candidate video data by comparing the first score with a second threshold that is a stricter reference than the first threshold.
  • a reference time or time zone for extracting video data of a second camera different from the first camera based on candidate video data that is a candidate for a digest of the first material video data taken by the first camera. Determine the time, Based on the reference time, another camera shot, which is a part of the video data of the second material video data taken by the second camera, is extracted. Based on the candidate video data and the other camera shot, a digest candidate which is a digest candidate for the first material video data and the second material video data is generated. Control method.
  • a reference that is a reference time or time zone for extracting video data of a second camera different from the first camera based on candidate video data that is a candidate for a digest of the first material video data taken by the first camera.
  • a reference time determining means for determining the time
  • Other camera shot extraction means for extracting other camera shots, which are part of the video data of the second material video data taken by the second camera, based on the reference time.
  • a program that causes a computer to function as a digest candidate generation means for generating digest candidates that are digest candidates for the first material video data and the second material video data based on the candidate video data and the other camera shots.
  • Stored storage medium Stored storage medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

情報処理装置1Xは、主に、基準時間決定手段16Xと、他カメラショット抽出手段17Xと、ダイジェスト候補生成手段18Xとを有する。基準時間決定手段16Xは、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データCd1に基づき、第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間Trefを決定する。他カメラショット抽出手段17Xは、基準時間Trefに基づき、第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットShを抽出する。ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShと、に基づき、第1素材映像データ及び第2素材映像データに対するダイジェストの候補であるダイジェスト候補Cdを生成する。

Description

情報処理装置、制御方法及び記憶媒体
 本開示は、ダイジェストの生成に関する処理を行う情報処理装置、制御方法及び記憶媒体の技術分野に関する。
 素材となる映像データを編集してダイジェストを生成する技術が存在する。例えば、特許文献1には、グランドでのスポーツイベントの映像ストリームからハイライトを確認して製作する方法が開示されている。
特表2019-522948号公報
 スポーツなどを対象とする撮影では、複数のカメラを用いて撮影を行うことが一般である。一方、特許文献1には、複数カメラにより夫々生成された映像データに基づきダイジェストを生成する方法については、何ら開示がない。
 本開示の目的は、上記の課題を勘案し、複数カメラの映像データに基づくダイジェスト候補を好適に生成することが可能な情報処理装置、制御方法及び記憶媒体を提供することである。
 情報処理装置の一の態様は、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、を有する情報処理装置である。
 制御方法の一の態様は、コンピュータにより、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定し、前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出し、前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成する、制御方法である。
 記憶媒体の一の態様は、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段としてコンピュータを機能させるプログラムが格納された記憶媒体である。
 本開示によれば、複数のカメラにより生成された映像データに基づくダイジェストの候補を好適に生成することができる。
第1実施形態におけるダイジェスト候補選定システムの構成を示す。 情報処理装置のハードウェア構成を示す。 情報処理装置の機能ブロックの一例である。 (A)第1素材映像データの再生時間長に応じた長さの帯グラフにより第1素材映像データを表した図である。(B)第1素材映像データの時系列での第1スコアを示す線グラフである。(C)第2素材映像データの再生時間長に応じた長さの帯グラフにより第2素材映像データを表した図である。(D)第2素材映像データの時系列での第1スコアを示す線グラフである。 (A)第1素材映像データの帯グラフである。(B)他カメラショットを明示した第2素材映像データの帯グラフである。(C)第1素材映像データ及び第2素材映像データに基づき生成されるダイジェスト候補の帯グラフである。 (A)第1素材映像データD1の帯グラフである。(B)他カメラショットを明示した第2素材映像データの帯グラフである。(C)第1素材映像データ及び第2素材映像データに基づき生成されるダイジェスト候補の帯グラフである。 第1推論器及び第2推論器の学習を行う学習システムの概略構成図である。 第1実施形態において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 変形例1において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 (A)第1素材映像データの帯グラフを示す。(B)他カメラショットを明示した第2素材映像データの帯グラフを示す。(C)生成されたダイジェスト候補の帯グラフを示す。 変形例3において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 第2実施形態における情報処理装置の機能ブロック図である。 第2実施形態において情報処理装置が実行するフローチャートの一例である。
 以下、図面を参照しながら、情報処理装置、制御方法及び記憶媒体の実施形態について説明する。
 <第1実施形態>
 (1)システム構成
 図1は、第1実施形態に係るダイジェスト候補選定システム100の構成を示す。ダイジェスト候補選定システム100は、複数のカメラにより撮影された映像データからダイジェストの候補となる映像データ(「ダイジェスト候補Cd」とも呼ぶ。)を好適に選定する。ダイジェスト候補選定システム100は、主に、情報処理装置1と、入力装置2と、出力装置3と、記憶装置4と、第1カメラ8aと、第2カメラ8bと、を備える。以後において、映像データは、音データを含んでもよい。また、ダイジェスト候補Cdの選定において素材となる映像データを「素材映像データ」と呼ぶ。
 情報処理装置1は、通信網を介し、又は、無線若しくは有線による直接通信により、入力装置2、及び出力装置3とデータ通信を行う。情報処理装置1は、第1カメラ8a及び第2カメラ8bが撮影した各素材映像データに基づき、ダイジェスト候補Cdを生成する。
 第1カメラ8a及び第2カメラ8bは、例えば、催し物の会場(例えばスポーツフィールド)において用いられるカメラであり、同一時間帯において異なる位置から催し物に関する撮影を行う。例えば、第1カメラ8aは、ダイジェスト候補Cdを生成する主な映像を生成するカメラであり、第2カメラ8bは、特定の重要場面においてダイジェスト候補Cdの一部として採用される映像を生成するカメラである。例えば、球技の撮影では、第1カメラ8aは、球技場の全体を撮影するカメラであり、第2カメラ8bは、球付近の選手を主に撮影するカメラであってもよい。
 入力装置2は、ユーザ入力を受け付ける任意のユーザインターフェースであり、例えば、ボタン、キーボード、マウス、タッチパネル、音声入力装置などが該当する。入力装置2は、ユーザ入力に基づき生成した入力信号「S1」を、情報処理装置1へ供給する。出力装置3は、例えば、ディスプレイ、プロジェクタ等の表示装置、及び、スピーカ等の音出力装置であり、情報処理装置1から供給される出力信号「S2」に基づき、所定の表示又は/及び音出力(ダイジェスト候補Cdの再生などを含む)を行う。
 記憶装置4は、情報処理装置1の処理に必要な各種情報を記憶するメモリである。記憶装置4は、例えば、第1素材映像データD1と、第2素材映像データD2と、第1推論器情報D3と、第2推論器情報D4とを記憶する。
 第1素材映像データD1は、第1カメラ8aが生成した映像データである。第2素材映像データD2は、第2カメラ8bが生成した映像データである。第1素材映像データD1及び第2素材映像データD2は、少なくとも一部が重複する時間帯に撮影された映像データとなる。また、第1素材映像データD1及び第2素材映像データD2には、撮影時刻を示すメタ情報が含まれている。
 なお、第1素材映像データD1及び第2素材映像データD2は、夫々、第1カメラ8a及び第2カメラ8bからデータ通信を介して記憶装置4に記憶されてもよく、持ち運び可能な記憶媒体を介して記憶装置4に記憶されてもよい。これらの場合、情報処理装置1は、第1カメラ8a及び第2カメラ8bからデータ通信又は記憶媒体を介して第1素材映像データD1及び第2素材映像データD2を受信した後、当該第1素材映像データD1及び第2素材映像データD2を記憶装置4に記憶してもよい。
 第1推論器情報D3は、入力された映像データに対する第1のスコア(「第1スコア」とも呼ぶ。)を推論する推論器である第1推論器に関する情報である。第1スコアは、例えば、入力された映像データの重要度を示すスコアであり、上述の重要度は、入力された映像データが重要区間であるか又は非重要区間であるか(即ちダイジェストの一区間として相応しいか否か)を判定するための基準となる指標である。
 第1推論器は、例えば、映像データを構成する所定枚数(1枚以上)の画像が入力された場合に、対象の映像データに対する第1スコアを推論するように予め学習され、第1推論器情報D3には、学習された第1推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、第1素材映像データD1を所定の再生時間長の区間毎に第1素材映像データD1を分割した映像データ(「区間映像データ」とも呼ぶ。)を、第1推論器に順次入力する。なお、第1推論器は、対象となる映像データを構成する画像に加え、当該映像データに含まれる音データを入力として第1スコアを推論してもよい。この場合、第1推論器には、音データから算出した特徴量が入力されてもよい。
 第2推論器情報D4は、入力された映像データに対する第2のスコア(「第2スコア」とも呼ぶ。)を推論する推論器である第2推論器に関する情報である。第2スコアは、特定のイベントが発生しているか否かの確からしさを示すスコアである。上述の「特定のイベント」は、撮影対象の催し物において重要なイベントを指し、例えば、催し物において重要な特定の行動(例えば野球におけるホームラン)の発生又はその他の事象の発生(例えば得点を競う競技における得点の発生)などが該当する。
 第2推論器は、例えば、映像データを構成する所定枚数の画像が入力された場合に、対象の映像データに対する第2スコアを推論するように予め学習され、第2推論器情報D4には、学習された第2推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、第1推論器が出力する第1スコアに基づき選定された区間映像データの各々を第2推論器に順次入力する。なお、第2推論器は、対象となる映像データを構成する画像に加え、当該映像データに含まれる音データを入力として第2スコアを推論してもよい。
 第1推論器及び第2推論器の学習モデルは、それぞれ、ニューラルネットワーク又はサポートベクターマシンなどの任意の機械学習に基づく学習モデルであってもよい。例えば、上述の第1推論器及び第2推論器のモデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、第1推論器情報D3及び第2推論器情報D4は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。
 なお、記憶装置4は、情報処理装置1に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶装置4は、情報処理装置1とデータ通信を行うサーバ装置であってもよい。また、記憶装置4は、複数の装置から構成されてもよい。この場合、記憶装置4は、第1推論器情報D3及び第2推論器情報D4を分散して記憶してもよい。
 以上において説明したダイジェスト候補選定システム100の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、入力装置2及び出力装置3は、一体となって構成されてもよい。この場合、入力装置2及び出力装置3は、情報処理装置1と一体となるタブレット型端末として構成されてもよい。他の例では、ダイジェスト候補選定システム100は、入力装置2又は出力装置3の少なくとも一方を備えなくともよい。さらに別の例では、情報処理装置1は、複数の装置から構成されてもよい。この場合、情報処理装置1を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。
 (2)情報処理装置のハードウェア構成
 図2は、情報処理装置1のハードウェア構成を示す。情報処理装置1は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12及びインターフェース13は、データバス19を介して接続されている。
 プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、量子プロセッサなどのプロセッサである。
 メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ12には、情報処理装置1が実行するプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置4から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置4として機能してもよい。同様に、記憶装置4は、情報処理装置1のメモリ12として機能してもよい。なお、情報処理装置1が実行するプログラムは、メモリ12以外の記憶媒体に記憶されてもよい。
 インターフェース13は、情報処理装置1と他の装置とを電気的に接続するためのインターフェースである。例えば、情報処理装置1と他の装置とを接続するためのインターフェースは、プロセッサ11の制御に基づき他の装置とデータの送受信を有線又は無線により行うためのネットワークアダプタなどの通信インターフェースであってもよい。他の例では、情報処理装置1と他の装置とはケーブル等により接続されてもよい。この場合、インターフェース13は、他の装置とデータの授受を行うためのUSB(Universal Serial Bus)、SATA(Serial AT Attachment)などに準拠したハードウェアインターフェースを含む。
 なお、情報処理装置1のハードウェア構成は、図2に示す構成に限定されない。例えば、情報処理装置1は、入力装置2又は出力装置3の少なくとも一方を含んでもよい。
 (3)機能ブロック
 情報処理装置1は、ダイジェスト候補Cdに含める区間映像データの候補(「候補映像データCd1」とも呼ぶ。)に基づき、第2カメラの映像データを抽出する基準となる撮影時刻又は撮影時間帯(「基準時間Tref」とも呼ぶ。)を決定する。そして、情報処理装置1は、基準時間Trefに基づき第2素材映像データD2から抽出した一まとまりの映像データ(「他カメラショットSh」とも呼ぶ。)と、候補映像データCd1とに基づき、ダイジェスト候補Cdを生成する。以下では、上述の処理を実現するための情報処理装置1の機能ブロックについて説明する。
 情報処理装置1のプロセッサ11は、機能的には、候補映像データ選定部15と、基準時間決定部16と、他カメラショット抽出部17と、ダイジェスト候補生成部18とを有する。なお、図3では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図3に限定されない。後述する他の機能ブロックの図においても同様である。
 候補映像データ選定部15は、インターフェース13を介して取得した第1素材映像データD1に対して区間毎に第1スコアを算出し、第1スコアに基づき候補映像データCd1を区間映像データから選定する。そして、候補映像データ選定部15は、選定した候補映像データCd1を、基準時間決定部16及びダイジェスト候補生成部18に供給する。
 この場合、まず、候補映像データ選定部15は、第1素材映像データD1を区間毎に分割した映像データである区間映像データを生成する。ここで、区間映像データは、例えば、第1素材映像データD1を単位時間長の区間により区切ったデータであり、所定枚数分の画像を含むデータとなる。そして、候補映像データ選定部15は、第1推論器情報D3を参照することで第1推論器を構成し、区間映像データを第1推論器に順次入力することで、入力した区間映像データに対する第1スコアを算出する。これにより、候補映像データ選定部15は、重要性が高い区間映像データほど高い値となる第1スコアを算出する。そして、候補映像データ選定部15は、第1スコアが予め定めた所定の閾値(「閾値Th1」とも呼ぶ。)以上となる区間映像データを、候補映像データCd1として選定する。
 なお、候補映像データ選定部15は、第1スコアが閾値Th1以上となる区間映像データが時系列において連続する1つのシーンを構成する場合、連続する区間映像データを、1つのまとまった候補映像データCd1とみなしてもよい。この場合、候補映像データCd1は、少なくとも1つ以上の区間映像データを含み、再生時間長が夫々異なる可能性がある映像データとなる。
 基準時間決定部16は、候補映像データCd1に基づき、基準時間Trefを決定する。そして、基準時間決定部16は、決定した基準時間Trefを他カメラショット抽出部17に供給する。
 この場合、基準時間決定部16は、第2推論器情報D4を参照することで第2推論器を構成し、当該第2推論器に候補映像データCd1を順次入力することで、入力した候補映像データCd1に対する第2スコアを算出する。ここで、第2スコアは、特定のイベントが発生している蓋然性が高いほど高い値を示す。そして、基準時間決定部16は、第2スコアが予め定めた所定の閾値(「閾値Th2」とも呼ぶ。)以上となる候補映像データCd1を、基準時間Trefを設ける対象となる候補映像データCd1(「基準候補映像データCd2」とも呼ぶ。)として選定する。そして、基準時間決定部16は、基準候補映像データCd2の撮影時間帯又は撮影時刻を、基準時間Trefとして定める。この場合、第1の例では、基準時間決定部16は、基準候補映像データCd2の撮影時間帯を、そのまま基準時間Trefとして設定する。第2の例では、基準時間決定部16は、基準候補映像データCd2の撮影時間帯の中心時刻(又はその他の代表的な時刻)を、基準時間Trefとして設定する。このように設定された基準時間Trefは、特定のイベントが発生している蓋然性が高い特徴的な撮影時刻又は撮影時間帯となる。
 他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2から一まとまりの映像データである他カメラショットShを抽出し、抽出した他カメラショットShをダイジェスト候補生成部18へ供給する。この場合、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2において映像又は音の変化又は切替が発生する時刻(「切替点」とも呼ぶ。)を2つ検出する。そして、他カメラショット抽出部17は、検出した2つの切替点により定まる第2素材映像データD2の区間に対応する映像データを、他カメラショットShとして抽出する。ここで、切替点は、第2素材映像データD2を構成する連続する画像間において撮影対象が切り替わった時点であってもよく、第2素材映像データD2に含まれる音のボリュームが大きく変化した時点であってもよい。以後では、他カメラショットShの始点となる切替点を「第1切替点」と呼び、他カメラショットShの終点となる切替点を「第2切替点」と呼ぶ。
 ダイジェスト候補生成部18は、候補映像データ選定部15から供給される候補映像データCd1と、他カメラショット抽出部17から供給される他カメラショットShとに基づき、ダイジェスト候補Cdを生成する。例えば、ダイジェスト候補生成部18は、全ての候補映像データCd1と、全ての他カメラショットShとを結合した1つの映像データを、ダイジェスト候補Cdとして生成する。この場合、ダイジェスト候補生成部18は、例えば、シーンごとに時系列に候補映像データCd1及び他カメラショットShを並べて連結したダイジェスト候補Cdを生成する。
 なお、ダイジェスト候補生成部18は、ダイジェスト候補Cdとして1つの映像データを生成する代わりに、候補映像データCd1と他カメラショットShとのリストを、ダイジェスト候補Cdとして生成してもよい。この場合、ダイジェスト候補生成部18は、ダイジェスト候補Cdを出力装置3に表示させ、最終的なダイジェストに含める映像データを選択するユーザ入力などを入力装置2により受け付けてもよい。また、ダイジェスト候補生成部18は、選定された候補映像データCd1と他カメラショットShとの一部のみを用いてダイジェスト候補Cdを生成してもよい。
 ダイジェスト候補生成部18は、生成したダイジェスト候補Cdを、記憶装置4又はメモリ12に記憶させてもよく、記憶装置4以外の外部装置に送信してもよい。また、ダイジェスト候補生成部18は、ダイジェスト候補Cdを再生するための出力信号S2を出力装置3に送信することで、ダイジェスト候補Cdを出力装置3により再生してもよい。
 なお、図3において説明した候補映像データ選定部15、基準時間決定部16、他カメラショット抽出部17及びダイジェスト候補生成部18の各構成要素は、例えば、プロセッサ11が記憶装置4又はメモリ12に格納されたプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアを含む任意のコントローラにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
 (4)具体例
 次に、図3の機能ブロックに基づくダイジェスト候補Cdの生成の具体例について、図4(A)~(D)、図5(A)~(C)及び図6(A)~(C)を参照して説明する。
 図4(A)は、第1素材映像データD1の再生時間長(即ちフレーム数)に応じた長さの帯グラフにより第1素材映像データD1を表した図である。図4(B)は、第1素材映像データD1の時系列での第1スコアを示す線グラフである。図4(C)は、第2素材映像データD2の再生時間長に応じた長さの帯グラフにより第2素材映像データD2を表した図である。図4(D)は、第2素材映像データD2の時系列での第1スコアを示す線グラフである。
 図4(A)及び図4(B)に示すように、候補映像データ選定部15は、「シーンA1」及び「シーンB1」に該当する区間映像データの第1スコアが閾値Th1以上となると判定し、これらの区間映像データを候補映像データCd1として選定する。ここで、候補映像データ選定部15は、第1スコアが閾値Th1以上となる区間映像データのまとまり毎に、候補映像データCd1を定める。図4(A)の例では、シーンA1及びシーンB1は、夫々、第1スコアが閾値Th1以上となる1又は複数の区間映像データが連続したシーンに相当する。よって、候補映像データ選定部15は、第1素材映像データD1の再生時刻「t1」から再生時刻「t2」までの区間に対応するシーンA1と、再生時刻「t3」から再生時刻「t4」までの区間に対応するシーンB1とを、夫々候補映像データCd1と定める。
 次に、基準時間決定部16は、シーンA1及びシーンB1を構成する候補映像データCd1に対して第2スコアを算出し、第2スコアが閾値Th2以上となる候補映像データCd1を、基準候補映像データCd2とみなす。ここでは、基準時間決定部16は、シーンA1に対応する候補映像データCd1の第2スコアが閾値Th2以上となり、シーンB1に対応する候補映像データCd1の第2スコアが閾値Th2未満であると判定する。よって、この場合、基準時間決定部16は、シーンA1を基準候補映像データCd2とみなし、基準時間Trefを設定する。
 ここで、基準時間決定部16は、第2推論器情報D4を参照して構成した第2推論器に候補映像データCd1を入力することで、候補映像データCd1毎に第2スコアを算出する。このとき、候補映像データCd1が複数の区間映像データから構成される場合、基準時間決定部16は、候補映像データCd1を区間毎に分割して第2推論器に順次入力し、第2推論器の推論結果を平均化等の統計処理を行うことで、上述の第2スコアを算出してもよい。
 次に、基準時間Trefとして時間帯を設定する場合のダイジェスト候補Cdの生成例について説明する。
 図5(A)は、図4(A)と同一の第1素材映像データD1の帯グラフである。図5(B)は、他カメラショットShを明示した第2素材映像データD2の帯グラフである。図5(C)は、図5(A)に示す第1素材映像データD1及び図5(B)に示す第2素材映像データD2に基づき生成されるダイジェスト候補Cdの帯グラフである。
 この場合、基準時間決定部16は、基準候補映像データCd2であると判定したシーンA1の撮影時間帯(即ち時刻t1から時刻t2までの時間帯)を、基準時間Trefとして設定する。
 他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2の「シーンA2」を、他カメラショットShとして抽出する。この場合、他カメラショット抽出部17は、基準時間Trefの始点t1を基準として他カメラショットShの始点となる第1切替点を探索し、基準時間Trefの終点t2を基準として他カメラショットShの終点となる第2切替点を探索する。そして、他カメラショット抽出部17は、時刻t1に最も近い第2素材映像データD2の切替点となる時刻「t11」を第1切替点として検出し、時刻t2に最も近い第2素材映像データD2の切替点となる時刻「t21」を第2切替点として検出する。そして、他カメラショット抽出部17は、第1切替点と第2切替点とにより特定されるシーンA2を、他カメラショットShとして抽出する。
 次に、ダイジェスト候補生成部18は、図5(C)に示すように、候補映像データCd1であるシーンA1及びシーンB1と、他カメラショットShであるシーンA2とを時系列により連結させたダイジェスト候補Cdを生成する。この場合、ダイジェスト候補生成部18は、同一の素材映像データから抽出された時系列で連続する映像データについては、分離させることなくまとめてダイジェスト候補Cdに組み込む。図5(C)の例では、シーンA1、シーンA2、シーンB1は、夫々、時系列で連続する映像データに該当することから、ダイジェスト候補生成部18は、これらのシーンを夫々一まとまりのシーンとしてダイジェスト候補Cdに組み込んでいる。これにより、ダイジェスト候補生成部18は、不自然なダイジェスト候補Cdが生成されるのを抑制する。
 次に、基準時間Trefとして時刻を設定する場合のダイジェスト候補Cdの生成例について説明する。
 図6(A)は、図4(A)と同一の第1素材映像データD1の帯グラフである。図6(B)は、他カメラショットShを明示した第2素材映像データD2の帯グラフである。図6(C)は、図6(A)に示す第1素材映像データD1及び図6(B)に示す第2素材映像データD2に基づき生成されるダイジェスト候補Cdの帯グラフである。
 この場合、基準時間決定部16は、基準時間Trefの設定が必要と判定したシーンA1の撮影時間帯の代表時刻「t10」を、基準時間Trefとして設定する。ここでは、時刻t10は、撮影時間帯の開始時刻t1と終了時刻t2との中間時刻である。
 そして、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2の「シーンA3」を、他カメラショットShとして抽出する。この場合、他カメラショット抽出部17は、例えば、基準時間Trefより前の時刻から第1切替点を探索すると共に、基準時間Trefより後の時刻から第2切替点を探索する。そして、他カメラショット抽出部17は、基準時間Trefである時刻t10より前の時刻で最も近い切替点となる時刻「t31」を第1切替点として検出し、時刻t10より後の時刻で最も近い切替点となる時刻「t41」を第2切替点として検出する。そして、ダイジェスト候補生成部18は、図6(C)に示すように、候補映像データCd1であるシーンA1及びシーンB1と、他カメラショットShであるシーンA3とを時系列により連結させたダイジェスト候補Cdを生成する。
 ここで、図5(C)に示すダイジェスト候補Cdに含まれる他カメラショットShであるシーンA2と、図6(C)に示すダイジェスト候補Cdに含まれる他カメラショットShであるシーンA3とは、いずれも、第1スコアが閾値Th1未満となる第2素材映像データD2の区間に対応する(図4(D)参照)。このように、情報処理装置1は、基準時間Trefを時間帯又は時刻のいずれとする場合においても、第1スコアによらず、重要なシーンに該当する第2カメラの映像データを、ダイジェスト候補Cdに好適に含めることができる。
 ここで、図5(B)及び図6(B)において説明した切替点の検出方法について補足説明する。
 他カメラショット抽出部17は、例えば、第2素材映像データD2の連続する画像間又は所定枚数だけ間隔を空けた画像間の輝度の分布の差分に基づく指標値(例えば画素ごとの輝度差の合計値)を算出する。そして、他カメラショット抽出部17は、算出した指標値が所定の閾値以上となる場合に、対象となる画像間の時刻を、切替点として検出する。他の例では、他カメラショット抽出部17は、第2素材映像データD2の連続する画像間又は所定枚数だけ間隔を空けた画像間において、検出されるエッジ数の差分を算出する。そして、他カメラショット抽出部17は、算出した差分が所定の閾値以上となる場合に、対象となる画像間の時刻を切替点として検出する。
 さらに別の例では、他カメラショット抽出部17は、第1素材映像データD1の時系列での音ボリュームを算出し、音ボリュームの変化の度合が所定の閾値以上となる時刻を切替点として検出する。なお、他カメラショット抽出部17は、切替点の検出方法を任意に組み合わせてもよい。この場合、他カメラショット抽出部17は、例えば、採用する検出方法毎に算出した指標値を個々に用意した閾値と比較することで(又はこれらの総合指標値と単一の閾値とを比較することで)、切替点を検出する。
 (5)第1推論器及び第2推論器の学習
 次に、第1推論器及び第2推論器の学習による第1推論器情報D3及び第2推論器情報D4の生成について説明する。図7は、第1推論器及び第2推論器の学習を行う学習システムの概略構成図である。上記学習システムは、学習データD5を参照可能な学習装置6を有する。
 学習装置6は、例えば図2に示す情報処理装置1の構成と同一構成を有し、主に、プロセッサ21と、メモリ22と、インターフェース23とを有している。学習装置6は、情報処理装置1であってもよく、情報処理装置1以外の任意の装置であってもよい。
 学習データD5は、学習用の素材データである学習用素材データと、学習用素材データに対する第1スコアに関する正解ラベルである第1ラベルと、学習用素材データに対する第2スコアに関する正解ラベルである第2ラベルとを含んでいる。
 第1ラベルは、例えば、学習用素材データにおいて重要区間と非重要区間とを識別するための情報である。第2ラベルは、例えば、学習用素材データにおいて特定のイベントの発生区間を識別するための情報である。他の例では、第2ラベルは、第1ラベルと同様、学習用素材データにおいて重要区間と非重要区間とを識別するための情報であってもよい。なお、学習用素材データは、第1推論器の学習と第2推論器の学習とで夫々設けられてもよい。
 そして、学習装置6は、学習データD5を参照し、学習用素材データと、第1ラベルとに基づき、第1推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第1推論器に入力した場合の第1推論器の出力と、入力データに対応する第1ラベルが示す正解の第1スコアとの誤差(損失)が最小となるように、第1推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。なお、学習装置6は、第1ラベルにより重要区間と指定された学習用素材データの区間映像データについては、正解の第1スコアを第1スコアの最大値とし、それ以外の区間映像データについては、正解の第1スコアを第1スコアの最低値としてもよい。
 同様に、学習装置6は、学習データD5を参照し、学習用素材データと、第2ラベルとに基づき、第2推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第2推論器に入力した場合の第2推論器の出力と、入力データに対応する第2ラベルが示す正解の第2スコアとの誤差(損失)が最小となるように、第2推論器のパラメータを決定する。
 そして、学習装置6は、学習により得られた第1推論器のパラメータを、第1推論器情報D3として生成し、学習により得られた第2推論器のパラメータを、第2推論器情報D4として生成する。なお、生成された第1推論器情報D3及び第2推論器情報D4は、記憶装置4と学習装置6とのデータ通信により直ちに記憶装置4に記憶されてもよく、着脱可能な記憶媒体を介して記憶装置4に記憶されてもよい。
 なお、第1推論器と第2推論器の学習は、夫々別の装置により行われてもよい。この場合、学習装置6は、第1推論器の学習と第2推論器の学習とを夫々行う複数の装置から構成される。また、第1推論器及び第2推論器は、学習用素材データの撮影対象となった催し物の種類ごとに学習が行われてもよい。
 (6)処理フロー
 図8は、第1実施形態において情報処理装置1が実行する処理の手順を示すフローチャートの一例である。情報処理装置1は、図8に示すフローチャートの処理を、例えば、対象となる第1素材映像データD1及び第2素材映像データD2を指定して処理の開始を指示するユーザ入力を検知した場合等に実行する。
 まず、情報処理装置1は、第1素材映像データD1の終端であるか否か判定する(ステップS11)。この場合、情報処理装置1は、対象となる第1素材映像データD1の全ての区間について、後述するステップS12及びステップS13の処理が終了した場合に、第1素材映像データD1の終端であると判定する。そして、情報処理装置1は、第1素材映像データD1の終端である場合(ステップS11;Yes)、ステップS14へ処理を進める。一方、情報処理装置1は、第1素材映像データD1の終端ではない場合(ステップS11;No)、ステップS12及びステップS13の処理が行われていない第1素材映像データD1の区間映像データを対象として、ステップS12及びステップS13を実行する。
 ステップS12では、情報処理装置1の候補映像データ選定部15は、第1素材映像データD1の一区間に対応する区間映像データを取得する(ステップS12)。例えば、候補映像データ選定部15は、ステップS12及びステップS13の処理が行われていない第1素材映像データD1の区間映像データを、再生時刻が早い順に取得する。
 次に、候補映像データ選定部15は、ステップS12で取得した区間映像データに対して第1スコアを算出し、当該区間映像データが候補映像データCd1であるか否か判定する(ステップS13)。この場合、候補映像データ選定部15は、第1推論器情報D3を参照して構成した第1推論器に区間映像データを入力することで算出した第1スコアが閾値Th1以上の場合、当該区間映像データが候補映像データCd1であるとみなす。一方、候補映像データ選定部15は、区間映像データの第1スコアが閾値Th1未満の場合、当該区間映像データは候補映像データCd1でないとみなす。そして、情報処理装置1は、ステップS11へ処理を戻し、ステップS12及びステップS13を第1素材映像データD1の終端に至るまで繰り返すことで、第1素材映像データD1を構成する全ての区間映像データの候補映像データCd1への適否を判定する。
 ステップS14では、基準時間決定部16は、ステップS13で選定した候補映像データCd1に対する第2スコアに基づき、基準時間Trefを決定する(ステップS14)。この場合、基準時間決定部16は、第2推論器情報D4を参照することで構成した第2推論器に候補映像データCd1を入力することで第2スコアを算出する。そして、基準時間決定部16は、第2スコアが閾値Th2以上となる候補映像データCd1を基準候補映像データCd2とみなし、基準候補映像データCd2の撮影時間帯又は代表的な時刻を基準時間Trefとして定める。
 そして、他カメラショット抽出部17は、ステップS14で定めた基準時間Trefに基づき、第2素材映像データD2から他カメラショットShを抽出する(ステップS15)。これにより、他カメラショット抽出部17は、所定のイベントが発生した可能性が高い時間帯において第2カメラ8bから撮影された映像データを、他カメラショットShとして好適に抽出することができる。
 そして、ダイジェスト候補生成部18は、ステップS13で選定された候補映像データCd1と、ステップS15で選定された他カメラショットShとに基づき、ダイジェスト候補Cdを生成する(ステップS16)。この場合、例えば、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとを時系列により連結した映像データを、ダイジェスト候補Cdとして生成する。他の例では、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとのリストを、ダイジェスト候補Cdとして生成する。
 ここで、本実施形態による効果について補足説明する。
 スポーツ映像編集の時間短縮化とコンテンツ拡大の二つのニーズから、スポーツ映像の自動編集に対するニーズが高まっている。自動編集技術において、入力映像から重要なシーンを検出するとき、ある同じ時刻において片方のカメラに対しては重要と判定したが、別のカメラに対しては重要と判定しない場合がある。この場合、別カメラの重要シーンを逃してしまうことになり、重要なシーンに効果的な演出ができない場合があった。
 以上を勘案し、第1実施形態に係る情報処理装置1は、メインカメラである第1カメラ8aにより撮影された重要シーンと同様の時間帯で撮影された第2カメラ8bの映像データについてもダイジェスト候補Cdに含める。これにより、情報処理装置1は、重要なシーンに対し複数のカメラの映像データを使用したダイジェスト候補Cdを好適に生成することができる。これにより、視聴者により印象付けられるダイジェスト映像を生成できるようになる。例えば、情報処理装置1は、全体を俯瞰して撮影する第1カメラ8a(サッカーの上カメラなど)で重要と判定されたシーンに対し、ボールを保持する選手を主に撮影する第2カメラ8b(下カメラ)の、同時刻~数秒後までの映像データを、ダイジェスト候補Cdに含めることができる。これにより、情報処理装置1は、別アングルでシュートが放たれたシーンと、ゴールパフォーマンスとを取り込んだダイジェスト候補Cdを好適に生成することができる。
 (7)変形例
 次に、上記実施形態に好適な各変形例について説明する。以下の変形例は任意に組み合わせて上述の実施形態に適用してもよい。
 (変形例1)
 情報処理装置1は、第2推論器情報D4を参照することなく、第1推論器情報D3を参照して算出した第1スコアに基づいて、基準時間Trefを設定する候補映像データCd1の選定を行ってもよい。
 図9は、変形例1において情報処理装置1が実行するフローチャートの一例である。図9のフローチャートでは、情報処理装置1は、第1スコアに対して2つの閾値(第1閾値Th11、第2閾値Th12)を設定することで、候補映像データCd1の選定及び基準候補映像データCd2の選定を行う。
 まず、情報処理装置1の候補映像データ選定部15は、ステップS21~ステップS23を、図8のステップS11~ステップS13と同様に行うことで、候補映像データCd1となる区間映像データの選定を行う。この場合、ステップS23では、候補映像データ選定部15は第1スコアが第1閾値Th11以上となる区間映像データを、候補映像データCd1として選定する。
 その後、基準時間決定部16は、第1スコアが第2閾値Th12以上となる基準候補映像データCd2に基づき基準時間Trefを決定する(ステップS24)。この場合、第2閾値Th12は、第1閾値Th11よりも高い値に設定される。よって、この場合、基準時間決定部16は、ステップS23で選定した候補映像データCd1のうち特に重要度が高い基準候補映像データCd2を第2閾値Th12により選定し、選定した基準候補映像データCd2に対して基準時間Trefを設ける。
 その後、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2から他カメラショットShを抽出する(ステップS25)。そして、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとに基づき、ダイジェスト候補Cdを生成する(ステップS26)。
 本変形例によれば、情報処理装置1は、第1素材映像データD1において重要度が特に高いシーンに対応する第2素材映像データD2の他カメラショットShを好適にダイジェスト候補Cdに含めることができる。
 (変形例2)
 情報処理装置1は、基準時間Trefを設定する基準候補映像データCd2と同一撮影時間帯の第2素材映像データD2の映像データを、他カメラショットShとして抽出してもよい。
 図10(A)は、図4(A)及び図5(A)と同一の第1素材映像データD1の帯グラフを示す。図10(B)は、他カメラショットShを明示した第2素材映像データD2の帯グラフを示す。図10(C)は、生成されたダイジェスト候補Cdの帯グラフを示す。
 この場合、基準時間決定部16は、第1スコアが閾値Th1以上となる候補映像データCd1が連続するシーンA1の撮影時間帯(時刻t1から時刻t2までの時間帯)を、基準時間Trefとして設定する。そして、他カメラショット抽出部17は、基準時間Trefに該当する時刻t1から時刻t2までの撮影時間帯となる第2素材映像データD2の「シーンA4」を、他カメラショットShとして抽出する。そして、ダイジェスト候補生成部18は、候補映像データCd1であるシーンA1及びシーンB1と他カメラショットShであるシーンA4とを時系列で結合したダイジェスト候補Cdを生成する。この場合、他カメラショットShであるシーンA4と、対応する候補映像データCd1であるシーンA1とは同一撮影時間帯となる。
 このように、本変形例では、情報処理装置1は、切替点の検出を行うことなく他カメラショットShを第2素材映像データD2から抽出する。そして、第1カメラ8aで撮影された重要シーンと同一時間帯に第2カメラ8bで撮影されたシーンを、好適にダイジェスト候補Cdに含めることができる。
 (変形例3)
 情報処理装置1は、重要区間か否かを識別するためのラベルが予め付されている第1素材映像データD1に基づきダイジェスト候補Cdを生成してもよい。この場合、情報処理装置1は、第1推論器情報D3を参照して候補映像データCd1を選定する代わりに、上述のラベルを参照して候補映像データCd1を選定する。
 図11は、変形例3において情報処理装置1が実行するフローチャートの一例である。まず、情報処理装置1の候補映像データ選定部15は、重要区間か否かを識別するためのラベルが付された第1素材映像データD1を記憶装置4から取得する(ステップS31)。
 そして、基準時間決定部16は、第1素材映像データD1に付されたラベルに基づき選定された候補映像データCd1に基づき、基準時間Trefを設定する(ステップS32)。この場合、候補映像データ選定部15は、第1素材映像データD1に付されたラベルに基づき識別した重要区間の映像データを候補映像データCd1とみなす。そして、基準時間決定部16は、第2スコアに基づき候補映像データCd1から基準候補映像データCd2を選定し、基準候補映像データCd2の撮影時間帯に応じた基準時間Trefを設定する。なお、基準時間決定部16は、後述する変形例5において述べるように、基準候補映像データCd2の選定を行うことなく、全ての候補映像データCd1の撮影時間帯に応じた基準時間Trefを設定してもよい。
 その後、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2から他カメラショットShを抽出する(ステップS33)。そして、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとに基づき、ダイジェスト候補Cdを生成する(ステップS34)。
 このように、本変形例においても、情報処理装置1は、第2カメラ8bが生成した他カメラショットShを含むダイジェスト候補Cdを好適に生成することができる。また、本変形例では、情報処理装置1は、第1推論器情報D3を用いることなく、ダイジェスト候補Cdを生成する。
 (変形例4)
 情報処理装置1は、3台以上のカメラにより生成された映像データに基づき、ダイジェスト候補Cdを生成してもよい。
 この場合、他カメラショット抽出部17は、第2素材映像データD2から他カメラショットShを抽出し、かつ、第1カメラ8a及び第2カメラ8b以外のカメラで撮影された各素材映像データから他カメラショットShを抽出する。この場合、他カメラショット抽出部17は、例えば、基準時間Trefに基づき各素材映像データの第1切替点及び第2切替点を夫々検出することで、各素材映像データに対する他カメラショットShを抽出する。他の例では、他カメラショット抽出部17は、変形例2に基づき、基準候補映像データCd2と同一撮影時間帯の映像データを各素材映像データから他カメラショットShとして抽出してもよい。そして、ダイジェスト候補生成部18は、各素材映像データから抽出した他カメラショットShと、候補映像データCd1とに基づき、ダイジェスト候補Cdを生成する。
 このように、情報処理装置1は、3台以上のカメラにより生成された映像データに基づいて、好適にダイジェスト候補Cdを生成することができる。
 (変形例5)
 情報処理装置1は、基準時間Trefの設定のための候補映像データCd1の選定を行わなくともよい。
 この場合、候補映像データCd1の一部を基準候補映像データCd2として選定する代わりに、候補映像データCd1の全てを基準候補映像データCd2とみなす。具体的には、基準時間決定部16は、図8のステップS14では、第2スコアを用いることなく、全ての候補映像データCd1の撮影時間帯に基づき基準時間Trefを設定する。これによっても、情報処理装置1は、第1素材映像データD1において重要度が高いシーンに対応する第2素材映像データD2の他カメラショットShを、好適にダイジェスト候補Cdに含めることができる。
 (変形例6)
 情報処理装置1は、第2素材映像データD2に対しても第1素材映像データD1と同様に時系列の第1スコアを算出し、第1スコアが閾値Th1以上となる第2素材映像データD2の区間の映像データ(シーン)を、ダイジェスト候補Cdに含めてもよい。
 <第2実施形態>
 図12は、第2実施形態における情報処理装置1Xの機能ブロック図である。情報処理装置1Xは、主に、基準時間決定手段16Xと、他カメラショット抽出手段17Xと、ダイジェスト候補生成手段18Xとを有する。
 基準時間決定手段16Xは、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データ「Cd1」に基づき、第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間「Tref」を決定する。基準時間決定手段16Xは、第1実施形態(変形例を含む、以下同じ)の基準時間決定部16とすることができる。ここで、基準時間決定手段16Xは、候補映像データCd1の選定を行う情報処理装置1X内の他の構成要素から候補映像データCd1を受信してもよく、候補映像データCd1の選定を行う外部装置(即ち情報処理装置1X以外の装置)から候補映像データCd1を受信してもよい。
 他カメラショット抽出手段17Xは、基準時間Trefに基づき、第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショット「Sh」を抽出する。他カメラショット抽出手段17Xは、第1実施形態の他カメラショット抽出部17とすることができる。
 ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShと、に基づき、第1素材映像データ及び第2素材映像データに対するダイジェストの候補であるダイジェスト候補「Cd」を生成する。ここで、ダイジェスト候補生成手段18Xは、第1実施形態のダイジェスト候補生成部18とすることができる。例えば、ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShとを結合した1つの映像データであるダイジェスト候補Cdを生成する。他の例では、ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShとのリストを、ダイジェスト候補Cdとして生成してもよい。なお、ダイジェスト候補Cdには、候補映像データCd1及び他カメラショットSh以外の映像データが含まれてもよい。
 図13は、第2実施形態において情報処理装置1Xが実行するフローチャートの一例である。まず、基準時間決定手段16Xは、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データCd1に基づき、第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間Trefを決定する(ステップS41)。次に、他カメラショット抽出手段17Xは、基準時間Trefに基づき、第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットShを抽出する(ステップS42)。そして、ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShと、に基づきダイジェスト候補Cdを生成する(ステップS43)。
 第2実施形態に係る情報処理装置1Xは、複数カメラから撮影された映像を含むダイジェスト候補を好適に生成することができる。
 なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
 第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
 前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
 前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対する前記ダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
を有する情報処理装置。
[付記2]
 前記他カメラショット抽出手段は、前記基準時間に基づき、前記第2素材映像データにおいて映像又は音の、変化又は切替が生じる切替点を検出し、当該切替点に基づき前記他カメラショットを抽出する、付記1に記載の情報処理装置。
[付記3]
 前記他カメラショット抽出手段は、前記基準時間が時間帯を示す場合、前記時間帯の始点を基準として探索した前記第2素材映像データの第1切替点と、前記時間帯の終点を基準として探索した前記第2素材映像データの第2切替点と、に基づき、前記他カメラショットを抽出する、付記2に記載の情報処理装置。
[付記4]
 前記他カメラショット抽出手段は、前記基準時間が示す時間帯に対応する前記第2素材映像データの映像データを、前記他カメラショットとして抽出する、付記1に記載の情報処理装置。
[付記5]
 前記第1素材映像データに対する時系列の第1スコアに基づき、前記第1素材映像データから前記候補映像データを選定する候補映像データ選定手段をさらに有する、付記1~4のいずれか一項に記載の情報処理装置。
[付記6]
 前記基準時間決定手段は、前記候補映像データに対する前記第1スコア又は前記第1スコアとは異なる第2スコアに基づき、前記基準時間の決定に用いる前記候補映像データである基準候補映像データを選定する、付記5に記載の情報処理装置。
[付記7]
 前記候補映像データ選定手段は、入力された映像データに対して前記第1スコアを推論するように学習された第1推論器に対し、前記第1素材映像データの区間毎の区間映像データを入力することで得られる前記第1スコアに基づき、前記候補映像データを選定し、
 前記基準時間決定手段は、入力された映像データに対して前記第2スコアを推論するように学習された第2推論器に対し、前記候補映像データを入力することで得られる前記第2スコアに基づき、前記基準候補映像データを選定する、付記5または6に記載の情報処理装置。
[付記8]
 前記第1推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
 前記第2推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、付記7に記載の情報処理装置。
[付記9]
 前記候補映像データ選定手段は、前記第1スコアを第1閾値と比較することで、前記第1素材映像データから前記候補映像データを選定し、
 前記基準時間決定手段は、前記第1スコアを第1閾値よりも厳しい基準となる第2閾値と比較することで、前記基準候補映像データを選定する、付記6に記載の情報処理装置。
[付記10]
 コンピュータにより、
 第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定し、
 前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出し、
 前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成する、
制御方法。
[付記11]
 第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
 前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
 前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
としてコンピュータを機能させるプログラムが格納された記憶媒体。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
 1、1X 情報処理装置
 2 入力装置
 3 出力装置
 4 記憶装置
 6 学習装置
 100 ダイジェスト候補選定システム

Claims (11)

  1.  第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
     前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
     前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
    を有する情報処理装置。
  2.  前記他カメラショット抽出手段は、前記基準時間に基づき、前記第2素材映像データにおいて映像又は音の、変化又は切替が生じる切替点を検出し、当該切替点に基づき前記他カメラショットを抽出する、請求項1に記載の情報処理装置。
  3.  前記他カメラショット抽出手段は、前記基準時間が時間帯を示す場合、前記時間帯の始点を基準として探索した前記第2素材映像データの第1切替点と、前記時間帯の終点を基準として探索した前記第2素材映像データの第2切替点と、に基づき、前記他カメラショットを抽出する、請求項2に記載の情報処理装置。
  4.  前記他カメラショット抽出手段は、前記基準時間が示す時間帯に対応する前記第2素材映像データの映像データを、前記他カメラショットとして抽出する、請求項1に記載の情報処理装置。
  5.  前記第1素材映像データに対する時系列の第1スコアに基づき、前記第1素材映像データから前記候補映像データを選定する候補映像データ選定手段をさらに有する、請求項1~4のいずれか一項に記載の情報処理装置。
  6.  前記基準時間決定手段は、前記候補映像データに対する前記第1スコア又は前記第1スコアとは異なる第2スコアに基づき、前記基準時間の決定に用いる前記候補映像データである基準候補映像データを選定する、請求項5に記載の情報処理装置。
  7.  前記候補映像データ選定手段は、入力された映像データに対して前記第1スコアを推論するように学習された第1推論器に対し、前記第1素材映像データの区間毎の区間映像データを入力することで得られる前記第1スコアに基づき、前記候補映像データを選定し、
     前記基準時間決定手段は、入力された映像データに対して前記第2スコアを推論するように学習された第2推論器に対し、前記候補映像データを入力することで得られる前記第2スコアに基づき、前記基準候補映像データを選定する、請求項6に記載の情報処理装置。
  8.  前記第1推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
     前記第2推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、請求項7に記載の情報処理装置。
  9.  前記候補映像データ選定手段は、前記第1スコアを第1閾値と比較することで、前記第1素材映像データから前記候補映像データを選定し、
     前記基準時間決定手段は、前記第1スコアを第1閾値よりも厳しい基準となる第2閾値と比較することで、前記基準候補映像データを選定する、請求項6に記載の情報処理装置。
  10.  コンピュータにより、
     第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定し、
     前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出し、
     前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成する、
    制御方法。
  11.  第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
     前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
     前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
    としてコンピュータを機能させるプログラムが格納された記憶媒体。
PCT/JP2020/020775 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体 WO2021240654A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/020775 WO2021240654A1 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体
JP2022527327A JP7375926B2 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び、プログラム
US17/926,903 US20230206635A1 (en) 2020-05-26 2020-05-26 Information processing device, control method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020775 WO2021240654A1 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体

Publications (1)

Publication Number Publication Date
WO2021240654A1 true WO2021240654A1 (ja) 2021-12-02

Family

ID=78723030

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/020775 WO2021240654A1 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体

Country Status (3)

Country Link
US (1) US20230206635A1 (ja)
JP (1) JP7375926B2 (ja)
WO (1) WO2021240654A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007174260A (ja) * 2005-12-22 2007-07-05 Victor Co Of Japan Ltd ダイジェスト情報生成装置
JP2008312061A (ja) * 2007-06-15 2008-12-25 Sony Corp 画像処理装置、その処理方法およびプログラム
JP2012070283A (ja) * 2010-09-24 2012-04-05 Toshiba Corp 映像処理装置、方法、及び映像処理システム
JP2014112787A (ja) * 2012-12-05 2014-06-19 Samsung Electronics Co Ltd 動画像処理装置及び動画像処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007174260A (ja) * 2005-12-22 2007-07-05 Victor Co Of Japan Ltd ダイジェスト情報生成装置
JP2008312061A (ja) * 2007-06-15 2008-12-25 Sony Corp 画像処理装置、その処理方法およびプログラム
JP2012070283A (ja) * 2010-09-24 2012-04-05 Toshiba Corp 映像処理装置、方法、及び映像処理システム
JP2014112787A (ja) * 2012-12-05 2014-06-19 Samsung Electronics Co Ltd 動画像処理装置及び動画像処理方法

Also Published As

Publication number Publication date
JP7375926B2 (ja) 2023-11-08
US20230206635A1 (en) 2023-06-29
JPWO2021240654A1 (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
US10847185B2 (en) Information processing method and image processing apparatus
US11025879B2 (en) Image processing apparatus, image processing method, and storage medium storing program
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
JP2020061729A (ja) スポーツ競技のハイライト抽出方法および装置
CN111479130A (zh) 一种视频定位方法、装置、电子设备和存储介质
CN105450911A (zh) 图像处理装置、图像处理方法
JP2015139017A (ja) 情報処理プログラム、方法、及び装置、並びに野球映像メタ情報作成装置、方法、及びプログラム
JP2011124681A (ja) 映像編集装置,映像編集方法および映像編集プログラム
KR102037997B1 (ko) 전자 장치 및 콘텐츠 생성 방법
WO2021240654A1 (ja) 情報処理装置、制御方法及び記憶媒体
JP4893641B2 (ja) ダイジェスト生成装置及びダイジェスト生成方法
CN108200477A (zh) 视频文件生成及播放的方法、装置及设备
JP2021068989A (ja) 情報処理システム、情報処理方法及びプログラム
US10984248B2 (en) Setting of input images based on input music
WO2021019645A1 (ja) 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体
KR101701632B1 (ko) 판정 방법 및 장치
WO2021240653A1 (ja) 情報処理装置、制御方法及び記憶媒体
US20220327865A1 (en) Electronic device and control method
WO2021240652A1 (ja) 情報処理装置、制御方法及び記憶媒体
JP6451521B2 (ja) ダイジェスト作成装置、ダイジェスト作成システム、ダイジェスト作成方法及びプログラム
JP7453948B2 (ja) 放送受信装置
JP6628670B2 (ja) 画像処理装置及び画像処理方法
JP2019134319A (ja) 情報処理装置
KR102601285B1 (ko) 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법
US11023738B2 (en) Information processing apparatus selecting highlight section from video, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20937395

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022527327

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20937395

Country of ref document: EP

Kind code of ref document: A1