WO2021240653A1 - 情報処理装置、制御方法及び記憶媒体 - Google Patents

情報処理装置、制御方法及び記憶媒体 Download PDF

Info

Publication number
WO2021240653A1
WO2021240653A1 PCT/JP2020/020773 JP2020020773W WO2021240653A1 WO 2021240653 A1 WO2021240653 A1 WO 2021240653A1 JP 2020020773 W JP2020020773 W JP 2020020773W WO 2021240653 A1 WO2021240653 A1 WO 2021240653A1
Authority
WO
WIPO (PCT)
Prior art keywords
video data
candidate
slow
video
digest
Prior art date
Application number
PCT/JP2020/020773
Other languages
English (en)
French (fr)
Inventor
悠 鍋藤
克 菊池
壮馬 白石
はるな 渡辺
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/925,895 priority Critical patent/US20230352052A1/en
Priority to PCT/JP2020/020773 priority patent/WO2021240653A1/ja
Priority to JP2022527326A priority patent/JP7444250B2/ja
Publication of WO2021240653A1 publication Critical patent/WO2021240653A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Definitions

  • the present disclosure relates to technical fields of information processing devices, control methods, and storage media that perform processing related to digest generation.
  • Patent Document 1 discloses a method of confirming and producing highlights from a video stream of a sporting event on the ground.
  • Patent Document 1 does not disclose any editing of highlight video so that the viewer can confirm important scenes in detail in the video data as the material.
  • An object of the present disclosure is to provide an information processing device, a control method, and a storage medium capable of suitably generating digest candidates in consideration of the above problems.
  • One aspect of the information processing device is that the reproduction speed of the first candidate video data is less than 1x with respect to the first candidate video data which is the video data corresponding to a part of the section selected from the material video data.
  • One aspect of the control method is to reduce the reproduction speed of the first candidate video data to less than the same magnification with respect to the first candidate video data which is the video data corresponding to a part of the section selected from the material video data by the computer.
  • This is a control method for generating a slow video which is the video data, and generating a digest candidate which is a digest candidate of the material video data based on the material video data and the slow video.
  • One aspect of the storage medium is an image in which the reproduction speed of the first candidate image data is less than 1x with respect to the first candidate image data which is the image data corresponding to a part of the section selected from the material image data.
  • a computer functions as a digest candidate generation means for generating a digest candidate which is a digest candidate of the material video data based on the slow video generation means for generating slow video which is data, the material video data, and the slow video. It is a storage medium in which a program to be operated is stored.
  • digest candidates can be suitably generated.
  • the configuration of the digest candidate selection system in the first embodiment is shown.
  • the hardware configuration of the information processing device is shown.
  • This is an example of a functional block of an information processing device.
  • A It is a figure showing the material video data by the band graph of the length corresponding to the reproduction time length of the material video data.
  • B It is a line graph which shows the 1st score in the time series of the material video data.
  • C It is a band graph which shows the 1st speed slow image generated from the material image data.
  • D It is a band graph which shows the 2nd speed slow video generated from the material video data.
  • E It is a band graph which shows the generated digest candidate.
  • An example of the functional block configuration of the learning device is shown.
  • System Configuration Figure 1 shows the configuration of the digest candidate selection system 100 according to the first embodiment.
  • the digest candidate selection system 100 preferably selects video data (also referred to as “digest candidate Cd”) as a digest candidate for video data (also referred to as “material video data Dm”) as a material.
  • the digest candidate selection system 100 mainly includes an information processing device 1, an input device 2, an output device 3, and a storage device 4. After that, the video data may include sound data.
  • the information processing device 1 performs data communication with the input device 2 and the output device 3 via a communication network or by direct communication by radio or wire.
  • the information processing apparatus 1 When the material video data Dm is input, the information processing apparatus 1 generates a digest candidate CD including a slow video for a part of important sections of the material video data Dm.
  • the material video data Dm may be arbitrary video data stored in the storage device 4, or may be video data supplied to the information processing device 1 from an external device other than the storage device 4. In the latter case, the material video data Dm may be video data transmitted in real time from the camera that generates the video data.
  • the input device 2 is an arbitrary user interface that accepts user input, and corresponds to, for example, a button, a keyboard, a mouse, a touch panel, a voice input device, and the like.
  • the input device 2 supplies the input signal "S1" generated based on the user input to the information processing device 1.
  • the output device 3 is, for example, a display device such as a display or a projector, and a sound output device such as a speaker, and is a predetermined display and / or sound output based on the output signal “S2” supplied from the information processing device 1. (Including reproduction of digest candidate Cd) is performed.
  • the storage device 4 is a memory for storing various information necessary for processing of the information processing device 1.
  • the storage device 4 stores, for example, the first inference device information D1 and the second inference device information D2.
  • the first inference device information D1 is information about the first inference device which is an inference device for inferring a first score (also referred to as "first score Sc1") for the input video data.
  • the first score Sc1 is, for example, a score indicating the importance of the input video data, and the above-mentioned importance is whether the input video data is an important section or a non-important section (that is, a digest). It is an index that serves as a reference for determining whether or not it is suitable as one section.
  • the first inference device is learned in advance so as to infer the first score Sc1 for the target video data when a predetermined number (one or more) of images constituting the video data are input, and the first inference is performed.
  • the device information D1 includes the learned parameters of the first inferior.
  • the information processing apparatus 1 first infers video data (also referred to as "section video data Dp") in which the material video data Dm is divided into sections of a predetermined reproduction time length. Input to the device one by one.
  • the first inference device may infer the first score Sc1 by inputting the sound data included in the video data in addition to the image constituting the target video data. In this case, the feature amount calculated from the sound data may be input to the first inference device.
  • the second inference device information D2 is information about the second inference device, which is an inference device for inferring a second score (also referred to as "second score Sc2") for the input video data.
  • the second score Sc2 is a score indicating the certainty of whether or not a specific event has occurred in the first example.
  • the above-mentioned "specific event” refers to an important event in the event to be photographed, for example, in the occurrence of a specific action (for example, a home run in baseball) or other event (for example, in a competition for scoring) that is important in the event. (Score generation) etc. are applicable.
  • the second score Sc2 is a score representing the same index as the first score Sc1, and may indicate the importance to the input video data.
  • the second inference device is learned in advance so as to infer a second score Sc2 for the target video data when a predetermined number of images constituting the video data are input, and the second inference device information D2 is used. , The learned parameters of the second inference device are included.
  • the information processing apparatus 1 sequentially inputs each of the slow images generated from the selected section image data Dp to the second inference device.
  • the second inference device information D2 may include the parameters of the second inference device that have been learned separately for each reproduction speed of the video data.
  • the learning model of the first inference device and the second inference device may be learning models based on arbitrary machine learning such as a neural network or a support vector machine, respectively.
  • a neural network such as a convolutional neural network
  • the first inference device information D1 and the second inference device information D2 have a layer structure, a neuron structure of each layer, and the like. Includes various parameters such as the number and size of filters in each layer and the weight of each element of each filter.
  • the storage device 4 may be an external storage device such as a hard disk connected to or built in the information processing device 1, or may be a storage medium such as a flash memory. Further, the storage device 4 may be a server device that performs data communication with the information processing device 1. Further, the storage device 4 may be composed of a plurality of devices. In this case, the storage device 4 may store the first inference device information D1 and the second inference device information D2 in a distributed manner.
  • the configuration of the digest candidate selection system 100 described above is an example, and various changes may be made to the configuration.
  • the input device 2 and the output device 3 may be integrally configured.
  • the input device 2 and the output device 3 may be configured as a tablet-type terminal integrated with the information processing device 1.
  • the digest candidate selection system 100 does not have to include at least one of the input device 2 and the output device 3.
  • the information processing device 1 may be composed of a plurality of devices. In this case, the plurality of devices constituting the information processing device 1 exchange information necessary for executing the pre-assigned process among the plurality of devices.
  • FIG. 2 shows the hardware configuration of the information processing device 1.
  • the information processing apparatus 1 includes a processor 11, a memory 12, and an interface 13 as hardware.
  • the processor 11, the memory 12, and the interface 13 are connected via the data bus 19.
  • the processor 11 executes a predetermined process by executing the program stored in the memory 12.
  • the processor 11 is a processor such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and a quantum processor.
  • the memory 12 is composed of various volatile memories such as RAM (Random Access Memory) and ROM (Read Only Memory) and non-volatile memory. Further, the memory 12 stores a program executed by the information processing apparatus 1. Further, the memory 12 is used as a working memory and temporarily stores information and the like acquired from the storage device 4. The memory 12 may function as the storage device 4. Similarly, the storage device 4 may function as the memory 12 of the information processing device 1. The program executed by the information processing apparatus 1 may be stored in a storage medium other than the memory 12.
  • the interface 13 is an interface for electrically connecting the information processing device 1 and another device.
  • the interface for connecting the information processing device 1 and another device may be a communication interface such as a network adapter for transmitting / receiving data to / from another device based on the control of the processor 11 by wire or wirelessly. good.
  • the information processing apparatus 1 and the other apparatus may be connected by a cable or the like.
  • the interface 13 includes a hardware interface compliant with USB (Universal Serial Bus), SATA (Serial AT Atchment), etc. for exchanging data with other devices.
  • USB Universal Serial Bus
  • SATA Serial AT Atchment
  • the hardware configuration of the information processing device 1 is not limited to the configuration shown in FIG.
  • the information processing device 1 may include at least one of an input device 2 and an output device 3.
  • the functional block information processing apparatus 1 selects a candidate for the section video data Dp (also referred to as “first candidate video data Cd1”) for generating a slow video based on the first score Sc1, and includes it in the digest candidate Cd. Candidates for slow video (also referred to as “second candidate video data Cd2”) are selected based on the second score Sc2. Then, the information processing apparatus 1 generates a digest candidate Cd based on the first candidate video data Cd1 and the second candidate video data Cd2.
  • first candidate video data Cd1 also referred to as “first candidate video data Cd1”
  • second candidate video data Cd2 are selected based on the second score Sc2.
  • the processor 11 of the information processing device 1 functionally has an acquisition unit 14, a first candidate selection unit 15, a slow video generation unit 16, a second candidate selection unit 17, and a digest candidate generation unit 18. ..
  • the blocks in which data is exchanged are connected by a solid line, but the combination of blocks in which data is exchanged is not limited to FIG. The same applies to the figures of other functional blocks described later.
  • the acquisition unit 14 acquires the material video data Dm via the interface 13, and sequentially supplies the section video data Dp, which is the video data obtained by dividing the material video data Dm into sections, to the first candidate selection unit 15.
  • the section video data Dp is, for example, data obtained by dividing the material video data Dm by a section having a unit time length, and is data including a predetermined number of images.
  • the first candidate selection unit 15 calculates the first score Sc1 for the section video data Dp sequentially supplied from the acquisition unit 14, and selects the first candidate video data Cd1 from the section video data Dp based on the first score Sc1. do. Then, the first candidate selection unit 15 supplies the selected first candidate video data Cd1 to the slow video generation unit 16 and the digest candidate generation unit 18.
  • the first candidate selection unit 15 configures the first inference device by referring to the first inference device information D1, and sequentially inputs the section video data Dp supplied from the acquisition unit 14 to the first inference device. Therefore, the first score Sc1 for the input section video data Dp is calculated. As a result, the first candidate selection unit 15 calculates the first score Sc1 having a higher value as the section video data Dp is more important. Then, the first candidate selection unit 15 selects the section video data Dp whose first score Sc1 is equal to or higher than a predetermined threshold value (also referred to as “threshold value Th1”) as the first candidate video data Cd1.
  • the first candidate video data Cd1 is a candidate for the section video data Dp to be generated as a slow video, and is also a candidate for the section video data Dp to be included in the digest candidate Cd.
  • the first candidate selection unit 15 when the section video data Dp having the first score Sc1 equal to or higher than the threshold value Th1 constitutes one continuous scene in the time series, the first candidate selection unit 15 collects the continuous section video data Dp into one.
  • Candidate video data may be regarded as Cd1.
  • the first candidate video data Cd1 includes at least one section video data Dp, and is video data in which the reproduction time length may be different from each other.
  • the slow video generation unit 16 has a playback speed less than the same magnification speed (for example, 1/2, 1/3, 1/4 playback speed) for each of the first candidate video data Cd1 supplied from the first candidate selection unit 15. Etc.) to generate a slow video (also referred to as "slow video SL").
  • the slow video generation unit 16 supplies the generated slow video SL to the second candidate selection unit 17.
  • the slow video generation unit 16 slows down by inserting interpolated images generated from a predetermined number of images (frames) before and after between the time-series images constituting the first candidate video data Cd1.
  • the interpolated image is inserted by the number of sheets and the interval according to the reproduction speed. The generation and insertion of the interpolated image may be performed based on any interpolation method.
  • the slow video generation unit 16 may generate a slow video SL corresponding to a plurality of playback speeds for each of the first candidate video data Cd1. This makes it possible to include a slow video SL having a playback speed suitable for a plurality of playback speeds in the digest candidate CDd.
  • the second candidate selection unit 17 calculates the second score Sc2 for each slow video SL supplied from the slow video generation unit 16, and uses the slow video SL as the second candidate video data Cd2 based on the second score Sc2. Select. Then, the second candidate selection unit 17 supplies the selected second candidate video data Cd2 to the digest candidate generation unit 18.
  • the second candidate selection unit 17 configures the second inference device by referring to the second inference device information D2, and sequentially inputs the slow image SL to the second inference device to input the slow image.
  • the second score Sc2 for SL is calculated.
  • the second score Sc2 may show a higher value as the video is more important, and the higher the probability that a specific event is occurring, the higher the value. It may be shown.
  • the second candidate selection unit 17 selects the slow video SL whose second score Sc2 is equal to or higher than a predetermined threshold value (also referred to as “threshold value Th2”) as the second candidate video data Cd2.
  • the second candidate selection unit 17 responds to the reproduction speed of the target slow video SL.
  • the second inference device may be selected, and the target slow video SL may be input to the selected second inference device.
  • the second candidate selection unit 17 selects all of the two or more slow video SLs as the second candidate video data Cd2. In the second example, the second candidate selection unit 17 selects one slow video SL having the highest second score Sc2 among the two or more slow video SLs as the second candidate video data Cd2. In the second example, it is possible to preferably suppress the inclusion of a plurality of slow video SLs of the same scene in the digest candidate Cd.
  • the slow video generation unit 16 and the second candidate selection unit 17 When a group of section video data Dp constituting one scene is selected as the first candidate video data Cd1, the slow video generation unit 16 and the second candidate selection unit 17 generate a slow video SL for each scene. And the second score Sc2 may be calculated.
  • the second candidate selection unit 17 calculates the second score Sc2 for each scene (slow scene) composed of continuous slow video SLs in time series, and serves as the second candidate video data Cd2 for each slow scene. Judge suitability. Details of this process will be described later with reference to FIGS. 4 (A) to 4 (E).
  • the digest candidate generation unit 18 generates a digest candidate Cd based on the first candidate video data Cd1 supplied from the first candidate selection unit 15 and the second candidate video data Cd2 supplied from the second candidate selection unit 17. do. For example, the digest candidate generation unit 18 generates one video data in which all the first candidate video data Cd1 and all the second candidate video data Cd2 are combined as the digest candidate Cd. In this case, the digest candidate generation unit 18 generates, for example, a digest candidate Cd in which the first candidate video data Cd1 and the second candidate video data Cd2 are arranged and concatenated in chronological order for each scene. Details of the generation of the digest candidate CDd will be described later with reference to FIGS. 4 (A) to 4 (E).
  • the digest candidate generation unit 18 may generate a list of the first candidate video data Cd1 and the second candidate video data Cd2 as the digest candidate Cd instead of generating one video data as the digest candidate Cd. .. In this case, the digest candidate generation unit 18 may display the digest candidate Cd on the output device 3 and accept the user input for selecting the video data to be included in the final digest by the input device 2. Further, the digest candidate generation unit 18 may generate a digest candidate Cd using only a part of the selected first candidate video data Cd1 and the second candidate video data Cd2.
  • the digest candidate generation unit 18 may store the generated digest candidate Cd in the storage device 4 or the memory 12, or may transmit the generated digest candidate Cd to an external device other than the storage device 4. Further, the digest candidate generation unit 18 may reproduce the digest candidate Cd by the output device 3 by transmitting the output signal S2 for reproducing the digest candidate Cd to the output device 3.
  • the components of the acquisition unit 14, the first candidate selection unit 15, the slow video generation unit 16, the second candidate selection unit 17, and the digest candidate generation unit 18 described in FIG. 3 are, for example, the processor 11 is the storage device 4. Alternatively, it can be realized by executing a program stored in the memory 12. Further, each component may be realized by recording a necessary program in an arbitrary non-volatile storage medium and installing it as needed. It should be noted that each of these components is not limited to being realized by software by a program, and may be realized by any combination of hardware, firmware, and software. Further, each of these components may be realized by using a user-programmable integrated circuit such as an FPGA (field-programmable gate array) or a microcomputer. In this case, this integrated circuit may be used to realize a program composed of each of the above components. As described above, each component may be realized by any controller including hardware other than the processor. The above is the same in other embodiments described later.
  • the processor 11 is the storage device 4. Alternatively, it can be realized by executing a program stored in the memory
  • the information processing apparatus 1 includes, as the slow video SL, the first speed slow video “SL1” corresponding to the first playback speed and the second speed slow video “SL2” corresponding to the second playback speed.
  • the first reproduction speed is less than the same magnification speed
  • the second reproduction speed is less than the first reproduction speed.
  • FIG. 4A is a diagram showing the material video data Dm by a band graph having a length corresponding to the reproduction time length (that is, the number of images) of the material video data Dm.
  • FIG. 4B is a line graph showing the first score Sc1 in the time series of the material video data Dm.
  • FIG. 4C is a band graph showing the first speed slow video SL1 generated from the material video data Dm shown in FIG. 4A.
  • FIG. 4D is a band graph showing the second speed slow video SL2 generated from the material video data Dm shown in FIG. 4A.
  • FIG. 4E is a band graph showing the generated digest candidate Cd.
  • the first score Sc1 of the section video data Dp corresponding to “Scene A” and “Scene B” is set to a threshold value Th1 or more. It is determined that these sections are video data Dp, and these section video data Dp are selected as the first candidate video data Cd1.
  • each of the scene A and the scene B corresponds to a scene in which one or a plurality of section video data Dp having a first score Sc1 of the threshold Th1 or more is continuous.
  • the scene A corresponds to the section from the reproduction time “t1" to the reproduction time “t2” in the material video data Dm
  • the scene B corresponds to the reproduction time "t3" to the reproduction time "t4" in the material video data Dm. Corresponds to the section of.
  • the slow video generation unit 16 generates a slow scene "A1” in which the scene A is converted to the first playback speed and a slow scene “A2” in which the scene A is converted to the second playback speed.
  • the slow video generation unit 16 generates a slow scene “B1” in which the scene B is converted into the first reproduction speed and a slow scene “B2” in which the scene B is converted into the second reproduction speed.
  • the slow scene A1 and the slow scene B1 are scenes composed of the first speed slow video SL1 in which the playback speed of the section video data Dp constituting the scene A and the scene B is changed to the first playback speed.
  • the slow scene A2 and the slow scene B2 are scenes composed of the second speed slow video SL2 in which the playback speed of the section video data Dp constituting the scene A and the scene B is changed to the second playback speed.
  • the second candidate selection unit 17 calculates the second score Sc2 for each slow video SL constituting the slow scene A1, the slow scene B1, the slow scene A2, and the slow scene B2, and the second score Sc2 is the threshold value Th2.
  • the slow video SL as described above is selected as the second candidate video data Cd2.
  • the second score Sc2 of the slow video SL corresponding to the slow scene A1 has a threshold value Th2 or more, and the slow video SL corresponding to other slow scenes (scenes B1, A2, B2). It is determined that the second score Sc2 of is less than the threshold value Th2. Therefore, in this case, the second candidate selection unit 17 selects the scene A1 as the second candidate video data Cd2.
  • the second candidate selection unit 17 determines the suitability of the second candidate video data Cd2 for each slow scene. You may judge. In this case, the second candidate selection unit 17 sets the representative value (including the average value, the median value, etc.) of the second score Sc2 for each continuous slow video SL for each slow scene as the second score Sc2 for each slow scene. calculate. Then, the second candidate selection unit 17 selects a slow scene in which the second score Sc2 for each slow scene is equal to or higher than the threshold value Th2 as the second candidate video data Cd2. In the examples of FIGS.
  • the second candidate selection unit 17 calculates the second score Sc2 for each of the slow scene A1, the slow scene B1, the slow scene A2, and the slow scene B2.
  • the scene A1 in which the second score Sc2 is equal to or higher than the threshold value Th2 is selected as the second candidate video data Cd2.
  • the digest candidate generation unit 18 sets the scene A and the scene B, which is the first candidate video data Cd1, and the slow scene A1 which is the second candidate video data Cd2 in chronological order. Generate the concatenated digest candidate Cd.
  • the digest candidate generation unit 18 connects scenes in the same section (same playback time zone) in the material video data Dm in order from the scene whose playback speed is close to the same magnification speed.
  • the digest candidate generation unit 18 slows down the scene A having the same reproduction speed because the scene A and the slow scene A1 correspond to the same section in the material video data Dm.
  • the digest candidate Cd placed before A1 is generated.
  • the digest candidate generation unit 18 incorporates continuous video data at the same playback speed into the digest candidate Cd as one cohesive scene.
  • the digest candidate generation unit 18 uses these scenes. Each of them is incorporated into the digest candidate Cd as a group of scenes.
  • the digest candidate generation unit 18 preferably suppresses the generation of the digest candidate Cd in which the slow image is inserted due to the uncoordinated and unnatural intervals.
  • FIG. 5 is a schematic configuration diagram of a learning system for learning the first inference device and the second inference device.
  • the learning system has a learning device 6 that can refer to the learning data D3.
  • the learning device 6 has the same configuration as that of the information processing device 1 shown in FIG. 2, for example, and mainly has a processor 21, a memory 22, and an interface 23.
  • the learning device 6 may be an information processing device 1 or any device other than the information processing device 1.
  • the learning data D3 is a learning material data that is learning material data, a first label that is a correct answer label for the first score Sc1 for the learning material data, and a correct answer label for the second score Sc2 for the learning material data. Includes a second label.
  • the first label is, for example, information for distinguishing an important section and a non-important section in the learning material data.
  • the second label is, for example, information for identifying the occurrence section of a specific event in the learning material data.
  • the second label may be information for distinguishing an important section from a non-important section in the learning material data, like the first label.
  • the learning material data is not limited to the video data having the same magnification speed, and may include video data having a plurality of reproduction speeds lower than the same magnification speed. Further, the learning material data may be provided for each of the learning of the first inference device and the learning of the second inference device. In this case, as the learning material data of the first inference device, the video data of the same magnification speed with the first label is provided. Further, as the learning material data of the second inference device, video data corresponding to a plurality of reproduction speeds less than the same magnification speed with the second label is provided.
  • the learning device 6 refers to the learning data D3, and learns the first inference device based on the learning material data and the first label.
  • the learning device 6 outputs the output of the first inference device when the section video data extracted from the learning material data is input to the first inference device, and the first correct answer indicated by the first label corresponding to the input data.
  • the parameters of the first inferior are determined so that the error (loss) from the score Sc1 is minimized.
  • the algorithm for determining the above parameters to minimize the loss may be any learning algorithm used in machine learning such as gradient descent or backpropagation.
  • the learning device 6 sets the first score Sc1 of the correct answer as the maximum value of the first score Sc1 for the section video data of the learning material data designated as the important section by the first label, and the other section video data.
  • the first score Sc1 of the correct answer may be set as the lowest value of the first score Sc1.
  • the learning device 6 refers to the learning data D3 and learns the second inference device based on the learning material data and the second label.
  • the learning device 6 outputs the output of the second inference device when the section video data extracted from the learning material data is input to the second inference device, and the second correct answer indicated by the second label corresponding to the input data.
  • the parameters of the second inferior are determined so that the error (loss) from the score Sc2 is minimized.
  • the learning device 6 generates the parameter of the first inference device obtained by learning as the first inference device information D1, and the parameter of the second inference device obtained by learning is used as the second inference device information D2. Generate.
  • the generated first inference device information D1 and second inference device information D2 may be immediately stored in the storage device 4 by data communication between the storage device 4 and the learning device 6, and may be immediately stored in the storage device 4 via a removable storage medium. It may be stored in the storage device 4.
  • the learning of the first inference device and the second inference device may be performed by different devices.
  • the learning device 6 is composed of a plurality of devices that perform learning of the first inference device and learning of the second inference device, respectively. Further, the first inference device and the second inference device may be learned for each type of the event for which the learning material data is photographed.
  • FIG. 6 is an example of a flowchart showing a procedure of processing executed by the information processing apparatus 1 in the first embodiment.
  • the information processing apparatus 1 detects the processing of the flowchart shown in FIG. 6, for example, a user input instructing the start of processing by designating the target material video data Dm, or the material video data Dm from an external device. It is executed when the supply of is started.
  • the information processing apparatus 1 determines whether or not it is the end of the material video data Dm (step S11). In this case, the information processing apparatus 1 determines that all the sections of the target material video data Dm are the ends of the material video data Dm when the processes of steps S12 and S13, which will be described later, are completed. Then, when the information processing apparatus 1 is the end of the material video data Dm (step S11; Yes), the information processing apparatus 1 proceeds to step S14. On the other hand, when the information processing apparatus 1 is not the end of the material video data Dm (step S11; No), the information processing apparatus 1 targets the section video data Dp of the material video data Dm that has not been processed in steps S12 and S13. S12 and step S13 are executed.
  • step S12 the acquisition unit 14 of the information processing apparatus 1 acquires the section video data Dp corresponding to one section of the material video data Dm (step S12). For example, the acquisition unit 14 acquires the section video data Dp of the material video data Dm that has not been processed in steps S12 and S13 in the order of earliest reproduction time. In this case, the acquisition unit 14 acquires the section video data Dp from the memory 12 or from the storage device 4 or another external device via the interface 13.
  • the first candidate selection unit 15 calculates the first score Sc1 for the section video data Dp acquired in step S12, and determines whether or not the section video data Dp is the first candidate video data Cd1. (Step S13). In this case, when the first score Sc1 calculated by inputting the section video data Dp into the first inference device configured with reference to the first inference device information D1 is equal to or higher than the threshold value Th1 by the first candidate selection unit 15. It is considered that the section video data Dp is the first candidate video data Cd1. On the other hand, when the first score Sc1 of the section video data Dp is less than the threshold value Th1, the first candidate selection unit 15 considers that the section video data Dp is not the first candidate video data Cd1.
  • the information processing apparatus 1 returns the process to step S11 and repeats steps S12 and S13 until the end of the material video data Dm, so that the first of all the section video data Dp constituting the material video data Dm.
  • the suitability for the candidate video data Cd1 is determined.
  • step S14 the slow video generation unit 16 generates a slow video SL in which the playback speed is converted to less than the same magnification speed with respect to the first candidate video data Cd1 selected in step S13 (step S14).
  • the slow video generation unit 16 it is preferable that the slow video generation unit 16 generates slow video SLs having a plurality of predetermined reproduction speeds for each of the first candidate video data Cd1.
  • the second candidate selection unit 17 calculates the second score Sc2 for each slow video SL, and selects the second candidate video data Cd2 from the slow video SL (step S15).
  • the second candidate selection unit 17 calculates the second score Sc2 by inputting the slow video SL into the second inference device configured by referring to the second inference device information D2, and calculates the second score Sc2.
  • the slow video SL whose Sc2 is equal to or higher than the threshold value Th2 is selected as the second candidate video data Cd2.
  • the second candidate selection unit 17 has the slow video SL having the highest second score Sc2 when the second score Sc2 of the plurality of slow video SLs corresponding to the sections of the same material video data Dm is the threshold Th2 or more.
  • the second candidate selection unit 17 is responsible for the second candidate video data for each slow scene in which slow video SLs having the same playback speed are continuous in a time series. Cd2 may be selected.
  • the digest candidate generation unit 18 generates a digest candidate Cd based on the first candidate video data Cd1 selected in step S13 and the second candidate video data Cd2 selected in step S15 (step S16).
  • the digest candidate generation unit 18 generates video data in which the first candidate video data Cd1 and the second candidate video data Cd2 are connected in chronological order as the digest candidate Cd.
  • the digest candidate generation unit 18 generates a list of the first candidate video data Cd1 and the second candidate video data Cd2 as the digest candidate Cd.
  • the need for automatic editing of sports video is increasing due to the two needs of shortening the time for editing sports video and expanding the content.
  • the digest video includes a slow video.
  • the automatically generated digest does not include the slow image.
  • the information processing apparatus 1 generates a slow video SL for a section in which the first score Sc1 is the threshold Th1 or more, and further, the slow video SL in which the second score Sc2 is the threshold Th2 or more.
  • a digest including a throw of a foul scene and a slow video of a scene determined to be a goal can be suitably generated from the material video data Dm obtained by shooting a soccer game.
  • the first inference device and the second inference device may be the same inference device configured by using the same parameters.
  • the storage device 4 stores the parameters of the inference device that functions as both the first inference device and the second inference device, and the information processing device 1 is stored in the inference device configured with reference to the parameters. Based on this, the first score Sc1 and the second score Sc2 are calculated.
  • the above-mentioned inference device is, for example, a inference device learned to infer a score corresponding to the importance of the input video data, similar to the first inference device.
  • the information processing apparatus 1 preferably selects the section of the material video data Dm that generates the slow video SL, selects the slow video SL to be included in the digest candidate CDd, and the like, as in the above-described embodiment. be able to.
  • the digest candidate generation unit 18 may include only one of the first candidate video data Cd1 and the second candidate video data Cd2 corresponding to the same section in the material video data Dm in the digest candidate Cd.
  • the scene A and the slow scene A1 correspond to the same section (that is, the section from the time t1 to the time t2) in the material video data Dm.
  • the digest candidate generation unit 18 selects either the scene A or the slow scene A1 as the scene to be included in the digest candidate Cd.
  • the digest candidate generation unit 18 compares the first score Sc1 for the scene A and the second score Sc2 for the slow scene A1, and selects the scene corresponding to the larger score as the scene to be included in the digest candidate Cd.
  • the first score Sc1 and the second score Sc2 may be comparable scores of the same index (for example, a score indicating importance).
  • the information processing apparatus 1 can prevent a plurality of images having different reproduction speeds from being included in the digest candidate CD, and can suitably suppress the redundancy of the digest candidate Cd.
  • the information processing apparatus 1 may generate a digest candidate Cd based on the material video data Dm to which a label for identifying whether or not it is an important section is attached in advance. In this case, the information processing apparatus 1 selects the first candidate video data Cd1 by referring to the above label instead of selecting the first candidate video data Cd1 by referring to the first inference device information D1.
  • FIG. 7 is an example of a flowchart executed by the information processing apparatus 1 in the modification 3.
  • the acquisition unit 14 of the information processing apparatus 1 acquires the material video data Dm with a label for identifying whether or not it is an important section (step S21).
  • the acquisition unit 14 may acquire the material video data Dm from the memory 12, or may acquire it from the storage device 4 or another external device.
  • the first candidate selection unit 15 considers the important section identified based on the label attached to the material video data Dm as the first candidate video data Cd1, and the slow video generation unit 16 with respect to the first candidate video data Cd1.
  • a slow video SL is generated (step S22).
  • the second candidate selection unit 17 calculates the second score Sc2 for each slow video SL and selects the second candidate video data Cd2 (step S23).
  • the second candidate video is based on the second score Sc2 calculated by inputting each slow video SL to the second inference device configured with reference to the second inference device information D2.
  • the digest candidate generation unit 18 generates the digest candidate Cd based on the first candidate video data Cd1 and the second candidate video data Cd2, as in step S16 of FIG. 6 (step S24).
  • the information processing apparatus 1 can suitably generate the digest candidate Cd including the slow video SL. Further, in this modification, the information processing apparatus 1 can generate the digest candidate Cd without using the first inference device information D1.
  • the information processing apparatus 1 may separately select the target section video data Dp for generating the slow video SL and the target section video data Dp included in the digest candidate CDd.
  • the section video data Dp that is the target for generating the slow video SL is continuously referred to as the first candidate video data Cd1
  • the target section video data Dp included in the digest candidate Cd is also referred to as the “third candidate video data Cd3”. Call.
  • FIG. 8 is an example of a flowchart executed by the information processing apparatus 1 in the modified example 4.
  • the information processing apparatus 1 determines the first candidate video data Cd1 and the third candidate video data Cd3 using different threshold values for the first score Sc1.
  • the threshold value of the first score Sc1 for determining the first candidate video data Cd1 is referred to as "first threshold value Th11”
  • the threshold value of the first score Sc1 for determining the third candidate video data Cd3 is referred to as "first”. It is called "2 threshold Th12”.
  • the first threshold value Th11 is set to a value higher than the second threshold value Th12.
  • the acquisition unit 14 of the information processing apparatus 1 acquires the material video data Dm (step S31).
  • the first candidate selection unit 15 extracts the section video data Dp in which the first score Sc1 is the first threshold value Th11 or more and the section video data Dp in which the first score Sc1 is the second threshold value Th12 or more.
  • the first candidate selection unit 15 selects the section video data Dp in which the first score Sc1 is the first threshold value Th11 or more as the first candidate video data Cd1, and the first score Sc1 is the second threshold value Th12 or more.
  • the section video data Dp is selected as the third candidate video data Cd3.
  • the section video data Dp having a higher first score Sc1 among the third candidate video data Cd3 is selected as the first candidate video data Cd1. Become.
  • the slow video generation unit 16 generates a slow video SL for the first candidate video data Cd1 which is the section video data Dp in which the first score Sc1 is equal to or higher than the first threshold value Th11 (step S33).
  • the digest candidate generation unit 18 generates a digest candidate Cd based on the third candidate video data Cd3 in which the first score Sc1 is the section video data Dp having the second threshold Th12 or more and the slow video SL (step S34).
  • the digest candidate generation unit 18 considers all the slow video SLs generated in step S33 as the second candidate video data Cd2, and generates the digest candidate Cd.
  • the information processing apparatus 1 does not have to include the second candidate selection unit 17 that refers to the second inference device information D2.
  • the digest candidate generation unit 18 generates the digest candidate Cd based on the second candidate video data Cd2 selected by the second candidate selection unit 17 using the second score Sc2.
  • the information processing apparatus 1 is provided with the first threshold value Th11 and the second threshold value Th12, so that the section video data having a higher first score Sc1 among the section video data Dp included in the digest candidate CDd.
  • Slow video SL can be generated for Dp. Therefore, the information processing apparatus 1 can suitably include a slow image for a scene having a particularly high importance in the digest candidate CDd.
  • FIG. 9 is a functional block diagram of the information processing apparatus 1X according to the second embodiment.
  • the information processing apparatus 1X mainly includes a slow image generation means 16X and a digest candidate generation means 18X.
  • the slow video generation means 16X sets the reproduction speed of the first candidate video data Cd1 with respect to the first candidate video data “Cd1” which is video data corresponding to a part of the section selected from the material video data “Dm”.
  • a slow video "SL" which is video data set to less than the same speed, is generated.
  • the slow image generation means 16X can be the slow image generation unit 16 of the first embodiment (including a modification, the same applies hereinafter).
  • the selection of the first candidate video data Cd1 may be performed by the information processing device 1X, or may be performed by an external device other than the information processing device 1X. In the latter case, the external device may transmit information about the first candidate video data Cd1 to the information processing device 1X, or may add a label of the selection result of the first candidate video data Cd1 to the material video data Dm. ..
  • the digest candidate generation means 18X generates a digest candidate "Cd" which is a digest candidate of the material video data Dm based on the material video data Dm and the slow video SL.
  • the digest candidate generation means 18X can be the digest candidate generation unit 18 of the first embodiment.
  • the digest candidate generation means 18X generates a digest candidate Cd which is one video data in which the video data selected from the material video data Dm and the slow video SL are combined.
  • the "video data selected from the material video data Dm" may be the first candidate video data Cd1, and the video data selected by a selection method different from the first candidate video data Cd1 (for example, the above-mentioned deformation). It may be the third candidate video data Cd3) of Example 4.
  • the digest candidate generation means 18X may generate a list of the video data selected from the material video data Dm and the slow video SL as the digest candidate Cd.
  • FIG. 10 is an example of a flowchart executed by the information processing apparatus 1X in the second embodiment.
  • the slow video generation means 16X generates a slow video SL in which the reproduction speed of the first candidate video data Cd1 is less than the same magnification for the first candidate video data Cd1 selected from the material video data Dm (step).
  • the digest candidate generation means 18X generates a digest candidate Cd, which is a digest candidate of the material video data Dm, based on the material video data Dm and the slow video SL (step S42).
  • the information processing apparatus 1X according to the second embodiment can suitably generate a digest candidate including a slow image.
  • Non-temporary computer-readable media include various types of tangible storage media.
  • Examples of non-temporary computer-readable media include magnetic storage media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical storage media (eg, magneto-optical disks), CD-ROMs (ReadOnlyMemory), CD-Rs, Includes CD-R / W, semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (RandomAccessMemory)).
  • the program may also be supplied to the computer by various types of temporary computer readable medium.
  • temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • the slow video which is the video data in which the reproduction speed of the first candidate video data is less than the same magnification is generated.
  • Slow video generation means and A digest candidate generation means that generates a digest candidate that is a digest candidate of the material video data based on the material video data and the slow video.
  • Appendix 2 The information processing apparatus according to Appendix 1, wherein the slow video generation means generates the slow video corresponding to a plurality of reproduction speeds for each of the first candidate video data.
  • Appendix 3 Further having a second candidate selection means for selecting the second candidate video data from the slow video based on the score for each of the slow videos.
  • the information processing apparatus according to Appendix 1 or 2, wherein the digest candidate generation means generates the digest candidate based on the material video data and the second candidate video data.
  • Appendix 4 The information processing apparatus according to Appendix 3, wherein the second candidate selection means selects the slow video having a score equal to or higher than a threshold value as the second candidate video data.
  • the slow video generation means generates the slow video corresponding to a plurality of playback speeds for each of the first candidate video data.
  • the second candidate selection means among the slow videos for each of the first candidate video data, the slow video in which the score calculated for each of the slow videos is equal to or higher than the threshold value and the score is the highest.
  • the information processing apparatus according to Appendix 3, wherein is selected as the second candidate video data.
  • the digest candidate generation means includes only the video data having the highest score among the first candidate video data and the second candidate video data corresponding to the same section of the material video data in the digest candidate.
  • the information processing apparatus according to any one of 3 to 5.
  • Appendix 8 It further has a first candidate selection means for selecting the first candidate video data from the material video data based on the first inference device learned to infer the first score for the input video data.
  • the second candidate selection means calculates the second score for each of the slow images as the score based on the second inference device learned to infer the second score for the input video data.
  • the information processing apparatus according to any one of Supplementary note 3 to 7.
  • the first inference device is an inference device learned based on learning material video data labeled as to whether or not it is an important section.
  • the information processing apparatus according to Appendix 8 wherein the second inference device is an inference device that has been learned based on learning material video data labeled as to whether or not a specific event has occurred.
  • the "label relating to whether or not the section is important" may be a label indicating the importance of each section.
  • the first inference device and the second inference device are inference devices learned based on learning material video data labeled as to whether or not they are important sections.
  • the information processing apparatus according to Appendix 8 wherein the first score and the second score are scores relating to the importance of the corresponding video data.
  • the "first inference device and the second inference device" may be the same inference device or different inference devices.
  • [Appendix 11] Further having a first candidate selection means for selecting the section video data to be the first candidate video data by comparing the first score for the section video data for each section of the material video data with the first threshold value.
  • the digest candidate generation means generates the digest candidate based on the section video data selected by comparing the first score with a second threshold different from the first threshold and the slow video.
  • the information processing apparatus according to any one of 7.
  • the slow video For the first candidate video data which is the video data corresponding to a part of the section selected from the material video data, the slow video which is the video data in which the reproduction speed of the first candidate video data is less than the same magnification is generated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

情報処理装置1Xは、主に、スロー映像生成手段16Xと、ダイジェスト候補生成手段18Xとを有する。スロー映像生成手段16Xは、素材映像データDmから選定された一部の区間に対応する映像データである第1候補映像データCd1に対し、当該第1候補映像データCd1の再生速度を等倍速未満とした映像データであるスロー映像SLを生成する。ここで、ダイジェスト候補生成手段18Xは、素材映像データDmと、スロー映像SLとに基づき、素材映像データDmのダイジェストの候補であるダイジェスト候補Cdを生成する。

Description

情報処理装置、制御方法及び記憶媒体
 本開示は、ダイジェストの生成に関する処理を行う情報処理装置、制御方法及び記憶媒体の技術分野に関する。
 素材となる映像データを編集してダイジェストを生成する技術が存在する。例えば、特許文献1には、グランドでのスポーツイベントの映像ストリームからハイライトを確認して製作する方法が開示されている。
特表2019-522948号公報
 特許文献1には、素材となる映像データにおいて重要なシーンを閲覧者が詳細に確認できるようなハイライト映像の編集については、何ら開示されていない。
 本開示の目的は、上記の課題を勘案し、ダイジェスト候補を好適に生成することが可能な情報処理装置、制御方法及び記憶媒体を提供することである。
 情報処理装置の一の態様は、素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、を有する情報処理装置である。
 制御方法の一の態様は、コンピュータにより、素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、制御方法である。
 記憶媒体の一の態様は、素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段としてコンピュータを機能させるプログラムが格納された記憶媒体である。
 本開示によれば、ダイジェスト候補を好適に生成することができる。
第1実施形態におけるダイジェスト候補選定システムの構成を示す。 情報処理装置のハードウェア構成を示す。 情報処理装置の機能ブロックの一例である。 (A)素材映像データの再生時間長に応じた長さの帯グラフにより素材映像データを表した図である。(B)素材映像データの時系列での第1スコアを示す線グラフである。(C)素材映像データから生成された第1速度スロー映像を示す帯グラフである。(D)素材映像データから生成された第2速度スロー映像を示す帯グラフである。(E)生成されたダイジェスト候補を示す帯グラフである。 学習装置の機能ブロック構成の一例を示す。 第1実施形態において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 変形例3において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 変形例4において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 第2実施形態における情報処理装置の機能ブロック図である。 第2実施形態において情報処理装置が実行するフローチャートの一例である。
 以下、図面を参照しながら、情報処理装置、制御方法及び記憶媒体の実施形態について説明する。
 <第1実施形態>
 (1)システム構成
 図1は、第1実施形態に係るダイジェスト候補選定システム100の構成を示す。ダイジェスト候補選定システム100は、素材となる映像データ(「素材映像データDm」とも呼ぶ。)のダイジェストの候補となる映像データ(「ダイジェスト候補Cd」とも呼ぶ。)を好適に選定する。ダイジェスト候補選定システム100は、主に、情報処理装置1と、入力装置2と、出力装置3と、記憶装置4とを備える。以後において、映像データは、音データを含んでもよい。
 情報処理装置1は、通信網を介し、又は、無線若しくは有線による直接通信により、入力装置2、及び出力装置3とデータ通信を行う。情報処理装置1は、素材映像データDmが入力された場合に、素材映像データDmの一部の重要区間に対するスロー映像を含めたダイジェスト候補Cdを生成する。なお、素材映像データDmは、記憶装置4に記憶された任意の映像データであってもよく、記憶装置4以外の外部装置から情報処理装置1に供給される映像データであってもよい。後者の場合、素材映像データDmは、映像データを生成するカメラからリアルタイムで送信される映像データであってもよい。
 入力装置2は、ユーザ入力を受け付ける任意のユーザインターフェースであり、例えば、ボタン、キーボード、マウス、タッチパネル、音声入力装置などが該当する。入力装置2は、ユーザ入力に基づき生成した入力信号「S1」を、情報処理装置1へ供給する。出力装置3は、例えば、ディスプレイ、プロジェクタ等の表示装置、及び、スピーカ等の音出力装置であり、情報処理装置1から供給される出力信号「S2」に基づき、所定の表示又は/及び音出力(ダイジェスト候補Cdの再生などを含む)を行う。
 記憶装置4は、情報処理装置1の処理に必要な各種情報を記憶するメモリである。記憶装置4は、例えば、第1推論器情報D1と、第2推論器情報D2とを記憶する。
 第1推論器情報D1は、入力された映像データに対する第1のスコア(「第1スコアSc1」とも呼ぶ。)を推論する推論器である第1推論器に関する情報である。第1スコアSc1は、例えば、入力された映像データの重要度を示すスコアであり、上述の重要度は、入力された映像データが重要区間であるか又は非重要区間であるか(即ちダイジェストの一区間として相応しいか否か)を判定するための基準となる指標である。
 第1推論器は、例えば、映像データを構成する所定枚数(1枚以上)の画像が入力された場合に、対象の映像データに対する第1スコアSc1を推論するように予め学習され、第1推論器情報D1には、学習された第1推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、素材映像データDmを所定の再生時間長の区間毎に素材映像データDmを分割した映像データ(「区間映像データDp」とも呼ぶ。)を、第1推論器に順次入力する。なお、第1推論器は、対象となる映像データを構成する画像に加え、当該映像データに含まれる音データを入力として第1スコアSc1を推論してもよい。この場合、第1推論器には、音データから算出した特徴量が入力されてもよい。
 第2推論器情報D2は、入力された映像データに対する第2のスコア(「第2スコアSc2」とも呼ぶ。)を推論する推論器である第2推論器に関する情報である。第2スコアSc2は、第1の例では、特定のイベントが発生しているか否かの確からしさを示すスコアである。上述の「特定のイベント」は、撮影対象の催し物において重要なイベントを指し、例えば、催し物において重要な特定の行動(例えば野球におけるホームラン)の発生又はその他の事象の発生(例えば得点を競う競技における得点の発生)などが該当する。第2の例では、第2スコアSc2は、第1スコアSc1と同一の指標を表すスコアであり、入力された映像データに対する重要度を示すものであってもよい。
 第2推論器は、例えば、映像データを構成する所定枚数の画像が入力された場合に、対象の映像データに対する第2スコアSc2を推論するように予め学習され、第2推論器情報D2には、学習された第2推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、選定した区間映像データDpから生成したスロー映像の各々を第2推論器に順次入力する。なお、第2推論器情報D2は、映像データの再生速度毎に分けて学習された第2推論器のパラメータを含んでもよい。
 第1推論器及び第2推論器の学習モデルは、それぞれ、ニューラルネットワーク又はサポートベクターマシンなどの任意の機械学習に基づく学習モデルであってもよい。例えば、上述の第1推論器及び第2推論器のモデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、第1推論器情報D1及び第2推論器情報D2は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。
 なお、記憶装置4は、情報処理装置1に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶装置4は、情報処理装置1とデータ通信を行うサーバ装置であってもよい。また、記憶装置4は、複数の装置から構成されてもよい。この場合、記憶装置4は、第1推論器情報D1及び第2推論器情報D2を分散して記憶してもよい。
 以上において説明したダイジェスト候補選定システム100の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、入力装置2及び出力装置3は、一体となって構成されてもよい。この場合、入力装置2及び出力装置3は、情報処理装置1と一体となるタブレット型端末として構成されてもよい。他の例では、ダイジェスト候補選定システム100は、入力装置2又は出力装置3の少なくとも一方を備えなくともよい。さらに別の例では、情報処理装置1は、複数の装置から構成されてもよい。この場合、情報処理装置1を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。
 (2)情報処理装置のハードウェア構成
 図2は、情報処理装置1のハードウェア構成を示す。情報処理装置1は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12及びインターフェース13は、データバス19を介して接続されている。
 プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、量子プロセッサなどのプロセッサである。
 メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ12には、情報処理装置1が実行するプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置4から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置4として機能してもよい。同様に、記憶装置4は、情報処理装置1のメモリ12として機能してもよい。なお、情報処理装置1が実行するプログラムは、メモリ12以外の記憶媒体に記憶されてもよい。
 インターフェース13は、情報処理装置1と他の装置とを電気的に接続するためのインターフェースである。例えば、情報処理装置1と他の装置とを接続するためのインターフェースは、プロセッサ11の制御に基づき他の装置とデータの送受信を有線又は無線により行うためのネットワークアダプタなどの通信インターフェースであってもよい。他の例では、情報処理装置1と他の装置とはケーブル等により接続されてもよい。この場合、インターフェース13は、他の装置とデータの授受を行うためのUSB(Universal Serial Bus)、SATA(Serial AT Attachment)などに準拠したハードウェアインターフェースを含む。
 なお、情報処理装置1のハードウェア構成は、図2に示す構成に限定されない。例えば、情報処理装置1は、入力装置2又は出力装置3の少なくとも一方を含んでもよい。
 (3)機能ブロック
 情報処理装置1は、スロー映像を生成する区間映像データDpの候補(「第1候補映像データCd1」とも呼ぶ。)を第1スコアSc1に基づき選定し、ダイジェスト候補Cdに含めるスロー映像の候補(「第2候補映像データCd2」とも呼ぶ。)を第2スコアSc2に基づき選定する。そして、情報処理装置1は、第1候補映像データCd1と第2候補映像データCd2に基づき、ダイジェスト候補Cdを生成する。以下では、上述の処理を実現するための情報処理装置1の機能ブロックについて説明する。
 情報処理装置1のプロセッサ11は、機能的には、取得部14と、第1候補選定部15と、スロー映像生成部16と、第2候補選定部17と、ダイジェスト候補生成部18とを有する。なお、図3では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図3に限定されない。後述する他の機能ブロックの図においても同様である。
 取得部14は、インターフェース13を介して素材映像データDmを取得し、素材映像データDmを区間毎に分割した映像データである区間映像データDpを、順次第1候補選定部15に供給する。この場合、区間映像データDpは、例えば、素材映像データDmを単位時間長の区間により区切ったデータであり、所定枚数分の画像を含むデータとなる。
 第1候補選定部15は、取得部14から順次供給される区間映像データDpに対して第1スコアSc1を算出し、第1スコアSc1に基づき第1候補映像データCd1を区間映像データDpから選定する。そして、第1候補選定部15は、選定した第1候補映像データCd1を、スロー映像生成部16及びダイジェスト候補生成部18に供給する。
 この場合、第1候補選定部15は、第1推論器情報D1を参照することで第1推論器を構成し、取得部14から供給される区間映像データDpを第1推論器に順次入力することで、入力した区間映像データDpに対する第1スコアSc1を算出する。これにより、第1候補選定部15は、重要性が高い区間映像データDpほど高い値となる第1スコアSc1を算出する。そして、第1候補選定部15は、第1スコアSc1が予め定めた所定の閾値(「閾値Th1」とも呼ぶ。)以上となる区間映像データDpを、第1候補映像データCd1として選定する。第1候補映像データCd1は、スロー映像を生成する対象となる区間映像データDpの候補であると共に、ダイジェスト候補Cdに含める区間映像データDpの候補となる。
 なお、第1候補選定部15は、第1スコアSc1が閾値Th1以上となる区間映像データDpが時系列において連続する1つのシーンを構成する場合、連続する区間映像データDpを1つのまとまった第1候補映像データCd1とみなしてもよい。この場合、第1候補映像データCd1は、少なくとも1つ以上の区間映像データDpを含み、再生時間長が夫々異なる可能性がある映像データとなる。
 スロー映像生成部16は、第1候補選定部15から供給される第1候補映像データCd1の各々に対し、等倍速度未満の再生速度(例えば1/2、1/3、1/4再生速度等)となるスロー映像(「スロー映像SL」とも呼ぶ。)を生成する。スロー映像生成部16は、生成したスロー映像SLを第2候補選定部17に供給する。この場合、例えば、スロー映像生成部16は、第1候補映像データCd1を構成する時系列の画像の間に、前後の所定枚数の画像(フレーム)から生成した補間画像を挿入することで、スロー映像SLを生成する。補間画像は、再生速度に応じた枚数及び間隔により挿入される。補間画像の生成及び挿入については、任意の補間手法に基づき行われてもよい。
 好適には、スロー映像生成部16は、第1候補映像データCd1毎に、複数の再生速度に対応するスロー映像SLを生成するとよい。これにより、複数の再生速度から適した再生速度のスロー映像SLをダイジェスト候補Cdに含めることが可能となる。
 第2候補選定部17は、スロー映像生成部16から供給される各スロー映像SLに対して第2スコアSc2を算出し、第2スコアSc2に基づき第2候補映像データCd2となるスロー映像SLを選定する。そして、第2候補選定部17は、選定した第2候補映像データCd2をダイジェスト候補生成部18に供給する。
 この場合、第2候補選定部17は、第2推論器情報D2を参照することで第2推論器を構成し、当該第2推論器にスロー映像SLを順次入力することで、入力したスロー映像SLに対する第2スコアSc2を算出する。この場合、第2スコアSc2は、第1スコアSc1と同様、重要性が高い映像であるほど高い値を示すものであってもよく、特定のイベントが発生している蓋然性が高いほど高い値を示すものであってもよい。そして、第2候補選定部17は、第2スコアSc2が予め定めた所定の閾値(「閾値Th2」とも呼ぶ。)以上となるスロー映像SLを、第2候補映像データCd2として選定する。なお、第2候補選定部17は、再生速度毎に学習された第2推論器のパラメータが第2推論器情報D2に記憶されている場合には、対象となるスロー映像SLの再生速度に応じた第2推論器を選択し、選択した第2推論器に対象のスロー映像SLを入力するとよい。
 ここで、同一の区間映像データDpから生成された異なる再生速度の2個以上のスロー映像SLの第2スコアSc2が閾値Th2となった場合について補足説明する。この場合、第1の例では、第2候補選定部17は、当該2個以上のスロー映像SLの全てを第2候補映像データCd2として選定する。第2の例では、第2候補選定部17は、当該2個以上のスロー映像SLのうち、第2スコアSc2が最も高い1個のスロー映像SLを、第2候補映像データCd2として選定する。第2の例では、同一のシーンの複数のスロー映像SLがダイジェスト候補Cdに含まれるのを好適に抑制することができる。
 なお、1つのシーンを構成する区間映像データDpのまとまりが第1候補映像データCd1として選定されている場合、スロー映像生成部16及び第2候補選定部17は、シーン毎にスロー映像SLの生成及び第2スコアSc2の算出を行ってもよい。この場合、第2候補選定部17は、時系列において連続したスロー映像SLから構成されるシーン(スローシーン)毎の第2スコアSc2を算出し、スローシーン毎に第2候補映像データCd2としての適否を判定する。この処理の詳細については、図4(A)~図4(E)を参照して後述する。
 ダイジェスト候補生成部18は、第1候補選定部15から供給される第1候補映像データCd1と、第2候補選定部17から供給される第2候補映像データCd2とに基づき、ダイジェスト候補Cdを生成する。例えば、ダイジェスト候補生成部18は、全ての第1候補映像データCd1と、全ての第2候補映像データCd2とを結合した1つの映像データを、ダイジェスト候補Cdとして生成する。この場合、ダイジェスト候補生成部18は、例えば、シーンごとに時系列に第1候補映像データCd1及び第2候補映像データCd2を並べて連結したダイジェスト候補Cdを生成する。ダイジェスト候補Cdの生成の詳細については、図4(A)~図4(E)を参照して後述する。
 なお、ダイジェスト候補生成部18は、ダイジェスト候補Cdとして1つの映像データを生成する代わりに、第1候補映像データCd1と第2候補映像データCd2とのリストを、ダイジェスト候補Cdとして生成してもよい。この場合、ダイジェスト候補生成部18は、ダイジェスト候補Cdを出力装置3に表示させ、最終的なダイジェストに含める映像データを選択するユーザ入力などを入力装置2により受け付けてもよい。また、ダイジェスト候補生成部18は、選定された第1候補映像データCd1と第2候補映像データCd2との一部のみを用いてダイジェスト候補Cdを生成してもよい。
 ダイジェスト候補生成部18は、生成したダイジェスト候補Cdを、記憶装置4又はメモリ12に記憶させてもよく、記憶装置4以外の外部装置に送信してもよい。また、ダイジェスト候補生成部18は、ダイジェスト候補Cdを再生するための出力信号S2を出力装置3に送信することで、ダイジェスト候補Cdを出力装置3により再生してもよい。
 なお、図3において説明した取得部14、第1候補選定部15、スロー映像生成部16、第2候補選定部17及びダイジェスト候補生成部18の各構成要素は、例えば、プロセッサ11が記憶装置4又はメモリ12に格納されたプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアを含む任意のコントローラにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
 (4)具体例
 次に、図3の機能ブロックに基づくダイジェスト候補Cdの生成の具体例について図4(A)~(E)を参照して説明する。以後では、一例として、情報処理装置1は、スロー映像SLとして、第1再生速度に対応する第1速度スロー映像「SL1」と、第2再生速度に対応する第2速度スロー映像「SL2」とを生成するものとする。ここで、第1再生速度は、等倍速度未満であり、第2再生速度は、第1再生速度未満である。
 図4(A)は、素材映像データDmの再生時間長(即ち画像数)に応じた長さの帯グラフにより素材映像データDmを表した図である。図4(B)は、素材映像データDmの時系列での第1スコアSc1を示す線グラフである。図4(C)は、図4(A)に示す素材映像データDmから生成された第1速度スロー映像SL1を示す帯グラフである。図4(D)は、図4(A)に示す素材映像データDmから生成された第2速度スロー映像SL2を示す帯グラフである。図4(E)は、生成されたダイジェスト候補Cdを示す帯グラフである。
 図4(A)及び図4(B)に示すように、第1候補選定部15は、「シーンA」及び「シーンB」に該当する区間映像データDpの第1スコアSc1が閾値Th1以上となると判定し、これらの区間映像データDpを第1候補映像データCd1として選定する。この場合、シーンA及びシーンBは、夫々、第1スコアSc1が閾値Th1以上となる1又は複数の区間映像データDpが連続したシーンに相当する。なお、シーンAは、素材映像データDmにおいて再生時刻「t1」から再生時刻「t2」までの区間に対応し、シーンBは、素材映像データDmにおいて再生時刻「t3」から再生時刻「t4」までの区間に対応する。
 そして、スロー映像生成部16は、シーンAを第1再生速度に変換したスローシーン「A1」と、シーンAを第2再生速度に変換したスローシーン「A2」とを生成する。同様に、スロー映像生成部16は、シーンBを第1再生速度に変換したスローシーン「B1」と、シーンBを第2再生速度に変換したスローシーン「B2」とを生成する。ここで、スローシーンA1及びスローシーンB1は、シーンA及びシーンBを構成する区間映像データDpの再生速度を第1再生速度に変更した第1速度スロー映像SL1から構成されるシーンとなる。同様に、スローシーンA2及びスローシーンB2は、シーンA及びシーンBを構成する区間映像データDpの再生速度を第2再生速度に変更した第2速度スロー映像SL2から構成されるシーンとなる。
 そして、第2候補選定部17は、スローシーンA1、スローシーンB1、スローシーンA2、スローシーンB2を構成する各スロー映像SLに対して第2スコアSc2を算出し、第2スコアSc2が閾値Th2以上となるスロー映像SLを第2候補映像データCd2として選定する。ここでは、第2候補選定部17は、スローシーンA1に対応するスロー映像SLの第2スコアSc2が閾値Th2以上となり、それ以外のスローシーン(シーンB1、A2、B2)に対応するスロー映像SLの第2スコアSc2がいずれも閾値Th2未満であると判定する。よって、この場合、第2候補選定部17は、シーンA1を、第2候補映像データCd2として選定する。
 ここで、第2候補選定部17は、スローシーンを構成するスロー映像SL毎に第2候補映像データCd2としての適否を判定する代わりに、スローシーン毎に第2候補映像データCd2としての適否を判定してもよい。この場合、第2候補選定部17は、スローシーン毎に連続する各スロー映像SLに対する第2スコアSc2の代表値(平均値、中央値などを含む)を、スローシーン毎の第2スコアSc2として算出する。そして、第2候補選定部17は、スローシーン毎の第2スコアSc2が閾値Th2以上となるスローシーンを、第2候補映像データCd2として選定する。図4(A)~(E)の例では、第2候補選定部17は、スローシーンA1、スローシーンB1、スローシーンA2、スローシーンB2の各々に対して第2スコアSc2を算出し、当該第2スコアSc2が閾値Th2以上となるシーンA1を、第2候補映像データCd2として選定する。
 そして、図4(E)に示すように、ダイジェスト候補生成部18は、第1候補映像データCd1であるシーンA及びシーンBと、第2候補映像データCd2であるスローシーンA1とを時系列により連結させたダイジェスト候補Cdを生成する。
 ここで、ダイジェスト候補生成部18は、素材映像データDmにおいて同一区間(同一の再生時間帯)となるシーンについては、再生速度が等倍速度に近いシーンから順に連結させている。図4(E)の例では、ダイジェスト候補生成部18は、シーンAとスローシーンA1とが素材映像データDmにおいて同一区間に対応することから、再生速度が等倍速度であるシーンAをスローシーンA1の前に配置したダイジェスト候補Cdを生成している。
 また、ダイジェスト候補生成部18は、同一の再生速度において連続する映像データについては、一つのまとまったシーンとしてダイジェスト候補Cdに組み込んでいる。図4(E)の例では、シーンA、スローシーンA1、シーンBは、夫々、同一の再生速度において連続する一連の映像データに該当することから、ダイジェスト候補生成部18は、これらのシーンを夫々一まとまりのシーンとしてダイジェスト候補Cdに組み込んでいる。これにより、ダイジェスト候補生成部18は、まとまりがない不自然な間隔によりスロー映像が挿入されたダイジェスト候補Cdが生成されるのを好適に抑制する。
 (5)第1推論器及び第2推論器の学習
 次に、第1推論器及び第2推論器の学習による第1推論器情報D1及び第2推論器情報D2の生成について説明する。図5は、第1推論器及び第2推論器の学習を行う学習システムの概略構成図である。上記学習システムは、学習データD3を参照可能な学習装置6を有する。
 学習装置6は、例えば図2に示す情報処理装置1の構成と同一構成を有し、主に、プロセッサ21と、メモリ22と、インターフェース23とを有している。学習装置6は、情報処理装置1であってもよく、情報処理装置1以外の任意の装置であってもよい。
 学習データD3は、学習用の素材データである学習用素材データと、学習用素材データに対する第1スコアSc1に関する正解ラベルである第1ラベルと、学習用素材データに対する第2スコアSc2に関する正解ラベルである第2ラベルとを含んでいる。
 第1ラベルは、例えば、学習用素材データにおいて重要区間と非重要区間とを識別するための情報である。第2ラベルは、例えば、学習用素材データにおいて特定のイベントの発生区間を識別するための情報である。他の例では、第2ラベルは、第1ラベルと同様、学習用素材データにおいて重要区間と非重要区間とを識別するための情報であってもよい。
 学習用素材データは、等倍速度の映像データに限られず、等倍速度未満の複数の再生速度の映像データを含んでもよい。また、学習用素材データは、第1推論器の学習と第2推論器の学習とで夫々設けられてもよい。この場合、第1推論器の学習用素材データとして、第1ラベルが付された等倍速度の映像データが設けられる。また、第2推論器の学習用素材データとして、第2ラベルが付された等倍速度未満の複数の再生速度に対応する映像データが設けられる。
 そして、学習装置6は、学習データD3を参照し、学習用素材データと、第1ラベルとに基づき、第1推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第1推論器に入力した場合の第1推論器の出力と、入力データに対応する第1ラベルが示す正解の第1スコアSc1との誤差(損失)が最小となるように、第1推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。なお、学習装置6は、第1ラベルにより重要区間と指定された学習用素材データの区間映像データについては、正解の第1スコアSc1を第1スコアSc1の最大値とし、それ以外の区間映像データについては、正解の第1スコアSc1を第1スコアSc1の最低値としてもよい。
 同様に、学習装置6は、学習データD3を参照し、学習用素材データと、第2ラベルとに基づき、第2推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第2推論器に入力した場合の第2推論器の出力と、入力データに対応する第2ラベルが示す正解の第2スコアSc2との誤差(損失)が最小となるように、第2推論器のパラメータを決定する。
 そして、学習装置6は、学習により得られた第1推論器のパラメータを、第1推論器情報D1として生成し、学習により得られた第2推論器のパラメータを、第2推論器情報D2として生成する。なお、生成された第1推論器情報D1及び第2推論器情報D2は、記憶装置4と学習装置6とのデータ通信により直ちに記憶装置4に記憶されてもよく、着脱可能な記憶媒体を介して記憶装置4に記憶されてもよい。
 なお、第1推論器と第2推論器の学習は、夫々別の装置により行われてもよい。この場合、学習装置6は、第1推論器の学習と第2推論器の学習とを夫々行う複数の装置から構成される。また、第1推論器及び第2推論器は、学習用素材データの撮影対象となった催し物の種類ごとに学習が行われてもよい。
 (6)処理フロー
 図6は、第1実施形態において情報処理装置1が実行する処理の手順を示すフローチャートの一例である。情報処理装置1は、図6に示すフローチャートの処理を、例えば、対象となる素材映像データDmを指定して処理の開始を指示するユーザ入力を検知した場合、又は、外部装置から素材映像データDmの供給が開始された場合等に実行する。
 まず、情報処理装置1は、素材映像データDmの終端であるか否か判定する(ステップS11)。この場合、情報処理装置1は、対象となる素材映像データDmの全ての区間について、後述するステップS12及びステップS13の処理が終了した場合に、素材映像データDmの終端であると判定する。そして、情報処理装置1は、素材映像データDmの終端である場合(ステップS11;Yes)、ステップS14へ処理を進める。一方、情報処理装置1は、素材映像データDmの終端ではない場合(ステップS11;No)、ステップS12及びステップS13の処理が行われていない素材映像データDmの区間映像データDpを対象として、ステップS12及びステップS13を実行する。
 ステップS12では、情報処理装置1の取得部14は、素材映像データDmの一区間に対応する区間映像データDpを取得する(ステップS12)。例えば、取得部14は、ステップS12及びステップS13の処理が行われていない素材映像データDmの区間映像データDpを、再生時刻が早い順に取得する。この場合、取得部14は、区間映像データDpを、メモリ12から、又は、インターフェース13を介して記憶装置4又はその他の外部装置から取得する。
 次に、第1候補選定部15は、ステップS12で取得した区間映像データDpに対して第1スコアSc1を算出し、当該区間映像データDpが第1候補映像データCd1であるか否か判定する(ステップS13)。この場合、第1候補選定部15は、第1推論器情報D1を参照して構成した第1推論器に区間映像データDpを入力することで算出した第1スコアSc1が閾値Th1以上の場合、当該区間映像データDpが第1候補映像データCd1であるとみなす。一方、第1候補選定部15は、区間映像データDpの第1スコアSc1が閾値Th1未満の場合、当該区間映像データDpは第1候補映像データCd1でないとみなす。そして、情報処理装置1は、ステップS11へ処理を戻し、ステップS12及びステップS13を素材映像データDmの終端に至るまで繰り返すことで、素材映像データDmを構成する全ての区間映像データDpの第1候補映像データCd1への適否を判定する。
 ステップS14では、スロー映像生成部16は、ステップS13で選定した第1候補映像データCd1に対して再生速度を等倍速度未満に変換したスロー映像SLを生成する(ステップS14)。この場合、好適には、スロー映像生成部16は、予め定めた複数の再生速度のスロー映像SLを、第1候補映像データCd1毎に生成するとよい。
 そして、第2候補選定部17は、各スロー映像SLに対して第2スコアSc2を算出し、スロー映像SLから第2候補映像データCd2を選定する(ステップS15)。この場合、例えば、第2候補選定部17は、第2推論器情報D2を参照することで構成した第2推論器にスロー映像SLを入力することで第2スコアSc2を算出し、第2スコアSc2が閾値Th2以上となるスロー映像SLを、第2候補映像データCd2として選定する。なお、第2候補選定部17は、同一の素材映像データDmの区間に対応する複数のスロー映像SLの第2スコアSc2が閾値Th2以上の場合には、最も第2スコアSc2が高いスロー映像SLのみを第2候補映像データCd2として選定してもよい。また、第2候補選定部17は、図4(A)~(E)の具体例で説明したように、時系列において同一再生速度のスロー映像SLが連続するスローシーン毎に第2候補映像データCd2を選定してもよい。
 そして、ダイジェスト候補生成部18は、ステップS13で選定された第1候補映像データCd1と、ステップS15で選定された第2候補映像データCd2とに基づき、ダイジェスト候補Cdを生成する(ステップS16)。この場合、例えば、ダイジェスト候補生成部18は、第1候補映像データCd1と、第2候補映像データCd2とを時系列により連結した映像データを、ダイジェスト候補Cdとして生成する。他の例では、ダイジェスト候補生成部18は、第1候補映像データCd1と、第2候補映像データCd2とのリストを、ダイジェスト候補Cdとして生成する。
 ここで、本実施形態による効果について補足説明する。
 スポーツ映像編集の時間短縮化とコンテンツ拡大の二つのニーズから、スポーツ映像の自動編集に対するニーズが高まっている。そして、一般的に、スポーツの試合では、ダイジェスト映像にはスロー映像が含まれる。しかし、単純に重要度に基づきカメラの映像から重要シーンを抽出して結合してダイジェストを自動生成した場合、自動生成されるダイジェストにはスロー映像が含まれない。
 以上を勘案し、第1実施形態では、情報処理装置1は、第1スコアSc1が閾値Th1以上となる区間についてスロー映像SLを生成し、さらに第2スコアSc2が閾値Th2以上となるスロー映像SLを、ダイジェスト候補Cdとして使用する。これにより、スロー映像が含まれるダイジェストを好適に生成することが可能となる。例えば、サッカーの試合を撮影した素材映像データDmから、ファウルシーンのスロー、ゴールと判定されるシーンのスロー映像を含むダイジェストを好適に生成することもできる。
 (7)変形例
 次に、上記実施形態に好適な各変形例について説明する。以下の変形例は任意に組み合わせて上述の実施形態に適用してもよい。
 (変形例1)
 第1推論器と第2推論器とは、同一のパラメータを用いて構成される同一の推論器であってもよい。
 この場合、記憶装置4には、第1推論器及び第2推論器の両方として機能する推論器のパラメータが記憶されており、情報処理装置1は、当該パラメータを参照して構成する推論器に基づき、第1スコアSc1及び第2スコアSc2の算出を行う。この場合、上述の推論器は、例えば、第1推論器と同様、入力された映像データに対して重要度に相当するスコアを推論するように学習された推論器である。この態様によっても、情報処理装置1は、上述した実施形態と同様、スロー映像SLを生成する素材映像データDmの区間の選定、及び、ダイジェスト候補Cdに含めるスロー映像SLの選定等を好適に行うことができる。
 (変形例2)
 ダイジェスト候補生成部18は、素材映像データDmにおいて同一区間に対応する第1候補映像データCd1及び第2候補映像データCd2のうち、いずれか一方のみをダイジェスト候補Cdに含めてもよい。
 例えば、図4(A)~(E)の例では、シーンAとスローシーンA1とが素材映像データDmにおいて同一区間(即ち時刻t1から時刻t2の区間)に対応している。この場合、ダイジェスト候補生成部18は、シーンAとスローシーンA1のいずれか一方を、ダイジェスト候補Cdに含めるシーンとして選択する。例えば、ダイジェスト候補生成部18は、シーンAに対する第1スコアSc1と、スローシーンA1に対する第2スコアSc2とを比較し、大きいスコアに対応するシーンを、ダイジェスト候補Cdに含めるシーンとして選択する。この場合、第1スコアSc1及び第2スコアSc2は、比較可能な同一指標のスコア(例えば重要度を示すスコア)であるとよい。
 本変形例によれば、情報処理装置1は、再生速度のみが異なる複数の映像がダイジェスト候補Cdに含まれることを防ぎ、ダイジェスト候補Cdの冗長化を好適に抑制することができる。
 (変形例3)
 情報処理装置1は、重要区間か否かを識別するためのラベルが予め付されている素材映像データDmに基づきダイジェスト候補Cdを生成してもよい。この場合、情報処理装置1は、第1推論器情報D1を参照して第1候補映像データCd1を選定する代わりに、上述のラベルを参照して第1候補映像データCd1を選定する。
 図7は、変形例3において情報処理装置1が実行するフローチャートの一例である。まず、情報処理装置1の取得部14は、重要区間か否かを識別するためのラベルが付された素材映像データDmを取得する(ステップS21)。この場合、取得部14は、素材映像データDmを、メモリ12から取得してもよく、記憶装置4又はその他の外部装置から取得してもよい。
 そして、第1候補選定部15は、素材映像データDmに付されたラベルに基づき識別した重要区間を第1候補映像データCd1とみなし、スロー映像生成部16は、当該第1候補映像データCd1に対するスロー映像SLを生成する(ステップS22)。そして、第2候補選定部17は、各スロー映像SLに対して第2スコアSc2を算出し、第2候補映像データCd2を選定する(ステップS23)。この場合、図6のステップS15と同様、第2推論器情報D2を参照して構成した第2推論器に各スロー映像SLを入力することで算出した第2スコアSc2に基づき、第2候補映像データCd2を選定する。そして、ダイジェスト候補生成部18は、図6のステップS16と同様、第1候補映像データCd1と第2候補映像データCd2とに基づき、ダイジェスト候補Cdを生成する(ステップS24)。
 このように、本変形例においても、情報処理装置1は、スロー映像SLを含むダイジェスト候補Cdを好適に生成することができる。また、本変形例では、情報処理装置1は、第1推論器情報D1を用いることなく、ダイジェスト候補Cdを生成することができる。
 (変形例4)
 情報処理装置1は、スロー映像SLを生成する対象となる区間映像データDpと、ダイジェスト候補Cdに含まれる対象となる区間映像データDpとを別々に選定してもよい。以後では、スロー映像SLを生成する対象となる区間映像データDpを引き続き第1候補映像データCd1と呼び、ダイジェスト候補Cdに含まれる対象となる区間映像データDpを「第3候補映像データCd3」とも呼ぶ。
 図8は、変形例4において情報処理装置1が実行するフローチャートの一例である。この例では、情報処理装置1は、第1候補映像データCd1と、第3候補映像データCd3とを、第1スコアSc1に対する異なる閾値を用いて判定する。以後では、第1候補映像データCd1を判定するための第1スコアSc1の閾値を「第1閾値Th11」と呼び、第3候補映像データCd3を判定するための第1スコアSc1の閾値を「第2閾値Th12」と呼ぶ。第1閾値Th11は、第2閾値Th12より高い値に設定される。
 まず、情報処理装置1の取得部14は、素材映像データDmを取得する(ステップS31)。次に、第1候補選定部15は、第1スコアSc1が第1閾値Th11以上となる区間映像データDpと、第1スコアSc1が第2閾値Th12以上となる区間映像データDpとを夫々抽出する(ステップS32)。この場合、第1候補選定部15は、第1スコアSc1が第1閾値Th11以上となる区間映像データDpを、第1候補映像データCd1として選定し、第1スコアSc1が第2閾値Th12以上となる区間映像データDpを、第3候補映像データCd3として選定する。ここで、第1閾値Th11は、第2閾値Th12より高いため、第3候補映像データCd3の中でより第1スコアSc1が高い区間映像データDpが第1候補映像データCd1として選定されることになる。
 次に、スロー映像生成部16は、第1スコアSc1が第1閾値Th11以上となる区間映像データDpである第1候補映像データCd1に対してスロー映像SLを生成する(ステップS33)。そして、ダイジェスト候補生成部18は、第1スコアSc1が第2閾値Th12以上の区間映像データDpである第3候補映像データCd3と、スロー映像SLとに基づき、ダイジェスト候補Cdを生成する(ステップS34)。例えば、ダイジェスト候補生成部18は、ステップS33で生成された全てのスロー映像SLを第2候補映像データCd2とみなし、ダイジェスト候補Cdを生成する。この場合、情報処理装置1は、第2推論器情報D2を参照する第2候補選定部17を備えなくともよい。他の例では、ダイジェスト候補生成部18は、第2候補選定部17により第2スコアSc2を用いて選定された第2候補映像データCd2に基づき、ダイジェスト候補Cdを生成する。
 図8の例によれば、情報処理装置1は、第1閾値Th11及び第2閾値Th12を設けることで、ダイジェスト候補Cdに含める区間映像データDpの中で第1スコアSc1がより高い区間映像データDpに対してスロー映像SLを生成することができる。よって、情報処理装置1は、特に重要度が高いシーンに対するスロー映像をダイジェスト候補Cdに好適に含めることができる。
 <第2実施形態>
 図9は、第2実施形態における情報処理装置1Xの機能ブロック図である。情報処理装置1Xは、主に、スロー映像生成手段16Xと、ダイジェスト候補生成手段18Xとを有する。
 スロー映像生成手段16Xは、素材映像データ「Dm」から選定された一部の区間に対応する映像データである第1候補映像データ「Cd1」に対し、当該第1候補映像データCd1の再生速度を等倍速未満とした映像データであるスロー映像「SL」を生成する。ここで、スロー映像生成手段16Xは、第1実施形態(変形例を含む、以下同じ)のスロー映像生成部16とすることができる。第1候補映像データCd1の選定は、情報処理装置1Xにより行われてもよく、情報処理装置1X以外の外部装置により行われてもよい。後者の場合、外部装置は、第1候補映像データCd1に関する情報を情報処理装置1Xに送信してもよく、素材映像データDmに第1候補映像データCd1の選定結果のラベルを付加してもよい。
 ダイジェスト候補生成手段18Xは、素材映像データDmと、スロー映像SLとに基づき、素材映像データDmのダイジェストの候補であるダイジェスト候補「Cd」を生成する。ここで、ダイジェスト候補生成手段18Xは、第1実施形態のダイジェスト候補生成部18とすることができる。例えば、ダイジェスト候補生成手段18Xは、素材映像データDmから選定した映像データと、スロー映像SLと、を結合した1つの映像データであるダイジェスト候補Cdを生成する。この場合、「素材映像データDmから選定した映像データ」は、第1候補映像データCd1であってもよく、第1候補映像データCd1とは異なる選定方法により選定された映像データ(例えば上述した変形例4の第3候補映像データCd3)であってもよい。他の例では、ダイジェスト候補生成手段18Xは、素材映像データDmから選定した映像データと、スロー映像SLとのリストを、ダイジェスト候補Cdとして生成してもよい。
 図10は、第2実施形態において情報処理装置1Xが実行するフローチャートの一例である。まず、スロー映像生成手段16Xは、素材映像データDmから選定された第1候補映像データCd1に対し、当該第1候補映像データCd1の再生速度を等倍速未満としたスロー映像SLを生成する(ステップS41)。ダイジェスト候補生成手段18Xは、素材映像データDmと、スロー映像SLとに基づき、素材映像データDmのダイジェストの候補であるダイジェスト候補Cdを生成する(ステップS42)。
 第2実施形態に係る情報処理装置1Xは、スロー映像を含むダイジェスト候補を好適に生成することができる。
 なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
 素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
 前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
を有する情報処理装置。
[付記2]
 前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成する、付記1に記載の情報処理装置。
[付記3]
 前記スロー映像の各々に対するスコアに基づき、前記スロー映像から第2候補映像データを選定する第2候補選定手段をさらに有し、
 前記ダイジェスト候補生成手段は、前記素材映像データと、前記第2候補映像データとに基づき、前記ダイジェスト候補を生成する、付記1または2に記載の情報処理装置。
[付記4]
 前記第2候補選定手段は、前記スコアが閾値以上となる前記スロー映像を、前記第2候補映像データとして選定する、付記3に記載の情報処理装置。
[付記5]
 前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成し、
 前記第2候補選定手段は、前記第1候補映像データ毎の前記スロー映像のうち、前記スロー映像の各々に対して算出されたスコアが閾値以上であって、かつ、最も前記スコアが高いスロー映像を、前記第2候補映像データとして選定する、付記3に記載の情報処理装置。
[付記6]
 前記ダイジェスト候補生成手段は、前記素材映像データの同一区間に対応する前記第1候補映像データと前記第2候補映像データのうち、前記スコアが最も高い映像データのみを、前記ダイジェスト候補に含める、付記3~5のいずれか一項に記載の情報処理装置。
[付記7]
 前記ダイジェスト候補生成手段は、前記第1候補映像データと、前記第2候補映像データとを結合した映像データを、前記ダイジェスト候補として生成する、付記3~6のいずれか一項に記載の情報処理装置。
[付記8]
 入力された映像データに対して第1スコアを推論するように学習された第1推論器に基づき、前記素材映像データから前記第1候補映像データを選定する第1候補選定手段をさらに有し、
 前記第2候補選定手段は、入力された映像データに対して第2スコアを推論するように学習された第2推論器に基づき、前記スロー映像の各々に対する第2スコアを前記スコアとして算出する、付記3~7のいずれか一項に記載の情報処理装置。
[付記9]
 前記第1推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
 前記第2推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、付記8に記載の情報処理装置。
 なお、「重要区間か否かに関するラベル」は、区間ごとに重要度を示すラベルであってもよい。
[付記10]
 前記第1推論器及び前記第2推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
 前記第1スコアと前記第2スコアとは、対応する映像データの重要度に関するスコアである、付記8に記載の情報処理装置。
 なお、この場合、「前記第1推論器及び前記第2推論器」は、同一の推論器であってもよく、異なる推論器であってもよい。
[付記11]
 前記素材映像データの区間毎の区間映像データに対する第1スコアを第1閾値と比較することで、前記第1候補映像データとなる前記区間映像データを選定する第1候補選定手段をさらに有し、
 前記ダイジェスト候補生成手段は、前記第1スコアを第1閾値と異なる第2閾値と比較することで選定した前記区間映像データと、前記スロー映像とに基づき、前記ダイジェスト候補を生成する、付記3~7のいずれか一項に記載の情報処理装置。
[付記12]
 コンピュータにより、
 素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、
 前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、
制御方法。
[付記13]
 素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
 前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
としてコンピュータを機能させるプログラムが格納された記憶媒体。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
 1、1X 情報処理装置
 2 入力装置
 3 出力装置
 4 記憶装置
 6 学習装置
 100 ダイジェスト候補選定システム

Claims (13)

  1.  素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
     前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
    を有する情報処理装置。
  2.  前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成する、請求項1に記載の情報処理装置。
  3.  前記スロー映像の各々に対するスコアに基づき、前記スロー映像から第2候補映像データを選定する第2候補選定手段をさらに有し、
     前記ダイジェスト候補生成手段は、前記素材映像データと、前記第2候補映像データとに基づき、前記ダイジェスト候補を生成する、請求項1または2に記載の情報処理装置。
  4.  前記第2候補選定手段は、前記スコアが閾値以上となる前記スロー映像を、前記第2候補映像データとして選定する、請求項3に記載の情報処理装置。
  5.  前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成し、
     前記第2候補選定手段は、前記第1候補映像データ毎の前記スロー映像のうち、前記スロー映像の各々に対して算出されたスコアが閾値以上であって、かつ、最も前記スコアが高いスロー映像を、前記第2候補映像データとして選定する、請求項3に記載の情報処理装置。
  6.  前記ダイジェスト候補生成手段は、前記素材映像データの同一区間に対応する前記第1候補映像データと前記第2候補映像データのうち、前記スコアが最も高い映像データのみを、前記ダイジェスト候補に含める、請求項3~5のいずれか一項に記載の情報処理装置。
  7.  前記ダイジェスト候補生成手段は、前記第1候補映像データと、前記第2候補映像データとを結合した映像データを、前記ダイジェスト候補として生成する、請求項3~6のいずれか一項に記載の情報処理装置。
  8.  入力された映像データに対して第1スコアを推論するように学習された第1推論器に基づき、前記素材映像データから前記第1候補映像データを選定する第1候補選定手段をさらに有し、
     前記第2候補選定手段は、入力された映像データに対して第2スコアを推論するように学習された第2推論器に基づき、前記スロー映像の各々に対する第2スコアを前記スコアとして算出する、請求項3~7のいずれか一項に記載の情報処理装置。
  9.  前記第1推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
     前記第2推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、請求項8に記載の情報処理装置。
  10.  前記第1推論器及び前記第2推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
     前記第1スコアと前記第2スコアとは、対応する映像データの重要度に関するスコアである、請求項8に記載の情報処理装置。
  11.  前記素材映像データの区間毎の区間映像データに対する第1スコアを第1閾値と比較することで、前記第1候補映像データとなる前記区間映像データを選定する第1候補選定手段をさらに有し、
     前記ダイジェスト候補生成手段は、前記第1スコアを第1閾値と異なる第2閾値と比較することで選定した前記区間映像データと、前記スロー映像とに基づき、前記ダイジェスト候補を生成する、請求項3~7のいずれか一項に記載の情報処理装置。
  12.  コンピュータにより、
     素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、
     前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、
    制御方法。
  13.  素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
     前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
    としてコンピュータを機能させるプログラムが格納された記憶媒体。
PCT/JP2020/020773 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体 WO2021240653A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/925,895 US20230352052A1 (en) 2020-05-26 2020-05-26 Information processing device, control method, and recording medium
PCT/JP2020/020773 WO2021240653A1 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体
JP2022527326A JP7444250B2 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020773 WO2021240653A1 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体

Publications (1)

Publication Number Publication Date
WO2021240653A1 true WO2021240653A1 (ja) 2021-12-02

Family

ID=78723027

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/020773 WO2021240653A1 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体

Country Status (3)

Country Link
US (1) US20230352052A1 (ja)
JP (1) JP7444250B2 (ja)
WO (1) WO2021240653A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008923A2 (ja) * 2004-06-29 2006-01-26 Matsushita Electric Ind Co Ltd 映像編集装置及び方法
JP2010074323A (ja) * 2008-09-17 2010-04-02 Sony Corp 記録装置および方法、並びに記録再生装置および方法
JP2017199994A (ja) * 2016-04-26 2017-11-02 日本放送協会 映像配信装置及び映像配信方法
JP2019186689A (ja) * 2018-04-06 2019-10-24 キヤノン株式会社 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008923A2 (ja) * 2004-06-29 2006-01-26 Matsushita Electric Ind Co Ltd 映像編集装置及び方法
JP2010074323A (ja) * 2008-09-17 2010-04-02 Sony Corp 記録装置および方法、並びに記録再生装置および方法
JP2017199994A (ja) * 2016-04-26 2017-11-02 日本放送協会 映像配信装置及び映像配信方法
JP2019186689A (ja) * 2018-04-06 2019-10-24 キヤノン株式会社 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体

Also Published As

Publication number Publication date
JPWO2021240653A1 (ja) 2021-12-02
US20230352052A1 (en) 2023-11-02
JP7444250B2 (ja) 2024-03-06

Similar Documents

Publication Publication Date Title
US11025879B2 (en) Image processing apparatus, image processing method, and storage medium storing program
JP5736601B2 (ja) 仮想イメージで自動的に表情を再生する方法及び装置
JP6597643B2 (ja) 画像処理装置、画像処理システム、画像処理方法およびプログラム
JP4641389B2 (ja) 情報処理方法、情報処理装置
US11368666B2 (en) Information processing apparatus, information processing method, and storage medium
JP5316286B2 (ja) ビデオ会議システム,サーバ装置,及びビデオ会議プログラム
US11871084B2 (en) Systems and methods for displaying subjects of a video portion of content
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
JP5764005B2 (ja) 再生装置および再生方法
WO2021240653A1 (ja) 情報処理装置、制御方法及び記憶媒体
KR20180080642A (ko) 음원과 동기화되는 동영상을 편집하는 방법
US20230379538A1 (en) Content recommendations for users with disabilities
JP7268739B2 (ja) 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム
JP7375926B2 (ja) 情報処理装置、制御方法及び、プログラム
WO2021240652A1 (ja) 情報処理装置、制御方法及び記憶媒体
WO2021240677A1 (ja) 映像処理装置、映像処理方法、訓練装置、訓練方法、及び、記録媒体
US11665373B2 (en) Virtual spectator experience for live events
US11330307B2 (en) Systems and methods for generating new content structures from content segments
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
JP7420245B2 (ja) 映像処理装置、映像処理方法、及び、プログラム
JP7452641B2 (ja) 情報処理装置、制御方法、及び、プログラム
JP7453948B2 (ja) 放送受信装置
US20220261201A1 (en) Computer-readable recording medium storing display control program, display control device, and display control method
JP2017005558A (ja) ダイジェスト作成装置、ダイジェスト作成システム、ダイジェスト作成方法及びプログラム
JP2019054547A (ja) ダイジェスト作成装置、ダイジェスト作成システム、ダイジェスト作成方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20938480

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022527326

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20938480

Country of ref document: EP

Kind code of ref document: A1