WO2021019645A1 - 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体 - Google Patents

学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体 Download PDF

Info

Publication number
WO2021019645A1
WO2021019645A1 PCT/JP2019/029673 JP2019029673W WO2021019645A1 WO 2021019645 A1 WO2021019645 A1 WO 2021019645A1 JP 2019029673 W JP2019029673 W JP 2019029673W WO 2021019645 A1 WO2021019645 A1 WO 2021019645A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
section
unit
important
Prior art date
Application number
PCT/JP2019/029673
Other languages
English (en)
French (fr)
Inventor
悠 鍋藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2021536487A priority Critical patent/JP7268739B2/ja
Priority to US17/626,858 priority patent/US20220262099A1/en
Priority to PCT/JP2019/029673 priority patent/WO2021019645A1/ja
Publication of WO2021019645A1 publication Critical patent/WO2021019645A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the present invention relates to a technical field of a learning data generation device, a learning device, an identification device, a generation method, and a storage medium in machine learning.
  • Patent Document 1 discloses a technique for generating a video digest from a moving image.
  • a learning data file is created from a training moving image prepared in advance and an important scene moving image specified by a user, and an important scene is detected from the target moving image based on the learning data file.
  • the extraction device is disclosed.
  • An object of the present invention is to provide a learning data generation device, a learning device, an identification device, a generation method, and a storage medium suitable for generating a digest in view of the above-mentioned problems.
  • the training data generation device is a training data generation device, which collates a feature amount of material data including at least one of video data or sound data with a feature amount of edited data obtained by editing the material data.
  • the material data includes a collation unit that collates a matching section that matches the material data and the editing data, and information that defines the matching section as an important section and a section other than the matching section as a non-important section. It has a labeling unit generated as label data for the data.
  • One aspect of the generation method is a generation method executed by the learning data generator, which comprises a feature amount of material data including at least one of video data or sound data and a feature amount of edited data obtained by editing the material data.
  • the learning data generator comprises a feature amount of material data including at least one of video data or sound data and a feature amount of edited data obtained by editing the material data.
  • One aspect of the storage medium is to collate the feature amount of the material data including at least one of the video data or the sound data with the feature amount of the edited data obtained by editing the material data, whereby the material data and the edited data are collated.
  • a computer as a labeling unit that generates a collating unit that collates the matching sections that match with and the information that defines the matching section as an important section and a section other than the matching section as a non-important section as label data for the material data. It is a storage medium that stores a program that makes the function work.
  • learning data necessary for generating a digest can be generated and utilized.
  • A An example of the hardware configuration of the learning data generator is shown.
  • B An example of the hardware configuration of the learning device is shown.
  • C An example of the hardware configuration of the identification device is shown. This is an example of a functional block of a digest generation system.
  • A It is a figure which showed an example of the collation result of the material data and the edit data.
  • B It is a figure which showed an example of the collation result of N material data and edit data.
  • This is an example of a flowchart showing the processing procedure of the material feature amount generation processing.
  • This is an example of a flowchart showing the processing procedure of the label data generation processing.
  • FIG. 1 is a schematic configuration of the digest generation system 100 in the embodiment.
  • the digest generation system 100 generates learning data used for learning a model that generates a digest of video data (which may include sound data, the same shall apply hereinafter), learns the model, and uses the trained model to generate training data. Generate a digest.
  • the digest generation system 100 includes a learning data generation device 10, a storage device 20, a learning device 30, and an identification device 40.
  • the learning data generation device 10 generates training data necessary for learning a model that generates a digest of video data.
  • the learning data generation device 10 includes video data of the edited digest (also referred to as “editing data De”) and video data used to generate the edited data De (also referred to as “material data Dr”).
  • video data of the edited digest also referred to as “editing data De”
  • video data used to generate the edited data De also referred to as “material data Dr”
  • labeling of the material data Dr is performed.
  • the learning data generation device 10 generates information indicating the labeling result (also referred to as “label data DL”) as correct answer data for the target material data Dr.
  • the video section of the material data Dr used for the editing data De is designated as an important section (important scene), and the video section of the material data Dr not used for the editing data De is designated as a non-important section (non-important scene). This is the specified information.
  • the important section corresponds to the important video section used for the edited data De, and the non-important section corresponds to the less important video section not used for the edited data De.
  • the storage device 20 includes a material data storage unit 21, an edit data storage unit 22, a feature amount storage unit 23, a label data storage unit 24, and a parameter storage unit 25. Each of these storage units will be described later.
  • the storage device 20 may be an external storage device such as a hard disk connected to or built in the learning data generation device 10, the learning device 30, or the identification device 40, or may be a storage medium such as a flash memory. , A server device that performs data communication with the learning data generation device 10 may be used. Further, the storage device 20 is composed of a plurality of storage devices, and each of the above-mentioned storage units may be distributed and held.
  • the learning device 30 uses the input video data as important sections and non-important sections. Generate the parameters of the classifier that identifies the interval. Then, the learning device 30 stores the generated parameters of the classifier in the parameter storage unit 25.
  • the identification device 40 When the input data "D1" including the video data is input, the identification device 40 identifies the important section and the non-important section with respect to the input data D1, and the output data "D2" based on the result of the identification. Is output.
  • the identification device 40 configures a classifier by referring to the parameters stored in the parameter storage unit 25, and inputs the input data D1 to the classifier to identify the important section and the non-important section. To generate.
  • the identification device 40 may receive the input data D1 from an arbitrary device that distributes video data by communication or broadcasting, or may receive the input data D1 from a camera for photographing or the like connected to the identification device 40.
  • the identification device 40 may perform a predetermined display and / or sound output by supplying the output data D2 to the display device and / and the sound output device connected to the identification device 40.
  • the identification device 40 may transmit the output data D2 to another device that performs a predetermined process based on the output data D2.
  • the learning device 30, and the identification device 40 are configured as separate devices, at least any two of the learning data generation device 10, the learning device 30, and the identification device 40 are regarded as the same device. It may be configured.
  • the material data storage unit 21 stores the material data Dr used for generating the edit data De.
  • the material data Dr stored in the material data storage unit 21 is associated with the editing data De generated by using the material data Dr.
  • the edited data De is stored in the edited data storage unit 22.
  • the material data Dr and the editing data De may include not only video data which is image data generated in time series but also sound data generated at the same time as the video data.
  • the material data Dr is video data shot by one or more cameras at the shooting site
  • the editing data De is video data for broadcasting generated by editing from the material data Dr. ..
  • the edited data De may be video data for sports broadcasting such as baseball and soccer, video data for non-sports broadcasting such as parliamentary broadcasting, and video recorded in a studio or the like. It may be data.
  • the material data Dr is video data used for broadcasting such as sports broadcasting
  • the editing data De is video data of a news program that handles a digest of broadcasting such as sports broadcasting.
  • the material data Dr is not limited to the unedited video data output from the camera, but may be edited video data.
  • the material data Dr and the editing data De are not limited to video data for broadcasting.
  • the material data Dr may be video data taken by a surveillance camera
  • the editing data De may be video data obtained by cutting an important video section such as a crime from the video data.
  • the material data Dr may be used to generate a plurality of editing data De.
  • the material data Dr is associated with the plurality of edited data Des and stored in the material data storage unit 21.
  • the feature amount storage unit 23 stores the feature amount of the material data Dr extracted by the learning data generation device 10 (also referred to as “material feature amount Fr”).
  • the material feature amount Fr is a feature amount of the material data Dr in a time series, and is, for example, a feature amount generated for each video frame included in the material data Dr.
  • the material feature amount Fr may include the feature amount extracted from the sound data.
  • the label data storage unit 24 stores the label data DL generated by the learning data generation device 10.
  • the label data DL stored in the label data storage unit 24 is associated with any material data Dr stored in the material data storage unit 21, respectively.
  • the parameter storage unit 25 stores the parameters of the discriminator learned by the learning device 30.
  • the above-mentioned classifier is, for example, a learning model that is learned to output discrimination results relating to important sections and non-important sections from the video data when video data captured by a camera is input.
  • the learning model may be a learning model based on a neural network, may be another type of learning model such as a support vector machine, or may be a learning model in which these are combined.
  • the parameter storage unit 25 stores the layer structure of the classifier, the neuron structure of each layer, the number of filters and the filter size in each layer, and the weight of each element of each filter. Information on various parameters such as is stored.
  • FIG. 2A shows an example of the hardware configuration of the learning data generation device 10.
  • the learning data generation device 10 includes a processor 11, a memory 12, and an interface 13 as hardware.
  • the processor 11, the memory 12, and the interface 13 are connected via the data bus 19.
  • the processor 11 executes a predetermined process by executing the program stored in the memory 12.
  • the processor 11 is a processor such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
  • the memory 12 is composed of various types of memory such as a RAM (Random Access Memory), a ROM (Read Only Memory), and a flash memory. Further, the memory 12 stores a program for executing the process related to the generation of the learning data executed by the learning data generation device 10. Further, the memory 12 is used as a working memory and temporarily stores information and the like acquired from the storage device 20.
  • the memory 12 may function as a storage device 20 or a part of the storage device 20. In this case, the memory 12 may have at least one of the material data storage unit 21, the edit data storage unit 22, the feature amount storage unit 23, and the label data storage unit 24 instead of the storage device 20. Similarly, the storage device 20 may function as the memory 12 of the learning data generation device 10.
  • the interface 13 is a communication interface for transmitting and receiving data to and from the storage device 20 by wire or wirelessly based on the control of the processor 11, and corresponds to a network adapter or the like.
  • the learning data generation device 10 and the storage device 20 may be connected by a cable or the like.
  • the interface 13 is an interface compliant with USB, SATA (Serial AT Attitude), etc. for exchanging data with the storage device 20, in addition to a communication interface for data communication with the storage device 20.
  • the hardware configuration of the learning data generation device 10 is not limited to the configuration shown in FIG. 2 (A).
  • the learning data generation device 10 may further include a display unit such as a display, an input unit such as a keyboard and a mouse, and a sound output unit such as a speaker.
  • the learning data generation device 10 may be composed of a plurality of devices. In this case, each of these devices exchanges information necessary for each device to execute a predeterminedly assigned process.
  • FIG. 2B shows an example of the hardware configuration of the learning device 30.
  • the learning device 30 includes a processor 31, a memory 32, and an interface 33 as hardware.
  • the processor 31, the memory 32, and the interface 33 are connected via the data bus 39.
  • the processor 31 executes a predetermined process by executing the program stored in the memory 32.
  • the processor 31 is a processor such as a CPU and a GPU.
  • the interface 33 is a communication interface for transmitting and receiving data to and from the storage device 20 by wire or wirelessly under the control of the processor 31.
  • the memory 32 is composed of various types of memory such as RAM, ROM, and flash memory. Further, the memory 32 stores a program for executing a process related to learning executed by the learning device 30. Further, the memory 32 is used as a working memory and temporarily stores information and the like acquired from the storage device 20.
  • the memory 32 may function as a storage device 20 or a part of the storage device 20. In this case, the memory 32 may have at least one of the material data storage unit 21, the label data storage unit 24, or the parameter storage unit 25 instead of the storage device 20. Similarly, the storage device 20 may function as the memory 32 of the learning device 30.
  • the hardware configuration of the learning device 30 is not limited to the configuration shown in FIG. 2 (B).
  • the learning device 30 may further include a display unit such as a display, an input unit such as a keyboard and a mouse, and a sound output unit such as a speaker.
  • the learning device 30 may be composed of a plurality of devices. In this case, each of these devices exchanges information necessary for each device to execute a predeterminedly assigned process.
  • FIG. 2C shows an example of the hardware configuration of the identification device 40.
  • the identification device 40 includes a processor 41, a memory 42, and an interface 43 as hardware.
  • the processor 41, the memory 42, and the interface 43 are connected via the data bus 49.
  • the processor 41 executes a predetermined process by executing the program stored in the memory 42.
  • the processor 41 is a processor such as a CPU and a GPU.
  • the interface 43 is an interface for transmitting and receiving data by wire or wirelessly with the storage device 20, the device of the supply source of the input data D1, and the device of the supply destination of the output data D2 based on the control of the processor 41.
  • the memory 42 is composed of various types of memory such as RAM, ROM, and flash memory. Further, the memory 42 stores a program for executing a process related to learning executed by the identification device 40. Further, the memory 42 is used as a working memory and temporarily stores information and the like acquired from the storage device 20.
  • the memory 42 may function as a storage device 20 or a part of the storage device 20. In this case, the memory 42 may have a parameter storage unit 25 instead of the storage device 20. Similarly, the storage device 20 may function as the memory 42 of the identification device 40.
  • the hardware configuration of the identification device 40 is not limited to the configuration shown in FIG. 2C.
  • the identification device 40 may further include a display unit such as a display, an input unit such as a keyboard or mouse, and a sound output unit such as a speaker.
  • the identification device 40 may be composed of a plurality of devices. In this case, each of these devices exchanges information necessary for each device to execute a predeterminedly assigned process.
  • FIG. 3 is an example of a functional block of the digest generation system 100.
  • the processor 11 of the learning data generation device 10 includes an acquisition unit 51, a feature extraction unit 52, a collation unit 53, and a labeling unit 54.
  • the processor 31 of the learning device 30 has an acquisition unit 55 and a learning unit 56.
  • the processor 41 of the identification device 40 has an acquisition unit 57, an identification unit 58, and an output unit 59.
  • the acquisition unit 51 acquires the material data Dr from the material data storage unit 21 via the interface 13. Further, the acquisition unit 51 acquires the edit data De from the edit data storage unit 22 via the interface 13.
  • the feature extraction unit 52 extracts the feature amount from the material data Dr acquired by the acquisition unit 51, and stores the extracted material feature amount Fr in the feature amount storage unit 23.
  • the material feature amount Fr may be a set of feature amounts for each video frame constituting the material data Dr, or may be a set of feature amounts for each video frame for a predetermined number of sheets. There are various methods for extracting such feature quantities, but the present embodiment is not limited to a specific method, and any method may be used.
  • the feature extraction unit 52 performs feature extraction based on the same algorithm as the feature extraction performed on the material data Dr for the edited data De acquired by the acquisition unit 51. Then, the feature extraction unit 52 supplies the feature amount (also referred to as “editing feature amount Fe”) of the extracted edited data De to the collation unit 53.
  • the collation unit 53 When the collation unit 53 receives the edit feature amount Fe for the predetermined edit data De from the feature extraction unit 52, the collation unit 53 extracts the material feature amount Fr of the material data Dr associated with the edit data De from the feature amount storage unit 23. To do. Then, the collation unit 53 collates the editing feature amount Fe with the material feature amount Fr, so that the video section (also referred to as “matching section”) that matches between the target editing data De and the material data Dr. ) Is judged. There are various methods for collation processing in video, but the present embodiment is not limited to a specific method, and any method may be used. Then, the collation unit 53 supplies the labeling unit 54 with a collation result “Rm” indicating a matching interval based on the collation between the editing feature amount Fe and the material feature amount Fr.
  • the labeling unit 54 generates label data DL to be assigned to the material data Dr whose feature amount has been collated by the collation unit 53 based on the collation result Rm supplied from the collation unit 53. Specifically, the labeling unit 54 sets the label data DL in which the matching section with the edited data De in the target material data Dr is an important section and the non-matching section other than the matching section is a non-important section based on the collation result Rm. To generate. Then, the labeling unit 54 stores the generated label data DL in the label data storage unit 24.
  • FIG. 4A is a diagram showing an example of the collation result between the material data Dr and the editing data De.
  • FIG. 4A shows the material data Dr and the edited data De by a band graph according to the time length (that is, the number of frames) of each content.
  • the material data Dr shown in FIG. 4A includes scene A, scene B, and scene C used in the editing data De.
  • the editing data De includes partial data of the material data Dr in the order of scene A, scene C, scene B, and scene A.
  • the collation unit 53 collates the material feature amount Fr with the edit feature amount Fe so that the video sections of the scene A, the scene B, and the scene C coincide with each other in the material data Dr and the edit data De. Judge that there is. Then, the labeling unit 54 generates label data DL in which the video sections corresponding to the scenes A, B, and C are important sections and the other video sections are non-important sections in the material data Dr.
  • FIG. 4B is a diagram showing an example of a collation result between N material data Drs (first material data Dr to Nth material data Dr) and edited data De.
  • the material data Dr is video data taken from each of the N cameras
  • the editing data De is video data generated by editing the N material data Drs.
  • the collation unit 53 determines for each of the N material data Drs the coincidence section with the edit data De.
  • the collation unit 53 collates the material feature amount Fr of the first material data Dr with the edit feature amount Fe, and each image corresponding to the scene 1A and the scene 1B of the first material data Dr. It is determined that the section coincides with the edited data De.
  • the labeling unit 54 uses the label data DL corresponding to the first material data Dr as the label data DL in which each video section corresponding to the scene 1A and the scene 1B is an important section and the other video sections are non-important sections. To generate.
  • each video section corresponding to the scene NA and the scene NB of the Nth material data Dr becomes the edit data De. It is determined that the interval is the same.
  • the labeling unit 54 uses the label data DL corresponding to the Nth material data Dr as the label data DL in which each video section corresponding to the scene NA and the scene NB is an important section and the other video sections are non-important sections. To generate.
  • the material feature amount Fr and the editing feature amount Fe of each of the N material data Drs are combined with each other.
  • the collation is performed, and the label data DL corresponding to each of the N material data Drs is generated.
  • the acquisition unit 55 of the learning device 30 acquires the material data Dr from the material data storage unit 21 via the interface 33, and acquires the label data DL corresponding to the material data Dr from the label data storage unit 24. Then, the acquisition unit 55 supplies the set of the material data Dr and the label data DL to the learning unit 56 as learning data.
  • the learning unit 56 learns a classifier that identifies important sections and non-important sections from the input video data by using the set of the material data Dr and the label data DL received from the acquisition unit 55 as learning data. ..
  • the learning unit 56 may adopt a learning model based on a neural network such as a convolutional neural network, or may adopt another type of learning model such as a support vector machine.
  • the learning unit 56 calculates, for example, a loss for identification based on the current parameters (including initial values), and updates the parameters of the learning model so that the loss is reduced.
  • the algorithm for determining the parameters in this case may be any learning algorithm used in machine learning such as the gradient descent method and the backpropagation method.
  • the learning unit 56 updates the parameters of the learning model for each of the plurality of sets of learning data, and stores the parameters of the learning model at the time when the learning using all the learning data to be learned is completed. Store in part 25.
  • the acquisition unit 57 of the identification device 40 acquires the input data D1 from another device via the interface 43. Then, the acquisition unit 57 supplies the acquired input data D1 to the identification unit 58.
  • the identification unit 58 inputs the input data D1 to the classifier configured based on the parameters stored in the parameter storage unit 25. Then, the identification unit 58 supplies the identification result output by the above-mentioned classifier to the output unit 59.
  • the output unit 59 generates output data D2 based on the identification result supplied from the identification unit 58, and outputs the output data D2 to another device via the interface 43. In the example of FIG.
  • the output unit 59 supplies the output data D2 to the output device 60 such as the display and / and the sound output device.
  • the output unit 59 generates at least one of display data or sound data for performing a predetermined notification based on the identification result supplied from the identification unit 58 as the output data D2.
  • the input data D1 may be video data in file units, or may be streaming data (including broadcast data) acquired in real time from a camera or the like.
  • the identification unit 58 inputs the video data acquired as the input data D1 in file units to the classifier, so that the identification result of the important section and the non-important section in the entire video section of the video data can be obtained. It is supplied to the output unit 59.
  • the identification unit 58 identifies whether the data in the frame unit or the predetermined time unit acquired by the acquisition unit 57 belongs to the important section or the non-important section, and outputs the identification result to the output unit 59. Supply.
  • the output unit 59 outputs the video data acquired in real time by the acquisition unit 57 as the input data D1 to the output device 60 connected to the identification device 40, and the video data being output belongs to the important section.
  • a notification (warning) indicating that the section is important is output to the output device 60.
  • FIG. 5 shows a material feature amount Fr generation process (“material”) executed by the learning data generation device 10 prior to the label data DL generation process (also referred to as “label data generation process”). This is an example of a flowchart showing the processing procedure of "feature amount generation processing").
  • the learning data generation device 10 executes the processing of the flowchart shown in FIG. 5 for each of the material data Drs used for learning.
  • the acquisition unit 51 of the learning data generation device 10 acquires the material data Dr for which the label data DL has not been generated from the material data storage unit 21 (step S11). Then, the feature extraction unit 52 executes the feature extraction process on the material data Dr acquired by the acquisition unit 51 in step S11 (step S12). Then, the feature extraction unit 52 stores the material feature amount obtained by the feature extraction process in step S12 in the feature amount storage unit 23 in association with the material data Dr acquired by the acquisition unit 51 in step S11 (step S13). .. Then, the learning data generation device 10 repeatedly executes the processes of steps S11 to S13 for other material data Drs that are material data Drs used for learning and for which label data DL has not been generated.
  • FIG. 6 is an example of a flowchart showing a processing procedure of the label data generation process performed by the learning data generation device 10 after the material feature amount generation process is executed.
  • the learning data generation device 10 executes the processing of the flowchart shown in FIG. 6 for each of the editing data De used for learning.
  • the acquisition unit 51 of the learning data generation device 10 acquires the editing data De that is the editing data De used for learning and has not yet been acquired by the acquisition unit 51 from the editing data storage unit 22 (step S21).
  • the feature extraction unit 52 executes the feature extraction process on the edited data De acquired by the acquisition unit 51 in step S21 (step S22).
  • the collation unit 53 extracts the material feature amount Fr of the material data Dr related to the target edit data De from the feature amount storage unit 23, and the edit feature amount Fe extracted by the feature extraction unit 52 in step S22 and the feature.
  • the collation with the material feature amount Fr acquired from the amount storage unit 23 is performed (step S23).
  • the labeling unit 54 sets the section of the material data Dr in which the above two feature amounts match as the important section and the section of the material data Dr in which the feature amounts do not match as the non-important section.
  • the label data DL defined as the section is generated.
  • the labeling unit 54 stores the generated label data DL in the label data storage unit 24 in association with the corresponding material data Dr (step S24). If there are a plurality of material data Drs corresponding to the edited data De acquired in step S21, the labeling unit 54 generates label data DL corresponding to each of the material data Drs. Then, the labeling unit 54 stores each label data DL in the label data storage unit 24 in association with the corresponding material data Dr.
  • FIG. 7 is an example of a flowchart showing a processing procedure of the learning process executed by the learning device 30.
  • the acquisition unit 55 of the learning device 30 acquires the material data Dr that has not yet been acquired by the acquisition unit 55 from the material data storage unit 21, and also acquires the label data DL corresponding to the material data Dr in the label data storage unit 24. Obtained from (step S31).
  • the learning unit 56 performs learning by using the combination of the material data Dr and the label data DL acquired in step S31 as learning data (step S32).
  • the learning unit 56 performs identification by inputting the target material data Dr into the classifier using the current parameters, calculates the loss for the identification using the label data DL, and obtains the identification. Determine the classifier parameters so that the loss is reduced.
  • the learning unit 56 updates the parameters stored in the parameter storage unit 25 according to the parameters obtained by learning (step S33).
  • the learning device 30 determines whether or not the learning end condition is satisfied (step S34). For example, when the learning device 30 detects a user input or the like that learning should be completed, or when all the material data Dr and the label data DL stored in the material data storage unit 21 and the label data storage unit 24 are used. When the processes of steps S31 to S33 are executed for the combination, it is determined that the end condition is satisfied. Then, when the learning end condition is satisfied (step S34; Yes), the learning device 30 ends the processing of the flowchart. On the other hand, when the learning device 30 does not satisfy the learning end condition (step S34; No), the learning device 30 returns the process to step S31.
  • FIG. 8 is an example of a flowchart showing a processing procedure of the identification process executed by the identification device 40.
  • the identification device 40 repeatedly executes the process of the flowchart of FIG.
  • the acquisition unit 57 of the identification device 40 acquires the input data D1 input from another device (step S41). Then, the identification unit 58 identifies the important section and the non-important section by inputting the input data D1 into the classifier configured by using the parameters stored in the parameter storage unit 25 (step S42). Then, the output unit 59 outputs the output data D2 based on the identification result by the identification unit 58 (step S43).
  • the identification device 40 executes the processes of steps S42 and S43 on the file-based video data.
  • the identification device 40 acquires streaming data such as broadcast data as input data D1, and repeatedly executes the processes of steps S42 and S43 for the input data D1 in real time.
  • the identification device 40 may output a notification (warning) to the output device 60 to the effect that the input data D1 belongs to the important section.
  • step S32 of FIG. 7 the learning unit 56 normalizes and normalizes the material data Dr and the label data DL so that the total lengths of the important section and the non-important section of the material data Dr used for learning are the same. Learning may be performed based on the material data Dr and the label data DL.
  • FIG. 9A is a diagram clearly showing the lengths of the important section and the non-important section of the material data Dr when the material data Dr shown in FIG. 4A is used as the learning data.
  • the "length" shall represent the time length or the number of frames.
  • the total length (L2 + L4 + L6) of the important section of the material data Dr acquired as the learning data is shorter than the total length (L1 + L3 + L5 + L7) of the non-important section.
  • the discriminator is learned based on this material data Dr, the learning for the non-important section becomes more than the learning for the important section, and the learning of the discriminator may be biased.
  • FIG. 9B shows the lengths of the important section and the non-important section of the material data Dr normalized so that the lengths of the important section and the non-important section of the material data Dr used for learning are the same.
  • the learning unit 56 shortens the lengths of the non-important sections (deletes the number of frames in the case of video) to obtain the total length of the important sections (L2 + L4 + L6).
  • the total length of the non-important sections (L1a + L3a + L5a + L7a) is the same length.
  • the learning unit 56 shortens each non-important section by a predetermined ratio so that the total length of the important section and the total length of the non-important section are the same.
  • the learning unit 56 may extract non-important sections shortened so as to have the same total length as the total length of the important sections as learning data based on other arbitrary rules.
  • the learning unit 56 can preferably prevent the non-important section from being biasedly learned by learning with the learning data in which the important section and the non-important section are equal.
  • the labeling unit 54 of the learning data generation device 10 provides information (also referred to as “weighting information”) regarding weighting at the learning stage according to the importance of the important section. , May be added to the label data DL.
  • FIG. 10A shows an example of the correspondence between the material data Dr and the edited data De in the coincident section.
  • the labeling unit 54 recognizes the scene X1 and the scene X2 of the material data Dr as the coincidence section with the edit data De based on the collation result Rm obtained by the collation process in step S23. Then, in this case, the labeling unit 54 generates label data DL in which each video section of the material data Dr corresponding to the scene X1 and the scene X2 is an important section, and the weighting information regarding each video section is converted into the label data DL. Add.
  • the labeling unit 54 sets the weight for the video section corresponding to the scene X1 to the scene. It is set higher than the weight for the video section corresponding to X2. For example, the labeling unit 54 may consider the number of times used in the editing data De as a weight, set the weight for the video section corresponding to the scene X1 to "2", and set the weight for the video section corresponding to the scene X2 to "1". .. The labeling unit 54 may generate weighting information indicating an arbitrary weight such that the weight for the video section corresponding to the scene X1 is larger than the weight for the video section corresponding to the scene X2.
  • FIG. 10B shows an example of the correspondence between the matching sections when one material data Dr corresponds to a plurality of edited data Des (edited data ⁇ and edited data ⁇ ).
  • the labeling unit 54 generates label data DL in which each of scene Y1 and scene Y2 is an important section, and adds weighting information regarding scene Y1 and scene Y2 to the label data DL.
  • the weight is set higher than that of the scene Y2 which is used only once for the editing data ⁇ .
  • the labeling unit 54 considers that the important section used more frequently in the edited data De is more important, and generates weighting information with a higher weight for the important section. As a result, the labeling unit 54 can suitably add weighting information to the label data DL that enables learning in consideration of the importance in each important section.
  • the labeling unit 54 may determine the learning weight for the important section of the material data Dr corresponding to the edited data De based on the attribute information of the edited data De.
  • the above-mentioned attribute information is, for example, information on the audience rating, information on the time length of the edited data De, or information indicating the importance of the edited data in the time series. In the following, an example of generating weighting information based on these attribute information will be described in order.
  • the labeling unit 54 determines the weight of the important section based on the information related to the audience rating. For example, the labeling unit 54 generates weighting information in which the weight for each important section of the material data Dr is set to a value corresponding to the audience rating of the corresponding editing data De. In this case, the labeling unit 54 generates weighting information so that the higher the audience rating of the edited data De, the greater the weight for the important section used for the edited data De.
  • the labeling unit 54 may set the weight not only based on the audience rating but also based on an arbitrary index that objectively represents the large number of viewers. As a result, it is possible to set a high weighting for the important section used for the editing data De that is of great interest to the viewer.
  • the labeling unit 54 sets the weight for each important section of the material data Dr to a value corresponding to the time length of the corresponding edit data De. Generate the weighted information. In this case, the labeling unit 54 generates weighting information so that the shorter the time length of the editing data De, the greater the weight for the important section used for the editing data De. In this case, the labeling unit 54 determines that the video section used in the edited data De having a short time length is of high importance, and sets a weight for each important section. Also in this aspect, the labeling unit 54 can suitably generate weighting information in which the weight of each important section is set according to the importance of each important section.
  • the labeling unit 54 sets the weights of the material data Dr for each important section in the corresponding edits. Set based on the importance of the data De for the video section. As a result, the labeling unit 54 can generate weighting information to be added to the label data DL in consideration of the importance in the edited data De in the time series.
  • the learning unit 56 of the learning device 30 refers to the weighting information added to the label data DL.
  • the weight for each important section of the material data Dr is determined.
  • the learning unit 56 adjusts the parameters of the loss function so that the larger the weight of the important section, the larger the loss due to misidentification to the important section, and learns the classifier so that the loss is minimized. I do.
  • the learning unit 56 may determine the number of times of learning of the important section according to the weight.
  • the learning unit 56 has a weight of 1 (that is, the number of times of use is 1).
  • the important section is learned only once, and the important section whose weight is N (N is an integer of 2 or more) is learned N times.
  • the learning device 30 can suitably perform learning in consideration of the importance in each important section in the material data Dr.
  • the learning data generation device 10 After executing the material feature amount generation process (see FIG. 5) that generates the material feature amount Fr, the learning data generation device 10 has a label data generation process (FIG. 5) including a process of generating an edit feature amount Fe and a process of generating a label data DL. 6) was executed, but the execution procedure is not limited to this.
  • the learning data generation device 10 may perform a material feature amount Fr generation process and a label data DL generation process after executing the editing feature amount Fe generation process.
  • the learning data generation device 10 stores the editing feature amount Fe and the material feature amount Fr in the feature amount storage unit 23 by executing the generation processing of the editing feature amount Fe and the material feature amount Fr in advance.
  • the label data DL may be generated by referring to the feature amount storage unit 23. In this case, even if a device other than the learning data generation device 10 executes the generation processing of the editing feature amount Fe and the material feature amount Fr and stores the generated editing feature amount Fe and the material feature amount Fr in the feature amount storage unit 23. Good.
  • Modification example 4 When there are a plurality of material data Drs photographed by a plurality of cameras in the same time zone, the labeling unit 54 of the learning data generation device 10 is in the same time zone as the important section defined by any of the plurality of material data Drs.
  • the video section of the other material data Dr may be regarded as an important section.
  • FIG. 11 shows a coincidence section between the material data Dr (material data a, material data b, material data c) taken by three cameras in the same time zone and the editing data De generated from these material data Drs. It is a figure showing.
  • the edited data De includes a section that coincides with the section a1 of the material data a, the section b2 of the material data b, and the section c3 of the material data c, respectively.
  • each material data Dr includes metadata representing the shooting date and time in time series.
  • the labeling unit 54 considers the section a1 of the material data a, the section b2 of the material data b, and the section c3 of the material data c as important sections, and other materials taken in the same time zone as the important sections.
  • the video section of the data Dr is also regarded as an important section.
  • the labeling unit 54 generates label data DL for each of the material data a to the material data c.
  • the labeling unit 54 considers the section b1 of the material data b and the section c1 of the material data c taken at the same time as the section a1 of the material data a as important sections.
  • the labeling unit 54 considers the section a2 of the material data a and the section c2 of the material data c taken at the same time as the section b2 of the material data b as important sections. Further, the labeling unit 54 considers the section a3 of the material data a and the section b3 of the material data b taken at the same time as the section c3 of the material data c as important sections.
  • the labeling unit 54 can efficiently and accurately perform labeling of important sections.
  • Modification 5 When input data D1 indicating a plurality of video data captured by a plurality of cameras is input in the identification device 40 in the same time zone, another video in the same time zone as the important section identified for one video data.
  • the video section of the data may also be identified as an important section.
  • the identification unit 58 of the identification device 40 identifies the important section by applying the classifier to at least one video data indicated by the input data D1. Then, when the identification unit 58 identifies an important section for one video data, the identification unit 58 identifies the video section of the other video data in the same time zone as the important section. By doing so, the identification device 40 can efficiently and accurately identify the important section from the plurality of input video data.
  • the learning data generation device 10 uses the second label data as a section (also referred to as a “predictive section”) representing a sign of the important section with respect to the section immediately before the important section. It may be generated.
  • FIG. 12 is a diagram clearly showing the predictive section and the important section in the material data Dr. Further, in FIG. 12, the editing data De consisting only of the scene D extracted from the material data Dr is shown.
  • the material data Dr is, for example, video data of a surveillance camera
  • the editing data De is video data obtained by extracting an important part such as a crime scene from the material data Dr.
  • the labeling unit 54 generates label data DL in which the video section corresponding to the scene D determined by the collation unit 53 as the matching section is an important section, and the video section corresponding to the scene E immediately before the scene D is generated. Generate the second label data as the predictive interval. Then, the labeling unit 54 adds the generated second label data to the label data DL and stores it in the label data storage unit 24.
  • the labeling unit 54 defines, for example, a section having a predetermined time length immediately before the important section as a predictive section.
  • the above-mentioned predetermined time length may be a predetermined time length, or may be a time length determined based on the time length of the target important section.
  • the second label data regarding the predictive interval generated in this way is suitably used for learning the classifier by the learning device 30.
  • the learning unit 56 of the learning device 30 refers to the second label data and learns the classifier so as to identify the predictive section in addition to the important section or in addition to the important section, and by learning.
  • the obtained parameters are stored in the parameter storage unit 25.
  • the learning device 30 can suitably perform learning of the discriminator that identifies the sign section.
  • the identification unit 58 of the identification device 40 configures the identification device using the parameters stored in the parameter storage unit 25.
  • the identification unit 58 can suitably identify the sign section by inputting the video data indicated by the input data D1 into the above-mentioned classifier.
  • the output unit 59 notifies that there is a sign of shifting to an important scene when the video data determined to be the sign section by the discriminator is output to the output device 60.
  • the output unit 59 can alert the user to preferably suppress oversight of important scenes.
  • the learning data generation device 10 detects a predetermined object for each image constituting the material data Dr, and represents a second image section in which the object is detected. Label data may be generated.
  • the labeling unit 54 detects a predetermined object by executing an image recognition process on each image constituting the material data Dr corresponding to the label data DL to be generated.
  • This object may be a predetermined object, a specific person (player), or any object such as a specific mark, a building, or an instrument.
  • the labeling unit 54 generates second label data indicating a section for detecting the object.
  • the labeling unit 54 adds the generated second label data to the label data DL and stores it in the label data storage unit 24.
  • the second label data generated in this way is suitably used for learning the classifier by the learning device 30.
  • the learning unit 56 of the learning device 30 refers to the label data DL and the second label data, learns the classifier so as to identify the important section in which the object is detected, and the parameters obtained by the learning. Is stored in the parameter storage unit 25.
  • the identification device 40 preferably identifies an important section in which an object is detected from the video data indicated by the input data D1 by configuring the classifier using the parameters stored in the parameter storage unit 25. be able to.
  • FIG. 13 shows a schematic configuration of the learning data generation device 10A according to the second embodiment.
  • the learning data generation device 10A includes a collation unit 53A and a labeling unit 54A.
  • the collation unit 53A collates the material feature amount Fr, which is the feature amount of the material data Dr including at least one of the video data or the sound data, with the edit feature amount Fe, which is the feature amount of the edit data De edited from the material data Dr. By doing so, the matching section that matches the material data Dr and the editing data De is collated.
  • the labeling unit 54A generates information that defines the above-mentioned matching section as an important section and a section other than the matching section as a non-important section as label data DL for the material data Dr.
  • the learning data generation device 10A is suitable for displaying the label data DL related to the important section used for the editing data De by collating the material feature amount Fr with the editing feature amount Fe, regardless of user input. Can be generated in.
  • [Appendix 1] By collating the feature amount of the material data including at least one of the video data or the sound data with the feature amount of the edited data obtained by editing the material data, the matching section in which the material data and the edited data match is collated.
  • the collation unit that performs A labeling unit that generates information that defines the matching section as an important section and a section other than the matching section as a non-important section as label data for the material data.
  • a learning data generator having.
  • Appendix 2 An acquisition unit that acquires the material data and the editing data, A feature extraction unit that extracts the feature amount of the material data and the feature amount of the edited data, The learning data generation device according to Appendix 1, further comprising.
  • Appendix 3 The learning data generation device according to Appendix 1 or 2, wherein the labeling unit adds weighting information indicating a learning weight for each of the important sections to the label data.
  • Appendix 4 The learning data generation device according to Appendix 3, wherein the labeling unit adds the weighting information for determining the weights of each of the important sections to the label data based on the number of times used in the editing data.
  • Appendix 5 The learning data generation device according to Appendix 3, wherein the labeling unit adds the weighting information generated based on the attribute information of the editing data to the label data.
  • Appendix 6 The learning data generation device according to Appendix 5, wherein the attribute information is information on the viewing rate of the edited data, information on the time length of the edited data, or information indicating the importance of the edited data in a time series.
  • the edited data is data obtained by editing a plurality of material data.
  • the collation unit collates the matching section in which each of the plurality of material data and the edited data match.
  • the learning data generation device according to any one of Appendix 1 to 6, wherein the labeling unit generates the label data for each of the plurality of material data.
  • the plurality of material data are video data taken by different cameras at the same time zone.
  • the learning data generation device according to Appendix 7, wherein the labeling unit defines a section of the other material data in the same time zone as the important section when the matching section exists in any of the plurality of material data. ..
  • Appendix 9 The learning data generation device according to any one of Appendix 1 to 8, wherein the labeling unit generates second label data as a section representing a sign of the important section with respect to the section immediately before the important section. ..
  • the labeling unit detects a predetermined object for each image constituting the material data, and generates second label data representing a section in which the object is detected. Any of the appendices 1 to 8.
  • the learning data generator according to item 1.
  • An acquisition unit that acquires a combination of the label data generated by the learning data generator according to any one of the items 1 to 10 and the material data corresponding to the label data. Based on the combination of the label data acquired by the acquisition unit and the material data.
  • a learning unit that learns a learning model that distinguishes between important and non-important sections from data that includes at least one of video data or sound data. Learning device with.
  • Appendix 12 The learning device according to Appendix 11, wherein the learning unit learns the learning model based on material data obtained by shortening the total length of the non-important sections based on the total length of the important sections.
  • Appendix 13 Weighting information indicating the learning weight for each of the important sections is added to the label data.
  • Appendix 15 An acquisition unit that acquires input data including at least one of video data and sound data, and By inputting the input data into the learning model learned by the learning device according to any one of Appendix 11 to 14, an identification unit that identifies an important section included in the input data, and an identification unit. Identification device having.
  • the identification unit refers to a section of the other video data corresponding to the same time zone as the important section of the video data of 1 with respect to other video data captured by a camera different from the video data of 1 indicated by the input data.
  • the identification unit identifies a section representing a sign of an important section included in the input data by inputting the input data into the learning model learned by the learning device according to claim 14, according to Appendix 15 or 16. The identification device described.
  • Appendix 18 The identification device according to Appendix 17, further comprising an output unit that gives a predetermined notification when the input data belonging to the important section or the section representing the sign is output.
  • Appendix 19 It is a generation method executed by the training data generator. By collating the feature amount of the material data including at least one of the video data or the sound data with the feature amount of the edited data obtained by editing the material data, the matching section in which the material data and the edited data match is collated. And Information that defines the matching section as an important section and a section other than the matching section as a non-important section is generated as label data for the material data. Generation method.
  • [Appendix 20] By collating the feature amount of the material data including at least one of the video data or the sound data with the feature amount of the edited data obtained by editing the material data, the matching section in which the material data and the edited data match is collated.
  • the collation unit that performs A storage medium for storing a program that functions a computer as a labeling unit that generates information that defines the matching section as an important section and a section other than the matching section as a non-important section as label data for the material data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

照合部53Aは、映像データ又は音データの少なくとも一方を含む素材データDrの特徴量である素材特徴量Frと、素材データDrを編集した編集データDeの特徴量である編集特徴量Feとを照合することで、素材データDrと編集データDeとで一致する一致区間の照合を行う。ラベリング部54Aは、上述の一致区間を重要区間とし、当該一致区間以外の区間を非重要区間として定める情報を、素材データDrに対するラベルデータDLとして生成する。

Description

学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体
 本発明は、機械学習における学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体の技術分野に関する。
 動画像から映像ダイジェストを生成する技術が特許文献1に開示されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
特開2008-022103号公報
 映像ダイジェストの生成を深層学習により行う場合には、大量の学習データが必要となるが、学習データの生成には、重要シーンのラベリングを人手により行う正解付け作業を行う必要があり、膨大な手間がかかるという問題があった。
 本発明の目的は、上述した課題を鑑み、ダイジェストの生成に好適な学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体を提供することを主な課題とする。
 学習データ生成装置の一の態様は、学習データ生成装置であって、映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部と、を有する。
 生成方法の一の態様は、学習データ生成装置が実行する生成方法であって、映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行い、前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成する。
 記憶媒体の一の態様は、映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部としてコンピュータを機能させるプログラムを格納する記憶媒体である。
 本発明によれば、ダイジェストの生成に必要な学習データを生成し、活用することができる。
実施形態におけるダイジェスト生成システムの概略構成である。 (A)学習データ生成装置のハードウェア構成の一例を示す。(B)学習装置のハードウェア構成の一例を示す。(C)識別装置のハードウェア構成の一例を示す。 ダイジェスト生成システムの機能ブロックの一例である。 (A)素材データと編集データとの照合結果の一例を示した図である。(B)N個の素材データと編集データとの照合結果の一例を示した図である。 素材特徴量生成処理の処理手順を示すフローチャートの一例である。 ラベルデータ生成処理の処理手順を示すフローチャートの一例である。 学習処理の処理手順を示すフローチャートの一例である。 識別処理の処理手順を示すフローチャートの一例である。 (A)素材データの重要区間及び非重要区間の長さを明示した図である。(B)素材データの重要区間と非重要区間との長さが同一となるように正規化した素材データの重要区間及び非重要区間の長さを示す。 (A)素材データと編集データとの一致区間の対応関係の一例を示す。(B)1の素材データが複数の編集データに対応する場合の一致区間の対応関係の一例を示す。 3台のカメラにより同時間帯で撮影された素材データと、これらの素材データから生成された素材データとの一致区間を表した図である。 素材データにおける予兆区間と重要区間とを明示した図である。 第2実施形態に係る学習データ生成装置の概略構成を示す。
 以下、図面を参照しながら、学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体の実施形態について説明する。
 <第1実施形態>
 [全体構成]
 図1は、実施形態におけるダイジェスト生成システム100の概略構成である。ダイジェスト生成システム100は、映像データ(音データを含んでもよい、以下同じ。)のダイジェストの生成を行うモデルの学習に用いる学習データの生成、当該モデルの学習、及び学習されたモデルによる映像データのダイジェストの生成を行う。ダイジェスト生成システム100は、学習データ生成装置10と、記憶装置20と、学習装置30と、識別装置40と、を有する。
 学習データ生成装置10は、映像データのダイジェストの生成を行うモデルの学習に必要な学習データの生成を行う。具体的には、学習データ生成装置10は、編集されたダイジェストの映像データ(「編集データDe」とも呼ぶ。)と、当該編集データDeの生成に用いられた映像データ(「素材データDr」とも呼ぶ。)との照合を行うことで、素材データDrに対するラベリングを行う。そして、学習データ生成装置10は、ラベリングの結果を示す情報(「ラベルデータDL」とも呼ぶ。)を、対象の素材データDrに対する正解データとして生成する。ラベルデータDLは、編集データDeに用いられた素材データDrの映像区間を重要区間(重要シーン)、編集データDeに用いられていない素材データDrの映像区間を非重要区間(非重要シーン)として定めた情報である。重要区間は、編集データDeに用いられた重要な映像区間に相当し、非重要区間は、編集データDeに用いられておらず、重要性が低い映像区間に相当する。
 記憶装置20は、素材データ記憶部21と、編集データ記憶部22と、特徴量記憶部23と、ラベルデータ記憶部24と、パラメータ記憶部25とを有する。これらの各記憶部については後述する。なお、記憶装置20は、学習データ生成装置10、学習装置30、又は識別装置40に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習データ生成装置10とデータ通信を行うサーバ装置などであってもよい。また、記憶装置20は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。
 学習装置30は、素材データ記憶部21に記憶された素材データDrとラベルデータ記憶部24に記憶されたラベルデータDLとを学習データとして用いることで、入力された映像データから重要区間及び非重要区間に関する識別を行う識別器のパラメータを生成する。そして、学習装置30は、生成した識別器のパラメータを、パラメータ記憶部25に記憶する。
 識別装置40は、映像データを含む入力データ「D1」が入力された場合に、当該入力データD1に対して重要区間及び非重要区間に関する識別を行い、当該識別の結果に基づく出力データ「D2」を出力する。ここで、識別装置40は、パラメータ記憶部25に記憶されたパラメータを参照することで識別器を構成し、当該識別器に入力データD1を入力することで、重要区間及び非重要区間に関する識別結果を生成する。識別装置40は、入力データD1を、通信又は放送により映像データを配信する任意の装置から受信してもよく、識別装置40に接続された撮影用のカメラ等から受信してもよい。例えば、識別装置40は、識別装置40に接続する表示装置又は/及び音出力装置に対して出力データD2を供給することで、所定の表示又は/及び音出力を行ってもよい。他の例では、識別装置40は、出力データD2に基づき所定の処理を行う他の装置に出力データD2を送信してもよい。
 なお、学習データ生成装置10、学習装置30、及び識別装置40がそれぞれ別装置として構成される代わりに、学習データ生成装置10、学習装置30、及び識別装置40の少なくともいずれか2つが同一装置として構成されてもよい。
 次に、記憶装置20に記憶されるデータについて説明する。
 素材データ記憶部21は、編集データDeの生成に用いられた素材データDrを記憶する。素材データ記憶部21に記憶される素材データDrは、当該素材データDrを用いて生成された編集データDeと関連付けられている。編集データDeは、編集データ記憶部22に記憶されている。なお、素材データDr及び編集データDeは、時系列に生成された画像データである映像データの他、映像データと同時間帯に生成された音データを含んでもよい。
 ここで、素材データDrと編集データDeとの組み合わせの具体例について説明する。
 第1の例では、素材データDrは、撮影現場において1又は複数のカメラにより撮影された映像データであり、編集データDeは、当該素材データDrから編集により生成された放送用の映像データである。この場合、編集データDeは、野球やサッカーなどのスポーツ中継用の映像データであってもよく、国会中継などのスポーツ以外の中継用の映像データであってもよく、スタジオなどで収録された映像データであってもよい。第2の例では、素材データDrは、スポーツ中継などの放送に用いられる映像データであり、編集データDeは、スポーツ中継などの放送のダイジェストを扱うニュース番組の映像データである。このように、素材データDrは、カメラから出力された未編集の映像データに限らず、編集された映像データであってもよい。
 なお、素材データDr及び編集データDeは、放送用の映像データに限られない。例えば、素材データDrは、監視カメラにより撮影された映像データであって、編集データDeは、犯罪などの重要な映像区間を当該映像データから切り取った映像データであってもよい。また、素材データDrは、複数の編集データDeの生成に用いられてもよい。この場合、素材データDrは、複数の編集データDeと関連付けられて素材データ記憶部21に記憶される。
 特徴量記憶部23は、学習データ生成装置10が抽出した素材データDrの特徴量(「素材特徴量Fr」とも呼ぶ。)を記憶する。例えば、素材特徴量Frは、素材データDrの時系列での特徴量であり、例えば素材データDrに含まれる映像フレーム毎に生成される特徴量である。なお、素材特徴量Frは、音データから抽出された特徴量を含んでもよい。
 ラベルデータ記憶部24は、学習データ生成装置10が生成したラベルデータDLを記憶する。ラベルデータ記憶部24に記憶されるラベルデータDLは、夫々、素材データ記憶部21に記憶されるいずれかの素材データDrと関連付けられている。
 パラメータ記憶部25は、学習装置30が学習した識別器のパラメータを記憶する。上述の識別器は、例えば、カメラにより撮影された映像データが入力された場合に、当該映像データから重要区間及び非重要区間に関する識別結果を出力するように学習される学習モデルである。学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらを組み合わせた学習モデルであってもよい。例えば、上述の識別器がニューラルネットワークに基づく構成を有する場合、パラメータ記憶部25には、識別器の層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの種々のパラメータの情報が記憶される。
 [ハードウェア構成]
 次に、学習データ生成装置10、学習装置30、及び識別装置40の各ハードウェア構成について説明する。
 図2(A)は、学習データ生成装置10のハードウェア構成の一例を示す。学習データ生成装置10は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12、及びインターフェース13は、データバス19を介して接続されている。
 プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサである。
 メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ12には、学習データ生成装置10が実行する学習データの生成に関する処理を実行するためのプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置20から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置20又は記憶装置20の一部として機能してもよい。この場合、メモリ12は、記憶装置20の代わりに、素材データ記憶部21、編集データ記憶部22、特徴量記憶部23又はラベルデータ記憶部24の少なくともいずれかを有してもよい。同様に、記憶装置20は、学習データ生成装置10のメモリ12として機能してもよい。
 インターフェース13は、プロセッサ11の制御に基づき記憶装置20とデータの送受信を有線又は無線により行うための通信インターフェースであり、ネットワークアダプタなどが該当する。なお、学習データ生成装置10と記憶装置20とはケーブル等により接続されてもよい。この場合、インターフェース13は、記憶装置20とデータ通信を行う通信インターフェースの他、記憶装置20とデータの授受を行うためのUSB、SATA(Serial AT Attachment)などに準拠したインターフェースである。
 なお、学習データ生成装置10のハードウェア構成は、図2(A)に示す構成に限定されない。例えば、学習データ生成装置10は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。また、学習データ生成装置10は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。
 図2(B)は、学習装置30のハードウェア構成の一例を示す。学習装置30は、ハードウェアとして、プロセッサ31と、メモリ32と、インターフェース33とを含む。プロセッサ31、メモリ32、及びインターフェース33は、データバス39を介して接続されている。
 プロセッサ31は、メモリ32に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ31は、CPU、GPUなどのプロセッサである。インターフェース33は、プロセッサ31の制御に基づき記憶装置20とデータの送受信を有線又は無線により行うための通信インターフェースである。
 メモリ32は、RAM、ROM、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ32には、学習装置30が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ32は、作業メモリとして使用され、記憶装置20から取得した情報等を一時的に記憶する。なお、メモリ32は、記憶装置20又は記憶装置20の一部として機能してもよい。この場合、メモリ32は、記憶装置20の代わりに、素材データ記憶部21、ラベルデータ記憶部24又はパラメータ記憶部25の少なくともいずれかを有してもよい。同様に、記憶装置20は、学習装置30のメモリ32として機能してもよい。
 なお、学習装置30のハードウェア構成は、図2(B)に示す構成に限定されない。例えば、学習装置30は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。また、学習装置30は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。
 図2(C)は、識別装置40のハードウェア構成の一例を示す。識別装置40は、ハードウェアとして、プロセッサ41と、メモリ42と、インターフェース43とを含む。プロセッサ41、メモリ42、及びインターフェース43は、データバス49を介して接続されている。
 プロセッサ41は、メモリ42に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ41は、CPU、GPUなどのプロセッサである。インターフェース43は、プロセッサ41の制御に基づき、記憶装置20、入力データD1の供給元の装置、及び、出力データD2の供給先の装置とデータの送受信を有線又は無線により行うためのインターフェースである。
 メモリ42は、RAM、ROM、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ42には、識別装置40が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ42は、作業メモリとして使用され、記憶装置20から取得した情報等を一時的に記憶する。なお、メモリ42は、記憶装置20又は記憶装置20の一部として機能してもよい。この場合、メモリ42は、記憶装置20の代わりに、パラメータ記憶部25を有してもよい。同様に、記憶装置20は、識別装置40のメモリ42として機能してもよい。
 なお、識別装置40のハードウェア構成は、図2(C)に示す構成に限定されない。例えば、識別装置40は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。また、識別装置40は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。
 [機能ブロック]
 次に、ダイジェスト生成システム100の機能的な構成について説明する。
 図3は、ダイジェスト生成システム100の機能ブロックの一例である。図3に示すように、学習データ生成装置10のプロセッサ11は、取得部51と、特徴抽出部52と、照合部53と、ラベリング部54とを有する。また、学習装置30のプロセッサ31は、取得部55と、学習部56とを有する。また、識別装置40のプロセッサ41は、取得部57と、識別部58と、出力部59とを有する。
 取得部51は、インターフェース13を介し、素材データ記憶部21から素材データDrを取得する。また、取得部51は、インターフェース13を介し、編集データ記憶部22から編集データDeを取得する。
 特徴抽出部52は、取得部51が取得した素材データDrに対して特徴量抽出を行い、抽出した素材特徴量Frを特徴量記憶部23に記憶する。素材特徴量Frは、素材データDrを構成する1枚の映像フレーム毎の特徴量の集合であってもよく、所定枚数分の映像フレーム毎の特徴量の集合であってもよい。なお、このような特徴量の抽出手法は種々の手法が存在するが、本実施形態においては特定の手法に限定されるものではなく、任意の手法が用いられてもよい。
 また、特徴抽出部52は、取得部51が取得した編集データDeに対し、素材データDrに対して行った特徴量抽出と同一のアルゴリズムに基づく特徴量抽出を行う。そして、特徴抽出部52は、抽出した編集データDeの特徴量(「編集特徴量Fe」とも呼ぶ。)を、照合部53に供給する。
 照合部53は、特徴抽出部52から所定の編集データDeに対する編集特徴量Feを受信した場合に、当該編集データDeに関連付けられた素材データDrの素材特徴量Frを特徴量記憶部23から抽出する。そして、照合部53は、編集特徴量Feと素材特徴量Frとの照合を行うことで、対象となる編集データDeと素材データDrとの間で一致する映像区間(「一致区間」とも呼ぶ。)の判定を行う。なお、映像における照合処理は種々の手法が存在するが、本実施形態においては特定の手法に限定されるものではなく、任意の手法が用いられてもよい。そして、照合部53は、編集特徴量Feと素材特徴量Frとの照合に基づく一致区間を示す照合結果「Rm」を、ラベリング部54に供給する。
 ラベリング部54は、照合部53から供給される照合結果Rmに基づき、照合部53により特徴量の照合が行われた素材データDrに対して付与すべきラベルデータDLを生成する。具体的には、ラベリング部54は、照合結果Rmに基づき、対象の素材データDrにおける編集データDeとの一致区間を重要区間、当該一致区間以外の非一致区間を非重要区間とするラベルデータDLを生成する。そして、ラベリング部54は、生成したラベルデータDLをラベルデータ記憶部24に記憶する。
 ここで、照合部53とラベリング部54の処理の具体例について説明する。
 図4(A)は、素材データDrと編集データDeとの照合結果の一例を示した図である。図4(A)は、素材データDr及び編集データDeを、夫々のコンテンツの時間長(即ちフレーム数)に応じた帯グラフにより示している。図4(A)に示す素材データDrは、編集データDeにおいて使用されたシーンAとシーンBとシーンCとを含んでいる。編集データDeは、シーンA、シーンC、シーンB、シーンAの順に素材データDrの部分データを含んでいる。
 この場合、照合部53は、素材特徴量Frと編集特徴量Feとを照合することで、素材データDrと編集データDeとにおいてシーンA、シーンB、及びシーンCの各映像区間が一致区間であると判定する。そして、ラベリング部54は、素材データDrにおいて、シーンA、シーンB、及びシーンCに相当する映像区間を重要区間、それ以外の映像区間を非重要区間とするラベルデータDLを生成する。
 図4(B)は、N個の素材データDr(第1素材データDr~第N素材データDr)と編集データDeとの照合結果の一例を示した図である。ここでは、素材データDrは、N台のカメラから夫々撮影された映像データであり、編集データDeは、N個の素材データDrを編集することで生成された映像データである。
 この場合、照合部53は、N個の素材データDrの各々に対して、編集データDeとの一致区間の判定を行う。図4(B)の例では、照合部53は、第1素材データDrの素材特徴量Frと編集特徴量Feとの照合により、第1素材データDrのシーン1A及びシーン1Bに相当する各映像区間が編集データDeとの一致区間であると判定する。この場合、ラベリング部54は、第1素材データDrに対応するラベルデータDLとして、シーン1A及びシーン1Bに相当する各映像区間を重要区間とし、他の映像区間を非重要区間とするラベルデータDLを生成する。同様に、照合部53は、第N素材データDrの素材特徴量Frと編集特徴量Feとの照合により、第N素材データDrのシーンNA及びシーンNBに相当する各映像区間が編集データDeとの一致区間であると判定する。この場合、ラベリング部54は、第N素材データDrに対応するラベルデータDLとして、シーンNA及びシーンNBに相当する各映像区間を重要区間とし、他の映像区間を非重要区間とするラベルデータDLを生成する。
 このように、学習データ生成装置10は、N個の素材データDrと1個の編集データDeとが対応する場合、N個の素材データDrの各々の素材特徴量Frと編集特徴量Feとの照合を行い、N個の素材データDrの各々に対応するラベルデータDLを生成する。
 再び図3を参照し、学習装置30及び識別装置40の機能的な構成について説明する。
 学習装置30の取得部55は、インターフェース33を介し、素材データ記憶部21から素材データDrを取得すると共に、当該素材データDrに対応するラベルデータDLをラベルデータ記憶部24から取得する。そして、取得部55は、素材データDrとラベルデータDLの組を、学習データとして学習部56に供給する。
 学習部56は、取得部55から受信した素材データDrとラベルデータDLの組を学習データとして用いることで、入力された映像データから重要区間及び非重要区間の識別を行う識別器の学習を行う。学習部56は、識別器として、畳み込みニューラルネットワークなどのニューラルネットワークに基づく学習モデルを採用してもよく、サポートベクターマシーンなどの他の種類の学習モデルを採用してもよい。この場合、学習部56は、例えば、現在のパラメータ(初期値も含む)に基づく識別に対する損失を算出し、当該損失が減少するように、学習モデルのパラメータの更新を行う。この場合のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。そして、学習部56は、複数組の学習データに対してそれぞれ学習モデルのパラメータの更新を行い、学習すべき全ての学習データを用いた学習が終了した時点での学習モデルのパラメータを、パラメータ記憶部25に記憶する。
 識別装置40の取得部57は、他の装置からインターフェース43を介して入力データD1を取得する。そして、取得部57は、取得した入力データD1を識別部58へ供給する。識別部58は、取得部57から入力データD1が供給された場合に、パラメータ記憶部25に記憶されたパラメータに基づき構成した識別器に入力データD1を入力する。そして、識別部58は、上述の識別器が出力する識別結果を、出力部59に供給する。出力部59は、識別部58から供給される識別結果に基づき出力データD2を生成し、インターフェース43を介して出力データD2を他の装置に出力する。図3の例では、出力部59は、出力データD2を、ディスプレイ又は/及び音出力装置などの出力装置60に供給している。この場合、出力部59は、出力データD2として、識別部58から供給される識別結果に基づき所定の通知を行うための表示データ又は音データの少なくとも一方を生成する。
 なお、入力データD1は、ファイル単位の映像データであってもよく、カメラ等からリアルタイムに取得されるストリーミングデータ(放送データを含む)であってもよい。前者の場合、識別部58は、ファイル単位で入力データD1として取得された映像データを識別器に入力することで、当該映像データの全映像区間における重要区間と非重要区間との識別結果を、出力部59に供給する。後者の場合、識別部58は、取得部57が取得するフレーム単位又は所定時間単位のデータに対して重要区間又は非重要区間のいずれに属するかの識別を行い、当該識別結果を出力部59に供給する。この場合、例えば、出力部59は、取得部57が入力データD1としてリアルタイムに取得する映像データを識別装置40に接続する出力装置60に出力しつつ、出力中の映像データが重要区間に属すると判定した場合に、重要区間である旨の通知(警告)を出力装置60に出力する。
 [処理フロー]
 次に、学習データ生成装置10、学習装置30及び識別装置40が夫々実行する処理の流れについて説明する。
 (1)素材特徴量生成処理
 図5は、学習データ生成装置10がラベルデータDLの生成処理(「ラベルデータ生成処理」とも呼ぶ。)に先立って実行する素材特徴量Frの生成処理(「素材特徴量生成処理」とも呼ぶ。)の処理手順を示すフローチャートの一例である。学習データ生成装置10は、図5に示すフローチャートの処理を、学習に使用する素材データDrの各々に対して実行する。
 まず、学習データ生成装置10の取得部51は、ラベルデータDLが生成されていない素材データDrを素材データ記憶部21から取得する(ステップS11)。そして、特徴抽出部52は、取得部51がステップS11で取得した素材データDrに対して特徴抽出処理を実行する(ステップS12)。そして、特徴抽出部52は、ステップS12の特徴抽出処理により得られた素材特徴量を、取得部51がステップS11で取得した素材データDrと関連付けて特徴量記憶部23に記憶する(ステップS13)。そして、学習データ生成装置10は、学習に使用する素材データDrであって、ラベルデータDLが生成されていない他の素材データDrに対して、ステップS11~ステップS13の処理を繰り返し実行する。
 (2)ラベルデータ生成処理
 図6は、学習データ生成装置10が素材特徴量生成処理の実行後に行うラベルデータ生成処理の処理手順を示すフローチャートの一例である。学習データ生成装置10は、図6に示すフローチャートの処理を、学習に使用する編集データDeの各々に対して実行する。
 まず、学習データ生成装置10の取得部51は、学習に使用する編集データDeであって、まだ取得部51が取得していない編集データDeを編集データ記憶部22から取得する(ステップS21)。そして、特徴抽出部52は、取得部51がステップS21で取得した編集データDeに対して特徴抽出処理を実行する(ステップS22)。そして、照合部53は、対象の編集データDeに関連する素材データDrの素材特徴量Frを特徴量記憶部23から抽出し、ステップS22で特徴抽出部52が抽出した編集特徴量Feと、特徴量記憶部23から取得した素材特徴量Frとの照合を行う(ステップS23)。そして、ラベリング部54は、照合部53が出力する照合結果Rmに基づき、上述の2つの特徴量が一致する素材データDrの区間を重要区間、特徴量が一致しない素材データDrの区間を非重要区間と定めたラベルデータDLを生成する。そして、ラベリング部54は、生成したラベルデータDLを、対応する素材データDrに関連付けてラベルデータ記憶部24に記憶する(ステップS24)。なお、ラベリング部54は、ステップS21で取得した編集データDeに対応する素材データDrが複数存在する場合には、当該素材データDrの各々に対応するラベルデータDLを生成する。そして、ラベリング部54は、各ラベルデータDLを、対応する素材データDrに関連付けてラベルデータ記憶部24に記憶する。
 (3)学習処理
 図7は、学習装置30が実行する学習処理の処理手順を示すフローチャートの一例である。
 まず、学習装置30の取得部55は、取得部55がまだ取得していない素材データDrを素材データ記憶部21から取得すると共に、当該素材データDrに対応するラベルデータDLをラベルデータ記憶部24から取得する(ステップS31)。
 そして、学習部56は、ステップS31で取得した素材データDrとラベルデータDLとの組み合わせを学習データとして用いることで学習を行う(ステップS32)。この場合、例えば、学習部56は、現在のパラメータを用いた識別器に対して対象の素材データDrを入力することで識別を行い、ラベルデータDLを用いて当該識別に対する損失を算出し、当該損失が減少するように識別器のパラメータを決定する。そして、学習部56は、学習により得られたパラメータにより、パラメータ記憶部25に記憶するパラメータを更新する(ステップS33)。
 そして、学習装置30は、学習の終了条件を満たすか否か判定する(ステップS34)。例えば、学習装置30は、学習を終了すべき旨のユーザ入力等を検知した場合、又は、素材データ記憶部21及びラベルデータ記憶部24に記憶された全ての素材データDrとラベルデータDLとの組み合わせに対してステップS31~ステップS33の処理を実行した場合、終了条件を満たすと判定する。そして、学習装置30は、学習の終了条件を満たす場合(ステップS34;Yes)、フローチャートの処理を終了する。一方、学習装置30は、学習の終了条件を満たさない場合(ステップS34;No)、ステップS31へ処理を戻す。
 (4)識別処理
 図8は、識別装置40が実行する識別処理の処理手順を示すフローチャートの一例である。識別装置40は、図8のフローチャートの処理を繰り返し実行する。
 識別装置40の取得部57は、他の装置から入力される入力データD1を取得する(ステップS41)。そして、識別部58は、パラメータ記憶部25に記憶されたパラメータを用いて構成した識別器に入力データD1を入力することで、重要区間及び非重要区間に関する識別を行う(ステップS42)。そして、出力部59は、識別部58による識別結果に基づく出力データD2を出力する(ステップS43)。なお、第1の例では、識別装置40は、ファイル単位の映像データをステップS41で入力データD1として受信した場合に、ファイル単位の映像データに対してステップS42及びステップS43の処理を実行する。第2の例では、識別装置40は、放送データなどのストリーミングデータを入力データD1として取得し、当該入力データD1に対してステップS42及びステップS43の処理をリアルタイムにより繰り返し実行する。この場合、ステップS43において、識別装置40は、処理中の入力データD1が重要区間に属すると判定した場合に、重要区間である旨の通知(警告)を出力装置60に出力してもよい。
 [変形例]
 次に、第1実施形態に好適な変形例について説明する。以下の変形例は、任意に組み合わせて上述の第1実施形態に適用してもよい。
 (変形例1)
 図7のステップS32において、学習部56は、学習に用いる素材データDrの重要区間と非重要区間との合計長が同一となるように、素材データDr及びラベルデータDLを正規化し、正規化した素材データDr及びラベルデータDLに基づき学習を行ってもよい。
 図9(A)は、図4(A)に示した素材データDrを学習データとして用いる場合の当該素材データDrの重要区間及び非重要区間の長さを明示した図である。この場合の「長さ」は、時間長又はフレーム数を表すものとする。
 図9(A)に示すように、学習データとして取得した素材データDrの重要区間の合計長(L2+L4+L6)は、非重要区間の合計長(L1+L3+L5+L7)よりも短い。この素材データDrに基づき識別器の学習を行った場合には、非重要区間に対する学習が重要区間に対する学習よりも多くなり、識別器の学習に偏りが生じる可能性がある。
 図9(B)は、学習に用いる素材データDrの重要区間と非重要区間との長さが同一となるように正規化した素材データDrの重要区間及び非重要区間の長さを示す。図9(B)に示すように、学習部56は、非重要区間の長さを夫々短縮する(映像の場合にはフレーム数を削除する)ことで、重要区間の合計長(L2+L4+L6)と、非重要区間の合計長(L1a+L3a+L5a+L7a)とを同一長としている。この場合、例えば、学習部56は、各非重要区間を所定割合で短縮することで、重要区間の合計長と非重要区間の合計長とを同一長にする。なお、学習部56は、その他の任意の規則に基づき、重要区間の合計長と同一の合計長となるように短縮した非重要区間を学習データとして抽出してもよい。
 本変形例によれば、学習部56は、重要区間と非重要区間とが均等な学習データにより学習を行い、非重要区間を偏って学習するのを好適に防ぐことができる。
 (変形例2)
 学習データ生成装置10のラベリング部54は、図6のステップS24においてラベルデータDLを生成する場合、重要区間に対する重要度に応じた学習段階での重み付けに関する情報(「重み付け情報」とも呼ぶ。)を、ラベルデータDLに付加してもよい。
 まず、重み付け情報の第1の例として、編集データDeにおいて使用される回数に基づき、重要区間の各々の重みを決定する例について、図10(A)及び図10(B)を参照して説明する。
 図10(A)は、素材データDrと編集データDeとの一致区間の対応関係の一例を示す。この場合、まず、ラベリング部54は、ステップS23の照合処理により得られた照合結果Rmに基づき、素材データDrのシーンX1及びシーンX2を、編集データDeとの一致区間として認識する。そして、この場合、ラベリング部54は、シーンX1及びシーンX2に相当する素材データDrの各映像区間を重要区間とするラベルデータDLを生成すると共に、当該各映像区間に関する重み付け情報をラベルデータDLに付加する。ここで、シーンX1が編集データDeにおいて2回用いられており、シーンX2が編集データDeにおいて1回用いられていることから、ラベリング部54は、シーンX1に相当する映像区間に対する重みを、シーンX2に相当する映像区間に対する重みよりも高く設定する。例えば、ラベリング部54は、編集データDeで使用された回数を重みとみなし、シーンX1に相当する映像区間に対する重みを「2」、シーンX2に相当する映像区間に対する重みを「1」としてもよい。なお、ラベリング部54は、シーンX1に相当する映像区間に対する重みが、シーンX2に相当する映像区間に対する重みよりも大きくなるような任意の重みを示す重み付け情報を生成してもよい。
 図10(B)は、1の素材データDrが複数の編集データDe(編集データαと編集データβ)に対応する場合の一致区間の対応関係の一例を示す。この場合、ラベリング部54は、シーンY1及びシーンY2の各々を重要区間とするラベルデータDLを生成すると共に、シーンY1及びシーンY2に関する重み付け情報をラベルデータDLに付加する。ここで、シーンY1は、編集データαと編集データβに1回ずつ(計2回)用いられることから、編集データαにのみ1回だけ用いられるシーンY2よりも重みを高く設定する。
 このように、ラベリング部54は、編集データDeにおいて用いられた回数が多い重要区間ほど重要度が高いとみなし、当該重要区間に対する重みを高くした重み付け情報を生成する。これにより、ラベリング部54は、各重要区間での重要度を考慮した学習を可能にする重み付け情報を、ラベルデータDLに好適に付加することができる。
 また、重み付け情報の第2の例として、ラベリング部54は、編集データDeの属性情報に基づき、当該編集データDeに対応する素材データDrの重要区間に対する学習の重みを決定してもよい。上述の属性情報は、例えば、視聴率に関する情報、編集データDeの時間長に関する情報、又は、編集データの時系列での重要度を示す情報である。以下では、これらの属性情報に基づき重み付け情報を生成する例について順に説明する。
 例えば、視聴率に関する情報が編集データDeの属性情報として編集データDeのメタデータ等に含まれていた場合には、ラベリング部54は、視聴率に関する情報に基づき、重要区間の重みを決定する。例えば、ラベリング部54は、素材データDrの各重要区間に対する重みを、対応する編集データDeの視聴率に応じた値に設定した重み付け情報を生成する。この場合、ラベリング部54は、編集データDeの視聴率が高いほど、当該編集データDeに用いられた重要区間に対する重みが大きくなるように、重み付け情報を生成する。なお、ラベリング部54は、視聴率に限らず、視聴者数の多さを客観的に表す任意の指標に基づき、重みを設定してもよい。これにより、視聴者の関心が高い編集データDeに使用された重要区間に対する重み付けを高く設定することができる。
 また、編集データDeの属性情報として、編集データDeの時間長を用いる場合、ラベリング部54は、素材データDrの各重要区間に対する重みを、対応する編集データDeの時間長に応じた値に設定した重み付け情報を生成する。この場合、ラベリング部54は、編集データDeの時間長が短いほど、当該編集データDeに用いられた重要区間に対する重みが大きくなるように、重み付け情報を生成する。この場合、ラベリング部54は、時間長が短い編集データDeにおいて使用される映像区間は重要性が高いと判断し、各重要区間に対する重みを設定する。この態様によっても、ラベリング部54は、各重要区間の重要度に応じて各重要区間の重みを設定した重み付け情報を好適に生成することができる。
 また、編集データDeの属性情報として、編集データDeの時系列での重要度を示すメタデータを使用する場合には、ラベリング部54は、素材データDrの各重要区間に対する重みを、対応する編集データDeの映像区間に対する重要度に基づいて設定する。これにより、ラベリング部54は、編集データDe内の時系列での重要度を考慮してラベルデータDLに付加する重み付け情報を生成することができる。
 次に、重み付け情報を利用した学習について説明する。学習装置30の学習部56は、取得部55が取得したラベルデータDLと素材データDrとの組に基づき識別器の学習を行う場合、ラベルデータDLに付加された重み付け情報を参照することで、素材データDrの各重要区間に対する重みを決定する。そして、学習部56は、例えば、重みが大きい重要区間ほど、当該重要区間への誤識別に対する損失が大きくなるように損失関数のパラメータ等を調整し、損失が最小となるように識別器の学習を行う。他の例では、学習部56は、重みに応じて重要区間の学習回数を決定してもよい。例えば、編集データDeでの使用回数を各重要区間の重みとする例(図10(A)、(B)参照)では、学習部56は、重みが1(即ち使用回数が1回)となる重要区間については1回のみ学習を行い、重みがN(Nは2以上の整数)となる重要区間についてはN回学習を行う。このようにすることで、学習装置30は、素材データDrにおける各重要区間での重要度を考慮した学習を好適に実行することができる。
 (変形例3)
 学習データ生成装置10は、素材特徴量Frを生成する素材特徴量生成処理(図5参照)の実行後に、編集特徴量Feの生成処理及びラベルデータDLの生成処理を含むラベルデータ生成処理(図6参照)を実行したが、実行手順はこれに限られない。
 例えば、学習データ生成装置10は、編集特徴量Feの生成処理を実行した後、素材特徴量Frの生成処理とラベルデータDLの生成処理を行ってもよい。他の例では、学習データ生成装置10は、編集特徴量Feと素材特徴量Frの生成処理を予め実行することで編集特徴量Feと素材特徴量Frを特徴量記憶部23に記憶しておき、その後に特徴量記憶部23を参照することでラベルデータDLの生成処理を行ってもよい。この場合、学習データ生成装置10以外の装置が編集特徴量Feと素材特徴量Frの生成処理を実行し、生成した編集特徴量Fe及び素材特徴量Frを特徴量記憶部23に記憶してもよい。
 (変形例4)
 同時間帯に複数のカメラにより撮影された複数の素材データDrが存在する場合、学習データ生成装置10のラベリング部54は、複数の素材データDrのいずれかで定めた重要区間と同一時間帯の他の素材データDrの映像区間を、重要区間とみなしてもよい。
 図11は、3台のカメラにより同時間帯で撮影された素材データDr(素材データa、素材データb、素材データc)と、これらの素材データDrから生成された編集データDeとの一致区間を表した図である。編集データDeは、素材データaの区間a1、素材データbの区間b2、素材データcの区間c3に夫々一致する区間を含んでいる。また、各素材データDrには、時系列での撮影日時を表すメタデータが含まれている。
 この場合、ラベリング部54は、素材データaの区間a1、素材データbの区間b2、及び素材データcの区間c3を重要区間とみなすと共に、当該重要区間と同時間帯に撮影された他の素材データDrの映像区間についても重要区間とみなす。そして、ラベリング部54は、素材データa~素材データcの夫々に対するラベルデータDLを生成する。具体的には、ラベリング部54は、素材データaの区間a1と同時間帯に撮影された素材データbの区間b1と素材データcの区間c1とを、重要区間とみなす。また、ラベリング部54は、素材データbの区間b2と同時間帯に撮影された素材データaの区間a2と素材データcの区間c2とを、重要区間とみなす。さらに、ラベリング部54は、素材データcの区間c3と同時間帯に撮影された素材データaの区間a3と素材データbの区間b3とを、重要区間とみなす。
 本変形例によれば、ラベリング部54は、重要区間のラベリングを効率的かつ的確に実行することができる。
 (変形例5)
 識別装置40は、同時間帯に複数のカメラにより撮影された複数の映像データを示す入力データD1が入力された場合、1つの映像データに対して識別した重要区間と同時間帯の他の映像データの映像区間についても重要区間であると識別してもよい。
 この場合、識別装置40の識別部58は、入力データD1が示す少なくとも1つの映像データに対して識別器を適用することで重要区間を識別する。そして、識別部58は、1つの映像データに対して重要区間を識別した場合、他の映像データの同時間帯の映像区間を、重要区間として識別する。このようにすることで、識別装置40は、入力された複数の映像データから重要区間を効率的かつ的確に特定することができる。
 (変形例6)
 学習データ生成装置10は、ラベルデータDLの生成に加えて、重要区間の直前の区間に対して当該重要区間の予兆を表す区間(「予兆区間」とも呼ぶ。)とする第2のラベルデータを生成してもよい。
 図12は、素材データDrにおける予兆区間と重要区間とを明示した図である。また、図12では、素材データDrから抽出したシーンDのみからなる編集データDeが示されている。この場合、素材データDrは、例えば、監視カメラの映像データであり、編集データDeは、素材データDrから犯罪シーンなどの重要部分を抽出した映像データである。
 この場合、ラベリング部54は、照合部53が一致区間と判定したシーンDに相当する映像区間を重要区間とするラベルデータDLを生成すると共に、シーンDの直前のシーンEに相当する映像区間を予兆区間とする第2のラベルデータを生成する。そして、ラベリング部54は、生成した第2のラベルデータを、ラベルデータDLに付加してラベルデータ記憶部24に記憶する。この場合、ラベリング部54は、例えば、重要区間の直前の所定時間長の区間を、予兆区間として定める。上述の所定時間長は、予め定められた時間長であってもよく、対象となる重要区間の時間長に基づき決定される時間長であってもよい。
 このように生成された予兆区間に関する第2のラベルデータは、学習装置30による識別器の学習に好適に使用される。例えば、学習装置30の学習部56は、第2のラベルデータを参照し、重要区間に加えて、又は、重要区間に加えて、予兆区間を識別するように識別器の学習を行い、学習により得られたパラメータをパラメータ記憶部25に記憶する。これにより、学習装置30は、予兆区間を識別する識別器の学習を好適に実行することができる。
 また、識別装置40の識別部58は、パラメータ記憶部25に記憶されたパラメータを用いて識別器を構成する。これにより、識別部58は、入力データD1が示す映像データを、上述の識別器に入力することで、予兆区間を好適に識別することができる。そして、出力部59は、識別器により予兆区間と判定された映像データを出力装置60に出力する場合に、重要シーンへ移行する予兆がある旨の通知を行う。これにより、出力部59は、重要シーンの見逃し等を好適に抑制するようにユーザに注意喚起することができる。
 (変形例7)
 学習データ生成装置10は、ラベルデータDLの生成に加えて、素材データDrを構成する各画像に対して所定の対象物の検出を行い、当該対象物が検出される映像区間を表す第2のラベルデータを生成してもよい。
 この場合、例えば、ラベリング部54は、生成するラベルデータDLに対応する素材データDrを構成する各画像に対し、画像認識処理を実行することで、所定の対象物の検出を行う。この対象物は、予め定められた物体であって、特定の人物(選手)であってもよく、特定のマーク、建物、器具などの任意の物であってもよい。そして、ラベリング部54は、対象物を検出する区間を示す第2のラベルデータを生成する。そして、ラベリング部54は、生成した第2のラベルデータを、ラベルデータDLに付加してラベルデータ記憶部24に記憶する。
 このように生成された第2のラベルデータは、学習装置30による識別器の学習に好適に使用される。例えば、学習装置30の学習部56は、ラベルデータDL及び第2のラベルデータを参照し、対象物が検出される重要区間を識別するように識別器の学習を行い、学習により得られたパラメータをパラメータ記憶部25に記憶する。この場合、識別装置40は、パラメータ記憶部25に記憶されたパラメータを用いて識別器を構成することで、入力データD1が示す映像データから、対象物が検出される重要区間を好適に識別することができる。
 <第2実施形態>
 図13は、第2実施形態に係る学習データ生成装置10Aの概略構成を示す。学習データ生成装置10Aは、照合部53Aと、ラベリング部54Aとを備える。
 照合部53Aは、映像データ又は音データの少なくとも一方を含む素材データDrの特徴量である素材特徴量Frと、素材データDrを編集した編集データDeの特徴量である編集特徴量Feとを照合することで、素材データDrと編集データDeとで一致する一致区間の照合を行う。ラベリング部54Aは、上述の一致区間を重要区間とし、当該一致区間以外の区間を非重要区間として定める情報を、素材データDrに対するラベルデータDLとして生成する。
 第2実施形態に係る学習データ生成装置10Aは、素材特徴量Frと編集特徴量Feとを照合することにより、編集データDeに用いられた重要区間に関するラベルデータDLを、ユーザ入力によらず好適に生成することができる。
 その他、上記の各実施形態(変形例を含む、以下同じ)の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
 映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
 前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部と、
を有する学習データ生成装置。
[付記2]
 前記素材データと、前記編集データとを取得する取得部と、
 前記素材データの特徴量と、前記編集データの特徴量とを抽出する特徴抽出部と、
をさらに有する、付記1に記載の学習データ生成装置。
[付記3]
 前記ラベリング部は、前記重要区間の各々に対する学習の重みを示す重み付け情報を、前記ラベルデータに付加する、付記1または2に記載の学習データ生成装置。
[付記4]
 前記ラベリング部は、前記編集データにおいて使用される回数に基づき、前記重要区間の各々の重みを決定した前記重み付け情報を、前記ラベルデータに付加する、付記3に記載の学習データ生成装置。
[付記5]
 前記ラベリング部は、前記編集データの属性情報に基づき生成した前記重み付け情報を、前記ラベルデータに付加する、付記3に記載の学習データ生成装置。
[付記6]
 前記属性情報は、前記編集データの視聴率に関する情報、前記編集データの時間長に関する情報、又は前記編集データの時系列での重要度を示す情報である、付記5に記載の学習データ生成装置。
[付記7]
 前記編集データは、複数の素材データを編集したデータであり、
 前記照合部は、前記編集データの特徴量と、前記複数の素材データの各々の特徴量とを照合することで、前記複数の素材データの各々と前記編集データとで一致する一致区間の照合を行い、
 前記ラベリング部は、前記複数の素材データの各々に対する前記ラベルデータを生成する、付記1~6のいずれか一項に記載の学習データ生成装置。
[付記8]
 前記複数の素材データは、同時間帯に異なるカメラにより撮影された映像データであり、
 前記ラベリング部は、前記複数の素材データのいずれかにおいて前記一致区間が存在する場合、同一時間帯となる他の前記素材データの区間を前記重要区間として定める、付記7に記載の学習データ生成装置。
[付記9]
 前記ラベリング部は、前記重要区間の直前の区間に対して当該重要区間の予兆を表す区間とする第2のラベルデータを生成する、付記1~8のいずれか一項に記載の学習データ生成装置。
[付記10]
 前記ラベリング部は、前記素材データを構成する各画像に対して所定の対象物の検出を行い、当該対象物が検出される区間を表す第2のラベルデータを生成する、付記1~8のいずれか一項に記載の学習データ生成装置。
[付記11]
 付記1~10のいずれか一項に記載の学習データ生成装置が生成したラベルデータと、当該ラベルデータに対応する素材データとの組み合わせを取得する取得部と、
 前記取得部が取得したラベルデータと前記素材データとの組み合わせに基づき、
 映像データ又は音データの少なくとも一方を含むデータから重要区間と非重要区間とを識別する学習モデルの学習を行う学習部と、
を有する学習装置。
[付記12]
 前記学習部は、前記重要区間の合計長に基づき前記非重要区間の合計長を短縮した素材データに基づき、前記学習モデルの学習を行う、付記11に記載の学習装置。
[付記13]
 前記ラベルデータには、前記重要区間の各々に対する学習の重みを示す重み付け情報が付加されており、
 前記学習部は、前記重み付け情報に基づき、前記学習モデルの学習を行う、付記11または12に記載の学習装置。
[付記14]
 前記ラベルデータには、前記重要区間の予兆を表す区間を示す第2のラベルデータが付加されており、
 前記学習部は、前記第2のラベルデータに基づき、前記学習モデルの学習を行う、付記11~13のいずれか一項に記載の学習装置。
[付記15]
 映像データ又は音データの少なくとも一方を含む入力データを取得する取得部と、
 付記11~14のいずれか一項に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間を識別する識別部と、
を有する識別装置。
[付記16]
 前記識別部は、前記入力データが示す1の映像データと異なるカメラにより撮影された他の映像データに対し、前記1の映像データの重要区間と同一時間帯に対応する前記他の映像データの区間を、重要区間として識別する、付記15に記載の識別装置。
[付記17]
 前記識別部は、請求項14に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間の予兆を表す区間を識別する、付記15または16に記載の識別装置。
[付記18]
 前記重要区間又は前記予兆を表す区間に属する前記入力データの出力を行う場合に、所定の通知を行う出力部をさらに有する、付記17に記載の識別装置。
[付記19]
 学習データ生成装置が実行する生成方法であって、
 映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行い、
 前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成する、
生成方法。
[付記20]
 映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
 前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部
としてコンピュータを機能させるプログラムを格納する記憶媒体。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
 10、10A 学習データ生成装置
 11、31、41 プロセッサ
 12、32、42 メモリ
 13、33、43 インターフェース
 20 記憶装置
 30 学習装置
 40 識別装置
 100 ダイジェスト生成システム

Claims (20)

  1.  映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
     前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部と、
    を有する学習データ生成装置。
  2.  前記素材データと、前記編集データとを取得する取得部と、
     前記素材データの特徴量と、前記編集データの特徴量とを抽出する特徴抽出部と、
    をさらに有する、請求項1に記載の学習データ生成装置。
  3.  前記ラベリング部は、前記重要区間の各々に対する学習の重みを示す重み付け情報を、前記ラベルデータに付加する、請求項1または2に記載の学習データ生成装置。
  4.  前記ラベリング部は、前記編集データにおいて使用される回数に基づき、前記重要区間の各々の重みを決定した前記重み付け情報を、前記ラベルデータに付加する、請求項3に記載の学習データ生成装置。
  5.  前記ラベリング部は、前記編集データの属性情報に基づき生成した前記重み付け情報を、前記ラベルデータに付加する、請求項3に記載の学習データ生成装置。
  6.  前記属性情報は、前記編集データの視聴率に関する情報、前記編集データの時間長に関する情報、又は前記編集データの時系列での重要度を示す情報である、請求項5に記載の学習データ生成装置。
  7.  前記編集データは、複数の素材データを編集したデータであり、
     前記照合部は、前記編集データの特徴量と、前記複数の素材データの各々の特徴量とを照合することで、前記複数の素材データの各々と前記編集データとで一致する一致区間の照合を行い、
     前記ラベリング部は、前記複数の素材データの各々に対する前記ラベルデータを生成する、請求項1~6のいずれか一項に記載の学習データ生成装置。
  8.  前記複数の素材データは、同時間帯に異なるカメラにより撮影された映像データであり、
     前記ラベリング部は、前記複数の素材データのいずれかにおいて前記一致区間が存在する場合、同一時間帯となる他の前記素材データの区間を前記重要区間として定める、請求項7に記載の学習データ生成装置。
  9.  前記ラベリング部は、前記重要区間の直前の区間に対して当該重要区間の予兆を表す区間とする第2のラベルデータを生成する、請求項1~8のいずれか一項に記載の学習データ生成装置。
  10.  前記ラベリング部は、前記素材データを構成する各画像に対して所定の対象物の検出を行い、当該対象物が検出される区間を表す第2のラベルデータを生成する、請求項1~8のいずれか一項に記載の学習データ生成装置。
  11.  請求項1~10のいずれか一項に記載の学習データ生成装置が生成したラベルデータと、当該ラベルデータに対応する素材データとの組み合わせを取得する取得部と、
     前記取得部が取得したラベルデータと前記素材データとの組み合わせに基づき、
     映像データ又は音データの少なくとも一方を含むデータから重要区間と非重要区間とを識別する学習モデルの学習を行う学習部と、
    を有する学習装置。
  12.  前記学習部は、前記重要区間の合計長に基づき前記非重要区間の合計長を短縮した素材データに基づき、前記学習モデルの学習を行う、請求項11に記載の学習装置。
  13.  前記ラベルデータには、前記重要区間の各々に対する学習の重みを示す重み付け情報が付加されており、
     前記学習部は、前記重み付け情報に基づき、前記学習モデルの学習を行う、請求項11または12に記載の学習装置。
  14.  前記ラベルデータには、前記重要区間の予兆を表す区間を示す第2のラベルデータが付加されており、
     前記学習部は、前記第2のラベルデータに基づき、前記学習モデルの学習を行う、請求項11~13のいずれか一項に記載の学習装置。
  15.  映像データ又は音データの少なくとも一方を含む入力データを取得する取得部と、
     請求項11~14のいずれか一項に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間を識別する識別部と、
    を有する識別装置。
  16.  前記識別部は、前記入力データが示す1の映像データと異なるカメラにより撮影された他の映像データに対し、前記1の映像データの重要区間と同一時間帯に対応する前記他の映像データの区間を、重要区間として識別する、請求項15に記載の識別装置。
  17.  前記識別部は、請求項14に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間の予兆を表す区間を識別する、請求項15または16に記載の識別装置。
  18.  前記重要区間又は前記予兆を表す区間に属する前記入力データの出力を行う場合に、所定の通知を行う出力部をさらに有する、請求項17に記載の識別装置。
  19.  学習データ生成装置が実行する生成方法であって、
     映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行い、
     前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成する、
    生成方法。
  20.  映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
     前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部
    としてコンピュータを機能させるプログラムを格納する記憶媒体。
PCT/JP2019/029673 2019-07-29 2019-07-29 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体 WO2021019645A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021536487A JP7268739B2 (ja) 2019-07-29 2019-07-29 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム
US17/626,858 US20220262099A1 (en) 2019-07-29 2019-07-29 Learning data generation device, learning device, identification device, generation method and storage medium
PCT/JP2019/029673 WO2021019645A1 (ja) 2019-07-29 2019-07-29 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/029673 WO2021019645A1 (ja) 2019-07-29 2019-07-29 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体

Publications (1)

Publication Number Publication Date
WO2021019645A1 true WO2021019645A1 (ja) 2021-02-04

Family

ID=74229795

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/029673 WO2021019645A1 (ja) 2019-07-29 2019-07-29 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体

Country Status (3)

Country Link
US (1) US20220262099A1 (ja)
JP (1) JP7268739B2 (ja)
WO (1) WO2021019645A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259530A1 (ja) * 2021-06-11 2022-12-15 日本電気株式会社 映像処理装置、映像処理方法、及び、記録媒体
WO2022264365A1 (ja) * 2021-06-17 2022-12-22 日本電気株式会社 映像処理装置、映像処理方法、及び、記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006287319A (ja) * 2005-03-31 2006-10-19 Nippon Hoso Kyokai <Nhk> 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP2007336106A (ja) * 2006-06-13 2007-12-27 Osaka Univ 映像編集支援装置
WO2010073695A1 (ja) * 2008-12-25 2010-07-01 日本電気株式会社 編集情報提示装置、編集情報提示方法、プログラム、及び記録媒体
JP2014203133A (ja) * 2013-04-01 2014-10-27 キヤノン株式会社 画像処理装置、画像処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4639043B2 (ja) * 2003-11-28 2011-02-23 ソニー株式会社 動画像編集装置及び動画像編集方法
JP5159492B2 (ja) * 2008-07-24 2013-03-06 日本放送協会 特定シーン学習システム及びプログラム
US9557829B2 (en) * 2014-05-01 2017-01-31 Adobe Systems Incorporated Method and apparatus for editing video scenes based on learned user preferences
JP7023613B2 (ja) * 2017-05-11 2022-02-22 キヤノン株式会社 画像認識装置および学習装置
JP6831769B2 (ja) * 2017-11-13 2021-02-17 株式会社日立製作所 画像検索装置、画像検索方法、及び、それに用いる設定画面

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006287319A (ja) * 2005-03-31 2006-10-19 Nippon Hoso Kyokai <Nhk> 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP2007336106A (ja) * 2006-06-13 2007-12-27 Osaka Univ 映像編集支援装置
WO2010073695A1 (ja) * 2008-12-25 2010-07-01 日本電気株式会社 編集情報提示装置、編集情報提示方法、プログラム、及び記録媒体
JP2014203133A (ja) * 2013-04-01 2014-10-27 キヤノン株式会社 画像処理装置、画像処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259530A1 (ja) * 2021-06-11 2022-12-15 日本電気株式会社 映像処理装置、映像処理方法、及び、記録媒体
WO2022264365A1 (ja) * 2021-06-17 2022-12-22 日本電気株式会社 映像処理装置、映像処理方法、及び、記録媒体

Also Published As

Publication number Publication date
US20220262099A1 (en) 2022-08-18
JPWO2021019645A1 (ja) 2021-02-04
JP7268739B2 (ja) 2023-05-08

Similar Documents

Publication Publication Date Title
CN108140032B (zh) 用于自动视频概括的设备和方法
CN110166827B (zh) 视频片段的确定方法、装置、存储介质及电子装置
CN110119711B (zh) 一种获取视频数据人物片段的方法、装置及电子设备
WO2020169121A2 (zh) 一种视频自动剪辑方法及便携式终端
CN109756751B (zh) 多媒体数据处理方法及装置、电子设备、存储介质
CN110139159A (zh) 视频素材的处理方法、装置及存储介质
US9159362B2 (en) Method and system for detecting and recognizing social interactions in a video
EP2568429A1 (en) Method and system for pushing individual advertisement based on user interest learning
CN107481327A (zh) 关于增强现实场景的处理方法、装置、终端设备及系统
CN111062871A (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN110832583A (zh) 用于从多个图像帧生成概要故事板的系统和方法
CN111090813B (zh) 一种内容处理方法、装置和计算机可读存储介质
GB2395264A (en) Face detection in images
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
CN110677718B (zh) 一种视频识别方法和装置
CN112132030B (zh) 视频处理方法及装置、存储介质及电子设备
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
CN110796098A (zh) 内容审核模型的训练及审核方法、装置、设备和存储介质
WO2021019645A1 (ja) 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体
EP3989158A1 (en) Method, apparatus and device for video similarity detection
CN112289347A (zh) 一种基于机器学习的风格化智能视频剪辑方法
CN112202849A (zh) 内容分发方法、装置、电子设备和计算机可读存储介质
CN114390368B (zh) 直播视频数据的处理方法及装置、设备、可读介质
CN110121105A (zh) 剪辑视频生成方法及装置
Tzelepis et al. Video aesthetic quality assessment using kernel Support Vector Machine with isotropic Gaussian sample uncertainty (KSVM-IGSU)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19939721

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021536487

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19939721

Country of ref document: EP

Kind code of ref document: A1