WO2020166382A1 - 検出装置、検出方法およびプログラム - Google Patents

検出装置、検出方法およびプログラム Download PDF

Info

Publication number
WO2020166382A1
WO2020166382A1 PCT/JP2020/003670 JP2020003670W WO2020166382A1 WO 2020166382 A1 WO2020166382 A1 WO 2020166382A1 JP 2020003670 W JP2020003670 W JP 2020003670W WO 2020166382 A1 WO2020166382 A1 WO 2020166382A1
Authority
WO
WIPO (PCT)
Prior art keywords
still image
predetermined
detection
video
detection device
Prior art date
Application number
PCT/JP2020/003670
Other languages
English (en)
French (fr)
Inventor
康智 大石
川西 隆仁
柏野 邦夫
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/310,456 priority Critical patent/US11728914B2/en
Publication of WO2020166382A1 publication Critical patent/WO2020166382A1/ja
Priority to US18/182,360 priority patent/US20230216598A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/59Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • H04N21/2543Billing, e.g. for subscription services
    • H04N21/2547Third Party Billing, e.g. billing of advertiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio

Definitions

  • the present invention relates to a detection device, a detection method and a program.
  • Programs that are broadcast by TV broadcasting etc. may include a company logo of the sponsor of the program, or a provided credit indicating the sponsor of the program by an announcement such as the name of the sponsor of the program.
  • the provided credit has various modes depending on the display position of the company logo, the character color, the language used, and the like.
  • company name voice a voice that calls a company logo included in a provided credit or a name of a sponsor
  • Non-Patent Document 1 the work of manually checking and transcribing the company logo and company name voice was performed (see Non-Patent Document 1). Such manual work causes an increase in cost.
  • CM metadata input support tool [online], [January 30, 2019 search], Internet ⁇ URL: http://www.jppanet.or.jp/documents/video.html>
  • An object of the present invention made in view of the above problems is to provide a region related to a provided credit from a video including the provided credit such as a television broadcast without creating learning data for each of various types of provided credits. It is intended to provide a detection device, a detection method, and a program that enable the extraction of the.
  • a detection device is a detection device that detects a desired scene from a target video, and detects a still image and a predetermined sound including predetermined characters or figures acquired from a prior video. From the target video, the predetermined character is obtained by associating an audio signal that does not include the audio signal, or a still image that does not include the predetermined character or graphic acquired from a prior video with an audio signal that includes the predetermined sound.
  • a detection unit that detects the desired scene, which is an area including at least one of the figure and the predetermined sound, is provided.
  • a detection device is a detection device that detects a scene related to a provided credit included in a CM from a target video, and a frame or an audio signal that constitutes the CM from a prior video.
  • a detection unit that detects a scene related to the provided credit from the target video by associating a still image related to the provided credit and an audio signal related to the provided credit included in other than.
  • the detection method according to the present invention is a detection method executed in a detection device that detects a desired scene from a target video, in which a predetermined character or figure acquired from a prior video is used.
  • a detection device that detects a desired scene from a target video, in which a predetermined character or figure acquired from a prior video is used.
  • the program according to the present invention causes a computer to function as the above detection device.
  • the area related to the provided credit is extracted from the video including the provided credit such as television broadcasting without creating learning data for each of various modes of the provided credit. Is possible.
  • FIG. 1 It is a figure which shows the structural example of the detection apparatus which concerns on one Embodiment of this invention. It is a figure for demonstrating preparation of the learning data by the learning data preparation part shown in FIG. It is a figure for demonstrating the model which the learning part shown in FIG. 1 uses for learning. It is a figure which shows an example of the still image containing a company logo. It is the figure which visualized the output of the still picture encoder which inputted the still picture shown in Drawing 4A. It is the figure which visualized the output of the encoder for audio signals which input the audio signal of a pair with the still picture shown in Drawing 4A. 6 is a flowchart for explaining a detection method executed by the detection device shown in FIG. 1. It is a figure which shows an example of the evaluation result of the detection accuracy of the detection apparatus shown in FIG.
  • FIG. 1 is a diagram showing a configuration example of a detection device 10 according to an embodiment of the present invention.
  • the detection device 10 according to the present embodiment detects a desired scene from a target video.
  • the detection device 10 shown in FIG. 1 includes a correct answer metadata storage unit 11, a parameter storage unit 12, a learning data creation unit 13, a learning unit 14, a detection data creation unit 15, and a provided credit detection unit 16.
  • the calculation unit 17 and the recognition unit 18 are provided.
  • the calculation unit 17 and the recognition unit 18 constitute a detection unit 19.
  • the correct answer metadata storage unit 11 stores time data of a section in which a provided credit indicating a sponsor of the program is presented (hereinafter referred to as “provided credit section”) in the program.
  • the program is, for example, a broadcasted program or a program distributed on the Internet.
  • the provided credits in these programs are visually confirmed by, for example, an operator, and time data such as the start time and the end time of the provided credit section is accumulated in the correct answer metadata accumulation unit 11.
  • the provided credit section not only the section in which the company logo (predetermined characters or figures that can identify the sponsor) and the company name voice (predetermined sound that can identify the sponsor) are output, but also the company logo It also includes a section in which only the display of No. is performed and a section in which only the company name voice is output.
  • a video in which the provided credit section has been detected is referred to as a prior video.
  • the parameter storage unit 12 stores parameters to be applied to a model for associating a company logo with a company name voice, which will be described later.
  • the association model between the company logo and the company name voice is, for example, a model using a convolutional neural network.
  • a convolutional neural network generally has a configuration in which a convolutional layer and a pooling layer are repeatedly arranged in this order from the input side a plurality of times, and then a fully connected layer is arranged.
  • a rectangular filter is applied to the output of the convolutional layer while sequentially shifting it, and the maximum value in the rectangular filter is extracted to generate a new image.
  • the fully-combined layer a process of combining the image data from which the characteristic portions are extracted by the convolutional layer and the pooling layer into one node and outputting the value converted by the activation function is performed.
  • the parameter accumulating unit 12 includes a filter weight of a filter applied in each layer and a bias parameter added to the output of the convolutional layer.
  • the learning data creation unit 13 receives the prior video and creates learning data for learning the parameters to be applied to the above-mentioned model for associating the company logo and the company name voice from the input prior video. Creation of learning data by the learning data creation unit 13 will be described with reference to FIG.
  • the advance video includes a program section and a provided credit section.
  • the learning data creation unit 13 identifies the provided credit section based on the time data stored in the correct answer metadata storage unit 11. Next, the learning data creation unit 13 extracts still images in the provided credit section from the video signal of the preliminary video at predetermined time intervals (for example, 1 second intervals). The learning data creation unit 13 extracts an acoustic signal of a predetermined time (for example, 3 seconds before and after for a total of 6 seconds) centered on the extracted still image from the acoustic signal of the preliminary image. The learning data creation unit 13 creates a pair of the extracted still image and acoustic signal as learning data.
  • the learning data creation unit 13 includes the company logo (predetermined character or figure that can identify the sponsor) and the company name voice (predetermined sound that can identify the sponsor) from the pre-detected video, and includes the still image including the company logo. At least a pair of an image and an audio signal that does not include a company name voice, a pair of a still image that does not include a company logo, and an audio signal that includes a company name voice are created. Further, the learning data creation unit 13 may create a pair of a still image including a company logo and an acoustic signal including a company name voice.
  • a pair of a still image containing the company logo and a sound signal that does not contain the company name voice (sound signal in the section where the presentation credit is not presented), and a still image that does not contain the company name logo (presentation of the provision credit) By using a pair of a still image in a section in which the audio is not performed) and an audio signal containing the voice of the company, a feature that is potentially common to the still image and the audio signal forming these pairs can be extracted.
  • the still image in the provided credit section is described as an example of being extracted at 1 second intervals, but the present invention is not limited to this, and still images may be extracted at arbitrary time intervals.
  • the description is given using an example in which the acoustic signal for 6 seconds is extracted centered on the extracted still image.
  • a typical announcement is often made, such as "This program was sent by the sponsor you are watching.”
  • the length of time for extracting the audio signal may be determined, for example, according to the time of the announcement regarding the provided credit.
  • the learning data creation unit 13 outputs the created learning data to the learning unit 14.
  • the learning unit 14 uses the learning data (a pair of a still image and an acoustic signal) created by the learning data creating unit 13 to learn the parameters to be applied to the association model of the company logo and the company name voice. Specifically, the learning unit 14 uses a convolutional neural network and a still image encoder (still image feature amount extraction unit) that extracts a feature vector as a still image feature amount from a still image using a convolutional neural network. Learning is performed using a model including an acoustic signal encoder (acoustic signal characteristic amount extraction unit) that extracts a characteristic vector as an acoustic characteristic amount from the acoustic signal.
  • acoustic signal encoder acoustic signal characteristic amount extraction unit
  • FIG. 3 is a diagram showing a configuration example of the model 140 used by the learning unit 14 for learning.
  • the model 140 shown in FIG. 3 includes a still image encoder 141 and an audio signal encoder 142.
  • the still image encoder 141 includes a convolutional layer 141a, a pooling layer 141b provided in the subsequent stage of the convolutional layer 141a, a convolutional layer 141c provided in the subsequent stage of the pooling layer 141b, and a pooling provided in the subsequent stage of the convolutional layer 141c.
  • the convolutional layer 141a performs convolution processing by each of a plurality of filters for each predetermined area of the input still image, and extracts a feature amount.
  • the convolutional layer 141a generates an image (feature map) in which the feature amount extracted by the convolution process while sliding the filter is mapped to a corresponding position, and outputs the image to the pooling layer 141b in the subsequent stage.
  • the convolutional layer 141a generates and outputs 64 feature maps of 224 ⁇ 224 pixels.
  • the output of the convolutional layer 141a can be represented as 224 ⁇ 224 ⁇ 64.
  • the feature amount extracted by the convolutional layer 141a is represented as a feature vector, and the dimension number of the feature vector is 64 in the above example.
  • the pooling layer 141b takes the maximum value or the average value in the area for each predetermined size (for example, every 2 ⁇ 2 pixels) for the image output from the convolutional layer 141a at the previous stage, and creates a feature map. It is compressed and output to the convolutional layer 141c in the subsequent stage.
  • the output of the pooling layer 141b is represented by 112 ⁇ 112 ⁇ 128, for example.
  • similar processing is performed in the convolutional layers 141c, 141e, 141g, 141i, 141j and the pooling layers 141d, 141f, 141h.
  • the still image encoder 141 outputs the output image (feature vector set) of the final convolutional layer 141j.
  • the still picture encoder 141 and outputs the feature vector set represented by N r ⁇ N c ⁇ N d .
  • N r and N c are the number of pixels in the row direction and the column direction of the output image of the still image encoder 141, respectively, and N d is the number of dimensions of the feature vector.
  • the acoustic signal encoder 142 includes a convolutional layer 142a, a convolutional layer 142b provided in a subsequent stage of the convolutional layer 142a, a pooling layer 142c provided in a subsequent stage of the convolutional layer 142b, and a convolutional process provided in a subsequent stage of the pooling layer 142c.
  • the learning unit 14 performs a frequency analysis (for example, a window length of 25 ms and a window shift length of 10 ms) on the acoustic signals forming the pair, and performs mel filter bank processing with 40 filters. By doing so, the acoustic signal is represented by a 600 ⁇ 40 mel spectrogram.
  • a frequency analysis for example, a window length of 25 ms and a window shift length of 10 ms
  • the convolutional layer 142a performs convolutional processing on the input mel spectrogram with each of a plurality of filters for each predetermined section, and extracts a feature amount.
  • the convolutional layer 141a generates a feature map in which the feature amount extracted by the convolutional process while sliding the filter is mapped to the corresponding position, and outputs the feature map to the subsequent convolutional layer 142b.
  • the output of the convolutional layer 142 can be represented as 600 ⁇ 128.
  • the feature amount extracted by the convolutional layer 142a is represented as a feature vector, and the dimension number of the feature vector is 128 in the above example.
  • the convolutional layer 142b extracts the characteristic amount of the mel spectrogram (acoustic signal) output from the convolutional layer 142a by the same process as the convolutional layer 142, and outputs it to the pooling layer 142c.
  • the pooling layer 142c compresses the mel spectrogram output from the convolutional layer 142b and outputs it to the convolutional layer 142d in the subsequent stage.
  • the output of the pooling layer 142c is represented by, for example, 300 ⁇ 256.
  • similar processing is performed in the convolutional layers 142d, 142f, 142h and the pooling layers 142e, 142g, 141i.
  • a concrete example of the output of each layer is shown in the block showing each layer, the present invention is not limited to this.
  • the audio signal encoder 142 outputs the mel spectrogram (feature vector set) output from the final pooling layer 141i.
  • the acoustic signal encoder 142 and outputs the feature vector set represented by N t ⁇ N d.
  • N t is the length of the output acoustic signal (the acoustic signal corresponding to the mel spectrogram) of the acoustic signal encoder 142
  • N d is the dimension number of the feature vector.
  • the model 140 further includes a coupling layer 143.
  • the coupling layer 143 outputs the inner product of the output of the still image encoder and the output of the audio signal encoder.
  • the learning unit 14 uses a pair of a still image and an acoustic signal created as learning data, and uses the stochastic gradient method so that the value of the following Expression (1) is minimized.
  • the parameters of the still image encoder 141 and the acoustic signal encoder 142 (convolutional neural network) are learned by using them.
  • the mini-batch size B is the number of data (a pair of a still image and an audio signal) used for updating the parameters.
  • I j and A j are outputs of the still image encoder 141 and the acoustic signal encoder 142 for the j-th still image and acoustic signal pair, respectively, and I j imp and A j imp are These are the outputs of the still image encoder 141 and the acoustic signal encoder 142 for the j-th randomly selected pair of the still image and the acoustic signal from the mini-batch (data used for updating the parameters), respectively.
  • (I j , A j ) is the similarity between the output I j of the still image encoder 141 and the output A j of the acoustic signal encoder 142.
  • the similarity calculated based on the still image forming the pair and the audio signal is similar to the similarity calculated based on the still image not forming the pair and the audio signal (of the still image encoder 141).
  • the max function is used in order to satisfy the criterion that either the output or the output of the audio signal encoder 142 becomes larger than the similarity calculated by replacing the output with another value.
  • the similarity calculated by the first calculation method is S 1 (M)
  • the similarity calculated by the second calculation method is S 2 (M)
  • the similarity calculated by the third calculation method is S 3 (M)
  • the similarity calculated by the fourth calculation method is S 4 (M)
  • the similarity calculated by the fifth calculation method is S 5 (M).
  • the similarity S 1 (M), the similarity S 2 (M), the similarity S 3 (M), the similarity S 4 (M) and the similarity S 5 (M) are respectively expressed by the following equations (2) to (5). It is calculated based on (7).
  • I r,c,d is an output element of the still image encoder 141
  • At ,d is an output element of the acoustic signal encoder 142
  • p is a parameter set by learning.
  • the learning unit 14 calculates one of the similarity S 1 (M), the similarity S 2 (M), the similarity S 3 (M), the similarity S 4 (M), and the similarity S 5 (M). ,
  • the parameters of the still image encoder 141 and the acoustic signal encoder 142 that minimize the value of the equation (1) are learned.
  • the learning unit 14 may weight the parameter so that one of the output of the still image encoder 141 and the output of the acoustic signal encoder 142 is prioritized. That is, the similarity may be weighted so that one of the still image feature amount extracted by the still image encoder 141 and the acoustic feature amount extracted by the acoustic signal encoder 142 is prioritized.
  • Such weighting can be performed by, for example, selecting an equation (for example, equations (3) to (7)) used to calculate the above-described similarity S(I j , A j ).
  • the expression (7) enables learning of the parameter p described above.
  • the value of the parameter p it is possible to decide which of the output of the still image encoder 141 and the output of the audio signal encoder 142 is to be emphasized.
  • the learning unit 14 stores the obtained parameters in the parameter storage unit 12.
  • the learning unit 14 says that the degree of similarity calculated based on a still image forming a pair and an audio signal is higher than the degree of similarity calculated based on a still image not forming a pair and an audio signal.
  • the learning unit 14 may use some evaluation value (a value that can obtain some likelihood) instead of the similarity.
  • the still image encoder 141 and the acoustic signal encoder 142 are extracted from a still image feature amount extracted from a still image including a predetermined character or figure acquired from a prior video and an acoustic signal not including a predetermined sound.
  • machine learning is used to estimate the co-occurrence relationship between the still image and the audio signal related to the provided credit, but the present invention is not limited to this.
  • the still image encoder 141 and the acoustic signal encoder 142 may use a linear function or the like for reducing the dimension of input data, instead of machine learning.
  • the detection data creation unit 15 receives a target program (hereinafter, referred to as “target video”) for detecting a desired scene which is an area including at least one of a company logo and a company name voice.
  • the detection data creation unit 15 extracts an acoustic signal from the input acoustic signal of the target video with a window length of 6 seconds and a window shift length of 1 second. Further, the detection data creation unit 15 extracts a still image from the video signal of the target video at the central time of the section of the extracted audio signal (time 3 seconds after the start of the extracted audio signal).
  • the detection data creation unit 15 outputs the extracted pair of the still image and the audio signal to the provided credit detection unit 16 as detection data.
  • a target program hereinafter, referred to as “target video”
  • the detection data creation unit 15 extracts an acoustic signal from the input acoustic signal of the target video with a window length of 6 seconds and a window shift length of 1 second. Further, the detection data creation unit 15 extract
  • the provided credit detection unit 16 detects the provided credit section in the target video using the detection data created by the detection data creation unit 15.
  • the provided credit detection unit 16 uses, as learning data, a still image including the provided credit display and a still image created without the provided credit display, which are created from a program whose display of the company logo (provided credit display) has been detected.
  • the provided credit section (section where the company logo is displayed) can be detected using the model created by using the model.
  • the provided credit detection unit 16 recognizes the related words and phrases included in the announcement of the provided credit (for example, “Watch”, “Program”, “Sponsor”, “Provide”, and “Send” by voice recognition of the sound of the target video. Etc.) is extracted, a predetermined period is estimated to be a provided credit section starting from the appearance time of the related phrase, and if the section estimated to be the provided credit section continues for a predetermined time or longer, the section is detected as the provided credit section. You can
  • the provided credit detector 16 outputs a pair of the still image and the audio signal in the detected provided credit section to the calculator 17.
  • the computing unit 17 substitutes the parameters accumulated in the parameter accumulating unit 12 into the model 140 described with reference to FIG. 2 to construct an association model between the company logo and the company name voice.
  • the calculation unit 17 inputs the pair of the still image and the audio signal in the provided credit section output from the provided credit detection unit 16 into the model for associating the company logo and the company name voice that has been constructed, so that the still image obtain the output I r of the encoder 141, c, output a t of d and an acoustic signal encoder 142, a d.
  • FIG. 4A is a diagram showing an example of a still image on which a company logo is displayed.
  • FIG. 4A shows an example in which the company logo “ABC” is displayed in white characters in the center of the screen so as to be superimposed on the background image.
  • FIG. 4B is a diagram in which the output I r,c,d of the still image encoder 141 to which the still image illustrated in FIG. 4A is input is visualized.
  • the area corresponding to the area where the company logo is displayed in the still image shown in FIG. 4A is indicated by a white line.
  • a substantially central area of the image visualizing the output I r,c,d of the still image encoder 141 is detected as a company logo, and this area is detected in the still image shown in FIG. 4A. It roughly matches the area where the company logo is displayed (the area indicated by the white dotted line). Therefore, it can be seen from the output I r,c,d of the still image encoder 141 that the area including the company logo (the position where the company logo is displayed) can be detected in the target video.
  • FIG. 4C is a diagram in which the output At , d of the audio signal encoder 142 to which the audio signal paired with the still image shown in FIG. 4A is input is visualized.
  • the timing at which the company name voice is output is shown by a broken line, and an example in which the company name voice is output approximately 0.5 to 1 second after the start of the acoustic signal is shown. ..
  • the output At ,d of the audio signal encoder 142 has a high peak at about 1 second after the start of the audio signal, which is the same as the timing at which the company name voice is output. It almost agrees. Therefore, from the output At ,d of the audio signal encoder 142, it can be seen that the region in which the company name voice is included in the target video (the section in which the company name voice is output) can be detected.
  • the arithmetic unit 17 the calculated I r, and outputs the c sim and A t sim the recognition unit 18.
  • Recognizing section 18 I r output from the computation unit 17 performs threshold processing for the c sim and A t sim, area including the company logo in a subject image (company logo appears position) and the target video A desired scene, which is a region including a company name voice (a section in which the company name voice is output), is detected.
  • the recognition unit 18 detects at least one of the company logo and the company name voice from the specified area by using an existing object recognizer, voice recognizer, or the like.
  • the detection unit 19 detects a still image including a predetermined character or figure acquired from the preliminary image and an acoustic signal that does not include a predetermined sound, or a still image that does not include the predetermined character or figure acquired from the preliminary image.
  • a desired scene which is an area including at least one of a predetermined character or graphic and a predetermined sound, is detected from the target video.
  • the detection unit 19 uses a still image including a predetermined character or graphic acquired from the pre-video and an audio signal not including the predetermined sound, or a predetermined character or graphic acquired from the pre-video.
  • a model (a model for associating a company logo with a company name voice) constructed using a still image that does not include a sound signal and an audio signal that includes a predetermined sound
  • a company logo (a predetermined model that can identify the sponsor can be determined from the target video). Character) or a company name voice (predetermined sound that can identify the sponsor), and a desired scene that is an area including at least one of the company name voice and the sponsor name.
  • the recognition unit 18 may detect a section in which a still image including a company logo continues for a predetermined number or more, or a company name voice continues for a predetermined time or more in the target video. By doing so, it is possible to more reliably detect the area including the company logo or the company name voice in the target video.
  • the recognition unit 18 may detect information about the start time and the end time of a section in which a still image including a company logo continues for a predetermined number or more, or a section in which a company name voice continues for a predetermined time or more.
  • the start time and end time can be detected, for example, by processing the detection data created by the detection data creation unit 15 in chronological order.
  • the learning data creation unit 13 includes a pair of a still image including a predetermined character or graphic and an acoustic signal that does not include a predetermined sound (company name voice), and a still image that does not include a predetermined character or a figure, from the preliminary video. A pair of an image and an acoustic signal containing a predetermined sound is created (step S101).
  • the detection unit 19 includes a still image created by the learning data creation unit 13 that includes a predetermined character or graphic and an acoustic signal that does not include a predetermined sound, or a predetermined character or graphic acquired from a pre-video.
  • a still image By associating a still image with an audio signal including a predetermined sound, a desired scene that is an area including at least one of a predetermined character or graphic and a predetermined sound is detected from the target video (step S102). ).
  • FIG. 6 shows that learning is performed using each of the above-described similarity S 1 (M), similarity S 2 (M), similarity S 3 (M), similarity S 4 (M), and similarity S 5 (M).
  • FIG. 10 is a diagram showing a detection result of a region including a company logo and a company name voice by an association model of the company logo and the company name voice to which the applied parameters are applied.
  • the vertical axis represents the precision (Precision), and the horizontal axis represents the recall (Recall).
  • the matching rate is a ratio of correctly provided credits among those detected as provided credits (company name logo and company name voice).
  • the recall rate is the ratio of actually provided credits to be detected.
  • the precision and recall of the company logo can be calculated by expressing Ir and csim in binary (0/1) by thresholding and comparing each pixel with the actual display area of the company logo. Furthermore, adaptation and recall regarding company name speech the A t sim represented in binary by thresholding, it may be computed by comparing the actual company name speech interval.
  • the detection device 10 uses the still image including the predetermined characters or figures acquired from the pre-video and the acoustic signal not including the predetermined sound, or the predetermined image acquired from the pre-video.
  • a still image that does not include characters or figures with an acoustic signal that includes a predetermined sound
  • a desired scene that is an area including at least one of a predetermined character or a figure and a predetermined sound can be created from the target video.
  • the detection part 19 which detects is provided.
  • the correspondence relationship (co-occurrence) between the display of the company logo and the announcement of the company name voice can be extracted, and the desired scene that is the region containing the company logo or the company name voice can be detected from the target video. ..
  • it is not necessary to create learning data according to various aspects of each provided credit it is possible to suppress an increase in cost.
  • the present invention can also be applied to the detection of the provided credit section.
  • the detection device 10 according to the present exemplary embodiment associates the still image relating to the credit and the acoustic signal relating to the credit, which are included in the frame other than the frame or the acoustic signal constituting the CM, from the prior video, thereby performing the target operation.
  • a detection unit 19 that detects a credit-related scene from a video may be provided.
  • the output I r of the still picture encoder 141, c, d and the output A t of the audio signal encoder 142, d is regarded as a latent variables common to the still picture and audio signals. Then, by using the outputs of the still image encoder 141 and the audio signal encoder 142 in the provided credit section and the outputs of the still image encoder 141 and the audio signal encoder 142 in the section other than the provided credit section, two classes of A discriminator (neural network, SVM (Support Vector Machine)) is learned.
  • the detection unit 19 can identify whether or not it is in the provided credit section by using this discriminator for the encoder output obtained from the new still image and the audio signal.
  • the still image and the audio signal forming a pair have been described by using an example in which the timing of displaying the still image is also included in the interval of the audio signal, but the present invention is not limited to this. It is not something that can be done.
  • the learning data creation unit 13 includes a pair of a still image including a predetermined character or a figure and an acoustic signal that does not include a predetermined sound, a still image that does not include a predetermined character or a figure, and a predetermined image from the preliminary video.
  • a pair with a sound signal including sound, which does not include a still image that forms a pair with the sound signal, may be created as learning data in the section of the sound signal. That is, the learning data creation unit 13 may create a pair of a still image and an audio signal that do not temporally overlap as learning data.
  • the detection unit 19 uses the model created by the learning data creation unit 13 and learned using a pair of a still image and an audio signal that do not overlap in time, and detects a predetermined character or An area including at least one of a figure and a predetermined sound is detected.
  • the learning data creation unit 13 creates a pair of a still image and an acoustic signal from these sections.
  • the learning data creation unit 13 includes, for example, a still image including a product, a pair of a still image that does not include the name of the product and does not temporally overlap with a still image that includes the product, and a still image that does not include the product.
  • a pair of a still image including the product name and not including the product and an acoustic signal that does not overlap in time is created.
  • these learning data do not include the provided credits themselves, the company name, that is, the provided credits can be detected if the product or the product name can be specified. Therefore, it is possible to detect a region including at least one of a predetermined character or graphic and a predetermined sound from the target video by using a pair of a still image and an audio signal that do not temporally overlap. ..
  • a computer can be used to function as the detection device 10.
  • Such a computer is realized by storing a program describing the processing content for realizing each function of the detection device 10 in a storage unit of the computer and reading and executing the program by the CPU of the computer. be able to.
  • the program may be recorded in a computer-readable recording medium.
  • the program can be installed in a computer by using such a recording medium.
  • the recording medium in which the program is recorded may be a non-transitory recording medium.
  • the non-transitory recording medium is not particularly limited, but may be a recording medium such as a CD-ROM or a DVD-ROM.
  • detection device 11 correct metadata storage unit 12 parameter storage unit 13 learning data creation unit 14 learning unit 15 detection data creation unit 16 provided credit detection unit 17 calculation unit 18 recognition unit 19 detection unit 140 model 141 still image encoder (still image Image feature extraction unit) 142 Acoustic Signal Encoder (Acoustic Signal Feature Extraction Unit) 141a, 141c, 141e, 141g, 141i, 141j, 142a, 142b, 142d, 142f, 142h Convolutional layer 141b, 141d, 141f, 141h, 141j, 142c, 142e, 142g, 142i Pooling layer 143 Coupling layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

多種多様な提供クレジットの態様毎に学習データを作成することなく、テレビ放送などの提供クレジットを含む映像から、提供クレジットに係る領域の抽出を可能とする。本発明に係る検出装置(10)は、事前映像から所定の文字または図形を含む静止画と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する検出部(19)、を備える。

Description

検出装置、検出方法およびプログラム
 本発明は、検出装置、検出方法およびプログラムに関する。
 テレビ放送などにより放送される番組には、番組のスポンサーの企業ロゴの表示、あるいは、番組のスポンサーの名称などのアナウンスにより番組のスポンサーを示す提供クレジットが含まれることがある。提供クレジットには、企業ロゴの表示位置、文字色、使用言語などに応じて種々の態様がある。
 近年、コマーシャルの効果の測定などのために、提供クレジットに含まれる企業ロゴあるいはスポンサーの名称などを称呼した音声(以下、「企業名音声」と称する)から、スポンサーを特定することが求められている。
 従来は、上述した提供クレジットの多様性のために、人手により企業ロゴおよび企業名音声を確認して書き起こすという作業が行われていた(非特許文献1参照)。このような人手による作業は、コストの増加を招いていた。
「CMメタデータ入力支援ツール」、[online]、[2019年1月30日検索]、インターネット<URL:http://www.jppanet.or.jp/documents/video.html>
 ロゴ認識技術、音声認識技術などを用いて、企業ロゴ(スポンサーを判別し得る所定の文字または図形)あるいは企業名音声(スポンサーを判別し得る所定の音)を自動的に検出することも考えられる。これらの認識技術を用いるためには、企業ロゴが表示された位置、企業名音声の区間などを検出する必要がある。企業ロゴが表示された位置、企業名音声の区間などを検出するためのモデルを構築することも考えられるが、このようなモデルを構築するために、多様な提供クレジットそれぞれの態様に応じた学習データを作成することは、コストの増加を招いてしまう。
 上記のような問題点に鑑みてなされた本発明の目的は、多種多様な提供クレジットの態様毎に学習データを作成することなく、テレビ放送などの提供クレジットを含む映像から、提供クレジットに係る領域の抽出を可能とする検出装置、検出方法およびプログラムを提供することにある。
 上記課題を解決するため、本発明に係る検出装置は、対象映像から所望のシーンを検出する検出装置であって、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出する検出部、を備える。
 また、上記課題を解決するため、本発明に係る検出装置は、対象映像からCMに含まれる提供クレジットに係るシーンを検出する検出装置であって、事前映像から、CMを構成するフレーム若しくは音響信号以外に含まれる、提供クレジットに係る静止画と、提供クレジットに係る音響信号と、を関連付けることで、前記対象映像から前記提供クレジットに係るシーンを検出する検出部、を備える。
 また、上記課題を解決するため、本発明に係る検出方法は、対象映像から所望のシーンを検出する検出装置において実行される検出方法であって、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出するステップと、を含む。
 また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の検出装置として機能させる。
 本発明に係る検出装置、検出方法およびプログラムによれば、多種多様な提供クレジットの態様毎に学習データを作成することなく、テレビ放送などの提供クレジットを含む映像から、提供クレジットに係る領域の抽出を可能とする。
本発明の一実施形態に係る検出装置の構成例を示す図である。 図1に示す学習データ作成部による学習データの作成について説明するための図である。 図1に示す学習部が学習に用いるモデルについて説明するための図である。 企業ロゴを含む静止画の一例を示す図である。 図4Aに示す静止画を入力した静止画用エンコーダの出力を可視化した図である。 図4Aに示す静止画とペアの音響信号を入力した音響信号用エンコーダの出力を可視化した図である。 図1に示す検出装置において実行される検出方法について説明するためのフローチャートである。 図1に示す検出装置の検出精度の評価結果の一例を示す図である。
 以下、本発明を実施するための形態について、図面を参照しながら説明する。
 図1は、本発明の一実施形態に係る検出装置10の構成例を示す図である。本実施形態に係る検出装置10は、対象映像から所望のシーンを検出するものである。
 図1に示す検出装置10は、正解メタデータ蓄積部11と、パラメータ蓄積部12と、学習データ作成部13と、学習部14と、検出用データ作成部15と、提供クレジット検出部16と、演算部17と、認識部18とを備える。演算部17および認識部18は、検出部19を構成する。
 正解メタデータ蓄積部11は、番組において、その番組のスポンサーを示す提供クレジットの提示が行われた区間(以下、「提供クレジット区間」と称する。)の時刻データを蓄積する。番組は、例えば、放送された番組あるいはインターネット配信された番組などである。これらの番組における提供クレジットが、例えば、作業者により目視により確認され、提供クレジット区間の開始時刻および終了時刻などの時刻データが、正解メタデータ蓄積部11に蓄積される。提供クレジット区間には、企業ロゴ(スポンサーを判別し得る所定の文字または図形)の表示と企業名音声(スポンサーを判別し得る所定の音)の出力とが行われた区間だけでなく、企業ロゴの表示だけが行われた区間、および、企業名音声の出力だけが行われた区間も含まれる。以下では、提供クレジット区間が検出済みの映像を事前映像と称する。
 パラメータ蓄積部12は、後述する、企業ロゴと企業名音声との関連付けモデルに適用するパラメータを蓄積する。企業ロゴと企業名音声との関連付けモデルは、例えば、畳み込みニューラルネットワークを用いたモデルである。詳細な説明は省略するが、畳み込みニューラルネットワークは、一般に、入力側から、畳み込み層とプーリング層とがこの順に、複数回繰り返して配置され、その後、全結合層が配置された構成を有する。畳み込みニューラルネットワークへの入力を画像とすると、畳み込み層では、入力画像に対して畳み込みフィルタを適用する処理が行われる。プーリング層では、畳み込み層の出力に対して、矩形フィルタを順次ずらしていきながら適用し、矩形フィルタ内の最大の値を取り出すなどして新しい画像を生成する処理が行われる。全結合層では、畳み込み層およびプーリング層により特徴部分が取り出された画像データを1つのノードに結合し、活性化関数によって変換された値を出力する処理が行われる。パラメータ蓄積部12は、例えば、企業ロゴと企業名音声との関連付けモデルが畳み込みニューラルネットワークを用いたモデルである場合、各層で適用するフィルタのフィルタ重み、および、畳み込み層の出力に加算するバイアスパラメータなどを蓄積する。
 学習データ作成部13は、事前映像が入力され、入力された事前映像から上述した企業ロゴと企業名音声との関連付けモデルに適用するパラメータを学習するための学習データを作成する。学習データ作成部13による学習データの作成について、図2を参照して説明する。
 図2に示すように、事前映像には、番組区間と提供クレジット区間とが含まれる。学習データ作成部13は、正解メタデータ蓄積部11に蓄積されている時刻データに基づき、提供クレジット区間を特定する。次に、学習データ作成部13は、事前映像の映像信号から提供クレジット区間における静止画を所定の時間間隔(例えば、1秒間隔)で抽出する。学習データ作成部13は、事前映像の音響信号から、抽出した静止画を中心とした所定時間(例えば、前後に3秒間で合計6秒間)の音響信号を抽出する。学習データ作成部13は、抽出した静止画と音響信号とのペアを学習データとして作成する。
 上述したように、提供クレジット区間には、企業ロゴの表示と企業名音声の出力とが行われた区間だけでなく、企業ロゴの表示だけが行われた区間、および、企業名音声の出力だけが行われた区間も含まれる。したがって、学習データ作成部13は、企業ロゴ(スポンサーを判別し得る所定の文字または図形)および企業名音声(スポンサーを判別し得る所定の音)を検出済みの事前映像から、企業ロゴを含む静止画と、企業名音声を含まない音響信号とのペアと、企業ロゴを含まない静止画と、企業名音声を含む音響信号とのペアとを少なくとも作成する。また、学習データ作成部13は、企業ロゴを含む静止画と、企業名音声を含む音響信号とのペアを作成してもよい。
 企業ロゴを含む静止画と、企業名音声を含まない音響信号(提供クレジットの提示が行われていない区間の音響信号)とのペア、および、企業名ロゴを含まない静止画(提供クレジットの提示が行われていない区間の静止画)と、企業名音声を含む音響信号とのペアを用いることで、これらのペアを構成する静止画と音響信号とに潜在的に共通する特徴を抽出することができる。
 なお、図2においては、提供クレジット区間における静止画を1秒間隔で抽出する例を用いて説明したが、これに限られるものではなく、任意の時間間隔で静止画を抽出してよい。また、図2においては、抽出した静止画を中心として6秒間の音響信号を抽出する例を用いて説明した。提供クレジットにおいては、例えば、「この番組は、ご覧のスポンサーでお送りしました。」といった定型的なアナウンスが行われることが多い。音響信号を抽出する時間長は、例えば、このような提供クレジットに関するアナウンスの時間に応じて決定すればよい。
 図1を再び参照すると、学習データ作成部13は、作成した学習データを学習部14に出力する。
 学習部14は、学習データ作成部13により作成された学習データ(静止画と音響信号とのペア)を用いて、企業ロゴと企業名音声との関連付けモデルに適用するパラメータを学習する。具体的には、学習部14は、畳み込みニューラルネットワークを利用して静止画から静止画特徴量として特徴ベクトルを抽出する静止画用エンコーダ(静止画特徴量抽出部)と、畳み込みニューラルネットワークを利用して音響信号から音響特徴量として特徴ベクトルを抽出する音響信号用エンコーダ(音響信号特徴量抽出部)とを含むモデルを用いて学習を行う。
 図3は、学習部14が学習に用いるモデル140の構成例を示す図である。
 図3に示すモデル140は、静止画用エンコーダ141と、音響信号用エンコーダ142とを含む。
 静止画用エンコーダ141は、畳み込み層141aと、畳み込み層141aの後段に設けられたプーリング層141bと、プーリング層141bの後段に設けられた畳み込み層141cと、畳み込み層141cの後段に設けられたプーリング層141dと、プーリング層141dの後段に設けられた畳み込み層141eと、畳み込み層141eの後段に設けられたプーリング層141fと、プーリング層141fの後段に設けられた畳み込み層141gと、畳み込み層141gの後段に設けられたプーリング層141hと、プーリング層141hの後段に設けられた畳み込み層141iと、畳み込み層141iの後段に設けられた畳み込み層141jとを含む。
 図3においては、学習データとして抽出された静止画の行方向のピクセル数および列方向のピクセル数が224であるとする。学習データとして抽出された静止画は、RGBの3色で構成されるとすると、畳み込み層141aには、224×224のサイズの画像が3チャネルで入力される。
 畳み込み層141aは、入力された静止画の所定領域ごとに、複数のフィルタそれぞれにより畳み込み処理を行い、特徴量を抽出する。畳み込み層141aは、フィルタをスライドさせながら畳み込み処理により抽出した特徴量を、対応する位置にマッピングした画像(特徴マップ)を生成して、後段のプーリング層141bに出力する。例えば、64個のフィルタにより畳み込み処理を行ったとすると、畳み込み層141aは、224×224ピクセルの特徴マップを64個生成して出力する。この場合、畳み込み層141aの出力は、224×224×64と表すことができる。畳み込み層141aにより抽出された特徴量は特徴ベクトルとして表され、上述した例では、特徴ベクトルの次元数は64である。
 プーリング層141bは、前段の畳み込み層141aから出力された画像に対して、所定サイズ毎(例えば、2×2ピクセル毎)に、その領域内の最大値あるいは平均値をとるなどして特徴マップを圧縮して、後段の畳み込み層141cに出力する。プーリング層141bの出力は、例えば、112×112×128で表される。以下、畳み込み層141c,141e,141g,141i,141jおよびプーリング層141d,141f,141hでは同様の処理が行われる。なお、各層を示すブロック内には、各層の出力の具体例を示しているが、本発明はこれに限られるものではない。
 静止画用エンコーダ141は、最後段の畳み込み層141jの出力画像(特徴ベクトル集合)を出力する。以下では、静止画用エンコーダ141は、N×N×Nで表される特徴ベクトル集合を出力するものとする。N,Nはそれぞれ静止画用エンコーダ141の出力画像の行方向、列方向のピクセル数であり、Nは特徴ベクトルの次元数である。
 音響信号用エンコーダ142は、畳み込み層142aと、畳み込み層142aの後段に設けられた畳み込み層142bと、畳み込み層142bの後段に設けられたプーリング層142cと、プーリング層142cの後段に設けられた畳み込み層142dと、畳み込み層142dの後段に設けられたプーリング層142eと、プーリング層142eの後段に設けられた畳み込み層142fと、畳み込み層142fの後段に設けられたプーリング層gと、プーリング層142gの後段に設けられた畳み込み層142hと、畳み込み層142の後段に設けられたプーリング層142iとを含む。
 学習部14は、ペアを構成する音響信号に対する周波数分析(例えば、窓長25ms、窓シフト長10ms)を行い、40個のフィルタによりメルフィルタバンク処理を施す。こうすることで、音響信号は、600×40のメルスペクトログラムで表される。
 畳み込み層142aは、入力されたメルスペクトログラムに対して、所定区間ごとに複数のフィルタそれぞれにより畳み込み処理を行い、特徴量を抽出する。畳み込み層141aは、フィルタをスライドさせながら畳み込み処理により抽出した特徴量を、対応する位置にマッピングした特徴マップを生成して、後段の畳み込み層142bに出力する。例えば、畳み込み層142が128個のフィルタにより畳み込み処理を行った場合、畳み込み層142の出力は、600×128と表すことができる。畳み込み層142aにより抽出された特徴量は特徴ベクトルとして表され、上述した例では、特徴ベクトルの次元数は128である。
 畳み込み層142bは、畳み込み層142と同様の処理により、畳み込み層142aから出力されたメルスペクトログラム(音響信号)の特徴量を抽出し、プーリング層142cに出力する。
 プーリング層142cは、畳み込み層142bから出力されたメルスペクトログラムを圧縮して、後段の畳み込み層142dに出力する。プーリング層142cの出力は、例えば、300×256で表される。以下、畳み込み層142d,142f,142hおよびプーリング層142e,142g,141iでは同様の処理が行われる。なお、各層を示すブロック内には、各層の出力の具体例を示しているが、本発明はこれに限られるものではない。
 音響信号用エンコーダ142は、最後段のプーリング層141iから出力されたメルスペクトログラム(特徴ベクトル集合)を出力する。以下では、音響信号用エンコーダ142は、N×Nで表される特徴ベクトル集合を出力するものとする。ここで、Nは音響信号用エンコーダ142の出力音響信号(メルスペクトログラムに対応する音響信号)の長さであり、Nは特徴ベクトルの次元数である。
 モデル140は、結合層143をさらに含む。結合層143は、静止画用エンコーダの出力と音響信号用エンコーダの出力との内積を出力する。
 学習部14は、ミニバッチサイズをBとすると、学習データとして作成された静止画と音響信号とのペアを用いて、以下の式(1)の値が最小となるように確率的勾配法を用いて、静止画用エンコーダ141および音響信号用エンコーダ142(畳み込みニューラルネットワーク)のパラメータを学習する。なお、ミニバッチサイズBは、パラメータの更新に使用するデータ(静止画と音響信号とのペア)の個数である。
Figure JPOXMLDOC01-appb-M000002
 式(1)において、I,Aはそれぞれ、j番目の静止画と音響信号とのペアに対する静止画用エンコーダ141および音響信号用エンコーダ142の出力であり、I imp,A impはそれぞれ、ミニバッチ(パラメータの更新に使用するデータ)の中から、j番目にランダムに選択された静止画と音響信号とのペアに対する静止画用エンコーダ141および音響信号用エンコーダ142の出力であり、S(I,A)は、静止画用エンコーダ141の出力Iと、音響信号用エンコーダ142の出力Aとの類似度である。式(1)においては、ペアを構成する静止画と音響信号とに基づき算出される類似度が、ペアを構成しない静止画と音響信号とに基づき算出される類似度(静止画用エンコーダ141の出力若しくは音響信号用エンコーダ142の出力のいずれか一方を他の値に置き換えて算出される類似度)よりも大きくなるという基準を満たすために、max関数が用いられている。
 類似度S(I,A)の算出方法としては、例えば、以下の5つの算出方法がある。以下では、1つ目の算出方法により算出される類似度をS(M)とし、2つ目の算出方法により算出される類似度をS(M)とし、3つ目の算出方法により算出される類似度をS(M)とし、4つ目の算出方法により算出される類似度をS(M)とし、5つ目の算出方法により算出される類似度をS(M)とする。類似度S(M)、類似度S(M)、類似度S(M)、類似度S(M)および類似度S(M)はそれぞれ、以下の式(2)~式(7)に基づき算出される。
Figure JPOXMLDOC01-appb-M000003
 ここで、Ir,c,dは静止画用エンコーダ141の出力要素であり、At,dは音響信号用エンコーダ142の出力要素である。また、pは学習により設定されるパラメータである。
 学習部14は、類似度S(M)、類似度S(M)、類似度S(M)、類似度S(M)および類似度S(M)のいずれかを算出し、式(1)の値が最小となる静止画用エンコーダ141および音響信号用エンコーダ142のパラメータを学習する。なお、学習部14は、静止画用エンコーダ141の出力および音響信号用エンコーダ142の出力のいずれか一方を優先するようにパラメータに重み付けをしてもよい。すなわち、類似度は、静止画用エンコーダ141により抽出される静止画特徴量と、音響信号用エンコーダ142により抽出される音響特徴量とのいずれか一方を優先するように重み付けされてもよい。このような重み付けは、例えば、上述した類似度S(I,A)の算出に用いる式(例えば、式(3)~式(7))の選択により可能である。ここで、式(7)は、上述したパラメータpの学習も可能とする。パラメータpの値に応じて、静止画用エンコーダ141の出力および音響信号用エンコーダ142の出力のいずれを重視するかを決定することができる。式(3)~式(6)においては、パラメータpの値が固定である(例えば、式(3)はp=1の場合に相当し、式(6)はp=∞に相当する)。したがって、式(3)~式(6)においては、静止画用エンコーダ141の出力および音響信号用エンコーダ142の出力のいずれかを重視する、若しくは、均等に評価している。してがって、式(7)を用いることで、学習データの学習の状態に応じて、静止画用エンコーダ141の出力および音響信号用エンコーダ142の出力のいずれを重視するかを最適化することができる。
 図1を再び参照すると、学習部14は、得られたパラメータをパラメータ蓄積部12に蓄積する。
 これまでは、学習部14は、ペアを構成する静止画と音響信号とに基づき算出される類似度が、ペアを構成しない静止画と音響信号とに基づき算出される類似度よりも大きくなるという基準を満たすように、パラメータを学習する例を用いて説明したが、本発明はこれに限られるものではない。学習部14は、類似度に代えて何らかの評価値(何らかの尤度が得ら得る値)を用いてもよい。静止画用エンコーダ141および音響信号用エンコーダ142は、事前映像から取得された所定の文字または図形を含む静止画から抽出された静止画特徴量と、所定の音を含まない音響信号から抽出された音響特徴量とから得られる評価値、若しくは、事前映像から取得された所定の文字または図形を含まない静止画から抽出された静止画特徴量と、所定の音を含む音響信号から得られた音響特徴量との評価値が高くなるように設計される。より具体的には、静止画用エンコーダ141および音響信号用エンコーダ142は、これらの評価値が、ペアを構成しない静止画および音響信号から抽出された静止画特徴量と音響特徴量との評価値よりも高くなるように設計される。
 なお、本実施形態においては、機械学習を用いて提供クレジットに係る静止画と音響信号との共起関係を推定しているが、これに限られるものではない。例えば、上述した学習データ作成部13で作成した学習データ群の統計的な性質を利用してヒューリスティックに提供クレジットに係る静止画と音響信号との共起関係を推定してもよい。また、静止画用エンコーダ141および音響信号用エンコーダ142は、機械学習ではなく、入力データを低次元化する線形関数などを用いてもよい。
 検出用データ作成部15は、企業ロゴおよび企業名音声の少なくとも一方を含む領域である所望のシーンを検出する対象の番組(以下、「対象映像」と称する)が入力される。検出用データ作成部15は、入力された対象映像の音響信号から、窓長6秒、窓シフト長1秒で音響信号を抽出する。また、検出用データ作成部15は、対象映像の映像信号から、抽出した音響信号の区間の中心時刻(抽出した音響信号の開始から3秒後の時刻)における静止画を抽出する。検出用データ作成部15は、抽出した静止画と音響信号とのペアを検出用データとして提供クレジット検出部16に出力する。なお、本実施形態においては、静止画と音響信号とのペアを検出用データとして用いる例を説明しているが、本発明はこれに限られるものではない。対象映像の静止画および音響信号のいずれか一方のみを検出用データとして用いてもよい。
 提供クレジット検出部16は、検出用データ作成部15により作成された検出用データを用いて、対象映像における提供クレジット区間を検出する。
 提供クレジット検出部16は、例えば、企業ロゴの表示(提供クレジット表示)が検出済みの番組から作成された、提供クレジット表示を含む静止画と、提供クレジット表示を含まない静止画とを学習データとして用いて作成されたモデルを用いて、提供クレジット区間(企業ロゴが表示された区間)を検出することができる。
 また、提供クレジット検出部16は、対象映像の音声に対する音声認識により、提供クレジットのアナウンスに含まれる関連語句(例えば、「ご覧の」、「番組」、「スポンサー」、「提供」、「お送り」など)を抽出し、その関連語句の出現時刻を起点として所定期間を提供クレジット区間と推定し、提供クレジット区間と推定した区間が所定時間以上継続する場合、その区間を提供クレジット区間として検出することができる。
 提供クレジット検出部16は、検出した提供クレジット区間における静止画と音響信号とのペアを演算部17に出力する。
 演算部17は、パラメータ蓄積部12に蓄積されているパラメータを、図2を参照して説明したモデル140に代入して、企業ロゴと企業名音声との関連付けモデルを構築する。演算部17は、構築した企業ロゴと企業名音声との関連付けモデルに、提供クレジット検出部16から出力された、提供クレジット区間における静止画と音響信号とのペアを入力することで、静止画用エンコーダ141の出力Ir,c,dおよび音響信号用エンコーダ142の出力At,dを得る。
 演算部17は、得られた静止画用エンコーダ141の出力Ir,c,dおよび音響信号用エンコーダ142の出力At,dを、以下の式(8)~式(10)に代入し、値を算出する。
Figure JPOXMLDOC01-appb-M000004
 図4Aは、企業ロゴが表示された静止画の一例を示す図である。図4Aにおいては、背景の像に重畳して、画面の中央に企業ロゴ「ABC」が白抜き文字で表示された例を示している。
 図4Bは、図4Aに示す静止画を入力した静止画用エンコーダ141の出力Ir,c,dを可視化した図である。図4Bにおいては、図4Aに示す静止画において企業ロゴが表示された領域に対応する領域を白線で示している。図4Bに示すように、静止画用エンコーダ141の出力Ir,c,dを可視化した画像のうち概ね中央の領域が企業ロゴとして検出されており、この領域は、図4Aに示す静止画において企業ロゴが表示された領域(白点線で示す領域)と概ね一致している。したがって、静止画用エンコーダ141の出力Ir,c,dから、対象映像において企業ロゴが含まれる領域(企業ロゴが表示された位置)を検出可能であることが分かる。
 図4Cは、図4Aに示す静止画とペアの音響信号を入力した音響信号用エンコーダ142の出力At,dを可視化した図である。図4Cにおいては、企業名音声が出力されたタイミングを破線で示しており、音響信号の開始後、約0.5秒から1秒の間で、企業名音声が出力された例を示している。図4Cに示すように、音響信号用エンコーダ142の出力At,dは、音響信号の開始後、約1秒前後で高いピークを示しており、これは、企業名音声が出力されたタイミングと概ね一致している。したがって、音響信号用エンコーダ142の出力At,dから、対象映像において企業名音声が含まれる領域(企業名音声が出力された区間)を検出可能であることが分かる。
 図1を再び参照すると、演算部17は、算出したIr、c simおよびA simを認識部18に出力する。
 認識部18は、演算部17から出力されたIr、c simおよびA simに対して閾値処理を行い、対象映像において企業ロゴを含む領域(企業ロゴが表示された位置)および対象映像において企業名音声を含む領域(企業名音声が出力された区間)である所望のシーンを検出する。認識部18は、既存の物体認識器および音声認識器などを利用して、特定した領域から企業ロゴおよび企業名音声の少なくとも一方を検出する。
 上述したように、演算部17および認識部18は、検出部19を構成する。したがって、検出部19は、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する。より具体的には、検出部19は、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号とを用いて構築されたモデル(企業ロゴと企業名音声との関連付けモデル)を用いて、対象映像から、企業ロゴ(スポンサーを判別し得る所定の文字または図形)、および、企業名音声(スポンサーを判別し得る所定の音)の少なくとも一方を含む領域である所望のシーンを検出する。
 なお、認識部18は、対象映像において、企業ロゴを含む静止画が所定数以上連続する区間、または、企業名音声が所定時間以上連続する区間を検出してもよい。こうすることで、より確実に、対象映像において企業ロゴあるいは企業名音声を含む領域を検出することができる。
 また、認識部18は、企業ロゴを含む静止画が所定数以上連続する区間、または、企業名音声が所定時間以上連続する区間の開始時間および終了時間に関する情報を検出してもよい。開始時間および終了時間は、例えば、検出用データ作成部15により作成された検出用データを時系列順に処理することで検出することができる。
 次に、本実施形態に係る検出装置10において実行される検出方法について、図5に示すフローチャートを参照して説明する。
 学習データ作成部13は、事前映像から、所定の文字または図形を含む静止画と、所定の音(企業名音声)を含まない音響信号とのペアと、所定の文字または図件を含まない静止画と、所定の音を含む音響信号とのペアを作成する(ステップS101)。
 検出部19は、学習データ作成部13により作成された、所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する(ステップS102)。
 図6は、上述した類似度S(M)、類似度S(M)、類似度S(M)、類似度S(M)および類似度S(M)それぞれを用いて学習されたパラメータを適用した企業ロゴと企業名音声との関連付けモデルによる企業ロゴおよび企業名音声を含む領域の検出結果を示す図である。図6においては、縦軸に適合率(Precision)を示し、横軸に再現率(Recall)を示している。適合率とは、提供クレジット(企業名ロゴおよび企業名音声)として検出されたもののうち、正しく検出された提供クレジットの割合である。また、再現率とは、検出されるべき提供クレジットのうち、実際に検出された提供クレジットの割合である。企業ロゴに関する適合率および再現率は、Ir、c simを閾値処理によりバイナリ(0/1)で表現し、実際の企業ロゴの表示領域とピクセルごとに比較することで計算することができる。また、企業名音声に関する適合率および再現率は、A simを閾値処理によりバイナリで表現し、実際の企業名音声の区間と比較することで計算することができる。
 図6に示すように、音響信号(Audio)については、それぞれの類似度S(M)において、概ね同程度の精度が得られた。また、画像(Image)については、類似度S(M)を用いた場合に、特に高い精度が得られた。
 このように本実施形態においては、検出装置10は、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する検出部19を備える。
 所定の文字または図形(企業ロゴ)を含む静止画と所定の音(企業名音声)を含まない音響信号と、若しくは、所定の文字または図形を含まない静止画と所定の音を含む音響信号とを関連付けることで、企業ロゴの表示と企業名音声のアナウンスとの対応関係(共起)を抽出し、対象映像から企業ロゴあるいは企業名音声を含む領域である所望のシーンを検出することができる。また、多様な提供クレジットそれぞれの態様に応じた学習データを作成する必要が無いので、コストの増大を抑制することができる。
 なお、本発明は、提供クレジット区間の検出に応用することも可能である。この場合、本実施形態に係る検出装置10は、事前映像から、CMを構成するフレーム若しくは音響信号以外に含まれる、クレジットに係る静止画と、クレジットに係る音響信号と、を関連付けることで、対象映像からクレジットに係るシーンを検出する検出部19を備えてもよい。
 より具体的には、静止画用エンコーダ141の出力Ir,c,dおよび音響信号用エンコーダ142の出力At,dは静止画と音響信号とに共通する潜在変数であるとみなす。そして、提供クレジット区間における静止画用エンコーダ141および音響信号用エンコーダ142の出力と、提供クレジット区間以外の区間における静止画用エンコーダ141および音響信号用エンコーダ142の出力とを利用して、2クラスの識別器(ニューラルネットワーク、SVM(Support Vector Machine))を学習する。検出部19は、新規の静止画と音響信号とから得られるエンコーダ出力に対して、この識別器を用いることで、提供クレジット区間であるか否かを識別することができる。実験結果では、再現率97.7%、適合率68.0%の精度が確認され、静止画あるいは音響信号単独で得られる特徴を利用した識別器と比較して、適合率が改善された(誤検出が抑制された)。
 なお、上述した実施形態においては、ペアとなる静止画と音響信号とに関し、音響信号の区間にその静止画が表示されるタイミングも含まれる例を用いて説明したが、本発明はこれに限られるものではない。
 学習データ作成部13は、事前映像から、所定の文字または図形を含む静止画と、所定の音を含まない音響信号とのペア、および、所定の文字または図形を含まない静止画と、所定の音を含む音響信号とのペアとであって、音響信号の区間に、その音響信号とペアとなる静止画が含まれないペアを、学習データとして作成してもよい。すなわち、学習データ作成部13は、時間的に重複しない静止画と音響信号とのペアを学習データとして作成してもよい。この場合、検出部19は、学習データ作成部13により作成された、時間的に重複しない静止画と音響信号とのペアを用いて学習されたモデルを用いて、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域を検出する。
 番組において、提供クレジット区間以外の、コマーシャル区間あるい番組内で商品紹介が行われる区間において、「商品」と「商品の呼び名」とが番組の映像・音声に出現することがある。学習データ作成部13は、これらの区間から静止画と音響信号とのペアを作成する。学習データ作成部13は、例えば、商品を含む静止画と、その商品の呼び名を含まず、商品を含む静止画と時間的に重複しない音響信号とのペアと、商品を含まない静止画と、その商品の呼び名を含み、商品を含まない静止画と時間的に重複しない音響信号とのペアを作成する。これらの学習データは、提供クレジット自体を含むものではないが、商品あるいは商品の呼び名を特定することができれば、企業名、すなわち、提供クレジットを検出することも可能である。したがって、時間的に重複しない静止画と音響信号とのペアを用いることによっても、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域を検出することが可能である。
 以上、検出装置10について説明したが、検出装置10として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、検出装置10の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
 また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。
 上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
 10  検出装置
 11  正解メタデータ蓄積部
 12  パラメータ蓄積部
 13  学習データ作成部
 14  学習部
 15  検出用データ作成部
 16  提供クレジット検出部
 17  演算部
 18  認識部
 19  検出部
 140  モデル
 141  静止画用エンコーダ(静止画特徴量抽出部)
 142  音響信号用エンコーダ(音響信号特徴量抽出部)
 141a,141c,141e,141g,141i,141j,142a,142b,142d,142f,142h  畳み込み層
 141b,141d,141f,141h,141j,142c,142e,142g,142i  プーリング層
 143  結合層

Claims (10)

  1.  対象映像から所望のシーンを検出する検出装置であって、
     事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出する検出部、を備える検出装置。
  2.  請求項1に記載の検出装置において、
     前記検出部は、前記対象映像において、前記所定の文字または図形を含む静止画が所定数以上連続する区間、または、前記所定の音が所定時間以上連続する区間を検出する、検出装置。
  3.  請求項2に記載の検出装置において、
     前記検出部は、前記区間の開始時間および終了時間に関する情報を検出する、検出装置。
  4.  請求項1から3のいずれか一項に記載の検出装置において、
     前記所定の文字または図形は、番組のスポンサーを判別し得る文字または図形であり、
     前記所定の音は、前記スポンサーを判別し得る音であり、
     前記検出部は、前記対象映像を構成する静止画において前記所定の文字または図形を含む静止画、および、前記対象映像において前記所定の音が出力される区間の少なくとも一方を、前記領域として検出する、検出装置。
  5.  請求項1から4のいずれか一項に記載の検出装置において、
     前記検出部は、
     前記静止画から静止画特徴量を抽出する静止画特徴量抽出部と、
     前記音響信号から音響特徴量を抽出する音響信号特徴量抽出部と、を含み、
     前記静止画特徴量抽出部および前記音響信号特徴量抽出部は、
     前記事前映像から取得された前記所定の文字または図形を含む静止画から抽出された静止画特徴量と、前記所定の音を含まない音響信号から抽出された音響特徴量とから得られる評価値、若しくは、前記事前映像から取得された前記所定の文字または図形を含まない静止画から抽出された静止画特徴量と、前記所定の音を含む音響信号から得られた音響特徴量との評価値が高くなるように設計されている、検出装置。
  6.  請求項5に記載の検出装置において、
     前記評価値は、前記静止画特徴量と前記音響特徴量の類似度であり、
     前記類似度は、以下の式(1)に基づき算出される、検出装置。
    Figure JPOXMLDOC01-appb-M000001
  7.  請求項6に記載の検出装置において、
     前記類似度は、前記静止画特徴量と前記音響特徴量とのいずれか一方を優先するように重み付けされる、検出装置。
  8.  対象映像からCMに含まれる提供クレジットに係るシーンを検出する検出装置であって、
     事前映像から、CMを構成するフレーム若しくは音響信号以外に含まれる、提供クレジットに係る静止画と、提供クレジットに係る音響信号と、を関連付けることで、前記対象映像から前記提供クレジットに係るシーンを検出する検出部、を備える検出装置。
  9.  対象映像から所望のシーンを検出する検出装置において実行される検出方法であって、
     事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出するステップ、を含む検出方法。
  10.  コンピュータを、請求項1から8のいずれか一項に記載の検出装置として機能させるプログラム。
     
     
PCT/JP2020/003670 2019-02-13 2020-01-31 検出装置、検出方法およびプログラム WO2020166382A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/310,456 US11728914B2 (en) 2019-02-13 2020-01-31 Detection device, detection method, and program
US18/182,360 US20230216598A1 (en) 2019-02-13 2023-03-13 Detection device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-023615 2019-02-13
JP2019023615A JP7208499B2 (ja) 2019-02-13 2019-02-13 検出装置、検出方法およびプログラム

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/310,456 A-371-Of-International US11728914B2 (en) 2019-02-13 2020-01-31 Detection device, detection method, and program
US18/182,360 Division US20230216598A1 (en) 2019-02-13 2023-03-13 Detection device

Publications (1)

Publication Number Publication Date
WO2020166382A1 true WO2020166382A1 (ja) 2020-08-20

Family

ID=72045283

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003670 WO2020166382A1 (ja) 2019-02-13 2020-01-31 検出装置、検出方法およびプログラム

Country Status (3)

Country Link
US (2) US11728914B2 (ja)
JP (1) JP7208499B2 (ja)
WO (1) WO2020166382A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7011170B2 (ja) * 2018-06-05 2022-01-26 日本電信電話株式会社 提供クレジット表示検出装置、提供クレジット表示検出方法及びプログラム
CN114820483A (zh) * 2022-04-14 2022-07-29 北京联影智能影像技术研究院 图像检测方法、装置及计算机设备
CN115214505B (zh) * 2022-06-29 2024-04-26 重庆长安汽车股份有限公司 车辆座舱音效的控制方法、装置、车辆及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008050718A1 (fr) * 2006-10-26 2008-05-02 Nec Corporation Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme
WO2010058509A1 (ja) * 2008-11-21 2010-05-27 日本電気株式会社 情報処理装置
JP2014022837A (ja) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> 学習装置、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1423825B1 (en) * 2001-08-02 2011-01-26 Intellocity USA, Inc. Post production visual alterations
JP2008108166A (ja) 2006-10-27 2008-05-08 Matsushita Electric Ind Co Ltd 楽曲選択装置、楽曲選択方法
US8805689B2 (en) * 2008-04-11 2014-08-12 The Nielsen Company (Us), Llc Methods and apparatus to generate and use content-aware watermarks
US20160073148A1 (en) * 2014-09-09 2016-03-10 Verance Corporation Media customization based on environmental sensing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008050718A1 (fr) * 2006-10-26 2008-05-02 Nec Corporation Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme
WO2010058509A1 (ja) * 2008-11-21 2010-05-27 日本電気株式会社 情報処理装置
JP2014022837A (ja) * 2012-07-13 2014-02-03 Nippon Hoso Kyokai <Nhk> 学習装置、及びプログラム

Also Published As

Publication number Publication date
US20230216598A1 (en) 2023-07-06
JP2020135029A (ja) 2020-08-31
US11728914B2 (en) 2023-08-15
US20220109517A1 (en) 2022-04-07
JP7208499B2 (ja) 2023-01-19

Similar Documents

Publication Publication Date Title
WO2020166382A1 (ja) 検出装置、検出方法およびプログラム
US10368123B2 (en) Information pushing method, terminal and server
CN108322788B (zh) 一种视频直播中的广告展示方法及装置
US9418296B1 (en) Detecting segments of a video program
CN108419141B (zh) 一种字幕位置调整的方法、装置、存储介质及电子设备
US20230103340A1 (en) Information generating method and apparatus, device, storage medium, and program product
CN111464833B (zh) 目标图像生成方法、目标图像生成装置、介质及电子设备
CN109218629B (zh) 视频生成方法、存储介质和装置
CN111556332B (zh) 直播方法、电子设备和可读存储介质
JP2016517641A (ja) ビデオの画像サマリー
WO2019062631A1 (zh) 一种局部动态影像生成方法及装置
CN103984778A (zh) 一种视频检索方法及系统
WO2021135286A1 (zh) 视频的处理方法、视频的搜索方法、终端设备及计算机可读存储介质
JP6917210B2 (ja) 要約映像生成装置およびそのプログラム
JP2018005011A (ja) プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
US20210192385A1 (en) Automated machine learning tagging and optimization of review procedures
CN116108176A (zh) 基于多模态深度学习的文本分类方法、设备及存储介质
US11727446B2 (en) Device and method for detecting display of provided credit, and program
CN113722513B (zh) 多媒体数据的处理方法及设备
JP6345155B2 (ja) 映像監視システム及びプログラム
CN115379259B (zh) 视频处理方法、装置、电子设备和存储介质
CN115880737B (zh) 一种基于降噪自学习的字幕生成方法、系统、设备及介质
CN115119050B (zh) 一种视频剪辑方法和装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20755038

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20755038

Country of ref document: EP

Kind code of ref document: A1