WO2010087127A1 - 映像識別子生成装置 - Google Patents

映像識別子生成装置 Download PDF

Info

Publication number
WO2010087127A1
WO2010087127A1 PCT/JP2010/000283 JP2010000283W WO2010087127A1 WO 2010087127 A1 WO2010087127 A1 WO 2010087127A1 JP 2010000283 W JP2010000283 W JP 2010000283W WO 2010087127 A1 WO2010087127 A1 WO 2010087127A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
visual feature
collation
feature amount
reliability
Prior art date
Application number
PCT/JP2010/000283
Other languages
English (en)
French (fr)
Inventor
大網亮磨
岩元浩太
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to EP11189664.3A priority Critical patent/EP2423839B1/en
Priority to KR1020117017640A priority patent/KR101290023B1/ko
Priority to US13/145,076 priority patent/US20110285904A1/en
Priority to JP2010548399A priority patent/JP4883227B2/ja
Priority to EP10735599.2A priority patent/EP2393290B1/en
Priority to CN201080005606.4A priority patent/CN102301697B/zh
Publication of WO2010087127A1 publication Critical patent/WO2010087127A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Definitions

  • the present invention relates to an apparatus, a method, and a program for generating a video identifier for video search for detecting a similar or the same moving image section from a large number of moving images.
  • Non-Patent Document 1 describes an example of a device that extracts and collates feature amounts from moving images.
  • FIG. 9 is a block diagram showing the device described in Patent Document 1. In FIG.
  • the block unit feature amount extraction unit 1000 extracts feature amounts in block units from the input first video, and outputs the first feature amount to the collation unit 1030.
  • the block unit feature quantity extraction unit 1010 extracts the feature quantity in block units from the input second video, and outputs the second feature quantity to the collation unit 1030.
  • the weighting coefficient calculation means 1020 calculates the weight value of each block based on the input learning video and outputs the weighting coefficient to the matching means 1030.
  • the matching unit 1030 uses the weighting coefficient output from the weighting coefficient calculation unit 1020, and the first feature amount output from the block unit feature amount extraction unit 1000 and the first feature amount output from the block unit feature amount extraction unit 1010. 2 is collated with the feature quantity, and the collation result is output.
  • the block unit feature quantity extraction unit 1000 divides each frame of the input first video into block units, and calculates a feature quantity for identifying the video from each block. Specifically, the edge type is determined for each block, and the type is calculated as the feature amount of each block. Then, for each frame, a feature vector consisting of the edge type of each block is constructed. This feature quantity vector is calculated for each frame, and the obtained feature quantity is output to the matching unit 1030 as the first feature quantity.
  • the operation of the block unit feature quantity extraction unit 1010 is the same as that of the block unit feature quantity extraction unit 1000.
  • the second feature quantity is calculated from the input second video, and the obtained second feature quantity is compared. To 1030.
  • the weighting coefficient calculation means 1020 calculates the probability that a telop is inserted in each block in the frame using the learning video in advance. Based on the calculated probability, a weighting coefficient for each block is calculated. Specifically, in order to increase robustness against telop superimposition, the weighting coefficient is calculated such that the lower the probability that the telop is superimposed, the higher the weight. The obtained weighting coefficient is output to the matching unit 1030.
  • the collating unit 1030 uses the weighting coefficient output from the weighting coefficient calculating unit 1020 and the first feature amount output from the block unit feature amount extracting unit 1000 and the second feature unit output from the block unit feature amount extracting unit 1010. Is compared with the feature quantity. Specifically, for each frame, the feature values of the blocks at the same position are compared, and if they are the same, the score for each block is calculated as 1 if not, otherwise 0. The obtained block unit scores are weighted using a weighting coefficient and totaled to calculate a frame matching score (similarity in frame units). This is performed for each frame, and a comparison result between the first video and the second video is calculated.
  • the object of the present invention is to solve the problem that collation accuracy is lowered when there are video patterns that appear in many videos in common or video patterns whose feature values cannot be obtained stably. Another object is to provide a video identifier generation device.
  • a video identifier generation device includes a visual feature amount extraction unit that extracts a visual feature amount used for identifying the video based on feature amounts of a plurality of partial region pairs in the video, and the visual feature A means for calculating the reliability of a quantity, wherein when the video is a specific video, a reliability calculation that calculates a lower reliability than when the video is a video other than the specific video Means.
  • the present invention it is possible to prevent the collation accuracy from being lowered due to a video pattern that appears in common in many videos or a video pattern whose feature value cannot be obtained stably.
  • 4 is a flowchart illustrating an operation of a common video pattern learning unit 250 in FIG. 3.
  • 6 is a flowchart for explaining the operation of robustness-reduced video pattern learning means 350 in FIG. 4. It is a block diagram for demonstrating the technique relevant to this invention.
  • a video identifier extraction apparatus which comprises a feature quantity extraction unit 130, a specific video pattern detection unit 110, and a reliability calculation unit 120.
  • the feature amount extraction unit 130 extracts a feature amount from the input video and outputs a visual feature amount.
  • the specific video pattern detection unit 110 detects a specific pattern from the input video and outputs a specific pattern detection result to the reliability calculation unit 120.
  • the reliability calculation unit 120 calculates the reliability based on the specific pattern detection result output from the specific video pattern detection unit 110 and outputs the reliability information.
  • the video identifier of the input video is composed of the visual feature amount output from the feature amount extraction unit 130 and the reliability information output from the reliability calculation unit 120.
  • the visual feature quantity and the reliability information may be independent as long as the correspondence between them is clarified, or may be integrated as in an embodiment using multiplexing means described later.
  • the video is input to the feature quantity extraction means 130.
  • data is input in units of pictures after being decoded by a decoder.
  • a picture is a unit constituting a screen, and usually consists of a frame or a field.
  • the picture is not limited to these, and any picture may be used as long as it is a unit constituting the screen.
  • the partial image which cut out a part of screen may be sufficient.
  • the screen excluding it may be used as a picture.
  • the black belt refers to black margin areas that are inserted at the top and bottom or the left and right of the screen by aspect conversion of 4: 3 and 16: 9, for example.
  • the feature quantity extraction unit 130 calculates a feature quantity vector for each picture.
  • a picture is regarded as one still image, and a vector of visual feature quantities indicating features such as colors, patterns, and shapes is extracted.
  • a difference in feature amount between the regions is calculated for the local region pair associated with each dimension of the feature vector (for example, the pixel value in the region for each region of the region pair is calculated).
  • An average value is obtained and the difference between the average values is calculated between regions), and a feature quantity vector having a quantized value obtained by quantizing the difference as a value of each dimension may be used.
  • the feature quantity vector calculated for each picture is output as a visual feature quantity.
  • the input video is also input to the specific video pattern detection means 110.
  • an undesired image pattern for detecting an image is detected, and a specific pattern detection result is output.
  • An undesired video pattern is a video pattern (scene) that happens to be almost the same even though it is originally a completely different video.
  • a fade-out to a black frame frequently used in movies is a typical example.
  • the video editing technique called fade-out is used for many completely different videos, but regardless of the content of the original video, after fading out, it becomes a black scene and there is no difference between the videos. In this way, it means a common video pattern that occurs between a number of completely different videos.
  • Such a video pattern is a video pattern that causes a problem in identification regardless of the type of feature amount, regardless of the type of feature amount used.
  • the feature amount is unstable and the robustness is lost.
  • the robustness is lowered.
  • the kind of image in which the robustness is reduced depends on the feature amount, but there is a video pattern in which the robustness specific to the feature amount is reduced regardless of the feature amount. For example, in the case of a color-related feature amount, the robustness is lowered when black and white is used. On the other hand, in the case of a feature amount representing a pattern, the robustness is lowered when a flat image is obtained.
  • the specific video pattern detection means 110 detects such a specific video pattern that is not desirable for video identification.
  • the detection method depends on the video pattern, for example, in the case of the above-described fade-out scene, it can be determined by using the average value of the luminance value of the entire image and a scale representing flatness. As a measure for representing flatness, for example, the dispersion of luminance values can be used. If this is sufficiently small and the average luminance value is not more than a certain threshold value and sufficiently close to black, it can be determined that the image is a black image after fade-out. .
  • the fade-out may be determined based on measurement of a change in luminance value over time.
  • the variance value and average value of luminance values in the screen are calculated for each picture in time series, and the variance gradually decreases toward 0 and changes with time so that the average value gradually decreases
  • the black image fades out.
  • the fade-out to the black image has been described above, the fade-out for other pixel values can be similarly detected. That is, the same applies to the variance, and the average value can be detected by checking whether or not it converges to a specific value.
  • Detected specific pattern detection result may be a binary value indicating whether it has been detected. For example, it is only necessary to output 1 when it is detected and 0 when it cannot be detected. Alternatively, it may be a continuous value between 0 and 1 (or a level value representing the probability expressed in several levels) according to the probability (probability) when detected. This is output for each picture. Or you may come to output a detection result collectively for every fixed period.
  • the specific pattern detection result is output to the reliability calculation means 120.
  • the reliability calculation means 120 calculates and outputs the reliability for the feature quantity of each picture according to the specific pattern detection result output from the specific video pattern detection means 110. At this time, if the specific pattern detection result indicates no detection, the maximum reliability value is output (for example, the reliability is a value from 0 to 1, and the maximum reliability is 1). 1 is output if it corresponds to.
  • the specific pattern detection result indicates that the detection or detection possibility is high, the reliability is lowered according to the ratio. That is, when it is detected, the reliability is set to the lowest level, and when it is determined that the possibility of detection is high, the reliability is lowered according to the degree. This is performed for each picture, and the obtained value is output as the reliability. Alternatively, the reliability may be obtained and output for each picture of a certain period.
  • the visual feature amount output from the feature amount extraction unit 130 may be input to the specific image pattern detection unit 110 instead of the image (broken line in FIG. 1).
  • the specific video pattern detection means 110 estimates the specific video pattern from the input feature quantity and detects the specific pattern. Specifically, a visual feature amount is extracted from a video defined as a specific video pattern, and a specific pattern is detected by determining similarity with the input visual feature amount. For example, in the case of the above-mentioned fade-out, the specific pattern detection result is calculated by detecting whether or not the luminance value is close to the value of the feature value corresponding to the case where the luminance value is constant throughout the screen.
  • the average and variance of luminance values are used as the visual feature amount, it can be determined that the above-described black image fades out when the variance is sufficiently small and the average value is sufficiently small. In this way, the specific video pattern is obtained from the feature quantity itself, and the reliability can be calculated.
  • an unfavorable video pattern for video identification is detected, and the reliability that lowers the reliability for the corresponding picture is generated together with the feature amount.
  • the collation accuracy can be improved.
  • a detection method suitable for each specific video pattern can be adopted, and the detection accuracy can be improved.
  • FIG. 2 Next, a second embodiment of the present invention shown in FIG. 2 will be described with reference to the drawings.
  • FIG. 2 there is shown a video identifier extraction apparatus according to a second embodiment of the present invention, which includes a feature quantity extraction unit 130, a specific video pattern detection unit 210, and a reliability calculation unit 120.
  • the specific video pattern detection unit 210 detects a specific pattern from the video based on the input specific video pattern information, and outputs the specific pattern detection result to the reliability calculation unit 120.
  • Video and specific video pattern information are input to the specific video pattern detection means 210.
  • the specific video pattern information is information describing a video pattern that is not desirable for identification as described above, and may be, for example, the specific video itself.
  • the specific video may be a single image representing the video, or a video section composed of a plurality of continuous images. Alternatively, a plurality of images obtained from the video section may be used.
  • the specific video pattern information may be a visual feature amount necessary for detecting the specific video pattern. However, this visual feature amount may not necessarily be the same as the visual feature amount obtained by the feature amount extraction unit 130. For example, in the case of fading out to the black image described above, the average value and variance of the luminance values of the entire screen may be used as the feature amount.
  • the specific video pattern detection means 210 detects the specific video pattern based on the similarity between the input video and the video described by the specific video pattern information. That is, when the specific video pattern information is an image itself, the visual feature amount is obtained from both the picture of the input video and the image input as the specific video pattern information, and the similarity is compared. To detect a specific pattern. At this time, as a criterion for similarity determination, a distance between feature amounts may be used, or similarity may be used. When the distance is small or the degree of similarity is large, the probability of detection is defined according to the degree, and the result is output as a specific pattern detection result.
  • the specific video pattern information is a feature amount extracted from the image
  • the same kind of feature amount is extracted from the input video and collated.
  • the specific video pattern information is described by the feature amount of the edge histogram
  • the edge histogram is calculated for each picture from the input video. The operation after the feature amount calculation is the same as when an image is input as the specific video pattern information.
  • the input to the specific video pattern detection unit 210 may be a visual feature amount output from the feature amount extraction unit 130 instead of a video (broken line in FIG. 2).
  • the specific video pattern detection unit 210 estimates the specific video pattern from the input feature quantity and detects the specific pattern.
  • the specific video pattern information is the video itself, the feature quantity that can be collated with the feature quantity output by the feature quantity extraction unit 130 is extracted from the video and compared.
  • the specific video pattern information is a visual feature amount, it must be a feature amount that can be collated with the feature amount output by the feature amount extraction unit 130.
  • This method has a feature that it is not necessary to determine a detection method for each specific video pattern, and it is possible to deal with various patterns only by changing information given as specific video pattern information. For this reason, even after the device has already been created, it is possible to expand the video pattern that can be supported by simply replacing the specific video pattern information.
  • FIG. 3 a third embodiment of the present invention shown in FIG. 3 will be described with reference to the drawings.
  • FIG. 3 there is shown a video identifier extraction apparatus according to a third embodiment of the present invention, which includes a feature quantity extraction unit 130, a specific video pattern detection unit 210, a reliability calculation unit 120, and a common video. Pattern learning means 250. Compared with the case of FIG. 2, a common video pattern learning unit 250 is further added, and specific video pattern information as an output thereof is connected to the specific video pattern detection unit 210. Other than that, it is the same as the video identifier extraction device of FIG.
  • the operations of the feature amount extraction unit 130, the specific video pattern detection unit 210, and the reliability calculation unit 120 are the same as those in the case of FIG.
  • a video group for learning is input to the common video pattern learning means 250.
  • the video input here is preferably a set of videos that are produced independently of each other and have no derivation relationship with each other. That is, it is desirable that the video has no relevance, such as editing one video and generating another video.
  • the common video pattern learning unit 250 extracts video sections that coincide with each other by chance. Specifically, the feature amount of each video is calculated for each picture, and the distance (similarity) between them is calculated for many video pairs. As a result, when a video section that can be regarded as almost the same despite the independent video is found, the video section is extracted as specific video pattern information. As a result, the specific video pattern can be automatically extracted by learning instead of being manually determined.
  • the specific video pattern information may be a feature amount extracted from the video, not the video itself. In this case, the feature amount of the extracted video pattern is calculated and output as specific video pattern information.
  • FIG. 7 is a flowchart showing the operation of the common video pattern learning means 250.
  • step S10 visual feature values are extracted from each of the input videos.
  • the visual feature amount extraction method at this time is not necessarily the same as the method used by the feature amount extraction means 130.
  • step S20 the extracted visual feature values are collated. As a result, a collation result between any two pairs of learning videos to be input is obtained.
  • step S30 a video section having a high similarity (or a short distance) is extracted from the collation results.
  • step S40 the extracted video section information is output as specific video pattern information.
  • the specific video pattern information output in this way is input to the specific video pattern detection means 210.
  • the third embodiment it is possible to automatically extract undesirable video patterns from a large number of videos, in particular, common video patterns generated between a number of completely different videos.
  • FIG. 4 there is shown a video identifier extraction apparatus according to a fourth embodiment of the present invention, which is characterized by a feature quantity extraction means 130, a specific video pattern detection means 210, a reliability calculation means 120, and robustness. It comprises a reduced image pattern learning means 350. Compared to the case of FIG. 3, the difference is that the robustness-reduced video pattern learning means 350 is used instead of the common video pattern learning means 250. Other than that, it is the same as the video identifier extraction device of FIG.
  • the operations of the feature amount extraction unit 130, the specific video pattern detection unit 210, and the reliability calculation unit 120 are the same as those in the case of FIG.
  • the learning video group is input to the robustness-reduced video pattern learning means 350.
  • This learning video group is used to learn a video pattern in which the visual feature amount used by the feature amount extraction unit 130 is not very robust.
  • the robustness-reduced video pattern learning unit 350 extracts visual feature amounts from the video by the same feature amount extraction method as the feature amount extraction unit 130.
  • various modification processes encoding process, noise addition, telop superposition, etc.
  • the feature amount is similarly extracted.
  • the visual feature values are compared before and after the modification process to check how much the feature values have changed. Specifically, the distance or the similarity is calculated between the feature quantities before and after the modification process.
  • a video having a small similarity or a large distance value is found, it is extracted as specific video pattern information.
  • a threshold value is processed for the similarity or distance value, and a case where the similarity is smaller than a certain threshold value or a case where the distance value is larger than a certain threshold value may be extracted.
  • the specific video pattern can be automatically extracted by learning instead of being manually determined.
  • the specific video pattern information may be a feature amount extracted from the video, not the video itself. In this case, the feature amount of the extracted video pattern is calculated and output as specific video pattern information.
  • FIG. 8 is a flowchart showing the operation of the robustness-reduced video pattern learning means 350.
  • step S50 a modified video is generated.
  • various modification processes assumed in advance are performed on the input image to generate a modified image. This process may be performed before step S70 and may be performed after step S60 described below.
  • step S60 the visual feature amount is extracted from the video before modification.
  • This feature quantity extraction method is the same as that used by the feature quantity extraction means 130. Thereby, a visual feature amount is calculated for each video before modification.
  • step S70 visual feature values are extracted from the modified video. This performs visual feature extraction for each of the modified videos generated in step S50.
  • This feature quantity extraction method is the same as that used by the feature quantity extraction means 130. Thereby, a visual feature amount is calculated for each video after modification.
  • step S80 the visual feature values before and after the modification are collated. This collates visual feature values between the corresponding feature values before and after modification. In this case, collation is performed by associating the unmodified picture with the modified picture. Then, the collation result is output to each picture or each video section formed by bundling a plurality of pictures in time series.
  • step S90 a video section having a large distance between feature amounts or a small similarity is extracted from the collation result.
  • step S100 specific video pattern information is generated and output from the video of the extracted video section.
  • the specific video pattern information output in this way is input to the specific video pattern detection means 210.
  • the fourth embodiment as in the case of the third embodiment, it is possible to automatically extract undesirable video patterns from a large number of videos.
  • FIG. 5 there is shown an embodiment of a video identifier collation device that collates video identifiers generated by the video identifier extraction device shown in FIGS. 1 to 4, and includes collation parameter calculation means 410 and collation means 400. It consists of.
  • the collation parameter calculation means 410 obtains a collation parameter from the first reliability information and the second reliability information, and outputs it to the collation means 400.
  • the matching unit 400 uses the matching parameter output from the matching parameter calculation unit 410 to match the first visual feature quantity and the second visual feature quantity, and outputs a matching result.
  • the first visual feature quantity and the first reliability information constitute a video identifier of the first video
  • the second visual feature quantity and the second reliability information are the second video. Video identifier.
  • the matching parameter calculation means 410 calculates a matching parameter used for matching between the sections of the video 1 and the video 2 from the first reliability information and the second reliability information. For example, from the first reliability information and the second reliability information, a weighting coefficient for performing matching for each picture is calculated as a matching parameter.
  • the weighting coefficient w (k 1 , k 2 ) when collating between these pictures can be calculated by [Equation 1].
  • [Formula 1] w (k 1 , k 2 ) min (r 1 (k 1 ), r 2 (k 2 ))
  • the collating unit 400 collates the first visual feature quantity and the second visual feature quantity.
  • the comparison may be made based on the degree of similarity representing the similarity between both feature amounts, or the distance representing the degree of difference between both feature amounts.
  • it compares based on the distance d calculated by [Formula 2].
  • N is the number of dimensions of the feature quantity
  • v 1 (i) and v 2 (i) represent the i-th dimension value of the first and second feature quantities, respectively.
  • This comparison is performed on a picture-by-picture basis, and a predetermined interval between the first video and the second video is verified.
  • the above-described weighting coefficient w (k 1 , k 2 ) is used. For example, when collating video segments with a value obtained by averaging distance values obtained by comparison in units of pictures within the video segment, when calculating the average value, the k 1 th picture and the second video of the first video are calculated.
  • the distance value d (k 1 , k 2 ) obtained by comparing the k 2 th picture of the video of is weighted with a weighting coefficient w (k 1 , k 2 ). That is, when a section consisting of a K picture starting from the t 1st picture of the video 1 and a section consisting of a K picture starting from the t 2nd picture of the video 2 are collated, the distance value is calculated by [Equation 3]. calculate. [Formula 3]
  • this value is larger than the threshold, it is determined that the section does not match, and if it is less than the threshold, it is determined that the section matches.
  • the number of picture pairs whose distance value is within a threshold is obtained by comparison in units of pictures, and when the value is sufficiently larger than the number of pictures included in the section, it is determined that they are in the same section. If not, it is determined that they are not in the same section. In this case as well, determination can be made with weights similarly. That is, it is also possible to determine by [Equation 4]. [Formula 4]
  • U (x) is a unit step function that is 1 when x ⁇ 0, and 0 when x ⁇ 0
  • Th is a threshold of distance between feature quantities between pictures (that is, the distance is equal to or less than Th) Is determined to be the same at the same time, and otherwise is determined not to be the same).
  • Non-Patent Document 2 As a comparison method between sections of any length, the verification method described in Non-Patent Document 2 can also be used. As shown in FIG. 6, a collation window of length L picture is provided for collation between videos, and these are slid between the first video and the second video to compare them. If the sections in the matching window are determined to be the same section, the matching window is extended by p pictures from there and the matching process is continued. As long as it is determined as the same section, the process of extending the window by p pictures is repeated to obtain the same section with the maximum length. By doing in this way, the same maximum length section can be obtained efficiently.
  • Sim (x, y) is a function representing the proximity of x and y, and becomes larger as the values of x and y are closer. For example, if the distance between x and y is d (x, y), a function such as [Equation 6] can be used. [Formula 6]
  • Sim (x, y) may be a function that is 1 only when x and y match, and 0 otherwise, like Kronecker delta. Or when using the angle (cosine value) between feature vectors as similarity, it compares based on similarity S calculated by [Formula 7]. [Formula 7]
  • the collation parameter output from the collation parameter calculation unit 410 may be a parameter that determines whether or not the collation result of the corresponding picture is ignored. If one of the pictures at the time of matching is low in reliability, the matching result between pictures is not very reliable. In such a case, it is conceivable to collate the video section while ignoring the collation result of the picture. For example, when collating video 1 and video 2, if the reliability of the 5th to 9th pictures in video 1 is low, the inter-picture verification result for the 5th to 9th pictures in video 1 is ignored. The video section of video 1 and video 2 is collated.
  • the collation parameter output from the collation parameter calculation unit 410 may be a parameter describing the number of times that pictures are determined to be different by collation between pictures.
  • modification processing such as analog capture, not all pictures are captured accurately, and some pictures may fall.
  • the collation cannot be performed well due to a dropped picture even though the images are the same.
  • the number of times that picture collation may fail is determined, and if the number is less than that number, the collation is continued as it is (that is, only when the collation failure exceeds that number). It is possible to successfully collate continuous sections by determining that the collation is not performed.
  • N th The number of collation failures between pictures allowed at this time (this is N th ) is controlled by the reliability. For example, in a section with low reliability, the value of N th is incremented according to the number of pictures with low reliability. In this way, even if a picture with low reliability continues, it can be collated as a continuous section.
  • the specific video pattern detection means may detect the specific video pattern from both the input video and the visual feature amount extracted from the input video.
  • the video identifier generation device of the present invention inputs the visual feature amount output from the feature amount extraction unit 130 and the reliability information output from the reliability calculation unit 120, and sets the video identifier.
  • Multiplexing means 140 for outputting may be provided.
  • the multiplexing unit 140 generates and outputs a video identifier by combining the visual feature amount output from the feature amount extraction unit 130 and the reliability information output from the reliability calculation unit 120.
  • the video identifier is generated by multiplexing the two in a form that can be separated at the time of collation.
  • visual feature quantities and reliability information may be interleaved and multiplexed for each picture, or only reliability information is multiplexed together first, and then visual feature quantities are multiplexed ( Or vice versa).
  • the reliability information and the visual feature amount may be multiplexed for each fixed interval (for example, for each time interval unit for calculating reliability information).
  • the video identifier collation apparatus of the present invention receives the video identifiers of two images to be collated, and outputs demultiplexing means for outputting visual feature quantities and reliability information constituting the video identifiers.
  • 420 and 430 may be provided.
  • the demultiplexing means 420 separates the first visual feature quantity and the first reliability information from the input first video identifier, and outputs them to the matching means 400 and the matching parameter calculation means 410, respectively.
  • the demultiplexing unit 430 separates the second visual feature value and the second reliability information from the input second video identifier, and outputs them to the matching unit 400 and the matching parameter calculation unit 410, respectively.
  • the video identifier extraction device and the video identifier collation device of the present invention can be realized by a computer and a program, as well as by realizing the functions of the device.
  • the program is provided by being recorded on a computer-readable recording medium such as a magnetic disk or a semiconductor memory, and is read by the computer at the time of starting up the computer, etc.
  • the video identifier extracting device and the video identifier collating device in the form of
  • the present invention can be applied to a use such as searching for a similar or identical video from many videos with high accuracy.
  • searching for the same section of video can be used for applications such as identifying illegally copied moving images distributed on the network, or identifying CMs that are being broadcast on actual broadcast waves.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

 この映像識別子生成装置は、映像中の、複数の部分領域対の特徴量に基づいて上記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、上記視覚特徴量の信頼度を算出する手段であって、上記映像が特定の映像である場合には、上記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段とを備える。

Description

映像識別子生成装置
 本発明は数多くの動画像の中から、類似あるいは同一の動画像区間を検出する映像検索用の映像識別子を生成する装置、方法、およびプログラムに関する。
 動画像から特徴量を抽出し、照合する装置の一例が、非特許文献1に記載されている。図9は、特許文献1に記された装置をあらわすブロック図である。
 ブロック単位特徴量抽出手段1000は、入力される第1の映像からブロック単位で特徴量を抽出し、第1の特徴量を照合手段1030へ出力する。ブロック単位特徴量抽出手段1010は、入力される第2の映像からブロック単位で特徴量を抽出し、第2の特徴量を照合手段1030へ出力する。重み付け係数算出手段1020は、入力される学習用映像に基づいて各ブロックの重みの値を算出し、重み付け係数を照合手段1030へ出力する。照合手段1030は、重み付け係数算出手段1020から出力される重み付け係数を用いて、ブロック単位特徴量抽出手段1000から出力される第1の特徴量と、ブロック単位特徴量抽出手段1010から出力される第2の特徴量とを照合し、照合結果を出力する。
 次に、図9に示す装置の動作について説明する。
 ブロック単位特徴量抽出手段1000では、入力される第1の映像の各フレームをブロック単位に分割し、各ブロックから映像を識別するための特徴量を算出する。具体的には、ブロックごとにエッジのタイプを判定し、そのタイプを各ブロックの特徴量として算出する。そして、各フレームに対して、各ブロックのエッジタイプからなる特徴量ベクトルを構成する。この特徴量ベクトルを各フレームに対して算出し、得られた特徴量を第1の特徴量として照合手段1030へ出力する。
 ブロック単位特徴量抽出手段1010の動作もブロック単位特徴量抽出手段1000と同様であり、入力される第2の映像から第2の特徴量を算出し、得られた第2の特徴量を照合手段1030へ出力する。
 一方、重み付け係数算出手段1020では、事前に学習用映像を用いて、フレーム内の各ブロックにおいてテロップが挿入される確率を算出する。そして、算出された確率に基づいて、各ブロックの重み付け係数を算出する。具体的には、テロップ重畳に対しての頑健性を高めるために、テロップが重畳される確率が低いほど、重みが高くなるようにして重み付け係数を算出する。得られた重み付け係数は、照合手段1030へ出力される。
 照合手段1030では、重み付け係数算出手段1020から出力される重み付け係数を用いて、ブロック単位特徴量抽出手段1000から出力される第1の特徴量とブロック単位特徴量抽出手段1010から出力される第2の特徴量とを照合する。具体的には、フレームごとに、同じ位置にあるブロックの特徴量を比較し、同じであれば1、そうでなければ0としてブロック単位のスコアを算出する。得られたブロック単位のスコアを重み付け係数を用いて加重して合計し、フレームの照合スコア(フレーム単位の類似度)を算出する。これを各フレームに対して行い、第1の映像と第2の映像の照合結果を算出する。
 このようにすることで、テロップ重畳の影響が大きいところの影響を抑えて動画像の照合を行うことが可能となり、テロップ重畳がある場合であっても高い照合精度を達成できる。
Kota Iwamoto, Eiji Kasutani, Akio Yamada, 「ImageSignature Robust to Caption Superimposition for Video Sequence Identification」,Proceedings of International Conference on Image Processing(ICIP2006),2006. Eiji Kasutani, Ryoma Oami, Akio Yamada, Takami Sato and Kyoji Hirata「Video Material Archive System for Efficient Video Editing Based onMedia Identification」,Proceedings of InternationalConference on Multimedia and Expo (ICME2004),pp.727--730,2004.
 ところで、動画像の照合精度を低下させる要因には、上述したテロップ重畳以外にも存在する。例えば、黒いフレームにフェードアウトしていくシーンは、多くの映像中に共通に現れるため、動画像の照合精度を低下させる。また、殆ど均一の値しか有さないフレームは、特徴量が安定的に求まらないため、動画像の照合精度を低下させる。つまり、黒いフレームにフェードアウトしていくシーンなどのように、独立な映像間であっても生じえる類似(ほぼ同一)の映像区間や、殆ど均一の値しか有さないフレームなどのように、特徴量の信頼性が低い映像区間を、他の通常の区間と同様に扱って照合を行うと、過剰に検出したり、検出もれが生じたりする。この結果、照合精度が低下するという問題があった。
[発明の目的]
 本発明の目的は、多くの映像中に共通に現れる映像パタンや、特徴量が安定的に求まらない映像パタンなどが映像中に存在していると照合精度が低下する、という課題を解決する映像識別子生成装置を提供することにある。
 本発明の一形態にかかる映像識別子生成装置は、映像中の、複数の部分領域対の特徴量に基づいて上記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、上記視覚特徴量の信頼度を算出する手段であって、上記映像が特定の映像である場合には、上記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段とを備える。
 本発明によれば、多くの映像中に共通に現れる映像パタンや、特徴量が安定的に求まらない映像パタンなどによる照合精度の低下を防止することができる。
本発明にかかる映像識別子生成装置の第1の実施の形態を表すブロック図である。 本発明にかかる映像識別子生成装置の第2の実施の形態を表すブロック図である。 本発明にかかる映像識別子生成装置の第3の実施の形態を表すブロック図である。 本発明にかかる映像識別子生成装置の第4の実施の形態を表すブロック図である。 本発明にかかる映像識別子生成装置の他の実施の形態を表すブロック図である。 本発明にかかる映像識別子照合装置の実施の形態を表すブロック図である。 本発明にかかる映像識別子照合装置の他の実施の形態を表すブロック図である。 2つの映像の照合処理を説明するための図である。 図3の共通映像パタン学習手段250の動作を説明するフローチャートである。 図4の頑健性低下映像パタン学習手段350の動作を説明するフローチャートである。 本発明に関連する技術を説明するためのブロック図である。
 次に、発明を実施するための形態について図面を参照して詳細に説明する。
 図1を参照すると、本発明の第1の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段130と、特定映像パタン検出手段110と、信頼度算出手段120とからなる。
 特徴量抽出手段130は、入力される映像から特徴量を抽出し、視覚特徴量を出力する。特定映像パタン検出手段110は、入力映像から特定パタンを検出し、特定パタン検出結果を信頼度算出手段120へ出力する。信頼度算出手段120は、特定映像パタン検出手段110から出力される特定パタン検出結果に基づいて信頼度を算出し、信頼度情報を出力する。特徴量抽出手段130から出力された視覚特徴量と信頼度算出手段120から出力された信頼度情報とから入力映像の映像識別子が構成される。視覚特徴量と信頼度情報とは、両者の対応関係が明確にされていれば独立していてもよいし、後述する多重化手段を用いる実施の形態のように一体化されていてもよい。
 次に、図1に示す第1の実施の形態の動作について詳細に説明する。
 まず、映像は特徴量抽出手段130へ入力される。元の映像が符号化されている場合には、復号器によって復号されてから、ピクチャ単位でデータが入力されるものとする。
 ここで、ピクチャとは、画面を構成する単位であり、通常はフレームやフィールドからなる。ただし、ピクチャはこれらには限らず、画面を構成する単位であれば、どのようなものでもよい。また、画面の一部を切り出した部分画像であってもよい。例えば、黒帯が拭かされた画像の場合には、それを除いた画面をピクチャとしてもよい。ここで、黒帯とは、例えば4:3と16:9のアスペクト変換によって画面の上下や左右に挿入される黒い余白領域を指す。
 特徴量抽出手段130では、ピクチャ毎に特徴量ベクトルを算出する。ピクチャを1枚の静止画とみなし、この色や模様、形などの特徴を示す視覚特徴量のベクトルを抽出する。この特徴量として、特徴量ベクトルの各次元に対応付けられた局所領域対に対して領域間における特徴量の差を算出し(例えば、領域対の各領域に対して領域内での画素値の平均値を求め、領域間で平均値の差を算出する)、差を量子化して得られる量子化値を各次元の値とする特徴量ベクトルを用いても良い。ピクチャ毎に算出された特徴量ベクトルは、視覚特徴量として出力される。
 一方、入力映像は、特定映像パタン検出手段110へも入力される。ここで、映像を識別する上で望ましくない映像パタンを検出し、特定パタン検出結果が出力される。
 望ましくない映像パタンとしては、本来全く別の映像であるにもかかわらず、たまたま殆ど同一になってしまう映像パタン(シーン)がある。例えば、映画で多用される黒フレームへのフェードアウトがこの代表例である。フェードアウトという映像編集技法は多くの全く異なる映像で用いられるが、もとの映像の内容如何にかかわらず、フェードアウトした後は、真っ黒なシーンになってしまい、映像間の差異がなくなる。このように、多数の全く異なる映像間で発生する共通映像パタンのことを意味している。このような映像パタンは特徴量の種類によらず、どのような特徴量を用いる場合にも、識別上問題になる映像パタンである。
 一方、特徴量の種類によって変わる望ましくない映像パタンもある。具体的には、特徴量が不安定で頑健性がなくなる場合である。例えば、平坦な画素値を有するシーンのように、画像的に特徴が少ない場合には、特徴量によってはノイズ等の影響を受けやすくなり、頑健性が低下する。どのような画像で頑健性が低下するかは特徴量に依存するが、どのような特徴量であっても、特徴量固有の頑健性が低下する映像パタンが存在する。例えば、色関連の特徴量であれば、白黒になると頑健性が低くなる。一方、模様を表す特徴量の場合には、平坦な画像になると頑健性が低くなる。
 このような映像識別上望ましくない特定の映像パタンを特定映像パタン検出手段110では検出する。検出方法は映像パタンに依存するが、例えば、上述のフェードアウトのシーンの場合には、画像全体の輝度値の平均値と平坦性を表す尺度を用いることで判定可能である。平坦性を表す尺度としては、例えば、輝度値の分散を用いることができ、これが十分小さく、かつ輝度の平均値が一定閾値以下で十分黒に近ければ、フェードアウト後の黒い画像であると判定できる。あるいは、輝度値の時間変化を測定し、これに基づいてフェードアウトを判定してもよい。例えば、画面内での輝度値の分散値と平均値を時系列の各ピクチャに対して求め、分散が徐々に0に向かって減少し、平均値が徐々に低くなるように時間とともに変化する場合に、黒画像へのフェードアウトと判定できる。以上は黒画像へのフェードアウトについて述べたが、それ以外の画素値に対するフェードアウトも同様に検知できる。すなわち、分散については同様で、平均値については、ある特定の値に収束するかどうかをチェックすることで検出できる。
 検知した特定パタン検出結果は、検知したかどうかを表す2値の値でもよい。例えば、検知できた場合を1、できなかった場合を0として出力すればよい。あるいは、検知されたときの確からしさ(確率)に応じて、0から1の間の連続値(あるいは数段階のレベルで表された確からしさを表すレベル値)であってもよい。これを、ピクチャ毎に出力する。あるいは、一定周期ごとにまとめて検知結果を出力するようになっていてもよい。特定パタン検出結果は信頼度算出手段120へ出力される。
 信頼度算出手段120では、特定映像パタン検出手段110から出力される特定パタン検出結果に応じて、各ピクチャの特徴量に対する信頼度を算出し、出力する。この際、特定パタン検出結果が、未検出を表している場合には、信頼度として最大の値を出力(例えば、信頼度が0から1までの値をとり、1の場合が最大の信頼度に相当する場合には、1を出力)する。特定パタン検出結果が、検出あるいは検出の可能性が高いことを示している場合には、その割合に応じて信頼度を下げる。すなわち、検出された場合には、信頼度として最低レベルの値とし、検出の可能性が高いと判定された場合には、その程度に応じて信頼度を下げるようにする。これを各ピクチャに対して行い、得られた値を信頼度として出力する。あるいは、一定周期のピクチャごとにまとめて信頼度を求め、出力するようになっていてもよい。
 なお、図1において、映像のかわりに、特徴量抽出手段130から出力される視覚特徴量を特定映像パタン検出手段110に入力するようになっていてもよい(図1中の破線)。この場合には、特定映像パタン検出手段110においては、入力される特徴量から特定映像パタンを推定し、特定パタンを検出する。具体的には、特定映像パタンとして定義される映像に対して視覚特徴量を抽出し、入力される視覚特徴量との間で類似性を判定して特定パタンを検出する。例えば、上述のフェードアウトの場合には、輝度値が画面全体で一定の場合に相当する特徴量の値に近いかどうかを検知することによって、特定パタン検出結果を算出する。視覚特徴量として、輝度値の平均と分散を用いる場合には、分散が十分小さく、かつ平均値が十分小さいときに、上述の黒画像へのフェードアウトと判定できる。このようにして、特徴量自体から特定映像パタンを求め、信頼度を算出することができる。
 このように、第1の実施の形態は、映像識別上好ましくない映像パタンを検出し、該当するピクチャに対する信頼度を下げるような信頼度を特徴量とともに生成するため、照合時にこの信頼度を用いることで、照合精度を向上できる。また、予め定められた特定映像パタンの検出を行うため、その特定映像パタンごとに適した検出法を採用することができ、検出の精度を向上できる。
 次に、図2に示す本発明の第2の実施の形態について図面を用いて説明する。
 図2を参照すると、本発明の第2の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段130と、特定映像パタン検出手段210と、信頼度算出手段120とからなる。
 図1の場合と比較すると、特定映像パタン検出手段110のかわりに、特定映像パタン検出手段210が用いられている点を除けば、図1の場合と同じである。特定映像パタン検出手段210は、入力される特定映像パタン情報に基づいて、映像から特定パタンを検出し、特定パタン検出結果を信頼度算出手段120へ出力する。
 次に、図2に示す映像識別子抽出装置の動作について説明する。
 特徴量抽出手段130、信頼度算出手段120の動作は、図1の場合と同様である。
 特定映像パタン検出手段210へは、映像と特定映像パタン情報とが入力される。特定映像パタン情報は、上述の識別上望ましくない映像のパタンを記述する情報であり、例えば、特定映像そのものであってもよい。特定映像は、その映像を代表する1枚の画像であってもよいし、複数枚の連続画像からなる映像区間であってもよい。あるいは、その映像区間から得られる複数の画像であってもよい。あるいは、特定映像パタン情報は、特定映像パタンを検出するのに必要な視覚特徴量であってもよい。ただし、この視覚特徴量は、特徴量抽出手段130で求める視覚特徴量と必ずしも同じものでなくてもよい。例えば、上述の黒画像へのフェードアウトの場合には、画面全体の輝度値の平均値と分散を特徴量として用いても良い。
 特定映像パタン検出手段210では、入力される映像と特定映像パタン情報で記述される映像の類似性によって、特定映像パタンを検出する。すなわち、特定映像パタン情報が画像そのものである場合には、入力される映像のピクチャと、この特定映像パタン情報として入力される画像の両方から視覚特徴量を求め、これらの類似性を比較することによって、特定パタンを検出する。この際、類似性判定の基準としては、特徴量間の距離を用いてもよいし、類似度を用いてもよい。そして、距離が小さい、あるいは類似度が大きい場合に、その程度に応じて検出の確からしさを定義し、特定パタン検出結果として出力する。
 一方、特定映像パタン情報が、画像から抽出された特徴量である場合には、入力される映像から同種の特徴量を抽出し、照合する。例えば、特定映像パタン情報がエッジヒストグラムの特徴量で記述されている場合には、入力される映像からもピクチャごとにエッジヒストグラムを算出する。特徴量算出後の動作は、特定映像パタン情報として画像が入力された場合と同様である。
 なお、特定映像パタン検出手段210への入力は、映像のかわりに、特徴量抽出手段130から出力される視覚特徴量であってもよい(図2中の破線)。この場合は、特定映像パタン検出手段210においては、入力される特徴量から特定映像パタンを推定し、特定パタンを検出する。特定映像パタン情報が映像そのものの場合には、特徴量抽出手段130で出力される特徴量と照合可能な特徴量をその映像から抽出し、比較する。特定映像パタン情報が視覚特徴量の場合には、特徴量抽出手段130で出力される特徴量と照合可能な特徴量である必要がある。
 このように、特定映像パタンとの類似度、あるいは距離を算出することによって、望ましくない映像パタンを検知し、信頼度を算出できるようになる。この方式の場合、特定映像パタンごとに検出方式を決めておく必要がなく、特定映像パタン情報として与える情報のみをかえるだけで、様々なパタンに対応可能になるという特徴がある。このため、既に装置を作った後であっても、特定映像パタン情報を入れ替えるだけで、対応可能な映像パタンを拡張することが可能である。
 次に、図3に示す本発明の第3の実施の形態について図面を用いて説明する。
 図3を参照すると、本発明の第3の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段130と、特定映像パタン検出手段210と、信頼度算出手段120と、共通映像パタン学習手段250とからなる。図2の場合と比較すると、共通映像パタン学習手段250がさらに追加されており、その出力である特定映像パタン情報が特定映像パタン検出手段210へ接続されている。それ以外は、図2の映像識別子抽出装置と同じである。
 次に、第3の実施の形態の動作について説明する。
 特徴量抽出手段130、特定映像パタン検出手段210、信頼度算出手段120の動作は、図2の場合と同様である。
 共通映像パタン学習手段250へは、学習用の映像群が入力される。ここで入力される映像は、お互いに独立に制作された映像であり、お互いに派生関係が存在しない映像の集合であることが望ましい。すなわち、ある映像を編集して別の映像が生成される、といった関連性がない映像であることが望ましい。共通映像パタン学習手段250では、それらの中からお互いに偶然ほぼ同一となる映像区間を抽出する。具体的には、各映像の特徴量をピクチャごとに算出し、その間の距離(類似度)算出を数多くの映像対に対して行う。この結果、独立な映像にもかかわらず、ほぼ同一とみなせる映像区間が見つかった場合には、その映像区間を特定映像パタン情報として抽出する。これにより、特定映像パタンを人手で決定するのではなく、学習により自動的に抽出することが可能となる。なお、上述の通り、特定映像パタン情報は、映像そのものではなく、映像から抽出した特徴量であってもよい。この場合は、抽出された映像パタンの特徴量を算出して、特定映像パタン情報として出力する。
 この共通映像パタン学習手段250の動作をフローチャートで表したものが図7である。
 ステップS10では、入力される映像のそれぞれから視覚特徴量が抽出される。この際の視覚特徴量抽出方法は、必ずしも、特徴量抽出手段130で用いる方法と同じでなくてもよい。
 ステップS20では、抽出した視覚特徴量間で照合を行う。これにより、入力される学習用映像の任意の2対の映像間での照合結果が求まる。
 そして、ステップS30では、照合結果の中から類似度の高い(あるいは距離が小さい)映像区間を抽出する。
 ステップS40では、抽出された映像区間の情報を特定映像パタン情報として出力する。
 このようにして出力された特定映像パタン情報は特定映像パタン検出手段210へ入力される。
 第3の実施の形態により、数多くの映像から自動的に望ましくない映像パタン、特に多数の全く異なる映像間で発生する共通映像パタンを抽出することが可能になる。
 次に、第4の実施の形態について図面を用いて説明する。
 図4を参照すると、本発明の第4の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段130と、特定映像パタン検出手段210と、信頼度算出手段120と、頑健性低下映像パタン学習手段350とからなる。図3の場合と比較すると、共通映像パタン学習手段250のかわりに頑健性低下映像パタン学習手段350が用いられている点が異なる。それ以外は、図3の映像識別子抽出装置と同じである。
 次に、第4の実施の形態の動作について説明する。
 特徴量抽出手段130、特定映像パタン検出手段210、信頼度算出手段120の動作は、図2の場合と同様である。
 頑健性低下映像パタン学習手段350へは、学習用映像群が入力される。この学習用映像群は、特徴量抽出手段130で用いられている視覚特徴量があまり頑健でない映像パタンを学習するのに用いられる。頑健性低下映像パタン学習手段350では、特徴量抽出手段130と同じ特徴量抽出方式によって映像から視覚特徴量が抽出される。同時に、入力映像に様々な改変処理(符号化処理、ノイズ付加、テロップ重畳など)を行い、その後で同様に特徴量抽出を行う。そして、改変処理の前後で視覚特徴量を比較し、特徴量がどの程度変化したかを調べる。具体的には、改変処理の前後の特徴量間で距離あるいは類似度を算出する。この際類似度が小さい、あるいは距離値が大きくなる映像が見つかった場合には、特定映像パタン情報として抽出する。具体的には、類似度あるいは距離値を閾値処理し、類似度がある一定の閾値より小さくなる場合、あるいは、距離値がある閾値より大きくなる場合を抽出すればよい。これにより、特定映像パタンを人手で決定するのではなく、学習により自動的に抽出することが可能となる。なお、上述の通り、特定映像パタン情報は、映像そのものではなく、映像から抽出した特徴量であってもよい。この場合は、抽出された映像パタンの特徴量を算出して、特定映像パタン情報として出力する。
 この頑健性低下映像パタン学習手段350の動作をフローチャートで表したものが図8である。まず、ステップS50で改変映像の生成を行う。ここでは、入力映像に対して、予め想定される様々な改変処理を行い、改変後の映像を生成する。なお、この処理は、ステップS70の前であればよく、次に述べるステップS60の後に行っても良い。
 ステップS60では、改変前の映像からの視覚特徴量の抽出を行う。この特徴量抽出方法は、特徴量抽出手段130で用いるものと同じ方法である。これにより、改変前の各映像に対して視覚特徴量が算出される。
 ステップS70では、改変後の映像からの視覚特徴量の抽出を行う。これは、ステップS50において生成された改変映像のそれぞれに対して視覚特徴量抽出を行う。この特徴量抽出方法は、特徴量抽出手段130で用いるものと同じ方法である。これにより、改変後の各映像に対して視覚特徴量が算出される。
 ステップS80では、改変前後の視覚特徴量の照合を行う。これは、対応する改変前と改変後の特徴量間で視覚特徴量の照合を行う。この際の照合は、改変前のピクチャと改変後のピクチャとを対応付けて照合を行う。そして、照合結果を各ピクチャ、あるいは、ピクチャを複数枚時系列に束ねてできる各映像区間に対して出力する。
 そして、ステップS90において、照合結果から、特徴量間の距離が大きい、あるいは、類似度が小さい映像区間を抽出する。
 最後に、ステップS100では、抽出された映像区間の映像から、特定映像パタン情報を生成し、出力する。
 このようにして出力された特定映像パタン情報は特定映像パタン検出手段210へ入力される。
 第4の実施の形態により、第3の実施の形態の場合と同様、数多くの映像から自動的に望ましくない映像パタンを抽出することが可能になる。
 次に、図1から図4に示す映像識別子抽出装置によって生成された映像識別子の照合装置の実施の形態について説明する。
 図5を参照すると、図1から図4に示す映像識別子抽出装置によって生成された映像識別子を照合する映像識別子照合装置の実施の形態が示されており、照合パラメータ算出手段410と、照合手段400とからなる。
 照合パラメータ算出手段410は、第1の信頼度情報と、第2の信頼度情報とから照合パラメータを求め、照合手段400へ出力する。照合手段400は、照合パラメータ算出手段410から出力される照合パラメータを用いて、第1の視覚特徴量と第2の視覚特徴量とを照合し、照合結果を出力する。ここで、第1の視覚特徴量と第1の信頼度情報とは、第1の映像の映像識別子を構成し、第2の視覚特徴量と第2の信頼度情報とは、第2の映像の映像識別子を構成している。
 次に、図5に示す映像識別子照合装置の動作について説明する。
 まず、第1の映像から求めた第1の信頼度情報と、第2の映像から求めた第2の信頼度情報とは、照合パラメータ算出手段410へ入力される。照合パラメータ算出手段410では、第1の信頼度情報と第2の信頼度情報とから、映像1と映像2の区間同士の照合に用いる照合パラメータを算出する。例えば、第1の信頼度情報と第2の信頼度情報とから、ピクチャごとの照合を行う際の加重係数を照合パラメータとして算出する。
 第1の信頼度情報と第2の信頼度情報から加重係数を算出する方法は複数考えられるが、どちらか一方の信頼度が小さな値に対応するときに小さくなるという制約を満たしており、信頼度情報に対応する重み値の両方が大きくなったときに増加するようになっていればよい。例えば、第1、第2の信頼度情報から求まる第1の映像のk1番目のピクチャ、第2の映像のk2番目のピクチャの信頼度がそれぞれr1(k1)、r2(k2)のときに、これらのピクチャ間で照合を行う際の加重係数w(k1,k2)は[式1]によって算出することができる。
[式1]
  w(k1,k2) = min(r1(k1), r2(k2))
 照合手段400では、第1の視覚特徴量と第2の視覚特徴量を照合する。この際、両特徴量の類似性を表す類似度によって比較してもよいし、両特徴量の差異の度合いを表す距離によって比較してもよい。距離によって比較する場合には、[式2]によって算出される距離dに基づいて比較する。
[式2]
Figure JPOXMLDOC01-appb-I000001
 ここで、Nは特徴量の次元数であり、v1(i)、v2(i)はそれぞれ、第1、第2の特徴量のi番目の次元の値を表している。この比較をピクチャ単位に行い、第1の映像と第2の映像の一定区間の照合を行う。この際、上述の加重係数w(k1,k2)を用いる。例えば、ピクチャ単位の比較で求まる距離値を映像区間内で平均した値によって映像区間の照合を行う場合には、平均値を算出する際に、第1の映像のk1番目のピクチャと第2の映像のk2番目のピクチャの比較により求まる距離値d(k1,k2)には加重係数w(k1,k2)によって加重する。すなわち、映像1のt1番目のピクチャから始まるKピクチャからなる区間と、映像2のt2番目のピクチャから始まるKピクチャからなる区間とを照合する際には、[式3]によって距離値を算出する。
[式3]
Figure JPOXMLDOC01-appb-I000002
 この値が閾値より大きい場合は、区間として一致していないと判定し、閾値以下の場合には、区間として一致していると判定する。これを第1の映像と第2の映像の任意の区間の組み合わせに対して行うことによって、これらの映像間に含まれる任意の長さの同一区間を全て判定することができる。
 あるいは、ピクチャ単位の比較で距離の値が閾値以内になるピクチャ対の数を求めて、その値が区間に含まれるピクチャ数に比して十分大きいときに同一区間であると判定し、そうでなければ、同一区間でないと判定する。この場合にも、同様に重みをつけて判定可能である。すなわち、[式4]によって判定することも可能である。
[式4]
Figure JPOXMLDOC01-appb-I000003
 ここで、U(x)はx≧0のときに1、x<0のときに0となる単位ステップ関数であり、Thはピクチャ間の特徴量間の距離の閾値(すなわち、距離がTh以下のときに同一と判定し、そうでないときは同一でないと判定する)である。これを第1の映像と第2の映像の任意の区間の組み合わせに対して行うことによって、これらの映像間に含まれる任意の長さの同一区間を全て判定することができる。
 任意の長さの区間同士の比較法としては、非特許文献2に記載された照合方法を用いることもできる。図6に示すように、映像間での照合に長さLピクチャの照合窓を設け、これらを第1の映像、第2の映像間でスライドさせていき、両者を比較する。もし、照合窓内の区間同士が同一区間と判定された場合には、そこからpピクチャだけ照合窓を伸ばし、照合処理を継続する。同一区間と判定される限りにおいては、pピクチャだけ窓を伸ばす処理を反復し、最大長の同一区間を求める。このようにすることで、最大長の同一区間を効率的に求めることができる。
 なお、上記の説明では距離を尺度として用いる場合について記したが、類似度を用いても同様に照合可能である。具体的には、[式5]によって算出される類似度Sに基づいて比較する。
[式5]
Figure JPOXMLDOC01-appb-I000004
 ここで、Sim(x,y)はxとyの近さを表す関数であり、xとyの値が近いほど大きな値となる。例えば、xとyの間の距離をd(x,y)とすると、[式6]のような関数を用いることができる。
[式6]
Figure JPOXMLDOC01-appb-I000005
 あるいは、Sim(x,y)はクロネッカーデルタのように、xとyが一致したときのみ1、それ以外は0となる関数であってもよい。あるいは、類似度として特徴ベクトル間の角度(余弦値)を用いる場合には、[式7]によって算出される類似度Sに基づいて比較する。
[式7]
Figure JPOXMLDOC01-appb-I000006
 これにより、第1の映像識別子と第2の映像識別子の照合結果が算出される。
 あるいは、照合パラメータ算出手段410から出力される照合パラメータとしては、対応するピクチャの照合結果を無視するかどうかを定めるパラメータであってもよい。照合する際のピクチャの一方が信頼度が低い場合には、ピクチャ間の照合結果はあまり信頼性が高くない。このような場合には、そのピクチャの照合結果を無視して、映像区間の照合を行うことが考えられる。例えば、映像1と映像2とを照合する際、映像1の5から9番目のピクチャの信頼度が低い場合には、映像1の5から9番目のピクチャに対するピクチャ間の照合結果は無視して、映像1と映像2の映像区間の照合を行う。
 あるいは、照合パラメータ算出手段410から出力される照合パラメータとしては、ピクチャ間での照合で異なるピクチャと判定される回数を記述するパラメータであってもよい。アナログキャプチャなどの改変処理においては、全てのピクチャが正確にはキャプチャされず、ところどころのピクチャが落ちる場合がある。このような場合、同一な映像であるにもかかわらず、落ちたピクチャが原因でうまく照合できなくなる場合がある。このような場合には、ピクチャの照合が失敗してもよい回数を決めておき、その回数以下である場合には、そのまま照合を続ける(すなわち、照合の失敗がその回数を超えた段階ではじめて照合しないと判定する)ことで連続区間をうまく照合できるようになる。この際の許容するピクチャ間の照合失敗の回数(これをNthとする)を、信頼度によって制御する。例えば、信頼度が低い区間では、Nthの値を信頼度が低いピクチャの枚数に応じてインクリメントする。このようにして、信頼度が低いピクチャが続く場合であっても連続区間として照合できるようになる。
 以上本発明の実施の形態について説明したが、本発明は以上の実施の形態にのみ限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。例えば、特定映像パタン検出手段は、入力映像およびその入力映像から抽出された視覚特徴量の双方からから特定映像パタンを検出してもよい。
 また本発明の映像識別子生成装置は、図4Aに示すように、特徴量抽出手段130から出力された視覚特徴量と信頼度算出手段120から出力された信頼度情報とを入力し、映像識別子を出力する多重化手段140を備えていてもよい。多重化手段140では、特徴量抽出手段130から出力される視覚特徴量と信頼度算出手段120から出力される信頼度情報とをまとめて映像識別子を生成し、出力する。ここでは、両者が照合時に分離可能な形で多重化して映像識別子を生成する。多重化の方法としては、ピクチャ毎に視覚特徴量と信頼度情報とをインターリーブして多重化してもよいし、信頼度情報のみを先にまとめて多重化し、その後で視覚特徴量を多重化(あるいはその逆)してもよい。あるいは、一定の区間毎(例えば、信頼度情報を算出する時間区間単位毎)に信頼度情報と視覚特徴量とを多重化するようになっていてもよい。
 また本発明の映像識別子照合装置は、図5Aに示すように、照合を行う2つの画像の映像識別子を入力し、その映像識別子を構成する視覚特徴量と信頼度情報とを出力する多重分離手段420、430を備えていてもよい。多重分離手段420は、入力される第1の映像識別子から第1の視覚特徴量と第1の信頼度情報とを分離し、それぞれ照合手段400と照合パラメータ算出手段410へ出力する。多重分離手段430も同様に、入力される第2の映像識別子から第2の視覚特徴量と第2の信頼度情報とを分離し、それぞれ照合手段400と照合パラメータ算出手段410へ出力する。
 また、本発明の映像識別子抽出装置、映像識別子照合装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における映像識別子抽出装置、映像識別子照合装置として機能させる。
 なお、本発明は、日本国にて2009年1月29日に特許出願された特願2009-17808の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
 本発明によれば、類似あるいは同一の映像を多くの映像中から高精度に検索するといった用途に適用できる。特に、映像の同一区間検索については、ネットワーク上に流通する違法にコピーされた動画像を識別する用途や、実際の放送波で流されているCMを同定するといった用途に用いることができる。
  110…特定映像パタン検出手段
  120…信頼度算出手段
  130…特徴量抽出手段
  140…多重化手段
  210…特定映像パタン検出手段
  250…共通映像パタン学習手段
  350…頑健性低下映像パタン学習手段
  400…照合手段
  410…照合パラメータ算出手段
  420、430…多重分離手段

Claims (38)

  1.  映像中の、複数の部分領域対の特徴量に基づいて前記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、
     前記視覚特徴量の信頼度を算出する手段であって、前記映像が特定の映像である場合には、前記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段と
    を備えることを特徴とする映像識別子生成装置。
  2.  前記信頼度は、前記視覚特徴量を用いて前記映像を他の映像と照合する際の照合結果の確からしさを表す値である
    ことを特徴とする請求項1に記載の映像識別子生成装置。
  3.  前記視覚特徴量抽出手段は、前記映像中の複数の部分領域対の、対をなす2つの部分領域の特徴量の差分値に基づいて前記視覚特徴量を抽出する
    ことを特徴とする請求項1または2に記載の映像識別子生成装置。
  4.  前記部分領域の特徴量は、前記部分領域の平均画素値である
    ことを特徴とする請求項3に記載の映像識別子生成装置。
  5.  前記特定の映像は、平坦な画素値を有する映像である
    ことを特徴とする請求項1乃至4の何れか1項に記載の映像識別子生成装置。
  6.  前記特定の映像は、映像全体の輝度値の分散が小さい映像である
    ことを特徴とする請求項1乃至5の何れか1項に記載の映像識別子生成装置。
  7.  前記特定の映像は、輝度値が画面全体でほぼ一定になる映像である
    ことを特徴とする請求項1乃至6の何れか1項に記載の映像識別子生成装置。
  8.  前記視覚特徴量の抽出と前記信頼度の算出は、ピクチャ単位で行われる
    ことを特徴とする請求項1乃至7の何れか1項に記載の映像識別子生成装置。
  9.  前記ピクチャは、フレームである
    ことを特徴とする請求項8に記載の映像識別子生成装置。
  10.  前記視覚特徴量抽出手段は、前記差分値を量子化して、前記視覚特徴量を算出する
    ことを特徴とする請求項3乃至9の何れか1項に記載の映像識別子生成装置。
  11.  前記視覚特徴量と前記信頼度とをまとめて映像識別子として出力する多重化手段を備える
    ことを特徴とする請求項1乃至10の何れか1項に記載の映像識別子生成装置。
  12.  第1の映像中の複数の部分領域対の特徴量から算出された、映像の識別に用いる第1の視覚特徴量と、前記第1の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて値が小さくなるように算出された、前記第1の視覚特徴量の信頼度を示す第1の信頼度情報と、第2の映像中の複数の部分領域対の特徴量から算出された、前記第2の映像の識別に用いる第2の視覚特徴量と、前記第2の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて、より値が小さくなるように算出された、前記第2の視覚特徴量の信頼度を示す第2の信頼度情報とを用い、
     前記第1の信頼度情報と前記第2の信頼度情報とに基づいて、照合パラメータを算出する照合パラメータ算出手段と、
     前記第1の視覚特徴量と前記第2の視覚特徴量とを、前記照合パラメータに従って照合し、照合結果を出力する照合手段と
    を備えることを特徴とする映像識別子照合装置。
  13.  前記第1の視覚特徴量は、前記第1の映像中の複数の部分領域対の、対をなす2つの部分領域の特徴量の差分値から算出され、前記第2の視覚特徴量は、前記第2の映像中の複数の部分領域対の、対をなす2つの部分領域の特徴量の差分値から算出されている
    ことを特徴とする請求項12に記載の映像識別子照合装置。
  14.  前記照合パラメータは、前記第1の信頼度と前記第2の信頼度とのうちの小さいほうの値によって定まる
    ことを特徴とする請求項12または13に記載の映像識別子照合装置。
  15.  前記照合パラメータ算出手段は、前記第1の視覚特徴量と前記第2の視覚特徴量との間の距離または類似度を算出する際の重みを表す値を前記照合パラメータとして算出し、
     前記照合手段は、前記照合パラメータによって定まる重みを用いて前記第1の視覚特徴量と前記第2の視覚特徴量との距離または類似度を算出して照合結果を求める
    ことを特徴とする請求項12乃至14の何れか1項に記載の映像識別子照合装置。
  16.  前記照合パラメータ算出手段は、前記第1の視覚特徴量と前記第2の視覚特徴量の何れか一方の前記信頼度が低い場合には、前記照合パラメータとして特定のパラメータを出力し、
     前記照合手段は、前記照合パラメータが前記特定のパラメータであるときに、前記第1の視覚特徴量と前記第2の視覚特徴量との間の距離または類似度を除いて照合結果を算出する
    ことを特徴とする請求項12乃至15の何れか1項に記載の映像識別子照合装置。
  17.  前記照合パラメータ算出手段は、前記照合パラメータとして、前記第1の視覚特徴量と前記第2の視覚特徴量との間の照合をピクチャ単位で行う際の、ピクチャ単位の照合の失敗の回数の許容値を規定するパラメータを出力し、
     前記照合手段は、ピクチャ単位の照合の失敗の回数が前記許容値以内の場合には照合を継続し、照合結果を算出する
    ことを特徴とする請求項12乃至16の何れか1項に記載の映像識別子照合装置。
  18.  請求項1乃至11の何れかに記載の映像識別子生成装置から生成された映像識別子を用いて照合を行うことを特徴とする照合装置。
  19.  映像中の、複数の部分領域対の特徴量に基づいて前記映像の識別に用いる視覚特徴量を抽出し、
     前記視覚特徴量の信頼度として、前記映像が特定の映像である場合には、前記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する
    ことを特徴とする映像識別子生成方法。
  20.  前記信頼度は、前記視覚特徴量を用いて前記映像を他の映像と照合する際の照合結果の確からしさを表す値である
    ことを特徴とする請求項19に記載の映像識別子生成方法。
  21.  前記映像中の複数の部分領域対の、対をなす2つの部分領域の特徴量の差分値に基づいて前記視覚特徴量を抽出する
    ことを特徴とする請求項19または20に記載の映像識別子生成方法。
  22.  前記部分領域の特徴量は、前記部分領域の平均画素値である
    ことを特徴とする請求項21に記載の映像識別子生成方法。
  23.  前記特定の映像は、平坦な画素値を有する映像である
    ことを特徴とする請求項19乃至22の何れか1項に記載の映像識別子生成方法。
  24.  前記特定の映像は、映像全体の輝度値の分散が小さい映像である
    ことを特徴とする請求項19乃至23の何れか1項に記載の映像識別子生成方法。
  25.  前記特定の映像は、輝度値が画面全体でほぼ一定になる映像である
    ことを特徴とする請求項19乃至24の何れか1項に記載の映像識別子生成方法。
  26.  前記視覚特徴量の抽出と前記信頼度の算出は、ピクチャ単位で行われる
    ことを特徴とする請求項19乃至25の何れか1項に記載の映像識別子生成方法。
  27.  前記ピクチャは、フレームである
    ことを特徴とする請求項26に記載の映像識別子生成方法。
  28.  前記差分値を量子化して、前記視覚特徴量を算出する
    ことを特徴とする請求項21乃至27の何れか1項に記載の映像識別子生成方法。
  29.  前記視覚特徴量と前記信頼度とをまとめて映像識別子として出力する
    ことを特徴とする請求項19乃至28の何れか1項に記載の映像識別子生成方法。
  30.  第1の映像中の複数の部分領域対の特徴量から算出された、映像の識別に用いる第1の視覚特徴量と、前記第1の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて値が小さくなるように算出された、前記第1の視覚特徴量の信頼度を示す第1の信頼度情報と、第2の映像中の複数の部分領域対の特徴量から算出された、前記第2の映像の識別に用いる第2の視覚特徴量と、前記第2の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて、より値が小さくなるように算出された、前記第2の視覚特徴量の信頼度を示す第2の信頼度情報とを用い、
     前記第1の信頼度情報と前記第2の信頼度情報とに基づいて、照合パラメータを算出し、
     前記第1の視覚特徴量と前記第2の視覚特徴量とを、前記照合パラメータに従って照合し、照合結果を出力する
    ことを特徴とする映像識別子照合方法。
  31.  前記第1の視覚特徴量は、前記第1の映像中の複数の部分領域対の、対をなす2つの部分領域の特徴量の差分値から算出され、前記第2の視覚特徴量は、前記第2の映像中の複数の部分領域対の、対をなす2つの部分領域の特徴量の差分値から算出されている
    ことを特徴とする請求項30に記載の映像識別子照合方法。
  32.  前記照合パラメータは、前記第1の信頼度と前記第2の信頼度とのうちの小さいほうの値によって定まる
    ことを特徴とする請求項30または31に記載の映像識別子照合方法。
  33.  前記第1の視覚特徴量と前記第2の視覚特徴量との間の距離または類似度を算出する際の重みを表す値を前記照合パラメータとして算出し、
     前記照合パラメータによって定まる重みを用いて前記第1の視覚特徴量と前記第2の視覚特徴量との距離または類似度を算出して照合結果を求める
    ことを特徴とする請求項30乃至32の何れか1項に記載の映像識別子照合方法。
  34.  前記第1の視覚特徴量と前記第2の視覚特徴量の何れか一方の前記信頼度が低い場合には、前記照合パラメータとして特定のパラメータを出力し、
     前記照合パラメータが前記特定のパラメータであるときに、前記第1の視覚特徴量と前記第2の視覚特徴量との間の距離または類似度を除いて照合結果を算出する
    ことを特徴とする請求項30乃至33の何れか1項に記載の映像識別子照合方法。
  35.  前記照合パラメータとして、前記第1の視覚特徴量と前記第2の視覚特徴量との間の照合をピクチャ単位で行う際の、ピクチャ単位の照合の失敗の回数の許容値を規定するパラメータを出力し、
     ピクチャ単位の照合の失敗の回数が前記許容値以内の場合には照合を継続し、照合結果を算出する
    ことを特徴とする請求項30乃至34の何れか1項に記載の映像識別子照合方法。
  36.  請求項19乃至29の何れかに記載の映像識別子生成方法によって生成された映像識別子を用いて照合を行うことを特徴とする照合方法。
  37.  コンピュータを、
     映像中の、複数の部分領域対の特徴量に基づいて前記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、
     前記視覚特徴量の信頼度を算出する手段であって、前記映像が特定の映像である場合には、前記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段と
    して機能させるためのプログラム。
  38.  コンピュータを、
     第1の映像中の複数の部分領域対の特徴量から算出された、映像の識別に用いる第1の視覚特徴量と、前記第1の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて値が小さくなるように算出された、前記第1の視覚特徴量の信頼度を示す第1の信頼度情報と、第2の映像中の複数の部分領域対の特徴量から算出された、前記第2の映像の識別に用いる第2の視覚特徴量と、前記第2の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて、より値が小さくなるように算出された、前記第2の視覚特徴量の信頼度を示す第2の信頼度情報とを用い、
     前記第1の信頼度情報と前記第2の信頼度情報とに基づいて、照合パラメータを算出する照合パラメータ算出手段と、
     前記第1の視覚特徴量と前記第2の視覚特徴量とを、前記照合パラメータに従って照合し、照合結果を出力する照合手段と
    して機能させるためのプログラム。
PCT/JP2010/000283 2009-01-29 2010-01-20 映像識別子生成装置 WO2010087127A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP11189664.3A EP2423839B1 (en) 2009-01-29 2010-01-20 Video identifier creation device
KR1020117017640A KR101290023B1 (ko) 2009-01-29 2010-01-20 영상 시그니처 생성 디바이스
US13/145,076 US20110285904A1 (en) 2009-01-29 2010-01-20 Video signature generation device
JP2010548399A JP4883227B2 (ja) 2009-01-29 2010-01-20 映像識別子生成装置
EP10735599.2A EP2393290B1 (en) 2009-01-29 2010-01-20 Video identifier creation device
CN201080005606.4A CN102301697B (zh) 2009-01-29 2010-01-20 视频签名产生设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009017808 2009-01-29
JP2009-017808 2009-01-29

Publications (1)

Publication Number Publication Date
WO2010087127A1 true WO2010087127A1 (ja) 2010-08-05

Family

ID=42395393

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/000283 WO2010087127A1 (ja) 2009-01-29 2010-01-20 映像識別子生成装置

Country Status (6)

Country Link
US (1) US20110285904A1 (ja)
EP (2) EP2423839B1 (ja)
JP (2) JP4883227B2 (ja)
KR (1) KR101290023B1 (ja)
CN (1) CN102301697B (ja)
WO (1) WO2010087127A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2720457A1 (en) * 2011-06-13 2014-04-16 NEC Corporation Video processing system, video processing method, method of creating video processing database, video processing database, video processing apparatus, and control method and control program therefor
WO2023120244A1 (ja) * 2021-12-24 2023-06-29 ソニーグループ株式会社 伝送装置、伝送方法、およびプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140152891A1 (en) * 2012-12-05 2014-06-05 Silicon Image, Inc. Method and Apparatus for Reducing Digital Video Image Data
CN104683815B (zh) * 2014-11-19 2017-12-15 西安交通大学 一种基于内容的h.264压缩域视频检索方法
WO2017075493A1 (en) * 2015-10-28 2017-05-04 Ustudio, Inc. Video frame difference engine
KR101672224B1 (ko) 2015-11-02 2016-11-03 한국지질자원연구원 탄산염 제조 및 이산화탄소의 저감을 위한 해수담수화 시스템
US11227160B2 (en) * 2019-11-15 2022-01-18 International Business Machines Corporation Detecting scene transitions in video footage

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007128262A (ja) * 2005-11-02 2007-05-24 Omron Corp 顔照合装置
JP2008310775A (ja) * 2007-06-18 2008-12-25 Canon Inc 表情認識装置及び方法、並びに撮像装置
JP2009075868A (ja) * 2007-09-20 2009-04-09 Toshiba Corp 画像から対象を検出する装置、方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6215898B1 (en) * 1997-04-15 2001-04-10 Interval Research Corporation Data processing system and method
US6501794B1 (en) * 2000-05-22 2002-12-31 Microsoft Corporate System and related methods for analyzing compressed media content
WO2002065782A1 (en) * 2001-02-12 2002-08-22 Koninklijke Philips Electronics N.V. Generating and matching hashes of multimedia content
JP2003134535A (ja) * 2001-10-30 2003-05-09 Nec Eng Ltd 画質劣化検知システム
JP2004208117A (ja) * 2002-12-26 2004-07-22 Nec Engineering Ltd 字幕合成時における画質劣化検知システム
JP4349160B2 (ja) * 2004-03-05 2009-10-21 日本電気株式会社 画像類似度算出システム、画像検索システム、画像類似度算出方法および画像類似度算出用プログラム
CN101473657A (zh) * 2006-06-20 2009-07-01 皇家飞利浦电子股份有限公司 产生视频信号的指纹
JP2009017808A (ja) 2007-07-11 2009-01-29 Nippon Flour Mills Co Ltd 製パン用小麦粉組成物及び製パン用穀粉組成物並びにこれらを使用したパン
JP5034733B2 (ja) * 2007-07-13 2012-09-26 カシオ計算機株式会社 特徴点追跡装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007128262A (ja) * 2005-11-02 2007-05-24 Omron Corp 顔照合装置
JP2008310775A (ja) * 2007-06-18 2008-12-25 Canon Inc 表情認識装置及び方法、並びに撮像装置
JP2009075868A (ja) * 2007-09-20 2009-04-09 Toshiba Corp 画像から対象を検出する装置、方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2720457A1 (en) * 2011-06-13 2014-04-16 NEC Corporation Video processing system, video processing method, method of creating video processing database, video processing database, video processing apparatus, and control method and control program therefor
EP2720457A4 (en) * 2011-06-13 2015-03-25 Nec Corp VIDEO PROCESSING SYSTEM, VIDEO PROCESSING METHOD, VIDEO PROCESSING DATABASE CREATING METHOD, VIDEO PROCESSING DATA BASE, VIDEO PROCESSING APPARATUS, AND CONTROL METHOD AND CONTROL PROGRAM THEREOF
WO2023120244A1 (ja) * 2021-12-24 2023-06-29 ソニーグループ株式会社 伝送装置、伝送方法、およびプログラム

Also Published As

Publication number Publication date
US20110285904A1 (en) 2011-11-24
CN102301697B (zh) 2015-07-01
EP2423839A2 (en) 2012-02-29
EP2393290B1 (en) 2021-02-24
EP2393290A1 (en) 2011-12-07
JPWO2010087127A1 (ja) 2012-08-02
KR101290023B1 (ko) 2013-07-30
EP2423839B1 (en) 2021-02-24
EP2393290A4 (en) 2012-12-05
KR20110110252A (ko) 2011-10-06
JP4883227B2 (ja) 2012-02-22
CN102301697A (zh) 2011-12-28
EP2423839A3 (en) 2012-12-05
JP2012109979A (ja) 2012-06-07

Similar Documents

Publication Publication Date Title
JP5573131B2 (ja) 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム
US8335251B2 (en) Video signature extraction device
JP4883227B2 (ja) 映像識別子生成装置
Galvan et al. First quantization matrix estimation from double compressed JPEG images
US8169497B2 (en) Method of segmenting videos into a hierarchy of segments
US8995708B2 (en) Apparatus and method for robust low-complexity video fingerprinting
JP5644505B2 (ja) 照合加重情報抽出装置
Hoad et al. Video similarity detection for digital rights management
KR100683501B1 (ko) 신경망 기법을 이용한 뉴스 비디오의 앵커 화면 추출 장치및 그 방법
Chao Introduction to video fingerprinting
Li et al. Efficient shot boundary detection based on scale invariant features
Jang et al. The Original Similarity Extraction Mechanism for Digital Content Copyright Protection in UCC Service Environment
US20100201889A1 (en) Detection of wipe transitions in video
KR101470191B1 (ko) 지역적 극대 필터 및 지역적 극소 필터를 이용한 비디오 내의 블록 오류 고속 검출 방법 및 장치
Stiegler et al. First version of algorithms for content analysis and automatic content pre-selection

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080005606.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10735599

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2010548399

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13145076

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010735599

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20117017640

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE