WO2010084736A1 - 映像記述子生成装置 - Google Patents

映像記述子生成装置 Download PDF

Info

Publication number
WO2010084736A1
WO2010084736A1 PCT/JP2010/000275 JP2010000275W WO2010084736A1 WO 2010084736 A1 WO2010084736 A1 WO 2010084736A1 JP 2010000275 W JP2010000275 W JP 2010000275W WO 2010084736 A1 WO2010084736 A1 WO 2010084736A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
amount
difference
picture
information
Prior art date
Application number
PCT/JP2010/000275
Other languages
English (en)
French (fr)
Inventor
大網亮磨
岩元浩太
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010543332A priority Critical patent/JP4687834B2/ja
Priority to EP10733344.5A priority patent/EP2296095B1/en
Priority to CN2010800053140A priority patent/CN102292727B/zh
Priority to KR1020117017321A priority patent/KR101281850B1/ko
Priority to US12/990,130 priority patent/US8509303B2/en
Publication of WO2010084736A1 publication Critical patent/WO2010084736A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays

Definitions

  • the present invention relates to a video descriptor generation apparatus, method, and program for video search for detecting a similar or the same moving image section from a large number of moving images.
  • FIG. 6 is a block diagram showing the video descriptor generation device described in Patent Document 1.
  • FIG. 6 is a block diagram showing the video descriptor generation device described in Patent Document 1.
  • the frame-by-frame feature quantity extraction unit 1000 calculates a frame-unit feature quantity from the input video and outputs it to the feature quantity table creation unit 1010.
  • the feature quantity table creation unit 1010 creates a feature quantity table from the frame unit feature quantity output from the frame-by-frame feature quantity extraction unit 1000 and outputs it as a video descriptor.
  • the frame-by-frame feature quantity extraction unit 1000 performs processing for extracting feature quantities such as colors for each frame from the input video.
  • the obtained feature quantity is output to the feature quantity table creating means 1010 as a frame unit feature quantity.
  • the feature value table creation unit 1010 compresses feature values in the time direction by performing threshold processing on variations in feature values between frames. Specifically, the difference between frames of the frame unit feature value is calculated, and it is determined whether or not it is within a certain allowable variation range. Then, the video is divided into time sections that are within the allowable fluctuation range. For each divided time section, a set of feature amount and time section length (number of frames) is output as a video descriptor.
  • the feature amount of the video obtained in units of frames can be compressed in the time direction, and the feature amount size can be reduced. Also, high-speed matching is possible.
  • the above method has a problem that the performance in a scene with poor temporal change (movement) is poor.
  • the reason is that if the inter-frame variation of the feature amount is within an allowable range, the difference in the feature amount of each frame is ignored and the representative value of the section is used as a representative. For this reason, in a scene with little temporal change, all are rounded to the same feature amount, and the performance in such a scene is lowered at the time of moving image search.
  • An object of the present invention is to provide a video descriptor generation device that solves the problem that video descriptors generated from moving images with little temporal change (motion) have a low discrimination power.
  • a video descriptor generation apparatus includes a feature-value extraction unit for each picture that extracts a feature value from a video for each picture that is a frame or a field and outputs a feature value for each picture, and the feature value for each picture.
  • An inter-picture feature value difference calculating means for calculating a difference feature information amount representing an information amount of the difference feature amount
  • An additional feature amount extraction unit that calculates a feature amount to be added from the video as an additional feature amount; and, if the size of the difference feature information amount is smaller than a certain reference, the additional feature amount in addition to the difference feature amount
  • a feature amount integrating means for constituting a video descriptor.
  • the present invention is configured as described above, there is an effect that it is possible to increase the discriminating power of a video descriptor generated from a moving image with little temporal change (motion).
  • FIG. 1 shows the structure of embodiment for implementing 1st invention of this invention. It is a block diagram which shows the structure of embodiment for implementing 2nd invention of this invention.
  • 3 is a block diagram illustrating a configuration of an embodiment of an inter-picture feature value difference calculating unit 110.
  • FIG. It is a block diagram which shows the structure of another embodiment of the feature-value difference calculation means 110 between pictures. It is a figure which shows the example of the feature-value calculation method for every picture. It is a block diagram which shows the structure of the video descriptor production
  • a video descriptor generation apparatus which is a feature quantity extraction unit 100 for each picture, a feature quantity difference calculation unit 110 between pictures, and a feature quantity addition determination. It comprises means 120, additional feature quantity extraction means 130, and feature quantity integration means 140.
  • the feature quantity extraction unit 100 for each picture calculates a feature quantity for each picture from the input video, and outputs the feature quantity for each picture to the feature quantity difference calculation unit 110 between pictures.
  • the inter-picture feature value difference calculating unit 110 generates a difference feature value from the feature value for each picture output from the feature value extracting unit 100 for each picture, outputs the difference feature value to the feature value integrating unit 140, and information amount of the difference feature value ( Information describing the difference feature information amount (referred to as difference feature information amount information) is output to the feature amount addition determining means 120.
  • the feature amount addition determining unit 120 determines the necessity of adding a feature amount from the difference feature information amount information output from the inter-picture feature amount difference calculating unit 110.
  • the feature amount addition determining information Is output to the feature amount integration unit 140.
  • the additional feature quantity extraction unit 130 calculates an additional feature quantity that is a feature quantity to be added from the video, and outputs it to the feature quantity integration unit 140. Based on the feature amount addition determination information output from the feature amount addition determination unit 120, the feature amount integration unit 140 and the difference feature amount output from the inter-picture feature amount difference calculation unit 110 and the additional feature amount extraction unit 130 The output additional descriptor is integrated and a video descriptor is output.
  • the video is input to the feature extraction unit 100 for each picture.
  • the data is input in units of pictures consisting of frames or fields after being decoded by a decoder.
  • the feature quantity extraction unit 100 for each picture calculates a feature quantity vector for each picture.
  • a picture is regarded as one still image, and a vector of visual feature quantities indicating features such as colors, patterns, and shapes is extracted.
  • the calculated feature quantity vector is output to the inter-picture feature quantity difference calculation means 110 as a feature quantity for each picture.
  • This feature amount may be any visual feature amount that shows features such as color, pattern, and shape in units of pictures.
  • visual features described in MPEG-7 Part 3 such as color layout and edge histogram, can be used for this purpose.
  • the inter-picture feature value difference calculating means 110 calculates a difference between the feature values representing the feature values for each input picture. That is, a difference between feature quantity vectors is calculated between temporally adjacent pictures to obtain a difference feature quantity vector. Next, the information amount required to describe this difference feature amount vector is calculated as the difference feature information amount. Details of the operation of the inter-picture feature value difference calculating unit 110 will be described later.
  • the calculated difference feature quantity is output to the feature quantity integration unit 140.
  • the difference feature information amount information describing the difference feature information amount is output to the feature amount addition determination means 120.
  • the feature amount addition determination unit 120 determines whether or not a feature amount needs to be added based on the difference feature information amount information output from the inter-picture feature amount difference extraction unit 110, and outputs feature amount addition determination information. . Specifically, if the difference feature information amount described by the difference feature information amount information is within a certain threshold, the difference between the pictures is considered to be small and the scene dynamism is small. Information that signals that the information is to be output is output as feature amount addition determination information. However, if the determination is performed using only the difference feature information amount between a pair of consecutive pictures, the feature amount is added even when the difference from the previous picture by chance is small.
  • the additional signaling of the feature amount may be performed from the first picture in which the difference feature information amount has decreased, or may be performed from the determined picture.
  • the feature amount addition determination information representing the determination result is output to the feature amount integration unit 140.
  • the additional feature amount extraction means 130 extracts an additional feature amount from the input video.
  • the feature quantity to be added may be a feature quantity extracted in more detail than the feature quantity extracted by the feature quantity extraction unit 100 for each picture, or may be completely different.
  • an edge feature amount in a large block unit is extracted in the feature amount extraction unit 100 for each picture
  • an edge feature amount in a smaller block unit is extracted in the additional feature amount extraction unit 130. Try to extract.
  • the color feature quantity may be extracted by the feature quantity extraction unit 100 for each picture
  • the edge feature quantity may be extracted by the additional feature quantity extraction unit 130.
  • the feature quantity extracted by the additional feature quantity extraction unit 130 may not be a feature quantity calculated for each picture.
  • motion estimation may be performed between pictures, and a motion amount between pictures may be used as a feature amount.
  • a method may be used in which the amount of motion between the pictures is calculated between consecutive pictures, and the feature amount is calculated by performing statistical processing thereon. The additional feature amount calculated in this way is output to the feature amount integration unit 140.
  • the feature amount integration unit 140 outputs the difference feature amount output from the inter-picture feature amount difference extraction unit 110 and the additional feature amount extraction unit 130 based on the feature amount addition determination information output from the feature amount addition determination unit 120.
  • the added feature quantity is integrated to generate a video descriptor.
  • the additional feature amount is added to the video descriptor only when the feature amount addition determination information signals that the feature amount is to be added. In other cases, only the difference feature amount is added to the video descriptor. At this time, the difference feature quantity and the additional feature quantity are appropriately encoded to generate a video descriptor.
  • various difference encoding methods as described in the description of the inter-picture feature value difference calculation unit 110 described later can be used. If there is a bias in the generation of feature values for additional feature values, the descriptor size can be reduced by using entropy coding such as Huffman coding or arithmetic coding.
  • inter-picture feature value difference calculating means 110 Next, an embodiment of the inter-picture feature value difference calculating means 110 will be described with reference to FIG.
  • inter-picture feature value difference calculating means 110 which comprises a storage element 300, a subtractor 310, and a difference feature information amount calculating means 320.
  • the storage element 300 stores the input feature quantity for each picture by one picture, and outputs the stored feature quantity for each picture to the subtractor 310 as a reference picture feature quantity.
  • the subtractor 310 subtracts the reference picture feature value output from the storage element 300 from the input feature value for each picture, and outputs a difference feature value.
  • the difference feature information amount calculation means 320 receives the difference feature amount output from the subtractor 310 and outputs difference feature information amount information.
  • the storage element 300 stores the feature quantity for each picture of the previous picture, and when the difference is calculated, it is output to the subtractor 310 as a reference picture feature quantity.
  • the calculated difference feature amount D (t) is also input to the difference feature information amount calculation means 320.
  • the difference feature information amount calculation means 320 estimates the information amount of the difference feature amount (that is, the difference feature information amount) from the value of the difference feature amount vector D (t) and describes the information (that is, difference feature information amount information). Is output.
  • the difference feature information amount information may be a generated code amount estimated when it is assumed that D (t) is actually differentially encoded.
  • the number of feature vector elements that have a difference in D (t) and the amount of the difference are not the generated code amount itself, but the amount that is highly correlated with the size of the code amount Good.
  • it may be an actual measurement value of a code amount calculated by actually performing differential encoding.
  • any differential encoding may be used.
  • a difference value appearance probability may be calculated in advance using learning data, and the difference encoding may be performed by Huffman encoding or arithmetic encoding using this probability.
  • only the element (dimension) in which the difference has occurred in the feature quantity vector may be encoded together with the index of the element.
  • the storage element 300, the subtracter 310, the feature information amount calculating unit 400 for each picture, the comparator 410, and the difference feature information amount calculation are shown. It comprises means 420 and a switch 430.
  • the connection relationship between the storage element 300 and the subtractor 310 is the same as that of the inter-picture feature value difference calculating means 110 shown in FIG.
  • the feature information amount calculation unit 400 for each picture receives the feature amount for each picture, and outputs the information amount of the feature amount for each picture (referred to as the feature information amount for each picture) to the comparator 410.
  • the difference feature information amount calculation means 420 receives the difference feature amount output from the subtractor 310, outputs the difference feature information amount to the comparator 410, and outputs difference feature information amount information.
  • the comparator 410 compares the feature information amount for each picture output from the feature information amount calculation unit for each picture 400 with the difference feature information amount output from the difference feature information amount calculation unit 420, and switches the feature amount selection signal. Output to 430.
  • the feature quantity for each picture and the difference feature quantity output from the subtractor 310 are input to the switch 430, and either one is selected based on the feature quantity selection signal output from the comparator 410, and the difference feature quantity is selected.
  • the memory element 300, the subtractor 310, and the difference feature information amount calculation means 320 are the same as those in FIG.
  • the feature information amount calculation unit 400 for each picture estimates the information amount of the feature amount for each picture (that is, the feature information amount for each picture) from the value of the feature amount V (t).
  • the feature for each picture may be a generated code amount estimated from V (t), or may be a measured value of the code amount calculated by actually performing encoding. For encoding at this time, entropy encoding similar to that in the above-described differential encoding can be applied. Alternatively, when the generated code amount is substantially constant regardless of the value of V (t), a fixed value may be used as the code amount.
  • the obtained feature information amount for each picture is output to the comparator 410.
  • the operation of the difference feature information amount calculation means 420 is equivalent to the difference feature information amount calculation means 320 of FIG. 3, and calculates the difference feature information amount and the difference feature information amount information describing it.
  • the difference from the difference feature information amount calculation means 320 is that the difference feature information amount is also output.
  • the obtained difference feature information amount is output to the comparator 410.
  • the comparator 410 compares the feature information amount for each picture output from the feature information amount calculation unit for each picture 400 with the difference feature information amount output from the difference feature information amount calculation unit 420. Then, the smaller value is selected and a signal for controlling the switch 430 is output. That is, when the feature information amount for each picture is smaller, the switch 430 is connected to the feature amount for each picture, and when the difference feature information amount is smaller, the switch 430 sets the difference feature amount output from the subtractor 310. Controlled to connect.
  • the configuration when a feature amount difference between pictures is small and a decrease in performance is expected, the configuration is such that an additional feature amount is inserted.
  • the identification ability can be improved, and the performance at the time of search can be improved.
  • the addition of the feature amount is limited to the case where the feature amount difference between pictures is small, the performance can be improved without unnecessarily increasing the size of the feature amount.
  • a video descriptor generation apparatus in which a feature quantity extraction unit 100 for each picture, a feature quantity difference calculation unit 110 between pictures, and a feature quantity addition determination. It comprises means 120, additional feature quantity extraction means 230, and feature quantity integration means 240.
  • the connection relationship between the feature quantity extraction means 100 for each picture, the feature quantity difference calculation means 110 between pictures, and the feature quantity addition judgment means 120 is the same as that of the video descriptor generation apparatus of FIG.
  • the output of the feature amount addition determination unit 120 is also input to the additional feature amount extraction unit 230.
  • the additional feature amount extraction unit 230 extracts the additional feature amount from the input video based on the feature amount addition determination information output from the feature amount addition determination unit 120 and outputs the additional feature amount to the feature amount integration unit 140.
  • the feature amount integration unit 240 integrates the difference feature amount output from the inter-picture feature amount difference calculation unit 110 and the additional feature amount output from the additional feature amount extraction unit 230, and outputs a video descriptor.
  • the operation of the additional feature amount extraction unit 230 is basically the same as that of the additional feature amount extraction unit 130 of the video descriptor generation device in FIG. 1, but the feature amount addition determination information output from the feature amount addition determination unit 120. The difference is that it operates based on That is, an additional feature amount is extracted only when the feature amount addition determination information signals addition of a feature amount. In other cases, feature amounts are not extracted.
  • the extracted additional feature amount is output to the feature amount integration unit 240.
  • the operation of the feature quantity integration unit 240 is basically the same as that of the feature quantity integration unit 140 of the video descriptor generation apparatus in FIG. 1, but the additional feature quantity output intermittently from the additional feature quantity extraction unit 230.
  • the difference is that the video descriptor is generated by integrating the difference feature quantity. This integration is executed when the feature amount addition determination information output from the feature amount addition determination unit 120 signals addition of a feature amount.
  • the calculation of the additional feature amount is limited only to the case where the additional feature amount is actually necessary, so that the video descriptor can be generated more efficiently.
  • FIG. 5 shows an example of a method for extracting feature values from a picture.
  • two arbitrary regions in a picture are previously determined as a pair, and a feature amount difference between the paired two regions is used as a feature vector.
  • each region pair is represented by P1, P2, P3,...
  • a feature amount determined from the nth pair Pn is represented by Vn.
  • Vn a feature amount determined from the nth pair Pn.
  • Various methods for obtaining Vn from Pn are conceivable. For example, there is a method in which an average value of luminance is calculated in each paired area and shaded area and a value of Vn is determined based on the magnitude relationship.
  • 0 when the absolute value of the difference is smaller than the threshold value, 0 may be set, and Vn may be expressed as a ternary value.
  • the inter-picture feature value difference calculating unit 110 obtains a difference in Vn between the previous picture and the current picture and outputs it as a difference feature quantity.
  • the number of dimensions whose difference is other than 0 is counted, and this number is output as difference feature information amount information.
  • the feature amount addition determination unit 120 signals addition of a feature amount when the value of the difference feature information amount information is equal to or less than a certain threshold value TH.
  • the additional feature amount the feature amount obtained by the same method as in FIG. 5 can be used.
  • the feature quantity is similarly calculated by the additional feature quantity extraction unit 130 using M different pairs from the feature quantity extraction unit 100 for each picture.
  • the feature amount integration unit 140 connects and integrates both the difference feature amount and the additional feature amount to generate a video descriptor.
  • an M-dimensional feature value is further used in a frame in which the additional feature value is added to the original feature value N-dimensional.
  • various difference encodings can be applied to the difference feature quantity.
  • the index of the dimension and the difference value are encoded as a pair.
  • a scheme can be used. As described above, when the original value of Vn is the ternary value of ⁇ 1, 0, 1, in the situation where the value of the previous picture is fixed, there are two possible values for the difference (for example, When the value is 1 in the previous picture, the difference is either -1 or -2. Therefore, the information for distinguishing these binary values can be expressed by 1 bit. In this way, the difference can be encoded.
  • the additional feature quantity may be another feature quantity.
  • a motion vector may be calculated between pictures, and this statistic may be used as a feature amount.
  • the inter-picture feature quantity difference calculation unit 110 may output the feature quantity for each picture to the feature quantity integration unit 140 instead of the difference feature quantity at a fixed picture cycle.
  • the inter-picture feature value difference calculating unit 110 in FIG. 4 whether or not the comparator 410 has output a signal for selecting the feature value for each picture to the switch 430 within a certain past picture period.
  • a signal for selecting the feature amount for each picture may be output to the switch 430 regardless of the result of the comparison determination.
  • the input feature quantity for each picture and the difference feature quantity output from the subtractor 310 are input, and one of them is output to the feature quantity integrating unit 140.
  • a switch for outputting a control signal for selecting a feature quantity for each input picture only once within a certain picture cycle to the switch, and for outputting a control signal for selecting a differential feature quantity to the switch otherwise Means may be provided.
  • the video descriptor generating apparatus of the present invention can be realized by a computer and a program as well as by realizing the functions of the video descriptor generating apparatus in hardware.
  • the program is provided by being recorded on a computer-readable recording medium such as a magnetic disk or a semiconductor memory, and is read by the computer at the time of starting up the computer, etc. It functions as a video descriptor generation device in the form of.
  • the present invention can be applied to a use such as searching for a similar or identical video from many videos with high accuracy.
  • the search for the same section of video can be used for the purpose of identifying an illegally copied moving image distributed on the network, or for the purpose of identifying a CM being broadcast by an actual broadcast wave.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 この映像記述子生成装置は、フレームまたはフィールドであるピクチャ毎に映像から特徴量を抽出し、ピクチャ毎特徴量を出力するピクチャ毎特徴量抽出手段と、上記ピクチャ毎特徴量からピクチャ間の特徴量の差分であるピクチャ間特徴量差分を差分特徴量として算出するとともに、上記差分特徴量が有する情報量を表す差分特徴情報量を算出するピクチャ間特徴量差分算出手段と、上記映像から追加する特徴量を追加特徴量として算出する追加特徴量抽出手段と、上記差分特徴情報量の大きさが一定の基準より小さい場合には、上記差分特徴量に加えて上記追加特徴量も含んで映像記述子を構成する特徴量統合手段とを有する。

Description

映像記述子生成装置
 本発明は数多くの動画像の中から、類似あるいは同一の動画像区間を検出する映像検索用の映像記述子生成装置、方法、およびプログラムに関する。
 映像記述子生成装置の一例が、特許文献1に記載されている。図6は、特許文献1に記された映像記述子生成装置をあらわすブロック図である。
 フレーム毎特徴量抽出手段1000は、入力される映像からフレーム単位特徴量を算出し、特徴量テーブル作成手段1010へ出力する。特徴量テーブル作成手段1010は、フレーム毎特徴量抽出手段1000から出力されるフレーム単位特徴量から特徴量テーブルを作成し、映像記述子として出力する。
 次に、図6に示す装置の動作について説明する。
 フレーム毎特徴量抽出手段1000では、入力される映像から、フレーム毎に色などの特徴量を抽出する処理を行う。得られた特徴量はフレーム単位特徴量として特徴量テーブル作成手段1010へ出力される。
 特徴量テーブル作成手段1010では、フレーム間の特徴量の変動を閾値処理して、特徴量の時間方向の圧縮を行う。具体的には、フレーム単位特徴量のフレーム間の差分を算出し、それが一定の許容変動範囲内に収まっているかどうかを判定する。そして、映像を許容変動範囲内に収まっている時間区間ごとに分割する。分割した各時間区間に対して、特徴量と時間区間長(フレーム数)の組を映像記述子として出力する。
 このようにすることで、フレーム単位で求めた映像の特徴量を時間方向に圧縮することができ、特徴量サイズの削減が可能になる。また、高速なマッチングを可能とする。
特開平10-320400号公報
 しかしながら、上記の方式には、時間的な変化(動き)が乏しいシーンでの性能が悪いという課題がある。その理由は、特徴量のフレーム間変動が許容範囲内であれば、フレーム個々の特徴量の差異は無視し、その区間の代表値で代表させているためである。このため、時間的な変化が乏しいシーンでは、全て同じ特徴量に丸められてしまい、動画像検索の際にこのようなシーンでの性能が低くなる。
[発明の目的]
 本発明の目的は、時間的な変化(動き)の乏しい動画像から生成される映像記述子は識別力が低下する、という課題を解決する映像記述子生成装置を提供することにある。
 本発明の一形態にかかる映像記述子生成装置は、フレームまたはフィールドであるピクチャ毎に映像から特徴量を抽出し、ピクチャ毎特徴量を出力するピクチャ毎特徴量抽出手段と、上記ピクチャ毎特徴量からピクチャ間の特徴量の差分であるピクチャ間特徴量差分を差分特徴量として算出するとともに、上記差分特徴量が有する情報量を表す差分特徴情報量を算出するピクチャ間特徴量差分算出手段と、上記映像から追加する特徴量を追加特徴量として算出する追加特徴量抽出手段と、上記差分特徴情報量の大きさが一定の基準より小さい場合には、上記差分特徴量に加えて上記追加特徴量も含んで映像記述子を構成する特徴量統合手段とを有する。
 本発明は上述したように構成されているため、時間的な変化(動き)の乏しい動画像から生成される映像記述子の識別力を高めることができる効果がある。
本発明の第1の発明を実施するための実施の形態の構成を示すブロック図である。 本発明の第2の発明を実施するための実施の形態の構成を示すブロック図である。 ピクチャ間特徴量差分算出手段110の一実施の形態の構成を示すブロック図である。 ピクチャ間特徴量差分算出手段110の別の実施の形態の構成を示すブロック図である。 ピクチャ毎特徴量算出方式の例を示す図である。 本発明に関連する映像記述子生成装置の構成を示すブロック図である。
 次に、発明を実施するための形態について図面を参照して詳細に説明する。
 図1を参照すると、本発明の第1の実施の形態の映像記述子生成装置が示されており、ピクチャ毎特徴量抽出手段100と、ピクチャ間特徴量差分算出手段110と、特徴量追加判定手段120と、追加特徴量抽出手段130と、特徴量統合手段140とからなる。
 ピクチャ毎特徴量抽出手段100は、入力される映像からピクチャ毎の特徴量を算出し、ピクチャ毎特徴量をピクチャ間特徴量差分算出手段110へ出力する。ピクチャ間特徴量差分算出手段110は、ピクチャ毎特徴量抽出手段100から出力されるピクチャ毎特徴量から差分特徴量を生成して特徴量統合手段140へ出力するとともに、差分特徴量の情報量(差分特徴情報量と呼ぶ)を記述する情報(差分特徴情報量情報と呼ぶ)を特徴量追加判定手段120へ出力する。特徴量追加判定手段120は、ピクチャ間特徴量差分算出手段110から出力される差分特徴情報量情報から、特徴量追加の必要性を判定し、特徴量追加が必要な場合は特徴量追加判定情報を特徴量統合手段140へ出力する。追加特徴量抽出手段130は、映像から追加する特徴量である追加特徴量を算出し、特徴量統合手段140へ出力する。特徴量統合手段140は、特徴量追加判定手段120から出力される特徴量追加判定情報に基づいて、ピクチャ間特徴量差分算出手段110から出力される差分特徴量と、追加特徴量抽出手段130から出力される追加特徴量とを統合し、映像記述子を出力する。
 次に、図1に示す第1の実施の形態の動作について詳細に説明する。
 まず、映像は、ピクチャ毎特徴量抽出手段100へ入力される。元の映像が符号化されている場合には、復号器によって復号されてから、フレームあるいはフィールドからなるピクチャ単位でデータが入力されるものとする。
 ピクチャ毎特徴量抽出手段100では、ピクチャ毎の特徴量ベクトルを算出する。ピクチャを1枚の静止画とみなし、この色や模様、形などの特徴を示す視覚特徴量のベクトルを抽出する。算出された特徴量ベクトルは、ピクチャ毎特徴量としてピクチャ間特徴量差分算出手段110へ出力される。
 この特徴量としては、ピクチャ単位で色や模様、形などの特徴を示す視覚特徴量であれば、どのようなものでもよい。例えば、カラーレイアウトやエッジヒストグラムなど、MPEG-7 Part 3で記載されている視覚特徴量をこの目的で使用することができる。
 ピクチャ間特徴量差分算出手段110では、入力されるピクチャ毎の特徴量を表す特徴量間で差分を算出する。すなわち、時間的に隣接するピクチャ間で特徴量ベクトル間の差分を計算し、差分特徴量ベクトルを求める。次に、この差分特徴量ベクトルを記述するのに要する情報量を差分特徴情報量として算出する。ピクチャ間特徴量差分算出手段110の動作の詳細については後述する。
 算出された差分特徴量は、特徴量統合手段140へ出力される。一方、差分特徴情報量を記述する差分特徴情報量情報は特徴量追加判定手段120へ出力される。
 特徴量追加判定手段120では、ピクチャ間特徴量差分抽出手段110から出力される差分特徴情報量情報に基づいて、特徴量の追加の必要性の有無を判定し、特徴量追加判定情報を出力する。具体的には、差分特徴情報量情報によって記述される差分特徴情報量が一定の閾値以内の場合には、ピクチャ間での差分が小さく、シーンのダイナミズムが小さいと考えられるため、特徴量を追加することをシグナリングする情報を特徴量追加判定情報として出力する。ただし、一対の連続ピクチャ間での差分特徴情報量のみを用いて判定を行うと、偶然1ピクチャだけ前のピクチャとの差分が小さくなった場合でも特徴量を追加することになる。これを避けるために、一定数(3ピクチャ以上)の連続ピクチャ間で差分特徴情報量が小さい状態が続いた場合にのみ、特徴量を追加することをシグナリングする情報を特徴量追加判定情報として出力するようになっていてもよい。この場合、特徴量の追加のシグナリングは、差分特徴情報量が小さくなった最初のピクチャから行うようになっていてもよいし、判定を行ったピクチャから行うようになっていてもよい。判定結果を表す特徴量追加判定情報は、特徴量統合手段140へ出力される。
 一方、追加特徴量抽出手段130では、入力される映像から追加の特徴量を抽出する。追加する特徴量としては、ピクチャ毎特徴量抽出手段100において抽出する特徴量と同種の特徴量をより詳細に抽出したものであってもよいし、全く別のものであってもよい。前者の例としては、例えば、ピクチャ毎特徴量抽出手段100において大きなブロック単位でのエッジ特徴量を抽出するようにし、追加特徴量抽出手段130では、それよりも小さなブロック単位でのエッジ特徴量を抽出するようにする。後者の例としては、ピクチャ毎特徴量抽出手段100においては色特徴量を抽出するようにしておき、追加特徴量抽出手段130では、エッジ特徴量を抽出するようにしてもよい。あるいは、追加特徴量抽出手段130で抽出する特徴量は、ピクチャ毎に算出される特徴量ではなくてもよい。例えば、ピクチャ間で動き推定を行い、ピクチャ間での動き量を特徴量としたものであってもよい。あるいは、このピクチャ間での動き量を連続数ピクチャ間で算出しておき、これに統計処理を行って特徴量を算出する方式であってもよい。このようにして算出された追加特徴量は、特徴量統合手段140へ出力される。
 特徴量統合手段140では、特徴量追加判定手段120から出力される特徴量追加判定情報に基づいて、ピクチャ間特徴量差分抽出手段110から出力される差分特徴量と追加特徴量抽出手段130から出力される追加特徴量とを統合し、映像記述子を生成する。特徴量追加判定情報が特徴量を追加することをシグナリングする場合にのみ追加特徴量を映像記述子に加えるようにし、それ以外のときは、差分特徴量のみを映像記述子に加えるようにする。この際、差分特徴量、追加特徴量とも、適切な符号化を行って映像記述子を生成する。差分特徴量の符号化では、後述するピクチャ間特徴量差分算出手段110の説明で述べるような様々な差分符号化方式を用いることができる。追加特徴量についても特徴量の値の発生に偏りがある場合には、ハフマン符号化や算術符号化などのエントロピー符号化を用いることで、記述子のサイズを小さくすることができる。
 次に、ピクチャ間特徴量差分算出手段110の実施の形態について図3を参照して述べる。
 図3を参照すると、ピクチャ間特徴量差分算出手段110の実施の形態が示されており、記憶素子300、減算器310、差分特徴情報量算出手段320からなる。
 記憶素子300は、入力されるピクチャ毎特徴量を1ピクチャ分記憶しており、記憶しているピクチャ毎特徴量を参照ピクチャ特徴量として減算器310へ出力する。減算器310は、入力されるピクチャ毎特徴量から、記憶素子300から出力される参照ピクチャ特徴量を減算し、差分特徴量を出力する。差分特徴情報量算出手段320は、減算器310から出力される差分特徴量を入力とし、差分特徴情報量情報を出力する。
 次に、図3に示すピクチャ間特徴量差分算出手段110の動作について述べる。
 記憶素子300には、一つ前のピクチャのピクチャ毎特徴量が記憶されており、差分を計算する際には、参照ピクチャ特徴量として、減算器310へ出力する。減算器310では、入力されるピクチャ毎特徴量から、参照ピクチャ特徴量を減算し、差分特徴量を算出する。具体的には、時刻tにおける特徴量ベクトルをV(t)、ピクチャ間の時間間隔をT、差分ベクトルをD(t)とすると、
[数1]
D(t)=V(t)-V(t-T)
により、差分特徴量を算出する。D(t)を算出した後、記憶素子300における特徴量は、現在時刻のピクチャ毎特徴量で上書きされる。この特徴量は、時刻t+Tの差分特徴量を算出する際に、参照ピクチャ特徴量として用いられる。
 算出された差分特徴量D(t)は、差分特徴情報量算出手段320へも入力される。差分特徴情報量算出手段320では、差分特徴量ベクトルD(t)の値から差分特徴量の情報量(つまり差分特徴情報量)を推測し、これを記述する情報(つまり差分特徴情報量情報)を求めて出力する。ここで、差分特徴情報量情報は、D(t)を実際に差分符号化したと仮定した場合に推測される発生符号量であってもよい。あるいは、D(t)のうちで差分が生じた特徴量ベクトルの要素の数とその差分量のように、発生符号量そのものではないが、符号量の大小との相関が大きい量であってもよい。あるいは、実際に差分符号化を行って算出した符号量の実測値であってもよい。この際、用いる差分符号化としてはどのようなものを用いても良い。例えば、特徴量ベクトルの次元ごとに、差分値の出現確率をあらかじめ学習データを用いて算出しておき、この確率を用いて、ハフマン符号化や算術符号化により、差分符号化を行ってもよい。あるいは、特徴量ベクトルのうち、差分が生じた要素(次元)のみ、差分値をその要素のインデックスとともに符号化するようにしてもよい。
 次に、ピクチャ間特徴量差分算出手段110の別の実施の形態について図4を参照して述べる。
 図4を参照すると、ピクチャ間特徴量差分算出手段110の実施の形態が示されており、記憶素子300、減算器310、ピクチャ毎特徴情報量算出手段400、比較器410、差分特徴情報量算出手段420、スイッチ430からなる。
 記憶素子300、減算器310の接続関係は、図3に示すピクチャ間特徴量差分算出手段110と同様である。ピクチャ毎特徴情報量算出手段400は、ピクチャ毎特徴量を入力とし、ピクチャ毎特徴量の情報量(ピクチャ毎特徴情報量と呼ぶ)を比較器410へ出力する。差分特徴情報量算出手段420は、減算器310から出力される差分特徴量を入力とし、差分特徴情報量を比較器410へ出力するとともに、差分特徴情報量情報を出力する。比較器410では、ピクチャ毎特徴情報量算出手段400から出力されるピクチャ毎特徴情報量と、差分特徴情報量算出手段420から出力される差分特徴情報量とを比較し、特徴量選択信号をスイッチ430へ出力する。スイッチ430へは、ピクチャ毎特徴量と、減算器310から出力される差分特徴量とが入力され、比較器410から出力される特徴量選択信号に基づいていずれか一方を選択し、差分特徴量として出力する。
 次に、図4に示すピクチャ間特徴量差分算出手段110の動作について述べる。
 記憶素子300、減算器310、差分特徴情報量算出手段320については、図3のものと同様である。
 ピクチャ毎特徴情報量算出手段400では、特徴量V(t)の値からピクチャ毎特徴量の情報量(つまりピクチャ毎特徴情報量)を推測する。このピクチャ毎特徴は、V(t)から推測される発生符号量であってもよいし、実際に符号化を行って算出した符号量の実測値であってもよい。この際の符号化は、上述の差分符号化の場合と同様のエントロピー符号化を適用することができる。あるいは、V(t)の値によらず、発生符号量がほぼ一定の場合には、符号量として固定値を用いてもよい。得られたピクチャ毎特徴情報量は、比較器410へ出力される。
 一方、差分特徴情報量算出手段420の動作は、図3の差分特徴情報量算出手段320と同等であり、差分特徴情報量とそれを記述する差分特徴情報量情報を算出する。差分特徴情報量算出手段320との違いは、差分特徴情報量も出力する点である。得られた差分特徴情報量は、比較器410へ出力される。
 比較器410では、ピクチャ毎特徴情報量算出手段400から出力されるピクチャ毎特徴情報量と、差分特徴情報量算出手段420から出力される差分特徴情報量とを比較する。そして、小さい方の値を選択し、スイッチ430を制御する信号を出力する。すなわち、ピクチャ毎特徴情報量の方が小さいときには、スイッチ430はピクチャ毎特徴量に接続するようにし、差分特徴情報量の方が小さいときには、スイッチ430は減算器310から出力される差分特徴量に接続するように制御される。
 次に、第1の実施の形態の効果について説明する。
 第1の実施の形態では、ピクチャ間の特徴量差分が小さく、性能の低下が予想される場合には、追加特徴量を挿入する構成になっているため、時間方向の変化が乏しいシーンであっても、識別能力を上げることができ、検索時の性能を向上させることができる。さらに、特徴量の追加は、ピクチャ間での特徴量差分が小さい場合に限られるため、不要に特徴量の大きさを増やすことなく、性能向上を実現できる。
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
 図2を参照すると、本発明の第2の実施の形態の映像記述子生成装置が示されており、ピクチャ毎特徴量抽出手段100と、ピクチャ間特徴量差分算出手段110と、特徴量追加判定手段120と、追加特徴量抽出手段230と、特徴量統合手段240とからなる。
 ピクチャ毎特徴量抽出手段100、ピクチャ間特徴量差分算出手段110、特徴量追加判定手段120の接続関係は図1の映像記述子生成装置と同様である。ただし、特徴量追加判定手段120の出力は、追加特徴量抽出手段230へも入力される。追加特徴量抽出手段230は、特徴量追加判定手段120から出力される特徴量追加判定情報に基づいて、入力される映像から追加特徴量を抽出し、特徴量統合手段140へ出力する。特徴量統合手段240は、ピクチャ間特徴量差分算出手段110から出力される差分特徴量と追加特徴量抽出手段230から出力される追加特徴量とを統合し、映像記述子を出力する。
 次に、本発明の第2の実施の形態の動作について詳細に説明する。ピクチャ毎特徴量抽出手段100と、ピクチャ間特徴量差分算出手段110と、特徴量追加判定手段120の動作は図1の映像記述子生成装置と同様である。
 追加特徴量抽出手段230の動作も、基本的には図1の映像記述子生成装置の追加特徴量抽出手段130と同様であるが、特徴量追加判定手段120から出力される特徴量追加判定情報に基づいて動作する点が異なる。すなわち、特徴量追加判定情報が特徴量の追加をシグナリングしたときにのみ、追加特徴量を抽出する。それ以外のときは、特徴量を抽出しない。抽出された追加特徴量は、特徴量統合手段240へ出力される。
 特徴量統合手段240の動作も、基本的には、図1の映像記述子生成装置の特徴量統合手段140と同様であるが、追加特徴量抽出手段230から断続的に出力される追加特徴量を差分特徴量と統合して映像記述子を生成する点が異なる。この統合は、特徴量追加判定手段120から出力される特徴量追加判定情報が特徴量の追加をシグナリングしたときに実行される。
 第2の実施の形態では、追加特徴量の算出は、追加特徴量が実際に必要な場合のみに限定されるため、より効率的に映像記述子を生成できる。
 次に、本発明の第3の実施の形態を説明する。
 図5は、ピクチャから特徴量を抽出する方式の一例を示している。この方式では、ピクチャ内の任意の2領域をペアとして予め定めておき、ペアとなった2領域間での特徴量の差を特徴量ベクトルとする。ここで、各領域ペアをP1,P2,P3,…と表し、n番目のペアPnから定まる特徴量をVnで表すことにする。領域ペアのとり方は、図に示すように、様々な形・位置の領域の組み合わせがあり得る。そして、PnからVnを求める方法も様々な方法が考えられる。例えば、各ペアで斜線の領域と網線をつけた各領域内で輝度の平均値を算出し、その大小関係でVnの値を決定する方法がある。具体的には、斜線の領域内で求めた平均輝度値から網線の領域内で求めた平均輝度値を引いて差を求め、差が正のときにVn=1とし、負のときにVn=-1とする。あるいは、差の絶対値が閾値より小さい場合は0とし、Vnを3値で表すようにしてもよい。
 図1のピクチャ毎特徴量抽出手段100では、上述の処理をN個の各ペアに対して行うことにより、N次元の特徴量ベクトルVnを求める。次に、ピクチャ間特徴量差分算出手段110では、前のピクチャと現在のピクチャとの間でVnの差分を求め、差分特徴量として出力する。同時に、差分特徴量の次元のうち、差分が0以外となる次元数をカウントし、この数を差分特徴情報量情報として出力する。特徴量追加判定手段120では、差分特徴情報量情報の値が一定の閾値TH以下の場合には、特徴量の追加をシグナリングする。一方、追加特徴量としても、図5と同じ方法で求めた特徴量を用いることができる。例えば、ピクチャ毎特徴量抽出手段100とは異なるM通りのペアを用いて追加特徴量抽出手段130でも同様に特徴量を算出する。そして、特徴量の追加がシグナリングされた場合には、特徴量統合手段140で、差分特徴量と追加特徴量の両方をつなげて統合して映像記述子を生成する。この場合には、もともとの特徴量N次元に対し、追加特徴量が追加されるフレームでは、さらにM次元の特徴量が用いられることになる。
 この際、差分特徴量に対して様々な差分符号化が適用可能であるが、例えば、前のピクチャと値が異なる次元に対して、その次元のインデックスと、差分の値をペアで符号化する方式を用いることができる。もともとのVnのとりえる値が上述のように、-1,0,1の3値の場合には、前ピクチャの値が確定している状況では、差分としてとりえる値は2通り(たとえば、前のピクチャで値が1の場合は、差分は-1か-2のいずれか)のため、この2値を区別するための情報が1ビットにより、差分を表すことができる。このように、差分の符号化を行うことができる。
 ここで述べた例では、追加特徴量として同種の特徴量を用いる場合について述べたが、追加特徴量は別の特徴量でもよい。例えば、ピクチャ間で動きベクトルを算出し、この統計量を特徴量として用いてもよい。
 以上本発明の実施の形態について説明したが、本発明は以上の例にのみ限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。例えば、ピクチャ間特徴量差分算出手段110は、一定のピクチャ周期で、差分特徴量の代わりにピクチャ毎特徴量を特徴量統合手段140へ出力するようにしても良い。具体的な実現方法としては、図4のピクチャ間特徴量差分算出手段110の場合、比較器410が、過去一定のピクチャ周期内にピクチャ毎特徴量を選択する信号をスイッチ430に出力したか否かを判定し、若し出力していなければ、比較判定の結果にかかわらず、ピクチャ毎特徴量を選択する信号をスイッチ430に出力するようにすればよい。また、図3のピクチャ間特徴量差分算出手段110の場合、入力のピクチャ毎特徴量と減算器310から出力される差分特徴量とを入力とし、その何れか一方を特徴量統合手段140へ出力するスイッチと、一定のピクチャ周期内で1回だけ入力のピクチャ毎特徴量を選択する制御信号を前記スイッチへ出力し、それ以外は差分特徴量を選択する制御信号を前記スイッチへ出力するスイッチ制御手段とを設ければよい。
 また、本発明の映像記述子生成装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における映像記述子生成装置として機能させる。
 なお、本発明は、日本国にて2009年1月23日に特許出願された特願2009-12809の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
 本発明によれば、類似あるいは同一の映像を多くの映像中から高精度に検索するといった用途に適用できる。特に、映像の同一区間検索については、ネットワーク上に流通する違法にコピーされた動画像を識別する用途や、実際の放送波で流されているCMを同定するといった用途に用いることができる。
 100…ピクチャ毎特徴量抽出手段
 110…ピクチャ間特徴量差分算出手段
 120…特徴量追加判定手段
 130…追加特徴量抽出手段
 140…特徴量統合手段
 230…追加特徴量抽出手段
 240…特徴量統合手段
 300…記憶素子
 310…減算器
 320…差分特徴情報量算出手段
 400…ピクチャ毎特徴情報量算出手段
 410…比較器
 420…差分特徴情報量算出手段
 430…スイッチ
 1000…フレーム毎特徴量抽出手段
 1010…特徴量テーブル作成手段

Claims (19)

  1.  フレームまたはフィールドであるピクチャ毎に映像から特徴量を抽出し、ピクチャ毎特徴量を出力するピクチャ毎特徴量抽出手段と、
     前記ピクチャ毎特徴量からピクチャ間の特徴量の差分であるピクチャ間特徴量差分を差分特徴量として算出するとともに、前記差分特徴量が有する情報量を表す差分特徴情報量を算出するピクチャ間特徴量差分算出手段と、
     前記映像から追加する特徴量を追加特徴量として算出する追加特徴量抽出手段と、
     前記差分特徴情報量の大きさが一定の基準より小さい場合には、前記差分特徴量に加えて前記追加特徴量も含んで映像記述子を構成する特徴量統合手段と
    を有することを特徴とする映像記述子生成装置。
  2.  前記追加特徴量抽出手段は、前記差分特徴情報量の大きさが一定の基準より小さい場合にのみ追加特徴量を算出する
    ことを特徴とする請求項1に記載の映像記述子生成装置。
  3.  前記ピクチャ間特徴量差分算出手段は、前記ピクチャ毎特徴量が有する情報量であるピクチャ毎特徴量情報量と前記差分特徴情報量とを比較し、前記差分特徴情報量の方が大きい場合には、前記ピクチャ毎特徴量を前記差分特徴量として算出する
    ことを特徴とする請求項1または請求項2に記載の映像記述子生成装置。
  4.  前記ピクチャ毎特徴量情報量と前記差分特徴情報量は、実際の符号化を行って符号量を計測することによって算出する
    ことを特徴とする請求項3に記載の映像記述子生成装置。
  5.  前記一定の基準では、ピクチャ単位で前記差分特徴情報量の大きさを判定する
    ことを特徴とする請求項1乃至4の何れか1項に記載の映像記述子生成装置。
  6.  前記一定の基準では、一定数の連続したピクチャにおける前記差分特徴情報量によって大きさを判定する
    ことを特徴とする請求項1乃至4の何れか1項に記載の映像記述子生成装置。
  7.  前記追加特徴量は、前記ピクチャ毎特徴量と同種の特徴量であり、前記ピクチャ毎特徴量をより詳細化する特徴量である
    ことを特徴とする請求項1乃至6の何れか1項に記載の映像記述子生成装置。
  8.  前記追加特徴量は、前記ピクチャ毎特徴量と異なる種類の特徴量である
    ことを特徴とする請求項1乃至6の何れか1項に記載の映像記述子生成装置。
  9.  前記ピクチャ間特徴量差分算出手段は、一定のピクチャ周期で、前記ピクチャ毎特徴量を前記差分特徴量として算出する
    ことを特徴とする請求項1または請求項2に記載の映像記述子生成装置。
  10.  フレームまたはフィールドであるピクチャ毎に映像から特徴量を抽出して、ピクチャ毎特徴量を出力し、
     前記ピクチャ毎特徴量からピクチャ間の特徴量の差分であるピクチャ間特徴量差分を差分特徴量として算出するとともに、前記差分特徴量が有する情報量を表す差分特徴情報量を算出し、
     前記映像から追加する特徴量を追加特徴量として算出し、
     前記差分特徴情報量の大きさが一定の基準より小さい場合には、前記差分特徴量に加えて前記追加特徴量も含んで映像記述子を構成する
     を含むことを特徴とする映像記述子生成方法。
  11.  前記追加特徴量の算出では、前記差分特徴情報量の大きさが一定の基準より小さい場合にのみ追加特徴量を算出する
    ことを特徴とする請求項10に記載の映像記述子生成方法。
  12.  前記差分特徴情報量の算出では、前記ピクチャ毎特徴量が有する情報量であるピクチャ毎特徴量情報量と前記差分特徴情報量とを比較し、前記差分特徴情報量の方が大きい場合には、前記ピクチャ毎特徴量を前記差分特徴量として算出する
    ことを特徴とする請求項10または請求項11に記載の映像記述子生成方法。
  13.  前記ピクチャ毎特徴量情報量と前記差分特徴情報量は、実際の符号化を行って符号量を計測することによって算出する
    ことを特徴とする請求項12に記載の映像記述子生成方法。
  14.  前記一定の基準では、ピクチャ単位で前記差分特徴情報量の大きさを判定する
    ことを特徴とする請求項10乃至13の何れか1項に記載の映像記述子生成方法。
  15.  前記一定の基準では、一定数の連続したピクチャにおける前記差分特徴情報量によって大きさを判定する
    ことを特徴とする請求項10乃至13の何れか1項に記載の映像記述子生成方法。
  16.  前記追加特徴量は、前記ピクチャ毎特徴量と同種の特徴量であり、前記ピクチャ毎特徴量をより詳細化する特徴量である
    ことを特徴とする請求項10乃至15の何れか1項に記載の映像記述子生成方法。
  17.  前記追加特徴量は、前記ピクチャ毎特徴量と異なる種類の特徴量である
    ことを特徴とする請求項10乃至15の何れか1項に記載の映像記述子生成方法。
  18.  前記差分特徴情報量の算出では、一定のピクチャ周期で、前記ピクチャ毎特徴量を前記差分特徴量として算出する
    ことを特徴とする請求項10または請求項11に記載の映像記述子生成方法。
  19.  コンピュータを、
     フレームまたはフィールドであるピクチャ毎に映像から特徴量を抽出し、ピクチャ毎特徴量を出力するピクチャ毎特徴量抽出手段と、
     前記ピクチャ毎特徴量からピクチャ間の特徴量の差分であるピクチャ間特徴量差分を差分特徴量として算出するとともに、前記差分特徴量が有する情報量を表す差分特徴情報量を算出するピクチャ間特徴量差分算出手段と、
     前記映像から追加する特徴量を追加特徴量として算出する追加特徴量抽出手段と、
     前記差分特徴情報量の大きさが一定の基準より小さい場合には、前記差分特徴量に加えて前記追加特徴量も含んで映像記述子を構成する特徴量統合手段と
    して機能させるためのプログラム。
PCT/JP2010/000275 2009-01-23 2010-01-20 映像記述子生成装置 WO2010084736A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2010543332A JP4687834B2 (ja) 2009-01-23 2010-01-20 映像記述子生成装置
EP10733344.5A EP2296095B1 (en) 2009-01-23 2010-01-20 Video descriptor generator
CN2010800053140A CN102292727B (zh) 2009-01-23 2010-01-20 视频描述符生成器
KR1020117017321A KR101281850B1 (ko) 2009-01-23 2010-01-20 영상 디스크립터 생성 장치
US12/990,130 US8509303B2 (en) 2009-01-23 2010-01-20 Video descriptor generation device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-012809 2009-01-23
JP2009012809 2009-01-23

Publications (1)

Publication Number Publication Date
WO2010084736A1 true WO2010084736A1 (ja) 2010-07-29

Family

ID=42355794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/000275 WO2010084736A1 (ja) 2009-01-23 2010-01-20 映像記述子生成装置

Country Status (6)

Country Link
US (1) US8509303B2 (ja)
EP (1) EP2296095B1 (ja)
JP (1) JP4687834B2 (ja)
KR (1) KR101281850B1 (ja)
CN (1) CN102292727B (ja)
WO (1) WO2010084736A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5590427B2 (ja) * 2011-03-25 2014-09-17 日本電気株式会社 映像処理システム、映像コンテンツ監視方法、映像処理装置及びその制御方法と制御プログラム
JP2017143425A (ja) * 2016-02-10 2017-08-17 三菱電機株式会社 画像特徴記述子符号化装置、画像特徴記述子復号装置、画像特徴記述子符号化方法及び画像特徴記述子復号方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9358022B2 (en) 2012-05-21 2016-06-07 Noha, Llc Clot removal device and method of using same
CN107221346B (zh) * 2017-05-25 2019-09-03 亮风台(上海)信息科技有限公司 一种用于确定ar视频的识别图片的方法与设备
JP7075013B2 (ja) * 2018-09-05 2022-05-25 日本電信電話株式会社 符号量推定装置、符号量推定方法及び符号量推定プログラム
KR102223269B1 (ko) * 2019-03-19 2021-03-08 오스템임플란트 주식회사 스캔 영역 재탐지를 위한 영상 검색 및 매칭 방법과 이를 수행하는 영상 처리장치
CN110276359A (zh) * 2019-05-24 2019-09-24 天津亿玛科技有限公司 一种特征提取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320400A (ja) 1997-05-16 1998-12-04 Hitachi Ltd 映像の検索方法および装置
JPH11338876A (ja) * 1998-05-27 1999-12-10 Hitachi Ltd 映像検索方法及び装置ならびに記録媒体
JP2006254321A (ja) * 2005-03-14 2006-09-21 Matsushita Electric Ind Co Ltd 人物追尾装置及び人物追尾プログラム
JP2009012809A (ja) 2007-07-04 2009-01-22 Lining Container Co Ltd 組合せ容器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6597738B1 (en) * 1999-02-01 2003-07-22 Hyundai Curitel, Inc. Motion descriptor generating apparatus by using accumulated motion histogram and a method therefor
EP1516264B1 (en) 1999-07-30 2017-05-24 Intellectual Ventures Holding 81 LLC Image retrieval by generating a descriptor for each spot of an image the cells of which having visual characteristics within a selected tolerance
US7054491B2 (en) 2001-11-16 2006-05-30 Stmicroelectronics, Inc. Scalable architecture for corresponding multiple video streams at frame rate
JP2004234613A (ja) 2002-12-02 2004-08-19 Nec Corp 映像記述システムおよび方法、映像識別システムおよび方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320400A (ja) 1997-05-16 1998-12-04 Hitachi Ltd 映像の検索方法および装置
JPH11338876A (ja) * 1998-05-27 1999-12-10 Hitachi Ltd 映像検索方法及び装置ならびに記録媒体
JP2006254321A (ja) * 2005-03-14 2006-09-21 Matsushita Electric Ind Co Ltd 人物追尾装置及び人物追尾プログラム
JP2009012809A (ja) 2007-07-04 2009-01-22 Lining Container Co Ltd 組合せ容器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2296095A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5590427B2 (ja) * 2011-03-25 2014-09-17 日本電気株式会社 映像処理システム、映像コンテンツ監視方法、映像処理装置及びその制御方法と制御プログラム
JP2017143425A (ja) * 2016-02-10 2017-08-17 三菱電機株式会社 画像特徴記述子符号化装置、画像特徴記述子復号装置、画像特徴記述子符号化方法及び画像特徴記述子復号方法

Also Published As

Publication number Publication date
EP2296095B1 (en) 2020-04-08
JPWO2010084736A1 (ja) 2012-07-12
CN102292727A (zh) 2011-12-21
CN102292727B (zh) 2013-10-23
US20110051810A1 (en) 2011-03-03
KR20110099047A (ko) 2011-09-05
EP2296095A1 (en) 2011-03-16
JP4687834B2 (ja) 2011-05-25
EP2296095A4 (en) 2011-06-01
US8509303B2 (en) 2013-08-13
KR101281850B1 (ko) 2013-07-03

Similar Documents

Publication Publication Date Title
JP4687834B2 (ja) 映像記述子生成装置
Sitara et al. Digital video tampering detection: An overview of passive techniques
JP4725690B2 (ja) 映像識別子抽出装置
US7046731B2 (en) Extracting key frames from a video sequence
Babu et al. A survey on compressed domain video analysis techniques
US7469010B2 (en) Extracting key frames from a video sequence
KR100901904B1 (ko) 카메라 움직임 추정 방법 및 비디오 움직임 식별 장치
JP4883226B2 (ja) 映像記述子生成装置
Ding et al. Identification of motion-compensated frame rate up-conversion based on residual signals
JP5573131B2 (ja) 映像識別子抽出装置および方法、映像識別子照合装置および方法、ならびにプログラム
US20150117540A1 (en) Coding apparatus, decoding apparatus, coding data, coding method, decoding method, and program
CN110012350B (zh) 一种视频处理方法及装置、设备、存储介质
JP4985201B2 (ja) 電子機器、動きベクトル検出方法及びプログラム
WO2007036823A2 (en) Method and apparatus for determining the shot type of an image
Nasreen et al. Key frame extraction from videos-A survey
JPH10257436A (ja) 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
JP2009212605A (ja) 情報処理方法、情報処理装置及びプログラム
JP5644505B2 (ja) 照合加重情報抽出装置
US20090268822A1 (en) Motion vector detection by stepwise search
CN104410863B (zh) 图像处理器以及图像处理方法
JP2007531445A (ja) ビデオ処理方法及び対応する符号化装置
JP4835540B2 (ja) 電子機器、映像特徴検出方法及びプログラム
KR20020040503A (ko) 동영상 비디오 스트림의 장면전환 검출방법
Hernandez et al. Movement detection and tracking using video frames
Nugraha et al. Multiple object tracking on static surveillance video using field-based prediction information in MPEG-2 video

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080005314.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10733344

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010733344

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12990130

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010543332

Country of ref document: JP

ENP Entry into the national phase

Ref document number: 20117017321

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE