WO2004068414A1 - 注目物体の出現位置表示装置 - Google Patents

注目物体の出現位置表示装置 Download PDF

Info

Publication number
WO2004068414A1
WO2004068414A1 PCT/JP2003/000735 JP0300735W WO2004068414A1 WO 2004068414 A1 WO2004068414 A1 WO 2004068414A1 JP 0300735 W JP0300735 W JP 0300735W WO 2004068414 A1 WO2004068414 A1 WO 2004068414A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
appearance
image
unit
grayscale
Prior art date
Application number
PCT/JP2003/000735
Other languages
English (en)
French (fr)
Inventor
Takayuki Baba
Daiki Masumoto
Yusuke Uehara
Shuichi Shiitani
Susumu Endo
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to JP2004567509A priority Critical patent/JPWO2004068414A1/ja
Priority to CNB038239108A priority patent/CN100373409C/zh
Priority to PCT/JP2003/000735 priority patent/WO2004068414A1/ja
Publication of WO2004068414A1 publication Critical patent/WO2004068414A1/ja
Priority to US11/077,195 priority patent/US20050162442A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Definitions

  • the present invention relates to an appearance position display device for an object of interest, and particularly to the appearance of an object of interest that displays the appearance position of the object of interest in a moving image in a form suitable for classifying and analyzing features of the moving image.
  • the present invention relates to a position display device.
  • the target object appearance position display device displays the characteristics of each moving image in an easily understandable manner, and is used when searching for a moving image file similar to a specific moving image file. It is used to classify the genres of moving image files, to analyze the relationship between CM and TV program audience ratings, and to analyze the style common to the elephant groups performed by movie directors. It is suitable for
  • FIG. 1 is a diagram illustrating an example of a conventional detection method. Therefore, the user can easily grasp the information on the position of the detected face in the image by looking at the detection result mark of the face detection in the still image: ⁇ . .
  • a face is detected in units of a still image called a frame, which is a basic element constituting the moving image.
  • Such detection methods are described, for example, by Kazuyuki Sakurai, Akira Inoue, and Sa. High-speed binocular pair detection using grayscale features for face detection, Proc. Of the 8th Image Sensing Symposium, pp. 557-562, 2002. Has been proposed. For this reason, similar to that of a still image, the detection result of a face in a moving image is displayed by adding a mark such as a rectangle or a circle to the position where the face of each frame corresponding to the still image is detected. I do.
  • a method of adding a mark to the position of a face detected in a frame unit is as follows.
  • the frame generally exists at 30 frames per second, and a moving image of about 1 minute is about 18 minutes. Since there are 00 frames, the detection result also has a considerable number of frames. Therefore, for each frame of the detection result, the task of visually determining where the face was detected by the user was very complicated and time-consuming. In addition, it was difficult to comprehensively grasp information such as where a large number of faces were detected, for example, throughout the entire moving image. Disclosure of the invention
  • a more specific object of the present invention is to provide a target object appearance position display device that enables the position of a target object in a moving image to be easily grasped.
  • Another object of the present invention is to provide an object detection unit that detects one or a plurality of attention objects specified for each frame of a moving image, and retains position data of each detected attention object.
  • an appearance frequency calculator that calculates the appearance frequency of each object of interest for each position, and a display part that displays the frequency of appearance of each object of interest with the gray value of the corresponding pixel It is to provide a device.
  • the target object appearance position display device of the present invention the target object appearance position in a moving image can be easily grasped. be able to.
  • FIG. 1 is a diagram illustrating an example of a conventional detection method.
  • FIG. 2 is a block diagram showing an embodiment of the target object appearance position display device according to the present invention.
  • FIG. 3 is a flowchart illustrating an example of the operation of the object detection unit.
  • FIG. 4 is a flowchart illustrating one embodiment of the operation of the position data holding unit.
  • FIG. 5 is a flowchart illustrating another embodiment of the operation of the position data holding unit.
  • FIG. 6 is a flowchart for explaining still another embodiment of the operation of the position data holding unit.
  • FIG. 7 is a diagram for explaining the calculation processing of the appearance frequency calculation unit for two frames composed of four pixels.
  • FIG. 8 is a flowchart illustrating a main part of an embodiment of the operation of the appearance frequency calculation unit.
  • FIG. 9 is a flowchart for explaining an embodiment of the operation of the gray scale display section.
  • FIG. 10 is a flowchart illustrating an example of the operation of the image arrangement unit.
  • FIG. 11 is a diagram illustrating the operation of the image arrangement unit.
  • FIG. 12 is a diagram illustrating the classification and arrangement of moving images of an educational program.
  • FIG. 13 is a diagram illustrating the classification and arrangement of moving images of a news program.
  • FIG. 14 is a diagram for explaining a classification / arrangement of a moving image of a drama. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 2 is a block diagram showing an embodiment of the target object appearance position display device according to the present invention.
  • the appearance position display device for the object of interest displays the object of interest from each frame of the moving image.
  • An object to be detected an output unit 11;
  • a position data storage unit 12 for storing the position (coordinates) of the detected object of interest;
  • an appearance frequency calculation unit 13 for calculating the appearance frequency of the object of interest for each position;
  • a highlighting unit 14 that displays the frequency of appearance of the object of interest in terms of the density of the corresponding pixel, and an image roofing unit 15 that automatically classifies and arranges the displayed grayscale images based on the image features. Is provided.
  • each function of the object detection unit 11, the position data holding unit 12, the appearance frequency calculation unit 13, the grayscale display unit 14, and the image placement unit 15 can be realized by Hard-air or software. good.
  • each function of the object detection unit 11, the position data holding unit 12, the appearance frequency calculation unit 13, the display unit 14, and the image arrangement unit 15 is realized by software. It is assumed to be executed by a processor such as a CPU having a well-known information processing device such as a general-purpose computer. Well-known information processing should be at least a CPU and a memory.
  • the object detection unit 11 receives each frame of the moving image as an input, and when a face of a person who is the object of interest appears in the frame, detects and outputs the position of the object of interest. Even if the moving image input to the output unit 1 is captured by a well-known imaging means such as a video camera and input in real time, it is stored in advance in a well-known storage means such as a disk or a memory. The read data may be read and input.
  • the object of interest can be designated by the user in a known manner using an input device such as a keyboard or a mouse of a known information processing device.
  • Various methods have been proposed for detecting a face as an object of interest, and the following detection methods are examples.
  • a color that satisfies a certain threshold is extracted as a skin color using color information in order to determine the appearance of a face in an image.
  • the feature value obtained by Gabor transform of the luminance value and the luminance of the eyes of the face image of the dictionary registered in advance are used.
  • An error between the value and the feature value obtained by Gabor transformation is calculated. If the error is equal to or less than a preset threshold value, the pixel is extracted as an eye. In this way, a face candidate including the extracted eyes is detected as a face.
  • Such a method is proposed in, for example, L. Wiskott et al., "Face recognition by elastic bunch graph matching," PAMI vol. 19, no. 7, pp.
  • the face detection method itself and the target object detection method itself are not particularly limited to the above-described detection methods.
  • the object detection unit 11 may be configured not to detect the target object for all frames of the moving image, but to detect the target object only for frames satisfying the conditions specified in advance.
  • the condition in this case can be, for example, a frame extracted at regular intervals, or a frame having a large change in the image feature amount.
  • the time required for detecting the target object can be increased by detecting the target object only for the frames satisfying the conditions specified in advance.
  • the object detection unit 11 may detect a single object of interest, or may detect a plurality of objects of interest, for example, a person's face and a car! / ,.
  • a method of detecting multiple objects of interest in one process or a method of detecting multiple objects of interest by performing multiple processes of detecting a single object of interest can be adopted. is there.
  • FIG. 3 is a flowchart illustrating an example of the operation of the object detection unit 11.
  • step S1 inputs a moving image
  • step S2 skips a certain number of frame images.
  • Step S3 determines whether or not all frames have been repeated (all frames have been processed). If the result is NO, step S4 determines whether the current frame and the previous frame are Is determined whether or not the force is greater than or equal to the threshold value. If the decision result in the step S4 is NO, the process returns to the step S3. On the other hand, if the decision result in the step S4 is YES, a step S5 inputs a frame image.
  • a step S6 decides whether or not the force is obtained by repeating all the pixels, and if the decision result is YES, the process returns to the step S3. If the result of step S6 is NO, step S7 determines that the number of faces as the object of interest specified by the user is less than or equal to the threshold. The process returns to step S6 if the result is NO. On the other hand, if the decision result in the step S7 is YES, a step S8 extracts a flesh color from the frame image, and a step S9 performs a Gabor transform of the luminance value for each pixel of the extracted flesh color. .
  • step S10 an error is calculated between the feature value obtained by the Gabor transform and the feature value obtained by Gabor transforming the luminance value of the eye portion of the face image of the dictionary registered in advance.
  • step S11 it is determined whether or not the calculated error is equal to or smaller than a threshold. If the decision result in the step S11 is NO, a step S12 decides that a face other than a face is detected, and the process returns to the step S6. On the other hand, if the decision result in the step S11 is YES, a step S13 decides that a face has been detected, and the process returns to the step S6. When the result of the determination in step S3 is YES, the processing in FIG. 3 ends.
  • the position data holding unit 12 holds the coordinates of the position of the target object (face) detected by the object output unit 11. Since there are often a plurality of pixels corresponding to one detected object of interest, for example, all the coordinates of the pixels corresponding to the area of the detected object of interest are held, or the pixel of the detected object of interest is held. Holds the coordinates of a pre-specified location (eg, center of gravity) of the area, or specifies a pre-specified part of the area of the detected object of interest
  • a pre-specified location eg, center of gravity
  • the eyes, nose, mouth, etc. may be stored. Therefore, for example, if you want to remove the effect of a very small object, you can specify in advance the conditions that it is smaller than a certain size and that the object does not hold the coordinates. It can be prevented from being included. Also, by specifying a specific part in the object, it is possible to more accurately grasp the position of the object of interest that generally exists over a plurality of pixels.
  • position data may be held for each condition in order to divide the objects of interest detected for each condition specified in advance and separately count the appearance frequency of each object.
  • the direction of the target object can be specified as a condition, and position data can be held for each direction.
  • various conditions such as a type of the target object and a size of the target object can be designated.
  • FIG. 4 is a flowchart illustrating an embodiment of the operation of the position data holding unit 12. In the figure, step S21 determines whether all the given conditions have been repeated (given The processing was performed under all of the specified conditions.
  • step S22 determines whether or not the force is obtained by repeating all the pixels of the detected object of interest, and if the result is YES, the process proceeds. Returns to step S21. On the other hand, if the result of step S22 is NO, step S23 stores the coordinate values of the pixel in the memory, and the process returns to step S22. When the result of the determination in step S21 is YES, the processing shown in FIG. 4 ends.
  • FIG. 5 is a flowchart illustrating another example of the operation of the position data holding unit 12. 4, the same steps as those in FIG. 4 are denoted by the same reference numerals, and a description thereof will be omitted.
  • step S24 determines whether or not the processing has been repeated for all the objects of interest, and if the determination is YES, the processing returns to step S21. If the decision result in the step S24 is NO, a step S25 calculates the coordinate value of the center of gravity of the detected object of interest. In step S26, the coordinates of the center of gravity are stored in the memory, and the process returns to step S24. When the result of the determination in step S21 is YES, the processing shown in FIG. 5 ends.
  • FIG. 6 is a flowchart illustrating still another embodiment of the operation of the position data holding unit 12.
  • step S27 it is determined whether or not the force is obtained by repeating all the extracted pixels. If the determination result is YES, the process returns to step S21. If the decision result in the step S27 is NO, a step S28 decides whether or not the force is the designated part of the detected object of interest, and if the decision result is NO, the process goes to a step S28. Return to step S27.
  • step S29 saves the coordinate values of the designated part in the memory, and the process returns to the step S27.
  • the processing shown in FIG. 6 ends.
  • the appearance frequency calculation unit 13 calculates the appearance frequency of the object of interest at each coordinate from the position data stored in the position data storage unit 12.
  • the appearance frequency of the target object can be calculated by a calculation process including the following steps ST1 to ST5.
  • ST 2 Count (increment) the number of appearances C of the target object at each coordinate.
  • ST 3 Calculate the sum S of the number of appearances C of the target object.
  • the gray value I R X 255 is calculated by multiplying the appearance rate R of the coordinates by the maximum luminance value (255 in the case of 8 bits).
  • FIG. 7 is a diagram illustrating the above-described calculation processing of the appearance frequency calculation unit 13 for two frames each including four pixels.
  • the triangles indicate the detected pixels of the target object.
  • (a) is the number of appearances of the object of interest in two frames
  • (b) is the number of appearances of the object of interest in two frames
  • (c) is the appearance rate R
  • (d) is the gray value I
  • (e) is described later.
  • the gray level display 0 of the gray level value I displayed by the gray level display section 14 is shown.
  • the detected objects of interest specify them in advance!
  • various conditions such as a type of the target object, a size of the target object, an appearance of the target object 3 ⁇ 4 ⁇ , and the like can be designated.
  • FIG. 8 is a flowchart illustrating a main part of an embodiment of the operation of the appearance frequency calculation unit 13.
  • the grayscale display section 14 displays the grayscale value of each coordinate calculated by the appearance frequency calculation section 13 as luminance information (density value) of the corresponding pixel of the grayscale image to be output on the display section of the general-purpose computer.
  • the appearance frequency calculation unit 13 performs the above-described steps ST1 to ST5
  • the display unit 14 performs a display process consisting of the following step ST6.
  • the gray value I of the target object at each coordinate is set as the luminance information [0 to 255] of the corresponding pixel of the gray image.
  • the frequency of appearance of the objects of interest detected for each predetermined condition is also possible to display the frequency of appearance of the objects of interest detected for each predetermined condition separately in different shades. More specifically, for example, when considering the direction of the target object in different directions, a gray scale indicating the frequency of appearance in the right direction, a gray scale indicating the frequency of appearance in the front direction, and a gray scale indicating the frequency of appearance in the left direction are displayed. By preparing three types of indices, the object of interest can be displayed in different intensities for each condition.
  • the object can be displayed in different shades of color. Specifically, for example, considering the 3 ⁇ 4 ⁇ for each direction of the target object, the appearance frequency in the right direction is displayed in red, the appearance frequency in the front direction is displayed in blue, and the appearance frequency in the left direction is displayed in shades of green. Objects can be displayed in different shades of color.
  • FIG. 9 is a flowchart for explaining an embodiment of the operation of the shade display section 14.
  • step S41 it is determined whether or not all pixels of the object of interest whose appearance frequency has been calculated have been repeated (whether or not all pixels of the object of interest have been processed). If the decision result in the step S41 is NO, a step S42 converts the plurality of gray values I into RGB data by a given function, and the process returns to the step S41. On the other hand, if the decision result in the step S41 is YES, a step S43 displays a grayscale image on the display unit based on the RGB data, and the process ends.
  • the image arrangement unit 15 automatically classifies and arranges the displayed grayscale images based on an arbitrary image feature amount.
  • Methods for automatically classifying and arranging not only grayscale images but also general images in this way have been proposed in the past.
  • One example is Susumu Endo et al., MIRACLES: Multimedia Information Retrieval, Classification, and Exploration System " , In Proc. Of IEEE International Conference on Multimedia and Expo (ICME2002), 2002.
  • the specified image features (color, texture, shape, etc.) are automatically extracted from each image, and the extracted image features of the selected arbitrary image and each image are extracted. It is possible to calculate the amount of error and display images similar to the selected image (with few errors) in order of similarity.
  • the image arrangement unit 15 may classify and arrange the grayscale images by a method other than the above-described classification and arrangement method. Further, since the grayscale image displayed by the grayscale display unit 14 is a combination of general images, it can be input to the image layout unit 15 that adopts a well-known classification and layout method.
  • the position data holding unit 12 and the appearance frequency calculation unit 13 separately count the appearance frequency separately for the object of interest detected for each condition specified in advance, and the density display unit 14
  • the appearance frequency can be displayed as light and shade information by color-coding for each condition. Therefore, for example, the frequency of appearance can be grasped for each direction of the object of interest, and by specifying the direction of the object of interest in the condition, the frequency of appearance of the object of interest facing right is higher than that of the object of interest facing front. In this way, the frequency of appearance can be understood in more detail.
  • FIG. 10 is a flowchart illustrating an example of the operation of the image arrangement unit 15.
  • a step S51 selects a base image from the grayscale images displayed by the grayscale display section 14.
  • step S52 a predetermined feature amount is extracted from the selected image by a known method.
  • step S53 it is determined whether all images have been repeated (all images have been processed). If the decision result in the step S53 is NO, a step S54 extracts a predetermined image feature amount from the unprocessed image by a known method.
  • step S55 the error between the image feature of the selected image extracted in step S52 and the image feature of the image extracted in step S54 is calculated. 5 Return to 3.
  • step S56 all the images are sorted in ascending order of the error.
  • step S57 all the images are displayed on the display unit in the sorted order, and the process ends.
  • the image arrangement unit 15 performs classification and arrangement based on the grayscale image displayed on the display unit by the grayscale display unit 14, but the grayscale display unit 14 outputs the grayscale. Sort and arrange images directly Needless to say, the results may be displayed on the display unit.
  • the image arrangement unit 15 automatically classifies, arranges and displays the grayscale information obtained from the grayscale display unit 14 based on the image feature amount. Therefore, for example, by classifying and arranging gray images similar to a certain gray image A in order, it is possible to efficiently search for a moving image in which the appearance of the attention object is similar to that of the gray image A. It becomes possible. It is also possible to grasp the number of gray images that are similar to some extent, and to grasp how similar the gray images arranged locally are.
  • FIG. 11 is a diagram showing a sorting result in which the grayscale images B to G similar to a certain grayscale image A are classified and arranged in order by the image arrangement unit 15.
  • the arrow indicates the similarity S, and the similarity S decreases as going to the right.
  • the grayscale display section 14 displays the frequency of appearance of a specific object of interest on the basis of the information calculated by the frequency-of-appearance calculation section 13 as the grayscale value of the pixel at f-stand.
  • the grayscale value indicating the frequency of appearance of the target object is automatically calculated from the detection result of the target object for each frame of the moving image, the appearance position of the target object appearing in the moving image is determined by the density distribution. Can be expressed. Therefore, the user can easily visually recognize the appearance position of the target object in the moving image by viewing the density distribution corresponding to each moving image. Therefore, when the user visually classifies and arranges the grayscale information, the image arrangement unit 15 can be omitted.
  • FIG. 12 is a diagram for explaining the classification 'arrangement of moving images of the educational program.
  • FIG. 13 is a diagram illustrating the classification and arrangement of moving images of a news program.
  • Figure 14 is a diagram illustrating the classification and arrangement of drama moving images.
  • 1 indicates a face as an object of interest, and in each figure, the left side shows a moving image, and the right side shows a corresponding gray-scale image.
  • C 1) Genre classification of moving images With respect to a large number of moving images, moving images having similar grayscale information can be put together and classified into the same genre according to the present invention. For example, as shown in FIG. 12, a video group of an educational program in which many lectures are mainly given by one instructor has a high density near the center of the screen. In addition, as shown in Fig. 13, a newscaster is broadcast daily with two newscasters appearing. Means that the moving image on any day has a high density near two points on the left and right sides of the screen. Further, as shown in FIG. 14, the grayscale information is uniformly close to a moving image of a program in which a human face appears at various positions such as a drama. As described above, by classifying the moving images having similar grayscale information according to the present invention into the same genre, the moving images can be classified into genres based on the index that the appearance tendency of the human face is similar.
  • C 2 Analysis of commercials (CMs) and programs: This method is used to analyze CMs and programs with a high audience rating to find features and knowledge common to moving images according to the present invention. it can. As an example of knowledge, "a CM with a high audience rating has a high frequency of appearance of a face in the center of the screen" can be considered.
  • the feature of the present invention can be used as one feature used to extract knowledge common to a group of movies (moving images) shot by a certain movie director.
  • An example of knowledge is "Director Y's work tends to have a uniform human face over the entire screen.”
  • the appearance position of a specific object of interest appearing in a moving image can be represented by a density distribution (shade image). It is easy to grasp. Furthermore, since the present invention can provide a grayscale image reflecting the appearance tendency of the object of interest, the obtained grayscale image can be input to the image arranging unit, and the grayscale image can be automatically classified and arranged. For example, it is possible to grasp the similarity between a plurality of moving images related to the appearance tendency of a target object.
  • genre classification of a moving image analysis of CMs and programs, style analysis, and the like are performed by using a new viewpoint of an appearance position of an object of interest (for example, a human face) in the moving image. It is possible to do.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

注目物体の出現位置表示装置は、動画像の各フレームに対して指定された1又は複数の注目物体を検出する物体検出部と、検出された各注目物体の位置データを保持する位置データ保持部と、位置毎に各注目物体の出現頻度を計算する出現頻度計算部と、各注目物体の出現頻度を対応する画素の濃淡値で表示する濃淡表示部とを備えるように構成されている。

Description

注目物体の出現位置表示装置 技術分野
本発明は、 注目物体の出現位置表示装置に係り、 特に動画像中の注目物体の出 現位置を、 動画像の特徴を分類したり分析するのに適した態様で表示する注目物 体の出現位置表示装置に関する。
近年、 テレビ局を代表とする企業等が自社で保有してレ、る各種動画像フアイル や、 個人がビデオで撮像した動画像ファィル等を分類したり分析したりする要望 が増している。
本発明になる注目物体の出現位置表示装置は、 各動画像の特徴を分かり易く表 示するもので、 特定の動画像ファィルに類似した動画像フ了ィルを検索する際に 利用したり、 動画像ファイルのジャンルを分類する際に利用したり、 CMゃテレ ビ番組の視聴率等の関係を分析したり、 映画監督が した 象群に共通する作 風を分析したりする際に利用したりするのに好適である。
背景技術
特定物体の検出方法としては、 人物の顔、 馬や車を検出する様々な方法が提案 されている。 このような特定物体の検出方法は、例えば Henry Schneiderman, "A statistical approach to 3D object detection applied to faces and cars, " CMU-RI-TR-00-06, 2000にて提案されている。 以下の説明では、 説明の便宜上、 特定物体の検出方法の一例として、 よく利用される人物の顔の検出方法を例にと つて説明する。
静止画像や動画像から人物の顔が出現する位置を検出する検出方法としては、 様々な方法が提案されてレヽる。 このような検出方法は、 例えば Ming - Hsuan Yang and Narendra Ahuja, "Face detection and gesture recognition for human- computer interaction, " Kluwer Academic Publishers, ISBN: 0—7923-7409-6, 2001にて提案されている。 このような検出方法の多くは、 図 1に示すように、検 出した顔 1の位置に矩形や円形等の印 2を付与することで検出結果を表示する。 図 1は、 従来の検出方法の一例を説明する図である。 このため、 静止画像に対す る顔の検出の:^、 ユーザは検出結果の印を見ることにより、 画像中のどの位置 に検出した顔があるかという情報を容易に把握することが可能である。
他方、 動画像に対する顔の検出の場合には、 動画像を構成する基本要素である フレームという静止画像単位で顔を検出する が多レヽ。このような検出方法は、 例えば櫻井和之、 井上晃、 佐 顔検出のための濃淡特徴を用いた高速な両目 ペアの検出、 第 8回画像センシングシンポジウム講演論文集、 pp. 557- 562、 2002 にて提案されている。 このため、 動画像に対する顔の検出の も、 静止画像の と同様に、 静止画像に相当する各フレームの顔が検出された位置に矩形や円 形等の印を付与することで検出結果を表示する。
動画像に対する顔の検出結果の表示方法として、 フレーム単位で検出された顔 の位置に印を付与する方法の 、 ·フレームは一般に毎秒 3 0フレーム存在し、 1分程度の動画像でも約 1 8 0 0フレーム存在するため、 検出結果も相当なフレ ーム数となる。 従って、 検出結果の各フレームに対して、 ユーザが目視により顔 がどの位置で検出されたかを する作業は、 非常に煩雑であると共に時間がか 力るという問題があった。 又、 動画像全体を通して、 例えばどの位置に顔が多く 検出されたかといつた情報を総合的に把握することも難しレヽとレヽぅ問題があつた。 発明の開示
そこで、 本発明は、 上記の問題を解決した新規、 且つ、 有用な注目物体の出現 位置表示装置を «することを概括的目的とする。
本発明のより具体的な目的は、 動画像中の注目物体の出現位置を容易に把握す ることを可能とする注目物体の出現位置表示装置を»することにある。
本宪明の他の目的は、 動画像の各フレームに対して指定された 1又は複数の注 目物体を検出する物体検出部と、 検出された各注目物体の位置データを保持する 位置データ保持部と、 位置毎に各注目物体の出現頻度を計算する出現頻度計算部 と、 各注目物体の出現頻度を対応する画素の濃淡値で表示する濃 示部とを備 えた注目物体の出現位置表示装置を提供することにある。 本発明になる注目物体 の出現位置表示装置によれば、 動画像中の注目物体の出現位置を容易に把握する ことができる。
本発明の更に他の目的及び特長は、 以下図面と共に述べる説明より明らかとな ろう。 図面の簡単な説明
図 1は、 従来の検出方法の一例を説明する図である。
図 2は、 本発明になる注目物体の出現位置表示装置の一実施例を示すプロック 図である。
図 3は、 物体検出部の動作の一実施例を説明するフローチヤ一トである。 図 4は、 位置データ保持部の動作の一実施例を説明するフローチャートである 図 5は、位置データ保持部の動作の他の実施例を説明するフ口一チヤ一トであ る。
図 6は、位置データ保持部の動作の更に他の実施例を説明するフローチヤ一ト である。
図 7は、 出現頻度計算部の計算処理を、 4画素からなる 2つのフレームについ て説明する図である。
図 8は、 出現頻度計算部の動作の一実施例の要部を説明するフローチャートで ある。
図 9は、 濃淡表示部の動作の一実施例を説明するフローチヤ一トである。 図 1 0は、 画像配置部の動作の一実施例を説明するフローチャートである。 図 1 1は、 画像配置部の動作を説明する図である。
図 1 2は、 教育番組の動画像の分類 ·配置を説明する図である。
図 1 3は、 ニュース番組の動画像の分類 ·配置を説明する図である。
図 1 4は、 ドラマの動画像の分類'配置を説明する図である。 発明を実施するための最良の形態
図 2は、 本発明になる注目物体の出現位置表示装置の一実施例を示すプロック 図である。 注目物体の出現位置表示装置は、 動画像の各フレームから注目物体を 検出する物 ί«出部 1 1と、 検出された注目物体の位置 (座標) を保持する位置 データ保持部 1 2と、 位置毎に注目物体の出現頻度を計算する出現頻度計算部 1 3と、注目物体の出現頻度を対応する画素の濃 直で表示する濃 示部 1 4と、 表示された濃淡画像を画像特徴量に基づいて自動的に分類 ·配置する画像酉 3置部 1 5とを備える。 この構成により、 注目物体の出現頻度を濃淡情報で表示するこ とが可能となり、 従来のようにユーザが目視により注目物体がどの位置で検出さ れたかを確認する煩雑で時間のかかる作業が不要となり、 簡単に動画像中の注目 物体の出現位置を把握することができる。
物体検出部 1 1、位置データ保持部 1 2、 出現頻度計算部 1 3、濃淡表示部 1 4及ぴ画像配置部 1 5の各機能は、 ハードゥエアで実現しても、 ソフトウェアで 実現しても良い。 以下の説明では、 説明の便宜上、 物体検出部 1 1、 位置データ 保持部 1 2、 出現頻度計算部 1 3、 濃 «示部 1 4及び画像配置部 1 5の各機能 がソフトウェアで実現され、 汎用コンピュータ等の周知の情報処¾置の C P U 等のプロセッサにより実行されるものとする。 尚、 周知の情報処¾¾置は、 少な くとも C P U及ぴメモリからなれば良レヽ。
注目物体としては、 人物の顔、 馬、 車等の様々な物体が考えられるが、 ここで は説明の便宜上、 注目物体が人物の顔である場合を例にとって説明する。
物体検出部 1 1では、 動画像の各フレームを入力として受け取り、 フレーム中 に注目物体である人物の顔が出現する場合には、 その注目物体の位置を検出して 出力する。 物 ί機出部 1に入力される動画像は、 ビデオカメラ等の周知の撮像手 段により撮像されてリアルタイムで入力されるものであっても、 予めディスクや メモリ等の周知の格納手段に格納されたものが読み出されて入力されるものであ つても良い。 又、 注目物体は、 例えば周知の情報処理装置のキーボードやマウス 等の入力装置により周知の方法でユーザにより指定可能である。 注目物体として の顔の検出方法は、 従来より様々なものが提案されているが、 一例として次のよ うな検出方法がある。
先ず、 画像中の顔の候捕を決定するために、 色情報を利用して、 ある閾値を満 足する色を肌色として抽出する。 次に、 抽出された肌色の各画素に対して、 輝度 値をガボール変換した特徴量と、 予め登録された辞書の顔画像の目の部分の輝度 値をガボール変換した特徴量との誤差を計算し、 誤差が予め設定された閾値以下 であれば、 その画素は目であるとして抽出する。 このようにして、 抽出された目 が含まれる顔候補を、顔として検出する。このような方法は、例えば L. Wiskott et al., "Face recognition by elastic bunch graph matching, " PAMI vol. 19, no. 7, pp. 775 - 779, 1997にて提案されている。 この例ではガポール変換した特徴量を用 Vヽた力 単純に輝度値を特徴量として用いてパターンマツチングする方法もある。 顔の検出方法自体及び注目物体の検出方法自体は、 特に上記の検出方法に限定 されるものではないことは、 言うまでもない。
物体検出部 1 1は、動画像の全てのフレームに対して注目物体の検出を行わず、 予め指定した条件を満たすフレームだけを対象として注目物体の検出を行う構成 としても良い。 この場合の条件としては、 例えば一定間隔毎に抽出したフレーム を対象にしたり、 画像特徴量の変ィ匕が大きいフレームを対象としたりすることが 可能である。 このように、 予め指定した条件を満たすフレームだけを対象として 注目物体の検出を行うことにより、 注目物体の検出に要する時間を^すること ができる。
更に、 物体検出部 1 1は、 単一の注目物体を検出しても、 例えば人物の顔と車 といつた具合に複数の注目物体を検出しても良!/、。 複数の注目物体を検出する場 合、 1つの処理で複数の注目物体を検出する方法や、 単一の注目物体を検出する 処理を複数回行って複数の注目物体を検出する方法を採用可能である。
図 3は、 物体検出部 1 1の動作の一実施例を説明するフローチャートである。 同図中、 ステップ S 1は、 動画像を入力し、 ステップ S 2は、 一定数のフレーム 画像を飛ばす。 ステップ S 3は、 全フレームを繰り返したか (全フレームが処理 された力) 否かを判定し、 判; ¾ ^果が NOであると、 ステップ S 4は、 現在のフ レームと前のフレームとの^が閾値以上である力否かを判定する。 ステップ S 4の判定結果が NOであると、 処理はステップ S 3へ戻る。 他方、 ステップ S 4 の判定結果が Y E Sであると、 ステップ S 5は、 フレーム画像を入力する。 ステップ S 6は、 全画素を繰り返した力否かを判定し、 判定結果が Y E Sであ ると、 処理はステップ S 3へ戻る。 ステップ S 6の判^果が NOであると、 ス テツプ S 7は、 ユーザにより指定された注目物体である顔の個数が閾値以下であ るカゝ否かを判定し、判^^果が NOであると、処理はステップ S 6へ戻る。他方、 ステップ S 7の判定結果が Y E Sであると、 ステップ S 8は、 フレーム画像から 肌色を抽出し、 ステップ S 9は、 抽出された肌色の各画素に対して輝度値をガボ ール変換する。 ステップ S 1 0は、 ガボール変換により得られる特徴量と予め登 録された辞書の顔画像の目の部分の輝度値をガボール変換した特徴量との誤差を 計算する。 ステップ S 1 1は、 計算された誤差が閾値以下であるカゝ否かを判定す る。 ステップ S 1 1の判定結果が NOであると、 ステップ S 1 2は、 顔以外が検 出されたと判断し、 処理はステップ S 6へ戻る。 他方、 ステップ S 1 1の判定結 果が Y E Sであると、 ステップ S 1 3は、 顔が検出されたと判断し、 処理はステ ップ S 6へ戻る。 ステップ S 3の判定結果が Y E Sになると、 図 3の処理は終了 する。
位置データ保持部 1 2は、 物 ί機出部 1 1で検出された注目物体 (顔) の位置 の座標を保持する。 この 、 検出された 1つの注目物体に相当する画素が複数 存在することが多いので、 例えば検出された注目物体の領域に相当する画素の全 ての座標を保持したり、 検出された注目物体の領域の予め指定された場所 (例え ば重心) の座標を保持したり、 検出された注目物体の領域の予め指定された部位
(例えば顔が注目物体の場合、 目、 鼻、 口等) の座標を保持したりしても良い。 従って、 例えば非常に小さい物体の影響を除去したい には、 ある大きさより 小さレ、物体に対しては座標を保持しなレ、という条件を予め指定しておくことで、 小さい物体が出現頻度に含まれることを防ぐことが可能となる。 又、 物体の中の 特定の部位を指定することで、 一般に複数の画素に跨って存在する注目物体の位 置を、 より正確に把握することが可能となる。
又、 検出された注目物体のうち、 予め指定しておいた条件毎に検出された注目 物体を分けて夫々の出現頻度を別々にカウントするために、 位置データも条件毎 に保持しても良い。 例えば、 条件として注目物体の方向別を指定しておき、 夫々 の方向毎に位置データを保持することができる。 その他の条件としては、 注目物 体の種類別や、 注目物体の大きさ別等、 様々な条件を指定することもできる。 図 4は、 位置データ保持部 1 2の動作の一実施例を説明するフローチャートで ある。 同図中、 ステップ S 2 1は、 与えられた条件を全て繰り返したか (与えら れた条件の全てで処理が行われたカゝ) 否かを判定する。 ステップ S 2 1の判 果が NOであると、 ステップ S 2 2は、 検出された注目物体の全ての画素を繰り 返した力否かを判定し、 判 ¾ ^果が Y E Sであると、 処理はステップ S 2 1へ戻 る。 他方、 ステップ S 2 2の判 诘果が NOであると、 ステップ S 2 3は、 画素 の座標値をメモリに保存し、 処理はステップ S 2 2へ戻る。 ステップ S 2 1の判 定結果が YE Sになると、 図 4に示す処理は終了する。
図 5は、 位置データ保持部 1 2の動作の他の実施例を説明するフローチャート である。 同図中、図 4と同一ステップには同一符号を付し、その説明は省略する。 図 5において、 ステップ S 2 4は、 全ての注目物体について処理を繰り返したか 否かを判定し、 判 果が YE Sであると、 処理はステップ S 2 1へ戻る。 ステ ップ S 2 4の判^ ¾果が NOであると、 ステップ S 2 5は、 検出された注目物体 の重心の座標値を計算する。ステップ S 2 6は、重心の座標値をメモリに保存し、 処理はステップ S 2 4へ戻る。 ステップ S 2 1の判定結果が YE Sになると、 図 5に示す処理は終了する。
図 6は、 位置データ保持部 1 2の動作の更に他の実施例を説明するフローチヤ ートである。 同図中、 図 4と同一ステップには同一符号を付し、 その説明は省略 する。 図 6において、 ステップ S 2 7は、 抽出した全ての画素を繰り返した力否 かを判定し、 判定結果が Y E Sであると、 処理はステップ S 2 1へ戻る。 ステツ プ S 2 7の判定結果が NOであると、 ステップ S 2 8は、 検出された注目物体の 指定された部位である力否かを判定し、 判定結果が NOであると、 処理はステツ プ S 2 7へ戻る。 ステップ S 2 8の判定結果が YE Sであると、 ステップ S 2 9 は、 指定された部位の座標値をメモリに保存し、 処理はステップ S 2 7へ戻る。 ステップ S 2 1の判定結果が Y E Sになると、 図 6に示す処理は終了する。
出現頻度計算部 1 3は、 位置データ保持部 1 2に保持された位置データから、 各座標の注目物体の出現頻度を計算する。 注目物体の出現頻度は、 以下のステツ プ S T 1 〜 S T 5からなる計算処理により計算可能である。
S T 1 :各座標の注目物体の出現数 Cを 0に初期化する。
S T 2 :各座標の注目物体の出現数 Cをカウント (インクリメント) する。 S T 3 :注目物体の出現数 Cの総和 Sを計算する。 S T 4:各座標の注目物体の出現数 Cを Sで割り、出現率 R=C/Sを計算する。
S T 5:座標の出現率 Rに最大輝度値 ( 8ビットの場合には 2 5 5 )をかけるこ とで、 濃淡値 I = R X 2 5 5を計算する。
図 7は、 出現頻度計算部 1 3の上記計算処理を、 4画素からなる 2つのフレー ムについて説明する図である。 同図中、 〇印は、 検出された注目物体の画素を示 す。又、 同図中 (a ) は 2つのフレーム、 (b ) は 2つのフレームに対する注目物 体の出現数 C、 (c ) は出現率 R、 (d)は濃淡値 I、 (e )は後述する濃淡表示部 1 4により濃淡値 Iを表示した の濃^ ¾示0を示す。
検出された注目物体のうち、 予め指定してお!/、た条件毎に検出された注目物体 を分けて出現 を別々にカウントすることもできる。 例えば、 条件として注目 物体の方向別を指定しておけば、 夫々の方向毎に出現頻度をカウントすることが できる。 その他の条件としては、 注目物体の種類別、 注目物体の大きさ別、 注目 物体の出現 ¾ ^等の様々な条件を指定することができる。
図 8は、 出現頻度計算部 1 3の動作の一実施例の要部を説明するフローチヤ一 トである。 同図中、 ステップ S 3 1は、 保持された注目物体の位置データに対し て、 与えられた全ての条件を繰り返したか (与えられた全ての条件で処理が行わ れたか) 否かを判定する。 ステップ S 3 1の判定結果が NOであると、 ステップ S 3 2は、 注目物体の全画素を繰り返した力否かを判定し、 判定結果が Y E Sで あると、 処理は後述するステップ S 3 5へ進む。 他方、 ステップ S 3 2の判定結 果が NOであると、 ステップ S 3 3は、 メモリに保存された注目物体の出現数 C をカウントする。 又、 ステップ S 3 4は、 注目物体の出現数の総和 Sを S = S + Cから求め、 処理はステップ S 3 2へ戻る。
ステップ S 3 5は、 注目物体の全画素を繰り返したか否かを判定し、 判定結果 が Y E Sであると、 処理はステップ S 3 1へ戻る。 ステップ S 3 5の判定結果が NOであると、 ステップ S 3 6は、 メモリに保存された注目物体の出現数 Cを力 ゥントする。 又、 ステップ S 3 7は、 注目物体の出現数の総和 Sを S = S + Cか ら求め、 処理はステップ S 3 5へ戻る。 ステップ S 3 1の判定結果が Y E Sにな ると、 図 8に示す処理は終了する。 出現率 R及び濃淡値 Iは、 上記ステップ S T 4, S T 5と同様に求めることが可能である。 濃淡表示部 1 4は、 出現頻度計算部 1 3で計算した各座標の濃淡値を、 出力す る濃淡画像の該当画素の輝度情報 (濃度値) として上記汎用コンピュータの表示 部に表示する。 出現頻度計算部 1 3が上記ステップ S T 1〜S T 5を行う場合、 濃 示部 1 4は、 次のようなステップ S T 6からなる濃^ ¾示処理を行う。
S T 6 :各座標の注目物体の濃淡値 Iを、 濃淡画像の該当画素の輝度情報 [ 0 〜2 5 5 ] とする。
検出された注目物体のうち、 予め指定してお 、た条件毎に検出された注目物体 の出現頻度を別々の濃淡表示に分けて表示することも可能である。 具体的には、 例えば注目物体の方向別の場合を考えると、右方向の出現頻度を表す濃淡表示と、 正面方向の出現頻度を表す濃 ¾ ^示と、 左方向の出現頻度を表す濃 ¾ ^示の 3種 類の濃 «示を用意することにより、 注目物体を条件毎に別々の濃^ ¾示するこ とができる。
又、 検出された注目物体のうち、 予め指定しておいた条件毎に検出された注目 物体の出現頻度を別々の色に割り当てることにより、 色分けした濃淡で表示する ことも可能である。 具体的には、 例えば注目物体の方向別の ¾ ^を考えると、 右 方向の出現頻度を赤、 正面方向の出現頻度を青、 左方向の出現頻度を緑の濃淡で 表示することにより、 注目物体を色分けした濃淡で表示することができる。
図 9は、 濃淡表示部 1 4の動作の一実施例を説明するフ口一チヤ一トである。 同図中、 ステップ S 4 1は、 出現頻度が計算された注目物体の全画素が繰り返し たか (注目物体の全画素が処理されたか) 否かを判定する。 ステップ S 4 1の判 定結果が NOであると、 ステップ S 4 2は、 複数の濃淡値 Iを与えられた関数に より R G Bデータに変換し、 処理はステップ S 4 1へ戻る。 他方、 ステップ S 4 1の判定結果が Y E Sであると、 ステップ S 4 3は、 R G Bデータに基づいて濃 淡画像を表示部に表示し、 処理は終了する。
画像配置部 1 5は、 表示された濃淡画像を任意の画像特徴量に基づいて自動的 に分類 ·配置する。 濃淡画像に限らず、 一般の画像をこのように自動的に分類 ' 配置する方法は従来より提案されており、 その一例が Susumu Endo et al. , MIRACLES: Multimedia Information Retrieval, Classification, and Exploration System", In Proc. of IEEE International Conference on Multimedia and Expo (ICME2002) , 2002にて提案されている。 この提案された分類 ·配置方法 では、 各画像から指定された画像特徴量 (色、 テクスチャ、 形状等) を自動的に 抽出し、 選択された任意の画像と各画像との抽出された画像特徴量の誤差を計算 し、 選択画像と類似した (誤差が少ない) 画像を類似度順に表示することが可能 である。 尚、 画像配置部 1 5は、 上記の如き分類'配置方法以外の方法で濃淡画 像を分類 '配置しても良い。 又、 濃淡表示部 1 4により表示される濃淡画像は、 一般の画像の部錢合であるため、 周知の分類 ·配置方法を採用する画像配置部 1 5に入力することが可能となる。
上記位置データ保持部 1 2と出現頻度計算部 1 3は、 予め指定しておいた条件 毎に検出された注目物体を分けて出現頻度を別々にカウントして、 上記濃淡表示 部 1 4は、条件毎に色分けして出現頻度を濃淡情報として表示することができる。 従って、 例えば注目物体の向き毎に分けて出現頻度を把握することができ、 条件 で注目物体の向きを指定しておくことにより、 右向きの注目物体が正面向きの注 目物体より出現頻度が高いといった具合に、 より詳細に出現頻度を把握すること が可能となる。
図 1 0は、画像配置部 1 5の動作の一実施例を説明するフローチャートである。 同図中、 ステップ S 5 1は、 濃 «示部 1 4により表示された濃淡画像から、 基 となる画像を選択する。 ステップ S 5 2は、 選択された画像から所定の特徴量を 周知の方法により抽出する。 ステップ S 5 3は、 全画像を繰り返したか (全ての 画像を処理したか)否かを判定する。ステップ S 5 3の判定結果が NOであると、 ステップ S 5 4は、 処理されていない画像から所定の画像特徴量を周知の方法に より抽出する。 又、 ステップ S 5 5は、 ステップ S 5 2で抽出された選択された 画像の画像特徴量と、 ステップ S 5 4で抽出された画像の画像特徴量の誤差を計 算し、 処理はステップ S 5 3へ戻る。
他方、 ステップ S 5 3の判定結果が YE Sであると、 ステップ S 5 6は、 誤差 の昇順に全ての画像をソートする。 又、 ステップ S 5 7は、 ソートされた順に全 ての画像を表示部に表示し、 処理は終了する。 尚、 本実施例では、 画像配置部 1 5は、 濃»示部 1 4により表示部に表示された濃淡画像に基づいて分類 .配置 を行っているが、 濃淡表示部 1 4が出力する濃淡画像を直接分類 ·配置してソー ト結果を表示部に表示するようにしても良いことは言うまでもなレ、。
画像配置部 1 5は、 濃^ ¾示部 1 4から得られた濃淡情報を画像特徴量に基づ レ、て自動的に分類.配置して表示する。 従って、 例えばある濃淡画像 Aに類似し た濃淡画像を順に分類 ·配置することにより、 濃淡画像 Aに対応する動画像と注 目物体の出現具合が似ている動画像を効率的に探すことが可能となる。 又、 ある 程度類似した濃淡画像の数を把握したり、 局所的に配置されている濃淡画像群が どのように類似してレヽるかを把握することも可會 となる。
図 1 1は、 画像配置部 1 5によりある濃淡画像 Aに類似した濃淡画像 B〜Gを 順に分類 *配置したソート結果を示す図である。同図中、矢印は類似度 Sを示し、 右側へ行く程類似度 Sが小さレ、。
濃淡表示部 1 4は、 出現頻度計算部 1 3で計算される情報に基づいて、 特定の 注目物体の出現頻度を f立置の画素の濃淡値で表示する。 つまり、 動画像の各フ レームに対する注目物体の検出結果から、 注目物体の出現頻度を表す濃淡値を自 動的に計算しているので、 動画中に現れる注目物体の出現位置を濃度分布によつ て表現することが可能となる。 このため、 ユーザが各動画像に対応する濃度分布 を見ることにより、 動画像中の注目物体の出現位置を目視により容易に把握する ことが可能となる。 従って、 ユーザが目視により濃淡情報の分類'配置を行う場 合には、 画像配置部 1 5は省略可能である。
ところで、 注目物体として、 例えば動画像に対する人物の顔の出現位置を把握 する必要がある:^としては、 次のような が挙げられる。 図 1 2は、 教育番 組の動画像の分類'配置を説明する図である。 図 1 3は、 ニュース番組の動画像 の分類 ·配置を説明する図である。 図 1 4は、 ドラマの動画像の分類 ·配置を説 明する図である。 図 1 2〜図 1 4中、 1は注目物体である顔を示し、 各図におい て左側が動画像、 右側が対応する濃淡画像を示す。
C 1 ) 動画像のジャンル分類:多数の動画像に対して、 本発明により濃淡情報 が類似している動画像同士をまとめて、 同じジャンルに分類することができる。 例えば、 図 1 2のように、 一人の講師が中心で講義しているシーンが多い教育番 組の動画像群は、 いずれも画面の中心付近の濃度が高い濃 «示となる。 又、 図 1 3のように、 ニュースキャスターが二人出演して毎日放映されるニュース番糸且 は、 どの曜日の動画像も画面の左右二つの点付近の濃度が高い濃 «示となる。 更に、 図 1 4のように、 ドラマのように様々な位置で人物の顔が出現する番組の 動画像に対しては、 濃淡情報が一様に近くなる。 このように、 本発明による濃淡 情報が類似している動画像を同じジャンルに分類することにより、 人物顔の出現 傾向が似て 、るという指標で動画像をジャンル分けすることができる。
C 2 ) コマーシャル (CM) や番組の分析: CMや番組の分析方法として、 視 聴率の高い CMや番組に対して、 本発明により動画像に共通する特徴や知識を見 つけ出すのに利用できる。知識の例として、「視聴率の高かった CMは画面の中心 部に顔が出現する頻度が高レ、」 等が考えられる。
C 3 ) 作風分析:ある映画監督が撮影した映画 (動画像) 群に共通する知識を 抽出するために利用する 1つの特徴量として、 本発明の濃 «示が利用できる。 知識の例として、 「監督 Yの作品は画面全体に一様に人物顔が出現する傾向が強 レ、」 等が考えられる。
以上説明したように、 本発明では、 動画中に現れる特定の注目物体の出現位置 を濃度分布 (濃淡画像) によって表現することが可能であるので、 動画像中に現 れる注目物体の出現位置の把握を容易にすることができる。 更に、 本発明を用い て注目物体の出現傾向を反映した濃淡画像が得られるため、 得られた濃淡画像を 画像配置部に入力して、 濃淡画像を自動的に分類 ·配置することが可能となり、 例えば注目物体の出現傾向に関する複数の動画像間の類似度等を把握することが 可能となる。
従って、 本発明によれば、 動画像中の注目物体 (例えば、 人物の顔) の出現位 置という新たな観点を用いて、 動画像のジャンル分類、 CMや番組の分析、 作風 分析等を実施することが可能となる。
尚、 本発明は、 上記実施例に限定されるものではなく、 本発明の範囲内で種々 の改良及び変更が可能であることは、 言うまでもない。

Claims

請求の範囲
1 . 動画像の各フレームに対して、 指定された 1又は複数の注目物体を検出 する物 ^出部と、
検出された各注目物体の位置データを保持する位置データ保持部と、 位置毎に各注目物体の出現頻度を計算する出現頻度計算部と、
各注目物体の出現頻度を対応する画素の濃淡値で表示する濃 «示部とを備え たことを特徴とする、 注目物体の出現位置表示装置。
2. 嫌己物 f«出部は、 予め指定した条件を満たすフレームだけを対象とし て各注目物体を検出することを特徴とする、 請求の範囲第 1項記載の注目物体の
3. 前記位置データ保持部は、 予め指定した条件を満たす各注目物体の位置 データだけを保持することを特徴とする、 請求の範囲第 1項又は第 2項記載の注 目物体の出現位置表示装置。
4. ttit己位置データ保持部は、 検出された各注目物体のうち、 予め指定され た部位の位置データだけを保持することを特徴とする、 請求の範囲第 1項〜第 3 項のレヽずれか 1項記載の注目物体の出現位置表示装置。
5. IE部位は、 各注目物体の重心又は注目物体が顔の は目であること を特徴とする、 請求の範囲第 4項記載の注目物体の出現位置表示装置。
6. 漏己位置データ保持部及び前記出現頻度計算部は、 検出された各注目物 体のうち、 予め指定された条件毎に検出された注目物体に分けて出現頻度を別々 にカウントすることを特徴とする、 請求の範囲第 1項〜第 5項の 、ずれか 1項記 載の注目物体の出現位置表示装置。
7. 前記濃淡表示部は、 各注目物体の出現頻度を表す際に、 予め指定された 条件毎に濃 »示を分けて表示することを特徴とする、 請求の範囲第 1項〜第 6 項のレ、ずれか 1項記載の注目物体の出現位置表示装置。
8. ΙΐίΐΒ濃献示部は、 各注目物体の出現頻度を表す際に、 予め指定された 条件毎に色分けして濃淡を表示することを特徴とする、 請求の範囲第 1項〜第 6 項のいずれか 1項記載の注目物体の出現位置表示装置。
9. 前記濃 ¾ ^示部により出力された濃淡値の画像を自動的に分類 ·配置し て表示する画像配置部を更に備えたことを特徴とする、 請求の範囲第 1項〜第 8 項のレ、ずれか 1項記載の注目物体の出現位置表示装置。
PCT/JP2003/000735 2003-01-27 2003-01-27 注目物体の出現位置表示装置 WO2004068414A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004567509A JPWO2004068414A1 (ja) 2003-01-27 2003-01-27 注目物体の出現位置表示装置
CNB038239108A CN100373409C (zh) 2003-01-27 2003-01-27 注目物体出现位置显示装置
PCT/JP2003/000735 WO2004068414A1 (ja) 2003-01-27 2003-01-27 注目物体の出現位置表示装置
US11/077,195 US20050162442A1 (en) 2003-01-27 2005-03-11 Target object appearing position display apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/000735 WO2004068414A1 (ja) 2003-01-27 2003-01-27 注目物体の出現位置表示装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/077,195 Continuation US20050162442A1 (en) 2003-01-27 2005-03-11 Target object appearing position display apparatus

Publications (1)

Publication Number Publication Date
WO2004068414A1 true WO2004068414A1 (ja) 2004-08-12

Family

ID=32800794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/000735 WO2004068414A1 (ja) 2003-01-27 2003-01-27 注目物体の出現位置表示装置

Country Status (4)

Country Link
US (1) US20050162442A1 (ja)
JP (1) JPWO2004068414A1 (ja)
CN (1) CN100373409C (ja)
WO (1) WO2004068414A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010040133A (ja) * 2008-08-07 2010-02-18 Yokogawa Electric Corp 半導体メモリ検査装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6210234B2 (ja) * 2012-09-19 2017-10-11 日本電気株式会社 画像処理システム、画像処理方法及びプログラム
JP6036601B2 (ja) * 2013-08-09 2016-11-30 株式会社デンソー 画像処理装置及び画像処理方法
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6448181A (en) * 1987-08-19 1989-02-22 Hitachi Ltd Method and device for discriminating moving body
JP2000222583A (ja) * 1999-01-29 2000-08-11 Victor Co Of Japan Ltd 画像処理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59112217A (ja) * 1982-11-29 1984-06-28 Toshiba Corp 寸法測定方法
JPS59163506A (ja) * 1983-03-09 1984-09-14 Hitachi Ltd 電子ビ−ム測長装置
JPH0741086B2 (ja) * 1986-08-01 1995-05-10 日本フア−ネス工業株式会社 運動動作解析装置
JPH0785079B2 (ja) * 1986-11-25 1995-09-13 株式会社日立製作所 魚態監視装置
JP3139100B2 (ja) * 1992-02-13 2001-02-26 日本電気株式会社 多地点画像通信端末装置および多地点対話方式
JP3263749B2 (ja) * 1993-07-27 2002-03-11 ソニー株式会社 デジタル画像信号の記録装置
US5519618A (en) * 1993-08-02 1996-05-21 Massachusetts Institute Of Technology Airport surface safety logic
KR0181063B1 (ko) * 1995-04-29 1999-05-01 배순훈 특징점을 이용한 움직임 보상에서의 그리드 형성방법 및 장치
US6259960B1 (en) * 1996-11-01 2001-07-10 Joel Ltd. Part-inspecting system
CN1244021C (zh) * 1996-11-28 2006-03-01 株式会社尼康 光刻装置和曝光方法
JP3134845B2 (ja) * 1998-07-03 2001-02-13 日本電気株式会社 動画像中の物体抽出装置及び方法
JP2001267389A (ja) * 2000-03-21 2001-09-28 Hiroshima Nippon Denki Kk 半導体メモリ生産システム及び半導体メモリ生産方法
JP4865147B2 (ja) * 2001-05-29 2012-02-01 エスアイアイ・ナノテクノロジー株式会社 ディスプレイ顕微鏡画像を用いたパターン測定方法及び測定システム
GB2421094A (en) * 2004-12-09 2006-06-14 Sony Uk Ltd Generating reduced feature vectors for information retrieval

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6448181A (en) * 1987-08-19 1989-02-22 Hitachi Ltd Method and device for discriminating moving body
JP2000222583A (ja) * 1999-01-29 2000-08-11 Victor Co Of Japan Ltd 画像処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010040133A (ja) * 2008-08-07 2010-02-18 Yokogawa Electric Corp 半導体メモリ検査装置

Also Published As

Publication number Publication date
CN100373409C (zh) 2008-03-05
JPWO2004068414A1 (ja) 2006-05-25
US20050162442A1 (en) 2005-07-28
CN1689043A (zh) 2005-10-26

Similar Documents

Publication Publication Date Title
CN109151501B (zh) 一种视频关键帧提取方法、装置、终端设备及存储介质
US11386284B2 (en) System and method for improving speed of similarity based searches
US9940655B2 (en) Image processing
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
CN108600865B (zh) 一种基于超像素分割的视频摘要生成方法
US20120027295A1 (en) Key frames extraction for video content analysis
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
US20110007975A1 (en) Image Display Apparatus and Image Display Method
CN111062314B (zh) 图像选取方法、装置、计算机可读存储介质及电子设备
WO2009143279A1 (en) Automatic tracking of people and bodies in video
JP2000311180A (ja) 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
WO2019007020A1 (zh) 一种视频摘要的生成方法及装置
WO2012001048A1 (en) Method for classification of videos
JP2010250556A (ja) 画像処理装置、画像処理方法及びプログラム
Parde et al. Face and image representation in deep CNN features
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
JP5538781B2 (ja) 画像検索装置及び画像検索方法
Song et al. A novel video abstraction method based on fast clustering of the regions of interest in key frames
US20050162442A1 (en) Target object appearing position display apparatus
CN113255423A (zh) 从视频提取配色方案的方法及装置
CN114449362B (zh) 视频封面的选取方法、装置、设备及存储介质
KR101961462B1 (ko) 객체 인식 방법 및 장치
Brand et al. Skin probability map and its use in face detection
JPH0944639A (ja) 映像ブロック分類方法及び装置
CN111950565B (zh) 基于特征融合和朴素贝叶斯的抽象画图像方向识别方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP US

WWE Wipo information: entry into national phase

Ref document number: 2004567509

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11077195

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20038239108

Country of ref document: CN