WO2013108448A1 - 動画検索装置、動画検索方法、記録媒体、ならびに、プログラム - Google Patents

動画検索装置、動画検索方法、記録媒体、ならびに、プログラム Download PDF

Info

Publication number
WO2013108448A1
WO2013108448A1 PCT/JP2012/076480 JP2012076480W WO2013108448A1 WO 2013108448 A1 WO2013108448 A1 WO 2013108448A1 JP 2012076480 W JP2012076480 W JP 2012076480W WO 2013108448 A1 WO2013108448 A1 WO 2013108448A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
frame image
target
drawn
search
Prior art date
Application number
PCT/JP2012/076480
Other languages
English (en)
French (fr)
Inventor
廣美 平野
正裕 三條
裕太 川手
誠 岡部
理紀夫 尾内
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to US14/240,284 priority Critical patent/US9076036B2/en
Priority to CN201280040285.0A priority patent/CN103748870B/zh
Priority to EP12866068.5A priority patent/EP2733931B1/en
Priority to ES12866068.5T priority patent/ES2618075T3/es
Publication of WO2013108448A1 publication Critical patent/WO2013108448A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/248Aligning, centring, orientation detection or correction of the image by interactive preprocessing or interactive shape modelling, e.g. feature points assigned by a user

Definitions

  • the present invention relates to a moving image search device, a moving image search method, a recording medium, and a program.
  • the user can easily specify an object that should appear in a moving image, its position and orientation, and its movement. Search.
  • SIFT Scale Invariant Feature Transformation
  • HOG Heistograms of
  • Non-Patent Document 2 Oriented Gradients
  • Non-Patent Documents 3 and 4 propose Particle ⁇ Video as a technique for tracking the movement of an object in a moving image.
  • this technology it is possible to obtain the position where a part of the surface of the object in the real world is drawn in each frame image included in the moving image, and obtain the movement locus of the drawing position. be able to. That is, according to the present technology, it is possible to obtain a trajectory representing how a certain pixel in a certain frame image moves with the progress or reverse of time.
  • Patent Document 1 proposes a technique for searching for another moving image similar to the moving image specified by the user.
  • the present invention solves the above-described problems, and a moving image search for performing a moving image search by allowing a user to easily specify an object that should appear in a moving image, its position and orientation, and its movement.
  • An object is to provide an apparatus, a moving image search method, a recording medium, and a program.
  • a video search device provides: A still image in which a reference object is drawn, a first reference position included in a reference area in which the reference object is drawn in the still image, a second reference position, and a first target position in a frame image included in a moving image And a reception unit for receiving an input of the second target position, An extraction unit that extracts a reference image drawn in the reference region based on the first reference position and the second reference position;
  • a frame image included in the moving image is searched for a similar frame image in which a local image similar to the reference image is drawn, and the local image is searched for in the searched similar frame image
  • a first start position and a second start position associated with the first reference position and the second reference position in the reference area are obtained, and the search
  • the frame image included in the moving image including the similar frame image is scanned from the searched similar frame image in the time advance direction or the backward direction, thereby moving the frame to the first start position in the
  • a first movement locus in which the drawn first pixel of interest moves and a second movement locus in which the second pixel of interest drawn at the second start position move are added. Then, a search is made for a target frame image in which the first movement trajectory reaches the vicinity of the first target position, and the second movement trajectory reaches a vicinity of the second target position, and the searched similar frame image and the It is configured to include a search unit that uses a moving image including the searched target frame image as a search result.
  • the receiving unit further receives an input of a target locus in a frame image included in the moving image; For each of the searched moving images, the search unit scans the frame image included in the searched moving image from the target frame image included in the moving image in the time direction of the search. A representative trajectory in which a representative pixel of a local image drawn on the target frame image is moved is tracked, and a moving image in which the target trajectory and the representative trajectory are similar is used as the search result. can do.
  • the search unit For each of the searched moving images, the search unit scans the frame image included in the searched moving image from the target frame image included in the moving image in the time direction of the search.
  • the representative trajectory along which the representative pixel of the local image drawn on the target frame image is moved can be tracked, and the representative trajectory of the moving image can be configured as the search result together with the moving image.
  • the extraction unit acquires an image feature amount of the reference image
  • the retrieval unit can be configured to retrieve the similar frame image by retrieving a frame image having an image feature amount similar to the image feature amount of the reference image.
  • the extraction unit further acquires an image feature amount of a mirror image obtained by inverting the reference image
  • the retrieval unit may be configured to retrieve the similar frame image by retrieving a frame image similar to the image feature amount of the reference image or the image feature amount of the mirror image.
  • the video search method includes: The still image in which the reference object is drawn, the first reference position included in the reference area in which the reference object is drawn in the still image, the second reference position, and the first target in the frame image to be included in the moving image An accepting step for accepting an input of a position and a second target position; An extracting step of extracting a reference image drawn in the reference area based on the first reference position and the second reference position; Among the plurality of moving images, a frame image included in the moving image is searched for a similar frame image in which a local image similar to the reference image is drawn, and the local image is searched for in the searched similar frame image In the local area where is drawn, a first start position and a second start position associated with the first reference position and the second reference position in the reference area are obtained, and the search The frame image included in the moving image including the similar frame image is scanned from the searched similar frame image in the time advance direction or the backward direction, thereby moving the frame to the first start position in the searched similar frame
  • a first movement locus in which the drawn first pixel of interest moves and a second movement locus in which the second pixel of interest drawn at the second start position move are added. Then, a search is made for a target frame image in which the first movement trajectory reaches the vicinity of the first target position, and the second movement trajectory reaches a vicinity of the second target position, and the searched similar frame image and the A search step is provided that uses a moving image including the searched target frame image as a search result.
  • a computer-readable recording medium provides a computer, The still image in which the reference object is drawn, the first reference position included in the reference area in which the reference object is drawn in the still image, the second reference position, and the first target in the frame image to be included in the moving image
  • a reception unit for receiving an input of a position and a second target position
  • An extraction unit that extracts a reference image drawn in the reference region based on the first reference position and the second reference position;
  • a frame image included in the moving image is searched for a similar frame image in which a local image similar to the reference image is drawn, and the local image is searched for in the searched similar frame image
  • a first start position and a second start position associated with the first reference position and the second reference position in the reference area are obtained, and the search
  • the frame image included in the moving image including the similar frame image is scanned from the searched similar frame image in the time advance direction or the backward direction, thereby moving the frame to the first start position
  • a first movement locus in which the drawn first pixel of interest moves and a second movement locus in which the second pixel of interest drawn at the second start position move are added. Then, a search is made for a target frame image in which the first movement trajectory reaches the vicinity of the first target position, and the second movement trajectory reaches a vicinity of the second target position, and the searched similar frame image and the A program for causing a moving image including the searched target frame image to function as a search unit that uses a search result as a search result is recorded.
  • a program provides a computer, The still image in which the reference object is drawn, the first reference position included in the reference area in which the reference object is drawn in the still image, the second reference position, and the first target in the frame image to be included in the moving image
  • a reception unit for receiving an input of a position and a second target position
  • An extraction unit that extracts a reference image drawn in the reference region based on the first reference position and the second reference position;
  • a frame image included in the moving image is searched for a similar frame image in which a local image similar to the reference image is drawn, and the local image is searched for in the searched similar frame image
  • a first start position and a second start position associated with the first reference position and the second reference position in the reference area are obtained, and the search
  • the frame image included in the moving image including the similar frame image is scanned from the searched similar frame image in the time advance direction or the backward direction, thereby moving the frame to the first start position in the searched similar
  • a first movement locus in which the drawn first pixel of interest moves and a second movement locus in which the second pixel of interest drawn at the second start position move are added. Then, a search is made for a target frame image in which the first movement trajectory reaches the vicinity of the first target position, and the second movement trajectory reaches a vicinity of the second target position, and the searched similar frame image and the The moving image including the searched target frame image is configured to function as a search unit that obtains a search result.
  • the program of the present invention can be recorded on a computer-readable non-transitory recording medium such as a compact disk, flexible disk, hard disk, magneto-optical disk, digital video disk, magnetic tape, and semiconductor memory. . These recording media can be distributed and sold independently of the computer.
  • the program of the present invention is loaded from a recording medium as described above onto a computer readable / writable recording medium such as a RAM (Random Access Memory), temporarily recorded, and then stored in a CPU (Central Processing Unit) can be configured to read, interpret, and execute a program recorded in the RAM or the like.
  • a computer readable / writable recording medium such as a RAM (Random Access Memory)
  • a CPU Central Processing Unit
  • the program of the present invention can be distributed and sold via a transitory transmission medium such as a computer communication network, independently of the computer on which the program is executed.
  • a video search device a video search method, a recording medium, and a video search device that perform video search so that a user can easily specify an object that should appear in a moving image, its position and orientation, and its movement.
  • a program can be provided.
  • the moving picture search apparatus can be realized by executing a predetermined program on various computers such as a server computer and a personal computer.
  • the computer uses the RAM as a temporary storage area or an output destination of the processing result when the CPU executes a program, receives an instruction from a user by an input device such as a keyboard or a mouse,
  • This is hardware that outputs the result of processing to an output device such as a display or performs the above input / output by communicating with other devices via a NIC (Network Interface Card). It can be omitted as appropriate.
  • a database in which records representing various types of information to be processed by the CPU are stored is recorded on the hard disk of the computer.
  • the CPU searches the database for a record that matches the search query, or adds a new record to the database.
  • a local information amount when each frame image included in the moving image is considered as a still image is registered in the database.
  • a plurality of computers connected via a dedicated communication line, a communication line, a computer communication network such as the Internet, and the like perform the above processing in parallel, distributed, and in parallel, whereby the moving picture search device according to the present invention It is also possible to speed up the process.
  • an electronic circuit design is created from a program, and a dedicated electronic circuit is configured based on the design, so that the video search of the present invention is performed. It is also possible to implement the device.
  • FPGA Field Programmable Gate Gate Array
  • Video search method In the present embodiment, the user specifies what kind of moving image he wants to obtain by specifying various information together with the still image. In the following, first, the method for specifying such information will be outlined.
  • the user designates a desired position and a desired direction in the screen frame of a desired object. Then, the moving image search apparatus searches for a moving image in which an object (hereinafter referred to as “target object”) similar to an object (hereinafter referred to as “reference object”) in a desired direction appears at a desired position.
  • target object an object
  • reference object an object similar to an object
  • the reference object corresponds to a character string that serves as a search key
  • the target object corresponds to a character string that appears in a document obtained as a result of the search.
  • a document in which a character string that completely matches the search key can be searched, and a character string that resembles the search key (various modes such as spelling and synonyms) appears.
  • Some documents can be searched. That is, the search key does not necessarily match the character string that appears in the character string of the search result.
  • the user designates a reference object drawn on a still image, a desired position, and a desired direction as a search key.
  • the moving image search device searches for a moving image in which a target object similar to the reference object appears in a desired position and a desired direction.
  • an automobile is used as an example of an object.
  • the user obtains one still image on which a reference object corresponding to the search key is drawn, for example, using an image search engine or the like.
  • FIG. 1A is an explanatory diagram illustrating an example of a still image in which a reference object is drawn.
  • a description will be given with reference to FIG.
  • the still image 101 a car 102 as a reference object is drawn.
  • the automobile 102 is drawn in the horizontal direction at the center of the screen. That is, the still image 101 is obtained by taking an image of the automobile 102 from a camera disposed on the left side when viewed from the driver of the automobile 102.
  • a reference area an area in which a reference object is drawn in a still image
  • a reference image an image drawn in the reference area
  • FIG. 1B is an explanatory diagram showing the state of the reference region in the still image 101
  • FIG. 1C is an explanatory diagram showing the state of the reference image.
  • FIG. 1B shows a reference area 122 surrounded by a dotted line in the entire area 121 of the still image 101.
  • the entire area 121 corresponds to the entire still image 101
  • the reference area 122 corresponds to an area where the automobile 102 (reference object) is drawn in the still image 101.
  • FIG. 1C shows a reference image 123 in which only the appearance of the automobile 102 (reference object) is cut out from the still image 101.
  • a moving image is searched in which a target object similar to the reference object represented by the reference image 123 appears.
  • the user designates a desired position and a desired direction as a search key.
  • a desired position and a desired direction as a search key.
  • the user designates the upper right corner of the screen frame as the desired position and the diagonally lower left direction as the desired orientation.
  • the user wants to obtain, as a search result, a moving image in which a target object similar to the reference object appears on the upper right of the screen frame in a diagonally downward left direction.
  • FIG. 2A is an explanatory diagram showing an example of the position and orientation where the target object should be placed in the frame image included in the moving image.
  • FIG. 2A is an explanatory diagram showing an example of the position and orientation where the target object should be placed in the frame image included in the moving image.
  • a car 202 similar to the car 102 (may be the same as the car 102) is drawn as a target object in the frame image 201 that the user wants to search. Yes.
  • a moving image including a frame image 201 in which a target object (automobile 202) similar to the reference object (automobile 102) drawn in the still image 101 appears is a search result candidate.
  • the automobile 202 appears diagonally downward to the left on the upper right of the screen frame. That is, the desired moving image is a moving image including a moment when the automobile 202 is photographed by a camera arranged diagonally to the left when viewed from the driver of the automobile 202.
  • an area in which a target object is drawn in a frame image is called a local area
  • an image drawn in the local area is called a local image
  • FIG. 2B is an explanatory diagram showing a state of a local region in the frame image 201
  • FIG. 2C is an explanatory diagram showing a state of the local image.
  • FIG. 2B shows a target area 222 surrounded by a dotted line in the entire area 221 of the frame image 201.
  • the entire area 221 corresponds to the entire frame image 201
  • the target area 222 corresponds to an area in which the automobile 202 (target object) is drawn in the frame image 201.
  • FIG. 2C shows a target image 223 in which only the appearance of the automobile 202 (target object) is cut out from the frame image 201.
  • a moving image in which the reference object expressed by the reference image 123 and the target object expressed by the target image 223 are similar is searched.
  • the still image 101 is an image of the automobile 102 taken from the left side
  • the target image 223 is obtained even if the reference image 123 is subjected to affine transformation including rotation, inversion, parallel movement, enlargement / reduction, and shear. It is not possible to obtain a composition similar to.
  • the still image 101 hardly shows the front of the automobile 102, whereas the frame image 201 shows the front of the automobile 202 well.
  • the user specifies the correspondence between the reference image in the still image 101 and the target image in the frame image 201.
  • 3 and 4 are explanatory diagrams showing how the user specifies the correspondence between the reference image and the target image.
  • a still image 101 and a moving image frame 331 representing an area in which a moving image including the frame image 201 is to be reproduced are displayed on the screen 301.
  • the still image 101 is enlarged and reduced so as to be centered in the moving image frame 331.
  • the still image 101 is separated from the moving image frame 331. Arranged.
  • the user refers to a reference position 311 or 312 where a location (front end and rear end) that serves as a mark of the reference object (automobile 102) is drawn in the still image. Select by specifying.
  • the user designates the target positions 351 and 352 to be drawn in the moving image frame 331 corresponding positions (front end and rear end) of the target object (automobile 202).
  • the aspect ratio of the moving image frame 331 is 9 to 16, and the size is the same as the moving image to be searched. Therefore, the target positions 351 and 352 designated by the user in the moving image frame 331 are used as directly representing the position and direction where the automobile 202 as the target object 202 should appear.
  • the 9 to 16 moving image frame 331 is expanded or contracted vertically and horizontally to match the vertical and horizontal directions of the moving image.
  • the target positions in the moving images having different aspect ratios and vertical / horizontal pixel numbers are not the target positions 351 and 352 directly designated by the user in the moving image frame 331, but the positions where they have moved in the above expansion / contraction as the target positions. Use it.
  • FIG. 5 is an explanatory diagram showing a schematic configuration of the moving image search apparatus according to the embodiment of the present invention.
  • FIG. 6 is a flowchart showing a control flow of the moving image search process executed by the moving image search apparatus according to the embodiment of the present invention.
  • the moving image search apparatus 501 is realized by executing a predetermined program in a computer, and includes a reception unit 502, an extraction unit 503, and a search unit 504.
  • the accepting unit 502 accepts an input using the following information as a search condition (step S601).
  • A Still image 101.
  • B Reference positions 311 and 312 in the still image 101 (in this embodiment, starting points of arrows 371 and 372).
  • C Target positions 351 and 352 in the moving image frame 331 (end points of arrows 371 and 372 in this embodiment).
  • the function of the reception unit 502 is realized by the cooperation of the display, the mouse, the touch screen, and the touch panel under the control of the CPU.
  • the extraction unit 503 extracts a reference image drawn in the reference area based on the reference positions 311 and 312 (step S602).
  • the user designates the still image 101 when the reference object is drawn.
  • the user designates reference positions 311 and 312 in the still image 101 where portions that the user considers to be the landmarks of the reference objects are drawn.
  • the extraction unit 503 extracts a reference image from the information of the still image 101 and the reference positions 311 and 312 by using an image processing technique.
  • FIG. 7 is an explanatory diagram showing the state of the reference image obtained by the user designation shown in FIGS.
  • FIG. 7 is an explanatory diagram showing the state of the reference image obtained by the user designation shown in FIGS.
  • the reference image 701 shows the appearance of a reference object photographed from a certain photographing direction.
  • the automobile 101 is photographed from the left side and the background is removed from the photographed image. That is, the outer edge of the reference area corresponds to a boundary line that separates the reference object and the background in the still image 101.
  • Various image recognition techniques can be used to extract the reference image 701. For example, after performing contour extraction and region division of the still image 101, a region including the reference positions 311 and 312 is selected. Then, a reference region is obtained by repeatedly combining a region sandwiched between the selected regions and a region adjacent to the selected region and having a small average color difference. In addition, the technique disclosed in Patent Document 1 may be used.
  • the reference image 701 is obtained by cutting out a reference area including the reference positions 311 and 312 from the still image 101, both of the reference positions 311 and 312 are included in the reference area. It will be placed at a location that will serve as a mark for the reference object.
  • the extraction unit 503 is realized when the CPU cooperates with a RAM or the like in which pixel information of the still image 101 is stored.
  • the search unit 504 repeats the following processing for each of the plurality of moving images (step S603).
  • a frame image included in the moving image in which a local image similar to the reference image 701 is drawn (hereinafter referred to as “similar frame image”) is searched, and the similar frame image is searched for the moving image. Is included (step S604).
  • the moving image is composed of a sequence of a plurality of frame images in the order of time passage.
  • frame animations in order at predetermined time intervals (often 1/30 second or 1/60 second) in the animation frame 331 prepared in the screen 301.
  • the moving image can be reproduced. That is, the frame image is considered as a kind of still image.
  • a plurality of moving images are recorded in advance in a moving image database or the like.
  • Each moving image includes a plurality of frame images. Therefore, various image similarity determination techniques and image recognition techniques are applied to determine whether or not a local image similar to the reference image 701 is drawn on each frame image.
  • FIG. 8 is an explanatory diagram illustrating an example of a moving image including a frame image having a local image similar to the reference image 701.
  • a description will be given with reference to FIG.
  • the moving image 801 is configured as a sequence of a plurality of frame images 802a, 802b, ..., 802f, ..., 802i, 802j, ... (in this figure, in order to facilitate understanding, The time interval between images is increased, that is, a frame image is thinned out from a general moving image).
  • the alphabetic character at the end of the code is omitted and referred to as “frame image 802”.
  • the frame images 802a, 802b, 802i, and 802j have different shooting directions. Therefore, no image similar to the reference image 701 is drawn in the frame images 802a, 802b, 802i, and 802j.
  • the automobile 202 having substantially the same shooting direction is drawn, and this corresponds to the local image 803. That is, the local image 803 and the reference image 701 have feature points that are associated with each other, and the local image 803 and the reference image 701 are converted by performing scaling, scaling, translation, rotation, and inversion on the reference image 701. Can be superimposed.
  • a local feature amount such as SIFT or HOG is calculated in advance and recorded in a database. Then, a local feature amount is also calculated for the reference image 701, and a frame image 802 having a local feature amount similar to the local feature amount is searched from the database.
  • step S604 When a similar frame image in which a local image 803 similar to the reference image 701 is drawn in this way (in the example shown, the frame image 802f corresponds to a similar frame image) is found (step S604; Yes), the search is performed.
  • the unit 504 examines where the reference positions 311 and 312 are located in the local image 803 when the reference image 701 is superimposed on the local image 803 (hereinafter, this position is referred to as “start position”). . That is, the search unit 504 obtains start positions associated with the reference positions 311 and 312 in the reference area in the local area where the local image 803 is drawn in the searched similar frame image 802f (step S605).
  • FIG. 9 is an explanatory diagram showing a correspondence relationship between the reference image 701 and the similar frame image 802f.
  • FIG. 9 is an explanatory diagram showing a correspondence relationship between the reference image 701 and the similar frame image 802f.
  • black circles are shown as marks of the reference positions 311 and 312 at the front end and the rear end of the automobile 102.
  • black circles are shown as marks of the start positions 811 and 812 at the front end and the rear end of the automobile 202.
  • the reference positions 311 and 312 are positions where a part selected by the user as a landmark in the reference object (the automobile 102) is drawn in the reference image 701.
  • the location corresponding to the mark in the reference object is drawn at the start positions 811 and 812 in the local image 803.
  • the search unit 504 moves how the pixels (hereinafter referred to as “target pixels”) arranged at the start positions 811 and 812 in the similar frame image 802f move in the moving image 801. , To obtain the movement trajectory. That is, the search unit 504 searches the frame images 802a, 802b,..., 802i, 802j,... Included in the moving image 801 including the searched similar frame image 802f from the searched similar frame images in the time direction (frame). ..) Or backward direction (in the order of frame images 802e, 802d, 802c, 802b,...), Thereby starting position 811 in the searched similar frame image 802f. The movement trajectory in which the target pixel drawn in 812 is drawn in the other frame image 802 is traced (step S606).
  • the search unit 504 searches the frame images 802a, 802b,..., 802i, 802j,... Included in the moving image 801 including the searched similar frame image 802f from the searched similar frame images in the time direction (
  • FIG. 10 is an explanatory diagram showing a state of pixel movement in the moving image 801.
  • FIG. 10 is an explanatory diagram showing a state of pixel movement in the moving image 801.
  • attention pixels 901 and 902 are drawn at the start positions 811 and 812 of the similar frame image 802f, and these draw the front end and the rear end of the automobile 202, respectively.
  • This figure shows the positions of target pixels 901 and 902 for drawing the front end and rear end of the automobile 202 in frame images 802a, 802b,..., 802f, ..., 802i, 802j,. ing.
  • frame images 802a, 802b,..., 802f,..., 802i, 802j,... An alphabetic suffix for the frame image 802 is added to the end of the reference pixel 901, 902.
  • target positions 351 and 352 that are referred to in later processing are also illustrated.
  • the target positions 351 and 352 are designated by the user in the moving image frame 331, and the target positions 351 and 352 in each frame image 802 are enlarged or reduced so that each frame image 802 fits in the moving image frame 331. Is obtained.
  • Such attention pixels 901 and 902 are tracked by, for example, obtaining the correspondence between the feature points of the adjacent frame images 802 using a technique such as SIFT or HOG, and then changing the position of the corresponding feature point. Can be obtained by calculating where the position of the target pixel 901, 902 in one frame image 802 moves in the other frame image 802.
  • the pixel-of-interests 901 and 902 can be tracked by applying the Particle-Video technology.
  • the tracking of the target pixels 901 and 902 does not necessarily mean that the trajectory along which the same color pixel moves is tracked. That is, it means that the location of the target object drawn in the frame image 802 by the target pixels 901 and 902 is traced in the other frame image 802. Therefore, depending on the shooting situation of the target object, the colors of the target pixels 901 and 902 may gradually change.
  • the frame image 802 is scanned in the direction opposite to the time progression direction from the similar frame image 802 included in the moving image 801 to track where the target pixels 901 and 902 are located in each frame image 802. To do. Then, the movement trajectories of the target pixels 901 and 902 are obtained.
  • FIG. 11 is an explanatory diagram showing the movement trajectory of the target pixels 901 and 902 in the moving image 801.
  • the target pixels 901 and 902 move smoothly from the upper right of the screen (frame image 802a) to the lower left of the screen (after the frame image 802j) over time.
  • the movement trajectories 951 and 952 pass through the start positions 811 and 812 in the similar frame image 802f, respectively.
  • the search unit 504 tracks these movement trajectories 951 and 952 as time elapses, and generates a frame image (hereinafter referred to as “target frame image”) 802 that simultaneously reaches the vicinity of the target positions 351 and 352.
  • a search is performed to check whether or not the moving image 801 includes the target frame image (step S607).
  • step S607 when the target frame image is found (step S607; Yes), the moving image 801 is output as a search result (step S608).
  • step S603 the processing from step S603 is repeated (step S609), and when the processing is executed for all, the processing is terminated.
  • the output as the search result in step S608 may be immediately output and displayed on a screen such as a display, and the search result may be additionally displayed on the screen sequentially each time a desired moving image is found.
  • the search results may be temporarily output and accumulated in a RAM or the like, and may be collectively displayed on a screen such as a display after the repetition of steps S603 to S609 is completed.
  • step S604 if a similar frame image is not found (step S604; No) or a target frame image is not found (step S607; No), the process proceeds to step S609. Therefore, the moving image 801 is not a search result.
  • the user can easily search for a moving image simply by inputting the correspondence between the reference positions 311 and 312 serving as landmarks in the still image 101 and the target positions 351 and 352 in the moving image frame 331. Can do.
  • a moving image search can be performed easily and at high speed.
  • image recognition technology such as SIFT can determine that the local image 803 is similar even if it is rotated about 30 degrees with respect to the reference image 701. However, when the rotation angle exceeds this value, or when the rotation angle is reversed to be a mirror image of each other, it may not be detected.
  • a mirror image obtained by inverting the reference image 701 is prepared, and the local feature amount of the mirror image is also obtained, which is similar to one of these two local feature amounts.
  • the frame image 802 having the local feature amount to be searched may be searched from the database.
  • the relative positional relationship between the reference positions 311 and 312 and the relative positional relationship between the target positions 351 and 352 can be used.
  • FIGS. 12 and 13 are explanatory diagrams illustrating the relative positional relationship between the reference positions 311 and 312 and the relative positional relationship between the target positions 351 and 352.
  • FIG. Hereinafter, description will be given with reference to these drawings.
  • the example shown in FIG. 12 refers to the example shown in FIG. 3 (and FIG. 4), and the direction vectors 971 and 972 form acute angles.
  • the reference image 701 is used in searching for similar frame images.
  • the target positions 351 and 352 are specified so that the front end and the rear end of the reference positions 311 and 312 of the left sideways automobile 102 in the still image 101 are interchanged, and the automobile 202 slightly upward to the right. I am trying to search for moving images in which.
  • the direction vectors 971 and 972 are obtuse. In such a case, a mirror image is used in searching for similar frame images.
  • the reference image 701 is used. If the angle formed by the direction vectors 971 and 972 is 120 degrees or more, a mirror image is used. There is also a method of appropriately determining an angle serving as a boundary, such as using both the reference image 701 and the mirror image if the angle formed by the direction vectors 971 and 972 exceeds 60 degrees and less than 120 degrees.
  • trajectory (hereinafter referred to as “representative trajectory”) that the target object 202 itself moves.
  • each frame image 802 an area where the target object 202 is drawn is obtained, and a pixel at the center point (the center of gravity of the area) is set as a representative pixel. Then, by tracking the representative pixel, it is possible to obtain a representative trajectory in which the target object 202 moves in the moving image 801.
  • FIG. 14A is an explanatory diagram showing the state of a representative locus with respect to the example shown in FIG.
  • a description will be given with reference to FIG.
  • the representative locus 981 passes through the midpoint 980 of the target pixels 901 and 902 in each frame image 802. Therefore, the representative trajectory 981 is obtained by averaging the movement trajectories 951 and 952 of the movement of the target pixels 901 and 902.
  • the user searches for a moving image 801 in which the target object 202 similar to the reference object 102 appears at the position and posture desired by the user.
  • the representative trajectory 981 is output as a search result together with the searched moving image 801.
  • FIG. 14B is an explanatory diagram showing an outline image for explaining an outline of the moving image 801 when the moving image 801 and the representative trajectory 981 are output as search results.
  • FIG. 14B is an explanatory diagram showing an outline image for explaining an outline of the moving image 801 when the moving image 801 and the representative trajectory 981 are output as search results.
  • the outline image 991 is a representative locus 981 with respect to a frame image 802b in which a target object 202 similar to the reference object 102 appears in a user-desired position and posture in the moving image 801 as a search result.
  • a target object 202 similar to the reference object 102 appears in a user-desired position and posture in the moving image 801 as a search result.
  • the summary image 991 can be used as a thumbnail image or the like when displaying a list of moving images as a search result. By indicating the representative trajectory 981 as a search result, the summary image 991 can be obtained from the user regarding the obtained moving image 801. Detailed information can be provided.
  • the representative trajectory 981 to which the target object 202 moves is output as a search result.
  • the trajectory to which the target object 202 should move (hereinafter referred to as “target trajectory”) is given to the user.
  • the search result is a moving image in which the representative locus 981 is similar to the target locus.
  • the accepting unit 502 further accepts an input of a target locus in a frame image included in a moving image in addition to the above information.
  • FIG. 15 is an explanatory diagram showing a state in which the user further specifies a target locus in the input example shown in FIG.
  • a description will be given with reference to FIG.
  • the user inputs an arrow 982 starting from the vicinity of the target positions 351 and 352 in the moving image frame 331.
  • This arrow 982 is the target locus input by the user.
  • step S607 after the target frame image 802b is found in the moving image 801 (step S607; Yes), the following processing is executed.
  • FIG. 16 is a partial flowchart showing the contents of processing added to the moving image search processing in the flowchart shown in FIG.
  • a description will be given with reference to FIG.
  • the search unit 504 acquires the representative locus 981 by tracking the frame image 802 in order of time passage from the target frame image 802b. (Step S621).
  • step S622 it is determined whether or not the obtained representative locus 981 is similar to the target locus designated by the user by the arrow 982 (step S622).
  • the simplest method for determining the similarity between the representative trajectory 981 and the target trajectory is as follows. That is, when the difference between the angle formed by the direction from the start point to the end point of the representative trajectory 981 and the direction from the start point to the end point of the target trajectory is equal to or less than a predetermined threshold, the two are similar. If the predetermined threshold value is exceeded, it is determined that the two are not similar.
  • various curve similarity determination techniques can be applied.
  • step S622 If the representative trajectory 981 and the target trajectory are similar (step S622; Yes), the process proceeds to step S608, and the moving image is output as a search result.
  • step S622 determines whether the representative trajectory 981 and the target trajectory are similar. If the representative trajectory 981 and the target trajectory are not similar (step S622; No), the process proceeds to step S609, and the process is repeated with another moving image as a processing target.
  • the user can easily specify which position and in which direction the target object is arranged in the moving image frame 331 and in which direction the moving object moves from the moving image frame 331. Can be executed easily and at high speed.
  • the moving image 801 is taken as an example obtained by photographing the real world with a camera.
  • a moving image generated by computer graphics showing the virtual world viewed from a virtual viewpoint It is also possible to apply the same method to any moving image such as an animated moving image obtained by creating and arranging frame images one by one manually.
  • the reference positions 311 and 312 and the target positions 351 and 352 are specified by the input of the arrows 371 and 372, but other parameters that can be used when the user draws the arrows 371 and 372 are used. Is also possible.
  • the target positions 351 and 352 are determined according to the pressing strength of the user when the arrows 371 and 372 are drawn. It is possible to change the size of the vicinity of.
  • the magnitude of the threshold value indicating whether or not it is in the vicinity of the target position is determined based on the strength of the user's pressing, that is, the thickness of the arrows 371 and 372.
  • the local information amounts of the frame images 802 of all the moving images 801 registered in the database are totaled for each position in the moving image frame 331, and the distribution of the total results at each position is displayed on the screen in the moving image frame 331. This is the method.
  • the local information amount is a scalar value
  • the local information amount is a vector value
  • the user can easily predict which position is set as the target position and a more appropriate search result can be obtained.
  • a video search device a video search method, a recording medium, and a video search device that perform video search so that a user can easily specify an object that should appear in a moving image, its position and orientation, and its movement.
  • a program can be provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

 動画像内に現れるべきオブジェクトの位置や向き等をユーザが容易に指定して動画検索を行う動画検索装置等を提供する。動画検索装置(501)において、受付部(502)は、静止画像、静止画像内の2つの参照位置、動画フレーム内の2つの目標位置、の入力を受け付ける。抽出部(503)は、静止画像から2つの参照位置を含む参照画像を抽出する。検索部(504)は、動画像に含まれるフレーム画像から、参照画像に類似する局所画像が描画される類似フレーム画像を検索し、局所画像内において、2つの参照位置に対応する開始位置に描画される2つの注目画素の、動画像において類似フレーム画像から時間を進行あるいは逆行させた際の2つの移動軌跡を追跡し、2つの移動軌跡が2つの目標位置の近傍に至る目標フレーム画像を検索し、類似フレーム画像と目標フレーム画像とを含む動画像を、検索結果とする。

Description

動画検索装置、動画検索方法、記録媒体、ならびに、プログラム
 本発明は、動画検索装置、動画検索方法、記録媒体、ならびに、プログラムに関し、動画像内に現れるべきオブジェクト、その位置や向き、さらには、その動きをユーザが容易に指定できるようにして、動画検索を行うものである。
 従来から、静止画像に描画されているオブジェクトやその特徴点を認識する技術として、非特許文献1に開示されるSIFT(Scale Invariant Feature Transformation)や、非特許文献2に開示されるHOG(Histograms of Oriented Gradients)などが提案されている。これらの技術を応用すれば、2つの静止画像に描画されているオブジェクトの外観が類似しているか否かを、オブジェクトが回転していたり、拡大率が異なったり、輝度が異なったりする場合でも、容易に判定することができる。また、描画されたオブジェクトを表すオブジェクト画像を反転させてから上記の技術を適用することで、オブジェクトの鏡像が描画されている場合であっても、画像が類似している、と判断することができる。
 一方で、動画像内におけるオブジェクトの動きを追跡する技術として、非特許文献3、4においてParticle Videoが提案されている。この技術を応用すれば、現実世界におけるオブジェクトの表面のある箇所が、動画像に含まれる各フレーム画像においてどの位置に描画されているかを取得することができ、当該描画位置の移動の軌跡を得ることができる。すなわち、本技術によれば、あるフレーム画像におけるある画素が、時間の進行もしくは逆行によって、どのように移動していくのかを表す軌跡を得ることができる。
 さらに、ユーザが指定した動画像に類似する他の動画像を検索する技術が、特許文献1に提案されている。
特開2001-134589号公報
D. G. Lowe, Object Recognition from Local Scale-Invariant Features, Proceedings of IEEE International Conference on Computer Vision, pp.1150-1157, 1999年 N. Dalal and B. Triggs, Histograms of Oriented Gradients for Human Detection, Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.886-893, 2005年 Peter Sand and Seth Teller, Particle Video: Long-Range Motion Estimation using Point Trajectories, International Journal of Computer Vision, vol.80,no.1,pp.72-91, Springer, 2008年 Dan B.Goldman,Chris Gonterman,Brian Curless, David Salesin and Steven M.Seitz, Video Object Annotation,Navigation,and Composition, UIST 2008, Proc.ACM symposium on User Interface Software and Technology, pp.3-12, ACM 978-1-59593-975-3/08/10, http://www.danbgoldman.com/uw/papers/ivoa.uist08.pdf, 2008年
 しかしながら、動画検索に際し、動画像内に描画されるオブジェクトの外観や位置、向きなどの情報を、ユーザが容易に指定できるようにしたい、との要望は、依然として大きい。
 特に、所望のオブジェクトが描画されている静止画像が既に用意されている場合に、当該静止画像を用いて、動画像内に当該オブジェクトが出現する際の位置や向きを容易に指定できるようにしたい、との要望がある。
 この際に、静止画像に描画されているオブジェクトの向きとは異なる位置、向き、異なる撮影方向で撮影されたオブジェクトが登場するような動画像であっても、検索結果として得られるようにしたい、との要望も強い。
 本発明は、上記のような課題を解決するもので、動画像内に現れるべきオブジェクト、その位置や向き、さらには、その動きをユーザが容易に指定できるようにして、動画検索を行う動画検索装置、動画検索方法、記録媒体、ならびに、プログラムを提供することを目的とする。
 本発明の第1の観点に係る動画検索装置は、
 参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付部、
 前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
 複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
 を備えるように構成する。
 また、本発明の動画検索装置において、
 前記受付部は、前記動画像に含まれるフレーム画像内における目標軌跡の入力をさらに受け付け、
 前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、前記目標軌跡と、前記代表軌跡と、が類似する動画像を、前記検索結果とする
 ように構成することができる。
 また、本発明の動画検索装置において、
 前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、当該動画像とともに、当該動画像の代表軌跡を、前記検索結果とする
 ように構成することができる。
 また、本発明の動画検索装置において、
 前記抽出部は、前記参照画像の画像特徴量を取得し、
 前記検索部は、前記参照画像の前記画像特徴量に類似する画像特徴量を有するフレーム画像を検索することにより、前記類似フレーム画像を検索する
 ように構成することができる。
 また、本発明の動画検索装置において、
 前記抽出部は、前記参照画像を反転した鏡画像の画像特徴量をさらに取得し、
 前記検索部は、前記参照画像の前記画像特徴量もしくは前記鏡画像の前記画像特徴量に類似するフレーム画像を検索することにより、前記類似フレーム画像を検索する
 ように構成することができる。
 本発明の第2の観点に係る動画検索方法は、
 参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるべきフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付ステップ、
 前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出ステップ、
 複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索ステップ
 を備えるように構成する。
 本発明の第3の観点に係るコンピュータ読取可能な記録媒体は、コンピュータを、
 参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるべきフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付部、
 前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
 複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
 として機能させるプログラムを記録するように構成する。
 本発明の第4の観点に係るプログラムは、コンピュータを、
 参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるべきフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付部、
 前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
 複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
 として機能させるように構成する。
 本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読み取り可能な非一時的(non-transitory)な記録媒体に記録することができる。また、これらの記録媒体は、コンピュータとは独立して配布・販売することができる。
 また、本発明のプログラムは、上記のような記録媒体から、RAM(Random Access Memory)等のコンピュータによる読み書き可能な記録媒体にロードされ、一時的(temporary)に記録された上で、CPU(Central Processing Unit)が、当該RAM等に記録されたプログラムを読み出して解釈、実行するように構成することができる。
 さらに、本発明のプログラムは、プログラムが実行されるコンピュータとは独立して、コンピュータ通信網等の一時的(transitory)な伝送媒体を介して配布・販売することができる。
 本発明によれば、動画像内に現れるべきオブジェクト、その位置や向き、さらには、その動きをユーザが容易に指定できるようにして、動画検索を行う動画検索装置、動画検索方法、記録媒体、ならびに、プログラムを提供することができる。
参照オブジェクトが描画された静止画像の例を示す説明図である。 静止画像内の参照領域の様子を示す説明図である。 参照画像の様子を示す説明図である。 動画像に含まれるフレーム画像内において目標オブジェクトが配置されるべき位置および向きの例を示す説明図である。 フレーム画像内の局所領域の様子を示す説明図である。 局所画像の様子を示す説明図である。 ユーザが参照画像と目標画像との対応関係を指定する様子を表す説明図である。 ユーザが参照画像と目標画像との対応関係を指定する様子を表す説明図である。 本発明の実施例に係る動画検索装置の概要構成を示す説明図である。 本発明の実施例に係る動画検索装置が実行する動画検索処理の制御の流れを示すフローチャートである。 ユーザの指定により得られる参照画像の様子を示す説明図である。 参照画像に類似する局所画像を有するフレーム画像を含む動画像の例を示す説明図である。 参照画像と類似フレーム画像との対応関係を示す説明図である。 動画像における画素の移動の様子を示す説明図である。 動画像における画素の移動の軌跡を表す説明図である。 参照位置の相対的な位置関係と、目標位置の相対的な位置関係と、の説明を示す説明図である。 参照位置の相対的な位置関係と、目標位置の相対的な位置関係と、の説明を示す説明図である。 代表軌跡の様子を表す説明図である。 概要画像の様子を表す説明図である。 ユーザが目標軌跡を指定する様子を示す説明図である。 動画検索処理に追加される処理の内容を示すフローチャートである。
 以下に本発明の実施形態を説明する。なお、本実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。
 本発明に係る動画検索装置は、サーバ用コンピュータやパーソナルコンピュータ等、各種のコンピュータにおいて、所定のプログラムを実行することにより実現することができる。
 ここで、コンピュータとは、CPUがプログラムを実行することによって、RAMを一時的な記憶域や処理の結果の出力先として利用し、キーボードやマウス等の入力装置によりユーザからの指示を受け付けたり、ディスプレイ等の出力装置に処理の結果を出力したり、NIC(Network Interface Card)を介して他の機器と通信することにより上記の入出力を行ったりするハードウェアであり、入出力用の機器は、適宜省略することも可能である。
 コンピュータのハードディスク等には、CPUが実行するプログラムのほか、CPUによる処理の対象となる各種の情報を表現したレコードが蓄積されたデータベースが記録される。CPUは、データベースから検索クエリに合致するレコードを検索したり、データベースに新たなレコードを追加したり等の処理を行う。
 本実施形態では、データベースには、多数の動画像のほか、動画像に含まれるフレーム画像のそれぞれを静止画像として考えた場合の局所情報量が登録されている。
 また、専用の接続線や通信回線、インターネットなどのコンピュータ通信網を介して接続された複数のコンピュータが、上記の処理を並列、分散、並行して実行することにより、本発明に係る動画検索装置の処理の高速化を図ることも可能である。
 このほか、FPGA(Field Programmable Gate Array)等の技術を応用することにより、プログラムから電子回路の設計を作成し、当該設計に基づいて、専用の電子回路を構成することによって、本発明の動画検索装置を実現することも可能である。
 (動画検索の手法)
 本実施形態では、ユーザは、静止画像とともに種々の情報を指定することにより、どのような動画像を得たいか、を指定する。以下ではまず、これらの情報の指定方法について概説する。
 本実施形態では、ユーザは、所望のオブジェクトの画面フレーム内における所望の位置ならびに所望の向きを指定する。そして、動画検索装置は、所望の位置に所望の向きであるオブジェクト(以下「参照オブジェクト」という。)に類似するオブジェクト(以下「目標オブジェクト」という。)が出現する動画像を検索する。
 文書検索と対比して考えると、参照オブジェクトは、検索キーとなる文字列に相当し、目標オブジェクトは、検索を行った結果、得られた文書に出現した文字列に相当する。
 文書検索においては、検索キーと完全一致する文字列が出現する文書を検索することができるほか、検索キーと類似(綴りの揺れや同義語など、種々の態様がある。)する文字列が出現する文書を検索することができるものがある。すなわち、検索キーと、検索結果の文字列に出現する文字列とは、必ずしも一致しない。
 同様に、本実施形態では、ユーザは、検索キーとして、静止画像に描画された参照オブジェクト、所望の位置、所望の向きを指定する。
 すると、動画検索装置は、参照オブジェクトに類似する目標オブジェクトが、所望の位置、所望の向きで出現する動画像を検索するのである。
 理解を容易にするため、以下では、オブジェクトの例として、自動車を採用して説明する。
 まず、ユーザは、検索キーに相当する参照オブジェクトが描画されている静止画像を1枚、たとえば画像検索エンジン等を利用して、入手する。
 図1Aは、参照オブジェクトが描画された静止画像の例を示す説明図である。以下、本図を参照して説明する。
 本図に示すように、静止画像101内には、参照オブジェクトである自動車102が描画されている。本図では、自動車102は、画面中央に左横向きに描画されている。すなわち、静止画像101は、自動車102の運転者から見て左真横に配置されたカメラから、自動車102を撮影することによって得られたものである。
 以下、理解を容易にするため、静止画像において参照オブジェクトが描画されている領域を参照領域と呼び、当該参照領域に描画されている画像を参照画像と呼ぶこととする。
 図1Bは、静止画像101内の参照領域の様子を示す説明図であり、図1Cは、参照画像の様子を示す説明図である。以下、これら図を参照して説明する。
 図1Bには、静止画像101の全領域121内に、点線で囲まれた参照領域122が図示されている。全領域121は、静止画像101全体に相当し、参照領域122は、静止画像101内において自動車102(参照オブジェクト)が描画されていた領域に相当する。
 図1Cには、静止画像101内から、自動車102(参照オブジェクト)の外観のみを切り出した参照画像123を図示している。本実施形態では、参照画像123により表現される参照オブジェクトに類似する目標オブジェクトが出現するような動画像を検索するのである。
 さて、上記のように、ユーザは、検索キーとして所望の位置および所望の向きを指定する。以下では、ユーザが、所望の位置として画面フレーム右上、所望の向きとして左斜め下向きを指定した例を説明する。
 この例では、ユーザは、参照オブジェクトに類似する目標オブジェクトが、画面フレーム右上に、左斜め下向きで出現するような動画像を、検索結果として得たい、と考えていることになる。
 図2Aは、動画像に含まれるフレーム画像内において目標オブジェクトが配置されるべき位置および向きの例を示す説明図である。以下、本図を参照して説明する。
 本図に示す例では、ユーザが検索したいと考えているフレーム画像201内には、目標オブジェクトとして、この自動車102に類似する自動車202(自動車102と同じであっても良い。)が描画されている。
 すなわち、本実施形態では、静止画像101に描画される参照オブジェクト(自動車102)に類似する目標オブジェクト(自動車202)が出現するフレーム画像201を含むような動画像が、検索結果の候補となる。
 ここで、フレーム画像201内においては、自動車202は、画面フレーム右上に、左斜め下向きで登場している。すなわち、所望の動画像は、自動車202の運転者から見て左斜め前に配置されたカメラで自動車202を撮影した一瞬を含む動画像である。
 以下、理解を容易にするため、フレーム画像において目標オブジェクトが描画されている領域を局所領域と呼び、当該局所領域に描画されている画像を局所画像と呼ぶこととする。
 図2Bは、フレーム画像201内の局所領域の様子を示す説明図であり、図2Cは、局所画像の様子を示す説明図である。以下、これら図を参照して説明する。
 図2Bには、フレーム画像201の全領域221内に、点線で囲まれた目標領域222が図示されている。全領域221は、フレーム画像201全体に相当し、目標領域222は、フレーム画像201内において自動車202(目標オブジェクト)が描画されている領域に相当する。
 図2Cには、フレーム画像201内から、自動車202(目標オブジェクト)の外観のみを切り出した目標画像223を図示している。
 本実施形態では、参照画像123により表現される参照オブジェクトと、目標画像223により表現される目標オブジェクトと、が、類似するような動画像を検索する。
 しかしながら、静止画像101は、自動車102を左横から撮影したものであるから、参照画像123に対して回転、反転、平行移動、拡大縮小、シアーなどを含むアフィン変換を施しても、目標画像223に類似する構図を得ることはできない。
 本例では、静止画像101では、自動車102の正面がほとんど見えないのに対して、フレーム画像201には、自動車202の正面がよく見えるからである。
 一般に、画像検索技術を利用すれば、ユーザが望む参照オブジェクトが出現する静止画像を得ることは不可能ではない。
 しかしながら、その静止画像において参照オブジェクトが描画されている位置や向き、参照オブジェクトの撮影方向やアングルが、そのまま、動画像に含まれるフレーム画像において目標オブジェクトが描画されている位置や向き、目標オブジェクトの撮影方向やアングルが一致する、ということは、殆どありえない。
 そこで、本実施形態では、静止画像101における参照画像と、フレーム画像201における目標画像と、の対応関係を、ユーザが指定する。
 図3、図4は、ユーザが参照画像と目標画像との対応関係を指定する様子を表す説明図である。以下、これら図を参照して説明する。
 これらの図に示す例では、画面301内に、静止画像101と、フレーム画像201を含む動画像が再生されるべき領域を表す動画フレーム331と、が、表示されている。
 なお、図3に示す例では、静止画像101を拡縮して動画フレーム331の中央におさまるように配置しているが、図4に示す例では、静止画像101は、動画フレーム331とは離間して配置している。
 これは一般に、静止画像101と動画フレーム331とでは、縦横比が異なるからである。
 ここで、ユーザは、
 (a)静止画像101内において、自動車102の前端が描画されている参照位置311から、動画フレーム331内において自動車202の前端が描画されるべき目標位置351へ、矢印371を引く指示、ならびに、
 (b)静止画像101内において、自動車102の後端が描画されている参照位置312から、動画フレーム331内において自動車202の後端が描画されるべき目標位置352へ、矢印372を引く指示
を行っている。このような指示は、たとえば、マウスを用いたドラッグアンドドロップ操作や、タッチスクリーンやタッチパネルに対するスライド操作(指で表面に触れ、触れたまま指を移動させた後、指を離す操作)によって行われる。
 本実施形態では、ユーザは、参照オブジェクト(自動車102)の目印となるような箇所(前端と後端)を、静止画像においてその箇所(前端と後端)が描画されている参照位置311、312を指定することにより、選択する。
 さらに、ユーザは、目標オブジェクト(自動車202)の対応する箇所(前端と後端)が、動画フレーム331内において、描画されるべき目標位置351、352を指定する。
 なお、これらの図に示す例では、動画フレーム331の縦横比は、9対16となっており、検索対象となる動画像と大きさが一致している。したがって、ユーザが動画フレーム331内において指定した目標位置351、352は、目標オブジェクト202たる自動車202が出現すべき位置および向きを直接表すものとして利用される。
 一方、異なる縦横比を有する動画像や縦横の画素数が異なる動画像に対しては、9対16の動画フレーム331を縦横に伸ばしたり縮めたりしてその動画の縦横に合致させる。すなわち、縦横比や縦横画素数が異なる動画像における目標位置としては、動画フレーム331内においてユーザが直接指定した目標位置351、352ではなく、これらが上記の伸縮において移動した先を、目標位置として用いれば良い。
 本実施形態では、動画像に含まれるフレーム画像において目標オブジェクトがどのような位置や向きで出現すべきであるかを、このような簡易な操作で指定することにより、動画像の検索が可能となる。以下、動画像の検索技術の詳細について、説明する。
 (動画検索装置)
 図5は、本発明の実施例に係る動画検索装置の概要構成を示す説明図である。図6は、本発明の実施例に係る動画検索装置が実行する動画検索処理の制御の流れを示すフローチャートである。以下、これらの図を参照して説明する。
 本実施形態に係る動画検索装置501は、コンピュータにおいて所定のプログラムが実行されることにより実現され、受付部502、抽出部503、検索部504を備える。
 ここで、受付部502は、以下の情報を検索条件として、入力を受け付ける(ステップS601)。
 (a)静止画像101。
 (b)静止画像101内の参照位置311、312(本実施形態では、矢印371、372の始点)。
 (c)動画フレーム331内の目標位置351、352(本実施形態では、矢印371、372の終点)。
 上記のように、受付部502の機能は、CPUの制御の下、ディスプレイやマウス、タッチスクリーンやタッチパネルが共働することによって実現される。
 ついで、抽出部503は、参照位置311、312に基づいて、参照領域内に描画されている参照画像を抽出する(ステップS602)。
 上記のように、本実施形態では、ユーザは、参照オブジェクトが描画されていると静止画像101を指定する。また、ユーザは、静止画像101内において、ユーザが参照オブジェクトの目印となると考える箇所が描画されている参照位置311、312を指定する。
 抽出部503は、静止画像101と、参照位置311、312と、の情報から、画像処理技術を利用することにより、参照画像を抽出する。
 図7は、図3、4に示すユーザの指定により得られる参照画像の様子を示す説明図である。以下、本図を参照して説明する。
 本図に示すように、参照画像701は、ある撮影方向から撮影された参照オブジェクトの外観を示すものである。本例では、自動車101をその左横から撮影して、撮影画像から背景を除去したものである。すなわち、参照領域の外縁は、静止画像101において、参照オブジェクトと背景とを切り分ける境界線に相当する。
 参照画像701の抽出には、各種の画像認識技術を利用することができる。たとえば、静止画像101の輪郭抽出、領域分割を行った後、参照位置311、312が含まれる領域を選び出す。そして、選択された領域に挟まれる領域や、選択された領域に隣接し、平均色の相違が小さい領域などを結合することを繰り返して、参照領域を得る。このほか、特許文献1等に開示される技術を利用しても良い。
 参照画像701は、静止画像101から、参照位置311、312を含む参照領域を切り出したものであるから、参照位置311、312は、いずれも、参照領域内に含まれ、参照画像701内において、参照オブジェクトの目印となる箇所に配置されることになる。
 抽出部503は、CPUが静止画像101の画素情報が記憶されたRAM等と共働することにより、実現される。
 そして、検索部504は、複数の動画像のそれぞれについて、以下の処理を繰り返す(ステップS603)。
 まず、当該動画像に含まれるフレーム画像であって、参照画像701に類似する局所画像が描画されているフレーム画像(以下「類似フレーム画像」という。)を検索して、動画像に類似フレーム画像が含まれるか否かを調べる(ステップS604)。
 ここで、動画像は、複数のフレーム画像の時間経過順の列によって構成される。画面301内に用意された動画フレーム331内に、所定の時間間隔(30分の1秒、あるいは、60分の1秒とされることが多い。)おきに、フレーム動画を順に表示することによって、動画像の再生が可能となる。すなわち、フレーム画像は、静止画像の一種と考えられる。
 本実施形態では、複数の動画像が、あらかじめ動画像データベースなどに記録される。各動画像にはフレーム画像が複数含まれる。そこで、各種の画像類似判定技術、画像認識技術を適用して、各フレーム画像に、参照画像701に類似する局所画像が描画されているか否かを判定する。
 図8は、参照画像701に類似する局所画像を有するフレーム画像を含む動画像の例を示す説明図である。以下、本図を参照して説明する。
 本図に示すように、動画像801は、複数のフレーム画像802a、802b、…、802f、…、802i、802j、…の列として構成される(本図では、理解を容易にするため、フレーム画像同士の時間間隔を長くしている。すなわち、一般的な動画像から、フレーム画像を間引いて示している)。以下の説明では、これら複数のフレーム画像を総称する場合には、符号の末尾の英字を省略して、「フレーム画像802」のように呼ぶこととする。
 フレーム画像802には、参照オブジェクトである自動車102に類似する自動車202が描画されている。
 しかしながら、フレーム画像802a、802bや802i、802jにおいては、撮影方向が異なるため、フレーム画像802a、802bや802i、802jには、参照画像701に類似する画像は描画されていないことになる。
 一方、フレーム画像802fには、撮影方向がほぼ同じ自動車202が、描画されており、これが局所画像803に相当する。すなわち、局所画像803と、参照画像701とは、互いに対応付けられる特徴点を有し、参照画像701を拡大縮小、平行移動、回転、反転させる変換を行うことで、局所画像803と参照画像701とを重ね合わせることができる。
 フレーム画像802内から参照画像701に類似する画像を検出するには、各種の画像認識、画像検出、パターン認識の技術を適用する。
 たとえば、各動画像に含まれるフレーム画像802のそれぞれについて、あらかじめSIFTやHOGなどの局所特徴量を計算しておき、データベースに記録しておく。そして、参照画像701についても局所特徴量を計算し、この局所特徴量に類似する局所特徴量を有するフレーム画像802をデータベースから検索する。
 なお、ある動画像に含まれるフレーム画像の局所特徴量をデータベースに登録する際には、互いに隣接するフレーム画像802の局所特徴量が類似するのであれば、適宜間引きをして登録をすることで、データ量を抑制するとともに、検索の高速化を図ることができる。
 このようにして、参照画像701に類似する局所画像803が描画された類似フレーム画像(図示する例では、フレーム画像802fが類似フレーム画像に相当する)が発見されたら(ステップS604;Yes)、検索部504は、参照画像701を局所画像803に重ね合わせた際に、参照位置311、312が局所画像803内のどこに位置するのか(以下、この位置を「開始位置」という。)、を、調べる。すなわち、検索部504は、検索された類似フレーム画像802fにおいて局所画像803が描画されている局所領域内において、参照領域内の参照位置311、312に対応付けられる開始位置を求める(ステップS605)。
 図9は、参照画像701と類似フレーム画像802fとの対応関係を示す説明図である。以下、本図を参照して説明する。
 本図では、参照画像701内には、自動車102の前端と後端に参照位置311、312の目印として黒丸が図示されている。
 一方、類似フレーム画像802fの局所画像803に相当する自動車202内には、自動車202の前端と後端に、開始位置811、812の目印として黒丸が図示されている。
 参照位置311、312は、参照オブジェクト(自動車102)において、ユーザが目印として選んだ箇所が、参照画像701内において描画されている位置である。
 一方、目標オブジェクト(自動車102に類似する自動車202)において、参照オブジェクト(自動車102)における目印に対応する箇所は、局所画像803内の開始位置811、812に描画されていることになる。
 参照画像701に類似する局所画像803の検出の際には、参照画像701が局所画像803に重なるように拡大縮小、回転、反転等の変換を施すこととなるが、参照位置311、312に対しても、これらの変換を同じように施すことにより、開始位置811、812が得られる。
 この後、検索部504は、類似フレーム画像802f内の開始位置811、812に配置されている画素(以下「注目画素」という。)が、動画像801の中でどのように移動していくか、を追跡して、その移動軌跡を得る。すなわち、検索部504は、検索された類似フレーム画像802fを含む動画像801に含まれるフレーム画像802a、802b、…、802i、802j、…を当該検索された類似フレーム画像から時間の進行方向(フレーム画像802g、802h、802i、802j、…の順)もしくは逆行方向(フレーム画像802e、802d、802c、802b、…の順)に走査することにより、当該検索された類似フレーム画像802fにおいて開始位置811、812に描画されている注目画素が他のフレーム画像802において描画されることによって移動する移動軌跡を追跡する(ステップS606)。
 図10は、動画像801における画素の移動の様子を示す説明図である。以下、本図を参照して説明する。
 本図に示すように、類似フレーム画像802fの開始位置811、812には、注目画素901、902が描画されているが、これらはそれぞれ、自動車202の前端と後端を描画するものである。
 本図には、動画像801に含まれるフレーム画像802a、802b、…、802f、…、802i、802j、…において、自動車202の前端と後端を描画する注目画素901、902の位置が示されている。各フレーム画像802a、802b、…、802f、…、802i、802j、…においては、注目画素901、902の符号の末尾に、そのフレーム画像802に対する英字の添字を付してある。
 また、本図においては、後の処理で参照される目標位置351、352も図示されている。目標位置351、352は、ユーザから動画フレーム331内において指定されており、各フレーム画像802が動画フレーム331内にぴったり入るように拡縮等することで、各フレーム画像802内における目標位置351、352が得られる。
 このような注目画素901、902の追跡は、たとえば、SIFTやHOGなどの技術を利用して隣接するフレーム画像802同士の特徴点の対応関係を求めた上で、対応する特徴点の位置の変化を補間することにより、一方のフレーム画像802における注目画素901、902の位置が、他方のフレーム画像802においてどこに移動するか、を、計算することにより、得ることができる。このほか、Particle Videoの技術を適用することによっても、注目画素901、902の追跡が可能である。
 なお、注目画素901、902の追跡とは、必ずしも、同じ色の画素が移動する軌跡を追跡することを意味しない。すなわち、注目画素901、902によってフレーム画像802に描画されている目標オブジェクトの箇所が、他のフレーム画像802ではどこに描画されているか、を追跡することを意味する。したがって、目標オブジェクトの撮影の状況等によっては、注目画素901、902の色は、次第に変化していくこともありうる。
 このように、動画像801に含まれる類似フレーム画像802から、時間の進行方向と逆行方向にフレーム画像802を走査して、注目画素901、902が各フレーム画像802においてどこに位置するか、を追跡する。すると、注目画素901、902のそれぞれの移動軌跡が得られる。
 図11は、動画像801における注目画素901、902の移動軌跡を表す説明図である。以下、本図を参照して説明する。
 本図に示すように、動画像801においては、注目画素901、902は、時間の経過とともに、画面右上(フレーム画像802a)から画面左下(フレーム画像802j以降)へ滑らかに移動する移動軌跡951、952を描く。移動軌跡951、952は、それぞれ、類似フレーム画像802fにおける開始位置811、812を通過する。
 検索部504は、これらの移動軌跡951、952を時間の経過に沿って追跡し、これらが目標位置351、352の近傍に同時に至るようなフレーム画像(以下「目標フレーム画像」という。)802を検索して、動画像801が目標フレーム画像を含むか否かを調べる(ステップS607)。
 図10に戻り、各フレーム画像802における注目画素901、902の位置と、目標位置351、352と、を対比すると、フレーム画像802bにおいて、これらが近傍に位置することがわかる。したがって、本例では、検索の結果、目標フレーム画像としてフレーム画像802bが見つかることになる。
 このように、目標フレーム画像が見つかったら(ステップS607;Yes)、当該動画像801を検索結果として出力する(ステップS608)。
 そして、データベースに登録されているすべての動画像801について、ステップS603以降の処理を繰り返し(ステップS609)、すべてについて処理を実行したら、本処理を終了する。
 なお、ステップS608における検索結果としての出力は、直ちにディスプレイ等の画面に出力して表示し、所望の動画像が発見されるごとに順次画面に検索結果が追加表示されていくようにしても良い。このほか、ステップS608においては、検索結果をRAM等に一時的に出力して蓄積し、ステップS603~ステップS609の繰り返しが終了した後に、一括してディスプレイ等の画面に表示することとしても良い。
 一方、類似フレーム画像が発見されない場合(ステップS604;No)や、目標フレーム画像が発見されない場合(ステップS607;No)は、ステップS609にそのまま進む。したがって、当該動画像801は検索結果とはならない。
 このように、本実施形態においては、静止画像101に参照オブジェクトが描画される際の構図と、動画像801に目標オブジェクトが出現する際の構図と、が、まったく異なるような場合であっても、ユーザは、単に、静止画像101における目印となる参照位置311、312と、これらの動画フレーム331における目標位置351、352と、の対応関係を入力するだけで、容易に動画の検索を行うことができる。
 特に、本実施形態においては、2次元的な画像処理によって検索を実行するので、簡易かつ高速に動画検索ができる。
 現在のところ、SIFTなどの画像認識技術では、局所画像803が参照画像701に対して30度程度回転していても類似している、と判定ができる。しかしながら、回転角度がこれを超える場合や、反転して互いに鏡像の関係となっている場合には、検出できないことがある。
 このような場合には、参照画像701の局所特徴量のほか、参照画像701を反転した鏡画像を用意し、当該鏡画像の局所特徴量も求め、これら2つの局所特徴量のいずれかに類似する局所特徴量を有するフレーム画像802をデータベースから検索すれば良い。
 類似フレーム画像の検索において、参照画像701とその鏡画像の両方を常に用いることとしても良いが、参照画像701と鏡画像のいずれか一方を選択的に利用することも可能である。
 たとえば、参照位置311、312の相対的な位置関係と、目標位置351、352の相対的な位置関係と、を用いることができる。
 図12、13は、参照位置311、312の相対的な位置関係と、目標位置351、352の相対的な位置関係と、の説明を示す説明図である。以下、これらの図を参照して説明する。
 これらの図においては、参照位置311から参照位置312へ向かう方向ベクトル971と、目標位置351から目標位置352へ向かう方向ベクトル972と、が、図示されている。
 図12に示す例は、図3(および図4)において掲げた例を参照するものであり、方向ベクトル971、972は、鋭角をなしている。このような場合には、類似フレーム画像の検索において、参照画像701を用いる。
 一方、図13に示す例では、静止画像101における左横向きの自動車102の参照位置311、312の前端と後端を入れ換えるように、目標位置351、352を指定して、右やや上向きの自動車202が登場する動画像を検索しようとしている。
 したがって、方向ベクトル971、972は、鈍角をなしている。このような場合には、類似フレーム画像の検索において、鏡画像を用いる。
 このほか、方向ベクトル971、972のなす角が、60度以下であれば、参照画像701を利用し、方向ベクトル971、972のなす角が、120度以上であれば、鏡画像を利用し、方向ベクトル971、972のなす角が、60度を超えて120度未満であれば、参照画像701と鏡画像の両方を用いる、等のように、適宜境界となる角度を定める手法もある。
 これらの手法は、垂直方向の反転よりも水平方向の反転の方が、動画撮影の場合には一般的であり、また、ユーザが検索したいと考える、というヒューリスティクスに基づくものであり、動画検索の高速化を図ることができる。
 上記の実施例により得られる情報によれば、検索された動画像801を再生すると、目標オブジェクト202そのものが移動する軌跡(以下「代表軌跡」という。)を求めることが可能である。
 たとえば、各フレーム画像802において、目標オブジェクト202が描画されている領域を求め、その中心点(領域の重心)の画素を代表画素とする。そして、代表画素を追跡することにより、目標オブジェクト202が動画像801の中で移動する代表軌跡とすることができる。
 このほか、より簡易な計算による手法として、各フレーム画像802において、注目画素901、902の中点の位置の画素を、代表画素とする手法もある。
 図14Aは、図11に示す例に対して、代表軌跡の様子を表す説明図である。以下、本図を参照して説明する。
 本図に示すように、代表軌跡981は、各フレーム画像802における注目画素901、902の中点980を通過する。したがって、代表軌跡981は、注目画素901、902の移動の移動軌跡951、952を平均化したものとなる。
 本実施形態の動画検索装置501では、ユーザからは、参照オブジェクト102に類似する目標オブジェクト202がユーザ所望の位置、姿勢で出現する動画像801が検索される。
 そこで、本実施形態では、検索された動画像801とともに、代表軌跡981を検索結果として出力することとする。
 図14Bは、動画像801と代表軌跡981とが検索結果として出力される場合の当該動画像801の概要を説明するための概要画像の様子を示す説明図である。以下、本図を参照して説明する。
 本図に示すように、概要画像991は、検索結果の動画像801のうち、参照オブジェクト102に類似する目標オブジェクト202がユーザ所望の位置、姿勢で出現するフレーム画像802bに対して、代表軌跡981を矢印の形状で重ねて描画したものである。
 概要画像991は、検索結果の動画像を一覧表示する際のサムネール画像等として利用することが可能であり、代表軌跡981を検索結果として示すことで、ユーザに、得られた動画像801に関するより詳細な情報を提供することができる。
 上記実施例では、目標オブジェクト202が移動する代表軌跡981を検索結果として出力することとしたが、本実施形態では、目標オブジェクト202が移動すべき軌跡(以下「目標軌跡」という。)をユーザに入力させ、代表軌跡981が目標軌跡に類似する動画像を検索結果とする。
 すなわち、本実施形態では、受付部502は、上記の情報に加えて、動画像に含まれるフレーム画像内における目標軌跡の入力をさらに受け付ける。
 図15は、図3に示す入力例において、ユーザが目標軌跡をさらに指定している様子を示す説明図である。以下、本図を参照して説明する。
 本図に示すように、ユーザは、矢印371、372に加えて、動画フレーム331内において、目標位置351、352の近傍から始まる矢印982を入力している。この矢印982が、ユーザにより入力された目標軌跡である。
 本実施形態では、動画像801において、目標フレーム画像802bが発見された後(ステップS607;Yes)に、以下の処理を実行する。
 図16は、図6に示すフローチャートにおいて、動画検索処理に追加される処理の内容を示す部分フローチャートである。以下、本図を参照して説明する。
 本図に示すように、目標フレーム画像802bが発見されると(ステップS607;Yes)、検索部504は、目標フレーム画像802bから時間経過順にフレーム画像802を追跡して、代表軌跡981を取得する(ステップS621)。
 そして、得られた代表軌跡981と、ユーザから矢印982により指定された目標軌跡と、が類似するか否かを判定する(ステップS622)。
 ここで、代表軌跡981と目標軌跡との類似の判定の最も単純な手法は、以下の通りである。すなわち、代表軌跡981の開始点から終了点への向きと、目標軌跡の開始点から終了点への向きと、が、なす角の差が、所定の閾値以下の場合に、両者は類似する、と判定し、所定の閾値を超えていたら、両者は類似しない、と判定するものである。このほか、種々の曲線の類似判定技術を適用することができる。
 代表軌跡981と目標軌跡とが類似する場合(ステップS622;Yes)、ステップS608に進んで、当該動画像を検索結果として出力する。
 一方、代表軌跡981と目標軌跡とが類似しない場合(ステップS622;No)、ステップS609に進み、他の動画像を処理対象として処理を繰り返す。
 本発明によれば、目標オブジェクトが動画フレーム331内において、どの位置、どの向きに配置され、そこからどの方向に移動するのか、を、ユーザが容易に指定することができるようになり、動画検索を簡易かつ高速に実行することができるようになる。
 なお、上記の実施例では、動画像801として、現実世界をカメラで撮影することにより得られるものを例としてとりあげたが、仮想世界を仮想視点から見た様子をコンピュータグラフィックスにより生成した動画像や、フレーム画像を1枚ずつ手作業などによって作成して並べることにより得られるアニメーション的な動画像等、任意の動画像に対しても同じ手法を適用することが可能である。
 上記実施形態では、矢印371、372の入力によって、参照位置311、312ならびに目標位置351、352を指定していたが、ユーザが矢印371、372を描く際に利用できる他のパラメータを利用することも可能である。
 たとえば、ユーザの押圧の強さが検知可能なタッチパネルやマウス、コントローラなどを利用している場合には、矢印371、372を描く際のユーザの押圧の強さに応じて、目標位置351、352の近傍の大きさを変化させることが可能である。
 この態様では、図3、図4に示す入力例において、ユーザの押圧力が強ければ、矢印371、372が太く描かれ、ユーザの押圧力が弱ければ、矢印371、372が細く描かれるように、画面301の表示設定を行っておく。
 そして、ユーザの押圧の強さ、すなわち、矢印371、372の太さにより、目標位置の近傍か否かの閾値の大きさを決めるのである。
 本実施形態によれば、動画像の検索条件の詳細な指定を、簡易な操作によって実現することが可能となる。
 このほか、図3に示すように、動画フレーム331が静止画像101とは異なる位置に表示されている場合には、動画フレーム331内に種々の情報を提示することが可能である。
 データベースに登録されているすべての動画像801のフレーム画像802の局所情報量を動画フレーム331内の各位置についてそれぞれ集計して、集計結果の各位置における分布を、動画フレーム331内に画面表示する、という手法である。
 一般に、局所情報量がスカラー値である場合には、その値が大きければ大きいほど、その箇所が人間にとって目に付きやすい、特徴的な箇所であると予想される。
 また、局所情報量がベクトル値である場合には、その長さが長ければ長いほど、その箇所が特徴的であると予想される。
 したがって、局所情報量の総和をスカラー化することにより、動画フレーム331内の各位置が、全動画像の平均においてどの程度特徴的であるか、を得ることができる。
 したがって、この手法によれば、ユーザは、どの位置を目標位置とすれば、より適切な検索結果が得られるか、等の予測がしやすくなる。
 なお、本願においては、2012年1月20日に日本国に出願した特願2012-010492を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容をすべて本願に取り込むものとする。
 本発明によれば、動画像内に現れるべきオブジェクト、その位置や向き、さらには、その動きをユーザが容易に指定できるようにして、動画検索を行う動画検索装置、動画検索方法、記録媒体、ならびに、プログラムを提供することができる。
  101 静止画像
  102 参照オブジェクトの自動車
  121 静止画像の全領域
  122 参照領域
  123 参照画像
  201 フレーム画像
  202 目標オブジェクトの自動車
  221 フレーム画像の全領域
  222 目標領域
  223 目標画像
  301 画面
  311 参照位置
  312 参照位置
  331 動画フレーム
  351 目標位置
  352 目標位置
  371 矢印
  372 矢印
  501 動画検索装置
  502 受付部
  503 抽出部
  504 検索部
  701 参照画像
  801 動画像
  802 フレーム画像
  803 局所画像
  811 開始位置
  812 開始位置
  901 注目画素
  902 注目画素
  951 移動軌跡
  952 移動軌跡
  971 参照位置に係る方向ベクトル
  972 目標位置に係る方向ベクトル
  981 代表軌跡
  982 目標軌跡に係る矢印
  991 概要画像

Claims (8)

  1.  参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付部、
     前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
     複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
     を備えることを特徴とする動画検索装置。
  2.  請求項1に記載の動画検索装置であって、
     前記受付部は、前記動画像に含まれるフレーム画像内における目標軌跡の入力をさらに受け付け、
     前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、前記目標軌跡と、前記代表軌跡と、が類似する動画像を、前記検索結果とする
     ことを特徴とする動画検索装置。
  3.  請求項1に記載の動画検索装置であって、
     前記検索部は、前記検索された動画像のそれぞれについて、当該検索された動画像に含まれるフレーム画像を、当該動画像に含まれる目標フレーム画像から時間の進行方向に走査することにより、当該検索された目標フレーム画像に描画されている局所画像の代表画素が移動する代表軌跡を追跡して、当該動画像とともに、当該動画像の代表軌跡を、前記検索結果とする
     ことを特徴とする動画検索装置。
  4.  請求項1から3のいずれか1項に記載の動画検索装置であって、
     前記抽出部は、前記参照画像の画像特徴量を取得し、
     前記検索部は、前記参照画像の前記画像特徴量に類似する画像特徴量を有するフレーム画像を検索することにより、前記類似フレーム画像を検索する
     ことを特徴とする動画検索装置。
  5.  請求項4に記載の動画検索装置であって、
     前記抽出部は、前記参照画像を反転した鏡画像の画像特徴量をさらに取得し、
     前記検索部は、前記参照画像の前記画像特徴量もしくは前記鏡画像の前記画像特徴量に類似するフレーム画像を検索することにより、前記類似フレーム画像を検索する
     ことを特徴とする動画検索装置。
  6.  参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるべきフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付ステップ、
     前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出ステップ、
     複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索ステップ
     を備えることを特徴とする動画検索方法。
  7.  コンピュータを、
     参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるべきフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付部、
     前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
     複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
     として機能させることを特徴とするプログラムを記録したコンピュータ読取可能な記録媒体。
  8.  コンピュータを、
     参照オブジェクトが描画された静止画像、当該静止画像内の当該参照オブジェクトが描画された参照領域内に含まれる第1参照位置ならびに第2参照位置、動画像に含まれるべきフレーム画像内の第1目標位置ならびに第2目標位置の入力を受け付ける受付部、
     前記第1参照位置ならびに前記第2参照位置に基づいて、前記参照領域内に描画されている参照画像を抽出する抽出部、
     複数の動画像のうち、当該動画像に含まれるフレーム画像であって、前記参照画像に類似する局所画像が描画されている類似フレーム画像を検索し、前記検索された類似フレーム画像において前記局所画像が描画されている局所領域内において、前記参照領域内の前記第1参照位置と、前記第2参照位置と、に対応付けられる第1開始位置と、第2開始位置と、を求め、当該検索された類似フレーム画像を含む動画像に含まれるフレーム画像を当該検索された類似フレーム画像から時間の進行方向もしくは逆行方向に走査することにより、当該検索された類似フレーム画像において前記第1開始位置に描画されている第1注目画素が移動する第1移動軌跡と、前記第2開始位置に描画されている第2注目画素が移動する第2移動軌跡と、を追跡して、当該第1移動軌跡が前記第1目標位置の近傍に至り、当該第2移動軌跡が前記第2目標位置の近傍に至る目標フレーム画像を検索し、当該検索された類似フレーム画像ならびに当該検索された目標フレーム画像を含む動画像を検索結果とする検索部
     として機能させることを特徴とするプログラム。
PCT/JP2012/076480 2012-01-20 2012-10-12 動画検索装置、動画検索方法、記録媒体、ならびに、プログラム WO2013108448A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US14/240,284 US9076036B2 (en) 2012-01-20 2012-10-12 Video search device, video search method, recording medium, and program
CN201280040285.0A CN103748870B (zh) 2012-01-20 2012-10-12 动态图像检索装置、动态图像检索方法
EP12866068.5A EP2733931B1 (en) 2012-01-20 2012-10-12 Video search device, video search method, recording medium, and program
ES12866068.5T ES2618075T3 (es) 2012-01-20 2012-10-12 Dispositivo de búsqueda de vídeo, método de búsqueda de vídeo, medio de registro y programa

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-010492 2012-01-20
JP2012010492A JP5248685B1 (ja) 2012-01-20 2012-01-20 動画検索装置、動画検索方法、記録媒体、ならびに、プログラム

Publications (1)

Publication Number Publication Date
WO2013108448A1 true WO2013108448A1 (ja) 2013-07-25

Family

ID=48798885

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/076480 WO2013108448A1 (ja) 2012-01-20 2012-10-12 動画検索装置、動画検索方法、記録媒体、ならびに、プログラム

Country Status (7)

Country Link
US (1) US9076036B2 (ja)
EP (1) EP2733931B1 (ja)
JP (1) JP5248685B1 (ja)
CN (1) CN103748870B (ja)
ES (1) ES2618075T3 (ja)
TW (1) TWI514172B (ja)
WO (1) WO2013108448A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102025362B1 (ko) * 2013-11-07 2019-09-25 한화테크윈 주식회사 검색 시스템 및 영상 검색 방법
JP6225039B2 (ja) 2014-01-31 2017-11-01 株式会社日立製作所 画像検索システム、画像検索装置及び画像検索方法
CN105678254B (zh) * 2016-01-04 2019-05-31 深圳市茁壮网络股份有限公司 一种视频检测方法及装置
KR102673041B1 (ko) 2016-08-18 2024-06-07 한화비전 주식회사 이벤트 검색 시스템, 장치 및 방법
US10229325B2 (en) 2017-02-28 2019-03-12 International Business Machines Corporation Motion based video searching system using a defined movement path for an object
US20220137700A1 (en) * 2020-10-30 2022-05-05 Rovi Guides, Inc. System and method for selection of displayed objects by path tracing
US11599253B2 (en) * 2020-10-30 2023-03-07 ROVl GUIDES, INC. System and method for selection of displayed objects by path tracing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108730A (ja) * 1991-08-29 1993-04-30 Internatl Business Mach Corp <Ibm> 動画像データベースの検索
JP2001134589A (ja) 1999-11-05 2001-05-18 Nippon Hoso Kyokai <Nhk> 動画像検索装置
JP2006093955A (ja) * 2004-09-22 2006-04-06 Matsushita Electric Ind Co Ltd 映像処理装置
JP2007310568A (ja) * 2006-05-17 2007-11-29 Hitachi Ltd 映像内の移動体検出方法、映像システムの異常発生原因分析支援方法及び支援システム
JP2012151817A (ja) * 2010-12-28 2012-08-09 Olympus Imaging Corp 再生装置および撮像装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI478154B (zh) * 2003-10-04 2015-03-21 Samsung Electronics Co Ltd 儲存搜尋資訊的再生方法
US7804981B2 (en) * 2005-01-13 2010-09-28 Sensis Corporation Method and system for tracking position of an object using imaging and non-imaging surveillance devices
CN101465033B (zh) * 2008-05-28 2011-01-26 丁国锋 一种自动追踪识别系统及方法
US8848974B2 (en) * 2008-09-29 2014-09-30 Restoration Robotics, Inc. Object-tracking systems and methods
KR101634228B1 (ko) * 2009-03-17 2016-06-28 삼성전자주식회사 디지털 이미지 처리장치, 추적방법, 추적방법을 실행시키기위한 프로그램을 저장한 기록매체 및 추적방법을 채용한 디지털 이미지 처리장치
JP4922472B1 (ja) * 2011-09-29 2012-04-25 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108730A (ja) * 1991-08-29 1993-04-30 Internatl Business Mach Corp <Ibm> 動画像データベースの検索
JP2001134589A (ja) 1999-11-05 2001-05-18 Nippon Hoso Kyokai <Nhk> 動画像検索装置
JP2006093955A (ja) * 2004-09-22 2006-04-06 Matsushita Electric Ind Co Ltd 映像処理装置
JP2007310568A (ja) * 2006-05-17 2007-11-29 Hitachi Ltd 映像内の移動体検出方法、映像システムの異常発生原因分析支援方法及び支援システム
JP2012151817A (ja) * 2010-12-28 2012-08-09 Olympus Imaging Corp 再生装置および撮像装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CHIKASHI YAJIMA: "Querying Video Intervals bySpatio-temporal Relationships of Moving Object Traces", IEICE TECHNICAL REPORT, vol. 101, no. 193, 12 July 2001 (2001-07-12), pages 167 - 174, XP008172594 *
D.G. LOWE: "Object recognition from Local Scale-Invariant Features", PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 1999, pages 1150 - 1157
DAN B. GOLDMAN; CHRIS GONTERMAN; BRIAN CURLESS; DAVID SALESIN; STEVEN M. SEITZ: "Proc. ACM symposium on User Interface Software and Technology", 2008, ACM, article "Video Object Annotation, Navigation and Composition, UIST 2008", pages: 3 - 12
MASANORI YOSHIMITSU: "Scene Retrieval by Object's Motion on Video Databases", IPSJ SIG NOTES, vol. 95, no. 31, 14 March 1995 (1995-03-14), pages 25 - 32, XP055152809 *
N. DALAL; B. TRIGGS: "Histograms of Oriented Gradients for Human Detection", PROCEEDINGS OF IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2005, pages 886 - 893, XP010817365, DOI: doi:10.1109/CVPR.2005.177
PETER SAND AND SETH TELLE: "Particle Video: Long-Range Motion Estimation using Point Trajectories", INTERNATIONAL JOURNAL OF COMPUTER VISION,, vol. 80, no. 1, - 2008, pages 72 - 91, XP019616646
See also references of EP2733931A4
SHUICHI AOKI: "An application of motion information forpicture retrieval with MPEG-7", ITE TECHNICAL REPORT, vol. 25, no. 77, 21 November 2001 (2001-11-21), pages 29 - 36, XP008173332 *

Also Published As

Publication number Publication date
TW201333734A (zh) 2013-08-16
EP2733931B1 (en) 2016-12-07
ES2618075T3 (es) 2017-06-20
CN103748870B (zh) 2016-12-07
EP2733931A1 (en) 2014-05-21
JP5248685B1 (ja) 2013-07-31
CN103748870A (zh) 2014-04-23
JP2013150218A (ja) 2013-08-01
TWI514172B (zh) 2015-12-21
US9076036B2 (en) 2015-07-07
US20140205148A1 (en) 2014-07-24
EP2733931A4 (en) 2015-03-04

Similar Documents

Publication Publication Date Title
JP5248685B1 (ja) 動画検索装置、動画検索方法、記録媒体、ならびに、プログラム
Liang et al. Camera-based analysis of text and documents: a survey
JP5139716B2 (ja) 画像検索装置及び画像検索方法
US9665962B2 (en) Image distractor detection and processng
US8200648B2 (en) Data similarity and importance using local and global evidence scores
US20070237225A1 (en) Method for enabling preview of video files
EP2560145A2 (en) Methods and systems for enabling the creation of augmented reality content
JP2011008752A (ja) ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
JP2002288219A (ja) 情報検索システムおよび方法
WO2017197593A1 (en) Apparatus, method and computer program product for recovering editable slide
JP6061502B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2020030795A (ja) 地図画像背景から位置を推定するためのシステム、方法、及びプログラム
WO2021063222A1 (zh) 电子设备和图像处理方法
US11138257B2 (en) Object search in digital images
Zabihifar et al. Unreal mask: one-shot multi-object class-based pose estimation for robotic manipulation using keypoints with a synthetic dataset
Nguyen et al. ASMIM: augmented reality authoring system for mobile interactive manuals
JP2016025625A (ja) 情報処理装置、情報処理方法及びプログラム
Mooser et al. Large document, small screen: a camera driven scroll and zoom control for mobile devices
JP6419560B2 (ja) 検索装置、方法及びプログラム
An et al. Unified framework for automatic image stitching and rectification
Yan et al. Fast and low complexity image stitching method on mobile phones
Wang et al. Online photography assistance by exploring geo-referenced photos on MID/UMPC
Daga Content based video retrieval using color feature: an integration approach
AU2013273790A1 (en) Heterogeneous feature filtering
Hong et al. Advanced paper document in a projection display

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12866068

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2012866068

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2012866068

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14240284

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE