WO2011158406A1 - 映像検索装置、映像検索方法、記録媒体、プログラム、集積回路 - Google Patents

映像検索装置、映像検索方法、記録媒体、プログラム、集積回路 Download PDF

Info

Publication number
WO2011158406A1
WO2011158406A1 PCT/JP2011/001596 JP2011001596W WO2011158406A1 WO 2011158406 A1 WO2011158406 A1 WO 2011158406A1 JP 2011001596 W JP2011001596 W JP 2011001596W WO 2011158406 A1 WO2011158406 A1 WO 2011158406A1
Authority
WO
WIPO (PCT)
Prior art keywords
objects
weight value
content
video search
unit
Prior art date
Application number
PCT/JP2011/001596
Other languages
English (en)
French (fr)
Inventor
三浦 康史
山本 雅哉
慎吾 宮本
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201180003170.XA priority Critical patent/CN102474586B/zh
Priority to US13/389,144 priority patent/US8718444B2/en
Priority to JP2012520244A priority patent/JP5632472B2/ja
Publication of WO2011158406A1 publication Critical patent/WO2011158406A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/421Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • H04N21/4545Input to filtering algorithms, e.g. filtering a region of the image
    • H04N21/45455Input to filtering algorithms, e.g. filtering a region of the image applied to a region of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8233Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal

Definitions

  • It relates to technology for searching related objects and videos based on objects appearing in videos.
  • a storage device that stores large-capacity video on a server on the network is also provided, and services for storing and viewing video are also available.
  • a search device that efficiently selects a desired video from a large amount of video stored in the storage device has been put into practical use.
  • Patent Document 1 designation of an object (person) included in one frame of a video is received from a user, and a feature amount of the received object is extracted. Then, by collating using the extracted feature amount, another video scene in which the accepted object appears is displayed.
  • the present invention has been made under such a background, and an object thereof is to provide a video search apparatus that can contribute to improvement of search accuracy.
  • the video search apparatus has a playback means for playing back content composed of a plurality of frames, and a plurality of inputs for designating objects included in the frames constituting the content during playback of the content from the user.
  • a time-reception feature on the content of each frame including each object for each of a plurality of objects detected by the detection means, a detection means for detecting an object in response to the reception by the reception means, and a plurality of objects detected by the detection means
  • an assigning means for assigning a weight value
  • a search means for performing a search based on a plurality of objects to which the weight value is assigned.
  • the weight value adjusted based on the time-series characteristics on the content of each frame including each object is assigned, and the search is performed based on the assigned weight value. Therefore, it can contribute to the improvement of search accuracy.
  • the figure which shows the memory content of the content management information storage part 104 The figure which shows the memory content of the scene information storage part 105
  • the figure which shows the flow which specifies the scene where the object belongs The figure which shows the memory content of the object information storage part 106
  • the figure which shows the example of the feature-value information in the object information storage part 106 The figure which shows the thumbnail corresponding to each object ID of the object information storage part 106 Diagram showing how to specify an area Diagram showing how features are extracted from a specified area (object)
  • the figure which shows the example of feature quantity information The figure which shows the memory content of the 1st buffer 110
  • the figure which shows the memory content of the 1st buffer 110 typically.
  • the video search apparatus 101 includes a communication unit 102, a content storage unit 103, a content management information storage unit 104, a scene information storage unit 105, an object information storage unit 106, a playback unit 107, a reception unit 108, an object A detection unit 109, a first buffer 110, a weight value assignment unit 111, a second buffer 115, a search unit 116, a display control unit 117, and a display unit 118 are provided.
  • the communication unit 102 has a function of performing various types of communication, and is composed of, for example, a NIC (Network Interface Card) and receives content via a network. Alternatively, it is composed of an antenna for receiving a broadcast wave, and receives content that arrives on the broadcast wave.
  • a NIC Network Interface Card
  • the content in the present embodiment is video content having a certain length of playback time. Hereinafter, it is simply referred to as content.
  • the content storage unit 103 stores a plurality of contents received by the communication unit 102 and contents input from an external medium (such as an optical disk).
  • the content management information storage unit 104 stores management information about the content stored in the content storage unit 103.
  • a “content ID” 104a for identifying the content a “title” 104b for the content, a “genre” 104c for the content, and a “content” 104 for specifying the location of the content. It includes an item “content file path” 104d.
  • the scene information storage unit 105 stores, for each content stored in the content storage unit 103, a scene included in each content and a frame number range for each scene in association with each other.
  • the scene information storage unit 105 includes items of a “scene number” 105a indicating a scene number and a “frame number range” 105b indicating a frame range corresponding to the scene number. Including.
  • FIG. 3 shows only one content (content ID: AAA), but the same content is stored for other content (content ID: ABC, BCD, ZZZ).
  • the content stored in the scene information storage unit 105 is used for specifying a scene corresponding to the object performed by the association unit 113. This scene identification method will be described later with reference to FIG.
  • the object information storage unit 106 stores information related to an object included (appears) in the content frame stored in the content storage unit 103.
  • an “object ID” 106a for uniquely identifying an object a “frame number” 106b indicating the number of the frame including the object, and an identifier of the content including the frame are shown.
  • the storage content of the object information storage unit 106 is created by the object detection unit 109 extracting the feature amount of the object for each content of the content storage unit 103 and detecting the object. Which object in the content is targeted may be automatically set under preset setting conditions or manually (user specified).
  • FIG. 6 An example of feature quantity information is shown in FIG.
  • “i” and “j” are lattice coordinates
  • R, G, and B indicate the ratios of red, green, and blue colors in 256 levels, respectively.
  • the grid coordinates represent the position of each grid by dividing the frame into a grid.
  • the object information storage unit 106 stores feature amount information as shown in FIG. 6 for each object.
  • FIG. 7 is a diagram showing a thumbnail of each object in the object information storage unit 106.
  • the object with ID “0001” -ID “0002” is a beetle
  • the object with ID “0003” is a tank
  • the object with ID “1000” is a cat.
  • Each of the storage units 103 to 106 is composed of, for example, HDD (Hard Disk Drive) hardware.
  • HDD Hard Disk Drive
  • the playback unit 107 plays back the content stored in the content storage unit 103 and causes the display unit 118 to display the playback content.
  • the accepting unit 108 accepts various instructions such as a content reproduction instruction and a designation of an area to be detected for the object being reproduced (designation of an object) from the user.
  • the touch sensor is composed of a capacitive touch sensor, and the position on the surface of the touch sensor is pointed (touched) from the change in the capacitance value, and is accepted as an input.
  • other general input devices such as a remote controller may be used as the reception unit 108.
  • the object detection unit 109 detects an object based on the area received by the reception unit 108, and extracts a feature amount for the object.
  • the first buffer 110 stores the feature amount information of the object extracted by the object detection unit 109.
  • the weight value assigning unit 111 assigns a weight value that affects the search score (secondary similarity) to each object stored in the first buffer 110, and includes an initial weight value assigning unit 112, an association unit 113, A weight value increasing unit 114 is provided.
  • the initial weight value assigning unit 112 assigns an initial weight value to each object stored in the first buffer 110.
  • a weight value of 0.5 is assigned to each of three objects with IDs “011”, “012”, and “013”. An image of this initial weight value assignment is shown in FIG.
  • the association unit 113 associates the objects stored in the first buffer 110 with each other.
  • the associating unit 113 refers to the scene information storage unit 105 and performs associating on the condition that the scenes of the frames including the objects are the same.
  • the scene number is “2”. Since the object ID “012” is frame number # 2500, the scene number is “2”. Since the object ID “013” is frame number # 3500, the scene number is “3”. It becomes.
  • the associating unit 113 associates “012” with the object ID “011” that is common to the scene number “2”, and associates “011” with the object ID “012”.
  • the weight value increasing unit 114 increases the weight value of the associated object.
  • the weight value increasing unit 114 increases the weight value by “0.3” for the associated object IDs “011” and “012”, respectively.
  • the weight value assigning unit 111 stores the processing result in the second buffer 115 when the series of weight values is finished.
  • An example of the contents stored in the second buffer 115 is shown in FIG.
  • the second buffer 115 includes an “object ID” 115a, a “related object ID” 115b that identifies an object associated with the object indicated by the object ID, and a “weight value” 115c.
  • the search unit 116 searches for similar objects based on the information stored in the first buffer 110 and the second buffer 115, with the contents stored in the object information storage unit 106 as a target.
  • the reproduction unit 107, the reception unit 108, the object detection unit 109, and the weight value assignment unit 111 can be realized by storing a control program in a ROM and executing the program by the CPU, for example. .
  • the display control unit 117 controls display on the display unit 118.
  • the display unit 118 includes a liquid crystal touch screen 801, for example.
  • the display unit may be integrated with the information search apparatus or may be a separate type.
  • FIG. 4A shows the relationship between the frame number range and the scene number.
  • FIG. 4B shows three frames (frame numbers “# 1001”, “# 2997”, “# 3001”) and objects (object IDs “001”, “002”, “003”) included in each frame. ).
  • FIG. 4C shows the frame number and scene number corresponding to the object ID.
  • the associating unit 113 specifies the frame number including the object (S3501).
  • the frame including the object for example, a representative frame (a frame first pointed by the user) is selected.
  • the associating unit 113 refers to the contents stored in the scene information storage unit 105 (S3502) and determines a scene number corresponding to the identified frame number (S3503).
  • the associating unit 113 specifies the frame number “# 1001” including the object ID “001”. Then, the associating unit 113 refers to the stored contents of the scene information storage unit 105 and determines that “# 1001” is the scene number “2”.
  • a trajectory 804 is a trajectory of a point input as a point.
  • the object detection unit 109 detects the region of the locus 804 as an object.
  • the object detection unit 109 extracts a feature amount for the region of the locus 804 that is an object.
  • the representative frame (frame number “# 99” in the example of FIG. 9) is a grid of w horizontal and h vertical (16 horizontal and 9 vertical in the example of FIG. 9). Divide into areas.
  • each divided lattice region is r (i, j): 1 ⁇ i ⁇ w, 1 ⁇ j ⁇ h.
  • the object detection unit 109 extracts a set R (O) of lattice areas included in the area O that is an area including the object.
  • a method for determining whether or not the region O includes the lattice region r (i, j) is as follows.
  • a line segment connecting the barycentric point P (x, y) of the lattice region r (i, j) and the point Q very far from P is defined as a line segment PQ, and the line segment PQ and the region O Let the number of intersections be N (PQ, O).
  • intersection number N (PQ, O) is an odd number
  • the lattice region r (i, j) is included in the region O, and if it is an even number, it is determined not to be included. In this way, a set R (O) of lattice regions included in the region O is obtained.
  • the object detection unit 109 then obtains feature amount information c (i, j) for the lattice region r (i, j) ⁇ R (O) included in the region O.
  • the feature amount information c (i, j) is a color with the highest frequency in the lattice region r (i, j).
  • the feature amount information detected by the object detection unit is managed in association with each other in a table format.
  • Fig. 10 shows an example of feature information.
  • the format of the feature amount information in FIG. 10 is the same as that shown in FIG. 6, and the object ID “xx”, the frame number “# 100”, and the content ID “ABC” are linked.
  • the object detection unit 109 repeats the process of detecting an object from the region and extracting the feature amount of the object every time the reception unit 108 receives the specification of the region. Then, the extracted feature amount information and the like are stored in the first buffer 110.
  • FIG. 11 is a diagram showing the contents stored in the first buffer 110.
  • the first buffer 110 includes an “object ID” 110a for identifying an object, a “frame number” 110b including the object, and “feature information” 110c.
  • FIG. 12 is a diagram schematically showing the storage contents of the first buffer 110 of FIG. IDs “011” and “012” are beetles, and ID “013” is a cat object.
  • FIG. 12 depicts an image of each object for convenience of explanation, and the actual data format in the first buffer 110 is the feature amount information format as shown in FIG.
  • the reception unit 108 receives selection of content to be reproduced (S1501).
  • FIG. 16 shows a screen of the touch screen 801 corresponding to step S1501.
  • the reception unit 108 waits for an object designation.
  • the subsequent steps S1503 to S1505 are the processes described with reference to FIGS. 8 and 9, and the receiving unit 108 receives the designation of the area (S1503).
  • the object detecting unit 109 detects the object for the received area (S1504).
  • the feature amount is extracted (S1505).
  • steps S1503 to S1505 are repeatedly performed until the content reproduction is completed (S1506: Yes).
  • the object IDs “011”, “012”, and “013” in the first buffer 110 are stored by the object detection unit 109 that repeats the processing of steps S1504 to S1505 three times.
  • the weight value assigning unit 111 obtains the frame number corresponding to the object ID from the first buffer 110 (S1701), and the initial weight value assigning unit 112 obtains the frame number.
  • An initial weight value “0.5” is assigned to each object ID (S1702).
  • the associating unit 113 refers to the information in the scene information storage unit 105, identifies the corresponding scene number from the frame number acquired in step S1701 (S1703), and identifies the scene number of each object ID. .
  • the objects having the same scene number are related to each other from the identified scene number (S1704).
  • the weight value increasing unit 114 increases the weight value related in step S1704 by “0.3”. A series of processing results are output to the second buffer 115 (S1705).
  • each weight value is “0.8” obtained by adding “0.3” to the initial weight value “0.5”.
  • a primary similarity calculation process (S1801) that is calculated based on the feature amount information of the object, and based on the calculated primary similarity and the object weight value. Further, a secondary similarity calculation process (S1802) to be calculated is included.
  • the search unit 116 calculates one object O h from which the primary similarity has not been calculated among the objects stored in the first buffer 110.
  • the target is set (S1901). Then, the feature amount information of the object set as the calculation target is acquired.
  • step S1901 An example of step S1901 will be described.
  • three objects O 1 ID “011”), O 2 (ID “012”), O 3 (ID “013”) are stored. ") Is stored.
  • the search unit 116 sets the object O 1 as a calculation target, and acquires feature amount information of the object O 1 .
  • the search unit 116 sets from among the objects stored in the object information storage unit 106, to calculate target 1 first-order similarity uncalculated amino object P i (S1902). Then, the feature amount information of the object set as the calculation target is acquired.
  • step S1902 will be described.
  • 1,000 objects P 1 ID “0001”
  • P 2 ID “0002”
  • P 3 ID “0003”
  • the search unit 116 sets the object P 1 as a calculation target, and acquires feature amount information of the object P 1 set as the calculation target.
  • the search unit 116 obtains a primary similarity R h, i between the object O h set in step S1901 and the object P i set in step S1902 (S1903).
  • this template matching process (a process in which a template is moved while being superimposed on an input image and the similarity is determined by examining the correlation between corresponding feature colors) can use an existing method.
  • the technique described in Non-Patent Document 2 may be used.
  • the primary similarity R h, i obtained by the search unit 116 is normalized to a value between 0 and 1, and the higher the value, the higher the similarity.
  • search unit 116 If there is an object P i whose primary similarity R h, i has not been calculated (S1904: Yes), the search unit 116 returns to step S1902.
  • FIG. 20 shows an example of the primary similarity R h, i .
  • the similarity between the object IDs “0002” and “0001” of the same beetle is high.
  • the object ID “011” the similarity of the tank object ID “0003” is also high at the second place.
  • the tank object with ID “0003” is an object that only has a similar color combination to the beetle object with ID “011”, and the user who searched using ID “011” (want to find a beetle) It is considered that the result is not intended for the user.
  • calculation of the secondary similarity search unit 116 from among the objects stored in the first buffer 110, calculates a secondary degree of similarity uncalculated amino object O h
  • the target is set (S2101).
  • the related object of the object set as the calculation target is acquired with reference to the second buffer 115 (S2102).
  • the secondary similarity Sh , i is obtained by adding all (S2104).
  • step S2101 Set target object O 1 in step S2101, as was set to calculate target object P 1 in step S2103, Fig. 22
  • a specific example of step S2104, will be described with reference to FIG. 23.
  • the primary similarity from R 1,1 to R 1,1000 is obtained, and the object O 1 is related to the object O 2 (object O 1 has a relationship object O 2 ).
  • the first half term “R 1,1 ⁇ w1” is obtained by multiplying the primary similarity R 1,1 between the object O 1 itself and the target object P 1 by its own weight value w1.
  • Late term "R 2,1 ⁇ w2" is the primary similarity R 2,1 of the relationship object O 2 and the target object P 1 object O 1, becomes multiplied by the weight value w2 of the relationship object Yes.
  • the secondary similarity S is (A) 1-order similarity of an object P i stored in an object O h and object information storage unit 106 which is detected by the object detection unit 109 (B) the object O objects associated with the h O h ( 1) Primary similarity of an object P i The two similarities are added after being multiplied by the weights of the respective objects O h and O h (1) .
  • FIG. 24 shows a generalized image of the method of calculating the secondary similarity, and the method of calculating the secondary similarity S h, i between the object O h having j related objects and the object P i. Indicates.
  • the search unit 116 repeats such a series of processes to thereby obtain the primary similarity (R 1,1 , R 1,2 ,..., R 1,1000 , R 2,1 , R 2,2 , , R 3,1000 ) based on the secondary similarity (S 1,1 , S 1,2 ,..., S 1,1000 , S 2,1 , S 2,2 ,. determine the S 3,1000) (S2105, S2106) .
  • FIG. 25 shows an example of secondary similarity.
  • the search unit 116 displays the search result (S1803).
  • FIG. 26 is a diagram showing an example of a search result.
  • thumbnails of three objects (ID “011”, “012”, “013”) used for the search are displayed, and in the lower part, the ID “011” of the three objects is displayed.
  • the thumbnails 51 to 53 of the objects with the second highest secondary similarity are displayed.
  • the search unit 116 selects the frame number “# 1234 including the object ID“ 0002 ”(see FIG. 7) corresponding to the thumbnail 51 from the object information storage unit 106. “, Content ID“ ABC ”is specified. Then, the search unit 116 causes the playback unit 26 to start playback from a frame number slightly before the frame number “# 1234” of the content ID “ABC”.
  • search result in FIG. 24 is merely an example.
  • the average of the secondary similarity of each of the three objects used in the search may be obtained, and the top three may be displayed. Not limited to the third place, any number may be used. Further, not only the rank of the search results but also the secondary similarity value (search score) may be displayed.
  • FIG. 27 shows an image when the flow of operations described so far is viewed from the user interface side.
  • the scene is the same as “2” for the three objects (IDs “011”, “012”, “013”) designated by the user selecting an area.
  • the weight values of IDs “011” and “012” are increased by “0.3”.
  • the secondary similarity is obtained by considering the above weight value from the primary similarity.
  • the number of objects that have the same scene “2” is as small as two. However, as the number of objects used for the search is increased to 10, 20, the combination of accidental colors as described above is similar. It is possible to reduce the possibility that only objects that occupy the top of the search results.
  • the present embodiment has been described above, the present invention is not limited to the above-described contents, and can be implemented in various forms for achieving the object of the present invention and the object related or incidental thereto. It does not matter.
  • the accepting unit 108 accepts designation of an area during content reproduction, a frame elapses from the start of input of a point for area designation to the end of input.
  • the frame number “# 100” at the point input start time (the time when the reception unit 108 has received) be the detection target.
  • the correction value is for one frame, and “# 99” immediately before the frame number “# 100” is the target frame.
  • the reception unit 108 receives a point A (x1, y1) that is one point on the touch screen 801.
  • the object detection unit 109 performs edge detection on the received frame, and detects the object 108 including the point A among the objects detected by the edge detection.
  • the edge detection can use a general method such as the Canny method (see Non-Patent Document 1).
  • the object may be detected based on the point designated by the user (point designation).
  • the area designation or point designation may be selectively used based on user settings.
  • the object detection unit 109 if the number of points input during a certain time t is equal to or less than c and the distance between the points is equal to or less than d, it is determined that the point is specified. May be determined as area designation.
  • the associating unit 113 changes the presence or absence of the association based on the identity of the scene to which the frame including the object belongs, but is not limited thereto.
  • the relationship may be performed on the condition that the chapters are the same.
  • the relationship may be made on condition that the playback times of the frames including the respective objects are within a certain time (for example, within 3 minutes).
  • the relationship between the objects O1 to O2 but not the relationship from O2 to O1 is given a direction to the relationship, and the frame playback time order (object (Order of appearance) may be taken into consideration.
  • the weight value increment ⁇ w is set to be relatively large, and when the number of intervening objects is large (when the recursion is deep), the weight value is increased.
  • the increment ⁇ w may be set relatively small.
  • directionality is given to the association, but such recursive association can also be applied to the association having no directionality.
  • the weight value increasing unit 114 uniformly increases the weight value of “0.3” for an object having a related object, but is not limited thereto.
  • the frequency of appearance of each object detected by the object detection unit 109 may be counted. Specifically, an item “frequency” is provided in the data string of the second buffer in FIG. 14. If the frequency is high, a value larger than “0.3” (for example, “0.5”) is incremented, If the frequency is high, a value smaller than “0.3” (for example, “0.1”) may be used as the increment.
  • the appearance time may be counted for each object detected by the object detection unit 109. Specifically, an item “appearance time” is provided in the data string of the second buffer in FIG. 14, and if the appearance time is long, a value larger than “0.3” (for example, “0.5”) is incremented. If shorter, a value smaller than “0.3” (for example, “0.1”) may be incremented.
  • a history indicating the presence or absence of fast forward or rewind may be stored as a history associated with a frame number.
  • the object ID “011” (see FIG. 11) included in the frame number “# 2000” has a smaller weight value. You may make it do. This is because the object included in the fast-forwarded frame is considered not important for the user.
  • the weight value of the object included in the rewound frame may be increased.
  • the search unit 116 may search in consideration of the appearance order of objects.
  • information indicating the appearance order of objects is stored in the object information storage unit 106, and the secondary similarity of an object having a high degree of coincidence with the order of the objects detected by the object detection unit 109 is increased. Also good.
  • the objects detected by the object detection unit 109 may be stored as a database. Then, in the associating unit 113, the accumulated object may be used as a correlation target.
  • the association unit 113 may associate the objects with the same series name.
  • the weight value increasing unit 114 may increase the weight value as the size of the related object in the frame (the size of the object) increases.
  • the weight value assigning unit 111 adjusts the weight value based on the association between objects performed by the association unit 113.
  • the present invention is not limited to this, and it is conceivable to adjust the weight value such as increasing the weight value for objects having the same scene without performing the association.
  • Each functional block in FIG. 1 or the like may be an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to as LSI here, it may be referred to as IC, system LSI, super LSI, or ultra LSI depending on the degree of integration. Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. An FPGA (Field-Programmable-Gate-Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used. Further, if integrated circuit technology comes out to replace LSI's as a result of the advancement of semiconductor technology or a derivative other technology, it is naturally also possible to carry out function block integration using this technology.
  • LSI Field-Programmable-Gate-Array
  • control program including a program code for causing the processor of various information processing apparatuses and various circuits connected to the processor to perform the operations described in the above-described embodiments, on a recording medium, Alternatively, it can be distributed and distributed via various communication channels.
  • Such a recording medium includes a non-transitory recording medium such as an IC card, a hard disk, an optical disk, a flexible disk, and a ROM.
  • the distributed and distributed control program is used by being stored in a memory or the like that can be read by the processor, and the processor executes the control program to perform various functions as shown in the embodiment. It will be realized.
  • ⁇ Supplement 2> The present embodiment includes the following aspects.
  • a video search apparatus is configured to reproduce a content composed of a plurality of frames, and to specify an object included in a frame constituting the content during the reproduction of the content.
  • An accepting unit that accepts input from a user a plurality of times, a detecting unit that detects an object in response to acceptance by the accepting unit, and a time series of each frame including each object for each of a plurality of objects detected by the detecting unit
  • adding means for assigning a weight value adjusted based on various characteristics, and search means for performing a search based on a plurality of objects to which the weight value is assigned.
  • the assigning means relates to each of the plurality of objects detected by the detecting means based on time series characteristics of each frame including each object, Increasing means for relatively increasing the weight value of the related object compared to the weight value of the unrelated object may be included.
  • the content is divided by a plurality of scenes on the playback time axis, and the associating means determines the relationship between the objects based on the identity of the scene of each frame including each object. It does not matter if it is attached.
  • an appropriate weight value can be assigned to each object by association based on scene identity.
  • the content is divided by a plurality of chapters on the playback time axis, and the association unit is configured to relate the objects based on the identity of the chapters of the frames including the objects. It does not matter if it is attached.
  • association means may relate objects that are indirectly related to each other through other objects.
  • the increasing means may adjust the weight value to be increased for the objects indirectly related via the other object according to the number of the objects being interposed. I do not care.
  • the associating unit associates the playback time of the frame from the object ahead and the object of the frame playback time behind, and the frame playback time from the object behind The reproduction time may not be related to the object ahead.
  • an appropriate weight value can be given to each object by giving direction to the association.
  • a storage unit that stores a plurality of objects and feature amount information of each object is provided, the detection unit extracts object feature amount information for each detected object, and the search unit extracts the feature amount information.
  • the detected feature quantity information may be collated with the feature quantity information stored in the storage means to search for an object similar to the object detected by the detection means.
  • a storage unit that stores an object and feature amount information of each object is provided, the detection unit extracts feature amount information of each detected object, and the adding unit assigns a weight value to each object.
  • the search unit calculates the primary similarity by comparing the feature amount information of the object detected by the detection unit with the feature amount information of each object stored in the storage unit.
  • the secondary similarity may be calculated by adding the value obtained by multiplying the value of the secondary similarity by the weight value of the other object.
  • a frequency counting unit that counts a frequency at which the related object appears in the content is included, and the increase unit is configured to assign a weight value of the related object to the related object. As the frequency counted for the object increases, it may be relatively increased compared to the weight value of the unrelated object.
  • the apparatus further includes time counting means for counting a length on the reproduction time axis that appears in the content with respect to the related object, and the increasing means calculates the weight value of the related object. As the counted length of the related object is larger, the weight value of the unrelated object may be relatively increased.
  • the weight value of the related object is relatively increased as the size of the related object in the frame is larger than the weight value of the unrelated object. It doesn't matter.
  • a history storage unit that stores information for specifying a frame that has been fast-forwarded or rewinded by the playback unit, and the increase unit refers to the history storage unit and includes the related object. Indicates that the weighted value of the related object is increased, or the increase means refers to the history storage means to determine the related object. As long as it indicates that the included frame has been rewound, the increase in the weight value of the associated object may be increased.
  • Storage means for storing a plurality of objects and the order in which each object appears on the reproduction time axis in the content, and the detection means for the detected plurality of objects on the reproduction time axis in the content The order of appearance is determined, and the search means searches for an object having a high degree of matching with the order of the plurality of objects detected by the detection means from among the plurality of objects stored in the storage means. It doesn't matter.
  • a storage unit that stores the plurality of objects detected by the detection unit and the weight values of each object in association with each other, and the association unit stores the plurality of stored objects in the relationship It does not matter as the target.
  • the storage means stores series identification information for each of a plurality of objects to be stored, and information indicating a series name is associated with each of the plurality of objects detected by the detection means,
  • the association unit may refer to the plurality of accumulated objects and relate the series names of the plurality of objects detected by the detection unit to the objects having the same series name.
  • a video search method includes a playback step of playing back content composed of a plurality of frames, and for specifying an object included in a frame constituting the content during playback of the content.
  • a reception step of receiving an input from a user a plurality of times, a detection step of detecting an object in response to reception by the reception step, and a time series of each frame including each object for each of the plurality of objects detected by the detection step A granting step for assigning weight values adjusted based on various features, and a search step for conducting a search based on a plurality of objects to which the weight values are given.
  • a program according to the present embodiment is a program for causing a computer to execute video search processing,
  • the video search process includes a reproduction step of reproducing a content composed of a plurality of frames, and an input for specifying an object included in a frame constituting the content from a user a plurality of times during the reproduction of the content.
  • an assigning step of assigning a weight value and a search step of performing a search based on a plurality of objects to which the weight value is assigned.
  • the integrated circuit according to the present embodiment has a playback means for playing back content composed of a plurality of frames, and an input for designating an object included in the frame constituting the content during playback of the content On the content of each frame including each object for each of a plurality of objects detected by the detecting means, and a detecting means for detecting the object in response to the reception by the receiving means.
  • the apparatus includes: an assigning unit that assigns a weight value that is adjusted based on a series of features; and a search unit that performs a search based on a plurality of objects to which the weight value is assigned.
  • the video search apparatus according to the present invention is useful because it can contribute to improvement of search accuracy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 映像中の異なるフレームから複数のオブジェクトを抽出する。そして、抽出した複数のオブジェクトに対応する各フレームの時系列的な特徴に基づいて、各オブジェクトに重み値を付与する。 そして、重み値が付与された複数のオブジェクトに基づいて、当該複数のオブジェクトに類似するオブジェクトの検索を行う。

Description

映像検索装置、映像検索方法、記録媒体、プログラム、集積回路
 映像に登場するオブジェクトを基に、関係するオブジェクトや映像などを検索する技術に関する。
 近年、放送の多チャンネル化、ネットTV向け映像配信サービスの開始などにより、デジタルビデオレコーダの蓄積容量が増加している。
 また、ネットワーク上のサーバに大容量の映像を保存する蓄積装置を配置し、映像の蓄積・視聴を行うサービスも行われている。これに伴い、蓄積装置に蓄積されている大量の映像の中から所望の映像を効率よく選び出す検索装置の実用化が進んでいる。
 特許文献1では、映像のあるひとつのフレームに含まれるオブジェクト(人物)の指定をユーザから受け付け、その受け付けたオブジェクトの特徴量を抽出する。そして、抽出した特徴量を用いて照合することにより、その受け付けたオブジェクトが現れている別の映像シーンを表示するとしている。
特許第3711993号公報 特開平6-89545号公報
Canny,J.,"A Computational Approach To Edge Detection",IEEE Trans Pattern Analysis and Machine Intelligence,8:679-714(1986). 大町ら,"多項式近似に基づく高速な指定領域でのテンプレートマッチング",画像電子学会誌,vol.38,no.5,648-655(2009).
 しかしながら、上に述べた従来の構成では、あるひとつのフレームの中で指定されたひとつのオブジェクトを利用して関連する映像を検索するため、検索精度がそれほど高くなく、ユーザが所望する映像を得られない場合がある。
 例えば、オブジェクトの色の組合せを特徴量として用いるのであれば、指定されたひとつのオブジェクトと、実体は異なるのにたまたま色の組合せが似ているだけのオブジェクトが検索されることがある。
 本発明は、このような背景の下になされたものであって、検索精度の向上に寄与できる映像検索装置を提供することを目的とする。
 本発明に係る映像検索装置は、複数のフレームから構成されたコンテンツを再生する再生手段と、前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付手段と、前記受付手段による受け付けに応じて、オブジェクトを検出する検出手段と、検出手段により検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームのコンテンツ上の時系列的な特徴に基づいて調整された、重み値を付与する付与手段と、前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索手段と、を備えるとしている。
 この構成によれば、複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームのコンテンツ上の時系列的な特徴に基づいて調整された重み値を付与し、付与された重み値に基づいて検索を行うので、検索精度の向上に寄与することができる。
映像検索装置101の機能ブロック図 コンテンツ管理情報記憶部104の記憶内容を示す図 シーン情報記憶部105の記憶内容を示す図 オブジェクトが属するシーンを特定する流れを示す図 オブジェクト情報記憶部106の記憶内容を示す図 オブジェクト情報記憶部106における特徴量情報の例を示す図 オブジェクト情報記憶部106の各オブジェクトIDに対応するサムネイルを示す図 領域指定の様子を示す図 指定された領域(オブジェクト)から特徴量を抽出する様子を示す図 特徴量情報の例を示す図 第1バッファ110の記憶内容を示す図 第1バッファ110の記憶内容を模式的に示す図 (a)初期重み値付与のイメージを示す図、(b)重み値増加のイメージを示す図 第2バッファ115の記憶内容を示す図 メインのフローチャート タッチスクリーン801の画面を示す図 オブジェクトの重み付け処理の流れを示すフローチャート 類似映像検索処理の流れを示すフローチャート 1次類似度の算出処理の流れを示すフローチャート 算出された1次類似度の例を示す図 2次類似度の算出処理の流れを示すフローチャート オブジェクトOの1次類似度を説明する図 オブジェクトOとオブジェクトPとの2次類似度の算出方法を説明する図 オブジェクトOとオブジェクトPとの2次類似度の算出方法を説明する図 算出された2次類似度の例を示す図 タッチスクリーン801上に検索結果を表示する例を示す図 動作の流れをユーザインターフェイス側から見たときのイメージを示す図 ポイントの入力期間におけるフレームの変遷を示す図 ポイント指定の様子を示す図 指定されたポイントを基にオブジェクトを検出する様子を示す図 オブジェクト同士の関係付けを説明する図 オブジェクト同士の関係付けを説明する図 オブジェクト同士の関係付けを説明する図 オブジェクト同士の関係付けを説明する図 オブジェクトにシーン番号を対応付ける動作の流れを示すフローチャート
 以下、実施の形態について、図面を参照しながら説明する。
(実施の形態1)
<構成>
 図1に示すように、映像検索装置101は、通信部102、コンテンツ記憶部103、コンテンツ管理情報記憶部104、シーン情報記憶部105、オブジェクト情報記憶部106、再生部107、受付部108、オブジェクト検出部109、第1バッファ110、重み値付与部111、第2バッファ115、検索部116、表示制御部117、表示部118を備える。
 通信部102は、各種通信を行う機能を有し、例えばNIC(Network Interface Card)から構成され、ネットワーク経由でコンテンツを受信する。あるいは、放送波受信用のアンテナから構成され、放送波に乗せられて到来するコンテンツを受信する。
 なお、本実施の形態におけるコンテンツとは、ある長さの再生時間を持つ映像コンテンツである。以下では単にコンテンツと呼ぶ。
 コンテンツ記憶部103は、通信部102が受信したコンテンツや外部メディア(光ディスクなど)から入力されたコンテンツを複数記憶する。
 コンテンツ管理情報記憶部104は、コンテンツ記憶部103が記憶するコンテンツについての管理情報を記憶するものである。
 この管理情報の例としては、図2に示すように、コンテンツを識別するための「コンテンツID」104a、コンテンツの「タイトル」104b、コンテンツの「ジャンル」104c、コンテンツの所在を特定するための「コンテンツファイルパス」104dの項目を含む。
 シーン情報記憶部105は、コンテンツ記憶部103が記憶する各コンテンツについて、それぞれのコンテンツに含まれるシーンと、シーン毎のフレーム番号の範囲とを関係付けて記憶するものである。
 その例としては、図3に示すように、シーン情報記憶部105は、シーンの番号を示す「シーン番号」105aと、シーン番号に対応するフレームの範囲を示す「フレーム番号範囲」105bの項目を含む。
 図3では、ひとつのコンテンツ(コンテンツID:AAA)についてのみ示しているが、他のコンテンツ(コンテンツID:ABC,BCD,ZZZ)についても同様な内容を記憶している。
 このシーン情報記憶部105の記憶内容は、関係付け部113が行うオブジェクトに対応するシーンの特定に用いられる。このシーンの特定手法について図4を用いて後述する。
 オブジェクト情報記憶部106は、コンテンツ記憶部103が記憶するコンテンツのフレーム中に含まれる(現れる)オブジェクトに関する情報を記憶する。
 その例としては、図5に示すように、オブジェクトを一意に識別するための「オブジェクトID」106a、そのオブジェクトを含むフレームの番号を示す「フレーム番号」106b、そのフレームを含むコンテンツの識別子を示す「コンテンツID」106c、「特徴量情報」106d、代表フレーム(ユーザにより最初にポイントされたフレームのこと。)の所在を示す「ファイルパス」106eから構成される。
 なお、オブジェクト情報記憶部106の記憶内容は、コンテンツ記憶部103の各コンテンツを対象にオブジェクト検出部109がオブジェクトの特徴量を抽出し、オブジェクトを検出することにより作成されたものである。コンテンツ中のどのオブジェクトを対象とするかは予め指定された設定条件の下に自動的に行ってもよいし、手動(ユーザ指定)で行ってもよい。
 特徴量情報の例を、図6に示す。図6中”i”,”j”は格子座標であり、R,G,Bはそれぞれ赤,緑,青の色の割合を256段階で示すものである。なお、詳しくは後述するが格子座標とは、フレームを格子状に分割し、各格子の位置を表すものである。
 オブジェクト情報記憶部106は、図6のような特徴量情報をオブジェクト毎に記憶している。本実施の形態では、図6のような特徴量情報を1000個のオブジェクトID”0001”~ID”1000”それぞれに対応して1000個分記憶しているものとする。
 図7は、オブジェクト情報記憶部106の各オブジェクトのサムネイルを示す図である。
 ID”0001”-ID”0002”のオブジェクトはカブトムシ、ID”0003”のオブジェクトは戦車、ID”1000”のオブジェクトはネコとなっている。
 なお、上の各記憶部103~106は例えばHDD(Hard Disk Drive)のハードウェアから構成される。
 図1の機能ブロックの説明を続ける。
 再生部107は、コンテンツ記憶部103に記憶されたコンテンツを再生し、その再生内容を表示部118に表示させる。
 受付部108は、コンテンツの再生指示や、その再生中のオブジェクトの検出対象とする領域の指定(オブジェクトの指定)などの各種指示をユーザから受け付けるものである。本実施の形態では、静電容量型のタッチセンサから構成され、静電容量の値の変化から、タッチセンサの表面のどの位置がポイント(タッチ)されたかを特定して入力として受け付ける。なお、受付部108としては、リモコンなどの他の一般的な入力デバイスを用いても構わない。
 オブジェクト検出部109は、受付部108が受け付けた領域を基にオブジェクトを検出し、そのオブジェクトについての特徴量を抽出する。
 第1バッファ110は、オブジェクト検出部109で抽出されたオブジェクトの特徴量情報を格納する。
 重み値付与部111は、第1バッファ110に格納された各オブジェクトに検索スコア(2次類似度)に影響する重み値を付与するものであり、初期重み値付与部112、関係付け部113、重み値増加部114を備える。
 初期重み値付与部112は、第1バッファ110に格納された各オブジェクトに重み値の初期値を付与する。図11の例では、ID”011”,”012”,”013”の3つのオブジェクトにそれぞれ0.5の重み値を付与する。この初期重み値付与のイメージを図13(a)に示す。
 関係付け部113は、第1バッファ110に格納されたオブジェクト同士の関係付けを行う。本実施の形態では、関係付け部113は、シーン情報記憶部105を参照して、オブジェクトが含まれるフレームのシーンが同一であることを条件として関係付けを行う。
 図11の例では、
 ・オブジェクトID”011”は、フレーム番号#2000なので、シーン番号は”2”
 ・オブジェクトID”012”は、フレーム番号#2500なので、シーン番号は”2”
 ・オブジェクトID”013”は、フレーム番号#3500なので、シーン番号は”3”
となる。
 したがって、関係付け部113は、共にシーン番号が”2”と共通しているオブジェクトID”011”に”012”を関係付け、オブジェクトID”012”に”011”を関係付ける。
 この関係付けを終えると、重み値増加部114は、関係付けられたオブジェクトの重み値を増加させる。
 図13(b)の例では、重み値増加部114は、関係付けられたオブジェクトID”011”と”012”とについてそれぞれ重み値を”0.3”ずつ増加させている。
 重み値付与部111は、このような一連の重み値に関する処理を終えると、第2バッファ115に処理結果を記憶させる。第2バッファ115の記憶内容の例を図14に示す。
 図14に示すように第2バッファ115は、「オブジェクトID」115aと、当該オブジェクトIDで示されるオブジェクトと関係付けられたオブジェクトを識別する「関係オブジェクトID」115b、「重み値」115cを含む。
 検索部116は、第1バッファ110及び第2バッファ115に記憶された情報に基づいて、オブジェクト情報記憶部106の記憶内容を対象として、類似するオブジェクトの検索を行う。
 なお、上記再生部107、受付部108、オブジェクト検出部109および重み値付与部111は、例えば、ROMに制御用プログラムを格納しておき、このプログラムをCPUが実行することにより実現することができる。
 表示制御部117は、表示部118の表示を制御する。
 表示部118は、例えば液晶方式のタッチスクリーン801から構成される。なお、表示部は情報検索装置と一体型であっても、分離型であってもよい。
 <動作>
 続いて、映像検索装置101における動作について説明する。
 まず、オブジェクトにシーン番号を対応付ける動作の流れを図4,図35に沿って説明する。
 図4(a)は、フレーム番号の範囲とシーン番号の関係を示す。
 図4(b)は、3つのフレーム(フレーム番号”#1001”,”#2997”,”#3001”)と、各フレームに含まれるオブジェクト(オブジェクトID”001”,”002”,”003”)を示す。
 図4(c)は、オブジェクトIDに対応するフレーム番号およびシーン番号を示す。
 この対応付けについては、図35に示すように、まず関係付け部113は、オブジェクトを含むフレーム番号を特定する(S3501)。オブジェクトを含むフレームとしては、例えば、代表フレーム(ユーザにより最初にポイントされたフレーム)を選択する。
 次に、関係付け部113は、シーン情報記憶部105の記憶内容を参照して(S3502)、特定したフレーム番号に対応するシーン番号を決定する(S3503)。
 一例を挙げると、例えば、関係付け部113は、オブジェクトID”001”を含むフレーム番号”#1001”を特定する。そして関係付け部113は、シーン情報記憶部105の記憶内容を参照して、この”#1001”がシーン番号”2”であると決定する。
 続いて、受付部108が領域の指定を受け付けて、オブジェクト検出部109がオブジェクトを検出して特徴量を抽出するまでの流れを図8~図9を用いて説明する。
 図8に示すように、タッチスクリーン801上には自動車のオブジェクト802と人のオブジェクト803が表示されている。軌跡804は、ポイント入力された点の軌跡である。
 オブジェクト検出部109は、この軌跡804の領域をオブジェクトとして検出する。
 そして、オブジェクト検出部109は、オブジェクトである軌跡804の領域を対象として特徴量を抽出する。
 図9(b)に示すように、代表フレーム(図9の例ではフレーム番号”#99”)を、横w個、縦h個(図9の例では横16個、縦9個)の格子領域に分割する。ここで、分割された各格子領域をr(i,j):1≦i≦w,1≦j≦hとする。
 オブジェクト検出部109は、次に、オブジェクトを含む領域である領域Oに含まれる格子領域の集合R(O)を抽出する。領域Oに格子領域r(i,j)が含まれるかどうかの判定方法は次の通りである。
 まず、格子領域r(i,j)の重心点P(x,y)とPから非常に離れた点Qを結ぶ線分を線分P-Qとし、線分P-Qと領域Oとの交点数をN(P-Q,O)とする。
 交点数N(P-Q,O)が奇数であれば、その格子領域r(i,j)は領域Oに含むとし、偶数であれば含めないと判定する。このようにして、領域Oに含まれる格子領域の集合R(O)を求める。
 図9の例では、格子領域r(1,1)については、r(1,1)の重心点P1(10,10)と非常に離れた点Q(10000,10000)との線分P1-Qは、領域Oと2点で交差するため、格子領域r(1,1)は領域Oに含めない。これに対して、格子領域r(3,6)の重心点P2(30,60)と点Qとの線分P2-Qは、領域Oと1点で交差するため、格子領域r(3,6)は領域Oに含める。
 オブジェクト検出部109は、その後、領域Oに含まれる格子領域r(i,j)∈R(O)について、特徴量情報c(i,j)を求める。
 ここで、特徴量情報c(i,j)は、格子領域r(i,j)における最も度数の高い色とする。オブジェクト検出部が検出した特徴量情報は、表形式で対応付けて管理する。
 図10に特徴量情報の例を示す。図10の特徴量情報の形式は、図6に示したものと同様であり、オブジェクトID”xx”、フレーム番号”#100”、コンテンツID”ABC”が紐付けされている。
 オブジェクト検出部109は、受付部108が領域の指定を受け付ける度に、その領域からオブジェクトを検出して、そのオブジェクトの特徴量を抽出する処理を繰り返す。そして、抽出した特徴量情報などを第1バッファ110に格納する。
 図11は、第1バッファ110の記憶内容を示す図である。
 第1バッファ110は、オブジェクトを識別するための「オブジェクトID」110a、そのオブジェクトを含む「フレーム番号」110b、「特徴量情報」110cから構成される。
 図12は、図11の第1バッファ110の記憶内容を模式的に示す図である。ID”011”,”012”は共にカブトムシ、ID”013”はネコのオブジェクトである。
 なお、図12は説明の便宜のために各オブジェクトのイメージを描いたものであり、第1バッファ110における実際のデータ形式は図10のような特徴量情報の形式である。
 次に、映像検索装置101におけるメインの動作について、図15のフローチャートにしたがって説明する。
 まず図15に示すように、受付部108が再生すべきコンテンツの選択を受け付ける(S1501)。図16にステップS1501に対応するタッチスクリーン801の画面を示す。
 コンテンツの選択を受け付けて、そのコンテンツを再生部107が再生開始すると(S1502)、受付部108はオブジェクト指定の受け付け待ちとなる。
 続くステップS1503~S1505は図8,図9を用いて説明した処理であり、受付部108が領域の指定を受け付け(S1503)受け付けた領域を対象としてオブジェクト検出部109がオブジェクトを検出し(S1504)、特徴量を抽出する(S1505)。
 このステップS1503~S1505の処理は、コンテンツの再生が終了するまで(S1506:Yes)、繰り返し行われる。
 なお、第1バッファ110のオブジェクトID”011”,”012”,”013”は、ステップS1504~S1505の処理を3回繰り返したオブジェクト検出部109が格納したものである。
 再生終了後は、オブジェクトの重み付け処理に移行する(S1507)。
 図17に示すように、オブジェクトの重み付け処理では、重み値付与部111は第1バッファ110から、オブジェクトIDと対応するフレーム番号を取得し(S1701)、初期重み値付与部112は、取得された各オブジェクトIDに初期重み値”0.5”を付与する(S1702)。
 そして、関係付け部113は、シーン情報記憶部105の情報を参照することにより、ステップS1701で取得されたフレーム番号から対応するシーン番号を特定し(S1703)、各オブジェクトIDのシーン番号を特定する。
 続いて、特定されたシーン番号から、シーン番号が同じオブジェクト同士を関係付ける(S1704)。
 重み値増加部114は、ステップS1704で関係付けられた重み値を”0.3”増加させる。一連の処理結果を第2バッファ115に出力する(S1705)。
 図14の第2バッファ115の例では、オブジェクトID”011”,ID”012”が同じシーン2のオブジェクトであるため、オブジェクトID”011”,ID”012”にそれぞれ関係オブジェクトID”012”,”011”が存在し、それぞれの重み値は、初期重み値”0.5”に”0.3”が加算された”0.8”となっている。
 このようなオブジェクトの重み付け処理(図15:S1507)を終えると、類似映像検索処理(S1508)に移る。
 図18に示すように、類似映像検索処理では、オブジェクトの特徴量情報に基づいて算出する1次類似度の算出処理(S1801)、算出された1次類似度とオブジェクトの重み値とに基づいてさらに算出する2次類似度の算出処理(S1802)とを含む。
 図19に示すように、1次類似度の算出処理は、検索部116は、第1バッファ110に格納されているオブジェクトの中から、1次類似度未算出な1個のオブジェクトOを算出対象に設定する(S1901)。そして、算出対象に設定したオブジェクトの特徴量情報を取得する。
 このステップS1901の例を説明すると、第1バッファ110(図11参照)には、3個分のオブジェクトO(ID”011”),O(ID”012”),O(ID”013”)が格納されている。検索部116は、オブジェクトOを算出対象に設定し、オブジェクトOの特徴量情報を取得する。
 次に、検索部116は、オブジェクト情報記憶部106に格納されているオブジェクトの中から、1次類似度未算出な1個のオブジェクトPを算出対象に設定する(S1902)。そして、算出対象に設定したオブジェクトの特徴量情報を取得する。
  このステップS1902の例を説明すると、オブジェクト情報記憶部106(図5参照)には、1,000個分のオブジェクトP(ID”0001”),P(ID”0002”),P(ID”0003”),...が格納されている。検索部116は、オブジェクトPを算出対象に設定し、算出対象に設定したこのオブジェクトPの特徴量情報を取得する。
 次に、検索部116は、ステップS1901で設定したオブジェクトOと、ステップS1902で設定したオブジェクトPとの1次類似度Rh,iを求める(S1903)。
 具体的には、オブジェクトOの特徴量情報(格子領域とその特徴色情報)をテンプレートとして、オブジェクトPとのテンプレートマッチング処理を行うことにより、両オブジェクトの類似度である1次類似度Rh,iを求める。
 なお、このテンプレートマッチング処理(入力画像にテンプレートを重ねながら移動し、対応する特徴色の相関を調べることでその類似度を判定する処理。)は既存の手法を用いることができ、例えば、上の非特許文献2に記載の手法を用いてもよい。
 なお、検索部116が求めた1次類似度Rh,iは、0から1の間の値に正規化されており、その値が大きいほど類似度が高いことを示す。
 検索部116は、1次類似度Rh,iが未算出なオブジェクトPがあれば(S1904:Yes)、ステップS1902に戻る。
 また、1次類似度Rh,iが未算出なオブジェクトOがあれば(S1905:Yes)、ステップS1901に戻る。
 このような一連の処理を繰り返すことにより、第1バッファ110の3個分オブジェクト(O~O)と、オブジェクト情報記憶部106の1,000個分のオブジェクト(P~P1000)それぞれを組み合わせた3,000個分の1次類似度(R1,1,R1,2,...,R1,1000,R2,1,R2,2,...,R3,1000)を求める。
 図20に1次類似度Rh,iの例を示す。オブジェクトID”012”に関しては、同じカブトムシのオブジェクトID”0002”,”0001”の類似度が高くなっている。オブジェクトID”011”に関しては、戦車のオブジェクトID”0003”の類似度も2位と高くなっている。ID”0003”の戦車オブジェクトは、ID”011”のカブトムシオブジェクトに対して、偶然色の組合せなどが似ているだけのオブジェクトであり、ID”011”を用いて検索したユーザ(カブトムシを探したいユーザ)にとっては意に沿わない結果であると考えられる。
 続いて、2次類似度の算出処理について説明する。
 図21に示すように、2次類似度の算出処理は、検索部116は、第1バッファ110に格納されているオブジェクトの中から、2次類似度未算出な1個のオブジェクトOを算出対象に設定する(S2101)。そして、第2バッファ115を参照して、算出対象に設定したオブジェクトの関係オブジェクトを取得する(S2102)。
 そして、オブジェクト情報記憶部106に格納されているオブジェクトの中から、2次類似度未算出な1個のオブジェクトPを算出対象に設定する(S2103)。
 続いて、検索部116は、ステップS2103で取得したPに対するOの1次類似度Rh,i及び関係オブジェクトOh(1),...,Oh(j)それぞれの1次類似度Rh(1),i,...,h(j),iについて、それぞれ重み値を掛ける。掛けた後に、全て加算することで2次類似度Sh,iを求める(S2104)。
 ステップS2101でオブジェクトOを対象に設定し、ステップS2103でオブジェクトPを算出対象に設定したとして、ステップS2104の具体的な例を図22、図23を用いて説明する。
 このオブジェクトOについては、図22に示すように、R1,1からR1,1000までの1次類似度が求まっており、オブジェクトOはオブジェクトOに関係付けられている(オブジェクトOは関係オブジェクトOを有する)。
 そして、このオブジェクトOとオブジェクトPとの2次類似度S1,1は図23に示すように、
 S1,1=R1,1×w1+R2,1×w2・・・(式1)
 という式により求められる。
 前半の項「R1,1×w1」は、オブジェクトO自身と対象オブジェクトPの1次類似度R1,1に自身の重み値w1を掛けたものとなっている。
 後半の項「R2,1×w2」は、オブジェクトOの関係オブジェクトOと対象オブジェクPの1次類似度R2,1に、関係オブジェクトの重み値w2を掛けたものとなっている。
 このように、2次類似度Sは、
 (A)オブジェクト検出部109により検出されたあるオブジェクトOとオブジェクト情報記憶部106に記憶されたあるオブジェクトPの1次類似度
 (B)上記オブジェクトOに関係付けられたオブジェクトOh(1)と上記あるオブジェクトPの1次類似度
 この両類似度がそれぞれのオブジェクトO,Oh(1)の重み付けと掛け合わされた後に加算されたものとなっている。
 上記オブジェクトAに関係付けられたオブジェクトOh(1),Oh(2),...と、数が多ければその分2次類似度は高い値となる。
 図24は、2次類似度の算出方法を一般化したイメージを示すものであり、j個の関係オブジェクトを有するオブジェクトOと、オブジェクトPとの2次類似度Sh,iの算出方法を示す。
 検索部116は、このような一連の処理を繰り返すことにより、1次類似度(R1,1,R1,2,...,R1,1000,R2,1,R2,2,...,R3,1000)に基づいて2次類似度(S1,1,S1,2,...,S1,1000,S2,1,S2,2,...,S3,1000)を求める(S2105,S2106)。
 図25に2次類似度の例を示す。
 このような2次類似度の算出処理を終えると(図18:S1802)、検索部116は検索結果を表示する(S1803)。
 図26は、検索結果の例を示す図である。タッチスクリーン801の上段には、検索に用いた3つのオブジェクト(ID”011”,”012”,”013”)のサムネイルが表示されており、下段には、3つのオブジェクトのうちID”011”の2次類似度が上位3位のオブジェクトのサムネイル51~53が表示されている。
 例えば、受付部108がサムネイル51の選択を受け付けると、検索部116は、オブジェクト情報記憶部106の中から、サムネイル51に対応するオブジェクトID”0002”(図7参照)を含むフレーム番号”#1234”,コンテンツID”ABC”を特定する。そして検索部116は、再生部26にコンテンツID”ABC”のフレーム番号”#1234”の少し手前のフレーム番号からの再生を開始させる。
 なお、図24の検索結果は一例に過ぎず、例えば、検索に用いた3つのオブジェクトそれぞれの2次類似度の平均を求めた上で、上位3位を表示するようにしてもよいし、上位3位に限らず任意の個数としてもよい。また、検索結果の順位のみならず、2次類似度の値(検索スコア)を表示するようにしてもよい。
 これまでに説明した動作の流れをユーザインターフェイス側から見たときのイメージを図27に示す。
 以上説明したように、本実施の形態によれば、ユーザが領域を選ぶことにより指定した3個のオブジェクト(ID”011”,”012”,”013”)について、シーンが”2”と同じID”011”,”012”の重み値を”0.3”増加させる。そして、1次類似度から上の重み値を勘案した2次類似度を求めることとなる。この結果、3個の指定されたオブジェクトのそれぞれにおいてコンスタントに1次類似度が高いオブジェクト、および同じシーンに属するオブジェクトなどを、最終的に高い2次類似度とすることができる。
 この結果、図20のカブトムシ(ID”011”)に対する戦車(ID”0003”)のように、指定されたオブジェクトと偶然色の組合せが似ていて単独のオブジェクトで検索したのでは上位に上がって来てしまうようなオブジェクトを、検索結果の上位から排除することができ、検索精度の向上を図ることができる。
 なお、図20の例では、同じシーン”2”であるオブジェクトが2個と少ないが、10個,20個と検索に用いるオブジェクトの個数を増やすにつれて、より上のような偶然色の組合せが似ているだけのオブジェクトが検索結果の上位を占める可能性を減らすことができる。
<補足1>
 以上、本実施の形態について説明したが、本発明は上記の内容に限定されず、本発明の目的とそれに関連又は付随する目的を達成するための各種形態においても実施可能であり、例えば、以下であっても構わない。
 (1)オブジェクト検出部109が検出対象とするフレームについて補足する。
 受付部108は、コンテンツの再生中に領域の指定を受け付けるので、領域指定のためのポイントの入力開始から入力終了までの間にもフレームが経過する。
 このため、図28に示すように、このポイントの入力中に、ユーザが指定を意図したオブジェクトの位置が変更されたり、フレーム外に出てしまうことがある。
 このため、ポイントの入力開始時点(受付部108が受け付けた時点)のフレーム番号”#100”を検出対象とすることが好ましい。
 もっとも、
  (A)映像検索装置から離れた入力デバイスを用いて指定する場合の遅延(例えば、Bluetooth(商標)接続されたマウスにより指定する場合など)
  (B)タッチスクリーン801の処理や表示に要する遅延
 などの遅延(遅延の長さは、例えば、数ミリ秒程度である。)が生ずることが考えれられるため、これら(A)(B)を勘案した補正値δを用いるようにしてもよい。
 図28の例では、補正値は1フレーム分であり、フレーム番号”#100”のひとつ手前の”#99”を対象フレームとしている。
 (2)実施の形態では、ユーザから指定された領域に基づいてオブジェクトを検出するとして説明したが(図8参照)、このような領域指定に限られない。
 例えば、図29に示すように、タッチスクリーン801上の一点であるA点(x1,y1)を受付部108が受け付ける。
 そして、オブジェクト検出部109は、図30に示すように、受け付けた時点のフレームを対象にエッジ検出を行い、エッジ検出で検出したオブジェクトの中でA点を含むオブジェクト108を検出する。
 なお、上記エッジ検出は、キャニー法(非特許文献1参照)などの一般的な手法を用いることができる。
 このようにユーザから指定された点に基づいて(ポイント指定)、オブジェクトを検出するようにしても構わない。
 なお、領域指定とするかポイント指定とするかは、ユーザ設定に基づいて選択的に用いるとしてもよい。あるいは、オブジェクト検出部109において、ある一定時間tの間に入力されたポイント数がc以下であり、かつ、ポイント間の距離がd以下である場合にはポイント指定と判定し、そうでない場合には、領域指定と判定するようにしてもよい。
 (3)実施の形態では、関係付け部113は、オブジェクトを含むフレームが属するシーンの同一性に基づいて関係付けの有無を異ならせたが、これに限られない。
 例えば、図31に示すように、チャプターが同じであることを条件に関係付けを行ってもよい。
 また、図32に示すように、それぞれのオブジェクトを含むフレームの再生時間同士が一定時間以内である(例えば3分以内)ことを条件に関係付けを行ってもよい。
 また、図33に示すように、オブジェクトO1からO2へと関係付けるが、O2からO1には関係付けないというように、関係付けに方向性を持たせて、フレームの再生時間の順序(オブジェクトの出現順序)を考慮するようにしてもよい。
 また、図34に示すように、オブジェクトO1→O2,O2→O3,O3→O4という関係付けがある場合には、再帰的にO1→O3という関係付けを行うようにしてもよい。
 O1→O3の関係付けは、いわば間接的な(直接ではない)関係付けであるので、直接の関係付けで用いる重み値の増分Δwは相対的に小さくする。
 また、O1→O4の関係付けは、さらに間接的な関係付けであるので、重み値の増分Δwはより小さくする。
 このように、介するオブジェクトの個数が少ない場合(再帰が浅い場合)には重み値の増分Δwを相対的に大きく設定し、介するオブジェクトの個数が多い場合(再帰が深い場合)には重み値の増分Δwを相対的に小さく設定するとしてもよい。
 なお、図34の例では、関係付けに方向性を持たせているが、方向性を有さない関係付けにもこのような再帰的な関係付けを適用できる。
 (4)実施の形態では、関連オブジェクトを有するオブジェクトについては、重み値増加部114は、一律”0.3”の重み値を増加させるとしてが、これに限られない。
 例えば、オブジェクト検出部109により検出された各オブジェクトについて、出現する頻度をカウントするとしても構わない。具体的には、図14の第2バッファのデータ列に、「頻度」の項目を設けて、頻度が多ければ、”0.3”より大きな値(例えば”0.5”)を増分とし、頻度が多ければ、”0.3”より小さな値(例えば”0.1”)を増分としてもよい。
 また、オブジェクト検出部109により検出された各オブジェクトについて、出現する時間をカウントするとしても構わない。具体的には、図14の第2バッファのデータ列に、「出現時間」の項目を設けて、出現時間が長ければ、”0.3”より大きな値(例えば”0.5”)を増分とし、短ければ、”0.3”より小さな値(例えば”0.1”)を増分としてもよい。
 (5)コンテンツの再生に関して、早送りや巻き戻しなどの有無を示す履歴をフレーム番号と関連付けた履歴を記憶するようにしてもよい。
 そして、例えば、この履歴においてフレーム番号”#2000”が早送りされたフレームに当たるのであれば、このフレーム番号”#2000”に含まれるオブジェクトID”011”(図11参照)については、重み値を小さくするようにしてもよい。早送りされたフレームに含まれるオブジェクトはユーザにとって重要ではないと考えられるためである。
 反対に、巻き戻しされたフレームに含まれるオブジェクトの重み値は大きくするようにしてもよい。
 (6)検索部116において、オブジェクトの出現順序を考慮して検索するようにしてもよい。
 例えば、オブジェクト情報記憶部106にオブジェクトの出現順序を示す情報を記憶させておき、オブジェクト検出部109により検出されたオブジェクトの順序との合致度が高いオブジェクトの2次類似度を高くするようにしてもよい。
 (7)オブジェクト検出部109により検出されたオブジェクトをデータベースとして蓄積しておくようにしてもよい。そして、関係付け部113においては、蓄積されたオブジェクトを関係付けの対象として利用するようにしてもよい。
 また、上の蓄積においては、各オブジェクトを含むフレームのコンテンツのシリーズ名(連続ドラマやpart 1,part 2,part 3と続編がある映画などのシリーズの名前のことである。)を示す情報を合わせて蓄積しておき、関係付け部113は、同じシリーズ名のオブジェクトを関係付けるようにしてもよい。
 (8)重み値増加部114においては、関係付けられたオブジェクトがフレームにおいて占める大きさ(オブジェクトのサイズ)が大きいほど、より大きく重み値を増加させるようにしてもよい。
 (9)重み値付与部111では、関係付け部113が行ったオブジェクト同士の関係付けに基づいて重み値を調整するとしている。もっともこれに限らず、関係付けを行わずにシーンが同じオブジェクトについては重み値を増加させるなどの重み値を調整することも考えられる。
 (10)実施の形態や上で述べた具体的な仕様や数値(初期重み値や重み値の増分の値など)はあくまでも一例であり、適宜変更可能である。
 (11)図1などの各機能ブロックは、集積回路であるLSIとしてもよい。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。
 (12)上述の実施の形態で示した動作などを各種情報処理装置のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路を介して流通させ頒布することもできる。
 このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM等の非一時的な(not-transitory)記録媒体がある。
 流通、頒布された制御プログラムは、プロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより実施の形態で示したような各種機能が実現されるようになる。
<補足2>
 本実施の形態は、次の態様を含むものである。
 (1)本実施の形態に係る映像検索装置は、複数のフレームから構成されたコンテンツを再生する再生手段と、前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付手段と、前記受付手段による受け付けに応じて、オブジェクトを検出する検出手段と、検出手段により検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームの時系列的な特徴に基づいて調整された、重み値を付与する付与手段と、前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索手段と、を備えることを特徴とする。
 (2)また、前記付与手段は、前記検出手段により検出された複数のオブジェクトそれぞれについて、各オブジェクトを含む各フレームの時系列的な特徴に基づいて、オブジェクト同士を関係付ける関係付け手段と、前記関係付けられたオブジェクトの重み値を、関係付けられていないオブジェクトの重み値と比べて相対的に増加させる増加手段とを含むとしても構わない。
 この構成によれば、上記増加手段により上記重み値の相対的な増加を行うことにより、検索精度の向上に資することができる。
 (3)また、前記コンテンツは、その再生時間軸上において複数のシーンにより区切られており、前記関係付け手段は、各オブジェクトを含む各フレームのシーンの同一性に基づいて、前記オブジェクト同士の関係付けを行うとしても構わない。
 この構成によれば、シーンの同一性に基づく関係付けにより、各オブジェクトに適切な重み値を付与することができる。
 (4)また、前記コンテンツは、その再生時間軸上において複数のチャプタにより区切られており、前記関係付け手段は、各オブジェクトを含む各フレームのチャプタの同一性に基づいて、前記オブジェクト同士の関係付けを行うとしても構わない。
 この構成によれば、チャプタシーンの同一性に基づく関係付けにより、各オブジェクトに適切な重み値を付与することができる。
 (5)また、前記関係付け手段は、他のオブジェクトを介して間接的に関係付けられているオブジェクト同士を関係付けるとしても構わない。
 (6)また、記増加手段は、前記他のオブジェクトを介して間接的に関係付けられているオブジェクト同士については、介しているオブジェクトの個数に応じて、前記増加させる重み値を調整するとしても構わない。
 (7)また、前記関係付け手段は、フレームの前記再生時間が前方のオブジェクトから、フレームの前記再生時間が後方のオブジェクトへと関係付けを行い、フレームの前記再生時間が後方のオブジェクトから、フレームの前記再生時間が前方のオブジェクトへは関係付けを行わないとしても構わない。
 この構成によれば、関係付けに方向性を持たせることで、各オブジェクトに適切な重み値を付与することができる。
 (8)複数のオブジェクトと各オブジェクトの特徴量情報を記憶する記憶手段を備え、前記検出手段は、検出したオブジェクトそれぞれについてオブジェクトの特徴量情報を抽出し、前記検索手段は、前記検出手段により抽出された特徴量情報を、前記記憶手段に記憶された特徴量情報と照合することにより、前記検出手段が検出したオブジェクトに類似するオブジェクトを検索するとしても構わない。
 (9)オブジェクトと各オブジェクトの特徴量情報とを記憶する記憶手段を備え、前記検出手段は、検出したオブジェクトそれぞれのオブジェクトの特徴量情報を抽出し、前記付与手段は、前記オブジェクトそれぞれに重み値を付与し、前記検索手段は、検出手段により検出されたオブジェクトの特徴量情報を、前記記憶手段に記憶されたオブジェクトそれぞれの特徴量情報と照合することにより、1次類似度を算出し、1次類似度の値に、当該他のオブジェクトの重み値を乗算して得られた値を加算することにより、2次類似度を算出するとしても構わない。
 (10)また、前記関係付けられたオブジェクトが、前記コンテンツ中で出現する頻度をカウントする頻度カウント手段を備え、前記増加手段は、前記関係付けられたオブジェクトの重み値を、当該関係付けられたオブジェクトに関してカウントされた頻度が多いほど、関係付けられていないオブジェクトの重み値と比べて相対的に増加させるとしても構わない。
 (11)また、前記関係付けられたオブジェクトについて、前記コンテンツ中で出現する再生時間軸上の長さをカウントする時間カウント手段を備え、前記増加手段は、前記関係付けられたオブジェクトの重み値を、当該関係付けられたオブジェクトに関してカウントされた長さが大きいほど、関係付けられていないオブジェクトの重み値と比べて相対的に増加させるとしても構わない。
 (12)また、前記関係付けられたオブジェクトの重み値を、当該関係付けられたオブジェクトがフレームにおいて占める大きさが大きいほど、関係付けられていないオブジェクトの重み値と比べて相対的に増加させるとしても構わない。
 (13)前記再生手段により早送りまたは巻き戻しされたフレームを特定する情報を記憶する履歴記憶手段を備え、前記増加手段は、前記履歴記憶手段を参照して、前記関係付けられたオブジェクトを含むフレームが早送りされたことを示していれば、当該関係付けられたオブジェクトの重み値の増加量を小さくし、または、前記増加手段は、前記履歴記憶手段を参照して、前記関係付けられたオブジェクトを含むフレームが巻き戻しされたことを示していれば、当該関係付けられたオブジェクトの重み値の増加量を大きくするとしても構わない。
 (14)複数のオブジェクトと各オブジェクトがコンテンツ中の再生時間軸上において出現する順序とを記憶する記憶手段を備え、前記検出手段は、検出した複数のオブジェクトについて、前記コンテンツ中の再生時間軸上において出現する順序を決定し、前記検索手段は、前記記憶手段に記憶された複数のオブジェクトの中から、前記検出手段により検出された複数のオブジェクトの順序との合致度が高いオブジェクトを検索するとしても構わない。
 (15)前記検出手段により検出された複数のオブジェクトと、各オブジェクトの重み値とを関連付けて蓄積する蓄積手段を備え、前記関係付け手段は、前記蓄積された複数のオブジェクトを、前記関係付けの対象とするとしても構わない。
 (16)前記蓄積手段は、蓄積する複数のオブジェクトそれぞれについて、シリーズ識別情報を記憶し、前記検出手段により検出された複数のオブジェクトのそれぞれには、シリーズ名を示す情報が関連付けられており、前記関係付け手段は、前記蓄積された複数のオブジェクトを参照して、前記検出手段により検出された複数のオブジェクトそれぞれのシリーズ名と、シリーズ名が一致するオブジェクトを関係付けるとしても構わない。
 (17)本実施の形態に係る映像検索方法は、複数のフレームから構成されたコンテンツを再生する再生ステップと、前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付ステップと、前記受付ステップによる受け付けに応じて、オブジェクトを検出する検出ステップと、検出ステップにより検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームの時系列的な特徴に基づいて調整された、重み値を付与する付与ステップと、前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索ステップと、を含むことを特徴とする。
 (18)本実施の形態に係るプログラムは、コンピュータに映像検索処理を実行させるプログラムであって、
 前記映像検索処理は、複数のフレームから構成されたコンテンツを再生する再生ステップと、前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付ステップと、前記受付ステップによる受け付けに応じて、オブジェクトを検出する検出ステップと、検出ステップにより検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームの時系列的な特徴に基づいて調整された、重み値を付与する付与ステップと、前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索ステップとを含むことを特徴とする。
 (19)本実施の形態に係る集積回路は、複数のフレームから構成されたコンテンツを再生する再生手段と、前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付手段と、前記受付手段による受け付けに応じて、オブジェクトを検出する検出手段と、検出手段により検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームのコンテンツ上の時系列的な特徴に基づいて調整された、重み値を付与する付与手段と、前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索手段と、を備えることを特徴とする。
 本発明に係る映像検索装置は、検索精度の向上に寄与できるので有用である。
 101 映像検索装置
 102 通信部
 103 コンテンツ記憶部
 104 コンテンツ管理情報記憶部
 105 シーン情報記憶部
 106 オブジェクト情報記憶部
 107 再生部
 108 受付部
 109 オブジェクト検出部
 110 第1バッファ
 111 重み値付与部
 112 初期重み値付与部
 113 関係付け部
 114 重み値増加部
 115 第2バッファ
 116 検索部
 117 表示制御部
 118 表示部
 801 タッチスクリーン

Claims (19)

  1.  複数のフレームから構成されたコンテンツを再生する再生手段と、
     前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付手段と、
     前記受付手段による受け付けに応じて、オブジェクトを検出する検出手段と、
     検出手段により検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームの時系列的な特徴に基づいて調整された、重み値を付与する付与手段と、
     前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索手段と、
    を備えることを特徴とする映像検索装置。
     
  2.  前記付与手段は、
      前記検出手段により検出された複数のオブジェクトそれぞれについて、各オブジェクトを含む各フレームの時系列的な特徴に基づいて、オブジェクト同士を関係付ける関係付け手段と、
      前記関係付けられたオブジェクトの重み値を、関係付けられていないオブジェクトの重み値と比べて相対的に増加させる増加手段とを含む
    ことを特徴とする請求項1記載の映像検索装置。
     
  3.  前記コンテンツは、その再生時間軸上において複数のシーンにより区切られており、
     前記関係付け手段は、各オブジェクトを含む各フレームのシーンの同一性に基づいて、前記オブジェクト同士の関係付けを行う
    ことを特徴とする請求項2に記載の映像検索装置。
     
  4.  前記コンテンツは、その再生時間軸上において複数のチャプタにより区切られており、
     前記関係付け手段は、各オブジェクトを含む各フレームのチャプタの同一性に基づいて、前記オブジェクト同士の関係付けを行う
    ことを特徴とする請求項2に記載の映像検索装置。
     
  5.  前記関係付け手段は、他のオブジェクトを介して間接的に関係付けられているオブジェクト同士を関係付ける
    ことを特徴とする請求項2に記載の映像検索装置。
     
  6.  前記増加手段は、前記他のオブジェクトを介して間接的に関係付けられているオブジェクト同士については、介しているオブジェクトの個数に応じて、前記増加させる重み値を調整する
    ことを特徴とする請求項5に記載の映像検索装置。
     
  7.  前記関係付け手段は、
     フレームの前記再生時間が前方のオブジェクトから、フレームの前記再生時間が後方のオブジェクトへと関係付けを行い、
     フレームの前記再生時間が後方のオブジェクトから、フレームの前記再生時間が前方のオブジェクトへは関係付けを行わない
    ことを特徴とする請求項2に記載の映像検索装置。
     
  8.  複数のオブジェクトと各オブジェクトの特徴量情報を記憶する記憶手段を備え、
     前記検出手段は、検出したオブジェクトそれぞれについてオブジェクトの特徴量情報を抽出し、
     前記検索手段は、前記検出手段により抽出された特徴量情報を、前記記憶手段に記憶された特徴量情報と照合することにより、前記検出手段が検出したオブジェクトに類似するオブジェクトを検索する
    ことを特徴とする請求項2に記載の映像検索装置。
     
  9.  オブジェクトと各オブジェクトの特徴量情報とを記憶する記憶手段を備え、
     前記検出手段は、検出したオブジェクトそれぞれのオブジェクトの特徴量情報を抽出し、
     前記付与手段は、前記オブジェクトそれぞれに重み値を付与し、
     前記検索手段は、
      検出手段により検出されたオブジェクトの特徴量情報を、前記記憶手段に記憶されたオブジェクトそれぞれの特徴量情報と照合することにより、1次類似度を算出し、
     1次類似度の値に、
     当該他のオブジェクトの重み値を乗算して得られた値を加算することにより、
     2次類似度を算出する
    ことを特徴とする請求項2に記載の映像検索装置。
     
  10.  前記関係付けられたオブジェクトが、前記コンテンツ中で出現する頻度をカウントする頻度カウント手段を備え、
     前記増加手段は、前記関係付けられたオブジェクトの重み値を、当該関係付けられたオブジェクトに関してカウントされた頻度が多いほど、関係付けられていないオブジェクトの重み値と比べて相対的に増加させる
    ことを特徴とする請求項2に記載の映像検索装置。
     
  11.  前記関係付けられたオブジェクトについて、前記コンテンツ中で出現する再生時間軸上の長さをカウントする時間カウント手段を備え、
     前記増加手段は、前記関係付けられたオブジェクトの重み値を、当該関係付けられたオブジェクトに関してカウントされた長さが大きいほど、関係付けられていないオブジェクトの重み値と比べて相対的に増加させる
    ことを特徴とする請求項2に記載の映像検索装置。
     
  12.  前記増加手段は、前記関係付けられたオブジェクトの重み値を、当該関係付けられたオブジェクトがフレームにおいて占める大きさが大きいほど、関係付けられていないオブジェクトの重み値と比べて相対的に増加させる
    ことを特徴とする請求項2に記載の映像検索装置。
     
  13.  前記再生手段により早送りまたは巻き戻しされたフレームを特定する情報を記憶する履歴記憶手段を備え、
     前記増加手段は、前記履歴記憶手段を参照して、前記関係付けられたオブジェクトを含むフレームが早送りされたことを示していれば、当該関係付けられたオブジェクトの重み値の増加量を小さくし、
     または、前記増加手段は、前記履歴記憶手段を参照して、前記関係付けられたオブジェクトを含むフレームが巻き戻しされたことを示していれば、当該関係付けられたオブジェクトの重み値の増加量を大きくする
    ことを特徴とする請求項2に記載の映像検索装置。
     
  14.  複数のオブジェクトと各オブジェクトがコンテンツ中の再生時間軸上において出現する順序とを記憶する記憶手段を備え、
     前記検出手段は、検出した複数のオブジェクトについて、前記コンテンツ中の再生時間軸上において出現する順序を決定し、
     前記検索手段は、前記記憶手段に記憶された複数のオブジェクトの中から、前記検出手段により検出された複数のオブジェクトの順序との合致度が高いオブジェクトを検索する
    ことを特徴とする請求項1に記載の映像検索装置。
     
  15.  前記検出手段により検出された複数のオブジェクトと、各オブジェクトの重み値とを関連付けて蓄積する蓄積手段を備え、
     前記関係付け手段は、前記蓄積された複数のオブジェクトを、前記関係付けの対象とする
    ことを特徴とする請求項2に記載の映像検索装置。
     
  16.  前記蓄積手段は、蓄積する複数のオブジェクトそれぞれについて、シリーズ識別情報を記憶し、
     前記検出手段により検出された複数のオブジェクトのそれぞれには、シリーズ名を示す情報が関連付けられており、
     前記関係付け手段は、前記蓄積された複数のオブジェクトを参照して、前記検出手段により検出された複数のオブジェクトそれぞれのシリーズ名と、シリーズ名が一致するオブジェクトを関係付ける
     ことを特徴とする請求項15に記載の映像検索装置。
     
  17.  複数のフレームから構成されたコンテンツを再生する再生ステップと、
     前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付ステップと、
     前記受付ステップによる受け付けに応じて、オブジェクトを検出する検出ステップと、
     検出ステップにより検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームの時系列的な特徴に基づいて調整された、重み値を付与する付与ステップと、
     前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索ステップと、
    を含む映像検索方法。
     
  18.  コンピュータに映像検索処理を実行させるプログラムであって、
     前記映像検索処理は、
      複数のフレームから構成されたコンテンツを再生する再生ステップと、
      前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付ステップと、
      前記受付ステップによる受け付けに応じて、オブジェクトを検出する検出ステップと、
      検出ステップにより検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームの時系列的な特徴に基づいて調整された、重み値を付与する付与ステップと、
      前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索ステップと
    を含むことを特徴とするプログラム。
     
  19.  複数のフレームから構成されたコンテンツを再生する再生手段と、
     前記コンテンツの再生中、このコンテンツを構成するフレームに含まれるオブジェクトの指定のための入力をユーザから複数回受け付ける受付手段と、
     前記受付手段による受け付けに応じて、オブジェクトを検出する検出手段と、
     検出手段により検出された複数のオブジェクトそれぞれについて、各オブェクトを含む各フレームのコンテンツ上の時系列的な特徴に基づいて調整された、重み値を付与する付与手段と、
     前記重み値が付与された複数のオブジェクトに基づいて検索を行う検索手段と、
    を備えることを特徴とする集積回路。
PCT/JP2011/001596 2010-06-16 2011-03-17 映像検索装置、映像検索方法、記録媒体、プログラム、集積回路 WO2011158406A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201180003170.XA CN102474586B (zh) 2010-06-16 2011-03-17 影像检索装置、影像检索方法、记录介质、程序、集成电路
US13/389,144 US8718444B2 (en) 2010-06-16 2011-03-17 Video search device, video search method, recording medium, program, and integrated circuit
JP2012520244A JP5632472B2 (ja) 2010-06-16 2011-03-17 映像検索装置、映像検索方法、記録媒体、プログラム、集積回路

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-137072 2010-06-16
JP2010137072 2010-06-16

Publications (1)

Publication Number Publication Date
WO2011158406A1 true WO2011158406A1 (ja) 2011-12-22

Family

ID=45347824

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/001596 WO2011158406A1 (ja) 2010-06-16 2011-03-17 映像検索装置、映像検索方法、記録媒体、プログラム、集積回路

Country Status (4)

Country Link
US (1) US8718444B2 (ja)
JP (1) JP5632472B2 (ja)
CN (1) CN102474586B (ja)
WO (1) WO2011158406A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130007807A1 (en) * 2011-06-30 2013-01-03 Delia Grenville Blended search for next generation television
EP2816564B1 (en) * 2013-06-21 2020-07-22 Nokia Technologies Oy Method and apparatus for smart video rendering
US9600723B1 (en) 2014-07-03 2017-03-21 Google Inc. Systems and methods for attention localization using a first-person point-of-view device
JP6704797B2 (ja) * 2016-06-01 2020-06-03 キヤノン株式会社 画像検索装置、その制御方法、およびプログラム
CN110135483A (zh) * 2019-04-30 2019-08-16 北京百度网讯科技有限公司 训练图像识别模型的方法、装置及相关设备
CN111970525B (zh) * 2020-08-14 2022-06-03 北京达佳互联信息技术有限公司 直播间搜索方法、装置、服务器及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002373177A (ja) * 2001-06-15 2002-12-26 Olympus Optical Co Ltd 類似オブジェクト検索方法及び装置
JP2003141161A (ja) * 2001-10-29 2003-05-16 Olympus Optical Co Ltd マルチメディアオブジェクト検索方法およびシステム
JP2009232250A (ja) * 2008-03-24 2009-10-08 Panasonic Corp 番組情報表示装置および番組情報表示方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3220493B2 (ja) 1991-12-20 2001-10-22 株式会社シーエスケイ 動画編集処理の場面転換部検出方法
JP3711993B2 (ja) 1993-10-25 2005-11-02 株式会社日立製作所 映像の連想検索装置
US6195497B1 (en) 1993-10-25 2001-02-27 Hitachi, Ltd. Associated image retrieving apparatus and method
CN1293793B (zh) * 1999-01-29 2010-05-12 Lg电子株式会社 多媒体数据的搜索或浏览方法
JP2005107767A (ja) 2003-09-30 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 映像検索装置、映像検索方法および映像検索プログラム
JP4009959B2 (ja) 2004-01-07 2007-11-21 船井電機株式会社 テレビ受信機
JP4367264B2 (ja) * 2004-07-12 2009-11-18 セイコーエプソン株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
JP3674633B2 (ja) 2004-11-17 2005-07-20 カシオ計算機株式会社 画像検索装置、電子スチルカメラ、および画像検索方法
JP5135733B2 (ja) * 2006-08-10 2013-02-06 ソニー株式会社 情報記録装置及び情報記録方法、並びにコンピュータ・プログラム
US8196045B2 (en) * 2006-10-05 2012-06-05 Blinkx Uk Limited Various methods and apparatus for moving thumbnails with metadata
JP2009296346A (ja) 2008-06-05 2009-12-17 Sony Corp 番組推薦装置、番組推薦方法及び番組推薦プログラム
JP5335302B2 (ja) * 2008-06-30 2013-11-06 キヤノン株式会社 焦点検出装置及びその制御方法
JP4711152B2 (ja) * 2008-12-26 2011-06-29 ソニー株式会社 コンテンツ表示制御装置および方法、プログラム、並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002373177A (ja) * 2001-06-15 2002-12-26 Olympus Optical Co Ltd 類似オブジェクト検索方法及び装置
JP2003141161A (ja) * 2001-10-29 2003-05-16 Olympus Optical Co Ltd マルチメディアオブジェクト検索方法およびシステム
JP2009232250A (ja) * 2008-03-24 2009-10-08 Panasonic Corp 番組情報表示装置および番組情報表示方法

Also Published As

Publication number Publication date
JP5632472B2 (ja) 2014-11-26
US8718444B2 (en) 2014-05-06
CN102474586B (zh) 2015-10-21
JPWO2011158406A1 (ja) 2013-08-19
CN102474586A (zh) 2012-05-23
US20120134648A1 (en) 2012-05-31

Similar Documents

Publication Publication Date Title
US11778244B2 (en) Determining tactical relevance and similarity of video sequences
US20240087316A1 (en) Methods and systems of spatiotemporal pattern recognition for video content development
US20200193163A1 (en) Methods and systems of combining video content with one or more augmentations to produce augmented video
JP5632472B2 (ja) 映像検索装置、映像検索方法、記録媒体、プログラム、集積回路
AU2015222869B2 (en) System and method for performing spatio-temporal analysis of sporting events
US20240087317A1 (en) Data processing systems and methods for enhanced augmentation of interactive video content
US11120271B2 (en) Data processing systems and methods for enhanced augmentation of interactive video content
US20190354765A1 (en) Methods, systems, and user interface navigation of video content based spatiotemporal pattern recognition
US9684818B2 (en) Method and apparatus for providing image contents
US11275949B2 (en) Methods, systems, and user interface navigation of video content based spatiotemporal pattern recognition
KR101729195B1 (ko) 질의동작기반 안무 검색 시스템 및 방법
JP5358083B2 (ja) 人物画像検索装置及び画像検索装置
WO2018053257A1 (en) Methods and systems of spatiotemporal pattern recognition for video content development
CN102779153B (zh) 信息处理设备和信息处理方法
WO2019183235A1 (en) Methods and systems of spatiotemporal pattern recognition for video content development
US20160191843A1 (en) Relational display of images
CN106454431B (zh) 电视节目推荐方法和系统
CN105872717A (zh) 视频处理方法及系统、视频播放器与云服务器
US8406606B2 (en) Playback apparatus and playback method
US20140086556A1 (en) Image processing apparatus, image processing method, and program
CN105959804A (zh) 智能播放方法及装置
CN109558884A (zh) 一种直播房间分类的方法、装置、服务器及介质
CN112667936A (zh) 视频处理方法、装置、终端、服务器及存储介质
CN103608813A (zh) 通过对象位置进行视频导航
JP2007323319A (ja) 類似検索処理方法及び装置及びプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180003170.X

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2012520244

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13389144

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11795314

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11795314

Country of ref document: EP

Kind code of ref document: A1