WO2017104043A1 - 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 - Google Patents

画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 Download PDF

Info

Publication number
WO2017104043A1
WO2017104043A1 PCT/JP2015/085347 JP2015085347W WO2017104043A1 WO 2017104043 A1 WO2017104043 A1 WO 2017104043A1 JP 2015085347 W JP2015085347 W JP 2015085347W WO 2017104043 A1 WO2017104043 A1 WO 2017104043A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
query
search
processor
processing apparatus
Prior art date
Application number
PCT/JP2015/085347
Other languages
English (en)
French (fr)
Inventor
裕樹 渡邉
森田 健一
廣池 敦
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US16/062,308 priority Critical patent/US10872114B2/en
Priority to PCT/JP2015/085347 priority patent/WO2017104043A1/ja
Priority to JP2017555943A priority patent/JP6615225B2/ja
Priority to CN201580085350.5A priority patent/CN108431800B/zh
Publication of WO2017104043A1 publication Critical patent/WO2017104043A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Definitions

  • the present invention relates to an image processing device, an image search interface display device, and an image search interface display method.
  • a large-scale and high-speed similar image search system is being put into practical use.
  • a technique has been proposed in which an image feature amount is extracted in advance to construct a database, and an image similar in appearance to a query image is searched for at high speed. Further, by combining with an image processing technique for detecting a region including an object in an image, a detailed similar image search focusing on the object in the image can be performed.
  • Patent Document 1 Japanese Patent Laid-Open No. 2004-228561 describes that “the name of an object included in an image to be searched is input as a keyword, a query image in which the object is laid out is generated, and image search is performed” (see summary).
  • Patent Document 1 acquires an image sample of an object from a plurality of keywords specified by a user, automatically creates a layout according to the average size and position of the object, and combines the images according to the layout. A similar image search is performed using.
  • the present invention provides a technology that supports creation of a search query that takes into account the relationship between a plurality of objects.
  • the present application includes a plurality of means for solving the above problems.
  • a processor receives the input of the first object via the display unit, the processor acquires the placement information of the first object on the display unit, and the first object and the first object First co-occurrence information indicating a correlation with the first object based on the image database is obtained using the arrangement information, and second object candidates based on the first co-occurrence information are Output to the display.
  • an image search interface display device including a processor and a display unit connected to the processor and displaying an image search interface having a query input area.
  • the processor displays a second object candidate on the image search interface, and when the second object is selected, the second object Is displayed in the query input area.
  • an image search interface display method in an information processing apparatus including a processor, a storage unit connected to the processor and storing an image database, and a display unit connected to the processor.
  • the display method of the image search interface includes a step of acquiring arrangement information of the first object on the display unit when the processor receives an input of the first object via the display unit, and the processor Using the first object and the arrangement information of the first object to obtain first co-occurrence information indicating a correlation with the first object based on the image database; The processor outputting a second object candidate based on the first co-occurrence information to the display unit.
  • FIG. 1 is a block diagram illustrating a configuration example of an image search system in Embodiment 1.
  • FIG. 1 is a block diagram illustrating a hardware configuration example of an image search system in Embodiment 1.
  • FIG. It is a figure which shows the structural example of the image database in Example 1.
  • FIG. It is a figure which shows the structural example of the image database in Example 1.
  • FIG. 6 is a diagram illustrating a first example of arrangement information of objects in an image in Embodiment 1.
  • FIG. FIG. 10 is a diagram illustrating a second example of arrangement information of objects in an image according to the first exemplary embodiment.
  • 3 is an example of a flowchart of database registration processing in the first embodiment.
  • Example 1 it is a figure explaining the example of the query input assistance and image search using co-occurrence information.
  • Example 1 it is a figure explaining the example of co-occurrence information generation.
  • 3 is an example of a flowchart of query input support and image search processing using co-occurrence information in the first embodiment.
  • 3 is an example of a flowchart of a co-occurrence information generation process in the first embodiment.
  • 3 is an example of a flowchart of an image search process in the first embodiment.
  • FIG. 3 is a diagram illustrating an example of an image search interface according to the first embodiment. It is a figure which shows an example of the image search interface in Example 1, and shows the image search interface when the arrangement
  • 1 is an example of a sequence diagram of processing of the entire system in Embodiment 1.
  • FIG. FIG. 10 is a diagram for describing correction processing for an image obtained from a search result according to the second embodiment. 10 is an example of a flowchart of co-occurrence information generation processing in the second embodiment.
  • An image search device described below is a device that performs a similar image search focusing on an object in an image.
  • the image search apparatus detects an object from a new registration target image, extracts a feature amount of the detected object, and estimates a category.
  • the arrangement information and the feature amount of the object are stored together with the image.
  • image search is automatically performed on the condition of the input first query (object image and its arrangement information). From the obtained search results, information on other objects included in the image including the first query is acquired from the database, and co-occurrence information with the object of the first query is obtained.
  • the co-occurrence of an object in the image represents the probability that the object A and the object B exist in the image at the same time.
  • the co-occurrence of an object in the image represents the appearance probability of the object B for each region when the object A exists in a certain region X in the image.
  • the image search apparatus presents candidates for the second query (object and its arrangement information) to the user using the obtained co-occurrence information.
  • the user can refine the search query only by selecting a desired object from the presented candidates. Since the search query obtained as a result of this repetitive operation is a plausible combination of objects and their arrangement, the accuracy of image search is improved.
  • FIG. 1 is a block diagram illustrating a configuration example of an image search system 100 according to the first embodiment.
  • the image search system 100 includes a user interface for query input support using object co-occurrence information. According to this configuration, it is possible to efficiently execute an image search focusing on an object in the image.
  • the image search system 100 includes, for example, an image storage device 101, an input device 102, a display device 103, and an image search device 104.
  • the image storage device 101 is a storage medium that stores still image data or moving image data.
  • the image storage device 101 is connected to a hard disk drive built in a computer or a network such as NAS (Network Attached Storage) or SAN (Storage Area Network). It is configured using a storage system.
  • the image storage device 101 may be, for example, a cache memory that temporarily holds image data continuously input from the camera.
  • the input device 102 is an input interface for transmitting user operations to the image search device 104, such as a mouse, a keyboard, and a touch device.
  • the display device 103 is an output interface such as a liquid crystal display, for example, and is used for displaying the search result of the image search device 104 and interactive operation with the user.
  • the image search device 104 extracts information necessary for the search and performs registration processing in the database.
  • the registration process includes detecting an object region from an image stored in the image storage device 101, extracting an image feature amount for each detected region, estimating an object category, Registering in the database 109.
  • the image search device 104 searches for an image that matches the search query from the image database 109 using the search query specified by the user from the input device 102, and performs a search process for displaying the search result on the display device 103. .
  • the user specifies a query.
  • the query includes the object and the arrangement information of the object.
  • the user designates the arrangement information of the object on the canvas displayed on the display device 103 and inputs the name or image of the object.
  • the arrangement information includes size and position information (coordinates in the following example) of the object.
  • the image search device 104 generates co-occurrence information of the input object from the data stored in the image database 109, estimates an object that is likely to be input next by the user, and displays candidates on the display device 103. To do. By selecting from the presented candidates, the user can create a search query specifying a plurality of objects without inputting the object image and arrangement information many times.
  • the image search device 104 performs an image search using the created search query and displays the search result on the display device 103.
  • the image search device 104 includes an image input unit 105, an object detection unit 106, a feature amount extraction unit 107, a category estimation unit 108, an image database 109, a query input unit 110, a co-occurrence information generation unit 111, A query candidate estimation unit 112 and an image search unit 113 are included.
  • the image input unit 105, the object detection unit 106, the feature amount extraction unit 107, and the category estimation unit 108 are processing modules for executing the registration process.
  • the query input unit 110, the co-occurrence information generation unit 111, the query candidate estimation unit 112, and the image search unit 113 are processing modules for executing the above search processing.
  • the image input unit 105 receives input of still image data or moving image data from the image storage device 101, and converts the input data into a data format used inside the image search device 104 according to the data format of the input data. Convert. For example, when the input of moving image data is received, the image input unit 105 performs a moving image decoding process that decomposes into frames (still image data format).
  • the object detection unit 106 detects a partial area including the object from the input image.
  • a well-known method can be used for the object detection process.
  • the object detection unit 106 may detect a region by scanning the image using a discriminator that reacts only to an object of a specific category.
  • the object detection unit 106 may detect a region candidate that is likely to include an arbitrary object by performing region segmentation using local color and shape characteristics.
  • the “object” may include not only a regular object but also an irregular object such as “sky”, “sea”, and “forest”.
  • the detection result information is expressed by, for example, four values of the horizontal coordinate, the vertical coordinate, the width, and the height of the center of the region.
  • the object detection unit 106 registers detection result information in the image database 109.
  • the feature amount extraction unit 107 extracts an image feature amount from the entire input image and an object region detected from the input image.
  • the image feature amount is a value that can be compared between images indicating features such as color, shape, and texture of the image.
  • the image feature amount is expressed by, for example, a fixed-length vector.
  • the image feature amount may be any information that can be compared between images, and various known information may be employed.
  • the feature amount extraction unit 107 registers the obtained image feature amount in the image database 109.
  • the feature quantity extraction unit 107 may perform data clustering processing for the purpose of high-speed search when registering image feature quantities in the image database 109, for example.
  • the feature quantity extraction unit 107 generates a cluster including one or more registered data having a feature quantity with a high degree of similarity, for example, by clustering processing such as a k-means algorithm.
  • the similarity is an index indicating the similarity between two feature quantities of the same type, and is obtained, for example, by substituting the distance between the two feature quantities into a predetermined decreasing function whose value range is [0, 1]. Note that various known methods may be employed for calculating the similarity.
  • the image database 109 records, for example, a cluster representative value (for example, an average vector of cluster members) and a cluster member ID.
  • the image search device 104 compares, for example, the feature quantity of the search query with the representative value of the cluster at the time of the search, and the feature quantity between the search query and the cluster member only for a cluster having a high degree of similarity. Make a comparison. As a result, the number of processes can be reduced and the search can be performed at high speed.
  • the category estimation unit 108 estimates the category or object name of the partial area detected by the object detection unit 106.
  • the category estimation unit 108 includes, for example, an image category classifier generated by machine learning.
  • the category estimation unit 108 outputs the category by inputting the feature amount extracted by the feature amount extraction unit 107 to the image category classifier. In the object detection process, when a classifier of a specific category is used, the category of the classifier may be used as it is.
  • the category estimation unit 108 registers the obtained category or name of the object in the image database 109.
  • the image database 109 holds the image data, the object detection result, the image feature amount of the object, the object category, and the like obtained by the above processing. Since the image database 109 stores feature amounts, a co-occurrence information generation unit 111 and an image search unit 113 described later can perform similar image searches using the feature amounts.
  • the similar image search in the image search device 104 is a function for rearranging and outputting data in the order of the closest feature quantity to the query.
  • the image search unit 113 compares feature amounts using the Euclidean distance between vectors.
  • the search range can be narrowed down using the coordinates of the object as a condition.
  • the query input unit 110 receives a query specified by the user via the input device 102.
  • the query is given by the image of the object and the arrangement information (size and coordinates of the object).
  • the image search device 104 may store a conversion table in which keywords or sounds are associated with images, and the query input unit 110 may be configured to accept keywords or sounds as queries.
  • frequently used objects may be stored as templates, and the user may be allowed to select from templates displayed in a list on the user interface.
  • the co-occurrence information generation unit 111 generates co-occurrence information between the object and another object from the input object and arrangement information.
  • the co-occurrence information is information representing the probability that when a certain object A appears in the image, another object B appears in the image.
  • the co-occurrence information regarding the image includes spatial information indicating which region in the image the other object B is likely to appear in. For example, for the coordinates in the image, the image is divided into a grid pattern, and when the object A is designated as a certain area, the probability that the object B is included in each area is obtained.
  • the co-occurrence information may include information such as the depth and size of the object.
  • the co-occurrence information generation unit 111 generates co-occurrence information using object information accumulated in the image database 109. The generation of the co-occurrence information will be described later in detail with reference to FIG.
  • the query candidate estimation unit 112 uses the generated co-occurrence information to display, on the display device 103, query candidates that are likely to be input next by the user.
  • the query candidate estimation unit 112 may draw the highly co-occurring object and its position on the user interface on the display device 103 after the user inputs the first query.
  • the query candidate estimation unit 112 lists objects having high co-occurrence (for example, objects having a high appearance probability) with respect to the location in descending order of appearance probability. It may be displayed.
  • the query candidate estimation unit 112 may display a candidate for the arrangement of the object.
  • a search query can be obtained that uses multiple objects and their arrangement as a condition.
  • the image search unit 113 searches the image database 109 for an image corresponding to the search query. Details of the search process will be described later with reference to FIG.
  • the search result is output as a list in which pairs of similarity between the image ID registered in the image database 109 and the query are sorted in descending order of similarity.
  • the image search unit 113 presents the search results to the user by displaying the search results obtained by the above search processing on the user interface of the display device 103.
  • FIG. 2 is a block diagram illustrating a hardware configuration example of the image search system 100 according to the present embodiment.
  • the image search device 104 is realized by, for example, a general computer.
  • the computer constituting the image search apparatus 104 may include a processor 201 and a storage device 202 that are connected to each other.
  • the storage device 202 is configured by any type of storage medium.
  • the storage device 202 may be configured by a combination of a semiconductor memory and a hard disk drive.
  • the input device 102 and the display device 103 are connected to the processor 201 and can perform input / output operations on the computer.
  • the functional modules such as the image input unit 105, the object detection unit 106, the feature amount extraction unit 107, the category estimation unit 108, the query input unit 110, the co-occurrence information generation unit 111, the query candidate estimation unit 112, and the image search unit 113 include For example, this is realized by the processor 201 executing the processing program 203 stored in the storage device 202. In other words, a program for realizing each functional module described above is included in the processing program 203, and the processing of each functional module is executed by the processor 201 based on the processing program 203. Therefore, in the following description, when the processing content is described with the functional module of FIG. 1 as the subject, the description may be made with the processor 201 as the subject.
  • the data of the image database 109 is included in the storage device 202, for example.
  • the apparatus on which the image database 109 and the processing program 203 are executed may be physically different servers connected by a network.
  • the image search device 104 further includes a network interface device (NIF) 204 connected to the processor 201.
  • the image storage device 101 may be a NAS or a SAN connected to the image search device 104 via the network interface device 204, for example.
  • the image storage device 101 may be included in the storage device 202.
  • 3A and 3B are explanatory diagrams illustrating the configuration and data example of the image database 109 of the present embodiment.
  • the information used by the system does not depend on the data structure and may be expressed in any data structure.
  • 3A and 3B show examples of table formats, for example, a data structure appropriately selected from a table, list, database or queue can store the information.
  • the image database 109 includes, for example, an image table 300 that holds image information and an object table 310 that holds object information.
  • 3A and 3B are merely examples, and for example, tables and fields may be added according to applications. Further, the table configuration may be changed as long as similar information is held.
  • the image database 109 may be composed of a single table in which the image table 300 and the object table 310 are combined.
  • the image table 300 includes, for example, an image ID field 301, an image data field 302, and a feature amount field 303.
  • the image ID field 301 holds an identification number of each image data.
  • the image data field 302 holds, for example, image data used when displaying a search result in binary.
  • the feature quantity field 303 holds the feature quantity extracted from the image.
  • the feature amount is given by, for example, fixed-length vector data.
  • the object table 310 includes, for example, an object ID field 311, an image ID field 312, a category field 313, a horizontal coordinate field 314, a vertical coordinate field 315, a width field 316, a height field 317, and a feature amount field 318.
  • the object ID field 311 holds the identification number of the object detected from the image.
  • the image ID field 312 holds the ID of the image from which the object is detected.
  • the category field 313 holds the category estimation result of the object. In FIG. 3B, although the category is expressed by a character string, the category field 313 may be held by an identification number managed in a table or an application.
  • the horizontal coordinate field 314 holds the horizontal coordinate of the center coordinate of the object
  • the vertical coordinate field 315 holds the vertical coordinate of the center coordinate of the object
  • the width field 316 holds the width of the object
  • the height field 317 Keeps the height of the object.
  • these fields 314 to 317 hold values normalized by the image size.
  • the horizontal coordinate and the width represent the ratio when the width of the detection source image is 1, and the vertical coordinate and the height represent the ratio when the height of the detection source image is 1.
  • FIG. 4A and 4B are diagrams for explaining an example of object detection by the object detection unit 106 and normalized coordinates.
  • FIG. 4A shows an example in which an object 401, an object 402, and an object 403 are detected from the image 400.
  • FIG. 4B shows an example in which the object 411 and the object 412 are detected from the image 410.
  • the object 401 has a normalized center coordinate of [0.5, 0.3], a width of 0.8, and a height of 0.4.
  • the feature amount extraction unit 107 extracts a feature amount from the object region.
  • the feature amount field 318 holds a feature amount extracted from the object region.
  • an object extracted by an algorithm different from the feature amount of the entire image may be used.
  • the image search apparatus 104 generates co-occurrence information using object information constructed at the time of registration, and easily executes an image search by assisting a user's query input based on the co-occurrence information. be able to.
  • the registration procedure may be arbitrary.
  • the procedure of FIG. 5 can be used.
  • FIG. 5 is a diagram showing a processing flow of database registration. Hereinafter, each step of FIG. 5 will be described.
  • the image input unit 105 acquires image data from the image storage device 101, and converts the acquired image data into a format that can be used inside the system as necessary (S501). For example, when the input of moving image data is received, the image input unit 105 performs a moving image decoding process for decomposing the moving image data into frames (still image data format).
  • Feature amount extraction unit 107 extracts feature amounts from the image input in step S501 (S502).
  • the object detection unit 106 detects an object candidate area (hereinafter simply referred to as “object”) from the image input in step S501 (S503). Then, the object detection unit 106 normalizes the center coordinates (horizontal coordinates and vertical coordinates), width, and height of the detected object by the width and height of the image, respectively. As described above, the object detection can use a method using raster scan using a classifier or a method using region segmentation.
  • the image search apparatus 104 repeats the processing from step S505 to step S506 for each object detected in step S503 (loop of S504 to S507).
  • the feature amount extraction unit 107 extracts an image feature amount from the region of the object to be processed (S505).
  • the category estimation unit 108 estimates the category of the object using the feature amount obtained in step 505 (S506). For example, a category classifier generated by machine learning can be used for category estimation. At this time, the category estimation unit 108 may determine that an object that does not fall into any category is erroneously detected and discard it.
  • the image search apparatus 104 registers the image and object information obtained by the above processing in the image database 109 (S508). At this time, data clustering processing for realizing high-speed search may be performed for the feature amount.
  • FIG. 6 is a diagram for explaining query input support based on co-occurrence information.
  • 6 in FIG. 6 represents the transition of the query input screen displayed on the display device 103 in time series
  • 610 in FIG. 6 represents the data flow inside the image search device 104.
  • the display device 103 displays an empty canvas (601).
  • the user uses the input device 102 to place a query on the canvas.
  • the user transmits information to the query input unit 110 of the image search apparatus 104 by operating the mouse cursor 621.
  • the user first inputs an image of the first object (Object_A) on the upper left of the canvas (602).
  • the query input unit 110 acquires arrangement information (size and coordinates) of the first object (Object_A).
  • the co-occurrence information generation unit 111 of the image search device 104 acquires information on the corresponding object from the image database 109 using the image and arrangement information of the first object (Object_A) input to the canvas 602.
  • the query input method may be a keyword based on text or voice.
  • the query input method may be a keyword based on text or voice.
  • the query is an image, search by image feature amount (2) If the query is an image, estimate the object category and search using the category as a condition (3) If the query is a keyword, search using the keyword as a category condition (4) If the query is a keyword, convert it to an image using a conversion table, and search using image features
  • the co-occurrence information generation unit 111 may use the functions of the feature amount extraction unit 107 and the category estimation unit 108. Thereby, the image feature amount can be extracted from the query, or the category can be estimated.
  • the search results can be obtained in the same format for any of the search methods (1) to (4). That is, the co-occurrence information generation unit 111 can search for a specific object (here, Object_A) in FIG. 3B by the above search method. Using this search result, the co-occurrence with another object when the first object (Object_A) is input to the upper left is estimated.
  • a specific object here, Object_A
  • FIG. 7 is a diagram showing a procedure for generating the co-occurrence information from the search result.
  • the co-occurrence information generation unit 111 searches the image database 109 using the first query in which the image of the first object (Object_A) is arranged on the upper left of the canvas.
  • a refinement search is performed using a first query including an object and its arrangement information, a plurality of images similar to the conditions of the first query, that is, a plurality of images in which similar objects exist in similar places are obtained ( 701).
  • the co-occurrence information generation unit 111 acquires arrangement information of other objects included in these images from a plurality of images obtained as the conditional search results 701. Then, the co-occurrence information generation unit 111 adds up the acquired categories of other objects for each category (702). For example, the co-occurrence information generation unit 111 divides the image into a plurality of areas, and counts the number of appearances of other objects for each area. At this time, when an object is arranged across a plurality of areas, the number of appearances of the object may be counted in the plurality of areas. Also, the weight may be counted so that the value becomes larger as it is closer to the center coordinate of the object.
  • the co-occurrence information generation unit 111 creates a map of co-occurrence information (hereinafter referred to as a co-occurrence map) by normalizing the tabulated results by dividing the total number of appearances, for example (703).
  • the co-occurrence map represents a correlation between the first object (Object_A) based on the image database 109 and another object.
  • the co-occurrence information generation unit 111 divides the image into nine regions, and calculates the number of appearances (here, normalized values) for each target category region.
  • a co-occurrence map is created for each object category (Object_B, Object_C, Object_D).
  • the co-occurrence map is not limited to the format shown in FIG. 7, as long as it includes spatial information indicating in which area in the image other objects appear for a certain object.
  • the query candidate estimation unit 112 displays the category and position having a relatively large value on the display device 103 as query candidates (second object candidates) in the co-occurrence map.
  • the query candidate estimation unit 112 may present a category having a high value as a query candidate limited to that region.
  • the query candidate estimation unit 112 displays objects (Object_B, Object_C) having a large value in the corresponding area of the co-occurrence map on the display device 103. (704).
  • the user selects the location of the second query with the mouse cursor (603).
  • the query candidate estimation unit 112 pops up a category of objects having a high probability existing in the corresponding region as a query candidate list (604).
  • the display method may be a category name or an image.
  • the user selects an object if there is a desired object in the query candidate list displayed in the pop-up.
  • the query input unit 110 adds the selected object to the canvas as a second object (Object_B) (605). If the desired object is not found in the query candidate list, the user may manually input the same as in the first query. In addition, after adding a new object to the canvas, the user may adjust the arrangement of the object. Note that the query input unit 110 may accept the input of the background image when inputting the first object (Object_A) or the second object (Object_B). In this case, a background image is displayed on the canvas. By synthesizing the background when inputting an object, the accuracy of similar image search can be improved.
  • the query input unit 110 When the query input unit 110 receives an input of the second object (Object_B), the query input unit 110 acquires arrangement information (size and coordinates) of the second object (Object_B).
  • the co-occurrence information generation unit 111 is based on the image database 109 using a first query (first object (Object_A) and its arrangement information) and a second query (second object (Object_B) and its arrangement information).
  • a second co-occurrence map showing the correlation with both the first object and the second object is acquired.
  • the query candidate estimation unit 112 outputs a third object candidate based on the second co-occurrence map to the display device 103. According to this configuration, the candidate for the third object is related to both the first object and the second object, and the accuracy of the created search query is improved.
  • the second co-occurrence map indicates the correlation with both the first object and the second object, but this is not limitative.
  • the co-occurrence information generation unit 111 uses the second query (second object (Object_B) and arrangement information) to perform the second based on the image database 109.
  • a second co-occurrence map indicating the correlation with the object may be acquired. According to this configuration, more objects are presented as third object candidates, and the user can select an appropriate third object from many candidates.
  • a canvas including a plurality of objects and their arrangement information is created (606).
  • a search query in which the first object (Object_A), the second object (Object_B), and the third object (Object_C) are arranged on the canvas 601 is obtained.
  • an image search may be performed using all the input queries as conditions, but images that match the conditions are not sufficiently found. Co-occurrence information may not be generated. Therefore, as described above, only the query input immediately before may be used, or only the query specified by the user may be used.
  • the image search unit 113 performs a similar image search using the canvas obtained above, and obtains a final search result (607).
  • the image search unit 113 considers the canvas as a composite image composed of a plurality of objects, extracts the feature amount of the entire image, and searches the image database 109 using the feature amount. May be. Further, the image search unit 113 may integrate the search results after searching with each query (object and arrangement information) on the canvas.
  • FIG. 8 is a diagram showing a processing flow of image search using query input support based on co-occurrence information. Hereinafter, each step of FIG. 8 will be described.
  • the query input unit 110 receives a query input by the user (S801).
  • the query is information representing the image of the object and the arrangement of the object. For example, as described in the description of FIG. 6, the query is input using the canvas displayed on the display device 103.
  • the co-occurrence information generation unit 111 extracts a feature amount from the image of the query object input in step S801, and searches for a similar image from the image database 109 (S802). At this time, the co-occurrence information generation unit 111 narrows down the search results on the basis of the object input in step S801 and the arrangement information of the object.
  • the co-occurrence information generation unit 111 generates co-occurrence information from the similar image search result obtained in step S802 (S803). Details of the co-occurrence information generation processing flow will be described later with reference to FIG.
  • the query candidate estimation unit 112 estimates the query that the user inputs next from the co-occurrence information obtained in step S803 and displays the query on the display device 103 (S804).
  • the query estimation method is as described in FIG.
  • the query input unit 110 receives a query selected by the user from the query candidates presented in step S804 (S805). Further, the query input unit 110 may receive a query image and arrangement change instruction from the user, and change the query displayed on the display device 103 in accordance with the instruction. Further, the query input unit 110 may accumulate in the storage device 202 the history selected or modified by the user. The query input unit 110 may use the accumulated history in the next candidate presentation. For example, the query input unit 110 may preferentially display query candidates selected by many users.
  • the image search device 104 Upon receiving a query input completion notification from the user (S806: YES), the image search device 104 finishes the query input and moves to step S807. Otherwise (S806: NO), the image search apparatus 104 returns to step S801 and returns to the next step. Accept queries.
  • the image search unit 113 searches for a similar image from the image database 109 using a search query obtained by repeating steps S801 to S805.
  • the image search unit 113 may search the image table 300 using an image obtained by combining a plurality of object images, or search the object table 310 using each object image. You may integrate. A detailed processing flow will be described later with reference to FIG.
  • the image search unit 113 displays the search result on the display device 103, and ends the search process (S880).
  • FIG. 9 is a processing flow for generating co-occurrence information from the image search result, and corresponds to step S803 in FIG. Hereinafter, each step of FIG. 9 will be described.
  • the co-occurrence information generation unit 111 initializes the co-occurrence map (S901).
  • the co-occurrence map is a map representing the co-occurrence of an object for each region as described with reference to 703 in FIG.
  • a co-occurrence map is prepared for each category of objects.
  • the co-occurrence information generation unit 111 repeats the processing from step S903 to step 907 for each search result obtained in step S802 in FIG. 8 (loop from S902 to S908).
  • the co-occurrence information generation unit 111 acquires the image ID 312 of the object included in each search result image obtained in step S802 of FIG. 8 from the object table 310 (S903).
  • the co-occurrence information generation unit 111 acquires object data (here, a record of the object table 310) corresponding to the image ID 312 obtained in step S903 from the image database 109 (S904).
  • the co-occurrence information generation unit 111 repeatedly executes step S906 for each object data acquired in step S904 (loop of S905 to S907).
  • the co-occurrence information generation unit 111 acquires the object category and the arrangement information from the object data, and updates the co-occurrence map of the corresponding category according to the arrangement information (S906).
  • the update method for example, counts values for one or more areas of appearance locations.
  • the co-occurrence information generation unit 111 outputs a co-occurrence map for each category as co-occurrence information (S909). If necessary, the co-occurrence information generation unit 111 may normalize the values in the co-occurrence map using the overall appearance frequency or the like.
  • FIG. 10 is a processing flow for performing an image search using a plurality of input objects, and corresponds to step S807 in FIG. Hereinafter, each step of FIG. 10 will be described.
  • the image search unit 113 moves to step S1002 when receiving an instruction to execute a search using the entire image from the user (S1001: YES), and moves to step S1005 otherwise (S1001: NO).
  • the image search unit 113 generates one image (composite image) in accordance with the plurality of inputted queries (S1002). That is, the image search unit 113 combines a plurality of input objects according to their arrangement information, and generates one image (composite image). For example, for the sake of simplicity, it is assumed that a search instruction is received in the state 605 of FIG. In this case, the image search unit 113 creates a composite image including the first object (Object_A) and the second object (Object_B).
  • the image search unit 113 may add image processing such as combining background images or naturally combining as necessary.
  • the image search unit 113 extracts feature amounts from the composite image generated in step S1002, and searches the image table 300 for similar images (S1003). Note that the feature amount is extracted by the same algorithm as that when registering in the image database 109.
  • the image search unit 113 moves to step S1005 when receiving an instruction to perform a search for each object from the user (S1004: YES), and moves to step S1009 otherwise (S1004: NO).
  • the image search unit 113 executes step S1006 for each object included in the plurality of inputted queries (1005).
  • the image search unit 113 extracts a feature amount from the image of each object, and executes a similar image search on the object table 310 using the arrangement information as a condition (1006). For example, for the sake of simplicity, it is assumed that a search instruction is received in the state 605 of FIG. In this case, the image search unit 113 performs a similar image search using the first query (first object (Object_A) and its arrangement information), and then the second query (second object (Object_B) and its The similar image search is executed using the arrangement information. At this time, the image search unit 113 integrates the search result of the first query and the search result of the second query. As an example of the integration method, the similarity of a plurality of search results with the same image ID may be added up.
  • the feature amount at the time of image search is extracted by the same algorithm as that at the time of registration in the image database 109.
  • a search result for the object table 310 is obtained by object data (record unit of the object table 310). Therefore, the image search unit 113 acquires image data from the image table 300 based on the image ID 312 of each record in the object table 310.
  • the search may be performed under different conditions for each object.
  • the feature amount may be switched for each object, and a feature amount that captures an outline is used for an object having a small size on the canvas, and a detailed texture feature may be used for a large object.
  • a search instruction is received in the state 605 of FIG.
  • the image search unit 113 uses the first query to determine the feature amount used when searching the image database 109 based on the size of the first object (Object_A) and the size of the second object (Object_B). And switching between the second query and the similar image search may be executed.
  • the image search unit 113 may perform similar image search by weighting each of the plurality of objects based on the input order of the plurality of objects. In this case, a greater weight may be given to a search for an object with a fast input order. For example, for the sake of simplicity, it is assumed that a search instruction is received in the state 605 of FIG. In this case, the image search unit 113 may weight the first query and the second query based on the input order of the first object (Object_A) and the second object (Object_B). A greater weight may be given to the first query that is faster. In addition, the weighting is not only based on the input order, but it may be specified which object the user gives priority to search.
  • the image search unit 113 integrates the search result obtained in step S1003 and the search result obtained in step S1006 in units of image IDs (S1008). For example, the image search unit 113 may count the similarities of a plurality of search results with the same image ID and integrate them into one search result.
  • the image search unit 113 sorts the search results in order of similarity and outputs them to the display device 103 (S1009).
  • FIG. 11A is a diagram illustrating a configuration example of an operation screen (image search interface) for performing an image search using the image search apparatus 104 of the present embodiment.
  • the operation screen is presented to the user on the display device 103, for example.
  • the user operates the cursor displayed on the screen using the input device 102 to give a processing instruction to the image search device 104.
  • FIG. 11A is a stationary operation terminal, but it can take various forms as long as it is a device capable of inputting and displaying. For example, you may use touch operation like a smart phone and a tablet.
  • a head-mounted display or a glasses-type device capable of displaying information may be used as the display device 103, and an input device that receives voice input or a gesture may be used.
  • the query input support of this embodiment is effective because the search query input is more efficient than the stationary computer.
  • the operation screen includes, for example, a query input area 1101, a query candidate display area 1102, a search button 1103, a search option display area 1104, and a search result display area 1105.
  • the information displayed in the query input area 1101 is output to the display device 103 by the query input unit 110, for example.
  • the information displayed in the query candidate display area 1102 is output to the display device 103 by the query candidate estimation unit 112, for example.
  • the information displayed in the search result display area 1105 is output to the display device 103 by the image search unit 113, for example.
  • the user designates an image as a clue to search.
  • the operation screen may display a dialog for selecting a registered image or may include an interface for inputting an external image.
  • text or voice keyword input may be used.
  • the user designates where on the query input area 1101 the image is to be arranged.
  • an image here, an image of a car
  • an image here, an image of a car
  • the co-occurrence information generation unit 111 generates co-occurrence information according to the input image and arrangement information.
  • the query candidate estimation unit 112 displays the query candidates in the query candidate display area 1102 according to the generated co-occurrence information.
  • the co-occurrence information generation unit 111 may display the object candidates and their arrangement information in the query input area 1101 so as to be selected by the user.
  • the query candidate display area 1102 may include an interface that can remove unnecessary objects from the query candidates. Thereby, the user can create a search query while displaying only desired query candidates.
  • a search option may be designated from the search option display area 1104 so that the internal operation of the image search unit 113 can be switched. For example, when “search for entire image” is selected in the search option display area 1104, the image search unit 113 generates a composite image and executes a similar image search (steps S1002 to S1003 in FIG. 10). Further, when “search by object” is selected in the search option display area 1104, the image search unit 113 executes similar image search with an arrangement condition for each object (steps S1005 to S1007 in FIG. 10). The search results are integrated (step S1008 in FIG. 10).
  • the image search unit 113 searches the image database 109 for a similar image that matches the condition input in the query input area 1101.
  • the search results are rearranged in order of similarity, for example, and the search results having the same image ID are collected and displayed in the search result display area 1105.
  • a search result display method instead of displaying a list of similar images, for example, by combining and displaying similar images in the query input area 1101, the search results gradually approach the desired image each time the query is updated. Any interface can be used.
  • FIG. 11B shows an operation screen (image search interface) when the arrangement of the object is changed.
  • the query input area 1101 includes an interface that can change the arrangement information of the arranged objects. For example, the user can specify an object with a cursor and change at least one of the size and position of the object.
  • the position of the automobile in the query input area 1101 has been changed.
  • the query input unit 110 acquires the changed arrangement information of the automobile.
  • the co-occurrence information generation unit 111 recalculates the co-occurrence information (co-occurrence map) using the car and the changed arrangement information.
  • the co-occurrence information generation unit 111 displays query candidates based on the recalculated co-occurrence information in the query candidate display area 1102.
  • the types and display order of a plurality of query candidates displayed in the query candidate display area 1102 are changed by changing the arrangement of vehicles in the query input area 1101. According to this configuration, query candidates can be presented in real time according to a change in a user's query.
  • FIG. 12 is a sequence diagram illustrating an example of processing of the image search system 100 of the present embodiment.
  • FIG. 12 specifically shows a processing sequence among the user 1200, the image storage device 101, the computer 1201, and the image database 109 in the image registration and image search processing of the image search system 100 described above.
  • a computer 1201 is a computer that implements the image search apparatus 104.
  • the user 1200 transmits a request and instruction to the computer 1201 through the input device 102 and inputs data, and receives a processing result from the computer 1201 through the display device 103.
  • S1210 indicates a registration process
  • S1220 indicates a search process.
  • Registration processing S1210 includes the processing shown in steps S1211 to S1218.
  • the computer 1201 When the user 1200 issues a registration request (S1211), the computer 1201 issues an image data acquisition request to the image storage device 101 (S1212), and acquires image data from the image storage device 101 (S1213).
  • the processes in steps S1214 to S1217 described below correspond to the series of registration processes described in FIG.
  • the computer 1201 detects an object from the acquired image, extracts a feature amount for each region of the object, and estimates a category (S1214 to S1216). In the feature amount extraction, the feature amount of the entire image is extracted.
  • the image data, the feature amount of the entire image, the object detection result (coordinate information, width, height, etc.), the object feature amount, and the object category obtained as a result are registered in the image database 109 (S1217).
  • the computer 1201 When the registration process ends, the computer 1201 notifies the user 1200 of the completion of registration (S1218).
  • the search process S1220 includes the processes shown in steps S1221 to S1229 and corresponds to the series of search processes described in FIG.
  • the computer 1201 searches the image database 109 according to the input query condition, and generates co-occurrence information from the search result (S1223).
  • the computer 1201 estimates a query that the user 1200 next inputs from the generated co-occurrence information, and presents the query to the user 1200 (S1224 to S1225).
  • the user 1200 selects corrections or candidates for the input query, and transmits them to the computer 1201 (S1226).
  • a search query in which a plurality of objects are arranged is created.
  • the computer 1201 searches for similar images from the image database 109 using the input search query (S1227 to S1228).
  • the computer 1201 rearranges the obtained search results in the order of similarity, and presents the search results to the user 1200 (S1229).
  • the computer 1201 may aggregate search results having the same image ID and present them to the user 1200.
  • the image search apparatus 104 predicts and presents the next input object from the first input object by the user when searching for an image including a plurality of objects. More specifically, when searching for an image including a plurality of objects, a candidate for a second object that is correlated with the first object, which is an input of a search query that leads to high search accuracy, can be proposed. . Thereby, the efficiency of the input of the search query by the user can be increased.
  • the image search apparatus 104 can arrange a plurality of objects in a search query according to the co-occurrence of objects including spatial information, and thus can create a search query with an appropriate arrangement. As a result, search accuracy can be improved.
  • Example 2 In the generation of the co-occurrence information shown in the first embodiment, as described in the explanation of FIG. 7, an image including the first query is acquired by the conditional search of the arrangement information. Then, the co-occurrence information generation unit 111 creates a co-occurrence map by counting the appearance frequencies of other images included in the acquired image for each region. However, when there are not enough images stored in the image database 109, there are few images that match the arrangement conditions, and useful co-occurrence information may not be obtained. Therefore, in the second embodiment, an example in which a large number of samples are obtained by performing position correction after searching for an image including the object of the first query without performing narrowing down according to the arrangement condition.
  • FIG. 13 is a diagram showing position correction of search results.
  • the co-occurrence information generation unit 111 searches the image database 109 without using the arrangement information in the first query as a condition. When searching without placing the arrangement information on the condition, an image in which the first object (Object_A) of the first query appears in different regions and an image in which the first object of the first query (Object_A) appears in different sizes are obtained. (1301).
  • the co-occurrence information generation unit 111 corrects the search result image in accordance with the position and size of the input object of the first query (1302). That is, the co-occurrence information generation unit 111 corrects the image so that the first object (Object_A) in the image obtained by the search (1301) matches the arrangement information of the first query.
  • This correction process may include various processes such as enlargement, reduction, rotation, inversion, and parallel movement.
  • the correction process here does not need to be corrected so that the first object (Object_A) in the image obtained by the search (1301) completely matches the arrangement information of the first query.
  • the object (Object_A) may be corrected to a degree similar to the arrangement information of the first query. In the example of the correction process in FIG.
  • the corrected image is an image in which the first object (Object_A) has the same size as the first query and is arranged at the same position.
  • the co-occurrence information generation unit 111 uses the corrected image after performing such correction to generate a co-occurrence map between the first object (Object_A) of the first query and another object. create.
  • FIG. 14 is a process flow of co-occurrence information generation that introduces position correction. Since the basic processing flow is the same as that in FIG. 9, the same reference numerals as those in FIG. In the search process (S802 in FIG. 8) executed before FIG. 14, the search is executed without using the arrangement information as a condition. As illustrated in FIG. 14, the co-occurrence information generation unit 111 acquires the object data, and then acquires information on the size and arrangement of the object of the first query, and each object of the image obtained in S802 in FIG. Correct the position. The co-occurrence information generation unit 111 updates the co-occurrence map using the corrected positional relationship between the objects (S906).
  • useful co-occurrence information can be obtained even when images are not sufficiently stored in the image database 109.
  • the arrangement information of each object can be changed by the correction process, but the co-occurrence between the object of the first query and other objects is maintained, so that useful co-occurrence information is obtained. Can be obtained.
  • the image search apparatus 104 can propose a second object candidate that has a correlation with the object of the first query.
  • correction processing may be executed by the user's designation, or may be automatically executed by the image search device 104.
  • the image search device 104 may determine the accumulation amount and automatically execute the correction process.
  • the image search device 104 determines the number of objects and automatically executes correction processing. The candidate for the second object may be presented again.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment.
  • the structure of another Example can also be added to the structure of a certain Example.
  • another configuration can be added, deleted, or replaced.
  • the image search has been described, but the present invention can also be applied to a search for a moving image.
  • moving image data is stored in the image database as a set of frames (still image data format). Therefore, the image search unit 113 may search for a moving image by searching for a frame of a moving image similar to the search query described above.
  • each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in various types of non-transitory computer-readable media.
  • non-transitory computer-readable medium for example, a flexible disk, a CD-ROM, a DVD-ROM, a hard disk, an optical disk, a magneto-optical disk, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, and the like are used.
  • control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. All the components may be connected to each other.
  • DESCRIPTION OF SYMBOLS 100 ... Image search system 101 ... Image storage apparatus 102 ... Input device 103 ... Display apparatus 104 ... Image search apparatus 105 ... Image input part 106 ... Object detection part 107 ... Feature-value extraction part 108 ... Category estimation part 109 ... Image database 110 ... Query input unit 111 ... Co-occurrence information generation unit 112 ... Query candidate estimation unit 113 ... Image search unit 201 ... Processor 202 ... Storage device 203 ... Processing program 204 ... Network interface device 300 ... Image table 310 ... Object table

Abstract

画像処理装置は、プロセッサと、前記プロセッサに接続され、画像データベースを記憶する記憶部と、前記プロセッサに接続される表示部とを備え、前記プロセッサは、前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得し、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクトとの相関関係を示す第1の共起情報を取得し、前記第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力する。

Description

画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法
 本発明は、画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法に関する。
 テレビ映像のデジタルアーカイブ化やインターネット上の動画配信サービスの普及により、大規模な画像データを高速に検索及び分類する必要性が増加している。また、セキュリティ向けに蓄積された監視画像の解析に対する期待が高まっている。これらの膨大な画像に対して人手でテキスト情報を付与することが困難なことから、画像中の特徴量を用いた画像検索技術が求められている。
 大規模かつ高速な類似画像検索システムが実用化されつつある。例えば、事前に画像特徴量を抽出してデータベースを構築し、クエリ画像に見た目の類似する画像を高速に探し出す技術が提案されている。また、画像中の物体を含む領域を検出する画像処理技術と組み合わせることで、画像中の物体に着目した詳細な類似画像検索が可能となる。
 本技術分野の背景技術として、特許文献1がある。特許文献1には、「検索したい画像に含まれるオブジェクトの名称をキーワードとして入力し、そのオブジェクトをレイアウト配置したクエリ画像を生成し画像検索する。」と記載されている(要約参照)。
 特許文献1に記載のシステムは、ユーザが指定した複数のキーワードから物体の画像サンプルを取得し、物体の平均的な大きさ及び位置に従って自動的にレイアウトを作成し、当該レイアウトに従って合成された画像を用いて類似画像検索を行う。
特開2011-197892号公報
 特許文献1に記載のシステムにおいては、ユーザが、多数の物体の情報(キーワード)を入力する必要がある。ここで、特許文献1に記載のシステムでは、複数の物体の情報を入力したとしても、複数の物体間の関係性を考慮した検索クエリとならないため、検索精度が低下する可能性がある。
 そこで、本発明は、複数の物体間の関係性を考慮した検索クエリの作成を支援する技術を提供する。
 例えば、上記課題を解決するために、請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、プロセッサと、前記プロセッサに接続され、画像データベースを記憶する記憶部と、前記プロセッサに接続される表示部とを備える画像処理装置が提供される。前記プロセッサは、前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得し、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクトとの相関関係を示す第1の共起情報を取得し、前記第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力する。
 また、他の例として、プロセッサと、前記プロセッサに接続され、クエリ入力領域を有する画像検索インタフェースを表示する表示部とを備える画像検索インタフェース表示装置が提供される。前記プロセッサは、前記クエリ入力領域に第1のオブジェクトが入力されると、第2のオブジェクトの候補を前記画像検索インタフェースに表示し、前記第2のオブジェクトが選択されると、前記第2のオブジェクトを前記クエリ入力領域に表示する。
 また、他の例として、プロセッサと、前記プロセッサに接続され、画像データベースを記憶する記憶部と、前記プロセッサに接続される表示部とを備える情報処理装置における画像検索インタフェースの表示方法が提供される。当該画像検索インタフェースの表示方法は、前記プロセッサが、前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得するステップと、前記プロセッサが、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクトとの相関関係を示す第1の共起情報を取得するステップと、前記プロセッサが、前記第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力するステップとを含む。
 本発明によれば、複数の物体間の関係性を考慮した検索クエリの作成を支援することができる。なお、本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1における画像検索システムの構成例を示すブロック図である。 実施例1における画像検索システムのハードウェア構成例を示すブロック図である。 実施例1における画像データベースの構造例を示す図である。 実施例1における画像データベースの構造例を示す図である。 実施例1における、画像中の物体の配置情報の第1の例を示す図である。 実施例1における、画像中の物体の配置情報の第2の例を示す図である。 実施例1における、データベース登録処理のフローチャートの一例である。 実施例1において、共起情報を用いたクエリ入力支援および画像検索の例を説明する図である。 実施例1において、共起情報生成の例を説明する図である。 実施例1における、共起情報を用いたクエリ入力支援および画像検索の処理のフローチャートの一例である。 実施例1における、共起情報生成の処理のフローチャートの一例である。 実施例1において、画像検索の処理のフローチャートの一例である。 実施例1における画像検索インタフェースの一例を示す図である。 実施例1における画像検索インタフェースの一例を示す図であり、物体の配置を変更したときの画像検索インタフェースを示す。 実施例1におけるシステム全体の処理のシーケンス図の一例である。 実施例2における、検索結果で得られた画像に対する補正処理を説明するための図である。 実施例2における、共起情報生成の処理のフローチャートの一例である。
 以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。なお、各図において共通の構成については同一の参照符号が付されている場合がある。
<実施例の概要>
 以下で説明する画像検索装置は、画像中の物体に着目した類似画像検索を行う装置である。画像検索装置は、新規の登録対象の画像から物体を検出し、検出した物体の特徴量を抽出し、カテゴリを推定する。データベースには、画像と共に、物体の配置情報と特徴量が蓄積される。検索時には、入力された第一クエリ(物体の画像とその配置情報)を条件にして、自動的に画像検索を行う。得られた検索結果から、第一クエリを含む画像に含まれる、他の物体の情報をデータベースから取得し、第一クエリの物体との共起情報を求める。画像における物体の共起性とは、物体Aと物体Bが画像中に同時に存在する確率を表す。以下の例では、画像における物体の共起性は、物体Aが画像中のある領域Xに存在したときの物体Bの出現確率を領域ごとに表すものとする。
 画像検索装置は、求めた共起情報を用いて、第二クエリ(物体及びその配置情報)の候補をユーザに提示する。ユーザは、提示された候補の中から所望の物体を選択するだけで、検索クエリを詳細化することができる。この繰り返し操作の結果得られた検索クエリは、もっともらしい物体の組み合わせ及びそれらの配置となっているため、画像検索の精度が上がる。
[実施例1]
 図1は、実施例1の画像検索システム100の構成例を示すブロック図である。画像検索システム100は、物体の共起情報を用いたクエリ入力支援のユーザインタフェースを備える。この構成によれば、画像中の物体に着目した画像検索を効率的に実行することができる。
 画像検索システム100は、例えば、画像記憶装置101と、入力装置102と、表示装置103と、画像検索装置104とを含む。画像記憶装置101は、静止画データ又は動画データを保存する記憶媒体であり、例えば、コンピュータ内蔵のハードディスクドライブ、又は、NAS(Network Attached Storage)もしくはSAN(Storage Area Network)などのネットワークで接続されたストレージシステムを用いて構成される。また、画像記憶装置101は、例えば、カメラから継続的に入力される画像データを一時的に保持するキャッシュメモリであってもよい。
 入力装置102は、例えば、マウス、キーボード、タッチデバイスなどの、ユーザの操作を画像検索装置104に伝えるための入力インタフェースである。表示装置103は、例えば、液晶ディスプレイなどの出力インタフェースであり、画像検索装置104の検索結果の表示、及び、ユーザとの対話的操作などのために用いられる。
 画像検索装置104は、検索に必要な情報を抽出し、データベースへの登録処理を行う。登録処理は、画像記憶装置101に蓄積された画像から物体領域を検出することと、検出した各領域について画像特徴量の抽出することと、物体のカテゴリを推定することと、これらの情報を画像データベース109に登録することとを含む。
 また、画像検索装置104は、ユーザが入力装置102から指定した検索クエリを用いて画像データベース109から検索クエリに合致する画像を検索し、検索結果を表示装置103に表示するための検索処理を行う。
 検索処理において、ユーザはクエリを指定する。クエリは、物体及び物体の配置情報を含む。ユーザは、例えば、表示装置103に表示されたキャンバス上に、物体の配置情報を指定し、物体の名称又は画像を入力する。配置情報は、物体の大きさ及び位置情報(以下の例では、座標)を含む。画像検索装置104は、画像データベース109に蓄積されたデータから、入力された物体の共起情報を生成し、ユーザが次に入力する可能性の高い物体を推定し、表示装置103に候補を表示する。ユーザは提示された候補から選択することで、何度も物体の画像及び配置情報を入力することなく、複数の物体を指定した検索クエリを作成することができる。画像検索装置104は、作成された検索クエリを用いて画像検索を実行し、検索結果を表示装置103に表示する。
 画像検索装置104は、画像入力部105と、物体検出部106と、特徴量抽出部107と、カテゴリ推定部108と、画像データベース109と、クエリ入力部110と、共起情報生成部111と、クエリ候補推定部112と、画像検索部113とを含む。画像入力部105と、物体検出部106と、特徴量抽出部107と、カテゴリ推定部108は、上記の登録処理を実行するための処理モジュールである。クエリ入力部110と、共起情報生成部111と、クエリ候補推定部112と、画像検索部113は、上記の検索処理を実行するための処理モジュールである。
 画像入力部105は、画像記憶装置101から、静止画データ又は動画データの入力を受け付け、入力されたデータのデータ形式に応じて、入力されたデータを画像検索装置104内部で使用するデータ形式に変換する。例えば、動画データの入力を受け付けた場合、画像入力部105は、フレーム(静止画データ形式)に分解する動画デコード処理を行う。
 物体検出部106は、入力された画像から物体が含まれる部分領域を検出する。物体検出処理は、公知の手法を用いることができる。例えば、物体検出部106は、特定のカテゴリの物体にのみ反応する識別器を用いて、画像中をスキャンすることで領域を検出してもよい。また、物体検出部106は、局所的な色及び形状の特徴を用いて、領域セグメンテーションを行うことで、任意の物体が含まれる可能性の高い領域の候補を検出してもよい。なお、「物体(オブジェクト)」は、定形のものだけでなく、例えば、「空」、「海」、「森」などの非定形のものも含んでよい。本システムでは、物体検出処理により、例えば一枚の画像から数個~数十個の物体領域が検出される。検出結果の情報は、例えば、領域の中心の水平座標、垂直座標、領域の幅、高さの4値で表現される。物体検出部106は、検出結果の情報を、画像データベース109に登録する。
 特徴量抽出部107は、入力画像全体及び入力画像から検出された物体領域から、画像特徴量を抽出する。画像特徴量は、画像の色、形状、テクスチャなどの特徴を示す画像間で比較可能な値である。画像特徴量は、例えば、固定長のベクトルで表現される。画像特徴量としては、画像間で比較可能な情報であればよく、公知の様々な情報が採用されてよい。特徴量抽出部107は、得られた画像特徴量を、画像データベース109に登録する。
 特徴量抽出部107は、例えば、画像データベース109に画像特徴量を登録する際に、高速検索を目的として、データのクラスタリング処理を行ってもよい。特徴量抽出部107は、例えば、k-meansアルゴリズムなどのクラスタリング処理によって、類似度の高い特徴量を有する1以上の登録データからなるクラスタを生成する。類似度は、同種の2つの特徴量間の類似性を示す指標であり、例えば、値域が[0,1]の所定の減少関数に2つの特徴量間の距離を代入することにより得られる。なお、類似度の算出に関しては、公知の様々な手法を採用してもよい。
 画像データベース109は、例えば、クラスタの代表値(例えばクラスタメンバの平均ベクトル)とクラスタメンバのIDを記録する。画像検索装置104は、検索時において、例えば、検索クエリの特徴量とクラスタの代表値とを比較し、類似度の高いクラスタに対してのみ、検索クエリと当該クラスタのメンバとの間で特徴量比較を行う。これにより、処理回数を削減し、高速に探索することができる。
 カテゴリ推定部108は、物体検出部106で検出された部分領域のカテゴリ又は物体名称を推定する。カテゴリ推定部108は、例えば、機械学習によって生成された画像カテゴリ分類器を備える。カテゴリ推定部108は、画像カテゴリ分類器に、特徴量抽出部107で抽出された特徴量を入力することにより、カテゴリを出力する。物体検出処理において、特定カテゴリの識別器を用いた場合は、識別器のカテゴリをそのまま用いても良い。カテゴリ推定部108は、得られた物体のカテゴリ又は名称を、画像データベース109に登録する。
 画像データベース109は、以上の処理で得られた、画像データ、物体検出結果、物体の画像特徴量、及び物体のカテゴリなどを保持する。画像データベース109は、特徴量を保存しているため、後述する共起情報生成部111及び画像検索部113は、その特徴量を用いた類似画像検索行うことができる。
 画像検索装置104における類似画像検索は、クエリと特徴量が近い順にデータを並び替えて出力する機能である。画像検索部113は、例えば、ベクトル間のユークリッド距離を用いて特徴量を比較する。また、類似画像検索では、条件に一致するデータのみを検索対象とすることができる。例えば、物体の座標を条件として、探索範囲を絞り込むことができる。画像データベース109の構造について、詳しくは図3を用いて後述する。
 以上が、画像検索装置104の登録処理における各部の動作である。次に、画像検索装置104の検索処理における各部の動作を説明する。
 クエリ入力部110は、ユーザが入力装置102を介して指定したクエリを受け付ける。画像検索装置104では、クエリは、物体の画像及び配置情報(物体の大きさ及び座標)で与えられる。また、画像検索装置104の内部に、キーワード又は音声と画像とを関連付けた変換テーブルを保持してもよく、クエリ入力部110は、クエリとしてキーワード又は音声を受け付けるように構成されてもよい。さらに、よく使用される物体に関しては、テンプレートとして保持しておき、ユーザインタフェース上でリスト表示されたテンプレートからユーザに選択させるようにしてもよい。
 共起情報生成部111は、入力された物体と配置情報から、その物体と他の物体との共起情報を生成する。共起情報とは、ある物体Aが画像中に現れた時に、他の物体Bが画像中に出現する確率を表す情報である。画像に関する共起情報は、他の物体Bが画像中のどの領域に出現するか可能性が高いか、という空間情報を含む。例えば画像中の座標に関しては、画像を格子状に分割し、物体Aがある領域に指定されたときに、各領域について物体Bが含まれる確率を求める。共起情報には、物体の奥行き及びサイズなどの情報を含めてもよい。共起情報生成部111は、画像データベース109に蓄積された物体情報を用いて共起情報を生成する。共起情報の生成に関しては図7を用いて詳しく後述する。
 クエリ候補推定部112は、生成された共起情報を用いて、ユーザが次に入力する可能性の高いクエリの候補を表示装置103に表示する。クエリ候補推定部112は、ユーザが第一クエリを入力した後に、共起性の高い物体とその位置を、表示装置103上のユーザインタフェース上に描画してもよい。別の例として、クエリ候補推定部112は、ユーザが第二クエリの場所を指定した後に、その場所に関して共起性の高い物体(例えば、出現確率が高い物体)を、出現確率が高い順にリスト表示してもよい。また、別の例として、クエリ候補推定部112は、ユーザが物体名を指定した場合に、その物体の配置の候補を表示するようにしてもよい。
 以上のクエリ入力処理を繰り返し行うことで、複数の物体とそれらの配置を条件とする検索クエリが得られる。画像検索部113は、この検索クエリに該当する画像を画像データベース109から検索する。検索処理の詳細については、図10の説明として後述する。検索結果は、画像データベース109に登録された画像のIDと、クエリとの類似度のペアを、類似度が高い順にソートしたリストとして出力される。画像検索部113は、以上の検索処理によって得られた検索結果を、表示装置103のユーザインタフェース上に表示することにより検索結果をユーザに提示する。
 図2は、本実施例の画像検索システム100のハードウェア構成例を示すブロック図である。画像検索装置104は、例えば、一般的な計算機によって実現される。例えば、画像検索装置104を構成する計算機は、相互に接続されたプロセッサ201及び記憶装置202を有してもよい。記憶装置202は、任意の種類の記憶媒体によって構成される。例えば、記憶装置202は、半導体メモリと、ハードディスクドライブとの組み合わせによって構成されてもよい。入力装置102及び表示装置103は、プロセッサ201に接続され、当該計算機での入出力操作が可能である。
 なお、画像入力部105、物体検出部106、特徴量抽出部107、カテゴリ推定部108、クエリ入力部110、共起情報生成部111、クエリ候補推定部112、及び画像検索部113といった機能モジュールは、例えば、プロセッサ201が記憶装置202に格納された処理プログラム203を実行することによって実現される。言い換えると、上記の各機能モジュールを実現するプログラムが処理プログラム203に含まれており、各機能モジュールの処理は、処理プログラム203に基づいて、プロセッサ201によって実行される。したがって、以下の説明において、図1の機能モジュールを主語として処理内容を説明した場合、プロセッサ201を主語とした説明としてもよい。
 また、画像データベース109のデータは、例えば記憶装置202に含まれる。処理負荷分散などを目的として、複数のサーバで構成する場合は、画像データベース109と処理プログラム203が実行される装置は、ネットワークで接続された物理的に異なるサーバであってもよい。
 画像検索装置104は、さらに、プロセッサ201に接続されたネットワークインターフェース装置(NIF)204を含む。画像記憶装置101は、例えば、ネットワークインターフェース装置204を介して画像検索装置104に接続された、NAS又はSANであってもよい。なお、別の例として、画像記憶装置101は、記憶装置202に含まれてもよい。
 図3A及び図3Bは、本実施例の画像データベース109の構成及びデータ例を示す説明図である。なお、本実施形態において、システムが使用する情報は、データ構造に依存せず、どのようなデータ構造で表現されていてもよい。図3A及び図3Bはテーブル形式の例を示しているが、例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。
 画像データベース109は、例えば、画像情報を保持する画像テーブル300と、物体情報を保持する物体テーブル310とを含む。図3A及び図3Bの各テーブル構成及び各テーブルのフィールド構成は、あくまで一例であり、例えばアプリケーションに応じてテーブル及びフィールドが追加されてもよい。また、同様の情報を保持していれば、テーブル構成を変えてもよい。例えば、画像データベース109は、画像テーブル300と物体テーブル310とが結合された一つのテーブルで構成されてもよい。
 画像テーブル300は、例えば、画像IDフィールド301、画像データフィールド302、及び特徴量フィールド303を含む。画像IDフィールド301は、各画像データの識別番号を保持する。画像データフィールド302は、例えば、検索結果を表示する際に用いられる画像データをバイナリで保持する。特徴量フィールド303は、画像から抽出された特徴量を保持する。特徴量は、例えば、固定長のベクトルデータで与えられる。
 物体テーブル310は、例えば、物体IDフィールド311、画像IDフィールド312、カテゴリフィールド313、水平座標フィールド314、垂直座標フィールド315、幅フィールド316、高さフィールド317及び特徴量フィールド318を含む。
 物体IDフィールド311は、画像から検出された物体の識別番号を保持する。画像IDフィールド312は、物体の検出元の画像のIDを保持する。カテゴリフィールド313は、物体のカテゴリ推定結果を保持する。図3Bでは、カテゴリを文字列で表現しているが、カテゴリフィールド313は、テーブル又はアプリケーション内部で管理する識別番号で保持してもよい。
 水平座標フィールド314は、物体の中心座標の水平座標を保持し、垂直座標フィールド315は、物体の中心座標の垂直座標を保持し、幅フィールド316は、物体の幅を保持し、高さフィールド317は、物体の高さを保持する。図3Bの例では、これらのフィールド314~317は、画像サイズで正規化した値を保持している。水平座標及び幅については、検出元の画像の幅を1とした時の割合を表し、垂直座標及び高さについては、検出元の画像の高さを1とした時の割合を表す。
 図4A及び図4Bは、物体検出部106での物体検出の例と正規化された座標を説明するための図である。図4Aは、画像400から物体401、物体402、及び物体403が検出された例を示す。図4Bは、画像410から物体411、及び物体412が検出された例を示す。例えば、物体401は、正規化された中心座標が[0.5,0.3]、幅が0.8、高さが0.4である。
 特徴量抽出部107は、物体の領域から特徴量を抽出する。特徴量フィールド318は、物体の領域から抽出された特徴量を保持する。物体の特徴量は、画像全体の特徴量と異なるアルゴリズムで抽出されたものを用いてもよい。
 本実施例の画像検索装置104は、登録時に構築された物体情報を用いて共起情報を生成し、共起情報に基づいてユーザのクエリ入力を補助することにより、画像検索を容易に実行することができる。
 共起情報の生成に必要な情報を得るために、検索を実行する前に、検索対象の画像データベース109への登録処理を実行しておく必要がある。図3A及び図3Bで説明した画像データベース109の構成例の情報が蓄積されていれば、登録時の手順は任意であっても良いが、例えば、図5の手順を用いることができる。
 図5は、データベース登録の処理フローを表す図である。以下、図5の各ステップについて説明する。
 画像入力部105は、画像記憶装置101から画像データを取得し、取得した画像データを必要に応じてシステム内部で利用可能な形式に変換する(S501)。画像入力部105は、例えば、動画データの入力を受け付けた場合、動画データをフレーム(静止画データ形式)に分解する動画デコード処理を行う。
 特徴量抽出部107は、ステップS501で入力された画像から特徴量を抽出する(S502)。
 物体検出部106は、ステップS501で入力された画像から、物体候補領域(以下、単に「物体」という)を検出する(S503)。そして、物体検出部106は、検出された物体の中心座標(水平座標及び垂直座標)、幅、及び高さを、それぞれ、画像の幅、高さで正規化する。物体検出は、前述した通り、識別器を用いたラスタスキャンを用いる手法や、領域セグメンテーションを用いる手法が利用できる。
 画像検索装置104は、ステップS503で検出された各物体について、ステップS505からステップS506の処理を繰り返す(S504~S507のループ)。特徴量抽出部107は、処理対象の物体の領域から画像特徴量を抽出する(S505)。カテゴリ推定部108は、ステップ505で得られた特徴量を用いて物体のカテゴリを推定する(S506)。例えば、カテゴリの推定には、機械学習によって生成されたカテゴリ分類器を用いることができる。この時、カテゴリ推定部108は、どのカテゴリにも該当しない物体を、誤検出と判定して破棄してもよい。
 画像検索装置104は、上記の処理によって得られた画像と物体の情報を画像データベース109に登録する(S508)。この時、特徴量について、高速検索を実現するためのデータクラスタリング処理を実施してもよい。
 図6は、共起情報に基づくクエリ入力支援を説明するための図である。図6の600は、表示装置103に表示されるクエリ入力画面の遷移を時系列で表し、図6の610は、画像検索装置104内部のデータフローを表す。
 表示装置103には、空のキャンバスが表示されている(601)。ユーザは入力装置102を用いてキャンバス上にクエリを配置していく。ユーザは、例えば、マウスカーソル621を操作することで画像検索装置104のクエリ入力部110に情報を伝える。図6の例では、まずユーザが第1の物体(Object_A)の画像をキャンバスの左上に入力する(602)。このとき、クエリ入力部110は、第1の物体(Object_A)の入力を受付けると、第1の物体(Object_A)の配置情報(大きさ及び座標)を取得する。
 画像検索装置104の共起情報生成部111は、キャンバス602に入力された第1の物体(Object_A)の画像と配置情報を用いて、画像データベース109から該当する物体の情報を取得する。なお、前述の通り、クエリの入力方法は、テキスト又は音声によるキーワードであってもよい。このとき画像検索方法は例えば、以下の4つが考えられる。
(1)クエリが画像の場合、画像特徴量で検索
(2)クエリが画像の場合、物体カテゴリを推定し、カテゴリを条件として検索
(3)クエリがキーワードの場合、キーワードをカテゴリの条件として検索
(4)クエリがキーワードの場合、変換テーブルを用いて画像に変換し、画像特徴量で検索
 上記の画像検索方法を実現するために、共起情報生成部111は、特徴量抽出部107及びカテゴリ推定部108の機能を用いてもよい。これにより、クエリから画像特徴量を抽出したり、カテゴリを推定することができる。
 (1)~(4)のいずれも検索方法についても、検索結果は同様の形式で得られる。すなわち、上記の検索方法により、共起情報生成部111は、図3Bの中のある特定の物体(ここでは、Object_A)を検索することができる。この検索結果を用いて第1の物体(Object_A)が左上に入力された時の、他の物体との共起性を推定する。
 図7は、検索結果から共起情報を生成する手順を表す図である。ここでは、共起情報生成部111が、第1の物体(Object_A)の画像をキャンバスの左上に配置した第一クエリを用いて、画像データベース109を検索することを想定する。物体及びその配置情報を含む第一クエリを用いて絞り込み検索を行うと、第一クエリの条件に類似する複数の画像、すなわち、類似の物体が類似の場所に存在する複数の画像が得られる(701)。
 共起情報生成部111は、条件付き検索結果701として得られた複数の画像から、これらの画像に含まれる他の物体の配置情報を取得する。そして、共起情報生成部111は、取得した他の物体のカテゴリを、カテゴリごとに集計する(702)。例えば、共起情報生成部111は、画像を複数の領域に分割し、各領域に対して他の物体の出現数をカウントする。この時、複数の領域にまたがって物体が配置されている場合は、その物体の出現数を複数の領域にカウントしてもよい。また、物体の中心座標に近いほど値が大きくなるように重みを付けてカウントしてもよい。
 共起情報生成部111は、集計した結果を、例えば全体の出現数で割るなどして正規化することで、共起情報のマップ(以下、共起性マップ)を作成する(703)。共起性マップは、画像データベース109に基づく第1の物体(Object_A)と他の物体との相関関係を表すものである。図7の例では、共起情報生成部111は、画像を9個の領域に分割し、対象のカテゴリの領域毎に出現数(ここでは、正規化した値)を計算する。図7の例では、物体のカテゴリ(Object_B、Object_C、Object_D)ごとに共起性マップが作成されている。共起性マップは、ある物体に関して、他の物体が画像中のどの領域に出現するかを示す空間情報を含めばよく、図7の形式に限定されない。
 クエリ候補推定部112は、この共起性マップにおいて、相対的に値の大きいカテゴリ及び位置をクエリ候補(第2の物体の候補)として表示装置103に表示する。また、ユーザから第二クエリの場所が指定された後、クエリ候補推定部112は、その領域に限定して値の高いカテゴリをクエリ候補として提示してもよい。図7の例では、ユーザが第二クエリにおいて点線の領域705を指定したとき、クエリ候補推定部112は、共起性マップの対応する領域において値が大きい物体(Object_B、Object_C)を表示装置103に表示する(704)。
 図6の説明に戻り、ユーザが、第二クエリの場所をマウスカーソルによって選択する(603)。クエリ候補推定部112は、上記の処理によって得られた共起性マップを用いて、該当領域に存在する確率の高い物体のカテゴリをクエリ候補リストとしてポップアップ表示する(604)。表示方法は、カテゴリ名でも良いし、画像であってもよい。
 ユーザは、ポップアップ表示されたクエリ候補リストに所望の物体があれば、その物体を選択する。クエリ入力部110は、選択された物体を第2の物体(Object_B)としてキャンバスに追加する(605)。クエリ候補リストに所望の物体が見つからなければ、ユーザは、第一クエリと同様に手動で入力してもよい。また、ユーザは、新たな物体をキャンバスに追加した後に、その物体の配置を調整しても良い。なお、クエリ入力部110は、第1の物体(Object_A)又は第2の物体(Object_B)の入力の際に、背景の画像の入力を受付けてもよい。この場合、キャンバスには、背景画像が表示される。物体の入力時に背景の合成を行うことで、類似画像検索の精度を上げることができる。
 クエリ入力部110は、第2の物体(Object_B)の入力を受付けると、第2の物体(Object_B)の配置情報(大きさ及び座標)を取得する。共起情報生成部111は、第一クエリ(第1の物体(Object_A)及びその配置情報)と第二クエリ(第2の物体(Object_B)及びその配置情報)を用いて、画像データベース109に基づく第1の物体及び第2の物体の双方との相関関係を示す第2の共起性マップを取得する。クエリ候補推定部112は、第2の共起性マップに基づく第3の物体の候補を表示装置103へ出力する。この構成によれば、第3の物体の候補は、第1の物体及び第2の物体の双方と関係があるものとなり、作成される検索クエリの精度が上がる。
 なお、上述の例では、第二クエリが入力された場合、第2の共起性マップは、第1の物体及び第2の物体の双方との相関関係を示すものであるが、これに限定されない。例えば、第2の物体(Object_B)の入力を受付けた後、共起情報生成部111は、第二クエリ(第2の物体(Object_B)及び配置情報)を用いて、画像データベース109に基づく第2の物体との相関関係を示す第2の共起性マップを取得してもよい。この構成によれば、第3の物体の候補としてより多くの物体が提示されることになり、ユーザは多くの候補から適切な第3の物体を選択できる。
 上記の操作を繰り返し行うことで、複数の物体とそれらの配置情報を含むキャンバス(検索クエリ)が作成される(606)。ここでは、キャンバス601に第1の物体(Object_A)、第2の物体(Object_B)、第3の物体(Object_C)が配置された検索クエリが得られる。なお、複数のクエリが入力された状態で、次のクエリを推定する場合は、入力済みの全てのクエリを条件として画像検索をしても良いが、条件に一致する画像が十分に見つからず、共起情報を生成出来ない場合がある。そのため、上述したように直前に入力されたクエリのみを使用したり、ユーザが指定したクエリのみを使用してもよい。
 画像検索部113は、以上で得られたキャンバスを用いて、類似画像検索を実行し、最終的な検索結果を得る(607)。類似画像検索の一例として、画像検索部113は、キャンバスを複数の物体からなる合成画像と考えて、画像全体の特徴量を抽出し、その特徴量を用いて画像データベース109に対して検索を行ってもよい。また、画像検索部113は、キャンバス上の各クエリ(物体及び配置情報)で検索した後、それらの検索結果を統合してもよい。
 図8は、共起情報に基づくクエリ入力支援を用いた画像検索の処理フローを表す図である。以下、図8の各ステップについて説明する。
 クエリ入力部110は、ユーザが入力したクエリを受け付ける(S801)。クエリは、物体の画像とその物体の配置を表す情報である。例えば図6の説明で述べたように、クエリは、表示装置103に表示されたキャンバスを用いて入力される。
 共起情報生成部111は、ステップS801で入力されたクエリの物体の画像から特徴量を抽出し、画像データベース109から類似画像を検索する(S802)。この時、共起情報生成部111は、ステップS801で入力された物体及びその物体の配置情報を条件として、検索結果を絞り込む。
 共起情報生成部111は、ステップS802で得られた類似画像検索結果から、共起情報を生成する(S803)。共起情報の生成処理フローの詳細は、図9の説明として後述する。
 クエリ候補推定部112は、ステップS803で得られた共起情報から、ユーザが次に入力するクエリを推定し、表示装置103に表示する(S804)。クエリの推定方法については図7で説明した通りである。
 クエリ入力部110は、ステップS804で提示されたクエリ候補からユーザが選択したクエリを受け付ける(S805)。また、クエリ入力部110は、ユーザからクエリの画像及び配置の変更指示を受け付け、それに従い、表示装置103に表示されるクエリを変更してもよい。また、クエリ入力部110は、ユーザが選択又は修正した履歴を記憶装置202に蓄積してもよい。クエリ入力部110は、蓄積された履歴を、次回の候補提示において利用してもよい。例えば、クエリ入力部110は、多数のユーザが選択したクエリ候補を優先的に表示してもよい。
 画像検索装置104は、ユーザからクエリ入力完了の通知を受けたら(S806:YES)、クエリ入力を終えてステップS807に移動し、そうでなければ(S806:NO)、ステップS801に戻って次のクエリを受け付ける。
 画像検索部113は、ステップS801からステップS805の繰り返しで得られた検索クエリを用いて、画像データベース109から類似画像を検索する。画像検索部113は、複数の物体画像を合成することで得られる画像を用いて画像テーブル300に対して検索しても良いし、各物体画像を用いて物体テーブル310に対して検索した結果を統合してもよい。詳しい処理フローは図10の説明として後述する。
 画像検索部113は、検索結果を表示装置103に表示し、検索処理を終了する(S880)。
 図9は、画像検索結果から共起情報を生成するための処理フローであり、図8のステップS803に相当する。以下、図9の各ステップについて説明する。
 共起情報生成部111は、共起性マップを初期化する(S901)。共起性マップは、図7の703で説明したような領域毎の物体の共起性を表すマップである。共起性マップは物体のカテゴリごとに用意する。
 共起情報生成部111は、図8のステップS802で得られた各検索結果に関して、ステップS903からステップ907の処理を繰り返す(S902~S908のループ)。
 共起情報生成部111は、図8のステップS802で得られた各検索結果の画像に含まれる物体の画像ID312を物体テーブル310から取得する(S903)。
 共起情報生成部111は、ステップS903で得られた画像ID312に対応する物体データ(ここでは、物体テーブル310のレコード)を画像データベース109から取得する(S904)。
 共起情報生成部111は、ステップS904で取得された各物体データについて、ステップS906を繰り返し実行する(S905~S907のループ)。
 共起情報生成部111は、物体データから物体のカテゴリと配置情報を取得し、該当カテゴリの共起性マップを配置情報に従って更新する(S906)。更新方法は、図10の説明として後述するように、例えば、出現場所の1つ以上の領域に対して値を可算していく。
 共起情報生成部111は、カテゴリ毎の共起性マップを共起情報として出力する(S909)。必要であれば、共起情報生成部111は、全体の出現頻度等を用いて、共起性マップ内の値を正規化しても良い。
 なお、共起性マップの生成は、画像検索、データ取得、データ集計を多数行う必要があり、計算負荷が高い。そのため、システム要件に応じて、データ取得数を制限したり、生成した共起情報をキャッシュしておいたりしてもよい。
 図10は、入力された複数の物体を用いて画像検索を行うための処理フローであり、図10のステップS807に相当する。以下、図10の各ステップについて説明する。
 画像検索部113は、ユーザから画像全体を用いた検索を実行する指示を受けたら(S1001:YES)、ステップS1002に移動し、そうでなければ(S1001:NO)、ステップS1005に移動する。
 画像検索部113は、入力された複数のクエリに従って、1枚の画像(合成画像)を生成する(S1002)。すなわち、画像検索部113は、入力された複数の物体をそれらの配置情報に従って合成し、1枚の画像(合成画像)を生成する。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第1の物体(Object_A)及び第2の物体(Object_B)を含む合成画像を作成する。画像検索部113は、必要に応じて、背景画像を合成したり、自然に合成されるような画像処理を加えても良い。
 画像検索部113は、ステップS1002で生成された合成画像から特徴量を抽出し、画像テーブル300に対して類似画像を検索する(S1003)。なお、特徴量は、画像データベース109への登録時と同じアルゴリズムで抽出される。
 画像検索部113は、ユーザから物体ごとの検索を実行する指示を受けたら(S1004:YES)、ステップS1005に移動し、そうでなければ(S1004:NO)、ステップS1009に移動する。
 画像検索部113は、入力された複数のクエリに含まれる各物体に対してステップS1006を実行する(1005)。
 画像検索部113は、各物体の画像から特徴量を抽出し、物体テーブル310に対して配置情報を条件にした類似画像検索を実行する(1006)。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第一クエリ(第1の物体(Object_A)及びその配置情報)を用いて類似画像検索を実行し、その後、第二クエリ(第2の物体(Object_B)及びその配置情報)を用いて類似画像検索を実行する。このとき、画像検索部113は、第一クエリの検索結果と第二クエリの検索結果を統合する。統合方法の一例として、同一画像IDの複数の検索結果の類似度を可算してもよい。
 なお、画像検索時の特徴量は、画像データベース109への登録時と同じアルゴリズムで抽出する。物体テーブル310に対する検索結果は、物体データ(物体テーブル310のレコード単位)で得られる。したがって、画像検索部113は、物体テーブル310の各レコードの画像ID312を元に、画像テーブル300から画像データを取得する。
 なお、検索の際に、物体毎に異なる条件で検索しても良い。例えば、物体毎に特徴量を切り替えて、キャンバス上でサイズの小さい物体に関しては、概形を捉える特徴量を使用し、大きい物体に関しては詳細なテクスチャ特徴を使うようにしても良い。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第1の物体(Object_A)の大きさ及び第2の物体(Object_B)の大きさに基づいて、画像データベース109を検索する際に使用する特徴量を第一クエリと第二クエリとで切り替えて、類似画像検索を実行してもよい。
 また、別の例として、画像検索部113は、複数の物体の入力順序に基づいて、それら複数の物体のそれぞれに重み付けし、類似画像検索を実行してもよい。この場合、入力順序が早い物体の検索に対して、より大きな重みを付与してもよい。例えば、説明を簡単にするために、図6の605の状態で検索の指示を受けたと想定する。この場合、画像検索部113は、第1の物体(Object_A)及び第2の物体(Object_B)の入力順序に基づいて、第一クエリと第二クエリとに重み付けしてもよく、例えば、入力順序が早い第一クエリに対してより大きな重みを付与してよい。また、重み付けは入力順序に基づくだけでなく、ユーザがどの物体を重視して検索するかを指定してもよい。
 画像検索部113は、ステップS1003で得られた検索結果及びステップS1006で得られた検索結果を、画像ID単位で統合する(S1008)。例えば、画像検索部113は、同一画像IDの複数の検索結果の類似度を可算して、一つの検索結果に統合してもよい。
 画像検索部113は、検索結果を類似度順にソートして表示装置103に出力する(S1009)。
 図11Aは、本実施例の画像検索装置104を用いて、画像検索を行うための操作画面(画像検索インタフェース)の構成例を示す図である。操作画面は、例えば、表示装置103上でユーザに提示される。ユーザは、例えば入力装置102を用いて、画面上に表示されたカーソルを操作することで、画像検索装置104に処理の指示を与える。なお、図11Aの例は、据え置き型の操作端末であるが、入力と表示が可能なデバイスであれば、様々な形態をとりうる。例えば、スマートフォンやタブレットのように、タッチ操作を用いても良い。また例えば、ヘッドマウント型のディスプレイや、情報表示可能なメガネ型のデバイスを表示装置103として用い、音声入力やジェスチャを受け付ける入力装置を使用してもよい。このような、ウェアラブルデバイス、携帯デバイスを用いる場合、据え置き型コンピュータに比べて検索クエリの入力に効率性が求められるため、本実施例のクエリ入力支援が効果的である。
 操作画面は、例えば、クエリ入力領域1101、クエリ候補表示領域1102、検索ボタン1103、検索オプション表示領域1104、及び検索結果表示領域1105を含む。
 クエリ入力領域1101に表示される情報は、例えば、クエリ入力部110によって表示装置103に出力される。クエリ候補表示領域1102に表示される情報は、例えば、クエリ候補推定部112によって表示装置103に出力される。検索結果表示領域1105に表示される情報は、例えば、画像検索部113によって表示装置103に出力される。
 まず、ユーザは検索の手がかりとなる画像を指定する。操作画面は、例えば、登録画像選択のためのダイアログを表示してもよいし、外部の画像を入力するインタフェースを含んでもよい。また、図1の説明で前述した通り、テキスト又は音声のキーワード入力としてもよい。ユーザは、クエリ入力領域1101上のどこに画像を配置するかを指定する。クエリ入力領域1101には、指定された位置に入力された画像(ここでは自動車の画像)が表示される。
 共起情報生成部111は、入力された画像と配置情報に従って、共起情報を生成する。ユーザがクエリ入力領域1101に次のクエリの領域1100を指定すると、クエリ候補推定部112は、生成された共起情報に従い、クエリ候補表示領域1102にクエリ候補を表示する。なお、ユーザが次のクエリの領域を指定する前に、共起情報生成部111は、物体の候補とその配置情報をクエリ入力領域1101にオーバーレイ表示し、ユーザに選択させるようにしてもよい。
 ユーザがクエリ候補表示領域1102から物体を選択すると、選択された物体の画像がクエリ入力領域1101の領域1100に表示される。この操作を繰り返し行い、クエリ入力領域1101に複数の物体の画像を配置していく。
 なお、クエリ候補表示領域1102は、クエリ候補から不要な物体を除去できるようなインタフェースを備えてもよい。これにより、ユーザは、所望のクエリ候補のみを表示しながら、検索クエリを作成することができる。
 全ての物体の入力が終わったら、ユーザは検索ボタン1103をクリックする。この時、検索オプション表示領域1104から検索オプションを指定して、画像検索部113の内部動作を切り替えられるようにしても良い。例えば、検索オプション表示領域1104において「画像全体で検索」が選択されると、画像検索部113は、合成画像を生成し、類似画像検索を実行する(図10のステップS1002~S1003)。また、検索オプション表示領域1104において「物体毎に検索」が選択されると、画像検索部113は、物体毎に配置条件付き類似画像検索を実行し(図10のステップS1005~S1007)、それらの検索結果を統合する(図10のステップS1008)。
 画像検索部113は、画像データベース109に対してクエリ入力領域1101で入力された条件に合致する類似画像検索を行う。検索結果は、例えば、類似度順に並び替えられ、同一画像IDを有する検索結果は集約されて、検索結果表示領域1105に表示される。検索結果の表示方法として、類似画像を一覧表示するのではなく、例えば、クエリ入力領域1101に類似画像を合成表示することにより、クエリを更新するたびに徐々に検索結果が所望の画像に近づいていくようなインタフェースにしてもよい。
 図11Bは、物体の配置を変更したときの操作画面(画像検索インタフェース)を示す。クエリ入力領域1101は、配置された物体の配置情報を変更できるインタフェースを備える。例えば、ユーザは、カーソルで物体を指定して、物体の大きさ及び位置の少なくとも一方を変更できる。ここでは、クエリ入力領域1101の自動車の位置が変更されたとする。クエリ入力部110は、例えば、クエリ入力領域1101の自動車の位置が変更されたことを受け取ると、自動車の変更された配置情報を取得する。
 共起情報生成部111は、自動車及びその変更された配置情報を用いて、共起情報(共起性マップ)を再計算する。共起情報生成部111は、再計算された共起情報に基づくクエリ候補をクエリ候補表示領域1102に表示する。図11Bの例では、クエリ入力領域1101の自動車の配置の変更によって、クエリ候補表示領域1102に表示される複数のクエリ候補の種類及び表示順序が変更されている。この構成によれば、ユーザのクエリの変更に応じて、リアルタイムにクエリ候補を提示することができる。
 図12は、本実施例の画像検索システム100の処理の一例を説明するシーケンス図である。図12は、具体的には上記した画像検索システム100の画像登録及び画像検索処理における、ユーザ1200、画像記憶装置101、計算機1201、及び画像データベース109間の処理シーケンスを示す。なお、計算機1201は、画像検索装置104を実現する計算機である。ユーザ1200は、例えば、入力装置102を介して、計算機1201に対する要求及び指示の送信、並びにデータの入力等を行い、表示装置103を介して計算機1201からの処理結果等の提示を受ける。
 図12において、S1210は登録処理を、S1220は検索処理を示す。登録処理S1210は、ステップS1211~ステップS1218に示す処理を含む。
 ユーザ1200が登録要求を出すと(S1211)、計算機1201は画像記憶装置101に画像データ取得要求を出し(S1212)、画像記憶装置101から画像データを取得する(S1213)。以下に述べるステップS1214~ステップS1217の処理は、図5において説明した一連の登録処理に相当する。計算機1201は、取得した画像から物体を検出し、物体の領域毎に特徴量を抽出し、カテゴリを推定する(S1214~S1216)。また、特徴量抽出においては、画像全体の特徴量を抽出する。この結果得られた、画像データ、画像全体の特徴量、物体検出結果(物体の座標情報、幅、高さなど)、物体の特徴量、物体のカテゴリを画像データベース109に登録する(S1217)。登録処理が終了すると、計算機1201はユーザ1200に対して登録完了の通知を行う(S1218)。
 検索処理S1220は、ステップS1221~ステップS1229に示す処理を含み、図8において説明した一連の検索処理に相当する。
 ユーザ1200が、計算機1201に対してクエリを入力すると(S1221)、計算機1201は、入力されたクエリの条件に従って画像データベース109から画像を検索し、検索結果から共起情報を生成する(S1223)。また、計算機1201は、生成された共起情報からユーザ1200が次に入力するクエリを推定し、ユーザ1200に提示する(S1224~S1225)。ユーザ1200は、入力クエリの修正または候補を選択し、計算機1201に伝える(S1226)。S1222の一連の処理を繰り返し行うことで、複数の物体が配置された検索クエリが作られる。
 ユーザ1200が検索要求を出すと、計算機1201は入力された検索クエリを用いて画像データベース109から類似する画像を検索する(S1227~S1228)。計算機1201は、得られた検索結果を、類似度順に並び替え、検索結果をユーザ1200に提示する(S1229)。なお、この時、計算機1201は、同一画像IDを有する検索結果を集約して、ユーザ1200に提示してよい。
 本実施例の画像検索装置104は、複数の物体を含む画像を検索する際に、ユーザが最初に入力した物体から次に入力する物体を予測し、提示する。より詳細には、複数の物体を含む画像を検索する際に、高い検索精度に結び付く検索クエリの入力である、第1の物体と相関関係がある第2の物体の候補を提案することができる。これにより、ユーザによる検索クエリの入力の効率を高めることができる。
 本実施例の画像検索装置104は、空間情報を含む物体の共起性に従って、検索クエリ内で複数の物体を配置することができ、したがって、適切な配置の検索クエリを作ることができる。その結果、検索精度を高めることができる。
[実施例2]
 実施例1で示した共起情報の生成においては、図7の説明で述べたように、配置情報の条件付き検索により、第一クエリが含まれる画像を取得する。そして、共起情報生成部111は、取得された画像に含まれる他の画像の出現頻度を領域ごとに集計することで、共起性マップを作成する。しかし、画像データベース109に十分に画像が蓄積されていない場合、配置条件に一致する画像が少なく、有用な共起情報を得られない可能性がある。そこで、実施例2では、配置条件による絞り込みを行わず、第一クエリの物体が含まれる画像を検索した後に、位置補正を行うことで多数のサンプルを得る例を説明する。
 図13は、検索結果の位置補正を表す図である。共起情報生成部111は、第一クエリ内の配置情報を条件に使用せずに、画像データベース109を検索する。配置情報を条件に付けずに検索すると、第一クエリの第1の物体(Object_A)が異なる領域に現れる画像、及び第一クエリの第1の物体(Object_A)が異なるサイズで現れる画像が得られる(1301)。
 共起情報生成部111は、入力された第一クエリの物体の位置及びサイズにあわせて、検索結果の画像を補正する(1302)。すなわち、共起情報生成部111は、検索(1301)によって得られた画像の中の第1の物体(Object_A)が第一クエリの配置情報と一致するように画像を補正する。この補正処理には、拡大、縮小、回転、反転、平行移動など、様々な処理が含まれてよい。なお、ここでの補正処理は、検索(1301)によって得られた画像の中の第1の物体(Object_A)が第一クエリの配置情報と完全に一致するように補正する必要はなく、第1の物体(Object_A)が第一クエリの配置情報と類似する程度に補正されればよい。図13の補正処理の例では、補正後の画像は、第1の物体(Object_A)が第一クエリと同じサイズで、かつ同じ位置に配置された画像となる。本実施例では、共起情報生成部111が、このような補正を行った後の補正画像を用いて、第一クエリの第1の物体(Object_A)と他の物体との共起性マップを作成する。
 図14は、位置補正を導入した共起情報生成の処理フローである。基本的な処理フローは、図9と同様であるため、同じ処理については図9と同じ符号を付し、説明を省略する。なお、図14の前に実行する検索処理(図8のS802)では、配置情報を条件に使用せずに検索が実行される。図14に示すように、共起情報生成部111は、物体データを取得した後、第一クエリの物体のサイズ及び配置の情報を取得し、図8のS802で得られた画像の各物体の位置を補正する。共起情報生成部111は、補正された各物体の位置関係を用いて、共起性マップを更新する(S906)。
 上記の処理によれば、画像データベース109に十分に画像が蓄積されていない場合でも、有用な共起情報を得ることができる。特に、図13の1302に示すように、補正処理により各物体の配置情報が変更され得るが、第一クエリの物体と他の物体との共起性は維持されるため、有用な共起情報を得ることができる。結果として、画像検索装置104は、第一クエリの物体と相関関係がある第2の物体の候補を提案できる。
 なお、上記の補正処理は、ユーザの指定により実行されてもよいし、画像検索装置104によって自動的に実行されてもよい。例えば、画像データベース109が所定の蓄積量よりも小さいとき、画像検索装置104が、その蓄積量を判定して自動的に補正処理を実行してもよい。また、別の例として、第2の物体の候補として取得できた物体数が所定の数よりも小さいとき、画像検索装置104が、その物体数を判定して自動的に補正処理を実行して、再度第2の物体の候補を提示してもよい。
 本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。上記実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることもできる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例の構成の一部について、他の構成を追加・削除・置換することもできる。
 上述の例では、画像検索について説明したが、本発明は、動画の検索にも適用できる。例えば、上述の通り、動画データはフレーム(静止画データ形式)の集合で画像データベースに蓄積されている。したがって、画像検索部113は、上記で説明した検索クエリに類似する動画像のフレームを検索することにより、動画の検索を実現してもよい。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)に記憶させることが可能である。非一時的なコンピュータ可読媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
 上記の実施例において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100   …画像検索システム
101   …画像記憶装置
102   …入力装置
103   …表示装置
104   …画像検索装置
105   …画像入力部
106   …物体検出部
107   …特徴量抽出部
108   …カテゴリ推定部
109   …画像データベース
110   …クエリ入力部
111   …共起情報生成部
112   …クエリ候補推定部
113   …画像検索部
201   …プロセッサ
202   …記憶装置
203   …処理プログラム
204   …ネットワークインターフェース装置
300   …画像テーブル
310   …物体テーブル
 

Claims (15)

  1.  プロセッサと、
     前記プロセッサに接続され、画像データベースを記憶する記憶部と、
     前記プロセッサに接続される表示部とを備え、
     前記プロセッサは、
     前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得し、
     前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクトとの相関関係を示す第1の共起情報を取得し、
     前記第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力する、画像処理装置。
  2.  請求項1に記載の画像処理装置において、
     前記配置情報は、前記第1のオブジェクトの大きさ及び位置情報を含むことを特徴とする画像処理装置。
  3.  請求項1に記載の画像処理装置において、
     前記第1の共起情報は、前記第1のオブジェクトが画像のある領域に存在したときの他のオブジェクトの出現確率を領域ごとに表すものであることを特徴とする画像処理装置。
  4.  請求項1に記載の画像処理装置において、
     前記プロセッサは、
     前記表示部を介して前記第2のオブジェクトの入力を受け付けると、前記表示部での前記第2のオブジェクトの配置情報を取得し、
     前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報と前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクト及び前記第2のオブジェクトの双方との相関関係を示す第2の共起情報を取得し、
     前記第2の共起情報に基づく第3のオブジェクトの候補を前記表示部へ出力することを特徴とする画像処理装置。
  5.  請求項1に記載の画像処理装置において、
     前記プロセッサは、
     前記表示部を介して前記第2のオブジェクトの入力を受け付けると、前記表示部での前記第2のオブジェクトの配置情報を取得し、
     前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第2のオブジェクトとの相関関係を示す第2の共起情報を取得し、
     前記第2の共起情報に基づく第3のオブジェクトの候補を前記表示部へ出力することを特徴とする画像処理装置。
  6.  請求項1に記載の画像処理装置において、
     前記プロセッサは、
     前記表示部を介して、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報と前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを含む検索クエリを用いた画像検索の指示を受け付けると、前記第1のオブジェクトと前記第2のオブジェクトを含む合成画像を作成し、
     前記合成画像を用いて前記検索クエリに類似する画像を前記画像データベースから検索し、検索結果を前記表示部へ表示することを特徴とする画像処理装置。
  7.  請求項6に記載の画像処理装置において、
     前記プロセッサは、更に、
     前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報を含む第1クエリに類似する画像を前記画像データベースから検索し、前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報を含む第2クエリに類似する画像を前記画像データベースから検索し、
     前記合成画像による検索結果と、前記第1クエリによる検索結果と、前記第2クエリによる検索結果とを統合し、統合した結果を前記表示部へ表示することを特徴とする画像処理装置。
  8.  請求項1に記載の画像処理装置において、
     前記プロセッサは、
     前記表示部を介して、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報と前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報とを含む検索クエリを用いた画像検索の指示を受け付けると、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報を含む第1クエリに類似する画像を前記画像データベースから検索し、前記第2のオブジェクトと前記第2のオブジェクトの前記配置情報を含む第2クエリに類似する画像を前記画像データベースから検索し、
     前記第1クエリによる検索結果と前記第2クエリによる検索結果を統合し、統合した結果を前記表示部へ表示することを特徴とする画像処理装置。
  9.  請求項8に記載の画像処理装置において、
     前記プロセッサは、
     前記第1のオブジェクトの大きさ及び前記第2のオブジェクトの大きさに基づいて、前記画像データベースを検索する際に使用する特徴量を前記第1クエリと前記第2クエリとで切り替えることを特徴とする画像処理装置。
  10.  請求項8に記載の画像処理装置において、
     前記プロセッサは、
     前記第1のオブジェクト及び前記第2のオブジェクトの入力順序に基づいて、前記第1クエリと前記第2クエリとに重み付けすることを特徴とする画像処理装置。
  11.  請求項1に記載の画像処理装置において、
     前記プロセッサは、
     前記第1のオブジェクトの前記配置情報が変更されると、前記第1のオブジェクトと前記第1のオブジェクトの前記変更された配置情報とを用いて、前記第1の共起情報を再計算し、
     前記再計算された第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力することを特徴とする画像処理装置。
  12.  請求項1に記載の画像処理装置において、
     前記プロセッサは、
     前記第1のオブジェクトを用いて前記画像データベースを検索し、
     前記検索によって得られた画像の中の前記第1のオブジェクトが前記第1のオブジェクトの前記配置情報と類似するように前記画像を補正し、
     前記補正された画像を用いて前記第1の共起情報を取得することを特徴とする画像処理装置。
  13.  プロセッサと、
     前記プロセッサに接続され、少なくともクエリ入力領域を有する画像検索インタフェースを表示する表示部とを備え、
     前記プロセッサは、
     前記クエリ入力領域に第1のオブジェクトが入力されると、第2のオブジェクトの候補を前記画像検索インタフェースに表示し、
     前記第2のオブジェクトが選択されると、前記第2のオブジェクトを前記クエリ入力領域に表示する、画像検索インタフェース表示装置。
  14.  請求項13に記載の画像検索インタフェース表示装置において、
     前記プロセッサは、
     前記クエリ入力領域のある領域の指定を受け取った後に前記第2のオブジェクトの候補を前記画像検索インタフェースに表示するか、又は、
     前記クエリ入力領域に第1のオブジェクトが入力された後に前記第2のオブジェクトの候補及び前記第2のオブジェクトの配置の候補を前記画像検索インタフェースに表示する
    ことを特徴とする画像検索インタフェース表示装置。
  15.  プロセッサと、前記プロセッサに接続され、画像データベースを記憶する記憶部と、前記プロセッサに接続される表示部とを備える情報処理装置における画像検索インタフェースの表示方法であって、
     前記プロセッサが、前記表示部を介して第1のオブジェクトの入力を受け付けると、前記表示部での前記第1のオブジェクトの配置情報を取得するステップと、
     前記プロセッサが、前記第1のオブジェクトと前記第1のオブジェクトの前記配置情報とを用いて、前記画像データベースに基づく前記第1のオブジェクトとの相関関係を示す第1の共起情報を取得するステップと、
     前記プロセッサが、前記第1の共起情報に基づく第2のオブジェクトの候補を前記表示部へ出力するステップと
    を含む画像検索インタフェースの表示方法。
     
     
PCT/JP2015/085347 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 WO2017104043A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/062,308 US10872114B2 (en) 2015-12-17 2015-12-17 Image processing device, image retrieval interface display device, and method for displaying image retrieval interface
PCT/JP2015/085347 WO2017104043A1 (ja) 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法
JP2017555943A JP6615225B2 (ja) 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法
CN201580085350.5A CN108431800B (zh) 2015-12-17 2015-12-17 图像处理装置以及图像检索界面的显示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/085347 WO2017104043A1 (ja) 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法

Publications (1)

Publication Number Publication Date
WO2017104043A1 true WO2017104043A1 (ja) 2017-06-22

Family

ID=59056235

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/085347 WO2017104043A1 (ja) 2015-12-17 2015-12-17 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法

Country Status (4)

Country Link
US (1) US10872114B2 (ja)
JP (1) JP6615225B2 (ja)
CN (1) CN108431800B (ja)
WO (1) WO2017104043A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200096426A (ko) * 2019-02-04 2020-08-12 컨셉 주식회사 동체 검출 장치, 동체 검출 방법, 동체 검출 프로그램

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789288B1 (en) * 2018-05-17 2020-09-29 Shutterstock, Inc. Relational model based natural language querying to identify object relationships in scene
JP2020091662A (ja) * 2018-12-05 2020-06-11 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7331924B2 (ja) * 2019-05-27 2023-08-23 日本電気株式会社 検索装置、制御方法、及びプログラム
CN110442806B (zh) * 2019-08-05 2022-04-26 百度在线网络技术(北京)有限公司 用于识别图像的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024256A (ja) * 2000-07-03 2002-01-25 Fujitsu Ltd 情報処理システムおよび情報入力支援プログラム記憶媒体
JP2007122694A (ja) * 2005-09-30 2007-05-17 Fujifilm Corp 画像検索装置および方法並びにプログラム
JP2007316798A (ja) * 2006-05-24 2007-12-06 Hitachi Ltd 検索装置
JP2010522385A (ja) * 2007-03-28 2010-07-01 アリババ グループ ホールディング リミテッド 関連キーワードを表示する方法およびシステム
JP2010181991A (ja) * 2009-02-04 2010-08-19 Fujifilm Corp 画像検索指令システムおよびその動作制御方法
JP2011197892A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 画像検索システム
JP2013092955A (ja) * 2011-10-27 2013-05-16 Hitachi Ltd 映像解析装置及びシステム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381365B2 (en) * 1997-08-22 2002-04-30 Minolta Co., Ltd. Image data processing apparatus and image data processing method
US6574378B1 (en) * 1999-01-22 2003-06-03 Kent Ridge Digital Labs Method and apparatus for indexing and retrieving images using visual keywords
US7386170B2 (en) * 2000-06-30 2008-06-10 Texas Instruments Incorporated Image object ranking
CN100535906C (zh) * 2007-06-28 2009-09-02 北京交通大学 融合伪相关反馈与检索技术的自动图像标注方法
US8059891B2 (en) * 2007-12-30 2011-11-15 Intel Corporation Markov stationary color descriptor
CN102016909A (zh) * 2008-12-19 2011-04-13 松下电器产业株式会社 图像检索装置以及图像检索方法
CN101996210A (zh) * 2009-08-31 2011-03-30 国际商业机器公司 用于搜索电子地图的方法和系统
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
JP5493011B2 (ja) * 2010-11-30 2014-05-14 富士フイルム株式会社 撮像装置及びその合焦位置検出方法
JP5830784B2 (ja) * 2011-06-23 2015-12-09 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
JP2013084074A (ja) * 2011-10-07 2013-05-09 Sony Corp 情報処理装置、情報処理サーバ、情報処理方法、情報抽出方法及びプログラム
US8768048B1 (en) * 2011-11-18 2014-07-01 Google Inc. System and method for exploiting segment co-occurrence relationships to identify object location in images
CN102663010A (zh) * 2012-03-20 2012-09-12 复旦大学 基于标注语义的个性化图像浏览与推荐方法及系统
US20140193077A1 (en) * 2013-01-08 2014-07-10 Canon Kabushiki Kaisha Image retrieval apparatus, image retrieval method, query image providing apparatus, query image providing method, and program
CN103530405B (zh) * 2013-10-23 2016-08-31 天津大学 一种基于分层结构的图像检索方法
CN103810299B (zh) * 2014-03-10 2017-02-15 西安电子科技大学 基于多特征融合的图像检索方法
US20150363660A1 (en) * 2014-06-12 2015-12-17 Asap54.Com Ltd System for automated segmentation of images through layout classification
CN104794429B (zh) * 2015-03-23 2018-10-23 中国科学院软件研究所 一种面向监控视频的关联可视分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024256A (ja) * 2000-07-03 2002-01-25 Fujitsu Ltd 情報処理システムおよび情報入力支援プログラム記憶媒体
JP2007122694A (ja) * 2005-09-30 2007-05-17 Fujifilm Corp 画像検索装置および方法並びにプログラム
JP2007316798A (ja) * 2006-05-24 2007-12-06 Hitachi Ltd 検索装置
JP2010522385A (ja) * 2007-03-28 2010-07-01 アリババ グループ ホールディング リミテッド 関連キーワードを表示する方法およびシステム
JP2010181991A (ja) * 2009-02-04 2010-08-19 Fujifilm Corp 画像検索指令システムおよびその動作制御方法
JP2011197892A (ja) * 2010-03-18 2011-10-06 Hitachi Ltd 画像検索システム
JP2013092955A (ja) * 2011-10-27 2013-05-16 Hitachi Ltd 映像解析装置及びシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200096426A (ko) * 2019-02-04 2020-08-12 컨셉 주식회사 동체 검출 장치, 동체 검출 방법, 동체 검출 프로그램
KR102344227B1 (ko) * 2019-02-04 2021-12-27 컨셉 주식회사 동체 검출 장치, 동체 검출 방법, 동체 검출 프로그램

Also Published As

Publication number Publication date
US10872114B2 (en) 2020-12-22
CN108431800A (zh) 2018-08-21
CN108431800B (zh) 2021-12-14
JPWO2017104043A1 (ja) 2018-08-02
US20180373737A1 (en) 2018-12-27
JP6615225B2 (ja) 2019-12-04

Similar Documents

Publication Publication Date Title
US20220075806A1 (en) Natural language image search
JP6615225B2 (ja) 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法
JP4540970B2 (ja) 情報検索装置及びその方法
EP2612263B1 (en) Sketch-based image search
JP6278893B2 (ja) 対話型マルチモード画像検索
US8416982B2 (en) Image processing apparatus, image processing method and program
US11703333B2 (en) Method and apparatus for determining route, device and computer storage medium
JP2012108961A (ja) 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法
US8243988B1 (en) Clustering images using an image region graph
US10176244B2 (en) Text characterization of trajectories
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JPWO2007091587A1 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
WO2016147260A1 (ja) 画像検索装置、及び画像を検索する方法
WO2022252822A1 (zh) 信息展示方法、装置、设备及介质
CN106407268B (zh) 一种基于覆盖率最优化法的内容检索方法及系统
JP2008102594A (ja) コンテンツの検索方法及び検索装置
US10331739B2 (en) Video search apparatus, video search method, and non-transitory computer readable medium
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
Abbasi et al. Large scale tag recommendation using different image representations
JP3985826B2 (ja) 画像検索方法及びその装置
US20230153338A1 (en) Sparse embedding index for search
JP6336827B2 (ja) 画像検索装置、画像検索方法および検索システム
KR102353338B1 (ko) 내용 분석을 기반으로 동영상을 검색하는 방법 및 시스템
KR20100001684A (ko) 얼굴 분석을 이용한 가족 검색 시스템 및 방법
Zhang et al. Sign language video retrieval based on trajectory

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15910733

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017555943

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15910733

Country of ref document: EP

Kind code of ref document: A1