WO2016139964A1 - 注目領域抽出装置および注目領域抽出方法 - Google Patents

注目領域抽出装置および注目領域抽出方法 Download PDF

Info

Publication number
WO2016139964A1
WO2016139964A1 PCT/JP2016/050344 JP2016050344W WO2016139964A1 WO 2016139964 A1 WO2016139964 A1 WO 2016139964A1 JP 2016050344 W JP2016050344 W JP 2016050344W WO 2016139964 A1 WO2016139964 A1 WO 2016139964A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
image
region
partial
degree
Prior art date
Application number
PCT/JP2016/050344
Other languages
English (en)
French (fr)
Inventor
翔 阮
安田 成留
艶萍 呂
湖川 盧
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Priority to DE112016001039.7T priority Critical patent/DE112016001039T5/de
Publication of WO2016139964A1 publication Critical patent/WO2016139964A1/ja
Priority to US15/683,997 priority patent/US20170352162A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing

Definitions

  • the present invention relates to a technique for extracting a region of interest from an image.
  • an attention area an image area expected to be noticed by a human or an image area to be noticed
  • the attention area detection is also called salient area detection (SaliencyaliDetection), objectness detection (Objectness Detection), foreground detection (Foreground Detection), attention detection (Attention Detection), and the like.
  • a pattern of a region to be detected is learned based on a large number of image data about a learning target, and a region of interest is detected based on the learning result.
  • a feature type is learned and determined in advance based on a plurality of image data to be learned, and the determined feature type and target image data for which a saliency is calculated. Based on the above, it is described that features of each part in the target image data are extracted.
  • Non-Patent Document 1 models information transmitted to the brain when a region called a receptive field in a retinal ganglion cell in the retina of an eye is stimulated by light.
  • the receptive field is composed of a central area and a peripheral area.
  • a model that quantifies a place where a signal becomes strong (a place to draw attention) due to stimulation to the central area and the peripheral area is constructed. is doing.
  • the model-based algorithm can detect a region of interest without prior knowledge, but has a drawback that it is difficult to construct a model and the detection accuracy of the region of interest is not sufficient. Therefore, in any method, it is not possible to accurately extract the attention area without limiting the detection target.
  • any of the learning-based and model-based algorithms when a plurality of regions are detected from one image, it is possible to determine which region is more important and more interested by people. Can not. When a plurality of areas are detected, it is desirable to rank the degree of interest.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique capable of accurately extracting a region of interest from an image and calculating the degree of interest.
  • an image similar to a partial region extracted from an input image is searched from an image database, and the interest level of the partial region is obtained using a search result.
  • the interest level of the partial region is obtained using a search result.
  • the attention area extracting apparatus includes an extracting unit that extracts one or a plurality of partial areas from an input image, and for each partial area extracted by the extracting unit, Search means for searching for a similar image from an image database storing a plurality of images, and interest level determination means for determining the interest level of each partial region based on a search result by the search means.
  • the partial area is an image area expected to be noticed by humans in the input image or a candidate of an image area to be noticed, that is, a candidate for an attention area.
  • the extraction of the partial area by the extracting means can be performed using any existing method.
  • the extraction means extracts the partial region by, for example, a region of interest extraction method using a learning-based or model-based algorithm.
  • the image database is a device that stores a plurality of image data in a searchable manner.
  • the image database may be constructed integrally with the attention area extraction device, or may be constructed separately from the attention area extraction device.
  • the image database can be constructed in a storage device included in the attention area extraction device.
  • the image database can be constructed in another device that can be accessed by the attention area extracting device via the communication network.
  • the creator / manager of the image database does not have to be the same as the creator / manager of the attention area extracting apparatus.
  • an image database managed by a third party and published on the Internet can be used.
  • the search unit searches the image database for an image similar to the partial area extracted by the extraction unit, and acquires a search result. Specifically, the search unit creates an inquiry (query) for obtaining an image similar to the partial area, transmits the query to the image database, and acquires a response to the query from the image database. Search for similar images in the image database can be performed using any existing technique. For example, a similar image can be searched using an algorithm that calculates a similarity based on a comparison between all areas of an image, a comparison between an entire image and a part, or a comparison between an image part and a part.
  • the interest level determination means determines the interest level for each partial region based on the search result by the search means.
  • the degree of interest is an index representing the level of interest that a human is expected to have in the partial area, or the level of interest that the human should have in the partial area.
  • a high degree of interest in a partial area means that a human should have a higher interest in the partial area or a higher interest in the partial area.
  • the degree of interest may be determined for all persons, may be determined for a group of persons (persons having specific attributes), or may be determined for specific individuals. Good.
  • the interest level determination means preferably determines the interest level of the partial area using statistical information of an image similar to the partial area searched by the search means (hereinafter also simply referred to as a similar image).
  • the statistical information is information obtained by performing statistical processing on the information obtained as a result of the search.
  • the number of images similar to the partial area is adopted as the statistical information, and the degree of interest can be determined higher as the number of similar images increases. This is because an object (target) having a larger number stored in the image database is considered to be more likely to be noticed.
  • the number of similar images may be considered to represent the probability (accuracy) that the region extracted by the extraction unit is the attention region. Therefore, since it can be said that the partial region with a small number of similar images is not detected as a region of interest in nature, the interest level determination means does not determine the interest level for a partial region with a number of similar images less than the threshold value. It is also preferable.
  • tag information associated with similar images can be employed as statistical information.
  • the tag information is information representing the content and characteristics of image data specified by a natural language and stored in association with image data in the image database.
  • the tag information may be embedded and stored in the image data, or may be stored as a file different from the image data.
  • Tag information may be added in any way. For example, tag information may be manually input by a human, or tag information may be automatically added by image processing by a computer.
  • the degree of interest determination means determine the degree of interest of the partial region higher as the convergence of the meaning of the tag information associated with the similar image is higher.
  • the convergence of the meaning of the tag information is preferably performed by natural language processing. For example, even if the wording of the tag information is different, it is preferable to determine that the meanings are close if they are the same concept or a similar concept.
  • an average value, mode value, median value, median value, variance, standard deviation, etc. of the similarity between the partial area and the image similar to the partial area can be adopted.
  • statistical information not only the similarity of similar images, but also the size (area or number of pixels) of the similar images, the position in the image, the color, and the like can be employed.
  • the size of the similar image the size of the entire similar image, the size of the region similar to the partial region (absolute size or relative size with respect to the entire image), or the like can be adopted.
  • the interest level determination means can determine the interest level based on the average value, mode value, median value, intermediate value, variance, standard deviation, and the like of these pieces of information.
  • Meta information includes attribute information about the image itself (size, color space, etc.), image shooting conditions (shooting date, shutter speed, aperture, ISO sensitivity, metering mode, presence / absence of flash, focal length, shooting position, etc.) Is included.
  • the interest level determination means may determine the interest level based on the meta information.
  • the interest level determination means can determine the interest level of the partial area based on the size or position of the partial area.
  • the size of the partial area may be an absolute size or a relative size with respect to the input image.
  • the degree of interest determination means may determine the degree of interest higher as the size of the partial area is larger, or may determine the degree of interest as higher as the size of the partial area is smaller.
  • the degree-of-interest determination means may determine the degree of interest higher as the partial area is closer to the center of the input image, or may determine the degree of interest higher as the partial area is closer to the periphery of the input image.
  • the interest level determination means preferably determines the interest level in consideration of the size or position of the partial area and also the type of the object included in the partial area.
  • the interest level determination means obtains a plurality of interest levels based on the plurality of information described above, and determines the final interest level by integrating the plurality of interest levels.
  • the method of integrating a plurality of interest levels is not particularly limited. For example, the product or weighted average of all the interest levels can be used as the final interest level.
  • the attention area extracting apparatus further includes a calculation criterion acquisition unit that receives an input of a calculation criterion for the interest level, and the interest level determination unit calculates the first according to a predetermined calculation criterion. It is also preferable to calculate the final interest level based on the interest level and the second interest level calculated according to the calculation criterion acquired by the calculation criterion acquisition unit.
  • the predetermined calculation standard is a calculation standard for interest level for general humans, that is, a general-purpose calculation standard.
  • the calculation criterion acquired by the calculation criterion acquisition unit is a calculation criterion according to the situation, for example, a calculation criterion according to a user who views the image, or a calculation criterion according to an application using the extracted attention area. It is preferable.
  • the attention area extracting apparatus further includes integration means for integrating a plurality of adjacent partial areas as one partial area among the partial areas included in the input image.
  • integration means for integrating a plurality of adjacent partial areas as one partial area among the partial areas included in the input image.
  • the term “partial regions are close to each other” includes the case where the partial regions are adjacent to each other and the case where the distance between them is within a predetermined distance (number of pixels). The predetermined distance may be determined according to the size of the partial area, the type of the object included in the partial area, and the like.
  • the attention area extracting apparatus preferably further includes output means for outputting the position of the partial area included in the input image and the degree of interest for each partial area.
  • the output of the position of the partial area is displayed, for example, by superimposing a frame line indicating the location of the partial area on the input image, or by displaying the partial area with a color or brightness different from those of other areas. You can do it.
  • the degree of interest may be output by displaying a numerical value of the degree of interest or by displaying a marker having a color or size corresponding to the degree of interest.
  • the output means does not display the interest level or display the partial area for the partial area whose interest level is less than the threshold value, but only the partial area whose interest level is equal to or higher than the threshold level. Output can also be performed.
  • the present invention can be understood as an attention area extracting device including at least a part of the above means.
  • the present invention can also be understood as an attention area extraction method or interest level calculation method.
  • it can also be grasped as a computer program for causing a computer to execute each step of these methods, or a computer-readable storage medium storing the program in a non-temporary manner.
  • FIG. 1A and FIG. 1B are respectively a diagram illustrating a hardware configuration and a functional block of the attention area extraction device according to the first embodiment.
  • FIG. 2 is a flowchart showing a flow of attention area extraction processing in the first embodiment.
  • 3A and 3B are diagrams illustrating an example of an input image and an example of a region of interest extracted from the input image, respectively.
  • FIG. 4 is a conceptual diagram illustrating interest level calculation of a region of interest.
  • FIGS. 5A and 5B are diagrams illustrating an example of a similar image search result and an example of interest level calculation based on the search result, respectively.
  • FIG. 6A and FIG. 6B are a flowchart showing a flow of interest level output processing and an example of interest level output, respectively.
  • FIG. 7 is a flowchart showing a flow of attention area extraction processing in the second embodiment.
  • FIG. 8 is a diagram illustrating functional blocks of the attention area extraction device according to the third embodiment.
  • FIG. 9 is a flowchart showing a flow of attention area extraction processing in the third embodiment.
  • FIG. 10 is a diagram illustrating functional blocks of the attention area extraction device according to the fourth embodiment.
  • FIG. 11 is a flowchart showing a flow of attention area extraction processing in the fourth embodiment.
  • FIG. 12A and FIG. 12B are diagrams showing the attention area integration processing before and after the attention area integration processing in the fourth embodiment, respectively.
  • the attention area extraction device is capable of accurately extracting a attention area from an input image and calculating the interest level of each attention area by performing a similar image search on an image database. It is. By searching the image database, it is possible to use information that cannot be obtained from only the input image, and it is possible to extract a region of interest and calculate the interest level with high accuracy.
  • FIG. 1A is a diagram illustrating a hardware configuration of the attention area extracting device 10 according to the present embodiment.
  • the attention area extraction device 10 includes an image input unit 11, a calculation device 12, a storage device 13, a communication device 14, an input device 15, and an output device 16.
  • the image input unit 11 is an interface that receives image data from the camera 20. In this embodiment, the image data is directly received from the camera 20, but the image data may be received via the communication device 14, or the image data may be received via a recording medium.
  • the arithmetic device 12 is a general-purpose processor such as a CPU (Central Processing Unit), and executes a program stored in the storage device 13 to realize functions to be described later.
  • CPU Central Processing Unit
  • the storage device 13 includes a main storage device and an auxiliary storage device, stores a program executed by the arithmetic device 12, and stores image data and temporary data during execution of the program.
  • the communication device 14 is a device for the attention area extraction device 10 to communicate with an external computer. The form of communication may be wired or wireless, and the communication standard may be arbitrary. In the present embodiment, the attention area extraction device 10 accesses the image database 30 via the communication device 14.
  • the input device 15 includes a keyboard and a mouse, and is a device for a user to input an instruction to the attention area extraction device.
  • the output device 16 includes a display device, a speaker, and the like, and is a device for the attention area extraction device to output to the user.
  • the image database 30 is a computer including an arithmetic device and a storage device, and stores a plurality of image data so as to be searchable.
  • the image database 30 may be composed of one computer or a plurality of computers.
  • Various attribute information is associated with the image data stored in the image database 30 in addition to the image data itself (color information for each pixel).
  • a data file of image data can include various attribute information according to the Exif format.
  • the image database 30 can store attribute information stored in a file different from the data file of the image data in association with the image data.
  • Attribute information includes, for example, image size, color space, image shooting conditions (shooting date, shutter speed, aperture, ISO sensitivity, metering mode, flash presence, focal length, shooting position, etc.), image content and features Information (tag information) described in natural language is included. These pieces of attribute information are meta information about image data.
  • the image database 30 is open to the public via a public network such as the Internet, and accepts registration and search of image data.
  • Who is registered in the image database 30 and the number of registered images are not particularly limited.
  • an image of an object that should be noted by the user of the attention area extraction device 10 may be registered.
  • the registered image is an image suitable for the attention area extraction process, and therefore the number of registered images may not be so large.
  • a third party general user or a search service provider may register the image.
  • the registered image may not be an image suitable for the attention area extraction process. Therefore, in such a case, it is preferable that many images are registered in the image database 30.
  • the arithmetic device 12 implements a function as shown in FIG. 1B by executing a program. That is, the arithmetic device 12 provides the functions of the region extraction unit 110, the similar image search unit 120, the interest level calculation unit 130, and the output unit 140. The processing content of each part will be described below.
  • FIG. 2 is a flowchart showing the flow of attention area extraction processing executed by the attention area extraction device 10.
  • the attention area extraction device 10 acquires an image (input image).
  • the input image may be acquired from the camera 20 via the image input unit 11, acquired from another computer via the communication device 14, or acquired from a storage medium via the storage device 13. Also good.
  • FIG. 3A is a diagram illustrating an example of the input image 400.
  • the region extraction unit 110 extracts a region of interest (partial region) from the input image.
  • the attention area extraction algorithm used by the area extraction unit 110 is not particularly limited, and any existing algorithm including a learning base algorithm and a model base algorithm can be employed. Further, the algorithm to be employed need not be limited to one, and the attention area may be extracted according to a plurality of algorithms. Note that it is preferable to use a model-based extraction algorithm because a learning-based extraction algorithm can extract only learned objects.
  • FIG. 3B is a diagram illustrating an example of a region of interest extracted from the input image 400.
  • four attention areas 401 to 404 are extracted from the input image 400.
  • Area 401 is a vehicle
  • area 402 is a person
  • area 403 is a road sign.
  • the region 404 is not originally a region of interest, but is a region erroneously detected as a region of interest by the region extraction unit 110.
  • the similar image search unit 120 performs similar image search processing for each of the attention areas extracted in step S ⁇ b> 20, and the interest level of the attention area based on the search result. Is calculated (loop L1). More specifically, in step S ⁇ b> 30, the similar image search unit 120 issues a query for searching for an image similar to each region of interest to the image database 30 and acquires a search result from the image database 30. When the image database 30 receives the search query, the image database 30 searches the database for an image similar to the search image (image of the attention area) included in the search query, and transmits the search result. As a similar image search algorithm in the image database 30, any known algorithm can be adopted.
  • the image database 30 transmits the similar image obtained by the search and its attribute information to the attention area extracting apparatus 10 as a search result.
  • the interest level calculation unit 130 of the attention area extraction device 10 calculates the interest degree of the attention area based on the search result obtained from the image database 30.
  • the interest level calculation unit 130 calculates a plurality of individual interest levels (R1 to R4) based on the search result, and integrates the plurality of interest level scores to obtain a final interest level (total interest level). R is calculated.
  • the individual interest level is an interest level evaluated from different viewpoints.
  • the interest level (R1) based on the number of similar images matching the search
  • the interest level (R2) based on the average similarity of similar images
  • the degree of interest (R3) based on the relative size of the similar region in the image and the degree of interest (R4) based on the convergence of the meaning of the tag information are included.
  • the total interest level R is determined based on the individual interest levels R1 to R4, for example, it may be obtained as an average (including a weighted average) or a maximum or minimum value of the individual interest levels R1 to R4. Good.
  • the individual interest level shown here is an example, and a value determined according to a criterion other than the above based on the search condition may be used.
  • the degree of interest does not necessarily need to be calculated only from the search result, and may be calculated in consideration of the extraction region itself or the input image, for example.
  • FIG. 5A is a diagram illustrating an example of a search result in step S30.
  • search image an image having a similarity greater than or equal to a predetermined threshold
  • the image number 501 an image having a similarity greater than or equal to a predetermined threshold
  • the similarity 502 the overall size of the similar image 503, and the attention among the similar images
  • the size 504 of the area similar to the area and the tag information 505 stored in association with the similar image are shown, information other than these may be included in the search result.
  • FIG. 5B is a diagram illustrating an example of interest level calculation performed by the interest level calculation unit 130.
  • the degree of interest R1 based on the number of similar images that match the search is calculated higher as the number of search hits increases. As a result, the degree of interest is calculated higher for objects that are registered in the image database 30 more frequently.
  • the number of search hits used for calculating the interest level R1 may be the total number of similar images sent from the image database 30, or the number of search results whose similarity 502 is greater than or equal to a predetermined threshold. It may be.
  • the degree of interest R2 based on the average similarity of similar images is calculated higher as the average similarity of similarities 502 of similar images included in the search result is higher. Even if the number of search hits is large, if the similarity of the similar images is low, the object is not necessarily an object of high interest. Therefore, the accuracy of interest calculation can be improved by considering the average similarity.
  • the average similarity is used for calculating the interest level R2 here, it may be based on other statistics such as the mode, median, intermediate value, variance, standard deviation, and the like.
  • the degree of interest (R3) based on the relative size of the similar region in the similar image is calculated as the average value of the ratio of the size 504 of the similar region to the overall size 503 of the similar image included in the search result increases. As a result, the degree of interest is calculated higher for an object that is larger in the image. Note that the degree of interest R3 may be obtained by another criterion based on these values, in addition to the ratio of the overall size 503 of similar images and the size 504 of similar regions.
  • the degree of interest R4 based on the convergence of the meaning of the tag information is calculated higher as the convergence of the meaning of the tag information included in the search result is higher. As a result, the degree of interest is calculated higher for objects to which many people have tag information having the same meaning.
  • the convergence of meaning is preferably determined by natural language processing, and it is preferable that the convergence of meaning is determined to be high if the concept is the same or a similar concept even if the wording of the tag information is different.
  • the interest level calculation unit 130 can, for example, divide the meaning of the tag information included in the search result into several categories, and obtain the ratio of the number of elements in the maximum category as the interest level R4. In the example of tag information shown in FIG.
  • “automobile” and “car” have the same concept and can be classified into the same category. Since “sports car” is a subordinate concept of “car” and “car”, it can be classified into the same category as “car” and “car”. On the other hand, “park” is a different concept from “automobile” or the like, and is therefore classified into a different category. Since “motor show” is a concept related to “automobile” or the like, it may be classified into the same category as “automobile” or the like, or may be classified into a different category. Here, if “motor show” is also classified into the same category as “automobile” and the search results are the five items shown in FIG.
  • the tag information is a word is shown, but the tag information may be expressed as a sentence, and in that case, the meaning can be estimated by natural language processing.
  • the interest level calculation unit 130 calculates the total interest level R as described above based on the individual interest levels R1 to R4.
  • the individual interest levels R1 to R4 are calculated as large values for a region that is assumed to be noted by a general human. That is, the individual interest levels R1 to R4 are general-purpose interest levels for all human beings, and the total interest level R calculated based on these is also a general-purpose interest level.
  • step S50 the output unit 140 outputs the position of the attention area in the input image and the interest level for each attention area.
  • the output unit 140 does not output all the attention areas extracted in step S20, but outputs attention areas whose interest level is greater than or equal to a predetermined threshold Th R among these attention areas.
  • FIG. 6A is a flowchart for explaining the output process in step S50 in more detail.
  • the output unit 140 repeats the following process (loop L2) for all the attention areas extracted in step S20. First, the output unit 140 determines whether or not the degree of interest calculated for the attention area is greater than or equal to the threshold Th R (S51).
  • the position of the region of interest and the interest level are output (S52). If the interest level is less than the threshold Th R (S51-NO), The position of the region of interest and its interest level are not output.
  • FIG. 6B is a diagram illustrating an example of the output of the position of the region of interest and the degree of interest in the present embodiment.
  • the attention regions 401 to 403 have the interest level equal to or higher than the threshold Th R among the attention regions 401 to 404 shown in FIG. Therefore, the positions of the attention areas 401 to 403 are displayed by a frame display surrounding the areas. Also, beside the attention areas 401 to 403, the interest levels of these attention areas are displayed as numerical values on the interest level display sections 601 to 603. The attention area 404 is not displayed because the degree of interest is less than the threshold Th R. Note that this example is merely an example of display.
  • the position of the attention area can be specified by changing the luminance or color in the display of the attention area and the area other than the attention area.
  • the degree of interest does not need to be displayed numerically.
  • the degree of interest can be indicated by changing the color or shape of the symbol, and the thickness or color of the frame indicating the region of interest can be changed. You can also indicate the level of interest.
  • ⁇ Effect of this embodiment> by extracting a region of interest from an input image using information related to an image included in the image database, it is possible to perform extraction with higher accuracy than extracting a region of interest from only the input image.
  • various target objects can be extracted as attention areas without being limited to the target areas that can be extracted.
  • the extraction accuracy can be improved by using the search result of the image database.
  • FIG. 7 is a flowchart showing a flow of attention area extraction processing in the present embodiment.
  • the difference is that a process of comparing the number of similar images retrieved with a threshold Th N is added after the similar image retrieval step S30. If the number of similar images retrieved is greater than or equal to the threshold Th N (S35-YES), the interest level calculation unit 130 calculates the interest level for the attention area as in the first embodiment (S40). If the number of images is less than the threshold Th N (S35-NO), the interest level is not calculated for this attention area.
  • the degree of interest is not calculated for the region where the number of similar images hit by the search is small. It can be said that the fact that the number of similar images is small is an area that does not need to be noticed so much, and the above determination process can also be regarded as a process for determining whether the extraction accuracy of the attention area extraction process in step S20 is equal to or higher than a threshold value. .
  • the extraction accuracy does not necessarily have to be evaluated by the number of similar image search hits, but may be evaluated by other criteria.
  • the extraction accuracy and interest level of the region extracted by the conventional attention region extraction process (S20) are calculated based on different criteria using the similar image search results.
  • the degree of interest is calculated as a general-purpose measure for all human beings.
  • the attention area extracting apparatus 310 receives the interest level calculation criterion determined based on the prior knowledge, and also obtains the interest level specialized for the user.
  • FIG. 8 is a diagram showing functional blocks realized by the arithmetic device 12 of the attention area extracting device 310 according to the present embodiment executing a program.
  • the functional blocks of the attention area extraction device 310 are basically the same as those in the first embodiment (FIG. 1B), but the interest level calculation unit 130 includes a general interest level calculation unit 131, an interest level calculation reference acquisition unit. 132, a specific interest level calculation unit 133, and an interest level integration unit 134.
  • FIG. 9 is a flowchart showing the flow of attention area extraction processing executed by the attention area extraction device 310 according to this embodiment.
  • the same processes as those in the first embodiment (FIG. 2) are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the interest level calculation reference acquisition unit 132 acquires a reference for calculating the interest level (specific interest level) for a specific user or application.
  • the calculation criterion of the specific interest level varies depending on the user or application that uses the processing result of the attention area extraction device 310. For example, if there is prior knowledge that a certain user is particularly interested in a specific object, the degree of interest of the object should be greatly calculated for this user. Also, if the application prompts the user to pay attention to objects that are easily overlooked, calculate the interest level of objects that are difficult to see due to their size being small or similar to the surrounding colors in the input image. Should.
  • the interest level calculation standard acquisition unit 132 may receive the calculation standard itself from the outside, or acquires information specifying the user or application, and acquires the interest level calculation standard corresponding to the user or application by itself. May be. In the latter case, the interest level calculation reference acquisition unit 132 stores the interest level calculation reference for each user or application, or inquires and acquires an external device. In FIG. 9, the interest level calculation reference is acquired after step S20. However, the interest level calculation reference may be acquired before the input image acquisition process S10 or the attention area extraction process S20.
  • the point that the interest level calculation unit 130 calculates the interest level for each of the attention areas extracted from the input image in the loop L1 is the same as in the first embodiment. In the present embodiment, a specific calculation method is different from that of the first embodiment, and will be described below.
  • step S30 the similar image search unit 120 searches the image database 30 for an image similar to the attention area, and acquires the search result.
  • step S41 the general interest level calculation unit 131 calculates a general interest level using the search result and a predetermined calculation criterion. This process is the same as the interest level calculation process (S40) in the first embodiment.
  • step S ⁇ b> 42 the specific interest level calculation unit 133 uses the search results obtained by the similar image search unit 120 and the calculation criteria acquired by the interest level calculation reference acquisition unit 132 to specify the interest level for the specific user or application (specific Interest level).
  • This process is the same as the process by the general interest level calculation unit 131 except that the calculation criteria are different.
  • the specific interest level calculation unit 133 may calculate a plurality of individual interest levels according to different criteria, and may calculate the specific interest level by integrating the plurality of individual interest levels.
  • the interest level integration unit 134 integrates the general interest level calculated by the general interest level calculation unit 131 and the specific interest level calculated by the specific interest level calculation unit 133 to obtain a final interest level. Is calculated.
  • the method of integration may be arbitrary. For example, an average (simple average or weighted average) of general interest and specific interest may be used as the final interest. The weight in the weighted average may be fixed or may be changed according to the user or application.
  • the interest level integration unit 134 determines the weighted average of the individual interest levels obtained when calculating the general interest level and the specific interest level as the final interest level. The degree of interest may be determined.
  • the output process (S50) after the interest level for each region of interest is calculated is the same as in the first embodiment.
  • the degree of interest can be calculated higher for an object that the user is interested in using the tendency of interest of the user. Further, when it is difficult for the user to visually recognize specific colors, the degree of interest of an object having these colors can be calculated high. If the application is for detecting an object that is difficult to visually recognize, the degree of interest can be calculated higher for an object having a smaller size of the region of interest in the input image. In addition, when applying to moving images, the degree of interest of an object that suddenly appeared (an object that did not exist in the previous frame) is calculated to be high, or conversely, It is possible to calculate a high degree of interest.
  • the general interest level and the interest level specialized for a specific application are calculated, and these are integrated to obtain the final interest level. Can be calculated.
  • the general interest level calculation unit 130 the general interest level calculation unit 131 and the interest level integration unit 134 can be omitted.
  • the region of interest output processing is different compared to the first to third embodiments.
  • the attention areas adjacent to each other in the input image are integrated and output as one attention area.
  • FIG. 10 is a diagram showing functional blocks realized by the arithmetic device 12 of the attention area extracting device 410 according to the present embodiment executing a program.
  • the attention area extraction device 410 includes an area integration unit 150 in addition to the functions of the first embodiment.
  • FIG. 11 is a flowchart showing the flow of attention area extraction processing executed by the attention area extraction device 410 according to this embodiment.
  • the region integration unit 150 integrates a plurality of attention regions based on the positional relationship of the attention regions. For example, if the distance between the attention areas is equal to or smaller than a predetermined threshold Th D , the area integration unit 150 integrates these attention areas.
  • the distance between the attention areas may be defined as the distance between the centers (number of pixels), or may be defined as the distance between the closest border portions.
  • the threshold value Th D may be a fixed value, or may vary according to the size of the attention area and the object type in the attention area.
  • FIG. 12A is a diagram showing attention areas 1201 to 1203 extracted from the input image 1200 in step S20. While the attention area 1201 is far from other attention areas, the attention area 1202 and the attention area 1203 are short. Therefore, the region integration unit 150 integrates the attention region 1202 and the attention region 1203.
  • FIG. 12B shows an image 1200 after the integration process. As shown in the figure, the attention area 1202 and the attention area 1203 are integrated into one attention area 1204.
  • the integrated attention area 1204 is a minimum rectangle including the attention area 1202 and the attention area 1203, but the integrated attention area 1204 may be generated by a method different from this.
  • attention regions with a low interest level need not be integrated, and only when the interest level of the attention region satisfies a predetermined relationship (for example, the average interest level is equal to or greater than a threshold).
  • the areas may be integrated. That is, the region integration unit 150 may determine whether to integrate based on the interest level of the attention region in addition to the distance between the attention regions. Further, the region integration unit 150 may integrate three or more attention regions into one region.
  • the area integration unit 150 When integrating a plurality of attention areas, the area integration unit 150 also determines the degree of interest in the attention area after integration.
  • the interest level of the attention area after the integration is preferably, for example, an average value or a maximum value of the interest degree regarding the integrated attention area, but may be determined by other methods.
  • the interest level output process of the attention area in step S50 is the same as the process in the first embodiment except that the attention area output process is performed on the attention area after integration.
  • the number of attention areas to be output can be suppressed by integrating a plurality of attention areas that are close to each other. Further, in determining whether or not to integrate the regions, the regions can be more appropriately integrated by adopting the interest level using the search result of the image database.
  • the image database is configured as a device different from the attention area extraction device.
  • the image database may be configured integrally with the attention region extraction device.
  • the image data included in the image database may be registered by the manufacturer of the attention area extracting device, or may be registered by the user.
  • the attention area extraction apparatus may use a plurality of image databases including an image database inside the apparatus and an image database outside the apparatus.
  • the method for calculating the degree of interest described above is an example, and in the present invention, if the degree of interest is calculated using a search result obtained by searching for an image similar to the region of interest, the method for calculating the degree of interest is not particularly limited.
  • the degree of interest is preferably calculated using statistical information of the search results.
  • the search result statistical information includes the number of search hits, the similarity statistic, the size of the similar image size, the position of the region similar to the search image in the similar image, the convergence of the meaning indicated by the tag information, etc. included.
  • the degree of interest can be calculated based on the statistic of meta information.
  • the statistic is an amount obtained by performing statistical processing on a plurality of data, and typically includes an average value, a mode value, a median value, an intermediate value, a variance, a standard deviation, and the like. included.
  • the interest level of the attention area can be calculated using information other than the result of the similar image search. For example, it can be calculated based on the size and color of the attention area itself, the position of the attention area in the input image, and the like.
  • the input image is assumed to be a still image, but the input image may be a moving image (a plurality of still images).
  • the region extraction unit 110 may extract the attention region using an existing algorithm that extracts the attention region from the moving image.
  • the interest level calculation unit 130 can also calculate the interest level in consideration of the temporal change in the position of the attention area. For example, the moving speed and moving direction of the attention area can be considered. The degree of interest may be calculated higher or lower as the moving speed of the region of interest increases.
  • the interest level may be calculated based on the moving direction itself, or the interest level may be calculated based on variations in the moving direction.
  • the attention area extraction apparatus can be implemented as an arbitrary information processing apparatus (computer) such as a desktop computer, a notebook computer, a slate computer, a smartphone, a mobile phone, a digital camera, or a digital video camera.
  • a desktop computer such as a desktop computer, a notebook computer, a slate computer, a smartphone, a mobile phone, a digital camera, or a digital video camera.
  • Region of interest extraction device 20 Camera
  • Image database 110 Region extraction unit
  • 120 Similar image search unit
  • Interest level calculation unit 140 Output unit
  • Region integration unit 400 Input Images 401, 402, 403, 404: attention area 601, 602, 603: interest display section 1200: input image 1201, 1202, 1203: attention area (before integration processing)
  • 1204 Region of interest (after integration processing)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

注目領域抽出装置は、入力画像から1つまたは複数の部分領域を抽出する抽出手段と、前記抽出手段によって抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索手段と、前記検索手段による検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定手段と、を備える。これにより、画像中から注目領域を精度良く抽出し、かつその関心度を算出できる。

Description

注目領域抽出装置および注目領域抽出方法
 本発明は、画像から注目領域を抽出する技術に関する。
 従来、画像中の注目領域(人間が注目すると予想される画像領域あるいは注目すべき画像領域)を検出(抽出)する様々な既存技術が存在する。なお、注目領域検出は、顕著領域検出(Saliency Detection)、オブジェクトネス検出(Objectness Detection)、前景検出(Foreground Detection)、アテンション検出(Attention Detection)などとも呼ばれる。これらの既存技術は、学習ベースのアルゴリズムとモデルベースのアルゴリズムの2つに大別される。
 学習ベースのアルゴリズムでは、学習対象についての多数の画像データに基づいて検出したい領域のパターンを学習し、この学習結果に基づいて注目領域の検出が行われる。例えば、特許文献1には、学習対象となる複数の画像データに基づいて特徴の種類を事前に学習して決定しておき、決定された特徴の種類と顕著度の算出対象となる対象画像データとに基づいて、当該対象画像データにおける各部の特徴を抽出することが記載されている。
 モデルベースのアルゴリズムでは、画像を見たときの人間の脳の反応モデルを数式化し、この反応モデルを用いて画像中の注目領域が抽出される。例えば、非特許文献1では、眼の網膜にある網膜神経節細胞の中の受容野と呼ばれる領域が光による刺激を受けた際に脳に伝達される情報をモデル化している。受容野は中央領域と周辺領域とで構成されており、非特許文献1では、中央領域と周辺領域への刺激により信号が強くなる箇所(注意を引く場所)を数値化するようなモデルを構築している。
特開2001-236508号公報
Laurent Itti, Christof Koch,Ernst Niebur, "A Model of Saliency-based Visual Attention for Rapid Scene Analysis", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20. No. 11, pp. 1254-1259, 1998年11月
 学習ベースのアルゴリズムでは、脳の反応モデルを構築する必要は無いものの、検出結果が学習データに依存し、学習データと類似しない対象は検出できないという欠点がある。一方、モデルベースのアルゴリズムでは、事前知識なしに注目領域を検出できるが、モデルの構築が困難であり、注目領域の検出精度が十分ではないという欠点がある。したがって、いずれの方式であっても、検出対象を限定することなく注目領域を精度良く抽出することはできない。
 また、学習ベースおよびモデルベースのいずれのアルゴリズムであっても、1つの画像から複数の領域が検出された場合に、どの領域がより重要であり、より人の関心が高いかを判断することができない。複数の領域が検出された場合には、関心度の高さをランク付けすることが望まれる。
 本発明は上記実情に鑑みなされたものであって、本発明の目的は、画像中から注目領域を精度良く抽出し、かつその関心度を算出可能な技術を提供することにある。
 本発明は、入力画像から抽出される部分領域と類似する画像を画像データベースから検索し、検索結果を用いて上記部分領域の関心度を求める。これにより、画像データベースに格納されている画像に関する情報を反映した精度の高い注目領域抽出が可能となる。
 より具体的には、本発明にかかる注目領域抽出装置は、入力画像から1つまたは複数の部分領域を抽出する抽出手段と、前記抽出手段によって抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索手段と、前記検索手段による検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定手段と、を備える。
 上記部分領域は、入力画像中において人間が注目すると予想される画像領域あるいは注目すべき画像領域の候補、すなわち注目領域の候補であることが好ましい。抽出手段による部分領域の抽出は、既存の任意の手法を用いて行える。抽出手段は、例えば、学習ベースやモデルベースのアルゴリズムを用いた注目領域抽出手法によって部分領域を抽出する。
 画像データベースは、複数の画像データを検索可能に記憶する装置である。画像データベースは、注目領域抽出装置と一体として構築されてもよいし、注目領域抽出装置とは別に構築されてもよい。例えば、画像データベースは注目領域抽出装置が備える記憶装置に構築されることができる。また、画像データベースは、注目領域抽出装置が通信ネットワークを介してアクセス可能な別の装置に構築されることができる。画像データベースの作成・管理者は、注目領域抽出装置の作成・管理者と同一である必要はない。本発明における画像データベースとして、例えば、第三者によって管理されインターネット上で公開されている画像データベースを利用することもできる。
 検索手段は、抽出手段によって抽出された部分領域と類似する画像を、画像データベースから検索し、検索結果を取得する。具体的には、検索手段は、部分領域と類似する画像の取得を求める問い合わせ(クエリ)を作成し、画像データベースに当該クエリを送信し、画像データベースから当該クエリに対する応答を取得する。画像データベースにおける類似画像の検索は、既存の任意の手法を用いて行える。例えば、画像の全領域同士の比較、画像の全体と部分の比較、あるいは、画像の部分と部分の比較に基づいて類似度を算出するアルゴリズムを用いて類似画像を検索することができる。
 関心度決定手段は、検索手段による検索結果に基づいて、それぞれの部分領域について関心度を決定する。関心度は、人間が当該部分領域に対して持つと予想される関心の高さ、あるいは、当該部分領域に対して持つべき関心の高さを表す指標である。ある部分領域についての関心度が高いということは、人間は当該部分領域についてより高い関心を持つか、あるいは当該部分領域についてより高い関心を持つべきであることを意味する。なお、関心度は、人間全般を対象として決定してもよいし、あるグループの人間(特定の属性を有する人間)を対象として決定してもよいし、特定の個人を対象として決定してもよい。
 関心度決定手段は、検索手段によって検索された部分領域と類似する画像(以下、単に類似画像とも称する)の統計情報を用いて、当該部分領域の関心度を決定することが好ましい。統計情報は、検索の結果として得られる情報に統計的な処理を施して得られる情報である。
 例えば、統計情報として部分領域と類似する画像の数を採用し、類似画像の数が多いほど関心度を高く決定することができる。これは、画像データベースに格納されている数が多い物体(対象)ほど、注目される可能性が高いと考えられるためである。なお、類似画像の数は、抽出手段によって抽出された領域が注目領域である確からしさ(精度)を表すとも考えられる。したがって、類似画像数が少ない部分領域は本来は注目領域ではないもかかわらず誤って検出されたといえるので、関心度決定手段は類似画像数が閾値よりも少ない部分領域については、関心度を決定しないことも好ましい。
 また、統計情報として類似画像に関連付けられているタグ情報を採用することもできる。タグ情報は、画像データベース中の画像データと関連付けられて記憶される、自然言語によって指定される画像データの内容や特徴などを表す情報である。タグ情報は、画像データに埋め込まれて記憶されてもよいし、画像データとは異なるファイルとして記憶されてもよい。タグ情報の付加はどのように行われてもよく、例えば、人間が手動入力でタグ情報を付加してもよく、コンピュータによる画像処理によって自動的にタグ情報を付加してもよい。統計情報としてタグ情報を採用する場合、関心度決定手段は、類似画像に関連付けられているタグ情報の意味の収束性が高いほど、部分領域の関心度を高く決定することが好ましい。これは、タグの意味あいが収束しているほど、その領域に対する認識が一致しており、高い関心が寄せられると考えられるためである。タグ情報の意味あいの収束性は自然言語処理によって行われることが好ましく、例えば、タグ情報の文言は異なっていても同一概念や近い概念であれば意味合いが近いと判断することが好ましい。
 また、統計情報として部分領域と類似する画像についての部分領域との類似度の平均値、最頻値、中央値、中間値、分散、標準偏差などを採用することもできる。類似画像の類似度が高いほど、また類似度のばらつきが小さいほど、関心度を高く決定することができる。また、統計情報として、類似画像の類似度だけでなく、類似画像の大きさ(面積あるいは画素数)や、画像中の位置、色なども採用することができる。例えば、類似画像の大きさは、類似画像全体の大きさや、部分領域と類似する領域の大きさ(絶対的な大きさあるいは画像全体に対する相対的な大きさ)などを採用できる。また、画像中の位置は、部分画像と類似する領域の画像全体における位置を採用できる。関心度決定手段は、これらの情報の平均値、最頻値、中央値、中間値、分散、標準偏差などに基づいて関心度を決定することができる。
 また、統計情報として、類似画像に付加されるメタ情報の平均等も採用可能である。メタ情報には、画像自体についての属性情報(大きさ、色空間など)、画像撮影時の条件(撮影日時、シャッタースピード、絞り、ISO感度、測光モード、フラッシュ有無、焦点距離、撮影位置など)が含まれる。関心度決定手段は、これらのメタ情報に基づいて関心度を決定してもよい。
 また、関心度決定手段は、部分領域の大きさまたは位置に基づいて、当該部分領域の関心度を決定することもできる。部分領域の大きさは、絶対的な大きさであってもよいし入力画像に対する相対的な大きさであってもよい。関心度決定手段は、部分領域の大きさが大きいほど関心度を高く決定してもよいし、部分領域の大きさが小さいほど関心度を高く決定してもよい。関心度決定手段は、また、部分領域が入力画像の中心に近いほど関心度を高く決定してもよいし、部分領域が入力画像の周辺に近いほど関心度を高く決定してもよい。関心度決定手段は、部分領域の大きさあるいは位置に加えて、部分領域に含まれる物体の種類も考慮して関心度を決定することも好ましい。
 また、関心度決定手段は、上記述べた複数の情報に基づいて関心度を複数求めて、これら複数の関心度を統合して最終的な関心度を決定することも好ましい。複数の関心度の統合方法は特に限定されず、例えば、全ての関心度の積や重み付け平均を最終的な関心度とすることができる。
 また、本発明にかかる注目領域抽出装置は、関心度の算出基準の入力を受け付ける算出基準取得手段をさらに含み、前記関心度決定手段は、あらかじめ定められた算出基準にしたがって算出される第1の関心度と、前記算出基準取得手段によって取得される算出基準にしたがって算出される第2の関心度と、に基づいて最終的な関心度を算出する、ことも好ましい。ここで、上記のあらかじめ定められた算出基準は、一般的な人間を対象とした関心度の算出基準、すなわち汎用的な算出基準であることが好ましい。一方、算出基準取得手段によって取得される算出基準は、状況に応じた算出基準、例えば、画像を見るユーザに応じた算出基準や、抽出された注目領域を利用するアプリケーションに応じた算出基準であることが好ましい。
 また、本発明にかかる注目領域抽出装置は、前記入力画像に含まれる部分領域のうち、近接する複数の部分領域を一つの部分領域として統合する統合手段をさらに有することも好ましい。部分領域が近接するとは、部分領域同士が隣接する場合や、その間の距離が所定距離(画素数)以内である場合が含まれる。上記の所定距離は、部分領域の大きさや部分領域に含まれる物体の種類などに応じて決定されてもよい。
 また、本発明にかかる注目領域抽出装置は、前記入力画像に含まれる部分領域の位置と、それぞれの部分領域に対する関心度とを出力する出力手段をさらに有する、ことも好ましい。部分領域の位置の出力は、例えば、入力画像に対して部分領域の場所を示す枠線を重畳して表示したり、部分領域の色や輝度をその他の領域と異ならせて表示したりすることによって行える。関心度の出力は、関心度の数値を表示してもよいし、関心度に応じた色や大きさのマーカーを表示したりすることによって行える。この際、出力手段は、関心度が閾値未満の部分領域については関心度の表示あるいは部分領域の表示を行わずに、関心度が閾値以上の部分領域についてのみ、部分領域の位置および関心度の出力を行うようにすることもできる。
 なお、本発明は、上記手段の少なくとも一部を含む注目領域抽出装置として捉えることができる。また、本発明は、注目領域抽出方法あるいは関心度算出方法として捉えることもできる。また、これらの方法の各ステップをコンピュータに実行させるためのコンピュータプログラムや、当該プログラムを非一時的に記憶したコンピュータ読取可能な記憶媒体として捉えることもできる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
 本発明によれば、画像中から注目領域を精度良く抽出し、かつその関心度を算出可能となる。
図1(A)および図1(B)はそれぞれ、第1の実施形態にかかる注目領域抽出装置のハードウェア構成および機能ブロックを示す図である。 図2は、第1の実施形態における注目領域抽出処理の流れを示すフローチャートである。 図3(A)および図3(B)はそれぞれ、入力画像の例および入力画像から抽出される注目領域の例を示す図である。 図4は、注目領域の関心度算出を説明する概念図である。 図5(A)および図5(B)はそれぞれ、類似画像検索の結果の例および検索結果に基づく関心度算出の例を示す図である。 図6(A)および図6(B)はそれぞれ、関心度の出力処理の流れを示すフローチャートおよび関心度の出力例を示す図である。 図7は、第2の実施形態における注目領域抽出処理の流れを示すフローチャートである。 図8は、第3の実施形態にかかる注目領域抽出装置の機能ブロックを示す図である。 図9は、第3の実施形態における注目領域抽出処理の流れを示すフローチャートである。 図10は、第4の実施形態にかかる注目領域抽出装置の機能ブロックを示す図である。 図11は、第4の実施形態における注目領域抽出処理の流れを示すフローチャートである。 図12(A)および図12(B)はそれぞれ、第4の実施形態における注目領域統合処理前および注目領域統合処理後を示す図である。
(第1の実施形態)
 本実施形態にかかる注目領域抽出装置は、画像データベースに対して類似画像検索を行うことで、入力画像から注目領域を精度良く抽出し、かつ、各注目領域の関心度を算出することができる装置である。画像データベースに対して検索を行うことで、入力画像のみからでは得られない情報を利用することが可能となり、精度の良い注目領域の抽出および関心度の算出が可能となる。
<構成>
 図1(A)は、本実施形態にかかる注目領域抽出装置10のハードウェア構成を示す図である。注目領域抽出装置10は、画像入力部11、演算装置12、記憶装置13、通信装置14、入力装置15、出力装置16を含む。画像入力部11は、カメラ20から画像データを受け取るインタフェースである。なお本実施形態ではカメラ20から直接画像データを受け取っているが、通信装置14を介して画像データを受け取ったり、記録媒体を経由して画像データを受け取ったりしてもよい。演算装置12は、CPU(Central Processing Unit)などの汎用のプロセッサであり、記憶装置13に格納されたプログラムを実行して、後述する機能を実現する。記憶装置13は、主記憶装置および補助記憶装置を含み、演算装置12によって実行されるプログラムを格納するとともに、画像データやプログラム実行中の一時データを格納する。通信装置14は、注目領域抽出装置10が外部のコンピュータと通信を行うための装置である。通信の形態は、有線であっても無線であってもよく、通信規格は任意であってよい。本実施形態においては、注目領域抽出装置10は通信装置14を介して、画像データベース30にアクセスする。入力装置15は、キーボードやマウスなどからなり、ユーザが注目領域抽出装置に指示を入力するための装置である。出力装置16は、表示装置やスピーカーなどからなり、注目領域抽出装置がユーザに対する出力を行うための装置である。
 画像データベース30は、演算装置や記憶装置などを含むコンピュータであり、複数の画像データを検索可能に記憶する装置である。画像データベース30は、1台のコンピュータから構成されてもよいし、複数のコンピュータから構成されてもよい。画像データベース30に格納される画像データには、画像そのもののデータ(画素ごとの色情報など)以外に、種々の属性情報が関連付けられる。例えば、画像データのデータファイルは、Exifフォーマットにしたがって種々の属性情報を含むことができる。また、画像データベース30は、画像データのデータファイルとは異なるファイルに記憶された属性情報を、画像データと関連付けて記憶することができる。属性情報には、例えば、画像の大きさ、色空間、画像の撮影条件(撮影日時、シャッタースピード、絞り、ISO感度、測光モード、フラッシュ有無、焦点距離、撮影位置など)、画像の内容や特徴について自然言語で記述された情報(タグ情報)などが含まれる。これらの属性情報は、画像データについてのメタ情報である。画像データベース30は、インターネットなどの公衆網を介して一般に公開されており、画像データの登録や検索を受け付ける。
 画像データベース30に誰が画像を登録するかや、登録される画像の数は特に限定されない。例えば、注目領域抽出装置10のユーザが注目すべき物体についての画像を登録してもよい。この場合は、登録画像が注目領域抽出処理に適合した画像であるといえるので、登録画像の数はそれほど多くなくてもよい。また、第三者である一般ユーザや検索サービスなどの提供者が画像を登録してもよい。この場合、登録画像は注目領域抽出処理に適合した画像でない可能性がある。そのため、このような場合には、多くの画像が画像データベース30に登録されていることが好ましい。
<注目領域抽出装置の機能と処理>
 演算装置12は、プログラムを実行することにより、図1(B)に示すような機能を実現する。すなわち、演算装置12は、領域抽出部110、類似画像検索部120、関心度算出部130、出力部140の各機能を提供する。各部の処理内容については以下で説明する。
 図2は、注目領域抽出装置10によって実行される注目領域抽出処理の流れを示すフローチャートである。ステップS10において、注目領域抽出装置10は画像(入力画像)を取得する。入力画像は、画像入力部11を介してカメラ20から取得されてもよいし、通信装置14を介して他のコンピュータから取得されてもよいし、記憶装置13を介して記憶媒体から取得されてもよい。図3(A)は、入力画像400の一例を示す図である。
 ステップS20において、領域抽出部110が入力画像から注目領域(部分領域)を抽出する。領域抽出部110が用いる注目領域抽出アルゴリズムは特に限定されず、学習ベースアルゴリズムおよびモデルベースアルゴリズムを含む既存の任意のアルゴリズムを採用可能である。また、採用するアルゴリズムは一つに限る必要はなく、複数のアルゴリズムにしたがって注目領域が抽出されてもよい。なお、学習ベースの抽出アルゴリズムでは学習済みの対象しか抽出できないため、モデルベースの抽出アルゴリズムを用いることが好ましい。
 図3(B)は、入力画像400から抽出された注目領域の例を示す図である。この例では、入力画像400から4つの注目領域401-404が抽出されている。領域401は車両、領域402は人物、領域403は道路標識である。領域404は本来は注目される領域ではないが、領域抽出部110によって注目領域であると誤検出された領域である。
 次に、類似画像検索部120が、図4に示すように、ステップS20において抽出された注目領域のそれぞれに対して、類似画像の検索処理を行い、検索結果に基づいて当該注目領域の関心度を算出する(ループL1)。より詳細には、ステップS30において、類似画像検索部120は、各注目領域と類似する画像を検索するクエリを画像データベース30に発行して、画像データベース30から検索結果を取得する。画像データベース30は、検索クエリを受け付けると、検索クエリに含まれる検索画像(注目領域の画像)と類似する画像をデータベースから検索して、検索結果を送信する。画像データベース30における類似画像検索のアルゴリズムは、既知の任意のアルゴリズムを採用することができる。例えば、画像全体と画像全体の照合を行うアルゴリズムや、画像全体と画像の一部の照合を行うアルゴリズムや、画像の一部と画像の一部の照合を行うアルゴリズムを採用可能である。画像データベース30は、検索により得られた類似画像とその属性情報を、検索結果として注目領域抽出装置10に送信する。
 ステップS40において、注目領域抽出装置10の関心度算出部130は、画像データベース30から得られた検索結果に基づいて、注目領域の関心度を算出する。本実施形態において関心度算出部130は、検索結果に基づいて複数の個別関心度(R1~R4)を算出し、これら複数の関心度スコアを統合して最終的な関心度(総合関心度)Rを算出する。個別関心度は、それぞれ異なる観点から評価された関心度であり、例えば、検索に合致した類似画像の数に基づく関心度(R1)、類似画像の平均類似度に基づく関心度(R2)、類似画像における類似領域の相対サイズに基づく関心度(R3)、および、タグ情報の意味あいの収束性に基づく関心度(R4)が含まれる。本実施形態においては、個別関心度R1~R4は0から1の範囲に正規化された数値であり、総合関心度Rはこれらの個別関心度R1~R4の積とする(R=R1×R2×R3×R4)。ただし、総合関心度Rは、個別関心度R1~R4に基づいて定められれば、例えば、個別関心度R1~R4の平均(重み付き平均を含む)や最大値や最小値などとして求められてもよい。また、ここで示した個別関心度は一例であり、検索条件に基づいて上記以外の基準にしたがって定められる値を用いても構わない。また、関心度は必ずしも検索結果のみから算出される必要はなく、例えば、抽出領域自体や入力画像を考慮して算出されてもよい。
 図5(A)は、ステップS30における検索結果の例を示す図である。図5(A)では、注目領域(検索画像)と類似する画像(類似度が所定の閾値以上の画像)について、画像番号501、類似度502、類似画像の全体サイズ503、類似画像のうち注目領域と類似する領域のサイズ504、類似画像に関連付けて記憶されているタグ情報505を示しているが、これら以外の情報が検索結果に含まれてもよい。
 図5(B)は、関心度算出部130が行う関心度算出の例を示す図である。検索に合致した類似画像の数に基づく関心度R1は、検索ヒット数が多いほど高く算出される。これにより、画像データベース30に多く登録されている物体ほど、関心度が高く算出される。なお、関心度R1の算出に用いられる検索ヒット数は、画像データベース30から送られた類似画像の全体数であってもよいし、検索結果のうち類似度502が所定の閾値以上であるものの数であってもよい。
 類似画像の平均類似度に基づく関心度R2は、検索結果に含まれる類似画像の類似度502の平均類似度が高いほど高く算出される。検索ヒット数が多くても類似画像の類似度が低ければ必ずしも関心度の高い物体とは限らないので、平均類似度を考慮することにより関心度算出の精度を向上できる。なお、ここでは関心度R2の算出に類似度の平均を用いているが、最頻値、中央値、中間値、分散、標準偏差などのその他の統計量に基づいてもよい。
 類似画像における類似領域の相対サイズに基づく関心度(R3)は、検索結果に含まれる類似画像の全体サイズ503に対する類似領域のサイズ504の比の平均値が大きいほど高く算出される。これにより、画像中で大きく写されている物体ほど、関心度が高く算出される。なお、関心度R3は、類似画像の全体サイズ503と類似領域のサイズ504の比以外にも、これらの値に基づいて別の基準で求めても構わない。
 タグ情報の意味あいの収束性に基づく関心度R4は、検索結果に含まれるタグ情報の意味あいの収束性が高いほど、高く算出される。これにより、多くの人が同様の意味のタグ情報を付している物体ほど、関心度が高く算出される。意味あいの収束性は、自然言語処理によって判断されることが好ましく、タグ情報の文言が異なっていても同一の概念や近い概念であれば意味あいの収束性が高いと判断されることが好ましい。関心度算出部130は、例えば、検索結果に含まれるタグ情報の意味あいをいくつかのカテゴリに分け、最大カテゴリにおける要素数の全体に対する割合を関心度R4として求めることができる。図5(B)に示すタグ情報の例では、「自動車」および「クルマ」は同一の概念であり、同じカテゴリに分類できる。「スポーツカー」は、「自動車」および「クルマ」の下位概念であるため、「自動車」および「クルマ」と同じカテゴリに分類できる。一方、「公園」は「自動車」等とは異なる概念であるため、異なるカテゴリに分類される。「モーターショー」は「自動車」等と関連する概念であるため、「自動車」等と同じカテゴリに分類してもよいし、異なるカテゴリと分類してもよい。ここで、「モーターショー」も「自動車」と同じカテゴリに分類され、検索結果が図5(B)に示す5つのアイテムであるとすると、関心度算出部130は関心度R4を0.8(=4/5)と算出する。なお、図5(B)の例では、タグ情報が単語である場合のみを示しているが、タグ情報は文章として表されてもよく、その場合も自然言語処理によって意味を推測できる。
 関心度算出部130は、個別関心度R1~R4に基づいて上述のように総合関心度Rを算出する。ここで、上記の個別関心度R1~R4は、一般的な人間が注目すると推測される領域については、大きな値として算出される。すなわち、個別関心度R1~R4は人間全般を対象とした汎用的な関心度であり、これらに基づいて算出される総合関心度Rも汎用的な関心度といえる。
 全ての注目領域について関心度の算出が終了すると、ステップS50において出力部140が、入力画像における注目領域の位置と、それぞれの注目領域に対する関心度とを出力する。ここで、出力部140は、ステップS20において抽出された全ての注目領域を出力するのではなく、これらの注目領域のうち関心度が所定の閾値Th以上である注目領域を出力する。図6(A)は、ステップS50における出力処理をより詳細に説明するフローチャートである。出力部140は、ステップS20において抽出された全ての注目領域について、以下の処理(ループL2)を繰り返す。まず、出力部140は、注目領域について算出された関心度が、閾値Th以上であるか否か判定する(S51)。ここで、関心度が閾値Th以上であれば(S51-YES)、当該注目領域の位置とその関心度を出力し(S52)、関心度が閾値Thより小さければ(S51-NO)、当該注目領域の位置とその関心度は出力しない。
 図6(B)は、本実施形態における注目領域の位置とその関心度の出力の一例を示す図である。ここでは、図3(B)に示す注目領域401~404のうち、関心度が閾値Th以上となるのは注目領域401~403であるとする。したがって、注目領域401~403については、その領域を囲む枠表示によって位置が表示される。また、注目領域401~403のそばに、これらの注目領域の関心度を数値として関心度表示部601~603に表示される。注目領域404は関心度が閾値Th未満のため表示されない。なお、この例は表示の一例に過ぎず、例えば、注目領域の位置は、注目領域と注目領域以外の領域の表示において輝度や色を変えることによって特定することもできる。また、関心度も数値によって表示する必要はなく、例えば、記号の色や形を変えることで関心度の大きさを示すことができ、また、注目領域を示す枠線の太さや色を変えることで関心度の大きさを示すこともできる。
 なお、ここでは注目領域の抽出結果とその関心度を画面に表示する例を説明したが、これらの結果は、例えば、他の機能部や他のコンピュータに出力されてもよいし、記憶装置に出力(記録)されてもよい。
 <本実施形態の効果>
 本実施形態によれば、画像データベースに含まれている画像に関する情報を用いて入力画像から注目領域を抽出することによって、入力画像のみから注目領域を抽出するよりも精度の良い抽出が行える。特に、従来の学習ベースの注目領域抽出と比較すると、抽出可能な注目領域が学習データと類似した対象に限定されず、様々な対象を注目領域として抽出できるという利点がある。また、従来のモデルベースの注目領域抽出と比較すると、画像データベースの検索結果を用いることで、抽出精度を向上させることができる。
(第2の実施形態)
 以下、本発明の第2の実施形態について説明する。本実施形態は第1の実施形態と基本的に同様であるが、類似画像の検索ヒット数に基づいて抽出された注目領域が、正しく抽出されたものであるか否か判定する点が異なる。
 図7は、本実施形態における注目領域抽出処理の流れを示すフローチャートである。第1の実施形態(図2)と比べると、類似画像検索ステップS30の後に、検索された類似画像の数を閾値Thと比較する処理が加えられている点が異なる。検索された類似画像数が閾値Th以上であれば(S35-YES)、関心度算出部130は、第1の実施形態と同様に注目領域についての関心度を算出する(S40)が、類似画像数が閾値Th未満であれば(S35-NO)、この注目領域については関心度を算出しない。
 このようにすれば、検索によってヒットする類似画像数が少ない領域については、関心度が算出されない。類似画像数が少ないということは本来はそれほど注目する必要がない領域ともいえ、上記の判定処理は、ステップS20の注目領域抽出処理の抽出精度が閾値以上であるか判定する処理とも捉えることができる。
 抽出精度は、必ずしも類似画像の検索ヒット数によって評価される必要はなく、その他の基準で評価されてもよい。本実施形態は、従来の注目領域抽出処理(S20)によって抽出された領域の抽出精度と関心度とを、類似画像検索結果を用いてそれぞれ異なる基準で算出していると捉えることができる。
(第3の実施形態)
 以下、本発明の第3の実施形態について説明する。上記第1および第2の実施形態では、関心度は人間全般を対象とした汎用的な尺度として算出している。しかしながら、注目領域抽出処理が特定のユーザやアプリケーション向けに行われる場合には、事前知識を用いてユーザやアプリケーションに特化した関心度を求めることもできる。本実施形態に係る注目領域抽出装置310は、事前知識に基づいて決定される関心度の算出基準を受け取り、ユーザに特化した関心度も求める。
 本実施形態にかかる注目領域抽出装置310のハードウェア構成は第1の実施形態(図1(A))と同様である。図8は、本実施形態にかかる注目領域抽出装置310の演算装置12がプログラムを実行することによって実現される機能ブロックを示す図である。注目領域抽出装置310の機能ブロックも第1の実施形態(図1(B))と基本的に同様であるが、関心度算出部130が、汎用関心度算出部131、関心度算出基準取得部132、特定関心度算出部133、関心度統合部134を含んで構成される。
 図9は、本実施形態に係る注目領域抽出装置310によって実行される注目領域抽出処理の流れを示すフローチャートである。第1の実施形態(図2)と同様の処理については、同じ符号を付してその詳細な説明は省略する。
 ステップS25では、関心度算出基準取得部132が、特定のユーザやアプリケーション向けの関心度(特定関心度)を算出する基準を取得する。特定関心度の算出基準は、注目領域抽出装置310の処理結果を利用するユーザやアプリケーションに応じて変化する。例えば、あるユーザが特定の物体に対して特に関心を持つという事前知識があれば、このユーザに対して当該物体の関心度を大きく算出すべきである。また、アプリケーションがユーザが見落としやすい物体に注意を払うように促すものである場合は、入力画像中におけるサイズが小さかったり周囲の色と似ていたりして視認しづらい物体の関心度を大きく算出すべきである。関心度算出基準取得部132は、算出基準自体を外部から受け取るものであってもよいし、ユーザあるいはアプリケーションを特定する情報を取得して、当該ユーザあるいはアプリケーションに対応する関心度算出基準を自ら取得してもよい。後者の場合、関心度算出基準取得部132は、ユーザやアプリケーションごとの関心度算出基準を記憶しておくか、外部の装置に問い合わせて取得する。なお、図9ではステップS20の後に関心度算出基準を取得しているが、関心度算出基準の取得は、入力画像の取得処理S10や注目領域抽出処理S20の前に行われてもよい。
 ループL1において入力画像から抽出された注目領域のそれぞれについて関心度算出部130が関心度を算出するという点は、第1の実施形態と同様である。本実施形態では具体的な算出方法が第1の実施形態と異なるので以下説明する。
 ステップS30では、類似画像検索部120が注目領域と類似する画像を画像データベース30から検索して、その検索結果を取得する。この処理は第1の実施形態と同様である。ステップS41では、汎用関心度算出部131が、検索結果とあらかじめ定められた算出基準を用いて汎用的な関心度を算出する。この処理は、第1の実施形態における関心度算出処理(S40)と同様の処理である。
 次にステップS42において、特定関心度算出部133が、類似画像検索部120による検索結果と関心度算出基準取得部132によって取得された算出基準とを用いて特定ユーザあるいはアプリケーション向けの関心度(特定関心度)を算出する。この処理は、算出基準が異なる点を除けば、汎用関心度算出部131による処理と同様である。なお、特定関心度算出部133は、異なる基準にしたがって複数の個別関心度を算出し、これら複数の個別関心度を統合することによって特定関心度を算出してもよい。
 ステップS43において、関心度統合部134が、汎用関心度算出部131によって算出される汎用関心度と、特定関心度算出部133によって算出される特定関心度とを統合して、最終的な関心度を算出する。統合の方法は任意であってよく、例えば、汎用関心度と特定関心度の平均(単純平均または加重平均)を最終的な関心度とすることができる。加重平均における重みは固定であってもよいしユーザやアプリケーションに応じて変化させてもよい。また、関心度統合部134は、汎用関心度と特定関心度を算出する際に求められた個別関心度の加重平均を最終的な関心度として決定するなど、個別関心度の関数として最終的な関心度を決定してもよい。
 各注目領域についての関心度が算出された後の出力処理(S50)は、第1の実施形態と同様である。
 以下、特定関心度の算出基準の例について説明する。上述のように、ユーザの関心の傾向を用いて、ユーザが関心を持つ対象ほど関心度を高く算出することができる。また、ユーザが特定の色を視認しづらい場合には、これらの色を有する物体の関心度を高く算出することができる。また、アプリケーションが、視認しづらいものを検出するためのものであれば、入力画像における注目領域のサイズが小さい物体ほど関心度を高く算出することができる。また、動画像に応用する場合には、突然現れた物体(それ以前のフレームにおいて存在していない物体)の関心度を高く算出したり、あるいは逆に長時間連続して存在している物体の関心度を高く算出したりすることができる。
 本実施形態によれば、汎用的な関心度と特定用途に特化した関心度をそれぞれ算出して、これらを統合して最終的な関心度を求めているので、用途に応じた関心度を算出することができる。
 なお、必ずしも汎用関心度と特定関心度の両方を求める必要はなく、特定関心度のみを求めるようにしても構わない。この場合、関心度算出部130において、汎用関心度算出部131および関心度統合部134は省略可能である。
(第4の実施形態)
 以下、本発明の第4の実施形態について説明する。本実施形態では、第1から第3の実施形態と比較して、注目領域の出力処理が異なる。具体的には、入力画像において互いに隣接する注目領域を統合して1つの注目領域として出力する。
 本実施形態にかかる注目領域抽出装置410のハードウェア構成は第1の実施形態(図1(A))と同様である。図10は、本実施形態にかかる注目領域抽出装置410の演算装置12がプログラムを実行することによって実現される機能ブロックを示す図である。注目領域抽出装置410は、第1の実施形態の機能に加えて、領域統合部150を備える。
 図11は、本実施形態に係る注目領域抽出装置410によって実行される注目領域抽出処理の流れを示すフローチャートである。第1の実施形態(図2)と同様の処理については、同じ符号を付してその詳細な説明は省略する。本実施形態においては、ループL1の処理後のステップS45において、領域統合部150が、注目領域の位置関係に基づいて複数の注目領域を統合する。例えば、領域統合部150は、注目領域間の距離が所定の閾値Th以下であれば、これらの注目領域を統合する。注目領域間の距離は、中心間の距離(画素数)として定義されてもよいし、最近接する境界部同士の距離として定義されてもよい。また、上記の閾値Thは固定値であってもよいし、注目領域のサイズや注目領域内の物体種類に応じて変化してもよい。
 図12(A)は、入力画像1200からステップS20において抽出された注目領域1201~1203を示す図である。注目領域1201は他の注目領域との距離が離れている一方、注目領域1202と注目領域1203の距離は近い。そこで、領域統合部150は、注目領域1202と注目領域1203を統合する。図12(B)は統合処理後の画像1200を示す図である。図に示すように、注目領域1202と注目領域1203は、1つの注目領域1204に統合される。なお、ここでは統合後の注目領域1204は、注目領域1202と注目領域1203を含む最小矩形としているが、これとは異なる手法によって統合後の注目領域1204が生成されてもよい。
 領域統合処理において、関心度が低い注目領域については統合の対象としなくてもよいし、注目領域の関心度が所定の関係を満たす場合(例えば、関心度の平均が閾値以上など)のみこれらの領域を統合するようにしてもよい。すなわち、領域統合部150は、注目領域間の距離に加えて注目領域の関心度にも基づいて、統合するか否かを判定してもよい。また、領域統合部150は、3つ以上の注目領域を1つの領域に統合してもよい。
 領域統合部150は、複数の注目領域を統合した場合には、統合後の注目領域に対する関心度も決定する。統合後の注目領域の関心度は、例えば、統合された注目領域についての関心度の平均値や最大値などを採用することが好ましいが、その他の方式によって決定されてもよい。
 ステップS50の注目領域の関心度出力処理は、統合後の注目領域を対象として行われる点を除けば、第1の実施形態における処理と同様である。
 本実施形態によれば、互いに近い関係にある複数の注目領域を統合することで、出力する注目領域の数を抑制することができる。また、領域を統合するか否かの判定において、画像データベースの検索結果を用いた関心度を採用することで、より適切に領域を統合することができる。
(その他の実施形態)
 上記の実施形態の説明は、本発明を例示的に説明するものに過ぎず、本発明は上記の具体的な形態には限定されない。本発明は、その技術的思想の範囲内で種々の変形が可能である。
 上記の説明において、画像データベースは注目領域抽出装置とは別の装置として構成される例を説明したが、画像データベースは注目領域抽出装置と一体として構成されてもよい。また、画像データベースに含まれる画像データは、注目領域抽出装置の製造者が登録してもよいし、ユーザが登録してもよい。また、注目領域抽出装置は、装置内部の画像データベースと装置外部の画像データベースを含む複数の画像データベースを用いてもよい。
 上記で説明した関心度の算出方法は例示であり、本発明においては注目領域と類似する画像を検索した検索結果を用いて関心度を算出すれば、その算出方法は特に限定されない。関心度は、検索結果の統計情報を用いて算出されることが好ましい。検索結果の統計情報には、検索ヒット数、類似度の統計量、類似画像の大きさの統計量、類似画像における検索画像と類似する領域の位置、タグ情報によって示される意味の収束性などが含まれる。また、類似画像にメタ情報が含まれる場合には、メタ情報の統計量に基づいて関心度を算出できる。なお、統計量とは、複数のデータに対して統計的な処理を施して得られる量であり、典型的には、平均値、最頻値、中央値、中間値、分散、標準偏差などが含まれる。
 注目領域の関心度は、類似画像検索の結果以外の情報を用いて算出されることもできる。例えば、注目領域自体の大きさや色、注目領域の入力画像中における位置などに基づいて算出されることもできる。
 上記の説明では、入力画像が静止画像であることを前提として説明しているが、入力画像が動画像(複数の静止画像)であってもよい。この場合、領域抽出部110は、動画像から注目領域を抽出する既存のアルゴリズムを用いて、注目領域を抽出すればよい。また、関心度算出部130は、注目領域の位置の時間変化も考慮して関心度を算出することもできる。例えば、注目領域の移動速度や移動方向などを考慮することができる。注目領域の移動速度が大きいほど関心度を高く算出してもよいし、低く算出してもよい。また、移動方向を考慮して関心度を算出する場合は、移動方向自体に基づいて関心度を算出してもよいし、移動方向のばらつきに基づいて関心度を算出してもよい。
 本発明にかかる注目領域抽出装置は、デスクトップ型コンピュータ、ノート型コンピュータ、スレート型コンピュータ、スマートフォン、携帯電話機、デジタルカメラ、デジタルビデオカメラなど任意の情報処理装置(コンピュータ)として実装することができる。
 10,310,410:注目領域抽出装置
 20:カメラ,  30:画像データベース
 110:領域抽出部,  120:類似画像検索部,  130:関心度算出部
 140:出力部,  150:領域統合部
 400:入力画像,  401,402,403,404:注目領域
 601,602,603:関心度表示部
 1200:入力画像
 1201,1202,1203:注目領域(統合処理前)
 1204:注目領域(統合処理後)

Claims (12)

  1.  入力画像から1つまたは複数の部分領域を抽出する抽出手段と、
     前記抽出手段によって抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索手段と、
     前記検索手段による検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定手段と、
     を備える、注目領域抽出装置。
  2.  前記関心度決定手段は、前記検索手段によって検索された部分領域と類似する画像の統計情報を用いて、当該部分領域の関心度を決定する、
     請求項1に記載の注目領域抽出装置。
  3.  前記関心度決定手段は、部分領域と類似する画像の数が多いほど、当該部分領域の関心度を高く決定する、
     請求項1または2に記載の注目領域抽出装置。
  4.  前記関心度決定手段は、検索して得られる類似画像の数が閾値よりも少ない部分領域については、関心度を決定しない、
     請求項3に記載の注目領域抽出装置。
  5.  前記関心度決定手段は、部分領域と類似する画像に関連付けられているタグ情報の意味の収束性が高いほど、当該部分領域の関心度を高く決定する、
     請求項1から4のいずれか1項に記載の注目領域抽出装置。
  6.  前記関心度決定手段は、部分領域の大きさまたは位置に基づいて、当該部分領域の関心度を決定する、
     請求項1から5のいずれか1項に記載の注目領域抽出装置。
  7.  関心度の算出基準の入力を受け付ける算出基準取得手段をさらに含み、
     前記関心度決定手段は、あらかじめ定められた算出基準にしたがって算出される第1の関心度と、前記算出基準取得手段によって取得される算出基準にしたがって算出される第2の関心度と、に基づいて前記関心度を算出する、
     請求項1から6のいずれか1項に記載の注目領域抽出装置。
  8.  前記入力画像に含まれる部分領域のうち、近接する複数の部分領域を一つの部分領域として統合する統合手段をさらに有する、
     請求項1から7のいずれか1項に記載の注目領域抽出装置。
  9.  前記入力画像に含まれる部分領域の位置と、それぞれの部分領域に対する関心度とを出力する出力手段をさらに有する、
     請求項1から8のいずれか1項に記載の注目領域抽出装置。
  10.  前記出力手段は、前記関心度が閾値以上である部分領域についてのみ、部分領域の位置および関心度の出力を行う、
     請求項9に記載の注目領域抽出装置。
  11.  コンピュータが行う注目領域抽出方法であって、
     入力画像から1つまたは複数の部分領域を抽出する抽出ステップと、
     前記抽出ステップにおいて抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索ステップと、
     前記検索ステップにおける検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定ステップと、
     を含む、注目領域抽出方法。
  12.  請求項11に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
PCT/JP2016/050344 2015-03-05 2016-01-07 注目領域抽出装置および注目領域抽出方法 WO2016139964A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE112016001039.7T DE112016001039T5 (de) 2015-03-05 2016-01-07 Vorrichtung und Verfahren zur Extraktion eines interessierenden Bereichs
US15/683,997 US20170352162A1 (en) 2015-03-05 2017-08-23 Region-of-interest extraction device and region-of-interest extraction method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510098283.2A CN105989174B (zh) 2015-03-05 2015-03-05 关注区域提取装置以及关注区域提取方法
CN201510098283.2 2015-03-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/683,997 Continuation US20170352162A1 (en) 2015-03-05 2017-08-23 Region-of-interest extraction device and region-of-interest extraction method

Publications (1)

Publication Number Publication Date
WO2016139964A1 true WO2016139964A1 (ja) 2016-09-09

Family

ID=56849320

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/050344 WO2016139964A1 (ja) 2015-03-05 2016-01-07 注目領域抽出装置および注目領域抽出方法

Country Status (4)

Country Link
US (1) US20170352162A1 (ja)
CN (1) CN105989174B (ja)
DE (1) DE112016001039T5 (ja)
WO (1) WO2016139964A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6148426B1 (ja) * 2016-05-27 2017-06-14 楽天株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP6948128B2 (ja) * 2017-01-13 2021-10-13 キヤノン株式会社 映像監視装置及びその制御方法及びシステム
US10810773B2 (en) * 2017-06-14 2020-10-20 Dell Products, L.P. Headset display control based upon a user's pupil state
JP6907774B2 (ja) * 2017-07-14 2021-07-21 オムロン株式会社 物体検出装置、物体検出方法、およびプログラム
CN111666952B (zh) * 2020-05-22 2023-10-24 北京腾信软创科技股份有限公司 一种基于标签上下文的显著区域提取方法及系统
CN113656395B (zh) * 2021-10-15 2022-03-15 深圳市信润富联数字科技有限公司 数据质量治理方法、装置、设备及存储介质
CN114840700B (zh) * 2022-05-30 2023-01-13 来也科技(北京)有限公司 结合rpa和ai实现ia的图像检索方法、装置及电子设备
US11941043B2 (en) * 2022-07-25 2024-03-26 Dell Products L.P. System and method for managing use of images using landmarks or areas of interest

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122931A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 類似領域検索方法、類似領域検索装置、類似領域検索プログラム
WO2013031096A1 (ja) * 2011-08-29 2013-03-07 パナソニック株式会社 画像処理装置、画像処理方法、プログラム、集積回路
JP2014063377A (ja) * 2012-09-21 2014-04-10 Nikon Systems Inc 画像処理装置およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US6175829B1 (en) * 1998-04-22 2001-01-16 Nec Usa, Inc. Method and apparatus for facilitating query reformulation
EP1293925A1 (en) * 2001-09-18 2003-03-19 Agfa-Gevaert Radiographic scoring method
US8467631B2 (en) * 2009-06-30 2013-06-18 Red Hat Israel, Ltd. Method and apparatus for identification of image uniqueness
CN102232220B (zh) * 2010-10-29 2014-04-30 华为技术有限公司 一种视频兴趣物体提取与关联的方法及系统
AU2013213886B2 (en) * 2012-02-03 2017-07-13 See-Out Pty Ltd. Notification and privacy management of online photos and videos
CN104217225B (zh) * 2014-09-02 2018-04-24 中国科学院自动化研究所 一种视觉目标检测与标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122931A (ja) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 類似領域検索方法、類似領域検索装置、類似領域検索プログラム
WO2013031096A1 (ja) * 2011-08-29 2013-03-07 パナソニック株式会社 画像処理装置、画像処理方法、プログラム、集積回路
JP2014063377A (ja) * 2012-09-21 2014-04-10 Nikon Systems Inc 画像処理装置およびプログラム

Also Published As

Publication number Publication date
DE112016001039T5 (de) 2018-01-04
US20170352162A1 (en) 2017-12-07
CN105989174B (zh) 2019-11-01
CN105989174A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
WO2016139964A1 (ja) 注目領域抽出装置および注目領域抽出方法
JP6402653B2 (ja) 物体認識装置、物体認識方法、およびプログラム
US11657084B2 (en) Correlating image annotations with foreground features
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
CN107784282B (zh) 对象属性的识别方法、装置及系统
US10872424B2 (en) Object tracking using object attributes
US9323785B2 (en) Method and system for mobile visual search using metadata and segmentation
JP5763965B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2017045443A1 (zh) 一种图像检索方法及系统
JP5963609B2 (ja) 画像処理装置、画像処理方法
US20160026854A1 (en) Method and apparatus of identifying user using face recognition
US20130243249A1 (en) Electronic device and method for recognizing image and searching for concerning information
US20190114780A1 (en) Systems and methods for detection of significant and attractive components in digital images
WO2018121287A1 (zh) 目标再识别方法和装置
US20160148070A1 (en) Image processing apparatus, image processing method, and recording medium
WO2020052513A1 (zh) 图像识别和行人再识别方法及装置,电子和存储设备
CN107644105A (zh) 一种搜题方法及装置
US11921774B2 (en) Method for selecting image of interest to construct retrieval database and image control system performing the same
CN107203638B (zh) 监控视频处理方法、装置及系统
JP7351344B2 (ja) 学習装置、学習方法、推論装置、推論方法、及び、プログラム
Mu et al. Finding autofocus region in low contrast surveillance images using CNN-based saliency algorithm
JP5952942B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230131717A1 (en) Search processing device, search processing method, and computer program product
CN115082999A (zh) 合影图像人物分析方法、装置、计算机设备和存储介质
He et al. Saliency detection via a graph based diffusion model

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16758660

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 112016001039

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16758660

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP