WO2011105607A1 - 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体 - Google Patents

情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
WO2011105607A1
WO2011105607A1 PCT/JP2011/054527 JP2011054527W WO2011105607A1 WO 2011105607 A1 WO2011105607 A1 WO 2011105607A1 JP 2011054527 W JP2011054527 W JP 2011054527W WO 2011105607 A1 WO2011105607 A1 WO 2011105607A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
image
search
character string
keyword
Prior art date
Application number
PCT/JP2011/054527
Other languages
English (en)
French (fr)
Inventor
宗 益子
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to JP2012501907A priority Critical patent/JP5075291B2/ja
Priority to CN201180010163.2A priority patent/CN102763104B/zh
Priority to US13/580,880 priority patent/US8949267B2/en
Priority to EP11747561.6A priority patent/EP2541440A4/en
Publication of WO2011105607A1 publication Critical patent/WO2011105607A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, and a recording medium on which an information processing program is recorded.
  • the above-described conventional technique may include many recognition errors for an image including a complicated layout structure and decorative characters (fonts).
  • the present invention has been made in view of the above, and records an information processing apparatus, an information processing method, and an information processing program capable of appropriately performing a search even for an image including a complicated layout structure, decorative characters, and the like.
  • An object of the present invention is to provide a recording medium.
  • an information processing apparatus includes an image database that stores an image to be searched, and a character string region that extracts a character string region that includes a character string in an image stored in the image database.
  • a character candidate recognition unit that performs character recognition from an image to identify a plurality of character candidates for each character constituting the character string included in the character string region extracted by the character string region extraction unit;
  • Character candidate storage means for storing a plurality of character candidates specified by the recognizing means in association with an image that is a source of specifying the character candidates in the order of character strings.
  • each character of the character string included in the image is recognized and stored as a plurality of character candidates.
  • the stored information is used to search by determining whether each character of the search keyword matches any of the character candidates. Therefore, in the information processing apparatus according to the present invention, if each character of the search keyword matches the character candidate, it can be determined that the keyword is included in the character string included in the image. .
  • the search target image is an image including a complicated layout structure or decorative characters, each character constituting the character string included in the image is uniquely recognized. Even if it is difficult, you can search appropriately.
  • the information processing apparatus includes: a search keyword input unit that inputs a keyword for search; and the character string in which each character constituting the keyword input by the keyword input unit is stored by the character candidate storage unit in the order of the keyword
  • the character candidate recognizing means evaluates the accuracy of character recognition for each character candidate specified at the time of character recognition, and the character candidate storage means is based on information indicating the accuracy evaluated by the character candidate recognizing means.
  • the candidate is stored, and when each character constituting the keyword matches any of the plurality of character candidates stored by the character candidate storage unit, the search unit determines the reliability of the match from the information indicating accuracy. It is desirable that the output means outputs the search result based on the reliability. According to this configuration, it is possible to output a search result corresponding to the reliability of the search based on the recognition accuracy of each character constituting the character string included in the image. That is, it is possible to output search results that are more convenient for the user.
  • the search means determines the number of character candidates for determining matching with the keyword according to the number of characters of the keyword, and determines the character candidate for determining matching with the keyword from information indicating the accuracy of the character candidate. Is desirable. According to this configuration, it is possible to perform a search for an image more appropriately according to the number of characters of a search keyword.
  • the search means calculates a score value of an image including the character candidate for the keyword from the search result of matching between the keyword and the character candidate, and the output means calculates the search result by the search means according to the score value. It is desirable to output. According to this configuration, it is possible to output search results that are more convenient for the user.
  • an information processing apparatus includes an image database that stores an image to be searched and a character string region that includes a character string area that includes a character string in an image stored in the image database.
  • a character candidate recognition unit that performs character recognition from an image and identifies a plurality of character candidates for each character constituting the character string included in the character string region extracted by the character string region extraction unit;
  • Character candidate storage means for storing a character string obtained by combining any of the plurality of the character candidates specified by the character candidate recognition means in association with an image that is the identification source of the character candidate.
  • the search target image is an image including a complicated layout structure or decorative characters, etc. Even when it is difficult to uniquely recognize each character constituting the included character string, the search can be appropriately performed. In addition, since a search can be performed by determining a match between a search keyword and a character string obtained by combining any of the character candidates, the search process can be speeded up.
  • the information processing apparatus includes a search keyword input unit that inputs a keyword for search, and a character string in which each character constituting the keyword input by the keyword input unit is stored by the character candidate storage unit in the order of the keyword. Search means for searching whether or not it matches, and output means for outputting the result of the search by the search means based on the correspondence between the character string stored in the character candidate storage means and the image Is desirable. According to this configuration, a search can be reliably performed using the information stored by the character candidate storage unit.
  • the character candidate recognizing means evaluates the accuracy of character recognition for each character candidate specified at the time of character recognition, and the character candidate storage means is based on information indicating the accuracy evaluated by the character candidate recognizing means.
  • the search unit evaluates the reliability of the match from the information indicating accuracy.
  • the output means preferably outputs the search result based on the reliability. According to this configuration, it is possible to output a search result corresponding to the reliability of the search based on the recognition accuracy of each character constituting the character string included in the image. That is, it is possible to output search results that are more convenient for the user.
  • the search means determines the number of character candidates for determining the match with the keyword according to the number of characters of the keyword, and determines the character string for determining the match with the keyword from information indicating the accuracy of the character candidate. Is desirable. According to this configuration, it is possible to perform a search for an image more appropriately according to the number of characters of a search keyword.
  • the search means calculates a score value of an image including the character candidate for the keyword from the search result of matching between the keyword and the character string, and the output means determines the search result by the search means according to the score value. It is desirable to output. According to this configuration, it is possible to output search results that are more convenient for the user.
  • the search means calculates score values for a plurality of keywords input by the keyword input means. According to this configuration, it is possible to perform a search for a plurality of search keywords, and it is possible to perform a search that is more convenient for the user.
  • the search means calculates the score value based on the ratio of the number of images including the keyword to the number of images stored in the image database. According to this configuration, it is possible to output search results according to the appearance rate of keywords included in an image. That is, it is possible to output search results that are more convenient for the user.
  • the information processing apparatus uses the character string area image extracted by the character string area extracting unit to calculate the character based on at least one of the size, color, shape, and decoration of each character and the contrast between the character color and the background color.
  • Visual feature amount calculating means for calculating a visual feature amount of the column is further provided, and the search means is a visual feature of the character string region in which the character candidate of the character string in which each character of the keyword is matched in the order of the keyword is recognized. It is desirable to calculate a score value of an image including the character string from the amount.
  • the visual feature amount of the character string based on at least one of the size, color, shape, and decoration of the character that forms the character string included in the image, and the contrast between the character color and the background color.
  • the search result is output accordingly. Therefore, for example, when a search keyword is characteristically used for an image, a search result that ranks the image can be output. That is, according to this configuration, it is possible to facilitate detection when a search keyword is characteristically used in an image.
  • the image database stores search target images so as not to include a plurality of the same images, and stores hash values obtained from the images in association with information indicating locations of Web pages where the images are used.
  • the output means uses the information obtained by the search by the search means and indicating an image not including a plurality of the same images, and the image stored in the image database in association with the hash value of the image. It is desirable to output information indicating the location of the current Web page. In this configuration, the hash value of the image to be searched and the information indicating the location of the Web page where the image is used are stored in association with each other, and the search result indicates the image obtained by the search.
  • the information and the information indicating the location of the Web page where the image is used that is stored in association with the hash value of the image are output.
  • the hash value is the same image, the value is within a certain range. Therefore, an image used in a plurality of Web pages can be handled as one image. Therefore, according to this configuration, even if the same image is used in a plurality of Web page locations, the search result can be used effectively. That is, it is possible to prevent the same image from being arranged as a search result, and to efficiently find the image that the user wants to search. For example, it is possible to prevent the same image describing the keyword searched by the user from being arranged as a search result.
  • the present invention can be described as an information processing apparatus invention as described above, and can also be described as an information processing method and a computer-readable recording medium recording an information processing program as follows. This is substantially the same invention only in different categories, and has the same operations and effects.
  • an information processing method is an information processing method by an information processing apparatus including an image database for storing an image to be searched, and a character string area including a character string in an image stored in the image database.
  • Character string recognition step that performs character recognition from the image and identifies a plurality of character candidates for each character constituting the character string included in the character string area extracted in the character string area extraction step to be extracted and the character string area extraction step
  • a character candidate storage step of storing a plurality of character candidates specified in the character candidate recognition step in association with an image that is the source of the character candidates in the order of character strings.
  • the storage medium includes one or more computers, an image database that stores an image to be searched, and a character string region that extracts a character string region that includes a character string in an image stored in the image database.
  • a character candidate recognition unit that performs character recognition from an image to identify a plurality of character candidates for each character constituting the character string included in the character string region extracted by the character string region extraction unit;
  • a computer-readable recording of an information processing program that functions as a character candidate storage unit that stores a plurality of character candidates specified by the recognition unit in association with an image that is a source of identification of the character candidates in the order of character strings. It is a characteristic recording medium.
  • each character of the keyword for search matches a plurality of character candidates, it can be determined that the keyword is included in the character string included in the image.
  • the image to be searched is an image including a complicated layout structure or decorative characters.
  • surface which shows the comparison (when N 30) with a visual result and a search result. It is the sample image used for experiment.
  • FIG. 1 shows an image search apparatus 10 which is an information processing apparatus according to this embodiment.
  • the image search device 10 is a device that receives a search request for an image to be searched and outputs a search result corresponding to the search request.
  • the search target image is a description image of a product sold at the cyber mall.
  • the purpose of the image search by the image search apparatus 10 is to check whether there is an inappropriate image as a product description image.
  • An image inappropriate as a product description image is, for example, an excessive expectation of the effect of a product such as a health product or cosmetics on consumers.
  • the image search apparatus 10 is used by a business operator who manages a cyber mall. Therefore, the image search apparatus 10 can acquire an image to be searched by connecting to a server constituting a cyber mall, which is not clearly shown in FIG.
  • the image search device 10 is connected to the administrator terminal 30 and can transmit and receive information to and from each other.
  • the image search apparatus 10 receives a search request for an image to be searched from the administrator terminal 30 and outputs information indicating a search result corresponding to the search request to the administrator terminal 30.
  • the image search device 10 is realized by a computer such as a server device including hardware such as a CPU (Central Processing Unit), a memory, and a communication module.
  • a computer such as a server device including hardware such as a CPU (Central Processing Unit), a memory, and a communication module.
  • the functions of the image search apparatus 10 to be described later are exhibited by operating these components by a program or the like.
  • the image search device 10 may be configured by a computer system including a plurality of computers.
  • the administrator terminal 30 is a terminal having a communication function used by a user of a business operator who manages the cyber mall described above, and can send and receive information to and from the image search apparatus 10.
  • the administrator terminal 30 corresponds to a communication device such as a PC (Personal Computer).
  • the image search apparatus 10 includes an image database 11, an image registration unit 12, a character string region extraction unit 13, a character candidate recognition unit 14, a character candidate storage unit 15, and a visual feature amount calculation.
  • a unit 16, a search keyword input unit 17, a search unit 18, and an output unit 19 are configured.
  • the image database 11 is a database that stores (stores) images to be searched.
  • the image stored in the image database 11 is an explanatory image of a product sold in the cyber mall that is posted on the website that constitutes the cyber mall as described above. Each image is provided with information such as an ID for identifying the image so that the image can be identified.
  • the image database 11 does not store the same image redundantly. That is, the image database 11 stores images so as not to include a plurality of identical images.
  • the image database 11 is realized by hardware such as a memory or a hard disk included in the image search apparatus 10.
  • the image database 11 may manage image data stored by software constituting the database, or may simply store image data in a memory, a hard disk, or the like.
  • the image database 11 stores a hash value obtained by applying a hash function to the image in association with the image to be stored.
  • the hash function is a specific hash function set in advance. If they are the same image, the hash value obtained from the images is within a certain range. Thereby, when the same image is used in a plurality of Web sites in the cyber mall, it can be managed with one hash value.
  • images that can be regarded as the same for the user such as images with similar character colors (red and orange, etc.) and images with similar character sizes, may be the same image.
  • the certain range of the hash value can be appropriately set according to images that can be regarded as the same image.
  • the image database 11 stores the hash value in association with information indicating a Web site that is a part of the Web page where the image is used.
  • the information indicating the Web site is, for example, a URL (Uniform Resource Locator).
  • the image database 11 stores a numerical value associated with each piece of information indicating the Web site. This numerical value is, for example, the selling price of the product related to the image on the Web site. Further, each piece of information indicating the Web site may be associated with other information such as a description of the product on the Web site.
  • the image database 11 can store an image in association with information on the Web site where the image is used and the sales price information of the product related to the image on the Web site.
  • the image registration unit 12 is an image registration unit that inputs an image to be newly registered in the image database 11 and information indicating a Web site where the image is used, and stores the information in the image database.
  • the image registration unit 12 stores the specific hash function described above in advance.
  • the image registration unit 12 calculates a hash value by applying the hash function to the input image.
  • the image registration unit 12 reads the hash value stored in the image database 11 and determines whether or not the calculated hash value is a value within a certain range from the hash value already stored in the image database 11. . When the image registration unit 12 determines that the calculated hash value is within a certain range from the already stored hash value, the image registration unit 12 uses the image for the already stored hash value.
  • the information indicating the current Web site is stored in the image database 11 in association with each other.
  • the image registration unit 12 determines that the calculated hash value is not a value within a certain range from the already stored hash value, the input image and information indicating the website, and the calculated hash value Are stored in the image database 11 in association with each other. At that time, as described above, it is also possible to register information on the sales price of the product related to the image on the Web site together.
  • the input of the image and information indicating the Web site where the image is used to the image registration unit 12 is performed from the administrator terminal 30 by an operation of a user of a business operator who manages the cyber mall, for example.
  • the input may be automatically performed when an image is newly used on the cyber mall website.
  • the character string area extracting unit 13 is a character string area extracting unit that extracts a character string area including a character string in an image stored in the image database 11.
  • the extraction of the character string area is performed as follows, for example. First, in order to extract characters in the image, the target image is converted into a grace case image, and then a threshold value is determined by a discriminant analysis method and converted into a binary image. This method includes, for example, the method described in Otsu: Automatic threshold selection method based on discriminant and least-squares criteria, Science D, Vol.63, No.4, pp.349-356 (1980). Can be used.
  • a labeling process is performed on the binary image, and the obtained image connection elements are connected to regions using the pitch, aspect ratio, and angle, and character string images arranged in the horizontal and vertical directions are extracted.
  • This method is described in, for example, Hamada, Nagai, Okamoto, Miyao, Yamamoto: Character extraction from scene images, Science D, Vol.J88-D2, No.9, pp.1817-1824 (2005). Can be used.
  • the character string region extraction unit 13 outputs the character string region (image data) extracted as described above to the character candidate recognition unit 14 and the visual feature amount calculation unit 16. At this time, it is possible to determine from which image the extracted character string region has been extracted (extraction source image).
  • the character string region extraction unit 13 may extract a plurality of character string regions from one image. In this case, each of the character string regions extracted from the image can be discriminated, for example, by giving an ID. Further, the extracted character string area may be an overlapping area in the image. One location in the image may belong to both the vertical character string region and the horizontal character string region. This is to prevent omission of extraction of the character string even when it is not possible to clearly determine in which direction the character string is read.
  • the timing at which the character string area extraction unit 13 extracts a character string is, for example, the timing at which an image is newly stored in the image database 11. Alternatively, extraction may be performed using a user operation as a trigger.
  • the character candidate recognizing unit 14 performs character recognition from the image and identifies a plurality of character candidates for each character constituting the character string included in the character string region extracted and input by the character string region extracting unit 13. Candidate recognition means. Further, the character candidate recognition unit 14 evaluates the accuracy of character recognition with respect to each character candidate specified at the time of character recognition, and ranks each character candidate. Character recognition is performed as follows.
  • the input image of the character string area is divided into image of each character constituting the character string, and character recognition processing is performed on the image of each character.
  • Character recognition is performed by extracting a feature amount used for character recognition from an image and comparing the feature amount with a character feature amount that can be a character candidate extracted in advance.
  • a feature amount used for character recognition for example, a direction line element feature using the outline of a character can be used. This method includes, for example, Son, Tahara, Aki, Kimura: High-precision character recognition using directional line element features, Science theory, vol.J74-D-II, No.3, pp.330-339 ( 1991) can be used.
  • the short Euclidean distance of the feature amount can be used.
  • a character candidate having a feature amount closer to the feature amount extracted from the image and a feature amount closer to the Euclidean distance of the feature amount is set as a character candidate having higher accuracy.
  • the character candidates are ranked for each target character image.
  • the ranked character candidates are held as multiplexed character candidates up to the Nth place (N is a preset natural number of 2 or more).
  • N is a preset natural number of 2 or more.
  • the character candidate storage unit 15 is a character candidate storage unit that stores a plurality of character candidates specified by the character candidate recognition unit 14 in association with an image that is the specification source of the character candidates in the order of character strings.
  • the character candidate storage unit 15 stores information indicating each character candidate in the order of high accuracy evaluated by the character candidate recognition unit 14 as an index for the image for each character. This storage is performed by storing, for example, the following data (file) indicating each character candidate in the memory or hard disk of the image search apparatus 10.
  • FIG. 2 An example of information stored in the character candidate storage unit 15 is shown in FIG.
  • the example shown in FIG. 2 is a character candidate recognized from one character string area.
  • the information stored in the character candidate storage unit 15 is obtained by associating information on the order of characters (“No. j” in FIG. 2), character coordinates, and recognition results. is there.
  • the character order is information indicating the number of characters constituting the character string corresponding to the character candidate.
  • the character coordinates are information indicating at which position the character candidate is located in the original image of the character candidate.
  • the character coordinate information indicates (x coordinate, y coordinate, width, height) of the character image when the upper left corner of the image is the origin (0, 0).
  • the x-coordinate and the y-coordinate indicate a preset reference position (for example, the position of the upper left pixel of the character image) in the character image.
  • the character coordinate information is acquired by, for example, the character candidate recognition unit 14.
  • the recognition result is a list of character candidates for each character arranged in order of high accuracy.
  • the nth character candidate jth position of the recognition result C is expressed as C [n] [j].
  • C [1] [1], C [1] [2], and C [10] [1] in the recognition result C in the table of FIG. 2 are “So”, “Preliminary”, and “High”, respectively. .
  • the character candidate storage unit 15 stores information indicating the recognition result as shown in FIG. 2 in association with information for specifying an image such as a hash value of an image that is a character candidate identification source, and stores any image. It is possible to determine whether it has been extracted from. When a plurality of character string areas are extracted from one image, they are stored in association with the ID of the character string area, etc., so that it can be determined from which character string area it is extracted.
  • the character candidate storage unit 15 stores a plurality of character candidates specified by the character candidate recognition unit 14 as a character string combining any of the character candidates in association with an image that is the source of the character candidates. It is good as well. That is, a character string obtained by selecting one of the character candidates for each character as shown in FIG. 2 and combining them in the order of the character strings may be stored.
  • the character string is as shown in FIG.
  • the character strings stored in combination are not consecutive in the order of the character candidates acquired from the image, but may be characters in which character strings are partially missing.
  • “safety” and “height” of the character candidates acquired from the image are not consecutive in the order of the character candidates, but such combinations may be used.
  • even when character candidates are stored for each character it is not always necessary to determine matching in the order of character candidates in the search described later in the same manner as described above.
  • information corresponding to character candidates is associated with the character string and stored for each character. Can be handled in the same way as
  • the character strings stored here may be stored for all combinations of character candidates, or only combinations that match a character string assumed as a preset search keyword may be stored. . Moreover, it is good also as memorize
  • the visual feature amount calculation unit 16 determines the visual feature of the character string based on at least one of the size and color of the characters constituting the character string from the image of the character string region extracted by the character string region extraction unit 13. It is a visual feature quantity calculating means for calculating and storing a quantity (saliency). The visual feature amount calculation unit 16 calculates a visual feature amount based on the difference between the lightness of the pixels that are assumed to constitute the character string of the character string region and the lightness of the pixels that are assumed to constitute the background of the character string region. To do.
  • the visual feature quantity calculation unit 16 sets the lightness of the pixel that constitutes the character string of the character string region as the lightness of the pixel of the most color among the pixels, and the pixel of the pixel that constitutes the background of the character string region.
  • the lightness is the lightness of the pixel with the most color among the pixels. More specifically, the visual feature amount calculation unit 16 calculates the visual feature amount of the character string by the following processing.
  • the visual feature amount calculation unit 16 stores the calculated visual feature amount in association with the character string. This storage is performed, for example, by storing information in a memory or a hard disk of the image search apparatus 10.
  • the visual feature amount calculation unit 16 may calculate and store a visual feature amount for each character constituting the character string. According to this configuration, the visual feature amount of each character can be added to obtain the visual feature amount of the character string during the search.
  • the visual feature amount calculation unit 16 performs character recognition in the same manner as the character candidate recognition unit 14. However, the recognition of the character by the visual feature amount calculation unit 16 does not necessarily specify a plurality of character candidates.
  • the visual feature amount calculation unit 16 specifies the character size (character size) from the vertical and horizontal sizes of the character image area obtained at the time of character extraction.
  • the character size is obtained in units of points (pt), for example.
  • the visual feature amount calculation unit 16 acquires the character color and the background color using the representative color selection method for the character region and the background region included in the character image region.
  • Representative color selection methods are, for example, Hase, Yoneda, Sakai, Maruyama: Examination of color segmentation for the purpose of extracting character regions in color document images, Science theory D-II vol. J83-D-II No.5 pp.1294-1304 (2000).
  • the procedure for selecting a representative color is to first convert pixel values from the RGB color space to the L * a * b * color space for each of the character region and the background region.
  • w is a preset value.
  • the small region having the largest number of pixels compared to the number of pixels that fell in each of the small regions in the vicinity of 26 around which the pixel value of the small region was around was used as the representative color.
  • one of those areas is set as a representative color.
  • FIG. 3 shows an example in which the representative color is actually selected and the character color and the background color are acquired.
  • a region indicated by a broken line is a character string region.
  • the value of w when selecting a representative color is 4.
  • the visual feature amount calculation unit 16 obtains the lightness L from the RGB values of the representative color pixels by the following equation (1).
  • L 0.298912R + 0.586611G + 0.114478B (1)
  • the visual feature amount calculation unit 16 obtains the absolute value of the difference between the lightness L of the character color and the lightness L of the background color.
  • the visual feature amount calculation unit 16 calculates the visual feature amount of the character string from the obtained character size and brightness difference according to the table of FIG. In the table shown in FIG. 4, the visual feature amounts are qualitatively labeled as low, medium, high, etc., but they may be converted into quantitative values.
  • the visual feature amount calculation unit 16 outputs information indicating the calculated visual feature amount of the character string to the search unit 18.
  • the timing at which the visual feature amount calculation unit 16 calculates the visual feature amount is, for example, the timing at which an image is newly stored in the image database 11, similar to the timing at which the character string region extraction unit 13 extracts a character string. is there.
  • the visual feature amount is stored as information added to an index that is an index for an image, for example.
  • the search process by the search unit 18 it may be performed according to an instruction from the search unit 18.
  • the visual feature quantity calculation unit 16 is based on at least one of other character characteristics, such as shape (font) and decoration, and contrast between the character color and the background color. The visual feature amount may be calculated.
  • the search keyword input unit 17 is search keyword input means for inputting a search keyword.
  • the search keyword input unit 17 may input a plurality of keywords. In that case, information indicating whether to perform an AND search or a OR search using a plurality of keywords may be input together.
  • the search keyword is input as follows, for example.
  • the search keyword input unit 17 receives an access request from the administrator terminal 30 and transmits data of a Web page having a form for inputting a keyword to the administrator terminal 30.
  • the data of the Web page is received and displayed.
  • a keyword input operation is performed by the user, and a search request including the keyword is transmitted to the image search device 10.
  • the search keyword input unit 17 receives the search request and inputs the keyword by acquiring the keyword from the received search request.
  • the search keyword input unit 17 outputs the input keyword to the search unit 18.
  • the search unit 18 is a search unit that searches for an image stored in the image database 11 using the keyword input from the search keyword input unit 17.
  • each character constituting the keyword input from the search keyword input unit 17 matches any of a plurality of character candidates constituting the character string stored in the character candidate storage unit 15 in the order of the keyword. This is done by determining whether or not. For example, if the search keyword is “safety” and the plurality of character candidates constituting the character string are those shown in the table of FIG. 2, each of the third to fifth character candidates is set to “safe”. ”,“ All ”, and“ sex ”are included, the character string shown in FIG. 2 is determined to have hit the keyword“ safety ”. The determination of whether or not the character string hits the keyword will be described later using a flow.
  • the keyword input from the search keyword input unit 17 and the character candidate storage unit 15 store the character string.
  • the search may be performed by comparing the character string. If the character string stored in the character candidate storage unit 15 includes the keyword input from the search keyword input unit 17, the character string stored in the character candidate storage unit 15 has hit the keyword Judged to be. If the character candidate storage unit 15 stores the character string in this way, the search can be performed by determining the match between the search keyword and the character strings as described above. Processing can be made faster. If character candidates are stored as information shown in FIG. 2 without storing them as character strings, it is possible to search for unknown words and ambiguous keywords.
  • search unit 18 determines the accuracy described above.
  • the reliability (matching degree) regarding the matching is evaluated from the information indicating. More specifically, the search unit 18 calculates the character recognition reliability (similarity) for the keyword t as a value indicating the reliability from the order of the character candidates that match the character of the keyword.
  • the character recognition reliability is a value in the range of 0.0 to 1.0, and a larger value indicates higher reliability.
  • the character recognition reliability is calculated as 5 ⁇ (1 + 1 + 1 + 1 + 1) and becomes 1.00.
  • the character recognition reliability is calculated as 5 ⁇ (1 + 1 + 1 + 1 + 3) and becomes 0.71.
  • an image with a low character recognition reliability is likely to be erroneously searched, and an image with a high character recognition reliability is highly likely to contain a search keyword correctly. That is, the character recognition reliability can be used as an index that includes the search keyword more accurately. Therefore, by sorting the search results based on the character recognition reliability when listing an image including a search keyword from among a large number of images, it is possible to preferentially present an image with a result with few search errors.
  • the search unit 18 may determine the number of character candidates for determining a match with the keyword according to the number of characters of the keyword. As will be described in detail later, when the number of characters in the search keyword is small (the search keyword is short), a tendency for a search error to occur and the relevance rate to be low is recognized. Therefore, for example, when it is determined that the number of characters of the keyword is equal to or less than a preset threshold value, the number of character candidates for determining a match may be smaller than usual. After determining the number of character candidates, the search unit 18 determines a character candidate for determining a match with the keyword from information indicating the accuracy of the character candidate. Specifically, the search unit 18 sets character candidates up to the determined number of character candidates as character candidates for determining a match.
  • the search unit 18 calculates a score value of an image including the character candidate for the keyword from the search result of matching between the keyword and the character candidate. This score value indicates the order of images to be output as search results. In this embodiment, the score value indicates a high possibility that a search keyword is included in an image in an inappropriate manner.
  • the search unit 18 determines the m-th character string (t, t) included in the image from the visual feature quantity saliency (t) and the character recognition reliability similarity (t) of the search keyword t obtained as described above.
  • the character feature amount termscore (t, m) of m) is obtained by the following equation (3).
  • termscore (t, m) (1- ⁇ ) ⁇ similarity (t, m) + ⁇ ⁇ saliency (t, m) (3)
  • is a value indicating the weight between the visual feature quantity and the character recognition reliability.
  • is a value between 0 and 1, and is a preset value.
  • 0
  • the m-th character string in the image indicates which character string among the character strings related to a plurality of character string regions extracted by the character string region extraction unit 13. m takes one of the values from 1 to the number of character string regions extracted by the character string region extraction unit 13.
  • the search unit 18 uses the visual feature amount calculation unit 16 to calculate the visual feature amount from the character string region in which a plurality of character candidates constituting the character string in which the characters constituting the keyword are matched in the order of the keyword.
  • a score value of an image including the character string is calculated from the feature amount.
  • the search unit 18 calculates score values for a plurality of keywords input by the search keyword input unit 17.
  • the search unit 18 calculates tf-idf of the keyword included in the image in order to consider the appearance frequency of the keyword included in the image.
  • tf-idf is known as an algorithm for extracting characteristic words in a sentence, and is an index mainly used in fields such as information retrieval and document summarization.
  • tf is an appearance frequency of a word in a document
  • idf is a reverse appearance frequency for decreasing the importance of a word appearing in many documents and increasing the importance of a word appearing only in a specific document.
  • the concept of tf-idf is extended to characters in the image, and the image score is calculated by using it in combination with the visual feature quantity of the character string and the character recognition reliability.
  • the search unit 18 uses 2 of the character feature values of each of the search keywords t included in tf (t) in the image according to the following equation (4). The sum of multiplication is obtained and the score of the image by the search keyword is used.
  • the association between the character string and the image the information on the association between the character candidate and the image stored by the character candidate storage unit 15 is referred to.
  • m is a subscript of a character string including the keyword t in the target image, and is an integer in the range of 1 to tf (t).
  • the image score when performing a search with a plurality of search keywords can be calculated using the value of idf (t).
  • the idf (t) of the search keyword t is obtained by the following equation (5) using the total number of images to be searched (A) and the number of images including t (S).
  • idf (t) becomes a larger value as the number of images including the search keyword t is smaller, and indicates a rare word.
  • idf (t) log (A / (S + 1)) + 1 (5)
  • the image score when performing an AND search with a plurality of search keywords is a numerical value obtained by multiplying the image score score (t, image) of the plurality of search keywords t included in the query (search request) q by the value of idf (t). Is obtained by the following equation (6).
  • the image score when performing an OR search with a plurality of search keywords is the sum of numerical values obtained by multiplying the image score score (t, image) of the plurality of search keywords t included in the query q by the value of idf (t). It calculates by calculating
  • the search unit 18 calculates a score value based on the ratio of the number of images including a keyword to the number of images stored in the image database 11.
  • the score of a very large image of 600 ⁇ 10,000 pix (pixel) becomes very low, or the score of a small banner image of about 20 ⁇ 100 pix is It may increase rapidly. For this reason, in the present embodiment, it is not always necessary to perform weighting based on the amount of text in the image.
  • the search unit 18 outputs to the output unit 19 information indicating images hit by the keyword by the search, and an image score score (q, image) for those images.
  • the output unit 19 is an output unit that outputs the result of the search performed by the search unit 18.
  • the output unit 19 outputs information indicating an image hit with the keyword.
  • the information indicating the image output by the output unit 19 is based on the correspondence between the character candidates stored in the character candidate storage unit 15 and the images.
  • the output by the output unit 19 is performed by transmitting Web page information including search result information to the administrator terminal 30.
  • FIG. 6 shows an example in which the Web page is displayed on the browser of the administrator terminal 30. As shown in FIG. 6, an image that hits the keyword is displayed. Here, the displayed images are arranged in descending order of the image score score (q, image). That is, the output unit 19 outputs the search result by the search unit 18 based on the reliability regarding the match between the keyword and the character candidate evaluated by the search unit 18. Further, the output unit 19 outputs the search result by the search unit 18 according to the score value of each image calculated by the search unit 18.
  • the output unit 19 outputs information based on information associated with the hash value of the image stored in the image database 11.
  • the output unit 19 uses the information obtained by the search by the search means and indicating an image not including a plurality of the same images, and the image stored in the image database 11 in association with the hash value of the image. And information indicating the website being visited. More specifically, the output unit 19 outputs information indicating the image obtained by the search by the search unit 18, receives an input for selecting an image according to the output, and hashes the image related to the input. Information indicating a Web site where the image stored in association with the value is used is output.
  • the output unit 19 transmits, to the administrator terminal 30, data of a Web page that displays an image that has hit a keyword as a result of the search by the search unit 18.
  • those images are displayed on the browser.
  • a region A1 in FIG. 6 is a portion where an image hit with a keyword is displayed.
  • the administrator terminal 30 selects Information indicating the processed image is transmitted to the image search apparatus 10.
  • the output unit 19 receives information indicating the selected image, refers to the image database 11, acquires information indicating the Web site associated with the hash value of the image, and sends it to the administrator terminal 30. Output.
  • the output unit 19 refers to the image database 11 and acquires information indicating the sales price of the product associated with the information indicated on the Web site.
  • the output unit 19 outputs the information indicating the website so that the information is displayed in order of the sales price of the product (for example, in order of high price or low price) when transmitting information indicating the Web site to the administrator terminal 30. Further, when the information indicating the Web site is displayed on the administrator terminal 30, the sales price of the product and the description of the product on the Web site may be displayed together.
  • a region A2 in FIG. 6 is a portion where information indicating a Web site where an image is used, a selling price of a product, and the like are displayed. As described above, the output unit 19 outputs information indicating the Web site where the image is used according to the sales price stored in the image database 11.
  • the functional configuration of the image search device 10 has been described above.
  • processing executed by the image search apparatus 10 according to the present embodiment will be described with reference to the flowcharts of FIGS.
  • the process until the information for image search is generated will be described using the flowchart of FIG. 7, and then the process of actually performing the image search will be described using the flowcharts of FIGS.
  • an image to be searched is input, and the image registration unit 12 registers the image in the image database 11 (S01).
  • information accompanying the image such as information indicating the Web site where the image is used and information on the sales price of the product related to the image is also input.
  • the image search apparatus 10 stores the hash value in association with the hash value.
  • the input of the image is performed from the administrator terminal 30 by an operation of a user of a business operator who manages the cyber mall, for example. When a plurality of images are input, registration is performed for each image, and the following processing is performed.
  • the character string region extraction unit 13 extracts a character string region including a character string in the image stored in the image database 11 (S02, character string region extraction step).
  • the extracted character string image is output from the character string region extraction unit 13 to the character candidate recognition unit 14.
  • the character candidate recognition unit 14 divides the extracted image of the character string area into images of characters constituting the character string (S03, character candidate recognition step). Subsequently, the character candidate recognition unit 14 performs character recognition processing on each of the divided images, and specifies a predetermined number of character candidates for each character (S04, character candidate recognition step). . Information indicating the character candidates specified in this way is output from the character candidate recognition unit 14 to the character candidate storage unit 15. When a plurality of character string areas are extracted in S02, the above processing is performed for each character string area.
  • the character candidate storage unit 15 stores information on the plurality of character candidates input from the character candidate recognition unit 14 so that the information can be searched from the search unit 18 during the search process (S05, character candidate storage). Step). The above is the processing until the information for image search is generated.
  • a search keyword is input by the search keyword input unit 17 (S11, search keyword input step).
  • the search keyword is input by receiving, for example, a search request including the keyword from the administrator terminal 30.
  • the input search keyword is output from the search keyword input unit 17 to the search unit 18.
  • the search unit 18 determines whether the input search keyword matches any of the character candidates stored in the character candidate storage unit 15, thereby performing a search using the keyword ( S12, search step).
  • each character of the search keyword is assumed to be Keyword [i].
  • i is a subscript indicating the order of the characters of the keyword.
  • Keyword [1] represents the first character of the search keyword.
  • the number of characters of the search keyword is Keyword.length.
  • C [n] [j] be a character candidate of the character string acquired from the image.
  • n is a subscript indicating the order of characters in the character string
  • j is a subscript indicating the order of character candidates (similar to the description in the table of FIG. 1).
  • N indicates the number of characters in the character string.
  • the ranking of the character candidates determined to match the keyword is up to the 30th.
  • the search process is terminated as if the keyword and the character candidate of the character string did not match. If it is determined that the condition of S1210 is not satisfied (NO in S1210), the process returns to S1202. This is for determining the match between the character next to the keyword and the first character candidate of the character next to the character string.
  • the matching between the keyword and the character candidate constituting the character string is determined for all character strings to be searched. If there are a plurality of keywords input in S11, the above determination is made for a plurality of keywords.
  • the score of the character string is calculated for the character string determined to match the keyword (S13, search step). Specifically, the score is calculated as follows. First, the search unit 18 calculates the character recognition reliability for the character string (character candidate) that matches the keyword, using the above-described equation (2) (S131, search step).
  • the visual feature value of the image of the character string area related to the character string that matches the keyword is calculated using the above-described equation (1) (S132, visual feature value calculating step).
  • the visual feature amount is calculated by the visual feature amount calculation unit 16 when an instruction is given from the search unit 18 to the visual feature amount calculation unit 16.
  • the calculation of the visual feature amount by the visual feature amount calculation unit 16 does not necessarily have to be performed at this timing, and is performed and stored in advance at the same timing as S04, for example, and stored at this timing. It is also possible to refer to the information.
  • Information indicating the calculated visual feature value is output from the visual feature value calculation unit 16 to the search unit 18.
  • the search unit 18 calculates the character feature quantity termscore (t, m), which is the score value of the character string, using the above-described equation (3) (S133, search step).
  • idf (t) which is a value indicating the keyword usage rate
  • search unit 18 uses the above-described formula (5) (S14, search step).
  • any one of the above-described formula (4), formula (6), and formula (7) is used by the search unit 18 from the calculated character feature quantity termscore (t, m) and idf (t).
  • the image score score (q, image) is calculated (S15, search step).
  • Information indicating an image including the character string determined to match the keyword in S12 and information indicating the image score are output from the search unit 18 to the output unit 19.
  • the output unit 19 outputs the search result by the search unit 18 (S16, output step).
  • the search result is output by generating search result information corresponding to the search request from the administrator terminal 30 from the information input from the search unit 18 and transmitting it to the administrator terminal 30.
  • the search result information is displayed on the administrator terminal 30 as information indicating an image including a character string determined to match the keyword in descending order of the image score as described above.
  • information on the Web site where the image is used is also transmitted from the output unit 19 to the administrator terminal 30. The user can recognize the search result by referring to the search result displayed on the administrator terminal 30. The above is the process of actually performing the image search in the image search apparatus 10.
  • each character of the character string included in the image is recognized as a plurality of character candidates. That is, in this embodiment, the recognition results are multiplexed. Then, a search is performed by determining whether each character of the search keyword matches any of the character candidates. Therefore, in the present embodiment, if each character of the search keyword matches the character candidate, it is determined that the keyword is included in the character string included in the image.
  • the character in the image is likely to cause a character recognition error due to character cutout or character extraction.
  • the image is as described above, even if it is difficult to uniquely recognize each character constituting the character string included in the image, a plurality of character candidates are obtained for each character. Search is prevented from being omitted, and the search can be performed appropriately.
  • the number of character candidates for determining a match it is desirable to determine the number of character candidates for determining a match according to the number of characters in the search keyword. According to this configuration, it is possible to perform a search for an image more appropriately according to the number of characters of a search keyword. However, it is not always necessary to determine the number of character candidates as described above, and the number of character candidates for determining a match may be set to a predetermined value (for example, 30 as in the above example). .
  • a search for a plurality of search keywords such as an AND search and an OR search can be performed, and a search that is more convenient for the user can be performed.
  • the score value based on the visual feature amount as in the present embodiment.
  • a search keyword when a search keyword is characteristically used in an image, a search result that ranks the image higher can be output. That is, according to this configuration, it is possible to facilitate detection when a search keyword is characteristically used in an image. For example, even in an image including the same character string, the score value is higher in the case of an image represented by a large character such as a title than in the case where the image is described by a small character. This makes it possible to find an expression that is visually noticeable and has a high probability of being illegal. However, for example, when it is not necessary to extract visually characteristic characters, it is not always necessary to calculate the visual feature amount and reflect the visual feature amount in the score value.
  • the feature of the present invention using the visual feature amount is obtained by the following knowledge of the inventor of the present invention. Even if an image uses a search keyword for detecting an illegal image, there are many cases where the expression is not necessarily incorrect depending on how the keyword is used.
  • the inventor of the present invention visually confirmed 674 images that the manager of the cyber mall determined in advance as an unauthorized image as a preliminary experiment.
  • an image including an illegal expression is characterized in that (1) many illegal words are visually conspicuous (2) the appearance frequency of illegal words is high (3) a plurality of illegal words are included in the image. I understood.
  • the score value of the image is calculated from the visual feature amount. Note that the appearance frequency and the like are also reflected in the above-described features of the present invention.
  • a brightness difference of 125 or more and a color difference of 500 or more are easy to read color combinations. It is known that it is necessary to ensure the brightness difference between the character color and the background color and the contrast due to the color difference in order to make the content easy to read in web content production. In addition, our research shows that the lightness difference of the color scheme is greatly related to the readability from the evaluation results of 1600 samples in which the color of the character and the background are each changed in 40 ways.
  • the hash value obtained from the image is associated with information indicating the Web site where the image is used, and output based on the correspondence.
  • the hash value is the same image, the value is within a certain range, so images used in a plurality of locations can be handled as one image. Therefore, according to this configuration, even if the same image is used at a plurality of locations, the search result can be used effectively. That is, it is possible to prevent the same image from being arranged as a search result, and to efficiently find the image that the user wants to search. For example, it is possible to prevent the same image describing the keyword searched by the user from being arranged as a search result.
  • the image search apparatus 10 includes both the processing until the information for image search is generated and the processing for actually performing the image search using the generated image search information. It was. However, apparatuses that perform only the above-described processes may be separately configured as apparatuses according to the present invention. That is, one of the devices is an information processing device including at least the image database 11, the character string region extraction unit 13, the character candidate recognition unit 14, and the character candidate storage unit 15 among the functions described above. This is a search information generation device. Another apparatus is an image search apparatus that is an information processing apparatus including at least a character candidate storage unit 15, a search keyword input unit 17, a search unit 18, and an output unit 19 among the functions described above. .
  • the description image of the product sold at Cyber Mall is described as an example of the search target image.
  • the search target image is not limited to the above-described target image, and an arbitrary image is searched. May be a target.
  • the present invention can also be applied to a case where a search is performed on a book that is converted into electronic data.
  • the purpose of the image search according to the present invention is not limited to the above, and may be used for any purpose.
  • the search may be performed using a criterion other than the above-described criterion. For example, when detecting an illegal expression expressed by a small character, a criterion that increases the score as the character is smaller may be used.
  • search keywords are, for example, white skin, cells, hair growth, hair loss, hay fever, rejuvenation, and anti-aging.
  • the administrator of CyberMall recognized the characters in the image by the above-described method using the sample image containing the illegal expression detected in the “medicine / contact / care category”, and obtained the recognition result.
  • the character category 3410 characters including English, numbers, symbols, hiragana, katakana, and kanji (JIS first level) are used.
  • Three fonts were used: “style”, “HGP line typeface”, and “MS Gothic”.
  • FIG. 10 is a graph showing the relationship between the number of character candidates and the above values. As shown in FIG. 10, it can be seen that increasing the number of character candidates tends to reduce the matching rate and increase the recall rate, and it is possible to reduce omissions by multiplexing the character recognition results. In addition, since the F value is stable when the number of character candidates is around 30, and the difference in search performance is small after the number of character candidates is 30, the character recognition method in this embodiment uses character candidates up to the 30th place. It turns out that a favorable search result is obtained.
  • the table of FIG. 11 shows the relationship between the length of the search keyword and the search accuracy when the number of character candidates is 30.
  • the search keyword when the search keyword is short, there is a tendency that a search error occurs and the relevance rate is low. This is because increasing the number of character candidates increases the probability of detecting a misrecognized character recognition result, and increases the precision by adjusting the number of character candidates according to the length of the search keyword. It is possible.
  • the recall is low as a whole. This is because the sample image includes many cases in which character extraction and recognition are difficult, such as character strings arranged in an arch shape, italic characters, and a small size.
  • the table of FIG. 13 shows the result of calculating the sample image score by changing the parameter ⁇ for balancing the above-described character recognition reliability and visual feature amount in increments of 0.2 from 0.0 to 1.0. Show.
  • the visual feature quantity saliency (t) described above cannot reflect the visual features of the characters in the image in the score when saliency (t) is 0.0 in Equation (3).
  • Low is 0.5
  • high is 1.0
  • medium is 0.75, which is an intermediate value.
  • the image search apparatus 10 character search system in the image
  • the created system is a web application that runs on a web server.
  • Lucene a full-text search engine managed by the Apache project
  • word segmentation analyzer uni-gram
  • N-gram implemented in Lucene
  • the image score corresponding to the search keyword is calculated by giving the field a visual feature amount obtained from the contrast between the character color and the background color and the character size at the time of index creation.
  • the recognition results obtained as a result of performing character recognition in the image in advance for the image are indexed.
  • the index with 1 to 30 character candidates is used using the 66 search keywords used for the evaluation of the change in accuracy of the character search in the image according to the number N of character candidates, and the number of character candidates is determined.
  • FIG. 14 shows a graph showing the relationship between the number of character candidates and the search time.
  • the search time for the number of character candidates increases by O (n).
  • the average search time is about 350 milliseconds, and it can be seen that response performance that can withstand practical use is realized in the sense that no stress is felt.
  • the average search time is an average time when the above 66 keywords are used as a query and the search is performed 10 times.
  • the information processing program 41 is stored in a program storage area 40a that is inserted into a computer and accessed, or formed in a recording medium 40 provided in the computer.
  • the information processing program 41 includes a main module 41a that centrally controls image search processing, an image database module 41b, an image registration module 41c, a character string extraction module 41d, a character candidate recognition module 41e, and a character candidate storage module. 41f, a visual feature amount calculation module 41g, a search keyword input module 41h, a search module 41i, and an output module 41j.
  • the functions realized by executing the search module 41 i and the output module 41 j are the image database 11, the image registration unit 12, the character string region extraction unit 13, and the character candidate recognition unit of the image search device 10 described above. 14, the character candidate storage unit 15, the visual feature amount calculation unit 16, the search keyword input unit 17, the search unit 18, and the output unit 19.
  • each module of the information processing program 41 may be installed in any one of a plurality of computers instead of one computer. In that case, a process of performing information processing of the above-described series of information processing programs 41 is performed by the computer system of the plurality of computers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

 複雑なレイアウト構造や飾り文字等を含む画像に対しても適切に検索を行う。 画像検索装置10は、検索対象の画像を格納する画像データベース11と、画像における文字列が含まれる文字列領域を抽出する文字列領域抽出部13と、文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識部14と、複数の文字候補を文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶部15と、検索用のキーワードを入力する検索キーワード入力部17と、検索用のキーワードを構成する各文字が文字列を構成する複数の文字候補の何れかに一致するか否かを検索する検索部18と、検索の結果を出力する出力部19とを備える。

Description

情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
 本発明は、画像検索に係る情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体に関する。
 画像に対する検索方法として、例えば、画像に含まれる文字列をテキスト化してテキスト化された文字列に対して検索を行うことが考えられる。画像に含まれる文字列をテキスト化する技術として、例えば、特許文献1に記載されたような文字認識を行うものがある。
特開2001-337993号公報
 しかしながら、上述した従来技術では、複雑なレイアウト構造や飾り文字(フォント)を含んだ画像に対しては、多くの認識誤りを含む場合がある。
 本発明は、上記を鑑みてなされたものであり、複雑なレイアウト構造や飾り文字等を含む画像に対しても適切に検索を行うことができる情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体を提供することを目的とする。
 上記目的を達成するために、本発明に係る情報処理装置は、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、文字候補認識手段によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、を備えることを特徴とする。
 本発明に係る情報処理装置では、画像に含まれる文字列の各文字を複数の文字候補として認識して記憶する。そして、記憶した情報が用いられて、検索用のキーワードの各文字が、文字候補の何れかに一致するかが判定されることによって検索される。従って、本発明に係る情報処理装置では、検索用のキーワードの各文字が文字候補と一致していれば、画像に含まれる文字列の中にキーワードが含まれると判断されることが可能である。これにより、本発明に係る情報処理装置によれば、検索対象の画像が複雑なレイアウト構造や飾り文字等を含む画像等であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、適切に検索を行うことができる。
 情報処理装置は、検索用のキーワードを入力する検索キーワード入力手段と、前記キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に前記文字候補記憶手段によって記憶された前記文字列を構成する前記複数の文字候補の何れかに一致するか否かを検索する検索手段と、前記検索手段による検索の結果を、前記文字候補記憶手段によって記憶された前記文字候補と画像との対応付けに基づいて出力する出力手段と、を更に備えることが望ましい。この構成によれば、文字候補記憶手段によって記憶された情報を用いて確実に検索を行うことができる。
 文字候補認識手段は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、文字候補記憶手段は、文字候補認識手段によって評価された正確性を示す情報に基づいて文字候補を記憶し、検索手段は、キーワードを構成する各文字が、文字候補記憶手段によって記憶された複数の文字候補の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、出力手段は、信頼性にも基づいて、検索結果を出力する、ことが望ましい。この構成によれば、画像に含まれる文字列を構成する各文字の認識の正確性に基づいて、検索の信頼性に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
 検索手段は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定して、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字候補を決定することが望ましい。この構成によれば、検索用のキーワードの文字数に応じた、より適切に画像に対する検索を行うことができる。
 検索手段は、キーワードと文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、出力手段は、検索手段による検索の結果をスコア値に応じて出力する、ことが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
 また、上記目的を達成するために、本発明に係る情報処理装置は、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、文字候補認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、を備えることを特徴とする。
 上記の構成のように、文字候補を組み合わせた文字列を検索用の情報として記憶することとしたとしても、検索対象の画像が複雑なレイアウト構造や飾り文字等を含む画像等であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、適切に検索を行うことができる。また、検索用のキーワードと、当該文字候補の何れかを組み合わせた文字列との一致を判断することによって検索を行うことができるので、検索処理を速くすることができる。
 情報処理装置は、検索用のキーワードを入力する検索キーワード入力手段と、キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に文字候補記憶手段によって記憶された文字列の何れかに一致するか否かを検索する検索手段と、検索手段による検索の結果を、文字候補記憶手段によって記憶された文字列と画像との対応付けに基づいて出力する出力手段と、を更に備えることが望ましい。この構成によれば、文字候補記憶手段によって記憶された情報を用いて確実に検索を行うことができる。
 文字候補認識手段は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、文字候補記憶手段は、文字候補認識手段によって評価された正確性を示す情報に基づいて文字列を記憶し、検索手段は、キーワードを構成する各文字が、文字候補記憶手段によって記憶された文字列の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、出力手段は、信頼性にも基づいて、検索結果を出力する、ことが望ましい。この構成によれば、画像に含まれる文字列を構成する各文字の認識の正確性に基づいて、検索の信頼性に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
 検索手段は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定して、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字列を決定することが望ましい。この構成によれば、検索用のキーワードの文字数に応じた、より適切に画像に対する検索を行うことができる。
 検索手段は、キーワードと文字列との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、出力手段は、検索手段による検索の結果をスコア値に応じて出力する、ことが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
 検索手段は、キーワード入力手段によって入力された複数のキーワードに対してスコア値を算出する、ことが望ましい。この構成によれば、複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。
 検索手段は、画像データベースに格納された画像数に対する、キーワードを含む画像数の割合に基づいて、スコア値を算出することが望ましい。この構成によれば、画像に含まれるキーワードの出現率に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
 情報処理装置は、文字列領域抽出手段によって抽出された文字列領域の画像から、各文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量を算出する視覚的特徴量算出手段を更に備え、検索手段は、キーワードの各文字が当該キーワードの順に一致した文字列の文字候補が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する、ことが望ましい。この構成によれば、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量に応じて検索結果が出力される。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、この構成によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。
 画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているWebページの箇所を示す情報とを対応付けて格納し、出力手段は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebページの箇所を示す情報とを出力する、ことが望ましい。この構成では、検索対象となる画像のハッシュ値と当該画像が利用されているWebページの箇所を示す情報とが対応付けられて格納されており、検索結果として、検索によって得られた画像を示す情報と、当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebページの箇所を示す情報とが出力される。ハッシュ値は同一の画像であれば、一定の範囲内の値となるため複数のWebページの箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数のWebページの箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。
 ところで、本発明は、上記のように情報処理装置の発明として記述できる他に、以下のように情報処理方法、及び情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
 即ち、本発明に係る情報処理方法は、検索対象の画像を格納する画像データベースを備える情報処理装置による情報処理方法であって、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識ステップと、文字候補認識ステップによって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶ステップと、を含むことを特徴とする。
 また、本発明に係る記憶媒体は、一つ以上のコンピュータを、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、文字候補認識手段によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
 本発明では、検索用のキーワードの各文字が複数の文字候補と一致していれば、画像に含まれる文字列の中にキーワードが含まれると判断されることが可能である。これにより、本発明よれば、検索対象の画像が複雑なレイアウト構造や飾り文字等を含む画像等であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、適切に検索を行うことができる。
本発明の実施形態に係る情報処理装置である画像検索装置の機能構成を示す図である。 画像から認識されて画像検索装置によって記憶される文字候補の例を示す表である。 画像の文字列領域から文字色と背景色とを取得した例を示す図である。 文字列の文字サイズ、及び文字色の明度と背景色の明度との差から文字列の視覚的特徴量を求めるための表である。 検索キーワードと文字認識信頼度との関係を説明するための図である。 画像検索装置から検索結果として出力されて表示された画面の例である。 本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、画像検索用の情報を生成するまでの処理を示すフローチャートである。 本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、画像検索を実際に行う処理を示すフローチャートである。 本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、キーワードの検索処理を示すフローチャートである。 文字候補数と画像内文字検索の精度との関係を示すグラフである。 目視結果と検索結果との比較(N=30の場合)を示す表である。 実験に用いたサンプル画像である。 画像スコアの計算結果を示す表である。 文字候補数と検索時間との関係を示すグラフである。 本発明の実施形態に係る情報処理プログラムの構成を、記録媒体と共に示す図である。 画像検索装置によって記憶される、画像から認識された文字候補を組み合わせた文字列の例を示す表である。
 以下、図面とともに本発明に係る情報処理装置、情報処理方法、情報処理プログラム、情報処理プログラムを記録した記録媒体及び画像検索用情報生成装置の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
 図1に本実施形態に係る情報処理装置である画像検索装置10を示す。画像検索装置10は、検索対象の画像に対する検索要求を受け付けて、当該検索要求に応じた検索結果を出力する装置である。本実施形態では、検索対象の画像は、サイバーモールで販売される商品の説明画像である。画像検索装置10による画像検索の目的としては、商品の説明画像として不適切な画像がないかどうかをチェックするというものである。商品の説明画像として不適切な画像とは、例えば、健康商品や化粧品等の商品の効果を消費者に過剰に期待されるものである。上記のような検索対象及び目的から画像検索装置10は、例えば、サイバーモールを管理する事業者によって用いられる。従って、画像検索装置10は、図1には明示していないがサイバーモールを構成するサーバに接続する等して検索対象の画像を取得できるようになっている。
 画像検索装置10は、管理者端末30と接続されて互いに情報の送受信を行うことができる。画像検索装置10は、管理者端末30から検索対象の画像に対する検索要求を受信して、検索要求に応じた検索結果を示す情報を管理者端末30に出力する。
 画像検索装置10は、CPU(Central Processing Unit)やメモリ、通信モジュール等のハードウェアを備えるサーバ装置等のコンピュータにより実現される。これらの構成要素がプログラム等のより動作することによって、後述する画像検索装置10の機能が発揮される。また、画像検索装置10は、複数のコンピュータからなるコンピュータシステムによって構成されていてもよい。
 管理者端末30は、上述したサイバーモールを管理する事業者のユーザによって用いられる通信機能を有する端末であり、画像検索装置10と情報の送受信を行うことができる。管理者端末30は、具体的には、PC(Personal Computer)等の通信装置に相当する。
 引き続いて、画像検索装置10の機能的な構成を説明する。図1に示すように画像検索装置10は、画像データベース11と、画像登録部12と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16と、検索キーワード入力部17と、検索部18と、出力部19とを備えて構成される。
 画像データベース11は、検索対象の画像を格納(記憶)するデータベースである。画像データベース11に格納される画像は、上述したようにサイバーモールを構成するWebサイトに掲載されている、当該サイバーモールで販売される商品の説明画像である。各画像には、画像を特定するID等の情報が付与されており、画像を特定できるようになっている。また、画像データベース11は、同一の画像については重複して格納しない。即ち、画像データベース11は、同一の画像を複数含まないように画像を格納する。画像データベース11は、具体的には、画像検索装置10が備えるメモリやハードディスク等のハードウェアによって実現される。画像データベース11は、データベースを構成するソフトウェアによって格納する画像のデータを管理してもよいし、単にメモリやハードディスク等に画像のデータを格納するだけのものであってもよい。
 画像データベース11は、格納する画像に対応付けて、当該画像にハッシュ関数を適用することによって得られるハッシュ値を記憶する。当該ハッシュ関数は、予め設定された特定のハッシュ関数である。同一の画像であれば、そこから得られるハッシュ値は一定の範囲内のものになる。これにより、サイバーモールにおいて同一の画像が複数のWebサイトで用いられていた場合、一つのハッシュ値で管理することができる。なお、ここでは、文字色が類似(赤とオレンジ等)している画像や文字の大きさが類似している画像等のユーザにとって同じとみなせる画像についても同一の画像であるものとしてもよい。上記のハッシュ値の一定の範囲は、同一の画像と見なせる画像に応じて適宜設定することができる。画像データベース11は、上記のハッシュ値に、当該画像が利用されているWebページの箇所であるWebサイトを示す情報を対応付けて格納する。Webサイトを示す情報は、例えば、URL(Uniform Resource Locator)である。また、画像データベース11は、上記のWebサイトを示す情報それぞれに数値を対応付けて格納する。この数値は、例えば、当該Webサイトにおける当該画像に係る商品の販売価格である。また、上記のWebサイトを示す情報それぞれには、当該Webサイトにおける当該商品の説明等のその他の情報が対応付けられていてもよい。上記のようなデータ構成によって、画像データベース11は、画像と、画像が用いられているWebサイト及び当該Webサイトにおける当該画像に係る商品の販売価格の情報とを対応付けて記憶することができる。
 画像登録部12は、新たに画像データベース11に登録する画像と当該画像が利用されているWebサイトを示す情報とを入力して、それらの情報を画像データベースに格納させる画像登録手段である。画像登録部12は、予め上述した特定のハッシュ関数を記憶しておく。画像登録部12は、入力した画像にそのハッシュ関数を適用してハッシュ値を算出する。画像登録部12は、画像データベース11に格納されたハッシュ値を読み出して、算出したハッシュ値が画像データベース11に既に格納されているハッシュ値から一定の範囲内の値であるか否かを判断する。画像登録部12は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値であると判断された場合には、当該既に格納されているハッシュ値に当該画像が利用されているWebサイトを示す情報を対応付けて画像データベース11に格納させる。画像登録部12は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値でないと判断された場合には、入力した画像及びWebサイトを示す情報、並びに算出したハッシュ値を対応付けて新たに画像データベース11に格納させる。その際、上述したように当該Webサイトにおける当該画像に係る商品の販売価格の情報等も合わせて登録することとしてもよい。
 画像登録部12への、画像と当該画像が利用されているWebサイトを示す情報との入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末30から行われる。あるいは、サイバーモールのWebサイトにおいて新たに画像が利用された場合に自動的に入力が行われることとしてもよい。
 文字列領域抽出部13は、画像データベース11に格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段である。文字列領域の抽出は、例えば、以下のように行われる。まず、画像内の文字を抽出するために対象画像をグレースケース画像に変換した後、判別分析法により閾値を決定し2値画像に変換する。この方法には、例えば、大津:判別および最小2 乗規準に基づく自動しきい値選定法,信学論D, Vol.63, No.4,pp.349-356(1980)に記載された方法を用いることができる。次に2値画像にラベリング処理を行い、得られた画像連結要素をピッチ、縦横比及び角度を用いて領域を連結し横方向と縦方向に並んだ文字列画像を抽出する。この方法には、例えば、芦田,永井,岡本,宮尾,山本:情景画像からの文字抽出,信学論D, Vol.J88-D2, No.9,pp.1817-1824(2005)に記載された方法を用いることができる。
 文字列領域抽出部13は、上記のように抽出した文字列領域(の画像のデータ)を文字候補認識部14及び視覚的特徴量算出部16に出力する。この際、抽出した文字列領域が、何れの画像から抽出を行ったかを(抽出元の画像を)判別できるようにしておく。なお、文字列領域抽出部13は、1つの画像から複数の文字列領域を抽出することとしてもよい。この場合、画像から抽出した文字列領域それぞれを例えば、IDを付与する等として判別できるようにしておく。また、抽出される文字列領域は、画像中で領域が重複するものであってもよい。画像中において1つの箇所が、縦方向の文字列領域と、横方向の文字列領域との両方に属するものであってもよい。何れの方向に文字列を読むか明確に判別できない場合であっても、文字列の抽出漏れを防止するためである。
 文字列領域抽出部13が文字列を抽出するタイミングは、例えば、新たに画像データベース11に画像が格納されたタイミングである。あるいは、ユーザの操作をトリガとして抽出が行われてもよい。
 文字候補認識部14は、文字列領域抽出部13によって抽出されて入力された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段である。また、文字候補認識部14は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、各文字候補の順位付けを行う。文字認識は、以下のように行われる。
 形態素解析を用いて、入力された文字列領域の画像を文字列を構成する各文字の画像に分割して、各文字の画像に対して文字認識処理を行う。文字認識は、画像から文字認識に用いる特徴量を抽出して、その特徴量と予め抽出しておいた文字候補となりえる文字の特徴量とを比較することによって行われる。文字認識に用いる特徴量は、例えば、文字の輪郭を利用した方向線素特徴を用いることができる。この方法には、例えば、孫,田原,阿曽,木村:方向線素特徴量を用いた高精度文字認識,信学論, vol.J74-D-II, No.3,pp.330-339(1991)に記載された方法を用いることができる。
 文字認識の正確性としては、例えば、特徴量のユークリッド距離の短さを用いることができる。即ち、画像から抽出した特徴量と、特徴量のユークリッド距離で近い特徴量を有する文字ほど正確性が高い文字候補とする。この文字認識の正確性を用いて、各対象文字画像に対して、文字候補に順位付けを行う。順位付けされた文字候補は、第N位までの多重化された文字候補として保持される(Nは、予め設定された2以上の自然数)。このように文字列を構成する各文字に対して、複数の文字候補を保持することで、文字候補誤りによる検索漏れを回避する。文字候補認識部14は、上記のように、文字列領域から特定した文字列を構成する各文字の複数の文字候補の情報を文字候補記憶部15に出力する。
 文字候補記憶部15は、文字候補認識部14によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段である。文字候補記憶部15は、文字候補認識部14によって評価された正確性が高い順番に各文字候補を示す情報を文字毎に画像に対するインデックスとして記憶する。この記憶は、例えば、画像検索装置10のメモリやハードディスク等に、例えば下記のような各文字候補を示すデータ(ファイル)を格納することによって行われる。
 文字候補記憶部15が記憶する情報の例を図2に示す。図2に示す例は、1つの文字列領域から認識される文字候補である。図2に示すように、文字候補記憶部15が記憶する情報は、文字の順番(図2における「No.j」)と、文字座標と、認識結果との情報がそれぞれ対応付けられたものである。文字の順番は、その文字候補が、文字列を構成する何番目の文字に相当するかを示す情報である。文字座標は、その文字候補が文字候補の特定元の画像における何れの位置にあるかを示す情報である。文字座標の情報は、画像左上を原点(0,0)とした場合の文字画像の(x座標,y座標,幅,高さ)を示すものである。ここで、x座標及びy座標は、文字画像における予め設定された基準位置(例えば、文字画像の左上の画素の位置)を示すものである。文字座標の情報は、例えば、文字候補認識部14によって取得される。
 認識結果は、各文字の文字候補を正確性が高い順番に並べたものである。ここでは、認識結果Cのn番目の文字候補第j位をC[n][j]と表現する。例えば、図2の表の認識結果CにおけるC[1][1]、C[1][2]及びC[10][1]は、それぞれ「そ」、「予」及び「高」となる。
 文字候補記憶部15は、図2に示すような認識結果を示す情報を、文字候補の特定元である画像のハッシュ値等の画像を特定する情報に対応付けて記憶しておき、何れの画像から抽出されたのか判別できるようにしておく。また、1つの画像から複数の文字列領域が抽出される場合は、文字列領域のID等に対応付けて記憶しておき、何れの文字列領域から抽出されたのか判別できるようにしておく。
 文字候補記憶部15は、文字候補認識部14によって特定された複数の文字候補を、当該文字候補の何れかを組み合わせた文字列として、当該文字候補の特定元である画像に対応付けて記憶することとしてもよい。即ち、図2に示すような各文字について文字候補の一つを選択して文字列の順に組み合わせた文字列を記憶しておいてもよい。
 例えば、図2に示すような認識結果であった場合、その文字列は、図16に示すようなものとなる。ここで、組み合わせられて記憶される文字列は、画像から取得された文字候補の順に連続するものではなく、部分的に文字列が抜けたものであってもよい。例えば、画像から取得された文字候補を「安全性」「の高さ」とは文字候補の順では連続していないが、そのような組み合わせであってもよい。また、文字毎に文字候補を記憶する場合であっても、上記と同様に後述する検索において必ずしも文字候補の順で一致を判断しなくてもよい。また、上記のように文字列を記憶する場合であっても、文字候補に対応する情報(文字認識の正確性の情報等)については、文字列に対応付けておき文字毎に文字候補を記憶した場合と同様に扱うことができる。
 ここで記憶される文字列は、全ての文字候補の組み合わせについて記憶しておいてもよいし、予め設定される検索キーワードとして想定される文字列に一致する組み合わせのみを記憶しておいてもよい。また、文字列の一部(例えば、図2の情報の例では「その安全性」という部分)について記憶することとしてもよい。
 視覚的特徴量算出部16は、文字列領域抽出部13によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ及び色の少なくとも何れかに基づく当該文字列の視覚的特徴量(saliency)を算出して記憶する視覚的特徴量算出手段である。視覚的特徴量算出部16は、文字列領域の文字列を構成するとされた画素の明度と、文字列領域の背景を構成するとされた画素の明度との差に基づいて視覚的特徴量を算出する。視覚的特徴量算出部16は、文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とする。より具体的には、視覚的特徴量算出部16は、以下の処理によって文字列の視覚的特徴量を算出する。視覚的特徴量算出部16は、算出した視覚的特徴量を文字列に対応付けて記憶する。この記憶は、例えば、画像検索装置10のメモリやハードディスク等に情報を格納することによって行われる。
 また、視覚的特徴量算出部16は、文字列を構成する文字毎の視覚的特徴量を算出して記憶することとしてもよい。この構成によれば、検索時に文字毎の視覚的特徴量を足し合わせて文字列の視覚的特徴量とすることができる。
 視覚的特徴量算出部16は、文字候補認識部14と同様に文字認識を行う。但し、視覚的特徴量算出部16による文字の認識は、必ずしも複数の文字候補を特定するものでなくてもよい。視覚的特徴量算出部16は、文字の抽出時に得られた文字画像領域の縦横の大きさから文字の大きさ(文字サイズ)を特定する。文字サイズは、例えば、ポイント(pt)単位で得る。
 視覚的特徴量算出部16は、文字色と背景色とを文字画像領域に含まれる文字領域と背景領域に対して、代表色選択法を用いて取得する。代表色選択法は、例えば、長谷,米田,酒井,丸山:カラー文書画像中の文字領域抽出を目的とした色分割についての検討,信学論 D-II vol. J83-D-II No.5 pp.1294-1304 (2000)に記載されている。代表色の選択の手順は、まず文字領域と背景領域の各領域に対し画素値をRGB色空間からL*a*b*色空間に変換する。その後、全ての画素を一辺wの立方体に分割したL*a*b*色空間に写像し、小領域に落ちた画素の数を調べる。ここでwは、予め設定した値である。その結果、小領域の画素値が回りにある26近傍のそれぞれの小領域に落ちた画素数に比べて最も多い小領域を代表色とした。但し、複数個所が発生する場合はそれらいずれかの領域を代表色とした。
 実際に代表色選択を行い、文字色と背景色とを取得した例を図3に示す。図3において、破線で示す領域は文字列領域である。また、代表色を選択する際のwの値は、4とした。視覚的特徴量算出部16は、明度Lを代表色の画素のRGB値から以下の式(1)により求める。
 L=0.298912R+0.586611G+0.114478B (1)
視覚的特徴量算出部16は、文字色の明度Lと背景色の明度Lとの差の絶対値を求める。続いて、視覚的特徴量算出部16は、図4の表に従い、得られた文字サイズと明度差とから文字列の視覚的特徴量を算出する。図4に示す表では、視覚的特徴量は、low、medium及びhigh等と定性的な標記となっているが、それらを定量的な値に変換してもよい。視覚的特徴量算出部16は、算出した文字列の視覚的特徴量を示す情報を検索部18に出力する。
 視覚的特徴量算出部16が視覚的特徴量を算出するタイミングは、例えば、文字列領域抽出部13が文字列を抽出するタイミングと同様に、新たに画像データベース11に画像が格納されたタイミングである。この場合、視覚的特徴量は、例えば、画像に対するインデックスであるインデックスに付加された情報として記憶される。あるいは、検索部18による検索処理が行われる際に、検索部18からの指示によって行われてもよい。なお、視覚的特徴量算出部16は、大きさ及び色以外にも、その他の文字の特徴、例えば、形状(フォント)及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づいて、視覚的特徴量を算出することとしてもよい。
 検索キーワード入力部17は、検索用のキーワードを入力する検索キーワード入力手段である。検索キーワード入力部17は、複数のキーワードを入力してもよい。その場合、複数のキーワードでAND検索を行うか、OR検索を行うかを示す情報も合わせて入力するのがよい。検索用のキーワードを入力は、例えば、以下のように行われる。
 検索キーワード入力部17は、管理者端末30からのアクセス要求を受け付けて、キーワードを入力するためのフォームを有するWebページのデータを管理者端末30に送信する。管理者端末30では、当該Webページのデータが受信されて表示される。管理者端末30では、ユーザによってキーワードの入力操作が行われて、当該キーワードを含む検索要求が画像検索装置10に送信される。検索キーワード入力部17は、当該検索要求を受信して、受信した検索要求からキーワードを取得することによってキーワードを入力する。検索キーワード入力部17は、入力したキーワードを検索部18に出力する。
 検索部18は、検索キーワード入力部17から入力されたキーワードを用いて、画像データベース11に格納された画像を対象として検索を行う検索手段である。検索は、検索キーワード入力部17から入力されたキーワードを構成する各文字が、当該キーワードの順に、文字候補記憶部15によって記憶された文字列を構成する複数の文字候補の何れかに一致するか否かを判定することによって行われる。例えば、検索用のキーワードが「安全性」であり、文字列を構成する複数の文字候補は図2の表に示すものであった場合、3文字目~5文字目の文字候補にそれぞれ「安」、「全」、「性」の文字が含まれるため、図2に示す文字列は「安全性」というキーワードにヒットしたものとして判断される。文字列がキーワードにヒットしているか否かの判断については、フローを用いて後述する。
 上述したように、文字候補記憶部15が文字候補を文字列の順に組み合わせた文字列を記憶している態様では、検索キーワード入力部17から入力されたキーワードと、文字候補記憶部15が記憶している文字列とを比較することによって検索が行われてもよい。文字候補記憶部15が記憶している文字列に、検索キーワード入力部17から入力されたキーワードが含まれていた場合には、文字候補記憶部15が記憶している文字列はキーワードにヒットしたものと判断される。このように文字候補記憶部15が文字列を記憶しておくこととすれば、検索用のキーワードと、上記のように文字列同士の一致を判断することによって検索を行うことができるので、検索処理を速くすることができる。なお、文字列として記憶せず図2に示す情報として文字候補を記憶しておけば、未知語やあいまいなキーワードに対しても検索が可能になる。
 上記の検索方法では、文字認識の結果の第1候補のみを用いて検索する場合に比べ、検索漏れの低減(再現率の向上)が期待できるが、同時に認識誤りを多く含む検索誤りが増加する(適合率が低下する)ことが考えられる。そこで、検索部18は、キーワードを構成する各文字が、文字候補記憶部15によって記憶された複数の文字候補の何れかに一致した場合(文字候補がキーワードにヒットした場合)、上述した正確性を示す情報から、当該一致に関しての信頼性(一致度)を評価する。より具体的には、検索部18は、キーワードの文字と一致した文字候補の順番から、上記の信頼性を示す値としてキーワードtに対する文字認識信頼度(similarity)を算出する。ここで文字認識信頼度は、0.0~1.0の範囲の値であり、より大きい値であれば信頼性が高いことを示す。検索部18は、以下の式(2)によって、文字認識信頼度similarityを算出する。
 similarity(t)=Keyword(t).length/totalscore(t) (2)
上記の式において、Keyword(t).lengthはキーワードtの長さ(文字数)、totalscore(t)は一致(マッチ)した文字候補の順位の合計とする。なお、第1候補のみでキーワードに一致した文字列の文字認識信頼度は、1.0となる。
 例えば、図5の示した2つの画像のそれぞれの文字認識結果から「絶対痩せる」というキーワードで検索した場合の文字認識信頼度の例を示す。図5(a)で示す例では、全ての文字が第1候補と一致しているので、文字認識信頼度は、5÷(1+1+1+1+1)で計算され1.00となる。図5(b)で示す例では、最後の文字が第3候補と一致しているので、文字認識信頼度は、5÷(1+1+1+1+3)で計算され0.71となる。このように、文字認識信頼度が低い画像は誤検索されている可能性が高く、文字認識信頼度が高い画像は検索キーワードを正確に含んでいる可能性が高い。即ち、文字認識信頼度は、検索キーワードをより正確に含んでいる指標として利用できる。そのため、大量の画像の中から検索キーワードを含む画像をリストアップする際に文字認識信頼度をもとに検索結果をソートすることで、検索誤りが少ない結果の画像を優先的に提示できる。
 検索部18は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定することとしてもよい。より詳細には後述するが、検索キーワードの文字数が少ない(検索キーワードが短い)場合には、検索誤りが生じ適合率が低くなる傾向が認められる。そこで、例えば、キーワードの文字数が予め設定した閾値以下であると判断した場合には、一致を判定する文字候補の数を通常よりも少ない数としてもよい。検索部18は、文字候補の数を決定したら、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字候補を決定する。具体的には、検索部18は、決定した文字候補の数の順位までの文字候補を一致を判定する文字候補とする。
 検索部18は、キーワードと文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出する。このスコア値は、検索結果として出力する画像の順序を示すものであり、本実施形態においては、検索キーワードが不適切な形で画像に含まれるおそれの高さを示すものである。
 まず、検索部18は、上述したように求めた検索キーワードtの視覚的特徴量saliency(t)と文字認識信頼度similarity(t)とから、画像内に含まれるm番目の文字列(t,m)の文字特徴量termscore(t,m)を以下の式(3)により求める。
 termscore(t,m)=(1-α)・similarity(t,m)+α・saliency(t,m) (3)
ここで、αは視覚的特徴量と文字認識信頼度との重みを示す値である。αは、0~1の値であり予め設定した値である。α、similarity及びsaliencyとの間には相関関係があり、これにより更に精度のよい検索結果が得られる。検索の用い方、目的によってαのつけ方、つまりsimilarityとsaliencyとにどのように重みを付けるべきかを決めることが望ましい。α=0とした場合には、文字認識信頼度similarityのみが反映されたスコアとなり視覚的特徴量saliencyが考慮されない。一方、α=1とした場合には、視覚的特徴量saliencyのみが反映されたスコアとなり文字認識信頼度similarityが考慮されない。αを1に近づけるほど文字が合っているか否かという観点では結果が悪くなる。また、画像内のm番目の文字列とは、文字列領域抽出部13によって抽出された複数の文字列領域に係る文字列のうちのどの文字列かを示すものである。mは、1から文字列領域抽出部13によって抽出された文字列領域の数までの値のうちの何れかの値をとる。
 即ち、検索部18は、キーワードを構成する各文字が当該キーワードの順に一致した文字列を構成する複数の文字候補が認識された文字列領域から視覚的特徴量算出部16によって算出された視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する。
 また、検索部18は、検索キーワード入力部17によって入力された複数のキーワードに対してスコア値を算出する。検索部18は、画像に含まれるキーワードの出現頻度を考慮するために、画像に含まれるキーワードのtf-idfを計算する。tf-idfは、文章中の特徴的な単語を抽出するためのアルゴリズムとして知られ、主に情報検索や文書要約等の分野で利用される指標である。tfは文書中の単語の出現頻度であり、idfは多くのドキュメントに出現する語は重要度を下げ、特定のドキュメントにしか出現しない単語の重要度を上げるための逆出現頻度である。本手法では、このtf-idfの考え方を画像内文字に拡張し、文字列の視覚的特徴量と文字認識信頼度とに組み合わせて用いることで画像スコアを計算する。
 検索部18は、検索キーワードtの出現頻度に応じて画像スコアを高くするために、以下の式(4)により画像内にtf(t)個含まれる検索キーワードtのそれぞれの文字特徴量の2乗和を求め、検索キーワードによる画像のスコアとする。なお、文字列と画像との対応付けに関しては、文字候補記憶部15によって記憶された文字候補と画像との対応付けの情報が参照される。ここで、mは対象となる画像においてキーワードtが含まれる文字列の添え字であり、1~tf(t)の範囲の整数である。
Figure JPOXMLDOC01-appb-M000001
 また、複数の検索キーワードで検索を行う場合の画像スコアは、idf(t)の値を用いて算出することができる。検索キーワードtのidf(t)は検索対象の総画像数(A)とtを含む画像数(S)とを用いて以下の式(5)により求められる。idf(t)は、検索キーワードtを含む画像が少ないほど大きな値となり稀少語であることを示す。
 idf(t)=log(A/(S+1))+1 (5)
 複数の検索キーワードでAND検索を行う場合の画像スコアは、クエリー(検索要求)qに含まれる複数の検索キーワードtの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総積を以下の式(6)により求めることで算出される。
Figure JPOXMLDOC01-appb-M000002
 複数の検索キーワードでOR検索を行う場合の画像スコアは、クエリーqに含まれる複数の検索キーワードtの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総和を以下の式(7)により求めることで算出される。
Figure JPOXMLDOC01-appb-M000003
上記のように、検索部18は、画像データベース11に格納された画像数に対する、キーワードを含む画像数の割合に基づいて、スコア値を算出する。
 tf-idfの考え方では、文章が長くなるほど検索キーワードtを含む確率が高くなるため、文章量に応じてtfを調整することが一般的である。そのため、本手法でも画像内に含まれる文章量の指標として、文字認識後の文字列の長さや画像のサイズを用いて重み付けを行うことが望まれる。しかし、本実施形態で対象としている商品説明画像は複雑な背景やレイアウトを持つため、文字認識時に背景を文字としてご認識する等、認識結果にノイズを含む場合が多い。従って、一概に文字認識後の文字列の長さを画像内の文字量の指標として利用することは難しい。また、画像サイズと画像内に含まれる文字量は一定でないため、600×10,000pix(ピクセル)の超巨大画像のスコアが非常に低くなる場合や、20×100pix程度の小さなバナー画像のスコアが急激に高くなる場合がある。そのため、本実施形態では、画像内における文章量による重み付けは必ずしも行う必要は無い。
 検索部18は、検索によりキーワードにヒットした画像を示す情報、及びそれらの画像に対する画像スコアscore(q,image)を出力部19に出力する。
 出力部19は、検索部18による検索の結果を出力する出力手段である。出力部19は、キーワードにヒットした画像を示す情報を出力する。出力部19が出力する画像を示す情報は、文字候補記憶部15によって記憶された文字候補と画像との対応付けに基づいたものである。
 具体的には例えば、出力部19による出力は、検索結果の情報を含むWebページの情報を管理者端末30に送信することによって行われる。図6に、当該Webページが管理者端末30のブラウザで表示された例を示す。図6に示すようにキーワードにヒットした画像が表示される。ここで、表示される画像は、画像スコアscore(q,image)が高い順に並べられる。即ち、出力部19は、検索部18によって評価されたキーワードと文字候補との間の一致に関しての信頼性に基づいて、検索部18による検索の結果を出力する。また、出力部19は、検索部18によって算出された各画像のスコア値に応じて、検索部18による検索の結果を出力する。
 また、出力部19は、画像データベース11に格納されている画像のハッシュ値に関連付けられている情報に基づいて情報を出力する。出力部19は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベース11に画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebサイトを示す情報とを出力する。より具体的には、出力部19は、検索部18による検索によって得られた画像を示す情報を出力して、当該出力に応じて画像を選択する入力を受け付けて、当該入力に係る画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebサイトを示す情報を出力する。
 図6に示す例では、まず、出力部19は、管理者端末30に対して、検索部18による検索の結果としてキーワードにヒットした画像を表示するWebページのデータを送信する。管理者端末30では、ブラウザ上にそれらの画像が表示される。図6の領域A1が、キーワードにヒットした画像が表示される部分である。続いて、管理者端末30では、ユーザによって表示された画像の何れかが、「この商品が買えるお店」という部分がクリックされることによってブラウザ上で選択されると、管理者端末30は選択された画像を示す情報を画像検索装置10に送信する。出力部19は、選択された画像を示す情報を受信して、画像データベース11を参照して、当該画像のハッシュ値に対応付けられたWebサイトを示す情報を取得して、管理者端末30に出力する。
 更に、出力部19は、画像データベース11を参照して、Webサイトに示す情報に対応付けられている商品の販売価格を示す情報を取得する。出力部19は、Webサイトを示す情報を管理者端末30に送信する際に商品の販売価格順(例えば、価格が高い順、あるいは低い順)に表示されるように出力する。また、Webサイトを示す情報が管理者端末30で表示される際に、商品の販売価格やWebサイトにおける商品の説明もあわせて表示されるようにしてもよい。図6の領域A2が、画像が利用されるWebサイトを示す情報、及び商品の販売価格等が表示される部分である。上記のように出力部19は、画像データベース11に格納されている販売価格に応じて画像が利用されているWebサイトを示す情報を出力する。以上が、画像検索装置10の機能的な構成である。
 引き続いて、図7~図9のフローチャートを用いて、本実施形態に係る画像検索装置10で実行される処理(情報処理方法)を説明する。まず、図7のフローチャートを用いて、画像検索用の情報を生成するまでの処理を説明して、その後図8及び図9のフローチャートを用いて画像検索を実際に行う処理を説明する。
 本実施形態に係る画像検索装置10では、検索対象の画像が入力されて、画像登録部12によって当該画像が画像データベース11に登録される(S01)。画像の入力と合わせて、当該画像が利用されているWebサイトを示す情報や画像に係る商品の販売価格の情報等の画像に付随する情報の入力も行われ、それらの情報は上述したようにハッシュ値に対応付けて画像検索装置10に格納される。画像の入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末30から行われる。複数の画像が入力された場合には、それぞれの画像について登録が行われ、以下の処理が行われる。
 続いて、画像検索装置10では、文字列領域抽出部13によって、画像データベース11に格納された画像における文字列が含まれる文字列領域が抽出される(S02、文字列領域抽出ステップ)。抽出された文字列画像は、文字列領域抽出部13から文字候補認識部14に出力される。
 続いて、文字候補認識部14によって、抽出された文字列領域の画像が文字列を構成する各文字の画像に分割される(S03、文字候補認識ステップ)。続いて、文字候補認識部14によって、分割された各画像に対して文字認識処理が行われ、各文字について予め定められた数の複数の文字候補が特定される(S04、文字候補認識ステップ)。このようにして特定された文字候補を示す情報は、文字候補認識部14から文字候補記憶部15に出力される。S02において、複数の文字列領域が抽出された場合には、文字列領域毎に上記の処理が行われる。
 続いて、文字候補記憶部15によって、文字候補認識部14から入力された複数の文字候補の情報が、検索処理の際に検索部18から検索可能なように記憶される(S05、文字候補記憶ステップ)。以上が、画像検索用の情報を生成するまでの処理である。
 引き続いて、図8及び図9のフローチャートを用いて画像検索を実際に行う処理を説明する。本実施形態に係る画像検索装置10では、検索キーワード入力部17によって、検索用のキーワードが入力される(S11、検索キーワード入力ステップ)。検索用のキーワードは、例えば、管理者端末30から、キーワードが含められた検索要求を受信することによって入力する。入力された検索用のキーワードは、検索キーワード入力部17から検索部18に出力される。
 続いて、検索部18によって、入力された検索用のキーワードが文字候補記憶部15によって記憶された文字候補の何れかと一致するか否かが判定されることによって、当該キーワードによる検索が行われる(S12、検索ステップ)。
 このキーワードの検索について、図9のフローチャートを用いてより詳細に説明する。ここで、検索用キーワードの各文字をKeyword[i]とする。iは、キーワードの文字の順番を示す添え字である。Keyword[1]は、検索用キーワードの1文字目を表す。また、検索用キーワードの文字数をKeyword.lengthとする。また、画像から取得された文字列の文字候補をC[n][j]とする。nは、文字列の文字の順番を示す添え字であり、jは文字候補の順位を示す添え字である(図1の表における説明と同様)。また、Nは文字列の文字数を示す。また、ここでは、キーワードとの一致が判定される文字候補の順位は、30番目までとする。
 本処理では、まずn=1として開始される。文字列の1文字目の文字候補から、キーワードとの一致を判定するためである。続いて、i=1とされる(S1201)。キーワードの1文字目が文字候補に一致するか判定するためである。続いて、j=1とされる(S1202)。第1順位の文字候補がキーワードに一致するか判定するためである。
 続いて、C[n][j]=Keyword[i]を満たすか否かが判断される(S1203)。上記を満たさないと判断された場合(S1203のNO)には、続いて、j=j+1とされる(S1204)。次の順位の文字候補がキーワードに一致するか判定するためである。続いて、j>30を満たすか否かが判断される(S1205)。キーワードとの一致が判定される文字候補の順位が、設定された値を超えていたら次の文字からの判定をするためである。S1205の条件を満たさないと判断された場合(S1205のNO)、再度S1203の判断が行われる。
 S1205の条件を満たすと判断された場合(S1205のYES)、続いて、n=n+1とされる(S1206)。文字列の次の文字の文字候補とキーワードとの一致を判定するためである。続いて、n>Nを満たすか否かが判断される(S1207)。文字列の最後まで一致を判定したかを判断するものである。S1207の条件を満たすと判断された場合(S1207のYES)、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。S1207の条件を満たさないと判断された場合(S1207のNO)、再度、キーワードの1文字目から一致の判定を開始するためにS1201の処理に戻る。
 S1203の条件を満たすと判断された場合(S1203のYES)には、続いて、i=Keyword.lengthを満たすか否かが判断される(S1208)。キーワードの最後の文字まで一致が判定されたかを判断するものである。S1208の条件を満たさないと判断された場合(S1208のNO)、続いて、i=i+1及びn=n+1とされる(S1209)。キーワードの次の文字と文字列の次の文字の文字候補との一致を判定するためである。続いて、n>Nを満たすか否かが判断される(S1210)。文字列の最後まで一致を判定したかを判断するものである。S1210の条件を満たすと判断された場合(S1210のYES)、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。S1210の条件を満たさないと判断された場合(S1210のNO)、S1202の処理に戻る。キーワードの次の文字と、文字列の次の文字の第1順位の文字候補との一致を判定するためである。
 S1208の条件を満たすと判断された場合(S1208のYES)、キーワードの全ての文字がキーワードの順番で、文字列を構成する文字候補の何れかに一致していることになるのでキーワードが文字列にマッチしたものとしてキーワードの検索が終了される。なお、本処理では、この時点でキーワードの検索は終了しているが、更に検索を続けてその後の文字候補にキーワードが一致する部分があるかを判定してもよい。また、上述した方法以外を用いて、キーワードと文字候補の何れかとの一致を判定してもよい。
 S12では、上記のキーワードと文字列を構成する文字候補との一致の判定が、検索対象となる全ての文字列に対して行われる。また、S11で入力されたキーワードが複数であった場合、複数のキーワードに対して上記の判断が行われる。
 続いて、図8に戻り、キーワードにマッチしたと判断された文字列について文字列のスコアが算出される(S13、検索ステップ)。具体的には、以下のようにスコアが算出される。まず、検索部18によって、キーワードと一致した文字列(文字候補)について、上述した式(2)が用いられて、文字認識信頼度が算出される(S131、検索ステップ)。
 続いて、上述した式(1)が用いられて、キーワードと一致した文字列に係る文字列領域の画像の視覚的特徴量が算出される(S132、視覚的特徴量算出ステップ)。視覚的特徴量の算出は、検索部18から視覚的特徴量算出部16に対して指示が行われて視覚的特徴量算出部16によって行われる。なお、視覚的特徴量算出部16による視覚的特徴量の算出自体は、必ずしもこのタイミングで行われる必要は無く、予め例えば、S04と同様のタイミングで行って記憶しておき、このタイミングでは記憶された情報を参照することとしてもよい。算出された視覚的特徴量を示す情報は、視覚的特徴量算出部16から検索部18に出力される。
 続いて、検索部18によって、上述した式(3)が用いられて文字列のスコア値である文字特徴量termscore(t,m)が算出される(S133、検索ステップ)。
 続いて、検索部18によって、上述した式(5)が用いられて、キーワードの使用率を示す値であるidf(t)が算出される(S14、検索ステップ)。続いて、検索部18によって、算出された文字特徴量termscore(t,m)とidf(t)とから、上述した式(4)並びに式(6)及び式(7)の何れかが用いられて、画像スコアscore(q,image)が算出される(S15、検索ステップ)。S12においてキーワードにマッチしたと判断された文字列を含む画像を示す情報と、上記の画像スコアを示す情報とが、検索部18から出力部19に出力される。
 続いて、出力部19によって、検索部18による検索の結果が出力される(S16、出力ステップ)。検索の結果の出力は、検索部18から入力された情報から、管理者端末30からの検索要求に対する検索結果の情報を生成して管理者端末30に送信することによって行われる。具体的には、検索結果の情報は、上述したように画像スコアが高い順にキーワードにマッチしたと判断された文字列を含む画像を示す情報が管理者端末30において表示するものである。また、上述したように当該画像が利用されているWebサイトの情報等についても、出力部19から管理者端末30に送信される。ユーザは管理者端末30において表示される検索結果を参照することで検索結果を認識することができる。以上が、画像検索装置10において、画像検索を実際に行う処理である。
 上述したように本実施形態では、画像に含まれる文字列の各文字を複数の文字候補として認識する。即ち、本実施形態では、認識結果を多重化する。そして、検索用のキーワードの各文字が、文字候補の何れかに一致するかが判定されることによって検索される。従って、本実施形態では、検索用のキーワードの各文字が文字候補と一致していれば、画像に含まれる文字列の中にキーワードが含まれると判断される。
 画像内の文字は、画像が複雑なレイアウト構造や飾り文字等を含む画像等である場合には、文字の切り出しや文字の抽出に起因して文字認識誤りを生じやすい。しかしながら、本実施形態によれば、上記のような画像であるため画像に含まれる文字列を構成する各文字を一意に認識することが難しい場合であっても、各文字について複数の文字候補から検索されるため検索漏れを防止し、適切に検索を行うことができる。
 また、本実施形態のように各文字についての文字認識の正確性に基づいて、文字候補に順位付けをして当該順位付けに基づいて検索を行うことが望ましい。この構成によれば、認識の正確性に基づいて、検索の信頼性に応じた検索結果の出力が可能になる。即ち、例えば、検索のキーワードが用いられている可能性が高いものから検索結果を提示することが可能になり、ユーザにとってより利便性の高い検索結果の出力を行うことができる。但し、必ずしも文字候補の順位付けをする必要は無く、複数の文字候補を同列に扱うこととしてもよい。
 また、上述したように検索用のキーワードの文字数に応じて、一致を判定する文字候補の数を決定することが望ましい。この構成によれば、検索用のキーワードの文字数に応じた、より適切に画像に対する検索を行うことができる。但し、必ずしも上記のように文字候補の数を決定する必要は無く、一致を判定する文字候補の数を、予め設定した一定値(例えば、上述した例のように30と)することとしてもよい。
 また、本実施形態のように画像のスコア値を算出して、スコア値に応じた検索結果の出力を行うことが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
 また、本実施形態のように複数のキーワードからスコア値を算出することが望ましい。この構成によれば、上述したようにAND検索やOR検索等の複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。
 また、本実施形態のように画像におけるキーワードの出現率に応じてスコア値を算出することが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
 また、本実施形態のように視覚的特徴量に基づいてスコア値を算出することが望ましい。この構成では、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、この構成によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。例えば、同一文字列が含まれる画像でも、小さい文字で説明されている場合に比べ、タイトル等の大きな文字で表記されている画像の場合にスコア値が高くなる。これにより、視覚的に目立つと同時に不正である確率が高い表現を見つけることができる。但し、例えば、視覚的に特徴的な文字を抽出する必要がない場合等には、必ずしも視覚的特徴量を算出して、スコア値に視覚的特徴量を反映させる必要はない。
 なお、視覚的特徴量を用いる本発明の特徴は、以下のような本発明の発明者の知見により得られたものである。不正な画像を検出するための検索のキーワードが用いられている画像であっても、キーワードの使われ方によっては必ずしも不正な表現とならない場合も多くみられる。
 そこで本発明の発明者は、予備実験としてサイバーモールの管理者が事前に不正な画像であると判断した674枚の画像を目視で確認した。その結果、不正表現を含む画像には、(1)不正単語が視覚的に目立つものが多い(2)不正単語の出現頻度が高い(3)画像内に複数の不正単語が含まれるという特徴が分かった。これらの知見をもとに、視覚的特徴量から画像のスコア値を算出したものである。なお、出現頻度等の知見についても、上述した本発明の特徴に反映されている。
 人間は、周囲の視覚刺激の中で異なる属性を持っている刺激に対して無意識に視線を向けることが多い。W3CのTechniques For Accessibility Evaluation And Repair Toolsによると明度差125以上、色差500以上が読みやすい色の組み合わせであるとされている。ウェブコンテンツ制作においても読みやすいコンテンツとするためには文字色と背景色との明度差や色差によるコントラストを確保する必要があることが知られている。また、槙らの研究では文字と背景の色彩をそれぞれ40通りに変化させた1600サンプルの評定結果から配色の明度差が読みやすさに大きく関わっていることを示している。
 そこで、上記の「不正単語が視覚的に目立つものが多い」という知見をスコアリングに反映させるために、674枚の不正表現を含むサンプル画像内の不正な文字列とその他の画像に含まれる文字列のサイズとコントラストに注目し分布を計測した。その結果、画像のサイズに関係なく文字サイズ30pt以上はタイトルや見出し、20pt以下の文字サイズは説明文に多く用いられている傾向があった。また、検知したいキーワードはタイトルやコントラストが高く目立ちやすい色使いをされていることが分かった。これらの知見から上述したような視覚的特徴量の特徴を構成したものである。ただし、明度差の範囲はW3Cで定義されている読みやすい明度差125と、高本らの研究によって得られた白内障の人にとっての読みやすいと感じられる“おおむね十分の境界”である158を基準とした。
 また、本実施形態のように画像から得られるハッシュ値に、当該画像が用いられているWebサイトを示す情報を対応付けておき、その対応に基づいて出力を行うことが望ましい。ハッシュ値は同一の画像であれば、一定の範囲内の値となるため複数の箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数の箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。但し、上記のようなケースを想定していない場合等については、ハッシュ値を用いた情報の格納や出力を必ずしも行う必要はない。
 上述した実施形態においては、画像検索装置10は、画像検索用の情報を生成するまでの処理と、生成された画像検索用の情報を用いて画像検索を実際に行う処理との両方を備えていた。しかしながら、上記のそれぞれの処理のみを行う装置が、本発明に係る装置として別々に構成されていてもよい。即ち、そのうちの一つの装置は、上述した機能のうち、少なくとも画像データベース11と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15とを備える情報処理装置である画像検索用情報生成装置である。また、もう1つの装置は、上述した機能のうち、少なくとも文字候補記憶部15と、検索キーワード入力部17と、検索部18と、出力部19とを備える情報処理装置である画像検索装置である。
 なお、本実施形態では、検索対象の画像としてサイバーモールで販売される商品の説明画像を例として説明したが、本発明において検索対象の画像は上記の目的の画像に限られず任意の画像を検索対象としてよい。例えば、電子データ化された本の対象として検索を行う場合にも適用できる。また、本発明に係る画像検索の目的も上記のものに限られず任意の目的のものに対して用いられてもよい。また、不正な画像を検出する場合であっても、上述した基準以外の基準を用いて検索を行うこととしてもよい。例えば、小さな文字で表現される不正表現を検出する場合には、文字が小さいほどスコアが高くなるような基準を用いてもよい。
 引き続いて、本発明に係る評価実験について説明する。以下のような評価実験を行った。文字候補数Nによりどの程度、画像内文字検索の精度が変化するかを評価するために、文字候補数を1~60の範囲で5刻みに変化させ、不正表現を含む画像で用いられやすい以下の66個の検索キーワードを利用して画像内文字検索を行った。検索キーワードは、具体的には例えば、白肌、細胞、発毛、抑毛、花粉症、若返り、抗老化である。
 実験は、予めサイバーモールの管理者が、「医薬品・コンタクト・介護カテゴリ」内で検知した不正表現を含むサンプル画像を用い、上述した手法により画像内文字を認識し、認識結果を得た。但し、文字カテゴリとして英、数、記号、ひらがな、カタカナ、漢字(JIS第一水準)を含む3410文字を利用し、辞書を作成するために電子商店で多く利用されている「HGS創英角ポップ体」「HGP行書体」「MSゴシック」の3つのフォントを利用した。また、上記の検索キーワードを用いて目視によりカウントした検索キーワードを含む画像数(S)と、文字候補数を変化させて得られた正解画像数(T)、誤って検知された画像数(E)を比較し、平均の再現率(Recall)と適合率(Precision)とF値とを式(8)(9)(10)により求めた。
 Recall=T/S (8)
 Precision=T/(T+E) (9)
 F=(2・Recall・Precision) (10)
 文字候補数と上記の値との関係を示すグラフを、図10に示す。図10に示すように、文字候補を増やすことで適合率が下がり再現率が上がる傾向が見られ、文字認識結果を多重化することで検索漏れを低減することが可能であることが分かる。また、文字候補数が30付近でF値が安定し、文字候補数が30以降では検索性能の差が小さくなるため、本実施形態における文字認識手法では文字候補を第30位まで利用することで良好な検索結果が得られることが分かる。
 また、文字候補数30の場合の検索キーワードの長さと検索精度との関係を図11の表に示す。この表に示すように、検索キーワードが短い場合に検索誤りが生じ適合率が低くなる傾向が認められる。これは文字候補数を多くすることによって、誤認識された文字認識結果を検知する確率が高くなるためであり、検索キーワードの長さに応じて文字候補数を調整することで適合率を高くすることが可能である。更に、再現率と検索キーワードの長さとの相関は見られなかったが、全体的に再現率が低くなる傾向が見られる。これは、サンプル画像にはアーチ状に配置された文字列や斜体の文字、サイズが小さいといった、文字抽出及び認識が困難なケースが多く含まれたためである。
 続いて、文字認識信頼度と画像内の文字列の視覚的特徴と出現頻度とを利用した画像スコアを用いることで、不正である確率が高い視覚的に目立つ文字列を含む画像を効率良く見つけることが可能かどうかを確認するために以下の実験を行った。サンプル画像として図12に示した10種類の画像を作成して画像スコアを求めた。画像内の文字色は、#000000(色の表記は、Webセールカラー表記である。以下同様)の「MSゴシック」のフォントを利用し、(1)(4)(6)~(10)は文字サイズを30pt、(3)(5)は20pt、(2)は30ptと20ptとの両方を利用し、(1)~(5)(7)(8)(10)は背景色を#FFFFFF、(6)(9)は#666666とした。また、「絶対痩せる」と「絶対痩せろ」の各文字列の画像の認識結果に対し「絶対痩せる」というキーワードで検索した場合の文字認識信頼度は、上述した図5を用いた説明で示した通り、文字サイズに関わらずそれぞれ1.00、0.71となった。
 サンプル画像のスコアを上述した文字認識信頼度と視覚的特徴量とのバランスをとるパラメータαを0.0~1.0で0.2刻みに変化させて計算した結果を、図13の表に示す。但し、上述した視覚的特徴量saliency(t)は、式(3)において、saliency(t)を0.0とした場合、画像内文字の視覚的な特徴をスコアに反映できないので、本実験では、lowを0.5、highを1.0、mediumをその中間の値である0.75とした。
 まず、αが0.0の場合に注目すると、画像のスコアには文字認識信頼度のみが反映されるため、検索誤りが少ない結果の画像を優先的に提示することが可能になる。しかし、文字認識信頼度が同じ(1)~(3)と(6)とが同じスコアになり、視覚的に目立たない(6)が上位に来る可能性がある。αは文字認識信頼度と視覚的特徴量とのバランスをとるパラメータであるから、αの値を高くするほど視覚的特徴量を強く反映することができる。しかし、αが0.6以上の場合に検索キーワードを含まない(7)及び(10)のスコアが、検索キーワードを同数含む(6)及び(5)のスコアをそれぞれ超えてしまっている。そのため検索結果の上位の検索誤りを含む結果が表示されてしまうことになる。同様に(4)(9)(10)を比較すると、αが0.0の場合(4)と(9)とが同スコアになり、αが1.0の場合(4)と(10)とが同スコアになってしまう。
 次に、(1)(7)(8)について比較すると、αが1.0以外の場合に画像に含まれる検索キーワードが多いほど画像スコアが高くなっていることが分かる。これらの結果から、αの値を0.2~0.4に設定することで検索キーワードを含まない画像のスコアを低く、また視覚的特徴量に応じて検索結果を良好にソートできていることが確認できる。
 このように、文字認識信頼度だけでなく文字列の視覚的特徴量と出現頻度を考慮することで、同一の文字列が同数含まれる場合に小さい文字で説明されている画像に比べ、タイトル等の大きな文字で表記されている画像の場合にスコアを高くすることが可能になる。これにより、より視覚的に目立つと同時に不正である確率が高い表現を含む画像を効率良く見つけることができる。
 続いて、上述した画像検索装置10(画像内文字検索システム)を作成し、実際にサイバーモールで利用されている画像を対象に検索時間の評価を行った。作成したシステムは、Webサーバ上で動作するウェブアプリケーションである。上述した多重化された認識結果から任意の文字列検索を高速に実現するためにLucene(Apacheプロジェクトが管理する全文検索エンジン)を用いた。本システムではインデックスを作成するためにLuceneに実装されているN-gramを用いた単語分割Analyzer(uni-gram)を用いて、第N位までの文字認識候補の組み合わせの中から任意単語の検索を行った。但し、インデックス作成時に文字色と背景色のコントラストと、文字サイズとから求められる視覚的特徴量をFieldに持たせることで、検索キーワードに応じた画像スコアの計算を行う。開発した画像内文字検索システムの応答性能や検索精度といった実用性の確認をおこなうために実際のサイバーモールの「ダイエット・健康カテゴリ」、「医薬品・コンタクト・介護カテゴリ」から取得した567,667枚の画像を対象に、予め画像内の文字認識を行った結果得られた認識結果をインデックス化している。
 標準的なOSによって動作する標準的なPCによって、以下のような条件で測定を行った。
  画像数:567,667枚
  インデックスサイズ(GB):2.2(N=1)、2.8(N=5)、3.6(N=10)、4.4(N=15)、5.2(N=20)、6.0(N=25)、30(N=6.8)
 実験では、上述した、文字候補数Nに応じた画像内文字検索の精度変化の評価に用いた66個の検索キーワードを用いて文字候補数が1~30のインデックスを使用し、文字候補数に対する検索時間を確認した。図14に文字候補数と検索時間との関係を示すグラフを示す。図14に示すように、文字候補数に対する検索時間はO(n)で増えている。同時に、標準偏差の値が大きくなることからキーワードの長さによって探索時間のばらつきが生じていることが分かる。また、文字候補数30の場合においても平均検索時間が約350ミリ秒であり、ストレスを感じさせないという意味で十分実用に耐えうる応答性能を実現できていることがわかる。但し、平均検索時間は上記の66個のキーワードをクエリーとして10回検索を行った際の平均の時間である。
 引き続いて、上述した一連の画像検索装置10の画像検索を行う処理をコンピュータに実行させるための情報処理プログラムを説明する。図15に示すように、情報処理プログラム41は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体40に形成されたプログラム格納領域40a内に格納される。
 情報処理プログラム41は、画像検索処理を統括的に制御するメインモジュール41aと、画像データベースモジュール41bと、画像登録モジュール41cと、文字列抽出モジュール41dと、文字候補認識モジュール41eと、文字候補記憶モジュール41fと、視覚的特徴量算出モジュール41gと、検索キーワード入力モジュール41hと、検索モジュール41iと、出力モジュール41jとを備えて構成される。画像データベースモジュール41bと、画像登録モジュール41cと、文字列領域抽出モジュール41dと、文字候補認識モジュール41eと、文字候補記憶モジュール41fと、視覚的特徴量算出モジュール41gと、検索キーワード入力モジュール41hと、検索モジュール41iと、出力モジュール41jとを実行させることにより実現される機能は、上述した画像検索装置10の画像データベース11と、画像登録部12と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16と、検索キーワード入力部17と、検索部18と、出力部19との機能とそれぞれ同様である。
 なお、情報処理プログラム41は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、情報処理プログラム41の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の情報処理プログラム41の情報処理を行う処理が行われる。
 10…画像検索装置、11…画像データベース、12…画像登録部、13…文字列領域抽出部、14…文字候補認識部、15…文字候補記憶部、16…視覚的特徴量算出部、17…検索キーワード入力部、18…検索部、19…出力部、30…管理者端末、40…記録媒体、40a…プログラム格納領域、41…情報処理プログラム、41a…メインモジュール、41b…画像データベースモジュール、41c…画像登録モジュール、41d…文字列領域抽出モジュール、41e…文字候補認識モジュール、41f…文字候補記憶モジュール、41g…視覚的特徴量算出モジュール、41h…検索キーワード入力モジュール、41i…検索モジュール、41j…出力モジュール。

Claims (18)

  1.  検索対象の画像を格納する画像データベースと、
     前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
     前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
     前記文字候補認識手段によって特定された複数の文字候補を文字毎に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
    を備える情報処理装置。
  2.  検索用のキーワードを入力する検索キーワード入力手段と、
     前記キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に前記文字候補記憶手段によって記憶された前記文字列を構成する前記複数の文字候補の何れかに一致するか否かを検索する検索手段と、
     前記検索手段による検索の結果を、前記文字候補記憶手段によって記憶された前記文字候補と画像との対応付けに基づいて出力する出力手段と、
    を更に備える請求項1に記載の情報処理装置。
  3.  前記文字候補認識手段は、前記文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、
     前記文字候補記憶手段は、前記文字候補認識手段によって評価された前記正確性を示す情報に基づいて前記文字候補を記憶し、
     前記検索手段は、前記キーワードを構成する各文字が、前記文字候補記憶手段によって記憶された前記複数の文字候補の何れかに一致した場合、前記正確性を示す情報から当該一致に関しての信頼性を評価し、
     前記出力手段は、前記信頼性にも基づいて、検索結果を出力する、
    ことを特徴とする請求項2に記載の情報処理装置。
  4.  前記検索手段は、前記キーワードの文字数に応じて、前記キーワードとの一致を判定する文字候補の数を決定して、前記文字候補についての前記正確性を示す情報から前記キーワードとの一致を判定する文字候補を決定することを特徴とする請求項3に記載の情報処理装置。
  5.  前記検索手段は、前記キーワードと前記文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、
     前記出力手段は、前記検索手段による検索の結果を前記スコア値に応じて出力する、
    ことを特徴とする請求項2~4のいずれか一項に記載の情報処理装置。
  6.  検索対象の画像を格納する画像データベースと、
     前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
     前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
     前記文字候補認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
    を備える情報処理装置。
  7.  検索用のキーワードを入力する検索キーワード入力手段と、
     前記キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に前記文字候補記憶手段によって記憶された文字列の何れかに一致するか否かを検索する検索手段と、
     前記検索手段による検索の結果を、前記文字候補記憶手段によって記憶された文字列と画像との対応付けに基づいて出力する出力手段と、
    を更に備える請求項6に記載の情報処理装置。
  8.  前記文字候補認識手段は、前記文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、
     前記文字候補記憶手段は、前記文字候補認識手段によって評価された前記正確性を示す情報に基づいて文字列を記憶し、
     前記検索手段は、前記キーワードを構成する各文字が、前記文字候補記憶手段によって記憶された文字列の何れかに一致した場合、前記正確性を示す情報から当該一致に関しての信頼性を評価し、
     前記出力手段は、前記信頼性にも基づいて、検索結果を出力する、
    ことを特徴とする請求項7に記載の情報処理装置。
  9.  前記検索手段は、前記キーワードの文字数に応じて、前記キーワードとの一致を判定する文字候補の数を決定して、前記文字候補についての前記正確性を示す情報から前記キーワードとの一致を判定する文字列を決定することを特徴とする請求項8に記載の情報処理装置。
  10.  前記検索手段は、前記キーワードと前記文字列との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出し、
     前記出力手段は、前記検索手段による検索の結果を前記スコア値に応じて出力する、
    ことを特徴とする請求項7~9のいずれか一項に記載の情報処理装置。
  11.  前記検索手段は、前記キーワード入力手段によって入力された複数の前記キーワードに対して前記スコア値を算出する、
    ことを特徴とする請求項5又は10に記載の情報処理装置。
  12.  前記検索手段は、前記画像データベースに格納された画像数に対する、前記キーワードを含む画像数の割合に基づいて、前記スコア値を算出することを特徴とする請求項5、10又は11に記載の情報処理装置。
  13.  前記文字列領域抽出手段によって抽出された文字列領域の画像から、各文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段を更に備え、
     前記検索手段は、前記キーワードの各文字が当該キーワードの順に一致した前記文字列の文字候補が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する、
    ことを特徴とする請求項5、10~12の何れか一項に記載の情報処理装置。
  14.  前記画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているWebページの箇所を示す情報とを対応付けて格納し、
     前記出力手段は、前記検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、前記画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebページの箇所を示す情報とを出力する、
    ことを特徴とする請求項2~5、7~13の何れか一項に記載の情報処理装置。
  15.  検索対象の画像を格納する画像データベースを備える情報処理装置による情報処理方法であって、
     前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、
     前記文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識ステップと、
     前記文字候補認識ステップによって特定された複数の文字候補を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶ステップと、
    を含む情報処理方法。
  16.  検索対象の画像を格納する画像データベースを備える情報処理装置による情報処理方法であって、
     前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、
     前記文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識ステップと、
     前記文字候補認識ステップによって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶ステップと、
    を含む情報処理方法。
  17.  一つ以上のコンピュータを、
     検索対象の画像を格納する画像データベースと、
     前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
     前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
     前記文字候補認識手段によって特定された複数の文字候補を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
    して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
  18.  一つ以上のコンピュータを、
     検索対象の画像を格納する画像データベースと、
     前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
     前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、前記画像から文字認識を行って複数の文字候補を特定する文字候補認識手段と、
     前記文字候補認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段と、
    して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/054527 2010-02-26 2011-02-28 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体 WO2011105607A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012501907A JP5075291B2 (ja) 2010-02-26 2011-02-28 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
CN201180010163.2A CN102763104B (zh) 2010-02-26 2011-02-28 信息处理装置、信息处理方法、记录了信息处理程序的记录介质
US13/580,880 US8949267B2 (en) 2010-02-26 2011-02-28 Information processing device, information processing method, and recording medium that has recorded information processing program
EP11747561.6A EP2541440A4 (en) 2010-02-26 2011-02-28 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND RECORDING MEDIUM WITH INFORMATION PROCESSING MAIL RECORDED THEREFOR

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
JP2010043469 2010-02-26
JP2010-043469 2010-02-26
JP2010-043468 2010-02-26
JP2010043468 2010-02-26
JP2010-194422 2010-08-31
JP2010194410 2010-08-31
JP2010194422 2010-08-31
JP2010-194431 2010-08-31
JP2010194431 2010-08-31
JP2010-194410 2010-08-31

Publications (1)

Publication Number Publication Date
WO2011105607A1 true WO2011105607A1 (ja) 2011-09-01

Family

ID=44507001

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2011/054528 WO2011105608A1 (ja) 2010-02-26 2011-02-28 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
PCT/JP2011/054527 WO2011105607A1 (ja) 2010-02-26 2011-02-28 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/054528 WO2011105608A1 (ja) 2010-02-26 2011-02-28 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体

Country Status (5)

Country Link
US (2) US8825670B2 (ja)
EP (2) EP2541440A4 (ja)
JP (4) JP5075291B2 (ja)
CN (2) CN102782680B (ja)
WO (2) WO2011105608A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522927A (ja) * 2013-04-25 2016-08-04 フェイスブック,インク. 可変検索クエリ・バーティカル・アクセス
CN110688995A (zh) * 2019-09-19 2020-01-14 浙江善政科技有限公司 地图查询的处理方法,计算机可读存储介质和移动终端
CN114120016A (zh) * 2022-01-26 2022-03-01 北京阿丘科技有限公司 字符串提取方法、装置、设备及存储介质

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7286115B2 (en) 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction
US7030863B2 (en) 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
US8201087B2 (en) * 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
JP5259894B1 (ja) * 2011-08-05 2013-08-07 楽天株式会社 色名決定装置、色名決定方法、情報記録媒体、ならびに、プログラム
KR102007840B1 (ko) * 2012-04-13 2019-08-06 엘지전자 주식회사 이미지 검색 방법 및 이를 위한 디지털 디바이스
US9576042B2 (en) * 2012-08-01 2017-02-21 Google Inc. Categorizing search terms
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
JP2014078168A (ja) * 2012-10-11 2014-05-01 Fuji Xerox Co Ltd 文字認識装置及びプログラム
CN105190644B (zh) * 2013-02-01 2020-12-18 英特尔公司 用于使用触摸控制的基于图像的搜索的技术
KR101845780B1 (ko) 2013-07-09 2018-04-05 류중하 기호 이미지 검색 서비스 제공 방법 및 이에 사용되는 기호 이미지 검색용 서버
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104462109B (zh) * 2013-09-17 2018-10-26 阿尔派株式会社 检索装置及检索方法
CN110032656A (zh) * 2014-02-21 2019-07-19 联想(北京)有限公司 信息处理方法及信息处理装置
US10152540B2 (en) * 2014-10-10 2018-12-11 Qualcomm Incorporated Linking thumbnail of image to web page
WO2016082094A1 (en) 2014-11-25 2016-06-02 Yahoo! Inc. Method and system for providing a user agent string database
WO2016082092A1 (en) * 2014-11-25 2016-06-02 Yahoo! Inc. Method and system for analyzing user agent string
US11116302B2 (en) * 2015-06-11 2021-09-14 The Procter & Gamble Company Apparatus and methods for modifying keratinous surfaces
KR20170037302A (ko) * 2015-09-25 2017-04-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN105912739B (zh) * 2016-07-14 2019-03-26 湖南琴海数码股份有限公司 一种相似图片检索系统及其方法
JP2018028714A (ja) * 2016-08-15 2018-02-22 富士ゼロックス株式会社 情報処理装置及びプログラム
US10565255B2 (en) * 2016-08-24 2020-02-18 Baidu Usa Llc Method and system for selecting images based on user contextual information in response to search queries
CN106372225B (zh) * 2016-09-07 2020-05-19 知识产权出版社有限责任公司 一种基于高价值对比库的信息处理装置及方法
US10438083B1 (en) * 2016-09-27 2019-10-08 Matrox Electronic Systems Ltd. Method and system for processing candidate strings generated by an optical character recognition process
JP6804292B2 (ja) * 2016-12-28 2020-12-23 オムロンヘルスケア株式会社 端末装置
US11157299B2 (en) * 2017-08-15 2021-10-26 Citrix Systems, Inc. Thin provisioning virtual desktop infrastructure virtual machines in cloud environments without thin clone support
CN107707396B (zh) * 2017-09-28 2020-01-24 平安科技(深圳)有限公司 一种乱码监控方法、存储介质和服务器
JP6506427B1 (ja) * 2018-01-25 2019-04-24 株式会社リクルート 情報処理装置、動画検索方法、生成方法及びプログラム
JP7160432B2 (ja) * 2018-04-02 2022-10-25 日本電気株式会社 画像処理装置、画像処理方法、プログラム
JP7139669B2 (ja) * 2018-04-17 2022-09-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7247472B2 (ja) * 2018-04-19 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN112868001B (zh) 2018-10-04 2024-04-26 株式会社力森诺科 文档检索装置、文档检索程序、文档检索方法
JP2020064390A (ja) * 2018-10-16 2020-04-23 ファナック株式会社 データ収集システム及びデータ収集方法
JP7383882B2 (ja) * 2019-01-22 2023-11-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN111027556B (zh) * 2019-03-11 2023-12-22 广东小天才科技有限公司 一种基于图像预处理的搜题方法及学习设备
WO2020194576A1 (ja) * 2019-03-27 2020-10-01 三菱電機ビルテクノサービス株式会社 設備機器情報収集システム
CN110399772B (zh) * 2019-04-15 2020-09-08 安徽省徽腾智能交通科技有限公司泗县分公司 基于环境分析的设备控制系统
JP6879529B1 (ja) * 2020-04-16 2021-06-02 株式会社クロスドリーム 商品・役務注文システム、商品・役務注文方法及びそのプログラム
JP2021193495A (ja) * 2020-06-08 2021-12-23 コニカミノルタ株式会社 検索システム
CN113626444B (zh) * 2021-08-26 2023-11-28 平安国际智慧城市科技股份有限公司 基于位图算法的表格查询方法、装置、设备及介质
CN118334639B (zh) * 2024-06-12 2024-08-23 深圳市瑞意博医疗设备有限公司 一种药品复核方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305722A (ja) * 1995-05-08 1996-11-22 Sharp Corp 文字列検索装置
JPH10177641A (ja) * 1996-12-18 1998-06-30 Fuji Xerox Co Ltd 文書ファイリング装置
JP2001337993A (ja) 2000-05-30 2001-12-07 Fujitsu Ltd 文字認識結果を利用して情報を検索する検索装置および方法
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
JP2009295104A (ja) * 2008-06-09 2009-12-17 Fujifilm Corp ウェブサイト検索装置、画像情報収集サーバ、及びウェブサイト検索方法
JP2010039533A (ja) * 2008-07-31 2010-02-18 Fujifilm Corp 画像ランキング装置、画像ランキング方法及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415307B2 (en) * 1994-10-24 2002-07-02 P2I Limited Publication file conversion and display
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP2002007413A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd 画像検索装置
JP2004206520A (ja) 2002-12-26 2004-07-22 Nec Corp 文書画像配信システム、文書画像配信装置、端末装置および文書画像配信プログラム
US20030177115A1 (en) * 2003-02-21 2003-09-18 Stern Yonatan P. System and method for automatic preparation and searching of scanned documents
JP4349183B2 (ja) * 2004-04-01 2009-10-21 富士ゼロックス株式会社 画像処理装置および画像処理方法
JP4817108B2 (ja) * 2004-11-05 2011-11-16 富士ゼロックス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
US20090193334A1 (en) * 2005-05-18 2009-07-30 Exb Asset Management Gmbh Predictive text input system and method involving two concurrent ranking means
JP2007058605A (ja) * 2005-08-24 2007-03-08 Ricoh Co Ltd 文書管理システム
US8363939B1 (en) * 2006-10-06 2013-01-29 Hrl Laboratories, Llc Visual attention and segmentation system
JP2008139981A (ja) * 2006-11-30 2008-06-19 Sharp Corp 制御装置、端末装置、表示システム、表示方法、プログラムおよびその記録媒体
US8094202B2 (en) 2007-05-17 2012-01-10 Canon Kabushiki Kaisha Moving image capture apparatus and moving image capture method
JP4804417B2 (ja) 2007-05-17 2011-11-02 キヤノン株式会社 動画撮像装置及び動画撮像方法
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
CN101354705B (zh) 2007-07-23 2012-06-13 夏普株式会社 文档图像处理装置和文档图像处理方法
JP2009075908A (ja) * 2007-09-21 2009-04-09 Sony Corp ウェブ・ページ閲覧履歴管理システム及びウェブ・ページ閲覧履歴管理方法、並びにコンピュータ・プログラム
RU2436156C1 (ru) * 2007-11-20 2011-12-10 Люмэкс Ас Способ разрешения противоречивых выходных данных из системы оптического распознавания символов (ocr), где выходные данные включают в себя более одной альтернативы распознавания изображения символа
JP2009282883A (ja) 2008-05-26 2009-12-03 Fujifilm Corp 画像検索システム、クローリング装置及び画像検索装置
US8442813B1 (en) * 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US8542950B2 (en) * 2009-06-02 2013-09-24 Yahoo! Inc. Finding iconic images
US8811742B2 (en) * 2009-12-02 2014-08-19 Google Inc. Identifying matching canonical documents consistent with visual query structural information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305722A (ja) * 1995-05-08 1996-11-22 Sharp Corp 文字列検索装置
JPH10177641A (ja) * 1996-12-18 1998-06-30 Fuji Xerox Co Ltd 文書ファイリング装置
JP2001337993A (ja) 2000-05-30 2001-12-07 Fujitsu Ltd 文字認識結果を利用して情報を検索する検索装置および方法
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
JP2009295104A (ja) * 2008-06-09 2009-12-17 Fujifilm Corp ウェブサイト検索装置、画像情報収集サーバ、及びウェブサイト検索方法
JP2010039533A (ja) * 2008-07-31 2010-02-18 Fujifilm Corp 画像ランキング装置、画像ランキング方法及びプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ASHIDA; NAGAI; OKAMOTO; MIYAO; YAMAMOTO: "Extraction of Characters from Scene Images", TRANSACTIONS D OF IECE, vol. J88-D2, no. 9, 2005, pages 1817 - 1824
HASE; YONEDA; SAKAI; MARUYAMA: "Consideration of Color Segmentation to Extract Character Areas from Color Document Images", TRANSACTIONS D-II OFIECE, vol. J83-D-II, no. 5, 2000, pages 1294 - 1304, XP002907915
OTSU: "An Automatic Threshold Selection Method Based on Discriminant and Least Squares Criteria", TRANSACTIONS D OF IECE (THE INSTITUTE OF ELECTRONICS AND COMMUNICATION ENGINEERS OF JAPAN, vol. 63, no. 4, April 1980 (1980-04-01), pages 349 - 356
See also references of EP2541440A4
SON; TAWARA; ASO; KIMURA: "High-precision character recognition using directional element feature", TRANSACTIONS OF IECE, vol. J74-D-II, no. 3, 1991, pages 330 - 339

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522927A (ja) * 2013-04-25 2016-08-04 フェイスブック,インク. 可変検索クエリ・バーティカル・アクセス
US10102245B2 (en) 2013-04-25 2018-10-16 Facebook, Inc. Variable search query vertical access
CN110688995A (zh) * 2019-09-19 2020-01-14 浙江善政科技有限公司 地图查询的处理方法,计算机可读存储介质和移动终端
CN110688995B (zh) * 2019-09-19 2022-11-15 浙江善政科技有限公司 地图查询的处理方法,计算机可读存储介质和移动终端
CN114120016A (zh) * 2022-01-26 2022-03-01 北京阿丘科技有限公司 字符串提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102763104B (zh) 2015-04-01
US20130188872A1 (en) 2013-07-25
CN102782680B (zh) 2016-01-20
EP2541441A4 (en) 2014-10-15
CN102763104A (zh) 2012-10-31
JPWO2011105608A1 (ja) 2013-06-20
JP2012073999A (ja) 2012-04-12
JPWO2011105607A1 (ja) 2013-06-20
JP5075291B2 (ja) 2012-11-21
US8825670B2 (en) 2014-09-02
EP2541440A1 (en) 2013-01-02
JP5647916B2 (ja) 2015-01-07
EP2541440A4 (en) 2014-10-15
JP2013041602A (ja) 2013-02-28
CN102782680A (zh) 2012-11-14
EP2541441A1 (en) 2013-01-02
US8949267B2 (en) 2015-02-03
JP5259876B2 (ja) 2013-08-07
WO2011105608A1 (ja) 2011-09-01
US20120323901A1 (en) 2012-12-20

Similar Documents

Publication Publication Date Title
JP5075291B2 (ja) 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
US9489401B1 (en) Methods and systems for object recognition
CA3068761C (en) Architecture for responding to a visual query
US9183224B2 (en) Identifying matching canonical documents in response to a visual query
EP4057163B1 (en) Facilitating use of images as search queries
AU2011336445B2 (en) Identifying matching canonical documents in response to a visual query
US20140280295A1 (en) Multi-language information retrieval and advertising
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US20110078176A1 (en) Image search apparatus and method
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
US20080021891A1 (en) Searching a document using relevance feedback
US20100100383A1 (en) System and method for searching webpage with voice control
US8121970B1 (en) Method for identifying primary product objects
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
US8549008B1 (en) Determining section information of a digital volume
CN113806491A (zh) 一种信息处理的方法、装置、设备和介质
CN111681776A (zh) 基于医药大数据的医药对象关系分析的方法及系统
JP5233424B2 (ja) 検索装置およびプログラム
Yeh et al. Searching documentation using text, ocr, and image
JP5610019B2 (ja) 検索装置およびプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180010163.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11747561

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012501907

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2011747561

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13580880

Country of ref document: US