WO2012120695A1 - 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体 - Google Patents

文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体 Download PDF

Info

Publication number
WO2012120695A1
WO2012120695A1 PCT/JP2011/056428 JP2011056428W WO2012120695A1 WO 2012120695 A1 WO2012120695 A1 WO 2012120695A1 JP 2011056428 W JP2011056428 W JP 2011056428W WO 2012120695 A1 WO2012120695 A1 WO 2012120695A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
character string
image
detection
detected
Prior art date
Application number
PCT/JP2011/056428
Other languages
English (en)
French (fr)
Inventor
相澤 知禎
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Priority to US13/985,528 priority Critical patent/US9129383B2/en
Priority to EP11860629.2A priority patent/EP2685426B1/en
Publication of WO2012120695A1 publication Critical patent/WO2012120695A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • the present invention relates to technology for processing image data such as still images or moving images to detect characters from the image, and particularly to technology for improving character detection accuracy when the background on the image is complex. It is.
  • Patent Documents 1 to 3 described above have the following problems. That is, in order to determine whether or not the character string is to be detected, a recognition process is required for all characters cut out from the image, resulting in a problem that the processing time becomes long.
  • the recognition target character is Japanese or Chinese
  • the number of characters is large (each of which is more than 3000 characters for the first level kanji and more than 6000 characters for the second level kanji). Therefore, in order to execute the character recognition process in these languages, a collation process with 3000 to 6000 characters or more is required, and as a result, the character recognition process becomes a process that requires a lot of time and a high load. End up. Then, with respect to all recognized character strings, a matching process with a keyword is added, and the processing time is further increased.
  • a character string that is, a telop
  • a character string candidate is used as a character string candidate. Extract.
  • the keyword character string to be detected does not satisfy the telop condition, as a result, the detection target character string cannot be detected.
  • Patent Document 4 first, a road sign or a signboard area is specified based on feature quantities such as saturation and circularity from an image, and a character string area is extracted from the specified signboard area.
  • a technique for recognizing a sign (a character) by comparing with dictionary data prepared in advance is disclosed.
  • the technique described in Patent Document 4 is a technique for detecting a character string in a signboard on the assumption that the contrast between the background color and the character color is high. Therefore, from the viewpoint of detection accuracy, the character string detection technique described in Patent Document 4 cannot be employed for the purpose of detecting a character string with a complex background color. In addition, when the keyword character string to be detected is included in an area that does not satisfy the characteristics of the signboard, the detection target character string cannot be detected as a result.
  • Patent Documents 5 and 6 disclose techniques for detecting a target character string by collating images in a character area. Specifically, first, character fonts constituting a specific keyword are read and drawn one by one to create a character string image corresponding to the keyword. Next, a keyword is detected from the image by performing a similar image search on the image using the character string image as a key.
  • Non-Patent Document 1 As a technique for detecting a character feature amount from an image for use in a collation process between images, for example, it is conceivable to use a corner detection technique and a contour detection technique described in Non-Patent Document 1.
  • Patent Documents 5 and 6 have the following problems.
  • character string detection is performed by collating images.
  • the character string image of the model prepared in advance is an image in which only the character string is drawn and the background is monotonous.
  • the comparison result between the images cannot obtain a sufficient matching rate. As a result, it may not be a character string, or a false detection such as being different from the detection target character string may occur.
  • the above problem does not only occur in the characters of the specific language described above, but is a problem that occurs in common in character detection processing in all languages, and detects characters from images including still images as well as videos. It is a problem that occurs in the same way.
  • the present invention has been made in view of the above-described problems, and an object of the present invention is to provide a character string detection device, an image processing device, a character string detection method, and a control that improve the detection accuracy of character string detection processing on an image. To realize a program and a recording medium. Another object of the present invention is to improve both detection accuracy and processing efficiency in a character string detection device that performs character string detection processing.
  • a character string detection device of the present invention is a character string detection device that detects a character string composed of one or more characters from an image, based on color information that each pixel constituting the image has.
  • a clustering means for defining at least one cluster composed of a certain number or more of pixel groups having similar colors, and the image comprising a region of the pixel group belonging to the cluster defined by the clustering means, and other pixel groups
  • a clipping unit that generates a clipping image in which the region of the other pixel group is excluded from the image, and a detection target that is a character string to be detected from the clipping image generated by the clipping unit.
  • Character string detection means for detecting the character string to be detected by detecting each character of the character string It is characterized.
  • the clustering means classifies the image area to be detected into groups of pixels having similar colors and defines clusters. Then, a clipping image including only the pixel group of the cluster obtained for each similar color is generated by the clipping unit.
  • the character string detection means When detecting the target character you want to detect, the character string detection means only detects the target character not from the entire image, but from the clipping image in which only similar colors are collected (other colors are cut off). It's okay.
  • At least one of the classified clusters should contain a string color.
  • the clipping image obtained for the character color cluster is considered to indicate the information of the character itself that contains as little extra information as possible. Therefore, by using information obtained from such a cluster of character colors, it is possible to accurately collate characters without being affected by the background of the character being complicated.
  • the above-described character string detection device of the present invention can be applied to any image processing device capable of processing an image, and such an image processing device equipped with the character string detection device of the present invention is also included. It falls within the scope of the present invention.
  • a character string detection method of the present invention is a character string detection method for detecting a character string consisting of one or more characters from an image, based on color information of each pixel constituting the image.
  • a clustering step for defining at least one cluster composed of a certain number or more of pixel groups having similar colors, an area of the pixel group belonging to the cluster defined in the clustering step, and other pixel groups
  • a clipping step for generating a clipping image in which the region of the other pixel group is excluded from the image, and a character string to be detected from the clipping image generated in the clipping step.
  • a character string detection step for detecting the detection target character string by detecting each character of the detection target character string. It is characterized in that.
  • the character string detection device may be realized by a computer.
  • the character string detection device is controlled by causing the character string detection device to be realized by the computer by operating the computer as each of the means.
  • a program and a computer-readable recording medium on which the program is recorded also fall within the scope of the present invention.
  • a character string detection device of the present invention is a character string detection device that detects a character string composed of one or more characters from an image, based on color information that each pixel constituting the image has.
  • a clustering means for defining at least one cluster composed of a certain number or more of pixel groups having similar colors, and the image comprising a region of the pixel group belonging to the cluster defined by the clustering means, and other pixel groups
  • a clipping unit that generates a clipping image in which the region of the other pixel group is excluded from the image, and a detection target that is a character string to be detected from the clipping image generated by the clipping unit.
  • Character string detection means for detecting the character string to be detected by detecting each character of the character string It is characterized.
  • a character string detection method of the present invention is a character string detection method for detecting a character string consisting of one or more characters from an image, based on color information of each pixel constituting the image.
  • a clustering step for defining at least one cluster composed of a certain number or more of pixel groups having similar colors, an area of the pixel group belonging to the cluster defined in the clustering step, and other pixel groups
  • a clipping step for generating a clipping image in which the region of the other pixel group is excluded from the image, and a character string to be detected from the clipping image generated in the clipping step.
  • a character string detection step for detecting the detection target character string by detecting each character of the detection target character string. It is characterized in that.
  • Embodiment 1 An embodiment of the present invention will be described below with reference to the drawings.
  • the character string detection device of the present invention is not limited to a DVD player, and can be applied to any image processing device that can process an image.
  • image processing device for example, but not limited to, digital video recorder / player, Blu-ray disc recorder / player, digital video camera, digital camera, digital TV, personal computer (PC), mobile phone, printer, scanner, multifunction device, facsimile machine, etc.
  • the present invention can be applied to various image processing apparatuses that can process still images and / or moving images. Note that both still image data and moving image data are referred to herein as images.
  • the character string detection device of the present invention is capable of detecting a designated character string with high accuracy and efficiency with low load processing even from an image having a complicated background. It is.
  • the configuration of the DVD player as the character string detection device of the present invention will be described.
  • FIG. 1 is a block diagram showing a main configuration of a DVD player 1 according to an embodiment of the present invention.
  • the DVD player (character string detection device / image processing device) 1 of this embodiment includes a control unit 10, a storage unit 11, a display unit 12, an operation unit 13, a temporary storage unit 14, and these Each unit includes a bus 15 as a common signal line for transmitting and receiving data.
  • the display unit 12 displays an image processed by the DVD player 1 or displays an operation screen for a user to operate the DVD player 1 as a GUI (Graphical User Interface) screen.
  • the display unit 12 includes a display device such as an LCD (Liquid Crystal Display) or an organic EL display.
  • the operation unit 13 is used by the user to input and operate an instruction signal to the DVD player 1.
  • the DVD player 1 may include the display unit 12 and the operation unit 13 that can directly transmit and receive data via the bus 15, but is not limited to such a configuration.
  • the display unit 12 is realized by a digital television, and an external interface (not shown) of the DVD player 1 connected to the control unit 10 via the bus 15 is an HDMI (High Definition Multimedia Interface) terminal. And it connects with the display part 12 as a digital television via an HDMI cable. Thereby, the DVD player 1 can output and display the image reproduced by the device itself on the display unit 12 (digital television).
  • HDMI High Definition Multimedia Interface
  • the operation unit 13 may be realized as a remote control common to the digital television and the DVD player 1 as an example.
  • a signal corresponding to a button (cross key, enter key, character input key, etc.) provided on the operation unit 13 is output from the light emitting unit of the operation unit 13 as an infrared signal when the button is pressed, and is a DVD player. 1 or input to the DVD player 1 or the digital television through a light receiving portion provided in the main body of the digital television.
  • a signal received via a light receiving unit (not shown) of the DVD player 1 is supplied to the control unit 10 via the bus 15, and the control unit 10 performs an operation according to the signal.
  • the control unit 10 executes various programs by executing the program read from the storage unit 11 to the temporary storage unit 14 and controls the respective units of the DVD player 1 through the bus 15. Is.
  • control unit 10 includes, as functional blocks, a feature amount extraction unit 22, a primary detection unit 23, a candidate area specification unit 24, a pixel plot unit 25, a clustering unit 26, a representative color determination unit 27, and a cluster selection unit 28. , A clipping unit 29, a secondary detection unit 30, and a character string determination unit 31.
  • Each of these functional blocks is for causing the DVD player 1 to function as the character string detection device of the present invention.
  • the control unit 10 includes a moving image reproduction unit 20 and a still image generation unit 21 as functional blocks for causing the DVD player 1 to function as an image processing device.
  • the above configuration is an example of a functional block that is basically provided in the image processing device, and does not limit the configuration of the character string detection device of the present invention, and is appropriately designed according to the function of the image processing device. Is.
  • Each of the functional blocks (20 to 31) of the control unit 10 described above includes a program stored in a storage device realized by a CPU (central processing unit), such as a ROM (read only memory), and a random access memory (RAM). This can be realized by reading the temporary storage unit 14 realized by the above and executing it.
  • a CPU central processing unit
  • ROM read only memory
  • RAM random access memory
  • the feature quantity extraction unit 22, the primary detection unit 23, and the candidate area specification unit 24 function as a primary detection function in the character string detection device of the present invention.
  • the pixel plot unit 25, the clustering unit 26, and the representative color determination unit 27 function as a color analysis function.
  • the cluster selection unit 28, the clipping unit 29, and the secondary detection unit 30 function as a secondary detection function.
  • the DVD player 1 of the present embodiment can be equipped with a character evaluation device (not shown).
  • the character evaluation device has a character evaluation function for analyzing and evaluating every character that can be detected by the character string detection device of the present invention.
  • the character string detection device can detect the character string included in the image using the character information obtained by the evaluation by the character evaluation device. Specifically, the character evaluation device analyzes a character based on the character shape characteristic and the linguistic characteristic of the character, and evaluates from the viewpoint of how much the character is difficult to be detected erroneously (how easily it is detected correctly). To obtain an evaluation value representing “difficulty of erroneous detection”.
  • the evaluation value is stored in advance for each character in a character information storage unit (not shown).
  • the character string detection device of the present invention can grasp in advance, for each character, the difficulty of erroneous detection of characters. As a result, the character string detection device can perform a search in order from characters that are hard to be erroneously detected in the specified keyword, and can realize a character string detection process with higher accuracy and efficiency than in the past. it can.
  • false detection means that a background area that is not originally a character includes a target character by mistake, that another character is erroneously detected as a target character, It refers to failure to detect the target character even though it is the target character.
  • Such false detection is likely to occur when the character shape is simple or when there is a different character. For example, it is a character that is often used as part of various character elements such as the number of characters such as “1” for numbers, “-” for long sounds, etc.
  • the “difficulty of false detection” can be evaluated by the fact that the shape of the character is complicated, that there is no character with a similar shape, or that there is no different character.
  • the present invention is not limited to this, and other character shape characteristics and other character characteristics may be used for evaluating the difficulty of erroneous detection.
  • the storage unit 11 includes a control program and an OS program executed by the control unit 10, and various functions (for example, an image processing function, a primary detection function, a color analysis function, and a secondary detection function) that the control unit 10 has in the DVD player 1. , A character evaluation function, etc.) are stored.
  • the storage unit 11 includes, for example, an image storage unit 40, a keyword storage unit 41, and a character information storage unit 42, and stores various types of fixed data.
  • the storage unit 11 is realized by, for example, an EPROM (Erasable ROM), an EEPROM (Electrically ROM), a flash memory, or the like, which is a non-volatile memory whose contents can be rewritten.
  • the storage unit that stores information that does not require rewriting of contents is realized by a ROM (Read Only Memory) that is a read-only semiconductor memory, not shown, different from the storage unit 11. Also good.
  • the image storage unit 40 stores data of an image to be processed by the DVD player 1 as an image processing device.
  • the image storage unit 40 can store both still images and moving images as images.
  • the keyword storage unit 41 stores keywords specified by the user.
  • the character string detection device executes a character string detection process (including a series of primary detection function, color analysis function, and secondary detection function).
  • a character string detection process including a series of primary detection function, color analysis function, and secondary detection function.
  • each unit of the control unit 10 reads the specified keyword with reference to the keyword storage unit 41.
  • the data structure of the keyword storage unit 41 will be described in detail later.
  • the character information storage unit 42 stores character information used when the character string detection device executes character string detection processing in a database.
  • the character database stored in the character information storage unit 42 stores, for each character, a character code for uniquely identifying the character and feature information (model) of the character in association with each other. The data structure of this character database will be described in detail later.
  • the temporary storage unit 14 is a so-called working memory that temporarily stores data used for calculation, calculation results, and the like in the course of various processes executed by the DVD player 1, and is realized by a RAM (Random Access Memory) or the like. . More specifically, when executing the image processing, the still image generation unit 21 develops an image to be processed in an image memory (not shown) included in the temporary storage unit 14, thereby causing each unit of the control unit 10 to Detailed analysis can be performed on the image in pixel units. Alternatively, execution results executed by the respective units that realize the primary detection function, the color analysis function, and the secondary detection function are also temporarily stored in the temporary storage unit 14.
  • FIG. 2 is a diagram for explaining the appearance of the DVD player 1, the display unit 12 (digital television), and the operation unit 13 (remote controller) of the present invention and how the user inputs a target keyword (character string). .
  • the DVD player 1 outputs an operation screen for the user to operate the character string detection device to the display unit 12 and displays the operation screen.
  • the display unit 12 displays a GUI screen that allows the user to input a character string that the user wants to search by operating the operation unit 13.
  • FIG. 2 shows an example in which the keyword “ace” is input as the target character string.
  • An input control unit of the DVD player 1 receives a keyword (for example, “ACE”) when a keyword is input by a user operation of the operation unit 13 and a determination button or the like of the operation unit 13 is pressed. Is stored in the keyword storage unit 41.
  • a keyword for example, “ACE”
  • FIG. 3 is a diagram illustrating an example of a keyword data structure held in the keyword storage unit 41.
  • the display control unit stores each character of the acquired keyword in the order of the keyword sequence. For example, in the case of the keyword “ace”, since “e” is the first character in the keyword, the display control unit stores the character “e”, and the character order “1” is stored in the character. Information is stored in association with each other. Similarly, the character orders “2” and “3” are stored in association with each other for the characters “ ⁇ ” and “su”.
  • the character evaluation device evaluates three characters “D”, “-”, and “SU”, and “difficulty of misdetection” is determined. It is preferable to give priority, that is, search order in descending order. In the example shown in FIG. 3, among the above three characters, “su” that is most likely to be mistaken for the other characters is given priority “1”, and “d” that may be mistaken for another character is given priority “2”. “ ⁇ ”, Which is likely to be mistaken for any figure or character with a higher probability, is assumed to be determined as the priority “3”.
  • the primary detection unit 23 and the secondary detection unit 30 have the priority order. Based on this, it is possible to detect a character, and it is possible to detect a designated character with high accuracy and efficiency by more reliably detecting a character from a character that is not easily mistaken.
  • a field for storing a flag indicating “detected” may be secured for a character that has been detected.
  • the moving image reproduction unit 20 of the control unit 10 reads out a moving image stored in the image storage unit 40, performs processing for external output, and reproduces the moving image.
  • the moving image processed by the moving image reproducing unit 20 is temporarily stored in an image memory (not shown), and is displayed for each frame under the control of a display control unit (not shown). 12 is output.
  • the moving image processed by the moving image playback unit 20 is output to the still image generation unit 21.
  • the display control unit When an instruction to display a still image stored in the image storage unit 40 is input, the display control unit reads the still image from the image storage unit 40 and outputs the still image to the display unit 12. .
  • the still image generation unit 21 extracts a frame to be subjected to character string detection processing from each frame of the moving image and generates a still image to be processed.
  • the still image generation unit 21 may convert all frames included in the moving image into still images, but in the present embodiment, the still image generation unit 21 performs a process of extracting a still image to be processed at a predetermined second interval or a predetermined frame interval. Execute.
  • a display control unit (not shown) reads the specified still image from the image storage unit 40 and outputs it to the feature amount extraction unit 22.
  • the feature amount extraction unit 22 extracts a feature amount used for the character string detection process from the still image generated by the still image generation unit 21 or the still image read by the display control unit.
  • the feature amount used by the character string detection device of the present invention may be anything as long as the character string detection device can identify the character shape for each character.
  • the primary detection unit 23 and the secondary detection unit 30 realize character detection by comparing the feature quantity with a known model feature quantity. Therefore, the feature amount of the model for each character stored in the character information storage unit 42 and the feature amount of the character extracted by the feature amount extraction unit 22 are the same type of feature amount extracted by the same method. preferable.
  • the corner detection technique and the outline (edge) detection technique described in Non-Patent Document 1 may be used as a technique for detecting a feature amount of a character from an image. Is not limited to this.
  • the character feature amount may be a character image.
  • FIG. 4 is a diagram illustrating an example of a still image generated by the still image generation unit 21.
  • FIG. 5 is a diagram illustrating an example of feature amount data reflecting the feature amount extracted by the feature amount extraction unit 22 from the still image generated by the still image generation unit 21.
  • the feature amount extraction unit 22 uses the above-described contour detection technique and the like based on each pixel value of the still image illustrated in FIG.
  • Edge feature quantity data is obtained by representing the (edge) and the non-edge area in binary.
  • the feature amount extraction unit 22 supplies edge feature amount data obtained as shown in FIG. 5 to the primary detection unit 23.
  • the primary detection unit 23 determines whether or not the designated keyword is included in the image by a relatively simple procedure (low load processing).
  • the purpose of the primary detection function realized by the primary detection unit 23 is to determine whether the “specified keyword is not included in the image” or “the specified keyword is likely to be included in the image”. It is to perform at high speed by low load processing. Therefore, in the present embodiment, the primary detection unit 23 determines whether there is a possibility that at least one character of the specified keywords is included in the image.
  • the primary detection unit 23 compares the feature amount data extracted by the feature amount extraction unit 22 with the feature information (model) of one character of the designated keyword, and selects “ Detect areas where the characteristics of "s" appear.
  • the primary detection unit 23 preferably detects, for example, “su”, which is the first character of the priority, among the designated keywords “ace”. If there is no possibility that the “ace” of the “ace” is the least likely to be mistakenly detected, it is possible to accurately determine that “the specified keyword is not included in the image”. In order to achieve the purpose of the function, it can be said that it is sufficient to perform detection processing for the first character with the first priority.
  • a model for each character is stored in the character information storage unit 42.
  • FIG. 6 is a diagram showing an example of a character database stored in the character information storage unit 42 of the DVD player 1 in the present embodiment.
  • the character information storage unit 42 stores, for each character, a character code for uniquely identifying the character and feature information (model) of the character in association with each other.
  • the primary model used in the primary detection function for low-load processing and the secondary model used in the secondary detection function for performing character string detection with higher accuracy are associated with one character.
  • the primary detection unit 23 detects a target character from the feature amount data using the primary model stored in the character information storage unit 42 in order to perform primary detection of low-load processing.
  • the primary model has a small amount of information compared to the secondary model. For this reason, the character detection process executed by the primary detection unit 23 can be realized with a relatively low load process. Specifically, unlike the secondary model, the primary model has a small number of pieces of information (black circles) that specify the position where the edge should be in the character. Also, information (white circles) that designates a position where there should not be an edge is not adopted.
  • the character detection performed by the primary detection unit 23 has a low processing load, but is a rough process, so the accuracy is not so high. Therefore, actually, a character that is not the target character may be detected as the possibility of the character.
  • by performing character detection with a small number of features (loose conditions) it is possible to reduce the fact that the target character is overlooked even if the target character is present in the image, rather it is suitable for the purpose of primary detection. It can be said that it is a composition.
  • 7A to 7C are diagrams for explaining a problem of character recognition in an image including a complex background.
  • FIG. 7A when a character (for example, “su”) is superimposed on a complicated background, an edge other than the edge constituting the character “su” is detected in the background of the character “su”. May be.
  • the secondary model includes information (white circles) that specifies a position where there should not be an edge.
  • FIG. 7 (c) edges around the character “su” on the complex background are detected at positions where there should be no edges in the model (dotted circles). ). Therefore, when the secondary model is used, the image of FIG. 7A that should originally contain the character “su” has an adverse effect that an edge is detected in the background. There is an inconvenience that an erroneous search result is output.
  • the primary detection function executed by the primary detection unit 23 uses a primary model with a loose condition to determine whether or not there is a possibility that “su” exists and to overlook “su”. Can be avoided.
  • the primary detection function is intended to search for the possibility that the specified keyword exists, there is no problem even if there is a slight misdetection. Therefore, the processing is simplified compared to the secondary detection function described later. Is preferable from the viewpoint of processing efficiency. This is why the presence / absence of the detection target character is determined using a primary model having a smaller number of features than the secondary model.
  • a priority index indicating “difficulty of misdetection” may be stored in advance for each character.
  • This priority index is obtained in advance by the above-described character evaluation device (not shown). Accordingly, the primary detection unit 23 can grasp the priority order for each character of the designated keyword, and can determine that detection is performed from a character with a high priority order.
  • FIG. 8 is a diagram illustrating an example of an execution result of the primary detection unit 23 executing the primary detection function on the feature amount data.
  • the primary detection unit 23 acquires a primary model of “su” stored in the character information storage unit 42, and an area having a feature that matches the acquired primary model, that is, “su” “like” characters, It is determined whether one or more feature quantity data (FIG. 5) exists. If “su” or “like” characters (candidate characters) cannot be detected in the feature amount data, the primary detection unit 23 may determine that “the specified keyword (ace) is not included in the image”. it can. Further, if the candidate character can be detected, it can be determined that “the specified keyword is highly likely to be included in the image”.
  • the primary detection unit 23 compares the primary model of “su” with the feature amount data illustrated in FIG. 5, and candidate character positions of candidate characters that match the primary model of “su”. 80 and candidate character position 81 are detected.
  • the primary detection unit 23 supplies the detected candidate character position information to the candidate area specifying unit 24.
  • the character string determination unit 31 that finally determines the character string can output “This image does not include“ ace ”” as a final determination result.
  • the candidate area specifying unit 24 is an area that is likely to contain a designated keyword (here, “ace”) using the candidate character position of the “su” or “like” character detected by the primary detection unit 23 as a clue. That is, the candidate area is specified.
  • FIG. 9 is a diagram illustrating an example of a result of the candidate area specifying unit 24 specifying the candidate area based on the candidate character position.
  • the candidate character position of the character “su” “like” is specified by the primary detection unit 23, it is assumed that the character position is “su” and how the designated keyword “ace” is arranged.
  • the candidate region is identified by predicting whether it can be performed.
  • the candidate area specifying unit 24 considers that the characters are arranged in one vertical row or one horizontal row, and that the character “su” is the third character of the designated keyword “ace”.
  • a candidate area 90 that covers an area for two characters is specified. If there is a character “su” at the candidate character position 80, and if the “su” is a character constituting the designated keyword “ace”, the characters “e” and “ ⁇ ” 90 is likely to be included. For this reason, if the secondary detection function for detecting the character string “Ace” is executed in the candidate area 90, the target character string can be detected with high probability with a small amount of processing.
  • the candidate area specifying unit 24 specifies the candidate area 91 in the same manner for the second and subsequent candidate character positions 81.
  • the candidate area specifying unit 24 may further narrow down the candidate areas according to the language characteristics of the designated keyword.
  • the language of the designated keyword “ACE” is Japanese
  • Japanese is a language that reads characters from the left to the right or from the top to the bottom, except in special cases.
  • the candidate area specifying unit 24 may specify the candidate area 92 for the candidate character position 80 in consideration of this language specification. Thereby, it becomes possible to further narrow down candidate areas.
  • the candidate area specifying unit 24 narrows down the area that may contain the specified keyword to the candidate area from the entire image, thereby greatly increasing the target area for the character string detection process in the downstream process. Can be reduced. For this reason, the configuration of the candidate area specifying unit 24 greatly contributes to the efficiency of processing and the reduction of processing load.
  • the candidate area specifying unit 24 may specify the inclined rectangle as a candidate area in accordance with the candidate character position specified by being inclined. .
  • the candidate area specifying unit 24 may specify a certain range from the candidate character position as the candidate area regardless of the number of characters, and define the shape of the candidate area as an appropriate shape such as a circle, an ellipse, or a rectangle. May be.
  • the primary detection function can be executed, and it is determined whether or not the target character string is included at high speed with low-load processing. Can narrow down candidate areas that are likely to contain the target character string from the entire image.
  • the candidate area specified by the candidate area specifying unit 24 is then supplied to each unit (for example, the pixel plot unit 25) that executes the color analysis function.
  • the color analysis function is to analyze the color of each pixel constituting the image.
  • the color analysis result obtained by the color analysis function is used by each unit that executes the secondary detection function to execute the secondary detection function, which is a high-load process, with high accuracy and efficiency.
  • FIG. 10 is a diagram illustrating an example of a result of trimming based on the candidate area specified by the candidate area specifying unit 24.
  • the candidate area specifying unit 24 trims the trimmed image 70 obtained by trimming the still image and the feature amount data.
  • the trimmed data 71 is supplied to the pixel plot unit 25.
  • the candidate area specifying unit 24 may supply the coordinate information of the candidate area to the pixel plotting unit 25.
  • the pixel plot unit 25 can specify the candidate area from the still image and the feature amount data based on the coordinate information.
  • Each part of the downstream process only needs to process the small trimmed information as shown in FIG. 10 instead of the entire image, and as a result, the subsequent processing can be executed accurately and efficiently. .
  • the pixel plot unit 25 projects each pixel of the candidate area specified by the candidate area specifying unit 24 into an arbitrary color space, and acquires the color distribution information of the candidate area by projection. Specifically, the pixel plot unit 25 acquires color information of each pixel in the candidate area, specifies which coordinate position of the coordinate system in the color space corresponds to the color information, Get coordinate information.
  • FIG. 11 is an image diagram of color distribution information obtained by the pixel plot unit 25 plotting each pixel in the candidate area in the color space.
  • the color distribution information shown in FIG. 11 is shown for explanation so as to be easily understood visually, and the pixel plot unit 25 does not actually need to generate such an image diagram.
  • the pixel plotting unit 25 uses the CIE-L * a * b * color space as an arbitrary color space, and plots each pixel (color information thereof) there.
  • the color space is recommended for standardization of the uniform perceptual color space, it is preferable to use the CIE-L * a * b * color space.
  • the character string detection device of the present invention is not limited to the above, and pixels may be plotted based on any known color space. For example, an RGB color space, a CMY color space, an HSB color space, or the like can be used.
  • the pixels may be plotted on a two-dimensional graph such as a CIE-xy chromaticity diagram.
  • the pixel plot unit 25 When the pixel plot unit 25 plots each pixel in the color space, it can be determined what color distribution the candidate area has. Specifically, it is possible to obtain “location where many points (pixels) are concentrated”, “degree of point concentration (dispersion)”, and the like.
  • the pixel plot unit 25 analyzes the color distribution in the candidate area based on the color information of each pixel in the candidate area.
  • the candidate area color distribution information generated by the pixel plot unit 25 is supplied to the clustering unit 26.
  • the clustering unit 26 defines each pixel in the candidate region based on the color distribution information of the candidate region obtained by the pixel plotting unit 25 for each group of pixels having similar colors.
  • the clustering unit 26 first divides the color space into a number of predetermined blocks, and identifies the number of upper blocks where points are concentrated. When upper blocks including many points are adjacent to each other, the blocks may be grouped. And the clustering part 26 determines the center coordinate predetermined for every block as the center of a sphere (cluster). In the grouped block, the average coordinate of the center coordinates of each block may be determined as the center of the sphere.
  • the clustering unit 26 performs simulation by gradually increasing the radius r of the sphere from 0, and calculates the radius r when the rate of increase of the number of points belonging to the sphere becomes equal to or less than a certain value.
  • r the radius of the cluster.
  • the cluster is defined in the color space by defining the center of the sphere and the radius r.
  • one or a plurality of clusters including a pixel group in which the distance between the pixels is smaller than the first threshold (for example, the diameter 2r of the sphere) is defined. That is, a cluster is defined for each group of similar color pixels that are close in color space.
  • FIG. 11 shows an example in which the clustering unit 26 defines three clusters 85 to 87 for a space where points are concentrated.
  • the cluster information defined by the clustering unit 26 (for example, the center coordinates and radius of the sphere) is supplied to the representative color determining unit 27.
  • the representative color determination unit 27 determines a representative color for each of the clusters generated by the clustering unit 26. There are several methods for determining the representative color. For example, the representative color determination unit 27 determines the average value of all the color information in the generated cluster as the representative color C of the cluster. Alternatively, the center coordinates of the cluster may be determined as a representative color as it is.
  • At least one of the acquired clusters is considered to be a cluster to which the pixels constituting the character string of the designated keyword belong. Therefore, it can be considered that the color of the character string (or a color close to it) is included in the representative colors determined for each cluster.
  • the cluster selection unit 28 evaluates the likelihood of “a cluster in which the pixels constituting the character string of the designated keyword exist” and includes the color of the character string. The cluster which has a high possibility of having been selected is selected.
  • the likelihood of being a character string color cluster can be evaluated as follows, for example. Characters and figures are often composed of a single color compared to a natural background or an area that captures a real subject, and the color distribution within a cluster of character string colors varies compared to other clusters. Is expected to be extremely small. Therefore, the cluster selection unit 28 obtains the variance of each cluster, and selects the cluster so that the character string detection process is performed in order from the cluster having the smallest variance. Alternatively, a processing order is assigned to each cluster.
  • each unit in the downstream process can process the clusters in the order determined by the cluster selection unit 28. That is, since the character string detection process is performed in order from the highest possibility of being a character string color cluster, the efficiency of the character string detection process is improved.
  • the clipping unit 29 removes pixels in other regions so that only pixel regions belonging to the cluster selected by the cluster selection unit 28 remain in the candidate region.
  • FIG. 12 is a diagram showing an example of map information indicating the clipping region specified by the clipping unit 29.
  • FIG. 13 is a diagram illustrating an example of clipping data after clipping based on the map information of FIG.
  • FIG. 12 shows map information 72 in which the clipping unit 29 specifies the pixel region belonging to the cluster 85 in the candidate region (trimmed image 70 in FIG. 10).
  • the hatched area indicates the area (to be left) of the cluster 85, and the other area indicates the area to be cut off.
  • the clipping unit 29 cuts off the area other than the hatched area of the map information 72 shown in FIG. 12 from the trimming data 71 shown in FIG. 10, so that only the edge features based on the pixels of the cluster 85 remain as shown in FIG. Clipping data 73 can be obtained.
  • any of the generated clusters is a cluster having a color for the search character string, only the character string color is roughly processed by individually processing the clusters classified for each color. Edge characteristics can be obtained.
  • Each part of the downstream process can search for a character based on the clipping data 73 obtained by cutting off the edge feature of the extra color. As a result, the original complicated background information is cut off, so that the character string detection process is executed with high accuracy without being adversely affected by the complicated background.
  • Clipping data 73 generated by the clipping unit 29 is supplied to the secondary detection unit 30.
  • the secondary detection unit 30 determines whether or not the designated keyword is included in the image. Specifically, the clipping data 73 generated by the clipping unit 29 is collated with a model stored in the character information storage unit 42 to detect a character string of a designated keyword for each character.
  • the secondary detection unit 30 performs collation with the clipping data 73 using a secondary model (FIG. 6) including more detailed information stored in the character information storage unit 42.
  • the secondary model has abundant amount of information in order to accurately detect the character string compared to the primary model. Although collation using a secondary model with a large amount of information is a high-load process, in the character string detection device of the present invention, the processing range from the entire image to the hatched area shown in FIG. It is narrowed down to. For this reason, it is possible to realize accurate character string detection processing in a short time.
  • the secondary detection unit 30 when detecting the designated keyword, the secondary detection unit 30 preferably detects the target character string for each character in accordance with the priority order determined for each character. For example, if the designated keyword is “ace”, and priority levels “2”, “3”, and “1” are assigned to the three characters “e”, “ ⁇ ”, and “su”, respectively. To do. In this case, the secondary detection unit 30 first collates the secondary model of “su” with the clipping data 73 to detect “su”, and similarly detects characters in the order of “d” and “ ⁇ ”. Perform detection.
  • the priority order is determined based on “difficulty of misdetection”. Therefore, the secondary detection unit 30 can detect the designated character with high accuracy and efficiency by performing the character detection more reliably from the characters that are not easily mistaken.
  • the priority order is determined based on “difficulty of erroneous detection” evaluated for each character by a character evaluation device (not shown), but is not limited to this.
  • the priority order may be specified by his / her own judgment and set in the character string detection device.
  • the secondary detection unit 30 predicts the positional relationship between the characters based on the sequence of the detected characters and the characters to be detected. It is preferable that the detection target area is narrowed down to the vicinity area of the detected character and the character string detection process is executed.
  • the secondary detection unit 30 detects the detection target.
  • the area can be further narrowed down. Specifically, it can be limited to a region of a predetermined size on the right side and the lower side of the detected character. Further, when the character to be searched next is the (n ⁇ 1) th character in the character string, the secondary detection unit 30 is limited to an area of a predetermined size on the left side and the upper side of the detected character. can do.
  • the search range can be further narrowed down compared to the case where the target character is searched in order from the entire area of the clipping data 73, so that the processing time can be further shortened.
  • the secondary detection unit 30 next searches for the character “D” after detecting the first priority character “SU”. According to the character order of FIG. 3, the detected character “su” is third, whereas “d” to be searched next is first. Therefore, there is a high possibility that “D” exists in a neighboring region of “SU” (in particular, left or above in Japanese).
  • the secondary detection unit 30 limits the target area for searching for “d” to the neighboring area of the detected character “su”. For example, as shown in FIG. 14, it is limited to an area of a predetermined size on the left side of “su” (dotted dot frame halftone area). For example, as shown in FIG. 14, if the size of the detected character area is h ⁇ h, the predetermined size may be limited to an area of 3h ⁇ 3h adjacent to the left.
  • the target character for example, “e” is detected in the area (1) to the left of the detected character (for example, “su”).
  • the target characters “D”, “ ⁇ ” can be obtained in a much shorter time and with a lower load compared to the case where the areas defined by the clipping data 73 are sequentially searched from the beginning. Can be detected.
  • the target character eg, “e”
  • the upper region (2) that may be found next
  • the detection target area may be expanded sequentially and the search may be continued.
  • the entire region defined by the clipping data 73 may be returned to the target and searched again.
  • the processing efficiency of the character string detection process in the secondary detection unit 30 can be drastically improved.
  • the secondary detection unit 30 determines that the character order of the next character to be searched for the nth detected character is (n ⁇ 2) th, (n ⁇ 3) th, (n ⁇ 4) th, As the distance between the detected character and the character to be searched for becomes longer, the positional relationship may be predicted and the detection target area may be further expanded according to the positional relationship.
  • the area for searching for “d” is set to the detected character “abbreviation”. If the size of the area “h” is h ⁇ h, it is conceivable that the area is limited to a size of 5 h ⁇ 5 h adjacent to the left.
  • the area of the detection target area can be greatly limited as compared with the case where the entire definition area of the clipping data 73 is set as the detection target area, and the processing load and the processing time can be reduced. be able to.
  • the secondary detection unit 30 detects a band-shaped area where edges are dense from the feature value obtained from the clipping data 73, and if the band area extends in the horizontal direction, the characters can be written horizontally.
  • the right and left areas are searched preferentially over the upper and lower areas, and if it is a band area extending in the vertical direction, the characters are likely to be vertically written. You may make it search preferentially rather than.
  • the processing efficiency in the secondary detection unit 30 can be further improved.
  • the secondary detection unit 30 detects the designated keyword for each character in accordance with the priority order. As shown in FIG. 3, when the secondary detection unit 30 can detect the character of the designated keyword, the secondary detection unit 30 sets a detected flag associated with the detected character.
  • the character string determination unit 31 determines whether or not a specified keyword is included in the image according to the character detection result of the secondary detection unit 30.
  • the character string determination unit 31 refers to the keyword storage unit 41 shown in FIG. 3 and determines that the specified keyword has been detected in the processed still image by setting the detected flag for all the characters of the keyword. To do.
  • the character string determination unit 31 displays a success message notifying that the character string has been detected on the display unit 12, etc. Notify the user of character string detection. If all characters of the designated keyword are not detected by the secondary detection unit 30, a failure message notifying that the character string has not been detected may be displayed on the display unit 12.
  • the character string determination unit 31 corresponds to the still image in which the character string is detected when the still image in which the secondary detection unit 30 has detected the character string is a part of the movie.
  • the reproduction position may be notified to the user together with the success message.
  • the character string determination unit 31 grasps the positional relationship of each detected character and finally verifies whether or not the detected character string is indeed a designated keyword.
  • the designated keyword is detected individually in the order of “su”, “d”, “ ⁇ ”, for example, according to the priority order, not the character order. Therefore, there is a possibility that each detected character is actually a word different from the designated keyword “ACE”. Therefore, the character string determination unit 31 determines whether or not the detected characters “su”, “e”, “ ⁇ ” are arranged in a certain direction in the order of “e”, “ ⁇ ”, “su”. Judging.
  • the character string determination unit 31 determines that each detected character is not the character of the designated keyword, and It is finally determined that the specified keyword is not included.
  • the presence / absence of the specified keyword is determined even when each character of the specified keyword is colored with a different color (a color separated so as to be classified into different clusters). be able to.
  • the secondary detection unit 30 collects all from one cluster. Cannot be detected.
  • the secondary detection unit 30 detects “su” from the yellow cluster, “d” from the red cluster, and “ ⁇ ” from the blue cluster separately.
  • the character string determination unit 31 arranges each character “su”, “e”, “ ⁇ ” detected from different clusters in the order of “e”, “ ⁇ ”, “su” in a certain direction. Judge whether or not.
  • the character string determination unit 31 can determine that the designated keyword “ace” is detected only when the character sequence is “ace”.
  • FIG. 16 is a flowchart showing the flow of image processing and character string detection processing in the DVD player 1.
  • the character string detection device included in the DVD player 1 searches for a specified keyword from the moving image and outputs a reproduction position where the target keyword is detected.
  • the target character string to be searched (for example, the keyword “ace”) is input to the character string detection device together with an instruction to detect the character string.
  • the keyword may be a single character or a plurality of characters.
  • priority designation by the user may be performed for each character.
  • a moving image to be processed may be specified here.
  • a display control unit (not shown) stores the input keyword in the keyword storage unit 41 (S102).
  • the display control unit stores the character sequence in the keyword storage unit 41 in association with the character order for each acquired character.
  • the priority is also stored in the keyword storage unit 41 in association with the characters.
  • the priority order may be given by a character evaluation device (not shown) determined based on the priority index of characters shown in FIG. 6, that is, “difficult to be erroneously detected” (S103).
  • the character string detection process is not executed for all frames of the moving image, and frames extracted at a predetermined second interval (for example, tx second interval) are set as detection target frames.
  • the video playback unit 20 plays back a video, and until the playback position t reaches the detection target frame (NO in S106), the video playback unit 20 advances the playback of the video (S111). As long as the reproduction position t does not reach the final frame of the moving image, the moving image can be reproduced (NO in S112).
  • the still image generation unit 21 When the playback position t reaches the detection target frame as the playback position t advances (YES in S106), the still image generation unit 21 generates a still image of the reached detection target frame (decoding process) ( S107).
  • the feature amount extraction unit 22 extracts a feature amount from the generated still image (S108).
  • the feature amount is information obtained by using, for example, the corner detection technique and the contour (edge) detection technique described in Non-Patent Document 1, and the character string detection device can identify the character shape. Information.
  • feature data shown in FIG. 5 is generated.
  • Each unit (23 to 31) downstream of the feature amount extraction unit 22 performs a character string detection process on the detection target frame (S109). For example, it is determined whether or not the designated keyword “ACE” is included in the detection target frame. Details of the flow of the character string detection process will be described later with reference to FIG. In S109, the character string determination unit 31 determines whether or not the designated keyword is detected for the detection target frame (S110).
  • the character string determination unit 31 detects the success message indicating that the keyword has been successfully detected, and the keyword.
  • the detected reproduction position corresponding to the received frame is output to the display unit 12 (S113).
  • the moving image reproduction unit 20 further proceeds to reproduce the moving image (S111).
  • the moving image reproduction unit 20 can advance the reproduction of the moving image as long as the reproduction position t does not reach the final frame of the moving image (NO in S112). If the next detection target frame is reached (YES in S106), the above-described character string detection process is repeated for the detection target frame.
  • the character string determination unit 31 Outputs the result of the column detection process. Specifically, when the designated keyword “ace” is not detected even once in the moving image, the character string determination unit 31 outputs a failure message indicating that the detection has failed to the display unit 12 (S114).
  • the control unit 10 of the character string detection device executes the character string detection process for the detection target frame at a predetermined interval (tx seconds), and the keyword “ACE” is detected. It is only necessary to memorize the playback position of the recorded frame.
  • FIG. 16 are flowcharts showing the flow of character string detection processing executed by the character string detection device of the DVD player 1.
  • the control unit 10 of the character string detection device starts the character string detection process of S109. To do.
  • the primary detection unit 23 refers to the keyword storage unit 41, and acquires the character with the highest priority among the characters of the input keyword as the target character.
  • the character “su” is acquired as the target character.
  • the primary detection unit 23 refers to the character information storage unit 42, and acquires the primary model of the character with the first priority “S” (S201).
  • the primary detection part 23 collates the feature-value data (FIG. 5) extracted from the detection object frame, and the primary model (FIG. 6) memorize
  • the target character “su” is detected for the detection target frame (S202).
  • the primary detection unit 23 determines that the target character (here, “su”) does not exist in the detection target frame (NO in S203). It is determined that the keyword cannot be detected, and the determination result is output to the character string determination unit 31 (S204). And the character string detection process with respect to this detection object frame is complete
  • the primary detection unit 23 determines that the target character is present in the detection target frame (YES in S203), “the keyword specified in the detection target frame may be included”. Judgment is made (S205).
  • the primary detection unit 23 identifies one or more “s” and “like” characters detected on the feature data as candidate characters (for example, candidate character position 80 and candidate character position 81 in FIG. 8). Then, the specified candidate character position is supplied to the candidate area specifying unit 24.
  • the candidate area specifying unit 24 specifies a candidate area that is a target area for searching for a target character string in detail (S206). For example, the candidate area 90 and the candidate area 91 in FIG. 9 are specified.
  • the candidate area specifying unit 24 may specify one candidate area or a plurality of candidate areas.
  • n candidate areas output from the candidate area specifying unit 24 are delivered to each unit that executes the color analysis function.
  • the variable i is initialized (S207), and the color analysis function is started from here.
  • i is an integer from 1 to n
  • n represents the total number of candidate areas specified by the candidate area specifying unit 24.
  • the pixel plot unit 25 acquires the i-th candidate region (for example, the trimmed image 70 in FIG. 10), and projects each pixel in this region onto the color space based on the color information of each pixel (S208). . Then, the clustering unit 26 generates a cluster in which a collection of pixels having a short distance (similar colors) in the color space is defined by a sphere (center coordinates and radius) (S209). The clustering unit 26 may generate one cluster or a plurality of clusters. For example, as shown in FIG. 11, clusters 85 to 87 are generated.
  • variable j is initialized (S210).
  • j is an integer from 1 to m, and m represents the total number of clusters generated by the clustering unit 26.
  • the representative color determination unit 27 acquires the j-th cluster and determines the representative color of the cluster.
  • the representative color determining unit 27 determines the average value of the color information of the pixels belonging to the cluster as the representative color Cj (S211).
  • the representative color determining unit 27 determines the representative color C for one cluster, j is incremented by 1 (S212). If there is an unprocessed cluster (YES in S213), the process of S211 is repeated.
  • the representative color determining unit 27 determines the representative color C for all clusters (NO in S213), the control unit 10 proceeds to execution of the secondary detection function.
  • each part of the color analysis function includes information on each defined cluster (sphere center coordinates, sphere radius, sphere color distribution information, representative color coordinates, etc.), and secondary detection function. Deliver to each part to be executed.
  • j is initialized again (S214), and the secondary detection function is started for each cluster.
  • the cluster selection unit 28 may determine the processing order of the clusters based on the cluster distribution. For example, the cluster selection unit 28 determines the processing order so that the processing is performed in order from the smallest variance of the pixels in the cluster.
  • the clipping unit 29 acquires the j-th cluster and specifies the pixel group region in the cluster (S215).
  • the clipping unit 29 generates, for example, the map information 72 in FIG.
  • the clipping unit 29 further moves the pixel group (Cj ⁇ ⁇ Cx) within a certain distance ( ⁇ Cx; second threshold value) from the representative color Cj of the cluster to the pixel group belonging to the j-th cluster. You may widen the range a little and widen the area left for clipping. As a result, it is possible to prevent erroneously determining that a character string does not exist at a location where the target character string originally exists. Further, the clipping unit 29 may adjust the value of ⁇ Cx according to the detection result of the character string.
  • the clipping unit 29 may increase the value of ⁇ Cx stepwise to widen an area to be left for clipping. Alternatively, when a character string is detected, it may be verified whether the value of ⁇ Cx is decreased stepwise to detect whether there is no problem even if the area left by clipping is narrowed.
  • the clipping unit 29 performs clipping so as to leave only the specified pixel group according to the generated map information 72 (S216). For example, by the clipping processing of the clipping unit 29, the trimming data 71 shown in FIG. 10 is in a state where unnecessary complex background edge information is cut off as in the clipping data 73 shown in FIG.
  • the secondary detection unit 30 performs secondary detection on the clipping data 73 obtained by the clipping unit 29, and determines whether or not the designated keyword is included.
  • the secondary detection unit 30 initializes the variable k (S217) and performs collation for each character.
  • k is an integer from 1 to p
  • p represents the number of characters of the designated keyword.
  • the secondary detection part 30 performs the secondary detection of the target character according to the priority of a character.
  • the secondary detection unit 30 determines the k-th priority character as the target character to be detected, and acquires the secondary model (FIG. 6) of the target character from the character information storage unit 42 (S218). Then, the secondary detection unit 30 collates the acquired secondary model with the clipping data 73 (S219). Here, when the secondary detection unit 30 finds a feature that matches the feature of the target character in the clipping data 73 (YES in S220), the secondary detection unit 30 sets a detected flag (FIG. 3) for that character and sets k to 1. Is incremented by one (S221).
  • the secondary search after S218 is repeated.
  • secondary detection unit 30 determines that “the designated character string has been detected” and determines the determination result as a character string determination.
  • the data is output to the unit 31 (S223).
  • the character string determination unit 31 further considers the arrangement of all the characters detected by the secondary detection unit 30, and if the arrangement does not correspond to the arrangement of the characters of the designated keyword, Even if the next detection unit 30 detects all characters, it may be finally determined that the designated keyword has not been detected.
  • the cluster selection unit 28 increments j by 1 (S224). If there is an unprocessed cluster (YES in S225), the cluster selection unit 28 selects the cluster by which j is incremented by one, and the clipping unit 29 To hand over. Thereby, the process after S215 is repeated about a new cluster. On the other hand, if there is no unprocessed cluster (NO in S225), the detection process has been performed for all the clusters in the candidate area, but the target character string has not been detected.
  • Each unit that executes the color analysis function increments i by 1 (S226). If there is an unprocessed candidate area (YES in S227), i is incremented by 1 The incremented candidate area is selected, and the processes after S208 are repeated. On the other hand, if there is no unprocessed candidate area (NO in S227), the target character string cannot be detected in all candidate areas recognized in the still image. Therefore, the secondary detection unit 30 determines that “the keyword specified from the detection target frame cannot be detected” and outputs the determination result to the character string determination unit 31 (S228).
  • the character string determination unit 31 can determine whether or not the keyword specified from the detection target frame has been detected as shown in FIG.
  • the character string detection device classifies the region of the image to be detected for each pixel group having similar colors, and sets each similar color.
  • the feature quantity obtained in the above is collated with the model of the target character.
  • At least one of the classified clusters should contain a string color.
  • the feature amount obtained for the character color cluster is considered to indicate the feature amount of the character itself that does not include extra information. Therefore, by using the feature amount obtained from such a character color cluster, it is possible to accurately match characters without being affected by a complicated background or pattern.
  • the character string detection device of the present invention is configured to include a primary detection unit 23 that easily performs high-speed collation and a secondary detection unit 30 that performs accurate collation in detail.
  • a designated keyword is not included in the target still image” or “a possibility that a specified keyword may be included” is first determined by a simple primary detection process using a low-load process. Judgment can be made at high speed. For this reason, if it is determined that “the specified keyword is not included in the target still image”, the secondary detection process of the high-load process is executed for the still image that is not expected to include the specified keyword. Therefore, the efficiency of the entire character string detection process can be improved by eliminating unnecessary processes.
  • the secondary detection target area can be narrowed down from the entire still image based on the area where the candidate character is detected. Therefore, the secondary detection of the high-load process only needs to be performed not on the entire still image but on a narrowed area that is likely to contain the specified keyword. As a result, it is possible to improve the efficiency of the entire character string detection process by eliminating unnecessary processes.
  • the character string detection device of the present invention can search for characters in order starting from a character that is hard to be erroneously detected. Characters that are not easily detected erroneously are more likely to be detected correctly and quickly from fewer candidates than characters that are easily detected erroneously. Therefore, the target character string can be detected from the image more accurately and more efficiently in a short time and with a low load process as compared with the case where the characters in the keyword are sequentially arranged.
  • the character string detection device of the present invention since character-by-character collation is performed using the feature amount for each character, it is not necessary to store character string images of multiple characters and feature amounts as samples. That is, since it is not necessary to facilitate both horizontal writing and vertical writing samples, it is possible to realize memory saving in the character information storage unit 42. Also, the processing time is advantageous compared to the conventional configuration.
  • the character string detection device of the present invention can be applied not only to detection of a designated keyword character string under a complex background but also to recognition of an arbitrary character string following the detected designated character string. For example, it can be applied to a technique for detecting and recognizing a URL from a TV program or a CM. Specifically, a character string such as “http” or “www” generally included in the URL is registered in the character string detection device as a designated keyword character string.
  • the character string detection device executes the character string detection processing of the present invention and can detect the keyword character string, it has a character recognition function for recognizing the character string following “http” or “www”.
  • the character string detection device is configured as described above.
  • the character string detection device of the present invention can not only improve the detection accuracy and detection efficiency of characters under a complex background, but also improve the recognition accuracy and recognition efficiency of characters.
  • the secondary detection unit 30 is configured to detect a target character in the order of priority specified for each character of the specified keyword.
  • the configuration of the character string detection device of the present invention is not limited to this.
  • the secondary detection unit 30 sets the next character to be searched as a character adjacent to the detected character in the character sequence of the specified keyword.
  • the configuration may be such that the search is performed from the character with the highest priority. It is considered that the characters on both sides of the detected characters in the character sequence are arranged at positions closest to the detected characters in the image.
  • the configuration using the edge feature of the character when collating the characters is described.
  • the configuration of the character string detection device of the present invention is not limited to this.
  • the primary detection unit 23 and the secondary detection unit 30 of the character string detection apparatus according to the present invention perform character matching using template matching technology or feature quantities such as character circularity and character line length. May be performed.
  • the primary detection unit 23 that performs simple and high-speed character detection lowers the resolution of the entire target still image and performs collation when detecting the candidate character with the highest priority. If template matching (or feature amount collation) is performed with a reduced resolution, that is, a plurality of pixels as one pixel, it is possible to carry out determination at a higher speed with a lower load process.
  • each block of the DVD player 1 (character string detection device), in particular, each unit (20 to 31) belonging to the control unit 10 may be configured by hardware logic or using a CPU as follows. It may be realized by software.
  • the character string detection device includes a CPU (central processing unit) that executes instructions of a control program that realizes each function, a ROM (read only memory) that stores the program, and a RAM (random access memory) that expands the program. And a storage device (recording medium) such as a memory for storing the program and various data.
  • An object of the present invention is to provide a recording medium on which a program code (execution format program, intermediate code program, source program) of a control program for a character string detection device, which is software that realizes the above-described functions, is recorded in a computer-readable manner This can also be achieved by supplying to the character string detection device and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU).
  • Examples of the recording medium include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks / hard disks, and disks including optical disks such as CD-ROM / MO / MD / DVD / CD-R.
  • Card system such as IC card, IC card (including memory card) / optical card, or semiconductor memory system such as mask ROM / EPROM / EEPROM / flash ROM.
  • the character string detection device may be configured to be connectable to a communication network, and the program code may be supplied via the communication network.
  • the communication network is not particularly limited.
  • the Internet intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication. A net or the like is available.
  • the transmission medium constituting the communication network is not particularly limited. For example, even in the case of wired such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, ADSL line, etc., infrared rays such as IrDA and remote control, Bluetooth ( (Registered trademark), 802.11 wireless, HDR, mobile phone network, satellite line, terrestrial digital network, and the like can also be used.
  • the present invention can also be realized in the form of a computer data signal embedded in a carrier wave in which the program code is embodied by electronic transmission.
  • the character string detection device of the present invention further includes pixel plotting means for plotting each pixel in a color space coordinate system based on color information of each pixel constituting the image, and the clustering means includes the pixel A cluster composed of pixels in which the distance between the pixels plotted in the color space coordinate system by the plotting unit is smaller than the first threshold value can be defined in the color space coordinate system.
  • the pixel plotting means can specify the color of each pixel based on a color space that is a clear reference for indicating the color. Therefore, the clustering unit can classify (cluster) each pixel by color based on a clear standard.
  • the character string detection device of the present invention further includes representative color determination means for determining a representative color of each cluster defined by the clustering means, and the representative color determination means includes a group of pixels belonging to the cluster.
  • An average value of the color information of the cluster is determined as a representative color of the cluster, and the clipping means includes a pixel group region in which the distance from the representative color is smaller than a second threshold in the color space coordinate system, and other pixel groups. It can be divided into areas.
  • the clipping unit can determine how much a color similar to the representative color should be a region to be left in the clipping image with the determined representative color as a reference. Further, by making the second threshold variable, it is possible to easily finely adjust the boundary between the region left in the clipping image and the region that is not.
  • the character string detection apparatus of the present invention further comprises a cluster selection means for selecting a cluster to be processed by the clipping means and the character string detection means from a plurality of clusters defined by the clustering means, and the cluster selection means
  • the means preferably selects a cluster having the smallest variance of the pixel group in the cluster in the color space coordinate system as a cluster to be processed among unprocessed clusters.
  • each part in the downstream process can process the clusters in the order determined by the cluster selection unit.
  • the cluster selection means selects clusters so that processing is performed in order from the cluster having the smallest variance.
  • Characters and figures are often composed of a single color compared to a natural background or an area that captures a real subject, and the color distribution within a cluster of character string colors varies compared to other clusters. Is expected to be extremely small. The smaller the variance, the more the color of the pixel group in the cluster is concentrated in a predetermined single color. The smaller the variance, the more likely that the cluster is a character string color cluster. High degree.
  • the character string detection device of the present invention can be configured so that the character string detection processing is performed in order from the highest possibility of being a character string color cluster, the efficiency of the character string detection processing is remarkably improved. It becomes possible to improve.
  • the character string detection device of the present invention may determine whether or not the detection target character string is included in the image based on whether or not at least one character of the detection target character string is detected from the image.
  • Low-order detection means, and the clustering means determines a cluster for the image when the low-order detection means determines that the character string to be detected may be included in the image. It is preferable to define.
  • the detection target character string is It can be immediately determined that it is not included in the image.
  • the downstream process (after the clustering means) does not execute processing for an image that does not contain the detection target character string.
  • the low-order detection means in the character string detection device of the present invention by collating an image whose resolution is lowered from the original image, and a low-order model indicating character characteristics, which is prepared in advance for each character, The character of the character string to be detected is detected, and the low-order model preferably has a smaller number of character features than the high-order model used by the character string detection unit for matching with the clipping image.
  • the low-order detection means detects a target character (at least one character) by collating the low-resolution image with the low-order model.
  • the character string detection means detects the target character string by detecting all characters in the detection target character string by comparing the original image with the secondary model.
  • the low-order model is a simple model with less information than the secondary model.
  • the low-order detection means requires much less information to be processed than the character string detection processing performed by the character string detection means, and the detection target character string is added to the image at high speed with low load processing. It is possible to determine whether there is a possibility of being included.
  • the detection of characters by the low-order detection means only determines whether or not there is a possibility that the target character string is included, whether or not there is a possibility rather than the accuracy of the determination that “it is the target character” Is required to be performed at high speed by low-load processing.
  • the accuracy described above is important for the detection of the character string by the character string detection means that finally detects the character string.
  • the character string detection device of the present invention realizes the character detection processing of the low-order detection means at high speed with low load processing by using the low-resolution image and the low-order model, while the character string of the character string detection means Only detection is realized with high accuracy by an original resolution image and a higher-order model.
  • the character string detection device of the present invention includes candidate area specifying means for specifying candidate areas limited to include characters detected by the low-order detection means in the image, and the clustering means includes the candidate area Preferably, at least one cluster is defined based on the color information of each pixel that constitutes.
  • the candidate region limited to the entire image including the character is specified by the candidate region specification unit. Is done.
  • the downstream process the clustering means and the like
  • the position of each remaining character can be predicted based on the position.
  • the character string detection unit when the character string detection unit detects one character included in the detection target character string from the image, the character string to be detected next is a sequence of characters in the detection target character string. In this case, it may be determined from undetected characters closest to the detected characters.
  • the characters on both sides of the detected characters in the character sequence are arranged at positions closest to the detected characters in the above image. Therefore, the presence or absence of the target character string can be detected more accurately at an early stage from the vicinity of the detected character by preferentially searching for these characters based on the position of the detected character in the image. be able to.
  • the character string detection means may detect that the detected character is the nth character in the character sequence in the detection target character string, and the next character to be detected is (n + 1). )
  • the detection target area is limited to the right and lower areas of the detected character, and the next character to be detected is the (n-1) th character, It is preferable that the detection target area is limited to the left side and the upper side of the detected character.
  • the position of the character to be searched next can be more accurately narrowed down from the position of the detected character based on the original character sequence.
  • the character to be searched next follows the detected character in the specified character string sequence, if it is horizontal writing, the right side of the detected character, if it is vertical writing, the detected character There is a high possibility that it is located on the underside.
  • the next character to be searched is the character that precedes the detected character, it can be placed on the left side of the detected character for horizontal writing, or above the detected character for vertical writing. High nature.
  • the character string detection method of the present invention is configured such that, prior to the clustering step, the detection target character is added to the image based on whether or not at least one character of the detection target character string is detected from the image.
  • the character string detection device of the present invention can detect a specified character from an image in a short time and with low load processing, a digital video recorder / player, a Blu-ray disc recorder / player, a digital video camera, Applying to various image processing devices capable of processing still images, moving images, or both, such as digital cameras, digital televisions, personal computers (PCs), mobile phones, printers, scanners, multifunction devices, and facsimile machines Is possible. Since the character string detection device of the present invention can detect a character string in a short time without impairing real-time performance even in a moving image processing with a heavy load, Applying to the device is particularly advantageous.

Abstract

 本発明の文字列検知装置(1)は、1以上の文字からなる文字列を画像から検知する文字列検知装置(1)において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも1つ定義するクラスタリング手段(26)と、上記画像を、上記クラスタリング手段(26)によって定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピング手段(29)と、上記クリッピング手段(29)によって生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知手段(30)とを備えていることを特徴としている。

Description

文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体
 本発明は、静止画または動画などの画像のデータを処理して画像中から文字を検知する技術に関するものであり、特に、画像上の背景が複雑な場合における文字検知精度を向上させる技術に関するものである。
 従来、画像(静止画または動画)中から、特定の文字(キーワード)を検知する技術が数多く存在する。例えば、特許文献1~3には、画像中のすべての文字領域を切り出して、切り出した各々について文字認識処理を行ってテキストデータに変換してから、検知すべきキーワードであるか否かを判断する技術が開示されている。
 しかしながら、上述の特許文献1~3に記載の技術にあっては、下記のような問題がある。すなわち、検知したい文字列であるか否かを判断するために、画像から切り出した全ての文字について認識処理が必要となり、結果として処理時間が長くなるという問題がある。
 例えば、認識対象文字が日本語や中国語の場合、文字数が多い(各々、第一水準漢字だけで3000文字以上、第二水準漢字も合わせると6000文字以上ある)。したがって、これらの言語で、文字認識処理を実行するためには、3000~6000以上の文字との照合処理が必要となり、結果として、文字認識処理が、多大な時間を要する負荷の高い処理となってしまう。そして、認識されたすべての文字列について、キーワードとの照合処理が加わり、処理時間はさらに長くなる。
 上記処理時間の問題は、静止画よりも、リアルタイム性が要求される動画を処理するケースにおいては、より一層深刻な問題となる。
 また、文字列を切り出す際には、一般的に、文字と背景の境界部分の画素値が急激に変化することから、Sobelフィルタやラプラシアンフィルタを用いてエッジを抽出して、この部分を文字列領域として抽出している。しかしながら、背景が複雑な場合、文字ではない背景部分の画素値が急激に変化しているところからもエッジが抽出され、結果として、対象文字列が存在しないにもかかわらず、背景を文字列領域であると誤検知してしまう可能性があり、検知精度が悪い。
 なお、特許文献2に開示されている技術では、例えば、テレビ映像中のテロップを検出することを目的として、テロップの特徴を利用して映像中の文字列(すなわちテロップ)を検知する。具体的には、テロップが一定の色と濃度(テロップの場合通常白色)で同一場所に一定時間静止していることが多いという特徴を利用して、その特徴に該当する画素を文字列候補として抽出する。しかし、検知対象となるキーワード文字列がテロップの条件を満たさない場合には、結果として、該検知対象文字列を検知できない。
 特許文献4には、画像の中から、まず、道路標識や看板の領域を彩度および円形度などの特徴量に基づいて特定し、特定された看板の領域内から文字列領域を抽出し、予め用意した辞書データと比較することにより、看板(の文字)を認識する技術が開示されている。
 特許文献4に記載の技術では、文字列が含まれている候補領域を、看板の領域を特定することによって、ある程度絞り込むことで文字列検知処理の効率化を図っている。しかしながら、3000~6000文字以上の文字との照合処理が必要であるという点で特許文献1~3と変わりなく、依然として処理時間の深刻な問題が解決されない。
 また、特許文献4に記載の技術は、背景色と文字色のコントラストが高いことが前提となっている看板における文字列検知の技術である。そのため、検知精度の観点から、特許文献4に記載の文字列検知の技術を、背景色が複雑な文字列を検知する目的で採用することはできない。また、検知対象となるキーワード文字列が看板の特徴を満たさない領域に含まれている場合には、結果として、該検知対象文字列を検知できない。
 上記の技術に対し、特許文献5、6には、文字領域の画像同士を照合して目的の文字列検知を行う技術が開示されている。具体的には、まず、特定のキーワードを構成する文字フォントを1文字ずつ読み出して描画して、該キーワードに対応する文字列画像を作成する。次に、この文字列画像をキーとして、画像に対して類似画像検索を行うことにより、上記画像からキーワードを検知する。
 上記特許文献5、6に記載の技術によれば、画像同士の照合処理によって文字列検知を行うので、画像中のすべての文字領域に対して文字認識処理を行う必要がなく、上述の特許文献1~4に記載の技術と比較して、処理時間を短縮させることができる。さらに、画像同士のマッチング処理によって検知対象文字列の検知を行うため、一致率の閾値などを任意に定めておけば、背景のノイズの許容範囲を調節することができ、結果として、背景におけるある程度のノイズを許容し、検知対象文字列が全く検知できないといった不都合を解消することができる。
 なお、画像同士の照合処理に用いるための、画像から文字の特徴量を検出する技術としては、例えば、非特許文献1に記載のコーナー検出技術、輪郭線検出技術を用いることが考えられる。
日本国公開特許公報「特開平08-205043号公報(1996年8月9日公開)」 日本国公開特許公報「特開2006-134156号公報(2006年5月25日公開)」 日本国公開特許公報「特開2008-131413号公報(2008年6月5日公開)」 日本国公開特許公報「特開2008-287735号公報(2008年11月27日公開)」 日本国公開特許公報「特開平10-191190(1998年7月21日公開)」 日本国公開特許公報「特開2008-004116号公報(2008年1月10日公開)」
奥富 正敏、ほか著「ディジタル画像処理」CG-ARTS協会出版、2007年3月1日(第二版二刷)、P.208~210,12-2節「特徴点検出」
 しかしながら、上述の特許文献5、6に記載の技術にあっては、下記のような問題がある。
 上記特許文献5、6に記載の技術によれば、画像同士の照合処理によって文字列検知を行う。ここで、対象画像が複雑な背景を文字の下に有している場合、精度良くマッチング処理を行うことが困難になるという問題がある。あらかじめ用意されているモデルの文字列画像は単に文字列のみが描画されていて背景が単調な画像である。そのようなモデル画像と、複雑な背景を有する文字列領域の画像とを比較した場合、たとえ文字列が一致していたとしても、画像同士の比較結果は十分な一致率が得られなくなる。結果として、それは文字列ではない、あるいは、検知対象文字列とは異なるなどの誤検知が生じる虞がある。
 なお、特許文献5、6に記載の技術においては、照合処理に利用する文字列の画像を格納するためのメモリ容量の問題がある。
 例えば、日本語、中国語、韓国語などの言語においては、文字を綴る方向として、横書き、縦書きの両方が考えられる。同じ文字列でも縦書きと横書きとでは異なる文字列画像として認識されるため、上述の特許文献5、6に記載の技術においては、縦書きと横書きの両方の画像を用意する必要がある。したがって、処理負荷の増大やメモリ容量の問題は、深刻となり、このように照合するべき画像が増えれば、結果として、類似画像検索に要する処理時間も問題となる。上述したとおり、処理時間の問題は、静止画よりも、リアルタイム性が要求される動画を処理するケースにおいては、より一層深刻な問題となる。
 さらには、文字の大きさの違いによって異なる文字と判断されたり、文字の書体の違いによって異なる文字と判断されたりする虞があれば、文字の大きさごと、書体ごとにバリエーションに応じた複数の文字列画像をモデル画像として格納しておく必要があるため、メモリ容量および処理時間の問題は、より一層深刻となる。
 上記問題点は、上述した特定の言語の文字にのみ生じるものではなく、あらゆる言語の文字検知処理の際に共通に生じる問題であり、また、動画のみならず静止画を含む画像から文字を検知する際に同様に生じる問題である。
 本発明は、上記の問題点に鑑みてなされたものであり、その目的は、画像に対する文字列検知処理の検知精度の向上を実現する文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体を実現することにある。また、本発明の他の目的は、文字列検知処理を実行する文字列検知装置において、検知精度の向上とともに、処理効率の向上を両立することにある。
 本発明の文字列検知装置は、上記課題を解決するために、1以上の文字からなる文字列を画像から検知する文字列検知装置において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも1つ定義するクラスタリング手段と、上記画像を、上記クラスタリング手段によって定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピング手段と、上記クリッピング手段によって生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知手段とを備えていることを特徴としている。
 上記構成によれば、クラスタリング手段は、検知対象となる画像の領域を、色が類似する画素群ごとに分類して、クラスタを定義する。そして、その類似色ごとに得られたクラスタの画素群だけが含まれるクリッピング画像がクリッピング手段によって生成される。
 文字列検知手段は、検知したい目的の文字を検知するとき、画像全体からではなく、類似色ばかりが集められた(その他の色は削ぎ落とされた)クリッピング画像から、目的の文字を検知するだけでよい。
 分類したいくつかのクラスタの中に少なくとも1つは、文字列色に該当するものが含まれているはずである。そして、文字色のクラスタについて得られたクリッピング画像は、余分な情報が極力含まれない文字そのものの情報を示していると考えられる。したがって、このような文字色のクラスタから得られた情報を利用することにより、文字の背景が複雑であってもその影響を受けることなく、文字の照合を精度良く行うことが可能となる。
 本発明の上述の文字列検知装置は、画像を処理することが可能なあらゆる画像処理装置に適用することが可能であり、本発明の文字列検知装置を搭載した、そのような画像処理装置も本発明の範疇に入る。
 本発明の文字列検知方法は、上記課題を解決するために、1以上の文字からなる文字列を画像から検知する文字列検知方法において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも1つ定義するクラスタリングステップと、上記画像を、上記クラスタリングステップにて定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピングステップと、上記クリッピングステップにて生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知ステップとを含むことを特徴としている。
 なお、上記文字列検知装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記文字列検知装置をコンピュータにて実現させる上記文字列検知装置の制御プログラム、および、それを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 本発明の文字列検知装置は、上記課題を解決するために、1以上の文字からなる文字列を画像から検知する文字列検知装置において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも1つ定義するクラスタリング手段と、上記画像を、上記クラスタリング手段によって定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピング手段と、上記クリッピング手段によって生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知手段とを備えていることを特徴としている。
 本発明の文字列検知方法は、上記課題を解決するために、1以上の文字からなる文字列を画像から検知する文字列検知方法において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも1つ定義するクラスタリングステップと、上記画像を、上記クラスタリングステップにて定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピングステップと、上記クリッピングステップにて生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知ステップとを含むことを特徴としている。
 したがって、画像に対する文字列検知処理の検知精度を向上させることが可能になるという効果を奏する。
本発明の実施形態におけるDVDプレーヤーの要部構成を示すブロック図である。 本発明の文字列検知装置(画像処理装置/DVDプレーヤー)、表示部(デジタルテレビ)、および、操作部(リモコン)の外観と、ユーザが目的の文字列を入力する様子を説明する図である。 文字列検知装置のキーワード記憶部41に保持されるキーワードのデータ構造の一例を示す図である。 本実施形態における文字列検知装置の静止画生成部が生成した静止画の一例を示す図である。 静止画生成部によって生成された静止画から、特徴量抽出部が抽出した特徴量を反映した特徴量データの一例を示す図である。 本実施形態における文字列検知装置の文字情報記憶部に記憶されている文字データベースの一例を示す図である。 (a)~(c)は、複雑背景を含む画像における文字認識の問題について説明する図である。 本実施形態における文字列検知装置の一次検知部が特徴量データに対して一次検知機能を実行した実行結果の一例を示す図である。 本実施形態における文字列検知装置の候補領域特定部が、候補文字位置に基づいて候補領域を特定した結果の一例を示す図である。 候補領域特定部によって特定された候補領域に基づいて、トリミングされた結果(トリミング画像およびトリミングデータ)の一例を示す図である。 本実施形態における文字列検知装置の画素プロット部が色空間に候補領域の各画素をプロットして得た色分布情報のイメージ図である。 本実施形態における文字列検知装置のクリッピング部が特定したクリッピング領域を示すマップ情報の一例を示す図である。 上記マップ情報に基づいて、クリッピング部によってクリッピングされた後のクリッピングデータの一例を示す図である。 検知済文字の領域に基づいて決定される、次の文字を検知するための検知対象領域の一例を示す図である。 検知済文字の領域に基づいて決定される、次の文字を検知するための検知対象領域の具体例を示す図である。 DVDプレーヤーにおける画像処理および文字列検知処理の流れを示すフローチャートである。 DVDプレーヤーの文字列検知装置が実行する文字列検知処理の詳細な流れを示すフローチャートである。 DVDプレーヤーの文字列検知装置が実行する文字列検知処理の詳細な流れを示すフローチャートである。
 ≪実施形態1≫
 本発明の実施形態について、図面に基づいて説明すると以下の通りである。
 以下では、一例として、本発明の文字列検知装置を、画像を再生して表示するDVDプレーヤーに搭載した場合について説明する。
 なお、本発明の文字列検知装置は、DVDプレーヤーに限定されず、画像を処理することが可能なあらゆる画像処理装置に適用することが可能である。例えば、これに限定されないが、デジタルビデオレコーダー/プレーヤー、ブルーレイディスクレコーダー/プレーヤー、デジタルビデオカメラ、デジタルカメラ、デジタルテレビ、パーソナルコンピュータ(PC)、携帯電話、プリンタ、スキャナ、複合機、ファクシミリ装置など、静止画または動画、あるいは、その両方を処理することが可能な各種画像処理装置に適用することが可能である。なお、静止画データおよび動画データをともに、ここでは画像と称する。
 本発明の文字列検知装置は、複雑な背景を持つ画像であっても、その中から精度良く、かつ、低負荷処理で効率良く、指定の文字列を検知することが可能な文字列検知装置である。以下、本発明の文字列検知装置としてのDVDプレーヤーの構成を説明する。
 〔DVDプレーヤー1の構成〕
 図1は、本発明の実施形態におけるDVDプレーヤー1の要部構成を示すブロック図である。
 図1に示すとおり、本実施形態のDVDプレーヤー(文字列検知装置/画像処理装置)1は、制御部10、記憶部11、表示部12、操作部13、一時記憶部14、および、これらの各部でデータの送受信を行うための共通の信号線としてのバス15を備える構成となっている。
 表示部12は、DVDプレーヤー1が処理する画像を表示したり、ユーザがDVDプレーヤー1を操作するための操作画面をGUI(Graphical User Interface)画面として表示したりするものである。表示部12は、例えば、LCD(液晶ディスプレイ)、有機ELディスプレイなどの表示装置で構成される。
 操作部13は、ユーザがDVDプレーヤー1に指示信号を入力し、操作するためのものである。
 DVDプレーヤー1は、バス15を介して直接データ送受信を行うことが可能な表示部12および操作部13を備えていてもよいが、このような構成に限定されない。
 本実施形態では、表示部12は、デジタルテレビで実現されており、バス15を介して制御部10と接続するDVDプレーヤー1の外部インターフェース(図示せず)は、HDMI(High Definition Multimedia Interface)端子およびHDMIケーブルを介して、デジタルテレビとしての表示部12と接続している。これにより、DVDプレーヤー1は、自装置が再生する画像を表示部12(デジタルテレビ)に出力し、表示させることができる。
 また、本実施形態では、操作部13は、一例として、上記デジタルテレビおよび当該DVDプレーヤー1に共通のリモコンとして実現されていてもよい。操作部13に設けられたボタン(十字キー、決定キー、文字入力キーなど)に対応する信号は、そのボタンが押下されたときに、赤外線信号として操作部13の発光部から出力され、DVDプレーヤー1または上記デジタルテレビの本体に設けられた受光部を介してDVDプレーヤー1またはデジタルテレビに入力される。DVDプレーヤー1の受光部(図示せず)を介して受信された信号は、バス15を介して制御部10に供給され、制御部10が上記信号に応じた動作を行う。
 制御部10は、記憶部11から一時記憶部14に読み出されたプログラムを実行することにより、各種の演算を行うと共に、DVDプレーヤー1が備える各部を、バス15を介して統括的に制御するものである。
 本実施形態では、制御部10は、機能ブロックとして、特徴量抽出部22、一次検知部23、候補領域特定部24、画素プロット部25、クラスタリング部26、代表色決定部27、クラスタ選択部28、クリッピング部29、二次検知部30、および、文字列判定部31を備える構成である。これらの各機能ブロックは、DVDプレーヤー1を本発明の文字列検知装置として機能させるためのものである。
 また、DVDプレーヤー1は画像処理装置であるので、制御部10は、DVDプレーヤー1を画像処理装置として機能させるための機能ブロックとして、動画再生部20、および、静止画生成部21を備えている。上記構成は、画像処理装置が基本的に備えている機能ブロックの一例であって、本発明の文字列検知装置の構成を限定するものではなく、画像処理装置の機能に応じて適宜設計されるものである。
 上述した制御部10の各機能ブロック(20~31)は、CPU(central processing unit)が、ROM(read only memory)等で実現された記憶装置に記憶されているプログラムをRAM(random access memory)等で実現された一時記憶部14に読み出して実行することで実現できる。
 上述の機能ブロックのうち、特徴量抽出部22、一次検知部23、および、候補領域特定部24が、本発明の文字列検知装置における一次検知機能として機能する。画素プロット部25、クラスタリング部26、および、代表色決定部27が、色分析機能として機能する。クラスタ選択部28、クリッピング部29、および、二次検知部30が、二次検知機能として機能する。
 さらに、本実施形態のDVDプレーヤー1は、図示しない文字評価装置を搭載することも可能である。文字評価装置は、本発明の文字列検知装置が検知し得るあらゆる文字を分析して評価するための文字評価機能を備えている。文字評価装置が評価して得られた文字の情報を用いて、文字列検知装置は、画像に含まれる文字列を検知することが可能となる。具体的には、文字評価装置は、文字の形状特性および文字の言語的特性に基づいて、文字を分析し、その文字がどのくらい誤検知され難いのか(どのくらい正しく検知され易いのか)という観点から評価を行って、「誤検知のされ難さ」を表す評価値を求める。評価値は、図示しない文字情報記憶部において文字ごとに予め記憶される。
 文字評価装置が求めた評価値によって、本発明の文字列検知装置は、文字の誤検知され難さを文字ごとに予め把握することが可能となる。これにより、文字列検知装置は、指定されたキーワード中の誤検知され難い文字から順に検索を行うことが可能となり、従来と比較して精度良くかつ効率的に文字列検知処理を実現することができる。
 ここで、誤検知とは、本来文字ではない背景領域に、目的の文字が含まれていると誤って検知してしまうこと、別の文字を目的の文字と誤って検知してしまうこと、本来目的の文字であるのに目的の文字を検知し損なうことなどを指している。こうした誤検知は、文字の形状がシンプルなもの、異表記文字があるものに起こり易い。例えば、その文字に文字らしき特徴的な形が少なかったり(数字の“1”、長音を表す“ー”など)、漢字の部首など様々な文字の要素の一部としてよく使われる文字であったり(“口”、“日”など)、別の文字であるのに形状が似ているような文字同士であったり(カタカナの“ニ”と漢数字の“二”、カタカナの“ロ”と漢字の“口”、通常の“つ”と促音を表す“っ”など)、逆に、1つの意味で表記が複数ある文字であったり(“沢”と“澤”、“A”と“a”など)すると、誤検知の可能性は高まる。
 以上のことから、「誤検知のされ難さ」とは、文字の形状が複雑であること、類似形状の文字がないこと、異表記文字がないことなどによって評価できると言える。ただし、これに限定されず、その他の文字形状の特徴、その他の文字特性を、誤検知のされ難さの評価に用いてもよい。
 記憶部11は、制御部10が実行する制御プログラムおよびOSプログラム、ならびに、制御部10が、DVDプレーヤー1が有する各種機能(例えば、画像処理機能、一次検知機能、色分析機能、二次検知機能、文字評価機能など)を実行するときに読み出す各種の固定データを記憶するものである。本実施形態では、記憶部11には、例えば、画像記憶部40、キーワード記憶部41、および、文字情報記憶部42が含まれており、各種の固定データを記憶する。記憶部11は、例えば、内容の書き換えが可能な不揮発性メモリである、EPROM(Erasable ROM)、EEPROM(Electrically EPROM)、フラッシュメモリなどで実現される。なお、内容の書き換えが不要な情報を記憶する記憶部としては、上述したとおり、記憶部11とは別の、図示しない、読出し専用の半導体メモリであるROM(Read Only Memory)などで実現されてもよい。
 画像記憶部40は、DVDプレーヤー1が画像処理装置として処理する対象となる画像のデータを記憶するものである。本実施形態では、画像記憶部40は、静止画および動画をいずれも画像として記憶することができる。
 キーワード記憶部41は、ユーザによって指定されたキーワードを記憶するものである。この指定されたキーワードを画像から検知するために、文字列検知装置は、文字列検知処理(一連の一次検知機能、色分析機能、および、二次検知機能を含む)を実行する。このとき、制御部10の各部は、キーワード記憶部41を参照して、指定されたキーワードを読み出す。キーワード記憶部41のデータ構造については後に詳述する。
 文字情報記憶部42は、文字列検知装置が文字列検知処理を実行する際に利用する文字の情報をデータベース化して記憶するものである。文字情報記憶部42が記憶する文字データベースは、文字ごとに、文字を一意に識別するための文字コード、および、その文字の特徴情報(モデル)を対応付けて格納する。この文字データベースのデータ構造については後に詳述する。
 一時記憶部14は、DVDプレーヤー1が実行する各種処理の過程で、演算に使用するデータおよび演算結果等を一時的に記憶するいわゆるワーキングメモリであり、RAM(Random Access Memory)などで実現される。より具体的には、静止画生成部21は、画像処理を実行するとき、処理対象となる画像を、一時記憶部14が備える図示しない画像メモリに展開し、これにより、制御部10の各部が画像について画素単位で詳細な解析を行うことができる。あるいは、一次検知機能、色分析機能および二次検知機能を実現する各部が実行した実行結果もこの一時記憶部14に一時的に格納される。
 図2は、本発明のDVDプレーヤー1、表示部12(デジタルテレビ)、および、操作部13(リモコン)の外観と、ユーザが目的のキーワード(文字列)を入力する様子を説明する図である。図2に示す例では、DVDプレーヤー1は、ユーザが文字列検知装置を操作するための操作画面を表示部12に出力し、表示させる。図2に示す例では、表示部12は、ユーザが検索したい文字列を、操作部13を操作して入力できるようなGUI画面を表示する。
 ユーザは、操作部13を操作することにより、処理対象の動画(または静止画)から見つけたい文字列を文字列検知装置に対して入力することができる。図2は、目的の文字列として、キーワード「エース」が入力された例を示している。
 図示しないDVDプレーヤー1の入力制御部は、例えば、操作部13のユーザ操作によってキーワードが入力されて、操作部13の決定ボタンなどが押下されると、入力されたキーワード(例えば、「エース」)を受け付けて、キーワード記憶部41に格納する。
 図3は、キーワード記憶部41に保持されるキーワードのデータ構造の一例を示す図である。図3に示すとおり、表示制御部は、取得したキーワードの各文字をキーワードの並びの順に格納する。例えば、キーワード「エース」の場合、「エ」はこのキーワードの中で、1文字目であるので、表示制御部は、文字「エ」を格納し、さらに、当該文字に文字順序「1」の情報を対応付けて記憶する。「ー」、「ス」の各文字についても同様に、文字順序「2」、「3」を対応付けて記憶する。
 ここで、DVDプレーヤー1が文字評価装置を備えている場合には、文字評価装置が「エ」、「ー」、「ス」の3文字を評価して、「誤検知のされ難さ」が高い順に優先順位、すなわち、検索順序を付与することが好ましい。図3に示す例では、上記3文字のうち、最も他の文字と間違え難い「ス」が、優先順位「1」、他の文字と間違えられる可能性がある「エ」が、優先順位「2」、さらに高確率であらゆる図形、文字と間違えられる可能性がある「ー」が、優先順位「3」と決定されているものとする。
 このように、決定された優先順位を、図3に示すように、入力された各文字に対応付けて格納しておけば、一次検知部23、および、二次検知部30は、優先順位に基づいて、文字の検知を実行することができ、間違え難い文字からより確実に文字検知を行うことで、精度良くかつ効率良く指定文字を検知することが可能となる。
 さらに、図3に示すとおり、キーワード記憶部41において、検知が完了した文字には、「検知済」であることを示すフラグを格納するフィールドが確保されていてもよい。
 〔DVDプレーヤー1の機能構成〕
 制御部10の動画再生部20は、画像記憶部40に記憶されている動画を読み出して、外部出力用の処理を施し、動画を再生するものである。
 動画を再生・表示する旨の指示が入力された場合、動画再生部20が処理した動画は、一旦図示しない画像メモリに格納され、フレームごとに、図示しない表示制御部の制御の下、表示部12に出力される。
 動画から所定の文字列を検知する旨の指示が入力された場合、動画再生部20が処理した動画は、静止画生成部21に出力される。
 なお、画像記憶部40に記憶されている静止画を表示する旨の指示が入力された場合には、上記表示制御部は、画像記憶部40から静止画を読み出して、表示部12に出力する。
 静止画生成部21は、動画の各フレームから、文字列検知処理が実行される対象となるフレームを抽出して、処理対象の静止画を生成するものである。静止画生成部21は、動画に含まれるすべてのフレームをそれぞれ静止画にしてもよいが、本実施形態では、所定秒間隔、または、所定フレーム間隔で、処理対象となる静止画を抜き出す処理を実行する。
 なお、静止画から所定の文字列を検知する旨の指示が入力された場合、図示しない表示制御部が指定された静止画を画像記憶部40から読み出して特徴量抽出部22に出力する。
 特徴量抽出部22は、静止画生成部21が生成した静止画、または、上記表示制御部が読み出した静止画から、文字列検知処理に使用する特徴量を抽出するものである。本発明の文字列検知装置が用いる特徴量は、文字列検知装置が、文字の形状を、文字ごとに識別できるものであれば何でもよい。
 ただし、一次検知部23および二次検知部30は、上記特徴量を既知のモデル特徴量と比較することにより、文字の検知を実現するものである。したがって、文字情報記憶部42に記憶されている文字ごとのモデルの特徴量と、特徴量抽出部22が抽出する文字の特徴量とは同じ手法で抽出された同じ種類の特徴量であることが好ましい。なお、画像から文字の特徴量を検出する技術としては、例えば、非特許文献1に記載のコーナー検出技術、輪郭線(エッジ)検出技術を用いることが考えられるが、特徴量抽出部22の構成は、これに限定されない。あるいは、文字の特徴量とは、文字の画像であってもよい。
 図4は、静止画生成部21が生成した静止画の一例を示す図である。図5は、静止画生成部21によって生成された静止画から、特徴量抽出部22が抽出した特徴量を反映した特徴量データの一例を示す図である。本実施形態では、一例として、特徴量抽出部22は、図4に示す静止画の各画素値に基づいて、上述の輪郭線検出技術などを用いて、急峻な色の変化が生じている領域(エッジ)と、そうでない領域とを2値で表したエッジの特徴量データを得る。
 特徴量抽出部22は、図5のように得られたエッジの特徴量データを、一次検知部23に供給する。
 一次検知部23は、指定されたキーワードが画像に含まれているか否かを比較的簡単な手順(低負荷処理)により判断するものである。一次検知部23が実現する一次検知機能の目的は、「指定されたキーワードが画像に含まれていない」、または、「指定されたキーワードが画像に含まれている可能性が高い」の判断を、低負荷処理によって高速に行うことにある。したがって、本実施形態では、一次検知部23は、指定されたキーワードのうちの少なくとも1文字が、画像に含まれている可能性の有無を判断する。
 具体的には、一次検知部23は、特徴量抽出部22によって抽出された特徴量データと、指定キーワードの1文字の特徴情報(モデル)とを比較して、上記特徴量データの中から「ス」の特徴が表れている領域を検知する。一次検知部23は、例えば、指定キーワード「エース」のうち、優先順位が1番目の文字である「ス」の検知を行うことが好ましい。「エース」のうち、最も誤検知され難い「ス」が含まれている可能性がなければ、「指定されたキーワードが画像に含まれていない」と正確に判断することができるので、一次検知機能の目的を達成するのには、優先順位が1番目の1文字について検知処理を行うだけで十分と言える。
 本実施形態では、文字情報記憶部42に、文字ごとのモデルが格納されている。
 図6は、本実施形態におけるDVDプレーヤー1の文字情報記憶部42に記憶されている文字データベースの一例を示す図である。
 文字情報記憶部42には、文字ごとに、文字を一意に識別するための文字コード、および、その文字の特徴情報(モデル)が対応付けて記憶されている。本実施形態では、低負荷処理の一次検知機能で利用する一次モデルと、より精度良く文字列検知を行うための二次検知機能で利用する二次モデルとが、1つの文字に対して関連付けられている。一次検知部23は、低負荷処理の一次検知を行うため、文字情報記憶部42に記憶されている一次モデルを用いて、特徴量データから目的の文字を検知する。
 一次モデルは、二次モデルと比較して、情報量が少ないが、そのために、一次検知部23が実行する文字検知処理を比較的低負荷処理で実現することを可能にしている。具体的には、一次モデルは、二次モデルと異なり、その文字においてエッジがあるべき位置を指定する情報(黒丸)の数が少ない。また、エッジがあるべきでない位置を指定する情報(白丸)を採用していない。
 このように、二次モデルと比較して条件が緩い一次モデルを利用するので、一次検知部23が行う文字検知は処理負荷が低くなる一方、おおまかな処理であるので精度はさほど高くない。したがって、実際には、目的の文字でないものも、その文字の可能性があるとして検知してしまう可能性もある。しかし、少ない特徴数(緩い条件)で文字検知を行うことにより、画像中に目的の文字が存在するにもかかわらず見落としてしまうということを削減することができ、むしろ一次検知の目的に適った構成と言える。
 図7の(a)~(c)は、複雑背景を含む画像における文字認識の問題について説明する図である。
 図7の(a)に示すとおり、複雑な背景に文字(例えば「ス」)が重畳している場合、文字「ス」の背景には、文字「ス」を構成するエッジ以外のエッジが検出されることがある。このような画像から、文字「ス」を検知するために、最初から二次モデルとの比較を行うと、以下の弊害がある。すなわち、二次モデルには、図7の(b)に示すとおり、エッジがあるべきでない位置を指定する情報(白丸)が含まれている。一方、複雑背景上の文字「ス」の周囲には、図7の(c)に示すとおり、モデルではエッジがあるべきでないとされる位置にもエッジが検出されている(網点塗りの丸)。したがって、二次モデルを用いると、本来は文字「ス」が含まれているはずの図7の(a)の画像は、背景にエッジが検出されてしまったことが悪影響となり、「ス」ではない、と誤った検索結果が出力されてしまうという不都合がある。
 しかしながら、上述したとおり、一次検知部23が実行する一次検知機能は、条件の緩い一次モデルを用いることにより、「ス」が存在する可能性の有無を高速で判断し、「ス」を見落とすことを回避することができる。
 つまり、一次検知機能は、指定キーワードが存在する可能性を探ることが目的であるため、多少誤検出しても問題なく、したがって、後述の二次検知機能と比較して処理を簡単化することは処理効率の観点から好ましいことである。二次モデルより少ない特徴数の一次モデルを用いて検知対象文字の存在有無を判定するのはこのためである。
 また、一次検知機能を実行する時点では、指定キーワードが画像のどのあたりに存在するのか全く未知であるので、画像全体に対して適用される。このため、上述の通り、一次検知機能の処理を簡単化することによる処理時間短縮の効果は大きい。特に、フルHDサイズ(1920ピクセル×1080ピクセル)の画像のように、サイズが大きい画像の場合には、処理効率の効果はより一層大きい。
 なお、図6に示す文字データベースにおいて、「誤検知のされ難さ」を示す優先度指数が文字ごとにあらかじめ格納されていてもよい。図6に示す例では、数値が高いほど誤検知され難い文字であることを示す。この優先度指数は、図示しない上述の文字評価装置によって、予め求められているものである。したがって、一次検知部23は、指定キーワードの各文字について、優先順位を把握することができ、優先順位の高い文字から検知を行うといった判断ができるようになる。
 図8は、一次検知部23が特徴量データに対して一次検知機能を実行した実行結果の一例を示す図である。
 一次検知部23は、文字情報記憶部42に記憶されている「ス」の一次モデルを取得して、取得した一次モデルと一致する特徴を持つ領域、すなわち、「ス」“らしき”文字が、特徴量データ(図5)の中に1つ以上存在するか否かを判断する。特徴量データの中に「ス」“らしき”文字(候補文字)を検知できなければ、一次検知部23は、「指定されたキーワード(エース)が画像に含まれていない」と判断することができる。また、候補文字を検知できれば、「指定されたキーワードが画像に含まれている可能性が高い」と判断することができる。
 例えば、図8に示すとおり、一次検知部23は、「ス」の一次モデルと、図5に示す特徴量データとを比較して、「ス」の一次モデルに合致する候補文字の候補文字位置80および候補文字位置81を検知する。
 一次検知部23は、検知した候補文字位置の情報を候補領域特定部24に供給する。ここで、候補文字位置が1つも特定できなかった場合には、文字「ス」は、この画像には含まれていないと判断する。これにより、最後に文字列の判定を行う文字列判定部31は、「この画像に『エース』は含まれていない」を最終的な判定結果として出力することができる。
 候補領域特定部24は、一次検知部23によって検知された「ス」“らしき”文字の候補文字位置を手がかりとして、指定キーワード(ここでは、「エース」)が含まれている可能性の高い領域、すなわち、候補領域を特定するものである。
 図9は、候補領域特定部24が、候補文字位置に基づいて候補領域を特定した結果の一例を示す図である。
 本実施形態では、一次検知部23によって、「ス」“らしき”文字の候補文字位置が特定されると、そこが「ス」であると仮定して、指定キーワード「エース」がどのように配置され得るかを予測して、それを包括するような候補領域を特定する。
 例えば、候補領域特定部24は、文字は、縦一列または横一列に配置されること、および、文字「ス」は、指定キーワード「エース」の3番目の文字であることを考慮して、候補文字位置80の上、下、左、および、右の隣、2文字分の領域を網羅する候補領域90を特定する。候補文字位置80に文字「ス」があるとすれば、また、その「ス」が、指定キーワード「エース」を構成する文字であるとすれば、文字「エ」および「ー」は、候補領域90に含まれる可能性が高い。このため、候補領域90の中で、文字列「エース」を検知するための二次検知機能を実行すれば、少ない処理量で高確率で目的の文字列を検知することができる。
 なお、一次検知部23によって、候補文字位置が複数特定された場合には、候補領域特定部24は、2つ目以降の候補文字位置81についても同様に候補領域91を特定する。
 さらに、候補領域特定部24は、指定キーワードの言語特性に応じて、候補領域をさらに絞り込んでもよい。例えば、指定キーワード「エース」の言語は、日本語であり、日本語は、特殊な場合を除いて通常左から右へ、または、上から下へ文字を読み進める言語である。候補領域特定部24は、この言語特定を考慮して、候補文字位置80について、候補領域92を特定してもよい。これにより、候補領域をさらに絞り込むことが可能となる。
 以上のとおり、候補領域特定部24が、指定キーワードが含まれている可能性のある領域を、画像全体から、上記候補領域に絞り込むことにより、下流工程では、文字列検知処理の対象領域を大幅に削減することができる。そのため、候補領域特定部24の構成は、処理の効率化および処理負荷の低減に大きく貢献するものである。
 なお、「ス」“らしき”文字が傾いて検知された場合には、候補領域特定部24は、傾いて特定された候補文字位置に合わせて、傾いた矩形を候補領域として特定してもよい。
 また、候補領域特定部24が候補領域を特定する方法は、上記に限定されない。候補領域特定部24は、文字数に関係なく、候補文字位置から一定の範囲を候補領域として特定してもよいし、候補領域の形状を、円形、楕円形、長方形などの適宜の形状で定義してもよい。
 上記の構成によれば、一次検知機能を実行することが可能となり、低負荷処理で高速に目的の文字列が含まれているか否かを判断するとともに、含まれていると判断された場合には、目的の文字列が含まれている可能性が高い候補領域を、画像全体から絞り込むことができる。
 候補領域特定部24によって特定された候補領域は、次に、色分析機能を実行する各部(例えば、画素プロット部25)に供給される。色分析機能とは、画像を構成する各画素の色を分析するものである。色分析機能による色の分析結果は、二次検知機能を実行する各部が、高負荷処理となる二次検知機能を、精度良くかつ効率良く実行するために利用される。
 図10は、候補領域特定部24によって特定された候補領域に基づいてトリミングされた結果の一例を示す図である。
 下流工程の各部は、静止画(各画素が色情報を有する)と、特徴量データとを処理するので、候補領域特定部24は、静止画をトリミングしたトリミング画像70と、特徴量データをトリミングしたトリミングデータ71とを画素プロット部25に供給する。
 あるいは、候補領域特定部24は、候補領域の座標情報を画素プロット部25に供給してもよい。この場合、画素プロット部25は、座標情報に基づいて候補領域を、静止画および特徴量データから特定することができる。
 下流工程の各部は、画像全体でなく、図10に示されるようなサイズの小さいトリミング後の情報を処理するだけでよくなり、結果として、以降の処理を精度良くかつ効率良く実行することができる。
 画素プロット部25は、候補領域特定部24が特定した候補領域の各画素を、任意の色空間に投影するものであり、投影により、上記候補領域の色分布情報を取得するものである。具体的には、画素プロット部25は、候補領域の各画素の色情報を取得して、その色情報が、上記色空間における座標系のどの座標位置に対応するのかを特定して、画素ごとに座標情報を得る。
 図11は、画素プロット部25が色空間に候補領域の各画素をプロットして得た色分布情報のイメージ図である。図11に示す色分布情報は、視覚的に理解し易いように説明のために図示したものであって、画素プロット部25は、実際にはこのようなイメージ図を生成する必要はない。ただし、色の分析結果を事前にユーザに提示するために、このようなイメージ図を生成し出力することは、ユーザが色の分析結果を直感的に理解できるため好ましい。
 図11に示す例では、画素プロット部25は、任意の色空間として、CIE-L*a*b*カラースペースを用いて、そこに、各画素(の色情報)をプロットする。ここで、色空間としては、均等知覚色空間の標準化のために推奨されているので、上記CIE-L*a*b*カラースペースを用いることが好ましい。しかし、本発明の文字列検知装置は、上記に限定されず、既知のあらゆる色空間に基づいて、画素をプロットしてもよい。例えば、RGBカラースペース、CMYカラースペース、HSBカラースペースなどを用いることができる。また、3次元空間だけでなく、CIE-xy色度図などの2次元グラフ上に画素をプロットしてもよい。
 画素プロット部25が色空間に各画素をプロットすると、候補領域がどのような色分布を有しているのかが判明する。詳細には、「点(画素)が多く集中している箇所」、「点の集中度合い(分散)」などを求めることができる。
 このように、画素プロット部25は、候補領域内の各画素の色情報に基づいて、候補領域内の色の分布を分析する。画素プロット部25が生成した候補領域の色分布情報は、クラスタリング部26に供給される。
 クラスタリング部26は、画素プロット部25によって得られた候補領域の色分布情報に基づいて、候補領域内の各画素を、色が類似する画素の集まりごとにクラスタを定義するものである。本実施形態では、一例として、クラスタリング部26は、まず、上記色空間を予め定められたいくつかのブロックに区分し、点が集中している上位何ブロックかを特定する。点を多く含む上位ブロックが隣接する場合などは、ブロック同士をグループ化してもよい。そして、クラスタリング部26は、ブロックごとに予め定められている中心座標を、球(クラスタ)の中心と定める。グループ化されたブロックにおいては、各ブロックの中心座標の平均座標を、球の中心と定めてもよい。そして、クラスタリング部26は、球の半径rを0から徐々に増加させてシミュレートを行い、球内に属する点の数の増加率が一定以下になった時点での半径rを当該球の半径rと定義する。この結果、球の中心と半径rとが定義されることによって、色空間においてクラスタが定義される。
 これにより、画素間の距離が第1閾値(例えば、球の直径2r)より小さい画素群からなるクラスタが1または複数定義される。すなわち、色空間における距離が近い、類似色の画素同士の集まりに対して、クラスタがそれぞれ定義される。
 図11では、クラスタリング部26が、点が集中する空間に対して3つのクラスタ85~87を定義した例を示す。
 クラスタリング部26が定義したクラスタの情報(例えば、球の中心座標および半径)は、代表色決定部27に供給される。
 代表色決定部27は、クラスタリング部26によって生成されたクラスタのそれぞれについて、代表色を決定するものである。代表色の決定方法はいくつか考えられる。例えば、代表色決定部27は、生成されたクラスタ内のすべての色情報の平均値を、当該クラスタの代表色Cとして決定する。あるいは、クラスタの中心座標をそのまま代表色として決定しても良い。
 ここで、取得したいくつかのクラスタのうち、少なくとも1つは、指定キーワードの文字列を構成する画素が属するクラスタがあると考えられる。よって、クラスタごとに決定された代表色の中に、文字列の色(あるいは、それに近い色)が含まれていると考えることができる。
 クラスタ選択部28は、クラスタリング部26によってクラスタが複数作成された場合に、「指定キーワードの文字列を構成する画素が存在するクラスタ」である尤度を評価して、文字列の色が含まれている可能性の高いクラスタを選択するものである。
 文字列色のクラスタである尤度は、例えば、以下のようにして評価できる。自然の背景または実物被写体を写す領域と比較して、文字、図形などは単一色で構成されていることが多く、文字列色のクラスタ内の色分布は、他のクラスタと比較して、ばらつきが極端に少ないと予想される。そこで、クラスタ選択部28は、各クラスタの分散を求め、分散が小さいクラスタから順に文字列検知処理が実施されるよう、クラスタを選択する。あるいは、各クラスタに、処理順序を付与する。
 これにより、下流の工程における各部は、クラスタ選択部28によって定められた順にクラスタを処理することができる。つまり、文字列色のクラスタである可能性が高いものから順に文字列検知処理が実施されるので、文字列検知処理の効率が向上する。
 クリッピング部29は、候補領域において、クラスタ選択部28によって選択されたクラスタに属する画素の領域のみが残るように、その他の領域の画素を取り除くものである。
 図12は、クリッピング部29が特定したクリッピング領域を示すマップ情報の一例を示す図である。図13は、図12のマップ情報に基づいてクリッピングされた後のクリッピングデータの一例を示す図である。
 図12は、クリッピング部29が、候補領域(図10のトリミング画像70)において、クラスタ85に属する画素の領域を特定したマップ情報72である。マップ情報72において、斜線領域がクラスタ85の(残すべき)領域を示し、それ以外が切り落とすべき領域を示している。
 クリッピング部29は、図10に示すトリミングデータ71から、図12に示すマップ情報72の斜線領域以外の領域を切り落とすことで、クラスタ85の画素に基づくエッジ特徴のみが残された図13に示すようなクリッピングデータ73を得ることできる。
 上述したとおり、生成されたクラスタのうちのいずれかは検索文字列についての色味を有したクラスタであるので、色ごとに分類されたクラスタを個々に処理することで、おおよそ文字列色についてのみのエッジ特徴を得ることができる。
 下流の工程の各部は、このようにして得られた、余計な色のエッジ特徴が削ぎ落とされたクリッピングデータ73に基づいて文字を検索することが可能となる。結果として、元々ある複雑背景の情報は削ぎ落とされているので、複雑背景の悪影響を受けることなく、精度良く文字列検知処理が実行されることになる。
 クリッピング部29が生成したクリッピングデータ73は、二次検知部30に供給される。
 二次検知部30は、指定されたキーワードが画像に含まれているか否かを判断するものである。具体的には、クリッピング部29が生成したクリッピングデータ73を、文字情報記憶部42に記憶されているモデルと照合して、指定されたキーワードの文字列を文字ごとに検知するものである。
 二次検知部30が実施する二次検知機能においては、誤検知することなく指定キーワードを検知することが必要である。そこで、本実施形態では、二次検知部30は、文字情報記憶部42に記憶されている、より詳細な情報を含む二次モデル(図6)を用いてクリッピングデータ73との照合を行う。
 二次モデルは、一次モデルと比較して、文字列検知を精度良く行うために豊富な情報量を有している。情報量が多い二次モデルを用いた照合は高負荷処理ではあるものの、本発明の文字列検知装置においては、これまでの上流工程で、処理範囲が画像全体から、図12に示す斜線の領域にまで絞り込まれている。このため、短時間で精度の良い文字列検知処理を実現することが可能である。
 なお、二次検知部30は、指定キーワードを検知する際、文字ごとに定められた優先順位にしたがって、目的の文字列を文字ごとに検知することが好ましい。例えば、指定キーワードが「エース」であり、「エ」、「ー」、「ス」の3文字に対して、それぞれ、優先順位「2」、「3」、「1」が付与されているとする。この場合、二次検知部30は、まず、「ス」の二次モデルとクリッピングデータ73との照合を行い、「ス」を検知し、同様に、「エ」、「ー」の順に文字の検知を行う。
 上述したとおり、優先順位は、「誤検知のされ難さ」に基づいて決定されているものである。したがって、二次検知部30は、間違え難い文字からより確実に文字検知を行うことで、精度良くかつ効率良く指定文字を検知することが可能となる。なお、本実施形態では、優先順位は、図示しない文字評価装置が文字ごとに評価した「誤検知のされ難さ」に基づいて決定されるものとしたが、これに限定されない。ユーザが、キーワードを入力する際、自己の判断で優先順位を指定し、文字列検知装置に設定しておく構成であってもよい。
 さらに、二次検知部30は、1つ以上の文字の検知に成功した後は、検知済の文字と、これから検知しようとする文字との文字の並びに基づいて、文字同士の位置関係を予測し、検知対象領域を検知済の文字の近隣領域に絞り込んで、文字列検知処理を実行することが好ましい。
 詳細には、検知済文字が文字列中のn番目の文字であり、次に検索する文字が文字列中の(n+1)番目の文字である場合には、二次検知部30は、検知対象領域を、さらに絞り込むことができる。具体的には、上記検知済文字の右側および下側の所定の大きさの領域に限定することができる。また、二次検知部30は、次に検索する文字が文字列中の(n-1)番目の文字である場合には、上記検知済文字の左側および上側の所定の大きさの領域に限定することができる。
 上記構成によれば、クリッピングデータ73の全領域から順に目的の文字を検索する場合と比べて、さらに検索範囲を絞り込むことができるので、処理時間をさらに短縮することができる。
 具体例を用いて説明すると以下の通りである。二次検知部30が、優先順位1番目の文字「ス」を検知した後、次に、文字「エ」を検索するとする。図3の文字順序によれば、検知済文字「ス」が3番目であるの対し、次に検索する「エ」は1番目である。したがって、「エ」は、「ス」の近隣領域(日本語では、特に、左か上)に存在する可能性が高い。
 そこで、二次検知部30は、「エ」を検索する対象領域を、上記検知済文字「ス」の近隣領域に限定する。例えば、図14に示すように、「ス」の左側の所定の大きさの領域に限定する(破線枠内網点領域)。所定の大きさとは、例えば、図14に示すように、検知済文字の領域のサイズをh×hとすると、その左隣の3h×3hの大きさの領域に限定することなどが考えられる。
 図15に示す例では、検知済文字(例えば「ス」)の左の領域(1)において、目的の文字(例えば「エ」)が検知される。このように、検知対象領域を限定すれば、クリッピングデータ73で定義された領域を頭から順次検索する場合と比較して、はるかに短時間かつ低負荷で、目的の文字「エ」、「ー」を検知することができる。
 なお、検知済文字(例えば「ス」)の左の領域(1)に目的の文字(例えば「エ」)が見つからなかった場合には、次に見つかる可能性のある上の領域(2)、右の領域(3)、下の領域(4)というように、順次検知対象領域を広げていき、検索を続ければよい。しかし、それでも見つからなかった場合には、最終的には、クリッピングデータ73で定義された全領域を対象に戻して再検索すればよい。
 上記構成によれば、二次検知部30における文字列検知処理の処理効率を飛躍的に向上させることが可能となる。
 なお、二次検知部30は、n番目の検知済文字に対し、次に検索する文字の文字順序が、(n±2)番目、(n±3)番目、(n±4)番目、・・・などのように、検知済文字と次に検索する文字との距離が長くなるにつれて、その位置関係を予測し、位置関係に合わせて検知対象領域をさらに広げてもよい。
 例えば、指定キーワードが「エース攻略」であって、「略」を検知し、次に「エ」を検知するような場合には、「エ」を検索するための領域を、検知済文字「略」の領域のサイズをh×hとすると、その左隣の5h×5hの大きさの領域に限定することなどが考えられる。
 このような場合でも、クリッピングデータ73の定義領域全体を検知対象領域とする場合に比べて、検知対象領域の面積を大幅に限定することができ、処理負荷の低減および処理時間の短縮を実現することができる。
 さらに、二次検知部30は、クリッピングデータ73から得られた特徴量から、エッジが密集している帯状の領域を検出し、それが水平方向に延びる帯領域であれば文字は横書きである可能性が高いとして、左右の領域を上下の領域よりも優先的に検索するようにし、垂直方向に延びる帯領域であれば文字は縦書きである可能性が高いとして、上下の領域を左右の領域よりも優先的に検索するようにしてもよい。
 上記構成によれば、二次検知部30における処理効率をさらに向上させることが可能となる。
 以上のように、二次検知部30は、優先順位にしたがって、指定キーワードを文字ごとに検知する。二次検知部30は、図3に示すとおり、指定キーワードの文字を検知できたら、検知できた文字に対応付けられている検知済フラグを立てる。
 文字列判定部31は、二次検知部30の文字検知結果に応じて、画像に指定キーワードが含まれているか否かを判定するものである。本実施形態では、文字列判定部31は、図3に示すキーワード記憶部41を参照し、キーワードの文字すべてについて検知済フラグが立ったことによって、処理した静止画において指定キーワードが検知されたと判断する。
 文字列判定部31は、二次検知部30によってすべての指定キーワードの全文字が検知された場合、文字列を検知できた旨を通知する成功メッセージを、表示部12に表示させるなどして、ユーザに文字列検知の通知を行う。二次検知部30によって指定キーワードの全文字が検知されなかった場合、文字列を検知できなかった旨を通知する失敗メッセージを、表示部12に表示させてもよい。
 なお、文字列判定部31は、二次検知部30が文字列を検知した静止画が、動画の一部であった場合には、文字列が検知された静止画に対応する、上記動画における再生位置を、上記成功メッセージとともにユーザに通知してもよい。
 さらに、文字列判定部31は、個々に検知された各文字の位置関係を把握して、検知された文字列は確かに指定キーワードであるのか否かについて、最終的に検証することが好ましい。
 本実施形態では、指定キーワードは、文字の並び順ではなく、優先順位にしたがって、例えば、「ス」、「エ」、「ー」の順に個々に検知される。そのため、検知された各文字は、実際には、指定キーワード「エース」とは異なる単語である可能性もある。そこで、文字列判定部31は、検知された各文字「ス」、「エ」、「ー」が、一定の方向に「エ」、「ー」、「ス」の順に並んでいるのか否かを判断する。
 文字列判定部31は、文字の並びが「エース」とは異なる場合、例えば、「スエー」であった場合には、検知された各文字は、指定キーワードの文字ではないと判断し、画像に指定キーワードが含まれていないと最終的に判断する。
 さらに、文字列判定部31によれば、指定キーワードの1文字1文字が異なる色(異なるクラスタに分類されるほどに離れた色)で彩色されている場合についても、指定キーワードの有無を判定することができる。
 例えば、「エ」、「ー」、「ス」の各文字の画素が、それぞれ、赤、青、黄の異なるクラスタに属している場合、二次検知部30は、1つのクラスタからまとめてすべての文字を検知することはできない。二次検知部30は、「ス」を黄のクラスタから、「エ」を赤のクラスタから、「ー」を青のクラスタから、それぞれ別々に検知する。
 そこで、文字列判定部31は、別々のクラスタから検知された各文字「ス」、「エ」、「ー」が、一定の方向に「エ」、「ー」、「ス」の順に並んでいるのか否かを判断する。
 文字列判定部31は、文字の並びが「エース」となっている場合にのみ、指定キーワード「エース」が検知されたと判定することができる。
 〔文字列検索処理フロー〕
 図16は、DVDプレーヤー1における画像処理および文字列検知処理の流れを示すフローチャートである。ここでは、DVDプレーヤー1が備える文字列検知装置は、動画の中から指定されたキーワードを検索し、目的のキーワードが検知された再生位置を出力するものとする。
 まず、文字列検知装置に対して、文字列を検知する旨の指示とともに、検索したい目的の文字列(例えば、キーワード「エース」など)が入力される。キーワードは、1字であっても、複数の文字であってもよい。また、文字ごとに、ユーザによる優先順位指定が行われてもよい。さらに、処理対象となる動画がここで指定されてもよい。
 キーワードが入力されると(S101においてYES)、図示しない表示制御部は、入力されたキーワードを、キーワード記憶部41に記憶する(S102)。ここで、上記表示制御部は、文字の並びにしたがって取得した文字ごとに文字順序を対応付けて同じくキーワード記憶部41に格納する。また、ユーザによって優先順位が指定された場合には、優先順位も文字に対応付けて同じくキーワード記憶部41に記憶する。優先順位は、図示しない文字評価装置が、図6に示す文字の優先度指数、すなわち、「誤検知のされ難さ」に基づいて決定することで付与されてもよい(S103)。
 動画再生部20は、指定された動画を画像記憶部40から読み出し、再生位置tを初期化(t=0にセット)して(S104)、動画の再生を開始する(S105)。
 本実施形態では、処理効率の観点から、動画の全フレームに対して文字列検知処理を実行せず、所定秒間隔(例えば、tx秒間隔)で抜き出したフレームを、検知対象フレームとする。
 動画再生部20が動画を再生し、再生位置tが、検知対象フレームに到達するまでは(S106においてNO)、動画再生部20は、動画の再生を進める(S111)。再生位置tが、動画の最終フレームに到達しない限りは動画の再生を進めることができる(S112においてNO)。そして、再生位置tが進むうちに、再生位置tが、検知対象フレームに到達すると(S106においてYES)、静止画生成部21が、到達した検知対象フレームの静止画を生成する(デコード処理)(S107)。
 続いて、特徴量抽出部22は、生成された静止画から特徴量を抽出する(S108)。上記特徴量は、例えば、非特許文献1に記載のコーナー検出技術、輪郭線(エッジ)検出技術などを用いて得られる情報であって、文字列検知装置が文字形状を識別することが可能な情報である。本実施形態では、例えば、図5に示す特徴量データを生成する。
 特徴量抽出部22の下流の各部(23~31)は、検知対象フレームに対して文字列検知処理を実行する(S109)。例えば、指定キーワード「エース」が検知対象フレームに含まれているか否かを判断する。文字列検知処理の流れの詳細は、図17を参照しながら後述する。S109にて、文字列判定部31は、当該検知対象フレームについて、指定されたキーワードが検知されたか否かを判断する(S110)。
 ここで、指定キーワードの文字列が動画内の検知対象フレームにおいて検知された場合(S110においてYES)、文字列判定部31は、キーワードの検知に成功した旨の成功メッセージと、そのキーワードが検知されたフレームに対応する検知再生位置とを表示部12に出力する(S113)。
 一方、検知対象フレームにおいて指定キーワードの文字列が検知されなかった場合には(S110においてNO)、動画再生部20は、動画の再生をさらに進める(S111)。動画再生部20は、再生位置tが、動画の最終フレームに到達しない限りは動画の再生を進めることができる(S112においてNO)。そして、次の検知対象フレームに到達すれば(S106においてYES)、その検知対象フレームについて、上述の文字列検知処理を繰り返す。
 そして、文字列が検知されないままに、最後に、再生位置tが最終フレームに到達し、動画の再生が終了した場合には(S110においてNO、S112においてYES)、文字列判定部31は、文字列検知処理の結果を出力する。具体的には、動画中に指定キーワード「エース」が1回も検知されなかった場合、文字列判定部31は、検知に失敗した旨の失敗メッセージを表示部12に出力する(S114)。
 なお、文字列の検知に成功しても、動画再生が終了するまで文字列検知を続行してもよい。この場合、文字列が検知されたフレーム以降も、文字列検知装置の制御部10は、所定秒(tx秒)間隔で、検知対象フレームについて文字列検知処理を実行し、キーワード「エース」が検知されたフレームの再生位置を記憶していけばよい。
 〔文字列検索処理フロー-詳細〕
 図17および図18は、DVDプレーヤー1の文字列検知装置が実行する文字列検知処理の流れを示すフローチャートである。図16に示すS108において、特徴量抽出部22が検知対象フレーム(静止画)の特徴量データ(図5)を抽出すると、文字列検知装置の制御部10は、S109の文字列検知処理を開始する。
 まず、一次検知部23は、キーワード記憶部41を参照し、入力されたキーワードの文字のうち、優先順位が最上位の文字を目的文字として取得する。図3に示す例では、文字「ス」が、目的文字として取得される。そして、一次検知部23は、文字情報記憶部42を参照し、優先順位が1番目の「ス」の文字の一次モデルを取得する(S201)。
 そして、一次検知部23は、検知対象フレームから抽出された特徴量データ(図5)と、文字情報記憶部42に記憶されている「ス」の一次モデル(図6)とを照合して、上記検知対象フレームに対し目的文字「ス」の検知を行う(S202)。
 一次検知部23が、目的文字(ここでは「ス」)が上記検知対象フレームに存在しないと判断した場合には(S203においてNO)、一次検知部23は、「当該検知対象フレームから指定されたキーワードを検知できない」と判断して、その判断結果を文字列判定部31に対して出力する(S204)。そして、この検知対象フレームに対する文字列検知処理を終了する。一方、一次検知部23が、目的文字が上記検知対象フレームに存在すると判断した場合には(S203においてYES)、「当該検知対象フレームに指定されたキーワードが含まれている可能性がある」と判断する(S205)。一次検知部23は、特徴量データ上で検知された、1以上の「ス」“らしき”文字を候補文字として特定する(例えば、図8の候補文字位置80、および、候補文字位置81)。そして、特定した候補文字位置を、候補領域特定部24に供給する。
 続いて、候補領域特定部24は、一次検知部23によって特定された候補文字位置に基づいて、詳細に目的の文字列を検索する対象領域となる候補領域を特定する(S206)。例えば、図9の候補領域90および候補領域91を特定する。候補領域特定部24は、候補領域を1つ特定してもよいし、複数特定してもよい。
 S201~S206の一次検知機能が終了すると、候補領域特定部24から出力されたn個の候補領域は、色分析機能を実行する各部に引き渡される。そして、変数iが初期化され(S207)、ここから色分析機能が開始される。ここで、iは、1からnまでの整数であり、nは、候補領域特定部24によって特定された候補領域の総数を表す。
 画素プロット部25は、i番目の候補領域(例えば、図10のトリミング画像70)を取得して、この領域の各画素を、各画素の色情報に基づいて、色空間に投影する(S208)。そして、クラスタリング部26は、色空間における距離が近い(色が類似する)画素同士の集まりを、球(中心座標、および、半径)で定義した、クラスタを生成する(S209)。クラスタリング部26は、クラスタを1つ生成してもよいし、複数生成してもよい。例えば、図11に示すとおり、クラスタ85~87を生成する。
 ここで、変数jが初期化される(S210)。jは、1からmまでの整数であり、mは、クラスタリング部26によって生成されたクラスタの総数を表す。
 続いて、代表色決定部27は、j番目のクラスタを取得して、該クラスタの代表色を決定する。本実施形態では、代表色決定部27は、クラスタに属する画素の色情報の平均値を代表色Cjとして決定する(S211)。代表色決定部27は、1つのクラスタについて代表色Cを決定すると、jを1つインクリメントし(S212)、未処理のクラスタが存在する場合には(S213においてYES)、S211の処理を繰り返す。一方、代表色決定部27が、全てのクラスタについて代表色Cを決定すると(S213においてNO)、制御部10は、二次検知機能の実行に移行する。具体的には、色分析機能の各部は、定義された各クラスタの情報(球の中心座標、球の半径、球の色分布情報、および、代表色の座標など)を、二次検知機能を実行する各部に引き渡す。ここで、jは、再び初期化され(S214)、クラスタごとに二次検知機能が開始される。
 ここで、クラスタ選択部28は、クラスタの分散に基づいて、クラスタの処理順序を決定してもよい。例えば、クラスタ選択部28は、クラスタ内画素の分散が小さいものから順に処理されるように処理順序を決定する。
 クリッピング部29は、j番目のクラスタを取得して、クラスタ内の画素群の領域を特定する(S215)。クリッピング部29は、例えば、図12のマップ情報72を生成する。ここで、クリッピング部29は、上記j番目のクラスタ内に属する画素群よりも、さらに、当該クラスタの代表色Cjから一定距離(ΔCx;第2閾値)内にある画素群(Cj±ΔCx)に範囲を少し広げて、クリッピングで残す領域を広げてもよい。これにより、本来目的の文字列が存在する箇所を、誤って文字列が存在しないと判断することを防ぐことが可能となる。さらに、クリッピング部29は、文字列の検知結果に応じて、ΔCxの値を調節してもよい。クリッピング部29は、文字列が検知されなかった場合には、ΔCxの値を段階的に大きくして、クリッピングで残す領域を広げてもよい。あるいは、文字列が検知された場合に、ΔCxの値を段階的に小さくして、クリッピングで残す領域を狭めても問題なく検知されるのか検証してもよい。
 クリッピング部29は、生成したマップ情報72にしたがって、特定された画素群のみを残すようにクリッピングする(S216)。例えば、クリッピング部29のクリッピング処理によって、図10に示すトリミングデータ71は、図13に示すクリッピングデータ73のように、不要な複雑背景のエッジ情報が削ぎ落とされた状態になる。
 続いて、二次検知部30は、クリッピング部29によって得られたクリッピングデータ73に対して二次検知を実行し、指定キーワードが含まれているか否かを判断する。まず、二次検知部30は、変数kを初期化して(S217)、文字ごとに照合を行う。ここで、kは、1からpまでの整数であり、pは、指定キーワードの文字数を表す。本実施形態では、二次検知部30は、文字の優先順位にしたがって、目的文字の二次検知を実行する。
 二次検知部30は、優先順位がk番目の文字を検知すべき目的文字として決定し、該目的文字の二次モデル(図6)を文字情報記憶部42から取得する(S218)。そして、二次検知部30は、取得した二次モデルと、クリッピングデータ73とを照合する(S219)。ここで、二次検知部30は、目的文字の特徴に合致する特徴をクリッピングデータ73内に見出した場合(S220においてYES)、その文字の検知済フラグ(図3)を立てて、kを1つインクリメントする(S221)。
 そして、未処理の文字がある場合(S222においてYES)、S218以降の二次検索を繰り返す。一方、すべての文字が検知された場合(S220においてYES、S222においてNO)、二次検知部30は、「指定された文字列が検知できた」と判断して、その判断結果を文字列判定部31に対して出力する(S223)。なお、ここで、文字列判定部31は、さらに、二次検知部30が検知したすべての文字の配置を考慮して、その配置が、指定キーワードの文字の並びと対応しない場合には、二次検知部30が全ての文字を検知しても、指定キーワードは検知されなかったと最終的に判断してもよい。
 一方、S219の照合の結果、目的文字の特徴に合致する特徴をクリッピングデータ73内に見出せなかった場合(S220においてNO)、処理対象のクラスタは文字色のクラスタではなかったと考えられる。
 クラスタ選択部28は、jを1つインクリメントし(S224)、未処理のクラスタが存在する場合には(S225においてYES)、その、jを1つインクリメントされたクラスタを選択して、クリッピング部29に引き渡す。これにより、新しいクラスタについて、S215以降の処理が繰り返される。一方、未処理のクラスタが存在しない場合には(S225においてNO)、その候補領域のすべてのクラスタについて検知処理が実施されたが目的の文字列は検知できなかったことになる。
 色分析機能を実行する各部(例えば、画素プロット部25)は、iを1つインクリメントし(S226)、未処理の候補領域が存在する場合には(S227においてYES)、その、iを1つインクリメントされた候補領域を選択して、S208以降の処理を繰り返す。一方、未処理の候補領域が存在しない場合には(S227においてNO)、静止画内に認められた全ての候補領域において、目的の文字列は検知できなかったことになる。そこで、二次検知部30は、「当該検知対象フレームから指定されたキーワードを検知できない」と判断して、その判断結果を文字列判定部31に対して出力する(S228)。
 以上の文字列検知処理によって出力された結果に基づいて、文字列判定部31は、図16に示すとおり、検知対象フレームから指定されたキーワードが検知されたのか否かを判定することができる。
 以上で述べた文字列検知装置の構成および文字列検知方法によれば、文字列検知装置は、検知対象となる画像の領域を、色が類似する画素群ごとに分類して、その類似色ごとに得られた特徴量と、目的文字のモデルとを照合する。
 分類したいくつかのクラスタの中に少なくとも1つは、文字列色に該当するものが含まれているはずである。そして、文字色のクラスタについて得られた特徴量は、余分な情報が含まれない文字そのものの特徴量を示していると考えられる。したがって、このような文字色のクラスタから得られた特徴量を利用することにより、複雑な背景または柄などの影響を受けることなく、文字の照合を精度良く行うことが可能となる。
 さらに、本発明の文字列検知装置は、簡単に高速な照合を行う一次検知部23と、詳細に正確な照合を行う二次検知部30とを備える構成である。
 上記構成によれば、低負荷処理による簡単な一次検知処理によって、まず、「対象の静止画に指定キーワードは含まれない」または「指定キーワードが含まれている可能性がある」の何れかを高速に判断することができる。このため、「対象の静止画に指定キーワードは含まれない」と判断された場合には、指定キーワードが含まれている見込みのない静止画に対して、高負荷処理の二次検知処理が実行されることがなくなるため、無駄な処理を省いて文字列検知処理全体の効率化を図ることができる。
 また、「指定キーワードが含まれている可能性がある」と判断された場合には、目的の文字“らしき”候補文字が検知された領域周辺に、指定キーワードが含まれていると考えることができる。そのため、候補文字が検知された領域に基づいて、二次検知の対象領域を静止画全体から絞り込むことができる。したがって、高負荷処理の二次検知は、静止画全体ではなく、指定キーワードが含まれている可能性の高い絞り込まれた領域に対して実行するだけでよくなる。結果として、無駄な処理を省いて文字列検知処理全体の効率化を図ることができる。
 さらに、本発明の文字列検知装置は、指定キーワードを検知する際、誤検知され難い文字から順に、文字を検索することができる。誤検知され難い文字は、誤検知され易い文字と比較して、少ない候補の中から正しく、早く検知される可能性が高い。したがって、キーワード中の文字の並びにしたがって順次検索する場合と比べて、短時間・低負荷処理で、より精度よく、より効率的に目的の文字列を画像から検知することができる。
 さらに、本発明の文字列検知装置によれば、文字ごとの特徴量を用いて1字1字照合するため、複数文字の文字列画像や特徴量をサンプルとして保存しておく必要がない。つまり、横書き、縦書きの両方のサンプルを容易しておく必要がないため、文字情報記憶部42における省メモリ化を実現することが可能となる。また、処理時間も従来の構成に比べて有利である。
 〔変形例〕
 なお、本発明の文字列検知装置は、複雑背景下での指定キーワード文字列の検知だけでなく、検知した指定文字列に続く、任意の文字列の認識にも応用することができる。例えば、テレビ番組あるいはCM中からのURL等の検知および認識する技術への応用が考えられる。具体的には、URLに一般に含まれる「http」または「www」などの文字列を指定のキーワード文字列として、文字列検知装置に登録する。文字列検知装置が本発明の文字列検知処理を実行して、上記キーワード文字列を検知できた場合に、続いて、「http」または「www」に続く文字列を認識する文字認識機能を備えるように文字列検知装置を構成する。このとき、文字列検知処理において文字の色情報を取得できているため、文字認識処理を実行する際には、「http」または「www」に続く画像領域から、この色情報およびこれに類似する色情報を持つ画素のみを抽出して、文字認識処理を実行することができる。つまり、文字認識処理時には、文字色は既知であり、その上、認識すべき対象領域は、ごく一部に絞られている状態である。このように、本発明の文字列検知装置は、複雑背景下での文字の検知精度および検知効率を向上させるだけでなく、文字の認識精度および認識効率も向上させることができる。
 なお、上述の実施形態では、二次検知部30は、指定キーワードの文字ごとに指定された優先順位の順に、目的の文字を検知していく構成であった。しかしながら、本発明の文字列検知装置の構成はこれに限定されない。例えば、二次検知部30は、優先順位が1番目の目的文字を画像から検知すると、次に検索する文字を、指定キーワードにおける文字の並びにおいて、検知済みの文字の両隣の文字とし、その両隣の二つの文字のうち、優先順位が上の文字から検索していくという構成であってもよい。文字の並びにおいて検知済みの文字の両隣の文字は、上記画像において、検知済みの文字に最も近い位置に配置されていると考えられる。よって、上記画像における検知済みの文字の位置を基準にして、これらの文字を優先的に検索することで、早い段階で、より正しく、目的の文字列の有無を検知することができる。さらに、両隣のうち、優先順位が上の(すなわち、誤検知され難い)文字から優先的に検索するので、精度はより向上する。
 なお、上述の実施形態では、文字同士を照合するにあたり、文字のエッジ特徴を利用する構成について述べたが、本発明の文字列検知装置の構成はこれに限定されない。例えば、本発明の文字列検知装置の一次検知部23および二次検知部30は、テンプレートマッチングの技術、または、文字の円形度、文字の線の長さなどの特徴量を用いて文字の照合を行ってもよい。
 また、簡易でかつ高速な文字検知を実施する一次検知部23は、優先順位が1番の候補文字を検知する際、対象となる静止画全体の解像度を下げて照合することが好ましい。解像度を下げて、すなわち、複数画素を1画素にして、テンプレートマッチング(または特徴量の照合)を行えば、さらに低負荷処理にて、さらに高速に判定を実施することが可能となる。
 本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
 最後に、DVDプレーヤー1(文字列検知装置)の各ブロック、特に、制御部10に属する各部(20~31)は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
 すなわち、文字列検知装置は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである文字列検知装置の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記文字列検知装置に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
 上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD-ROM/MO/MD/DVD/CD-R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
 また、文字列検知装置を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
 以下の構成も本発明の範疇に入る。
 本発明の文字列検知装置は、さらに、上記画像を構成する各画素が有する色情報に基づいて、各画素を、色空間座標系にプロットする画素プロット手段を備え、上記クラスタリング手段は、上記画素プロット手段によって上記色空間座標系にプロットされた画素間の距離が第1閾値より小さい画素群からなるクラスタを上記色空間座標系において定義することができる。
 上記構成によれば、画素プロット手段は、色を指し示すための明確な基準となる色空間に基づいて各画素の色を特定することができる。したがって、クラスタリング手段は、明確な基準に基づいて各画素を色で分類する(クラスタ化する)ことが可能になる。
 本発明の文字列検知装置は、さらに、上記クラスタリング手段によって定義されたクラスタごとに、該クラスタの代表色を決定する代表色決定手段を備え、上記代表色決定手段は、上記クラスタに属する画素群の色情報の平均値を該クラスタの代表色として決定し、上記クリッピング手段は、上記色空間座標系における、上記代表色からの距離が第2閾値より小さい画素群の領域と、その他の画素群の領域とに分割することができる。
 上記構成によれば、クリッピング手段は、決定された代表色を基準として、代表色とどの程度まで類似した色を、クリッピング画像に残す領域とすべきかを決定することができる。また、第2閾値を可変とすることで、クリッピング画像に残す領域とそうでない領域の境界を微調整することが容易に行える。
 本発明の文字列検知装置は、さらに、上記クラスタリング手段が定義した複数のクラスタの中から、上記クリッピング手段および上記文字列検知手段が処理すべきクラスタを選択するクラスタ選択手段を備え、上記クラスタ選択手段は、未処理のクラスタのうち、上記色空間座標系におけるクラスタ内の画素群の分散が最も小さいクラスタを、処理すべきクラスタとして選択することが好ましい。
 上記構成によれば、下流の工程における各部(上記クリッピング手段および上記文字列検知手段など)は、クラスタ選択手段によって定められた順にクラスタを処理することができる。クラスタ選択手段は、分散が小さいクラスタから順に処理されるようにクラスタを選択する。
 自然の背景または実物被写体を写す領域と比較して、文字、図形などは単一色で構成されていることが多く、文字列色のクラスタ内の色分布は、他のクラスタと比較して、ばらつきが極端に少ないと予想される。分散が小さいほど、そのクラスタ内の画素群の色は、所定の単一色に画素の色が集中しているということになり、分散が小さいクラスタほど、そのクラスタが文字列色のクラスタである尤度が高い。
 つまり、文字列色のクラスタである可能性が高いものから順に文字列検知処理が実施されるように本発明の文字列検知装置を構成することができるので、文字列検知処理の効率を格段に向上させることが可能となる。
 本発明の文字列検知装置は、上記画像から、上記検知対象文字列の少なくとも1文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知手段を備え、上記クラスタリング手段は、上記低次検知手段によって上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義することが好ましい。
 上記構成によれば、低次検知手段は、上記検知対象文字列の少なくとも1文字が画像に含まれていないということを確認すれば、文字列の全てを検証する前に、検知対象文字列が画像に含まれていないということを即座に判断することができる。下流の工程(クラスタリング手段以降)は、上記検知対象文字列が含まれている可能性が無い画像についてまで、処理を実行することはない。
 このように、上記検知対象文字列が含まれていないと早々に判断された画像に対しては、以降の処理を無駄に実行する必要がなくなるので、文字列検知処理の効率を格段に向上させることが可能となる。
 本発明の文字列検知装置における上記低次検知手段は、元の画像から解像度を下げた画像と、文字ごとに予め用意されている、文字の特徴を示す低次モデルとを照合することにより、上記検知対象文字列の文字を検知し、上記低次モデルは、上記文字列検知手段が上記クリッピング画像との照合に用いる高次モデルよりも、有する文字の特徴数が少ないことが好ましい。
 上記構成によれば、低次検知手段は、解像度の低い画像と、低次モデルとを照合することにより、目的の文字(少なくとも1文字)を検知する。一方、文字列検知手段は、オリジナルの画像と、二次モデルとを照合することにより、検知対象文字列中のすべての文字を検知することによって、目的の文字列を検知する。
 そして、低次モデルは、二次モデルよりも、情報量が少ない簡易なモデルである。
 つまり、低次検知手段は、文字列検知手段が行う文字列検知処理よりも、処理する情報量がはるかに少なくて済み、低負荷処理にて、高速に、上記画像に上記検知対象文字列が含まれている可能性の有無を判断することが可能である。
 低次検知手段による文字の検知は、目的の文字列が含まれている可能性の有無を判断するのみであるので、「目的の文字である」という判断の正確性よりも、可能性の有無について、低負荷処理によって高速に行うことが求められる。一方、最終的に文字列の検知を行う文字列検知手段による文字列の検知は、上記の正確性が重要となる。
 そこで、本発明の文字列検知装置は、低次検知手段の文字検知処理を、解像度の低い画像と低次モデルとによって低負荷処理にて高速に実現し、一方、文字列検知手段の文字列検知のみを、オリジナルの解像度の画像と高次モデルとによって精度良く実現する。
 結果として、画像に対する文字列検知処理の検知精度の向上を実現するとともに、処理効率の向上を両立することが可能になる。
 本発明の文字列検知装置は、上記画像において、上記低次検知手段によって検知された文字を含むように限定された候補領域を特定する候補領域特定手段を備え、上記クラスタリング手段は、上記候補領域を構成する各画素が有する色情報に基づいて、クラスタを少なくとも1つ定義することが好ましい。
 上記構成によれば、低次検知手段によって目的の文字列のうちの少なくとも1文字が検知されると、その文字が含まれるような、画像全体から限定された候補領域が候補領域特定手段によって特定される。下流の工程(上記クラスタリング手段など)は、画像全体から範囲が限定された候補領域についてのみ、文字列検知処理を実施すればよい。
 文字同士は並んで配置されるため、検知対象文字列の1文字でも検知されれば、その位置に基づいて、残りの各文字の位置を予想することが可能である。
 こうして、画像全体ではなく、残りの文字が含まれている可能性の高い候補領域に対してのみ処理が実施されるので、処理負荷はさらに低減され、結果として、処理効率をさらに向上させることが可能となる。
 本発明の文字列検知装置において、上記文字列検知手段は、上記検知対象文字列に含まれる1文字を上記画像から検知すると、次に検知すべき文字を、上記検知対象文字列における文字の並びにおいて、検知済みの文字に最も近い未検知の文字の中から決定してもよい。
 文字の並びにおいて検知済みの文字の両隣の文字は、上記画像において、検知済みの文字に最も近い位置に配置されていると考えられる。よって、上記画像における検知済みの文字の位置を基準にして、これらの文字を優先的に検索することで、検知済み文字の近隣から早い段階で、より正しく、目的の文字列の有無を検知することができる。
 本発明の文字列検知装置において、上記文字列検知手段は、上記検知済みの文字が、上記検知対象文字列における文字の並びにおいてn番目の文字であって、次に検知すべき文字が(n+1)番目の文字である場合に、検知対象領域を、上記検知済みの文字の右側および下側の領域に限定し、次に検知すべき文字が(n-1)番目の文字である場合に、検知対象領域を、上記検知済みの文字の左側および上側に限定することが好ましい。
 上記構成によれば、本来の文字の並びに基づいて、検知済みの文字の位置から、次に検索する文字の位置を、より正確に絞り込むことができる。すなわち、指定された文字列の並びにおいて、次に検索する文字が、検知済みの文字の後にくる文字であれば、横書きであれば検知済みの文字の右側、縦書きであれば検知済みの文字の下側に配置されている可能性が高い。また、次に検索する文字が、検知済みの文字の前にくる文字であれば、横書きであれば検知済みの文字の左側、縦書きであれば検知済みの文字の上側に配置されている可能性が高い。
 このように検知される可能性がより高い領域に絞って以降の文字の検索を行うことにより、照合処理を行う範囲を大幅に削減することができ、文字列検知処理の処理負荷軽減および処理時間短縮を実現することが可能となる。
 さらに、本発明の文字列検知方法は、上記クラスタリングステップに先行して、上記画像から、上記検知対象文字列の少なくとも1文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知ステップを含み、上記クラスタリングステップは、上記低次検知ステップにて上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義するステップであってもよい。
 本発明の文字列検知装置は、画像から指定の文字を短時間かつ低負荷処理で検知することができるので、画像を処理する、デジタルビデオレコーダー/プレーヤー、ブルーレイディスクレコーダー/プレーヤー、デジタルビデオカメラ、デジタルカメラ、デジタルテレビ、パーソナルコンピュータ(PC)、携帯電話、プリンタ、スキャナ、複合機、ファクシミリ装置など、静止画または動画、あるいは、その両方を処理することが可能な各種画像処理装置に適用することが可能である。本発明の文字列検知装置は、負荷の大きい動画処理においてもリアルタイム性を損なうことなく短時間で文字列を検知することができるので、本発明の文字列検知装置を、動画処理装置または動画再生装置に適用することは特にメリットが大きい。
1 DVDプレーヤー(文字列検知装置/画像処理装置)
10 制御部
11 記憶部
12 表示部
13 操作部
14 一時記憶部
15 バス
20 動画再生部
21 静止画生成部
22 特徴量抽出部(特徴量抽出手段)
23 一次検知部(低次検知手段)
24 候補領域特定部(候補領域特定手段)
25 画素プロット部(画素プロット手段)
26 クラスタリング部(クラスタリング手段)
27 代表色決定部(代表色決定手段)
28 クラスタ選択部(クラスタ選択手段)
29 クリッピング部(クリッピング手段)
30 二次検知部(文字列検知手段)
31 文字列判定部(文字列判定手段)
40 画像記憶部
41 キーワード記憶部
42 文字情報記憶部
70 トリミング画像
71 トリミングデータ
72 マップ情報
73 クリッピングデータ
80 候補文字位置
81 候補文字位置
85 クラスタ
86 クラスタ
87 クラスタ
90 候補領域
91 候補領域
92 候補領域

Claims (14)

  1.  1以上の文字からなる文字列を画像から検知する文字列検知装置において、
     上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素の群からなるクラスタを少なくとも1つ定義するクラスタリング手段と、
     上記画像を、上記クラスタリング手段によって定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピング手段と、
     上記クリッピング手段によって生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知手段とを備えていることを特徴とする文字列検知装置。
  2.  上記画像を構成する各画素が有する色情報に基づいて、各画素を、色空間座標系にプロットする画素プロット手段を備え、
     上記クラスタリング手段は、
     上記画素プロット手段によって上記色空間座標系にプロットされた画素間の距離が第1閾値より小さい画素群からなるクラスタを上記色空間座標系において定義することを特徴とする請求項1に記載の文字列検知装置。
  3.  上記クラスタリング手段によって定義されたクラスタごとに、該クラスタの代表色を決定する代表色決定手段を備え、
     上記代表色決定手段は、
     上記クラスタに属する画素群の色情報の平均値を該クラスタの代表色として決定し、
     上記クリッピング手段は、
     上記色空間座標系における上記代表色からの距離が、第2閾値より小さい画素群の領域と、その他の画素群の領域とに分割することを特徴とする請求項2に記載の文字列検知装置。
  4.  上記クラスタリング手段が定義した複数のクラスタの中から、上記クリッピング手段および上記文字列検知手段が処理すべきクラスタを選択するクラスタ選択手段を備え、
     上記クラスタ選択手段は、
     未処理のクラスタのうち、上記色空間座標系におけるクラスタ内の画素群の分散が最も小さいクラスタを、処理すべきクラスタとして選択することを特徴とする請求項2または3に記載の文字列検知装置。
  5.  上記画像から、上記検知対象文字列の少なくとも1文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知手段を備え、
     上記クラスタリング手段は、
     上記低次検知手段によって上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義することを特徴とする請求項1から4までのいずれか1項に記載の文字列検知装置。
  6.  上記低次検知手段は、
     元の画像から解像度を下げた画像と、文字ごとに予め用意されている、文字の特徴を示す低次モデルとを照合することにより、上記検知対象文字列の文字を検知し、
     上記低次モデルは、
     上記文字列検知手段が上記クリッピング画像との照合に用いる高次モデルよりも、有する文字の特徴数が少ないことを特徴とする請求項5に記載の文字列検知装置。
  7.  上記画像において、上記低次検知手段によって検知された文字を含むように限定された候補領域を特定する候補領域特定手段を備え、
     上記クラスタリング手段は、
     上記候補領域を構成する各画素が有する色情報に基づいて、クラスタを少なくとも1つ定義することを特徴とする請求項5または6に記載の文字列検知装置。
  8.  上記文字列検知手段は、
     上記検知対象文字列に含まれる1文字を上記画像から検知すると、次に検知すべき文字を、上記検知対象文字列における文字の並びにおいて、検知済みの文字に最も近い未検知の文字の中から決定することを特徴とする請求項1から7までのいずれか1項に記載の文字列検知装置。
  9.  上記文字列検知手段は、
     上記検知済みの文字が、上記検知対象文字列における文字の並びにおいてn番目の文字であって、
      次に検知すべき文字が(n+1)番目の文字である場合に、検知対象領域を、上記検知済みの文字の右側および下側の領域に限定し、
      次に検知すべき文字が(n-1)番目の文字である場合に、検知対象領域を、上記検知済みの文字の左側および上側に限定することを特徴とする請求項8に記載の文字列検知装置。
  10.  請求項1から9までのいずれか1項に記載の文字列検知装置を備えていることを特徴とする画像処理装置。
  11.  1以上の文字からなる文字列を画像から検知する文字列検知方法において、
     上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素の群からなるクラスタを少なくとも1つ定義するクラスタリングステップと、
     上記画像を、上記クラスタリングステップにて定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピングステップと、
     上記クリッピングステップにて生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知ステップとを含むことを特徴とする文字列検知方法。
  12.  上記クラスタリングステップに先行して、上記画像から、上記検知対象文字列の少なくとも1文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知ステップを含み、
     上記クラスタリングステップは、
     上記低次検知ステップにて上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義するステップであることを特徴とする請求項11に記載の文字列検知方法。
  13.  請求項11または12に記載の各ステップを、コンピュータに実行させるための制御プログラム。
  14.  請求項13に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/056428 2011-03-10 2011-03-17 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体 WO2012120695A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/985,528 US9129383B2 (en) 2011-03-10 2011-03-17 Character string detection device, image processing device, character string detection method, control program and storage medium
EP11860629.2A EP2685426B1 (en) 2011-03-10 2011-03-17 Character string detection device, image processing device, character string detection method, control program and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011053618A JP4893861B1 (ja) 2011-03-10 2011-03-10 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体
JP2011-053618 2011-03-10

Publications (1)

Publication Number Publication Date
WO2012120695A1 true WO2012120695A1 (ja) 2012-09-13

Family

ID=45907933

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/056428 WO2012120695A1 (ja) 2011-03-10 2011-03-17 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体

Country Status (4)

Country Link
US (1) US9129383B2 (ja)
EP (1) EP2685426B1 (ja)
JP (1) JP4893861B1 (ja)
WO (1) WO2012120695A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5906843B2 (ja) 2012-03-14 2016-04-20 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104809481B (zh) * 2015-05-21 2017-10-20 中南大学 一种基于自适应色彩聚类的自然场景文本检测方法
CN107203606A (zh) * 2017-05-17 2017-09-26 西北工业大学 基于卷积神经网络的自然场景下文本检测与识别方法
CN110188764A (zh) * 2019-05-31 2019-08-30 浙江口碑网络技术有限公司 字符颜色识别处理方法及装置
CN112131340B (zh) * 2019-06-25 2024-02-20 杭州萤石软件有限公司 字符串检测方法、装置及存储介质
CN117456371B (zh) * 2023-12-26 2024-04-12 浙江正泰智维能源服务有限公司 一种组串热斑检测方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08205043A (ja) 1995-01-26 1996-08-09 Nippon Telegr & Teleph Corp <Ntt> 映像監視機能付きテレビ受像機
JPH10191190A (ja) 1996-12-25 1998-07-21 Sanyo Electric Co Ltd 受信装置
JP2005302056A (ja) * 1998-02-06 2005-10-27 Fujitsu Ltd パターン抽出装置
JP2006134156A (ja) 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> 画像文字列検索装置及びそのプログラム
JP2008004116A (ja) 2007-08-02 2008-01-10 Hitachi Ltd 映像中の文字検索方法及び装置
JP2008131413A (ja) 2006-11-22 2008-06-05 Hitachi Ltd 映像記録再生装置
JP2008287735A (ja) 2008-07-28 2008-11-27 Akita Univ カラー画像を用いた看板および標識の認識方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3748164B2 (ja) 1998-02-06 2006-02-22 富士通株式会社 パターン抽出装置
JP3748172B2 (ja) * 1998-12-09 2006-02-22 富士通株式会社 画像処理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08205043A (ja) 1995-01-26 1996-08-09 Nippon Telegr & Teleph Corp <Ntt> 映像監視機能付きテレビ受像機
JPH10191190A (ja) 1996-12-25 1998-07-21 Sanyo Electric Co Ltd 受信装置
JP2005302056A (ja) * 1998-02-06 2005-10-27 Fujitsu Ltd パターン抽出装置
JP2006134156A (ja) 2004-11-08 2006-05-25 Nippon Telegr & Teleph Corp <Ntt> 画像文字列検索装置及びそのプログラム
JP2008131413A (ja) 2006-11-22 2008-06-05 Hitachi Ltd 映像記録再生装置
JP2008004116A (ja) 2007-08-02 2008-01-10 Hitachi Ltd 映像中の文字検索方法及び装置
JP2008287735A (ja) 2008-07-28 2008-11-27 Akita Univ カラー画像を用いた看板および標識の認識方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HIROKI TAKAHASHI: "Extraction of Hangul Text from Scenery Images by Using Hangul Structure", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J88-D-II, no. 9, 1 September 2005 (2005-09-01), pages 1808 - 1816, XP008171336 *
MASAKO USUI: "Extraction of characters on color image using the characteristics of an L*a*b* space", IEICE TECHNICAL REPORT, vol. 94, no. 411, 16 December 1994 (1994-12-16), pages 85 - 90, XP008170503 *
MASATOSHI OKUTOMI ET AL.: "Feature point detection", 1 March 2007, CG-ARTS SOCIETY, article "Digital image processing", pages: 208 - 210,12-2
See also references of EP2685426A4
YUTAKA KATSUYAMA: "A Study for Caption Character Pattern Extraction", IEICE TECHNICAL REPORT, vol. 107, no. 491, 14 February 2008 (2008-02-14), pages 143 - 148, XP008170516 *

Also Published As

Publication number Publication date
JP4893861B1 (ja) 2012-03-07
US9129383B2 (en) 2015-09-08
EP2685426A4 (en) 2015-05-27
JP2012190288A (ja) 2012-10-04
EP2685426B1 (en) 2019-01-16
EP2685426A1 (en) 2014-01-15
US20140023267A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
JP4893861B1 (ja) 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体
US20190114486A1 (en) Subtitle extraction method and device, storage medium
CN106529380B (zh) 图像的识别方法及装置
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
US8059896B2 (en) Character recognition processing system and computer readable medium storing program for character recognition processing
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
US6865290B2 (en) Method and apparatus for recognizing document image by use of color information
EP2367138B1 (en) Image attribute discrimination apparatus, attribute discrimination support apparatus, image attribute discrimination method, attribute discrimination support apparatus controlling method, and control program
US20080095442A1 (en) Detection and Modification of Text in a Image
US7574036B2 (en) Apparatus, program, and recording medium for learning data to form a self-organizing map comprised of reference vectors corresponding to features of an image and used for determining objects in an image
CN107480670A (zh) 一种字幕检测及提取的方法及设备
JP2010244372A (ja) 帳票認識方法および装置
EP4070240A1 (en) User-guided image segmentation methods and products
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
WO2013152682A1 (zh) 一种新闻视频字幕标注方法
JP5488077B2 (ja) 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
KR101571681B1 (ko) 동질 영역을 이용한 문서 구조의 분석 방법
Zhang et al. A novel approach for binarization of overlay text
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN113450369B (zh) 一种基于人脸识别技术的课堂分析系统及方法
US9424234B2 (en) Methods and apparatus for automatically creating variations of original content based on searching for alternative content objects based on characteristics of the original content
JP3264253B2 (ja) ドキュメント自動分類システム及び方法
CN112183253A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
JPH10232926A (ja) 画像処理装置及びその方法
JP4943501B2 (ja) 画像処理装置及び方法、並びに、光学式の文字識別装置及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11860629

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13985528

Country of ref document: US