WO2019203489A1 - 문자 인식을 위한 영상 전처리 장치 및 방법 - Google Patents

문자 인식을 위한 영상 전처리 장치 및 방법 Download PDF

Info

Publication number
WO2019203489A1
WO2019203489A1 PCT/KR2019/004198 KR2019004198W WO2019203489A1 WO 2019203489 A1 WO2019203489 A1 WO 2019203489A1 KR 2019004198 W KR2019004198 W KR 2019004198W WO 2019203489 A1 WO2019203489 A1 WO 2019203489A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
processor
preprocessed
character
preprocessing
Prior art date
Application number
PCT/KR2019/004198
Other languages
English (en)
French (fr)
Inventor
박승제
심현우
서일환
정윤철
정서영
김가은
Original Assignee
넷마블 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 넷마블 주식회사 filed Critical 넷마블 주식회사
Publication of WO2019203489A1 publication Critical patent/WO2019203489A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Definitions

  • the description below relates to a technique for recognizing characters in a game image.
  • the characters used in the game may be displayed as part of an image in the game screen. Characters displayed as part of the image may be recognized as characters through preprocessing of the image. However, the accuracy of character recognition may be reduced due to the superposition of special effects or graphic components.
  • An image preprocessing apparatus includes an I / O interface for receiving an input image including a character, a memory for storing the input image, and a processor for preprocessing the input image.
  • the processor edits the input image based on crop region information received from the I / O interface to generate an edited image including the character, and the edited image.
  • the second preprocessed image is generated by performing preprocessing on the first preprocessed image.
  • the processor may adjust the size of the edited video.
  • the processor may generate the second preprocessed image based on color information or area information of the character included in the user input.
  • the processor may generate the second preprocessed image by using a box surrounding a character included in the edited image.
  • the processor detects one or more edges in the first preprocessed image, generates an outline associated with the character using the one or more edges, generates a box surrounding the outline, and generates an inner region of the box.
  • the second binarization result image may be generated by performing binarization.
  • the processor may detect an edge gradient from the first preprocessed image, and detect the one or more edges using the size and direction of the edge gradient.
  • the processor may select an edge that satisfies a second condition related to connectivity between the edges among the one or more edges, and generate the outline using the selected edge.
  • the processor may generate one or more boxes surrounding the outline, and select one of the one or more boxes that satisfies a third condition related to the characteristic of the character.
  • the processor generates an image for each channel by separating the inner region of the box for each channel, generates a plurality of binary image for each channel by performing binarization on each of the plurality of channel images, and generates a plurality of images.
  • the second binarization result image may be generated by selecting a binarized channel image satisfying a fourth condition related to accuracy from among the binarized channel images of.
  • the processor may perform binarization on each of the plurality of channels based on the user input.
  • the processor may remove noise included in the second binarization result image.
  • the processor may remove noise included in the second binarization result image based on area information of the character included in the user input.
  • the processor may generate a first binarization result image by performing binarization on the first preprocessed image.
  • the processor may generate the plurality of channel-specific images by separating the first preprocessed image for each channel, and generate the first binarization result image by performing binarization on each of the plurality of channel-specific images.
  • the processor may generate the second preprocessed image based on the characteristic information of the character included in the first preprocessed image.
  • the processor determines whether the second preprocessed image satisfies a preset condition, and the memory corresponds to the character and the character recognized from the second preprocessed image when the preset condition is satisfied. Can store unique key.
  • the character recognition apparatus may include an I / O interface for receiving an input image including a character, a memory for storing the input image, preprocessing the input image, and outputting the input image from the output image. And a processor for recognizing a character and an output device for outputting the recognized character, wherein the processor is based on crop area information received from the I / O interface when preprocessing the input image. Edit the input image to generate an edited image including the text, and automatically perform preprocessing on the edited image to generate a first preprocessed image, wherein the first preprocessed image is a first condition related to accuracy. If not satisfactory, pre-process the first pre-processed image based on user input received from the I / O interface. The processing may be performed to generate a second preprocessed image.
  • the output device may include a speaker or a display.
  • An image preprocessing method may include: generating an edited image including a character by editing an input image based on crop region information in an image preprocessing method performed by a computer including a processor; Automatically performing preprocessing on the edited image to generate a first preprocessed image, and when the first preprocessed image does not satisfy a first condition related to accuracy, based on a user input received from an I / O interface. And generating a second preprocessed image by performing preprocessing on the first preprocessed image.
  • a character recognition method in a character recognition method performed by a computer including a processor, generating an edited image including the character by editing an input image based on crop area information. Generating a first preprocessed image by automatically performing preprocessing on the edited image, and when the first preprocessed image does not satisfy a first condition related to accuracy, based on a user input received from an I / O interface.
  • the method may include generating a second preprocessed image by performing preprocessing on the first preprocessed image, and recognizing the character included in the second preprocessed image.
  • FIG. 1 is a diagram illustrating a situation in which a character is recognized in a game screen by an image preprocessing apparatus according to an exemplary embodiment.
  • FIG. 2 is a diagram illustrating an overall configuration of an image preprocessing apparatus according to an exemplary embodiment.
  • FIG. 3 is a flowchart illustrating overall operations of an image preprocessing method according to an exemplary embodiment.
  • FIG. 4 is a flowchart illustrating a process of generating a second preprocessed image, according to an exemplary embodiment.
  • FIG. 5 is a flowchart illustrating a process of generating a second preprocessed image according to another exemplary embodiment.
  • FIG. 6 is a flowchart illustrating an overall operation of an image preprocessing method according to another exemplary embodiment.
  • FIG. 7 is a diagram illustrating a process of generating a second preprocessed image by the image preprocessing apparatus according to an exemplary embodiment.
  • FIG 9 illustrates an example of performing binarization on each channel-specific image by the image preprocessing apparatus according to an exemplary embodiment.
  • FIG. 10 illustrates an example in which binarization is performed on each channel-specific image based on color information input from a user by the image preprocessing apparatus.
  • FIG. 11 is a diagram illustrating a result of removing noise of an image in which binarization is performed by an image preprocessing apparatus according to an exemplary embodiment.
  • FIG. 12 is a flowchart illustrating an operation of a character recognition method, according to an exemplary embodiment.
  • FIG. 13 is a diagram illustrating an overall configuration of a character recognition apparatus according to an embodiment.
  • FIG. 1 is a diagram illustrating a situation in which a character is recognized in a game screen by an image preprocessing apparatus according to an exemplary embodiment.
  • the image preprocessing apparatus 110 may preprocess the game screen to recognize a character included in the game screen. Characters in the preprocessed image can be recognized more accurately.
  • the game screen may include various special effects or graphic components. For this reason, the characters included in the game screen may not be correctly recognized. In order for characters to be recognized correctly, components other than characters must be removed. To this end, the image preprocessing apparatus 110 may preprocess the game screen.
  • the image preprocessing apparatus 110 may use an edge box model and an HSV color model.
  • the HSV color model is a way of expressing color and arranging colors according to the method.
  • colors are specified using the coordinates of Hue, Saturation, and Value.
  • this is merely an example and various color models may be used.
  • a lightness (HSL) or an intensity (HSI) color model may be used.
  • the image preprocessor 110 may perform preprocessing for character recognition based on the HSV value of the pixel selected by the user or the region information selected by the user.
  • the image preprocessing apparatus 110 may binarize an edited image including a character based on the HSV value of the pixel selected by the user or the region information selected by the user.
  • the image preprocessing apparatus 110 may remove noise from the binarized image.
  • the image preprocessing apparatus 110 may recognize a character more accurately from the binarized image from which the noise is removed.
  • Test automation techniques are needed to mechanically test the user's response to the characters appearing in the developed game.
  • Character recognition technology can be used for test automation of games. For example, the level of the character, the amount of goods, the price of the item, etc. are displayed as numbers in the game, and the recognition rate of the numbers needs to be evaluated during the game test process.
  • the image preprocessing apparatus 110 may perform preprocessing on a partial region including a character to be recognized in the game screen.
  • a partial region containing text may be cropped by the user.
  • the cropped partial region may be referred to as an edited video.
  • the shape of the edited video is not limited to a rectangle, and may have various shapes including a circle.
  • the image preprocessing apparatus 110 may automatically preprocess the edited image first. If the character is correctly recognized from the automatically preprocessed image, the image preprocessing apparatus 110 may end the preprocessing of the edited image. However, if a character recognized from an automatically preprocessed image is incorrect, the preprocessing of the edited image may be repeatedly performed based on a user input. Here, the preprocessing can be terminated on the condition of accuracy. For example, if the accuracy of the recognized character is greater than or equal to the threshold, the preprocessing may be set to end. The threshold of accuracy can be preset and adjusted.
  • the image preprocessing apparatus 110 may adjust the size of the edited image. Scaling may be referred to as resizing. When the size of the characters in the edited image is small, the image preprocessing apparatus 110 may increase the size of the edited image, or fix the size of the edited image and increase the size of the partial region in the edited image including the character.
  • the problem that the accuracy of character recognition is large is that the size of the character is small, so the size adjustment may be mainly an enlargement operation.
  • the image preprocessing apparatus 110 may receive color information of characters in the edited image from the user and perform binarization of the edited image based on the input.
  • the image preprocessing apparatus 110 may receive region information in the edited image from the user, and may remove a background region from pixels that are the same as or similar to the color of the character based on the input of the region information. As such, the image preprocessing apparatus 110 may increase the accuracy of character recognition by performing preprocessing based on a user input.
  • the image preprocessing apparatus 110 may determine a pixel having a color not corresponding to the color information as a background area and perform binarization.
  • the image preprocessing apparatus 110 may determine a portion that does not correspond to area information of a character acquired from a user as a background area and perform binarization. For example, the image preprocessing apparatus 110 may determine a portion that deviates from the threshold for the ratio of horizontal and vertical included in the area information of the character as the background area and perform binarization.
  • the image preprocessor 110 may binarize the edited image by using character characteristics.
  • the image preprocessing apparatus 110 may limit the character area in the edited image by using the character characteristic. For example, in the case of an alphabet or a number, when a rectangle surrounding the connection point is drawn in the binary image, more than two rectangles may not be drawn in the rectangle of the character.
  • the image preprocessing apparatus 110 may preprocess the edited image more accurately by using character characteristics of alphabets or numbers.
  • the image preprocessor 110 may recognize a character from the preprocessed image.
  • the image preprocessing apparatus 110 may generate a color list and a text area list from the preprocessed image.
  • the image preprocessing apparatus 110 may store each color range and text area in a database in correspondence with a unique key.
  • the edited image may be preprocessed using the color list and the text area list corresponding to the unique key, and the character recognition may be performed on the preprocessed result image.
  • the image preprocessing apparatus 110 may include a display 111.
  • the display 111 may provide a game screen to the user.
  • the game screen may include a character 113.
  • the user may set the editing area 115 including the character 113 by using the cursor 117.
  • the image preprocessing apparatus 110 may perform preprocessing on the editing area 115.
  • FIG. 2 is a diagram illustrating an overall configuration of an image preprocessing apparatus according to an exemplary embodiment.
  • the image preprocessor 110 includes an I / O interface 210, a memory 220, and a processor 230.
  • the image preprocessing apparatus 110 may further include a display 240.
  • the I / O interface 210 receives an input image including text.
  • I / O interface 210 may include a keyboard, mouse (or other pointing device), touch pad, and touch screen.
  • the touch screen may be combined with the display 240.
  • the memory 220 stores the input image.
  • Memory 220 may include high speed random access memory, such as DRAM, SRAM, DDR RAM or other random access solid state memory devices, and may include one or more magnetic disk storage devices, optical disk storage devices, flash devices, and the like. It may also include nonvolatile memory such as memory devices or other nonvolatile semiconductor storage devices.
  • Memory 370 may optionally include one or more storage devices remotely located from processor 230.
  • the processor 230 performs preprocessing on the input image.
  • the processor 230 edits the input image based on the crop region information received from the I / O interface 210 to generate an edited image including characters. Since the edited video is smaller than the input video, the processor 230 may preprocess the edited video with less resources than preprocessing the entire input video.
  • the processor 230 automatically performs preprocessing on the edited image to generate the first preprocessed image.
  • the processor 230 may automatically perform preprocessing without user input. If the first preprocessed image satisfies the first condition related to accuracy, the preprocessing process may be terminated.
  • the first condition may include a condition in which the accuracy of character recognition is greater than or equal to a threshold. As such, the processor 230 may automatically perform the preprocessing first, thereby providing a function of performing the preprocessing with an accuracy capable of quickly recognizing a character without user intervention.
  • the processor 230 When the first preprocessed image does not satisfy the first condition, the processor 230 generates a second preprocessed image by performing preprocessing on the first preprocessed image based on a user input received from the I / O interface 210. do.
  • the processor 230 may perform a preprocessing operation to more accurately recognize a character through the assistance of a user input.
  • the processor 230 generates a second preprocessed image by performing preprocessing on the first preprocessed image based on the user input received from the I / O interface 210.
  • the processor 230 may adjust the size of the edited video. When the size of the characters in the edited video is small, the processor 230 may increase the size of the edited video or increase the size of the partial region in the edited video including the fixed text.
  • the size of the edited video to be resized may be preset.
  • the processor 230 may generate a second preprocessed image based on color information or area information of a character included in a user input.
  • the processor 230 may receive color information of characters in the edited video from the user and perform binarization of the edited video based on the color information.
  • the processor 230 may receive area information in the edited image from the user, and may remove the background area from pixels that are the same as or similar to the color of the text based on the information.
  • the processor 230 may perform binarization of the edited image based on the color information of the character, and then binarize the edited image based on the region information of the character, or may perform binarization of the edited image in the reverse order. have.
  • the processor 230 may select a result having higher accuracy by comparing the result of binarization of the edited image based on the color information of the character and the result of binarization of the edited image based on the region information of the character. .
  • the color information is used as an example and then described in the order of using the region information.
  • the processor 230 may generate a second binarization result image by performing binarization on the first preprocessed image.
  • the processor 230 may generate a plurality of channel-specific images by separating the first preprocessed image for each channel, and generate a second binarization result image by performing binarization on each of the plurality of channel-specific images.
  • the processor 230 may perform binarization on each of the plurality of channels based on the user input.
  • the image preprocessing apparatus 110 may receive color information of characters in the edited image from the user and perform binarization of the edited image based on the input.
  • the processor 230 may classify pixels that are the same as or similar to the pixel values of the color information of the text into the text area and perform binarization.
  • the processor 230 may classify pixels having a pixel value having a difference of less than or equal to a threshold from the color information of a character as pixels having similar pixel values.
  • the processor 230 may calculate the similarity based on the difference between the pixel values, and calculate the probability that the pixel belongs to the character region according to the similarity.
  • the processor 230 may binarize the edited image based on the calculated probability.
  • the processor 230 may binarize the first preprocessed image for each channel and select the most accurate image.
  • the processor 230 may generate a plurality of channels-specific images by separating the first preprocessed image by each channel.
  • the processor 230 may generate a plurality of binarized channel-specific images by performing binarization on each of the plurality of channel-specific images.
  • the processor 230 may generate a first binarization result image by selecting a binarized channel-specific image satisfying a fourth condition from among the plurality of binarized channel-specific images.
  • the fourth condition may be related to the accuracy of the character.
  • the processor 230 may generate a second preprocessed image by using a box surrounding a character included in the edited image.
  • the processor 230 may use an edge box model.
  • the processor 230 detects one or more edges in the first preprocessed image, generates an outline associated with a character using one or more edges, generates a box surrounding the outline, and binarizes an inner region of the box.
  • the second binarization result image may be generated.
  • the processor 230 may detect an edge gradient from the first preprocessed image, and detect one or more edges using the size and direction of the edge gradient. The processor 230 may extract an edge included in the first preprocessed image. The processor 230 may search for a component to which each edge is connected and display the rectangle. This may be referred to as connected component labeling.
  • the processor 230 may modify the shape of the quadrangle such that the included element is represented by one letter.
  • the processor 230 may use erosion / expansion operations. This may be referred to as Morphological Transformation.
  • the processor 230 may remove the atypical rectangle based on the ratio or width of the rectangle. Through this, the processor 230 may purify the component.
  • the processor 230 may select an edge that satisfies the second condition among one or more edges, and generate an outline using the selected edge.
  • the second condition may be a condition related to connectivity between edges.
  • the processor 230 may generate one or more boxes that surround the outline. This may be referred to as a bounding box.
  • the processor 230 may select a box satisfying the third condition from one or more boxes.
  • the third condition may be determined based on the characteristic according to the type of the character. For example, the ratio of the width and height of the text may be included in the third condition.
  • the processor 230 may generate the second preprocessed image based on the characteristic information of the character included in the first preprocessed image.
  • the processor 230 may change the number of internal components according to the characteristics of the character.
  • the processor 230 may change the value of the kernel used for the operation based on the characteristic of the character.
  • the processor 230 may remove noise included in the second binarization result image.
  • the processor 230 may remove noise included in the second binarization result image based on the area information of the character included in the user input.
  • the processor 230 may receive area information in the edited image from the user, and may remove the background area from pixels that are the same as or similar to the color of the text based on the information.
  • the processor 230 may preprocess the edited image by various combinations of channel-specific binarization, binarization by a bounding box, and preprocessing using character characteristics.
  • the processor 230 may build a database based on the character recognition result.
  • the processor 230 may determine whether the second preprocessed image satisfies a preset condition. When the preset condition is satisfied, the memory 220 may store a character recognized from the second preprocessed image and a unique key corresponding to the character.
  • FIG. 3 is a flowchart illustrating overall operations of an image preprocessing method according to an exemplary embodiment.
  • the image preprocessing apparatus 110 may generate an edited image including a character by editing the input image based on the crop region information.
  • the image preprocessing apparatus 110 may reduce preprocessing time by performing preprocessing on the edited image reduced to the crop region.
  • the crop area is not limited to the rectangle and may include various types of closed areas.
  • the image preprocessing apparatus 110 may automatically perform preprocessing on the edited image to generate the first preprocessed image.
  • the image preprocessing apparatus 110 may automatically resize the edited image.
  • the image preprocessing apparatus 110 may generate the first binarization result image by performing binarization on a channel basis for the automatically resized edited image.
  • the image preprocessing apparatus 110 may automatically generate a second binarization result image by using a bounding box with respect to the first binarization result image.
  • the image preprocessing apparatus 110 may automatically remove noise from the second binarization result image.
  • the result of removing the noise may be referred to as a first preprocessed image.
  • the image preprocessing apparatus 110 may apply to the first preprocessed image based on a user input received from the I / O interface.
  • the preprocessing may be performed to generate a second preprocessed image.
  • the image preprocessor 110 may generate a second preprocessed image based on a user input when the accuracy of the first preprocessed image is equal to or less than a preset threshold.
  • the image preprocessing apparatus 110 may automatically resize the first preprocessed image.
  • the image preprocessing apparatus 110 may generate the first binarization result image by performing binarization on a resized image for each channel.
  • the image preprocessing apparatus 110 may perform binarization based on color information of a character.
  • the image preprocessing apparatus 110 may generate a second binarization result image by using a bounding box with respect to the first binarization result image.
  • the image preprocessing apparatus 110 may remove noise from the second binarization result image.
  • the image preprocessing apparatus 110 may remove noise from the second binarization result image based on the area information of the character. The result of removing the noise may be referred to as a second preprocessed image.
  • FIG. 4 is a flowchart illustrating a process of generating a second preprocessed image, according to an exemplary embodiment.
  • the image preprocessing apparatus 110 may apply to the first preprocessed image based on a user input received from the I / O interface.
  • the preprocessing may be performed to generate a second preprocessed image.
  • the image preprocessing apparatus 110 may detect one or more edges in the first preprocessed image.
  • the processor 230 may detect an edge gradient from the first preprocessed image, and detect one or more edges using the size and direction of the edge gradient.
  • the processor 230 may extract an edge included in the first preprocessed image.
  • the image preprocessing apparatus 110 may generate an outline related to a character by using one or more edges.
  • the image preprocessor 110 may search for a component to which each edge is connected and display the rectangle.
  • the image preprocessor 110 may perform connected component labeling.
  • the image preprocessing apparatus 110 may deform the shape of the quadrangle such that the elements included are represented by one letter.
  • the image preprocessing apparatus 110 may remove the atypical rectangle based on the ratio or the width of the rectangle.
  • the image preprocessing apparatus 110 may generate a box surrounding an outline.
  • the image preprocessing apparatus 110 may select a box satisfying the third condition from one or more boxes.
  • the image preprocessing apparatus 110 may generate a second binarization result image by performing binarization on the inner region of the box.
  • FIG. 5 is a flowchart illustrating a process of generating a second preprocessed image according to another exemplary embodiment.
  • the image preprocessing apparatus 110 may apply to the first preprocessed image based on a user input received from the I / O interface.
  • the preprocessing may be performed to generate a second preprocessed image.
  • the image preprocessing apparatus 110 may generate an image for each channel by separating an inner region of the box for each channel.
  • the image preprocessing apparatus 110 may generate a plurality of binarized channel-specific images by performing binarization on each of the plurality of channel-specific images. For example, when the HSV color model is used, the image preprocessing apparatus 110 may generate an image for each channel of Hue, Saturation, and Brightness.
  • the image preprocessing apparatus 110 may generate a second binarization result image by selecting a binarized channel image satisfying a fourth condition from among a plurality of binarized channel images. have.
  • the fourth condition may be a condition in which the accuracy of the binarized result is greater than or equal to a threshold.
  • FIG. 6 is a flowchart illustrating an overall operation of an image preprocessing method according to another exemplary embodiment.
  • the image preprocessing apparatus 110 may perform preprocessing using a user interface (UI).
  • UI user interface
  • the image preprocessing apparatus 110 may perform preprocessing using character characteristics.
  • the image preprocessing apparatus 110 may crop the character area in the game.
  • the image preprocessing apparatus 110 generates an edited image including characters by editing the input image based on the crop region information. Since the edited video is smaller than the input video, the processor 230 may preprocess the edited video with less resources than preprocessing the entire input video.
  • the image preprocessing apparatus 110 may automatically perform character recognition after the first preprocessing.
  • the image preprocessing apparatus 110 may automatically perform preprocessing first to provide a function of performing preprocessing with an accuracy capable of quickly recognizing a character without user intervention.
  • the image preprocessing apparatus 110 may output a preprocessing result and a character recognition result to the UI.
  • the accuracy of the result of the first preprocessing may be automatically calculated, but may also be determined by the user.
  • the image preprocessing apparatus 110 may provide an opportunity for the user to determine the accuracy by outputting the preprocessing result and the character recognition result through the UI.
  • the image preprocessing apparatus 110 may identify a result including a preprocessing result and a character recognition result. The image preprocessing apparatus 110 may determine whether the accuracy condition is satisfied based on the character recognition result or the preprocessing result.
  • the image preprocessing apparatus 110 may store the character recognition result in a database.
  • the image preprocessing apparatus 110 may store a character recognized from the second preprocessed image and a unique key corresponding to the character.
  • the image preprocessing apparatus 110 may receive a user input.
  • the image preprocessor 110 may receive color information input.
  • the image preprocessing apparatus 110 may receive area information input.
  • the image preprocessing apparatus 110 may perform a second preprocessing on the first preprocessed image based on a user input.
  • the image preprocessing apparatus 110 may determine a pixel having a color not corresponding to the color information as a background area and perform binarization.
  • the image preprocessing apparatus 110 may determine a pixel having a color corresponding to the color information as a character area and perform binarization.
  • the image preprocessing apparatus 110 may receive region information in the edited image from the user, and may remove a background region from pixels that are the same as or similar to the color of the text based on the input of region information.
  • the image preprocessing apparatus 110 may perform a third preprocessing using the character characteristic.
  • the image preprocessor 110 may change the number of internal components according to the characteristics of the character.
  • the image preprocessing apparatus 110 may change the value of the kernel used for the calculation based on the characteristic of the character.
  • the image preprocessing apparatus 110 may store a character recognition result in a database.
  • the image preprocessing apparatus 110 may store the recognized character and a unique key corresponding to the character.
  • FIG. 7 is a diagram illustrating a process of generating a second preprocessed image by the image preprocessing apparatus according to an exemplary embodiment.
  • the image preprocessing apparatus 110 may adjust the size of the edited image.
  • the image preprocessing apparatus 110 may first adjust the size of the numeric image having a predetermined size or less to perform the preprocessing. For example, the image preprocessing apparatus 110 may enlarge the size of the edited image having a height of 30 pixels or less to a size of 1.5 times.
  • the image preprocessing apparatus 110 may perform binarization on a channel-by-channel basis with respect to the edited video having the size adjusted.
  • the image preprocessing apparatus 110 may separate the adjusted edited image for each channel. For example, when the HSV color model is used, the image preprocessing apparatus 110 may separate the edited image resized to three channels.
  • the image preprocessing apparatus 110 may perform binarization for each channel of Hue, Saturation, and Brightness. The image preprocessing apparatus 110 may acquire a first binarization result image.
  • the image preprocessing apparatus 110 may select one binarization result image from among the channel-specific binarization result images as the first binarization result image. For example, the image preprocessing apparatus 110 may select a binarization result image corresponding to a channel having the least unnecessary bounding box candidate. As another example, the image preprocessing apparatus 110 may select a binarization result image corresponding to a channel having the most bounding boxes. Since the number in the game screen usually has eight digits (99,999,999) or less, the image preprocessing apparatus 110 performs the binarization result corresponding to the channel with the largest number of bounding boxes without the number of bounding boxes exceeding eight. You can select an image.
  • the image preprocessing apparatus 110 may generate a second preprocessed image by using a box surrounding a character included in the edited image.
  • the image preprocessing apparatus 110 may use an edge box model.
  • the image preprocessing apparatus 110 may detect an edge from the first binarization result image.
  • the image preprocessing apparatus 110 may detect an edge by using a canny edge detector.
  • the image preprocessing apparatus 110 may detect an edge by acquiring the size and direction of an edge gradient of the first binarization result image by using a canny edge detector.
  • the image preprocessing apparatus 110 may find an outline based on the detected edge.
  • the image preprocessing apparatus 110 may remove redundant or unnecessary outlines. For example, if you create a rectangle with the smallest area that encloses the outline, and the coordinates of all four vertices overlap or the rectangle is skewed more than 10 degrees from side to side, the ratio of the width and height of the rectangle that is considered non-numeric is greater than 0.4. Smaller or larger than 4 cases may be determined as duplicated or unnecessary edges.
  • the image preprocessing apparatus 110 may generate a bounding box candidate using an edge box algorithm.
  • the image preprocessing apparatus 110 may directly generate a bounding box candidate using the detected edge. Through this, the image preprocessing apparatus 110 may find a character in the edited image.
  • the bounding box candidate may be generated only when the height of the bounding box candidate is greater than 40% of the height of the edited image and the Y coordinate of the center of the bounding box candidate is within ⁇ 30% of the Y coordinate of the center of the edited image. have. Duplicate or unnecessary ones among the plurality of bounding box candidates may be excluded. In the case of two or more bounding box candidates having one or more edges overlapping, a smaller bounding box candidate may be excluded. If there are two or less bounding box candidates within one bounding box candidate, all of the inner bounding box candidates may be excluded, and vice versa, the outer bounding box candidate may be excluded. Further, if one of the two bounding box candidates is smaller than 70% of the height of the other bounding box candidate, it may be excluded.
  • the image preprocessing apparatus 110 may perform binarization on an area within the bounding box.
  • the image preprocessing apparatus 110 may perform noise removal on the resultant image of the binarization.
  • the image preprocessing apparatus 110 may receive region information in the edited image from the user, and may remove a background region from pixels that are the same as or similar to the color of the text based on the input of region information.
  • FIG. 8 shows an example of a general binarization result.
  • 9 illustrates an example of performing binarization on each channel-specific image by the image preprocessing apparatus according to an exemplary embodiment.
  • the image 820 may be derived.
  • the image 820 may be an image including a lot of noise.
  • the image preprocessor 110 may generate an image 911, an image 921, and an image 931 by separating the image 810 for each HSV channel.
  • the image preprocessor 110 may binarize the image 911, the image 921, and the image 931.
  • a binarized image 913, an image 923, and an image 933 may be generated for each HSV channel.
  • the image preprocessing apparatus 110 may use an Otsu binarization method that automatically finds a threshold value through the brightness distribution of the image.
  • the image preprocessor 110 may select one image 923 from the binarized images 913, 923, and 933 for each channel. For example, the image preprocessor 110 may select an image 923 having the least noise among the images 913, 923, and 933.
  • FIG. 10 illustrates an example in which binarization is performed on each channel-specific image based on color information input from a user by the image preprocessing apparatus.
  • the image preprocessing apparatus 110 may receive a pixel value of a text area and perform binarization using the pixel value.
  • the user selects two pixels in the area “100”, and the image preprocessing apparatus 110 may perform binarization by classifying pixels corresponding to values between the pixel values of the corresponding pixels into the character area.
  • the image preprocessor 110 may perform binarization by receiving color information from the user until the recognition accuracy is greater than or equal to a threshold. Accordingly, the binarized result image may be improved in the image 1011, the image 1013, the image 1021, and the image 1023.
  • FIG. 11 is a diagram illustrating a result of removing noise of an image in which binarization is performed by an image preprocessing apparatus according to an exemplary embodiment.
  • the image preprocessing apparatus 110 may perform noise removal on the resultant image of the binarization.
  • the image preprocessing apparatus 110 may receive the region information in the edited image from the user, and may remove the background region from pixels that are the same as or similar to the color of the text based on the information.
  • the image preprocessing apparatus 110 may calculate the number of pixels having the same or similar pixel value as the pixel value of the region estimated by the number “63”.
  • the image preprocessing apparatus 110 may change another region having the number of pixels smaller than the number of pixels included in the region estimated as the number to the pixel value of the background region.
  • the image preprocessing apparatus 110 may receive the position of the background region from the user and change the pixel value of the pixels of the adjacent position having the pixel value similar to the corresponding region to the pixel value of the background region.
  • FIG. 12 is a flowchart illustrating an operation of a character recognition method, according to an exemplary embodiment.
  • the image preprocessing apparatus 110 may generate an edited image including a character by editing the input image based on the crop region information.
  • the image preprocessing apparatus 110 may automatically perform preprocessing on the edited image to generate a first preprocessed image.
  • the image preprocessing apparatus 110 may apply to the first preprocessed image based on a user input received from the I / O interface.
  • the preprocessing may be performed to generate a second preprocessed image.
  • the image preprocessing apparatus 110 may recognize a character included in the second preprocessed image.
  • FIG. 13 is a diagram illustrating an overall configuration of a character recognition apparatus according to an embodiment.
  • the character recognition apparatus 110 performs an I / O interface 1310 for receiving an input image including a character, a memory 1320 for storing the input image, and preprocessing the input image.
  • the processor 1330 may recognize a character from the output image and the output device 1340 may output the recognized character.
  • the output device 1340 may include a speaker or a display.
  • the processor 1330 may edit the input image based on crop region information received from the I / O interface to generate an edited image including text.
  • the processor 1330 may automatically perform preprocessing on the edited image to generate the first preprocessed image.
  • the processor 1330 may determine whether the first preprocessed image satisfies the first condition.
  • the processor 1340 may generate a second preprocessed image by performing preprocessing on the first preprocessed image based on a user input received from the I / O interface. .
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks such as floppy disks.
  • program instructions include machine code, such as produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
  • the software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device.
  • Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted.
  • the software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable recording media.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

문자 인식을 위한 영상 전처리 장치 및 방법이 개시된다. 영상 전처리 장치는 문자를 포함하는 입력 영상을 수신하는 I/O 인터페이스, 입력 영상을 저장하는 메모리 및 입력 영상에 대해 전처리를 수행하는 프로세서를 포함하고, 프로세서는, 입력 영상에 대해 전처리를 수행하는 경우, I/O 인터페이스로부터 수신한 크롭(crop) 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성하고, 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하고, 제1 전처리 영상이 제1 조건을 만족하는지 못하는 경우, I/O 인터페이스로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성한다.

Description

문자 인식을 위한 영상 전처리 장치 및 방법
아래의 설명은 게임 영상에서 문자를 인식하는 기술에 관한 것이다.
게임의 사실감을 높이기 위하여, 게임에서 사용되는 문자들은 게임 화면 내에서 영상의 일부로 표시될 수 있다. 영상의 일부로 표시된 문자들은 영상의 전처리를 통해 문자로서 인식될 수 있다. 그러나, 특수 효과 또는 그래픽 컴포넌트의 중첩으로 인하여 문자 인식의 정확도가 감소될 수 있다.
본 발명의 일실시예에 따른 영상 전처리 장치는, 문자를 포함하는 입력 영상을 수신하는 I/O 인터페이스, 상기 입력 영상을 저장하는 메모리 및 상기 입력 영상에 대해 전처리를 수행하는 프로세서를 포함하고, 상기 프로세서는, 상기 입력 영상에 대해 전처리를 수행하는 경우, 상기 I/O 인터페이스로부터 수신한 크롭(crop) 영역 정보를 기초로 상기 입력 영상을 편집하여 상기 문자를 포함하는 편집 영상을 생성하고, 상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하고, 상기 제1 전처리 영상이 정확도와 관련된 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, 상기 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성한다.
상기 프로세서는, 상기 편집 영상의 크기를 조정할 수 있다.
상기 프로세서는, 상기 사용자 입력에 포함된 상기 문자의 색상 정보 또는 영역 정보를 기초로 상기 제2 전처리 영상을 생성할 수 있다.
상기 프로세서는, 상기 편집 영상에 포함된 문자를 둘러싸는 박스를 이용하여 상기 제2 전처리 영상을 생성할 수 있다.
상기 프로세서는, 상기 제1 전처리 영상에서 하나 이상의 엣지를 검출하고, 상기 하나 이상의 엣지를 이용하여 상기 문자와 관련된 외곽선을 생성하고, 상기 외곽선을 둘러싸는 박스를 생성하고, 상기 박스의 내부 영역에 대하여 이진화를 수행하여 제2 이진화 결과 영상을 생성할 수 있다.
상기 프로세서는, 상기 제1 전처리 영상으로부터 엣지 그래디언트를 검출하고, 상기 엣지 그래디언트의 크기 및 방향을 이용하여 상기 하나 이상의 엣지를 검출할 수 있다.
상기 프로세서는, 상기 하나 이상의 엣지 중에서 상기 엣지들 사이의 연결성과 관련된 제2 조건을 만족하는 엣지를 선택하고, 상기 선택된 엣지를 이용하여 상기 외곽선을 생성할 수 있다.
상기 프로세서는, 상기 외곽선을 둘러싸는 하나 이상의 박스를 생성하고, 상기 하나 이상의 박스 중에서 상기 문자의 특성과 관련된 제3 조건을 만족하는 박스를 선택할 수 있다.
상기 프로세서는, 상기 박스의 내부 영역을 각 채널별로 분리하여 복수의 채널별 영상을 생성하고, 상기 복수의 채널별 영상 각각에 대하여 이진화를 수행하여 복수의 이진화된 채널별 영상을 생성하고, 상기 복수의 이진화된 채널별 영상 중에서 정확도와 관련된 제4 조건을 만족하는 이진화된 채널별 영상을 선택하여 상기 제2 이진화 결과 영상을 생성할 수 있다.
상기 프로세서는, 상기 사용자 입력을 기초로 상기 복수의 채널별 영상 각각에 대하여 이진화를 수행할 수 있다.
상기 프로세서는, 상기 제2 이진화 결과 영상에 포함된 노이즈를 제거할 수 있다.
상기 프로세서는, 상기 사용자 입력에 포함된 상기 문자의 영역 정보를 기초로 상기 제2 이진화 결과 영상에 포함된 노이즈를 제거할 수 있다.
상기 프로세서는, 상기 제1 전처리 영상에 대해 이진화를 수행하여 제1 이진화 결과 영상을 생성할 수 있다.
상기 프로세서는, 상기 제1 전처리 영상을 채널 별로 분리하여 복수의 채널별 영상을 생성하고, 상기 복수의 채널별 영상 각각에 대해 이진화를 수행하여 상기 제1 이진화 결과 영상을 생성할 수 있다.
상기 프로세서는, 상기 제1 전처리 영상에 포함된 상기 문자의 특성 정보를 기초로 상기 제2 전처리 영상을 생성할 수 있다.
상기 프로세서는, 상기 제2 전처리 영상이 미리 설정된 조건을 만족하는지 여부를 판단하고, 상기 메모리는, 상기 미리 설정된 조건이 만족되는 경우, 상기 제2 전처리 영상으로부터 인식된 상기 문자와 상기 문자에 대응되는 고유키를 저장할 수 있다.
일 실시예에 따른 문자 인식 장치는, 문자를 포함하는 입력 영상을 수신하는 I/O 인터페이스, 상기 입력 영상을 저장하는 메모리, 상기 입력 영상에 대해 전처리를 수행하고 상기 전처리가 수행된 출력 영상에서 상기 문자를 인식하는 프로세서 및 상기 인식된 문자를 출력하는 출력 장치를 포함하고, 상기 프로세서는, 상기 입력 영상에 대해 전처리를 수행하는 경우, 상기 I/O 인터페이스로부터 수신한 크롭(crop) 영역 정보를 기초로 상기 입력 영상을 편집하여 상기 문자를 포함하는 편집 영상을 생성하고, 상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하고, 상기 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, 상기 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성할 수 있다.
상기 출력 장치는, 스피커 또는 디스플레이를 포함할 수 있다.
일 실시예에 따른 영상 전처리 방법은, 프로세서를 포함하는 컴퓨터에 의해 수행되는 영상 전처리 방법에 있어서, 크롭(crop) 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성하는 단계, 상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하는 단계 및 상기 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성하는 단계를 포함할 수 있다.
일 실시예에 따른 문자 인식 방법은, 프로세서를 포함하는 컴퓨터에 의해 수행되는 문자 인식 방법에 있어서, 크롭(crop) 영역 정보를 기초로 입력 영상을 편집하여 상기 문자를 포함하는 편집 영상을 생성하는 단계, 상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하는 단계, 상기 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성하는 단계 및 상기 제2 전처리 영상에 포함된 상기 문자를 인식하는 단계를 포함할 수 있다.
도 1은 일 실시예에 따른 영상 전처리 장치에 의해 게임 화면 내에서 문자가 인식되는 상황을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 영상 전처리 장치의 전체 구성을 도시한 도면이다.
도 3은 일 실시예에 따른 영상 전처리 방법의 전체 동작들 도시한 순서도이다.
도 4는 일 실시예에 따른 제2 전처리 영상을 생성하는 과정을 도시한 순서도이다.
도 5는 다른 실시예에 따른 제2 전처리 영상을 생성하는 과정을 도시한 순서도이다.
도 6은 다른 실시예에 따른 영상 전처리 방법의 전체 동작을 도시한 순서도이다.
도 7은 일 실시예에 따른 영상 전처리 장치에 의해 제2 전처리 영상이 생성되는 과정을 도시한 일례이다.
도 8은 일반적인 이진화 결과를 도시한 일례이다.
도 9는 일 실시예에 따른 영상 전처리 장치에 의해 채널별 영상 각각에 대해 이진화가 수행된 결과를 도시한 일례이다.
도 10은 일 실시예에 따른 영상 전처리 장치에 의해 사용자로부터 입력된 색상 정보를 기초로 채널별 영상 각각에 대해 이진화가 수행된 결과를 도시한 일례이다.
도 11은 일 실시예에 따른 영상 전처리 장치에 의해 이진화가 수행된 영상의 노이즈를 제거한 결과를 도시한 일례이다.
도 12는 일 실시예에 따른 문자 인식 방법의 동작을 도시한 순서도이다.
도 13은 일 실시예에 따른 문자 인식 장치의 전체 구성을 도시한 도면이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 일 실시예에 따른 영상 전처리 장치에 의해 게임 화면 내에서 문자가 인식되는 상황을 설명하기 위한 도면이다.
일 실시예에 따르면, 영상 전처리 장치(110)는 게임 화면에 포함된 문자를 인식하도록 게임 화면을 전처리할 수 있다. 전처리된 영상에서 문자는 보다 정확하게 인식될 수 있다.
게임 화면에는 다양한 특수 효과 또는 그래픽 컴포넌트들이 포함될 수 있다. 이로 인해, 게임 화면에 포함된 문자는 정확하게 인식되지 않을 수 있다. 문자가 정확하게 인식되기 위해서는, 문자를 제외한 컴포넌트들이 제거되어야 한다. 이를 위해, 영상 전처리 장치(110)는 게임 화면을 전처리할 수 있다.
영상 전처리 장치(110)는 엣지 박스(Edge Box) 모델 및 HSV 색상 모델을 사용할 수 있다. HSV 색상 모델은 색을 표현하는 하나의 방법이자, 그 방법에 따라 색을 배치하는 방식이다. HSV 색상 모델에서는 색상(Hue), 채도(Saturation), 명도(Value)의 좌표를 이용하여 색을 특정한다. 다만, 이는 일례에 불과하며 다양한 색상 모델이 사용될 수 있다. 예를 들어, HSL(Lightness) 또는 HSI(Intensity) 색상 모델 등이 사용될 수도 있다.
영상 전처리 장치(110)는 사용자가 선택한 픽셀의 HSV 값 또는 사용자가 선택한 영역 정보를 기초로 문자 인식을 위한 전처리를 수행할 수 있다. 영상 전처리 장치(110)는 사용자가 선택한 픽셀의 HSV 값 또는 사용자가 선택한 영역 정보를 기초로 문자를 포함하는 편집 영상을 이진화할 수 있다. 영상 전처리 장치(110)는 이진화된 영상에서 노이즈를 제거할 수 있다. 영상 전처리 장치(110)는 노이즈가 제거된 이진화된 영상으로부터 문자를 보다 정확하게 인식할 수 있다.
게임 화면 내의 문자를 인식하는 기술은 게임을 테스트하기 위해 적용될 수 있다. 개발된 게임 내에서 등장하는 문자에 대해 사용자의 반응을 기계적으로 테스트하기 위해 테스트 자동화 기술이 필요하다. 문자 인식 기술은 게임의 테스트 자동화를 위해 사용될 수 있다. 예를 들어, 게임 내에서 캐릭터의 레벨, 재화량, 아이템의 가격 등은 숫자로 표시되며, 게임 테스트 과정에서 해당 숫자의 인식률이 평가될 필요가 있다.
영상 전처리 장치(110)는 게임 화면 내에서 인식하고자 하는 문자를 포함하는 부분 영역에 대해 전처리를 수행할 수 있다. 예를 들어, 사용자에 의해 문자를 포함하는 부분 영역이 크롭(crop)될 수 있다. 크롭된 부분 영역은 편집 영상이라고 지칭될 수 있다. 편집 영상의 형태는 직사각형에 한정되지 않으며, 원을 포함하는 다양한 형태를 가질 수 있다.
영상 전처리 장치(110)는 먼저 편집 영상을 자동으로 전처리할 수 있다. 자동으로 전처리된 영상으로부터 문자가 정확하게 인식될 경우, 영상 전처리 장치(110)는 편집 영상의 전처리를 종료할 수 있다. 하지만, 자동으로 전처리된 영상으로부터 인식된 문자가 부정확할 경우, 편집 영상의 전처리는 사용자 입력을 기초로 반복적으로 수행될 수 있다. 여기서, 전처리는 정확도를 조건으로 종료될 수 있다. 예를 들어, 인식된 문자의 정확도가 임계값 이상인 경우, 전처리는 종료되는 것으로 설정될 수 있다. 정확도의 임계값은 미리 설정될 수 있고, 조정될 수 있다.
이하의 설명에서는, 사용자 입력을 기초로 전처리가 수행되는 동작을 중심으로 서술된다. 다만, 자동으로 전처리가 수행되는 동작은 사용자 입력과 관련이 없는 부분에선 동일하게 적용될 수 있다.
영상 전처리 장치(110)는 편집 영상의 크기를 조절할 수 있다. 크기 조절은 리사이징(resizing)으로 지칭될 수 있다. 편집 영상 내의 문자의 크기가 작은 경우, 영상 전처리 장치(110)는 편집 영상의 크기를 키우거나 편집 영상의 크기는 고정하고 문자를 포함하는 편집 영상 내의 부분 영역의 크기를 키울 수 있다. 문자 인식의 정확도가 문제되는 것은 문자의 크기가 작은 경우가 대부분이므로, 크기 조절은 주로 확대 동작일 수 있다.
영상 전처리 장치(110)는 사용자로부터 편집 영상 내의 문자의 색상 정보를 입력 받고, 이를 기초로 편집 영상의 이진화를 수행할 수 있다. 또한, 영상 전처리 장치(110)는 사용자로부터 편집 영상 내의 영역 정보를 입력 받고, 이를 기초로 문자의 색상과 동일하거나 유사한 픽셀로부터 배경 영역을 제거할 수 있다. 이처럼, 영상 전처리 장치(110)는 사용자 입력을 기초로 전처리를 수행함으로써 문자 인식의 정확도를 높일 수 있다.
영상 전처리 장치(110)는 색상 정보에 대응하지 않는 색상을 가지는 픽셀은 배경 영역으로 결정하고 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 사용자로부터 획득한 문자의 영역 정보에 대응하지 않는 부분을 배경 영역으로 결정하고 이진화를 수행할 수 있다. 예를 들어, 영상 전처리 장치(110)는 문자의 영역 정보에 포함된 가로 및 세로의 비율에 대한 임계값을 벗어나는 부분을 배경 영역으로 결정하고 이진화를 수행할 수 있다.
영상 전처리 장치(110)는 문자 특성을 이용하여 편집 영상을 이진화할 수 있다. 영상 전처리 장치(110)는 편집 영상 내의 문자 영역을 문자 특성을 이용하여 한정할 수 있다. 예를 들어, 영문 또는 숫자의 경우, 이진화된 영상에서 연결 지점을 둘러싸는 사각형을 그릴 때, 문자의 사각형 내에서는 2개를 초과하는 사각형은 그려지지 않는다는 특성을 가질 수 있다. 영상 전처리 장치(110)는 영문 또는 숫자의 문자 특성을 이용하여 보다 정확하게 편집 영상을 전처리할 수 있다.
영상 전처리 장치(110)는 전처리된 영상으로부터 문자를 인식할 수 있다. 영상 전처리 장치(110)는 전처리된 영상으로부터 색상 리스트와 문자 영역 리스트를 생성할 수 있다. 영상 전처리 장치(110)는 각각의 색상 범위 및 문자 영역을 고유 키에 대응시켜 데이터베이스에 저장할 수 있다.
데이터베이스에 저장된 고유 키를 기초로 문자 인식이 요청될 경우, 고유 키에 대응하는 색상 리스트 및 문자 영역 리스트를 이용하여 편집 영상이 전처리 되고, 전처리된 결과 영상에 대해 문자 인식이 진행될 수 있다.
도 1을 참조하면, 영상 전처리 장치(110)는 디스플레이(111)을 포함할 수 있다. 디스플레이(111)는 게임 화면을 사용자에게 제공할 수 있다. 게임 화면에는 문자(113)가 포함될 수 있다. 사용자는 문자(113)를 포함하는 편집 영역(115)를 커서(117)를 이용하여 설정할 수 있다. 영상 전처리 장치(110)는 편집 영역(115)에 대해 전처리를 수행할 수 있다.
도 2는 일 실시예에 따른 영상 전처리 장치의 전체 구성을 도시한 도면이다.
도 2를 참조하면, 영상 전처리 장치(110)는 I/O 인터페이스(210), 메모리(220), 프로세서(230)를 포함한다. 영상 전처리 장치(110)는 디스플레이(240)을 더 포함할 수 있다.
I/O 인터페이스(210)는 문자를 포함하는 입력 영상을 수신한다. I/O 인터페이스(210)는 키보드, 마우스(또는 기타의 포인팅 장치), 터치 패드 및 터치 스크린을 포함할 수 있다. 터치 스크린은 디스플레이(240)와 결합될 수 있다.
메모리(220)는 입력 영상을 저장한다. 메모리(220)는, DRAM, SRAM, DDR RAM 또는 기타의 랜덤 액세스 반도체 메모리(solid state memory) 장치와 같은 고속 랜덤 액세스 메모리를 포함할 수도 있으며, 하나 이상의 자기 디스크 저장 장치, 광학 디스크 저장 장치, 플래시 메모리 장치나 기타의 비휘발성 반도체 저장 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 메모리(370)는, 선택사항으로서, 프로세서(230)로부터 원격 위치한 하나 이상의 저장 장치를 포함할 수도 있다.
프로세서(230)는 입력 영상에 대해 전처리를 수행한다. 입력 영상에 대해 전처리를 수행하는 경우, 프로세서(230)는 I/O 인터페이스(210)로부터 수신한 크롭 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성한다. 편집 영상은 입력 영상에 비해 크기가 작기 때문에, 프로세서(230)는 입력 영상 전체를 전처리하는 것보다 적은 리소스(resource)로 편집 영상을 전처리할 수 있다.
프로세서(230)는 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성한다. 프로세서(230)는 사용자 입력 없이 자동으로 전처리를 수행할 수 있다. 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는 경우, 전처리 과정은 종료될 수 있다. 여기서, 제1 조건은 문자 인식의 정확도가 임계값 이상인 조건을 포함할 수 있다. 이처럼, 프로세서(230)는 먼저 자동으로 전처리를 수행함으로써, 사용자의 개입 없이도 빠르게 문자를 인식할 수 있는 정확도로 전처리를 수행할 수 있는 기능을 제공할 수 있다.
제1 전처리 영상이 제1 조건을 만족하지 못하는 경우, 프로세서(230)는 I/O 인터페이스(210)로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성한다. 프로세서(230)는 사용자 입력의 보조를 통해 보다 정확하게 문자를 인식할 수 있는 전처리 동작을 수행할 수 있다.
프로세서(230)는 I/O 인터페이스(210)로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성한다. 먼저, 프로세서(230)는 편집 영상의 크기를 조정할 수 있다. 편집 영상 내의 문자의 크기가 작은 경우, 프로세서(230)는 편집 영상의 크기를 키우거나 편집 영상의 크기는 고정하고 문자를 포함하는 편집 영상 내의 부분 영역의 크기를 키울 수 있다. 리사이징되는 편집 영상의 크기는 미리 설정될 수 있다.
프로세서(230)는 사용자 입력에 포함된 문자의 색상 정보 또는 영역 정보를 기초로 제2 전처리 영상을 생성할 수 있다. 프로세서(230)는 사용자로부터 편집 영상 내의 문자의 색상 정보를 입력 받고, 이를 기초로 편집 영상의 이진화를 수행할 수 있다. 또한, 프로세서(230)는 사용자로부터 편집 영상 내의 영역 정보를 입력 받고, 이를 기초로 문자의 색상과 동일하거나 유사한 픽셀로부터 배경 영역을 제거할 수 있다. 프로세서(230)는 문자의 색상 정보를 기초로 편집 영상의 이진화를 수행한 후 문자의 영역 정보를 기초로 편집 영상의 이진화를 수행할 수도 있고, 그 반대의 순서로 편집 영상의 이진화를 수행할 수도 있다. 또한, 프로세서(230)는 문자의 색상 정보를 기초로 편집 영상의 이진화를 수행한 결과와 문자의 영역 정보를 기초로 편집 영상의 이진화를 수행한 결과를 비교하여 보다 정확도가 높은 결과를 선택할 수도 있다. 이하에서는, 일례로서 색상 정보를 이용한 후 영역 정보를 이용하는 순서로 설명된다.
프로세서(230)는 제1 전처리 영상에 대해 이진화를 수행하여 제2 이진화 결과 영상을 생성할 수 있다. 프로세서(230)는 제1 전처리 영상을 채널 별로 분리하여 복수의 채널별 영상을 생성하고, 복수의 채널별 영상 각각에 대해 이진화를 수행하여 제2 이진화 결과 영상을 생성할 수 있다.
프로세서(230)는 사용자 입력을 기초로 복수의 채널별 영상 각각에 대하여 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 사용자로부터 편집 영상 내의 문자의 색상 정보를 입력 받고, 이를 기초로 편집 영상의 이진화를 수행할 수 있다. 예를 들어, 프로세서(230)는 문자의 색상 정보의 픽셀값과 동일하거나 유사한 픽셀을 문자 영역으로 분류하고 이진화를 수행할 수 있다. 여기서, 프로세서(230)는 문자의 색상 정보와의 픽셀값의 차이가 임계값 이하인 픽셀들을 픽셀값이 유사한 픽셀로 분류할 수 있다. 예를 들어, 프로세서(230)는 픽셀값의 차이를 기초로 유사도를 계산할 수 있고, 유사도에 따라 해당 픽셀이 문자 영역에 속할 확률을 계산할 수 있다. 프로세서(230)는 계산된 확률을 기초로 편집 영상을 이진화할 수 있다.
프로세서(230)는 제1 전처리 영상에 대해 채널별로 이진화를 수행하고, 가장 정확도가 높은 영상을 선택할 수 있다. 프로세서(230)는 제1 전처리 영상에 대해 각 채널별로 분리하여 복수의 채널별 영상을 생성할 수 있다. 프로세서(230)는 복수의 채널별 영상 각각에 대하여 이진화를 수행하여 복수의 이진화된 채널별 영상을 생성할 수 있다. 프로세서(230)는 복수의 이진화된 채널별 영상 중에서 제4 조건을 만족하는 이진화된 채널별 영상을 선택하여 제1 이진화 결과 영상을 생성할 수 있다. 여기서 제4 조건은 문자의 정확도와 관련된 것일 수 있다.
프로세서(230)는 편집 영상에 포함된 문자를 둘러싸는 박스를 이용하여 제2 전처리 영상을 생성할 수 있다. 예를 들어, 프로세서(230)는 엣지 박스(Edge Box) 모델을 이용할 수 있다. 프로세서(230)는 제1 전처리 영상에서 하나 이상의 엣지를 검출하고, 하나 이상의 엣지를 이용하여 문자와 관련된 외곽선을 생성하고, 외곽선을 둘러싸는 박스를 생성하고, 박스의 내부 영역에 대하여 이진화를 수행하여 제2 이진화 결과 영상을 생성할 수 있다.
프로세서(230)는 제1 전처리 영상으로부터 엣지 그래디언트를 검출하고, 엣지 그래디언트의 크기 및 방향을 이용하여 하나 이상의 엣지를 검출할 수 있다. 프로세서(230)는 제1 전처리 영상에 포함된 엣지를 추출할 수 있다. 프로세서(230)는 각 엣지들이 연결된 컴포넌트를 검색하고 사각형으로 표시할 수 있다. 이는 커넥티드 컴포넌트 레이블링(Connected Component Labeling)으로 지칭될 수 있다.
프로세서(230)는 포함되는 요소가 하나의 글자로 보이도록 사각형의 형태를 변형할 수 있다. 프로세서(230)는 침식/팽창 연산을 이용할 수 있다. 이는 형태 변형(Mophological Transformation)이라고 지칭될 수 있다. 프로세서(230)는 사각형의 비율 또는 넓이를 기초로 비정형적인 사각형을 제거할 수 있다. 이를 통해, 프로세서(230)는 컴포넌트를 정제할 수 있다.
프로세서(230)는 하나 이상의 엣지 중에서 제2 조건을 만족하는 엣지를 선택하고, 선택된 엣지를 이용하여 외곽선을 생성할 수 있다. 여기서, 제2 조건은 엣지들 사이의 연결성과 관련된 조건일 수 있다. 프로세서(230)는 외곽선을 둘러싸는 하나 이상의 박스를 생성할 수 있다. 이는 바운딩 박스로 지칭될 수 있다. 프로세서(230)는 하나 이상의 박스 중에서 제3 조건을 만족하는 박스를 선택할 수 있다. 여기서, 제3 조건은 문자의 종류에 따른 특성을 기초로 결정될 수 있다. 예를 들어, 문자의 가로 및 세로의 비율이 제3 조건에 포함될 수 있다.
다른 실시예에 따르면, 프로세서(230)는 제1 전처리 영상에 포함된 문자의 특성 정보를 기초로 제2 전처리 영상을 생성할 수 있다. 프로세서(230)는 문자의 특성에 따라 내부 컴포넌트의 개수를 변경할 수 있다. 프로세서(230)가 형태 변형을 수행할 때, 프로세서(230)는 문자의 특성을 기초로 연산에 사용되는 커널의 값을 변경할 수 있다.
프로세서(230)는 제2 이진화 결과 영상에 포함된 노이즈를 제거할 수 있다. 프로세서(230)는 사용자 입력에 포함된 문자의 영역 정보를 기초로 제2 이진화 결과 영상에 포함된 노이즈를 제거할 수 있다. 프로세서(230)는 사용자로부터 편집 영상 내의 영역 정보를 입력 받고, 이를 기초로 문자의 색상과 동일하거나 유사한 픽셀로부터 배경 영역을 제거할 수 있다.
이처럼, 프로세서(230)는 채널별 이진화, 바운딩 박스에 의한 이진화 및 문자 특성을 이용한 전처리를 다양하게 조합하여 편집 영상을 전처리할 수 있다.
프로세서(230)는 문자 인식 결과를 기초로 데이터베이스를 구축할 수 있다. 프로세서(230)는 제2 전처리 영상이 미리 설정된 조건을 만족하는지 여부를 판단할 수 있다. 미리 설정된 조건이 만족되는 경우, 메모리(220)는 제2 전처리 영상으로부터 인식된 문자와 문자에 대응되는 고유키를 저장할 수 있다.
도 3은 일 실시예에 따른 영상 전처리 방법의 전체 동작들 도시한 순서도이다.
일 실시예에 따르면, 단계(310)에서, 영상 전처리 장치(110)는 크롭 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성할 수 있다. 영상 전처리 장치(110)는 크롭 영역으로 축소된 편집 영상에 대해 전처리를 수행함으로써 전처리 수행 시간을 줄일 수 있다. 크롭 영역은 사각형에 한정되지 않으며, 다양한 형태의 닫힌 영역을 포함할 수 있다.
일 실시예에 따르면, 단계(320)에서, 영상 전처리 장치(110)는 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성할 수 있다. 영상 전처리 장치(110)는 편집 영상을 자동으로 리사이징할 수 있다. 영상 전처리 장치(110)는 자동으로 리사이징된 편집 영상에 대해 채널별로 이진화를 수행함으로써 제1 이진화 결과 영상을 생성할 수 있다. 영상 전처리 장치(110)는 자동으로 제1 이진화 결과 영상에 대해 바운딩 박스를 이용하여 제2 이진화 결과 영상을 생성할 수 있다. 영상 전처리 장치(110)는 자동으로 제2 이진화 결과 영상으로부터 노이즈를 제거할 수 있다. 노이즈가 제거된 결과는 제1 전처리 영상으로 지칭될 수 있다.
일 실시예에 따르면, 단계(330)에서, 제1 전처리 영상이 제1 조건을 만족하는지 못하는 경우, 영상 전처리 장치(110)는 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성할 수 있다. 영상 전처리 장치(110)는 제1 전처리 영상의 정확도가 미리 설정된 임계값 이하인 경우, 사용자 입력을 기초로 제2 전처리 영상을 생성할 수 있다.
영상 전처리 장치(110)는 제1 전처리 영상을 자동으로 리사이징할 수 있다. 영상 전처리 장치(110)는 리사이징된 영상에 대해 채널별로 이진화를 수행함으로써 제1 이진화 결과 영상을 생성할 수 있다. 영상 전처리 장치(110)는 문자의 색상 정보를 기초로 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 제1 이진화 결과 영상에 대해 바운딩 박스를 이용하여 제2 이진화 결과 영상을 생성할 수 있다. 영상 전처리 장치(110)는 제2 이진화 결과 영상으로부터 노이즈를 제거할 수 있다. 영상 전처리 장치(110)는 문자의 영역 정보를 기초로 제2 이진화 결과 영상으로부터 노이즈를 제거할 수 있다. 노이즈가 제거된 결과는 제2 전처리 영상으로 지칭될 수 있다.
도 4는 일 실시예에 따른 제2 전처리 영상을 생성하는 과정을 도시한 순서도이다.
일 실시예에 따르면, 단계(330)에서, 제1 전처리 영상이 제1 조건을 만족하는지 못하는 경우, 영상 전처리 장치(110)는 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성할 수 있다.
일 실시예에 따르면, 단계(410)에서, 영상 전처리 장치(110)는 제1 전처리 영상에서 하나 이상의 에지를 검출할 수 있다. 프로세서(230)는 제1 전처리 영상으로부터 엣지 그래디언트를 검출하고, 엣지 그래디언트의 크기 및 방향을 이용하여 하나 이상의 엣지를 검출할 수 있다. 프로세서(230)는 제1 전처리 영상에 포함된 엣지를 추출할 수 있다.
일 실시예에 따르면, 단계(420)에서, 영상 전처리 장치(110)는 하나 이상의 에지를 이용하여 문자와 관련된 외곽선을 생성할 수 있다. 영상 전처리 장치(110)는 각 엣지들이 연결된 컴포넌트를 검색하고 사각형으로 표시할 수 있다. 영상 전처리 장치(110)는 커넥티드 컴포넌트 레이블링을 수행할 수 있다. 영상 전처리 장치(110)는 포함되는 요소가 하나의 글자로 보이도록 사각형의 형태를 변형할 수 있다. 영상 전처리 장치(110)는 사각형의 비율 또는 넓이를 기초로 비정형적인 사각형을 제거할 수 있다.
일 실시예에 따르면, 단계(430)에서, 영상 전처리 장치(110)는 외곽선을 둘러싸는 박스를 생성할 수 있다. 영상 전처리 장치(110)는 하나 이상의 박스 중에서 제3 조건을 만족하는 박스를 선택할 수 있다. 일 실시예에 따르면, 단계(440)에서, 영상 전처리 장치(110)는 박스의 내부 영역에 대하여 이진화를 수행하여 제2 이진화 결과 영상을 생성할 수 있다.
도 5는 다른 실시예에 따른 제2 전처리 영상을 생성하는 과정을 도시한 순서도이다.
일 실시예에 따르면, 단계(330)에서, 제1 전처리 영상이 제1 조건을 만족하는지 못하는 경우, 영상 전처리 장치(110)는 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성할 수 있다.
일 실시예에 따르면, 단계(510)에서, 영상 전처리 장치(110)는 박스의 내부 영역을 각 채널별로 분리하여 복수의 채널별 영상을 생성할 수 있다. 일 실시예에 따르면, 단계(520)에서, 영상 전처리 장치(110)는 복수의 채널별 영상 각각에 대하여 이진화를 수행하여 복수의 이진화된 채널별 영상을 생성할 수 있다. 예를 들어, HSV 색상 모델이 사용될 경우, 영상 전처리 장치(110)는 색상(Hue), 채도(Saturation), 명도(Value)의 채널별로 영상을 생성할 수 있다.
일 실시예에 따르면, 단계(510)에서, 영상 전처리 장치(110)는 복수의 이진화된 채널별 영상 중에서 제4 조건을 만족하는 이진화된 채널별 영상을 선택하여 제2 이진화 결과 영상을 생성할 수 있다. 제4 조건은 이진화된 결과의 정확도가 임계값 이상인 조건일 수 있다.
도 6은 다른 실시예에 따른 영상 전처리 방법의 전체 동작을 도시한 순서도이다.
도 6을 참조하면, 영상 전처리 장치(110)는 UI(user interface)를 이용하여 전처리를 수행할 수 있다. 영상 전처리 장치(110)는 문자 특성을 이용하여 전처리를 수행할 수 있다.
일 실시예에 따르면, 단계(610)에서, 영상 전처리 장치(110)는 게임 내 문자 영역을 크롭할 수 있다. 영상 전처리 장치(110)는 크롭 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성한다. 편집 영상은 입력 영상에 비해 크기가 작기 때문에, 프로세서(230)는 입력 영상 전체를 전처리하는 것보다 적은 리소스로 편집 영상을 전처리할 수 있다.
일 실시예에 따르면, 단계(620)에서, 영상 전처리 장치(110)는 자동으로 제1 전처리 후 문자 인식을 수행할 수 있다. 영상 전처리 장치(110)는 먼저 자동으로 전처리를 수행함으로써, 사용자의 개입 없이도 빠르게 문자를 인식할 수 있는 정확도로 전처리를 수행할 수 있는 기능을 제공할 수 있다.
일 실시예에 따르면, 단계(621)에서, 영상 전처리 장치(110)는 UI에 전처리 결과 및 문자 인식 결과를 출력할 수 있다. 제1 전처리가 수행된 결과의 정확도는 자동으로 계산될 수도 있지만, 사용자에 의해 판단될 수도 있다. 영상 전처리 장치(110)는 UI를 통해 전처리 결과 및 문자 인식 결과를 출력함으로써 사용자가 정확도를 판단할 기회를 제공할 수 있다.
일 실시예에 따르면, 단계(623)에서, 영상 전처리 장치(110)는 전처리 결과 및 문자 인식 결과를 포함하는 결과를 확인할 수 있다. 영상 전처리 장치(110)는 문자 인식 결과 또는 전처리 결과를 기초로 정확도 조건을 만족하는지 여부를 판단할 수 있다.
일 실시예에 따르면, 결과가 미리 설정된 조건을 만족하는 경우, 단계(650)에서, 영상 전처리 장치(110)는 데이터베이스에 문자 인식 결과를 저장할 수 있다. 영상 전처리 장치(110)는 제2 전처리 영상으로부터 인식된 문자와 문자에 대응되는 고유키를 저장할 수 있다.
일 실시예에 따르면, 결과가 미리 설정된 조건을 불만족하는 경우, 단계(630)에서, 영상 전처리 장치(110)는 사용자 입력을 수신할 수 있다. 단계(631)에서, 영상 전처리 장치(110)는 색상 정보 입력을 수신할 수 있다. 단계(633)에서, 영상 전처리 장치(110)는 영역 정보 입력을 수신할 수 있다.
일 실시예에 따르면, 단계(635)에서, 영상 전처리 장치(110)는 사용자 입력을 기초로 제1 전처리 영상에 대하여 제2 전처리를 수행할 수 있다. 영상 전처리 장치(110)는 색상 정보에 대응하지 않는 색상을 가지는 픽셀은 배경 영역으로 결정하고 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 색상 정보에 대응하는 색상을 가지는 픽셀은 문자 영역으로 결정하고 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 사용자로부터 편집 영상 내의 영역 정보를 입력 받고, 이를 기초로 문자의 색상과 동일하거나 유사한 픽셀로부터 배경 영역을 제거할 수 있다.
일 실시예에 따르면, 단계(640)에서, 영상 전처리 장치(110)는 문자 특성을 이용한 제3 전처리를 수행할 수 있다. 영상 전처리 장치(110)는 문자의 특성에 따라 내부 컴포넌트의 개수를 변경할 수 있다. 영상 전처리 장치(110)가 형태 변형을 수행할 때, 영상 전처리 장치(110)는 문자의 특성을 기초로 연산에 사용되는 커널의 값을 변경할 수 있다.
일 실시예에 따르면, 단계(650)에서, 영상 전처리 장치(110)는 데이터베이스에 문자 인식 결과를 저장할 수 있다. 영상 전처리 장치(110)는 인식된 문자와 문자에 대응되는 고유키를 저장할 수 있다.
도 7은 일 실시예에 따른 영상 전처리 장치에 의해 제2 전처리 영상이 생성되는 과정을 도시한 일례이다.
단계(710)에서, 영상 전처리 장치(110)는 편집 영상의 크기를 조정할 수 있다. 영상 전처리 장치(110)는 전처리를 수행하기 위해 먼저 일정 크기 이하의 숫자 이미지에 대한 크기 조정을 수행할 수 있다. 예를 들어, 영상 전처리 장치(110)는 높이가 30 픽셀 이하인 편집 영상의 크기를 1.5배의 크기로 확대할 수 있다.
단계(720)에서, 영상 전처리 장치(110)는 크기가 조정된 편집 영상에 대하여 채널별로 이진화를 수행할 수 있다. 단계(721)에서, 영상 전처리 장치(110)는 크기가 조정된 편집 영상을 채널 별로 분리할 수 있다. 예를 들어, HSV 색상 모델이 사용되는 경우, 영상 전처리 장치(110)는 3채널로 크기가 조정된 편집 영상을 분리할 수 있다. 단계(723)에서, 영상 전처리 장치(110)는 색상(Hue), 채도(Saturation), 명도(Value)의 채널별로 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 제1 이진화 결과 영상을 획득할 수 있다.
영상 전처리 장치(110)는 채널별 이진화 결과 영상 중에서 하나의 이진화 결과 영상을 제1 이진화 결과 영상으로서 선택할 수 있다. 예를 들어, 영상 전처리 장치(110)는 불필요한 바운딩 박스 후보가 가장 적은 채널에 대응하는 이진화 결과 영상을 선택할 수 있다. 다른 예로, 영상 전처리 장치(110)는 바운딩 박스가 가장 많은 채널에 대응하는 이진화 결과 영상을 선택할 수 있다. 게임 화면 내의 숫자는 보통 여덟 자리(99,999,999) 이하의 자릿수를 가지므로, 영상 전처리 장치(110)는 바운딩 박스의 개수가 8개를 초과하지 않으면서 바운딩 박스의 개수가 가장 많은 채널에 대응되는 이진화 결과 영상을 선택할 수 있다.
단계(730)에서, 영상 전처리 장치(110)는 편집 영상에 포함된 문자를 둘러싸는 박스를 이용하여 제2 전처리 영상을 생성할 수 있다. 예를 들어, 영상 전처리 장치(110)는 엣지 박스(Edge Box) 모델을 이용할 수 있다.
단계(735)에서, 영상 전처리 장치(110)는 제1 이진화 결과 영상으로부터 엣지를 검출할 수 있다. 영상 전처리 장치(110)는 캐니 엣지 검출기를 이용하여 엣지를 검출할 수 있다. 영상 전처리 장치(110)는 캐니 엣지 검출기를 이용하여 제1 이진화 결과 영상의 엣지 그래디언트의 크기와 방향을 획득함으로써 엣지를 검출할 수 있다. 영상 전처리 장치(110)는 검출된 엣지를 기초로 외곽선을 찾을 수 있다.
단계(733)에서, 영상 전처리 장치(110)는 중복되거나 불필요한 외곽선을 제거할 수 있다. 예를 들어, 외곽선을 둘러싸는 최소 면적의 직사각형을 만든 경우, 네 꼭지점의 좌표가 모두 겹치거나 직사각형이 좌우로 10도 이상 기울어진 경우, 숫자가 아니라고 판단되는 직사각형의 너비와 높이의 비율이 0.4보다 작거나 4보다 큰 경우가 중복되거나 불필요한 외곽선이 발생한 경우로 판단될 수 있다.
단계(731)에서, 영상 전처리 장치(110)는 엣지 박스 알고리즘을 이용하여 바운딩 박스 후보를 생성할 수 있다. 영상 전처리 장치(110)는 검출된 엣지를 이용하여 바운딩 박스 후보를 직접 생성할 수 있다. 이를 통해, 영상 전처리 장치(110)는 편집 영상 내의 문자를 찾을 수 있다.
예를 들어, 바운딩 박스 후보의 높이는 편집 영상의 높이의 40%보다 크고 바운딩 박스 후보의 중심의 Y 좌표가 편집 영상의 중심의 Y 좌표의 ±30% 이내일 경우에만, 바운딩 박스 후보가 생성될 수 있다. 복수의 바운딩 박스 후보 중에서 중복되거나 불필요한 것은 제외될 수 있다. 모서리가 1개 이상 겹치는 둘 이상의 바운딩 박스 후보의 경우, 이 중 작은 바운딩 박스 후보는 제외될 수 있다. 바운딩 박스 후보 하나의 내부에 2개 이하의 바운딩 박스 후보가 있는 경우, 내부의 바운딩 박스 후보는 모두 제외될 수 있고, 그 반대의 경우 외부의 바운딩 박스 후보는 제외될 수 있다. 또한, 2 개의 바운딩 박스 후보 중에서 하나의 바운딩 박스 후보가 다른 바운딩 박스 후보의 높이의 70%보다 작으면 제외될 수 있다.
단계(740)에서, 영상 전처리 장치(110)는 바운딩 박스 내의 영역에 대해 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 이진화가 수행된 결과 영상에 대해 노이즈 제거를 수행할 수 있다. 영상 전처리 장치(110)는 사용자로부터 편집 영상 내의 영역 정보를 입력 받고, 이를 기초로 문자의 색상과 동일하거나 유사한 픽셀로부터 배경 영역을 제거할 수 있다.
도 8은 일반적인 이진화 결과를 도시한 일례이다. 도 9는 일 실시예에 따른 영상 전처리 장치에 의해 채널별 영상 각각에 대해 이진화가 수행된 결과를 도시한 일례이다.
영상(810)과 같이 문자 "5000" 외에 복잡한 배경이 섞여 있는 경우에, 일반적인 이진화 방식을 적용할 경우 영상(820)이 도출될 수 있다. 영상(820)은 많은 노이즈를 포함하는 영상일 수 있다.
영상 전처리 장치(110)는 영상(810)을 HSV 채널별로 분리하여 영상(911), 영상(921), 영상(931)을 생성할 수 있다. 영상 전처리 장치(110)는 영상(911), 영상(921), 영상(931)을 각각 이진화할 수 있다. 이진화된 결과로서, HSV 채널별로 이진화된 영상(913), 영상(923), 영상(933)이 생성될 수 있다. 예를 들어, 영상 전처리 장치(110)는 영상의 밝기 분포를 통해 임계값을 자동으로 찾아주는 오츠(Otsu) 이진화 방식을 사용할 수 있다.
영상 전처리 장치(110)는 채널별로 이진화된 영상(913, 923, 933)들 중에서 하나의 영상(923)을 선택할 수 있다. 예를 들어, 영상 전처리 장치(110)는 영상(913, 923, 933)들 중에서 노이즈가 가장 적은 영상(923)을 선택할 수 있다.
도 10은 일 실시예에 따른 영상 전처리 장치에 의해 사용자로부터 입력된 색상 정보를 기초로 채널별 영상 각각에 대해 이진화가 수행된 결과를 도시한 일례이다.
도 10을 참조하면, 영상 전처리 장치(110)는 문자 영역의 픽셀 값을 입력 받고, 해당 픽셀 값을 이용하여 이진화를 수행할 수 있다. 사용자는 숫자 "100" 영역의 픽셀 2 개를 선택하고, 영상 전처리 장치(110)는 해당 픽셀의 픽셀값 사이의 값에 대응되는 픽셀을 문자 영역으로 분류함으로써 이진화를 수행할 수 있다. 영상 전처리 장치(110)는 인식의 정확도가 임계값 이상이 될 때까지 사용자로부터 색상 정보를 입력 받아 이진화를 수행할 수 있다. 이에 따라, 이진화된 결과 영상은 영상(1011), 영상(1013), 영상(1021), 영상(1023)으로 정확도가 향상될 수 있다.
도 11은 일 실시예에 따른 영상 전처리 장치에 의해 이진화가 수행된 영상의 노이즈를 제거한 결과를 도시한 일례이다.
영상 전처리 장치(110)는 이진화가 수행된 결과 영상에 대해 노이즈 제거를 수행할 수 있다. 영상 전처리 장치(110)는 사용자로부터 편집 영상 내의 영역 정보를 입력 받고, 이를 기초로 문자의 색상과 동일하거나 유사한 픽셀로부터 배경 영역을 제거할 수 있다.
도 11을 참조하면, 영상 전처리 장치(110)는 숫자 "63"으로 추정되는 영역의 픽셀값과 동일하거나 유사한 픽셀값을 가지는 픽셀의 수를 계산할 수 있다. 영상 전처리 장치(110)는 숫자로 추정되는 영역에 포함된 픽셀의 수보다 작은 개수의 픽셀의 수를 가지는 다른 영역을 배경 영역의 픽셀값으로 변경할 수 있다. 영상 전처리 장치(110)는 사용자로부터 배경 영역의 위치를 입력 받아 해당 영역과 유사한 픽셀값을 가지는 근접 위치의 픽셀들의 픽셀값을 배경 영역의 픽셀값으로 변경할 수 있다.
도 12는 일 실시예에 따른 문자 인식 방법의 동작을 도시한 순서도이다.
일 실시예에 따르면, 단계(1210)에서, 영상 전처리 장치(110)는 크롭 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성할 수 있다.
일 실시예에 따르면, 단계(1220)에서, 영상 전처리 장치(110)는 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성할 수 있다.
일 실시예에 따르면, 단계(1230)에서, 영상 전처리 장치(110)는 제1 전처리 영상이 제1 조건을 만족하는지 못하는 경우, I/O 인터페이스로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성할 수 있다.
일 실시예에 따르면, 단계(1240)에서, 영상 전처리 장치(110)는 제2 전처리 영상에 포함된 문자를 인식할 수 있다.
도 13은 일 실시예에 따른 문자 인식 장치의 전체 구성을 도시한 도면이다.
일 실시예에 따르면, 문자 인식 장치(110)는 문자를 포함하는 입력 영상을 수신하는 I/O 인터페이스(1310), 입력 영상을 저장하는 메모리(1320), 입력 영상에 대해 전처리를 수행하고 전처리가 수행된 출력 영상에서 문자를 인식하는 프로세서(1330) 및 인식된 문자를 출력하는 출력 장치(1340)을 포함할 수 있다. 예를 들어, 출력 장치(1340)는 스피커 또는 디스플레이를 포함할 수 있다.
프로세서(1330)는 입력 영상에 대해 전처리를 수행하는 경우, I/O 인터페이스로부터 수신한 크롭 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성할 수 있다.
프로세서(1330)는 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성할 수 있다. 프로세서(1330)는 제1 전처리 영상이 제1 조건을 만족하는지 여부에 대해 판단할 수 있다.
제1 전처리 영상이 제1 조건을 만족하는지 못하는 경우, 프로세서(1340)는 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (20)

  1. 문자를 포함하는 입력 영상을 수신하는 I/O 인터페이스;
    상기 입력 영상을 저장하는 메모리; 및
    상기 입력 영상에 대해 전처리를 수행하는 프로세서를 포함하고,
    상기 프로세서는, 상기 입력 영상에 대해 전처리를 수행하는 경우,
    상기 I/O 인터페이스로부터 수신한 크롭(crop) 영역 정보를 기초로 상기 입력 영상을 편집하여 상기 문자를 포함하는 편집 영상을 생성하고,
    상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하고,
    상기 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, 상기 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성하는,
    영상 전처리 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 편집 영상의 크기를 조정하는,
    영상 전처리 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 입력에 포함된 상기 문자의 색상 정보 또는 영역 정보를 기초로 상기 제2 전처리 영상을 생성하는,
    영상 전처리 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 편집 영상에 포함된 문자를 둘러싸는 박스를 이용하여 상기 제2 전처리 영상을 생성하는,
    영상 전처리 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 제1 전처리 영상에서 하나 이상의 엣지를 검출하고,
    상기 하나 이상의 엣지를 이용하여 상기 문자와 관련된 외곽선을 생성하고,
    상기 외곽선을 둘러싸는 박스를 생성하고,
    상기 박스의 내부 영역에 대하여 이진화를 수행하여 제2 이진화 결과 영상을 생성하는,
    영상 전처리 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 제1 전처리 영상으로부터 엣지 그래디언트를 검출하고,
    상기 엣지 그래디언트의 크기 및 방향을 이용하여 상기 하나 이상의 엣지를 검출하는,
    영상 전처리 장치.
  7. 제5항에 있어서,
    상기 프로세서는,
    상기 하나 이상의 엣지 중에서 상기 엣지들 사이의 연결성과 관련된 제2 조건을 만족하는 엣지를 선택하고,
    상기 선택된 엣지를 이용하여 상기 외곽선을 생성하는,
    영상 전처리 장치.
  8. 제5항에 있어서,
    상기 프로세서는,
    상기 외곽선을 둘러싸는 하나 이상의 박스를 생성하고,
    상기 하나 이상의 박스 중에서 상기 문자의 특성과 관련된 제3 조건을 만족하는 박스를 선택하는,
    영상 전처리 장치.
  9. 제5항에 있어서,
    상기 프로세서는,
    상기 박스의 내부 영역을 각 채널별로 분리하여 복수의 채널별 영상을 생성하고,
    상기 복수의 채널별 영상 각각에 대하여 이진화를 수행하여 복수의 이진화된 채널별 영상을 생성하고,
    상기 복수의 이진화된 채널별 영상 중에서 정확도와 관련된 제4 조건을 만족하는 이진화된 채널별 영상을 선택하여 상기 제2 이진화 결과 영상을 생성하는,
    영상 전처리 장치.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 사용자 입력을 기초로 상기 복수의 채널별 영상 각각에 대하여 이진화를 수행하는,
    영상 전처리 장치.
  11. 제5항에 있어서,
    상기 프로세서는,
    상기 제2 이진화 결과 영상에 포함된 노이즈를 제거하는,
    영상 전처리 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 사용자 입력에 포함된 상기 문자의 영역 정보를 기초로 상기 제2 이진화 결과 영상에 포함된 노이즈를 제거하는,
    영상 전처리 장치.
  13. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 전처리 영상에 대해 이진화를 수행하여 제1 이진화 결과 영상을 생성하는,
    영상 전처리 장치.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 제1 전처리 영상을 채널 별로 분리하여 복수의 채널별 영상을 생성하고, 상기 복수의 채널별 영상 각각에 대해 이진화를 수행하여 상기 제1 이진화 결과 영상을 생성하는,
    영상 전처리 장치.
  15. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 전처리 영상에 포함된 상기 문자의 특성 정보를 기초로 상기 제2 전처리 영상을 생성하는,
    영상 전처리 장치.
  16. 제1항에 있어서,
    상기 프로세서는,
    상기 제2 전처리 영상이 미리 설정된 조건을 만족하는지 여부를 판단하고,
    상기 메모리는,
    상기 미리 설정된 조건이 만족되는 경우, 상기 제2 전처리 영상으로부터 인식된 상기 문자와 상기 문자에 대응되는 고유키를 저장하는,
    영상 전처리 장치.
  17. 문자를 포함하는 입력 영상을 수신하는 I/O 인터페이스;
    상기 입력 영상을 저장하는 메모리;
    상기 입력 영상에 대해 전처리를 수행하고 상기 전처리가 수행된 출력 영상에서 상기 문자를 인식하는 프로세서; 및
    상기 인식된 문자를 출력하는 출력 장치를 포함하고,
    상기 프로세서는, 상기 입력 영상에 대해 전처리를 수행하는 경우,
    상기 I/O 인터페이스로부터 수신한 크롭(crop) 영역 정보를 기초로 상기 입력 영상을 편집하여 상기 문자를 포함하는 편집 영상을 생성하고,
    상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하고,
    상기 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, 상기 I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성하는,
    문자 인식 장치.
  18. 제17항에 있어서,
    상기 출력 장치는, 스피커 또는 디스플레이를 포함하는,
    문자 인식 장치.
  19. 프로세서를 포함하는 컴퓨터에 의해 수행되는 영상 전처리 방법에 있어서,
    크롭(crop) 영역 정보를 기초로 입력 영상을 편집하여 문자를 포함하는 편집 영상을 생성하는 단계;
    상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하는 단계; 및
    상기 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성하는 단계
    를 포함하는, 영상 전처리 방법.
  20. 프로세서를 포함하는 컴퓨터에 의해 수행되는 문자 인식 방법에 있어서,
    크롭(crop) 영역 정보를 기초로 입력 영상을 편집하여 상기 문자를 포함하는 편집 영상을 생성하는 단계;
    상기 편집 영상에 대해 자동으로 전처리를 수행하여 제1 전처리 영상을 생성하는 단계;
    상기 제1 전처리 영상이 정확도와 관련된 제1 조건을 만족하는지 못하는 경우, I/O 인터페이스로부터 수신한 사용자 입력을 기초로 상기 제1 전처리 영상에 대해 전처리를 수행하여 제2 전처리 영상을 생성하는 단계; 및
    상기 제2 전처리 영상에 포함된 상기 문자를 인식하는 단계
    를 포함하는, 문자 인식 방법.
PCT/KR2019/004198 2018-04-19 2019-04-09 문자 인식을 위한 영상 전처리 장치 및 방법 WO2019203489A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2018-0045446 2018-04-19
KR20180045446 2018-04-19
KR10-2018-0078914 2018-07-06
KR1020180078914 2018-07-06

Publications (1)

Publication Number Publication Date
WO2019203489A1 true WO2019203489A1 (ko) 2019-10-24

Family

ID=68240168

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004198 WO2019203489A1 (ko) 2018-04-19 2019-04-09 문자 인식을 위한 영상 전처리 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2019203489A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198475A (ja) * 2009-02-26 2010-09-09 Hitachi Keiyo Engineerring & System Ltd 文字認識装置
KR20110105614A (ko) * 2010-03-19 2011-09-27 삼성전자주식회사 문자 인식 전처리 방법 및 장치
JP2014115781A (ja) * 2012-12-07 2014-06-26 Hitachi Information & Telecommunication Engineering Ltd 文字認識装置及び方法、文字認識プログラム
KR20150137752A (ko) * 2014-05-30 2015-12-09 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치
KR20160067631A (ko) * 2014-12-04 2016-06-14 황용호 차량번호판 인식방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198475A (ja) * 2009-02-26 2010-09-09 Hitachi Keiyo Engineerring & System Ltd 文字認識装置
KR20110105614A (ko) * 2010-03-19 2011-09-27 삼성전자주식회사 문자 인식 전처리 방법 및 장치
JP2014115781A (ja) * 2012-12-07 2014-06-26 Hitachi Information & Telecommunication Engineering Ltd 文字認識装置及び方法、文字認識プログラム
KR20150137752A (ko) * 2014-05-30 2015-12-09 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치
KR20160067631A (ko) * 2014-12-04 2016-06-14 황용호 차량번호판 인식방법

Similar Documents

Publication Publication Date Title
WO2020130309A1 (ko) 영상 마스킹 장치 및 영상 마스킹 방법
WO2015174647A1 (ko) 사용자 인증 방법, 이를 실행하는 장치 및 이를 저장한 기록 매체
US8077976B2 (en) Image search apparatus and image search method
WO2015183015A1 (ko) 문자 인식 방법 및 그 장치
KR20010110416A (ko) 비디오 스트림 분류가능 심볼 고립 방법 및 시스템
WO2020060019A1 (ko) 글자 검출 장치, 방법 및 시스템
WO2018062580A1 (ko) 문자를 번역하는 방법 및 그 장치
WO2022019675A1 (ko) 시설 평면도에 포함된 기호 분석 장치 및 방법
WO2019132566A1 (ko) 멀티 심도 이미지의 자동 생성 방법
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
WO2022092743A1 (ko) 차량 번호판에서 문자를 추출하는 방법 및 상기 방법을 수행하는 번호판 문자 추출 장치
WO2021162237A1 (ko) 비디오로부터의 색상 스키마 추출 방법 및 장치
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
WO2019203489A1 (ko) 문자 인식을 위한 영상 전처리 장치 및 방법
WO2011093568A1 (ko) 레이아웃 기반의 인쇄매체 페이지 인식방법
Agrawal et al. Text extraction from images
WO2017099292A1 (ko) 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치
WO2019231162A1 (ko) 이미지 분할 방법 및 장치
KR102102394B1 (ko) 문자 인식을 위한 영상 전처리 장치 및 방법
JP3121466B2 (ja) 画像修正装置
Zedan et al. Caption detection, localization and type recognition in Arabic news video
JP2001209808A (ja) 物体抽出システムと方法並びに物体抽出用プログラムを記憶した記憶媒体
JP2001222717A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
WO2023149618A1 (ko) 저작권 소유 여부에 따른 디지털 참고서 제공 시스템 및 그 방법
JPH0589190A (ja) 図面情報のチエツク方式

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19788640

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19788640

Country of ref document: EP

Kind code of ref document: A1