KR20160053544A - Method for extracting candidate character - Google Patents

Method for extracting candidate character Download PDF

Info

Publication number
KR20160053544A
KR20160053544A KR1020140152746A KR20140152746A KR20160053544A KR 20160053544 A KR20160053544 A KR 20160053544A KR 1020140152746 A KR1020140152746 A KR 1020140152746A KR 20140152746 A KR20140152746 A KR 20140152746A KR 20160053544 A KR20160053544 A KR 20160053544A
Authority
KR
South Korea
Prior art keywords
character
value
division area
characteristic value
word
Prior art date
Application number
KR1020140152746A
Other languages
Korean (ko)
Inventor
이승원
Original Assignee
주식회사 디오텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 디오텍 filed Critical 주식회사 디오텍
Priority to KR1020140152746A priority Critical patent/KR20160053544A/en
Publication of KR20160053544A publication Critical patent/KR20160053544A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

The present invention relates to a method and an apparatus for extracting a candidate character. A method for extracting a candidate character according to the present invention includes the steps of: acquiring a text image which is to be converted into text data; generating a word division area by dividing a test line included in the text image in accordance with word, and generating a character division area by dividing the text line in accordance with character; calculating a characteristic value of each character on the basis of size information of the word division area and the character division area; and extracting the candidate character from a comparison character on the basis of a similarity score between the characteristic value of the character and a characteristic value of the comparison character stored in advance. The method has the effect of reflecting preference of a user and at the same time improving aesthetics of a digital ink text, using the size information of the word division area and the character division area.

Description

후보 문자의 추출 방법{METHOD FOR EXTRACTING CANDIDATE CHARACTER}{METHOD FOR EXTRACTING CANDIDATE CHARACTER}

본 발명은 후보 문자의 추출 방법 및 장치에 관한 것으로서, 보다 상세하게는 단어 분할 영역 및 문자 분할 영역에 대한 분석에 기초하여 산출된 특성값을 통해 후보 문자를 추출하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for extracting candidate characters, and more particularly, to a method and apparatus for extracting candidate characters through characteristic values calculated based on an analysis on a word division region and a character division region.

광학 문자 인식 (optical character recognition; OCR) 은 텍스트 형태의 이미지를 소정의 문자 인식 처리 과정을 거쳐 컴퓨터가 판독 가능한 텍스트 데이터로 변환하는 것을 의미한다. 광학 문자 인식은 전자 문서로 되어 있지 않는 하드 카피 문서 또는 텍스트가 포함된 전자적 이미지를 전자 문서로 변환하는 경우, 사용자가 직접 타이핑해야 하는 수작업 과정을 생략할 수 있으므로 널리 이용되고 있다. 그러나, 광학 문자 인식이란 이미지를 텍스트로 인식하는 것이므로 오류가 발생할 수 밖에 없는 바, 광학 문자 인식을 통한 문자의 오인식률을 낮추기 위한 연구 개발이 지속적으로 이루어지고 있다.Optical character recognition (OCR) refers to conversion of an image in the form of text into computer-readable text data through a predetermined character recognition process. Optical character recognition is widely used in the case of converting a hard copy document that is not an electronic document or an electronic image including text into an electronic document because the manual process that the user has to directly type can be omitted. However, since optical character recognition is an image in which the image is recognized as text, errors are incurred, and research and development for lowering the error recognition rate of characters through optical character recognition are continuously performed.

도 1은 종래 기술에 따른 광학 문자 인식 방법을 통한 처리 방법을 설명하기 위한 예시적인 화면 구성을 도시한다. 도 1에 도시된 바와 같이, 기존의 방법에 따르면 텍스트 이미지 (110) 에 포함된 문자들을 인식하기 위해 각각의 문자를 포함하는 영역인 문자 분할 영역을 생성한 후, 각각의 문자 분할 영역에 포함된 문자를 소정의 문자 인식 처리 과정을 거쳐 텍스트 데이터로 변환한다. 그러나, 종래 기술은 반점 (121) 과 작은 따옴표 (122) 및 언더바 (underbar) (131) 와 대쉬 (dash) (132) 등과 같이 그 형태는 비슷하나 텍스트 라인 상에서의 상대적 위치가 상이한 문자들을 오인식할 확률이 높다는 문제점이 있다. 또한, 대문자 “O” (141) 와 소문자 “o” (142) 등과 같이 그 형태는 비슷하나 크기가 상이한 문자들을 구별할 수 없고, 대문자 “O” (141) 와 숫자 “0”과 같이 그 형태는 비슷하나 문자의 종횡비가 상이한 문자들을 구별할 수 없다는 문제점이 있다.FIG. 1 illustrates an exemplary screen configuration for explaining a processing method using an optical character recognition method according to the related art. As shown in FIG. 1, in order to recognize characters included in the text image 110 according to the conventional method, a character division area, which is an area including each character, is generated, The character is converted into text data through a predetermined character recognition process. However, according to the prior art, characters having similar shapes but having different relative positions on a text line, such as a spot 121, a single quotation mark 122, an underbar 131 and a dash 132, There is a problem in that there is a high possibility of doing so. It is also possible to distinguish between similar-sized and different-sized characters, such as uppercase " O " 141 and lowercase " There is a problem in that characters having different aspect ratios can not be distinguished.

따라서, 문자의 텍스트 라인 상 위치, 문자의 크기 및 문자의 종횡비를 고려하여 형태가 유사한 문자들도 정확히 인식할 수 있는 방법 및 장치의 개발이 요구된다.Therefore, it is required to develop a method and apparatus capable of correctly recognizing characters having similar shapes in consideration of the position on the text line of the character, the size of the character, and the aspect ratio of the character.

본 발명이 해결하고자 하는 과제는 문자의 모양, 크기 및 위치 각각에 대한 특성값을 이용함으로써, 형태가 유사한 문자를 정확히 구별할 수 있는 후보 문자의 추출 방법을 제공하는 것이다.SUMMARY OF THE INVENTION The present invention provides a method of extracting candidate characters that can distinguish characters having similar shapes by using characteristic values for each shape, size, and position of characters.

본 발명이 해결하고자 하는 다른 과제는 각각의 문자에 대해 유사도가 높은 후보 문자를 추출하여 제공함으로써, 광학 문자 인식의 오인식률을 낮출 수 있는 후보 문자의 추출 방법을 제공하는 것이다.Another problem to be solved by the present invention is to provide a candidate character extraction method capable of lowering a false recognition rate of optical character recognition by extracting and providing candidate characters having high similarity for each character.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the above-mentioned problems, and other problems not mentioned can be clearly understood by those skilled in the art from the following description.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 후보 문자의 추출 방법은 텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득하는 단계, 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성하는 단계, 단어 분할 영역 및 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출하는 단계 및 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 비교 문자로부터 후보 문자를 추출하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of extracting candidate characters, including: obtaining a text image to be converted into text data; dividing a text line included in the text image into words, Generating a character segmentation area by dividing a text line by characters, calculating characteristic values of each character based on size information of the word segmentation area and the character segmentation area, And extracting the candidate character from the comparison character based on the similarity score between the characteristic values of the stored comparison character.

본 발명의 다른 특징에 따르면, 단어 분할 영역 및 문자 분할 영역은 직사각형 영역이고, 단어 분할 영역 및 문자 분할 영역의 크기 정보는 단어 분할 영역의 폭 및 높이 정보, 및 문자 분할 영역의 폭 및 높이 정보를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the word division area and the character division area are rectangular areas, and the size information of the word division area and the character division area includes width and height information of the word division area and width and height information of the character division area .

본 발명의 또 다른 특징에 따르면, 문자의 특성값은, 문자 분할 영역의 폭과 높이 사이의 관계를 나타내는 모양 특성값, 단어 분할 영역의 면적과 문자 분할 영역의 면적 사이의 관계를 나타내는 크기 특성값 및 단어 분할 영역 내에서의 문자 분할 영역의 수직 위치를 나타내는 위치 특성값을 포함하는 것을 특징으로 한다.According to still another aspect of the present invention, a characteristic value of a character includes a shape characteristic value indicating a relationship between a width and a height of a character division area, a size characteristic value indicating a relationship between the area of the word division area and the area of the character division area And a position characteristic value indicating a vertical position of the character division area in the word division area.

본 발명의 또 다른 특징에 따르면, 비교 문자의 특성값은, 비교 문자의 폰트별 모양 특성값, 폰트별 크기 특성값 및 폰트별 위치 특성값의 평균값 및 표준편차값인 것을 특징으로 한다.According to another aspect of the present invention, a characteristic value of a comparison character is an average value and a standard deviation value of a shape characteristic value of a font, a size characteristic value of each font, and a position characteristic value of each font.

본 발명의 또 다른 특징에 따르면, 유사도 점수는, 문자의 모양 특성값, 크기 특성값 및 위치 특성값으로 이루어진 제1 좌표와 비교 문자의 폰트별 모양 특성값의 평균값, 폰트별 크기 특성값의 평균값 및 폰트별 위치 특성값의 평균값으로 이루어진 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 한다.According to still another aspect of the present invention, the degree of similarity score includes a first coordinate made up of a shape property value, a size property value, and a position property value of a character and an average value of shape property values of fonts of a comparison character, And a distance between a second coordinate formed by an average value of the font-specific position characteristic values.

본 발명의 또 다른 특징에 따르면, 유사도 점수는, 비교 문자의 폰트별 모양 특성값의 표준편차값, 폰트별 크기 특성값의 표준편차값 및 폰트별 위치 특성값의 표준편차값에 각각 비례하는 가중치들이 적용된 제1 좌표와 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 한다.According to another aspect of the present invention, the similarity score is a weighting value that is proportional to the standard deviation value of the shape characteristic value of each font, the standard deviation value of the font characteristic value, and the standard deviation value of the position characteristic value of each font, Is calculated based on a distance between a first coordinate and a second coordinate to which the first and second coordinates are applied.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 후보 문자의 추출 장치는 텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득하는 획득부, 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성하는 생성부, 단어 분할 영역 및 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출하는 산출부 및 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 비교 문자로부터 후보 문자를 추출하는 추출부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an apparatus for extracting candidate characters, including an acquisition unit for acquiring a text image to be converted into text data, A generating unit for generating a divided area by dividing the text line by characters, a calculating unit for calculating a characteristic value of each character based on the size information of the word dividing area and the character dividing area, And extracting a candidate character from the comparison character based on the similarity score between the value of the comparison character and the characteristic value of the previously stored comparison character.

본 발명의 다른 특징에 따르면, 단어 분할 영역 및 문자 분할 영역은 직사각형 영역이고, 단어 분할 영역 및 문자 분할 영역의 크기 정보는 단어 분할 영역의 폭 및 높이 정보, 및 문자 분할 영역의 폭 및 높이 정보를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the word division area and the character division area are rectangular areas, and the size information of the word division area and the character division area includes width and height information of the word division area and width and height information of the character division area .

본 발명의 또 다른 특징에 따르면, 문자의 특성값은, 문자 분할 영역의 폭과 높이 사이의 관계를 나타내는 모양 특성값, 단어 분할 영역의 면적과 문자 분할 영역의 면적 사이의 관계를 나타내는 크기 특성값 및 단어 분할 영역 내에서의 문자 분할 영역의 수직 위치를 나타내는 위치 특성값을 포함하는 것을 특징으로 한다.According to still another aspect of the present invention, a characteristic value of a character includes a shape characteristic value indicating a relationship between a width and a height of a character division area, a size characteristic value indicating a relationship between the area of the word division area and the area of the character division area And a position characteristic value indicating a vertical position of the character division area in the word division area.

본 발명의 또 다른 특징에 따르면, 비교 문자의 특성값은, 비교 문자의 폰트별 모양 특성값, 크기 특성값 및 위치 특성값의 평균값 및 표준편차값인 것을 특징으로 한다.According to another aspect of the present invention, a characteristic value of a comparison character is an average value and a standard deviation value of a shape characteristic value, a size characteristic value, and a position characteristic value of a font of a comparison character.

본 발명의 또 다른 특징에 따르면, 유사도 점수는, 문자의 모양 특성값, 크기 특성값 및 위치 특성값으로 이루어진 제1 좌표와 비교 문자의 폰트별 모양 특성값의 평균값, 폰트별 크기 특성값의 평균값 및 폰트별 위치 특성값의 평균값으로 이루어진 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 한다.According to still another aspect of the present invention, the degree of similarity score includes a first coordinate made up of a shape property value, a size property value, and a position property value of a character and an average value of shape property values of fonts of a comparison character, And a distance between a second coordinate formed by an average value of the font-specific position characteristic values.

본 발명의 또 다른 특징에 따르면, 유사도 점수는, 비교 문자의 폰트별 모양 특성값의 표준편차값, 폰트별 크기 특성값의 표준편차값 및 폰트별 위치 특성값의 표준편차값에 각각 비례하는 가중치들이 적용된 제1 좌표와 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 한다.According to another aspect of the present invention, the similarity score is a weighting value that is proportional to the standard deviation value of the shape characteristic value of each font, the standard deviation value of the font characteristic value, and the standard deviation value of the position characteristic value of each font, Is calculated based on a distance between a first coordinate and a second coordinate to which the first and second coordinates are applied.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 컴퓨터 판독 가능 매체는 텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득하고, 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성하고, 단어 분할 영역 및 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출하고, 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 비교 문자로부터 후보 문자를 추출하는 명령어들의 세트를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a computer-readable medium for obtaining a text image to be converted into text data, dividing a text line included in the text image into words, A character segmentation area is generated by dividing the text line by characters, a characteristic value of each character is calculated based on the size information of the word segmentation area and the character segmentation area, and the characteristic value of the character is compared with the previously stored comparison character And a set of instructions for extracting the candidate character from the comparison character based on the similarity score between the characteristic values.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.The details of other embodiments are included in the detailed description and drawings.

본 발명은 각각의 단어를 포함하는 단어 분할 영역 및 각각의 문자를 포함하는 문자 분할 영역의 크기 정보에 기초하여 산출된 각각의 문자의 특성값을 이용함으로써, 형태가 유사한 문자를 정확히 구별할 수 있는 효과가 있다.The present invention uses characteristic values of each character calculated on the basis of size information of a word division area including each word and a character division area including each character so that characters having similar shapes can be accurately distinguished It is effective.

본 발명은 각각의 문자에 대해 유사도가 높은 후보 문자를 추출한 후 추출된 후보 문자를 제공함으로써, 오인식률을 낮추어 광학 문자 인식의 성능을 향상시킬 수 있는 후보 문자의 추출 방법을 제공할 수 있는 효과가 있다.The present invention provides an extraction method of a candidate character that can improve the performance of optical character recognition by lowering the false recognition rate by providing candidate characters extracted after extracting candidate characters having high similarity with respect to each character have.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.The effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the specification.

도 1은 종래 기술에 따른 광학 문자 인식 방법을 통한 처리 방법을 설명하기 위한 예시적인 화면 구성을 도시한다.
도 2는 본 발명의 일 실시예에 따른 후보 문자의 추출 장치의 개략적인 구성도이다.
도 3은 본 발명의 일 실시예에 따른 후보 문자의 추출 방법을 설명하기 위한 순서도이다.
도 4a 내지 도 4e는 본 발명의 일 실시예에 따른 후보 문자의 추출 방법에 따라 구현된 예시적인 실시예를 도시한다.
FIG. 1 illustrates an exemplary screen configuration for explaining a processing method using an optical character recognition method according to the related art.
2 is a schematic block diagram of an apparatus for extracting candidate characters according to an embodiment of the present invention.
3 is a flowchart for explaining a candidate character extraction method according to an embodiment of the present invention.
4A to 4E illustrate an exemplary embodiment implemented according to a candidate character extraction method according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention, and the manner of achieving them, will be apparent from and elucidated with reference to the embodiments described hereinafter in conjunction with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.Although the first, second, etc. are used to describe various components, it goes without saying that these components are not limited by these terms. These terms are used only to distinguish one component from another. Therefore, it goes without saying that the first component mentioned below may be the second component within the technical scope of the present invention.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Like reference numerals refer to like elements throughout the specification.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.It is to be understood that each of the features of the various embodiments of the present invention may be combined or combined with each other partially or entirely and technically various interlocking and driving is possible as will be appreciated by those skilled in the art, It may be possible to cooperate with each other in association.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings.

본 명세서에서 “문자 (character)”란 특정 문서를 분석하여 분할할 수 있는 최소 단위의 기호를 의미한다. 예를 들어, “DioLense”에서 문자란 “D”, “i”, “o”, “L”, “e”, “n”, “s” 및 “e” 각각을 지칭한다. 문자는 숫자, 부호 및 특수문자를 포함한다.As used herein, the term " character " refers to a minimum unit symbol capable of analyzing and dividing a specific document. For example, in " DioLense ", the letters " D ", " i ", " o ", " L ", " e ", " n " Characters include numbers, signs, and special characters.

본 명세서에서 “단어 (word)”란 일정 이상의 공백을 포함하지 않는 문자의 집합을 의미한다. 예를 들어, “OCR_ App, -DioLense”에서 단어란 “OCR_”, “App,” 및 “DioLense” 각각을 지칭한다.As used herein, the term " word " refers to a set of characters that does not contain any spaces or spaces. For example, the words " OCR_ ", " App, " and " DioLense "

본 명세서에 있어서 “텍스트 (text)”란 특정 문서에 포함된 문자 전체를 의미한다. 텍스트는 하나 이상의 단어의 집합으로 구성될 수 있다.As used herein, the term " text " means the entire character included in a specific document. A text can consist of a set of one or more words.

도 2는 본 발명의 일 실시예에 따른 후보 문자의 추출 장치의 개략적인 구성도이다. 도 2를 참조하면, 후보 문자의 추출 장치 (200) 는 획득부 (210), 생성부 (220), 산출부 (230) 및 추출부 (240) 를 포함한다.2 is a schematic block diagram of an apparatus for extracting candidate characters according to an embodiment of the present invention. 2, the candidate character extracting apparatus 200 includes an acquiring unit 210, a generating unit 220, a calculating unit 230, and an extracting unit 240.

후보 문자의 추출 장치 (200) 는 텍스트 이미지에 포함된 각각의 문자의 특성값에 기초하여 후보 문자를 추출하고, 추출된 후보 문자를 제공함으로써 광학 문자 인식의 정확도를 향상시키기 위한 장치이다. 후보 문자의 추출 장치 (200) 는 광학 문자 인식이 가능한 컴퓨터 장치로서 프로세서 및 메모리를 포함하는 컴퓨터, 스마트폰, 노트패드, 노트북 또는 태블릿 PC 등의 단말일 수 있고, 상술한 단말에 탑재되는 모듈일 수도 있다.The apparatus for extracting candidate characters 200 is a device for extracting candidate characters based on characteristic values of respective characters included in a text image and providing extracted candidate characters to improve the accuracy of optical character recognition. The candidate character extracting apparatus 200 may be a computer including a processor and a memory, a terminal such as a smart phone, a note pad, a notebook computer, a tablet PC, or the like, It is possible.

획득부 (210) 는 텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득한다. 획득부 (210) 는 저장부 또는, 카메라 또는 스캐너 등과 같은 입력부와 연결될 수 있다. 획득부 (210) 는 저장부에 저장된 텍스트 이미지를 획득할 수도 있고, 입력부를 통해 입력된 텍스트 이미지를 획득할 수도 있다. The acquiring unit 210 acquires a text image to be converted into text data. The acquiring unit 210 may be connected to a storage unit or an input unit such as a camera or a scanner. The acquiring unit 210 may acquire a text image stored in the storage unit and acquire a text image input through the input unit.

생성부 (220) 는 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성한다. 생성부 (220) 는 획득부 (210) 에 의해 획득된 텍스트 이미지를 문자와 문자 간의 거리에 기초하여 분석함으로써 각각의 단어를 포함하는 단어 분할 영역 및 각각의 문자를 포함하는 문자 분할 영역을 생성할 수 있다.The generating unit 220 generates a word dividing region by dividing a text line included in the text image into words, and divides the text line by characters to generate a character dividing region. The generating unit 220 analyzes the text image obtained by the obtaining unit 210 based on the distance between the characters and the characters to generate a word dividing region including each word and a character dividing region including each character .

산출부 (230) 는 단어 분할 영역 및 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출한다. 산출부 (230) 는 생성부 (220) 에 의해 생성된 단어 분할 영역 및 문자 분할 영역의 폭 및 높이를 미리 정의된 수식에 대입하여 문자의 특성값을 산출할 수 있다.The calculating unit 230 calculates the characteristic value of each character based on the size information of the word dividing area and the character dividing area. The calculating unit 230 may calculate the characteristic value of the character by substituting the width and height of the word dividing region and the character dividing region generated by the generating unit 220 into a predefined formula.

추출부 (240) 는 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 비교 문자로부터 후보 문자를 추출한다. 추출부 (240) 는 산출부 (230) 에 의해 산출된 문자의 특성값과 저장부에 저장된 비교 문자의 특성값을 대입하여 산출된 유사도 점수가 미리 설정된 기준을 충족하는 비교 문자를 후보 문자로서 추출할 수 있다. The extracting unit 240 extracts the candidate character from the comparison character based on the similarity score between the characteristic value of the character and the property value of the previously stored comparison character. The extraction unit 240 extracts a comparison character, which is calculated by substituting the characteristic value of the character calculated by the calculation unit 230 and the characteristic value of the comparison character stored in the storage unit, can do.

도 2에서는 식별의 편의를 위해 후보 문자의 추출 방법 (200) 내에 획득부 (210), 생성부 (220), 산출부 (230) 및 추출부 (240) 가 개별적인 구성으로 도시되었으나, 각각의 부는 구현 방법 또는 본 발명의 실시예에 따라 하나의 통합적인 형태의 프로세서로 구현될 수도 있고 분리적 형태로 설계 구현될 수도 있다.Although the obtaining unit 210, the generating unit 220, the calculating unit 230, and the extracting unit 240 are shown separately in the candidate character extracting method 200 for the convenience of identification in FIG. 2, May be implemented in one integrated processor or in a separate form according to an implementation method or an embodiment of the present invention.

도 3은 본 발명의 일 실시예에 따른 후보 문자의 추출 방법을 설명하기 위한 순서도이다. 설명의 편의를 위해 도 2를 참조하여 설명한다.3 is a flowchart for explaining a candidate character extraction method according to an embodiment of the present invention. Will be described with reference to Fig. 2 for convenience of explanation.

본 발명의 일 실시예에 따른 후보 문자의 추출 방법은 획득부 (210) 가 텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득함으로써 개시된다 (S310). 획득부 (210) 는 저장부에 저장된 이미지 중 사용자에 의해 선택된 특정 이미지를 텍스트 이미지로서 획득할 수도 있다. 획득부 (210) 는 카메라 또는 스캐너 등과 같은 입력부를 통해 입력된 이미지를 텍스트 이미지로서 획득할 수도 있다. 텍스트 데이터는 유니코드 (Unicode) 등과 같은 문자 코드로 구성된 데이터를 의미한다. 텍스트 이미지는 텍스트 데이터가 아닌 이미지 데이터로 그려진 텍스트를 포함하는 이미지 파일을 의미한다. 텍스트 이미지는, 예를 들어, “jpg”, “bmp”, “png”, “tif” 및 “pdf” 등과 같은 파일 포맷을 가질 수도 있다.The candidate character extraction method according to an embodiment of the present invention starts by acquiring a text image that the acquisition unit 210 intends to convert into text data (S310). The acquiring unit 210 may acquire, as a text image, a specific image selected by the user among the images stored in the storing unit. The acquiring unit 210 may acquire an image input through a input unit such as a camera or a scanner as a text image. Text data refers to data composed of character codes such as Unicode. A text image refers to an image file that contains text drawn as image data rather than text data. The text image may have a file format such as " jpg ", " bmp ", " png ", " tif &

다음으로, 생성부 (220) 는 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성한다 (S320). 구체적으로, 생성부 (220) 는 텍스트 이미지를 분석하여 텍스트 이미지를 가로지르는 직선 형태의 공백이 포함된 부분을 분할함으로써, 텍스트 이미지를 라인별로 분할할 수 있다. 생성부 (220) 는 라인별로 분할된 텍스트 이미지를 분석하여 단어를 분할하기 위한 기준 이상의 공백이 포함된 부분을 분할함으로써, 라인별로 분할된 텍스트 이미지를 단어별로 분할할 수 있다. 생성부 (220) 는 분할된 단어를 각각 포함하는 영역인 단어 분할 영역을 생성할 수 있다. 생성부 (220) 는 단어별로 분할된 텍스트 이미지를 분석하여 문자를 분할하기 위한 기준 이상의 공백이 포함된 부분을 분할함으로써, 단어별로 분할된 텍스트 이미지를 문자별로 분할할 수 있다. 생성부 (220) 는 분할된 문자를 각각 포함하는 영역인 문자 분할 영역을 생성할 수 있다. 생성부 (220) 는 텍스트 이미지의 어두운 부분과 밝은 부분을 인식함으로써, 텍스트 이미지를 라인별, 단어별 그리고 문자별로 분할할 수 있다.Next, the generating unit 220 generates a word dividing region by dividing the text lines included in the text image into words, and divides the text lines by characters to generate a character dividing region (S320). Specifically, the generating unit 220 may divide a text image into lines by dividing a portion including a straight line-shaped blank that traverses the text image by analyzing the text image. The generating unit 220 may divide a text image segmented by lines into words by dividing a portion including a blank more than a reference for dividing a word by analyzing the text image divided into lines. The generation unit 220 may generate a word division area, which is an area including the divided words, respectively. The generating unit 220 may divide a text image segmented by words into characters, by dividing a portion including spaces equal to or greater than a criterion for dividing a character by analyzing a text image divided into words. The generation unit 220 can generate a character division area, which is an area including the divided characters, respectively. The generation unit 220 can recognize a dark portion and a bright portion of a text image, thereby dividing the text image into lines, words, and characters.

다음으로, 산출부 (230) 는 문자가 포함된 단어 분할 영역 및 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출한다 (S330). 산출부 (230) 는 단어 분할 영역 및 문자 분할 영역의 폭, 높이 및 넓이 등을 알 수 있는 크기 정보를 추출한 후, 추출된 크기 정보를 미리 저장된 수식에 대입하여 각각의 문자에 대한 특성값을 산출할 수 있다. 예를 들어, 단어 분할 영역 및 문자 분할 영역이 직사각형 영역인 경우, 산출부 (230) 는 단어 분할 영역 및 문자 분할 영역의 크기 정보로서 단어 분할 영역의 폭 및 높이 정보, 및 문자 분할 영역의 폭 및 높이 정보를 산출할 수도 있다.Next, the calculation unit 230 calculates the characteristic values of the respective characters based on the size information of the word division area and the character division area including the characters (S330). The calculating unit 230 extracts size information that can be used to know the width, height, and width of the word dividing region and the character dividing region, and then substitutes the extracted size information into a previously stored formula to calculate a characteristic value for each character can do. For example, when the word division area and the character division area are rectangular areas, the calculation section 230 calculates the width and height information of the word division area as the size information of the word division area and the character division area, The height information may be calculated.

본 발명의 일 실시예에 따르면, 문자의 특성값은 문자의 모양 특성값, 크기 특성값 및 위치 특성값을 포함할 수도 있다. 문자의 모양 특성값은 문자가 포함된 문자 분할 영역의 종횡비를 나타내는 값을 의미한다. 문자의 크기 특성값은 문자가 포함된 단어 분할 영역의 높이와 문자가 포함된 문자 분할 영역의 면적의 비율을 나타내는 값을 의미한다. 문자의 위치 특성 값은 문자가 포함된 단어 분할 영역 내에서 문자가 포함된 문자 분할 영역의 상대적 위치를 나타내는 값을 의미한다. 문자의 모양, 크기 및 위치와 관련된 특성값을 이용함으로써, 형태는 유사하나 모양, 크기 또는 위치가 상이한 문자를 구별할 수 있다는 본 발명의 유리한 효과가 획득된다.According to an embodiment of the present invention, the character characteristic value may include a shape characteristic value, a size characteristic value, and a position characteristic value of a character. The shape property value of a character means a value representing the aspect ratio of a character segment including the character. The size property value of a character means a value indicating the ratio of the height of a word segment including the character to the area of the character segment including the character. The position property value of a character means a value indicating a relative position of a character division area including a character in a word division area including a character. By taking advantage of the character values associated with the shape, size and position of the characters, the advantageous effect of the present invention is obtained that the characters are different in shape, size or position but different in shape.

문자의 모양 특성값, 크기 특성값 및 위치 특성값을 산출하는 예시적인 수학식은 다음과 같다.An exemplary equation for calculating the shape property value, the size property value, and the position property value of a character is as follows.

Figure pat00001
Figure pat00001

여기서, Fs는 문자의 모양 특성값을 의미하고, Fz는 문자의 크기 특성값을 의미하고, Fl은 문자의 위치 특성값을 의미한다. a는 문자 분할 영역의 높이를 의미하고, b는 문자 분할영역의 폭을 의미한다. h는 단어 분할 영역의 높이를 의미한다. d는 문자 분할 영역 상단과 단어 분할 영역 상단 사이의 거리를 의미한다.Here, F s denotes the shape property value of the character, F z denotes the size property value of the character, and F l denotes the position property value of the character. a denotes the height of the character division area, and b denotes the width of the character division area. and h denotes the height of the word segment. d is the distance between the top of the character segment and the top of the word segment.

수학식 1에 따르면, 모양 특성값, 크기 특성값 및 위치 특성값은 각각 0 내지 1의 값을 갖는다. 모양 특성값은 문자 분할 영역이 가로로 길수록 큰 값을 갖고, 크기 특성값은 문자 분할 영역의 넓이가 넓을수록 큰 값을 갖고, 위치 특성 값은 문자 분할 영역이 단어 분할 영역 내에서 아래쪽에 위치할수록 큰 값을 갖는다.According to Equation (1), the shape characteristic value, the magnitude characteristic value, and the position characteristic value have values of 0 to 1, respectively. The shape property value has a larger value as the character division area is wider, and the size property value has a larger value as the area of the character division area is wider. The position property value indicates that the character division area is located at the lower part in the word division area It has a large value.

다음으로, 추출부 (240) 는 문자 분할 영역 내 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 비교 문자로부터 후보 문자를 추출한다 (S340). 추출부 (240) 는 산출부 (230) 에 의해 산출된 문자의 특성값과 저장부에 미리 저장된 비교 문자의 특성값을 대입하여 유사도 점수를 산출할 수 있고, 산출된 유사도 점수가 미리 설정된 기준을 충족하는 비교 문자들을 후보 문자로서 추출할 수 있다. 비교 문자는 문자 분할 영역 내의 문자를 인식하기 위해서 문자 분할 영역 내의 문자와 비교되는 모든 문자를 의미하며, 예를 들어, 영어의 경우 알파벳을 이루는 모든 낱자들을 의미한다. 추출된 후보 문자에 기초하여 문자 인식을 수행함으로써, 광학 문자 인식의 오인식률을 낮출 수 있다는 본 발명의 유리한 효과가 획득된다.Next, the extracting unit 240 extracts the candidate character from the comparison character based on the similarity score between the characteristic value of the character in the character division area and the characteristic value of the previously stored comparison character (S340). The extraction unit 240 may calculate the similarity score by substituting the characteristic value of the character calculated by the calculation unit 230 and the characteristic value of the comparison character stored in advance in the storage unit, And the comparison characters that meet are extracted as candidate characters. The comparison character means all characters which are compared with the characters in the character division area in order to recognize the characters in the character division area, for example, all the letters constituting the alphabet in English. The advantageous effect of the present invention that the misrecognition rate of optical character recognition can be lowered is achieved by performing character recognition based on the extracted candidate characters.

본 발명의 일 실시예에 따르면, 비교 문자의 특성값은 비교 문자의 폰트별 모양 특성값, 폰트별 크기 특성값 및 폰트별 위치 특성값의 평균값 및 표준편차값일 수도 있다. 비교 문자의 모양 특성값, 크기 특성값 및 위치 특성값은 특정 폰트 타입에서 특정 비교 문자의 모양 특성값, 크기 특성값 및 위치 특성값을 의미한다. 비교 문자의 폰트별 특성값의 평균값은 모든 폰트 타입에 대한 특정 비교 문자의 특성값들에 대한 평균값을 의미한다. 비교 문자의 폰트별 특성값의 표준편차값은 모든 폰트 타입에 대한 특정 비교 문자의 특성값들에 대한 표준편차값을 의미한다. 비교 문자의 폰트별 모양 특성값, 폰트별 크기 특성값 및 폰트별 위치 특성값의 평균값 및 표준편차값을 계산하는 수학식은 다음과 같다.According to an embodiment of the present invention, the characteristic value of the comparison character may be an average value and a standard deviation value of the shape characteristic value of the comparison character, the size characteristic value of each font, and the position characteristic value of each font. The shape property value, the size property value, and the position property value of the comparison character mean shape property value, size property value, and position property value of a specific comparison character in a specific font type. The average value of the font-specific property values of the comparison character means an average value of the property values of the specific comparison character for all the font types. The standard deviation value of the font characteristic value of the comparison character means a standard deviation value of the characteristic value of the specific comparison character for all the font types. The average value and the standard deviation value of the font star shape property value, the font size property value, and the font position property value of the comparison character are calculated as follows.

Figure pat00002
Figure pat00002

여기서, Fs(c,f)는 폰트 타입이 “f”인 경우 비교 문자 “c”의 모양 특성값을 의미하고, Fz(c,f)는 폰트 타입이 “f”인 경우 비교 문자 “c”의 크기 특성값을 의미하고, Fl(c,f)는 폰트 타입이 “f”인 경우 비교 문자 “c”의 위치 특성값을 의미한다. Fs(c)는 비교 문자 “c”의 폰트별 모양 특성값의 평균값을 의미하고, Fz(c)는 비교 문자 “c”의 폰트별 크기 특성값의 평균값을 의미하고, Fl(c)는 비교 문자 “c”의 폰트별 위치 특성값의 평균값을 의미한다. Es(c)는 비교 문자 “c”의 폰트별 모양 특성값의 표준편차값을 의미하고, Ez(c)는 비교 문자 “c”의 폰트별 크기 특성값의 표준편차값을 의미하고, El(c)는 비교 문자 “c”의 폰트별 위치 특성값의 표준편차값을 의미한다. “f”는 각각의 폰트 타입과 대응하는 정수로서, 폰트 타입이 n개인 경우 “f”는 1 내지 n의 정수값을 갖는다.Here, F s (c, f) is the case means that the shape feature values of the comparison character "c", if the font type is "f", and F z (c, f) is the font type is "f" comparison character "quot; c " when the font type is " f ", and F l (c, f) means the size property value of the comparison character " c " F s (c) denotes an average value of the font star shape feature values of the comparison character "c", and F z (c) compares the character "c" of the mean average value of the font specific size value, and F l (c ) Represents an average value of positional property values of the font of the comparison character " c ". E s (c) represents the standard deviation value of the font characteristic value of the comparison character " c ", E z (c) E l (c) represents the standard deviation value of the position characteristic value of the font of the comparison character " c "."F" is an integer corresponding to each font type, and when the font type is n, "f" has an integer value from 1 to n.

본 발명의 일 실시예에 따르면, 유사도 점수는 문자 분할 영역 내 문자의 특성값으로 이루어진 제1 좌표와 비교 문자의 특성값으로 이루어진 제2 좌표 사이의 거리에 기초하여 산출될 수도 있다. 제1 좌표는 문자 분할 영역 내 문자의 모양 특성값, 크기 특성값 및 위치 특성값을 성분으로 가질 수 있고, 제2 좌표는 특정한 비교 문자의 폰트별 모양 특성값, 크기 특성값 및 위치 특성값 각각의 평균값을 성분으로 가질 수 있다. 추출부 (240) 는 문자 분할 영역 내 문자에 대한 유사도 점수가 1 이하인 비교 문자를 후보 문자로서 추출할 수도 있다. 제1 좌표와 제2 좌표 사이의 거리에 기초하여 유사도 점수를 산출하는 예시적인 수학식은 다음과 같다.According to an embodiment of the present invention, the similarity score may be calculated on the basis of the distance between the first coordinate made of the characteristic value of the character in the character division area and the second coordinate made of the characteristic value of the comparison character. The first coordinate may have a shape property value, a magnitude characteristic value, and a position property value of a character in a character division area, and the second coordinate may have a shape characteristic value, a magnitude characteristic value, and a position characteristic value As a component. The extracting unit 240 may extract a comparison character having a similarity degree score of 1 or less as a candidate character in the character division area. An exemplary equation for calculating the similarity score based on the distance between the first coordinate and the second coordinate is as follows.

Figure pat00003
Figure pat00003

추출부 (240) 는 상기 수학식 3을 만족하는 비교 문자 “c”를 후보문자로서 추출할 수 있다.The extracting unit 240 may extract the comparison character " c " that satisfies the expression (3) as a candidate character.

본 발명의 일 실시예에 따르면, 유사도 점수는 비교 문자의 폰트별 모양 특성값의 표준편차값, 폰트별 크기 특성값의 표준편차값 및 폰트별 위치 특성값의 표준편차값에 각각 비례하는 가중치들이 적용된 제1 좌표와 제2 좌표 사이의 거리에 기초하여 산출될 수도 있다. 표준편차값이 큰 성분의 경우 가중치를 적용함으로써 유사도 점수에 미치는 영향을 감소시킬 수 있다. 추출부 (240) 는 문자 분할 영역 내 문자에 대한 유사도 점수가 1 이하인 비교 문자를 후보 문자로서 추출할 수도 있다. 가중치를 적용하여 유사도 점수를 산출하는 예시적인 수학식은 다음과 같다.According to an embodiment of the present invention, the similarity score is weighted in proportion to the standard deviation value of the shape characteristic value of the comparison character, the standard deviation value of the size characteristic value of each font, and the standard deviation value of the position characteristic value of each font And may be calculated based on the distance between the applied first coordinate and the second coordinate. For components with large standard deviation values, weights can be applied to reduce the effect on the similarity score. The extracting unit 240 may extract a comparison character having a similarity degree score of 1 or less as a candidate character in the character division area. An exemplary equation for calculating the similarity score by applying the weights is as follows.

Figure pat00004
Figure pat00004

여기서, T는 임계값으로서 가중치를 조절하기 위해 사용자에 의해 설정되는 임의의 값이다.Where T is any value set by the user to adjust the weight as a threshold value.

추출부 (240) 는 상기 수학식 4를 만족하는 비교 문자 “c”를 후보문자로서 추출할 수 있다.The extracting unit 240 may extract the comparison character " c " that satisfies the above-described expression (4) as a candidate character.

도 4a 내지 도 4e는 본 발명의 일 실시예에 따른 후보 문자의 추출 방법에 따라 구현된 예시적인 실시예를 도시한다. 설명의 편의를 위해 도 2를 참조하여 설명한다.4A to 4E illustrate an exemplary embodiment implemented according to a candidate character extraction method according to an embodiment of the present invention. Will be described with reference to Fig. 2 for convenience of explanation.

도 4a를 참조하면, 획득부 (210) 는 텍스트 데이터로 변환하고자 하는 텍스트 이미지 (410) 를 획득한다. 생성부 (220) 는 획득된 텍스트 이미지 (410) 중 “'OCR_ App, -DioLense'”부분을 분할할 수 있다.Referring to FIG. 4A, the acquiring unit 210 acquires a text image 410 to be converted into text data. The generating unit 220 may divide the 'OCR_ App, -DioLense' 'portion of the obtained text image 410.

도 4b를 참조하면, 생성부 (220) 는 “'OCR_ App, -DioLense'”에서 일정 이상의 공백이 있는 부분을 분할하여 단어 분할 영역 (420) 을 생성한다. 단어 분할 영역 (420) 은 각각 단어 “'OCR_”, “App,” 및 “-DioLense'”를 포함한다.Referring to FIG. 4B, the generating unit 220 generates a word dividing region 420 by dividing a portion having a predetermined number of spaces in '' OCR_ App, -DioLense ''. Word partition 420 includes the words " OCR_ ", " App, " and " -DioLense ".

도 4c를 참조하면, 생성부 (220) 는 “'OCR_”, “App,” 및 “-DioLense'”에서 일정 이상의 공백이 있는 부분을 분할하여 문자 분할 영역 (430) 을 생성한다. 단어 “App,”를 포함하는 단어 분할 영역 (420) 에는 문자 “A”, “p”, “p” 및 반점 ( , ) 을 포함하는 문자 분할 영역 (430) 이 포함된다.Referring to FIG. 4C, the generation unit 220 generates a character region 430 by dividing a portion having a certain number of spaces in "OCR_", "App," and "-DioLense". The word dividing region 420 including the word " App, " includes a character dividing region 430 including characters " A ", " p ", " p "

도 4d를 참조하면, 산출부 (230) 는 문자 “p”가 포함된 문자 분할 영역 (430) 의 폭 (b1) 및 높이 (a1), 문자 “p”가 포함된 단어 분할 영역 (420) 의 높이 (h) 및 문자 “p”가 포함된 문자 분할 영역 (430) 의 상단과 단어 분할 영역 (420) 상단의 거리 (d1) 에 기초하여 문자 “p”의 모양 특성값, 크기 특성값 및 위치 특성값을 산출할 수 있다.4D, the calculation unit 230 calculates the width b1 and height a1 of the character division area 430 including the character " p ", the width of the word division area 420 including the character " A shape property value, a size property value, and a position property value of the character " p " based on the distance d1 between the top of the character division area 430 including the height h and the character & The characteristic value can be calculated.

추출부 (240) 는 문자 “p” 특성값들과 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 후보 문자를 추출할 수 있다. 추출부 (240) 는, 예를 들어, 후보 문자로서 문자 “p”에 대하여 유사도 점수가 낮은 특성값을 갖는 비교 문자인 “g”, “p”, “q” 및 “y”를 후보 문자로서 추출할 수 있다. 후보 문자를 이용하여 문자를 인식하는 경우, 문자 “p”를 후보 문자인 “g”, “p”, “q” 및 “y” 중 하나로 인식함으로써, 광학 문자 인식의 오인식률을 낮출 수 있다.The extracting unit 240 may extract candidate characters based on the similarity score between the character " p " characteristic values and the characteristic value of the stored comparison character. The extracting unit 240 extracts the comparison characters "g", "p", "q", and "y" having the characteristic value having a low similarity score with respect to the character "p" Can be extracted. The recognition accuracy of the optical character recognition can be lowered by recognizing the character "p" as one of the candidate characters "g", "p", "q" and "y" when recognizing the character using the candidate character.

도 4e를 참조하면, 산출부 (230) 는 반점 ( , ) 이 포함된 문자 분할 영역 (430) 의 폭 (b2) 및 높이 (a2), 반점 ( , ) 이 포함된 단어 분할 영역 (420) 의 높이 (h) 및 반점 ( , ) 이 포함된 문자 분할 영역 (430) 상단과 단어 분할 영역 (420) 상단의 거리 (d2) 에 기초하여 반점 ( , ) 의 모양 특성값, 크기 특성값 및 위치 특성값을 산출할 수 있다.Referring to FIG. 4E, the calculation unit 230 calculates the width b2 and the height a2 of the character division area 430 including the spots a1 and a2, A shape characteristic value, a size characteristic value, and a position characteristic of a spot (,) based on the distance d2 between the upper end of the character segment area 430 including the height h and the spots Value can be calculated.

추출부 (240) 는 반점 ( , ) 의 특성값들과 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 후보 문자를 추출할 수 있다. 추출부 (240) 는, 예를 들어, 반점 ( , ) 에 대하여 유사도 점수가 낮은 특성값을 갖는 비교 문자인 반점 ( , ), 온점 ( . ) 및 고리점 ( 。) 을 후보 문자로서 추출할 수 있다. 후보 문자를 이용하여 문자를 인식하는 경우, 반점 ( , ) 을 후보 문자인 반점 ( , ), 온점 ( . ), 및 고리점 ( 。) 중 하나로 인식함으로써, 반점 ( , ) 이 유사한 형태를 갖는 작은 따옴표 ( ' ) 등으로 오인식되는 확률을 감소시킬 수 있다.The extracting unit 240 may extract the candidate character based on the similarity score between the characteristic values of the spot (,) and the characteristic value of the stored comparison character. The extracting unit 240 can extract, as candidates, characters (,), points (.), And an anchor point (.), Which are comparative characters having a characteristic value having a low similarity score with respect to a spot . When a character is recognized using a candidate character, the spot (,) is recognized as one of candidate characters (,), an on-point (.), And an anchor (.), (') And so on.

상술한 바와 같이, 각각의 문자에 대해 유사도가 높은 후보 문자를 추출한 후 추출된 후보 문자를 제공함으로써, 문자의 오인식률을 낮추어 광학 문자 인식의 성능을 향상시킬 수 있다는 본 발명의 유리한 효과가 획득된다.As described above, the advantageous effect of the present invention is obtained that the performance of optical character recognition can be improved by lowering the false recognition rate of characters by providing candidate characters extracted after extracting candidate characters having high similarity with respect to each character .

본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.In this specification, each block or each step may represent a part of a module, segment or code that includes one or more executable instructions for executing the specified logical function (s). It should also be noted that in some alternative embodiments, the functions mentioned in the blocks or steps may occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially concurrently, or the blocks or steps may sometimes be performed in reverse order according to the corresponding function.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.The steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, in a software module executed by a processor, or in a combination of the two. The software module may reside in a RAM memory, a flash memory, a ROM memory, an EPROM memory, an EEPROM memory, a register, a hard disk, a removable disk, a CD-ROM or any other form of storage medium known in the art. An exemplary storage medium is coupled to the processor, which is capable of reading information from, and writing information to, the storage medium. Alternatively, the storage medium may be integral with the processor. The processor and the storage medium may reside within an application specific integrated circuit (ASIC). The ASIC may reside within the user terminal. Alternatively, the processor and the storage medium may reside as discrete components in a user terminal.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present invention have been described in detail with reference to the accompanying drawings, it is to be understood that the present invention is not limited to those embodiments and various changes and modifications may be made without departing from the scope of the present invention. . Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. Therefore, it should be understood that the above-described embodiments are illustrative in all aspects and not restrictive. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

110 텍스트 이미지
121 반점
122 작은 따옴표
131 언더바
132 대쉬
141 대문자 “O”
142 소문자 “o”
200 후보 문자 추출 장치
210 획득부
220 생성부
230 산출부
240 추출부
410 텍스트 이미지
420 단어 분할 영역
430 문자 분할 영역
a1, a2 문자 분할 영역의 높이
b1, b2 문자 분할 영역의 폭
h 단어 분할 영역의 높이
d1, d2 단어 분할 영역 상단과 문자 분할 영역 상단의 거리
110 text images
121 spots
122 single quotes
131 under bars
132 Dash
141 Uppercase "O"
142 Lower case "o"
200 Candidate character extraction device
210 acquiring unit
220 generating unit
230 Calculator
240 extraction unit
410 text images
420 word segment
430 character area
a1, a2 Height of the text area
b1, b2 width of character division area
h Height of the word segment
d1, d2 Distance between top of word segment and top of character segment

Claims (13)

텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득하는 단계;
상기 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 상기 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성하는 단계;
상기 단어 분할 영역 및 상기 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출하는 단계; 및
상기 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 상기 비교 문자로부터 후보 문자를 추출하는 단계를 포함하는 것을 특징으로 하는, 후보 문자의 추출 방법.
Obtaining a text image to be converted into text data;
Generating a word division area by dividing a text line included in the text image into words, and dividing the text line by characters to generate a character division area;
Calculating characteristic values of each character based on the size information of the word division area and the character division area; And
And extracting a candidate character from the comparison character based on a similarity score between a characteristic value of the character and a characteristic value of a previously stored comparison character.
제 1 항에 있어서,
상기 단어 분할 영역 및 상기 문자 분할 영역은 직사각형 영역이고,
상기 단어 분할 영역 및 상기 문자 분할 영역의 크기 정보는 상기 단어 분할 영역의 폭 및 높이 정보, 및 상기 문자 분할 영역의 폭 및 높이 정보를 포함하는 것을 특징으로 하는, 후보 문자의 추출 방법.
The method according to claim 1,
Wherein the word dividing region and the character dividing region are rectangular regions,
Wherein the size information of the word dividing region and the character dividing region includes width and height information of the word dividing region and width and height information of the character dividing region.
제 1 항에 있어서,
상기 문자의 특성값은,
상기 문자 분할 영역의 폭과 높이 사이의 관계를 나타내는 모양 특성값,
상기 단어 분할 영역의 면적과 상기 문자 분할 영역의 면적 사이의 관계를 나타내는 크기 특성값 및
상기 단어 분할 영역 내에서의 상기 문자 분할 영역의 수직 위치를 나타내는 위치 특성값을 포함하는 것을 특징으로 하는, 후보 문자의 추출 방법.
The method according to claim 1,
The characteristic value of the character is,
A shape property value indicating a relationship between the width and the height of the character division area,
A size characteristic value indicating a relationship between an area of the word division area and an area of the character division area,
And a position characteristic value indicating a vertical position of the character division area in the word division area.
제 3 항에 있어서,
상기 비교 문자의 특성값은,
상기 비교 문자의 폰트별 모양 특성값, 폰트별 크기 특성값 및 폰트별 위치 특성값의 평균값 및 표준편차값인 것을 특징으로 하는, 후보 문자의 추출 방법.
The method of claim 3,
The characteristic value of the comparison character is,
Wherein the comparison character is an average value and a standard deviation value of a shape characteristic value of a font, a size characteristic value of each font, and a position characteristic value of each font.
제 4 항에 있어서,
상기 유사도 점수는,
상기 문자의 모양 특성값, 크기 특성값 및 위치 특성값으로 이루어진 제1 좌표와 상기 비교 문자의 폰트별 모양 특성값의 평균값, 폰트별 크기 특성값의 평균값 및 폰트별 위치 특성값의 평균값으로 이루어진 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 하는, 후보 문자의 추출 방법.
5. The method of claim 4,
The degree of similarity score
A first coordinate made up of a shape property value, a size property value, and a position property value of the character and an average value of shape property values of the comparison character, an average value of size property values per font and an average value of position property values per font And the distance between the two coordinates is calculated.
제 5 항에 있어서,
상기 유사도 점수는,
상기 비교 문자의 폰트별 모양 특성값의 표준편차값, 폰트별 크기 특성값의 표준편차값 및 폰트별 위치 특성값의 표준편차값에 각각 비례하는 가중치들이 적용된 상기 제1 좌표와 상기 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 하는, 후보 문자의 추출 방법.
6. The method of claim 5,
The degree of similarity score
A weighting value proportional to a standard deviation value of a shape characteristic value of the font of the comparison character, a standard deviation value of a size characteristic value of each font, and a standard deviation value of a position characteristic value of each font are applied, Of the candidate character is calculated based on the distance of the candidate character.
텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득하는 획득부;
상기 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 상기 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성하는 생성부;
상기 단어 분할 영역 및 상기 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출하는 산출부; 및
상기 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 상기 비교 문자로부터 후보 문자를 추출하는 추출부를 포함하는 것을 특징으로 하는, 후보 문자의 추출 장치.
An acquiring unit acquiring a text image to be converted into text data;
A generating unit for generating a word dividing region by dividing a text line included in the text image into words and dividing the text line by characters to generate a character dividing region;
A calculating unit for calculating a characteristic value of each character based on size information of the word dividing area and the character dividing area; And
And an extracting unit for extracting a candidate character from the comparison character based on a similarity score between the characteristic value of the character and the characteristic value of a previously stored comparison character.
제 6 항에 있어서,
상기 단어 분할 영역 및 상기 문자 분할 영역은 직사각형 영역이고,
상기 단어 분할 영역 및 상기 문자 분할 영역의 크기 정보는 상기 단어 분할 영역의 폭 및 높이 정보, 및 상기 문자 분할 영역의 폭 및 높이 정보를 포함하는 것을 특징으로 하는, 후보 문자의 추출 장치.
The method according to claim 6,
Wherein the word dividing region and the character dividing region are rectangular regions,
Wherein the size information of the word division area and the character division area includes width and height information of the word division area and width and height information of the character division area.
제 6 항에 있어서,
상기 문자의 특성값은,
상기 문자 분할 영역의 폭과 높이 사이의 관계를 나타내는 모양 특성값,
상기 단어 분할 영역의 면적과 상기 문자 분할 영역의 면적 사이의 관계를 나타내는 크기 특성값 및
상기 단어 분할 영역 내에서의 상기 문자 분할 영역의 수직 위치를 나타내는 위치 특성값을 포함하는 것을 특징으로 하는, 후보 문자의 추출 장치.
The method according to claim 6,
The characteristic value of the character is,
A shape property value indicating a relationship between the width and the height of the character division area,
A size characteristic value indicating a relationship between an area of the word division area and an area of the character division area,
And a position characteristic value indicating a vertical position of the character division area in the word division area.
제 9 항에 있어서,
상기 비교 문자의 특성값은,
상기 비교 문자의 폰트별 모양 특성값, 크기 특성값 및 위치 특성값의 평균값 및 표준편차값인 것을 특징으로 하는, 후보 문자의 추출 장치.
10. The method of claim 9,
The characteristic value of the comparison character is,
Wherein the feature value is a mean value and a standard deviation value of a font shape property value, a size property value, and a position property value of the comparison character.
제 10 항에 있어서,
상기 유사도 점수는,
상기 문자의 모양 특성값, 크기 특성값 및 위치 특성값으로 이루어진 제1 좌표와 상기 비교 문자의 폰트별 모양 특성값의 평균값, 폰트별 크기 특성값의 평균값 및 폰트별 위치 특성값의 평균값으로 이루어진 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 하는, 후보 문자의 추출 장치.
11. The method of claim 10,
The degree of similarity score
A first coordinate made up of a shape property value, a size property value, and a position property value of the character and an average value of shape property values of the comparison character, an average value of size property values per font and an average value of position property values per font And the distance between the two coordinates is calculated.
제 11 항에 있어서,
상기 유사도 점수는,
상기 비교 문자의 폰트별 모양 특성값의 표준편차값, 폰트별 크기 특성값의 표준편차값 및 폰트별 위치 특성값의 표준편차값에 각각 비례하는 가중치들이 적용된 상기 제1 좌표와 상기 제2 좌표 사이의 거리에 기초하여 산출되는 것을 특징으로 하는, 후보 문자의 추출 장치.
12. The method of claim 11,
The degree of similarity score
A weighting value proportional to a standard deviation value of a shape characteristic value of the font of the comparison character, a standard deviation value of a size characteristic value of each font, and a standard deviation value of a position characteristic value of each font are applied, Is calculated based on the distance between the candidate character and the character.
텍스트 데이터로 변환하고자 하는 텍스트 이미지를 획득하고,
상기 텍스트 이미지에 포함된 텍스트 라인을 단어별로 분할하여 단어 분할 영역을 생성하고, 상기 텍스트 라인을 문자별로 분할하여 문자 분할 영역을 생성하고,
상기 단어 분할 영역 및 상기 문자 분할 영역의 크기 정보에 기초하여 각각의 문자의 특성값을 산출하고,
상기 문자의 특성값과 미리 저장된 비교 문자의 특성값 사이의 유사도 점수에 기초하여 상기 비교 문자로부터 후보 문자를 추출하는 명령어들의 세트를 포함하는 것을 특징으로 하는, 컴퓨터 판독 가능 매체.
Acquires a text image to be converted into text data,
Generating a word division area by dividing a text line included in the text image into words, generating a character division area by dividing the text line by characters,
Calculating characteristic values of respective characters based on the size information of the word division area and the character division area,
And a set of instructions for extracting candidate characters from the comparison character based on a similarity score between a characteristic value of the character and a property value of a previously stored comparison character.
KR1020140152746A 2014-11-05 2014-11-05 Method for extracting candidate character KR20160053544A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140152746A KR20160053544A (en) 2014-11-05 2014-11-05 Method for extracting candidate character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140152746A KR20160053544A (en) 2014-11-05 2014-11-05 Method for extracting candidate character

Publications (1)

Publication Number Publication Date
KR20160053544A true KR20160053544A (en) 2016-05-13

Family

ID=56023379

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140152746A KR20160053544A (en) 2014-11-05 2014-11-05 Method for extracting candidate character

Country Status (1)

Country Link
KR (1) KR20160053544A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200013299A (en) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 Apparatus for recognizing character by comparing original image and generated image and operating method thereof
KR20220001342A (en) * 2020-06-29 2022-01-05 한화손해보험주식회사 Receipt recognition device, a method for automatically recognizing medical items from scanned images of receipts, and computer programs
WO2022169123A1 (en) * 2021-02-04 2022-08-11 주식회사 네오랩컨버전스 Method for recognizing handwritten data as characters, and device therefor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200013299A (en) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 Apparatus for recognizing character by comparing original image and generated image and operating method thereof
KR20220001342A (en) * 2020-06-29 2022-01-05 한화손해보험주식회사 Receipt recognition device, a method for automatically recognizing medical items from scanned images of receipts, and computer programs
WO2022169123A1 (en) * 2021-02-04 2022-08-11 주식회사 네오랩컨버전스 Method for recognizing handwritten data as characters, and device therefor

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US9922247B2 (en) Comparing documents using a trusted source
US20130322757A1 (en) Document Processing Apparatus, Document Processing Method and Scanner
JP4694613B2 (en) Document orientation determination apparatus, document orientation determination method, program, and recording medium therefor
US10062001B2 (en) Method for line and word segmentation for handwritten text images
US10339657B2 (en) Character detection apparatus and method
US10417516B2 (en) System and method for preprocessing images to improve OCR efficacy
KR20140089915A (en) Method and apparatus for adjusting handwritten character
RU2581786C1 (en) Determination of image transformations to increase quality of optical character recognition
JP6000992B2 (en) Document file generation apparatus and document file generation method
US9710945B2 (en) Method for cutting out character, character recognition apparatus using this method, and program
KR20160053544A (en) Method for extracting candidate character
US8731298B2 (en) Character recognition apparatus, character recognition method, and computer readable medium storing program
RU2597163C2 (en) Comparing documents using reliable source
EP3151159A1 (en) Information processing apparatus, information processing method and program
JP2011238119A (en) Character reading result confirmation device and character reading result confirmation method
US9418281B2 (en) Segmentation of overwritten online handwriting input
JP5857634B2 (en) Word space detection device, word space detection method, and computer program for word space detection
US20150169973A1 (en) Incomplete patterns
JP6310155B2 (en) Character recognition device, character recognition method, and character recognition program
US9342739B2 (en) Character recognition apparatus, non-transitory computer readable medium, and character recognition method
JP2009259190A (en) Character recognition program and character recognition device
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JP7382544B2 (en) String recognition device and string recognition program
US20230045871A1 (en) Character recognition method, computer program product with stored program and computer readable medium with stored program

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid