KR100317653B1 - An feature extraction method on recognition of large-set printed characters - Google Patents

An feature extraction method on recognition of large-set printed characters Download PDF

Info

Publication number
KR100317653B1
KR100317653B1 KR1019980052019A KR19980052019A KR100317653B1 KR 100317653 B1 KR100317653 B1 KR 100317653B1 KR 1019980052019 A KR1019980052019 A KR 1019980052019A KR 19980052019 A KR19980052019 A KR 19980052019A KR 100317653 B1 KR100317653 B1 KR 100317653B1
Authority
KR
South Korea
Prior art keywords
character
feature
characters
feature extraction
values
Prior art date
Application number
KR1019980052019A
Other languages
Korean (ko)
Other versions
KR20000034645A (en
Inventor
지수영
장대근
오원근
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1019980052019A priority Critical patent/KR100317653B1/en
Publication of KR20000034645A publication Critical patent/KR20000034645A/en
Application granted granted Critical
Publication of KR100317653B1 publication Critical patent/KR100317653B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 다국어 문서 내에 포함된 모든 문자에 대하여 문자 영상의 변형과 크기에 무관한 대용량 인쇄체 문자인식에 적합한 특징 추출 방법에 관한 것으로서, 망(mesh) 값의 위치변형에 대한 누적빈도와 해밍 디스턴스(Hamming distance)의 누적 값의 조합에 의해 문자의 특징을 추출하는 대용량 인쇄체 문자인식을 위한 특징 추출 방법에 관한 것이다.The present invention relates to a feature extraction method suitable for large-capacity print character recognition irrespective of the deformation and size of a text image for all characters included in a multilingual document, and includes a cumulative frequency and a hamming distance for position deformation of a mesh value. The present invention relates to a feature extraction method for character recognition of a large-capacity printed text by extracting a feature of a character by a combination of cumulative values of Hamming distance.

본 발명은 문자영상 획득 과정에서 광학 스캐너로 대용량 인쇄체 문자영상을 입력하는 단계와, 상기 문자영상 획득 과정에서 입력된 문자영상의 글자 크기가 각기 다른 문자들에 대해 전처리 과정에서 일정한 크기의 패턴으로 문자들을 정규화 하는 단계와, 상기 전처리 과정을 통해 정규화된 문자들에 대해 특징 추출 과정에서 특징별로 추출하는 단계와, 상기 특징 추출 과정을 통해 특징별로 추출된 문자들에 대해 대분류 과정에서 특징별로 재분류 하는 단계로 이루어진 대용량 인쇄체 문자인식을 위한 특징 추출 방법을 제시한다.The present invention comprises the steps of inputting a large-capacity textual image with an optical scanner in the process of acquiring the character image, and the character in a predetermined size pattern in the pre-processing process for the characters of the different character size of the character image input in the character image acquisition process Normalizing the characters, extracting the characters normalized through the preprocessing by feature in the feature extraction process, and reclassifying the characters extracted by the feature through the feature extraction process by feature in the large classification process. We present a feature extraction method for large-capacity print character recognition.

Description

대용량 인쇄체 문자인식을 위한 특징 추출 방법{An feature extraction method on recognition of large-set printed characters}An feature extraction method on recognition of large-set printed characters

본 발명은 다국어 문서 내에 포함된 모든 문자에 대하여 문자 영상의 변형과 크기에 무관한 대용량 인쇄체 문자인식에 적합한 특징 추출 방법에 관한 것으로서, 망(mesh) 값의 위치변형에 대한 누적빈도와 해밍 디스턴스(Hamming distance)의 누적 값의 조합에 의해 문자의 특징을 추출하는 대용량 인쇄체 문자인식을 위한 특징 추출 방법에 관한 것이다.The present invention relates to a feature extraction method suitable for large-capacity print character recognition irrespective of the deformation and size of a text image for all characters included in a multilingual document, and includes a cumulative frequency and a hamming distance for position deformation of a mesh value. The present invention relates to a feature extraction method for character recognition of a large-capacity printed text by extracting a feature of a character by a combination of cumulative values of Hamming distance.

인식기의 성능은 사용되는 특징에 매우 민감하므로 효율적이고 신뢰도가 높은 안정적인 특징 추출방법이 필요하다. 또한 적절한 특징이란 입력문자의 변형에 대하여 영향을 적게 받아 입력의 특징을 최대한 나타내며, 인식율과 인식속도에 만족해야 한다. 특히 우리 나라에서 사용되는 한글문서는 폰트의 종류 및 활자체 변형이 매우 많고 심하기 때문에 폰트의 특성에 따라 인식에 적합한 특징추출 기술이 필수적으로 요구된다. 인쇄체 문자인식을 위한 기존의 여러 특징추출 방법들이 제안되었다.Since the performance of the recognizer is very sensitive to the features used, there is a need for efficient and reliable feature extraction. In addition, the proper feature is the least influenced by the deformation of the input characters to represent the characteristics of the input to the maximum, and must be satisfied with the recognition rate and speed. In particular, Korean documents used in our country have many font types and typographical variations and are severe. Therefore, a feature extraction technique suitable for recognition is required according to the characteristics of the font. Several existing feature extraction methods have been proposed for printed text recognition.

망 특징, 문자영상을 수직, 수평으로 투영한 값을 특징으로 하는 투영 특징(Projection Feature), 기준점으로부터 수평, 수직으로 검출선을 그어 첫번째 검은 화소를 만날 때까지의 거리 값을 특징으로 사용하는 교차 거리 특징(Cross Distance Feature), 고리 투영(ring projection)에 의한 특징추출 방법 등이 있다. 이중에서 가장 많이 사용되는 특징은 인식율과 추출속도가 비교적 우수하다고 알려진 그물망(mesh feature)이 있다.Projection feature characterized by the network feature, the value projecting the character image vertically and horizontally, and the intersection using the distance value from the reference point to the first black pixel by drawing the detection line horizontally and vertically Cross distance feature, feature extraction method by ring projection, and the like. The most frequently used feature is a mesh feature that is known to have a relatively good recognition rate and extraction speed.

문자의 전체적인 특성을 반영하는 그물망은 문자패턴을 획의 배열로, 즉 검은 픽셀의 존재로서 특성을 줄 수가 있다. 망의 특징점은 검은 스트로크(stroke) 부분의 모양을 반영한다.A mesh that reflects the overall character of a character can characterize the character pattern as an array of strokes, ie the presence of black pixels. The feature points of the network reflect the shape of the black stroke.

이 특징점을 추출하는 기존의 방법은 문자패턴을 M x N의 부분지역(cell)으로 나눈다. 그리고 각 지역의 검은 부분의 면적에 해당하는 값을 계산한다. 기존의 이 방법은 검은 픽셀이 속한 문자의 스트로크만을 대상으로 하기 때문에 문자의 큰 특징이 될 수 있는 배경부분을 놓치는 잘못을 안고 있다. 따라서 글자부분의 검은 부분의 면적을 특징점으로 하는 기존의 이 방법은 문자간의 다양한 변형과 유사성등 대용량 인쇄체 문자인식에 적합한 특징을 나타내기에는 다소 어려움이 있다.The existing method of extracting this feature point divides the character pattern into M x N subcells. Then, calculate the value corresponding to the area of the black part of each area. This conventional method only targets the stroke of the character to which the black pixel belongs, so it is wrong to miss the background part which can be a big feature of the character. Therefore, the existing method, which is characterized by the area of the black part of the character part, has some difficulty in showing characteristics suitable for large-capacity character recognition such as various deformations and similarities between characters.

따라서, 본 발명은 다국어 문서 내에 포함된 모든 문자 -한글, 한자, 영문자, 숫자, 특수기호- 에 대하여 문자 영상의 변형과 크기에 무관한 대용량 인쇄체 문자인식을 위하여 망 값의 위치변형에 대한 누적빈도와 해밍 디스턴스의 누적값의 조합에 의해 문자의 특징을 추출함으로써, 상기한 단점을 해소할 수 있는 대용량 인쇄체 문자인식을 위한 특징 추출 방법을 제공하는 데 그 목적이 있다.Accordingly, the present invention provides a cumulative frequency for position variation of network values for large-capacity character recognition irrespective of the deformation and size of character images for all characters contained in multilingual documents-Korean, Chinese, English, numbers, and special symbols. It is an object of the present invention to provide a feature extraction method for a large-capacity print character recognition that can solve the above disadvantages by extracting the character feature by a combination of the cumulative value of the Hamming distance.

상술한 목적을 달성하기 위한 본 발명에 따른 대용량 인쇄체 문자인식을 위한 특징 추출 방법은 문자영상 획득 과정에서 광학 스캐너로 대용량 인쇄체 문자영상을 입력하는 단계와, 상기 문자영상 획득 과정에서 입력된 문자영상의 글자 크기가 각기 다른 문자들에 대해 전처리 과정에서 일정한 크기의 패턴으로 문자들을 정규화 하는 단계와, 상기 전처리 과정을 통해 정규화된 문자들에 대해 특징 추출 과정에서 특징별로 추출하는 단계와, 상기 특징 추출 과정을 통해 특징별로 추출된 문자들에 대해 대분류 과정에서 특징별로 재분류 하는 단계를 포함하여 이루어진 것을 특징으로 한다.According to an aspect of the present invention, there is provided a feature extraction method for character recognition of a large-capacity printed text, comprising the steps of: inputting a large-capacity print text image with an optical scanner in a text image acquisition process; Normalizing characters in a pattern having a predetermined size in a preprocessing process for characters having different font sizes, extracting the normalized characters by a feature in a feature extraction process by the preprocessing process, and extracting the feature Characterizing the extracted characters by feature through the reclassification process by feature in the large classification process characterized in that it was made.

또한, 전처리 과정에서 일정한 패턴으로 문자들을 정규화 시켜주기 위한 과정은 각 문자의 망 값을 망 값의 분포에 따라 8개의 위치 좌표로 표현하여 같은 글자를 모두 누적하여 위치좌표로 계산하는 제 1 단계와, 상기 위치좌표에 의해 글자부분과 배경부분을 각기 분리하는 제 2 단계와, 상기 글자들 상호간의 유사도를 측정하기 위하여 해밍 디스턴스를 이용하여 특징 값을 구하는 제 3 단계와, 상기 특징 값을 가지고 가중치 정규화를 수행하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.In addition, the process for normalizing characters in a predetermined pattern in the preprocessing process includes the first step of expressing the network values of each character in eight position coordinates according to the distribution of the network values, accumulating all the same characters and calculating them in position coordinates; A second step of separately separating a letter part and a background part by the position coordinates, a third step of obtaining a feature value using a Hamming distance to measure the similarity between the letters, and a weight having the feature value And a fourth step of performing normalization.

또한 본 발명은 문자영상 획득 과정에서 광학 스캐너로 대용량 인쇄체 문자영상을 입력하는 단계와, 상기 문자영상 획득 과정에서 입력된 문자영상의 글자 크기가 각기 다른 문자들에 대해 전처리 과정에서 일정한 패턴으로 문자들을 정규화 하는 단계와, 상기 전처리 과정을 통해 정규화된 문자들에 대해 특징 추출 과정에서 특징별로 추출하는 단계와, 상기 특징 추출 과정을 통해 특징별로 추출된 문자들에 대해 대분류 과정에서 특징별로 재조합 하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체인 것을 특징으로 한다.The present invention also provides a method of inputting a large-capacity textual image with an optical scanner in a text image acquisition process, and a character in a predetermined pattern in a preprocessing process for characters having different text sizes of the text image input in the text image acquisition process. Normalizing, extracting the characters normalized through the preprocessing by feature in the feature extraction process, and recombining the features extracted by the feature by the feature extraction process by feature in the large classification process. And a computer readable recording medium having recorded thereon a program for execution.

도 1은 본 발명에 따른 대용량 인쇄체 문자인식을 위한 특징 추출에 관한 흐름도.1 is a flow chart related to feature extraction for high-volume printed character recognition in accordance with the present invention.

도 2는 본 발명에 따른 대용량 인쇄체 문자인식을 위한 특징 추출 방법을 설명하기 위해 도시한 흐름도.2 is a flowchart illustrating a feature extraction method for large-capacity print character recognition according to the present invention.

도 3은 도 2에서의 망 특징 값의 변환 과정을 나타낸 도면.FIG. 3 is a diagram illustrating a process of converting network feature values in FIG. 2. FIG.

도 4는 도 3에서 각 글자에 대해 글자, 배경부분을 분리하는 과정을 나타낸 도면.4 is a view illustrating a process of separating a letter and a background part for each letter in FIG. 3;

도 5는 도 4에서 글자부분의 특징을 추출하는 과정을 나타낸 도면.FIG. 5 is a diagram illustrating a process of extracting features of a letter part from FIG. 4; FIG.

도 6은 도 4에서 배경부분의 특징을 추출하는 과정을 나타낸 도면.6 is a view showing a process of extracting the features of the background portion in FIG.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

10: 문자영상 획득 11: 전처리10: Acquire text image 11: Preprocessing

12: 특징 추출 13: 대분류12: Feature Extraction 13: Major Category

이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.Hereinafter, with reference to the accompanying drawings will be described in detail the present invention.

도 1은 본 발명에 따른 대용량 인쇄체 문자인식을 위한 특징 추출에 관한 흐름도이다.1 is a flowchart illustrating feature extraction for high-volume printed character recognition according to the present invention.

문자영상 획득(10) 과정에서 광학 스캐너로 대용량 인쇄체 문자들을 입력하게 된다. 전처리(11) 과정에서는 상기 문자영상 획득(10) 과정을 통해 입력되는 글자 크기가 다른 문자들을 일정한 패턴으로 정규화 시켜준다. 각 문자의 망 값을 망 값의 분포(농도)에 따라 8개의 위치 좌표로 표현하여 같은 글자를 모두 누적하여 위치좌표로 계산하고, 위치좌표에 의해 글자부분과 배경부분을 각기 분리하며, 글자들 상호간의 유사도를 측정하기 위하여 해밍 디스턴스를 이용하여 특징을 구한다. 특징 추출(12) 과정에서는 상기 전처리(11) 과정에서 정규화된 가중치 값을 가지고 문자의 스트로크 부분과 배경부분의 특징을 추출한다. 대분류(13) 과정에서는 상기 특징 추출(12) 과정에서 특징별로 분류된 문자들을 분류하게 된다.In the process of acquiring the character image 10, the large-capacity print characters are input to the optical scanner. In the preprocessing 11, the characters having different font sizes input through the text image acquisition 10 process are normalized into a predetermined pattern. The network value of each letter is expressed in 8 positional coordinates according to the distribution (density) of the network value, and the same letters are accumulated and calculated in positional coordinates, and the character and background parts are separated separately by the positional coordinates. To measure the similarity between each other, we use Hamming distance to find the feature. In the feature extraction 12, the feature of the stroke part and the background part of the character is extracted with the weight value normalized in the preprocessing 11. In the major classification 13, the characters classified by the feature in the feature extraction 12 are classified.

도 2는 본 발명에 따른 대용량 인쇄체 문자인식을 위한 특징 추출 방법을 설명하기 위해 도시한 흐름도이다.2 is a flowchart illustrating a feature extraction method for large-capacity print character recognition according to the present invention.

입력된 문서 영상(20)으로부터 글자의 스트로크 부분과 배경부분의 특징을 추출하기 위하여 각 문자 크기에서 흑 연결성분의 최소 외접사각형(MBR) 문자 부분을 검출하여 문자를 분리(21)한다. 상기 최소 외접사각형 문자분리 과정은 입력문서 영상의 최좌상 화소로부터 행 우선 순서로 스캔(scan)하여 흑화소가 나타날 경우, 이를 시작으로 연결된 영역을 추적하여 이의 외접 사각형을 구한다. 이때 외접사각형을 결정하는 정보는 입력문서 영상의 최좌상 좌표를 원점(0,0)으로 다음과 같이 최좌상, 최우하 좌표로 표현한다.In order to extract the features of the stroke part and the background part of the character from the input document image 20, the character is separated 21 by detecting the smallest rectangle (MBR) character part of the black connection component at each character size. In the minimal hexadecimal character separation process, when the black pixels appear by scanning from the left-most pixel of the input document image in row-first order, the circumscribed rectangle is obtained by tracing the connected area. In this case, the information for determining the lateral rectangle is expressed by the leftmost coordinates of the input document image as origin (0,0) as the leftmost coordinates and the rightmost coordinates as follows.

최좌상 좌표 = (min(Xi, Xj), min(Yi, Yj))Top left coordinate = (min (Xi, Xj), min (Yi, Yj))

최우하 좌표 = (max(Xi, Xj), max(Yi, Yj))Bottom right coordinate = (max (Xi, Xj), max (Yi, Yj))

상기 최소 외접사각형 문자부분 분리 방법으로 분리한 문자에 대해 문자크기 정규화(22) 과정을 수행한다. 분리된 문자들의 크기가 각기 다르므로 이를 일정한 크기로 정규화 과정이 필요하다. 본 발명에서는 모든 글자들에 대해 48 x 48의 2차원 크기로 일정하게 정규화 한다. 상기 정규화(22) 과정에 의해 만들어진 형판(template)을 가지고 3 x 3 망 오퍼레이션(mesh operation; 23) 과정을 수행하여 망 크기가 16 x 16 인 문자의 형판(template)을 생성(24)한다.Character size normalization (22) is performed on the characters separated by the least circumscribed character portion separation method. Since the size of the separated characters is different, it is necessary to normalize it to a certain size. In the present invention, all letters are regularly normalized to a two-dimensional size of 48 x 48. A template of characters having a mesh size of 16 × 16 is generated 24 by performing a 3 × 3 mesh operation 23 with a template generated by the normalization process 22.

도 3은 도 2에서의 망 특징 값의 변환 과정을 나타낸 도면으로서, 대용량 인쇄체 문자인식을 위한 특징을 추출하기 위해 각 문자의 16 x 16 크기의 망 값을 망 값의 분포(농도)에 따라 8개의 위치 좌표로 표현한 후 같은 글자를 모두 누적하여 위치좌표로 변환하는 과정을 나타낸다. 16 x 16 크기로 정규화된 망 형판(30)상에서 각 망 값(mesh value)은 흑화소의 농도에 따라 망 오퍼레이션(23) 과정을 통하여 0-9 까지의 값을 갖는다. 글자 '가'에 대한 스트로크 값을 표시한 것이 도면부호 (31)이고, 이 값들은 흑화소의 농도에 따라 도면부호 (32)처럼 0-7까지의 위치좌표로 표현된다. 배경부분은 흑화소가 거의 없기 때문에 도면부호 (33)에서와 같이 0의 위치로 표시되고, 흑화소가 있는 도면부호 (36)은 도면부호 (34)처럼 7의 위치로 표현된다. 이렇게 하여 도 3과 같이 모든 문자에 대해 스트로크 부분과 배경부분을 위치 좌표 값으로 모두 누적하여 표현한다.FIG. 3 is a diagram illustrating a process of converting network feature values in FIG. 2. In order to extract a feature for large print character recognition, a network value of 16 × 16 size of each character is determined according to the distribution (density) of the network value. It represents the process of converting to the position coordinate after accumulating all the same letters after expressing the position coordinates. Each mesh value on the network template 30 normalized to the size of 16 × 16 has a value of 0-9 through the network operation 23 according to the concentration of the black pixels. The stroke value for the letter 'A' is denoted by reference numeral 31, and these values are expressed in positional coordinates from 0 to 7, as indicated by reference numeral 32, depending on the density of the black pixels. Since the background part has few black pixels, as indicated by reference numeral 33, it is indicated by the position of zero, and the reference numeral 36 with black pixels is represented by the position of seven as indicated by reference numeral 34. As shown in FIG. In this way, as shown in FIG. 3, the stroke part and the background part are accumulated and expressed as position coordinate values for all characters.

도 4는 도 3에서 각 글자에 대해 글자, 배경부분을 분리하는 과정을 나타낸 도면이다.4 is a diagram illustrating a process of separating a letter and a background part for each letter in FIG. 3.

도면부호 (44)는 상기 도 3의 한글 '가'자를 표현한 것이고, 도면부호 (40)과 (41)처럼 한 글자에 대해 스트로크와 배경 부분에 대한 두개의 망 형판을 갖는다. 스트로크 부분은 6번과 7번의 위치 값의 합(41)으로 다시 표현하고, 배경부분은 0번과 1번 위치의 합(43)으로 새롭게 표현한다.Reference numeral 44 represents the Hangul 'A' character of FIG. 3, and has two mesh templates for the stroke and the background part for one letter as shown at 40 and 41. The stroke part is again represented by the sum 41 of the position values 6 and 7, and the background part is newly represented by the sum 43 of the 0 and 1 positions.

도 5는 도 4에서 글자부분의 특징을 추출하는 과정을 나타낸 도면이다.FIG. 5 is a diagram illustrating a process of extracting features of a letter portion in FIG. 4.

스트로크 부분에 대해 4 x 4 영역의 총 16개의 구역으로 나누고 도면부호 (50), (51), (52) 및 (53) 각 구역에서 상기의 도 4에서 얻어진 특징의 누적 값을 가지고 특징 값의 크기가 최대인 좌표 값(54)을 하나씩 모두 16개를 한 문자의 스트로크에 대하여 크기순으로 저장한다.The stroke value is divided into a total of 16 zones of 4 x 4 zones and the cumulative values of the feature values obtained in FIG. 4 above in each of the zones 50, 51, 52 and 53 are obtained. All 16 coordinate values 54 of the maximum size are stored one after the other for the stroke of one character.

도 6은 도 4에서 배경부분의 특징을 추출하는 과정을 나타낸 도면이다.FIG. 6 is a diagram illustrating a process of extracting features of a background part from FIG. 4.

배경부분에 대해 경계 망(60), (61), (62) 및 (63)을 제외한 5 x 5 망 4개, 5 x 4 망 4개, 4 x 4 망 1개 총 9개의 구역으로 나누고, 각 구역에서 상기의 도 4에서 얻어진 배경부분 특징의 누적 값을 가지고 특징 값의 크기가 최대인 좌표 값(64)을 하나씩 모두 9개를 한 문자의 배경에 대하여 크기순으로 저장한다.Divide the background into nine zones: four 5 x 5 networks, four 5 x 4 networks, and one 4 x 4 network, except for boundary networks 60, 61, 62, and 63. In each zone, all nine coordinate values 64 having the cumulative value of the background part feature obtained in FIG. 4 and the maximum size of the feature value are stored one by one with respect to the background of one character.

본 발명은 상기와 같이 한 문자에 대하여 스트로크 부분 16개, 배경부분 9개 등 총 25개의 위치좌표 값을 그 문자의 특징으로 추출하는 방법이다.The present invention is a method of extracting a total of 25 positional coordinate values, such as 16 stroke parts and 9 background parts, as a feature of the character.

이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을가진자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능함으로 전술한 실시 예 및 첨부된 도면에 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the technical spirit of the present invention for those skilled in the art to which the present invention belongs, and the accompanying drawings. It is not limited to.

상술한 바와 같이 본 발명은 다국어 문서내에 포함된 모든 문자 -한글, 한자, 영문자, 숫자, 특수기호- 에 대하여 문자 영상의 변형과 크기에 무관한 대용량 인쇄체 문자인식을 위하여 망 값의 위치변형에 대한 누적빈도와 해밍 디스턴스의 누적값의 조합에 의해 문자의 특징을 추출하도록 함으로써, 문자간의 다양한 변형과 유사성 등 대용량 인쇄체 문자인식의 특징 추출에 적합하다.As described above, the present invention relates to the positional variation of the network value for the recognition of large-capacity print characters regardless of the size and deformation of the character image for all characters included in the multilingual document-Korean, Chinese, English, numbers, and special symbols. By extracting the feature of the character by a combination of the cumulative frequency and the cumulative value of the hamming distance, it is suitable for extracting the feature of a large-capacity print character recognition such as various deformations and similarities between the characters.

Claims (3)

문자영상 획득 과정에서 광학 스캐너로 대용량 인쇄체 문자영상을 입력받는 단계와,Receiving a large-capacity print text image with an optical scanner during a text image acquisition process; 망 값의 분포에 따라 각 문자의 망 값을 8개의 위치좌표로 표현하고 같은 글자를 모두 누적하여 위치좌표로 변환하는 단계와,Expressing the network values of each character in eight positional coordinates according to the distribution of the networked values and accumulating all the same characters into positional coordinates; 상기 위치좌표를 이용하여 글자부분과 배경부분을 분리하는 단계와,Separating the letter portion and the background portion using the position coordinates; 상기 글자 상호간의 유사도 측정을 위해 해밍 디스턴스를 이용하여 특징값을 구하는 단계와,Obtaining a feature value using a hamming distance to measure the similarity between the letters; 상기 특징값을 가지고 가중치를 정규화하는 단계와,Normalizing weights with the feature values; 정규화된 가중치값을 가지고 정규화된 문자의 스트로크 부분과 배경부분의 특징을 추출하는 단계와,Extracting the characteristics of the stroke part and the background part of the normalized character with the normalized weight value; 상기 특징 추출 과정을 통해 특징별로 추출된 문자들을 재분류하는 단계를 포함하여 이루어진 것을 특징으로 하는 대용량 인쇄체 문자인식을 위한 특징 추출 방법.Characteristic extraction method for a large-capacity printed character recognition comprising the step of re-classifying the characters extracted for each feature through the feature extraction process. 제 1 항에 있어서,The method of claim 1, 상기 특징 추출 단계는 각 문자 크기에서 흑 연결성분의 최소 외접사각형 문자 부분을 검출하여 문자를 분리하는 단계와,The extracting of the features may include separating the characters by detecting the smallest circumscribed character portion of the black connection component at each character size; 상기 분리된 문자의 크기를 2차원의 크기로 일정하게 정규화하는 단계와,Uniformly normalizing the size of the separated character to a size in two dimensions; 상기 정규화 과정에 의해 만들어진 형판을 가지고 3 x 3 망 오퍼레이션 과정을 수행하여 망 크기가 16 x 16인 문자의 형판을 생성하는 단계를 포함하여 이루어진 것을 특징으로 하는 대용량 인쇄체 문자인식을 위한 특징 추출 방법.And generating a template of characters having a network size of 16 x 16 by performing a 3 x 3 network operation process with the template formed by the normalization process. 문자영상 획득 과정에서 광학 스캐너로 대용량 인쇄체 문자영상을 입력받는 단계와,Receiving a large-capacity print text image with an optical scanner during a text image acquisition process; 망 값의 분포에 따라 각 문자의 망 값을 8개의 위치좌표로 표현하고 같은 글자를 모두 누적하여 위치좌표로 변환하는 단계와,Expressing the network values of each character in eight positional coordinates according to the distribution of the networked values and accumulating all the same characters into positional coordinates; 상기 위치좌표를 이용하여 글자부분과 배경부분을 분리하는 단계와,Separating the letter portion and the background portion using the position coordinates; 상기 글자 상호간의 유사도 측정을 위해 해밍 디스턴스를 이용하여 특징값을 구하는 단계와,Obtaining a feature value using a hamming distance to measure the similarity between the letters; 상기 특징값을 가지고 가중치를 정규화하는 단계와,Normalizing weights with the feature values; 정규화된 가중치값을 가지고 정규화된 문자의 스트로크 부분과 배경부분의 특징을 추출하는 단계와,Extracting the characteristics of the stroke part and the background part of the normalized character with the normalized weight value; 상기 특징 추출 과정을 통해 특징별로 추출된 문자들을 재분류하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the step of reclassifying the characters extracted for each feature through the feature extraction process.
KR1019980052019A 1998-11-30 1998-11-30 An feature extraction method on recognition of large-set printed characters KR100317653B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980052019A KR100317653B1 (en) 1998-11-30 1998-11-30 An feature extraction method on recognition of large-set printed characters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980052019A KR100317653B1 (en) 1998-11-30 1998-11-30 An feature extraction method on recognition of large-set printed characters

Publications (2)

Publication Number Publication Date
KR20000034645A KR20000034645A (en) 2000-06-26
KR100317653B1 true KR100317653B1 (en) 2002-02-19

Family

ID=19560598

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980052019A KR100317653B1 (en) 1998-11-30 1998-11-30 An feature extraction method on recognition of large-set printed characters

Country Status (1)

Country Link
KR (1) KR100317653B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100408082B1 (en) * 2001-07-30 2003-12-03 (주)유라비젼 Method for inputting OCR form with high-recognition for korean

Also Published As

Publication number Publication date
KR20000034645A (en) 2000-06-26

Similar Documents

Publication Publication Date Title
US6674900B1 (en) Method for extracting titles from digital images
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
Shafait et al. Table detection in heterogeneous documents
Guo et al. Separating handwritten material from machine printed text using hidden markov models
KR100658119B1 (en) Apparatus and Method for Recognizing Character
US5369714A (en) Method and apparatus for determining the frequency of phrases in a document without document image decoding
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
Pal et al. Automatic identification of english, chinese, arabic, devnagari and bangla script line
Pal et al. Identification of different script lines from multi-script documents
JP5492205B2 (en) Segment print pages into articles
JP2713622B2 (en) Tabular document reader
JPH01253077A (en) Detection of string
Pal et al. Automatic separation of machine-printed and hand-written text lines
Dhandra et al. Script identification based on morphological reconstruction in document images
Shafait et al. Layout analysis of Urdu document images
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
Dhandra et al. Word-wise script identification from bilingual documents based on morphological reconstruction
Srinivas et al. An overview of OCR research in Indian scripts
KR100317653B1 (en) An feature extraction method on recognition of large-set printed characters
Padma et al. Script Identification from Trilingual Documents using Profile Based Features.
JPH0721817B2 (en) Document image processing method
Alshameri et al. A combined algorithm for layout analysis of Arabic document images and text lines extraction
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
Tsai et al. Efficiently extracting and classifying objects for analyzing color documents
Chanda et al. Identification of Japanese and English script from a single document page

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20141224

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20160805

Year of fee payment: 15

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20161125

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20171110

Year of fee payment: 17