KR100206827B1 - 문자 인식을 위한 한글/영문 판별방법 - Google Patents

문자 인식을 위한 한글/영문 판별방법 Download PDF

Info

Publication number
KR100206827B1
KR100206827B1 KR1019960067888A KR19960067888A KR100206827B1 KR 100206827 B1 KR100206827 B1 KR 100206827B1 KR 1019960067888 A KR1019960067888 A KR 1019960067888A KR 19960067888 A KR19960067888 A KR 19960067888A KR 100206827 B1 KR100206827 B1 KR 100206827B1
Authority
KR
South Korea
Prior art keywords
korean
english
character
extracted
characters
Prior art date
Application number
KR1019960067888A
Other languages
English (en)
Other versions
KR19980049215A (ko
Inventor
이영태
최영우
Original Assignee
구자홍
엘지전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사 filed Critical 구자홍
Priority to KR1019960067888A priority Critical patent/KR100206827B1/ko
Publication of KR19980049215A publication Critical patent/KR19980049215A/ko
Application granted granted Critical
Publication of KR100206827B1 publication Critical patent/KR100206827B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 문자 인식을 위한 한글/영문 판별방법에 관한 것으로, 종래에는 한글/영문 판별을 한글 모음의 긴 수직 획과 긴 수평 획을 찾아서 이들 정보의 유무로 판별하였는데 영문자에도 'H', 'T', 'E' 등과 같이 긴 수직 획이나 긴 수평 획이 존재하여 이들 정보만으로는 한글인지 영문자인지 판별하기 어려운 문제점이 있다. 따라서 본 발명은 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제1단계와; 상기 제1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제2단계와; 상기 제2단계에서 추출한 특징벡터들과 한글과 영문자가 갖는 구조적 특성을 이용하여 같은 성질을 갖는 후보들끼리 분류하는 제3단계와; 상기 제3단계에서 분류한 후보문자에 대해 제2단계에서 추출한 특징중 오목부분의 기울기인 세타와 유사도 성능지수를 이용하여 한글과 영문자를 판별하는 제4단계로 진행하여 한글과 영문자를 판별하여 보다 정확한 판별이 가능하도록 한다.

Description

문자 인식을 위한 한글/영문 판별방법
본 발명은 한글과 영문자가 포함된 문서를 인식하기 위하여 전처리 과정으로 반드시 필요한 한글/영문 판별 성능을 향상시켜 문자 인식률을 높이기 위한 것으로, 특히 한글과 영문자가 갖는 구조적 특성을 이용하여 한글과 영문을 판별하도록 함으로써 정확한 판별이 가능하도록 한 문자 인식을 위한 한글/영문 판별방벙에 관한 것이다.
종래 문자 인식을 위한 한글/영문 판별방법은, 제1도에서 도시된 바와같이, 입력되는 문자를 받아 한글의 특징이 모음을 추출하는 제1단계와; 상기 제1단계에서 모음이 추출되면 한글로 판단하고 추출되지 않으면 영문자로 판별하는 제2단계와; 상기 제2단계에서 판별이 완료되면 그 판별한 결과를 저장하는 제3단계로 이루어진다.
상기에서와 같이 각 단계로 이루어진 종래 기술에 대하여 살펴보면 다음과 같다.
하나의 문자로 분리된 문자는 먼저 한글인지 영문자인지를 판별하여 각각의 인식기로 보낸다.
상기에서 한글인지 영문자인지의 판별은, 한글의 특징인 모음이 있는지 없는지를 추출하여 모음이 추출되면 한글로 판별하고 추출되지 않으면 영문자로 판별하였다.
즉, 한글의 모음이 갖는 특성인 긴 수직 획과 긴 수평 획의 존재 여부를 판단하여 한글과 영문자를 판별하였다.
그러나, 상기와 같은 종래의 기술에서 한글/영문 판별시 한글 모음의 긴 수직 획과 긴 수평 획을 찾아서 이들 정보의 유무로 판별할 경우 영문자의 'H', 'T', 'E' 등과 같이 긴 수직 획이나 긴 수평 획이 존재하여 이들 정보만으로는 한글인지 영문자인지 판별하기 어려운 문제점이 있다.
따라서, 상기에서와 같은 문제점을 해결하기 위한 본 발명의 목적은 한글과 영문자가 갖는 구조적 특성을 서로 비교하여 서로 연결되지 않은 스트로크(Disconnected Stroke 또는 contour)의 갯수, 홀(Hole)의 갯수 귈고 오목부분(Concave)의 갯수를 이용하여 분류를 수행하고 최종적으로 같은 그룹내에서 유사도를 비교하여 한글과 영문자를 판별하도록 한 문자 인식을 위한 한글/영문 판별방법을 제공함에 있다.
제1도는 종래 문자 인식을 위한 한글/영문 판별방법에 대한 동작과정도.
제2도는 본 발명 문자 인식을 위한 한글/영문 판별방법에 대한 동작과정도.
제3도는 문자인식 시스템의 구성도.
제4도는 제2도에서, 최외곽 추출과정을 보여주는 설명도.
제5도는 제2도에서, 특징추출 과정을 보여주는 설명도.
제6a도는 제5도에서, 외곽점과 외곽점을 연결하여 얻어지는 기울기 추출 과정도.
제6b도는 제5도에서, 16방향코드 정보를 이용한 기울기 추출 과정도.
제7a도는 제2도에서, 한글/영문 판별시 각 문자별 컨튜어의 갯수를 보여주는 추출도.
제7b도는 제2도에서, 한글/영문 판별시 각 문자별 홀의 갯수를 보여주는 추출도.
제7c도는 제2도에서, 한글/영문 판별시 각 문자별 오목부분의 갯수를 보여주는 추출도.
* 도면의 주요부분에 대한 부호의 설명
10 : 호스트 컴퓨터 20 : 스캐너
30 : 채널1 40 : 제1 로컬메모리
50 : 제1프로세서 60 : 채널2
70 : 제2프로세서 80 : 제2 로컬메모리
90 : 글로벌 메모리
상기 목적을 달성하기 위한 본 발명 문자 인식을 위한 한글/영문 판별방법은, 제2도에 도시한 바와같이, 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제1단계와; 상기 제1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제2단계와; 상기 제2단계에서 추출된 오목부분으로 부터 방향성 정보를 이용하여 기울기를 추출하는 제3단계와; 상기 단계에서 추출된 정보를 이용하여 같은 성질을 갖는 후보끼리 분류하는 제4단계와; 상기 제4단계에서 분류한 후보문자로 부터 한글과 영문자를 구분하는 제5단계로 이루어진다.
상기 각 단계로 이루어진 방법을 수행하기 위한 문자인식 시스템 구성은, 도 3에 도시한 바와 같이, 문서로 부터 문자를 읽어들여 이진 데이타로 변환시켜 출력하는 스캐너(20)와; 상기 스캐너(20)를 통해 읽어들인 문서 데이타를 인식하고 한글인지 영문자인지를 판별하기 위한 각종 제어동작을 행하는 호스트 컴퓨터(10)와; 채널1(30)을 통해 호스트 컴퓨터(10)로 부터 문서 데이타를 각 문자 단위로 절출하는 제1프로세서(50)와; 채널2(60)를 통해 제1프로세서(50)에서 절출된 문서 데이타에 대하여 문자 인식을 수행하는 제2프로세서(70)와; 데이타 메모리와 프로그램 메모리로 구성되어 상기 제1, 제2프로세서(50)(70)의 전용 메모리용 사용되는 로컬 메모리(40)(80)와; 상기 문자 인식시 필요한 데이타를 저장하는 글로벌 메모리(90)로 구성한다.
이와 같이 구성된 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.
문서를 스캐너(20)가 스캔한 후 이진 데이타로 변환시켜 호스트 컴퓨터(10)로 전송하면, 상기 호스트 컴퓨터(10)는 제1프로세서(50)와 제2프로세서(70)를 통해 한글과 영문자를 판별한다.
한글과 영문자 판별은, 먼저 도 4a에서와 같이 360°에 대해 16방향 코드로 나누고, 입력된 문자에 대하여 16방향의 최외곽점을 추출하도록 한다.
그러면 0의 경우 도 4b에서와 같은 최 외곽점을 추출하게 되고, 기호 +의 경우에는 도 4c에서와 같은 최 외곽점을 추출하게 된다.
이렇게 하여 추출된 외곽점과 외곽점 사이에 오목영역(Concave Zone)과 블록영역(Convex Zone)이 존재하게 된다.
상기에서와 같이 최 외곽점을 추출한 다음 입력된 문자에 대해 각 방향의 외곽점과 외곽점 사이에서 아래와 같은 특징벡터들을 추출하도록 한다.
1) L1 : 도 5a에서와 같이 최 외곽점 S와 E 사이에 연결된 외곽(Contour)의 총길이를 L1이라 한다.
2) L2 : 도 5b에서와 같이 최 외곽점 S와 E사이의 직선거리를 L2라 한다.
3) G(Gx, Gy) : 도 5c에서와 같이 라인 세그먼트의 중심점에서 수직방향 길이의 ⅔점 거리를 나타낸다.
4) ρ : 선분 SE와 G(Gx, Gy)간의 최저거리를 나타내며 아래식과 같이 나타낸다.
ρ=[(Sy-Ey)(Gx-Sx)-(Sx-Ex)(Gy-Sy)]/L2
5) 세타(θ) : 최외곽점 S와 E 사이를 직선으로 연결했을 때 기울어진 각도를 나타낸다.
즉, 오목부분(Concave)을 형성하는 외곽점과 외곽점을 연결하여 만들어지는 기울기를 추출하는 방법으로, 도 6a에서와 같이 두개의 외곽점을 연결한 기울기가 수평선분이면 세타(Theta)는 0°이고, 수직선분이면 90°가 된다.
상기에서와 같이 오목부분의 기울기를 추출하면 영문자 X에 대해서는 0°가 2개, 90°가 2개인 기울기 값을 나타내게 된다.
따라서 90°, 180°, 270°와 같이 각각 서로다른 기울기로 표현할 수 있도록, 도 6b에서와 같이, 각 오목부분에 대해 수평선분인 0°에서 수직선분인 90°까지의 기울기 세타를 추출한 다음 해당하는 오목부분의 방향이 도 5a에서 설정한 방향코드 1에서 4이내이면 180도-세타(θ)를 구하고 이때의 분포가능한 기울기는 90°에서 180°가 된다.
오목부분의 방향이 5에서 8이내이면 180+세타(θ)를 구하며 분포가능한 기울기는 180°에서 270°사이가 되고, 오목부분의 방향이 9에서 12이내이면 360도-세타(θ)를 구하며 분포 가능한 기울기는 270°에서 360°사이가 된다.
그리고 오목부분의 방향이 13에서 16 사이이면 구해진 세타값 자체가 기울기가 되며 분포 가능한 기울기는 0°에서 90°사이가 된다.
이와 같이 추출된 오목부분의 기울기는 문자 인식시에 유용한 정보로 이용된다.
6) D12 : 최외곽점 S와 E 사이에 연결된 외곽(Contour)의 총길이와 직선거리의 비(L2/L1)이다.
7) L12 : 최외곽점 S와 E 사이에 연결된 외곽의 총길이와 직선거리의 차(L1-L2)이다. 이상에서와 같이 16방향에 대한 최외곽점을 추출하고, 이 추출한 최외곽점에 의해 형성되는 오목부분을 이용하여 특징벡터들을 추출하여 글로벌 메머리(90)에 저장된다.
다음으로 입력된 문자에 대하여 3개의 구조적 특성요소를 이용하여 같은 성질을 갖는 후보끼리 분류하는데, 이에 대하여 살펴보자.
첫째, 서로 연결되지 않은 스트로크(Disconnecter Stroke) 또는 컨튜어(Contour)의 갯수를 구한다.
즉 한글은 자음과 모음이 서로 복합되어 하나의 문자를 이루지만 영문자는 하나의 획이 한 문자를 이루기 때문에 한글자 영문자의 판별정보에 유용하다.
서로 연결되지 않은 스트로크 또는 컨츄어의 갯수는 윤곽선의 궤적이 서로 연결되지 않고 독립적으로 존재하는 경우 이들의 총합이다.
예를 들어, 도 7a에서와 같이, 문자 i의 경우 윤곽선의 궤적이 두 개가 존재하므로 그 갯수는 2가 되고, L의 경우는 윤곽선의 궤적이 하나만 존재하므로 1이 되고, 문자 명인 경우에는 독립으로 세개의 궤적이 존재하므로 이 값은 3이 된다.
둘째, 홀의 갯수를 구한다.
즉 하나의 문자에 존재하는 홀(Hole)의 총 갯수를 나타낸다.
예를 들어, 도 7b에서와 같이, 문자 k의 경우 홀이 존재하지 않으므로 이 경우는 0이 되고, 문자 e의 경우에는 1이 되고, 문자 명인 경우에는 2개가 존재한다.
세째, 오목부분(Concave)의 갯수를 구한다.
즉, 하나의 문자에서 추출된 오목부분을 모두 합한 갯수이다.
예를 들어, 도 7c에서와 같이, 문자 k의 경우 3개가 존재하고, 문자 국자인 경우에는 4개가 존재한다.
이상에서 추출한 컨튜어의 갯수, 홀의 갯수, 그리고 오목부분의 갯수를 이용하여 각 그룹을 결정한다.
이렇게 각 그룹이 결정되면 그 그룹을 찾아 한글인지 영문자인지 판별할 수 있게 된다.
즉, 문자 명자의 경우 컨튜어의 갯수가 3, 홀의 갯수가 2, 그리고 오목부분의 갯수가 3이므로 이와 같은 그룹(G)에는 영문자가 하나도 존재하지 않는다.
따라서 G : 323 그룹에 속하는 문자는 모두 한글로 판별된다.
그러나 영문자 J나 한글 그는 모두 G : 102 그룹에 속하므로 이 그룹 정보만으로는 한글인지 영문자인지를 판별할 수 없다.
따라서 상기에서와 같은 그룹안에서 한글과 영문을 판별하기 위하여 특징추출시 구한 오목부분의 기울기인 세타와, 아래에서와 같은 유사도 성능지수(Dj)를 이용하여 유사도를 구하고, 이 유사도의 값을 이용하여 최종적으로 한글/영문자 판별을 수행한다.
상기 식에서 Wi는 각 벡터의 가중치이고, Li는 i번째 벡터의 최소값이고, Ii는 입력문자의 i번째 벡터값이고, Ui는 i번째 벡터의 최대값이 된다.
상기 식에 의해 유사도를 측정하여 가장높은 유사도, 즉 유사도 성능지수(Dj)가 가장 적은 값을 이용하여 한글과 영문을 판별한다.
상술한 바와 같이, 본 발명은 한글과 영문자가 갖는 구조적 특성인 컨튜어의 갯수, 홀의 갯수, 그리고 오목부분의 갯수를 이용하여 같은 성질을 갖는 후보들끼리 분류하여 그룹을 형성하고, 최종적으로 같은 그룹내에서 오목부분의 기울기인 세타와 유사도를 비교하여 한글과 영문을 판별하도록 함으로써 정확한 판별이 가능하도록 한 효과가 있다.

Claims (6)

  1. 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제1단계와; 상기 제1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제2단계와; 상기 제2단계에서 추출한 특징벡터들과 한글과 영문자가 갖는 구조적 특성을 이용하여 같은 성질을 갖는 후보들끼리 분류하는 제3단계와; 상기 제3단계에서 분류한 후보문자에 대해 제2단계에서 추출한 특징중 오목부분의 기울기인 세타와 유사도 성능지수를 이용하여 한글과 영문자를 판별하는 제4단계로 이루어짐을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  2. 제1항에 있어서, 구조적 특성에 의한 후보 분류는 서로 연결되지 않은 스트로크(컨튜어)의 갯수, 홀의 갯수 그리고 오목부분의 갯수를 이용하여 분류하도록 함을 특징으로 하는 것을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  3. 제2항에 있어서, 서로 연결되지 않은 스트로크의 갯수는 하나의 문자에서 윤곽선의 궤적이 서로 연결되지 않고 독립적으로 존재하는 경우 이들의 총합을 나타냄을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  4. 제2항에 있어서, 홀의 갯수는 하나의 문자에 존재하는 홀(Hole)의 총 갯수를 나타냄을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  5. 제2항에 있어서, 오목부분의 갯수는 하나의 문자에서 추출된 오목부분을 모두 합한 갯수임을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  6. 제1항에 있어서, 유사도 성능지수(Dj)는 다음과 같은 공식으로 이루어짐을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
    단, Wi는 각 벡터의 가중치, Li는 i번째 벡터의 최소값, Ii는 입력문자의 i번째 벡터값, Ui는 i번째 벡터의 최대값.
KR1019960067888A 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법 KR100206827B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960067888A KR100206827B1 (ko) 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960067888A KR100206827B1 (ko) 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법

Publications (2)

Publication Number Publication Date
KR19980049215A KR19980049215A (ko) 1998-09-15
KR100206827B1 true KR100206827B1 (ko) 1999-07-01

Family

ID=19489184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960067888A KR100206827B1 (ko) 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법

Country Status (1)

Country Link
KR (1) KR100206827B1 (ko)

Also Published As

Publication number Publication date
KR19980049215A (ko) 1998-09-15

Similar Documents

Publication Publication Date Title
JP4350109B2 (ja) 走査された及びリアルタイムの手書き文字の識別を行う文字認識システム
Ghosh et al. Script recognition—a review
Yamada et al. Cursive handwritten word recognition using multiple segmentation determined by contour analysis
Dholakia et al. Zone identification in the printed Gujarati text
Kompalli et al. Challenges in OCR of Devanagari documents
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Nguyen et al. A segmentation method of single-and multiple-touching characters in offline handwritten japanese text recognition
Khayyat et al. Arabic handwritten word spotting using language models
Jlaiel et al. Three decision levels strategy for Arabic and Latin texts differentiation in printed and handwritten natures
KR100206827B1 (ko) 문자 인식을 위한 한글/영문 판별방법
Amrouch et al. A novel feature set for recognition of printed amazigh text using maximum deviation and hmm
Ouadid et al. Tifinagh Printed Character Recognition through Structural Feature Extraction
Koga et al. Segmentation of Japanese handwritten characters using peripheral feature analysis
KR0186172B1 (ko) 문자 인식장치의 접촉문자 분리 및 특징 추출방법
Tou et al. Automatic recognition of handwritten characters via feature extraction and multi-level decision
Khayyat et al. Verification of hierarchical classifier results for handwritten Arabic word spotting
Bushofa et al. Segmentation and Recognition of Printed Arabic Characters.
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JP3374762B2 (ja) 文字認識方法及びその装置
Amin Recognition of printed Arabic text using machine learning
JP2001092924A (ja) パターン認識方法および装置
KR100332752B1 (ko) 문자인식방법
KR100473660B1 (ko) 단어인식방법
JP3151866B2 (ja) 英文字認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070329

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee