KR19980049215A - 문자 인식을 위한 한글/영문 판별방법 - Google Patents

문자 인식을 위한 한글/영문 판별방법 Download PDF

Info

Publication number
KR19980049215A
KR19980049215A KR1019960067888A KR19960067888A KR19980049215A KR 19980049215 A KR19980049215 A KR 19980049215A KR 1019960067888 A KR1019960067888 A KR 1019960067888A KR 19960067888 A KR19960067888 A KR 19960067888A KR 19980049215 A KR19980049215 A KR 19980049215A
Authority
KR
South Korea
Prior art keywords
korean
english
extracted
character
characters
Prior art date
Application number
KR1019960067888A
Other languages
English (en)
Other versions
KR100206827B1 (ko
Inventor
이영태
최영우
Original Assignee
구자홍
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자 주식회사 filed Critical 구자홍
Priority to KR1019960067888A priority Critical patent/KR100206827B1/ko
Publication of KR19980049215A publication Critical patent/KR19980049215A/ko
Application granted granted Critical
Publication of KR100206827B1 publication Critical patent/KR100206827B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 문자 인식을 위한 한글/영문 판별방법에 관한 것으로, 종래에는 한글/영문 판별을 한글 모음의 긴 수직 획과 긴 수평 획을 찾아서 이들 정보의 유무로 판별하였는데 영문자에도 'H', 'T', 'E' 등과 같이 긴 수직 획이나 긴 수평 획이 존재하여 이들 정보만으로는 한글인지 영문자인지 판별하기 어려운 문제점이 있다. 따라서 본 발명은 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제 1단계와; 상기 제 1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제 2단계와; 상기 제 2단계에서 추출한 특징벡터들과 한글과 영문자를 갖는 구조적 특성을 이용하여 같은 성질을 갖는 후보들끼리 분류하는 제 3단계와; 상기 제 3단계에서 분류한 후보문자에 대해 제 2단계에서 추출한 특징중 오목부분의 기울기인 세타와 유사도 성능지수를 이용하여 한글과 영문자를 판별하는 제 4단계로 진행하여 한글과 영문자를 판별하여 보다 정확한 판별이 가능하도록 한다.

Description

문자 인식을 위한 한글/영문 판별방법
본 발명은 한글과 영문자가 포함된 문서를 인식하기 위하여 전처리 과정으로 반드시 필요한 한글/영문 판별 성능을 향상시켜 문자 인식율을 높이기 위한 것으로, 특히 한글과 영문자가 갖는 구조적 특성을 이용하여 한글과 영문을 판별하도록 함으로써 정확한 판별이 가능하도록 한 문자 인식을 위한 한글/영문 판별방법에 관한 것이다.
종래 문자 인식을 위한 한글/영문 판별방법은, 도 1에 도시된 바와 같이, 입력되는 문자를 받아 한글의 특징이 모음을 추출하는 제 1단계와; 상기 제 1단계에서 모음이 추출되면 한글로 판단하고 추출되지 않으면 영문자로 판별하는 제 2단계와; 상기 제 2단계에서 판별이 완료되면 그 판별한 결과를 저장하는 제 3단계로 이루어진다.
상기에서와 같이 각 단계로이루어진 종래 기술에 대하여 살펴보면 다음과 같다.
하나의 문자로 분리된 문자는 먼저 한글인지 영문자인지를 판별하여 각각의 인식기로 보낸다.
상기에서 한글인지 영문자인지의 판별은, 한글의 특징인 모음이 있는지 없는지를 추출하여 모음이 추출되면 한글로 판별하고 추출되지 않으면 영문자로 판별하였다.
즉, 한글의 모음이 갖는 특성인 긴 수직 획과 긴 수평 획의 존재 여부를 판단하여 한글과 영문자를 판별하였다.
그러나, 상기와 같은 종래의 기술에서 한글/영문 판별시 한글 모음의 긴 수직 획과 긴 수평 획을 찾아서 이들 정보의 유무로 판별할 경우 영문자의 'H', 'T', 'E' 등과 같이 긴 수직 획이나 긴 수평 획이 존재하여 이들 정보만으로는 한글인지 영문자인지 판별하기 어려운 문제점이 있다.
따라서, 상기에서와 같은 문제점을 해결하기 위한 본 발명의 목적은 한글과 영문자가 갖는 구조적 특성을 서로 비교하여 서로 연결되지 않은 스트로크(Disconnected Stroke 또는 contour)의 갯수, 홀(Hole)의 갯수, 그리고 오목부분(Concave)의 갯수를 이용하여 분류를 수행하고 최종적으로 같은 그룹내에서 유사도를 비교하여 한글과 영문자를 판별하도록 한 문자 인식을 위한 한글/영문 판별방법을 제공함에 있다.
도 1은 종래 문자 인식을 위한 한글/영문 판별방법에 대한 동작과정도.
도 2는 본 발명 문자 인식을 위한 한글/영문 판별방법에 대한 동작과정도.
도 3은 문자인식 시스템의 구성도.
도 4는 도 2에서, 최외곽 추출과정을 보여주는 설명도.
도 5는 도 2에서, 특징추출 과정을 보여주는 설명도.
도 6a는 도 5에서, 외곽점과 외곽점을 연결하여 얻어지는 기울기 추출 과정도.
도 6b는 도 5에서, 16방향코드 정보를 이용한 기울기 추출 과정도.
도 7a는 도 2에서, 한글/영문 판별시 각 문자별 컨튜어의 갯수를 보여주는 추출도.
도 7b는 도 2에서, 한글/영문 판별시 각 문자별 홀의 갯수를 보여주는 추출도.
도 7c는 도 2에서, 한글/영문 판별시 각 문자별 오목부분의 갯수를 보여주는 추출도.
* 도면의 주요부분에 대한 부호의 설명 *
10 : 호스트 컴퓨터20 : 스캐너
30 : 채널140 : 제 1로컬메모리
50 : 제 1프로세서60 : 채널2
70 : 제 2프로세서80 : 제 2로컬메모리
90 : 글로벌 메모리
상기 목적을 달성하기 위한 본 발명 문자 인식을 위한 한글/영문 판별방법은, 도 2에 도시한 바와 같이, 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제 1단계와; 상기 제 1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제 2단계와; 상기 제 2단계에서 추출된 오목부분으로 부터 방향성 정보를 이용하여 기울기를 추출하는 제 3단계와; 상기 각 단계에서 추출된 정보를 이용하여 같은 성질을 갖는 후보끼리 분류하는 제 4단계와; 상기 제 4단계에서 분류한 후보문자로부터 한글과 영문자를 구부하는 제 5단계로 이루어진다.
상기 각 단계로 이루어진 방법을 수행하기 위한 문자인식 시스템 구성은, 도 3에 도시한 바와 같이, 문서로부터 문자를 읽어들여 이진 데이타로 변환시켜 출력하는 스캐너(20)와; 상기 스캐너(20)를 통해 읽어들인 문서 데이타를 인식하고 한글인지 영문자인지를 판별하기 위한 각종 제어동작을 행하는 호스트 컴퓨터(10)와; 채널1(30)을 통해 호스트 컴퓨터(10)로부터 문서 데이타를 각 문자 단위로 절출하는 제 1프로세서(50)와; 채널2(60)를 통해 제 1프로세서(50)에서 절출된 문서 데이타에 대하여 문자 인식을 수행하는 제 2프로세서(70)와; 데이타 메모리와 프로그램 메모리로 구성되어 상기 제 1, 제 2프로세서(50)(70)의 전용 메모리로 사용되는 로컬 메모리(40)(80)와; 상기 문자 인식시 필요한 데이타를 저장하는 글로벌 메모리(90)로 구성한다.
이와 같이 구성된 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.
문서를 스캐너(20)가 스캔한 후 이진 데이타로 변환시켜 호스트 컴퓨터(10)로 전송하면, 상기 호스트 컴퓨터(10)는 제 1프로세서(50)와 제 2프로세서(70)를 통해 한글과 영문자를 판별한다.
한글과 영문자 판별은, 먼저 도 4a에서와 같이 360℃에 대해 16방향 코드로 나누고, 입력된 문자에 대하여 16방향의 최외곽점을 추출하도록 한다.
그러면 0의 경우 도 4b에서와 같은 최외곽점을 추출하게 되고, 기호 +의 경우에는 도 4c에서와 같은 최 외곽점을 추출하게 된다.
이렇게 하여 추출된 외곽점과 외곽점 사이에 오목영역(ConcaveZone)과 볼록영역(Convex Zone)이 존재하게 된다.
상기에서와 같이 최외곽점을 추출한 다음 입력된 문자에 대해 각 방향의 외곽점과 외곽점 사이에서 아래와 같은 특징벡터들을 추출하도록 한다.
1) L1 : 도 5a에서와 같이 최 외곽점 S와 E 사이에 연결된 외곽(Contour)의 총길이를 L1이라 한다.
2) L2 : 도 5b에서와 같이 최 외곽점 S와 E사이의 직선거리를 L2라 한다.
3) G(Gx, Gy) : 도 5c에서와 같이 라인 세그먼트의 중심점에서 수직방향 길이의 ⅔점 거리를 나타낸다.
4) ρ : 선분 SE와 G(Gx, Gy)간의 최적거리를 나타내며 아래식과 같이 나타낸다.
ρ = [(Sy-Ey)(Gx-Sx)-(Sx-Ex)(Gy-Sy)]/L2
5) 세타(θ) : 최외곽점 S와 E사이를 직선으로 연결했을 때 기울어진 각도를 나타낸다.
즉, 오목부분(Concave)을 형성하는 외곽점과 외곽점을 연결하여 만들어지는 기울기를 추출하는 방법으로, 도 6a에서와 같이 두개의 외곽점을 연결한 기울기가 수평선분이면 세타(Theta)는 0°이고, 수직선분이면 90°가 된다.
상기에서와 같이 오목부분의 기울기를 추출하면 영문자 X에 대해서는 0°가 2개, 90°가 2개인 기울기 값을 나타내게 된다.
따라서 90°, 180°, 270°와 같이 각각 서로다른 기울기로 표현할 수 있도록, 도 6b에서와 같이, 각 오목부분에 대해 수평선분인 0°에서 수직 선분인 90°까지의 기울기 세타를 추출한 다음 해당하는 오목부분의 방향이 도 5a에서 설정한 방향코드 1에서 4이내이면 180도-세타(θ)를 구하고 이때의 분포가능한 기울기는 90°에서 180°가 된다.
오목부분의 방향이 5에서 8이내이면 180+세타(θ)를 구하며 분포가능한 기울기는 180°에서 270°사이가 되고, 오목부분의 방향이 9에서 12이내이면 360도-세타(θ)를 구하며 분포 가능한 기울기는 270°에서 350°사이가 된다.
그리고 오목부분이 방향이 13에서 16사이이면 구해진 세타값 자체가 기울기가 되며 분포 가능한 기울기는 0°에서 90°사이가 된다.
이와 같이 추출된 오목부분의 기울기는 문자 인식시에 유용한 정보로 이용된다.
6) D12 : 최외곽점 S와 E사이에 연결된 외곽(Contour)의 총길이와 직선거리의 비(L2/L1)이다.
7) L12 : 최외곽점 S와 E사이에 연결된 외곽의 총길이와 직선거리의 차(L1-L2)이다.
이상에서와 같이 16방향에 대한 최외곽점을 추출하고, 이 추출한 최외곽점에 의해 형성되는 오목부분을 이용하여 특징벡터들을 추출하여 글로벌 메모리(9)에 저장된다.
다음으로 입력된 문자에 대하여 3개의 구조적 특성요소를 이용하여 같은 성질을 갖는 후보끼기 분류하는데, 이에 대하여 살펴보자.
첫째, 서로 연결되지 않은 스트로크(Disconnected Stroke) 또는 컨튜어(Contour)의 갯수를 구한다.
즉 한글은 자음과 모음이 서로 복합되어 하나의 문자를 이루지만 영문자는 하나의 획이 한 문자를 이루기 때문에 한글자 영문자의 판별정보에 유용하다.
서로 연결되지 않은 스트로크 또는 컨튜어의 갯수는 윤곽선의 궤적이 서로 연결되지 않고 독립적으로 존재하는 경우 이들의 총합이다.
예를 들어, 도 7a에서와 같이, 문자 i의 경우 윤곽선의 궤적이 두 개가 존재하므로 그 갯수는 2가 되고, L의 경우는 윤곽선의 궤적이 하나만 존재하므로 1이 되고, 문자 명인 경우에는 독립적으로 세개의 궤적이 존재하므로 이 값은 3이 된다.
둘째, 홀의 갯수를 구한다.
즉 하나의 문자에 존재하는 홀(Hole)의 총 갯수를 나타낸다.
예를 들어, 도 7b에서와 같이, 문자 k의 경우 홀이 존재하지 않으므로 이 경우는 0이되고, 문자 e의 경우에는 1이 되고, 문자 명인 경우에는 2개가 존재한다.
세째, 오목부분(Concave)의 갯수를 구한다.
즉, 하나의 문자에서 추출된 오목부분을 모두 합한 갯수이다.
예를 들어, 도 7c에서와 같이, 문자 k의 경우 3개가 존재하고, 문자 국자인 경우에는 4개가 존재한다.
이상에서 추출한 컨튜어의 갯수, 홀의 갯수, 그리고 오목부분의 갯수를 이용하여 각 그룹을 결정한다.
이렇게 각 그룹이 결정되면 그 그룹을 찾아 한글인지 영문자인지 판별할 수 있게 된다.
즉, 문자 명자의 경우 컨튜어의 갯수가 3, 홀의 갯수가 2, 그리고 오목부분의 갯수가 3이므로 이와같은 그륩(G)에는 영문자가 하나도 존재하지 않는다.
따라서 G:323 그룹에 속하는 문자는 모두 한글로 판별된다.
그러나 영문자 J나 한글 그는 모두 G:102 그룹에 속하므로 이 그룹 정보만으로는 한글인지 영문자인지를 판별할 수 없다.
따라서 상기에서와 같은 그룹안에서 한글과 영문을 판별하기 위하여 특징추출시 구한 오목부분의 기울기인 세타와, 아래에서와 같은 유사도 성능지수(Dj)를 이용하여 유사도를 구하고, 이 유사도의 값을 이용하여 최종적으로 한글/영문자 판별을 수행한다.
i=1~M(벡터의 갯수)
j=1~후보문자의 갯수
상기 식에서 Wi는 각 벡터의 가중치이고, Li는 i번째 벡터의 최소값이고, Ii는 입력문자의 i번째 벡터값이고, Ui는 i번째 벡터의 최대값이 된다.
상기 식에 의해 유사도를 측정하여 가장높은 유사도, 즉 유사도 성능지수(Dj)가 가장 적은 값을 이용하여 한글과 영문을 판별한다.
상술한 바와 같이, 본 발명은 한글과 영문자가 갖는 구조적 특성인 컨튜어의 갯수, 홀의 갯수, 그리고 오목부분의 갯수를 이용하여 같은 성질을 갖는 후보들끼리 분류하여 그룹을 형성하고, 최종적으로 같은 그룹내에서 오목부분의 기울기인 세타와 유사도를 비교하여 한글과 영문을 판별하도록 함으로써 정확한 판별이 가능하도록 한 효과가 있다.

Claims (6)

  1. 입력되는 문자에 대하여 16방향의 최 외곽점을 추출하는 제 1단계와; 상기 제 1단계에서 추출한 각 방향의 최 외곽점 사이에서 특징벡터들을 추출하는 제 2단계와; 상기 제 2단계에서 추출한 특징벡터들과 한글과 영문자를 갖는 구조적 특성을 이용하여 같은 성질을 갖는 후보들끼리 분류하는 제 3단계와; 상기 제 3단계에서 분류한 후보문자에 대해 제 2단계에서 추출한 특징중 오목부분의 기울기인 세타와 유사도 성능지수를 이용하여 한글과 영문자를 판별하는 제 4단계로 이루어짐을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  2. 제 1항에 있어서, 구조적 특성에 의한 후보 분류는 서로 연결되지 않은 스트로크(컨튜어)의 갯수, 홀의 갯수 그리고 오목부분의 갯수를 이용하여 분류하도록 함을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  3. 제 2항에 있어서, 서로 연결되지 않은 스트로크의 갯수는 하나의 문자에서 윤곽선의 궤적이 서로 연결되지 않고 독립적으로 존재하는 경우 이들의 총 합을 나타냄을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  4. 제 2항에 있어서, 홀의 갯수는 하나의 문자에 존재하는 홀(hole)의 총 갯수를 나타냄을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  5. 제 2항에 있어서, 오목부분의 갯수는 하나의 문자에서 추출된 오목부분을 모두 합한 갯수임을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
  6. 제 1항에 있어서, 유사도 성능지수(Dj)는 다음과 같은 공식으로 이루어짐을 특징으로 하는 문자 인식을 위한 한글/영문 판별방법.
    i=1~M(벡터의 갯수)
    j=1~후보문자의 갯수
    단, Wi는 각 벡터의 가중치, Li는 i번째 벡터의 최소값, Ii는 입력문자의 i번째 벡터값, Ui는 i번째 벡터의 최대값.
KR1019960067888A 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법 KR100206827B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960067888A KR100206827B1 (ko) 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960067888A KR100206827B1 (ko) 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법

Publications (2)

Publication Number Publication Date
KR19980049215A true KR19980049215A (ko) 1998-09-15
KR100206827B1 KR100206827B1 (ko) 1999-07-01

Family

ID=19489184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960067888A KR100206827B1 (ko) 1996-12-19 1996-12-19 문자 인식을 위한 한글/영문 판별방법

Country Status (1)

Country Link
KR (1) KR100206827B1 (ko)

Also Published As

Publication number Publication date
KR100206827B1 (ko) 1999-07-01

Similar Documents

Publication Publication Date Title
JP4350109B2 (ja) 走査された及びリアルタイムの手書き文字の識別を行う文字認識システム
US6144764A (en) Method and apparatus for on-line handwritten input character recognition and recording medium for executing the method
EP0355748A2 (en) A pattern recognition apparatus and method for doing the same
Yamada et al. Cursive handwritten word recognition using multiple segmentation determined by contour analysis
EP0436819A2 (en) Handwriting recognition employing pairwise discriminant measures
Kompalli et al. Challenges in OCR of Devanagari documents
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
US20060110041A1 (en) Segmentation-based recognition
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Khayyat et al. Arabic handwritten word spotting using language models
KR100206827B1 (ko) 문자 인식을 위한 한글/영문 판별방법
Procter et al. Cursive handwriting recognition using hidden Markov models and a lexicon-driven level building algorithm
Amrouch et al. A novel feature set for recognition of printed amazigh text using maximum deviation and hmm
Koga et al. Segmentation of Japanese handwritten characters using peripheral feature analysis
Tou et al. Automatic recognition of handwritten characters via feature extraction and multi-level decision
Khayyat et al. Verification of hierarchical classifier results for handwritten Arabic word spotting
Bushofa et al. Segmentation and Recognition of Printed Arabic Characters.
Amin Recognition of printed Arabic text using machine learning
KR100332752B1 (ko) 문자인식방법
KR960013818B1 (ko) 다중획인식을 이용한 한글조합인식장치
JP2866920B2 (ja) 標準パターン作成方法及び装置並びに文字認識装置及び方法
KR100473660B1 (ko) 단어인식방법
JPH0636174B2 (ja) 文字列対応線分抽出方式
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP3151866B2 (ja) 英文字認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070329

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee