KR19990049667A - 한글 문자체 인식 방법 - Google Patents

한글 문자체 인식 방법 Download PDF

Info

Publication number
KR19990049667A
KR19990049667A KR1019970068639A KR19970068639A KR19990049667A KR 19990049667 A KR19990049667 A KR 19990049667A KR 1019970068639 A KR1019970068639 A KR 1019970068639A KR 19970068639 A KR19970068639 A KR 19970068639A KR 19990049667 A KR19990049667 A KR 19990049667A
Authority
KR
South Korea
Prior art keywords
character
extracting
individual characters
characters
recognition method
Prior art date
Application number
KR1019970068639A
Other languages
English (en)
Other versions
KR100285765B1 (en
Inventor
이영태
Original Assignee
구자홍
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자 주식회사 filed Critical 구자홍
Priority to KR1019970068639A priority Critical patent/KR100285765B1/ko
Publication of KR19990049667A publication Critical patent/KR19990049667A/ko
Application granted granted Critical
Publication of KR100285765B1 publication Critical patent/KR100285765B1/ko

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

본 발명은 자소분리 및 문자단위 인식 방법을 병행하여 문자인식률을 향상시킬 수 있는 한글 문자체 인식 방법에 관한 것이다.
본 발명의 한글 문자체 인식 방법은 입력된 문서 영상에 대한 데이터 값으로부터 문자열을 개별 문자로 분리하는 1단계와, 개별 문자에 대한 유형 분류를 수행하여 문자인식 방법을 결정하는 2단계와, 상기 단계에서 자소분리의 인식방법으로 결정된 경우 상기 개별문자의 자소를 분리하여 인식하고 인식된 자소를 조합하여 하나의 문자로 출력하는 3단계와, 상기 단계에서 문자단위의 인식방법으로 결정된 경우 상기 개별문자를 문자단위로 인식하여 인식된 문자를 출력하는 4단계와, 출력된 문자를 저장하는 5단계를 포함하는 것을 특징으로 한다.
본 발명에 의하면, 개별문자로 분리한 영상을 자소분리의 인식 방법과 문자단위의 인식 방법을 병행하여 문자를 인식하므로써, 문자 인식률을 높일 수 있다.

Description

한글 문자체 인식 방법(Method for Appreciating Character of the Korean Language)
본 발명은 문자인식에 관한 것으로, 특히 자소분리 및 문자단위 인식방법을 병행하여 문자인식률을 향상시킬 수 있는 한글 문자체 인식 방법에 관한 것이다.
통상의 한글 인식 방법으로는 자소 분리에 의한 인식 방법과 문자 단위의 인식 방법을 사용하고 있다. 자소 분리에 의한 인식 방법은 깨끗한 영상에 대하여 효과적이나 잡영 또는 획들이 서로 끊어진 경우에는 오인식이 많았다. 문자 단위의 인식 방법은 잡영과 획들이 끊어진 문자들의 인식에는 자소 분리에 의한 방법보다 효과적이지만 인식 대상 패턴들이 많아짐에 따라 깨끗한 영상도 오인식하게 되는 단점이 있다. 여기서, 도 1을 참조하여 자소 분리에 의한 한글 문자 인식 방법을 상세히 살펴보면 다음과 같다.
도 1은 통상의 자소분리에 의한 한글 문자체 인식 방법을 설명하는 흐름도이다.
도 1의 제 1단계에서 스캐너로부터 문서 영상의 이진 데이터 값을 입력받은 후 문자열을 각 문자 단위로 추출하여 입력한다. 제 2단계에서 추출된 각 문자에 대해 인식을 수행하기 위한 하나의 방법으로 문자 내에 존재하는 자소들을 추출해낸다. 제 3단계에서 추출된 자소에 대해 똑같은 간격의 그물눈 영역에서 흑화소밀도를 이용하여 특징을 추출한다. 제 4단계에서 상기와 같은 그물눈 영역내에서 각 자소의 레퍼런스(Reference)와 추출된 입력 문자의 특징과 비교하여 가장 유사도가 높은 자소를 인식한다(제5단계). 제 6단계에서 인식된 자소들을 조합하여 하나의 인식된 문자로 출력한다.
그런데, 상기 한글 문자체 인식 방법에 있어서 가장 큰 문제점은 다양한 폰트(Font)의 문자 변형에 따라 자소들의 정확한 분리와 인식이 어렵다는 것이다. 다시 말하여, 입력된 문자에 대해 자소 분리를 수행하면 정확하게 자소 추출이 되지 않거나, 또는 획의 두께, 잡음, 폰트 등에 따라 도 2에 도시된 바와 같이 자소의 형태가 조금씩 변형된다. 이에 따라, 상술한 자소분리에 의한 한글 문자체 인식 방법에서 제3 내지 제5 단계에서 수행되는 특징추출과 유사도 측정 및 자소 단위 인식 방법으로는 상기 자소 변형에 적응하지 못하여 오인식이 발생하게 된다.
따라서, 본 발명의 목적은 자소분리에 의한 인식과 문자단위의 인식을 병행하여 한글 문자의 인식률을 높일 수 있는 한글 문자에 인식 방법을 제공하는 것이다.
본 발명의 다른 목적은 입력되는 영상에 따라 자소분리 및 문자단위의 인식방법 중 어느 하나를 자동으로 선택하므로써, 문자인식 속도를 단축할 수 있는 한글 문자체 인식 방법을 제공하는 것이다.
제 1 도는 통상의 한글 문자체 인식 방법을 설명하는 흐름도.
제 2도는 제1도의 실시예에서 폰트에 따라 변형된 자소를 도시한 도면.
제 3 도는 본 발명에 따른 한글 문자체 인식 방법을 설명하기 위한 문자인식 시스템의 구성을 도시한 블록도.
제 4 도는 본 발명에 따른 한글 문자체 인식 방법을 설명하는 흐름도.
제 5 도는 제4도에 도시된 유형분류 단계를 상세히 설명하는 흐름도.
* 도면의 주요부분에 대한 부호의 설명
2 : 호스트 컴퓨터 4 : 스캐너
6 : CC1(Communication Control) 8,16 : 로컬 메모리
10 : PE1(Processing Element) 12 : CC2
14 : PE2 18 : 글로벌 메모리
상기 목적을 달성하기 위하여, 본 발명에 따른 한글 문자체 인식 방법은 입력된 문서 영상에 대한 데이터 값으로부터 문자열을 개별 문자로 분리하는 1단계와, 개별 문자에 대한 유형 분류를 수행하여 문자인식 방법을 결정하는 2단계와, 상기 단계에서 자소분리의 인식방법으로 결정된 경우 상기 개별문자의 자소를 분리하여 인식하고 인식된 자소를 조합하여 하나의 문자로 출력하는 3단계와, 상기 단계에서 문자단위의 인식방법으로 결정된 경우 상기 개별문자를 문자단위로 인식하여 인식된 문자를 출력하는 4단계와, 출력된 문자를 저장하는 5단계를 포함하는 것을 특징으로 한다.
본 발명의 상기 목적 및 그 밖의 목적 및 이점은 후술될 본 발명의 실시예에 대한 상세한 설명을 통하여 보다 명확해질 것이다.
이하, 도 3 내지 도 5를 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 3은 본 발명에 따른 한글 문자체 인식 방법을 설명하기 위한 문자인식 시스템의 구성을 도시한 블록도이다.
도 3의 문자 인식 시스템은 호스트 컴퓨터(2) 및 제1통신제어 채널(6)을 통해 스캐너(4)로부터 입력되는 문자 데이터를 글로벌 메모리(18)에 저장하는 제1문자인식부(Processing Element ; 10)와, 글로벌 메모리(18)에 저장된 데이터에 대한 문자인식을 제1문자인식부(10)와 동시에 수행하는 제2문자인식부(14)와, 제1 및 제2 문자인식부(10,14)의 인터페이스를 수행하는 제2 통신제어 채널(12)과, 제1 및 제2 문자인식부(10,14) 각각의 전용 메모리인 제1 및 제2 로컬 메모리(8,16)를 구비한다.
도 3의 문자인식 장치에서 호스트 컴퓨터(2)는 스캐너(4)를 제어하고, 제1문자인식부(10)와 제2문자인식부(14) 간의 통신을 통해 문자인식용 프로그램의 다룬로딩(Down Loading)과 인식된 결과의 업 로딩(Up Loading) 등의 제어를 수행한다. 먼저, 인식하고자 하는 문서는 호스트 컴퓨터(2)의 제어에 의해 스캐너(4)로부터 이진 데이터 형태로 입력되고, 이 데이터는 문자인식을 수행하기 위해 제1 문자인식부(10)의 제어에 의해 제1 통신채널(6)을 통해 글로벌 메모리(18)에 저장된다. 제1 및 제2 문자인식부(10,14) 각각은 글로벌 메모리(18)에 저장된 데이터를 억세스하여 문자인식을 동시에 수행한다. 여기서, 제1 문자인식부(10)는 문자 데이터에서 각 문자단위로 절출하고, 제2 문자인식부(14)를 도와서 문자인식을 수행한다. 제1 문자인식부(14)는 문자인식을 전용으로 수행한다. 제1문자인식부(10)에서 문자단위로 절출한 정보와 제2 문자인식부(14)에서 인식된 결과는 제2 통신제어 채널(12)를 통하여 양방향으로 전송된다. 제1 및 제2 로컬 메모리(8,16) 각각은 데이터 메모리와 프로그램 메모리로 구성되어 제1 및 제1 문자인식부(10,14)의 전용메모리로 사용된다.
본 발명에 따른 한글 문자체 인식 방법은 상술한 문자인식 시스템을 사용하여 개별문자로 분리한 영상을 자소분리하여 인식하는 방법과 자소분리를 하지않고 문자단위로 인식하는 방법을 병행하므로써, 문자를 인식한다. 그런데, 하나의 문자를 인식하는데 상기 두가지 방법을 매번 사용한다면 문자 인식 처리 속도는 느려지게 될 것이다. 따라서, 어떤 영상이 입력되었을때 입력 문자에 대한 유형 분류를 수행하여 가장 적당한 인식방법을 결정한 다음 어느 하나의 방법으로 문자인식을 수행함으로써, 자소분리에 의한 한글 인식 방법과 문자 단위의 한글 인식 방법의 장점을 모두 이용할 수 있게 된다. 따라서, 문자인식 성능을 개선할 수 있을 뿐만 아니라 가장 적당한 한가지 인식 방법을 결정하여 문자를 인식하므로써 문자 인식 처리시간을 단축할 수 있게 된다.
이를 상세히 하면 도 4 및 도 5에 도시된 바와 같다.
도 4는 본 발명에 따른 한글 문자체 인식 방법을 설명하는 흐름도가 도시되어있다.
제10단계에서 스캐너로부터 문서 영상의 이진 데이터 값을 입력받은 후 문자열을 개별 문자로 분리한다. 제12 단계에서 각 문자에 대한 유형 분류를 수행하여 가장 적당한 인식 방법을 결정한다.
도 5를 참조하면, 제121단계에서 개별문자로부터 수평 모음이 존재하는 영역을 먼저 추출한 다음 그 영역내에서 수평선을 추출하여 상하 돌기 영상의 존재유무를 판별하여 수평모음을 추출한다. 제122 단계에서 개별문자로부터 수직모음이 존재하는 영역을 추출한 다음 그 영역내에서 수직선을 검출하여 좌우 돌기 영상 유무를 판별한 다음 수직 모음을 추출한다. 제123 단계에서 윤곽(Contour) 알고리즘을 이용하여 개별문자의 내곽선 및 외곽선을 검출하여 조각난 획들의 위치 및 크기의 개수 정보를 추출한다. 제124 단계에서 상기 121단계 내지 123단계에서 추출한 개별문자에 대한 수평모음과 수직모음 및 조각난 획의 정보를 이용하여 다음과 같이 유형을 분류한다.
우선, 상기 수평모음과 수직모음을 이용하여 한글문자의 모음을 결정한다. 이어서, 결정된 모음과 조각난 획들의 모음 위치 및 크기와 개수 정보를 비교하여 서로 일치하면 제14 단계로 진행하여 자소 분리 인식 방법을 수행한다. 이는 모음이 정확히 인식된다면 자소 분리를 쉽게 수행할 수 있고, 자소 분리의 인식은 문자단위의 인식 방법보다 정확하기 때문이다. 이어서, 상기 단계에서 분리하여 인식된 자소들을 조합하여 하나의 인식된 문자로 출력하여 저장한다(제 18단계).
한편, 결정된 모음과 조각난 획들의 모음 위치 및 크기와 개수 정보가 서로 일치하지 않으면 제16단계로 진행하여 문자단위 인식 방법을 수행한다. 이는 모음인식이 정확하지 않은 경우 자소를 분리하더라도 정확히 분리되지 않으며 결과적으로 모음인식이 실패함으로써 엉뚱한 인식 결과를 보여주기 때문이다. 따라서, 이런 경우는 자소 분리의 인식 방법을 사용하지 않고 문자단위의 인식 방법을 사용함으로써 오인식률을 줄일 수 있게 된다. 이어서, 상기 단계에서 문자단위로 인식한 문자를 출력하여 저장한다(제18 단계).
이상 설명한 바와 같이, 본 발명에 따른 한글 문자체 인식 방법에 의하면, 개별문자로 분리한 영상을 자소분리하여 인식하는 방법과 자소분리를 하지않고 문자단위로 인식하는 방법을 병행하여 문자를 인식할 수 있다. 또한, 입력 문자에 대한 유형 분류를 수행하여 가장 적당한 인식방법을 결정한 다음 어느 하나의 방법으로 문자인식을 수행함으로써, 자소분리에 의한 한글 인식 방법과 문자 단위의 한글 인식 방법의 장점을 모두 이용할 수 있게 된다. 따라서, 문자인식 성능을 개선할 수 있을 뿐만 아니라 가장 적당한 한가지 인식 방법을 결정하여 문자를 인식하므로써 문자인식 처리시간을 단축할 수 있게 된다.
상술한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정하여져야만 한다.

Claims (8)

  1. 한글 문자체를 인식하는 방법에 있어서,
    입력된 문서 영상에 대한 데이터 값으로부터 문자열을 개별 문자로 분리하는 1단계와,
    상기 개별 문자에 대한 유형 분류를 수행하여 문자 인식 방법을 결정하는 2단계와,
    상기 단계에서 자소분리의 인식방법으로 결정된 경우 상기 개별문자의 자소를 분리하여 인식하고 인식된 자소를 조합하여 하나의 문자로 출력하는 3단계와,
    상기 단계에서 문자단위의 인식방법으로 결정된 경우 상기 개별 문자를 문자단위로 인식하여 인식된 문자를 출력하는 4단계와,
    상기 단계에서 출력된 문자를 저장하는 5단계를 포함하는 것을 특징으로 하는 한글 문자체 인식 방법.
  2. 제 1 항에 있어서,
    상기 2단계는
    개별문자로부터 수평 모음을 추출하는 단계와,
    개별문자로부터 수직 모음을 추출하는 단계와,
    개별문자로부터 조각난 획들의 정보를 추출하는 단계와,
    상기 수평모음 및 수직모음과 조각난 획의 정보를 이용하여 유형을 분류하는 단계를 포함하는 것을 특징으로 하는 한글 문자체 인식 방법.
  3. 제 2 항에 있어서,
    상기 수평모음을 추출하는 단계는
    상기 개별문자로부터 수평 모음이 존재하는 영역을 추출하는 단계와,
    상기 추출된 수평모음 영역내에서 수평선을 추출하여 상하 돌기 영상의 존재 유무를 판별하여 수평모음을 추출하는 단계를 포함하는 것을 특징으로 하는 한글 문자체 인식방법.
  4. 제 2 항에 있어서,
    상기 수직모음을 추출하는 단계는
    상기 개별문자로부터 수직 모음이 존재하는 영역을 추출하는 단계와,
    상기 추출된 수직모음 영역내에서 수직선을 검출하여 좌우 돌기 영상 유무를 판별한 다음 수직 모음을 추출하는 단계를 포함하는 것을 특징으로 하는 한글 문자체 인식 방법.
  5. 제 2 항에 있어서,
    상기 조각난 획들의 정보를 추출하는 단계는
    윤곽 알고리즘을 이용하여 개별문자의 내곽선 및 외곽선을 검출하는 단계와,
    상기 검출된 내곽선 및 외곽선으로부터 조각난 획들의 위치 및 크기와 개수 정보를 추출하는 단계를 포함하는 것을 특징으로 하는 한글 문자체 인식 방법.
  6. 제 2 항에 있어서,
    상기 유형을 분류하는 단계는
    상기 수평모음과 수직모음을 이용하여 상기 개별문자의 모음을 결정하는 단계와,
    상기 단계에서 결정된 모음과 상기 조각난 획들의 모음 정보를 비교하는 유형을 분류하는 단계를 포함하는 것을 특징으로 하는 한글 문자체 인식 방법.
  7. 제 6 항에 있어서,
    상기 단계에서 결정된 모음과 상기 조각난 획들의 모음 정보를 비교하여 서로 일치하는 경우 상기 자소 분리 인식 방법을 선택하는 것을 특징으로 하는 한글 문자체 인식 방법.
  8. 제 6 항에 있어서,
    상기 단계에서 결정된 모음과 상기 조각난 획들의 모음 정보를 비교하여 서로 일치하지 않는 상기 문자 단위 인식 방법을 선택하는 것을 특징으로 하는 한글 문자체 인식 방법.
KR1019970068639A 1997-12-13 1997-12-13 Method for recognizing hangul font KR100285765B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970068639A KR100285765B1 (en) 1997-12-13 1997-12-13 Method for recognizing hangul font

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970068639A KR100285765B1 (en) 1997-12-13 1997-12-13 Method for recognizing hangul font

Publications (2)

Publication Number Publication Date
KR19990049667A true KR19990049667A (ko) 1999-07-05
KR100285765B1 KR100285765B1 (en) 2001-01-05

Family

ID=37514510

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970068639A KR100285765B1 (en) 1997-12-13 1997-12-13 Method for recognizing hangul font

Country Status (1)

Country Link
KR (1) KR100285765B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100408082B1 (ko) * 2001-07-30 2003-12-03 (주)유라비젼 인식률 및 가독성이 높은 한글 필기용 광학적 문자인식입력 방법
KR100473660B1 (ko) * 2001-07-11 2005-03-10 가부시끼가이샤 도시바 단어인식방법
KR100479349B1 (ko) * 2002-12-12 2005-03-31 한국전자통신연구원 자소기반 문자인식기 성능 향상방법
KR100480024B1 (ko) * 1997-12-31 2005-08-01 엘지전자 주식회사 획의두께정보를이용한모음인식방법
KR102125056B1 (ko) * 2019-03-26 2020-06-19 부산대학교 산학협력단 혼합문자 자동인식을 위한 문자 및 서적 생성 시스템 및 방법 그리고 이를 이용한 검색 시스템 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101015233B1 (ko) * 2009-07-15 2011-02-18 엔에이치엔(주) 한글 문서에 포함된 문자를 인식하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100480024B1 (ko) * 1997-12-31 2005-08-01 엘지전자 주식회사 획의두께정보를이용한모음인식방법
KR100473660B1 (ko) * 2001-07-11 2005-03-10 가부시끼가이샤 도시바 단어인식방법
KR100408082B1 (ko) * 2001-07-30 2003-12-03 (주)유라비젼 인식률 및 가독성이 높은 한글 필기용 광학적 문자인식입력 방법
KR100479349B1 (ko) * 2002-12-12 2005-03-31 한국전자통신연구원 자소기반 문자인식기 성능 향상방법
KR102125056B1 (ko) * 2019-03-26 2020-06-19 부산대학교 산학협력단 혼합문자 자동인식을 위한 문자 및 서적 생성 시스템 및 방법 그리고 이를 이용한 검색 시스템 및 방법

Also Published As

Publication number Publication date
KR100285765B1 (en) 2001-01-05

Similar Documents

Publication Publication Date Title
CA1208784A (en) Method and apparatus for character recognition accommodating diacritical marks
KR101588890B1 (ko) 카메라 기반 영상의 문자 인식 및 번역 방법
US7162086B2 (en) Character recognition apparatus and method
EP1564675A1 (en) Apparatus and method for searching for digital ink query
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
JPH07200732A (ja) ワードオブジェクト抽出方法及びラスタ化イメージ内のノイズ除去方法
JPH11120293A (ja) 文字認識/修正方式
Zeki The segmentation problem in arabic character recognition the state of the art
WO2018090011A1 (en) System and method of character recognition using fully convolutional neural networks
US5621818A (en) Document recognition apparatus
KR19990049667A (ko) 한글 문자체 인식 방법
KR19980058361A (ko) 한글 문자 인식 방법 및 시스템
Al-Barhamtoshy et al. Arabic calligraphy, typewritten and handwritten using optical character recognition (OCR) system
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
JPH0528324A (ja) 英文字認識装置
KR100332752B1 (ko) 문자인식방법
KR100480024B1 (ko) 획의두께정보를이용한모음인식방법
JPH0452783A (ja) 図面読取装置
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
Tayyab et al. Visual News Ticker Surveillance Approach from Arabic Broadcast Streams.
JP2972443B2 (ja) 文字認識装置
Shah et al. WORD SPOTTING TECHNIQUES IN DOCUMENT ANALYSIS AND RETRIEVAL—A COMPREHENSIVE SURVEY
Bodduluri et al. A novel way of identifying telugu, tamil and english scripts by priority check using discerning features
Thakur et al. Offline Recognition of Image for content Based Retrieval
JPS60138689A (ja) 文字認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20061220

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee