KR100248384B1 - 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 - Google Patents

다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 Download PDF

Info

Publication number
KR100248384B1
KR100248384B1 KR1019970067558A KR19970067558A KR100248384B1 KR 100248384 B1 KR100248384 B1 KR 100248384B1 KR 1019970067558 A KR1019970067558 A KR 1019970067558A KR 19970067558 A KR19970067558 A KR 19970067558A KR 100248384 B1 KR100248384 B1 KR 100248384B1
Authority
KR
South Korea
Prior art keywords
character
characters
individual
extracting
recognition
Prior art date
Application number
KR1019970067558A
Other languages
English (en)
Other versions
KR980004113A (ko
Inventor
오원근
문경애
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019970067558A priority Critical patent/KR100248384B1/ko
Publication of KR980004113A publication Critical patent/KR980004113A/ko
Application granted granted Critical
Publication of KR100248384B1 publication Critical patent/KR100248384B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

본 발명은 한글, 한자, 영·수·부호 문자가 혼용된 다국어 문서(multilingual document)를 대상으로 하는 개별 문자 추출(individual character extraction) 방법 및 그 인식 시스템에 관한 것이다.
본 발명은 다양한 폰트 크기, 하나의 글자가 두 조각으로 가로 분리되는 문자, 그리고 붙은 문자나 겹친 문자와 같은 다국어 문서에서 많이 발생되는 문자 분리시의 어려움을 해결한 개별 문자 추출 방법을 제공한다.
본 발명의 상기 개별 문자 추출 방법은 문자 인식기의 결과값을 이용하는 방법으로 수직 화소 투영에 의한 1차 문자 추출 과정, 두 조각 이상으로 가로 분리된 문자를 병합할지를 판정하고 병합을 수행하는 2차 문자 추출 과정, 그리고 붙은 문자나 겹친 문자를 재 분리 할지를 판정하고 재분리 대상에 대해 재분리를 수행하는 3차 문자 추출 과정으로 구성되는 방법을 제공한다. 상기 2차 문자 추출 과정과 3차 문자 추출 과정에서의 판정 단계에서는 다단계 인식기를 통해 얻어진 결과값인 두개의 인식 정합도를 이용함을 특징으로 한다.

Description

다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템
본 발명은 한글, 한자, 영·수·부호 문자가 혼용된 다국어 문서 인식을 위한 전처리 단계로서 다단계 문서 인식기를 통해 얻어진 결과값을 이용한 개별 문자 추출 방법 및 그 인식 시스템에 관한 것으로, 특히 혼용 문서에서 많이 발생되는 겹친 문자 및 붙은 문자의 분리를 효과적으로 수행하여 궁극적으로 전체 인식기의 성능을 향상시키는 방법 및 그 시스템에 관한 것이다.
일번적으로 개별 문자 추출이란 연속된 문자열 혹은 단어로부터 낱개의 문자를 추출하는 기술로, 이는 문서 인식에 선행되어야 할 문제 중의 하나이다. 그러나 지난 30여 년간 진행된 문자 인식에 관한 연구 결과에 따르면 인쇄체 문자에 대해서는 상당한 수준의 낱자 단위 인식율을 가지고 있음에도 불구하고 실제적인 문서를 입력할 경우 낱자 단위 인식율 보다 훨씬 낮은 성능을 보이고 있다. 그 이유를 살펴보면 일반적인 문서에 포함된 잡영이나 기타 영상 자체의 변형 등의 원인도 있으나, 인식기로 보내지는 낱자들이 정확하게 분할되지 않는 데서 오는 문자 오인식 오류를 가장 큰 이유로 들 수 있다. 즉, 연속된 문자열, 특히 문자들 간의 접촉이 있거나 하나의 문자가 두 개 이상의 영역으로 분리된 경우 문자열에서 낱자를 분할할 때 잘못 분할되어 인식기로 보내지는 경우 정확한 인식 결과를 기대하기 어렵다.
따라서, 기존의 다국어 문서 인식시스템에 있어서의 문자 분할 문제를 해결하기 위하여 인쇄체 영·수·부호 문자의 경우 자주 발생하는 접촉 유형들을 규정하고 분할 위치를 찾는 방법, 인식 결과를 이용하여 분할 위치를 찾는 방법, 분할 위치 인식 방법 등이 제안되어 있고, 한글의 경우에는 문자의 폭과 높이와의 비와 수직 투영 값 등을 이용하여 문자를 분할하는 방법이 제안되어 있고, 한글을 구성하는 모음이나 자음을 인식함으로써 문자의 경계를 찾는 방법도 제안되어 있다.
이러한 방법들은 영문 혹은 한글로만 이루어진 문서들을 대상으로 하고 있어서 크기 및 접촉 유형이 다른 문자들이 혼용된 문서의 경우 이러한 방법들을 그대로 적용할 수 없는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여, 다국어 문서 입력의 자동화를 위해 인식 결과와 결합된 문자 추출 방법을 통해 접촉 유형이 다양한 한글, 한자, 영.수.부호 문자가 혼용된 다국어 문서에서 문서에서 많이 발생되는 겹친 문자 및 붙은 문자의 분리를 효과적으로 수행하여 궁극적으로 전체 인식기의 성능을 향상시키는 방법을 제공함을 목적으로 한다.
도 1은 본 발명에 관한 다국어 문서 인식 시스템의 구성도
도 2는 본 발명에 관한 다국어 문서 인식 시스템를 나타내는 흐름도
도 3은 도 2에서의 개별 문자 추출 방법을 나타내는 흐름도
도 4는 도 3에서의 1차 문자 추출 과정을 나타내는 흐름도
도 5는 도 3에서의 2차 문자 추출 과정을 나타내는 흐름도
도 6은 도 3에서의 3차 문자 추출 과정을 나타내는 흐름도
도 7는 도 6의 분리 후보 위치를 결정하는 방법을 나타내는 설명도
도 8은 도 2에서의 문자 인식 방법을 나타내는 흐름도
*도면의 주요부분에 대한 부호의 설명
10 :문서 영상
11 : 저장된 문서 영상
12 : 광학 스캐너
13 : 스캐너 제어부
14 : 문자 영역 분리부
15 : 개별 문자 분리부
16 : 문자 인식부
17 : 문서 처리부
상기 목적을 달성하기 위한 본 발명의 개별 문자 추출은 문자 인식을 위한 전처리 단계로서 문자와 비문자 영역이 복잡하게 혼합된 문서에서 영역 분리에 의해 문자 영역을 추출하고 추출된 문자 영역으로부터 개별 문자를 추출하는 것으로, 정확한 개별 문자 추출은 문자 인식 시스템의 성능 향상에 중요한 요소로서 작용한다.
본 발명의 개별 문자 인식 시스템에 의한 개별 문자 추출 방법은 문자, 도표, 그림이 혼합된 다문서의 인식을 위해, 먼저 문서 영상에서 문자 영역을 분리 추출한다. 그 다음, 문자 영역 분석을 통해 얻은 각 연결 요소들의 정보를 이용하여 문자열을 찾은 후, 수직 투영을 통해 각 문자열을 개별 문자 블럭으로 1차 분리한다. 상기 1차 분리된 개별 문자 블럭은, 몇 개의 글자가 한 문자 블럭으로 오분리되거나, 한 글자가 여러 개의 문자 블럭으로 나누어질 경우가 발생하게 되므로, 이를 교정하기 위해 한글, 한자, 영·수·부호 문자 등 각 문자들의 실험적으로 얻은 특성 정보와 인식 결과를 이용하여 문자의 병합 및 붙은 문자 처리 수행 여부를 판정하여, 그 판정 단계의 결과에 따라 최종 개별 문자를 추출하는 방법을 제공한다.
이하, 본 발명의 실시예를 첨부도면에 의거하여 상세히 설명한다.
도 1은 본 발명에 관한 다국어 문서 인식 시스템의 구성도로, 본 시스템은 입력 수단인 광학 스캐너(12)를 스캐너 제어부(13)에 의해 구동하여 한글, 한자 및 영·수·부호 문자로 구성된 다국어 문서 영상(10)을 입력하거나, 이미 압축영상 등의 형태로 저장된 다국어 문서 영상(11)을 읽어 문서 영역 분리부(14), 개별 문자 분리부(15) 및 문자 인식부(16)로 구성된 문서 처리부(17)에서 수행되는 것이다.
도 2는 본 발명에 관한 다국어 문서 인식시스템을 나타내는 흐름도로, 다국어 문서 인식을 위한 개별 문자 추출 방법은 입력된 문서 영상(20)에서 문자 영역 을 추출하는 단계(21); 상기 추출된 문자 영역에서 문자열을 추출하는 단계 22; 상기 추출된 문자열 영상에서 문자 인식기(24)의 결과값을 이용하여 개별 문자를 추출하는 단계(23)로 이루어진다.
상기 입력된 문서 영상(20)으로부터 문자 영역과 비문자 영역을 분리하기 위하여 Bottom-Up방식의 분리 방법인 연결 요소 추출 방법에 의해 문자 영역을 추출(21)한다.
상기 문자 영역 추출(21) 과정은 우선, 연결 요소의 수와 처리 시간을 줄이기 위해 입력 문서 영상을 1/6로 축소하고, 축소된 영상의 각 행별로 스캔(scan) 하면서 8-방향의 연결된 런(run)들을 병합하여 연결 요소를 추출한다. 축소된 문서 영상에서 대부분 한 단어는 서로 붙어서 하나의 연결 요소로 추출되고, 추출된 모든 연결 요소의 속성 값 즉, 높이, 폭, 연결 요소의 흑화소수 및 인접 연결 요소들과의 거리 등을 계산하여 그 값에 의해 문서의 방향이 가로체인지 세로체인지를 결정하고, 그 속성값과 실험적 지식에 의해 각 연결 요소를 병합 또는 분리하여 입력 문서 영상에서 비문자 영역과 문자 영역을 분류한다.
상기 문자 영역 추출(21) 방법으로 문자 영역으로 추출된 문자 영역에 대해 문자열 추출(22)을 수행한다. 각 문자열은 문자 영역 내의 각 연결 요소들의 최소 외접 사각형에 대한 y축 상단, 하단 좌표 값의 조회에 의해 추출된다.
상기 문자열 추출(22) 방법은 각 연결 요소의 최소 외접 사각형들의 y축 상단 좌표값에 대해 오름차순으로 정렬하고, 정렬된 모든 최소 외접 사각형들 중 y축 상단 좌표값이 가장 작은 최소 외접 사각형으로부터 순차적으로 다음과 같이 조사하여, 각 각의 최소 외접 사각형(Bi)의 y축 상단 좌표값이 이전의 최소 외접 사각형들 즉, i-1번째까지의 최소 외접 사각형의 y축 하단 좌표값 중 최대값 보다 작으면, 그 최소 외접 사각형(Bi)을 현재 문자 행으로 포함시키고, 그렇지 않으면 새로운 문자 행으로 분리하여 각 문자 행을 추출하는 방법이다.
도 3은 도 2에서의 개별 문자 추출 방법을 나타내는 흐름도이고, 도 4는 도 3에서의 1차 문자 분리 과정을 나타내는 흐름도이고, 도 5는 도 3에서의 2차 문자 분리 과정을 나타내는 흐름도이고, 도 6은 도 3에서의 3차 문자 분리 과정을 나타내는 흐름도이고, 도 7는 도 6의 분리 후보 위치를 결정하는 방법을 나타내는 설명도로, 도 3의 개별 문자 추출 방법은 문자 인식기의 결과값을 이용하는 방법으로 수직 화소 투영에 의한 1차 문자 분리 과정(30), 두 조각 이상으로 가로 분리된 문자를 병합할지를 판정하고 병합을 수행하는 2차 문자 분리 과정(31), 그리고 붙은 문자나 겹친 문자를 재 분리 할지를 판정하고 재분리 대상에 대해 재분리를 수행하는 3차 문자 분리 과정(33)으로 거쳐 이루어진다. 상기 2차 문자 분리 과정과 3차 문자 분리 과정에서의 판정 단계에서는 다단계 인식기를 통해 얻어진 결과값인 두개의 인식 정합도를 이용하고 있다.
도 2의 문자 추출 방법에 의해 추출된 각 문자열 영상에 대해, 수직 방향 화소 투영을 통하여 1차 개별 문자 분리(30)을 통해 각 문자열의 높이와 각 각의 문자 사각형의 좌표값을 구하고, 그 좌표값으로 각 문자 사각형의 높이, 폭, 인접 문자 간의 거리 등의 정보를 계산(43)한다.
상기 1차 개별 문자 분리(30)시 두 조각으로 잘못 분리되는 것은, 한글 혹은 한자가 한 개 이상의 직사각형 문자 영역으로 구성되는데, 한글의 경우는 KS완성형 2,350자의 글자 중 95%는 한 개의 문자 사각형으로 구성되고, 약 5%는 두 개의 문자 사각형으로 구성되어 있으며, 실제로 작성된 일반 문서의 경우 두 개의 문자 사각형으로 구성된 글자의 비율은 보통 10% 이상이고, 또한 한자의 경우도 주로 사용되는 5401개의 한자 중 87%는 한 개의 직사각형으로 구성되고, 11%는 두 개, 2%는 그 이상의 직사각형으로 구성되어 있기 때문이다. 상기의 이유로 단순히 수직 투영을 통한 기본적인 문자 분리로는, 하나의 직사각형으로 구성되어야 할 문자 영역을 서로 다른 여러 개의 사각형으로 분리하게 되므로, 도 5와 같은 추가적인 병합 처리(32) 과정이 필요하게 된다. 병합여부를 판정하기 위하여 판정단계(51,53)에서는 1차 분리를 통해 얻어진 문자 사각형의 정보 즉, 문자 사각형의 폭, 다음 문자 사각형과의 간격, 다음 문자 사각형과 병합한 사각형의 폭 등을 통해 우선 사전 병합 대상 문자 사각형을 선정(51)한 후, 결합된 인식기의 두 개의 인식 정합도(M1:상세분류(81) 결과 값, M2: 유사문자 분류(82) 결과값)을 이용하여 둘 혹은 셋의 해당 문자 사각형들을 병합할지를 결정(53)한다. 인식 결과를 이용하지 않고 문자 사각형의 실험적인 정보만을 이용한 경우, 영문자 O 과 I 는 한글의 모음 ㅇ 와 자음 ㅣ 의 문자 사각형의 크기 및 간격 등의 정보와 흡사하므로, 이 둘의 문자 사각형을 병합하는 오류를 범할 수도 있다. 또한, 폭이 좁은 여러개의 문자 사각형이 이어서 있을 경우, 한 글자의 한글 혹은 한자로 오분리되기 쉽고 폭이 좁은 여러개의 획으로 구성된 한 글자의 한자나 한글의 경우 영·수·부호 문자와 거의 흡사한 문자 사각형 정보를 갖게 되어 병합 여부를 결정하기가 매우 애매하다.
또한, 상기 1차 개별 문자 분리(30) 후 두 문자가 붙거나 겹침으로 인해 하나의 문자 사각형으로 잘못 분리된 것은 한글, 영문, 숫자 및 한자 등이 혼용된 문서에서 인쇄의 질이나 문서 영상을 입력할 때 스캐너의 해상도 또는 워드프로세서의 문자 간격 등의 문제로 인하여 붙은 문자 혹은 겹친 문자를 발생시키기 때문으로 특히, 한글, 한자, 영·수·부호 문자 등이 혼용된 다국어 문서에서는 다양한 문자폭을 갖는 문자들의 접촉이 발생할 수 있으므로 단지 투영을 통해 얻은 정보 만으로는 정확한 개별 문자 추출이 어렵고, 영·수·부호 문자의 접촉 유형과 한글의 접촉 유형이 서로 상이할 뿐만 아니라 영·수·부호 문자와 한글 및 한자와의 접촉으로 다양하고 복잡한 접촉 유형이 발생하기 때문에 인식 결과를 이용하지 않고 이러한 문제를 해결하기는 곤란하다.
본 발명의 개별 문자 추출 방법에 있어서, 붙은 문자 처리 단계인 3차 개별 문자 추출(32) 과정에서는 인식기의 결과로 얻어진 인식 정합도(M1,M2)를 이용하여 붙은 문자를 분리하는데, 먼저 수직 방향 화소 투영값(61)을 구하여 도 7과 같이 그 값이 실험적으로 얻은 임계값 T1보다 작고, 임계값 T2이상으로 증가한 시점까지의 지역적인 최소값인 경우 이 위치를 분리 후보 위치로 결정한다. 몇 개의 문자가 붙어서 하나의 문자 사각형을 이룬 경우, 그 문자 사각형(60)에 대해 수직 방향 화소 투영값(61)을 구하여, 왼쪽에서 오른쪽으로 분리 후보 위치(p0, p1, p2)를 찾고(63), 분리 후보 위치에 의해 임시로 분리된 문자 사각형의 두 인식정합도 M1과M2를 계산(64)하고 그 값이 재분리 조건(66)을 만족하면, 이 분리 후보 위치를 실제 분리 위치로 확정하여 재분리(67)를 수행한다.
도 8은 도 2에서의 개별 문자 추출 방법에 결합된 문자 인식 방법의 흐름도로, 사용된 문자 인식 방법은 대 분류(80), 상세 분류(81), 유사문자 분류(82)의 3단계로 구성되며, 한글 1500여자, 한자 2000여자, 영.수.부호 문자 100여자를 인식 대상 문자로 하는 인식기이다. 분리된 낱자 문자 영상을 입력으로 하여 우선, 대 분류(80) 단계에서 총 3600여자의 표준 문자 패턴의 24 크기 특징 벡터들과 거리 계산을 통해 거리가 가장 가까운 순으로 150개의 후보를 선별한다. 그 다음으로 상세 분류(81) 단계에서는 선택된 150개 후보의 256 크기 특징 벡터들과 비교하여 유사도(즉 인식 정합도 M1) 계산을 통하여 유사도가 가장 큰순으로 10개의 후보를 선택한 후, 다음으로 유사문자 분류(82) 단계에서 10개의 후보 문자들의 128 크기 특징 벡터들의 서로 상이한 부분(exclusive-OR)만을 비교하여 개별 문자 분리시 붙거나 겹침으로 인해 발생되는 잡영(noise)에 상관없이 인식 정합도 M2를 얻을 수 있다.
상술한 상세 분류와 유사 문자 분류를 통해 계산된 두 인식 정합도 M1,M2는 다음과 같이 수식으로 표현되며, 이는 개별 문자 추출시에 사용된다.
M1= ∑k d( Vin(k) , Vi(k) )
M2= ∑p d( Vin(p) , Vi(p) )
여기서 d는 city-block 거리 계산법을 나타내며, Vin은 입력 문자 영상의 특징벡터이고, Vi는 i번째 후보 문자의 특징벡터이고, k 는 0에서 255값의 256 크기 특징벡터의 위치값이고, p는 10개의 후보 문자간 서로 상이한 부분(exclusive-OR)을 나타낸다.
이상과 같이 본 발명에 의하면, 기존의 다양한 폰트 크기, 하나의 글자가 두 조각으로 가로 분리되는 문자, 그리고 붙은 문자나 겹친 문자와 같은 다국어 문서에서 많이 발생되는 문자 분리시의 어려움을 해결하기 위해 본 발명은 한글, 한자, 영·수·부호 문자가 혼용된 다국어 문서 인식을 위한 전처리 단계로서 다단계 문서 인식기를 통해 얻어진 결과값을 이용한 개별 문자 추출 방법 및 그 인식 시스템을 제공하므로서 혼용 문서에서 많이 발생되는 겹친 문자 및 붙은 문자의 분리를 효과적으로 수행하여 궁극적으로 전체 인식기의 성능을 향상시킬 수 있다.

Claims (4)

  1. 입력 수단인 광학 스캐너(12)를 스캐너 제어부(13)에 의해 구동하여 한글, 한자 및 영·수·부호 문자로 구성된 다국어 문서 영상(10)을 입력하거나, 이미 압축영상 등의 형태로 저장된 다국어 문서 영상(11)을 읽어 문서 영역 분리부(14), 개별 문자 분리부(15) 및 문자 인식부(16)로 구성된 문서 처리부(17)에서 수행되는 것을 특징으로 하는 다국어 문서 인식 시스템.
  2. 입력된 문서 영상(20)에서 문자 영역을 추출하는 단계(21)와; 상기 추출된 문자 영역에서 문자열을 추출하는 단계(22)와; 상기 추출된 문자열 영상에서 문자 인식기(24)의 결과값을 이용하여 개별 문자를 추출하는 단계(23)으로 이루어지는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.
  3. 제 2항에 있어서, 개별 문자 추출 단계(23)은;
    수직 방향 화소 투영 단계(41)와 문자 사각형의 정보 계산 단계로(43)로 구성되는 1차 문자 추출 과정(31)과;
    두 조각 이상으로 가로 분리된 문자를 병합하기 위해 병합여부를 판정하는 판정단계(51,53)와 상기 판정 단계(51,53)의 판정 결과에 따라 인접 문자 사각형을 병합하는 단계(54)로 구성되는 2차 문자 추출과정(32)과;
    붙은 문자나 겹친 문자를 재 분리하기 위해 그 여부를 판정하는 판정단계(62,66)와 그에 따라 붙은 문자/겹친 문자를 재분리하는 단계(67)로 구성되는 3차 문자 추출 과정(33)으로 수행되는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.
  4. 제 3항에 있어서, 병합 여부 판정 단계(53)와 붙은 문자 판정 단계(66)시, 대분류 단계(80), 상세 분류 단계(81), 유사문자 분류 단계(82)로 이루어지는 다단계 분류 방법의 문자 인식기(24)의 결과값을 이용하여 병합 처리와 붙은 문자 처리를 수행하는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.
KR1019970067558A 1997-12-10 1997-12-10 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 KR100248384B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970067558A KR100248384B1 (ko) 1997-12-10 1997-12-10 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970067558A KR100248384B1 (ko) 1997-12-10 1997-12-10 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템

Publications (2)

Publication Number Publication Date
KR980004113A KR980004113A (ko) 1998-03-30
KR100248384B1 true KR100248384B1 (ko) 2000-03-15

Family

ID=19526973

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970067558A KR100248384B1 (ko) 1997-12-10 1997-12-10 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템

Country Status (1)

Country Link
KR (1) KR100248384B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102208683B1 (ko) * 2014-05-30 2021-01-28 삼성에스디에스 주식회사 문자 인식 방법 및 그 장치

Also Published As

Publication number Publication date
KR980004113A (ko) 1998-03-30

Similar Documents

Publication Publication Date Title
Hewavitharana et al. A two stage classification approach to Tamil handwriting recognition
Pal et al. Automatic separation of machine-printed and hand-written text lines
Ali et al. An efficient character segmentation algorithm for recognition of Arabic handwritten script
Din et al. Line and ligature segmentation in printed Urdu document images
Shafait et al. Layout analysis of Urdu document images
Amin et al. Recognition of printed Arabic text using neural networks
Ghosh et al. Development of an Assamese OCR using Bangla OCR
Baird Global-to-local layout analysis
Naz et al. Arabic script based character segmentation: a review
KR100248384B1 (ko) 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템
Alshameri et al. A combined algorithm for layout analysis of Arabic document images and text lines extraction
Bushofa et al. Segmentation of Arabic characters using their contour information
Allam Segmentation versus segmentation-free for recognizing Arabic text
Premchaiswadi et al. Segmentation of horizontal and vertical touching thai characters
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
Amano et al. DRS: A workstation-based document recognition system for text entry
Jayawickrama et al. Letter segmentation and modifier detection in printed sinhala signage
JP2917427B2 (ja) 図面読取装置
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
Chitrakala et al. An efficient character segmentation based on VNP algorithm
Kosarat et al. Segmentation of touching character printed Lanna script using junction point
Lehal et al. A complete OCR system for Gurmukhi script
Al Hamad Skew detection/correction and local minima/maxima techniques for extracting a new Arabic benchmark database
CN108596183B (zh) 满文部件切分的过分割区域合并方法
Amin Recognition of printed Arabic text using machine learning

Legal Events

Date Code Title Description
A201 Request for examination
G15R Request for early opening
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20141215

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20161125

Year of fee payment: 18

EXPY Expiration of term