KR100315428B1 - 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법 - Google Patents

다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법 Download PDF

Info

Publication number
KR100315428B1
KR100315428B1 KR1019990061946A KR19990061946A KR100315428B1 KR 100315428 B1 KR100315428 B1 KR 100315428B1 KR 1019990061946 A KR1019990061946 A KR 1019990061946A KR 19990061946 A KR19990061946 A KR 19990061946A KR 100315428 B1 KR100315428 B1 KR 100315428B1
Authority
KR
South Korea
Prior art keywords
character
feature
standard
feature extraction
mesh
Prior art date
Application number
KR1019990061946A
Other languages
English (en)
Other versions
KR20010083265A (ko
Inventor
지수영
오원근
문경애
황영섭
장대근
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1019990061946A priority Critical patent/KR100315428B1/ko
Priority to US09/484,533 priority patent/US6665437B1/en
Publication of KR20010083265A publication Critical patent/KR20010083265A/ko
Application granted granted Critical
Publication of KR100315428B1 publication Critical patent/KR100315428B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

본 발명은 영상처리 기술 중 패턴인식 분야의 인쇄체 문자인식을 위한 문자 특징 추출 장치 및 그 방법에 관한 것으로서, 입력 문자 영상의 문자 부분과 배경 부분의 기하학적인 특징을 일정한 크기의 그물눈(mesh)에서 추출하여 다국어 문서내의 문자인식율을 향상시키기 위한, 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및 그 방법을 제공하기 위하여, 입력된 다국어 문자들을 표준양식에 의하여 출력한 후 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 수단; 표준 문자 영상 데이터베이스의 각각의 문자 영상을 일정한 크기로 정규화하여 그물눈 모양의 특징으로 변환하는 수단; 그물눈에서의 각각의 문자들에 대한 지형적인 정보들 중 글자부분과 배경부분에 대한 특징을 추출하는 수단; 및 추출된 특징으로부터 각각의 문자들의 특징을 추출하여 저장하는 수단을 포함하며, 문자인식 시스템 등에 이용됨.

Description

다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및 그 방법{Character Feature Extraction Apparatus And Method For Recognition Of Multi-Language Printed Document}
본 발명은 영상처리 기술 중 패턴인식 분야의 인쇄체 문자인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
일반적으로 쓰이는 문서의 대부분은 한국어, 영어, 숫자, 특수기호, 한자등과 같이 다국어 문서로 구성된 복잡한 문서가 특징이다.
따라서, 이러한 문서내에 포함된 다국어 문자를 인식하기 위하여는 다양한 입력문자 영상에 적합한 특징을 추출하는 것이 가장 기본적이고 중요한 작업이라 할 수 있다.
이와 관련한 종래의 기술로는, 단일 언어 인식을 위한 기술과 방법이 주종을 이루고 있으며, 다중 폰트에 대한 것도 소개되었지만, 다국어 인식을 위한 문자 특징 추출에 관한 것으로서 입력 문자 영상에 대하여 일정한 규격의 매쉬모양의 형태에서 문자 부분과 배경 부분 모두를 한 글자의 특징으로 하여 문자의 특징을 추출하는 시스템은 아직 개발된 사례가 없다.
즉, 상기와 같은 종래의 기술에 있어서는 문서내에 포함된 다국어 문자를 인식할 수 없다는 문제점이 있었다.
본 발명은 상기 문제점을 해결하기 위하여 안출된 것으로, 입력 문자 영상의 문자 부분과 배경 부분의 기하학적인 특징을 일정한 크기의 그물눈(mesh)에서 추출하여 다국어 문서내의 문자인식율을 향상시키기 위한, 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치의 일실시예 구성도.
도 2 는 본 발명에 따른 다국어 인쇄체 문서인식을 위한 문자 특징 추출 방법의 일실시예 흐름도.
도 3 은 본 발명이 적용되는 표준 문자의 특징 데이터베이스를 생성하기 위하여 표준 문자 코드표에 따라 글자들을 프린트하여 표준 입력 문자 셋을 구축한 일예시도.
도 4 는 본 발명이 적용되는 프린트된 문자에 대하여 여러 농도와 해상도에 따라 문서 입력장치인 스캐너로 표준 문자영상 데이터베이스를 구축한 일예시도.
도 5 는 본 발명이 적용되는 입력 문자영상의 크기 정규화 과정을 나타낸 일예시도.
도 6 은 본 발명이 적용되는 누적된 그물눈 특징으로의 변환 과정을 나타낸 일예시도.
도 7 은 본 발명이 적용되는 스트로크 부분의 특징 추출 과정을 나타낸 일예시도.
도 8 은 본 발명이 적용되는 넌-스트로크 부분의 특징 추출 과정을 나타낸 일예시도.
상기 목적을 달성하기 위한 본 발명은, 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치에 있어서, 입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 그 결과를 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 데이터베이스 구축 수단; 상기 표준 문자 영상 데이터베이스의 각각의 문자 영상을 일정한 크기로 정규화하여 그물눈 모양의 특징으로 변환하는 변환 수단; 상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분과 배경부분에 대한 특징을 추출하는 특징 추출 수단; 및 상기 추출된 특징으로부터 상기 각각의 문자들의 특징을 추출하여 저장하는 문자 특징 추출 수단을 포함한다.
또한, 본 발명은 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치에 적용되는 문자 특징 추출 방법에 있어서, 입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 그 결과를 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 제 1 단계; 상기 표준 문자 영상 데이터베이스의 각각의 문자 영상을 일정한 크기로 정규화하여 그물눈 모양의 특징으로 변환하는 제 2 단계; 상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분과 배경부분에 대한 특징을 추출하는 제 3 단계; 및 상기 추출된 특징으로부터 상기 각각의 문자들의 특징을 추출하여 저장하는 제 4 단계를 포함한다.
또한, 본 발명은 다국어 인쇄체 문서인식을 위한 문자 특징 추출을 위하여, 대용량 프로세서를 구비한 문자 특징 추출 장치에, 입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 그 결과를 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 제 1 기능; 상기 표준 문자 영상 데이터베이스의 각각의 문자 영상을 일정한 크기로 정규화하여 그물눈 모양의 특징으로 변환하는 제 2 기능; 상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분과 배경부분에 대한 특징을 추출하는 제 3 기능계; 및 상기 추출된 특징으로부터 상기 각각의 문자들의 특징을 추출하여 저장하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
본 발명에 의하면, 종래의 획일적인 간격에 따라 그물눈에서 문자부분만 문자의 특징으로 추출한 방법보다 문자인식률을 향상시킬 수 있다.
이하, 도 1 내지 도 8 을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치의 일실시예 구성도이다.
도면에 도시된 바와 같이 본 발명에 따른 문자 특징 추출 장치는, 문자 특징을 추출하고자 하는 문자를 입력하기 위한 입력장치(101), 입력된 각종 폰트의 다국어 문자들을 일정한 양식에 의하여 여러 문자의 크기로 프린터로 출력하여 표준 입력문자 셋을 구축하기 위한 표준 입력 문자 셋 구축장치(102), 표준 입력문자 셋을 영상입력 장치인 스캐너로 해상도와 농도를 달리하여 문자영상을 받아 표준 문자 영상 데이터베이스를 구축하는 데이터베이스 구축장치(103), 입력된 문자영상에 대하여 일정한 크기로 정규화하는 크기 정규화 장치(104), 크기 정규화 한 문자영상들에 대하여 3 X 3 마스크 오퍼레이션(mask operation)을 통하여 16 X 16 크기의 그물눈 모양의 특징으로 변환하는 변환 장치(105), 그물눈에서의 각 글자들의 지형적인 정보들 중 글자부분에 대한 특징을 추출하는 스트로크 특징 추출 장치(106), 그물눈에서의 각 글자들의 지형적인 정보들 중 배경부분에 대한 특징을 추출하는 넌-스트로크 추출 장치(107), 스트로크 특징 및 넌-스트로크 특징으로부터 문자의 특징을 추출하는 문자 특징 추출 장치(108) 및 추출된 정보를 저장하는 저장장치(109)를 포함한다.
도 2 는 본 발명에 따른 다국어 인쇄체 문서인식을 위한 문자 특징 추출 방법의 일실시예 흐름도이며, 도 3 은 본 발명이 적용되는 표준 문자의 특징 데이터베이스를 생성하기 위하여 표준 문자 코드표에 따라 글자들을 프린트하여 표준 입력 문자 셋을 구축한 일예시도이고, 도 4 는 본 발명이 적용되는 프린트된 문자에 대하여 여러 농도와 해상도에 따라 문서 입력장치인 스캐너로 표준 문자영상 데이터베이스를 구축한 일예시도이다. 또한, 도 5 는 본 발명이 적용되는 입력 문자영상의 크기 정규화 과정을 나타낸 일예시도이고, 도 6 은 본 발명이 적용되는 누적된 그물눈 특징으로의 변환 과정을 나타낸 일예시도이며, 도 7 은 본 발명이 적용되는 스트로크 부분의 특징 추출 과정을 나타낸 일예시도이고, 도 8 은 본 발명이 적용되는 넌-스트로크 부분의 특징 추출 과정을 나타낸 일예시도이다.
우선, 첫 번째 과정으로 표준 문자의 특징 데이터베이스(DB)를 생성하기 위하여 입력된 문자 영상에 대하여(201) 표준 문자 코드표에 따라 글자들을 프린트 하여 표준 입력 문자 셋(Sets)을 구축한다(202).
즉, 다국어 문서내에 있는 여러 모양과 크기를 갖는 문자의 특징을 추출하기 위한 첫 단계로서 일정한 규격에 의하여 문자들을 정렬한 후 표준문자 코드표에 따라 글자들을 프린트하여 표준 입력 문자 셋(Sets)을 구축한다. 이러한 문자 셋을 도시한 것이 도 3 이다.
두 번째 과정은, 프린트된 표준 입력 문자 셋을 가지고 여러 농도와 해상도에 따라 문서 입력장치인 스캐너로 표준 문자영상 데이터베이스(DB)를 구축한다(203).
즉, 표준 입력 문자 셋(Sets)을 가지고 문서영상 입력장치인 스캐너를 통하여 스캐너가 제공하는 여러가지 형태의 입력해상도와 농도에 따라 각각 스캐닝을 하여 표준 문자영상 데이터베이스(DB)를 구한다. 표준 문자영상 데이터베이스를 도시한 것이 도 4 이다.
세 번째 과정은, 입력 문자영상의 크기 정규화 과정이다(204).
즉, 표준문자의 특징 데이터베이스를 얻기 위해서는 각종 크기로 들어오는 입력문자 영상(501 내지 503)에 대하여 일정한 크기로 크기 정규화(Size Normalization) 과정을 거쳐야 한다.
본 발명에서는 어느 크기의 문자이든 48 X 48 사이즈로 크기 정규화 과정을 거친다. 이러한 크기 정규화된 문자(504)를 도시한 것이 도 5 이다.
네 번째 과정은, 누적된 그물눈(Mesh) 특징으로의 변환 과정이다(205).
즉, 본 발명에서는 앞 단계에서 48 X 48 사이즈로 크기 정규화한 문자영상 (601)들에 대하여 3 X 3 마스크 오퍼레이션(mask operation)을 통하여(602) 16 X 16 크기의 그물눈 모양의 특징(603)으로 변환한다. 이것을 가지고 각 문자들의 특징추출에 사용한다. 16 x 16 의 각 그물눈(mesh) 값은 0 에서 9 까지의 값을 갖는다. 다음으로 각 그물눈 가치(mesh value)를 8개의 위치 좌표로 변환(604)한 후 같은 종류의 각 글자의 위치좌표 값을 모두 누적하여 저장한다.
다섯 번째 과정은, 스트로크(Stroke) 부분의 특징 추출 과정이다(206).
즉, 상기 네 번째 과정에서 얻어진 누적된 그물눈(Mesh) 특징값(604)을 가지고 스트로크(stroke) 부분의 특징을 구하는 과정은 다음과 같다.
16 X 16 그물눈(mesh)을 4 X 4 영역(총 16개이고 각각은 4 X 4 그물눈(mesh)로 구성)으로 분할 한다(701).
4 X 4 그물눈(mesh)의 스트로크(stroke) 누적빈도와 해밍 거리(Hammingdistance) 누적 값을 계산하여 이 두 값중 최고 값을 지정하여 선정한다(702,703).
총 16개 위치의 가중치 합을 일정한 정수 값으로 정규화한다.
16개 값의 큰 순서대로 정렬(sorting)하여 스트로크 특징(stroke feature)을 선택한다(704).
여섯 번째 과정은, 넌-스트로크(Non-stroke) 부분의 특징 추출 과정이다(207)
즉, 상기 네 번째 과정에서 얻어진 누적된 그물눈(Mesh) 특징 값(604)을 가지고 넌-스트로크(non-stroke) 부분의 특징을 구하는 과정은 다음과 같다.
그물눈(mesh)의 상,하,좌,우측 좌표(경계좌표)를 제외한 내부 14 X 14 그물눈(mesh) 좌표를 총 9개 영역으로 분할한다(801).
각 9개의 영역은 5 X 5 그물눈(mesh) 4개, 5 X 4 그물눈(mesh) 4개, 4 X 4 그물눈(mesh) 1개로 구성된다.
총 9개 영역의 배경 누적빈도와 해밍 거리(Hamming distance) 누적 값을 계산하여 이 두 값중 최고 값을 지정하여 선정한다(802,803).
총 9개 위치의 가중치 합을 일정한 정수 값으로 정규화한다.
9개 값의 큰 순서대로 정렬(sorting)하여 넌-스트로크 특징(non-stroke feature)을 선택한다(804).
일곱 번째 과정은, 문자 특징 추출 과정이다(208).
즉, 상기 다섯 번째 과정과 여섯 번째 과정을 통하여 얻어진 특징벡터(704,804)를 가지고 본 발명에서는 각 문자에 대하여 총 25 차원의 특징벡터를(좌표값, 누적빈도값) 추출하여 데이터베이스를 구축한다.
이러한 특징벡터에 대한 데이터베이스를 이용하므로써, 다양한 형태의 다중언어의 입력 글자의 크기나 변형에 관계없이 인식률을 향상시킬 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명에서 제시한 문자 특징 추출 방법에 의하면, 그물눈에서의 글자 부분과 배경 부분 모두에 대하여 특징 값을 취하므로 다양한 형태의 다중언어의 입력 글자의 크기나 변형에 관계없이 인식률을 향상시킬 수 있는 우수한 효과가 있다.

Claims (9)

  1. 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치에 있어서,
    입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 그 결과를 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 데이터베이스 구축 수단;
    상기 표준 문자 영상 데이터베이스의 각각의 문자 영상을 일정한 크기로 정규화하여 그물눈 모양의 특징으로 변환하는 변환 수단;
    상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분과 배경부분에 대한 특징을 추출하는 특징 추출 수단; 및
    상기 추출된 특징으로부터 상기 각각의 문자들의 특징을 추출하여 저장하는 문자 특징 추출 수단
    을 포함하는 문자 특징 추출 장치.
  2. 제 1 항에 있어서,
    상기 데이터베이스 구축 수단은,
    입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 여러 문자의 크기로 출력하여 표준 입력문자 셋을 구축하는 표준 입력 문자 셋 구축 수단; 및
    상기 표준 입력 문자 셋을 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 표준 문자 영상 데이터베이스 구축 수단
    을 포함하는 문자 특징 추출 장치.
  3. 제 1 항에 있어서,
    상기 변환 수단은,
    상기 표준 문자 영상 데이터베이스의 각각의 문자 영상에 대하여 48 X 48 사이즈의 크기로 정규화하는 정규화 수단; 및
    크기 정규화한 상기 각각의 문자 영상들에 대하여 그물눈 모양의 특징으로 변환하는 특징 변환 수단
    을 포함하는 문자 특징 추출 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 특징 추출 수단은,
    상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분에 대한 특징을 추출하는 스트로크 특징 추출 수단; 및
    상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 배경부분에 대한 특징을 추출하는 넌-스트로크 특징 추출 수단
    을 포함하는 문자 특징 추출 장치.
  5. 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치에 적용되는 문자 특징 추출 방법에 있어서,
    입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 그 결과를 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 제 1 단계;
    상기 표준 문자 영상 데이터베이스의 각각의 문자 영상을 일정한 크기로 정규화하여 그물눈 모양의 특징으로 변환하는 제 2 단계;
    상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분과 배경부분에 대한 특징을 추출하는 제 3 단계; 및
    상기 추출된 특징으로부터 상기 각각의 문자들의 특징을 추출하여 저장하는 제 4 단계
    를 포함하는 문자 특징 추출 방법.
  6. 제 5 항에 있어서,
    상기 제 1 단계는,
    입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 여러 문자의 크기로 출력하여 표준 입력문자 셋을 구축하는 제 5 단계; 및
    상기 표준 입력 문자 셋을 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 제 6 단계
    를 포함하는 문자 특징 추출 방법.
  7. 제 5 항에 있어서,
    상기 제 2 단계는,
    상기 표준 문자 영상 데이터베이스의 각각의 문자 영상에 대하여 48 X 48 사이즈의 크기로 정규화하는 제 5 단계; 및
    크기 정규화한 상기 각각의 문자 영상들에 대하여 그물눈 모양의 특징으로 변환하는 제 6 단계
    를 포함하는 문자 특징 추출 방법.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 제 3 단계는,
    상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분에 대한 특징을 추출하는 제 7 단계; 및
    상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 배경부분에 대한 특징을 추출하는 제 8 단계
    를 포함하는 문자 특징 추출 방법.
  9. 다국어 인쇄체 문서인식을 위한 문자 특징 추출을 위하여, 대용량 프로세서를 구비한 문자 특징 추출 장치에,
    입력된 각종 폰트의 다국어 문자들을 표준양식에 의하여 출력한 후 그 결과를 영상입력 장치로 입력받아 표준 문자 영상 데이터베이스를 구축하는 제 1 기능;
    상기 표준 문자 영상 데이터베이스의 각각의 문자 영상을 일정한 크기로 정규화하여 그물눈 모양의 특징으로 변환하는 제 2 기능;
    상기 그물눈에서의 상기 각각의 문자들에 대한 지형적인 정보들 중 글자부분과 배경부분에 대한 특징을 추출하는 제 3 기능계; 및
    상기 추출된 특징으로부터 상기 각각의 문자들의 특징을 추출하여 저장하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1019990061946A 1999-12-24 1999-12-24 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법 KR100315428B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019990061946A KR100315428B1 (ko) 1999-12-24 1999-12-24 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법
US09/484,533 US6665437B1 (en) 1999-12-24 2000-01-18 Method for recognizing multi-language printed documents using strokes and non-strokes of characters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990061946A KR100315428B1 (ko) 1999-12-24 1999-12-24 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법

Publications (2)

Publication Number Publication Date
KR20010083265A KR20010083265A (ko) 2001-09-01
KR100315428B1 true KR100315428B1 (ko) 2001-11-26

Family

ID=19629505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990061946A KR100315428B1 (ko) 1999-12-24 1999-12-24 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법

Country Status (2)

Country Link
US (1) US6665437B1 (ko)
KR (1) KR100315428B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100518744B1 (ko) 2002-11-21 2005-10-05 한국전자통신연구원 비수직 분할선을 가지는 붙은 필기체 숫자열의 분할방법
US8873890B2 (en) * 2004-04-02 2014-10-28 K-Nfb Reading Technology, Inc. Image resizing for optical character recognition in portable reading machine
CN101763505B (zh) * 2009-12-29 2011-12-07 重庆大学 基于投影对称性的车牌字符特征提取及分类方法
KR101686363B1 (ko) 2012-10-10 2016-12-13 모토로라 솔루션즈, 인크. 문서에 사용된 언어를 식별하고, 식별된 언어에 기초하여 ocr 인식을 수행하는 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696841A (en) * 1990-08-03 1997-12-09 Canon Kabushiki Kaisha Image processing method and apparatus for extracting vertically and horizontally written text
US5898795A (en) * 1995-12-08 1999-04-27 Ricoh Company, Ltd. Character recognition method using a method for deleting ruled lines
JPH11191135A (ja) * 1997-09-10 1999-07-13 Ricoh Co Ltd 文書画像の日本語英語判定方法、文書認識方法および記録媒体
JPH11338974A (ja) * 1998-05-28 1999-12-10 Canon Inc 文書処理方法及び装置、記憶媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032887A (en) * 1973-06-28 1977-06-28 International Business Machines Corporation Pattern-recognition systems having selectively alterable reject/substitution characteristics
JPS5242028A (en) * 1975-09-29 1977-04-01 Fujitsu Ltd Letter recognition system
JPS56103773A (en) 1980-01-21 1981-08-19 Agency Of Ind Science & Technol Feature extracing system of binary pattern
US4903313A (en) * 1986-07-03 1990-02-20 Ricoh Company, Ltd. Character recognition method
US5271068A (en) * 1990-03-15 1993-12-14 Sharp Kabushiki Kaisha Character recognition device which divides a single character region into subregions to obtain a character code
DE69129284T2 (de) * 1990-08-03 1998-08-27 Canon Kk Gerät und Verfahren zur Bildverarbeitung
US5325447A (en) * 1991-10-02 1994-06-28 Environmental Research Institute Of Michigan Handwritten digit normalization method
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
US6272238B1 (en) * 1992-12-28 2001-08-07 Canon Kabushiki Kaisha Character recognizing method and apparatus
TW397951B (en) * 1995-06-05 2000-07-11 Motorola Inc Method and microprocessor for preprocessing handwriting having characters composed of a preponderance of straight line segments
US6026177A (en) * 1995-08-29 2000-02-15 The Hong Kong University Of Science & Technology Method for identifying a sequence of alphanumeric characters
JP3216983B2 (ja) * 1996-02-27 2001-10-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識装置および文字認識方法
US6188790B1 (en) * 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
US6366699B1 (en) * 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696841A (en) * 1990-08-03 1997-12-09 Canon Kabushiki Kaisha Image processing method and apparatus for extracting vertically and horizontally written text
US5898795A (en) * 1995-12-08 1999-04-27 Ricoh Company, Ltd. Character recognition method using a method for deleting ruled lines
JPH11191135A (ja) * 1997-09-10 1999-07-13 Ricoh Co Ltd 文書画像の日本語英語判定方法、文書認識方法および記録媒体
JPH11338974A (ja) * 1998-05-28 1999-12-10 Canon Inc 文書処理方法及び装置、記憶媒体

Also Published As

Publication number Publication date
KR20010083265A (ko) 2001-09-01
US6665437B1 (en) 2003-12-16

Similar Documents

Publication Publication Date Title
JP3139521B2 (ja) 自動言語決定装置
US5373566A (en) Neural network-based diacritical marker recognition system and method
US6272242B1 (en) Character recognition method and apparatus which groups similar character patterns
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US5438628A (en) Method for matching text images and documents using character shape codes
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP2940496B2 (ja) パタンマッチング符号化装置及び方法
US8041113B2 (en) Image processing device, image processing method, and computer program product
JP2713622B2 (ja) 表形式文書読取装置
JP3618796B2 (ja) パターン認識方法および装置
JPH03122773A (ja) 画像形成装置
US20040213458A1 (en) Image processing method and system
US8086040B2 (en) Text representation method and apparatus
JPH0721319A (ja) 自動アジア言語決定装置
JP2890482B2 (ja) 文書画像再配置ファイリング装置
JPH076206A (ja) 自動文字分類装置
JP3913985B2 (ja) 文書画像中の基本成分に基づく文字列抽出装置および方法
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
KR100315428B1 (ko) 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법
JP2008028716A (ja) 画像処理方法及び装置
KR100199296B1 (ko) 규칙적인 잡음을 이용한 한글 인식 시스템
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2747136B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121102

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20131031

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee