KR100473660B1 - 단어인식방법 - Google Patents

단어인식방법 Download PDF

Info

Publication number
KR100473660B1
KR100473660B1 KR10-2002-0038220A KR20020038220A KR100473660B1 KR 100473660 B1 KR100473660 B1 KR 100473660B1 KR 20020038220 A KR20020038220 A KR 20020038220A KR 100473660 B1 KR100473660 B1 KR 100473660B1
Authority
KR
South Korea
Prior art keywords
character
recognition
word
information
word recognition
Prior art date
Application number
KR10-2002-0038220A
Other languages
English (en)
Other versions
KR20030007019A (ko
Inventor
아오키야스히로
Original Assignee
가부시끼가이샤 도시바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시끼가이샤 도시바 filed Critical 가부시끼가이샤 도시바
Publication of KR20030007019A publication Critical patent/KR20030007019A/ko
Application granted granted Critical
Publication of KR100473660B1 publication Critical patent/KR100473660B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 보다 유연하고 범용성이 풍부하며, 단어인식의 성능향상을 꾀할 수 있는 단어인식방법을 제공하는 것으로서, 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서, 상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품 문자수로 이루어지는 문자형을 판정하여 문자형 정보를 취득하고, 이 취득한 문자형 정보를 이용하여 단어인식처리를 실행하는 것을 특징으로 한다.

Description

단어인식방법{WORD RECOGNITION METHOD}
본 발명은 예를 들면, 문서화상처리장치 등에 있어서, 입력문자화상으로부터의 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 관한 것이다.
문자인식에서는 쓰여진 문자가 어느 카테고리에 속하는지를 판단하기 위해 문자사전을 준비하여 사전패턴과의 매칭처리를 실시하는 것이 일반적인 수법이다. 마찬가지로, 단어인식을 실행하는 경우에는 미리 후보가 될 수 있는 단어의 데이터베이스를 준비해 두고, 단어를 구성하는 각 문자의 문자인식결과와 조합하면서 어느 단어에 가장 가까운지 가까운 정도를 측정하는 것이 일반적인 수법이다. 이 수법으로서 잘 알려져 있는 것은 소위 DP-매칭법 등을 들 수 있다.
그런데, 각 문자의 인식결과를 한결같이 신뢰할 수 있는 것이라면, 단어인식은 그만큼 곤란한 문제가 되지는 않겠지만 읽으려고 하는 단어 중에서의 문자절출 결과가 부정(不定)이 되는 경우, 또 붙여쓴 글자 등과 같이 인접하는 문자의 영향을 받아 문자변동이 생기는 경우, 또 유사문자가 수많이 존재하는 경우에 있어서는 유사도의 값에 의해 순위매김된 문자인식의 결과가 불안정하게 되어 정해(正解)문자후보를 바르게 얻기 힘들게 되기 때문에, 상술한 DP-매칭법 등의 수법이 효과적이지 않다는 문제가 있다.
정해문자후보를 바르게 얻을 수 없는 경우에서의 현저한 예로서는 유사문자가 다수 존재하는 경우이다(이 때, 문자절출의 결과가 어느 정도, 신뢰할 수 있는 것으로 한다). 예를 들면, 2바이트 문자로 대표되는 한자를 예로 들어 본다. 알파벳 문자와 비교하면, 인식해야 할 카테고리수가 수천이 되고, 유사문자는 다수 존재한다. 예를 들면, 「萩」와 「荻」이라는 문자관계에 볼 수 있듯이, 유사도의 척도로 측정하면 매우 가까운 관계임에도 불구하고, 종래의 단어인식방법은 이들 문자의 구조정보를 반드시 반영하지 않는 것이 문제이다.
여기에서, 예를 들면 명부 속에 기재되어 있는 이름을 인식하는 경우에는 판독결과에서 「萩田」이나 「荻田」이라는 단어를 엄밀하게 구별하지 않으면 안 될 때에는 「萩」나 「荻」의 유사도값을 비교할 필요가 있고, 이 경우는 종래의 단어인식방법과 같아진다. 그러나, 이것이 「萩田」과 「荻田」의 구별, 더 나아가서는 「萩田」과 「木田」을 구별하는 장면에 있어서는 문자인식결과의 후보열에서 문자구조의 대국적인 정보를 취출하여 전자는 「초두머리」의 유무를 확인하는 처리, 후자에 있어서는 더 간략하게 문자를 구성하는 부품문자의 수를 조사하는 처리 등을 끼워넣는 것에 의해, 보다 문자구조를 반영한 인식을 실현할 수 있기 때문에 단어의 인식성능이 향상된다.
그래서, 본 발명은 보다 유연하고 범용성이 풍부하며, 단어인식의 성능향상을 꾀할 수 있는 단어인식방법을 제공하는 것을 목적으로 한다.
본 발명의 단어인식방법은 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서, 상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품 문자수로 이루어지는 문자형을 판정하고, 문자형 정보를 취득하는 제 1 스텝과, 이 제 1 스텝에 의해 취득된 문자형 정보를 이용하여 단어인식처리를 실행하는 제 2 스텝을 구비하고 있다.
또, 본 발명의 단어인식방법은 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서, 상기 문자인식결과에 기초하여 문자구조인식을 실행하는지의 여부를 판정하는 제 1 스텝과, 이 제 1 스텝에 의해 문자구조인식을 실행한다고 판정된 경우 상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품 문자수로 이루어지는 문자형을 판정하고 문자형 정보를 취득하는 제 2 스텝과, 이 제 2 스텝에 의해 취득된 문자형 정보를 이용하여 단어인식처리를 실행하는 제 3 스텝과, 상기 제 1 스텝에 의해 문자구조인식을 실행하지 않는다고 판정된 경우 상기 문자인식결과를 그대로 단어인식결과로서 출력하는 제 4 스텝을 구비하고 있다.
또, 본 발명의 단어인식방법은 입력문자화상으로부터의 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서, 상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품문자로 이루어지는 문자형을 판정하고 문자형 정보를 취득하는 제 1 스텝과, 이 제 1 스텝에 의해 취득된 문자형 정보로 단어인식처리를 실행할 수 있는지의 여부를 판정하는 제 2 스텝과, 이 제 2 스텝에 의해 문자형 정보로 단어인식처리를 실행할 수 있다고 판정된 경우 상기 제 1 스텝에 의해 취득된 문자형 정보를 이용하여 단어인식처리를 실행하는 제 3 스텝과, 상기 제 2 스텝에 의해 문자형 정보로 단언인식처리를 실행할 수 없다고 판정된 경우 상세문자인식해야 할 부품문자위치에 관한 정보를 취득하고 이 취득한 부품문자위치에 관한 정보에 기초하여 상기 입력문자화상에서 대응하는 부품문자화상을 추출하는 제 4 스텝과, 이 제 4 스텝에 의해 추출된 부품문자화상에 대해 문자인식처리하는 것에 의해 단어인식을 실행하는 제 5 스텝을 구비하고 있다.
이하, 본 발명의 실시형태에 대해 도면을 참조하여 설명한다.
도 1은 본 발명의 실시형태에 관련된 단어인식방법이 적용되는 단어인식장치의 구성을 개략적으로 나타낸 것이다. 이 단어인식장치는 크게 나누면 인식해야 할 단어를 포함하는 입력문자화상에 대해 문자인식을 실행하는 문자인식부(1), 문자구조인식을 실행하는지를 판정하는 문자구조 인식판정부(2), 문자구조인식을 실행하는 문자구조인식부(3), 상세문자인식을 실행하는 상세문자인식부(4), 문자구조 데이터베이스(5), 단어 데이터베이스(6) 및 단어내 문자해석부(7)에 의해 구성되어 있다.
문자구조 인식부(3)는 단어후보 내에 출현하는 각 문자에 대해 문자형을 판정하는 문자형 판정부(31) 및 상세문자인식을 실행하는지의 여부 등의 판정을 실행하는 인식판정부(32)에 의해 구성되어 있다.
상세문자인식부(4)는 부품문자 위치검출부(41), 부품문자 화상절출부(42) 및 부품문자 인식부(43)에 의해 구성되어 있다.
문자구조 데이터베이스(5)는 문자형 기억부(51), 유사부품 문자기억부(52), 유사부품 문자수 기억부(53), 유사부품 문자위치 기억부(54) 및 부품문자 기억부(55)에 의해 구성되어 있다.
단어내 문자해석부(7)는 단어후보 추출부(71), 문자형 추출부(72), 상세문자 인식위치판정부(73) 및 유사부품문자 위치판정부(74)에 의해 구성되어 있다.
다음에 이와 같은 구성에 있어서 본 실시형태에 관련된 단어인식방법에 대해 도 2에 나타낸 플로우 차트를 참조하면서 상세하게 설명한다.
우선, 예를 들면 도시하지 않는 스캐너 등에 의해 취득된 문서화상 중의 문자화상이 부여되면, 문자인식부(1)에 있어서 입력된 문자화상에 대해 문자인식을 실행하고, 그 인식결과 리스트가 문자코드와 유사도의 페어로 부여된다(스텝(S1)). 문자후보열(문자인식결과인 단어후보)에서는 이 페어가 복수 쌍 부여된다.
문자구조 인식판정부(2)는 문자후보열에서 부여된 복수의 문자후보 리스트에서 유사도값의 대소 등에 의해 문자구조인식을 실행하는지의 여부를 판정한다(스텝(S2)). 이 판정의 결과, 문자구조인식을 실행하지 않는 경우는 그대로 유사도 출력(문자인식결과)을 단어인식결과로서 출력한다(스텝(S3)). 이 경우는 종래의 단어조합 알고리즘과 동등하다.
스텝(S2)의 판정결과, 유사도값의 대소 등에 의해 유사문자후보로 간주하고, 문자구조인식을 실행하는 경우는 문자구조인식부(3)의 처리에 이행한다. 문자구조 인식부(3)에서는 우선 문자형 판정부(31)에 있어서 단어후보 내에 출현하는 각 문자에 대해 문자형을 판정하고 문자형 정보를 취득한다(스텝(S4, S5)).
즉, 문자형 판정부(31)에 있어서는 부여된 복수의 문자후보 리스트의 상위 문자후보의 문자형을 조사하기 위해 문자구조 데이터베이스(5)로 리퀘스트한다. 문자구조 데이터베이스(5)에서는 미리 문자코드마다 부품문자의 레이아웃 정보가 기억되어 있고, 예를 들면 「萩」라는 문자에 대해 문의가 온 경우에는 (「상(上)」「좌하(左下)」「우하(右下)」) 등 문자의 대국적인 구조에 대한 정보를 얻을 수 있도록 되어 있다. 이를 문자형이라 부른다.
도 3은 이들 문자형의 분류를 나타낸 것이고, 상술한 「萩」나 「荻」의 문자는 타입 1, (「좌」「우」)의 구조를 가진 「秋」나 「畑」의 문자는 타입 2라고 하듯이, 부품문자의 레이아웃 마다 문자형이 정의되어 있는 것을 나타내고 있다. 문자후보 리스트에는 동일한 문자형이 나열되는 것이 예상되지만, 다른 문자형이 혼입되어 있는 경우에는 상위문자후보 리스트를 고려하면서, 대표 문자형을 선택한다.
문자형은 대국적인 정보이기 때문에, 조합해야 할 단어후보를 소멸하는 것을 목적으로 사용된다. 문자구조 인식부(3)의 문자형 판정부(31)에 있어서, 단어후보의 문자형을 단어 데이터베이스(6)로 리퀘스트하면, 단어내 문자해석부(7)에 있어서 해당하는 단어의 문자형 정보를 문자구조 데이터베이스(5)에서 얻을 수 있도록 되어 있다.
문자구조 인식부(3)의 인식판정부(32)에서는 상기한 바와 같이 하여 얻을 수 있는 문자형 정보와 입력된 단어후보의 문자형을 비교하는 것에 의해, 문자형 정보로 단어인식을 실행할 수 있는지의 여부를 판정한다(스텝(S6)). 이 판정결과, 문자형 정보로 단어인식을 실행할 수 있는 경우, 얻을 수 있는 문자형 정보를 이용하여 당해 단어의 인식처리를 실행하고(스텝(S7)), 그 인식결과를 출력한다(스텝(S3)).
또, 문자형이 현저하게 다르고, 상세문자인식의 필요가 없다고 판단된 경우에는 리젝트 출력을 인식결과로서 선택한다.
스텝(S6)의 판정결과, 문자형 정보로 단어인식을 실행할 수 없는 경우, 상세문자 인식부(4)의 처리에 이행한다(스텝(S8)). 상세문자 인식부(4)에서는 단어 데이터베이스(6)에 리퀘스트하여 해당 문자의 상세문자인식에 관한 정보를 입수한다. 단어 데이터베이스(6)에서는 문자형의 체크로 기각되지 않은 복수의 유사단어후보가 리스트에 남아 있다. 문자형이 같은 경우는 어느 부분의 부품문자가 다른지에 대한 정보에 대해 문자구조 데이터베이스(5)로 리퀘스트한다. 문자구조 데이터베이스(5) 내에 축적된 문자형과 그 구성부품 문자와의 대응관계에 대한 정보를 얻는 것에 의해 문자의 인식을 실행하는데, 우선 어느 부분을 착안하는지를 판정한다.
도 4는 도 3의 타입 1에서의 예를 들고 있다. 도 3에서 말하는 타입 1에 속하는 문자는 다수 생각할 수 있다. 그런데, 유사단어후보로 들은 리스트에서 「萩田」이나 「荻田」의 판별만을 실행하는 경우에는 문자형에서 말하는 (「상」「우하」)의 부품문자는 공통하고 있고, 이 구별에는 (「좌하」)에 위치하는 부품문자에 착안해야 한다고 하는 정보는 문자구조 데이터베이스(5)에서의 문자형과 부품문자와 그 위치정보의 대응관계에서 연산하여 구할 수 있다.
또, 부품문자에 대해서도 그 형상이 유사한 것을 미리 클러스터링하고 있기 때문에, 도 4와 같이 유사부품 카테고리에 포함되는 「禾」와 「木」을 엄밀하게 구별할 필요가 없는 경우 양자는 동일부품문자로서 취급된다. 문자구조 데이터베이스(5)로 유지하고 있는 이 동일유사부품 카테고리에 포함되는 요소의 수에 대해서는 애매함의 정도를 나타내는 척도이고, 요소수가 크면 그 형상은 부족해지기 때문에 문자를 구성하는 부품문자에 대해 각각 상기 요소수를 조사하면, 문자를 확정할 때에 어느 위치의 부품문자를 조사하면 좋을지 선택기준을 나타내고 있다.
상세문자 인식부(4)에서는 구별해야 할 부품문자위치의 정보가 인식판정부(32)의 출력에서 얻을 수 있기 때문에 입력문자화상을 정규화한 후에 해당하는 영역 부근의 화상에서 부품문자화상을 추출한다. 일반적으로 인쇄문자에서는 부품문자가 명료하게 나뉘기 때문에 라벨링 처리로 부품문자화상을 얻는 것이 용이하다. 또, 부품문자가 분리되어 있지 않은 경우에는 사영(射影)이나 페리페럴 특징을 이용하여 적당한 위치에 있어서 절단을 실행하고 부품문자화상을 얻는다. 이와 같이 하여 얻은 부품문자화상에 대해 인식처리를 실행하는 것에 의해 그 부품문자화상이 소망하는 부품문자 카테고리에 속하는지의 여부를 판별할 수 있다.
도 5는 문자와 그 구조정보의 대응관계를 나타내고 있다. 문자구조 데이터베이스(5)는 각 문자코드에 대해 그 대역적(大域的) 정보를 나타내는 문자형(a)과, 그 부품문자가 각각 어떤 형상인지에 대한 정보(b)와, 각 부품문자가 속하는 유사부품문자 카테고리에 관한 정보(형상과 수)(c)를 갖고 있고, 리퀘스트에 따라 그들 정보를 제공할 수 있는 구조가 되고 있다.
도 6은 입력문자화상으로부터 문자형 판정이나 상세문자인식을 거쳐 단어후보 내에 출현하는 문자의 인식이 실행되는 모양을 모식적으로 나타내고 있다.
도 7, 도 8은 모두 유사한 단어(이름)의 인식을 실행한 구체예를 나타내고 있다. 우선, 도 7에서는 3가지 문자로 이루어지는 이름후보를 들 수 있고, 각각의 문자형(타입)이 블록도로 나타내고 있다. 예로서는 최초 2가지 문자의 문자형을 비교하면 판별할 수 있는 것을 나타내고 있다.
마찬가지로 도 8에서는 모두 같은 문자형을 가진 유사단어후보를 들 수 있고, 단어 데이터베이스(6)에 그 문의를 하면, 어느 위치를 인식해야 하는지에 대한 정보를 얻을 수 있는 것을 나타내고 있다. 예로서는 동일세대에 있어서 이름의 인식을 들 수 있다.
이와 같이, 상기 실시형태에 의하면, 문자의 구조, 문자의 형을 정의하고, 미리 조합해야 할 단어후보 중에 포함되는 문자를 분류해 두는 것을 특징으로 하고, 단어조합시의 문자인식에 있어서 특히 한자 등과 같이 유사카테고리가 많은 경우에는 문자의 대역적인 정보나 부품문자의 형상에 대한 정보를 조합시키도록 하는 단어후보에 따라 적절히 활용시키는 것에 의해 유사도뿐만 아니라 문자구조의 분류에 의한 식별이 유효해져서 보다 유연하고 범용성이 풍부하며, 단어인식시의 성능이 현저하게 향상된다.
또, 이 단어인식방법은 손으로 쓴 문자에 볼 수 있는 붙여쓴 글자, 흘려쓴 글자 등에도 유효하고, JIS코드에 수록되어 있지 않은 문자 등이 장래 확장·추가되어도 마찬가지 방법으로 대응할 수 있다.
이상 상술한 바와 같이 본 발명에 의하면, 보다 유연하고 범용성이 풍부하며, 단어인식의 성능향상을 꾀할 수 있는 단어인식방법을 제공할 수 있다.
도 1은 본 발명의 실시형태에 관련된 단어인식방법이 적용되는 단어인식장치의 구성을 개략적으로 나타낸 블록도,
도 2는 본 발명의 실시형태에 관련된 단어인식방법의 흐름을 설명하기 위한 플로우 차트,
도 3은 문자형의 분류를 설명하는 도면,
도 4는 문자구성부품의 그룹화를 설명하는 도면,
도 5는 문자와 그 구조정보의 대응관계를 설명하는 도면,
도 6은 입력문자화상에서 문자형 판정이나 상세문자인식을 거쳐 단어후보 내에 출현하는 문자의 인식이 실행되는 모양을 모식적으로 나타낸 도면,
도 7은 문자형으로 인식할 수 있는 경우의 유사단어인식의 구체예를 나타낸 도면, 및
도 8은 상세문자인식이 필요한 경우의 유사단어인식의 구체예를 나타낸 도면이다.
*도면의 주요부분에 대한 부호의 설명
1: 문자인식부 2: 문자구조 인식판정부
3: 문자구조 인식부 4: 상세문자 인식부
5: 문자구조 데이터베이스 6: 단어 데이터베이스
7: 단어내 문자해석부 31: 문자형 판정부
32: 인식판정부 41: 부품문자 위치검출부
42: 부품문자 화상 절출부 43: 부품문자 인식부

Claims (7)

  1. 삭제
  2. 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서,
    상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품 문자수로 이루어지는 문자형을 판정하고 문자형 정보를 취득하는 제 1 스텝과,
    상기 제 1 스텝에 의해 취득된 문자형 정보를 미리 각 단어별로 기억한 각 단어내 문자의 문자형 정보와 비교하는 것에 의해 단어인식처리를 실행하는 제 2 스텝을 구비한 것을 특징으로 하는 단어인식방법.
  3. 제 2 항에 있어서,
    상기 제 1 스텝은 단어후보 내에 출현하는 각 문자에 대해 미리 문자코드마다 부품문자의 레이아웃 정보가 저장되어 있는 문자구조 데이터베이스를 참조하는 것에 의해 문자형 정보를 취득하는 것을 특징으로 하는 단어인식방법.
  4. 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서,
    상기 문자인식결과에 기초하여 문자구조인식을 실행하는지의 여부를 판정하는 제 1 스텝과,
    상기 제 1 스텝에 의해 문자구조인식을 실행한다고 판정된 경우, 상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품문자수로 이루어지는 문자형을 판정하고 문자형 정보를 취득하는 제 2 스텝과,
    상기 제 2 스텝에 의해 취득된 문자형 정보를 미리 각 단어별로 기억한 각 단어내 문자의 문자형 정보와 비교하는 것에 의해 단어인식처리를 실행하는 제 3 스텝과,
    상기 제 1 스텝에 의해 문자구조인식을 실행하지 않는다고 판정된 경우 상기 문자인식결과를 그대로 단어인식결과로서 출력하는 제 4 스텝을 구비한 것을 특징으로 하는 단어인식방법.
  5. 입력문자화상으로부터의 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서,
    상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품 문자수로 이루어지는 문자형을 판정하고, 문자형 정보를 취득하는 제 1 스텝과,
    상기 제 1 스텝에 의해 취득된 문자형 정보로 단어인식처리를 실행할 수 있는지의 여부를 판정하는 제 2 스텝과,
    상기 제 2 스텝에 의해 문자형 정보로 단어인식처리를 실행할 수 있다고 판정된 경우 상기 제 1 스텝에 의해 취득된 문자형 정보를 미리 각 단어별로 기억한 각 단어내 문자의 문자형 정보와 비교하는 것에 의해 단어인식처리를 실행하는 제 3 스텝과,
    상기 제 2 스텝에 의해 문자형 정보로 단어인식처리를 실행할 수 없다고 판정된 경우 상세문자인식해야 할 부품문자위치에 관한 정보를 취득하고 이 취득한 부품문자위치에 관한 정보에 기초하여 상기 입력문자화상으로부터 대응하는 부품문자화상을 추출하는 제 4 스텝과,
    상기 제 4 스텝에 의해 추출된 부품문자화상에 대해 문자인식처리하는 것에 의해 단어인식을 실행하는 제 5 스텝을 구비한 것을 특징으로 하는 단어인식방법.
  6. 제 5 항에 있어서,
    상기 제 4 스텝은 상기 제 1 스텝에 의해 취득된 문자형 정보에 기초하여 미리 문자형과 그 구성부품문자와의 대응관계에 대한 정보가 저장되어 있는 문자구조 데이터베이스를 참조하는 것에 의해 상세문자인식해야 할 부품문자위치에 관한 정보를 취득하는 것을 특징으로 하는 단어인식방법.
  7. 입력문자화상으로부터의 문자인식결과를 기초로 단어인식을 실행하는 단어인식방법에 있어서,
    상기 문자인식결과에 기초하여 문자구조인식을 실행하는지의 여부를 판정하는 제 1 스텝과,
    상기 제 1 스텝에 의해 문자구조인식을 실행하지 않는다고 판정된 경우 상기 문자인식결과를 그대로 단어인식결과로서 출력하는 제 2 스텝과,
    상기 제 1 스텝에 의해 문자구조인식을 실행한다고 판정된 경우 상기 문자인식결과에 기초하여 단어후보 내에 출현하는 각 문자에 대해 문자를 구성하는 분리가능한 부품문자의 공간적인 레이아웃 위치와 그 구성부품문자수로 이루어지는 문자형을 판정하고 문자형 정보를 취득하는 제 3 스텝과,
    상기 제 3 스텝에 의해 취득된 문자형 정보로 단어인식처리를 실행할 수 있는지의 여부를 판정하는 제 4 스텝과,
    상기 제 4 스텝에 의해 문자형 정보로 단어인식처리를 실행할 수 있다고 판정된 경우 상기 제 3 스텝에 의해 취득된 문자형 정보를 미리 각 단어별로 기억한 각 단어내 문자의 문자형 정보와 비교하는 것에 의해 단어인식처리를 실행하는 제 5 스텝과,
    상기 제 4 스텝에 의해 문자형 정보로 단어인식처리를 실행할 수 없다고 판정된 경우 상세문자인식해야 할 부품문자위치에 관한 정보를 취득하고 이 취득한 부품문자위치에 관한 정보에 기초하여 상기 입력문자화상으로부터 대응하는 부품문자화상을 추출하는 제 6 스텝과,
    상기 제 6 스텝에 의해 추출된 부품문자화상에 대해 문자인식처리하는 것에 의해 단어인식을 실행하는 제 7 스텝을 구비하는 것을 특징으로 하는 단어인식방법.
KR10-2002-0038220A 2001-07-11 2002-07-03 단어인식방법 KR100473660B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2001-00210982 2001-07-11
JP2001210982A JP4805485B2 (ja) 2001-07-11 2001-07-11 単語認識方法および単語認識装置

Publications (2)

Publication Number Publication Date
KR20030007019A KR20030007019A (ko) 2003-01-23
KR100473660B1 true KR100473660B1 (ko) 2005-03-10

Family

ID=19046376

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0038220A KR100473660B1 (ko) 2001-07-11 2002-07-03 단어인식방법

Country Status (2)

Country Link
JP (1) JP4805485B2 (ko)
KR (1) KR100473660B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200010777A (ko) * 2018-07-23 2020-01-31 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 유사 문자의 과거 인식 결과를 이용하는 문자 인식

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121660A (ja) * 1993-10-25 1995-05-12 Hitachi Ltd 手書き文字認識装置
JPH0896081A (ja) * 1994-09-29 1996-04-12 Toshiba Corp 文字認識装置及び文字認識方法
JPH0916723A (ja) * 1995-06-28 1997-01-17 Canon Inc 文字認識装置及びその制御方法
KR19980058361A (ko) * 1996-12-30 1998-09-25 구자홍 한글 문자 인식 방법 및 시스템
KR19990049667A (ko) * 1997-12-13 1999-07-05 구자홍 한글 문자체 인식 방법
JPH11191138A (ja) * 1997-12-25 1999-07-13 Toshiba Corp 手書き文字認識機能を利用した漢字入力方法及び文字入力装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57209574A (en) * 1981-06-19 1982-12-22 Fujitsu Ltd Kanji (chinese characters) recognizing device
JPS6075981A (ja) * 1983-10-03 1985-04-30 Oki Electric Ind Co Ltd ハングル文字組立パタ−ン認識方法
JPH0436885A (ja) * 1990-05-31 1992-02-06 Sharp Corp 光学式文字読取装置
JPH06111079A (ja) * 1992-09-30 1994-04-22 Nippon Telegr & Teleph Corp <Ntt> 単語読み取り装置
JP2825072B2 (ja) * 1995-08-09 1998-11-18 日本電気株式会社 文字列認識装置
JPH11134439A (ja) * 1997-10-30 1999-05-21 Oki Electric Ind Co Ltd 単語認識方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121660A (ja) * 1993-10-25 1995-05-12 Hitachi Ltd 手書き文字認識装置
JPH0896081A (ja) * 1994-09-29 1996-04-12 Toshiba Corp 文字認識装置及び文字認識方法
JPH0916723A (ja) * 1995-06-28 1997-01-17 Canon Inc 文字認識装置及びその制御方法
KR19980058361A (ko) * 1996-12-30 1998-09-25 구자홍 한글 문자 인식 방법 및 시스템
KR19990049667A (ko) * 1997-12-13 1999-07-05 구자홍 한글 문자체 인식 방법
JPH11191138A (ja) * 1997-12-25 1999-07-13 Toshiba Corp 手書き文字認識機能を利用した漢字入力方法及び文字入力装置

Also Published As

Publication number Publication date
KR20030007019A (ko) 2003-01-23
JP2003030588A (ja) 2003-01-31
JP4805485B2 (ja) 2011-11-02

Similar Documents

Publication Publication Date Title
US7149347B1 (en) Machine learning of document templates for data extraction
US7561734B1 (en) Machine learning of document templates for data extraction
US8340429B2 (en) Searching document images
JP3452774B2 (ja) 文字認識方法
US5579408A (en) Character recognition method and apparatus
US20060274938A1 (en) Automated document processing system
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
KR20010093764A (ko) 어근 모델에 근거한 초서체 한자 주석의 검색법
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
RU2259592C2 (ru) Способ распознавания графических объектов с использованием принципа целостности
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Song et al. Recognition of merged characters based on forepart prediction, necessity-sufficiency matching, and character-adaptive masking
KR100473660B1 (ko) 단어인식방법
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
US9015573B2 (en) Object recognition and describing structure of graphical objects
Koga et al. Segmentation of Japanese handwritten characters using peripheral feature analysis
JPH11184971A (ja) 手書き文字認識機能を持つ文字入力装置及び方法
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
JP2002183667A (ja) 文字認識装置及び記録媒体
JPH07319880A (ja) キーワード抽出・検索装置
JP3151866B2 (ja) 英文字認識方法
KR100332752B1 (ko) 문자인식방법
Umadevi et al. Offline Multilanguage Validation Analysis Using FEDSEL
JP2004005761A (ja) キーワード抽出・検索装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100127

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee