KR950020102A - 문자인식 방법 및 장치 - Google Patents

문자인식 방법 및 장치 Download PDF

Info

Publication number
KR950020102A
KR950020102A KR1019940034149A KR19940034149A KR950020102A KR 950020102 A KR950020102 A KR 950020102A KR 1019940034149 A KR1019940034149 A KR 1019940034149A KR 19940034149 A KR19940034149 A KR 19940034149A KR 950020102 A KR950020102 A KR 950020102A
Authority
KR
South Korea
Prior art keywords
character
word
candidate
string
characters
Prior art date
Application number
KR1019940034149A
Other languages
English (en)
Other versions
KR970007281B1 (ko
Inventor
도오루 히사미쯔
요시히로 시마
가쯔미 미루까와
히로아끼 시모까와베
요시히꼬 니시따
Original Assignee
가나이 쯔또무
가부시끼가이샤 히다찌세이사꾸쇼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가나이 쯔또무, 가부시끼가이샤 히다찌세이사꾸쇼 filed Critical 가나이 쯔또무
Publication of KR950020102A publication Critical patent/KR950020102A/ko
Application granted granted Critical
Publication of KR970007281B1 publication Critical patent/KR970007281B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

문자인식장치를 사용해서 일반문서를 자동적으로 입력하는 목적에 적합한 후처리를 갖는 문자인식 방법 및 장치에 관한 것으로서, 단어 대조코스트의 계산법을 연구하여 오인식 수정정밀도를 향상시키기 위해서, "후보문자 주도형의 사전찾기"와 "사전 주도형의 사전찾기"를 조합한 "혼합법"을 사용하여 단어검색을 실행하고, 또 동사활용 어미를 후속하는 조동사, 조사의 선두에 부가한 찾아보기어를 갖는 단 어사전을 이용하고, 단어 대조코스트의 차보다 확신도가 총체적으로 낮은 문자에 관한 대조코스트의 차보다 확신도가 총체적으로 높은 문자에 판만 대조코스트의 차를 중시하는 것을 특징으로 한다.
이러한 것에 의해, 사전탐색의 횟수, 사전에서 얻어지는 후보단어의 수가 대폭으로 감소하고, 문자인식 후처리의 효율이 대폭으로 향상한다.
선택도 : 제1도

Description

문자인식방법 및 장치
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제8도는 본원에서 제안하는 혼합방식을 설명하는 흐름도.
제9도는 혼합방식을 사용한 경우의 키와 후보단어의 예.
제12도는 본원에서 제안하는 동사활용형 처리를 위한 사전찾아보기의 예.

Claims (15)

  1. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문 자군과 그 요소인 후보문자를 개개의 후부문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보단어군과 그의 요소인 후보단어를 추출하고, 이 후보단어군 중의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 스텝, 상기 후보단어 래티스로부터 최적 후보단어열을 산출하는 스텝, 상기 후부단어 래티스로부터 최적 후보단어열을 산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어지는 후처리를 갖는 문자인식방법에 있어서, 문자패턴중의 위치 p부터의 단어대조를 실행하는 후보단어를 단어사전에서 추출하는 경우, 정해진 길이 L를 초과하지 않는 후보단어는 위치 p 이후의 연속하는 L개 이하의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 키의 전체 또는 그의 부분집합을 단어사전중에서 검색하는 것에 의해 추출하고, 길이가 L+1이상인 후보단어는 p1≤…≤pk인 자연수의 집합 P={p1,…,pk}를 사용해서 적어드 1개의 pi∈P에 대해서 단어의 선두부터 pi문자째가(p+pi)-1번째의 문자패턴에 대한 후보문자중의 지정된 조건을 충족시키는 문자의 1개와 일치하는 단어의 전체 또는 그의 부분집합으로 하는 문자인식방법.
  2. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그의 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보문자군과 그의 요소인 후보문자를 추출하고, 이 후보문자군 중의 저정된 후보문자를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」.「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 스텝, 상기 후보문자 래티스로부터 최적 후보단어열을 산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어지는 후처리를 갖는 문자인식방법에 있어서, 위치 p로부터의 단어대조를 실행하는 후보단어를 단어사전에서 추출하는 경우, 정해진 자연수 L을 초과하지 않는 후보단어는 위치 p 이후의 연속하는 L개 이하의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 키의 전체의 집합에 포함되는 요소를 단어사전중에서 검색하는 것에 의해 추출하고, 길이가 L을 초과하는 후보단어에 대해서는 위치 p 이후의 연속하는 L개의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 길이 L개인 키의 집합의 요소중의 하나와 선두 L문자가 지정된 조건에서 일치하는 단어의 전체 또는 일부분을 단어사전에서 추출하는 문자인식방법.
  3. 제1항에 있어서, pk≤L인 것을 특징으로 하는 문장인식방법.
  4. 제2항에 있어서, L=2 또는 L=3인 것을 특징으로 하는 문자인식방법.
  5. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그의 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보단어군과 그의 요소인 후보단어를 추출하고, 이 후보단어군 중의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w, p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보문자 래티스를 기록하는 스텝, 상기 후보단어 래티스로부터 최적 후보단어열을산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어지는 후처리를 갖는 문자인식방법에 있어서, 상기 단어사전으로서 연속해서 사용되는 빈도가 높은 단어열을 연속된 문자열로서 찾아보기에 갖는 단어사전을 사용하는 것을 특징으로 하는 문장인식방법.
  6. 제1항에 있어서, 연속해서 사용되는 빈도가 높은 단어열을 연속된 문자열로서 찾아보기에 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  7. 제2항에 있어서, 연속해서 사용되는 빈도가 높은 단어열을 연속된 문자열로서 찾아보기에 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  8. 제5항에 있어서, 동사어간과 함께 동사활용형의 활용어미를 상기 활용형에 후속하는 조동사 어간, 조사, 구독점 등의 어두에 부가한 문자열을 찾아보기로서 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  9. 제6항에 있어서, 동사어간과 함께 동사활용형의 활용어미를 상기 활용형에 후속하는 조동사 어간, 조사, 구독점 등의 어두에 부가한 문자열을 찾아보기로서 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  10. 제7항에 있어서, 동사어간과 함께 동사활용형의 활용어미를 상기 활용형에 후속하는 조동사 어간, 조사, 구독점 등의 어두에 부가한 문자열을 찾아보기로서 갖는 단어사전을 사용하는 것을 특정으로 하는 문자인식방법.
  11. 제1항에 있어서, 길이가 L+1 이상인 후보단어는 적어도 1개의 pi∈P에 대해서 단어의 선두부터 pi문자째가 (p+pi)-1번째의 문자패턴의 후보문자중에서 가장 확신도가 높은 후보문자와 일치하는 단어의 전체 또는 가장 부분집합으로서 추출하는 것을 특징으로 하는 문자인식방법.
  12. 제2항에 있어서, 길이가 L을 초과하는 후보단어에 대해서는 p번째 이후의 연속하는 L개의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 길이 L인 키의 집합의 요소중의 1개와 선두 L문자가 완전히 일치하는 조건을 충족시키는 단어의 전체 또는 일부분을 단어사전에서 추출하는 것을 특징으로 하는 문자인식방법.
  13. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보문자군과 그의 요소인 후보단어를 추출하고, 이 후보단어중 군의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 스텝, 상기 단어 대조코스트 계산의 수단으로서 단어를 구성하는 각 문자와 이 문자위치에 대응하는 후보문자군의 각 후보문자에 부여된 확신도를 사용해서 단어를 구성하는 각 문자마다 문자 대조코스트라고 하는 수치를 산출하고, 상기 후보단어의 문자 대조코스트를 단어를 구성하는 문자 각각의 문자 대조코스트의 합에 의해서 결정하는 스텝, 단어간의 접속의 용이함을 나타내는 수치정보인 접속코스트를 기록하는 스텝, 단어 대조코스트와 접속코스트의 선형합을 사용해서 상기 후보단어 래티스중의 단어의 조합으로 이루어지는 단어열에 점합도를 부여해서 최적 후보단어일을 산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어기는 후처리를 갖는 문자인식방법에 있어서, 단어를 구성하는 각 문자의 문자 대조코스트의 계산에 있어서, 이 문자를 C, 이 문자와 대조될 후보문자군 S를 {(C1,V1),…,(CNP,VN)}이라고 했을 때, C와 S의 대조코스트를 특정의 성질을 갖는 함수 K(C,S)를 사용해서 계산하는 것을 특징으로 하는 문자인식방법(여기에서, K(C,S)는 C-Ci인 경우 K(C,S)=α·G1(V0,V1Vi) ; C=Ci로 되는 i가 없는 경우 K(C,S)=G2(VN), 여기에서 α는 정의 정수, V0은 확신도의 최대값, 0≤VN≤…≤V1≤V0, G1(V0,V1,Vi)는 (V0-V1)이 커짐에 따라서 감소하고 (V1-Vi)가 커짐에 따라서 증대하는 정의 값 함수, G2는 VN의 값의 단조 비감소 함수).
  14. 제13항에 있어서, 문자 대조코스트의 계산에 사용하는 함수에 있어서, α=l, G1(V0,V1,Vi)={Max{(V1-Vsh),0}}·(Vl-Vi)/(V0-Vsh)로 되는 것을 특징으로 하는 문자인식방법(여기에서, Vsh는 0≤VshV0인 정수).
  15. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그의 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 수단, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보단어군과 그의 요소인 후보단어를 추출하는 수단, 상기 후보단어군 중의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 수단, 상기 후보단어 래티스로부터 최적후보단어열을 산출하는 수단, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 수단으로 이루어지는 후처리를 갖는 문자인식장치에 있어서, 상기 후보단어를 추출하는 수단은 문자패턴중의 위치 p부터의 단어대조를 실행하는 후보단어를 단어사전에서 추출하는 경우, 정해진 길이 L을 초과하지 않는 후보단어는 위치 p 이후의 연속하는 L개 이하의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자써 선택해서 생성한 키의 진체 또는 그의 부분집합을 단어사전중에서 검색하는 것에 의해 추출하고, 길이가 L+1이상인 후보단어는 p1≤…≤pk인 자연수의 집합 P={p1,… ,pk)를 사용하고, 적어도 1개의 pi∈P에 대해서 단어의 선두부터 pi 분자째가 (p+pi)-1번째의 문자패턴에 대한 후보문자중의 지정된 조건을 충족시키는 문자중의 1개와 일치하는 단어의 전체 또는 그의 부분집합으로 하는 것을 특정으로 하는 문자인식장치.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019940034149A 1993-12-22 1994-12-14 문자인식방법 및 장치 KR970007281B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP93-323699 1993-12-22
JP5323699A JPH07182465A (ja) 1993-12-22 1993-12-22 文字認識方法

Publications (2)

Publication Number Publication Date
KR950020102A true KR950020102A (ko) 1995-07-24
KR970007281B1 KR970007281B1 (ko) 1997-05-07

Family

ID=18157617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940034149A KR970007281B1 (ko) 1993-12-22 1994-12-14 문자인식방법 및 장치

Country Status (3)

Country Link
US (1) US5768451A (ko)
JP (1) JPH07182465A (ko)
KR (1) KR970007281B1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2734386B2 (ja) * 1994-12-20 1998-03-30 日本電気株式会社 文字列読み取り装置
JP3525997B2 (ja) * 1997-12-01 2004-05-10 富士通株式会社 文字認識方法
WO2000057350A1 (en) * 1999-03-19 2000-09-28 Raf Technology, Inc. Rollup functions for efficient storage, presentation, and analysis of data
JP2001137788A (ja) * 1999-11-12 2001-05-22 Hitachi Ltd 地名表記辞書作成方法および地名表記辞書作成装置
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
JP4421134B2 (ja) 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
KR20030087088A (ko) * 2002-04-26 2003-11-13 나진희 홍채인식을 이용한 보안 방법 및 그 장치
JP4297798B2 (ja) * 2004-01-29 2009-07-15 富士通株式会社 移動体情報管理プログラム
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101226595B (zh) * 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101354704B (zh) * 2007-07-23 2011-01-12 夏普株式会社 字形特征字典制作装置及具备该装置的文档图像处理装置
JP5434586B2 (ja) * 2009-12-29 2014-03-05 オムロン株式会社 単語認識方法および単語認識用のプログラムならびに情報処理装置
US20130194448A1 (en) 2012-01-26 2013-08-01 Qualcomm Incorporated Rules for merging blocks of connected components in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9323726B1 (en) * 2012-06-27 2016-04-26 Amazon Technologies, Inc. Optimizing a glyph-based file
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
WO2014038057A1 (ja) * 2012-09-07 2014-03-13 株式会社日立製作所 計算機システム、データ管理方法及びプログラムを格納する記録媒体
JP2014174923A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
US9298694B2 (en) * 2013-04-11 2016-03-29 International Business Machines Corporation Generating a regular expression for entity extraction
US9317499B2 (en) * 2013-04-11 2016-04-19 International Business Machines Corporation Optimizing generation of a regular expression
JPWO2020195709A1 (ko) * 2019-03-28 2020-10-01
US20220092096A1 (en) * 2020-09-23 2022-03-24 International Business Machines Corporation Automatic generation of short names for a named entity

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5448474A (en) * 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text

Also Published As

Publication number Publication date
US5768451A (en) 1998-06-16
KR970007281B1 (ko) 1997-05-07
JPH07182465A (ja) 1995-07-21

Similar Documents

Publication Publication Date Title
KR950020102A (ko) 문자인식 방법 및 장치
US7536297B2 (en) System and method for hybrid text mining for finding abbreviations and their definitions
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
Oh et al. An English-Korean transliteration model using pronunciation and contextual rules
EP1559061A2 (en) Post-processing system and method for correcting machine recognized text
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
JP4114600B2 (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
Fink et al. Profiling of OCR'ed Historical Texts Revisited
JPH087033A (ja) 情報処理方法及び装置
US6167367A (en) Method and device for automatic error detection and correction for computerized text files
Lu et al. Word searching in document images using word portion matching
US6757647B1 (en) Method for encoding regular expressions in a lexigon
Skylaki et al. Legal entity extraction using a pointer generator network
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
Calvo-Zaragoza et al. Music symbol sequence indexing in medieval plainchant manuscripts
JP3531222B2 (ja) 類似文字列検索装置
US5689583A (en) Character recognition apparatus using a keyword
US20020126903A1 (en) Word recognizing apparatus for dynamically generating feature amount of word and method thereof
Katsuyama et al. Highly accurate retrieval method of Japanese document images through a combination of morphological analysis and OCR
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
Edwards et al. Searching for character models
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
Muliadi et al. Comparison of String Similarity Algorithm in post-processing OCR
Yu High accuracy postal address extraction from web pages

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 19971223

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee