KR970007281B1 - 문자인식방법 및 장치 - Google Patents

문자인식방법 및 장치 Download PDF

Info

Publication number
KR970007281B1
KR970007281B1 KR1019940034149A KR19940034149A KR970007281B1 KR 970007281 B1 KR970007281 B1 KR 970007281B1 KR 1019940034149 A KR1019940034149 A KR 1019940034149A KR 19940034149 A KR19940034149 A KR 19940034149A KR 970007281 B1 KR970007281 B1 KR 970007281B1
Authority
KR
South Korea
Prior art keywords
character
word
candidate
string
characters
Prior art date
Application number
KR1019940034149A
Other languages
English (en)
Other versions
KR950020102A (ko
Inventor
도오루 히사미쯔
요시히로 시마
가쯔미 마루까와
히로아끼 시모까와베
요시히꼬 니시따
Original Assignee
가부시끼가이샤 히다찌세이사꾸쇼
가나이 쯔또무
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시끼가이샤 히다찌세이사꾸쇼, 가나이 쯔또무 filed Critical 가부시끼가이샤 히다찌세이사꾸쇼
Publication of KR950020102A publication Critical patent/KR950020102A/ko
Application granted granted Critical
Publication of KR970007281B1 publication Critical patent/KR970007281B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

내용없음

Description

문자인식방법 및 장치
제1도는 오인식에 대한 후처리를 갖는 문자인식방법의 개요를 도시한 설명도.
제2도(a)는 후보문자집합의 예(후보문자제한 처리전).
제2도(b)는 후보문자집합의 예(후부문자제한 처리후).
제3도는 후보문자집합과 사전을 사용해서 생성한 후보단어 래티스의 예.
제4도는 후보문자군으로부터 후보단어를 추출하기 위한 종래방식(후보문자 주도형의 사전찾기)의 설명도.
제5도는 후보문자 주도형의 사전찾기를 사용해서 생성한 키의 예.
제6도는 후보문자군으로부터 후보단어를 추출하기 위한 종래방식(사전 주도형의 사전찾기)의 설명도.
제7도는 사전 주도형의 사전찾기를 사용해서 추출한 후보단어의 예.
제8도는 본원에서 제안하는 혼합방식을 설명하는 흐름도.
제9도는 혼합방식을 사용한 경우의 키와 후보단어의 예.
제10도는 종래방식(활용형 전개방식)을 사용한 경우의 동사활용형 처리를 위한 사전찾아보기의 예.
제11도는 종래방식(활용어미 분리방식)을 사용한 경우의 동사활용형 처리를 위한 사전찾아보기의 예.
제12도는 본원에서 제안하는 동사활용형 처리를 위한 사전찾아보기의 예.
제13도는 제8도에 도시한 혼합방식의 변형예.
제14도는 제12도에 도시한 사전찾아보기의 변형예.
제15도는 한국어의 문을 인식한 경우의 후보문자집합의 예(후보문자 제한처리전).
제16도는 제15도의 후보문자집합과 사전을 이용해서 생성한 후보단어 래티스의 예.
제17도는 후보문자집합의 예(후보문자 제한처리후).
제18도는 제17도의 후보문자집합과 사전을 사용해서 생성한 후보단어 래티스의 예.
제19도는 언어적 코스트를 부여하는 함수의 정의예.
본 발명은 후처리를 사용해서 인식정밀도를 향상시키는 수단을 갖는 문자인식방법에 관한 것으로서, 문자인식장치(이하, OCR이라 한다)를 사용해서 일반문서를 자동적으로 입력하는 목적에 적합한 후처리를 갖는 문자인식방법 및 장치에 관한 것이다.
OCR를 사용해서 문서를 리드한 경우, 각 문자패턴마다 여러개의 후보문자(각 후보에는 수치화된 확신도가 부여된다)가 얻어지지만, 가장 확신호가 높은 문자의 정해율은 통상 100%는 아니고, 또 정해가 후보문자에 를어가 있지 않은 경우도 있다. 이와 같은 문자인식성능의 불완전성을 보완하기 위해서, 일반문서의 리드결과에 대해서는 통상 제1도에 도시한 바와 같은 구성을 사용해서 수정, 보완 등의 후처리를 실행한다. 문헌[1],[2],[3] 및 일본국 특허공개공보 평성3-125288에 이들의 처리예가 소개되어 있다.
[1] T.Sugimura: Error Corecxtion Method for Charcater Recognition Based on Confusion Matrix and Morphological Analysis 전자정보 통신학회 논문지, Vo1.J72,No.7,pp.993 -1000(1989)
[2] T.Takao et al. : Implementation and Evaluation of Pation of Post-processing for Japanese Document Reaers 정보처리 학회논문지, Vo1.30,No.11,pp1394-1401(1989)
[3] N.Itoh et al. : A Method of Detecting and Correcting Errors in the Results of Japanese OCR 정보처리 학회논문지, Vol.33,No.5,pp.664-670(l992)
본 발명의 기초로 되고 있는 기술의 개요를 먼저 설명한다.
리드대상문서(101)을 스캐너(102)를 사용해서 디기탈화상화하고, 문자인식기능(101)을 스캐너(102)를 사용해서 디지탈화상화하고, 문장인식기능(103)에 의해 문자패턴의 분할 및 각 문자패턴마다 후보문자군(각각에 확신도가 부여된다)이 얻어진다. 이 형태를 제2도(a)에 입력문자열이 米國産 のトウモロゴシヤ…(미국산의 옥수수나)인 경우를 사용해서 예시하였다. 확신도는 통상 1이상 1이하인 실수이지만, 예에서는 이것을 0∼255의 정수값으로 디지탈화한 것을 사용하고 있다. 각 행이 각 문자패턴에 대한 확신도를 갖는 후보문자군을 나타낸다(정해문자를 망긋기표시에 의해 나타낸다.) 제15도는 한국어의 예이다. 정해문자열을 제2도(a)와 마찬가지로 망긋기에 의해 도시하고 있다(정해문자열은 도서관에 간다라는 의미이다. 한국어는 띄어쓰기를 하므로, 도서관에 대응하는 부분과 간다에 대응하는 부분 사이에 공백이 있다).
문자인식기능(103)의 출력은 문자인식 후처리기능(104)에 의해 수정, 보완된다. 문자인식 후처리기능(104)는 3가지 부분으로 구성된다. 즉, 후보문자 조정기능(1044), 후보단어 추출기능(1045), 후보단어열 추출기능(1046)이다. 후보문자 조정기능(1044)는 후보문자 제한처리기능(10441) 후보문자 추가처러기능(10442)로 이루어진다. 후보문자 제한처리기능(10441)은 확신도가 미리 정해진 값보다 낮은 문자를 후보문자에서 제외하는 등의 제외처리를, 후보문자 추가처리기능(10442)는 컨퓨젼 매트릭스(cofusion matrix : 문자간의 오인식 확률테이블)(1041)을 사용해서 필요한 경우에는 후보문자에 특정의 문자를 추가하는 처리를 실행한다.
제2도(b)는 제2도(a)와 같은 후보문자군에 후보문자 제한처리를 실시한 결과의 1예이다. 후보문자 조정기능(1044)의 처리를 거쳐서 1개의 문자패턴마다 여러개 얻어지는 후보문자군은 후보단어 추출기능(1045)로 보내져서 후보단어의 사전찾기처리, 대조코스트(matching cost)계산 등이 실행된다. 사전찾기처리기능(10451)에서는 후보문자군에서 생성한 키와 사전(1042)를 사용해서 입력문에 출현했을 가능성이 있는 단어를 추출하고, 대조코스트 계산처리기능(10452)는 이 후보단어와 문자패턴과의 적합성의 지표로 되는 대조코스트를 산출하고, {후보 단어, 위치정보, 대조코스트}의 3개조의 집합(이하, 후보단어 래티스(lattice)라 한다)을 생성하여 후보단어열 추출기능(1046)으로 보낸다.
제3도에 2도(a)의 후보문자집합을 사용해서 후보단어 추출기능(1045)에서 출력되는 후보단어 래티스의 모식도를 도시한다. 제16도는 제15도의 후보문자집합을 사용해서 후보단어 추출기능(1045)에서 출력되는 후보단어 래티스의 모식도이다. 도면중의 C1는 각 후보단어의 대조코스트로서 여러가지 방법으로 산출되지만, 예를들면 상술한 문헌인 일본국 특허공개공보 평성3-125288의 방법을 사용할 수가 있다. 후보단어 래티스는 후보단어열 추출기능(1046)으로 보내지고, 접속검정 처리기능(10461), 최적 단어열 추출처리기능(10462)에 의해 품사의 접속체크, 단어의 빈도, 단어간 접속 적합도 등의 문법지식(1043)을 사용해서 최적 단어열이 추출되어 단말(105)로 표시된다.
본 발명에 있어서 후보문자 조정기능(1044)에 관해서는 방법을 특정하지 않기 때문에, 먼저 사전찾기 처리기능(10451), 사전(1045)에 대해서 증래방법을 상세하게 기술한다.
* 사전찾는 방법
사전찾는 방법은 크게 나누어서 2종류가 있다. 첫번째는 제4도에 모식적으로 도시한 방법이며, 이하에서는 후보문자 주도형의 사전찾기라고 부른다. 이 방법은 확신도가 어떤 조건을 충족시키는(제4도의 경우, 간단화하기 위해서 「최고의 확신도를 갖는 후보문자와의 확신도의 차 d가 60이내이다」라고 하고 있다. 그밖에,「순위가 K위 이내이다」등의 제약이 고려된다) 후보문자만을 사용해서 일정한 길이 L개를 초과하지 않는 범위에서 조합하고, 이것을 키로 해서 단어사전을 검색하는 것이다.
제4도는 제2도에 도시한 예의 5문자째 이후에 대응하는 부분에 후보문자 주도형의 사전찾기를 적용한 경우이다. 사전검색의 대상으로 되는 것은 제5도에 도시한 키군이고, 제4도의 굵은선으로 나타낸 정해문자열 トウモロゴシ도 포함된다(여기에서는 간단화를 위해 L=5라고 가정하였다.)
또 하나의 방법을 이하에서 사전주도형의 사전찾기라고 부른다. 제6도는 이 방법을 모식적으로 도시한 것이다. 사전은 각 단어에 예를들면 1문자째의 문자 2문자째의 문자 등 특정 위치에 문자를 키로 해서 액세스가능한 구성으로 한다. m문자부터 시작되는 후보단어를 추출하기 위해서는 예를들면 m번째의 문자패턴의 후보문자 집합중 확신도가 제1위인 문자로 시작되는 단어군을 사전에서 추출해서 대조대상 단어군으로하고, 이들과 후보문자군 사이의 대조코스트를 계산해서 후보단어 래티스를 생성한다.
제7도에 제6도의 예에서 선두 1문자째를 키로 사용하는 경우에 대조대상으로 되는 단어군을 도시하였다.
* 사전에 대해서
사전검색을 위한 데이타구조, 검색방법에 대해서는 TRIE 구조, 햇시(hasing)법 등 고속화를 위한 여러가지 표준적 방법이 있지만, 본 발명에 있어서 이들에 대해서는 구속받지 않고 임의의 방법을 공지의 방법중에서 채용할 수 있으므로, 설명을 생략한다. 본 발명은 찾아보기어의 연구에 의해 후처리의 고속을 도모하는 것으로서, 특히 동사활용형의 취급에 특징이 있다. 따라서, 이하에서는 종래의 동사활용형의 처리방법에 대해서 기술한다.
종래 방법에 있어서 동사활용형 처리에 사용하는 사전찾아보기로서는 크게 나누어서 2종류가 있다. 그중 하나를 이하에서는 활용형 전개방법이라고 한다. 활용형 전개방법에 있어서 동사활용은 제10도에 도시한 바와 같이, 활용형을 전개한 형태로 찾아보기어로서 사용된다. 각 찾아보기어에는 식별코드가 부여되고, 단어간의 접속가부는 식별코드간의 접속가부를 1 또는 0으로 나타낸 접속테이블에 의해 표현되지만, 여기에서는 식별코드, 접속테이블의 상세한 설명은 생략한다. 다른 한가지 방법을 이하에서는 활용어미 분리방법이라고 한다. 활용어미 분리방법에 있어서는 제11도에 도시한 바와 같이, 동사활용형은 어간, 어미로 분리된다. 조동사나 소수의 불규칙 동사는 통상 활용형으로 전개해서 등록된다.
다음에, 대조코스트 계산처리기능(10452), 후보단어열 추출기능(1046)에 관해서 설명한다. 예로서 제17도에 도시한 '車體か良い(자체가 좋다)라는 문자열을 인식한 결과의 후보문자 집합을 사용해서 오인식을 수정하는 경우를 설명한다. 제18도는 제17도의 후보문자집합에서 생성한 후보단어 래티스를 도시한 것이다.
후보단어 래티스의 단어를 겹치지 않게 또한 문두에서 문말까지 덮도록 조합해서 얻어지는 단어열 w1·…·wn에 대해서는 일반적으로 대조코스트 g(w1·…·wn)과 단어의 배열로서의 평가값(이것을 언어적 코스트라고 부른다) f(w1·…·wn)이 부여된다.
g는 [식 1]에서 표시되는 바와 같이, 각 단어마다의 단어 대조코스트 c(w1)의 합으로 정의된다. w=C1C2…Cm의 단어 대조코스트 c(w)는 단어를 구성하는 각 문자의 대조코스트의 합으로서 표시된다. C1와 대조될 후보문자군을 S1={(Ci1,Vil),…,(Ci1,Vi1),…,(CiN,ViN)}이라고 했을 때, C1와 S1의 대조코스트를 K(C1,S1)로 해서 c(w)는 [식 2]로 정의된다.
제18도에서는 제m위로서 인식된 문자에는 (m-1)을 대조코스트로서 부여하고, 어떤 어 w의 대조코스트 g(w)는 그것을 구성하는 문자마다의 대조코스트의 합으로 하는 방법이다. 이하, 이것을 편의상 순위 이용법이라고 한다.
한편, f로서는 제19도에 도시한 함수 m을 사용해서 [식 3]과 같이 정의할 수가 있다.
(@는 언어적 코스트를 계산하기 위해 가상적으로 사용하는 문두를 나타내는 기호).
이 2종류의 코스트를 종합적으로 평가하기 위해서 종래 적당한 정수 α를 사용해서 코스트함수 F를 αg+f의 형태로 정의하고, 실험에 의해 적당한 α를 정하고 있었다. 제17도, 제18도의 예의 경우, 언어적 코스트가 최저로 되는 단어열은
A1=(車體, 명사)/(が,조사 1)/(良,용언 어간)/(い,종지형 활용어미)/(˚,독점(period))
A2=(單作, 명사)/(が,조사 1)/(良,용언 어간)/(い,종지형 활용어미)/(˚,독점)
이 두가지이며(문두는 생략함), 언어적 코스트는 f(Al)=F(A2)=7이다. 한편, 대조코스트는 g(Al)=4, g(A2) =3이다.
한편, 대조코스트가 최소로 되는 단어열은
A3=(單作, 명사)/(か,조사 3)/(良,용언 어간)/(い,종지형 활용어미)/(˚,독점)
이며, g(A3) = 2이다. 한편, 언어적 코스는 f(A) = 9이다.
따라서, 이 경우 예를들면 α=0.5로 하면, F=0.5*f+g에서 F(A1) =9, F(A2) =8.5, F(A3) =10으로 되어 최소해(minium cost solution)는 A2로 되고, 출력되는 문자열은 單作が良い로 된다.
즉, 3문자째의 'か', 5문자째의 'い'는 각각 정확한 문자 'が', 'い'로 치환되어 후처리효과가 발생하고 있다. 그러나 이 경우, 1문자째의 '車'가 '單'으로 잘못 치환되어 있다.
여기에서, 단어 대조코스트를 사용해서 제 m단위로서 인식된 문자의 코스트를 (제1위의 문자의 확신도-제 m위의 문자의 확신도)로 하고, 어떤 어 w의 대조코스트 g(w)는 것을 구성하는 문자마다의 대조코스트의 합으로 하는 방법을 사용하면(이하, 이것을 펀의상 확신도 차분법이라고 한다). 대조코스트는 g(Al)=30, g(A2) =30, g(A3)=10으로 되고, α=0.05로 하면 F=0.05 * f+g에서 F(A1) =8.5, F(A2) =8.5, F(A3)=9.5로 된다. 이 방법은 순위 이용법으로 확신도를 차를 잘 반영할 수 있어 보다 정밀도가 높은 코스트함수를 되리라 예상되며, 실제 정해인 A1이 코스트 최소해에 포함된다. 그러나 코스트 최소해는 여러개(A1과 A2)로 되어 어느쪽을 츨력할지는 결정되지 않는다. A2를 출력한 경우, 상기의 경우와 마찬가지로 오치환이 발생한다. 이것은 α를 조정하더라도 없앨 수는 없다.
* 사전찾는 법에 대해서
사전찾기, 동사활용처리, 대조코스트 계산철리에 있어서의 종래방법의 문제점을 기술한다.
후보문자 주도형의 사전찾기의 문제점은 d나 L이 증대하면, 검색대상키 수가 지수적으로 증대하여 사전찾기 및 후속의 처리에 부담이 가해진다는 점이다. 예를들면, 제4도의 예에서는 검색대상으로 되는 키수는 L≤5라는 응용상 너무 짧은 설정임에도 불구하고 750개로 증가한다.
사전주도형의 사전찾기는 키수의 조합적 폭발은 발생하지 않지만, 1문자째가 부여된 문자와 일치하는 단어수는 사전이 100,000어 정도일때 평균해서 l00개를 초과하여(상기 문헌[2] 참조) 계산기의 부담은 여전히 크다.
* 동사활용처리에 대해서
활용형 전개방법의 문제점은 사전찾아보기 수가 동사어간만인 경우에 비해서 1만개 이상 증대하는 것과 사전주도형의 사전찾기''를 사용한 경우, 예를들면 分과 같은 동사언간으로 될 수 있는 한자가 출현할 때마다 모든 활용형의 대조코스트를 계산하지 않으면 안된다는 문제가 있다.
활용어미 분리방법의 문제점은 분할수가 증대하기 때문에, 접속체크의 부감이 증대한다는 것이다.
사전검색, 접속체크의 시간은 후처리 전체의 75%라는 큰 비중을 차지하기 때문에, 대량의 문서에 대처하기 위해 문자인식 후처리의 속도를 향상시키기 위해서는 상기의 문제점을 해결할 필요가 있다. 즉, 본 발명에서 해결하고자 하는 과제는 다음의 2가지이다.
1) 사전찾기, 후보단어추출의 효율을 개선하는 것.
2) 활용처리의 합리화에 의해, 사전찾기, 접속검정의 효율을 개선하는 것.
* 대조코스트 계산처리에 대해서
종래의 방법으로서, 2종류의 단어 대조코스트 계산방법을 살펴보았다. 순위 이용법에서는 순위가 하나 다른 확신도가 근접해 있는 후보문자의 쌍과 순위가 다른 화신도가 떨어져 있는 후보문자의 쌍을 어느쪽도 코스트 1의 차로서밖에 취급할 수 없다.
확신도 차분법은 후보문자의 확신도의 차를 반영하지만, 여전히 다음과 같은 문제가 있다. 즉, 제17도의 1문자째와 같이 확신도가 대체로 낮은 경우에 확신도의 차는 그다지 의미가 없지만, 2문자째와 같이 확신도가 대체로 높은 경우에 확신도의 차는 확신도의 차가 총체적으로 낮은 경우에 비해서 의미가 있다. 확신도 차분법은 이 차이를 보완할 수 없다는 점에서 문제가 있으며, 이 결과 최소코스트해를 풀 수 없다는 문제가 발생했다고 고려된다.
* 사전찾는 법에 대해서
본 발명에 있어서는 사전찾는 방법으로서 후보문자 주도형의 사전찾기와 사전주도형의 사전찾기의 장단점을 융합한 이하에서 혼합법이라고 하는 방법을 사용한다. 혼합법이라는 것은 사전을 찾아보기의 길이가 L재 이하인 단어사전 D1과 L보다 큰 단어사전 D2로 분할하고, 길이가 L개 이하인 후보단어는 후보문자를 조합하는 후보문자 주도형의 사전찾기를 사용해서 D1에서 추출하고, 길이가 L+l 이상인 후보단어는 D2에 사전주도형의 사전찾기를 적용해서 추출한다. D2의 구성은 단어의 선두 L문자로 검색할 수 있게 해둔다(이것은 TRIE 구조 등을 이용해서 용이하게 실현할 수 있다).
* 동사활용처리에 대해서
본 발명에 있어서는 활용형 처리를 위한 사전찾아보기로서 제12도에 도시한 바와 같은 찾아보기를 갖는 사전을 사용한다. 즉 찾아보기로서 동사활용형의 활용어미를 이 활용형에 후접(後接)하는 조동사 어간, 조사, 구독점 등의 어두에 부가한 문자열을 사용한다.
* 조합코스트 계산처리에 대해서
본 발명에서는 후보문자의 확신도가 총체적으로 높은 경우의 확신도의 차를 후보문자의 확신도가 총체적으로 낮은 경우의 확신도의 차보다 중시한다는 생각을 이용한다. 이것을 실현하기 위해서 문자 대조코스트를 다음과 같이 한다. 즉, 단어를 구성하는 각 문자의 문자 대조코스트의 계산에 있어서, 이 문자를 C, 이문자와 대조될 후보문자군 S를 {(C1,V1),…,(C1,V1),…,(GN,VN)}이라고 했을 때, C와 S와의 종합코스트를 이하에서 기술하는 성질을 갖는 함수 K(C,S)를 사용해서 계산한다 : K(C,S)는 C=C1인 경우 K(C,S)=α·G1(V0,V1,Vi) ; C=Ci로 되는 i가 없는 경우, K(C,S)=G2(VN), 여기에서 α,β는 정의 정수, V0는 확신도의 최대값, 0≤VN≤…≤V1≤V0,G1(V0,V1,Vi)는 (V0-V1)이 커짐에 따라서 감소하고 (V1-Vi)가 커짐에 따라서 증대하는 정의 값 함수, G2는 VN값의 단조 비감소 함수(monotomously non-detcreasing function).
* 사전찾는 법에 대해서
혼합법에 있어서 예를들면 L=2라고 설정하면, 후보문자 주도형의 사전찾기에 의해서 생성되는 길이가 2이하인 키의 수는 L이 5인 경우에 비해서도 수십분의 1로 감소한다. 또, 통상의 일본어의 사전인 경우, 길이가 2이하인 단어가 과반수를 차지하고 또 선두 L문자에 관한 제약을 하는 것에 의해서 사전추도형의 사전찾기에 의해 얻어지는 후보단어수(길이가 3이상)는 평균 수개로 감소한다. 이 때문에, 혼합법에서는 종래방식을 각각 단독으로 사용한 경우에 비해서, 사전검색과 후보단어 추출의 시간을 대폭으로 감소시킬 수가 있다.
종래법과 동일한 예를 사용해서 구체적으로 이것을 나타내면, 제9도와 같이 혼합법에 의한 사전검색횟수=길이가 2이하인 검색대상키수=8, 사전주도형의 사전찾기에 의해 얻어지는 후보단어수는 2개로 되어 합쳐서 10개에 불과하다. 따라서, 혼합법에서는 종래방법에 비해서 사전찾기, 후보단어추출의 시간이 대폭으로 감소하고 있다(1/10∼1/100).
* 동사활용 처리에 대해서
또, 본 발명에 있어서의 동사활용형 처리를 위한 찾아보기어를 이용하면, 동사어간과 활용어미, 활용어미와 조동사(또는 조사)의 접속체크중 한쪽이 필요하지 않게 되어 후처리 효율을 더욱더 개선할 수가 있다. 여기에서, 활용어미 부가에 의해서 발생하는 찾아보기어 수는 150개 정도에 불과하므로, 사전의 규모로는 무시할 수가 있다.
* 대조코스트 계산처리에 대해서
예를 들면, 앞서 기술한 K에 있어서, β=1, G1(V0,V1,Vi)={Max{(V1-Vsh),0}}·(V1-Vi)/(V0-Vsh),Vsh=90, V0=255라고 하면, 종래기술로서 기술한 단어열 Al, A2에 대해 g(Al)≒20.9, g(A2)≒14.8로 된다.
g를 최소로 하는 단어열은
A4=(車體, 명사)/(か,조사 3)/(良,용언 어간)/(い,종지형 활용어미)/(˚,독점)
이고, g(A4)≒7.6이다. α=0.1이라고 해두는 것에 의해, F의 최소코스트해는 A1뿐이다. 이 결과, 모든 오인식을 정확하게 치환할 수가 있다.
* 사전찾는 법에 대해서
이하, 제8도에 따라서 제2도의 5문자째부터의 후보단어를 추출하는 절차를 예로 해서 혼합법을 사용한 후보단어 추출절차에 관한 설명을 실행한다. 또한, 문자패턴열은 충분히 긴 것으로 한다.
스텝(801)에서 문자의 선두위치 p를 5로 세트한다.
스텝(802)에서 후보문자 주도형의 사전찾기를 사용해서 생성하는 키의 길이의 상한을 L로 세트한다. 여기에서는 L=2로 한다. 확신도가 낮은 후보문자를 대상에서 제외해서 처리속도를 향상시키기 위해, 스텝(803)에서 키생성에 사용하는 후보문자에 관해서 제약을 마련한다. 여기에서는 d=60으로 한다.
스텝(8041), 스텝(8042)는 각각 후보문자 주도형의 사전찾기, 사전주도형의 사전찾기에 의해 얻어지는 후보단어에 관해서 이것을 후보단어 래티스에 등록하는지 등록하기 않는지를 판정하기 위한 대조코스트 C1,C2의 상한을 세트하는 절차이다.
이 제한은 정확한 가능성이 낮은 후보단어를 조기에 제외해서 후처리의 효율을 높이기 위함이다. 본 발명에서는 대조코스트 산출법에 관해서는 상세하게 기술하지 않지만, 여기에서는 간단화를 위해 「후보단어의 각 문자가 후보문자 집합중에 나타나는 순위-1」의 합으로 한다. 문자가 후보문자 중에 없는 경우, 패널티로서 순위-1 대신에 10을 사용하기로 한다(단, 후보는 최저라도 10위 이상으로 하고 있다).
일반적으로, p가 문자패턴열의 말미에 가깝고 p부터 시작되는 후보단어가 비교할 문자패턴의 말미를 초과하는 경우, 조합을 중단한다. 제2도의 후보문자 집합을 전제로 한 경우, 단어 トウモロゴシ의 대조코스트는 1+1+0+0+0=2이다. 긴 단어일수록 오인식이 혼입할 확률이 높기 때문에, C1C2로 하는 것이 합리적이다. 여기에서는 간단화를 위해 C1=1, C2=2로 한다.
스텝(805)에서 후보문자 주도형의 사전찾기의 키를 생서하는 준비로서 키로 사용하는 문자를 각 위치마다 리스트하기 위한 영역을 초기화한다.
스텝(806)에서 위치 p부터 시작되는 후보단어와 대조코스트의 조를 기록하는 영역 Cands를 초기화한다.
스텝(807), 스텝(808)에서 0≤k≤L-1이고 또한 p+k가 문자패턴의 길이를 초과하지 않는 k에 대해서, 리스트 Lk에 키생성의 후보로 되는 문자를 최적 후보와의 확신도의 차에 의해서 선택, 등록한다. 이 경우, 문자패턴은 충분히 긴 것으로 하였으므로, 0≤k≤L-1인 k에 대해서 p+k는 문자패턴의 길이를 초과하지 않는다고 하여도 좋고, 상기 예의 경우에 L0={ト,ト}, L1={ヴ,う,う}로 된다.
스텝(809)에 있어서 스템(808)에서 생성한 리스트를 사용해서 길이가 L이하인 키집합을 생성한다. 이 경우, 제9도의 표(901)에 도시한 바와 같이, {ト,ト,ト,ヴ,ト,ウ,ト,ウ,ト,ヴ,ト,ウ,ト,ウ}로 된다.
스텝(8l0)에서는 이 집합의 각 요소 v를 사전중에서 검색하지만, 이 경우에는 모든 v에 대해서 사전중에 존재하지 않으므로 Cands는 빈상태이다.
스텝(811)에서는 각 v에 대해서 선두의 2문자가 v와 일치하는 길이가 3이상인 단어를 검색해서 대조대상단어를 구하고, 그들의 대조코스트가 C2를 초과하지 않는 경우에는 단어 대조코스트와 조로 해서 Cands에 부가한다.
이 경우, 먼저 대조대상 단어로서 제9도의 표(902)에 도시한 2어{トウツユ-ズ,トウモロゴシ}가 있고, トウツユ-ズ의 대조코스트는 32, トウモロゴシ의 대조코스트는 2로 되기 때문에, Cands에 부가되는 요소는 (トウモロゴシ,2)뿐이다.
일반적인 경우, p가 문자패턴열의 말미에 가깝고 p에서 말미까지의 길이를 L+1이 초과한 경우,「최초의 L문자가 v와 일치하는 길이가 L+1이상인 단어 w」는 존재하지 않아 후보단어 래티스에는 등록되기 않는다.
* 동사활용 처리에 대해서
사전에 관해서는 기본적으로 제12도에 도시한 바와 같은 사전을 사용한다. 찾아보기어의 길이에 따른 사전의 분할, 고속검색을 위한 메모리내로의 전개법 등에 대해서는 본 발명에서는 특정하지 않는다. 또, 이들은 워드프로세서 등에서 이용되고 있는 임의의 기존기술을 사용해서 실현할 수 있는 것은 자명하기 때문에, 설명은 생략한다. 여기에서는 찾아보기어의 구성법에 대해서 상세하게 설명한다.
동사활용형과 조도사, 동사활용형과 조사와의 연쇄에 대해서, 동사가 5단동사인 경우에는 각 활용형마다 어간과 동사활용어미를 분리할 수 있으므로, 분리한 활용어미를 후속하는 조동사 또는 조사의 선두에 부가해서 새로운 찾아보기어를 생성한다. 형용사, 형용동사에 대해서도 마찬가지이다. 1단 동사에 대해서는 활용어미가 없기 때문에 절차의 대상으로 하지 않는다 サ(사)변 명사에 후접하는 する(하다)등의 불규칙 활용이 동사는 소소이기 때문에 활용형으로 전개한다. 조동사는 어간-활용어미 분리방식으로 한다. 이상을 예시하면, 다음과 같다 된다.
分からなかつた(알 수 없었다)→分か+らか+かつた
赤くなかつた(빨갛지 않았다)→赤+くな+かつた
簡單だつた(간단했다)→簡單+だつた
硏究した(연구했다)→硏究+した
등에서 らな, かつた, くな, だつた, した등이 등록된다.
단어의 식별코드, 접속테이블 등에 관한 설명을 생략한다.
제8도에 도시한 실시예의 변형예로서 문자열의 일치조건을 완화해서 선두 L문자가 길이 L인 키와 안전하게 일치하지 않는 경우에도 사전검색의 대상으로 한다고 하는 방법이 고려된다. 이 경우의 절차를 제13도에 도시하였다.
제8도와 제13도에 있어서는 각각 스텝(801)→스텝(130l), 스텝(802)→스텝(1302), 스텝(803)→스텝(1303), 스텝(8041) →스텝 (13041), 스텝 (842) →스텝(13042), 스텝 (805) →스텝(1306), 스텝 (806) →스텝(1307), 스텝(807) →스텝(1308), 스텝 (809) →스텝(1310), 스텝 (810) →스텝(1311), 스텝 (812) →스텝(l314) 가 마찬가지 처리로서 대응한다.
이하에서는 본 실시예의 특징에 대해서 설명한다. 스텝(1305)는 사전검색시의 키에 사용하는 문자위치를 세트한다. 제8도에 도시한 방법과의 상이점은 제8도에서는 길이가 L+1이상인 후보단어는 어떤 키와 선두L 문자가 일치해야만 했지만, 본 실시예에서는 선두 L 문자대신(1305)에서 지정하는 특정위치의 문자중 적어도 1자가 특정의 조건(여기에서는 확신도가 1위인 후보문자와 일치한다)을 충족시키는 단어를 (1302)에있어서의 대조코스트의 계산대상으로 하고, (1313)에 있어서 그 중에서 후보단어를 선택한다. 예를들면, (1305)에서 S={1,2}로 한 경우, 대조코스트의 계산대상으로 되는 것은 1문자째 또는 2문자째가 각 위치의 제1후보와 일치하는 단어이다.
제8도의 설명과 마찬가지인 예를 사용해서 설명하면, 본 실시예에 있어서 5문자째부터의 단어조합대상으로 되는 단어는 1문자째가 「ト」인 단어 또는 2문자째가 「ヴ」로 이루어지는 단어이다.
이들 단어수는 길이가 3이상인 것에 한정되어 있기 때문에 통상의 주도형의 사전찾기에 비해서 반감하지만, 제8도에 기술한 방법에 비하면 증가한다. 그러나, 제8도의 예와는 달리 비록 정해문자가 후보중에 존재하지 않는다고 하더라도, 정해단어를 얻을 수 있을 가능성이 생긴다. 예를를면,「トウモロゴシ」의 2문자째「ウ」가 후보문자중에 존재하기 않을 경우라도 1문자째의 일치로 인해 「トウモロゴシ」를 대조코스트 계산대상으로 선택하고 후보단어에 등록해서 정해를 발견할 수 있을 가능성이 있다. 이것은 제8도의 실시예에서는 불가능하였다. 즉, 대조효율을 약간 희생시키기는 하지만, 저품질 입력에 대해서 강건한(robust) 시스템을 구성할 수가 있다. 대조위치의 설정법으로는 단어의 선두부터 L문자이내로 한정하는 등의 다양한 방법도 고려된다.
다음에, 제12도에 도시한 동사활용형 처리를 위한 찾아보기를 갖는 사전의 변형예로서, 활용어미를 조동사, 조사에 부가할 뿐만 아니라 더욱 확장해서 찾아보기어의 추가를 실행하는 방법이 고려된다.
그 예를 제14도에 도시하였다. 본 예에서는 종지형 어미+구점(1402), 접속조사+독점(1405), 연용형 어미+∼なろ의 어간(1404), 더욱 분할하더라도 그다지 의미가 없는 관용적인 집합(1401이나 1403) 등의 추가가 고려된다. 이와 같이, 더욱 긴 집합을 찾아보기로서 유지하면, 문자의 부분적인 결락에 대처하는데 유리하다.
또한, 본원의 발명이 CPU, 메모리 입출력장치로 이루어지는 컴퓨터에 있어서 실현되는 것은 물론이며, 이것을 도면에 표현하는 것은 생략하였다.
* 대조코스트 계산처리에 대해서
앞에서도 기술한 바와 같이, 확신도의 차에 관한 정보를 보다 세밀하게 이용하기 위해서는 단어를 구성하는 각 문자의 문자 대조코스트의 계산에 있어서 다음의 계산을 실행한다 : 이 문자를 C, 이 문자와 대조될 후보문자군 S를 {(C1,V1),…,(Ci,Vi),…,(CN,VN)}이라고 했을 때, C와 S의 대조코스트를 이하의 함수 K를 사용해서 졔산한다.
여기에서 K(C,S)는 C=Ci인 경우, K(C,S)=α·G1(V0,V1,Vi) ; C=Ci로되는 i가 없는경우, K(C,S)=G2(VN), 여기에서 α는 정의 정수, V0은 확신도의 최대값, 0≤VN≤…≤V1≤V0,G1(V0,V1,Vi)(V0-Vi)가 커짐에 따라서 감소하고 (V1-Vi)가 커짐에 따라서 증대하는 정의 값 함수, G2는 VN의 값 이상의 값을 취하는 단조비감소 함수로 한다. 예를들면, α=1로 하고, G1(V0,V1,Vi)는 [식 4]로 정의한다.
G2는 G2(VN)=G1(V0,VN)으로 정의한다.
본원에서 사용하고 있는 예의 경우, 확신도를 0이상 255이하인 정의 정수로 디지탈화하고 있으므로, V0=255이다. Vsh는 제1후보의 확신도가 어떤 일정값보다 낮은 경우에 확신도의 차를 무시하기 위해서 도입한 파라미터이다.
상술한 K를 사용하면, 제17도의 후보문자집합과 단어 車體의 대조코스트는 (225-90)*(255-255)/(255-90)+(125-90)*(l25-115)/(255-90)=350/l65≒2.12로 된다.
혼합법을 사용해서 후보단어군을 추출하는 것에 의해, 사전탐색의 횟수, 사전에서 얻어지는 후보단어의 수가 대폭으로 감소하여 문자인식 후처리의 효율이 대폭으로 향상한다.

Claims (15)

  1. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문 자군과 그 요소인 후보문자를 개개의 후부문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보단어군과 그의 요소인 후보단어를 추출하고, 이 후보단어군 중의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 스텝, 상기 후보단어 래티스로부터 최저 후보단어 열을 산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어지는 후처리를 갖는 문자인식방법에 있어서, 문자패턴중의 위치 p부터의 단어대조를 실행하는 후보단어를 단어사전에서 추출하는 경우, 정해진 길이 L를 초과하지 않는 후보단어는 위치 p 이후의 연속하는 L개 이하의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 키의 전체 또는 그의 부분집합을 단어사전중에서 검색하는 것에 의해 추출하고, 길이가 L+1이상인 후보단어는 p1≤…≤pk인 자연수의 집합 P={p1,…,pk}를 사용해서 적어도 1개의 pi∈P에 대해서 단어의 선두부터 pi문자째가(p+pi)-1번째의 문자패턴에 대한 후보문자중의 지정된 조건을 충족시키는 문자의 1개와 일치하는 단어의 전체 또는 그의 부분집합으로 하는 문자인식방법.
  2. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그의 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보문자군과 그의 요소인 후보문자를 추출하고, 이 후보문자군 중의 저정된 후보문자를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」.「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 스텝, 상기 후보문자 래티스로부터 최적 후보단어열을 산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어지는 후처리를 갖는 문자인식방법에 있어서, 위치 p로부터의 단어대조를 실행하는 후보단어를 단어사전에서 추출하는 경우, 정해진 자연수 L을 초과하지 않는 후보단어는 위치 p 이후의 연속하는 L개 이하의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 키의 전체의 집합에 포함되는 요소를 단어사전중에서 검색하는 것에 의해 추출하고, 길이가 L을 초과하는 후보단어에 대해서는 위치 p 이후의 연속하는 L개의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 길이 L개인 키의 집합의 요소중의 하나와 선두 L문자가 지정된 조건에서 일치하는 단어의 전체 또는 일부분을 단어사전에서 추출하는 문자인식방법.
  3. 제1항에 있어서, pk≤L인 것을 특징으로 하는 문장인식방법.
  4. 제2항에 있어서, L=2 또는 L=3인 것을 특징으로 하는 문자인식방법.
  5. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그의 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보단어군과 그의 요소인 후보단어를 추출하고, 이 후보단어군 중의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w, p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보문자 래티스를 기록하는 스텝, 상기 후보단어 래티스로부터 최적 후보단어열을산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어지는 후처리를 갖는 문자인식방법에 있어서, 상기 단어사전으로서 연속해서 사용되는 빈도가 높은 단어열을 연속된 문자열로서 찾아보기에 갖는 단어사전을 사용하는 것을 특징으로 하는 문장인식방법.
  6. 제1항에 있어서, 연속해서 사용되는 빈도가 높은 단어열을 연속된 문자열로서 찾아보기에 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  7. 제2항에 있어서, 빈도가 높은 단어열을 연속된 문자열로서 찾아보기에 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  8. 제5항에 있어서, 동사어간과 함께 동사활용형의 활용어미를 상기 활용형에 후속하는 조동사 어간, 조사, 구독점 등의 어두에 부가한 문자열을 찾아보기로서 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  9. 제6항에 있어서, 동사어간과 함께 동사활용형의 활용어미를 상기 활용형에 후속하는 조동사 어간, 조사, 구독점 등의 어두에 부가한 문자열을 찾아보기로서 갖는 단어사전을 사용하는 것을 특징으로 하는 문자인식방법.
  10. 제7항에 있어서, 동사어간과 함께 동사활용형의 활용어미를 상기 활용형에 후속하는 조동사 어간, 조사, 구독점 등의 어두에 부가한 문자열을 찾아보기로서 갖는 단어사전을 사용하는 것을 특정으로 하는 문자인식방법.
  11. 제1항에 있어서, 길이가 L+1 이상인 후보단어는 적어도 1개의 pi∈P에 대해서 단어의 선두부터 pi문자째가 (p+pi)-1번째의 문자패턴의 후보문자중에서 가장 확신도가 높은 후보문자와 일치하는 단어의 전체 또는 가장 부분집합으로서 추출하는 것을 특징으로 하는 문자인식방법.
  12. 제2항에 있어서, 길이가 L을 초과하는 후보단어에 대해서는 p번째 이후의 연속하는 L개의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자씩 선택해서 생성한 길이 L인 키의 집합의 요소중의 1개와 선두 L문자가 완전히 일치하는 조건을 충족시키는 단어의 전체 또는 일부분을 단어사전에서 추출하는 것을 특징으로 하는 문자인식방법.
  13. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 스텝, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보문자군과 그의 요소인 후보단어를 추출하고, 이 후보단어중 군의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 스텝, 상기 단어 대조코스트 계산의 수단으로서 단어를 구성하는 각 문자와 이 문자위치에 대응하는 후보문자군의 각 후보문자에 부여된 확신도를 사용해서 단어를 구성하는 각 문자마다 문자 대조코스트라고 하는 수치를 산출하고, 상기 후보단어의 문자 대조코스트를 단어를 구성하는 문자 각각의 문자 대조코스트의 합에 의해서 결정하는 스텝, 단어간의 접속의 용이함을 나타내는 수치정보인 접속코스트를 기록하는 스텝, 단어 대조코스트와 접속코스트의 선형합을 사용해서 상기 후보단어 래티스중의 단어의 조합으로 이루어지는 단어열에 점합도를 부여해서 최적 후보단어열을 산출하는 스텝, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 스텝으로 이루어기는 후처리를 갖는 문자인식방법에 있어서, 단어를 구성하는 각 문자의 문자 대조코스트의 계산에 있어서, 이 문자를 C, 이 문자와 대조될 후보문자군 S를 {(C1,V1),…,(Ci,Vi).…,(CN,VN)}이라고 했을 때, C와 S의 대조코스트를 특정의 성질을 갖는 함수 K(C,S)를 사용해서 계산하는 것을 특징으로 하는 문자인식방법(여기에서, K(C,S)는 C-Ci인 경우 K(C,S)=α·G1(V0,V1Vi) ; C=Ci로 되는 i가 없는 경우 K(C,S)=G2(VN), 여기에서 α는 정의 정수, V0은 확신도의 최대값, 0≤VN≤…≤V1≤V0, G1(V0,V1,Vi)는 (V0-V1)이 커짐에 따라서 감소하고 (V1-Vi)가 커짐에 따라서 증대하는 정의 값 함수, G2는 VN의 값의 단조 비감소 함수).
  14. 제13항에 있어서, 문자 대조코스트의 계산에 사용하는 함수에 있어서, α=l, G1(V0,V1,Vi)={Max{(V1-Vsh),0}}·(V1-Vi)/(V0-Vsh)로 되는 것을 특징으로 하는 문자인식방법(여기에서, Vsh는 0≤VshV0인 정수).
  15. 문자열의 화상을 포함하는 디지탈화상을 입력하고, 이 문자열부분의 화상을 개개의 문자라고 추정되는 부분화상인 문자패턴의 열로서 인식하고, 각 문자패턴에 대해서 원문자라고 추정되는 문자의 집합인 후보문자군과 그의 요소인 후보문자를 개개의 후보문자에 관한 확신도로 출력하는 수단, 문자패턴에 대한 후보문자 집합중에서 선택한 적어도 1문자를 포함하는 문자열인 키를 사용해서 단어사전에서 0개 이상의 단어로 이루어지는 후보단어군과 그의 요소인 후보단어를 추출하는 수단, 상기 후보단어군 중의 지정된 후보단어를 w, 문자패턴열 중의 지정된 위치를 p라고 할 때, 적어도 w,p를 포함하는 정보를 사용하는 수치산출절차인 위치 p부터의 단어대조를 실행해서 단어 대조코스트를 산출함과 동시에, 적어도 「w」,「p」 및 「w의 단어 대조코스트」를 포함하는 정보의 집합인 후보단어 래티스를 기록하는 수단, 상기 후보단어 래티스로부터 최적후보단어열을 산출하는 수단, 상기 단어열의 접속에 의해 생성되는 연속문자열을 표시하는 수단으로 이루어지는 후처리를 갖는 문자인식장치에 있어서, 상기 후보단어를 추출하는 수단은 문자패턴중의 위치 p부터의 단어대조를 실행하는 후보단어를 단어사전에서 추출하는 경우, 정해진 길이 L을 초과하지 않는 후보단어는 위치 p 이후의 연속하는 L개 이하의 문자패턴에 대해서 선두측의 문자패턴에 대한 후보문자군에서 차례로 1문자써 선택해서 생성한 키의 진체 또는 그의 부분집합을 단어사전중에서 검색하는 것에 의해 추출하고, 길이가 L+1이상인 후보단어는 p1≤…≤pk인 자연수의 집합 P={p1,… ,pk)를 사용하고, 적어도 1개의 pi∈P에 대해서 단어의 선두부터 pi 분자째가 (p+pi)-1번째의 문자패턴에 대한 후보문자중의 지정된 조건을 충족시키는 문자중의 1개와 일치하는 단어의 전체 또는 그의 부분집합으로 하는 것을 특정으로 하는 문자인식장치.
KR1019940034149A 1993-12-22 1994-12-14 문자인식방법 및 장치 KR970007281B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP93-323699 1993-12-22
JP5323699A JPH07182465A (ja) 1993-12-22 1993-12-22 文字認識方法

Publications (2)

Publication Number Publication Date
KR950020102A KR950020102A (ko) 1995-07-24
KR970007281B1 true KR970007281B1 (ko) 1997-05-07

Family

ID=18157617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940034149A KR970007281B1 (ko) 1993-12-22 1994-12-14 문자인식방법 및 장치

Country Status (3)

Country Link
US (1) US5768451A (ko)
JP (1) JPH07182465A (ko)
KR (1) KR970007281B1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2734386B2 (ja) * 1994-12-20 1998-03-30 日本電気株式会社 文字列読み取り装置
JP3525997B2 (ja) * 1997-12-01 2004-05-10 富士通株式会社 文字認識方法
WO2000057350A1 (en) * 1999-03-19 2000-09-28 Raf Technology, Inc. Rollup functions for efficient storage, presentation, and analysis of data
JP2001137788A (ja) * 1999-11-12 2001-05-22 Hitachi Ltd 地名表記辞書作成方法および地名表記辞書作成装置
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
JP4421134B2 (ja) 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
KR20030087088A (ko) * 2002-04-26 2003-11-13 나진희 홍채인식을 이용한 보안 방법 및 그 장치
JP4297798B2 (ja) * 2004-01-29 2009-07-15 富士通株式会社 移動体情報管理プログラム
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101226595B (zh) * 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101354704B (zh) * 2007-07-23 2011-01-12 夏普株式会社 字形特征字典制作装置及具备该装置的文档图像处理装置
JP5434586B2 (ja) * 2009-12-29 2014-03-05 オムロン株式会社 単語認識方法および単語認識用のプログラムならびに情報処理装置
US20130194448A1 (en) 2012-01-26 2013-08-01 Qualcomm Incorporated Rules for merging blocks of connected components in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9323726B1 (en) * 2012-06-27 2016-04-26 Amazon Technologies, Inc. Optimizing a glyph-based file
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
WO2014038057A1 (ja) * 2012-09-07 2014-03-13 株式会社日立製作所 計算機システム、データ管理方法及びプログラムを格納する記録媒体
JP2014174923A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
US9298694B2 (en) * 2013-04-11 2016-03-29 International Business Machines Corporation Generating a regular expression for entity extraction
US9317499B2 (en) * 2013-04-11 2016-04-19 International Business Machines Corporation Optimizing generation of a regular expression
JPWO2020195709A1 (ko) * 2019-03-28 2020-10-01
US20220092096A1 (en) * 2020-09-23 2022-03-24 International Business Machines Corporation Automatic generation of short names for a named entity

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5448474A (en) * 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text

Also Published As

Publication number Publication date
US5768451A (en) 1998-06-16
JPH07182465A (ja) 1995-07-21
KR950020102A (ko) 1995-07-24

Similar Documents

Publication Publication Date Title
KR970007281B1 (ko) 문자인식방법 및 장치
US7536297B2 (en) System and method for hybrid text mining for finding abbreviations and their definitions
EP0277356B1 (en) Spelling error correcting system
RU2417435C2 (ru) Способ и система для проверки правильности неоднозначно распознанных слов в ocr-системе
KR100630886B1 (ko) 문자 스트링 식별
EP0844583B1 (en) Method and apparatus for character recognition
KR970008023B1 (ko) 사전검색장치
JP3077765B2 (ja) 語彙辞書の検索範囲を削減するシステム及び方法
US8069033B2 (en) Document based character ambiguity resolution
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
WO2004042641A2 (en) Post-processing system and method for correcting machine recognized text
JPH07319924A (ja) 手書き電子文書のインデックス付けおよび探索方法
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
Lehal et al. A shape based post processor for Gurmukhi OCR
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
JP3589007B2 (ja) 文書ファイリングシステムおよび文書ファイリング方法
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
US6859556B2 (en) Word recognizing apparatus for dynamically generating feature amount of word and method thereof
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
CN115917527A (zh) 文档检索装置、文档检索系统、文档检索程序、以及文档检索方法
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP3531222B2 (ja) 類似文字列検索装置
JP3369127B2 (ja) 形態素解析装置
Katsuyama et al. Highly accurate retrieval method of Japanese document images through a combination of morphological analysis and OCR
JP2009020567A (ja) 文書検索装置

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 19971223

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee