KR100311338B1

KR100311338B1 - 보증가능한광학문자인식방법

Info

Publication number: KR100311338B1
Application number: KR1019930020930A
Authority: KR
Inventors: 다니엘피.로프레스티; 헨리에프.코스; 조나단샌드버그; 리차드제이.립톤
Original assignee: 모리시타 요이찌; 마쯔시다덴기산교 가부시키가이샤
Priority date: 1992-10-09
Filing date: 1993-10-09
Publication date: 2001-12-28
Also published as: DE69331456D1; US5625721A; EP0592238B1; KR940009877A; EP0592238A2; US5703972A; DE69331456T2; TW401567B; JPH06282679A; EP0592238A3

Abstract

재생될 문서의 텍스트 상에 계산된 보증은 기계적으로 판독 가능한 형태로 문서 내에 포함된다. 광학 문자 인식 스캐닝 또는 다른 디지털화 재생 시에, 보증은 또한 비교를 위해 계산되어 저장된다. 새로운 보증은 재생된 문서의 내용상에서 계산되어 스캔된 보증과 비교된다. 2개의 보증이 서로 다르면, 재생된 문서 내에 적어도 하나의 오류가 존재한다는 것을 알 수 있다. 하나 이상의 보증은 문서상의 오류 위치 표시와 오류 정정을 용이하게 하기 위해 문서용으로 제공될 수 있다.

Description

보증 가능한 광학 문자 인식 방법

제1도는 문서를 스캐닝하고 재생하는 종래 기술의 OCR 방법을 개략적으로 도시한 도면.

제2도는 오류 검출을 제공하기 위한 보증을 갖는 마커로써 문서를 재생하는 OCR 방법을 개략적으로 도시한 도면.

제3도는 본 발명에 따라 발생된 문서를 도시한 도면.

제4도는 다이아그램, 텍스트 블럭 및 사진을 포함하는 복합 문서를 도시한 도면.

제5a도 내지 제5f도는 제4도에서 도시된 복합 문서의 레이아웃을 인코딩하기 위한 하나의 체계를 도시한 도면.

* 도면의 주요부분에 대한 부호의 설명

13 : 인쇄기 16 : 디지털화 스캐너

21 : 보증 발생기 22 : 원 컴퓨터(originating computer)

26 : 보증 검증기 27 : 초기 보증

28 : 컴퓨터 29 : OCR 소프트웨어

34 : 문서

본 발명은 자동 발생된 문서 마커(document marker)의 사용에 관한 것이다. 특히, 본 발명은 문서 식별과 문서 구성 인식 뿐만 아니라 표시된 문서가 광학 문자 인식 기술을 사용하여 재생될 때의 오류 검출과 오류 정정 수단을 제공하기 위해 문서의 각 페이지마다 일체된 인코드된 정보의 마커 사용에 관한 것이다.

디지털 데이터가 용지 상에 직접 기록되는, 컴퓨터 판독가능 바 코드를 사용하는 제품의 식별은 간단한 숫자 인코딩과 스캐닝 기술을 이용하여 고정된 세트의 값이 주어진 품목 식별을 제공한다. 컴퓨터로 발생되어 기억된 문서의 식별은 기억된 문서를 식별하고 복구를 제공하기 위해 2진 인코딩을 이용하여 개발되어온 또 하나의 기술이다. 대부분의 문서 발생 소프트웨어 프로그램은 문서의 식별 및/또는 복구 정보를 제공할 뿐만 아니라 예를 들어, 간격, 마진 및 관련된 레이 아웃 정보와 같은 상세 정보를 표시하는 연관된 인쇄기에 제공하기 위한 인코드된 정보도 포함한다. 그러나, 문서가 용지 상에 인쇄될 때, 그 정보는 사용자에 의해 인식되는 것 이외의 문서를 수반하지는 않는다. 광학 문자 인식(Optical Character Recognition : OCR)시스템을 사용하여 문서를 재생하기를 원하는 경우에는, 스캐너를 통하여 수신 컴퓨터에 레이아웃 정보를 전달하는 자동 수단이 없다. 그러므로, 식별 기술의 바람직한 확장은 문서의 OCR 텍스트 스캐닝과 관련하여 용지 문서상에 또는 용지 문서 내에 일체된 마커를 광학적으로 스캐닝함으로써 컴퓨터에 의해 인식, 재생 및 교정 가능한 문서의 용지 버젼을 발생하기 위한 수단을 제공하는 것이다.

종래에 사용되어진 문서 또는 제품 식별 시스템은 광범위하게 사용된 바 코드 마커와 스캐너를 포함한다. 용지 문서와 관련하여, 용지 내의 특수한 마크나 패턴은 연관된 장치의 일부에 정보를 제공하기 위해 사용되어, 예를 들면 히카와(Hikawa)에 의해 미합중국 특허 제5,051,779호에서 개시된 것과 같은 영상 처리를 위한 작업 제어 시트와 같은 것이다. 이와 유사하게, 식별 마크는 존슨(Johnson)등의 미합중국 특허 제5,060,980호에 기술된 형태로 구체화되어 왔다. 존슨 등의 시스템은 컴퓨터에 이미 내재된 형태를 편집하는 것이다. 형태의 용지 복사는 사용자에 의해 편집된 후 컴퓨터 내에 전자적으로 기억된 복사본의 필드에 삽입하기 위해 스캔된다. 최근에 특허된 또 하나의 시스템은 브룸버그(Bloomberg)등의 미합중국 특허 제5,091,966호에 기술되었는데, 그래프형의 코드의 디코딩을 개시하였고, 그 코드는 용지 상에 디지털적으로 인코드된다. 식별 코드는 컴퓨터에 의해 판독될 수 있어서 컴퓨터가 문서의 식별, 복구 및 전송과 같은 문서 처리를 용이하게 한다. 종래의 시스템은 텍스트 오류 검출 또는 정정 체계를 갖추고 있지 않다. 더욱이, 시스템은 관련된 컴퓨터가 스캐닝을 통한 정보의 입력 이전에 메모리 내에 중요한 문서의 복사본을 가질 것을 요구한다. 시스템은 OCR에 의한 스캐닝 컴퓨터에 발생된 문서에는 적용될 수 없다.

광학 문자 인식 시스템은 제1도에 개략적으로 도시된 바와 같이, 원 컴퓨터(12)에 의해 발생되어 인쇄기(13)에 의해 출력되는 인쇄된 용지(14)를 스캐닝하기 위해 디지털화 스캐너(16) 및 연관된 "스캐닝" 컴퓨터(18)를 일반적으로 포함한다. 스캐너(16)는 전자 문서(15)처럼 ASCII와 같은 표준 전자 포맷으로 저장될 텍스트를 발췌한다. 부가적으로 에러 검출에 대한 텍스트와 이의 레이아웃에 대한 정보를 구체화하기 위해, 정보는 광학적으로 스캔되거나 또는 자동으로 입력될 수 있는 것이 바람직하다.

스캐닝 프로세스와 정확한 문자 인식을 달성하기 위한 광학 문자 인식 시스템의 성능 모두의 고유 한계 때문에, 오류는 출력에 유발되는데, 이 오류는 문자 오역 오류 뿐만 아니라 레이아웃에 의존한 오류를 포함한다. 사후 처리(post-processing), 특히 오류 검출은 주로 사람이 재생된 문서를 교정함으로써 수행되어야 한다. 레이아웃의 오류는 보통 컴퓨터에 의해 자동으로 교정되지 않으므로 광범위한 사용자의 편집 능력 강화 심지어는 문서의 재작성이 요구된다. 사람에 의한 사후 처리는 실질적 비용이 많이 들기도 하지만 문서를 완전히 처리하기 위해 많은 시간이 필요하기도 하다. 최적하게, 그 해결 방안은 오류 검출 수단 뿐만 아니라 오류 정정 수단을 제공하는 것이다. 또한, 이상적인 해결 방안은 문서의 식별을 용이하게 하고 문서의 적절한 레이아웃 구조를 한정하는 것이다.

컴퓨터 문서 작성 기술(예를 들면, 워드 프로세싱)에 이용되어 온 오류 검출 시스템은 오류를 식별하여 정정하기 위해 문서로부터 발췌된 어의(semantic) 또는 문맥 정보를 사용하기 위한 사전(dictionary) 검색 및/또는 시도에 기초한 기술을 포함한다. 많은 이런 시스템은 어휘 목록(lexicon)내의 엔트리와 상관되지 않는 문서내의 엔트리가 "사람에 의한 사후 처리"에 의해 재검토될 것을 요구한다. 사전에 기초한 시스템의 자동 오류 정정 버젼은 식별 시 사전 엔트리(dictionary entry)와 상관하지 않는 엔트리를 자발적으로 정정할 것이다. 적당한 이름, 의도적으로 잘못 쓴 철자 또는 새로 만들어 낸 단어와 같은 경우에서처럼 자동 정정이 요구되지 않는 환경을 쉽게 상상할 수 있다. 이러한 시스템의 사전 비교 버젼의 이용에 추정되는 것은 전체 문서의 각각의 엔트리가 단어의 데이터 베이스 사전과 비교된다는 것이다. 주어진 어휘 목록과 문서의 각각의 엔트리의 비교 비용은 매우 높다.

문서로부터 발췌된 어의 정보의 이용은 유용한 사전 단어의 잘못 쓴 철자로 쉽게 인식될 수 있거나 하나 이상의 유용한 사전 엔트리와 닮은 오류의 식별과 자동 정정을 용이하게 하기 위해 종래에 제안되었다. 이러한 시스템은 사전 검색이 단어를 단순히 거부하지 못할 때 "ofthe"라는 단어를 "of the"로 인식하여 정정할 것이다. 이와 유사하게 사용되는 하드웨어 또는 소프트웨어에 있어서, 그리고 자형(font) 또는 스캔되는 자형에 있어서 공통 발생(commonly-generating) 오류들의 뱅크(bank)는 "m"으로 부정확하게 식별된 "rn" 또는 숫자 "1"로 부정확하게 식별된 문자 "l"과 같은 공통 오류들을 식별하여 자동으로 정정하기 위해 문맥 또는 어의 정보에 사용하는 것이 제안되어 왔다.

특히, 확장된 네트워크를 따라 전송된 문서에 대해 엔트리마다(entry-by-entry) 검색할 필요없이 오류를 검출하기 위해, 시스템은 데이터와 함께 전송된 패리티 비트(parity bit)를 사용하였다. 전송이 이루어질 때, 비트 카운트는 "새로운"문서상에서 행해진다. 계산된 비트가 전송된 패리티 비트와 일치할 때, 오류 없는 전송이 가정된다. 이러한 시스템과 패리티 및 검사 비트의 확장된 개념은 찬드란(Chandran)등의 미합중국 특허 제5,068,854호에 개시되었는데, 이것은 디지털적으로 인코드된 정보에서의 오류 검출에 유용하다. 1비트 이상의 오류의 검출과 정정을 위해 균형 가중 오류 정정 코드(balanced weight error correcting code)와 같은 패리티 비트 개념의 더욱 확장된 개념은 커비(Kirby)의 미합중국 특허 제4,965,883호와 같은 기술에서 개시된다. 2진 코드 정보를 사용하기 위해 개발된 패리티 및 검사 비트 시스템은 전송된 자료의 검사 비트와 일치하는 데이터 중에서 오류로 수신되는 데이터의 양의 낮은 오류 비트 확률이 부여된 타당한 정확성으로 오류의 존재를 확인할 수 있다. 비트가 2진 인코드 데이터로 계산되기 때문에, 가중 균형(weighted balancing) 및 랜덤 검사 순간에서 정정되는 것을 제외하고 1비트 오류 검출을 위해 가장 효과적이다. 그러나, 일반적으로 검사 및 패리티 비트 시스템은 컴퓨터-대-컴퓨터 이동의 오류 없는 전송을 보장하기 위한 데이터 독립 방법으로 되는 경향이 있다. 그러므로, 검사 및 패리티 비트 시스템은 검사 시스템을 통해서는 고려되지 않지만 디지털-대-디지털 통신에 제한되고 광학 문자 인식과 같은 아날로그-대-디지털 통신에 적용할 수 없는 제1 스크린 기술에서만 고려되고 있다.

데이터 종속적이고 데이터 필드의 내용상에서 계산된 16비트 검사 시퀀스를 제공하는 다른 종래의 시스템은 캘비그낙(Calvignac)등에 의한 미합중국 특허 제4,964,127호에 개시된다. 다시 한번, 시스템은 디지털 포맷에서 추정가능하게 데이터 경로를 따라 전송된 데이터에 적용된다.

광학 문자 인식(OCR)의 분야에서도, 유사하게 광학 스캐닝, 비트 맵핑 및 컴퓨터 인코딩으로부터 재생되는 데이터 내의 오류를 검출하여 정정하는 수단을 제공할 필요가 있다. 사전 검색 및 공통 오류 참조(common error referenc)는 모두 OCR 문맥에서 사용할 것이 제안되어 왔다. 그러나, 종래의 문서 작성에서 요구된 것처럼 엔트리마다의 검사는 비용이 많이 들고 비효율적이다. 더욱이, 인쇄된 단어외에 문서 레이아웃은 OCR의 중요한 특징이다. 광학적으로 스캔되고 비트 맵된 시스템에서 현재 패리티 비트 검사 시스템의 사용은 오류 검출에 대해서는 명목상으로만 효율적이고, 오류 위치에 대해서는 비교적 비효율적이며, 부적당한 레이아웃의 검출과 정정에 대해서는 전체적으로 비효율적이다.

OCR 장치에서 "인식할 수 없는" 문자의 식별과 정정을 위한 장치는 루다크(Rudak)의 미합중국 특허 제4,974,260호에 개시되었다. 이 시스템에서는, 전자 사전 검색조작으로 인식할 수 없는 문자가 해석 및 정정을 위해 조작자에게 선택적으로 디스플레이된다. 더 완전한 자동 OCR 오류 검출과 정정이 바람직하겠지만, 널리 유용하지는 않다.

그러므로, 본 발명의 목적은 용지 문서에 정보를 자동적으로 구체화하는 수단 및 방법을 제공하는 것인데, 이 정보는 관련 컴퓨터에 문서에 대한 다양한 상세한 설명을 제공하도록 인코드된다.

본 발명의 다른 목적은 엔트리마다 비교할 필요없이 OCR 기술을 이용하여 재생된 용지 상에 오류의 부재 또는 존재를 나타내기 위한 것이다.

본 발명의 다른 목적은 OCR 기술을 사용하여 재생된 용지 상에 정확하게 오류 위치를 정하기 위한 오류 검출 시스템 및 방법을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 오류 정정 절차를 행하기 전에 오류가 있는 문서를 스크린하기 위해 기존의 오류 정정 시스템과 함께 사용될 수 있는 오류 검출 시스템을 제공하기 위한 것이다.

본 발명의 다른 목적은 OCR 기술을 사용하여 재생된 문서를 위한 자동 오류 정정 수단 및 방법을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 의도적으로 잘못 쓴 철자, 약어 등을 간과할 수 있는 오류 검출 시스템을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 임의의 문서 포맷, 자형 및 관련 하드웨어와 함께 사용될 수 있는 오류 검출 시스템을 제공하기 위한 것이다.

본 발명의 또 다른 목적은 컴퓨터에 다양한 정보를 전달하기 위해 사용될 수 있는 단일 마커를 문서에 제공하는 수단을 제공하기 위한 것이다.

본 발명의 또 하나의 목적은 문서 구성, 오류 식별, 위치와 정정 정보 및 식별/복구 정보를 포함하는 문서에 대한 정보를 포함하는 컴퓨터 판독가능 마커를 문서에 공급하기 위한 수단 및 방법을 제공하기 위한 것이다.

이러한 목적들은 재생될 문서용 문서 마커를 작성 및 구체화하는 시스템에 의해 실현된다. 마커는 문서 구성과 오류 검출 인코딩을 포함하는 다양한 정보를 포함할 수 있다. 오류 검출 인코딩 정보는 다양한 인코딩 기술 중의 하나에 의해, 텍스트 상에 계산되어 재생될 문서 상에 제공되는 보증(certificate)을 포함한다. 문서의 OCR 재생 시에, 텍스트용 보증은 텍스트가 재생 시에 나타날 때 재 계산된 후 초기 보증과 비교된다. 값이 일치하면, 재생은 오류가 없는 확률로 된다. 보증이 일치되지 않으면, 최소한 하나의 오류가 재생된 텍스트 내에 나타난다. 보증은 오류 검출 뿐만 아니라, 오류 위치(예를 들어, 오류를 포함하는 줄)까지 제공할 수 있고, 종래 기술의 사전 검색 및 어의 시스템과 함께 오류 정정을 행하는데 이용할 수 있다. 부가적인 정보는 계산된 텍스트 보증 또는 문서 레이아웃, 문서 식별, 컴퓨터 시스템 내의 문서 위치, 컴퓨터 또는 문서의 전송을 위한 다른 상호 접속된 주변부의 종착지 및 요구될 수 있는 다른 정보와 같은 것에 관련된 정보를 제공하기 위해 기계적으로 판독 가능한 용지 문서상의 분리된 보증으로 인코드될 수 있다.

본 발명은 이제 첨부된 도면을 참조하여 더 상세히 설명될 것이다.

본 발명에 따라, 마커는 이하 "보증"이라 불리는 데이터 종속 오류 검출 정보 및 "스캐닝" 컴퓨터와의 통신용으로 그리고 OCR 기술을 사용하는 문서의 재생시에 스캐닝 컴퓨터에 의해 사용되기 위한 문서 레이아웃 정보를 포함할 수 있는 용지 문서를 위해 작성된다.

초기 문서의 컴퓨터 발생을 지원하기 위해 마커의 보증 성분을 이용할 때, 제2도에 도시된 바와 같이, 원 컴퓨터(22)의 보증 발생기(21)는 적절한 알고리즘, 이하 상세히 설명될 예로 하나 또는 다수의 데이터 종속 보증(27)을 계산한다. 보증은 인쇄 시기에 생성되어 스캐닝 컴퓨터(28)에 연결된 OCR 소프트웨어(29)에 인식될 수 있는 용지의 내용에 관한 정보를 인코딩하는 간단한 키이다. 컴퓨터 상에 발생된 임의의 문서는 각각의 텍스트 블럭 또는 페이지에 첨부되거나 연관된 보증을 가질 수 있다. 보증 발생의 진행 과정은 사람의 중재를 필요로 하지 않고 적게 부가된 계산 비용만을 요구한다. 제3도에 도시된 바와 같이, 인쇄된 페이지 또는 다른 매체에 발생된 문서(34)는 주로 사람이 사용하기 위해 포맷된 영역(35) 및 소위 "사람의"영역으로 불리는 "이해"영역 내에서 기계를 지원하는데 사용하는 기계용으로 포맷된 영역(37)으로 구성된다. 사람의 영역은 문서의 아날로그 부분이고 기계 영역은 문서의 디지털 부분이다. 이 구별은 특정한 실시예보다는 문서의 사용 부분을 표시하기 위해 이용된다. 2개의 부분은 동일한 기술을 이용하여 인쇄될 수 있고, 바람직하게는 그렇게 되어야 한다. 하나의 예를 들어, "디지털" 부분은 특정자형, 바 코드 또는 사용자에게 "판독가능"하거나 "판독가능"하지 않을 수 있으나, 컴퓨터 판독가능성을 용이하게 하기 위해 선택된 다른 상징(symbology)을 이용하여 인쇄될 수 있다. 보증은 그것이 초기 인쇄된 페이지의 완전히 복사된 디지털 복사본을 생성하는 것을 가능하게 하도록 OCR 소프트웨어에 정보를 제공하기 위한 것이다.

페이지 상에 계산되어 인쇄된 보증은 그 페이지의 내용에 대한 정보를 포함한다. 제2도의 원 컴퓨터(22)는 보증 발생기라고 불리는 보증 소프트웨어(21)를 포함한다. 문서가 작성될 때 또는 그의 문서 작성의 과정에서, 보증 소프트웨어는 문서 내의 또는 문서 상의 정보에 기초한 하나 이상의 보증을 계산한다. 발생된 보증(27)은 인쇄기(13)에 의해 출력되는 문서의 하드카피(hardcopy)(24)의 기계 판독가능영역으로 발생된다. 종래 기술에서와 같이, 재생될 하드카피는 OCR 소프트웨어를 장착한 제2 컴퓨터(28)에 연관된 디지털화 스캐너(16)를 사용하여 스캔된다. 초기 보증(27)은 스캐닝 컴퓨터에 의해 스캔되어 저장된다. OCR 문서가 작성된 후, OCR 소프트웨어는 발췌된 텍스트에 대한 보증을 계산하기 위해 초기 인쇄 소프트웨어에 의해 사용된 것과 같은 동일한 알고리즘을 사용한다. 이러한 예는 컴퓨터(28)의 분리된 부분으로서 "보증 검증기"(26) 및 컴퓨터(22)의 일부로서 "보증 발생기"(21)를 제공한다. 본 분야의 숙련된 기술자들에게는 명백한 것처럼, 보증 발생기 또는 보증 검증기는 전체 시스템 내에 구체화되고, 별개의 프로그램을 필요로 하지 않는다. 게다가, 초기 또는 스캔된 데이터용 보증의 계산은 별개의 프로세스 단계를 필요로 하지는 않으나, 데이터의 작성 및/또는 저장과 동시에 실행될 수 있다. 계산 시, 새로운 보증은 인쇄된 페이지로부터 스캔된 초기 보증과 비교된다. 2개가 일치하면, 번역은 완전한 것으로 간주되어 높은 확률로 오류가 없는 것으로 추정된다. 그들이 일치하지 않으면, OCR 소프트웨어는 상술된 것처럼, 현재 문서 작성 또는 OCR 시스템에 의해 수동으로 이용되는 공지된 오류 정정 체계의 자체 또는 하나 이상의 체계가 주어지면, 적은 수의 오류를 검출하여 정정할 수 있다. 오류 정정의 완료 시, 보증 검증기는 정정된 텍스트용 보증을 재계산하여 출력이 정확할 때를 설정하기 위해서 초기 보증과 이 보증을 다시 비교한다.

보증은 여러 가지 방법 중의 임의의 것으로 계산될 수 있다. 예를 들어, 아래에 도시된 "C"서브루틴은 다음의 1라인씩 이루어지는 간단한 검사 합계(check-sum)를 계산한다.

각가의 공간이 없는 문자의 ASCII 값은 8비트 검사 합계를 실행하도록 배타적 논리합(exclusive-or)된다. 그후 이 검사 합계는 왼쪽으로 한 위치 비트 회전되고, 프로세스는 순차적으로 다음 문자로 반복된다. 이 경우에, "This is a test." 라인은 해당 페이지 상에 인쇄될 보증 "03"(16진법 표시)을 수신할 것이다. 스캐닝 프로세스에서, OCR 소프트웨어가 "Thus is a test."와 같이 라인을 오독한다면, 계산된 보증은 "73"이 될 것이다. 따라서, OCR 소프트웨어는 2개의 보증(하나는 재생된 텍스트 상에 새로 계산된 것이고, 다른 하나는 인쇄된 보증으로부터 인쇄되어 판독된 초기 계산임)을 비교함으로써 그것의 오류를 검출하여 그들이 일치하지 않는다는 것을 결정한다. 이러한 간단한 시스템을 사용하는데 있어서, 텍스트의 2개의 랜덤 라인이 동일한 보증에 해쉬(hash)할 확률은 1/256이다. 8비트 검사 합계는 보증 계산 시스템의 한 예일 뿐이다. 본 분야의 숙련된 기술자들은 본 발명의 범위를 벗어나지 않는 다른 계산 방법을 용이하게 알 수 있을 것이다. 본 분야의 숙련된 기술자들은 검사 합계의 크기와 계산 방법은 특정한 적용예에 의해 요구되는 것과 같이 오류 검출의 확률을 증가시키거나 또는 감소시키기 위해 변화될 수 있다는 것을 부가적으로 인식할 것이다.

상술한 것처럼, OCR 시스템 내부에 구체화하기 위해 유용한 오류 정정 방법은 그 중에서도 여러 가지가 있지만 사전 검색 조사 계획, 어의 또는 문맥 정보 코드 및 공통 오류 인식 코드를 포함한다. 이러한 목적 이외에, 보증 발생 알고리즘의 정확한 수학적 특성은 오류를 정확하게 식별하고, 보조 오류 정정 프로그램을 요철할 필요없이 그의 정정을 쉽게 하기에 알맞다. 보증은 OCR 인식률을 향상시킬 수 있고, 사용자가 각각의 스캔된 페이지에 오류가 있는지 없는지를 확인할 수 있는 신뢰성 있는 방법을 제공한다. 상술한 것처럼, 문서 내에 의도적인 "오류"가 존재한다는 것을 알리지 않는 오류 검출 및 정정 시스템의 사용은 실제로 오류를 텍스트 내부에 유도되게 할 수 있다. 그러나, 오류 검출 및 정정의 보증 시스템을 사용할 때, 이것을 피할 수 있다. 예를 들어, 의도적으로 잘못 쓴 철자의 경우에서, 보증 시스템은 오류가 만들어졌다는 것을 지적하지 않을 것이고, 그러므로 의도적으로 잘못쓴 철자를 잘못 정정하지는 않을 것이다.

특히, 복잡한 구성을 갖는 문서의 경우에 한 가지 중요한 고려는 보증을 계산하기 위해 규준 구문 해석(canonical parsing) 순서를 결정하는 것이다. 명백히, 초기 보증 및 OCR 소프트웨어를 계산하는 소프트웨어는 모두 동일한 순서로 이용되어야 한다. 하나의 선형화 공식은 영문 텍스트가 사람에 의해 통상적으로 판독되는 것과 동일한 방법으로 좌-우, 상-하를 따를 것이다. 다른 접근 방법은 계산에서 각각 별개의 엔트리인 일련의 텍스트 블럭으로 페이지를 분리하는 것이다. 그래픽 또는 다른 비텍스트(non-text) 정보를 포함하는 임의의 블럭은 표준 텍스트와 다르게 다루어져야 한다. 다이아그램의 경우, "점(dots)"의 집합이 완전한 원에 대응한다는 인식은 영상 처리 소프트웨어에서는 어려운 작업이다. 그러나, 보증 발생기가 소정의 다이아그램이 3개의 원과 삼각형을 포함하는 정보를 인코드한다면, 이 정보는 처리 시간이 크게 빨라지고 정확성이 증가할 것이다. 다이아그램 성분의 존재를 인코딩하는 차원을 넘어서, 다이아그램에서 기본 기하학적 요소의 정확한 위치 및 크기가 인코드될 수 있을 것이다(예를 들어, 원의 반경이 0.3cm; x -좌표 1.3cm, y-좌표 3.8cm 등). 또한 수학 방정식 또는 다른 특정한 타이프세트(typeset) 구조를 인식하도록 보증 체계를 적응시키는 것이 가능하다.

문서 마커 내에 문서 구성 정보를 구체화하는 것도 또한 바람직하다. 복잡한 레이아웃 구성을 갖는 6"×7"문서가 제4도에 도시된다. 문서(44)는 참조 번호(45)에서 텍스트 블럭 A, B, D, E 및 G, 참조 번호(48)에서 블럭 C내의 사진 및 참조 번호(46)에서 블럭 F 내의 다이아그램을 포함한다. 문서 레이아웃을 스캐닝 시스템에서 식별하기 위해서, 이용될 수 있는 하나의 레이아웃 식별 시스템은 제5a도 내지 제5f도에 도시된 바와 같이 평면-슬라이싱 모델(plane-slicing model)에 기초한다. 다른 모델들도 적절하게 이용될 수 있다. 평면-슬라이싱 모델은 아무리 복잡하더라도 문서의 레이아웃이 몇몇 개의 컷(cut)으로 묘사될 수 있음을 추정한다. 평면-슬라이싱은 잎(leaves)으로 표시된 서브 평면에 대한 규준 순서가 정해지는 경우 2진 트리(binary tree)로 반복적으로 표시될 수 있다. 슬라이스 또는 평면은 먼저 식별되어 예를 들어, H 및 V인 특정 수평 및 수직 성분으로 특징지워진다. 각각의 슬라이스는 트리 구조의 일부로서 식별된다. 그후 이 트리 구조는 선형 문자 열(string)로 인코드된다. 반복적 구문은 예시된 문서에 대해, 다음을 산출하기 위해 사용된다.

(H1"CRT_A(V2"(H3"CRT_B(H5"PHT_CCRT_D))'(V4"CRT_E(H3"FIG_FCRT_G)))

여기에서 각각의 정확한 위치는 인치로 정의되고, 수직적으로 또는 수평적으로 지향된다. CRT는 표시된 텍스트 블럭에 대한 계산된 보증을 나타내고, PHT는 사진을 나타내며 FIG는 다이아그램을 표시한다. 그후 이 짧은 문자열은 문서의 기본 레이아웃을 완전히 묘사한다. 문자열 내에는 서브 평면 내용(예를 들어, 텍스트, 그림, 방정식, 사진), 페이지상의 서브 평면의 정확한 x,y 좌표 및 오류 검출 보증의 묘사와 같은 부가적인 정보가 포함될 수 있다.

사람인 판독자의 눈에 거슬리지 않도록 하기 위해, 예를 들어, 로고(logo) 안에 마커를 "숨기는" 것이 가능하다. 3/4×3/4인치 로고는 정보의 1000 비트 이상을 인코드할 수 있다. 다른 실시예는 문서 자체의 포맷 내에 눈에 보이지 않는 링크 또는 숨겨진 마커의 사용을 포함할 수 있다. 정보가 문서의 사람이 판독 가능한 부분으로부터 벗어나서, 예를 들어 여백 마진 내에 제공될 필요는 없다. 컴퓨터가 정보의 위치를 쉽게 확인할 수 있고, 인코드된 정보를 쉽게 판독할 수 있는 방식으로 정보가 제공될 필요가 있고, 그것은 판독할 수 없게 하기 위한 방식으로 사람이 판독 가능한 부분과 간섭되지 않을 필요가 있다.

마커가 OCR 사용에 관하여 묘사되기 때문에, 마커를 판독하기 위한 매체가 디지털 스캐너라는 것을 가정할 수 있다. 다른 입력 매체의 개발과 함께, 인코드 체계는 관련 시스템을 수용하기 위한 적합성을 요구할 수 있을 것이다. 상술된 모든 논의에서처럼, 본 분야의 숙련된 기술자들에게는 본 발명의 변형이 첨부된 청구 범위의 취지 및 범위를 벗어나지 않고 가능하게 될 것이다.

Claims

원시 데이터(original data) 라인들로부터 전자적으로 재생된 재생 데이터 라인들의 정확성을 보장하기 위한 방법에 있어서, 상기 원시 데이터로부터 하나 이상의 제1 데이터 종속 값들을 유도하는 제1유도 단계; 상기 재생된 데이터로부터 하나 이상의 제2 데이터 종속 값들을 유도하는 제2 유도단계; 상기 제1 및 제2 데이터 종속 값들을 비교하고, 상기 제1 및 제2 데이터 종속 값들 간의 차이에 기초하여 상기 재생된 데이터 라인 내의 오류들 및 오류 위치들을 식별하는 단계; 및 상기 재생된 데이터 상의 상기 식별된 오류들을 자동 정정하는 하나 이상의 방법을 수행하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 유도 단계는 상기 데이터 종속 값들을 계산하는 것을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 자동 오류 정정 단계는 오류 정정된 재생 데이터를 생성하고, 상기 오류 정정 재생 데이터에 하나 이상의 제3 데이터 종속 값들을 유도하는 단계; 및 상기 제1 및 제3 데이터 종속 값들을 비교하는 단계를 더 포함하는 것을 특징으로 하는 방법.
컴퓨터에 의해 사전 처리되어 인쇄된 문서의 원시 데이터 라인들을 전자적으로 재생하는 방법에 있어서, 상기 원시 데이터로부터 하나 이상의 제1 데이터 종속 값들을 유도하는 단계; 상기 하나 이상의 제1 데이터 종속 값들을 포함하는 상기 문서를 인쇄하는 단계; 상기 인쇄된 문서와 상기 제1데이터 종속 값들을 광학적으로 스캐닝함으로써 재생된 데이터 라인들을 갖는 전자 문서를 작성하고 상기 전자 문서와 제1 데이터 종속 값들을 저장하는 단계; 상기 전자 문서의 상기 재생된 데이터로부터 하나 이상의 제2 데이터 종속 값들을 유도하는 단계; 상기 제1 및 제2 데이터 종속 값을 비교하고, 상기 제1 및 제2 데이터 종속값들 간의 차이에 기초하여 상기 재생 데이터 라인 내의 오류 및 오류 위치를 식별하는 단계; 및 상기 재생된 데이터에 하나 이상의 오류 정정 방법을 적용함으로써 상기 식별된 오류들을 자동적 정정하는 단계를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서, 상기 식별된 오류들의 자동 정정 단계는 제2 전자 문서를 작성하고, 상기 제2 전자 문서에 하나 이상의 제3 데이터 종속 값들을 유도하는 단계; 및 상기 제1 및 제3 데이터 종속 값을 비교하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제4항에 있어서, 상기 제1 및 제2 데이터 종속 값들을 유도하는 단계는 상기 컴퓨터에 의해 생성된 전자 문서들 각각의 데이터에 동일한 알고리즘을 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서, 상기 작성 단계와 상기 제2 데이터 종속 값의 유도 단계는 동시에 행해지는 것을 특징으로 하는 방법.
광학 문자 인식을 사용하여 원시 데이터 라인들을 갖는 인쇄된 문서로부터 재생 데이터 라인들을 갖는 전자적 재생을 제공하는 방법에 있어서, 제1 컴퓨터에서 상기 문서의 제1 컴퓨터 버젼을 작성하는 단계; 상기 원시 데이터로부터 상기 문서의 상기 제1 버젼에 대한 적어도 하나의 제1 디지털 값을 유도하는 단계; 상기 제1 버젼과 상기 적어도 하나의 제1 디지털 값을 상기 제1 컴퓨터에 연결된 인쇄기에 출력함으로써 상기 문서의 인쇄된 버젼을 작성하는 단계; 상기 인쇄된 버젼과 상기 적어도 하나의 제1 디지털 값을 상기 광학 문자와 상기 디지털 값을 인식하기 위한 소프트웨어를 포함하는 제2 컴퓨터와 연결된 스캐너에 의해 광학적으로 스캐닝함으로써 재생된 데이터를 포함하는 상기 문서의 제2 컴퓨터 버젼을 작성하는 단계; 상기 재생된 데이터로부터 상기 문서의 상기 제2 컴퓨터 버젼에 대한 적어도 하나의 제2 디지털 값을 유도하는 단계; 상기 적어도 하나의 제1 디지털 값과 상기 적어도 하나의 제2 디지털 값을 비교하여, 상기 적어도 하나의 제1 및 제2 디지털 값들 간의 차이에 기초하여 상기 재생된 데이터 라인들 내의 오류 및 오류 위치를 식별하는 단계; 및 상기 재생된 데이터에 하나 이상의 오류 정정 방법을 적용함으로써 상기 제2 컴퓨터 버젼의 자동 오류 정정을 수행하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 인쇄된 문서는 원시 데이터의 다중 라인들의 다중 텍스트 블록들을 적어도 포함하는 다수의 블록들을 포함하고, 상기 적어도 하나의 제1 디지털 값의 상기 유도 단계는 상기 문서 내의 상기 다수의 블록들의 공간적 관계(spatial relationship)의 적어도 하나의 제1 디지털 특성을 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 적어도 하나의 제1 및 제2 디지털 값들의 유도 단계는, 상기 문서들의 상기 제1 및 제2 컴퓨터 버젼의 각각에 있는 데이터에 대한 상기 값들을 각각 계산하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 자동 오류 정정을 수행하는 단계는 제3 컴퓨터 버젼을 생성하고, 상기 제3 컴퓨터 버젼에 적어도 하나의 제3 디지털 값을 유도하는 단계; 및 상기 제1 및 제3 디지털 값들을 비교하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 오류 정정 후에 상기 문서의 상기 제2 컴퓨터 버젼에 적어도 하나의 제3 디지털 값을 유도하는 단계, 및 상기 적어도 하나의 제1 디지털 값을 상기 적어도 하나의 제3 디지털 값과 비교하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 적어도 하나의 제1 디지털 값은 원문과 다른 기계적 판독가능한 기호 표시법(non-textual machine-readable symbology)으로 상기 문서 상에 인쇄되는 것을 특징으로 하는 방법.
제4항에 있어서, 상기 하나 이상의 제1 데이터 종속 값을 인쇄하는 단계는 상기 하나 이상의 제1 데이터 종속 값을 원문과 다른 기계적 판독가능한 기호 표시법으로 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
다중 문자 라인들의 다중 텍스트 블록들을 적어도 포함하는 다수의 원시 블록들을 포함하는 레이아웃을 갖는 컴퓨터에 의해 사전 처리되어 인쇄된 문서를 전자적으로 재생하는 방법에 있어서, 상기 문서 상의 상기 다수의 원시 블록들의 공간적 관계로부터 적어도 하나의 제1 레이아웃 종속 값을 유도하는 단계;

상기 다중 라인들의 상기 다중 텍스트 블록들 및 상기 적어도 하나의 제1 레이아웃 종속 값을 인쇄하는 단계;

상기 다중 라인 및 상기 적어도 하나의 레이아웃 종속 값을 광학적으로 스캐닝함으로써 재생된 문자의 다중 라인들의 다중 텍스트 블록들을 적어도 포함하는 다수의 재생된 블록들을 포함하는 레이아웃에 의해 전자 문서를 작성하는 단계;

상기 전자 문서 상의 다수의 재생된 블록들의 공간적 관계로부터 적어도 하나의 제2 레이아웃 종속 값을 유도하는 단계;

상기 적어도 하나의 제1 레이아웃 종속 값과 상기 적어도 하나의 제2 레이아웃 종속 값을 비교하는 단계; 및

상기 적어도 하나의 제1 및 제2 레이아웃 종속 값들 간의 차이에 기초하여 레이아웃 오류들을 검출하고 그 위치를 식별하는 단계를 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 문자 또는 상기 문서로부터 적어도 하나의 제1 문자 종속 값을 유도하는 단계; 및 상기 다중 라인들과 상기 적어도 하나의 제1 레이아웃 종속 값의 인쇄 시 상기 적어도 하나의 제1 문자 종속 값을 인쇄하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제16항에 있어서, 상기 전자 문서의 상기 재생된 문자들로부터 적어도 하나의 제2 문자 종속값을 유도하는 단계; 상기 적어도 하나의 제1 문자 종속 값을 상기 적어도 하나의 제2 문자 종속값과 비교하고, 상기 제1 및 제2 문자 종속 값들 간의 차이에 기초하여 상기 라인내의 문자 오류 및 오류 위치를 식별하는 단계; 및 상기 재생된 문자 상의 상기 식별된 문자 오류들을 자동 정정하는 하나 이상의 방법을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
원시 데이터 시퀀스 및 적어도 하나의 인코드된 기계적 판독가능한 제1 데이터 종속 값을 포함하는 제1 문서-상기 제1 데이터 종속 값은 상기 제1 문서의 면에 스캔가능하게 할당됨-를 광학적으로 스캐닝함으로써 재생된 재생 데이터 시퀀스들을 포함하는 제2 문서의 정확성을 보장하는 방법에 있어서, 상기 적어도 하나의 인코드된 기계적 판독가능한 제1 데이터 종속 값을 디코딩하는 단계; 상기 재생된 데이터 시퀀스들로부터 상기 제2 문서에 대한 적어도 하나의 제2 데이터 종속 값을 유도하는 단계; 상기 적어도 하나의 제1 데이터 종속 값을 상기 적어도 하나의 제2 데이터 종속 값과 비교하고, 상기 제1 및 제2 데이터 종속 값들 간의 차이에 기초하여 상기 재생된 데이터 시퀀스 내의 오류들 및 오류 위치들을 식별하는 단계; 및 상기 제1 및 제2 데이터 종속 값들이 다를 때 상기 재생된 데이터 시퀀스들에 대한 자동 오류 정정을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.