KR101737338B1

KR101737338B1 - 주석이 달린 문서 이미지들로부터 클린 문서를 복원하기 위한 시스템 및 방법

Info

Publication number: KR101737338B1
Application number: KR1020160018508A
Authority: KR
Inventors: 마샬 더블유. 베른; 알레한드로 에. 브리또; 프랑소와 라네트
Original assignee: 제록스 코포레이션; 팔로 알토 리서치 센터 인코포레이티드
Priority date: 2010-06-21
Filing date: 2016-02-17
Publication date: 2017-05-18
Also published as: EP2402886A3; US20110311145A1; KR20110139113A; EP2402886B1; JP2012003753A; US8606046B2; EP2402886A2; KR20160026936A; JP5795724B2

Abstract

주석이 달린 문서 이미지들로부터 문서를 복원하고/복원하거나 그로부터 주석들을 추출하기 위한 컴퓨터-구현 방법 및 시스템이 제공된다. 이 방법은 적어도 2개의 주석이 달린 문서 이미지들의 세트를 컴퓨터 메모리에 수신하는 단계, 주석이 달린 문서 이미지들의 세트로부터 대표 이미지를 선택하는 단계, 선택된 대표 이미지에 관하여 주석이 달린 문서 이미지들의 세트 각각에 대해 글로벌 정렬을 실행하는 단계, 및 적어도 정렬된 주석이 달린 문서 이미지들에 기초하여 일치 문서 이미지를 형성하는 단계를 포함한다. 그 다음, 적어도 일치 문서 이미지에 기초한, 주석들을 추출하기 위해 이용될 수 있는 클린 문서가 형성될 수 있다.

Description

주석이 달린 문서 이미지들로부터 클린 문서를 복원하기 위한 시스템 및 방법{SYSTEM AND METHOD FOR CLEAN DOCUMENT RECONSTRUCTION FROM ANNOTATED DOCUMENT IMAGES}

예시적인 실시예는 주석이 달린 문서 이미지들의 세트로부터 클린 문서를 복원하기 위한 시스템 및 방법에 관한 것이다.

주어진 양식은 다수의 사용자들에 의해 완성되고, 일반적으로 양식을 스캐닝하고 사용자가 부가한 것들을 확인하는 것을 포함한 처리를 위해 제출되는 것이 보통이다. 채워진(주석이 달린) 양식들의 고정 텍스트로부터 가변 텍스트(예를 들면, 이름들, 주소들, 날짜들, 금액들 등)를 분리하는 것은 문서 스캐닝 서비스들의 영역에서 어려울 수 있다. 사용자가 정보를 입력한 양식의 필드들의 위치들을 알고 있다면, 분리는 비교적 쉽다. 그러나, 특히, 과거 언젠가 만들어졌을 수도 있는 양식들에 있어서, 이 정보는 종종 사용할 수 없다.

따라서, 이전에 만나지 못했던 새로운 종류들의 양식들에 대해서도, 거의 완전히 자동화된, 주석이 달린 문서 이미지들로부터 주석 데이터를 분리하기 위한 방법을 제공하는 것이 바람직하다.

예시적인 실시예의 일 양태에서, 주석이 달린 문서 이미지들로부터 문서를 복원하기 위한 컴퓨터-구현 방법이 제공된다. 이 방법은 적어도 2개의 주석이 달린 문서 이미지들의 세트를 컴퓨터 메모리에 수신하는 단계로서, 주석이 달린 이미지들 각각은 고정된 요소들 및 주석 데이터를 포함하는, 상기 문서 이미지들의 세트 수신 단계, 및 주석이 달린 문서 이미지들의 세트에서 적어도 하나의 다른 주석이 달린 문서 이미지와 관련하여 각 주석이 달린 문서 이미지에 대해 정렬을 실행하는 단계를 포함한다. 정렬된 주석이 달린 문서 이미지들로부터 유도된 적어도 일부 주석 데이터가 모호하게 되는 정렬된 주석이 달린 문서 이미지들에 기초하여 일치 문서 이미지가 형성된다. 일치 문서 이미지에 기초하여 클린 문서가 형성되고, 클린 문서는 출력 디바이스를 통해 보여지도록 렌더링된다.

또 다른 양태에서, 주석이 달린 문서 이미지들로부터 클린 문서를 복원하기 위한 컴퓨터-기반 시스템이 제공된다. 시스템은 컴퓨터 프로세서, 및 글로벌 정렬 모듈, 일치 이미지 형성 모듈 및 클린-업 모듈을 저장하고 있는 컴퓨터 메모리를 포함한다. 글로벌 정렬 모듈은 선택된 대표 이미지와 관련하여 각 주석이 달린 문서 이미지에 대해 글로벌 정렬을 실행하도록 구성된다. 일치 이미지-형성 모듈은 정렬된 주석이 달린 문서 이미지들로부터 유도된 적어도 일부 주석 데이터가 모호하게 되는, 적어도 정렬된 주석이 달린 문서 이미지들에 기초하여 일치 문서 이미지를 형성하도록 구성된다. 클린-업 모듈은 적어도 일치 문서 이미지에 기초하여 클린 문서를 형성하고, 출력 디바이스 상에서 보여지도록 클린 문서를 렌더링하도록 구성된다. 컴퓨터 프로세서는 모듈들을 실시한다.

또 다른 양태에서, 컴퓨터 프로그램 제품은 컴퓨터 상에서 실행될 때, 주석이 달린 문서 이미지들의 세트에 대해, 주석이 달린 문서 이미지들의 세트로부터 대표 이미지를 선택하고, 정렬된 주석이 달린 문서 이미지들의 세트를 형성하기 위해 선택된 대표 이미지와 관련하여 주석이 달린 문서 이미지들의 세트에서 복수의 다른 이미지들 각각에 대해 글로벌 정렬을 실행하고, 정렬된 주석이 달린 문서 이미지들의 세트에 기초하여 일치 문서 이미지를 형성하고, 일치 문서 이미지에 기초하여 클린 문서를 형성하는 것을 포함하는 방법을 실행하는 실재의 매체 인코딩 명령들을 포함한다. 주석이 달린 문서 이미지들 각각에 대하여, 주석이 달린 이미지는 주석들을 식별하기 위해 클린 이미지와 비교되고, 주석들이 출력이 된다.

본 방법 및 시스템은 주석이 달린 문서 이미지들의 세트로부터 대표 이미지를 선택하고, 선택된 대표 이미지와 관련하여 주석이 달린 문서 이미지들의 세트에서 각 주석이 달린 문서 이미지에 대해 글로벌 정렬을 실행하도록 적응될 수 있다.

본 방법 및 시스템은 선택된 대표 이미지 및 주석이 달린 문서 이미지들의 세트에 기초하여 일치 문서 이미지를 형성하도록 적응될 수 있다.

본 방법 및 시스템의 클린 문서는 모든 종류의 문서들에 대해 재생되도록 된 고정된 요소들을 포함하는 고정 페이지 레이아웃을 갖는 문서일 수 있다.

본 방법 및 시스템은 흩어진 점 노이즈(salt-and-pepper noise) 및 고립된 화이트 및 블랙 화소들을 를 제거하고, 파선들을 정정함으로써 적어도 일치 문서 이미지에 기초하여 클린 문서를 형성하도록 적응될 수 있다.

본 방법 및 시스템은 각 주석이 달린 문서 이미지를 클린 문서와 비교함으로써, 주석이 달린 문서 이미지들의 세트로부터 주석 정보 데이터를 추출하도록 적응될 수 있다.

본 방법 및 시스템은 클린 문서 내의 경계 박스들 및 주석이 달린 문서 내의 대응하는 경계 박스들을 식별하고, 클린 문서의 대응하는 박스에 존재하지 않는 주석이 달린 이미지의 각 박스 내에 포함된 주석 화소들을 추출하기 위해 구별 동작(diff operation)을 실행하고, 각 경계 박스에 대해, 크기와 위치, 추출된 주석 화소들, 및 주석 데이터가 추출되는 주석이 달린 문서 이미지를 식별하는 식별자를 출력함으로써, 주석 정보를 추출하도록 적응될 수 있다.

본 방법 및 시스템에 의해 선택된 대표 이미지는 주석이 달린 문서 이미지의 왜곡 측정치, 주석이 달린 문서 이미지의 선명도(crispness) 측정치 및 주석이 달린 문서 이미지의 라인 품질의 측정치 중 하나에 기초할 수 있다.

본 방법 및 시스템의 주석이 달린 문서 이미지들의 세트 및 선택된 대표 이미지는 일치 문서 이미지를 형성하기 전에 흐릿하게 될 수 있다.

본 방법 및 시스템은 각 주석이 달린 문서 이미지에 대해, 주석이 달린 문서 이미지에서 다수의 블록들을 선택하고, 주석이 달린 이미지에서 블록들에 대한 크기 및 위치에 대응하는 대표 이미지에서 동일한 수의 블록들을 식별하고, 주석이 달린 문서 이미지의 각 블록에서의 적어도 하나의 지점을, 대표 이미지의 대응 블록에서의 적어도 하나의 지점에 매핑하는 변환 매트릭스를 계산함으로써, 글로벌 정렬을 실행하도록 적응될 수 있다.

본 방법 및 시스템의 변환 매트릭스는 주석이 달린 문서 이미지에서의 각 블록에 대한 변환들의 평균일 수 있다.

본 방법 및 시스템은 주석이 달린 문서의 블록에서의 블랙 화소들 및 대표 문서의 블록에서의 블랙 화소들의 중첩의 측정치를 계산함으로써, 주석이 달린 문서 이미지의 각 블록에서의 적어도 하나의 지점을, 대표 이미지의 대응 블록에서의 적어도 하나의 지점에 매핑하도록 적응될 수 있다.

본 방법 및 시스템은 주석이 달린 문서 이미지의 블록 및 대표 이미지의 대응 블록에서의 블랙 화소들의 평균 수로 나누어진 대표 이미지의 블록과 주석이 달린 문서 이미지의 블록 간의 중첩하는 블랙 화소들의 수로서 규정되는 품질 스코어를 계산함으로써 블랙 화소들의 중첩의 측정치를 산출하도록 적응될 수 있다.

본 방법 및 시스템은 변환 매트릭스를 산출하기 위해 러프-미세 계층 탐색(rough-to-fine hierarchical search)을 사용할 수 있다.

본 방법 및 시스템의 변환 매트릭스는 회전, 변형, 균일한 스케일링, 페이지 말림들(page curls)의 정정, 및 키스토닝(keystoning)의 정정을 가능하게 할 수 있다.

본 방법 및 시스템은 주석이 달린 문서 이미지들의 세트에서 각 주석이 달린 문서 이미지에 대해, 주석이 달린 문서 이미지를 부 블록들의 세트로 분할하고, 주석이 달린 문서 이미지의 각 부 블록에 대해 대표 이미지의 각 부 블록과의 매치를 결정하고, 복수의 결정된 일치된 부 블록들에 대해, 글로벌 정렬 정보에 기초하여, 대표 이미지의 대응 블록을 얻기 위해 주석이 달린 문서 이미지의 각 부 블록에 변형 벡터를 할당하는 벡터 필드를 생성함으로써, 주석이 달린 문서 이미지들의 세트에 대해 로컬 정렬을 실행하도록 적응될 수 있다.

본 방법 및 시스템의 벡터 필드는 적어도 하나의 부 블록에 대한 변형 벡터를 추정하기 위해 라플라시안 평활화 처리(Laplacian smoothing process)를 사용할 수 있다. 라플라시안 평활화 처리는 적어도 하나의 부 블록과 이웃하는 부 블록들로부터의 벡터들을 평균화함으로써 벡터를 추론할 수 있다.

본 방법 및 시스템은 일치 문서 이미지에서 각각 고유의 위치를 갖는 일치 화소들을 결정하고, 정렬된 주석이 달린 문서 이미지들 각각에서 대응하는 화소들의 속성을 합산하는 것을 포함하고, 합을 주어진 임계치와 비교함으로써, 일치 문서 이미지를 형성하도록 적응될 수 있다. 부가적으로, 합은 대표 이미지에서의 대응하는 화소의 가중치를 포함할 수 있다.

본원에 따르며, 이전에 만나지 못했던 새로운 종류들의 양식들에 대해서도, 거의 완전히 자동화된, 주석이 달린 문서 이미지들로부터 주석 데이터를 분리하기 위한 방법을 제공할 수 있다.

도 1은 주석 데이터가 없는 클린 문서를 도시하는 도면.
도 2 및 도 3은 주석 데이터가 부가된 도 1의 클린 문서를 도시하는 도면.
도 4는 주석이 달린 문서 이미지들의 세트로부터 클린 문서를 복원하기 위한 예시적인 시스템의 고-레벨 개요를 도시하는 도면.
도 5는 도 4의 예시적인 시스템에 의해 실행된 동작들을 도시하는 흐름도.
도 6은 도 5에 도시된 글로벌 정렬 방법을 더욱 상세히 도시하는 흐름도.
도 7은 도 5 및 도 6의 글로벌 정렬 방법에 사용된 러프-미세 계층 탐색을 더욱 상세히 도시하는 흐름도.
도 8은 도 7에 도시된 러프-미세 계층 탐색에 의해 사용되는 탐색 윈도우를 도시하는 도면.
도 9는 도 5에 의해 설명되는 로컬 정렬 방법을 더욱 상세히 도시하는 흐름도.
도 10은 주석이 달린 문서 이미지에 적용될 변형 벡터들의 세트를 갖는 왜곡 맵을 도시하는 도면.
도 11은 노이즈를 포함하는 일치 이미지를 도시하는 도면.
도 12는 도 2의 주석이 달린 문서 이미지로부터 추출된 주석 데이터를 도시하는 도면.
도 13은 도 3의 주석이 달린 문서 이미지와 관련하여 도 6의 글로벌 정렬 방법에 의해 선택된 초기 블록들을 도시하는 도면.
도 14는 도 3의 주석이 달린 문서 이미지와 관련하여 도 9의 로컬 정렬 방법에 의해 사용되는 부 블록들을 도시하는 도면.

본원에는 주석이 달린 문서 이미지들의 세트로부터 클린 문서를 복원하기 위한 방법 및 시스템이 개시되어 있다.

본원에서 사용되는 바와 같이, "클린 문서"는 모든 종류의 문서들 상에서 재생되도록 된 고정 텍스트, 고정 경계들 및 다른 페이지 요소들과 같은 정적 요소들을 포함하는 고정 페이지 레이아웃을 갖는 문서이다. 예를 들면, 도 1은 예시적인 클린 문서(2)를 도시한다. 클린 문서(2)는 사용자에 의해 정보가 채워질(주석이 달릴) 공란 양식으로서 고려될 수 있다. 따라서, 주석이 달린 문서들은 사용자 또는 (컴퓨터 시스템과 같은) 다른 에이전트에 의해 부가된 가변 데이터(주석들)를 포함하는 수정된 클린 문서들이다. 주석이 달린 문서 이미지들은 스캔되거나 다운로드되거나 또는 다른 방법으로는 컴퓨터 메모리에 입력된 주석이 달린 문서로부터의 하나 이상의 이미지들이다. 도 2 및 도 3은 예시적인 주석이 달린 문서 이미지들(4, 6)을 도시한다.

예시적인 실시예에서, 회전, 변형, 및 x, y 좌표의 개별 스케일링을 가능하게 하는 멀티-파라미터 변환이 문서 이미지들에 대해 실행된다. 이것은 2개 이상의 주석이 달린 문서 이미지들 간의 글로벌 정렬을 달성한다. 다수의 문서들의 정렬 후에, 예시적인 방법 및 시스템은 복수의 주석이 달린 문서 이미지들에 공통인 화소들을 포함하는 새로운 이미지를 산출한다. 이것은 초기 글로벌 변환이 서로에 대한 하나의 페이지 이미지의 단순한 변형인 정렬의 이전 방법들과는 대조를 이룬다.

도 4를 참조하면, 주석이 달린 문서 이미지들의 세트로부터 클린 문서(2)를 복원하기 위한 예시적인 시스템(100)이 도시되어 있다. 시스템(100)은 주석이 달린 문서 이미지들(104)의 세트를 수신하기 위한 입력 디바이스(102)를 포함한다. 본원에 제시된 예시적인 시스템 및 방법의 설명을 간단히 하기 위해서, 복수의 클린 문서들에 대응하는 주석이 달린 문서 이미지들의 집합을 처리하기 위해 동일한 방법 및 시스템이 사용될 수 있더라도, 주석이 달린 이미지들(104)의 세트는 단일 클린 문서(2)에 대응하는 2개 이상의 주석이 달린 문서 이미지들로 이루어지는 것으로 가정된다. 입력 전에, 스캐너에 의해 발생된, 주석이 달린 문서 이미지들(104)의 세트는 ROM 또는 RAM 드라이브와 같이 임의의 적절한 실재 매체에 저장될 수 있고/있거나 예를 들면, 인터넷을 통해 반송파의 형태로 시스템(100)에 입력될 수 있다. 대안적으로, 주석이 달린 문서 이미지들(104)은 시스템(100) 자체 내에서 발생될 수 있다. 입력 디바이스(102)는 모뎀 링크, 유선 또는 무선 접속, USB 포트, 플로피 또는 하드디스크 수신기 등을 포함할 수 있고, 시스템(100)의 다른 구성요소들과 분리되거나 결합될 수 있다.

시스템(100)은 처리 동안, 주석이 달린 문서 이미지들(104)을 저장하기 위한 데이터 메모리(106)를 포함한다. 시스템(100)의 주 메모리(108)는 대표적인 스캔 선택 모듈(110), 글로벌 정렬 모듈(112), 선택적인 로컬 정렬 모들(114), 일치 이미지 형성 모듈(116), 클린-업 모듈(118) 및 주석 추출 모듈(119)을 저장한다. 모듈들(110, 112, 114, 116, 118 및 119)로부터의 출력들은 메모리들(106, 108)에 저장될 수도 있거나, 선택적으로는 인터넷과 같은 네트워크(134)를 통해, 클라이언트 단말(130) 또는 프린터(132) 중 하나 이상에 출력 디바이스(120)를 통해 출력될 수 있다. (클린 문서(2) 또는 추출된 주석들(157)과 같은) 출력은 클라이언트 단말(130) 또는 프린터(132) 상에 보여지도록 렌더링될 수 있다.

선택적인 대표적인 스캔 선택 모듈(110)은 입력으로서 주석이 달린 문서 이미지들(104)의 세트를 입력 디바이스(102)를 통해 수신하고, 주석이 달린 문서 이미지들(104)의 세트의 대표("최상")가 되는 것으로 고려되는 주석이 달린 문서 이미지들(104)의 세트로부터 주석이 달린 문서 이미지(150)를 선택한다. 선택된 대표적인 주석이 달린 문서 이미지(150)는 이어서 스캔 선택 모듈(110)로부터 글로벌 정렬 모듈(112)로 이동된다. 글로벌 정렬 모듈(112)은 선택된 대표적인 주석이 달린 문서 이미지(150)와 더욱 근접하게 정렬하기 위해, 다른 주석이 달린 문서 이미지들(104) 각각에 대해 (회전 및/또는 변형과 같은) 엄격한 변환을 실행한다. (선택적인 단계이기 때문에) 대표적인 주석이 달린 문서 이미지가 선택되지 않았다면, 글로벌 정렬 모듈(112)은 다른 위치 정보와 관련하여 각 주석이 달린 문서 이미지(104)에 대해 엄격한 및/또는 상대적인 변환을 실행한다. 예를 들면, 글로벌 정렬 모듈(112)은 각각이 이미지의 에지와 평행하고 및 이미지의 에지로부터 고정 거리에 있는 텍스트의 상부 라인(또는 문서에서의 특정 라인)을 갖도록, 각 주석이 달린 문서 이미지를 정렬할 수 있다. 글로벌 정렬 모듈(112)의 출력은 선택적인 로컬 정렬 모듈(114)로 전달되는 변환 매트릭스(152)와 같은 변환들의 세트이다. 로컬 정렬 모듈(114)은 또한, 다른 것들 중에서, 페이지 말림들, (빗각으로부터 취해지는 화상과 같은) 키스토닝 등을 정정하는 기술들을 사용함으로써, 선택된 대표 문서 이미지(150)와 관련하여 주석이 달린 문서 이미지들(104)의 세트를 정렬한다. 로컬 정렬 모듈(114)의 출력은 일치 이미지 형성 모듈(116)에 전달되는 정렬된 문서 이미지들(154)의 세트이다. 일치 이미지 형성 모듈(116)은 각 정렬된 이미지를 처리하고, 일치 이미지(156)를 형성하기 위해 적어도 복수의 정렬된 이미지들에 대해 기하학적으로 공통인 화소들을 식별한다. 화소가 일치 이미지(156)에 속하는 것으로서 식별되기 전에 공통 화소를 갖는 것이 필요한 주석이 달린 문서 이미지들의 임계 숫자는 시스템 구현에 의존하며, 이하 더욱 상세히 설명된다. 일치 이미지 형성 모듈(116)이 일치 이미지(156)를 형성한 후에, 일치 이미지(156)는 선택적으로 클린-업 모듈(118)로 전달된다. 클린-업 모듈(118)은 흩어진 점 노이즈와 같이 일치 이미지(156)에서의 원하지 않는 아티팩트들을 식별하고, 클린 문서(2)를 메모리들(106, 108), 클라이언트 단말(130) 및 프린터(132) 중 하나 이상에 출력한다. 주석 추출 모듈(119)은 주석이 달린 문서 이미지들을 클린 문서(2)와 비교함으로써 주석이 달린 문서 이미지들(114) 각각으로부터 주석 정보를 추출한다.

예시적인 시스템에서, 구성요소들(110, 112, 114, 116, 118 및 119)은 컴퓨터 프로세서(122)에 의해 실행된, 주 메모리(108)에 저장된 소프트웨어 명령들을 포함한다. 컴퓨터의 CPU와 같은 프로세서(122)는 메모리(108)에 저장된 처리 명령들의 실행에 의해 컴퓨터 시스템(100)의 전체 동작을 제어할 수 있다. 구성요소들(102, 106, 108, 110, 112, 114, 116, 118, 119, 120 및 122)은 데이터 제어 버스(124)에 의해 접속될 수 있다. 인식되는 바와 같이, 시스템(100)은 여전히 동일한 기능을 가지면서 더 적은 또는 더 많은 구성요소들을 포함할 수 있다. 예를 들면, 구성요소들(110, 112, 114, 116, 118, 119)은 더 적은 구성요소들을 형성하기 위해 결합될 수도 있거나, 더 많은 개별 구성요소들을 형성하기 위해 기능적으로 분리될 수 있다.

인식되는 바와 같이, 클린 문서 복원 시스템(100)은 개인용 컴퓨터, PDA, 랩탑 컴퓨터, 서버 컴퓨터, 문서 처리 능력을 갖는 스캐닝 디바이스, 또는 이들의 조합과 같이, 하나 이상의 컴퓨팅 디바이스들을 포함할 수 있다. 메모리들(106, 108)은 내장될 수도 있거나 분리될 수도 있으며, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 자기 디스크나 테이프, 광학 디스크, 플래시 메모리 또는 홀로그램 메모리와 같이, 임의의 종류의 컴퓨터 판독가능한 매체를 나타낼 수 있다. 일 실시예에서, 메모리들(106, 108)은 랜덤 액세스 메모리 및 판독 전용 메모리의 조합을 포함한다. 몇몇 실시예들에 있어서, 프로세서(122) 및 메모리(106 및/또는 108)는 단일 칩에 결합될 수 있다.

도 5를 참조하면, 주석이 달린 문서 이미지들의 세트로부터 클린 문서를 복원하기 위한 예시적인 방법이 도시되어 있다. 이 방법은 도 4에 도시된 시스템(100)을 채용할 수 있다. 예시적인 방법은 나타낸 것보다 적거나 많거나 또는 다른 단계들을 포함할 수 있고, 예시된 순서로 진행될 필요는 없다는 것이 인식될 것이다. 도 5에 도시된 방법은 컴퓨터 상에서 실행될 수도 있는 컴퓨터 프로그램 제품에서 구현될 수 있다. 컴퓨터 프로그램 제품은 제어 프로그램이 기록되어 있는 (디스크 또는 다른 메모리 저장 디바이스와 같은) 실재의 컴퓨터-판독가능한 기록 매체일 수도 있거나, 제어 프로그램이 데이터 신호로서 구체화되는 송신가능한 반송파일 수 있다. 예시된 방법은 전체적으로 자동화될 수도 있거나, 본원에서 언급되는 바와 같이, 일부 사용자 입력을 포함할 수 있다.

이 방법은 단계(S100)에서 시작한다. 단계(S200)에서, 클린 문서 복원 시스템(100)은 적어도 2개의 주석이 달린 문서 이미지들(104)의 세트를 입력 디바이스(102)를 통해 컴퓨터 메모리(106)에 수신한다. 세트(104)에서의 각 주석이 달린 문서 이미지는 동일한 양식 또는 클린 문서 이미지에 대응해야 하고, 상이한 주석들만을 가져야 한다. 이미지들(4, 6)은 각각 10a 및 10b와 같은 주석들을 포함하는 클린 이미지(2)의 확대집합이기 때문에, 예를 들면, 도 2 및 도 3의 주석이 달린 문서 이미지들(4, 6) 모두는 도 1의 클린 문서 이미지(즉, 공란 양식)(2)에 대응한다. 일 실시예에서, 2개의 주석이 달린 문서 이미지들이 적어도 특정 비율(예를 들면, 50%)의 화소들을 공동으로 공유한다면, 2개의 주석이 달린 문서 이미지들은 동일한 클린 문서 이미지에 대응한다. 예를 들면, 2개의 주석이 달린 문서 이미지들은 이미지의 치수들에 대해 동일한 위치들에 있는 동일한 행 바꿈들 및 동일한 폰트를 갖는 특정량의 텍스트를 공유할 수 있다. 출력 클린 문서 이미지의 품질은 입력 주석이 달린 문서 이미지들의 수에 적어도 부분적으로 의존한다. 예시적인 방법 및 시스템에서는 적어도 10개, 일 실시예에서는 약 20개 이상의 흑백, 그레이스케일 및/또는 컬러 이미지들이 시스템(100)에 입력된다. 주석이 달린 문서 이미지들은 TIFF, JPG, GIF, PDF 등과 같이 처리 소프트웨어에서 인식할 수 있는 임의의 포맷일 수 있다. 선택적으로, 그레이스케일 또는 컬러 이미지들은 처리 전에 이진(흑백) 이미지들로 변환될 수 있다.

단계(S300)에서, 대표적인 스캔 선택 모듈(110)은 입력 주석이 달린 문서 이미지들(104)의 세트로부터 주석이 달린 문서 이미지를 선택하고, 선택된 주석이 달린 문서 이미지를 대표적인 주석이 달린 문서 이미지(150)로서 설정한다. 대표적인 주석이 달린 문서 이미지(150)는 입력 주석이 달린 문서 이미지들(104)의 세트로부터 제거될 수도 있지만, 필수적인 것은 아니다. 대안적인 실시예에서, 대표적인 주석이 달린 문서 이미지(150)는 사용자에 의해 수동으로 선택될 수 있다. 주석이 달린 문서 이미지가 대표적인 주석이 달린 문서 이미지로서 선택되기에 적합한지를 결정할 수도 있는 인자들로는 왜곡, 선명도, 및 주석이 달린 문서 이미지의 선 품질이 있지만, 이것으로 제한되는 것은 아니다. 문서의 여백들에 대해 왜곡되어 있지 않고, 선명하고 뚜렷한 에지들을 갖고, 어둡고 쉽게 구별할 수 있는 선들을 갖는다면, 예를 들면, 주석이 달린 문서 이미지는 대표적인 주석이 달린 문서 이미지로서 고려될 수 있다. 이들 인자들 중 임의의 또는 모든 인자들은 대표적인 주석이 달린 문서 이미지(150)를 결정할 때 고려될 수 있다. 처리 소프트웨어가 인간이 최선이라고 고려할 수도 있는 주석이 달린 이미지를 반드시 선택하지 못할 수도 있지만, 목적은 최상의 주석이 달린 이미지(원래 생성되었던 클린 이미지에 대한 구조와 가장 유사한 것으로 예상되는 것)를 대표적인 주석이 달린 문서 이미지로서 선택하는 것이다. 예시적인 실시예에서, 대표적인 주석이 달린 문서 이미지를 결정할 때, 문서 이미지의 왜곡은 문서 이미지의 선명도 또는 선 품질보다 큰 가중치로 제공된다. 설명의 목적상, 도 2는 본원에서 최상의 주석이 달린 이미지로서 선택된다.

단계(S350)에서, 대표적인 스캔 선택 모듈(110)(또는 임의의 다른 적절한 모듈)은 입력 주석이 달린 문서 이미지들(104)의 세트 및 선택된 대표적인 주석이 달린 문서 이미지(150)를 선택적으로 흐리게 만든다. 사용된 블러잉(blurring) 알고리즘 및/또는 구성요소는 임의의 적절한 블러잉 알고리즘을 실시할 수 있다. 예를 들면, 특정 실시예들은 주석이 달린 문서 이미지들(104, 150)을 흐릿하게 만들기 위해 공지된 가우스 블러 알고리즘을 실시한다. 다른 실시예들에서, 문서 이미지의 블랙 화소들이 확장된다. 확장은 출력 화소의 값이 입력 화소의 이웃에 있는 모든 화소들의 최대 값인 경우의 동작을 나타낸다. 예를 들면, 이진 이미지에서, 입력 화소의 이웃에 있는 화소들 중 임의의 화소가 블랙이라면, 출력 화소는 블랙으로 설정된다. 블러잉의 목적은 하나 또는 2개 화소 폭의 기간들 및 선들과 같이 비교적 작은 객체들도 정렬될 수 있는 것을 보장하는 것이다.

단계(S400)에서, 글로벌 정렬 모듈(112)은 선택된 대표적인 주석이 달린 문서 이미지 B(150)와 관련하여 입력 주석이 달린 문서 이미지들(104)의 세트에 있는 각 주석이 달린 문서 이미지 A₁, A₂, ..., A_n를 정렬하는 글로벌 정렬을 실행한다. 간단히, 글로벌 정렬 모듈(112)은 교차-상관 및 러프-미세 계층 탐색을 사용하여, A_i에서 다수의 초기 블록들(478)(도 13)(예를 들면, 예시적인 실시예에서, 약 20 내지 50개의 블록들)을 선택하고, B에서 그들의 대응하는(즉, 매치되는) 초기 블록들(478)을 식별한다. 예시적인 실시예에서, 문서 이미지 A_i에서의 선택된 초기 블록들(478)은 많은 블랙(또는 컬러의 경우에는 어두운) 화소들을 포함하는 집합 블록들이다. 예를 들면, 10%를 초과하는 블랙 화소들을 포함하는 경우에는, 초기 블록(478)이 선택될 수 있다. 초기 블록들(478)은 적어도 50개 또는 적어도 100개의 화소들을 포함할 수 있고, 몇몇 실시예들에서는 약 100,000개까지의 화소들을 포함할 수 있다. 선택된 초기 블록들은 모두 동일한 크기 및 모양일 수도 있거나, 상이한 모양들 및/또는 크기들일 수 있다. 일 실시예에서, 초기 블록들(478)은 직사각형이지만, 다른 모양들도 고려된다. 일반적으로, 초기 블록들(478)은 이미지 면적의 약 5% 미만의 면적을 점유한다.

초기 블록들(478)(도 13)의 각 매칭 쌍은 (두 블록들의 중앙 지점들과 같은) 한 쌍의 지점들을 제공한다: A_i에서의 (x,y) 및 B에서의 (x□,y□). (불량한 매치들을 제거하기 위한 아웃라이어 폐기(outlier rejection)를 갖는) 표준 최소 제곱법 방법들을 사용하면, 글로벌 정렬 모듈(112)은 A_i에서의 지점들을 B에서의 지점들로 대략 매핑하는 변환 매트릭스를 산출한다. 변환 매트릭스는 회전 및 변형과 같은 엄격한 움직임들만을 허용할 수 있다. 특정 실시예들에서, 변환 매트릭스는 또한 (팩스 기계들에서 종종 발생하는 것과 같은) x 및 y 방향들에서의 균일한 스케일링 또는 상이한 스케일링을 허용할 수 있고/있거나 또한 페이지 말림, 키스토닝 등을 포함하지만 이들로 제한되지는 않는 기형들을 정정하기 위한 부가적인 변환들을 제공할 수 있다. 단계(S400)는 도 6에 더욱 상세히 도시되어 있다. 글로벌 정렬 방법은 단계(S350)부터 시작하고, S402에서 시작하여, 선택된 대표적인 주석이 달린 문서 이미지 B(150)와 관련하여 각 주석이 달린 문서 이미지 A_i에 대해 실행된다.

단계( S402)에서, 글로벌 정렬 모듈(112)은 이미지 A_i에서 복수의 초기 블록들을 선택한다. 예를 들면, 도 13은 선택된 복수의 초기 블록들(478)을 갖는 도 3의 주석이 달린 문서 이미지(6)를 도시한다. 예시적인 실시예에서, 30개 이상의 초기 블록들(478)이 선택된다. 또한, 특정 실시예들에서, 초기 블록들(478)은 문서 이미지 A_i를 가로질러 균일하게 분배된, 비-중첩하는, 및 균일한 크기의 것 중 적어도 하나이다. 초기 블록들(478)은 서로 인접할 수도 있거나, 임의의 크기의 공간 만큼 떨어져 있을 수 있다. 300 DPI 문서 이미지에 있어서, 초기 블록(478)은 일반적으로 128x128 화소의 크기를 가질 것이다. 초기 블록들은 랜덤하게 선택될 수도 있거나, 의사-랜덤하게 선택될 수도 있거나, 사용자에 의해 선택될 수도 있지만, 반드시 그런 것은 아니다. 초기 블록들이 의사-랜덤하게 선택되는 실시예들에 있어서, 초기 블록들은 사용자의 도움으로 선택될 수 있고/있거나 특정 조건들을 만족시키도록 선택될 수 있다.

단계(S404)에서, 글로벌 정렬 모듈(112)은 문서 이미지 B에서의 대응하는 초기 블록들(478)과 관련하여 문서 이미지 A_i의 초기 블록들(478)(도 13) 각각에 대한 가장 근사한 매치를 결정한다. 처음에, A_i의 초기 블록들(478)은 B에서의 초기 블록의 위치를 정하기 위해 A_i 초기 블록의 동일한 x 및 y 좌표를 사용함으로써 B의 초기 블록들(478)과 임시로 매치된다. 문서 이미지의 초기 블록에 대한 가장 근사한 매치는, 유효한 변환하에서 문서 이미지 A_i의 초기 블록(478)과 가장 근사하게 유사한 선택된 문서 이미지 B의 초기 블록을 발견함으로써 결정된다. 유효한 변환들로는 문서 이미지의 초기 블록의 변형들, 문서 이미지의 초기 블록의 회전들, 문서 이미지의 초기 블록의 스케일링 및 문서 이미지의 초기 블록의 아핀 변환들이 있지만, 이것으로 제한되는 것은 아니다. 문서 이미지의 초기 블록(478)에 대한 가장 근사한 매치는 또한 매치의 품질에 대응하는 품질 스코어와 연관될 수 있다. 특정 실시예들에 있어서, 선택된 문서 이미지의 초기 블록의 품질은 0 내지 1의 스케일로 평가되며, 여기서, 0은 매치가 발견되지 않았다는 것을 나타내고, 1은 완벽한 매치를 나타낸다. 완벽한 매치는 선택된 문서 이미지의 몇몇 초기 블록이 회전과 같은 유효한 변환하에서 문서 이미지의 초기 블록과 정확히 매치되는 경우에만 존재한다. 이러한 실시예들에 있어서, 품질 스코어는 (임의의 적용된 변환들을 따르는) 문서 이미지의 초기 블록 및 문서 이미지의 초기 블록에 있는 블랙 화소들의 평균 수로 나눈 선택된 문서 이미지의 초기 블록 및 그에 대응하는 선택된 문서 이미지의 초기 블록 간의 중첩하는 블랙 화소들의 수로서 규정될 수 있다. 부가적으로, 특정 실시예들에 있어서, 가장 근사한 매치에 대한 품질 스코어가 확신 임계치(confidence threshold) 미만이라면, 문서 이미지의 대응하는 초기 블록은 방법 S400의 나머지에 대해 무시될(매치되지 않을) 수 있다. 문서 이미지들의 대응하는 초기 블록들이 단지(또는 주로) 주석 데이터를 포함한다면, 품질 스코어는 확신 임계치 미만일 것이다.

문서 이미지의 초기 블록(478)(도 13)에 대한 가장 근사한 매치를 발견하기 위해서, 러프-미세 계층 탐색 절차가 사용될 수 있다. 도 7을 참조하면, 계층 탐색 절차(450)는 도 8의 예시적인 15화소 x 15화소 탐색 윈도우(453)에 적용되는 것으로 예시되어 있다. 예시의 목적상, 탐색 윈도우(453)는 또한 도 2 및 도 3의 초기 블록(478) 내에 도시되어 있다. 계층 탐색 절차는 문서 이미지 A_i의 초기 블록을 중심으로 하는 탐색 윈도우(453)를 규정함으로써 단계(S452)에서 시작된다. 탐색 윈도우는 A_i의 선택된 초기 블록에 대응하는 선택된 대표 이미지 B에서 블록을 발견하기 위해 사용된다. 근사 위치를 결정하는 더욱 복잡한 방법들이 사용될 수도 있지만, 특정 실시예들에 있어서, 문서 이미지의 초기 블록의 위치는 선택된 문서 내의 대응하는 위치에 간단히 매핑된다. 예를 들면, 폭 w₀ 및 높이 h₀을 갖는 문서 이미지의 위치(x₀,y₀)에 있는 초기 블록을 가정하자. 선택된 문서 이미지가 폭 w₁ 및 높이 h₁을 갖는다면, 선택된 문서 내에서의 대응하는 위치(x₁,y₁)는 다음과 같이 규정될 수 있다.

(1)

(2)

단계(S454)에서, 글로벌 정렬 모듈(112)은 탐색 윈도우(453)보다 작고 탐색 윈도우 내의 중앙에 있는 (지점들(457)에 의해 규정된) 제 1 박스를 규정한다.

단계(S456)에서, 글로벌 정렬 모듈(112)은 제 1 박스 내에 위치된 지점들(457)의 세트에 대한 매치 스코어들을 결정한다. 특정 실시예들에 있어서, 매치 스코어들은 더 적게 또는 더 많이 이격된 지점들이 선택될 수도 있지만, 박스의 코너들, 측면 중앙 지점들 및 중앙에 위치되는 9개의 이격된 지점들에 대해 결정된다. 지점에 대한 매치 스코어는 문서 이미지 A_i의 초기 블록을 지점과 가장 가까운 선택된 문서 이미지 B의 영역에 매치하도록 함으로써 결정된다. 오퍼레이터는 그들이 적합하다고 여길 때 가장 가까운 것을 규정할 수도 있지만, 오퍼레이터가 가까운 것을 넓게 규정할수록 계층 탐색 절차(450)가 느려지게 된다는 것을 이해해야 한다. 가장 높은 매치 스코어를 갖는 지점(이 예시에서는 오른쪽 위 지점(457))이 단계(S458)에서 선택된다. 예를 들면, 각각 도 2 및 도 3의 탐색 윈도우들(453)은 대응하는 지점들에 대해 높은 매치 스코어들을 제공할 달러 기호($)를 포함한다.

단계(S460)에서, 이전 박스보다 더 작고 이전 박스로부터 가장 근사한 매치 를 중심으로 하는 박스가 (지점들(463)에 의해) 규정된다.

단계(S462)에서, 글로벌 정렬 모듈(112)은 제 1 박스와 유사한 방식으로 더 작은 박스 내에 위치되는 지점들에 대한 매치 스코어들을 결정한다. 가장 높은 매치 스코어를 갖는 지점(이 경우에는, 중앙 오른쪽 지점(463))이 단계(S464)에서 선택된다.

단계(S466)에서, 글로벌 정렬 모듈(112)은 더 작은 박스의 지점들이 유사한 매치 스코어들을 갖는지를 결정한다. 예를 들면, 지점들(463)의 매치 스코어들은 지점들 간의 차이들이 주어진 임계치(예를 들면, 0.0 내지 1.0) 내에 있는지를 결정하기 위해 서로 비교된다. 더 작은 박스의 지점들이 서로 유사하지 않다면, 단계들(S460, S462, S464 및 S466)은 반복된다.

단계(S468)에서, 글로벌 정렬 모듈(112)은 가장 근사한 매치가 탐색 윈도우(453)의 경계에 있는지를 결정한다. 예를 들면, 지점들(471)로 나타낸 오른쪽 지점들 중 임의의 지점이 그 박스에 대한 가장 근사한 매치인 것으로 결정되면, 선택된 지점은 탐색 윈도우의 경계에 있다. 가장 근사한 매치가 경계에 있지 않으면, 방법(450)은 S472로 진행한다. 그렇지 않으면, 방법(450)은 가장 근사한 매치를 중심으로 단계(S470)에서 새로운 탐색 윈도우를 규정하고, 단계(S454) 내지 단계(S468)를 반복한다. 방법의 이 지점에서, 글로벌 정렬 모듈(112)은 문서 이미지 B에서의 지점들의 세트에 대응하는 문서 이미지 A_i에서의 9개까지의 지점들의 세트가 식별된다.

도 6을 다시 참조하면, 단계(406)에서, 글로벌 정렬 모듈(112)은 A_i에 적용될 때, 문서 이미지 A_i를 문서 이미지 B에 대해 정렬할 문서 이미지 A_i에 대한 변환 매트릭스를 결정한다. 이 결정은 문서 이미지의 가장 근사한 매치들 및 대응하는 초기 블록들(478)(도 13) 간의 차이를 최소화하기 위해 최소 제곱법 분석을 사용하여 이루어진다. 기본적으로, 문서 이미지 A_i의 초기 블록들에 있는 지점들을 선택된 무서 이미지 B의 대응하는 초기 블록들에 있는 지점들에 매핑하는 것이 목적이다. 이것을 행하는데 있어서, 최소 제곱법 분석은 유효한 변환들이 회전들, 변형들, 스케일링, 페이지 말림, 키스토닝 등을 포함하지만 이것으로 제한되지는 않는 하나 이상의 유효한 변환들을 고려할 수 있다. 특정 실시예들에 있어서, 최소 제곱법 분석은 또한 지점들의 잘못 매치된 쌍들에 덜 민감한 처리를 만들기 위해서 아웃라이어 폐기를 포함할 수 있다.

예시를 위해서, 선택된 문서 이미지 B 내의 초기 블록(r_s)의 위치가 문서 이미지 A_i 내의 대응하는 초기 블록(r_d)의 위치의 함수(f)로서 모델링될 수 있다고 가정하자. 또한, 함수(f)가 2개의 초기 블록들 사이에서 매핑하는 방법을 제어하는 가변 파라미터들의 벡터(β)를 함수(f)가 취한다고 가정하자. 파라미터들은 회전량, 스케일링, 변형 등을 포함할 수 있다. 에러(S)의 제곱들의 합은 다음과 같이 규정될 수 있다.

(3)

여기서, n은 단계(S402)에서 선택된 초기 블록들의 수에 대응하고, f()는 새로운 지점의 결과를 가져오는 변환을 지점(x_i,y_i)에 적용하는 함수이고, d는 지점(x_i,y_i) 및 변형 지점(f(x_i,y_i)) 간 거리의 측정치이고, i는 선택된 문서 이미지 B 내의 i번째 초기 블록에 대응하고(즉, 가장 근사한 매치), f(x_i,y_i)는 문서 이미지 A_i 내의 i번째 초기 블록의 위치에 대응한다.

규정된 제곱들의 합(S)에 있어서, 문서 이미지 A_i에 대한 변환은 벡터(β)의 가변 파라미터들을 해결함으로써 결정된다. 즉, 벡터(β)가 m개의 파라미터들을 갖고, β_j가 j번째 파라미터에 대응한다고 가정하자. j번째 파라미터에 대한 해결은 1차 방정식들과 같은 종래의 기술들을 사용하여 파라미터(β_j)를 해결함으로써 결정될 수 있다.

인식되어야 하는 바와 같이, 이 방식에서 결정된 가변 파라미터들은 문서 이미지의 초기 블록들을 선택된 문서의 초기 블록들(478)(도 13)에 매핑하는 것에 수반되는 에러들의 제곱들의 합을 최소화한다. 변환 매트릭스들이 문서 이미지의 전체에 걸쳐 엄격하게 적용되는 경향이 있는 것으로 가정하면, 문서 이미지에 대한 변환을 전체적으로 규정하기 위해 가변 파라미터들이 사용될 수 있다. 이 전체적으로 규정된 변환은 문서 이미지 A_i에 대해 산출된 변환 매트릭스들의 평균일 수 있다. 따라서, 단계(S406)의 끝에서, 글로벌 정렬 모듈(112)은 각 문서 이미지 A_i에 대한 단일 변환 매트릭스(152)를 결정하였다.

도 5를 한번 더 참조하면, 단계(S500)에서, 로컬 정렬 모듈(114)은 선택적으로, 선택된 대표 주석이 달린 문서 이미지 B(150)와 관련하여 입력 주석이 달린 문서 이미지들(104)의 세트에서 각 주석이 달린 문서 이미지 A₁, A₂, ..., A_n에 대해 추가적인 로컬 정렬을 실행한다. 이 단계는 글로벌 정렬 변환이 다수의 초기 블록들(478)(도 13)에 걸친 평균 변환이라는 사실을 고려하는데 도움을 준다. 문서 이미지 A_i의 각 영역은 모든 개별적으로 산출된 및 문서 이미지 A_i에 적용되는, 그들 자신의 조금은 상이한 변환을 갖는다. 간단히, 문서 이미지 A_i는, A_i를 비-중첩(또는 부분적으로 중첩)하는 부 블록들(480)(도 14)의 그리드로 분할함으로써, B에 대해 국부적으로 정렬된다. 예를 들면, 128 x 128 화소들은 선택된 대표 문서 이미지 B에서의 대응하는 블록이 결정되는 A_i에서의 각 부 블록에 대한 적당한 부 블록 크기 매치이다. 이들 매칭들은 B에서 대응하는 블록을 얻기 위해 A_i에 있는 블록의 중앙에 변형 벡터를 할당하는 벡터 필드로서 고려될 수 있다. 초기 벡터들은 글로벌 정렬 단계(S400)에서 산출된 변환 매트릭스에 의해 결정되지만, 최종 벡터들은 x 및 y 각각에서 약 5개까지의 화소들에 의해 초기 벡터들로부터 벗어날 수 있다. 확실하게 매치될 수 없는 부 블록에 대한 벡터는 라플라시안 평활화 처리를 사용하여 그 이웃들로부터 추정될 수 있으며, 여기서, 벡터는 (보통) 4개의 이웃들의 평균으로 설정된다. 이미지 A_i의 임의의 지점(x,y)에서 변형 벡터를 발견하기 위해서, 이중 선형 보간법(즉, 2개의 지점들 사이에서 추정된 변환을 발견하는 것)이 (x,y) 주변의 4개의 그리드 지점들에서의 변형 벡터들로부터 사용된다. 적용된 변환 벡터들의 세트를 갖는 정렬된 이미지는 A□_i로 표기된다. 단계(S500)는 도 9에 더 상세히 도시되어 있다. 선택적인 로컬 정렬 방법(S500)은 단계(S400) 이후에 시작하고 단계(S552)에서 시작한다. 방법(S500)은 선택된 대표 주석이 달린 문서 이미지 B(150)와 관련하여 각 주석이 달린 문서 이미지 A_i에 대해 및 각 부 블록에 대해 실행된다.

단계(S552)에서, 로컬 정렬 모듈(114)은 문서 이미지 A_i를, 문서 이미지의 전체를 포괄하는 부 블록들(480)(도 14)의 세트로 분할하고, 여기서, 부 블록들(480) 각각은 (경계에 있는 부 블록들은 제외하고) 상부, 하부, 왼쪽 및 오른쪽에 이웃들을 갖는다. 인식되어야 하는 바와 같이, 부 블록(480)은 단순히 문서 이미지의 영역이다. 특정 실시예들에 있어서, 부 블록들(480)은 비-중첩하는 것, 부 블록들(480) 간의 갭들을 방지하기 위해 소량(예를 들면, 10 화소들)만큼 중첩하는 것, 및 균일한 크기의 것 중 적어도 하나이다. 로컬 정렬 모듈(114) 또는 사용자는 적어도 다음의 고려사항들을 고려한 후에 선택적으로 부 블록들(480)의 크기를 선택할 수 있다: 1) 부 블록 크기가 작을수록, 필요한 처리 시간은 더 많아진다; 2) 부 블록 크기가 더 클수록, 로컬 정렬은 덜 효율적이다. 예시적인 실시예에서, 300 DPI(dots per inch) 문서 이미지에 대한 블록 크기는 128 x 128 화소들이며, 즉, 각 부 블록(480)은 적어도 1㎠의 면적을 가질 수 있고, 이미지는 적어도 50개 또는 적어도 10O개의 부 블록들, 예를 들면, 5000개까지의 부 블록들로 분할될 수 있다.

단계(S554)에서, 로컬 정렬 모듈(114)은 A_i의 블록들 각각에 대하여 문서 B의 블록과의 가장 근사한 매치를 결정한다. 블록에 대한 가장 근사한 매치는 유효한 변환하에서의 블록과 가장 근사하게 비슷한 선택된 문서 이미지 B의 초기 블록(478)(도 13)을 발견함으로써 결정된다. 또한, 가장 근사한 매치는 매치의 품질에 대응하는 품질 스코어를 포함할 수 있다. 따라서, 인식되어야 하는 바와 같이, 블록에 대한 가장 근사한 매치는, 도 7과 함께 논의된 문서 이미지의 초기 블록(478)에 대한 가장 근사한 매치와 동일한 방식으로 결정될 수도 있기 때문에, 상기 논의에 주의를 기울여야 한다.

단계(S556)에서, 로컬 정렬 모듈(114)은 단계(S554)에서 결정된 선택된 문서 이미지 B의 가장 근사한 매칭 부 블록(480)(도 14)에 대응하는 문서 이미지 A_i의 각블록에 대한 변형 벡터를 결정한다. 문서 이미지 A_i의 부 블록(480)에 대한 변형 벡터는 단순히, 선택된 문서 이미지 B에서의 가장 근사한 매치에 대해 부 블록(480)이 정렬해야 하는 변형량이다. 특정 실시예들에 있어서, 가장 근사한 매치에 대한 품질 스코어가 확신 임계치 미만이면, 부 블록(480)의 변형 벡터는 그의 이웃들의 변형 벡터들로부터 추정될 수 있다. 즉, 이러한 부 블록(480)에 대한 변형 벡터는 그 이웃들의 평균 변형 벡터로 설정될 수 있다.

도 10을 참조하면, 문서 이미지에 적용되는 것으로서 변형 벡터들의 세트를 보여주는, 문서 이미지에 대한 왜곡 맵이 도시되어 있다. 예에서, 더 적거나 또는 더 많은 부 블록들이 사용될 수도 있지만, 문서 이미지는 부 블록들(480)(도 14)의 6x8 그리드로 분할된다. 각 블록은 (변형 방향을 보여주기 위해 간단히 화살표들로 나타낸) 변형 벡터와 연관된다. 블록들의 별개의 세트에 대한 변형 벡터들만이 결정될지라도, 문서 이미지 A_i에서의 임의의 지점에 대한 변형 벡터는, 지점을 둘러싸는 4개의 격자 지점들에서 변환 벡터들로부터 이중 선형 보간법을 사용하여 결정될 수 있다.

단계(S558)에서, 로컬 정렬 모듈(114)은 단계(S556)로부터의 결정된 변환을 적용함으로써 문서 이미지 A_i의 블록들 각각을 이동시킨다.

단계(S560)에서, 로컬 정렬 모듈(114)은 단계(S558)로부터의 이동된 블록들을 어셈블링(함께 스티칭)함으로써, 변환된 문서 이미지 A□_i를 생성한다. 따라서, 단계(S560)이 실행된 후에, 변환된 문서 이미지들(154)의 세트 A□_1,A□₂, ..., A□_n이 생성되고, 여기서, n은 문서 이미지들(104)의 입력 세트에서의 문서 이미지들의 수이다. 이어서, 제어는 단계(S600)으로 이동된다.

단계(S600)에서, 일치 이미지 형성 모듈(116)은 일치 이미지(156)를 형성하기 위해, 정렬된 문서 이미지들(154) A□₁, A□₂, ..., A□_n을 결합한다. 일치 이미지(156)를 형성하기 위해, 정렬된 문서 이미지들(154)을 결합하는 다수의 방식들이 있다. 선택적으로, 임의의 컬러 정렬 문서 이미지들은 추가적인 처리 전에 그레이스케일 또는 이진(블랙 및 화이트) 이미지로 변환될 수 있다. 정렬된 문서 이미지들을 결합하는 다음의 예시적인 방법들 중 임의의 방법이 개별적으로 또는 조합하여 사용될 수 있다. 한가지 방법은 도 11에 도시된 바와 같이, (컬러 값 또는 이진 값과 같은) 주어진 속성에 대하여, 모든 이미지들을 단순히 합친 다음, 블랙-화이트 이미지로 바꾸기 위해 그 합을 적절한 값으로 한계를 정한다. 합은 화소-단위이므로, 위치(x,y)에서의 일치 화소(C(x,y))는 다음과 같이 합으로부터 한계가 정해진다.

(5)

여기서, B(x,y) 및 A□_i(x,y)는 화소 컬러 값들(예를 들면, 화이트에 대해서는 0, 블랙에 대해서는 1)이고, i는 1 내지 n 범위의 색인이고, n은 시스템(100)에 입력된 주석이 달린 문서 이미지들의 수이고, t는 임계치이다. 즉, 그 연산된 합이 임계치보다 크지 않으면, 위치(x,y)에서의 화소는 일치 이미지로부터 가려진다. 예를 들면, 50개의 주석이 달린 문서 이미지들에 대해서, 적어도, 예를 들면, 30개의 문서 이미지들 A□_i이, 블랙으로 설정될 합성 이미지의 화소에 대한 위치(x,y)에서 블랙 화소를 갖거나, 그레이스케일 및 컬러 이미지들의 경우에는 (강도와 같이) 합산된 컬러 속성이 특정 임계치 위에 있도록 설정될 수 있다. 선택된 문서 이미지 B의 (x,y)에서의 화소의 컬러/강도는 또한 식 (5)에 나타낸 바와 같이 합산에 반영될 수 있다.

일치 이미지를 형성하기 위한 또 다른 방법은 투표 처리에 의한 것이며, 여기서, 그 화소가 블랙이라면, 문서 이미지들 B 및 A□₁, A□₂, ..., A□_n의 위치(x,y)에서의 각 화소가 카운트되거나, 그레이스케일 및 컬러 이미지들의 경우에는 특정 임계치를 초과하는 (강도와 같은) 컬러 속성을 갖는다. 예를 들면, 일치 이미지 형성 모듈(116)은 문서 이미지들 B 및 A□₁, A□₂, ..., A□_n의 (x,y)에서의 화소들의 2/3가, 블랙이 될 C(x,y)에 대해 블랙이 되도록 할 필요가 있을 수 있다.

일치 이미지를 형성하기 위한 또 다른 방법은 특히 선택된 대표 문서 이미지 B를 처리하는 것이다. 예를 들면, B(x,y)가 블랙이고, A□₁(x,y), A□₂(x,y), ..., A□_n(x,y)의 2/3가 블랙인 경우에만, C(x,y)가 블랙으로 설정된다.

단계(S600)이 실행된 후에, 도 11에 도시된 것과 같은 일치 이미지(8)가 생성된다. 일치 이미지(8)는 도 2 및 도 3에 도시된 이미지들(4, 6)과 같은 주석이 달린 문서 이미지들로부터 형성되기 때문에, 일치 이미지(8)는 (경계선들과 같은) 잘-규정된 선들 및 라벨들 "음식" 및 "엔터테인먼트:"와 같은 특징들을 포함할 것이다. 부가적으로, 중첩하는 화소들이 단지 분산되어 있는 주석이 달린 문서 이미지들(104)에 대한 변칙들 및 주석들을 스캔함으로써 형성되는 노이즈(12)가 있을 수 있다. 이 노이즈(12)는 클린 문서(2)를 생성하기 위해 일치 이미지(8)로부터 제거될 수 있다.

예를 들면, 단계(S700)에서, 클린-업 모듈(118)은 클린 문서 이미지(2)를 형성하기 위해, 흩어진 점 노이즈, 고립된 화이트 및 블랙 화소들, 및 화소들의 소규모로 접속된 구성요소들을 제거함으로써, 일치 이미지(8)를 깨끗하게 한다. 클린-업 모듈(118)은 또한 깨진 수평 및 수직선들을 정정할 수 있다.

단계(S750)에서, 주석 추출 모듈(119)은 입력 문서 이미지들(104)을 클린 문서(2)와 비교함으로써 입력 주석이 달린 문서 이미지들(104) 각각으로부터 주석 정보 데이터(157)를 추출한다. 예시적인 실시예에서, 주석 추출 모듈(119)은 공란 필드들에 대응하는 클린 문서 내의 경계 박스들이나 영역들 및 이미지 데이터가 있는 주석이 달린 문서 이미지에서의 대응하는 경계 박스들이나 영역들을 식별하고, 주석이 달린 문서 이미지로부터 주석 정보 데이터를 추출하기 위해 구별(diff) 동작을 실행한다. 추출된 주석 정보 데이터는 주석 자체, 경계 박스 좌표, 및 주석이 추출된 주석이 달린 이미지를 식별하는 식별자를 포함할 수 있다. 경계 박스들은 기하학적 레이아웃에 기초하여 클린 문서에서 식별된다. 예를 들면, 도 1에서, 지점들(P1, P2, P3, P4)에 의해 경계가 지어지는 박스는 클린 문서(2)의 별개의 요소로서 식별되며, 이는 (공란 양식에서는 일반적일 수도 있는) 직사각형 모양을 형성하기 위해 P1, P2, P3, P4를 연결하는 선들을 갖기 때문이다. 동일한 관련 지점들(P1, P2, P3, P4)을 사용하는 도 2의 정렬된 주석이 달린 문서 이미지(4)에서 대응하는 박스가 결정된다. 경계 박스들이 결정된 후에, 클린 경계 박스에는 존재하지 않고 주석이 달린 경계 박스에 존재하는 화소들을 추출하기 위해 구별 동작이 실행된다. 일 실시예에서, 이 단계는 정렬된 주석이 달린 이미지에 대해 실행되기 보다는 원래의 주석이 달린 이미지에 대해 실행될 수 있다. 주석이 달린 이미지(4)의 경계 박스(P1, P2, P3, P4)에 대하여 구별 동작이 실행된 후에, 도 12의 주석 데이터 정보가 얻어진다. 이 예에서, 주석 데이터 정보는 "사과, 바나나, 피자, 쿠키, 버터"라고 하는 표기, 주석이 달린 문서 이미지(4)를 식별하는 식별자, 및 정보가 정확하게 추출되었는지를 알아보기 위해 다른 구성요소들에 의해 사용될 수도 있는 좌표(P1, P2, P3, P4)를 포함할 것이다. 주석이 달린 이미지로부터의 추출된 이미지 데이터는 텍스트 내용을 결정하기 위해, 손으로 쓰여진 주석들의 경우에, OCR 또는 단어 인식 기술들을 사용하여 처리될 수 있다.

또한, 주석 데이터 정보가 추출된 후에, 주석 추출 모듈(119)은 선택적으로 단어 검출 알고리즘을 사용하여 주석 데이터를 처리할 수 있다.

단계(S800)에서, 클린 문서 복원 시스템(100)은 클린 문서 이미지(2) 및 추출된 주석 데이터(157)를 출력 디바이스(120)를 통해 메모리(106)에, 또는 클라이언트 단말(130)이나 프린터(132)와 같은 또 다른 출력 디바이스에 출력한다. 선택적으로, 클라이언트 단말(130), 프린터(132) 및/또는 임의의 다른 출력 디바이스는 인터넷과 같은 네트워크(134)를 통해 접속될 수 있다.

방법은 단계(S900)에서 종료된다.

2: 클린 문서 이미지 100: 클린 문서 복원 시스템
130: 클라이언트 단말 132: 프린터
134: 네트워크 157: 추출된 주석 데이터

Claims

주석이 달린 문서 이미지들로부터 문서를 복원하기 위한 컴퓨터-구현 방법에 있어서,
적어도 2개의 주석이 달린 문서 이미지들의 세트를 컴퓨터 메모리에 수신하는 단계로서, 상기 주석이 달린 문서 이미지는 각각 고정 요소들 및 주석 데이터를 포함하는, 상기 문서 이미지들의 세트를 컴퓨터 메모리에 수신하는 단계,
상기 세트의 상기 적어도 2개의 주석이 달린 문서 이미지의 각각에 대하여, 상기 주석 달린 문서 이미지의 세트의 적어도 하나의 다른 주석이 달린 문서 이미지에 대한 정렬을 실행하는 단계,
상기 정렬이 실행된 상기 세트의 상기 적어도 2개의 주석 달린 문서 이미지의 각각에 기초하여, 상기 정렬이 실행된 상기 세트의 상기 적어도 2개의 주석 달린 문서 이미지의 각각으로부터 유도된 상기 주석 데이터 중의 적어도 일부 주석 데이터가 모호하게 되는 일치 문서 이미지를 형성하는 단계,
상기 일치 문서 이미지에 기초하여 클린 문서를 형성하는 단계,
상기 주석 달린 문서 이미지의 세트로부터 주석 정보 데이터를, 상기 세트의 상기 적어도 2개의 주석 달린 문서 이미지 각각을 상기 클린 문서와 비교함으로써 추출하는 단계를 포함하고,
상기 주석 정보 데이터를 추출하는 단계는,
상기 클린 문서 내의 경계 박스 및 상기 세트의 상기 적어도 2개의 주석 달린 문서 이미지 각각 내에 대응하는 경계 박스를 식별하는 단계와,
상기 세트의 상기 적어도 2개의 주석 달린 문서 이미지 각각의 각 경계 박스 내에 포함되지만, 상기 클린 문서의 상기 대응하는 경계 박스에는 존재하지 않는 주석 화소를 추출하기 위해 다른 연산을 수행하는 단계와,
상기 세트의 상기 적어도 2개의 주석 달린 문서 이미지의 각각 및 상기 클린 문서의 각 경계 박스에 대하여, 크기와 위치, 상기 추출된 주석 화소, 및 상기 주석 달린 데이터가 유도된 상기 주석 달린 문서 이미지를 식별하는 식별자를 출력하는 단계를 포함하는, 주석이 달린 문서 이미지들로부터 문서를 복원하기 위한 컴퓨터-구현 방법.