KR101114196B1

KR101114196B1 - 고속 이미지 매칭에 의한 글로벌 국소화

Info

Publication number: KR101114196B1
Application number: KR1020050001559A
Authority: KR
Inventors: 왕지안; 첸리용; 왕큐이앙; 마지아오스; 당잉농
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-01-07
Filing date: 2005-01-07
Publication date: 2012-02-22
Also published as: US7463774B2; EP1553486A1; US7885465B2; CA2491843A1; CN100552694C; EP1553486B1; BRPI0500018A; US20050147299A1; MXPA05000420A; AU2005200013A1; CA2491843C; RU2347271C2; JP2005235178A; JP4651391B2; US20090016614A1; KR20050072704A; RU2004139194A; CN1648933A

Abstract

캡쳐된 이미지에 대응하는 문서의 일부분을 결정하기 위한 효율적인 기술이 제공된다. 패턴이 적어도 부분적으로 모호한 문서 영역이 식별된다. 이미지의 참조 화소가 선택되고, 화소와 패턴 간의 오프셋이 결정된다. 그리고나서, 참조 화소가 오직, 모두 식별된 영역 내에 있고 패턴으로부터 결정된 오프셋을 갖는 문서 내의 위치와만 비교되도록, 문서와 이미지의 화소별 비교가 수행된다. 그리고나서, 이미지 화소와 전자 문서 간의 최고 대응을 갖는 비교가 전자 문서에 대한 참조 화소의 위치를 식별한다.

문서 비교, 전자 문서, 이미지 캡쳐, 참조 화소, 마크 위치 식별

Description

고속 이미지 매칭에 의한 글로벌 국소화{GLOBAL LOCALIZATION BY FAST IMAGE MATCHING}

도 1은 본 발명의 실시예들과 조합하여 이용될 수 있는 컴퓨터의 일반적인 기술을 도시한 도면.

도 2a는 본 발명의 다양한 실시예에 따른 펜의 예를 예시한 도면이고, 도 2b는 본 발명의 다양한 실시예들에 의해 얻어질 수 있는 이미지의 해상도를 예시한 도면.

도 3a 내지 3i는 본 발명의 실시예에 따른 인코딩 시스템의 다양한 예들을 도시한 도면.

도 4는 문서의 일부분으로부터 캡쳐된 이미지의 회전을 결정하기 위해 인코딩 패턴이 채용될 수 있는 방법을 그래픽적으로 예시한 도면.

도 5는 문서의 일부분으로부터 캡쳐된 이미지의 회전을 결정하는 데 이용되는 공식을 예시한 도면.

도 6은 본 발명의 다양한 실시예에 따라, 캡쳐된 이미지를 문서의 일부분에 매칭하는 데 이용되는 툴을 예시한 도면.

도 7a-7c는 본 발명의 다양한 실시예에 따라, 캡쳐된 이미지를 문서의 일부분에 매칭하기 위한 방법을 기술하는 플로우차트를 예시한 도면.

도 8은 캡쳐된 이미지가 왜곡된 후 90도의 배수로 회전되는 방법의 예를 예시한 도면.

<도면의 주요 부호에 대한 간단한 설명>

603 : 이미지 수신 모듈

605 : 메이즈 패턴 분석 모듈

607 : 문서 이미지 분석 모듈

609 : 화소 오프셋 결정 모듈

611 : 이미지 비교 모듈

본 발명은 문서의 어느 부분이 그 부분의 캡쳐된 이미지와 대응하는 지를 결정하는 것에 관한 것이다. 본 발명의 다양한 양태들은 특히, 문서의 이미지를 캡쳐함으로써 문서 상의 마크 위치를 식별하는 데 적용가능하다.

컴퓨터 상에 저장된 전자 문서들은 서면 문서들에 비해 여러 가지 장점들을 제공하지만, 다수의 사용자들은 여전히 일부 태스크를 프린트된 버전의 전자 문서로 수행한다. 이들 태스크들은 예를 들어, 문서를 읽는 것과 주석을 붙이는 것을 포함한다. 주석에 있어서, 주석은 일반적으로, 사용자에 의해 인쇄된 문서 상에 바로 기록되기 때문에, 문서의 종이 버전은 특별한 중요성을 갖는다. 그러나, 인쇄된 버전의 문서에 바로 주석을 다는 것에 있어서의 문제들 중 하나는 나중에 주석을 전자 형태로 변환하기가 어렵다는 점이다. 이상적으로는, 수기로 된 주석이 종이 버전의 문서와 대응하는 것과 동일한 방식으로, 전자적으로 저장된 주석이 전자식 버전의 문서와 대응해야 한다.

이러한 대응은 통상 원래 또는 다른 사용자가 힘들게 주석을 달고 이들을 직접 컴퓨터에 입력하도록 요구한다. 일부 경우에, 사용자는 종이 문서에 기록된 주석을 전자적으로 스캐닝하여, 새로운 전자 문서를 생성한다. 이들 복수의 단계들은 프린트된 버전의 문서와 전자 버전의 문서 간의 조정이 반복하여 핸들링되기 어렵게 한다. 또한, 스캐닝된 이미지들은 자주 편집될 수 없다. 그러므로, 문서의 원래 텍스트로부터 주석을 분리하는 어떠한 방법도 없다. 이것은 주석을 이용하는 것을 어렵게 한다.

이러한 문제에 대처하기 위해, 펜이 개발되어, 프린트된 문서 상에 이 펜으로 기록된 주석을 캡쳐하였다. 이러한 타입의 펜은 사용자가 주석을 기록함에 따라 프린트된 문서 내의 이미지를 캡쳐하는 카메라를 포함한다. 그러나, 이러한 타입의 펜의 일부 예들에 있어서, 펜은 카메라에게 보이지 않는 잉크를 채용할 수 있다. 예를 들어, 펜은 비-카본 잉크 및 카메라에 대한 적외선 조명을 채용함으로써, 카메라가 잉크로 기록된 주석을 "보는" 것을 막을 수 있다. 이러한 타입의 펜에 있어서, 펜은 주석의 기록 동안에 펜에 의해 캡쳐된 이미지로부터 문서 상에 주석을 형성하는 펜 팁의 이동을 유추할 것이다. 그러나, 이미지와 원래의 전자 문서를 연관시키기 위해서는, 문서에 대한 이미지의 위치가 결정되어야 한다. 따라서, 이러한 타입의 펜은 종종 종이 상의 상이한 위치들을 고유하게 식별하는 패턴 을 포함하는 종이와 함께 채용된다. 이러한 패턴을 분석함으로써, 이미지를 수신하는 컴퓨터는 종이의 어느 부분(따라서, 인쇄된 문서의 어느 부분)이 이미지에서 캡쳐되었는지를 결정할 수 있다.

그러한 패턴된 종이 또는 다른 매체의 이용은 종이 문서 상의 기록된 주석이 전자 형태로 변환되어 적절하게 전자 버전의 문서와 연관될 수 있도록 하지만, 이러한 기술은 항상 신뢰할만한 것은 아니다. 예를 들어, 종이 상의 텍스트를 포함하는 문서는 패턴의 영역들을 모호하게 할 수 있다. 펜이 이들 영역들 중 하나의 이미지를 캡쳐하는 경우, 컴퓨터는 이미지에 의해 캡쳐된 문서의 일부분의 위치를 정확하게 결정하기 위해 패턴을 이용할 수 없다. 대신에, 컴퓨터는 화소에서 캡쳐된 문서의 일부분의 위치를 식별하는 다른 기술을 채용해야 한다. 예를 들어, 컴퓨터는 전자 문서와 캡쳐된 이미지의 화소별 비교를 수행할 수 있다.

화소별 비교는 통상 캡쳐된 이미지의 문서의 일부분을 식별하지만, 이러한 기술은 높은 처리 오버헤드를 가지고 있다. 이러한 기술을 수행하기 위해, 예를 들어, 캡쳐된 이미지가 왜곡되어 화소별로 문서 이미지와 매칭될 수 있도록, 예를 들면, 캡쳐된 이미지와 문서 이미지 간의 회전 변환 및 스케일이 통상 우선 추정되어야 한다. 변환이 알려져 있지 않은 경우, 모든 가능한 회전 및 스케일이 고려되어야 한다. 추가적으로, 이미지의 참조 화소가 선택된다. 그리고나서, 이미지 참조 화소가 전자 문서 내의 제1 위치와 비교되도록, 왜곡된 이미지의 모든 화소가 전자 문서 내의 대응하는 화소와 비교된다. 이러한 비교는 참조 화소가 결국 전자 문서 내의 각 위치와 비교되도록 반복되어야 한다. 이미지 화소와 전자 문서 간의 가장 높은 대응을 갖는 비교가 전자 문서에 대한 참조 화소의 위치를 식별하여, 이미지에 캡쳐된 문서의 일부분을 식별한다. 따라서, 전체 문서와 이미지의 화소별 비교를 수행할 필요없이 컴퓨터가 캡쳐된 이미지에서 문서의 일부분의 위치를 결정할 수 있게 하는 기술을 제공하는 것이 바람직할 것이다.

장점으로, 본 발명의 다양한 실시예들은 캡쳐된 이미지에 대응하는 문서의 일부분을 결정하는 효율적인 기술을 제공한다. 본 발명의 다양한 실시예에 따르면, 패턴이 적어도 부분적으로 모호한 문서 영역들이 식별된다. 이미지의 참조 화소가 선택되고, 캡쳐된 이미지의 회전 및 스케일이 추정되며, 화소와 패턴 간의 오프셋이 결정된다. 참조 화소가 오직, 모두가 식별된 영역들 내에 있고 패턴으로부터 결정된 오프셋을 갖는 문서 내의 위치들과만 비교되도록, 문서와 왜곡된 이미지의 화소별 비교가 수행된다. 이미지 화소와 전자 문서 간의 가장 높은 대응을 갖는 비교가 전자 문서에 대한 참조 화소의 위치를 식별한다. 이러한 기술을 이용하여, 문서 내의 상이한 위치들과 참조 화소의 비교가 회피될 수 있어, 이미지에서 캡쳐된 문서의 일부분의 위치를 결정하는 데 필요한 처리 오버헤드를 감소시킨다.

도 1은 본 발명의 다양한 양태들을 구현하는 데 이용될 수 있는 종래의 범용 디지털 컴퓨팅 환경의 기능 블록도를 예시하고 있다. 도 1에서, 컴퓨터(100)는 처리 유닛(110), 시스템 메모리(120), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 처리 유닛(110)에 결합시키는 시스템 버스(130)를 포함한다. 시스템 버스(130)는 메모리 버스 또는 메모리 컨트롤러, 주변장치 버스, 및 다양한 버스 아키텍쳐들 중 임의의 것을 이용하는 로컬 버스를 포함하는 여러 타입의 버스 구조 중 하나가 될 수 있다. 시스템 메모리(120)는 판독전용 메모리(ROM, 140) 및 랜덤 액세스 메모리(RAM, 150)를 포함한다.

기동 동안과 같이 컴퓨터(100) 내의 소자들 간의 정보 전달을 도와주는 기본 루틴을 포함하는 기본 입출력 시스템(160, BIOS)은 ROM(140)에 저장된다. 컴퓨터(100)는 하드 디스크(도시되지 않음)에 기록하거나 그것으로부터 판독하는 하드 디스크 드라이브(170), 분리형 자기 디스크(190)에 기록하거나 그것으로부터 판독하는 자기 디스크 드라이브(180), 및 CD ROM 또는 다른 광학 매체와 같은 분리형 광 디스크(192)에 기록하거나 그것으로부터 판독하는 광 디스크 드라이브(191)를 포함한다. 하드 디스크 드라이브(170), 자기 디스크 드라이브(180) 및 광 디스크 드라이브(191)는 하드 디스크 드라이브 인터페이스(192), 자기 디스크 드라이브 인터페이스(193), 및 광 디스크 드라이브 인터페이스(194)에 의해 각각 시스템 버스(130)에 접속된다. 드라이브 및 그 연관 컴퓨터-판독가능 매체는 퍼스널 컴퓨터(100)에게 컴퓨터 판독가능한 명령, 데이터 구조, 프로그램 모듈 및 다른 데이터의 비휘발성 저장을 제공한다. 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, 베르놀리 카트리지, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM) 등과 같이 컴퓨터에 의해 액세스가능한 데이터를 저장할 수 있는 다른 타입의 컴퓨터 판독가능 매체가 예로 든 오퍼레이팅 환경에서 이용될 수 있다는 것을 본 기술분야의 숙련자라면 잘 알고 있을 것이다.

오퍼레이팅 시스템(195), 하나 이상의 어플리케이션 프로그램(196), 다른 프로그램 모듈(197), 및 프로그램 데이터(198)를 포함하는 다수의 프로그램 모듈이 하드 디스크 드라이브(170), 자기 디스크(190), 광 디스크(192), ROM(140) 또는 RAM(150)에 저장될 수 있다. 사용자는 키보드(101), 및 포인팅 디바이스(102)와 같은 입력 디바이스를 통해 컴퓨터(100)에 명령과 정보를 입력한다. 다른 입력 디바이스(도시되지 않음)는 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 스캐너 등을 포함할 수 있다. 이들 및 다른 입력 디바이스들은 시스템 버스에 결합되는 직렬 포트 인터페이스(106)를 통해 처리 유닛(110)에 종종 접속되지만, 병렬 포트, 게임 포트 또는 범용 병렬 버스(USB)와 같은 다른 인터페이스에 의해 접속될 수도 있다. 또한, 이들 디바이스들은 적절한 인터페이스(도시되지 않음)를 통해 시스템 버스(130)에 직접 결합될 수 있다. 모니터(107) 또는 다른 타입의 디스플레이 디바이스는 비디오 어댑터(108)와 같은 인터페이스를 통해 시스템 버스(130)에 접속된다. 모니터뿐만 아니라, 퍼스널 컴퓨터는 통상 스피커 및 프린터와 같은 다른 주변장치 출력 디바이스(도시되지 않음)를 포함한다. 바람직한 실시예에서, 펜 디지타이저(165) 및 동반되는 펜 또는 스타일러스(166)는 손으로 쓴 입력을 디지털로 캡쳐하기 위해 제공된다. 펜 디지터이저(165)와 직렬 포트 간의 직접 접속이 도시되어 있지만, 실제로 펜 디지타이저(165)는 본 기술분야에 주지된 바와 같이 병렬 포트 또는 다른 인터페이스 및 시스템 버스(130)를 통해 처리 유닛(110)에 직접 결합될 수 있다. 또한, 디지타이저(165)가 모니터(107)와 분리되어 도시되어 있지만, 디지타이저(165)의 사용가능한 입력 영역이 모니터(107)의 표시 영역과 동일 공간에 걸치고 있는 것이 바람직하다. 또한, 디지타이저(165)는 모니터(107)에 통합될 수도 있고, 모니터(107)에 중첩되거나 또는 다르게 부착된 분리 디바이스로서 존재할 수도 있다.

컴퓨터(100)는 원격 컴퓨터(109)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용하여 네트워킹된 환경에서 동작할 수 있다. 원격 컴퓨터(109)는 서버, 라우터, 네트워크 PC, 피어 디바이스 또는 다른 공통 네트워크 노드일 수 있고, 도 1에는 단지 메모리 저장 디바이스(111)만이 예시되어 있지만, 일반적으로 컴퓨터(100)와 관련하여 상술한 구성요소들 중 다수 또는 모두를 포함한다. 도 1에 도시된 논리적 접속은 로컬 영역 네트워크(LAN, 112) 및 와이드 영역 네트워크(WAN, 113)를 포함한다. 그러한 네트워킹 환경은 사무실, 기업-와이드 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔한 것이다.

LAN 네트워킹 환경에서 이용되는 경우, 컴퓨터(100)는 네트워크 인터페이스 또는 어댑터(114)를 통해 로컬 네트워크(112)에 접속된다. WAN 네트워킹 환경에서 이용되는 경우, 퍼스널 컴퓨터(100)는 일반적으로 모뎀(115), 또는 인터넷과 같은 광역 네트워크(113)를 통한 통신을 확립하기 위한 다른 수단을 포함한다. 내부 또는 외부에 존재하는 모뎀(115)은 직렬 포트 인터페이스(106)를 통해 시스템 버스(130)에 접속된다. 네트워킹된 환경에서, 퍼스널 컴퓨터(100)에 관련하여 도시된 프로그램 모듈, 또는 그 일부는 원격 메모리 저장 디바이스에 저장될 수 있다.

도시된 네트워크 접속은 예로 든 것이며 컴퓨터들 간의 통신 링크를 설립 하는 다른 수단이 이용될 수 있다는 것은 자명하다. TCP/IP, 이더넷, FTP, HTTP, 블루투스, IEEE 802.11x 등과 같은 다양한 공지된 프로토콜들 중 하나의 존재가 추정되고, 시스템은 클라이언트-서버 구성에서 동작되어 사용자가 웹-기반 서버로부터 웹 페이지를 검색할 수 있게 한다. 다양한 종래 웹 브라우저들 중 임의의 하나가 이용되어 웹 페이지 상에 데이터를 표시하고 처리한다.

이미지 캡쳐 디바이스

본 발명의 다양한 실시예들이 이미지 시리즈에 의해 캡쳐되는 문서의 일부분의 위치를 결정하는 데 채용될 수 있다. 상기 언급된 바와 같이, 이미지에서 캡쳐된 문서의 일부분의 위치 결정은 종이, 표시 스크린 또는 문서를 표시하는 다른 매체와의 사용자 상호작용 위치를 확인하는 데 이용될 수 있다. 본 발명의 일부 실시예들에 따르면, 이미지는 종이 상에 잉크를 기록하는 데 이용되는 잉크 펜에 의해 얻어질 수 있다. 본 발명의 다른 실시예에 있어서, 펜은 문서를 표시하는 디지타이저의 표면 상에 전자 잉크를 "기록"하는데 이용되는 스타일러스일 수 있다.

도 2a 및 2b는 본 발명의 다양한 실시예에 따라 채용될 수 있는 펜(201)의 예를 도시하고 있다. 펜(201)은 팁(202) 및 카메라(203)를 포함한다. 팁(202)은 잉크 저장소를 포함하거나 그렇지 않을 수도 있다. 카메라(203)는 표면(207)으로부터 이미지(204)를 캡쳐한다. 펜(201)은 파선 박스(206)로 표시된 바와 같이, 추가 센서 및/또는 프로세서를 더 포함할 수 있다. 또한, 이들 센서 및/또는 프로세서(206)는 (예를 들어, 블루투스 또는 다른 무선 프로토콜을 통해) 정보를 다른 펜(201) 및/또는 퍼스널 컴퓨터에 송신하는 능력을 포함할 수 있다.

도 2b는 카메라(203)에 의해 본 이미지를 나타낸다. 하나의 예시적인 예에서, 카메라(203)에 의해 캡쳐된 이미지의 해상도는 NxN 화소(여기에서, N=32)이다. 따라서, 도 2b는 32 화소 폭 x 32 화소 넓이의 이미지 예를 도시하고 있다. N의 크기는 조정가능하고, 더 큰 N 값은 더 높은 이미지 해상도를 제공한다. 또한, 카메라(203)에 의해 캡쳐된 이미지가 예시적 목적을 위해 정사각형으로 도시되어 있지만, 카메라의 시야는 본 기술분야에 주지되어 있는 바와 같이 다른 형태를 포함할 수 있다.

카메라(203)에 의해 캡쳐된 이미지는 일련의 이미지 프레임 {I_i}로서 정의되고, I_i는 샘플링 시간 t_i에 펜(201)에 의해 캡쳐된다. 샘플링 레이트는 시스템 구성 및 성능 요구에 따라 크거나 작을 수 있다. 캡쳐된 이미지 프레임의 크기는 시스템 구성 및 성능 요구에 따라 크거나 작을 수 있다. 또한, 카메라(203)에 의해 캡쳐된 이미지는 처리 시스템에 의해 바로 이용될 수도 있고, 프리-필터링을 당할 수도 있다는 것은 자명하다. 이러한 프리-필터링은 펜(201)에서 일어날 수도 있고, 펜(201)의 외부(예를 들면, 퍼스널 컴퓨터에서)에서 일어날 수도 있다.

도 2a는 위치(204)로부터의 패턴의 이미지(210)가 형성되는 이미지 면(209)을 도시하고 있다. 오브젝트 면(207) 상의 패턴으로부터 수신된 광은 렌즈(208)에 의해 포커싱된다. 본 발명의 다양한 실시예에 따르면, 렌즈(208)는 단일 렌즈 또는 다중-부분 렌즈 시스템일 수 있지만, 여기에서는 단순화를 위해 단일 렌즈로서 표시된다. 이미지 캡쳐 센서(211)는 이미지(210)를 캡쳐한다.

이미지 센서(211)는 이미지(210)를 캡쳐링할 만큼 충분히 크다. 다르게는, 이미지 센서(211)는 위치(212)에서 펜 팁(202)의 이미지를 캡쳐할 만큼 충분히 크다. 참고로, 위치(212)에서의 이미지가 가상적인 펜 팁으로서 참조된다. 유의할 점은, 이미지 센서(211)에 대한 가상적인 펜 팁 위치는 펜 팁, 렌즈(208) 및 이미지 센서(211) 간의 불변하는 관계로 인해 고정된다는 점이다.

상기 언급된 바와 같이, 펜(201)은 일반적으로, 종이에 프린트된 문서와 같이 매체와 함께 이용되어, 매체 상의 위치를 식별하기 위한 패턴을 표시한다. 장점으로, 이러한 패턴은 카메라(203)에 의해 캡쳐된 이미지(210)를 매체의 외관에 대응하는 형태로 변환하는 데 이용된다. 예를 들어, 이하의 변환 F_S→P는 카메라(203)에 의해 캡쳐된 이미지(210)를 한 장의 종이 상의 실제 이미지로 변환한다.

L_종이= F_S→P(L_센서)

기록하는 동안, 펜 팁 및 종이는 동일한 면 상에 있다. 따라서, 가상 펜 팁으로부터 실제 펜 팁으로의 변환은 또한 F_S→P가 된다.

L_펜팁= F_S→P(L_{가상-펜팁})

변환 F_S→P는 유사(affine) 변환으로서 추정될 수 있다. 이것은 F_S→P의 추 정으로서 이하와 같이 단순화된다.

여기에서, θ_x, θ_y, s_x, 및 s_y는 위치(204)에서 캡쳐된 패턴의 2개의 방향의 회전 및 스케일이다. 또한, 캡쳐된 이미지를 대응하는 종이 상의 실제 이미지와 매칭함으로써 F'_S→P를 재정의할 수 있다. "재정의한다"는 것은 재귀적 방법으로 지칭되는 일종의 최적화 알고리즘에 의해 변환 F_S→P의 더 정확한 추정을 얻는 다는 것을 의미한다. 재귀적 방법은 매트릭스 F'_S→P를 초기값으로 다룬다. 재정의된 추정은 S와 P 간의 변환을 더 정확하게 기술한다.

가상적인 펜 팁의 위치는 컬리브레이션에 의해 훨씬 더 정확하게 결정될 수 있다. 가상적인 펜 팁의 위치를 컬리브레이션하기 위해, 사용자는 펜 팁(202)을 종이 상의 고정된 위치 L_펜팁 상에 배치한다. 다음으로, 사용자는 펜을 기울여, 카메라(203)가 다른 펜 포즈로 이미지 시리즈를 캡쳐할 수 있도록 한다. 캡쳐된 각 이미지에 대해, 변환 F_S→P가 얻어진다. 이러한 변환으로부터, 가상 펜 팁 L_{가상-펜팁}의 위치를 얻을 수 있다.

L_{가상-펜팁}= F_P→S(L_펜팁)

여기에서, L_펜팁은 (0,0)으로 초기화되고, F_P→S=(F_S→P)^-1이다.

각 이미지로부터 얻어진 L_{가상-펜팁}을 평균함으로써, 가상적인 펜 팁의 위치 L_{가상-펜팁}이 결정될 수 있다. L_{가상-펜팁}에 있어서, L_펜팁의 더 정확한 추정을 얻을 수 있다. 수번의 반복 후에, 가상적인 펜 팁 L_{가상-펜팁}의 정확한 위치가 결정될 수 있다.

매체 상에서 위치를 식별하기 위한 패턴

상기 언급된 바와 같이, 본 발명의 다양한 실시예들이 캡쳐된 이미지에 대응하는 문서의 일부분을 결정하는 데 채용될 수 있고, 문서를 표시하는 매체는 매체 상의 상이한 위치들을 식별하기 위한 패턴을 포함한다. 그러므로, 패턴은 표시된 형태에서 인코딩된 데이터 스트림인 것으로 간주될 수 있다. 패턴을 표시하는 매체는 프린트된 종이(또는 다른 물리적 매체)일 수도 있고, 다르게는 다른 이미지 또는 이미지 세트와 조합하여 인코딩된 데이터 스트림을 투사하는 디스플레이일 수도 있다. 예를 들면, 인코딩된 데이터 스트림은 종이 상의 물리적 이미지 또는 표시된 이미지를 중첩하는 이미지로서 표현될 수도 있고, (펜에 의해 캡쳐된 임의의 이미지 부분이 표시 스크린 상에 위치 조정가능하도록) 표시 스크린과 조합되거나 이에 중첩되는 물리적인 인코딩된 패턴(즉, 변경불가능한 패턴)일 수도 있다.

도 3a는 제1 비트 및 제2 비트를 매체 상의 위치를 식별하기 위한 패턴으로 인코딩하는 인코딩 기술의 하나의 예를 도시하고 있다. 제1 비트(301, 예를 들어, '1'값을 가짐)는 검정 잉크의 칼럼으로 표현된다. 제2 비트(302, 예를 들면, "0"을 가짐)는 검정 잉크의 로우로 표현된다. 그러나, 임의의 컬러 잉크가 다양한 비트들을 표현하는 데 이용될 수 있다는 것은 자명하다. 선택되는 잉크 컬러에서의 유일한 요구조건은, 이미지 캡쳐 시스템에 의해 차별화될 수 있도록 매체의 배경과 현저한 대조를 제공하는 것이다. 이러한 예에서, 도 3a의 비트들은 3x3 도트 매트릭스로 표현된다. 매트릭스의 크기는 매체의 이미지를 캡쳐하는 데 이용되고 있는 이미지 캡쳐 시스템의 크기 및 해상도에 기초하여, 임의의 원하는 크기로 변형될 수 있다.

0 및 1의 값들을 갖는 비트의 다른 표현은 도 3c 내지 도 3e에 도시되어 있다. 도 3a 내지 도 3e의 샘플 인코딩에 대해 1 또는 0의 표현이 아무런 영향없이 스위칭될 수 있다는 것은 자명하다. 도 3c는 2개의 로우 또는 칼럼을 상호배치된 배열로 차지하는 비트 표현을 도시하고 있다. 도 3d는 대시(dash) 형태로 된 로우 및 칼럼 화소의 다른 배열을 도시하고 있다. 마지막으로, 도 3e는 불규칙적인 간격 포맷(예를 들면, 2개의 검정 도트에 이어서 하나의 빈 도트)의 칼럼 및 로우의 화소 표현을 도시하고 있다.

유의할 점은, 비-수평적 및 비-수직적 배열로의 기저 그리드의 회전(예를 들면, 패턴의 정확한 방향이 45도인 경우)을 포함하여, 다른 그리드 배향이 가능하다는 점이다. 비-수평적 및 비-수직적 배열을 이용하는 것은, 사용자가 다른 것들 앞에서 수평 및 수직 패턴을 보는 경향이 있으므로, 사용자로부터 가시적 산란을 제거한다는 유망한 장점을 제공할 수 있다. 그러나, 단순화의 목적상, 그리드의 방향(기저 그리드의 수평, 수직 및 임의의 다른 요구되는 회전)은 집합적으로, 선 정된 그리드 방향으로 지칭된다.

다시, 도 3a를 참조하면, 하나의 비트가 3x3 요소의 매트릭스로 표현되고 촬상 시스템이 3x3 영역에서 하나의 검정 로우 및 2개의 백색 로우를 검출한 경우, 그 영역은 0(또는 다르게는 1)의 값으로 검출된다. 3x3 영역이 검정 칼럼 및 2개의 백색 칼럼을 갖는 것으로 검출된 경우, 그 영역은 1(또는 다른게는 0)의 값으로 검출된다. 따라서, 도 2b에서 이미지(210)의 크기가 32x32 화소이고 각 인코딩 유닛 크기가 3x3 화소인 경우, 캡쳐된 인코딩된 유닛의 개수는 대략 100 유닛이 된다. 인코딩 유닛 크기가 5x5라면, 캡쳐된 인코딩된 유닛의 개수는 대략 36이 된다.

도 3a에 도시된 바와 같이, 하나 이상의 화소 또는 도트가 1 비트를 나타내는 데 이용될 수 있다. 하나의 비트를 나타내는 데 단일 화소(또는 도트)를 이용하는 것은 문제가 되기 쉽다. 먼지, 종이의 주름, 비-평면인 표면 등은 데이터 유닛의 단일-요소 표현을 판독하는 데 어려움을 유발한다. 그러나, 비트들을 표현하는 데 복수의 요소를 이용함에 있어서도, 문서에서 타이핑기록된 텍스트와 같이 패턴을 가지고 매체 상에 표시되는 다른 텍스트는 패턴에서 하나 이상의 비트를 여전히 애매하게 한다.

하나의 비트 스트림이 도 3b의 그래픽 패턴(303)을 생성하는 데 이용된다. 그래픽 패턴(303)은 12개의 로우 및 18개의 칼럼을 포함한다. 특히, 로우 및 칼럼은 비트 표현(301, 302)을 이용하여 그래픽 패턴(303)으로 변환되는 비트 스트림에 의해 형성된다. 따라서, 도 3b의 패턴(303)은 이하의 비트 표현을 갖는 것으로 보 여질 수 있다.

다양한 비트 스트림이 도 3b에 도시된 이미지(303)를 생성하는 데 이용될 수 있다. 예를 들어, 1 및 0의 랜덤 또는 의사-랜덤 시퀀스가 이용될 수 있다. 비트 시퀀스는 로우로, 칼럼으로, 대각으로, 또는 후속하는 임의의 다른 공식적인 순서로 배열될 수 있다. 예를 들어, 상기 매트릭스는 좌측에서 우측으로, 그리고 아래로 진행하면 이하의 비트 스트림으로 형성된다.

0100 0111 0110 0100 1000 1110 0111 0100 1100.

상기 매트릭스는 위에서 아래로, 그리고 우측으로 진행하면 아하의 비트 스트림으로 형성된다.

0101 1100 0011 0010 0110 1001 1001 1110 0010.

상기 매트릭스는 대각으로 진행한 후 래핑된 경우 이하의 비트 스트림을 나타낸다.

0110 0000 0101 0101 1000 0011 1111 1010 1010.

도 3b는 또한 이미지(303)로부터의 화소 블록의 확대를 포함한다. 확대(304 내지 311)는 5x5 화소 블록을 도시하고 있다. 화소 블록(304)은 백색 로우들 간의 하나의 검정 로우를 도시하고 있다. 화소 블록(305)은 백색 칼럼들 간의 하나의 검정 칼럼을 도시하고 있다. 화소 블록(306)은 기저 좌측 코너를 도시하고 있다. 화소 블록(307)은 상부 우측 코너를 도시하고 있다. 화소 블록(308)은 좌측 상에서 절반 검정 로우를 갖는 검정 칼럼을 도시하고 있다. 화소 블록(309)은 그 로우 위에서 절반 검정 칼럼을 갖는 검정 로우를 도시하고 있다. 화소 블록(310)은 절반 검정 로우를 도시하고 있다. 화소 블록(311)은 절반 검정 칼럼을 도시하고 있다. 화소 블록의 조합을 분석하면, 모든 화소 조합이 화소 블록(304 내지 311)에서 발견되는 이미지 세그먼트에 의해 형성될 수 있다는 것은 자명하다. 어떠한 영역도 메이즈(maze)에 의해 모든 4개 측면 상에서 완전히 폐쇄되지 않은 상태에서, 라인 세그먼트가 메이즈를 형성하도록 나타나므로, 도 3b에 도시된 패턴의 타입은 "메이즈" 패턴으로 지칭될 수 있다.

이것만으로, 도 3f 내지 도 3i에 도시된 화소의 4개의 "코너" 조합들 각각은 이미지(303)에 도시된 메이즈 패턴으로 나타날 것으로 예상된다. 그러나, 도 3b에 보여지는 바와 같이, 단지 3개 타입의 코너들만이 실제로 8개의 화소 블록(304 내지 311)에 존재한다. 이러한 예에서, 도 3f에 도시된 바와 같이, 화소의 코너 조합은 없다. 이러한 방식으로 코너 타입을 제거하기 위해 이미지 세그먼트(301 및 302)를 선택함으로써, 없어진 코너 타입에 기초한 캡쳐된 이미지의 방향이 결정될 수 있다.

예를 들어, 도 4에 도시된 바와 같이, 카메라(203)에 의해 캡쳐된 이미지(401)가 분석되어, 실제로 이미지(401)로 표현되는 위치에 대해 해석가능하도록 그 방향이 결정된다. 우선, 이미지(401)가 검토되어, 이미지(401)의 어느 화소가 메이즈 패턴을 형성하는 지를 결정하고, 패턴의 화소가 수평 및 수직으로 정렬되도록 이미지를 회전하는 데 필요한 각도 θ를 결정한다. 유의할 점은, 상기 설명된 바와 같이, 본 발명의 다른 실시예들에 있어서, 비-수평적 및 비-수직적 배열(예를 들면, 패턴의 정확한 방향이 45도인 경우)로의 기저 그리드의 회전을 포함하여, 다른 그리드 정렬이 가능하다는 점이다.

다음으로, 이미지(401)가 분석되어 어느 코너가 분실되어 있는 지를 결정한다. 이미지(401)를 디코딩(403)을 준비하는 이미지로 회전시키는 데 필요한 회전량 o는 o=(θ+회전량{어느 코너가 분실되었는 지에 의해 정의됨})로 도시된다. 회전량은 도 5의 등식으로 나타난다. 다시 도 4를 참조하면, 각도 θ는 우선 화소의 수평 및 수직 (또는 다른 선정된 그리드 방향) 배열에 도달하는 화소의 레이아웃에 의해 결정되고, 이미지는 참조번호 402로 도시된 바와 같이 회전된다. 그리고나서, 분석이 수행되어 분실된 코너를 결정하고, 이미지(603)로 회전된 이미지(602)를 결정하여 디코딩을 위한 이미지를 설정한다. 여기에서, 이미지는 이미지(603)가 정확한 방향을 가지고 디코딩에 이용될 수 있도록 반시계 방향으로 90도 회전된다.

회전각 θ가 이미지(601)의 회전 이전 또는 이후에 적용되어 분실된 코너를 설명한다는 것은 자명하다. 또한, 캡쳐된 이미지의 잡음을 고려할 때, 모든 4개 타입의 코너들이 존재할 수 있다는 것은 자명하다. 따라서, 본 발명의 다양한 실시예들에 있어서, 각 타입의 코너 개수가 계수되고, 코너의 최소 개수를 갖는 타입이 분실된 코너 타입인 것으로 결정될 수 있다.

최종적으로, 이미지(403)의 코드가 판독되어, 이미지(303)를 생성하는 데 이용되는 원래의 비트 스트림과 상관된다. 상관은 다수의 방식으로 수행된다. 예를 들어, 복원된 비트 스트림이 원래의 비트 스트림내의 모든 다른 비트 스트림 조각과 비교되는 재귀적 접근법에 의해 수행될 수 있다. 두 번째로, 예를 들면 2개의 비트 스트림들 간의 해밍 거리(hamming distance)를 이용함으로써, 복원된 비트 스트림과 원래의 비트 스트림 간의 통계적 분석이 수행될 수 있다. 원래의 비트 스트림 내에서 복원된 비트 스트림의 위치를 결정하는 데 다양한 접근법이 이용될 수 있다는 것은 자명하다.

상기로부터, 상기 언급된 메이즈 패턴은 한 장의 종이 또는 디지타이저의 디스플레이와 같은 매체의 표면 상에 정보를 인코딩하는 데 이용될 수 있다. 이러한 정보는 펜(201)의 카메라(203)에 의해 하나 이상의 이미지에서 캡쳐되어 디코딩될 수 있다. 매체의 표면에 인코딩될 수 있는 하나의 특별히 유용한 타입의 정보는 위치 정보이다. 비트 스트림의 일부가 매체 상에서 반복되지 않는 경우, 컴퓨터(101)는 특정 비트 스트림을 포함하는 문서의 일부분을 결정할 수 있다.

패턴의 완전한 부분이 이미지에서 캡쳐되는 경우, 컴퓨터(101)는 상기 설명된 바와 같이, 이미지에서 캡쳐된 문서의 일부분을 결정할 수 있다. 그러나, 일부 경우에, 패턴의 일부가 모호해질 수 있다. 예를 들어, 매체가 타이프 기록된 텍스트를 포함하는 문서인 경우, 텍스트는 패턴의 하나 이상의 비트들을 부분적으로 모호하게 한다. 상기 예(각 비트가 3x3 화소 매트릭스로 구성되고 카메라(203)의 해상도가 32x32 화소인 경우)에 있어서, 컴퓨터(101)는 60개 이상의 비트들이 이미지로부터 식별될 수 있는 경우에 이미지에서 캡쳐된 문서의 일부분의 위치를 결정할 수 있을 것이다. 그러나, 이미지에서 36개 내지 60개의 비트들만이 식별된 경우에도, 컴퓨터(101)는 여전히 이미지에서 캡쳐된 문서의 일부분의 위치를 결정할 수 있다. 또한, 단지 35개 이하의 비트들만이 이미지로부터 식별될 수 있는 경우에, 컴퓨터(101)는 이미지에서 캡쳐된 문서의 일부분을 결정할 수 없을 것이다.

고속 이미지 매칭에 의한 국소화

상기 언급된 바와 같이, 이미지로부터 불충분한 개수의 비트가 식별된 경우, 컴퓨터(101)는 문서의 어느 부분이 이미지로부터 캡쳐되었는 지를 결정할 수 없다. 대신에, 컴퓨터(101)는 문서의 어느 부분이 이미지에서 캡쳐되었는 지를 결정하기 위해 다른 기술을 채용해야 한다. 캡쳐된 이미지와 문서 이미지 간의 변환(예를 들면, 회전, 스케일 등)은 우선, 캡쳐된 이미지가 전자 문서 이미지와 동일한 회전 및 스케일을 가지도록 왜곡될 수 있도록 추정되어야 한다. 변환이 알려져 있지 않은 경우, 모든 가능한 회전 및 스케일들이 고려되어야 한다. 따라서, 문서가 전자 형태로 저장되어 있는 경우, 컴퓨터(101)는 전자 문서 내의 모든 위치와 왜곡된 이미지의 모든 화소의 화소별 비교를 수행할 수 있다. 그러나, 이러한 기술은 매우 많은 비교 프로세스를 필요로 한다. 예를 들어, 전자 문서의 한 페이지는 1410x2019 화소를 포함하고, 따라서 2,889,090(1410x2019)회의 비교가 필요하다. 뿐만 아니라, 각 비교 프로세스는 매우 많은 개수의 화소들을 비교한다. 예를 들어, 캡쳐된 이미지는 1024(32x32)개의 화소들을 포함할 수 있다. 그러므로, 이러한 기술은 엄청난 양의 프로세서 오버헤드를 수반하고, 시간이 많이 소비된다.

대신에, 컴퓨터(101)는 본 발명의 다양한 실시예에 따라 고속 이미지 매치 를 수행함으로써 이미지를 국소화할 수 있다. 이하에 더 상세하게 설명되는 바와 같이, 캡쳐된 이미지에서 참조 화소가 선택된다. 참조 화소에 대응할 수 없는 전자 문서 내의 이들 위치들(예를 들면, 화소들)은 제거된다. 컴퓨터(101)는 참조 화소가 제거되지 않은 문서 내의 위치들과만 비교되도록, 문서와 이미지의 화소별 비교를 수행한다. 이와 같이, 이미지에 의해 캡쳐된 문서 위치가 식별될 수 있다.

도 6은 본 발명의 다양한 실시예에 따라 고속 이미지 매치를 수행하는 데 채용될 수 있는 툴(601)을 예시하고 있다. 툴(601)은 이미지 수신 모듈(603), 메이즈 패턴 분석 모듈(605), 문서 이미지 분석 모듈(607), 화소 오프셋 결정 모듈(609), 및 이미지 비교 모듈(611)을 포함한다. 이하에 상세하게 설명되는 바와 같이, 이미지 수신 모듈(603)은 물리적 매체 상에 표시되는 문서의 일부분의 이미지를 수신하고, 이는 상기 상세하게 설명된 메이즈 패턴과 같은 패턴을 포함한다. 메이즈 패턴 분석 모듈(605)은 이미지를 분석하여, 상기 상세하게 설명된 메이즈 패턴과 같은 이미지 패턴의 회전과 스케일을 얻는다. 문서 이미지 분석 모듈(607)은 전자 버전의 문서를 분석하여, 예를 들면 문서 내의 텍스트 또는 그림에 의해 패턴이 부분적으로 모호하게 된 곳을 결정한다. 특히, 본 발명의 예시된 실시예들에 있어서, 문서 이미지 분석 모듈(607)은 전자 버전의 문서를 분석하여, 패턴이 너무 모호해서 신뢰할만한 위치 정보를 제공할 수 없는 영역을 결정한다.

화소 오프셋 결정 모듈(609)은 캡쳐된 이미지의 참조 화소 및 캡쳐된 이미지의 패턴 간의 오프셋을 결정하는 한편, 이미지 비교 모듈(611)은 왜곡된 이미지(메이즈 패턴 분석 모듈(605)로부터 얻어진 회전 및 스케일 정보에 의해 왜곡됨)와 전자 버전의 문서를 비교한다. 더 구체적으로는, 이미지 비교 모듈(611)은 식별된 모호한 영역 내에 있고 결정된 오프셋을 갖는 문서 위치에 기초하여 전자 버전의 문서와 왜곡된 이미지의 화소별 비교를 수행한다. 예시된 실시예에 있어서, 하나 이상의 모듈(603 내지 611)은 컴퓨터(101)와 같은 컴퓨터 상에서 실행되는 명령에 의해 구현될 수 있다. 그러나, 본 발명의 또 다른 실시예에 있어서, 하나 이상의 모듈(603 내지 611)이 하드웨어 컴포넌트를 이용하여 구현될 수 있다.

도 7a 내지 도 7c는 예를 들면 툴(601)과 같은 툴을 이용하여 본 발명의 다양한 예들에 따라 채용될 수 있는 고속 이미지 매칭의 방법을 예시하고 있다. 단계 701에서, 이미지 수신 모듈(603)은 물리적 매체 상에 표시되는 문서의 일부분의 이미지를 수신한다. 매체는 예를 들면, 한 장의 종이, 문서를 표시하고 펜(201)으로부터 입력을 수신하는 디지타이징 디스플레이, 또는 임의의 다른 타입의 물리적 매체일 수 있다. 예시된 실시예에 있어서, 수신된 이미지는 위치 결정되지 않은 이미지이고, 달리, 다른 기술을 이용하여 문서의 특정 부분과 연관될 수 없다.

다음으로, 단계 703에서, 이미지에 대한 참조 화소가 선택된다. 본 발명의 다양한 실시예들에 있어서, 참조 화소는 이미지의 중앙 화소가 될 수 있다. 이하의 설명으로부터 명백해지는 바와 같이, 참조 화소로서 중앙 화소를 이용하는 것은, 프로세스와 연관된 일부 계산이 더 쉽게 결정되도록 한다. 그러나, 본 발명의 다른 실시예들에 있어서, 참조 화소는 임의의 원하는 화소가 될 수 있다. 예를 들어, 참조 화소는 대안적으로, 이미지의 상부 최좌측 화소, 이미지의 하부 최좌측 화소, 이미지의 상부 최우측 화소, 또는 이미지의 하부 최우측 화소가 될 수 있다.

다음으로, 문서 이미지 분석 모듈(607)은 전자 버전의 문서를 분석하여, 패턴이 부분적으로 모호하게 된 문서 영역(이하에서는, 편의상 "모호 영역"으로 지칭됨)을 결정한다. 본 발명의 다양한 실시예들에 따르면, 문서 이미지 분석 모듈(607)은 패턴이 임계량만큼 모호하게 된 문서 내의 모호 영역을 구체적으로 식별한다. 더 구체적으로는, 문서 이미지 분석 모듈(607)은 컴퓨터(101)가 이들 영역에서 위치 정보를 결정할 수 없을 만큼 많은 패턴이 모호한 문서 내의 영역들을 식별한다.

상기 상세하게 설명된 바와 같이, 본 발명의 다양한 예들은 패턴의 각 비트가 3x3 화소 매트릭스로 구성된 패턴을 채용한다. 또한, 본 발명의 일부 실시예들에 있어서, 패턴된 문서의 일부분의 이미지를 캡쳐하는 데 이용되는 카메라(203)의 해상도는 32x32 화소가 된다. 이러한 배열에 있어서, 이미지를 분석하는 컴퓨터(101)는 60개 이상의 비트들이 이미지로부터 식별될 수 있는 경우에, 이미지에서 캡쳐된 문서의 일부분의 위치를 결정할 수 있을 것이다. 그러나, 단지 59개의 비트 이하가 이미지에서 식별될 수 있는 경우, 컴퓨터(101)는 이미지에서 캡쳐된 문서의 일부분의 위치를 결정할 수 없다. 따라서, 문서의 일부분의 이미지가 이러한 배열로 식별될 수 없다면, 이미지는 문서에서 패턴 비트들 중 59개 이하의 비트를 제외한 모두가 모호한 32x32 화소 영역을 갖는 것이 틀림없다. 59개 이하의 모호하지 않은 비트들을 갖는 문서의 32x32 화소 영역을 식별함으로써, 문서 이미지 분석 모듈(607)은 이미지의 소스로서 문서 내의 다른 영역(즉, 60개 이상의 비트들이 표시되는 영역)을 제거할 수 있다.

유의할 점은, 문서 이미지 분석 모듈(607)은 단계 703에서 선택된 참조 화소에 대한 문서 내의 모호한 영역을 식별할 것이라는 점이다. 예를 들어, 중앙 화소가 참조 화소로서 선택된 경우, 모호한 영역은 주위 32x32 화소 어레이가 59개 이하의 모호하지 않은 비트를 갖는 화소로 구성될 것이다. 마찬가지로, 참조 화소가 이미지에서 상부 최우측 화소인 경우, 모호한 영역은 문서 화소들 중 아래 및 좌측의 32x32 화소 어레이가 59개 이하의 모호하지 않은 비트를 갖는 문서 화소로 구성될 것이다. 한편, 참조 화소가 이미지에서 하부 최우측 화소인 경우, 모호한 영역은 위 및 우측의 32x32 화소 매트릭스가 59개 이하의 모호하지 않은 비트들을 갖는 문서 화소들로 구성될 것이다.

단계 706에서, 메이즈 패턴 분석 모듈(605)은 문서에 대한 수신된 이미지의 회전 및 스케일을 결정하고, 화소 오프셋 결정 모듈(609)은 패턴으로부터 참조 화소의 오프셋을 결정한다. 단계 707에서, 수신된 이미지는 회전 및 스케일 정보를 이용하여 왜곡된다. 예를 들어, 상기 상세하게 설명된 바와 같이, 사용자는 카메라(203)를 포함하는 펜(201)을 각도지게 하고 회전시켜, 결과적인 이미지가 실제 문서에 대해 불규칙적인-형태가 되도록 한다. 따라서, 캡쳐된 이미지의 각 화소의 정확한 위치는 문서 내의 개별 위치를 지정하는 데 이용되는 좌표값들로 번역되어야 한다. 예를 들어, 이미지가 32x32 화소들을 가지고 있는 경우, 왜곡 프로세스는 문서 좌표 시스템에 따라 모든 1024 화소들의 상대 위치 좌표를 계산할 것이다. 그러므로, 왜곡 연산은 유사(affine) 변환이고, 변환 매트릭스를 이용하여 수행된 다. 이것은 이미지의 회전 및 스케일 변경과 관련된다.

이미지는 상기 상세하게 설명된 바와 같이 이미지의 메이즈 패턴 분석으로부터 결정된 스케일 및 회전에 의해 왜곡된다. 이전에 언급된 바와 같이, 패턴은 서로에 수직이고 일정한 거리로 떨어져 있는 라인들로 구성된다. 따라서, 이미지의 패턴을 식별함으로써, 메이즈 패턴 분석 모듈(605)은 x 및 y 차원을 따라 이미지 패턴과 문서 패턴 간의 각도 차이를 결정할 수 있다. 메이즈 패턴 분석 모듈(605)은 또한, 이미지 패턴의 간격과 문서 패턴의 간격 간의 차이를 결정할 수 있다. 이들 차이들에 기초하여, 메이즈 패턴 분석 모듈(605)은 이미지를 왜곡시키는 변환을 결정하여 문서의 좌표 시스템에 대응시킨다.

상기 언급된 바와 같이, 코너 형태의 타입과 같은 패턴의 다른 특징들은 문서에 대한 이미지의 절대 각도 방향을 식별하는 데 이용될 수 있다. 그러나, 이들 다른 특징들의 발생(또는 부재)이 이미지에서 모호해진 경우, 메이즈 패턴 분석 모듈(605)은 문서에 대한 이미지의 절대 각도 방향을 결정할 수 없다. 이러한 상황에서, 화소 오프셋 결정 모듈(611)은 90도 간격으로 4번 왜곡 프로세스를 반복하여, 문서 좌표에 대해 최상의 방향을 갖는 왜곡이 식별되는 것을 보장한다. 예를 들어, 초기 이미지(801)가 도 8에 도시되어 있다. 또한, 도 8은 추가 회전없는(즉, 0도의 왜곡 회전을 갖는) 이미지의 제1 왜곡(803), 및 90도의 추가 회전을 갖는(즉, 90도의 왜곡 회전을 갖는) 이미지의 제2 왜곡(805)을 도시하고 있다. 또한, 도 8은 180도의 추가 회전을 갖는(즉, 180도의 왜곡 회전을 갖는) 이미지의 제3 왜곡(807), 및 270도의 추가 회전을 갖는(즉, 270도의 왜곡 회전을 갖는) 이미지 의 제4 왜곡(809)을 도시하고 있다. 이하에 상세하게 설명되는 바와 같이, 왜곡된 이미지의 각 회전은 문서와 비교될 것이다.

다음으로, 화소 오프셋 결정 모듈(609)은 참조 화소로부터 패턴의 가장 근접한 셀까지의 거리를 결정한다. 더구나, (예시된 예들에서와 같이, 문서 내의 위치가 직교 좌표 시스템을 이용하여 식별된 경우) 이러한 거리는 x-방향 및 y-방향 양쪽으로 계산된다. 원래 이미지에서 메이즈 패턴의 오프셋이 (dx, dy)로서 정의되고 왜곡 매트릭스가 M인 경우, 왜곡된 이미지에서 패턴으로부터의 참조 화소의 오프셋{(dx₁, dy₁)으로 지칭됨}은 (dx ₁ , dy ₁ )^T= M(dx, dy)^T로서 계산될 수 있고, 여기에서 T는 매트릭스 상의 "전치" 연산자이다.

일단 전자 버전의 문서에 대해 좌표 시스템에 대한 오프셋이 결정되면, 단계 709에서, 화소 오프셋 결정 모듈(609)은 문서 내의 각 위치를 조사하여, 그 위치가 참조 화소와 동일한 오프셋을 공유하는 지를 결정한다. 더 구체적으로는, 문서 내의 사전 식별된 모호한 영역들의 각 위치(x,y)가 조사되어, 그 위치가 참조 화소와 동일한 오프셋을 공유하는 지를 알아본다. (x-방향 및 y-방향 모두에서) 가장 인접한 패턴 셀에 대한 모호한 영역 내의 위치의 오프셋이 0.7 화소와 같이 임계량만큼 참조 화소의 오프셋과 매칭하는 경우, 그 위치가 이미지의 참조 화소에 가능한 매칭인 것으로 간주된다. 그러므로, 문서 위치 x,y는 이하의 조건을 만족하는 경우에 이미지에서 참조 화소에 가능한 매칭인 것으로 간주될 것이다.

CellDistance(x + dx ₁ , h) < 0.7 이고

CellDistance(y + dy ₁ , h) < 0.7.

여기에서, h는 메이즈 패턴 셀의 크기이고, CellDistance는 아래와 같이 정의된다.

CellDistance(a,b) = mod(a,b), if mod(a,b) < b/2

= b-mod(a,b), if mod(a,b) > b/2.

여기에서, mod(a.b)는 a mod b를 의미한다.

유의할 점은, 임계값 0.7은 이미지를 왜곡할 때 발생할 수 있는 가능한 라스터(raster) 에러 및 다른 계산 에러를 고려하여 선택된다는 것이다. 대안적으로, 다른 임계값이 원하는 대로 채용될 수 있다. 참조 화소의 오프셋을 충분히 매칭시키는 오프셋을 갖는 문서 내의 위치는 편의상 "매칭 위치"로서 지칭된다.

단계 711에서, 이미지 비교 모듈(611)은 매칭 위치(즉, 이미지의 참조 화소의 오프셋을 매칭시키는 모호한 영역의 위치)에 기초하여 문서와 이미지를 비교한다. 더 구체적으로는, 왜곡된 이미지의 참조 화소가 문서 내의 각 매칭 위치와 비교되도록(즉 문서 내의 매칭 위치와만 비교됨), 왜곡된 이미지가 문서 내의 다른 부분과 비교된다. 상기 지적된 바와 같이, 이러한 비교 프로세스는 이미지의 각 왜곡 회전에 대해 반복된다. 왜곡된 이미지와 문서의 일부분 간의 비교는 예를 들어 문서의 일부분의 그레이스케일 값과 왜곡된 이미지의 그레이스케일 값 간의 상관을 결정하는 것일 수 있다. 물론, 왜곡된 이미지와 문서의 일부분을 비교하기 위한 임의의 적합한 기술이 채용될 수 있다.

왜곡된 이미지와 문서의 일부분과의 비교가 하나 이상의 원하는 임계 조건을 충족하는 경우, 이미지 비교 모듈(611)은 캡쳐된 이미지가 문서의 일부분의 이미지라고 결정할 것이다. 예를 들어, 상기 언급된 바와 같이, 왜곡된 이미지와 문서의 일부분과의 각 비교는 상관 결과를 생성한다. 본 발명의 다양한 실시예들에 있어서, 이미지 비교 모듈(611)은 예를 들면 0.5(50%) 및 그 이상의 상관을 생성하는 비교들을 식별한다. 이미지 비교 모듈(611)은 최고 상관을 갖는 제1 비교 및 제2 최고의 상관을 갖는 제2 비교를 식별할 것이다. 제1 비교의 상관값이 제2 비교의 상관값보다 0.1(즉 10%) 높다면, 이미지 비교 모듈(611)은 단계 717에서, 제1 비교에 이용된 이미지 부분이 이미지에서 캡쳐된 문서의 일부분이라고 결정할 것이다.

비교 상관값들 중 어느 것도 임계량(예를 들면, 0.5)을 충족하지 못한다면, 이미지는 문서 내의 특정 부분과 매칭되지 않을 것이다. 마찬가지로, 비교 상관값들 중 어느 것도 다른 비교 상관값들보다 충분히 크지 않다면, 이미지는 문서내의 특정 부분과 매칭되지 않을 것이다. 이미지가 특정 문서의 일부분과 매칭될 수 없다면, 단계 719에서 상이한 위치들결정되지 않은 이미지가 이미지 수신 모듈(603)에 의해 수신되어, 상기 기술이 반복된다.

결론

본 발명은 본 발명을 실행하는 현재의 바람직한 모드를 포함하여 특정 예들과 관련하여 설명되었지만, 본 기술분야의 숙련자라면, 첨부된 특허청구범위에서 제시된 본 발명의 사상 및 범주에 드는 상기 언급된 시스템 및 기술의 다양한 변동 및 치환이 있다는 것을 잘 알고 있을 것이다.

참조 화소가 오직, 모두가 식별된 영역들 내에 있고 패턴으로부터 결정된 오프셋을 갖는 문서 내의 위치들과만 비교되도록, 문서와 왜곡된 이미지의 화소별 비교가 수행됨으로써, 문서 내의 상이한 위치들과 참조 화소의 비교가 회피될 수 있어, 이미지에서 캡쳐된 문서의 일부분의 위치를 결정하는 데 필요한 처리 오버헤드를 감소시킨다.

Claims

캡쳐된 이미지에 대응하는 문서의 일부분을 결정하는 방법으로서,

문서의 일부분에 대한 캡쳐된 이미지를 얻는 단계- 상기 문서는 상기 문서 내의 상이한 위치들을 고유하게 식별하는 패턴을 가짐 -;

상기 패턴이 적어도 부분적으로 모호한 상기 문서의 모호 영역(obscured areas)들을 결정하는 단계;

상기 캡쳐된 이미지에서 참조 화소를 지정하는 단계;

상기 참조 화소에 대응할 수 있는 상기 문서의 모호 영역들 내의 위치들을 식별하는 단계;

상기 참조 화소가 상기 식별된 위치들 중 하나 이상과 비교되도록, 상기 캡쳐된 이미지를 상기 문서의 상이한 부분들과 비교하는 단계; 및

상기 비교에 기초하여, 상기 참조 화소에 대응하는 상기 문서 내의 식별된 위치를 결정하는 단계

를 포함하고,

상기 참조 화소에 대응하는 상기 문서 내의 식별된 위치를 결정하는 단계는,

상기 캡쳐된 이미지의 스케일 및 회전이 상기 문서의 스케일 및 회전과 매칭하도록, 상기 캡쳐된 이미지를 왜곡(warp)시키는 단계;

왜곡된 상기 캡쳐된 이미지를 90도의 배수로 회전시키는 단계; 및

상기 이미지와 문서의 일부분과의 각각의 비교에 대한 상관값을 결정하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 참조 화소에 대응할 수 있는 상기 문서의 모호 영역들에 의한 다른 비교 상관값들에서의 위치들을 식별하는 단계는,

상기 참조 화소와 상기 캡쳐된 이미지 내의 상기 패턴 간의 오프셋 거리를 결정하는 단계; 및

상기 오프셋 거리만큼 상기 패턴으로부터 오프셋되는 상기 문서의 상기 모호 영역들 내의 위치들을 식별하는 단계를 포함하는 방법.
제1항에 있어서, 상기 참조 화소에 대응하는 상기 문서 내의 식별된 위치를 결정하는 단계는, 0.5 이상의 상관값을 갖는 비교값들을 식별하는 단계를 더 포함하는 방법.
제3항에 있어서, 상기 참조 화소에 대응하는 상기 문서 내의 식별된 위치를 결정하는 단계는,

다른 모든 비교 상관값들보다 임계량만큼 더 큰 최고 비교 상관값을 식별하는 단계; 및

상기 참조 화소가 상기 최고 비교 상관값과의 비교에 사용되는 문서 위치에 대응하는 것으로 결정하는 단계를 더 포함하는 방법.
제4항에 있어서, 상기 캡쳐된 이미지를 상기 문서의 상이한 부분들과 비교하는 단계는, 각각 왜곡되고 회전된 캡쳐된 이미지를 상기 문서의 상이한 부분들과 비교하는 단계를 포함하는 방법.
제1항에 있어서, 상기 문서는 전자 문서인 방법.
제4항에 있어서, 상기 임계량은 0.1인 방법.
제1항에 있어서, 상기 문서의 모호 영역들을 결정하는 단계는,

상기 문서의 주어진 픽셀에 대하여, 상기 주어진 픽셀 주변의 상기 문서의 일부분 내에서 모호한 패턴의 양이 미리 정해진 양보다 더 많은지의 여부를 결정하는 단계를 포함하는 방법.
제8항에 있어서, 주어진 픽셀 주변의 상기 문서의 상기 일부분은 상기 캡쳐된 이미지와 크기가 동일한 방법.
제1항에 있어서, 상기 패턴은 랜덤하게 또는 의사-랜덤하게(pseudorandomly) 생성되는 방법.
프로그램을 저장한 컴퓨터 판독가능 기록 매체로서,

상기 프로그램은 실행시, 컴퓨터가

문서의 일부분에 대한 캡쳐된 이미지를 수신하는 단계- 상기 문서는 상기 문서 내의 상이한 위치들을 고유하게 식별하는 패턴을 가지고, 상기 캡쳐된 이미지 내의 상기 패턴의 일부분은 적어도 부분적으로 모호함 -;

상기 패턴이 적어도 부분적으로 모호한 상기 문서의 모호 영역들을 결정하는 단계;

상기 캡쳐된 이미지 내의 참조 화소와 상기 캡쳐된 이미지 내의 상기 패턴 간의 공간적 관계를 결정하는 단계;

상기 모호 영역들 내의 상기 패턴에 대응할 수 있는 상기 문서의 상기 모호 영역들 내의 위치들을 식별하는 단계;

상기 캡쳐된 이미지의 스케일 및 방향이 상기 문서의 스케일 및 방향과 매칭하도록, 상기 캡쳐된 이미지를 왜곡시키는 단계;

왜곡된 상기 캡쳐된 이미지를 90도의 배수로 회전시키는 단계; 및

상기 캡쳐된 이미지를 상기 식별된 위치들에 관련된 상기 문서의 모호 영역들의 일부분들과 비교함으로써, 상기 캡쳐된 이미지를 상기 문서의 결정된 모호 영역들과 비교하는 단계;

상기 이미지와 문서의 일부분과의 각각의 비교에 대한 상관값을 결정하는 단계; 및

상기 캡쳐된 이미지에 대응하는 상기 문서의 상기 일부분의 위치를 식별하는 단계

를 수행하게 하는 컴퓨터 판독가능 기록 매체.
제11항에 있어서, 결정된 상기 공간적 관계는 상기 참조 화소와 상기 패턴의 모호하지 않은 부분 간의 최단 거리인 컴퓨터 판독가능 기록 매체.
제12항에 있어서, 상기 거리는 상기 참조 화소와 상기 패턴의 상기 모호하지 않은 부분 간의 픽셀 오프셋인 컴퓨터 판독가능 기록 매체.
제11항에 있어서, 상기 프로그램은 실행시, 컴퓨터가,

상기 캡쳐된 이미지의 각각의 90도 회전마다 상기 캡쳐된 이미지와 상기 문서의 특정 부분과의 비교를 반복하는 단계를 더 수행하게 하는 컴퓨터 판독가능 기록 매체.
제11항에 있어서, 상기 프로그램은 실행시, 컴퓨터가,

50% 이상의 상관값을 생성하는 비교들에 기초하여 상기 캡쳐된 이미지에 대응하는 상기 문서의 일부분의 위치를 식별하는 단계를 더 수행하게 하는 컴퓨터 판독가능 기록 매체.
제11항에 있어서, 상기 프로그램은 실행시, 컴퓨터가,

다른 모든 비교 상관값들보다 적어도 10% 더 큰 상관값을 생성하는 비교에 대응하는 상기 문서의 일부분이 될 상기 캡쳐된 이미지의 위치를 식별하는 단계를 더 수행하게 하는 컴퓨터 판독가능 기록 매체.
제11항에 있어서, 상기 문서의 모호 영역들을 결정하는 단계는,

상기 문서의 주어진 화소에 대하여, 상기 주어진 픽셀 주변의 상기 문서의 일부분 내에서 모호한 상기 패턴의 양이 미리 정해진 양보다 더 많은지의 여부를 결정하는 단계를 포함하는 컴퓨터 판독가능 기록 매체.
제17항에 있어서, 주어진 픽셀 주변의 상기 문서의 상기 일부분은 상기 캡쳐된 이미지와 크기가 동일한 컴퓨터 판독가능 기록 매체.
제17항에 있어서, 상기 미리 정해진 양은, 상기 문서의 해당 부분 내의 패턴이 상기 문서 내의 일부분의 위치를 고유하게 식별하지 못하는 상기 패턴의 모호한 양을 나타내는 컴퓨터 판독가능 기록 매체.
제11항에 있어서, 상기 패턴은 랜덤하게 또는 의사-랜덤하게 생성되는 컴퓨터 판독가능 기록 매체.
캡쳐된 이미지에 대응하는 문서의 일부분을 결정하는 방법으로서,

문서의 일부분에 대한 캡쳐된 이미지를 수신하는 단계- 상기 문서는 상기 문서 내의 상이한 위치들을 고유하게 식별하는 랜덤하게 또는 의사-랜덤하게 생성된 패턴을 가지고, 상기 캡쳐된 이미지 내의 상기 패턴의 일부분은 적어도 부분적으로 모호함-;

상기 캡쳐된 이미지의 스케일 및 방향이 상기 문서의 스케일 및 방향과 매칭하도록, 상기 캡쳐된 이미지를 왜곡시키는 단계;

상기 문서의 주어진 화소들 각각에 대하여, 각각의 주어진 화소 주변의 상기 문서의 일부분 내에서 모호한 상기 패턴의 양이 상기 문서 내의 상기 일부분의 위치의 고유한 식별을 불가능하게 하기에 충분한지의 여부를 결정함으로써, 상기 문서의 모호 영역들을 결정하는 단계;

상기 캡쳐된 이미지 내의 참조 화소와 상기 캡쳐된 이미지 내의 상기 패턴 간의 화소 오프셋을 결정하는 단계 - 상기 화소 오프셋은 상기 참조 화소와 상기 패턴의 모호하지 않은 부분 간의 최단 거리를 나타냄 - ;

비교가능한 화소 오프셋을 가지고 상기 문서의 상기 모호하지 않은 영역들 내의 위치들을 식별하는 단계;

상기 캡쳐된 이미지를 식별된 위치들에 관련된 상기 문서의 상기 모호 영역들의 일부분들과 비교하고, 상기 캡쳐된 이미지의 각각의 90도 회전마다 상기 비교를 반복하는 단계; 및

상기 캡쳐된 이미지에 대응하는 상기 문서의 상기 일부분의 위치를, 다른 비교들보다 적어도 10% 더 큰 상관값을 생성하는 비교에 관련된 상기 문서의 부분의 위치로서 식별하는 단계

를 포함하는 방법.