KR20070092596A - 렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술 - Google Patents

렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술 Download PDF

Info

Publication number
KR20070092596A
KR20070092596A KR1020067024177A KR20067024177A KR20070092596A KR 20070092596 A KR20070092596 A KR 20070092596A KR 1020067024177 A KR1020067024177 A KR 1020067024177A KR 20067024177 A KR20067024177 A KR 20067024177A KR 20070092596 A KR20070092596 A KR 20070092596A
Authority
KR
South Korea
Prior art keywords
document
user
text
capture
identified
Prior art date
Application number
KR1020067024177A
Other languages
English (en)
Other versions
KR101174536B1 (ko
Inventor
마틴 티. 킹
클리포드 에이. 쿠실러
프레이저 제임즈 퀀틴 스태포드
데일 로렌스 그로버
Original Assignee
엑스비블리오 비.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/004,637 external-priority patent/US7707039B2/en
Priority claimed from US11/097,961 external-priority patent/US20060041484A1/en
Priority claimed from US11/097,093 external-priority patent/US20060041605A1/en
Priority claimed from US11/098,043 external-priority patent/US20060053097A1/en
Application filed by 엑스비블리오 비.브이. filed Critical 엑스비블리오 비.브이.
Publication of KR20070092596A publication Critical patent/KR20070092596A/ko
Application granted granted Critical
Publication of KR101174536B1 publication Critical patent/KR101174536B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9554Retrieval from the web using information identifiers, e.g. uniform resource locators [URL] by using bar codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled

Abstract

전자 문서를 네비게이팅하기 위한 팩실리티가 기재되어 있다. 이 팩실리티는 문장 프래그먼트를 구성하는 렌더링된 문서의 컨텐트의 일부를 선택하는 사용자 입력을 수신한다. 이 사용자 입력 수신에 응답하여, 상기 팩실리티는 전자 문서의 본체내에 포함된 전자 문서를 식별하고, 상기 식별된 전자 문서는 선택된 문서 부분을 포함한다. 상기 사용자 입력 수신에 응답하여, 상기 팩실리티는 선택된 문서 부분이 발생한 상기 식별된 전자 문서내의 포지션을 식별한다.
팩실리티, 문장 프래그먼트, 렌더링된 문서, 컨텐트, 사용자 입력, 전자 문서, 포지션

Description

렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술{PROCESSING TECHNIQUES FOR VISUAL CAPTURE DATA FROM A RENDERED DOCUMENT}
기술된 기술은 문서 처리에 관한 것이다.
컴퓨터의 시대에도 페이퍼 문서가 증가하는 것으로부터 알 수 있듯이, 페이퍼 문서에 대한 지속적인 수요가 있다. 오늘날은 그 어느 때 보다도 페이퍼 문서를 프린트하고 출판하는 것이 쉽다. 복제, 전사, 검색 및 편집을 함에 있어서 전자 문서가 더 간편함에도 불구하고 페이퍼 문서는 여전히 널리 이용되고 있다.
페이퍼 문서의 인기와 전자 문서의 장점을 고려할 때, 이 두 장점을 결합한다면 유용할 것이다.
도1은 코어 시스템의 일 실시예에서의 정보 흐름을 도시하는 데이터 흐름도,
도2는 전형적인 작동환경의 컨텍스트에서 시스템의 전형적인 구현에 포함되는 구성요소들을 나타내는 도면,
도3은 스캐너의 실시예를 나타내는 블록도,
도 4는 시스템의 실시예가 동작하는 전형적인 환경을 도시하는 도면,
도 5는 북마크를 구현하기 위해 시스템에 의해 보통 실행되는 단계를 도시하 는 흐름도,
도 6은 집적된 하이라이터 및 펜을 갖고 있는 스캐닝 디바이스를 도시하는 도면,
도 7은 텍스트 캡쳐 액션을 처리하기 위해 시스템에 의해 보통 실행되는 단계를 도시하는 흐름도,
도 8A-8D는 알파벳의 두개의 캐릭터가 얼마나 자주 복수의 폰트에서 근사하게 동일한 *관련* 형상을 갖고 있는지를 설명하는 도면,
도 9는 자체 인식을 사용여 완전히 새로운 세트의 심볼을 학습하기 위해 임의의 실시예에서의 팩실리티에 의해 사용되는 방법을 설명하는 도면,
도 10은 수직 및 수평 확장을 자체 한정한 도 9내에 도시된 심볼의 부분집합을 도시하는 도면, 및
도 11은 도 9내에 도시된 심볼의 일부 사이의 관계를 도시하는 도면.
개요
렌더링된 문서(예를 들어, 인쇄되거나 표시된 문서)를 번역하고 상기 문서와 상호작용하기 위한 시스템, 및 이러한 문서의 관련된 디지털 "소스", "부본", 또는 "레퍼런스" 버전 ("시스템")이 기술되어 있다. 일부 실시예에서, 시스템은, 일부 경우에 다음의 기능을 실행할 수 있지만, 문자 자체를 인식하고 번역하는 것과 직접 관련되어 있지 않고; 그 자체가 인쇄된 캐릭터를 인식하고 이해하는 것과 관련되어 있지 않다. 오히려, 시스템은 문서의 버전이 이미 알려져 있거나, 머신 판독 가능(예를 들어, ASCII 또는 일부 다른 기계 판독가능한 텍스트) 소스 또는 레퍼런스 버전 문서가 유용하거나, 머신 액세스가능하거나, 또는 미래에 유용가능하도록 만들어질 것이라고 가정한다. 시스템은 네비게이션(문서내의 위치를 결정하는 것)을 위해, 렌더링된 문서내의 (텍스트를 포함하는) 다양한 특징을 사용한다. 상기 위치는 일부가 아래에 설명되는 많은 세트의 유저 펑션과 인터랙션이 가능하도록 차례로 사용된다.
시스템은 위치 정보를 결정하기 위해 문서내의 마크 (예를 들어, 텍스트 및 임의의 렌더링된 보충 정보 마크)의 패턴을 번역하고 복호하는 프로세스에 일부 기초하고 있다. 다양한 실시예에서, 이러한 위치 정보는 문서 자체, 예를 들어, 문서내의 위치, 자주 단일 단락, 문장, 단어 및 심지어는 단일 캐릭터와 관련되어 있다. 그러나, 문서의 특정 렌더링의 물리적 레이아웃이 또한 알려진 경우에, 위치 정보는 디스플레이 스크린, 인쇄된 페이지등 위의 위치로 전환될 수 있다.
시스템의 다양한 실시예를 설명하는데 있어서, 용어 "인쇄된 텍스트"가 사용되고 있다. "인쇄된"은 일반적으로 (예를 들어, 페이서 상에, 디스플레이 스크린 상에, Braille 포맷 등으로) 인간에게 판독가능한 임의의 형태의 문서 렌더링에 사용된다. 많은 경우에, 시스템의 특징 및 애플리케이션은 구도, 그래픽스 및 이미지, 특정 마크등과 같은 비알파벳 렌더링된 컨텍트에 매우 잘 적용된다는 것을 이해해야 한ㄷ. 시스템의 실시예는 이러한 추가적인 사용을 포함한다.
Ⅰ부 - 서 론
1. 시스템의 특성
그 대응되는 전자 부본(electronic counterpart)을 갖는 모든 페이퍼 문서의 각각에 대해, 전자 부본을 식별할 수 있는 페이퍼 문서 내에는 이산된 량의 정보가 존재한다. 일부 실시예에서, 본 시스템은 예컨대 핸드헬드 스캐너를 통해 페이퍼 문서에서 캡쳐된 텍스트의 샘플을 이용하여, 문서의 전자 부본을 식별하고 위치결정(locate) 한다. 대부분의 경우, 문서 텍스트의 약간의 단어가 페이퍼 문서에 대한 식별자로서 및 그의 전자 부본과의 링크로서 기능을 할 수 있다는 점에서, 기기에 의해 필요한 텍스트의 양은 매우 적다. 또한, 본 시스템은 이렇게 적은 단어들을 사용하여 문서를 식별할 뿐만 아니라 문서내에서의 위치도 식별할 수 있다.
따라서 페이퍼 문서 및 그의 디지털 부본은 이하에서 설명되는 본 시스템을 사용하여 많은 유용한 방식으로 연관될 수 있다.
1.1. 전망에 대한 간단한 개요
본 시스템이 일단 페이퍼 문서의 텍스트의 일부를 특정 디지털 엔티티와 연관시키는 것이 설정되면, 시스템은 그 연관성에 대해 대량의 기능성(functionality)을 구성할 수 있다.
점차적으로 대부분의 페이퍼 문서가, 월드와이드웹 상에서 또는 일부 다른 온라인 데이터 베이스 또는 문서 전집으로부터 액세스 가능하거나 혹은 요금납부 또는 가입 등에 의해 액세스될 수 있는 전자 부본을 가지고 있는 것이 사실이다. 그러면, 가장 간단한 수준에서, 사용자가 페이퍼 문서의 약간의 단어를 스캔하면 본 시스템이 전자 문서 또는 그 일부분을 검색하거나, 디스플레이 하거나, 다른 사람에게 이메일로 전송하거나, 구매하거나, 프린트하거나, 또는 웹페이지에 게시할 수 있다. 부수적인 예로서, 어떤 사람이 아침식사 동안 읽고 있는 책의 일부 단어를 스캐닝함으로써 그 사람의 자동차에 있는 오디오 북 버전은 그가 회사에 가려고 운전을 시작하는 순간부터 읽기동작을 개시할 수 있고, 또는 프린트 카트리지의 일련번호를 스캐닝함으로써 교체를 지시하는 프로세스를 개시할 수 있을 것이다.
본 시스템은 이와 같은 그리고 "페이퍼/디지털 통합"의 많은 다른 예들을 현재의 문서 읽기, 프린트, 및 출판 과정에 변화를 요하지 않으면서도 구현하여, 이러한 종래 방식으로 렌더링된 문서에 디지털 기능성의 완전히 새로운 장을 제공한다.
1.2. 용어
본 시스템의 전형적인 사용은 페이퍼 문서로부터 텍스트를 스캔하는 광스캐너를 사용하는 것에서부터 시작한다. 하지만 다른 형태의 문서로부터의 다른 캡쳐 방법도 동등하게 적용될 수 있다는 것에 유의해야 한다. 따라서 본 시스템은 때로는 렌더링된 문서로부터 텍스트를 스캐닝 또는 캡쳐링 하는 것으로 설명되며, 이러한 용어는 다음과 같이 정의된다:
렌더링된 문서는 프린트된 문서 또는 디스플레이나 모니터 상에 보여지는 문서이다. 또한 이것은 영구적 형태이든 또는 일시적인 디스플레이 상의 것이든, 사람에게 인식가능한 문서이다.
스캐닝 또는 캡쳐링은 렌더링된 문서로부터 정보를 얻기 위한 체계적 조사 프로세스이다. 이 프로세스는 스캐너 또는 카메라(예컨대 휴대폰에 장착된 카메라)를 이용하는 광학적 캡쳐를 포함할 수 있고, 문서를 소리내어 읽어 오디오 캡쳐 디바이스로 옮기는 것 또는 키패드나 키보드로 타이핑하는 것을 포함할 수 있다. 더 많은 예들은 섹션 15를 참조하라.
2. 본 시스템의 도입
이 부분은 페이퍼/디지털 통합을 위한 시스템을 구성하는 디바이스, 프로세스 및 시스템의 일부에 대해 설명한다. 다양한 실시예에서 본 시스템은 기본 기능성을 제공하는 이러한 기본 코어 위에서 매우 다양한 서비스와 애플리케이션을 구현한다.
2.1. 프로세스
도1은 코어 시스템의 일 실시예에서의 정보 흐름을 도시하는 데이터 흐름도이다. 다른 실시예들은 여기에 도시된 모든 단계나 구성요소를 전부 사용하지 않을 수도 있고, 일부 실시예들은 그보다 많이 사용할 수도 있다.
전형적으로 광스캐너에 의한 광학적 형식으로 또는 보이스 레코더에 의한 오디오 형식으로, 렌더링된 문서로부터 텍스트가 캡쳐링되고(100), 이 이미지 또는 사운드 데이터는 캡쳐 프로세스의 인위적 요소를 제거하거나 신호대 잡음비를 향상시키기 위해 처리된다(102). 그 후 OCR, 속도인식, 또는 오토 코릴레이션(autocorrelation) 등과 같은 인식 프로세스(104)가, 일부 실시예에서 텍스트, 텍스트 오프셋, 또는 다른 심볼로 구성되는 기호(signature)로 데이터를 변환시킨다. 대안적으로, 본 시스템은 렌더링된 문서로부터 문서 기호를 추출하는 대안적 형태를 수행한다. 일부 실시예에서 기호는 한 세트의 가능한 텍스트 전사(trnascription)를 나타낸다. 이 프로세스는 다른 단계로부터의 피드백에 의해 영향을 받을 수 있는데, 예컨대, 검색 프로세스 및 컨텍스트 해석(100)이 캡쳐가 유래한 일부 후보 문서들(candidate documents)을 식별하였다면, 최초 캡쳐의 가능한 해석(interpretation)은 범위가 좁혀진다.
후처리(106) 단계는 인식 처리의 출력을 취하여 이것을 필터링하거나 이에 대한 다른 작업을 수행하여 유용하게 한다. 구현되는 실시예에 따라, 이 단계에서 일부 직접 액션(107)이 후속 단계의 참조없이 즉시 취출되는데, 예컨대 사용자의 의도를 전달하기에 그 자체로 충분한 정보를 포함하는 프레이즈(phrase)나 심볼이 캡쳐된다. 이러한 경우 어떠한 디지털 부본 문서도 참조될 필요가 없고 심지어 본 시스템에 알려질 필요도 없다.
그러나, 전형적으로 다음 단계는 검색에 사용하기 위한 문의(query) 또는 한 세트의 문의를 구성하는 것이 될 것이다(108). 문의 구성의 일부 측면은 사용된 검색 프로세스에 의존할 수 있고, 따라서 다음 단계까지는 수행되지 못할 것이다. 그러나 전형적으로, 명백하게 잘못 인식된 또는 전혀 관련없는 캐릭터의 제거와 같이 미리 수행될 수 있는 일부 동작이 있을 수 있다.
그 후 문의 또는 문의들은 검색 및 컨텍스트 분석 단계(110)로 전달된다. 여기서, 시스템은 원본 데이터가 캡쳐된 문서를 식별하기 위해 선택적으로 시도한다. 그러기 위해, 시스템은 전형적으로 검색 인덱스 및 검색 엔진(112), 사용자에 대한 지식(114), 및 사용자의 컨텍스트 또는 캡쳐가 발생된 컨텍스트에 대한 지식(116)을 사용한다. 검색 엔진(112)은 구체적으로 렌더링된 문서에 대한, 이들의 디지털 부본 문서에 대한, 그리고 웹(인터넷)에 존재하고 있는 문서에 대한 정보를 사용 및/또는 인덱스 할 수 있다. 또한 이러한 많은 소스로부터 판독할 뿐만 아니라 이들을 기록할 수도 있고, 언급한 바와 같이, 예컨대 언어, 폰트, 렌더링, 및 후보 문서의 지식에 근거하여 가능한 다음 단어에 대한 정보를 인식 시스템(104)에게 제공함으로써, 정보를 프로세스의 다음 단계에 공급할 수 있다.
일부 환경에서, 다음 단계는 식별되었던 문서 또는 문서들의 카피를 검색하는 것이다(120). 문서(124)의 소스는 예컨대 로컬 파일링 시스템 또는 데이터베이스 또는 웹 서버로부터 직접 액세스될 수 있거나, 혹은, 인증, 보안 또는 지불을 실행할 수 있는 몇몇 액세스 서비스(122)를 통해 연결될 수 있거나 또는 소정 포맷으로의 문서의 변환 등과 같은 다른 서비스를 제공할 수 있다.
시스템의 애플리케이션은 여분의 기능성이나 데이터와 문서의 전부 또는 일부분과의 연관성을 이용할 수 있다. 예컨대, 섹션 10.4에서 논의하는 바와 같이 광고(advertising) 애플리케이션은 특정 광고 메시지 또는 주제와 문서의 일부분과의 연관성을 이용할 수 있다. 이 여분의 연관된 기능성 또는 데이터는 문서 상의 하나 이상의 오버레이(overlay)로서 고려될 수 있고, 여기서 "마크업(markup)"으로 언급된다. 그 후, 프로세스(130)의 다음 단계는 캡쳐링된 데이터에 관련된 임의의 마크업을 식별하는 것이다. 이러한 마크업은 사용자, 문서의 창작자 또는 출판자, 또는 다른 누군가에 의해 제공될 수 있고, 일부 소스(132)로부터 직접 액세스되거나 혹은 일부 서비스(134)에 의해 생성될 수 있다. 다양한 실시예에서, 마크업은 렌더링된 문서 및/또는 렌더링된 문서의 디지털 부본, 또는 이들 문서들 중 어느 하나 또는 둘 다의 그룹에 적용되거나 이들에 연관될 수 있다.
마지막으로, 초기 단계들의 결과, 일부 액션이 취해진다(140). 이들은 발견된 정보를 단순히 기록하는 것과 같은 디폴트(default) 액션이거나, 데이터 또는 문서에 의존하는 것일 수 있고, 또는 마크업 분석으로부터 유도될 수도 있다. 때로는 이 액션은 데이터를 다른 시스템으로 단순히 전달하는 것이다. 몇몇의 경우, 렌더링된 문서에서의 특정 지점의 캡쳐에 적합한 다양한 가능한 액션이, 예커대 로컬 디스플레이(332), 컴퓨터 디스플레이(212), 또는 모바일 폰이나 PDA 디스플레이(216) 등과 같은 관련 디스플레이 상에 메뉴로서 사용자에게 제공될 것이다. 만일 사용자가 이 메뉴에 응답하지 않는다면, 디폴트 액션이 취해질 수 있다.
2.2. 구성요소
도2는 전형적인 작동환경의 컨텍스트에서 시스템의 전형적인 구현에 포함되는 구성요소들을 나타내는 도면이다. 도시된 바와 같이 작동환경은 하나 이상의 광학적 스캐닝 캡쳐 디바이스(202) 또는 보이스 캡쳐 디바이스(204)를 포함하고 있다. 일부 실시예에서는, 동일한 디바이스가 양쪽 기능을 모두 수행한다. 각각의 캡쳐 디바이스는 직통 유선 또는 무선 연결중 하나를 사용하거나 네트워크(220)를 통해 컴퓨터(212) 및 모바일 스테이션(216)(예컨대, 모바일 폰 또는 PDA) 등과 같은 시스템의 다른 부분과 통신할 수 있고, 유선 및 무선 연결을 사용하여 통신하는 것은 전형적으로 무선 기지국(214)을 포함한다. 일부 실시예에서, 캡쳐 디바이스는 모바일 스테이션과 통합되고, 음성통신 및 사진촬영용 디바이스에 사용되는 오디오 및/또는 광학 구성요소의 일부와도 선택적으로 공유한다.
컴퓨터(212)는 스캐닝 디바이스(202 및 204)로부터의 오더(order)를 처리하 기 위한 컴퓨터실행가능 명령어를 포함하고 있는 메모리를 가질 수 있다. 일 예로서, 오더는 (스캐닝 디바이스(202/204)의 일련번호 또는 스캐너 사용자를 부분적으로 또는 완전히 구별하여 식별하는 식별자 등과 같은) 식별자, 스캐닝 컨텍스트 정보(예컨대, 스캔 시간, 스캔 위치 등), 및/또는 스캐닝되고 있는 문서를 다른 것과 구별하여 식별하는데 사용되는 (텍스트 스트링(string)과 같은) 스캐닝 정보를 포함할 수 있다. 대안적인 실시예에서, 작동 환경은 보다 작거나 많은 구성요소를 포함할 수도 있다.
또한, 검색 엔진(232), 문서 소스(234), 사용자 계정(account) 서비스(236), 마크업 서비스(238), 및 다른 네트워크 서비스(239)가 네트워크(220) 상에서 이용가능하다. 네트워크(220)는 통합 인트라넷, 공중 인터넷, 모바일 폰 네트워크 또는 일부 다른 네트워크, 또는 이들의 임의의 상호접속일 수 있다.
디바이스가 서로 어떻게 연결되는지에 관계없이, 이들은 공지된 상업적 트랜잭션 및 통신 프로토콜(예컨대 인터넷 프로토콜(IP))에 따라 작동할 수 있다. 다양한 실시예에서, 스캐닝 디바이스(202), 컴퓨터(212), 및 모바일 스테이션(216)의 기능 및 용량은 전적으로 또는 부분적으로 하나의 디바이스에 통합될 수 있다. 따라서 스캐닝 디바이스, 컴퓨터, 및 모바일 스테이션 이라는 용어들은, 디바이스가 스캐닝 디바이스(202), 컴퓨터(212), 및 모바일 스테이션(216)의 기능과 용량을 결합하는지 여부에 따라, 동일한 디바이스를 언급하는 것일 수 있다. 더욱이, 검색 엔진(232), 문서 소스(234), 사용자 계정 서비스(236), 마크업 서비스(238), 및 다른 네트워크 서비스(239)의 일부 또는 전체 기능이 임의의 디바이스의 및/또는 다 른 미도시된 디바이스 상에 구현될 수도 있다.
2.3. 캡쳐 디바이스
상술하였듯이, 캡쳐 디바이스는, 렌더링된 문서로부터 이미지 데이터를 캡쳐할 수 있는 광학적 스캐너를 사용하거나 또는 사용자가 텍스트를 소리내어 읽는 것을 캡쳐하는 오디오 레코딩 디바이스를 사용하거나 또는 다른 방법을 사용하여 텍스트를 캡쳐할 수 있다. 캡쳐 디바이스의 일부 실시예는 바코드와 같이 기계판독 가능한 코드를 비롯하여 이미지, 그래픽 심볼, 아이콘 등을 캡쳐할 수 있다. 디바이스는 시스템내의 어딘가에 위치하는 다른 기능성들에 따라서, 트랜스듀서, 일부 저장장치, 및 데이터 인터페이스 정도로 구성되어 극히 간단할 수 있고, 더 많이 완비된 디바이스일 수도 있다. 설명을 위해, 이 섹션에서는 광학적 스캐너 등에 기초하고 적절한 수의 특징을 갖는 디바이스에 대해 설명한다.
스캐너는 이미지를 캡쳐하고 디지털화하는 잘 알려진 디바이스 이다. 복사기 산업의 한 부류로서, 첫번째 스캐너는 한번에 전체 문서를 캡쳐하는 상대적으로 큰 디바이스 였고, 최근, 펜-타입 핸드헬드 디바이스 등과 같이 편리한 형태의 휴대가능 광학적 스캐너가 도입되었다.
일부 실시예에서, 휴대가능 스캐너는 렌더링된 문서로부터 텍스트, 그래픽, 또는 심볼을 스캔하기 위해 사용된다. 휴대가능 스캐너는 렌더링된 문서로부터 텍스트, 심볼, 그래픽 등을 캡쳐하는 스캐닝 소자를 포함한다. 종이로 프린트된 문서에 더하여, 일부 실시예에서는, 렌더링된 문서가 CRT 모니터 또는 LCD 디스플레이 등과 같은 스크린상에 디스플레이된 문서를 포함한다.
도3은 스캐너(302)의 일 실시예의 블록도이다. 스캐너(302)는 렌더링된 문서로부터 정보를 스캔하고 이것을 기계식(machine-compatible) 데이터로 변환하는 광학적 스캐닝 헤드(308), 및 전형적으로 렌즈, 개구, 또는 렌더링된 문서의 이미지를 스캐닝 헤드로 전달하기 위한 이미지 도관(conduit)인 광학적 경로(306)를 포함한다. 스캐닝 헤드(308)는 전하결합소자(CCD), 상보형 금속산화 반도체(CMOS) 이미지 디바이스, 또는 다른 형태의 광학 센서를 결합할 수 있다.
마이크(310) 및 연관된 회로는 (소리내어 읽혀진 단어를 포함한) 주위환경의 사운드를 기계식 신호로 변환하며, 다른 입력 기능들도 버튼, 스크롤-휠 또는 터치패드(314)와 같은 다른 촉감센서의 형태로 존재한다.
사용자에 대한 피드백은 시각적 디스플레이 또는 지시등(332)를 통해, 또는 스피커나 다른 오디오 트랜스듀서(334)를 통해, 및 진동 모듈(336)을 통해 가능하게 된다.
스캐너(302)는, 다른 포맷 및/또는 해석으로 수신된 신호를 처리하며 다른 다양한 구성요소들과 상호작용하는 로직(326)을 포함한다. 로직(326)은 RAM, ROM, 플래쉬, 또는 다른 적당한 메모리 등의 관련 저장장치(330)에 저장된 데이터 및 프로그램 명령어를 읽고 기록하도록 동작될 수 있고, 클록 유닛(328)로부터 시간 신호를 읽을 수 있다. 스캐너(302)는 스캐닝된 정보 및 다른 신호들을 네트워크 및/또는 관련 컴퓨팅 디바이스와 통신하는 인터페이스(316)를 또한 포함한다. 일부 실시예에서, 스캐너(302)는 온-보드 전원(332)를 가질 수 있다. 다른 실시예에서, 스캐너(302)는 유니버셜 시리얼 버스(USB) 연결과 같이 다른 디바이스와의 유선 연 결로부터 전원이 공급될 수 있다.
스캐너(302)의 사용에 대한 예시로서, 독자가 스캐너(302)를 사용하여 신문기사의 일부 텍스트를 스캔할 수 있다. 텍스트는 스캐닝 헤드(308)을 통해 비트맵 이미지로 스캔된다. 로직(326)은 비트맵 이미지가, 클록 유닛(328)으로부터 읽혀진 관련 타임-스탬프와 함께, 메모리(330)에 저장되도록 한다. 또한 로직(326)은 광학적 문자인식(OCR)을 수행하거나, 또는 비트맵 이미지를 텍스트로 변환하기 위한 스캔후(post-scan) 프로세스를 수행할 수 있다. 또한 로직(326)은, 예컨대 문자, 심볼, 또는 대상물의 반복적 발생을 발견하고 이들 반복되는 요소들 사이의 다른 문자, 심볼, 또는 대상물의 숫자 또는 거리를 결정하기 위해 컨벌루션과 유사한 프로세스를 행함으로써, 이미지로부터 기호를 선택적으로 추출할 수 있다. 그러면, 독자는 인터페이스(316)를 통해 관련 컴퓨터에 비트맵 이미지(스캔후 프로세스가 로직(326)에 의해 행해진다면, 텍스트 또는 다른 기호)를 업로드할 수 있다.
스캐너(302)의 또다른 사용의 일 예로서, 마이크(310)를 음성 캡쳐 포트로 사용하여 독자가 신문기사의 일부 텍스트를 오디오 파일로서 캡쳐할 수 있다. 로직(326)은 오디오 파일이 메모리(328)에 저장되도록 한다. 로직(326)은 또한 오디오 파일을 텍스트로 변환하기 위해 음성인식 또는 다른 스캔후 프로세스를 수행할수 있다. 그 후, 위에 설명하였듯이 독자는 인터페이스(316)를 통해 관련 컴퓨터에 오디오 파일(또는, 로직(326)에 의해 수행된 스캔후 프로세스에 의해 생성된 텍스트)을 업로드할 수 있다.
2부 - 코어 시스템의 범위의 개요
페이퍼-디지털 통합이 점점 흔해지면서, 이 통합을 더 잘 이용하기 위해 변화될 수 있거나 또는 보다 효율적으로 구현할 수 있게 하는 기존 기술의 많은 측면이 있다. 이 섹션은 이러한 이슈들 중 일부에 대한 것이다.
3. 검색
문서 전집의 검색, 심지어는 월드와이드웹과 같이 거대한 전집에 대한 검색은, 검색엔진에 입력된 검색식을 만들기 위해 키보드를 사용하는 평범한 사용자에게도 이제는 흔한 일이 되었다. 이 섹션 및 다음 섹션은, 캡쳐에 의해 렌더링된 문서에서 유래된 문의(query)의 구성 및 이러한 문의를 다루는 검색엔진의 양 측면에 대해 논의한다.
3.1. 검색 문의로서의 스캔/ 스피크 /타입
상술한 시스템의 사용은 전형적으로 상기 섹션 1.2에서 언급한 것을 비롯한 여러 방법중 임의의 것을 사용하여 렌더링된 문서로부터 캡쳐되고 있는 몇몇 단어를 가지고 시작한다. 예컨대 OCR 또는 음성 입력의 경우와 같이 입력이 텍스트로의 변환을 위해 약간의 해석이 필요할 때, 인식 프로세스를 확장하기 위해 문서 전집이 사용되도록, 시스템내에 엔드-투-엔드(end-to-end) 피드백이 있을 수 있다. 엔드-투-엔드 피드백은, 인식 또는 해석의 근사를 수행함으로써, 하나 이상의 후보 매칭 문서의 세트를 식별함으로써, 그리고 그 후, 인식과 해석을 더 정제하고 제한하기 위해 후보 문서에서의 가능한 매치들로부터 정보를 사용함으로써, 적용될 수 있다. 후보 문서는 예상되는 관련성에 따라(예컨대, 이들 문서에서 스캔하였던 사람의 숫자, 또는 인터넷상의 인기도에 근거하여) 가중치가 정해질 수 있고, 이러한 가중치는 이러한 반복되는 인식 프로세스에서 적용될 수 있다.
3.2. 단문 검색
단어들의 상대적 위치가 알려져 있을 때 일부 단어에 기초한 검색 문의의 선별능력이 매우 커지기 때문에, 본 시스템이 전집에서 텍스트의 위치를 식별하기 위해서는 적은 양의 텍스트만이 캡쳐되어도 된다. 매우 일반적으로, 짧은 문구와 같이 인접하는 시퀀스가 입력 텍스트가 될 수 있다.
3.2.1. 단문 캡쳐로부터 문서 및 문서내의 위치를 발견
어떤 문구가 유래하였던 문서를 찾는 것에 더하여, 본 시스템은 그 문서 내에서 위치를 식별할 수 있고 또한 이 지식에 근거하여 액션을 취할 수 있다.
3.2.2. 위치를 찾는 다른 방법
또한 본 시스템은, 워터마크(watermark), 또는 렌더링된 문서상의 다른 특수한 마크를 사용하는 것 등에 의해, 문서와 위치를 발견하는 다른 방법을 사용할 수 있다.
3.3. 다른 요소를 검색 문의에 결합
캡쳐된 텍스트에 더하여, 다른 요소(즉, 사용자 식별, 프로파일, 및 컨텍스트에 관한 정보)가, 캡쳐 시간, 사용자의 지리적 위치 및 식별, 사용자의 습관 및 최근 활동에 대한 지식 등과 같이, 검색 문의의 일부를 형성할 수 있다.
특히 이러한 것들이 아주 최근이라면, 문서 식별, 및 이전의 캡쳐에 관한 다른 정보가 검색 문의의 일부를 형성할 수 있다.
사용자의 식별은 캡쳐링 디바이스, 및/또는 바이오메트릭(biometric) 또는 다른 보충적 정보(음성 속도, 지문 등)와 연관된 특유의 식별자로부터 결정될 수 있다.
3.4. 검색 문의의 신뢰불능 특성의 지식(OCR 에러 등)
검색 문의는 사용되는 특정 캡쳐 방법에서 발생하기 쉬운 에러 타입을 고려하여 구성될 수 있다. 이것의 일 예로는 특정 문자의 인식시에 의심되는 에러를 지시하는 것인데, 이 경우 검색엔진은 이러한 문자들을 와일드 카드로서 처리하거나 또는 이들 문자에 더 낮은 우선순위를 부여할 수 있다.
3.5. 실행/오프라인 사용을 위한 인덱스의 로컬 캐쉬
때때로 캡쳐링 디바이스가 데이터 캡쳐를 할 때 검색엔진이나 전집과 통신하고 있지 않을 수 있다. 이러한 이유로, 디바이스의 오프라인 사용에 도움이 되는 정보가 미리 이 디바이스에 혹은 이 디바이스가 통신하는 일부 엔티티에 다운로드 될 수 있다. 몇몇 경우에, 전집에 관련된 인덱스의 상당 부분 혹은 전부가 다운로드 될 수 있다. 이에 대해서는 섹션 15.3에서 더 논의될 것이다.
3.6. 어떤 형태를 갖든 문의는 나중에 기록되거나 실행될 수 있다
만약 문의와 통신하거나 결과를 수신하는 것과 관련된 비용이나 지연이 있을 수 있다면, 이러한 사전-로드된(pre-loaded) 정보는 로컬 디바이스의 성능을 향상시키고, 통신 비용을 낮추며, 또한 유용하고 시의적절한 사용자 피드백을 제공할 수 있다.
어떠한 통신도 가능하지 않은 경우(로컬 디바이스가 "오프라인"인 경우), 문의가 저장되었다가 통신이 복구되었을 때 시스템의 나머지 부분으로 전송될 수 있 다.
이러한 경우 각각의 문의와 함께 타임 스탬프를 전송하는 것이 중요하다. 문의를 해석함에 있어서 캡쳐 시간은 매우 중요한 요소가 될 수 있다. 예컨대, 섹션 13.1은 이전의 캡쳐와 관련하여 캡쳐 시간의 중요성에 대해 논의한다. 캡쳐 시간이 문의가 실행되는 시간과 항상 동일한 것은 아니라는 점에 유의해야 한다.
3.7. 병렬 검색
성능상의 이유로, 단일 캡쳐에 응답하여 다수개의 문의가 일렬 혹은 병렬 중 하나로 개시될 수 있다. 예컨대 새로운 단어가 캡쳐에 추가되거나 혹은 병렬로 다수의 검색엔진에 문의하기 위해, 여러개의 문의가 단일 캡쳐에 응답하여 전송될 수 있다.
예컨대, 일부 실시예에서, 본 시스템은 현재 문서에 대한 특별 인덱스의 문의를, 로컬 머신 상의 검색엔진으로, 통합 네트워크 상의 검색엔진으로, 및 인터넷상의 원격 검색엔진으로 전송한다.
어느 특별한 검색의 결과에 다른 것보다 더 높은 우선순위를 부여할 수도 있다.
주어진 문의에 대한 응답이 현재 진행중인 문의가 불필요하다는 것을 나타낼 수도 있고, 이 경우 진행중인 문의는 완료전에 취소될 수 있다.
4. 페이퍼 및 검색엔진
전통적인 온라인 문의를 다루는 검색엔진이 렌더링된 문서에서 유래하는 것들도 다루는 것이 바람직한 경우가 종종 있다. 상술된 본 시스템에서 사용하기에 더 적절하도록 만들기 위한 많은 방법에 의해서 기존의 검색엔진이 확장되거나 변경될 수 있다.
본 시스템의 검색엔진 및/또는 다른 구성요소가, 여분의 또는 상이한 특성을 갖는 인덱스를 생성하고 유지할 수 있다. 본 시스템은 유입 페이퍼-유래된 문의를 변경하거나, 혹은 문의가 결과 검색에서 취급되는 방법을 변경할 수 있고, 따라서, 이러한 페이퍼-유래된 문의를 웹 브라우저 및 다른 소스에 타이핑 입력된 문의에서 유입된 것들과 구별할 수 있다. 또한, 다른 소스로부터의 것들과 비교하여 결과들이 페이퍼에서 유래된 검색에 의해 되돌아왔을 때, 본 시스템은 다른 액션을 취하거나 다른 옵션을 제공할 수 있다. 이러한 각각의 접근법이 이하에서 설명된다.
4.1. 인덱싱
종종, 페이퍼-유래된 문의 또는 전통적인 문의 중 하나를 사용하여 동일한 인덱스가 검색될 수 있지만, 다양한 방법으로 현재 시스템에서의 사용을 위해 인덱스가 강화될 수 있다.
4.1.1. 페이퍼 형식에 대한 지식
페이퍼-기반 검색의 경우에 도움을 줄 수 있는 이러한 인덱스에 여분의 필드가 추가될 수 있다.
페이퍼 형식에서 문서 유효성(availability)을 나타내는 인덱스 엔트리
첫번째 예는, 문서가 존재하거나 혹은 페이퍼 형식으로 배포되었다고 알려졌다는 것을 나타내는 필드이다. 문의가 페이퍼로부터 온 경우, 본 시스템은 이러한 문서에 더 높은 우선순위를 부여할 수 있다.
인기 페이퍼 형식의 지식
이 예에서는 페이퍼 문서의 인기도에 관련된(및, 선택적으로는, 이들 문서내에서의 세부 영역에 관련된) 통계적 데이터 -예컨대, 스캐닝 동작의 양, 출판자 또는 다른 소스에 의해 제공된 발행부수 등- 가 사용되어, 그러한 문서에 더 높은 우선순위를 부여하고, (예컨대, 브라우저-기반 문의 또는 웹 검색에 대한) 디지털 부본의 우선순위도 올려준다.
렌더링된 포맷의 지식
또다른 중요한 예는 문서의 특정 렌더링의 레이아웃에 관한 정보를 기록하는 것일 수 있다.
예컨대 서적의 어느 특정 판(edition)과 관련하여, 인덱스는, 어디에서 줄이 끊기고 페이지가 끊기는지, 어떤 폰트가 사용되었는지, 보통과 다른 대문자가 있는지 등에 대한 정보를 포함할 수 있다.
또한 인덱스는, 이미지, 텍스트 박스, 표, 및 광고 등과 같은 페이지 상의 다른 항목과의 근접성에 대한 정보도 포함할 수 있다.
원본에 대한 의미론적 정보의 사용
마지막으로, 의미론적(semantic) 정보가 소스 마크업으로부터 추론될 수 있지만, 그러나 페이퍼 문서에서는 명확하지 않은데, 이를테면, 텍스트의 특정 조각이 판매를 위해 제공된 항목을 언급하거나 또는 어느 특정 문장이 프로그램 코드를 포함하고 있다는 사실이 또한 인덱스에 기록될 수 있다.
4.1.2. 캡쳐 방법에 대한 지식으로 인덱싱
인덱스의 특성을 변경할 수 있는 두번째 요소는, 사용될 가능성이 있는 캡쳐 타입에 대한 지식이다. 만약, 인덱스가 OCR 프로세스에서 쉽게 구별될 수 없는 문자를 고려한다거나 또는 문서에서 사용된 폰트에 대한 약간의 지식을 포함하고 있다면, 광학 스캔에 의해 개시된 검색을 하는 것이 유익할 것이다. 유사하게, 문의가 음성 인식에서 유래한다면, 유사한 사운드의 음소(phoneme)에 기초한 인덱스가 보다 더 효과적으로 검색될 것이다. 상술된 모델에서 인덱스의 사용에 영향을 줄 수 있는 또 다른 요소는, 인식 프로세스 동안의 반복 피드백의 중요성이다. 만약 텍스트가 캡쳐됨에 따라 검색엔진이 인덱스로부터 피드백을 제공할 수 있다면, 캡쳐의 정확성을 크게 향상시킬 수 있다.
오프셋을 이용한 인덱싱
인덱스가 섹션 9에서 상술한 오프셋-기반/오토코릴레이션 OCR 방법을 사용하여 검색될 가능성이 있을 경우, 일부 실시예에서는, 본 시스템이 적절한 오프셋이나 인덱스의 기호 정보를 저장하고 있다.
4.1.3. 다수의 인덱스
마지막으로, 상술된 시스템에서, 통상적으로 다수의 인덱스에 대해 검색을 수행할 수도 있다. 인덱스는 여러 장치나 통합 네트워크 상에서 유지될 수 있다. 일부 인덱스는 캡쳐 디바이스로 다운로드 될 수 있고, 또는 캡쳐 디바이스에 가까운 장치로 다운로드 될 수도 있다. 특별한 관심, 습관, 또는 허가를 갖는 사용자 또는 사용자 그룹에 대해서는 별도의 인덱스가 생성될 수 있다. 인덱스는 각 파일 시스템, 각 디렉토리, 심지어 사용자의 하드디스크 상의 각 파일에 대해 존재할 수 있다. 인덱스는 사용자 및 시스템에 의해 공개되고 서명(subscribe)될 수 있다. 그러면, 배포되고, 업데이트되고, 합병되고, 및 효과적으로 분리될 수 있는 인덱스를 구성하는 것이 중요할 것이다.
4.2. 문의의 취급
4.2.1. 캡쳐가 페이퍼로부터 온 것을 앎
검색엔진이 검색 문의가 페이퍼 문서로부터 유래한 것을 인식하였을 때, 검색엔진은 다른 액션을 취할 수 있다. 검색엔진은, 예컨대 특정 캡쳐 방법에 나타날 가능성이 있는 에러 형태에 대해 더 많은 허용을 두는 방식으로 문의를 취급할 수 있다.
검색엔진은 문의에 포함된 일부 지시자(예컨대 캡쳐의 특성을 나타내는 플래그)로부터 그것을 추론할 수 있고, 또는 문의 자체로부터도 추론할 수 있다(예컨대, OCR 프로세스에 전형적인 에러나 불확실성을 인식할 수 있다).
대안적으로, 캡쳐 디바이스로부터의 문의는 다른 소스로부터의 그것과는 다른 연결 채널이나 포트나 형태에 의해 엔진에 도달할 수 있고, 그러한 방식으로 구별될 수 있다. 예컨대, 본 시스템의 일부 실시예는 전용 게이트웨이를 통해 문의를 검색엔진으로 보낼 것이다. 따라서, 검색엔진은 전용 게이트웨이를 지나가는 모든 문의가 페이퍼 문서로부터 유래한 것임을 알고 있다.
4.2.2. 컨텍스의 이용
아래의 섹션 13은, 캡쳐된 텍스트 자체의 외부에 있지만 그러나 문서를 식별하는데 중요한 도움이 될 수 있는 다양한 다른 요소들에 대해 설명한다. 이러한 것들에는 최근 스캔의 이력, 특정 사용자의 장기간 독서 습관, 사용자의 지리적 위치, 및 특정 전자 문서에 대한 사용자의 최근 사용 등이 포함된다. 이러한 요소들은 여기서 "컨텍스트"라고 언급된다.
컨텍스트의 일부는 검색엔진 자체에 의해 취급될 수 있고, 검색 결과에 변영될 수도 있다. 예컨대, 검색엔진은 사용자의 스캔 이력을 추적할 수 있고, 이 스캔 이력을 기존의 키보드-기반 문의와 상호-참조(cross-reference)시킬 수도 있다. 그러한 경우, 검색엔진은 각각의 개별 사용자에 대해 대부분의 기존 검색엔진이 하는 것보다 더 많은 상태 정보를 유지하고 사용하고 있으며, 검색엔진과의 각각의 인터랙션은 오늘날 전형적인 것보다 더 긴 기간 및 여러 검색들에 걸쳐 확장한다고 생각될 수 있다.
컨텍스트의 일부는 검색 문의시 검색엔진으로 전송될 수 있고(섹션 3.3), 장래의 문의에서 일부로서 역할하기 위해 엔진에 저장될 수도 있고, 따라서 검색엔진으로부터의 결과에 적용되는 필터 또는 부차적 검색이 된다.
검색에의 데이터- 스트림 입력
검색 프로세스로의 중요한 입력은, 어떻게 사용자 커뮤니티가 문서의 렌더링된 버전과 인터랙팅하는가에 대한 더 넓은 컨텍스트 이다 -예컨대, 어떤 문서가 가장 널리 읽혀지고 누구에게 읽혀지는가. 이것은, 가장 자주 링크되는 페이지나 지난번 검색결과로부터 가장 자주 선택되는 페이지를 복귀시키는 웹 검색과 유사하다. 이에 대한 더 자세한 논의는 섹션 13.4 및 14.2를 참조.
4.2.3. 문서 서브-영역
상술된 본 시스템은 전체로서 문서에 대한 정보 뿐만 아니라 문서의 서브-영역에 대한, 심지어 개개의 단어까지에 대한 정보도 발행하고(emit) 사용한다. 기존의 많은 검색엔진들은 단지 특정 문의에 관련된 파일이나 문서를 찾는 것에 관심을 집중하고 있다. 더 미세한 것(finer grain)에도 작용하여 문서 내에서의 위치까지도 식별할 수 있는 검색엔진은 상술한 본 시스템에 큰 이익을 제공할 것이다.
4.3. 결과를 제공함
검색엔진은, 제공된 결과에 영향을 주기 위해 현재 유지하고 있는 추가 정보 중 일부를 사용할 수 있다.
또한 본 시스템은, 단지 페이퍼 카피에 속하고 있다는 것의 결과로서 사용자가 액세스하고 있는 특정 문서를 제공할 수도 있다(섹션 7.4 참조).
또한 검색엔진은, 텍스트의 간단한 검색을 넘어서, 상술한 시스템에 적합한 새로운 액션이나 옵션을 제공할 수도 있다.
5. 마크업, 주석, 및 메타데이터
캡쳐-검색-발견(retrieve) 프로세스를 수행하는 것에 더하여, 상술한 본 시스템은 여분의 기능성을 문서와 연관시키고, 보다 구체적으로는, 문서 내의 텍스트의 특정 위치나 세그먼트와 연관시킨다. 이 여분의 기능성은 종종, 전적으로 그런 것은 아니지만, 그의 전자 부본과 연관됨으로 인해 렌더링된 문서와 연관된다. 일 예로서, 웹 페이지의 하이퍼링크는 그 웹페이지의 프린트 출력물이 스캔될 때 동일한 기능성을 가질 수 있다. 몇몇의 경우, 이러한 기능성은 전자 문서에 한정되지 않고, 다른 곳에서도 저장되거나 생성된다.
이러한 부가 기능성의 층(layer)은 여기서 "마크업"이라고 언급된다.
5.1. 오버레이 , 정적 및 동적
마크업에 대해 생각하는 한가지 방법은 문서 상의 "오버레이"로서 인데, 이것은 문서 또는 문서의 일부분에 대한 추가 정보를 제공하거나, 문서 또는 문서의 일부분에 연관된 액션을 특정할 수 있다. 마크업은 사람이 판독할 수 있는 컨텐트를 포함할 수 있지만, 종종 사용자에게 보이지 않거나 및/또는 기계적 사용으로만 의도된다. 그러한 예로서, 사용자가 렌더링된 문서의 특정 영역으로부터 텍스트를 캡쳐하거나 혹은 특정 문구의 발음을 설명하는 오디오 샘플을 캡쳐할 때, 근처의 디스플레이 상에 팝업 메뉴가 디스플레이되는 옵션이 있다.
5.1.1. 여러 소스로부터 가능한 여러 층
임의의 문서는 다수의 오버레이를 동시에 가질 수 있고, 이들은 다양한 위치로부터 유래될 수 있다. 마크업 데이터는 문서의 작가, 사용자, 또는 또다른 측에 의해 생성되거나 공급될 수 있다.
마크업 데이터는 전자 문서에 첨부되거나 또는 그에 내장될 수 있다. 마크업 데이터는 종래의 위치에서(예컨대, 동일한 문서이지만 다른 파일네임 접미사를 갖는 곳에) 발견될 수 있다. 마크업 데이터는 원본 문서의 위치를 찾은 문의의 검색결과에 포함될 수 있고, 또는 동일한 또는 상이한 검색엔진에서의 별개의 문의에 의해 발견될 수 있다. 마크업 데이터는 최초의 캡쳐된 텍스트 및 다른 캡쳐 정보 또는 컨텍스트 정보를 사용하여 발견될 수 있고, 또는 캡쳐의 위치와 문서에 대한 기존에 추론된 정보를 사용하여 발견될 수 있다. 마크업 그 자체가 문서에 포함되 어 있지 않더라도, 마크업 데이터는 문서에 특정되어 있는 위치에서 발견될 수 있다.
종래의 html 웹페이지에 대한 링크가 html 문서 내에 정적 데이터(static data)로서 종종 내장되는 방식과 유사하게, 마크업은 문서에 대개 정적이고 특유한 것일 수 있다. 그러나 마크업은 많은 수의 문서에 대해 동적으로 생성 및/또는 적용 될 수도 있다. 동적 마크업의 일 예는, 문서에서 언급된 회사의 최신 주식가격을 포함하는 그 문서가 첨부되어 있는 정보이다. 널리 적용되는 마크업의 일 예는, 다수의 문서나 문서의 섹션에 대해 특정 언어로 자동적으로 이용가능한 번역 정보이다.
5.1.2. 개인 "플러그-인" 층
사용자는 또한 마크업 데이터를 인스톨하거나 그것의 특정 소스에 서명할 수 있고, 따라서 특정 캡쳐에 대한 시스템 반응을 개인화시킨다.
5.2. 키워드 및 문구, 상표 및 로고
문서의 일부 요소는, 특정 문서내의 위치 보다는 그들 자체의 특성에 기초하여 그들과 연관되어 있는 기능성 또는 특정 "마크업"을 가질 수 있다. 예로서, 사용자에게 어느 조직에 관한 추가 정보를 링크시킬 수 있는 로고 및 상표 뿐만 아니라, 순수하게 스캔될 목적으로 문서에서 프린트되는 특정 마크가 있다. 동일한 원리가 텍스트 내의 "키워드" 또는 "키 문구"에도 적용된다. 조직들은 그들이 연관되어 있는 혹은 그들이 연관되고 싶어하는 특정 문구들을 등록할 수 있고, 그 문구가 어디에서 스캔되든지 간에 이용가능하게 되는 특정 마크업을 부착한다.
어떤 단어, 문구 등도 연관 마크업을 가질 수 있다. 예컨대, 본 시스템은, 사용자가 언제 단어 "책" 또는 책제목 또는 책에 관련된 토픽을 캡쳐하든지 간에, 특정 항목을 팝업 메뉴에 추가할 수 있다(예컨대 온라인 서점으로의 링크). 본 시스템의 일부 실시예에서, 단어 "책", 책 제목, 또는 책에 관련된 토픽 근처에서 캡쳐가 발생하였는지를 판단하기 위해 디지털 부본 문서 또는 인덱스가 참조될 수 있고, 시스템의 움직임이 키워드 요소의 이러한 근접성에 따라 변경된다. 앞서의 일예에서, 마크업으로 인해, 비상업적 텍스트 또는 문서로부터 캡쳐된 데이터가 상업적 트랜잭션을 유발할 수 있다는 점에 유의하라.
5.3. 유저-공급된 콘텐트
5.3.1. 멀티미디어를 포함한, 유저 코멘트 및 주석
주석은 문서와 연관될 수 있느 다른 유형의 전자 정보이다. 예로서, 유저는 음성 주석으로서 이후의 검색을 위해 특정 문서에 대한 자신의 생각의 오디오 파일을 첨부할 수 있다. 멀티미디어 주석의 다른 예로서, 유저는 문서라 칭해지는 곳에 사진을 첨부할 수 있다. 유저는 문서를 위한 주석을 공급하지만 시스템은 다른 소스로부터의 주석을 연관시킬 수 있다(예로서, 워크 그룹내의 기타 유저를 공유한다).
5.3.2. 프루프 -판독으로부터의 노트
유저-소스화된 마크업의 중요한 예는 프루프-판독, 편집 또는 검토 목적의 일부분으로서 종이 문서로 된 주석이다.
5.4. 써드 -파티 콘텐트
상기한 바와 같이, 마크업 데이터는 문서의 다른 판독제에 의하는 바와 같이, 써드-파티에 의해 공급될 수 있다. 온라인 토의 및 검토인, 특정 작업, 자원봉사자에 의한 번역 및 설명에 관한 컴뮤니티-관리 정보와 같은 것은 좋은 예이다.
써드-파티 마크업의 다른 예는 광고주에 의해 제공된다.
5.5. 유저 데이터 스트림에 기초한 동적 마크업
시스템의 여러 또는 모든 유저에 의해 문서로부터 획득된 데이터를 분석함에 의해, 마크업은 컴뮤니의 활동 및 관심사를 기초로 발생될 수 있다. 예로서는 "이 책을 즐긴 사람은 또한 ...도 즐긴다"라는 것을, 유저에게 말하는 ㅈ 또는 마크업을 생성하는 온라인 책방일 수 있다. 마크업은 익명성이 덜 할 수 있고, 유저에게 그의 계약 리스트의 어느 사람이 이 문서를 최근에 읽었는 지를 알려줄 수 있다. 데이터스트림 분석의 다른 예는 섹션 14에 포함되어 있다.
5.6. 외부 이벤트 및 데이터 소스에 기초한 마크업
마크업은 흔히, 통합된 데이터베이스로부터의 입력, 공중 인터넷으로부터의 정보 또는 로컹 운영체제에 의해 수집된 통계치와 같은, 데이터 소스 및 외부 이벤트에 기초한다.
데이터 소스는 더욱 로컬일 수 있고, 특히 유저의 신분, 지역 및 활동과 같은 유저의 콘텍스트에 대한 정보를 제공할 수 있다. 예로서, 시스템은 유저의 모바일 폰과 통신할 수 있고 유저가 최근에 전화로 통화나 누군가에게 문서를 전송할 옵션을 부여하는 마크업 층을 제공한다.
6. 인증, 개인유별화 및 보안
대부분의 상황에서, 유저의 신분은 공지되어진다. 때때로 이것은 "익명 신분"으로 되고, 요기서 유저는 예로서 캡쳐 디바이스의 일련번호에 의해서만 식별된다. 통상적으로, 시스템은 시스템을 개인유별화하는 데에 사용될 수 ㅣㅇㅆ고 활동 및 트랜잭션이 유저의 이름으로 수행될 수 있게 하기 위해, ㄱ에 대한 더욱 상세한 지식을 갖는 것이 예상된다.
6.1. 유저 이력 및 "수명 라이브러리"
시스템이 수행할 수 있는 가장 간명하고 유용한 기능중의 하나는 유저가 캡쳐한 텍스트에 대한 유저의 레코드 및, 발견된 임의의 문서에 대한 상세사항, 이 문서내의 위치 및 결과적으로 취해진 임의의 액션을 포함하는, 그 캡쳐에 관련된 임의 추가 정보를 유지하는 것이다.
이 저장된 이력은 유저 및 시스템 모두에 유익하다.
6.1.1 유저 위해
유저에게는, 유저가 판독 및 캡쳐한 모든 것에 대한 레코드인, "수명 라이브러리"가 주어질 수 있다. 이것은 단순히 개인적인 관심사일 수 있지만, 예로서 그의 다음 페이퍼의 섹인을 위한 자료를 수집하는 학자에 의해 라이브러리에 사용될 수 도 있다.
몇몇 환경에서, 유저는 다른 사람들이 판독하는 알고 관심사항을 발견할 수 있도록, 웹로그에 마찬가지 방식으로 웹상에서 그것을 출판함에 의해, 라이브러리가 공표되길 바랄 수 있다.
마지막으로, 유저가 일부 텍스트를 획득하고 시스템이 이 캡쳐에 대해 즉시 작용할 수 없는 경우에(예로서, 문서의 전자 버젼이 아직 이용블가능하기 때문에) 캡쳐는 라이브러리에 저장될 수 있고 유저의 요구에 따라 또는 자동으로, 이후에 처리될 수 있다. 유저는 새로운 마크업 서비스에 가입할 수 있고 이것들을 이전에 캡쳐된 스캔에 적용할 수 있다.
6.1.2. 시스템을 위해
유저의 과거 캡쳐에 대한 레코드는 시스템을 위해서도 유용하다. 시스템 동작의 대다수 태양은 유저의 판독 습관 및 이력을 앎으로써 향상될 수 있다. 가장 간명한 예는 유저에 의해 행해진 임의의 스캔은 유저가 가장 최근에 스캔한 문서로부터 올 가능성이 높고 특히 이전 스캔이 최종 수분 전에 행해졌다면 그것은 동일한 문서로부터 올 가능성이 매우 높다. 마찬가지로, 문서는 시작-끈 순서로 판독될 가능성이 더 높다, 따라서, 예로서, 영어 문서인 경우, 나중의 스캔은 문서에서 더욱 멀리 아래로 발생할 가능성이 높다. 그러한 요인들은 모호성의 경우에 시스템이 캡쳐의 위치를 수립하는 데에 도움을 줄 수 있고, 또한 캡쳐되어야 할 텍스트의 양을 감소시킬 수 있다.
6.2 지불 , 아이덴티티 및 인증 디방스와 같은 스캐너
캡쳐 프로세스는 광학 스캐너 또는 음성 레코더와 같은 일정 종류의 디바이스로 시작하기 때문에, 이 디바이스는 유저를 식별하고 일정한 액션을 인증하는 키로서 사용될 수 있다.
6.2.1. 스캐너와 전화 또는 기타 계정과의 연관
디바이스는 모바일 폰에 내장되거나 또는 기타 방식으로 모바일 폰 계정과 연관될 수 있다. 예로서, 스캐너는 모바일 폰 계정과 연관된 SIM 카드를 스캐너에 삽입함에 의해 모바일 폰 계정과 연관될 수 있다. 마찬가지로, 디바이스는 크레딧 카드 또는 기타 지불 카드에 내장되거나 또는 그것에 연결되는 카드를 위한 기능설비를 가질 수 있다. 디바이스는 지불 토큰으로 사용될 수 있고, 지불 트랜잭션은 렌더링된 문서로부터의 캡쳐에 의해 개시될 수 있다.
6.2.2. 인증을 위해 스캐너 입력 사용
스캐너는 유저 또는 계정과 연관된 몇몇 토큰, 심볼 또는 텍스트를 스캐닝하는 프로세스를 통해 특정 유저또는 계정과도 연관될 수 있다. 또한, 스캐너는 예로서 유저의 지문을 스캐닝함에 의해, 생체정보를 위해 사용될 수 있다. 오디오-기잔 캡쳐 디바이스의 경우에, 시스템은 유저의 음성 패턴을 매칭함에 의해 또는 유저가 일정한 암호 또는 구절을 말하도록 요구함에 의해 유저를 식별할 수 있다.
예로서, 유저가 책으로부터 일정한 인용구를 스캐너하거나 온라인 판매자로부터 책을 구입할 옵션이 제공된다면, 유저는 이 옵션을 선택할 수 있고, 그후 트랜잭션을 확인하기 위해 유저의 지문을 스캔하도록 프롬프팅한다.
섹션 15.5. 및 15.6.도 참조 하시요
6.2.3. 보안 스캐닝 디바이스
캡쳐 디바이스가 유저를 인증 및 식별하기 위해 그리고 유저를 대신하여 트랜잭션을 개시시키기 위해 사용되는 경우, 시스템의 다른 부분과 디바이스간의 통신이 보안유지되는 것이 매우 중요하다. 또한 다른 디바이스가 스캐너를 대역하는 상황, 또는 다른 컴포넌트와 디바이스간의 통신이 인터셉트되는 소위 "중간에 낀 사람" 공격에 대해 보호하는 것이 매우 중요하다.
그러한 보안을 제공하기 위한 기술은 당업계에서 양호하게 잘 이해되고; 다양한 실시예, 디바이스에서의 하드웨어 및 소프트웨어 및 시스템네의 다른 곳은 그런 기술을 구현하기 위해 구성된다.
7. 모델 및 엘리먼트 출판
상기한 시스템의 이점은 시스템의 다수의 이점을 얻기 위해 문서를 생성, 인쇄 및 출판하는 종래의 프로세스를 변경할 필요가 없다는 것이다. 문서의 생성자 또는 출판자-이후엔 단순히 "출판자"로서 참조됨-는 상기한 시스템을 지원하는 기능을 생성하길 원하는 이유가 있다.
이 섹션은 주로 출판된 문서와 관련된다. 광고와 같은, 기타 상용 트랜잭션에 관한 정보에 대해서는 " P-커머스"라는 제목의 섹션 10을 참조하시요.
7.1. 인쇄된 문서에 대한 전자 컴패니언
시스템은 문서가 연관된 전자 프레즌스를 갖는 것을 허용한다. 종ㅎ래에 출판자는 CD-ROM에 추가 디지털 정보, 교습 영화 및 기타 멀티미디어 데이터, 샘플 코드 또는 문서, 또는 추가의 기준 재료등을 포함하는 북을 탑재한다. 또한, 몇몇 출판자는 출판 시점 후 갱신될 수 있는 정보 및, 오자, 추가 코멘트, 갱산된 기준 재료, 색인 및 관련 데이터의 추가 소스, 및 다른 언어로의 번역과 같은, 그러한 재료를 제공하는 특정 출판물과 연관된 웹사이트를 유지한다. 온라인 포럼은 독자가 출판물에 대해 그들의 코멘트를 달 수 있도록 한다.
상기한 시스템은 그러한 재료들이 이전 것 보다 렌더링된 문서에 더욱 밀접 하게 결합되는 것을 허용하고, 그리고 그들의 발견과 그들과의 상호작용이 유저에 대해 더욱 용이하게 될 수 있도록 한다. 문서로부터의 텍스트의 일부를 캡쳐함에 의해, 시스템은 자동적으로 유저를 문서와 연관된 디지털 재료에 자동적으로 연결시킬 수 있고, 더욱 상세히는 문서의 특정 부분과 연관된다. 마찬가지로, 유저는 텍스트의 그 섹션을 토의하는 온라인 커뮤니티에, 그리고 다른 독자에 의해 주석 및 해석에 연결될 수 있다. 과거에, 그러한 정보는 통상적으로 특정 쪽전호 또는 장을 탐색함에 의해 차아질 필요가 있곤 했다.
이러한 예시적 애플리케이션은 학문적 교재 분야이다(섹션 17.5).
7.2. 인쇄된 문서에 대한 "가입"
몇몇 출판자는 독자들이 새로운 관련 자료를 통지받기 원한다면 또는 책의 새로운 판이 출판되는 경우 가입할 수 있는 메일링 리스트를 가질 수 있다. 설명된 시스템으로, 유저는 특정 문서 또는 문서의 일부분에서 관심사항을 등록할 수 있고, 출판자가 임의의 그러한 기능을 제공하는 것을 고려하기 이전인 경우에도 등록할 수 있다. 독자의 관심사항은 출판자에게 제공될 수 있고, 언제 및 어느 때 갱신본, 추가 정보, 세로운 판 또는 기존 책에서 관심있는 것으로 wmd명된 주제에 관한 완전히 새로운 출판물을 제공할 지에 대한 그들의 결정에 영향을 미칠 수 있다.
7.3. 특정한 의미를 갖춘 또는 특정한 데이터를 포함하는 인쇄된 마크
시스템의 다수의 태양은 문서에 이미 존재하는 텍스트의 사용을 통해 단순히 인에이블된다. 문서가, 시스템과 연관지어 사용될 수 있다는 지식하에서 산출된다 면, 여분의 기능은 특정 마크 형태로 여분의 정보를 인쇄함에 의해 추가될 수 있고, 이것은 텍스트 또는 필요한 액션을 식별하는 데에 사용될 수 있고, 또는 그렇지않으면 시스템과 문서의 상호작용을 향상시킨다. 가명하고 가장 중요한 예는 문서가 명확하게 시스템을 통해 액세스가능하다는 것을 독자에게 지시하는 것이다. 특정항 아이콘이, 그 문서가 그것과 연관된 온라인 포럼을 갖는다는 것을 지시하는 데에 사용될 수 있다.
그러한 심볼은 순전히 독자를 의도한 것일 수 있거나, 일정한 액션을 개시시키는 데에 사용되고 스캐닝된 경우 시스템에 의해 인식될 수 있다. 충ㅂ준한 데이터는 심볼 이상의 것을 식별하기 위해 심볼로 인코딩 될 수 있고; 그것은 또한 시에 의해 인식 및 판독될 수 있는, 심볼의 위치, 판, 문서에 관한 정보를 저장할 수 있다.
7.4. 페이퍼 문서의 소유를 통한 인증
인쇄 문서의 소유 또는 그에 대한 액세스가, 예로서 문서의 전자 복사본 또는 추가 재료로의 액세스와 같은, 일정한 특권을 유저에게 부여하는 몇몇 상황이 있다. 상기한 시스템으로, 그러한 특권은 유저가 문서로부터 텍스트의 일부분을 캡쳐링하거나, 또는 특정하게 인쇄된 심볼을 스캐닝함에 의한 결과로서 간단하게 허여될 수 있다. 시스템이, 유저가 전체 문서를 소유하고 있었다는 것을 보장할 것이 필요로 되는 경우에, 유저에게 특정 페이지로부터 특정 항목 또는 어구, 예로서 " 페이지 46의 두번째 라인"과 같은 것을 스캐닝하도록 프롬프팅할 수 있다.
7.5. 만료하는 문서
인쇄 문서가 여분의 재료 및 기능으로의 게이트웨이이면, 그러한 특징으로의 액세스는 시간제약에 놓일 수 있다. 만료날짜 후, 유저는 요금을 지불하거나 상기와 같은 특징들을 다시 액세스하기 위해 문서의 새로운 버젼을 획득하는 것이 요구될 수 있다. 페이퍼 문서는 물론 여전히 사용가능하지만, 그 향상된 전자 기능의 일부를 손실하게 된다. 이것은, 출판자가 전자 재료로의 액세스를 위한 요금을 수납하는 경우, 또는 유저가 때때로 새로운 버젼을 획득힐 필요가 있는 경우, 이점이 있기 때문에, 또는 배포중 남아있는 인쇄된 문서의 오래된 버젼과 연관된 단점이 있기 때문에, 소망된다.
7.6. 인기도 분석 및 출판 결정
섹션 10.5는 광고 가격 및 저자의 보상에 영향을 미치는 시스템의 통계치의 사용을 토의한다.
몇몇 실시예에서, 시스템은 페이퍼 문서뿐 아니라 그것과 연관된 전자 커뮤니팅서의 활동으로부터 출판물의 인기도를 추론한다. 이들 요인들은 출판자 미래에 출판할 것에 대한 결정을 행하는 데에 조력한다. 기존의 책에서 장이 지나치게 인기 있는 것으로 판명되면, 별개의 출판으로 확대될 가치가 있을 것이다.
8. 문서 액세스 서비스
설명된 시스템의 중요한 태양은 문서의 렌더링된 카피에 대한 액세스를 갖는 유저에게 그 문서의 전자 버젼에의 액세스 능력을 부여하는 것이다. 몇몇 경우에, 문서는 유저가 액세스하는 개인 네트워크 또는 공중 네트워크상에서 자유로이 이용가능하다. 시스템은 문서를 식별, 탐지 및 검색하기 위해 캡쳐된 텍스트를 사용하 고, 몇몇 경우엔 그것을 유저의 스크린에 디스플레이하거나 그것을 유저의 이메일 박스에 위치시킨다.
몇몇 경우에, 문서는 전자 형태로 이용가능하지만 여러 이유로 유저에게 액세스불가능할 수 있다. 문서를 검색하는 데에 충분한 연결이 없을 수 있고, 유저는 그것을 검색할 권한이 없을 수 있고, 그것을 액세스하는 권한관과 연관된 비용이 들 수 있고, 또는 문서는 단지 여러 간으성을 지명하기위해, 새로운 버젼으로 대체가능하고 철회될 수 있다. 시스템은 통통상적으로 피드백을 이들 상황에 대해 유저에게 제공한다.
섹션 7.4에 설명된 바와 같이, 특정 유저에게 허영된 액세스의 정도 또는 특성은 유저가 이미 문서의 인쇄된 카피에 대한 액세스를 갖는다면 상이할 수 있다.
8.1. 인증된 문서 액세스
문서로의 액세스는 특정 유저 또는 특정 기준을 충족하는 유저에게로 제한적일 수 있거나, 유저가 보안 네트워크에 연결된 경우와 같은 일정 환경에서만 이용가능하다. 섹션 6은 유저의 신뢰도 및 스캐너가 수립될 수 있는 몇몇 방식을 설명한다.
8.2. 문서 구입-복제권-소유 보상
일반공중에 자유로이 사용가능한 전자 문서는 비용지불, 또는 출판자 또는 복제권자에 대한 보상으로 액세스가능할 수 있다. 유저은 지불 설비를 구현할 수 있거나 섹션 6.2에 설명된 것을 포함하여, 유저와 연관된 지불 방법을 사용할 수 있다.
8.3 문서 에스크로우 프로액티브 검색
전자 문서는 흔히 일시적이고; 렌더링된 문서의 디지털 소스 버젼은 현재 이용가능하지만 미래에는 액세스불가능할 수 있다. 시스템은 유저가 요구받지 않은 경우에도, 유저를 대신하여 기존 버젼을 검색 및 저장하고, 따라서 ㅅ가 미래에 그성르요구하면 그거의 이용가능성을 보장한다. 이것은 또한 미래 캡쳐를 식별하는 프로세스의 일부로서 탐색하는 것과 같은, 시스템의 사용에 이용가능하다.
문서로의 액세스를 위해 지불이 요구되는 경우에, 신뢰된 "문서 에스크로우" 서비스는, 유저가 서비스로부터 문서를 요구해야한다면 복제권자가 미래에 충분히 보상된다는 보장으로, 가장 적합한 요금의 지불과 같은 경우에서와 같이, 유저를 대신하여 문서를 검색할 수 있다.
이 주제에관한 변형들은 문서가 캡쳐시점에 전자 형태로 이용불가능하다면 구현될 수 있다. 유저는 전자 문서가 이후 날짜에 이용가능하게 되어야한다면 유저를 대신하여 문서를 위한 지불을 행하거나 요구를 제출하도록 하는 서비스를 허가할 수 있다.
8.4. 기타 가입 및 계정과의 연관
때때로 지불은 다른 계정 또는 가입과의 기존 연관에 기초하여 포기, 감소 또는 충족될 수 있다. 신문의 인쇄된 버젼에 대한 가입자는 예로서, 전자 버젼을 검색할 자격이 자동으로 부여될 수 있다.
그밖의 경우에, 연관은 덜 직접적일 수 있는 데; 유저는 그들의 고용주에 의해 수립된 계정에 기초하여, 또는 가입자인 친구에 의해 소우된 인쇄된 카피의 스 캐닝을 기초로 하여 액세스권한이 부여될 수구 있다,
8.5 포토카핑을 스캔 및 인쇄로 대체하기
페이퍼 문서로부터 텍스트를 캡쳐링하고, 전자적 원본을 식별하고, 캡쳐와 연관된 원본의 일부 또는 원본을 인쇄된하는 프로세스는 다양한 이점을 지닌 채 종래의 포토카핑에 대한 대안을 형성한다.
·페이퍼 문서는 최종 인쇄본과 동일 위치에 있을 필요가 없고, 임의 경우에 동일 시간에 그곳에 있을 필요가 없다.
·포토카핑 프로세스에 의해 페이퍼 문서, 특히 오래되고, 약하고 값어치 있는 문서에 야기된 마모 및 손상은 방지도리 수 있다.
·복사본의 품질은 통상적으로 더욱 높다.
·어느 문서 또는 가장 빈번히 복사되는 문서의 일부분에 관한 레코드가 유지될 수 있다.
·지불은 프로세스의 일부로서 복제권자에 행해질 수 있다.
·승인되지 않은 복사는 금지된다.
8.6 포토카피로부터 귀중한 원본을 위치지정함
문서가 법적 문서 또는 역사적 또는 기타 특정 중요성을 가는 문서인 경우와 같이 특히 귀중한 경우에, 사람들은 원본은 안전한 위치에 보관한 채 흔히 ㅅ년 동안 이들 문서의 복사본을 이용한다.
설명된 시스템은, 누군가가 보관된 원본 페이퍼 문서를 찾기위해 복사본에 대한 액세스를 용이하게 하는, 예로서 보관 창고에, 원본 문서의 위치를 기록하는 데이터베이스에 연결될 수있다.
9. 텍스트 인식 기술
광학식 문자 인식(OCR) 기술은 전통적으로 전체 페이지를 캡쳐링하는 플랫-베드 스캐너로부터, 대량의 텍스트를 포함하는 이미지에 집중되어왔다. OCR 기술은 흔히 유용한 텍스트를 생성하기 위해 유저에 의한 상당한 훈련 및 보정을 필요로 한다. OCR 기술은 흔히 OCR을 수행하는 머신에 대한 상당한 처리 능력을 필요로 하는 한편, 다수의 시스템은 사전을 사용하는 데, 그들은 효과적으로 무한한 용어로 동작하는 것이 예상된다.
상기한 종래의 모든 특징들은 상기한 시스템으로 개선될 수 있다.
이 섹션이 OCR에 대해 집중된 반면에, 토의된 다수의 이슈들은 특히 음성 이닛과 같은, 기타 인식 기술에 직접 매핑된다. 섹션3.1에서 설명된 바와 같이, 페이퍼로부터 클링하는 프로세스는 오디오를 캡쳐링하는 디바이스내로 텍스트를 판독함에 의해 유저에 의해 달성된다. 당업자는 이미지, 폰트 및 텍스트 조각에 대해 여기에서 설명된 원리가 흔히 오디오 샘플, 유저 음성 모델 및 음소에 대해 적용됨을 이해할 것이다.
9.1 적절한 디바이스를 위한 최적화
상기한 시스템에 사용을 위한 스캐닝 디바이스는 소형, 휴대형 및 저전력이다. 스캐닝 디바이스는 한 타임에 단지 몇개의 워드만 캡쳐할 수 있고, 몇몇 구현에선 한번에 완전한 한 문자를 캡쳐하지 못할 수 있는 반면에 텍스트를 통해 한 수평 슬라이스를 캡쳐할 수 있는 데, 다수의 그러한 수평 슬라이스는 텍스트가 유추 될 수 있는 인식가능한 신호를 함께 형성한다. 스캐닝 디바이스는 또한 매우 제한적인 프로세싱 파워 또는 저장을 갖고 따라서, 몇몇 실시예에서 모든 OCR 프로세스를 수행ㅎㄹ 수 있는 반면에, 다수의 실시예는 캡쳐된 신호를 텍스트로 변환하기 위해, 가능하면 나중에, 더욱 강력한 디바이스로의 연결에 좌우되게 된다. 마지막으로, 그것은 유저 상호작용을 위한 매우 제한된 기능을 갖고, 따라서 이후의 유저 입력을 위해 임의 요구를 지연시킬 필요가 있거나, 지금 보다 더욱 큰 정도로 "최선-추측" 모드로 동작할 필요가 있다.
9.2 "일정치않은" OCR
상기한 시스템내의 OCR의 주요한 새로운 특징은 일반적으로, 그것이 디지털 형태로 검색될 수 있고 어느 곳에 존재하는 텍스트의 이미지를 검사할 것이라는 사실이다. 텍스트의 정확한 트랜스크립션은 반드시 OCR 엔진으로부터 요구되는 것은 아니다. OCR 시스템은 몇몇 경우엔 확률 가중치를 포함하는 가능한 매치의 행렬 또는 집합을 출력하고, 그것은 디지털 원본을 탐색하기 위해 사용될 수 있다.
9.3 반복적 OCR-추측, 명확화, 추측...
인식을 수행하는 디바이스가 프로세싱시 문서 인덱스를 접촉할 수 있다면, OCR 프로세스는 그것이 진행함에 따라 문서 본체의 콘텐츠에 의해 통지될 수 있고, 잠재적으로 상당히 큰 인식 정확도를 제공한다.
그러한 연결은 충분한 텍스트가 디지털 소스를 식별하기 위해 캡쳐된 경우에 디바이스가 유저에게 통지할 수 있게 한다.
9.4. 유사한 렌더링 지식 이용
시스템이 문서의 유사하게 인쇄된 렌더링의 여러 태양-페이지의 레이아웃 또는 인쇄에 사용된 폰트 타이프페이스와 같은, 또는 어느 섹션이 이탤릭체인지와 같은-, 이것은 역시 인식 프로세스에 조력할 수 있다(섹션 4.1.1).
9.5. 폰트 캐싱- 호스트상의 폰트 결정, 클라이언트로의 다운로드
문서 커퍼스내에서의 후보자 소스 텍스트가 확인됨에 따라, 그것의 폰트, 또는 렌더링은 인식으로 도움을 주기위해 디바이스에 다운로드될 수 있다.
9.6. 자동보정 및 문자 오프셋트
텍스트 프래그먼트의 컴포넌트 문자가 문서 서명으로서 사용될 수 있는 텍스트의 프래그먼트를 표현하는 가장 잘 인식된 방법일 수 있 반면에, 텍스트의 다른 표현들은, 텍스트 프래그먼트를 디지털 문서 및/또는 데이터베이스에 위치시키고 시도하는 경우, 또는 텍스트 프래그먼트의 표현을 판독가능형태로 명확하하는 경우에, 텍스트 프래그먼트의 실제 텍스트가 사용될 필요가 없다는 것을 충분히 잘 나타낼 수 있다. 텍스트 프래그먼트의 기타 표현은 실제 텍스트 표현이 부족하다는 이점을 제공할 수 있다. 예로서, 텍스트 프래그먼트의 광학식 문자 인식은 흔히, 전체 프래그먼트에 대해 광학식 문자 인식에 의존함이 없이 텍스트 프래그먼트를 재생성하기 위해 탐색하는 데에 사용될 수 있는 캡쳐된 텍스트 프래그먼트의 기타 표현과는 다르게, 에러가 되기 쉬운 경향이 있다. 현재 시스템에 사용되는 몇몇 디바이스에 대해 더욱 적절할 수 있다.
당업자는 텍스트 프래그먼트의 외양을 기술하는 많은 방법이 있다는 것을 인식할 것이다. 텍스트 프래그먼트의 그러한 특징화는 다음과 같은 것에 제한되진 않지만, 워드 길이, 상대적 워드 길이, 문자 높이, 문자 폭, 문자 형태, 문자 빈도, 토큰 빈도등과 같은 것을 포함한다. 몇몇 실시예에서, 매칭 텍스트 토큰간의 오프셋트(즉, 간섭 토큰의 수에다 일을 더한 것)는 텍스트의 프래그먼트를 특징화하는 데에 사용된다.
종래의 OCR은 스캐닝된 텍스트의 문자를 결정하기 위한 시도로 폰트, 글자 구조 및 형태에 관한 지식을 이용한다. 본 발명의 실시예는 상이하고; 그것들은 인식 프로세스에서 조력하기 위해 렌더링된 텍스트 자체를 사용하는 다양한 방법을 채용한다. 이들 실시예는 "서로를 인식하기 위해" 문자(또는 토큰)을 사용한다. 그라러 자체-인식을 일컫는 한 예는 "템플릿 매칭", 이고 "컨볼루션"과 유사하다. 그러한 자체-인식을 수행하기 위해, 시스템은 텍스트의 복사본을 그 자체에 대해 수평으로 슬라이스하고 텍스트 이미지의 매칭 지역을 노트한다. 종래의 템플릿 매칭 및 컨볼루션 기술은 다양한 관련 기술을 포함한다. 문자/토큰을 토큰화 및/또는 인식하기 위한 기술은 문자/토큰이 매칭하는 경우 그 자신의 컴포넌트와 상관시키는 데에 사용된다.
자동보정의 경우, 매치하는 완전 연결된 지역은 관심있는 것이다. 이것은 문자(또는 문자의 그룹)이 동일 문자(또는 그룹)의 다른 인스턴스를 오버레이하는 경우 발생한다. 매치하는 완전 연결된 지역은 컴포넌트 토큰내에 텍스트의 토큰화를 자동으로 제공한다. 텍스트의 두 개의 복사본이 서로를 지나 슬라이딩됨에 따라, 완전한 매칭이 발생(즉, 수직 슬라이스의 모든 픽셀들이 매칭된다)하는 지역이 노트된다. 문자/토큰이 스스로 매칭하는 경우, 이 매칭의 수평 범위(예로서, 텍스 트의 연결된 매칭부)도 매칭한다.
이 스테이지에서 각각의 토큰의 실제 아이덴티티즉, 토큰 이미지에 대응하는, 특정 글자, 숫자 또는 심볼, 또는 이들의 그룹)를 결정할 필요가 없고, 단지 스캐닝된 텍스트에서의 동일 토큰의 다음 발생에 대한 오프셋트만을 결정할 필요가 있다. 오프셋트 수는 동일 토큰의 다음 발생까지의 거리(토큰의 수)이다. 토큰이 텍스트 스트링내에서 고유하면, 오프셋트는 제로(0)이다. 이렇게 발생된 토큰 오프셋트의 시퀀스는 스캐닝된 텍스트를 식별하기 위해 사용될 수 있는 서명이다.
몇몇 실시예에서, 스캐닝된 토큰의 스트링에 대하여 결정된 토큰 오프셋트는 그것들의 콘텐츠의 토큰 오프셋트에 기초하여 전자 문서의 본체를 색인하는 인덱스에 비교된다(섹션 4.1.2). 다른 실시예에서, 스캐닝된 토큰의 스트링에 대하여 결정된 토큰 오프셋트는 텍스트로 변환되고, 그것들의 콘텐츠에 기초하여 전자 문서의 본체를 색인하는 더욱 종래의 인덱스에 비교된다.
상기한 바와 같이, 유사한 토큰-상관 프로세스는 캡쳐 프로세스가 음성 워드의 오디오 샘플로 이루어지는 경우 음성 프래그먼트에 적용될 수 있다.
9.7. 폰트/문자 "자기-인식"
종래의 템플릿-매칭 OCR은 문자 이미지의 라이브러리에 스캐닝된 이미지를 비교한다. 본질적으로, 알파벳은 각각의 폰트에 대해 저장되고 새로이 스캐닝된 이미지는 매칭 문자를 발견하기위해 저장된 이미지와 비교된다. 이 프로세스는 올바른 폰트가 식별될 때 까지 초기 지연이 계속된다. 그후, OCR 프로세스는 비교적 고속인데 이는 대부분의 문서가 동이 폰트를 전체적으로 사용하기 때문이다. 후속 이미지는 따라서 최근 식별된 폰트 라이브러리와의 비교에 의해 텍스트로 변환될 수 있다.
가장 흔히 사용되는 폰트의 문자의 형태는 관련된다. 예로서 대부분의 폰트에서, 글자 "C" 및 글자 "e" 는 시각적으로 관련되고-"t" "f"등도 마찬가지이다. OCR 프로세스는 아직 스캐닝되지 않은 글자들에 대한 템플릿을 구성하기 위해 상기 관계를 사용함에 의해 향상된다. 예로서 판독기가 이전에 보지못한 폰트의 페이퍼 문서로부터 텍스트의 짧은 스트링을 스캔하여 시스템은 스캐닝된 이미지와 비교하는 이미지 템플릿의 셋트를 갖지 않는 경우, 시스템은 그것이 알파벳의 모든 글자를 아직 보지 못한 경우에도 폰트 템플릿 라이브러리를 구성하기 위해 일정한 문자들간에 가능한 관계를 레버리지할 수 있다. 시스템은 그러면 후속 스캐닝된 텍스트를 인식하기 위해 그리고 구성된 폰트 라이브러리를 더욱 정교하게 하기 위해 구성된 폰트 템플릿 라이브러리를 사용할 수 있다.
9.8. 인식되지 않은 것(그래픽을 포함한)은 어느 것이나 서버로 전송
이미지가 탐색 프로세스에서의 사용을 위한 적절한 형태로 기계 트랜스크립션될 수 없는 경우에, 이미지는 스스로 유저에 의한 나중의 사용을 위해, 가능한 수동 트랜스크립션을 위해, 또는 상이한 자원이 시스템에 이용가능할 수 있을 때 나중 날짜에서의 프로세싱을 위해, 보관될 수 있다.
10. P- 커머스
시스템에 의해 가능한 행해진 다수의 액션들은 몇몇 상용 트랜잭션이 발생하는 결과로 된다. 어구 P-커머스는 본원에서 시스템을 통한 페이퍼로부터 개시된 상용 액티비티들을 설명하기 위해 사용된다.
10.1. 물리적 인쇄된 복사본에 의한 문서의 판매
유저가 텍스트를 문서로부터 캡쳐하는 경우, 유저는 페이퍼 또는 전자 형태로 구입을 위한 그 문서가 제공된다. 유저는 페이퍼 문서에 인용된 또는 언급된 문서, 또는 동일 저자에 의한 문서 또는 유사한 주제와 같은 관련 문서들이 제공된다.
10.2. 페이퍼에 의해 개시되거나 도움을 받은 것들의 판매
텍스트의 캡쳐는 다양한 방식으로 사용 액티비티에 링크될 수 있다. 캡쳐된 텍스트는 아이템을 판매하도록 디자인된 카탈로그일 수 있고, 이경우 텍스트는 아이템의 구입과 매우 직접적으로 연관될 수 있다(섹션 18.2). 텍스트는 또한 광고의 일부분일 수 있고, 이 경우 광고되는 아이템의 판매는 계속이어질 수 있다.
그 밖의 경우에, 유저는 상용 트랜잭션에서 그들의 잠재적 관심사항이 유추될 수 있는 기타 텍스트를 캡쳐한다. 특정 국가의 소설 셋트의 독자는 그곳의 휴일에 관심이 갈 수 있다. 유저는 그들에게 몇몇 상용 기회가 결과적으로 제시될 수 있것을 아는 텍스트의 특정 프래그먼트를 캡쳐할 수 있고, 또는 그것은 그들의 캡쳐 활동의 부수적인 것일 수 있다.
10.3. 판매되어지는 아이템상의 레이블 , 아이콘, 일련번호, 바코드의 캡쳐
때때로 텍스트 또는 심볼은 실제로 아이템상에 또는 그것의 포장에 인쇄된다. 그 예로는 일련번호 또는 제품 id는 흔히 전자 방비의 피스의 바닥부 또는 후면상의 레이블에서 찾을 수 있다. 시스템은 유저에게 그 텍스트를 캡쳐링함에 의 해 하나 이상의 동일 아이템을 구입하는 편리한 방법을 제공한다.
10.4. 콘텍스추얼 광고
광고로부터 텍스트의 직접적 캡쳐외에, 시스템은 렌더링된 문서에서 반드시 명시적일 필요가 없는 새로운 종류의 광고를 허용하지만, 그럼에도 그것은 사람들이 판독하는 것에 기초하고 있다.
10.4.1. 스캔 콘텍스트 및 이력에 기초한 광고
종래의 페이퍼 출판에서, 광고는 신문 기사의 텍스트에 비해 큰 공간을 소비하고, 그리고 이것들의 제한돈 수가 특정 기사 주변에 배치될 수 있다. 상기한 시스템에서, 광고는 개별적인 워드 또는 구와 연관될 수 있고, 그 텍스트를 캡쳐링함에 의해 그리고 과거 스캔에 대한 그들의 이력을 고려함에 의해 유저가 도시한 특정 관심사에 따라 선택될 수 있다.
상기한 시스템으로, 특정 인쇄된 문서에 밀접하게되는 구입을 위해 그리고 특정 인쇄 출판물에서의 그들의 광고의 유효성에 대한 상당히 많은 피드백을 광고자가 얻는 것이 가능하다.
10.5. 보상의 모델
시스템은 광고자 및 시장판매자에 대한 보상의 몇몇 새로운 모델을 가능케 한다. 광고를 포함하는 인쇄된 문서의 발행자는 그들의 문서로부터 발생된 구입으로부터 약간의 수입을 얻을 수 있다. 이것은 광고가 원본 인쇄된 형태에 존재하는 지의 여부에 관계없이 트루이고; 그것은 전자적으로 출판자에 의해 또는 강고주 또는 제3자에 의해 추가되어질 수 잇고, 그러한 광고의 소스는 유저에 의해 가입되어 질 수 있다.
10.5.1. 인기도-기반 보상
시스템에 의해 발생된 통계치에 대한 분석은 출판물의 ㅇ리정 부분에 대한 인기도를 나타낼 수 있다(섹션 14.2.). 신문에서, 독자가 특정 페이지 또는 기사, 또는 특정 문서의 인기도를 보는 데 소비한 시간의 양을 나타낼 수 있다. 몇몇 환경에서, 작가 또는 출판업자는 반포된 복사본의 수 또는 기록된 워드와 같은 더욱 전통적인 메트릭스 보단 독자의 액티비티에 기초하여 보상을 받기에 적합할 수 있다. 그의 작품이 주제에 대한 권위가 빈번하게 판독되는 작가는 그의 착이 복사본 만큼 판매되지만 드믈게 열람되는 작가와는 미래의 계약에서 상이하게 고려될 수 있다.
10.5.2. 인기도-기반 광고
문서에서의 광고에 관한 결정은 독자관계에 대한 통계치에 기초할 수 있다. 가장 인기있는 컬럼니스트주변의 광고는 프리미엄 레이트로 판매될 수 있다. 광고자들은 문서가 그것이 어떻게 수용되는지에 대한 지식에 기초하여 출판된 후 일정 시간에 요금청구되거나 보상될 수 있다.
10.6. 수명 라이브러리에 기초한 마켓팅
섹션 6.1 및 16.1에 설명된 스캔 이력 또는 "수명 라이브러리"는 유저의 습관 또는 관심사항에 대한 정보의 극히 값어치 있는 소스일 수 있다. 적절한 동의 및 프라이버시 이슈에 종속하여, 그러한 데이터는 유저에게 상품 또는 서비스의 제공을 통지한다. 익명 형태의 경우에도, 수집된 통계치는 매우 유용할 수 있다.
10.7. (이용가능한 때)이후 날짜에서의 판매/정보
상용 트랜잭션을우한 광고 및 기타 기회들은 텍스트 캡쳐시에 유저에게 즉시 제공되지 않을 수 있다. 예로서, 소설에 대한 시퀄을 구입할 기회는 유저가 소설을 읽는 시점에 이용불가능할 수 있지만, 시스템은 시퀄이 출판된 경우 그것들에게 기회를 제공할 수 있다.
유저는 구입 또는 기타 상용 트랜잭션에 관련한 데이터를 캡쳐할 수 있지만, 캡쳐가 행해진 시점에서 트랜잭션을 개시 및/또는 완료하는 것을 선택하지 않을 수 있다. 몇몇 실시예에서, 캡쳐와 관련한 데이터는 수명 라이브러리에 저장되고, 이들 수명 라이브러리 엔트리는 "액티브"상태(즉, 캡쳐가 행해졌었던 시점에서 이용가능한 것들과 유사한 후속 상호작용할 수 있는)에 있을 수 있다. 따라서 유저는 어떤 나중 시점에 캡쳐를 리뷰할 수 있고, 선택적으로 그 캡쳐에 기초하여 트랜잭션을 완료할 수 있다. 시스템은 원래 캡쳐가 언제 어디서 발생했는 지를 추적할 수 있기 때문에, 트랜잭션에 포함된 모든 당사자들은 적절하게 보상받을 수 있다. 예로서 유저가 데이터를 캡쳐하는 광고의 바로 다음에 나타나는 -이야기를 출판한 출판자- 및- 이야기를 쓴 작가는 유저가, 6개월 후, 그들의 수명 라이브러리를 방문한 경우, 이력으로부터 특정한 캡쳐를 선택한 경우, 및 팝업 메뉴로부터 "이 아이템을 Amazon으로부터 구입"을 결정함에 의해 보상될 수 있다(이것은 캡쳐의 시점에서 선택적으로 제시된 메뉴와 동일 또는 유사할 수 있다).
11. 운영체제 및 애플리케이션 통합
현대 운영체제(OS) 및 기타 소프트웨어 패키지는 상기 시스템으로 유익하게 이용될 수 있는 다수의 특징을 가지며, 그것의 사용을 위해 더욱 양호한 플랫폼을 제공하기 위해 다양한 방식으로도 수정될 수 있다.
11.1. 메타데이터 및 인덱싱에서 스캔 및 인쇄-관련된 정보의 통합
새롭고 머지않아 다가오는 파일 시스템 및 그들의 연관된 데이터베이스는 흔히 각각의 파일과 연관된 다양한 메타데이터를 저장할 능력을 갖는다. 통상적으로, 이 메타데이터는 파일을 생성한 유저의 ID, 생성일짜, 최종 수정 및 최종 사용과 같은 것들을 포함한다. 더욱 새로운 파일 시스템은 키워드, 이미지 특징, 문서 소스 및 유저 코멘트와 같은 여분의 정보들이 저장되는 것을 허용하고 몇몇 시스템에서 이 메타데이터는 임의의로 확장될 수 있다. 파일 시스템은 그러므로 현재 시스템을 구현하는 데에 유용한 정보를 저장하는 데에 사용할 수 있다. 예로서, 데이터는, 상기 시스템을 사용하여 페이퍼로부터 어느 텍스트가 그리고 언제 누구에 의해 캡쳐되었는지에 대한 상세히 나타낼 수 있는 바와 같은 데이터는, 주어진 문서가 최종 인쇄되었을 때 파일 시스템에 의해 저장될 수 있다.
운영체제는 또는 유저가 로컬 파일을 더욱 용이하게 발견할 수 있게하는 탐색 엔진 기능을 통합하기 시작한다. 이들 기능들은 시스템에 의해 유익하게사용될 수 있다. 그것은 섹션 3 및 4에서 토의된, 다수의 탐색-관련 개념들은 오늘날의 인터넷-기반 및 유사한 탐색 엔진에 뿐만아니라 모든 개인용 컴퓨터에 적용되는 것을 의미한다.
몇몇 경우에 특정 소프트웨어 애플리케이션은 OS에 의해 제공된 기능 이강 및 그것을 넘어서는 시스템을 위한 지원을 포함하게 된다.
11.2. 캡쳐 디바이스를 위한 OS 지원
펜 스캐너와 같은 캡쳐 디바이스의 사용이 점점 일반화됨에 따라, 마우스 및 프린터에 제공되는 지원과 많이 유사한 방식으로, 지원체계를 운영체제에 구축하는 것이 바람직한 데, 이는 캡쳐 디바이스의 적용가능성이 단일 소프트웨어 애플리케이션 범위를 넘어 확장하기 때문이다. 시스템의 동작에 대한 기타 태양에 대해서도 마찬가지로 옳다. 몇몇 샘플이 이하에 설명된다. 몇몇 실시예에서, 전체 설명된 시스템, 또는 그 핵심부분이 OS에 의해 제공된다. 몇몇 실시예에서, 시스템을 우한 지원은 시스템의 태양을 직접 구현하는 것을 포함하는, 기타 소프트웨어 패키지에 의해 사용될 수 있는 애플리케이션 프로그래밍 인터페이스(APIs)에 의해 제공된다.
11.2.1. OCR 및 기타 인식 기술을 위한 지원
렌더링된 문서를 캡쳐링하기 위한 대부분의 방법은 시스템에 사용하기에 적합 텍스트와 같은, 스캐닝된 이미지 또는 몇몇 음성 워드등과 같은 소스 데이터를 해석하기 위해 몇몇 인식 소프트웨어를 필요로 한다. 어떤 OS는 그것이 OCR을 위한 지원을 포함하기엔 OS에 대해 덜 일반적일 지라도, 음성 또는 수기 인식을 위한 지원을 포함하는 데, 이는 과거에 OCR의 사용은 적은 범위의 애플리케이션에 제한되어왔기 때문이다.
인식 컴포넌트가 OS의 일부분이 되어짐에 따라, 드것들은 OS에 의해 제공된 기타 기능설비의 이점을 취할 수 있다. 대부분의 시스템은 철자 사전, 문법 분석 툴, 구제화 및 국부화 기능설비를 포함하는 데 이들 모두는 상기한 시스템의 인식 프로세스를 위해 상기 시스템에 의해 유익하게 채용될 수 있는 데, 이는 그것들이 특정 유저가 흔히 만나게 되는 단어 및 어구를 포함하도록 특정 유저를 위해 맞춤식으로 될 수 있기 때문이다.
운영체제가 전체-텍스트 인덱싱 기능설비를 포함한다면, 이것들은 또한 섹션 9.3에 설명된 바와 같은, 인식 프로세스를 통지하는 데에 사용될 수 있다.
11.2.2. 스캔에 취해져야 할 액션
광학 스캔 또는 기타 캡쳐가 발생하고 OS에 주어진다면, 어떠한 다른 시스템도 캡쳐에 대한 소유권을 주장하지 않는 경우의 환경하에서 취해져야 할 디폴트 액션을 갖는다. 디폴트 액션의 예는 유저에게 대안 선택권을 제시하는 것이거나, 캡쳐된 텍스트를 OS의 내장된 탐색기능설비에 전송하는 것이다.
11.2.3. OS는 특정 문서 또는 문서 유형에 대한 디폴트 액션을 갖는다
렌더링된 문서의 디지털 소스가 발견된다면, OS는 그 특정 문서 또는 그 부류의 문서가 스캔되었을 때 취해질 표준 액션을 가질 수 있다. 애플리케이션 및 기타 서브시스템은 일정한 파일 유형을 취급하는 그들의 능력에 대해 애플리케이션에 의한 방송과 유사한 방식으로, 특정 캡쳐 유형의 잠재적 핸들러로서 OD네 등록할 수 있다.
렌더링된 문서, 또는 문서로부터의 캡쳐와 연관된 마크업 데이터는 운영체제에 특정 애플리케이션을 런칭하고, 애플리케이션 인수, 파라미터, 또는 데이터등을 전달하게하는 명령을 포함할 수 있다.
11.2.4. 표준 액션내로의 매핑 및 제스처의 해석
섹션 12.1.3에서 "제스춰"의 사용이 설명되고, 특히 광학 스캐닝의 경우에, 핸드헬드 스캐너로 특정한 이동이 행해진 장소는 텍스트의 영역의 시작 및 끝을 표시하는 바와 같은 표준 액션을 표현한다.
이것은 텍스트의 영역을 선택하기 위해 커서 키를 사용하는 한편, 또는 문서를 스크롤하기 위해 마우스상의 휘을 사용하는 한편 키보드상의 시프트 키를 프레싱하는 바와 같은 액션과 유사하다. 유저에 의한 그러한 액션은 그것들이 OS에 의해 시스템-와이드 방식으로 해삭되는 충분히 표준이고, 이에따라 일정한 작용을 보장한다. 동일한 작용이 스캐너 제스춰 및 기타 스캐너-관련 액션에 바람직하다.
11.2.5. 표준(및 비-표준) 아이콘/텍스트 인쇄된 메뉴 아이템에 대한 셋트 응답
마찬가지 방식으로, 어떤 텍스트의 아이템 또는 기타 심볼은, 스캐닝되었을 때, 표준 액션이 발생하게 하고, OS는 이들에 대한 선택을 제공할 수 있다. 예로서는 임의의 문서에서 텍스트 "[인쇄]"를 스캐닝하는 것은 OS로 하여금 그 문서의 복사본을 검색 및 인쇄하게 할 수 있다는 것이다. OS는 그러한 액션을 등록하는 방법을 제공하고 그것들을 특정한 스캔과 연관시킬 수 있다.
11.3. 전형적인 스캔-개시된 액티비티를 위한 시스템 GUI 컴포넌트에서의 지원
대부분의 소프트웨어 애플리케이션은 OS에 의해 제공된 표준 그래픽 유저 인터페이스에 기초한다.
디벨로퍼에 의한 이들 컴포넌트의 사용은, 예로서, 모든 프로그래머가 동일 기능을 독립적으로 이행함이 없이, 임의의 텍스트-에디팅 콘텍스에서의 좌측-커서의 누름이 그 커서를 좌측으로 이동시키는 바와 같은, 복수의 패키지에 걸쳐 일관된 작용을 보장하는 데에 도움을 준다.
이들 컴포넌트에서의 우사한 일관성은 액티비티가 상기한 시스템의 텍스트-캡쳐 또는 기타 태양에 의해 개시되는 경우에 바람직하다. 몇몇 예가 하기에 주어진다.
11.3.1. 특정 텍스트 콘테트를 찾기 위한 인터페이스
이 시스템의 전형적인 사용은 페이퍼 문서의 일정 영역을 유저를 위해 스캐닝하는 것일 수 잇고, 시스템을 위해 디스플레이 또는 편잡할 수 있는 소프트웨어 패키지에서 전자 카운터파트를 개봉하는 것과, 그 패키지가 스캐닝된 텍스트를 스크롤 및 하이라이트하게 하는 것일 수 있다(섹션 12.2.1.). 전자 문서를 발견 및 개방하는, 이 프로세스의 제1 부분은 통상적으로 OS에 의해 제공되고 패키지에 걸쳐 표준이다. 그러나, 제2 부분-문서내에 텍스트의 특정 부분을 위치시키고 패키지가 그것을 스크롤하고 하이라이트하게 하는-은 아직 표준화되지 않았고 흔히 각각의 패키지에 의해 상이하게 구현된다. 이 기능을 위한 표준 API의 이용가능성은 시스템의 이러한 태양의 동자을 상당히 향상시킨다.
11.3.2. 텍스트 상호작용
텍스트의 일부분이 문서내에 위치되었다면, 시스템은 그 텍스트에 대해 다양한 동작을 수행하길 바랄 것이다. 예로서, 시스템은 주위 텍스트를 요구할 수 있고, 따라서 몇 개 워드에 대한 유저의 캡쳐는 시스템에서 그것들을 포함하는 전체 문장 또는 단락을 액세싱하는 결과로 된다. 다시, 이 기능은 텍스트를 취급하는 소프트웨어의 모든 부분에 구현되는 것에 의하기 보단 OS에 의해 유용하게 제공될 수 있다.
11.3.3. 콘텍스추얼 ( 팝업 ) 메뉴
시스템에 의해 인에이블되는 동작의 몇몇은 유저 피드백을 요구하고, 그갓은 데이터를 취급하는 애의 콘텍스트내에서 최적으로 요구될 수 있다. 몇몇 실시예에서, 시스템은 통상적으로 몇몇 텍스트상에 우측 마우스 버튼을 클림하는 것과 연관된 애플리케이션 팝업 메뉴를 사용한다. 시스템은 그러한 메뉴에 여분의 옵션을 삽입하고, 그것들이 페이퍼 문서를 스캐닝하는 바와 같은 액티비티의 결과로서 디스플레이되어지게 한다.
11.4. 웹/네트워크 인터페이스
오늘날의 증대하는 네트워크화된 세계에서, 개별적인 머신에서 이용가능한 기능의 대부분은 네트워크를 통하여 액세스될 수 있고, 상기한 시스템과 연관된 기능은 어떠한 예외도 없다. 예로서, 사무실 환경에서 유저에 의해 수신된 다수의 페이퍼 문서는 동일한 합동 네트워크상에서 다른 유저의 기게에 의해 인쇄되어질 수 있다. 한 컴퓨터상의 시스템은, 캡쳐에 응답하여, 적절한 허가 컨트롤에 종속되어, 그 캡쳐에 대응할 수 있는 문서에 대해 다른 머신에 질의할 수 있다.
11.5. 보관을 야기하는 문서의 인쇄
페이퍼 및 문서의 통합에서의 중요한 한 요인은 둘사이에서의 변환에 대해 가능한한 많은 정보를 유지하는 것이다. 몇몇 실시예에서, OS는 문서가 언제 눅에 의해서 인쇄었는 지에 대한 단일 레코드를 유지한다. 몇몇 실시예에서, OS는 시스템의 사용에 더욱 양ㅎ하게 적합하게 하는 하나이상의 츠가 액션을 취한다. 그 예들은 다음사항들을 포함한다.
·문서가 인쇄되었던 소스에 대한 정보와 함께 인쇄된 모든 문서의 디지털 렌더링된 버젼을 보관
·미래의 스캔 해석에 도움을 줄 수 있는-예로서 사용된 폰트 및 라인 끊김이 발생한 곳-인쇄된 버젼에 대한 유용한 정보의 서브셋트를 보관
·임의의 인쇄된 복사본과 연관된 소스 문서의 버젼을 보관
· 미래의 탐색을 위해 결과를 인쇄 및 저장시 자동적으로 문서를 인덱싱
11.6. 나의(인쇄된/ 스캐닝된 ) 문서
OS는 흔히 특정 중요도를 갖는 파일 또는 폴더의 일정한 카테고리를 유지한다. 유저의 문서는, 정해진 방식에 의해 또는 설계에 의해, 예로서 "나의 문서" 폴더에서 발견될 수 있다. 표준 파일-열기 다이얼로그는 자동적으로 최근에 열려진 문서의 리스트를 포함할 수 있다.
상기한 시스템에의 사용을 위해 최적화된 OS상에서, 그러한 카테고리는 저장된 파일의 페이퍼 버젼과 유저의 상호작용을 고려하는 방식으로 향상 또는 증대될 수 있다. "나의 문서" 또는 "나의 최근-판독 문서"와 같은 카테고리는 유용하게 식별될 수 있고 그의 동작에 통합될 수 있다.
11.7. OS-레벨 마크업 계층구조
시스템의 중용한 태양은 섹션5에서 토의된 "마크업" 개념을 이용하여 제공되 므로, OS 자체 및 복수 애플리케이션에 액세스가능했던 방식으로 OS에 의해 제공된 그런 마크업을 위한 지원체계를 갖는 것이 유익하다. 또한, 마크업의 층들은 OS가 제공할 수 있는 기능 및 그것의 제어하에서 문서에 대한 그것의 지식에 기초하여, OS에 의해 제공될 수 있다.
11.8. OS DRM 기능의 사용
증가하는 운영체제의 수는 "디지털 권한 관리"; 특정 유저에게 허여된 권한에 따라 특정 데이터의 사용에 대한 제어 능력, 소프트웨어 엔티티 또는 머신의 몇몇 형태를 지원한다. 예로서, 특정 문서의 비인가된 복사 또는 배포를 금지할 수 있다.
12. 유저 인터페이스
시스템의 유저 인터페이스는 캡쳐 디바이스가 상대적으로 기능이 떨어지거나 케이블에 의해 연결된다면 전체적으로 PC상에 있을 수 있고, 그것이 정교하거나 그것 자체가 상당한 프로세싱 능력을 갖는다면 전체적으로 디바이스상에 있을 수 있다. 시스템의 기능의 일부 또는 전부는 모바일 폰 또는 PDA와 같은 기타 디바이스상에서 구현될 수 있다.
다음 섹션에서의 기술은 어떤 구현에서 바람직할 수 있는 것인가에 대한 것이지만, 그것이 모든 경우에 반드시 적절한 것은 아니고 여러 방식으로 수정될 수 있다.
12.1. 캡쳐 디바이스에서
모든 캡쳐 디바이스로, 그러나 특히 광학 스캐너인 경우에, 유저의 주의는 일반적으로 그 디바이스 및 스캐닝시의 페이퍼에 있게된다. 스캐닝의 프로세스의 일부로서 필요로되는 피드백과 임의의 입력은, 필요로 되는 것 이상으로, 예로서 컴퓨터의 스크린에서와 같은 곳에, 유저의 주의를 돌릴 것을 필요로 하지 않는 것이 바람직하다.
12.1.1. 스캐너에 의한 피드백
휴대형 스캐너는 특정 조건에 대해 유저에게 피드백을 제공하는 다양한 방식을 갖는다. 가장 분명한 유형은 스캐너가 인디케이터 라이트 또는 풀 디스플레이를 갖는 경우에, 다이렉트 비주얼 유형, 및 스캐너가 경보음, 클릭 또는 기타 사운드를 갖는 경우에, 청각적 유형이다. 중요한 대안은 스캐너가 진동, 신호음, 또는 그렇지않으면 유저의 터치 센스를 흉내내는 경우에서의, 촉각 피드백, 및 컬러화된 광 스폿 내지 정교한 디스플레이까지의 어떤 것을 페이퍼에 트사함에 의해 싱태를 지시하는 투사 피드백을 포함한다.
디바이스에 제공될 수 있는 중요한 직접적 피드백은 다음 것들을 포함한다.
·스캐닝 프로세스에 의한 피드백 - 유저의 스캐닝이 과속, 지나치게 큰 각도이거나, 또는 특정 라인에서 지나치게 높거나 낮게 표류함
·충분한 콘텐트 - 연결해제 동작에 중요한- 매치가 존재한다면 하나의 매치에 대한 발견이 매우 확실한 정도가 되도록 충분히 스캐닝되었음
·공지된 콘텍스트 - 텍스트의 소스가 찾아졌음
·공지된 고유 콘텍스트 - 텍스트의 하나의 고유 소스가 찾아졌음
·콘텐트의 이용가능성 - 콘텐트가 유저에게 무료로 또는 유료로 이용가능한 지에 대한 지시
예컨대 문서의 일부나 전부를 디스플레이하는데 충분한 성능을 가지고 있다면 시스템의 이후의 단계와 정상적으로 연관된 사용자 상호작용의 많은 부분이, 캡처 장치에서 일어날 수도 있다.
12.1.2. 스캐너 제어
본 장치는 사용자가 기본적인 텍스트 캡처에 더하여 입력을 하기 위한 다양한 방법을 제공할 수 있다. 본 장치가 키보드와 마우스 같은 입력 옵션을 갖는 호스트 장치와 밀접히 연관되어 있을 때조차, 예컨대 스캐너를 조작하고 마우스를 사용하는 것 사이의 전후를 사용자가 스위칭하는 것이 파괴적일 수 있다.
핸드헬드 스캐너는 버튼, 스크롤/조그 휠, 터치 감응면, 및/또는 장치의 움직임을 감지하기 위한 가속도계를 포함할 수 있다. 이 중 몇몇은 스캐너를 계속 유지하면서 보다 풍부한 상호작용 세트를 가능하게 한다.
예컨대, 어떠한 텍스트를 스캐닝하는데 응하여, 본 시스템은 사용자에게 몇몇 가능한 매칭 문서 세트를 제공한다. 사용자는 스캐너 측면의 스크롤 휠을 사용하여 리스트중 하나를 선택하고 버튼을 클릭하여 선택을 확인한다.
12.1.3. 제스처
종이 가운데로 스캐너를 이동시키는 주된 이유는 텍스트를 캡처하기 위한 것이지만, 몇몇 움직임은 장치로 탐지될 수 있고 사용자의 다른 의도를 나타내는데 사용될 수 있다. 이러한 움직임을 본 명세서에서는 '제스처'라고 한다.
예컨대, 사용자는 종래 좌-우 순으로 처음 몇 단어를 스캐닝하고 마지막 몇 단어를 역순, 즉 우-좌 순으로 스캐닝함으로써 넓은 영역의 텍스트를 지시할 수 있다. 사용자는 또한 스캐너를 몇 라인 위에서 페이지 아래로 이동시킴으로써 대상 텍스트의 수직 범위를 지시할 수도 있다. 이후 스캔은 이전에 스캔한 동작의 취소를 지시할 수 있다.
12.1.4. 온라인/오프라인 동작
본 시스템의 많은 태양은 스캐너와 호스트 랩탑 같은 시스템 구성요소 사이 또는 회사의 데이터베이스와 인터넷 검색으로의 접속의 형태로 외부 세계와의 네트워크 접속성에 의존적일 수 있다. 그러나, 이러한 접속성은 항상 존재할 수 있는 것은 아니고 따라서 시스템의 일부 또는 전부가 "오프라인"이 되도록 간주될 수 있는 경우가 일을 것이다. 본 시스템을 이러한 상황에서 유용하게 계속 기능하도록 하는 것이 바람직하다.
본 장치는 다른 부분과 접촉하고 있지 않을 때 텍스트를 캡처하는데 사용될 수 있다. 매우 간단한 장치는 단순히 캡처, 이상적으로는 캡처된 때를 지시하는 타임스탬프와 연관된 이미지 또는 오디오 데이터를 저장할 수 있다. 본 장치가 본 시스템의 나머지 부분과 접촉하여 있을때 다양한 캡처가 여기에 업로드될 수 있고 이후 처리될 수 있다. 본 장치는 예컨대 광학 스캔과 연관된 음성 주석이나 위치 정보등 캡처와 연관된 기타 데이터를 업로드할 수도 있다.
보다 복잡한 장치는 연결되어 있지 않을때에도 시스템 동작의 일부 또는 전부를 스스로 수행할 수 있다. 이렇게 하는 성능을 개선시키기 위한 다양한 기술이 15.3.절에 설명되어 있다. 때로는 원하는 동작의 전부가 아닌 일부가 오프라인에 있는동안에 수행될 수 있는 경우가 있다. 예컨대, 텍스트는 인식될 수 있지만, 소스 식별은 인터넷 기반 검색 엔진과의 접속에 의존적일 수 있다. 따라서, 몇몇 실시예에서는, 본 장치는 본 시스템의 나머지 부분이 연결이 복구될때 효과적으로 진행하도록 각각의 동작이 얼마나 많이 진행했는지에 대한 충분한 정보를 저장한다.
본 시스템의 동작은 일반적으로 즉시 이용가능한 연결에 의하여 유용하지만, 몇몇 캡처를 수행하여 이것을 배치로 처리하는 것이 이로울 수 있는 몇몇 상황이 있다. 예컨대, 아래 13절에서 설명되어 있는 바와 같이, 특정 캡처 원의 식별은 거의 동시에 사용자에 의해 수행된 다른 캡처를 검사함으로써 크게 강화될 수 있다. 사용자에게 라이브 피드백이 제공되는 완전 연결 시스템에서는, 시스템이 현재의 캡처를 처리할 때 과거의 캡처를 이용할 수 있을 뿐이다. 그러나 캡처가 오프라인에 있을 때 장치에 의해 저장된 배치 중 하나이면, 본 시스템은 이러한 분석을 수행할때 이전의 것은 물론 이후의 캡처로부터 이용가능한 임의의 데이터를 고려할 수 있을 것이다.
12.2. 호스트 장치로
스캐너는 종종 사용자와 보다 상세한 상호작용을 포함한 시스템의 많은 기능을 수행하기 위하여 PC, PDA, 전화기 또는 디지털 카메라등의 몇몇 다른 장치와 통신한다.
12.2.1. 캡처에 응해 수행된 동작
호스트 장치가 캡처를 수신할 때, 다양한 동작을 개시할 수 있다. 로케이팅이후 시스템이 수행한 가능한 동작의 불완전 목록과 이러한 캡처와 연관된 전자 문 서 사본 및 문서내 위치가 잇따른다.
● 캡처의 상세한 정보를 사용자 내역에 저장할 수 있다.(6.1 절)
● 로컬 스토리지 또는 원격지에서 문서를 검색할 수 있다.(8절)
● 동작 시스템의 메타데이터 및 문서와 연관된 기타 기록을 업데이트할 수 있다(11.1 절)
● 다음의 적절한 동작을 결정하기 위해 문서와 연관된 마크업을 검사할 수 있다.(5 절)
● 소프트웨어 애플리케이션을 개시하여 문서 편집, 보기 또는 기타 동작을 수행할 수 있다. 애플리케이션 선택은 소스 문서 또는 스캔의 콘텐츠이거나 캡처의 몇몇 다른 태양에 좌우된다.(11.2.2, 11.2.3 절)
● 애플리케이션을 스크롤하여 하이라이트하거나 삽입점을 이동시키거나 캡처 위치를 지시할 수 있다.(11.3 절)
● 캡처된 텍스트의 정확한 경계를 수정하여, 예컨대 캡처된 텍스트 주위의 전체 단어, 문장 또는 절을 선택할 수 있다.(11.3.2 절)
● 사용자에게 캡처 텍스트를 클립보드에 복사하거나 기타 표준 동작 시스템 또는 이에 대한 애플리케이션 특정 동작을 수행하기 위한 옵션을 제공할 수 있다.
● 문서 또는 캡처된 텍스트에 주석을 연관시킬 수 있다. 이것은 사용자 입력을 통해 바로 되거나 예컨대 광학 스캔과 연관된 음성 주석의 경우에는 먼저 캡처되었을 수 있다.(19.4 절)
● 사용자가 선택하는 또 다른 가능한 동작 세트를 결정하기 위하여 마크업 을 검사할 수 있다.
12.2.2. 상황 팝업 메뉴
때로는 시스템이 취하는 적당한 동작이 명확하지만, 어떤 경우는 사용자의 선택을 요한다. 이를 수행하는 하나의 좋은 방법은 "팝업 메뉴"를 사용하거나, 콘텐츠가 스크린상에 디스플레이되는 경우에는 콘텐츠에 가까이 나타나는 소위 "컨텍스트 메뉴"에 의하는 것이다.(11.3.3 절 참조). 몇몇 실시예에서는, 스캐너 장치가 종이 문서사아에 팝업 메뉴를 띄운다. 사용자는 키보드와 마우스등의 전통적인 방법을 사용하는 메뉴로부터 또는 캡처 장치상의 제어부를 사용함으로써(12.1.2 절), 제스처를 사용함으로써(12.1.3 절), 또는 스캐너를 사용하는 컴퓨터 디스플레이와의 상호작용에 의해서(12.2.4 절) 선택할 수 있다. 몇몇 실시예에서는, 캡처 결과로 나타날 수 있는 팝업 메뉴는 사용자가 응답하지 않으면 나타나는, 예컨대 사용자가 메뉴를 무시하고 또 다른 캡처를 수행하는 경우에 일어나는 동작을 나타내는 디폴트 항목을 포함한다.
12.2.3. 명확화에 대한 피드백
사용자가 텍스트 캡처를 개시하면, 먼저 매칭할 수 있는 몇몇 문서나 기타 텍스트의 위치가 있을 것이다. 보다 많은 텍스트가 캡처되고 기타 요인을 고려하면(13절), 후보 위치의 수는 실제 위치가 식별될때까지 줄어들거나 사용자의 입력이 없이는 더이상의 명확화는 가능하지 않다. 몇몇 실시예에서, 시스템은, 문서 또는 예컨대 리스트, 썸네일 이미지 또는 텍스트 세그먼트 형태로 그리고 캡처가 계속될때 수를 줄이기 위해 디스플레이내의 엘리먼트 수에 대하여 발견되는 위치를 실시간으로 디스플레이한다. 몇몇 실시예에서는, 시스템은 모든 후보 문서의 썸네일을 디스플레이하는데, 이러한 썸네일의 크기와 위치는 정확한 매칭이 있는 확률에 좌우된다.
캐처가 명확하게 식별되면, 예컨대 청각적 피드백을 사용하여 이 사실을 사용자에게 강조할 수 있다.
때때로 캡처된 텍스트는 많은 문서에서 나타나고 인용구가 되도록 인식될 것이다. 본 시스템은 예컨대, 원본 소스 문서주위에 인용 참조를 포함하는 문서를 그룹화함으로써 스크린상에 이것을 지시할 수 있다.
12.2.4. 스크린으로부터 스캐닝
몇몇 광학 스캐너는 종이는 물론 스크린상에 디스플레이된 텍스트를 캡처할 수 있다. 따라서, '렌더링된 문서'라는 말은 본 명세서에서 종이 인쇄물이 렌더링의 유일한 형태가 아니고 시스템에서 사용하기 위한 텍스트나 심볼의 캡처 또한 텍스트가 전자 디스플레이상에 디스플레이될 때 똑같이 가치있을 수 있다는 것을 나타내는데 사용된다.
상기한 시스템의 사용자는 옵션 리스트를 선택하는 등 다양한 다른 이유로 컴퓨터 스크린과 상호작용할 필요가 있을 수 있다. 사용자가 스캐너를 두고 마우스나 키보드를 사용하여 개시하는 것은 불편할 수 있다. 다른 절에서 이러한 툴을 변화시킬 필요없이 입력하는 방법으로서 스캐너(12.1.2 절에서 설명) 또는 제스처(12.1.3절에서 설명)의 물리적 제어부를 설명했지만, 스크린 자체에 있는 스캐너를 사용하여 몇몇 텍스트나 심볼을 스캐닝하는 것은 본 시스템이 제공하는 중요한 대안이다.
몇몇 실시예에서, 스캐너의 광학부에 의해 라이트펜과 마찬가지 방식으로 사용되어, 컴퓨터의 특별한 하드웨어나 소프트웨어의 도움으로 텍스트를 실제로 스캐닝할 필요없이 스크린상의 위치를 바로 감지할 수 있다.
13. 컨텍스트 설명
상기 시스템의 중요한 태양은 사용하는 문서를 식별하는데 도움이되도록 텍스트열의 단순 캡처이상의 다른 요인을 사용한다는 것이다. 적당한 양의 텍스트의 캡처는 종종 문서를 유일하게 식별할 수 있지만 많은 경우에는 몇몇 후보 문서를 식별할 것이다. 하나의 해결책은 사용자가 스캔되는 문서를 확인하도록 하는 것이지만 바람직한 대안의 방법은 자동적으로 가능성을 좁히도록 하는 기타 요인을 사용하는 것이다. 이러한 보충 정보에 의해 캡처를 요하는 문서의 양을 상당히 줄일 수 있고 그리고/또는 전자 사본의 위치가 식별될 수 있는 신뢰성과 속도를 상당히 증가시킬 수 있다. 이러한 여분의 재료를 "컨텍스트"라고 부르고 4.2.2.절에서 간단히 설명하였다. 이후 보다 깊이 알아보기로 한다.
13.1. 시스템 및 캡처 컨텍스트
아마도 이러한 정보의 가장 중요한 예는 사용자의 캡처 내역일 것이다.
소정의 캡처는 이전의 것과 같은 문서에서 오거나, 이전의 캡처가 마지막 몇분내에 일어난다면 특히 연관된 문서에서 왔을 가능성이 높다(6.1.2 절). 반대로, 시스템이 두 스캔간에 폰트가 변했다는 것을 감지하면, 다른 문서에서 왔을 가능성이 높다.
사용자의 장기간의 캡처 내역 및 독서 습관 또한 유용하다. 이것은 사용자의 관심과 연관성 모델을 개발하는데 사용할 수도 있다.
13.2. 사용자의 실세상 컨텍스트
유용한 컨텍스트의 또 다른 예는 사용자의 지리적 위치이다. 예컨대, 파리의 사용자는 시애틀 타임즈보다는 르몽드를 읽을 확율이 훨씬 더 높다. 따라서 문서의 인쇄 버전의 타이밍, 크기 그리고 지리적 배포는 중요할 수 있고, 시스템의 동작에서 어느 정도 추측할 수 있다.
예컨대 출근하는 동안 항상 하나의 타입의 출판물을 읽고, 점심시간이나 퇴근하는 동안 열차안에서 다른 것을 읽는 사용자의 경우에는 하루의 시간이 또한 관련될 수 있다.
13.3. 관련 디지털 컨텍스트
보다 종래적 수단에 의해 써칭되고 검색된 것을 포함하는 사용자의 최근의 전자 문서 사용 또한 유용한 지시자일 수 있다.
회사 네트워크등 몇몇 경우에는 다음과 같이 다른 요인이 유용한 것으로 간주될 수 있다.
● 문서가 최근에 인쇄되었는가?
● 문서가 최근에 회사 파일 서버에서 수정되었는가?
● 문서가 최근에 이메일로 송부되었는가?
이러한 예 전부는 사용자가 종이 버전 문서를 더 많이 읽는 것같다는 것을 암시하고 있을 수 있다. 반대로, 문서가 있는 매점이 인쇄되었을 수 있는 임의의 장소로 송부되었거나 결코 문서가 인쇄되지 않았음을 확인할 수 있으면, 종이에서 기원하는 임의의 검색에서 안전하게 제거될 수 있다.
13.4. 기타 통계-글로벌 컨텍스트
14절은 종이 기반 검색에서 나온 데이터열의 분석을 다루고 있지만, 여기서 다른 독자가 있는 문서의 평판, 이러한 평판의 타이밍, 그리고 가장 빈번히 스캔되는 문서의 일부에 대한 통계의 전부는 검색 프로세스에 유용할 수 있는 더많은 요인의 예임을 인식하여야한다. 본 시스템은 종이 세상에 구글 형태의 페이지 랭킹을 가능하게 한다.
검색 엔진에 대한 컨텍스트의 몇몇 다른 의미에 대하여 4.2.2절을 또한 참조하자.
14. 데이터열 분석
본 시스템의 사용의 부작용으로서 지나치게 가치있는 데이터열을 생성한다. 이러한 데이터열은 사용자가 무엇을 언제 읽는지에 대한 기록이고 많은 경우에 있어서는 사용자가 읽고 있는 것에서 특히 가치있다고 발견하는 것에 대한 기록이다. 이러한 데이터는 이전에 종이 문서에서는 결코 진정으로 이용될 수 없었다.
이러한 데이터가 시스템 및 시스템의 사용에 유용할 수 있는 몇가지 방식을 6.1절에서 설명하고 있다. 이 절에서는 기타 사용에 대하여 중점을 두고 있다. 물론 사람들이 읽고 있는 것에 대한 임의의 데이터 배포로 고려될 수 있는 중요한 프라이버시 문제가 있지만, 데이터의 익명을 보존하는 것과 같은 문제는 당업자에게 주지된 사실이다.
14.1. 문서 추적
소정의 사용자가 어떤 문서를 읽고 있는지를 시스템이 알고 있다면 누가 소정의 문서를 읽고 있는지 또한 시스템이 추론할 수 있다. 이것은 조직을 통한 문서의 추적을 가능하게 하여, 예컨대 누가 언제 문서를 읽는지, 얼마나 널리 배포되어 있는지, 배포에 얼마나 오래 걸리는지, 그리고 철지난 사본으로부터 다른 사람들이 작업하고 있는 한편 현재의 버전을 누가 보았는지의 분석을 가능하게 한다.
보다 넓은 분포를 갖는 출판 문서에 대하여, 개개의 사본의 추적은 보다 어렵지만, 독자층의 분포 분석은 여전히 가능하다.
14.2. 읽기 랭킹-문서 및 소구역의 인기
사용자가 그들에게 특별한 관심이 있는 텍스트나 데이터를 캡처하는 상황에서, 본 시스템은 특정 문서의 인기와 이러한 문서의 소구역의 인기를 추론할 수 있다. 이것은 시스템 자체(4.2.2 절)와 작가, 출판업자 그리고 광고자(7.6절, 10.5절)에 대한 중요한 정보원에 가치있는 입력을 형성한다. 이러한 데이터는 또한, 예컨대 렌더링된 문서로부터의 조회에 대한 검색 결과에 순위를 매기는 것을 돕고, 그리고/또는 웹브라우저내에 타이핑된 종래의 조회에 순위를 매기는 것을 돕기 위해 검색 엔진과 검색 인덱스에서 통합될 때 유용하다.
14.3. 사용자 분석-프로파일 생성
사용자가 무엇을 읽고 있는지를 앎으로써 시스템이 사용자의 관심과 활동의 상당히 상세한 모델을 생성하게 할 수 있게 한다. 이것은 개괄적 통계 기초에 유용할 수 있지만-예컨대, "이러한 신문을 구매하는 사용자의 35%가 그 작가의 최근 의 책 또한 읽는다"따위, 하기하는 바와 같이 개인 사용자와 기타 상호작용을 가능하게할 수도 있다.
14.3.1. 사회적 네트워킹
일 예는 일 사용자를 관련된 관심을 가진 다른 사람과 연결하는 것이다. 이것은 사용자에게 이미 알려진 사람일 수 있다. 본 시스템은 한 대학 교수에게, "XYZ대학에 있는 당신 동료도 이 신문을 읽고 있다는 것을 알았습니까?"라고 물을 수 있다. 본 시스템은 사용자에게 "당신은 또한 제인에어를 읽고있는 당신의 이웃과 연결되기를 원합니까?"라고 물을 수 있다. 이러한 연결은 물리적인 세계에서나 온라인에서 북클럽과 친밀한 사회적 구조를 자동적으로 형성하는데 기반이 될 수 있다.
14.3.2. 마케팅
10.6절에서 이미 시스템과의 상호작용에 기초하여 제품과 서비스를 개별 사용자에게 제공하는 아이디어에 대하여 언급하였다. 예컨대 현재의 온라인 책판매자는 종종 책판매자와의 이전의 상호작용에 기초하여 사용자에게 추전한다. 이러한 추천은 실제의 책과의 상호작용에 기초될 때 훨씬 더 유용하게 된다.
14.4. 데이터열의 기타 태양에 기초한 마케팅
본 시스템이 문서를 출판하는 사람, 문서를 통해 광고하는 사람, 그리고 종이로 개시된 기타 판매에 영향을 미칠 수 있는 방법 중 몇 가지가 설명되었다(10 절). 몇몇 상업적 활동은 결국 종이 문서와 직접적 상호작용을 가지지는 않지만 영향을 받을 수는 있다. 예컨대, 하나의 커뮤니티의 사람들이 보다 많은 시간을 신문의 금융부문보다 스포츠부문을 읽는데 할애하고 있다는 것을 아는 것이 헬쓰클럽을 하려고하는 사람에게 관심이 있을 수 있다.
14.5. 캡처될 수 있는 데이터 타입
누가 어떤 문서의 어느 정도를 언제 어디서 읽는지와 같은 상기 통계에 더하여, 문서가 위치되었는지 여부에 관계없이 캡처된 문서의 실제 콘텐츠를 검사하는 것이 관심있을 수 있다.
많은 경우에, 사용자는 몇몇 문서를 캡처할 뿐만 아니라 결과로서 몇몇 활동이 일어나게 할 것이다. 이것은, 예컨대 아는 사람에게 문서에 대한 레퍼런스를 이메일로보내는 것일 수 있다. 사용자나 이메일 수신자의 식별 정보가 없을때에도 누군가 이 문서를 이메일보낼 가치가 있는 것으로 간주했다는 것을 아는 것은 매우 유용하다.
텍스트의 특정 문서나 일부의 가치를 추론하기 위하여 설명한 다양한 방법에 더하여, 몇몇 경우에는 사용자가 이에 등급을 할당함으로써 가치를 외부적으로 지시할 것이다.
마지막으로, 특정 사용자 세트가 그룹을 형성하기 위해 알려져 있다면, 예컨대 그 사용자들이 특정 회사의 사원에게 알려져 있다면, 상기 그룹의 집합적 통계가 그 그룹에 대한 특정 문서의 중요성을 추론하는데 사용될 수 있다.
15. 장치 특징 및 기능
시스템에 사용하기 위한 캡처 장치는 문서의 렌더링된 버전으로부터 텍스트를 캡처하는 방식 정도만을 필요로 한다. 상기한 바와 같이(1.2 절), 이러한 캡처 는 문서의 일부의 사진을 찍거나 이동 전화 키보드에 몇몇 문자를 타이핑하는 것을 포함한 다양한 방법을 통해 수행될 수 있다. 이러한 캡처는 한번에 한 라인 또는 두 텍스트를 기록할 수 있는 소형 핸드헬드 광학 스캐너이거나 사용자가 문서로부터 텍스트를 판독하는 음성 레코드 등의 음성 캡처 장치를 사용하여 수행될 수 있다. 사용된 장치는 이들, 예컨대 음성 주석 또한 기록할 수 있는 광학 스캐너,의 조합일 수 있고 캡처링 기능은 이동 전화, PDA, 디지털 카메라 또는 휴대용 뮤직 플레이어등의 몇몇 다른 장치에 내장될 수 있다.
15.1. 입출력
본 장치용의 많은 유용한 부가 입출력 장치를 12.1절에서 설명하였다. 이것은 입력을 위하여 버튼, 스크롤 휠 및 터치 패드를 포함하고 출력을 위해 디스플레이, 지시광, 음성 및 촉각 변환기를 포함한다. 때때로 본 장치는 이들의 대부분을 부가하거나 거의 부가하지 않을 수 있다. 때로는 캡처 장치는, 예컨대 무선 링크를 사용하여 이것을 이미 구비하고 있는 다른 장치와 통신할 수 있을 것이고(15.6절), 때로는 캡처 기능이 이러한 기타 장치에 부가될 것이다(15.7절).
15.2. 연결성
몇몇 실시예에서, 본 장치는 시스템 자체의 대부분을 구현한다. 그러나 몇몇 실시예에서는 본 장치는 종종 PC나 다른 컴퓨팅 장치와 통신하고 통신 시설을 사용하여 보다 넓은 세계와 통신한다.
대개 이러한 통신 시설은 이더넷, 802.11 또는 UWB등의 범용 데이터망의 형 태이거나 USB, IEEE-1394(파이어와이어), 블루투스TM 또는 적외선등의 표준 주변접속망의 형태로 된다. 파이어와이어나 USB등의 유선 접속이 사용되면, 본 장치는 동 접속을 통해 전기를 공급받을 수 있다. 몇몇 경우에는, 캡처 장치가 접속된 기계에 나타나서 USB저장 장치등 종래의 주변장치로 될 수 있다.
마지막으로, 본 장치는 몇몇 경우에 이 장치와 결합하여 사용되거나 편리한 저장을 위해 또 다른 장치와 "도킹"할 수 있다.
15.3. 캐싱 및 기타 온라인/오프라인 기능
3.5절 및 12.1.4절은 분리된 동작을 주로 다루었다. 캡처 장치가 전체 시스템 기능의 제한된 서브셋을 가지고 시스템의 다른 부분과 통신하지 않는다면, 이용가능한 기능이 때로 줄어들더라도 본 장치는 여전히 유용할 수 있다. 가장 간단한 단계에서, 본 장치는 캡처되는 원 이미지나 음성 데이터를 기록할 수 있고 이후 이것은 처리될 수 있다. 그러나 사용자를 위하여, 캡처된 데이터가 손작업에 충분할 것같은지 여부, 인식될 수 있는지 또는 인식될 수 있을 것 같은지 여부, 그리고 데이터원이 식별될 수 있는지 또는 이후 식별될 수 있을 것 같은지에 대하여 가능한 곳에 피드백을 제공하는 것이 중요할 수 있다. 사용자는 이후 캡처링 활동이 가치있는 것인지를 알 것이다. 상기한 모든것이 알려지지않더라도, 원데이터는 여전히 저장될 수 있고 따라서, 적어도 사용자는 이후 이것을 참조할 수 있다. 사용자는 예컨대 스캔이 OCR프로세스에 의해 인식될 수 없을때 스캔 이미지를 제공받을 수 있다.
이용가능한 옵션의 범위의 일부를 설명하기 위해, 오히려 최소 광학 스캐닝 장치와 이후 훨씬 많은 풀기능의 스캐닝 장치 둘을 이하에 설명하고 있다. 많은 장치는 이러한 두개 사이의 중간 지점을 차지하고 있다.
15.3.1. 심플 스캐너-보급형 오프라인 예
심플 스캐너는 텍스트 라인의 길이를 따라 이동할때 페이지에서 픽셀을 판독할 수 있는 스캐닝 헤드를 구비하고 있다. 이것은 페이지를 따라 움직임을 탐지하여 이러한 움직임에 대한 몇몇 정보로 픽셀을 기록할 수 있다. 또한 각각의 스캔이 타임스탬프되도록 할 수 있는 클록 또한 구비한다. 클록은 심플 스캐너가 연결되어있을때 호스트 장치와 동기된다. 클록은 하루의 실제 시간을 나타낼 수는 없지만 상대 시간이 결정될 수 있고 따라서 호스트는 스캔의 실제 시간을 추론할 수 있거나 최악의 경우 스캔간 경과 시간을 추론할 수 있다.
심플 스캐너는 OCR자체를 수행하기 위한 충분한 처리 전력을 가지고 있지 않지만, 전형적인 단어길이, 단어 간격, 및 폰트 크기와의 관계에 대한 몇몇 기초 지식을 가지고 있다. 이것은 스캔이 판독가능할 수 있는지, 페이퍼를 가로질러 헤드가 너무 빨리, 너무 느리게 또는 너무 부적절하게 이동하고 있는지, 그리고 소정 크기의 충분한 단어가 식별될 문서에 대하여 스캔되었을것 같은 것을 결정하는때를 사용자에게 알려주는 기본적인 몇몇 지시광을 포함한다.
심플 스캐너는 USB접속을 갖고 컴퓨터상의 USB포트에 플러깅될 수 있고, 여기서 충전될 것이다. 컴퓨터에서는 심플 스캐너는 타임 스탬핑된 데이터 파일이 기로고딘 USB저장장치가 되도록 나타나고 시스템 소프트웨어의 나머지는 이 지점에 서부터 인수한다.
15.3.2. 수퍼스캐너-고급형 오프라인 예
수퍼스캐너 또한 그 전체 동작에 대하여 연결성에 좌우되지만, 이것은 오프라인인 동안 캡처되는 데이터에 대한 더나은 판단을 하는 것을 도울 수 있는 상당한 량의 온보드 저장 및 프로세싱을 구비한다.
수퍼스캐너가 텍스트의 라인을 따라 이동하면, 캡처된 픽셀은 함께 스티칭되어 텍스트를 인식하려고 시도하는 OCR엔진에 전달된다. 사용자의 가장 많이 판독된 출판물로부터 온 것을 포함하는 많은 폰트가 다운로드되어 PC상의 사용자 스펠링 체커 사전과 동기되고 따라서 사용자가 빈번히 마주치는 많은 단어를 포함하는 사전을 구비한 것 처럼, 이러한 작업을 수행하는데 도움을 준다. 또한 사용 빈도를 구비한 단어 및 표현 리스트가 스캐너상에 저장될 수 있는데 이것은 사전과 결합될 수 있다. 스캐너는 인식 프로세스에 도움을 주고 언제 충분한 량의 텍스트가 캡처되었는지에 대한 판단을 알려주기 위해 빈도 통계를 사용할 수 있다. 보다 빈번히 사용된 표현이 검색 질문의 기초로 덜 유용할 것 같다.
또한, 사용자가 가장 일반적으로 읽었던 신문과 정기간행물의 최근 이슈의 기사에 대한 풀 인덱스를 사용자가 온라인 책판매자로부터 최근 구매한 책에 대한 또는 사용자가 지난 몇달 내에 무엇인가를 스캔한 인덱스인 것처럼 장치에 저장한다. 마지막으로, 시스템에 이용가능한 데이터를 갖는 수천개의 가장 인기있는 출판물의 제목이 저장되어 기타 정보가 없을때에 사용자가 제목을 스캔할 수 있고 특정 작업으로부터의 캡처가 이후 전자적 형태로 검색될 수 있을 것 같은지에 대한 좋은 생각을 가질 수 있다.
스캐닝 프로세스동안, 본 시스템은 사용자에게 캡처된 데이터가 충분한 품질을 갖고 있고 전자 사본이 연결이 복구될때 검색될 수 있도록 하기 위해 충분한 특성을 가지고 있다고 알린다. 종종 본 시스템은 사용자에게 스캔이 성공적이었던 것으로 알려지고 컨텍스트가 온보드 인덱스중 하나에서 인식되었고, 또한 관심 출판물이 그 데이터가 시스템에서 이용가능한 것으로 알려지고 따라서 이후의, 검색이 성공적어야한다는 것을 알린다.
수퍼스캐너는 PC의 파이어와이어나 USB포트에 연결된 크래들에 도킹되고, 이때 캡처된 데이터의 업로드에 더하여, 다양한 온보드 인덱스 및 기타 데이터베이스가 최근의 사용자의 활동과 새로운 출판물에 기초하여 업데이트된다. 또한 무선 공중망에 접속하거나 블루투스를 통해 이동 전화로 통신하기 위한 장치를 구비하고, 이 장치가 이용가능한 때 여기서 공중망과 통신할 수 있다.
15.4. 광학 스캐닝을 위한 구조
광학 스캐너 장치에 특히 바람직할 수 있는 몇몇 구조를 이하 살펴본다.
15.4.1. 플렉시블한 포지셔닝 및 편리한 광학기기
종이가 계속 인기있는 이유중 하나는 예컨대 컴퓨터가 실용될 수 없거나 불편한 다양한 상황에서도 사용이 편리하기 때문이다. 따라서 종이와 사용자의 상호작용의 상당한 부분을 캡처하기 위한 장치 또한 마찬가지로 사용이 편리해야한다. 과거에는 스캐너의 경우는 이러하지 않았는데 가장 작은 핸드헬드 장치조차 다소 다루기가 힘들었다. 페이지와 접촉하게 되도록 설계된 것은 종이와 정확한 각으로 유지되어 스캔될 텍스트의 길이를 따라 매우 정확하게 이동되어야했다. 이것은 사무실 책상위에 비지니스 보고서를 스캐닝할때는 허용될 수 있지만, 기차를 기다리면서 소설의 표현을 스캐닝할때는 비실용적일 수 있다. 종이에서 떨어진 거리이ㅔ서 동작하는 카메라 타입 광학기기에 기초한 스캐너는 마찬가지로 몇몇 상황에서 유용할 수 있다.
본 시스템의 일부 실시예는 종이와 접촉하여 스캔하고 렌즈 대신 페이지에서 광센서 장치로 이미지를 전송하기 위한 광섬유 다발인 이미지 콘딧을 사용하는 스캐너를 사용한다. 이러한 장치는 자연적 위치에 유지되도록 할 수 있도록 형성될 수 있다. 예컨대, 몇몇 실시예에서, 페이지와 접촉하고 있는 부분이 쐐기형으로 되어있고, 이것은 사용자의 손이 하이라이터 펜의 사용과 마찬가지의 움직임으로 페이지 위에서 보다 자연적으로 움직이게 할 수 있다. 콘딧은 종이와 직접 접촉하거나 근접하여 있고, 발생할 수 있는 손상으로부터 이미지 콘딧을 보호할 수 있는 대체가능한 투명 팁을 구비할 수 있다. 12.2.4절에 설명한 바와 같이, 스캐너는 종이는 물론 스크린에서부터 스캔하는데 사용될 수 있고 팁의 재질은 이러한 디스플레이의 손상 가능성을 줄이도록 선택될 수 있다.
마지막으로, 본 장치의 몇몇 실시예는 스캐닝 프로세스동안 사용자가 너무 빠르게, 너무 느리게, 너무 비균일하게 스캐닝하거나 스캐닝 라인상에서 너무 높거나 낮게 드리프트할 때 빛, 소리 또는 촉각적 피드백을 사용함으로써 사용자에게 지시할 것이다.
15.5. 보안, 식별, 인증, 개인화 및 빌링
6절에서 설명한 바와 같이, 캡처 장치는 보안 거래, 구매, 및 다양한 기타 동작에 대한 식별 및 인증의 중요한 부분을 형성할 수 있다. 따라서, 이러한 역할에 필요한 회로 및 소프트웨어에 더하여, 스마트카드 리더, RFID, 또는 PIN을 타이핑하기 위한 키패드 등 보다 보안을 강화할 수 있는 다양한 하드웨어 구조를 ㅜㅂ가할 수 있다.
또한 사용자 식별을 돕기 위한 다양한 생체인식 센서를 포함할 수도 있다. 예컨대 광학 스캐너의 경우 스캐닝 헤드는 지문을 판독할 수도 있다. 음성 레코더에 대하여 사용자의 음성 패턴이 사용될 수 있다.
15.6. 장치 연관
몇몇 실시예에서, 본 장치는 기타 부근 장치와의 연관을 형성하여 자체 또는 그것들의 기능을 증가시킬 수 있다. 예컨대 몇몇 실시예에서, 본 장친,ㅡㄴ 동작에 대한 보다 상세한 피드백을 제공하기 위해 근처의 PC나 전화기의 디스플레이를 사용하거나 네트워크 접속을 사용한다. 한편 본 장치는 다른 장치에 의해 수행된 동작을 인정하기 위한 보안 및 식별 장치로서 역할을 수행할 수 있다. 또한 장치의 주변장치로서 기능하기 위하여 단순히 연관을 형성할 수 있다.
이러한 연관의 흥미로운 태양은 본 장치의 캡처 장치를 사용하여 개시되고 인증될 수 있다는 것이다. 예컨대 자신을 보안적으로 공중 컴퓨터 단말에 식별하기 원하는 사용자는 단말의 스크린의 특정 영역에 디스플레이된 코드나 심볼을 스캔하여 키 전송을 유효하게 하기 위하여 본 장치의 스캐닝 장치를 사용할 수 있다. 음성 기록 장치에 의해 추출된 음성 신호를 사용하여 유사한 프로세스를 수행할 수 있다.
15.7. 기타 장치와의 통합
몇몇 실시예에서, 캡처 장치의 기능은 이미 사용중인 몇몇 다른 장치와 통합된다. 통합 장치는 전력공급, 데이터 캡처 및 저장 용량, 및 네트워크 인터페이스를 공유할 수 있다. 이러한 통합은 단순히 편리를 위함이거나, 비용을 줄이거나, 또는 이러한 통합이 없다면 이용가능하지 않을 기능을 가능하게 하기 위해 수행될 수 있다.
캡처 기능이 통합될 수 있는 장치의 몇몇 예는 다음과 같다.
● 마우스, 스타일러스, USB "웹캠" 카메라, 블루투스TM 헤드셋 또는 원격 제어등의 기존 주변장치
● PDA, MP3플레이어, 음성 레코더, 디지털 카메라 또는 이동 전화등 또 다른 프로세싱/저장 장치
● 시계, 보석류, 펜, 자동차 키 장식물등 편리만을 위한 기타 휴대품
15.7.1. 이동 전화 통합
통합의 장점의 예와 같이, 캡처 장치와 같은 수정된 이동 전화의 사용을 살펴본다.
몇몇 실시예에서, 전화기 하드웨어는, 텍스트 캡처가 음성 인식을 통해 적절히 수행될 수 있는 경우, 전화기 자체에 의해 프로세싱될 수 있거나 전화 호의 타단부에서 시스템에 의해 처리되거나 또는 미래의 프로세싱을 위해 전화기의 메모리 내에 저장될 수 있는 경우 처럼 본 시스템을 지원하도록 수정되지 않는다. 현대의 많은 전화기는 시스템의 일부를 구현할 수 있는 소프트웨어를 다운로드할 수 있는 기능을 갖고 있다. 그러나 이러한 음성 캡처는, 예를들어 상당한 배경 노이즈가 있는 많은 상황에서 차선책일 것 같고 정확한 음성 인식이 최적의 때에서도 어려운 일이다. 오디오 장치는 음성 주석을 캡처하는데 최적으로 이용될 수 있다.
몇몇 실시예에서, 많은 이동 전화기에 내장된 카메라는 텍스트의 이미지를 캡처하는데 이용된다. 보통 카메라의 뷰파인더로 기능하는 전화기 디스플레이는 이미지의 품질과 텍스트의 세그먼트가 캡처되는 OCR에 대한 적합성에 관한 정보 및 OCR이 전하기에서 수행될 수 있다면 텍스트의 사본을 라이브 카메라 이미지상에 겹칠 수 있다.
몇몇 실시예에서, 전화기는 전용 캡처 장치를 부가하거나 전화기와 통신하는 별개의 블루투스 접속 주변장치나 클립온 어댑터로 이러한 기능을 제공하도록 수정된다. 캡처 메커니즘의 특성이 어떠한 것이라도, 현대의 이동전화와의 통합은 많은 다른 장점을 제공한다. 전화기는 보다 광범위한 세계와 접속을 갖는데, 이것은 쿼리가 원거리 검색 엔진이나 시스템의 기타 부분으로 제공될 수 있고 즉시 저장이나 뷰잉을 위하여 문서 사본이 검색될 수 있음을 의미한다. 전화기는 일반적으로 시스템의 많은 기능이 로컬적으로 수행되도록 하는 충분한 프로세싱 전력과 합리적인 량의 데이터를 캡처하는데 충분한 저장장치를 구비하고 있다. 저장량은 또한 종종 사용자가 확장할 수 있다. 전화기는 합리적으로 양호한 디스플레이와 음성 장치를 구비하여 사용자 피드백 및 촉각적 피드백을 위한 진동 기능을 제공한다. 또한 양호한 전력 공급장치도 구비한다.
가장 중요한 점은, 전화기는 대부분의 사용자들이 이미 휴대하고 있는 장치라는 점이다.
III장-본 시스템의 응용예
본 장은 본 시스템의 사용과 이에 가능한 응용예의 리스트를 기술한다. 이러한 리스트는 순수하게 설명을 위한 것이고 이것만을 포함하는 것은 아니다.
16. 개인적 응용
16.1. 라이프 도서관
라이프 도서관(6.1.1절 참조)은 가입자가 저장하기를 바라는 임의의 중요한 문서의 디지털 아카이브이며 본 시스템의 서비스의 실시예의 세트이다. 중요한 책, 잡지 기사, 신문 클리핑등 전부를 라이프 도서관에 디지털 형태로 저장할 수 있다. 또한, 문서와 함께 가입자의 주석, 코멘트, 및 유의사항을 저장할 수 있다. 라이프 도서관은 인터넷과 월드와이드웹을 거쳐 접속될 수 있다.
본 시스템은 가입자를 위한 라이프 도서관 문서 아카이브를 생성하고 관리한다. 가입자는 문서로부터 정보를 스캔함으로써 또는 특정 문서가 가입자의 라이프 도서관에 부가되도록 시스템에 지시함으로써 어떤 문서를 자신의 라이프 도서관에 저장했었기를 바라는지 지시한다. 스캔된 정보는 일반적으로 문서에서온 텍스트이지만 문서를 식별하는 바코드나 기타 코드일 수도 있다. 본 시스템은 이러한 코드를 받아들이고 소스 문서를 식별하기 위해 이것을 사용한다. 문서가 식별된이후 시스템은 사용자의 라이프 도서관에 문서 사본을 저장하거나 문서를 얻을 수 있는 소스로의 링크를 저장할 수 있다.
라이프 도서관 시스템의 일 실시예는 가입자가 전자 사본을 얻도록 승인되는지를 확인할 수 있다. 예컨대, 독자가 뉴욕 타임즈(NYT)내의 기사 사본으로부터 텍스트나 식별자를 스캔하여 그 기사가 독자의 라이프 도서관에 부가된다면, 라이프 도서관 시스템은 독자가 NYT의 온라인 버전에 가입되어 있는지 NYT에 확인할 것이고, 가입되어 있으면 독자는 자신의 라이프 도서관 계정에 저장되어 있는 기사 사본을 얻고 그렇지 않다면 문서를 식별하는 정보와 이를 주문하는 방법이 자신의 라이프 도서관 계정에 저장된다.
몇몇 실시예에서, 본 시스템은 접근 권한 정보를 포함하는 각각의 가입자를 위한 가입자 프로파일을 유지한다. 문서 접근 정보는 몇가지 방식으로 컴파일될 수 있는데, 그 중 두가지는 1) 가입자가 자신의 계정명과 암화등과 함께 라이프 도서관 시스템에 문서 접근 정보를 공급하는 것과 2) 라이프 도서관 서비스 프로바이더가 가입자의 정보를 갖는 출판업자에게 조회하여 출판업자가 라이프 도서관 가입자가 기사에 접근하도록 승인되면 전자 사본으로의 접근을 제공함으로써 응답하는 것이다. 라이프 도서관 가입자가 문서의 전자 사본을 갖도록 승인되지 않으면, 출판업자는 라이프 도서관 서비스 프로바이더에게 가격을 제공하고, 이후 고객에게 전자 문서를 구매하는 옵션을 제공한다. 그럴 경우, 라이프 도서관 서비스 프로바이더는 출판업자에게 바로 지불하고 이후 라이프 도서관 고객에게 과금시키거나 라이프 도서관 서비스 프로바이더가 구매에 대하여 고객의 크레디트 카드로 즉시 과금한다. 라이프 도서관 서비스 프로바이더는 거래를 용이하게 하는데 대한 소액의 고정 비용 또는 구매 가격의 몇프로를 얻는다.
본 시스템은 가입자의 개별 도서관 및/또는 가입자가 기록 보관 권한을 갖는임의의 다른 도서관내에 문서를 보관할 수 있다. 예컨대, 사용자가 인쇄된 문서에서 텍스트를 스캔하면, 라이프 도서관 시스템은 렌더링된 문서와 그 전자 사본을 식별할 수 있다. 원본 문서가 식별되면, 라이프 도서관 시스템은 사용자의 개별 도서관과 가입자가 기록 보관 권한을 갖는 그룹 도서관내에 원본 문서에 관한 정보를 기록할 수 있다. 그룹 도서관은 프로젝트에서 함께 작업하는 그룹, 학술 연구원 그룹, 그룹 웹로그등을 위한 문서 저장소와 같은 합동 아카이브이다.
라이프 도서관은, 연대순으로, 토픽별로, 가입자 관심 수준별로, 출판 유형(신문, 책, 잡지, 기술 논문등)별로, 읽는 장소 또는 시간 별로, ISBN이나 십진 분류법등 많은 방식으로 조직될 수 있다. 일 대안으로, 본 시스템은 다른 가입자가 동 문서를 어떻게 분류했는지에 기초하여 분류법을 알 수 있다. 본 시스템은 사용자에게 분류법을 제안하거나 사용자를 위하여 문서를 자동적으로 분류할 수 있다.
다양한 실시예에서, 문서에 주석이 바로 삽입되거나 별개 파일로 유지될 수 있다. 예컨대, 가입자가 신문 기사에서 텍스트를 스캔하면, 그 기사는 하이라이트되고 스캔된 텍스트와 함께 자신의 라이프 도서관에 보관된다. 대안으로, 연관된 주석 파일과 함께 라이프 도서관에 기사를 보관한다(따라서 보관된 문서를 수정되지 않은 채 유지한다). 본 시스템의 실시예는 각각의 가입자의 도서관에 원본 문서 사본을, 많은 가입자가 접근할 수 있는 마스터 도서관에 사본을, 또는 출판업자에 의해 유지된 사본에 링크를 유지할 수 있다.
몇몇 실시예에서, 라이프 도서관은 문서 수정본(예컨대, 하이라이트한 부분등)과 (그밖에 어디에 저장된) 문서의 온라인 버전으로의 링크만을 저장한다. 본 시스템 또는 가입자는 가입자가 이어서 문서를 검색할때 변화와 문서를 합친다.
주석이 별개 파일로 유지되면, 원본 문서와 주석 파일이 가입자에게 제공되고 가입자는 이들을 결합하여 수정된 문서를 생성한다. 대안으로, 본 시스템은 가입자에게 상기 두 파일을 제공하기 전에 결합한다. 또 다른 대안으로, 주석 파일은 문서 파일에 대한 오버레이이고 가입자 컴퓨터내의 소프트웨어에 의해 문서에 겹쳐질 수 있다.
라이프 도서관 서비스의 가입자는 본 시스템이 가입자의 아카이브를 유지하도록 하기 위해 매월 요금을 지불한다. 대안으로, 가입자는 아카이브에 저장된 각 문서에 대하여 소액(예컨대, 소액 지불)을 지불한다. 대안으로, 가입자는 액세스당 요금으로 가입자의 아카이브에 접근하기 위하여 지불한다. 대안으로, 가입자는 도서관을 컴파일하여 다른 사람이 라이프 도서관 서비스 프로바이더와 저작권자와 같이 수익 공유 모델에 대한 기사/주석에 접근하게할 수 있다. 대안으로, 라이프 도서관 서비스 프로바이더는 라이프 도서관의 가입자가 문서를 주문할때 출판업자로부터 지불을 받는다(출판업자와의 수익 공유 모델. 여기서 라이프 도서관 서비스 프로바이더는 출판업자의 수익의 일부 몫을 얻는다).
몇몇 실시예에서, 라이프 도서관 서비스 프로바이더는 저작권있는 기사의 과금과 지불을 용이하게 하기 위하여 가입자와 저작권자(또는 저작권 청산 센터, 약자로 CCC)간의 중개자로 작용한다. 라이프 도서관 서비스 프로바이더는 가입자의 빌링 정보와 기타 사용자의 계정 정보를 사용하여 이러한 중간 서비스를 제공한다. 필수적으로, 라이프 도서관 서비스 프로바이더는 가입자와의 앞에 존재하는 관계를 레버리징하여 가입자 대신 저작권있는 기사의 구매를 가능하게 한다.
몇몇 실시예에서, 라이프 도서관 시스템은 문서로부터의 발췌문을 저장할 수 있다. 예컨대, 가입자가 종이 문서로부터 텍스트를 스캔할때, 라이프 도서관내에 전체 문서가 보관되기 보다는 스캔된 텍스트 주변의 영역은 발췌되고 라이프 도서관에 위치된다. 원본 스캔의 상태를 보존함으로써 가입자가 흥미있는 부분을 발견하기 위해 문서를 다시 읽는 것을 방지하기 때문에 문서가 긴 경우 이것은 특히 유용하다. 물론, 종이 문서의 전체 전자 사본으로의 하이퍼링크가 발췌 기사와 함께 포함될 수 있다.
몇몇 실시예에서, 본 시스템은 작가, 출판물 제목, 출판일, 출판업자, 저작권자(또는 저작권자의 라이센싱 대리인), ISBN, 문서의 공공의 주석으로의 링크, 리드랭크등, 라이프 도서관내의 문서에 대한 정보를 저장하기도 한다. 문서에 대한 이러한 부가적인 정보의 몇몇은 종이 문서 메타데이터의 형태이다. 일반 공중과 같은 자신들외의 사람에 의한 접근을 위하여 제3자는 공공의 주석을 생성할 수 있다. 문서상의 제3자의, 주석으로의 링크는 유용한데 이는 다른 사용자의 주석 파일을 읽음으로써 가입자의 문서의 이해를 강화하기 때문이다.
몇몇 실시예에서, 본 시스템은 클래스별로 기사를 보관한다. 이러한 특징은 라이프 도서관 가입자가 각각의 종이 문서로의 접근없이 종이 문서의 전체 클래스로 전자 사본을 신속히 저장할 수 있게한다. 예컨대, 가입자가 내셔널 지오그래픽 잡지의 사본으로부터 몇몇 텍스트를 스캔할때, 시스템은 가입자게게 내셔널 지오그래픽의 모든 백 이슈를 보관하기 위한 옵션을 제공한다. 가입자가 모든 백 이슈를 보관하도록 결정하면, 라이프 도서관 서비스 프로바이더는 가입자가 이렇게 하도록 승인되어 있는지를 내셔널 지오그래픽 소사이어티에 확인한다. 승인되어 있지 않으면, 라이프 도서관 서비스 프로바이더는 내셔널 지오그래픽 잡지 컬렉션을 보관할 권리의 구매를 중개할 수 있다.
16.2. 라이프 세이버
라이프 도서관 개념을 변형 또는 개선한 것이 "라이프 세이버"인데, 본 시스템은 다른 활동에 대하여 보다 많이 추론하기 위하여 사용자에 의해 캡처된 텍스트를 사용한다. 특정 식당의 메뉴, 특정 극장 공연의 프로그램, 특정 기차역에서의 시간표, 또는 지역 신문의 기사를 스캐닝함으로써 본 시스템이 사용자의 위치와 사회 활동에 대한 추론을 가능하게 하고, 예컨대 웹사이트로서 그들에 대한 자동 다이어리를 구성할 수 있다. 사용자는 이 다이어리를 편집하고 수정하고, 사진등 부가 기사를 부가하며 스캔된 항목을 다시 볼 수 있을 것이다.
17. 학술적 응용
상기한 시스템이 지원하는 휴대용 스캐너는 학술적 설정에 있어서 많은 어쩔 수 없는 용도를 갖는다. 이러한 스캐너는 학생/선생님간 상호작용을 향상시킬 수 있고 배우는 경험을 증대시킬 수 있다. 이러한 용도중, 학생들은 그들의 독특한 필요에 맞추기 위해 학습 기사에 주석을 달 수 있고 선생님들은 학업 성과를 모니터링할 수 있으며 학생들의 과제물에 인용된 소스 기사를 자동적으로 확인할 수 있 다.
17.1. 아이들용 책
책과 같은 종이 문서와 아이들의 상호작용은 본 시스템의 특정 실시예 세트를 채용하는 문해 습득 시스템에 의해 모니터링된다. 아이들은 문해 습득 시스템의 다른 엘리먼트와 통신하는 휴대용 스캐너를 사용한다. 휴대용 스캐너에 더하여, 문해 습득 시스템은 디스플레이 및 스피커를 구비한 컴퓨터와 이 컴퓨터에 의해 액세스가능한 데이터베이스를 포함한다. 본 스캐너는 컴퓨터와 (유선, 단거리 RF등으로) 연결된다. 아이가 책에서 모르는 단어를 보면, 그것을 스캐너로 스캔한다. 일 실시예에서, 문해 습득 시스템은 스캔된 텍스트와 데이터베이스내의 리소스를 비교하여 단어를 식별한다. 데이터베이스는 사전, 시소러스, 및/또는 멀티미디어 파일(예컨대 소리, 그래픽등)을 포함한다. 단어가 식별된후, 이 시스템은 컴퓨터 스피커를 사용하여 그 단어와 정의를 아이들에게 발음해준다. 또 다른 실시예에서, 이 단어와 정의가 문해 습득 시스템에 의해 컴퓨터 모니터상에 디스플레이된다. 스캔된 단어에 대한 멀티미디어 파일은 컴퓨터 모니터와 스피커를 통해 재생될 수도 있다. 예컨대, "금발의 미녀와 세마리의 곰"을 읽고있는 아이가 단어 "곰"을 스캔하면, 시스템은 단어 "곰"을 발음하고 컴퓨터 모니터상에 곰에 대한 짧은 동영상을 재생할 수 있다. 이런식으로, 아이들은 씌여진 단어를 발음하는 것을 배우고 그 단어가 의미하는 바를 멀티미디어 소개를 통해 시각적으로 습득한다.
문해 습득 시스템은 배움 프로세스를 강화하기 위하여 즉각적인 청각적 및/또는 시각적 정보를 제공한다. 아이들은 이러한 보충 정보를 사용하여 기록된 문 서의 보다 깊은 이해를 신속히 얻는다. 본 시스템은 초심 독자가 독서하는 것을 가르치는데 사용될 수 있고 아이들이 보다 넓은 어휘력등을 얻는데 돕기위해 사용될 수 있다. 이 시스템은 아이들에게 친밀하지 않은 단어나 아이들이 보다 많은 정보를 원하는 정보를 제공한다.
17.2. 문해 습득
몇몇 실시예에서, 본 시스템은 개인 사전을 컴파일한다. 독자가 새롭거나, 재미있거나, 특히 유용하거나 성가신 단어를 보면, 컴퓨터 파일로 (정의와 함께) 저장한다. 이러한 컴퓨터 파일은 독자의 개인화된 사전이 된다. 이러한 사전은 일반적으로 보통의 사전보다 사이즈가 작고 따라서 이동 단말 또는 연관된 장치로 다운로드될 수 있고 따라서 시스템이 즉시 액세스될 수 없는 경우에도 이용가능하게 된다. 몇몇 실시예에서, 개인 사전 입력은 적당한 단어의 발음을 돕기 위한 음성 파일과 단어가 스캔된 종이 문서를 식별하는 정보를 포함한다.
몇몇 실시예에서, 본 시스템은 학생들을 위한 커스터마이징된 스펠링 밍 어휘 테스트를 생성한다. 예컨대, 학생이 과제물을 읽을때, 그 학생은 휴대용 스캐너로 낯선 단어를 스캔할 수 있다. 이 시스템은 그 학생이 스캔한 모든 단어 목록을 저장한다. 이후, 시스템은 커스터마이징된 스펠링/어휘 테스트를 학생에게 연관된 모니터상에 제공한다(또는 이러한 테스트를 연관된 프린터에 인쇄한다).
17.3. 음악 교습
악보의 배치는 텍스트 라인에 문자를 배치하는 것과 유사하다. 본 시스템에서 텍스트를 캡처하기 위하여 상기한 같은 스캐닝 장치를 이용하여 악보를 캡처할 수 있고, 알려진 악곡의 데이터베이스에 검색를 구성하는 유사한 프로세스가 캡처가 일어나는 악곡이 식별될 수 있도록 하여 이후 검색, 재생, 또는 몇몇 다른 활동의 기초가 될 수 있게된다.
17.4. 표절 탐지
선생님들은 본 시스템을 사용하여 학생들의 과제물에서 텍스트를 스캐밍하고 스캔된 텍스트를 본 시스템에 제공함으로써 표절을 탐지하거나 원본을 확인할 수 있다. 예컨대, 학생의 과제물에 있는 발췌문이 학생이 인용한 소스로부터 왔다는 것을 확인하기를 원하는 선생님은 그 발췌문의 일부를 스캔하고 시스템에 의해 식별된 문서의 제목과 학생이 인용한 문서의 제목을 비교할 수 있다. 마찬가지로, 본 시스템은 그 학생의 원래의 작업물로 제출된 과제물로부터의 텍스트의 스캔을 사용하여 그 텍스트가 카피되었는지를 보일 수 있다.
17.5 개선된 텍스트상자
일부 실시예에서, 학술 교재로부터 텍스트를 캡쳐하는 것은 학생 또는 스태프을 보다 상세한 설명, 추가적인 연습, 자료에 대한 학생 및 스태프의 논의, 관련된 모범적인 과거의 시험 문제, 주제에 대해 추가적인 논문, 주제에 대한 강의 기록, 등에 연결시킨다.(섹션 7.1을 보라)
17.6 언어 학습
일부 실시예에서, 시스템은 외국어를 가르치기 위해 사용된다. 예를 들면 스페인어 단어를 스캐닝하는 것은 그 단어의 영어 정의와 함께 스페인어로 상기 단 어를 크게 읽도록 할 수 있다.
시스템은 새로운 언어 습득 프로세스를 개선시키기 위해 즉각적인 청각 및/또는 시각 정보를 제공한다. 독자는 자료의 보다 깊은 이해를 빨리 습득하기 위해 이러한 보충 정보를 이용한다. 시스템은 외국어를 읽으려하는 초보 학생을 가르치고, 학생들이 보다 많은 어휘 등을 습득하는 것을 돕는 데에 사용될 수 있다, 시스템은 독자에게 낯설거나 또는 독자가 더 많은 정보를 원하는 외국어 단어에 관한 정보를 제공한다.
신문 또는 책과 같은 페이퍼 문서와의 독자의 상호작용은 언어 스킬 시스템에 의해 모니터링된다. 상기 독자는 언어 스킬 시스템과 통신하는 휴대가능한 스캐너를 갖는다. 일부 실시예에서, 언어 스킬 시스템은 디스플레이 및 스피커를 구비한 컴퓨터 및, 상기 컴퓨터에 의해 액세스가능한 데이터베이스를 포함한다. 상기 스캐너는 컴퓨터와 통신한다(배선에 의해 접속된, 단거리 범위 RF, 등). 독자가 기사에서 모르는 단어를 보았을 때, 독자는 스캐너로 그것을 스캔한다. 데이터베이스는 외국어 사전, 유의어반의어사전, 및/또는 멀티미디어 파일(음성, 그래픽 등)을 포함한다. 일 실시예에서, 시스템은 스캔된 단어를 식별하기 위해 스캔된 텍스트를 자신의 데이터베이스에서의 리소스와 비교한다. 단어가 식별된 후에, 시스템은 컴퓨터 스피커를 사용하여 단어와 그 정의를 독자에게 전달한다. 일부 실시예에서, 단어와 그 정의 모두가 컴퓨터 모니터 상에 디스플레이된다. 스캔된 단어에 연관된 문법 팁에 관한 멀티미디어 파일 또한 컴퓨터 모니터와 스피커를 통해서 재생될 수 있다. 예를 들면, "to speak" 라는 단어가 스캔되면, 시스템은 "hablar"라는 단어를 발음하고, 적절한 스페인어 발음을 나타내는 짧은 오디오 클립을 재생시키고, "hablar"의 다양한 동사 변화형의 완벽한 목록을 디스플레이한다. 이러한 방식으로, 학생은 문자로 쓰여진 단어를 발음하는 것을 배우고, 멀티미디어 프리젠테이션에 의해 단어의 철자법을 시각적으로 배우고, 동사를 변화시키는 방법을 배운다. 시스템은 또한 공통적인 문구와 함께 적절한 "hablar"의 사용법에 관한 문법팁을 설명한다.
일부 실시예에서, 유저는 유저의 모국어(또는 유저가 합리적으로 잘아는 언어)가 아닌 언어로 된 렌더링된 문서로부터 단어 또는 짧은 문구를 스캔한다. 일부 실시예에서, 시스템은 유저의 "선호하는" 언어의 우선 순위 목록을 관리한다. 시스템은 렌더링된 문서의 전자 사본을 식별하고, 문서 내의 스캔 위치를 판정한다. 시스템은 또한 유저의 선호하는 언어 중 어느 하나로 번역된 문서의 제 2 전자 사본을 식별하고, 원문서에서의 스캔 위치에 상응하는 번역된 문서에서의 위치를 판정한다. 상응 위치가 정확하게 알려지지 않을 때, 시스템은 스캔된 위치의 상응 위치를 포함하는 작은 영역(예를 들면, 문단)을 식별한다. 그런 다음, 상기 상응하는 번역된 위치가 유저에게 제시된다. 이것은, 흔히 단어-당-단어 기반으로 정확하게 번역하기 어려운 은어 또는 다른 관용어법을 포함하는, 스캔된 위치에서의 특정한 어법의 정확한 번역을 유저에게 제공한다.
17.7 연구자료의 수집
특정한 토픽을 연구하는 유저는, 그들이 일련의 개인적인 아카이브에 토픽에 관련된 것으로 기록하기를 원하는, 인쇄된 그리고 화면 상의 모든 종류의 자료를 만날 수 있다. 시스템은 이러한 프로세스가 임의의 하나의 자료에서 짧은 문구를 스캐닝하는 결과로써 자동화될 수 있고, 또한 주제에 대한 간행물에 삽입하기에 적합한 참고문헌을 생성할 수도 있다.
18. 상업적 적용
명백하게, 상업적 활동이 본 문에서 논의된 거의 모든 프로세스로부터 만들어질 수 있지만, 여기서 우리는 소수의 명확한 수입 흐름에 집중하자.
18.1 요금기반 검색 및 인덱싱
종래 인터넷 검색 엔진은 일반적으로 전자문서의 무료 검색을 제공하고, 또한 인덱스에 컨텐트 공급자의 컨텐트를 포함하는 것에 대해 컨텐트 공급자에게 요금을 청구하지 않는다. 일부 실시예에서, 시스템은 유저에 대한 비용 청구 및/또는 검색 엔진에 대한 비용지급 및/또는 시스템의 운용 및 사용과 연결하여 컨텐츠 공급자에 대한 비용을 청구한다.
일부 실시예에서, 시스템 서비스에 대한 가입자는 페이퍼 문서의 스캔에 기원한 검색을 위한 요금을 지불한다. 예를 들면, 증권중개인은 컴파니 X에 의해 제공된 새로운 제품에 관한 월스트리트 저널의 기사를 읽을 수 있을 것이다. 페이퍼 문서로부터 컴파니 X의 명칭을 스캐닝하고, 필요한 요금의 지불에 동의함으로써, 증권 중개인은 애널리스트의 보고서와 같은 상기 회사에 관한 프리미엄 정보를 취 득하기 위해 특별한 또는 독점적인 데이터베이스를 검색하기위해 시스템을 이용한다. 시스템은 또한, 예를 들면 특정한 날에 발간된 모든 신문들이 인덱싱되고 그것들이 기사가 게재될 때까지 사용가능한 것을 보장함으로써, 페이퍼 형태로 가장 많이 읽혀지는 문서가 인덱싱의 우선순위를 가지도록 배치한다.
컨텐트 공급자는 페이퍼 문서로부터 제시된 검색 문의에서 특정한 용어에 연관된 요금을 지불한다. 예를 들면, 일 실시예에서, 시스템은 공급자에 관한 추가적인 컨텍스트에 기초한(이 경우, 컨텍스트는 컨텐트 공급자가 결과 목록을 위로 올리기 위한 요금을 지급한 것임) 가장 선호되는 컨텐트 공급자를 선택한다. 근본적으로, 검색 공급자는 컨텐트 공급자와의 사전의 재정 계약에 기초하여 페이퍼 문서 검색 결과를 조정한다. 섹션 5.2에서의 키워드 및 주요 어구의 상세를 보라.
특정한 컨텐트에 대한 액세스가 특정한 그룹의 사람(클라이언트 또는 피고용자 등)에 한정되는 경우, 이러한 컨텐트는 방화벽에 의해 보호될 수 있고, 그 결과 일반적으로 제 3자에 의해 인덱싱할 수 없게된다. 컨텐트 공급자는 그럼에도 불구하고 보호된 컨텐트에 대한 인덱스를 공급하기를 원할 수 있다. 그러한 경우, 컨텐트 공급자는 시스템 가입자들에게 컨텐트 공급자의 인덱스를 제공하도록 서비스 공급자에 요금을 지급할 수 있다. 예를 들면, 법률회사는 클라이언트의 문서 모두를 인덱스할 수 있다. 상기 문서들은 법률회사의 방화벽 뒤에 저장된다. 그러나 법률회사는 자신의 피고용인과 클라이언트가 휴대가능한 스캐너를 통해 상기 문서들에 액세스하여 서비스 공급자에게 인덱스(또는 인덱스에 대한 포인터)를 제공하고, 법률회사의 피고용자 또는 클라이언트가 그들의 휴대가능한 스캐너를 통해 페 이퍼-스캔된 검색 용어를 제시할 때, 서비스 공급자가 차례로 법률회사의 인덱스를 검색하기를 원한다. 법률회사는 상기 기능을 가능하게 하기 위해 서비스 공급자의 시스템에 피고용인 및/또는 클라이언트의 목록을 제공할 수 있거나, 또는 시스템이 상기 법률회사의 인덱스를 검색하기 전에 법률회사에 문의함으로써 액세스 권한을 검증할 수 있다. 상술한 예에서, 법률회사에 의해 제공된 인덱스는 그 클라이언트의 문서에 한정되는 것이지, 법률회사의 모든 문서의 인덱스가 아님에 유의하라. 따라서, 서비스 공급자는 법률회사가 그 클라이언트를 위해 인덱싱한 문서에 대해서만 법률회사의 클라이언트가 액세스하도록 승인할 수 있다.
페이퍼 문서에 기원한 검색으로부터 야기될 수 있는 적어도 2 가지의 개별 수입흐름이 있는데: 하나는 검색 기능으로부터의 수입 흐름이고, 다른 하나는 컨텐트 전달 기능으로부터의 수입흐름이다. 상기 검색 기능의 수입은 스캐너 유저의 유료 가입으로부터 생성되지만, 또한 검색당 요금에 따라 생성될 수도 있다. 컨텐트 전달 수입은 컨텐트 공급자 또는 저작권 소유자와 공유될 수 있지만(서비스 공급자는 각 전달에 대해 일정한 매매의 퍼센트 또는 최소지불액과 같은 고정된 요금을 취할 수 있다.), 또한 서비스 공급자가 거래를 중개하는 지의 여부를 고려하지 않고, 가입자가 온라인 카탈로그로부터 주문을 하고, 시스템에 그에 배송 또는 제공하는 모든 아이템에 대해 시스템이 요금 또는 퍼센트를 취하는 "위탁" 모델에 의해 생성될 수도 있다. 일부 실시예에서, 시스템 서비스 공급자는 소정의 시간 동안 또는 식별된 제품의 구매가 이루어진 임의의 후속하는 시간에 가입자가 컨텐트 공급자로부터 행한 모든 구매에 대한 수입을 받는다.
18.2 카탈로그
소비자는 페이퍼 카탈로그로부터 구매를 행하기 위해 휴대가능한 스캐너를 이용할 수 있다. 가입자는 상기 카탈로그를 식별하는 정보를 카탈로그로부터 스캔한다. 이러한 정보는 카탈로그로부터의 텍스트, 바코드, 또는 카탈로그의 또다른 식별자이다. 가입자는 그녀/그가 구매하기를 원하는 제품을 식별하는 정보를 스캔한다. 카탈로그 메일링 라벨은 카탈로그 벤더에 대해 소비자를 식별하는 소비자 식별 번호를 포함할 수 있다. 만약 그렇다면, 가입자는 이러한 소비자 식별 번호도 스캔할 수 있다. 시스템은 소비자의 선택과 소비자 식별 번호를 벤더에게 제공함으로써 카탈로그 구매를 돕기위해 가입자와 벤더 사이에서 중개자로서의 역할을 한다.
18.3 쿠폰
소비자는 페이퍼 쿠폰을 스캔하여, 추후의 복구와 사용을 위해 스캐너, 또는 컴퓨터와 같은 원격 디바이스에 쿠폰의 전자 복사본을 저장한다. 전자적 저장의 장점은 소비자가 페이퍼 쿠폰을 가지고 다니는 번거로움으로부터 자유롭다는 것이다. 추가적인 장점은 전자 쿠폰은 어떠한 위치에서건 가져올 수 있다는 것이다. 일부 실시예에서, 시스템은 쿠폰의 만료 기일을 추적하고, 곧 만료되는 쿠폰에 관해 소비자에게 경고하고, 및/또는 기한이 만료된 쿠폰을 저장에서 삭제할 수 있다. 쿠폰 발급자에 대한 장점은 누가 쿠폰을 사용하고 있는지, 그리고 언제 어디서 그 것들이 캡쳐되고 사용되는지에 관해 보다 많은 피드백을 받을 가능성이 있다는 것이다.
19. 일반적인 응용
19.1
시스템은 페이퍼 폼에 상응하는 전자 문서를 자동으로 채우는(auto-populate) 데에 사용될 수 있다. 유저는 페이퍼 폼을 고유하게 식별하는 일련의 텍스트 또는 바코드를 스캔한다. 스캐너는 인접한 컴퓨터에 유저를 식별하는 폼과 정보의 신원을 통신한다. 인접한 컴퓨터는 인터넷 연결을 가진다. 인접한 컴퓨터는 폼의 제 1 데이터베이스와 스캐너의 유저에 관한 정보(서비스 공급자의 가입자 정보 데이터베이스와 같은)를 구비한 제 2 데이터베이스에 액세스할 수 있다. 인접한 컴퓨터는 제 1 데이터베이스로부터의 페이퍼 폼의 전자적 버전에 액세스하고, 제 2 데이터베이스로부터 취득된 유저 정보로부터 폼의 필드를 자동으로 채운다. 그런다음 인접한 컴퓨터는 완료된 폼을 의도한 수취인에게 이메일로 전송한다. 대안으로, 상기 컴퓨터는 인접한 프린터에서 완료된 폼을 인쇄할 수 있다.
외부 데이터베이스에 액세스하는 것이 아닌, 일부 실시예에서, 시스템은 신원 모듈, SIM, 또는 보안 카드에서와 같이, 유저 정보를 포함하고 있는 휴대가능한 스캐너를 구비한다. 상기 스캐너는 인접한 PC로 폼을 식별하는 정보를 제공한다. 인접한 PC는 전자 폼에 액세스하여, 상기 폼을 채우기 위해 필요한 정보를 스캐너 에게 문의한다.
19.2 업무용 명함
시스템은 페이퍼 문서로부터 전자 주소록 또는 다른 컨택트 목록을 자동으로 채우는 데에 사용될 수 있다. 예를 들면, 새롭게 만난 사람의 업무용 명함을 받았을 때, 유저는 그/그녀의 휴대폰으로 상기 명함의 이미지를 캡쳐할 수 있다. 시스템은 상기 명함의 전자 복사본을 위치지정하고, 이것은 새롭게 만난 사람의 컨택트 정보를 가진 휴대폰의 온보드 주소록을 업데이트하는 데에 사용될 수 있다. 상기 전자 복사본은 업무용 명함에 압축될 수 있는 새롭게 만난 사람에 관한 보다 많은 정보를 담을 수 있다. 또한, 온보드 주소록은 전자 복사본에 대한 임의의 변경사항이 휴대폰의 주소록에서 자동으로 업데이트되도록 전자 복사본에 대한 링크도 저장할 수 있다. 본 예에서, 업무용 명함은 전자 복사본이 있음을 가리키는 심볼 또는 텍스트를 선택적으로 포함한다. 전자 복사본이 없다면, 휴대폰은 새롭게 만난 사람에 대해 주소록에 기입사항을 채워 놓기 위해 OCR 및 표준 업무용 명함 포맷의 지식을 이용할 수 있다. 심볼은 또한 상기 이미지로부터 직접 정보를 추출하는 프로세스를 도울 수도 있을 것이다. 예를 들면, 업무용 명함 상의 전화번호 다음에 있는 전화 아이콘은 전화 번호의 위치를 판정하기 위해 인식될 수 있다.
19.3 교정/편집
시스템은 교정 및 편집 프로세스를 개선시킬수 있다. 시스템이 편집 프로세 스를 개선시킬 수 있는 한가지 방식은 페이퍼 문서와 편집자의 상호작용을 그의 전자 사본에 링크하는 것에 의한 것이다. 편집자가 페이퍼 문서를 읽고, 그 문서의 여러 부분을 스캔할 때, 시스템은 상기 페이퍼 문서의 전자 사본에 대한 적절한 주석과 편집을 할 것이다. 예를 들면, 편집자가 텍스트 부분을 스캔하고 스캐너로 "새로운 문단"의 제어 제스쳐를 하면, 스캐너와 통신하는 컴퓨터는 상기 문서의 전자 복사본에서의 스캔된 텍스트의 위치에 "새로운 문단"의 브레이크를 삽입할 것이다.
19.4 음성 주석
유저는 상기 문서로부터 텍스트 부분을 스캐닝하고, 스캔된 텍스트에 연관된 음성 녹음을 함으로써 문서에 대한 음성 주석을 달 수 있다. 일부 실시예에서, 스캐너는 유저의 구두 주석을 녹음하기 위한 마이크로폰을 구비한다. 구두 주석이 녹음된 후에, 시스템은 텍스트가 스캔된 문서를 식별하고, 상기 문서내에 스캔된 텍스트를 위치시키고, 그 지점에 음성 주석을 첨부한다. 일부 실시예에서, 시스템은 스피치를 텍스트로 변환하고, 텍스트의 코멘트로서 주석을 첨부한다.
일부 실시예에서, 시스템은 상기 문서에 포함된 주석에 대한 참조로서만 상기 주석을 상기 문서와 분리시켜 유지한다. 그런 다음 주석은 지정된 가입자 또는 유저 그룹을 위한 문서에 대한 주석 마크업 층이 된다.
일부 실시예에서, 각각의 캡쳐 및 연관된 주석에 대해, 시스템은 문서를 식별하고, 소프트웨어패키지를 이용하여 그것을 열고, 스캔 위치로 스크롤하고, 음성 주석을 재생한다. 그런 다음, 유저는 음성 주석, 그들 자신 또는 다른 사람에 의해 제시된 변경 또는 기타 기록된 코멘트를 참조하면서 문서와 상호작용한다.
19.5 텍스트로 된 도움말
상술한 시스템은 전자 도움말 메뉴로 페이퍼 문서를 개선시키는 데에 사용될 수 있다. 일부 실시예에서, 페이퍼 문서에 연관된 마크업 층은 상기 문서에 대한 도움말 메뉴 정보를 포함한다. 예를 들면, 유저가 문서의 특정한 부분으로부터 텍스트를 스캔할 때, 시스템은 상기 문서에 연관된 마크업을 체크하고, 도움말 메뉴를 유저에게 제공한다. 도움말 메뉴는 스캐너의 디스플레이 또는 연관된 인접한 디스플레이 상에 표시된다.
19.6 디스플레이 사용
일부 상황에서, 텔레비전, 컴퓨터 모니터, 또는 다른 유사한 디스플레이로부터 정보를 스캔할 수 있는 것이 유리하다. 일부 실시예에서, 휴대가능한 스캐너가 컴퓨터 모니터와 텔레비전으로부터 정보를 스캔하는 데에 사용된다. 일부 실시예에서, 휴대가능한 광학 스캐너는 래스터라이징, 스크린 브랭킹 등과 같은 전형적인 음극선 튜브(CRT) 디스플레이 기술로 작업하기에 최적화된 조명 센서를 가진다.
문서로부터 텍스트를 읽는 유저의 오디오를 캡쳐함으로써 동작하는 음성 캡쳐 디바이스는 일반적으로 문서가 페이퍼 상에 있는지, 디스플레이 상인지, 또는 기타 다른 매체 상인지의 여부에 상관없이 작동한다.
19.6.1. 공공 키오스크 및 동적 세션 IDs
디스플레이의 직접 스캐닝의 일 사용은 섹션 15.6에 기술된 것과 같은 디바이스에 연관된 것이다. 예를 들면, 일부 실시예에서, 공공 키오스크는 동적 세션 ID를 자신의 모니터 상에 표시한다. 상기 키오스크는 인터넷 또는 회사 인트라넷과 같은 통신 네트워크에 연결된다. 세션 ID는 주기적으로, 하지만, 적어도 새로운 세션 ID가 모든 유저에게 표시되도록 하기 위해 키오스크가 사용될 때는 항상 변화한다. 상기 키오스크를 사용하기 위해, 가입자는 키오스크 상에 표시된 세션 ID를 스캔한다; 상기 세션 ID를 스캐닝함으로써 유저는, 자신이 인쇄된 문서의 스캔 또는 키오스크 스크린 자체로부터 발생한 컨텐트의 전달을 위해 상기 키오스크를 자신의 스캐너에 임시로 연결시키기를 원한다는 것을 시스템에 표현한다. 상기 스캐너는 세션 ID와 스캐너를 인증하는 다른 정보(시리얼 번호, 계정 번호, 또는 기타 식별 정보)를 직접 시스템에 통신할 수 있다. 예를 들면, 스캐너는 유저의 휴대폰(블루투스™를 통해 유저의 스캐너와 쌍을 이루는)을 통해 세션 초기화 메시지를 전송함으로써 시스템과 직접(여기서 "직접"은 키오스크를 통해 메시지를 통과시키지 않는 것을 의미함) 통신할 수 있다. 대안으로, 스캐너는 키오스크와 무선 링크를 구축하고, 세션 초기화 정보를 키오스크에 전송함으로써(아마도 블루투스™, 등과 같은 짧은 범위의 RF를 통해) 키오스크의 통신 링크를 이용할 수 있다; 응답하여, 키오스크는 자신의 인터넷 연결을 통해 시스템에 세션 초기화 정보를 전송한다.
시스템은 디바이스가 스캐너와 연결되어 있는 기간(또는 세션) 동안 스캐너에 이미 연결된 디바이스를 다른 사람이 이용하는 것을 방지할 수 있다. 이러한 특징은 또다른 사람의 세션이 끝나기 전에 다른 사람이 공공 키오스크를 이용하는 것을 방지하는 데에 유용하다. 인터넷 카페에서 컴퓨터를 이용하는 것에 관련된 이러한 개념의 예로서, 유저는 그녀/그가 사용하기를 원하는 PC의 모니터 상의 바코드를 스캔하고; 응답하여, 시스템이 그것이 디스플레이되는 모니터로 세션 ID를 전송하고; 유저는 모니터로부터 세션 ID를 스캔함으로써(또는 그것을 휴대가능한 스캐너 상의 키패드 또는 터치 스크린 또는 마이크로폰을 통해 입력함으로써) 세션을 초기화하고; 다른 스캐너가 세션 ID를 스캔하고 그/그녀의 세션 동안 모니터를 이용할 수 없도록 시스템이 자신의 데이터베이스에서 세션 ID를 그/그녀의 스캐너의 시리얼 번호(또는 유저 스캐너를 고유하게 식별하는 다른 식별자)와 연결시킨다. 스캐너는 모니터와 연결된 PC와 통신하거나(블루투스™와 같은 무선 링크, 또는 도킹 스테이션과 같은 배선 연결을 통해), 또는 휴대폰 등과 같은 다른 수단을 통해 시스템과 직접(즉, PC를 통하지 않고) 통신한다.
제 4 파트 - 시스템 디테일
도 4는 시스템의 실시예가 동작하는 전형적인 환경을 도시하는 도면이다. 시스템은 무선망(401), 인터넷(402) 또는 다른 네트워크(도시되지 않음)에 의해 상호연결된 복수의 디바이스를 포함하는 분포된 컴퓨팅 환경(400)에서 기능한다. 이러한 모든 통신 및 커넥션은 적합한 네트워크 통신 프로토콜을 사용하여 적합한 네 트워크 커넥션을 통해 상호연결되어 있다. 다양한 실시예에서, 서버 및 다른 디바이스는 시스템의 추가 실시예를 형성하는, 각각의 API에 따라 서로 통신한다. 대안의 실시예에서, 디바이스 및 서버는 오픈/스탠더드 프로토콜에 따라 통신할 수 있다.
서버 및 다른 디바이스는 렌더링된 문서(412)로부터 텍스트를 캡쳐링하는데 사용되는 OCR 디바이스(411) 또는 다른 텍스트 캡쳐 디바이스; 텍스트 캡쳐 디바이스가 캡쳐링된 텍스트 및 다른 사용자 입력의 다양한 표시를 업로딩하고, 시스템이 사용자에게 다양한 타입의 피드백을 제공할 수 있는 무선 디바이스(421) 및/또는 사용자 디바이스(422); 시스템이 사용자 계정 정보를 사용자를 위해 관리하는 사용자 계정 서버(431) 및 이와 연관된 사용자 계정 데이터베이스(432); 캡쳐링된 텍스트가 일어나는 전자 문서내의 위치를 식별하기 위해, 렌더링된 문서로부터 캡쳐링된 텍스트를 포함하는 문의를 시스템이 실행하기 위해 사용하는 검색 엔진 서버(441) 및 이와 연관된 검색 데이터베이스(442); 및 캡쳐링된 텍스트니에 포함되도록 결정된 문서의 카피를 시스템이 검색하는 문서 서버(451) 및 이와 연관된 문서 데이터베이스(452)를 포함한다. 이러한 서버가 단일 디바이스로서 설명되었지만, 각 서버는 실제로, 시스템의 실시예를 신현하는 실제 시스템에서 하나 보다 많은 디바이스를 포함할 수 있다. 또한, 서버는 파일 서버, 데이터베이스 서버 또는, 파일 서버 및 데이터베이스 서버를 포함하는 혼합물을 포함한다는 것을 이해할 것이다. 다양한 서버가 별개의 디바이스로서 설명될 수 있지만, 시스템의 다른 실시예에서 서버는 단일 디바이스상에 존재할 수 있다는 것을 또한 당업자는 이해할 것이다.
스캐너가 자기 센서를 포함한다면, 데이터는 광학식, 음향식, 접촉식 등은 물론 자기식으로 문서내에 코딩될 수 있다.
전자 문서를 인쇄된 형태로 전환하는 프로세스가 대부분 컴퓨팅 아웃셋으로부터 존재하였지만, 인쇄된 문서의 오리지널 디지털 소스를 다시 참조하는 효과적인 방법이 필요하게 되었다. 일부 실시예에서, 이것을 시스템은 구별된 텍스트 "사인"을 식별하기 위해 문서내의 요구되는 포지션을 스캐닝함으로써 달성하고, 이러한 사인은 오리지널 디지털 소스 문서내의 상응하는 위치를 위치시키는데 사용될 수 있는 정보를 제공한다. 시스템은 (아래에 설명되는 바와 같이, 해당 경우가 아닐 때도 유용한 결과가 얻어질 수 있음에도 불구하고) 관심의 페이퍼 문서의 전자 버전을 포함하는 것이 바람직한, 전자 문서의 데이터베이스로의 액세스를 갖고 있는 서버로의 디지털 사인을 전송한다. 그다음, 서버는 상응하는 위치를 식별하고, 이것을 페이퍼 문서의 오리지널 스캔과 연결시킨다. 이러한 관계를 달성함으로써 다양한 컨텍스트에서의 인쇄된 문서의 사용과 관련된 수많은 유용한 혁신이 가능하게 된다. 시스템의 다양한 실시예가 아래에 설명되어 있다.
한 관점에서, 시스템은 문서 인식을 문서 네비게이션으로 변형하도록 보조 또는 아큐멘팅 정보를 사용하는 단계(예를 들어, 문서의 위치 및 트래버싱 부분을 찾는 단계 및 트래버설에 대한 정보를 발생시키는 단계)로 보여질 수 있다. 시스템이 사용하는/발견하는 많은 "힌트"의 일부는 다음을 포함한다.
- 얼마나 빨리 사용자가 읽는가
- 어느 방향으로 사용자가 읽는가
- 어느 기간에 사용자가 가입하는가
- (일요일 아침에 선데이 신문을 읽는 것과 같은) 사용자의 매일 및 주간 행위
- 사용자 이러저런 문서에서 만든 최근의 마크
- 사용자가 역사적으로 관심가진 재료/주제의 타입
- 명확한 사용자 프로파일
- (무선 환경, 사용자의 PC 근방 환경 및/또는 사용자의 PC상에서의 활동등에 의해 주어질 수도 있는) 현 사용자 위치
- 텍스트의 성질
- 등등
많은 경우에, 사용자가 문서에서 만드는 제1 마크는 타입페이스 또는 폰트를 캡쳐링하는데 사용될 것이다. 그다음, 이러한 캐릭터 오브젝트의 의미는 (오프셋 기반) 다른데서 언급된 템플릿-매칭 플러스 디스앰비규에이션 접근에 의해 결정될 수 있다. 일단, 현 타입페이스 또는 폰트가 알려지면, 디바이스는 실제 텍스트(예를 들어, ASCII)를 캡쳐링하고 전송할 수 있거나, 다른 데서 언급된 (오프셋 기반) 템플릿-매칭 표시를 사용할 수 있다.
대문자가 자주 나타나지 않기 때문에, 일부 실시에에서, 시스템은 이들을 특별한 방법으로 처리한다. 시스템이 유용한 문서의 소스 또는 레퍼런스 카피를 가지고 있기 때문에, 시스템은 (구두는 물론) 대문자가 나타날 수 있거나 나타날 상 황을 예상할 수 있다.
많은 경우에, 문서의 특별 경우가 그것이 소스 또는 레퍼런스 카피에 나타난 그대로 렌더링될 것이라는 아무런 보장도 없다. 그럼에도 불구하고, 시스템은 자주 어떻게 렌더링된 카피가 이러한 마크(캐피탈)을 다룰지를 추정할 수 있다.
좋은 예는 영어 문장에서 보통 시작하는 대문자이다. 이런 것은 드물기 때문에, 일반적으로 이러한 초기 캐피탈을 번역하기 위해 템플릿 매칭 및 디스앰비규에이션을 사용하는 것은 용이하지 않을 것이다. 한가지 대안의 솔루션은 각 새로운 단락, 문자의 제1 문자를 무시함으로써, 캐피탈을 본질적으로 무시하는 것이다.
디스앰비규에이션에서, 대문자 및 다른 빈번한 마크는 한번만 나타난(반복되지 않음) 문자가 특별한 디폴트 오프셋(예를 들어, 0의 코드)가 주어진다는 점에서 자동적으로 정확하게 다루어진다.
특별한 인덱스가 오프셋 기반 표시(또는 다른 애매한 표시)로부터 구성될 때 리딩 캐릭터에 대한 불확실성이 예상될 수 있는데, 즉, 시스템은 캐피탈이 특정 위치에서 일어날 것이라는 것과, 그것이 매칭하지 않을 것이라는 것을 소스 문서로부터 알고 있다는 것에 주목해야 한다.
이러한 캐피탈의 이슈는 본 시스템이 어떻게 종래의 OCR 시스템으로부터 구별되는지에 대한 좋은 예이다. 시스템이 (이제 또는 미래에) 유용한 소스 문서를 가정하기 때문에 (그리고 일부의 경우에 상기 소스 문서에 의존하기 때문에), 다양한 불활성 및 문제가 용이하게 처리된다. 우리의 초점은 주로 번역보다는 문서 네비게이션에 있기 때문에, (모든 폰트내의 모든 대문자의 형상에 대한 특별한 정보 를 가질 필요가 있는 것과 같은) 종래의 OCR 시스템을 트립핑 업하는 이슈는 시스템에 대하여 문제를 유발시키지 않는다.
일예로서, 사용자는 "Take as an example this sentence."의 렌더링된 문서에서 발생하는 문장을 지시하길 원할 수 있다. 종래의 OCR 시스템은 제1 단어가 "Take" 또는 "Make" 또는 "Fake" 또는 "Rake"등이었는지를 확실히 하기 위해 문자"T"를 이해하고 번역하려고 한다. 그러나, 본 시스템은 네비게이션 목적을 위해 구별되는 레퍼런스 특징만을 찾는다. 시스템은 "T"를 단순히 드롭핑하고 "ake as an example"에 대하여 소스 문서를 검색할 수 있고, 이러한 관용어는 레터, 오프셋 또는 다른 형태로 표시될 수 있다. 관용어의 나머지가 식별되는 사인을 구성하는한, 초기 캐릭터의 번역은 필수적인 것은 아니다.
이러한 이슈 및 구별에 대한 또 다른 고찰은 텍스트 캐릭터를 인식 (즉, 번역)하기 위해 종래의 OCR이 사용되었다는 것을 이해함으로써 온다. 예를 들어, OCR 펜의 사용자는 텍스트를 캡쳐링하고 번역하기 위해 텍스트의 한 라인상에 펜을 이동시키고, 시스템의 사용자는 상이한 의도를 가지고 있다. 이들은 문서내의 이렇한 위치를 *지시* 하거나 "지적"하기 위해 텍스트의 한 라인상에 이들의 막대 또는 스캐닝 디바이스를 이동시키고, 그래서 상기 문서내의 위치와 연관된 많은 특징 및 기능을 이네이블링한다.
더욱이, 사용자가 특정 언더라잉 텍스트에 관심이 있을 때, 이들의 액션은 일반적으로 텍스트를 캡쳐링하고 번역하기 보다는 이 텍스트에 대해 작용하는 것이다. 따라서, 사용자는 이러한 텍스트를 언더라인하고 이것을 이탤릭체로 변환하 고, 이것을 인용하고, 그것에 북마크등을 놓을 수도 있다.
시스템의 한가지 유용한 기능은 렌더링된 문서내의 위치를 각각 지시하는 북마크를 놓는 것이다. 일반적으로 이것들은 나중에 문서내의 위치를 발견하는데 사용될 수 있다. 한가지 단순하지만 관심있는 적용은 "북마크"의 전통적인 의미와 많이 관련된 문서내에 사용자가 마지막 읽은 곳을 표시하는 것이다. 사용자가 책 또는 다른 문서에서 오프 상태로 떠났던 이러한 정보로 용이하게 접근하는 것이 가능할 수 있다. 이러한 데이터는 사용자의 PC 또는 PDA 또는 휴대폰상에 나타날 수도 있다. 일부 실시예에서, 이러한 디바이스 자체는 디바이스 자체내의 작은 LCD 디스플레이등을 사용함으로써 마지막 읽은 위치를 지시한다. 일부 실시예에서, 디스플레이는 이진식, 예를 들어, 온 또는 오프인 LED이다. 이러한 LED는 사용자가 이들이 이미 읽은 텍스트를 스캔하는 경우에는 온일 수 있고, 이들이 새로운 텍스트를 스캐닝하는 경우에는 오프일 수 있다. 이러한 방법으로 사용자는 사용자가 오프 상태로 떠난 위치를 "헌팅"할 수 있다.
도 5는 북마크를 구현하기 위해 시스템에 의해 보통 실행되는 단계를 도시하는 흐름도이다. 단계(501)에서, 시스템은 사용자에 의해 스캐닝된 텍스트를 수신한다. 단계(502)에서, 시스템은 단계(501)에서 스캐닝된 텍스트를 사전처리한다. 단계(503)에서, 시스템은 이 스캐닝된 텍스트를 사용자를 위해 유지되는 문서 히스코리에 비교한다. 단계(504)에서, 이 스캐닝된 텍스트가 이전에 사용자에 의해 스캐닝되었다면, 시스템은 이전의 스캔을 지시하기 위해 단계(505)으로 진행하고, 그렇지 않으면, 시스템은 문서내의 스캔을 위치시키기 위해 단계(506)으로 진행한다. 단계(507)에서, 스캔이 마지막 북마크전에 위치되어 있다면, 시스템은 이전에 읽었을 표시하기 위해 단계(508)로 진행하고, 그렇지 않으면, 팩실리티는 이전에 읽지 않았음을 표시하기 위해 단계(509)로 진행한다.
일부 실시예에서 시스템내에 제공된 새로운 능력의 두드러진 예는 라이브러리 북, 학교 교재등의 사용 이력에서 보여질 수 있다. 마진 노트, 언더라잉 및 하이라이팅 또는 다른 형태로 책내에 기록하는 것은 항상 판독자의 소망이 되어 왔었다. 그러나, 언급된 경우에 (그리고 심지어 사용자 자신의 책에서 조차) 이러한 마크를 하는 데는 거대한 장벽이 있는데, 즉, 이러한 마크는 다른 사람이 그 작업을 미래에 즐기는데 있어(때로는 사용자의 자신에게) 간섭이 된다. 본 시스템은 사용자가 책 또는 문서에 마크를 하고 주석을 달 수 있도록 하면서도 동시에, 원본이 건드려지지 않도록 선택할 수 있도록 한다.
특정 문서내의 사용자의 액션을 보는 한가지 방법은 오버레이 또는 투명성등이 있다. 사용자가 문서의 물리적 렌더링과 상호작용하고 있을지라도, 이들의 마크는 가상적인데, 즉, 이들은 전자식으로 캡쳐링되고 저장되고, 그래서 아무런 물리적 마크도 렌더링된 버전에 나타날 필요가 없다. 그러나, 일부 실시예에서, 시스템은 집적된 하이라이터 또는 펜을 가진 텍스트 캡쳐 디바이스를 채용하고 있다. 도 6은 집적된 하이라이터 또는 펜을 갖는 스캐닝 디바이스를 도시하는 도면이다. 스캔 디바이스(600)가 선택적으로 수축되는 하이라이터(601) 및 펜(602) 모두를 포함하는 것을 볼 수 있다.
따라서, 이러한 오버레이는 추상적인, 가상층으로서 생각될 수 있다. 이러 한 층은 문서의 소스 또는 레퍼런스 버전과 통합되거나 "중첩"될 수 있다. 일예에서, 이것은 사용자가 이들의 컴퓨터 스크린상의 레퍼런스 문서를 볼 때 일어나는데, 이 스크린에서 사용자의 액션으로부터 중첩된 데이터가 레퍼런스 문서의 상부에 나타나거나 통합된다. 레퍼런스 문서가 이러한 방법으로 디스플레이되기 위해 수정될 필요가 없다는 것에 주목해야 한다. 일부 실시예에서, 오버레이 정보는 사용자가 문서를 인쇄할 때 레퍼런스 또는 소스 문서와 결합된다. 일부 실시예에서, 시스템은 소스 문서가 사용자에게 전자적으로 전달될 때 이 소스 문서에 이러한 오버레이를 인가하거나, 이러한 오버레이를 소스 문서에 결합시킨다. 예를 들어, 소스 문서 및 오버레이는 PDF 문서내로 조합되어 사용자에게 이메일로 전송될 수도 잇다.
이러한 예중 어느 하나에서, 사용자의 오버레이된 정보가 별개의 층으로서 저장될 수 있기 때문에, 소스 문서는 변경될 필요가 없다. 다라서, 많은 사용자는 모두 마크를 달 수 있고 문서의 단일 카피와 상호작용할 수 있다. 사용자의 마크 및 노트는 별개로 저장되어, 오리지널은 변경될 필요가 없다.
각 사용자의 데이터는 언더라잉 문서에 보통 작게 비교된다. 하이라이팅의 경우를 고려해보자. 저장될 필요가 있는 모든 것은 문서내의 하이라이팅된 텍스트의 스타트 위치 및 종료 위치, 그리고 하이라이트 컬러이다. 이러한 데이터를 저장하는 한 방법은 문서의 스타트로부터의 캐릭터 오프셋으로 저장하는 것이다. 또 다른 방법은 문서:페이지:라인과 같은 어드레스로서 저장하는 것이다. 대안으로, 시스템은 렌더링된 문서내에 사용자의 액션의 실제 x-y 좌표를 저장한다.
시스템과 함께 사용되는 문서는 문서의 어느 이슈 또는 카피가 스캐닝되고 잇는지를 지시하기 위해 사용자가 스캐닝할 수 있는 특별한 마크(예를 들어, 바코드등)을 갖고 있다. 이러한 추가 식별 정보에 의해 시스템은 사용자가 어느 문서를 가지고 있는지, 그래서 그것이 어떻게 렌더링되는지를 결정할 수 있다.
일부 경우에, 시스템은 시스템을 사용하여 사용자가 문서와 상호작용할 수 잇도록 식별 코드 또는 마크를 사용자가 스캐닝할 것을 요구할 수 있다. 이것은 사용자가 문서의 일부 파트상에 디바이스를 사용하기 전에 요구될 수 있다. 대안으로, 시스템에 의해 사용자는 문서와 상호작용할 수 있지만, 시스템은 사용자가 일부 미래의 포인트에서 식별 스캔을 행할 것으로 요구할 수 있다. 또는, 다른 대안으로, 이 식별 스캔은 옵션일 수 있고, 그것이 없다면, 시스템은 추가 앰비규어티, 즉, 사용되고 있는 특정 문서에 대한 보다 적은 확실성을 가질 수 있다. 그외의 부수적인 스캔으로써, 시스템은 특정 문서에 대해 보다 많은 것을 알게 된다.
일부 실시예에서, 캡쳐 디바이스는 이러한 문서가 인식되지도 않고 이네이블링도 되지 않는다는 것(즉, 식별 스캔이 요구된다는 것)을 사용자에게 알리기 위해 에러 지시기 또는 신호(예를 들어, LED 또는 청각적인 톤)을 제공한다. 이러한 식별 스캔은 사용자가 어느 문서, 예를 들어, 지방 아침 신문을 가지고 있는지를 구체적으로 지시하는데 사용될 수 있고, 이로 인해 시스템은 스캔의 디스앰비규에이션 및 위치를 결정하기 위해 문서 또는 관련된 사전의 캐싱된 카피에 주목할 수 있게 된다.
스캐닝되는 특별한 마크는 1 또는 2 차원의 바코드, 도는 인간판독가능한 텍 스트의 특별 영역, 또는 코딩된 데이터일 수도 있다. 일부 실시예에서, 렌더링된 문서내의 텍스트의 영역은 이러한 영역이 문서 인식을 위해 스캐닝되어야 한다는 것을 사용자에게 지시하기 위해 (예를 들어, 마진 마크, 또는 하이라이팅, 또는 언더라잉, 또는 특별 컬러링된 잉크에 의해) 특별히 마킹된다.
상기 설명 모두는 또한 문서내의 복수의 마크에 적용될 수 있다. 에를 들어, 잡지 또는 신문내의 상이한 아티클, 잡지내의 개별적인 광고, 개별적인 페이지등은 마크를 가지고 있을 수 있거나, 사용자는 문서의 서브 영역내의 하나 이상의 아아템을 뚜렷이 스캔하도록 요구될 수도 있다. 따라서, 문서의 개별적인 파트는 사용자의 뚜렷한 액션에 의해 분명하게 식별될 수 있다.
일부의 경우에, 이러한 스캔은 사용자의 컨텍스트를 시스템이 알도록 돕는데 사용될 수 있다. 다른 경우에, 이러한 스캔은 유용하지 않았을 시스템의 특징을 이네이블하거나 언로킹할 수 있다. 예를 들어, 인쇄된 카탈로그로부터의 구매는 사용자가 그위에 사용자의 식별 코드로 어드레스 라벨을 스캐닝하지 않으면 허용되지 않을 수도 있다.
일부 실시예에서, 사용자는 이들의 컨텍스트, 어느 문서내의 어느 위치인지의 컨텍스트를 달성하기 위해 구체적으로 텍스트의 영역을 스캐닝할 수 있다. 이러한 목적을 위해, 터미널 디바이스는 이러한 (컨텍스트를 설정하는) 요구되는 기능을 지시하기 위해 특별한 스위치 또는 입력을 가질 수 있다. 대안으로, 사용자는 텍스트를 역으로 스캐닝하는 단계등에 의해 컨텍스트-세팅 레퍼런스 스캔 기능을 지시할 수 있는 디바이스로써 특별한 제스쳐를 실행할 수 있다. 대안으로, 이 러한 디바이스에 의한 모션 또는 제스쳐는 이전의 액션의 "소거" 또는 "언두잉"을 나타낼 수 있다.
일반적으로, 디바이스의 모션 및 액션은 사용자 의도를 나타내는데 사용될 수 있다. 가능한 모션의 긴 리스트는 다음을 포함하고 있다.
- 판독 방향으로 스캐닝 = 문서 사인 발생.
- 역 방향으로 스캐닝 = 컨텍스트 설정.
- 페이지의 상하 수직방향으로의 드래깅 (시스템은 횡단된 수평라인을 셀 수 잇고, 또한 시스템이 횡단하는 지나간 자리로부터 데이터 프로그먼트를 캡쳐링할 수 있다) = 지역 설정.
- 전후 모션, 또는 업 다운 모션 = 이전의 액션의 언두잉.
- 텍스트의 영역 원 표시 = 영역 선택.
- 탭핑 또는 클릭킹 - 렌더링된 문서와 접촉하는 디바이스의 단부내의 스위치 또는 센서를 통해, 또는 사용자가 제어할 수 있는 별개의 스위치를 통해 = 컨텍스트 관련 메뉴 요청.
이것은 단지 부분적인 리스트임에 주목해야 한다. 또한, 이러한 모션의 2개 이상을 조합함으로써, 그리고 이러한 모션이 실행되는 순서를 변화시킴으로써 얻어지는 풍부한 가능성에 주목해야 한다.
시스템의 한 관심의 사용은 문서 서명에 있다. 디바이스는 어느 부분이 스캐닝되었는지를 포함하여, 특정 문서가 어느 시간, 장소등에서 스캐닝되었는지를 기록할 수 있음에 주목해야 한다. 또한, 디바이스내의 광학장치는 서명의 이미지 를 캡쳐링하고 저장할 수 있다. 시스템에서, 문서는 하나 이상의 위치에서 특별한 마크 또는 코드가 제공될 수 있다(여기에는 전체 문서에 대한 고유의 식별자 코드가 포함되어 있다). 이러한 마크는 특별히 마킹되거나 지시된 인간 판독가능한 텍스트(예를 들어, 굵게 또는 언더라인등이 된 법문서의 섹션)를 포함할 수 있다. 그다음, 사용자는 이들이 읽었다는 것을 나타내기 위해 문서의 다양한 부분을 스캐닝할 수 있다. 또한, 이들은 문서를 선택적으로 스캐닝할 수도 있고 이들의 서명을 단말 디바이스에 의해 스캐닝하여 읽어들일 수도 있다. 디바이스 자체는 도 6에 도시된 바와 같이 기록 수단을 통합할 수 있고, 이러한 경우에 사용자는 하나의 디바이스로 스캐닝 및 서명할 수 있다.
특별한 코드, 예를 들어, 바코드로써 문서 및 문서의 서브 파트를 코딩할 필요가 오래전부터 있어왔다. 그러나, 역사적으로, 이것을 해결하려는 노력은 완전히 성공적이지 못했다. 이에 대한 한가지 이유는 단순한 바코드 스캐너 자체가 최종 사용자에게 충분한 유용하지 못했기 때문일 수 있다. 이것은 치킨-에그 상황(어느 것이 먼저인지 가늠하기 어려운 상황)을 불러일으킨다: 사용자는 스캐너를 휴대하지 않고 그래서, 발행자는 코드를 인쇄하지 않는다. 발행자는 코드를 인쇄하지 않고, 그래서 사용자는 코드-스캐닝 디바이스를 필요로 하지도 사용하지도 않는다.
그러나, 문서 네비게이션 툴, 플러스 코드 스캐너(플러스, 선택사항으로 OCR을 실행하는 툴)의 고유한 조합은 이러한 장벽을 극복할 수 있다. 텍스트 스캐닝 능력 및/또는 OCR 능력의 가치 및 유용성 때문에 사용자는 코딩된 (예를 들어, 바 코드) 정보를 판독할 수 있는 하드웨어 및/또는 소프트웨어를 포함할 수 있는 단말 디바이스를 필요로 하고 휴대하거나 사용하도록 동기부여될 것이다. 바코드를 다루기 위한 모든 추가 컴포넌트는 서버, 또는 시스템내의 다른 위치에 위치될 수도 있다는 것에 주목해야 한다. 단말 디바이스는 판독될 바코드의 이미지를 단순히 캡쳐링하고 이것을 번역을 위해 전송할 수도 있다.
일부 실시예에서, 디바이스는 그것이 스캐닝하고 있는 이미지가 언제 바코드에서와같이 1차원인지를 인식한다. 에를 들어, 디바이스는 아무런 정보도 가지지 않은 축이 존재하는지 (소프트웨어로, 또는 하드웨어로 전자식으로, 또는 이들의 조합으로) 조사할 수 있다. 1차원 바코드는 y축과 병렬인 것으로 추정되는 평행선으로 구성된 이러한 특성을 가지고 있다. 이러한 경우에, x축으로 이들과 수직으로, 라인을 가로지르는 x축을 따른 변화만이 정보를 포함하고 있다. 이러한 1차원 특성을 갖는 데이터를 디바이스가 보는 경우에, 디바이스는 y축을 간과/무시함으로써 이러한 스캐닝된 데이터를 감소시키도록 로컬 인텔리전스 (하드웨어 및/또는 소프트웨어)를 가질 수 있다. 즉, 디바이스는 (예를 들어, 서버와 통신하기 전에) 코드를 부분적으로 또는 완전히 판독하거나 번역할 수 있다.
바코드에 대한 이러한 설명은 대부분의 OCR 또는 시스템의 기술성분- "디스큐잉"에 대한 관심을 일으킨다. 디스큐잉은 스캐닝되거나 이미지화된 데이터로부터 임의의 인공적인 각도 성분을 제거하는 프로세스이다. 핸드 스캐너에 의해 자주 발생하는 상황은 사용자가 이들을 페이지에 수직인 축 둘레로 회전되는 각도로 유지하고, 그래서, 캡쳐링된 데이터에 인위적인 각도 또는 경사가 포함되게 되는 것이다. 이 각도는 또한, 예를 들어, 사용자가 이들의 손이 페이지를 가로질러 이동시킴에 따라 시간에 대해 변할 수 있다는 것에 주목해야 한다. 이러한 인위적인 스큐가 데이터 또는 이미지를 처리하는 단계중 하나에서 제거된다면 유익하다.
시스템이 (다른데서 설명된) 템플릿-매칭 또는 컨볼루션 기반 방법을 채용할 때, 한 장점은 첫째 인위적인 스큐 또는 각도가 중요하지 않다는 것이다. 즉, 동일한 각도에서 각각 스큐잉되는 레터 또는 심볼은 이러한 스큐 성분을 제거함 없이 서로 매칭할 것이라는 것이다.
많은 타입의 폰트는 수많은 강한 수직 요소를 갖고 있다. 이것들은 자주 베이스 라인에 수직인 직선이다. 일부 실시예에서, 시스템은 스큐각이 용이하게 결정될 수 있는 데이터에 대한 수학적 변환을 실행함으로써 텍스트를 디스큐잉한다. 이러한 변환은 국부적으로 적용될 수 있고 그래서 (예를 들어, 텍스트의 단일 라인을 가로지르는) 스큐내의 변동은 국부적으로 검출되고 측정될 수 있다.
본 시스템에서 사용될 수 있는 템플릿-매칭 (오프셋 기반), 컨볼루션 방법은 템플릿과 같이 조기 발생된 이러한 오브젝트를 사용하여, 오브젝트를 발견하는 능력을 갖고 있다. 이러한 능력의 관심 결과는 임의의 반복하는 오브젝트가 용이하게 판독가능한 정보를 가질 수 있고, 이러한 정보를 나타내는 토큰은 미리 한정되거나 시스템에게 알려질 필요가 없다.
예로서, 문서는 "100101001"과 같이, 1과 0의 스트링을 포함하고 있다(예를 들어, 이진 데이터의 표시).
템플릿 매칭 방법에서, 시스템은 "1" 또는 "0"의 의미를 인식하고 이해할 필 요할 필요가 없다. 오히려, 시스템은 "제1 타입의 오브젝트, 제2 타입의 2개의 오브젝트, 제1 타입의 오브젝트...등"과 샘플 스트링을 번역할 수 있다. 샘플 스트링내의 이러한 정보는 물론 "abbababba" 또는 "011010110"에 의해 표현될 수 있다.
데이터는 임의의 수의 뚜렷한 오브젝트 또는 심볼을 사용하여 인코딩될 수 있고, 그 스페이스는 이러한 오브젝트중 하나로서 처리될 수 있다(스페이스가 사용된다면, 측정된 거리는 인접한 스페이스를 세는데 사용될 수 있거나 각 스페이스 오브젝트는 예를 들어, "1 11 111 1"이 "1 11 111 1"과 동일하게 번역되도록, 1의 카운트를 항상 갖도록 제한될 수 있다. 이러한 관점으로부터, (모두 보다 낮은 경우로 가정하는) 26개의 캐릭터 로마 알파벳으로 기록된 언어는 다만 이러한 인코딩의 특별한 예인데, 이 예에서 심볼의 수는 26이다.
일부 실시예에서, 시스템은 오프셋, 즉, 각각의 심볼의 캐릭터 포지션 서퍼레이팅 재발생 예의 수로서 상기 "011010110" 예와 같은 시퀀스로 데이터를 표현한다. 이러한 표현에서, "011010110"은 3,1,2,2,2,3,1,?,?로서 표현되고, 여기에서, 각 디짓은 오리지널 스트링내의 캐릭터에 상응하고, 디짓의 값은 이러한 동일한 캐릭터의 다음 발생에 대한 오프셋 또는 거리이다.
이러한 표현에서, 특정 간과된 엘리먼트 및/또는 금지된 코드가 존재한다. 예를 들어, 제1 디짓,3 후에, 디짓 "2"은 이것이 이러한 제2 캐릭터가 제1 캐릭터와 동일하다는 것을 의미하기 때문에 그 성질상 절대 일어날 수 없고, 이러한 경우에, "3"이 "1"등이 되었을 것이다.
또한, ("?"로 표시된) 마지막 2개의 엔트리는 리던던트이고, 이러한 포지션 에서의 캐릭터는 조기 오프셋/레퍼런스에 의해 그들에게 알려져 있고, 그래서, 이러한 2개의 트레일링 포지션은 거의 또는 아무런 정보도 가지고 있지 않다. 즉, 캐릭터가 m의 오프셋을 갖고 있는 경우에 (우리가 우측으로 이동하고 오프셋을 우측으로 측정하는 것으로 가정한다), 그 다음 캐릭터는 오프셋 m-1을 가질 수 없고, 그 이후의 캐릭터는 오프셋 m-2 등을 가질 수 없다. 이것은 이러한 "금지된" 오프셋이 보다 앞서 주어진 오프셋과 충돌하고 모순되기 때문이다.
일부 실시예에서, 시스템은 데이터를 디코딩 및/또는 표현하는데 금지된 코드를 조사한다. 예를 들어, 일부 실시예에서, 팩실리티는 예외 코드와 같은, 추가 데이터를 저장하기 위해 금지된 코드를 사용함으로써 금지된 코드를 조사한다. 따라서, 오프셋의 시퀀스가 코드 "m,m-1"를 포함하고 있을 때마다, 시스템은 특별한 모드 또는 루틴을 엔터할 수 있고, 이어지는 코드를 특별하게 처리할 수도 있다.
이러한 효과는 누적될(cumulative) 수 있는데, 즉, 각 오프셋은 이전에 보였던 모든 오프셋의 제약을 충족시켜야 한다. 예로서, 오프셋 "5,2,4,1,5,5,1,1,?,?,?"를 갖는 데이터 스트링 "xyzyyxzzzyx" 입력을 고려해보자. 이러한 엔트리의 각각은 다음과 같이 제약을 갖는다:
5 - 아무런 이전의 날리지가 아닌, 임의의 것일 수 있다.
2- 4일 수 없다(그외의 이전의 엔트리는 5가 아닌 1이었을 것이다)
4 - 3 또는 1일 수 없다 (이유는 이것들이 이전의 5 및 2와 모순되기 때문이다)
1 - 2일 수 있거나(5와 충돌한다) 3일 수 있다(4와 충돌한다)
5 - 2일 수 없다(4와 충돌한다)
5 - 4 또는 1일 수 없다(4 및 5와 충돌한다)
1- 4 또는 3일 수 없다(5 및 5와 충돌한다)
1 - 3 또는 2일 수 없다(5 및 5와 충돌한다)
? - 2 또는 1일 수 없다(5 및 5와 충돌한다)
? - 1일 수 없다(5와 충돌한다)
? - 이러한 포지션을 넘는 아무것도 참조되기 않기 때문에 임의의 것일 수 있다.
다른 방법을 말하자면, 하나의 캐릭터 포지션을 넘어 뻗는 임의의 오프셋은 모든 간섭 포지션에 대한 로지컬 제약을 놓는다.
이러한 관찰의 용도는 에러 검출을 실행하는 것이다. 예를 들어, 금지된 코드가 수신되면, 시스템은 이것을 에러로 번역하고 보고하거나 이것에 대해 동작할 수 있다.
또 다른 사용은 추가 데이터를 인코딩하는 것이다. 일부 실시예에서, 시스템은 특별 액션 도는 프로세스를 호출하거나 스트림으로부터 연속 내장된 데이터를 판독하는 "익스케이프 시퀀스"로서 금지된 코드를 번역하고, 그후에, 시스템은 (이러한 익스케이프 시퀀스가 시퀀스 길이에 대한 정보를 가질 수 있거나, 이것이 시스템에 의해 알려지거나 전달될 수 있기 때문에) 입력 스트림에 재동기화할 수 있고, 프로세싱을 계속 진행한다.
이러한 금지된 코드의 또 다른 용도는 데이터를 인코딩하는데 있어 정보량을 감소시키는 것이다. 여기서, 하나의 알고리즘은 "이것이 제1 금지된 (최소) 금지된 코드라면, 이것을 제1 허용된/유효한 코드로서 처리하고; 이것이 제2 (두번째 최소) 금지된 코드라면, 이것을 제2 허용된/유효한 코드로서 처리한다"일 수도 있다. 이러한 방법에서, 보다 작은 (금지된) 수는 보다 큰 (허용된) 코드를 나타날 수 있고, 그래서, 데이터를 저장하거나 전송하는데 사용된 비트의 수는 감소된다.
이러한 복수의 예시된 금지된 코드의 용도는 조합될 수 있는데, 예를 들어, 제1 (최소) 금지된 코드는 익스케이프 시퀀스로서 번역될 수도 있고, 보다 높은 코드는 그다음 유용한 유효한 코드로 맵핑된다. 이러한 코드의 다른 용도 역시 사용될 수 있다.
일반적으로, 거의 아무런 추가 정보가, 반복되는 시퀀스에 의해 운반되지 않는다. 따라서, 예를 들어, 캐릭터 시퀀스 "abcabcabcabcabc"는 보다 간결하게 "5(abc)"로서 반복된다. 동일한 것이 반복하는 시퀀스의 오프셋 표현에 대해 사실이다. "abcabcabcabcabc"는 "333333333333???"로서 오프셋으로 표현되는데, 이것은 "12(3)???"으로 표현될 수도 있다.
다른 예에서, "abcbcbcabcbcbcabcbcbc"는 먼저, 오프셋, "72222337222233?2222?"로서 코딩된 후, "74(2)2(3)74(2)2(3)?4(2)2(?)"로 감소되고, 그후에 "2(74(2)2(3))?4(2)2(?)"로 추가 감소된다. (여기에 나타난 규정은 "카운트(오브젝트)"이고, 여기에서, 괄호는 오브젝트를 제한하지 않고, 데이터 시스템에서 이것은 많은 방법으로 표현될 수도 있다.)
일부 실시예에서, 시스템은 반복 카운트를 함께 하고, 오직 오브젝트 자체만 이 저장도거나 전송되도록 고안된다. 앞서의 예의 오프셋의 반복된 열에 적용되어, "abcabcabcabcabc"는 먼저 오프셋, 즉, 카운트(오브젝트): 12(3)??? -이것은 단순히 "+3???"로서 저장되거나 전송될 수 있고, 여기에서, "+"은 오브젝트가 반복하는 인디케이터이다 - 으로서 차례로 표현될 수 있는 "333333333333???"으로서 코딩될 수 있다. 대안으로, 시스템은 "3"만을 저장하거나 전송하고, 반복 카운트에 대한 임의의 레퍼런스를 드롭핑한다.
이러한 반복 시퀀스의 이슈가 중요한 이유는 시스템이 얼마나 멀리 사용자가 스캐닝할 것인지를 모를 수 있기 때문이다. 예로서, 사용자는 일려의 점선 "----------------"을 스캐닝할 수 있다. 시스템이 이러한 점선이 임의의 길이로 갈것이라고 가정하면, 사용자는 그들이 목적하는 대로 스캐닝하기를 원치 않을 수도 있고, 그래서, 얼마나 많은 점선이 나타나는지 알 수 없다. 이러한 경우에, 시스템은 일부 실시예에서, "길이 1의 반복 시퀀스"를 단순히 저장하거나 전송한다.
이것은 또한 보다 복잡한 시퀀스를 위해 작동한다. 사용자가 읽고 있는 스토리의 섹션은 바운더리 마커를 포함할 수도 있다.
"--***--***--***--***--***--***--***--***--***"
일부의 실시예에서, 시스템은 이것이 인식되기 위해 전체가 스캐닝되기를 요청하지 않는다. 이러한 시퀀스로부터의 오프셋은 "31641153164115..."로서 (스페이스를 오브젝트로서 카운트하여) 표현될 수도 있다. 이것은 카운트 플러스 오브젝트로서,또는 "복수의 인디케이터"("+3164115" - 상기 플러스 기호의 용도 참조)로서, 또는 복수의 임의의 표시 없이 (단지 "3164115"), 저장되거나 전송될 수 있 다.
이러한 2개의 후자의 예는 정규 표현으로 매칭 구조에 거의 가깝다. "+3164115" 예는 "1번 보다 큰 매치"에 상응하고, "3164115" 예는 "1번 이상의 매치"에 상응한다. 이러한 경우에, 인덱스 또는 데이터베이스내의 시퀀스를 검색할 때, 동의된 규정은 임의의 시퀀스가 자체적으로 1번 이상의 연속 발생에 의해 매칭되는 것이다.
이러한 구조의 유틸리티의 일부는 시스템내의 문서의 소스 또는 레퍼런스 카피가 존재하는 경우에 발생하고, 시스템은 사용자의 포지션을 위치지정하려고 시도할 것이다. 터미널 및/또는 로컬 시스템 컴포넌트 및 벡엔드 컴포넌트(예를 들어, 아치브, 인덱스등, 아마도 서버 기반)가 모두 어떻게 반복 시퀀스가 처리될 지에 대해 이해하고 동의한다면, 리던던트 데이터가 저장 및 통신을 위해 드롭팅될 수 있다. 이전의 단락의 "1개 이상의" 예에서 데이터를 인덱싱하고 있는 서버는 반복 시퀀스의 단일 제1 예만(생 데이터 또는 유도된 오프셋중 하나)을 저장할 수 있고, 스캐닝 터미널 디바이스는 반복 시퀀스의 1개의 예를 저장하거나 전송할 수도 있다.
이러한 프로세스를 기술하는 또 다른 방법은 임의의 반복 시퀀스가 카운트에 의해, 또는 보다 단순한 대안의 모델로, 전체가 완전히 무시되는 방식으로 표현되는 것이다. 따라서, 구 "*** buy cheap cheap tools here!!! ***"는 "* buy cheap cheap tools here! *"로 인덱싱되거나 표현될 수도 있거나, 그 오프셋이 "*** buy cheap cheap tools here!!! ***"로 유사하게 압축될 수도 있다.
"11*4???6666666?**??6?1???8?2??11??11?" (여기에서, 9보다 큰 오프셋은 "*"로 도시되었다) 는 다음과 같이, 압축된다.
"2(1)*43(?)7(6)?**2(?)6?13(?)8?22(?)2(1)2(?)2(1)?". 또는 모든 반복을 제거하면 (하지만 9보다 큰 오프셋에 대한 "*"를 남겨둔다)
"1*4?6?**?6?1?8?2?1?1?"가 된다.
그다음, 예를 들어, 원격 서버에서 동작하는 별개의 시스템은 이러한 압축된 반복과 매칭하는 시퀀스를 검색하거나, 이 시퀀스를 찾기 위해 인덱스를 참조할 수 있다. 그렇게 하기 위해 별개의 시스템은 "한 번이상" 잠잭적으로 발생하는대로 시퀀스내의 각 오브젝트를 처리하고, 정기 표현으로서, 코드 및 알고리즘을 구현하여 이러한 매치를 발견해낸다.
저장 및/또는 전송에서의 유사한 효율이 캐릭터 오프셋이 채용될 때, 텍스트의 모든 스캔이 미지의 오프셋(상기 "???"로서 도시되어 있다)으로 종료한다는 점을 주목함으로써 얻어질 수 있다. 이것은, 사용자가 좌측으로부터 우측으로 스캐닝하고 있다고 가정하고, 오프셋이 스캔이 종료되어야 하는 지점에서 우측으로 다음 매칭 캐릭터에 대한 것이고, 그래서, 마지막 캐릭터의 일부가 오프셋을 알지 못하기 때문인데, 여기에서, 캐릭터의 다음 발생은 스캔에 포함되지 않을 것이다. 한 데이터 인코딩 기술에서, 이러한 미지의 오프셋은 제로로서 표현될 수도 있지만, 또 다른 실시예는 이러한 트레일링 미지의 오프셋은 전송되거나 저장된 데이터로부터 드롭핑하는 것이다.
템플릿 매칭 및/또는 자기 상관은 토큰 또는 오브젝트 또는 캐릭터 또는 심 볼의 일예를 템플릿으로서 사용하여 이러한 동일한 오브젝트의 연속발생을 인식하게 된다. 여기에 단순화된 개관을 제공한다.
사용자가 터미널 디바이스로 텍스트의 단일 수평라인을 스캐닝하고 있다고 가정한다.
사용자가 캡쳐 디바이스로 텍스트의 단일 수평라인을 스캐닝할 대, 일부 실시예에서, 시스템은 텍스트의 이미지를 캡쳐링하고 그것을 메모리에 저장하고 및/또는 그것을 전송한다. 일부 실시에에서, 시스템은 매칭 오브젝트의 오프셋을 즉시 계산하고 개별적인 템플릿만을 저장함으로써, 템플릿 매칭 온더플라이(on-the-fly)를 실행하고, 이것들은 오프셋이 알려져 있을 때 폐기될 수 있다.
초기에, 시스템은 그것이 스캐닝하고 있는 오브젝트의 형태에 대한 (만약 있다면) 많은 것을 알 필요가 없다. 템플릿 매칭의 프로세스에서, 이러한 형태는 다양한 템플릿이 발견될 때 나온다.
이것은 또한 캐릭터의 수평 익스텐트에 적용된다. 화이트스페이스 및 캐릭터의 폭에 대한 특별 지식이 도움이 될 수 있지만(에를 들어, 대부분의 캐릭터의 높이에 대한 폭의 비가 x에 대한 것이거나, 평균 단어 길이가 y에 대한 것이라는 등), 이것은 필수적인 것은 아니다. 실제로, 일부 실시예에서, 캡쳐 디바이스는 화이트스페이스 함께 무시한다.
일부 실시예에서, 사용자가 텍스트의 수평라인의 일부를 스캐닝할 때(또는 이후에), 시스템은 그 라인을 "컨볼빙", 즉, 자체를 지나 수평방향으로 상기 라인의 카피를 효과적으로 슬라이딩하고, 잘 매칭하는 지역을 찾는다. 이러한 프로세 스의 스타트에서, 텍스트의 베이스라인을 결정하는 단계 및 그것을 디스큐잉하는 단게는 도움이 될 수 있는데, 그 단계 모두는 문서 이미징 분야에서 주지된 기술이다. 그러나, 이러한 단계중 하나 없이 매칭 영역을 검색하는 방법이 있다는 것에 주목해야 한다.
매칭하거나 거의 매칭하는 영역으로서, 이들의 수평 크기가 주목된다. 이러한 예에서, 우리는 매치의 수직선이 캐릭터의 전체 높이라고 가정한다(우리는 우리가 "자체 인식"이라고 부르는 일부 매칭 기술을 나중에 고려할 것이다.
이러한 프로세스는 연결된 영역 해석을 사용할 것으로 옵션으로 선택할 수 있는데, 토큰/오브젝트/캐릭터/심볼은 "연결된" (즉, 연속) 화소 또는 잉크로 구성되었다고 가정한다. 따라서, 매칭하는 연결된 영역을 검색하는 예를 들고 있다. 이것은 정의에 의해 잉크의 연결된 영역의 외부의 영역이 화이트스페이스이기 때문에 화이트스페이스의 지식과 관련되어 있음에 주목해야 한다.
일부 실시예에서, 시스템은 단순한 수평 크기를 (복수의 다른 방법중 하나로서) 사용한다. 즉, 시스템은 연결된 영역 또는 화이트스페이스의 구성요소가 프로세스를 돕는데 도입될 수 있지만, 상기 연결된 영역 또는 화이트스페이스에 거의 주목하지 않거나 전혀 주목하지 않고, 화소 또는 잉크의 매칭 영역의 포지션 및 수평 폭에 주목한다.
도 7은 텍스트 캡쳐 액션을 처리하기 위해 시스템에 의해 보통 실행되는 단계를 도시하는 흐름도이다. 단계(701)에서, 시스템은 사용자에 의해 캡쳐링되는 텍스트를 수신한다. 단계(702)에서, 시스템은 단계(701)에서 스캐닝된 텍스트를 사전처리한다. 단계(703)에서, 시스템은 스캐닝된 텍스트내의 단어 및 라인 바운더리를 식별한다. 단계(706)에서, 시스템은 상술된 바와 같이, 텍스트를 컨볼빙한다. 단계(705)에서, 시스템은 텍스트내의 미지의 영역의 바운더리를 결정하기 위해 디리미터를 사용한다. 단계(706)에서, 시스템은 캡쳐링된 텍스트의 표현을 생성시키기 위해 스캔을 처리한다. 단계(707)에서, 시스템은 전자 문서의 본체내의 매칭 텍스트 표현을 검색한다. 단계(708)에서, 단계(707)의 검색이 성공적이라면, 시스템은 성곶거인 검색 통지를 리턴하기 위해 단계(709)로 진행하고, 그렇지 않으면, 시스템은 단계(710)으로 진행한다. 단계(710)에서, 검색이 정제될 수 있다면, 시스템은 단계(711)로 진행하고, 그렇지 않으면 시스템은 실패된 검색 통지를 리턴하기 위해 단계(712)로 진행한다. 단계(711)에서, 시스템은 정제가 필요하다는 것을 사용자에게 알린다. 단계(711) 후에, 시스템은 단계(711)의 통지에 응답하여 사용자에 의해 캡쳐링된 추가 텍스트를 수신하도록 단계(701)로 진행한다.
렌더링된 문서로부터 취해진 텍스트의 2개의 영역을 매칭하는데 있어서, 시스템은 "매치의 양호성"의 이슈와 만나게 된다. 모든 물리적인 측정이 에러를 포함하기 때문에, 시스템의 매칭 프로세스는 본질적으로 절대 정확하지 않을 것이다. 다라서, 일부 실시예에서, 시스템은 어떻게 잘 하나의 영역이 다른 영역과 매칭하는지에 대한 결정을 행한다. 복수의 툴이 이것을 달성하기 위해 사용될 수 있는데, 많은 툴이 OCR, 문서 이미징 및 머신 비전 분야에서 이미 잘 알려져 있다. 일부 실시예에서 시스템에 의해 사용되는 피트(fit) 또는 매치를 추정하는 한가지 방법은 먼저 비교되는 오브젝트의 최상 정렬을 찾고, 그다음, 그 오브젝트 상의 차이 를 계산하는 것이다. 에를 들어, 단순한 흑백 화소(아무런 그레이 스케일이 없음)의 경우에, 시스템은 단순히 하나의 이미지/오브젝트에서 온이고 또 다른 이미지/오브젝트에서 오프인 화소를 찾아낸다. 이러한 "에러"의 카운트는 피트의 대략 추정값이다.
이러한 카운트 추정값은 포함된 화소의 전체 수에 의해 "카운트 추정값을 노멀라이징"함으로써(상기 포함된 화소의 전체 수에 의해 카운트 추정값을 나눔으로써) 향상될 수 있다. 따라서, 다양한 실시예에서, 시ㅡ템은 다음중 하나를 사용한다.
fit_error = #_bad_pixels / #_pixels_in_x_y_region_compared
or:
fir_error = #_bad_pixels / #_pixels_in_object
전자는 비교되는 에어리어에 비교된 에러 화소의 수를 고려한다. 후자는 이 수와 비교되는 에러 화소 또는 매칭, 논-에러 화소의 수를 고려한다. 다양한 실시예에서, 시스템은 이러한 기술에 다양한 정제를 더하거나, OCR등으로부터 다른 매칭 기술을 사용한다.
기술된 매칭 프로세스에서, 에러 및 매칭 화소의 물리적인 분포(예를 들어, x-y축)는 잠재적인 중요성을 갖는다. 유도되고 추정된 언어에서, 매칭 화소가 "집중"될 때(즉, 연속, 함께 가깝게 발생할 때) 보다 양호한 피트가 존재할 수 있다. 에러 화소는 "분포"된다(즉, 비연속적으로 멀리 일어난다).
이것의 일예로서, 2가지 상황을 고려하자. 한 경우에서, 시스템은 "r"의 이 미지를 "n"의 이미지와 비교한다. 이미지의 작은 부분만이 에러 화소를 포함하는데, 여기서, "n"의 우측부는 베이스 라인에 기울어져 있으나, "r"은 그렇지 않다. 방대한 수의 에러 화소가 존재하지 않을 수 있지만, 이들은 함께 가깝게 그리고 연속으로 일어난다는 사실에 주목해야 한다. 다음으로, 문자 "n"의 2개의 이미지를 비교하는 것을 고려해보자. 여기에서, 이 이미지의 품질은 양호하지 않은데, 예를 들어, 흐리거나 손상된 경우이다. 이러한 경우에, 매우 많은 에러 화소가 존재할 수 있지만, 이 캐릭터의 주변에 많은 자리에 분포되어 일어날 가능성이 높다는 것에 주목해야 한다. 이것은 넓게 분포된 에러 화소가 가깝게 패킹된 에러 화소보다 더 적은 에러를 갖고 있음을 입증한다.
매칭에 관한 이러한 설명은 "자체 매칭"으로 불리는 다른 관련된 이노베이션에 연결된다. 역사적으로, OCR은 다양한 캐릭터를 인식하기 위해 절대 캐릭터 형상 및 폰트에 대한 뚜렷한 지식을 채용하였다. 일부 경우에, 시스템은 캐릭터를 인식하기 위해 *관련* 캐릭터 형상에 관한 간접적인 지식을 사용한다.
도 8A-8D는 한 알파벳의 2개의 캐릭터가 얼마자 자주 복수의 폰트로 동일한 *관련* 형상을 근사하게 가지고 있는지를 설명하고 있다. 도 8A는 Arial lower-case 폰트로 문자 "D", "C", "L"을 도시하고 잇고, 도 8C는 이러한 문자를 Times New Roman lower-case 폰트로 도시하고 있다. 이 폰트들이 매우 상이하고 뚜렷하지만, 특정 폰트"내"의 이러한 캐릭터 사이의 관계는 거의 동일하다.
도 8B 및 도 8D는 어느 하나의 폰트에서, "d"가 "c" 및 "l"을 함께 더함으로써 어느 정도의 정확도를 가지고 구성될 수 있음을 도시하고 있다. 또는, 유사 대 수학적으로(pseudo-algebraic) 말하면, "d = c + l"이다. "e = c + -", "P = B - b + l", "8 = 6 + 9"과 같은 많은 폰트에 대해 참인 많은 다른 유사한 관계가 존재한다. 이러한 관계는 정확하다는 것을 의미하는 것이 아니지만, 상이한 폰트에서의 다양한 문자의 관련 형상이 *대략* 동일하다는 것을 의미한다. 이러한 관계는 대략적인 것이지만, 이러한 관계로 인해 추가 캐릭터를 인식하기 위해(또는 사실 구성하기 위해) 하나의 폰트내의 캐릭터의 하나의 그룹을 사용할 수 있게 된다.
이러한 기술의 하나의 적용은 OCR에서이다. 일단 폰트내의 캐릭터중 몇가지를 시스템이 결정하면(그중 하나에 대하여 우리는 아무런 지식도 갖고 있지 않을수도 있다), 시스템은 나머지, 미지의 캐릭터를 예측 및/또는 인식할 수 있다.
가끔, 캐릭터 빈도 및 n-그램 분석과 같은 크립토그래피의 단순한 방법을 사용하여 일부 캐릭터를 식별하는 것이 가능하다. 다른 캐릭터와 연관되어, 단어내의 어느 포지션에서 얼마나 빈번히 캐릭터가 나타나는지에 대한 관찰은 캐릭터가 우리가 알지 못하는 폰트로 나타난다 할지라도 캐릭터에 대한 초기 정보를 제공할 수 있다. 가장 단순한 예는 단일 캐릭터 "a", "l"일 수도 있는데, 우리가 하나의 캐릭터 단어를 볼 때, 우리는 이들이 이러한 2개의 문자중 하나일 것이라는 것을 즉시 안다. 이와 마찬가지로, 반복되는 캐릭터(예를 들어, ee, oo)는 "hh" 또는 "qq"가 아닐 가능성이 높다.
시스템이 캐릭터 "d" 및 "o"를 학습하였고 캐릭터 "c"를 만났지만, 아직 그것이 무엇인지를 모른다고 가정해보자. 학습된 캐릭터의 형상과 캐릭터 "C" 형상을 비교함으로써, 시스템은 상기 형상이 수직 줄기에 대한 것을 제외하고 "d"와 매 칭하는지 그리고 상기 캐릭터가 우측 에지에 대한 것을 제외하고 "o"에 매칭하는지를 결정한다. 이것들이 대부분의 폰트에서, "d", "o", 및 "c"의 관련 캐릭터임을 알기 때문에 시스템은 이제 새로운 문자 "c"를 식별하였다. 그렇게 함으로써, 시스템은 이것을 알려진 심볼의 레퍼토리에 추가하고, 이것을 추가 캐릭터를 해독하는데 사용한다. 따라서, 시스템이 아무런 특정 지식을 갖고 있지 않은 폰트에 대한 시ㅡ템의 지식은 *관련* 캐릭터 형상의 그 *일반적인* 지식에 기초하여 점차 증가하고 확장될 수 있다. 이러한 자체 인식 시스템을 구현하는 한 가지 방법은 일반적인 관계의 m × m 행열에 의한 것인데, 여기에서 m은 알파벳 캐릭터의 수이다. 이러한 테이블내의 각 엔트리는 어떻게 캐릭터 i가 캐릭터 j와 관련되어 있는지를 기술하는데, 이것은 일반적인 관련 형상 정보 및 규칙을 포함할 가능성이 있고("캐릭터 i는 베이스라인 아래로 뻗고, 캐릭터 j는 그렇지 않다), 이것은 알파벳에서의 추가 캐릭터에 대한 참조를 포함할 가능성이 있다(예를 들어, 행 "d" 및 열 "c"에 대한 엔트리는 "-l"일 수도 있는데, 이는 "d"로부터 "c"를 만들기 위해 "l"을 빼는 것을 말하고, 행 "c" 및 열 "d"에 대한 엔트리는 "+l"일 수도 있는데, 이는 "c"로부터 "d"를 만들기 위해 "l"를 더하는 것을 말한다).
자체 인식의 특별한 경우는 심볼 또는 토큰의 세트(즉, 새로운 폰트)가 이들이 상술된 바와 같이 자체 인식가능하다는 뚜렷한 의도로 구성될 때 발생한다. 즉, 이러한 심볼의 부분 집합이 주어지면, 다른 것은 유도되거나 추론될 수 있다. 이러한 심볼은 이들의 그래픽 구성요소/설계가 상관되어 있기 때문에 서로 에러 검사하기 위해 사용될 수 있다. 이러한 리던던시는 또한 노이즈에 대한 정교함을 제 공한다.
이러한 방법을 채용하기 위해, 심볼의 *임의의* 것이 미리 시스템에서 알려져야 한다는 필요조건은 존재하지 않는다. 템플릿-매칭 또는 상관의 상술된 방법중 하나를 사용함으로써, 시스템은 매칭 및 비매칭 심볼에 기초하여 사용되는 전체 심볼 세트를 결정할 수 있다. 그다음, 시스템은, 시스템이 이러한 심볼 세트를 전에 본 적이 없음에도 불구하고, 심볼의 각각을 확인하기 위해, 일부 경우에, 임의의 놓친/사용되지 않은 심볼을 발생하기 위해 심볼간의 알려진 관계를 사용한다.
도 9는 자체 인식을 사용하여 심볼의 전체 새로운 세트를 학습하기 위해 일부 실시예에서 팩실리티에 의해 사용된 방법을 설명하는 도면이다. 이도면은 작은 "박스"의 2×2 어레이로 구성된 심볼의 세트(900)를 도시하고 있다. 수직 및 수평 스페이싱을 달성하기 위해 화이트스페이스 및 베이스라인의 지식을 사용하면, 16개의 가능한 심볼이 존재하는데, 즉, 4개의 코너에 있는 4개의 단일 박스, 2 박스를 포함하는 6개의 순열, 3 박스를 포함하는 4개의 순열, 및 4개의 박스를 모두 갖는 하나의 심볼, 및 아무런 박스로도 구성되지 않은 화이프스페이스 심볼이다.
도 10은 수직 및 수평 익스텐트를 자체 한정하는 도 9내에 도시된 심볼의 부분집합을 도시하는 도면이다. 부분집합(100)의 각 심볼은 폭이 2개의 박스이고 높이 역시 2개의 박스이다.
도 11은 도 9에 도시된 심볼의 일부 사이의 관계를 도시하는 도면이다. 예를 들어, 관계(1101,1102)의 각각은 상기 세트의 하나의 심볼이 2개의 다른 심볼로부터 구성될 수 있는 관계를 도시하고 있다. 우리는 최상의 리던던시 및/또는 에 러 보정 특성을 갖는 이러한 심볼을 부분집합으로서 선택할 수 있다는 것에 주목해야 한다. 일부 심볼은 세트내의 심볼의 조합으로부터 적어도 2개의 상이한 방법으로 구성될 수 있음에 주목해야 한다.
*************
소비자 시장에서 목표로 되었던 복수의 전용 바코드 스캐닝 디바이스는 상업적으로 실패하였는데, 그것은 아마도, 바코드 스캐닝만이 광범위한 소비자 채택을 위한 충분한 가치 및 기능을 제공하지 않기 때문일 것이다. 한편, 문서 마킹/스캐닝 및 바코드 스캐닝의 조합은 광범위한 소비자의 관심을 사고 사용될 조합된 기능을 창출할 것이다. 이러한 텍스트 및 바코드 이미징의 조합은 동일한 컴포넌트, 하드웨어 및 소프트웨어중 많은 것으로 달성될 수 있다. 그러나, 하나의 실제 관심있는 새로운 구성요소는 스캐닝되는 렌더링된 문서의 레퍼런스 또는 소스 카피를 사용하고, 렌더링된 문서에서의 사용자의 엑션이 소스 또는 레퍼런스 문서에 관하여 그리고 그에 맵핑되어 해석되는 스캐닝 디바이스이다.
소스 문서를 위치시키기 위한 또 다른 수단은 마킹된 버전이 이러한 소스 문서를 검색하기 위한 디렉션을 제공하고 및/또는 소스 문서를 식별하는 머신 판독가능 코드를 가지고 있는 경우이다(예를 들어, URL). 이러한 코드는 바코드, 머신 판독가능 폰트, 또는 이러한 정보를 운반하기 위한 임의의 머신 판독가능 수단일 수도 있다.
머신 판독가능 문서 ID 및 문서 로케이터의 관심있는 확장은 이러한 데이터가 액세스 정보를 포함하는 것이다. 즉, 머신 판독가능 코드에, 시스템이 예를 들 어, 통합 방화벽등의 뒤에서 패스워드 보호될 때, 문서에 시스템에 액세스할 수 있도록 하는 정보가 포함되어 있다. 추가 입력이 이러한 문서에 액세스하기 위해 요청을 확인하는 사용자 또는 다른 개인에 의해 요청될 수도 있다는 것에 주목해야 한다.
일부 실시예에서, 시스템은 사용자의 노트 및 마크와 이러한 노트 및 마크와연관된 문서 컨텐트 및 특징 사이의 관계를 유지하고 있다. 이것은 예를 들어, 소스 문서가 상이한 스타일 또는 포맷으로 다시 렌더링되고, 시스템이 정확한 위치에서 사용자의 마크를 다시 표시하기를 원하는 경우에 중요할 수 있다. 일예로서, 사용자가 텍스트의 단어를 통해 라인을 드래깅하는 경우에, 시스템은 연속 렌더링에서 동일한 텍스트를 통해 상기 라인을 보여주기를 원할 수 있다.
이것을 달성하는 한 수단은 문서내의 일부 인식가능한 특징(예를 들어, 구두 마크, 이미지등)을 가진 사용자 마크 또는 마크의 그룹을 각 "앵커링"하는 것이다. 일부 실시예에서, 시스템은 최근망 소스-문서 특징을 (예를 들어, 기하학적 거리에 의해) 찾고 이러한 마크에 마크를 연관시킴으로써 앵커링한다.
일부 실시예에서, 시스템은 근방 특징을 찾고, 이들을 가중치 부여하거나 랭킹하기 위해, 하이 레이티드(high-rated) 특징과 사용자의 마크를 연관시킨다. 일 예로서, 시스템이 사용자에 의해 마진 노트를 만난다면, 시스템은 모든 근방 단어를 검사하고 가장 관련있는 단어(예를 들어, 소스 문서 텍스트의 토직과 관련될 수도 있는, 스톱-워드보다는 키워드)와 이 마크를 연관시킬 수도 있다. 시스템의 이러한 태양은 문서내의 중요한 요소를 식별하기 위해 알려진 많은 기술의 일부를 채 용할 수 있다.
따라서, 연관된 앵커 포인트를 가진 노트 및 마크는 디지털 문서와 관련될 수 있고 그래서, 관련 노트 또는 마크는 문서를 (예로 들어, 워드 프로세서로) 보거나 편집할 때 액세스될 수 있다. 예를 들어, 이러한 모든 노트는 문서내에 내장된 특별한 심볼로서 나타날 수도 있다(그리고, 이 문서내에 옵셥으로 저장될 수도 있다). 그다음, 사용자는 내장된 또는 연관된 노트 또는 마크를 드러내기 위해 이러한 심볼상에 마우스를 올리거나 클릭할 수도 있다. 이와마찬가지로, 사용자의 노트는 메뉴 커맨드를 통해 턴 온 되거나 턴 오프될 수도 있다.
결론
상술된 시스템이 다양한 방법으로 채용되거나 확장될 수 있다는 것을 당업자는 이해할 것이다. 상술된 설명이 특정 실시예에 대해 언급하였지만, 본 발명의 범위는 이어지는 청구범위 및 거기에 기재된 요소에 의해서만 한정된다.

Claims (18)

  1. 컴퓨팅 시스템내의 전자 문서 네비게이팅 방법으로서,
    문장 프래그먼트를 구성하는, 렌더링된 문서의 컨텐트의 부분을 선택하는 사용자 입력을 수신하는 단계; 및
    상기 사용자 입력 수신에 응답하여, (1) 전자 문서의 본체내에 포함된 전자 문서, 및 (2) 문서 부분이 선택되는 상기 식별된 전자 문서내의 포지션을 식별하는 단계;를 포함하고, 상기 식별된 전자 문서는 선택된 문서 부분을 포함하는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  2. 제1항에 있어서,
    상기 식별된 전자 문서에 관한 마크업 층에 액세스하는 단계;
    상기 식별된 전자 문서내의 식별된 포지션에 대한 마크업층에 의해 정의된 액션을 식별하는 단계; 및
    상기 식별된 액션이 상기 수신된 사용자 입력을 제공한 사용자에게 유용하도록 하는 단계;를 더 포함하는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  3. 제1항에 있어서, 상기 식별된 전자 문서 및 상기 식별된 포지션은 상기 선택된 문서 부분의 표준 캐릭터 세트 표현을 결정함없이 식별되는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  4. 제3항에 있어서, 상기 식별은 상기 선택된 문서 부분의 이미지를 사용하여 행해지는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  5. 제3항에 있어서, 상기 식별은 상기 선택된 문서 부분에 의해 포함된 텍스트의 컨볼루션-인코딩된 표현을 사용하여 행해지는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  6. 제5항에 있어서, 2개의 선택된 문서 부분 모두를 컨볼루션-인코딩된 표현으로 인코딩하는 단계를 더 포함하고, 상기 2개의 선택된 문서 부분은 2개의 상이한 특성의 언어의 텍스트를 포함하는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  7. 제5항에 있어서, 상기 컨볼루션-인코딩된 표현내의 유효값을 포함함으로써 상기 컨볼루션-인코딩된 표현내의 선택된 문서 부분의 텍스츄얼 컨텐트에 독립적인 데이터를 인코딩하는 단계를 더 포함하는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  8. 제3항에 있어서, 상기 선택된 문서 부분은 상기 전자 문서의 본체중에 고유하고, 단일 단어가 삭제된 선택된 문서 부분의 버전은 상기 전자 문서의 본체중에 고유하지 않은 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  9. 제3항에 있어서, 상기 선택된 문서 부분은 상기 전자 문서의 본체의 복수의 전자 문서에 의해 포함되어 있고, 상기 방법은,
    상기 수신된 사용자 입력을 제공한 사용자를 식별하는 단계;
    상기 식별된 사용자에 대한 컨텍스트 정보를 검색하는 단계; 및
    상기 검색된 컨텍스트 정보의 컨텐트에 기초하여, 렌더링된 문서에 상응할 가능성이 가장 높은 상기 복수의 전자 문서중의 한 문서를 식별하는 단계;를 더 포함하는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  10. 제1항에 있어서,
    상기 식별된 전자 문서내의 식별된 포지션에 관한 주석을 명기하는 사용자 입력을 수신하는 단계;
    상기 명기된 주석을 상기 식별된 전자 문서 밖의 위치내의 포지션 및 상기 식별된 전자 문서의 표시와 함께 저장하는 단계;
    상기 명기된 주석에 대한 사용자 요청에 응답하여,
    상기 식별된 포지션을 포함하는 식별된 전자 문서의 적어도 일부를 검색하는 단계;
    상기 식별된 포지션을 포함하는 상기 식별된 전자 문서의 영역을 디스플레이하는 단계;
    상기 명기된 주석을 검색하는 단계; 및
    상기 식별된 포지션에 근접한 포지션에서 상기 디스플레이된 문서 영역과 연결하여 상기 명기된 주석을 디스플레이하는 단계;를 더 포함하는 것을 특징으로 하는 전자 문서 네비게이팅 방법.
  11. 제1항 내지 제10항중 어느 한항의 방법을 컴퓨팅 시스템이 실행하도록 하는 컨텐트를 가진 것을 특징으로 하는 컴퓨터 판독가능 매체.
  12. 휴대가능한 광 텍스트 캡쳐 디바이스내의 렌더링된 문서로부터의 텍스트 캡쳐링 방법으로서,
    상기 렌더링된 문서내의 텍스트의 제1 이미지를 상기 렌더링된 문서로부터 캡쳐링하는 단계;
    상기 휴대가능한 텍스트 캡쳐 디바이스로부터 별개의 컴퓨터 시스템에 상기 텍스트의 캡쳐링된 제1 이미지를 업로딩하는 단계;
    상기 렌더링된 문서에서 사용된 타입페이스의 캐릭터 이미지의 캐릭터 아이덴티티로의 맵핑을 상기 컴퓨터 시스템으로부터 수신하는 단계;
    상기 렌더링된 문서내의 텍스트의 제2 이미지를 상기 렌더링된 문서로부터 캡쳐링하는 단계; 및
    상기 텍스트의 제2 이미지내에서 발생하는 이미지를 가진 캐릭터의 아이덴티티를 결정하기 위해 상기 수신된 맵핑을 사용하는 단계;를 포함하는 것을 특징으로 하는 텍스트 캡쳐링 방법.
  13. 제12항의 방법을 실행하기 위한 컴퓨팅 시스템.
  14. 휴대가능한 광 텍스트 캡쳐 디바이스내의 렌더링된 문서로부터 텍스트 캡쳐링 방법으로서,
    상기 렌더링된 문서내의 텍스트의 이미지를 상기 렌더링된 문서로부터 캡쳐링하는 단계; 및
    상기 휴대가능한 광 텍스트 캡쳐 디바이스내에 저장된 캐릭터 관계 룰에 따라 상기 휴대가능한 광 텍스트 캡쳐 디바이스내의 구별된 캐릭터의 아이덴티티와 직접 연관된 외관을 가진 상기 구별된 캐릭터 이외의 복수의 캐릭터를 조합함으로써 상기 구별된 캐릭터가 형성될 수 있음을 결정함으로써 상기 휴대가능한 광 텍스트 캡쳐 디바이스내의 상기 구별된 캐릭터의 아이덴티티와 직접 연관되지 않은 외관을 가진 상기 캡쳐링된 이미지내에 포함된 상기 식별된 캐릭터를 식별하는 단계;를 포함하는 것을 특징으로 하는 텍스트 캡쳐링 방법.
  15. 제14항의 방법을 실행하기 위한 데이터 구조를 포함하는 상기 휴대가능한 광 텍스트 캡쳐 디바이스내에 포함된 컴퓨터 메모리.
  16. 사용자를 위하여 컴퓨팅 시스템내의 렌더링된 문서의 전자 카피 액세스 방법으로서,
    상기 렌더링된 문서로부터 상기 사용자에 의해 캡쳐링된 비주얼 컨텐트를 수신하는 단계;
    상기 캡쳐링된 컨텐트를, 상기 렌더링된 문서에 상응하는 전자 문서를 식별하고 검색하기 위해 사용하는 단계; 및
    상기 캡쳐링된 컨텐트에 기초하여 상기 식별된 전자 문서의 검색된 카피로의 사용자 액세스를 허용하는 단계;를 포함하는 것을 특징으로 하는 전자 카피 액세스 방법.
  17. 제16항에 있어서, 상기 캡쳐링된 컨텐트는 상기 렌더링된 문서의 바디로부터 택싱되는 것을 특징으로 하는 전자 카피 액세스 방법.
  18. 제16항에 있어서, 상기 캡쳐링된 컨텐트는 상기 렌더링된 문서내에 포함된 논-텍스츄얼 심볼인 것을 특징으로 하는 전자 카피 액세스 방법.
KR1020067024177A 2004-04-19 2006-11-17 렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술 KR101174536B1 (ko)

Applications Claiming Priority (187)

Application Number Priority Date Filing Date Title
US56348504P 2004-04-19 2004-04-19
US56352004P 2004-04-19 2004-04-19
US60/563,520 2004-04-19
US60/563,485 2004-04-19
US56484604P 2004-04-23 2004-04-23
US56468804P 2004-04-23 2004-04-23
US60/564,846 2004-04-23
US60/564,688 2004-04-23
US56666704P 2004-04-30 2004-04-30
US60/566,667 2004-04-30
US57138104P 2004-05-14 2004-05-14
US57156004P 2004-05-14 2004-05-14
US60/571,560 2004-05-14
US60/571,381 2004-05-14
US57171504P 2004-05-17 2004-05-17
US60/571,715 2004-05-17
US58920204P 2004-07-19 2004-07-19
US58920104P 2004-07-19 2004-07-19
US58920304P 2004-07-19 2004-07-19
US60/589,202 2004-07-19
US60/589,201 2004-07-19
US60/589,203 2004-07-19
US59882104P 2004-08-02 2004-08-02
US60/598,821 2004-08-02
US60293004P 2004-08-18 2004-08-18
US60289804P 2004-08-18 2004-08-18
US60292504P 2004-08-18 2004-08-18
US60289704P 2004-08-18 2004-08-18
US60294704P 2004-08-18 2004-08-18
US60289604P 2004-08-18 2004-08-18
US60295604P 2004-08-18 2004-08-18
US60/602,930 2004-08-18
US60/602,947 2004-08-18
US60/602,897 2004-08-18
US60/602,956 2004-08-18
US60/602,925 2004-08-18
US60/602,896 2004-08-18
US60/602,898 2004-08-18
US60308204P 2004-08-19 2004-08-19
US60308104P 2004-08-19 2004-08-19
US60346604P 2004-08-19 2004-08-19
US60/603,082 2004-08-19
US60/603,081 2004-08-19
US60/603,466 2004-08-19
US60335804P 2004-08-20 2004-08-20
US60349804P 2004-08-20 2004-08-20
US60/603,358 2004-08-20
US60/603,498 2004-08-20
US60410004P 2004-08-23 2004-08-23
US60410204P 2004-08-23 2004-08-23
US60409804P 2004-08-23 2004-08-23
US60410304P 2004-08-23 2004-08-23
US60/604,098 2004-08-23
US60/604,100 2004-08-23
US60/604,102 2004-08-23
US60/604,103 2004-08-23
US60510504P 2004-08-27 2004-08-27
US60522904P 2004-08-27 2004-08-27
US60/605,229 2004-08-27
US60/605,105 2004-08-27
US61334004P 2004-09-27 2004-09-27
US61346004P 2004-09-27 2004-09-27
US61345504P 2004-09-27 2004-09-27
US61345604P 2004-09-27 2004-09-27
US61336104P 2004-09-27 2004-09-27
US61345404P 2004-09-27 2004-09-27
US61362804P 2004-09-27 2004-09-27
US61363404P 2004-09-27 2004-09-27
US61363204P 2004-09-27 2004-09-27
US61346104P 2004-09-27 2004-09-27
US61363304P 2004-09-27 2004-09-27
US61340004P 2004-09-27 2004-09-27
US61333904P 2004-09-27 2004-09-27
US61334104P 2004-09-27 2004-09-27
US61324204P 2004-09-27 2004-09-27
US61360204P 2004-09-27 2004-09-27
US61358904P 2004-09-27 2004-09-27
US61324304P 2004-09-27 2004-09-27
US60/613,461 2004-09-27
US60/613,632 2004-09-27
US60/613,361 2004-09-27
US60/613,456 2004-09-27
US60/613,400 2004-09-27
US60/613,633 2004-09-27
US60/613,455 2004-09-27
US60/613,243 2004-09-27
US60/613,242 2004-09-27
US60/613,602 2004-09-27
US60/613,341 2004-09-27
US60/613,460 2004-09-27
US60/613,454 2004-09-27
US60/613,628 2004-09-27
US60/613,634 2004-09-27
US60/613,339 2004-09-27
US60/613,589 2004-09-27
US60/613,340 2004-09-27
US61537804P 2004-10-01 2004-10-01
US61553804P 2004-10-01 2004-10-01
US61511204P 2004-10-01 2004-10-01
US60/615,538 2004-10-01
US60/615,112 2004-10-01
US60/615,378 2004-10-01
US61712204P 2004-10-07 2004-10-07
US60/617,122 2004-10-07
US62290604P 2004-10-28 2004-10-28
US60/622,906 2004-10-28
US11/004,637 US7707039B2 (en) 2004-02-15 2004-12-03 Automatic modification of web pages
US11/004,637 2004-12-03
US63367804P 2004-12-06 2004-12-06
US63348604P 2004-12-06 2004-12-06
US63345204P 2004-12-06 2004-12-06
US63345304P 2004-12-06 2004-12-06
US60/633,486 2004-12-06
US60/633,452 2004-12-06
US60/633,453 2004-12-06
US60/633,678 2004-12-06
US63473904P 2004-12-09 2004-12-09
US63462704P 2004-12-09 2004-12-09
US60/634,627 2004-12-09
US60/634,739 2004-12-09
US64768405P 2005-01-26 2005-01-26
US60/647,684 2005-01-26
US64874605P 2005-01-31 2005-01-31
US60/648,746 2005-01-31
US65337205P 2005-02-15 2005-02-15
US60/653,372 2005-02-15
US65367905P 2005-02-16 2005-02-16
US65389905P 2005-02-16 2005-02-16
US65366905P 2005-02-16 2005-02-16
US65384705P 2005-02-16 2005-02-16
US65366305P 2005-02-16 2005-02-16
US60/653,663 2005-02-16
US60/653,679 2005-02-16
US60/653,899 2005-02-16
US60/653,847 2005-02-16
US60/653,669 2005-02-16
US65437905P 2005-02-17 2005-02-17
US60/654,379 2005-02-17
US65432605P 2005-02-18 2005-02-18
US65436805P 2005-02-18 2005-02-18
US65419605P 2005-02-18 2005-02-18
US60/654,326 2005-02-18
US60/654,368 2005-02-18
US60/654,196 2005-02-18
US65569705P 2005-02-22 2005-02-22
US65598705P 2005-02-22 2005-02-22
US65527905P 2005-02-22 2005-02-22
US65528105P 2005-02-22 2005-02-22
US65528005P 2005-02-22 2005-02-22
US60/655,987 2005-02-22
US60/655,281 2005-02-22
US60/655,280 2005-02-22
US60/655,697 2005-02-22
US60/655,279 2005-02-22
US65730905P 2005-02-28 2005-02-28
US60/657,309 2005-02-28
US11/097,835 US7831912B2 (en) 2004-02-15 2005-04-01 Publishing techniques for adding value to a rendered document
US11/096,704 2005-04-01
US11/097,836 US20060041538A1 (en) 2004-02-15 2005-04-01 Establishing an interactive environment for rendered documents
US11/096,704 US7599580B2 (en) 2004-02-15 2005-04-01 Capturing text from rendered documents using supplemental information
US11/097,981 2005-04-01
US11/097,093 2005-04-01
US11/097,089 US8214387B2 (en) 2004-02-15 2005-04-01 Document enhancement system and method
US11/097,961 2005-04-01
US11/098,043 2005-04-01
US11/097,835 2005-04-01
US11/097,961 US20060041484A1 (en) 2004-04-01 2005-04-01 Methods and systems for initiating application processes by data capture from rendered documents
US11/097,093 US20060041605A1 (en) 2004-04-01 2005-04-01 Determining actions involving captured information and electronic content associated with rendered documents
US11/098,014 2005-04-01
US11/098,043 US20060053097A1 (en) 2004-04-01 2005-04-01 Searching and accessing documents on private networks for use with captures from rendered documents
US11/097,103 2005-04-01
US11/097,089 2005-04-01
US11/097,981 US7606741B2 (en) 2004-02-15 2005-04-01 Information gathering system and method
US11/097,836 2005-04-01
US11/098,016 2005-04-01
US11/098,042 US7593605B2 (en) 2004-02-15 2005-04-01 Data capture from rendered documents using handheld device
US11/097,103 US7596269B2 (en) 2004-02-15 2005-04-01 Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US11/097,828 2005-04-01
US11/098,014 US8019648B2 (en) 2004-02-15 2005-04-01 Search engines and systems with handheld document data capture devices
US11/098,038 2005-04-01
US11/097,833 US8515816B2 (en) 2004-02-15 2005-04-01 Aggregate analysis of text captures performed by multiple users from rendered documents
US11/098,038 US7599844B2 (en) 2004-02-15 2005-04-01 Content access with handheld document data capture devices
US11/098,016 US7421155B2 (en) 2004-02-15 2005-04-01 Archive of text captures from rendered documents
US11/098,042 2005-04-01
US11/097,833 2005-04-01
US11/097,828 US7742953B2 (en) 2004-02-15 2005-04-01 Adding information or functionality to a rendered document via association with an electronic counterpart
PCT/US2005/013297 WO2005101192A2 (en) 2004-04-19 2005-04-19 Processing techniques for visual capture data from a rendered document

Publications (2)

Publication Number Publication Date
KR20070092596A true KR20070092596A (ko) 2007-09-13
KR101174536B1 KR101174536B1 (ko) 2012-08-16

Family

ID=37684666

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067024177A KR101174536B1 (ko) 2004-04-19 2006-11-17 렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술

Country Status (4)

Country Link
EP (1) EP1759278A4 (ko)
JP (2) JP5102614B2 (ko)
KR (1) KR101174536B1 (ko)
WO (1) WO2005101192A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160147950A (ko) * 2014-04-29 2016-12-23 구글 인코포레이티드 분산 광학 문자 인식 및 분산 기계 언어번역을 위한 기법들
KR20170137285A (ko) * 2016-06-03 2017-12-13 주식회사 허브케이 판독/입력 오류 단어 정정 장치 및 방법

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US9275052B2 (en) * 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US8300261B2 (en) 2006-02-24 2012-10-30 Avery Dennison Corporation Systems and methods for retrieving printable media templates
JP2009540404A (ja) * 2006-06-06 2009-11-19 エクスビブリオ ベースローテン フェンノートシャップ 取り込まれたレンダリングテキストに基づくコンテキスト動的広告
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US7716224B2 (en) 2007-03-29 2010-05-11 Amazon Technologies, Inc. Search and indexing on a user device
US8990215B1 (en) 2007-05-21 2015-03-24 Amazon Technologies, Inc. Obtaining and verifying search indices
JP5299625B2 (ja) * 2009-02-13 2013-09-25 日本電気株式会社 操作支援装置、操作支援方法、及びプログラム
KR101015740B1 (ko) * 2009-02-18 2011-02-24 삼성전자주식회사 문자 인식 방법 및 장치
CN105930311B (zh) 2009-02-18 2018-10-09 谷歌有限责任公司 执行与再现文档关联的动作的方法、移动设备和可读介质
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105245A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Automatically providing content associated with captured information, such as information captured in real-time
US8832584B1 (en) 2009-03-31 2014-09-09 Amazon Technologies, Inc. Questions on highlighted passages
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8340429B2 (en) 2010-09-18 2012-12-25 Hewlett-Packard Development Company, Lp Searching document images
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
EP2864856A4 (en) 2012-06-25 2015-10-14 Microsoft Technology Licensing Llc SEIZURE METHOD EDITOR APPLICATION PLATFORM
US9767156B2 (en) 2012-08-30 2017-09-19 Microsoft Technology Licensing, Llc Feature-based candidate selection
ES2805343T3 (es) * 2012-12-18 2021-02-11 Thomson Reuters Entpr Centre Gmbh Sistemas y procesos habilitados para dispositivos móviles para plataforma de investigación inteligente
EP3030982A4 (en) 2013-08-09 2016-08-03 Microsoft Technology Licensing Llc INPUT PROCESSORS EDITOR WITH LANGUAGE SUPPORT
US20170116194A1 (en) * 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
CN108960365A (zh) * 2018-06-28 2018-12-07 睿思易(成都)科技有限责任公司 一种基于二维码的数据整合方法及系统
JP7029434B2 (ja) * 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146552A (en) * 1990-02-28 1992-09-08 International Business Machines Corporation Method for associating annotation with electronically published material
JP3017851B2 (ja) * 1991-07-31 2000-03-13 キヤノン株式会社 画像記憶装置
JPH06282375A (ja) * 1993-03-29 1994-10-07 Casio Comput Co Ltd 情報処理装置及び電子ペン
US5640193A (en) * 1994-08-15 1997-06-17 Lucent Technologies Inc. Multimedia service access by reading marks on an object
JPH10134004A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 画像データ処理システム
JP4183311B2 (ja) * 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
JPH11212691A (ja) * 1998-01-21 1999-08-06 Fuji Xerox Co Ltd ペン入力方法及び装置
JP2000123114A (ja) * 1998-10-15 2000-04-28 Casio Comput Co Ltd 手書き文字入力装置及び記憶媒体
CA2373511C (en) * 1999-05-19 2014-07-08 Digimarc Corporation Methods and systems for controlling computers or linking to internet resources from physical and electronic objects
GB9922214D0 (en) * 1999-09-20 1999-11-17 Ncr Int Inc Creation transmission and retrieval of information
US7337389B1 (en) * 1999-12-07 2008-02-26 Microsoft Corporation System and method for annotating an electronic document independently of its content
GB2366033B (en) * 2000-02-29 2004-08-04 Ibm Method and apparatus for processing acquired data and contextual information and associating the same with available multimedia resources
JP4261779B2 (ja) * 2000-03-31 2009-04-30 富士通株式会社 データ圧縮装置および方法
US20010053252A1 (en) * 2000-06-13 2001-12-20 Stuart Creque Method of knowledge management and information retrieval utilizing natural characteristics of published documents as an index method to a digital content store
AU2001296866A1 (en) * 2000-09-05 2002-03-22 Zaplet, Inc. Methods and apparatus providing electronic messages that are linked and aggregated
JP2002269253A (ja) * 2001-03-13 2002-09-20 Ricoh Co Ltd 電子文書変換サービスシステムおよび電子文書変換サービスシステムの課金方法
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
JP2003216631A (ja) * 2002-01-25 2003-07-31 Canon Inc 情報処理装置、情報配信装置、検索装置、情報取得システム、情報取得方法、コンピュータ読み取り可能な記録媒体及びコンピュータプログラム
JP2004050722A (ja) * 2002-07-23 2004-02-19 Canon Inc 印刷装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160147950A (ko) * 2014-04-29 2016-12-23 구글 인코포레이티드 분산 광학 문자 인식 및 분산 기계 언어번역을 위한 기법들
KR20170137285A (ko) * 2016-06-03 2017-12-13 주식회사 허브케이 판독/입력 오류 단어 정정 장치 및 방법

Also Published As

Publication number Publication date
JP2012094156A (ja) 2012-05-17
JP2008516297A (ja) 2008-05-15
WO2005101192A3 (en) 2007-10-11
JP5496987B2 (ja) 2014-05-21
EP1759278A2 (en) 2007-03-07
EP1759278A4 (en) 2009-05-06
JP5102614B2 (ja) 2012-12-19
KR101174536B1 (ko) 2012-08-16
WO2005101192A2 (en) 2005-10-27

Similar Documents

Publication Publication Date Title
KR101174536B1 (ko) 렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술
KR101212929B1 (ko) 렌더링된 문서로부터의 보안 데이터 수집
KR101328766B1 (ko) 렌더링된 문서를 식별하기 위한 시스템 및 방법
US9684902B2 (en) Processing techniques for text capture from a rendered document
US9811728B2 (en) Adding value to a rendered document
US20180096203A1 (en) Adding value to a rendered document
US8874504B2 (en) Processing techniques for visual capture data from a rendered document
US8713418B2 (en) Adding value to a rendered document
JP5529082B2 (ja) レンダリングされた文書からのハンドヘルド装置を用いたデータ取得
US20100278453A1 (en) Capture and display of annotations in paper and electronic documents
JP2008516297A6 (ja) レンダリングされた文書からの視覚的取得データに対する処理技術
US10504162B2 (en) Processing techniques for text capture from a rendered document
WO2005106643A2 (en) Adding value to a rendered document
KR101178302B1 (ko) 헨드헬드 디바이스를 사용한, 렌더링된 문서로부터의데이터 캡쳐
EP1741028A2 (en) Adding value to a rendered document

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150724

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170727

Year of fee payment: 6