KR20060043384A - 보조된 서식 채우기 - Google Patents

보조된 서식 채우기 Download PDF

Info

Publication number
KR20060043384A
KR20060043384A KR1020050017780A KR20050017780A KR20060043384A KR 20060043384 A KR20060043384 A KR 20060043384A KR 1020050017780 A KR1020050017780 A KR 1020050017780A KR 20050017780 A KR20050017780 A KR 20050017780A KR 20060043384 A KR20060043384 A KR 20060043384A
Authority
KR
South Korea
Prior art keywords
field
untagged
user
information
media
Prior art date
Application number
KR1020050017780A
Other languages
English (en)
Other versions
KR101114194B1 (ko
Inventor
트라우스티 티. 크리스트잔슨
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060043384A publication Critical patent/KR20060043384A/ko
Application granted granted Critical
Publication of KR101114194B1 publication Critical patent/KR101114194B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03FSEWERS; CESSPOOLS
    • E03F5/00Sewerage structures
    • E03F5/14Devices for separating liquid or solid substances from sewage, e.g. sand or sludge traps, rakes or grates
    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02BHYDRAULIC ENGINEERING
    • E02B5/00Artificial water canals, e.g. irrigation canals
    • E02B5/08Details, e.g. gates, screens

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Water Supply & Treatment (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Public Health (AREA)
  • Hydrology & Water Resources (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mechanical Engineering (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Manufacture And Refinement Of Metals (AREA)
  • Treatment Of Water By Ion Exchange (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

사용자가 서식을 채우는 것을 보조하는 것을 용이하게 하는 시스템 및 방법이 개시된다. 본 발명은 이메일 등과 같은 언태그 매체를 파싱하여, 서식을 파퓰레이트하는 데 사용될 수 있는 엘리먼트들을 식별할 수 있다. 식별된 엘리먼트들은 자동적으로, 서식 내의 대응 필드에 삽입될 수 있고, 상태 표시자가 그와 관련되어, 서식 내의 특정 필드의 리뷰가 보증됨을 사용자에게 알리기 위하여 사용자에게 나타날 수 있다. 또한, 언태그 매체 및 서식은 사용자에게 동시에 제공되어, 보조된 서식 채우기 동안의 사용자 감독 및/또는 상호작용을 용이하게 할 수 있다.
서식, 언태그 텍스트, 히든 마르코프 모델, 파퓰레이트

Description

보조된 서식 채우기{ASSISTED FORM FILLING}
도 1은 본 발명의 한 양태에 따라 사용자가 서식 내의 필드를 파퓰레이트하도록 보조하는 것을 용이하게 하는 서식-채우기 인터페이스 시스템(100)을 도시.
도 2는 본 발명의 한 양태에 따라 보조된 서식 채우기를 용이하게 하는 시스템(200)을 도시.
도 3은 본 발명의 한 양태에 따라 보조된 서식 채우기를 용이하게 하는 인공 지능 컴포넌트를 포함하는 시스템(300)을 도시.
도 4는 사용자가 서식 내의 필드를 파퓰레이트하도록 보조하는 것을 용이하게 하는 예시적인 히든 마르코프 모델(400)을 도시.
도 5는 사용자가 서식을 파퓰레이트하도록 보조하는 것에 대한 본 발명의 효율성을 도시하는 히스토그램(500).
도 6은 본 발명의 한 양태에 따른 방법론(600)을 도시.
도 7은 본 발명의 한 양태에 따른 방법론(700)을 도시.
도 8은 본 발명의 한 양태에 따른 방법론(800)을 도시.
도 9는 본 발명의 한 양태에 따른 방법론(900)을 도시.
도 10 및 도 11은 본 발명의 한 양태에 따른 예시적인 컴퓨팅 환경(1000 및 1100)을 도시.
<도면의 주요 부분에 대한 부호의 설명>
202 : 제어 컴포넌트
204 : 언태그 매체 GUI
206 : 서식 데이터 GUI
208 : 파싱 컴포넌트
210 : 언태그 매체 데이터 저장장치
212 : 서식 데이터 저장장치
214 : 보조 정보 저장장치
302 : 제어 컴포넌트
304 : 언태그 매체 GUI
306 : 서식 데이터 GUI
308 : 파싱 컴포넌트
310 : 언태그 매체 데이터 저장장치
312 : 서식 데이터 저장장치
314 : 보조 정보 저장장치
316 : AI 컴포넌트
본 발명은 일반적으로 컴퓨터, 특히, 컴퓨터 서식의 완성을 용이하게 하는 시스템 및 방법에 관한 것이다.
컴퓨터 및 네트워킹 기술이 고가의 저성능 데이터 프로세싱 시스템으로부터 저가의 고성능 통신, 문제 해결 및 엔터테인먼트 시스템으로 발달함에 따라, 서신왕래, 계산 지불, 쇼핑, 예산 수립 및 정보 수집과 같은 태스크를 매일 수행하는 부담을 줄이는 비용상 효율적이고 시간 절약적인 수단이 제공하되었다. 예를 들어, 유선 또는 무선 기술을 통해 인터넷과 인터페이스된 컴퓨팅 시스템은, 사용자의 손끝으로 세계 곳곳에 위치된 웹 사이트 리포지토리 및 서버로부터의 수많은 정보에 거의 동시에 액세스하기 위한 채널을 사용자에게 제공할 수 있다.
최근 연구에서는 대략 7천만 근로자들(미국의 근로 성인의 59%)이 자신의 업무 책임의 일부로서 규칙적으로 서식을 완성한다고 발표하였다. 7천만 근로자들 중, 적어도 25%는 규칙적으로 (예를 들어, 컴퓨터 상에서) 전자 서식을 채우며, 그 퍼센트는 매일 증가한다. 따라서, 컴퓨터 모니터 상에 디스플레이된 서식 내에 데이터를 입력하는 것은 매우 흔한 활동이다. 서식 채우기는 지루하고, 시간 소모적이고, 사람이 에러를 범할 여지가 높을 수 있다. 따라서, 보다 빠르고 정확한 서식 채우기를 용이하게 하는 시스템 및 방법의 분야에서는 충족되지 못한 필요조건이 있다.
다음은 본 발명의 몇몇 양태의 기본적 이해를 제공하기 위해, 본 발명의 간략화된 요약이 제공된다. 이 요약은 본 발명의 확장적인 개관이 아니다. 이것은 본 발명의 핵심/주요 엘리먼트를 식별하거나 본 발명의 범위를 그리는 것으로 의도되지 않는다. 그 유일한 목적은 이후에 제공되는 보다 상세한 설명의 서두로서 본 발명의 몇몇 개념을 단순화된 형태로 제공하는 것이다.
본 발명은 언태그(untagged) 텍스트 포맷(예를 들어, 이메일, 웹 페이지 및/또는 다른 컴퓨터-판독가능 포맷 내의 텍스트)에서 사용가능한 데이터를 사용하는 것을 통해 사용자가 컴퓨터 서식을 빨리 채우는 것을 보조하는 시스템 빛 방법을 제공한다. 본 발명의 한 양태에 따르면, 사용자는 예를 들어, 사용자가 수신한 이메일과 같은 언태그 텍스트 서식을 선택할 수 있다. 그러한 언태그 텍스트는 언태그 매체 그래픽 사용자 인터페이스(GUI) 내의 텍스트 박스에서 사용자에게 디스플레이될 수 있고, 서식 내의 필드를 파퓰레이트(populate)하는 것에 대해 잠재적으로 사용자의 흥미를 끄는 엘리먼트들을 식별하기 위해 파싱(parsing)될 수 있다. 예를 들어, 이메일이 사람, 도시, 주(state) 등의 이름과 같은 항목을 포함하면, 그러한 이름은 잠재적으로 흥미가 있는 엘리먼트로서 식별될 수 있다. 또한, 그러한 이름은 서식 GUI를 통해 사용자에게 디스플레이된 서식 내의 대응하는 필드에 배치될 수 있다. 서식 GUI 및 언태그 매체 GUI는 동시에 사용자에게 디스플레이될 수 있다.
본 발명의 또 다른 양태에 따르면, 사용자는 그 식별된 엘리먼트가 서식 내의 대응하는 필드에 정확하게 삽입되는 것을 검증할 수 있다. 예를 들어, 특정 엘리먼트와 서식 내의 특정 필드 간의 상관관계를 나타내는 데에 색상 식별이 사용될 수 있다. 예를 들어, 연락처 목록을 파퓰레이트할 때, 제1 이름으로서 인식된 언 태그 텍스트가 청색으로 하이라이트될 수 있고, 서식 내의 대응하는 "제1 이름" 필드가 사용자에게 청색으로 제공될 수 있다. 사용자가 하이라이트된 제1 이름을 제1 이름 필드에 드래그 앤 드롭(drag and drop)할 수도 있고, 더 효율적으로, 시스템이 제1 이름을 그 필드에 자동 삽입할 수도 있다.
본 발명이 관련 양태에 따르면, 사용자에게 임의의 잠재적인 오배치된 정보를 경고하기 위하여, 상태 표시자가 서식 내의 각각의 필드와 관련될 수 있다. 이러한 방식으로, 사용자는 식별된 엘리먼트가 올바른 필드에 적절히 삽입된 것을 검증할 수 있다. 예를 들어, "Lincoln"과 같은 엘리먼트는 "성(last name)"에 삽입될 수 있지만, "도시" 필드에 삽입될 수도 있다. 이름 "Lincoln"이 삽입된 필드 옆의 상태 표시자는 필드로의 삽입 정확도에 관한 검증이 요구된다는 것을 사용자에게 경고한다. 상태 표시자는 추가적으로 색상을 사용하여 사용자에게 필드 정보의 상태(예를 들어, 사용자 검증, 리뷰 등의 중요도)를 시각적으로 경고할 수 있다.
본 발명의 또 다른 양태에 따르면, 서식 필드에 자동 삽입되는 엘리먼트의 신용 레벨을 증가시키는 것을 용이하게 하는 데에 인공 지능 기술 및/또는 피드백/피드포워드(feed-forward)가 사용될 수 있다. 예를 들어, 히든 마르코프(Markov) 모델은 숨겨진 랜덤 변수와 관측된 랜덤 변수 모두를 사용하는 일종의 확률 모델이다. 본 시스템 및 방법이 언태그 매체 엘리먼트를 서식 필드에 삽입하는 효율성을 증가시키는 데에 그러한 모델이 사용될 수 있다. 이 방식으로, 사용자 참여가 잠재적으로 감소되어, 완성된 서식을 저장 및 프린트하기 전에 서식 내의 정보가 올 바르다는 것을 단순히 검증할 수 있다.
본 발명의 또 다른 양태에 따르면, 사용자에 의한 단일 필드의 정정에 부분적으로 기초하여 정보의 다양한 필드를 정정하는 것을 용이하게 하는 데에 정정 전파가 사용될 수 있다. 예를 들어, 올바른 정보 및/또는 사용자가 정정한 정보로 검증된 정보는 평가되어, 주어진 필드에 지정된 다른 정보가 올바르게 지정되었는 지의 여부에 관한 추론을 용이하게 한다. 이러한 방식으로, 하나의 필드 엔트리의 정정이 다른 필드에 전파된다.
상술한 목적 및 관련된 목적을 달성하기 위하여, 여기에서, 다음 설명 및 첨부 도면과 관련하여 본 발명의 특정 예시적인 양태를 개시한다. 그러나, 이 양태는 본 발명의 원리가 적용되는 다양한 방법 중 몇몇을 나타내는 것일 뿐이며, 본 발명은 모든 그러한 양태 및 그 동등물을 포함하는 것으로 의도된다. 도면과 관련하여 고려될 때, 본 발명의 다음 상세한 설명으로부터 본 발명의 다른 장점 및 새로운 특징이 명백해질 수 있다.
이제, 본 발명은 도면을 참조하여 설명되고, 이때, 처음부터 끝까지 유사한 참조번호는 유사한 엘리먼트를 참조하는 데 사용된다. 다음의 설명에서, 설명 목적상, 본 발명의 완전한 이해를 제공하기 위하여 다수의 특정 상세사항이 설명된다. 그러나, 본 발명이 이러한 특정 상세사항 없이도 실시될 수 있음은 명백하다. 다른 예로, 본 발명의 설명을 용이하게 하기 위하여 잘 알려진 구조 및 장치가 블록도 형식으로 도시된다.
본 명세서에서 사용되는 용어 "컴포넌트"는 컴퓨터-관련된 엔티티, 즉, 하드 웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어 또는 실행 소프트웨어를 의미하는 것으로 의도된다. 예를 들어, 컴포넌트는 프로세서 상에서 실행하는 프로세스, 프로세서, 오브젝트, 실행파일, 실행 스레드, 프로그램 및/또는 컴퓨터일 수 있지만, 이것으로 한정되지 않는다. 예를 들면, 서버 상에서 실행하는 어플리케이션과 그 서버는 컴퓨터 컴포넌트일 수 있다. 하나 이상의 컴포넌트가 프로세스 및/또는 실행 스레드 내에 상주할 수 있고, 컴포넌트는 하나의 컴퓨터 상에 로컬화될 수 있고/있거나 2개 이상의 컴퓨터 간에 분산될 수 있다. "스레드"는 오퍼레이팅 시스템 커널이 실행을 위해 스케줄링하는 프로세스 내의 엔티티이다. 본 분야에 잘 알려진 바와 같이, 각각의 스레드는 스레드의 실행과 관련된 휘발성 데이터인 관련 "문맥"을 갖는다. 스레드의 문맥은 시스템 레지스터의 내용과 스레드의 프로세스에 속하는 가상 주소를 포함한다. 따라서, 스레드의 문맥을 포함하는 실제 데이터는 실행할 때 다양하다.
여기에서 사용되는 용어 "추론"은 일반적으로, 이벤트 및/또는 데이터를 통해 캡처된 관측 집합으로부터 시스템, 환경 및/또는 사용자의 상태를 추측하거나 그것에 관해 판단하는 프로세스를 의미한다. 예를 들어, 추론은 특정 문맥 또는 액션을 식별하는 데 사용될 수도 있고, 상태에 관한 확률 분포를 생성할 수도 있다. 추론은 확률적일 수 있다. 즉, 데이터 및 이벤트에 대한 고려에 기초한 관심있는 상태에 관한 확률 분포 계산일 수 있다. 추론은 또한, 이벤트 및/또는 데이터 집합으로부터 보다 더 높은 레벨의 이벤트를 구성하기 위해 사용된 기술을 의미할 수 있다. 그러한 추론은 이벤트들이 일시적으로 근접하게 상호관계되는 지에 관계없이, 그리고 이벤트 및 데이터가 하나 또는 여러 이벤트 및 데이터 소스로부터 온 것인 지에 관계없이, 관측된 이벤트 및/또는 저장된 이벤트 데이터 집합으로부터 새로운 이벤트 또는 액션을 형성하게 된다.
최근 연구에서는 대략 7천만 근로자들(미국의 근로 성인의 59%)이 자신의 업무 책임의 일부로서 규칙적으로 서식을 완성한다고 발표하였다. 7천만 근로자들 중, 적어도 25%는 규칙적으로 (예를 들어, 컴퓨터 상에서) 전자 서식을 채우며, 그 퍼센트는 매일 증가한다. 따라서, 컴퓨터 모니터 상에 디스플레이된 서식 내에 데이터를 입력하는 것은 매우 흔한 활동이다. 서식 채우기는 지루하고, 시간 소모적이고, 사람이 에러를 범할 여지가 높을 수 있다. 많은 경우에, 서식의 필드를 파퓰레이트하는 데 사용되는 데이터는 문서, 이메일 및/또는 웹 페이지와 같은 컴퓨터-판독가능 포맷으로 용이하게 이용가능할 수 있다. 그러한 데이터로부터 관련 정보를 식별하고 추출(예를 들어, 파싱)하는 기술이 이용가능하지만, 보통 신뢰할 수 없으므로, 특히, 데이터베이스를 직접 파퓰레이트하거나 메타데이터를 추가하는 데 매우 적합할 수는 없다. 예를 들어, 자연 언어 프로세싱 기술 및/또는 다른 인공 지능(AI) 기술이 이름, 주소, 전화번호 등과 같은 컴퓨터-판독가능 문서 내의 특정 유형의 정보 엘리먼트를 식별할 수 있지만, 그러한 방법은 에러에 대해 안전하지 못하다. 본 발명은 사용자가 통상적인 시스템 및 방법을 통하는 것보다 빨리 전자 서식에 데이터를 입력하게 한다. 또한, 본 발명은, 신뢰할 수 없는 파싱 기술의 사용을 허용하고 파싱에 의해 생긴 임의의 에러를 사용자가 시각적으로 검증하고 정정하는 것을 허용함으로써, 언태그 컴퓨터 판독가능 데이터가 이용가능할 때, 사용자가 효율적으로 정보를 입력하게 한다.
도 1은 전자 서식의 보조된 서식 채우기를 용이하게 하는 시스템(100)의 일례이다. 도시된 바에 따르면, 사용자가 언태그 데이터를 태그 데이터(예를 들어, XML-형식 데이터 등) 또는 데이터베이스로 전송하는 것을 통해 서식을 채우는 것을 보조하기 위한 서식 필터 인터페이스(FFI; 102)가 사용자에게 제공된다. FFI(102; 여기에서는 "스크린"이라고도 불림)는 서식 데이터 그래픽 사용자 인터페이스(GUI; 104)(여기에서는 "서식"라고도 불림) 및 언태그 매체 GUI(106)(여기에서는 "텍스트 박스"라고도 불림)를 포함하며, 이들은 사용자 편의를 위해 스크린 상에 서로 인접하게 위치될 수 있다. 서식 데이터 GUI(104)는 복수의 필드(108)를 포함하며, 각각의 필드가 특정 정보(예를 들어, 성, 이름, 거리 주소, 우편번호 등)를 위해 지정되도록 한다. 상태 표시자(110)는 사용자에게 특정 필드 내의 정보의 현재 상태를 알리기 위하여 각각의 필드(108)와 동작가능하게 관련될 수 있다. 또한, 신뢰도 표시자(112)는 사용자에게 필드(108) 내의 정보의 정확성과 관련된 확률을 알리기 위하여 각각의 필드(108)와 관련될 수 있다.
도 1에 도시된 FFI(102)는 연락처 정보를 입력하기 위한 인터페이스를 예시화한다. 초기에, 서식 데이터 GUI(104)(예를 들어, 일반적인 연락처 정보 서식, 상품 및/또는 서비스 주문 서식 등)는 및 빈 텍스트 박스(106)가 사용자에게 제공된다. 사용자는 (예를 들어, 이메일로부터 잘라붙이기를 통해) 텍스트 세그먼트를 텍스트 박스(106) 내로 복사할 수 있고, 시스템(100)은 언태그 데이터 내의 엘리먼트를 식별하기 위해 언태그 데이터를 분류 또는 파싱하도록 시도할 수 있다. 언태 그 데이터가 파싱되면, 시스템(100)은 식별된 엘리먼트를 갖는 컴퓨터 단말 상의 서식(104)의 필드(108)를 채울 수 있다. 텍스트 박스(106) 내의 원래의 언태그 데이터, 및 서식(104)은 스크린(102) 상에 동시에 디스플레이될 수 있고, 언태그 데이터는 (예를 들어, 색상 코드화를 사용하여) 연관성을 시각적으로 표시하도록 증대될 수 있다. 예를 들어, 시스템(100)은 보라색을 사용하여, 언태그 텍스트 내의 특정 엘리먼트가 서식(104) 내의 주소 필드를 파퓰레이트 하는 데 사용된 것을 표시할 수 있다. 이 예에 따르면, 시스템(100)이 특정 텍스트가 잠재적으로는 흥미롭지만 필드에 할당될 수 있을 만큼 신뢰도 레벨이 충분히 높지 않아서 사용자가 특정 텍스트가 특정 필드에 할당되어야 하는 지를 결정할 수 있다고 결정한 것을 나타내는 데에, 개별 색상(예를 들어, 오렌지색)이 사용될 수 있다.
본 발명의 관련 양태에 따르면, 사용자는 서식의 일부를 채울 수 있고, 시스템(100)은 사용가능한 언태그 컴퓨터-판독가능 매체를 검색하고, 잠재적인 필드-입력 후보자를 배치하고, 배치된 문서 및/또는 엘리먼트를 디스플레이하고, 서식의 남아있는 필드를 채울 수 있다. 이러한 방식으로, 부분적인 자동채움(Autofill)이 수행될 수 있다.
사용자는 파싱의 정확성을 빨리 검증할 수 있다. 파스가 에러를 가지면, 사용자는 (예를 들어, 언태그 텍스트로부터 엘리먼트를 드래그하여 그것을 서식 내의 대응하는 필드 상에 드로핑함으로써, 필드에 직접 타이핑함으로써, 또는 텍스트 박스(106) 내의 텍스트를 정정함으로써) 그 에러를 정정할 수 있다. 또한, 프로토콜을 파싱하는 것은 사용자가 제공한 정정 또는 추가와 같은 보조 정보를 이용할 수 있다. 예를 들어, 사용자가 필드에 정보를 입력하거나 초기 파스를 정정하면, 사용자는 시스템에게 언태그 텍스트를 다시 파싱할 것을 지시하고 (도 1의 "자동 채우기"로 표시된 버튼을 클릭함으로써) 사용자가 제공한 보조 정보에 의존할 수 있다. 이 예에서, 이름 "찰스 스탠리"는 "찰스"가 성이고 "스탠리"가 특정 연락처의 이름임을 제시한다. 그러나, 사용자는 우연히, 또는 그와 다르게, 연락처의 성과 이름이 바뀐 것을 인식할 수 있고, 상술한 드래그-앤-드롭 기술을 이용하여 "스탠리"를 성 필드로 이동시킬 수 있다. 또한, 필드는 드롭다운 메뉴를 제공받아, 텍스트 박스 내에 디스플레이된 언태그 데이터에 하나 이상의 성(예를 들어, 성 중 하나는 성 필드 내에 디스플레이될 수 있고, 다른 하나는 드롭다운 메뉴에서 제공될 수 있음)을 포함하여, 필드가 정정을 요구하는 경우, 사용자가 단순히 메뉴를 열고(예를 들어, 클릭, 호버링 등), 대안적인 이름을 선택할 수 있도록 한다.
이 액션 시에, 시스템은 자동적으로 "찰스"를 성 필드로 이동시켜, 서식을 파퓰레이트하는 데 요구되는 사용자 액션을 줄이는 한편, "스탠리"가 연락처의 이름이며 연락처의 성이 아니라는 것을 사용자가 검증한 사실에 기초하여 성 필드에 대한 신뢰도 레벨을 증가시킬 수 있다. 그러한 자동 포스트-사용자-액션 필드 채우기는 정정 전파의 일례이다.
몇몇 경우에, 어느 필드가 보조 정보(예를 들어, 사용자에 의해 정정되고/정정되거나 채워진 필드 내의 정보)로서 사용될 수 있는지 및 시스템이 어느 필드(예를 들어, 보조 정보를 포함하지 않는 필드)를 오버라이팅할 수 있는지를 사용자가 지정할 수 있게 하는 이점이 있을 수 있다. 이러한 사용권한은 상태 표시자 (110)를 통해 용이해질 수 있으며, 상태 표시자(110)는 사용자가 필드 상에서 비활성임을 표시할 수도 있고, 사용자가 정보를 검증하고, 정정하고 및/또는 정보를 필드에 입력함을 표시할 수도 있다. 각 필드의 상태는 예를 들어, "채워지지 않고 검증되지 않음", "자동적으로 채워지지만 검증되지 않음", 또는 "사용자-또는-자동적으로 채워지고 검증됨"일 수 있다.
예를 들어, "채워지지 않고 검증되지 않음"인 필드는 제1 색상(예를 들어, 적색)의 상태 표시자(110)를 가질 수 있다. 시스템(100)이 필드를 채우면(예를 들어, 필드가 자동적으로 채워지면), 상태 표시자는 제2 상태 표시자 색상(예를 들어, 황색)으로 업그레이드되어, 필드가 자동적으로 채워졌지만 검증되지는 않았음을 사용자에게 알린다. 예를 들어, "찰스 스탠리(Charles Stanley)"에서와 같이, 반드시 정정은 아니더라도 사용자 검증을 요구하는 조건을 사용자에게 알릴 수 있다. 사용자가 필드 내의 정보가 올바르다고 검증하면, 상태 표시자는 제3 색상(예를 들어, 녹색)으로 업그레이드되어 "채워지고 검증됨"의 상태를 표시할 수 있다. 이 예에 더하여, 사용자가 적색 상태 표시자를 가진 필드에 정보를 입력하면, 상태 표시자는 사용자가 필드를 채우고 그렇게 함으로써 정보가 올바르다고 검증했기 때문에 바로 녹색으로 업그레이드될 수 있다. 따라서 그 필드는 이제 "채워지고 검증"되었다. 또한, 또다른 필드(들)의 신뢰도는 제1 필드의 정정 및/또는 사용자 검증을 통해 업데이트 및/또는 개선될 수 있다. 예를 들어, "찰스 스탠리" 예에서, 어떤 것이 성이고/성이거나 어떤 것이 이름인 지가 검증되지 않으면, 성 필드와 이름 필드 모두는 황색 상태 표시자를 가질 수 있다. 사용자가 "찰스"가 올바른 이 름이라고 검증하면, 시스템(100)은 이름 필드의 상태를 "(사용자-)채워지고 검증됨"(예를 들어, 녹색의 상태 표시자 색상을 가짐)으로 업그레이드할 수 있다. 사용자가 "찰스"가 이름임(따라서 성이 아님)을 검증했기 때문에, 시스템은 성 필드에 "스탠리"를 보유할 수 있어서, 성 필드에 대한 신뢰도 표시자는 황색에서 녹색(예를 들어, 자동적으로 채워지고 검증됨)으로 업그레이드될 수 있다.
본 발명의 양상에 따르면, 색상-코드화된 신뢰도 표시자(112)는 특정 필드(108)와 관련될 수 있다(예를 들어, 필드의 경계 색상, 필드 및/또는 텍스트의 배경 색상 등). 예를 들어, 시스템(100)이 높은 신뢰도 엘리먼트로 채우기 어려운 필드는, 필드 내의 정보가 요구된 신뢰도 임계치보다 낮음을 사용자에게 표시할 수 있는 색상 스킴에 따라 레이블링(label)될 수 있다. 신뢰도 표시자(들)는 색상의 상이한 농도에 대해 0에서부터 1까지의 값을 나타낼 수 있다. 또한, 이 예의 신뢰도 표시자(112)는 예를 들어, 일색의(solid) 표시자, 깜박이는 표시자, 전체 밝기, 콘트라스트 등을 증가 및 감소시키는 표시자, 또는 당해의 필드에 관한 신뢰도의 다양한 레벨을 표시할 수 있는 임의의 다른 적합한 표시자 스킴일 수 있다.
일 예에 따라서, "@" 또는 ".com"을 포함하는 정보는 서식 내의 "이메일" 필드에 자동적으로 삽입될 수 있다. 마찬가지로, (nnn)nnn-nnnn, nnn-nnn-nnnn, nnn-nnnn(n은 정수) 등의 포맷을 갖는 정보는 높은 수준의 신뢰도로 전화번호 필드에 자동적으로 삽입될 수 있다. 높은 신뢰도 표시는 이러한 정보가 삽입될 수 있는 필드에 관한 다른 유형의 정보와 관련될 수 있으며, 이러한 정보의 자동 삽입은 이메일 및/또는 전화 번호 필드로 한정되지 않는다.
도 2는 언태그 매체 GUI(204), 서식 데이터 GUI(206), 및 파싱 컴포넌트(208) 각각에 동작적으로 연결되어 있는 제어 컴포넌트(202)를 포함하는 보조된 서식 채우기를 용이하게 하는 시스템(200)을 도시한다. 제어 컴포넌트(202)는 서식 내의 필드를 파퓰레이트하는 것을 용이하게 하기 위해 언태그 데이터를 수신 및 분석한다. 이러한 언태그 데이터는 언태그 매체 GUI(204)를 통해 사용자에게 제공될 수 있다. 예를 들어, 언태그 데이터는 사용자에 의해 언태그 매체 GUI(204)에 붙여진 이메일 인용구일 수 있다. 언태그 데이터를 언태그 매체 GUI(204)에 붙이면, 데이터는 언태그 매체 저장장치(210)에 저장될 수 있다. 파싱 컴포넌트(208)는 언태그 매체 데이터 저장장치(206)에 저장된 언태그 데이터를 파싱하여, 잠재적 서식 채우기 데이터(예를 들어, 이름 등의 적절한 명사, 주소, 전화 번호, 우편번호 등의 숫자 데이터)를 결정할 수 있고, 그 잠재적 서식 채우기 데이터는 그 후 서식 데이터 저장장치(212)에 저장될 수 있다. 서식 데이터 저장장치(212)에 저장된 데이터는 서식 내의 필드를 파퓰레이트하기 위해 사용될 수 있으며, 서식 데이터 GUI(206)를 통해 사용자에게 제공될 수 있다. 도 1에 관하여 상술된 바와 같이, 사용자는 서식 내의 개별적인 필드를 검증 및/또는 정정할 수 있고, 이러한 검증 및/또는 정정은 보조 정보로서 보조 정보 저장장치(214)에 저장될 수 있다. 파싱 컴포넌트(208)는 저장된 보조 정보를 사용하여 사용자에 의해 행해진 검증 및/또는 변경에 따라 서식 데이터 저장장치(212)를 업데이트할 수 있다. 이 방식으로, 텍스트 분류 및/또는 레이블링이 업데이트될 수 있으며, 이 분류 및/또는 레이블링은 자동적으로 채워진 필드와 관련된 상태 레벨이 필드의 사용자 검증 및/또는 정정에 응답하여 업데이트되도록 한다.
여기에 설명된 데이터 저장장치(예를 들어, 메모리) 컴포넌트는 휘발성 메모리 또는 비휘발성 메모리일 수도 있고, 또는 휘발성 및 비휘발성 메모리 모두를 포함할 수도 있다. 예를 들어, 비휘발성 메모리는 ROM, PROM(programmable ROM), EPROM(electronically programmable ROM), EEPROM(electronically erasable ROM), 또는 플레시 메모리를 포함할 수 있지만 이에 한정된 것은 아니다. 휘발성 메모리는 RAM을 포함할 수 있으며, 이는 외장형 캐시 메모리로서 작용한다. 예를 들어, RAM은 SRAM(synchronous RAM), DRAM(dynamic RAM), SDRAM(synchronous DRAM), DDR SDRAM(double data rate SDRAM), ESDRAM(enhanced SDRAM), SLDRAM(synchlink DRAM), 및 DRRAM(direct rambus RAM) 등의 복수의 형식으로 사용가능하지만, 이에 한정된 것은 아니다. 본 시스템 및 방법의 메모리는 이러한 메모리 및 임의의 다른 적합한 유형의 메모리를 포함하도록 의도되지만, 이에 한정된 것은 아니다.
도 3은 본 발명의 양상에 따라 도 2를 참조하여 상술된 것과 유사한 방식으로, 보조된 서식 채우기를 용이하게 하는 시스템(300)을 도시한다. 시스템(300)은 언태그 매체 GUI(304), 서식 데이터 GUI(306), 및 파싱 컴포넌트(308)의 각각에 동작적으로 연결된 제어 컴포넌트(302)를 포함한다. 제어 컴포넌트(302)는 서식 내의 필드를 파퓰레이트하기 위해 언태그 데이터를 분석한다. 이러한 언태그 데이터는 언태그 매체 GUI(304)를 통해 사용자에게 제공될 수 있다. 예를 들어, 언태그 데이터는 사용자에 의해 언태그 매체 GUI(304)에 붙여진 이메일 인용구일 수 있다. 언태그 데이터를 언태그 매체 GUI(204)에 붙일 때, 데이터는 언태그 매체 저장장치 (310)에 저장될 수 있다. 파싱 컴포넌트(308)는 언태그 매체 데이터 저장장치(306)에 저장된 언태그 데이터를 파싱하여, 잠재적 서식 채우기 데이터(예를 들어, 이름 등의 적절한 명사, 주소, 전화 번호, 우편번호 등의 숫자 데이터)를 결정할 수 있고, 잠재적 서식 채우기 데이터는 서식 데이터 저장장치(312)에 저장될 수 있다. 서식 데이터 저장장치(312)에 저장된 데이터는 서식 내의 필드를 파퓰레이트하기 위해 사용될 수 있고, 서식 데이터 GUI(306)를 통해 사용자에게 제공될 수 있다. 도 1과 관련되 상술된 바와 같이, 사용자는 그 후 서식의 개별적인 필드를 검증 및/또는 정정할 수 있으며, 이러한 검증 및/또는 정정은 보조 정보로서 보조 정보 저장장치(314)에 저장될 수 있다. 파싱 컴포넌트(308)는 저장된 보조 정보를 사용하여, 사용자에 의해 행해진 검증 및/또는 변경에 따라서 서식 데이터 저장장치(312)를 업데이트할 수 있다. 이 방식에서, 텍스트 및 분류 레이블링 뿐만 아니라 자동적으로 채워진 필드와 관련된 신뢰도 레벨은 정정 전파를 용이하게 하기 위해 필드의 사용자 검증 및/또는 정정에 응답하여 업데이트될 수 있다. 추가적으로, 파싱 컴포넌트(308)는 특정 데이터가 입력될 수 있는 가장 적절한 필드에 관한 추론을 행할 수 있는 인공 지능(AI) 컴포넌트(316)에 동작적으로 연결된다.
여기에 사용된 용어 "추론"은 일반적으로 이벤트 및/또는 데이터를 통해 캡쳐링된 관측 집합으로부터 시스템, 환경, 및/또는 사용자에 대해 추리하거나 그것들의 상태를 추론하는 처리를 의미한다. 추론은 특정 문맥 또는 액션을 식별하는 데 사용될 수도 있고, 예를 들어 상태들에 대한 확률 분포를 생성할 수도 있다. 추론은 확률적일 수 있는다. 즉, 데이터 및 이벤트에 대한 고려에 기초하여 해당 상태들에 대한 확률 분포의 연산이다. 추론은 또한 이벤트 및/또는 데이터 집합으로부터의 보다 높은 레벨 이벤트를 포함하기 위해 사용되는 기술을 의미한다. 이러한 추론은 이벤트가 근접한 임시적 근사와 상호관련 있는지에 상관없이, 그리고 이벤트 및 데이터가 하나 이상의 이벤트 및 데이터 소스로부터 오는지에 상관없이, 관찰된 이벤트 및/또는 저장된 이벤트 데이터의 집합으로부터의 새로운 이벤트 또는 액션의 구성을 생성한다. 다양한 분류 스킴 및/또는 시스템(예를 들어, 벡터 기기, 신경 회로망, 전문가 시스템, 베이시안 빌리브(belief) 네트워크, 퍼지 논리, 데이터 퓨진 엔진 등)은 본 발명에 관련된 자동 및/또는 추론된 액션을 수행하는 것과 관련되어 사용될 수 있다. 또한, 추론은 예를 들어 도 4를 참조하여 설명될 히든 마르코프 모델(HMM)에 기초하여 본 발명에 의해 행해질 수 있다.
도 4는 HMM이 본 발명의 양상에 따라서 보조된 서식 채우기를 용이하게 하기 위해 사용되는 스키마(400)를 도시한다. HMM 및 다른 확률적 모델은 사용자 인터페이스로부터의 정보를 파서(parser)로 "백-채널"하는 데 사용되어, 신호 필드가 사용자에 의해 정정될 때 이웃 필드의 정정을 허용하는 정정 전파를 용이하게 한다. HMM은 상태 Q, 출력 알파벳 O, 전이 확률 A, 출력 확률 B, 및 초기 상태 확률 ∏의 집합을 갖는 유한 상태 기기의 변형체이다. 현재 상태는 일반적으로 관찰 불가능하다. 대신, 각 상태는 특정 확률 B를 갖는 출력을 생산할 수 있다. 보통, 상태 Q 및 출력 O가 이해되기 때문에, HMM은 다음의 속성을 갖는 트리플(A, B, ∏)가 되는 것으로 설명된다:
A=[aij=P(qj at t+1|qi at t)], 여기서 P(a|b)는 주어진 b의 조건적 확률이고, t≥1은 시간이며, qi∈Q이다.
공식적으로, A는 현재 상태가 qi일 때 다음 상태가 qj일 확률이다.
B=[bik=P(ok|qi)], 여기서 ok ∈O이다.
공식적으로, B는 현재 상태가 qi일 때 출력이 ok일 확률이다.
∏=[pi=P(qj at t=1)].
도 4를 따르면, 다양한 무작위 변수 X1 내지 Xn이 도시되며, 이는 서식 내의 필드를 나타낼 수 있다. 이러한 필드는 {이름, 접미사, 성, 길 주소 번호, 길 이름, 도시, 시, 우편번호, 전화 번호(들), 이메일 주소(들)}을 포함하는 필드 세트의 일부일 수 있다. 입력될 수 있는 X 필드 및 정보 Y의 집합은 상술된 예시적인 정보 필드로 한정되지 않고, 오히려 임의의 다른 적합한 정보 및/또는 필드를 포함할 수 있다. Y는 주어진 X에 대응하는 실제 정보를 나타내어, Y1이 "존"이고, X1="이름"이 참이면(예를 들어, P(X1=이름)=1), "존"이 X1로 표현된 필드에 삽입될 수 있도록 한다. 마찬가지로, Y2가 "스미스"이고, X2="성"이 참이면, "스미스"가 X2와 관련된 필드에 삽입될 수 있다. 따라서, Y의 값이 관측되고, X가 숨겨진다. 전형적으로, 확률 분산이 관찰되어(예를 들어, P(X1=이름)=0.23, P(X1=성)=0.03, P(X1=시 이름)=0.093 등), 최고 점수를 보이는 레이블(예를 들어, 이 예를 따르면 "이 름")이 선택될 수 있다. 이러한 추론은 숨겨진 변수의 최고 설정을 찾는 것을 용이하게 한다. 히든 Markov 모델의 경우에, 가장 가망성있는 상태 시퀀스가 찾아질 수 있다. 예를 들어:
Figure 112005011411658-PAT00001
유사한 예에 따르면, 특정한 X는 조건 "5 자릿수"와 관련될 수 있으므로, Y가 7개의 아라비아 숫자를 가지면(예를 들어, 555-1234), 그것은 당해의 특정 X에 대한 낮은 확률(예를 들어, P(Y=555-1234|X)=0.00001)을 등록할 것이다. 역으로, 12345 등의 정보를 포함하는 Y는 특정 X에 대한 높은 확률(예를 들어, P(Y=555-1234|X)=0.9989)을 등록하여 조건 "7 자릿수"을 갖는 X에 대한 높은 확률 결과물을 등록할 것이다. 본 발명은 어떤 특정한 Y가 보조된 서식 채우기를 용이하게 하기 위해 특정한 X와 관련된 조건을 만족시키는 지를 결정하기 위해 임의의 수의 적절한 변수 또는 테스트를 사용할 수 있다.
본 발명은 숨겨진 변수(X)를 특정 필드의 레이블에 대응하는 상태에 설정함으로써, 숨겨지고 관찰된 무작위 변수들을 포함하는, 상술된 HMM과 같은, 개연적 모델의 이점을 이용할 수 있다. 예를 들어, 상술된 HMM의 Y 무작위 변수는 "관측된" 무작위 변수이고, 여기서 각각의 변수는 일 토큰에 대응한다. 토큰은 토큰 구문문자(예를 들어, 스페이스, 대쉬, 콤마 등) 사이의 텍스트의 세그멘트이다. 예를 들어, 텍스트 스트링 "this-is a, test"는 다음과 같이 토큰화된다:
"this" = 토큰 1
"is" = 토큰 2
"a" = 토큰 3
"test" = 토큰 4
숨겨진 변수 X는 토큰이 각각의 허가된 레이블을 가질 확률을 나타낸다(예를 들어, 토큰은 레이블에 걸쳐 분산됨). 정보 추출에서, 대부분, "보조 정보"가 사용되지 않으므로, X가 관찰되지 않은 상태로 남아있다. 개연적 모델이 보조 정보(예를 들어, 사용자 제공된 텍스트를 갖는 텍스트 필드의 서식임)를 사용하도록 강요하기 위해, 사용자 제공된 텍스트에 대응하는 토큰이 검색될 수 있고, 대응하는 숨겨진 변수 X가 필드의 레이블에 대응하는 상태로 설정될 수 있다. 이는 p(X1=이름)=1 및 P(X1=성)=0 등으로 설정하는 것 및 추론하는 동안 업데이트될 수 없음을 관측할 수 있다. 예를 들어, 사용자가 "스미스"를 서식의 성 필드에 타이핑해 넣으면, "스미스"를 찾기 위해 모든 토큰을 통하는 검색이 수행될 수 있다. 그 후, P(X1=성)=1이 설정되며, 추론하는 동안 P(X2)에 대한 확률 분산은 업데이트되지 않는다.
정정 전파는 파서로의 사용자 인터페이스로부터의 백-채널링 정보를 더 취할 수 있다. 이 방식에서, 이웃 필드는 단일 필드가 사용자에 의해 정정될 때, 파퓰레이트 될 수 있다. 예를 들어, 본 발명은 규칙 기반 파싱 방법을 사용할 수 있으며, 이것은 규칙 문서 "성 필드가 사용자에 의해 설정되면, 그 후 언태그 텍스트의 성을 검색하고 성을 바로 뒤따르는 단어를 이름으로 레이블링한다"의 간략한 버젼이다. 또한 이름에 대한 대응하는 규칙이 있을 수 있다. 이 방식에서, 성의 정정 은 이름에 전파된다. 여기에 설정된 정정 전파는 성 및 이름에 한정되지 않지만, 임의의 및 모든 관련 유형의 정보, 텍스트 등에 인가될 수 있음을 이해해야 한다.
추가적으로, 본 발명은 조건적 무작위 필드(CRF)를 사용할 수 있으며, 조건적 무작위 필드는 HMM 및 최대 엔트로피 모델 모두의 개괄이다. CRF는 임의의 로컬이 아닌 특징의 도입을 허용하고 평가될 파싱된 정보의 신뢰도를 허가하는 레이블들 사이의 의존도를 캡쳐한다. 이 방식에서, 본 발명은 정보가 높은 신뢰도 레벨을 가지며 사용자 검토 및/또는 정정에 대한 낮은 신뢰도 레벨을 가진 정보의 조각을 플래깅할 수 있을 때, 파싱된 정보의 조각을 필드에 자동으로 할당할 수 있다.
도 5는 무작위의 잘못된 필드를 정정하기 전 및 정정한 후에 CRF 사이의 관계를 나타내는 히스토그램(500)을 도시한다. 서식을 채우는 동안, 필드 검증 및 정정에 관련된 사용자 행동은 수많은 사용자 인터페이스 모델(UIM)을 통해 예측 및/또는 모델링될 수 있다. 예를 들어, 간략한 시나리오 UIM1에서, 사용자는 자동으로 채워진 서식을 제시받을 수 있고 모든 에러를 정정하도록 요구될 수 있다(예를 들어, 정정 전파는 수행되지 않음). 따라서, 요구되는 사용자 액션의 수는 자동 채우기 동안 발생하는 에러의 총 개수와 동일하다.
두번째 시나리오 UIM2에 따르면, 초기 자동 필드 할당이 가정되고, 사용자는 무작위로 선택된 1회의 정정을 수행하며, 시스템은 그 정정에 기초하여 정정 전파를 개시할 수 있다. 이것은 모든 필드가 정정될 때까지 반복될 수 있다.
세번째 시나리오 UIM3에 따르면, 초기 자동 필드 할당이 가정되고, 사용자는 확실하게 잘못된 필드에 대한 정정을 수행한다. 예를 들어, 에러가 발견될 때까지, 사용자는 신뢰도의 순서로 (예를 들어, 신뢰도 표시자에 의하여) 필드들에 대하여 시각적으로 경고를 받을 수 있다. 정정 전파는 적어도 신뢰도는 필드의 정정에 따라 행해지며, 사용자는 임의의 남아있는 에러들을 정정할 것을 촉구받을 수 있다.
서식 채우기는 일반적으로 완벽한 정확성을 필요로 한다. 따라서, 채우는 시간이 감소되거나, 사용자의 정신적인 부담이 감소되거나, 또는 둘다의 이점이 실현될 수 있다. 본 발명은, 기타의 표준 성능 판단기준에 더하여, 예상되는 사용자 액션의 수(expected number of user action, ENUA)라고 하는 효율적인 판단기준을 이용한다. ENUA는 서식 내의 모든 필드들을 올바르게 채우는 데에 필요한 사용자 액션의 수로서 정의된다. ENUA는 전술한 것과 같은 UIM에 따라 달라진다. ENUA를 표현하기 위하여, P(i:j)라는 표기법이 사용되며, 이것은 i회의 수동 정정 후 에러 개수 j에 대한 확률 분포이다. 이러한 분포는 도 5의 히스토그램에 의해 표현된다.
예를 들어, UIM1 하에서, ENUA는
Figure 112005011411658-PAT00002
이며, 여기에서 P(0;n)은 잘못된 필드의 수에 대한 분포이다 (도 2 참조).
예를 들어, UIM2 및 UIM3 모델에 따르면, ENUA는
Figure 112005011411658-PAT00003
이며, 여기에서 P(0;0)은 모든 필드들이 처음에 올바르게 할당될 확률이고, P(1;n)은 하나의 필드가 정정된 후 서식 내의 잘못된 필드의 수에 대한 분포이다. 적용되는 UIM에 따라 상이한 분포가 발생될 수 있다. ENUA1의 위첨자 1은 정정 전파가 1회 행해졌음을 나타낸다.
계속 도 5를 참조하면, 각각의 서식 내에서 에러를 포함하는 필드의 수에 따라, 서식들이 그룹화되어 있다. 검은선은 임의의 정정(들)을 행하기 전에 CRF 기반 파서를 이용한 결과를 나타내고, 흰선은 1회의 무작위의 잘못된 필드가 정정되고 난 후의 분포를 나타내는 것이다. 이러한 정보는 각각 P(0;n) 및 P(1;n)을 추정하는 데에 사용될 수 있다.
설명을 간단하게 하기 위하여, 본 명세서에서 예를 들어 흐름도의 형태로 나타낸 하나 이상의 방법은 일련의 동작으로서 도시되고 설명되지만, 본 발명에 따르면, 일부 동작들은 다른 상이한 순서로 행해지고/지거나, 본 명세서에 도시되고 설명된 다른 동작들과 동시에 행해질 수 있으므로, 본 발명은 동작의 순서에 의해 제한되지 않음을 알아야 한다. 예를 들어, 본 기술 분야의 숙련된 기술자라면, 방법이 상태도에서와 같이 일련의 상호관련된 상태 또는 이벤트로서 다르게 표현될 수 있음을 알 것이다.
도 6은 본 발명의 한 양태에 따라 자동 서식 채우기를 보조하는 방법(600)을 나타낸 것이다. 블럭(602)에서, 선택된 언태그 매체가 언태그 매체 GUI 내의 텍스트 박스에 삽입된다. 블럭(604)에서, 서식 내의 특정 필드를 파퓰레이트하기 위해 잠재적으로 사용될 수 있는 엘리먼트들을 결정하기 위하여, 삽입된 매체가 파싱된다. 블럭(606)에서, 필드 내에 입력된 엘리먼트에 상태가 할당되고, 사용자에게 표시될 수 있다. 예를 들어, "존 스미스와 제인 도우가 다음 주 집회에 참석할 것이다"와 같은 선택된 언태그 매체는 2개의 성과 2개의 이름을 포함한다. "존"이 예를 들어 연락처 리스트 내의 "이름" 필드를 파퓰레이트하는 데에 사용되는 경우, 이것은 "존"이 이름 필드 내의 올바른 엔트리가 아닐 수 있음을 사용자에게 경고하는 상태 표시자(예를 들어, 채워졌지만 검증되지 않음)와 관련될 수 있다. 또한, 이름 필드에 대한 잠재적인 사용자 정정을 용이하게 하기 위해, "제인"이 드롭다운 메뉴를 통해 사용자에게 제시될 수 있다. 예를 들어, 색상 코드를 갖는 상태 표시자가 이름 필드 옆에서 점등될 수 있다. 이러한 예에 대하여, 다양한 상태 레벨을 표시하기 위하여, 적색-황색-녹색 프로토콜이 사용될 수 있는데, 이러한 경우 적색은 필드가 채워지지도 않고 검증되지도 않았음을 나타내고, 황색은 필드가 채워졌지만 검증되지는 않았음을 나타내고, 녹색은 필드가 (자동으로 또는 사용자에 의해) 채워지고 검증되었음을 나타낸다. 본 예에서, 이름 필드는 황색 표시자를 가져서, 이름 필드가 채워져 있지만, 그 이름 "존"은 검증되지 않았음을 나타낼 수 있다.
블럭(608)에서, 사용자는 서식 필드, 특히 (예를 들어, 채워졌지만 검증되지 않은 상태를 녹색으로 나타내는 시나리오에서) 녹색 상태 미만의 상태를 나타내는 서식 필드를 검증 및/또는 정정하도록 촉구받는다. 그리고, 블럭(610)에서, 사용자가 임의의 정보를 정정했는지(예를 들어, 변경했는지)에 대한 판정이 이루어진다. 본 예에 따르면, "존"이 "이름" 필드 내에 원하는 엔트리가 아닌 경우, 사용자는 텍스트 박스 내의 "제인"을 클릭하고 이름 필드로 드래그하여, 엔트리를 정정할 수 있다. 또한, 이름 필드 내에 미리 제공된 드롭다운 메뉴로부터 "제인"이 선택될 수 있다. 사용자가 임의의 정보를 정정하면, 방법은 사용자 입력에 따라 필드(들)이 업데이트되고 언태그 텍스트가 다시 파싱될 수 있는 블럭(612)으로 진행한다. 그 다음, 방법은 상태를 업그레이드하고 데이터를 서식 필드에 입력하기 위한 블럭(606)으로 되돌아가며, 이는 사용자의 입력과 관련하여 행해진다. 사용자가 블럭(610)에서 정보를 정정하지 않은 경우, 블럭(614)에서는 사용자가 필드 엔트리를 검증했는지에 관한 판정이 이루어진다. 블럭(614)에서 사용자가 필드 엔트리를 검증하지 않은 경우, 방법은 "채워지고 검증됨" 이외의 상태를 나타내는 필드에 대하여 동작을 취할 것을 사용자에게 다시 촉구하기 위하여, 블럭(608)으로 되돌아갈 수 있다. 사용자가 블럭(614)에서 정확한 정보를 검증하면, 다른 필드들 및 그 대응 상태 표시가 블럭(616)에서 업데이트된다. 예를 들어, "존"이 이름 필드에 대해 원하는 엔트리인 경우, 블럭(616)에서 상태 표시자는 황색에서 녹색으로 업그레이드될 수 있다.
도 7은, 본 발명의 한 양태에 따라 사용자의 서식 채우기를 보조하는 것을 용이하게 하는 방법(700)을 나타내고 있다. 블럭(702)에서, 선택된 언태그 매체는 서식 채우기 인터페이스 내의 텍스트 박스로 전달된다. 블럭(704)에서, 언태그 매 체는 서식 내의 필드들을 파퓰레이트하는 데에 이용될 수 있는 잠재적인 엘리먼트들(이름, 주소, 전화번호 등)을 식별하기 위하여 파싱된다. 블럭(706)에서, 엘리먼트가 입력될 수 있고, 상태는 입력된 엘리먼트와 관련되어 사용자에게 디스플레이되어, 특정 엔트리가 관련 필드에 적합하게 삽입되는지의 여부를 표시한다. 블럭(708)에서, 모든 필드가 가능한 최고의 상태를 나타내는지(예를 들어, 모든 필드가 "채워지고 검증"되었는지)에 관한 판정이 이루어진다. 블럭(708)에서, 모든 필드가 "채워지고 검증됨" 표시를 디스플레이하는 경우, 사용자는 동작을 취하도록 촉구될 필요가 없으며, 방법은 종료될 수 있다. 그러나, 임의의 필드가 "채워지고 검증됨" 상태보다 낮은 상태를 나타내는 경우, 방법은 블럭(710)으로 진행하고, 여기에서 사용자는 의심되는 임의의 필드를 정정 및/또는 검증하도록 촉구될 수 있다. 블럭(712)에서, 사용자가 필드 엔트리를 정정했는지에 관한 판정이 이루어진다. 사용자가 필드 엔트리를 정정한 경우에는, 상태 업그레이드 및 필드에 대한 엘리먼트 입력을 위해 블럭(706)으로 진행하기 전에, 블럭(714)에서 사용자 입력에 따라 서식 필드가 업데이트될 수 있고, 텍스트 박스가 다시 파싱될 수 있다. 블럭(712)에서 사용자가 임의의 필드를 정정하지 않은 것으로 판정되는 경우, 블럭(714)에서 사용자가 의심되는 필드(들)를 검증했는지에 관한 판정이 이루어진다. 사용자가 기대 상태 미만의 필드를 검증하지 않은 경우, 방법은 사용자에게 동작을 취할 것을 다시 촉구하기 위하여 블럭(710)으로 되돌아간다. 블럭(716)에서, 사용자가 의심 정보를 검증한 것으로 결정되는 경우, 블럭(718)에서 필드가 업데이트될 수 있고, 또한 그에 관련된 상태가 업그레이드될 수 있다.
도 8은 본 발명의 한 양태에 따른 방법(800)의 도면이다. 방법에 따르면, 블럭(802)에서 언태그 매체가 파싱된다. 블럭(804)에서, 특정 엘리먼트가 입력될 수 있는 적합한 필드를 결정하기 위하여, 히든 마르코프 모델(hidden Markov Model, HMM)이 이용된다. 블럭(806)에서, 엘리먼트(들)는 결정된 적합한 필드 내에 상태 표시자와 함께 디스플레이된다. 블럭(808)에서, 사용자는 필드(들) 내에 입력된 정보를 검증 및/또는 정정할 것을 촉구받을 수 있다. 블럭(810)에서, 사용자 정정이 검출되었는지에 관한 판정이 이루어진다. 검출된 경우, 블럭(812)에서, 사용자 정정된 필드(들)이, 정정 전파를 통해 정정된 다른 필드들과 함께 업데이트될 수 있고, 그에 따라 상태가 업그레이드될 수 있다. 그 다음, 방법은 사용자 입력에 따라 엘리먼트가 디스플레이되고 상태가 표시되는 블럭(806)으로 되돌아갈 수 있다. 블럭(810)에서 정정이 검출되지 않은 경우, 블럭(814)에서, 사용자 검증이 발생했는지에 관한 판정이 이루어진다. 사용자가 입력된 정보를 올바른 것으로 검증하지 않은 경우, 방법은 사용자에게 동작을 취할 것을 다시 촉구하기 위하여 블럭(808)으로 되돌아간다. 블럭(814)에서, 사용자가 의심되는 필드 내의 정보를 올바른 것으로 검증한 것으로 판정된 경우, 방법은 블럭(816)으로 진행할 수 있고, 여기에서 검증된 엘리먼트가 적합한 필드 내에 디스플레이되고, 업그레이드된 상태가 디스플레이된다.
도 9는 본 발명의 한 양태에 따른 방법(900)의 도면이다. 블럭(902)에서, 언태그 매체가 언태그 매체 저장장치로 판독된다. 블럭(904)에서, 보조 정보(side information)(예를 들어, 데이터 입력, 검증, 정정 등과 같은 사용자 동작으로부터 수집된 정보)가 보조 정보 저장장치로 판독된다. 블럭(906)에서, 서식 필드를 잠재적으로 파퓰레이트할 수 있는 엘리먼트들을 식별하기 위하여, 언태그 매체가 파싱될 수 있다. 블럭(908)에서, 식별된 엘리먼트들은 서식 데이터 저장장치에 기입될 수 있다. 그 다음, 블럭(910)에서, 식별된 엘리먼트들은 서식 GUI 내의 서식 필드에서 사용자에게 디스플레이될 수 있다. 블럭(912)에서, 언태그 매체 GUI 내의 언태그 매체는, 사용자의 서식 필드 채우기를 보조하는 것을 용이하게 하는 시각적 표시자와 함께 디스플레이될 수 있다. 예를 들어, 텍스트 박스 내의 이름은 특정 색상(예를 들어, 오렌지색)으로 색상 코드화되어, 마찬가지로 오렌지색으로 색상 코드화된 이름 필드에 입력될 수 있음을 나타낼 수 있다. 다른 예에 따르면, "@" 심볼을 포함하는 파싱된 언태그 텍스트는 예를 들어 청색으로 코드화되어, 마찬가지로 청색으로 코드화된 서식 GUI 내의 "이메일" 필드에 입력될 수 있음을 나타낼 수 있다.
블럭(914)에서, 사용자는 서식 GUI 내의 필드들에 대한 엘리먼트의 할당을 검증 및/또는 정정할 것을 촉구받을 수 있다. 그 다음, 블럭(916)에서, 언태그 매체를 다시 파싱할 것인지에 대한 판정이 이루어질 수 있다. 이러한 판정이 이루어지는 경우, 블럭(918)에서 사용자 입력이 보조 정보 저장장치에 추가되고, 시스템은 언태그 매체의 파싱 및 엘리먼트 식별을 위하여 블럭(906)으로 되돌아갈 수 있다. 블럭(916)에서 추가의 파싱이 필요하지 않은 것으로 판정되면, 블럭(920)에서 서식 데이터 저장장치의 내용이 데이터베이스 또는 파일에 기입될 수 있다.
본 발명의 다양한 양태를 구현하기 위한 추가의 문맥을 제공하기 위하여, 도 10 및 11과 이하의 설명은, 본 발명의 다양한 양태가 구현될 수 있는 적합한 컴퓨팅 환경(1000)의 간단하고 개괄적인 설명을 제공하기 위한 것이다. 상기에서는, 본 발명이 로컬 컴퓨터 및/또는 원격 컴퓨터 상에서 실행되는 컴퓨터 프로그램의 컴퓨터 실행가능 명령어들과 관련되어 설명되었지만, 본 기술분야의 숙련된 기술자라면, 본 발명이 기타 프로그램 모듈들과 조합되어서도 사용될 수 있음을 알 것이다. 일반적으로, 프로그램 모듈은, 특정 태스크를 수행하고/하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 컴포넌트, 데이터 구조 등을 포함한다. 또한, 본 기술분야의 숙련된 기술자라면, 본 발명의 방법들이 하나 이상의 관련 디바이스와 동작적으로 통신할 수 있는 퍼스널 컴퓨터, 핸드핼드형 컴퓨팅 디바이스, 마이크로세서 기반 및/또는 프로그래밍가능한 가전제품은 물론, 단일프로세서 또는 멀티프로세서 컴퓨터 시스템을 포함한 기타 컴퓨터 시스템 구성에서도 실현될 수 있음을 알 것이다. 본 명세서에 설명된 본 발명의 양태들은, 소정의 태스크들이 통신 네트워크를 통해 연결된 원격 프로세싱 디바이스들에 의해 수행되는 분산 컴퓨팅 환경에서도 실현될 수 있다. 그러나, 본 발명의 양태들 중 전부는 아니더라도 그 일부는 독립형 컴퓨터에서 실현될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및/또는 원격 메모리 저장 디바이스에 위치될 수 있다.
본 명세서에서, "컴포넌트"라는 용어는 하드웨어, 하드웨어와 소프트웨어의 조합 또는 실행중인 소프트웨어와 같은 컴퓨터 관련 엔티티를 칭하는 것이다. 예를 들어, 컴포넌트는 프로세서 상에서 실행중인 프로세스, 프로세서, 오브젝트, 실행파일, 실행 스레드, 프로그램 및 컴퓨터일 수 있지만, 이들로 제한되는 것은 아 니다. 예를 들어, 서버 상에서 실행중인 어플리케이션 및/또는 서버 둘다 컴포넌트일 수 있다. 또한, 컴포넌트는 하나 이상의 서브컴포넌트를 포함할 수 있다.
도 10을 참조하면, 본 발명의 다양한 양태를 구현하기 위한 것으로서, 통상적인 컴퓨터(1002)를 포함하는 예시적인 환경(1000)이 도시되어 있으며, 컴퓨터(1002)는 프로세싱 유닛(1004), 시스템 메모리(1006), 및 시스템 메모리(1006) 등의 다양한 시스템 컴포넌트들을 프로세싱 유닛(1004)에 연결하는 시스템 버스(1008)를 포함한다. 프로세싱 유닛(1004)은 임의의 상업적으로 이용가능한 프로세서 또는 전용 프로세서일 수 있다. 또한, 프로세싱 유닛(1004)은 병렬로 접속된 것과 같은 2개 이상의 프로세서로 형성된 멀티프로세서로서 구현될 수 있다.
시스템 버스(1008)는 예를 들어 PCI, VESA, 마이크로채널, ISA 및 EISA와 같은 다양한 통상적인 버스 아키텍쳐들 중 임의의 것을 이용하는 로컬 버스, 메모리 버스 또는 메모리 컨트롤러, 주변 버스를 포함하는 여러 유형의 버스 구조 중 임의의 것일 수 있다. 시스템 메모리(1006)는 판독 전용 메모리(ROM)(1010) 및 랜덤 액세스 메모리(RAM)(1012)를 포함한다. 기동 시 등에 컴퓨터 내의 구성엘리먼트들 간의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(BIOS)은 ROM(1010) 내에 저장된다.
또한, 컴퓨터(1002)는 하드 디스크 드라이브(1016), 예를 들어 분리가능 디스크(1020)에 대한 판독 및 기입을 행하는 자기 디스크 드라이브(1018), 및 CD-ROM 디스크(1024) 또는 기타 광 매체에 대한 판독 및 기입을 행하는 광학 디스크 드라이브(1022)를 더 포함할 수 있다. 하드디스크 드라이브(1016), 자기 디스크 드라 이브(1018) 및 광학 디스크 드라이브(1022)는 하드디스크 드라이브 인터페이스(1026), 자기 디스크 드라이브 인터페이스(1028) 및 광학 드라이브 인터페이스(1030) 각각에 의해 시스템 버스(1008)에 접속된다. 드라이브들(1016-1022)과 그 관련 컴퓨터 판독가능 매체는 컴퓨터(1002)에 대하여 데이터, 데이터 구조, 컴퓨터 실행가능 명령어 등의 비휘발성 저장을 제공한다. 상기에서는, 하드 디스크, 분리가능 자기 디스크 및 CD와 관련하여 컴퓨터 판독가능 매체를 설명하였지만, 당업자라면 자기 카세트, 플래시 메모리 카드, 디지탈 비디오 디스크, 베르누이 카트리지 등과 같이 컴퓨터에 의해 판독가능한 기타 유형의 매체도 예시적인 오퍼레이팅 환경(1000)에서 사용될 수 있으며, 또한 임의의 이러한 매체는 본 발명의 방법을 수행하기 위한 컴퓨터 실행가능 명령을 포함한다는 것을 알아야 한다.
오퍼레이팅 시스템(1032), 하나 이상의 애플리케이션(1034), 기타 프로그램 모듈(1036) 및 프로그램 데이터(1038)를 비롯한 다수의 프로그램 모듈은, 드라이브(1016-1022) 및 RAM(1012)에 저장될 수 있다. 또한, 오퍼레이팅 시스템(1032)은 임의의 적합한 오퍼레이팅 시스템, 또는 오퍼레이팅 시스템들의 조합일 수 있다. 예를 들어, 애플리케이션 프로그램(1034) 및 프로그램 모듈(1036)은 본 발명의 한 양태에 따른 클라이언트 기반 웹 크롤링을 용이하게 하는 것을 포함할 수 있다.
사용자는 키보드(1040) 및 포인팅 장치[예를 들어, 마우스(1042)]와 같은 하나 이상의 사용자 입력 장치를 통해 컴퓨터(1002)에 커맨드 및 정보를 입력할 수 있다. 다른 입력 장치(도시되지 않음)로는 마이크로폰, 조이스틱, 게임패드, 위성접시, 무선 원격 제어기, 스캐너 등을 포함할 수 있다. 이러한 입력 장치 및 기타 입력 장치는 주로 시스템 버스(1008)에 연결된 직렬 포트 인터페이스(1044)를 통해 프로세싱 유닛(1004)에 접속되지만, 병렬 포트, 게임 포트, USB와 같은 다른 인터페이스에 의해 접속될 수 있다. 모니터(1046) 또는 기타 유형의 표시 장치도 비디오 어댑터(1048)와 같은 인터페이스를 통해 시스템 버스(1008)에 접속된다. 모니터(1046) 이외에, 컴퓨터(1002)는 스피커, 프린터 등과 같은 다른 주변 출력 장치(도시되지 않음)를 포함할 수 있다.
컴퓨터(1002)는 하나 이상의 원격 컴퓨터(1060)와의 논리적 접속을 이용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(1060)는 워크스테이션, 서버 컴퓨터, 라우터, 피어 디바이스 또는 기타 공통 네트워크 노드일 수 있고, 통상적으로 컴퓨터(1002)에 관해 설명된 구성엘리먼트들의 다수 또는 전부를 포함할 수 있지만, 편의상 도 10에는 메모리 저장 장치(1062)만이 도시되어 있다. 도 10에 도시된 논리적 접속은 근거리 통신망(LAN, 10642) 및/또는 원거리 통신망(WAN, 1066)을 포함한다. 이러한 네트워크 환경은 사무실, 기업내 컴퓨터 네트워크, 인트라넷 및 인터넷 등에서 흔하다.
LAN 네트워크 환경에서 사용되는 경우, 예를 들어 컴퓨터(1002)는 네트워크 인터페이스 또는 어댑터(1068)를 통해 로컬 네트워크(1064)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(1002)는 통상적으로 모뎀(1070)(예를 들어, 전화기, DSL, 케이블 등)을 포함하거나, LAN 상의 통신 서버에 접속되거나, 인터넷과 같은 WAN(1664)을 통하여 통신을 설정하기 위한 다른 수단을 포함한다. 컴퓨터(1002)의 내부 또는 외부에 있을 수 있는 모뎀(1070)은 직렬 포트 인터페이스 (1044)를 통해 시스템 버스(1008)에 접속된다. 네트워크 환경에서, 프로그램 모듈[어플리케이션 프로그램(1034) 포함] 및/또는 프로그램 데이터(1038)는 원격 메모리/저장 장치(1062)에 저장될 수 있다. 도시된 네트워크 접속은 예시적인 것이고, 컴퓨터(1002)와 컴퓨터(1062) 간의 통신 링크를 설정하기 위한 다른 수단(예를 들어, 유선 또는 무선)이 사용될 수 있음을 알아야 한다.
컴퓨터 프로그래밍 분야의 숙련된 기술자들의 실무에 따라서, 본 발명은 특별히 다르게 언급되지 않는 한, 컴퓨터(1002) 또는 원격 컴퓨터(106)와 같은 컴퓨터에 의해 수행되는 연산의 기호적 표현 및 동작과 관련하여 설명된다. 이러한 동작 및 연산은 종종 컴퓨터 실행되는 것으로 언급된다. 동작 및 기호적으로 표현된 연산은 프로세싱 유닛(1004)이 데이터 비트를 표현하는 전기 신호를 조작하는 것을 포함하며, 이러한 조작에 의하여, 전기적 신호 표현이 변형 또는 감소되거나 또는 데이터 비트가 메모리 시스템[시스템 메모리(1006), 하드 드라이브(1016), 플로피 디스크(1020), CD-ROM(1024) 및 원격 메모리(1062)를 포함함] 내의 메모리 위치에 유지되어, 컴퓨터 시스템의 동작은 물론, 신호에 대한 기타 처리가 재구성 또는 변경되게 한다. 이러한 데이터 비트가 유지되는 메모리 위치는, 해당 데이터 비트에 대응하는 특정한 전기적, 자기적 또는 광학적 특성을 갖는 물리적 위치이다.
도 11은 본 발명과 상호작용할 수 있는 예시적인 컴퓨팅 환경(1100)의 또다른 블럭도이다. 시스템(1100)은 하나 이상의 클라이언트(1102)를 포함한다. 클라이언트(들)(1102)는 하드웨어 및/또는 소프트웨어(예, 스레드, 프로세스, 컴퓨팅 장치)일 수 있다. 시스템(1100)은 하나 이상의 서버(1104)도 포함한다. 서버(들 )(1104)도 하드웨어 및/또는 소프트웨어(예, 스레드, 프로세스, 컴퓨팅 장치)일 수 있다. 예를 들어, 서버(1104)는 본 발명을 이용하여 변환을 수행하기 위해 스레드를 내장할 수 있다. 클라이언트(1102)와 서버(1104) 간의 하나의 가능한 통신은 둘 이상의 컴퓨터 프로세스 사이에 전송되도록 적응된 데이터 패킷의 형태일 수 있다. 시스템(1100)은 클라이언트(들)(1102)와 서버(들)(1104) 간의 통신을 용이하게 하기 위해 이용될 수 있는 통신 프레임워크(1108)를 포함한다. 클라이언트(들)(1102)는 자신에게 로컬한 정보를 저장하기 위해 이용될 수 있는 하나 이상의 클라이언트 데이터 저장 장치(1110)에 동작적으로 접속된다. 마찬가지로, 서버(들)(1104)는 자신에게 로컬한 정보를 저장하기 위해 사용될 수 있는 하나 이상의 서버 데이터 저장 장치(1110)에 동작적으로 접속된다.
본 발명의 일례에서, 2개 이상의 컴퓨터 컴포넌트 간에서 전송되어 웹 크롤링을 용이하게 하는 데이터 패킷은, 적어도 부분적으로는, 웹 크롤링을 위한 분산된 시스템에서 적어도 부분적으로 이용되는 웹 크롤링 관련 정보로 구성된다.
본 발명의 다른 예에서, 웹 크롤링을 용이하게 하기 위한 시스템의 컴퓨터 실행가능 컴포넌트들을 저장하는 컴퓨터 판독가능 매체는, 적어도 부분적으로는, 웹 크롤링을 위한 분산된 시스템에 의해 컴파일되는 웹 페이지들에 속한 정보를 적어도 부분적으로 결정하는 웹 크롤링 시스템으로 구성된다.
본 발명의 시스템 및/또는 방법은 웹 크롤링을 용이하게 하는 컴퓨터 컴포넌트 및 비컴퓨터 관련 컴포넌트 둘다에서 사용될 수 있음을 알아야 한다. 또한, 본 기술분야의 숙련된 기술자라면, 본 발명의 시스템 및/또는 방법이 무선 및/또는 유 선 등으로 접속될 수 있는 컴퓨터, 서버 및/또는 핸드핼드형 전자 장치를 비롯한 광대한 전자 관련 기술에 적용될 수 있음을 인식할 수 있을 것이다.
본 기술분야의 숙련된 기술자라면, 본 발명이 클라이언트 기반 크롤링 시스템은 물론, 피어-투-피어 크롤링 시스템에 대해서도 사용될 수 있음을 알 수 있을 것이다. 또한, 본 발명의 일부 예에서는, 클라이언트가 통상적으로 "서버" 거동과 관련되는 작업들을 수행하고, 그에 따라 서버에 관련된 일부 특징들을 클라이언트에 전송하는 것도 가능하다. 본 발명의 일례는, 다른 클라이언트들에 대한 "서브크롤링"을 수행하여 서버에 전송할 정보를 검증 및/또는 검색하는 클라이언트이다. 이러한 예는, 예를 들어 소정 클라이언트와 서버 간에 병목을 갖는 네트워크에서 유용할 수 있다. 데이터는 서버에 대하여 가장 양호한 액세스를 갖는 클라이언트에 전송될 수 있다. 본 발명의 다른 예에서, 클라이언트는 인트라넷에서의 서브크롤링을 개시하여, 인트라넷 상에 존재하는 단 하나의 클라이언트 또는 상당히 감소된 개수의 클라이언트들로부터의 정보를 서버에 보고함으로써, 서버 거동을 나타낼 수 있다. 이러한 방식에서, 검색 서버는 자신의 크롤링 자원을 확장시키기 위하여, 복수의 서브크롤링을 개시할 수 있다.
상술한 내용은 본 발명의 예들을 포함한다. 본 발명을 설명하기 위하여, 생각해낼 수 있는 모든 컴포넌트 또는 방법의 조합을 기술하는 것은 물론 불가능하지만, 본 기술 분야의 통상의 지식을 가진 자라면, 본 발명의 보다 더 많은 조합 및 변형이 가능하다는 것을 알 수 있을 것이다. 따라서, 본 발명은 첨부된 특허청구범위 내에 드는 모든 변경, 수정 및 변형을 포함하도록 의도된 것이다. 또한, 상 세한 설명 및 특허청구범위에서의 "포함한다"라는 용어는 포괄적인 의미를 갖는 것이다.
본 발명은 사용자가 통상적인 시스템 및 방법을 통하는 것보다 빨리 전자 서식에 데이터를 입력하게 한다. 또한, 본 발명은, 신뢰할 수 없는 파싱 기술의 사용을 허용하고 파싱에 의해 생긴 임의의 에러를 사용자가 시각적으로 검증하고 정정하는 것을 허용함으로써, 언태그 컴퓨터 판독가능 데이터가 이용가능할 때, 사용자가 효율적으로 정보를 입력하게 한다.

Claims (32)

  1. 보조된 서식 채우기(assisted form filing)를 용이하게 하는 시스템으로서,
    언태그 텍스트 입력 정보를 수신하는 제어 컴포넌트,
    상기 언태그 텍스트 정보에 적어도 부분적으로 기초하여, 서식의 부분집합을 파퓰레이트하는 파싱 컴포넌트, 및
    상기 언태그 텍스트 정보 및 상기 파퓰레이트된 서식을 디스플레이하는 디스플레이 컴포넌트
    를 포함하는 시스템.
  2. 제1항에 있어서,
    상기 파싱 컴포넌트는 상기 언태그 텍스트 정보에 적어도 부분적으로 기초하여 상기 서식을 파퓰레이트하는 것에 관한 추론을 행하는 인공 지능(AI) 컴포넌트를 포함하는 시스템.
  3. 제2항에 있어서,
    상기 AI 컴포넌트는 히든 마르코프 모델(hidden Markov model, HMM)을 사용하여, 상기 서식 내에서 상기 파싱된 텍스트 정보가 입력될 수 있는 적합한 필드를 결정하는 시스템.
  4. 제1항에 있어서,
    상기 디스플레이 컴포넌트는 색상을 이용하여, 적어도 하나의 파싱된 언태그 텍스트 엘리먼트와 상기 서식 내의 적어도 하나의 필드 간의 호환성을 나타내는 시스템.
  5. 제1항에 있어서,
    상기 서식 내의 적어도 하나의 파퓰레이트된 필드와 관련된 상태 레벨을 나타내는 적어도 하나의 상태 표시자를 더 포함하는 시스템.
  6. 제5항에 있어서,
    상기 적어도 하나의 상태 표시자는, 상기 서식 내의 상기 적어도 하나의 파퓰레이트된 필드의 상태 레벨을 나타내는 색상 코드에 따른 색상을 갖는 시스템.
  7. 보조된 서식 채우기를 위한 방법으로서,
    언태그 매체를 수신하는 단계,
    상기 언태그 매체를 파싱하여, 엘리먼트들을 식별하는 단계,
    식별된 엘리먼트들을 사용하여, 서식을 자동적으로 파퓰레이트하는 단계, 및
    상기 언태그 매체 및 상기 파퓰레이트된 서식을 사용자에게 디스플레이하는 단계
    를 포함하는 방법.
  8. 제7항에 있어서,
    색상을 이용하여, 식별된 엘리먼트가 상기 서식 내의 특정 필드와 호환가능함을 나타내는 단계를 더 포함하는 방법.
  9. 제7항에 있어서,
    적어도 하나의 히든 마르코프 모델(HMM)을 사용하여, 식별된 엘리먼트가 입력될 수 있는 적합한 필드를 결정하는 단계를 더 포함하는 방법.
  10. 제7항에 있어서,
    적어도 하나의 필드 내의 적어도 하나의 엘리먼트에 관련된 상태 레벨을 표시하는 단계를 더 포함하는 방법.
  11. 제10항에 있어서,
    상기 적어도 하나의 필드 내의 적어도 하나의 엘리먼트와 관련된 상태 레벨이 원하는 레벨 아래에 있는 경우, 사용자에게 상기 적어도 하나의 필드 내의 상기 적어도 하나의 엘리먼트를 검증 및/또는 정정할 것을 촉구하는 단계를 더 포함하는 방법.
  12. 제11항에 있어서,
    상기 적어도 하나의 필드 내의 상기 적어도 하나의 엘리먼트에 대한 사용자의 검증 및/또는 정정에 따라, 상기 파퓰레이트된 서식을 업데이트하는 단계를 더 포함하는 방법.
  13. 제12항에 있어서,
    상기 적어도 하나의 엘리먼트에 대한 사용자의 검증 및/또는 정정에 적어도 부분적으로 기초하여, 상기 적어도 하나의 엘리먼트에 관련된 상기 상태 레벨을 업그레이드하는 단계를 더 포함하는 방법.
  14. 제11항에 있어서,
    상이한 색상들을 이용하여 상이한 상태 레벨들을 표시하는 단계를 더 포함하는 방법.
  15. 제7항에 있어서,
    모든 필드 내의 모든 엘리먼트의 신뢰도 레벨이 원하는 신뢰도 임계치보다 높은 경우, 상기 파퓰레이트된 서식을 데이터 저장 장치에 저장하는 단계를 더 포함하는 방법.
  16. 사용자가 서식을 파퓰레이트하는 것을 보조하는 방법으로서,
    언태그 매체를 언태그 매체 저장장치로 판독하는 단계,
    보조 정보(side information)를 보조 정보 저장장치로 판독하는 단계,
    서식을 파퓰레이트하기 위하여, 언태그 매체를 파싱하여 엘리먼트들을 식별하는 단계,
    식별된 엘리먼트들을 서식 데이터 저장장치에 기입하는 단계, 및
    식별된 엘리먼트들을 서식 그래픽 사용자 인터페이스의 필드들에 디스플레이하는 단계
    를 포함하는 방법.
  17. 제16항에 있어서,
    상기 언태그 매체를 시각적 표시자와 함께, 언태그 매체 그래픽 사용자 인터페이스에 디스플레이하는 단계를 더 포함하는 방법.
  18. 제17항에 있어서,
    상기 시각적 표시자는 적어도 하나의 식별된 엘리먼트가 상기 서식 내의 적어도 하나의 필드와 호환가능함을 나타내는 색상인 방법.
  19. 제16항에 있어서,
    주어진 필드를 파퓰레이트하는 엘리먼트와 관련된 신뢰도 레벨을 표시하는 단계를 더 포함하는 방법.
  20. 제19항에 있어서,
    상이한 상태 레벨들이 상이한 색상들에 의해 표시되는 방법.
  21. 제19항에 있어서,
    상기 필드가 적어도 하나의 에러를 포함하는 경우, 사용자가 상기 서식 내의 적어도 하나의 필드를 정정할 수 있게 하는 단계를 더 포함하는 방법.
  22. 제21항에 있어서,
    상기 서식 내의 상기 적어도 하나의 필드의 정정으로부터 수집된 정보를 상기 보조 정보 저장장치에 추가하는 단계를 더 포함하는 방법.
  23. 제22항에 있어서,
    상기 적어도 하나의 필드의 정정으로부터 수집된 정보를 추가한 후, 상기 언태그 매체를 다시 파싱하여, 상기 적어도 하나의 필드의 정정을 적어도 하나의 다른 필드에 전파하는 단계를 더 포함하는 방법.
  24. 제16항에 있어서,
    사용자가 적어도 하나의 필드 내의 적어도 하나의 엘리먼트가 올바르다는 것을 검증할 수 있게 하는 단계를 더 포함하는 방법.
  25. 제24항에 있어서,
    상기 서식 내의 상기 적어도 하나의 필드의 검증으로부터 수집된 정보를 상기 추가 정보 저장장치에 추가하는 단계를 더 포함하는 방법.
  26. 제25항에 있어서,
    상기 적어도 하나의 필드의 검증으로부터 수집된 정보를 추가한 후, 상기 언태그 매체를 다시 파싱하여, 상기 적어도 하나의 필드의 정정을 적어도 하나의 다른 필드에 전파하는 단계를 더 포함하는 방법.
  27. 제16항에 있어서,
    상기 서식 내에 에러가 존재하지 않는 경우, 상기 서식 데이터 저장장치의 내용을 파일에 기입하는 단계를 더 포함하는 방법.
  28. 서식 채우기에서의 에러 및 소요 시간을 감소시키기 위한 시스템으로서,
    언태그 매체 입력을 수신하기 위한 수단,
    언태그 매체를 파싱하기 위한 수단,
    파싱된 언태그 매체를 사용하여 서식을 파퓰레이트하기 위한 수단, 및
    상기 언태그 매체 및 상기 파퓰레이트된 서식을 동시에 디스플레이하기 위한 수단
    을 포함하는 시스템.
  29. 제28항에 있어서,
    상기 파퓰레이트된 서식 내의 적어도 하나의 필드와 관련된 상태 레벨을 표시하기 위한 수단을 더 포함하는 시스템.
  30. 제28항에 있어서,
    상기 파퓰레이트된 서식 내의 적어도 하나의 필드를 정정 및/또는 검증하기 위한 수단을 더 포함하는 시스템.
  31. 제28항에 있어서,
    상기 파싱된 언태그 매체 엘리먼트들과 상기 서식 내의 필드들 간의 호환성을 표시하기 위한 수단을 더 포함하는 시스템.
  32. 컴퓨터 실행가능 명령어들이 저장되어 있는 컴퓨터 판독가능 매체로서,
    상기 컴퓨터 실행가능 명령어들은,
    언태그 매체를 수신하는 단계,
    언태그 매체를 파싱하여 엘리먼트들을 식별하는 단계,
    식별된 엘리먼트들을 이용하여 서식 내의 필드들을 파퓰레이트하는 단계,
    상기 서식 내의 파퓰레이트된 필드들과 관련된 상태를 표시하는 단계, 및
    상기 파퓰레이트된 서식 내의 필드들 내의 엘리먼트들에 대한 정정 및/또는 검증을 허용하는 단계
    를 수행하는 컴퓨터 판독가능 매체.
KR1020050017780A 2004-03-03 2005-03-03 보조된 서식 채우기 KR101114194B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/792,519 US7426496B2 (en) 2004-03-03 2004-03-03 Assisted form filling
US10/792,519 2004-03-03

Publications (2)

Publication Number Publication Date
KR20060043384A true KR20060043384A (ko) 2006-05-15
KR101114194B1 KR101114194B1 (ko) 2012-02-22

Family

ID=34750607

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050017780A KR101114194B1 (ko) 2004-03-03 2005-03-03 보조된 서식 채우기

Country Status (5)

Country Link
US (1) US7426496B2 (ko)
EP (1) EP1571560A3 (ko)
JP (1) JP4758116B2 (ko)
KR (1) KR101114194B1 (ko)
CN (1) CN1664810A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100798147B1 (ko) * 2006-06-30 2008-01-28 주식회사 케이티프리텔 표준 항목 리포지터리 기반의 화면간 자동 데이터 전송시스템 및 그 방법

Families Citing this family (139)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1387291A3 (en) * 2002-07-30 2005-10-19 Canon Kabushiki Kaisha Apparatus, method, recording medium and program for form processing
US7958443B2 (en) 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
US20040243545A1 (en) * 2003-05-29 2004-12-02 Dictaphone Corporation Systems and methods utilizing natural language medical records
US8200487B2 (en) 2003-11-21 2012-06-12 Nuance Communications Austria Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US7747601B2 (en) * 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
US8082264B2 (en) 2004-04-07 2011-12-20 Inquira, Inc. Automated scheme for identifying user intent in real-time
US8612208B2 (en) 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US7251782B1 (en) * 2004-06-22 2007-07-31 Sun Microsystems, Inc. Method and apparatus for validating user input fields in a graphical display
US8626730B2 (en) * 2004-06-28 2014-01-07 Sap Ag Data processing methods, systems and computer programs for providing a payment using a web service
US20060015526A1 (en) * 2004-07-16 2006-01-19 Juergen Sattler Method and apparatus for supporting context links for application program text
US7653694B2 (en) * 2004-12-15 2010-01-26 Microsoft Corporation E-mail containing a web-based form
US8122354B1 (en) * 2005-02-25 2012-02-21 The Mathworks, Inc. Systems and methods for providing an indicator of detection of input related to an element of a user interface
US7644351B1 (en) * 2005-06-27 2010-01-05 Information Sciences Corporation Data collection and processing system and methods
CA2614233A1 (en) * 2005-07-05 2007-01-11 Dictaphone Corporation System and method for auto-reuse of document text
DE102005032046A1 (de) * 2005-07-08 2007-01-11 Océ Document Technologies GmbH Verfahren, System und Computerprogramm-Produkt zum Übertragen von Daten aus einer Dokumentenanwendung in eine Datenanwendung
US20070022085A1 (en) * 2005-07-22 2007-01-25 Parashuram Kulkarni Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US8010610B2 (en) * 2005-08-03 2011-08-30 Research In Motion Limited Handheld electronic device providing assisted entry of contact information, and associated method
KR100735375B1 (ko) * 2005-08-25 2007-07-04 삼성전자주식회사 이동통신단말기에서 어플리케이션 구동 방법 및 그이동통신단말기
US8935379B1 (en) * 2005-09-07 2015-01-13 Reversevision, Inc. Methods, systems, and products for evaluating electronic data and electronic forms
JP2007094818A (ja) * 2005-09-29 2007-04-12 Internatl Business Mach Corp <Ibm> 複数データの一括コピー及びペースト方法、装置、およびコンピュータ・プログラム
US7512574B2 (en) * 2005-09-30 2009-03-31 International Business Machines Corporation Consistent histogram maintenance using query feedback
DE102005048600B4 (de) * 2005-10-06 2008-09-25 Klaus Rehm Verfahren zum Erfassen von Daten
US7603438B2 (en) * 2005-10-13 2009-10-13 Kabushiki Kaisha Toshiba System and method for assisted entry of database schema data
JP2009520246A (ja) * 2005-10-25 2009-05-21 キャラクテル リミテッド カスタマゼーションによらない書式データ抽出
US7353073B2 (en) * 2005-12-01 2008-04-01 Sandisk Corporation Method for managing appliances
US7739078B2 (en) * 2005-12-01 2010-06-15 Sandisk Corporation System for managing appliances
US20070133876A1 (en) * 2005-12-14 2007-06-14 Nokia Corporation Device, method, and computer program product for enhancing the use of electronic forms in mobile devices
US20070156977A1 (en) * 2005-12-29 2007-07-05 Ritter Gerd M Automatic location data determination in an electronic document
US20070179956A1 (en) * 2006-01-18 2007-08-02 Whitmyer Wesley W Jr Record protection system for networked databases
US7992128B2 (en) * 2006-01-27 2011-08-02 Sap Ag Computer software adaptation method and system
US8270720B1 (en) * 2006-02-21 2012-09-18 Gruntworx, Llc Method and system for secure data entry
JP4890051B2 (ja) * 2006-02-28 2012-03-07 富士通株式会社 ブラウザ画面の表示装置およびそのためのプログラム
US20070203869A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Adaptive semantic platform architecture
US7921099B2 (en) * 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
US8781813B2 (en) 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
US20080059961A1 (en) * 2006-08-31 2008-03-06 Microsoft Corporation Output of Help Elements that Correspond to Selectable Portions of Content
US7890442B2 (en) * 2006-10-20 2011-02-15 International Business Machines Corporation Method and system for autocompletion of multiple fields in electronic forms
US20080120257A1 (en) * 2006-11-20 2008-05-22 Yahoo! Inc. Automatic online form filling using semantic inference
US8095476B2 (en) * 2006-11-27 2012-01-10 Inquira, Inc. Automated support scheme for electronic forms
JP2008158989A (ja) * 2006-12-26 2008-07-10 Canon Inc Gui生成装置及びgui生成方法
US20080158161A1 (en) * 2006-12-29 2008-07-03 Sap Ag Data entry processing
US20080158160A1 (en) * 2006-12-29 2008-07-03 Christof Engel Central storage for data entry processing
US20100313112A1 (en) * 2007-01-11 2010-12-09 Sxip Identity Corp. Method And System For Indicating A Form Mapping
US8996587B2 (en) * 2007-02-15 2015-03-31 International Business Machines Corporation Method and apparatus for automatically structuring free form hetergeneous data
US7849398B2 (en) * 2007-04-26 2010-12-07 Xerox Corporation Decision criteria for automated form population
US20090006940A1 (en) * 2007-06-27 2009-01-01 Hardt Dick C Simplified Persona Selector and Indication System
US8214362B1 (en) * 2007-09-07 2012-07-03 Google Inc. Intelligent identification of form field elements
US8351703B2 (en) * 2007-10-30 2013-01-08 Perot Systems Corporation System and method for extracting and organizing data from electronic images
US8234562B1 (en) * 2007-10-31 2012-07-31 Intuit Inc. Error checking for data entry
US8910073B2 (en) * 2007-11-26 2014-12-09 Qualcomm Incorporated Enhancing visual continuity in scrolling operations
US8196042B2 (en) 2008-01-21 2012-06-05 Microsoft Corporation Self-revelation aids for interfaces
GB2458891A (en) * 2008-03-31 2009-10-07 Triad Group Plc Automatic form filling by extracting components form a text file
JP5366178B2 (ja) * 2008-05-22 2013-12-11 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブページの入力項目への入力を支援する方法、コンピュータ・プログラム及び端末
US20100037219A1 (en) * 2008-08-05 2010-02-11 International Buisness Machines Corporation Predictive logic for automatic web form completion
JP5347370B2 (ja) * 2008-08-12 2013-11-20 富士通モバイルコミュニケーションズ株式会社 電子機器
US20100050101A1 (en) * 2008-08-21 2010-02-25 Palm, Inc. Converting Information Objects
US20100057861A1 (en) * 2008-08-29 2010-03-04 International Business Machines Corporation Dynamic Email Recipients Based on Entered Subject
US8074179B2 (en) * 2008-09-15 2011-12-06 International Business Machines Corporation User interface including question verification indicators
US8225213B2 (en) * 2008-10-07 2012-07-17 Siegal Bess L M User interface (UI) control for attestation process
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
US8140565B2 (en) * 2009-01-20 2012-03-20 International Business Machines Corporation Autonomic information management system (IMS) mainframe database pointer error diagnostic data extraction
US8527897B2 (en) * 2009-01-26 2013-09-03 International Business Machines Corporation System, method, and computer program product for toggling back and forth between unformatted and formatted editable views of data
US11195169B1 (en) * 2009-01-30 2021-12-07 United Services Automobile Association (Usaa) Systems and methods for digital wallet
EP2491545B8 (en) * 2009-10-21 2021-04-14 Citrix Systems, Inc. Computer form action zone summary system and method
US20110154221A1 (en) * 2009-12-22 2011-06-23 International Business Machines Corporation Subject suggestion based on e-mail recipients
US20110153564A1 (en) * 2009-12-23 2011-06-23 Telcordia Technologies, Inc. Error-sensitive electronic directory synchronization system and methods
US8560935B2 (en) 2010-08-31 2013-10-15 American Sterling Dental Plan, Llc Segmenting forms for multiple user completion
US9323722B1 (en) * 2010-12-07 2016-04-26 Google Inc. Low-latency interactive user interface
US10409892B2 (en) 2011-01-26 2019-09-10 Microsoft Technology Licensing, Llc Formatting data by example
US8589805B2 (en) * 2011-04-28 2013-11-19 Brian Knight Customizable constituent communication method, system, and computer readable medium
CN102214244A (zh) * 2011-07-07 2011-10-12 深圳市万兴软件有限公司 docx文件信息解析方法及系统
JP5754291B2 (ja) * 2011-08-12 2015-07-29 富士通株式会社 診療情報入力装置、診療情報入力プログラム及び診療情報入力方法
US8996981B2 (en) * 2011-09-06 2015-03-31 Onevizion, Inc. Managing forms in electronic documents
US8737599B2 (en) * 2011-11-23 2014-05-27 24/7 Customer, Inc. Interaction management
US20130191714A1 (en) * 2012-01-25 2013-07-25 Microsoft Corporation Fill by example animation and visuals
US20130219257A1 (en) * 2012-02-19 2013-08-22 International Business Machines Corporation Textual and formatted data presentation
US20130317805A1 (en) * 2012-05-24 2013-11-28 Google Inc. Systems and methods for detecting real names in different languages
US20130339836A1 (en) * 2012-06-14 2013-12-19 International Business Machines Corporation Compliance Verification Using Field Monitoring in a Computing Environment
JP5663114B2 (ja) * 2012-09-24 2015-02-04 楽天株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
US9639597B2 (en) 2012-10-30 2017-05-02 FHOOSH, Inc. Collecting and classifying user information into dynamically-updated user profiles
US9251467B2 (en) * 2013-03-03 2016-02-02 Microsoft Technology Licensing, Llc Probabilistic parsing
GB2511749A (en) * 2013-03-11 2014-09-17 Theeword Ltd Webform monitoring
CN103324661A (zh) * 2013-04-10 2013-09-25 广东全通教育股份有限公司 一种基于用户习惯的数据搜索与自动填充方法及系统
US10229101B2 (en) 2013-06-14 2019-03-12 Microsoft Technology Licensing, Llc Smart fill
US10445417B2 (en) * 2013-08-01 2019-10-15 Oracle International Corporation Entry of values into multiple fields of a form using touch screens
KR101597307B1 (ko) * 2013-10-23 2016-02-24 농협은행(주) 모아 쓰기를 이용한 은행 업무용 전자 문서 시스템 및 그 처리 방법
US11087340B1 (en) * 2013-12-17 2021-08-10 EMC IP Holding Company LLC Systems and methods for configuring converged infrastructure components
US9430464B2 (en) 2013-12-20 2016-08-30 International Business Machines Corporation Identifying unchecked criteria in unstructured and semi-structured data
US10013411B2 (en) * 2014-04-30 2018-07-03 Adobe Systems Incorporated Automating data entry for fields in electronic documents
US10824799B2 (en) 2014-06-30 2020-11-03 Microsoft Technology Licensing, Llc Summary data autofill
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
SG11201808317XA (en) 2014-09-23 2018-10-30 Fhoosh Inc Secure high speed data storage, access, recovery, and transmission
US10088979B2 (en) * 2014-09-26 2018-10-02 Oracle International Corporation Recasting a form-based user interface into a mobile device user interface using common data
US10042837B2 (en) 2014-12-02 2018-08-07 International Business Machines Corporation NLP processing of real-world forms via element-level template correlation
KR101734156B1 (ko) * 2014-12-05 2017-05-24 농협은행(주) 이동 통신 단말을 이용한 전자 문서 시스템 및 그 처리 방법
US20160180352A1 (en) * 2014-12-17 2016-06-23 Qing Chen System Detecting and Mitigating Frustration of Software User
US9928227B2 (en) 2015-08-20 2018-03-27 International Business Machines Corporation Techniques for utilizing information associated with an action command to select an appropriate form
US9805511B2 (en) * 2015-10-21 2017-10-31 International Business Machines Corporation Interacting with data fields on a page using augmented reality
US10776571B2 (en) * 2016-05-04 2020-09-15 Google Llc Dispatch of user input to multiple input fields in a user interface
US10204091B2 (en) 2016-05-18 2019-02-12 International Business Machines Corporation Providing data quality feedback while end users enter data in electronic forms
US10803237B2 (en) * 2016-09-28 2020-10-13 Netsuite, Inc. Systems and methods for data entry into a region of a display
CN108132922B (zh) * 2016-12-01 2020-12-25 珠海金山办公软件有限公司 一种基于表格的自动填充方法及装置
US11010677B2 (en) 2017-09-30 2021-05-18 Oracle International Corporation Event management system
US11062411B2 (en) 2017-09-30 2021-07-13 Oracle International Corporation Student retention system
US11301945B2 (en) 2017-09-30 2022-04-12 Oracle International Corporation Recruiting and admission system
US11151672B2 (en) 2017-10-17 2021-10-19 Oracle International Corporation Academic program recommendation
US11989774B1 (en) * 2017-11-20 2024-05-21 Wells Fargo Bank, N.A. Systems and methods for providing digital trusted data
KR102458338B1 (ko) * 2017-11-30 2022-10-25 삼성전자주식회사 컴퓨팅 장치의 정보 입력 방법 및 그 컴퓨팅 장치
US10360252B1 (en) * 2017-12-08 2019-07-23 Palantir Technologies Inc. Detection and enrichment of missing data or metadata for large data sets
US10949608B2 (en) * 2018-02-21 2021-03-16 Oracle International Corporation Data feedback interface
US11349656B2 (en) 2018-03-08 2022-05-31 Ubiq Security, Inc. Systems and methods for secure storage and transmission of a data stream
US10956402B2 (en) 2018-04-13 2021-03-23 Visa International Service Association Method and system for automatically detecting errors in at least one date entry using image maps
US11941649B2 (en) 2018-04-20 2024-03-26 Open Text Corporation Data processing systems and methods for controlling an automated survey system
TWI711021B (zh) * 2018-05-10 2020-11-21 台灣人壽保險股份有限公司 電子要保文件顯示方法及裝置
US11687537B2 (en) 2018-05-18 2023-06-27 Open Text Corporation Data processing system for automatic presetting of controls in an evaluation operator interface
US11212312B2 (en) * 2018-08-09 2021-12-28 Microsoft Technology Licensing, Llc Systems and methods for polluting phishing campaign responses
US11321519B1 (en) * 2018-08-29 2022-05-03 Applied Statistics & Management Inc. Data parsing and verification in a network environment
US11188837B2 (en) * 2019-02-01 2021-11-30 International Business Machines Corporation Dynamic field entry permutation sequence guidance based on historical data analysis
US10607040B1 (en) 2019-02-21 2020-03-31 Motorola Solutions, Inc. Automated form fill
US10635906B1 (en) 2019-02-21 2020-04-28 Motorola Solutions, Inc. Video annotation
US11373035B1 (en) * 2019-04-30 2022-06-28 Axon Enterprise, Inc. Systems and methods for structured report generation
US10922481B2 (en) 2019-06-14 2021-02-16 International Business Machines Corporation Visual user attention redirection while form filling to enhance auto-fill accuracy
US10628633B1 (en) * 2019-06-28 2020-04-21 Decision Engines, Inc. Enhancing electronic form data based on hierarchical context information
US11271752B2 (en) * 2019-07-29 2022-03-08 International Business Machines Corporation Automatic form completion from a set of federated data providers
UA128522C2 (uk) * 2019-09-24 2024-08-07 Аура Саб, Ллс Спосіб, система та машинозчитуваний носій інформації, призначені для класифікації полів і груп полів вводу вебсторінки
CN111191429A (zh) * 2019-09-27 2020-05-22 深圳逻辑汇科技有限公司 数据表格自动填充的系统和方法
CN112861497A (zh) * 2019-11-27 2021-05-28 贝壳技术有限公司 合同模板的生成方法及系统
US11057519B1 (en) 2020-02-07 2021-07-06 Open Text Holdings, Inc. Artificial intelligence based refinement of automatic control setting in an operator interface using localized transcripts
US11556502B2 (en) 2020-02-28 2023-01-17 Ricoh Company, Ltd. Intelligent routing based on the data extraction from the document
US11182439B2 (en) * 2020-02-28 2021-11-23 Ricoh Company, Ltd. Automatic data capture of desired data fields and generation of metadata based on captured data fields
US12039538B2 (en) 2020-04-01 2024-07-16 Visa International Service Association System, method, and computer program product for breach detection using convolutional neural networks
CN112380477B (zh) * 2020-11-13 2024-04-30 广东巴金斯科技有限公司 表单组件结构
DE102020214362A1 (de) 2020-11-16 2022-05-19 Volkswagen Aktiengesellschaft Verfahren zum Verwalten von Daten von einer Vielzahl von Entitäten und Vorrichtung zur Datenverarbeitung
US11947904B2 (en) * 2021-02-05 2024-04-02 Quick Click E-Forms, LLC System and method for completing multiple electronic forms
US11532023B2 (en) * 2021-02-24 2022-12-20 Kumar N Senthil System and method for streamlining a checkout process of e-commerce websites
US11748341B2 (en) * 2021-03-30 2023-09-05 Konica Minolta Business Solutions U.S.A., Inc. Method, apparatus, and system for form auto-registration using virtual table generation and association
CN113449496B (zh) * 2021-06-25 2024-05-17 北京京东振世信息技术有限公司 一种自动生成维修单据的方法和装置
US11907652B2 (en) * 2022-06-02 2024-02-20 On Time Staffing, Inc. User interface and systems for document creation
US20240046030A1 (en) * 2022-08-02 2024-02-08 Capital One Services, Llc Accelerated form completion with email address analytics

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736913A (ja) * 1993-07-16 1995-02-07 Ricoh Co Ltd 言語解析システム
US5664109A (en) * 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers
US6166734A (en) * 1996-10-01 2000-12-26 Diamond Multimedia Systems, Inc. Portable interactive graphics display tablet and communications system
US6157935A (en) * 1996-12-17 2000-12-05 Tran; Bao Q. Remote data access and management system
US6411313B1 (en) 1999-06-14 2002-06-25 Microsoft Corporation User interface for creating a spreadsheet pivottable
JP4160206B2 (ja) * 1999-06-18 2008-10-01 株式会社東芝 文字認識装置を利用したデータベース登録方法
US6651217B1 (en) * 1999-09-01 2003-11-18 Microsoft Corporation System and method for populating forms with previously used data values
US6542635B1 (en) * 1999-09-08 2003-04-01 Lucent Technologies Inc. Method for document comparison and classification using document image layout
AU2001289074A1 (en) 2000-09-08 2002-03-22 Agentai, Inc. A point-of-sale commercial transaction processing system using artificial intelligence assisted by human intervention
US6671670B2 (en) * 2001-06-27 2003-12-30 Telelogue, Inc. System and method for pre-processing information used by an automated attendant
JP3557605B2 (ja) * 2001-09-19 2004-08-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム
US20040205526A1 (en) 2001-09-28 2004-10-14 Vadim Borodovski Prompted form filling mechanism
JP3921390B2 (ja) * 2002-01-23 2007-05-30 Necインフロンティア株式会社 電話帳情報抽出方式及びその方法
US6817982B2 (en) * 2002-04-19 2004-11-16 Sonosite, Inc. Method, apparatus, and product for accurately determining the intima-media thickness of a blood vessel

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100798147B1 (ko) * 2006-06-30 2008-01-28 주식회사 케이티프리텔 표준 항목 리포지터리 기반의 화면간 자동 데이터 전송시스템 및 그 방법

Also Published As

Publication number Publication date
JP2005251205A (ja) 2005-09-15
EP1571560A2 (en) 2005-09-07
JP4758116B2 (ja) 2011-08-24
US20050198563A1 (en) 2005-09-08
US7426496B2 (en) 2008-09-16
EP1571560A3 (en) 2007-01-17
CN1664810A (zh) 2005-09-07
KR101114194B1 (ko) 2012-02-22

Similar Documents

Publication Publication Date Title
KR101114194B1 (ko) 보조된 서식 채우기
US7305129B2 (en) Methods and apparatus for populating electronic forms from scanned documents
US8494287B2 (en) Character identification through glyph data matching
US9659055B2 (en) Structured searching of dynamic structured document corpuses
EP4028961A1 (en) Cross-document intelligent authoring and processing assistant
US8176003B2 (en) Automatic designation of XBRL taxonomy tags
US9996670B2 (en) Clinical content analytics engine
CN109582772B (zh) 合同信息提取方法、装置、计算机设备和存储介质
US8949204B2 (en) Efficient development of a rule-based system using crowd-sourcing
US9875319B2 (en) Automated data parsing
US20080168341A1 (en) Digital spreadsheet formula automation
AU2019204444B2 (en) System and method for enrichment of ocr-extracted data
US8387010B2 (en) Automatic software configuring system
CN102609403A (zh) 按示例格式化数据
CN111310447A (zh) 语法纠错方法、装置、电子设备和存储介质
KR102147097B1 (ko) 머신러닝을 위한 학습데이터 세트의 구성 방법 및 장치
WO2023071745A1 (zh) 信息标注方法、模型训练方法、电子设备及存储介质
US20220391589A1 (en) Systems and methods for training and evaluating machine learning models using generalized vocabulary tokens for document processing
US20240061952A1 (en) Identifying sensitive data using redacted data
CN113032548A (zh) 信息处理装置、存储介质及信息处理方法
CN116185853A (zh) 代码校验方法及装置
CN115333776A (zh) 基于http流量的sql注入攻击检测方法、装置、设备及介质
US10275429B2 (en) Kernel based string descriptors
CN117290386A (zh) 数据处理方法、装置、电子设备、介质及程序产品
CN117496971A (zh) 语音交互方法、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee