KR20040002791A - 구조화 문서부터의 정보 추출 - Google Patents

구조화 문서부터의 정보 추출 Download PDF

Info

Publication number
KR20040002791A
KR20040002791A KR1020030042628A KR20030042628A KR20040002791A KR 20040002791 A KR20040002791 A KR 20040002791A KR 1020030042628 A KR1020030042628 A KR 1020030042628A KR 20030042628 A KR20030042628 A KR 20030042628A KR 20040002791 A KR20040002791 A KR 20040002791A
Authority
KR
South Korea
Prior art keywords
node
identifier
partial tree
tree
tag
Prior art date
Application number
KR1020030042628A
Other languages
English (en)
Other versions
KR100572576B1 (ko
Inventor
우찌야마타다스
미야모토마사루
Original Assignee
니뽄 덴신 덴와 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002190621A external-priority patent/JP3937944B2/ja
Priority claimed from JP2002204641A external-priority patent/JP2004046642A/ja
Application filed by 니뽄 덴신 덴와 가부시키가이샤 filed Critical 니뽄 덴신 덴와 가부시키가이샤
Publication of KR20040002791A publication Critical patent/KR20040002791A/ko
Application granted granted Critical
Publication of KR100572576B1 publication Critical patent/KR100572576B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명에 따른 구조화 문서로부터 정보를 추출하는 방법은 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 태그의 적어도 하나의 포맷 속성명, 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 선택된 부분적인 트리에 할당하는 단계; 태그의 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 선택된 부분적인 트리의 부분적인 트리 식별자와 동일한 부분적인 트리의 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함한다.

Description

구조화 문서부터의 정보 추출{EXTRACTION OF INFORMATION FROM STRUCTURED DOCUMENTS}
본 발명은 일반적으로 HTML 문서 등의 구조화 문서로부터 정보를 추출하는방법에 관한 것으로, 특히 나날이 갱신되는 구조화 문서로부터 사전에 원하는 텍스트 부분을 식별하여 추출하는 정보 추출 방법에 관한 것이다. 또한, 본 발명은 구조화 문서에서 원하는 부분을 쉽게 선택할 수 있는 사용자 인터페이스에 관한 것이다.
나날이 갱신되는 HTML(hyper text markup language) 문서 등의 구조화 문서로부터 특정 부분을 선택하는 수단이 필요하다. 예컨대, 사용자는 친숙한 웹 페이지 중에서 특히 관심있는 부분들을 선택하고, 이들 부분을 모으는 정보 수집을 통하여 사용자는 필요한 정보만을 쉽게 일람하길 원할 수 있다. 그 수집된 정보 소스가 날마다 갱신되는 경우에, 그 선택된 부분(selected portion)은 그 정보 수집에 이용하기 위하여 나날이 갱신된 문서로 재차 식별되어야 한다.
일본 특허 제2867986호는 미리 선택된 부분(selected portion)의 시작 지점 및 종료 지점을 나타내는 정보를 저장하는 www 정보 추출 시스템을 교시하고 있다. 이러한 정보를 근거로, 그 갱신된 문서에서 시작 지점 및 종료 지점을 식별한 다음, 이 2개의 점 사이에 있는 부분을 그 선택된 부분으로서 추출한다. 예컨대, 그 선택된 부분의 시작 지점 및 종료 지점 각각에 해당하는 텍스트가 저장된다. 갱신 문서로부터 그 선택된 부분을 추출할 때, 그 저장된 텍스트를 이용하여 HTML 문서에서 시작 지점 및 종료 지점을 식별한 다음, 그 식별 부분을 추출한다.
webMethods사가 제안한 시스템(http://www.w3.org/TR/NOTE-widl) 및 Luca Iocchi가 제안한 시스템(Luca Iocchi : The Web-OEM approach to Web information extraction, Journal of Network and Computer Applications, Vol.22, pp.259-269 (1999))에서는, HTML 문서를 트리 구조로 변환하고, 사전에 선택한 부분에 대응하는 부분적인 트리(partial tree)의 정보를 저장하며, 그 저장된 부분적인 트리에 해당하는 갱신된 문서의 일부분을 식별하는 방법을 통해 논점에 접근하고 있다. 여기서, 부분적인 트리에 관한 정보는 선택된 부분의 식별자로서 기능하는 문자열로 구성된다. 태그명(tag name)은 태그 식별자로서 이용되며, 트리 구성의 동일한 계층 레벨에 있는 태그명에는 수치 색인(numerical value index)이 각각 제공된다. 수치 색인과 쌍을 이루는 태그명들은 연속적으로연결되어, 선택된 부분에 해당하는 전체 트리의 뿌리(root)로부터 부분적인 트리의 뿌리까지의 구조를 나타내는 문자열을 만든다. 일예로서, 도 1의 "doc"는 전체 트리의 뿌리로서 간주되며, 선택된 부분 "지역뉴스(local news)"를 가르키는 식별자는 "doc.table[0].table[0]와 같이 표현된다.
www 정보 추출 시스템에 관하여 일본 특허 제2867986호에 시작된 종래 기술의 방법에 있어서, 선택된 부분은 이 선택된 부분의 시작 지점 및 종료 지점을 나타내는 정보를 토대로 추출된다. 이러한 정보는 갱신 후에도 그대로 그 문서에 항상 남아 있는 항목이어야 한다. 그러나, 갱신 후에도 변경되지 않고 그대로 지속하는 정보를 식별하기는 어렵다. 설계자 혼자의 판단으로 홈페이지를 설계하기 때문에 인터넷의 홈페이지 상에는 많은 예외 사항이 나타남으로써, 전술한 방법은 적용 분야에서 폭넓게 적용될 수 없다.
시작 지점 및 종료 지점에 대응하는 텍스트를 WWW 정보 추출 시스템의 단서로서 이용하면, 이러한 텍스트 자체는 도 2에 도시된 바와 같이 갱신되기 쉬울 수있다. 이러한 경우에, 상기 방법은 실패한다.
또한, 도 3a에 도시된 바와 같이, 이러한 방법에 의해 선택된 부분을 추출하는 경우, 그 추출 부분은 트리 구조로서 적합한 부분적인 트리를 구성하지 못하며, 이러한 예는 도 3b에 도시된다. 이러한 이유때문에, 다른 구조화 문서로부터 그 추출 부분을 이용하기 위해 시도하는 경우에는 어려움에 직면할 것이다.
webMethods사 또는 Luca Iocchi사에 의해 교시된 바와 같이, 선택된 부분의 부분적인 트리의 식별자를 이용하는 방법은 갱신하여도 문서 구조가 변하지 않는 것을 전제로 하고 있다. 갱신에 의해 문서 구조가 매우 작게 변하면, 사전에 선택한 부분적인 트리의 식별자는 갱신 후의 식별자와 일치하지 않을 것이다.
예컨대, 기존의 태그와 동일한 태그를 갖는 텍스트 블록은 문서의 선택된 부분이 속하는 트리 구조의 동일 계층 레벨에 삽입될 수 있다. 이로 인하여 그 태그의 수치 색인은 부분적인 트리의 식별자로 변경된다. 도 1의 예로서, 그 문서는 테이블 태그에 둘러싸인 "광고 2"에 관한 문서를 선택된 부분 상부에 삽입함으로써 갱신된다. 결과적으로, 그 선택된 "지역뉴스(local news)"의 태그명 "table" 에 기초한 수치 색인은 table[O]에서 table[1]로 변경된다. 이러한 적은 포맷 변경은 배너 광고, 긴급 뉴스 등을 일정하게 삽입하고 삭제하는 사이트의 톱페이지에서 이루어질 수 있다. 정보를 일정하게 갱신하는 사이트는 사용자가 일부분을 선택하고 싶은 그러한 종류의 사이트이기 때문에, 미세한 갱신을 통하여 부분 식별의 신뢰성이 떨어지는 경우에, 그러한 신뢰성의 감소는 처리되어야 한다.
일부 선택의 시간에 존재하지 않는 태그가 부주위하게 선택된 부분 위에 남겨진 경우, 이 태그는 그 선택된 부분에 관하여 부모 노드(parent node)로서 나타난다. 도 1에 도시된 갱신의 예로서, 선택된 부분의 상부에 "광고 1"을 둘러싸는 테이블 태그는 부주위하게 개방된다. 결과적으로, "doc.table[0].table[0]"로서 정확하게 나타내야 하는 식별자는 "doc.table[0].table[0].table[1]"이 되며, 이것은 선택된 부분 "local news"의 부모 노드로서 테이블 태그의 존재를 나타낸다. 이에 따라, 갱신 전후에 부분적인 트리의 식별자가 일치하지 않게 된다. 오늘날 널리 보급되어 있는 WWW 브라우저는 개방 단부 태그를 허용하며, 페이지 제작자는 개방 단부 태그가 페이지 내에 있다는 사실을 알아차리지 못하고 빈번히 페이지를 갱신한다.
동일한 태그를 갖고 태그를 닫는 주의가 부족한 텍스트 블록의 삽입에 의해 도 1에 도시된 문서의 갱신시 불량이 발생한다. 다시 말하면, 선택된 부분을 가르키는 부분적인 트리의 식별자는 doc.table[O]. table[O]로부터,
doc.table[O].table[O].table[1]로 변한다.
또한, webMethod사 및 Iocchi사에 의해 제안된 방법들은, HTML 문서 등의 구조화 문서의 일부분을 선택하는 경우에, 태그와 문서 구조의 지식 및 기술이 필요한 문제점이 있다.
본 발명의 목적은 종래 기술의 한계 및 단점에 의해 발생되는 하나 이상의 문제점을 실질적으로 제거하는 것이다.
본 발명의 다른 특정 목적은 문서를 갱신하여도 신뢰성이 떨어지지 않고 선택된 부분을 추출할 수 있는 구조화 문서로부터 정보를 추출하는 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 직관적으로 쉽게 이해할 수 있는 방법에 의해 HTML 문서 등의 구조화 문서의 일부분을 사용자가 선택할 수 있는 구조화 문서로부터 일부분을 선택 및 추출하는 방법을 제공하는 것이다.
본 발명에 따르면, 태그 식별자는 태그명, 이 태그의 적어도 하나의 속성값 및 적어도 하나의 포맷 속성값으로 구성되며, 부분적인 트리 식별자로서 이용된다. 이러한 부분적인 트리 식별자에 의한 부분 추출은 시작 지점 및 종료 지점에 의존하지 않기 때문에 신뢰성이 떨어지지 않는다. 선택된 부분의 부분적인 트리와 동일한 태그를 갖는 텍스트 블록을 선택된 부분이 속하는 동일한 계층 레벨에 삽입하는 경우에도, 하나의 태그에 대하여 다른 포맷 속성을 갖는 것을 충족시킨다.
또한, 트리 구조의 동일한 계층 레벨에 속하는 태그 식별자의 연속 수를 나타내는 수치 색인이 발생된다. 태그 식별자 및 수치 색인은 한 쌍이 한 세트를 이루고, 복수의 세트는 전체 트리 구조의 뿌리로부터 부분적인 트리의 뿌리까지 연속적으로 접속되며, 이것에 의해 부분적인 트리 식별자를 제공한다. 이렇게 부분적인 트리 식별자를 제공함으로써, 그 선택된 부분적인 트리의 뿌리에 해당하는 태그 및 포맷 속성의 동일한 결합이 문서의 다른 태그에 이용되는 경우에도, 그 선택된 부분을 유일하게 식별할 수 있다.
부분적인 트리의 식별시 2개 이상 정합하는 부분적인 트리가 있는 경우, 그 식별자 정합은 다음의 보다 높은 부모 노드로 연속적으로 올림으로써 반복하여 수행된다. 이것에 의해서, 그 선택된 부분 위에 부주위하게 열려져 있는 태그가 있을 지라도, 부분 추출의 신뢰성이 떨어지는 것을 피할 수 있다.
본 발명의 다른 특징에 따르면, HTML 문서 등의 구조화 문서의 부분을 선택하여 추출하는 방법은 구조화 문서를 디스플레이하는 스크린 상에 사용자가 표시한 위치에 대응하는 트리 구조의 종단 노드를 검출한다. 일련의 조상 노드(ancestor node)는 스크린 상에 가시적으로 프리젠테이션하기 위하여 연속적으로 얻어지며, 사용자는 노드를 선택하기 위하여 프롬프팅한다. 이것에 의해 사용자는 노드 선택에 따른 구조화 문서의 일부분을 쉽게 선택할 수 있기 때문에, 그 선택된 부분은 다른 구조화 문서에 쉽게 재사용될 수 있다.
본 발명의 다른 목적 및 다른 특징들은 첨부 도면과 함께 다음의 상세한 설명을 읽으면 명확하게 이해할 수 있을 것이다.
도 1은 종래 기술을 설명하는 도면,
도 2는 시작 지점 및 종료 지점을 나타내는 텍스트를 이용하여 문서의 일부분을 선택하여 추출하는 일예를 도시하는 도면,
도 3a 및 도 3b는 시작 지점 및 종료 지점을 나타내는 텍스트를 이용하여 HTML 문서의 일부분을 추출하는 일예를 도시하는 도면,
도 4는 본 발명을 개략적으로 도시하는 흐름도,
도 5는 복수의 태그가 동일한 태그 및 속성 포맷을 갖는 경우를 설명하는 도면,
도 6은 본 발명의 제1 실시예에 따른 구조화 문서로부터 정보를 추출하는 시스템의 블록도,
도 7은 본 발명의 제1 실시예에 따라 부분 선택한 페이지를 디스플레이하는 일예를 도시하는 도면,
도 8은 본 발명의 제1 실시예에 따라 부분 정보 저장 유닛에 저장된 정보의 일예를 도시하는 도면,
도 9는 본 발명의 제1 실시예의 문서 구조 분석에 의해 발생된 트리 구조 데이터의 일예를 도시하는 도면,
도 10은 본 발명의 제1 실시예에 따른 부분 정보 저장 유닛의 콘텐츠를 도시하는 도면,
도 11은 본 발명의 제1 실시예에 따른 대상 목록의 일예를 도시하는 도면,
도 12는 본 발명의 제1 실시예에 따른 변환된 트리 데이터 구조의 일예를 도시하는 도면,
도 13은 본 발명의 제1 실시예에 따른 구조화 문서로부터 정보를 추출하는 방법의 흐름도,
도 14는 본 발명의 제2 실시예에 따른 구조화 문서로부터 정보를 추출하는 시스템의 블록도,
도 15는 본 발명의 제2 실시예에 따른 선택부의 부분적인 트리 식별자의 생성을 도시하는 도면,
도 16은 본 발명의 제2 실시예에 따른 부분적인 트리 데이터의 생성을 도시하는 도면,
도 17은 본 발명의 제2 실시예에 따른 구조화 문서로부터 정보를 추출하는 방법의 흐름도,
도 18은 본 발명의 제3 실시예에 따른 구조화 문서로부터 정보를 추출하는 시스템의 블록도,
도 19는 본 발명의 제3 실시예에 따라 구조화 문서로부터 정보를 추출하는 방법의 흐름도,
도 20은 본 발명의 사용자 인터페이스를 개략적으로 도시하는 흐름도,
도 21은 본 발명에 따른 개략적인 사용자 인터페이스의 블록도,
도 22는 본 발명의 일 실시예에 따른 장치의 블록도,
도 23은 본 발명의 일 실시예에 따라 부분을 선택하고 추출하는 방법의 흐름도,
도 24는 본 발명의 일 실시예에 따른 브라우저 상에서 부분 선택의 일예를 도시하는 도면,
도 25는 본 발명의 일 실시예에 따른 트리 구조 발생 유닛의 동작을 도시하는 흐름도,
도 26은 본 발명의 일 실시예에 따른 선택부 표시 유닛의 동작 흐름도,
도 27은 본 발명의 일 실시예에 따른 선택부의 트리 구조 및 이 구조와 관련된 프리젠테이션을 도시하는 도면,
도 28은 본 발명의 일 실시예에 따른 시스템의 구조를 도시하는 도면, 그리고
도 29는 HTML 소스, 그 관련된 트리 구조 및 관련된 브라우저 프리젠테이션을 도시하는 도면이다.
본 발명의 다음과 같은 실시예는 첨부 도면을 참조로 기술될 것이다.
도 4는 본 발명을 개략적으로 나타내는 흐름도이다.
본 발명에 따라 구조화 문서로부터 정보를 추출하는 방법은 문서를 트리 구조로 변환하고, 그 문서의 일부분에 대응하는 부분적인 트리의 식별자를 발생하며, 이것에 의해 사전에 구조화 문서의 어떤 소정의 부분을 특정하고, 그 후에, 그 선택된 부분을 갱신된 문서로부터 식별하는 근거를 제공한다.
도 4에 도시된 바와 같이, 이 방법은 부분적인 트리의 식별자로서 태그 식별자를 이용하며, 그 태그 식별자는 부분적인 트리의 뿌리에 대응하는 태그명, 이 태그의 하나 이상의 포맷 속성명, 포맷 속성의 값으로 구성된다(단계 1). 태그의 식별자에 포맷 속성이 복수개 존재하는 경우, 그 포맷 속성명의 소정의 순서(예컨대, 알파벳 순서)로 포맷 속성을 정렬시켜 태그 식별자를 정규화한다(단계 2). 이미 선택된 부분적인 트리와 동일한 식별자를 갖는 부분적인 트리는 트리 구조로 변환된 문서에 존재하는 부분적인 트리의 식별자 목록으로부터 선택된 부분으로서 식별된다(단계 3).
그 선택된 부분적인 트리의 뿌리를 나타내는 태그와 포맷 속성의 동일한 결합을 도 5에 도시된 문서의 2개 이상의 태그에 이용하는 경우, 그 트리 구조의 동일한 계층 레벨에 속하는 태그 식별자의 연속 수를 나타내는 수치 색인을 발생한다. 태그 식별자와 수치 색인은 세트과 같이 쌍으로 이루어지고, 복수의 세트는 전체 트리 구조의 뿌리에서 그 선택된 부분적인 트리의 뿌리까지 연속하여 접속되며, 이것에 의해 부분적인 트리의 식별자를 제공한다.
그 후에, 트리 구조로 변환된 문서에 나타나는 부분적인 트리의 식별자 목록으로부터 이미 선택된 부분적인 트리와 동일한 식별자를 갖는 부분적인 트리를 식별할 필요가 있다. 부분적인 트리 식별자의 정합은 그 선택된 부분적인 트리의 뿌리의 태그 식별자만을 고려하여 수행된다. 그 선택된 부분적인 트리를 정합하는 2개 이상의 부분적인 트리가 있으면, 그 태그 식별자와 관련된 수치 색인은 후보를 차단하기 위하여 정합된다. 수치 색인의 이용에 근거하여 후보를 차단한 후에, 하나 이상의 후보가 여전히 남아 있으면, 부모 노드 태그는 식별자들이 정합하는 것으로 고려된다. 이 식별자 정합은 단 하나의 부모 트리가 후보로서 남을 때까지 연속적으로 조상 노드로 올리는 것에 의해 반복하여 수행된다. 이러한 나머지 트리는 선택된 부분적인 트리로서 식별된다.
[제1 실시예]
도 6은 본 발명의 제1 실시예의 구조화 문서로부터 정보를 추출하는 시스템의 블록도이다.
도 6에 도시하는 시스템은 선택된 부분의 시작 위치 및 종료 위치에 무관한 방법에 기초하여 동작하기 때문에 부분 추출의 신뢰성이 떨어진다. 다시 말해서, 그 선택된 부분의 동일한 계층 레벨에 그 선택된 부분의 부분적인 트리와 동일한 태그를 갖는 텍스트 블록을 삽입하더라도, 하나의 태그가 다른 포맷 속성을 갖는 것을 충족시킨다.
도 6의 시스템은 사용자로부터 구조화 문서의 임의 부분을 선택하는 명령을 수신하는 부분 선택 유닛(1)과, 그 선택된 부분에 관한 정보를 저장하는 부분 정보 저장 유닛(2)과, 태그 및 관련된 포맷 속성을 이용하여 트리 구조의 부분적인 트리를 식별하는 문서 구조 해석 유닛(3)과, 사용자 요구에 따라 선택된 부분에 대응하는 문서 부분을 돌려주는 부분 식별 유닛(4)으로 구성된다.
부분 선택 유닛(1)은 문서 검색 유닛(11), 부분 지정 유닛(12), 문서 구조화유닛(13)으로 구성된다.
문서 검색 유닛(11)은 부분 지정 유닛(12)으로부터 문서 검색 요청을 수신하고, 그 요청은 문서의 식별자로서 기능하는 URL(uniform resource locator)를 지정 한 후에, 그 요청된 문서를 검색하여, 부분 지정 유닛(12)에 제공한다.
부분 지정 유닛(12)은 URL과 함께 문서 검색 요청을 문서 검색 유닛(11)으로 전송하고, 대응하는 문서를 취득한 후에, 그 취득한 문서를 구조화 하도록 문서 구조화 유닛(l3)에 요청하여, 트리 구조로 변환된 문서를 취득한다. 도 7에 도시한 바와 같이, 부분 지정 유닛(12)은 그 취득한 문서의 부분을 사용자가 용이하게 지정할 수 있도록 사용자 인터페이스를 제공한다. 그 지정 부분의 좌표 등에 따라 부분적인 트리의 식별자를 생성한다. URL과 함께 이 식별자는 도 8에 도시된 부분 정보 저장 유닛(2)에 저장된다.
문서 구조화 유닛(13)은 문서 구조 해석 유닛(3)에 요청하여 부분 지정 유닛 (12)으로부터 받은 문서를 구조화 한 후에, 도 9에 도시한 바와 같이, 트리 구조로 변환된 문서를 트리 구조의 부모 및 자식 관계를 표현하는 데이터 구조로서 수신한다. 예컨대, 트리 구조를 구성하는 태그 및 텍스트 대상들은 객체 ID, 라벨, 자식 노드 목록, 부분적인 트리 식별자로 표시한다. 이들 항목의 목록은 데이터 구조로서 수신된다.
부분 정보 저장 유닛(2)은 부분 지정 유닛(12)으로부터 URL과 부분적인 트리 식별자를 수신하여, URL 및 부분적인 트리 식별자의 세트를 식별하는 문서 부분 ID를 할당한다. 이 세트 및 그 할당된 문서 부분 ID는 도 10에 도시된 바와 같이 저장된다. 그 후에, 그 문서 부분 ID는 부분 지정 유닛(12)으로 복귀된다.
문서 구조 해석 유닛(3)은 트리 구조 변환 유닛(31)과 부분적인 트리 식별자 생성 유닛(32)으로 구성된다.
이 트리 구조 변환 유닛(31)은 문서 구조화 유닛(13, 43)으로부터 구조화 문서와 함께 문서 구조화 요청을 수신한다. 또 트리 구조 변환 유닛(31)은 그 수신된 문서를 문서 대상으로서 태그 및 텍스트를 갖는 트리 구조로 변환하여, 그 변환된 문서를 부분적인 트리 식별자 생성 유닛(32)으로 전송한다.
부분적인 트리 식별자 생성 유닛(32)은 트리 구조 변환 유닛(31)에서 트리 구조로 변환되는 문서를 구성하는 각각의 태그에 대응하는 태그 식별자를 발생한다. 이 태그 식별자는 태그명, 포맷 속성명, 포맷 속성값으로 구성된다. 도 9의 일예에 있어서, 제1 "table" 태그는 태그명 "table" 및 포맷 속성값 'border=“O“ cellpadding=“1“'을 조합한 태그 식별자 "table_border=O&cellpadding=1"가 제공된다. 또한, 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다. 이러한 방법으로 얻은 태그 식별자는 그 태그를 태그의 뿌리로 갖는 부분적인 트리의 식별자로서 이용되고, 대응하는 트리 구조 대상과 정합된다. 그 후에, 도 9에 도시된 바와 같이, 부분적인 트리 식별자를 포함하는 트리 구조 데이터는 문서 구조화 유닛(13,43)으로 보내진다.
부분 식별 유닛(4)은 문서 검색 유닛(41), 부분적인 트리 식별자 식별 유닛 (42) 및 문서 구조화 유닛(43)으로 구성된다.
문서 검색 유닛(41)은 부분적인 트리 식별자 식별 유닛(42)으로부터 문서의 식별자인 URL 과 함께 문서 검색 요청을 수신한다. 이러한 문서 검색 요청 수신시, 그 문서 검색 유닛(41)은 인터넷으로부터 해당하는 문서를 취득하여, 그 취득 문서를 부분적인 트리 식별자 식별 유닛(42)으로 돌려준다.
부분적인 트리 식별자 식별 유닛(42)은 사용자로부터 부분 문서 ID와 함께부분 검색 요청을 수신하여, 부분 정보 저장 유닛(2)에 부분 문서 ID를 전달함으로써, 대응하는 URL과 부분적인 트리 식별자를 취득한다. 부분적인 트리 식별자 식별 유닛(42)은 문서 검색 유닛(41)에 그 URL을 전달하여 해당하는 문서를 취득한다. 그 취득한 문서를 구조화 하도록 문서 구조화 유닛(43)에 요청하고, 도 11에 도시된 바와 같이, 그 요청에 응답하여 트리 구조로 변환된 대상들의 목록을 취득한다. 부분적인 트리 식별자 식별 유닛(42)은 부분적인 트리 식별자에 대응하는 태그를 찾아서 그 취득된 효소들의 목록으로부터 하나의 태그를 추출한 다음, 그 추출된 태그에 속하는 부분적인 트리에 해당하는 문서 부분을 사용자에게 제공한다.
문서 구조화 유닛(43)은 문서 구조 분석 유닛(3)에 요청하여 부분적인 트리 식별자 식별 유닛(42)으로부터 받은 문서를 구조화 한 후에, 트리 구조로 변환된 문서를, 도 12에 도시된 바와 같이 트리 구조의 부모-자식 관계를 표현하는 데이터 구조로서 수신한다. 예컨대, 트리 구조를 구성하는 태그 및 텍스트의 대상은 객체 ID, 라벨, 자식 노드의 목록, 부분적인 트리 식별자로 표현된다. 이들 항목의 목록은 데이터 구조로서 수신된다.
이 후에는 전술한 시스템의 동작이 설명될 것이다.
도 13은 본 발명의 제1 실시예의 구조화 문서부터 정보를 추출하는 방법의 흐름도이다.
이 동작에서는, 부분 선택 프로세스(A), 부분 식별 프로세스(B) 및 문서 구조화 프로세스(M)를 포함한다. 이하는 이들 프로세스(A, B, M)를 단계별로 설명될 것이다.
우선, 부분 선택 프로세스(A)가 설명될 것이다.
단계(Al0)에 있어서, 문서 검색 유닛(11)이 URL에 대응하는 문서를 인터넷으로부터 취득하면, 부분 지정 유닛(12)은 사용자의 URL 지시에 응답하여, 그 취득된 문서를 문서 구조화 유닛(13)으로 전달하여 문서를 구조화한다. 이 절차는 단계(M10)로 이행한다.
단계(Ml0)에 있어서, 트리 구조 변환 유닛(31)은 문서 구조화 유닛(13)으로부터 구조화 문서를 취득하고, 문서 대상으로서 태그와 텍스트를 갖는 트리 구조로 그 취득된 구조화 문서를 변환하여, 부분적인 트리 식별자 생성 유닛(32)에 제공한 후에, 단계(M20)로 이행한다.
단계(M20)에 있어서, 부분적인 트리 식별자 생성 유닛(32)은 트리 구조 변환 유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그마다 태그 식별자를 생성한다. 이 태그 식별자는 태그명, 포맷 속성명, 및 포맷 속성의 값으로 구성된다. 도 9의 예로서, "table" 태그에는 태그명 "table" 및 그 포맷 속성의 값 'border=“O“, cellpadding=“1"'을 조합하는 태그 식별자 "table_border=O&cellpadding=1"가 제공된다. 또한, 2개 이상의 포맷 속성이 있는 경우, 이들 포맷 속성은 포맷 속성명을 소정의 순서로 정렬시켜 태그의 식별자를 정규화한다. 이러한 방법으로 취득된 태그 식별자는 부분적인 트리의 식별자로서 이용되고, 대응하는 트리 구조 대상에 정합한다. 도 9에 도시된 바와 같이, 부분적인 트리 식별자가 부여된 트리 구조 데이터는 문서 구조화 유닛(13)으로 보내진다.
단계(A20)에 있어서, 부분 지정 유닛(12)은, 도 7에 도시한 바와 같이, 문서부분을 용이하게 선택하는 수단을 사용자에게 제공하는 사용자 인터페이스를 통하여 사용자가 선택한 부분을 분리한다. 그 다음에 단계(A30)로 이행한다.
단계(A30)에 있어서, 부분 지정부(12)는 도 8에 도시하는 선택 영역의 좌표 등으로부터 선택된 부분에 대응하는 부분적인 트리 식별자를 취득한다. 이 취득한 부분적인 트리 식별자와 문서에 대응하는 URL은 부분 정보 저장 유닛(2)에 한 쌍으로 저장되고, 그 저장된 쌍에 해당하는 문서 부분 ID를 취득한다.
이 후에는 부분 식별 프로세스(B)가 설명될 것이다.
단계(Bl0)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 사용자로부터 부분 문서 ID와 함께 부분 검색 요청을 수신한다. 부분적인 트리 식별자 식별 유닛(42)은 그 문서 부분 ID를 부분 정보 저장 유닛(2)에 전달하여, 대응하는 URL과 부분적인 트리 식별자를 취득한다. 그 다음에는 단계(B20)로 이행한다.
단계(B20)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 그 취득한 URL에 대응하는 문서를 문서 취득부(41)를 통해 취득하고, 그 취득한 문서를 문서 구조화 유닛(43)에 전달하여, 문서의 구조화 요청을 발행한다. 그 다음에 단계(Ml0)로 이행한다.
단계(Ml0)에 있어서, 트리 구조 변환 유닛(31)은 문서 구조화 유닛(43)으로부터 구조화 문서를 수신하여, 그 수신 문서를 문서의 태그와 텍스트를 포함하는 트리 구조로 문서를 변환한다. 또 트리 구조 변환 유닛(31)은 그 트리 구조를 부분적인 트리 식별자 생성 유닛(32)에 전달한다. 그 다음에 단계(M20)로 이행한다.
단계(M20)에 있어서, 부분적인 트리 식별자 생성 유닛(32)은 트리 구조 변환유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그마다 태그 식별자를 발생한다. 그 태그 식별자는 태크명, 포맷 속성명, 및 포맷 속성의 값으로 구성된다. 도 9의 예로서, 그 "table" 태그에는 태그명 "table" 및 포맷 속성의 값 'border=“O“cellpadding=“1“'을 조합하는 포맷 식별자 "table_border=O&cellpadding= 1"가 제공된다. 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서대로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다. 이러한 방법으로 취득한 태그 식별자는 부분적인 트리 식별자로서 이용되고, 대응하는 트리 구조의 대상에 정합된다. 부분적인 트리 식별자가 부여된 도 9과 같은 트리 구조의 데이터는 문서 구조화 유닛(43)으로 전송된다. 그 다음에 단계(B30)로 이행한다.
단계(B30)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 도 11에 도시된 바와 같이 변환된 트리 구조의 대상 목록으로부터 취득한 부분적인 트리 식별자에 해당하는 태그를 검색한다. 해당하는 부분적인 트리 식별자를 검색하지 못하면, 그 절차는 종료한다. 해당하는 부분적인 트리 구조 식별자를 검색하면, 그 절차는 단계(B40)로 이행한다.
단계(B40)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 그 취득한 부분적인 트리 식별자에 대응하는 부분적인 트리에 속하는 문서 부분을 사용자에게 제공한다.
[제2의 실시예]
도 14은 본 발명의 제2의 실시예의 구조화 문서로부터 정보를 추출하는 시스템의 블록도이다.
도 14에 도시하는 시스템은, 선택된 부분적인 트리의 뿌리에 대응하는 태그와 포맷 속성의 동일한 조합이 문서의 다른 태그에 이용되어도, 선택된 부분을 일정하게 식별할 수 있는 구성에 관한 것이다.
본 발명의 제2 실시예의 구성 대상은 문서 구조 해석 유닛(3)의 부분적인 트리 식별자 생성 유닛(32a) 이외에 제1 실시예와 동일하기 때문에, 동일한 구성 대상에대한 설명은 생략될 것이다.
부분적인 트리 식별자 생성 유닛(32a)은 트리 구조 변환 유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그에 대응하는 태그 식별자를 발생한다. 이 태그 식별자는 태그명, 포맷 속성명, 및 포맷 속성의 값으로 구성된다. 도 15의 일예로서, 첫 번째의 "table" 태그는 태그명 "table" 및 포맷 속성의 값 'border=“O“ cellpadding=“1“'을 조합하는 태그 식별자 "table_border=O&ceppladding= 1"가 제공된다. 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다.
그 후에, 이 트리 구조의 동일 계층에 속하는 태그의 식별자의 연속 수를 나타내는 수치 색인이 발생된다. 태그 식별자 및 수치 색인은 쌍으로 세트를 생성하고, 복수의 세트는 전체 트리 구조의 뿌리로부터 부분적인 트리의 뿌리까지 연속적으로 접속되어, 도 15에 도시한 바와 같은 부분적인 트리의 식별자를 제공한다. 그 후에, 도 16에 도시된 바와 같이 부분적인 트리 식별자를 포함하는 트리 구조는 문서 구조화 유닛(13, 43)에 제공된다.
도 17은 본 발명의 제2의 실시예의 구조화 문서부터의 정보를 추출하는 방법의 흐름도이다.
이하에 있어서, 단계(M20a) 이외는 전술의 제1의 실시예와 동일하기 때문에 설명을 생략한다.
단계(M20a)에 있어서, 부분적인 트리 식별자 생성 유닛(32a)은 트리 구조 변환 유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그마다 태그 식별자를 발생한다. 이 태그 식별자는 태그명, 포맷 속성명 및 포맷 속성의 값으로 구성된다. 도 15의 예로서, 첫 번째 "table" 태그는 태그명 "table"과 포맷 속성값 ' border=“O“cellpadding=“1“'을 조합하는 태그 식별자 "table_border= O&cellpadding=1"를 제공한다. 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다. 그 다음에 단계(M30a)로 이행한다.
단계(M30a)에 있어서, 부분적인 트리 식별자 생성 유닛(32a)은 트리 구조의 동일계층에 속하는 태그 식별자의 연속 수를 나타내는 수치 색인을 생성하고, 각각의 태그 식별자와 해당하는 수치 색인을 세트으로 결합한다. 복수의 세트는 전체 트리 구조의 뿌리부터 부분적인 트리의 뿌리까지 연속적으로 접속되며, 이것에 의해 도 15에 도시한 바와 같은 부분적인 트리의 식별자를 제공한다. 그 다음에, 도 16에 도시된 바와 같이 부분적인 트리 식별자를 포함하는 트리 구조 데이터는 문서 구조화 유닛(13, 43)에 제공된다. 그 후에, 단계(A20) 또는 단계(B30)로 이행한다.
[제3의 실시예]
도 18은 본 발명의 제3 실시예의 구조화 문서부터의 정보를 추출하는 시스템의 블록도이다.
도 18의 시스템은 선택된 부분의 전방에 열려진 태그가 존재하는 경우에도, 부분 추출의 신뢰성이 떨어지는 것을 방지할 수 있다.
부분적인 트리 식별자 식별 유닛(42a)이외는, 전술의 제1의 실시예와 동일하기 때문에 설명을 생략한다.
부분적인 트리 식별자 식별 유닛(42a)은 사용자로부터 부분 문서 ID와 같이 부분 검색 요청을 수신하여, 부분 정보 저장 유닛(2)으로 부분 문서 ID를 전달하여, 대응하는 URL과 부분적인 트리 식별자를 취득한다. 문서 검색 유닛(41)으로 그 URL을 전달하여 해당하는 문서를 취득한다. 부분적인 트리 식별자 식별 유닛(42a)은 문서 구조화 유닛(43)에 요청하여, 도 16에 도시된 바와 같이 그 변환된 트리 구조의 대상 목록을 취득한다.
부분 정보 저장 유닛(2)에서 취득한 부분적인 트리 식별자는 그 취득한 대상의 부분적인 트리 식별자의 목록으로부터 식별되어야 한다. 그 식별자의 말단에 위치된 태그 식별자는 정합 목적으로 이용된다. 예컨대, "doc.table_border= 1&cellpadding= 1[O].table_border=O&cellpadding= 1[1]"의 경우에, 부분적인 트리 식별자의 말단의 태그 식별자는 그 스트링의 말단에 제공되는"table_border= O&cellpadding=1[1]"에 해당한다. 그 선택된 부분적인 트리의 후보가 복수 개 있는 경우, 그 태그 식별자와 관련된 수치 색인은 후보를 차단하기 위한 것이다.
또한, 태그 식별자의 수치 색인에 의해 후보를 차단한 후에도, 복수의 후보가 여전히 남아 있는 경우, 부모 노드 태그는 식별자의 정합을 고려한다. 이 식별자의 정합 실행은 단 하나의 부모 트리가 후보로서 남을 때까지 연속적으로 조상 노드로 올림을 반복한다. 이 나머지 트리는 선택된 부분적인 트리로서 식별된다. 이 식별된 부분적인 트리 식별자에 대응하는 부분적인 트리의 문서 부분을 사용자에게 제공한다.
도 19는 본 발명의 제3 실시예에 따라 구조화 문서부터 정보를 추출하는 방법의 흐름도이다. 이후에는 단계(B30a) 내지 단계(B90a) 이외에는 전술의 제1 실시예와 동일하기 때문에 설명을 생략할 것이다.
단계(B30a)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 도 16에 도시된 바와 같이 변환된 트리 구조의 대상 목록으로부터 부분 정보 저장 유닛(2)에서 취득한 부분적인 트리 식별자를 식별하는데 필요하다. 식별자의 말단에, 부분적인 트리 식별자 식별 유닛(42)은 식별자의 말단에 태그 식별자를 정합 대상으로 이용하여 선택한다. "doc.table_border=1&cellpadding=1[O].table_boder= O&cellpadding= 1[1]"의 경우에, 예컨대, 부분적인 트리 식별자의 말단의 태그 식별자로는 그 스트링의 말단에 제공된 "table_border=0&cellpadding=1[1]"이 해당한다. 이 태그 식별자를 선택한 후에, 단계(B40a)로 이행한다.
단계(B40a)에 있어서, 태그 식별자의 정합은 현재 선택된 태그 식별자에 관하여 수행된다. 그 취득된 부분적인 트리 식별자와 정합하는 후보가 2개 이상 있는 경우, 그 절차는 단계(B50a)로 이행한다. 대안으로, 단 하나의 후보가 있는 경우, 그 절차는 단계(B60a)로 이행한다. 또 후보가 없는 경우에는 종료한다.
단계(B50a)에 있어서, 후보의 차단은 태그 식별자와 관련된 수치 색인의 대조를 통하여 수행된다. 후보 차단 후에 2개 이상의 후보가 여전히 남아 있는 경우, 그 절차는 단계(B80a)로 이행한다. 대안으로, 단 하나의 후보가 남아 있는 경우에, 그 절차는 단계(B60a)로 이행한다. 후보가 없는 경우에는 종료한다.
단계(B60a)에 있어서, 그 취득된 부분적인 트리 식별자와 일치하는 후보가 단 하나인 경우, 이 후보 부분적인 트리는 선택된 부분적인 트리로서 식별되고, 그 후에 단계 (B70a)로 이행한다.
단계(B70a)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 그 취득한 부분 식별자에 대응하는 부분적인 트리의 문서 부분을 사용자에게 제공한다..
단계(B80a)에 있어서, 수치 색인에 의해 후보를 차단한 후에도, 2개 이상의 후보가 남아 있기 때문에, 다음 정합 대상을 상위 레벨로 올림으로서 선택된다. 다시 말해서, "doc.table_border=1&cellpadding=1[O].table_border=O&cellpadding= 1[1]"의 말단에 태그 식별자 "table_border=O&cellpadding=1[1]"를 처음에 이용하면, 부모의 태그 식별자 "table_border=1&cellpadding=1[O]"는 다음 정합 대상으로서 선택된다. 그 후에, 절차는 단계(B90a)로 이행한다.
단계(B90a)에 있어서, 정합 대상으로서 최상위 레벨에 있는 태그를 이용한 후에, 단계(B80a)에서 다음의 상위 레벨로 올려 보다 많은 정합 대상이 존재하는지에 대하여 점검한다. 보다 많은 정합 대상이 존재하지 않는 경우, 이 절차는 종료한다. 이와 반대로, 보다 많은 정합 대상이 존재하는 경우, 그 절차는 다시 단계 (B40a)로 돌아간다.
전술한 바와 같은 실시예들의 방법들은 정보 추출 장치로서 이용되는 컴퓨터에 설치된 프로그램으로 구현될 수 있으며, 이 프로그램은 네트워크를 통하여 유통될 수 있다.
이들 프로그램은 정보 추출 장치로서 이용된 컴퓨터에 접속되는 플렉시블 디스크, CD-ROM 등의 소거가능한 저장 매체 또는 하드디스크 드라이브에 저장 가능하고, 본 발명의 방법을 실시할 때에 메모리에 설치하는 것도 가능하다.
도 20은 사용자가 직관적으로 쉽게 이해하는 방법으로 HTML 문서 등의 구조화 문서의 일부분을 쉽게 선택하기 위하여 사용자에게 사용자 인터페이스를 제공하는 본 발명의 개략적인 흐름도이다.
본 발명은 HTML 문서 등의 구조화 문서의 일부분을 선택 및 추출하는 방법에 관한 것이다. 트리 구조의 말단에 있는 단부 노드는 문서를 디스플레이하는 스크린 상에 사용자가 지시하는 위치에 대응하여 식별된다(단계 1). 이 단부 노드로부터 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중 하나의 노드가 선택되도록 사용자는 요청받는다(단계 2). 그 다음, 사용자가 선택한 노드에 해당하는 구조화 문서의 일부분이 선택된다(단계 3).
도 21은 본 발명에 따른 사용자 인터페이스의 개략 블록도이다.
HTML 문서 등의 구조화 문서의 일부분을 선택하여 추출하는 장치는, 문서를 디스플레이한 스크린 상에 사용자가 지시한 위치에 대응하는 트리 구조의 단부 노드를 검출하는 노드 검출 유닛(101), 그 단부 노드로부터 상위 노드를 연속 검출하여 얻은 일련의 노드 중 하나를 선택하기 위하여 사용자에게 프롬프팅하는 선택 판정 유닛(102), 및 사용자 선택 노드에 해당하는 구조화 문서의 일부분을 선택하는 부분 선택 유닛(103)을 포함한다.
도 22는 본 발명의 일 실시예에 따른 장치의 블록도이다.
구조화 문서의 일부분을 선택하고 추출하는 장치(100)는, 선택된 부분 표시 유닛(111)을 내장한 디스플레이 제어 유닛(110), 입력 유닛(120), 트리 구조 생성 유닛(130), 및 디스플레이 부분 저장 유닛(140)을 포함한다. 디스플레이 장치 (10)와 입력 장치(20)는 장치(100)에 접속된다.
디스플레이 장치(10)는 브라우저에 의해 처리되는 HTML 텍스트 및 이미지를 디스플레이한다.
입력 장치(20)는 버튼 동작 등을 통하여 사용자가 지정한 정보를 수신한다. 이 버튼 동작에는 영역 확대(+), 크기 축소(-), 소거(clear) 및 선택(select) 동작을 포함한다.
디스플레이 제어 유닛(110)의 선택된 부분 표시 유닛(111)은 다양한 레벨의 트리 구조에 있는 객체 중에서 사용자 버튼 동작으로 선택한 객체를 디스플레이한다. 사용자가 선택한 소정의 부분은, 예를 들면 디스플레이 부분 저장 유닛(140)에 HTML 텍스트로서 저장된다.
입력 유닛(120)은 입력 장치(20)로부터 사용자 입력(버튼 동작을 통한 입력)을 수신하여, 그 입력 정보를 트리 구조 생성 유닛(130) 및 선택된 부분 표시 유닛 (111)에 전달한다.
트리 구조 생성 유닛(130)은 HTML 문서의 전체 트리 구조를 구성하는 객체중 사용자가 클릭한 위치에 있는 객체를 선택하는 것에 의해 그 객체를 검색한다. 이 검색된 객체는 객체들의 어레이에 저장된다.
도 23은 본 발명의 일 실시예에 따라 일부분을 선택하고 추출하는 방법의 흐름도이다.
단계(110)에서는 처리될 HTML 문서가 사용자 단말기의 브라우저 윈도우에 디스플레이된다. 단계(120)에서, 사용자는 스크린 상에서 그가 선택하길 원하는 부분을 클릭한다. 단계(130)에서, 트리 구조 생성 유닛(130)은 HTML 트리 구조를 구성하는 객체 중 클릭 위치에 해당하는 객체를 추출한다. 그 추출 객체에 해당하는 직사각형 영역은 도 24에 도시된 바와 같이 스크린에 표시되는 문서에 표시된다.
사용자가 그 표시 부분을 그가 선택한 부분으로서 판정하는 경우, 그 표시 부분은 디스플레이 부분 저장 유닛(140)에 HTML 텍스트로 저장된다(단계 160). 그후에 그 문서의 표시는 없어진다(단계 180). 사용자가 그 표시 부분을 선택하지 않으면, 사용자는 스크린에 도시된 버튼을 동작시켜 그 표시 영역을 확대(+), 축소(-) 또는 소거(clear)할 수 있다(단계 170). 이러한 버튼 동작을 통하여, 트리 구조의 상위 레벨 또는 하위 레벨의 객체들이 연속적으로 디스플레이된다. 그 스크린에 원하는 부분을 표시한 경우에, 단계(150)에서 그 표시 부분은 선택 버튼(select)에 의해 선택된다. 이 선택된 부분은 디스플레이 부분 저장 유닛(140)에 HTML 텍스트로서 저장된다(단계 160).
전술한 절차는 브라우저에 의해 실행될 수 있다. 이러한 경우에, 처리되는 HTML에는 자바 스크립트(Java Script)로 쓰여진 추가적인 스크립트가 제공되며, 이는 브라우저에 제공된다.
이후에, 트리 구조 생성 유닛(130)의 동작이 설명될 것이다.
도 25는 본 발명의 일 실시예에 따른 트리 구조 생성 장치의 동작을 도시하는 흐름도이다.
어레이가 시작된다(단계 131). 클릭 위치에 있는 객체를 검출하여(단계 132), 그 어레이에 저장한다(단계 133). 여기서, 객체는 HTML 문서의 일부분이며, 트리 구조의 각 노드에 해당한다. 스크린 상에는 각각의 객체가 속하는 영역들이 있다. 도 29의 예로서, 트리 구조는 총 13개의 노드로 구성된다. 그 검출된 객체가 부모 객체를 갖는 경우(단계 134에서 YES), 이 부모 객체도 동일한 클릭 위치의 객체로서 어레이에 저장된다(단계 133). 이러한 절차는 모든 객체층에 관하여 수행되어, 그 클릭 위치에 해당하는 객체 어레이를 발생한다. 도 29의 "apple"을 클릭하면 객체 "k, j, i, h, f, e, d, 및 a"에 기인하며, 이 객체들은 어레이 a에 저장될 것이다.
이 어레이의 각 대상이 점검된다(단계 135). 이것은 스크린 상의 객체 모양중 서로 구별될 수 없는 최상위 레벨의 객체를 선택하기 위한 것이다. 이러한 케이스는 한 객체의 텍스트와 이미지 뿐만 아니라 그 객체에 해당하는 텍스트와 영역이 다른 객체와 일치할 때 발생한다.
다음 대상이 있으면, 그 다음 대상의 텍스트가 다른지 여부를 점검한다(단계 137). 그 다음 대상의 텍스트가 다르면, 그 객체는 어레이(b)에 저장된다(단계 138). 그 다음에, 다음 대상이 있는지 여부에 대하여 다시 점검한다(단계 136). 다음 대상이 없으면, 그 객체는 어레이(b)에 저장된다(단계 139). 이것으로, 이 절차는 종료한다.
이러한 방법으로, 그 객체의 어레이(b)는 이들 객체가 클릭 위치에 해당하는지를 취득하여, 스크린 상에서 서로 구별할 수 있다.
도 29의 예로서, "k"와 "j"는 이들의 동일한 텍스트 "apple"을 갖고, 상위 레벨에 있는 "j"는 어레이(b)에 저장된다. "i"와 "h"는 이들의 동일한 텍스트 "apple" 및 "orange"를 갖고, 상위 레벨에 있는 "h"는 어레이(b)에 저장된다. 이러한 예에서, "i", "h" 및 "a"는 어레이(b)에 저장될 것이다.
이후에, 그 선택된 부분 표시 장치(111)가 설명될 것이다.
도 26은 본 발명의 일 실시예에 따라 선택된 부분 표시 장치(111)의 동작 흐름도이다.
디스플레이될 객체를 선택한다(단계 141). 시작 프리젠테이션의 경우에는 어레이(b)의 현재의 대상이 선택될 것이다. 확대 프리젠테이션의 경우에는 현재 대상보다 높은 다음 어레이(b)의 대상이 선택될 것이다. 축소 크기 프리젠테이션의 경우에는 현재 대상보다 낮은 다음 어레이(b)의 대상이 선택될 것이다.
시작 프리젠테이션에서, 객체 어레이(b)의 최하위 레벨 객체에 대응하는 직사각형 형상이 추출된다(단계 142). 이 추출된 직사각형은 도 24에 도시된 바와 같이 스크린 상에 중첩된다(단계 143). 도 24에 도시된 버튼 중에서, 확대 버튼"+"은 현재 선택된 영역에 해당하는 객체보다 높은 다음 객체를 선택함으로써, 스크린 상에 겹쳐지는 새롭게 선택된 객체의 직사각형을 만든다. 동일 토큰(token)에 의해,크기 축소 버튼 "-"은 다음으로 낮은 객체를 선택할 것이다. 도 29의 예에 관해서, 직사각형 영역은 도 27에 도시된 바와 같이 어레이(b)로부터 선택된 해당 객체의 디스플레이 상에 중첩된다.
이 후에, 시스템의 전체 구성이 설명될 것이다.
도 28은 본 발명의 일 실시예에 따른 시스템의 구성을 도시하는 설명도이다.
도 28에 도시된 시스템은 사용자 클라이언트 단말기(100)(구조화 문서로부터 일부분을 선택하여 추출하는 장치)와, 릴레이 서버(200)와, 처리할 HTML 문서를 저장하는 서버(300)를 포함한다.
처리할 HTML 문서에 관하여, 릴레이 서버(200) "http://www.myserv.com/cgi -bin/get.cgi?http:/www.foo.com/doc/html"에 의해 전술한 동작은 " http:/www.foo .com/doc/html"을 도시하는 동일한 스크린 상에서 수행될 수 있다.
다음과 같은 설명에 있어서, "()"의 공백 수는 도 28의 "()"의 각 공백 수에 해당한다.
(1) 클라이언트 단말기(100)로부터, 사용자는 처리될 HTML 문서의 URL을 참조하여 릴레이 서버(200)의 CGI를 시작한다.
(2) 릴레이 서버(200)는 URL을 이용하여 서버(300)에 요청한다.
(3) 서버(300)는 HTML 문서를 릴레이 서버(200)로 전송한다.
(4) 릴레이 서버(200)는 잡 스크립트(job script)를 서버(300)로부터 얻는 HTML 문서의 단부에 부가한다.
(5) 릴레이 서버(200)는 HTML 문서를 클라이언트 단말기(100)로 전송하며,그 HTML 문서는 문서 부분을 선택하여 추출하는 첨부 기능을 갖는다.
이러한 방법으로, 클라이언트 단말기(100)는 문서 부분을 선택하고 추출하는 첨부 기능으로 HTML 문서를 처리할 수 있다.
이러한 실시예에 기술된 구조화 문서 부분을 선택하고 추출하는 장치의 구성 대상은 컴퓨터에 설치되는 프로그램으로 구현될 수 있으며, 이 컴퓨터는 구조화 문서 부분을 선택하고 추출하는 장치로 이용된다. 이 프로그램은 네트워크를 통하여 유통될 수 있다.
이 프로그램들은 구조화 문서 부분을 선택하여 추출하는 장치로서 이용된 컴퓨터에 접속되는 플렉시블 디스크, CD-ROM 등의 소거가능한 저장 매체 또는 하드디스크 드라이브에 저장될 수 있으며, 본 발명의 방법을 실시할 때에 메모리에 설치하는 것도 가능하다.
또, 본 발명은 이러한 실시예에 한정됨이 없이, 본 발명의 범위를 벗어남이 없이 다양한 수정 및 변경이 가능할 것이다.
본원 발명은 일본 특허청에 2002년 6월 28일에 출원된 일본 우선권 출원 제2002-190621호 및 2002년 7월 12일 출원된 일본 우선권 출원 제2002-204641호를 기초로 하였으며, 그 모든 내용은 본원에 참조된다.
전술한 바와 같이, 본 발명에 따르면, 부분적인 트리의 식별시 2개 이상의 정합하는 부분적인 트리가 있는 경우, 그 식별자 정합은 다음의 보다 높은 부모 노드로 연속적으로 올림으로써 반복하여 수행되고, 이것에 의해서, 그 선택된 부분위에 부주위하게 열려져있는 태그가 있을 지라도, 부분 추출의 신뢰성이 떨어지는 것을 피할 수 있다.

Claims (36)

  1. 구조화 문서의 임의의 부분을 사전에 선택하고, 갱신된 구조화 문서로부터 그 선택된 부분을 식별하기 위하여 트리 구조로 변환되는 구조화 문서로서, 상기 선택된 부분이 선택된 부분적인 트리에 대응되는 구조화 문서로부터 정보를 추출하는 정보 추출 방법에 있어서,
    상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도 하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 선택된 부분적인 트리에 할당하는 단계;
    상기 태그의 상기 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및
    상기 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 상기 선택된 부분적인 트리의 상기 부분적인 트리 식별자와 동일한 부분적인 트리 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  2. 제1항에 있어서,
    상기 구조화 문서의 복수의 태그는, 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,
    상기 정보 추출 방법은,
    상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각의 연속적인 수를 나타내는 수치 색인을 생성하는 단계; 및
    태그 식별자와 수치 색인을 한 개의 셋트(set)로 결합하고, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 방법.
  3. 제2항에 있어서,
    상기 부분적인 트리 식별 단계는,
    상기 부분적인 트리 식별자의 일단에 위치되는 태그 식별자만을 대조하여, 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 정합하는 단계;
    상기 정합 단계 후에 부분적인 트리 식별자의 후보(candidate)가 2개 이상 남아 있는 경우, 상기 부분적인 트리 식별자의 수치 색인을 대조하여, 후보를 차단(screen)하는 단계;
    상기 차단 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 정합에 이용하기 위하여 다음의 상위 태그로 연속적으로 올려서 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 반복하여 정합하는 단계; 및
    상기 부분적인 트리 식별자를 반복하여 정합하는 단계 후에 단독으로 남아 있는 부분적인 트리를 상기 선택된 부분적인 트리로서 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법
  4. 제1항에 있어서,
    상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 대응하는 상기 트리 구조의 단부 노드를 검출하는 단계;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및
    사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 방법.
  5. 컴퓨터를 실행시켜, 구조화 문서의 임의의 부분을 사전에 선택하고, 갱신된 구조화 문서로부터 그 선택된 부분을 식별하기 위하여 트리 구조로 변환되는 구조화 문서로서, 상기 선택된 부분이 선택된 부분적인 트리에 대응되는 구조화 문서로부터 정보를 추출하도록 하는 프로그램에 있어서,
    상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도 하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 선택된 부분적인 트리에 할당하는단계;
    상기 태그의 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및
    상기 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 동일한 부분적인 트리의 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 프로그램.
  6. 제5항에 있어서,
    상기 구조화 문서의 복수의 태그는 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,
    상기 프로그램은,
    상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각의 연속적인 수를 나타내는 수치 색인을 생성하는 단계; 및
    상기 태그 식별자와 상기 수치 색인을 한 개의 세트로 결합하고, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 프로그램.
  7. 제6항에 있어서,
    상기 부분적인 트리 식별 단계는,
    상기 부분적인 트리 식별자의 일단에 위치되는 태그 식별자만을 대조하여, 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 정합하는 단계;
    상기 정합 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 부분적인 트리 식별자의 수치 색인을 대조하여, 후보를 차단하는 단계;
    상기 차단 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 정합에 이용하기 위하여 다음의 상위 태그로 연속적으로 올려서 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 반복하여 정합하는 단계; 및
    상기 부분적인 트리 식별자를 반복적으로 정합하는 단계 후에 단독으로 남아 있는 부분적인 트리를 상기 선택된 부분적인 트리로서 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 프로그램.
  8. 제5항에 있어서,
    상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시된 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및
    사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 프로그램.
  9. 컴퓨터를 실행시켜, 구조화 문서의 임의의 부분을 사전에 선택하고, 갱신된 구조화 문서로부터 그 선택된 부분을 식별하기 위하여 트리 구조로 변환되는 구조화 문서로서, 상기 선택된 부분이 선택된 부분적인 트리에 대응되는 구조화 문서로부터 정보를 추출하도록 하는 프로그램이 내장되는 컴퓨터 판독 가능한 기록 매체에 있어서,
    상기 프로그램은,
    상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도 하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 선택된 부분적인 트리에 할당하는 단계;
    상기 태그의 상기 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및
    상기 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 동일한 부분적인 트리의 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  10. 제9항에 있어서,
    상기 구조화 문서의 복수의 태그는 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,
    상기 프로그램은,
    상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각의 연속적인 수를 나타내는 수치 색인을 생성하는 단계; 및
    태그 식별자와 수치 색인을 한 개의 세트로 결합하고, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  11. 제10항에 있어서,
    상기 부분적인 트리 식별 단계는,
    상기 부분적인 트리 식별자의 일단에 위치되는 태그 식별자만을 대조하여, 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 정합하는 단계;
    상기 정합 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 부분적인 트리 식별자의 수치 색인을 대조하여, 후보를 차단하는 단계;
    상기 차단 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 정합에 이용하기 위하여 다음의 상위 태그로 연속적으로 올려서 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 반복하여 정합하는 단계; 및
    상기 부분적인 트리 식별자를 반복적으로 정합하는 단계 후에 단독으로 남아 있는 부분적인 트리를 상기 선택된 부분적인 트리로서 식별하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  12. 제9항에 있어서,
    상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 대응하는 상기 트리 구조의 단부 노드를 검출하는 단계;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및
    사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 단계;를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  13. 구조화 문서로부터 정보를 추출하는 장치로서,
    상기 구조화 문서를 트리 구조로 변환하는 트리 구조 변환 유닛; 및
    상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 트리 구조의 부분적인 트리에 할당하는 부분적인 트리 식별자 생성 유닛;을 포함하는 것을 특징으로 하는 정보 추출 장치.
  14. 제13항에 있어서,
    상기 부분적인 트리 식별자 생성 유닛은, 상기 태그의 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬하는 것을 특징으로 하는 정보 추출 장치.
  15. 제13항에 있어서,
    상기 구조화 문서의 복수의 태그는 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,
    상기 부분적인 트리 식별자 생성 장치는 상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각 연속적인 수를 나타내는 수치 색인을 생성하며, 태그 식별자와 수치 색인을 하나의 세트로 결합한 다음, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 것을 특징으로 하는 정보 추출 장치.
  16. 제13항에 있어서,
    상기 구조화 문서를 디스플레이하는 스크린에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 노드 검출 유닛;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 선택 판정 유닛; 및
    사용자가 선택한 상기 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 부분 선택 유닛;을 더 포함하는 것을 특징으로 하는 정보 추출 장치.
  17. 구조화 문서의 일부분을 선택하고 추출하는 방법으로서,
    상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및
    사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 선택하여 추출하는 단계;를 포함하는 것을 특징으로 하는 방법.
  18. 제17항에 있어서,
    상기 사용자에게 프롬프팅하는 단계는,
    상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하는 단계;
    노드 선택을 변경함으로써 원하는 영역을 선택하기 위해 사용자에게 프롬프팅하는 단계; 및
    상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하는 단계;를 포함하고,
    상기 구조화 문서의 일부분을 선택하여 추출하는 단계는, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 방법.
  19. 제18항에 있어서,
    상기 노드를 판정하는 단계는,
    상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 방법.
  20. 제18항에 있어서,
    상기 노드를 판정하는 단계는,
    상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는단계;를 포함하는 것을 특징으로 하는 방법.
  21. 제17항에 있어서,
    사용자가 지정한 URL이 지적한 구조화 문서를 릴레이 서버로 전달하는 단계;
    상기 릴레이 서버에서 상기 구조화 문서에 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 부착하는 단계; 및
    상기 부착된 스크립트를 갖는 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 단계;를 더 포함하고,
    상기 검출 단계, 프롬프팅 단계 및 선택 단계는 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 실행되는 것을 특징으로 하는 방법.
  22. 구조화 문서의 일부분을 선택하고 추출하는 장치로서,
    상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 노드 검출 유닛;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 선택 판정 유닛; 및
    사용자가 선택한 상기 노드에 해당하는 상기 구조화 문서의 일부분을 선택하여 추출하는 부분 추출 유닛;을 포함하는 것을 특징으로 하는 장치.
  23. 제22항에 있어서,
    상기 선택 판정 장치는, 상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하고, 노드 선택을 변경하는 것에 의해 원하는 영역을 선택하기 위해 사용자에게 프롬프팅한 다음, 상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하며,
    상기 부분 선택 유닛은, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 장치.
  24. 제23항에 있어서,
    상기 판정 유닛은, 상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 것을 특징으로 하는 장치.
  25. 제23항에 있어서,
    상기 판정 유닛은, 상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 것을 특징으로 하는 장치.
  26. 제22항에 있어서,
    사용자가 지정한 URL에 의하여 지시된 상기 구조화 문서를 릴레이 서버로 전달하는 유닛;
    상기 릴레이 서버에서 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 상기 구조화 문서에 부착하는 유닛; 및
    상기 부착된 스크립트를 갖는 상기 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 유닛;을 더 포함하고,
    상기 노드 검출 유닛, 상기 선택 판정 유닛 및 상기 부분 선택 유닛은 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 동작되는 것을 특징으로 하는 장치.
  27. 구조화 문서의 일부분을 선택하고 추출하는 프로그램으로서,
    상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및
    사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 선택하여 추출하는 단계;를 포함하는 것을 특징으로 하는 프로그램.
  28. 제27항에 있어서,
    상기 사용자에게 프롬프팅하는 단계는,
    상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하는 단계;
    노드 선택을 변경함으로써 원하는 영역을 선택하기 위해 사용자에게 프롬프팅하는 단계; 및
    상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하는 단계;를 포함하고,
    상기 구조화 문서의 일부분을 선택하여 추출하는 단계는, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 프로그램.
  29. 제28항에 있어서,
    상기 노드를 판정하는 단계는,
    상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 프로그램.
  30. 제28항에 있어서,
    상기 노드를 판정하는 단계는,
    상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는단계;를 포함하는 것을 특징으로 하는 프로그램.
  31. 제27항에 있어서,
    사용자가 지정한 URL이 지적한 구조화 문서를 릴레이 서버로 전달하는 단계;
    상기 릴레이 서버에서 상기 구조화 문서에 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 부착하는 단계; 및
    상기 부착된 스크립트를 갖는 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 단계;를 더 포함하고,
    상기 검출 단계, 프롬프팅 단계 및 선택 단계는 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 실행되는 것을 특징으로 하는 프로그램.
  32. 컴퓨터가 구조화 문서의 일부분을 선택하고 추출하도록 구현된 프로그램을 내장한 컴퓨터 판독가능한 매체에 있어서,
    상기 프로그램은,
    상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;
    상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및
    사용자가 선택한 노드에 해당하는 구조화 문서의 일부분을 선택하여 추출하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  33. 제32항에 있어서,
    상기 사용자에게 프롬프팅하는 단계는,
    상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하는 단계;
    노드 선택을 변경함으로써 원하는 영역을 선택하기 위해 사용자에게 프롬프팅하는 단계; 및
    상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하는 단계;를 포함하고,
    상기 구조화 문서의 일부분을 선택하여 추출하는 단계는, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  34. 제33항에 있어서,
    상기 노드를 판정하는 단계는,
    상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  35. 제33항에 있어서,
    상기 노드를 판정하는 단계는,
    상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
  36. 제32항에 있어서,
    사용자가 지정한 URL에 의하여 지적된 구조화 문서를 릴레이 서버로 전달하는 단계;
    상기 릴레이 서버에서 상기 구조화 문서에 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 부착하는 단계; 및
    상기 부착된 스크립트를 갖는 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 단계;를 더 포함하고, 상기 검출 단계, 프롬프팅 단계 및 선택 단계는 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 실행되는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
KR1020030042628A 2002-06-28 2003-06-27 구조화 문서부터의 정보 추출 KR100572576B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JPJP-P-2002-00190621 2002-06-28
JP2002190621A JP3937944B2 (ja) 2002-06-28 2002-06-28 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
JPJP-P-2002-00204641 2002-07-12
JP2002204641A JP2004046642A (ja) 2002-07-12 2002-07-12 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
KR20040002791A true KR20040002791A (ko) 2004-01-07
KR100572576B1 KR100572576B1 (ko) 2006-04-24

Family

ID=29718460

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030042628A KR100572576B1 (ko) 2002-06-28 2003-06-27 구조화 문서부터의 정보 추출

Country Status (5)

Country Link
US (2) US7685157B2 (ko)
EP (2) EP1686499B1 (ko)
KR (1) KR100572576B1 (ko)
CN (1) CN1244877C (ko)
DE (2) DE60314806T2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902674B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 문서 탐색 서비스 제공 방법 및 시스템

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1686499B1 (en) * 2002-06-28 2010-06-30 Nippon Telegraph and Telephone Corporation Selection and extraction of information from structured documents
WO2004068320A2 (en) * 2003-01-27 2004-08-12 Vincent Wen-Jeng Lue Method and apparatus for adapting web contents to different display area dimensions
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
GB2411017A (en) * 2004-02-13 2005-08-17 Satellite Information Services Updating mark-up language documents from contained instructions
WO2005114494A1 (en) * 2004-05-21 2005-12-01 Computer Associates Think, Inc. Storing multipart xml documents
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法
EP1681643B1 (en) * 2005-01-14 2010-05-05 TheFind, Inc. Method and system for information extraction
CN100395755C (zh) * 2006-02-23 2008-06-18 无锡永中科技有限公司 计算机中建立树状文件结构的方法
US20070266309A1 (en) * 2006-05-12 2007-11-15 Royston Sellman Document transfer between document editing software applications
US9460064B2 (en) * 2006-05-18 2016-10-04 Oracle International Corporation Efficient piece-wise updates of binary encoded XML data
CN101094194B (zh) * 2006-06-19 2010-06-23 腾讯科技(深圳)有限公司 一种提取Web页面中用户所需Web信息的方法
JP4146479B2 (ja) * 2006-09-28 2008-09-10 株式会社東芝 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
JP2008108096A (ja) * 2006-10-26 2008-05-08 Sony Corp コンテンツ共有システム、コンテンツ管理サーバ、クライアント機器、コンテンツ管理方法およびコンテンツ取得方法
US8291310B2 (en) * 2007-08-29 2012-10-16 Oracle International Corporation Delta-saving in XML-based documents
US20090138500A1 (en) * 2007-10-12 2009-05-28 Yuan Zhiqiang Method of compact display combined with property-table-view for a complex relational data structure
US8515727B2 (en) * 2008-03-19 2013-08-20 International Business Machines Corporation Automatic logic model build process with autonomous quality checking
CN101571859B (zh) * 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备
JP2010165272A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理方法、情報処理装置、及びプログラム
WO2011041465A1 (en) * 2009-09-30 2011-04-07 Tracking.Net Enhanced website tracking system and method
US8255372B2 (en) 2010-01-18 2012-08-28 Oracle International Corporation Efficient validation of binary XML data
US9633332B2 (en) 2010-07-13 2017-04-25 Hewlett Packard Enterprise Development Lp Generating machine-understandable representations of content
JP4936413B1 (ja) * 2011-03-07 2012-05-23 株式会社ショーケース・ティービー ウェブ表示プログラム変換システム、ウェブ表示プログラム変換方法、及び、ウェブ表示プログラム変換用プログラム
US10756759B2 (en) 2011-09-02 2020-08-25 Oracle International Corporation Column domain dictionary compression
US8935267B2 (en) * 2012-06-19 2015-01-13 Marklogic Corporation Apparatus and method for executing different query language queries on tree structured data using pre-computed indices of selective document paths
US10275398B2 (en) 2012-09-11 2019-04-30 Nippon Telegraph And Telephone Corporation Content display device, content display method, and content display program
US8812523B2 (en) 2012-09-28 2014-08-19 Oracle International Corporation Predicate result cache
US9740765B2 (en) 2012-10-08 2017-08-22 International Business Machines Corporation Building nomenclature in a set of documents while building associative document trees
US9208254B2 (en) * 2012-12-10 2015-12-08 Microsoft Technology Licensing, Llc Query and index over documents
US10454752B2 (en) 2015-11-02 2019-10-22 Servicenow, Inc. System and method for processing alerts indicative of conditions of a computing infrastructure
JP2019066917A (ja) * 2017-09-28 2019-04-25 京セラドキュメントソリューションズ株式会社 電子機器、及び翻訳支援方法
US10922366B2 (en) * 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
US20220277499A1 (en) * 2019-08-13 2022-09-01 Arbi, Inc. Systems and methods for document processing
US11194833B2 (en) * 2019-10-28 2021-12-07 Charbel Gerges El Gemayel Interchange data format system and method
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111857737A (zh) * 2020-07-28 2020-10-30 苏州华望信息科技有限公司 基于SysML模型语义web系统的动静态资源分离方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713821B2 (ja) 1991-03-08 1995-02-15 日本電気株式会社 編集装置
JPH0652161A (ja) * 1992-08-03 1994-02-25 Fuji Xerox Co Ltd 文書処理方法及び文書処理装置
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
US6546406B1 (en) * 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
US6456308B1 (en) * 1996-08-08 2002-09-24 Agranat Systems, Inc. Embedded web server
US6061697A (en) * 1996-09-11 2000-05-09 Fujitsu Limited SGML type document managing apparatus and managing method
US5974572A (en) * 1996-10-15 1999-10-26 Mercury Interactive Corporation Software system and methods for generating a load test using a server access log
JPH10171800A (ja) 1996-12-05 1998-06-26 Canon Inc 文書処理方法及びその装置
JP2867986B2 (ja) 1996-12-25 1999-03-10 日本電気株式会社 Www情報抽出システム
JPH1185690A (ja) 1997-09-08 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 有効情報提供方法及び有効情報提供システム
US6628304B2 (en) * 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6635089B1 (en) * 1999-01-13 2003-10-21 International Business Machines Corporation Method for producing composite XML document object model trees using dynamic data retrievals
JP4280360B2 (ja) 1999-06-04 2009-06-17 キヤノン株式会社 撮像装置及びその制御方法及び記憶媒体
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
JP2001282773A (ja) 2000-03-29 2001-10-12 Hitachi Software Eng Co Ltd 構造化文書編集装置及び、構造化文書編集方法及び記録媒体
US7702995B2 (en) * 2000-04-24 2010-04-20 TVWorks, LLC. Method and system for transforming content for execution on multiple platforms
DE60111376T2 (de) * 2000-05-16 2006-03-16 O'carroll, Garrett System und verfahren zur dokumentverarbeitung
JP2002024227A (ja) * 2000-05-22 2002-01-25 Touuroomu Inc 無線ウェブページを生成するシステム及び方法
US6732153B1 (en) * 2000-05-23 2004-05-04 Verizon Laboratories Inc. Unified message parser apparatus and system for real-time event correlation
US20020029229A1 (en) * 2000-06-30 2002-03-07 Jakopac David E. Systems and methods for data compression
US6678692B1 (en) * 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
US6842755B2 (en) * 2000-09-25 2005-01-11 Divine Technology Ventures System and method for automatic retrieval of structured online documents
JP2002190621A (ja) 2000-10-12 2002-07-05 Sharp Corp 半導体発光素子およびその製造方法
JP2002123418A (ja) 2000-10-13 2002-04-26 Nec Corp データ更新方法及びデータ更新装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6961909B2 (en) * 2001-01-05 2005-11-01 Hewlett-Packard Development Company, L.P. System for displaying a hierarchical directory
JP2002204641A (ja) 2001-01-10 2002-07-23 Shimano Inc スピニングリールのドラグ機構
US6704723B1 (en) * 2001-06-20 2004-03-09 Microstrategy, Incorporated Method and system for providing business intelligence information over a computer network via extensible markup language
US6799184B2 (en) * 2001-06-21 2004-09-28 Sybase, Inc. Relational database system providing XML query support
US20030220914A1 (en) * 2002-05-23 2003-11-27 Mindflash Technologies, Inc. Method for managing data in a network
EP1686499B1 (en) * 2002-06-28 2010-06-30 Nippon Telegraph and Telephone Corporation Selection and extraction of information from structured documents
US20050125419A1 (en) * 2002-09-03 2005-06-09 Fujitsu Limited Search processing system, its search server, client, search processing method, program, and recording medium
US7644361B2 (en) * 2002-12-23 2010-01-05 Canon Kabushiki Kaisha Method of using recommendations to visually create new views of data across heterogeneous sources
WO2004068320A2 (en) * 2003-01-27 2004-08-12 Vincent Wen-Jeng Lue Method and apparatus for adapting web contents to different display area dimensions
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902674B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 문서 탐색 서비스 제공 방법 및 시스템

Also Published As

Publication number Publication date
US20040044963A1 (en) 2004-03-04
CN1469276A (zh) 2004-01-21
CN1244877C (zh) 2006-03-08
US20050066271A1 (en) 2005-03-24
DE60314806D1 (de) 2007-08-23
EP1376408A2 (en) 2004-01-02
EP1376408A3 (en) 2005-10-12
EP1686499B1 (en) 2010-06-30
EP1686499A8 (en) 2006-11-08
US7685157B2 (en) 2010-03-23
US7730104B2 (en) 2010-06-01
EP1376408B1 (en) 2007-07-11
KR100572576B1 (ko) 2006-04-24
DE60333238D1 (de) 2010-08-12
EP1686499A3 (en) 2007-12-12
DE60314806T2 (de) 2008-03-13
EP1686499A2 (en) 2006-08-02

Similar Documents

Publication Publication Date Title
KR100572576B1 (ko) 구조화 문서부터의 정보 추출
US6732102B1 (en) Automated data extraction and reformatting
JP4350744B2 (ja) 地域情報検索結果の提供方法およびシステム
US20090019386A1 (en) Extraction and reapplication of design information to existing websites
US9032285B2 (en) Selective content extraction
US6408297B1 (en) Information collecting apparatus
US20020065814A1 (en) Method and apparatus for searching and displaying structured document
US20170192938A1 (en) User interface with navigation controls for the display or concealment of adjacent content
JP2004102803A (ja) 掲示板システム及び情報表示方法
US20090222298A1 (en) Data Mining Method for Automatic Creation of Organizational Charts
JP4830637B2 (ja) 電子文書更新通知装置及び電子文書更新通知方法
JP2008015709A (ja) テスト支援プログラム、テスト支援装置、およびテスト支援方法
US20050149853A1 (en) Document display program and method
CN101894109A (zh) 一种数据库建立方法和装置
US20110197133A1 (en) Methods and apparatuses for identifying and monitoring information in electronic documents over a network
EP1100023A2 (en) Contents update state monitoring method, apparatus and program
JP2005025620A (ja) 文書更新通知装置及び文書更新通知方法及び文書更新通知装置の制御プログラム
CA2242504C (en) Network information searching apparatus and network information searching method
US7559018B2 (en) Computer-implemented system and method for data collection
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
US11570230B1 (en) System and method for creating a protocol-compliant uniform resource locator
JP3725087B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法
JP3937944B2 (ja) 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
JP2023119473A (ja) 情報処理装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
E902 Notification of reason for refusal
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130312

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140306

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150305

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160401

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180410

Year of fee payment: 13