KR20040002791A

KR20040002791A - 구조화 문서부터의 정보 추출

Info

Publication number: KR20040002791A
Application number: KR1020030042628A
Authority: KR
Inventors: 우찌야마타다스; 미야모토마사루
Original assignee: 니뽄 덴신 덴와 가부시키가이샤
Priority date: 2002-06-28
Filing date: 2003-06-27
Publication date: 2004-01-07
Also published as: US20040044963A1; CN1469276A; CN1244877C; US20050066271A1; DE60314806D1; EP1376408A2; EP1376408A3; EP1686499B1; EP1686499A8; US7685157B2; US7730104B2; EP1376408B1; KR100572576B1; DE60333238D1; EP1686499A3; DE60314806T2; EP1686499A2

Abstract

본 발명에 따른 구조화 문서로부터 정보를 추출하는 방법은 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 태그의 적어도 하나의 포맷 속성명, 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 선택된 부분적인 트리에 할당하는 단계; 태그의 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 선택된 부분적인 트리의 부분적인 트리 식별자와 동일한 부분적인 트리의 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함한다.

Description

구조화 문서부터의 정보 추출{EXTRACTION OF INFORMATION FROM STRUCTURED DOCUMENTS}

본 발명은 일반적으로 HTML 문서 등의 구조화 문서로부터 정보를 추출하는방법에 관한 것으로, 특히 나날이 갱신되는 구조화 문서로부터 사전에 원하는 텍스트 부분을 식별하여 추출하는 정보 추출 방법에 관한 것이다. 또한, 본 발명은 구조화 문서에서 원하는 부분을 쉽게 선택할 수 있는 사용자 인터페이스에 관한 것이다.

나날이 갱신되는 HTML(hyper text markup language) 문서 등의 구조화 문서로부터 특정 부분을 선택하는 수단이 필요하다. 예컨대, 사용자는 친숙한 웹 페이지 중에서 특히 관심있는 부분들을 선택하고, 이들 부분을 모으는 정보 수집을 통하여 사용자는 필요한 정보만을 쉽게 일람하길 원할 수 있다. 그 수집된 정보 소스가 날마다 갱신되는 경우에, 그 선택된 부분(selected portion)은 그 정보 수집에 이용하기 위하여 나날이 갱신된 문서로 재차 식별되어야 한다.

일본 특허 제2867986호는 미리 선택된 부분(selected portion)의 시작 지점 및 종료 지점을 나타내는 정보를 저장하는 www 정보 추출 시스템을 교시하고 있다. 이러한 정보를 근거로, 그 갱신된 문서에서 시작 지점 및 종료 지점을 식별한 다음, 이 2개의 점 사이에 있는 부분을 그 선택된 부분으로서 추출한다. 예컨대, 그 선택된 부분의 시작 지점 및 종료 지점 각각에 해당하는 텍스트가 저장된다. 갱신 문서로부터 그 선택된 부분을 추출할 때, 그 저장된 텍스트를 이용하여 HTML 문서에서 시작 지점 및 종료 지점을 식별한 다음, 그 식별 부분을 추출한다.

webMethods사가 제안한 시스템(http://www.w3.org/TR/NOTE-widl) 및 Luca Iocchi가 제안한 시스템(Luca Iocchi : The Web-OEM approach to Web information extraction, Journal of Network and Computer Applications, Vol.22, pp.259-269 (1999))에서는, HTML 문서를 트리 구조로 변환하고, 사전에 선택한 부분에 대응하는 부분적인 트리(partial tree)의 정보를 저장하며, 그 저장된 부분적인 트리에 해당하는 갱신된 문서의 일부분을 식별하는 방법을 통해 논점에 접근하고 있다. 여기서, 부분적인 트리에 관한 정보는 선택된 부분의 식별자로서 기능하는 문자열로 구성된다. 태그명(tag name)은 태그 식별자로서 이용되며, 트리 구성의 동일한 계층 레벨에 있는 태그명에는 수치 색인(numerical value index)이 각각 제공된다. 수치 색인과 쌍을 이루는 태그명들은 연속적으로연결되어, 선택된 부분에 해당하는 전체 트리의 뿌리(root)로부터 부분적인 트리의 뿌리까지의 구조를 나타내는 문자열을 만든다. 일예로서, 도 1의 "doc"는 전체 트리의 뿌리로서 간주되며, 선택된 부분 "지역뉴스(local news)"를 가르키는 식별자는 "doc.table[0].table[0]와 같이 표현된다.

www 정보 추출 시스템에 관하여 일본 특허 제2867986호에 시작된 종래 기술의 방법에 있어서, 선택된 부분은 이 선택된 부분의 시작 지점 및 종료 지점을 나타내는 정보를 토대로 추출된다. 이러한 정보는 갱신 후에도 그대로 그 문서에 항상 남아 있는 항목이어야 한다. 그러나, 갱신 후에도 변경되지 않고 그대로 지속하는 정보를 식별하기는 어렵다. 설계자 혼자의 판단으로 홈페이지를 설계하기 때문에 인터넷의 홈페이지 상에는 많은 예외 사항이 나타남으로써, 전술한 방법은 적용 분야에서 폭넓게 적용될 수 없다.

시작 지점 및 종료 지점에 대응하는 텍스트를 WWW 정보 추출 시스템의 단서로서 이용하면, 이러한 텍스트 자체는 도 2에 도시된 바와 같이 갱신되기 쉬울 수있다. 이러한 경우에, 상기 방법은 실패한다.

또한, 도 3a에 도시된 바와 같이, 이러한 방법에 의해 선택된 부분을 추출하는 경우, 그 추출 부분은 트리 구조로서 적합한 부분적인 트리를 구성하지 못하며, 이러한 예는 도 3b에 도시된다. 이러한 이유때문에, 다른 구조화 문서로부터 그 추출 부분을 이용하기 위해 시도하는 경우에는 어려움에 직면할 것이다.

webMethods사 또는 Luca Iocchi사에 의해 교시된 바와 같이, 선택된 부분의 부분적인 트리의 식별자를 이용하는 방법은 갱신하여도 문서 구조가 변하지 않는 것을 전제로 하고 있다. 갱신에 의해 문서 구조가 매우 작게 변하면, 사전에 선택한 부분적인 트리의 식별자는 갱신 후의 식별자와 일치하지 않을 것이다.

예컨대, 기존의 태그와 동일한 태그를 갖는 텍스트 블록은 문서의 선택된 부분이 속하는 트리 구조의 동일 계층 레벨에 삽입될 수 있다. 이로 인하여 그 태그의 수치 색인은 부분적인 트리의 식별자로 변경된다. 도 1의 예로서, 그 문서는 테이블 태그에 둘러싸인 "광고 2"에 관한 문서를 선택된 부분 상부에 삽입함으로써 갱신된다. 결과적으로, 그 선택된 "지역뉴스(local news)"의 태그명 "table" 에 기초한 수치 색인은 table[O]에서 table[1]로 변경된다. 이러한 적은 포맷 변경은 배너 광고, 긴급 뉴스 등을 일정하게 삽입하고 삭제하는 사이트의 톱페이지에서 이루어질 수 있다. 정보를 일정하게 갱신하는 사이트는 사용자가 일부분을 선택하고 싶은 그러한 종류의 사이트이기 때문에, 미세한 갱신을 통하여 부분 식별의 신뢰성이 떨어지는 경우에, 그러한 신뢰성의 감소는 처리되어야 한다.

일부 선택의 시간에 존재하지 않는 태그가 부주위하게 선택된 부분 위에 남겨진 경우, 이 태그는 그 선택된 부분에 관하여 부모 노드(parent node)로서 나타난다. 도 1에 도시된 갱신의 예로서, 선택된 부분의 상부에 "광고 1"을 둘러싸는 테이블 태그는 부주위하게 개방된다. 결과적으로, "doc.table[0].table[0]"로서 정확하게 나타내야 하는 식별자는 "doc.table[0].table[0].table[1]"이 되며, 이것은 선택된 부분 "local news"의 부모 노드로서 테이블 태그의 존재를 나타낸다. 이에 따라, 갱신 전후에 부분적인 트리의 식별자가 일치하지 않게 된다. 오늘날 널리 보급되어 있는 WWW 브라우저는 개방 단부 태그를 허용하며, 페이지 제작자는 개방 단부 태그가 페이지 내에 있다는 사실을 알아차리지 못하고 빈번히 페이지를 갱신한다.

동일한 태그를 갖고 태그를 닫는 주의가 부족한 텍스트 블록의 삽입에 의해 도 1에 도시된 문서의 갱신시 불량이 발생한다. 다시 말하면, 선택된 부분을 가르키는 부분적인 트리의 식별자는 doc.table[O]. table[O]로부터,

doc.table[O].table[O].table[1]로 변한다.

또한, webMethod사 및 Iocchi사에 의해 제안된 방법들은, HTML 문서 등의 구조화 문서의 일부분을 선택하는 경우에, 태그와 문서 구조의 지식 및 기술이 필요한 문제점이 있다.

본 발명의 목적은 종래 기술의 한계 및 단점에 의해 발생되는 하나 이상의 문제점을 실질적으로 제거하는 것이다.

본 발명의 다른 특정 목적은 문서를 갱신하여도 신뢰성이 떨어지지 않고 선택된 부분을 추출할 수 있는 구조화 문서로부터 정보를 추출하는 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 직관적으로 쉽게 이해할 수 있는 방법에 의해 HTML 문서 등의 구조화 문서의 일부분을 사용자가 선택할 수 있는 구조화 문서로부터 일부분을 선택 및 추출하는 방법을 제공하는 것이다.

본 발명에 따르면, 태그 식별자는 태그명, 이 태그의 적어도 하나의 속성값 및 적어도 하나의 포맷 속성값으로 구성되며, 부분적인 트리 식별자로서 이용된다. 이러한 부분적인 트리 식별자에 의한 부분 추출은 시작 지점 및 종료 지점에 의존하지 않기 때문에 신뢰성이 떨어지지 않는다. 선택된 부분의 부분적인 트리와 동일한 태그를 갖는 텍스트 블록을 선택된 부분이 속하는 동일한 계층 레벨에 삽입하는 경우에도, 하나의 태그에 대하여 다른 포맷 속성을 갖는 것을 충족시킨다.

또한, 트리 구조의 동일한 계층 레벨에 속하는 태그 식별자의 연속 수를 나타내는 수치 색인이 발생된다. 태그 식별자 및 수치 색인은 한 쌍이 한 세트를 이루고, 복수의 세트는 전체 트리 구조의 뿌리로부터 부분적인 트리의 뿌리까지 연속적으로 접속되며, 이것에 의해 부분적인 트리 식별자를 제공한다. 이렇게 부분적인 트리 식별자를 제공함으로써, 그 선택된 부분적인 트리의 뿌리에 해당하는 태그 및 포맷 속성의 동일한 결합이 문서의 다른 태그에 이용되는 경우에도, 그 선택된 부분을 유일하게 식별할 수 있다.

부분적인 트리의 식별시 2개 이상 정합하는 부분적인 트리가 있는 경우, 그 식별자 정합은 다음의 보다 높은 부모 노드로 연속적으로 올림으로써 반복하여 수행된다. 이것에 의해서, 그 선택된 부분 위에 부주위하게 열려져 있는 태그가 있을 지라도, 부분 추출의 신뢰성이 떨어지는 것을 피할 수 있다.

본 발명의 다른 특징에 따르면, HTML 문서 등의 구조화 문서의 부분을 선택하여 추출하는 방법은 구조화 문서를 디스플레이하는 스크린 상에 사용자가 표시한 위치에 대응하는 트리 구조의 종단 노드를 검출한다. 일련의 조상 노드(ancestor node)는 스크린 상에 가시적으로 프리젠테이션하기 위하여 연속적으로 얻어지며, 사용자는 노드를 선택하기 위하여 프롬프팅한다. 이것에 의해 사용자는 노드 선택에 따른 구조화 문서의 일부분을 쉽게 선택할 수 있기 때문에, 그 선택된 부분은 다른 구조화 문서에 쉽게 재사용될 수 있다.

본 발명의 다른 목적 및 다른 특징들은 첨부 도면과 함께 다음의 상세한 설명을 읽으면 명확하게 이해할 수 있을 것이다.

도 1은 종래 기술을 설명하는 도면,

도 2는 시작 지점 및 종료 지점을 나타내는 텍스트를 이용하여 문서의 일부분을 선택하여 추출하는 일예를 도시하는 도면,

도 3a 및 도 3b는 시작 지점 및 종료 지점을 나타내는 텍스트를 이용하여 HTML 문서의 일부분을 추출하는 일예를 도시하는 도면,

도 4는 본 발명을 개략적으로 도시하는 흐름도,

도 5는 복수의 태그가 동일한 태그 및 속성 포맷을 갖는 경우를 설명하는 도면,

도 6은 본 발명의 제1 실시예에 따른 구조화 문서로부터 정보를 추출하는 시스템의 블록도,

도 7은 본 발명의 제1 실시예에 따라 부분 선택한 페이지를 디스플레이하는 일예를 도시하는 도면,

도 8은 본 발명의 제1 실시예에 따라 부분 정보 저장 유닛에 저장된 정보의 일예를 도시하는 도면,

도 9는 본 발명의 제1 실시예의 문서 구조 분석에 의해 발생된 트리 구조 데이터의 일예를 도시하는 도면,

도 10은 본 발명의 제1 실시예에 따른 부분 정보 저장 유닛의 콘텐츠를 도시하는 도면,

도 11은 본 발명의 제1 실시예에 따른 대상 목록의 일예를 도시하는 도면,

도 12는 본 발명의 제1 실시예에 따른 변환된 트리 데이터 구조의 일예를 도시하는 도면,

도 13은 본 발명의 제1 실시예에 따른 구조화 문서로부터 정보를 추출하는 방법의 흐름도,

도 14는 본 발명의 제2 실시예에 따른 구조화 문서로부터 정보를 추출하는 시스템의 블록도,

도 15는 본 발명의 제2 실시예에 따른 선택부의 부분적인 트리 식별자의 생성을 도시하는 도면,

도 16은 본 발명의 제2 실시예에 따른 부분적인 트리 데이터의 생성을 도시하는 도면,

도 17은 본 발명의 제2 실시예에 따른 구조화 문서로부터 정보를 추출하는 방법의 흐름도,

도 18은 본 발명의 제3 실시예에 따른 구조화 문서로부터 정보를 추출하는 시스템의 블록도,

도 19는 본 발명의 제3 실시예에 따라 구조화 문서로부터 정보를 추출하는 방법의 흐름도,

도 20은 본 발명의 사용자 인터페이스를 개략적으로 도시하는 흐름도,

도 21은 본 발명에 따른 개략적인 사용자 인터페이스의 블록도,

도 22는 본 발명의 일 실시예에 따른 장치의 블록도,

도 23은 본 발명의 일 실시예에 따라 부분을 선택하고 추출하는 방법의 흐름도,

도 24는 본 발명의 일 실시예에 따른 브라우저 상에서 부분 선택의 일예를 도시하는 도면,

도 25는 본 발명의 일 실시예에 따른 트리 구조 발생 유닛의 동작을 도시하는 흐름도,

도 26은 본 발명의 일 실시예에 따른 선택부 표시 유닛의 동작 흐름도,

도 27은 본 발명의 일 실시예에 따른 선택부의 트리 구조 및 이 구조와 관련된 프리젠테이션을 도시하는 도면,

도 28은 본 발명의 일 실시예에 따른 시스템의 구조를 도시하는 도면, 그리고

도 29는 HTML 소스, 그 관련된 트리 구조 및 관련된 브라우저 프리젠테이션을 도시하는 도면이다.

본 발명의 다음과 같은 실시예는 첨부 도면을 참조로 기술될 것이다.

도 4는 본 발명을 개략적으로 나타내는 흐름도이다.

본 발명에 따라 구조화 문서로부터 정보를 추출하는 방법은 문서를 트리 구조로 변환하고, 그 문서의 일부분에 대응하는 부분적인 트리의 식별자를 발생하며, 이것에 의해 사전에 구조화 문서의 어떤 소정의 부분을 특정하고, 그 후에, 그 선택된 부분을 갱신된 문서로부터 식별하는 근거를 제공한다.

도 4에 도시된 바와 같이, 이 방법은 부분적인 트리의 식별자로서 태그 식별자를 이용하며, 그 태그 식별자는 부분적인 트리의 뿌리에 대응하는 태그명, 이 태그의 하나 이상의 포맷 속성명, 포맷 속성의 값으로 구성된다(단계 1). 태그의 식별자에 포맷 속성이 복수개 존재하는 경우, 그 포맷 속성명의 소정의 순서(예컨대, 알파벳 순서)로 포맷 속성을 정렬시켜 태그 식별자를 정규화한다(단계 2). 이미 선택된 부분적인 트리와 동일한 식별자를 갖는 부분적인 트리는 트리 구조로 변환된 문서에 존재하는 부분적인 트리의 식별자 목록으로부터 선택된 부분으로서 식별된다(단계 3).

그 선택된 부분적인 트리의 뿌리를 나타내는 태그와 포맷 속성의 동일한 결합을 도 5에 도시된 문서의 2개 이상의 태그에 이용하는 경우, 그 트리 구조의 동일한 계층 레벨에 속하는 태그 식별자의 연속 수를 나타내는 수치 색인을 발생한다. 태그 식별자와 수치 색인은 세트과 같이 쌍으로 이루어지고, 복수의 세트는 전체 트리 구조의 뿌리에서 그 선택된 부분적인 트리의 뿌리까지 연속하여 접속되며, 이것에 의해 부분적인 트리의 식별자를 제공한다.

그 후에, 트리 구조로 변환된 문서에 나타나는 부분적인 트리의 식별자 목록으로부터 이미 선택된 부분적인 트리와 동일한 식별자를 갖는 부분적인 트리를 식별할 필요가 있다. 부분적인 트리 식별자의 정합은 그 선택된 부분적인 트리의 뿌리의 태그 식별자만을 고려하여 수행된다. 그 선택된 부분적인 트리를 정합하는 2개 이상의 부분적인 트리가 있으면, 그 태그 식별자와 관련된 수치 색인은 후보를 차단하기 위하여 정합된다. 수치 색인의 이용에 근거하여 후보를 차단한 후에, 하나 이상의 후보가 여전히 남아 있으면, 부모 노드 태그는 식별자들이 정합하는 것으로 고려된다. 이 식별자 정합은 단 하나의 부모 트리가 후보로서 남을 때까지 연속적으로 조상 노드로 올리는 것에 의해 반복하여 수행된다. 이러한 나머지 트리는 선택된 부분적인 트리로서 식별된다.

[제1 실시예]

도 6은 본 발명의 제1 실시예의 구조화 문서로부터 정보를 추출하는 시스템의 블록도이다.

도 6에 도시하는 시스템은 선택된 부분의 시작 위치 및 종료 위치에 무관한 방법에 기초하여 동작하기 때문에 부분 추출의 신뢰성이 떨어진다. 다시 말해서, 그 선택된 부분의 동일한 계층 레벨에 그 선택된 부분의 부분적인 트리와 동일한 태그를 갖는 텍스트 블록을 삽입하더라도, 하나의 태그가 다른 포맷 속성을 갖는 것을 충족시킨다.

도 6의 시스템은 사용자로부터 구조화 문서의 임의 부분을 선택하는 명령을 수신하는 부분 선택 유닛(1)과, 그 선택된 부분에 관한 정보를 저장하는 부분 정보 저장 유닛(2)과, 태그 및 관련된 포맷 속성을 이용하여 트리 구조의 부분적인 트리를 식별하는 문서 구조 해석 유닛(3)과, 사용자 요구에 따라 선택된 부분에 대응하는 문서 부분을 돌려주는 부분 식별 유닛(4)으로 구성된다.

부분 선택 유닛(1)은 문서 검색 유닛(11), 부분 지정 유닛(12), 문서 구조화유닛(13)으로 구성된다.

문서 검색 유닛(11)은 부분 지정 유닛(12)으로부터 문서 검색 요청을 수신하고, 그 요청은 문서의 식별자로서 기능하는 URL(uniform resource locator)를 지정 한 후에, 그 요청된 문서를 검색하여, 부분 지정 유닛(12)에 제공한다.

부분 지정 유닛(12)은 URL과 함께 문서 검색 요청을 문서 검색 유닛(11)으로 전송하고, 대응하는 문서를 취득한 후에, 그 취득한 문서를 구조화 하도록 문서 구조화 유닛(l3)에 요청하여, 트리 구조로 변환된 문서를 취득한다. 도 7에 도시한 바와 같이, 부분 지정 유닛(12)은 그 취득한 문서의 부분을 사용자가 용이하게 지정할 수 있도록 사용자 인터페이스를 제공한다. 그 지정 부분의 좌표 등에 따라 부분적인 트리의 식별자를 생성한다. URL과 함께 이 식별자는 도 8에 도시된 부분 정보 저장 유닛(2)에 저장된다.

문서 구조화 유닛(13)은 문서 구조 해석 유닛(3)에 요청하여 부분 지정 유닛 (12)으로부터 받은 문서를 구조화 한 후에, 도 9에 도시한 바와 같이, 트리 구조로 변환된 문서를 트리 구조의 부모 및 자식 관계를 표현하는 데이터 구조로서 수신한다. 예컨대, 트리 구조를 구성하는 태그 및 텍스트 대상들은 객체 ID, 라벨, 자식 노드 목록, 부분적인 트리 식별자로 표시한다. 이들 항목의 목록은 데이터 구조로서 수신된다.

부분 정보 저장 유닛(2)은 부분 지정 유닛(12)으로부터 URL과 부분적인 트리 식별자를 수신하여, URL 및 부분적인 트리 식별자의 세트를 식별하는 문서 부분 ID를 할당한다. 이 세트 및 그 할당된 문서 부분 ID는 도 10에 도시된 바와 같이 저장된다. 그 후에, 그 문서 부분 ID는 부분 지정 유닛(12)으로 복귀된다.

문서 구조 해석 유닛(3)은 트리 구조 변환 유닛(31)과 부분적인 트리 식별자 생성 유닛(32)으로 구성된다.

이 트리 구조 변환 유닛(31)은 문서 구조화 유닛(13, 43)으로부터 구조화 문서와 함께 문서 구조화 요청을 수신한다. 또 트리 구조 변환 유닛(31)은 그 수신된 문서를 문서 대상으로서 태그 및 텍스트를 갖는 트리 구조로 변환하여, 그 변환된 문서를 부분적인 트리 식별자 생성 유닛(32)으로 전송한다.

부분적인 트리 식별자 생성 유닛(32)은 트리 구조 변환 유닛(31)에서 트리 구조로 변환되는 문서를 구성하는 각각의 태그에 대응하는 태그 식별자를 발생한다. 이 태그 식별자는 태그명, 포맷 속성명, 포맷 속성값으로 구성된다. 도 9의 일예에 있어서, 제1 "table" 태그는 태그명 "table" 및 포맷 속성값 'border=“O“ cellpadding=“1“'을 조합한 태그 식별자 "table_border=O&cellpadding=1"가 제공된다. 또한, 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다. 이러한 방법으로 얻은 태그 식별자는 그 태그를 태그의 뿌리로 갖는 부분적인 트리의 식별자로서 이용되고, 대응하는 트리 구조 대상과 정합된다. 그 후에, 도 9에 도시된 바와 같이, 부분적인 트리 식별자를 포함하는 트리 구조 데이터는 문서 구조화 유닛(13,43)으로 보내진다.

부분 식별 유닛(4)은 문서 검색 유닛(41), 부분적인 트리 식별자 식별 유닛 (42) 및 문서 구조화 유닛(43)으로 구성된다.

문서 검색 유닛(41)은 부분적인 트리 식별자 식별 유닛(42)으로부터 문서의 식별자인 URL 과 함께 문서 검색 요청을 수신한다. 이러한 문서 검색 요청 수신시, 그 문서 검색 유닛(41)은 인터넷으로부터 해당하는 문서를 취득하여, 그 취득 문서를 부분적인 트리 식별자 식별 유닛(42)으로 돌려준다.

부분적인 트리 식별자 식별 유닛(42)은 사용자로부터 부분 문서 ID와 함께부분 검색 요청을 수신하여, 부분 정보 저장 유닛(2)에 부분 문서 ID를 전달함으로써, 대응하는 URL과 부분적인 트리 식별자를 취득한다. 부분적인 트리 식별자 식별 유닛(42)은 문서 검색 유닛(41)에 그 URL을 전달하여 해당하는 문서를 취득한다. 그 취득한 문서를 구조화 하도록 문서 구조화 유닛(43)에 요청하고, 도 11에 도시된 바와 같이, 그 요청에 응답하여 트리 구조로 변환된 대상들의 목록을 취득한다. 부분적인 트리 식별자 식별 유닛(42)은 부분적인 트리 식별자에 대응하는 태그를 찾아서 그 취득된 효소들의 목록으로부터 하나의 태그를 추출한 다음, 그 추출된 태그에 속하는 부분적인 트리에 해당하는 문서 부분을 사용자에게 제공한다.

문서 구조화 유닛(43)은 문서 구조 분석 유닛(3)에 요청하여 부분적인 트리 식별자 식별 유닛(42)으로부터 받은 문서를 구조화 한 후에, 트리 구조로 변환된 문서를, 도 12에 도시된 바와 같이 트리 구조의 부모-자식 관계를 표현하는 데이터 구조로서 수신한다. 예컨대, 트리 구조를 구성하는 태그 및 텍스트의 대상은 객체 ID, 라벨, 자식 노드의 목록, 부분적인 트리 식별자로 표현된다. 이들 항목의 목록은 데이터 구조로서 수신된다.

이 후에는 전술한 시스템의 동작이 설명될 것이다.

도 13은 본 발명의 제1 실시예의 구조화 문서부터 정보를 추출하는 방법의 흐름도이다.

이 동작에서는, 부분 선택 프로세스(A), 부분 식별 프로세스(B) 및 문서 구조화 프로세스(M)를 포함한다. 이하는 이들 프로세스(A, B, M)를 단계별로 설명될 것이다.

우선, 부분 선택 프로세스(A)가 설명될 것이다.

단계(Al0)에 있어서, 문서 검색 유닛(11)이 URL에 대응하는 문서를 인터넷으로부터 취득하면, 부분 지정 유닛(12)은 사용자의 URL 지시에 응답하여, 그 취득된 문서를 문서 구조화 유닛(13)으로 전달하여 문서를 구조화한다. 이 절차는 단계(M10)로 이행한다.

단계(Ml0)에 있어서, 트리 구조 변환 유닛(31)은 문서 구조화 유닛(13)으로부터 구조화 문서를 취득하고, 문서 대상으로서 태그와 텍스트를 갖는 트리 구조로 그 취득된 구조화 문서를 변환하여, 부분적인 트리 식별자 생성 유닛(32)에 제공한 후에, 단계(M20)로 이행한다.

단계(M20)에 있어서, 부분적인 트리 식별자 생성 유닛(32)은 트리 구조 변환 유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그마다 태그 식별자를 생성한다. 이 태그 식별자는 태그명, 포맷 속성명, 및 포맷 속성의 값으로 구성된다. 도 9의 예로서, "table" 태그에는 태그명 "table" 및 그 포맷 속성의 값 'border=“O“, cellpadding=“1"'을 조합하는 태그 식별자 "table_border=O&cellpadding=1"가 제공된다. 또한, 2개 이상의 포맷 속성이 있는 경우, 이들 포맷 속성은 포맷 속성명을 소정의 순서로 정렬시켜 태그의 식별자를 정규화한다. 이러한 방법으로 취득된 태그 식별자는 부분적인 트리의 식별자로서 이용되고, 대응하는 트리 구조 대상에 정합한다. 도 9에 도시된 바와 같이, 부분적인 트리 식별자가 부여된 트리 구조 데이터는 문서 구조화 유닛(13)으로 보내진다.

단계(A20)에 있어서, 부분 지정 유닛(12)은, 도 7에 도시한 바와 같이, 문서부분을 용이하게 선택하는 수단을 사용자에게 제공하는 사용자 인터페이스를 통하여 사용자가 선택한 부분을 분리한다. 그 다음에 단계(A30)로 이행한다.

단계(A30)에 있어서, 부분 지정부(12)는 도 8에 도시하는 선택 영역의 좌표 등으로부터 선택된 부분에 대응하는 부분적인 트리 식별자를 취득한다. 이 취득한 부분적인 트리 식별자와 문서에 대응하는 URL은 부분 정보 저장 유닛(2)에 한 쌍으로 저장되고, 그 저장된 쌍에 해당하는 문서 부분 ID를 취득한다.

이 후에는 부분 식별 프로세스(B)가 설명될 것이다.

단계(Bl0)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 사용자로부터 부분 문서 ID와 함께 부분 검색 요청을 수신한다. 부분적인 트리 식별자 식별 유닛(42)은 그 문서 부분 ID를 부분 정보 저장 유닛(2)에 전달하여, 대응하는 URL과 부분적인 트리 식별자를 취득한다. 그 다음에는 단계(B20)로 이행한다.

단계(B20)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 그 취득한 URL에 대응하는 문서를 문서 취득부(41)를 통해 취득하고, 그 취득한 문서를 문서 구조화 유닛(43)에 전달하여, 문서의 구조화 요청을 발행한다. 그 다음에 단계(Ml0)로 이행한다.

단계(Ml0)에 있어서, 트리 구조 변환 유닛(31)은 문서 구조화 유닛(43)으로부터 구조화 문서를 수신하여, 그 수신 문서를 문서의 태그와 텍스트를 포함하는 트리 구조로 문서를 변환한다. 또 트리 구조 변환 유닛(31)은 그 트리 구조를 부분적인 트리 식별자 생성 유닛(32)에 전달한다. 그 다음에 단계(M20)로 이행한다.

단계(M20)에 있어서, 부분적인 트리 식별자 생성 유닛(32)은 트리 구조 변환유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그마다 태그 식별자를 발생한다. 그 태그 식별자는 태크명, 포맷 속성명, 및 포맷 속성의 값으로 구성된다. 도 9의 예로서, 그 "table" 태그에는 태그명 "table" 및 포맷 속성의 값 'border=“O“cellpadding=“1“'을 조합하는 포맷 식별자 "table_border=O&cellpadding= 1"가 제공된다. 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서대로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다. 이러한 방법으로 취득한 태그 식별자는 부분적인 트리 식별자로서 이용되고, 대응하는 트리 구조의 대상에 정합된다. 부분적인 트리 식별자가 부여된 도 9과 같은 트리 구조의 데이터는 문서 구조화 유닛(43)으로 전송된다. 그 다음에 단계(B30)로 이행한다.

단계(B30)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 도 11에 도시된 바와 같이 변환된 트리 구조의 대상 목록으로부터 취득한 부분적인 트리 식별자에 해당하는 태그를 검색한다. 해당하는 부분적인 트리 식별자를 검색하지 못하면, 그 절차는 종료한다. 해당하는 부분적인 트리 구조 식별자를 검색하면, 그 절차는 단계(B40)로 이행한다.

단계(B40)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 그 취득한 부분적인 트리 식별자에 대응하는 부분적인 트리에 속하는 문서 부분을 사용자에게 제공한다.

[제2의 실시예]

도 14은 본 발명의 제2의 실시예의 구조화 문서로부터 정보를 추출하는 시스템의 블록도이다.

도 14에 도시하는 시스템은, 선택된 부분적인 트리의 뿌리에 대응하는 태그와 포맷 속성의 동일한 조합이 문서의 다른 태그에 이용되어도, 선택된 부분을 일정하게 식별할 수 있는 구성에 관한 것이다.

본 발명의 제2 실시예의 구성 대상은 문서 구조 해석 유닛(3)의 부분적인 트리 식별자 생성 유닛(32a) 이외에 제1 실시예와 동일하기 때문에, 동일한 구성 대상에대한 설명은 생략될 것이다.

부분적인 트리 식별자 생성 유닛(32a)은 트리 구조 변환 유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그에 대응하는 태그 식별자를 발생한다. 이 태그 식별자는 태그명, 포맷 속성명, 및 포맷 속성의 값으로 구성된다. 도 15의 일예로서, 첫 번째의 "table" 태그는 태그명 "table" 및 포맷 속성의 값 'border=“O“ cellpadding=“1“'을 조합하는 태그 식별자 "table_border=O&ceppladding= 1"가 제공된다. 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다.

그 후에, 이 트리 구조의 동일 계층에 속하는 태그의 식별자의 연속 수를 나타내는 수치 색인이 발생된다. 태그 식별자 및 수치 색인은 쌍으로 세트를 생성하고, 복수의 세트는 전체 트리 구조의 뿌리로부터 부분적인 트리의 뿌리까지 연속적으로 접속되어, 도 15에 도시한 바와 같은 부분적인 트리의 식별자를 제공한다. 그 후에, 도 16에 도시된 바와 같이 부분적인 트리 식별자를 포함하는 트리 구조는 문서 구조화 유닛(13, 43)에 제공된다.

도 17은 본 발명의 제2의 실시예의 구조화 문서부터의 정보를 추출하는 방법의 흐름도이다.

이하에 있어서, 단계(M20a) 이외는 전술의 제1의 실시예와 동일하기 때문에 설명을 생략한다.

단계(M20a)에 있어서, 부분적인 트리 식별자 생성 유닛(32a)은 트리 구조 변환 유닛(31)에 의해 트리 구조로 변환되는 문서를 구성하는 태그마다 태그 식별자를 발생한다. 이 태그 식별자는 태그명, 포맷 속성명 및 포맷 속성의 값으로 구성된다. 도 15의 예로서, 첫 번째 "table" 태그는 태그명 "table"과 포맷 속성값 ' border=“O“cellpadding=“1“'을 조합하는 태그 식별자 "table_border= O&cellpadding=1"를 제공한다. 2개 이상의 포맷 속성이 있는 경우, 포맷 속성명의 소정의 순서로 포맷 속성을 정렬시켜 태그의 식별자를 정규화한다. 그 다음에 단계(M30a)로 이행한다.

단계(M30a)에 있어서, 부분적인 트리 식별자 생성 유닛(32a)은 트리 구조의 동일계층에 속하는 태그 식별자의 연속 수를 나타내는 수치 색인을 생성하고, 각각의 태그 식별자와 해당하는 수치 색인을 세트으로 결합한다. 복수의 세트는 전체 트리 구조의 뿌리부터 부분적인 트리의 뿌리까지 연속적으로 접속되며, 이것에 의해 도 15에 도시한 바와 같은 부분적인 트리의 식별자를 제공한다. 그 다음에, 도 16에 도시된 바와 같이 부분적인 트리 식별자를 포함하는 트리 구조 데이터는 문서 구조화 유닛(13, 43)에 제공된다. 그 후에, 단계(A20) 또는 단계(B30)로 이행한다.

[제3의 실시예]

도 18은 본 발명의 제3 실시예의 구조화 문서부터의 정보를 추출하는 시스템의 블록도이다.

도 18의 시스템은 선택된 부분의 전방에 열려진 태그가 존재하는 경우에도, 부분 추출의 신뢰성이 떨어지는 것을 방지할 수 있다.

부분적인 트리 식별자 식별 유닛(42a)이외는, 전술의 제1의 실시예와 동일하기 때문에 설명을 생략한다.

부분적인 트리 식별자 식별 유닛(42a)은 사용자로부터 부분 문서 ID와 같이 부분 검색 요청을 수신하여, 부분 정보 저장 유닛(2)으로 부분 문서 ID를 전달하여, 대응하는 URL과 부분적인 트리 식별자를 취득한다. 문서 검색 유닛(41)으로 그 URL을 전달하여 해당하는 문서를 취득한다. 부분적인 트리 식별자 식별 유닛(42a)은 문서 구조화 유닛(43)에 요청하여, 도 16에 도시된 바와 같이 그 변환된 트리 구조의 대상 목록을 취득한다.

부분 정보 저장 유닛(2)에서 취득한 부분적인 트리 식별자는 그 취득한 대상의 부분적인 트리 식별자의 목록으로부터 식별되어야 한다. 그 식별자의 말단에 위치된 태그 식별자는 정합 목적으로 이용된다. 예컨대, "doc.table_border= 1&cellpadding= 1[O].table_border=O&cellpadding= 1[1]"의 경우에, 부분적인 트리 식별자의 말단의 태그 식별자는 그 스트링의 말단에 제공되는"table_border= O&cellpadding=1[1]"에 해당한다. 그 선택된 부분적인 트리의 후보가 복수 개 있는 경우, 그 태그 식별자와 관련된 수치 색인은 후보를 차단하기 위한 것이다.

또한, 태그 식별자의 수치 색인에 의해 후보를 차단한 후에도, 복수의 후보가 여전히 남아 있는 경우, 부모 노드 태그는 식별자의 정합을 고려한다. 이 식별자의 정합 실행은 단 하나의 부모 트리가 후보로서 남을 때까지 연속적으로 조상 노드로 올림을 반복한다. 이 나머지 트리는 선택된 부분적인 트리로서 식별된다. 이 식별된 부분적인 트리 식별자에 대응하는 부분적인 트리의 문서 부분을 사용자에게 제공한다.

도 19는 본 발명의 제3 실시예에 따라 구조화 문서부터 정보를 추출하는 방법의 흐름도이다. 이후에는 단계(B30a) 내지 단계(B90a) 이외에는 전술의 제1 실시예와 동일하기 때문에 설명을 생략할 것이다.

단계(B30a)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 도 16에 도시된 바와 같이 변환된 트리 구조의 대상 목록으로부터 부분 정보 저장 유닛(2)에서 취득한 부분적인 트리 식별자를 식별하는데 필요하다. 식별자의 말단에, 부분적인 트리 식별자 식별 유닛(42)은 식별자의 말단에 태그 식별자를 정합 대상으로 이용하여 선택한다. "doc.table_border=1&cellpadding=1[O].table_boder= O&cellpadding= 1[1]"의 경우에, 예컨대, 부분적인 트리 식별자의 말단의 태그 식별자로는 그 스트링의 말단에 제공된 "table_border=0&cellpadding=1[1]"이 해당한다. 이 태그 식별자를 선택한 후에, 단계(B40a)로 이행한다.

단계(B40a)에 있어서, 태그 식별자의 정합은 현재 선택된 태그 식별자에 관하여 수행된다. 그 취득된 부분적인 트리 식별자와 정합하는 후보가 2개 이상 있는 경우, 그 절차는 단계(B50a)로 이행한다. 대안으로, 단 하나의 후보가 있는 경우, 그 절차는 단계(B60a)로 이행한다. 또 후보가 없는 경우에는 종료한다.

단계(B50a)에 있어서, 후보의 차단은 태그 식별자와 관련된 수치 색인의 대조를 통하여 수행된다. 후보 차단 후에 2개 이상의 후보가 여전히 남아 있는 경우, 그 절차는 단계(B80a)로 이행한다. 대안으로, 단 하나의 후보가 남아 있는 경우에, 그 절차는 단계(B60a)로 이행한다. 후보가 없는 경우에는 종료한다.

단계(B60a)에 있어서, 그 취득된 부분적인 트리 식별자와 일치하는 후보가 단 하나인 경우, 이 후보 부분적인 트리는 선택된 부분적인 트리로서 식별되고, 그 후에 단계 (B70a)로 이행한다.

단계(B70a)에 있어서, 부분적인 트리 식별자 식별 유닛(42)은 그 취득한 부분 식별자에 대응하는 부분적인 트리의 문서 부분을 사용자에게 제공한다..

단계(B80a)에 있어서, 수치 색인에 의해 후보를 차단한 후에도, 2개 이상의 후보가 남아 있기 때문에, 다음 정합 대상을 상위 레벨로 올림으로서 선택된다. 다시 말해서, "doc.table_border=1&cellpadding=1[O].table_border=O&cellpadding= 1[1]"의 말단에 태그 식별자 "table_border=O&cellpadding=1[1]"를 처음에 이용하면, 부모의 태그 식별자 "table_border=1&cellpadding=1[O]"는 다음 정합 대상으로서 선택된다. 그 후에, 절차는 단계(B90a)로 이행한다.

단계(B90a)에 있어서, 정합 대상으로서 최상위 레벨에 있는 태그를 이용한 후에, 단계(B80a)에서 다음의 상위 레벨로 올려 보다 많은 정합 대상이 존재하는지에 대하여 점검한다. 보다 많은 정합 대상이 존재하지 않는 경우, 이 절차는 종료한다. 이와 반대로, 보다 많은 정합 대상이 존재하는 경우, 그 절차는 다시 단계 (B40a)로 돌아간다.

전술한 바와 같은 실시예들의 방법들은 정보 추출 장치로서 이용되는 컴퓨터에 설치된 프로그램으로 구현될 수 있으며, 이 프로그램은 네트워크를 통하여 유통될 수 있다.

이들 프로그램은 정보 추출 장치로서 이용된 컴퓨터에 접속되는 플렉시블 디스크, CD-ROM 등의 소거가능한 저장 매체 또는 하드디스크 드라이브에 저장 가능하고, 본 발명의 방법을 실시할 때에 메모리에 설치하는 것도 가능하다.

도 20은 사용자가 직관적으로 쉽게 이해하는 방법으로 HTML 문서 등의 구조화 문서의 일부분을 쉽게 선택하기 위하여 사용자에게 사용자 인터페이스를 제공하는 본 발명의 개략적인 흐름도이다.

본 발명은 HTML 문서 등의 구조화 문서의 일부분을 선택 및 추출하는 방법에 관한 것이다. 트리 구조의 말단에 있는 단부 노드는 문서를 디스플레이하는 스크린 상에 사용자가 지시하는 위치에 대응하여 식별된다(단계 1). 이 단부 노드로부터 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중 하나의 노드가 선택되도록 사용자는 요청받는다(단계 2). 그 다음, 사용자가 선택한 노드에 해당하는 구조화 문서의 일부분이 선택된다(단계 3).

도 21은 본 발명에 따른 사용자 인터페이스의 개략 블록도이다.

HTML 문서 등의 구조화 문서의 일부분을 선택하여 추출하는 장치는, 문서를 디스플레이한 스크린 상에 사용자가 지시한 위치에 대응하는 트리 구조의 단부 노드를 검출하는 노드 검출 유닛(101), 그 단부 노드로부터 상위 노드를 연속 검출하여 얻은 일련의 노드 중 하나를 선택하기 위하여 사용자에게 프롬프팅하는 선택 판정 유닛(102), 및 사용자 선택 노드에 해당하는 구조화 문서의 일부분을 선택하는 부분 선택 유닛(103)을 포함한다.

도 22는 본 발명의 일 실시예에 따른 장치의 블록도이다.

구조화 문서의 일부분을 선택하고 추출하는 장치(100)는, 선택된 부분 표시 유닛(111)을 내장한 디스플레이 제어 유닛(110), 입력 유닛(120), 트리 구조 생성 유닛(130), 및 디스플레이 부분 저장 유닛(140)을 포함한다. 디스플레이 장치 (10)와 입력 장치(20)는 장치(100)에 접속된다.

디스플레이 장치(10)는 브라우저에 의해 처리되는 HTML 텍스트 및 이미지를 디스플레이한다.

입력 장치(20)는 버튼 동작 등을 통하여 사용자가 지정한 정보를 수신한다. 이 버튼 동작에는 영역 확대(+), 크기 축소(-), 소거(clear) 및 선택(select) 동작을 포함한다.

디스플레이 제어 유닛(110)의 선택된 부분 표시 유닛(111)은 다양한 레벨의 트리 구조에 있는 객체 중에서 사용자 버튼 동작으로 선택한 객체를 디스플레이한다. 사용자가 선택한 소정의 부분은, 예를 들면 디스플레이 부분 저장 유닛(140)에 HTML 텍스트로서 저장된다.

입력 유닛(120)은 입력 장치(20)로부터 사용자 입력(버튼 동작을 통한 입력)을 수신하여, 그 입력 정보를 트리 구조 생성 유닛(130) 및 선택된 부분 표시 유닛 (111)에 전달한다.

트리 구조 생성 유닛(130)은 HTML 문서의 전체 트리 구조를 구성하는 객체중 사용자가 클릭한 위치에 있는 객체를 선택하는 것에 의해 그 객체를 검색한다. 이 검색된 객체는 객체들의 어레이에 저장된다.

도 23은 본 발명의 일 실시예에 따라 일부분을 선택하고 추출하는 방법의 흐름도이다.

단계(110)에서는 처리될 HTML 문서가 사용자 단말기의 브라우저 윈도우에 디스플레이된다. 단계(120)에서, 사용자는 스크린 상에서 그가 선택하길 원하는 부분을 클릭한다. 단계(130)에서, 트리 구조 생성 유닛(130)은 HTML 트리 구조를 구성하는 객체 중 클릭 위치에 해당하는 객체를 추출한다. 그 추출 객체에 해당하는 직사각형 영역은 도 24에 도시된 바와 같이 스크린에 표시되는 문서에 표시된다.

사용자가 그 표시 부분을 그가 선택한 부분으로서 판정하는 경우, 그 표시 부분은 디스플레이 부분 저장 유닛(140)에 HTML 텍스트로 저장된다(단계 160). 그후에 그 문서의 표시는 없어진다(단계 180). 사용자가 그 표시 부분을 선택하지 않으면, 사용자는 스크린에 도시된 버튼을 동작시켜 그 표시 영역을 확대(+), 축소(-) 또는 소거(clear)할 수 있다(단계 170). 이러한 버튼 동작을 통하여, 트리 구조의 상위 레벨 또는 하위 레벨의 객체들이 연속적으로 디스플레이된다. 그 스크린에 원하는 부분을 표시한 경우에, 단계(150)에서 그 표시 부분은 선택 버튼(select)에 의해 선택된다. 이 선택된 부분은 디스플레이 부분 저장 유닛(140)에 HTML 텍스트로서 저장된다(단계 160).

전술한 절차는 브라우저에 의해 실행될 수 있다. 이러한 경우에, 처리되는 HTML에는 자바 스크립트(Java Script)로 쓰여진 추가적인 스크립트가 제공되며, 이는 브라우저에 제공된다.

이후에, 트리 구조 생성 유닛(130)의 동작이 설명될 것이다.

도 25는 본 발명의 일 실시예에 따른 트리 구조 생성 장치의 동작을 도시하는 흐름도이다.

어레이가 시작된다(단계 131). 클릭 위치에 있는 객체를 검출하여(단계 132), 그 어레이에 저장한다(단계 133). 여기서, 객체는 HTML 문서의 일부분이며, 트리 구조의 각 노드에 해당한다. 스크린 상에는 각각의 객체가 속하는 영역들이 있다. 도 29의 예로서, 트리 구조는 총 13개의 노드로 구성된다. 그 검출된 객체가 부모 객체를 갖는 경우(단계 134에서 YES), 이 부모 객체도 동일한 클릭 위치의 객체로서 어레이에 저장된다(단계 133). 이러한 절차는 모든 객체층에 관하여 수행되어, 그 클릭 위치에 해당하는 객체 어레이를 발생한다. 도 29의 "apple"을 클릭하면 객체 "k, j, i, h, f, e, d, 및 a"에 기인하며, 이 객체들은 어레이 a에 저장될 것이다.

이 어레이의 각 대상이 점검된다(단계 135). 이것은 스크린 상의 객체 모양중 서로 구별될 수 없는 최상위 레벨의 객체를 선택하기 위한 것이다. 이러한 케이스는 한 객체의 텍스트와 이미지 뿐만 아니라 그 객체에 해당하는 텍스트와 영역이 다른 객체와 일치할 때 발생한다.

다음 대상이 있으면, 그 다음 대상의 텍스트가 다른지 여부를 점검한다(단계 137). 그 다음 대상의 텍스트가 다르면, 그 객체는 어레이(b)에 저장된다(단계 138). 그 다음에, 다음 대상이 있는지 여부에 대하여 다시 점검한다(단계 136). 다음 대상이 없으면, 그 객체는 어레이(b)에 저장된다(단계 139). 이것으로, 이 절차는 종료한다.

이러한 방법으로, 그 객체의 어레이(b)는 이들 객체가 클릭 위치에 해당하는지를 취득하여, 스크린 상에서 서로 구별할 수 있다.

도 29의 예로서, "k"와 "j"는 이들의 동일한 텍스트 "apple"을 갖고, 상위 레벨에 있는 "j"는 어레이(b)에 저장된다. "i"와 "h"는 이들의 동일한 텍스트 "apple" 및 "orange"를 갖고, 상위 레벨에 있는 "h"는 어레이(b)에 저장된다. 이러한 예에서, "i", "h" 및 "a"는 어레이(b)에 저장될 것이다.

이후에, 그 선택된 부분 표시 장치(111)가 설명될 것이다.

도 26은 본 발명의 일 실시예에 따라 선택된 부분 표시 장치(111)의 동작 흐름도이다.

디스플레이될 객체를 선택한다(단계 141). 시작 프리젠테이션의 경우에는 어레이(b)의 현재의 대상이 선택될 것이다. 확대 프리젠테이션의 경우에는 현재 대상보다 높은 다음 어레이(b)의 대상이 선택될 것이다. 축소 크기 프리젠테이션의 경우에는 현재 대상보다 낮은 다음 어레이(b)의 대상이 선택될 것이다.

시작 프리젠테이션에서, 객체 어레이(b)의 최하위 레벨 객체에 대응하는 직사각형 형상이 추출된다(단계 142). 이 추출된 직사각형은 도 24에 도시된 바와 같이 스크린 상에 중첩된다(단계 143). 도 24에 도시된 버튼 중에서, 확대 버튼"+"은 현재 선택된 영역에 해당하는 객체보다 높은 다음 객체를 선택함으로써, 스크린 상에 겹쳐지는 새롭게 선택된 객체의 직사각형을 만든다. 동일 토큰(token)에 의해,크기 축소 버튼 "-"은 다음으로 낮은 객체를 선택할 것이다. 도 29의 예에 관해서, 직사각형 영역은 도 27에 도시된 바와 같이 어레이(b)로부터 선택된 해당 객체의 디스플레이 상에 중첩된다.

이 후에, 시스템의 전체 구성이 설명될 것이다.

도 28은 본 발명의 일 실시예에 따른 시스템의 구성을 도시하는 설명도이다.

도 28에 도시된 시스템은 사용자 클라이언트 단말기(100)(구조화 문서로부터 일부분을 선택하여 추출하는 장치)와, 릴레이 서버(200)와, 처리할 HTML 문서를 저장하는 서버(300)를 포함한다.

처리할 HTML 문서에 관하여, 릴레이 서버(200) "http://www.myserv.com/cgi -bin/get.cgi?http:/www.foo.com/doc/html"에 의해 전술한 동작은 " http:/www.foo .com/doc/html"을 도시하는 동일한 스크린 상에서 수행될 수 있다.

다음과 같은 설명에 있어서, "()"의 공백 수는 도 28의 "()"의 각 공백 수에 해당한다.

(1) 클라이언트 단말기(100)로부터, 사용자는 처리될 HTML 문서의 URL을 참조하여 릴레이 서버(200)의 CGI를 시작한다.

(2) 릴레이 서버(200)는 URL을 이용하여 서버(300)에 요청한다.

(3) 서버(300)는 HTML 문서를 릴레이 서버(200)로 전송한다.

(4) 릴레이 서버(200)는 잡 스크립트(job script)를 서버(300)로부터 얻는 HTML 문서의 단부에 부가한다.

(5) 릴레이 서버(200)는 HTML 문서를 클라이언트 단말기(100)로 전송하며,그 HTML 문서는 문서 부분을 선택하여 추출하는 첨부 기능을 갖는다.

이러한 방법으로, 클라이언트 단말기(100)는 문서 부분을 선택하고 추출하는 첨부 기능으로 HTML 문서를 처리할 수 있다.

이러한 실시예에 기술된 구조화 문서 부분을 선택하고 추출하는 장치의 구성 대상은 컴퓨터에 설치되는 프로그램으로 구현될 수 있으며, 이 컴퓨터는 구조화 문서 부분을 선택하고 추출하는 장치로 이용된다. 이 프로그램은 네트워크를 통하여 유통될 수 있다.

이 프로그램들은 구조화 문서 부분을 선택하여 추출하는 장치로서 이용된 컴퓨터에 접속되는 플렉시블 디스크, CD-ROM 등의 소거가능한 저장 매체 또는 하드디스크 드라이브에 저장될 수 있으며, 본 발명의 방법을 실시할 때에 메모리에 설치하는 것도 가능하다.

또, 본 발명은 이러한 실시예에 한정됨이 없이, 본 발명의 범위를 벗어남이 없이 다양한 수정 및 변경이 가능할 것이다.

본원 발명은 일본 특허청에 2002년 6월 28일에 출원된 일본 우선권 출원 제2002-190621호 및 2002년 7월 12일 출원된 일본 우선권 출원 제2002-204641호를 기초로 하였으며, 그 모든 내용은 본원에 참조된다.

전술한 바와 같이, 본 발명에 따르면, 부분적인 트리의 식별시 2개 이상의 정합하는 부분적인 트리가 있는 경우, 그 식별자 정합은 다음의 보다 높은 부모 노드로 연속적으로 올림으로써 반복하여 수행되고, 이것에 의해서, 그 선택된 부분위에 부주위하게 열려져있는 태그가 있을 지라도, 부분 추출의 신뢰성이 떨어지는 것을 피할 수 있다.

Claims

구조화 문서의 임의의 부분을 사전에 선택하고, 갱신된 구조화 문서로부터 그 선택된 부분을 식별하기 위하여 트리 구조로 변환되는 구조화 문서로서, 상기 선택된 부분이 선택된 부분적인 트리에 대응되는 구조화 문서로부터 정보를 추출하는 정보 추출 방법에 있어서,

상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도 하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 선택된 부분적인 트리에 할당하는 단계;

상기 태그의 상기 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및

상기 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 상기 선택된 부분적인 트리의 상기 부분적인 트리 식별자와 동일한 부분적인 트리 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,

상기 구조화 문서의 복수의 태그는, 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,

상기 정보 추출 방법은,

상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각의 연속적인 수를 나타내는 수치 색인을 생성하는 단계; 및

태그 식별자와 수치 색인을 한 개의 셋트(set)로 결합하고, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 방법.
제2항에 있어서,

상기 부분적인 트리 식별 단계는,

상기 부분적인 트리 식별자의 일단에 위치되는 태그 식별자만을 대조하여, 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 정합하는 단계;

상기 정합 단계 후에 부분적인 트리 식별자의 후보(candidate)가 2개 이상 남아 있는 경우, 상기 부분적인 트리 식별자의 수치 색인을 대조하여, 후보를 차단(screen)하는 단계;

상기 차단 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 정합에 이용하기 위하여 다음의 상위 태그로 연속적으로 올려서 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 반복하여 정합하는 단계; 및

상기 부분적인 트리 식별자를 반복하여 정합하는 단계 후에 단독으로 남아 있는 부분적인 트리를 상기 선택된 부분적인 트리로서 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법
제1항에 있어서,

상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 대응하는 상기 트리 구조의 단부 노드를 검출하는 단계;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및

사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 방법.
컴퓨터를 실행시켜, 구조화 문서의 임의의 부분을 사전에 선택하고, 갱신된 구조화 문서로부터 그 선택된 부분을 식별하기 위하여 트리 구조로 변환되는 구조화 문서로서, 상기 선택된 부분이 선택된 부분적인 트리에 대응되는 구조화 문서로부터 정보를 추출하도록 하는 프로그램에 있어서,

상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도 하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 선택된 부분적인 트리에 할당하는단계;

상기 태그의 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및

상기 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 동일한 부분적인 트리의 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 프로그램.
제5항에 있어서,

상기 구조화 문서의 복수의 태그는 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,

상기 프로그램은,

상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각의 연속적인 수를 나타내는 수치 색인을 생성하는 단계; 및

상기 태그 식별자와 상기 수치 색인을 한 개의 세트로 결합하고, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 프로그램.
제6항에 있어서,

상기 부분적인 트리 식별 단계는,

상기 부분적인 트리 식별자의 일단에 위치되는 태그 식별자만을 대조하여, 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 정합하는 단계;

상기 정합 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 부분적인 트리 식별자의 수치 색인을 대조하여, 후보를 차단하는 단계;

상기 차단 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 정합에 이용하기 위하여 다음의 상위 태그로 연속적으로 올려서 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 반복하여 정합하는 단계; 및

상기 부분적인 트리 식별자를 반복적으로 정합하는 단계 후에 단독으로 남아 있는 부분적인 트리를 상기 선택된 부분적인 트리로서 식별하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 프로그램.
제5항에 있어서,

상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시된 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및

사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 단계;를 더 포함하는 것을 특징으로 하는 정보 추출 프로그램.
컴퓨터를 실행시켜, 구조화 문서의 임의의 부분을 사전에 선택하고, 갱신된 구조화 문서로부터 그 선택된 부분을 식별하기 위하여 트리 구조로 변환되는 구조화 문서로서, 상기 선택된 부분이 선택된 부분적인 트리에 대응되는 구조화 문서로부터 정보를 추출하도록 하는 프로그램이 내장되는 컴퓨터 판독 가능한 기록 매체에 있어서,

상기 프로그램은,

상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도 하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 선택된 부분적인 트리에 할당하는 단계;

상기 태그의 상기 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬시키는 단계; 및

상기 갱신된 구조화 문서에 존재하는 부분적인 트리의 부분적인 트리 식별자의 목록으로부터 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 동일한 부분적인 트리의 식별자를 갖는 부분적인 트리를 식별하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
제9항에 있어서,

상기 구조화 문서의 복수의 태그는 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,

상기 프로그램은,

상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각의 연속적인 수를 나타내는 수치 색인을 생성하는 단계; 및

태그 식별자와 수치 색인을 한 개의 세트로 결합하고, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
제10항에 있어서,

상기 부분적인 트리 식별 단계는,

상기 부분적인 트리 식별자의 일단에 위치되는 태그 식별자만을 대조하여, 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 정합하는 단계;

상기 정합 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 부분적인 트리 식별자의 수치 색인을 대조하여, 후보를 차단하는 단계;

상기 차단 단계 후에 부분적인 트리 식별자의 후보가 2개 이상 남아 있는 경우, 상기 정합에 이용하기 위하여 다음의 상위 태그로 연속적으로 올려서 상기 선택된 부분적인 트리의 부분적인 트리 식별자와 상기 부분적인 트리의 부분적인 트리 식별자를 반복하여 정합하는 단계; 및

상기 부분적인 트리 식별자를 반복적으로 정합하는 단계 후에 단독으로 남아 있는 부분적인 트리를 상기 선택된 부분적인 트리로서 식별하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
제9항에 있어서,

상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 대응하는 상기 트리 구조의 단부 노드를 검출하는 단계;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및

사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 단계;를 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
구조화 문서로부터 정보를 추출하는 장치로서,

상기 구조화 문서를 트리 구조로 변환하는 트리 구조 변환 유닛; 및

상기 선택된 부분적인 트리의 뿌리에 대응하는 태그명, 상기 태그의 적어도하나의 포맷 속성명, 및 상기 적어도 하나의 포맷 속성의 값으로 편성한 태그의 식별자를 포함하는 부분적인 트리 식별자를 상기 트리 구조의 부분적인 트리에 할당하는 부분적인 트리 식별자 생성 유닛;을 포함하는 것을 특징으로 하는 정보 추출 장치.
제13항에 있어서,

상기 부분적인 트리 식별자 생성 유닛은, 상기 태그의 적어도 하나의 포맷 속성이 2개 이상의 포맷 속성을 포함하는 경우, 상기 태그 식별자의 소정의 순서로 포맷 속성명을 정렬하는 것을 특징으로 하는 정보 추출 장치.
제13항에 있어서,

상기 구조화 문서의 복수의 태그는 상기 선택된 부분적인 트리의 포맷 속성과 동일한 상기 적어도 하나의 포맷 속성명과 태그명을 가지며,

상기 부분적인 트리 식별자 생성 장치는 상기 트리 구조의 동일한 계층 레벨에서 태그 식별자의 각각 연속적인 수를 나타내는 수치 색인을 생성하며, 태그 식별자와 수치 색인을 하나의 세트로 결합한 다음, 상기 트리 구조의 뿌리로부터 상기 선택된 부분적인 트리의 뿌리까지 태그 식별자와 수치 색인의 복수의 세트를 연속적으로 연결하며, 이를 통해 상기 부분적인 트리 식별자를 생성하는 것을 특징으로 하는 정보 추출 장치.
제13항에 있어서,

상기 구조화 문서를 디스플레이하는 스크린에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 노드 검출 유닛;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 선택 판정 유닛; 및

사용자가 선택한 상기 노드에 해당하는 상기 구조화 문서의 일부분을 상기 선택된 부분으로서 선택하는 부분 선택 유닛;을 더 포함하는 것을 특징으로 하는 정보 추출 장치.
구조화 문서의 일부분을 선택하고 추출하는 방법으로서,

상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및

사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 선택하여 추출하는 단계;를 포함하는 것을 특징으로 하는 방법.
제17항에 있어서,

상기 사용자에게 프롬프팅하는 단계는,

상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하는 단계;

노드 선택을 변경함으로써 원하는 영역을 선택하기 위해 사용자에게 프롬프팅하는 단계; 및

상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하는 단계;를 포함하고,

상기 구조화 문서의 일부분을 선택하여 추출하는 단계는, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 방법.
제18항에 있어서,

상기 노드를 판정하는 단계는,

상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 방법.
제18항에 있어서,

상기 노드를 판정하는 단계는,

상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는단계;를 포함하는 것을 특징으로 하는 방법.
제17항에 있어서,

사용자가 지정한 URL이 지적한 구조화 문서를 릴레이 서버로 전달하는 단계;

상기 릴레이 서버에서 상기 구조화 문서에 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 부착하는 단계; 및

상기 부착된 스크립트를 갖는 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 단계;를 더 포함하고,

상기 검출 단계, 프롬프팅 단계 및 선택 단계는 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 실행되는 것을 특징으로 하는 방법.
구조화 문서의 일부분을 선택하고 추출하는 장치로서,

상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 노드 검출 유닛;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 선택 판정 유닛; 및

사용자가 선택한 상기 노드에 해당하는 상기 구조화 문서의 일부분을 선택하여 추출하는 부분 추출 유닛;을 포함하는 것을 특징으로 하는 장치.
제22항에 있어서,

상기 선택 판정 장치는, 상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하고, 노드 선택을 변경하는 것에 의해 원하는 영역을 선택하기 위해 사용자에게 프롬프팅한 다음, 상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하며,

상기 부분 선택 유닛은, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 장치.
제23항에 있어서,

상기 판정 유닛은, 상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 것을 특징으로 하는 장치.
제23항에 있어서,

상기 판정 유닛은, 상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 것을 특징으로 하는 장치.
제22항에 있어서,

사용자가 지정한 URL에 의하여 지시된 상기 구조화 문서를 릴레이 서버로 전달하는 유닛;

상기 릴레이 서버에서 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 상기 구조화 문서에 부착하는 유닛; 및

상기 부착된 스크립트를 갖는 상기 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 유닛;을 더 포함하고,

상기 노드 검출 유닛, 상기 선택 판정 유닛 및 상기 부분 선택 유닛은 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 동작되는 것을 특징으로 하는 장치.
구조화 문서의 일부분을 선택하고 추출하는 프로그램으로서,

상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및

사용자가 선택한 노드에 해당하는 상기 구조화 문서의 일부분을 선택하여 추출하는 단계;를 포함하는 것을 특징으로 하는 프로그램.
제27항에 있어서,

상기 사용자에게 프롬프팅하는 단계는,

상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하는 단계;

노드 선택을 변경함으로써 원하는 영역을 선택하기 위해 사용자에게 프롬프팅하는 단계; 및

상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하는 단계;를 포함하고,

상기 구조화 문서의 일부분을 선택하여 추출하는 단계는, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 프로그램.
제28항에 있어서,

상기 노드를 판정하는 단계는,

상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 프로그램.
제28항에 있어서,

상기 노드를 판정하는 단계는,

상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는단계;를 포함하는 것을 특징으로 하는 프로그램.
제27항에 있어서,

사용자가 지정한 URL이 지적한 구조화 문서를 릴레이 서버로 전달하는 단계;

상기 릴레이 서버에서 상기 구조화 문서에 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 부착하는 단계; 및

상기 부착된 스크립트를 갖는 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 단계;를 더 포함하고,

상기 검출 단계, 프롬프팅 단계 및 선택 단계는 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 실행되는 것을 특징으로 하는 프로그램.
컴퓨터가 구조화 문서의 일부분을 선택하고 추출하도록 구현된 프로그램을 내장한 컴퓨터 판독가능한 매체에 있어서,

상기 프로그램은,

상기 구조화 문서를 디스플레이하는 스크린 상에 사용자가 지시한 위치에 해당하는 상기 트리 구조의 단부 노드를 검출하는 단계;

상기 단부 노드로부터 다음의 상위 노드를 연속적으로 검출함으로써 취득되는 일련의 노드 중에 하나의 노드를 선택하기 위하여 사용자에게 프롬프팅하는 단계; 및

사용자가 선택한 노드에 해당하는 구조화 문서의 일부분을 선택하여 추출하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
제32항에 있어서,

상기 사용자에게 프롬프팅하는 단계는,

상기 노드 중 하나에 해당하는 상기 구조화 문서의 일부분의 영역을 스크린 상에 표시하는 단계;

노드 선택을 변경함으로써 원하는 영역을 선택하기 위해 사용자에게 프롬프팅하는 단계; 및

상기 선택된 원하는 영역에 해당하는 노드를 사용자 선택 노드로서 판정하는 단계;를 포함하고,

상기 구조화 문서의 일부분을 선택하여 추출하는 단계는, 상기 사용자 선택 노드에 해당하는 상기 구조화 문서의 일부분을 선택하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
제33항에 있어서,

상기 노드를 판정하는 단계는,

상기 복수의 노드가 상기 선택된 원하는 영역에 해당하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
제33항에 있어서,

상기 노드를 판정하는 단계는,

상기 복수의 노드가 동일한 텍스트 및 이에 속한 이미지 데이터를 포함하는 경우, 복수의 노드 중 최상위 레벨의 노드를 상기 사용자 선택 노드로서 선택하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.
제32항에 있어서,

사용자가 지정한 URL에 의하여 지적된 구조화 문서를 릴레이 서버로 전달하는 단계;

상기 릴레이 서버에서 상기 구조화 문서에 문서 부분을 선택하고 추출하는 기능을 포함하는 스크립트를 부착하는 단계; 및

상기 부착된 스크립트를 갖는 구조화 문서를 상기 릴레이 서버로부터 사용자 단말기로 전달하는 단계;를 더 포함하고, 상기 검출 단계, 프롬프팅 단계 및 선택 단계는 상기 사용자 단말기에서 상기 부착된 스크립트를 이용하여 실행되는 것을 특징으로 하는 컴퓨터 판독가능한 매체.