KR20030085719A - 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 - Google Patents

쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 Download PDF

Info

Publication number
KR20030085719A
KR20030085719A KR1020020023936A KR20020023936A KR20030085719A KR 20030085719 A KR20030085719 A KR 20030085719A KR 1020020023936 A KR1020020023936 A KR 1020020023936A KR 20020023936 A KR20020023936 A KR 20020023936A KR 20030085719 A KR20030085719 A KR 20030085719A
Authority
KR
South Korea
Prior art keywords
web page
information
blocks
source code
shopping mall
Prior art date
Application number
KR1020020023936A
Other languages
English (en)
Inventor
최영재
서홍석
이호선
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020020023936A priority Critical patent/KR20030085719A/ko
Publication of KR20030085719A publication Critical patent/KR20030085719A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/50Business processes related to the communications industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치에 관한 것으로, (a) 웹페이지의 소스코드를 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 단계;(b) 블록들에 포함된 에이취티엠엘 태그를 분석하여 블록들의 패턴을 인식하는 단계;(c) 인식된 패턴에서 블록들의 항목이름 및 링크정보를 추출하는 단계;(d) 링크정보로부터 하위분류항목들에 대한 유알엘을 생성하는 단계;(e) 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 단계를 포함하므로, 쇼핑몰에게 별도의 인터페이스 제작 부담을 주지 않고 기 제작된 사용자용 인터페이스만 이용하여, 쇼핑몰이 보유하고 있는 상품정보를 모두 수집할 수 있게 한다.

Description

쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 {Method classifying shopping mall webpages and apparatus thereof}
본 발명은 웹페이지를 항해하는 분야에 관한 것으로, 특히, 웹페이지에 대한 소스코드를 분석하여 태그에 대한 패턴을 인식하여 웹페이지를 항해하는 방법 및그 장치에 관한 것이다.
쇼핑몰의 데이터베이스에 들어있는 상품 정보에 접근하기 위해서는, 쇼핑몰에서 제공하는 인터페이스를 이용해야 한다. 사용자는 이렇게 주어진 인터페이스를 통해 상품 정보를 요청하고, 쇼핑몰에서 내부적으로 처리 과정을 거친 다음, 다시 사용자를 위한 인터페이스를 통해 생성된 상품 정보를 제공받는다. 현재 인터넷 상의 대부분의 쇼핑몰에서 채택하고 있는 사용자 인터페이스는 크게 카테고리 방식과 키워드 검색 방식 두 가지이다. 그리고, 특수한 경우에 한해 쇼핑몰과 협약을 거쳐 특정 형식으로 정보를 제공받는 인터페이스가 있다.
카테고리 방식과 키워드 검색 방식의 차이는 표1과 같다.
카테고리 방식 키워드 방식
동작원리 구축된 카테고리를 이용한 정보탐색 제공하는 검색창을 이용한 정보검색
구성 보유하고 있는 모든 상품정보를 체계화시킨 트리형식 포인트(임의의 한 정보에 대해 결과 얻음)
정보제공영역 보유하고 있는 모든 영역 보유하고 있는 모든 정보를 가져오는 것은 어려움(모든 정보를 가져올 수 있는 키워드의 집합을 구하는 것이 불가능에 가까움)
자동화 가능성 상대적으로 어려움 상대적으로 용이
현재 학계에 발표된 알고리즘이나, 기존에 구축된 가격 비교 에이전트는 키워드 검색 방식의 사용자 인터페이스를 이용하거나, 별도 협약을 거쳐 정보를 제공받는 인터페이스를 이용하고 있다. 키워드 검색 방식은 가격 비교 에이전트를 이용하는 사용자가 입력하는 키워드를 쇼핑몰에 질의함으로써 이에 관련된 상품 정보를 얻는 방식의 인터페이스이고, 별도 협약 방식은 원하는 정보의 범위, 표현 형태 등에 대한 사항을 미리 약속하고 쇼핑몰로부터 정보를 제공받는 방식의 인터페이스를말한다.
전술한 인터페이스 중 키워드 검색 방식과 별도 협약 방식은 각각 다음과 같은 문제점을 가진다.
키워드 검색 방식의 가장 큰 문제점은 쇼핑몰에서 구축한 상품 정보를 모두 수집하기가 매우 어렵다. 사용자가 관심을 갖고 요청한 키워드에 관련된 상품에 대한 정보만 실시간으로 제공하는 작업에는 키워드 검색 방식이 적합하다. 하지만, 쇼핑몰로부터 상품 정보를 모두 수집하여 데이터베이스에 저장하는 작업을 위해선, 질문을 반복적으로 함으로써 수집한 상품 정보의 영역을 점점 넓혀가는 방법을 생각할 수 있으나, 키워드의 집합이 매우 방대하고 어느 시점에서 상품 정보가 모두 수집되었는지 판단하기가 어렵다는 문제가 있다.
별도 협약 방식은 수집할 수 있는 정보의 양과 품질 양면에서 모두 만족스럽지만, 쇼핑몰과 사전에 협약을 거쳐야 한다는 불편함이 따른다. 또, 쇼핑몰 입장에서는 사용자용 인터페이스뿐만 아니라 각각의 비교 검색 에이전트마다 별도 협약 인터페이스를 제작, 관리해야 하는 부담이 생긴다.
본 발명이 이루고자 하는 기술적 과제는, 상기 문제점들을 해결하기 위해 웹페이지를 방문하여 소스코드를 수집하여 그 소스코드를 분석하고 태그의 패턴을 인식하여 웹페이지를 항해하는 방법 및 그 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.
도 1은 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 장치에 대한 블록도를 나타내는 도면이다.
도 2는 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 방법에 대한 흐름을 나타내는 도면이다.
도 3은 웹페이지를 구성하는 에이취티엠엘로 된 소스코드의 기본구조를 나타내는 도면이다.
도 4는 쇼핑몰 웹페이지의 일부분(도 4a) 및 그 웹페이지의 소스코드(도4b)를 나타내는 도면이다.
도 5는 본 발명에 따라서 웹페이지를 항해하기 위해서 태그를 분석한 도면을 나타낸다.
상기 과제를 이루기 위한 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 방법은, (a) 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 단계;(b) 상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 단계;(c) 상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 단계;(d) 상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 단계;(e) 상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 단계를 포함한다.
상기 과제를 이루기 위한 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 장치는, 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 블럭형성부;상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 패턴인식부;상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 링크정보추출부;상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 유알엘생성부;상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 트리형성부를 포함한다.
이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 장치(100)에 대한 블록도를 나타내는 도면으로, 쇼핑몰웹페이지(101-1 내지 101-n)를 방문하여 그 웹페이지들의 소스코드를 분석하여 하위분류항목으로 분류하게 된다.
도 2는 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 방법에 대한 흐름을 나타내는 도면이다.
도 3은 웹페이지를 구성하는 에이취티엠엘로 된 소스코드의 기본구조를 나타내는 도면이다.
도 4는 쇼핑몰 웹페이지의 일부분(도 4a) 및 그 웹페이지의 소스코드(도 4b)를 나타내는 도면이다.
도 5는 본 발명에 따라서 웹페이지를 항해하기 위해서 태그를 분석한 도면을 나타낸다.
이하 도 1 및 도 5를 함께 설명하기로 한다.
사이트명 또는 유알엘(URL) 정보를 입력받아 소스코드수집부는(110)는 쇼핑몰웹페이지(101-1 내지 101-n)의 소스코드정보를 수집한다. 블록형성부(120)는 웹페이지에서 항해하려는 하위분류항목을 선택하여 하위분류항목의 소스코드에서의 위치를 찾아내고 소스코드에서 에이취티엠엘의 태그들의 속성을 파악하여 하나의 하위분류항목에 대한 블록으로 구분(210단계)한다. 여기서, 하위분류항목이란 현재위치(또는 현재의 웹페이지)보다 낮은 수준의 위치(웹페이지)를 나타낸다. 소스코드에서 하위분류항목의 위치를 찾기 위해서는 도 3의 에이취티엠엘의 기본구조에서 에이취엠엘의 내용이 들어가 있는 에이취티엠엘의 몸통부분(<body>~</body>부분)을나타내는 도 4b의 소스코드에서 하위분류항목들에 대한 블록을 구분한다.
블록이 구분되면, 패턴인식부(130)는 블록을 구성하는 태그들의 종류, 태그의 나열 순서 또는 스트링을 분석하여 일련의 태그의 집단을 추출하여 태그의 패턴을 인식하게 된다(220단계). 예를 들면, 도 3에서 컴퓨터/노트북'부터 'OA/사무기기'까지의 하위분류항목을 분석하려 한다면, '컴퓨터 주변기기' 항목을 선택했다면, 소스코드를 분석하여 이 항목을 찾는다. 그리고, 이 항목의 주변 코드를 모두 분석하여 <tr>부터 </tr>까지의 코드가 이 항목을 표현하는 블럭이라는 사실을 알아낸다. 블럭을 결정한 이후, 블럭을 구성하는 태그를 분석하여 이 블럭이 <tr>, <td>, <a>, 스트링, </a>, </td> 및 </tr>로 구성되어 있음을 밝혀낸다. 블럭 내에 포함된 특정 키워드는 필요하다고 판단되는 경우에만 분석하여 패턴 정보에 함께 저장해 둔다.
소스코드에 대한 패턴이 인식되면, 링크정보추출부(140)는 태그가 표시하는 항목이름 및 링크정보를 추출하게 된다(230단계). 도 5는 태그에 대한 패턴인식을 나타내는 데, 항목이름과 링크정보를 나타내는 태그를 표시하고 있다.
유알엘생성부(150)는 링크정보에서 하위분류항목들에 대한 유알엘(URL)을 생성(240단계)한다.
트리형성부(160)는 상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하고 최하위 분류항목가지 트리로 생성될 때까지 반복한 후에 데이터베이스(190)에 저장(250단계)한다.
클라이언트가 상품정보에 대한 검색어를 입력하면, 상품정보추출부(170)는데이터베이스(190)에서 상품정보를 추출(260단계)하여 정보제공부(180)를 통해서 상품정보를 제공(270단계)한다.
이와 같은 방법에 의해서, 체계화된 상품정보의 추출이 용이해져 클라이언트에게 상품정보를 제공할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상에서 설명한 바와 같이, 본 발명에 의하면, 쇼핑몰에 각각의 가격 비교 에이전트에 대한 인터페이스를 제작해야 하는 추가부담을 주지 않고, 쇼핑몰이 보유한 정보 전체에 대해 접근할 수 있다. 이 방법을 통해 가격 비교 에이전트는 인터넷 쇼핑몰들이 보유한 모든 상품 정보에 더욱 쉽게 접근하여, 상품 정보를 수집할 수 있다.

Claims (10)

  1. (a) 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 단계;
    (b) 상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 단계;
    (c) 상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 단계;
    (d) 상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 단계; 및
    (e) 상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 단계를 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
  2. 제 1항에 있어서,
    웹페이지의 이름 또는 유알엘 정보를 입력받아 소스코드정보를 수집하는 단계를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
  3. 제 1항에 있어서, 상기 (a)단계는
    상기 소스코드에서 상기 에이취티엠엘의 태그들의 속성을 파악하여 하나의 하위분류항목에 대한 블록으로 구분하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
  4. 제 1항에 있어서, 상기 (b)단계는
    각 블록을 구성하는 태그들의 종류 또는 순서를 포함하는 태그정보를 파악하여 일련의 태그의 집단을 추출하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
  5. 제 1항에 있어서,
    상기 유알엘에 해당하는 웹페이지로부터 정보를 추출하는 단계; 및
    상기 추출한 정보를 사용자들에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
  6. 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 블럭형성부;
    상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 패턴인식부;
    상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 링크정보추출부;
    상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 유알엘생성부; 및
    상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 트리형성부를 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
  7. 제 6항에 있어서,
    웹페이지의 이름 또는 유알엘 정보를 입력받아 소스코드정보를 수집하는 소스코드수집부를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
  8. 제 6항에 있어서, 패턴인식부는
    각 블록을 구성하는 태그들의 종류 또는 순서를 포함하는 태그정보를 파악하여 일련의 태그의 집단을 추출하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
  9. 제 6항에 있어서,
    상기 유알엘에 해당하는 웹페이지로부터 정보를 추출하는 정보추출부; 및
    상기 추출한 정보를 사용자들에게 제공하는 정보제공부를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
  10. 제 1항 내지 제 5항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020020023936A 2002-05-01 2002-05-01 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 KR20030085719A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020023936A KR20030085719A (ko) 2002-05-01 2002-05-01 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020023936A KR20030085719A (ko) 2002-05-01 2002-05-01 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20030085719A true KR20030085719A (ko) 2003-11-07

Family

ID=32381105

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020023936A KR20030085719A (ko) 2002-05-01 2002-05-01 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20030085719A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100984691B1 (ko) * 2007-10-01 2010-10-01 김기미 멀티 인터넷주소를 이용한 다중관계 다차원구조 인터넷데이터 양방향 웹사이트 관리시스템
KR101046446B1 (ko) * 2008-11-18 2011-07-04 주식회사 엘지유플러스 웹페이지 로딩 방법 및 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000006680A (ko) * 1999-10-16 2000-02-07 최현창 인터넷 쇼핑몰의 상품 정보 제공 방법
KR100296500B1 (ko) * 1999-10-28 2001-07-12 한상천 지능형 인터넷 쇼핑몰 상품비교검색엔진
KR100312430B1 (ko) * 1999-12-09 2001-11-05 오길록 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법
KR20020012646A (ko) * 2000-08-08 2002-02-20 장용현 인터넷상의 상품검색서비스모델
JP2002063132A (ja) * 2000-08-17 2002-02-28 Yamada Denki Co Ltd インターネットにおけるホームページの同時表示・同時比較方法及び同時比較ショッピング方法
KR20020043993A (ko) * 2000-12-05 2002-06-14 오길록 패턴정보를 이용한 상품정보 추출 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000006680A (ko) * 1999-10-16 2000-02-07 최현창 인터넷 쇼핑몰의 상품 정보 제공 방법
KR100296500B1 (ko) * 1999-10-28 2001-07-12 한상천 지능형 인터넷 쇼핑몰 상품비교검색엔진
KR100312430B1 (ko) * 1999-12-09 2001-11-05 오길록 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법
KR20020012646A (ko) * 2000-08-08 2002-02-20 장용현 인터넷상의 상품검색서비스모델
JP2002063132A (ja) * 2000-08-17 2002-02-28 Yamada Denki Co Ltd インターネットにおけるホームページの同時表示・同時比較方法及び同時比較ショッピング方法
KR20020043993A (ko) * 2000-12-05 2002-06-14 오길록 패턴정보를 이용한 상품정보 추출 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100984691B1 (ko) * 2007-10-01 2010-10-01 김기미 멀티 인터넷주소를 이용한 다중관계 다차원구조 인터넷데이터 양방향 웹사이트 관리시스템
KR101046446B1 (ko) * 2008-11-18 2011-07-04 주식회사 엘지유플러스 웹페이지 로딩 방법 및 시스템

Similar Documents

Publication Publication Date Title
JP5340751B2 (ja) 文書処理装置および文書処理方法
US8185530B2 (en) Method and system for web document clustering
JP6017155B2 (ja) 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体
Crescenzi et al. Clustering web pages based on their structure
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
TWI417748B (zh) 用於擴充一查詢之方法及電腦可讀取儲存媒體
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
Papadakis et al. Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques
EP1653380A1 (en) Web page ranking with hierarchical considerations
US20100241639A1 (en) Apparatus and methods for concept-centric information extraction
US20060288275A1 (en) Method for classifying sub-trees in semi-structured documents
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
JP2006525601A (ja) 概念ネットワーク
US20060161531A1 (en) Method and system for information extraction
US20090083266A1 (en) Techniques for tokenizing urls
US8121970B1 (en) Method for identifying primary product objects
JP4769151B2 (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JPWO2003060764A1 (ja) 情報検索システム
Lin et al. Automatic sitemaps generation: Exploring website structures using block extraction and hyperlink analysis
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
US7788258B1 (en) Automatic determination of whether a document includes an image gallery
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
JP4010058B2 (ja) 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
Bharamagoudar et al. Literature survey on web mining
Chehreghani et al. Density link-based methods for clustering web pages

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application