KR20030085719A - 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 - Google Patents
쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 Download PDFInfo
- Publication number
- KR20030085719A KR20030085719A KR1020020023936A KR20020023936A KR20030085719A KR 20030085719 A KR20030085719 A KR 20030085719A KR 1020020023936 A KR1020020023936 A KR 1020020023936A KR 20020023936 A KR20020023936 A KR 20020023936A KR 20030085719 A KR20030085719 A KR 20030085719A
- Authority
- KR
- South Korea
- Prior art keywords
- web page
- information
- blocks
- source code
- shopping mall
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000003909 pattern recognition Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/50—Business processes related to the communications industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치에 관한 것으로, (a) 웹페이지의 소스코드를 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 단계;(b) 블록들에 포함된 에이취티엠엘 태그를 분석하여 블록들의 패턴을 인식하는 단계;(c) 인식된 패턴에서 블록들의 항목이름 및 링크정보를 추출하는 단계;(d) 링크정보로부터 하위분류항목들에 대한 유알엘을 생성하는 단계;(e) 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 단계를 포함하므로, 쇼핑몰에게 별도의 인터페이스 제작 부담을 주지 않고 기 제작된 사용자용 인터페이스만 이용하여, 쇼핑몰이 보유하고 있는 상품정보를 모두 수집할 수 있게 한다.
Description
본 발명은 웹페이지를 항해하는 분야에 관한 것으로, 특히, 웹페이지에 대한 소스코드를 분석하여 태그에 대한 패턴을 인식하여 웹페이지를 항해하는 방법 및그 장치에 관한 것이다.
쇼핑몰의 데이터베이스에 들어있는 상품 정보에 접근하기 위해서는, 쇼핑몰에서 제공하는 인터페이스를 이용해야 한다. 사용자는 이렇게 주어진 인터페이스를 통해 상품 정보를 요청하고, 쇼핑몰에서 내부적으로 처리 과정을 거친 다음, 다시 사용자를 위한 인터페이스를 통해 생성된 상품 정보를 제공받는다. 현재 인터넷 상의 대부분의 쇼핑몰에서 채택하고 있는 사용자 인터페이스는 크게 카테고리 방식과 키워드 검색 방식 두 가지이다. 그리고, 특수한 경우에 한해 쇼핑몰과 협약을 거쳐 특정 형식으로 정보를 제공받는 인터페이스가 있다.
카테고리 방식과 키워드 검색 방식의 차이는 표1과 같다.
카테고리 방식 | 키워드 방식 | |
동작원리 | 구축된 카테고리를 이용한 정보탐색 | 제공하는 검색창을 이용한 정보검색 |
구성 | 보유하고 있는 모든 상품정보를 체계화시킨 트리형식 | 포인트(임의의 한 정보에 대해 결과 얻음) |
정보제공영역 | 보유하고 있는 모든 영역 | 보유하고 있는 모든 정보를 가져오는 것은 어려움(모든 정보를 가져올 수 있는 키워드의 집합을 구하는 것이 불가능에 가까움) |
자동화 가능성 | 상대적으로 어려움 | 상대적으로 용이 |
현재 학계에 발표된 알고리즘이나, 기존에 구축된 가격 비교 에이전트는 키워드 검색 방식의 사용자 인터페이스를 이용하거나, 별도 협약을 거쳐 정보를 제공받는 인터페이스를 이용하고 있다. 키워드 검색 방식은 가격 비교 에이전트를 이용하는 사용자가 입력하는 키워드를 쇼핑몰에 질의함으로써 이에 관련된 상품 정보를 얻는 방식의 인터페이스이고, 별도 협약 방식은 원하는 정보의 범위, 표현 형태 등에 대한 사항을 미리 약속하고 쇼핑몰로부터 정보를 제공받는 방식의 인터페이스를말한다.
전술한 인터페이스 중 키워드 검색 방식과 별도 협약 방식은 각각 다음과 같은 문제점을 가진다.
키워드 검색 방식의 가장 큰 문제점은 쇼핑몰에서 구축한 상품 정보를 모두 수집하기가 매우 어렵다. 사용자가 관심을 갖고 요청한 키워드에 관련된 상품에 대한 정보만 실시간으로 제공하는 작업에는 키워드 검색 방식이 적합하다. 하지만, 쇼핑몰로부터 상품 정보를 모두 수집하여 데이터베이스에 저장하는 작업을 위해선, 질문을 반복적으로 함으로써 수집한 상품 정보의 영역을 점점 넓혀가는 방법을 생각할 수 있으나, 키워드의 집합이 매우 방대하고 어느 시점에서 상품 정보가 모두 수집되었는지 판단하기가 어렵다는 문제가 있다.
별도 협약 방식은 수집할 수 있는 정보의 양과 품질 양면에서 모두 만족스럽지만, 쇼핑몰과 사전에 협약을 거쳐야 한다는 불편함이 따른다. 또, 쇼핑몰 입장에서는 사용자용 인터페이스뿐만 아니라 각각의 비교 검색 에이전트마다 별도 협약 인터페이스를 제작, 관리해야 하는 부담이 생긴다.
본 발명이 이루고자 하는 기술적 과제는, 상기 문제점들을 해결하기 위해 웹페이지를 방문하여 소스코드를 수집하여 그 소스코드를 분석하고 태그의 패턴을 인식하여 웹페이지를 항해하는 방법 및 그 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.
도 1은 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 장치에 대한 블록도를 나타내는 도면이다.
도 2는 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 방법에 대한 흐름을 나타내는 도면이다.
도 3은 웹페이지를 구성하는 에이취티엠엘로 된 소스코드의 기본구조를 나타내는 도면이다.
도 4는 쇼핑몰 웹페이지의 일부분(도 4a) 및 그 웹페이지의 소스코드(도4b)를 나타내는 도면이다.
도 5는 본 발명에 따라서 웹페이지를 항해하기 위해서 태그를 분석한 도면을 나타낸다.
상기 과제를 이루기 위한 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 방법은, (a) 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 단계;(b) 상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 단계;(c) 상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 단계;(d) 상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 단계;(e) 상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 단계를 포함한다.
상기 과제를 이루기 위한 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 장치는, 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 블럭형성부;상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 패턴인식부;상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 링크정보추출부;상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 유알엘생성부;상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 트리형성부를 포함한다.
이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 장치(100)에 대한 블록도를 나타내는 도면으로, 쇼핑몰웹페이지(101-1 내지 101-n)를 방문하여 그 웹페이지들의 소스코드를 분석하여 하위분류항목으로 분류하게 된다.
도 2는 본 발명에 따른 쇼핑몰 웹페이지를 항해하는 방법에 대한 흐름을 나타내는 도면이다.
도 3은 웹페이지를 구성하는 에이취티엠엘로 된 소스코드의 기본구조를 나타내는 도면이다.
도 4는 쇼핑몰 웹페이지의 일부분(도 4a) 및 그 웹페이지의 소스코드(도 4b)를 나타내는 도면이다.
도 5는 본 발명에 따라서 웹페이지를 항해하기 위해서 태그를 분석한 도면을 나타낸다.
이하 도 1 및 도 5를 함께 설명하기로 한다.
사이트명 또는 유알엘(URL) 정보를 입력받아 소스코드수집부는(110)는 쇼핑몰웹페이지(101-1 내지 101-n)의 소스코드정보를 수집한다. 블록형성부(120)는 웹페이지에서 항해하려는 하위분류항목을 선택하여 하위분류항목의 소스코드에서의 위치를 찾아내고 소스코드에서 에이취티엠엘의 태그들의 속성을 파악하여 하나의 하위분류항목에 대한 블록으로 구분(210단계)한다. 여기서, 하위분류항목이란 현재위치(또는 현재의 웹페이지)보다 낮은 수준의 위치(웹페이지)를 나타낸다. 소스코드에서 하위분류항목의 위치를 찾기 위해서는 도 3의 에이취티엠엘의 기본구조에서 에이취엠엘의 내용이 들어가 있는 에이취티엠엘의 몸통부분(<body>~</body>부분)을나타내는 도 4b의 소스코드에서 하위분류항목들에 대한 블록을 구분한다.
블록이 구분되면, 패턴인식부(130)는 블록을 구성하는 태그들의 종류, 태그의 나열 순서 또는 스트링을 분석하여 일련의 태그의 집단을 추출하여 태그의 패턴을 인식하게 된다(220단계). 예를 들면, 도 3에서 컴퓨터/노트북'부터 'OA/사무기기'까지의 하위분류항목을 분석하려 한다면, '컴퓨터 주변기기' 항목을 선택했다면, 소스코드를 분석하여 이 항목을 찾는다. 그리고, 이 항목의 주변 코드를 모두 분석하여 <tr>부터 </tr>까지의 코드가 이 항목을 표현하는 블럭이라는 사실을 알아낸다. 블럭을 결정한 이후, 블럭을 구성하는 태그를 분석하여 이 블럭이 <tr>, <td>, <a>, 스트링, </a>, </td> 및 </tr>로 구성되어 있음을 밝혀낸다. 블럭 내에 포함된 특정 키워드는 필요하다고 판단되는 경우에만 분석하여 패턴 정보에 함께 저장해 둔다.
소스코드에 대한 패턴이 인식되면, 링크정보추출부(140)는 태그가 표시하는 항목이름 및 링크정보를 추출하게 된다(230단계). 도 5는 태그에 대한 패턴인식을 나타내는 데, 항목이름과 링크정보를 나타내는 태그를 표시하고 있다.
유알엘생성부(150)는 링크정보에서 하위분류항목들에 대한 유알엘(URL)을 생성(240단계)한다.
트리형성부(160)는 상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하고 최하위 분류항목가지 트리로 생성될 때까지 반복한 후에 데이터베이스(190)에 저장(250단계)한다.
클라이언트가 상품정보에 대한 검색어를 입력하면, 상품정보추출부(170)는데이터베이스(190)에서 상품정보를 추출(260단계)하여 정보제공부(180)를 통해서 상품정보를 제공(270단계)한다.
이와 같은 방법에 의해서, 체계화된 상품정보의 추출이 용이해져 클라이언트에게 상품정보를 제공할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상에서 설명한 바와 같이, 본 발명에 의하면, 쇼핑몰에 각각의 가격 비교 에이전트에 대한 인터페이스를 제작해야 하는 추가부담을 주지 않고, 쇼핑몰이 보유한 정보 전체에 대해 접근할 수 있다. 이 방법을 통해 가격 비교 에이전트는 인터넷 쇼핑몰들이 보유한 모든 상품 정보에 더욱 쉽게 접근하여, 상품 정보를 수집할 수 있다.
Claims (10)
- (a) 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 단계;(b) 상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 단계;(c) 상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 단계;(d) 상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 단계; 및(e) 상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는 웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 단계를 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
- 제 1항에 있어서,웹페이지의 이름 또는 유알엘 정보를 입력받아 소스코드정보를 수집하는 단계를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
- 제 1항에 있어서, 상기 (a)단계는상기 소스코드에서 상기 에이취티엠엘의 태그들의 속성을 파악하여 하나의 하위분류항목에 대한 블록으로 구분하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
- 제 1항에 있어서, 상기 (b)단계는각 블록을 구성하는 태그들의 종류 또는 순서를 포함하는 태그정보를 파악하여 일련의 태그의 집단을 추출하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
- 제 1항에 있어서,상기 유알엘에 해당하는 웹페이지로부터 정보를 추출하는 단계; 및상기 추출한 정보를 사용자들에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 방법.
- 웹페이지의 소스코드를 상기 웹페이지의 위치에서 하위분류항목에 대한 정보를 가지는 블록들로 구분하는 블럭형성부;상기 블록들에 포함된 에이취티엠엘 태그를 분석하여 상기 블록들의 패턴을 인식하는 패턴인식부;상기 인식된 패턴에서 상기 블록들의 항목이름 및 링크정보를 추출하는 링크정보추출부;상기 링크정보로부터 상기 하위분류항목들에 대한 유알엘을 생성하는 유알엘생성부; 및상기 웹페이지들의 홈페이지를 부모노드로 하고 생성한 유알엘에 해당하는웹페이지를 자식노드로 하는 트리를 생성하여 저장하는 트리형성부를 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
- 제 6항에 있어서,웹페이지의 이름 또는 유알엘 정보를 입력받아 소스코드정보를 수집하는 소스코드수집부를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
- 제 6항에 있어서, 패턴인식부는각 블록을 구성하는 태그들의 종류 또는 순서를 포함하는 태그정보를 파악하여 일련의 태그의 집단을 추출하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
- 제 6항에 있어서,상기 유알엘에 해당하는 웹페이지로부터 정보를 추출하는 정보추출부; 및상기 추출한 정보를 사용자들에게 제공하는 정보제공부를 더 포함하는 것을 특징으로 하는 쇼핑몰 웹페이지를 항해하는 장치.
- 제 1항 내지 제 5항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020023936A KR20030085719A (ko) | 2002-05-01 | 2002-05-01 | 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020023936A KR20030085719A (ko) | 2002-05-01 | 2002-05-01 | 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20030085719A true KR20030085719A (ko) | 2003-11-07 |
Family
ID=32381105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020020023936A KR20030085719A (ko) | 2002-05-01 | 2002-05-01 | 쇼핑몰 웹페이지를 항해하는 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20030085719A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100984691B1 (ko) * | 2007-10-01 | 2010-10-01 | 김기미 | 멀티 인터넷주소를 이용한 다중관계 다차원구조 인터넷데이터 양방향 웹사이트 관리시스템 |
KR101046446B1 (ko) * | 2008-11-18 | 2011-07-04 | 주식회사 엘지유플러스 | 웹페이지 로딩 방법 및 시스템 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000006680A (ko) * | 1999-10-16 | 2000-02-07 | 최현창 | 인터넷 쇼핑몰의 상품 정보 제공 방법 |
KR100296500B1 (ko) * | 1999-10-28 | 2001-07-12 | 한상천 | 지능형 인터넷 쇼핑몰 상품비교검색엔진 |
KR100312430B1 (ko) * | 1999-12-09 | 2001-11-05 | 오길록 | 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법 |
KR20020012646A (ko) * | 2000-08-08 | 2002-02-20 | 장용현 | 인터넷상의 상품검색서비스모델 |
JP2002063132A (ja) * | 2000-08-17 | 2002-02-28 | Yamada Denki Co Ltd | インターネットにおけるホームページの同時表示・同時比較方法及び同時比較ショッピング方法 |
KR20020043993A (ko) * | 2000-12-05 | 2002-06-14 | 오길록 | 패턴정보를 이용한 상품정보 추출 장치 및 방법 |
-
2002
- 2002-05-01 KR KR1020020023936A patent/KR20030085719A/ko not_active Application Discontinuation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000006680A (ko) * | 1999-10-16 | 2000-02-07 | 최현창 | 인터넷 쇼핑몰의 상품 정보 제공 방법 |
KR100296500B1 (ko) * | 1999-10-28 | 2001-07-12 | 한상천 | 지능형 인터넷 쇼핑몰 상품비교검색엔진 |
KR100312430B1 (ko) * | 1999-12-09 | 2001-11-05 | 오길록 | 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법 |
KR20020012646A (ko) * | 2000-08-08 | 2002-02-20 | 장용현 | 인터넷상의 상품검색서비스모델 |
JP2002063132A (ja) * | 2000-08-17 | 2002-02-28 | Yamada Denki Co Ltd | インターネットにおけるホームページの同時表示・同時比較方法及び同時比較ショッピング方法 |
KR20020043993A (ko) * | 2000-12-05 | 2002-06-14 | 오길록 | 패턴정보를 이용한 상품정보 추출 장치 및 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100984691B1 (ko) * | 2007-10-01 | 2010-10-01 | 김기미 | 멀티 인터넷주소를 이용한 다중관계 다차원구조 인터넷데이터 양방향 웹사이트 관리시스템 |
KR101046446B1 (ko) * | 2008-11-18 | 2011-07-04 | 주식회사 엘지유플러스 | 웹페이지 로딩 방법 및 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5340751B2 (ja) | 文書処理装置および文書処理方法 | |
US8185530B2 (en) | Method and system for web document clustering | |
JP6017155B2 (ja) | 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体 | |
Crescenzi et al. | Clustering web pages based on their structure | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
TWI417748B (zh) | 用於擴充一查詢之方法及電腦可讀取儲存媒體 | |
CN102073726B (zh) | 搜索引擎系统的结构化数据的引入方法和装置 | |
Papadakis et al. | Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques | |
EP1653380A1 (en) | Web page ranking with hierarchical considerations | |
US20100241639A1 (en) | Apparatus and methods for concept-centric information extraction | |
US20060288275A1 (en) | Method for classifying sub-trees in semi-structured documents | |
US20070198727A1 (en) | Method, apparatus and system for extracting field-specific structured data from the web using sample | |
JP2006525601A (ja) | 概念ネットワーク | |
US20060161531A1 (en) | Method and system for information extraction | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
US8121970B1 (en) | Method for identifying primary product objects | |
JP4769151B2 (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
JPWO2003060764A1 (ja) | 情報検索システム | |
Lin et al. | Automatic sitemaps generation: Exploring website structures using block extraction and hyperlink analysis | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
US7788258B1 (en) | Automatic determination of whether a document includes an image gallery | |
Nethra et al. | WEB CONTENT EXTRACTION USING HYBRID APPROACH. | |
JP4010058B2 (ja) | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Bharamagoudar et al. | Literature survey on web mining | |
Chehreghani et al. | Density link-based methods for clustering web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |