KR100283103B1 - 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템 - Google Patents

온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템 Download PDF

Info

Publication number
KR100283103B1
KR100283103B1 KR1019980052222A KR19980052222A KR100283103B1 KR 100283103 B1 KR100283103 B1 KR 100283103B1 KR 1019980052222 A KR1019980052222 A KR 1019980052222A KR 19980052222 A KR19980052222 A KR 19980052222A KR 100283103 B1 KR100283103 B1 KR 100283103B1
Authority
KR
South Korea
Prior art keywords
information
product information
html
price
product
Prior art date
Application number
KR1019980052222A
Other languages
English (en)
Other versions
KR20000037595A (ko
Inventor
강대기
이제선
함호상
박상봉
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980052222A priority Critical patent/KR100283103B1/ko
Priority to CN99124434A priority patent/CN1255680A/zh
Priority to JP33862399A priority patent/JP2000172722A/ja
Publication of KR20000037595A publication Critical patent/KR20000037595A/ko
Application granted granted Critical
Publication of KR100283103B1 publication Critical patent/KR100283103B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 인터넷의 웹 상에서 하이퍼 텍스트 마크업 랭귀지(Hyper Text Markup Language: HTML) 문서의 형태로 존재하는 온라인 상점들의 제품에 관한 HTML 문서들을 가져와서, 〈사이트 ID, 회사명, 제품 분류명, 주요 기능, 상품명, 모델명, 가격, URL〉로 구성되는 제품 정보를 추출하는 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템에 관한 것이다.
본 발명은 온라인 상점들의 HTML 문서들을 로봇으로 가져오는 단계와, HTML 문서들에서 가격 정보를 찾아내고 그 밖의 필요한 정보들만 남기고 불필요한 정보들을 제거하는 전처리(preprocessing) 단계와, 전처리 단계의 결과를 읽어들여 페이지의 유형을 판별하는 단계와 판별된 각 유형에 맞는 알고리즘을 적용하여 제품 정보를 추출하는 단계와 각각의 유형에 따른 알고리즘을 적용하고 남은 가격 정보에 대해 블라인드 탐색(blind search)을 통해 제품 정보를 추출하는 단계로 이루어져, 온라인 상점들의 제품 정보를 자동으로 추출함으로써 기존의 디렉토리 서비스에서 웹 상의 온라인 상점들에 대한 비교 구매를 가능하게 하는 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템을 제공한다.

Description

온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템
본 발명은 웹 상의 온라인 상점들이 제시하는 상품 목록(catalog)을 자동 추출하여 여러 상점들에 대한 온라인 비교 쇼핑(online comparison shopping)이 가능하도록 한 온라인 상점상의 제품 정보 자동 색인 방법 및 시스템에 관한 것이다.
일반적으로 앞으로의 전자 상거래 환경은 기존의 유통 질서와는 기본적으로 다른 것으로, 기존의 가격 체계 또한 이에 따라 변화하게 된다. 특히 전세계를 연결하는 웹과 인터넷 상의 전자 상거래의 특성을 볼 때, 특정 제품의 가격 차이는 단지 국내에서의 비교만이 아니라 전세계적으로 적용되게 된다. 이러한 상황에서 구매자가 자신이 사고자 하는 제품이 품질의 편차가 적은 경우, 가장 합리적인 가격을 제시하는 상점에서 구매를 하고자 할 것이다. 그러나 온라인 상점들은 기하급수적으로 증가하므로, 구매자는 자신이 원하는 상품을 찾는 데 어려움을 느끼게 된다.
종래의 기술들로는 세 가지가 있다. 첫째로, 기존의 검색 엔진들을 사용하는 방법이다. 이 방법은 찾고자 하는 제품과 전혀 무관한 페이지들이나 스팸(spam)된 페이지들까지 보여주게 되는 단점과 제품을 선택하는 가치 기준 중 가장 중요한 가격에 대한 고려보다는 일반적인 정보 검색 방법론에 따른 기준으로 문서의 순위가 매겨지므로, 많은 측면에서 부적합하다. 둘째로, 사람의 손에 의해 관리되는 상품 정보 검색 전용 디렉토리 서비스나 검색 엔진이 있다. 이러한 방법은 사람에 의한 것이므로 섬세한 면은 있으나, 상점의 개수가 많아지면 일일이 유지 보수하는 것이 힘들어지게 된다. 셋째로 데이터베이스(database)나 별도의 데이터 스토어(data store)를 사용하지 않고 상점에 실시간으로 접속하여 상품 정보를 가져오는 방법이 있다. 이 방법은 가장 확실한 정보를 제시하는 장점이 있으나, 병렬 질의(parallel query) 기술을 사용하는 경우라도 검색 속도가 느리고 네트워크의 트래픽을 가중시킨다.
따라서, 본 발명은 웹 상의 온라인 상점들의 가격을 포함한 제품 정보를 미러링 로봇 소프트웨어(mirroring robot software)를 통해 가져와서 하나의 파일로 저장하여, 전처리 과정을 통해 잡음 제거 및 필터링(filtering)된 문서에서 가격 정보가 포함된 제품 정보를 추출하도록 함으로써, 상기한 단점을 해소할 수 있는 온라인 상점상의 제품 정보 자동 색인 방법 및 시스템을 제공하는 데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명에 따른 온라인 상점상의 제품 정보 자동 색인 시스템은 웹 상의 온라인 상점들을 돌아다니며 제품 정보가 포함된 하이퍼 텍스트 마크업 랭귀지(HTML) 문서들을 수집하고 저장하기 위한 전자 거래 정보 수집 및 저장기의 역확을 하는 미러링 로봇 소프트웨어와, 상기 HTML 문서 저장기에 저장된 문서에 대해 불필요한 정보들을 제거하기 위한 HTML 필터와, 상기 HTML 필터를 통해 수집된 정보들의 유형을 판별하여 이미 분석된 유형에 해당되는 경우에는 그에 대한 분석 모듈들을 호출하여 제품 정보를 추출하기 위한 정형 정보 정리기와, 상기 정형 정보 정리기에서 분석이 실패한 가격 정보를 가지고 있는 문서들에 대한 제품 정보를 추출하기 위한 휴리스틱 해석기와, 기존의 제품 정보가 저장되어있는 명사 사전 테이블과, 상기 명사 사전 테이블의 정보를 상기 정형 정보 정리기 및 상기 휴리스틱 해석기로 제공하며 상기 명사 사전 테이블의 정보를 유지 보수하기 위한 명사 사전 관리기와, 상기 정형 정보 정리기 및 상기 휴리스틱 해석기로부터 추출된 제품 정보를 저장하기 위한 가격 정보 자료 저장기와, 상기 가격 정보 자료 저장기에 저장된 가격 정보 자료를 데이터베이스 테이블로 생성하여 저장하기 위한 제품 정보 테이블 생성기와, 상기 제품 정보 테이블 생성기와 상기 제품정보 테이블 생성기에 의해 생성된 가격 정보 자료를 저장하기 위한 제품 정보 테이블을 포함하여 구성된 것을 특징으로 한다.
상술한 목적을 달성하기 위한 본 발명에 따른 온라인 상점상의 제품 정보 자동 색인 방법은 온라인 상점들의 HTML 문서들을 로봇으로 가져오는 단계와, HTML 문서들에서 가격 정보를 찾아내고 그 밖의 필요한 정보들만 남기고 불필요한 정보들을 제거하는 전처리 단계와, 상기 전처리 단계의 결과를 읽어들여 페이지의 유형을 판별하는 단계와, 상기 판별된 각 유형에 맞는 알고리즘을 적용하여 제품 정보를 추출하는 단계와, 상기 각각의 유형에 따른 알고리즘을 적용하고 남은 가격 정보에 대해 블라인드 탐색을 통해 제품 정보를 추출하는 단계를 포함하여 이루어진 것을 특징으로 한다.
종래의 기술들을 보면 우선 전통적인 검색 엔진에 의한 방법은 구매자가 원하는 기준을 만족시키기 힘들다. 구매자가 원하는 기준은 여러 가지가 있을 수 있으나, 보다 합리적인 가격이나 자신이 원하는 사양의 제품을 검색 서비스에게 제시할 수 있는 기능이다. 이러한 기술적 과제를 본 발명에서는 하나의 제품을 〈사이트 ID, 회사명, 제품 분류명, 주요 기능, 상품명, 모델명, 가격, URL〉라는 레코드로 정의하고 각 레코드들에 대한 검색이 가능하게 함으로써 해결하였다. 두번째로 사람의 손에 의해 관리되는 검색 서비스는 많은 상점들을 자동적으로 유지 보수하기 힘든 문제점이 있다. 본 발명의 경우, 자동적으로 각 단계가 이루어지므로 이러한 문제점이 없다. 세번째로 실시간 상품 정보 검색의 경우, 검색 시간의 문제가 있을 수 있다. 본 발명의 경우, Fast CGI 방식으로 웹 서버와 연동되어 별도의 초기화 지연이나 네트워크 지연이 없이 데이터베이스에서 바로 가져오므로 빠른 성능을 보인다.
기존의 방법들에서 제기된 문제점인 여러 상점에서 합리적인 가격을 찾는 문제를 해결하기 위해서는, 온라인 상점들의 가격이 기록되어 있는 문서를 찾아서 자동으로 제품 정보를 추출하는 것이 관건이다. 본 발명에서는 이를 위해 미러링 로봇 소프트웨어가 가져온 문서를 제품 정보 추출기가 처리하기 용이한 방식으로 변환하는 방법을 사용하여 제품 정보 추출기의 부담을 덜었다. 이러한 변환을 위해서 문서의 잡음 제거와 필터링 기술이 사용되었다. 제품 정보 추출기는 이러한 변환된 문서에서 상품 정보 페이지의 유형에 따른 분석으로 제품 정보 레코드를 추출해 낸다.
도 1은 본 발명에 따른 온라인 상점 상의 제품 정보 자동 색인 시스템의 구성도.
도 2는 본 발명에 관한 전처리를 위한 HTML 필터의 자료 흐름도.
도 3은 본 발명에 관한 제품 정보 추출을 위한 정형 정보 정리기의 자료 흐름도.
〈도면의 주요 부분에 대한 부호의 설명〉
11: 전자거래 정보수집기 12: HTML 문서 저장기
13: HTML 필터 14: 가격정보 정리기
15: 정형정보 정리기 16: 휴리스틱 해석기
17: 명사사전 테이블 18: 명사사전 관리기
19: 제품정보 테이블 20: 제품정보 테이블 생성기
21: 가격정보 자료 저장기
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명에 따른 온라인 상점 상의 제품 정보 자동 색인 시스템의 구성도이다. 전자 거래 정보 수집기(11)는 웹 상의 온라인 상점들을 돌아다니며 제품 정보가 포함된 하이퍼 텍스트 마크업 랭귀지(Hyper Text Markup Language: 이하 HTML 이라 함) 문서들을 수집하여 HTML 문서 저장기(12)에 HTML 문서들을 구성한 후 전처리 과정을 넘긴다. 전처리 과정에서는 HTML 필터(13)와 가격 정보 정리기(14)에 의해 수행된다. HTML 필터(13)를 통해 수집된 HTML 문서들은 1차적으로 불필요한 문서들이 걸러지고, 가격 정보 정리기(14)에 의해 제품 정보 추출 서브 시스템에서 사용하기에 적당한 형태로 변환된다. 제품 정보 추출 서브 시스템은 정형 정보 정리기(15)와 휴리스틱(heuristic) 해석기(16)로 구성되어 있다. 정형 정보 정리기(15)는 입력되는 문서들의 유형을 판별하여 이미 분석된 유형에 해당되는 경우에는 그에 대한 분석 모듈들을 호출하여 제품 정보를 추출한다. 정형 정보 정리기(15)에서 분석이 실패한 가격 정보를 가지고 있는 문서들은 휴리스틱 해석기로(16) 넘어와서 제품 정보가 추출된다. 정형 정보 정리기(15)는 가격 정보를 가지는 웹 페이지를 통계적으로 분석하여 유형별로 분류한 자료를 토대로 구성되었다. 이 분류에 의하면 가격 정보를 가지는 웹 페이지는 우선 제품 정보들이 배치된 유형에 따라 카탈로그 같은 요약형, 개조식 상세형 그리고 서술식 상세형이 있다. 또한 HTML 테이블로 구성된 유형에 따라 테이블이 헤더 정보를 가지는 경우, 테이블이 헤더 정보를 가지지 않는 경우, 테이블이 아닌 리스트로 구성된 경우, 그리고 테이블이나 리스트를 사용하지 않은 단순 나열형이 있다. 테이블이나 리스트를 사용한 경우도 각각의 원소(element)가 단순한 형태와 헤더 정보와 결합된 형태, 그리고 두 개 이상의 데이터가 결합된 형태가 있다. 하나의 온라인 상점은 위의 페이지 유형을 하나 이상 가질 수 있다.
정형 정보 정리기(15)와 휴리스틱 해석기(16)는 많이 사용되는 기존의 제품 정보가 들어있는 명사 사전의 도움을 받아 더욱 효과적으로 제품 정보 분석을 수행한다. 명사 사전은 명사 사전 테이블(17)의 형태로 구현되어 명사 사전 관리기(18)에 의해 유지 보수된다.
이상의 과정으로 추출된 제품 정보는 가격 정보 자료 저장기(21)에 저장된다. 저장된 가격 정보 자료는 제품 정보 테이블 생성기(20)에 의해 제품 정보 테이블(19)에 저장된다.
도 2는 본 발명에 관한 전처리를 위한 HTML 필터의 자료 흐름도로서, 전처리 과정의 핵심인 HTML 필터(13)에 대해 설명하고 있다. 전자 거래 정보 수집기(11)에 의해 수집된 HTML 문서에서 문서 고유번호(Document ID: Doc ID)(31), URL(Uniform Resource Locator)(32), 하이퍼링크(36)들, 그리고 테이블 정보(35)들이 추출된다. 또한, 스크립트(33)와 불필요한 태그들이 배재된 후, 가격 정보가 추출(34)된다. 추출된 가격 정보는 휴리스틱 해석기(16)의 해석 과정에서 제품 정보 판별 기준이 된다.
도 3은 본 발명에 관한 제품 정보 추출을 위한 정형 정보 정리기의 자료 흐름도이다. HTML 필터(13)에 의해 전처리된 HTML 문서의 각 토큰(token)에 대해 명사 사전 관리기(18)를 조회하여 테이블이나 리스트의 헤더 정보가 위치할 곳을 정한다. 헤더 정보가 토큰 데이터와 정합되는 경우에는 명시적으로 정해지고, 그렇지 않은 경우에는 명사 사전에 이미 들어 있는 제품 정보를 검색하여 암시적으로 정해질 수 있다. 헤더 정보 해석기(41)에 의해 헤더 정보가 해석되면, 이에 따라 테이블 데이터 해석기(42)에 의해 테이블 데이터가 해석된다. 테이블 데이터가 반복적으로 추출되면, 추출된 데이터는 제품 정보의 후보(candidate)가 된다. 제품 정보는 제품 정보 유효성 검사기(44)에 의해 유효성이 검사되어 유효하지 않은 제품 정보는 폐기된다. 이러한 이중 체크(double check)는 추출되는 정보의 품질을 높게 하여 올바른 제품 정보만이 남을 수 있게 한다. 제품 정보가 추출되었으면, 최종적으로 레코드 배열의 형태로 재구성하기 위해 레코드 배열 동기화기(43)에 의해 인접한 레코드에 대해 동기화를 수행한다. 해석된 제품 정보는 제품 정보 테이블 생성기(20)에 의해 〈사이트 ID, 회사명, 제품 분류명, 주요 기능, 상품명, 모델명, 가격, URL〉의 형태로 데이터베이스에 저장된다.
즉, 본 발명은 온라인 상점들의 HTML 문서들을 로봇으로 가져오는 단계와, HTML 문서들에서 가격 정보를 찾아내고 그 밖의 필요한 정보들만 남기고 불필요한 정보들을 제거하는 전처리 단계와, 상기 전처리 단계의 결과를 읽어들여 페이지의 유형을 판별하는 단계와, 상기 판별된 각 유형에 맞는 알고리즘을 적용하여 제품 정보를 추출하는 단계와, 상기 각각의 유형에 따른 알고리즘을 적용하고 남은 가격 정보에 대해 블라인드 탐색을 통해 제품 정보를 추출하는 단계를 수행하여 웹 상의 온라인 상점들에 대한 비교 구매를 가능하게 한다.
이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함으로 전술한 실시 예 및 첨부된 도면에 한정되는 것이 아니다.
상술한 바와 같이 본 발명은 자율적인 형태로 구성되어 있는 온라인 상점 상의 제품 정보를 나타내는 HTML 문서를 미러링 로봇에 의한 문서 수집과 잡음 제거와 정보 필터링을 위한 전처리기, 그리고 제품이 HTML 문서에 표현되는 형식에 대한 분류에 따른 정형 정보 해석기와 제품 정보가 HTML 문서에 위치하는 경향에 따른 휴리스틱 해석기를 거치게 하여 비교 쇼핑을 위한 제품 정보 레코드를 자동으로 추출해 줌으로써, 웹 상의 상품 정보 검색 엔진, 메타 검색 엔진, 쇼핑 에이전트, 푸쉬 솔루션 등에서 웹 상의 온라인 상점들에 대한 비교 구매를 가능하게 한다.

Claims (4)

  1. 웹 상의 온라인 상점들을 돌아다니며 제품 정보가 포함된 하이퍼 텍스트 마크업 랭귀지(HTML) 문서들을 수집하기 위한 전자 거래 정보 수집기와,
    상기 전자 거래 정보 수집기로부터 수집된 문서를 저장하기 위한 HTML 문서 저장기와,
    상기 HTML 문서 저장기에 저장된 문서에 대해 불필요한 정보들을 제거하기 위한 HTML 필터와,
    상기 HTML 필터를 통해 수집된 정보들의 유형을 판별하여 이미 분석된 유형에 해당되는 경우에는 그에 대한 분석 모듈들을 호출하여 제품 정보를 추출하기 위한 정형 정보 정리기와,
    상기 정형 정보 정리기에서 분석이 실패한 가격 정보를 가지고 있는 문서들에 대한 제품 정보를 추출하기 위한 휴리스틱 해석기와,
    기존의 제품 정보가 저장되어있는 명사 사전 테이블과,
    상기 명사 사전 테이블의 정보를 상기 정형 정보 정리기 및 상기 휴리스틱 해석기로 제공하며 상기 명사 사전 테이블의 정보를 유지 보수하기 위한 명사 사전 관리기와,
    상기 정형 정보 정리기 및 상기 휴리스틱 해석기로부터 추출된 제품 정보를 저장하기 위한 가격 정보 자료 저장기와,
    상기 가격 정보 자료 저장기에 저장된 가격 정보 자료를 생성하기 위한 제품 정보 테이블 생성기와,
    상기 제품 정보 테이블 생성기에 의해 생성된 가격 정보 자료를 저장하기 위한 제품 정보 테이블을 포함하여 구성된 것을 특징으로 하는 온라인 상점 상의 제품 정보 자동 색인 시스템.
  2. 제 1 항에 있어서,
    상기 정형 정보 정리기는 가격 정보를 가지는 웹 페이지를 통계적으로 분석하여 유형별로 분류한 자료를 토대로 구성된 것을 특징으로 하는 온라인 상점 상의 제품 정보 자동 색인 시스템.
  3. 제 2 항에 있어서,
    상기 가격 정보를 가지는 웹 페이지는 제품 정보들이 배치된 유형에 따라 카탈로그 같은 요약형, 개조식 상세형 그리고 서술식 상세형이 있으며, HTML 테이블로 구성된 유형에 따라 테이블이 헤더 정보를 가지는 경우, 테이블이 헤더 정보를 가지지 않는 경우, 테이블이 아닌 리스트로 구성된 경우, 그리고 테이블이나 리스트를 사용하지 않은 단순 나열형으로 이루어진 것을 특징으로 하는 온라인 상점 상의 제품 정보 자동 색인 시스템.
  4. 온라인 상점들의 HTML 문서들을 로봇으로 가져오는 단계와,
    HTML 문서들에서 가격 정보를 찾아내고 그 밖의 필요한 정보들만 남기고 불필요한 정보들을 제거하는 전처리 단계와,
    상기 전처리 단계의 결과를 읽어들여 페이지의 유형을 판별하는 단계와,
    상기 판별된 각 유형에 맞는 알고리즘을 적용하여 제품 정보를 추출하는 단계와,
    상기 각각의 유형에 따른 알고리즘을 적용하고 남은 가격 정보에 대해 블라인드 탐색을 통해 제품 정보를 추출하는 단계를 포함하여 이루어진 것을 특징으로 하는 온라인 상점 상의 제품 정보 자동 색인 방법.
KR1019980052222A 1998-12-01 1998-12-01 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템 KR100283103B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1019980052222A KR100283103B1 (ko) 1998-12-01 1998-12-01 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템
CN99124434A CN1255680A (zh) 1998-12-01 1999-11-17 联机商店产品信息自动检索方法和系统
JP33862399A JP2000172722A (ja) 1998-12-01 1999-11-29 オンライン商店上の製品情報自動索引方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980052222A KR100283103B1 (ko) 1998-12-01 1998-12-01 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20000037595A KR20000037595A (ko) 2000-07-05
KR100283103B1 true KR100283103B1 (ko) 2001-05-02

Family

ID=19560731

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980052222A KR100283103B1 (ko) 1998-12-01 1998-12-01 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템

Country Status (3)

Country Link
JP (1) JP2000172722A (ko)
KR (1) KR100283103B1 (ko)
CN (1) CN1255680A (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714933B2 (en) 2000-05-09 2004-03-30 Cnet Networks, Inc. Content aggregation method and apparatus for on-line purchasing system
US7082426B2 (en) 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
KR100374114B1 (ko) * 1999-06-28 2003-03-03 한국전자통신연구원 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JP4566347B2 (ja) * 2000-06-30 2010-10-20 ヤフー株式会社 商品検索装置及び方法
US6556991B1 (en) * 2000-09-01 2003-04-29 E-Centives, Inc. Item name normalization
CN102708114B (zh) * 2000-09-29 2016-08-03 凯创研究有限责任公司 通过相互连接的计算机网络进行实时在线搜索处理的方法
AU2000274541A1 (en) 2000-10-03 2002-04-15 Viewpoint Communications Inc. Method of retrieving, collecting and distributing information among distributed computers
KR100445587B1 (ko) * 2001-08-08 2004-08-25 하상호 전자상거래 시스템에서 사용되는 상품 정보를 통합적으로표현하는 xml 기반의 데이터 플랫폼이 기록된 컴퓨터로읽을 수 있는 기록매체
DE10208959B4 (de) * 2002-02-28 2006-10-12 Equero Future Net Technologies Ag Verfahren und Vorrichtung zur Erfassung und Auswertung von in einem Rechnernetzwerk abgelegten Informationen
JP2006031108A (ja) * 2004-07-12 2006-02-02 Shinichiro Fujitani ウエブ上の商品・サービスの検索システム
JP4731896B2 (ja) * 2004-12-07 2011-07-27 新日鉄ソリューションズ株式会社 情報処理装置、情報検索方法及びプログラム
JP2006209257A (ja) * 2005-01-25 2006-08-10 Ns Solutions Corp 情報処理装置、情報処理方法及びプログラム
CN100442283C (zh) * 2005-10-20 2008-12-10 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
KR100792109B1 (ko) * 2006-03-27 2008-01-04 하상호 모바일 웹서버에서의 사용자인터페이스 기반의 범용 웹정보 추출을 위한 래퍼 생성장치 및 그 방법
CN102663025B (zh) * 2012-03-22 2014-04-02 浙江盘石信息技术有限公司 一种违规在线商品检测方法
US11449915B2 (en) 2018-10-11 2022-09-20 Mercari, Inc. Plug-in enabled identification and display of alternative products for purchase

Also Published As

Publication number Publication date
KR20000037595A (ko) 2000-07-05
CN1255680A (zh) 2000-06-07
JP2000172722A (ja) 2000-06-23

Similar Documents

Publication Publication Date Title
KR100283103B1 (ko) 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템
KR100505848B1 (ko) 검색 시스템
US6691105B1 (en) System and method for geographically organizing and classifying businesses on the world-wide web
US7664767B2 (en) System and method for geographically organizing and classifying businesses on the world-wide web
CN101901235B (zh) 文档处理方法和系统
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
JP3438781B2 (ja) データベース分割方法、プログラムを記録したプログラム記憶装置および記録媒体
JP2009151749A (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
KR100289065B1 (ko) 전자상거래상품정보검색용자연언어질의어처리방법
CN102270331A (zh) 基于可视化搜索的网络购物导航方法
JP4875911B2 (ja) コンテンツ特定方法及び装置
Vijiyarani et al. Research issues in web mining
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
WO2005017773A2 (en) Search result based automatic query reformulation
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JP2006331292A (ja) Weblogコミュニティ検索支援方法、検索支援装置および検索支援方法のプログラムを記録した記録媒体
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP5467061B2 (ja) バースト情報検索装置及びバースト情報検索プログラム
CN104462613B (zh) 热点聚合方法及装置
Haruechaiyasak et al. A data mining framework for building a web-page recommender system
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
JP3655495B2 (ja) 情報検索方法および装置と情報検索プログラムを記録した記録媒体
KR20020043993A (ko) 패턴정보를 이용한 상품정보 추출 장치 및 방법
JP2010186474A (ja) 関連度辞書を用いた検索モデリングシステムおよび方法
Sidana et al. Review of web usage of data mining in web mining.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20101201

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee