KR100312430B1 - System for learning information of goods in internet shopping malls and method using the same - Google Patents
System for learning information of goods in internet shopping malls and method using the same Download PDFInfo
- Publication number
- KR100312430B1 KR100312430B1 KR1019990056208A KR19990056208A KR100312430B1 KR 100312430 B1 KR100312430 B1 KR 100312430B1 KR 1019990056208 A KR1019990056208 A KR 1019990056208A KR 19990056208 A KR19990056208 A KR 19990056208A KR 100312430 B1 KR100312430 B1 KR 100312430B1
- Authority
- KR
- South Korea
- Prior art keywords
- search result
- shopping mall
- query template
- product information
- learning
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
Abstract
본 발명은 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 질의어 템플릿 생성수단이 외부로부터 새로운 쇼핑몰의 URL을 수신하여, 질의어 템플릿을 생성하는 제 1단계; 상기 질의어 템플릿 생성수단으로부터 질의어 템플릿을 수신한 검색결과 분류수단이 테스트 질의어를 사용하여 새로운 쇼핑몰의 검색 결과 형태를 분류하는 제 2단계; 상기 검색결과 분류수단의 검색결과 분류에 따라 학습수단이 상품정보의 위치 및 패턴을 추출하는 제 3단계; 및 상기 질의 템플릿 자동 생성수단에서 생성된 질의어 템플릿, 상기 학습수단에서 추출된 상품정보의 위치 및 상품정보의 패턴을 지식베이스수단에 저장하는 제 4단계를 포함한다.The present invention relates to an Internet shopping mall product information learning system and a method thereof, and a computer-readable recording medium recording a program for realizing the same. The query template generating means receives a URL of a new shopping mall from the outside, and generates a query template. Generating a first step; A second step of classifying the search result form of the new shopping mall by using a test query in response to the search result classification means receiving the query template from the query template generating means; A third step of the learning means extracting the position and pattern of the product information according to the search result classification of the search result classification means; And a fourth step of storing the query template generated by the query template automatic generation means, the location of the product information extracted from the learning means, and the pattern of the product information in the knowledge base means.
Description
본 발명은 인터넷 쇼핑몰 상품정보 학습방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to an internet shopping mall product information learning method and a computer-readable recording medium recording a program for realizing the same.
최근에는 인터넷이 보편화되고, 인터넷 쇼핑몰을 이용한 쇼핑을 하는 사용자가 급증하였다. 그러나, 각각의 쇼핑몰은 독특한 검색 처리와 검색 결과의 출력 방식을 가지고 있기 때문에, 사용자에게 비교 쇼핑의 정보를 전달하기 위한 인터넷 쇼핑몰에서 해당 상품에 대한 비교 검색 방법의 필요성이 대두되었다.In recent years, the Internet has become commonplace, and the number of users who shop using the Internet shopping mall has surged. However, since each shopping mall has a unique search process and a method of outputting a search result, a necessity of a comparative search method for a corresponding product has emerged in an internet shopping mall for delivering information of comparison shopping to a user.
이에 따라, 종래에는 쇼핑몰을 관리하는 관리자가 각각의 쇼핑몰에서 통합에 필요한 요소(제품명, 제조회사, 제품가격 등)를 추출하는 규칙을 직접 구성하여 이를 저장하는 방식을 취하였다. 수동으로 작성된 규칙을 토대로 각 쇼핑몰에서 상품정보를 수집하고 가공하여 사용자에게 결과를 제공하는 방법이 사용되었다.Accordingly, in the related art, a manager who manages a shopping mall has a scheme of directly configuring and storing a rule for extracting elements (product name, manufacturer, product price, etc.) necessary for integration in each shopping mall. The method of collecting and processing the product information in each shopping mall and providing the result to the user based on the manually written rules was used.
그러나, 종래의 인터넷 쇼핑몰에서 상품정보 학습방법은, 사용자에게 필요한 상품정보를 수집하고 가공하는데 많은 시간과 인력이 소요되며, 새로운 쇼핑몰이 생길 때 마다 해당 쇼핑몰에 대한 정보 추출 규칙을 새로 작성하여야 하는 문제가 있다.However, in the conventional Internet shopping mall, the product information learning method requires a lot of time and manpower to collect and process the product information required by the user, and each time a new shopping mall is created, a new information extraction rule for the shopping mall must be created. There is.
또한, 종래에는 샵봇(Shopbot)이라는 쇼핑몰 통합 소프트웨어가 사용되었으나, 샵봇은 시스템 사용 환경의 제한(상품 정보를 구분하기 위해 상품의 정보 단위별로 구분자가 반드시 있어야 한다)을 두는 바이어스(Bias)를 설정하므로, 정보 단위별로 구분자가 없는 쇼핑몰의 상품 정보에 대한 학습을 수행할 수 없다는 문제가있다.In addition, the shopping mall integrated software called Shopbot is conventionally used, but since the shopbot sets a bias that places a restriction on the system usage environment (a separator must exist for each product information unit to distinguish product information). However, there is a problem that learning about product information of a shopping mall without a delimiter by information unit cannot be performed.
따라서, 상기와 같은 문제점을 해결하기 위해 안출된 본 발명은, 인터넷 쇼핑몰에서 판매상품들에 대해 비교 쇼핑을 하기 위한 필요한 상품정보 추출 규칙을 자동으로 생성함으로써, 관리자의 개입없이 각 쇼핑몰에서 필요한 정보를 추출할 수 있는 인터넷 쇼핑몰 상품정보 학습방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.Therefore, the present invention devised to solve the above problems, by automatically generating the necessary product information extraction rules for the comparison shopping for the sale products in the Internet shopping mall, the information required in each shopping mall without the administrator's intervention An object of the present invention is to provide a method for learning product information that can be extracted from an internet shopping mall and a computer-readable recording medium that records a program for realizing the same.
도1은 본 발명이 적용되는 인터넷 쇼핑몰 상품정보 학습 시스템의 개략적인 구성을 나타낸 일실시예 블록다이어그램.Figure 1 is an embodiment block diagram showing a schematic configuration of an Internet shopping mall product information learning system to which the present invention is applied.
도2는 본 발명에 따른 인터넷 쇼핑몰 상품정보 학습방법에 대한 일실시예 처리흐름도.Figure 2 is an embodiment of the processing flow diagram of the Internet shopping mall product information learning method according to the present invention.
도3은 상기 도2의 질의어 템플릿 생성 서브루틴의 일실시예 상세흐름도.FIG. 3 is a detailed flowchart of one embodiment of the query template generation subroutine of FIG. 2. FIG.
도4는 상기 도2의 검색결과 분류 서브루틴의 일실시예 상세흐름도.Figure 4 is a detailed flowchart of one embodiment of the search result classification subroutine of Figure 2;
도5는 상기 도2의 상품정보의 위치 추출 서브루틴의 일실시예 상세흐름도.FIG. 5 is a detailed flowchart of an embodiment of a location extraction subroutine of the product information of FIG. 2; FIG.
도6은 상기 도2에서 상품정보의 패턴 추출 서브루틴의 일실시예 상세흐름도.FIG. 6 is a detailed flowchart of an embodiment of a pattern extraction subroutine of product information in FIG. 2; FIG.
* 도면의 주요 부분에 대한 부호의 설명* Explanation of symbols for the main parts of the drawings
10 : 질의어 템플릿 생성기 12 : 검색결과 분류기10: query template generator 12: search result classifier
14 : 테이블형 학습기 16 : 지식베이스14: table type learner 16: knowledge base
18 : 리스트형 학습기18: list type learner
상기 목적을 달성하기 위한 본 발명이 적용되는 인터넷 쇼핑몰 상품정보 학습 시스템은, 새로 생성된 쇼핑몰의 URL(Uniform Resource Locator)을 수신하여 질의어 템플릿을 생성하는 질의어 템플릿 생성수단; 상기 질의어 템플릿 생성수단으로부터 질의어 템플릿의 수신하고, 테스트 질의어를 입력받아 새로운 쇼핑몰의 검색결과 형태를 분류하는 검색결과 분류수단; 상기 검색결과 분류수단에서 분류한 해당 쇼핑몰의 검색결과 페이지에서 상품의 위치 및 패턴정보를 추출하는 학습수단; 및 상기 질의어 템플릿 생성수단에서 생성된 질의어 템플릿과 상기 학습수단에서 추출된 상품의 위치정보 및 패턴정보를 저장하는 지식베이스수단을 구비한다.Internet shopping mall product information learning system to which the present invention is applied to achieve the above object, Query template generation means for generating a query template by receiving a newly generated Uniform Resource Locator (URL) of the shopping mall; Search result classification means for receiving a query template from the query template generating means and receiving a test query word to classify a search result form of a new shopping mall; Learning means for extracting product location and pattern information from a search result page of a shopping mall classified by the search result classification means; And a knowledge base means for storing the query template generated by the query template generating means and the position information and the pattern information of the product extracted by the learning means.
본 발명에 따른 인터넷 쇼핑몰 상품정보 학습방법은, 질의어 템플릿 생성수단이 외부로부터 새로운 쇼핑몰의 URL을 수신하여, 질의어 템플릿을 생성하는 제1단계; 상기 질의어 템플릿 생성수단으로부터 질의어 템플릿을 수신한 검색결과 분류수단이 테스트 질의어를 사용하여 새로운 쇼핑몰의 검색 결과 형태를 분류하는 제 2단계; 상기 검색결과 분류수단의 검색결과 분류에 따라 학습수단이 상품정보의 위치 및 패턴을 추출하는 제 3단계; 및 상기 질의 템플릿 자동 생성수단에서 생성된 질의어 템플릿, 상기 학습수단에서 추출된 상품정보의 위치 및 상품정보의 패턴을 지식베이스수단에 저장하는 제 4단계를 포함한다.In accordance with another aspect of the present invention, there is provided a method for learning product information on an internet shopping mall, the query template generating means receiving a URL of a new shopping mall from the outside to generate a query template; A second step of classifying the search result form of the new shopping mall by using a test query in response to the search result classification means receiving the query template from the query template generating means; A third step of the learning means extracting the position and pattern of the product information according to the search result classification of the search result classification means; And a fourth step of storing the query template generated by the query template automatic generation means, the location of the product information extracted from the learning means, and the pattern of the product information in the knowledge base means.
또한, 본 발명은, 마이크로 프로세서를 구비한, 인터넷 쇼핑몰 상품정보 학습 시스템에, 질의어 템플릿 생성수단이 외부로부터 새로운 쇼핑몰의 URL을 수신하여, 질의어 템플릿을 생성하는 제 1기능; 상기 질의어 템플릿 생성수단으로부터 질의어 템플릿을 수신한 검색결과 분류수단이 테스트 질의어를 사용하여 새로운 쇼핑몰의 검색 결과 형태를 분류하는 제 2기능; 상기 검색결과 분류수단의 검색결과 분류에 따라 학습수단이 상품정보의 위치 및 패턴을 추출하는 제 3기능; 및 상기 질의 템플릿 자동 생성수단에서 생성된 질의어 템플릿, 상기 학습수단에서 추출된 상품정보의 위치 및 상품정보의 패턴을 지식베이스수단에 저장하는 제 4기능 을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.In addition, the present invention, the Internet shopping mall product information learning system having a microprocessor, the query template generating means for receiving a URL of the new shopping mall from the outside, the first function to generate a query template; A second function of the search result classification means receiving the query template from the query template generating means to classify the search result form of the new shopping mall by using a test query; A third function of the learning means extracting the position and pattern of the product information according to the search result classification of the search result classification means; And a program for storing a query template generated by the query template automatic generation means, a fourth function of storing the location of the product information extracted from the learning means and the pattern of the product information in the knowledge base means. Provide a record carrier.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.The above objects, features and advantages will become more apparent from the following detailed description taken in conjunction with the accompanying drawings. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
인터넷 쇼핑몰은 저마다의 독특한 검색 처리와 검색 결과의 출력 방식을 가지고 있기 때문에 완전 구조화된 검색 결과 형태와 준 구조화된 검색 결과 형태를가질 수 있다. 여기서, 완전 구조화된 검색결과는 데이터베이스의 테이블 형태와 같이 각 열에 포함된 정보가 무엇인지를 알 수 있는 레이블이 있는 경우를 말하며, 준 구조화 된 검색 결과는 규칙적으로 어떤 패턴이 반복되는 형태를 말한다.Since the Internet shopping mall has its own unique search processing and output method of search results, it can have a fully structured search result form and a semi-structured search result form. In this case, the fully structured search result refers to a case in which there is a label indicating what information is included in each column, such as a table in a database, and the semi-structured search result refers to a form in which a pattern is regularly repeated.
본 발명에서는 완전 구조화된 검색 결과에서 뿐만 아니라 준 구조화된 검색 결과에서도 자동으로 정보를 추출할 수 있는 인터넷 쇼핑몰 상품정보 학습방법을 제시한다.The present invention proposes an internet shopping mall product information learning method that can automatically extract information not only from a fully structured search result but also from a semi-structured search result.
도1은 본 발명이 적용되는 인터넷 쇼핑몰 상품정보 학습시스템의 개략적인 구성을 나타낸 일실시예 블록다이어그램이다.1 is a block diagram of an embodiment of a schematic configuration of an Internet shopping mall product information learning system to which the present invention is applied.
도1에 도시된 바와 같이, 새로 생성된 쇼핑몰의 URL(Uniform Resource Locator)을 수신하여 질의어 템플릿을 생성하기 위한 질의어 템플릿 생성기(10)와, 상기 질의어 템플릿 생성기(10)로부터 질의어 템플릿의 수신하고 테스트 질의어를 입력받아 새로운 쇼핑몰의 검색결과 형태를 분류하는 검색결과 분류기(12)와, 상기 검색결과 분류기(12)에서 분류한 검색결과 형태가 테이블형일 경우 해당 쇼핑몰의 검색결과 페이지에서 상품의 위치정보를 추출하는 테이블형 학습기(14)와, 상기 검색결과 분류기(12)에서 분류한 검색결과 형태가 리스트형일 경우 해당 쇼핑몰의 검색결과 페이지에서 상품의 패턴정보를 추출하는 리스트형 학습기(16)와, 상기 질의어 템플릿 생성기(10)에서 생성된 질의어 템플릿과 상품의 위치정보 및 패턴정보를 저장하는 지식베이스(Knowledge-base)(18)를 구비한다. 여기서, 테이블형은 HTML(HyperText Markup Language)의 <TABLE> 태그를 이용해 데이터베이스와 같은 형태로 상품 정보를 출력하는 형태를 말하며, 리스트형은 테이블형이 아닌 모든 검색 결과의 형태를 말한다.As shown in FIG. 1, a query template generator 10 for generating a query template by receiving a Uniform Resource Locator (URL) of a newly created shopping mall, and receiving and testing a query template from the query template generator 10. The search result classifier 12 which classifies the search result form of the new shopping mall by receiving a query word, and when the search result type classified by the search result classifier 12 is a table type, the location information of the product is displayed on the search result page of the shopping mall. A table-type learner 14 for extracting and a list-type learner 16 for extracting pattern information of a product from a search result page of a shopping mall when the search result type classified by the search result classifier 12 is a list type; Knowledge base (Knowledge-base) for storing the location information and pattern information of the query template and the product generated by the query template generator 10 ( 18). Here, the table type refers to a form in which product information is output in the form of a database using a <TABLE> tag of HTML (HyperText Markup Language), and the list type refers to the form of all search results other than the table type.
그러면, 첨부된 도2 내지 도6을 참조하여 본 발명이 적용되는 인터넷 쇼핑몰 상품정보 학습방법을 설명한다.Next, a method of learning online shopping mall product information to which the present invention is applied will be described with reference to FIGS. 2 to 6.
첨부된 도2는 본 발명이 적용되는 인터넷 쇼핑몰 학습방법에 대한 일실시예 처리흐름도로서, 새로운 쇼핑몰이 생성되면 그 쇼핑몰의 URL(Uniform Resource Locator)을 수신하고(100), 수신된 쇼핑몰의 URL을 상기 질의어 템플릿 생성기(10)에 입력하면, 상기 질의어 템플릿 생성기(10)는 질의어 템플릿을 생성하여(102), 상기 검색결과 분류기(12)로 전송한다.2 is a flowchart illustrating an embodiment of a method for learning an internet shopping mall to which the present invention is applied. When a new shopping mall is created, a URL (Uniform Resource Locator) of the shopping mall is received (100), and the URL of the received shopping mall is received. When the query template generator 10 is input to the query template generator 10, the query template generator 10 generates a query template 102 and transmits the generated query template to the search result classifier 12.
상기 질의어 템플릿 생성기(10)로부터 질의어 템플릿을 수신한 상기 검색결과 분류기(12)는 테스트 질의어를 사용하여 새로운 쇼핑몰의 검색 결과 형태를 분류한다(104).The search result classifier 12 receiving the query template from the query template generator 10 classifies the search result form of the new shopping mall by using the test query (104).
상기 검색결과 분류기(12)에서 분류한 검색결과가 테이블형일 경우, 상기 테이블형 학습기(14)는 해당 쇼핑몰 페이지에서 상품정보의 위치를 추출하고(106), 상기 검색결과 분류기(12)에서 분류한 검색결과가 리스트형일 경우, 상기 리스트형 학습기(16)는 상품정보의 패턴을 추출한다(108).When the search result classified by the search result classifier 12 is a table type, the table type learner 14 extracts the location of the product information from the shopping mall page (106) and classifies it in the search result classifier 12. If the search result is a list type, the list type learner 16 extracts a pattern of product information (108).
상기 질의 템플릿 자동 생성기(10)에서 생성된 질의어 템플릿, 상기 테이블형 학습기(14)에처 추출된 상품정보의 위치 및 상기 리스트형 학습기(16)에서 추출된 상품정보의 패턴은 상기 지식베이스(18)에 저장된다(110).The query template generated by the query template automatic generator 10, the location of the product information extracted by the table type learner 14, and the pattern of the product information extracted by the list type learner 16 may be used in the knowledge base 18. Stored at 110.
첨부된 도3은 상기 도2에서 질의어 템플릿 생성기(10)가 질의어 템플릿을 생성하는 과정(102)의 상세흐름도로서, 오프라인으로 행해지는 작업으로 사용자가원하는 상품의 검색을 위해 검색어를 입력했을 때, 각각의 쇼핑몰들에게 질의를 하기위해 미리 각 쇼핑몰들의 질의 형태를 판별해 놓기 위하여 이용한다.Attached FIG. 3 is a detailed flowchart of a process 102 of generating a query template by the query template generator 10 in FIG. 2, and when a user inputs a search term for a desired product in an offline operation, In order to query each shopping mall, it is used to determine the query form of each shopping mall in advance.
먼저, 웹 로봇(webrobot)을 통해 학습하고자 하는 쇼핑몰의 HTML(HyperText Markup Language)파일을 수집하고, 검색을 위해 사용되는 <FORM> 태그의 개수 i를 HTML 파싱(parsing)을 통해서 구하고(200), <FORM>태그의 개수 i가 1인지를 판단한다(202).First, an HTML (HyperText Markup Language) file of a shopping mall to be learned through a webrobot is collected, and the number i of <FORM> tags used for searching is obtained through HTML parsing (200). It is determined whether the number i of the <FORM> tags is 1 (202).
상기 판단결과(202), <FORM>태그의 개수 i가 1이 아닐경우, 상기 질의어 템플릿 생성기(10)는 검색 키워드를 입력하기 위해 태그의 타입이 텍스트(TEXT)인 <INPUT>태그의 개수 j를 구하고(204), <INPUT>태그의 개수 j가 1인지를 판단한다(206). 여기서, 상기 검색 키워드를 CGI(Common Gateway Interface) 프로그램에 파라미터로 전달하기 위한 일반적인 방법이 태그의 타입이 텍스트(TEXT)인 <INPUT>태그를 이용하는 것이며, 또한, 하나의 <FORM>태그내부에 다수의 텍스트(TEXT) 타입의 <INPUT> 태그가 존재할 수 있기 때문에 이 태그들의 개수를 구하는 것이다.In response to the determination result 202, when the number i of the <FORM> tags is not 1, the query template generator 10 may input the number j of the <INPUT> tags whose type is TEXT to input a search keyword. In operation 204, it is determined whether the number j of the <INPUT> tags is 1 (206). Here, a general method for passing the search keyword as a parameter to a CGI (Common Gateway Interface) program is to use an <INPUT> tag having a tag type of text (TEXT). This is because the number of <INPUT> tags of TEXT type may exist.
상기 판단결과(202), <FORM>태그의 개수 i가 1일 경우, 상기 질의어 템플릿 생성기(10)는 다수의 <FORM>태그중 검색 수행에 적합한 <FORM>태그를 선택한다. 일반적으로, HTML문서 한 페이지에는 다수의 <FORM>태그가 존재할 수 있으며, 이것은 한 페이지에서 여러 경로를 통해 쇼핑몰 서버의 CGI 프로그램을 구동시킬 수 있음을 의미한다. 따라서 실제 검색을 행하는 <FORM>을 선택하는 것이다.As a result of the determination 202, when the number i of the <FORM> tags is 1, the query template generator 10 selects a <FORM> tag suitable for performing a search among a plurality of <FORM> tags. In general, a number of <FORM> tags may exist on a page of an HTML document, which means that a CGI program of a shopping mall server can be run through several paths on a page. Therefore, <FORM> is selected to actually search.
상기 판단결과(206), <INPUT>태그의 개수 j가 1일 경우, 상기 질의어 템플릿생성기(10)는 <FORM>태그 내부의 질의를 쇼핑몰 서버에 전달하는 방법을 조합해서 질의어 템플릿을 생성한다(208).In the determination result 206, when the number j of the <INPUT> tags is 1, the query template generator 10 generates a query template by combining a method of transmitting a query inside the <FORM> tag to the shopping mall server ( 208).
상기 판단결과(206), <INPUT>태그의 개수 j가 1이 아닐경우, 상기 질의어 템플릿 생성기(10)는 다수의 <INPUT>태그 중 어느 <INPUT> 태그에 질의어를 삽입할 <INPUT> 태그를 선택하고(210), 상기 208단계를 수행한다.In response to the determination result 206, when the number j of the <INPUT> tags is not 1, the query template generator 10 selects an <INPUT> tag for inserting a query word into any <INPUT> tag among a plurality of <INPUT> tags. Select 210, and perform step 208.
첨부된 도4는 상기 도2에서 질의어 템플릿 생성기(10)로부터 질의어 템플릿을 수신한 검색결과 분류기(12)가 테스트 질의어를 사용하여 새로운 쇼핑몰의 검색 결과 형태를 분류하는 과정(104)의 상세흐름도로서, 상기 검색결과 분류기(12)는 질의어 템플릿 생성기(10)로부터 질의어 템블릿을 수신하고, 새로운 쇼핑몰 검색 결과를 저장한 HTML파일에 <TABLE>태그가 존재하는지를 판단한다(300).4 is a detailed flowchart of a process 104 in which the search result classifier 12 receiving the query template from the query template generator 10 in FIG. 2 classifies a search result form of a new shopping mall using a test query. The search result classifier 12 receives the query template from the query template generator 10 and determines whether a <TABLE> tag exists in the HTML file storing the new shopping mall search result (300).
상기 판단결과(300), <TABLE>태그가 존재할 경우, 상기 검색결과 분류기(12)는 새로운 쇼핑몰 검색 결과를 저장한 HTML파일에서 <TABLE>로 시작해서 </TABLE>로 끝나는 부분을 별도의 파일로 생성하고(302), 상기 판단결과(300), <TABLE>태그가 존재하지 않을 경우, 상기 검색결과 분류기(12)는 현재 쇼핑몰의 검색 결과의 형태를 리스트 형으로 설정하고, 새로운 쇼핑몰 검색결과를 저장한 HTML파일을 리스트형 학습기(16)로 전송한다.In the determination result 300, if the <TABLE> tag exists, the search result classifier 12 separates a portion starting with <TABLE> and ending with </ TABLE> from an HTML file storing a new shopping mall search result. In operation 302, if the determination result 300 does not include a <TABLE> tag, the search result classifier 12 sets the type of the search result of the current shopping mall to a list type, and the new shopping mall search result. Transfer the stored HTML file to the list type learner (16).
상기 302단계 수행후, 상기 검색결과 분류기(12)는 새로운 쇼핑몰 검색 결과를 저장한 HTML파일에서 <TABLE>태그의 레이블과 온토로지(ontology)가 같고, 상품정보가 반복적으로 같은 열에 나타나는지를 판단한다(304). 여기서, 새로운 쇼핑몰의 검색결과를 저장한 HTML파일에 <TABLE>태그가 있다고 그 부분이 상품 정보라고확신할 수 없기 때문에 현 테이블의 첫번째 행의 키워드들과 테이블이 포함하고 있는 내용을 바탕으로 판별하게 된다. 일반적으로, 쇼핑몰의 검색결과를 저장한 HTML파일의 <TABLE>태그의 첫번째 행에는 그 열이 어떤 정보를 담고 있는지를 나타내는 레이블이 존재한다. 온토로지는 전자상거래에서 사용되는 일종의 사전으로 볼 수 있다. 즉, 상품의 가격을 나타낼 때 '상품 가격', 'Price', '판매가' 등의 단어들이 온토로지에 해당된다.After performing step 302, the search result classifier 12 determines whether the label and ontology of the <TABLE> tag are the same in the HTML file storing the new shopping mall search result, and the product information is repeatedly displayed in the same column. (304) Here, the <TABLE> tag in the HTML file containing the search results of the new shopping mall cannot be confirmed as part of the product information. Therefore, it is necessary to discriminate based on the keywords in the first row of the current table and the contents of the table. do. In general, the first line of the <TABLE> tag of the HTML file that stores the search results of a shopping mall has a label indicating what information the column contains. Ontology can be viewed as a kind of dictionary used in e-commerce. In other words, the words 'commodity price', 'Price', 'sale price' and the like correspond to the ontology when referring to the product price.
상기 판단결과(304), <TABLE>태그의 레이블과 온토로지(ontology)가 같고, 상품정보가 반복적으로 같은 열에 나타날 경우, 상기 검색결과 분류기(12)는 현재 쇼핑몰의 검색 결과의 형태를 테이블 형으로 설정하고, 새로운 쇼핑몰 검색결과를 저장한 HTML파일을 테이블형 학습기(14)로 전송하고(306), 상기 판단결과(304), <TABLE>태그의 레이블과 온토로지(ontology)가 같고, 상품정보가 반복적으로 같은 열에 나타나지 않을 경우, 상기 검색결과 분류기(12)는 현재 쇼핑몰의 검색 결과의 형태를 리스트 형으로 설정하고, 새로운 쇼핑몰 검색결과를 저장한 HTML파일을 리스트형 학습기(16)로 전송한다.If the determination 304, the label of the <TABLE> tag and the ontology is the same, and the product information repeatedly appears in the same column, the search result classifier 12 is a table of the type of the search results of the current shopping mall Type, the HTML file storing the new shopping mall search result is sent to the table type learner 14 (306), and the determination result 304, the label of the <TABLE> tag and the ontology are the same. When the product information does not repeatedly appear in the same column, the search result classifier 12 sets the form of the search result of the current shopping mall to a list type, and displays the HTML file storing the new shopping mall search result in the list type learner 16. To send.
첨부된 도5는 상기 도2에서 테이블형 학습기(14)가 해당 쇼핑몰 페이지에서 상품정보의 위치를 추출하는 과정(106)의 상세흐름도로서, 상기 검색결과 분류기(12)로부터 새로운 쇼핑몰의 검색결과를 저장한 HTML파일을 수신한 상기 테이블형 학습기(14)는 현재 페이지의 <TABLE>태그와 </TABLE>태그 사이의 정보를 별도의 파일로 생성하고(400), 상품의 위치 정보를 찾아내기 위해 테이블의 첫번째 행을 검색한다(402).5 is a detailed flowchart of a process 106 of extracting the location of the product information from the shopping mall page by the table type learner 14 in FIG. 2, and the search result of the new shopping mall is searched from the search result classifier 12. Receiving the stored HTML file, the table type learner 14 generates information between the <TABLE> tag and the </ TABLE> tag of the current page into a separate file (400), and to find the location information of the product. Retrieve the first row of the table (402).
상기 테이블형 학습기(14)는 HTML파일의 테이블에서 추출해야 할 정보의 위치를 파악하기 위해 상기 HTML파일의 모든 <TD>태그에 대하여, 태그 <TD>안에 나타나는 키워드와 온토로지가 일치하는지를 판단한다(404).The table-type learner 14 determines whether the keywords appearing in the tag <TD> match the ontology for all the <TD> tags of the HTML file in order to determine the location of the information to be extracted from the table of the HTML file. (404).
상기 판단결과(404), 태그 <TD>안에 나타나는 키워드와 온토로지가 일치할 경우, 상기 테이블형 학습기(14)는 통합에 필요한 열들의 위치를 인식하고 그 위치를 규칙의 형태로 만들어 상품정보의 위치에 관한 정보를 등록한다(406).In the determination result 404, when the keywords appearing in the tag <TD> and ontology match, the table-type learner 14 recognizes the positions of the columns necessary for the integration and makes the positions in the form of a rule to display the product information. Information about the location is registered (406).
여기서, 상품 검색 결과가 테이블형인 경우 같은 행의 다른 열들은 하나의 상품에 대한 정보를 나타낸다. 또한 각 열은 다른 상품에 대한 같은 의미 정보를 나타내게 된다. 예를 들면 한 열이 가격 정보를 나타낸다면 그 열이 포함하는 각 셀(Cell)들은 다른 상품에 대한 가격 정보를 나타내게 된다.Here, when the product search result is a table type, other columns of the same row indicate information about one product. Each column also represents the same semantic information for different products. For example, if one column represents price information, each cell included in the column represents price information of another product.
테이블의 첫번째 행은 각각의 열들이 나타내는 정보의 의미를 키워드 형태로 나타낸다. 만약 어떤 열이 가격에 대한 정보를 담고 있다면 '가격, 소비자가, 판매가, price'등과 같은 키워드가 나타나게 된다.The first row of the table shows the meaning of the information represented by each column in the form of keywords. If a column contains price information, keywords such as 'price, consumer, sale price, price' will appear.
첨부된 도6은 상기 도2에서 리스트형 학습기(16)가 상품정보의 패턴을 추출하는 과정(108)의 상세흐름도로서, 상기 리스트형 학습기(16)는 검색결과 분류기(12)로부터 수신한 새로운 쇼핑몰 검색결과 HTML파일을 상품정보 단위로 검색결과를 나누기 위해 HTML의 <BR> 태그 및 줄 나눔 태그를 이용하여 한 줄씩 나누고, 상기 HTML파일의 모든 줄에 대해서 분석할 쇼핑몰 페이지를 저장한 파일로부터 한 줄을 판독하며(500), 현재의 줄이 담고있는 정보의 의미를 파악하여(502), 그 의미를 기록한 후(504), 페이지에 나타난 상품정보 위치패턴을 추출한다(508).6 is a detailed flowchart of the process 108 of extracting the pattern of the product information by the list type learner 16 in FIG. 2, and the list type learner 16 receives the new result received from the search result classifier 12. To divide the shopping mall search result HTML file into product information units, divide the line by line by using the <BR> tag and line break tag of HTML, and save the shopping mall page to be analyzed for every line of the HTML file. The line is read (500), the meaning of the information contained in the current line is identified (502), the meaning is recorded (504), and the product information position pattern displayed on the page is extracted (508).
예를들어, 도서의 경우 추출해야 하는 정보가 '도서명, 가격'이라고 하면, 도서명의 경우 쇼핑몰 서버에 검색을 요청할 때 사용한 질의어를 포함하고 있는지를 매칭을 통해 확인하면 된다. 또한 현재의 줄이 가격을 나타내고 있는지를 알아보기 위해서는 가격을 나타내는 키워드 즉, '가격, 판매가, price'등의 키워드 뒤에 숫자 정보가 나타나는지를 알아보면 된다.For example, in the case of a book, if the information to be extracted is 'book name, price', the book name may be checked by matching whether the query word used to request a search from a shopping mall server is included. In addition, to determine whether the current line represents a price, it is necessary to check whether numeric information appears after a keyword indicating a price, that is, a price, a selling price, a price, and the like.
즉, 하나의 상품에 대한 상품 정보 단위를 정확하게 추출하기 위해 패턴을 추출하게 된다. 이렇게 반복적으로 나타나는 일정한 패턴이 바로 하나의 상품을 나타내는 상품 정보이며, 상품 정보의 단위를 추출하면 그 상품 정보에서 필요한 상품 속성만을 추출해 내어 정보를 통합한다.That is, the pattern is extracted to accurately extract the product information unit for one product. The repetitive pattern is product information representing one product. When a unit of product information is extracted, only necessary product attributes are extracted from the product information to integrate the information.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the spirit of the present invention for those skilled in the art to which the present invention pertains. It is not limited to the drawing.
상기와 같은 본 발명은, 새로운 쇼핑몰의 정보 추출 규칙을 자동으로 생성해내므로 관리자의 수작업을 줄일 수 있으며, 비교 쇼핑 시스템을 보다 쉽게 유지할 수 있는 효과가 있다,The present invention as described above, by automatically generating the information extraction rules of the new shopping mall can reduce the manual labor of the administrator, there is an effect that can easily maintain the comparison shopping system,
또한, 기존에 이미 생성한 규칙을 통해 정보 추출을 할 수 없는 경우 즉, 기존의 쇼핑몰의 검색 방법과 검색 결과 출력 방법이 달라진 경우 자동으로 이를 발견하여 관리자의 부가작업 없이 이를 새롭게 갱신하므로서, 비교 쇼핑 시스템을 유지하기 위해 필요한 비용을 현저하게 절감할 수 있는 효과가 있다.In addition, when information cannot be extracted through the rules already created, that is, when the search method of the existing shopping mall and the output method of the search result are different, it is automatically detected and updated without any additional work by the administrator. The effect is to significantly reduce the cost required to maintain the system.
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990056208A KR100312430B1 (en) | 1999-12-09 | 1999-12-09 | System for learning information of goods in internet shopping malls and method using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990056208A KR100312430B1 (en) | 1999-12-09 | 1999-12-09 | System for learning information of goods in internet shopping malls and method using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010055126A KR20010055126A (en) | 2001-07-04 |
KR100312430B1 true KR100312430B1 (en) | 2001-11-05 |
Family
ID=19624588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019990056208A KR100312430B1 (en) | 1999-12-09 | 1999-12-09 | System for learning information of goods in internet shopping malls and method using the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100312430B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030085719A (en) * | 2002-05-01 | 2003-11-07 | 삼성에스디에스 주식회사 | Method classifying shopping mall webpages and apparatus thereof |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020064249A (en) * | 2002-07-04 | 2002-08-07 | 이은석 | E-Commerce system which uses Automatic contents generation and Method for as the same |
KR101640799B1 (en) | 2016-03-11 | 2016-07-19 | 아무르콜라겐(주) | Method for preparing starfish extract and cosmetic composition comprising starfish extract |
KR102396110B1 (en) * | 2019-10-16 | 2022-05-19 | 카페24 주식회사 | Method, Apparatus and System for Interlocking Between Heterogeneous Shopping Mall |
-
1999
- 1999-12-09 KR KR1019990056208A patent/KR100312430B1/en not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030085719A (en) * | 2002-05-01 | 2003-11-07 | 삼성에스디에스 주식회사 | Method classifying shopping mall webpages and apparatus thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20010055126A (en) | 2001-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6523025B1 (en) | Document processing system and recording medium | |
JP5396533B2 (en) | Information processing apparatus, information processing method, and program for information processing apparatus | |
US8190556B2 (en) | Intellegent data search engine | |
JP4637969B1 (en) | Properly understand the intent of web pages and user preferences, and recommend the best information in real time | |
CN101490677B (en) | Presenting search result information | |
JP5721818B2 (en) | Use of model information group in search | |
US20070027856A1 (en) | Product searching system and method using search logic according to each category | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
CN107016020A (en) | The system and method for aiding in searching request using vertical suggestion | |
US8359307B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
KR101523450B1 (en) | Related-word registration device, related-word registration method, recording medium, and related-word registration system | |
WO2005062192A1 (en) | Methods and systems for information extraction | |
KR20160103470A (en) | System and method for providing response informations of prior users on goods through network | |
WO2001027712A2 (en) | A method and system for automatically structuring content from universal marked-up documents | |
JP5138621B2 (en) | Information processing apparatus, dissatisfied product discovery method and program | |
JP6533876B2 (en) | Product information display system, product information display method, and program | |
JP2013101416A (en) | Retrieval device, retrieval method, and program for retrieval device | |
KR100312430B1 (en) | System for learning information of goods in internet shopping malls and method using the same | |
CN111723296B (en) | Search processing method and device and computer equipment | |
JP4417497B2 (en) | Information retrieval apparatus and storage medium storing program | |
KR101440385B1 (en) | Device for managing information using indicator | |
JP6894875B2 (en) | Brand dictionary creation device, product evaluation device, brand dictionary creation method and program. | |
JP2002278983A (en) | Summary extracting program, document analysis supporting program, summary extracting method and method and system for supporting document analysis | |
CN111914154A (en) | Intelligent search guiding system and method | |
JP3943005B2 (en) | Information retrieval program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120928 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20130923 Year of fee payment: 13 |
|
LAPS | Lapse due to unpaid annual fee |