KR20200129782A - Searching service method using crawling - Google Patents

Searching service method using crawling Download PDF

Info

Publication number
KR20200129782A
KR20200129782A KR1020190054699A KR20190054699A KR20200129782A KR 20200129782 A KR20200129782 A KR 20200129782A KR 1020190054699 A KR1020190054699 A KR 1020190054699A KR 20190054699 A KR20190054699 A KR 20190054699A KR 20200129782 A KR20200129782 A KR 20200129782A
Authority
KR
South Korea
Prior art keywords
search
shopping mall
crawling
member shopping
accuracy verification
Prior art date
Application number
KR1020190054699A
Other languages
Korean (ko)
Inventor
김주헌
Original Assignee
주식회사 소나클로
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 소나클로 filed Critical 주식회사 소나클로
Priority to KR1020190054699A priority Critical patent/KR20200129782A/en
Publication of KR20200129782A publication Critical patent/KR20200129782A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

Disclosed is a search agent service method using crawling. According to one aspect of the present invention, the search agent service method, which is performed in a search service device, comprises the following steps of: periodically crawling and collecting sales product pages handled in a member shopping mall at a preset point of time; deriving meta-information from the collected sales product pages in a preset manner and storing the same in an external database provided by itself; and when a search request including a search keyword is received from the member shopping mall, providing a search result according to the search keyword in the external database to the member shopping mall.

Description

크롤링을 이용한 검색 대행 서비스 방법{Searching service method using crawling}Searching service method using crawling}

본 발명은 크롤링을 이용한 검색 대행 서비스 방법에 관한 것이다.The present invention relates to a search agency service method using crawling.

근래에는 온라인 쇼핑몰이 활성화되어 있는데, 온라인 물품 판매업자의 경우 자체적으로 온라인 쇼핑몰을 운영하거나 쿠팡, 11번가, 옥션 등의 대형 오픈마켓을 이용하고 있다. 오픈 마켓의 경우 큰 기업에서 운영되어 다수의 개발자에 의해 검색기능 등이 잘되어 있는 반면, 소기업이 운영하는 쇼핑몰의 경우에는 외주에 의한 개발로 인해 검색 기능 등의 각종 기능이 다소 미흡한 실정이다. In recent years, online shopping malls are active, and online product sellers operate their own online shopping malls or use large open markets such as Coupang, 11th Street, and Auction. In the case of open markets, the search function, etc., is well performed by a large number of developers because it is operated by a large company, whereas in the case of a shopping mall operated by a small company, various functions such as search function are somewhat insufficient due to development by outsourcing.

최근에는 일반 개인용PC를 이용한 온라인 쇼핑에 비해 스마트폰 등의 모바일을 이용한 온라인 쇼핑이 위주가 되어가고 있는데, 모바일의 경우 작은 화면에 의한 제약이 있어 많은 수의 제품을 보여주기가 어려워 검색 위주의 서비스를 제공하고 있다. 그리고 소수의 물품을 판매하는 업체보다는 많게는 수천, 수만개의 제품을 판매하는 업체가 많은데, 모바일 환경에서는 다수의 물품을 한 화면에 진열하기 어려우므로, 검색 기능이 중요한 이슈이다.Recently, compared to online shopping using general personal PCs, online shopping using mobiles such as smartphones is becoming more dominant. In the case of mobile, it is difficult to show a large number of products due to limitations due to small screens, so a search-oriented service Has been provided. In addition, there are many companies that sell thousands or tens of thousands of products rather than a small number of companies. In a mobile environment, it is difficult to display a large number of items on one screen, so the search function is an important issue.

소기업이 운영하는 자체 쇼핑몰의 경우에는 미흡한 검색 기능에 의해 소비자가 원하는 물품이 정확히 검색되지 않는 경우가 많아 소비자의 불편이 발생하며 이에 따라 구매로 이어지지 않게 되는 문제가 있다.In the case of a self-contained shopping mall operated by a small company, there is a problem in that the product desired by the consumer is not accurately searched due to an insufficient search function, causing inconvenience to the consumer and thus not leading to purchase.

만일 자체 쇼핑몰의 검색 기능을 강화하기 위해서는 검색엔진의 구매, 검색엔진을 쇼핑몰에 적용하기 위한 개발 비용, 유지 보수 등에 따른 비용이 소모되고 관리가 어려워 실제 적용하지 못하는 경우가 많다. If, in order to reinforce the search function of the own shopping mall, the purchase of a search engine, development cost for applying the search engine to the shopping mall, and maintenance costs are consumed, and management is difficult, it is often not practical.

대한민국 등록특허 제10-1745998 (등록일자 2017년06월05일) 온라인 쇼핑몰 상품 정보에 대한 연동검색 표시장치 및 방법Republic of Korea Patent Registration No. 10-1745998 (Registration Date June 5, 2017) Linked search display device and method for online shopping mall product information

따라서, 본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로서, 강화된 검색 기능을 쇼핑몰에 서비스형으로 제공하는 크롤링을 이용한 검색 대행 서비스 방법을 제공하기 위한 것이다.Accordingly, the present invention has been devised to solve the above-described problem, and is to provide a search agency service method using crawling that provides an enhanced search function to a shopping mall as a service type.

본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확해질 것이다.Other objects of the present invention will become more apparent through preferred embodiments described below.

본 발명의 일 측면에 따르면, 검색 서비스 장치에서 수행하는 검색 대행 서비스 제공 방법에 있어서, 회원 쇼핑몰에서 취급하는 판매물폼 페이지들을 미리 설정된 시점에 주기적으로 크롤링하여 수집하는 단계; 수집된 상기 판매물품 페이지들로부터 미리 설정된 방식으로 메타정보를 도출하여 자체 구비한 외부 데이터베이스에 저장하는 단계; 및 상기 회원 쇼핑몰로부터 검색키워드를 포함한 검색요청이 수신되면, 상기 외부 데이터베이스에서 상기 검색키워드에 따른 검색 결과를 상기 회원 쇼핑몰로 제공하는 단계를 포함하는 크롤링을 이용한 검색 대행 서비스 방법이 제공된다.According to an aspect of the present invention, there is provided a method for providing a search agency service performed by a search service device, comprising: periodically crawling and collecting sales form pages handled by a member shopping mall at a preset time; Deriving meta information from the collected sales product pages in a preset manner and storing it in an external database provided by itself; And when a search request including a search keyword is received from the member shopping mall, providing a search result according to the search keyword from the external database to the member shopping mall. A search agency service method using crawling is provided.

여기서, 상기 회원 쇼핑몰에 대한 크롤링 시점이 미리 설정된 임계시점을 초과한 경우, 상기 검색 결과에 대한 정확도 검증을 수행하는 단계를 더 포함하되, 상기 정확도 검증은 상기 검색 결과에 따른 내용 중 미리 설정된 개수만큼 직접 접속을 시도하여 성공여부를 확인하여 수행될 수 있다.Here, when the crawling time point for the member shopping mall exceeds a preset threshold time point, further comprising performing accuracy verification on the search result, wherein the accuracy verification is performed by a predetermined number of contents according to the search result. It can be performed by attempting a direct connection and checking whether it is successful.

또한, 상기 정확도 검증이 임계값 미만인 경우 회원 쇼핑몰에 대한 부분 크롤링을 수행하는 단계를 더 포함할 수 있다.In addition, when the accuracy verification is less than the threshold value, the step of performing partial crawling of the member shopping mall may be further included.

또한, 상기 정확도 검증이 상기 임계값보다 작은 제2 임계값 미만인 경우, 상기 회원 쇼핑몰에 대한 전체 크롤링을 수행하고, 상기 전체 크롤링이 수행되는 동안에는 상기 회원 쇼핑몰 자체에 구비된 검색엔진을 이용한 검색이 수행되도록 할 수 있다.In addition, when the accuracy verification is less than a second threshold value that is less than the threshold value, a full crawl is performed for the member shopping mall, and while the full crawl is performed, a search using a search engine provided in the member shopping mall itself is performed. You can do it.

또한, 상기 정확도 검증에 의해 오류가 존재하는 페이지가 발견된 경우 오류페이지에 대한 내용을 삭제하고 검색 결과를 제공한 이후, 검색 결과에 따른 모든 페이지를 확인하여 더 발견되는 오류페이지가 모두 제거되도록 관련 정보를 상기 회원 쇼핑몰로 전송할 수 있다.In addition, if a page with an error is found by the above accuracy verification, the content of the error page is deleted and the search result is provided, and then all pages according to the search result are checked, so that all further error pages are removed. Information can be transmitted to the member shopping mall.

본 발명에 따르면, 크롤링하여 DB를 구축하여 검색을 외부에서 대행함으로써, 쇼핑몰 자체에 새로운 엔진의 탑재 및 DB의 변화 없이도 강화된 검색 기능을 쇼핑몰에 서 제공할 수 있는 효과가 있다.According to the present invention, it is possible to provide a reinforced search function in a shopping mall without installing a new engine and changing the DB by installing a new engine in the shopping mall itself by constructing a DB by crawling and performing a search externally.

도 1은 본 발명의 일 실시예에 따른 쇼핑몰을 위한 검색 서비스를 위한 전체 시스템을 개략적으로 도시한 구성도.
도 2는 본 발명의 일 실시예에 따른 검색 서비스 장치의 구성을 도시한 블록도.
도 3은 본 발명의 일 실시예에 따른 검색 서비스 과정을 도시한 흐름도.
도 4는 본 발명의 일 실시예에 따른 회원 쇼핑몰 서버에서 제공하는 검색 유저인터페이스 화면을 도시한 예시도.
도 5는 본 발명의 일 실시예에 따른 크롤링 시점에 대응하여 정확도 검증을 수행하는 검색 대행 과정을 도시한 흐름도.
도 6은 본 발명의 일 실시예에 따른 정확도 검증에 의한 정확도 수치에 대응한 처리 과정을 도시한 흐름도.
1 is a block diagram schematically showing an entire system for a search service for a shopping mall according to an embodiment of the present invention.
2 is a block diagram showing the configuration of a search service apparatus according to an embodiment of the present invention.
3 is a flow chart illustrating a search service process according to an embodiment of the present invention.
4 is an exemplary view showing a search user interface screen provided by a member shopping mall server according to an embodiment of the present invention.
5 is a flowchart illustrating a search agency process for performing accuracy verification in response to a crawl time point according to an embodiment of the present invention.
6 is a flowchart illustrating a processing procedure corresponding to an accuracy value by verifying accuracy according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.In the present invention, various modifications may be made and various embodiments may be provided, and specific embodiments will be illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to a specific embodiment, it is to be understood to include all changes, equivalents, or substitutes included in the spirit and scope of the present invention.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being "connected" or "connected" to another component, it is understood that it may be directly connected or connected to the other component, but other components may exist in the middle. Should be. On the other hand, when a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that there is no other component in the middle.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 후술될 제1 임계값, 제2 임계값 등의 용어는 실질적으로는 각각 상이하거나 일부는 동일한 값인 임계값들로 미리 지정될 수 있으나, 임계값이라는 동일한 단어로 표현될 때 혼동의 여지가 있으므로 구분의 편의상 제1, 제2 등의 용어를 병기하기로 한다. Terms such as first and second may be used to describe various components, but the components should not be limited by the terms. These terms are used only for the purpose of distinguishing one component from another component. For example, terms such as a first threshold value and a second threshold value to be described later may be pre-designated as threshold values that are substantially different or some of the same values, but when expressed in the same word as the threshold value, there is a confusion. There is room, so for the convenience of classification, terms such as first and second will be added together.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present specification are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or a combination thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof, does not preclude in advance.

또한, 각 도면을 참조하여 설명하는 실시예의 구성 요소가 해당 실시예에만 제한적으로 적용되는 것은 아니며, 본 발명의 기술적 사상이 유지되는 범위 내에서 다른 실시예에 포함되도록 구현될 수 있으며, 또한 별도의 설명이 생략될지라도 복수의 실시예가 통합된 하나의 실시예로 다시 구현될 수도 있음은 당연하다.In addition, components of the embodiments described with reference to each drawing are not limited to the corresponding embodiments, and may be implemented to be included in other embodiments within the scope of maintaining the technical spirit of the present invention. Even if the description is omitted, it is natural that a plurality of embodiments may be implemented again as a unified embodiment.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일하거나 관련된 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. In addition, in the description with reference to the accompanying drawings, the same or related reference numerals are assigned to the same components regardless of the reference numerals, and redundant descriptions thereof will be omitted. In describing the present invention, when it is determined that a detailed description of related known technologies may unnecessarily obscure the subject matter of the present invention, a detailed description thereof will be omitted.

도 1은 본 발명의 일 실시예에 따른 쇼핑몰을 위한 검색 서비스를 위한 전체 시스템을 개략적으로 도시한 구성도이고, 도 2는 본 발명의 일 실시예에 따른 검색 서비스 장치의 구성을 도시한 블록도이다.1 is a block diagram schematically showing an entire system for a search service for a shopping mall according to an embodiment of the present invention, and FIG. 2 is a block diagram showing a configuration of a search service apparatus according to an embodiment of the present invention. to be.

도 1을 참조하면, 본 실시예에 따른 전체 시스템은 쇼핑몰을 운영하는 회원 쇼핑몰 서버들(10-1, ..., 10-n, 이하 10으로 통칭), 회원 쇼핑몰 서버(10)들로 검색 대행 서비스를 제공하는 검색 서비스 장치(30) 및 검색 서비스 장치(30)에서 운용하는 외부DB(40)를 포함한다.Referring to FIG. 1, the entire system according to this embodiment searches through member shopping mall servers 10-1, ..., 10-n, hereinafter referred to as 10) and member shopping mall servers 10 that operate a shopping mall. It includes a search service device 30 providing an agency service and an external DB 40 operated by the search service device 30.

회원 쇼핑몰 서버(10)는 온라인 쇼핑몰을 소비자에게 제공하기 위한 장치이며, 검색 서비스 장치(30)는 회원 가입된 각 회원 쇼핑몰에게 검색 기능을 서비스형식으로 제공한다.The member shopping mall server 10 is a device for providing an online shopping mall to consumers, and the search service device 30 provides a search function to each member shopping mall registered as a member in a service format.

즉, 회원 쇼핑몰은 자체적으로 검색 기능을 구비할 수도 있으나, 검색 기능을 외부의 검색 서비스 장치(30)를 이용하는 것이다. 다시 말해, 회원 쇼핑몰에 접속한 소비자는 해당 쇼핑몰에서 검색을 수행하되, 실제 검색은 검색 서비스 장치(30)에서 수행되며, 소비자는 검색 결과를 이미 접속한 쇼핑몰에서 바로 확인할 수 있게 되는 것이다.That is, the member shopping mall may have its own search function, but the search function uses the external search service device 30. In other words, a consumer who accesses the member shopping mall performs a search in the corresponding shopping mall, but the actual search is performed by the search service device 30, and the consumer can immediately check the search result in the shopping mall that has already been accessed.

검색 서비스 장치의 구성을 도시한 도 2를 참조하면, 검색 서비스 장치(30)는 통신부(210), 페이지수집부(220), 메타정보생성부(230), 검색부(240) 및 제어부(250)를 포함한다.Referring to FIG. 2 showing the configuration of the search service device, the search service device 30 includes a communication unit 210, a page collection unit 220, a meta information generation unit 230, a search unit 240, and a control unit 250. ).

통신부(210)는 인터넷망 등의 통신망을 이용하여 회원 쇼핑몰 서버(10)와 통신하기 위한 것이며, 통신망을 이용한 통신은 당업자에게는 자명할 것이므로 더욱 상세한 설명은 생략한다.The communication unit 210 is for communicating with the member shopping mall server 10 using a communication network such as an Internet network, and a more detailed description thereof will be omitted since communication using a communication network will be apparent to those skilled in the art.

페이지수집부(220)는 회원 표핑몰에서 취급하는 판매물품 페이지들을 수집(crawling)한다. 즉, 회원 쇼핑몰에서 제공되는 각 판매물품에 따른 유저페이지(user page)를 수집하는 것인데, 유저페이지는 웹(web) 방식의 경우 웹페이지(webpage)의 형태로, 애플리케이션(application)의 경우 뷰페이지(view page) 형태로 제공될 것이다. 즉, 페이지수집부(220)는 웹(web)방식 또는 앱(app)방식에 따른 각 판매물품에 따른 유저페이지인 판매물품 페이지를 통신망을 통해 크롤링(crawling)하여 수집하는 것이다. The page collection unit 220 collects pages of products for sale that are handled by the member shopping mall. That is, the user page is collected according to each sale item provided in the member shopping mall. The user page is in the form of a webpage in the case of a web method, and a view page in the case of an application. It will be provided in the form of (view page). That is, the page collection unit 220 crawls and collects a sales product page, which is a user page for each sale product according to a web method or an app method, through a communication network.

통상 웹크롤링이란 무수히 많은 컴퓨터에 분산 저장되어 있는 웹문서(webpage 등)를 수집하여 검색 대상의 색인으로 포함시키는 기술을 말하는데, 통신망을 통한 문서(웹페이지 등)를 수집하는 크롤링은 검색엔진 등 현재에도 다양한 분야에서 이용되고 있어 당업자에게는 자명할 것이므로 더욱 상세한 설명은 생략한다.In general, web crawling refers to a technology that collects web documents (webpages, etc.) that are distributed and stored in a myriad of computers and includes them as an index of the search target. However, crawling that collects documents (webpages, etc.) through communication networks is currently used by search engines. Also, since it is used in various fields, it will be apparent to those skilled in the art, so a more detailed description will be omitted.

메타정보생성부(230)는 수집된 판매물품 페이지들로부터 미리 설정된 방식으로 메타정보를 도출한다. 예를 들어, 카테고리 정보, 페이지 제목정보, 판매물품 일련번호, 내용에 포함된 기능정보 등의 메타정보를 도출한다. 검색 서비스 장치는 메타정보의 도출 방식을 상황에 따라 관리자에 의해 설정될 수 있는 관리자 인터페이스를 제공할 수도 있을 것이다.The meta information generation unit 230 derives meta information from the collected sales product pages in a preset manner. For example, meta information such as category information, page title information, product serial number, and function information included in the content is derived. The search service apparatus may also provide an administrator interface in which a method of deriving meta information can be set by an administrator according to a situation.

도출된 메타정보는 외부DB(40)에 저장되어, 차후 검색에 이용된다.The derived meta-information is stored in the external DB 40 and used for subsequent search.

검색부(240)는 외부DB(40)에서 검색키워드에 따른 검색을 수행하는데, 회원 쇼핑몰로부터의 검색키워드를 포함한 검색요청에 따른 검색 결과를 제공하기 위해 외부DB(40)에서 검색키워드에 따른 검색을 수행한다. 검색부(240)에 의해 검색된 결과는 검색을 요청한 회원 쇼핑몰 서버(10)로 제공된다. 따라서, 회원 쇼핑몰 서버(10)는 보다 검색 기능이 강화된 외부의 검색 서비스 장치(30)를 이용하여 신뢰성 높은 검색 서비스를 소비자에게 제공할 수 있어, 물품의 판매로 인한 매출 증대를 기대할 수 있게 된다. 다시 말해, 본 실시예에 따른 검색 서비스 장치(30)는 회원 쇼핑몰 서버(10)에서 운영되는 DB와는 별도로 자체 구비한 외부DB(40)에 크롤링된 메타정보를 기반으로 새로운 DB를 구축하는 것이고, 새로이 구축된 DB를 이용하여 검색 서비스를 제공하는 것이다.The search unit 240 performs a search according to the search keyword in the external DB 40, and searches according to the search keyword in the external DB 40 to provide search results according to the search request including the search keyword from the member shopping mall. Perform. The results searched by the search unit 240 are provided to the member shopping mall server 10 that requested the search. Accordingly, the member shopping mall server 10 can provide a highly reliable search service to consumers by using an external search service device 30 with a more enhanced search function, so that sales increase due to product sales can be expected. . In other words, the search service device 30 according to the present embodiment builds a new DB based on the meta-information crawled in the external DB 40 provided separately from the DB operated by the member shopping mall server 10, It provides a search service using the newly built DB.

제어부(250)는 각 구성부의 기능 구동에 대한 전반적인 제어를 수행하는데, 일례에 따르면 검색 이력을 외부DB(40)에 저장(또는 별도의 저장매체를 이용할 수도 있음)하고, 검색 이력을 이용하여 회원 쇼핑몰에서 취급하는 각 물품별 수집 시점을 설정할 수 있다. 즉, 회원 쇼핑몰의 모든 판매물품에 대해 동일 시점에 페이지들을 수집할 수도 있으나, 다른 일례에 따르면 카테고리별 또는 상세하게는 물품별 페이지의 수집 시점을 달리할 수 있는 것이다. 구체적인 예를 하나 들면, A카테고리에 따른 판매물품 페이지는 24시간 주기로, B카테고리에 따른 판매물품 페이지는 12시간 주기로 크롤링(수집)하는 것이다. 예를 들어, 검색 횟수가 상대적으로 많은 카테고리에 따른 판매물품 페이지에 대한 수집이 더 자주 수행될 수 있을 것이다.The control unit 250 performs overall control of the operation of the functions of each component. According to an example, the search history is stored in the external DB 40 (or a separate storage medium may be used), and a member using the search history You can set the collection point for each item handled by the shopping mall. That is, pages may be collected at the same time for all the items sold in the member shopping mall, but according to another example, the collection time of pages for each category or, in detail, for each product may be different. As a specific example, a page for sale items according to category A is crawled (collected) every 24 hours, and a page for items sold according to category B is crawled every 12 hours. For example, collection of sales product pages according to a category in which the number of searches is relatively large may be performed more often.

따라서, 제어부(250)는 검색 수행된 카테고리에 대한 이력을 이용하여 카테고리별 판매물품 페이지들의 각 수집 시점을 결정할 수 있다.Accordingly, the control unit 250 may determine the collection time of each category of sales product pages by using the history of the searched category.

그리고, 제어부(250)는 검색부(240)가 수행한 검색결과에 대한 검증을 수행할 수 있으며, 그에 따른 처리 방식 및 절차는 추후 관련 도면(도 5 내지 도 6)을 참조하여 상세히 설명하기로 한다.In addition, the control unit 250 may perform verification of the search result performed by the search unit 240, and the processing method and procedure according thereto will be described in detail later with reference to related drawings (Figs. 5 to 6). do.

도 3은 본 발명의 일 실시예에 따른 검색 서비스 과정을 도시한 흐름도이고, 도 4는 본 발명의 일 실시예에 따른 회원 쇼핑몰 서버에서 제공하는 검색 유저인터페이스 화면을 도시한 예시도이다.3 is a flowchart illustrating a search service process according to an embodiment of the present invention, and FIG. 4 is an exemplary view showing a search user interface screen provided by a member shopping mall server according to an embodiment of the present invention.

도 3을 참조하면, 검색 서비스 장치(30)는 회원 쇼핑몰 서버(10)의 판매물품 페이지를 수집하며(S310), 해당 페이지에서 미리 설정된 기준에 따라 메타정보를 도출하여 저장한다(S320).Referring to FIG. 3, the search service device 30 collects a sales article page of the member shopping mall server 10 (S310), and derives and stores meta information from the page according to a preset criterion (S320).

이후, 회원 쇼핑몰 서버(10)가 사용자로부터 입력된 검색 키워드를 포함한 검색 요청을 수행하면(S330), 검색 서비스 장치(30)는 저장된 메타정보를 기반으로 검색 키워드를 이용한 검색을 수행하며(S340). 검색 결과 정보를 회원 쇼핑몰 서버(10)로 제공한다(S350). 검색 결과 정보는 회원 쇼핑몰 서버(10)에서 제공되는 유저페이지 내에 보여지는데(S360), 이 때 검색 서비스 장치(30)는 검색 결과 정보를 페이지 형태로 제공할 수 있고 또는 회원 쇼핑몰 서버(10)에 따른 API를 이용한 정보로 제공할 수도 있다. 다시 말해, 검색 서비스 장치(30)가 페이지 자체로 검색 결과를 제공할 수 있으며, 또는 회원 쇼핑몰 서버(10)가 페이지로 제공할 수 있는 정보로 제공할 수도 있는 것이다.Thereafter, when the member shopping mall server 10 performs a search request including a search keyword input from the user (S330), the search service device 30 performs a search using the search keyword based on the stored meta information (S340). . The search result information is provided to the member shopping mall server 10 (S350). The search result information is displayed in the user page provided by the member shopping mall server 10 (S360). In this case, the search service device 30 may provide the search result information in the form of a page or the member shopping mall server 10 It can also be provided as information using the following API. In other words, the search service device 30 may provide the search result as the page itself, or the member shopping mall server 10 may provide the information as the page.

이에 대한 회원 쇼핑몰 서버(10)가 접속한 유저에게 제공하는 유저인터페이스 화면을 예시한 도시한 도 4를 참조하면, 화면일측에 표시되는 검색창(410)을 이용한 검색이 요청되면, 검색 키워드(등산화)가 검색 서비스 장치(30)로 제공되어 참조번호 420에 검색 서비스 장치(30)에 의한 검색 결과가 표시된다. Referring to FIG. 4 illustrating a user interface screen provided by the member shopping mall server 10 to the accessed user, when a search is requested using the search window 410 displayed on one side of the screen, a search keyword (climbing boots) ) Is provided to the search service device 30, and a search result by the search service device 30 is displayed at 420.

이하, 검색 서비스 장치(30)에서의 정확도 검증을 수행하는 검색 대행 서비스 과정에 대해 상세히 설명하고자 한다. Hereinafter, a detailed description will be given of a search agency service process for performing accuracy verification in the search service device 30.

도 5는 본 발명의 일 실시예에 따른 크롤링 시점에 대응하여 정확도 검증을 수행하는 검색 대행 과정을 도시한 흐름도이다.5 is a flowchart illustrating a search agency process for performing accuracy verification in response to a crawl time point according to an embodiment of the present invention.

도 5를 참조하면, 검색 서비스 장치(30)는 검색대행 요청을 수신한다(S510). 즉, 임의의 회원 쇼핑몰 서버(10)로부터 검색 키워드를 포함한 검색 대행 서비스의 요청을 수신하는 것이다. Referring to FIG. 5, the search service device 30 receives a search proxy request (S510). That is, a request for a search agency service including a search keyword is received from an arbitrary member shopping mall server 10.

그러면, 검색 서비스 장치(30)는 해당 회원 쇼핑몰을 식별하고, 식별된 회원 쇼핑몰에 대해 마지막으로 크롤링을 수행한 시점을 확인한다(S520). 예를 들어, 회원 쇼핑몰 마다 기본적으로 24시간 주기(수행 시점은 각각 다를 수 있음)로 전체 크롤링을 수행하는 경우, 해당 회원 쇼핑몰의 마지막 크롤링을 수행한 시점(시작 시점 또는 종료 시점일 수 있음)을 확인하는 것이다.Then, the search service device 30 identifies a corresponding member shopping mall, and checks a time point at which the identified member shopping mall was last crawled (S520). For example, in the case of performing a full crawl for each member shopping mall basically every 24 hours (the execution time may be different), the time when the last crawl of the member shopping mall was performed (may be the start or end time) To confirm.

크롤링 시점이 미리 설정된 임계시점(예를 들어, 12시간 뒤)을 초과하였는지 여부를 확인한다(S530). 크롤링 시점이 너무 오래 지난 상황이면 회원 쇼핑몰 서버(10)의 DB에 저장된 정보와, 크롤링되어 검색 서비스 장치(30)의 외부DB(40)에 저장된 정보간에 차이가 발생할 수 있기 때문에, 크롤링 시점을 확인하는 것이다.It is checked whether the crawl time exceeds a preset threshold (eg, after 12 hours) (S530). If the crawl time has passed too long, a difference may occur between the information stored in the DB of the member shopping mall server 10 and the information crawled and stored in the external DB 40 of the search service device 30, so check the crawl time. Is to do.

크롤링 시점이 임계시점을 초과하지 않은 상태라면, 일반 검색 대행 프로세스를 진행하여 검색 결과를 검색 대행 서비스를 요청한 회원 쇼핑몰 서버(10)로 제공한다(S540).If the crawling time point has not exceeded the critical time point, a general search agency process is performed and the search result is provided to the member shopping mall server 10 that requested the search agency service (S540).

이와 달리 크롤링 시점이 임계시점을 초과한 상태라면, 회원 쇼핑몰 서버(10)의 DB와 외부DB(40)간의 정보 차이가 있을 수 있으므로, 외부DB(40)를 이용한 검색을 수행한 이후 정확도 검증을 수행한다(S560).On the contrary, if the crawl time exceeds the critical time point, there may be a difference in information between the DB of the member shopping mall server 10 and the external DB 40, so that the accuracy verification is performed after performing a search using the external DB 40. It performs (S560).

정확도 검증은 다양하게 수행될 수 있는데, 일례에 따르면 검색 결과의 각 페이지를 직접 접속하여 접속성공률을 정확도 검증 수치로 산출할 수 있다. 예를 들어, 검색 키워드인 [등산복]에 대한 검색 결과로 총 100개의 웹페이지가 검색되고, 각 100개의 웹페이지를 직접 접속한 결과 98개가 정상적으로 접속 성공되었다면 정확도 수치는 98%로 산출될 수 있다. The accuracy verification can be performed in various ways. According to an example, the connection success rate can be calculated as an accuracy verification value by directly accessing each page of the search result. For example, if a total of 100 webpages are searched as a search result for the search keyword [climbing clothes], and if 98 of each 100 webpages are directly accessed, the accuracy value can be calculated as 98%. .

다른 일례에 따르면, 검색 결과의 수가 많은 경우 모두 접속을 시도해보는 것은 비효율적일 수 있으므로, 임의로 또는 최신순으로 또는 가장 오래된 몇개(예를 들어, 10개 등)를 추출하여 확인해보고, 그 결과를 전체의 결과로서 유추하는 방식이 이용될 수도 있다.According to another example, if the number of search results is large, trying to access all of them may be inefficient. Therefore, randomly, in the latest order, or in the oldest (for example, 10) are extracted and checked, and the results are viewed as a whole. A method of inferring as a result may be used.

도면에는 도시되지 않았으나, 일례에 따르면 정확도 검증 결과 정확도 수치가 미리 설정된 임계값(예를 들어, 50%) 이하라면 검색 대행을 중단하고 해당 회원 쇼핑몰 서버에서 자체 구비한 검색엔진을 이용한 검색 서비스를 이용하도록 처리할 수도 있다. Although not shown in the drawing, according to an example, if the accuracy verification result is less than a preset threshold (eg, 50%), the search agency is stopped and the member shopping mall server uses a search service using its own search engine. It can also be processed to do.

이와 달리, 정확도 검증이 성공된 경우(예를 들어, 정확도 수치가 임계값 이상인 경우)에는 검색 대행 서비스를 정상적으로 처리할 수 있다.In contrast, when the accuracy verification is successful (for example, when the accuracy value is greater than or equal to a threshold value), the search agency service may be normally processed.

도 6은 본 발명의 일 실시예에 따른 정확도 검증에 의한 정확도 수치에 대응한 처리 과정을 도시한 흐름도이다.6 is a flowchart illustrating a processing procedure corresponding to an accuracy value by verifying accuracy according to an embodiment of the present invention.

도 6을 참조하면, 검색 서비스 장치(30)는 검색 대행 요청된 검색 키워드(물론, 성별, 연령대, 생산일자, 가격순 등의 다양한 검색 조건이 더 추가될 수 있음)에 상응하는 검색을 수행하고, 검색 결과 중 일정 개수를 추출한다(S610). 전술한 바와 같이 정확도 검증에 모든 검색 결과를 확인할 수도 있으나, 대표로 몇개를 추출하여 정확도 검증을 수행할 수도 있다. 여기서, 검색 결과 중 정확도 검증을 위한 대표상품의 추출 방식 및 개수는 검색 결과의 개수에 따라 달라질 수도 있다. 예를 들어, 검색결과의 개수 중 10%를 랜덤하게 추출하거나, 검색 결과 개수와 상관없이 5개를 최신순으로 추출하는 등 다양하게 추출방식은 설정될 수 있다. Referring to FIG. 6, the search service device 30 performs a search corresponding to a search keyword requested as a search agent (of course, various search conditions such as gender, age group, production date, price order, etc. may be further added), A certain number of the search results is extracted (S610). As described above, all search results may be checked for accuracy verification, but accuracy verification may be performed by extracting several representatives. Here, among the search results, the extraction method and number of representative products for accuracy verification may vary according to the number of search results. For example, various extraction methods may be set, such as randomly extracting 10% of the number of search results, or extracting 5 items in the latest order regardless of the number of search results.

추출된 대표 상품에 대해 모두 각각 직접 접속하여(즉, 통신망을 통해 회원 쇼핑몰 서버의 DB에 접속하는 것임) 확인하고, 그 정확도 수치를 산출한다(S6230).All of the extracted representative products are directly connected to each other (that is, access to the member shopping mall server DB through a communication network), and the accuracy value is calculated (S6230).

산출 결과 정확도 수치가 제1 임계값(예를 들어, 90% 등) 미만인지 여부를 확인한다(S630). 만일 제1 임계값 이상의 정확도 수치가 산출된 경우, 검색 결과(확인된 오류 페이지를 제거할 수도 있음)를 회원 쇼핑몰 서버(10)로 제공한다(S640). As a result of the calculation, it is checked whether the accuracy value is less than a first threshold value (eg, 90%, etc.) (S630). If an accuracy value equal to or greater than the first threshold is calculated, the search result (the checked error page may be removed) is provided to the member shopping mall server 10 (S640).

이와 달리, 정확도 수치가 제1 임계값 보다 작은 경우 제2 임계값(예를 들어, 80% 등) 미만인지 여부를 더 확인한다(S650). 제2 임계값보다 작다는 것은 정확도가 너무 떨어져 제대로된 검색 대행 서비스를 제공하지 못하게 되는 것을 의미할 수 있기 때문에, 이러한 경우를 방지하기 위한 것이다.In contrast, if the accuracy value is less than the first threshold, it is further checked whether it is less than the second threshold (eg, 80%, etc.) (S650). If it is less than the second threshold, it is to prevent such a case because it may mean that the accuracy is too low to provide a proper search agency service.

정확도 수치가 제2 임계값 이상 제1 임계값 미만인 경우, 검색 키워드에 상응하는 부분 크롤링을 수행한다(S660). 예를 들어, 해당 회원 쇼핑몰 서버(10)에 대한 주기적 전체 크롤링을 수행하기에 앞서, 현재의 검색 키워드에 상응하는 회원 쇼핑몰 서버(10)에 의한 웹페이지들을 크롤링하여 수집하여 외부DB(40)를 갱신하는 것이다. 그리고, 일례에 따르면 이 경우엔 정상적으로 검색 대행 서비스에 따른 검색 결과를 회원 쇼핑몰 서버로 제공한다. 그리고, 일례에 따르면, 정확도 검증에 의해 오류가 존재하는 페이지가 발견된 경우 오류페이지에 대한 내용을 삭제하고 검색 결과를 회원 쇼핑몰 서버(10)로 제공한 이후, 검색 결과에 따른 다른 모든 페이지를 더 확인하여 발견되는 오류페이지가 모두 제거되도록 관련 정보(또는 새로운 검색 결과)를 회원 쇼핑몰로 전송할 수 있다.When the accuracy value is greater than or equal to the second threshold and less than the first threshold, partial crawling corresponding to the search keyword is performed (S660). For example, before performing a periodic full crawl for the member shopping mall server 10, the external DB 40 is collected by crawling and collecting web pages by the member shopping mall server 10 corresponding to the current search keyword. It is to update. And, according to an example, in this case, the search result according to the search agency service is normally provided to the member shopping mall server. And, according to an example, if a page in which an error exists is found through accuracy verification, the content of the error page is deleted and the search result is provided to the member shopping mall server 10, and then all other pages according to the search result are further Related information (or new search results) may be transmitted to the member shopping mall so that all error pages found after checking are removed.

이와 달리, 정확도 수치가 제2 임계값 미만인 경우, 다음번 크롤링 시점이 다다르지 못한 시점이지만 바로 전체 크롤링을 수행한다(S670). 이 경우엔, 전체 크롤링이 수행되는 동안에는 회원 쇼핑몰 자체에 구비된 검색엔진을 이용한 검색이 수행되도록 할 수 있다. 즉, 외부DB(40)의 내용이 정확하지 않을 수 있으므로, 회원 쇼핑몰 서버가 직접 검색 키워드를 이용한 직접 검색을 수행하도록 하고, 그 사이 전체 크롤링을 수행하는 것이다. On the contrary, when the accuracy value is less than the second threshold, the next crawl time point is not reached, but the entire crawl is immediately performed (S670). In this case, while the entire crawl is being performed, a search can be performed using a search engine provided in the member shopping mall itself. That is, since the contents of the external DB 40 may not be accurate, the member shopping mall server performs a direct search using a direct search keyword, and performs a full crawl in the meantime.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those of ordinary skill in the relevant technical field can variously modify the present invention within the scope not departing from the spirit and scope of the present invention described in the following claims. It will be appreciated that it can be modified and changed.

10 : 회원 쇼핑몰 서버
30 : 검색 서비스 장치
40 : 외부DB
10: Member shopping mall server
30: search service device
40: external DB

Claims (5)

검색 서비스 장치에서 수행하는 검색 대행 서비스 제공 방법에 있어서,
회원 쇼핑몰에서 취급하는 판매물폼 페이지들을 미리 설정된 시점에 주기적으로 크롤링하여 수집하는 단계;
수집된 상기 판매물품 페이지들로부터 미리 설정된 방식으로 메타정보를 도출하여 자체 구비한 외부 데이터베이스에 저장하는 단계; 및
상기 회원 쇼핑몰로부터 검색키워드를 포함한 검색요청이 수신되면, 상기 외부 데이터베이스에서 상기 검색키워드에 따른 검색 결과를 상기 회원 쇼핑몰로 제공하는 단계를 포함하는 크롤링을 이용한 검색 대행 서비스 방법.
In the search agency service providing method performed by a search service device,
Periodically crawling and collecting sales form pages handled by the member shopping mall at a preset time;
Deriving meta information from the collected sales product pages in a preset manner and storing it in an external database provided by itself; And
And when a search request including a search keyword is received from the member shopping mall, providing a search result according to the search keyword from the external database to the member shopping mall.
청구항 1에 있어서,
상기 회원 쇼핑몰에 대한 크롤링 시점이 미리 설정된 임계시점을 초과한 경우, 상기 검색 결과에 대한 정확도 검증을 수행하는 단계를 더 포함하되,
상기 정확도 검증은 상기 검색 결과에 따른 내용 중 미리 설정된 개수만큼 직접 접속을 시도하여 성공여부를 확인하여 수행되는, 크롤링을 이용한 검색 대행 서비스 방법.
The method according to claim 1,
When the crawling time point for the member shopping mall exceeds a preset threshold time point, further comprising: performing accuracy verification on the search result,
The accuracy verification is performed by confirming success by attempting direct access as many as a preset number of contents according to the search result, and the search agency service method using crawling.
청구항 2에 있어서,
상기 정확도 검증이 임계값 미만인 경우 회원 쇼핑몰에 대한 부분 크롤링을 수행하는 단계를 더 포함하는, 크롤링을 이용한 검색 대행 서비스 방법.
The method according to claim 2,
If the accuracy verification is less than the threshold value, further comprising the step of performing a partial crawl for the member shopping mall, search agency service method using crawling.
청구항 3에 있어서,
상기 정확도 검증이 상기 임계값보다 작은 제2 임계값 미만인 경우, 상기 회원 쇼핑몰에 대한 전체 크롤링을 수행하고, 상기 전체 크롤링이 수행되는 동안에는 상기 회원 쇼핑몰 자체에 구비된 검색엔진을 이용한 검색이 수행되도록 하는, 크롤링을 이용한 검색 대행 서비스 방법.
The method of claim 3,
When the accuracy verification is less than a second threshold value that is less than the threshold value, a full crawl is performed on the member shopping mall, and a search using a search engine provided in the member shopping mall itself is performed while the full crawl is performed. , Search agency service method using crawling.
청구항 3에 있어서,
상기 정확도 검증에 의해 오류가 존재하는 페이지가 발견된 경우 오류페이지에 대한 내용을 삭제하고 검색 결과를 제공한 이후,
검색 결과에 따른 모든 페이지를 확인하여 더 발견되는 오류페이지가 모두 제거되도록 관련 정보를 상기 회원 쇼핑몰로 전송하는, 크롤링을 이용한 검색 대행 서비스 방법.
The method of claim 3,
If a page with errors is found by the above accuracy verification, after deleting the contents of the error page and providing the search result,
A search agency service method using crawling, which checks all pages according to a search result and transmits related information to the member shopping mall so that all error pages found further are removed.
KR1020190054699A 2019-05-10 2019-05-10 Searching service method using crawling KR20200129782A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190054699A KR20200129782A (en) 2019-05-10 2019-05-10 Searching service method using crawling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190054699A KR20200129782A (en) 2019-05-10 2019-05-10 Searching service method using crawling

Publications (1)

Publication Number Publication Date
KR20200129782A true KR20200129782A (en) 2020-11-18

Family

ID=73697562

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190054699A KR20200129782A (en) 2019-05-10 2019-05-10 Searching service method using crawling

Country Status (1)

Country Link
KR (1) KR20200129782A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230154127A (en) * 2022-04-30 2023-11-07 김수미 Systme for providing diet supplement sales service

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101745998B1 (en) 2016-04-01 2017-06-12 주식회사 두솔이앤지 Linking search display apparatus and method for goods information of on-line shopping mall

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101745998B1 (en) 2016-04-01 2017-06-12 주식회사 두솔이앤지 Linking search display apparatus and method for goods information of on-line shopping mall

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230154127A (en) * 2022-04-30 2023-11-07 김수미 Systme for providing diet supplement sales service

Similar Documents

Publication Publication Date Title
US9990422B2 (en) Contextual analysis engine
US10235681B2 (en) Text extraction module for contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
WO2020147720A1 (en) Information recommendation method and device, and storage medium
US20130332385A1 (en) Methods and systems for detecting and extracting product reviews
US20140122294A1 (en) Determining a characteristic group
US11127063B2 (en) Product and content association
JP5916959B2 (en) Dynamic data acquisition method and system
US20130138674A1 (en) System and method for recommending application by using keyword
US20170140464A1 (en) Method and apparatus for evaluating relevance of keyword to asset price
US20190019203A1 (en) Method for providing marketing management data for optimization of distribution and logistics and apparatus for the same
US11561988B2 (en) Systems and methods for harvesting data associated with fraudulent content in a networked environment
US20110258529A1 (en) Systems and methods for excluding serving an advertisement campaign to undesired web pages
WO2012051470A1 (en) Systems and methods for using a behavior history of a user to augment content of a webpage
US8688697B1 (en) Identifying contrarian terms based on website content
JP2011022705A (en) Trail management method, system, and program
US10432570B2 (en) Systems and methods for transaction messaging using social networking platforms
JP2013125468A (en) Advertisement distribution device
CN110674620A (en) Target file generation method, device, medium and electronic equipment
US20210141861A1 (en) Systems and methods for training and evaluating machine learning models using generalized vocabulary tokens for document processing
US20150379112A1 (en) Creating an on-line job function ontology
US20190272559A1 (en) Detecting and resolving semantic misalignments between digital messages and external digital content
WO2018145637A1 (en) Method and device for recording web browsing behavior, and user terminal
KR20200129782A (en) Searching service method using crawling
US11062371B1 (en) Determine product relevance

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application