KR20040086733A - A method of managing registered web sites in search engine and a system thereof - Google Patents

A method of managing registered web sites in search engine and a system thereof Download PDF

Info

Publication number
KR20040086733A
KR20040086733A KR1020040003114A KR20040003114A KR20040086733A KR 20040086733 A KR20040086733 A KR 20040086733A KR 1020040003114 A KR1020040003114 A KR 1020040003114A KR 20040003114 A KR20040003114 A KR 20040003114A KR 20040086733 A KR20040086733 A KR 20040086733A
Authority
KR
South Korea
Prior art keywords
website
site
adult
search
search engine
Prior art date
Application number
KR1020040003114A
Other languages
Korean (ko)
Inventor
이현정
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020040003114A priority Critical patent/KR20040086733A/en
Publication of KR20040086733A publication Critical patent/KR20040086733A/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/56Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B11/00Filters or other obturators specially adapted for photographic purposes
    • G03B11/04Hoods or caps for eliminating unwanted light from lenses, viewfinders or focusing aids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/51Housings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/55Optical parts specially adapted for electronic image sensors; Mounting thereof

Abstract

PURPOSE: A method and a system for managing registered web sites on a search engine are provided to make a search engine user correctly search desired information by automatically detecting a malicious site through an algorithm. CONSTITUTION: An interface module(201) interfaces data/physical transfer equipments between a registrant registering the web site to the search engine and a registration management system of the search engine. A web site registration module(202) receives a registration request for the web site from the registrant, and collects/classifies the information data included in the registration request. A web site management module(203) judges that the web site is operated in a state fit to a selected standard based on the web site information collected by a search robot(207), and automatically performs management for the registrant in case of the malicious web site. A web site information database(204) classifies/stores the information for the registered web sites. A web site analysis module(205) analyzes the web site information collected by the search robot. A keyword management module(206) manages the keyword usable to judge the malicious or degenerated site.

Description

검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및 그 시스템{A METHOD OF MANAGING REGISTERED WEB SITES IN SEARCH ENGINE AND A SYSTEM THEREOF}A method and system for managing a registered website in a search engine {A METHOD OF MANAGING REGISTERED WEB SITES IN SEARCH ENGINE AND A SYSTEM THEREOF}

본 발명은 인터넷 상에서 소정의 웹사이트에 대한 정보를 제공하는 검색 엔진에 관한 것이다. 더욱 상세하게는, 검색 엔진에 등록되어 있는 소정의 웹사이트에 대한 정보를 분석하여, 웹사이트에 포함되어 있는 실제 콘텐츠와 상이한 검색 결과가 제공되지 않도록 등록된 웹사이트를 관리하기 위한 방법에 관한 것이다.The present invention relates to a search engine that provides information about a given website on the Internet. More specifically, the present invention relates to a method for managing a registered website so that information about a predetermined website registered in a search engine is analyzed and a search result different from actual content included in the website is not provided. .

알타비스타(http://www.altavista.com), 라이코스(http://www.lycos.com), 야후(http://www.yahoo.com) 등과 같은 통상의 검색 엔진은 통상 웹사이트 정보를 소정의 기준에 따라 분류 및 저장하고 관리하기 위한 데이터베이스, 웹 상을 지속적으로 순회하면서 새로운 웹사이트 정보를 기계적으로 수집하기 위한 소프트웨어로 구현되는 검색 로봇(robot), 수집된 데이터를 데이터베이스화하여 상기 검색 엔진을 이용하는 이용자로 하여금 검색할 수 있도록 하는 검색 엔진 소프트웨어로 구성된다.Conventional search engines such as AltaVista (http://www.altavista.com), Lycos (http://www.lycos.com), Yahoo (http://www.yahoo.com), and the like, typically have website information. A database for classifying, storing, and managing the data according to predetermined criteria, a search robot implemented as software for mechanically collecting new website information while continuously circulating on the web, and storing the collected data as a database. It consists of search engine software that allows a user using a search engine to search.

상술한 검색 엔진 서비스를 제공하기 위한 전체 시스템의 블록도가 도 1a에 도시되어 있다. 도 1a을 참조하면, 사용자는 사용자 단말기(110)를 통하여 인터넷을 통해 검색 엔진 서버(150)로 접속한다. 사용자가 소정의 검색어를 입력하면, 검색 엔진 서버(150)는 검색 엔진 소프트웨어(140)로 해당 검색어에 대한 웹사이트 정보를 쿼리(query)하고, 검색 엔진 소프트웨어(140)는 해당 데이터베이스(130)를 검색하여 소정의 웹사이트 정보를 알려 준다. 검색 로봇(120)은 상기 설명한 바와 같이, 웹 상을 지속적으로 순회하면서 웹 서버(160)로부터 새로운 웹사이트 정보를 기계적으로 수집하기 위한 소프트웨어로 구현되는 엔티티(entity)이다. 검색로봇(120)은 네트워크 상에서 HTML(HyperText Markup Language)로 기술된 문장을 탐색하고, 기재되어 있는 링크처를 파싱(parsing)하여 네트워크 상에 존재하는 다수의 웹사이트로부터 데이터를 수집한다. 이와 같이 검색 로봇(120)에 의해 수집된 데이터는 데이터베이스화되는데, 여기에서 데이터베이스화라 함은 웹사이트에 위치하는 소정의 정보에 대해 형태소 분석(morphological analysis)을 수행하고, 인덱스 테이블을 작성하여 데이터베이스(130)에 저장하는 일련의 수순을 의미한다. 데이터베이스(130)는 검색 로봇(120)에 의해 수집된 모든 웹사이트 정보를 저장하기 위한 것이다. 검색 엔진 소프트웨어(140)는 검색 결과를 사용자에게 보여주는 기능을 한다. 이 소프트웨어는 데이터베이스(130)에 저장된 수많은 페이지를 검색하여 검색 결과물을 검색 용어와 일치되는 정확도의 순서로 나열하게 된다. 위와 같은 종래의 검색 엔진은 다음과 같은 방법으로 웹사이트에 대한 정보를 검색 엔진에 등록하고, 상기 정보를 사용자에게 제공한다.A block diagram of the overall system for providing the search engine service described above is shown in FIG. 1A. Referring to FIG. 1A, a user accesses a search engine server 150 through the Internet through a user terminal 110. When a user enters a predetermined search term, the search engine server 150 queries the search engine software 140 for website information about the search term, and the search engine software 140 queries the corresponding database 130. Search and inform the website information. As described above, the search robot 120 is an entity implemented in software for mechanically collecting new website information from the web server 160 while continuously circulating on the web. The search robot 120 retrieves the text described in HyperText Markup Language (HTML) on the network, parses the described link, and collects data from a plurality of websites existing on the network. As such, the data collected by the search robot 120 is databased. Here, databaseization is performed by performing morphological analysis on predetermined information located on a website and creating an index table. 130 means a sequence of steps to store. The database 130 is for storing all website information collected by the search robot 120. Search engine software 140 functions to present search results to the user. The software searches numerous pages stored in the database 130 and lists the search results in order of accuracy matching the search terms. The conventional search engine as described above registers information about a website with a search engine in the following manner and provides the information to a user.

(1) 상술한 바와 같이 검색 로봇을 이용하여 소정의 정보를 수집하고, 수집된 정보를 전문 서퍼(surfer)의 검수를 거쳐 상기 웹사이트를 검색 엔진에 등록한다.(1) As described above, predetermined information is collected using a search robot, and the collected information is registered by a professional surfer to register the website with a search engine.

(2) 등록하고자 하는 웹사이트의 주제에 따라 분류된 디렉토리를 선택하고, 상기 선택된 디렉토리에 대해 상기 웹사이트 등록 신청을 하며, 전문 서퍼의 검수를 거쳐 검색 엔진에 등록된다. 검색 엔진에 따라 이러한 디렉토리 등록의 경우에는 소정의 등록료를 받고 등록에 소요되는 시간을 줄여주는 서비스를 제공하기도 한다.(2) Select a directory classified according to the subject of the website to be registered, apply for the website registration with respect to the selected directory, and register the search engine after inspection by a professional surfer. Depending on the search engine, such a directory registration may provide a service that reduces a registration time and receives a predetermined registration fee.

상기의 방법 등으로 검색 엔진에 등록된 웹사이트는 소정의 정보를 검색하고자 하는 사용자의 검색어 입력에 따라, 통합 웹 검색 또는 디렉토리 검색 등의 다양한 검색 방식에 따라 검색되어 사용자에게 제공된다. 상기 통합 웹 검색은 다른 용어로 "단어별 검색"이라고도 하는데, 이 검색 방법은 데이타베이스에 모든 웹사이트들의 범용 리소스 로케이터(URL)를 저장하고 특정 키워드(Keyword)를 입력함으로써 원하는 정보를 찾는 방법을 말한다. 또한, 상기 디렉토리 검색은 다른 용어로 "주제별 검색"이라고도 하는데, 이 검색 방법은 각 분야별로 분류가 되어 있고, 원하는 분야를 링크하게 되면 그 분야의 세부 항목을 상세히 볼 수 있도록 하는 검색 방법이다. 이와 같이 사용자가 계속 링크해서 세부 항목을 검색하는 경우 사용자가 원하는 정보를 찾을 수 있게 된다. 예를 들어, 2002년 한국 월드컵에서 한국팀의 경기 스코어를 찾고자 하는 경우, 스포츠 -> 구기종목 -> 축구 -> 월드컵 -> 한국/일본2002년 월드컵 -> 한국팀 경기 스코어 등의 방법으로 검색을 할 수 있게 된다. 도 1b에는 이러한 디렉토리 검색 방식의 일예가 출력된 화면이 도시되어 있다. "월드컵"에 대해 검색된 디렉토리로 "월드컵", "2002 FIFA 월드컵 한국 일본", "월드컵의 역사" 등의 디렉토리가 출력되고, 사용자는 상기 디렉토리 중 자신이 검색하고자 하는 정보가 위치할 가능성이 높은 디렉토리로 이동함으로써 정보 검색을 수행할 수 있다. 상술한 웹 통합 검색 방법을 사용하는 대표적인 검색 엔진으로는 카네기멜론 대학의 마이크 L. 몰딘이 개발한 라이코스(http://lycos.cs.cmu.edu) 검색 엔진을 들 수 있고, 상기 디렉토리 검색 방법을 사용하는 대표적인 검색 엔진으로는 야후(http://www.yahoo.com)를 들 수있다. 현재 다수의 검색 엔진들은 상술한 검색 방법을 함께 서비스 하는 하이브리드(hybrid) 방식의 서비스를 제공하고 있다.The website registered in the search engine by the above method is searched and provided to the user according to various search methods such as integrated web search or directory search according to a user's search word input to search for predetermined information. The integrated web search is also called "search by word" in other terms. This search method stores a general purpose resource locator (URL) of all websites in a database and enters a specific keyword to find the desired information. Say. In addition, the directory search is also referred to as "search by topic" in another term, and this search method is classified by each field, and when a link is made to a desired field, a detailed search method of the field can be viewed. In this way, if the user continues to link and search for detailed items, the user can find the desired information. For example, if you want to find the scores of Korean teams in the 2002 Korea World Cup, you can search for Sports-> Ball-> Soccer-> World Cup-> Korea / Japan 2002 World Cup-> Korean Team score. You can do it. 1B is a screen showing an example of such a directory search method. As a directory searched for "World Cup", directories such as "World Cup", "2002 FIFA World Cup Korea Japan", "History of World Cup", etc. are output, and the user is most likely to locate the information he / she wants to search. Information retrieval can be performed by moving to. Representative search engines using the web integrated search method described above include a Lycos (http://lycos.cs.cmu.edu) search engine developed by Mike L. Moldin of Carnegie Mellon University. A typical search engine that uses is Yahoo (http://www.yahoo.com). Currently, many search engines provide a hybrid service that services the above-described search method together.

상술한 종래 기술에 의한 검색 엔진에의 웹사이트 등록 방법과 등록된 웹사이트의 검색 방법에서는 다음과 같은 문제점이 있다.The above-described conventional method of registering a website with a search engine and a method of searching a registered website has the following problems.

(1) 인터넷 사용자가 급증하면서 소정의 정보를 검색하고자 하는 사용자의 수가 늘어나고, 그들이 검색하고자 하는 정보의 종류가 많아 지게 된다. 이러한 사용자 및 검색하고자 하는 정보의 종류의 증가에 따라, 출현 빈도가 높은 검색어가 생기게 되고 이러한 출현 빈도가 높은 검색어(이하, "인기 키워드"라고 함)를 자신의 웹사이트에 다양한 방법으로 삽입함으로써 상기 검색어를 이용하여 검색을 하고자 하는 사용자에게 전혀 무용한 콘텐츠가 포함된 웹사이트(이하, "기만 페이지"라고 함)에 대한 정보를 제공하게 되는 문제점이 있다. 예를 들어, 인기 키워드 중의 하나인 "피카츄"에 대한 정보를 검색하고자 하는 사용자가 "피카츄"를 검색어로 입력한 경우, 웹사이트에 "피카츄"가 포함되어 있는 모든 등록된 웹사이트 정보가 상기 사용자에게 제공되는데, 웹사이트들 중에서 콘텐츠는 성인물에 관한 것이면서, 웹사이트 중간 중간에 다양한(대부분의 경우 악의적인) 방법으로 "피카츄" 텍스트를 삽입한 웹사이트가 존재할 수 있고, 이러한 성인물을 콘텐츠로 하고 있는 웹사이트의 정보가 상술한 인기 키워드의 삽입으로 인해 다양한 연령대의 사용자에게 노출될 위험이 있다는 문제점이 있다.(1) As Internet users increase rapidly, the number of users who want to search for predetermined information increases, and the types of information that they want to search for become many. As the number of users and types of information to be searched for increases, a search term with high frequency is generated, and the search word with high frequency (hereinafter referred to as "popular keyword") is inserted into a website in various ways. There is a problem in that information about a website (hereinafter, referred to as a "deception page") containing content which is completely useless is provided to a user who wants to search by using a search word. For example, if a user who wants to search for information on one of the popular keywords "Pikachu" enters "Pikachu" as a search term, all registered website information including "Pikachu" on the website is displayed. Among the websites, the content is about adult content, and there may be websites that insert "Pikachu" text in a variety of (mostly malicious) ways in the middle of the website. There is a problem that the information of the website is exposed to users of various ages due to the insertion of the above-mentioned popular keywords.

(2) 검색 엔진에 등록될 당시의 웹사이트에 포함된 콘텐츠와 등록 이후 웹사이트에 포함된 콘텐츠가 다를 경우가 있다. 예를 들어,http://www.worldcup.com을 도메인 네임으로 하는 웹사이트가 있고, 상기 웹사이트가 디렉토리 등록으로서 스포츠 -> 구기종목 -> 축구 -> 월드컵으로 세분화되는 서브 디렉토리에 저장이 된 경우를 가정한다. 등록 이후, 상기 도메인 네임의 소유주가 바뀌는 등의 이유로 상기 도메인 네임으로 특정되는 웹사이트의 콘텐츠가 월드컵 관련 내용에서 성인물 관련 내용으로 변질될 수 있다. 이러한 변질된 웹사이트(이하, "변질 사이트"라고 함)로 인해서 디렉토리 검색을 수행하는 다수의 사용자에게 불측의 피해를 줄 수 있다는 문제점이 상존한다.(2) The content included in the website at the time of registration with the search engine may differ from the content included in the website after registration. For example, there is a website with a domain name of http://www.worldcup.com, and the website is stored in a subdirectory subdivided into sports-> ball-> football-> World Cup as a directory registration. Assume the case. After registration, the contents of the website specified by the domain name may be changed from the contents related to the World Cup to the contents related to adult contents because the owner of the domain name is changed. There is a problem that such a corrupted web site (hereinafter referred to as a "damaged site") can cause inadvertent damage to a large number of users performing directory searches.

(3) 대부분의 검색 엔진 운영업체에서는 통상의 키워드에 대한 일반 웹사이트 등록 비용과 성인물 콘텐츠에 관현된 키워드에 대한 성인 웹사이트 등록의 경우 청구하는 등록 비용을 달리하는 경우가 많다. 이는 일반 웹사이트보다 성인 웹사이트의 경우가 실정법 위반의 가능성이 높으므로, 검색 엔진 운영자 입장에서도 이러한 성인 웹사이트의 등록 관리에 대한 부담을 안고 있기 때문인데, 이러한 점을 악용하여 등록시에는 일반 콘텐츠와 통상의 일반 키워드를 이용하여 검색 엔진에 등록하고, 등록 이후에 웹사이트의 콘텐츠를 바꾸어 성인물 콘텐츠를 서비스하는 경우가 발생할 수 있다. 이러한 경우는 상술한 변질 사이트의 일종으로 파악할 수 있는데, 검색 엔진 사용자의 불편 신고 또는 전문 서퍼 등의 인위적인 검색 없이는 이러한 변질된 웹사이트를 발견하기가 매우 어렵다는 문제점이 있다. 도 1c는 이와 같이 등록 후 변질된 웹사이트의 일예를 도시하는 도면이다. 도 1c에 도시된 도면은 소정의 검색어에 대하여 검색된 결과가 도시된 도면으로서, 도 1c를 참조하면 소정의 웹사이트에 대한 정보가 오락실 게임기기 등에 관한 것으로 기재되어 있다. 그러나, 사용자가 상기 웹사이트에 대한 정보를 클릭하여 해당 웹사이트로 이동을 한 경우 디스플레이되는 화면은 오락실 게임기기 등에 관한 것이 아니라 성인물에 관한 것일 것이고, 오락실 게임기기에 관한 정보를 검색하고자 하는 사용자는 이러한 변질 사이트로 인해 불측의 손해를 입을 수 있다는 문제점이 있다.(3) Most search engine operators have different fees for registering regular websites for regular keywords and for registering adult websites for keywords that are related to adult content. This is because adult websites are more likely to violate the actual law than general websites, and search engine operators are also burdened with managing the registration of such adult websites. In general, a general keyword may be registered in a search engine, and after the registration, the content of the website may be changed to serve adult content. Such a case can be understood as a kind of deterioration site described above, and there is a problem in that it is very difficult to find such a deterioration website without reporting an inconvenience of a search engine user or an artificial search such as a professional surfer. FIG. 1C is a diagram illustrating an example of a website which has been altered after registration. FIG. 1C is a diagram illustrating a search result for a predetermined search word. Referring to FIG. 1C, information about a predetermined website is described as a game room game device or the like. However, when the user clicks the information about the website and moves to the website, the displayed screen is not about a game room game device but an adult material, and a user who wants to search for information about a game room game device There is a problem that can be inadvertently damaged due to such a deterioration site.

상술한 문제점들을 해결하기 위한 해결책으로서 사용자들의 고발 신고 또는 전문 서퍼 등의 전문 인력을 통한 등록 웹사이트의 지속적인 모니터링이 필요하지만, 이러한 종래 기술에 따른 해결 방법은 상술한 문제점들에 대한 궁극적인 해결책이 될 수 없음은 자명하고, 이러한 문제점을 인터넷 상에서 소정의 알고리즘을 통하여 자동적으로 수행될 수 있는 방법이 도출될 수 있다면 상술한 문제점을 일거에 해결할 수 있는 유용한 수단이 될 수 있을 것이다.As a solution for solving the above-mentioned problems, it is necessary to continuously report the complaints of users or to monitor the registration website through a professional person such as a professional surfer. However, the solution according to the related art is the ultimate solution to the above-mentioned problems. It is obvious that this can not be done, and if a method capable of automatically performing such a problem through a predetermined algorithm on the Internet can be derived, it can be a useful means to solve the above-mentioned problems at once.

본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법은 상술한 종래 기술의 문제점을 해결하기 위한 것으로서, 상술한 기만 사이트 또는 변질 사이트를 소정의 알고리즘을 이용하여 자동적으로 검출해 낼 수 있도록 함으로써 검색 엔진 사용자로 하여금 자신이 검색하고자 하는 정보를 정확히 검색할 수 있는 검색 엔진을 제공하는 것을 그 목적으로 한다.The method for managing the registration of a website in the search engine according to the present invention is to solve the above-mentioned problems of the prior art, so that the above-mentioned deception site or altered site can be detected automatically by using a predetermined algorithm. It is an object of the present invention to provide a search engine that enables a search engine user to accurately search for information to be searched by the user.

또한, 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법은 상기 기만 사이트 또는 상기 변질 사이트를 자동적으로 검출하고, 검출된 기만 또는 변질 사이트 운영자에 대한 제재 조치를 가하도록 함으로써 검색 엔진에 등록되는 웹사이트 자체의 자정이 강화될 수 있도록 하는 것을 그 목적으로 한다.In addition, the method for managing registration of a website in the search engine according to the present invention automatically detects the deceptive site or the deterioration site, and applies sanctions to the detected deception or deterioration site operator to the search engine. Its purpose is to enable midnight on the website itself to be registered.

또한, 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법은 상기 기만 사이트 또는 상기 변질 사이트의 검출 및 검출된 상기 사이트들에 대한 경고 등의 제재 조치를 소정의 알고리즘에 의해 자동적으로 수행되도록 함으로써, 상술한 기만 또는 변질 사이트 검출을 위해 소요될 수 있는 다수의 인력 자원을 절약할 수 있도록 하는 것을 그 목적으로 한다.In addition, the method for managing the registration of the website in the search engine according to the present invention automatically performs sanction measures such as detection of the deceptive site or the deterioration site and warning of the detected sites by a predetermined algorithm. By doing so, it is possible to save a number of manpower resources that may be required for the deception or deterioration site detection described above.

도 1a는 웹사이트 검색 엔진 서비스를 제공하기 위한 종래의 시스템을 도시하는 구성 블록도이다.1A is a block diagram illustrating a conventional system for providing a website search engine service.

도 1b는 웹사이트 검색 엔진 서비스 방식 중 디렉토리 검색 방식의 일예를 도시하는 도면이다.1B is a diagram illustrating an example of a directory search method among a website search engine service method.

도 1c는 등록 후 변질된 웹사이트의 일예를 도시하는 도면이다.1C is a diagram illustrating an example of a deteriorated website after registration.

도 2는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 시스템을 도시하는 구성 블록도이다.2 is a block diagram illustrating a system for managing registration of a website in a search engine according to an embodiment of the present invention.

도3a는 본 발명의 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위하여 소정의 성인 사이트를 검출하기 위한 방법을 도시하는 흐름도이다.3A is a flow diagram illustrating a method for detecting a predetermined adult site for managing a registered website in a search engine according to an embodiment of the present invention.

도3b는 본 발명의 또 다른 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위하여 소정의 기만 사이트 또는 변질 사이트를 검출하기 위한 방법을 도시하는 흐름도이다.FIG. 3B is a flowchart illustrating a method for detecting a predetermined deceptive site or altered site for managing a registered website in a search engine according to another embodiment of the present invention.

도 4a는 본 발명의 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 있어서, 성인 키워드를 선정하는 방법을 도시하는 흐름도이다.4A is a flowchart illustrating a method of selecting an adult keyword in a method for managing registration of a website in a search engine according to an embodiment of the present invention.

도 4b는 본 발명의 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 있어서, 인기 키워드를 선정하는 방법을 도시하는 흐름도이다.4B is a flowchart illustrating a method of selecting a popular keyword in a method for managing registration of a website in a search engine according to an embodiment of the present invention.

도 5a 내지 도 5e는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 있어서, 검색 로봇이 웹사이트를 검색하여 얻은 성인 사이트의 정보 유형들을 도시하는 도면이다.5A to 5E are diagrams illustrating types of information of an adult site obtained by a search robot searching a website in a method for managing registration of a website in a search engine according to an exemplary embodiment of the present invention.

도 6은 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 있어서, 기만 또는 변질 사이트로 판별된 웹사이트의 등록자에게 소정의 제재 조치를 가하는 방법을 도시하는 흐름도이다.FIG. 6 is a flowchart illustrating a method of applying a predetermined sanction to a registrant of a website determined to be a deceptive or altered site in a method for managing registration of a website in a search engine according to an exemplary embodiment of the present invention. to be.

도 7는 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하는데 이용될 수 있는 범용 컴퓨터 시스템의 내부 블록도이다.7 is an internal block diagram of a general purpose computer system that may be used to manage registration of a website in a search engine in accordance with the present invention.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

201 : 인터페이스 모듈 202 : 웹사이트 등록 모듈201: interface module 202: website registration module

203 : 웹사이트 관리 모듈 204 : 웹사이트 정보 DB203: Website Management Module 204: Website Information DB

205 : 웹사이트 분석 모듈 206 : 키워드 관리 모듈205: Website Analysis Module 206: Keyword Management Module

207 : 검색 로봇 208 : 검색어 분석부207: search robot 208: search term analysis unit

209 : 성인 키워드 추출부 210 : 인기 키워드 DB209: Adult Keyword Extraction 210: Popular Keyword DB

211 : 성인 키워드 DB 212 : 메일 서버211: adult keyword DB 212: mail server

213 : SMS 서버213: SMS server

상기의 목적을 달성하기 위하여, 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은 상기 웹사이트에 대한 정보를 데이터베이스 수단에 소정의 필드 별로 분류하여 기록하는 단계; 소정의 성인 키워드를 성인 키워드 데이터베이스에 유지하는 단계; 상기 웹사이트의 웹페이지를 구성하는 소스 파일을 독출하는 단계; 상기 독출된 소스 파일을 분석하는 단계; 및 소정의 기준에 따라 상기 웹사이트가 성인 사이트인지 여부를 판단하는 단계를 포함하는 것을 특징으로 한다.In order to achieve the above object, a method for managing a website registered in a search engine according to an embodiment of the present invention comprises the steps of classifying and recording information about the website by a predetermined field in a database means; Maintaining a predetermined adult keyword in an adult keyword database; Reading a source file constituting a web page of the website; Analyzing the read source file; And determining whether the website is an adult site according to a predetermined criterion.

또한, 본 발명의 또 다른 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은 상기 웹사이트에 대한 정보를 데이터베이스 수단에 소정의 필드 별로 분류하여 기록하는 단계; 소정의 성인 키워드를 성인 키워드 데이터베이스에 유지하는 단계; 소정의 인기 키워드를 인기 키워드 데이터베이스에 유지하는 단계; 상기 웹사이트의 웹페이지를 구성하는 소스 파일을 독출하는 단계; 상기 독출된 소스 파일을 분석하는 단계; 소정의 제1 기준에 따라 상기 웹사이트가 성인 사이트인지 여부를 판단하는 단계; 상기 웹 사이트가 성인 사이트인 것으로 판단된경우, 소정의 제2 기준에 따라 상기 웹사이트가 기만 또는 변질 사이트인지 여부를 판단하는 단계; 및 상기 웹사이트가 기만 또는 변질 사이트인 것으로 판단되는 경우, 상기 웹사이트에 대하여 소정의 처리를 수행하도록 제어하는 단계를 포함하는 것을 특징으로 한다.In addition, a method for managing a website registered in a search engine according to another embodiment of the present invention comprises the steps of: classifying and recording information about the website by a predetermined field in a database means; Maintaining a predetermined adult keyword in an adult keyword database; Maintaining a predetermined popular keyword in a popular keyword database; Reading a source file constituting a web page of the website; Analyzing the read source file; Determining whether the website is an adult site according to a first predetermined criterion; If it is determined that the web site is an adult site, determining whether the web site is a deceptive or corrupt site according to a second predetermined criterion; And if it is determined that the website is a deceptive or corrupt site, controlling to perform a predetermined process for the website.

기만 사이트라 함은 웹페이지의 소스 파일 등에 다양한 방법으로 소정의 키워드 등을 삽입하여 검색어를 통해 검색되는 내용과 실제 웹사이트에 포함된 콘텐츠가 완전히 상이한 웹사이트를 의미한다. 즉, 성인 사이트의 웹페이지에 소정의 인기 키워드를 삽입함으로써, 그 실질적인 콘텐츠와는 달리 검색이 될 수 있는 사이트를 의미한다. 또한, 변질 사이트라 함은 최초 검색 엔진에의 등록시 웹사이트의 주제와, 등록 이후 웹사이트의 주제가 상이한 웹사이트를 의미한다. 즉, 최초 검색 엔진 등록시에는 일반 사이트로 등록을 신청하여 검색 엔진에 등록을 하고, 추후에 성인 사이트로 콘텐츠를 바꾸는 경우이다.A deceptive site means a website that is completely different from the content searched through a search word by inserting predetermined keywords or the like in various ways in the source file of the webpage. That is, by inserting a predetermined popular keyword in the web page of the adult site, it means a site that can be searched unlike the actual content. In addition, the altered site means a website that is different from the subject of the website when registering with the initial search engine and the theme of the website after registration. In other words, when a first search engine is registered, a general site is applied for registration, a search engine is registered, and a content is later changed to an adult site.

부가적으로, 성인 사이트라 함은 19세 미만의 청소년들에게 매우 유해한 콘텐츠를 담고 있는 웹사이트를 의미하는데, 조사 결과로는 일반적으로 상기 기만 사이트의 대부분은 성인 사이트이고, 상기 변질 사이트의 대부분은 성인 사이트일 가능성이 높다.In addition, adult site means a website that contains content that is very harmful to adolescents under 19 years of age. Surveys generally indicate that most of the deceptive sites are adult sites and most of the altered sites Most likely adult site.

또한, 본 명세서에서 사용되는 인기 키워드라 함은 인터넷 사용자가 입력하는 검색어 중 그 출현 빈도가 매우 높은 검색어를 의미하는데, 이러한 인기 키워드는 그 당시의 사회 상황과 인터넷 사용자들의 취향에 따라 지속적으로 변화할 수 있다. 이러한 인기 키워드에는 사회적으로 유해한 내용을 내포하고 있는 일종의유해 키워드가 포함될 수 있는데, 이러한 유해 키워드의 예로는 "자살", "왕따", "도박", "범죄 모의" 등을 들 수 있다. 또한, 성인 키워드는 성인 사이트에 포함된 다수의 성인물 콘텐츠를 검색하기 위한 검색어를 의미하는데, 검색 엔진 운영업체에서 제공하는 인기 키워드의 순위를 참고하면 대체적으로 성인 키워드가 상위에 랭크되어 있다는 점에서 성인 키워드는 인기 키워드와 다소 관련이 있다고 볼 수 있을 것이다.In addition, the popular keyword used in the present specification means a search word input by an internet user with a very high frequency of occurrence, and this popular keyword may change continuously according to the social situation at the time and the taste of the Internet user. Can be. Such popular keywords may include a kind of harmful keywords containing socially harmful contents. Examples of such harmful keywords include "suicide", "bullying", "gambling", and "crime simulation". In addition, adult keyword refers to a search query for a large number of adult content contained in an adult site, and referring to the ranking of popular keywords provided by search engine operators, adult keywords are generally ranked in the top position. Keywords can be seen as somewhat related to popular keywords.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하는 방법에 대하여 상술한다.Hereinafter, a method of managing registration of a website in a search engine according to an exemplary embodiment of the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 시스템을 도시한 구성 블록도이다. 도2를 참조하면, 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 시스템은 인터페이스 모듈(201), 웹사이트 등록 모듈(202), 웹사이트 관리 모듈(203), 웹사이트 정보 데이터베이스(204), 웹사이트 분석 모듈(205), 검색어 분석부(208) 및 성인 키워드 추출부(209)를 포함하는 키워드 관리 모듈(206), 검색 로봇(207), 인기 키워드 데이터베이스(210), 및 성인 키워드 데이터베이스(211)로 구성될 수 있다. 또한, 본 발명의 바람직한 일실시예에 의하면 검색 엔진에서 웹사이트의 등록을 관리하기 위한 시스템은 등록 웹사이트의 등록자에게 소정의 메시지를 발송하기 위한 메일 서버(212), 또는 SMS 서버(213)를 포함할 수 있다. 이러한 메일 서버(212)와 SMS 서버(213)는 검색 엔진 서비스 제공 시스템 내에 포함될 수도 있고, 제3자가 운영하는 시스템 내에 위치할 수도 있다. 또한, 도 2에는 인터페이스모듈(201), 다종의 모듈들, 및 메일 서버(212) 또는 SMS 서버(213)가 별개의 엔티티인 것처럼 도시되어 있으나 이는 설명의 편의를 위한 것일 뿐, 동일한 엔티티일 수 있다. 또한, 상기 도 2에 도시된 구성 요소들은 물리적으로도 동일한 장소에 위치할 수도 있고, 다른 실시예에 따르면 물리적으로 이격되어 있을 수도 있다.2 is a block diagram illustrating a system for managing registration of a website in a search engine according to an exemplary embodiment of the present invention. 2, a system for managing registration of a website in a search engine according to an exemplary embodiment of the present invention includes an interface module 201, a website registration module 202, a website management module 203, Keyword management module 206, search robot 207, popular keyword database (including website information database 204, website analysis module 205, search term analysis section 208 and adult keyword extraction section 209) 210, and adult keyword database 211. Further, according to a preferred embodiment of the present invention, a system for managing registration of a website in a search engine includes a mail server 212 or an SMS server 213 for sending a predetermined message to a registrant of a registered website. It may include. The mail server 212 and the SMS server 213 may be included in a search engine service providing system or may be located in a system operated by a third party. In addition, although the interface module 201, various modules, and the mail server 212 or the SMS server 213 are shown as separate entities in FIG. 2, this is for convenience of description and may be the same entity. have. In addition, the components shown in FIG. 2 may be physically located in the same place, or according to another embodiment may be physically spaced apart.

먼저, 인터페이스 모듈(201)은 소정의 웹사이트를 검색 엔진에 등록하고자 하는 등록자와 검색 엔진의 등록 관리 시스템 사이의 데이터 전송 및 물리적 전송 장비 간의 인터페이스 역할을 담당하는 모듈이다.First, the interface module 201 is a module that serves as an interface between data transmission and physical transmission equipment between a registrant who wants to register a predetermined website in a search engine and a registration management system of the search engine.

웹사이트 등록 모듈(202)은 상기 등록자로부터 소정의 웹사이트에 대한 등록 신청을 수신하고, 웹사이트 등록 신청에 포함된 웹사이트에 대한 정보 데이터를 수집 및 분류하는 기능을 담당한다. 이러한 웹사이트 등록 모듈(202)은 웹사이트 등록에 대한 소정의 과금을 수행하는 과금 모듈(도시되지 아니함)을 더 포함할 수 있고, 과금 모듈은 등록을 원하는 웹사이트의 종류(일반적인 내용을 담고 있는 일반 사이트 또는 성인 콘텐츠를 담고 있는 성인 사이트)에 따라 그 과금 내역을 달리 적용하도록 동작할 수 있다.The website registration module 202 is responsible for receiving a registration request for a predetermined website from the registrant, and collecting and classifying information data about the website included in the website registration request. The website registration module 202 may further include a charging module (not shown) for performing a predetermined charging for website registration, and the charging module may include a type of website (general contents) to be registered. General charging sites or adult sites containing adult content).

웹사이트 관리 모듈(203)은 본 발명에 따른 웹사이트의 등록 관리를 총괄하는 모듈로서, 검색 로봇(207)이 수집한 웹사이트에 대한 정보를 기초로 상기 웹사이트가 선정된 기준에 적합하게 운영되고 있는지를 판단하고, 비정상적으로 운영되는 웹사이트, 즉 기만 사이트나 변질 사이트인 것으로 판단되는 경우, 상기 등록자에 대해 소정의 조치를 자동적으로 취하도록 제어하는 기능을 담당한다. 또한, 웹사이트 관리 모듈(203)은 메일 서버(212)나 단문자 메시지 서비스(SMS) 서버(213)와 연동함으로써 상기 기만 또는 변질 사이트의 등록자에 대해 이메일을 발송하거나 이동통신단말기로 SMS를 전송함으로써 웹사이트의 부정 운영에 대한 경고를 할 수 있다.The website management module 203 is a module that manages the registration management of the website according to the present invention, and operates according to the criteria for selecting the website based on the information on the website collected by the search robot 207. If it is determined that the web site is abnormally operated, that is, the deception site or the deterioration site, the registrant is responsible for controlling to take a predetermined action automatically. In addition, the website management module 203 interworks with the mail server 212 or the short message service (SMS) server 213 to send an e-mail to the registrant of the deceptive or altered site or to send an SMS to the mobile communication terminal. By doing so, you can warn about misuse of the website.

웹사이트 정보 데이터베이스(204)는 등록된 웹사이트에 대한 정보를 분류하여 기록하는 역할을 담당한다. 웹사이트 정보 데이터베이스(204)에는 웹사이트의 범용 리소스 로케이터(URL), 일반 사이트 등록인지 또는 성인 사이트 등록인지를 표시하는 웹사이트 카테고리 정보, 해당 웹사이트의 키워드, 해당 웹사이트의 등록자 정보(등록자 이름, 주소, 이메일 주소, 이동통신단말기 번호 등), 해당 웹사이트의 디렉토리 정보 등의 다양한 정보가 각 필드 별로 분류 및 저장되어 있을 수 있다. 본 발명에 따른 웹사이트 정보 데이터베이스(204)에 저장된 정보는 시스템 관리자 및 상기 웹사이트의 등록자에 의해서 수정될 수 있고, 웹사이트의 콘텐츠가 바뀌는 경우 등록자가 직접 수정하지 아니하더라도 검색 로봇(207)이 수집한 데이터의 분석 결과(해당 웹사이트의 URL 에 대응하는 새로운 키워드 등) 등에 따라 자동적으로 해당 정보가 갱신되도록 동작할 수 있다.The website information database 204 is responsible for classifying and recording information about registered websites. The website information database 204 includes website category information indicating whether a website is a universal resource locator (URL), general site registration, or adult site registration, keywords for the website, and registrant information for the website (registrant name). , Addresses, e-mail addresses, mobile terminal numbers, etc.) and directory information of the corresponding website may be classified and stored for each field. The information stored in the website information database 204 according to the present invention can be modified by the system administrator and the registrant of the website, and if the contents of the website are changed, the search robot 207 does not modify the registrant directly. The information may be automatically updated according to the analysis result of the collected data (new keyword corresponding to the URL of the website).

웹사이트 분석 모듈(205)은 검색 로봇(207)이 수집한 웹사이트의 정보를 분석하는 역할을 담당한다. 검색 로봇(207)이 수집하는 데이터의 종류와 분석 방법에 대해서는 아래 도 3에 대한 설명과 함께 상술한다.The website analysis module 205 is responsible for analyzing the information of the website collected by the search robot 207. The type and analysis method of data collected by the search robot 207 will be described with reference to FIG. 3 below.

키워드 관리 모듈(206)은 웹사이트 관리 모듈(203)에서 소정의 웹사이트가 기만 또는 변질 사이트인지 여부를 판단하기 위해 기준이 될 수 있는 키워드를 관리하는 역할을 담당한다. 즉, 기만 사이트인지 여부를 판단하기 위한 기준이 될수 있는 성인 키워드 및 인기 키워드를 선정하고 이를 관리하며, 변질 사이트인지 여부를 판단하기 위한 기준이 될 수 있는 성인 키워드를 선정하고 이를 관리하는 역할을 담당한다. 본 발명의 일실시예에 따른 웹사이트 등록을 관리하기 위한 시스템의 키워드 관리 모듈(206)은 인기 키워드를 선정하기 위한 키워드 분석부(208)와 성인 키워드를 선정하기 위한 성인 키워드 추출부(209)를 포함한다. 키워드 분석부(208)는 다수의 사용자로부터 검색 엔진에 입력된 검색어를 기록하고, 검색어가 출현한 개수를 기록하며, 소정의 주기로 따라 출현 개수를 기준으로 검색어를 소팅(sorting)하는 방법으로 인기 키워드를 선정할 수 있다. 또한, 성인 키워드 추출부(209)는 하나 이상의 성인 사이트를 선정하고, 선정된 성인 사이트의 웹페이지의 소스 파일을 분석하여 웹페이지 상에서 많이 출현하는 문자열을 추출함으로써 성인 키워드를 선정할 수 있다. 상기 선정된 인기 키워드는 인기 키워드 데이터베이스(210)에, 상기 선정된 성인 키워드는 성인 키워드 데이터베이스(211)에 각각 저장 및 관리되고, 새로운 인기 또는 성인 키워드가 발견된 경우에는 자동적으로 업데이트되도록 동작할 수 있다.The keyword management module 206 is responsible for managing keywords that can be used as criteria for determining whether a predetermined website is a deceptive or corrupt site in the website management module 203. That is, it selects and manages adult keywords and popular keywords that can be a criterion for deciding whether or not it is a deception site, and selects and manages adult keywords that can be a criterion for determining whether or not it is a deteriorated site. do. The keyword management module 206 of the system for managing website registration according to an embodiment of the present invention includes a keyword analyzer 208 for selecting popular keywords and an adult keyword extractor 209 for selecting adult keywords. It includes. The keyword analyzing unit 208 records the search terms inputted to the search engines from a plurality of users, records the number of occurrences of the search terms, and sorts the search terms based on the number of occurrences at predetermined intervals. Can be selected. In addition, the adult keyword extraction unit 209 may select an adult keyword by selecting one or more adult sites, and analyzing a source file of a web page of the selected adult site to extract a string that appears a lot on the web page. The selected popular keyword may be stored and managed in the popular keyword database 210 and the selected adult keyword in the adult keyword database 211, and updated automatically when a new popular or adult keyword is found. have.

상술한 본 발명의 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 시스템을 구성하는 각 구성 요소들은 설명의 편의를 위하여 단순히 기능적으로 구분된 것일 뿐, 각 구성 요소의 실제 물리적 위치와는 무관하다. 또한, 상술한 모듈들은 하드웨어로 구현될 수도 있고, 특정 코드를 이용한 소프트웨어로서 구현될 수 있음은 당업자에게 자명하다.Each component constituting the system for managing the registration of the website in the search engine according to an embodiment of the present invention described above is merely functionally separated for convenience of description, and the actual physical location of each component Is irrelevant. In addition, it will be apparent to those skilled in the art that the above-described modules may be implemented in hardware and may be implemented as software using specific codes.

도3a는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법을 도시하는 흐름도이다. 이하 도 5a 내지 도 5e를 참조하여 도 3a에 도시된 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 대해 상술한다.3A is a flowchart illustrating a method for managing a registered website in a search engine according to an exemplary embodiment of the present invention. Hereinafter, a method for managing a registered website in a search engine according to an exemplary embodiment of the present invention shown in FIG. 3A will be described with reference to FIGS. 5A to 5E.

도 3a에 도시된 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은 다음과 같이 수행된다. 소정의 웹사이트를 검색 엔진에 등록하고자 하는 등록자는 등록을 원하는 웹사이트에 대한 정보와 함께 웹사이트 등록 신청을 한다(단계 305). 상기 웹사이트에 대한 정보는 웹사이트 정보 데이터베이스에 정보 필드((등록자 이름, 주소, 이메일 주소, 이동통신단말기 번호 등) 별로 분류되어 기록되고(단계 310), 상기 웹사이트는 검색 엔진에 등록된다(단계 315). 이러한 등록 단계(단계 315)는 몇 개의 루트를 통해 수행될 수 있는데, 먼저 상술한 것과 같이 웹사이트 관리자가 검색 엔진에 자신의 웹사이트의 등록을 의뢰함으로써 등록되는 경우가 있고, 검색 로봇이 웹 상을 무작위로 돌아다니면서 얻어온 웹사이트 정보를 이용하여 웹사이트가 검색 엔진에 등록되는 경우가 있을 수 있다. 전자의 경우에는 웹사이트 등록자 자신이 웹사이트의 주제(예를 들면, "피카츄", "변리사 시험" 등)를 정하여 상기 웹사이트의 주제와 가장 근접한 카테고리에 웹사이트의 등록을 신청하고, 신청된 웹사이트에 대해서는 전문 서퍼의 검수를 거쳐 소정의 조건(웹사이트의 완성도, 등록 비용을 지불하지 아니하는 경우에는 비상업적 사이트 요건 충족 여부 등)을 만족하는 것으로 판단되는 경우에 검색 엔진에 등록될 수 있다. 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에서는 검색 엔진에 등록되는 루트를 상기 등록자의 신청에 의한 경우로한정하여 설명하고 있지만, 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법 및 그 시스템은 검색 엔진에 웹사이트가 등록되는 다종 다양한 방법에 대해서도 동일하게 적용될 수 있다.A method for managing a registered website in a search engine according to an exemplary embodiment of the present invention shown in FIG. 3A is performed as follows. The registrant who wants to register a predetermined website in the search engine makes a website registration request together with information about the website that he / she wants to register (step 305). The information about the website is classified and recorded by information fields (registrant name, address, email address, mobile terminal number, etc.) in the website information database (step 310), and the website is registered with a search engine ( Step 315) This registration step (step 315) can be performed via several routes, as described above, a website administrator may register by requesting a search engine to register his website, In some cases, the website registrant itself may register the website's subject matter (eg, "Pikachu") by using the website information obtained by the robot randomly traversing the web. Apply for registration of a website in the category that most closely matches the subject of the website, In the case of a web surfer, it can be registered in a search engine when it is determined that the predetermined conditions (website completion, noncommercial site requirements are met if the registration fee is not paid, etc.) are satisfied. In the method for managing registration of a website in a search engine according to the present invention, the route registered in the search engine is limited to the case by the registrant's application. However, the search engine for managing the registration of a website in the search engine according to the present invention is described. The method and system can be equally applicable to a variety of ways in which a website is registered with a search engine.

다음으로, 소정의 성인 키워드를 성인 키워드 데이터베이스에 저장하여 관리한다(단계 320).Next, the predetermined adult keyword is stored and managed in the adult keyword database (step 320).

본 발명의 일실시예에 따른 분석 방법은 검색 엔진을 구동하여 상기 웹사이트의 웹페이지에 포함된 소스 파일을 분석하는 것이다. 본 발명의 바람직한 일실시예에 따르면, 본 발명에 따른 검색 엔진은 소정의 웹페이지를 크로울(crawl)하여 #TITLE, #BOBY, 또는 #ANCHOR로 구분되는 소정의 검색 결과 데이터를 생성하도록 동작할 수 있다. 즉, 웹페이지를 구성하는 소정의 소스 파일을 독출하고(단계 325), 독출된 소스 파일을 분석(단계 330)하여, 소정의 기준에 따라 상기 웹사이트가 성인 사이트인지 여부를 판단한다(단계 335). 상기 검색 결과 데이터의 일예는 도 5a 내지 도 5e에 대한 설명에서 상술한다.An analysis method according to an embodiment of the present invention is to run a search engine to analyze the source file included in the web page of the website. According to a preferred embodiment of the present invention, the search engine according to the present invention is operable to crawl predetermined web pages to generate predetermined search result data classified into #TITLE, #BOBY, or #ANCHOR. Can be. That is, a predetermined source file constituting a web page is read (step 325), and the read source file is analyzed (step 330) to determine whether the website is an adult site according to a predetermined criterion (step 335). ). An example of the search result data is described in detail with reference to FIGS. 5A to 5E.

도 4a에는 이러한 성인 키워드의 선정 방법이 도시되어 있다.4A shows a method of selecting such an adult keyword.

소정의 웹사이트가 성인 사이트인지 여부를 판단하기 위한 기준이 되는 성인 키워드를 선정하는 방법은 다음의 단계로 구성된다. 먼저 하나 이상의 성인 사이트를 선정한다(단계 405). 성인 사이트의 선정은 본 발명에 따른 웹사이트 등록 관리 시스템의 관리자가 직접 선정할 수 있고, 본 발명에 따른 시스템의 데이터베이스 수단에서 소정의 웹사이트 카테고리 정보 필드를 검색하여 성인 사이트로 등록된 웹사이트 중 하나 이상이 자동적으로 선정되도록 설정할 수도 있다. 선정된성인 사이트의 웹페이지에 포함된 문자열을 추출하고(단계 410), 추출된 문자열 별로 빈도 수를 기록한다(단계 415). 빈도 수를 기록하기 위하여, 추출된 문자열을 테이블 형태로 기록하고, 해당 문자열이 한 번 추출될 때 마다 상기 테이블의 빈도 수 필드 값을 하나 씩 증가시키는 방법을 이용할 수 있다. 분석 결과 검출된 문자열을 상술한 빈도 수를 기준으로 소정의 주기(일별, 주별, 또는 월별)마다 상기 기록된 문자열을 소팅(sorting) 하고(단계 420), 상위에 위치한 문자열들을 추출하여 이들을 성인 키워드로 선정하여 이를 성인 키워드 데이터베이스에 저장한다(단계 425). 또한, 본 발명의 다른 일실시예에 의하면 성인 키워드 선정시에는 소팅을 하지 아니하고 검출된 문자열은 모두 성인 키워드로 선정하도록 설정하는 것도 가능하다. 이 경우 성인 키워드가 아닌 문자열이 성인 키워드로 선정될 가능성이 있지만, 소팅으로 인한 성인 키워드 선정에 필요한 시스템의 부하 가중을 피할 수 있다는 효과가 있을 수 있다.The method of selecting an adult keyword as a criterion for determining whether a predetermined website is an adult site is composed of the following steps. First one or more adult sites are selected (step 405). Selection of an adult site can be directly selected by an administrator of the website registration management system according to the present invention. Among the websites registered as an adult site by searching for a predetermined website category information field in the database means of the system according to the present invention. One or more may be set to be selected automatically. The character string included in the web page of the selected adult site is extracted (step 410), and the frequency is recorded for each extracted character string (step 415). In order to record the frequency number, the extracted character string may be recorded in a table form, and the frequency field value of the table may be increased by one each time the character string is extracted once. Based on the frequency detected as a result of the analysis, the recorded strings are sorted at predetermined intervals (daily, weekly, or monthly) (step 420), and the upper strings are extracted to extract them. Is selected and stored in the adult keyword database (step 425). In addition, according to another embodiment of the present invention, when selecting an adult keyword, it is also possible to set all detected strings to be selected as adult keywords without sorting. In this case, a character string other than an adult keyword may be selected as an adult keyword, but it may have an effect that a load weighting system required for selecting an adult keyword due to sorting may be avoided.

단계 335에서 소정의 기준에 따라 상기 웹사이트가 성인 사이트인지 여부를 판단하게 된다. 본 발명의 바람직한 일실시예에 따른 성인 사이트인지 여부를 판단하기 위한 방법은 도 5a 내지 도 5e를 참조하여 상술한다.In step 335, it is determined whether the website is an adult site according to a predetermined criterion. A method for determining whether an adult site according to an exemplary embodiment of the present invention is described above with reference to FIGS. 5A to 5E.

도 5는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 있어서, 검색 로봇이 웹사이트를 검색하여 얻은 성인 사이트의 정보 유형들을 도시하는 도면이다. 도 5a 내지 도 5e에 도시된 특정 유형은 성인 키워드를 다수 포함하고 있는 웹사이트의 유형을 나타내고 있는 것으로서, 이러한 성인 키워드를 다수 포함하고 있는 웹사이트는 성인 사이트로 판단할 수 있다.FIG. 5 is a diagram illustrating information types of adult sites obtained by a search robot searching a website in a method for managing registration of a website in a search engine according to an exemplary embodiment of the present invention. The specific type shown in FIGS. 5A to 5E represents a type of a website including a plurality of adult keywords, and a website including a plurality of adult keywords may be determined as an adult site.

도 5a의 <유형 1>에는 성인 사이트의 유형 중 웹 문서 내에 다수의 범용 리소스 로케이터(URL)를 가지고 있고, 소정의 개수의 성인 키워드를 포함하고 있는 성인 사이트의 검색 결과 정보가 도시되어 있다. 도 5a의 <유형 1>에 도시된 유형의 경우에는 검색 엔진에서 사용되는 인덱서를 이용하여 검색 결과에 대한 형태소 분석이 가능하므로, 상기 웹페이지에 포함된 문자열 중에서 성인 키워드와 매칭되는 키워드의 개수를 파악하는 것이 대체적으로 용이하다. 따라서, <유형 1>과 같은 경우에는 전체 문자열의 길이와 상기 문자열 중에서 성인 키워드와 매칭되는 문자열의 길이의 비율, 즉 (문자열 중 성인 키워드와 매칭되는 문자열의 길이/웹페이지에 포함된 문자열의 전체 길이)*100을 하여 계산 결과가 소정의 값 이상인지 여부를 판단함으로써 상기 웹사이트가 성인 사이트인지 여부를 판단할 수 있게 된다. 또는 상기 웹페이지에 포함된 문자열 중에서 성인 키워드와 매칭되는 문자열의 길이 자체 만으로 성인 사이트인지 여부를 판단할 수도 있다. 즉, 한 웹페이지에 포함된 성인 키워드와 매칭되는 문자열의 길이가 200 바이트 이상인 경우에는 상기 웹페이지가 포함된 웹사이트는 성인 사이트라고 판단할 수도 있다.<Type 1> of FIG. 5A shows search result information of an adult site having a plurality of general-purpose resource locators (URLs) in a web document among the types of adult sites and including a predetermined number of adult keywords. In the case of the type shown in <Type 1> of FIG. 5A, since the stemming of the search result is possible using an indexer used in a search engine, the number of keywords matching the adult keyword among the strings included in the web page is determined. It is generally easy to figure out. Therefore, in the case of <type 1>, the ratio of the length of the entire string to the length of the string matching the adult keyword among the strings, i.e., the length of the string matching the adult keyword among the strings / the entire length of the string included in the webpage. Length) * 100, it is possible to determine whether the website is an adult site by determining whether the calculation result is greater than or equal to a predetermined value. Alternatively, it is possible to determine whether or not it is an adult site only by the length of the character string matching the adult keyword among the character strings included in the web page. That is, when the length of the string matching the adult keyword included in one web page is 200 bytes or more, the web site including the web page may be determined to be an adult site.

또한, 도 5b의 <유형 2>에는 성인 사이트의 유형 중 웹 문서 내에 다수의 성인 키워드를 공란 없이 그대로 붙여 사용한 성인 사이트의 검색 결과 정보가 도시되어 있다. <유형 2>에 도시된 유형의 경우에는 검색 엔진에서 사용되는 인덱서를 이용할 수 없으므로, 웹페이지에 포함된 총 문자열 중 성인 키워드와 매칭되는 문자열이 몇 개 출현하였는냐 하는 성인 키워드의 출현 개수에 의하여 성인 사이트여부를 판단하는 방법을 사용할 수 있다.In addition, <type 2> of FIG. 5B shows search result information of an adult site that uses a plurality of adult keywords in a web document without any spaces and is used as it is. In the case of the type shown in <Type 2>, the indexer used in the search engine cannot be used, and according to the number of occurrences of the adult keyword, the number of occurrences of the string matching the adult keyword among the total strings included in the web page appears. You can use any method to determine whether an adult site is available.

도 5c의 <유형 3> 에는 성인 사이트의 유형 중 웹 문서 중의 타이틀에 인기 키워드가 포함되어 있고, 내용 부분에 다수의 성인 키워드가 포함되어 있는 성인 사이트의 검색 결과 정보가 도시되어 있다. 도 5c의 <유형 3>에 도시된 유형의 경우에도 상술한 도 5a의 방법에 따라 인덱서를 이용하거나 또는 성인 키워드와 매칭되는 문자열의 길이를 측정하여, 측정 결과가 소정의 값 이상인지 여부를 판단함으로써 성인 사이트 여부를 판단할 수 있다.<Type 3> of FIG. 5C shows search result information of an adult site including a popular keyword in a title in a web document among types of adult sites and a plurality of adult keywords in a content portion. Also in the case of the type shown in <type 3> of FIG. 5C, the length of the character string matching the adult keyword or the index is measured according to the method of FIG. 5A described above to determine whether the measurement result is equal to or greater than a predetermined value. By determining the adult site can be determined.

도 5d의 <유형 4>에는 성인 사이트의 유형 중 웹 문서 중의 타이틀 및 내용 부분에는 인기 키워드 및 성인 키워드가 포함되어 있지 아니하고, 앵커(ANCHOR) 텍스트에 다수의 성인 키워드가 포함되어 있는 성인 사이트의 검색 결과 정보가 도시되어 있다. <유형 4>에 도시된 유형의 경우는 검색 로봇이 소정의 웹사이트를 검색하여 타이틀 및 내용 부분을 중심으로 검색 결과 정보를 반환한다는 점을 이용한 유형이다. 이러한 유형의 경우에는 앵커 텍스트를 분석하여 성인 사이트 여부를 판단할 수 있다. 즉, 앵커 텍스트에 포함된 문자열을 분석하여 상기 문자열 중에서 성인 키워드와 매칭되는 문자열의 개수가 소정 개수 이상인지 여부를 판단함으로써 상기 웹사이트가 성인 사이트인지 여부를 판단할 수 있게 된다.<Type 4> of FIG. 5D shows a search for an adult site in which the title and content portions of the web document of the type of the adult site do not include the popular keyword and the adult keyword, and the anchor text includes the plurality of adult keywords. The result information is shown. The type shown in <Type 4> is a type using the fact that a search robot searches a predetermined website and returns search result information centering on a title and a content part. In this type of analysis, the anchor text can be analyzed to determine the adult site. That is, it is possible to determine whether the website is an adult site by analyzing the character string included in the anchor text and determining whether the number of character strings matching the adult keyword is greater than or equal to the predetermined number.

도 5e의 <유형 5>에는 웹 문서에 성인 키워드가 포함되어 있지 아니하고, 타이틀 부분에 인기 키워드가 반복적으로 사용되고 있는 성인 사이트의 검색 결과 정보가 도시되어 있다. <유형 5>는 소정의 웹사이트로 들어가기 위한 초기 화면에는 성인 키워드를 사용하지 아니하는 유형으로서, 최근 다수의 성인 사이트가 이와 같은 유형을 가지고 있다. 즉, 성인 인증의 명목으로 초기 화면에서는 성인 키워드와는 전혀 무관한 주민등록번호 입력창 만을 구비하고 있는 경우로서, 이러한 경우에는 body의 키워드 추출로는 성인 사이트인지 여부를 판단하기가 곤란하다. 따라서, 이러한 유형 자체를 성인 사이트의 일 유형으로 파악하는 방법이 가장 효과적일 수 있다.<Type 5> of FIG. 5E shows search result information of an adult site where an adult keyword is not included in a web document and a popular keyword is repeatedly used in a title portion. <Type 5> is a type that does not use an adult keyword on an initial screen for entering a predetermined website, and many adult sites have such a type in recent years. That is, in the case of adult authentication, the initial screen includes only a social security number input window irrelevant to the adult keyword. In such a case, it is difficult to determine whether it is an adult site by extracting the keyword of the body. Thus, identifying this type itself as a type of adult site may be most effective.

본 발명의 바람직한 일실시예에 의하면, 상기 웹사이트가 성인 사이트인지 여부를 판단하기 위한 제1 방법으로, 검색 로봇이 해당 웹사이트를 크로울(crawl)하여 해당 웹페이지에 대한 검색 결과 데이터를 #TITLE, #BODY, 또는 #ANCHOR로 나누어 기록하고, 소정의 기준에 따라 상기 웹사이트가 성인 사이트인지 여부를 판단할 수 있다. 바람직하게는 상기 웹사이트의 웹페이지에 포함된 전제 문자열 중 성인 키워드와 매칭되는 문자열의 비율이 어느 정도인지를 산정하고, 소정의 비율을 초과하는 사이트를 성인 사이트로서 판단할 수 있다. 이러한 성인 키워드의 비율을 산정함에 있어서는 상술한 <유형 1>의 경우에는 인덱서를 사용할 수 있다. 본 발명의 일실시예에 의하면, <유형 1>의 경우에는 성인 키워드의 길이와 웹 문서의 전체 길이의 비율을 산정하고 산정된 비율이 선정된 기준을 초과하는지를 기준으로 성인 사이트 여부를 판단할 수 있다. 또한, 비율을 통한 성인 사이트 여부 판단 뿐 아니라, 웹페이지에 포함된 문자열 중 성인 키워드와 매칭되는 문자열의 개수를 통하여 성인 사이트인지 여부를 판단할 수도 있음은 상술한 바와 같다.According to a preferred embodiment of the present invention, as a first method for determining whether the website is an adult site, a search robot crawls the website to retrieve search result data for the web page. Recorded by dividing into TITLE, #BODY, or #ANCHOR, it is possible to determine whether the website is an adult site according to a predetermined criterion. Preferably, it is possible to calculate the ratio of the strings that match the adult keyword among the entire strings included in the webpage of the website, and determine the site exceeding the predetermined ratio as the adult site. In calculating the ratio of the adult keyword, the indexer may be used in the case of <Type 1>. According to an embodiment of the present invention, in the case of <type 1>, the ratio of the length of an adult keyword to the total length of a web document may be calculated, and whether or not an adult site is determined based on whether the calculated ratio exceeds a selected criterion. have. In addition, as described above, not only the adult site may be determined based on the ratio, but also whether the adult site is determined based on the number of strings that match the adult keyword among the strings included in the web page.

성인 사이트를 검출하기 위한 제2 방법으로, 웹페이지에 포함된 문자열 중 성인 키워드와 매칭되는 문자열이 소정의 개수 이상 나타나면 상기 웹페이지가 포함된 웹사이트를 성인 사이트로 판단하는 방법이 있다. 이 경우는 인덱서를 사용할 수 없는 경우, 즉 상술한 <유형 2>와 같은 경우에 특히 유용할 수 있다.As a second method for detecting an adult site, if a string matching an adult keyword among a string included in a webpage is more than a predetermined number, there is a method of determining a website including the webpage as an adult site. This case may be particularly useful when the indexer is not available, i.e. in the case of type 2 above.

단계 335에서 해당 웹사이트가 성인 사이트인 것으로 판단한 경우에는 도 3b의 단계 350으로 분기한다.If it is determined in step 335 that the website is an adult site, the process branches to step 350 of FIG. 3B.

단계 350에서 성인 사이트인 것으로 판단된 상기 웹사이트는 본 발명에 따른 웹사이트 관리 방법에 따라 기만 사이트인지(분기 ①), 아니면 변질 사이트인지(분기 ②) 여부를 판단하게 된다.The website determined to be an adult site in step 350 determines whether it is a deceptive site (branch ①) or a deteriorated site (branch ②) according to the website management method according to the present invention.

분기 ①에서, 상기 성인 사이트로 판단된 웹사이트가 기만 사이트인지 여부를 판단하기 위해서는 상기 웹사이트에 포함된 웹페이지에 소정의 인기 키워드를 포함하고 있는지 여부를 판단한다(단계 355).In branch ①, in order to determine whether the website determined as the adult site is a deception site, it is determined whether a predetermined popular keyword is included in the web page included in the website (step 355).

도 4b에는 이러한 인기 키워드의 선정 방법이 도시되어 있다.4b shows a method of selecting such a popular keyword.

소정의 웹사이트가 기만 사이트인지 여부를 판단하기 위한 기준이 되는 인기 키워드를 선정하는 방법은 다음의 단계로 구성된다. 먼저 다수의 검색 엔진 사용자로부터 검색어를 입력 받는다(단계 455). 입력된 검색어 별로 빈도 수를 기록한다(단계 460). 빈도 수를 기록하기 위하여, 입력된 검색어를 소정의 테이블에 기록하고, 해당 검색어가 한 번 입력될 때 마다 상기 테이블의 빈도 수 필드 값을 하나 씩 증가시키는 방법을 이용할 수 있다. 분석 결과 입력된 검색어를 상술한 빈도 수를 기준으로 소정의 주기(일별, 주별, 또는 월별)마다 소팅(sorting) 하고(단계 465), 상위에 위치한 검색어들을 추출하여 이들을 인기 키워드로 선정하여 인기 키워드 데이터베이스에 저장한다(단계 470). 이러한 인기 검색어는 단기간에 걸친사회적 이슈 보다는 중장기적으로 꾸준한 인기가 있는 검색어를 선정하는 것이 바람직할 수 있는데, 이는 본 발명의 특징상, 기만 사이트의 웹페이지 소스 파일의 문자열에 포함될 수 있는 인기 키워드는 대체적으로 꾸준한 인기가 있는 검색어(예를 들면, "스타크래프트", "졸라맨" 등)일 가능성이 높기 때문이다.The method of selecting a popular keyword as a criterion for determining whether a predetermined website is a deceptive site is composed of the following steps. First, a search term is input from a plurality of search engine users (step 455). The frequency count is recorded for each input search word (step 460). In order to record the frequency number, a method of recording the entered search word in a predetermined table and increasing the frequency field value of the table by one each time the search word is input once. As a result of the analysis, the search terms inputted are sorted at predetermined intervals (daily, weekly, or monthly) based on the frequency described above (step 465), and the top search terms are extracted, and these are selected as popular keywords. Store in the database (step 470). Such popular search terms may be desirable to select a search term that is consistently popular in the medium to long term rather than a short term social issue, which is a feature of the present invention. That's because it's most likely a search term that is consistently popular (eg, "StarCraft", "Zolaman", etc.).

소정의 웹사이트가 기만 사이트인지 여부를 판단하기 위한 소정의 기준의 상기 웹사이트에 포함된 웹페이지를 구성하는 소스 파일에 소정의 인기 키워드가 포함되어 있는지 여부(단계 355)일 수 있다. 기만 사이트의 유형으로는 도 5c에 도시된 성인 사이트 <유형 3> 또는 도 5e에 도시된 성인 사이트 <유형 5>를 들 수 있다. 단계 355에서 성인 사이트로 판단된 소정의 웹사이트의 소스 파일에 인기 키워드가 포함되어 있는 것으로 판단된 경우, 상기 웹사이트는 기만 사이트로 판단할 수 있고(단계 360), 기만 사이트로 판단된 경우 도 6으로 분기(단계 385)하여 상기 웹사이트에 대하여 소정의 조치를 취하도록 동작할 수 있다.It may be whether a predetermined popular keyword is included in a source file constituting a web page included in the website of a predetermined criterion for determining whether a predetermined website is a deceptive site (step 355). Types of deception sites include adult site <type 3> shown in FIG. 5C or adult site <type 5> shown in FIG. 5E. If it is determined in step 355 that the source file of the predetermined website determined to be an adult site includes popular keywords, the website may be determined as a deceptive site (step 360), and if it is determined as a deceptive site, Branching to step 6 (step 385) may operate to take a predetermined action on the website.

분기 ②에서, 상기 성인 사이트로 판단된 웹사이트가 변질 사이트인지 여부를 판단하기 위해서 상기 성인 사이트로 판단된 웹사이트의 등록정보를 검색한다(단계 365). 상술한 바와 같이, 변질 사이트는 종래 웹사이트 등록 당시에는 일반 사이트로 등록되었던 웹사이트가 등록 이후에 성인 사이트로 변질된 경우를 의미하기 때문이다.In the branch ②, the registration information of the website determined to be the adult site is searched to determine whether the website determined to be the adult site is the altered site (step 365). As described above, the altered site means that the website, which was registered as a general site at the time of registering the website, is changed to an adult site after registration.

데이터베이스 수단에 저장된 상기 웹사이트의 웹사이트 카테고리 정보를 검색하여 상기 웹사이트가 성인 사이트로 등록되어 있는지 여부를 판단(단계 370)하고, 성인 사이트로 등록되어 있지 아니한 웹사이트의 경우에는 상기 웹사이트를 변질 사이트로 판단(단계 375)할 수 있다.The website category information of the website stored in the database means is searched to determine whether the website is registered as an adult site (step 370), and the website is not registered as an adult site. It may be determined that the alteration site (step 375).

단계 360 또는 단계 375에서 해당 웹사이트를 기만 사이트 또는 변질 사이트로 판단한 경우에는 도 6으로 분기(단계 380)하여, 상기 웹사이트에 대하여 소정의 조치를 취하도록 할 수 있다.If it is determined in step 360 or step 375 that the website is a deceptive site or altered site, it branches to FIG. 6 (step 380) to take a predetermined action on the website.

도 6를 참조하면, 상술한 도 3b의 단계 360 또는 단계 375에서 기만 사이트 또는 변질 사이트로 판단된 경우의 자동 제재 조치가 도시되어 있다. 기만 또는 변질 사이트로 판단된 경우, 웹사이트 관리 모듈은 웹사이트 정보 데이터베이스를 검색하여 해당 웹사이트의 등록자의 정보를 획득하고(단계 610), 웹사이트 관리 모듈은 상기 등록자의 정보를 수신한다(단계 620 및 650). 본 발명의 일실시예에 따르면, 웹사이트 관리 모듈은 상기 등록자 정보에서 등록자의 이메일 주소 또는 이동통신단말기 번호 등의 연락 정보를 추출하고(단계 630), 메일 서버 또는 SMS 서버를 제어하여 상기 연락 정보로 소정의 메시지를 전송하도록 동작한다(단계 640).Referring to FIG. 6, an automatic sanction measure is shown when it is determined that the deception site or the deterioration site is in step 360 or step 375 of FIG. 3B. If determined to be a deceptive or corrupt site, the website management module searches the website information database to obtain the registrant information of the website (step 610), and the website management module receives the registrant's information (step 620 and 650). According to an embodiment of the present invention, the website management module extracts contact information such as an e-mail address or a mobile communication terminal number of a registrant from the registrant information (step 630), and controls the contact information by controlling a mail server or an SMS server. To transmit the predetermined message to the client (step 640).

본 발명의 또 다른 일실시예에 따르면, 웹사이트 관리 모듈은 상기 등록자 정보에서 등록자의 기타 등록 웹사이트 정보를 추출(단계 660)하고, 동일한 등록자 명의로 등록된 기타 웹사이트에 대한 분석(단계 670)을 자동적으로 수행하도록 제어한다. 동일 등록자 명의의 웹사이트라면 동일 또는 유사한 방법으로 기만 사이트를 운영할 가능성이 높기 때문이다. 본 실시예의 경우, 기타 웹사이트의 분석 결과가 기만 사이트로 판단된 경우에는 도 6의 단계 610이 반복될 수 있다.According to another embodiment of the present invention, the website management module extracts the registrant's other registered website information from the registrant information (step 660), and analyzes other websites registered under the same registrant name (step 670). ) To automatically execute. This is because a website in the same registrant's name is more likely to operate the deception site in the same or similar way. In the present embodiment, if it is determined that the analysis result of the other website is the deception site, step 610 of FIG. 6 may be repeated.

본 발명의 바람직한 일실시예에 의하면, 소정의 웹사이트가 상술한 분석 및 판단 방법에 의하여 기만 사이트로 판단된 경우, 상기 웹사이트의 등록자에게 자동적으로 이메일, 단문자 메시지 등을 발송하여 해당 웹사이트의 문제점을 지적하고 일정 유예 기간을 두어 시정을 요구하도록 동작할 수 있다. 또한, 일정 유예 기간 경과 후 자동적으로 상기 분석 및 판단 프로세스를 수행하도록 설정할 수 있고, 이 경우에도 시정이 안된 경우에는 등록 취소 등의 제재 조치를 취하는 것도 가능하다. 또한, 본 발명의 다른 일실시예에 의하면, 상기 웹사이트의 등록자에게는 추후 다른 웹페이지를 등록하고자 하는 경우 등록 절차를 까다롭게 하는 등의 제재를 가하는 것도 가능하다.According to a preferred embodiment of the present invention, if a predetermined website is determined to be a deceptive site by the above-described analysis and determination method, the website is automatically sent to the registrant of the website by sending an e-mail, a short text message, or the like. It can act to point out the problem and to allow for a period of grace. In addition, the analysis and determination process may be automatically performed after a certain grace period has elapsed, and in this case, if the correction is not corrected, sanctions such as cancellation of registration may be taken. In addition, according to another embodiment of the present invention, the registrant of the website may be subject to sanctions such as to complicate the registration process in the case of registering another web page in the future.

본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Embodiments of the invention include a computer readable medium containing program instructions for performing various computer-implemented operations. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The medium or program instructions may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. The medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like. Examples of program instructions include machine language code, such as produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter.

도 7은 본 발명에 따른 검색 엔진에서 웹페이지의 등록을 관리하는데 이용될 수 있는 범용 컴퓨터 시스템의 내부 블록도이다.7 is an internal block diagram of a general purpose computer system that may be used to manage registration of web pages in a search engine in accordance with the present invention.

컴퓨터 시스템은 램(RAM: Random Access Memory)(760)과 롬(ROM: Read Only Memory)(770)을 포함하는 주기억장치와 연결되는 하나 이상의 프로세서(740)를 포함한다. 프로세서(740)는 중앙처리장치(CPU)로 불리기도 한다. 당업계에서 널리 알려져 있는 바와 같이, 롬(770)은 데이터(data)와 명령(instruction)을 단방향성으로 CPU에 전달하는 역할을 하며, 램(760)은 통상적으로 데이터와 명령을 양방향성으로 전달하는 데 사용된다. 램(760) 및 롬(770)은 컴퓨터 판독 가능 매체의 어떠한 적절한 형태를 포함할 수 있다. 대용량 기억장치(Mass Storage)(710)는 양방향성으로 프로세서(740)와 연결되어 추가적인 데이터 저장 능력을 제공하며, 상기된 컴퓨터 판독 가능 기록 매체 중 어떠한 것일 수 있다. 대용량 기억장치(710)는 프로그램, 데이터 등을 저장하는데 사용되며, 통상적으로 주기억장치보다 속도가 느린 하드디스크와 같은 보조기억장치이다. CD 롬(720)과 같은 특정 대용량 기억장치가 사용될 수도 있다. 프로세서(740)는 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크로폰, 터치스크린 형 디스플레이, 카드 판독기, 자기 또는 종이 테이프 판독기, 음성 또는 필기 인식기, 조이스틱, 또는 기타 공지된 컴퓨터 입출력장치와 같은 하나 이상의 입출력 인터페이스(730)와 연결된다. 마지막으로, 프로세서(740)는 네트워크 인터페이스(750)를 통하여 유선 또는 무선 통신 네트워크에 연결될 수 있다. 이러한 네트워크 연결을 통하여 상기된 방법의 절차를 수행할 수 있다. 상기된 장치 및 도구는 컴퓨터 하드웨어 및 소프트웨어 기술 분야의 당업자에게 잘 알려져 있다.The computer system includes one or more processors 740 connected with main memory including random access memory (RAM) 760 and read only memory (ROM) 770. The processor 740 is also called a central processing unit (CPU). As is well known in the art, the ROM 770 serves to pass data and instructions to the CPU unidirectionally, and the RAM 760 typically transfers data and instructions bidirectionally. Used to. RAM 760 and ROM 770 may include any suitable form of computer readable media. Mass storage 710 is bidirectionally coupled to processor 740 to provide additional data storage capability, and may be any of the computer readable recording media described above. The mass storage device 710 is used to store programs, data, and the like, and is a secondary memory device such as a hard disk which is generally slower than the main memory device. Certain mass storage devices such as CD ROM 720 may be used. The processor 740 may include one or more input / output interfaces, such as a video monitor, trackball, mouse, keyboard, microphone, touchscreen display, card reader, magnetic or paper tape reader, voice or handwriting reader, joystick, or other known computer input / output device. 730 is connected. Finally, the processor 740 may be connected to a wired or wireless communication network through the network interface 750. Through this network connection, the procedure of the method described above can be performed. The apparatus and tools described above are well known to those skilled in the computer hardware and software arts.

상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수도 있다.The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention.

본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 의하면, 상술한 기만 사이트 또는 변질 사이트를 소정의 알고리즘을 이용하여 자동적으로 검출해 낼 수 있도록 함으로써 검색 엔진 사용자로 하여금 자신이 검색하고자 하는 정보를 정확히 검색할 수 있는 검색 엔진을 제공할 수 있다는 기술적 효과를 얻을 수 있다.According to a method for managing registration of a website in a search engine according to the present invention, a search engine user may search for a user by searching for the deception site or the deterioration site described above by using a predetermined algorithm. The technical effect is that it can provide a search engine that can accurately search for information.

또한, 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 의하면, 상기 기만 사이트 또는 상기 변질 사이트를 자동적으로 검출하고, 검출된 기만 또는 변질 사이트 운영자에 대한 제재 조치를 가하도록 함으로써 검색 엔진에 등록되는 웹사이트 자체의 자정 노력을 강화할 수 있다는 기술적 효과를 얻을 수 있다.Further, according to the method for managing the registration of a website in the search engine according to the present invention, the search by automatically detecting the deception site or the deterioration site, and by applying sanctions to the detected deception or alteration site operator The technical effect of strengthening the self-cleaning effort of the website itself registered with the engine can be achieved.

또한, 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 의하면, 상기 기만 사이트 또는 상기 변질 사이트의 검출 및 검출된 상기 사이트들에 대한 경고 등의 제재 조치를 소정의 알고리즘에 의해 자동적으로 수행되도록 함으로써, 상술한 기만 또는 변질 사이트 검출을 위해 소요되던 다수의 인력 자원을 절약할 수 있다는 기술적 효과를 얻을 수 있다.In addition, according to the method for managing registration of a website in the search engine according to the present invention, sanction measures such as detection of the deceptive site or the deterioration site and warning of the detected sites are automatically performed by a predetermined algorithm. By doing so, it is possible to obtain a technical effect that can save a number of manpower resources required for the above-described deception or deterioration site detection.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 상기 기재로부터 다양한 수정 및 변형이 가능하다는 점은 자명하다. 따라서, 본 발명 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.As described above, although the present invention has been described by way of limited embodiments and drawings, the present invention is not limited to the above-described embodiments, which can be variously modified and modified by those skilled in the art to which the present invention pertains. It is obvious that modifications are possible. Accordingly, the spirit of the present invention should be understood only by the claims set forth below, and all equivalent or equivalent modifications thereof will belong to the scope of the present invention.

Claims (1)

검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법을 실행시키기 위한 프로그램을 기록한 기록 매체에 있어서,A recording medium having recorded thereon a program for executing a method for managing a website registered in a search engine, comprising: 상기 웹사이트에 대한 정보를 데이터베이스 수단에 소정의 필드 별로 분류하여 기록하는 단계;Classifying and recording the information on the website for each predetermined field in database means; 소정의 성인 키워드를 성인 키워드 데이터베이스에 유지하는 단계;Maintaining a predetermined adult keyword in an adult keyword database; 상기 웹사이트의 웹페이지를 구성하는 소스 파일을 독출하는 단계;Reading a source file constituting a web page of the website; 상기 독출된 소스 파일을 분석하는 단계;Analyzing the read source file; 소정의 기준에 따라 상기 웹사이트가 성인 사이트인지 여부를 판단하는 단계; 및Determining whether the website is an adult site according to a predetermined criterion; And 상기 소스 파일에 포함된 문자열 중 상기 성인 키워드와 매칭되는 문자열의 길이의 합이 소정의 바이트 이상인지 여부를 상기 소정의 기준으로 결정하는 단계Determining, based on the predetermined criterion, whether the sum of the lengths of the strings matching the adult keyword among the strings included in the source file is equal to or greater than a predetermined byte; 를 포함하는 것을 특징으로 하는 웹사이트 관리 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for implementing a website management method on a computer.
KR1020040003114A 2004-01-15 2004-01-15 A method of managing registered web sites in search engine and a system thereof KR20040086733A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040003114A KR20040086733A (en) 2004-01-15 2004-01-15 A method of managing registered web sites in search engine and a system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040003114A KR20040086733A (en) 2004-01-15 2004-01-15 A method of managing registered web sites in search engine and a system thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020030021483A Division KR100610775B1 (en) 2003-04-04 2003-04-04 A method of managing registered web sites in search engine and a system thereof

Publications (1)

Publication Number Publication Date
KR20040086733A true KR20040086733A (en) 2004-10-12

Family

ID=37369107

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040003114A KR20040086733A (en) 2004-01-15 2004-01-15 A method of managing registered web sites in search engine and a system thereof

Country Status (1)

Country Link
KR (1) KR20040086733A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100850776B1 (en) * 2006-07-24 2008-08-06 한국과학기술정보연구원 search system of non-keyword type using tree structure and search method for the same
US20100112964A1 (en) * 2008-11-04 2010-05-06 Kyung-Hack Yi Wrist watch type mobile terminal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100850776B1 (en) * 2006-07-24 2008-08-06 한국과학기술정보연구원 search system of non-keyword type using tree structure and search method for the same
US20100112964A1 (en) * 2008-11-04 2010-05-06 Kyung-Hack Yi Wrist watch type mobile terminal
US8275327B2 (en) * 2008-11-04 2012-09-25 Lg Electronics Inc. Wrist watch type mobile terminal

Similar Documents

Publication Publication Date Title
EP0886822B1 (en) System and method for locating resources on a network using resource evaluations derived from electronic messages
US8117208B2 (en) System for entity search and a method for entity scoring in a linked document database
KR100485321B1 (en) A method of managing web sites registered in search engine and a system thereof
US7668812B1 (en) Filtering search results using annotations
US7346604B1 (en) Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope
US7823065B2 (en) Lexicon-based new idea detector
CA2460538C (en) Information analyzing method and apparatus
US8386476B2 (en) Computer-implemented search using result matching
US7664732B2 (en) Method of managing websites registered in search engine and a system thereof
US8478737B2 (en) Segmentation of search topics in query logs
US20030120649A1 (en) Content information analyzing method and apparatus
US20130144834A1 (en) Uniform resource locator canonicalization
KR100509276B1 (en) Method for searching web page on popularity of visiting web pages and apparatus thereof
WO2009017135A1 (en) Information providing support device and information providing support method
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis
KR100610775B1 (en) A method of managing registered web sites in search engine and a system thereof
KR20040086733A (en) A method of managing registered web sites in search engine and a system thereof
US20020062341A1 (en) Interested article serving system and interested article serving method
KR20040098889A (en) A method of providing website searching service and a system thereof
JP2001282837A (en) Information gathering device
KR100458458B1 (en) A method of managing web sites registered in search engine and a system thereof
JP2003173351A (en) Method, device, program and storage medium for analysis, collection and retrieval of information
KR101048590B1 (en) A method of managing web sites registered in search engine and a system thereof
de Alencar et al. Geotagging aided by topic detection with Wikipedia
KR20040103763A (en) A method of managing web sites registered in search engine

Legal Events

Date Code Title Description
A107 Divisional application of patent
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid