KR20010092922A - Method for Searching Similar Websites - Google Patents

Method for Searching Similar Websites Download PDF

Info

Publication number
KR20010092922A
KR20010092922A KR1020000015595A KR20000015595A KR20010092922A KR 20010092922 A KR20010092922 A KR 20010092922A KR 1020000015595 A KR1020000015595 A KR 1020000015595A KR 20000015595 A KR20000015595 A KR 20000015595A KR 20010092922 A KR20010092922 A KR 20010092922A
Authority
KR
South Korea
Prior art keywords
search
search term
website
registered
group
Prior art date
Application number
KR1020000015595A
Other languages
Korean (ko)
Inventor
이현구
Original Assignee
이현구
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이현구 filed Critical 이현구
Priority to KR1020000015595A priority Critical patent/KR20010092922A/en
Publication of KR20010092922A publication Critical patent/KR20010092922A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Abstract

PURPOSE: A method for searching a similar web site is provided to enable a user to search a web site similar to the web site with the user was familiar by enabling a web server to register URLs of web sites and search words and compare a URL the user inputs with an arbitrary search word, thereby enabling the web server to estimate the degree of similarity. CONSTITUTION: A user wants to search a web site similar to a specific web site. The user inputs a URL of the site(10). A web server stores search words including rankings and weight values and makes the first search word group of the search words(12). The user inputs an arbitrary search word to an input window(14). The search word the user inputs is compared with the first search word group. It is judged whether the search term is repeated(16). In case that there's the repeated search word, the search word in the first search word group is removed(18). The search word inputted from the user is inserted into a relevant ranking(20). The second search word group is formed(22). A candidate web site is selected(24). Weight values are given to search words in the second search word group(26).

Description

유사 웹사이트의 검색 방법{Method for Searching Similar Websites}How to search similar websites {Method for Searching Similar Websites}

본 발명은 유사 웹사이트를 검색하는 방법에 관한 것으로, 더욱 상세하게는 사용자가 특정 웹사이트의 URL(uniform resource locator)을 입력하고 원하는 임의의 검색어를 순위와 함께 입력함으로써, 검색어들의 출현 빈도와 가중치를 반영하여 검색 결과를 제시하는 유사 웹사이트의 검색 방법에 관한 것이다.The present invention relates to a method for searching a similar website, and more particularly, a user inputs a uniform resource locator (URL) of a specific website and inputs any desired search term along with a ranking, so that the occurrence frequency and weight of the search terms are displayed. It relates to a search method of a similar website that presents a search result reflecting.

인터넷에는 전세계의 수많은 컴퓨터들이 연결되어 TCP/IP를 기반으로 통신이 이루어지며, 헤아릴 수 없을 정도로 많은 웹사이트들이 구축되어 다양한 컨텐츠를 제공하고 있다. 이들 웹사이트는 각자 나름대로 독특한 정보와 구성을 갖추고 있기때문에, 이들 웹사이트들로부터 정치, 경제, 사회, 문화를 망라한 모든 분야에서 유용한 정보를 얻을 수도 있고 갖가지 컨텐츠를 이용할 수 있다.The Internet connects numerous computers around the world to communicate based on TCP / IP, and countless websites have been established to provide various contents. Because these websites have their own unique information and organization, they can provide useful information and access to a wide variety of content in all areas, including politics, economy, society and culture.

따라서, 인터넷을 정보의 바다라고도 하며, 인터넷을 잘 이용하는 것이 개인의 발전이나 기업을 성패를 가름하는 것으로 인식되고 있는 실정에 있다. 더욱이 전자상거래를 통해 기존의 상거래 관행이 모두 혁신되고 인터넷을 기반으로 하는 금융 기법이 개발되어 온라인으로 모든 거래가 이루어지는 방향으로 발전하고 있다.Therefore, the Internet is also referred to as the sea of information, and the use of the Internet well is recognized as a result of personal development and success of a company. Moreover, e-commerce is transforming all existing commerce practices and developing Internet-based financial techniques that are evolving in the direction of all transactions online.

이와 같이 인터넷에 연결된 수많은 웹사이트들 중에서 사용자가 원하는 웹사이트를 찾아 접속하는 것이 쉽지 않다. 인터넷 사용자들을 위해 웹사이트를 찾는 것을 도와주는 웹사이트가 형성되어 서비스를 제공하고 있으며, 대표적으로 세계적으로는 www.yahoo.com, www.altavista.com, www.lycos.com 등이 유명하고, 국내에서는 www.simmani.com, www.naver.com, www.empas.com 등이 널리 이용되고 있다.As such, it is not easy to find and access a website that a user wants among numerous websites connected to the Internet. Websites have been formed and provide services to help Internet users find their website. Among them, www.yahoo.com, www.altavista.com, www.lycos.com are famous worldwide. Www.simmani.com, www.naver.com, www.empas.com are widely used.

이들 검색 엔진(search engine)은 나름대로 독특한 방법으로 사용자가 입력하는 검색어를 기준으로 관련된 웹사이트를 찾아 목록을 제시한다. 예컨대, yahoo 검색엔진은 웹사이트를 직접 방문하여 전문가가 색인어를 결정하여 등록하고, 이 등록된 색인어와 사용자가 입력한 검색어를 비교하여 일치하는 웹사이트를 찾아주는 방법으로 실행된다.These search engines search and present related websites based on search terms entered by users in unique ways. For example, a yahoo search engine is run by visiting a website directly, an expert determines an index term, registers it, compares the registered index term with a user-entered search term, and finds a matching website.

또한, 최근의 발달된 서치엔진은 예컨대 "텔레비전을 살 수 있는 쇼핑몰은 어디입니까?"와 같은 자연어를 입력하도록 하여 자연어 검색 방식을 채용하는 것도 있다.In addition, recently developed search engines adopt a natural language search method by inputting a natural language such as "Where can I buy a television?"

그러나, 이들 검색엔진의 방법들은 나름대로 장단점을 가지고 있어 경우에 따라서는 특정 검색엔진이 원하는 사이트를 바로 찾아주기도 하지만, 다수의 목록만을 제시할 뿐 이들 목록 자체가 너무 많은 웹사이트와 관련되어 있기 때문에, 도움이 되지 못하는 경우가 적지 않다. 또한 자신이 잘 알고 있는 웹사이트와 유사한 웹사이트를 찾고자 하는 경우에도 이들 종래의 서치엔진은 이러한 기능을 제공하지 않는다. 그러나 실제로 사용자들은 유명한 웹사이트를 잘 알고 있고, 그와 유사한 웹사이트를 비교하여 원하는 정보를 얻고자 하는 경우가 많다.However, these search engine methods have their own advantages and disadvantages, and in some cases a particular search engine can find the site you want, but it only presents a large number of lists, and because these lists are associated with too many websites. There are many cases where it does not help. In addition, even if you are looking for a website similar to the website you are familiar with, these conventional search engines do not provide this function. In practice, however, users are familiar with well-known websites and often want to compare similar websites to get the information they want.

한편, 검색엔진의 성능은 사용자가 원하는 웹사이트 주소를 적확하게 제시하는 것으로 좌우되기 때문에, 그 검색 결과의 수가 너무 많은 경우에도 검색자는 그 검색 결과에 만족하지 못하게 되며, 특히 자신이 잘 알고 있는 웹사이트와 유사한 사이트를 찾는 경우에도 종래의 검색 엔진에 이한 일반적인 검색어 방식으로는 만족할만한 결과를 얻을 수 없었다.On the other hand, the performance of search engines depends on the exact presentation of the desired website address, so even if the number of search results is too large, the searcher may not be satisfied with the search results. In the case of searching for a site similar to the site, the general search method similar to that of the conventional search engine could not obtain satisfactory results.

따라서, 본 발명의 목적은 사용자 스스로 잘 알고 있는 웹사이트와 유사한 웹사이를 효과적으로 검색해서 제시하는 인터넷을 통한 검색 방법을 제공하는 것이다.Accordingly, it is an object of the present invention to provide a search method through the Internet that effectively searches and presents a web site similar to a web site that is familiar to the user.

도 1은 본 발명에 따른 등록된 웹사이트의 등록된 검색어와 가중치의 구조를 보인 도면,1 is a view showing a structure of a registered search word and a weight of a registered website according to the present invention,

도 2는 본 발명의 방법을 적용한 검색 웹사이트의 사용자 입력창의 구조를 보인 도면,2 is a view showing the structure of a user input window of a search website to which the method of the present invention is applied;

도 3a 및 도 3b는 본 발명의 방법에 따라 사용자가 원하는 유사 웹사이트를 검색하는 방법의 흐름을 보인 플로우챠트이다.3A and 3B are flowcharts showing the flow of a method of searching for a similar website desired by a user according to the method of the present invention.

이와 같은 본 발명의 목적은, 인터넷에 연결된 웹서버에 구축된 웹사이트에서 유사 웹사이트를 검색하는 방법에 있어서, 등록된 웹사이트의 URL 및 그 웹사이트를 대표하는 복수개의 검색어를 저장하는 단계와; 사용자가 홈페이지의 URL을 입력하는 단계와; 사용자가 임의의 검색어를 입력하는 단계와; 상기 사용자가 입력한 URL의 제 1 검색어 그룹에 대해 상기 사용자가 입력한 임의의 검색어를 추가하고, 검색어를 일정 개수로 제한한 제 2 검색어 그룹을 형성하는 단계와; 상기 제 2 검색어 그룹과 상기 웹서버에 등록된 웹사이트들의 등록된 검색어들을 비교하여, 일치하는 검색어의 개수가 많은 순서대로 일정 수의 검색 후보의 웹사이트를 선정하는 단계와; 상기 선정된 검색 후보의 웹사이트와의 등록된 검색어들과 상기 제 2 검색어 그룹을 비교하여, 사용자들의 이용도를 기준으로 유사도가 높은 순서대로 정렬한 상기 웹사이트들의 목록을 검색 결과로 제시하는 단계를 포함하는 방법이 제공된다.As described above, an object of the present invention is to provide a method for searching a similar website in a website built on a web server connected to the Internet, the method including: storing a URL of a registered website and a plurality of search terms representing the website; ; A user inputting a URL of a homepage; A user inputting an arbitrary search term; Adding a second search term input by the user to a first search term group of the URL input by the user, and forming a second search term group in which the search term is limited to a predetermined number; Comparing the search terms of the websites registered in the web server with the second search term group, and selecting a predetermined number of search candidate websites in ascending order of search terms; Comparing the search terms registered with the websites of the selected search candidates with the second search term group, and presenting a list of the websites sorted in order of high similarity based on the usage of users as a search result; There is provided a method comprising a.

본 발명의 방법은 인터넷에 연결된 서버에 구축된 검색 사이트로 구성된다. 즉, 사용자들은 인터넷을 통해 본 발명의 검색 사이트에 접속해서 원하는 검색 기능을 이용하게 된다. 따라서 본 발명의 검색 사이트는 독자적인 URL을 가지며, 사용자들은 이 URL을 이용해 인터넷을 통해 본 발명의 검색 사이트에 접속할 수 있다.The method consists of a search site built on a server connected to the Internet. That is, users access the search site of the present invention through the Internet and use a desired search function. Therefore, the search site of the present invention has its own URL, and users can access the search site of the present invention through the Internet using this URL.

웹서버는 다수의 사용자를 수용할 수 있도록 고속의 전용선으로 인터넷에 연결되고 빠른 검색 결과를 제공할 수 있도록 컴퓨팅 파워가 충분한 서버를 사용하는 것이 바람직하다.It is desirable to use a server with sufficient computing power to connect to the Internet on a high-speed dedicated line to accommodate a large number of users and to provide fast search results.

웹서버에는 웹사이트들이 등록되며, 이 등록된 웹사이트들이 검색 대상이 된다. 따라서, 웹서버는 가능한 한 인터넷상에 존재하는 모든 웹사이트 주소를 등록하여 저장하는 것이 바람직하다. 본 발명의 웹서버는 이들 등록된 웹사이트의 주소와 함께 해당 웹사이트에 대한 검색어를 함께 저장한다. 검색어는 사람, 특히 해당 분야의 전문가에 의해 검색어를 선정하여 등록할 수도 있다. 그러나 보다 바람직하게는 해당 웹사이트를 이용하는 사용자들의 사용 상태를 추적하여 검색어를 선정한다.Websites are registered on the web server, and these registered websites are searched. Therefore, it is desirable that the web server registers and stores all website addresses existing on the Internet as much as possible. The web server of the present invention stores the search terms for the website together with the addresses of these registered websites. The search word may be selected and registered by a person, particularly an expert in a corresponding field. However, more preferably, the search term is selected by tracking the usage status of users who use the website.

즉, 인터넷 사용자들이 스스로 선호하는 웹사이트 목록을 저장하는 온라인 북마크(bookmark)를 제공하는 웹사이트들이 다수 존재한다. 이러한 북마크를 온라인에 저장할 때, 사용자들은 북마크에 대해 간단한 설명을 기재하게 된다. 예컨대 한국방송공사의 "www.kbs.co.kr"에 대해서는 북마크하는 사람마다 다르기는 하겠으나 kbs, 방송, 언론, 한국, 기자, 뉴스, 드라마, 스포츠 등등의 설명을 붙인다. 따라서, 이렇게 실제 해당 웹사이트에 대해 사용자들이 사용하는 단어를 누적적으로 통계를 잡아서, 가장 많이 사용하는 단어의 순서대로 해당 웹사이트에 대한 검색어로 결정하여 등록한다. 이렇게 등록된 검색어는, 해당 웹사이트를 검색하고자 하는 검색자의 입력과도 대응할 가능성이 높기 때문에, 보다 정확한 검색이 이루어질 수 있는 것이다.That is, there are a number of websites that provide online bookmarks that store a list of websites that Internet users prefer. When storing such bookmarks online, users enter a brief description of the bookmark. For example, the Korea Broadcasting Corporation's "www.kbs.co.kr" will be different for each person who bookmarks it, but kbs, broadcasting, media, Korea, journalist, news, drama, sports, etc. will be added. Thus, the words used by the users for the actual corresponding website are collected in statistics, and the search terms for the corresponding website are determined and registered in the order of the most used words. Since the registered search word is more likely to correspond to the input of the searcher who wants to search the corresponding website, more accurate search can be performed.

도 1은 이와 같이 웹사이트를 등록하면서 그 검색어를 등록한 예를 보인 것이다. 여기서 각 검색어에는 가중치가 설정된다. 이 가중치는 일반적으로 퍼센트의 개념으로 구성된다. 만약 "www.kbs.co.kr"이라는 웹사이트에 대해서 인터넷 사용자들의 북마크의 결과 이들의 검색어 순위와 사용빈도를 바탕으로 백분율을 구한 결과 "kbs"라는 단어가 35%로 1위, "방송"이라는 단어가 25%로 2위, "한국"이라는 단어가 10%로 3위.......였다면, 이러한 순위와 백분율에 따라 "www.kbs.co.kr"이라는 웹사이트는 도 1에 표시된 바와 같이 검색어(ksb, 방송, 한국, 언론, 뉴스.....)와 해당 검색어에 대한 가중치(3.5, 2.5, 1, 0.9, 0.7.....)가 등록된다. 도 1에서는 가중치의 합이 10으로 되는 경우를 설명하였으나, 합이 1로 되거나 합이 100으로 되는 방법으로 할 수도 있음은 물론이다.1 shows an example of registering a search word while registering a website as described above. Here, each search term is set with a weight. This weight usually consists of the concept of a percentage. If the website "www.kbs.co.kr" is a percentage of Internet users' bookmarks based on their search query rankings and their frequency, the word "kbs" comes in at 35%. If the word was ranked second at 25% and the word "Korea" was ranked third at 10% ......., according to this ranking and percentage, the website "www.kbs.co.kr" is shown in FIG. As shown in the search terms (ksb, broadcasting, Korea, the press, news .....) and the weight (3.5, 2.5, 1, 0.9, 0.7 .....) for the search terms are registered. In FIG. 1, a case in which the sum of weights is 10 is described. However, the sum may be 1 or the sum may be 100.

마찬가지 방법으로, "www.kipo.go.kr"이라는 웹사이트에 대해 북마크 설명에 발견되는 빈도를 조사한 결과 "특허청"이라는 단어가 42%, "발명"이라는 단어가 23%, "특허"라는 단어가 11%, "실용신안"이라는 단어가 9%......의 빈도로 나타났다면, 이 웹사이트는 도 1에 표시된 것과 같은 검색어와 그 가중치를 갖게 된다.Similarly, a survey of the frequency found in the description of bookmarks for the website "www.kipo.go.kr" shows that 42% of the word "Patent Office", 23% of the word "invention", and "word" Is 11%, and the word "utility model" has a frequency of 9% ..., the website has a search term and its weight as shown in FIG.

또한, 예컨대 "www.microsoft.com"이라는 웹사이트에 대해서도 많은 사용자들의 북마크의 기술 결과 다양한 검색어가 등록될 수 있다. 여기서는 제 1 또는 제 2 검색어의 가중치가 위의 두 가지 예보다는 적은 것을 알 수 있다. 제 1 또는 제 2의 한두가지 검색어의 가중치가 높은 웹사이트는 그 단어에 의해서 그 웹사이트를 인식하는 사용자가 많다는 것으로, 이러한 유형의 웹사이트는 제 1 또는 제 2 검색어에 의해서 용이하게 그 웹사이트를 검색할 수 있다. 반대로, 검색어 사이에 가중치의 차이가 적은 웹사이트는 많은 사용자들이 여러 형태로 그 웹사이트를 인식하고 있는 것이어서, 검색어의 가중치가 더욱 중요한 의미를 갖게 된다.In addition, various search terms may be registered as a result of descriptions of bookmarks of many users, for example, a website called "www.microsoft.com". Here, it can be seen that the weight of the first or second search word is less than the above two examples. A website with a high weight of one or two search terms has a large number of users who recognize the website by the word, and this type of website is easily accessible by the first or second search term. You can search for. On the contrary, a website having a small difference in weight between search terms is that many users recognize the website in various forms, and thus the weight of the search term has a more important meaning.

이와 같이, 본 발명의 웹서버에는 웹사이트들의 URL와 그 URL의 검색어 및 그 검색어의 가중치가 동시에 저장된다. 하나의 URL에 검색어는 일반적으로 2이상의 복수개이며, 일반적으로 수십 개 이상의 다수의 검색어가 가중치와 함께 등록된다.As such, the web server of the present invention stores URLs of websites, search terms of the URLs, and weights of the search terms at the same time. There are generally two or more search terms in one URL, and in general, several or more search terms are registered with weights.

도 2에 도시된 바와 같이, 웹사이트들의 URL과 그 검색어 및 가중치는 본 발명의 웹서버에 데이터베이스(DB)의 형태로 저장된다. 또한, 웹서버에 구축된 본 발명의 방법에 따른 검색 웹사이트는 URL 입력창과 사용자가 임의로 검색어를 입력할 수 있는 검색어 입력창이 복수개 구비된다. 또한 각각의 임의의 검색어 입력창에는 순위를 지정할 수 있는 창이 별도로 제공되며, 사용자가 스스로 판단하여 검색어의 순위를 조절할 수 있도록 상향 버튼과 하향 버튼이 설치된다.As shown in Figure 2, the URLs of the websites, their search words and weights are stored in the form of a database (DB) in the web server of the present invention. In addition, the search website according to the method of the present invention built in the web server is provided with a plurality of URL input window and a search term input window for the user to input the search word arbitrarily. In addition, each arbitrary search word input window is provided with a window for specifying a ranking, and an up button and a down button are installed so that the user can determine the ranking of the search word by himself.

도 2에서 검색어 입력창은 5개의 검색어를 입력할 수 있도록 5개의 입력창이 도시되어 있고 순위는 초기 값으로 3으로 지정되어 있으나, 검색어 입력창은 필요에 따라 더 많이 또는 더 적게 제공될 수 있고 순위의 초기 값도 다르게 설정할 수 있다.In FIG. 2, five input windows are shown to input five search terms, and a ranking is set to 3 as an initial value. However, the search term input window may be provided more or less as needed. The initial value of can also be set differently.

특정 웹사이트에 대해 그것과 유사한 웹사이트를 검색하고자 하는 사용자는 먼저 그 특정 웹사이트의 URL을 입력한다. 또한, 스스로의 판단으로 임의의 검색어를 1 또는 2 이상 복수개 입력하며, 각각의 검색어에 대해 원하는 순위를 지정한다.A user who wishes to search for a website similar to that for a particular website first enters the URL of that particular website. In addition, a plurality of arbitrary search terms may be input by one or two or more, and a desired rank may be designated for each search term.

이렇게 일정 수로 검색된 웹사이트에 대해 사용자가 입력한 특정 웹사이트와 가장 가까운 순서대로 후보 웹사이트의 순위를 재조정해야 한다.For this number of searched websites, the candidate websites should be reranked in the order that is closest to the particular website entered by the user.

이를 위해서 사용자에 의해 입력된 URL의 등록된 검색어들(제 1 검색어 그룹)과 사용자가 입력한 임의의 검색어(제 1 검색어 내지 제 5 검색어)를 조합하여 새로운 검색어 그룹을 형성한다. 새로운 검색어 그룹의 형성은, 먼저 제 1 검색어 그룹의 검색어들이 가중치가 높은 순서대로 순위를 갖기 때문에, 사용자가 입력한임의의 검색어와 그 순위를 존중하여 제 1 검색어 그룹의 순위로 임의의 검색어들을 삽입한다. 이렇게 삽입된 후에 그 순위에 있던 검색어들은 자연히 다음 차순위로 자리 이동을 하며, 이 때 가중치는 삽입 또는 이동되는 검색어와는 무관하게 해당되는 순위에 고정된다.To this end, a new search term group is formed by combining registered search terms (first search term group) of a URL input by the user and arbitrary search terms (first to fifth search terms) input by the user. The new query group is formed by first inserting search terms into the ranking of the first query group by respecting any search terms entered by the user and the ranking, because the search terms of the first search query group are ranked in the order of high weight. do. After the insertion, the search terms in the ranking naturally move to the next rank, and the weight is fixed to the corresponding rank regardless of the search word inserted or moved.

이렇게 등록된 URL의 제 1 검색어 그룹과 사용자가 입력한 임의의 검색어들을 조합하여 형성된 새로운 검색어 그룹은 대체로 그 검색어의 수가 많기 때문에, 이를 일정한 수로 제한할 필요가 있다. 즉, 10 또는 15 순위 이하의 검색어들은 그 가중치가 매우 낮아서 실질적으로 검색의 결과에 대한 영향이 미미하기 때문이다.Since the new search word group formed by combining the first search word group of the registered URL and any search word input by the user is large in number, the number of search terms needs to be limited to a certain number. In other words, the search terms below 10 or 15 ranks are very low in weight and thus have little effect on the results of the search.

따라서, 높은 순위부터 10, 15 또는 20개 정도로 제한하여 제 2 그룹의 검색어 그룹을 형성한다.Accordingly, the search term group of the second group is formed by limiting the ranking to about 10, 15, or 20.

이렇게 형성된 제 2 검색어 그룹은 10개 내지 20개 정도의 검색어들을 포함하며, 이들 검색어를 기준으로 웹서버에 등록되어 있는 모든 웹사이트들의 등록된 검색어와 비교하여 일치하는 검색어가 많은 순서대로 검색 결과로 제시될 후보 웹사이트를 선정한다. 이 때 나열되는 후보 웹사이트의 수는 일정한 수, 예컨대 50개 내지 200개 정도로 제한할 수 있다.The second search word group thus formed includes 10 to 20 search terms, and compared with the registered search terms of all websites registered in the web server based on the search terms, and the search terms are returned in order of increasing order. Select candidate websites to be presented. The number of candidate websites listed at this time can be limited to a certain number, such as 50 to 200.

선정된 후보 웹사이트들은 단순히 제 2 검색어 그룹과 일치하는 검색어가 많은 순서대로 결정된 것이기 때문에, 실제 사용자가 원하는 유사 웹사이트와 유사도가 반드시 일치하는 것은 아니다. 따라서, 검색자와 일반 사용자들의 이용 상태를 반영하여 유사도를 측정하여 보다 유사도가 높은 순서대로 후보 웹사이트들을 재벼열하여야 한다.Since the selected candidate websites are simply determined in ascending order of search terms that match the second search term group, the similarity does not necessarily match the similar websites desired by the actual user. Therefore, the similarity is measured by reflecting the usage status of searchers and general users, and the candidate websites should be reordered in the order of higher similarity.

이를 위해서 제 2 검색어 그룹과 후보 웹사이트들의 등록된 검색어를 비교하여 일치하는 검색어를 분리하고, 분리된 검색어들에 대해 제 2 검색어 그룹이 가지고 있는 가중치와 후보 웹사이트의 등록된 검색어의 가중치를 함께 곱한다. 이렇게 곱한 결과를 일치된 검색어마다 합해서 얻어진 합계가 해당 후보 웹사이트의 점수가 된다. 따라서, 후보 웹사이트들마다 이러한 방법으로 점수를 산출하여 점수가 높은 순서대로 정렬함으로써 검색 결과로 사용자에게 제시하게 된다.To this end, the search terms of the second search term group and the candidate websites are compared to separate the matching search terms, and the weighted value of the second search term group and the registered search terms of the candidate websites are compared with the separated search terms. Multiply. The sum obtained by adding the multiplication results to each matched search term is the score of the candidate website. Therefore, scores are calculated in this manner for each candidate website, and the scores are sorted in the order of high score, and presented to the user as a search result.

이 때 제 2 검색어 그룹의 각각의 검색어에 대해 부여되는 가중치는 다음의 세가지 방법중 어느 하나로 결정한다.At this time, the weight given to each search word of the second search word group is determined by one of the following three methods.

먼저, 제 1 검색어 그룹은 사용자가 입력한 URL에 대해 웹서버가 가지고 있는 검색어로서 자체로서 가중치를 가지고 있다. 따라서, 사용자가 입력한 임의의 검색어들을 상술한 방법으로 제 1 그룹 검색어에 삽입하면 검색어들은 순위 변동을 하였으나, 각 순위에 대한 가중치들은 순위 변동 없이 그대로 유지되어 제 2 검색어 그룹의 각 순위에 대한 가중치로 한다.First, a first search term group is a search term that a web server has for a URL input by a user and has a weight as itself. Therefore, when the user inputs any of the search terms entered into the first group search word in the above-described manner, the search terms are changed in rank, but the weights for each rank are maintained without changing the rank, so that the weight for each rank in the second search term group is maintained. Shall be.

둘째 방법으로, 웹서버는 등록된 모든 웹사이트들에 대해 검색어들과 그 검색어들의 가중치를 가지고 있다. 따라서, 이들 검색어들에 대해 각 순위별로 가중치를 산술 평균한 값을 구하여 이들 평균 값을 순위에 대한 일반적인 가중치로 하여 모든 제 2 검색어 그룹에 대해 적용하는 것이다.In the second method, the web server has search terms and weights of the search terms for all registered websites. Therefore, the arithmetic average of the weights for each of the search terms is calculated, and these average values are applied to all the second search term groups with the general weights of the ranks.

첫째 방법은 해당 웹사이트에 대해 사용자들이 인식하는 가중치를 그대로 반영한 것이나, 그 웹사이트의 특수성에 따라 순위별 가중치의 편차가 심한 경우에는 그 가중치를 그대로 적용하는 것은 가중치의 왜곡을 가져올 수 있다. 둘째 방법은일반적으로 검색어들의 검색어 순위에 대해 고정적인 가중치를 적용하는 것으로 첫째 방법과는 달리 해당 웹사이트의 특수성을 반영하지 못하는 단점이 있다.The first method is to reflect the weights recognized by the users for the website as it is, but if the weight variation by rank is severe according to the uniqueness of the website, applying the weight as it is may cause a distortion of the weight. The second method generally applies fixed weights to the search term ranking of search terms. Unlike the first method, it does not reflect the specificity of the corresponding website.

셋째 방법은 첫째 방법으로 얻어지는 웹사이트 고유의 가중치와 둘째 방법으로 얻어지는 일반적으로 웹사이트들의 검색어들의 순위에 따른 가중치를 평균한 평균값을 다시 비례 평균하는 것이다. 이 때 비례 평균이라 함은 두 가중치를 더해서 2로 나눈 값으로 하거나 또는 어느 한쪽의 가중치를 좀더 존중하여 예컨대 고유 가중치에 2를 곱하여 평균 가중치와 더한 후 3으로 나누는 식으로 계산하는 것을 의미하는 것이다. 이 세 번째 방법은 해당 웹사이트의 특수성과 일반적인 검색어들의 순위를 모두 반영한 것으로 본 발명의 방법에 가장 바람직하다. 이 때 비례 평균을 위하여 어느 가중치를 존중하는 비례 계수를 적용하는가 하는 문제는 실제 검색 결과를 종합적으로 평가하여 실험적으로 확정할 수 있다.The third method is to proportionally average the average value obtained by averaging the intrinsic weight of the website obtained by the first method and the weight according to the ranking of search terms of the websites generally obtained by the second method. In this case, the proportional average means a value obtained by dividing two weights by two, or by respecting one of the weights more, for example, by multiplying the intrinsic weight by two, adding the average weight, and dividing by three. This third method reflects both the specificity of the website and the ranking of general search terms, which is most preferable for the method of the present invention. In this case, the question of which weight factor to respect for the proportional average is applied can be experimentally determined by comprehensively evaluating the actual search results.

이와 같이 세가지 방법 중에 어느 한 방법으로 제 2 검색어 그룹에 대해 가중치를 부여한 다음에, 상술한 후보 웹사이트들의 검색어들과 제 2 그룹 검색어들을 비교하여 동일한 검색어들을 추출한다. 추출된 검색어에 대해 제 2 검색어 그룹에서 부여한 가중치와 후보 웹사이트에서 부여된 가중치를 곱한 값을 구한다. 이렇게 동일한 검색어마다 가중치를 곱하고 검색어에 대해 모두 더한 값을 해당 웹사이트의 점수로 한다. 따라서, 점수가 높은 순서대로 후보 웹사이트들을 재배열함으로써 유사 웹사이트 검색의 결과로 제시한다.As described above, weighting is applied to the second search term group in any one of three methods, and then the same search terms are extracted by comparing the search terms of the candidate websites and the second group search terms. For the extracted search terms, a value obtained by multiplying the weight given by the second search term group and the weight given by the candidate website is obtained. The weights of the same search terms are multiplied, and the sum of all the search terms is the score of the corresponding website. Therefore, by rearranging candidate websites in order of high score, the results of searching similar websites are presented.

본 발명의 방법을 도 3a와 도 3b를 참조하여 설명한다. 먼저 사용자는 원하는 특정 웹사이트와 유사한 웹사이트를 검색하기를 희망하고 있다. 따라서, 사용자는 그 URL을 입력한다(10).The method of the present invention is described with reference to FIGS. 3A and 3B. First, the user wishes to search for a website similar to the specific website he wants. Thus, the user enters the URL (10).

본 발명에 웹서버는 가능한 모든 웹사이트들에 대해 온라인 북마크의 기술을 근거로 검색어들을 순위와 가중치를 포함하여 저장하고 있으므로, 그 등록되어 있는 검색어들을 제 1 검색어 그룹으로 한다(12).In the present invention, since the web server stores the search terms including the rank and the weight for all possible websites based on the description of the online bookmark, the registered search terms are the first search term group (12).

사용자는 URL과 함께 스스로 중요하다고 생각되는 임의의 검색어를 입력창에 입력하며, 이 때 그 검색어의 순위도 함께 입력한다(14).The user inputs an arbitrary search word which is considered to be important with the URL in the input window, and also inputs the ranking of the search word (14).

사용자가 입력한 검색어와 제 1 검색어 그룹을 비교하여 검색어가 중복되는 것이 있는지 판단한다(16). 중복되는 검색어가 없다면 제 1 그룹 검색어 그룹에 대해 임의의 검색어들은 사용자가 입력한 순위로 삽입되고, 그 삽입에 의해 해당 순위에 있던 검색어들은 자연히 차순위로 자리 이동을 한다(20).The search term input by the user is compared with the first search term group to determine whether there is a duplicate search term (16). If there are no duplicate search terms, arbitrary search terms for the first group search term group are inserted in the ranking input by the user, and the search terms in the corresponding ranking are naturally shifted to the next rank by the insertion.

만일 중복되는 검색어가 있다면, 동일한 검색어에 대해 이중으로 가중치를 부여하고 점수를 산출하는 것은 불합리하므로, 사용자가 입력한 검색어를 해당 순위에 삽입하고 제 1 검색어 그룹이 본래 가지고 있던 검색어는 삭제한다. 이렇게 함으로써 검색어의 중복을 회피할 수 있다(18, 20).If there is a duplicate search word, it is unreasonable to doublely weight the same search word and calculate a score. Therefore, the search word input by the user is inserted into the corresponding ranking and the search word originally owned by the first search word group is deleted. This avoids duplication of search terms (18, 20).

이런 방법으로 검색어 그룹을 형성되면 가중치가 낮아 검색 결과에 큰 영향을 미치지 않은 하위 순위 검색어들을 삭제한다. 따라서 가중치가 높은 순서에 따라 10 내지 20개 정도의 검색어로 제한한 제 2 검색어 그룹이 형성된다(22).When the search word group is formed in this way, the lower rank search terms are deleted because the weight is low and does not significantly affect the search results. Accordingly, the second search word group is limited to about 10 to 20 search terms in order of high weight (22).

이 제 2 검색어 그룹을 기준으로 웹서버에 등록된 모든 웹사이트들의 검색어를 비교하여 일치하는 검색어의 수가 많은 순서대로 후보 웹사이트를 선정한다. 후보 웹사이트는 50 내지 200개, 바람직하게는 100개 정도로 제한한다(24)Candidate websites are selected in order of the number of matching search terms by comparing the search terms of all websites registered in the web server based on the second search term group. The number of candidate websites is limited to 50 to 200, preferably 100 (24).

제 2 검색어 그룹은 검색어의 그 순위만 가지고 있고 가중치는 없으나 상술한 세 가지 방법 중에서 어느 한 방법으로 제 2 검색어들에 대해 가중치를 부여한다(26).The second search term group has the ranking of the search term only and has no weight, but weights the second search terms in any one of the three methods described above (26).

가중치가 부여되면 제 2 검색어 그룹과 후보 웹사이트들의 검색어를 비교하여 동일한 검색어들을 찾아낸다(28).When weighted, the search terms of the second search term group and the candidate websites are compared to find the same search terms (28).

동일한 검색어에 대해 제 2 검색어 그룹이 가지고 있는 가중치와 후보 웹사이트가 가지고 있는 가중치를 곱한 값을 구한다. 얻어진 검색어에 대해 이와 같이 양쪽의 가중치를 곱한 값을 모두 더한 값을 그 웹사이트의 점수로 한다(30).For the same search word, a value obtained by multiplying the weight of the second search word group by the weight of the candidate website is obtained. The value obtained by adding up the values obtained by multiplying the weights of both of the search terms thus obtained is the score of the website (30).

따라서, 후보 웹사이트들을 점수가 높은 순서대로 재배열함으로써 본 발명의 방법에 따른 유사 웹사이트의 결과로서 제시된다.Thus, the candidate websites are presented as a result of similar websites in accordance with the method of the present invention by rearranging them in order of high score.

본 발명의 검색 방법을 예를 들어 설명하기로 한다.The search method of the present invention will be described by way of example.

먼저, 사용자가 "www.microsoft.com"과 유사한 웹사이트를 검색하기를 원하는 경우에, 사용자는 본 발명의 웹사이트에 접속해서 URL 입력창에 "www.microsoft.com"을 입력하고, 사용자 스스로 임의의 검색어로서 리눅스(순위 1), 공룡(순위 4), OS(순위 7), 대통령(순위 9)을 입력하고 검색을 실행하였다고 가정하자. 따라서 웹서버에 등록된 제 1 검색어 그룹과 여기에 사용자가 입력한 임의의 검색어를 추가한 새로운 검색어 그룹은 다음과 같다.First, if the user wants to search a website similar to "www.microsoft.com", the user accesses the website of the present invention, enters "www.microsoft.com" in the URL input box, and the user himself Suppose you entered Linux (Rank 1), Dinosaur (Rank 4), OS (Rank 7), and President (Rank 9) as an arbitrary search term and ran the search. Accordingly, the first search term group registered in the web server and the new search term group added with the arbitrary term entered by the user are as follows.

제 1 검색어 그룹: ① 윈도즈(2.2), ② 빌게이츠(2.1), ③ OS(1.9), ④ 소프트웨어(1.8), ⑤ 소송(1.1), ⑥ 독점((0.9), ⑦ 리눅스(0.8), ⑧ 벤처(0.7), ⑨ 아이콘(0.6), ⑩ 미국(0.5), ⑪ 생각속도(0.4), ⑫ 부자(0.3), ⑬ 공룡(0.2), ⑭꿈(0.1).........The first group of keywords: ① Windows (2.2), ② Bill Gates (2.1), ③ OS (1.9), ④ Software (1.8), ⑤ Litigation (1.1), ⑥ Monopoly ((0.9), ⑦ Linux (0.8), ⑧ Venture (0.7), ⑨ Icon (0.6), ⑩ United States (0.5), ⑪ Thought Speed (0.4), ⑫ Rich (0.3), ⑬ Dinosaur (0.2), Dream (0.1) .........

새로운 검색어 그룹:① 리눅스(2.2), ② 윈도즈(2.1), ③ 빌게이츠(1.9),④ 공룡(1.8), ⑤ 소프트웨어(1.1), ⑥ 소송((0.9),⑦ OS(0.8), ⑧ 독점(0.7),⑨ 대통령(0.6), ⑩ 벤처(0.5), ⑪ 아이콘(0.4), ⑫ 미국(0.3), ⑬ 생각속도(0.2), ⑭ 부자(0.1) ⑮ 꿈(0.09)..........New query groups: ① Linux (2.2) , ② Windows (2.1), ③ Bill Gates (1.9), ④ Dinosaur (1.8) , ⑤ Software (1.1), ⑥ Litigation ((0.9), ⑦ OS (0.8) , ⑧ Exclusive (0.7), ⑨ President (0.6), ⑩ Venture (0.5), ⑪ Icon (0.4), ⑫ United States (0.3), ⑬ Thought Speed (0.2), ⑭ Rich (0.1) ⑮ Dream (0.09) ..... .....

여기서 보는 바와 같이 사용자가 입력한 임의의 검색어는 입력한 순위로 삽입되고 그 순위에 있던 검색어는 차순위로 이동한다. 사용자가 입력한 검색어가 제 1 검색어 그룹에 존재하는 경우(리눅스, 공룡, OS)에는 그들 단어가 해당 순위로 이동하고, 존재하지 않는 경우(대통령)에는 입력한 순위(9)로 그대로 삽입된다. 이와 같이 검색어들이 자리 이동 또는 삽입되는 경우에도 제 1 검색어 그룹에 등록되어 있는 가중치는 전혀 이동하지 아니하고, 그 순위에 고정되어 있다(첫번째 가중치 설정 방법을 적용).As shown here, any search word entered by the user is inserted into the entered ranking and the search word in the ranking moves to the next rank. If the search word entered by the user exists in the first search word group (Linux, dinosaur, OS), the word is moved to the corresponding rank, and if the search word entered by the user does not exist (President), the word is inserted as the entered rank 9 as it is. In this way, even when the search terms are moved or inserted, the weights registered in the first search term group are not moved at all and are fixed to the ranking (the first weight setting method is applied).

형성된 새로운 검색어 그룹은 그 수가 많으므로, 이를 일정 수로 제한한다. 예컨대 검색어를 10개로 제한하였다면, 제 2 그룹 검색어 그룹은 다음과 같다.Since the number of new search word groups formed is large, it is limited to a certain number. For example, if the search terms are limited to ten, the second group search term group is as follows.

제 2 검색어 그룹: ① 리눅스, ② 윈도즈, ③ 빌게이츠, ④ 공룡, ⑤ 소프트웨어, ⑥ 소송, ⑦ OS, ⑧ 독점, ⑨ 대통령, ⑩ 벤처Second query group: ① Linux, ② Windows, ③ Bill Gates, ④ Dinosaur, ⑤ Software, ⑥ Litigation, ⑦ OS, ⑧ Monopoly, ⑨ President, ⑩ Venture

10개의 검색어로 제한된 제 2 검색어 그룹으로 이들 검색어와 일치하는 검색어를 많이 가지고 있는 후보 웹사이트를 검색하여, 일치하는 검색어의 수가 많은 순서대로 후보 웹사이트를 일정 수, 예컨대 100개를 선정한다.A candidate website having a large number of search terms matching the search terms is searched with a second search term group limited to 10 search terms, and a predetermined number of candidate websites is selected, for example, 100 in order of increasing number of matching search terms.

후보 웹사이트 100개가 다음과 같이 검색되었다고 가정하자.Suppose 100 candidate websites were retrieved as follows.

(1) www.xxx.com: ① 리눅스(2.4), ② 전자화폐(1.9), ③ OS(1.1), ④ 스크린(1), ⑤ 다운로드(0.9), ⑥ 독점(0.8), ⑦ 쇼핑몰(0.7), ⑧ 도스(0.6), ⑨ 쇼핑카드(0.5), ⑩ 신용카드(0.4), ⑪ 소프트웨어(0.3), ⑫ 벤처(0.2), ⑬ 윈도즈(0.1), ⑭ 꽃(0.09), ⑮ 생일(0.08)....(1) www.xxx.com: ① Linux (2.4), ② Electronic Money (1.9), ③ OS (1.1), ④ Screen (1), ⑤ Download (0.9), ⑥ Monopoly (0.8), ⑦ Shopping Mall (0.7 ), ⑧ DOS (0.6), ⑨ shopping card (0.5), ⑩ credit card (0.4), ⑪ software (0.3), ⑫ venture (0.2), ⑬ Windows (0.1), ⑭ flower (0.09), ⑮ birthday (0.08) ) ....

(2) www.yyy.com: ① 생각속도(3.1), ② 그림(2.1), ③ 윈도즈(1.9), ④ 택배(1.1), ⑤ 리눅스(0.9), ⑥ 빌게이츠(0.8), ⑦ 엽서(0.7), ⑧ 소송(0.5), ⑨ 경매(0.4), ⑩ 역경매(0.3), ⑪ 고문서(0.2), ⑫ 경품(0.1), ⑬ 신문(0.1), ⑭ 잡지(0.1)......(2) www.yyy.com: ① Thought speed (3.1), ② Pictures (2.1), ③ Windows (1.9), ④ Courier (1.1), ⑤ Linux (0.9), ⑥ Bill Gates (0.8), ⑦ Postcard ( 0.7), ⑧ lawsuits (0.5), ⑨ auctions (0.4), ⑩ reverse auctions (0.3), ⑪ ancient documents (0.2), ⑫ giveaways (0.1), ⑬ newspapers (0.1), ⑭ magazines (0.1) ...

(3) www.zzz.com: ① 리눅스(4.2), ② 빌게이츠(2.1), ③ 윈도즈(1.9), ④ 페인트샵(0.9), ⑤ 포토샵(0.8), ⑥ 다운로드(0.7), ⑦ 신용카드(0.7), ⑧ 업그레이드(0.6), ⑨ 쉐어웨어(0.5), ⑩ 프리웨어(0.5), ⑪ 업로드(0.4), ⑫ 게임(0.4), ⑬ 스타크래프트(0.3), ⑭ 삼국지(0.3)........(3) www.zzz.com: ① Linux (4.2), ② Bill Gates (2.1), ③ Windows (1.9), ④ Paint Shop (0.9), ⑤ Photoshop (0.8), ⑥ Download (0.7), ⑦ Credit Card (0.7), ⑧ Upgrade (0.6), ⑨ Shareware (0.5), ⑩ Freeware (0.5), ⑪ Upload (0.4), ⑫ Game (0.4), ⑬ StarCraft (0.3), ⑭ Three Kingdoms (0.3) ... .....

(4) www.....(4) www .....

..................................

(100) www.....100 www .....

여기서, 제 2 검색어 그룹에 대해 가중치를 부여한다. 그 가중치는 상술한 첫 번째 "www.microsoft.com"의 순위별 고유 가중치를 그대로 적용한다(첫번째 해당 웹사이트의 순위별 고유 가중치를 그대로 적용).Here, a weight is assigned to the second search term group. The weight is applied to the rank-specific intrinsic weight of the first "www.microsoft.com" described above (the same as the rank-specific weight of the first corresponding website).

이 때 유사도를 평가하는 방법으로 첫 번째 www.xxx.com의 검색어들[① 리눅스(2.4), ② 전자화폐(1.9), ③ OS(1.1), ④ 스크린(1), ⑤ 다운로드(0.9), ⑥ 독점(0.8), ⑦ 쇼핑몰(0.7), ⑧ 도스(0.6), ⑨ 쇼핑카드(0.5), ⑩ 신용카드(0.4), ⑪ 소프트웨어(0.3), ⑫ 벤처(0.2), ⑬ 윈도즈(0.1), ⑭ 꽃(0.09), ⑮ 생일(0.08)....]과 상기 제 2 검색어 그룹[① 리눅스(2.2), ② 윈도즈(2.1), ③ 빌게이츠(1.9), ④ 공룡(1.8), ⑤ 소프트웨어(1.1), ⑥ 소송((0.9), ⑦ OS(0.8), ⑧ 독점(0.7), ⑨ 대통령(0.6), ⑩ 벤처(0.5)]을 비교하여 공통된 검색어를 찾는다. 여기서는 리눅스, OS, 독점, 소프트웨어, 벤처, 윈도즈의 6개 검색어가 일치하였다. 이와 같이 공통된 검색어를 분리한 후에 이들 검색어에 대해 제 2 검색어 그룹에서 부여된 가중치와 www.xxx.com의 등록된 가중치를 곱한 후에, 검색어 마다 그 곱한 값을 합하여 합계를 구한 것을 www.xxx.com의 점수로 한다. 따라서, www.xxx.com의 점수의 계산은 다음과 같다.As a way of evaluating the similarity, the first search terms of www.xxx.com [① Linux (2.4), ② Electronic money (1.9), ③ OS (1.1), ④ Screen (1), ⑤ Download (0.9), ⑥ Exclusive (0.8), ⑦ Shopping Mall (0.7), ⑧ Dos (0.6), ⑨ Shopping Card (0.5), ⑩ Credit Card (0.4), ⑪ Software (0.3), ⑫ Venture (0.2), ⑬ Windows (0.1), ⑭ Flowers (0.09), ⑮ Birthdays (0.08) ....] and the second search term group [① Linux (2.2), ② Windows (2.1), ③ Bill Gates (1.9), ④ Dinosaur (1.8), ⑤ Software (1.1), ⑥ Litigation ((0.9), ⑦ OS (0.8), ⑧ Monopoly (0.7), ⑨ President (0.6), and ⑩ Venture (0.5)] to find common search terms: Linux, OS, Monopoly, The six search terms of software, venture, and Windows matched, and after separating the common search terms, multiplying the weights given in the second group of search terms and the registered weights of www.xxx.com for these terms, Sum of multiplied values The system calculates the score of www.xxx.com and calculates the score of www.xxx.com as follows.

(1) www.xxx.com: 리눅스(2.4 ×2.2) + OS(1.1 ×0.8) + 독점(0.8 ×0.7) + 소프트웨어(0.3 ×1.1) + 벤처(0.2 ×0.5) + 윈도즈(0.1 ×1.1) = 7.26(1) www.xxx.com: Linux (2.4 × 2.2) + OS (1.1 × 0.8) + Proprietary (0.8 × 0.7) + Software (0.3 × 1.1) + Venture (0.2 × 0.5) + Windows (0.1 × 1.1) = 7.26

또한 두 번째 www.yyy.com은 제 2 검색어 그룹과 윈도즈, 리눅스, 빌게이츠 및 소송의 4개 검색어가 일치하였다. 따라서, 이 웹사이트의 점수는 다음과 같다.The second www.yyy.com also matched the second term group with four terms: Windows, Linux, Bill Gates, and Litigation. Therefore, the score of this website is as follows.

(2) www.yyy.com: 윈도즈(1.9 ×2.2) + 리눅스(0.9 ×2.2) + 빌게이츠(0.8 ×1.9) + 소송(0.5 ×0.9) = 8.13(2) www.yyy.com: Windows (1.9 × 2.2) + Linux (0.9 × 2.2) + Bill Gates (0.8 × 1.9) + Litigation (0.5 × 0.9) = 8.13

www.zzz.com은 제 2 검색어 그룹과 리눅스, 빌게이츠 및 윈도즈의 3개 검색어가 일치하였다. 따라서, 이 웹사이트의 점수는 다음과 같다.www.zzz.com matched the second query group with three queries: Linux, Bill Gates, and Windows. Therefore, the score of this website is as follows.

(3) www.zzz.com: 리눅스(4.2 ×2.4) + 빌게이츠(2.1 ×1.9) + 윈도즈(1.9×0.1) = 14.26(3) www.zzz.com: Linux (4.2 × 2.4) + Bill Gates (2.1 × 1.9) + Windows (1.9 × 0.1) = 14.26

이와 같이 후보 웹사이트들에 대해 같은 방법으로 일치된 검색어를 분리하여 당해 웹사이트의 가중치와 제 2 검색어 그룹에서 부여된 가중치를 곱한 후에 이를 합계한 점수를 구한 결과, 최고 점수로부터 순위가 14.26, 8.13, 7.26.......이었다면, 이 검색의 결과 목록은 다음과 같이 표시된다.In this way, the matched search terms for the candidate websites were separated, multiplied by the weight of the website and the weight given by the second query group, and the total score was calculated. As a result, the rank was 14.26, 8.13. , 7.26 ......., the result list of this search would be:

(1) www.zzz.com(1) www.zzz.com

(2) www.yyy.com(2) www.yyy.com

(3) www.xxx.com(3) www.xxx.com

..................

이 목록이 검색의 결과로서 검색을 실행한 사용자에게 제시된다.This list is presented to the user who performed the search as a result of the search.

앞에서 첫 번째 웹사이트의 순위별 고유 가중치를 제 2 그룹 검색어에 그대로 적용하는 방법으로 유사 웹사이트를 검색하였으나, 만일 상술한 두 번째 방법을 선택한다면, 그 가중치는 어떠한 검색에서도 동일하게 검색어들의 순위별 고정 가중치, 예컨대 제 1 검색어는 3.2, 제 2 검색어는 2.8, 제 3 검색어는 1.9, 제 4 검색어는 1.1.....와 같은 가중치를 갖는다. 이러한 가중치가 부여된 검색어를 사용하여 후보 웹사이트들의 점수를 산출한다면 후보 웹사이트들의 검색 결과는 첫 번째 가중치를 사용한 결과와 달라질 수 있다.Previously, similar websites were searched by applying the unique weight of each ranking of the first website to the second group query as it is. However, if the second method described above is selected, the weight is the same according to the ranking of the search terms in any search. The fixed weight, for example, has a weight such as 3.2 for the first search word, 2.8 for the second search word, 1.9 for the third search word, and 1.1 ..... for the fourth search word. If the weighted search terms are used to calculate the scores of the candidate websites, the search results of the candidate websites may be different from the results using the first weight.

또한 세 번째 가중치 부여 방법을 제 2 그룹 검색어에 대해 적용하되 단순히 양쪽 가중치를 더하여 2로 나눈 값을 부여한다면, 제 1 검색어에는 (3.2+2.2)/2=2.7, 제 2 검색어에는 (2.8+2.1)/2=2.45, 제 3 검색어에는(1.9+1.9)/2=1.9, 제 4 검색어에는 (1.1+1.8)/2=1.45....와 같은 가중치가 부여된다. 이렇게 부여된 가중치를 사용하여 후보 웹사이트의 점수를 계산하면 또 다른 결과를 출력하게 된다.In addition, if the third weighting method is applied to the second group query but is simply divided by 2 by adding both weights, the first search term is (3.2 + 2.2) /2=2.7, and the second search term is (2.8 + 2.1). ) /2=2.45, the third search term is weighted as (1.9 + 1.9) /2=1.9, and the fourth search term is (1.1 + 1.8) /2=1.45 .... When the score of the candidate website is calculated using the weights thus assigned, another result is output.

본 발명의 방법에서, 웹사이트의 등록은 온라인 북마크를 이용하는 이용자들의 이용상태를 추적하여 데이터베이스를 추가 및 갱신하는 방법을 사용하며, 필요한 경우에 본 발명의 웹서버 운영자에 의해 전문가 집단을 이용해 등록을 할 수 있다.In the method of the present invention, the registration of the website uses a method of adding and updating a database by tracking the usage status of users who use the online bookmark, and if necessary, by using the expert group by the web server operator of the present invention. can do.

또한, 등록된 웹사이트의 가중치를 정하는 방법으로 온라인 북마크의 사용자 설명을 기초로 이를 누적하여 백분율을 구하였으나, 온라인 북마크 이외에 본 발명에 따른 검색 방법을 이용하여 검색을 실행하는 사용자들이 URL을 입력하고 그것에 대해 추가로 입력하는 임의의 검색어를 입력으로 하여 가중치에 반영하는 것이 바람직하다. 이렇게 계속해서 등록된 검색어들의 가중치를 사용자들의 사용 상황에 비추어 갱신함으로써 더욱 정확한 검색 결과를 얻을 수 있는 것이다.In addition, as a method of determining the weight of the registered website, the percentage is calculated by accumulating the user's description of the online bookmark. However, in addition to the online bookmark, users executing a search using the search method according to the present invention input a URL. It is preferable that any search word additionally inputted thereon is used as an input and reflected in the weight. By continuously updating the weights of the registered search terms in accordance with the user's usage situation, more accurate search results can be obtained.

본 발명에 따른 유사 웹사이트 검색방법은 사용자가 원하는 웹사이트와 가장 유사한 웹사이트를 검색하여 그 목록을 제시한다. 본 발명은 웹을 이용하는 사용자들의 검색어에 대한 평가를 반영한 가중치 및 검색자 자신이 입력한 검색어를 조합하여 적용함으로써 사용자가 원하는 유사 웹사이트를 효과적으로 검색하여 결과를 출력할 수 있다. 또한, 계속해서 등록된 웹사이트의 검색어 가중치를 웹 사용자들의 사용 형태를 반영하여 갱신함으로써 본 발명의 방법에 따른 검색 결과의 질이향상될 수 있는 것이다.The method for searching a similar website according to the present invention searches a website most similar to the website desired by the user and presents the list. The present invention can effectively search for similar websites desired by a user by outputting a result by applying a combination of weights reflecting an evaluation of a search word of users using the web and a search word input by the searcher. In addition, the quality of the search result according to the method of the present invention can be improved by continuously updating the search word weights of the registered websites to reflect the usage forms of the web users.

이상에서 바람직한 실시예에 의거하여 본 발명을 상세히 설명하였으나, 본 발명의 사상과 첨부된 특허청구범위 내에서 이 분야의 전문가에게 자명한 치환, 병경 또는 변형은 본 발명의 범위에 속하는 것으로 이해되어야 한다.Although the present invention has been described in detail above based on the preferred embodiments, it should be understood that substitutions, conditions or modifications apparent to those skilled in the art within the spirit of the present invention and the appended claims fall within the scope of the present invention. .

Claims (9)

인터넷에 연결된 웹서버에 구축된 웹사이트에서 유사 웹사이트를 검색하는 방법에 있어서,In a method for searching a similar website from a website built on a web server connected to the Internet, 등록된 웹사이트의 URL 및 그 웹사이트를 대표하는 복수개의 검색어를 저장하는 단계와;Storing a URL of a registered website and a plurality of search terms representing the website; 사용자가 홈페이지의 URL을 입력하는 단계와;A user inputting a URL of a homepage; 사용자가 임의의 검색어를 입력하는 단계와;A user inputting an arbitrary search term; 상기 사용자가 입력한 URL의 제 1 검색어 그룹에 대해 상기 사용자가 입력한 임의의 검색어를 추가하고, 검색어를 일정 개수로 제한한 제 2 검색어 그룹을 형성하는 단계와;Adding a second search term input by the user to a first search term group of the URL input by the user, and forming a second search term group in which the search term is limited to a predetermined number; 상기 제 2 검색어 그룹과 상기 웹서버에 등록된 웹사이트들의 등록된 검색어들을 비교하여, 일치하는 검색어의 개수가 많은 순서대로 일정 수의 검색 후보의 웹사이트를 선정하는 단계와;Comparing the search terms of the websites registered in the web server with the second search term group, and selecting a predetermined number of search candidate websites in ascending order of search terms; 상기 선정된 검색 후보의 웹사이트와의 등록된 검색어들과 상기 제 2 검색어 그룹을 비교하여, 사용자들의 이용도를 기준으로 유사도가 높은 순서대로 정렬한 상기 웹사이트들의 목록을 검색 결과로 제시하는 단계를 포함하는 방법.Comparing the search terms registered with the websites of the selected search candidates with the second search term group, and presenting a list of the websites sorted in order of high similarity based on the usage of users as a search result; How to include. 제 1 항에 있어서, 상기 등록된 웹사이트의 검색어마다 가중치를 부여하고, 그 검색어의 선정과 가중치는 그 웹사이트를 이용하는 사용자들의 이용도를 평가하여 결정하는 것을 특징으로 하는 방법.The method of claim 1, wherein a weight is assigned to each search term of the registered website, and the selection and weight of the search term are determined by evaluating the utilization of users who use the website. 제 2 항에 있어서, 상기 사용자들의 이용도는, 상기 등록된 웹사이트에 대한 사용자들의 온라인 북마크의 설명을 기준으로 결정되는 것을 특징으로 하는 방법.3. The method of claim 2, wherein the utilization of the users is determined based on a description of the user's online bookmarks for the registered website. 제 2 항에 있어서, 상기 사용자는 임의의 검색어를 원하는 순위를 부여하여 입력하고, 임의의 검색어들은 부여된 순위로 제 1 검색어 그룹에 추가되고, 상기 추가에 의해 제 1 검색어 그룹의 검색어들은 차순위로 순위 변동하며, 추가된 임의의 검색어가 제 1 검색어 그룹에 이미 존재하는 경우에는 동일 검색어의 중복을 피하도록 상기 제 1 검색어 그룹에 이미 존재하던 검색어가 삭제되는 것을 특징으로 하는 방법.The method of claim 2, wherein the user inputs an arbitrary search term by assigning a desired rank, and the arbitrary search terms are added to the first search term group in the given rank, and by the addition, the search terms of the first search term group are ranked next. Ranking fluctuation, when the added random search word already exists in the first search word group, the search word that already exists in the first search word group is deleted to avoid duplication of the same search word. 제 4 항에 있어서, 상기 제 2 검색어 그룹의 각 검색어들에 대한 가중치는, 상기 등록된 검색어들의 일반적인 각 순위별 평균 가중치를 부여하는 것을 특징으로 하는 방법.The method of claim 4, wherein the weight for each of the search terms of the second search term group is given an average weight for each rank of the registered search terms. 제 4 항에 있어서, 상기 제 2 검색어 그룹의 각 검색어들에 대한 가중치는, 제 1 검색어 그룹에 부여된 순위별 고유의 가중치를 그대로 유지하는 것을 특징으로 하는 방법.The method of claim 4, wherein the weight of each of the search terms of the second search term group maintains a weight unique to each ranking given to the first search term group. 제 4 항에 있어서, 상기 제 2 검색어 그룹의 각 검색어들에 대한 가중치는, 상기 등록된 검색어들의 일반적인 각 순위별 평균 가중치와 제 1 검색어 그룹에 부여된 순위별 고유의 가중치를 비례 평균한 값을 가중치로 부여하는 것을 특징으로 하는 방법.The method of claim 4, wherein the weight of each of the search terms of the second search term group is a value obtained by proportionally averaging average weights of the rankings of the registered search terms and inherent weights of the ranks assigned to the first search term group. Characterized in that the weighting. 제 5 항 내지 제 7 항중 어느 한 항에 있어서, 상기 사용자들의 이용도를 기준으로 하는 유사도의 평가는, 상기 제 2 검색어 그룹과 상기 후보 웹사이트들의 등록된 검색어를 비교하여 동일한 검색어를 추출하고, 추출된 검색어마다 해당 검색어에 대해 상기 제 2 검색어 그룹에서 부여된 가중치와 상기 후보 웹사이트의 등록된 검색어에 부여된 가중치를 곱한 값을 구하고, 추출된 검색어마다 상기 곱한 값을 얻어서, 이들 곱한 값을 모두 합한 합계를 해당 후보 웹사이트의 점수로 하고, 그 점수가 높은 순서대로 후보 웹사이트를 배열하여 목록을 작성하는 것을 특징으로 하는 방법.The method of claim 5, wherein the evaluation of the similarity based on the usage of the users comprises: comparing the second search term group with registered search terms of the candidate websites, and extracting the same search term; For each extracted search term, a value obtained by multiplying a weight given by the second search term group with a weight given to a registered search term of the candidate website is obtained for the search term, and obtaining the multiplied value for each extracted search term, and multiplying these multiplied values Wherein the sum of all the sums is the score of the candidate website, and the candidate websites are arranged in order of high score. 제 2 항에 있어서, 상기 등록된 웹사이트에 대한 등록된 검색어와 가중치에 대해 상기 검색을 실행하는 사용자들이 입력한 임의의 검색어와 가중치를 피드백하여 상기 등록된 검색어와 가중치를 변경하는 것을 특징으로 하는 방법.The method of claim 2, wherein the registered search terms and weights are changed by feeding back any search terms and weights inputted by users executing the search with respect to the registered search terms and weights of the registered website. Way.
KR1020000015595A 2000-03-27 2000-03-27 Method for Searching Similar Websites KR20010092922A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000015595A KR20010092922A (en) 2000-03-27 2000-03-27 Method for Searching Similar Websites

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000015595A KR20010092922A (en) 2000-03-27 2000-03-27 Method for Searching Similar Websites

Publications (1)

Publication Number Publication Date
KR20010092922A true KR20010092922A (en) 2001-10-27

Family

ID=19658966

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000015595A KR20010092922A (en) 2000-03-27 2000-03-27 Method for Searching Similar Websites

Country Status (1)

Country Link
KR (1) KR20010092922A (en)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030082109A (en) * 2002-04-16 2003-10-22 (주)메타웨이브 Method and System for Providing Information and Retrieving Index Word using AND Operator
KR20030082110A (en) * 2002-04-16 2003-10-22 (주)메타웨이브 Method and System for Providing Information and Retrieving Index Word using AND Operator and Relationship in a Document
WO2004055618A2 (en) * 2002-12-14 2004-07-01 Nhn Corporation System and method for generating a search result list
KR100490442B1 (en) * 2002-03-16 2005-05-17 삼성에스디에스 주식회사 Apparatus for clustering same and similar product using vector space model and method thereof
KR100509276B1 (en) * 2001-08-20 2005-08-22 엔에이치엔(주) Method for searching web page on popularity of visiting web pages and apparatus thereof
WO2007052883A1 (en) * 2005-11-02 2007-05-10 Jeong-Jin Kim Method for searching patent document by applying degree of similarity and system thereof
KR100884889B1 (en) * 2007-03-26 2009-02-23 엔에이치엔(주) Method and system for adding automatic indexing word to search database
KR100926879B1 (en) * 2008-01-29 2009-11-16 엔에이치엔(주) Method and system for providing an inflow query and method and system for identifying the inflow query
KR100929925B1 (en) * 2009-07-16 2009-12-04 주식회사 네오패드 System and method for providing total homepage service
KR100945570B1 (en) * 2009-07-15 2010-03-08 주식회사 네오패드 System and method for providing registration, management and search service of homepage
WO2010062791A3 (en) * 2008-11-26 2010-08-26 Microsoft Corporation Providing suggested sites associated with target sites
WO2011007935A1 (en) * 2009-07-15 2011-01-20 주식회사 네오패드 System and method for providing a consolidated service for a homepage
KR101041545B1 (en) * 2010-07-21 2011-06-17 김수현 Automatic display system and method of comparison site
KR101347884B1 (en) * 2010-11-19 2014-01-07 네이버 주식회사 Method and system for providing relevance site using chracteristic word of site
CN111966948A (en) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 Information delivery method, device, equipment and storage medium

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100509276B1 (en) * 2001-08-20 2005-08-22 엔에이치엔(주) Method for searching web page on popularity of visiting web pages and apparatus thereof
KR100490442B1 (en) * 2002-03-16 2005-05-17 삼성에스디에스 주식회사 Apparatus for clustering same and similar product using vector space model and method thereof
KR20030082110A (en) * 2002-04-16 2003-10-22 (주)메타웨이브 Method and System for Providing Information and Retrieving Index Word using AND Operator and Relationship in a Document
KR20030082109A (en) * 2002-04-16 2003-10-22 (주)메타웨이브 Method and System for Providing Information and Retrieving Index Word using AND Operator
WO2004055618A2 (en) * 2002-12-14 2004-07-01 Nhn Corporation System and method for generating a search result list
WO2004055618A3 (en) * 2002-12-14 2004-12-02 Nhn Corp System and method for generating a search result list
US7571155B2 (en) 2002-12-14 2009-08-04 Nhn Corporation System and method for generating a search result list
WO2007052883A1 (en) * 2005-11-02 2007-05-10 Jeong-Jin Kim Method for searching patent document by applying degree of similarity and system thereof
KR100884889B1 (en) * 2007-03-26 2009-02-23 엔에이치엔(주) Method and system for adding automatic indexing word to search database
KR100926879B1 (en) * 2008-01-29 2009-11-16 엔에이치엔(주) Method and system for providing an inflow query and method and system for identifying the inflow query
WO2010062791A3 (en) * 2008-11-26 2010-08-26 Microsoft Corporation Providing suggested sites associated with target sites
US8244740B2 (en) 2008-11-26 2012-08-14 Microsoft Corporation Providing suggested sites associated with target sites
CN102105875A (en) * 2009-07-15 2011-06-22 呢哦派豆株式会社 System and method for providing a consolidated service for a homepage
WO2011007935A1 (en) * 2009-07-15 2011-01-20 주식회사 네오패드 System and method for providing a consolidated service for a homepage
KR100945570B1 (en) * 2009-07-15 2010-03-08 주식회사 네오패드 System and method for providing registration, management and search service of homepage
CN102105875B (en) * 2009-07-15 2013-05-01 呢哦派豆株式会社 System and method for providing a consolidated service for a homepage
US8892537B2 (en) 2009-07-15 2014-11-18 Neopad Inc. System and method for providing total homepage service
KR100929925B1 (en) * 2009-07-16 2009-12-04 주식회사 네오패드 System and method for providing total homepage service
KR101041545B1 (en) * 2010-07-21 2011-06-17 김수현 Automatic display system and method of comparison site
KR101347884B1 (en) * 2010-11-19 2014-01-07 네이버 주식회사 Method and system for providing relevance site using chracteristic word of site
CN111966948A (en) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 Information delivery method, device, equipment and storage medium
CN111966948B (en) * 2020-09-25 2023-08-01 北京百度网讯科技有限公司 Information delivery method, device, equipment and storage medium

Similar Documents

Publication Publication Date Title
US8543584B2 (en) Detection of behavior-based associations between search strings and items
US9323848B2 (en) Search system using search subdomain and hints to subdomains in search query statements and sponsored results on a subdomain-by-subdomain basis
US9940398B1 (en) Customization of search results for search queries received from third party sites
JP5540080B2 (en) Method for generating search results and system for information retrieval
US7814099B2 (en) Method for ranking and sorting electronic documents in a search result list based on relevance
US9846744B2 (en) Media discovery and playlist generation
US7996398B2 (en) Identifying related search terms based on search behaviors of users
US6772150B1 (en) Search query refinement using related search phrases
US8583633B2 (en) Using reputation measures to improve search relevance
US8572074B2 (en) Identifying task groups for organizing search results
US7765209B1 (en) Indexing and retrieval of blogs
KR20030003739A (en) Method and apparatus for identifying related searches in a database search system
KR20010092922A (en) Method for Searching Similar Websites
KR20070038146A (en) Personalization of placed content ordering in search results
WO2012071169A2 (en) Efficient forward ranking in a search engine
WO2008106667A1 (en) Searching heterogeneous interrelated entities
Murata Finding Related Web Pages Based on Connectivity Information from a Search Engine.
Ohgaya et al. Conceptual fuzzy sets-based navigation system for Yahoo!
Chang et al. Internet search by active feedback
Stojanovski Search engines in-depth

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application