KR101448134B1 - an blog prestige ranking method based on weighted indexing of terms - Google Patents
an blog prestige ranking method based on weighted indexing of terms Download PDFInfo
- Publication number
- KR101448134B1 KR101448134B1 KR1020100076558A KR20100076558A KR101448134B1 KR 101448134 B1 KR101448134 B1 KR 101448134B1 KR 1020100076558 A KR1020100076558 A KR 1020100076558A KR 20100076558 A KR20100076558 A KR 20100076558A KR 101448134 B1 KR101448134 B1 KR 101448134B1
- Authority
- KR
- South Korea
- Prior art keywords
- blog
- ranking
- term
- score
- post
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 인터넷에서 블로그 포스트의 구조적 특성을 이용하여 용어 가중화 색인을 통해 블로그 검색 시스템의 검색 결과 품질을 더욱 더 향상시키기 위한 용어 가중화 색인 기반의 블로그 권위 랭킹 방법에 관한 것이다. 본 발명은 블로그 포스트 랭킹에서 블로그의 구조적 특성을 이용하여 중요 용어에 대한 가중치를 부여함으로써, 블로그 포스트 랭킹과 용어와의 적합성을 높여 블로그 검색 결과의 품질을 향상시키는 것이다. 블로그 포스트를 랭킹 판단 할 때, 블로그 포스트 전체의 권위 점수가 아닌, 해당 블로그 포스트와 각 용어와의 관련성을 반영한 각각의 용어 점수를 블로그 검색 시스템 데이터베이스에 색인을 한다. 검색 결과에 반영되는 최종 랭킹 점수는 사용자가 입력한 검색어와 관련도가 높은 블로그 중에서 최신성까지 고려된 포스트들의 결과 목록을 데이터베이스에서 가져와 사용자에게 제공할 수 있다. 블로그 포스트 자체는 유명하고 권위가 높지만 정작 사용자가 원하는 정보에 부합되지 않는 결과들이 검색 결과 상위에 랭크되는 문제점을 피하면서, 검색 결과의 높은 적합성을 기대할 수 있다. The present invention relates to a term weighted index-based blog authority ranking method for further improving the quality of search results in a blog search system using term weighted indexes using structural characteristics of blog posts on the Internet. The present invention improves the quality of the blog search result by increasing the fitness of the blog post ranking and terminology by giving weight to important terms using the structural characteristics of the blog in the blog post ranking. When judging the rank of a blog post, the score of each term reflecting the relevance of the blog post to each term is indexed to the blog search system database, not the authority score of the blog post as a whole. The final ranking score reflected in the search result can be retrieved from the database and provided to the user, with a result list of posts considered up to date among the blogs having a high degree of relevance to the search word input by the user. The blog post itself can be expected to have high relevance of the search results while avoiding the problem that the results that are famous and authoritative but do not match the information desired by the user are ranked at the top of the search results.
Description
본 발명은 용어 가중화 색인 기반의 블로그 권위 랭킹 방법에 관한 것으로 특히 인터넷에서 블로그 포스트의 구조적 특성을 이용하여 용어 가중화 색인을 통해 블로그 검색 시스템의 검색 결과 품질을 더욱 더 향상시키기 위한 용어 가중화 색인 기반의 블로그 권위 랭킹 방법에 관한 것이다. The present invention relates to a blog authority ranking method based on a term weighted index, and more particularly to a term weighted index for further improving a search result quality of a blog search system through a term weighted index using structural characteristics of a blog post on the Internet Based blog authority ranking method.
일반적으로, 블로그는 인터넷에서 개인의 생각이나 관심사에 관한 정보를 일지 형태로 기록해 두는 웹사이트이며 이를 통해 타인과 의견과 정보를 나눌 수 있다. 블로그를 통해 전 세계 사람들의 관심과 생각들을 엿볼 수도 있고, 기업의 제품이나 서비스에 대한 그들의 반응도 살펴 볼 수 있다. 또한 인기 있는 블로그는 하루에도 수십만 명이 방문하여 새로 올라온 블로그 포스트를 보기 때문에, 그 파급력은 기존의 미디어 못지않게 엄청나다. 또한 트위터와 같은 실시간 사회 네트워크 서비스(Social Network Service) 덕분에 블로그 포스트의 정보 확산력은 더욱 더 강력해졌다. 이러한 이유로 블로그 검색 분야는 마케팅이나 미디어, 인터넷 정보의 흐름이나 파급력에 대한 연구에 좋은 기여를 할 수 있다. In general, a blog is a web site that records information about an individual's thoughts or interests on the Internet in a journal form, which allows them to share opinions and information with others. Through blogs, you can get a glimpse of people's interests and thoughts around the world, and see how they react to your products or services. In addition, popular blogs are visited by hundreds of thousands of visitors a day, so the power of the blog is as much as the existing media. In addition, thanks to the social network service like Twitter, the spread of information in blog posts has become more powerful. For this reason, the blog search field can make a good contribution to the study of the flow or impact of marketing, media, and Internet information.
블로그를 검색하여 권위를 랭킹을 하기 위한 방법(이하 '블로그 랭킹 방법' 이라함)들은 최근까지 많이 연구가 되고 있다. 특히 일반 웹문서와는 다른 성격과 구조를 가진 블로그의 특성상, 블로그만의 랭킹 방법들이 다양하게 연구가 이루어 졌다. 블로그는 일반 웹페이지와는 달리 페이지 간의 링크가 랭킹의 핵심 요소로 쓰일 만큼 충분하지 않기 때문에 페이지 랭크와 같은 링크 기반의 권위 랭킹은 효과적이지 못하다. A method for ranking blogs and ranking authority (hereinafter referred to as "blog ranking method") has been studied until recently. Especially, the characteristics of blogs with different characteristics and structure from general web documents have been studied variously. Unlike regular web pages, blogs are not effective enough to use links between pages as a key element in ranking, so link - based authority ranking such as PageRank is not effective.
이러한 문제로 인하여 블로그 간의 유사성 및 접속 용이성을 분석하여 링크 연결 기반의 랭킹을 적용하는 블로그 랭킹 방법이 개발되었다. 또한, 여기서 더 발전되어, 블로그 포스트가 새로 올라오는 빈도와 각 글에 대한 댓글 수도 일정한 시간에 맞게 수치화하여 고려한 블로그 랭킹 방법도 개발되었다. 이러한 종래의 방법중 EigenRumor 검색과 이를 더 발전시킨 에고센트릭(Egocentric) 검색의 경우에는 블로그 글과 사용자 사이의 댓글이나 블로그의 포스트 사이에 연결된 트랙백들의 양을 고유벡터로 사용하여 블로그 자체의 매력과 블로그의 각 포스트들에 대한 사용자의 평가를 수치화하여 블로그 권위 랭킹에 적용하였다. Due to these problems, a blog ranking method has been developed that analyzes link similarity and accessibility and applies link ranking based on links. In addition, the blog ranking method that has been further developed here, considering the frequency with which blog posts are updated, and the number of comments on each article, is also considered. In the case of EigenRumor search and further improvement of Egocentric search among these conventional methods, the amount of trackbacks connected between blog posts and user comments or blog posts is used as an eigenvector, The user 's evaluation of each post of the blog was quantified and applied to the blog authority rankings.
EigenRumor 블로그 랭킹 방법의 경우 블로그 간의 커뮤니티을 중심으로 각 블로그 사이트 마다 해당 블로그에 블로그 커뮤니티에 인기 있는 글들이 얼마나 많이 있는 지를 수치화 한 권위 점수(Authority score)와 블로거가 인기 있는 블로그 글들을 평가한 점수인 허브 점수(Hub score)를 두고, 각 블로그 사이트 안에 있는 블로그 글(post) 마다 허브 값이 높은 블로거로부터 얼마나 많은 평가를 받았는지를 수치화 한 평판 점수(Reputation score)를 산출하는 것이다. EigenRumor Blog Ranking Method Focusing on the community among blogs Each blog site has an Authority score that quantifies how many popular blog articles are in the blog community and a hub (Hub score), and calculate the Reputation score by quantifying how many evaluations were received from the bloggers with high hub values for each blog post in each blog site.
도 1은 EigenRumor 블로그 랭킹 방법과 같은 종래의 방법에 의한 블로그 랭킹 판단 방법에 관한 것으로, 도 1에서 보는 바와 같이 블로그 포스트 사용자 반응을 사용자 반응을 나타내는 블로그 포스트의 댓글, 트랙백을 분석하고, 본문에서의 링크를 합산하는 방법으로 블로그 포스트의 권위를 측정하여 랭킹에 적용 한다. FIG. 1 is a diagram illustrating a method of determining a blog ranking according to a conventional method such as an EigenRumor blog ranking method. As shown in FIG. 1, a comment of a blog post, a trackback, By summing links, measure the authority of the blog post and apply it to the ranking.
종래의 블로그 랭킹 판단 방법을 적용한 블로그 검색은 블로그 포스트들의 권위는 높지만 검색어와의 관련성이 낮아서 검색 결과의 품질이 낮아지는 문제점이 빈번하게 발생하게 된다. 키워드 기반의 검색에서는 검색어와 검색 결과 간의 적합성이 높아야 좋은 검색 시스템이라고 할 수 있다. 따라서 블로그 포스트의 권위와는 별개로 블로그 포스트와 사용자가 원하는 결과에 부합되는 검색어와의 적합성도 랭킹 판단 방법에 반영이 되어야 하는데, 종래의 블로그 랭킹판단방법은 이를 고려하지 못하고 있다. The blog search using the conventional blog ranking determination method frequently has a problem that the quality of the search result is lowered because the authority of the blog posts is high but the relevance to the search word is low. In the keyword-based search, a good matching between the search word and the search result is a good search system. Therefore, in addition to the authority of the blog post, the suitability of the blog post and the search word matching the user's desired result should also be reflected in the ranking determination method. However, the conventional method of determining the blog ranking is not considered.
사용자의 검색어가 해당 블로그 포스트에서의 내용에서 중요하지 않은 부분임에도 불구하고 블로그 포스트 자체의 권위가 높다고 해서 검색 결과의 상위에 나타나면 분명히 사용자는 자신이 원한 결과로 판단하지 않을 것이 자명하다. 또한 블로그 포스트에 존재하는 각 용어들에 대한 빈도수를 고려하여 색인어의 중요도를 반영하여도 검색 결과의 품질은 보장되지 않게 되어 블로그 포스트에서의 용어의 중요도를 반영하는 보다 효과적인 방법의 필요성이 제기된다.Even if the user's search term is not an important part of the contents of the blog post, if the authority of the blog post itself is high and appears at the top of the search result, it is obvious that the user will not judge it as the desired result. In addition, considering the frequency of each term in the blog post, the quality of the search result is not guaranteed even if the importance of the index word is reflected. Thus, a more effective method reflecting the importance of the term in the blog post is required.
본 발명은 상기한 필요성을 감안하여 발명된 것으로, 효과적인 블로그 검색 시스템을 위하여 블로그의 구조적 특성을 활용하여 용어에 가중치를 부여하는 방법으로 블로그 랭킹 판단하는 방법 및 시스템이다. 블로그의 구조적 특성을 분석하여 이용하면, 블로그 포스트에 발생하는 용어들에 대한 중요도를 판단할 수가 있으며, 이를 통해 각 용어별 블로그 포스트 랭킹을 판단하여, 블로그 검색 결과에 반영할 수 있으므로 블로그 포스트의 권위뿐만 아니라 색인어와 밀접한 용어와의 적합성까지 고려하여 블로그 검색 결과의 품질을 향상 시킬 수가 있는 용어 가중화 색인 기반의 블로그 권위 랭킹 방법을 제공하는 데 그 목적이 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above-described needs, and a method and system for determining a blog ranking by a method of weighting terms using structural characteristics of a blog for an effective blog search system. By analyzing the structural characteristics of the blog, it is possible to determine the importance of the terms generated in the blog post, thereby determining the blog post ranking of each term and reflecting the result in the blog search result, The purpose of this study is to provide a blog ranking system based on the weighted index, which can improve the quality of blog search results by taking into account compatibility with terms closely related to the index.
상기한 목적을 달성하기 위한 본 발명은, According to an aspect of the present invention,
웹로봇 모듈을 통해 인터넷 상에 활성화된 블로그들을 탐색하여 각 블로그의 포스트들의 구조를 분석하고, 분석된 구조를 통해 블로그 랭킹 판단에 필요한 데이터들을 수집, 정규화하기 위한 전처리 단계;A pre-processing step of searching for blogs activated on the Internet through the web robot module, analyzing the structure of posts of each blog, and collecting and normalizing data necessary for blog ranking determination through the analyzed structure;
전처리 단계를 통하여 분석된 블로그 포스트 데이터 중에서 포스트의 제목, 태그 부분과 본문에서의 중요 구문에 존재하는 용어들에 대하여 각 구조별로 가중치를 적용하여 블로그 포스트의 가중화 중요 용어 랭킹 점수를 산출하기 위한 랭킹판단 단계; In the blog post data analyzed through the preprocessing step, weights are applied to the terms in the title, tag part and main text of the post, for each structure, to calculate weighted important term ranking score of the blog post Determining;
랭킹 판단 단계에서의 가중화 중요 용어 점수와 상기 블로그 포스트 본문의 나머지 일반 용어들에 대하여 빈도수가 적용된 일반 용어 점수를 포스트에 대한 전체 용어 점수로 합산하여 용어 가중화 랭킹 점수로 산출하여 블로그 포스트의 용어 별로 데이터베이스에 저장을 하는 데이터 베이스 저장단계; 그리고, A weighted important term score in the ranking determination step and a general term score to which the frequency is applied for the remaining general terms in the blog post body are added to the total term scores for the post to calculate a term weighted ranking score, Storing a database in a database; And,
데이터베이스에 저장된 정보들을 사용자 질의 서버에서 요청한 검색어와 대응되는 블로그 중요 용어의 상기 용어 가중화 랭킹 점수를 토대로 블로그 목록을 산출하는 검색단계를 포함한다. And a search step of calculating a blog list based on the term weighting ranking score of the blog important term corresponding to the search word requested by the user query server from the information stored in the database.
본 발명은 블로그 포스트 랭킹에서 블로그의 구조적 특성을 이용하여 중요 용어에 대한 가중치를 부여함으로써, 블로그 포스트 랭킹과 용어와의 적합성을 높여 블로그 검색 결과의 품질을 향상시키는 것이다. 블로그 포스트를 랭킹 판단 할 때, 블로그 포스트 전체의 권위 점수가 아닌, 해당 블로그 포스트와 각 용어와의 관련성을 반영한 각각의 용어 점수를 블로그 검색 시스템 데이터베이스에 색인을 한다. 검색 결과에 반영되는 최종 랭킹 점수는 사용자가 입력한 검색어와 관련도가 높은 블로그 중에서 최신성까지 고려된 포스트들의 결과 목록을 데이터베이스에서 가져와 사용자에게 제공할 수 있다. 블로그 포스트 자체는 유명하고 권위가 높지만 정작 사용자가 원하는 정보에 부합되지 않는 결과들이 검색 결과 상위에 랭크되는 문제점을 피하면서, 검색 결과의 높은 적합성을 기대할 수 있다.The present invention improves the quality of the blog search result by increasing the fitness of the blog post ranking and terminology by giving weight to important terms using the structural characteristics of the blog in the blog post ranking. When judging the rank of a blog post, the score of each term reflecting the relevance of the blog post to each term is indexed to the blog search system database, not the authority score of the blog post as a whole. The final ranking score reflected in the search result can be retrieved from the database and provided to the user, with a result list of posts considered up to date among the blogs having a high degree of relevance to the search word input by the user. The blog post itself can be expected to have high relevance of the search results while avoiding the problem that the results that are famous and authoritative but do not match the information desired by the user are ranked at the top of the search results.
도 1은 종래의 블로그 랭킹 판단 방법에서의 권위 점수 계산을 보여주기 위한 도면이다.
도 2는 일반적인 블로그 포스트의 구조이다.
도 3은 본 발명에 따른 용어 가중화 블로그 포스트 랭킹 방법을 설명하기 위한 도면이다.
도 4는 본 발명에 따른 용어 가중화 블로그 포스트 랭킹 방법이 적용된 블로그 검색 시스템의 개략적인 도면이다.
도 5는 본 발명에 따른 블로그 검색 시스템의 관계형 데이터베이스 스키마 예시한 도면이다. Brief Description of the Drawings Fig. 1 is a diagram showing a calculation of authority scores in a conventional method for determining a blog ranking.
2 shows a structure of a general blog post.
3 is a diagram for explaining a term weighted blog post ranking method according to the present invention.
4 is a schematic diagram of a blog search system to which the term weighted blog post ranking method according to the present invention is applied.
5 is a diagram illustrating an example of a relational database schema of a blog search system according to the present invention.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하면 다음과 같다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 2은 일반적인 블로그 포스트의 구조를 나타낸 단면도로, 블로그는 통상 다수의 블로그 포스트(Post)를 가지고 있으며, 블로그 포스트 데이터는 제목, 카테고리, 날짜등의 데이터와 본문 데이터, 태그 부분과 댓글 및 트랙백등으로 구성된다. 하나의 포스트는 전통적인 정보 검색에서의 하나의 문헌과 대응된다. FIG. 2 is a cross-sectional view showing the structure of a general blog post. A blog usually has a plurality of blog posts. The blog post data includes data such as title, category, and date, body data, . One post corresponds to one document in traditional IR.
본 발명에 따른 블로그 랭킹 판단 방법은 블로그 및 블로그 포스트 데이터 수집 및 분석 과정을 수행하기 위한 전처리 과정을 먼저 수행한다. 전처리 과정은 검색 시스템의 웹로봇 모듈을 통해 인터넷 상에 활성화된 블로그들을 탐색하여 각 블로그의 포스트들의 구조를 분석하고, 분석된 구조를 통해 블로그 랭킹 판단에 필요한 데이터들을 수집, 정규화 하여 랭킹 판단 모듈로 전달한다. The method for determining a blog ranking according to the present invention performs a preprocessing process for performing a blog and blog post data collection and analysis process. In the preprocessing process, blogs activated on the Internet are searched through the web robot module of the search system to analyze the structure of posts of each blog, and data necessary for blog ranking determination is collected and normalized through the analyzed structure, .
랭킹 판단 모듈에서는 가공된 데이터들을 파라미터로 이용하여 용어별 랭킹 점수를 계산하여 다시 블로그 검색 시스템에 전달하며, 블로그 검색 시스템은 해당 점수를 이에 대응되는 블로그 포스트와 용어와의 관계에 맞추어 데이터베이스에 저장을 하며, 이는 검색 시스템의 검색 질의 서버에서 사용자가 찾는 검색 결과 출력을 위해 사용이 된다.In the Ranking Judgment module, the processed data is used as a parameter to calculate a ranking score for each term, and the score is transmitted to the blog search system. The blog search system stores the score in the database according to the relation between the corresponding blog post and the term This is used for outputting a search result that a user searches in a search query server of the search system.
본 발명에 따른 블로그 랭킹 판단 방법은 도 3에서 보는 바와 같이, 검색 시스템의 웹로봇 모듈에 의해 분석된 블로그 포스트 데이터 중에서 포스트의 제목, 태그 부분과 본문에서의 중요 구문에 존재하는 용어들에 대하여 각 구조별로 가중치를 적용하여 블로그 포스트의 중요 용어 랭킹 점수를 계산한다. As shown in FIG. 3, in the blog posting data analyzed by the web robot module of the search system, the title, tag, We calculate the important term ranking score of the blog post by applying weight to each structure.
중요 용어 랭킹 점수는 제목이 가장 높은 가중치를 가지며, 그 다음으로는 태그, 앵커텍스트 순으로 각각 차등 부여가 된다. 또한 포스트 본문의 일반적인 용어들의 빈도수를 계산하여 중요 용어 랭킹 점수와 합산을 하여 용어 가중화 랭킹 점수를 블로그 포스트의 용어 별로 저장한다. The important term ranking score has the highest weight in the title, followed by a differentiation in the order of tag and anchor text, respectively. Also, the frequency of general terms in the post body is calculated, and the term weighting ranking score is added to the important term ranking score to store the term weighting ranking score for each term of the blog post.
즉, 포스트의 구조적 특성을 통해 추출한 중요 용어들에 대하여, 각 구조에 따라 차등적으로 가중치를 부여한 가중화 중요 용어 점수를 산출하고, 본문의 나머지 일반 용어들에 대하여 빈도수를 계산하여 빈도수가 적용된 일반 용어 점수를 포스트에 대한 전체 용어 점수로 합산하여 용어 가중화 랭킹 점수를 블로그 포스트의 용어 별로 데이터베이스에 저장을 하는 것이다. 데이터 베이스에는 포스트와 일반 용어와의 관계뿐만 아니라, 중요 용어와의 관계 또한 색인을 하게 된다. In other words, for important vocabulary extracted through the structural characteristics of the post, a weighted vocabulary score that is weighted differentially according to each structure is calculated, frequency is calculated for the remaining general terms of the text, The term score is added to the total term score for the post and the term weighted ranking score is stored in the database for each term in the blog post. The database indexes not only the relation between the post and the general term, but also the relation with the important term.
여기서, 포스트 본문의 각 용어들의 빈도수는 가중화 중요 용어의 점수 보다 랭킹에 대한 반영을 낮게 유지하기 위하여 상한선을 설정한다. 그리고 최종 랭킹에서 포스트의 최신성(Freshness)까지 반영하기 위해 각 포스트의 생성 날짜 정보 또한 수집 가공하여 색인한다.Here, the frequency of each term in the post body text is set to an upper limit to keep the reflection on the ranking lower than the score of the weighted vocabulary. In order to reflect the freshness of the post in the final ranking, the date of the creation of each post is also collected and indexed.
블로그 포스트를 대표하는 중요 용어들은 블로그 포스트와 관련도가 높은 사용자 검색어와 대응이 될 수 있기 때문에, 일반 용어보다 더 높은 가중치를 부여함으로써 해당 중요 용어와 포스트 관련도 랭킹 점수를 높일 수가 있다. 또한 이러한 랭킹 점수는 검색 시스템의 검색 결과에 반영이 된다. Since important terms representing blog posts can correspond to user queries with high relevance to blog posts, it is possible to increase the importance scores and post relevance ranking scores by assigning a higher weight than general terms. These ranking scores are reflected in the search results of the search system.
블로그 구조 중에서 카테고리는 블로그 포스트를 주제나 소재에 따라 블로거에 의해 분류하는 기준이 되므로 카테고리에 쓰인 용어 또한 블로그 포스트의 중요 용어가 될 수 있다. 하지만 사전에 설정이 된 일반적인 용어의 한계성 때문에, 중요 용어 가중치는 포스트 제목이나 태그의 가중치에 비해 낮게 설정한다. 포스트 제목은 포스트 내용의 주제와 가장 관련도가 높으므로 가중치도 높게 부여 한다. 또한 포스트 본문의 주제나 소재, 분류 등을 사용자가 추가로 입력해 놓는 태그의 경우, 제목 보다는 낮은 가중치를 부여한다. 카테고리와 태그의 경우 블로거의 사용 패턴에 따라서, 포스트 본문과 전혀 상관없는 용어들로 구성될 경우들도 상당히 많으므로, 이에 대한 필터링 과정 또한 추가적으로 필요하다. 그리고 본문에서 구조적으로 중요 용어를 추출 할 수 있는 곳은 소제목이나 앵커텍스트(AnchorText)가 있다. 앵커텍스트는 본문에서 외부 웹문서를 인용하기 위한 링크 연결의 설명 부분이다. 이 또한 중요 용어로서 가중치는 부여하며, 그 외에 굵은 글씨, 밑줄, 강조 색상 등에서 추출한 용어에도 차등적으로 가중치를 부여한다.Categories in the blog structure are used to classify blog posts by bloggers according to themes and materials, so the terms used in categories can also be important terms in blog posts. However, because of the limitations of the generic term that is set in advance, the key term weight is set lower than the weight of the post title or tag. The post title is most relevant to the subject of the post content, so it is given a high weight. In addition, a tag that a user inserts in addition to the subject, material, classification, etc. of the post body is given a lower weight than the title. In the case of categories and tags, the filtering process is additionally needed because the number of cases that are not related to the post body is considerably large according to the usage pattern of the blogger. In the text, structurally important terms can be extracted from the subtitle or anchor text (AnchorText). The anchor text is the description part of the link connection for quoting an external web document in the body. In addition, weights are given as important terms, and the terms extracted from bold, underlined, and highlighted colors are also weighted differentially.
본 발명의 방법을 적용한 블로그 검색 시스템(100)은 도 4에서 보는 바와 같이, 블로그에서 필요한 데이터를 수집하는 웹로봇(110)과 수집된 데이터를 용어와 블로그 포스트 별로 랭킹 점수를 매기는 용어 가중화 랭킹부(120), 랭킹 점수와 블로그 정보를 색인하여 저장하기 위한 데이터베이스(130), 사용자의 요청에 따른 검색 결과를 데이터베이스(130)에서 찾아내어 랭킹이 높은 순서대로 출력해주는 사용자 질의 서버(140)로 구성된다. As shown in FIG. 4, the
데이터베이스(130)에는 블로그 포스트의 기본 정보들(제목, 날짜, 블로거 이름)이 저장이 되며, 블로그 포스트에 존재하는 모든 용어들에 대응되는 용어 리스트 또한 저장이 되고, 블로그 포스트 별로 권위 점수와 용어 점수가 각각 저장이 된다. 또한 같은 블로그에 속하는 포스트의 모든 중요 용어들은 블로그 별로 별도로 색인이 된다. Basic information (title, date, blogger name) of the blog post is stored in the
도 5는 이러한 데이터베이스를 관계형 데이터베이스 시스템에 색인 할 때의 전체 스키마의 예시이다. 데이터베이스에 저장된 정보들은 사용자 질의 서버에서 요청한 검색어에 대응되는 용어와 연결이 된 블로그 중요 용어의 랭킹 점수를 토대로 블로그 목록이 1차적으로 산출이 되며, 해당 블로그에 속한 블로그 포스트들의 용어 랭킹 점수와 최신성에 대한 수치를 합산하여 최종적인 결과를 위한 랭킹 점수 또한 산출 한다. 사용자 질의 서버는 최종 랭킹 점수가 높은 순서의 블로그 포스트 리스트에 대응되는 블로그 포스트 정보를 데이터베이스에서 가져와 검색 결과로 출력 한다.Figure 5 is an illustration of an overall schema when indexing such databases to a relational database system. The information stored in the database is primarily calculated on the basis of the ranking score of the blog important term associated with the term corresponding to the query term requested by the user query server, and the ranking score of the blog posts belonging to the blog, The scores for the final result are also summed to calculate the ranking score. The user query server fetches the blog post information corresponding to the blog post list in the order of the highest ranking ranking score from the database and outputs it as a search result.
또한, 본 발명의 다른 실시예에서는 데이터 베이스(130)에서는 블로그 생성 날짜 기록 정보를 정규화 수치로 변환한 최신성 인수 색인을 사용자 질의 서버(140)에 제공하며, 사용자 질의 서버(140)에서 사용자에 의한 검색 요청이 입력되면, 검색어에 대응되는 중요 용어 점수와 최신성 인수로 최종 랭킹 점수를 계산하여 사용자 질의 서버에 제공하는 것이다. 사용자 질의 서버(140)에서는 사용자가 요청한 검색어에 대응되는 용어가 중요 용어 색인과 관련된 데이터베이스(130)의 블로그 중에서 중요 용어 랭킹 점수와 최신성 인수가 높은 블로그 목록을 1차적으로 산출해 내며, 블로그 목록에서 실제로 사용자가 입력한 검색어와 관련이 있는 포스트들의 랭킹 목록을 2차적으로 산출하여 최종적으로 1차와 2차의 단계로 나뉜 결과를 제공한다. In addition, in another embodiment of the present invention, the
그러므로, 본 발명에 따른 용어 가중화 색인 기반의 블로그 권위 랭킹 방법 및 이를 수행하기 위한 시스템에서는 사용자가 입력한 검색어와 관련도가 높은 블로그 중에서 최신성까지 고려된 포스트들의 결과 목록을 데이터베이스에서 가져와 사용자에게 제공할 수 있는 최종 블로그 랭킹 점수를 산출할 수 있어서, 블로그 포스트 자체는 유명하고 권위가 높지만 정작 사용자가 원하는 정보에 부합되지 않는 결과들이 검색 결과 상위에 랭크되는 문제점을 피하면서, 검색 결과의 높은 적합성을 기대할 수 있는 것이다.Therefore, in the blog authority ranking method based on the term weighted index according to the present invention and the system for performing the same, a result list of posts considered up to date among the blogs having a high degree of relevance to the search word input by the user is fetched from the database, It is possible to calculate the final blog ranking score that can be provided so that the blog post itself can avoid the problem that the results that are famous and high authority but do not match the information desired by the user are ranked at the top of the search result, Can be expected.
Claims (3)
ⅱ)상기 전처리 단계를 통하여 분석된 블로그 포스트 데이터 중에서 포스트의 제목, 태그 부분과 본문에서의 중요 구문에 존재하는 용어들에 대하여 가중치를 적용하여 블로그 포스트의 가중화 중요 용어 랭킹 점수를 산출하기 위한 랭킹판단 단계;
ⅲ)상기 랭킹 판단 단계에서의 가중화 중요 용어 점수와 상기 블로그 포스트 본문의 나머지 일반 용어들에 대하여 빈도수가 적용된 일반 용어 점수를 포스트에 대한 전체 용어 점수로 합산하여 용어 가중화 랭킹 점수로 산출하여 블로그 포스트의 용어 별로 데이터베이스에 저장을 하는 데이터 베이스 저장단계; 그리고,
ⅳ)상기 데이터베이스에 저장된 정보들을 사용자 질의 서버에서 요청한 검색어와 대응되는 블로그 중요 용어의 상기 용어 가중화 랭킹 점수를 토대로 블로그 목록을 산출하는 검색단계를 포함하며,
상기 데이터 베이스 저장단계에서 가중화 중요 용어 점수는 제목이 가장 높고, 순차적으로 태그, 앵커텍스트순으로 각각 차등 부여되며, 굵은 글씨, 밑줄, 강조 색상으로부터 추출한 용어에도 차등적인 가중치를 부여하며, 상기 빈도수가 적용된 일반 용어 점수는 상기 가중화 중요 용어 점수보다 낮은 상한선을 설정 하는 용어 가중화 색인 기반의 블로그 권위 랭킹 방법.I) a pre-processing step of searching blogs activated on the Internet through a web robot module, analyzing the structure of posts of each blog, and collecting and normalizing data necessary for blog ranking determination through the analyzed structure;
Ii) Ranking for calculating weighted critical term ranking scores of blog posts by applying weights to terms existing in the title, tag portion and important phrases in the body of the blog post data analyzed through the preprocessing step Determining;
Iii) summing the weighted critical term score in the ranking determination step and the general term score to which the frequency is applied for the remaining general terms in the blog post body, to the total term score for the post, and calculating the term weighted ranking score Storing a database for each term of the post; And,
And iv) a search step of calculating a blog list based on the term weighting ranking score of a blog important term corresponding to a search word requested by the user query server from the information stored in the database,
In the database storing step, the weighted important term score has a highest title, sequentially assigned a tag and an anchor text in order, and assigns a different weight to terms extracted from bold, underlined, and highlighted colors, Wherein the general term score applied is a lower limit than the weighted critical term score.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100076558A KR101448134B1 (en) | 2010-08-09 | 2010-08-09 | an blog prestige ranking method based on weighted indexing of terms |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100076558A KR101448134B1 (en) | 2010-08-09 | 2010-08-09 | an blog prestige ranking method based on weighted indexing of terms |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120014466A KR20120014466A (en) | 2012-02-17 |
KR101448134B1 true KR101448134B1 (en) | 2014-10-08 |
Family
ID=45837524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100076558A KR101448134B1 (en) | 2010-08-09 | 2010-08-09 | an blog prestige ranking method based on weighted indexing of terms |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101448134B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032517B (en) * | 2019-12-25 | 2022-05-03 | 厦门铠甲网络股份有限公司 | Method for acquiring structured labels from articles |
KR102655410B1 (en) | 2021-05-10 | 2024-04-04 | 김종훈 | A baseboard structure of korean-style house |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010108124A (en) | 2008-10-29 | 2010-05-13 | Recruit Co Ltd | Retrieval information providing system |
-
2010
- 2010-08-09 KR KR1020100076558A patent/KR101448134B1/en not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010108124A (en) | 2008-10-29 | 2010-05-13 | Recruit Co Ltd | Retrieval information providing system |
Non-Patent Citations (1)
Title |
---|
신현일,윤은일,류근호, "주제어 가중치 기법에 의한 효율적인 블로그 검색 시스템", 한국컴퓨터정보학회 논문집, 2010년 4월, 제15권, 제4호 * |
Also Published As
Publication number | Publication date |
---|---|
KR20120014466A (en) | 2012-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7885918B2 (en) | Creating a taxonomy from business-oriented metadata content | |
CN102902806B (en) | A kind of method and system utilizing search engine to carry out query expansion | |
KR102075833B1 (en) | Curation method and system for recommending of art contents | |
Gupta et al. | A survey of text mining techniques and applications | |
Segev et al. | Context-based matching and ranking of web services for composition | |
CN100440224C (en) | Automatization processing method of rating of merit of search engine | |
US8190601B2 (en) | Identifying task groups for organizing search results | |
US8473473B2 (en) | Object oriented data and metadata based search | |
Wöber | Domain-specific search engines. | |
CN101408885A (en) | Modeling topics using statistical distributions | |
WO2007021386A2 (en) | Analysis and transformation tools for strctured and unstructured data | |
CN109918563A (en) | A method of the book recommendation based on public data | |
JP5313295B2 (en) | Document search service providing method and system | |
Ru et al. | Indexing the invisible web: a survey | |
US8914359B2 (en) | Ranking documents with social tags | |
US20070192313A1 (en) | Data search method with statistical analysis performed on user provided ratings of the initial search results | |
KR101448134B1 (en) | an blog prestige ranking method based on weighted indexing of terms | |
Kacem et al. | Analysis of search stratagem utilisation | |
Silva et al. | A multi-layer framework for semantic modeling | |
Kacem et al. | Analysis of footnote chasing and citation searching in an academic search engine | |
Loke et al. | CIFI: An intelligent agent for citation finding on the World-Wide Web | |
Rana et al. | Analysis of web mining technology and their impact on semantic web | |
Du et al. | Scientific users' interest detection and collaborators recommendation | |
Khurana et al. | Survey of techniques for deep web source selection and surfacing the hidden web content | |
KR20100067764A (en) | Ontology based products information service system and method in e-commerce |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |