KR20120014466A - An blog prestige ranking method based on weighted indexing of terms - Google Patents

An blog prestige ranking method based on weighted indexing of terms Download PDF

Info

Publication number
KR20120014466A
KR20120014466A KR1020100076558A KR20100076558A KR20120014466A KR 20120014466 A KR20120014466 A KR 20120014466A KR 1020100076558 A KR1020100076558 A KR 1020100076558A KR 20100076558 A KR20100076558 A KR 20100076558A KR 20120014466 A KR20120014466 A KR 20120014466A
Authority
KR
South Korea
Prior art keywords
blog
ranking
score
term
post
Prior art date
Application number
KR1020100076558A
Other languages
Korean (ko)
Other versions
KR101448134B1 (en
Inventor
윤은일
신현일
류근호
편광범
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020100076558A priority Critical patent/KR101448134B1/en
Publication of KR20120014466A publication Critical patent/KR20120014466A/en
Application granted granted Critical
Publication of KR101448134B1 publication Critical patent/KR101448134B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

PURPOSE: A blog authority ranking method based on a term weighting index is provided to improve the quality of a blog searching result by assigning weighted values to important terms. CONSTITUTION: A web robot module collects necessary data by analyzing the structure of blog posts. The weighted keyword ranking score of the blog post is calculated by assigning weighted values to a post title, a tag, and an article. A term weighting rank score is stored and calculated by collecting the normal word score the important word score of the blog post. A blog list is calculated based on the word weighting rank score of the important word corresponding to a keyword.

Description

용어 가중화 색인 기반의 블로그 권위 랭킹 방법{an blog prestige ranking method based on weighted indexing of terms}An blog prestige ranking method based on weighted indexing of terms}

본 발명은 용어 가중화 색인 기반의 블로그 권위 랭킹 방법에 관한 것으로 특히 인터넷에서 블로그 포스트의 구조적 특성을 이용하여 용어 가중화 색인을 통해 블로그 검색 시스템의 검색 결과 품질을 더욱 더 향상시키기 위한 용어 가중화 색인 기반의 블로그 권위 랭킹 방법에 관한 것이다. The present invention relates to a blog authority ranking method based on the term weighting index. In particular, the term weighting index for further improving the search result quality of the blog search system through the term weighting index using the structural characteristics of blog posts on the Internet. Blog based on authority ranking method.

일반적으로, 블로그는 인터넷에서 개인의 생각이나 관심사에 관한 정보를 일지 형태로 기록해 두는 웹사이트이며 이를 통해 타인과 의견과 정보를 나눌 수 있다. 블로그를 통해 전 세계 사람들의 관심과 생각들을 엿볼 수도 있고, 기업의 제품이나 서비스에 대한 그들의 반응도 살펴 볼 수 있다. 또한 인기 있는 블로그는 하루에도 수십만 명이 방문하여 새로 올라온 블로그 포스트를 보기 때문에, 그 파급력은 기존의 미디어 못지않게 엄청나다. 또한 트위터와 같은 실시간 사회 네트워크 서비스(Social Network Service) 덕분에 블로그 포스트의 정보 확산력은 더욱 더 강력해졌다. 이러한 이유로 블로그 검색 분야는 마케팅이나 미디어, 인터넷 정보의 흐름이나 파급력에 대한 연구에 좋은 기여를 할 수 있다. In general, blogs are websites that record information about an individual's thoughts or interests in the form of a journal, which allows them to share opinions and information with others. Blogs give a glimpse of the interests and thoughts of people around the world and their reactions to a company's products or services. Popular blogs also see hundreds of thousands of new blog posts a day, so the ripple effect is as great as the media. In addition, real-time Social Network Services, such as Twitter, have made blog posts more powerful. For this reason, the blog search field can be a good contributor to the study of the flow or ripple of marketing, media, and Internet information.

블로그를 검색하여 권위를 랭킹을 하기 위한 방법(이하 '블로그 랭킹 방법' 이라함)들은 최근까지 많이 연구가 되고 있다. 특히 일반 웹문서와는 다른 성격과 구조를 가진 블로그의 특성상, 블로그만의 랭킹 방법들이 다양하게 연구가 이루어 졌다. 블로그는 일반 웹페이지와는 달리 페이지 간의 링크가 랭킹의 핵심 요소로 쓰일 만큼 충분하지 않기 때문에 페이지 랭크와 같은 링크 기반의 권위 랭킹은 효과적이지 못하다. The method for searching authority and ranking authority (hereinafter referred to as 'blog ranking method') has been studied a lot until recently. In particular, due to the characteristics of blogs that have different characteristics and structure than general web documents, blogs' ranking methods have been studied in various ways. Unlike regular web pages, blog-based authority rankings, such as page rank, are not effective because links between pages are not enough to be used as a key factor in ranking.

이러한 문제로 인하여 블로그 간의 유사성 및 접속 용이성을 분석하여 링크 연결 기반의 랭킹을 적용하는 블로그 랭킹 방법이 개발되었다. 또한, 여기서 더 발전되어, 블로그 포스트가 새로 올라오는 빈도와 각 글에 대한 댓글 수도 일정한 시간에 맞게 수치화하여 고려한 블로그 랭킹 방법도 개발되었다. 이러한 종래의 방법중 EigenRumor 검색과 이를 더 발전시킨 에고센트릭(Egocentric) 검색의 경우에는 블로그 글과 사용자 사이의 댓글이나 블로그의 포스트 사이에 연결된 트랙백들의 양을 고유벡터로 사용하여 블로그 자체의 매력과 블로그의 각 포스트들에 대한 사용자의 평가를 수치화하여 블로그 권위 랭킹에 적용하였다. Due to these problems, a blog ranking method has been developed that applies ranking based on link connection by analyzing similarity and accessibility between blogs. In addition, it has been developed further, the blog ranking method was developed considering the number of new blog posts and the number of comments for each article in a certain time. Among the conventional methods, the EigenRumor search and the Egocentric search, which is further developed, use the amount of trackbacks connected between the blog post and the comment between the user or the post of the blog as the eigenvectors. The user's evaluation of each post on the blog was quantified and applied to the blog authority ranking.

EigenRumor 블로그 랭킹 방법의 경우 블로그 간의 커뮤니티을 중심으로 각 블로그 사이트 마다 해당 블로그에 블로그 커뮤니티에 인기 있는 글들이 얼마나 많이 있는 지를 수치화 한 권위 점수(Authority score)와 블로거가 인기 있는 블로그 글들을 평가한 점수인 허브 점수(Hub score)를 두고, 각 블로그 사이트 안에 있는 블로그 글(post) 마다 허브 값이 높은 블로거로부터 얼마나 많은 평가를 받았는지를 수치화 한 평판 점수(Reputation score)를 산출하는 것이다. In the EigenRumor blog ranking method, the hub is the authority score that quantifies how many blog posts are popular in the blog community for each blog site, and the score that bloggers rated popular blog posts. With a score, you get a Reputation score that quantifies how much of your blog posts in each blog site have received high-value bloggers.

도 1은 EigenRumor 블로그 랭킹 방법과 같은 종래의 방법에 의한 블로그 랭킹 판단 방법에 관한 것으로, 도 1에서 보는 바와 같이 블로그 포스트 사용자 반응을 사용자 반응을 나타내는 블로그 포스트의 댓글, 트랙백을 분석하고, 본문에서의 링크를 합산하는 방법으로 블로그 포스트의 권위를 측정하여 랭킹에 적용 한다. FIG. 1 relates to a method for determining a blog ranking by a conventional method such as the EigenRumor blog ranking method. As shown in FIG. 1, a blog post comment and trackback analyzing a blog post user response as shown in FIG. Measure the authority of your blog posts by adding up the links and applying them to the ranking.

종래의 블로그 랭킹 판단 방법을 적용한 블로그 검색은 블로그 포스트들의 권위는 높지만 검색어와의 관련성이 낮아서 검색 결과의 품질이 낮아지는 문제점이 빈번하게 발생하게 된다. 키워드 기반의 검색에서는 검색어와 검색 결과 간의 적합성이 높아야 좋은 검색 시스템이라고 할 수 있다. 따라서 블로그 포스트의 권위와는 별개로 블로그 포스트와 사용자가 원하는 결과에 부합되는 검색어와의 적합성도 랭킹 판단 방법에 반영이 되어야 하는데, 종래의 블로그 랭킹판단방법은 이를 고려하지 못하고 있다. Blog search using the conventional blog ranking determination method has a high authority of blog posts, but has a low relevance to a search word, so that the quality of the search result is frequently caused. In keyword-based search, it is a good search system when the relevance between the search word and the search result is high. Therefore, the adequacy of the blog post and the search term corresponding to the user's desired result should also be reflected in the ranking determination method independently of the authority of the blog post, but the conventional blog ranking determination method does not consider this.

사용자의 검색어가 해당 블로그 포스트에서의 내용에서 중요하지 않은 부분임에도 불구하고 블로그 포스트 자체의 권위가 높다고 해서 검색 결과의 상위에 나타나면 분명히 사용자는 자신이 원한 결과로 판단하지 않을 것이 자명하다. 또한 블로그 포스트에 존재하는 각 용어들에 대한 빈도수를 고려하여 색인어의 중요도를 반영하여도 검색 결과의 품질은 보장되지 않게 되어 블로그 포스트에서의 용어의 중요도를 반영하는 보다 효과적인 방법의 필요성이 제기된다.Despite the fact that the user's search terms are an insignificant part of the content of the blog post, if the blog post itself is high in authority, it is obvious that the user will not judge the result as desired. In addition, even if the frequency of each term in the blog post is considered in consideration of the importance of the index word, the quality of the search results is not guaranteed, thereby raising the need for a more effective method of reflecting the importance of the term in the blog post.

본 발명은 상기한 필요성을 감안하여 발명된 것으로, 효과적인 블로그 검색 시스템을 위하여 블로그의 구조적 특성을 활용하여 용어에 가중치를 부여하는 방법으로 블로그 랭킹 판단하는 방법 및 시스템이다. 블로그의 구조적 특성을 분석하여 이용하면, 블로그 포스트에 발생하는 용어들에 대한 중요도를 판단할 수가 있으며, 이를 통해 각 용어별 블로그 포스트 랭킹을 판단하여, 블로그 검색 결과에 반영할 수 있으므로 블로그 포스트의 권위뿐만 아니라 색인어와 밀접한 용어와의 적합성까지 고려하여 블로그 검색 결과의 품질을 향상 시킬 수가 있는 용어 가중화 색인 기반의 블로그 권위 랭킹 방법을 제공하는 데 그 목적이 있다. The present invention has been invented in view of the above necessity, and is a method and system for determining blog rankings by weighting terms using structural characteristics of a blog for an effective blog search system. By analyzing the structural characteristics of blogs, it is possible to determine the importance of terms occurring in blog posts. Through this, blog post rankings of each term can be determined and reflected in blog search results. In addition, it aims to provide a blog authority ranking method based on the term weighting index that can improve the quality of blog search results by considering the suitability of index terms and close terms.

상기한 목적을 달성하기 위한 본 발명은, The present invention for achieving the above object,

웹로봇 모듈을 통해 인터넷 상에 활성화된 블로그들을 탐색하여 각 블로그의 포스트들의 구조를 분석하고, 분석된 구조를 통해 블로그 랭킹 판단에 필요한 데이터들을 수집, 정규화하기 위한 전처리 단계;A preprocessing step of searching for blogs activated on the Internet through a web robot module to analyze the structure of each blog post, and collecting and normalizing data necessary for determining a blog ranking through the analyzed structure;

전처리 단계를 통하여 분석된 블로그 포스트 데이터 중에서 포스트의 제목, 태그 부분과 본문에서의 중요 구문에 존재하는 용어들에 대하여 각 구조별로 가중치를 적용하여 블로그 포스트의 가중화 중요 용어 랭킹 점수를 산출하기 위한 랭킹판단 단계; Ranking for calculating weighted important term ranking scores of blog posts by applying weights for each structure in terms of the post title, tag part, and important phrases in the text among the blog post data analyzed through the preprocessing step Determination step;

랭킹 판단 단계에서의 가중화 중요 용어 점수와 상기 블로그 포스트 본문의 나머지 일반 용어들에 대하여 빈도수가 적용된 일반 용어 점수를 포스트에 대한 전체 용어 점수로 합산하여 용어 가중화 랭킹 점수로 산출하여 블로그 포스트의 용어 별로 데이터베이스에 저장을 하는 데이터 베이스 저장단계; 그리고, The term of the blog post is calculated by adding the weighted key term score in the ranking determination step and the general term score to which the frequency is applied to the rest of the general terms in the blog post body as the overall term score for the post to calculate the term weighted ranking score. A database storage step of storing the database in each database; And,

데이터베이스에 저장된 정보들을 사용자 질의 서버에서 요청한 검색어와 대응되는 블로그 중요 용어의 상기 용어 가중화 랭킹 점수를 토대로 블로그 목록을 산출하는 검색단계를 포함한다. And a search step of calculating a list of blogs based on the term weighting ranking scores of blog important terms corresponding to search terms requested by a user query server.

본 발명은 블로그 포스트 랭킹에서 블로그의 구조적 특성을 이용하여 중요 용어에 대한 가중치를 부여함으로써, 블로그 포스트 랭킹과 용어와의 적합성을 높여 블로그 검색 결과의 품질을 향상시키는 것이다. 블로그 포스트를 랭킹 판단 할 때, 블로그 포스트 전체의 권위 점수가 아닌, 해당 블로그 포스트와 각 용어와의 관련성을 반영한 각각의 용어 점수를 블로그 검색 시스템 데이터베이스에 색인을 한다. 검색 결과에 반영되는 최종 랭킹 점수는 사용자가 입력한 검색어와 관련도가 높은 블로그 중에서 최신성까지 고려된 포스트들의 결과 목록을 데이터베이스에서 가져와 사용자에게 제공할 수 있다. 블로그 포스트 자체는 유명하고 권위가 높지만 정작 사용자가 원하는 정보에 부합되지 않는 결과들이 검색 결과 상위에 랭크되는 문제점을 피하면서, 검색 결과의 높은 적합성을 기대할 수 있다.The present invention improves the quality of blog search results by increasing the suitability of blog post rankings and terms by assigning weights to important terms using the structural characteristics of blogs in blog post rankings. When ranking blog posts, the index of each term reflecting the relevance of the blog post to each term, rather than the authority score of the entire blog post, is indexed in the blog search system database. The final ranking score reflected in the search result may provide a user with a result list of posts that are considered up-to-date among blogs that are highly related to the search word input by the user. The blog post itself is renowned and authoritative, but you can expect high suitability of the search results while avoiding the problem that the results that do not match the information desired by the user are ranked above the search results.

도 1은 종래의 블로그 랭킹 판단 방법에서의 권위 점수 계산을 보여주기 위한 도면이다.
도 2는 일반적인 블로그 포스트의 구조이다.
도 3은 본 발명에 따른 용어 가중화 블로그 포스트 랭킹 방법을 설명하기 위한 도면이다.
도 4는 본 발명에 따른 용어 가중화 블로그 포스트 랭킹 방법이 적용된 블로그 검색 시스템의 개략적인 도면이다.
도 5는 본 발명에 따른 블로그 검색 시스템의 관계형 데이터베이스 스키마 예시한 도면이다.
1 is a view for showing the authority score calculation in the conventional blog ranking determination method.
2 is a structure of a general blog post.
3 is a view illustrating a term weighting blog post ranking method according to the present invention.
4 is a schematic diagram of a blog search system to which the term weighted blog post ranking method according to the present invention is applied.
5 is a diagram illustrating a relational database schema of a blog search system according to the present invention.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하면 다음과 같다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2은 일반적인 블로그 포스트의 구조를 나타낸 단면도로, 블로그는 통상 다수의 블로그 포스트(Post)를 가지고 있으며, 블로그 포스트 데이터는 제목, 카테고리, 날짜등의 데이터와 본문 데이터, 태그 부분과 댓글 및 트랙백등으로 구성된다. 하나의 포스트는 전통적인 정보 검색에서의 하나의 문헌과 대응된다. FIG. 2 is a cross-sectional view illustrating a structure of a general blog post. A blog usually includes a plurality of blog posts. The blog post data includes title, category, date, etc., body data, tag parts, comments, trackbacks, and the like. It consists of. One post corresponds to one document in traditional information retrieval.

본 발명에 따른 블로그 랭킹 판단 방법은 블로그 및 블로그 포스트 데이터 수집 및 분석 과정을 수행하기 위한 전처리 과정을 먼저 수행한다. 전처리 과정은 검색 시스템의 웹로봇 모듈을 통해 인터넷 상에 활성화된 블로그들을 탐색하여 각 블로그의 포스트들의 구조를 분석하고, 분석된 구조를 통해 블로그 랭킹 판단에 필요한 데이터들을 수집, 정규화 하여 랭킹 판단 모듈로 전달한다. The blog ranking determination method according to the present invention first performs a preprocessing process for performing a blog and blog post data collection and analysis process. The preprocessing process searches the blogs activated on the Internet through the web robot module of the search system, analyzes the structure of each blog posts, and collects and normalizes the data necessary for blog ranking determination through the analyzed structure. To pass.

랭킹 판단 모듈에서는 가공된 데이터들을 파라미터로 이용하여 용어별 랭킹 점수를 계산하여 다시 블로그 검색 시스템에 전달하며, 블로그 검색 시스템은 해당 점수를 이에 대응되는 블로그 포스트와 용어와의 관계에 맞추어 데이터베이스에 저장을 하며, 이는 검색 시스템의 검색 질의 서버에서 사용자가 찾는 검색 결과 출력을 위해 사용이 된다.The ranking determination module calculates the ranking score for each term using the processed data as a parameter and passes it back to the blog search system. The blog search system stores the score in a database according to the relationship between the corresponding blog post and the term. This is used to output the search result that the user finds in the search query server of the search system.

본 발명에 따른 블로그 랭킹 판단 방법은 도 3에서 보는 바와 같이, 검색 시스템의 웹로봇 모듈에 의해 분석된 블로그 포스트 데이터 중에서 포스트의 제목, 태그 부분과 본문에서의 중요 구문에 존재하는 용어들에 대하여 각 구조별로 가중치를 적용하여 블로그 포스트의 중요 용어 랭킹 점수를 계산한다. In the blog ranking determination method according to the present invention, as shown in FIG. 3, the blog post data analyzed by the web robot module of the retrieval system is used for terms existing in the title, tag part, and important phrase in the text. Calculate the key term ranking score of blog posts by applying the weight for each structure.

중요 용어 랭킹 점수는 제목이 가장 높은 가중치를 가지며, 그 다음으로는 태그, 앵커텍스트 순으로 각각 차등 부여가 된다. 또한 포스트 본문의 일반적인 용어들의 빈도수를 계산하여 중요 용어 랭킹 점수와 합산을 하여 용어 가중화 랭킹 점수를 블로그 포스트의 용어 별로 저장한다. Key term ranking scores are given the highest weight in the title, followed by tag and anchor text, respectively. In addition, the frequency of the general terms in the post body is calculated and summed with the key term ranking score to store the term weighting ranking score for each term of the blog post.

즉, 포스트의 구조적 특성을 통해 추출한 중요 용어들에 대하여, 각 구조에 따라 차등적으로 가중치를 부여한 가중화 중요 용어 점수를 산출하고, 본문의 나머지 일반 용어들에 대하여 빈도수를 계산하여 빈도수가 적용된 일반 용어 점수를 포스트에 대한 전체 용어 점수로 합산하여 용어 가중화 랭킹 점수를 블로그 포스트의 용어 별로 데이터베이스에 저장을 하는 것이다. 데이터 베이스에는 포스트와 일반 용어와의 관계뿐만 아니라, 중요 용어와의 관계 또한 색인을 하게 된다. In other words, the weighted weighted key terms scored differentially weighted according to each structure are calculated for the key terms extracted through the structural characteristics of the post, and the frequency is calculated for the remaining general terms in the main text. The term weighting ranking score is stored in the database for each term of the blog post by adding the term score to the overall term score for the post. The database indexes not only posts and general terms, but also important terms.

여기서, 포스트 본문의 각 용어들의 빈도수는 가중화 중요 용어의 점수 보다 랭킹에 대한 반영을 낮게 유지하기 위하여 상한선을 설정한다. 그리고 최종 랭킹에서 포스트의 최신성(Freshness)까지 반영하기 위해 각 포스트의 생성 날짜 정보 또한 수집 가공하여 색인한다.Here, the frequency of each term in the post body sets an upper limit in order to keep the reflection on the ranking lower than the score of the weighted key term. In order to reflect the freshness of posts in the final ranking, the creation date information of each post is also collected and indexed.

블로그 포스트를 대표하는 중요 용어들은 블로그 포스트와 관련도가 높은 사용자 검색어와 대응이 될 수 있기 때문에, 일반 용어보다 더 높은 가중치를 부여함으로써 해당 중요 용어와 포스트 관련도 랭킹 점수를 높일 수가 있다. 또한 이러한 랭킹 점수는 검색 시스템의 검색 결과에 반영이 된다. Since important terms representing blog posts may correspond to user search terms that are highly related to blog posts, the weighted scores may be increased by giving higher weights than general terms. In addition, the ranking score is reflected in the search results of the search system.

블로그 구조 중에서 카테고리는 블로그 포스트를 주제나 소재에 따라 블로거에 의해 분류하는 기준이 되므로 카테고리에 쓰인 용어 또한 블로그 포스트의 중요 용어가 될 수 있다. 하지만 사전에 설정이 된 일반적인 용어의 한계성 때문에, 중요 용어 가중치는 포스트 제목이나 태그의 가중치에 비해 낮게 설정한다. 포스트 제목은 포스트 내용의 주제와 가장 관련도가 높으므로 가중치도 높게 부여 한다. 또한 포스트 본문의 주제나 소재, 분류 등을 사용자가 추가로 입력해 놓는 태그의 경우, 제목 보다는 낮은 가중치를 부여한다. 카테고리와 태그의 경우 블로거의 사용 패턴에 따라서, 포스트 본문과 전혀 상관없는 용어들로 구성될 경우들도 상당히 많으므로, 이에 대한 필터링 과정 또한 추가적으로 필요하다. 그리고 본문에서 구조적으로 중요 용어를 추출 할 수 있는 곳은 소제목이나 앵커텍스트(AnchorText)가 있다. 앵커텍스트는 본문에서 외부 웹문서를 인용하기 위한 링크 연결의 설명 부분이다. 이 또한 중요 용어로서 가중치는 부여하며, 그 외에 굵은 글씨, 밑줄, 강조 색상 등에서 추출한 용어에도 차등적으로 가중치를 부여한다.Among blog structures, category is a criterion for classifying blog posts by blogger according to subject or material, so the terms used in categories can be important terms of blog posts. However, due to the limitations of pre-set generic terms, important term weights are set lower than those of post titles or tags. Post titles are most relevant to the topic of the post, so give them a higher weight. In addition, in case of a tag in which a user inputs a subject, material, or classification of the post body, the weight is given lower than the title. In the case of categories and tags, there are many cases that are composed of terms that have nothing to do with the post body, depending on the usage pattern of the blogger. In addition, there are subheadings or anchor texts where structurally important terms can be extracted from the text. The anchor text is the description part of the link link to cite an external web document in the text. This is also an important term, and the weight is given, and weights are also differentially applied to terms extracted from bold text, underline, and accent color.

본 발명의 방법을 적용한 블로그 검색 시스템(100)은 도 4에서 보는 바와 같이, 블로그에서 필요한 데이터를 수집하는 웹로봇(110)과 수집된 데이터를 용어와 블로그 포스트 별로 랭킹 점수를 매기는 용어 가중화 랭킹부(120), 랭킹 점수와 블로그 정보를 색인하여 저장하기 위한 데이터베이스(130), 사용자의 요청에 따른 검색 결과를 데이터베이스(130)에서 찾아내어 랭킹이 높은 순서대로 출력해주는 사용자 질의 서버(140)로 구성된다. As shown in FIG. 4, the blog search system 100 to which the method of the present invention is applied weights a web robot 110 that collects necessary data from a blog and a term that ranks the collected data by terms and blog posts. Ranking unit 120, the database 130 for indexing and storing the ranking scores and blog information, the user query server 140 that finds the search results according to the user's request in the database 130 and outputs the ranking in high order It consists of.

데이터베이스(130)에는 블로그 포스트의 기본 정보들(제목, 날짜, 블로거 이름)이 저장이 되며, 블로그 포스트에 존재하는 모든 용어들에 대응되는 용어 리스트 또한 저장이 되고, 블로그 포스트 별로 권위 점수와 용어 점수가 각각 저장이 된다. 또한 같은 블로그에 속하는 포스트의 모든 중요 용어들은 블로그 별로 별도로 색인이 된다. The database 130 stores basic information of a blog post (title, date, blogger name), a list of terms corresponding to all terms existing in the blog post, and an authority score and a term score for each blog post. Are stored respectively. In addition, all important terms of a post belonging to the same blog are indexed separately by blog.

도 5는 이러한 데이터베이스를 관계형 데이터베이스 시스템에 색인 할 때의 전체 스키마의 예시이다. 데이터베이스에 저장된 정보들은 사용자 질의 서버에서 요청한 검색어에 대응되는 용어와 연결이 된 블로그 중요 용어의 랭킹 점수를 토대로 블로그 목록이 1차적으로 산출이 되며, 해당 블로그에 속한 블로그 포스트들의 용어 랭킹 점수와 최신성에 대한 수치를 합산하여 최종적인 결과를 위한 랭킹 점수 또한 산출 한다. 사용자 질의 서버는 최종 랭킹 점수가 높은 순서의 블로그 포스트 리스트에 대응되는 블로그 포스트 정보를 데이터베이스에서 가져와 검색 결과로 출력 한다.5 is an illustration of the overall schema when indexing such a database into a relational database system. The information stored in the database is primarily calculated based on the ranking scores of the important blog terms linked to the terms corresponding to the search terms requested by the user query server. The scores for the final result are also calculated by summing the numbers. The user query server retrieves blog post information corresponding to the list of blog posts in the order of highest final ranking score from the database and outputs the search result as a search result.

또한, 본 발명의 다른 실시예에서는 데이터 베이스(130)에서는 블로그 생성 날짜 기록 정보를 정규화 수치로 변환한 최신성 인수 색인을 사용자 질의 서버(140)에 제공하며, 사용자 질의 서버(140)에서 사용자에 의한 검색 요청이 입력되면, 검색어에 대응되는 중요 용어 점수와 최신성 인수로 최종 랭킹 점수를 계산하여 사용자 질의 서버에 제공하는 것이다. 사용자 질의 서버(140)에서는 사용자가 요청한 검색어에 대응되는 용어가 중요 용어 색인과 관련된 데이터베이스(130)의 블로그 중에서 중요 용어 랭킹 점수와 최신성 인수가 높은 블로그 목록을 1차적으로 산출해 내며, 블로그 목록에서 실제로 사용자가 입력한 검색어와 관련이 있는 포스트들의 랭킹 목록을 2차적으로 산출하여 최종적으로 1차와 2차의 단계로 나뉜 결과를 제공한다. In addition, in another embodiment of the present invention, the database 130 provides the user query server 140 with a freshness factor index obtained by converting blog generation date recording information into a normalized number, and the user query server 140 provides the user with the index. When the search request is inputted, the final ranking score is calculated and provided to the user query server using the key term score and the latestness factor corresponding to the search word. The user query server 140 firstly calculates a list of blogs having a high term ranking score and a high relevance factor among blogs in the database 130 in which a term corresponding to a search term requested by the user is related to the key term index. Actually calculates the ranking list of posts related to the search word entered by the user in the second and finally provides the result divided into the first and second stages.

그러므로, 본 발명에 따른 용어 가중화 색인 기반의 블로그 권위 랭킹 방법 및 이를 수행하기 위한 시스템에서는 사용자가 입력한 검색어와 관련도가 높은 블로그 중에서 최신성까지 고려된 포스트들의 결과 목록을 데이터베이스에서 가져와 사용자에게 제공할 수 있는 최종 블로그 랭킹 점수를 산출할 수 있어서, 블로그 포스트 자체는 유명하고 권위가 높지만 정작 사용자가 원하는 정보에 부합되지 않는 결과들이 검색 결과 상위에 랭크되는 문제점을 피하면서, 검색 결과의 높은 적합성을 기대할 수 있는 것이다.Therefore, in the blog authority ranking method based on the term weighting index according to the present invention, and a system for performing the same, a result list of posts considering the most up-to-date among blogs that are related to a search word entered by a user is taken from a database. You can calculate the final blog ranking score that you can provide, so that the blog post itself is well known and authoritative, but that results that do not match the information you want are ranked high in search results, while avoiding the problem of ranking above the search results. You can expect.

Claims (3)

ⅰ)웹로봇 모듈을 통해 인터넷 상에 활성화된 블로그들을 탐색하여 각 블로그의 포스트들의 구조를 분석하고, 분석된 구조를 통해 블로그 랭킹 판단에 필요한 데이터들을 수집, 정규화하기 위한 전처리 단계;
ⅱ)상기 전처리 단계를 통하여 분석된 블로그 포스트 데이터 중에서 포스트의 제목, 태그 부분과 본문에서의 중요 구문에 존재하는 용어들에 대하여 각 구조별로 가중치를 적용하여 블로그 포스트의 가중화 중요 용어 랭킹 점수를 산출하기 위한 랭킹판단 단계;
ⅲ)상기 랭킹 판단 단계에서의 가중화 중요 용어 점수와 상기 블로그 포스트 본문의 나머지 일반 용어들에 대하여 빈도수가 적용된 일반 용어 점수를 포스트에 대한 전체 용어 점수로 합산하여 용어 가중화 랭킹 점수로 산출하여 블로그 포스트의 용어 별로 데이터베이스에 저장을 하는 데이터 베이스 저장단계; 그리고,
ⅳ)상기 데이터베이스에 저장된 정보들을 사용자 질의 서버에서 요청한 검색어와 대응되는 블로그 중요 용어의 상기 용어 가중화 랭킹 점수를 토대로 블로그 목록을 산출하는 검색단계를 포함하는 용어 가중화 색인 기반의 블로그 권위 랭킹 방법.
Iii) a preprocessing step for searching the blogs activated on the Internet through the web robot module to analyze the structure of the posts of each blog, and collecting and normalizing data necessary for determining the blog ranking through the analyzed structure;
Ii) The weighted key term ranking score of the blog post is calculated by applying weights for each structure among terms existing in the title, tag portion, and important phrases of the post among the blog post data analyzed through the preprocessing step. Ranking determination step for;
Iii) the weighted key term score in the ranking determination step and the general term score applied with the frequency for the remaining general terms of the blog post body are added to the overall term score for the post to calculate the term weighted ranking score blog A database storage step of storing the database in terms of post terms; And,
Iii) a search step of calculating a list of blogs based on the term weighting ranking scores of the important blog terms corresponding to the search terms requested by the user query server based on the information stored in the database.
제 1 항에 있어서, 상기 데이터 베이스 저장단계에서 가중화 중요 용어 점수는 제목이 가장 높고, 순차적으로 태그, 앵커텍스트순으로 각각 차등 부여되며, 굵은 글씨, 밑줄, 강조 색상등에서 추출한 용어에도 차등적인 가중치를 부여하며, 상기 빈도수가 적용된 일반 용어 점수는 상기 가중화 중요 용어 점수보다 낮은 상한선을 설정 하는 것을 특징으로 하는 용어 가중화 색인 기반의 블로그 권위 랭킹 방법. The weighted key term score in the database storing step is the highest in the title, and is sequentially given in the order of tag and anchor text, and the weights are differentially applied to terms extracted from bold, underline, and accent color. The terminology weighting index based blog authority ranking method, characterized in that for setting the upper limit lower than the weighted key term score is applied to the general term score applied frequency. 제 1 항에 있어서, 상기 검색단계는 상기 용어 가중화 랭킹 점수와 블로그 생성 날짜 기록 정보를 정규화 수치로 변환한 최신성 인수로 최종 랭킹 점수를 계산하여 상기 용어 가중화 랭킹 점수와 최신성 인수가 높은 블로그 목록을 1차적으로 산출하고, 블로그 목록에서 실제로 사용자가 입력한 검색어와 관련이 있는 포스트들의 랭킹 목록을 2차적으로 산출하여 제공하는 것을 특징으로 하는 용어 가중화 색인 기반의 블로그 권위 랭킹 방법. The method of claim 1, wherein the retrieving step calculates a final ranking score using a recency factor obtained by converting the term weighting ranking score and blog creation date record information into a normalized value, thereby obtaining a high term weighting ranking score and relativity factor. A blog authority ranking method based on a term weighted index, wherein the blog list is first generated, and a list of posts related to a search word actually input by a user is calculated and provided second.
KR1020100076558A 2010-08-09 2010-08-09 an blog prestige ranking method based on weighted indexing of terms KR101448134B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100076558A KR101448134B1 (en) 2010-08-09 2010-08-09 an blog prestige ranking method based on weighted indexing of terms

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100076558A KR101448134B1 (en) 2010-08-09 2010-08-09 an blog prestige ranking method based on weighted indexing of terms

Publications (2)

Publication Number Publication Date
KR20120014466A true KR20120014466A (en) 2012-02-17
KR101448134B1 KR101448134B1 (en) 2014-10-08

Family

ID=45837524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100076558A KR101448134B1 (en) 2010-08-09 2010-08-09 an blog prestige ranking method based on weighted indexing of terms

Country Status (1)

Country Link
KR (1) KR101448134B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032517A (en) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 Method for acquiring structured labels from articles
KR20220152804A (en) 2021-05-10 2022-11-17 김종훈 A baseboard structure of korean-style house

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5222691B2 (en) 2008-10-29 2013-06-26 株式会社リクルートホールディングス Search information provision system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032517A (en) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 Method for acquiring structured labels from articles
CN113032517B (en) * 2019-12-25 2022-05-03 厦门铠甲网络股份有限公司 Method for acquiring structured labels from articles
KR20220152804A (en) 2021-05-10 2022-11-17 김종훈 A baseboard structure of korean-style house

Also Published As

Publication number Publication date
KR101448134B1 (en) 2014-10-08

Similar Documents

Publication Publication Date Title
US10706113B2 (en) Domain review system for identifying entity relationships and corresponding insights
US11663254B2 (en) System and engine for seeded clustering of news events
Balog et al. Formal models for expert finding in enterprise corpora
Mishne Autotag: a collaborative approach to automated tag assignment for weblog posts
Bauer et al. Quantitive evaluation of Web site content and structure
CN101520785B (en) Information retrieval method and system therefor
US20040181427A1 (en) Computer-implemented patent portfolio analysis method and apparatus
JP2010055618A (en) Method and system for providing search based on topic
Lin et al. Finding topic-level experts in scholarly networks
CN111309944B (en) Digital humane searching method based on graph database
KR100954842B1 (en) Method and System of classifying web page using category tag information and Recording medium using by the same
CA2956627A1 (en) System and engine for seeded clustering of news events
Khoo et al. Augmenting Dublin core digital library metadata with Dewey decimal classification
US8364672B2 (en) Concept disambiguation via search engine search results
US8914359B2 (en) Ranking documents with social tags
Kanapala et al. Passage-based text summarization for legal information retrieval
Sharifpour et al. Large-scale analysis of query logs to profile users for dataset search
KR20120014466A (en) An blog prestige ranking method based on weighted indexing of terms
Rana et al. Analysis of web mining technology and their impact on semantic web
Du et al. Scientific users' interest detection and collaborators recommendation
Jatowt et al. Calculating content recency based on timestamped and non-timestamped sources for supporting page quality estimation
Theodosiou et al. Evaluating annotators consistency with the aid of an innovative database schema
Umagandhi et al. Search Query Recommendations using Hybrid User Profile with Query Logs
AU2021100441A4 (en) A method of text mining in ranking of web pages using machine learning
Nakasumi Decision making aid in mobile environment by behavioral characteristic

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee