KR20090001431A - Method and system for analyzing blog - Google Patents

Method and system for analyzing blog Download PDF

Info

Publication number
KR20090001431A
KR20090001431A KR1020070035817A KR20070035817A KR20090001431A KR 20090001431 A KR20090001431 A KR 20090001431A KR 1020070035817 A KR1020070035817 A KR 1020070035817A KR 20070035817 A KR20070035817 A KR 20070035817A KR 20090001431 A KR20090001431 A KR 20090001431A
Authority
KR
South Korea
Prior art keywords
blog
propensity
relationship
network
determining
Prior art date
Application number
KR1020070035817A
Other languages
Korean (ko)
Other versions
KR100882436B1 (en
Inventor
정현주
김혜진
양은주
박건표
김상욱
윤석호
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070035817A priority Critical patent/KR100882436B1/en
Publication of KR20090001431A publication Critical patent/KR20090001431A/en
Application granted granted Critical
Publication of KR100882436B1 publication Critical patent/KR100882436B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/025Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application
    • G06F15/0283Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application for data storage and retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A blog analysis method and system are provided to determine the inclination of blog relation based on a grouping model and determine the inclination of a blog connection network based on the inclination of the determined blog relation. The inclination of plural first blog relations is determined on the basis of a grouping model. The inclination of a blog connection network is determined on the basis of the determined inclination of the first blog relations. A blog analysis system inquires a blog user of plural second blog relations about the inclination and receives the answer. The blog analysis system learns on the basis of the answer and the property data of the second blog relations. The blog analysis system produces the grouping model according to a result of the learning.

Description

블로그 분석 방법 및 시스템 {METHOD AND SYSTEM FOR ANALYZING BLOG}Blog Analytics Method and System {METHOD AND SYSTEM FOR ANALYZING BLOG}

도 1은 본 발명의 실시예에 따른 블로그 분석 시스템을 설명하기 위한 블록도이다.1 is a block diagram illustrating a blog analysis system according to an exemplary embodiment of the present invention.

도 2는 블로그 연결망을 도식화한 도면이다.2 is a diagram illustrating a blog network.

도 3은 블로그 연결망을 그래프로 나타낸 도면이다.3 is a diagram illustrating a blog network.

도 4는 도 1에 도시한 블로그 분석 서버의 블록도이다.4 is a block diagram of the blog analysis server shown in FIG. 1.

도 5는 본 발명의 실시예에 따른 블로그 분석 방법을 도시한 흐름도이다.5 is a flowchart illustrating a blog analysis method according to an embodiment of the present invention.

도 6은 도 5에 도시한 블로그 관계의 성향 판정을 위한 설문 조사의 한 예이다.FIG. 6 is an example of a questionnaire for determining a propensity to blog relationship illustrated in FIG. 5.

도 7은 도 5에 도시한 친분 중시 성향 판정을 위한 분류 모델의 한 예이다.FIG. 7 is an example of a classification model for determining acquaintance-oriented tendencies shown in FIG. 5.

도 8은 도 5에 도시한 정보 중시 성향 판정을 위한 분류 모델의 한 예이다.FIG. 8 is an example of a classification model for determining information-oriented propensity shown in FIG. 5.

도 9는 본 발명의 실시예에 따른 블로그 분석 방법에 따라 블로그 연결망의 성향 점수를 판정하기 위하여 예시한 블로그 연결망이다.9 is a blog network illustrated to determine the propensity score of the blog network in accordance with the blog analysis method according to an embodiment of the present invention.

도 10은 블로그 연결망의 성향 판정의 정확도 측정을 위하여 추출된 블로그 연결망의 예시도이다.10 is an exemplary diagram of a blog network extracted for the accuracy measurement of the propensity determination of the blog network.

<도면 부호의 설명><Description of Drawing>

100: 블로그 서버, 130: 블로그 분석 서버,100: blog server, 130: blog analytics server,

132: 분류 모델 생성 모듈, 134: 관계 성향 판정 모듈,132: classification model generation module, 134: relationship propensity determination module,

136: 연결망 성향 판정 모듈, 160: 데이터베이스,136: network propensity determination module, 160: database,

200: 통신망, 300: 사용자 단말기200: communication network, 300: user terminal

본 발명은 블로그 분석 방법 및 시스템에 관한 것이다.The present invention relates to a blog analysis method and system.

사회 연결망(social network)은 한 사회 내에 존재하는 구성원 사이의 관계 정보를 이용하여 그 사회 전체의 관계 구조를 연결망으로 표현한 것이다. 이러한 관계 구조를 연구하여 그 사회가 가지고 있는 고유의 특징을 도출하는 것을 사회 연결망 분석(social network analysis)이라고 한다. 과거에는 사회 연결망 내의 구성원 사이의 관계 여부를 나타내는 데이터를 확보하는 데 큰 어려움이 있었다. 따라서 기존 연구의 초점은 구성원 사이의 관계에 대한 구체적인 데이터 없이 사회 연결망이 과연 어떠한 구조와 특징을 가지는가를 모델링하는 데에 있었다.A social network is a network that expresses the relationship structure of a society as a whole by using relationship information between members in a society. It is called social network analysis to study the relationship structure and derive the unique characteristics of the society. In the past, it was difficult to obtain data indicating the relationship between members in social networks. Therefore, the focus of the existing research was to model the structure and characteristics of social networks without specific data on the relationship between members.

인터넷의 발달로 인하여 온라인 상에서도 이러한 사회 연결망이 나타났다. 온라인 사회 연결망(online social network)의 가장 큰 특징은 기존의 사회 연결망과는 달리 구성원들 간의 관계를 설명할 수 있는 구체적인 정보와 그 관계에 의하여 주고받는 정보를 데이터베이스 내에 저장하고 있다는 것이다. 이러한 특징으로 인하여 최근 들어 온라인 사회 연결망을 분석하고자 하는 연구가 이루어지고 있다.Due to the development of the Internet, these social networks have appeared online. The most distinctive feature of the online social network is that, unlike the existing social network, it stores specific information that can explain the relationship between members and information exchanged by the relationship in a database. Due to these characteristics, recent researches have been conducted to analyze online social networks.

블로그는 사용자가 자신의 글을 온라인 상에 저장할 수 있는 일종의 개인 웹 사이트이며, 블로그 세계(blog world)는 이러한 블로그로 이루어진 대표적인 온라인 사회 연결망이다. 각 블로그 사용자는 타인의 블로그와 관계를 맺을 수 있으며, 이러한 관계들에 의하여 온라인 사회 연결망이 형성된다. 이하에서는 블로그와 블로그 사이의 관계로 이루어진 사회 연결망을 블로그 연결망(blog network)이라고 한다.A blog is a kind of personal web site where users can store their articles online, and the blog world is a representative online social network of such blogs. Each blog user can have a relationship with someone else's blog, and these relationships form an online social network. Hereinafter, a social network consisting of a relationship between a blog and a blog is called a blog network.

블로그 세계를 운영하는 운영자 또는 기업의 목표는 블로그의 활동이 많아져서 전체적으로 블로그 세계가 활성화되는 것이다. 주로 정보를 주고받는 성향, 주로 친분을 목적으로 글을 주고받는 성향 등과 같이 블로그 연결망에 존재하는 성향은 블로그 연결망의 활성화에 영향을 준다. 블로그 연결망이 어떠한 성향을 가지고 있으며 그 정도가 어떠한가는 해당 블로그 연결망에 대한 활성화 정책을 세우기 위한 중요한 판단 근거가 된다. 그러나 온라인 사회 연결망을 분석한 다양한 연구 기법이 제시되고 있으나 블로그 연결망의 성향을 판정하는 연구에 대하여는 전무한 실정이다.The goal of an operator or a company running a blogging world is to activate the blogging world as a result of the increased activity of the blog. The propensity that exists in blog networks, such as the propensity to send and receive information mainly for the purpose of acquaintance, mainly affects the activation of blog networks. What kind of blog network has a tendency and how much is used as an important judgment ground for establishing an activation policy for the blog network. However, although various research techniques for analyzing online social networks have been suggested, there are no studies on determining the propensity of blog networks.

따라서 본 발명이 이루고자 하는 기술적 과제는 블로그 세계의 활성화 정책을 수립하기 위한 중요한 판단 근거가 되는 블로그 연결망의 성향 및 그 정도를 판정할 수 있는 블로그 분석 방법 및 시스템을 제공하는 것이다.Therefore, the technical problem to be achieved by the present invention is to provide a blog analysis method and system that can determine the propensity and extent of the blog network, which is an important basis for establishing the activation policy of the blog world.

이러한 기술적 과제를 이루기 위한 본 발명의 한 실시예에 따른 블로그 분석 방법은, 분류 모델에 기초하여 복수의 제1 블로그 관계의 성향을 판정하는 단계, 그리고 상기 제1 블로그 관계의 성향에 기초하여 블로그 연결망의 성향을 판정하는 단계를 포함한다.According to an embodiment of the present invention, a blog analysis method includes determining a propensity of a plurality of first blog relationships based on a classification model, and based on the propensity of the first blog relationships. Determining the propensity of.

복수의 제2 블로그 관계의 블로그 사용자에게 상기 성향과 관련된 질의를 하고 응답을 받는 단계, 상기 응답 및 상기 제2 블로그 관계의 속성 정보에 기초하여 학습하는 단계, 그리고 상기 학습 단계에서의 결과에 따라 상기 분류 모델을 생성하는 단계를 더 포함할 수 있다.Asking a blog user of a plurality of second blog relationships related to the inclination and receiving a response, learning based on the response and attribute information of the second blog relationship, and according to the result of the learning step. The method may further include generating a classification model.

상기 제2 블로그 관계의 성향에 복수의 레벨로 나뉘는 클래스 레이블을 부여하는 단계를 더 포함하며, 상기 제1 블로그 관계 성향 판정 단계는 상기 레벨에 할당된 점수를 상기 제1 블로그 관계의 성향 점수에 대응시키는 단계를 포함할 수 있다.And assigning a class label divided into a plurality of levels to the propensity of the second blog relationship, wherein the determining of the first blog relationship propensity corresponds to a score assigned to the level corresponding to the propensity score of the first blog relationship. It may include the step of.

상기 속성 정보는 댓글의 수, 선물의 수, 방명록의 글 수, 스크랩 수 및 방문 수 중 적어도 하나를 포함할 수 있다.The attribute information may include at least one of the number of comments, the number of gifts, the number of posts in the guestbook, the number of scraps, and the number of visits.

상기 분류 모델은 의사 결정 트리, 신경망, 베이시안 분류 및 지네틱 알고리즘 중 어느 하나를 이용하여 생성될 수 있다.The classification model may be generated using any one of a decision tree, a neural network, a Bayesian classification, and a genetic algorithm.

상기 제1 블로그 관계 성향 판정 단계는 상기 제1 블로그 관계의 속성 정보를 상기 분류 모델에 적용하여 상기 제1 블로그 관계의 성향 점수를 산정하는 단계를 포함할 수 있다.The determining of the first blog relationship propensity may include calculating the propensity score of the first blog relationship by applying attribute information of the first blog relationship to the classification model.

상기 블로그 연결망 성향 판정 단계는 상기 제1 블로그 관계의 성향 점수를 합한 후 상기 블로그 연결망에 포함되어 있는 블로그의 수효 및 상기 제1 블로그 관계의 수효 중 어느 하나로 나누어 상기 블로그 연결망의 성향 점수를 산출하는 단계를 포함할 수 있다.The determining of the blog network propensity comprises: calculating the propensity score of the blog network by adding up the propensity scores of the first blog relationship and dividing the number of blogs included in the blog network and the number of the first blog relationships. It may include.

상기 성향은 친분 중시 성향 및 정보 중시 성향 중 적어도 어느 하나를 포함할 수 있다.The propensity may include at least one of acquaintance-oriented propensity and information-oriented propensity.

본 발명의 다른 태양에 따른 블로그 분석 방법은, 복수의 제1 블로그 관계의 블로그 사용자에게 상기 제1 블로그 관계의 성향과 관련된 질의를 하고 응답을 받는 단계, 상기 응답 및 상기 제1 블로그 관계의 속성 정보에 기초하여 학습하는 단계, 상기 학습 단계에서의 결과에 따라 분류 모델을 생성하는 단계, 그리고 상기 분류 모델에 기초하여 복수의 제2 블로그 관계의 성향을 판정하는 단계를 포함한다.According to another aspect of the present invention, a method for analyzing a blog includes: asking a blog user of a plurality of first blog relationships related to a propensity of the first blog relationship and receiving a response, the response and attribute information of the first blog relationship Learning based on, generating a classification model according to the result of the learning step, and determining propensity of a plurality of second blog relationships based on the classification model.

상기 제1 블로그 관계의 성향에 복수의 레벨로 나뉘는 클래스 레이블을 부여하는 단계를 더 포함하며, 상기 제2 블로그 관계 성향 판정 단계는 상기 레벨에 할당된 점수를 상기 제2 블로그 관계의 성향 점수에 대응시키는 단계를 포함할 수 있다.And assigning a class label divided into a plurality of levels to the propensity of the first blog relationship, wherein the determining of the second blog relationship propensity corresponds to a score assigned to the level corresponding to a propensity score of the second blog relationship. It may include the step of.

상기 제2 블로그 관계 성향 판정 단계는 상기 제2 블로그 관계의 속성 정보를 상기 분류 모델에 적용하여 상기 제2 블로그 관계의 성향 점수를 산정하는 단계를 포함할 수 있다.The determining of the second blog relationship propensity may include calculating propensity scores of the second blog relationships by applying attribute information of the second blog relationship to the classification model.

본 발명의 다른 태양에 따른 컴퓨터로 읽을 수 있는 매체는 상기한 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.A computer readable medium according to another aspect of the present invention records a program for causing a computer to execute any of the above methods.

본 발명의 다른 태양에 따른 블로그 분석 시스템은, 분류 모델에 기초하여 복수의 제1 블로그 관계의 성향을 판정하는 관계 성향 판정 모듈, 그리고 상기 제1 블로그 관계의 성향에 기초하여 블로그 연결망의 성향을 판정하는 연결망 성향 판정 모듈을 포함한다.A blog analysis system according to another aspect of the present invention is a relationship propensity determining module for determining propensity of a plurality of first blog relationships based on a classification model, and determining a propensity of a blog network based on the propensity of the first blog relationships. It includes a network propensity determination module to.

복수의 제2 블로그 관계의 블로그 사용자로부터 상기 성향과 관련된 질의에 따른 응답을 받고, 상기 응답 및 상기 제2 블로그 관계의 속성 정보에 기초하여 학습하며, 상기 학습 결과에 따라 상기 분류 모델을 생성하는 분류 모델 생성 모듈을 더 포함할 수 있다.Receiving a response according to a query related to the propensity from a plurality of blog users of a plurality of second blog relationships, learning based on the response and attribute information of the second blog relationship, and classifying to generate the classification model according to the learning result. It may further include a model generation module.

상기 분류 모델 생성 모듈은 상기 제2 블로그 관계의 성향에 복수의 레벨로 나뉘는 클래스 레이블을 부여하고, 상기 관계 성향 판정 모듈은 상기 레벨에 할당된 점수를 상기 제1 블로그 관계의 성향 점수에 대응시킬 수 있다.The classification model generation module assigns a class label divided into a plurality of levels to the propensity of the second blog relationship, and the relationship propensity determining module may correspond to the propensity score of the first blog relationship with a score assigned to the level. have.

상기 관계 성향 판정 모듈은 상기 제1 블로그 관계의 속성 정보를 상기 분류 모델에 적용하여 상기 제1 블로그 관계의 성향 점수를 산정할 수 있다.The relationship propensity determination module may calculate the propensity score of the first blog relationship by applying attribute information of the first blog relationship to the classification model.

상기 연결망 성향 판정 모듈은 상기 제1 블로그 관계의 성향 점수를 합한 후 상기 블로그 연결망에 포함되어 있는 블로그의 수효 및 상기 제1 블로그 관계의 수효 중 어느 하나로 나누어 상기 블로그 연결망의 성향 점수를 산출할 수 있다.The network propensity determination module may calculate the propensity score of the blog network by adding up the propensity scores of the first blog relations and dividing by any one of the number of blogs included in the blog network and the number of the first blog relations. .

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention.

먼저, 도 1 내지 도 4를 참고하여 본 발명의 실시예에 따른 블로그 분석 시스템 및 분석의 대상이 되는 블로그 연결망에 대하여 상세하게 설명한다.First, referring to FIGS. 1 to 4, a blog analysis system and a blog connection network targeted for analysis according to an embodiment of the present invention will be described in detail.

도 1은 본 발명의 실시예에 따른 블로그 분석 시스템을 설명하기 위한 블록 도이고, 도 2는 블로그 연결망을 도식화한 도면이며, 도 3은 블로그 연결망을 그래프로 나타낸 도면이고, 도 4는 도 1에 도시한 블로그 분석 서버의 블록도이다.1 is a block diagram illustrating a blog analysis system according to an embodiment of the present invention, FIG. 2 is a diagram illustrating a blog network, FIG. 3 is a diagram illustrating a blog network, and FIG. 4 is a diagram of FIG. A block diagram of the illustrated blog analysis server.

도 1을 참고하면, 본 발명의 실시예에 따른 블로그 분석 시스템은 블로그 서버(100), 블로그 분석 서버(130), 그리고 데이터베이스(160)를 포함하며, 통신망(200)을 통하여 복수의 사용자 단말기(300)와 연결되어 있다.Referring to FIG. 1, a blog analysis system according to an embodiment of the present invention includes a blog server 100, a blog analysis server 130, and a database 160, and includes a plurality of user terminals through a communication network 200 ( 300).

블로그 서버(100)는 사용자에게 블로그 서비스를 제공한다. 블로그는 사용자의 관심사에 따라 자유롭게 글을 올릴 수 있는 일종의 개인 웹 사이트로서, 블로그 서버(100)는 사용자에게 블로그를 제공하고 사용자가 텍스트, 이미지, 동영상, 음악 등을 포함하는 문서(또는 게시글)를 자신의 블로그에 기록할 수 있도록 한다. 그리고 블로그 서버(100)는 사용자의 요청에 따라 자신의 블로그 문서 및 다른 사용자의 블로그 문서를 해당 사용자 단말기(300)에 전송하고 표시한다.The blog server 100 provides a blog service to a user. A blog is a kind of personal web site that allows users to post freely according to their interests. The blog server 100 provides a blog to the user and allows the user to create a document (or post) including text, images, videos, music, and the like. Make sure that you write to your blog. The blog server 100 transmits and displays its own blog document and other user's blog document to the corresponding user terminal 300 according to a user's request.

또한 블로그 서버(100)는 사용자가 자신의 블로그 및 다른 사용자의 블로그에 대하여 행한 행동을 기록해 둔다. 즉, 블로그 서버(100)는 블로그에서 일어나는 모든 상황에 대한 정보, 예를 들면, 사용자가 다른 사용자의 블로그에 방문한 이력, 사용자가 다른 사용자의 블로그 문서에 댓글을 기록한 이력, 사용자가 다른 사용자에게 선물(아이템)을 준 내역, 방명록에 작성한 글과 관련된 이력 등을 포함하는 블로그 데이터를 데이터베이스(160)에 기록해 둔다.In addition, the blog server 100 records the actions that the user has performed on his blog and other users' blogs. That is, the blog server 100 may provide information on all situations occurring in a blog, for example, a history of a user's visit to another user's blog, a history of a user's comment on another user's blog document, and a user present to another user. The blog data including the details of the items (items) given and the history related to the articles written in the guest book are recorded in the database 160.

데이터베이스(160)는 블로그 서버(100)로부터 블로그 문서 및 블로그 데이터를 받아 기억하고, 블로그 서버(100) 및 블로그 분석 서버(130)로부터의 요청에 따라 해당 문서 및 데이터를 제공한다. 블로그 문서의 종류에 따른 텍스트, 이미지, 동영상 등을 별도의 데이터베이스에 기억할 수 있으며, 블로그 데이터 등도 별도의 데이터베이스에 기억할 수 있다.The database 160 receives and stores blog documents and blog data from the blog server 100, and provides corresponding documents and data according to requests from the blog server 100 and the blog analysis server 130. Text, images, videos, etc. according to the types of blog documents can be stored in a separate database, and blog data can be stored in a separate database.

통신망(200)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.The communication network 200 may include a telephone network as well as a data communication network including a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), the Internet, and the like. It can be used, and it does not matter wired and wireless, and it does not matter which communication method is used.

사용자 단말기(300)는 통신망(200)을 통하여 블로그 서버(100) 및 블로그 분석 서버(130)에 접속하여 정보를 주고받으며, 블로그 서버(100)로부터의 블로그 문서를 브라우저(도시하지 않음) 등에 표시한다. 사용자 단말기(300)는 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, 개인 휴대용 정보 단말기(personal digital assistant, PDA), 웹 패드, 이동 통신 단말기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다.The user terminal 300 connects to and receives information from the blog server 100 and the blog analysis server 130 through the communication network 200, and displays the blog document from the blog server 100 in a browser (not shown). do. The user terminal 300 is provided with memory means such as a laptop computer, a workstation, a palmtop computer, a personal digital assistant (PDA), a web pad, a mobile communication terminal, as well as a desktop computer, and includes a microprocessor. It can be made of a terminal equipped with a computing power.

사용자는 사용자 단말기(300)를 통하여 자신의 블로그에 문서를 작성할 수 있고, 자신의 문서를 볼 수 있으며, 자신의 블로그에 타인의 블로그 문서의 링크를 만들거나 자신의 블로그로 타인의 블로그 문서를 스크랩하여 가져올 수 있다. 또한 사용자는 타인의 블로그 문서를 볼 수 있고, 타인의 블로그 문서에 댓글(reply)을 쓸 수 있다.The user can write a document on his blog through the user terminal 300, can view his own document, create a link to another person's blog document on his blog, or scrap another person's blog document with his own blog. Can be imported. Users can also view other people's blog documents and write replies to other people's blog documents.

블로그 사용자는 관심이 있는 타인의 블로그와 자신의 블로그 사이에 관계를 맺을 수 있다. 이러한 관계로 인하여 블로그 세계에서는 온라인 사회 연결망, 즉 블로그 연결망이 형성된다. 도 2를 참고하면, BA 내지 BH로 표현된 둥근 사각형은 각 사용자의 블로그를 나타내며, da 내지 dh로 표현된 작은 사각형은 각 블로그에 저장되어 있는 문서를 의미한다. 실선 화살표는 한 사용자 블로그에 있는 문서에 대해서 다른 사용자 블로그에 링크를 만들었거나 스크랩을 한 것을 나타낸다. 이 결과, 블로그 BD의 문서 dc는 블로그 BA의 문서 dc와 내용이 같다. 블로그와 블로그 사이에 있는 실선은 블로그와 블로그 사이의 관계가 존재함을 의미하며, 예를 들어, 블로그 BA와 블로그 BD는 서로 관계를 맺었음을 나타낸다. 도 3을 참고하면, 블로그 연결망(GB)은 그래프로 더욱 간략하게 표현될 수 있다. 동그라미는 각 블로그를 의미하며, 실선은 블로그들 간의 관계를 의미한다. 점선으로 둘러싸인 부분(G1)은 블로그 연결망(GB)의 부분 연결망을 나타낸다. 물론 블로그 연결망(GB)도 전체 블로그 연결망의 부분 연결망일 수 있다. 이하 전체 블로그 연결망, 부분 연결망 등을 구별하지 않고 블로그 연결망이라 한다.Blog users can establish a relationship between their blog and others' blogs. This relationship forms the online social network, or blog network, in the blog world. Referring to FIG. 2, a rounded rectangle represented by BA to BH represents a blog of each user, and a small rectangle represented by da to dh means a document stored in each blog. The solid arrows indicate that you have linked or scrapped a document on one user blog to another user blog. As a result, the document dc of the blog BD is identical to the article dc of the blog BA. The solid line between the blog and the blog indicates that there is a relationship between the blog and the blog, for example, that the blog BA and the blog BD are related to each other. Referring to FIG. 3, the blog network GB may be more simply represented as a graph. Circles represent each blog, and solid lines represent relationships between blogs. The part G1 enclosed by the dotted lines represents a partial network of the blog network GB. Of course, the blog network may also be a partial network of the entire blog network. Hereinafter, the blog network will be referred to without distinguishing the entire blog network or partial network.

도 4를 참고하면, 블로그 분석 서버(130)는 분류 모델 생성 모듈(132), 관계 성향 판정 모듈(134) 및 연결망 성향 판정 모듈(136)을 포함한다. 분류 모델 생성 모듈(132)은 블로그 사용자로부터 응답된 관계 성향 관련 데이터 및 속성 정보에 기초하여 의사 결정 트리를 생성하고, 관계 성향 판정 모듈(133)은 데이터베이스(160)에 기억되어 있는 블로그 관계의 속성 정보 및 의사 결정 트리에 기초하여 블로그 관계의 성향 정도를 판정하며, 연결망 성향 판정 모듈(136)은 블로그 연결망에 포함되어 있는 블로그 관계의 성향 정도에 기초하여 블로그 연결망의 성향 정도를 판정한다.Referring to FIG. 4, the blog analysis server 130 includes a classification model generation module 132, a relationship propensity determination module 134, and a network propensity determination module 136. The classification model generation module 132 generates a decision tree based on the relationship propensity related data and attribute information returned from the blog user, and the relationship propensity determination module 133 attributes the blog relations stored in the database 160. The degree of propensity of the blog relationship is determined based on the information and the decision tree, and the network propensity determination module 136 determines the degree of propensity of the blog network based on the degree of propensity of the blog relationship included in the blog network.

블로그 연결망은 그 내부에 존재하는 글(또는 문서)의 목적에 따라 구분되는 적어도 두 개의 서로 다른 성향을 가질 수 있다. 예를 들면, 어떤 블로그 연결망에서는 사용자들이 주식, 여행 등과 관련된 정보성 글을 작성하고 수집한다. 이렇게 정보의 전파와 수집을 목적으로 글을 주고받는 성향을 정보 중시 성향이라고 정의한다. 반면, 어떤 블로그 연결망에서는 사용자들이 안부, 소식 등과 같은 서로 간의 관계를 유지하고 발전시키기 위한 글을 작성한다. 이와 같이 사용자 사이에 친분을 목적으로 글을 주고받는 성향을 친분 중시 성향이라고 정의한다. 블로그 연결망에서 주고받는 사이버 선물들은 친분 중시 성향이 강한 블로그 연결망에서 더욱 활발하게 거래되고, 또한 정보 중시 성향이 강한 블로그 연결망은 정보성 글이 많이 읽혀지며 전파될 수 있다. 일반적으로 전체 블로그 연결망 내에는 이러한 두 가지 성향이 혼재되어 있다. 물론 블로그 연결망은 이러한 성향 이외에도 다양한 성향을 가질 수 있다. 블로그 분석 서버(130)는 주어진 임의의 블로그 연결망이 가지고 있는 성향에 대하여 그 정도를 판정한다.The blog network may have at least two different dispositions depending on the purpose of the article (or document) existing therein. For example, in some blog networks, users write and collect informative articles related to stocks, travel, and so on. The propensity to send and receive texts for the purpose of disseminating and collecting information is defined as information-oriented propensity. On the other hand, in some blog networks, users write articles to maintain and develop relationships with each other, such as regards and posts. As described above, the propensity to send and receive texts among the users for the purpose of acquaintance is defined as acquaintance-oriented propensity. The cyber gifts exchanged in the blog network are more actively traded in the blog network, which has a strong tendency toward friendliness, and the blog network, which has a strong tendency toward information, can be spread and read a lot of informational texts. In general, these two inclinations are mixed within an entire blog network. Of course, blog networks can have a variety of inclinations. The blog analysis server 130 determines the degree with respect to the propensity of any given blog network.

블로그 분석 서버(130)는 블로그 서버(100)에 포함되어 구현될 수 있으며, 블로그 서버(100) 및 블로그 데이터베이스(160)에 연결되지 않고 독립된 시스템으로서 분리된 채 블로그 데이터를 입력받아 해당 기능을 수행할 수도 있다.The blog analysis server 130 may be implemented by being included in the blog server 100. The blog analysis server 130 may be implemented as a separate system without being connected to the blog server 100 and the blog database 160 to receive blog data and perform a corresponding function. You may.

그러면 도 5 내지 도 9를 참고하여 블로그 연결망이 가지고 있는 성향의 정도를 판정하는 블로그 분석 방법에 대하여 상세하게 설명한다.Next, a blog analysis method for determining the degree of propensity of the blog network will be described in detail with reference to FIGS. 5 to 9.

도 5는 본 발명의 실시예에 따른 블로그 분석 방법을 도시한 흐름도이고, 도 6은 도 5에 도시한 블로그 관계의 성향 판정을 위한 설문 조사의 한 예이다. 도 7 은 도 5에 도시한 친분 중시 성향 판정을 위한 분류 모델의 한 예이고, 도 8은 도 5에 도시한 정보 중시 성향 판정을 위한 분류 모델의 한 예이며, 도 9는 본 발명의 실시예에 따른 블로그 분석 방법에 따라 블로그 연결망의 성향 점수를 판정하기 위하여 예시한 블로그 연결망이다.FIG. 5 is a flowchart illustrating a blog analysis method according to an exemplary embodiment of the present invention, and FIG. 6 is an example of a questionnaire for determining a propensity to blog relationship illustrated in FIG. 5. FIG. 7 is an example of a classification model for determination of acquaintance-oriented tendencies shown in FIG. 5, FIG. 8 is an example of a classification model for determination of information-oriented tendencies shown in FIG. 5, and FIG. 9 is an embodiment of the present invention. The blog network is illustrated to determine the propensity score of the blog network according to the blog analysis method according to the present invention.

먼저, 블로그 분석 서버(130)는 블로그 연결망의 기본 단위인 블로그들 간의 관계에 대해서 성향의 정도를 판정하고, 그 결과를 이용해서 블로그 연결망이 가지고 있는 성향의 정도를 판정한다. 도 5를 참고하면, 본 발명의 실시예에 따른 블로그 분석 방법은 설문 조사 단계(S410), 클래스 레이블 부여 단계(S420), 분류를 위한 관계 속성 생성 단계(S430), 분류 모델 생성 단계(S440), 그리고 연결망 성향 판정 단계(S450)를 포함한다. 이러한 각 단계에 대하여 좀 더 상세하게 설명한다. 이하, 블로그 연결망의 성향은 앞서 설명한 친분 중시 성향과 정보 중시 성향을 예로 하여 설명한다.First, the blog analysis server 130 determines the degree of inclination with respect to the relationship between blogs which are the basic units of the blog network, and uses the result to determine the degree of inclination of the blog network. Referring to FIG. 5, in the blog analysis method according to the embodiment of the present invention, a survey step (S410), a class labeling step (S420), a relationship attribute generation step (S430) for classification, and a classification model generation step (S440) And, the network propensity determination step (S450). Each of these steps will be described in more detail. Hereinafter, the propensity of the blog network will be described by using the acquaintance-oriented propensity and information-oriented propensity described above as an example.

설문 조사Poll

두 블로그 사이의 관계 성향을 판정하기 위해서 우선 블로그 사용자에게 설문 조사를 한다. 두 블로그 사이의 관계 성향은 해당 블로그 사용자가 스스로 판정할 수 있다. 따라서 블로그 사용자에게 자신이 직접적으로 참여하는 관계에 대해서 설문을 통하여 성향과 관련된 질의를 한다. 즉, 각 블로그 관계에 직접적으로 관여하는 두 블로그 사용자에게 특정 성향이 강하다고 판단되는 글의 종류를 제시하고, 제시된 글을 각 사용자가 다른 사용자의 블로그에서 얼마나 자주 보았는지 질의한다. 그 후에 설문 조사 결과를 계량화함으로써 각 관계의 성향 정도를 판정 한다. 이렇게 하면 사용자에게 블로그 관계의 성향 정도 그 자체를 직접 질의하는 것에 비하여 블로그 관계의 성향 정도를 객관적으로 판정할 수 있다.In order to determine the propensity for the relationship between the two blogs, we first survey the blog users. The relationship propensity between the two blogs can be determined by the blog user himself. Therefore, a question related to the propensity is asked through a questionnaire about the relationship that the blog user directly participates in. In other words, the two blog users who are directly involved in each blog relationship are presented with the kinds of articles deemed to have a particular tendency, and how often each user sees the posts in the blogs of other users. The survey results are then quantified to determine the degree of inclination of each relationship. This makes it possible to objectively determine the degree of inclination of the blog relationship compared to directly inquiring the degree of inclination of the blog relationship with the user.

설문은 정보 중시 성향에 대해서 물어보는 문항과 친분 중시 성향에 대해서 물어보는 문항을 포함한다. 예를 들면, 도 6과 같이 친분 중시 성향 판정을 위한 설문과 정보 중시 성향 판정을 위한 설문을 블로그 사용자에게 제시하고 그 응답에 따라 관계 성향을 판정할 수 있다. 친분 중시 성향 판정용 설문은 '일상적인 생활에 관한 글', '개인적인 사진'을 얼마나 자주 보거나 '안부 관련 글'에 대하여 사용자가 얼마나 자주 작성하는지 묻고, 정보 중시 성향 판정용 설문은 '유용한 정보', '특정 주제와 관련된 사진', '재미와 감동을 주는 글'을 사용자가 얼마나 자주 보는지 묻는다. 사용자는 각 문항에 대한 답변으로 '하루에 한 번 이상', '일주일에 한 번 이상', '한 달에 한 번 이상', '총 한두 번 이상', '없다'와 같은 보기 중에서 어느 하나를 선택할 수 있다. 물론 보기에 제시된 기준 시간(하루, 일주일, 한 달 등)은 필요에 따라 변경될 수 있으며, 보기의 수효도 변경될 수 있다. 친분 및 정보 중시 성향에 대한 문항을 각각 세 개씩 예시하였으나, 문항 수효는 필요에 따라 가감될 수 있으며, 문항 내용도 달리 할 수 있다.The questionnaire includes questions that ask about information-oriented disposition and questions about acquaintance-oriented disposition. For example, as shown in FIG. 6, a questionnaire for determining an acquaintance-oriented tendency and a questionnaire for determining an information-oriented tendency may be presented to a blog user and the relationship propensity may be determined according to the response. The questionnaire for determining the importance of acquaintance asks how often you look at 'daily life articles', 'personal photos' or how often the user writes for 'safety related articles', and the questionnaire for information-oriented disposition is 'useful information' Ask how often users see "photo of a specific topic" or "interesting and inspiring posts". In response to each question, the user can select one of the following views: "at least once a day", "at least once a week", "at least once a month", "at least once or twice", or "none" You can choose. Of course, the reference time presented in the view (day, week, month, etc.) can be changed as needed, and the number of views can also be changed. Three questions about acquaintance and information-oriented tendency are illustrated, but the number of items can be added or subtracted as needed, and the contents of the items can be different.

설문 조사는 블로그 서버(100) 또는 블로그 분석 서버(130)가 사용자 단말기(300)에 설문 페이지를 표시하고 사용자가 이에 응답하는 방식으로 진행할 수 있다. 사용자의 설문 참여를 유도하기 위하여 사용자가 설문에 응하면 소정의 보상을 줄 수 있다. 임의의 블로그 연결망에 존재하는 모든 관계에 대하여 설문 조사를 할 수 있지만 일부분의 관계에 대하여 설문 조사를 행할 수도 있다.The survey may be performed in a manner in which the blog server 100 or the blog analysis server 130 displays a survey page on the user terminal 300 and the user responds thereto. In order to induce the user to participate in the survey, a predetermined reward may be given when the user responds to the survey. You can survey all the relationships that exist in any blog network, but you can also survey some of the relationships.

이러한 설문 조사는 선택적으로 수행될 수 있다. 즉, 설문 조사는 블로그 관계의 성향을 판정할 수 있는 기초 자료를 용이하게 수집하기 위한 것으로서, 필요에 따라 이를 생략할 수 있다. 이를 대신하여 블로그 분석 서버(130)는 블로그 사용자가 관계를 맺고 있는 다른 블로그에서 글을 보거나 글을 남기는 동작에 대하여 로그를 기록해 두고 이를 분석함으로써 설문 조사와 동일한 결과를 추출할 수 있다.Such surveys may be optionally performed. That is, the survey is to easily collect the basic data for determining the propensity of the blog relationship, it can be omitted as necessary. Instead, the blog analysis server 130 may extract the same result as the questionnaire by recording a log of an operation of viewing or writing a post in another blog to which the blog user has a relationship.

클래스 레이블 부여Class labeling

본 발명의 실시예에 따른 블로그 분석 방법에서는 블로그 관계의 성향 정도를 판정할 수 있는 기준이 되는 클래스 레이블(class label)을 부여한다. 분류 모델(classification model)을 만들기 위하여 먼저 판정하고자 하는 대상을 정해야 하는데, 이를 클래스 레이블이라 한다. 따라서 본 발명의 실시예에서 클래스 레이블은 설문 조사를 통하여 얻고자 하는 결과, 즉 각 관계의 성향 정도이다. 예를 들면, 클래스 레이블은 상, 중, 하와 같은 레벨로 나뉠 수 있다. 그러나 클래스 레이블은 필요에 따라 임의의 수효의 레벨로 정할 수도 있다. 즉, 상중하 3 레벨이 아니라 2 레벨 또는 4 레벨 이상으로 성향 정도를 나눌 수 있다. 또한 클래스 레이블의 명칭도 임의로 정할 수 있다.In the blog analysis method according to an embodiment of the present invention, a class label which is a criterion for determining the degree of propensity of blog relationship is assigned. In order to create a classification model, we first need to determine what we want to determine. This is called a class label. Therefore, in the embodiment of the present invention, the class label is the result that is to be obtained through the survey, that is, the degree of propensity of each relationship. For example, class labels can be divided into levels such as top, middle, and bottom. However, the class label can be set to any number of levels as needed. That is, the degree of inclination can be divided into two levels or four levels or more, not three levels of upper and lower sides. The name of the class label can also be arbitrarily determined.

설문 조사에서 사용자가 선택한 답변을 기초로 하여 블로그 관계의 성향 점수를 계산하고 이 점수에 따라 해당 블로그 관계가 클래스 레이블 중 어느 하나에 속하도록 한다. 하나의 관계에 대하여 두 명의 블로그 사용자가 관여하므로 두 사용자의 설문 결과를 합하고 평균을 내어서 하나의 블로그 관계의 성향 점수를 산출 한다. 그런 후 산출된 성향 점수를 클래스 레이블로 변환한다.The survey calculates the propensity score of the blog relationship based on the answer selected by the user, and accordingly, makes the blog relationship belong to one of the class labels. Since two blog users are involved in one relationship, the survey results of the two users are summed and averaged to calculate the propensity score of one blog relationship. Then, the calculated propensity score is converted into a class label.

친분 중시 성향 점수(PER) 및 정보 중시 성향 점수(PEI)는 각각 다음 [수학식 1] 및 [수학식 2]와 같이 계산된다.The acquaintance-oriented propensity score (PE R ) and the information-oriented propensity score (PE I ) are calculated as in Equations 1 and 2, respectively.

Figure 112007027902887-PAT00001
Figure 112007027902887-PAT00001

Figure 112007027902887-PAT00002
Figure 112007027902887-PAT00002

여기서 i는 문항 번호, Wi는 i번째 문항의 점수, N(QR)은 친분 중시 성향에 대한 문항 수, N(QI)는 정보 중시 성향에 대한 문항 수이다.Where i is the item number, Wi is the score of the i-th item, N (Q R ) is the number of items with respect to intimacy, and N (Q I ) is the number of items with information-oriented propensity.

예를 들어, 도 6에 도시한 설문 조사에서 각 보기에 부여된 점수를 '하루에 한 번 이상'은 30점, '일주일에 한 번 이상'은 15점, '한 달에 한 번 이상'은 5점, '총 한두 번 이상'은 1점, '없다'는 0점으로 각각 배정할 수 있다. 물론 각 문항의 보기에 이와 다른 점수를 배정할 수도 있다. 각 문항에 대하여 사용자가 선택한 보기에 배정된 점수를 합하여 해당 성향 점수를 산출한다. 어떤 블로그 사용자가 친분 중시 성향에 대한 세 문항에 대해서 모두 '하루에 한 번 이상' 이라고 답하고, 상대방 블로그 사용자가 친분 중시 성향에 대한 세 문항에 대해서 모두 '한 달에 한 번 이상' 이라고 답한 경우, 친분 성향 점수는 90(30×3)점과 15(5×3)점의 평균인 52.5점이 된다. 그리고 예를 들어, 블로그 관계의 성향 점수가 45점 이 상이면 해당 블로그 관계의 성향 정도를 '상'으로, 45점 미만 15점 이상이면 '중'으로, 15점 미만이면 '하'로 둘 수 있으며, 따라서 이 예에서 친분 중시 성향의 정도는 '상'이 된다.For example, in the survey shown in FIG. 6, the score given to each view is 30 points at least once a day, 15 points at least once a week, and at least once a month. Five points, one or more times or more, can be assigned to one point and zero to none. You can, of course, assign different scores to the view of each question. For each item, the scores of the propensity scores are calculated by adding the scores assigned to the view selected by the user. A blog user answers all three questions about friendliness at all times, and a blog user answers all three questions about friendliness at least once a month. The acquaintance propensity score is 52.5, the average of 90 (30 × 3) and 15 (5 × 3) points. For example, if the propensity score of the blog relationship is 45 points or more, the degree of propensity of the blog relationship can be set to 'high', less than 45 points and 15 points or more, 'medium', and less than 15 points, 'low'. Thus, in this example, the degree of acquaintance-oriented tendency is 'phase'.

분류를 위한 관계 속성의 생성Create Relationship Attributes for Classification

본 발명의 실시예에 따른 블로그 분석 방법은 데이터 마이닝(data mining)의 분류 기법(classification) 중 하나인 의사 결정 트리(decision trees)를 사용하여 분류 모델을 만든다. 물론, 의사 결정 트리 이외에도 신경망, 베이시안 분류, 지네틱 알고리즘 등과 같은 다른 분류 기법을 이용하여 분류 모델을 만들 수도 있다.The blog analysis method according to an embodiment of the present invention creates a classification model using decision trees, which is one of classification methods of data mining. Of course, in addition to decision trees, classification models can also be created using other classification techniques such as neural networks, Bayesian classification, and genetic algorithms.

본 발명의 실시예에 따른 블로그 분석 방법에서는 의사 결정 트리에서 의사 결정의 기준이 되는 속성(attribute)을 생성한다. 이러한 속성은 블로그와 관련된 이력 정보 및 사용자 정보를 포함하는 모든 블로그 데이터를 기초로 하여 생성될 수 있다. 즉, 속성은 관계의 특성을 설명할 수 있는 것으로 선택될 필요가 있으며, 이러한 속성의 예로서, 댓글의 수, 선물의 수, 방명록에 남긴 글의 수, 스크랩 수, 방문 횟수 등을 들 수 있다. 여기서 각 수효는 하나의 블로그 관계를 이루는 두 블로그 사용자 사이에서 서로 주고받은 수효의 합이다.In the blog analysis method according to an exemplary embodiment of the present invention, an attribute that is a criterion for decision making is generated in a decision tree. Such an attribute may be generated based on all blog data including historical information and user information related to the blog. In other words, the attributes need to be selected to describe the characteristics of the relationship, and examples of such attributes include the number of comments, the number of gifts, the number of posts left in the guestbook, the number of scraps, the number of visits, and the like. . Here, each number is the sum of the numbers exchanged between two blog users forming one blog relationship.

블로그에 기록된 댓글의 수효에 따라 관계 성향의 정도를 파악할 수 있고, 방문 횟수나 스크랩 수 등도 마찬가지이다. 예를 들면, 선물은 블로그 연결망에서 아는 사람들 사이에서 많이 거래되는 아이템으로서 선물을 주고받은 횟수가 친분 중시 성향을 판정하는데 중요한 기준이 될 수 있다. 또한 정보 수집을 목적으로 하는 사람은 타인의 블로그에서 관심 있는 글 복사해서 가져오는 경우가 많으며, 따라서 스크랩 수는 정보 중시 성향을 판정하는데 중요한 기준이 될 수 있다. 속성은 블로그 데이터에 기초하여 다양하게 선택될 수 있으며, 그 수효도 필요에 따라 다양하게 설정될 수 있다. 속성의 수효는 예를 들면 30개로 할 수 있다.Depending on the number of comments recorded on the blog, you can determine the degree of relationship inclination, as well as the number of visits and scraps. For example, a gift is an item that is frequently traded among people who know in a blog network, and the number of gifts sent and received may be an important criterion for determining the importance of acquaintance. In addition, people who collect information are often copying articles of interest from other people's blogs, so the number of scraps can be an important criterion for determining information-oriented propensity. The attribute may be variously selected based on the blog data, and the number may be variously set as necessary. The number of attributes can be 30, for example.

분류 모델 생성Create classification model

블로그 분석 서버(130)는 블로그 사용자에 의해서 실제 성향 정도가 제시된 복수의 블로그 관계에 관련된 데이터를 트레이닝 데이터(training data)로 이용하여 학습을 수행하고, 학습된 결과를 이용하여 새로 주어진 블로그 관계의 성향을 자동으로 판정할 수 있는 분류 모델을 생성한다. 즉, 앞서 설문 조사를 통하여 성향 정도를 산출한 블로그 관계의 클래스 레이블과 속성 정보를 기초로 학습을 수행하여 의사 결정 트리를 생성한다. 의사 결정 트리를 생성하는 학습 방법의 예로서 CART(classification and regression trees) 알고리즘, CHAID(chi-squared automatic interaction detection) 알고리즘, C4.5 알고리즘 등을 들 수 있으나 이에 한정되지 않으며 이들과 다른 알고리즘을 사용할 수도 있다. 이러한 알고리즘은 널리 알려져 있는 것으로서, 이에 대하여는 상세한 설명을 생략한다.The blog analysis server 130 performs training by using data related to a plurality of blog relationships whose actual inclinations are suggested by the blog user as training data, and uses the learned results to propagate the newly given blog relationship. Create a classification model that can automatically determine. That is, the decision tree is generated by learning based on the class label and attribute information of the blog relationship, which has been calculated through the questionnaire. Examples of learning methods for generating decision trees include, but are not limited to, classification and regression trees (CART) algorithms, chi-squared automatic interaction detection (CHAID) algorithms, and C4.5 algorithms. It may be. Such algorithms are well known and will not be described in detail.

블로그 분석 서버(130)는 친분 중시 성향 판정을 위한 것과 정보 중시 성향 판정을 위한 것 두 가지의 의사 결정 트리를 생성할 수 있으며, 도 7 및 도 8은 각각 친분 및 정보 중시 성향 판정용 의사 결정 트리의 일례를 보여준다. 이 의사 결정 트리는 이진 트리 구조로 이루어져 있으며, 하나의 마디(node)에서 두 개의 자식 마디가 분리되어 끝마디(terminal node)까지 진행해 나가는 구조로 되어 있다. 각 마디에는 속성 중 어느 하나가 부여되고 끝마디에는 성향 정도를 나타내는 클래스 레이블(CL)이 부여된다. 임의의 블로그 관계의 성향 정도는 해당 블로그 관계의 속성 정보에 따라 각 마디에 설정된 조건에 맞춰 분기하여 해당 끝마디에 부여된 클래스 레이블(CL)로 판정된다.The blog analysis server 130 may generate two decision trees for determining an acquaintance-oriented propensity and for determining an information-oriented propensity, and FIGS. 7 and 8 show a decision tree for determining an acquaintance and an information-oriented propensity, respectively. Shows an example. This decision tree consists of a binary tree structure, in which two child nodes are separated from one node and proceed to the terminal node. Each node is given one of its attributes, and the end node is given a class label (CL) indicating the degree of propensity. The degree of propensity of any blog relationship is determined according to the condition information set in each node according to the attribute information of the blog relationship and determined by the class label CL assigned to the end node.

도 7을 참고하면, 첫 번째 마디의 속성으로서 댓글의 수가 부여되어 있으며, 이것은 분류에 가장 큰 기준이 된다. 블로그 관계의 성향은 댓글의 수가 4를 초과하면 왼쪽 마디로 진행하고 4 이하면 오른쪽 마디로 진행한다. 두 번째 마디에서 다시 댓글의 수에 따라 분기되고, 선물의 수에 따라 분기되며, 세 번째 마디에서 방명록의 글 수 및 스크랩 수에 따라 분기된다. 이러한 방식으로 끝마디까지 진행하면 해당 블로그 관계의 친분 성향 정도는 해당 끝마디에 부여되어 있는 클래스 레이블(CL)이 된다.Referring to FIG. 7, the number of comments is given as an attribute of the first node, which is the largest criterion for classification. The propensity of blog relations goes to the left node when the number of comments exceeds 4, and to the right node when the number of comments exceeds 4. In the second node again, branching is based on the number of comments, branching is based on the number of gifts, and branching is based on the number of articles and scraps in the guestbook. If you proceed to the end in this way, the familiarity of the blog relationship becomes the class label (CL) assigned to the end.

도 8을 참고하면, 친분 중시 성향 판정용 의사 결정 트리에서와 마찬가지로 정보 중시 성향 판정용 의사 결정 트리도 첫 번째 마디의 속성으로 댓글의 수가 부여되어 있다. 블로그 관계의 성향은 댓글의 수, 스크랩 수, 블로그 생성일 차이, 선물 수, 방문 수, 방문 의존도 등에 따라 분기되어 해당 끝마디에 부여되어 있는 클래스 레이블(CL)로 분류된다.Referring to FIG. 8, as in the decision tree for determining intimacy-oriented propensity, the decision tree for determining information-oriented propensity is also provided with the number of comments as an attribute of the first node. The propensity of blog relations is classified into a class label (CL) assigned to the end segment by branching according to the number of comments, the number of scraps, the date of blog creation, the number of gifts, the number of visits, and the degree of visit dependence.

이와 같이 본 발명의 실시예에 따른 블로그 분석 방법에 의하면, 설문 조사를 통하여 블로그 사용자에 의해서 성향이 판정된 관계들을 가지고 친분 중시 성향과 정보 중시 성향의 정도를 판정하기 위한 두 가지 의사 결정 트리를 생성할 수 있으며, 성향이 판정되지 않은 블로그 관계가 주어지면 의사 결정 트리에 이 블로그 관계의 속성 정보를 적용하여 이 관계에 대한 각 성향의 정도를 판정 할 수 있 다.As described above, according to the blog analysis method according to an embodiment of the present invention, two decision trees for determining the degree of acquaintance-oriented tendency and the information-oriented tendency with relations determined by the blog user through a survey are generated. If a blog relationship is given, which is not determined, the attribute information of the blog relationship can be applied to the decision tree to determine the degree of each propensity for this relationship.

연결망 성향 판정Network propensity determination

블로그 분석 서버(130)는 의사 결정 트리를 통하여 판정된 블로그 관계의 성향 정도를 기초로 하여 블로그 연결망의 성향을 판정한다. 클래스 레이블은 앞서 설명한 상, 중, 하 대신 예를 들면, 이들이 점수로 각각 환산된 100, 50, 0으로 레벨이 나뉠 수 있으며, 판정된 블로그 관계의 성향 정도는 이러한 클래스 레이블에 의하여 산정될 수 있다.The blog analysis server 130 determines the propensity of the blog network based on the degree of propensity of the blog relationship determined through the decision tree. Class labels may be divided into levels of 100, 50, and 0, which are converted into scores, respectively, instead of the upper, middle, and lower described above, and the degree of propensity of the determined blog relationship may be calculated based on the class labels. .

블로그 연결망의 성향 정도를 산출하는 기법으로서 다음과 같은 세 가지 기법을 들 수 있으며, 예를 들어 도 9에 도시한 블로그 연결망 B1과 B2의 성향 정도를 판정해 본다. 도 9를 참고하면, 그래프로 나타낸 블로그 연결망 B1과 B2에서 각 정점은 블로그를 의미하며 간선은 블로그 관계를 의미한다. 블로그 연결망 B1의 각 간선의 성향 점수는 모두 10이라고 가정하고, 블로그 연결망 B2의 각 간선의 성향 점수도 모두 10라고 가정한다.As a technique for calculating the degree of propensity of the blog network, the following three techniques can be cited. For example, the degree of propensity of the blog network B1 and B2 shown in FIG. 9 is determined. Referring to FIG. 9, in the blog network B1 and B2 illustrated in the graph, each vertex means a blog and an edge means a blog relationship. It is assumed that the propensity scores of each edge of the blog network B1 are all 10, and the propensity scores of each edge of the blog network B2 are also 10.

첫 번째, 블로그 연결망에 포함되어 있는 블로그 관계의 성향 점수를 합하여 블로그 연결망의 성향 정도를 산출한다. 그러면 블로그 연결망 B1의 성향 정도는 60이 되고, 블로그 연결망 B2의 성향 정도는 100이 된다.First, the degree of propensity of blog network is calculated by summing scores of propensity scores of blog relationships included in blog network. Then, the degree of inclination of the blog network B1 becomes 60, and the degree of inclination of the blog network B2 becomes 100.

두 번째, 블로그 수에 기초한 평균 기법으로서, 블로그 연결망에 포함되어 있는 블로그 관계의 성향 점수의 합을 블로그의 수로 나누어 블로그 연결망의 성향 정도를 산출한다. 도 9에서 블로그 연결망 B1은 정점의 수가 4개이고 간선의 성향 점수의 합이 60이므로 블로그 연결망 B1의 성향 점수는 15가 되고, 블로그 연결망 B2는 정점의 수가 10개이고 간선의 성향 점수의 합이 100이므로 블로그 연결망 B2의 성향 점수는 10이 된다. 블로그의 수에 기초한 블로그 연결망의 성향 점수는 하나의 블로그가 가지는 평균 성향 점수를 의미한다. 이러한 평균 기법에 따른 블로그 연결망의 성향 정도는 블로그 연결망에 정점이 적고 간선이 많을수록 높게 판정된다.Second, as an average technique based on the number of blogs, the degree of propensity of blog networks is calculated by dividing the sum of propensity scores of blog relationships included in blog networks by the number of blogs. In FIG. 9, since the blog network B1 has 4 vertices and the sum of propensity scores of the trunks is 60, the propensity score of the blog network B1 is 15, and the blog network B2 has 10 vertices and the sum of propensity scores of the trunks is 100. The propensity score for blog network B2 is 10. The propensity score of the blog network based on the number of blogs refers to the average propensity score of one blog. The degree of inclination of the blog network according to the average technique is determined to be higher as there are fewer peaks and more edges in the blog network.

블로그의 수에 기초한 평균 기법에 따른 블로그 연결망의 친분 중시 성향 점수(PNR) 및 정보 중시 성향 점수(PNI)는 각각 다음 [수학식 3] 및 [수학식 4]와 같이 표현할 수 있다.The acknowledgment-oriented propensity score (PN R ) and the information-oriented propensity score (PN I ) of the blog network according to the average technique based on the number of blogs may be expressed as Equation 3 and Equation 4, respectively.

Figure 112007027902887-PAT00003
Figure 112007027902887-PAT00003

Figure 112007027902887-PAT00004
Figure 112007027902887-PAT00004

여기서, Nv는 블로그의 수, PEr은 관계의 친분 중시 성향 점수, PEi는 관계의 정보 중시 성향 점수이다.Where Nv is the number of blogs, PEr is the relationship-oriented propensity score of the relationship, and PEi is the information-oriented propensity score of the relationship.

세 번째, 블로그 관계의 수에 기초한 평균 기법으로서, 블로그 연결망에 포함되어 있는 블로그 관계의 성향 점수의 합을 블로그 관계의 수로 나누어 블로그 연결망의 성향 정도를 산출한다. 도 9에서 블로그 연결망 B1은 간선의 수가 6개이고 간선의 성향 점수의 합이 60이므로 그 성향 점수는 10이 되고, 블로그 연결망 B2는 간선의 수가 10개이고 간선의 성향 점수의 합이 100이므로 그 성향 점수는 10이 된다. 관계의 수에 기초한 블로그 연결망의 성향 점수는 하나의 블로그 관계의 평균 성향 점수를 의미한다. 이러한 평균 기법에 따른 블로그 연결망의 성향 정도는 블로그 연결망 내에 성향 점수가 높은 관계들이 많을수록 높게 판정된다.Third, as an average technique based on the number of blog relationships, the propensity of the blog network is calculated by dividing the sum of the propensity scores of the blog relationships included in the blog network by the number of blog relationships. In FIG. 9, since the blog network B1 has 6 edges and the sum of propensity scores of the trunks is 60, the propensity score is 10, and the blog network B2 has 10 propensity scores and the propensity score of the trunks is 100, so the propensity score is 100. Becomes 10. The propensity score of the blog network based on the number of relationships means the average propensity score of one blog relationship. The degree of inclination of the blog network according to the average technique is determined to be higher as there are more relationships with high propensity scores in the blog network.

관계의 수에 기초한 평균 기법에 따른 블로그 연결망의 친분 중시 성향 점수(PNR) 및 정보 중시 성향 점수(PNI)는 각각 다음 [수학식 5] 및 [수학식 6]과 같이 표현할 수 있다.The intimacy-oriented propensity score (PN R ) and the information-oriented propensity score (PN I ) of the blog network according to the average technique based on the number of relationships may be expressed as Equation 5 and Equation 6, respectively.

Figure 112007027902887-PAT00005
Figure 112007027902887-PAT00005

Figure 112007027902887-PAT00006
Figure 112007027902887-PAT00006

여기서, Ne는 관계의 수, PEr은 관계의 친분 중시 성향 점수, PEi는 관계의 정보 중시 성향 점수이다.Where Ne is the number of relationships, PEr is the relationship-oriented propensity score of the relationship, and PEi is the information-oriented propensity score of the relationship.

첫 번째 예의 경우, 블로그 연결망의 규모에 따라서 성향 정도가 좌우될 수 있다. 즉, 블로그 연결망 B1과 B2의 간선의 성향 점수가 같으나 블로그 연결망 B2가 가지고 있는 간선의 수가 블로그 연결망 B1이 가지고 있는 간선의 수보다 많으므로 블로그 연결망의 성향 판정을 단순히 관계 성향 점수의 합만으로 하면 블로그 연결망 B1이 블로그 연결망 B2보다 성향의 정도가 낮은 것으로 판정될 수 있다. 그러나 두 번째 및 세 번째 예의 경우와 같이 블로그 연결망의 규모를 결정하는 블로그의 수 및 관계의 수에 기초한 평균 기법에 의하면 연결망 성향 정도가 블로그 연결망의 규모에 따라 좌우되지 않게 된다.In the first example, the degree of propensity depends on the size of the blog network. In other words, since the number of edges of the blog network B1 and B2 is the same, but the number of edges of the blog network B2 is larger than the number of edges of the blog network B1, the decision of the blog network tendency is simply the sum of the relationship propensity scores. It may be determined that the network B1 is lower in inclination than the blog network B2. However, according to the average technique based on the number of blogs and the number of relationships that determine the size of the blog network, as in the second and third examples, the degree of network propensity does not depend on the size of the blog network.

이들 기법 중에서 어느 것을 사용할 것인가는 응용 분야의 특성을 고려하여 결정할 수 있다. 예를 들어, 블로그 수에 기초한 평균 기법은 사이버 아이템을 이용하여 블로그 연결망을 활성화시키는 전략에 사용될 수 있다. 사이버 아이템은 주로 블로그 사이에 관계가 많으면서 관계의 친분 중시 성향이 높은 블로그 연결망에서 사용된다. 따라서 사이버 아이템을 이용하는 블로그 연결망 활성화 전략은 블로그 수에 기초한 평균 기법에 의하여 성향 점수가 높게 산출된 블로그 연결망을 대상으로 적용될 수 있다. 한편, 관계의 수에 기초한 평균 기법은 정보성 컨텐츠를 이용하여 블로그 연결망을 활성화시키는 전략에 사용될 수 있다. 정보성 컨텐츠는 많은 사람에게 노출되는 것이 좋으며, 관계의 수 대비 블로그의 수가 큰 블로그 연결망에서 상대적으로 많은 사람이 활동한다. 따라서 정보성 컨텐츠를 이용하는 블로그 연결망 활성화 전략은 관계의 수에 기초한 평균 기법에 의하여 성향 점수가 높게 산출된 블로그 연결망을 대상으로 적용될 수 있다.Which of these techniques will be used depends on the nature of the application. For example, an average technique based on the number of blogs can be used in a strategy to activate blog networks using cyber items. Cyber items are often used in blog networks, where there are many relationships between blogs and high relationships. Therefore, the blog network activation strategy using cyber items can be applied to the blog network whose propensity score is calculated by the average technique based on the number of blogs. On the other hand, the average technique based on the number of relationships can be used in the strategy to activate the blog network using informational content. Informational content should be exposed to many people, and relatively many people are active in a blog network with a large number of blogs relative to the number of relationships. Therefore, the blog network activation strategy using informational content can be applied to the blog network whose propensity score is calculated by the average method based on the number of relationships.

그러면 본 발명의 실시예에 따른 블로그 분석 방법에 의하여 판정된 블로그 관계의 성향 정도 및 블로그 연결망의 성향 정도가 얼마나 정확한지 실험 결과를 참조하여 설명한다.Next, how accurate the degree of inclination of the blog relationship and the degree of inclination of the blog network determined by the blog analysis method according to an embodiment of the present invention will be described with reference to the experimental results.

우선, 블로그 관계의 성향 정도를 판정하기 위하여 설문 조사를 하였고 그 결과에 기초하여 의사 결정 트리를 생성하였다. 설문 조사의 대상자는 모든 관계 중에서 조사 기간 동안에 글을 주고받은 적이 있는 35,000 관계를 무작위로 선택하였다. 설문 조사는 블로그에서 직접 이루어졌으며, 그 결과 유효한 관계의 수는 1,408개였다. 그리고 실제 블로그 데이터를 이용하여 다양한 실험을 수행하였다.First, a survey was conducted to determine the degree of propensity of blog relations and a decision tree was generated based on the results. The survey subjects randomly selected 35,000 relationships that had been sent and received during the survey. The survey was conducted directly on the blog, which resulted in 1,408 valid relationships. And various experiments were carried out using actual blog data.

먼저, 블로그 관계의 성향 판정의 정확도 검증에 대하여 설명한다. 관계 성향 판정에 대한 정확도를 다음과 같이 두 가지 방식으로 측정하였다. 첫째, 생성된 의사 결정 트리에 의해 얻어진 성향 정도와 설문 조사를 통해 얻은 실제 성향 정도 사이의 일치 여부인 적중률을 측정하였다. 둘째, 의사 결정 트리에 의해 얻어진 성향 정도와 설문 조사를 통해서 얻은 실제 성향 정도 사이의 오차를 클래스 레이블에 부여된 레벨의 차이로 측정하였다. 이렇게 오차를 측정하면 성향 정도가 맞지 않는 경우에 한 레벨이 다른지 두 레벨이 다른지 어느 정도의 레벨 차이가 있는지 구분할 수 있다.First, the accuracy verification of the propensity determination of a blog relationship is demonstrated. The accuracy of the relationship propensity determination was measured in two ways as follows. First, the hit ratio, which is the agreement between the degree of propensity obtained by the generated decision tree and the degree of actual propensity obtained through the survey, was measured. Second, the error between the degree of propensity obtained by the decision tree and the degree of actual propensity obtained through the survey was measured by the difference in the level given to the class label. Measuring the error in this way can distinguish between one level being different, two levels being different, and how much level difference exists when the degree of inclination does not match.

적중률Hit rate

앞서 설명한 것처럼, 적중률은 분류 모델에 의해 얻어진 성향 정도와 설문 조사를 통해서 얻은 실제 성향 정도 사이의 일치 여부를 계산한 것이다. [표 1]은 블로그 관계의 적중률을 측정한 결과를 나타낸다. 레벨 수는 성향 정도를 몇 가지로 나누었는지를 나타내며, 예를 들어, 레벨 수 3은 성향 정도를 상, 중, 하 세 레벨로 나눈 경우이고, 레벨 수 9는 성향 정도를 아홉 레벨로 나눈 경우이다. [표 1]에 나타낸 것처럼, 친분 중시 성향과 정보 중시 성향 모두 레벨 수와 상관없이 91% 이상의 높은 적중률을 보였다. 레벨 수가 늘어남에 따라 관계가 가질 수 있는 클래스 레이블의 종류가 많아지므로 적중률이 약간 감소하는 경향을 갖는다. 이와 같이 본 발명의 실시예에 따르면 블로그 관계의 성향 정도를 높은 정확도를 가지고 판정할 수 있음을 알 수 있다.As mentioned earlier, the hit ratio is a calculation of the correspondence between the degree of propensity obtained by the classification model and the actual degree of propensity obtained through the survey. Table 1 shows the results of measuring the hit ratio of blog relationships. The number of levels indicates the number of inclinations divided by how many, for example, the level 3 is the degree of inclination divided by the upper, middle, and lower three levels, and the level number 9 is the degree of inclination divided by the nine levels. . As shown in Table 1, both the acquaintance-oriented tendency and the information-oriented tendency showed high hit rates of 91% or more regardless of the number of levels. As the number of levels increases, the number of class labels that a relationship can have increases, so the hit rate tends to decrease slightly. As described above, it can be seen that the degree of propensity of blog relations can be determined with high accuracy.

Figure 112007027902887-PAT00007
Figure 112007027902887-PAT00007

오차error

오차는 분류 모델에 의해 얻어진 성향 정도와 설문 조사를 통해서 얻은 실제 성향 정도 사이의 차이이다. [표 2]는 블로그 관계의 오차를 측정한 결과이다. 레벨 수가 3일 때 오차는 0.07 및 0.08로 나타났고, 레벨 수가 9일 때 오차는 0.22 및 0.23으로 나타났으며, 이는 실제 성향 정도와 분류 모델이 제시한 성향 정도의 차이가 ±0.22∼0.23인 것을 의미한다. 레벨 수가 3일 때는 최대 오차가 2이나 레벨 수가 9일 때는 최대 오차가 8이 될 수 있으므로 레벨 수가 증가함에 따라 오차도 조금씩 증가하는 경향을 갖는다. 이와 같이 본 발명의 실시예에 따라 판정된 블로그 관계의 성향 정도는 적은 오차를 가진다는 것을 알 수 있다.The error is the difference between the degree of propensity obtained by the classification model and the actual degree of propensity obtained from the survey. Table 2 shows the result of measuring the error of blog relationship. At levels 3, the errors were 0.07 and 0.08, and at levels 9 the errors were 0.22 and 0.23, indicating that the difference between the actual propensity and the propensity suggested by the classification model was ± 0.22 to 0.23. it means. When the number of levels is 3, the maximum error is 2, but when the number of levels is 9, the maximum error may be 8, so the error tends to increase little by little as the number of levels increases. As described above, it can be seen that the degree of propensity of the blog relationship determined according to the embodiment of the present invention has a small error.

Figure 112007027902887-PAT00008
Figure 112007027902887-PAT00008

그러면 본 발명의 실시예에 따라 판정된 블로그 연결망의 성향 정도의 정확도에 대하여 도 10을 참고하여 설명한다.Next, the accuracy of the propensity of the blog network determined according to the embodiment of the present invention will be described with reference to FIG. 10.

도 10은 블로그 연결망의 성향 판정의 정확도 측정을 위하여 추출된 블로그 연결망의 예시도이다.10 is an exemplary diagram of a blog network extracted for the accuracy measurement of the propensity determination of the blog network.

주어진 블로그 연결망의 실제 성향 정도는 설문 조사에 의하여 파악할 수 없으므로 직접적으로 정확도를 측정하기 어렵다. 따라서 한 쪽 성향이 강하다고 추측되는 블로그 연결망과 무작위로 선택된 블로그 연결망에 대해서 성향을 판정하고, 그 결과를 상호 비교함으로써 본 발명의 실시예에 따라 판정된 블로그 연결망의 성향 정도의 타당성을 간접적으로 검증하기로 한다.Since the actual propensity of a given blog network cannot be determined by surveys, it is difficult to measure accuracy directly. Accordingly, the propensity of the propensity of the propensity of the blog network determined according to the embodiment of the present invention is indirectly determined by determining the propensity for the blog network and the randomly selected blog network, which are considered to be strong in one side, and comparing the results with each other. Let's do it.

정보 중시 성향이 강한 블로그 연결망을 추출하기 위하여 다음과 같은 방식을 사용하였다. 먼저, 다른 사용자에 의하여 스크랩이 많이 된 글을 작성한 블로그를 선택한다. 선택된 블로그와 관계를 맺고 있는 블로그 중에서 선택된 블로그가 가지고 있는 글을 스크랩한 적이 있는 블로그를 추출한다. 추출된 블로그 중에서 다른 블로그에 방문한 수가 많은 순으로 100개의 블로그를 선택한다. 이렇게 선택된 블로그 집합은 정보 중시 성향이 강한 블로그 연결망이 된다.The following method was used to extract the blog network with strong informational tendency. First, select a blog that has written a lot of scraps by other users. From the blogs that are related to the selected blog, we extract the blog that has scraped the articles of the selected blog. From the extracted blogs, we select 100 blogs in order of the highest number of visits to other blogs. The blog set thus selected becomes a blog network with a strong informational tendency.

그리고 친분 중시 성향이 강한 연결망을 추출하기 위하여 다음과 같은 방식을 사용하였다. 다른 블로그와 상호 관계를 많이 맺고 있는 블로그를 선택한다. 선택된 블로그를 중심으로 상호 관계를 맺고 있는 블로그를 추출한다. 추출된 블로그 중에서 방문 수가 많은 순으로 100개의 블로그들을 선택한다. 이렇게 선택된 블로그 집합은 친분 중시 성향이 강한 블로그 연결망이 된다.And the following method was used to extract the network with strong tendency toward acquaintance. Choose a blog that has a lot of interaction with other blogs. Extract blogs that are related to the selected blog. From the extracted blogs, we select 100 blogs in order of the highest number of visits. The selected blog set becomes a network of blogs with a strong emphasis on friendship.

그리고 무작위로 선택한 블로그를 중심으로 이 블로그와 관계를 맺고 있는 100개의 블로그를 추출하였다.And we extracted 100 blogs related to this blog around randomly selected blogs.

이와 같이 추출된 블로그 연결망을 도 10에 개략적으로 도시하였다. 도 10에서 각 화살표는 관계를 맺은 방향을 의미하며 화살표가 한쪽으로 되어 있는 것은 이웃을 의미하고 양쪽으로 되어 있는 것은 상호 이웃을 의미한다. 친분 중시 성향이 강한 연결망을 친분 중시 연결망, 정보 중시 성향이 강한 연결망을 정보 중시 연결망, 무작위로 추출한 블로그 연결망을 무작위 연결망이라고 하자. 그러면 도 10의 (a)는 친분 중시 연결망, (b)는 정보 중시 연결망, (c)는 무작위 연결망이 된다.The blog network thus extracted is schematically illustrated in FIG. 10. In FIG. 10, each arrow means a direction in which a relationship is formed, and an arrow means one side and a neighbor means a neighbor. Let's call a network that has a strong relationship with friends, a network that has a strong relationship with information, a network that has a strong relationship with information, and a randomly extracted blog network. 10 (a) shows an acquaintance-oriented network, (b) an information-oriented network, and (c) a random network.

정보 중시 연결망과 무작위 연결망, 그리고 친분 중시 연결망과 무작위 연결망의 성향 정도를 산출한 후 그 점수를 비교하였다. 그 결과 특정 성향이 강한 블로그 연결망이 무작위로 추출된 블로그 연결망보다 특정 성향 정도가 높은 것으로 나타났다.The scores of the information-oriented network and the random network, and the relation-oriented network and the random network were calculated and compared. As a result, the blog network with strong specific tendency is higher than the randomly extracted blog network.

[표 3]은 친분 중시 연결망과 무작위 연결망의 성향 점수를 비교한 결과를 나타낸다. 친분 중시 연결망은 두 가지 평균 기법으로 얻어진 성향 정도가 무작위 연결망에 비하여 모두 높게 나타났다. 값의 차이는 블로그 수를 통한 평균의 경우 1.19이고, 관계의 수를 통한 평균의 경우 0.27로서 친분 중시 연결망이 무작위 연결망보다 각 평균 기법에서 37%와 20% 높은 값을 가지는 것으로 나타났다. 따라서 본 발명의 실시예에 따라 블로그 연결망의 친분 성향 정도를 산출하면 타당한 결과를 도출할 수 있음을 입증하였으며, 친분 중시 성향의 경우 블로그 수에 기초한 평균과 관계 수에 기초한 평균 기법을 모두 적용할 수 있다.Table 3 shows the results of comparing the propensity scores of acquaintance-oriented networks and random networks. In the network of intimacy-oriented networks, the tendency obtained by the two average techniques was higher than that of the random network. The difference in values was 1.19 for the average over the number of blogs and 0.27 for the average over the number of relationships, indicating that intimacy networks had 37% and 20% higher values for each average technique than random networks. Therefore, according to the embodiment of the present invention, it was proved that calculating the degree of acquaintance of the blog network can yield a valid result.In the case of acquaintance-oriented propensity, both the average based on the number of blogs and the average based on the number of relationships can be applied. have.

Figure 112007027902887-PAT00009
Figure 112007027902887-PAT00009

[표 4]는 정보 중시 연결망과 무작위 연결망의 성향 점수를 비교한 결과를 나타낸다. 정보 중시 연결망은 관계 수에 기초한 평균 성향 점수가 무작위 연결망에 비하여 0.29(21%) 높게 나타났다. 그러나 블로그 수를 통한 평균 성향 점수는 무작위 연결망에 비하여 오히려 0.69(27%) 낮게 나타났다. 정보 중시 성향은 정보의 수집과 전달을 목적으로 하므로 블로그 사용자는 동일한 정보를 가지고 있는 블로그에 대해서 중복하여 관계를 맺지 않는다. 더욱이 정보 중시 연결망은 주로 정보를 많이 가지고 있는 블로그를 중심으로 성형(star)으로 형성되고, 동일한 블로그 수를 갖는다면 무작위 연결망에 비하여 오히려 관계의 수가 적은 경향이 있다. 따라서 정보 중시 연결망의 성향 정도를 판정하기 위하여 관계의 수에 기초한 평균 기법을 이용하는 것이 좋다. 결국, 정보 성향 판정의 경우, 관계의 수에 기초하여 블로그 연결망의 정보 성향 정도를 산출하면 타당한 결과를 도출할 수 있음을 입증하였다.Table 4 shows the result of comparing the propensity scores of the information-oriented networks and the random networks. In the information-oriented network, the average propensity score based on the number of relationships was 0.29 (21%) higher than the random network. However, the average propensity score through blog number was 0.69 (27%) lower than that of random network. The information-oriented tendency is to collect and transmit information, so blog users do not have a duplicate relationship with blogs having the same information. Moreover, information-oriented networks are mainly formed as stars around blogs with a lot of information, and if they have the same number of blogs, they tend to have fewer relationships than random networks. Therefore, it is better to use the average method based on the number of relationships to determine the degree of propensity of information-oriented networks. As a result, it was proved that in the case of the information propensity determination, calculating the degree of information propensity of the blog network based on the number of relationships can yield a valid result.

Figure 112007027902887-PAT00010
Figure 112007027902887-PAT00010

본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 것과 같이 블로그를 분석하는 방법을 실행시키기 위한 프로그램 또는 프로세스를 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Embodiments of the invention include a computer readable medium containing program instructions for performing various computer-implemented operations. This medium records a program or process for executing a method of analyzing a blog as described so far. The media may include, alone or in combination with the program instructions, data files, data structures, and the like. Examples of such media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CDs and DVDs, floppy disks and program commands such as magnetic-optical media, ROM, RAM, flash memory, and the like. Hardware devices configured to store and perform such operations. Alternatively, the medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the preferred embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements of those skilled in the art using the basic concepts of the present invention defined in the following claims are also provided. It belongs to the scope of rights.

이와 같이, 본 발명에 의하면, 분류 모델에 기초하여 블로그 관계의 성향 정도를 판정할 수 있으며, 판정된 블로그 관계의 성향 정도에 기초하여 블로그 연결망의 성향 정도를 판정할 수 있다. 블로그 연결망이 가지고 있는 각 성향의 정도는 블로그 연결망에 대한 활성화 정책 결정에 중요한 요소로서 사용될 수 있다.As described above, according to the present invention, the degree of propensity of blog relations can be determined based on the classification model, and the degree of propensity of blog connection network can be determined based on the determined degree of propensity of blog relations. The degree of each propensity of the blog network can be used as an important factor in determining the activation policy for the blog network.

Claims (19)

분류 모델에 기초하여 복수의 제1 블로그 관계의 성향을 판정하는 단계, 그리고Determining propensity of the plurality of first blog relationships based on the classification model, and 상기 제1 블로그 관계의 성향에 기초하여 블로그 연결망의 성향을 판정하는 단계Determining a propensity of a blog network based on the propensity of the first blog relationship 를 포함하는 블로그 분석 방법.Blog analysis method comprising a. 제1항에서,In claim 1, 복수의 제2 블로그 관계의 블로그 사용자에게 상기 성향과 관련된 질의를 하고 응답을 받는 단계,Asking a blog user of a plurality of second blog relationships related to the inclination and receiving a response, 상기 응답 및 상기 제2 블로그 관계의 속성 정보에 기초하여 학습하는 단계, 그리고Learning based on the response and attribute information of the second blog relationship, and 상기 학습 단계에서의 결과에 따라 상기 분류 모델을 생성하는 단계Generating the classification model according to the result of the learning step 를 더 포함하는 블로그 분석 방법.Blog analysis method comprising more. 제2항에서,In claim 2, 상기 제2 블로그 관계의 성향에 복수의 레벨로 나뉘는 클래스 레이블을 부여하는 단계를 더 포함하며,And assigning a class label divided into a plurality of levels to the propensity of the second blog relationship. 상기 제1 블로그 관계 성향 판정 단계는 상기 레벨에 할당된 점수를 상기 제 1 블로그 관계의 성향 점수에 대응시키는 단계를 포함하는 블로그 분석 방법.And determining the first blog relationship propensity to map the score assigned to the level to the propensity score of the first blog relationship. 제2항에서,In claim 2, 상기 속성 정보는 댓글의 수, 선물의 수, 방명록의 글 수, 스크랩 수 및 방문 수 중 적어도 하나를 포함하는 블로그 분석 방법.The attribute information includes at least one of the number of comments, the number of gifts, the number of articles in the guest book, the number of scraps and the number of visits. 제2항에서,In claim 2, 상기 분류 모델은 의사 결정 트리, 신경망, 베이시안 분류 및 지네틱 알고리즘 중 어느 하나를 이용하여 생성되는 블로그 분석 방법.The classification model is a blog analysis method generated using any one of a decision tree, neural network, Bayesian classification, and genetic algorithm. 제1항에서,In claim 1, 상기 제1 블로그 관계 성향 판정 단계는 상기 제1 블로그 관계의 속성 정보를 상기 분류 모델에 적용하여 상기 제1 블로그 관계의 성향 점수를 산정하는 단계를 포함하는 블로그 분석 방법.And determining the propensity score of the first blog relationship by applying attribute information of the first blog relationship to the classification model. 제1항에서,In claim 1, 상기 블로그 연결망 성향 판정 단계는 상기 제1 블로그 관계의 성향 점수를 합한 후 상기 블로그 연결망에 포함되어 있는 블로그의 수효 및 상기 제1 블로그 관계의 수효 중 어느 하나로 나누어 상기 블로그 연결망의 성향 점수를 산출하는 단계를 포함하는 블로그 분석 방법.The determining of the blog network propensity comprises: calculating the propensity score of the blog network by adding up the propensity scores of the first blog relationship and dividing the number of blogs included in the blog network and the number of the first blog relationships. Blog analysis method comprising a. 제1항에서,In claim 1, 상기 성향은 친분 중시 성향 및 정보 중시 성향 중 적어도 어느 하나를 포함하는 블로그 분석 방법.The propensity is blog analysis method comprising at least one of the relationship-oriented tendency and information-oriented propensity. 복수의 제1 블로그 관계의 블로그 사용자에게 상기 제1 블로그 관계의 성향과 관련된 질의를 하고 응답을 받는 단계,Asking a blog user of a plurality of first blog relationships related to the propensity of the first blog relationship and receiving a response; 상기 응답 및 상기 제1 블로그 관계의 속성 정보에 기초하여 학습하는 단계,Learning based on the response and the attribute information of the first blog relationship, 상기 학습 단계에서의 결과에 따라 분류 모델을 생성하는 단계, 그리고Generating a classification model according to the result of the learning step, and 상기 분류 모델에 기초하여 복수의 제2 블로그 관계의 성향을 판정하는 단계Determining a propensity of a plurality of second blog relationships based on the classification model 를 포함하는 블로그 분석 방법.Blog analysis method comprising a. 제9항에서,In claim 9, 상기 제1 블로그 관계의 성향에 복수의 레벨로 나뉘는 클래스 레이블을 부여하는 단계를 더 포함하며,And assigning a class label divided into a plurality of levels to the propensity of the first blog relationship. 상기 제2 블로그 관계 성향 판정 단계는 상기 레벨에 할당된 점수를 상기 제2 블로그 관계의 성향 점수에 대응시키는 단계를 포함하는 블로그 분석 방법.The second blog relationship propensity determining step includes mapping a score assigned to the level to a propensity score of the second blog relationship. 제9항에서,In claim 9, 상기 제2 블로그 관계 성향 판정 단계는 상기 제2 블로그 관계의 속성 정보 를 상기 분류 모델에 적용하여 상기 제2 블로그 관계의 성향 점수를 산정하는 단계를 포함하는 블로그 분석 방법.And determining the propensity score of the second blog relationship by applying attribute information of the second blog relationship to the classification model. 제9항에서,In claim 9, 상기 성향은 친분 중시 성향 및 정보 중시 성향 중 적어도 어느 하나를 포함하는 블로그 분석 방법.The propensity is blog analysis method comprising at least one of the relationship-oriented tendency and information-oriented propensity. 컴퓨터에 제1항 내지 제12항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.A computer readable medium having recorded thereon a program for causing a computer to execute the method of claim 1. 분류 모델에 기초하여 복수의 제1 블로그 관계의 성향을 판정하는 관계 성향 판정 모듈, 그리고A relationship propensity determination module for determining propensities of the plurality of first blog relationships based on the classification model, and 상기 제1 블로그 관계의 성향에 기초하여 블로그 연결망의 성향을 판정하는 연결망 성향 판정 모듈Network propensity determination module for determining the propensity of the blog network based on the propensity of the first blog relationship 을 포함하는 블로그 분석 시스템.Blog analysis system comprising a. 제14항에서,The method of claim 14, 복수의 제2 블로그 관계의 블로그 사용자로부터 상기 성향과 관련된 질의에 따른 응답을 받고, 상기 응답 및 상기 제2 블로그 관계의 속성 정보에 기초하여 학습하며, 상기 학습 결과에 따라 상기 분류 모델을 생성하는 분류 모델 생성 모듈을 더 포함하는 블로그 분석 시스템.Receiving a response according to a query related to the propensity from a plurality of blog users of a plurality of second blog relationships, learning based on the response and attribute information of the second blog relationship, and classifying to generate the classification model according to the learning result. Blog analysis system further comprising a model generation module. 제15항에서,The method of claim 15, 상기 분류 모델 생성 모듈은 상기 제2 블로그 관계의 성향에 복수의 레벨로 나뉘는 클래스 레이블을 부여하고,The classification model generation module assigns a class label divided into a plurality of levels to the propensity of the second blog relationship. 상기 관계 성향 판정 모듈은 상기 레벨에 할당된 점수를 상기 제1 블로그 관계의 성향 점수에 대응시키는The relationship propensity determination module is configured to map a score assigned to the level to a propensity score of the first blog relationship. 블로그 분석 시스템.Blog Analytics System. 제14항에서,The method of claim 14, 상기 관계 성향 판정 모듈은 상기 제1 블로그 관계의 속성 정보를 상기 분류 모델에 적용하여 상기 제1 블로그 관계의 성향 점수를 산정하는 블로그 분석 시스템.And the relationship propensity determining module calculates a propensity score of the first blog relationship by applying attribute information of the first blog relationship to the classification model. 제14항에서,The method of claim 14, 상기 연결망 성향 판정 모듈은 상기 제1 블로그 관계의 성향 점수를 합한 후 상기 블로그 연결망에 포함되어 있는 블로그의 수효 및 상기 제1 블로그 관계의 수효 중 어느 하나로 나누어 상기 블로그 연결망의 성향 점수를 산출하는 블로그 분석 시스템.The network tendency determination module adds the propensity scores of the first blog relations and divides one of the number of blogs included in the blog network and the number of first blog relations to calculate a propensity score of the blog network. system. 제14항에서,The method of claim 14, 상기 성향은 친분 중시 성향 및 정보 중시 성향 중 적어도 어느 하나를 포함하는 블로그 분석 시스템.The propensity to the blog analysis system comprising at least one of the relationship-oriented tendency and information-oriented propensity.
KR1020070035817A 2007-04-12 2007-04-12 Method and system for analyzing blog KR100882436B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070035817A KR100882436B1 (en) 2007-04-12 2007-04-12 Method and system for analyzing blog

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070035817A KR100882436B1 (en) 2007-04-12 2007-04-12 Method and system for analyzing blog

Publications (2)

Publication Number Publication Date
KR20090001431A true KR20090001431A (en) 2009-01-09
KR100882436B1 KR100882436B1 (en) 2009-02-06

Family

ID=40484509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070035817A KR100882436B1 (en) 2007-04-12 2007-04-12 Method and system for analyzing blog

Country Status (1)

Country Link
KR (1) KR100882436B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190115299A (en) * 2018-04-02 2019-10-11 스토리앤브라더스(주) A method and server for providing a service for determining matching fitness of users

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010044692A (en) * 2001-03-16 2001-06-05 안종선 The method and system for processing intimacy rate to manage a group of men
KR20050117282A (en) * 2004-06-10 2005-12-14 엔에이치엔(주) A system for analyzing community networks, and a method thereof
KR100717214B1 (en) * 2005-03-23 2007-05-11 최인철 Blog Community Matching Method Using Character Examination

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190115299A (en) * 2018-04-02 2019-10-11 스토리앤브라더스(주) A method and server for providing a service for determining matching fitness of users

Also Published As

Publication number Publication date
KR100882436B1 (en) 2009-02-06

Similar Documents

Publication Publication Date Title
He et al. Managing extracted knowledge from big social media data for business decision making
Rathore et al. Social media analytics: Literature review and directions for future research
Pinheiro Social network analysis in telecommunications
Qi et al. Mining customer requirements from online reviews: A product improvement perspective
Zheng et al. Capturing the essence of word-of-mouth for social commerce: Assessing the quality of online e-commerce reviews by a semi-supervised approach
Grewal et al. The role of the institutional environment in marketing channels
O'Reilly et al. How young, technical consumers assess online WOM credibility
Ghorbani et al. Consumers’ brand personality perceptions in a digital world: A systematic literature review and research agenda
Lee et al. Do online brand communities help build and maintain relationships with consumers? A network theory approach
Kim et al. How do brands' facebook posts induce consumers'e-word-of-mouth behavior?: Informational versus emotional message strategy: A computational analysis
Saxena et al. Users roles identification on online crowdsourced q&a platforms and encyclopedias: a survey
Husnain et al. Estimating market trends by clustering social media reviews
Chowudhury Developing the measurement of consumer based brand equity in service industry: an empirical study on mobile phone industry
Parry et al. Forecasting new product adoption with probabilistic neural networks
Izadi et al. Segmenting consumers in social networks based on social motivations of engagement in electronic word of mouth relationships
Gerlich et al. Artificial intelligence as toolset for analysis of public opinion and social interaction in marketing: identification of micro and nano influencers
Martínez-Torres et al. Identifying the features of reputable users in eWOM communities by using Particle Swarm Optimization
Modi et al. Impact of artificial intelligence on gamification: Current applications
Ghazouani et al. Assessing socioeconomic status of Twitter users: A survey
Ylijoki Big data–towards data-driven business
Shishaev et al. Analysis of online social networking when studying the identities of local communities
KR100882436B1 (en) Method and system for analyzing blog
Powell et al. The construction of action rules to raise artwork prices
Sánchez-Franco et al. A knowledge structures exploration on social network sites
KR20090001430A (en) Method and system for analyzing blog

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111228

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131231

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 12