KR20130026099A - Method and apparatus for creating classifier for spam messages in social networking websites using sender-receiver relationship and method for filtering spam messages - Google Patents

Method and apparatus for creating classifier for spam messages in social networking websites using sender-receiver relationship and method for filtering spam messages Download PDF

Info

Publication number
KR20130026099A
KR20130026099A KR1020110089499A KR20110089499A KR20130026099A KR 20130026099 A KR20130026099 A KR 20130026099A KR 1020110089499 A KR1020110089499 A KR 1020110089499A KR 20110089499 A KR20110089499 A KR 20110089499A KR 20130026099 A KR20130026099 A KR 20130026099A
Authority
KR
South Korea
Prior art keywords
message
members
spam
relationship
method
Prior art date
Application number
KR1020110089499A
Other languages
Korean (ko)
Inventor
김종
이상호
송종혁
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020110089499A priority Critical patent/KR20130026099A/en
Publication of KR20130026099A publication Critical patent/KR20130026099A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06QDATA PROCESSING SYSTEMS OR METHODS, SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation, e.g. computer aided management of electronic mail or groupware; Time management, e.g. calendars, reminders, meetings or time accounting
    • G06Q10/107Computer aided management of electronic mail
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06QDATA PROCESSING SYSTEMS OR METHODS, SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00Arrangements for user-to-user messaging in packet-switching networks, e.g. e-mail or instant messages
    • H04L51/12Arrangements for user-to-user messaging in packet-switching networks, e.g. e-mail or instant messages with filtering and selective blocking capabilities

Abstract

PURPOSE: A method for generating a spam message classifier in a social network site by using a relation between a transmitter and a receiver, a device thereof, and a spam message filtering method thereof are provided to accurately filter the spam message by checking if a message is a spam or not through relation information between the receiver and transmitter of the spam message. CONSTITUTION: A spam message classifier generating device collects a real message transceived between members from a specific Internet social network site(S210). The device checks whether the collected message is a spam message(S220). The device calculates a connection degree and a relation distance of a transmitter and a receiver of the message(S230). The device generates a spam message classifier by using features derived from the calculated message(S240). [Reference numerals] (AA) Start; (BB) End; (S210) Collecting messages; (S220) Classifying messages(spam or normal); (S230) Calculating a relation distance and a connection degree between a message receiver and transmitter(using a related member list); (S240) Deriving relation distance and connection degree characteristics of spam messages and generating a spam message classifier by using the same

Description

발신자와 수신자의 관계를 이용한 소셜 네트워크 사이트에서의 스팸 메시지 분류자 생성 방법 및 장치 그리고 스팸 메시지 필터링 방법{METHOD AND APPARATUS FOR CREATING CLASSIFIER FOR SPAM MESSAGES IN SOCIAL NETWORKING WEBSITES USING SENDER-RECEIVER RELATIONSHIP AND METHOD FOR FILTERING SPAM MESSAGES} Generating spam messages in the social network by using the relationship between the sender and receiver classifier method and apparatus and a spam message filtering method {METHOD AND APPARATUS FOR CREATING CLASSIFIER FOR SPAM MESSAGES IN SOCIAL NETWORKING WEBSITES USING SENDER-RECEIVER RELATIONSHIP AND METHOD FOR FILTERING SPAM MESSAGES }

본 발명은 소셜 네트워크 사이트에서의 스팸 메시지 필터링 방법 및 장치에 관한 것으로, 더욱 상세하게는 소셜 네트워크 사이트에서 송수신 되는 메시지에 대하여 메시지 발신자와 수신자간의 관계를 이용하여 스팸 메시지를 필터링하기 위한방법 및 장치에 관한 것이다. The present invention is a method and apparatus for filtering spam messages using a relationship between the message sender and the receiver with respect to the present invention relates to a spam message filtering method and apparatus in a social network, and more particularly, to messages which are sent and received in a social networking site It relates.

스팸(spam)은 전자 우편, 게시판, 문자 메시지, 전화, 인터넷 포털 사이트의 쪽지 기능 등을 통해 불특정 다수의 사람들에게 보내는 광고성 편지 또는 메시지를 말한다. Spam (spam), says the advertisement letters or messages sent to a number of unspecified people via e-mail, bulletin boards, text messaging, telephone, etc. Message function of the Internet portal. 이러한 스팸은 무차별하게 살포되어 스팸 수신자에게 불편을 끼치게 된다. This spam is sprayed indiscriminately is kkichige inconvenience to spam recipients.

최근에는 웹상에서 친구렐궐캣瓮동료 등 지인과의 인맥 관계를 강화시키고 또 새로운 인맥을 쌓으며 폭넓은 인적 네트워크를 형성할 수 있도록 해주는 소셜 네트워크 서비스(Social Network Service)를 제공하는 인터넷 사이트 이용이 일상화 되어감에 따라, 해당 사이트를 통해 수신되는 스팸 메시지가 문제가 되고 있다. In recent years, the Internet sites use is the norm to offer a social network (Social Network Service), which allows strengthening networking relationships with acquaintances such as friends Morelia gwolkaet 瓮 colleagues over the Web and can again form a ssateumyeo new networking broad human network As the, there is a spam message is received over the site at issue.

이러한 스팸을 방지하기 위한 종래의 방법으로는 미리 등록된 특정 문자열이나 특정 발신자 계정이 포함된 경우 스팸 메시지로 분류하는 방법을 적용한다. By conventional methods to prevent such spam is, if pre-registered with a specific string or a specific caller account, applying the method to classify as spam. 예를 들어 이메일에서 스팸을 판단하기 위하여 이메일에 포함된 내용을 검색하여 스팸으로 판단되는 문자열이 있는지 여부를 판단한다. For example, to retrieve the information contained in the email in order to determine spam email to determine whether a string is determined to be spam. 하지만 비교적 글의 길이가 짧은 소셜 네트워크 사이트상에서 수신되는 메시지의 경우, 글 내용만으로 스팸 여부를 판단하기 쉽지 않은 문제가 있다. However, when writing messages that are of relatively short length is received on the social networking site, there is a problem that is difficult to judge whether a spam post content only.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 소셜 네트워크 사이트상에서 수신되는 메시지로부터 스팸 메시지를 분류하기 위한 스팸 메시지 분류자를 생성하는 방법을 제공하는데 있다. An object of the present invention for solving the above problems is to provide a method for generating a spam message classification to classification of spam messages from a message received on a social networking site.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 소셜 네트워크 사이트상에서 수신되는 메시지로부터 스팸 메시지를 분류하기 위한 스팸 메시지 분류자를 생성하는 장치를 제공하는데 있다. Another object of the present invention for solving the above problems is to provide an apparatus for generating a spam message classification to classification of spam messages from a message received on a social networking site.

상기와 같은 문제점을 해결하기 위한 본 발명의 또 다른 목적은 소셜 네트워크 사이트상에서 수신되는 메시지로부터 스팸 메시지를 필터링하기 위한 방법을 제공하는데 있다. A further object of the present invention for solving the above problems is to provide a method for filtering spam messages from a message received on a social networking site.

상기 목적을 달성하기 위한 본 발명은, 특정 인터넷 소셜 네트워크 사이트에서 수집되어 스팸 메시지 여부가 분류된 메시지들을 이용한, 스팸 메시지 분류자를 생성하기 위한 방법으로, 회원 관계 데이터베이스에 저장된 관계회원 목록을 참조하여 상기 분류된 메시지 각각에 대하여 상기 메시지 수신자로부터 발신자를 추적할 때 경유하는 관계회원의 수에 기초한 관계거리를 계산하는 단계, 상기 메시지 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생 가능한 적어도 하나의 경로에 기초한 연결도(connectivity)를 계산하는 단계 및 상기 수신자와 발신자 사이의 관계거리 및 연결도가 계산된 메시지들을 이용하여 스팸 메시지의 관계거리 및 연결도 특성을 도출하고, 상기 도출된 특성을 이용하여 스팸 메시지를 분류하기 The present invention for achieving the above objects, collected from a particular Internet social networking sites as a way to create characters using the message classification is whether the spam messages, the spam message classification, by referring to the relationship between Member List stored in member relational database, the connecting a relationship member that the via before calculating the relationship between the distance based on the number of related members, reaches to the sender from the message recipient via to track the caller from the message recipient with respect to the classified messages each possible at least deriving a step in which connection, based on route calculation of (connectivity) and the receiver and between the distance and the connection degree between the distance and the connection characteristic of spam messages using the computed messages between the sender and the derived attributes by classifying spam messages using the 한 분류자를 생성하는 단계를 포함하는 것을 특징으로 하는 스팸메시지 분류자 생성방법을 제공한다.. The spam message classification comprising the steps of: generating a character classifier providing a method for generating ...

여기서, 상기 수신자와 발신자 사이의 관계거리 및 연결도는, 각각 상기 발신자에게 도달하기까지 경유하게 되는 모든 관계회원을 연결한 발생가능한 경로들 중, 상기 경로 상에 나타난 관계회원들의 수가 가장 적은 적어도 하나의 최단 경로를 기준으로 결정되는 것을 특징으로 한다. Here, the relationship between the distance and the connection diagram between the receiver and sender is, of each of said one caller via up to reach the connection all related member is a possible route, the number of related members shown on the paths the least at least one and that of being determined based on the shortest route, characterized.

여기서, 상기 수신자와 발신자 사이의 연결도는, 상기 최단 경로의 수를 계산시, 동일한 관계회원이 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영하는 것을 특징으로 한다. Here, the connection diagram between the receiver and sender is, when calculating the number of the shortest path, the same relationship between the member if it appears overlapping on the shortest path to two or more, the number of the one of the more than one shortest path the shortest path to reflect the features.

여기서, 상기 수신자와 발신자 사이의 연결도는 최소 절단(MIN-CUT) 방법을 이용하여 계산하는 것을 특징으로 한다. Here, the connection diagram between the sender and the receiver is characterized in that the calculation using the least cut (MIN-CUT) method.

여기서, 상기 수신자와 발신자 사이의 연관도를 계산시, RANDOM-WALK 알고리즘을 사용하여 상기 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하고, 상기 가중치를 참조하여 상기 연관도를 계산하되, 상기 관계회원에 대한 가중치는 상기 관계회원의 관계회원목록에 포함된 관계회원의 수에 기초하여 계산하는 것을 특징으로 한다. Here, but with reference to calculate the weight of the relationship between members in calculating the association degree between the sender and the receiver, using the RANDOM-WALK algorithm appearing on each of the shortest route, and the weight calculation of the association degree, the weight for the relationship member is characterized in that calculated on the basis of the number of members included in the relationship between the list of members of the related members.

여기서, 상기 스팸 메시지 분류자는 Bagging, LibSVM, FT, J48 및 BAyesNet 중 어느 하나의 알고리즘을 사용하여 생성하는 것을 특징으로 한다. Here, the spam message classifier is characterized in that created using any of the algorithms of Bagging, LibSVM, FT, J48 and BAyesNet.

상기 다른 목적을 달성하기 위한 본 발명은 특정 인터넷 소셜 네트워크 사이트에서 수신한 특정 메시지에 대하여 스팸 메시지인지 여부를 판단하여 스팸메시지를 필터링하는 방법으로, 회원 관계 데이터베이스에 저장된 관계회원 목록을 참조하여 상기 수신한 메시지에 대하여 상기 메시지 수신자로부터 발신자를 추적할 때 경유하는 관계회원의 수에 기초한 관계거리를 계산하는 단계, 상기 메시지 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생 가능한 적어도 하나의 경로에 기초한 연결도(connectivity)를 계산하는 단계 및 상기 관계거리 및 연결도가 계산된 메시지에 스팸 메시지 분류자를 적용하여 스팸메시지로 분류된 메시지를 필터링하는 단계를 포함하고, 상기 스팸 메시지 분류자는 상기 특정 인터넷 소셜 네트 The present invention for achieving the other objectives received the reference to the relationship list of members is stored in a way that determines whether a spam message filtering spam messages for a specific message received from a particular Internet social networking site, members relational database when tracking the caller from the message recipient for the message via the relationship members calculating the relationship between the distance based on the number, the message generated by from the receiver connected to the related members done through to reach the sender can at least one of which calculating a connection degree (connectivity) based on the path and the related distance and the connection also applies to those spam message classification to the calculated message, and including the step of filtering the messages classified as spam messages, the spam message classification the specific Internet social networking 크 사이트내의 실제 메시지를 이용하여 훈련된 분류자인 것을 특징으로 하는 스팸 메시지 필터링방법을 제공한다. Provides a spam message filtering, wherein design was classified trained using the actual message size within the site.

여기서, 상기 수신자와 발신자 사이의 관계거리 및 연결도는, 각각 상기 발신자에게 도달하기까지 경유하게 되는 모든 관계회원을 연결한 발생가능한 경로들 중, 상기 경로 상에 나타난 관계회원들의 수가 가장 적은 적어도 하나의 최단 경로를 기준으로 결정되는 것을 특징으로 한다. Here, the relationship between the distance and the connection diagram between the receiver and sender is, of each of said one caller via up to reach the connection all related member is a possible route, the number of related members shown on the paths the least at least one and that of being determined based on the shortest route, characterized.

여기서, 상기 수신자와 발신자 사이의 연결도는, 상기 최단 경로의 수를 계산시, 동일한 관계회원이 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영하는 것을 특징으로 한다. Here, the connection diagram between the receiver and sender is, when calculating the number of the shortest path, the same relationship between the member if it appears overlapping on the shortest path to two or more, the number of the one of the more than one shortest path the shortest path to reflect the features.

여기서, 상기 수신자와 발신자 사이의 연결도는 최소 절단(MIN-CUT) 방법을 이용하여 계산하는 것을 특징으로 한다. Here, the connection diagram between the sender and the receiver is characterized in that the calculation using the least cut (MIN-CUT) method.

여기서, 상기 수신자와 발신자 사이의 연관도를 계산시, RANDOM-WALK 알고리즘을 사용하여 상기 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하여, 상기 가중치를 참조하여 상기 연관도를 계산하되, 상기 관계회원에 대한 가중치는 상기 관계회원의 관계회원목록에 포함된 관계회원 수에 기초하여 계산하는 것을 특징으로 한다. Here, by calculating the weight of the relationship between members in calculating the association degree between the sender and the receiver, using the RANDOM-WALK algorithm appearing on each of the shortest path, but with reference to the weight calculating the association degree, the weight for the relationship member is characterized in that calculated on the basis of the relationship between the number of members in the relation between the membership list of members.

상기 또 다른 목적을 달성하기 위한 본 발명은, 특정 인터넷 소셜 네트워크 사이트에서 수집되어 스팸 메시지 여부가 분류된 메시지들을 이용한, 스팸 메시지 분류자를 생성하기 위한 장치로, 상기 스팸 메시지 여부가 분류된 메시지가 저장된 메시지 데이터베이스, 상기 메시지의 수신자를 포함하여 상기 소셜 네트워크 사이트의 회원들 및 상기 회원의 관계회원목록이 저장된 회원 관계 데이터베이스, 상기 회원 관계 데이터베이스의 관계회원 목록을 참조하여 상기 메시지 데이터베이스내의 메시지 각각에 대하여 상기 메시지 수신자로부터 발신자를 추적할 때 경유하는 관계회원의 수에 기초한 관계거리를 계산하는 관계거리 계산부, 상기 메시지 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생 가능한 적어도 하나의 The addition, in the present invention for achieving the another object, are gathered from a particular Internet social networks using the classification of messages if a spam message, a device for generating a spam message classification, the whether or not the spam message classification message stored message database, said by including the recipients of the message between the members list of the members and the members of the social network site, see the related list of members of the stored Member relational databases, the membership relationship database for messages within each of the message database when tracking the caller from the message recipient is connected between the member through which the relationship from the distance calculation unit, the message receiver to calculate the distance relationship based on the number of members related to the caller through to reach the possible at least one of 경로에 기초한 연결도(connectivity)를 계산하는 연결도 계산부 및 상기 수신자와 발신자 사이의 관계거리 및 연결도가 계산된 메시지들을 이용하여 스팸 메시지의 관계거리 및 연결도 특성을 도출하고, 상기 도출된 특성을 이용하여 스팸 메시지를 분류하는 분류자를 생성하는 분류자 생성부를 포함하는 것을 특징으로 하는 스팸메시지 분류자 생성장치를 제공한다. Connection to connect based on a path calculation for (connectivity) calculation unit and the relationship distance and connectivity of spam messages using a message between the distance and the connection degree calculation between the receiver and sender also derived the characteristics, and the derived using the characteristic category generating the classifier for classifying a spam message character spam messages, it characterized in that it comprises a generator classifier provides a generator.

여기서, 상기 수신자와 발신자 사이의 관계거리 및 연결도는, 각각 상기 발신자에게 도달하기까지 경유하게 되는 모든 관계회원을 연결한 발생가능한 경로들 중, 상기 경로 상에 나타난 관계회원들의 수가 가장 적은 적어도 하나의 최단 경로를 기준으로 결정되는 것을 특징으로 한다. Here, the relationship between the distance and the connection diagram between the receiver and sender is, of each of said one caller via up to reach the connection all related member is a possible route, the number of related members shown on the paths the least at least one and that of being determined based on the shortest route, characterized.

여기서, 상기 수신자와 발신자 사이의 연결도는, 상기 최단 경로의 수를 계산시, 동일한 관계회원가 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영하는 최소 절단(MIN-CUT) 방법을 이용하여 계산하는 것을 특징으로 한다. Here, the receiver and the connection diagram between a sender, in the case when calculating the number of the shortest path, that appears overlapping on the same relationship member price shortest route more than one, the number of the one of the more than one shortest path the shortest path using the reflection minimum cut (MIN-cUT) method is characterized in that calculation.

여기서, 상기 수신자와 발신자 사이의 연관도를 계산시, RANDOM-WALK 알고리즘을 사용하여 상기 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하여, 상기 가중치를 참조하여 상기 연관도를 계산하되, 상기 관계회원에 대한 가중치는 상기 관계회원의 관계회원목록에 포함된 관계회원의 수에 기초하여 계산하는 것을 특징으로 한다. Here, by calculating the weight of the relationship between members in calculating the association degree between the sender and the receiver, using the RANDOM-WALK algorithm appearing on each of the shortest path, but with reference to the weight calculating the association degree, the weight for the relationship member is characterized in that calculated on the basis of the number of members included in the relationship between the list of members of the related members.

여기서, 상기 스팸 메시지 분류자는 Bagging, LibSVM, FT, J48 및 BAyesNet 중 어느 하나의 알고리즘을 사용하여 생성하는 것을 특징으로 한다. Here, the spam message classifier is characterized in that created using any of the algorithms of Bagging, LibSVM, FT, J48 and BAyesNet.

상기와 같은 본 발명에 따른 발신자와 수신자의 관계를 이용한 소셜 네트워크 사이트에서의 스팸 메시지 분류자 생성 방법 및 장치 그리고 스팸 메시지 필터링 방법을 이용할 경우에는, 메시지 발신자와 수신자간의 관계 정보를 이용하여, 수신자와 발신자의 관계가 멀수록 해당 메시지가 스팸 메시지일 가능성이 높다고 판단함으로써, 좀 더 정확하게 스팸 메시지를 필터링 하는 효과가 있다. When using a spam message classifier generation method in a social network by using the relationship between the sender and the receiver according to the invention and apparatus and a spam message filtering method as described above has, by using the relation information between the message sender and recipient, the recipient and the relationship between the sender's far has the effect that the message is a spam message filtering, more accurately, by determining more likely to be spam. 또한 소셜 네트워크 사이트내에 설정된 수신자와 발신자의 관계는 스팸 메시지 발신자라도 조작하기 어렵기 때문에 스팸 메시지 발신자를 효과적으로 차단하는 장점이 있다. In addition, the relationship of the sender and the receiver are set within a social networking site has the advantage of blocking spam messages, the sender because it is difficult to manipulate any sender of spam messages effectively.

도 1은 본 발명에 따른 스팸 메시지를 분류하기 위한 분류자를 생성하는 과정의 개략적인 구성을 보여주는 개념도이다. 1 is a conceptual diagram showing a schematic configuration of a process of generating the classifier for classification of spam messages in accordance with the present invention.
도 2는 본 발명의 일 실시예에 따른 스팸 메시지 분류자를 생성하기 위한 단계를 보여주는 시퀀스 차트이다. 2 is a sequence chart showing the steps for generating a spam message classification in accordance with an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 메시지 수신자와 발신자간의 관계 경로의 예를 보여주는 개념도이다. 3 is a conceptual diagram showing an example of a relationship between the message sender and the receiver path according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 스팸 메시지 분류자 생성을 위한 장치의 구성을 보여주는 블록도이다. Figure 4 is a block diagram showing a structure of an apparatus for generating spam messages classifier in accordance with an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 스팸 메시지를 필터링 하기 위한 과정을 보여주는 시퀀스 챠트이다. 5 is a sequence chart illustrating a process for filtering spam messages, according to an embodiment of the invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. The invention will be described in bars, illustrated in the drawings certain embodiments that may have a variety of embodiments can be applied to various changes and detail in the Detailed Description. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. This, however, is by no means to restrict the invention to the specific embodiments, it is to be understood as embracing all included in the spirit and scope of the present invention changes, equivalents and substitutes. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. In describing the drawings was used for a similar reference numerals to like elements.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. First and 2, A, B & quot; and the like are can be used in describing various elements, but the above elements shall not be restricted to the above terms. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. These terms are only used to distinguish one element from the other. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. For example, without departing from the scope of the present invention, the first component may be referred to as a second configuration can be named as an element, similar to the first component is also a second component. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. And / or the term includes any item of the items described concerning the combination or plurality of the plurality of related items disclosed.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. It understood that when one element is described as being "connected" or "coupled" to another element, but may be directly connected or coupled to the other components, may be other element in between It should be. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. In contrast, when an element is referred to there being "directly connected" to another element or "directly connected", it should be understood that other components in the middle that does not exist.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. The terms used in the present specification are merely used to describe particular embodiments, and are not intended to limit the present invention. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. Expression in the singular number include a plural forms unless the context clearly indicates otherwise. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. In this application, the terms "inclusive" or "gajida" terms, such as is that which you want to specify that the features, numbers, steps, actions, components, parts, or one that exists combinations thereof described in the specification, the one or more other features , numbers, steps, actions, components, parts, or the presence or possibility of combinations thereof and are not intended to preclude.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. Unless otherwise defined, including technical and scientific terms, all terms used herein have the same meaning as commonly understood by one of ordinary skill in the art. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Any term that is defined in a general dictionary used shall be construed to have the same meaning in the context of the relevant art, unless expressly defined in this application, it not is interpreted to have an idealistic or excessively formalistic meaning no.

본 발명에 따른 소셜 네트워크 사이트에서 전송되는 메시지에 대하여, 메시지 발신자와 수신자간의 관계를 기초로 스팸 메시지인지 여부를 판단하는 방법이 개시된다. With respect to the message transmitted from the social network according to the present invention, a method of determining that it is not a spam message based on a relationship between the message sender and receiver are provided.

본 발명은 발신자와 수신자간의 관계를 파악하기 위하여 발신자와 수신자간의 관계거리와 연결도를 이용한다. The invention utilizes the relationship between the distance and the connection between the sender and the receiver also to identify the relationship between the sender and recipient. 관계거리란 메시지 수신자로부터 메시지 발신자를 추적하기 위하여 경유해야 하는 해당 사이트내 다른 회원들의 수와 관계된다. What is the relationship between the distance and the number of other members within the site to be tracked through to the message sender from the recipient of the message. 또한 연결도는 발신자를 추적하는 과정에서 경유할 수 있는 회원들의 경우의 수와 관계된다. Also connected is also related to the number of cases of members that can be passed through in the process of tracing the caller.

일반적으로 메시지 수신자와 발신자간의 관계거리가 클수록, 즉 발신자가 수신지와 직접 관계를 맺은 경우보다 여러 회원을 경유해야 발신자가 추적되는 경우에 해당 메시지가 스팸메시지일 확률이 높다고 볼 수 있다. In general, the larger the distance relationship between the message sender and the receiver, ie the sender can have the message if need via multiple members than inked a direct relationship with the sender that the destination track to see high probability that the message is spam. 또한 다양한 경로를 통해서 발신자를 추적할 수 있는 경우보다, 발신자를 추적할 수 있는 경로가 제한되어 있는 경우, 즉 연결도가 작을수록 스팸 메시지일 확률이 높을 수 있다. In addition, if a route is limited to keep track of, the sender than to keep track of the sender via a variety of routes, that is, the smaller the connection may also be more likely to be spam message.

따라서 본 발명에서는 실제 스팸 메시지를 분석하여 발신자와 수신자간의 관계거리 및 연결도 특성을 도출함으로써 좀더 정확하게 스팸 메시지를 판별하는 방법을 제안하고자 한다. Therefore, the present invention analyzes the actual spam messages, we propose a method for determining more accurate spam message by deriving the relationship between the distance and the connection characteristic between the sender and the receiver.

본 발명에서는 발신자와 수신자간의 연결도 특성을 도출하기 위하여 최소절단(min-cut) 및 Random-walk 방법을 사용한다. In the present invention uses a minimal cut (min-cut), and Random-walk method to derive the connection characteristic between the sender and the receiver.

최소절단 방법은 두 노드(예를 들면 어떤 두 회원) 사이의 연결도를 측정하기 위하여 노드 사이의 경로의 개수를 측정하며, 경로의 개수가 많을수록 두 노드 사이의 연결도가 높다고 볼 수 있다. The minimum cut method has a connection between two nodes, and measuring the number of paths between nodes, the more the number of the path also to see high to measure the degree of connection between the two nodes (for example, any two members). 한편, 두 노드 사이의 경로들의 개수를 측정할 때 중복으로 카운트 되는 에지(edge)가 존재할 수 있는데, 이때, 중복되는 에지가 없는 경로들을 에지-독립적(edge-independent) 경로라고 한다. On the other hand, there may exist the edge (edge), which is counted in duplicate to measure the number of paths between two nodes, this time, the path does not have the overlapping edge edge-called independent (edge-independent) path. 본 발명에서는 보다 정확한 연결도를 측정하기 위해서 에지 독립적인 경로를 측정한다. In the present invention, it measures the edge independent paths to measure more accurate connection Fig.

Random-walk 방법은 검색엔진에서 사용하는 알고리즘인 PageRank에 쓰이는 알고리즘이다. Random-walk method is the algorithm used in the algorithms used by the search engine PageRank. 그래프에서 어떠한 노드에 유입링크(in-link)가 많을수록, 또한 유입링크가 많은 노드에서 온 유입링크일수록 점수가 올라가는 알고리즘이다. The more incoming links (in-link) to any node in the graph, also the score the more the rise in the number of algorithms on incoming link flows linked nodes.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. With reference to the accompanying drawings a preferred embodiment according to the present invention will be described in detail.

도 1은 본 발명에 따른 스팸 메시지를 분류하기 위한 분류자를 생성하는 과정의 개략적인 구성을 보여주는 개념도이다. 1 is a conceptual diagram showing a schematic configuration of a process of generating the classifier for classification of spam messages in accordance with the present invention.

도 1을 참조하면 본 발명의 스팸 메시지를 분류하기 위한 분류자를 생성하기 위한 개략적 구성은 데이터 수집 단계(110), 데이터 분류단계(120), 데이터 트레이닝 단계(130)를 포함하여 구성되는 것을 알 수 있다. Referring to Figure 1 a schematic configuration for generating the classifier for classification of spam messages of the present invention can be seen to be configured to include a data acquisition step 110, a data classification step 120, the data training phase 130 have.

도 1을 참조하면 본 발명의 스팸 메시지를 분류하기 위한 분류자를 생성하기 위한 개략적 구성은 다음과 같이 설명될 수 있다. A schematic configuration for generating the classifier for classification of spam messages of the present invention Referring to FIG. 1 can be described as follows.

데이터 수집 단계(110)는 인터넷 소셜 네트워크 사이트에 존재하는 실제 메시지들을 수집하는 단계이다. Data acquisition step 110 is a step of collecting the actual message present in the internet social network sites. 가능한 한 많은 양의 데이터를 수집하는 데이터 특징을 파악하는 것이 좋으며, 결과에 대한 정확도가 높아진다. It is recommended that you understand the features of the data collected a lot of data available, the higher the accuracy of the results. 수집된 메시지들은 발신자, 수신자들의 정보 및 그들과 연관된 사람들과의 관계, 예를 들면 친구 관계에 대한 정보도 필요하다. The collected messages will also need information about the caller, relationships, eg friendships with people associated with their information and their recipients. 이러한 관계는 소셜 네트워크 사이트의 정책별로 조금씩 차이가 있을 수 있다. This relationship may be slightly different for each policy of social networking sites.

예를 들면 페이스북의 경우에는 회원들 상호간에 관계요청과 관계 허용을 통하여 수립되는 관계이고, 트위터라면 어떤 회원에게 관계를 요청한 다른 회원들을 지칭하는 팔로워(folower)와 상기 회원이 다른 회원에게 관계를 요청한 경우 위 다른 회원을 지칭하는 팔로잉(following) 관계이다. For example, when a Facebook has a relationship that is established through the relationship allowed the relationship request mutually members, Twitter, if any members to the relationship to the follower (folower) and the members other members who refer to other members of the requested relationship Following (following) the relationship referred to above, if requested by the other members. 본 발명은 관계가 이루어지는 과정에 제한받지 않으며, 소셜 네트워크 사이트의 정책에 따른 다양한 관계에 적용될 수 있다. The present invention is not limited to the process consisting of the relationship, can be applied to a variety of relationships in accordance with the policy of the social network site.

데이터 분류 단계(120)는 수집된 데이터들이 스팸인지 정상인지 분류하는 단계이다. Data classification step 120 is a step of classifying whether the collected data are spam is normal. 이 단계는 수작업으로 수집된 메시지에 대하여 스팸 메시지인지 아닌지를 분류한다. This step is classified whether the spam message to the message manually collected. 분류된 메시지들은 수신자와 발신자 사이의 관계거리와 연결도(connectivity)를 계산하여 그 값들과 함께 메시지 데이터 베이스(10)에 저장된다. The classification message are stored in the connection relationship between the distance and the message database 10, along with their values ​​to calculate the (connectivity) between the receiver and sender. 즉, 메시지 데이터베이스(10)에 저장되는 각 메시지는 스팸 메시지인지 정상 메시지인지의 여부(11)와, 수신자와 발신자간의 관계거리(12) 및 연결도(13)와 함께 저장된다. That is, it is saved with the message database 10. Each message or not (11), a relationship between the distance between the sender and the receiver 12 and also connected (13) is normal messages or spam messages stored in.

데이터 트레이닝 단계(130)는 앞 단계(110, 120)에서 수집하여 분류된 데이터를 바탕으로 분류자(classifier)를 생성하는 단계이다. Data training phase 130 is a step of generating a classifier (classifier) ​​based on the classification data collected in the previous step (110, 120). 이 단계에서는 기존의 데이터 마이닝 분야에서 존재하는 알고리즘들인 을 사용할 수 있다. In this step, the algorithm may be used, which are present in the conventional data mining field. 예를 들면, Bagging, LibSVM, FT, J48, BayesNet 등을 사용할 수 있는데, 각각의 알고리즘들은 데이터 베이스에 저장된 메시지들을 이용하여 각 알고리즘 고유의 방법으로 메시지들이 갖는 특성을 파악함으로써, 임의의 메시지(20)가 주어졌을 때 해당 메시지가 스팸메시지(21)인지 정상 메시지(22)인지 여부를 결정할 분류자(30)를 생성한다. For example, Bagging, LibSVM, FT, J48, may be used to BayesNet the like, each of the algorithms by identifying characteristic messages having in each algorithm-specific way using the messages stored in the database, any message (20 ) is, given to the message creates the classifier 30 to determine whether the normal message 22 a spam message (21).

이하 본 발명에 대한 실시예를 도면을 참조하여 좀 더 상세하게 설명하기로 한다. With reference to the drawings an embodiment of the present invention will be described in more detail. 먼저 본 발명의 일 실시예에 따른 스팸 메시지 분류자를 생성하는 방법 및 장치에 대해서 설명하고, 본 발명의 스팸 메시지 분류자를 이용하여 스팸 메시지 여부를 판단하는 방법에 대해서 설명하기로 한다. First, description will be given to a method and apparatus for generating a spam message classification in accordance with an embodiment of the invention, and by using those spam message classification of the present invention a description will be made of a method for determining whether or not a spam message.

도 2는 본 발명의 일 실시예에 따른 스팸 메시지 분류자를 생성하기 위한 단계를 보여주는 시퀀스 차트이다. 2 is a sequence chart showing the steps for generating a spam message classification in accordance with an embodiment of the present invention.

도 2를 참조하면 본 발명의 일 실시예에 따른 스팸 메시지 분류자를 생성하기 위한 단계는 메시지 수집 단계(S210), 메시지 분류 단계(S220), 수신자와 발신자간의 관계거리 및 연결도 계산단계(S230) 및 스팸 메시지 분류자 생성 단계(S240)를 포함하여 구성된다. The steps for generating a spam message classification in accordance with when the embodiment of the present invention reference to a message acquisition step (S210), a message classification step (S220), calculating the relationship distance and the connection between the sender and the receiver in step (S230) and spam message classifier is configured to include the step of generating (S240).

또한 도 2를 참조하면 본 발명의 일 실시예에 따른 스팸 메시지 분류자를 생성하기 위한 과정의 각 단계는 아래와 같이 설명될 수 있다. In addition, each step of the process for generating a spam message classification in accordance with an embodiment of the present invention Referring to Figure 2 may be described as follows.

메시지 수집 단계(S210)는 특정 인터넷 쇼셜 네트워크 사이트로부터 회원간에 송수신한 실제 메시지를 수집하는 단계이다. Message collection phase (S210) is a step of collecting the actual messages exchanged between members from a particular Internet site, Social Project Network.

메시지 분류 단계(S220)는 메시지 수집 단계(S210)에서 수집한 메시지들이 스팸 메시지인지 여부를 판단하여 분류하는 단계이다. The message classification step (S220) is a step of determining whether or not to classify the messages are spam messages collected by the message collection phase (S210). 이 단계는 수집된 데이터를 훈련하기 위한 샘플 데이터를 준비하는 단계이기 때문에, 정확한 분류를 위하여 수작업으로 진행될 수 있다. Since this step is the step of preparing the sample data for training the collected data, it can proceed in hand to the correct classification.

수신자와 발신자간의 관계거리 및 연결도 계산단계(S230)는 위의 단계에서 스팸 메시지 여부가 분류된 메시지에 대하여, 해당 메시지의 수신자와 발신자간의 관계거리 및 연결도를 계산하는 단계이다. Calculating step the relationship between the distance and connected to the receiver and sender (S230) is relative to the message is classified if a spam message in the above step, a step of calculating the relationship between the distance and also connected between the receiver and sender of the message.

예를 들면 관계거리란, 발신자와 수신자간에 직접적으로 연결된 관계인지, 몇 사람을 통해서 연결된 관계인지를 나타내는 척도이다. For example, the distance is the relationship, if connected directly to the relationship between the sender and the receiver, is a measure indicating how many relationship connected via a person.

이때, 해당 쇼셜 네트워크 사이트 회원들 및 해당 회원들과 해당사이트의 정책에 따른 연결 관계를 맺은 관계회원목록이 저장된 회원 관계 데이터 베이스를 참조하여 스팸 여부가 분류된 메시지 각각에 대하여 수신자와 발신자 사이의 관계거리를 계산한다. In this case, the relationship between its Social Project network site members and their members and have made a connection relationship in accordance with the policies of the site between Member List saved memberships reference data base to about the message each is spam or not spam classification recipient and sender It calculates the distance. 관계회원이란 해당 회원의 친구일 수도 있고, 팔로워일 수도 있고, 일촌일수도 있다. Member relations and friends is also one of its members, may be the follower, it may be ilchon. 즉 사이트의 정책에 따라 해당 회원과 여러 가지 다양한 경로를 통해 연결되고 온라인 상에서 메시지를 주고 받거나 회원 관련 정보를 조회할 수 있는 등의 연결관계가 형성된 사이트 내 다른 회원을 의미한다. That means that the member and other members of your site that connected relationships formed such that you can connect via many different paths and send messages online, view the members receive relevant information in accordance with the policies of the site.

한편, 해당 메시지의 수신자와 발신자 사이의 관계거리는, 회원 관계 데이터 베이스의 관계회원 목록을 참조하여 메시지 수신자로부터 메시지 발신자를 역추적함으로써, 해당 발신자에게 도달하기까지 경유하게 되는 관계회원 수에 따라 결정될 수 있다. On the other hand, the distance relationship between the message sender and the receiver, registering relationship data refer to the relationship list of members of the base and by backtracking the message sender, from a message recipient, it is determined according to the relationship members that the via to reach back to the sender have. 또한 수신자와 발신자 사이의 연결도는 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생가능한 경로들의 수에 따라 결정될 수 있다. Also connected between the receiver and sender also it may be determined according to the number of the possible connection paths between the members which make through to reach the sender from a recipient. 예를 들어, 경유하게 되는 관계회원이 많을수록 관계거리는 커지도록 설정하고, 발생가능한 경로들의 수가 많을수록 연결도가 커지도록 설정할 수 있다. For example, the greater the relationship that the member via the more the number of the set to increase the distance between possible, and generating path can be set so as to increase the connection Fig.

한편 한 회원과 연결되는 관계회원이 여럿 일수 있기 때문에, 추적경로 역시 다양하게 나올 수 있다. On the other hand, because the relationship between members connected to a member since several days, trace route can come as too diverse. 따라서 발신자에게 도달하기까지 경유하게 되는 모든 관계회원을 연결한 발생가능한 경로들 중, 경로 상에 나타난 관계회원들의 수가 가장 적은 최단 경로를 기준으로 관계거리와 연결도를 결정하는 것이 바람직하다. Therefore, as one of the possible connection, the path between all members via done to reach the sender, based on the fewest number of shortest path between members appeared on the path it is desirable to determine a connection diagram and a related distance.

또한, 최단 경로의 수를 계산시, 동일한 관계회원이 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영할 수 있다. In addition, when calculating the number of the shortest path, if it appears the same overlap between members of the shortest path of two or more, it is possible to reflect only one of the more than one shortest-path to be the shortest path. 이를 위해, 최소 절단(MIN-CUT) 방법을 이용하여 연결도를 계산할 수 있을 것이다. To this end, it will be able to calculate the connection also by using the minimum cut (MIN-CUT) method.

수신자와 발신자 사이의 연관도를 계산하는 다른 방법으로, RANDOM-WALK 알고리즘을 사용하여 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하고, 상기 가중치를 참조하여 연관도를 계산할 수 있다. Another way to calculate the association degree between the receiver and sender, using the RANDOM WALK-algorithm can calculate the weight of the relationship members that appear on each of the shortest path, and to calculate the association degree with reference to the weights. 이때, 관계회원에 대한 가중치는 관계회원의 관계회원목록에 포함된 관계회원의 수에 기초하여 계산할 수 있다. At this time, the weight of the relationship members can be calculated based on the number of members included in the relationship between the list of members of the related members. 즉 최단 경로상에서 경유하게 되는 회원의 관계회원의 수가 많다면, 연관도가 높게 나오도록 가중치를 높게 주고 적다면 낮게 주는 방법으로 가중치를 설정할 수 있다. That is, to set a weight in a way that if a large number of related members of the member that is on the way of the shortest path, even if the association is to give a higher weight to come ever higher low.

또는 위의 최소 절단 방법과 RANDOM-WALK 알고리즘을 조합하여 사용할 수 있을 것이다. Or it may be used in combination with a minimum cut method and RANDOM WALK-algorithm above.

수신자와 발신자 사이의 관계거리와 연결도를 계산하는 좀 더 상세한 방법은 후술하기로 한다. A more detailed method for calculating the relationship between the distance and also connected between the receiver and sender will be described later.

스팸 메시지 분류자 생성 단계(S250)는 수신자와 발신자 사이의 관계거리 및 연결도가 계산된 메시지들을 이용하여 스팸 메시지의 관계거리 및 연결도 특성을 도출하고, 도출된 특성을 이용하여 스팸 메시지를 분류하는 분류자를 생성하는 단계이다. Generating step spam message classifier (S250) the use of a message between the distance and the connection is also calculated between the sender and the receiver to derive the relationship between the distance and the connection characteristic of spam messages, and classification of spam messages using the derived properties a classification step of generating a person who.

이때, 스팸 메시지 분류자는 Bagging, LibSVM, FT, J48 및 BAyesNet 중 어느 하나의 알고리즘을 사용하여 생성할 수 있다. At this time, the spam message classifier may be generated using any of the algorithms of Bagging, LibSVM, FT, J48 and BAyesNet.

이하 메시지 발신자와 수신자간의 관계거리와 연결도를 생성하는 방법에 대하여 좀 더 상세하게 설명하기로 한다. It will be in more detail described below with respect to the message sender and the method for creating a relationship between the distance and also connected to a receiver.

도 3은 본 발명의 일 실시예에 따른 메시지 수신자와 발신자간의 관계 경로의 예를 보여주는 개념도이다. 3 is a conceptual diagram showing an example of a relationship between the message sender and the receiver path according to an embodiment of the present invention.

도 3의 (a)는 관계거리가 2인 에지-독립적인 경로의 수가 3인 그래프이고, (b)는 관계거리가 4인, 에지-독립적 경로가 1인 그래프를 보여준다. Of Figure 3 (a) is the distance between the two edge-3 and the number of independent paths graph, (b) the relationship between the distance is 4, an edge-shows a graph of the independent paths 1.

예를 들어, 도 3의 (a)에 도시된 것처럼 F라는 회원이 A라는 회원에게 어떤 메시지를 보내어, 수신자 A로부터 발신자 F를 역추적한다고 가정한다. For example, by sending a certain message to the members of the member A of F as shown in Figure 3 (a), it is assumed that track the sender from the receiver station F A.

수신자 A와 F간의 관계거리를 파악하기 위해서는 A와 F가 직접 관계가 있는지, 몇 회원을 거쳐야 F가 추적될 수 있는지를 파악한다. In order to understand the relationship between the distance between the receiver A and F A and F to determine whether that is a direct relationship, go through a few member F can be tracked. 예를 들면, 친구인지 아니면 친구의 친구인지, 완전한 타인인지를 파악하는 것이다. For example, whether a friend or a friend of a friend what would you determine whether a complete person.

이때, 이러한 관계를 파악하는 방법은 A의 관계회원목록(이하, 친구목록)에 F가 존재하는지 여부를 파악하는 것이다. In this case, how to determine such a relationship is to determine whether F is present in the relationship list of members (hereinafter referred to as a friend list) of A. 즉 도 3의(a)상의 A의 친구목록에 F가 존재한다면 관계거리는 1이 될 수 있다. I.e., it may be a relationship between the distance 1, if F is present in the friend list on the A (a) of Fig. 그러나 A의 친구목록에 F가 존재하지 않는다면, A의 친구목록에 있는 모든 친구들을 대상으로, 각 친구들의 친구목록을 조회하여 F가 존재하는지를 파악한다. However, if F is not present in the list of friends of A, for all the friends on your friends list A, to view the friend list of each of your friends will understand if F is present. 만일 A의 친구(B,C,D,E)의 친구목록에 F가 존재한다면 관계거리는 2가 될 수 있다. If ten thousand and one F is present in the friend list of a friend (B, C, D, E) of A may be the distance between two.

그러나 A의 친구의 친구 목록에도 F가 존재하지 않는다면, 다시 A의 친구목록에 있는 모든 친구의 친구를 대상으로 F를 추적하는 과정을 반복하는 것이다. But unless F is also present in the friends list of friends of A, it is to repeat the process of tracking an F target the friends of all friends in your friends list again A. 한편 이러한 발신자 추적과정은 발신자가 추적이 안되는 경우나 지나치게 많은 친구를 거쳐야 하는 경우, 시스템에 불필요한 부하를 줄 수 있으므로 최대 추적 단계를 지정하고, 최대 추적 단계를 지나도 추적이 안되는 경우에는 스팸으로 인정되는 최소값(예를 들면 5)을 지정하여 관계거리로 설정할 수도 있다. In such callers tracking process callers if I go through too many friends if tracking should not, which can reduce unnecessary load on the system Specifies the maximum tracking step, and has recognized as spam if you trace it does not, even after the maximum tracking step the minimum value (for example 5) may be set in relation to the distance specified.

도 3의(a)는 A의 친구목록에 F는 존재하지 않지만 A의 친구인 B,C,D,E의 친구목록에 존재하는 F를 추적한 결과를 보여주는 그래프이다. Of Figure 3 (a) is a graph showing the results of the friend list of A F does not exist track A friend, B, C, F present in the friend list of the D, E.

이때, A로부터 F를 추적하기 위해서는, 그래프(301)에 나타난 것처럼 A와 F의 최단경로 중간에 B,C,D,E라는 회원 중 하나를 경유하여 각 경로별로 두 개의 에지가 연결(311-312, 321-322, 331-332, 341-342) 되므로 A와 F의 관계거리는 2가 된다. At this time, in order to keep track of F from A, the two edges, as shown by the graph 301 in the middle of the shortest path via the A and F B, C, D, E of one of the members for each connection path (311- 312, 321-322, 331-332, 341-342), so is the distance between a and F 2.

한편 A와 F간의 에지-독립적인 최단 경로가 ABF(311-312), ACF(321-322), ADF(331-332), AEF(341-342)로 4개이므로 연결도는 4가 될 수 있다. The edge between A and F - the shortest path is independent ABF (311-312), ACF (321-322), ADF (331-332), because it is four to AEF (341-342) connected FIG. 4 can be have.

다른 예로서, 도 3의 (b)를 참조하면, Q 회원이 H 회원에게 어떤 메시지를 보냈고, 메시지 수신자 H로부터 Q를 역추적한다고 가정한다. If as another example, with reference to (b) of Figure 3, member Q is sent to any message to the H members, it is assumed that the station track from the message recipient Q H.

이때, H로부터 Q를 추적하기 위해서는, 그래프(302)에 나타난 것처럼 H와 Q의 최단경로가 6개(HIMPQ, HJMPQ, HJNPQ, HKNPQ, HKOPQ, HLOPQ)가 나올 수 있다. At this time, in order to track the Q from H, as shown in graph 302, the shortest path for the H and Q may come out of 6 (HIMPQ, HJMPQ, HJNPQ, HKNPQ, HKOPQ, HLOPQ). 이들 최단 경로별로 4개의 에지가 연결되므로 H와 Q사이의 거리는 4가 된다. Since each of these four edges are shortest path connecting the distance between H and Q is 4.

또한 이들 최단 경로에서 중복되는 에지(353, 364, 383, 354)가 존재하므로, 중복되는 에지를 갖는 경로를 제외한 에지 독립적인 경로는 1개가 되므로, H와 Q의 연결도는 1이 된다. In addition, because the edge (353, 364, 383, 354) overlapping at their shortest paths exist, the edge independent paths other than the path having the edge overlapping will therefore have one, connection diagram of H and Q is 1.

도 4는 본 발명의 일 실시예에 따른 스팸 메시지 분류자 생성을 위한 장치의 구성을 보여주는 블록도이다. Figure 4 is a block diagram showing a structure of an apparatus for generating spam messages classifier in accordance with an embodiment of the present invention.

도 4를 참조하면 본 발명의 일 실시예에 따른 스팸 메시지 분류자를 생성을 위한 장치는 메시지 수집부(410), 메시지 분류부(420), 관계거리 및 연결도 계산부(430), 스팸 메시지 분류자 생성부(440), 메시지 데이터베이스(10) 및 회원관계 데이터베이스(90)를 포함하여 구성된다. Device for generating a spam message classification in accordance with an embodiment of the invention Referring to Figure 4, a message acquisition unit 410, a message classification module 420, a relationship between the distance and the connection calculation unit 430, a spam message classification It is configured to include a character generator 440, the message database 10 and the member relation database 90. the

또한 도 4를 참조하면 본 발명의 일 실시예에 따른 스팸 메시지 분류자 생성을 위한 장치는 다음과 같이 설명될 수 있다. Also, the device for generating spam messages classifier in accordance with an embodiment of the present invention Referring to Figure 4 can be explained as follows.

메시지 수집부(410)는 특정 인터넷 쇼셜 네트워크 사이트로부터 회원간에 송수신한 실제 메시지를 수집하는 부분이다. A message collecting unit 410 is a part for collecting the actual message transmission and reception between a member from a particular Internet site Social Project network.

메시지 분류부(420)는 메시지 수집부(410)에서 수집한 메시지들이 스팸 메시지인지 여부를 판단하여 분류하는 메시지 데이터베이스(10)에 저장하는 부분이다. Message classification unit 420 is a part for storing the message database 10 to determine whether to classify the messages are spam messages collected by the message acquisition unit (410).

관계거리 및 연결도 계산부(430)는 메시지 데이터베이스(10)에 저장된 스팸 메시지 여부가 분류된 메시지에 대하여, 해당 메시지의 수신자와 발신자간의 관계거리 및 연결도를 계산한다. Distance relationship and connection calculation unit 430 with respect to the message a spam message if the classification stored in the message database 10, and calculates the relationship between the distance and also connected between the receiver and sender of the message.

예를 들면 관계거리란, 발신자와 수신자간에 직접적으로 연결된 관계인지, 몇 사람을 통해서 연결된 관계인지를 나타내는 척도이다. For example, the distance is the relationship, if connected directly to the relationship between the sender and the receiver, is a measure indicating how many relationship connected via a person.

이때, 해당 쇼셜 네트워크 사이트 회원들 및 해당 회원들과 해당사이트의 정책에 따른 연결 관계를 맺은 관계회원목록이 저장된 회원 관계 데이터 베이스(90)를 참조하여 스팸 여부가 분류된 메시지 각각에 대하여 수신자와 발신자 사이의 관계거리를 계산한다. In this case, the Social Project network site members and its members and between members list have made a connection relationship according to the policies of the site refers to a stored Member relational database (90) to the recipient for the message, respectively spam or not spam classification and Caller It calculates a relationship between the distance. 관계회원이란 해당 회원의 친구일 수도 있고, 팔로워일 수도 있고, 일촌일수도 있다. Member relations and friends is also one of its members, may be the follower, it may be ilchon. 즉 사이트의 정책에 따라 해당 회원과 여러 가지 다양한 경로를 통해 연결되고 온라인 상에서 메시지를 주고 받거나 회원 관련 정보를 조회할 수 있는 등의 사이트 정책에 따른 연결관계가 형성된 사이트 내 다른 회원을 의미한다. That means that several members and connections through various channels and send messages online members receive relevant information with other members within the site, the connection relationships formed according to the site policies such as that can be queried according to site policy.

한편, 해당 메시지의 수신자와 발신자 사이의 관계거리는, 회원 관계 데이터 베이스(90)의 관계회원 목록을 참조하여 메시지 수신자로부터 메시지 발신자를 역추적함으로써, 해당 발신자에게 도달하기까지 경유하게 되는 관계회원 수에 따라 결정될 수 있다. On the other hand, of the message recipient and the distance relationships between the sender, a member related data by referring to the relationship list of members of the base 90 is traced back to the message sender from the message recipient, relationship members and to which the via to reach back to the sender along it can be determined. 또한 수신자와 발신자 사이의 연결도는 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생가능한 경로들의 수에 따라 결정될 수 있다. Also connected between the receiver and sender also it may be determined according to the number of the possible connection paths between the members which make through to reach the sender from a recipient. 예를 들어, 경유하게 되는 관계회원이 많을수록 관계거리는 커지도록 설정하고, 발생가능한 경로들의 수가 많을수록 연결도가 커지도록 설정할 수 있다. For example, the greater the relationship that the member via the more the number of the set to increase the distance between possible, and generating path can be set so as to increase the connection Fig.

또한, 최단 경로의 수를 계산시, 동일한 관계회원이 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영할 수 있다. In addition, when calculating the number of the shortest path, if it appears the same overlap between members of the shortest path of two or more, it is possible to reflect only one of the more than one shortest-path to be the shortest path. 이를 위해, 최소 절단(MIN-CUT) 방법을 이용하여 연결도를 계산할 수 있을 것이다. To this end, it will be able to calculate the connection also by using the minimum cut (MIN-CUT) method.

수신자와 발신자 사이의 연관도를 계산하는 다른 방법으로, RANDOM-WALK 알고리즘을 사용하여 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하고, 상기 가중치를 참조하여 연관도를 계산할 수 있다. Another way to calculate the association degree between the receiver and sender, using the RANDOM WALK-algorithm can calculate the weight of the relationship members that appear on each of the shortest path, and to calculate the association degree with reference to the weights. 이때, 관계회원에 대한 가중치는 관계회원의 관계회원목록에 포함된 관계회원의 수에 기초하여 계산할 수 있다. At this time, the weight of the relationship members can be calculated based on the number of members included in the relationship between the list of members of the related members. 즉 최단 경로상의 경유 회원의 관계회원의 수가 많다면, 연관도가 높게 나오도록 가중치를 높게 주고 적다면 낮게 주는 방법으로 가중치를 설정할 수 있다. That is, to set a weight in a way that if a large number of related members of a via registering on the shortest path, even if the association is to give a higher weight to come ever higher low. 또는 위의 최소 절단 방법과 RANDOM-WALK 알고리즘을 조합하여 사용할 수 있을 것이다. Or it may be used in combination with a minimum cut method and RANDOM WALK-algorithm above.

스팸 메시지 분류자 생성부(440)는 수신자와 발신자 사이의 관계거리 및 연결도가 계산된 메시지들을 이용하여 스팸 메시지의 관계거리 및 연결도 특성을 도출하고, 도출된 특성을 이용하여 스팸 메시지를 분류하는 분류자를 생성하는 부분이다. Spam message classifier generator 440 utilizes the messages between the distance and the connection is also calculated between the sender and the receiver to derive the relationship between the distance and the connection characteristic of spam messages, and classification of spam messages using the derived properties a part for generating a classification. 이때, 스팸 메시지 분류자는 Bagging, LibSVM, FT, J48 및 BAyesNet 중 어느 하나의 알고리즘을 사용하여 생성할 수 있다. At this time, the spam message classifier may be generated using any of the algorithms of Bagging, LibSVM, FT, J48 and BAyesNet.

이하, 본 발명에 따른 스팸 메시지 분류자를 사용하여 임의의 메시지에 대한 스팸 메시지 여부를 판별하는 방법에 대하여 설명하기로 한다. Or less, by using the spam message classification in accordance with the invention will now be described a method for discriminating whether or not a spam message for any message.

도 5는 본 발명의 일 실시예에 따른 스팸 메시지를 필터링 하기 위한 과정을 보여주는 시퀀스 챠트이다. 5 is a sequence chart illustrating a process for filtering spam messages, according to an embodiment of the invention.

도 5를 참조하면 본 발명의 일 실시예에 따른 스팸 메시지를 필터링하기 위한 각 단계는 메시지 수신단계(S510), 수신자와 발신자간의 관계거리 및 연결도 계산단계(S520), 스팸메시지 필터링 단계(S530)를 포함하여 구성된다. Referring to Figure 5, each step for filtering spam messages, according to an embodiment of the invention, a message reception step (S510), the relationship distance between the receiver and sender and the connection calculation step (S520), a spam message filtering step (S530 ) it is configured to include a.

메시지 수신단계(S510)는 특정 인터넷 쇼셜 네트워크 사이트에서 어떤 회원으로부터 발신된 임의의 메시지에 대하여 스팸 메시지 여부를 판단하기 위하여 수신하는 단계이다. Message reception step (S510) is a step of reception in order to determine whether or not a spam message, for any message originating from any member in the particular Internet sites Social Project network.

수신자와 발신자간의 관계거리 및 연결도 계산단계(S520)는 수신한 임의의 메시지에 대하여, 쇼셜 네트워크 사이트 회원들 및 상기 회원들과 상기 사이트의 정책에 따른 연결 관계를 맺은 관계회원목록이 저장된 회원 관계 데이터 베이스를 참조하여 수신한 메시지에 대하여 수신자와 발신자 사이의 관계거리 및 연결도(connectivity)를 계산하는 단계이다. With respect to the receiver and sender relationship distance and connection calculation step (S520) has received any messages between, Social Project network site members and the member relation member list inked a connection relationship according to the policy of the members and the site stored relationship distance relationship and connection between the sender and the receiver with respect to a message received by referring to the data base is also a step of calculating (connectivity).

이때, 수신자와 발신자 사이의 관계거리는, 관계회원 목록을 이용하여 수신자로부터 상기 발신자를 역추적함으로써, 발신자에게 도달하기까지 경유하게 되는 관계회원 수에 따라 결정되고, 연결도는 상기 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생가능한 경로들의 수에 따라 결정될 수 있다. At this time, the distance relationship between the sender and the receiver, until by backtracking the sender from a recipient using the relationship list of members, is determined by the relationship members and to which the via to reach the sender, the connection degree is reached to said sender It can be determined according to the number of the connection between the members to be via any possible path.

관계거리 및 연결도를 계산하는 좀 더 자세한 방법은 상술하였으므로 생략하기로 한다. More detailed method for calculating the distance between, and connected also will be omitted hayeoteumeuro above.

스팸메시지 필터링 단계(S530)는 관계거리 및 연결도가 계산된 메시지에 스팸 메시지 분류자를 적용하여 스팸 메시지로 판단된 메시지를 필터링하는단계이다. Spam message filtering step (S530) is a step of filtering the messages determined to be a spam message and apply a distance relationship and connected also a spam message classification to the calculated message. 이때 사용되는 스팸 메시지 분류자는 본 발명에 따른 스팸 메시지인지 여부와 수신자와 발신자간의 관계거리 및 연결도가 계산된 메시지들을 이용하여 훈련된 분류자를 이용한다. The person who uses a spam message classification used spam message and whether the distance between the receiver and sender and the connection is also trained using the computed message classification between according to the present invention.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. Wherein in a preferred embodiment it has been with reference to describe, to vary the invention within the scope not departing from the spirit and scope of the invention as set forth in the claims below are those skilled in the art modifications and variations of the present invention it will be appreciated that it can be.

Claims (16)

  1. 특정 인터넷 소셜 네트워크 사이트에서 수집되어 스팸 메시지 여부가 분류된 메시지들을 이용한, 스팸 메시지 분류자를 생성하기 위한 방법으로, A method for generating a particular Internet site are gathered from social networks using the message classification is whether the spam messages, the spam message classification,
    회원 관계 데이터베이스에 저장된 관계회원 목록을 참조하여 상기 분류된 메시지 각각에 대하여 상기 메시지 수신자로부터 발신자를 추적할 때 경유하는 관계회원의 수에 기초한 관계거리를 계산하는 단계; With respect to each of the classified messages with reference to the relationship list of members stored in the database registering relationship calculating a distance based on a relationship between the number of members passing through to track the caller from the message recipient;
    상기 메시지 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생 가능한 적어도 하나의 경로에 기초한 연결도(connectivity)를 계산하는 단계; The method comprising connecting at least one path based on the possible connections between the members which make through to reach the caller from the message recipient generating a calculation (connectivity); And
    상기 수신자와 발신자 사이의 관계거리 및 연결도가 계산된 메시지들을 이용하여 스팸 메시지의 관계거리 및 연결도 특성을 도출하고, 상기 도출된 특성을 이용하여 스팸 메시지를 분류하기 위한 분류자를 생성하는 단계를 포함하는 것을 특징으로 하는 스팸메시지 분류자 생성방법. Deriving a relationship between the distance and the connection degree between the distance and the connection characteristic of spam messages using the calculated message between the sender and the receiver, and using the derived attributes generate the classifier for classifying a spam message spam messages classifier generating method comprising.
  2. 제 1항에 있어서, According to claim 1,
    상기 수신자와 발신자 사이의 관계거리 및 연결도는, 각각 상기 발신자에게 도달하기까지 경유하게 되는 모든 관계회원을 연결한 발생가능한 경로들 중, 상기 경로 상에 나타난 관계회원들의 수가 가장 적은 적어도 하나의 최단 경로를 기준으로 결정되는 것을 특징으로 하는 스팸메시지 분류자 생성방법. Between the distance and the connection between the receiver and sender also may, of each of the sender's available to reach the connection all related members done via to occur to the path, between the least number of at least one of the shortest of the members shown on the path spam message classifier generated characterized in that the decision relative to the path.
  3. 제 2항에 있어서, 3. The method of claim 2,
    상기 수신자와 발신자 사이의 연결도는, FIG connection between the receiver and sender is,
    상기 최단 경로의 수를 계산시, 동일한 관계회원이 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영하는 것을 특징으로 하는 스팸메시지 분류자 생성방법. When calculating the number of the shortest path, if it appears overlapping same relationship members the shortest path of two or more, a spam message classification that only one of the more than one shortest path characterized in that it reflects the number of the shortest path autogenous Way.
  4. 제 3항에 있어서, 4. The method of claim 3,
    상기 수신자와 발신자 사이의 연결도는 최소 절단(MIN-CUT) 방법을 이용하여 계산하는 것을 특징으로 하는 스팸메시지 분류자 생성방법. Spam message classifier generating method, characterized in that to calculate the connection diagram between the receiver and sender is using a minimum cut (MIN-CUT) method.
  5. 제 2항 또는 3항에 있어서, 3. The method of claim 2 or 3,
    상기 수신자와 발신자 사이의 연관도를 계산시, When calculating the degree of association between the sender and the receiver,
    RANDOM-WALK 알고리즘을 사용하여 상기 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하고, 상기 가중치를 참조하여 상기 연관도를 계산하되, Calculating a weight for registering relationship using the RANDOM WALK-algorithm appearing on each of the shortest path, but with reference to the weight calculating the association degree,
    상기 관계회원에 대한 가중치는 상기 관계회원의 관계회원목록에 포함된 관계회원의 수에 기초하여 계산하는 것을 특징으로 하는 스팸메시지 분류자 생성방법. The weight of the relationship between members is how to generate classification of spam messages, characterized in that for calculating the number of characters based on a relation between members of said list of members between members.
  6. 제 1항에 있어서, According to claim 1,
    상기 스팸 메시지 분류자는 Bagging, LibSVM, FT, J48 및 BAyesNet 중 어느 하나의 알고리즘을 사용하여 생성하는 것을 특징으로 하는 스팸메시지 분류자 생성방법. Spam message classifier generating method characterized in that it is generated by the spam message classifier using any of the algorithms of Bagging, LibSVM, FT, J48 and BAyesNet.
  7. 특정 인터넷 소셜 네트워크 사이트에서 수신한 특정 메시지에 대하여 스팸 메시지인지 여부를 판단하여 스팸메시지를 필터링하는 방법으로, To how to determine whether the spam message filtering spam messages for a specific message received from a particular Internet social networking site,
    회원 관계 데이터베이스에 저장된 관계회원 목록을 참조하여 상기 수신한 메시지에 대하여 상기 메시지 수신자로부터 발신자를 추적할 때 경유하는 관계회원의 수에 기초한 관계거리를 계산하는 단계; Step with reference to the relation stored in the member list, member relational database for calculating a distance based on a relationship between the number of members through which to track the caller from the message recipient with respect to the received message;
    상기 메시지 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생 가능한 적어도 하나의 경로에 기초한 연결도(connectivity)를 계산하는 단계; The method comprising connecting at least one path based on the possible connections between the members which make through to reach the caller from the message recipient generating a calculation (connectivity); And
    상기 관계거리 및 연결도가 계산된 메시지에 스팸 메시지 분류자를 적용하여 스팸메시지로 분류된 메시지를 필터링하는 단계를 포함하고 To apply a relationship between the distance and also connected to a spam message classification to the calculated message includes the step of filtering the messages classified as spam message
    상기 스팸 메시지 분류자는 상기 특정 인터넷 소셜 네트워크 사이트내의 실제 메시지를 이용하여 훈련된 분류자인 것을 특징으로 하는 스팸 메시지 필터링방법. The spam message classifier spam message filtering, wherein design classification trained using the actual message in the specific Internet social networking sites.
  8. 제 7항에 있어서, The method of claim 7,
    상기 수신자와 발신자 사이의 관계거리 및 연결도는, 각각 상기 발신자에게 도달하기까지 경유하게 되는 모든 관계회원을 연결한 발생가능한 경로들 중, 상기 경로 상에 나타난 관계회원들의 수가 가장 적은 적어도 하나의 최단 경로를 기준으로 결정되는 것을 특징으로 하는 스팸 메시지 필터링방법. Between the distance and the connection between the receiver and sender also may, of each of the sender's available to reach the connection all related members done via to occur to the path, between the least number of at least one of the shortest of the members shown on the path spam message filtering method, characterized in that it is determined based on the path.
  9. 제 8항에 있어서, The method of claim 8,
    상기 수신자와 발신자 사이의 연결도는, FIG connection between the receiver and sender is,
    상기 최단 경로의 수를 계산시, 동일한 관계회원이 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영하는 것을 특징으로 하는 스팸 메시지 필터링방법. Spam message filtering method, characterized in that, reflecting the case when calculating the number of the shortest path, appearing with the same relationship members overlap in the shortest path to two or more, only one of the more than one shortest path to the number of the shortest path.
  10. 제 9항에 있어서, 10. The method of claim 9,
    상기 수신자와 발신자 사이의 연결도는 최소 절단(MIN-CUT) 방법을 이용하여 계산하는 것을 특징으로 하는 스팸 메시지 필터링방법. Spam message filtering method, characterized in that to calculate the connection diagram between the receiver and sender is using a minimum cut (MIN-CUT) method.
  11. 제 7항 또는 8항에 있어서, The method of claim 7 or 8,
    상기 수신자와 발신자 사이의 연관도를 계산시, When calculating the degree of association between the sender and the receiver,
    RANDOM-WALK 알고리즘을 사용하여 상기 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하여, 상기 가중치를 참조하여 상기 연관도를 계산하되, To calculate the weight of the relationship members using the RANDOM WALK-algorithm appearing on each of the shortest path, but with reference to the weight calculating the association degree,
    상기 관계회원에 대한 가중치는 상기 관계회원의 관계회원목록에 포함된 관계회원 수에 기초하여 계산하는 것을 특징으로 하는 스팸 메시지 필터링방법. Weights for the related members are spam message filtering method, characterized in that calculated on the basis of the number of members of a relation between the list of members of the related members.
  12. 특정 인터넷 소셜 네트워크 사이트에서 수집되어 스팸 메시지 여부가 분류된 메시지들을 이용한, 스팸 메시지 분류자를 생성하기 위한 장치로, Collected from a particular Internet social networking sites using the spam messages whether the message classification, a device for generating a spam message classification,
    상기 스팸 메시지 여부가 분류된 메시지가 저장된 메시지 데이터베이스; Whether the message is a spam classification of messages stored message database;
    상기 메시지의 수신자를 포함하여 상기 소셜 네트워크 사이트의 회원들 및 상기 회원의 관계회원목록이 저장된 회원 관계 데이터베이스; Including the recipient of the message the members of social networking sites and the relationship between members of the list of members is stored in a relational database members;
    상기 회원 관계 데이터베이스의 관계회원 목록을 참조하여 상기 메시지 데이터베이스내의 메시지 각각에 대하여 상기 메시지 수신자로부터 발신자를 추적할 때 경유하는 관계회원의 수에 기초한 관계거리를 계산하는 관계거리 계산부; The member relationship between the reference sub-member list of the database to calculate distance relationship for calculating a distance based on a relationship between the number of members passing through to track the caller from the message recipient for the message in the message database, respectively;
    상기 메시지 수신자로부터 발신자에게 도달하기까지 경유하게 되는 관계회원을 연결한 발생 가능한 적어도 하나의 경로에 기초한 연결도(connectivity)를 계산하는 연결도 계산부; Connection to calculate the degree (connectivity) connections based on at least one possible path connecting between the members which make through to reach the caller from the message recipient generating unit also calculated; And
    상기 수신자와 발신자 사이의 관계거리 및 연결도가 계산된 메시지들을 이용하여 스팸 메시지의 관계거리 및 연결도 특성을 도출하고, 상기 도출된 특성을 이용하여 스팸 메시지를 분류하는 분류자를 생성하는 분류자 생성부를 포함하는 것을 특징으로 하는 스팸메시지 분류자 생성장치. Classifier generator for generating a relationship between the distance and the connection diagram is calculated using the message to derive the relationship between the distance and the connection characteristic of spam messages, and classification for classifying a spam message using said derived characteristics between the receiver and sender spam message classifier generation apparatus characterized by comprising: a.
  13. 제 12항에 있어서, 13. The method of claim 12,
    상기 수신자와 발신자 사이의 관계거리 및 연결도는, 각각 상기 발신자에게 도달하기까지 경유하게 되는 모든 관계회원을 연결한 발생가능한 경로들 중, 상기 경로 상에 나타난 관계회원들의 수가 가장 적은 적어도 하나의 최단 경로를 기준으로 결정되는 것을 특징으로 하는 스팸메시지 분류자 생성장치. Between the distance and the connection between the receiver and sender also may, of each of the sender's available to reach the connection all related members done via to occur to the path, between the least number of at least one of the shortest of the members shown on the path spam message classifier generation apparatus, characterized in that it is determined based on the path.
  14. 제 13항에 있어서, 14. The method of claim 13,
    상기 수신자와 발신자 사이의 연결도는, 상기 최단 경로의 수를 계산시, 동일한 관계회원가 두 개 이상의 최단 경로에 중복되어 나타나는 경우, 상기 두 개 이상의 최단 경로 중 하나만을 상기 최단 경로의 수에 반영하는 최소 절단(MIN-CUT) 방법을 이용하여 계산하는 것을 특징으로 하는 스팸메시지 분류자 생성장치. Connections shown between the receiver and sender is, when calculating the number of the shortest path, if it appears overlapping on the same relationship member price shortest route more than one, reflecting only one of said more than one shortest-path to be the shortest path spam message classifier generating apparatus characterized in that the calculation using the least cut (MIN-cUT) method.
  15. 제 12항 또는 제 13항에 있어서, 13. The method of claim 12 or 13,
    상기 수신자와 발신자 사이의 연관도를 계산시, When calculating the degree of association between the sender and the receiver,
    RANDOM-WALK 알고리즘을 사용하여 상기 각 최단 경로상에 나타나는 관계회원에 대한 가중치를 계산하여, 상기 가중치를 참조하여 상기 연관도를 계산하되, To calculate the weight of the relationship members using the RANDOM WALK-algorithm appearing on each of the shortest path, but with reference to the weight calculating the association degree,
    상기 관계회원에 대한 가중치는 상기 관계회원의 관계회원목록에 포함된 관계회원의 수에 기초하여 계산하는 것을 특징으로 하는 스팸메시지 분류자 생성장치. Weights for the related members are spam message classifier generating apparatus characterized in that calculated on the basis of the number of members included in the relationship between the list of members of the related members.
  16. 제 12항에 있어서, 13. The method of claim 12,
    상기 스팸 메시지 분류자는 Bagging, LibSVM, FT, J48 및 BAyesNet 중 어느 하나의 알고리즘을 사용하여 생성하는 것을 특징으로 하는 스팸메시지 분류자 생성장치. The spam message classifier spam message classifier generating apparatus characterized in that it created using any of the algorithms of Bagging, LibSVM, FT, J48 and BAyesNet.
KR1020110089499A 2011-09-05 2011-09-05 Method and apparatus for creating classifier for spam messages in social networking websites using sender-receiver relationship and method for filtering spam messages KR20130026099A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110089499A KR20130026099A (en) 2011-09-05 2011-09-05 Method and apparatus for creating classifier for spam messages in social networking websites using sender-receiver relationship and method for filtering spam messages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110089499A KR20130026099A (en) 2011-09-05 2011-09-05 Method and apparatus for creating classifier for spam messages in social networking websites using sender-receiver relationship and method for filtering spam messages

Publications (1)

Publication Number Publication Date
KR20130026099A true KR20130026099A (en) 2013-03-13

Family

ID=48177494

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110089499A KR20130026099A (en) 2011-09-05 2011-09-05 Method and apparatus for creating classifier for spam messages in social networking websites using sender-receiver relationship and method for filtering spam messages

Country Status (1)

Country Link
KR (1) KR20130026099A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014150847A1 (en) * 2013-03-15 2014-09-25 Facebook, Inc. Social filtering of user interface
WO2017014454A1 (en) * 2015-07-17 2017-01-26 주식회사 카카오 Apparatus and method for providing spam information
US9563770B2 (en) 2013-10-21 2017-02-07 Electronics And Telecommunications Research Institute Spammer group extraction apparatus and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014150847A1 (en) * 2013-03-15 2014-09-25 Facebook, Inc. Social filtering of user interface
US9582589B2 (en) 2013-03-15 2017-02-28 Facebook, Inc. Social filtering of user interface
US9563770B2 (en) 2013-10-21 2017-02-07 Electronics And Telecommunications Research Institute Spammer group extraction apparatus and method
WO2017014454A1 (en) * 2015-07-17 2017-01-26 주식회사 카카오 Apparatus and method for providing spam information

Similar Documents

Publication Publication Date Title
Yamaguchi et al. Turank: Twitter user ranking based on user-tweet graph analysis
KR101154686B1 (en) Social network search
US8108501B2 (en) Searching and route mapping based on a social network, location, and time
US8484744B1 (en) Detecting impersonation on a social network
US8015484B2 (en) Reputation system for web pages and online entities
Roth et al. Suggesting friends using the implicit social graph
US20120209832A1 (en) Social network based contextual ranking
US7769594B2 (en) Evaluation of reputation of an entity by a primary evaluation centre
Chu et al. Detecting automation of twitter accounts: Are you a human, bot, or cyborg?
US10049345B2 (en) Social network for providing recommendations for items of interest
US8959156B2 (en) Peer-to-peer aggregation system
US8682995B1 (en) Methods and apparatus for targeting communications using social network metrics
US9384186B2 (en) Monitoring conversations to identify topics of interest
US20130073568A1 (en) Ranking structured objects and actions on a social networking system
US8433764B2 (en) Identification of message recipients
Imwinkelried et al. Courtroom Criminal Evidence
US8838564B2 (en) Method to increase content relevance using insights obtained from user activity updates
US20110040844A1 (en) Communication Systems and Methods with Social Network Filtering
US8825759B1 (en) Recommending posts to non-subscribing users
US10074094B2 (en) Generating a user profile based on self disclosed public status information
US8700540B1 (en) Social event recommendations
US20090327054A1 (en) Personal reputation system based on social networking
US10311106B2 (en) Social graph visualization and user interface
US9183270B2 (en) Social genome
US9299060B2 (en) Automatically suggesting groups based on past user interaction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application