KR20170054167A - 공간 정보를 사용한 sns 봇 검출 방법 - Google Patents

공간 정보를 사용한 sns 봇 검출 방법 Download PDF

Info

Publication number
KR20170054167A
KR20170054167A KR1020150156970A KR20150156970A KR20170054167A KR 20170054167 A KR20170054167 A KR 20170054167A KR 1020150156970 A KR1020150156970 A KR 1020150156970A KR 20150156970 A KR20150156970 A KR 20150156970A KR 20170054167 A KR20170054167 A KR 20170054167A
Authority
KR
South Korea
Prior art keywords
tweet
sns
bot
user
distance information
Prior art date
Application number
KR1020150156970A
Other languages
English (en)
Other versions
KR101804020B1 (ko
Inventor
신원용
김동건
조재희
Original Assignee
단국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 산학협력단 filed Critical 단국대학교 산학협력단
Priority to KR1020150156970A priority Critical patent/KR101804020B1/ko
Publication of KR20170054167A publication Critical patent/KR20170054167A/ko
Application granted granted Critical
Publication of KR101804020B1 publication Critical patent/KR101804020B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • G06F17/218
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • G06Q50/30
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/144Detection or countermeasures against botnets

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Tourism & Hospitality (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Computer Hardware Design (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명의 공간 정보를 사용한 트윗 봇 검출 방법이 개시된다. 트윗 간 시간 정보에 대한 엔트로피(entropy) 값이 시간 정보에 대한 임계값보다 작은지를 판단하는 단계와, 트윗 간 시간 정보에 대한 엔트로피 값이 시간 정보에 대한 임계값보다 작은 경우 트윗 간 거리 정보에 대한 엔트로피 값이 거리 정보에 대한 임계값보다 작은지를 판단하는 단계 및 트윗 간 거리 정보에 대한 엔트로피 값이 거리 정보에 대한 임계값보다 작은 경우 연속하여 트윗을 보낸 사용자를 SNS 사용자가 아닌 SNS 봇으로 판별하는 단계를 포함한다.

Description

공간 정보를 사용한 SNS 봇 검출 방법{METHOD FOR SNS BOT DETECTION USING GEOGRAPHIC INFORMATION}
본 발명은 공간 정보를 사용한 SNS 봇 검출 방법에 관한 것으로, 더욱 상세하게는 트위터 서버로부터 공간 태그된 트윗(geo-tagged tweet) 데이터를 사용하여 악성 트윗 봇을 검출하는 공간 정보를 사용한 SNS 봇 검출 방법에 관한 것이다.
트윗 봇(tweet-bot)은 소셜 네트워크 서비스인 '트위터(twitter)'와 '로봇(robot)'의 줄임말인 '봇(bot)'의 합성어다. 예를 들면, 한국과학기술정보연구원(KISTI)이 제공하는 트윗봇(@NDSL_kr)은 멘션을 통해 원하는 자료의 종류와 검색어를 보내면 즉시 관련 내용을 볼 수 있는 웹페이지 주소(URL)를 보내준다. 지진봇(@earthquakebot)은 전 세계에서 발생하는 진도 5.0 이상의 지진을 실시간으로 알려주며, 서울날씨봇(@seoul_wt)은 매시간 서울 지역의 날씨, 프로야구 점수봇(@KBO scores)은 프로야구 경기 점수를 10분마다 알려 준다.
트윗 봇이 정보와 재미를 제공하는 긍정적인 측면도 있지만, 악의적으로 이용되기도 해 종종 부작용이 발생한다. 특히 트윗 봇은 익명 계정인 경우가 많기 때문에 막말이나 욕설, 음란한 내용으로 이용자들을 불쾌하게 만드는 사례도 늘고 있다. 이러한 문제 해결을 위하여 트윗 봇을 검출하기 위한 기술들이 개발되고 있다.
그라나 종래의 트윗 봇을 검출하는 기술은 지리적 공간 정보 공개를 허용(예: 체크인 서비스)하는 사용자가 증가하는 추세인데, 트윗 봇 검출을 수행하는데 이 정보를 전혀 활용하지 못하고 있다. 또한, 트윗 봇 검출을 수행하는데 있어 데이터 셋(data set) 내 소스 필드(source field)에서 제공하는 스마트기기 장치 정보를 활용하지 못하고 있다. 즉, 종래의 기술로는 시간 정보 및 트윗 텍스트 정보를 얻지 못하면 트윗 봇 검출이 불가하다는 문제점이 있었다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 공간 태그된 트윗(geo-tagged tweet)을 활용하여 트윗 간 시간(inter-tweet time) 및 트윗 간 거리(inter-tweet distance)에 대한 두 가지 변수의 엔트로피 값을 계산함으로써 사람과 트윗 봇의 시공간적 패턴 비교에 의해 트윗 봇을 검출할 수 있도록 한 공간 정보를 사용한 트윗 봇 검출 방법을 제공하는 데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 데이터 셋 내 소스 필드에서 제공하는 사용자별 스마트기기 장치 정보를 활용하여 트윗 간 거리 변수의 엔트로피 값과 선별된 장치 집합을 통해 트윗 봇을 검출할 수 있도록 한 공간 정보를 사용한 트윗 봇 검출 방법을 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 공간 정보를 사용한 SNS 봇 검출 방법은, 대규모 공간 태그된 트윗(geo-tagged tweet)으로 이루어지는 데이터 셋을 구성하는 단계와, 상기 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 시간 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 시간 정보에 대한 임계값을 설정하는 단계와, 상기 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 거리 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 임계값을 설정하는 단계와, 상기 트윗 간 시간 정보에 대한 엔트로피(entropy) 값이 상기 시간 정보에 대한 임계값보다 작은지를 판단하는 단계와, 상기 트윗 간 시간 정보에 대한 엔트로피 값이 상기 시간 정보에 대한 임계값보다 작은 경우 상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계 및 상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은 경우 연속하여 트윗을 보낸 사용자를 SNS 사용자가 아닌 SNS 봇으로 판별하는 단계를 포함한다.
상기 데이터 셋을 구성하는 단계에서, 상기 데이터 셋은 스트리밍 에이피아이(streaming API)를 통해 수집하여 구성한다.
상기 데이터 셋을 구성하는 단계에서, 각 트윗의 메타 데이터로부터 사용자 ID, 트윗을 전송한 장치 위치의 위도, 트윗을 전송한 장치 위치의 경도, 트윗을 전송한 시각, 트윗을 생성한 장치에 대한 각 필드가 채택된다.
상기 시간 정보에 대한 임계값을 설정하는 단계에서, 상기 시간 정보에 대한 임계값은 지정된 신뢰도가 가능하도록 하는 시간 정보에 대한 엔트로피 값을 의미한다.
상기 거리 정보에 대한 임계값을 설정하는 단계에서, 상기 거리 정보에 대한 임계값은 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 엔트로피 값을 의미한다.
상기 SNS 봇을 판별하는 단계에서, 상기 SNS 봇으로 판별한 경우 SNS 봇 카운트(b_count)를 증가시켜 SNS 봇 검출 확률(bot detection probability, Bot DP)을 구하는 단계를 더 포함한다.
상기 SNS 봇을 판별하는 단계에서, 상기 SNS 사용자가 오인되었을 경우 SNS 사용자 카운터(h_count)를 증가하여 거짓 알람 확률(false alarm probability, FAP)을 구하는 단계를 더 포함한다.
상기 트윗 간 시간 정보에 대한 엔트로피 값이 상기 시간 정보에 대한 임계값보다 작은지를 판단하는 단계에서, 상기 트윗 간 시간 정보에 대한 엔트로피 값이 상기 시간 정보에 대한 임계값보다 작지 않은 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별한다.
상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계에서, 상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작지 않은 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별하는 단계를 더 포함한다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 공간 정보를 사용한 SNS 봇 검출 방법은, 대규모 공간 태그된 트윗(geo-tagged tweet)으로 이루어지는 데이터 셋을 구성하는 단계와, 상기 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 거리 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 임계값을 설정하는 단계와, SNS 사용자가 트윗을 보내기 위한 장치들을 선별하여 SNS 사용자 장치 집합으로 설정하는 단계와, 상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계와, 상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은 경우 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하는지를 판단하는 단계 및 상기 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하지 않는 경우 연속하여 트윗을 보낸 사용자를 SNS 사용자가 아닌 SNS 봇으로 판별하는 단계를 포함한다.
상기 데이터 셋을 구성하는 단계에서, 상기 데이터 셋은 스트리밍 에이피아이(streaming API)를 통해 수집하여 구성한다.
상기 데이터 셋을 구성하는 단계에서, 각 트윗의 메타 데이터로부터 사용자 ID, 트윗을 전송한 장치 위치의 위도, 트윗을 전송한 장치 위치의 경도, 트윗을 전송한 시각, 트윗을 생성한 장치에 대한 각 필드가 채택된다.
상기 거리 정보에 대한 임계값을 설정하는 단계에서, 상기 거리 정보에 대한 임계값은 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 엔트로피 값을 의미한다.
상기 SNS 봇을 판별하는 단계에서, 상기 SNS 봇으로 판별한 경우 SNS 봇 카운트(b_count)를 증가시켜 SNS 봇 검출 확률(bot detection probability, Bot DP)을 구하는 단계를 더 포함한다.
상기 SNS 봇을 판별하는 단계에서, 상기 SNS 사용자가 오인되었을 경우 SNS 사용자 카운터(h_count)를 증가하여 거짓 알람 확률(false alarm probability, FAP)을 구하는 단계를 더 포함한다.
상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계에서, 상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작지 않은 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별하는 단계를 더 포함한다.
상기 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하는지를 판단하는 단계에서, 상기 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하는 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별하는 단계를 더 포함한다.
본 발명에 의하면, 공간 태그된 트윗(geo-tagged tweet)을 활용하여 트윗 간 시간(inter-tweet time) 및 트윗 간 거리(inter-tweet distance)에 대한 두 가지 변수의 엔트로피 값을 계산함으로써 사람과 트윗 봇의 시공간적 패턴 비교에 의해 보다 정교하게 트윗 봇을 검출할 수 있다.
또한, 데이터 셋 내 소스 필드에서 제공하는 사용자별 스마트기기 장치 정보를 활용하여 트윗 간 거리 변수의 엔트로피 값과 선별된 장치 집합을 통해 더욱 정확하게 트윗 봇을 검출할 수 있다.
또한, 트윗 봇에 대한 공간 DB(datadase)를 구축함으로써 이를 통해 향후 여러 가지 소셜 네트워크 서비스에서의 악성 봇의 공간적 패턴을 파악 및 검출에 사용될 수 있다.
도 1은 본 발명에 따른 공간 정보를 사용한 트윗 봇 검출 방법의 일 실시예를 도시한 순서도이다.
도 2는 본 발명에 따른 공간 정보를 사용한 트윗 봇 검출 방법의 다른 실시예를 도시한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법 을 사용하였을 때 신뢰도별 트윗 봇 검출 확률을 나타내는 그래프이다.
도 4는 본 발명의 일 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법을 사용하였을 때 트윗 봇 검출 확률(bot detection probability, Bot DP)과 거짓 알람 확률(false alarm probability, FAP) 간 상관관계를 나타내는 그래프이다.
도 5는 본 발명의 다른 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법을 사용하였을 때 트윗 봇 검출 확률과 거짓 알람 확률 간 상관관계를 나타내는 그래프이다.
도 6은 본 발명에 따른 방법들을 수행하는 스마트 장치의 일 실시예를 도시한 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명에 따른 공간 정보를 사용한 트윗 봇 검출 방법의 일 실시예를 도시한 순서도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법은 시간 및 거리 정보를 활용한 두 단계 트윗 봇 검출 방법에 관한 것이다.
우선 트위터 계정은 사람(human)과, 뉴스나 소식을 전달해주는 트윗을 대량 생산하는 계정인 트윗 봇(tweet bot)으로 구분된다. 그러나 스팸이나 악성 정보를 퍼트리는 악성 트윗 봇(malicious tweet bot)도 존재하므로 사람과 트윗 봇을 구분해야 한다.
본 발명은 트위터 서버로부터 공간 태그된 트윗(geo-tagged tweet) 데이터를 사용하여 악성 트윗 봇을 검출하기 위한 것으로, 사용자별 트윗 간 거리를 사용하여 불확실성을 나타내는 엔트로피(entropy)를 계산한다.
본 발명에서는 먼저 트위터 스트리밍 에이피아이(twitter streaming API)를 통해 수집한 데이터셋을 사용한다. 데이터 셋은 특정 지역(예: 서울, 런던, 로스 앤젤레스 등)에서의 트위터 사용자들로부터 기록된 대규모 공간 태그된 트윗으로 구성된다.
각 트윗은 귀속된 필드명에 의해 구분되는 수많은 원소를 포함하고 있는데, 본 발명의 관심지점 경계선 검출 기술을 위해서는 트윗의 메타데이터로부터 다음의 5가지 중요한 필드가 채택된다.
user_id_str: 특정 사용자의 유일한 ID의 스트링 표현
lat: 트윗을 전송한 장치 위치의 위도
lot: 트윗을 전송한 장치 위치의 경도
created_at: 트윗을 전송한 UTC/GMT 시각
source: 트윗을 생성한 스마트기기 장치
Ground-truth 방법을 통해 사용자 셋과 트윗 봇 셋을 분류한다. 트위터 페이지에 게시하는 트윗 컨텐츠를 분석하여 규칙적으로 같은 메시지나 URL을 반복적으로 트윗하는 사용자를 트윗 봇으로 분류한다. 또한, 트윗을 분석하여 텍스트에 스팸 컨텐츠가 포함되어 있는 경우 해당 트윗 사용자를 트윗 봇으로 간주한다.
사용자 셋은 두 개로 분할하는데, 첫 번째 집합은 훈련 셋(training set)이고, 두 번째 집합은 전체 트윗 봇 셋과 함께 테스트 셋(test set)으로 구성한다. 사용자 셋 및 트윗 봇 셋으로 구분한 이후 사용자로 보이지만 동일한 사용자가 연속하여 보내는 트윗의 트윗 간 속도가 300km/h보다 빠른 사용자는 트윗 봇으로 재분류한다. 본 발명에서는 분류 기준에 의해 전체 1,007개의 사용자 계정 중 사람 계정 892개, 트윗 봇 계정 115개로 데이터셋을 구성한다.
트윗 봇은 사람보다 훨씬 시간 측면에서 규칙적으로 트윗을 포스팅하는 경향이 있다. 따라서 트윗 봇의 트윗 간 시간 정보에 대한 엔트로피는 사람보다 훨씬 작다고 판단할 수 있다.
사용자
Figure pat00001
Figure pat00002
번째 트윗을 보냈을 때의 위치 정보가
Figure pat00003
이고,
Figure pat00004
번째 트윗을 보냈을 때의 위치 정보가
Figure pat00005
라 할 때, 두 지점 사이의 지리적 거리
Figure pat00006
는 구면 코사인 법칙(spherical law of cosines)을 사용하여 구할 수 있다.
거리
Figure pat00007
는 최대 800km로 제한하였으며
Figure pat00008
=0인 경우를 먼저 분할한 후 하기의 표 1에서 보이는 것과 같이 구간별로 총 101 구간으로 차등 분할하였다.
연속된 두 인접한 트윗 간 시간
Figure pat00009
Figure pat00010
와 같이 주어진다. 시간
Figure pat00011
는 최대 144시간으로 제한하였으며
Figure pat00012
=0 인 경우를 먼저 분할한 후 1시간 단위로 총 145구간으로 균등 분할하였다.
하기의 표 1은 사용자가 서로 다른 지점에서 트윗을 보내는 경우 두 지점 사이의 지리적 거리(
Figure pat00013
)를 구간별로 분할한 경우의 일예를 나타낸다.
Dij 구간범위(km) 구간 수
0〈Dij〈0.1 0 1
0.1≤Dij〈1 0.1 9
1≤Dij〈3 0.5 4
3≤Dij〈10 1 7
10≤Dij〈800 10 79
훈련 셋 및 테스트 셋에서의 엔트로피 집합을 각각
Figure pat00014
Figure pat00015
로 나타내자. 훈련 셋에서
Figure pat00016
번째 사용자의 트윗 간 시간 정보와 트윗 간 거리 정보에 대한 엔트로피 값을 각각
Figure pat00017
Figure pat00018
로 표기한다.
마찬가지로 테스트 셋에서
Figure pat00019
번째 사용자의 트윗 간 시간 정보와 트윗 간 거리 정보에 대한 엔트로피 값을 각각
Figure pat00020
Figure pat00021
로 표기한다.
또한,
Figure pat00022
Figure pat00023
는 각각 훈련 셋과 테스트 셋에 포함된 전체 사용자 수를 의미한다. 이 때
Figure pat00024
=446,
Figure pat00025
=561로 주어진다.
다음은 불확실성을 나타내는 엔트로피를 구하는 기본적인 공식으로서, 훈련 셋 내 레코드를 사용하여
Figure pat00026
번째 사용자의 트윗 간 시간 정보와 트윗 간 거리 정보에 대한 엔트로피 값은 하기의 수학식 1에 의해 계산된다.
Figure pat00027
Figure pat00028
여기서
Figure pat00029
Figure pat00030
Figure pat00031
번째 인덱스에 대한 변수
Figure pat00032
Figure pat00033
의 확률분포,
Figure pat00034
는 데이터 총 개수를 나타낸다.
각 사용자별 엔트로피 값을 이용하여 트윗 봇을 검출하는 방법은 다음과 같다.
먼저 시간 변수
Figure pat00035
를 사용한 훈련 과정을 수행하여 각 신뢰도별 임계값을 구한다. 여기서, 신뢰도란 사용자가 지정한 범위 내에 포함될 확률이고, 임계값이란 지정한 신뢰도가 가능하도록 하는 엔트로피 값이다.
신뢰도가 높을수록 지정한 범위 내의 사람 사용자가 많음을 뜻한다. 예를 들어, 신뢰도가 80%가 되도록 하는 변수
Figure pat00036
에 대한 임계값은 훈련 셋에서 엔트로피
Figure pat00037
의 최대값으로부터 사람의 80%가 포함되도록 하는 엔트로피의 최소값으로 설정된다. 이때 최대값을 기준으로 신뢰도를 지정한 이유는 트윗 봇이 사람에 비해 보다 주기적으로 트윗하는 경향 때문이다.
테스트 과정에서는, 앞서 설정한 임계값을 바탕으로 두 단계에 걸쳐서 트윗 봇을 검출하게 된다. 먼저 첫 번째 단계 검출 과정으로 시간 정보에 대한 엔트로피만을 사용한다. 임계값보다 시간 정보에 대한 엔트로피 값
Figure pat00038
이 작은 사용자는 트윗 봇으로 분류된다.
다음으로 두 번째 단계 검출과정을 수행할 때 본 발명에서 제안하는 거리 정보의 엔트로피에 따라 검출을 진행한다. 트윗 간 거리 정보의 분산이 작을수록 트윗 봇일 확률이 높으므로, 임의의 엔트로피 임계값을 지정하여 이 값보다 작은 사용자는 트윗 봇으로 판별한다.
테스트 셋에서 거리에 대응하는 엔트로피 중 최소값으로 지정하여, 이 값보다 작은 엔트로피 값을 가진 사용자는 트윗 봇으로 검출되도록 한다.
먼저, 트위터 서버로부터 공간 태그된 트윗(geo-tagged tweet) 데이터를 사용하여 트윗 봇을 검출하기 위한 단말(device)은 SNS 사용자와 SNS 트윗 봇을 포함하는 트위터 사용자들로부터 기록된 대규모 공간 태그된 트윗(geo-tagged tweet)으로 이루어지는 데이터 셋을 구성(S10)한다.
단말은 구성된 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 시간 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 시간 정보에 대한 엔트로피 값을 나타내는 임계값을 설정(S11)한다.
단말은 구성된 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 거리 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 엔트로피 값을 나타내는 임계값을 설정(S12)한다.
단말은 연속하여 트윗을 보낸 사용자의 트윗 간 시간 정보에 대한 엔트로피 값이 트윗 간 시간 정보에 대한 임계값보다 작은지를 판단(S13)한다.
단말은 판단 결과 시간 정보에 대한 엔트로피 값이 시간 정보에 대한 임계값보다 작은 사용자에 대해서는 트윗 간 거리 정보에 대한 엔트로피 값이 트윗 간 거리 정보에 대한 임계값보다 작은지를 판단(S14)한다.
단말은 판단 결과 거리 정보에 대한 엔트로피 값이 거리 정보에 대한 임계값보다 작은 사용자는 SNS 트윗 봇으로 판별(S15)한다.
그러나, 단말은 S13 과정에서 트윗 간 시간 정보에 대한 엔트로피 값이 트윗 간 시간 정보에 대한 임계값보다 작지 않거나, S14 과정에서 트윗 간 거리 정보에 대한 엔트로피 값이 트윗 간 거리 정보에 대한 임계값보다 작지 않은 경우에는 SNS 사용자로 판별(S16)한다.
단말은 SNS 트윗 봇으로 판별된 경우 트윗 봇 카운트(b_count)를 증가시켜 트윗 봇 검출 확률
Figure pat00039
를 구하고(S17), SNS 사용자가 오인되었을 경우 사용자 카운트(h_count)를 증가하여 거짓 알람 확률
Figure pat00040
를 구하게 된다(S18).
즉, 단말은 트윗 간 시간 정보에 대한 엔트로피 값이 트윗 간 시간 정보에 대한 임계값보다 작으면서 트윗 간 거리 정보에 대한 엔트로피 값이 트윗 간 거리 정보에 대한 임계값보다 작은 사용자를 SNS 트윗 봇으로 판별한다.
도 2는 본 발명에 따른 공간 정보를 사용한 트윗 봇 검출 방법의 다른 실시예를 도시한 순서도이다.
도 2를 참조하면, 본 발명의 다른 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법은 트윗 간 거리 정보 및 사용자 장치 집합을 활용한 트윗 봇 검출 방법에 관한 것이다.
트윗 봇은 트윗 간 이동거리가 0에 가깝거나 사람에 비해 거대 스케일로 비교적 규칙적인 이동을 하는 경향이 있다. 따라서 트윗 봇의 트윗 간 거리 변수에 대한 엔트로피도 사람보다 훨씬 작다고 판단할 수 있다.
훈련 셋 및 테스트 셋에서의 엔트로피 집합을 각각
Figure pat00041
Figure pat00042
로 나타낸다. 훈련 셋에서
Figure pat00043
번째 사용자의 트윗 간 거리 정보에 대한 엔트로피 값을
Figure pat00044
로 표기한다. 마찬가지로 테스트 셋에서
Figure pat00045
번째 사용자의 거리 정보에 대한 엔트로피 값을
Figure pat00046
로 표기한다. 이 때, 훈련 셋 내 레코드를 사용하여
Figure pat00047
번째 사용자의 거리 정보에 대한 엔트로피는 하기의 수학식 2에 의해 계산된다.
Figure pat00048
여기서
Figure pat00049
Figure pat00050
번째 인덱스에 대한 거리 정보
Figure pat00051
의 확률분포,
Figure pat00052
는 데이터 총 개수를 나타낸다.
먼저, 트위터 서버로부터 공간 태그된 트윗(geo-tagged tweet) 데이터를 사용하여 트윗 봇을 검출하기 위한 단말(device)은 사용자와 트윗 봇을 포함하는 트위터 사용자들로부터 기록된 대규모 공간 태그된 트윗(geo-tagged tweet)으로 이루어지는 데이터 셋을 구성(S20)한다.
단말은 구성된 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 거리 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 엔트로피 값을 나타내는 임계값을 설정(S21)한다.
단말은 SNS 사용자가 트윗을 보내기 위한 장치들을 선별하여 SNS 사용자 장치 집합으로 설정(S22)한다. 이와 같이 선별된 SNS 사용자의 장치 집합 DV는 하기와 같이 정의된다. 사용자의 장치 집합 DV에는 트위터(twitter), 포스퀘어(foursquare), 인스타그램(instagram)와 같은 소셜 네트워크 서비스(social network service, SNS) 이용을 위한 아이폰(iphone), 아이패드(ipad), 윈도우즈 폰(windows), 안드로이드 폰(android phone) 등이 포함될 수 있다.
Figure pat00053
단말은 SNS 사용자가 트윗을 보내기 위해 사용하는 장치의 분포도에서 0.5% 이상의 확률 값을 가지는 장치들만을 선별하고, 선별된 장치들은 SNS 사용자가 사용하게 된다.
단말은 연속하여 트윗을 보낸 사용자의 트윗 간 거리 정보에 대한 엔트로피 값이 트윗 간 거리 정보에 대한 임계값보다 작은지를 판단(S23)한다.
단말은 판단 결과 거리 정보에 대한 엔트로피 값이 거리 정보에 대한 임계값보다 작은 사용자에 대해서는 연속하여 트윗을 보낸 사용자의 장치가 선별된 사용자의 장치 집합 DV에 속하는지를 판단(S24)한다.
단말은 판단 결과 연속하여 트윗을 보낸 사용자의 장치가 미리 선별된 사용자의 장치 집합 DV에 속하지 않는 경우 연속하여 트윗을 보낸 사용자를 트윗 봇으로 판별(S25)한다.
그러나, 단말은 S24 과정에서 트윗 간 거리 정보에 대한 엔트로피 값이 트윗 간 거리 정보에 대한 임계값보다 작지 않거나, S25 과정에서 연속하여 트윗을 보낸 사용자의 장치가 미리 선별된 사용자의 장치 집합 DV에 속하는 경우에는 사용자로 판별(S26)한다.
단말은 트윗 봇으로 판별된 경우 트윗 봇 카운트(b_count)를 증가시켜 트윗 봇 검출 확률
Figure pat00054
를 구하고(S27), SNS 사용자가 오인되었을 경우 사용자 카운트(h_count)를 증가하여 거짓 알람 확률
Figure pat00055
를 구하게 된다(S28).
즉, 단말은 트윗 간 거리 정보에 대한 엔트로피 값이 트윗 간 거리 정보에 대한 임계값보다 작으면서 연속하여 트윗을 보낸 사용자의 장치가 선별된 사용자의 장치 집합 DV에 속하지 않는 경우 연속하여 트윗을 보낸 사용자를 트윗 봇으로 판별한다.
도 3은 본 발명의 일 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법 을 사용하였을 때 신뢰도별 트윗 봇 검출 확률을 나타내는 그래프이다.
도 3을 참조하면, 신뢰도가 높을수록 사람이 사람으로 인식될 확률이 높아져 안정적으로 트윗 봇 검출이 가능하다. 반면, 신뢰도가 낮아질수록 불안정한 트윗 봇 검출이 되지만 그에 따라 트윗 봇 또한 검출될 확률이 높아진다.
또한, 기존 기술 대비 본 발명안이 모든 신뢰도 구간에서 약 10~15% 정도 향상된 트윗 봇 검출 확률을 보이고 있으므로, 같은 신뢰도에서 트윗 봇을 검출할 확률이 높아진다.
도 4는 본 발명의 일 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법을 사용하였을 때 트윗 봇 검출 확률(bot detection probability, Bot DP)과 거짓 알람 확률(false alarm probability, FAP) 간 상관관계를 나타내는 그래프이다.
도 4를 참조하면, 특정 임계값보다 엔트로피 값이 작은 사용자를 트윗 봇으로 판별하는 본 발명에서는 거짓 알람 확률이 높아질수록 그만큼 트윗 봇 검출 확률도 높아지게 됨을 알 수 있다. 종래의 일반적인 방법과 비교해 보면 본 발명이 같은 거짓 알람 확률에서 더 높은 트윗 봇 검출 확률을 보인다.
도 5는 본 발명의 다른 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법을 사용하였을 때 트윗 봇 검출 확률과 거짓 알람 확률 간 상관관계를 나타내는 그래프이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 공간 정보를 사용한 트윗 봇 검출 방법과 마찬가지로 본 발명이 기존 기술 대비 같은 거짓 알람 확률에서 더 높은 트윗 봇 검출 확률을 보임을 확인할 수 있다.
도 6은 본 발명에 따른 방법들을 수행하는 스마트 장치의 일 실시예를 도시한 블록도이다.
도 6을 참조하면, 본 발명의 스마트 장치(100)는 적어도 하나의 프로세서(110), 메모리(120) 및 네트워크와 연결되어 통신을 수행하는 네트워크 인터페이스 장치(130)를 포함할 수 있다. 또한, 스마트 장치(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 스마트 장치(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(110)는 메모리(120) 및/또는 저장 장치(160)에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU) 또는 본 발명에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120)와 저장 장치(160)는 휘발성 저장 매체 및/또는 비휘발성 저장 매체로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및/또는 랜덤 액세스 메모리(random access memory, RAM)로 구성될 수 있다.
이와 같은 구성을 갖는 본 발명의 스마트 장치(100)는 도 1 내지 도 2에서 설명한 방법들을 수행하는 것에 의해 트위터 서버(미도시됨)로부터 공간 태그된 트윗(geo-tagged tweet) 데이터를 사용하여 악성 트윗 봇을 검출한다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100 : 스마트 장치
110 : 프로세서
120) : 메모리
130 : 네트워크 인터페이스 장치
140 : 입력 인터페이스 장치
150 : 출력 인터페이스 장치
160 : 저장 장치
170 : 버스(bus)

Claims (17)

  1. 단말(device)에서 수행되는 SNS 봇(SNS bot) 검출 방법으로서,
    대규모 공간 태그된 트윗(geo-tagged tweet)으로 이루어지는 데이터 셋을 구성하는 단계;
    상기 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 시간 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 시간 정보에 대한 임계값을 설정하는 단계;
    상기 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 거리 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 임계값을 설정하는 단계;
    상기 트윗 간 시간 정보에 대한 엔트로피(entropy) 값이 상기 시간 정보에 대한 임계값보다 작은지를 판단하는 단계;
    상기 트윗 간 시간 정보에 대한 엔트로피 값이 상기 시간 정보에 대한 임계값보다 작은 경우 상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계; 및
    상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은 경우 연속하여 트윗을 보낸 사용자를 SNS 사용자가 아닌 SNS 봇으로 판별하는 단계;를 포함하는 SNS 봇 검출 방법.
  2. 청구항 1에 있어서,
    상기 데이터 셋을 구성하는 단계에서,
    상기 데이터 셋은 스트리밍 에이피아이(streaming API)를 통해 수집하여 구성하는 SNS 봇 검출 방법.
  3. 청구항 1에 있어서,
    상기 데이터 셋을 구성하는 단계에서,
    각 트윗의 메타 데이터로부터 사용자 ID, 트윗을 전송한 장치 위치의 위도, 트윗을 전송한 장치 위치의 경도, 트윗을 전송한 시각, 트윗을 생성한 장치에 대한 각 필드가 채택되는 SNS 봇 검출 방법.
  4. 청구항 1에 있어서,
    상기 시간 정보에 대한 임계값을 설정하는 단계에서,
    상기 시간 정보에 대한 임계값은 지정된 신뢰도가 가능하도록 하는 시간 정보에 대한 엔트로피 값을 의미하는 SNS 봇 검출 방법.
  5. 청구항 1에 있어서,
    상기 거리 정보에 대한 임계값을 설정하는 단계에서,
    상기 거리 정보에 대한 임계값은 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 엔트로피 값을 의미하는 SNS 봇 검출 방법.
  6. 청구항 1에 있어서,
    상기 SNS 봇을 판별하는 단계에서,
    상기 SNS 봇으로 판별한 경우 SNS 봇 카운트(b_count)를 증가시켜 SNS 봇 검출 확률(bot detection probability, Bot DP)을 구하는 단계를 더 포함하는 SNS 봇 검출 방법.
  7. 청구항 1에 있어서,
    상기 SNS 봇을 판별하는 단계에서,
    상기 SNS 사용자가 오인되었을 경우 SNS 사용자 카운터(h_count)를 증가하여 거짓 알람 확률(false alarm probability, FAP)을 구하는 단계를 더 포함하는 SNS 봇 검출 방법.
  8. 청구항 1에 있어서,
    상기 트윗 간 시간 정보에 대한 엔트로피 값이 상기 시간 정보에 대한 임계값보다 작은지를 판단하는 단계에서,
    상기 트윗 간 시간 정보에 대한 엔트로피 값이 상기 시간 정보에 대한 임계값보다 작지 않은 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별하는 단계를 더 포함하는 SNS 봇 검출 방법.
  9. 청구항 1에 있어서,
    상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계에서,
    상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작지 않은 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별하는 단계를 더 포함하는 SNS 봇 검출 방법.
  10. 단말(device)에서 수행되는 SNS 봇(SNS bot) 검출 방법으로서,
    대규모 공간 태그된 트윗(geo-tagged tweet)으로 이루어지는 데이터 셋을 구성하는 단계;
    상기 데이터 셋에서 동일한 사용자에 의해 연속하여 트윗된 트윗 간 거리 정보를 사용하여 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 임계값을 설정하는 단계;
    SNS 사용자가 트윗을 보내기 위한 장치들을 선별하여 SNS 사용자 장치 집합으로 설정하는 단계;
    상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계;
    상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은 경우 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하는지를 판단하는 단계; 및
    상기 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하지 않는 경우 연속하여 트윗을 보낸 사용자를 SNS 사용자가 아닌 SNS 봇으로 판별하는 단계;를 포함하는 SNS 봇 검출 방법.
  11. 청구항 10에 있어서,
    상기 데이터 셋을 구성하는 단계에서,
    상기 데이터 셋은 스트리밍 에이피아이(streaming API)를 통해 수집하여 구성하는 SNS 봇 검출 방법.
  12. 청구항 10에 있어서,
    상기 데이터 셋을 구성하는 단계에서,
    각 트윗의 메타 데이터로부터 사용자 ID, 트윗을 전송한 장치 위치의 위도, 트윗을 전송한 장치 위치의 경도, 트윗을 전송한 시각, 트윗을 생성한 장치에 대한 각 필드가 채택되는 SNS 봇 검출 방법.
  13. 청구항 10에 있어서,
    상기 거리 정보에 대한 임계값을 설정하는 단계에서,
    상기 거리 정보에 대한 임계값은 지정된 신뢰도가 가능하도록 하는 거리 정보에 대한 엔트로피 값을 의미하는 SNS 봇 검출 방법.
  14. 청구항 10에 있어서,
    상기 SNS 봇을 판별하는 단계에서,
    상기 SNS 봇으로 판별한 경우 SNS 봇 카운트(b_count)를 증가시켜 SNS 봇 검출 확률(bot detection probability, Bot DP)을 구하는 단계를 더 포함하는 SNS 봇 검출 방법.
  15. 청구항 10에 있어서,
    상기 SNS 봇을 판별하는 단계에서,
    상기 SNS 사용자가 오인되었을 경우 SNS 사용자 카운터(h_count)를 증가하여 거짓 알람 확률(false alarm probability, FAP)을 구하는 단계를 더 포함하는 SNS 봇 검출 방법.
  16. 청구항 10에 있어서,
    상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작은지를 판단하는 단계에서,
    상기 트윗 간 거리 정보에 대한 엔트로피 값이 상기 거리 정보에 대한 임계값보다 작지 않은 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별하는 단계를 더 포함하는 SNS 봇 검출 방법.
  17. 청구항 10에 있어서,
    상기 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하는지를 판단하는 단계에서,
    상기 트윗시 사용한 장치가 상기 SNS 사용자 장치 집합에 속하는 경우 연속하여 트윗을 보낸 사용자를 상기 SNS 사용자로 판별하는 단계를 더 포함하는 SNS 봇 검출 방법.
KR1020150156970A 2015-11-09 2015-11-09 공간 정보를 사용한 sns 봇 검출 방법 KR101804020B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150156970A KR101804020B1 (ko) 2015-11-09 2015-11-09 공간 정보를 사용한 sns 봇 검출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150156970A KR101804020B1 (ko) 2015-11-09 2015-11-09 공간 정보를 사용한 sns 봇 검출 방법

Publications (2)

Publication Number Publication Date
KR20170054167A true KR20170054167A (ko) 2017-05-17
KR101804020B1 KR101804020B1 (ko) 2017-12-28

Family

ID=59048678

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150156970A KR101804020B1 (ko) 2015-11-09 2015-11-09 공간 정보를 사용한 sns 봇 검출 방법

Country Status (1)

Country Link
KR (1) KR101804020B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102085593B1 (ko) * 2019-09-16 2020-03-06 포항공과대학교 산학협력단 기계학습 기법 기반 블록체인 sns 포스팅 봇 검출 방법 및 장치
CN111817923A (zh) * 2020-07-28 2020-10-23 城云科技(中国)有限公司 交换机端口流量突变的预警分析方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102085593B1 (ko) * 2019-09-16 2020-03-06 포항공과대학교 산학협력단 기계학습 기법 기반 블록체인 sns 포스팅 봇 검출 방법 및 장치
CN111817923A (zh) * 2020-07-28 2020-10-23 城云科技(中国)有限公司 交换机端口流量突变的预警分析方法和装置

Also Published As

Publication number Publication date
KR101804020B1 (ko) 2017-12-28

Similar Documents

Publication Publication Date Title
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
US10191945B2 (en) Geolocating social media
Lee Mining spatio-temporal information on microblogging streams using a density-based online clustering method
US10747771B2 (en) Method and apparatus for determining hot event
Lee et al. A novel approach for event detection by mining spatio-temporal information on microblogs
CN105095211B (zh) 多媒体数据的获取方法和装置
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
CN104703125B (zh) 基于即时通信的信息推荐方法、装置和终端
US9519718B2 (en) Webpage information detection method and system
Baratchi et al. A hierarchical hidden semi-markov model for modeling mobility data
KR101764696B1 (ko) 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템
Kumar et al. A behavior analytics approach to identifying tweets from crisis regions
US20170177623A1 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
US20140181109A1 (en) System and method for analysing text stream message thereof
Yamaguchi et al. Landmark-based user location inference in social media
Williams et al. Improving geolocation of social media posts
Steiger et al. Research on social media feeds–A GIScience perspective
Almaguer-Angeles et al. Choosing machine learning algorithms for anomaly detection in smart building iot scenarios
KR101804020B1 (ko) 공간 정보를 사용한 sns 봇 검출 방법
Benkhelifa et al. Framework for mobile devices analysis
CN111125369A (zh) 一种默契度检测方法、设备、服务器及可读存储介质
Romsaiyud Detecting emergency events and geo-location awareness from twitter streams
KR20160028709A (ko) 불법 사이트 차단 시스템 및 방법, 이를 수행하기 위한 기록매체
Bennett et al. Assessing twitter geocoding resolution
JP6060039B2 (ja) 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant