KR102191396B1

KR102191396B1 - 스팸 단문 메시지 탐지 방법 및 장치

Info

Publication number: KR102191396B1
Application number: KR1020190112916A
Authority: KR
Inventors: 노기섭
Original assignee: 청주대학교 산학협력단
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-12-15

Abstract

스팸 단문 메시지 탐지 방법 및 장치가 개시된다. 스팸 단문 메시지 탐지 방법은, 단문 메시지의 송수신이 이루어짐에 따라 SMS(Short Message Service) 네트워크 그래프를 생성하는 단계, 생성된 SMS 네트워크 그래프를 이용하여, 단문 메시지를 발신한 발신자 노드에 대한 수신자 노드의 평균 클러스터링 계수(clustering coefficient)를 산출하는 단계, 생성된 SMS 네트워크 그래프를 이용하여, SMS 네트워크 그래프 상에 존재하는 모든 노드에서 상기 수신자 노드를 제외한 나머지 노드의 평균 클러스터링 계수를 산출하는 단계 및 상기 수신자 노드의 평균 클러스터링 계수 및 상기 나머지 노드의 평균 클러스터링 계수를 이용하여 발신자 노드로부터 전송된 단문 메시지가 스팸 단문 메시지인지 여부를 결정하는 단계를 포함한다.

Description

스팸 단문 메시지 탐지 방법 및 장치{Method and apparatus for detecting SMS-spam}

본 발명은 스팸 단문 메시지 탐지 방법 및 장치에 관한 것이다.

단문메시지 서비스(Short Message Service, SMS)는 제한된 크기의 메시지를 모바일 네트워크를 통해 전송하는 통신 방법 중 하나이다. 전 세계적으로 휴대 전화가 널리 보급됨에 따라 SMS 비용은 지속적으로 감소하고 있다. SMS는 사용의 용이성과 저렴한 비용으로 인해 가장 널리 사용되는 통신 서비스 중 하나가 되었다.

ITU(International Telecommunication Union)에 따르면 2010년 기준 53억명의 모바일 휴대 전화 사용자가 1.8 조 개의 SMS 메시지(초당 약 200,000 개의 SMS 메시지)를 전송하였으며, 2017년 기준 매일 187억개의 텍스트가 전송된다.

스마트폰의 보급이 확대되면서 모바일 메신저 및 사회 관계망 서비스(Social Network Service)가 널리 이용되고 있지만 SMS는 여전히 메시지를 전송하는 주요 방법 중의 하나로 이용되고 있다.

스팸 메시지는 경제적 동기, 피싱 및 사기 등 악의적인 의도로 다수의 수신자에게 전송되는 수신자가 원치 않는 메시지이다. 스팸 메시지는 이메일, 온라인 소셜 네트워크, SMS, 블로그 등 다양한 온라인 커뮤니케이션에 빈번히 발생한다. SMS 스팸 메시지는 적은 비용으로 개개인에게 비공개적으로 전달된다는 점에서 메시지를 전달하고자 하는 발신자에게 선호되는 전달 방식 중 하나이다. 메시지 수신자는 전자 메일이나 다른 온라인 통신에 비해 SMS 메시지를 신뢰하는 경향이 있어 수신된 메시지를 열람할 가능성이 더 크다. 또한 스팸 메시지를 전송하고자 하는 발신자(스패머) 입장에서 대상 계정(수신자의 전화번호)을 용이하게 획득할 수 있다. 중국과 인도의 SMS 트래픽의 20~30%는 SMS 스팸이며, 아시아 지역의 SMS 메시지의 30%는 스팸으로 분류될 수 있다는 조사도 있다. 일반적으로 SMS 메시지를 작성할 때 적은 글자로 많은 양의 정보를 전달하기 위하여 표준어 이외에 단축어, 신조어 등을 사용하는 경향이 있다. 이러한 점은 스팸 메시지의 선별에 일정한 어려움으로 작용할 수 있다.

지금까지 이메일 스팸을 탐지하는 방법을 중심으로 많은 논의가 있었으나 SMS스팸 메시지에 대한 논의는 상대적으로 적은 것이 현실이다. 전자 메일 스팸에 대한 방어 방법으로 블랙리스트, 주소 관리 및 콘텐츠 기반 필터링 방법이 사용되었다. 컨텐츠 기반 접근법은 많은 연구들을 통하여 효과적인 솔루션으로 입증되었다. 그러나 전자 메일-스팸 필터링과 비교할 때, SMS 스팸 필터링은 SMS 텍스트는 상대적으로 길이가 짧고 약식 문자가 사용되며 머리글 정보가 부족하다는 점에서 어려움을 갖는다.

콘텐츠 기반 방법 외에도 네트워크 구조를 통한 스팸 필터링도 많은 주목을 받고 있다. 그러나 네트워크 구조를 기반으로 한 스팸 필터링은 SMS 활동의 매우 사적인 특성에 기인한 제한된 네트워크 정보로 인해 어려움이 있다.

한국공개특허공보 제10-2004-0040548호(2004.05.13) 한국등록특허공보 제10-1593954호(2016.02.04)

본 발명은 소셜 네크워크의 특성에 기반한 스팸 단문 메시지 탐지 방법 및 장치를 제공하기 위한 것이다.

본 발명의 일 측면에 따르면, 스팸 단문 메시지 탐지 장치가 수행하는 스팸 단문 메시지 탐지 방법이 개시된다.

본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법은, 단문 메시지의 송수신이 이루어짐에 따라 SMS(Short Message Service) 네트워크 그래프를 생성하는 단계, 상기 생성된 SMS 네트워크 그래프를 이용하여, 단문 메시지를 발신한 발신자 노드에 대한 수신자 노드의 평균 클러스터링 계수(clustering coefficient)를 산출하는 단계, 상기 생성된 SMS 네트워크 그래프를 이용하여, 상기 SMS 네트워크 그래프 상에 존재하는 모든 노드에서 상기 수신자 노드를 제외한 나머지 노드의 평균 클러스터링 계수를 산출하는 단계 및 상기 수신자 노드의 평균 클러스터링 계수 및 상기 나머지 노드의 평균 클러스터링 계수를 이용하여 발신자 노드로부터 전송된 단문 메시지가 스팸 단문 메시지인지 여부를 결정하는 단계를 포함한다.

상기 SMS 네트워크 그래프는, 각 사용자를 노드(node)로 나타내며, 사용자간 단문 메시지 송수신이 이루어진 경우, 발신자와 수신자를 선으로 연결하여 에지(edge)로 나타낸다.

상기 수신자 노드의 평균 클러스터링 계수(μ)는 하기 수학식을 이용하여 산출된다.

여기서, R은 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 집합이고, │R│는 집합 R의 원소 개수로, 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 수이고, CC는 클러스터링 계수이다.

상기 나머지 노드의 평균 클러스터링 계수(γ)는 하기 수학식을 이용하여 산출된다.

여기서, V는 SMS 네트워크 그래프 상에 존재하는 모든 노드의 집합이고, V＼R은 집합 V에서 집합 R의 원소를 제거한 집합이고, │V＼R│는 집합 V＼R의 원소 개수로, 수신자 노드를 제외한 나머지 노드의 수이고, CC는 클러스터링 계수이다.

상기 클러스터링 계수는 임의의 노드(n)와 연결된 이웃노드의 수에 대한 이웃노드 사이의 에지의 수의 비율이다.

상기 클러스터링 계수는 하기 수학식을 이용하여 산출된다.

여기서, deg(n)은 노드 n과 연결된 이웃노드의 수(즉, 노드 n과 이웃노드들간의 에지의 수)이고, e_n은 노드 n과 연결된 이웃노드들 사이의 에지의 수이다.

상기 스팸 단문 메시지인지 여부를 결정하는 단계는, 상기 나머지 노드의 평균 클러스터링 계수(γ)가 하기 수학식의 조건을 만족하는 경우, 상기 발신자 노드로부터 전송된 단문 메시지가 일반 단문 메시지로 결정되고, 상기 조건을 만족하지 못하는 경우, 상기 발신자 노드로부터 전송된 단문 메시지를 스팸 단문 메시지로 결정한다.

여기서, α는 0과 1 사이의 값을 가지는 기설정된 임계값이다.

상기 α는 스팸이 아닌 메시지를 수신한 수신자의 평균 클러스터 계수값에 대해 얼마나 많은 변동이 허용되는지를 나타내는 제어 매개 변수이다.

본 발명의 다른 측면에 따르면, 스팸 단문 메시지 탐지 장치가 개시된다.

본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치는, 명령어를 저장하는 메모리 및 상기 명령어를 실행하는 프로세서를 포함하되, 상기 명령어는, 단문 메시지의 송수신이 이루어짐에 따라 SMS(Short Message Service) 네트워크 그래프를 생성하는 단계, 상기 생성된 SMS 네트워크 그래프를 이용하여, 단문 메시지를 발신한 발신자 노드에 대한 수신자 노드의 평균 클러스터링 계수(clustering coefficient)를 산출하는 단계, 상기 생성된 SMS 네트워크 그래프를 이용하여, 상기 SMS 네트워크 그래프 상에 존재하는 모든 노드에서 상기 수신자 노드를 제외한 나머지 노드의 평균 클러스터링 계수를 산출하는 단계 및 상기 수신자 노드의 평균 클러스터링 계수 및 상기 나머지 노드의 평균 클러스터링 계수를 이용하여 발신자 노드로부터 전송된 단문 메시지가 스팸 단문 메시지인지 여부를 결정하는 단계를 포함하는 스팸 단문 메시지 탐지 방법을 수행한다.

본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법 및 장치는, 소셜 네트워크의 특성에 기반하여 단문 메시지가 스팸 메시지인지를 판단함으로써, 단문 메시지 서비스를 통해 전송되는 스팸 메시지를 효과적으로 필터링하거나 차단하게 할 수 있다.

도 1은 본 발명의 다양한 실시예가 구현될 수 있는 시스템 환경을 개략적으로 예시하여 나타낸 도면.
도 2는 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법을 나타낸 흐름도.
도 3는 일반 헤비 사용자를 나타낸 SMS 네트워크 그래프를 나타낸 도면.
도 4는 SMS 네트워크에서 발생한 일대다(One2N) 공격의 예를 SMS 네트워크 그래프를 나타낸 도면.
도 5는 일대다(One2N) 공격 시의 평균 클러스팅 분포를 나타낸 도면.
도 6은 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치의 구성을 개략적으로 예시한 도면.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

이하, 본 발명의 다양한 실시예들을 첨부된 도면을 참조하여 상술하겠다.

도 1은 본 발명의 다양한 실시예가 구현될 수 있는 시스템 환경을 개략적으로 예시하여 나타낸 도면이다.

도 1을 참조하면, 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치(50)는 네트워크를 통해 문자 메시지를 전송하거나 수신하는 다수의 사용자 단말(10)과 연결될 수 있다. 여기서, 사용자 단말(10)은 이동통신시스템에 연결되어 다른 사용자 단말(10)로 단문 메시지 전송이 가능한 통신 디바이스로, 예를 들면, 최근 널리 사용되고 있는 스마트폰일 수 있다.

예를 들어, 스팸 단문 메시지 탐지 장치(50)는 이동통신시스템에서. 사용자 단말(10)들 사이에서 SMS(Short Message Service) 메시지, 멀티미디어 메시지 등의 메시지를 중계하는 메시지 서버이거나, 메시지 서버 내부 또는 메시지 서버에 연결된 별도의 장치로 구현될 수도 있다.

이하에서는, 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치(50)가 스팸 단문 메시지를 탐지하는 구체적인 방법을 설명하기에 앞서, 스팸 단문 메시지 탐지를 위하여, SMS 메시지의 송수신에 따라 다수의 사용자 단말(10)로 구성되는 SMS 네트워크를 수립한 방법에 대하여 설명하기로 한다.

트위터나 페이스북과 같은 온라인 소셜 네트워크(Online Social Networks, OSN)와 달리, SMS 메시지는 일반적으로, 신뢰관계가 형성되어 있는 발신자와 수신자간의 사적 통신으로 이루어지는 경우가 많다는 점, 짧은 메시지로서 단축된 표현이 많이 사용될 수 있다는 점에서 차별적인 특징을 가지고 있다.

또한, 공개 메시지에 대한 접근(Access)을 제공하는 공개 API가 제공되는 트위터에 비하여 상대적으로, SMS 통신은 폐쇄적인 구조를 갖는다. 개인정보 보호라는 측면에서도 SMS 통신은 송신 및 수신되는 데이터 집합을 수집하기 어렵다.

이하에서 SMS 데이터 세트로서, 싱가포르 국립 대학교(National University of Singapore, 이하NUS)에서 수집하고 공개적으로 발표한 SMS 네트워크를 예시하여 설명한다. NUS 데이터 세트는 2004년에서 2014 년 4 월 사이에 수집한 42,140개의 영어 단문 메시지 및 31,205개의 중국어 단문 메시지를 포함한다. NUS 데이터 세트는 스팸 메시지를 별도로 구분하지 않고 있어 NUS 데이터 세트에서 스팸 단문 메시지를 분류하는 과정이 필요하다.

NUS 데이터 세트를 이용하여 SMS 메시지 네트워크를 구성하기 위한 기본 구조를 구성하고, 네트워크를 확장하여 SMS 데이터 세트를 획득할 수 있다. 구체적으로, 기본 네트워크를 선택하는 과정, 참조 네트워크를 분석하는 과정, 기본 네트워크를 확장하는 과정을 거쳐 SMS 데이터 세트를 획득할 수 있다.

우선, 기본 네트워크를 선택하는 과정에서, NUS 데이터 세트를 시드 네트워크로 선택할 수 있다. NUS 데이터 세트에는 타임 스탬프, 국가, 전화 모델, 발신자 ID, 수신자 ID, 메시지 본문(텍스트) 및 메시지 프로필이 있는 51,654 개의 영어 SMS 메시지가 포함되어 있다. 발신자 ID, 수신자 ID 및 메시지 본문에 대한 정보는 기본 SMS 네트워크 수립에 필수적인 정보이다. 일례에서, 원본 NUS 데이터 집합에서 발신자 ID, 수신자 ID 및 메시지 본문을 추출하여 60명의 발신자와 2,409 명의 수신자로 구성된 40,077 개의 메시지를 확보하여 기본 네트워크를 선택하였다.

다음으로, 참조 네트워크를 분석하는 과정에서, SMS 네트워크와 유사성을 갖고 있는 트위터 네트워크를 분석하였다. 트위터는 메시지의 길이, 표현의 간결성 등에서 SMS 메시지와 유사점을 갖는다. 확장된 SMS 네트워크는, 메시지 교환 기능과 스팸 메시지의 일부를 포함하는 거대하고 인기있는 소셜 네트워크이어야 하고, 현실 세상을 가능한 많이 반영한 거대하고 인기있는 소셜 네트워크와 유사성이 있어야 한다. 그래서, 트위터 소셜 네트워크는 분석을 통해 SMS 네트워크를 추론할 수 있는 단서 중 하나가 될 수 있다. 예를 들어, 1,963,263,821개의 소셜 링크가 포함된 트위터 데이터 세트(http://twitter.mpi-sws.org/links-anon.txt.gz)가 선택되었고, 트위터 데이터 세트에는 41,352개의 스패머(Spammer) 계정을 포함하고 있었다.

다음으로, 기본 네트워크를 확장하는 과정에서, 발신자와 수신자 사이에 SMS 기록이 존재하는 경우에 단방향 소셜 링크를 생성하였다. 기본 네트워크는 전체 SMS 네트워크의 본질을 완전히 반영하기에 충분하지 않으므로, 기본 네트워크는 확장되어야 한다. 참조 네트워크 분석을 통해, 확장 규칙으로서 멱승법 지수(power law exponent)의 값이 선택될 수 있다. 예를 들어, 무작위 및 우발적 첨부를 통해 노드 사이를 연결하여 에지(edge)를 증가시킴으로써, 원본 NUS SMS 네트워크가 확장될 수 있다.

도 2는 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법을 나타낸 흐름도이다.

S210 단계에서, 스팸 단문 메시지 탐지 장치(50)는 사용자들 사이에서 단문 메시지의 송수신이 이루어짐에 따라 SMS 네트워크 그래프를 생성한다. 여기서, SMS 네트워크 그래프는, 각 사용자를 노드(node)로 나타내며, 사용자간 단문 메시지 송수신이 이루어진 경우, 발신자와 수신자를 선으로 연결하여 에지(edge)로 나타낼 수 있다.

예를 들어, 도 3은 SMS 네트워크 그래프의 예를 나타낸다. 도 3의 SMS 네트워크 그래프는 일반 또는 스팸의 단문 메시지의 발신 및 수신에 따라 노드와 에지의 색을 구분하여 표시한 것이다. 이를테면, 붉은색의 노드는 스패머, 노란색의 노드는 스패머로부터 스팸 메시지를 수신한 노드, 파란색의 노드는 스팸 메시지와 상관없는 일반 노드, 빨간색의 에지는 스패머와 연결된 노드 사이의 에지, 흑색의 에지는 일반 노드 사이의 에지를 나타낸다.

S220 단계에서, 스팸 단문 메시지 탐지 장치(50)는 생성된 SMS 네트워크 그래프를 이용하여, 단문 메시지를 발신한 발신자 노드에 대한 수신자 노드의 평균 클러스터링 계수(clustering coefficient)를 산출한다.

우선, 생성된 SMS 네트워크 그래프 상에 존재하는 노드 중 임의의 노드(n)의 클러스터링 계수(CC(n))는 하기의 수학식을 이용하여 산출될 수 있다.

즉, 클러스터링 계수는 임의의 노드와 연결된 이웃노드의 수에 대한 이웃노드 사이의 에지의 수의 비율이 될 수 있다.

그리고, SMS 네트워크 그래프 상에 존재하는 모든 노드에 대한 평균 클러스터링 계수(CC_ave)는 하기의 수학식을 이용하여 산출될 수 있다.

여기서, V는 SMS 네트워크 그래프 상에 존재하는 모든 노드의 집합이며, │V│는 집합 V의 원소 개수로, SMS 네트워크 그래프 상에 존재하는 모든 노드의 수이다.

일반적으로, 스패머는 임의로 선택된 수신자에게 전자 메일을 보내기 때문에, 전자 메일 네트워크에서 낮은 클러스터링 계수를 갖는다. 즉, 스패머는 일반 사용자보다 사회적 관계가 적기 때문에, 클러스터링 계수가 일반 사용자보다 낮다.

본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치(50)는 발신자 노드로부터 수신자 노드로 단문 메시지가 전송되면, 단문 메시지를 수신한 수신자 노드들의 평균 클러스터링 계수를 산출할 수 있다.

수신자 노드들의 평균 클러스터링 계수(μ)는 하기의 수학식을 이용하여 산출될 수 있다.

여기서, R은 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 집합이고, │R│는 집합 R의 원소 개수로, 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 수이다.

S230 단계에서, 스팸 단문 메시지 탐지 장치(50)는 생성된 SMS 네트워크 그래프를 이용하여, SMS 네트워크 그래프 상에 존재하는 모든 노드에서 수신자 노드를 제외한 나머지 노드의 평균 클러스터링 계수를 산출한다.

수신자 노드를 제외한 나머지 노드들의 평균 클러스터링 계수(γ)는 하기의 수학식을 이용하여 산출될 수 있다.

여기서, V＼R은 집합 V에서 집합 R의 원소를 제거한 집합이고, │V＼R│는 집합 V＼R의 원소 개수로, 수신자 노드를 제외한 나머지 노드의 수이다.

S240 단계에서, 스팸 단문 메시지 탐지 장치(50)는 단문 메시지를 발신한 발신자 노드에 대한 수신자 노드의 평균 클러스터링 계수(μ) 및 수신자 노드를 제외한 나머지 노드의 평균 클러스터링 계수(γ)를 이용하여 발신자 노드로부터 전송된 단문 메시지가 스팸 단문 메시지인지 여부를 결정한다.

즉, 스팸 단문 메시지 탐지 장치(50)는 나머지 노드의 평균 클러스터링 계수(γ)가 하기 수학식의 조건을 만족하는 경우, 발신자 노드로부터 전송된 단문 메시지가 일반 단문 메시지로 판단할 수 있다.

만일, 나머지 노드의 평균 클러스터링 계수(γ)가 수학식 5의 조건을 만족하지 못하는 경우, 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치(50)는 해당 단문 메시지를 스팸 단문 메시지로 결정할 수 있고, 해당 단문 메시지를 전송한 발신자를 스패머로 판단할 수 있다.

S250 단계에서, 스팸 단문 메시지 탐지 장치(50)는 발신자 노드로부터 전송된 단문 메시지가 스팸 단문 메시지로 결정된 경우, 스팸 메시지가 필터링되거나 차단되도록, 수신자를 포함하는 전체 사용자들에게 발신자가 스패머임을 알린다.

이하에서는, 도 3 내지 도 5를 참조하여, 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법에 대한 실험을 수행하고 분석한 결과에 대하여 설명하기로 한다.

도 3는 일반 헤비 사용자를 나타낸 SMS 네트워크 그래프를 나타낸 도면이고, 도 4는 SMS 네트워크에서 발생한 일대다(One2N) 공격의 예를 SMS 네트워크 그래프를 나타낸 도면이고, 도 5는 일대다(One2N) 공격 시의 평균 클러스팅 분포를 나타낸 도면이다.

스패머의 공격 유형과 관련하여 2가지 가정을 할 수 있다. 첫째, 스패머가 하나의 메시지를 여러 수신자에게 보내는 경우, 스팸 메시지로 탐지될 가능성이 높아진다. 둘째, 스패머는 단문 메시지의 수 또는 스패머의 수를 변화시키는 것과 같은 다양한 스팸 탐지 알고리즘을 알고 있다. 이러한 가정하에서 스패머의 스팸 메시지 전송 전략은 다음과 같이 가정할 수 있다.

스패머는 하나의 발신자를 통해 다수의 수신자에게 스팸 단문 메시지를 보낼 수 있으며, 이때, 다수의 수신자를 무작위로 선택하여 한가지 유형의 스팸 메시지를 전송한다.

한편, 스패머의 주요 특징은 메시지 수신자가 많다는 것이다. 하지만, 이러한 특징은 헤비(heavy) 사용자로 불릴 수 있는 일부의 일반 사용자에게도 보일 수 있다. 예를 들어, 비즈니스 컨퍼런스의 주최자가 다수의 참석자에게 단문 메시지를 전송하는 것은 단문 메시지의 양 측면에서 스패머의 행동과 유사할 수 있다. 이와 같이 스패머와 유사한 메시지 전송 행태를 보이지만, 스패머가 아닌 이러한 발신자를 일반 헤비 사용자라 칭할 수 있다.

일반 헤비 사용자(n^h)는 하기 수학식과 같이 나타낼 수 있다.

여기서, n_i는 노드 n의 에지 수이다.

일반 헤비 사용자에 대한 수신자의 전송 메시지 수의 비율을 R이라 정의하면, R을 사용하여 임의성의 레벨이 지정될 수 있다.

임의로 선택된 수신자를 n_r로, 노드의 총 수를 N으로, 일반 헤비 사용자(n^h)로부터 메시지를 수신한 수신자 노드의 수를 │n^h│로 가정하기로 한다. 예를 들어, R=0.1인 경우, 임의로 선택되는 수신자의 수는 ∥│n^h│×R∥이 될 수 있다. 여기서, ∥… ∥는 가장 가까운 정수를 출력하는 함수를 나타낸다. 모든 수신자 노드 중에서 ∥│n^h│×R∥의 수는 n_r로 치환된다.

일반 헤비 사용자 및 일대다(One2N) 공격의 예가 각각 도 3 및 도 4에 도시되어 있다. 도 3 및 도 4는 일반 단문 메시지가 전송되는 상황을 비교하기 위하여, 일반 헤비 사용자를 1로, R=1.0로 설정하여 생성한 그래프이다. 도 3과 도 4의 그래프는 에지 형성 패턴이 서로 다르므로, 도 4에 도시된 일대다 공격은 다른 지역 커뮤니티에 에지를 형성한다. 반면에, 일반 헤비 사용자의 에지는 일반 헤비 사용자가 속한 하나의 커뮤니티에 속한다. 즉, 일반 헤비 사용자는 알려진 사람들에게 단문 메시지를 전송한다.

한편, 실험은 이웃(수신자) 수가 50 이상인 8개의 일반 헤비 사용자를 대상으로 수행되었다. 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법에 따라 8 개의 일반 헤비 사용자는 모두 α=0.35인 일반 노드로 분류되었다. 여기서, α는 스팸이 아닌 메시지를 수신한 수신자의 평균 클러스터 계수값에 대해 얼마나 많은 변동이 허용되는지를 나타내는 제어 매개 변수이다.

본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법을 검증하기 위하여, 수신자의 수(N)를 변화시켜 일대다 공격을 시뮬레이션하였다. 시뮬레이션 결과는 도 5에 도시된 바와 같이, 수신자의 수(N)의 변화에 따른 평균 클러스터링 계수 분포로 산출하였다.

도 5를 참조하면, 스팸 수신자 노드 및 일반 수신자 노드의 평균 클러스터링 계수는 각각 0.323 및 0.612이다. 그리고, 하나의 스패머가 스팸 메시지를 수신자들에게 전송한 경우의 평균 클러스터링 계수는 수신자의 수(N)가 증가함에 따라 증가한다. 반면에, 일반 수신자의 평균 클러스터링 계수값은 안정적이다. 따라서, 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치는 수신자의 수(N)와 상관없이, 모든 일대다 공격 상황을 공격으로 식별할 수 있었다.

도 6은 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치의 구성을 개략적으로 예시한 도면이다.

도 6을 참조하면, 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 장치(50)는 프로세서(51), 메모리(52), 통신부(53) 및 인터페이스부(54)를 포함한다.

프로세서(51)는 메모리(52)에 저장된 처리 명령어를 실행시키는 CPU 또는 반도체 소자일 수 있다.

메모리(52)는 다양한 유형의 휘발성 또는 비휘발성 기억 매체를 포함할 수 있다. 예를 들어, 메모리(52)는 ROM, RAM 등을 포함할 수 있다.

예를 들어, 메모리(52)는 본 발명의 실시예에 따른 스팸 단문 메시지 탐지 방법을 수행하는 명령어들을 저장할 수 있다.

통신부(53)는 통신망을 통해 다른 장치들과 데이터를 송수신하기 위한 수단이다.

인터페이스부(54)는 네트워크에 접속하기 위한 네트워크 인터페이스 및 사용자 인터페이스를 포함할 수 있다.

한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.

또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

10: 프로세서
20: 메모리
30: 통신부
40: 인터페이스부

Claims

스팸 단문 메시지 탐지 장치가 수행하는 스팸 단문 메시지 탐지 방법에 있어서,
단문 메시지의 송수신이 이루어짐에 따라 SMS(Short Message Service) 네트워크 그래프를 생성하는 단계;
상기 생성된 SMS 네트워크 그래프를 이용하여, 단문 메시지를 발신한 발신자 노드에 대한 수신자 노드의 평균 클러스터링 계수(clustering coefficient)를 산출하는 단계;
상기 생성된 SMS 네트워크 그래프를 이용하여, 상기 SMS 네트워크 그래프 상에 존재하는 모든 노드에서 상기 수신자 노드를 제외한 나머지 노드의 평균 클러스터링 계수를 산출하는 단계; 및
상기 수신자 노드의 평균 클러스터링 계수 및 상기 나머지 노드의 평균 클러스터링 계수를 이용하여 발신자 노드로부터 전송된 단문 메시지가 스팸 단문 메시지인지 여부를 결정하는 단계를 포함하되,
상기 수신자 노드의 평균 클러스터링 계수(μ)는 하기 수학식을 이용하여 산출되고,

여기서, R은 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 집합이고, │R│는 집합 R의 원소 개수로, 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 수이고, CC는 클러스터링 계수임
상기 나머지 노드의 평균 클러스터링 계수(γ)는 하기 수학식을 이용하여 산출되고,

여기서, V는 SMS 네트워크 그래프 상에 존재하는 모든 노드의 집합이고, V＼R은 집합 V에서 집합 R의 원소를 제거한 집합이고, │V＼R│는 집합 V＼R의 원소 개수로, 수신자 노드를 제외한 나머지 노드의 수이고, CC는 클러스터링 계수임
상기 스팸 단문 메시지인지 여부를 결정하는 단계는,
상기 나머지 노드의 평균 클러스터링 계수(γ)가 하기 수학식의 조건을 만족하는 경우, 상기 발신자 노드로부터 전송된 단문 메시지가 일반 단문 메시지로 결정되고, 상기 조건을 만족하지 못하는 경우, 상기 발신자 노드로부터 전송된 단문 메시지를 스팸 단문 메시지로 결정하는 것을 특징으로 하는 스팸 단문 메시지 탐지 방법.

여기서, α는 0과 1 사이의 값을 가지는 기설정된 임계값임
제1항에 있어서,
상기 SMS 네트워크 그래프는, 각 사용자를 노드(node)로 나타내며, 사용자간 단문 메시지 송수신이 이루어진 경우, 발신자와 수신자를 선으로 연결하여 에지(edge)로 나타내는 것을 특징으로 하는 스팸 단문 메시지 탐지 방법.
삭제
삭제
제1항에 있어서,
상기 클러스터링 계수는 임의의 노드(n)와 연결된 이웃노드의 수에 대한 이웃노드 사이의 에지의 수의 비율인 것을 특징으로 하는 스팸 단문 메시지 탐지 방법.
제5항에 있어서,
상기 클러스터링 계수는 하기 수학식을 이용하여 산출되는 것을 특징으로 하는 것을 특징으로 하는 스팸 단문 메시지 탐지 방법.

여기서, deg(n)은 노드 n과 연결된 이웃노드의 수(즉, 노드 n과 이웃노드들간의 에지의 수)이고, e_n은 노드 n과 연결된 이웃노드들 사이의 에지의 수임
삭제
제1항에 있어서,
상기 α는 스팸이 아닌 메시지를 수신한 수신자의 평균 클러스터 계수값에 대해 얼마나 많은 변동이 허용되는지를 나타내는 제어 매개 변수인 것을 특징으로 하는 스팸 단문 메시지 탐지 방법.
스팸 단문 메시지 탐지 장치에 있어서,
명령어를 저장하는 메모리; 및
상기 명령어를 실행하는 프로세서를 포함하되,
상기 명령어는,
단문 메시지의 송수신이 이루어짐에 따라 SMS(Short Message Service) 네트워크 그래프를 생성하는 단계;
상기 생성된 SMS 네트워크 그래프를 이용하여, 단문 메시지를 발신한 발신자 노드에 대한 수신자 노드의 평균 클러스터링 계수(clustering coefficient)를 산출하는 단계;
상기 생성된 SMS 네트워크 그래프를 이용하여, 상기 SMS 네트워크 그래프 상에 존재하는 모든 노드에서 상기 수신자 노드를 제외한 나머지 노드의 평균 클러스터링 계수를 산출하는 단계; 및
상기 수신자 노드의 평균 클러스터링 계수 및 상기 나머지 노드의 평균 클러스터링 계수를 이용하여 발신자 노드로부터 전송된 단문 메시지가 스팸 단문 메시지인지 여부를 결정하는 단계를 포함하는 스팸 단문 메시지 탐지 방법을 수행하되,
상기 수신자 노드의 평균 클러스터링 계수(μ)는 하기 수학식을 이용하여 산출되고,

여기서, R은 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 집합이고, │R│는 집합 R의 원소 개수로, 발신자 노드(i)로부터 단문 메시지를 수신한 수신자 노드의 수이고, CC는 클러스터링 계수임
상기 나머지 노드의 평균 클러스터링 계수(γ)는 하기 수학식을 이용하여 산출되고,

여기서, V는 SMS 네트워크 그래프 상에 존재하는 모든 노드의 집합이고, V＼R은 집합 V에서 집합 R의 원소를 제거한 집합이고, │V＼R│는 집합 V＼R의 원소 개수로, 수신자 노드를 제외한 나머지 노드의 수이고, CC는 클러스터링 계수임
상기 스팸 단문 메시지인지 여부를 결정하는 단계는,
상기 나머지 노드의 평균 클러스터링 계수(γ)가 하기 수학식의 조건을 만족하는 경우, 상기 발신자 노드로부터 전송된 단문 메시지가 일반 단문 메시지로 결정되고, 상기 조건을 만족하지 못하는 경우, 상기 발신자 노드로부터 전송된 단문 메시지를 스팸 단문 메시지로 결정하는 것을 특징으로 하는 스팸 단문 메시지 탐지 장치.

여기서, α는 0과 1 사이의 값을 가지는 기설정된 임계값임