KR20210014379A

KR20210014379A - 인공지능 기반 스팸 탐지 장치 및 그 방법

Info

Publication number: KR20210014379A
Application number: KR1020190092374A
Authority: KR
Inventors: 백성복; 김소진; 안태진; 진기범
Original assignee: 주식회사 케이티
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-02-09
Also published as: KR102416542B1

Abstract

스팸 탐지 장치가 스팸을 탐지하는 방법으로서, 복수의 단말들로부터 메시지 정보들을 수집하는 단계, 상기 메시지 정보들을 가공하여 2차원 학습 이미지들을 생성하는 단계, 각 학습 이미지에 해당 학습 이미지에 대응하는 메시지 정보의 스팸 판정 결과가 대응된 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 스팸 지수 산출 모델을 지도 학습하는 단계, 임의의 단말로부터 새로운 메시지 정보를 수집하면, 상기 새로운 메시지 정보를 가공하여 2차원 입력 이미지를 생성하는 단계, 상기 입력 이미지와 상기 스팸 지수 산출 모델을 이용하여 상기 새로운 메시지에 대한 스팸 지수를 산출하는 단계, 그리고 산출된 스팸 지수를 상기 임의의 단말에 전송하는 단계를 포함하는 스팸 탐지 방법이다.

Description

인공지능 기반 스팸 탐지 장치 및 그 방법{APPARATUS AND METHOD FOR DETECTING SPAM BASED ON ARTIFICIAL INTELLIGENCE}

본 발명은 인공지능을 기반으로 하는 스팸 탐지 기술에 관한 것이다.

한국인터넷진흥원은 현행법인 정보통신망이용촉진및정보보호등에관한법률을 기반으로, 휴대폰이나 유선 전화 등으로 수신자가 원치 않았음에도 불구하고 일방적으로 전송되는 영리 목적의 광고성 정보를 스팸으로 규정하여 금지하고 있으나, 광고성 스팸의 양은 매년 증가하고 있다.

스팸, 즉 휴대폰을 대상으로 문자나 전화를 통해 상품에 대한 안내를 보내는 방식은 비용 대비 효과가 좋기 때문에 광고 수단으로 많이 활용된다. 하지만 이런 스팸 메시지는 수신자의 동의 없이 불특정 다수에게 대량으로 보내지는 경향을 보이고 있어서 사회적 이슈가 되고 있다.

스팸을 방지하기 위해 여러 가지 방법과 시스템이 구현되어 운용되고 있다. 대부분은 룰(Rule)을 기반으로 하며, 스팸의 전송 특징 및 패턴을 탐지할 수 있는 룰 집합(Rule Set)을 생성하고, 주기적인 관리를 통해 스팸을 탐지하는 방식을 채택하고 있다.

룰은 스팸 탐지 분야의 전문가들이 운용 노하우를 바탕으로 설정하며, 룰이 정확하게 설정되기만 하면, 룰 조건에 매칭되는 스팸을 신속하고 정확하게 탐지해 낼 수 있다는 장점이 있다. 또한 룰은 각각의 메시지에 대해 그것이 스팸인지 아닌지를 결정론적(Deterministic)으로 판별해 준다는 특징이 있다.

그러나 한번 설정된 룰은 해당 룰 조건에 매칭되는 메시지만 걸러낼 수 있고, 메시지가 약간만 변형되어도 스팸으로 탐지하지 못한다. 또한 스팸 탐지 룰이 작동하고 있다는 사실을 해커들이 인지하는 경우, 그들은 스팸 공격 방법을 즉시 변형하여 사용하기 때문에, 전문가가 룰 집합을 지속적으로 관리해 줄 필요가 있다는 문제점이 있다.

해결하고자 하는 과제는 각종 스팸 문자와 전화에 대해, 인공지능 기반의 알고리즘으로 스팸 지수를 산출하고, 이를 이용하여 스팸을 탐지하는 방법 및 시스템을 제공하는 것이다.

또한, 해결하고자 하는 과제는 해커들이 스팸을 변형하는 경우에도 유연하게 적용되는 인공지능 기반의 알고리즘을 이용하여, 특정한 형태가 없는 스팸이나 유사 스팸을 탐지하는 방법 및 시스템을 제공하는 것이다.

한 실시예에 따른 스팸 탐지 장치가 스팸을 탐지하는 방법으로서, 복수의 단말들로부터 메시지 정보들을 수집하는 단계, 상기 메시지 정보들을 가공하여 2차원 학습 이미지들을 생성하는 단계, 각 학습 이미지에 해당 학습 이미지에 대응하는 메시지 정보의 스팸 판정 결과가 대응된 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 스팸 지수 산출 모델을 지도 학습하는 단계, 임의의 단말로부터 새로운 메시지 정보를 수집하면, 상기 새로운 메시지 정보를 가공하여 2차원 입력 이미지를 생성하는 단계, 상기 입력 이미지와 상기 스팸 지수 산출 모델을 이용하여 상기 새로운 메시지에 대한 스팸 지수를 산출하는 단계, 그리고 산출된 스팸 지수를 상기 임의의 단말에 전송하는 단계를 포함한다.

상기 학습 이미지들을 생성하는 단계는, 각 메시지 정보에 포함된 발신자 관련 정보들을 이진화하고, 이진화된 정보들을 2차원으로 배열하는 단계, 그리고 2차원으로 배열된 비트를 임의의 길이 단위로 분할하고, 분할된 비트 단위들을 각각 정수로 변환하는 단계, 그리고 변환된 정수를 그레이 스케일 또는 색상을 나타내는 값에 대응시켜 2차원 이미지를 생성하는 단계를 포함할 수 있다.

상기 2차원으로 배열하는 단계는, 상기 발신자 관련 정보들 중 특정 항목에 해당하는 메시지를 기준 시간 동안 누적한 건수에 대한 정보를 더 포함하여 2차원으로 배열할 수 있다.

상기 누적한 건수에 대한 정보는, 특정 발신번호로부터 일정 시간 간격 내에 복수의 메시지들을 수신하는 경우, 수신한 각 메시지 사이의 시간 간격을 포함할 수 있다.

상기 누적한 건수에 대한 정보는, 특정 발신번호로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수 또는 특정 주소의 발신자로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수를 포함할 수 있다.

상기 스팸 지수 산출 모델은 컨볼루션 신경망을 이용하고, 상기 스팸 지수는 상기 스팸 지수 산출 모델에 포함된 컨볼루션 신경망의 최종 노드에서 산출된 확률값일 수 있다.

상기 스팸 지수를 산출하는 단계 이후에, 상기 새로운 메시지 정보에서 발신 번호를 확인하고, 상기 발신 번호가 기 저장된 블랙 리스트 또는 기 저장된 화이트 리스트에 포함된 번호인지 판단하는 단계, 그리고 판단 결과에 따라 상기 산출된 스팸 지수를 보정하는 단계를 더 포함할 수 있다.

다른 실시예에 따른 스팸 탐지 장치로서 복수의 단말들로부터 수집한 메시지 정보들을 가공하여 2차원 학습 이미지들을 생성하는 전처리부, 그리고 각 학습 이미지에 해당 학습 이미지에 대응하는 메시지 정보의 스팸 판정 결과가 대응된 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 스팸 지수 산출 모델을 지도 학습하는 모델 학습부를 포함하고, 상기 전처리부는 임의의 단말로부터 새로운 메시지 정보를 수집하면, 상기 새로운 메시지 정보를 가공하여 2차원 입력 이미지를 생성하고, 상기 입력 이미지와 상기 스팸 지수 산출 모델을 이용하여 상기 새로운 메시지에 대한 스팸 지수를 산출하는 스팸 지수 산출부를 더 포함한다.

상기 스팸 탐지 장치는, 상기 새로운 메시지 정보에서 발신 번호를 확인하고, 상기 발신 번호가 기 저장된 블랙 리스트 또는 기 저장된 화이트 리스트에 포함된 번호인지 판단하고, 판단 결과에 따라 상기 산출된 스팸 지수를 보정하는 후처리부를 더 포함할 수 있다.

상기 모델 학습부는 상기 후처리부의 판단 결과를 반영하여 상기 스팸 지수 산출 모델을 수정할 수 있다.

또 다른 실시예에 따른 스팸 탐지 장치가 단말로부터 수집한 메시지 정보를 가공하는 방법으로서, 메시지 정보 중 발신자 관련 정보를 포함하는 발신 정보 테이블을 생성하는 단계, 기준 시간 동안, 상기 발신 정보 테이블의 항목 중 임의의 항목에 해당하는 메시지의 누적 건수를 포함하는 누적 정보 테이블을 생성하는 단계, 임의의 단말로부터 새로운 메시지 정보를 수집하는 단계, 상기 새로운 메시지 정보에 포함된 발신자 관련 정보를 상기 발신 정보 테이블의 새로운 행에 기록하는 단계, 상기 새로운 메시지 정보가 수신됨에 따라 변화된 상기 누적 건수를 상기 누적 정보 테이블의 새로운 행에 기록하는 단계, 그리고 상기 발신 정보 테이블에 추가된 행과 상기 누적 정보 테이블에 추가된 행의 내용을 이진화하여 2차원으로 배열하고, 상기 2차원 배열을 이미지로 변환하는 단계를 포함한다.

상기 누적 정보 테이블은, 특정 발신번호로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수, 특정 주소의 발신자로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수, 또는 특정 발신번호로부터 수신한 복수의 메시지들의 수신 시간 간격을 포함할 수 있다.

상기 이미지로 변환하는 단계는, 상기 2차원 배열을 구성하는 비트를 임의의 길이 단위로 분할하고, 분할된 비트를 정수로 변환하는 단계, 그리고 변환된 정수를 그레이 스케일 또는 색상을 나타내는 값에 대응시키는 단계를 포함할 수 있다.

본 발명에 따르면, 결정론적인 판단이 아니라 스팸 확률을 계산하므로, 일정한 형식 없이 변형되는 스팸을 탐지할 수 있어, 수신자에게 더 정밀한 스팸 탐지 서비스를 제공할 수 있다.

또한 본 발명에 따르면, 고정된 룰을 사용하지 않고 인공지능에 기반한 모델을 이용하므로, 전문가의 지속적인 룰 관리가 없어도 스팸을 탐지할 수 있어 관리의 효율성을 높일 수 있다.

도 1은 한 실시예에 따른 스팸 탐지 시스템의 구성도이다.
도 2는 한 실시예에 따른 스팸 탐지 장치의 구성도이다.
도 3은 한 실시예에 따른 스팸 탐지 장치가 동작하는 방법의 흐름도이다.
도 4는 한 실시예에 따른 전처리부가 메시지 정보를 바탕으로 이미지를 생성하는 방법을 나타낸 흐름도이다.
도 5는 한 실시예에 따른 메시지 정보들이 관리되는 테이블의 예시도이다.
도 6은 다른 실시예에 따른 메시지 정보들이 관리되는 테이블의 예시도이다.
도 7은 한 실시예에 따른 전처리부가 메시지 정보를 배열하는 방법을 나타낸 설명도이다.
도 8은 한 실시예에 따른 전처리부가 2차원 이미지를 생성하는 방법을 나타낸 설명도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

본 명세서에서 단말(Terminal)은 사용자 기기로서, 디바이스(Device), UE(User Equipment), ME(Mobile Equipment), MS(Mobile Station), 이동 단말(Mobile Terminal, MT), 가입자국(Subscriber Station, SS), 휴대 가입자국(Portable Subscriber Station, PSS), 사용자 장치(User Equipment, UE), 접근 단말(Access Terminal, AT) 등의 용어로 언급될 수도 있고, 이동 단말, 가입자국, 휴대 가입자국, 사용자 장치 등의 전부 또는 일부의 기능을 포함할 수도 있다.

또한, 단말은 SIP(Session Initiation Protocol) 시그널링을 처리할 수 있는 이동통신 단말기로, 휴대폰 뿐만 아니라, 개인 휴대 단말기 등 IP 기반의 통신을 수행할 수 있는 모든 통신기기일 수 있다. 예를 들어, 단말은 셀룰러폰, PCS(Personal Communication Service)폰, PDA(Personal Digital Assistant)폰, GSM(Global System for Mobile Communications)폰, WCDMA(Wideband Code Division Multiple Access)폰, CDMA(Code Division Multiple Access)-2000폰, DMB(Digital Multimedia Broadcasting)폰, LTE(Long Term Evolution)폰 등일 수 있다.

본 명세서에서 스팸(Spam)은 정보통신망을 통해 이용자가 원하지 않음에도 불구하고 일방적으로 전송되는 광고성 정보를 의미한다. 메시지, 전화 등 다양한 형태로 전달될 수 있으며, 본 명세서에서는 편의상 메시지를 대상으로 설명한다. 스팸을 송신하는 행위를 스패밍(Spamming)이라고 하고, 스팸을 송신하는 주체를 스패머(Spammer)라고 한다.

도　1은 한 실시예에 따른 스팸 탐지 시스템의 구성도이다.

도 1을 참고하면, 스팸 탐지 시스템(1000)은 복수의 단말들(100), 스팸 탐지 장치(200)를 포함한다. 단말(100)은 스팸 탐지 장치와 통신할 수 있는 장치이다. 스팸 탐지 장치는 본 발명에서 설명한 동작을 수행하도록 구현된다.

단말(100)은 스팸을 포함한 메시지를 수신하고, 수신한 메시지를 스팸 탐지 장치(200)로 전송하고, 스팸 탐지 장치(200)로부터 해당 메시지가 스팸일 확률을 전달받는다.

단말(100)은 스팸 모니터링부(110)를 포함하며, 스팸 모니터링부(110)는 단말(100)에 수신된 메시지를 인터셉트하여 메시지 정보를 추출하고, 이를 스팸 탐지 장치(200)로 전송한다.

스팸 모니터링부(110)가 추출하는 메시지 정보는 발신 번호, 착신 번호, 통화량, 통화 시간, 발신자 업종 코드, 발신자 주소 코드 등 전화 사용과 관련된 통화 내역 기록(Call Detail Recording, CDR)의 정보 중 적어도 하나를 포함할 수 있다. 이후 단말(100)은 스팸 탐지 장치(200)에 의해 산출된 스팸 지수를 수신하여, 사용자에게 전달한다. 그리고, 스팸 지수를 관리자(미도시)에 전달하여, 스팸 지수의 정확성을 추가로 검증받고, 검증 결과를 바탕으로 학습 모델의 성능을 조절할 수 있다.

스팸 탐지 장치(200)는 사용자 단말(100)의 스팸 모니터링부(110)로부터 전달받은 메시지 정보를 수집한다. 수집한 정보를 바탕으로 딥러닝 모델 학습에 필요한 형태로 가공하여 학습 이미지를 생성하는 전처리를 진행한다. 이후 인공지능을 이용하여 학습 모델을 생성한다. 이후 스팸 모니터링부(110)로부터 스팸 탐지 장치(200)에 메시지가 전송되는 경우, 전처리부(220)는 입력 이미지를 생성하고, 학습 모델은 입력 이미지에 대한 스팸 확률을 계산한다. 후처리부(260)에서 스팸 확률을 표준값으로 변환하는 등의 후처리를 거쳐 스팸 지수를 산출하여 단말(100)의 스팸 모니터링부(110)에 전송한다.

도 2는 한 실시예에 따른 스팸 탐지 장치의 구성도이다.

도 2를 참고하면, 스팸 탐지 장치(200)는 데이터 수집부(210), 전처리부(220), 모델 학습부(230), 저장부(240), 스팸 확률 계산부(250), 후처리부(260)를 포함한다.

데이터 수집부(210)는 모델 학습을 위해 복수의 사용자 단말(100)들 각각에 설치된 스팸 모니터링부(110)로부터 전송되는 메시지 정보들을 수집하고, 수집된 메시지 정보들을 전처리부(220)에 전달한다.

전처리부(220)는 데이터 수집부(210)로부터 전달받은 메시지 정보들을 모델 학습과 스팸 지수 산출에 필요한 형태로 가공하며, 본 발명에서는 그레이 스케일의 이미지 형태로 가공하여 모델 학습부(230)와 스팸 확률 계산부(250)에 전달한다.

모델 학습부(230)는 전처리부(220)가 전달한 이미지들과 관리자의 스팸 여부 판정 결과 또는 단말 사용자의 스팸 신고 데이터를 이용하여 학습 데이터를 생성하고, 생성된 학습 데이터를 이용하여 스팸 확률을 산출하는 딥러닝 모델을 학습한다. 본 발명에서 사용되는 딥러닝 모델은 컨볼루션 신경망(Convolutional Neural Network, CNN)일 수 있으며, 반드시 이 알고리즘에 한정되는 것은 아니다.

저장부(240)는 모델 학습을 위해 메시지 정보들, 즉 데이터를 축적한다. 저장부(240)는 시간에 따라 입력되는 메시지 정보와 기준 시간마다 누적되어 변하는 정보들을 표로 관리한다. 이 표를 각각 발신 정보 테이블과 누적 정보 테이블이라고 하며 자세한 내용은 도 5를 통해 설명한다.

또한 저장부(240)는 모델 학습부(230)에서 생성된 학습 모델을 저장하고, 스팸 확률 계산부(250)에서 계산된 스팸 확률 데이터를 저장한다. 또한, 학습 모델의 성능을 조절하거나 모델을 수정하기 위해 관리자의 최종 판정 결과가 추가로 저장될 수 있다.

스팸 확률 계산부(250)는 전처리부(220)에서 전달된 이미지에 대해 실시간으로 스팸 확률을 계산한다. 스팸 확률 계산부(250)는 저장부(240)에 있는 학습 모델을 이용하여 메시지가 스팸일 확률을 1차적으로 계산한다.

후처리부(260)는 스팸 확률 계산부(250)에서 산출된 스팸 확률에 대해, 해당 메시지의 발신번호가 블랙 리스트 또는 화이트 리스트에 속한 번호인지 판단하는 추가 판정을 진행하거나, 스팸 확률 계산부(250)에서 계산된 스팸 확률을 표준 점수(Z-score) 등으로 표준화할 수 있다. 예를 들어, 특정 메시지가 스팸일 확률이 높은 것으로 계산되었더라도, 해당 메시지의 발신 번호가 화이트 리스트에 속한 경우, 해당 메시지는 스팸이 아닌 것으로 후처리부(260)에서 최종 판단한다.

이러한 보정을 거쳐 최종적으로 산출된 스팸 지수는 사용자 단말(100)의 스팸 모니터링부(110)에 전송되어, 단말(100) 화면에 표시될 수 있다. 또한, 후처리부(260)에서 내린 최종 판정과 보정 결과는 저장부(240)에 다시 저장되어 모델 학습 과정에서 활용될 수 있다.

도 3은 한 실시예에 따른 스팸 탐지 방법의 흐름도이다.

도 3을 참고하면, 단말(100)은 수신한 메시지 정보를 스팸 탐지 장치(200)에 전달한다(S101). 사용자 단말(100)의 스팸 모니터링부(110)는 단말(100)이 수신하는 메시지를 인터셉트하여 발신자 정보 등 메시지 관련 정보를 추출하여 스팸 탐지 장치(200)의 데이터 수집부(210)에 전송한다.

스팸 탐지 장치(200)의 데이터 수집부(210)는 복수의 단말들(100)의 스팸 모니터링부(110)에서 전송한 메시지 정보들을 수집한다(S102). 수집된 정보는 학습 모델 생성을 위한 데이터로 사용된다.

스팸 탐지 장치(200)는 수집한 메시지 정보들을 전처리하여 학습 이미지를 생성한다(S103). 메시지를 2차원의 그레이 스케일 이미지 형태로 가공한 것을 이하 이미지라고 통칭하며, 학습 모델을 생성하기 위해 사용되는 이미지들을 학습 이미지라고 통칭한다. 생성된 학습 이미지들은 저장부(240)에 저장된다. 이하 전처리부(220)가 메시지 정보들을 이미지로 가공하는 자세한 방법은 도 4 내지 도 7을 통해 설명한다.

스팸 탐지 장치(200)는 가공된 전처리 학습 이미지들과 관리자의 스팸 여부 판단 결과를 이용하여 학습 데이터를 생성하고, 생성된 학습 데이터를 이용하여 학습 모델을 생성한다(S104). 이 때 사용되는 딥러닝 모델은 어느 한 알고리즘에 특정되는 것은 아니나, 본 명세서에서는 컨볼루션 신경망 모델을 이용한 방법을 가정한다.

한편, 학습된 모델은 후처리부(260)의 판단에 따라 성능이 조절될 수도 있으며 후처리부(260)의 보정 결과가 반영된 최종 모델은 저장부(240)에 보관된다.

이후 스패머(300)가 만든 스팸 메시지를 사용자 단말(100)에 전송한다(S105). 본 명세서에서 사용자 단말(100)로 접수되는 스팸의 유형은 문자 메시지에 한정되지 않으며, 전화, 메일 등과 더불어 스팸 작업이 가능한 모든 형태가 가능할 수 있다.

단말(100)에 설치된 스팸 모니터링부(110)는 수신한 메시지를 인터셉트하여 분석하고, 발신자 정보 등 메시지 관련 정보를 추출하여 스팸 탐지 장치(200)에 전송한다(S106).

스팸 탐지 장치(200)의 전처리부(220)는 단말(100)로부터 전송된 메시지 정보를 전처리하여 2차원의 그레이 스케일 이미지 형태인 입력 이미지로 가공한다(S107).

스팸 탐지 장치(200)의 스팸 확률 계산부(250)는 가공된 입력 이미지를 학습 모델에 입력하여 1차적으로 스팸 확률을 계산한다(S108).

본 명세서에서 사용하는 컨볼루션 신경망 모델은, 컨벌루션 기능과 신경망을 결합시킨 딥러닝 알고리즘 중 하나이다. 이하 컨볼루션 신경망 모델에 대해 간단히 기술한다. 컨볼루션 신경망 모델은 크게 특징 학습(Feature Learning) 단계와 분류(Classification) 단계로 나뉜다.

특징 학습 단계에서는, 입력 이미지에 복수개의 컨볼루션 커널 또는 필터를 사용하여 특징 맵(Feature Map)을 생성하는 컨볼루션 과정, 특징 맵의 크기 또는 공간적 해상도를 줄이기 위해 서브 샘플링(Subsampling) 또는 풀링(Pooling) 과정을 반복하여 입력된 이미지의 여러 특징을 추출할 수 있다. 컨볼루션 과정과 서브 샘플링 과정은 입력 이미지의 크기와 특성에 따라 여러 번 반복될 수 있다.

이후 분류 단계에서는, 추출된 특징을 이용하여 완전 연결 계층(Fully Connected Layer)을 구성하여 입력 이미지를 분류할 수 있고, 마지막 출력층에서는 로지스틱 회귀를 이용하여 2개의 클래스로 분류하거나, 소프트 맥스 함수(Softmax Function)를 이용하여 3개 이상의 클래스로 분류할 수 있다.

예를 들어, 스팸 확률 계산부(250)가 산출하는 결과는 스팸일 확률과 스팸이 아닐 확률이므로, 2개의 클래스로 분류하는 문제이다. 따라서 분류 단계의 가장 마지막 계층은 2개의 노드로 구성되며, 완전 연결 계층의 모든 노드들은 이 2개의 노드에 각각 연결되어 스팸 확률을 계산한다. 최종적으로 계산되는 값은 스팸일 확률과 스팸이 아닐 확률이다.

스팸 탐지 장치(200)의 후처리부(260)는 추가 정보를 바탕으로 스팸 확률을 보정하여 최종 스팸 지수를 산출한다(S109). 후처리부(260)는 스팸 확률 계산부(250)에서 계산된 스팸 확률에 대해, 블랙 리스트에 포함된 발신번호에 의한 스팸인 경우 스팸 확률을 높여 스팸 지수를 생성할 수 있고, 화이트 리스트에 포함된 발신번호에 의한 스팸인 경우 스팸 확률을 낮추어 스팸 지수를 생성할 수 있다. 이를 학습 모델에 반영하여 알고리즘을 수정할 수 있다. 또한, 사용자의 편의를 위해 스팸 확률을 표준화된 점수로 환산하여 제공할 수도 있다.

스팸 탐지 장치(200)는 산출한 스팸 지수를 단말(100)의 스팸 모니터링부(110)에 전송한다(S110). 이때, 스팸 탐지 장치(200)는 관리자에게 스팸 지수를 전송할 수 있고, 관리자는 스팸 지수와 스팸 메시지 사이의 관계에 따라 모델의 성능을 조절할 수 있다.

이후 단말(100)은 단말(100) 화면에 스팸 지수를 표시하여 사용자에게 스팸 지수를 알린다(S111). 예를 들어 단말(100)은 메시지와 동시에 스팸 지수를 화면에 표시하거나, 스팸 메시지를 전송한 발신 번호에 스팸 지수를 표시할 수 있다.

이하에서는 전처리부(220)가 메시지 정보를 바탕으로 학습 이미지와 입력 이미지를 생성하는 방법과 생성된 이미지를 예를 들어 설명한다.

도 4는 한 실시예에 따른 전처리부가 메시지 정보를 바탕으로 이미지를 생성하는 방법을 나타낸 흐름도이고, 도 5는 한 실시예에 따른 메시지 정보들이 관리되는 테이블의 예시도이고, 도 6은 다른 실시예에 따른 메시지 정보들이 관리되는 테이블의 예시도이고, 도 7은 한 실시예에 따른 전처리부가 메시지 정보를 배열하는 방법을 나타낸 설명도이고, 도 8은 한 실시예에 따른 전처리부가 2차원 이미지를 생성하는 방법을 나타낸 설명도이다.

도 4를 참고하면, 전처리부(220)는 메시지 정보를 가공하여 발신자 관련 정보를 포함하는 발신 정보 테이블을 생성한다(S210). 발신 정보 테이블은 사용자 단말(100)에 설치된 스팸 모니터링부(110)에서 스팸 탐지 장치(200)로 전달되는 메시지 정보들 중 발신자와 관련된 정보를 표로 배열한 것이다.

도 5를 참고하면, 발신 정보 테이블에 포함되는 필드는 메시지를 발신한 번호, 메시지의 전송 시간, 발신자의 정보, 발신자의 업종, 발신자의 주소 등을 포함할 수 있다. 한편, 단말(100)이 수신한 정보가 메시지의 형태가 아닌 경우, 발신 타입을 입력하는 필드를 포함할 수 있다.

전처리부(220)는 기준 시간 동안 발신 정보 중 임의의 항목에 해당되는 메시지의 누적 건수를 포함하는 누적 정보 테이블을 생성한다(S220). 누적 정보 테이블은 각 단말(100)에서 시간 순으로 발생한 사건을 누적하여 누적값을 표로 배열한 것으로, 입력 이미지에 더 다양한 정보를 포함하여 모델의 정확도를 높이기 위해 사용될 수 있다.

도 6을 참고하면, 누적 정보 테이블은 발신 정보 테이블에 기록된 정보 또는 새롭게 수집하는 메시지 정보를 바탕으로 생성할 수 있다. 예를 들어, 기준 시간(1분, 3분, 또는 60분 등)동안 특정 발신번호로부터 얼마나 많은 메시지가 수신되었는지를 필드로 생성하여, 해당 셀에 0 또는 1로 표시하거나, O 또는 X, Yes 또는 No로 표시할 수 있으며, 표시되는 기호는 미리 지정된 문자, 숫자 또는 기호일 수 있다.

예를 들어 도 6의 (a)는 단말(100)이 특정 발신번호로부터 일정 시간 동안 수신한 메시지의 누적 건수를 필드화한 것이고, 도 6의 (b)는 단말(100)이 특정 주소의 발신자로부터 일정 시간 동안 수신한 메시지의 누적 건수를 필드화한 것이다. 기준 시간을 1분, 3분, 60분으로 구분하였으나 이는 사용자 또는 관리자에 따라 변경될 수 있고, 열을 구분하는 기준 건수 역시 변경될 수 있다.

또한 도 6의 (c)는 동일한 발신번호로부터 이전에 수집한 메시지들의 시간 간격을 필드화한 포맷이다. 특정 발신번호로부터 복수의 메시지를 수신하면 메시지를 수신한 시간 차를 학습 데이터로 이용하는 것이다. 이를 통해 누적 건수를 기준으로 스팸 여부를 탐지하는 룰 기반 또는 딥러닝 기반의 스팸 탐지 방법에 비해 더 빠른 시간 내에 스팸 여부를 판단할 수 있다. 따라서, 스팸을 빠르게 차단하여 스팸으로 인한 피해를 줄일 수 있게 된다.

도 6의 (c)는 3개의 메시지에 대해 시간 간격을 1초, 5초, 10초, 60초로 설정하였으나, 시간 간격을 계산하는 메시지의 개수 또는 메시지 간 시간 간격은 이와 다르게 설정되거나, 동적으로 설정될 수 있다.

한편, 본 발명에서 수집하는 스팸은 메시지에 한정되는 것이 아니므로, 스팸 전화의 경우 도 6의 (c)는 동일 발신번호로부터 수신한 전화들의 시간 간격을 의미하는 것으로 변경될 수 있다.

전처리부(220)는 데이터 수집부(210)로부터 새롭게 메시지 정보를 받으면, 발신자 관련 정보를 추출하여 발신 정보 테이블에 기록한다(S230). 전처리부(220)는 단말(100)로부터 수신하는 각각의 메시지 정보를 시간 순으로 발신 정보 테이블에 입력하여 관리한다. 따라서 가장 최근에 수신한 메시지 정보는 발신 정보 테이블의 가장 아래쪽 행에 입력될 것이다.

전처리부(220)는 데이터 수집부(210)로부터 새롭게 메시지 정보를 받으면, 변화된 누적 건수를 누적 정보 테이블에 기록한다(S240). 예를 들어, 새로운 메시지 정보를 수집함에 따라, 특정 발신번호로부터 3분간 총 70건의 메시지 수신이 발생한 경우, 도 6의 (a)에 도시된 누적 정보 테이블의 "3분 누적 건수" 중 "60~89" 건으로 표시된 셀에 1 또는 임의의 표시를 입력할 수 있다.

또 다른 예로서, 동일한 발신번호로부터 3개의 메시지가 수신되고, 현재 메시지를 기준으로 직전에 수신한 메시지와의 시간 간격이 0.7초, 전전에 수신한 메시지와의 시간 간격이 4초인 경우, 도 6의 (c)에 도시된 누적 정보 테이블의 "n-1번째 메시지와의 간격" 중 "~1초 미만"으로 표시된 셀과 "n-2번째 메시지와의 간격" 중 "1~5초 미만"으로 표시된 셀에 1 또는 임의의 표시를 입력할 수 있다.

전처리부(220)는 발신 정보 테이블과 누적 정보 테이블에 추가된 내용을 이진화하여 2차원으로 배열한다(S250).

발신 정보 테이블에 포함된 정보는 숫자 또는 문자 형태이고, 누적 정보 테이블에 포함된 정보는 특정 셀에 해당 여부만을 표시하는 것이 목적이므로, 발신 정보 테이블의 각 정보를 이진화 한 내용이 누적 정보 테이블의 각 정보를 이진화 한 내용보다 비트 길이가 길 것이다. 따라서 비트 길이가 긴 발신 정보 테이블의 항목들을 우선 배열하고, 비트 길이가 짧은 누적 정보 테이블의 항목들을 배열하여 사각형의 형태를 생성할 수 있다.

한편, 도 7에서는 1개의 발신 정보 테이블과 1개의 누적 정보 테이블을 이용하는 경우를 가정하였으나, 이용되는 누적 정보 테이블은 반드시 1개일 필요는 없다. 도 5에 도시된 발신 정보 테이블과 도 6에 도시된 누적 정보 테이블들을 모두 이용할 수도 있다.

전처리부(220)는 2차원 배열을 구성하는 비트를 미리 설정된 길이 단위로 분할하고, 각 비트 단위를 정수로 변환한다(S260). 사각형으로 배열된 각 정보들은 0 또는 1의 이진수로 표현되어 있으며, 배열된 비트를 특정 길이 단위로 분할한다. 이후 분할된 비트를 10진수의 정수로 변환한다.

전처리부(220)는 정수로 변환된 숫자를 색상 정보를 나타내는 값에 대응시켜 2차원 이미지를 생성한다(S250). 색상 정보를 나타내는 값은 명도를 나타내는 그레이 스케일이거나 RGB의 한 값일 수 있다.

예를 들어, 단계 S250에서 생성된 2차원 배열은 0 또는 1로 구성되어 있다. 이때 배열된 비트를 크기가 1인 단위로 분할하고, 분할된 비트를 정수로 변환하면 0인 비트는 10진수로 변환하여도 0이고, 1인 비트는 10진수로 변환하면 1이다. 따라서 0을 흑색, 1을 백색으로 대응시켜 2단계의 명암을 갖는 흑백 이미지를 생성할 수 있다.

또 다른 예로서 도 8을 참고하면, 도 7을 통해 생성된 사각형을 8비트 단위로 분할한다고 가정한다. 이 경우 분할된 각 비트 단위는 '00000000'부터 '11111111'까지의 경우에 해당할 수 있다. 분할된 각 비트 단위를 10진수로 변환하면, '0000000'인 비트 단위는 0으로 변환되고, '11111111'인 비트 단위는 255로 변환되고, '01010101'인 비트 단위는 85로 변환될 것이다. 즉 하나의 비트 단위는 0부터 255내의 숫자에 해당할 수 있으며, 0인 부분을 흑색, 255인 부분을 백색에 대응시키면

가지, 즉 256 단계의 명암을 갖는 그레이 스케일 이미지를 생성할 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

스팸 탐지 장치가 스팸을 탐지하는 방법으로서,
복수의 단말들로부터 메시지 정보들을 수집하는 단계,
상기 메시지 정보들을 가공하여 2차원 학습 이미지들을 생성하는 단계,
각 학습 이미지에 해당 학습 이미지에 대응하는 메시지 정보의 스팸 판정 결과가 대응된 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 스팸 지수 산출 모델을 지도 학습하는 단계,
임의의 단말로부터 새로운 메시지 정보를 수집하면, 상기 새로운 메시지 정보를 가공하여 2차원 입력 이미지를 생성하는 단계,
상기 입력 이미지와 상기 스팸 지수 산출 모델을 이용하여 상기 새로운 메시지에 대한 스팸 지수를 산출하는 단계, 그리고
산출된 스팸 지수를 상기 임의의 단말에 전송하는 단계
를 포함하는 스팸 탐지 방법.
제1항에서,
상기 학습 이미지들을 생성하는 단계는,
각 메시지 정보에 포함된 발신자 관련 정보들을 이진화하고, 이진화된 정보들을 2차원으로 배열하는 단계, 그리고
2차원으로 배열된 비트를 임의의 길이 단위로 분할하고, 분할된 비트 단위들을 각각 정수로 변환하는 단계, 그리고
변환된 정수를 그레이 스케일 또는 색상을 나타내는 값에 대응시켜 2차원 이미지를 생성하는 단계,
를 포함하는, 스팸 탐지 방법.
제2항에서,
상기 2차원으로 배열하는 단계는,
상기 발신자 관련 정보들 중 특정 항목에 해당하는 메시지를 기준 시간 동안 누적한 건수에 대한 정보를 더 포함하여 2차원으로 배열하는, 스팸 탐지 방법.
제3항에서,
상기 누적한 건수에 대한 정보는,
특정 발신번호로부터 일정 시간 간격 내에 복수의 메시지들을 수신하는 경우, 수신한 각 메시지 사이의 시간 간격을 포함하는, 스팸 탐지 방법.
제3항에서,
상기 누적한 건수에 대한 정보는,
특정 발신번호로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수 또는 특정 주소의 발신자로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수를 포함하는, 스팸 탐지 방법.
제1항에서,
상기 스팸 지수 산출 모델은 컨볼루션 신경망을 이용하고,
상기 스팸 지수는 상기 스팸 지수 산출 모델에 포함된 컨볼루션 신경망의 최종 노드에서 산출된 확률값인, 스팸 탐지 방법.
제1항에서,
상기 스팸 지수를 산출하는 단계 이후에,
상기 새로운 메시지 정보에서 발신 번호를 확인하고, 상기 발신 번호가 기 저장된 블랙 리스트 또는 기 저장된 화이트 리스트에 포함된 번호인지 판단하는 단계, 그리고
판단 결과에 따라 상기 산출된 스팸 지수를 보정하는 단계
를 더 포함하는, 스팸 탐지 방법.
복수의 단말들로부터 수집한 메시지 정보들을 가공하여 2차원 학습 이미지들을 생성하는 전처리부, 그리고
각 학습 이미지에 해당 학습 이미지에 대응하는 메시지 정보의 스팸 판정 결과가 대응된 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 스팸 지수 산출 모델을 지도 학습하는 모델 학습부
를 포함하고,
상기 전처리부는 임의의 단말로부터 새로운 메시지 정보를 수집하면, 상기 새로운 메시지 정보를 가공하여 2차원 입력 이미지를 생성하고,
상기 입력 이미지와 상기 스팸 지수 산출 모델을 이용하여 상기 새로운 메시지에 대한 스팸 지수를 산출하는 스팸 지수 산출부,
를 더 포함하는, 스팸 탐지 장치.
제8항에서,
상기 새로운 메시지 정보에서 발신 번호를 확인하고, 상기 발신 번호가 기 저장된 블랙 리스트 또는 기 저장된 화이트 리스트에 포함된 번호인지 판단하고, 판단 결과에 따라 상기 산출된 스팸 지수를 보정하는 후처리부
를 더 포함하는, 스팸 탐지 장치.
제9항에서,
상기 모델 학습부는,
상기 후처리부의 판단 결과를 반영하여 상기 스팸 지수 산출 모델을 수정하는, 스팸 탐지 장치.
스팸 탐지 장치가 단말로부터 수집한 메시지 정보를 가공하는 방법으로서,
메시지 정보 중 발신자 관련 정보를 포함하는 발신 정보 테이블을 생성하는 단계,
기준 시간 동안, 상기 발신 정보 테이블의 항목 중 임의의 항목에 해당하는 메시지의 누적 건수를 포함하는 누적 정보 테이블을 생성하는 단계,
임의의 단말로부터 새로운 메시지 정보를 수집하는 단계,
상기 새로운 메시지 정보에 포함된 발신자 관련 정보를 상기 발신 정보 테이블의 새로운 행에 기록하는 단계,
상기 새로운 메시지 정보가 수신됨에 따라 변화된 상기 누적 건수를 상기 누적 정보 테이블의 새로운 행에 기록하는 단계, 그리고
상기 발신 정보 테이블에 추가된 행과 상기 누적 정보 테이블에 추가된 행의 내용을 이진화하여 2차원으로 배열하고, 상기 2차원 배열을 이미지로 변환하는 단계
를 포함하는 메시지 정보 가공 방법.
제11항에서,
상기 누적 정보 테이블은,
특정 발신번호로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수, 특정 주소의 발신자로부터 수신한 메시지를 상기 기준 시간 동안 누적한 건수, 또는 특정 발신번호로부터 수신한 복수의 메시지들의 수신 시간 간격을 포함하는, 메시지 정보 가공 방법.
제11항에서,
상기 이미지로 변환하는 단계는,
상기 2차원 배열을 구성하는 비트를 임의의 길이 단위로 분할하고, 분할된 비트를 정수로 변환하는 단계, 그리고
변환된 정수를 그레이 스케일 또는 색상을 나타내는 값에 대응시키는 단계
를 포함하는 메시지 정보 가공 방법.