KR101764920B1

KR101764920B1 - 스팸 판단 모델을 이용한 스팸 전화번호의 판단 방법

Info

Publication number: KR101764920B1
Application number: KR1020160050867A
Authority: KR
Inventors: 최철호
Original assignee: 주식회사 나우드림
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2017-08-04

Abstract

본 발명은 스팸 전화번호를 판단하는 방법에 관한 것으로, 보다 구체적으로 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도와 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도에 기초하여 스팸 전화번호와 정상 전화번호를 정확하게 판단할 수 있으며, 전화번호별 단위시간 동안의 전체 호 발신 건수, 전화번호별 단위시간 동안 발신 호의 평균 통화 시간 및 발신일이 주말 또는 평일인지를 나타내는 구별 식별자만을 이용하여 스팸 전화번호와 정상 전화번호를 정확하게 판단할 수 있는 방법에 관한 것이다.

Description

스팸 판단 모델을 이용한 스팸 전화번호의 판단 방법{Method for determining spam phone number using spam model}

본 발명은 스팸 전화번호를 판단하는 방법에 관한 것으로, 보다 구체적으로 전화번호별 단위시간 동안의 전체 호 발신 건수, 전화번호별 단위시간 동안 발신 호의 평균 통화 시간 및 발신일이 주말 또는 평일인지를 나타내는 구별 식별자만을 이용하여 스팸 전화번호와 정상 전화번호를 정확하게 판단할 수 있으며, 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도와 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도에 기초하여 스팸 전화번호와 정상 전화번호를 정확하게 판단할 수 있는 방법에 관한 것이다.

근래에 들어 개인 휴대 전화기 문화의 발달로 바야흐로 국민 1인당 1휴대 전화기의 시대를 맞이하고 있으며, 이에 따라 휴대 전화기를 이용한 사용자들간 보다 신속한 통신 및 다양한 멀티미디어 콘텐츠의 전송도 가능하게 되어 개인간 통신에 있어 급격한 발전이 이루어지고 있다.

그러나 위와 같은 휴대 전화기 문화의 발달로 인한 편리성의 이면으로, 휴대 전화기의 보급이 늘어남에 따라 불특정 다수의 휴대 전화기 사용자를 대상으로 하여 광고 또는 홍보를 하기 위한 스팸 문자 또는 스팸 전화도 대폭 증가하여 휴대 전화기 사용자들은 원치 않는 불법 스팸 전화로 인해 많은 불편을 겪고 있다.

일반적으로, 스팸은 유선전화, 컴퓨터, 통신 단말기 또는 자동전화발신시스템(Automatic Calling System : ACS) 등을 통해서 발송되며, 일반적으로 벨이 1 ~ 2 번만 울린 후 회신받고자 하는 단말기의 회신 전화번호만 남기고 끊어지는 원링 호와, 녹음된 음성 내용을 포함하는 음성호 등으로 분류된다. 또한, 텔레마케터가 무작위로 통신 단말기 소지자에게 전화를 걸어 홍보성 정보를 제공하는 경우도 이에 속한다.

최근에는 스팸 전화라는 사실을 속이기 위해 일반 전화로 착신하는 방법으로 위장해 전화를 걸거나, 전화 거는 방식에 있어서도 전화벨이 한 번만 울리게 하고 끊어지도록 함으로써, 휴대 전화기 사용자의 호기심을 자극하여 사용자로 하여금 다시 전화를 걸게 하는 방식으로 사용자에게 피해를 주고 있다.

즉, 휴대 전화기 사용자는 전화기에 부재중 통화가 뜨게 되면, 부재중 전화를 확인하기 위해 무의식적으로 또는 실수로 통화 버튼을 누르게 되고, 일단 통화 연결이 된 후에는 원하지 않는 각종 부가 통화료를 지불해야 하는 등의 피해를 입고 있다.

이와 같은 스팸 전화의 차단을 위해 종래에는 060, 700 등으로 시작하는 스팸 전화의 대표적인 번호에 대해 수신을 자동으로 차단시키는 방법이 있으나, 위 설명한 일반 전화번호로 착신하는 방법으로 위장하여 전화를 걸 때마다 번호를 변경하면서 걸려오는 스팸 전화에 대해서는 이를 효과적으로 자동 차단하는 것이 쉽지 않았다.

이러한 광고성 원링 또는 텔레마케터의 스팸 전화를 사전에 방지하기 위한 노력이 시도되고 있다.

예를 들면, 대한민국 공개특허공보 제10-2007-0063974호(2007년6월20일 공개)에 "휴대폰에서 원링 방식의 스팸 전화를 차단하는 방법"이 개시되어 있다.

이는 기지국으로부터 호가 착신되었음을 알리기 위한 범용 페이지 메시지를 수신한 이후부터 호 착신이 종료되었음을 알리기 위한 호 종료 메시지를 수신할 때까지의 시간을 카운트하여 이를 미리 설정해둔 제1 임계시간과 비교한 후, 비교 결과에 따라 스팸 전화인지를 판별하는 하도록 한 스팸 전화 차단 방법에 관한 것이다. 그러나 이는 단순히 원링에 의한 부재중 전화의 착신 시간에 따른 스팸 여부를 결정함에 따라, 원링 스팸전화에만 국한되어 필터링을 할 수 있을 뿐, 임계시간이 길어지면 필터링이 불가능하다는 문제점이 있으며, 또한 텔러마케터에 의해 걸려오는 스팸 전화에 대해서는 무방비 상태에 놓여진다는 문제점이 있다.

대한민국 공개특허공보 제10-2007-0100993호(2007년10월16일 공개)에 "스팸 검출장치 및 그 검출방법"이 개시되어 있다.

이는 ⅰ) 음성호의 호도착 알림신호가 일정한 기준시간(3초 ~ 4초 정도) 동안 수신되는 지의 여부, ⅱ) 음성호의 회신 단말기 식별정보가 수신전용 식별번호일 경우, ⅲ)다수의 통신 단말기 식별번호가 동일한 회신 단말기 식별정보를 가지는 경우, 각 음성호가 5 ~ 10분의 시간 동안에 수신된 경우, 및 ⅳ)인식된 음성 내용에 스팸 음성호 판단용 단어 포함시 등의 일정 기준을 근거로 스팸 전화를 검출하는 장치에 관한 것이다. 그러나 이 기술 역시 기계시스템을 통한 원링 스팸 전화에 대해서는 사전에 방지할 수 있는 장점은 있으나, 텔레마케터에 의한 스팸 전화에 대해서는 수신자가 무방비로 노출되어 있다는 문제점이 있다.

이처럼 종래의 스팸전화 차단 기술로는 기계시스템을 통한 스팸 전화에 대해서는 어느 정도 차단이 가능하나, 사람을 통한 스팸전화 즉, 텔레마케터를 통한 스팸전화에 대해서는 여전히 무방비 상태에 놓여진다는 문제점이 있는바, 기계시스템에 따른 원링 스팸 전화는 물론 텔레마케터에 의한 스팸전화까지 사전에 방지 및 차단할 수 있는 스팸 방지 기술이 절실히 요구되고 있는 실정이다.

본 발명은 위에서 언급한 스팸 전화번호의 필터링 방식이 가지는 문제점을 해결하기 위한 것으로, 본 발명이 이루고자 하는 목적은 통화 이력 데이터베이스에서 생성한 스팸 확인 인자를 신경망 알고리즘에 적용하여 정확하게 스팸 전화번호를 판단하는 방법을 제공하는 것이다.

본 발명이 이루고자 하는 다른 목적은 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도와 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도에 기초하여 스팸 전화번호와 정상 전화번호를 정확하게 구별하여 판단하는 방법을 제공하는 것이다.

본 발명이 이루고자 하는 또 다른 목적은 전화번호별 단위시간 동안의 전체 호 발신 건수, 전화번호별 단위시간 동안 발신 호의 평균 통화 시간 및 발신일이 주말 또는 평일인지를 나타내는 구별 식별자만을 이용하여 스팸 전화번호와 정상 전화번호를 정확하게 판단할 수 있는 방법을 제공하는 것이다.

본 발명의 목적을 달성하기 위하여 본 발명에 따른 스팸 전화번호의 판단 방법은 통화 이력 데이터베이스에서 통화 이력 정보로부터 스팸 확인 인자를 생성하는 단계와, 스팸 전화 데이터베이스의 스팸 전화번호와 통화 이력 데이터베이스의 전화 번호를 비교하여 통화 이력 데이터베이스의 전화번호를 예상 스팸 전화번호와 예상 정상 전화번호로 분류하는 단계와, 예상 스팸 전화번호의 스팸 확인 인자와 예상 정상 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 입력하여 예상 스팸 전화번호를 스팸 전화번호로 판단하거나 예상 정상 전화번호를 정상 전화번호로 판단하는 전체 정확도를 계산하는 단계와, 전체 정확도가 임계 정확도 이상이 되도록 신경망 알고리즘의 은닉 노드와 가중치를 변경하여 스팸 판단 모델을 생성하는 단계를 포함하는 것을 특징으로 한다.

바람직하게, 전체 정확도를 계산하는 단계는 예상 스팸 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 입력하여 예상 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도를 계산하는 단계와, 예상 정상 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 입력하여 예상 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도를 계산하는 단계와, 스팸 판단 정확도가 임계 스팸 판단 정확도를 초과하고 정상 판단 정확도가 임계 정상 판단 정확도를 초과하는지 판단하는 단계와, 스팸 판단 정확도가 임계 스팸 판단 정확도를 초과하고 정상 판단 정확도가 임계 정상 판단 정확도를 초과하는 경우 스팸 판단 정확도와 정상 판단 정확도를 조합하여 전체 정확도를 계산하는 것을 특징으로 한다.

여기서 스팸 판단 정확도는 예상 스팸 전화번호를 스팸 전화번호로 판단하는 확률이고, 정상 판단 정확도는 예상 정상 전화번호를 정상 전화번호로 판단하는 확률인 것을 특징으로 한다.

바람직하게, 스팸 판단 정확도(SR)는 아래의 수학식(1)에 의해 계산되며,

[수학식 1]

여기서 N_sn은 신경망 알고리즘에 적용되는 전체 예상 스팸 전화번호의 수이며, N_st는 전체 예상 스팸 전화번호 중 예상 스팸 전화번호를 스팸 전화번호로 판단한 예상 스팸 전화번호의 수이며,

정상 판단 정확도(ER)는 아래의 수학식(2)에 의해 계산되며,

[수학식 2]

여기서 N_en은 신경망 알고리즘에 적용되는 전체 예상 정상 전화번호의 수이며, N_st는 전체 예상 정상 전화번호 중 예상 정상 전화번호를 정상 전화번호로 판단한 예상 정상 전화번호의 수 것을 특징으로 한다.

바람직하게, 전체 정확도(TR)는 아래의 수학식(3)에 의해 계산되며,

[수학식 3]

여기서 α는 스팸 판단 정확도에 할당된 가중치이고, β는 정상 판단 정확도에 할당된 가중치인 것을 특징으로 한다.

여기서 스팸 확인 인자는 통화 이력 데이터베이스에서 통화 이력으로부터 계산한 각 전화번호별 단위시간 동안 전체 호의 발신 건수, 전화번호별 단위시간 동안 발신 호의 평균 통화 시간 및 전화번호별 단위시간 동안 호의 발신일이 주말인지 또는 평일인지를 나타내는 구분 식별자 중 적어도 어느 하나인 것을 특징으로 한다.

바람직하게, 본 발명에 따른 스팸 전화번호의 판단 방법은 통화 이력 데이터베이스에 신규 전화번호가 등록되는 경우, 신규 전화번호의 단위시간 동안 전체 호의 발신 건수, 호의 평균 통화 시간 및 구분 식별자를 스팸 판단 모델에 적용하여 신규 전화번호가 스팸 전화번호인지 판단하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명에 따른 스팸 전화번호의 판단 방법은 다음과 같은 다양한 효과들을 가진다.

첫째, 본 발명에 따른 스팸 전화번호의 판단 방법은 통화 이력 데이터베이스에서 생성한 스팸 확인 인자만을 이용하여 스팸 판단 모델을 생성함으로써, 적은 연산량으로 스팸 전화번호를 정확하게 판단할 수 있다.

둘째, 본 발명에 따른 스팸 전화번호의 판단 방법은 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도와 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도에 각각 가중치를 부여하여 스팸 판단 모델을 생성함으로써, 정상 전화번호를 스팸 전화번호로 판단하지 않으며 스팸 전화번호를 정확하게 필터링할 수 있다.

셋째, 본 발명에 따른 스팸 전화번호의 판단 방법은 전화번호별 단위시간 동안의 전체 호 발신 건수, 전화번호별 단위시간 동안 발신 호의 평균 통화 시간 및 발신일이 주말 또는 평일인지를 나타내는 구별 식별자를 스팸 확인 인자로 사용하여 스팸 전화번호와 정상 전화번호를 정확하게 판단할 수 있다.

도 1은 본 발명에 따른 스팸 전화 판단 장치를 설명하기 위한 기능 블록도이다.
도 2는 본 발명에 따른 모델 생성부의 일 예를 설명하기 위한 기능 블록도이다.
도 3은 본 발명에 이용되는 신경망 알고리즘(Neural Network)의 모델구조를 나타내는 도면이다.
도 4는 본 발명에 따른 스팸 전화번호의 판단 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명에 따른 통화 이력 데이터베이스의 일 예를 설명하기 위한 도면이다.
도 6은 통화 이력 정보로부터 생성한 스팸 확인 인자의 일 예를 도시하고 있다.
도 7은 본 발명에 따른 스팸 판단 모델의 생성 방법의 일 예를 설명하기 위한 흐름도이다.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다.

또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.

도 1은 본 발명에 따른 스팸 전화 판단 장치를 설명하기 위한 기능 블록도이다.

도 1을 참고로 보다 구체적으로 살펴보면, 통화 이력 데이터베이스(110)에는 전화 서비스 서버(미도시)로부터 수신한 통화 이력 정보가 저장되어 있는데, 여기서 전화 서비스 서버는 공중전화망, 이동통신망을 통해 음성 통화 서비스를 제공하는 제공자가 관리하는 서버를 의미하며, 전화 서비스 서버로부터 주기적으로 수신된 통화 이력 정보는 통화 이력 데이터베이스(110)에 저장될 수 있다.

한편, 스팸 전화 데이터베이스(130)에는 스팸 전화번호로 분류된 전화번호에 대한 정보가 저장되어 있는데, 여기서 스팸 전화번호는 사전 사용자의 신고에 의해 또는 관리자에 의해 스팸 전화번호로 등록된 전화번호를 의미한다.

분류부(150)는 통화 이력 데이터베이스에 저장되어 있는 전화 번호와 스팸 전화 데이터베이스에 저장된 스팸 전화번호를 비교하여, 통화 이력 데이터베이스의 전화번호 중 스팸 전화번호와 일치하는 전화번호를 예상 스팸 전화번호로 분류하며 스팸 전화번호와 일치하지 않는 나머지 전화번호를 예상 정상 전화번호로 분류한다.

스팸 확인 인자 생성부(170)는 예상 스팸 전화번호로 분류된 전화번호의 스팸 확인 인자를 생성하거나 예상 정상 전화번호로 분류된 전화번호의 스팸 확인 인자를 생성한다. 여기서 스팸 확인 인자는 신경망 알고리즘을 이용하여 예상 스팸 전화번호를 스팸 전화번호로 판단하는지 아니면 정상 전화번호로 판단하는지 확인하여 스팸 전화번호 판단을 위한 스팸 판단 모델을 생성하는데 사용되는 인자를 의미하는데, 스팸 확인 인자로 전화번호별 단위시간 동안 전체 호의 발신 건수, 전화번호별 단위시간 동안 발신 호의 평균 통화 시간, 전화번호별 단위시간 동안 호의 발신일이 주말인지 또는 평일인지를 나타내는 구분 식별자 등이 사용될 수 있다.

스팸 확인 인자 생성부(170)는 분류부(150)에서 분류한 예상 스팸 전화번호와 예상 정상 전화번호로 구분하여, 해당 예상 스팸 전화번호의 통화 이력 정보를 통화 이력 데이터베이스(110)에서 추출하여 해당 예상 스팸 전화번호의 스팸 확인 인자를 생성하거나 해당 정상 스팸 전화번호의 통화 이력 정보를 통화 이력 데이터베이스(110)에서 추출하여 해당 예상 정상 전화번호의 스팸 확인 인자를 생성한다.

모델 생성부(190)는 예상 스팸 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 적용하거나 예상 정상 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 적용하여 스팸 전화번호를 판단하는데 사용되는 스팸 판단 모델을 생성한다. 모델 생성부(190)는 예상 스팸 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 적용하여 예상 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도를 계산하여 스팸 판단 정확도가 임계 스팸 판단 정확도를 초과하고, 예상 정상 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 적용하여 예상 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도를 계산하여 정상 판단 정확도가 임계 정상 판단 정확도를 초과하도록 신경망 알고리즘의 은닉 노드 수 또는 가중치를 변경하여 스팸 판단 모델을 생성한다.

도 2는 본 발명에 따른 모델 생성부의 일 예를 설명하기 위한 기능 블록도이다.

도 2를 참고로 살펴보면, 생성 제어부(191)는 초기 신경망 알고리즘(193)의 입력노드에 예상 스팸 전화번호의 스팸 확인 인자를 적용하거나 예상 정상 전화번호의 스팸 확인 인자를 각각 적용 제어한다. 정확도 계산부(195)는 예상 정상 전화번호의 스팸 확인 인자를 초기 신경망 알고리즘(193)에 적용하여 예상 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도를 계산하며, 계산한 정상 판단 정확도를 생성 제어부(191)로 제공한다. 생성 제어부(191)는 정상 판단 정확도가 임계 정상 판단 정확도를 초과하는지 판단한다.

생성 제어부(191)는 정상 판단 정확도가 임계 정상 판단 정확도를 초과하는 경우, 정확도 계산부(195)로 진행 신호를 제공한다. 정확도 계산부(195)는 진행 신호를 수신하는 경우, 예상 스팸 전화번호의 스팸 확인 인자를 초기 신경망 알고리즘(193)에 적용하여 예상 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도를 계산하며, 계산한 스팸 판단 정확도를 생성 제어부(191)로 제공한다.

생성 제어부(191)는 스팸 판단 정확도가 임계 스팸 판단 정확도를 초과하는 경우, 정상 판단 정확도와 스팸 판단 정확도의 조합으로부터 전체 정확도를 계산한다.

그러나 생성 제어부(191)는 정상 판단 정확도가 임계 정상 판단 정확도를 초과하지 않는 경우, 초기 신경망 알고리즘(193)의 가중치 또는 은닉 노드의 수를 변경 갱신하며 변경 갱신된 신경망 알고리즘(193)의 입력노드에 다시 예상 정상 전화번호의 스팸 확인 인자를 적용하여 정상 판단 정확도가 임계 정상 판단 정확도를 초과할 때까지 반복하여 신경망 알고리즘(193)의 가중치 또는 은닉 노드의 수를 변경한다.

이와 동일하게, 생성 제어부(191)는 스팸 판단 정확도가 임계 스팸 판단 정확도를 초과하지 않는 경우, 초기 신경망 알고리즘 또는 갱신된 신경망 알고리즘(193)의 가중치 또는 은닉 노드의 수를 변경 갱신하며 변경 갱신된 신경망 알고리즘(193)의 입력노드에 다시 예상 스팸 전화번호의 스팸 확인 인자를 적용하여 예상 판단 정확도가 임계 스팸 판단 정확도를 초과할 때까지 반복하여 신경망 알고리즘(193)의 가중치 또는 은닉 노드의 수를 변경한다.

도 3은 본 발명에 이용되는 신경망 알고리즘(Neural Network)의 모델구조를 나타내는 도면이다.

도 3을 참조하면, 본 발명은 신경망 알고리즘의 다층 퍼셉트론(Multi-layer Perception)을 구축하여 학습을 수행한다. 다층 퍼셉트론은 입력층과 출력층 사이에 연결되는 중간층인 은닉층(Hidden Layer)이 존재하는 신경망이다. 다층 퍼셉트론은 은닉층이 없는 단층 퍼셉트론과 유사한 구조이지만, 입력/출력 특징이 비선형적이어서 단층 퍼셉트론의 한계점을 극복한 구조이다.

도 3에서, X₁ 내지 X_n은 입력층의 각 입력 노드에 대한 입력 데이터를 의미하고, h₁ 내지 h_k는 은닉층의 각 은닉 노드에 대한 중간 데이터를 의미하며, y₁은 출력층의 출력 노드에 대한 출력 데이터를 의미한다. 또한, W_i _,j는 X_i에서 h_j로의 가중치(weights)를 의미하고, V_j _,1은 h_j에서 y₁으로의 가중치를 의미한다. 본 발명은 스팸 확인 인자를 입력 변수로 선정하고, 전처리(preprocessing) 과정을 거쳐 입력 데이터(X₁ 내지 X_n)를 확정한다. 이때, 전처리 과정은 스팸 확인 인자의 특성에 따라 입력 변수를 정규화(normalizing) 및 이진화(binarization)함으로써 이루어질 수 있다.

전처리 과정 후, 입력 데이터(X₁ 내지 X_n)를 가중치(W_i _,j)와 곱하고 더하는 과정을 반복하여 은닉층에 전달되고, 은닉층의 각 은닉 노드에 대한 중간 데이터(h₁ 내지 h_k)를 가중치(V_j _,1)와 곱하고 더하는 과정을 반복하여 결과값인, 스팸 확인 인자에 대응하는 출력데이터(y₁)를 얻는다. 이때, 예상 스팸 전화번호와 스팸 전화번호에 대응하는 결과값과 예상 정상 전화번호와 정상 전화번호에 대응하는 결과값은 서로 상이한 값으로 설정될 수 있는데, 예를 들어, 예상 스팸 전화번호와 스팸 전화번호는 0의 값으로 그리고 예상 정상 전화번호와 정상 전화번호는 1의 값으로 설정될 수 있다.

출력 데이터(y₁)는 스팸 전화번호 또는 정상 전화번호에 할당된 결과값과 상이하거나 다를 수 있으므로, 출력 데이터(y1)와 결과값의 차에 해당하는 값 즉, 오차가 발생한다. 예를 들어, 예상 스팸 전화번호의 스팸 확인 인자를 입력하여 출력되는 출력 데이터 값이 0.24인 경우, 출력 데이터와 예상 스팸 전화번호에 할당된 결과값인 0 사이에는 오차가 발생할 수 있다. 즉, 예상 스팸 전화번호의 스팸 확인 인자를 입력하는 경우 출력 데이터는 예상 스팸 전화번호에 할당된 결과값이 나오는 것이 정상적인 스팸 판단 모델인데, 출력 데이터와 예상 스팸 전화번호에 할당된 결과값 사이의 오차를 줄이도록 가중치와 은닉 노드의 수가 갱신되어야 한다.

역전파 알고리즘(Backpropagation)은 오차에 비례하여 출력층의 가중치를 갱신하고, 다시 갱신된 출력층의 가중치에 기초하여 은닉층의 가중치를 갱신하는 과정을 학습 종료 조건에 부합할 때까지 반복 수행하여 최종적으로 가중치(W_i _,j, V_j _,1)를 확정하는 학습 알고리즘이다. 바람직하게, 최적의 은닉 노드(Hidden Unit)의 개수를 설정하고 가중치를 확정하여 스팸 판단 모델을 구축할 수 있다.

도 4는 본 발명에 따른 스팸 전화번호의 판단 방법을 설명하기 위한 흐름도이다.

도 4를 참고로 보다 구체적으로 살펴보면, 통화 이력 데이터베이스에 저장되어 있는 전화번호를 스팸 데이터베이스의 스팸 전화번호와 비교하여 통화 이력 데이터베이스의 전화번호를 예상 스팸 전화번호와 예상 정상 전화번호로 분류한다(S110).

분류한 예상 스팸 전화번호의 통화 이력 정보로부터 예상 스팸 전화번호의 스팸 확인 인자를 생성하고, 분류한 예상 정상 전화번호의 통화 이력 정보로부터 예상 정상 전화번호의 스팸 확인 인자를 생성한다(S130).

도 5는 본 발명에 따른 통화 이력 데이터베이스의 일 예를 설명하기 위한 도면이다. 도 5에 도시되어 있는 바와 같이, 통화 이력 데이터베이스의 통화 이력 정보는 통신사 서버 등으로부터 획득할 수 있는데, 통화 이력 데이터베이스에는 발신 전화번호, 수신 전화번호, 발신 시각, 통화 시각, 발신 날짜에 대한 정보 등이 저장되어 있다.

발신 전화번호와 스팸 데이터베이스에 저장되어 있는 전화번호를 비교하여 발신 전화번호 중 스팸 데이터베이스에 저장되어 있는 전화번호와 일치하는 전화번호를 예상 스팸 전화번호로 분류하고, 스팸 데이터베이스에 저장되어 있는 전화번호와 일치하지 않는 전화번호를 예상 정상 전화번호로 분류한다. 예상 스팸 전화번호별로 단위시간(예를 들어, 1시간 또는 1일 등) 동안 발신한 전체 호의 발신 건수를 카운트하거나, 단위시간 동안 발신 호의 평균 통화 시간, 단위시간 동안 호의 발신일이 주말인지 또는 평일인지를 나타내는 구분 식별자 등의 스팸 확인 인자를 생성한다.

도 6(a)는 예상 스팸 전화번호로부터 생성한 스팸 확인 인자의 일 예를 도시하고 있으며, 도 6(b)는 예상 정상 전화번호로부터 생성한 스팸 확인 인자의 일 예를 도시하고 있다. 여기서 구분 식별자는 주말인 경우 1로 할당되고 평일인 경우 0으로 할당될 수 있다.

다시 도 4를 참고로 살펴보면, 스팸 전화번호를 판단하는데 사용되는 스팸 판단 모델을 생성하기 위한 초기 신경망 알고리즘을 생성하고(S150), 생성한 초기 신경망 알고리즘에 예상 정상 전화번호의 스팸 확인 인자 및 예상 스팸 전화번호의 스팸 확인 인자를 각각 적용하여 예상 정상 전화번호를 정상 전화번호로 판단하거나 예상 스팸 전화번호를 스팸 전화번호로 판단하는 전체 정확도가 임계 정확도를 초과하도록 신경망 알고리즘의 은닉 노드 수 또는 가중치를 변경하여 스팸 판단 모델을 생성한다(S170).

도 7은 본 발명에 따른 스팸 판단 모델의 생성 방법의 일 예를 설명하기 위한 흐름도이다.

도 7을 참고로 보다 구체적으로 살펴보면, 예상 정상 전화번호의 스팸 확인 인자를 신경망 알고리즘에 적용하여 신경망 알고리즘이 예상 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도를 계산하고(S171), 정상 판단 정확도가 임계 정상 판단 정확도보다 큰지 판단한다(S173). 정상 판단 정확도가 임계 정상 판단 정확도보다 크지 않은 경우, 신경망 알고리즘의 가중치 또는 은닉 노드의 수를 변경하며 정상 판단 정확도가 임계 정상 판단 정확도보다 크도록 신경망 알고리즘을 갱신한다(S178).

바람직하게, 정상 판단 정확도(ER)는 아래의 수학식(1)에 의해 계산되며,

[수학식 1]

한편, 예상 스팸 전화번호의 스팸 확인 인자를 갱신한 신경망 알고리즘에 적용하여 갱신한 신경망 알고리즘이 예상 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도를 계산하고(S175), 스팸 판단 정확도가 임계 스팸 판단 정확도보다 큰지 판단한다(S177). 스팸 판단 정확도가 임계 스팸 판단 정확도보다 크지 않은 경우, 갱신한 신경망 알고리즘의 가중치 또는 은닉 노드의 수를 변경하며 스팸 판단 정확도가 임계 스팸 판단 정확도보다 크도록 갱신한 신경망 알고리즘을 다시 갱신한다(S178).

바람직하게, 스팸 판단 정확도(SR)는 아래의 수학식(2)에 의해 계산되며,

[수학식 2]

여기서 N_sn은 신경망 알고리즘에 적용되는 전체 예상 스팸 전화번호의 수이며, N_st는 전체 예상 스팸 전화번호 중 예상 스팸 전화번호를 스팸 전화번호로 판단한 예상 스팸 전화번호의 수인 것을 특징으로 한다.

앞서 설명한 S171, S173, S175, S177 및 S178 단계를 반복하여, 정상 판단 정확도와 스팸 판단 정확도가 모두 임계 정상 판단 정확도와 임계 스팸 판단 정확도를 초과하도록 신경망 알고리즘을 갱신한다.

정상 판단 정확도와 스팸 판단 정확도에 각각 서로 다른 가중치를 할당하여 정상 판단 정확도와 스팸 판단 정확도의 조합으로 이루어진 전체 정확도를 계산하며, 전체 정확도를 가지는 스팸 판단 모델을 최종 생성한다(S179).

[수학식 3]

바람직하게, 예상 정상 전화번호를 스팸 전화번호로 판단하는 실수는 더 치명적일 수 있기 때문에 예상 정상 전화번호를 정상 전화번호로 판단하는 것이 예상 스팸 전화번호를 스팸 전화번호로 판단하는 것보다 더 중요하다. 따라서 최종 스팸 판단 모델을 생성시 전체 정확도는 정상 판단 정확도에 할당되는 가중치가 스팸 판단 정확도에 할당되는 가중치보다 더 크게 계산되는 것을 특징으로 한다.

한편, 상술한 본 발명의 실시 예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장 매체(예를 들어, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장 매체를 포함한다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

110: 통화 이력 데이터베이스 130: 스팸 전화 데이터베이스
150: 분류부 170: 스팸 확인 인자 생성부
190: 모델 생성부 191: 생성 제어부
193: 신경망 알고리즘 195: 정확도 계산부

Claims

스팸 전화 데이터베이스의 스팸 전화번호와 통화 이력 데이터베이스의 전화 번호를 비교하여 상기 통화 이력 데이터베이스의 전화번호를 예상 스팸 전화번호와 예상 정상 전화번호로 분류하는 단계;
통화 이력 데이터베이스에서 통화 이력 정보로부터 상기 예상 스팸 전화번호의 스팸 확인 인자와 상기 예상 스팸 전화번호의 스팸 확인 인자를 생성하는 단계; 및
상기 예상 스팸 전화번호의 스팸 확인 인자와 상기 예상 정상 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 입력하여 상기 예상 스팸 전화번호를 스팸 전화번호로 판단하거나 상기 예상 정상 전화번호를 정상 전화번호로 판단하는 전체 정확도(TR)가 임계 정확도 이상이 되도록 상기 신경망 알고리즘의 은닉 노드와 가중치를 변경하여 스팸 판단 모델을 생성하는 단계를 포함하며,
상기 전체 정확도(TR)는 아래의 수학식(1)에 의해 계산되며,
[수학식 1]

여기서 α는 스팸 판단 정확도에 할당된 가중치이고, β는 정상 판단 정확도에 할당된 가중치이며, SR은 스팸 판단 정확도이고 ER은 정상 판단 정확도이며,
상기 정상 판단 정확도에 할당된 가중치는 상기 스팸 판단 정확도에 할당된 가중치보다 크며,
상기 스팸 확인 인자는
상기 통화 이력 데이터베이스에서 통화 이력으로부터 계산한 각 전화번호별 단위시간 동안 전체 호의 발신 건수, 전화번호별 상기 단위시간 동안 발신 호의 평균 통화 시간 및 전화번호별 상기 단위시간 동안 호의 발신일이 주말인지 또는 평일인지를 나타내는 구분 식별자인 것을 특징으로 하는 스팸 전화번호의 판단 방법.
제 1 항에 있어서, 상기 전체 정확도는
상기 예상 스팸 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 입력하여 상기 예상 스팸 전화번호를 스팸 전화번호로 판단하는 스팸 판단 정확도를 계산하는 단계;
상기 예상 정상 전화번호의 스팸 확인 인자를 신경망 알고리즘의 입력 노드에 입력하여 상기 예상 정상 전화번호를 정상 전화번호로 판단하는 정상 판단 정확도를 계산하는 단계;
상기 스팸 판단 정확도가 임계 스팸 판단 정확도를 초과하고 상기 정상 판단 정확도가 임계 정상 판단 정확도를 초과하는지 판단하는 단계; 및
상기 스팸 판단 정확도가 임계 스팸 판단 정확도를 초과하고 상기 정상 판단 정확도가 임계 정상 판단 정확도를 초과하는 경우, 상기 스팸 판단 정확도와 상기 정상 판단 정확도를 조합하여 전체 정확도를 계산하는 단계를 통해 계산되는 것을 특징으로 하는 스팸 전화번호의 판단 방법.
제 2 항에 있어서,
상기 스팸 판단 정확도는 상기 예상 스팸 전화번호를 스팸 전화번호로 판단하는 확률이고, 상기 정상 판단 정확도는 상기 예상 정상 전화번호를 정상 전화번호로 판단하는 확률인 것을 특징으로 하는 스팸 전화번호의 판단 방법.
제 3 항에 있어서,
상기 스팸 판단 정확도(SR)는 아래의 수학식(2)에 의해 계산되며,
[수학식 2]

여기서 N_sn은 상기 신경망 알고리즘에 적용되는 전체 예상 스팸 전화번호의 수이며, N_st는 상기 전체 예상 스팸 전화번호 중 예상 스팸 전화번호를 스팸 전화번호로 판단한 예상 스팸 전화번호의 수이며,
상기 정상 판단 정확도(ER)는 아래의 수학식(3)에 의해 계산되며,
[수학식 3]

여기서 N_en은 상기 신경망 알고리즘에 적용되는 전체 예상 정상 전화번호의 수이며, N_st는 상기 전체 예상 정상 전화번호 중 예상 정상 전화번호를 정상 전화번호로 판단한 예상 정상 전화번호의 수 것을 특징으로 하는 스팸 전화번호의 판단 방법.
삭제
제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 스팸 확인 인자는
상기 통화 이력 데이터베이스에서 통화 이력으로부터 계산한 각 전화번호별 단위시간 동안 전체 호의 발신 건수, 전화번호별 상기 단위시간 동안 발신 호의 평균 통화 시간 및 전화번호별 상기 단위시간 동안 호의 발신일이 주말인지 또는 평일인지를 나타내는 구분 식별자 중 적어도 어느 하나인 것을 특징으로 하는 스팸 전화번호의 판단 방법.
제 6 항에 있어서, 상기 스팸 전화번호의 판단 방법은
상기 통화 이력 데이터베이스에 신규 전화번호가 등록되는 경우, 상기 신규 전화번호의 단위시간 동안 전체 호의 발신 건수, 호의 평균 통화 시간 및 구분 식별자를 상기 스팸 판단 모델에 적용하여 상기 신규 전화번호가 스팸 전화번호인지 판단하는 단계를 더 포함하는 것을 특징으로 하는 스팸 전화번호의 판단 방법.