KR102005420B1

KR102005420B1 - 전자메일 저자 분류 방법 및 장치

Info

Publication number: KR102005420B1
Application number: KR1020180003723A
Authority: KR
Inventors: 최창희; 이화성; 정일훈; 유찬곤; 윤호상
Original assignee: 국방과학연구소
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2019-07-30
Also published as: US20190213505A1; US11321630B2; KR20190085629A

Abstract

본 발명은 전자메일 저자 분류를 위한 학습 기술에 관한 것으로, 전자메일의 속성 헤더(header) 내의 적어도 하나의 헤더 필드 정보를 분석하고, 상기 적어도 하나의 헤더 필드 정보 각각으로부터 상기 전자메일의 저자(authorship)와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 정보 분석부; 상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 정보 변환부; 및 상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 학습 모델부를 포함할 수 있다.

Description

전자메일 저자 분류 방법 및 장치 {METHOD AND APPARATUS FOR PROVIDING E-MAIL AUTHORSHIP CLASSIFICATION}

본 발명은 전자메일 저자 분류 기술에 관한 것이다.

기존의 전자메일 분류 기법은 데이터 마이닝(data mining)에서 사용했던 보편적인 특징점을 주로 사용하여 저자를 분류하거나, 전자메일의 특성을 분류하는 방식이 대부분이다.

이러한 방식은 보안 전문가가 수동으로 전자메일의 헤더를 분석해야 하기 때문에 분석 시간이 오래 걸리고 객관성을 유지하기 어려운 단점이 있다. 또한, 데이터 마이닝 기법을 전자메일 본문에만 적용하는데 그치고 있어서 전자메일을 분류하는 환경이 제한적이다.

한국공개특허 제2005-0111566호 (2005.11.25 공개)

본 발명의 실시예에서는, 전자메일의 헤더(header)를 분석하여 보낸 사람을 분류함으로써 전자메일의 빠른 분석이 가능한 전자메일 저자 분류 기술을 제안하고자 한다.

본 발명의 실시예에서는, 전자메일의 헤더로부터 전자메일의 저자를 확인할 수 있는 특성 정보를 추출하고 이를 분류 학습 알고리즘에 적용함으로써, 주어진 전자메일의 수가 적거나 특징 정보들이 다양한 경우에도 효율적으로 전자메일의 저자를 분류할 수 있는 기술을 제안하고자 한다.

본 발명이 해결하고자 하는 과제는 상기에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재들로부터 본 발명이 속하는 통상의 지식을 가진 자에 의해 명확하게 이해될 수 있을 것이다.

본 발명의 실시예에 따르면, 전자메일의 속성 헤더(header) 내의 적어도 하나의 헤더 필드 정보를 분석하고, 상기 적어도 하나의 헤더 필드 정보 각각으로부터 상기 전자메일의 저자(authorship)와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 정보 분석부; 상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 정보 변환부; 및 상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 학습 모델부를 포함하는 전자메일 저자 분류 장치를 제공할 수 있다.

여기서, 상기 정보 분석부는, 상기 특징점 필드 정보를 지역(Location) 정보, 언어(Language) 정보, 시간(Time) 정보 및 시스템(System) 정보로 분류할 수 있다.

또한, 상기 정보 변환부는, 상기 특징점 필드 정보를 범주형(Categorical) 또는 수치형(Numerical)으로 변환하여 상기 특징점 데이터 셋을 생성할 수 있다.

또한, 상기 정보 분석부는, 상기 지역 정보 내의 국가(Country), 위도(Latitude), 경도(Longitude), 타임존(Timezone) 중 적어도 하나로 상기 특징점 필드 정보를 분류하거나, 상기 언어 정보 내의 압축 방식(Encoding), 지원 언어(Accept-Language), 콘텐트 언어(Content-Language), 문자-셋(Charset) 중 적어도 하나로 상기 특징점 필드 정보를 분류하거나, 상기 시간 정보 내의 날짜(Date), 주(Weekdays/Weekend), 업무 시간(Official hours), 변동 타입(Shift type) 중 적어도 하나로 상기 특징점 필드 정보를 분류할 수 있다.

또한, 상기 학습 모델부는, 상기 특징점 데이터 셋을 n개의 샘플링 데이터로 분할하는 샘플링부; 상기 n개의 샘플링 데이터 각각에 대해 학습 알고리즘을 적용하여 n개의 분류기 데이터를 생성하는 학습 및 분류부; 및 상기 n개의 분류기 데이터를 결합하여 상기 분류 모델을 생성하는 모델 결합부를 포함할 수 있다.

또한, 상기 학습 알고리즘은, 배깅(Bagging) 분류 알고리즘을 포함할 수 있다.

또한, 임의의 전자메일에 상기 분류 모델을 적용하여 상기 임의의 전자메일의 저자를 분류하는 저자 분류기를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 전자메일의 속성 헤더 내의 적어도 하나의 헤더 필드 정보를 분석하는 단계; 상기 적어도 하나의 헤더 필드 정보 각각으로부터 상기 전자메일의 저자와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 단계; 상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 단계; 및 상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 단계를 포함하는 전자메일 저자 분류를 위한 학습 장치의 학습 방법을 제공할 수 있다.

본 발명의 실시예에 의하면, 수 많은 APT(Advanced Persistent Thread) 공격을 자동으로 사용자 별로 분류하여, 공격 그룹을 빠른 시간 내에 분석할 수 있는 것이 가능해진다. 또한, 보안 전문가가 미처 인지하지 못했던 부분을 기계 학습 등을 통해 새롭게 발견할 가능성도 존재한다.

도 1은 본 발명의 실시예에 따른 전자메일 저자 분류를 위한 학습 장치의 블록도이다.
도 2 내지 도 5는 본 발명의 실시예에 따른 전자메일 저자 분류를 위한 필드 정보 테이블을 예시한 도면이다.
도 6은 도 1의 학습 모델부의 상세 도면이다.
도 7은 본 발명의 실시예에 따른 전자메일 저자 분류를 위한 학습 방법을 예시적으로 설명하는 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명은 본 발명의 실시예들을 설명함에 있어 실제로 필요한 경우 외에는 생략될 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

최근 들어, 정부 기관의 지원을 받는 것으로 추정되는 정상급 APT(Advanced Persistent Thread) 공격이 늘어나고 있다. APT의 첫 공격 벡터는 대부분 전자메일을 사용한 스피어 피싱(spear phishing)이 활용되고 있는 추세이다. APT 공격자들은 오랜 기간 동안 목표에 대해서 조사하고, 이를 기반으로 사회 공학적 기법을 활용하기 때문에 정상적인 전자메일과 피싱 전자메일을 구별하는 것은 쉽지 않다. 더욱이, 피해자의 개인정보를 활용한다면 스팸 메일에 걸러지지 않을 확률이 높고, 피해자는 피싱 메일의 유무를 판단하기가 매우 어렵다.

물리적인 공격과는 다르게, 사이버 공격의 흔적은 손쉽게 안티 포렌식(Anti-Forensic) 기법에 의해 제거가 가능하다. 이러한 특성을 이용하여 공격자들은 자신의 신원과 관련된 정보를 지우는데 많은 공을 들이고 있으며, 심지어 잘못된 정보를 심어 혼동을 유발한다. 더욱이, 사이버 공간으로 전장이 확대됨에 따라 정상급 APT 공격이 늘어나고 있는 추세이며, 이를 분석해야 하는 보안 전문가의 수는 턱없이 부족한 실정이다.

과거, 이러한 문제에 대응하기 위해서, 대부분의 연구는 보안 전문가가 일일이 공격 전자메일을 분석하는 쪽으로 진행되었다. Guo 연구팀은 전자메일의 헤더를 포렌식 관점에서 분석하였다. 그들은 received 필드로부터 MUA(Mail User Agent)와 MTA(Mail Transfer Agent)의 순서 및 정보를 추출하였다. 이를 통해 전자메일을 보낸 사람의 대략적인 주소와 전자메일 전달 경로 등을 파악할 수 있다. 그들은 또한 message -ID 필드로부터 전자 메일 송수신 프로그램에 대한 정보를 분석하였다. Outlook이나 Thunderbird와 같은 전자메일 송수신 프로그램의 종류와 버전에 따라 고유의 message-ID를 가지는 점에 착안한 분석 방법이다. Choi 연구팀은 연구의 초점을 저자 프로파일링에 맞추고, 그 사람의 특징을 나타낼 수 있는 항목들을 지역, 언어, 시간, 시스템으로 나눠 이에 해당하는 전자메일 헤더 항목을 분석하였다. 위 연구팀들의 연구는 전자메일의 헤더에서 저자의 정보를 추론할 수 있는 항목을 분석할 수는 있으나, 보안 전문가가 수동으로 분석해야 하는 단점이 존재한다.

Alazab 연구팀은 스팸 메일에 대해서 저자 분류를 할 수 있는 방법에 대해 제시하였다. 그들은 전자메일의 헤더와 텍스트에 NUANCE(N-gram unsupervised Automated Natural Cluster Ensemble) 기법을 적용하여 스팸 메일을 분류하였다. Alsmadi 연구팀은 개인 전자메일로부터 데이터베이스를 구축하였다. 그들은 N-gram, 단어의 유사도 등으로부터 특징점을 추출하였고, 이를 분류 및 군집화 알고리즘의 데이터로 활용하였다. Schmid 연구팀은 데이터 마이닝 기법을 전자메일 텍스트에 적용하였다. 그들은 문체의 특성(stylometric)을 이용한 특징점을 추출하고 분류 알고리즘에 이용하였다. 그들이 제안한 CMARAA(Classification by Multiple Association Rule for Authorship Attribution)는 저자를 분류하는데 있어 높은 정확도를 보여주었다. Iqbal 연구팀은 어휘, 구문, 구조, 특정 영역의 특성을 반영한 특징점을 전자메일 본문으로부터 419개 추출하여 3가지 군집화 알고리즘을 적용하였다.

위 연구들은 저자를 특정 짓는 것에 대한 것이 아닌 분류에 초점을 맞추고 있으며, 특징점 또한 스팸 메일 분류나, 광고메일, 프로모션과 같이 메일의 성격을 분류하는데 그 궁극적인 목적이 있다. 또한, 대부분 기존 데이터 마이닝 기법을 전자메일 본문에만 적용하는데 그치고 있는 것이 한계이다.

본 발명의 실시예는, 전자메일의 헤더(header)를 분석하여 보낸 사람을 분류함으로써 전자메일의 빠른 분석이 가능한 전자메일 저자 분류 기술을 제안하고자 한다. 특히, 본 발명의 실시예에서는, 전자메일의 헤더로부터 전자메일의 저자를 확인할 수 있는 특성 정보를 추출하고 이를 분류 학습 알고리즘에 적용함으로써, 주어진 전자메일의 수가 적거나 특징 정보들이 다양한 경우에도 효율적으로 전자메일의 저자를 분류할 수 있는 기술을 제안하고자 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 전자메일 저자 분류를 위한 학습 장치에 대한 블록도이다.

도 1의 전자메일 저자 분류 장치(10)는 정보 분석부(100), 정보 변환부(200) 및 학습 모델부(300)를 포함할 수 있으며, 필요에 따라 저자 분류기(12)를 더 포함할 수 있다.

도 1에 도시한 바와 같이, 정보 분석부(100)는 전자메일의 속성 헤더(header)를 입력 받고, 속성 헤더 내의 적어도 하나의 헤더 필드 정보를 분석할 수 있다.

또한, 정보 분석부(100)는 적어도 하나의 헤더 필드 정보 각각으로부터 전자메일의 저자(authorship)와 관련된 적어도 하나의 특징점 필드 정보를 추출할 수 있다..

또한, 정보 분석부(100)는 이러한 특징점 필드 정보를 지역(Location) 정보, 언어(Language) 정보, 시간(Time) 정보 및 시스템(System) 정보와 같은 특징점 분류 필드 정보들로 분류할 수 있다.

이러한 헤더 필드 정보, 특징점 필드 정보, 특징점 분류 필드 정보는 도 2에 예시한 바와 같다.

도 2에 예시한 바와 같이, 헤더 필드 정보는 임의의 전자메일의 속성 헤더를 분석하여 파악될 수 있으며, 헤더 필드(20)에 테이블화될 수 있다. 헤더 필드(20)에 테이블화되는 헤더 필드 정보는, 예를 들어 IP, Received, Date, Content-Transfer-Encoding, Accept-Language, Content-Language, From, Subject 등의 문자 정보로 표현될 수 있다.

또한, 이러한 헤더 필드 정보로부터 전자메일의 저자와 관련된 특징점 필드 정보는 특징점 필드(22)에 테이블화될 수 있다. 특징점 필드 정보는, 예를 들어 국가(Country), 위도(Latitude), 경도(Longitude), 타임존(Timezone(IP)), Timezone(Recv.), Timezone(Date), 압축 방식(Encoding), 지원 언어(Accept-Language), 콘텐트 언어(Content-Language), 문자-셋(Charset)(From), Charset(Subject), Charset(Recv.), 날짜(Date), 주(Weekdays/weekend), 업무 시간(Official hours), 변동 타입(Shift type) 등의 문자 정보로 표현될 수 있다.

이러한 특징점 필드 정보들은 본 발명의 실시예에 따라 지역(Location) 정보, 언어(Language) 정보, 시간(Time) 정보 및 시스템(System) 정보로 분류될 수 있으며, 특징점 분류 필드(24)에 테이블화될 수 있다.

지역에 대한 정보는 공격자 그룹을 추정하는데 있어 매우 중요한 정보이다. 지역 정보는 Received, X-Received, Date 필드 등에서 추출하였다. 보낸 사람의 IP 주소는 Received, X-Received, X-Originating-IP, X-ClientIP 와 같은 항목에서 추출하였다. Received 항목은 메일이 전달될 때 아래에서 위 순서로 로그가 남는데, 가장 밑에 있는 정보가 보낸 사람의 IP와 가장 가깝다. 역순으로 IP 주소를 탐색하며, 만약 모든 Received 항목에 IP주소가 없는 경우 다른 항목에서 IP를 검색할 수 있다.

이러한 IP 주소 값 자체는 분류 알고리즘에 사용하기에는 부적합하다. 지역에 따라 연속적으로 할당되어 있지 않아서 연속 정수로 사용하기가 어렵다. 또한, 지역과 IP사이의 매핑은 수시로 바뀌기 때문에, 범주형으로 다루기도 어렵다. 또한, 43억 가지의 경우가 있으므로, 설령 범주형으로 다룰 수 있다 해도 연산이 불가능에 가깝다.

이러한 문제를 해결하기 위해 본 발명에서는 IP로부터 국가, 도시, 위도, 경도, 타임존 등의 특징점 필드 정보를 추출하여 특징점으로 선정하였다. 2017년도 기준 195개의 나라 표기가 가능하고 이것은 범주형으로 사용하는 것이 가능하다. 지역 정보는 학습에 사용될 전자메일의 수가 많은 경우에는 포함하는 것이 유리하고 그렇지 않은 경우에는 연산 효율 및 과적합 우려로 인해 사용하지 않는 것이 좋다. 타임존은 특정 나라의 시간 대역으로, 경도 기준의 나라를 알 수 있다. 특히 시스템에서 운영체제나 프로그램을 설치할 때 타임-존을 선택하는 경우가 많고, 일부는 구매한 프로그램의 지역에 따라 자동으로 입력되는 경우도 있다. 예를 들면, 윈도우 운영체제 한국어판을 구매하여 설치한다면, 기본적으로 타임-존은 서울로 설정된다. 이러한 정보는 IP로부터도 추출할 수 있지만, Received 항목에 기본적으로 포함되어 있다. 이 정보는 연속형이나, 범주형 둘 다 사용 가능한 유용한 정보이다.

언어는 송신자의 출신과 살아온 과정을 반영한 결과물이다. 언어 정보는 보안 전문가들이 귀중하게 생각하는 정보 중 하나이다. 이것은 Content-Type, Encoding, Accept-Language, From, To, Subject 등과 같은 항목에서 추출이 가능하다. 설정 및 사용된 언어가 보낸 사람의 출신을 암시할 수도 있지만, 피해자가 사용하는 언어에 초점이 맞춰질 수도 있다. APT 공격자들은 기본적으로 피해자가 사용하고 있는 환경을 시뮬레이션 하기 위해서 동일하게 환경을 맞추기 때문이다. 또한, 사회공학적인 기법을 사용하기 위해서는 피해자가 이해하고 잘 속을 수 있는 언어를 능숙하게 사용하는 것은 필수 조건이다. Content-Type 항목에는 여러 정보가 포함되어 있지만, 그 중 하위 항목인 Charset이 가리키는 정보는 본 특허 목적을 달성하는데 큰 도움이 된다. 이 정보는 본문에 사용된 사용자의 언어(예를 들면 us-ascii)를 의미한다. 특정 언어의 경우, 그 국가의 키보드를 사용하지 않으면 입력 불가능한 것도 있기 때문에, 역으로 키보드 배열을 추론할 수 있고, 이로부터 국가를 추론하는 것도 가능하다. RFC2978에 따르면 257가지의 charset 이 현재 통용되고 있다. Charset이 문자와 코드와의 할당 관계라고 하면, Encoding 항목은 할당된 코드를 전송하거나 저장할 때 사용하는 규칙이다. 이것 또한 사용자의 환경을 추론할 수 있는 좋은 추적 정보가 될 수 있다. Content-Language는 원래 HTTP 헤더에 존재하던 항목으로, 표시 가능한 언어의 종류를 나타낸 것이다. Accept-Language는 Content-Language의 응답으로, 가능한 언어에 대한 것을 나타낸다. 이것 또한 전자 메일 송신자가 주로 사용하는 언어를 나타낸다. 영어권에서는 주로 볼 수 없지만, 그 외 언어권에서는 보낸 사람, 보내는 사람, 제목 등에 영어 외의 언어를 사용하는 경우가 있다. 특히, 메일 주소 옆에 별칭을 붙여서 사용하는 경우가 많은데, 이를 수신자 시스템에서 해독하기 위해서는 인코딩 정보가 필요하여 부가적으로 기재하는 경우가 많다. 이를 활용하면, 수신자가 사용하는 언어를 추정할 수 있다.

인간이 일하는 시간은 그 나라의 일과시간과 대략 일치하기 때문에, 이를 잘 활용하면 전자 메일 저자의 정보를 얻는 것이 가능하다. Date 항목을 통해 공격이 진행된 캠페인을 알 수 있다. 전통적인 무기와는 다르게 사이버 공격 무기는 상대방이 분석하고 대응하면 즉시 무력화되며, APT 공격으로써 그 가치가 없어진다. 탐지를 회피하고, 상대방에게 분석될 가능성을 줄이기 위해 짧은 기간 공격을 감행하는데, 이 공격기간을 캠페인이라고 부른다. Date는 해당 전자메일이 송신하는 날짜를 나타내기 때문에, 이러한 캠페인 별로 분류가 가능하다. 이 항목을 통해 보낸 나라의 공휴일을 파악하는 것이 가능하다. 국가에서 지원하는 것으로 추정되는 APT 공격의 경우 정규 직장을 가지고 체계적으로 개발할 것으로 유추되는데, 이럴 경우 공휴일은 쉴 가능성이 높다. 여기에는 시간 정보도 포함되는데, 우선 시간 정보를 이용하면, 송신자의 근무시간을 파악할 수 있다. 또한 점심시간, 저녁 식사시간도 추론이 가능하며, 야간 근무 여부도 파악 할 수 있다. 실제로 모 국가 악성 공격을 분석한 결과, 거의 대부분의 활동이 근무시간에 이루어진 것으로 파악되었다.

전자 메일 헤더에는 송신자의 시스템에 관한 정보도 들어있는 경우가 있다. User-Agent라는 항목에는 사용자가 사용하는 운영체제 종류와 버전, 사용하는 웹 브라우저의 종류, 웹브라우저 엔진 종류, 사용하는 CPU, 이메일 클라이언트 프로그램 등 많은 정보가 들어있다. 이를 활용하면 작업 환경을 유추할 수 있기 때문에, 사용자를 분류하는데 큰 도움이 된다. 추가적으로 소프트웨어 버전, CPU 등의 정보를 토대로 하드웨어 구입 시기 등의 정보를 추가적으로 유추가 가능하다.

다시 도 1을 참조하면, 정보 변환부(200)는 정보 분석부(100)를 통해 추출된 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환할 수 있다. 이러한 과정은 특징점 필드 정보를 분류 모델 알고리즘에 적용할 수 있도록 후처리하는 과정을 포함할 수 있다.

정보 변환부(200)는 정보 분석부(100)를 통해 추출된 특징점 필드 정보를, 예를 들어 범주형(Categorical) 또는 수치형(Numerical)으로 변환하여 상기 특징점 데이터 셋을 생성할 수 있다. 이와 같이 특징점 필드 정보가 테이블화되는 특징점 타입(26) 및 범위(28)는 도 2에 도시한 바와 같다.

Country 항목의 경우 현재 195가지이기 때문에, 범주형으로 가공하였다. latitude와 longitude는 수치형으로 사용하였으며, 위치를 정확하게 나타내는 것이 가능하다. Timezone의 경우에는 경도의 수치적 비교가 가능하기 때문에 수치형으로 가공하였다. IP, Received, Date 항목에서 각각 추출하여 가공하였다. Encoding, Accept-language, Content-language는 나라와 마찬가지로 범주형으로 가공하였다. From, Subject, Received 항목에서 추출한 Charset 항목들도 범주형으로 가공하였다. Date의 경우에는 정수형으로 변환하여 수치형으로 가공하였다.

이렇게 변환한 값을 토대로 평일 유무, 근무시간, 작업시간 대 등으로 정보량을 줄여 범주형으로 가공하였다. 추가적으로 각 국가에 해당하는 평일 유무, 근무시간, 작업 시간을 각각 정의하여 특징점으로 사용하는 것도 가능하다. 이는 도 3 내지 도 5에 예시한 바와 같다.

학습 모델부(300)는 정보 변환부(200)에서 변환된 특징점 데이터 셋에 대하여 학습을 수행하여 전자메일을 저자별로 분류하기 위한 분류 모델을 생성할 수 있다. 이때, 전자메일 저자 분류 장치(10)로 입력되는 전자메일은, 예를 들어 분류 모델의 학습을 위한 학습용 전자메일일 수 있다. 따라서, 학습 모델부(200)는 학습용 전자메일의 특징점 데이터 셋을 학습하여 분류 모델을 생성할 수 있다.

도 6은 이러한 학습 모델부(300)를 예시적으로 나타낸 도면이다.

도 6에 도시한 바와 같이, 본 발명의 실시예에 따른 학습 모델부(300)는, 분류 학습 모델, 예를 들어 배깅(Bagging) 분류 학습 모델이 적용될 수 있으며, 특징점 데이터 셋을 n개의 샘플링 데이터로 분할하는 샘플링부(302), n개의 샘플링 데이터 각각에 대해 학습 알고리즘을 적용하여 n개의 분류기 데이터를 생성하는 학습 및 분류부(304), n개의 분류기 데이터를 결합하여 분류 모델을 생성하는 모델 결합부(306)를 포함할 수 있다.

배깅 분류 학습 모델이란, 훈련용 데이터 집합으로부터 크기가 같은 표본을 단순 확률 방식으로 여러 번 반복 추출하여 각각에 대한 분류기를 생성하고, 생성된 분류기들의 결과를 종합하여 의사결정을 내리는 모델을 의미한다. 여기서, 배깅은, Bootstrap Aggregating의 축약어이다.

한편, 본 발명의 실시예는, 임의의 전자메일에 학습 모델부(300)의 분류 모델을 적용하여 임의의 전자메일의 저자를 분류하는 저자 분류기(12)를 더 포함할 수 있다.

도 7은 본 발명의 실시예에 따른 전자메일 저자 분류를 위한 학습 방법을 예시적으로 설명하는 흐름도이다.

본 발명의 실시예에 따른 학습 방법은, 정보 분석부(100)가 전자메일의 속성 헤더 내의 적어도 하나의 헤더 필드 정보를 분석하는 단계(S100); 정보 분석부(100)가 적어도 하나의 헤더 필드 정보 각각으로부터 전자메일의 저자와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 단계(S102); 정보 변환부(200)가 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 단계(S104); 및 학습 모델부(300)가 특징점 데이터 셋에 대하여 학습을 수행하여 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 단계(S106)를 포함할 수 있다.

본 발명의 실시예에 따른 저자 분류 방법은, 임의의 전자 메일에 상술한 분류 모델을 적용하여 임의의 전자메일의 저자를 분류할 수 있다.

이상 설명한 바와 같이, 본 발명의 실시예에 의하면, 전자메일의 헤더를 분석하여 보낸 사람을 분류함으로써 전자메일의 빠른 분석이 가능하며, 전자메일의 헤더로부터 전자메일의 저자를 확인할 수 있는 특성 정보를 추출하고 이를 분류 학습 알고리즘에 적용함으로써, 주어진 전자메일의 수가 적거나 특징 정보들이 다양한 경우에도 효율적으로 전자메일의 저자를 분류할 수 있는 기술을 구현한 것이다.

한편, 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 기록매체(또는 메모리) 등에 저장되는 것도 가능하므로, 그 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 기록매체(또는 메모리)에 저장된 인스트럭션들은 블록도의 각 블록에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 적어도 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

10: 전자메일 저자 분류 장치
100: 정보 분석부
200: 정보 변환부
300: 학습 모델부

Claims

전자메일의 속성 헤더(header) 내의 적어도 하나의 헤더 필드 정보를 분석하고, 상기 적어도 하나의 헤더 필드 정보의 IP로부터 상기 전자메일의 저자(authorship)와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 정보 분석부;
상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 정보 변환부; 및
상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 학습 모델부를 포함하고,
상기 정보 분석부는,
상기 특징점 필드 정보를 지역(Location) 정보, 언어(Language) 정보, 시간(Time) 정보 및 시스템(System) 정보로 분류하면서,
상기 지역 정보 내의 국가(Country), 위도(Latitude), 경도(Longitude), 타임존(Timezone) 중 적어도 하나로 상기 특징점 필드 정보를 분류하거나,
상기 언어 정보 내의 압축 방식(Encoding), 지원 언어(Accept-Language), 콘텐트 언어(Content-Language), 문자-셋(Charset) 중 적어도 하나로 상기 특징점 필드 정보를 분류하거나,
상기 시간 정보 내의 날짜(Date), 주(Weekdays/Weekend), 업무 시간(Official hours), 변동 타입(Shift type) 중 적어도 하나로 상기 특징점 필드 정보를 분류하며,
상기 학습 모델부는,
상기 특징점 데이터 셋을 n개의 샘플링 데이터로 분할하는 샘플링부;
상기 n개의 샘플링 데이터 각각에 대해 학습 알고리즘을 적용하여 n개의 분류기 데이터를 생성하는 학습 및 분류부; 및
상기 n개의 분류기 데이터를 결합하여 상기 분류 모델을 생성하는 모델 결합부를 포함하는
전자메일 저자 분류 장치.
삭제
제 1 항에 있어서,
상기 정보 변환부는,
상기 특징점 필드 정보를 범주형(Categorical) 또는 수치형(Numerical)으로 변환하여 상기 특징점 데이터 셋을 생성하는
전자메일 저자 분류 장치.
삭제
삭제
제 1 항에 있어서,
상기 학습 알고리즘은, 배깅(Bagging) 분류 알고리즘을 포함하는
전자메일 저자 분류 장치.
제 1 항에 있어서,
임의의 전자메일에 상기 분류 모델을 적용하여 상기 임의의 전자메일의 저자를 분류하는 저자 분류기를 더 포함하는
전자메일 저자 분류 장치.
전자메일의 속성 헤더 내의 적어도 하나의 헤더 필드 정보를 분석하는 단계;
상기 적어도 하나의 헤더 필드 정보의 IP로부터 상기 전자메일의 저자와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 단계;
상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 단계; 및
상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 단계를 포함하고,
상기 추출하는 단계는,
상기 특징점 필드 정보를 지역 정보, 언어 정보, 시간 정보 및 시스템 정보로 분류하면서,
상기 지역 정보 내의 국가, 위도, 경도, 타임-존 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 언어 정보 내의 압축 방식, 지원 언어, 콘텐트 언어, 문자-셋 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 시간 정보 내의 날, 주, 업무 시간, 변동 타입 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계를 포함하며,
상기 생성하는 단계는,
상기 특징점 데이터 셋을 n개의 샘플링 데이터로 분할하는 단계;
상기 n개의 샘플링 데이터 각각에 대해 학습 알고리즘을 적용하여 n개의 분류기 데이터를 생성하는 단계; 및
상기 n개의 분류기 데이터를 결합하여 상기 분류 모델을 생성하는 단계를 포함하는
전자메일 저자 분류를 위한 학습 장치의 학습 방법.
삭제
제 8 항에 있어서,
상기 변환하는 단계는,
상기 특징점 필드 정보를 범주형 또는 수치형으로 변환하여 상기 특징점 데이터 셋을 생성하는
전자메일 저자 분류를 위한 학습 장치의 학습 방법.
삭제
삭제
제 8 항에 있어서,
상기 학습 알고리즘은, 배깅 분류 알고리즘을 포함하는
전자메일 저자 분류를 위한 학습 장치의 학습 방법.
전자메일의 속성 헤더 내의 적어도 하나의 헤더 필드 정보를 분석하는 단계;
상기 적어도 하나의 헤더 필드 정보의 IP로부터 상기 전자메일의 저자와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 단계;
상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 단계;
상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 단계; 및
임의의 전자메일에 상기 분류 모델을 적용하여 상기 임의의 전자메일의 저자를 분류하는 단계를 포함하고,
상기 추출하는 단계는,
상기 특징점 필드 정보를 지역 정보, 언어 정보, 시간 정보 및 시스템 정보로 분류하면서,
상기 지역 정보 내의 국가, 위도, 경도, 타임-존 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 언어 정보 내의 압축 방식, 지원 언어, 콘텐트 언어, 문자-셋 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 시간 정보 내의 날, 주, 업무 시간, 변동 타입 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계를 포함하며,
상기 생성하는 단계는,
상기 특징점 데이터 셋을 n개의 샘플링 데이터로 분할하는 단계;
상기 n개의 샘플링 데이터 각각에 대해 학습 알고리즘을 적용하여 n개의 분류기 데이터를 생성하는 단계; 및
상기 n개의 분류기 데이터를 결합하여 상기 분류 모델을 생성하는 단계를 포함하는
전자메일 저자 분류 방법.
전자메일의 속성 헤더 내의 적어도 하나의 헤더 필드 정보를 분석하는 단계;
상기 적어도 하나의 헤더 필드 정보의 IP로부터 상기 전자메일의 저자와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 단계;
상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 단계;
상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 단계; 및
임의의 전자메일에 상기 분류 모델을 적용하여 상기 임의의 전자메일의 저자를 분류하는 단계를 포함하고,
상기 추출하는 단계는,
상기 특징점 필드 정보를 지역 정보, 언어 정보, 시간 정보 및 시스템 정보로 분류하면서,
상기 지역 정보 내의 국가, 위도, 경도, 타임-존 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 언어 정보 내의 압축 방식, 지원 언어, 콘텐트 언어, 문자-셋 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 시간 정보 내의 날, 주, 업무 시간, 변동 타입 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계를 포함하며,
상기 생성하는 단계는,
상기 특징점 데이터 셋을 n개의 샘플링 데이터로 분할하는 단계;
상기 n개의 샘플링 데이터 각각에 대해 학습 알고리즘을 적용하여 n개의 분류기 데이터를 생성하는 단계; 및
상기 n개의 분류기 데이터를 결합하여 상기 분류 모델을 생성하는 단계를 포함하는
명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록 매체.
전자메일의 속성 헤더 내의 적어도 하나의 헤더 필드 정보를 분석하는 단계;
상기 적어도 하나의 헤더 필드 정보의 IP로부터 상기 전자메일의 저자와 관련된 적어도 하나의 특징점 필드 정보를 추출하는 단계;
상기 특징점 필드 정보를 학습 모델의 입력을 위한 특징점 데이터 셋으로 변환하는 단계;
상기 특징점 데이터 셋에 대하여 학습을 수행하여 상기 전자메일을 저자별로 분류하기 위한 분류 모델을 생성하는 단계; 및
임의의 전자메일에 상기 분류 모델을 적용하여 상기 임의의 전자메일의 저자를 분류하는 단계를 포함하고,
상기 추출하는 단계는,
상기 특징점 필드 정보를 지역 정보, 언어 정보, 시간 정보 및 시스템 정보로 분류하면서,
상기 지역 정보 내의 국가, 위도, 경도, 타임-존 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 언어 정보 내의 압축 방식, 지원 언어, 콘텐트 언어, 문자-셋 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계;
상기 시간 정보 내의 날, 주, 업무 시간, 변동 타입 중 적어도 하나로 상기 특징점 필드 정보를 분류하는 단계를 포함하며,
상기 생성하는 단계는,
상기 특징점 데이터 셋을 n개의 샘플링 데이터로 분할하는 단계;
상기 n개의 샘플링 데이터 각각에 대해 학습 알고리즘을 적용하여 n개의 분류기 데이터를 생성하는 단계; 및
상기 n개의 분류기 데이터를 결합하여 상기 분류 모델을 생성하는 단계를 포함하는
컴퓨터 판독 가능 기록 매체에 저장된 컴퓨터 프로그램.