KR20170071390A

KR20170071390A - Web 발신 문자 자동 분류 방법 및 시스템

Info

Publication number: KR20170071390A
Application number: KR1020160038116A
Authority: KR
Inventors: 한승욱; 장두수; 최용석
Original assignee: 한양대학교 산학협력단
Priority date: 2015-12-15
Filing date: 2016-03-30
Publication date: 2017-06-23

Abstract

Web 발신 문자 자동 분류 방법 및 시스템이 제시된다. 본 발명에서 제안하는 Web 발신 문자 자동 분류 방법은 수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계, 상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계, 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계를 포함한다.

Description

Web 발신 문자 자동 분류 방법 및 시스템{Method and System for Classifying Automatically Web Sending Text Message}

본 발명은 Web발신 문자의 내용인 자연어를 처리하여 분류하는 방법 및 시스템에 관한 것이다.

기존의 문자 메시지 처리 시스템은 주로 발신자 번호를 통해 이루어졌다. 때문에 해당 문자 내용에 대한 예측 혹은 필터링 또한 발신자의 번호에 근거하고 있었다. 따라서 문자 메시지를 두 사람이 주고 받은 대화식 구성을 염두하고 그래픽 인터페이스를 제공하고 있다. 문자 메시지 메인 화면에서는 분류를 발신자 번호 별로 이루어져 있고, 분류된 하나를 터치하게 되면 해당 발신자와 주고받았던 메시지의 내용이 시간의 순으로 출력되는 시스템이다.

Web 발신 문자는 기존의 문자보다 가격이 싸고 대량으로 보낼 수 있어서 최근에 광고, 홍보, 안내 등의 목적으로 많이 사용되고 있다. 한 사람이 하루에 평균 4~5개의 Web 발신문자를 받으며, 많을 때는 10개 이상이다. 또 발신자 번호를 마음대로 수정할 수 있어서 대부분의 Web 문자들은 의미 없는 번호나 집 전화번호로 오는 경우가 많다. 하지만 현재 스마트폰의 메시지(Message) 앱은 발신자 번호를 기준으로 문자를 나누고 있다. 때문에 발신번호를 통해 내가 원했던 정보가 담긴 문자를 다시 찾아보기가 힘들다. 또한 발신자 번호 수정이 가능하기 때문에, 번호만으로 이루어지던 스팸(spam) 차단이 제 기능을 할 수 없다. 즉, 발신번호를 통해 문자의 성질을 파악하는 과거방식은 Web 발신 문자에는 효과적이 않다.

실시예들은 Web 발신 문자 자동 분류 시스템 및 방법에 관하여 기술하며, 보다 구체적으로 Web발신 문자의 내용인 자연어를 처리해서 분류하는 기능을 수행한다. 다시 말해, Web발신 문자를 내용에 근거하여 카테고리 별로 나누어 주는 기술을 제공한다.

일 측면에 있어서, 본 발명에서 제안하는 Web 발신 문자 자동 분류 방법은 수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계, 상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계, 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계를 포함한다.

수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계는 미리 설정된 단어들을 슈퍼키워드로서 각각의 카테고리에 할당되고, 수신된 Web 발신 문자의 내용 중 상기 슈퍼키워드를 포함하고 있는지 판단한다.

수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계는 수신된 Web 발신 문자를 토큰 스트림으로 전환하고, 전환된 스트림에 미리 정해진 키워드, 슈퍼키워드, 또는 URL을 포함하고 있는지 분석한다.

텍스트 성질을 분석하기 위한 Web 발신 문자의 벡터를 생성하기 위해 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터를 생성한다.

상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계는 수신된 Web 발신 문자의 내용 중 카테고리에 할당된 슈퍼키워드를 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류한다.

하나의 Web 발신 문자의 내용 중 복수의 슈퍼키워드들이 포함되어 있는 경우, 슈퍼키워드들의 빈도수를 카운트하여 가장 많은 빈도수를 가진 카테고리로 분류하고, 상기 슈퍼키워드들의 빈도수가 동일할 경우, 사용자로부터 입력 받은 카테고리로 분류한다.

상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계는 수신된 Web 발신 문자의 전환된 토큰 스트림에 미리 정해진 키워드, 또는 URL을 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류한다.

상기 해당 카테고리로 분류된 Web 발신 문자의 토큰 스트림을 상기 해당 카테고리의 벡터와 연관시키고, 중복되는 토큰 스트림은 통합한다.

미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터와 카테고리의 벡터와의 유사도를 비교하여 가장 높은 유사도를 갖는 카테고리로 Web 발신 문자를 분류하고, 해당 카테고리에 Web 발신 문자의 프로파일을 업데이트한다.

상기 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계는,

상기 분류된 Web 발신 문자에 대하여 사용자가 다른 카테고리로의 이동을 요청하거나 또는 이동을 요청하지 않는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다.

상기 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계는 카테고리에 대하여 사용자가 새로운 키워드를 지정하는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 Web 발신 문자 자동 분류 시스템은 수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 메시지 분석부, 상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 카테고리 분류부, 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 피드백부를 포함한다.

상기 메시지 분석부는 미리 설정된 단어들을 슈퍼키워드로서 각각의 카테고리에 할당되고, 수신된 Web 발신 문자의 내용 중 상기 슈퍼키워드를 포함하고 있는지 판단한다.

상기 메시지 분석부는 수신된 Web 발신 문자를 토큰 스트림으로 전환하고, 전환된 스트림에 미리 정해진 키워드, 슈퍼키워드, 또는 URL을 포함하고 있는지 분석한다.

상기 메시지 분석부는 텍스트 성질을 분석하기 위한 Web 발신 문자의 벡터를 생성하기 위해 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터를 생성한다.

상기 카테고리 분류부는 수신된 Web 발신 문자의 내용 중 카테고리에 할당된 슈퍼키워드를 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류한다.

상기 카테고리 분류부는 하나의 Web 발신 문자의 내용 중 복수의 슈퍼키워드들이 포함되어 있는 경우, 슈퍼키워드들의 빈도수를 카운트하여 가장 많은 빈도수를 가진 카테고리로 분류하고, 상기 슈퍼키워드들의 빈도수가 동일할 경우, 사용자로부터 입력 받은 카테고리로 분류한다.

상기 카테고리 분류부는 수신된 Web 발신 문자의 전환된 토큰 스트림에 미리 정해진 키워드, 또는 URL을 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류한다.

상기 카테고리 분류부는 상기 해당 카테고리로 분류된 Web 발신 문자의 토큰 스트림을 상기 해당 카테고리의 벡터와 연관시키고, 중복되는 토큰 스트림은 통합하고, 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터와 카테고리의 벡터와의 유사도를 비교하여 가장 높은 유사도를 갖는 카테고리로 Web 발신 문자를 분류하고, 해당 카테고리에 Web 발신 문자의 프로파일을 업데이트한다.

상기 피드백부는 상기 분류된 Web 발신 문자에 대하여 사용자가 다른 카테고리로의 이동을 요청하거나 또는 이동을 요청하지 않는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트하고, 카테고리에 대하여 사용자가 새로운 키워드를 지정하는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다.

본 발명의 실시예들에 따르면 웹 발신 문자가 무분별하게 사용되는 가운데, 이 기능을 사용하면 문자들을 잘 정리할 수 있고 사용자는 원하는 정보를 놓치지 않고 전달 받을 수 있다.

도 1은 본 발명의 일 실시예에 따른 Web 발신 문자 자동 분류 과정을 설명하기 위한 전체 개요를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 Web 발신 문자 자동 분류 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 Web 발신 문자의 내용을 기반으로 카테고리를 분류하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 Web 발신 문자의 프로파일 벡터를 생성하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 Web 발신 문자의 메시지 벡터를 생성하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 Web 발신 문자의 프로파일 벡터와 메시지 벡터를 연관 및 통합시키는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 딕셔너리 파일을 만드는 과정을 성명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 Web 발신 문자의 벡터를 생성하여 카테고리의 벡터와 유사도를 측정하는 과정을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 Web 발신 문자를 최적의 카테고리로 분류하는 과정을 설명하기 위한 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 사용자의 행동 패턴을 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 Web 발신 문자의 이동에 따른 프로파일 업데이트에 대하여 설명하기 위한 도면이다.
도 12는 본 발명의 일 실시예에 따른 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 과정을 설명하기 위한 흐름도이다.
도 13은 본 발명의 일 실시예에 따른 Web 발신 문자 자동 분류 시스템의 구성을 나타내는 도면이다.
도 14는 본 발명의 일 실시예에 따른 카테고리 목록 및 분류된 Web 발신 문자를 나타내는 예시도이다.

제안하는 Web 발신 문자 자동 분류 방법 및 시스템은 Web발신 문자의 내용인 자연어를 처리해서 분류하는 기능을 수행한다. 즉, Web발신 문자를 내용에 근거하여 카테고리 별로 나누어 주는 기능을 한다. 또한, 기존의 문자 시스템이 사용하는 대화형식의 그래픽 인터페이스에서 벗어나, Web발신 문자를 위한 새로운 형식의 인터페이스를 제작한다. 기존의 발신자 번호를 중심으로 한 그래픽 인터페이스에서 탈피하고 카테고리를 중심으로 한 인터페이스를 제공한다. 또한, 발신번호가 아닌 문자의 내용을 기반으로 하여 해당 문자의 성질을 파악하는 기술을 구현하여 그 성질을 통해 알맞은 카테고리를 찾아 문자를 위치시키는 자동화 시스템을 구축한다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 Web 발신 문자 자동 분류 과정을 설명하기 위한 전체 개요를 나타내는 도면이다.

먼저, 메시지 분석 과정(Message Analyst flow)(110)에 대하여 설명한다. Web 발신 문자(111)가 디바이스에 도착하게 되면 Web 발신 문자 분류 시스템(Message Assistant System, MAS)(112)은 첫 번째로 문자의 내용을 분석(Message Analyst) 한다. 이러한 분석을 통해 해당 Web 발신 문자의 벡터(vector)를 얻을 수 있다. 그리고, 이미 만들어져 있던 카테고리의 벡터(Category Vector)(113)와의 유사도를 측정한다. 복수의 카테고리들(Category1, Category2, Category3...)(114) 중 가장 높은 유사도를 갖는 카테고리로 해당 Web 발신 문자를 이동시킨다.

다음으로 사용자 피드백 과정(User Feedback flow)(120)에 대하여 설명한다. 사용자(121)가 이미 분류된 문자에 대해 다른 카테고리로의 이동을 요청하면 Web 발신 문자 분류 시스템은 이를 사용자 피드백(122)으로 간주하여, Web 발신 문자 분류 시스템으로 피드백 정보를 전달(123)한다. 그리고, 카테고리 카테고리의 벡터에 피드백 정보를 반영한다. 만약 사용자가 분류된 문자를 다른 곳으로 재위치 시키는 행위를 하지 않으면 방금 전의 분류가 적합했다는 피드백으로 간주하여 이를 카테고리의 벡터에 반영한다.

도 2는 본 발명의 일 실시예에 따른 Web 발신 문자 자동 분류 방법을 설명하기 위한 흐름도이다.

제안하는 Web 발신 문자 자동 분류 방법은 수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계(210), 상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계(220), 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계(230)를 포함한다.

단계(210)에서, 수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석한다.

이때, 미리 설정된 단어들을 슈퍼키워드로서 각각의 카테고리에 할당되고, 수신된 Web 발신 문자의 내용 중 상기 슈퍼키워드를 포함하고 있는지 판단한다. 그리고, 수신된 Web 발신 문자를 토큰 스트림으로 전환하고, 전환된 스트림에 미리 정해진 키워드, 슈퍼키워드 또는 URL을 포함하고 있는지 분석한다.

텍스트 성질을 분석하기 위한 Web 발신 문자의 벡터를 생성하기 위해 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾는다. 그리고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터를 생성한다.

Web 발신 문자 분류 시스템(Message Assistant System, MAS)은 기본적으로 과거에 전달 받았던 Web발신 문자 메시지의 내용을 기반으로 모델을 만들어 저장할 수 있다. 그리고 모델이 표현하는 카테고리를 사용자가 직접 네이밍(naming)하고 새로운 메시지가 수신되었을 때, 저장된 모델을 바탕으로 그 메시지의 카테고리를 분류해주는 방식으로 동작한다.

모든 모델 기반 분류 시스템이 그러하듯, 최초의 모델을 만드는 상황에서 기반이 되는 메시지 정보가 부족한 경우가 있다. 예를 들어, 어떠한 메시지도 받지 않은 상태에서 모델을 만들어야 하는 경우 또는 모델을 막 만들기 시작한 경우가 해당된다. 이러한 경우, Web 발신 문자 분류 시스템(Message Assistant System, MAS)에서 콜드 스타트(Cold Start) 문제가 발생할 수 있다. 이러한 문제점을 해결하기 위해 각 카테고리 별로 '슈퍼키워드'를 둔다.

슈퍼키워드는 특정 단어로서 카테고리에 할당이 되면, 새로운 메시지가 해당 '슈퍼키워드'를 가지고 있을 때 무조건 메시지를 그 카테고리로 분류하는 것이다. 또한 하나의 카테고리에 슈퍼키워드로 다수의 단어를 지정할 수 있다.

이때 두 가지 문제점이 발생하게 된다. 첫 번째는 동일한 키워드를 여러 개의 카테고리가 슈퍼키워드로 가지는 것이다. 이 문제는 시스템 상으로 사용자가 동일한 키워드를 또 다른 카테고리의 슈퍼키워드로 할당하려고 할 때 시스템이 이를 감지하고 거부하도록 하여 해결한다.

두 번째는 한 메시지가 서로 다른 카테고리의 슈퍼키워드를 모두 가지는 경우이다. 즉, 메시지가 카테고리1의 슈퍼키워드인 슈퍼키워드1과 카테고리2의 슈퍼키워드인 슈퍼키워드2를 모두 가지고 있는 경우, 이 메시지가 가지고 있는 슈퍼키워드들의 빈도수를 카운트하여 가장 많은 빈도수를 가진 카테고리로 할당 시킨다.

단계(220)에서, 상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류한다.

이때, 수신된 Web 발신 문자의 내용 중 카테고리에 할당된 슈퍼키워드를 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류한다.

다시 말해, 한 메시지가 서로 다른 카테고리의 슈퍼키워드를 모두 가지는 경우이다. 즉, 메시지가 카테고리1의 슈퍼키워드인 슈퍼키워드1과 카테고리2의 슈퍼키워드인 슈퍼키워드2를 모두 가지고 있는 경우, 이 메시지가 가지고 있는 슈퍼키워드들의 빈도수를 카운트하여 가장 많은 빈도수를 가진 카테고리로 할당 시킨다.

위의 예에서 보면, 만약 슈퍼키워드1의 빈도수가 3이고 슈퍼키워드2의 빈도수가 2라면 해당 메시지는 카테고리1로 분류되게 된다. 한 카테고리가 다수의 슈퍼키워드를 가질 수 있기 때문에 다음과 같은 경우도 발생할 수 있다. 카테고리1이 슈퍼키워드1을 가지고 카테고리2가 슈퍼키워드2-1과 슈퍼키워드2-2를 가졌을 때, 한 메시지가 슈퍼키워드1에 대해서 3의 빈도수를 가지고 슈퍼키워드2-1은 2의 빈도를, 슈퍼키워드2-2는 3의 빈도를 가진 경우 카테고리2가 총 5의 빈도를 가지므로 결국 그 메시지는 카테고리2로 분류되게 된다. 위와 같은 방식으로 빈도수를 카운트했음에도 같은 빈도수를 가진 카테고리가 있는 경우라면 어느 카테고리에 해당 메시지를 분류할지를 사용자로부터 입력 받도록 한다.

위와 같은 방식으로 Web 발신 문자 분류 시스템(Message Assistant System, MAS)이 동작하게 되면 처음에 모델이 잘 정립되지 않은 상황에서도 메시지를 분류할 수 있게 된다. 물론 슈퍼키워드를 통해 메시지를 분류하면서 동시에 Web 발신 문자 분류 시스템은 위에서 언급한 모델을 만드는 작업을 계속 수행한다. 즉, 현재 메시지 분류에서는 사용되지 않지만, 명시적 피드백과 암시적 피드백 모두를 반영하여 딕셔너리 데이터를 만든다.

하지만 어느 시점부터는 더 이상 콜드 스타트(Cold Start)가 아닌 시점이 온다. 이때부터는 메시지를 분류할 때 슈퍼키워드 방식을 사용하지 않고 온전히 Web 발신 문자 분류 시스템의 메시지 분석(Message Analyst)방식(제안하는 모델기반 자동 분류)을 사용하여 카테고리 분류를 수행한다. 이러한 콜드 스타트(Cold Start)에서 비콜드(Non Cold)로 전환하는 시점은 Web 발신 문자 분류 시스템이 판단하고 그 판단의 기준은 다음과 같을 수 있다.

예를 들어, 모든 카테고리가 최소 1개 이상의 메시지를 가지고 있는 상태에서, 새로운 메시지가 발생했을 때 이를 슈퍼키워드방식으로 분류한 결과와 메시지 분석 방식으로 분류한 결과가 같은 경우 비콜드(Non Cold) 상태로 전환한다. 전환한 이후에는 더 이상 슈퍼키워드 방식으로 분류하지 않고 메시지 분석 방식으로 분류한다.

그리고, 수신된 Web 발신 문자의 전환된 토큰 스트림에 미리 정해진 키워드, 또는 URL을 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류한다. 상기 해당 카테고리로 분류된 Web 발신 문자의 토큰 스트림을 상기 해당 카테고리의 벡터와 연관시키고, 중복되는 토큰 스트림은 통합한다.

단계(230)에서, 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영한다.

이때, 상기 분류된 Web 발신 문자에 대하여 사용자가 다른 카테고리로의 이동을 요청하거나 또는 이동을 요청하지 않는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다. 또한, 카테고리에 대하여 사용자가 새로운 키워드를 지정하는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다.

도 3은 본 발명의 일 실시예에 따른 Web 발신 문자의 내용을 기반으로 카테고리를 분류하는 과정을 설명하기 위한 도면이다.

도 3a는 본 발명의 일 실시예에 따른 Web 발신 문자의 내용을 기반으로 최적의 카테고리를 찾는 과정을 설명하기 위한 도면이다.

Web 발신 문자(310a)가 디바이스에 도착하게 되면 Web 발신 문자 분류 시스템은 첫 번째로 문자의 내용을 분석한다. 이를 통해 해당 Web 발신 문자의 벡터를 얻을 수 있다.

Web 발신 문자 분류 시스템은 Web 발신 문자의 내용을 분석하여 가장 적합한 카테고리를 찾아 그 값을 반환한다. 예를 들어, 입력(input)으로 Web 발신 문자(Message)를 받아 출력(output)으로 카테고리 값(Category value)을 반환한다.

텍스트 성질을 분석하기 위한 Web 발신 문자의 벡터를 생성하기 위해 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾는다. 그리고, 토큰 집합(Token List)(322a) 중 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터(Profile Vector) 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터(Message Vector)(321a)를 생성한다.

그리고, 이미 만들어져 있던 카테고리의 벡터와의 유사도를 측정하여 가장 높은 유사도를 가지는 카테고리를 찾는다(331a). 다시 말해, 코사인 유사도(Cosine Similarity)(예를 들어, 프로파일 벡터, 메시지 벡터)를 비교하여 최대값을 갖는 카테고리를 찾는다.

Web 발신 문자들의 각각의 벡터들(Profile Vector1(341a), Profile Vector2(342a), Profile Vector3(343a))을 카테고리들의 벡터들(Category Vector1(351a), Category Vector1(352a), Category Vector1(353a))과 비교하여 최대값을 갖는 카테고리로 해당 문자를 위치시킨다.

도 3b는 본 발명의 일 실시예에 따른 최적의 카테고리에 Web 발신 문자를 위치시키는 과정을 설명하기 위한 도면이다.

Web 발신 문자(310b)가 디바이스에 도착하게 되면 Web 발신 문자 분류 시스템은 첫 번째로 문자의 내용을 분석한다. 이를 통해 해당 Web 발신 문자의 벡터를 얻을 수 있다.

텍스트 성질을 분석하기 위한 Web 발신 문자의 벡터를 생성하기 위해 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾는다. 그리고, 토큰 집합(Token List)(322b) 중 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터(Profile Vector) 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터(Message Vector)(321b)를 생성한다.

그리고, 이미 만들어져 있던 카테고리의 벡터와의 유사도를 측정하여 가장 높은 유사도를 가지는 카테고리를 찾아 Web 발신 문자를 해당 카테고리에 등록한다(331b).

Web 발신 문자들의 각각의 벡터들(Profile Vector1(341b), Profile Vector2(342b), Profile Vector3(343b))을 카테고리들의 벡터들(Category Vector1(351b), Category Vector1(352b), Category Vector1(353b))과 비교하여 최대값을 갖는 카테고리로 해당 문자를 위치시킨다.

이후 사용자가 이미 분류된 문자에 대해 다른 카테고리로의 이동을 요청하면 시스템은 이를 사용자 피드백으로 간주하여, 카테고리의 벡터에 이를 반영할 수 있다. 만약 사용자가 분류된 문자를 다른 곳으로 재위치 시키는 행위를 하지 않는 경우, 방금 전의 분류가 적합했다 것을 피드백으로 간주하여 카테고리의 벡터에 반영한다.

도 4는 본 발명의 일 실시예에 따른 Web 발신 문자의 프로파일 벡터를 생성하는 과정을 설명하기 위한 도면이다.

Web발신 문자 분류 시스템은 크게 2가지 기능으로 나누어진다. 첫 번째가 메시지 분석(Message Analyst)이고 두 번째가 사용자 피드백(User Feedback)이다. 메시지 분석은 Web발신 문자를 받았을 때 해당 문자를 어느 카테고리에 위치시킬 것인지를 정하는 것이다. 사용자 피드백은 사용자가 분류된 문자를 다른 곳으로 이동시킬 때 혹은 이동시키지 않았을 때, 두 경우 모두를 피드백으로 간주하여 이를 카테고리의 벡터에 반영한다.

각각의 기능 및 순서도에 대한 설명은 이후의 도표에서 이루어진다.

Web 발신 문자의 프로파일 벡터(Profile Vector)를 생성하기 위해 먼저 Web 발신 문자의 데이터를 분류한다. 예를 들어, 이미 수신되어 카테고리1(Category)(410)에 분류된 Web 발신 문자의 베이스 데이터(Base Data)(420)는 지정 단어(421), 지정 문자(422), 선별된 문자(423)로 이루어진다.

지정 단어(421)는 사용자가 지정한 카테고리의 키워드를 말한다. 해당 단어를 가지고 있는 문자는 무조건 그 카테고리로 이동된다. 예를 들어, 쇼핑 카테고리의 경우 사용자가 "할인", "화장품" 등의 키워드를 미리 지정해 놓을 수 있다.

지정 문자(Explicit Feedback)(422)는 사용자가 분류된 문자에 대해 다른 카테고리로 이동하도록 피드백을 준 경우를 말한다. 이동 전 카테고리(before category)에서 이동 후 카테고리(after category)로 이동한 경우, 이동 후 카테고리(after category)는 그 문자를 지정 문자로 등록한다. 예를 들어, 뉴스 카테고리에 있는 문자를 쇼핑 카테고리로 이동한 경우, 쇼핑 카테고리는 그 문자를 지정 문자로 등록한다.

선별된 문자(Implicit Feedback)(423)는 Web 발신 문자 분류 시스템에 의해 분류된 문자 메시지를 말한다. 사용자의 피드백이 없었기 때문에 포지티브 피드백(positive feedback)으로 간주하여 이를 프로파일에 반영한다.

이러한 지정 단어(421), 지정 문자(422), 선별된 문자(423) 중 지정 문자(422) 및 선별된 문자(423)를 이용하여 프로파일 벡터1(Profile Vector 1)(430)을 생성할 수 있다.

도 5는 본 발명의 일 실시예에 따른 Web 발신 문자의 메시지 벡터를 생성하는 과정을 설명하기 위한 도면이다.

Web 발신 문자가 수신되면(510), Tokenizer, Stemmer, Stoplist remover를 통해 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석한다(520). 그리고, '[]' 중괄호로 포함된 토큰과 명사 토큰만을 추출한다(530). 다시 말해, 명사 이외의 토큰은 제외한다. 각각의 토큰에게 Freq 값으로 1을 할당하고, 중복되는 토큰은 통합한다(540). 그리고, 딕셔너리 파일(Dictionary File) 형태의 토큰 스트림(Token Stream)을 생성한다(550). 이렇게 생성된 딕셔너리 파일(Dictionary File) 형태의 토큰 스트림(Token Stream)(551)을 프로파일 벡터의 딕셔너리 파일(560)과 연관시켜 Web 발신 문자의 메시지 벡터(570)를 생성할 수 있다.

도 6은 본 발명의 일 실시예에 따른 Web 발신 문자의 프로파일 벡터와 메시지 벡터를 연관 및 통합시키는 과정을 설명하기 위한 도면이다.

앞서 설명한 바와 같이 생성된 Web 발신 문자의 메시지 벡터(610)와 Web 발신 문자의 프로파일 벡터(620)를 연관시켜(Concatenate) 중복되는 토큰(Token)은 통합할 수 있다. 이와 같은 방법으로 새로운 Web 발신 문자의 프로파일 데이터(New Profile Data)(630)를 생성하여 카테고리에 저장할 수 있다.

도 7은 본 발명의 일 실시예에 따른 딕셔너리 파일을 만드는 과정을 성명하기 위한 도면이다.

Web 발신 문자의 딕셔너리 파일(Dictionary File)은 지정 문자(feedback message)(710)와 선별 문자(surplus message)(720)를 이용하여 생성할 수 있다.

예를 들어, 지정 문자(feedback message)(710)의 토큰 집합(Token List)(711)과 지정 문자의 Freq 값에 3배의 가중치(712)를 주어 이를 이용한다.

그리고, 선별 문자(surplus message)(720)의 토큰 집합(Token List)(721)과 선별 문자의 Freq 값에 1배의 가중치(722)를 주어 이를 이용한다. '[]' 중괄호에 들어간 토큰은 3배의 가중치를 준다.

이러한 지정 문자(feedback message)(710)와 선별 문자(surplus message)(720)를 연관시켜(Concatenate) 딕셔너리 파일(Dictionary File)(740)을 생성할 수 있다. 딕셔너리 파일(Dictionary File)(740)은 토큰 집합과 Freq 값만을 갖고, 이때, 중복되는 토큰(Token)은 Freq 값을 통합할 수 있다.

도 8은 본 발명의 일 실시예에 따른 Web 발신 문자의 벡터를 생성하여 카테고리의 벡터와 유사도를 측정하는 과정을 설명하기 위한 도면이다.

새로운 Web 발신 문자가 수신되면 수신된 Web 발신 문자를 토큰 스트림으로 전환한다(810). 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾는다(841). 그리고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터를 생성한다(842). 또한, 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터를 생성한다(843). 생성된 프로파일 벡터 및 메시지 벡터(830)를 이용하여 코사인 유사도(Cosine Similarity)를 측정한다(844).

도 9는 본 발명의 일 실시예에 따른 Web 발신 문자를 최적의 카테고리로 분류하는 과정을 설명하기 위한 흐름도이다.

Web 발신 문자가 수신되면(910), Tokenizer와 Stemmer를 통해 토큰 스트림(Token Stream)으로 전환한다(920). 슈퍼키워드 방식으로 분류할지 판단한다(930). 슈퍼키워드 방식으로 분류할 경우, Web 발신 문자를 해당 카테고리로 이동시킨다(940).

반면에, 슈퍼키워드 또는 미리 정해진 URL이 없는 경우, Web 발신 문자의 벡터와 카테고리의 벡터를 생성한다(950). 생성된 Web 발신 문자의 벡터와 카테고리의 벡터의 유사도를 측정한다(960). 그리고, 모든 카테고리에 대하여 유사도 측정을 수행하였는지 판단한다(970). 모든 카테고리에 대하여 유사도 측정을 수행하지 않았을 경우 다시 단계(950)부터 반복한다.

모든 카테고리에 대하여 유사도 측정을 수행하였을 경우, 유사도가 가장 높은 카테고리를 찾는다(980). 그리고, 해당 카테고리로 Web 발신 문자를 이동시키고, 프로파일을 업데이트한다(990).

도 10은 본 발명의 일 실시예에 따른 사용자의 행동 패턴을 설명하기 위한 도면이다.

분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영할 수 있다. 이때, 사용자(1010)가 이동 전 카테고리(Category1)(1020)로 분류된 Web 발신 문자(1021)에 대하여 다른 카테고리(Category2)(1030)로 Web 발신 문자(1031)의 이동(1040)을 요청하거나 또는 이동을 요청하지 않는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다. 다시 말해, 사용자(1010)가 임의로 한 카테고리(Category1)(1020)에 속한 Web 발신 문자(1021)를 다른 카테고리(Category2)(1030)로 이동(1040)시킨 경우, 이를 사용자의 피드백으로 간주하고 각 카테고리의 프로파일을 업데이트 한다. 또한, 카테고리에 대하여 사용자가 새로운 키워드를 지정하는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다.

도 11은 본 발명의 일 실시예에 따른 Web 발신 문자의 이동에 따른 프로파일 업데이트에 대하여 설명하기 위한 도면이다.

분류된 Web 발신 문자(1110)에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영할 수 있다. 먼저 Web 발신 문자(1110)의 토큰 스트림(Token Stream)을 생성할 수 있다(1120).

이때, 사용자가 이동 전 카테고리(Category1)(1130)로 분류된 Web 발신 문자에 대하여 이동 후 카테고리(Category2)(1140)로 Web 발신 문자의 이동을 요청할 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다.

다시 말해, 이동 전 카테고리(Category1)(1130)로 분류된 Web 발신 문자의 토큰 Freq 값을 딕셔너리 파일(1131)에서 삭제한다. Freq 값이 0이 되면, 해당 섹션(section)을 삭제하고 쉬프트(Shift)한다.

이동 후 카테고리(Category2)(1140)로 분류된 Web 발신 문자의 Freq 값을 딕셔너리 파일(1132)에 추가한다. 추가하려는 토큰이 딕셔너리 파일에 없는 것이라면 섹션(section)을 추가한다.

이와 같이, 사용자가 이동 전 카테고리(Category1)(1130)에 속한 Web 발신 문자를 이동 후 카테고리(Category2)(1140)로 이동시킨 경우, 이를 사용자의 피드백으로 간주하고 각 카테고리의 프로파일을 업데이트 한다.

도 12는 본 발명의 일 실시예에 따른 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 과정을 설명하기 위한 흐름도이다.

분류된 Web 발신 문자의 이동 전 카테고리(Before Category) 및 이동 후 카테고리(After Category)에 대하여 사용자의 행동 패턴을 분석한다(1210). 먼저, Web 발신 문자의 토큰 스트림을 생성한다(1220). 이동 전 카테고리(Before Category)의 프로파일에서 이동하고자 하는 Web 발신 문자의 토큰 정보를 삭제한다(1230). 그리고, 이동 후 카테고리(After Category)의 프로파일에 이동된 Web 발신 문자의 토큰 정보를 추가한다(1240).

분류된 Web 발신 문자에 대하여 사용자가 다른 카테고리로의 이동을 요청하거나 또는 이동을 요청하지 않는 경우에도 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트한다.

도 13은 본 발명의 일 실시예에 따른 Web 발신 문자 자동 분류 시스템의 구성을 나타내는 도면이다.

본 실시예에 따른 Web 발신 문자 자동 분류 시스템(1300)은 프로세서(1310), 버스(1320), 네트워크 인터페이스(1330), 메모리(1340) 및 데이터베이스(1350)를 포함할 수 있다. 메모리(1340)는 운영체제(1341) 및 Web 발신 문자 자동 분류 루틴(1342)을 포함할 수 있다. 프로세서(1310)는 메시지 분석부(1311), 카테고리 분류부(1312), 피드백부(1313)를 포함할 수 있다. 다른 실시예들에서 Web 발신 문자 자동 분류 시스템(1300)은 도 13의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, Web 발신 문자 자동 분류 시스템(1300)은 디스플레이나 트랜시버(transceiver)와 같은 다른 구성요소들을 포함할 수도 있다.

메모리(1340)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(1340)에는 운영체제(1341)와 Web 발신 문자 자동 분류 루틴(1342)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리(1340)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(1330)를 통해 메모리(1340)에 로딩될 수도 있다.

버스(1320)는 Web 발신 문자 자동 분류 시스템(1300)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(1320)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.

네트워크 인터페이스(1330)는 Web 발신 문자 자동 분류 시스템(1300)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(1330)는 Web 발신 문자 자동 분류 시스템(1300)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.

데이터베이스(1350)는 Web 발신 문자 자동 분류를 위해 필요한 모든 정보를 저장 및 유지하는 역할을 할 수 있다. 도 13에서는 Web 발신 문자 자동 분류 시스템(1300)의 내부에 데이터베이스(1350)를 구축하여 포함하는 것으로 도시하고 있으나, 이에 한정되는 것은 아니며 시스템 구현 방식이나 환경 등에 따라 생략될 수 있고 혹은 전체 또는 일부의 데이터베이스가 별개의 다른 시스템 상에 구축된 외부 데이터베이스로서 존재하는 것 또한 가능하다.

프로세서(1310)는 기본적인 산술, 로직 및 Web 발신 문자 자동 분류 시스템(1300)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1340) 또는 네트워크 인터페이스(1330)에 의해, 그리고 버스(1320)를 통해 프로세서(1310)로 제공될 수 있다. 프로세서(1310)는 메시지 분석부(1311), 카테고리 분류부(1312), 피드백부(1313)를 위한 프로그램 코드를 실행하도록 구성될 수 있다. 이러한 프로그램 코드는 메모리(1340)와 같은 기록 장치에 저장될 수 있다.

메시지 분석부(1311), 카테고리 분류부(1312), 피드백부(1313)는 도 2의 단계들(210~230)을 수행하기 위해 구성될 수 있다.

Web 발신 문자 자동 분류 시스템(1300)은 메시지 분석부(1311), 카테고리 분류부(1312), 피드백부(1313)를 포함할 수 있다.

메시지 분석부(1311)는 수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석한다.

카테고리 분류부(1312)는 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류한다.

피드백부(1313)는 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영한다.

도 14는 본 발명의 일 실시예에 따른 카테고리 목록 및 분류된 Web 발신 문자를 나타내는 예시도이다.

도 14a는 카테고리 목록을 나타내는 도면이다. 예를 들어, 카테고리(1400) 목록에는 쇼핑(1410), 학교(1420), 결제(1430), 채용(1440), URL(1450) 등을 포함할 수 있다.

도 14a는 카테고리로 분류된 문자 목록들을 나타내는 도면이다. 카테고리(1400) 목록에서 학교(1420)를 클릭할 경우, 해당 카테고리로 분류된 문자 목록들(1421)을 확인할 수 있다.

제안하는 Web 발신 문자 자동 분류 시스템은 기존의 발신자 번호를 중심으로 한 그래픽 인터페이스에서 탈피하고 카테고리를 중심으로 한 인터페이스를 제공한다. 또한 발신번호가 아닌 문자의 내용을 기반으로 하여 해당 문자의 성질을 파악하는 기술을 구현하여 그 성질을 통해 알맞은 카테고리를 찾아 문자를 자동화하여 위치시킬 수 있다.

웹 발신 문자가 무분별하게 사용되는 가운데, 제안하는 기능을 사용하면 문자들을 잘 정리할 수 있고 사용자는 원하는 정보를 놓치지 않고 전달 받을 수 있다. 사용자가 웹 전송 문자로 전달되는 정보를 효율적으로 얻을 수 있게 됨으로써, 쇼핑이나 이벤트 참여가 더욱 편리하게 이루어질 수 있다. 따라서 사업체는 경제적 효과를 누릴 수 있다. 사용자 입장에서는 유용한 정보를 놓치지 않게 되어 합리적인 소비를 할 수 있다. 웹 발신 문자는 다수의 사람을 대상으로 발신번호를 임의로 변경해 보낼 수 있다는 특징이 있다. 하지만 이를 악용하여 스미싱과 같은 범죄가 많이 발생하고 있다. 이에 해당 앱은 URL을 포함한 웹 발신 문자를 사용자에게 노출되기 전부터 따로 보관 혹은 차단하여 범죄 예방 효과를 가져올 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

Web 발신 문자 자동 분류 방법에 있어서,
수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계;
상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계; 및
분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계
를 포함하는 Web 발신 문자 자동 분류 방법.
제1항에 있어서,
수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계는,
미리 설정된 단어들을 슈퍼키워드로서 각각의 카테고리에 할당되고, 수신된 Web 발신 문자의 내용 중 상기 슈퍼키워드를 포함하고 있는지 판단하는
Web 발신 문자 자동 분류 방법.
제1항에 있어서,
수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 단계는,
수신된 Web 발신 문자를 토큰 스트림으로 전환하고, 전환된 스트림에 미리 정해진 키워드, 슈퍼키워드, 또는 URL을 포함하고 있는지 분석하는
Web 발신 문자 자동 분류 방법.
제3항에 있어서,
텍스트 성질을 분석하기 위한 Web 발신 문자의 벡터를 생성하기 위해 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터를 생성하는
Web 발신 문자 자동 분류 방법.
제1항에 있어서,
상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계는,
수신된 Web 발신 문자의 내용 중 카테고리에 할당된 슈퍼키워드를 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류하는
Web 발신 문자 자동 분류 방법.
제5항에 있어서,
하나의 Web 발신 문자의 내용 중 복수의 슈퍼키워드들이 포함되어 있는 경우, 슈퍼키워드들의 빈도수를 카운트하여 가장 많은 빈도수를 가진 카테고리로 분류하고, 상기 슈퍼키워드들의 빈도수가 동일할 경우, 사용자로부터 입력 받은 카테고리로 분류하는
Web 발신 문자 자동 분류 방법.
제1항에 있어서,
상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 단계는,
수신된 Web 발신 문자의 전환된 토큰 스트림에 미리 정해진 키워드, 또는 URL을 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류하는
Web 발신 문자 자동 분류 방법.
제7항에 있어서,
상기 해당 카테고리로 분류된 Web 발신 문자의 토큰 스트림을 상기 해당 카테고리의 벡터와 연관시키고, 중복되는 토큰 스트림은 통합하는
Web 발신 문자 자동 분류 방법.
제7항에 있어서,
미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터와 카테고리의 벡터와의 유사도를 비교하여 가장 높은 유사도를 갖는 카테고리로 Web 발신 문자를 분류하고, 해당 카테고리에 Web 발신 문자의 프로파일을 업데이트하는
Web 발신 문자 자동 분류 방법.
제1항에 있어서,
상기 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계는,
상기 분류된 Web 발신 문자에 대하여 사용자가 다른 카테고리로의 이동을 요청하거나 또는 이동을 요청하지 않는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트하는
Web 발신 문자 자동 분류 방법.
제1항에 있어서,
상기 분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 단계는,
카테고리에 대하여 사용자가 새로운 키워드를 지정하는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트하는
Web 발신 문자 자동 분류 방법.
Web 발신 문자 자동 분류 시스템에 있어서,
수신된 Web 발신 문자의 내용을 기반으로 카테고리를 분류하기 위한 텍스트 성질을 분석하는 메시지 분석부;
상기 분석된 Web 발신 문자의 벡터와 카테고리의 벡터와의 유사도를 비교하여 상기 Web 발신 문자를 최적의 카테고리로 분류하는 카테고리 분류부; 및
분류된 Web 발신 문자에 대한 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하는 피드백부
를 포함하는 Web 발신 문자 자동 분류 시스템.
제12항에 있어서,
상기 메시지 분석부는,
미리 설정된 단어들을 슈퍼키워드로서 각각의 카테고리에 할당되고, 수신된 Web 발신 문자의 내용 중 상기 슈퍼키워드를 포함하고 있는지 판단하는
Web 발신 문자 자동 분류 시스템.
제12항에 있어서,
상기 메시지 분석부는,
수신된 Web 발신 문자를 토큰 스트림으로 전환하고, 전환된 스트림에 미리 정해진 키워드, 슈퍼키워드, 또는 URL을 포함하고 있는지 분석하는
Web 발신 문자 자동 분류 시스템.
제14항에 있어서,
상기 메시지 분석부는,
텍스트 성질을 분석하기 위한 Web 발신 문자의 벡터를 생성하기 위해 미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터를 생성하는
Web 발신 문자 자동 분류 시스템.
제12항에 있어서,
상기 카테고리 분류부는,
수신된 Web 발신 문자의 내용 중 카테고리에 할당된 슈퍼키워드를 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류하는
Web 발신 문자 자동 분류 시스템.
제16항에 있어서,
상기 카테고리 분류부는,
하나의 Web 발신 문자의 내용 중 복수의 슈퍼키워드들이 포함되어 있는 경우, 슈퍼키워드들의 빈도수를 카운트하여 가장 많은 빈도수를 가진 카테고리로 분류하고, 상기 슈퍼키워드들의 빈도수가 동일할 경우, 사용자로부터 입력 받은 카테고리로 분류하는
Web 발신 문자 자동 분류 시스템.
제12항에 있어서,
상기 카테고리 분류부는,
수신된 Web 발신 문자의 전환된 토큰 스트림에 미리 정해진 키워드, 또는 URL을 포함하고 있는 경우, 상기 Web 발신 문자를 해당 카테고리로 분류하는
Web 발신 문자 자동 분류 시스템.
제18항에 있어서,
상기 카테고리 분류부는,
상기 해당 카테고리로 분류된 Web 발신 문자의 토큰 스트림을 상기 해당 카테고리의 벡터와 연관시키고, 중복되는 토큰 스트림은 통합하고,
미리 수신된 Web 발신 문자들 중 현재 수신된 Web 발신 문자의 토큰 스트림과 동일한 토큰을 찾고, 동일한 토큰의 프리퀀시 값을 인자로 하는 프로파일 벡터 및 동일한 토큰의 프리퀀시 값을 인자로 하는 메시지 벡터와 카테고리의 벡터와의 유사도를 비교하여 가장 높은 유사도를 갖는 카테고리로 Web 발신 문자를 분류하고, 해당 카테고리에 Web 발신 문자의 프로파일을 업데이트하는
Web 발신 문자 자동 분류 시스템.
제12항에 있어서,
상기 피드백부는,
상기 분류된 Web 발신 문자에 대하여 사용자가 다른 카테고리로의 이동을 요청하거나 또는 이동을 요청하지 않는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트하고,
카테고리에 대하여 사용자가 새로운 키워드를 지정하는 경우, 사용자의 행동 패턴을 분석하여 카테고리의 벡터에 반영하여 업데이트하는
Web 발신 문자 자동 분류 시스템.