KR20110022245A - Spam filtering system using a front-end processing and spam filtering method thereof - Google Patents
Spam filtering system using a front-end processing and spam filtering method thereof Download PDFInfo
- Publication number
- KR20110022245A KR20110022245A KR1020090079756A KR20090079756A KR20110022245A KR 20110022245 A KR20110022245 A KR 20110022245A KR 1020090079756 A KR1020090079756 A KR 1020090079756A KR 20090079756 A KR20090079756 A KR 20090079756A KR 20110022245 A KR20110022245 A KR 20110022245A
- Authority
- KR
- South Korea
- Prior art keywords
- spam
- message
- preprocessing
- unit
- special character
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/18—Service support devices; Network management devices
- H04W88/184—Messaging devices, e.g. message centre
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
본 발명은 스팸단문메시지를 차단하는 스팸필터링 시스템 및 스팸단문메시지 처리방법에 관한 것이다. The present invention relates to a spam filtering system and a spam short message processing method for blocking a spam short message.
이동통신에서의 단문 메시지 서비스(SMS)가 활성화됨에 따라 이동 단말 사용자는 종래의 음성뿐 아니라 문자를 통해서도 정보를 송신 및 수신할 수 있게 되었다. 그러나 단문 메시지 서비스에 따른 부정적인 현상으로 받고 싶지 않은 스팸 단문 메시지가 전송되는 경우가 많아 이동 단말 사용자들의 불만이 높아지고 있다.As the short message service (SMS) in mobile communication is activated, a mobile terminal user can transmit and receive information through text as well as conventional voice. However, complaints of mobile terminal users are increasing because spam short messages that are not intended to be received are often transmitted due to a negative phenomenon caused by short message services.
이에 따라 수신자가 원하지 않는 스팸 단문 메시지를 차단하기 위한 기술들이 개발되고 있다. Accordingly, technologies for blocking spam short messages that the recipient does not want are being developed.
이러한 스팸 단문 메시지를 차단하는 기술은 크게 두 가지로 나뉜다. There are two main techniques for blocking such spam short messages.
초기에는 이동통신 단말기에서 스팸 단문 메시지를 차단하는 기술이 주로 고안되었다. 이러한 기술에 따르면 이동 단말은 단문 메시지를 수신한 이후, 수신 거부 전화번호부 데이터베이스에 수신된 단문 메시지에 상응하는 발신 번호가 포함되 어 있는지를 판단하여 수신된 단문 메시지에 상응하는 발신 번호가 포함된 경우 이동 단말에서 단문 메시지 수신 거부 처리를 수행하게 된다. 이와 유사하게 이동 단말은 단문 메시지를 수신한 이후 수신 거부 문자열 데이터베이스에 저장된 문자열과 일치하는 문자열이 단문 메시지에 존재할 경우 단문 메시지 수신 거부 처리를 수행하게 된다. 그러나 이러한 종래기술에 따르면 이동 단말의 용량이 제한되어 있어 저장할 수 있는 번호나 문자열이 한정될 뿐 아니라 이동 단말에서 메시지 수신 거부 여부를 판단하여 처리해야 문제점이 있었다.In the early days, techniques for blocking spam short messages in mobile communication terminals were mainly devised. According to this technique, after the mobile terminal receives the short message, the mobile terminal determines whether the received short message includes a calling number corresponding to the received short message and includes the calling number corresponding to the received short message. The mobile terminal performs the short message rejection processing. Similarly, after receiving the short message, the mobile terminal performs the short message rejection processing when a string matching the string stored in the reject string database exists in the short message. However, according to the related art, the capacity of the mobile terminal is limited, so that the number or character string that can be stored is limited, and there is a problem in that the mobile terminal determines whether or not to reject the message.
최근에는 이동 단말에서 메시지의 스팸 여부를 판별하는 것 이외에 이동통신망에서 메시지의 스팸 여부를 판별하는 기술이 개발되고 있다. 상기의 이동통신망용 스팸 필터링 시스템은 (1) 단문 메시지를 수신하는 단계와, (2) 적어도 하나의 규칙 세트에 근거하여 상기 단문 메시지를 필터링하는 단계와, (3) 상기 필터링의 결과에 근거하여 상기 단문 메시지를 프로세싱하는 단계를 포함하는 단문 메시지 스팸 필터링 방법의 세 가지 단계로 이루어지는 것이 보통이다. 상기 필터링하는 단계에서는 수신된 단문 메시지를 버퍼링하여 메시지로부터 주요 파라미터를 수집하고, 이에 규칙 세트를 적용하여 필터링의 결과를 획득하게 된다. Recently, in addition to determining whether a message is spam in a mobile terminal, a technique for determining whether a message is spam in a mobile communication network has been developed. The spam filtering system for a mobile communication network includes (1) receiving a short message, (2) filtering the short message based on at least one rule set, and (3) based on the filtering result. It is common to consist of three steps of the short message spam filtering method including the step of processing the short message. In the filtering step, the received short message is buffered to collect main parameters from the message, and a rule set is applied thereto to obtain a result of the filtering.
그러나 스팸 단문 메시지가 갈수록 지능화되면서 상기의 예와 같은 스팸 필터링 시스템으로는 사용자가 원하는 수준의 스팸 단문 메시지 차단을 구현할 수 없게 되었다. 특히 최근의 이동통신에서의 스팸 단문 메시지는 의미 없는 특수 문자, 마침표 및 공백(▶, ♣, ☜, . , ^, __) 등이 주요 단어 사이에 포함되어 있거나, 의미 있는 특수 문자(㉢, ㈀, ㉲)가 일반 문자 대신 쓰인다. 또는 "대출" 대신에 " ㄷ ㅐ ㅊ ㅜ ㄹ"과 같이 자모의 형태소를 분리하여 일반 문자를 구성하는 경우를 활용한다. However, as spam short messages become more intelligent, spam filtering systems such as the above example cannot implement the level of spam short messages desired by the user. Especially in the recent mobile communication, spam short messages include meaningless special characters, periods and spaces (▶, ♣, ☜,., ^, __) among key words, or meaningful special characters (㉢, ㈀). , ㉲) is used instead of ordinary characters. Or, instead of "loan", use the case of composing the common letter by separating the morphemes of the letter like "ㄷ ㅐ ㅊ ㄹ ㄹ".
이렇게 정상적인 단문 메시지가 아닌, 특수문자나 문장 기호, 공백, 형태소 분리 등을 통해 변형된 형태의 스팸 단문 메시지가 대량 발송됨에 따라, 기존과 같이 수신된 단문 메시지를 버퍼링하고, 메시지로부터 주요 파라미터를 수집하여 이에 규칙 세트를 적용하는 방식으로는 정상적인 결과를 얻는 것이 불가능한 상황이다. As spam short messages are transformed by special characters, punctuation marks, spaces, stemming, etc., instead of normal short messages, buffer the received short messages and collect main parameters from the messages. Therefore, it is impossible to obtain a normal result by applying a rule set.
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명의 목적은 상술한 바와 같이 정상적인 단문 메시지가 아닌 변형된 단문메시지를 활용함으로써 종래의 필터링규칙에 적용이 어려운 메시지를 필터링하기 위한 방법으로서, 필터링 규칙을 적용하기 전에 상기 단문 메시지를 전처리함으로써 효과적으로 스팸필터링을 할 수 있는 방법을 제공함에 있다. The present invention was created in view of the above circumstances, and an object of the present invention is to use a modified short message rather than a normal short message as described above, and to filter a message that is difficult to apply to a conventional filtering rule. The present invention provides a method for effectively filtering spam by preprocessing the short message before applying the filtering rule.
상기 목적을 달성하기 위한 본 발명에 따른 스팸필터링 시스템은 발신단말기가 착신단말기로 전송하려는 메시지의 스팸여부를 판단하는 스팸필터링 시스템에 있어서, 상기 메시지를 스팸필터링 서버로 전송하는 SMS센터; 및 상기 메시지를 수신하고, 상기 수신된 단문메세지를 필터링규칙에 적용하기 위한 형태인 전처리된 문서로 변형한 후에, 필터링규칙을 이용하여 스팸여부를 판단하는 스팸필터링서버를 포함한다.A spam filtering system according to the present invention for achieving the above object comprises: a spam filtering system for determining whether a message is intended to be sent to a called terminal by a spam terminal, the SMS center transmitting the message to a spam filtering server; And a spam filtering server that receives the message, transforms the received short message into a preprocessed document that is in a form for applying to a filtering rule, and then determines whether to spam by using the filtering rule.
그리고 상기 SMS센터는 이동통신망으로부터 상기 메시지를 수신받고, 홈위치등록기(HLR)로 상기 착신단말기의 소유자인 착신자가 스팸 차단서비스에 가입했는지의 여부를 질의하고, 홈위치등록기(HLR)로부터 해당 착신자가 스팸 차단 서비스에 가입한 것이 확인될 경우 상기 단문 메시지를 스팸필터링서버로 전달하는 것이 바람직하다.The SMS center receives the message from the mobile communication network, queries the home location register (HLR) whether the called party, the owner of the called terminal, has subscribed to the spam blocking service, and receives the caller from the home location register (HLR). When it is confirmed that the user has subscribed to the spam blocking service, it is preferable to deliver the short message to the spam filtering server.
한편 상기 목적을 달성하기 위한 본 발명에 따른 스팸필터링 서버는 발신단 말기가 착신단말기로 전송하려는 메시지의 스팸여부를 판단하는 스팸필터링서버에 있어서, 상기 수신된 단문메세지를 필터링규칙에 적용하기 위한 형태인 전처리된 문서로 변형하는 전처리부; 및 상기 전처리된 문서를 필터링규칙을 이용하여 스팸여부를 판단하는 스팸 판단부를 포함한다.On the other hand, a spam filtering server according to the present invention for achieving the above object is a spam filtering server for determining whether the originating terminal to send a message to be sent to the destination terminal, the form for applying the received short message to the filtering rule A preprocessing unit transforming the preprocessed document into a document; And a spam determination unit determining whether the preprocessed document is spam using a filtering rule.
그리고 상기 단문메시지 전처리부는 상기 수신된 단문메시지에서 특수문자를 추출하는 특수문자 추출부; 및 상기 추출된 특수문자가 의미있는 경우에는 특수문자를 일반문자로 변환하고, 의미없는 경우에는 특수문자를 삭제하는 특수문자 처리부를 포함하는 것이 바람직하다.And the short message preprocessing unit extracts a special character from the received short message; And a special character processing unit for converting the special character into a normal character when the extracted special character is meaningful, and deleting the special character when it is not meaningful.
또한 상기 단문메시지 전처리부는 상기 수신된 단문메시지에서 자모가 분리된 글자를 추출하는 분리문자 추출부; 및 상기 추출된 분리문자를 합쳐서 일반문자로 변형하는 분리문자 합성부를 포함하는 것이 바람직하다.The short message preprocessing unit may include a delimiter extracting unit for extracting a letter whose letter is separated from the received short message; And it is preferable to include a delimiter synthesizing unit to combine the extracted delimiter to transform into a normal character.
그리고 상기 단문메시지 전처리부는 상기 수신된 단문메시지를 낱말단위로 분석하기 위해 형태소 분석을 실시하는 형태소 분석부; 및 상기 형태소 분석된 메시지에서 키워드를 추출하는 키워드 추출부를 포함하는 것이 바람직하다.The short message preprocessor includes: a morpheme analysis unit configured to perform morpheme analysis to analyze the received short message in word units; And a keyword extraction unit for extracting a keyword from the morphologically analyzed message.
또한 상기 전처리부에서 상기 단문메시지를 전처리된 문서로 변형하기 위한 데이터가 저장되어 있는 전처리DB를 더 포함하는 것이 바람직하다.The preprocessing unit may further include a preprocessing DB in which data for transforming the short message into a preprocessed document is stored.
그리고 상기 전처리DB는 1개 이상의 특수문자와 이에 대응되는 일반문자를 포함하는 것이 바람직하다.The preprocessing DB preferably includes at least one special character and a general character corresponding thereto.
또한 상기 전처리DB는 형태소사전 및 용어사전중 어느하나 이상을 포함하는 것이 바람직하다.In addition, the pretreatment DB preferably includes at least one of a morpheme dictionary and a term dictionary.
그리고 상기 전처리DB에 기저장된 데이터를 추가적으로 입력하거나 또는 기저장된 데이터를 편집할 수 있는 전처리DB 편집부를 더 포함하는 것이 바람직하다.The apparatus may further include a preprocessing DB editing unit which additionally inputs prestored data in the preprocessing DB or edits the prestored data.
한편 본 발명의 일 실시예에 따른 상기 목적을 달성하기 위한 휴대단말기는 메시지의 수신이 가능한 휴대단말기에 있어서, 상기 휴대단말기에 수신된 메세지를 필터링규칙에 적용하기 위한 형태인 전처리된 문서로 변형하는 전처리부; 및 상기 전처리된 문서를 필터링규칙을 이용하여 스팸여부를 판단하는 스팸 판단부를 포함한다.On the other hand, a portable terminal for achieving the above object according to an embodiment of the present invention, in the portable terminal capable of receiving a message, transforming the message received in the portable terminal into a pre-processed document which is a form for applying a filtering rule Pretreatment unit; And a spam determination unit determining whether the preprocessed document is spam using a filtering rule.
그리고 상기 전처리부는 상기 수신된 메시지에서 특수문자를 추출하는 특수문자 추출부; 및 상기 추출된 특수문자가 의미있는 경우에는 특수문자를 일반문자로 변환하고, 의미없는 경우에는 특수문자를 삭제하는 특수문자 처리부를 포함하는 것이 바람직하다.And the preprocessing unit extracts a special character from the received message; And a special character processing unit for converting the special character into a normal character when the extracted special character is meaningful, and deleting the special character when it is not meaningful.
또한 상기 전처리부는 상기 수신된 메시지에서 자모가 분리된 글자를 추출하는 분리문자 추출부; 및 상기 추출된 분리문자를 합쳐서 일반문자로 변형하는 분리문자 합성부를 포함하는 것이 바람직하다.The preprocessing unit may include a delimiter extracting unit configured to extract a letter having a separated letter from the received message; And it is preferable to include a delimiter synthesizing unit to combine the extracted delimiter to transform into a normal character.
그리고 상기 전처리부는 상기 수신된 단문메시지를 낱말단위로 분석하기 위해 형태소 분석을 실시하는 형태소 분석부; 및 상기 형태소 분석된 메시지에서 키워드를 추출하는 키워드 추출부를 포함하는 것이 바람직하다.The preprocessor includes: a morpheme analysis unit configured to perform morpheme analysis to analyze the received short message in word units; And a keyword extraction unit for extracting a keyword from the morphologically analyzed message.
한편 본 발명의 일 실시예에 따른 상기 목적을 달성하기 위한 스팸단문메시지 처리방법은 단문 메시지 스팸(short message spam)을 필터링하는 방법으로서, 단문 메시지를 수신하는 단문메시지 수신단계; 상기 수신된 단문메세지를 필터링규 칙에 적용하기 위한 형태인 전처리된 문서로 변형하는 단문메시지 전처리단계; 및 상기 전처리된 문서를 필터링규칙을 이용하여 스팸여부를 판단하는 스팸 판단단계를 포함한다.On the other hand, a method for processing a short message spam to achieve the above object according to an embodiment of the present invention is a method for filtering a short message spam (short message spam), receiving a short message receiving a short message; A short message preprocessing step of transforming the received short message into a preprocessed document which is a form for applying to a filtering rule; And a spam determination step of determining whether the preprocessed document is spam using a filtering rule.
그리고 상기 단문메시지 전처리 단계는 상기 수신된 단문메시지에서 특수문자를 추출하는 특수문자 추출단계; 및 상기 추출된 특수문자가 의미있는 경우에는 특수문자를 일반문자로 변환하고, 의미없는 경우에는 특수문자를 삭제하는 특수문자 처리단계를 포함하는 것이 바람직하다.And the short message preprocessing step comprises: extracting a special character from the received short message; And a special character processing step of converting the special character into a normal character if the extracted special character is meaningful, and deleting the special character if it is not meaningful.
또한 상기 단문메시지 전처리 단계는 상기 수신된 단문메시지에서 자모가 분리된 글자를 추출하는 분리문자 추출단계; 및 상기 추출된 분리문자를 합쳐서 일반문자로 변형하는 분리문자 합성단계를 포함하는 것이 바람직하다.In addition, the short message preprocessing step may include a delimiter character extracting step of extracting a letter whose letter is separated from the received short message; And it is preferable to include a delimiter synthesis step of transforming the extracted delimiter to a general character.
그리고 상기 단문메시지 전처리 단계는 상기 수신된 단문메시지를 낱말단위로 분석하기 위해 형태소 분석을 실시하는 형태소 분석단계; 및 상기 형태소 분석된 메시지에서 키워드를 추출하는 키워드 추출단계를 포함하는 것이 바람직하다.The short message preprocessing step may include a morpheme analysis step of performing a morpheme analysis to analyze the received short message in word units; And a keyword extraction step of extracting a keyword from the morphologically analyzed message.
또한 특수문자 처리단계는 상기 단문메시지를 전처리된 문서로 변형하기 위한 데이터가 저장되어 있는 전처리DB로부터 추출된 데이터를 이용하여, 상기 수신된 단문메세지를 필터링규칙에 적용하기 위한 형태인 전처리된 문서로 변형하는 것이 바람직하다.The special character processing step may be a preprocessed document which is a form for applying the received short message to a filtering rule by using data extracted from a preprocessing DB that stores data for transforming the short message into a preprocessed document. It is desirable to deform.
그리고 상기 전처리DB는 1개 이상의 특수문자와 이에 대응되는 일반문자를 포함하는 것이 바람직하다.The preprocessing DB preferably includes at least one special character and a general character corresponding thereto.
또한 상기 전처리DB는 형태소사전 및 용어사전중 어느하나 이상을 포함하는 것이 바람직하다.In addition, the pretreatment DB preferably includes at least one of a morpheme dictionary and a term dictionary.
그리고 상기 전처리DB에 기저장된 데이터를 추가적으로 입력하거나 또는 기저장된 데이터를 편집하는 전처리DB 편집단계를 더 포함하는 것이 바람직하다.The method may further include a preprocessing DB editing step of additionally inputting prestored data in the preprocessing DB or editing the prestored data.
또한 상기 스팸 판단단계의 판단결과에 따라서, 상기 단문 메시지를 처리하는 메시지 처리단계를 포함하는 것이 바람직하다.The method may further include a message processing step of processing the short message according to the determination result of the spam determination step.
이상에서 상세히 설명한 바와 같이, 본 발명에 따른 스팸필터링 시스템을 이용하면, 착신자가 원하지 않는 스팸메시지를 효율적으로 차단할 수 있게 된다. As described in detail above, by using the spam filtering system according to the present invention, it is possible to efficiently block spam messages that the recipient does not want.
특히 본 발명에서는 스팸메시지를 종래의 스팸필터링규칙을 적용하게 전에, 앞서 사전에 정의된 전처리 규칙 및 전처리 DB를 거쳐 전처리를 함으로써 종래의 스팸필터링규칙에서도 필터링이 가능하도록 수정하여 전달하게 되는 바, 이를 통해서 변형된 스팸메시지를 효율적으로 차단하는 것이 가능해진다는 효과가 있다.Particularly, in the present invention, before the spam message is applied to the conventional spam filtering rule, the pre-processing is performed through a pre-defined pre-processing rule and a pre-processing DB, so that the filter can be filtered even in the conventional spam filtering rule. Through this, it is possible to effectively block the modified spam message.
이하에서는, 본 발명의 바람직한 실시예에 따른 스팸필터링 시스템 및 스팸필터링 방법에 대해서 도면을 참조하여 상세히 설명한다.Hereinafter, a spam filtering system and a spam filtering method according to a preferred embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도1은 본 발명에 따른 스팸필터링 시스템을 나타내는 개략적인 구성도이다.1 is a schematic diagram illustrating a spam filtering system according to the present invention.
발신단말(100)은 스팸메시지를 전송하려는 단말기로서, 스팸 단문메시지를 작성한 후에 이동통신망(200)을 이용하여, 착신단말(110)로 전송한다. The originating
즉 발신단말(100)이 작성한 단문메시지는 기지국(BTS), 제어국(BSC), 교환 기(MSC)를 지나서 단문메시지센터(SMS센터,300)를 거친 후 다시 교환기(MSC),제어국(BSC) 및 기지국(BTS)을 지나서 수신단말(110)이 수신한다.That is, the short message prepared by the
한편 본 발명의 일 실시예에 따른 단문메시지센터(300)는 상기 이동통신망(200)으로부터 상기 메시지를 수신받은 이후에, 홈위치등록기(HLR,310)로 상기 착신단말기의 소유자인 착신자가 스팸 차단서비스에 가입했는지의 여부를 질의하고, 홈위치등록기(310)로부터 해당 착신자가 스팸 차단 서비스에 가입한 것이 확인될 경우 상기 메시지를 스팸필터링서버(400)로 전달한다.Meanwhile, after receiving the message from the
홈위치등록기(310)는 이동통신 가입자의 위치를 확인해 전화를 받을 수 있게 해주고 동시에 해당 가입자에 대한 각종 정보를 파악해 착,발신 금지 등 각종 부가서비스를 제어해주는 이동통신망의 기본 장비로 특히 본 발명에서는 가입자가 스팸차단서비스에 가입했는지의 여부를 포함한다.The
스팸필터링서버(400)는 전처리부(410), 스팸판단부(420) 및 전처리DB(430)를 포함한다.The
전처리부(410)는 상기 수신된 단문메세지를 필터링규칙에 적용하기 위한 형태인 전처리된 문서로 변형한다.The
스팸 판단부(420)는 상기 전처리된 문서를 필터링규칙을 이용하여 스팸여부를 판단한다.The
그리고 전처리DB(430)는 상기 전처리부(410)에서 상기 단문메시지를 전처리된 문서로 변형하기 위한 데이터가 저장되어 있다.The preprocessing DB 430 stores data for transforming the short message into a preprocessed document in the
상기 스팸필터링서버(400)에 대해서는 이하 도2에서 보다 더 자세히 설명한 다.The
도2는 본 발명의 일 실시예에 따른 스팸필터링서버의 블록도이다.2 is a block diagram of a spam filtering server according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 스팸필터링서버(400)는 상술한 바와 같이 전처리부(410), 스팸판단부(420) 및 전처리DB(430)를 포함한다.The
전처리부(410)는 다시 특수문자처리부(411), 분리문자처리부(412), 형태소처리부(413) 및 키워드추출부(414)를 포함한다.The
특수문자처리부(411)는 상기 수신된 단문메시지에서 특수문자를 추출하고, 상기 추출된 특수문자가 의미있는 경우에는 특수문자를 일반문자로 변환하고, 의미없는 경우에는 특수문자를 삭제하는 기능을 수행한다.The special
즉 단문메시지에서 "대▶출"과 같은 내용이 있다고 가정할 때, 상기 특수문자처리부(411)는 상기 단문메시지에서 특수문자인 "▶"를 추출하고, 이는 의미없는 경우이므로 삭제하는 기능을 수행한다. 이에 따라 상기 특수문자처리부(411)를 거치면 "대▶출"라는 내용이 기재된 단문메시지는 "대출"이라는 내용으로 전처리되고 이렇게 전처리된 단문메시지는 스팸판단부(420)에서 필터링이 가능해지게 된다.That is, when it is assumed that there is a content such as "loan ▶" in the short message, the special
또한 단문메시지에 의미 있는 특수 문자가 있다고 가정할 때, 즉 예를 들어 " ㉢, ㈀, ㉲"와 같은 특수문자인 경우에는 "ㄷ, ㄱ, 마"과 같은 일반문자로 전처리 된다. 이에 따라 상기 특수문자처리부(411)를 거치면 "경㉲"라는 내용이 기재된 단문메시지는 "경마"이라는 내용으로 전처리되고 이렇게 전처리된 단문메시지는 스팸판단부(420)에서 필터링이 가능해지게 된다.In addition, assuming that a short message has a meaningful special character, that is, for example, a special character such as "㉢, ㈀, ㉲", it is preprocessed as a general character such as "ㄷ, a, e". Accordingly, after passing through the special
분리문자처리부(412)는 상기 수신된 단문메시지에서 자모가 분리된 글자를 추출하고, 상기 추출된 분리문자를 합쳐서 일반문자로 변형하는 기능을 수행한다.The
즉 단문메시지에서 "ㄷ ㅐ ㅊ ㅜ ㄹ 상담"과 같은 내용이 있다고 가정할 때, 상기 분리문자처리부(412)는 상기 단문메시지에서 자모가 분리된 글자인 "ㄷ ㅐ ㅊ ㅜ ㄹ"를 추출하고, 상기 추출된 분리문자를 합쳐서 "대출"이라는 일반문자로 변형한다. 결과적으로 상기 "ㄷ ㅐ ㅊ ㅜ ㄹ 상담"라는 내용이 기재된 단문메시지는 "대출상담"이라는 내용으로 전처리되고 이렇게 전처리된 단문메시지는 스팸판단부(420)에서 필터링이 가능해지게 된다.That is, assuming that there is a content such as "ㄷ ㅐ ㅊ ㄹ ㄹ consultation" in the short message, the
형태소 처리부(413)는 단문메시지를 낱말단위로 분석하기 위해 형태소 분석을 실시하는 기능을 수행한다. 이를 통해서 단문메시지에서 조사등을 제거하여 스팸판단부(420)에서 보다 더 효율적인 필터링이 가능해지게 된다.The
키워드 추출부(414)는 단문메시지에서 키워드를 추출하는 기능을 수행한다. 이렇게 키워드만 추출함으로써 스팸판단부(420)에서 보다 더 효율적인 필터링이 가능해지게 된다.The
전처리DB(430)는 상기 전처리부(410)에서 상기 단문메시지를 전처리된 문서로 변형하기 위한 데이터가 저장되어 있다. 이러한 전처리DB(430)는 상기 전처리DB는 1개 이상의 특수문자와 이에 대응되는 일반문자를 포함하고 있어서, 상기 전처리부(410)에서 전처리를 수행함에 있어서 필요한 데이터를 제공해주게 된다. The
이러한 전처리DB(430)는 전처리를 위해서 필요한 다양한 데이터를 제공하는데, 특히 문법형태소사전, 어휘형태소사전, 분야별용어사전,사용자정의사전 및 기분석사전등을 포함한다.The
또한 외부로부터 단문 스팸 메시지 형태 동향을 분석하여, 기존에는 전처리하지 않았던 특정 문자 패턴이 스팸 메시지에 쓰이고 있다는 것을 발견하는 경우도 있다. 이러한 경우 새로운 특정 문자 패턴을 전처리 DB에서 등록하여, 전처리 서버에서 이러한 정보를 인식하고 특정 문자 패턴을 전처리 DB에 등록된 새로운 문자열로 대치하는 것도 가능하다. In addition, by analyzing trends of short spam message types from the outside, it is sometimes found that a specific character pattern that has not been preprocessed is used in the spam message. In this case, it is also possible to register a new specific character pattern in the preprocessing DB, recognize the information in the preprocessing server, and replace the specific character pattern with a new string registered in the preprocessing DB.
이를 위해 상기 전처리 DB에서는 외부 스팸 수집, 운용자에 의한 입력, 기타 외부 DB로부터의 정보 전송을 통해 신규 특정 문자열을 입력하거나, 기존 특정 문자열을 편집할 수 있는 기능을 포함한다.To this end, the preprocessing DB includes a function of inputting a new specific string or editing an existing specific string through external spam collection, input by an operator, and transmission of information from other external DBs.
도3은 본 발명의 일 실시예에 따른 스팸단문메시지 처리방법을 설명하기 위한 순서도이다.3 is a flowchart illustrating a spam short message processing method according to an embodiment of the present invention.
우선 발신단말기(100)가 단문메시지를 작성하면, 상기 단문메시지는 이동통신망(200)을 통해서 단문메시지센터(300)로 전송된다(S510, S515)First, if the calling
이후 홈위치등록기(HLR)로 상기 메시지의 수신자 즉 착신단말기의 소유자인 착신자가 스팸 차단서비스에 가입했는지의 여부를 확인한다(S520)Thereafter, the home location register (HLR) checks whether the recipient of the message, that is, the receiver of the called terminal, has subscribed to the spam blocking service (S520).
상기 착신자가 스팸 차단 서비스에 가입한 것이 확인될 경우 상기 단문메시지를 스팸필터링서버(400)의 전처리부(410)로 전달한다(S530).When it is confirmed that the called party subscribes to the spam blocking service, the short message is transmitted to the
상기 전처리부(410)는 전처리를 위해서 필요한 데이터를 전처리DB(430)로부터 가져온 후에, 상기 데이터를 이용하여 상기 단문메시지를 전처리한다(S540).The
이 후 상기 전처리된 문서는 스팸판단부(420)로 전송된다(S550).Thereafter, the preprocessed document is transmitted to the spam determination unit 420 (S550).
스팸판단부(420)는 전처리된 문서의 스팸여부를 판단하고(S560), 이렇게 판 단된 결과를 단문메시지센터(300)로 전송한다(S570).The
단문메시지센터(300)는 상기 스팸판단부(420)로부터 상기 단문메시지가 스팸이 아니라는 결과를 받은 경우, 상기 단문메시지를 이동통신망(200)을 통해서 착신단말기(110)로 전송한다(S580, S585).If the
도 4는 본 발명의 일 실시예에 따른 스팸단문메시지 전처리방법을 설명하기 위한 순서도이다.4 is a flowchart illustrating a spam short message preprocessing method according to an embodiment of the present invention.
우선 전처리부(410)는 단문메시지센터(300)로부터 단문메시지를 수신한다(S610).First, the
이 후 수신된 단문메시지에서 특수문자를 추출한다(S620). After that, a special character is extracted from the received short message (S620).
상기 추출된 특수문자가 의미가 없는 경우라면(S630-N), 상기 특수문자를 삭제한다(S640). 즉 단문메시지에서 "대▶출"과 같은 내용이 있다고 가정할 때, 상기 특수문자처리부(411)는 상기 단문메시지에서 특수문자인 "▶"를 추출하고(S620), 이는 의미없는 경우(S630-N)이므로 삭제하는 기능을 수행한다(S640). 이에 따라 "대▶출"라는 내용이 기재된 단문메시지는 "대출"이라는 내용으로 전처리된다.If the extracted special character has no meaning (S630-N), the special character is deleted (S640). In other words, assuming that there is a content such as "loan" in a short message, the special
또한 단문메시지에 의미 있는 특수 문자가 있다고 가정할 때(S630-Y), 즉 예를 들어 " ㉢, ㈀, ㉲"와 같은 특수문자인 경우에는 "ㄷ, ㄱ, 마"과 같은 일반문자로 변환한다(S635). 이러한 전처리를 통해서 "경㉲"라는 내용이 기재된 단문메시지는 "경마"이라는 내용으로 전처리된다.In addition, assuming that a short message has a meaningful special character (S630-Y), that is, for example, a special character such as "㉢, ㈀, ㉲" is converted to a general character such as "ㄷ, ,, 마". (S635). Through this pretreatment, a short message having a content of "warning" is preprocessed with "horse racing".
그리고 분리문자가 존재하는 경우(S650-Y)에는 상기 분리문자를 합쳐서 일반문자로 변형한다(S655). 즉 단문메시지에서 "ㄷ ㅐ ㅊ ㅜ ㄹ 상담"과 같은 내용이 있다고 가정할 때, 상기 단문메시지에서 자모가 분리된 글자인 "ㄷ ㅐ ㅊ ㅜ ㄹ"를 추출하고, 상기 추출된 분리문자를 합쳐서 "대출"이라는 일반문자로 변형한다. 결과적으로 상기 "ㄷ ㅐ ㅊ ㅜ ㄹ 상담"라는 내용이 기재된 단문메시지는 "대출상담"이라는 내용으로 전처리되게 된다.If there is a delimiter (S650-Y), the delimiter is combined and transformed into a normal character (S655). In other words, assuming that a short message has the same content as "ㄷ ㅐ ㅊ ㄹ ㄹ consultation", the short message is extracted with the letter "ㄷ ㅐ ㅊ ㄹ ㄹ." And the extracted delimiters are combined to " Loan ". As a result, the short message in which the contents of the "c ㅐ ㅅ ㅜ ㄹ consultation" are described is preprocessed with the contents of "loan counseling."
그 다음으로 상기 단문메시지를 낱말단위로 분석하기 위해 형태소 분석을 실시하는 기능을 수행한다(S660). 이를 통해서 단문메시지에서 조사등을 제거하여 스팸판단부(420)에서 보다 더 효율적인 필터링이 가능해지게 된다.Subsequently, the morphological analysis is performed to analyze the short message in word units (S660). This removes the investigation from the short message it is possible to filter more efficiently than the
그리고 단문메시지에서 키워드를 추출한다(S665).The keyword is extracted from the short message (S665).
이렇게 전처리된 문서를 가지고 이후 필터링규칙을 이용하여 스팸여부를 판단한다(S670).The preprocessed document is used to determine whether or not spam using filtering rules (S670).
스팸여부 판단결과 스팸으로 판단되는 경우에는(S670-Y), 상기 단문메시지는 삭제한다(S685). 반대로 스팸여부 판단결과 스팸이 아니라고 판단되는 경우에는(S670-N), 상기 단문메시지를 착신단말기에 전송되도록 한다(S680).If it is determined that the spam is spam (S670-Y), the short message is deleted (S685). On the contrary, if it is determined that the spam is not spam (S670-N), the short message is transmitted to the called terminal (S680).
지금까지 바람직한 실시예에 따른 스팸메시지의 필터링의 정확도를 높이기 위한 전처리기능을 포함하는 스팸필터링 시스템 및 이를 이용한 스팸필터링 방법에 대해서 설명하였다.So far, a spam filtering system including a preprocessing function for improving the accuracy of filtering a spam message and a spam filtering method using the same have been described.
한편 본 실시예에서는 상기 전처리과정을 이동통신망에서 메시지의 스팸 여부를 판별하는 스팸필터링서버에서 적용되는 방법에 대해서 설명하였으나, 이에 한정되는 것은 아니다. 따라서 착신단말기에서 이미 수신받은 단문메시지의 스팸여부를 판단하는 경우에도 적용될 수 있음은 물론이다. 즉 휴대단말기에 상기 전처리를 수행하는 구성요소가 내장되어서, 휴대단말기에서 스팸필터링을 하기 전에 전처리를 수행하는 방법에도 적용될 수 있음은 물론이다.Meanwhile, the present embodiment has been described with reference to a method applied to the spam filtering server for determining whether the message is spam in a mobile communication network, but is not limited thereto. Therefore, it can be applied to the case where the receiving terminal determines whether the received short message is spam. That is, since the mobile terminal has a built-in component for performing the preprocessing, the mobile terminal may be applied to a method for performing the preprocessing before spam filtering in the mobile terminal.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is clearly understood that the same is by way of illustration and example only and is not to be construed as limiting the scope of the invention as defined by the appended claims. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention.
본 발명에 따른 전처리기능을 포함하는 스팸필터링 시스템 및 이를 이용한 스팸필터링 방법은 최근 변형되어 사용되는 스팸메시지로 인하여 종래의 스팸필터링규칙만으로는 필터링이 되지 않는 점을 극복하기 위한 방안으로, 상기 변형된 메시지를 일반적인 메시지로 전처리를 수행한 후에 스팸필터링규칙을 적용한다는 점에서 기존 기술의 한계를 뛰어 넘음에 따라, 관련 기술에 대한 이용만이 아닌 적용되는 이동통신 시스템 및 단말장치로의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.The spam filtering system including the preprocessing function and the spam filtering method using the same according to the present invention are methods for overcoming the conventional spam filtering rules, which are not filtered due to the spam messages used in recent years. As it goes beyond the limitations of the existing technology in that the pre-processing is performed as a general message and then the spam filtering rule is applied, the possibility of marketing or sales to the applied mobile communication system and terminal equipment as well as the use of the related technology. This is not only sufficient but also practically evident, and thus it is an invention with industrial applicability.
도1은 본 발명에 따른 스팸필터링 시스템을 나타내는 개략적인 구성도,1 is a schematic block diagram showing a spam filtering system according to the present invention;
도2는 본 발명의 일 실시예에 따른 스팸필터링서버의 블록도,2 is a block diagram of a spam filtering server according to an embodiment of the present invention;
도3은 본 발명의 일 실시예에 따른 스팸메시지 처리방법을 설명하기 위한 순서도, 및3 is a flowchart illustrating a spam message processing method according to an embodiment of the present invention;
도 4는 본 발명의 일 실시예에 따른 스팸메시지 전처리방법을 설명하기 위한 순서도이다.4 is a flowchart illustrating a spam message preprocessing method according to an embodiment of the present invention.
* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings
100: 발신단말 110: 착신단말100: calling terminal 110: called terminal
200 : 이동통신망 300: 단문메시지센터200: mobile communication network 300: short message center
310: 홈위치등록기 400: 스팸필터링서버310: home location register 400: spam filtering server
410: 전처리부 420: 스팸판단부410: preprocessing unit 420: spam determination unit
430: 전처리DB430: preprocessing DB
Claims (23)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090079756A KR20110022245A (en) | 2009-08-27 | 2009-08-27 | Spam filtering system using a front-end processing and spam filtering method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090079756A KR20110022245A (en) | 2009-08-27 | 2009-08-27 | Spam filtering system using a front-end processing and spam filtering method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20110022245A true KR20110022245A (en) | 2011-03-07 |
Family
ID=43930691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090079756A KR20110022245A (en) | 2009-08-27 | 2009-08-27 | Spam filtering system using a front-end processing and spam filtering method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20110022245A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101426616B1 (en) * | 2012-11-23 | 2014-08-06 | 주식회사 우리은행 | Method of intercepting spam message and apparatus performing the same |
-
2009
- 2009-08-27 KR KR1020090079756A patent/KR20110022245A/en not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101426616B1 (en) * | 2012-11-23 | 2014-08-06 | 주식회사 우리은행 | Method of intercepting spam message and apparatus performing the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101534261B (en) | A method, device and system of recognizing spam information | |
US7317788B2 (en) | Method and system for providing a voice mail message | |
US7739337B1 (en) | Method and apparatus for grouping spam email messages | |
WO2013063955A1 (en) | Customer service system and customer service information pushing method | |
EP2896162B1 (en) | Determining additional information associated with geographic location information | |
JP2002125047A5 (en) | ||
CN112333709B (en) | Cross-network fraud association analysis method and system and computer storage medium | |
KR20060012137A (en) | Spam mail filtering system and method capable of recognizing and filtering spam mail in real time | |
CN106874448B (en) | Method and device for mining earthquake subject term from microblog | |
US20110202621A1 (en) | Method and system for e-mail enhancement | |
WO2020102349A1 (en) | Methods, systems, and apparatus for email to persistent messaging and/or text to persistent messaging | |
CN1102775C (en) | System for automatic checking screening transmission of network personal information and method for realizing the same | |
CN101980156A (en) | Method for automatically extracting email address and creating new email | |
JP7028179B2 (en) | Information processing equipment, information processing methods and computer programs | |
US9584537B2 (en) | System and method for detecting mobile cyber incident | |
US20010027466A1 (en) | Electronic mail transfer device and system, electronic mail transfer method | |
KR20110022245A (en) | Spam filtering system using a front-end processing and spam filtering method thereof | |
KR20040072059A (en) | Method for automatically blocking spam mail by connection of link url | |
JPH11316762A (en) | Method and device for transferring and displaying electronic mail summary and storage medium stored with electronic mail summary transfer and display program | |
WO2007032606A1 (en) | Context cognizance enhancing message transform system, and method for the same | |
JP2005222207A (en) | Filtering method and device for communication data | |
KR20040013180A (en) | Email blocking algorithm and system based on URL pattern matching method | |
CN1592280A (en) | Gateway for web page outline | |
JP2008234437A (en) | Electronic mail incorrect transmission prevention device and electronic mail incorrect transmission prevention method and program | |
CN113850283A (en) | Method and device for identifying violation of RCS (Rich client System) message |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |