KR102322918B1 - System and method for detecting online living crime - Google Patents

System and method for detecting online living crime Download PDF

Info

Publication number
KR102322918B1
KR102322918B1 KR1020200150176A KR20200150176A KR102322918B1 KR 102322918 B1 KR102322918 B1 KR 102322918B1 KR 1020200150176 A KR1020200150176 A KR 1020200150176A KR 20200150176 A KR20200150176 A KR 20200150176A KR 102322918 B1 KR102322918 B1 KR 102322918B1
Authority
KR
South Korea
Prior art keywords
data
illegal
keyword
suspicious
text
Prior art date
Application number
KR1020200150176A
Other languages
Korean (ko)
Inventor
안동욱
남상도
황의수
박지영
허석재
최진
Original Assignee
(주)미소정보기술
주식회사 어바웃그룹
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)미소정보기술, 주식회사 어바웃그룹 filed Critical (주)미소정보기술
Priority to KR1020200150176A priority Critical patent/KR102322918B1/en
Application granted granted Critical
Publication of KR102322918B1 publication Critical patent/KR102322918B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06K2209/01

Abstract

The present invention relates to a deep learning-based online life crime detection system and a method. According to one aspect of the present invention, provided is a method for detecting the online life crime, which includes the steps of: a) receiving target data for early detection of the online life crime by a target data collection module; b) determining whether the target is suspected illegal data by applying a suspected illegal data discrimination model to the target data by a suspected illegal data determination module; and c) performing crime prevention which measures and countermeasures for the suspected illegal data by a crime response module. Therefore, after collecting online data, it is possible to analyze the collected online data based on deep learning to determine whether the collected online data is the suspected illegal data, and if it is determined to be the suspected illegal data, follow-up measures can be implemented.

Description

온라인 생활범죄 감지 시스템 및 방법{SYSTEM AND METHOD FOR DETECTING ONLINE LIVING CRIME}SYSTEM AND METHOD FOR DETECTING ONLINE LIVING CRIME

본 발명은 온라인 생활범죄 감지 시스템 및 방법에 관한 것이다.The present invention relates to an online life crime detection system and method.

초고속 인터넷 망의 발달로 인하여 사용자들은 언제 어디서든지 인터넷을 이용할 수 있게 됨에 따라 사용자들은 포털 사이트에 접속하여 정보를 습득하거나 뉴스, 영화 등을 볼 수도 있게 되었다.With the development of high-speed Internet networks, users can use the Internet anytime, anywhere, and users can access portal sites to acquire information or watch news and movies.

그러나, 인터넷 사용의 증가로 인해 인터넷 사용에 따른 피해 역시 함께 증가하고 있다. 온라인 상에서는 남녀노소에 상관없이 모두 접속이 가능하고 네티즌들로부터 게시된 데이터는 아무런 여과 없이 그대로 게시되기 때문에, 청소년들에게 해로운 성인 광고를 게시하게 되면 청소년들의 정신 건강에 해로울 수 있다. 또한, 네티즌들의 생각을 서로 토론하는 공간에 광고성 글을 많이 게시되어 있으면 웹 페이지에서 토론 공간을 운영하는 본래의 목적을 달성하기 어렵다는 문제점이 있다.However, due to the increase in Internet use, the damage caused by Internet use is also increasing. Since online access is available to all regardless of age and gender, and data posted by netizens is posted without any filtering, posting adult advertisements that are harmful to adolescents can be harmful to the mental health of adolescents. In addition, there is a problem in that it is difficult to achieve the original purpose of operating a discussion space on a web page if many advertisements are posted in a space where netizens discuss their thoughts with each other.

뿐만 아니라, 온라인 상에서의 생활범죄 역시 함께 증가하고 있다. 생활범죄란 일상생활에서 자주 접하는 자전거 절도 등 경미한 형사범죄를 말하는데, 인터넷 상에서도 이러한 일상생활에서 자주 접할 수 있는 생활범죄, 예를 들어 도박, 대출사기, 알바사기, 불법 피라미드, 피싱 사기 등이 점차 증가하고 있다. In addition, life crimes online are also increasing. Life crimes refer to minor criminal crimes such as bicycle theft that are frequently encountered in daily life, and life crimes that are frequently encountered in daily life on the Internet, such as gambling, loan fraud, part-time job fraud, illegal pyramid schemes, and phishing scams, are gradually increasing. are doing

기존에는 이러한 사이버 범죄를 방지하게 위해 네티즌들이 "신고"버튼을 누르면, 웹 페이지 관리자에게 보고되어 이러한 사이버 범죄 관련 글이 웹 페이지상에 게시되지 않도록 조치를 취하고 있다. 또한, 웹 페이지 관리자가 일일이 네티즌들로부터 등록되는 데이터가 범죄와 연관될 수 있는 글인지를 확인한 후 삭제하는 방식으로 스팸 데이터로부터 네티즌들을 보호할 수 있었다.In the past, to prevent such cybercrime, when netizens press the "Report" button, it is reported to the web page administrator, and measures are taken to prevent such cybercrime related articles from being posted on the web page. In addition, the web page administrator was able to protect netizens from spam data by checking whether the data registered by the netizens one by one was a post that could be related to crime and then deleting it.

그러나 이러한 방식은 실시간으로 등록되는 전체 데이터에 대해 확인하는 일은 쉽지 않을 뿐 아니라 그에 따른 인력을 충원하기 위해 많은 비용이 필요하다는 문제점이 제기된다. 또한, 웹 페이지에 글을 올리는 일이 일반화되고 있는 반면에 허위광고, 성인광고에 관련된 글도 많이 게시되어 건전한 인터넷 문화를 정착해 나가는데 악영향을 초래하고 있다.However, this method raises a problem that it is not easy to check the entire data registered in real time, and that a large amount of cost is required to fill the corresponding manpower. In addition, while posting articles on web pages is becoming common, many articles related to false advertisements and adult advertisements are also posted, which adversely affects the establishment of a healthy Internet culture.

이에 따라 점차 증가하는 사이버 상 생활범죄를 미리 사전에 탐지하고 방지할 수 있도록 하는 알고리즘의 개발이 요구되고 있으며, 본 발명에서는 온라인 생활범죄를 조기에 감지하고 이에 대한 대응을 수행할 수 있는 시스템 및 방법을 제안한다.Accordingly, there is a need to develop an algorithm capable of detecting and preventing the increasing number of cyber crimes in advance, and in the present invention, a system and method capable of detecting and responding to online crimes early suggest

본 발명의 일 실시예는 온라인 상의 데이터를 수집한 후 딥러닝을 기반으로 이를 분석하여 불법 의심 데이터를 판별하며, 불법 의심 데이터로 판별된 경우 이에 대한 후속 조치를 시행할 수 있는 온라인 생활범죄 감지 시스템 및 방법을 제공하는 것을 목적으로 한다.An embodiment of the present invention is an online life crime detection system that collects online data and then analyzes it based on deep learning to determine illegal suspicious data, and when it is determined to be illegal suspicious data, it is possible to implement follow-up measures and to provide a method.

한편, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.On the other hand, the technical problems to be achieved in the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned are clearly to those of ordinary skill in the art to which the present invention belongs from the description below. can be understood

본 발명의 일 실시예에 따른 온라인 생활범죄 감지 방법은 온라인 생활범죄 감지 시스템에 의해, a) 온라인 생활범죄 조기 탐지를 수행할 대상 데이터를 입력 받는 단계; b) 상기 대상 데이터에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계; 및 c) 상기 불법 의심 데이터에 대한 범죄 예방 조치 및 대응 조치를 수행하는 단계를 포함한다.An online life crime detection method according to an embodiment of the present invention comprises the steps of: a) receiving target data for early online life crime detection by an online life crime detection system; b) determining illegal suspicious data by applying a suspicious illegal identification model to the target data; and c) performing crime prevention measures and countermeasures for the suspected illegal data.

상기 a) 단계는: a-1) 데이터 크롤링을 통해 검색엔진 및 SNS을 포함한 오픈 데이터로부터 대상 데이터를 입력 받는 단계; 및 a-2) 데이터 크롤링을 통해 URL 주소로부터 대상 데이터를 입력 받는 단계를 포함할 수 있다.The step a) includes: a-1) receiving target data from open data including a search engine and SNS through data crawling; and a-2) receiving target data from a URL address through data crawling.

상기 b) 단계는: b-1) 상기 대상 데이터에 포함된 텍스트 데이터에서 특수 문자를 제외시킨 후 자연어 처리하여 제1 키워드를 추출하는 단계; b-2) 상기 대상 데이터에 포함된 이미지 데이터에 OCR 모델을 적용하여 제2 키워드를 추출하는 단계; 및 b-3) 상기 제1 키워드와 상기 제2 키워드에 상기 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계를 포함할 수 있다.Step b) may include: b-1) extracting a first keyword by excluding special characters from text data included in the target data and performing natural language processing; b-2) extracting a second keyword by applying an OCR model to the image data included in the target data; and b-3) applying the suspected illegality determination model to the first keyword and the second keyword to determine suspicious illegal data.

상기 b-2) 단계는: b-2-1) 상기 이미지 데이터에 OCR 모델을 적용하여 음소 단위의 텍스트를 추출하는 단계; b-2-2) 상기 음소 단위의 텍스트를 기반으로 상기 텍스트의 언어 종류를 판단하는 단계; b-2-3) 상기 b-2-2) 단계에서 판단된 언어 종류에서의 필기 방향을 고려하여 상기 음소 단위의 텍스트를 조합하여 조합 텍스트를 생성하는 단계; 및 b-2-4) 상기 조합 텍스트를 상기 제2 키워드로서 추출하는 단계를 포함할 수 있다.Step b-2) may include: b-2-1) extracting text in phoneme units by applying an OCR model to the image data; b-2-2) determining a language type of the text based on the phoneme unit text; b-2-3) generating a combined text by combining the phoneme unit text in consideration of the handwriting direction in the language type determined in step b-2-2); and b-2-4) extracting the combined text as the second keyword.

상기 b-2) 단계는: b-2-5) 재조합 텍스트 생성 유닛에 의해 상기 b-2-2) 단계에서 판단된 언어 종류인 제1 언어에서의 제1 음소의 형상과 상기 제1 언어와 다른 언어 종류인 제2 언어의 제2 음소의 형상 간의 유사도가 기 설정된 값을 초과하는 경우, 상기 제2 음소를 상기 제1 음소로 치환하여 재조합 텍스트를 생성하는 단계; 및 b-2-6) 제2 키워드 추출 유닛에 의해 상기 재조합 텍스트를 상기 제2 키워드로서 추출하는 단계를 더 포함할 수 있다.The step b-2) includes: b-2-5) the shape of the first phoneme in the first language, which is the language type determined in step b-2-2) by the recombinant text generating unit, and the first language; generating a recombinant text by replacing the second phoneme with the first phoneme when the similarity between shapes of second phonemes of a second language, which is a different language type, exceeds a preset value; and b-2-6) extracting the recombinant text as the second keyword by a second keyword extraction unit.

상기 b) 단계는: b-4) 의심 키워드 설정부에 의해 상기 제1 키워드와 상기 제2 키워드를 의심 키워드로 설정하는 단계; b-5) 연관 키워드 산출부에 의해 상기 의심 키워드와 연관된 연관 키워드를 산출하는 단계; 및 b-6) 불법 의심 데이터 판별부에 의해 상기 의심 키워드와 상기 연관 키워드에 상기 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계를 더 포함할 수 있다.The step b) includes: b-4) setting the first keyword and the second keyword as suspicious keywords by a suspicious keyword setting unit; b-5) calculating a related keyword associated with the suspicious keyword by a related keyword calculating unit; and b-6) applying the suspected illegality discrimination model to the suspicious keyword and the related keyword by the suspicious illegal data determining unit to determine the suspicious illegal data.

상기 c) 단계는: c-1) 유관 기관 신고부에 의해 상기 불법 의심 데이터를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계; c-2) 피해 신고 절차 제공부에 의해 사용자에게 피해 신고 절차를 제공하는 단계; c-3) 소장 제공부에 의해 사용자에게 진정서 또는 소장 작성 방법을 제공하거나, 작성을 대행하는 단계; 및 c-4) 상기 유관 기관 신고부에 의해 상기 URL 주소를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계를 포함할 수 있다.The step c) includes: c-1) providing the suspected illegal data to the relevant organization for each online life crime by the relevant organization reporting unit; c-2) providing a damage report procedure to the user by a damage report procedure providing unit; c-3) providing a complaint or complaint writing method to the user by the complaint providing unit, or writing the complaint on behalf of the user; and c-4) providing the URL address to the relevant institution for each online life crime by the relevant institution reporting unit.

상기 불법 의심 판별 모델은: 딥러닝 모델을 통해 상기 대상 데이터를 분석하고, 분석 결과를 기반으로 상기 불법 의심 데이터를 판별하도록 구성될 수 있다.The illegal suspicion determination model may be configured to: analyze the target data through a deep learning model, and determine the suspicious illegal data based on the analysis result.

상기 불법 의심 판별 모델은: 사용자로부터 입력 받은 제1 학습 데이터를 기반으로 학습을 수행하되; Open API를 통해 공공 데이터로부터 입력 받은 제2 학습 데이터를 추가로 학습하고; 상기 불법 의심 판별 모델에 의해 불법 의심 데이터로 판별된 데이터인 제3 학습 데이터를 추가로 학습하도록 구성될 수 있다.The illegal suspicion determination model may include: performing learning based on first learning data input from a user; additionally learning the second learning data received from public data through the Open API; It may be configured to additionally learn third learning data, which is data determined to be illegal suspicious data by the suspected illegality determination model.

본 발명의 일 실시예에 따른 온라인 생활범죄 감지 시스템은 온라인 생활범죄 조기 탐지를 수행할 대상 데이터를 입력 받도록 구성되는 대상 데이터 수집 모듈; 상기 대상 데이터에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하도록 구성되는 불법 의심 데이터 판별 모듈; 및 상기 불법 의심 데이터에 대한 범죄 예방 조치 및 대응 조치를 수행하도록 구성되는 범죄 대응 모듈을 포함한다.An online life crime detection system according to an embodiment of the present invention includes a target data collection module configured to receive target data for performing early detection of online life crimes; an illegal suspicious data determination module configured to determine illegal suspicious data by applying a suspicious illegal identification model to the target data; and a crime response module configured to perform crime prevention measures and countermeasures for the suspected illegal data.

본 발명의 일 실시예에 따른 온라인 생활범죄 감지 시스템 및 방법은 온라인 상의 데이터를 수집한 후 딥러닝을 기반으로 이를 분석하여 불법 의심 데이터를 판별하며, 불법 의심 데이터로 판별된 경우 이에 대한 후속 조치를 시행할 수 있다.The online life crime detection system and method according to an embodiment of the present invention collects online data and analyzes it based on deep learning to determine illegal suspicious data, and if it is determined to be illegal suspicious data, follow-up measures are taken. can be implemented

한편, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.On the other hand, the effects obtainable in the present invention are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those of ordinary skill in the art to which the present invention belongs from the following description. will be able

도 1은 온라인 생활범죄 감지 시스템(10)의 각 구성과 이를 통해 온라인 생활범죄 감지 방법(S10)이 수행되는 모습을 개략적으로 나타낸 도면이다.
도 2는 온라인 생활범죄 감지 방법(S10)을 나타낸 순서도이다.
도 3은 대상 데이터 수집 모듈(100)에 의해 수행되는 S100 단계를 보다 상세히 나타낸 순서도이다.
도 4는 불법 의심 데이터 판별 모듈(200)에 의해 수행되는 S200 단계를 보다 상세히 나타낸 순서도이다.
도 5는 제2 키워드 추출부(220)의 각 구성을 개략적으로 나타낸 도면이다.
도 6은 제2 키워드 추출부(220)에 의해 수행되는 S220 단계를 보다 상세히 나타낸 순서도이다.
도 7은 도 6의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223) 및 제2 키워드 추출 유닛(224)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.
도 8은 도 6의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223), 제2 키워드 추출 유닛(224) 및 재조합 텍스트 생성 유닛(225)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.
1 is a diagram schematically showing each configuration of an online life crime detection system 10 and a state in which an online life crime detection method S10 is performed through it.
2 is a flowchart illustrating an online life crime detection method (S10).
3 is a flowchart illustrating in more detail step S100 performed by the target data collection module 100 .
4 is a flowchart illustrating in more detail step S200 performed by the suspicious illegal data determination module 200 .
5 is a diagram schematically showing each configuration of the second keyword extraction unit 220 .
6 is a flowchart illustrating in more detail step S220 performed by the second keyword extraction unit 220 .
7 is a diagram of extracting a second keyword in step S220 by the phoneme unit text extraction unit 221 , the language type determining unit 222 , the combined text generation unit 223 and the second keyword extraction unit 224 of FIG. 6 . It is an example diagram showing the appearance.
8 is S220 by the phoneme unit text extraction unit 221 , the language type determination unit 222 , the combined text generation unit 223 , the second keyword extraction unit 224 , and the recombinant text generation unit 225 of FIG. 6 . It is an exemplary diagram showing the state of extracting the second keyword in the step.

본 발명의 다른 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되는 실시 예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예는 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 만일 정의되지 않더라도, 여기서 사용되는 모든 용어들(기술 혹은 과학 용어들을 포함)은 이 발명이 속한 종래 기술에서 보편적 기술에 의해 일반적으로 수용되는 것과 동일한 의미를 가진다. 일반적인 사전들에 의해 정의된 용어들은 관련된 기술 그리고/혹은 본 출원의 본문에 의미하는 것과 동일한 의미를 갖는 것으로 해석될 수 있고, 그리고 여기서 명확하게 정의된 표현이 아니더라도 개념화되거나 혹은 과도하게 형식적으로 해석되지 않을 것이다.Other advantages and features of the present invention, and a method of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only this embodiment serves to complete the disclosure of the present invention, and to obtain common knowledge in the technical field to which the present invention pertains. It is provided to fully inform the possessor of the scope of the invention, and the present invention is only defined by the scope of the claims. Even if not defined, all terms (including technical or scientific terms) used herein have the same meaning as commonly accepted by common technology in the prior art to which this invention belongs. Terms defined by general dictionaries may be interpreted as having the same meaning as in the related description and/or in the text of the present application, and shall not be interpreted conceptually or overly formally, even if not expressly defined herein. won't

본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다' 및/또는 이 동사의 다양한 활용형들 예를 들어, '포함', '포함하는', '포함하고', '포함하며' 등은 언급된 조성, 성분, 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 조성, 성분, 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. As used herein, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, 'comprise' and/or various conjugations of this verb, eg, 'comprise', 'comprising', 'comprising', 'comprising', etc., refer to the referenced composition, ingredient, component, A step, operation and/or element does not exclude the presence or addition of one or more other compositions, components, components, steps, operations and/or elements.

본 명세서에서 '및/또는' 이라는 용어는 나열된 구성들 각각 또는 이들의 다양한 조합을 가리킨다. 한편, 본 명세서 전체에서 사용되는 '~부', '~기', '~블록', '~모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미할 수 있다. 예를 들어 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미할 수 있다. 그렇지만 '~부', '~기', '~블록', '~모듈' 등이 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부', '~기', '~블록', '~모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 이하, 본 명세서의 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.As used herein, the term 'and/or' refers to each of the listed components or various combinations thereof. Meanwhile, terms such as '~ unit', '~ group', '~ block', and '~ module' used throughout this specification may mean a unit that processes at least one function or operation. For example, it can mean software, hardware components such as FPGAs or ASICs. However, '~ part', '~ group', '~ block', and '~ module' are not meant to be limited to software or hardware. '~ unit', '~ group', '~ block', and '~ module' may be configured to reside in an addressable storage medium or to regenerate one or more processors. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings of the present specification.

도 1은 온라인 생활범죄 감지 시스템(10)의 각 구성과 이를 통해 온라인 생활범죄 감지 방법(S10)이 수행되는 모습을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing each configuration of an online life crime detection system 10 and a state in which an online life crime detection method (S10) is performed through it.

도 2는 온라인 생활범죄 감지 방법(S10)을 나타낸 순서도이다.2 is a flowchart illustrating an online life crime detection method (S10).

도 1 및 도 2를 참조하면, 온라인 생활범죄 감지 시스템(10)은 대상 데이터 수집 모듈(100), 불법 의심 데이터 판별 모듈(200) 및 범죄 대응 모듈(300)을 포함한다.1 and 2 , the online life crime detection system 10 includes a target data collection module 100 , an illegal suspicious data determination module 200 , and a crime response module 300 .

대상 데이터 수집 모듈(100)은 온라인 생활범죄 조기 탐지를 수행할 대상 데이터를 입력 받도록 구성된다. 불법 의심 데이터 판별 모듈(200)은 대상 데이터에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하도록 구성된다. 범죄 대응 모듈(300)은 불법 의심 데이터에 대한 범죄 예방 조치 및 대응 조치를 수행하도록 구성된다.The target data collection module 100 is configured to receive target data for performing early detection of online life crimes. The suspicious illegal data determination module 200 is configured to determine the illegal suspicious data by applying the suspicious illegal identification model to the target data. The crime response module 300 is configured to perform crime prevention measures and countermeasures for illegal suspicious data.

온라인 생활범죄 감지 방법(S10)은 대상 데이터 수집 모듈(100)에 의해 온라인 생활범죄 조기 탐지를 수행할 대상 데이터를 입력 받는 단계(S100), 불법 의심 데이터 판별 모듈(200)에 의해 대상 데이터에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계(S200) 및 범죄 대응 모듈(300)에 의해 불법 의심 데이터에 대한 범죄 예방 조치 및 대응 조치를 수행하는 단계(S300)를 포함한다. The online life crime detection method (S10) is a step of receiving the target data for early detection of online life crimes by the target data collection module 100 (S100), illegal in the target data by the illegal suspicious data determination module 200 It includes a step (S200) of determining illegal suspicious data by applying a suspicious identification model and a step (S300) of performing crime prevention measures and countermeasures on the suspicious illegal data by the crime response module 300 (S300).

예를 들면, 대상 데이터 수집 모듈(100)은 도박 또는 불법 피라미드와 같은 온라인 생활범죄 조기 탐지를 수행하기 위해 온라인 상에 개시된 컨텐츠인 대상 데이터를 입력 받는다. 불법 의심 데이터 판별 모듈(200)은 대상 데이터 수집 모듈(100)에 의해 입력 받은 대상 컨텐츠에 불법 의심 판별 모델을 적용하여 대상 데이터에 온라인 생활범죄에 관련된 불법 의심 데이터가 있는지를 판별한다. 불법 의심 데이터 판별 모듈(200)에 의해 불법 의심 데이터가 있는 것으로 판별된 경우, 범죄 대응 모듈(300)은 이에 대한 예방 조치 및 대응 조치를 수행한다.For example, the target data collection module 100 receives target data, which is content launched online, in order to perform early detection of online life crimes such as gambling or illegal pyramids. The suspected illegal data determination module 200 determines whether there is illegal suspicious data related to online life crimes in the target data by applying the suspicious illegal identification model to the target content input by the target data collection module 100 . When it is determined by the suspicious illegal data determination module 200 that there is suspicious illegal data, the crime response module 300 performs preventive measures and countermeasures therefor.

도 3은 대상 데이터 수집 모듈(100)에 의해 수행되는 S100 단계를 보다 상세히 나타낸 순서도이다.3 is a flowchart illustrating in more detail step S100 performed by the target data collection module 100 .

도 3을 참조하면, S100 단계는 데이터 크롤링을 통해 검색 엔진 및 SNS을 포함한 오픈 데이터(20)로부터 대상 데이터를 입력 받는 단계(S110) 및 데이터 크롤링을 통해 URL 주소로부터 대상 데이터를 입력 받는 단계(S120)를 포함할 수 있다.Referring to FIG. 3 , step S100 includes receiving target data from open data 20 including a search engine and SNS through data crawling ( S110 ) and receiving target data from a URL address through data crawling ( S120 ). ) may be included.

보다 상세히 말하면, S110 단계에서는 네이버, 구글 등을 포함한 검색 엔진이나 페이스북, 트위터 등의 SNS을 포함한 오픈 데이터(20)에 개시된 컨텐츠들로부터 데이터를 크롤링하여 온라인 생활범죄 감지를 위한 대상 데이터를 입력 받는다. 또한, 사용자(50)가 온라인 상에 개시한 글과 이에 달린 댓글 역시 클롤링하여 이를 대상 데이터로 삼을 수도 있다. More specifically, in step S110, target data for online life crime detection is received by crawling data from the contents disclosed in the open data 20 including the search engine including Naver, Google, etc., or SNS such as Facebook, Twitter, etc. . In addition, the user 50 may also crawl articles posted online and comments attached thereto and use them as target data.

S120 단계에서는 오픈 데이터(20)에 포함된 컨텐츠뿐만 아니라 URL 주소를 더 크롤링하여 이를 온라인 생활범죄 감지를 위한 대상 데이터로 입력 받을 수 있다. 예를 들어, 온라인 상의 게시글뿐만 아니라 해당 게시글의 URL에 기재된 텍스트 역시 크롤링 할 수 있다.In step S120 , the URL address as well as the content included in the open data 20 may be further crawled, and this may be input as target data for online life crime detection. For example, it can crawl not only online posts, but also the text written in the URL of the post.

도 4는 불법 의심 데이터 판별 모듈(200)에 의해 수행되는 S200 단계를 보다 상세히 나타낸 순서도이다.4 is a flowchart illustrating in more detail step S200 performed by the suspicious illegal data determination module 200 .

도 4를 참조하면, S200 단계는 제1 키워드 추출부(210)에 의해 대상 데이터에 포함된 텍스트 데이터에서 특수 문자를 제외시킨 후 자연어 처리하여 제1 키워드를 추출하는 단계(S210), 제2 키워드 추출부(220)에 의해 대상 데이터에 포함된 이미지 데이터에 OCR 모델을 적용하여 제2 키워드를 추출하는 단계(S220) 및 불법 의심 데이터 판별부(230)에 의해 제1 키워드와 제2 키워드에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계(S230)를 포함할 수 있다.Referring to FIG. 4 , step S200 is a step of extracting a first keyword by natural language processing after excluding special characters from text data included in target data by the first keyword extraction unit 210 ( S210 ), a second keyword A step of extracting the second keyword by applying the OCR model to the image data included in the target data by the extraction unit 220 (S220) and the illegal suspicious data determining unit 230 for the first keyword and the second keyword It may include a step (S230) of determining illegal suspicious data by applying a suspicious determination model.

보다 상세히 말하면, 제1 키워드 추출부(210)에 의해 수행되는 S210 단계에서는 대상 데이터 수집 모듈(100)에 의해 수집된 대상 데이터에서 특수 문자를 제외시킨다. 예를 들어, 특수 문자는 @ 또는 # 등의 문자를 말한다. 다음으로, 특수 문제가 제외된 대상 데이터를 자연어 처리하고 이를 제1 키워드로 추출한다.More specifically, in step S210 performed by the first keyword extraction unit 210 , special characters are excluded from the target data collected by the target data collection module 100 . For example, special characters are characters such as @ or #. Next, natural language processing of target data excluding special problems and extracting it as a first keyword.

제2 키워드 추출부(220)에 의해 수행되는 S220 단계에서는 이미지 데이터로부터 텍스트 데이터를 추출할 수 있는 OCR 모델을 적용하여 이미지 데이터에 포함된 텍스트인 제2 키워드를 추출한다.In step S220 performed by the second keyword extraction unit 220, a second keyword that is text included in the image data is extracted by applying an OCR model capable of extracting text data from the image data.

불법 의심 데이터 판별부(230)에 의해 수행되는 S230 단계에서는 S210 단계에서 추출한 제1 키워드와 S220 단계에서 추출한 제2 키워드에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별한다.In step S230 performed by the suspicious illegal data determining unit 230, the suspicious illegal data is determined by applying the suspicious illegal identification model to the first keyword extracted in step S210 and the second keyword extracted in step S220.

불법 의심 판별 모델은 딥러닝 모델을 통해 대상 데이터를 분석하고, 분석 결과를 기반으로 불법 의심 데이터인지 여부를 판별하도록 구성되며, 이때 불법 의심 데이터는 예를 들어, 도박, 대출사기, 고액알바사기, 불법 피라미드 및 피싱 사기 등을 포함할 수 있다.The suspected illegal identification model is configured to analyze the target data through a deep learning model and determine whether it is illegal suspicious data based on the analysis result, where the suspected illegal data is, for example, gambling, loan fraud, high part-timer fraud, This could include illegal pyramids and phishing scams.

불법 의심 판별 모델에 사용되는 딥러닝 모델은 BiLSTM 기반 딥러닝 모델을 포함할 수 있다. 다만, 이에 한정되지 않으며 Autoencoder, self-attention 등을 포함한 통상의 기술자가 어려움 없이 적용할 수 있는 딥러닝 모델이라면 제한 없이 적용될 수 있다.The deep learning model used for the illegal suspicion discrimination model may include a BiLSTM-based deep learning model. However, it is not limited thereto, and any deep learning model that can be applied without difficulty by those skilled in the art, including autoencoder, self-attention, etc., may be applied without limitation.

사용자(50)는 불법 의심 판별 모델에 사용되는 딥러닝 모델을 학습시키기 위해 제1 학습 데이터를 미리 준비하여 이를 통해 온라인 생활범죄 감지 시스템(10)에 적용될 딥러닝 모델을 학습시킨다.The user 50 prepares the first learning data in advance to learn the deep learning model used in the illegal suspicion discrimination model and learns the deep learning model to be applied to the online life crime detection system 10 through this.

딥러닝 모델의 학습에는 제1 학습 데이터와 더불어 Open API를 통해 공공 데이터(30)로부터 입력 받은 제2 학습 데이터가 추가로 이용될 수 있다. 보다 상세히 말하면, 경찰청 또는 금융감독원 등의 공공 기관 서버에는 생활범죄와 관련한 업체, 인물 등을 포함한 데이터가 포함될 수 있다. 따라서, Open API를 통해 공공 데이터(30)에 포함된 제2 학습 데이터를 딥러닝 모델에 추가로 학습시킴으로써 불법 의심 판별 모델을 통한 판별 정확도를 향상시킬 수 있다.In addition to the first learning data, second learning data input from the public data 30 through the Open API may be additionally used for learning the deep learning model. In more detail, the server of a public institution such as the National Police Agency or the Financial Supervisory Service may include data including companies and persons related to life crimes. Therefore, by additionally learning the second learning data included in the public data 30 through the Open API to the deep learning model, it is possible to improve the identification accuracy through the illegal suspicious identification model.

또한, 불법 의심 판별 모델은 자신이 불법 의심 데이터로 판별한 데이터를 제3 학습 데이터로 삼아 추가적인 학습 역시 진행할 수 있다.In addition, the suspected illegality identification model may further learn by using the data determined as the illegal suspicious data as the third learning data.

정리하면, 불법 의심 데이터 판별부(230)에 의해 수행되는 S230 단계에서는 제1 키워드와 제2 키워드를 불법 의심 판별 모델에 입력하고 이에 대한 출력으로 입력된 데이터가 불법 의심 데이터인지를 판별한다.In summary, in step S230 performed by the suspicious illegal data determining unit 230, the first keyword and the second keyword are inputted into the suspicious illegal identification model, and the inputted data is determined as the illegal suspicious data as an output.

도 5는 제2 키워드 추출부(220)의 각 구성을 개략적으로 나타낸 도면이다.5 is a diagram schematically showing each configuration of the second keyword extraction unit 220 .

도 6은 제2 키워드 추출부(220)에 의해 수행되는 S220 단계를 보다 상세히 나타낸 순서도이다.6 is a flowchart illustrating in more detail step S220 performed by the second keyword extraction unit 220 .

도 5 및 도 6을 참조하면, 제2 키워드 추출부(220)는 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223) 및 제2 키워드 추출 유닛(224)을 포함할 수 있다.5 and 6 , the second keyword extraction unit 220 includes a phoneme unit text extraction unit 221 , a language type determination unit 222 , a combined text generation unit 223 , and a second keyword extraction unit 224 . ) may be included.

제2 키워드 추출부(220)에 의해 수행되는 S220 단계는 음소 단위 텍스트 추출 유닛(221)에 의해 이미지 데이터에 OCR 모델을 적용하여 음소 단위의 텍스트를 추출하는 단계(S221), 언어 종류 판단 유닛(222)에 의해 음소 단위의 텍스트를 기반으로 텍스트의 언어 종류를 판단하는 단계(S222), 조합 텍스트 생성 유닛(223)에 의해 S222 단계에서 판단된 언어 종류에서의 필기 방향을 고려하여 음소 단위의 텍스트를 조합하여 조합 텍스트를 생성하는 단계(S223) 및 제2 키워드 추출 유닛(224)에 의해 조합 텍스트를 제2 키워드로서 추출하는 단계(S224)를 포함할 수 있다.Step S220 performed by the second keyword extraction unit 220 includes the step of extracting text in phoneme units by applying the OCR model to the image data by the phoneme unit text extraction unit 221 ( S221 ), and the language type determination unit ( S221 ). Determining the language type of the text based on the phoneme unit text by 222) (S222), the phoneme unit text in consideration of the handwriting direction in the language type determined at the step S222 by the combined text generating unit 223 and generating the combined text by combining ( S223 ) and extracting the combined text as the second keyword by the second keyword extraction unit 224 ( S224 ).

도 7은 도 6의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223) 및 제2 키워드 추출 유닛(224)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.7 is a diagram of extracting the second keyword in step S220 by the phoneme unit text extraction unit 221, the language type determination unit 222, the combined text generation unit 223 and the second keyword extraction unit 224 of FIG. It is an example diagram showing the appearance.

도 7을 참조하면, 온라인 상에 도 7과 같이 제1 행에는 '도바'가 기재되고 제2 행의 '바' 하단에 'ㄱ'이 개시되어 있을 수 있다.Referring to FIG. 7 , as shown in FIG. 7 online, 'doba' may be written in the first row and 'a' may be disclosed at the bottom of 'bar' in the second row.

음소 단위 텍스트 추출 유닛(221)에서는 도 7의 텍스트에서 음소 단위의 텍스트를 추출하며 추출 결과 'ㄷ, ㅗ, ㅂ, ㅏ, ㄱ'가 추출될 수 있다.The phoneme unit text extraction unit 221 extracts the phoneme unit text from the text of FIG. 7 , and as a result of the extraction, 'c, ㅗ, f, a, a' may be extracted.

언어 종류 판단 유닛(222)에서는 추출된 각 음소를 기반으로 해당 언어의 종류를 판단하며, 예시의 경우 한글인 것으로 판단할 수 있다.The language type determination unit 222 may determine the type of the corresponding language based on each extracted phoneme, and in the case of an example, may determine that it is Korean.

조합 텍스트 생성 유닛(223)에서는 추출된 음소를 조합하여 조합 텍스트를 생성하는데, 언어의 종류가 한글인 것으로 판단되었으므로 우측 및 아래측 방향의 필기 방향으로 고려하여 음소 단위의 텍스트를 조합하고, 그 결과 '도박'이라는 조합 텍스트가 생성될 수 있다. 만약, 언어 종류 판단 유닛(222)에 의해 판단된 언어가 좌측 방향으로 필기하는 언어일 경우 조합 텍스트 생성 유닛(223)에서는 해당 방향을 고려하여 음소 단위의 텍스트를 조합하여 조합 텍스트를 생성할 수 있다.The combined text generating unit 223 generates combined text by combining the extracted phonemes. Since it is determined that the language is Hangul, the text in phoneme units is combined in consideration of the right and downward handwriting directions, and as a result, the combined text is generated. Combination text 'gambling' may be generated. If the language determined by the language type determination unit 222 is a language for handwriting in the left direction, the combined text generating unit 223 may generate the combined text by combining the phoneme unit text in consideration of the corresponding direction. .

마지막으로, 제2 키워드 추출 유닛(224)에서는 조합 테스트인 '도박'을 제2 키워드로서 추출할 수 있다.Finally, the second keyword extraction unit 224 may extract the combination test 'gambling' as the second keyword.

다시 도 5 및 도 6 참조하면, 제2 키워드 추출부(220)는 재조합 텍스트 생성 유닛(225)을 더 포함할 수 있으며, S220 단계는 재조합 텍스트 생성 유닛(225)에 의해 S222 단계에서 판단된 언어 종류인 제1 언어에서의 제1 음소의 형상과 제1 언어와 다른 언어 종류인 제2 언어의 제2 음소의 형상 간의 유사도가 기 설정된 값을 초과하는 경우, 제2 음소를 상기 제1 음소로 치환하여 재조합 텍스트를 생성하는 단계(S225) 및 제2 키워드 추출 유닛(224)에 의해 재조합 텍스트를 제2 키워드로서 추출하는 단계(S226)를 더 포함할 수 있다.Referring back to FIGS. 5 and 6 , the second keyword extraction unit 220 may further include a recombinant text generating unit 225 , and in step S220 , the language determined in step S222 by the recombinant text generating unit 225 . When the similarity between the shape of the first phoneme in the first language, which is a type, and the shape of the second phoneme, which is a different language from the first language, exceeds a preset value, the second phoneme is converted to the first phoneme. The method may further include generating the recombinant text by substituting (S225) and extracting the recombinant text as a second keyword by the second keyword extraction unit 224 (S226).

도 8은 도 6의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223), 제2 키워드 추출 유닛(224) 및 재조합 텍스트 생성 유닛(225)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.8 is S220 by the phoneme unit text extraction unit 221 , the language type determination unit 222 , the combined text generation unit 223 , the second keyword extraction unit 224 , and the recombinant text generation unit 225 of FIG. 6 . It is an exemplary diagram showing the state of extracting the second keyword in the step.

도 8을 참조하면, 온라인 상에 도 8과 같이 제1 행에는 '도ㅂr'가 기재되고 제2 행의 '바' 하단에 'ㄱ'이 개시되어 있을 수 있다. 이때 제1 행에서의 '도ㅂ'와 제2 행에서의 'ㄱ'은 한글이며, 제1 행에서의 'r'은 영어 알파벳 소문자이다. Referring to FIG. 8 , as in FIG. 8 , 'do r' is written in the first row and 'a' may be disclosed at the bottom of the 'bar' of the second row. In this case, 'do' in the first row and 'ㄱ' in the second row are Korean, and 'r' in the first row is a lowercase English alphabet.

음소 단위 텍스트 추출 유닛(221)에서는 도 8의 텍스트에서 음소 단위의 텍스트를 추출하며 추출 결과 'ㄷ, ㅗ, ㅂ, r, ㄱ' 가 추출될 수 있다.The phoneme unit text extraction unit 221 extracts the phoneme unit text from the text of FIG. 8 , and as a result of the extraction, 'c, ㅗ, f, r, a' may be extracted.

언어 종류 판단 유닛(222)에서는 추출된 각 음소를 기반으로 해당 언어의 종류를 판단하는데, 'ㄷ, ㅗ, ㅂ, ㄱ' 음소는 한글이고, 'r' 음소는 영어인 것으로 판단할 수 있다.The language type determination unit 222 may determine the type of the corresponding language based on each extracted phoneme. It may be determined that the phonemes 'c, ㅗ, f, a' are Korean and the 'r' phoneme is English.

도 8이 도 7과 다른 점은 도 8의 경우 재조합 텍스트 생성 유닛(225)이 'r'을 'ㅏ'로 치환하여 재조합 텍스트를 생성한다는 점이다.The difference between FIG. 8 and FIG. 7 is that, in the case of FIG. 8 , the recombinant text generating unit 225 replaces 'r' with 'a' to generate the recombinant text.

보다 상세히 말하면, 재조합 텍스트 생성 유닛(225)은 언어 종류 판단 유닛(222)에서 판단된 각 음소의 언어 종류 중 빈도가 가장 높은 언어를 제1 언어로 설정하고, 그 다음 빈도의 언어를 제2 언어로 설정한다. 따라서, 도 8의 경우 한글이 제1 언어로 설정될 수 있고, 영어로 제2 언어로 설정될 수 있다.More specifically, the recombinant text generating unit 225 sets the language having the highest frequency among the language types of each phoneme determined by the language type determining unit 222 as the first language, and sets the language of the next frequency as the second language. set to Accordingly, in the case of FIG. 8 , Korean may be set as the first language and English may be set as the second language.

이후 제1 언어의 각 음소의 형상과 제2 언어의 각 음소의 형상 간의 유사도를 비교하여 유사도가 기 설정된 값을 초과하는지를 판단한다. 예를 들어 도 8의 경우 제1 언어인 한글의 제1 음소인 'ㅏ' 음소의 형상과 제2 언어인 영어의 제2 음소인 'r' 음소의 형상 간의 유사도가 기 설정된 값을 초과할 수 있으며, 이 경우 'r' 음소를 'ㅏ' 음소로 치환할 수 있다.Thereafter, it is determined whether the similarity exceeds a preset value by comparing the similarity between the shape of each phoneme of the first language and the shape of each phoneme of the second language. For example, in the case of FIG. 8 , the similarity between the shape of the first phoneme 'a', which is the first phoneme of the first language, and the shape of the second phoneme, 'r', which is the second phoneme, of English as the second language may exceed a preset value. In this case, the 'r' phoneme can be replaced with the 'a' phoneme.

필요한 경우 유사도 비교를 위한 판단 자료는 사용자(50)가 직접 입력해 둘 수 있으며, 재조합 텍스트 생성 유닛(225)은 이를 기반으로 유사도를 비교할 수 있다.If necessary, the determination data for the similarity comparison may be directly input by the user 50 , and the recombinant text generating unit 225 may compare the similarity based thereon.

마지막으로 제2 키워드 추출 유닛(224)에 의해 재조합 텍스트를 제2 키워드로서 추출할 수 있다.Finally, the recombinant text may be extracted as the second keyword by the second keyword extraction unit 224 .

다시 도 1 및 도 4를 참조하면, S200 단계는 의심 키워드 설정부(240)에 의해 제1 키워드와 제2 키워드를 의심 키워드로 설정하는 단계(S240), 연관 키워드 산출부(250)에 의해 의심 키워드와 연관된 연관 키워드를 산출하는 단계(S250) 및 불법 의심 데이터 판별부(230)에 의해 의심 키워드와 연관 키워드에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계(S260)를 더 포함할 수 있다.1 and 4 again, in step S200, the first keyword and the second keyword are set as suspicious keywords by the suspicious keyword setting unit 240 (S240), and suspicious by the related keyword calculating unit 250 Calculating a keyword related to the keyword (S250) and applying the suspicious keyword and the illegal suspicion determination model to the suspicious keyword and the related keyword by the suspicious illegal data determination unit 230 to determine the illegal suspicious data (S260) can

S210 단계 내지 S230 단계에서는 제1 키워드와 제2 키워드에 불법 의심 판별 모델을 적용하여 불법 의심 데이터에 해당하는지를 판별한다.In steps S210 to S230, it is determined whether or not the suspected illegal data corresponds to the first keyword and the second keyword by applying the suspected illegality discrimination model.

추가적으로 S250 단계 내지 S250 단계에서는 제1 키워드와 제2 키워드 뿐 아니라 이와 연관된 키워드인 연관 키워드에도 불법 의심 판별 모델을 적용할 수 있도록 한다.Additionally, in steps S250 to S250, the illegal suspicion determination model can be applied not only to the first keyword and the second keyword, but also to a related keyword, which is a related keyword.

이때 연관 키워드는 의심 키워드를 검색 엔진 상에 입력했을 때 제공되는 키워드일 수 있다.In this case, the related keyword may be a keyword provided when a suspicious keyword is input into a search engine.

예를 들어, 의심 키워드 설정부(240)에서는 '토토'를 의심 키워드로 설정할 수 있으며, 연관 키워드 산출부(250)는 '토토'의 연관 검색어인 '환전, 충전, 놀이터' 등을 연관 키워드로 산출할 수 있다. 따라서, 불법 의심 데이터 판별부(230)에서는 '토토' 뿐 아니라 '환전, 충전, 놀이터' 등을 추가로 불법 의심 판별 모델에 입력하여 불법 의심 데이터 여부를 판별할 수 있다.For example, the suspicious keyword setting unit 240 may set 'toto' as a suspicious keyword, and the related keyword calculating unit 250 may use 'exchange, charging, playground', which is a related search word for 'toto', as a related keyword. can be calculated. Accordingly, the suspected illegal data determining unit 230 may determine whether or not suspicious data is illegal by additionally inputting 'toto' as well as 'exchange, charging, playground', etc. into the suspected illegal data determination model.

도 8은 범죄 대응 모듈(300)에 의해 수행되는 S300 단계를 보다 상세히 나타낸 순서도이다.8 is a flowchart illustrating in more detail step S300 performed by the crime response module 300 .

도 8을 참조하면, S300 단계는 유관 기관 신고부(310)에 의해 불법 의심 데이터를 온라인 생활범죄 별 유관 기관(40)에 제공하는 단계(S310)를 포함할 있으며, 유관 기관 신고부(310)에 의해 URL 주소를 온라인 생활범죄 별 유관 기관(40)에 제공하는 단계를 더 포함할 수 있다.Referring to FIG. 8 , step S300 may include a step (S310) of providing illegal suspicious data to the related organizations 40 for each online life crime by the related agency reporting unit 310, and the related agency reporting unit 310 It may further include the step of providing the URL address to the relevant organization 40 for each online life crime by.

또한, 불법 의심 데이터와 더불어 사용자(50)가 받은 피새 상황에 대한 정보 역시 함께 제공할 수 있다. 이때 유관 기관(40)은 경찰청, 금융감독원, 공정거래위원회 및 방송통신심의위원회 등 온라인 생활범죄와 관련된 공공기관을 모두 포함할 수 있다.In addition, information on the situation of the escape received by the user 50 may be provided together with the suspected illegal data. In this case, the relevant institutions 40 may include all public institutions related to online life crimes, such as the National Police Agency, the Financial Supervisory Service, the Fair Trade Commission, and the Korea Communications Standards Commission.

S300 단계는 피해 신고 절차 제공부(320)에 의해 사용자(50)에게 피해 신고 절차를 제공하는 단계를 더 포함할 수 있다.Step S300 may further include a step of providing a damage report procedure to the user 50 by the damage report procedure providing unit 320 .

예를 들어, 피해 신고 절차 제공부(320)는 피해 신고 절차 안내를 하거나 해당 피해와 관련된 전문가 또는 변호사를 추천하거나 해당 전문가 또는 변호사로부터 자문을 받는 방법 등을 안내할 수 있다.For example, the damage report procedure provider 320 may guide the damage report procedure, recommend an expert or lawyer related to the damage, or guide how to receive advice from the expert or lawyer.

S300 단계는 소장 제공부(330)에 의해 사용자(50)에게 진정서 또는 소장 작성 방법을 제공하거나, 작성을 대행하는 단계를 더 포함할 수 있다.Step S300 may further include a step of providing a complaint or a complaint writing method to the user 50 by the complaint providing unit 330 or writing the complaint on behalf of the user 50 .

예를 들어, 사용자(50)가 피해를 입은 경우 직접 소장 또는 진정서를 작성하는 방벙을 안내하거나, 사용자가 피해 사실을 소장 제공부(330)에 전달한 경우 이를 수신하여 이를 기반으로 소장 또는 진정서를 작성하여 사용자(50)에게 제공할 수 있다.For example, if the user 50 is harmed, he or she guides how to write a complaint or complaint directly, or if the user delivers the damage to the complaint providing unit 330, receives it and writes a complaint or complaint based on it to provide it to the user 50 .

본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 상술한 온라인 생활범죄 감지 방법(S10)을 컴퓨터로 실행하기 위한 프로그램이 기록된 기록 매체를 더 포함할 수 있다.The present invention is a computer-readable recording medium, and may further include a recording medium in which a program for executing the above-described online life crime detection method (S10) with a computer is recorded.

이상에서 실시예를 통해 본 발명을 설명하였으나, 위 실시예는 단지 본 발명의 사상을 설명하기 위한 것으로 이에 한정되지 않는다. 통상의 기술자는 전술한 실시예에 다양한 변형이 가해질 수 있음을 이해할 것이다. 본 발명의 범위는 첨부된 특허청구범위의 해석을 통해서만 정해진다.Although the present invention has been described by way of examples above, the above examples are merely for explaining the spirit of the present invention and are not limited thereto. Those skilled in the art will understand that various modifications may be made to the above-described embodiments. The scope of the present invention is determined only through interpretation of the appended claims.

10: 온라인 생활범죄 감지 시스템
20: 오픈 데이터
30: 공공 데이터
40: 유관 기관
50: 사용자
100: 대상 데이터 수집 모듈
200: 불법 의심 데이터 판별 모듈
210: 제1 키워드 추출부
220: 제2 키워드 추출부
221: 음소 단위 텍스트 추출 유닛
222: 언어 종류 판단 유닛
223: 조합 텍스트 생성 유닛
224: 제2 키워드 추출 유닛
225: 재조합 텍스트 생성 유닛
230: 불법 의심 데이터 판별부
240: 의심 키워드 설정부
250: 연관 키워드 산출부
300: 범죄 대응 모듈
310: 유관 기관 신고부
320: 피해 신고 절차 제공부
330: 소장 제공부
10: Online life crime detection system
20: Open Data
30: public data
40: Relevant organs
50: user
100: target data collection module
200: illegal suspicious data identification module
210: first keyword extraction unit
220: second keyword extraction unit
221: phoneme unit text extraction unit
222: language type determination unit
223: Combination text generation unit
224: second keyword extraction unit
225: Recombinant text generation unit
230: illegal suspicious data determination unit
240: suspicious keyword setting unit
250: related keyword calculation unit
300: crime response module
310: Reporting Department of Relevant Organizations
320: Damage report process provider
330: small intestine provision unit

Claims (10)

온라인 생활범죄 감지 시스템이,
a) 온라인 생활범죄 조기 탐지를 수행할 대상 데이터를 입력 받는 단계;
b) 상기 대상 데이터에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계; 및
c) 상기 불법 의심 데이터에 대한 범죄 예방 조치 및 대응 조치를 수행하는 단계를 포함하되,
상기 b) 단계는:
b-1) 상기 대상 데이터에 포함된 텍스트 데이터에서 특수 문자를 제외시킨 후 자연어 처리하여 제1 키워드를 추출하는 단계;
b-2) 상기 대상 데이터에 포함된 이미지 데이터에 OCR 모델을 적용하여 제2 키워드를 추출하는 단계; 및
- 여기서, 상기 b-2) 단계는:
b-2-1) 상기 대상 데이터에 포함된 이미지 데이터에 OCR 모델을 적용하여 음소 단위의 텍스트를 추출하는 단계; b-2-2) 상기 음소 단위의 텍스트를 기반으로 상기 텍스트의 언어 종류를 판단하는 단계; b-2-3) 상기 b-2-2) 단계에서 판단된 언어 종류에서의 필기 방향을 고려하여 상기 음소 단위의 텍스트를 조합하여 조합 텍스트를 생성하는 단계; 및 b-2-4) 상기 조합 텍스트를 상기 제2 키워드로서 추출하는 단계;를 포함함-
b-3) 상기 제1 키워드와 상기 제2 키워드에 상기 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계;를 포함하는 온라인 생활범죄 감지 방법.
Online life crime detection system,
a) receiving target data for early detection of online life crimes;
b) determining illegal suspicious data by applying a suspicious illegal identification model to the target data; and
c) performing crime prevention measures and countermeasures for the suspected illegal data;
Step b) is:
b-1) extracting a first keyword by natural language processing after excluding special characters from text data included in the target data;
b-2) extracting a second keyword by applying an OCR model to the image data included in the target data; and
- Here, step b-2) is:
b-2-1) extracting text in phoneme units by applying an OCR model to image data included in the target data; b-2-2) determining a language type of the text based on the phoneme unit text; b-2-3) generating a combined text by combining the phoneme unit text in consideration of the handwriting direction in the language type determined in step b-2-2); and b-2-4) extracting the combined text as the second keyword.
b-3) applying the suspicious illegal identification model to the first keyword and the second keyword to determine the illegal suspicious data;
제1항에 있어서,
상기 a) 단계는:
a-1) 데이터 크롤링을 통해 검색엔진 및 SNS을 포함한 오픈 데이터로부터 대상 데이터를 입력 받는 단계; 및
a-2) 데이터 크롤링을 통해 URL 주소로부터 대상 데이터를 입력 받는 단계를 포함하는 온라인 생활범죄 감지 방법.
According to claim 1,
Step a) is:
a-1) receiving target data from open data including a search engine and SNS through data crawling; and
a-2) An online life crime detection method comprising the step of receiving target data from a URL address through data crawling.
삭제delete 삭제delete 제1항에 있어서,
상기 b-2) 단계는:
b-2-5) 재조합 텍스트 생성 유닛에 의해 상기 b-2-2) 단계에서 판단된 언어 종류인 제1 언어에서의 제1 음소의 형상과 상기 제1 언어와 다른 언어 종류인 제2 언어의 제2 음소의 형상 간의 유사도가 기 설정된 값을 초과하는 경우, 상기 제2 음소를 상기 제1 음소로 치환하여 재조합 텍스트를 생성하는 단계; 및
b-2-6) 제2 키워드 추출 유닛에 의해 상기 재조합 텍스트를 상기 제2 키워드로서 추출하는 단계를 더 포함하는 온라인 생활범죄 감지 방법.
According to claim 1,
Step b-2) is:
b-2-5) the shape of the first phoneme in the first language which is the language type determined in step b-2-2) by the recombinant text generating unit and the shape of the second language which is a language type different from the first language generating a recombinant text by replacing the second phoneme with the first phoneme when the similarity between shapes of the second phoneme exceeds a preset value; and
b-2-6) The online life crime detection method further comprising the step of extracting the recombinant text as the second keyword by a second keyword extraction unit.
제1항에 있어서,
상기 b) 단계는:
b-4) 의심 키워드 설정부에 의해 상기 제1 키워드와 상기 제2 키워드를 의심 키워드로 설정하는 단계;
b-5) 연관 키워드 산출부에 의해 상기 의심 키워드와 연관된 연관 키워드를 산출하는 단계; 및
b-6) 불법 의심 데이터 판별부에 의해 상기 의심 키워드와 상기 연관 키워드에 상기 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계를 더 포함하는 온라인 생활범죄 감지 방법.
According to claim 1,
Step b) is:
b-4) setting the first keyword and the second keyword as suspicious keywords by a suspicious keyword setting unit;
b-5) calculating a related keyword associated with the suspicious keyword by a related keyword calculating unit; and
b-6) The online life crime detection method further comprising the step of determining the suspected illegal data by applying the suspicious illegal identification model to the suspicious keyword and the related keyword by a suspicious illegal data determining unit.
제2항에 있어서,
상기 c) 단계는:
c-1) 유관 기관 신고부에 의해 상기 불법 의심 데이터를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계;
c-2) 피해 신고 절차 제공부에 의해 사용자에게 피해 신고 절차를 제공하는 단계;
c-3) 소장 제공부에 의해 사용자에게 진정서 또는 소장 작성 방법을 제공하거나, 작성을 대행하는 단계; 및
c-4) 상기 유관 기관 신고부에 의해 상기 URL 주소를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계를 포함하는 온라인 생활범죄 감지 방법.
3. The method of claim 2,
Step c) is:
c-1) providing the suspected illegal data to the relevant organizations for each online life crime by the relevant organization reporting unit;
c-2) providing a damage report procedure to the user by a damage report procedure providing unit;
c-3) providing a complaint or complaint writing method to the user by the complaint providing unit, or writing the complaint on behalf of the user; and
c-4) An online life crime detection method comprising the step of providing the URL address to a related organization for each online life crime by the related organization reporting unit.
제1항에 있어서,
상기 불법 의심 판별 모델은:
딥러닝 모델을 통해 상기 대상 데이터를 분석하고, 분석 결과를 기반으로 상기 불법 의심 데이터를 판별하도록 구성되는 온라인 생활범죄 감지 방법.
According to claim 1,
The illegal suspicion detection model is:
An online life crime detection method configured to analyze the target data through a deep learning model and determine the illegal suspicious data based on the analysis result.
제8항에 있어서,
상기 불법 의심 판별 모델은:
사용자로부터 입력 받은 제1 학습 데이터를 기반으로 학습을 수행하되;
Open API를 통해 공공 데이터로부터 입력 받은 제2 학습 데이터를 추가로 학습하고;
상기 불법 의심 판별 모델에 의해 불법 의심 데이터로 판별된 데이터인 제3 학습 데이터를 추가로 학습하도록 구성되는 온라인 생활범죄 감지 방법.
9. The method of claim 8,
The illegal suspicion detection model is:
performing learning based on the first learning data input from the user;
additionally learning the second learning data received from public data through the Open API;
An online life crime detection method configured to additionally learn third learning data, which is data determined as illegal suspicious data by the illegal suspicious determination model.
온라인 생활범죄 조기 탐지를 수행할 대상 데이터를 입력 받도록 구성되는 대상 데이터 수집 모듈;
상기 대상 데이터에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하도록 구성되는 불법 의심 데이터 판별 모듈; 및
상기 불법 의심 데이터에 대한 범죄 예방 조치 및 대응 조치를 수행하도록 구성되는 범죄 대응 모듈을 포함하되,
상기 불법 의심 데이터 판별 모듈은:
상기 대상 데이터에 포함된 텍스트 데이터에서 특수 문자를 제외시킨 후 자연어 처리하여 제1 키워드를 추출하고, 상기 대상 데이터에 포함된 이미지 데이터에 OCR 모델을 적용하여 음소 단위의 텍스트를 추출하고, 상기 음소 단위의 텍스트를 기반으로 상기 텍스트의 언어 종류를 판단하고, 판단된 언어 종류에서의 필기 방향을 고려하여 상기 음소 단위의 텍스트를 조합하여 조합 텍스트를 생성하여 상기 조합 텍스트를 제2 키워드로서 추출하며, 상기 제1 키워드와 상기 제2 키워드에 상기 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 온라인 생활범죄 감지 시스템.
a target data collection module configured to receive target data for performing early detection of online life crimes;
an illegal suspicious data determination module configured to determine illegal suspicious data by applying a suspicious illegal identification model to the target data; and
Including a crime response module configured to perform crime prevention measures and countermeasures for the suspected illegal data,
The illegal suspicious data identification module includes:
After excluding special characters from the text data included in the target data, natural language processing is performed to extract the first keyword, and the OCR model is applied to the image data included in the target data to extract the text in phoneme units, and the phoneme unit determining the language type of the text based on the text of An online life crime detection system for determining suspected illegal data by applying the suspicious illegal identification model to the first keyword and the second keyword.
KR1020200150176A 2020-11-11 2020-11-11 System and method for detecting online living crime KR102322918B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200150176A KR102322918B1 (en) 2020-11-11 2020-11-11 System and method for detecting online living crime

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200150176A KR102322918B1 (en) 2020-11-11 2020-11-11 System and method for detecting online living crime

Publications (1)

Publication Number Publication Date
KR102322918B1 true KR102322918B1 (en) 2021-11-05

Family

ID=78507672

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200150176A KR102322918B1 (en) 2020-11-11 2020-11-11 System and method for detecting online living crime

Country Status (1)

Country Link
KR (1) KR102322918B1 (en)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140010540A (en) * 2012-07-13 2014-01-27 주식회사 엔씨소프트 Method and device for filtering spam posting
KR20150115392A (en) * 2014-04-04 2015-10-14 이혁재 System and method for mornitoring danger
KR20160001994A (en) * 2014-06-30 2016-01-07 김왕철 Server and method for managing crime using big data
KR20160104223A (en) * 2015-02-26 2016-09-05 광운대학교 산학협력단 A Method for a Crime Prediction Using a Crime Pattern Analysis based on Big Data and A System for the Same
KR20170022230A (en) * 2015-08-19 2017-03-02 고려대학교 산학협력단 System for crime detection from unstructured data created by on-line users and method for crime detection using the same
KR20180133635A (en) * 2017-06-07 2018-12-17 (주) 더아이엠씨 Method of Analysis and Perdiction for Criminal Risk and Storage Medium Having the Same
KR20190054478A (en) * 2017-11-13 2019-05-22 주식회사 이르테크 System for monitoring crime site in dark web
KR20190096872A (en) * 2019-07-31 2019-08-20 엘지전자 주식회사 Method and apparatus for recognizing handwritten characters using federated learning
KR20200061812A (en) * 2018-11-26 2020-06-03 (주)유엠로직스 Deep web analysis system and method using browser simulator

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140010540A (en) * 2012-07-13 2014-01-27 주식회사 엔씨소프트 Method and device for filtering spam posting
KR20150115392A (en) * 2014-04-04 2015-10-14 이혁재 System and method for mornitoring danger
KR20160001994A (en) * 2014-06-30 2016-01-07 김왕철 Server and method for managing crime using big data
KR20160104223A (en) * 2015-02-26 2016-09-05 광운대학교 산학협력단 A Method for a Crime Prediction Using a Crime Pattern Analysis based on Big Data and A System for the Same
KR20170022230A (en) * 2015-08-19 2017-03-02 고려대학교 산학협력단 System for crime detection from unstructured data created by on-line users and method for crime detection using the same
KR20180133635A (en) * 2017-06-07 2018-12-17 (주) 더아이엠씨 Method of Analysis and Perdiction for Criminal Risk and Storage Medium Having the Same
KR20190054478A (en) * 2017-11-13 2019-05-22 주식회사 이르테크 System for monitoring crime site in dark web
KR20200061812A (en) * 2018-11-26 2020-06-03 (주)유엠로직스 Deep web analysis system and method using browser simulator
KR20190096872A (en) * 2019-07-31 2019-08-20 엘지전자 주식회사 Method and apparatus for recognizing handwritten characters using federated learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
전진호, "빅데이터 분석을 통한 성범죄 예방 예측 모형 연구", 국민대학교, 비즈니스IT 전문대학원, 2016.12.31 *

Similar Documents

Publication Publication Date Title
Crothers et al. Machine-generated text: A comprehensive survey of threat models and detection methods
Li et al. Identifying top sellers in underground economy using deep learning-based sentiment analysis
Everett et al. The anatomy of online deception: What makes automated text convincing?
Ison Detection of Online Contract Cheating Through Stylometry: A Pilot Study.
Lago et al. Visual and textual analysis for image trustworthiness assessment within online news
CN112541476A (en) Malicious webpage identification method based on semantic feature extraction
Kantharaj et al. Opencqa: Open-ended question answering with charts
Hwang et al. A spelling based CAPTCHA system by using click
Ceballos Delgado et al. Deception detection using machine learning
Tanwar et al. A proposed system for opinion mining using machine learning, NLP and classifiers
Alhalabi et al. Social mining for terroristic behavior detection through Arabic tweets characterization
Carmichael et al. Security risks, fake degrees, and other fraud: A topic modelling approach
Kayhan et al. Cyber threat detection: Unsupervised hunting of anomalous commands (UHAC)
Mubarak et al. A Survey on the Detection and Impacts of Deepfakes in Visual, Audio, and Textual Formats
Wang et al. An Image is Worth a Thousand Toxic Words: A Metamorphic Testing Framework for Content Moderation Software
Alsmadi et al. Adversarial nlp for social network applications: Attacks, defenses, and research directions
KR102322918B1 (en) System and method for detecting online living crime
Portnoff The dark net: De-anonymization, classification and analysis
CN116723005A (en) Method and system for tracking malicious code implicit information under polymorphic hiding
Jones et al. Towards Automatic Linkage of Knowledge Worker’s Claims with Associated Evidence from Screenshots
Seljan et al. Information Extraction from Security-Related Datasets
Kissner Hacking neural networks: A short introduction
KR20230073542A (en) System and method for detecting online living crime capable of risk assessment
Baki et al. Less is more: Exploiting social trust to increase the effectiveness of a deception attack
Raut et al. Sentiment Analysis of Twitter

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant