KR20230073542A - System and method for detecting online living crime capable of risk assessment - Google Patents

System and method for detecting online living crime capable of risk assessment Download PDF

Info

Publication number
KR20230073542A
KR20230073542A KR1020210160030A KR20210160030A KR20230073542A KR 20230073542 A KR20230073542 A KR 20230073542A KR 1020210160030 A KR1020210160030 A KR 1020210160030A KR 20210160030 A KR20210160030 A KR 20210160030A KR 20230073542 A KR20230073542 A KR 20230073542A
Authority
KR
South Korea
Prior art keywords
crime
type
data
target data
illegal
Prior art date
Application number
KR1020210160030A
Other languages
Korean (ko)
Inventor
안동욱
남상도
손진호
한연석
황의수
Original Assignee
(주)미소정보기술
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)미소정보기술 filed Critical (주)미소정보기술
Priority to KR1020210160030A priority Critical patent/KR20230073542A/en
Publication of KR20230073542A publication Critical patent/KR20230073542A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예에 따른 온라인 생활범죄 감지 방법은 온라인 생활범죄 감지 시스템이, 온라인 생활 범죄 조기 탐지를 수행할 대상 데이터를 수집하는 단계; b) 수집된 대상 데이터를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 단계; c) 상기 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받는 단계; 및 d) 상기 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행하는 단계를 포함한다.An online life crime detection method according to an embodiment of the present invention includes the steps of, by an online life crime detection system, collecting target data for early detection of online life crime; b) inputting the collected target data into a suspected illegality discrimination model and outputting suspected illegal data classified according to analysis criteria for each crime type; c) inputting suspected illegal data classified according to the analysis criteria for each crime type into a risk calculation model and receiving an output risk; and d) performing crime prevention measures, response measures, and warning measures based on the risk level.

Description

위험도 평가가 가능한 온라인 생활범죄 감지 시스템 및 방법{SYSTEM AND METHOD FOR DETECTING ONLINE LIVING CRIME CAPABLE OF RISK ASSESSMENT}Online life crime detection system and method capable of risk assessment {SYSTEM AND METHOD FOR DETECTING ONLINE LIVING CRIME CAPABLE OF RISK ASSESSMENT}

본 발명은 위험도 평가가 가능한 온라인 생활범죄 감지 시스템 및 방법에 관한 것이다.The present invention relates to an online life crime detection system and method capable of risk assessment.

초고속 인터넷 망의 발달로 인하여 사용자들은 언제 어디서든지 인터넷을 이용할 수 있게 됨에 따라 사용자들은 포털 사이트에 접속하여 정보를 습득하거나 뉴스, 영화 등을 볼 수도 있게 되었다.As users can use the Internet anytime, anywhere due to the development of high-speed Internet networks, users can obtain information by accessing portal sites or view news and movies.

그러나, 인터넷 사용의 증가로 인해 인터넷 사용에 따른 피해 역시 함께 증가하고 있다. 온라인 상에서는 남녀노소에 상관없이 모두 접속이 가능하고 네티즌들로부터 게시된 데이터는 아무런 여과 없이 그대로 게시되기 때문에, 청소년들에게 해로운 성인 광고를 게시하게 되면 청소년들의 정신 건강에 해로울 수 있다. 또한, 네티즌들의 생각을 서로 토론하는 공간에 광고성 글을 많이 게시되어 있으면 웹 페이지에서 토론 공간을 운영하는 본래의 목적을 달성하기 어렵다는 문제점이 있다.However, due to the increase in Internet use, damage caused by Internet use is also increasing. Because anyone can access online regardless of gender and age, and data posted by netizens is posted as it is without any filtering, posting adult advertisements that are harmful to teenagers can be harmful to the mental health of teenagers. In addition, there is a problem in that it is difficult to achieve the original purpose of operating a discussion space on a web page if many advertisement articles are posted in a space where netizens discuss their thoughts with each other.

뿐만 아니라, 온라인 상에서의 생활범죄 역시 함께 증가하고 있다. 생활범죄란 일상생활에서 자주 접하는 자전거 절도 등 경미한 형사범죄를 말하는데, 인터넷 상에서도 이러한 일상생활에서 자주 접할 수 있는 생활범죄, 예를 들어 도박, 대출사기, 알바사기, 불법 피라미드, 피싱 사기 등이 점차 증가하고 있다. In addition, life crimes online are also increasing. Life crime refers to minor criminal crimes such as bicycle theft that are frequently encountered in daily life, and life crimes such as gambling, loan fraud, part-time job fraud, illegal pyramids, and phishing scams that are frequently encountered in daily life are gradually increasing on the Internet. are doing

기존에는 이러한 사이버 범죄를 방지하게 위해 네티즌들이 "신고"버튼을 누르면, 웹 페이지 관리자에게 보고되어 이러한 사이버 범죄 관련 글이 웹 페이지상에 게시되지 않도록 조치를 취하고 있다. 또한, 웹 페이지 관리자가 일일이 네티즌들로부터 등록되는 데이터가 범죄와 연관될 수 있는 글인지를 확인한 후 삭제하는 방식으로 스팸 데이터로부터 네티즌들을 보호할 수 있었다.Conventionally, in order to prevent such cybercrime, when netizens press the "report" button, it is reported to the web page manager, and measures are taken to prevent such cybercrime-related articles from being posted on the webpage. In addition, the web page manager can protect netizens from spam data by checking whether the data registered by netizens is an article that can be related to crime and then deleting it.

그러나 이러한 방식은 실시간으로 등록되는 전체 데이터에 대해 확인하는 일은 쉽지 않을 뿐 아니라 그에 따른 인력을 충원하기 위해 많은 비용이 필요하다는 문제점이 제기된다. 또한, 웹 페이지에 글을 올리는 일이 일반화되고 있는 반면에 허위광고, 성인광고에 관련된 글도 많이 게시되어 건전한 인터넷 문화를 정착해 나가는데 악영향을 초래하고 있다.However, this method poses a problem that it is not easy to check the entire data registered in real time, and it requires a lot of cost to recruit personnel accordingly. In addition, while posting articles on web pages is becoming common, many articles related to false advertisements and adult advertisements are also posted, which adversely affects the establishment of a healthy Internet culture.

이에 따라 점차 증가하는 사이버 상 생활범죄를 미리 사전에 탐지하고 방지할 수 있도록 하는 알고리즘의 개발이 요구되고 있으며, 본 발명에서는 온라인 생활범죄를 조기에 감지하고 이에 대한 대응을 수행할 수 있는 시스템 및 방법을 제안한다.Accordingly, there is a demand for the development of an algorithm that can detect and prevent increasingly increasing cyber life crimes in advance, and in the present invention, a system and method capable of early detecting and responding to online life crimes suggests

본 발명의 일 실시예는 온라인 상의 데이터를 수집한 후 딥러닝을 기반으로 이를 분석하여 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력하고, 딥러닝을 기반으로 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터의 위험도를 출력하고, 출력된 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행할 수 있는 온라인 생활범죄 감지 시스템 및 방법을 제공하는 것을 목적으로 한다.An embodiment of the present invention collects online data and analyzes it based on deep learning to output suspected illegal data classified according to the analysis criteria for each crime type based on deep learning. An object of the present invention is to provide an online life crime detection system and method capable of outputting the risk level of suspected illegal data and taking crime preventive measures, countermeasures, and warning measures based on the output risk level.

한편, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.On the other hand, the technical problems to be achieved in the present invention are not limited to the above-mentioned technical problems, and other technical problems that are not mentioned will become clear to those skilled in the art from the description below. You will be able to understand.

본 발명의 일 실시예에 따른 온라인 생활범죄 감지 방법은 온라인 생활범죄 감지 시스템이, 온라인 생활 범죄 조기 탐지를 수행할 대상 데이터를 수집하는 단계; b) 수집된 대상 데이터를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 단계; c) 상기 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받는 단계; 및 d) 상기 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행하는 단계를 포함한다.An online life crime detection method according to an embodiment of the present invention includes the steps of, by an online life crime detection system, collecting target data for early detection of online life crime; b) inputting the collected target data into a suspected illegality discrimination model and outputting suspected illegal data classified according to analysis criteria for each crime type; c) inputting suspected illegal data classified according to the analysis criteria for each crime type into a risk calculation model and receiving an output risk; and d) performing crime prevention measures, response measures, and warning measures based on the risk level.

상기 a) 단계는: 데이터 크롤링을 통해 검색 포탈, 블로그, 채용 정보 사이트, 알바 정보 사이트, 중고 거래 사이트, SNS, 문자, 댓글, 피해 신고 정보 및 URL 주소로부터 대상 데이터를 입력 받는 단계일 수 있다.Step a) may be a step of receiving target data from a search portal, blog, employment information site, part-time job information site, used trading site, SNS, text message, comment, damage report information, and URL address through data crawling.

상기 b) 단계는: b-1) 상기 대상 데이터에 포함된 텍스트 데이터를 자연어 처리하여 제1 키워드를 추출하는 단계; b-2) 상기 대상 데이터에 포함된 이미지 데이터에 OCR 모델을 적용하여 제1 키워드를 추출하는 단계; b-3) 상기 제1 키워드와 상기 제2 키워드를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 단계를 포함할 수 있다.Step b) may include: b-1) extracting a first keyword by natural language processing of text data included in the target data; b-2) extracting a first keyword by applying an OCR model to image data included in the target data; b-3) inputting the first keyword and the second keyword to a suspected illegality determination model, and outputting suspected illegality data classified according to analysis criteria for each crime type.

상기 불법 의심 판별 모델은: 상기 제1 키워드와 제2 키워드를 기반으로 상기 대상 데이터를 범죄 유형 별로 분류하고; 상기 범죄 유형 별로 분류된 대상 데이터를 각각의 범죄 유형 별 분석 기준에 따라 분류하고; 상기 범죄 유형과 상기 범죄 유형 별 분석 기준에 따라 분류된 대상 데이터를 분석하여 상기 대상 데이터가 불법 의심 데이터인지 여부를 판별하도록 구성될 수 있다.The illegal suspicion determination model: classifies the target data by crime type based on the first keyword and the second keyword; classifying target data classified by crime type according to analysis criteria for each crime type; It may be configured to analyze the target data classified according to the crime type and the analysis criteria for each crime type to determine whether the target data is suspected illegal data.

상기 범죄 유형은: 스미싱 유형, 대부 유형, 다단계 유형, 중고 거래 사기 유형 및 아르바이트 사기 유형 중 적어도 어느 하나를 포함할 수 있다.The crime type may include at least one of a smishing type, a loan type, a multi-level type, a used transaction fraud type, and a part-time job fraud type.

상기 범죄 유형 별 분석 기준은: 상기 범죄 유형이 스미싱 유형인 경우, 범죄 기법, 범죄 피해 유형 및 개인 전화번호부 저장 여부 중 적어도 어느 하나를 포함하고; 상기 범죄 유형이 대부 유형 또는 다단계 유형인 경우, 회사명, 사업자 번호, 사업자 주소, 홈페이지 주소, 카카오톡 채팅방 유도 링크 포함 여부 및 기 설정된 해시태그 포함 여부 중 적어도 어느 하나를 포함하고; 상기 범죄 유형이 중고 거래 사기 유형인 경우, 제품명, 판매가격, 외부 앱 유도 여부, 본문 내용이 이미지 형식인지 여부, 게시글 제목, 본인 인증 여부, 판매자 인증 여부 및 중고 거래 사기 이력 사이트에서의 조회 여부 중 적어도 어느 하나를 포함하고; 상기 범죄 유형이 아르바이트 사기 유형인 경우, 모집 조건, 근무 조건, 채용 담당자 정보, 접수 방법 정보, 기업 정보 중 적어도 어느 하나를 포함할 수 있다.The analysis criterion for each crime type includes: when the crime type is a smishing type, at least one of a crime technique, a crime victim type, and whether a personal phone book is stored; If the crime type is a loan type or a multi-level type, at least one of company name, business number, business address, homepage address, whether or not a KakaoTalk chat room inducement link is included, and whether or not a preset hashtag is included; If the above type of crime is second-hand transaction fraud, product name, selling price, whether or not to induce an external app, whether or not the content of the text is in image format, post title, whether to verify identity, whether to verify the seller, and whether to search on second-hand transaction fraud history sites includes at least one; If the crime type is a part-time job fraud type, it may include at least one of recruiting conditions, working conditions, recruiter information, application method information, and company information.

상기 위험도 산출 모델은: 상기 범죄 유형이 스미싱 유형인 경우, URL 링크를 통하 특정 앱 설치를 유도하는 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정하고; 상기 범죄 유형이 대부 유형 또는 다단계 유형인 경우, 상기 기 설정된 해시 태그가 복수로 포함된 대상 데이터의 위험도를 한 개만 포함된 대상 데이터의 위험도보다 더 높게 설정하고; 상기 범죄 유형이 중고 거래 사기 유형인 경우, 특정 물품의 가격이 특정 중고 거래 사이트에서의 평균 가액보다 기 설정된 비율 미만인 것으로 기재된 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정하고; 상기 범죄 유형이 아르바이트 사기 유형인 경우, 특정 직종의 임금이 특정 알바 정보 사이트에서의 평균 임금보다 기 설정된 비율을 초과한 것으로 기재된 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정하도록 구성될 수 있다.The risk calculation model may include: if the crime type is a smishing type, set a risk level of target data that induces installation of a specific app through a URL link to be relatively higher than risk levels of other target data; When the crime type is a loan type or a multi-level type, setting a risk level of target data including a plurality of preset hash tags higher than a risk degree of target data including only one hash tag; If the crime type is a second-hand transaction fraud type, setting the risk level of target data in which the price of a specific item is less than a predetermined ratio to the average value on a specific second-hand trading site is relatively higher than the risk level of other target data; If the crime type is a part-time job fraud type, the risk level of target data described as exceeding a predetermined ratio over the average wage in a specific part-time job information site is set to be relatively higher than the risk level of other target data. It can be.

상기 d) 단계는: d-1) 유관 기관 신고부에 의해 상기 불법 의심 데이터를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계; d-2) 피해 신고 절차 제공부에 의해 사용자에게 피해 신고 절차를 제공하는 단계; d-3) 소장 제공부에 의해 사용자에게 진정서 또는 소장 작성 방법을 제공하거나, 작성을 대행하는 단계; d-4) 상기 유관 기관 신고부에 의해 상기 URL 주소를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계; 및 d-5) 사용자에게 경고문구를 전송하는 단계를 포함할 수 있다. Step d) includes: d-1) providing the suspected illegal data to relevant agencies for each online life crime by a related agency report unit; d-2) providing a damage report procedure to the user by the damage report procedure providing unit; d-3) providing a complaint or a method for preparing a complaint to the user by the complaint providing unit, or acting as a proxy for the preparation; d-4) providing the URL address to the relevant agency for each online life crime by the related agency report unit; and d-5) transmitting a warning message to the user.

상기 불법 의심 판별 모델은: 사용자로부터 입력 받은 제1 학습 데이터; Open API를 통해 공공 데이터로부터 입력 받은 제2 학습 데이터; 상기 불법 의심 판별 모델에 의해 불법 의심 데이터로 판별된 데이터인 제3 학습 데이터; 및 특정 사이트에 개시된 데이터인 제4 학습 데이터 중 적어도 어느 하나를 통해 학습하도록 구성되되, 상기 제1 학습 데이터 내지 제4 학습 데이터 각각에 서로 다른 가중치를 부여하여 학습을 수행하도록 구성될 수 있다.The illegal suspicion determination model includes: first learning data input from a user; Second learning data received from public data through an open API; Third learning data that is data determined as illegal suspicious data by the illegal suspicious determination model; And it is configured to learn through at least one of fourth learning data that is data disclosed on a specific site, and to perform learning by assigning different weights to each of the first to fourth learning data.

본 발명의 일 실시예에 따른 온라인 생활범죄 감지 시스템은 온라인 생활 범죄 조기 탐지를 수행할 대상 데이터를 수집하는 대상 데이터 수집 모듈; 수집된 대상 데이터를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 불법 의심 데이터 판별 모듈; 상기 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받는 위험도 산출 모듈; 및 상기 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행하는 범죄 대응 모듈을 포함한다.An online life crime detection system according to an embodiment of the present invention includes a target data collection module for collecting target data for early detection of online life crimes; an illegal suspicious data discrimination module that inputs the collected target data into a suspected illegality discrimination model and outputs suspected illegal data classified according to analysis criteria for each crime type; a risk calculation module that inputs suspected illegal data classified according to the analysis criteria for each crime type into a risk calculation model and receives an output risk; and a crime response module for performing crime prevention measures, response measures, and warning measures based on the risk level.

본 발명의 일 실시예에 따른 온라인 생활범죄 감지 시스템 및 방법은 온라인 상의 데이터를 수집한 후 딥러닝을 기반으로 이를 분석하여 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력하고, 딥러닝을 기반으로 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터의 위험도를 출력하고, 출력된 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행할 수 있다.An online life crime detection system and method according to an embodiment of the present invention collects online data, analyzes it based on deep learning, outputs suspected illegal data classified according to analysis criteria for each crime type, and based on deep learning It outputs the risk level of suspected illegal data classified according to the analysis criteria for each crime type, and can perform crime prevention measures, countermeasures, and warning measures based on the output risk level.

한편, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.On the other hand, the effects obtainable in the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below. You will be able to.

도 1은 온라인 생활범죄 감지 시스템(10)의 각 구성을 개략적으로 나타낸 도면이다.
도 2는 온라인 생활범죄 감지 방법(S10)을 나타낸 모식도이다.
도 3은 온라인 생활범죄 감지 방법(S10)을 나타낸 순서도이다.
도 4는 대상 데이터 수집 모듈(100)에 의해 수행되는 S100 단계를 보다 상세히 나타낸 순서도이다.
도 5는 불법 의심 데이터 판별 모듈(200)에 의해 수행되는 S200 단계를 보다 상세히 나타낸 순서도이다.
도 6은 제2 키워드 추출부(220)의 각 구성을 개략적으로 나타낸 도면이다.
도 7은 제2 키워드 추출부(220)에 의해 수행되는 S220 단계를 보다 상세히 나타낸 순서도이다.
도 8은 도 6의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223) 및 제2 키워드 추출 유닛(224)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.
도 9는 도 6의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223), 제2 키워드 추출 유닛(224) 및 재조합 텍스트 생성 유닛(225)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.
도 10은 범죄 대응 모듈(400)에 의해 수행되는 S400 단계를 보다 상세히 나타낸 순서도이다.
1 is a diagram schematically showing each component of an online life crime detection system 10 .
2 is a schematic diagram showing an online life crime detection method (S10).
3 is a flowchart illustrating an online life crime detection method (S10).
4 is a flowchart illustrating step S100 performed by the target data collection module 100 in more detail.
5 is a flowchart illustrating step S200 performed by the suspicious illegal data determination module 200 in more detail.
6 is a diagram schematically illustrating each configuration of the second keyword extraction unit 220 .
7 is a flowchart illustrating step S220 performed by the second keyword extraction unit 220 in more detail.
8 is a method for extracting a second keyword in step S220 by the phoneme unit text extraction unit 221, the language type determination unit 222, the combined text generation unit 223, and the second keyword extraction unit 224 of FIG. This is an example of what it looks like.
FIG. 9 is S220 by the phoneme unit text extraction unit 221, the language type determination unit 222, the combined text generation unit 223, the second keyword extraction unit 224, and the recombinant text generation unit 225 of FIG. 6 It is an exemplary diagram showing how to extract the second keyword in the step.
10 is a flowchart illustrating step S400 performed by the crime response module 400 in more detail.

본 발명의 다른 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되는 실시 예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예는 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 만일 정의되지 않더라도, 여기서 사용되는 모든 용어들(기술 혹은 과학 용어들을 포함)은 이 발명이 속한 종래 기술에서 보편적 기술에 의해 일반적으로 수용되는 것과 동일한 의미를 가진다. 일반적인 사전들에 의해 정의된 용어들은 관련된 기술 그리고/혹은 본 출원의 본문에 의미하는 것과 동일한 의미를 갖는 것으로 해석될 수 있고, 그리고 여기서 명확하게 정의된 표현이 아니더라도 개념화되거나 혹은 과도하게 형식적으로 해석되지 않을 것이다.Other advantages and features of the present invention, and methods for achieving them, will become clear with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various different forms, but only the present embodiments make the disclosure of the present invention complete, and the common knowledge in the art to which the present invention belongs It is provided to fully inform the holder of the scope of the invention, and the present invention is only defined by the scope of the claims. Even if not defined, all terms (including technical or scientific terms) used herein have the same meaning as generally accepted by common technology in the prior art to which this invention belongs. Terms defined by general dictionaries may be interpreted to have the same meaning as they have in the related art and/or the text of the present application, and are not conceptualized or overly formalized, even if not expressly defined herein. won't

본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다' 및/또는 이 동사의 다양한 활용형들 예를 들어, '포함', '포함하는', '포함하고', '포함하며' 등은 언급된 조성, 성분, 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 조성, 성분, 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.Terms used in this specification are for describing embodiments and are not intended to limit the present invention. In this specification, singular forms also include plural forms unless specifically stated otherwise in a phrase. As used in the specification, 'comprise' and/or various conjugations of this verb, such as 'comprise', 'comprising', 'comprising', 'comprising', etc., refer to a mentioned composition, ingredient, component, Steps, acts and/or elements do not preclude the presence or addition of one or more other compositions, ingredients, components, steps, acts and/or elements.

본 명세서에서 '및/또는' 이라는 용어는 나열된 구성들 각각 또는 이들의 다양한 조합을 가리킨다. 한편, 본 명세서 전체에서 사용되는 '~부', '~기', '~블록', '~모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미할 수 있다. 예를 들어 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미할 수 있다. 그렇지만 '~부', '~기', '~블록', '~모듈' 등이 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부', '~기', '~블록', '~모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 이하, 본 명세서의 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.In this specification, the term 'and/or' refers to each of the listed elements or various combinations thereof. Meanwhile, terms such as '~unit', '~group', '~block', and '~module' used throughout this specification may mean a unit that processes at least one function or operation. For example, it can mean software, hardware components such as FPGAs or ASICs. However, '~ unit', '~ group', '~ block', '~ module', etc. are not meant to be limited to software or hardware. '~unit', '~group', '~block', '~module' may be configured to be in an addressable storage medium or configured to reproduce one or more processors. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings of this specification.

도 1은 온라인 생활범죄 감지 시스템(10)의 각 구성을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing each component of an online life crime detection system 10 .

도 2는 온라인 생활범죄 감지 방법(S10)을 나타낸 모식도이다.2 is a schematic diagram showing an online life crime detection method (S10).

도 3은 온라인 생활범죄 감지 방법(S10)을 나타낸 순서도이다.3 is a flowchart illustrating an online life crime detection method (S10).

도 1 내지 도 3을 참조하면, 온라인 생활범죄 감지 시스템(10)은 대상 데이터 수집 모듈(100), 불법 의심 데이터 판별 모듈(200), 위험도 산출 모듈(300) 및 범죄 대응 모듈(400)을 포함한다.1 to 3, the online life crime detection system 10 includes a target data collection module 100, an illegal suspicious data determination module 200, a risk calculation module 300, and a crime response module 400. do.

데이터 수집 모듈(100)은 온라인 생활 범죄 조기 탐지를 수행할 대상 데이터를 수집하도록 구성된다. 불법 의심 데이터 판별 모듈(200)은 수집된 대상 데이터를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받도록 구성된다. 위험도 산출 모듈(300)은 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받도록 구성된다. 범죄 대응 모듈(400)은 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행하도록 구성된다.The data collection module 100 is configured to collect target data for early detection of online life crimes. The suspected illegal data discrimination module 200 is configured to input the collected target data to the suspected illegality discrimination model and receive output of suspected illegal data classified according to analysis criteria for each crime type. The risk calculation module 300 is configured to input suspected illegal data classified according to the analysis criteria for each crime type into a risk calculation model and to receive an output risk. The crime response module 400 is configured to perform crime prevention measures, countermeasures, and warning measures based on the degree of risk.

온라인 생활범죄 감지 방법(S10)은 온라인 생활 범죄 조기 탐지를 수행할 대상 데이터를 수집하는 단계(S100), 수집된 대상 데이터를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 단계(S200), 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받는 단계(S300) 및 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행하는 단계(S400)를 포함한다.The online life crime detection method (S10) includes the steps of collecting target data for early detection of online life crimes (S100), inputting the collected target data into an illegal suspicion determination model, and classifying suspected illegal activities according to analysis criteria for each crime type. Receiving data (S200), inputting suspected illegal data classified according to the analysis criteria for each crime type into a risk calculation model, and receiving risk output (S300), and crime prevention measures, countermeasures, and warning measures based on the risk level and performing (S400).

예를 들면, 대상 데이터 수집 모듈(100)은 개인정보 유출, 공공기관 사칭, 불법 금융거래, 불법 금융거래에 따른 금전보상 제공, 지인 사칭 등과 같은 스미싱 범죄, 불법 대부 범죄, 불법 다단계 범죄, 중고 거래 사기 범죄, 불법 아르바이트, 아르바이트 사기 범죄, 도박 또는 불법 피라미드 등을 포함한 온라인 생활범죄 조기 탐지를 수행하기 위해 온라인 상에 개시된 컨텐츠인 대상 데이터를 입력 받는다. 불법 의심 데이터 판별 모듈(200)은 대상 데이터 수집 모듈(100)에 의해 입력 받은 대상 컨텐츠에 불법 의심 판별 모델을 적용하여 대상 데이터에 온라인 생활범죄에 관련된 불법 의심 데이터가 있는지를 판별한다. 불법 의심 데이터 판별 모듈(200)에 의해 불법 의심 데이터가 있는 것으로 판별된 경우, 위험도 산출 모듈(300)은 불법 의심 데이터를 산출한다. 범죄 대응 모듈(400)은 산출된 위험도에 대응하는 예방 조치, 대응 조치 및 경고 조치를 수행한다.For example, the target data collection module 100 is used for smishing crimes such as leakage of personal information, impersonation of public institutions, illegal financial transactions, provision of monetary compensation for illegal financial transactions, impersonation of acquaintances, illegal loan crimes, illegal multi-level crimes, second-hand In order to perform early detection of online life crimes, including transaction fraud, illegal part-time jobs, part-time job fraud, gambling, or illegal pyramids, target data, which is content disclosed online, is input. The illegal suspicious data discrimination module 200 determines whether there is illegal suspicious data related to online life crime in the target data by applying an illegal suspicious discrimination model to the target content input by the target data collection module 100 . When it is determined that there is suspicious illegal data by the illegal suspicious data determination module 200, the risk calculation module 300 calculates illegal suspicious data. The crime response module 400 performs preventive measures, countermeasures, and warning measures corresponding to the calculated risk level.

도 4는 대상 데이터 수집 모듈(100)에 의해 수행되는 S100 단계를 보다 상세히 나타낸 순서도이다.4 is a flowchart illustrating step S100 performed by the target data collection module 100 in more detail.

도 4를 참조하면, S100 단계는 데이터 크롤링을 통해 검색 엔진 및 SNS을 포함한 오픈 데이터(20)로부터 대상 데이터를 입력 받는 단계(S110) 및 데이터 크롤링을 통해 URL 주소로부터 대상 데이터를 입력 받는 단계(S120)를 포함할 수 있다.Referring to FIG. 4 , step S100 includes receiving target data from open data 20 including search engines and SNS through data crawling (S110) and receiving target data from URL addresses through data crawling (S120). ) may be included.

보다 상세히 말하면, S110 단계에서는 네이버, 구글 등을 포함한 검색 엔진, 채용 정보 사이트, 알바 정보 사이트, 중고 거래 사이트, 페이스북이나 트위터 등의 SNS을 포함한 오픈 데이터(20)에 개시된 컨텐츠들로부터 데이터를 크롤링하여 온라인 생활범죄 감지를 위한 대상 데이터를 입력 받는다. 또한, 사용자(50)가 온라인 상에 개시한 글과 이에 달린 댓글 역시 클롤링하여 이를 대상 데이터로 삼을 수도 있다. More specifically, in step S110, data is crawled from contents disclosed in the open data 20 including search engines including Naver and Google, recruitment information sites, part-time job information sites, used trading sites, and SNS such as Facebook and Twitter. to receive target data for online life crime detection. In addition, articles posted online by the user 50 and comments posted thereon may also be crawled and used as target data.

S120 단계에서는 오픈 데이터(20)에 포함된 컨텐츠뿐만 아니라 URL 주소를 더 크롤링하여 이를 온라인 생활범죄 감지를 위한 대상 데이터로 입력 받을 수 있다. 예를 들어, 온라인 상의 게시글뿐만 아니라 해당 게시글의 URL에 기재된 텍스트 역시 크롤링 할 수 있다.In step S120, URL addresses as well as contents included in the open data 20 may be further crawled and inputted as target data for online crime detection. For example, not only online posts but also the text in URLs of those posts can be crawled.

도 5는 불법 의심 데이터 판별 모듈(200)에 의해 수행되는 S200 단계를 보다 상세히 나타낸 순서도이다.5 is a flowchart illustrating step S200 performed by the suspicious illegal data determination module 200 in more detail.

도 5를 참조하면, S200 단계는 제1 키워드 추출부(210)에 의해 대상 데이터에 포함된 텍스트 데이터에서 특수 문자를 제외시킨 후 자연어 처리하여 제1 키워드를 추출하는 단계(S210), 제2 키워드 추출부(220)에 의해 대상 데이터에 포함된 이미지 데이터에 OCR 모델을 적용하여 제2 키워드를 추출하는 단계(S220) 및 불법 의심 데이터 판별부(230)에 의해 제1 키워드와 제2 키워드를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 단계(S230)를 포함할 수 있다.Referring to FIG. 5 , step S200 is a step of extracting a first keyword by excluding special characters from text data included in target data by a first keyword extractor 210 and then processing natural language to extract a first keyword (S210); Extracting the second keyword by applying the OCR model to the image data included in the target data by the extraction unit 220 (S220) and the illegal suspicious data determination unit 230 determines whether the first keyword and the second keyword are illegal. It may include a step ( S230 ) of outputting suspected illegal data that is input into a suspicion determination model and classified according to analysis criteria for each crime type.

보다 상세히 말하면, 제1 키워드 추출부(210)에 의해 수행되는 S210 단계에서는 대상 데이터 수집 모듈(100)에 의해 수집된 대상 데이터에서 특수 문자를 제외시킨다. 예를 들어, 특수 문자는 @ 또는 # 등의 문자를 말한다. 다음으로, 특수 문제가 제외된 대상 데이터를 자연어 처리하고 이를 제1 키워드로 추출한다.More specifically, in step S210 performed by the first keyword extractor 210, special characters are excluded from target data collected by the target data collection module 100. For example, special characters are characters such as @ or #. Next, target data from which special problems are excluded is processed in natural language and extracted as a first keyword.

제2 키워드 추출부(220)에 의해 수행되는 S220 단계에서는 이미지 데이터로부터 텍스트 데이터를 추출할 수 있는 OCR 모델을 적용하여 이미지 데이터에 포함된 텍스트인 제2 키워드를 추출한다.In step S220 performed by the second keyword extractor 220, a second keyword, which is text included in the image data, is extracted by applying an OCR model capable of extracting text data from image data.

불법 의심 데이터 판별부(230)에 의해 수행되는 S230 단계에서는 S210 단계에서 추출한 제1 키워드와 S220 단계에서 추출한 제2 키워드를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는다.In step S230 performed by the illegal suspicious data determination unit 230, the first keyword extracted in step S210 and the second keyword extracted in step S220 are input to the illegal suspicion determination model, and the suspected illegal data classified according to the analysis criteria for each crime type. is output.

불법 의심 판별 모델은 딥러닝 모델을 통해 대상 데이터를 분석하고, 분석 결과를 기반으로 불법 의심 데이터인지 여부를 판별하도록 구성되며, 이때 불법 의심 데이터는 예를 들어, 도박, 대출사기, 고액알바사기, 불법 피라미드 및 피싱 사기 등을 포함할 수 있다.The illegal suspicion discrimination model is configured to analyze target data through a deep learning model and determine whether or not it is illegal suspicious data based on the analysis results. At this time, the illegal suspicious data is, for example, gambling, loan fraud, This may include illegal pyramids and phishing scams.

불법 의심 판별 모델에 사용되는 딥러닝 모델은 BiLSTM 기반 딥러닝 모델을 포함할 수 있다. 다만, 이에 한정되지 않으며 Autoencoder, self-attention 등을 포함한 통상의 기술자가 어려움 없이 적용할 수 있는 딥러닝 모델이라면 제한 없이 적용될 수 있다.The deep learning model used for the illegal suspicion discrimination model may include a BiLSTM-based deep learning model. However, it is not limited to this, and any deep learning model that can be applied without difficulty by a skilled person, including autoencoder, self-attention, etc., can be applied without limitation.

불법 의심 판별 모델은 제1 키워드와 제2 키워드를 기반으로 대상 데이터를 범죄 유형 별로 분류하고, 범죄 유형 별로 분류된 대상 데이터를 각각의 범죄 유형 별 분석 기준에 따라 분류하고, 범죄 유형과 범죄 유형 별 분석 기준에 따라 분류된 대상 데이터를 분석하여 대상 데이터가 불법 의심 데이터인지 여부를 판별하도록 구성될 수 있다.The illegal suspicion discrimination model classifies target data by crime type based on the first and second keywords, classifies the target data classified by crime type according to the analysis criteria for each crime type, and classifies the target data by crime type and crime type based on the first and second keywords. It may be configured to analyze target data classified according to an analysis criterion to determine whether the target data is suspected illegal data.

이때 범죄 유형은 스미싱 유형, 대부 유형, 다단계 유형, 중고 거래 사기 유형 및 아르바이트 사기 유형 중 적어도 어느 하나를 포함할 수 있다.In this case, the crime type may include at least one of a smishing type, a loan type, a multi-level type, a used transaction fraud type, and a part-time job fraud type.

또한, 분석 기준은 각각의 범죄 유형 별로 달라질 수 있다.In addition, the analysis criteria may be different for each type of crime.

예를 들어, 범죄 유형이 스미싱 유형인 경우, 분석 기준은 범죄 기법, 범죄 피해 유형 및 개인 전화번호부 저장 여부 중 적어도 어느 하나를 포함할 수 있다.For example, when the crime type is the smishing type, the analysis criterion may include at least one of a crime technique, a crime damage type, and whether or not a personal phone book is stored.

또한, 범죄 유형이 대부 유형 또는 다단계 유형인 경우, 분석 기준은 회사명, 사업자 번호, 사업자 주소, 홈페이지 주소, 카카오톡 채팅방 유도 링크 포함 여부 및 기 설정된 해시태그 포함 여부 중 적어도 어느 하나를 포함할 수 있다.In addition, if the crime type is a loan type or a multi-level type, the analysis criterion may include at least one of company name, business number, business address, homepage address, whether or not a KakaoTalk chat room inducement link is included, and whether or not a preset hashtag is included. there is.

또한, 범죄 유형이 중고 거래 사기 유형인 경우, 분석 기준은 제품명, 판매가격, 외부 앱 유도 여부, 본문 내용이 이미지 형식인지 여부, 게시글 제목, 본인 인증 여부, 판매자 인증 여부 및 중고 거래 사기 이력 사이트에서의 조회 여부 중 적어도 어느 하나를 포함할 수 있다.In addition, if the crime type is the used transaction fraud type, the analysis criteria are the product name, selling price, whether or not to induce an external app, whether or not the content of the text is in image format, the post title, whether to verify the identity of the person, whether to verify the seller, and whether to use the used transaction fraud history. It may include at least one of whether to search for.

또한, 범죄 유형이 아르바이트 사기 유형인 경우, 분석 기준은 모집 조건, 근무 조건, 채용 담당자 정보, 접수 방법 정보, 기업 정보 중 적어도 어느 하나를 포함할 수 있다.Also, when the crime type is a part-time job fraud type, the analysis criterion may include at least one of recruiting conditions, working conditions, recruiter information, reception method information, and company information.

사용자(50)는 불법 의심 판별 모델에 사용되는 딥러닝 모델을 학습시키기 위해 제1 학습 데이터를 미리 준비하여 이를 통해 온라인 생활범죄 감지 시스템(10)에 적용될 딥러닝 모델을 학습시킨다.The user 50 prepares first learning data in advance to train the deep learning model used in the suspected illegality discrimination model, and learns the deep learning model to be applied to the online life crime detection system 10 through this.

딥러닝 모델의 학습에는 제1 학습 데이터와 더불어 Open API를 통해 공공 데이터(30)로부터 입력 받은 제2 학습 데이터가 추가로 이용될 수 있다. 보다 상세히 말하면, 경찰청 또는 금융감독원 등의 공공 기관 서버에는 생활범죄와 관련한 업체, 인물 등을 포함한 데이터가 포함될 수 있다. 따라서, Open API를 통해 공공 데이터(30)에 포함된 제2 학습 데이터를 딥러닝 모델에 추가로 학습시킴으로써 불법 의심 판별 모델을 통한 판별 정확도를 향상시킬 수 있다.For learning of the deep learning model, in addition to the first learning data, second learning data received from the public data 30 through an open API may be additionally used. In more detail, a server of a public institution such as the National Police Agency or the Financial Supervisory Service may include data including companies and persons related to life crimes. Therefore, it is possible to improve the discrimination accuracy through the illegal suspicion discrimination model by additionally learning the second learning data included in the public data 30 through the open API to the deep learning model.

또한, 불법 의심 판별 모델은 자신이 불법 의심 데이터로 판별한 데이터를 제3 학습 데이터로 삼아 추가적인 학습 역시 진행할 수 있다.In addition, the suspected illegality discrimination model may also perform additional learning by using the data it has identified as suspected illegal data as third learning data.

또한, 불법 의심 판별 모델은 네이버, 구글 등을 포함한 검색 엔진, 채용 정보 사이트, 알바 정보 사이트, 중고 거래 사이트, 페이스북이나 트위터 등의 SNS을 포함한 오픈 데이터(20)에 개시된 컨텐츠들 중에서 특히 생활범죄가 실제로 많이 발생하고 있는 중고 거래 사이트, 채용 정보 사이트, 알바 정보 사이트, 대부 업체 관련 사이트 및 다단계 연관 사이트에 개시된 컨텐츠들만을 추린 후 이를 제4 학습 데이터로 삼아 추가적인 학습을 진행할 수 있다.In addition, the illegal suspicion discrimination model is a life crime among contents disclosed in open data (20) including search engines including Naver and Google, recruitment information sites, part-time job information sites, used trading sites, and SNS such as Facebook and Twitter. After culling only the contents disclosed in used transaction sites, employment information sites, part-time job information sites, loan company related sites, and multi-level related sites where '' is actually occurring a lot, additional learning can be performed using this as the fourth learning data.

특히, 불법 의심 판별 모델은 제1 내지 제4 학습 데이터 각각에 서로 다른 가중치를 부여하여 학습을 수행함으로써, 보다 적합도가 높은 데이터를 중점적으로 반영하여 불법 의심 판별 모델을 학습시킬 수 있다.In particular, the illegal suspicion discrimination model can be learned by assigning different weights to each of the first to fourth learning data, thereby focusing on reflecting data with a higher degree of fitness to learn the illegal suspicion discrimination model.

예를 들어, 불법 의심 판별 모델은 실제 온라인 생활범죄가 많이 발생하고 있는 제4 데이터에 가중치를 부여하여 학습할 수 있으며, 이에 따라 보다 적합도가 높은 데이터를 통해 학습을 수행할 수 있다.For example, the illegal suspicion discrimination model can be learned by assigning a weight to the fourth data in which many actual online life crimes occur, and thus learning can be performed through data with a higher degree of fitness.

정리하면, 불법 의심 데이터 판별부(230)에 의해 수행되는 S230 단계에서는 제1 키워드와 제2 키워드를 불법 의심 판별 모델에 입력할 수 있으며, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받을 수 있다.In summary, in step S230 performed by the illegal suspicious data determination unit 230, the first keyword and the second keyword may be input to the illegal suspicious determination model, and illegal suspicious data classified according to the analysis criteria for each crime type may be output. can

도 6은 제2 키워드 추출부(220)의 각 구성을 개략적으로 나타낸 도면이다.6 is a diagram schematically illustrating each configuration of the second keyword extraction unit 220 .

도 7은 제2 키워드 추출부(220)에 의해 수행되는 S220 단계를 보다 상세히 나타낸 순서도이다.7 is a flowchart illustrating step S220 performed by the second keyword extraction unit 220 in more detail.

도 6 및 도 7을 참조하면, 제2 키워드 추출부(220)는 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223) 및 제2 키워드 추출 유닛(224)을 포함할 수 있다.6 and 7 , the second keyword extraction unit 220 includes a phoneme unit text extraction unit 221, a language type determination unit 222, a combined text generation unit 223, and a second keyword extraction unit 224 ) may be included.

제2 키워드 추출부(220)에 의해 수행되는 S220 단계는 음소 단위 텍스트 추출 유닛(221)에 의해 이미지 데이터에 OCR 모델을 적용하여 음소 단위의 텍스트를 추출하는 단계(S221), 언어 종류 판단 유닛(222)에 의해 음소 단위의 텍스트를 기반으로 텍스트의 언어 종류를 판단하는 단계(S222), 조합 텍스트 생성 유닛(223)에 의해 S222 단계에서 판단된 언어 종류에서의 필기 방향을 고려하여 음소 단위의 텍스트를 조합하여 조합 텍스트를 생성하는 단계(S223) 및 제2 키워드 추출 유닛(224)에 의해 조합 텍스트를 제2 키워드로서 추출하는 단계(S224)를 포함할 수 있다.Step S220 performed by the second keyword extractor 220 includes a step of extracting text in phoneme units by applying an OCR model to image data by the phoneme unit text extraction unit 221 (S221), a language type determination unit ( 222) to determine the language type of the text based on the text in phoneme units (S222), and the text in phoneme units in consideration of the handwriting direction in the language type determined in step S222 by the combined text generating unit 223 and generating combined text by combining (S223) and extracting the combined text as a second keyword by the second keyword extraction unit 224 (S224).

도 8은 도 6의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223) 및 제2 키워드 추출 유닛(224)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.8 is a method for extracting a second keyword in step S220 by the phoneme unit text extraction unit 221, language type determination unit 222, combined text generation unit 223, and second keyword extraction unit 224 of FIG. This is an example of what it looks like.

도 8을 참조하면, 온라인 상에 도 8과 같이 제1 행에는 '도바'가 기재되고 제2 행의 '바' 하단에 'ㄱ'이 개시되어 있을 수 있다.Referring to FIG. 8 , as shown in FIG. 8 online, 'Doba' may be described in the first row and 'a' may be disclosed at the bottom of the 'bar' in the second row.

음소 단위 텍스트 추출 유닛(221)에서는 도 7의 텍스트에서 음소 단위의 텍스트를 추출하며 추출 결과 'ㄷ, ㅗ, ㅂ, ㅏ, ㄱ'가 추출될 수 있다.The phoneme-unit text extraction unit 221 extracts the phoneme-unit text from the text of FIG. 7, and as a result of the extraction, 'c, ㅗ, f, a, and a' may be extracted.

언어 종류 판단 유닛(222)에서는 추출된 각 음소를 기반으로 해당 언어의 종류를 판단하며, 예시의 경우 한글인 것으로 판단할 수 있다.The language type determination unit 222 determines the type of the corresponding language based on each extracted phoneme, and may determine that it is Korean in the case of an example.

조합 텍스트 생성 유닛(223)에서는 추출된 음소를 조합하여 조합 텍스트를 생성하는데, 언어의 종류가 한글인 것으로 판단되었으므로 우측 및 아래측 방향의 필기 방향으로 고려하여 음소 단위의 텍스트를 조합하고, 그 결과 '도박'이라는 조합 텍스트가 생성될 수 있다. 만약, 언어 종류 판단 유닛(222)에 의해 판단된 언어가 좌측 방향으로 필기하는 언어일 경우 조합 텍스트 생성 유닛(223)에서는 해당 방향을 고려하여 음소 단위의 텍스트를 조합하여 조합 텍스트를 생성할 수 있다.The combined text generation unit 223 combines the extracted phonemes to generate combined text. Since it is determined that the type of language is Korean, the text in units of phonemes is combined in consideration of the right and down handwriting directions, and as a result A combination text of 'gambling' may be generated. If the language determined by the language type determining unit 222 is a language written in the left direction, the combined text generating unit 223 may generate combined text by combining text in phoneme units in consideration of the corresponding direction. .

마지막으로, 제2 키워드 추출 유닛(224)에서는 조합 테스트인 '도박'을 제2 키워드로서 추출할 수 있다.Finally, the second keyword extraction unit 224 may extract 'gambling', which is a combination test, as a second keyword.

다시 도 6 및 도 7을 참조하면, 제2 키워드 추출부(220)는 재조합 텍스트 생성 유닛(225)을 더 포함할 수 있으며, S220 단계는 재조합 텍스트 생성 유닛(225)에 의해 S222 단계에서 판단된 언어 종류인 제1 언어에서의 제1 음소의 형상과 제1 언어와 다른 언어 종류인 제2 언어의 제2 음소의 형상 간의 유사도가 기 설정된 값을 초과하는 경우, 제2 음소를 상기 제1 음소로 치환하여 재조합 텍스트를 생성하는 단계(S225) 및 제2 키워드 추출 유닛(224)에 의해 재조합 텍스트를 제2 키워드로서 추출하는 단계(S226)를 더 포함할 수 있다.Referring back to FIGS. 6 and 7 , the second keyword extraction unit 220 may further include a recombinant text generating unit 225, and step S220 is determined by the recombinant text generating unit 225 in step S222. When the similarity between the shape of the first phoneme in the first language, which is a language type, and the shape of the second phoneme in a second language, which is a different language type from the first language, exceeds a preset value, the second phoneme is selected as the first phoneme. It may further include generating recombinant text by replacing with (S225) and extracting the recombinant text as a second keyword by the second keyword extraction unit 224 (S226).

도 9는 도 7의 음소 단위 텍스트 추출 유닛(221), 언어 종류 판단 유닛(222), 조합 텍스트 생성 유닛(223), 제2 키워드 추출 유닛(224) 및 재조합 텍스트 생성 유닛(225)에 의해 S220 단계에서 제2 키워드를 추출하는 모습을 나타낸 예시도이다.FIG. 9 is S220 by the phoneme unit text extraction unit 221, the language type determination unit 222, the combined text generation unit 223, the second keyword extraction unit 224, and the recombinant text generation unit 225 of FIG. 7 It is an exemplary diagram showing how to extract the second keyword in the step.

도 9를 참조하면, 온라인 상에 도 8과 같이 제1 행에는 '도ㅂr'가 기재되고 제2 행의 'ㅂr' 하단에 'ㄱ'이 개시되어 있을 수 있다. 이때 제1 행에서의 '도ㅂ'와 제2 행에서의 'ㄱ'은 한글이며, 제1 행에서의 'r'은 영어 알파벳 소문자이다. Referring to FIG. 9 , as shown in FIG. 8 online, 'Do ㅅr' may be described in the first row and 'ㄱ' may be disclosed at the bottom of 'ㅅr' in the second row. At this time, 'Doㅅ' in the first line and 'ㄱ' in the second line are Korean characters, and 'r' in the first line is a lowercase English alphabet.

음소 단위 텍스트 추출 유닛(221)에서는 도 8의 텍스트에서 음소 단위의 텍스트를 추출하며 추출 결과 'ㄷ, ㅗ, ㅂ, r, ㄱ' 가 추출될 수 있다.The phoneme-unit text extraction unit 221 extracts the phoneme-unit text from the text of FIG. 8 , and the extraction result 'c, ㅗ, f, r, and a' may be extracted.

언어 종류 판단 유닛(222)에서는 추출된 각 음소를 기반으로 해당 언어의 종류를 판단하는데, 'ㄷ, ㅗ, ㅂ, ㄱ' 음소는 한글이고, 'r' 음소는 영어인 것으로 판단할 수 있다.The language type determination unit 222 determines the type of the corresponding language based on each extracted phoneme. It can be determined that the 'c, ㅗ, f, and a' phonemes are Korean and the 'r' phoneme is English.

도 9가 도 8과 다른 점은 도 9의 경우 재조합 텍스트 생성 유닛(225)이 'r'을 'ㅏ'로 치환하여 재조합 텍스트를 생성한다는 점이다.9 is different from FIG. 8 in that, in the case of FIG. 9 , the recombinant text generating unit 225 replaces 'r' with 'a' to generate recombinant text.

보다 상세히 말하면, 재조합 텍스트 생성 유닛(225)은 언어 종류 판단 유닛(222)에서 판단된 각 음소의 언어 종류 중 빈도가 가장 높은 언어를 제1 언어로 설정하고, 그 다음 빈도의 언어를 제2 언어로 설정한다. 따라서, 도 8의 경우 한글이 제1 언어로 설정될 수 있고, 영어로 제2 언어로 설정될 수 있다.More specifically, the recombinant text generation unit 225 sets the language with the highest frequency among the language types of each phoneme determined by the language type determination unit 222 as the first language, and sets the next most frequent language as the second language. set to Therefore, in the case of FIG. 8 , Korean may be set as the first language and English may be set as the second language.

이후 제1 언어의 각 음소의 형상과 제2 언어의 각 음소의 형상 간의 유사도를 비교하여 유사도가 기 설정된 값을 초과하는지를 판단한다. 예를 들어 도 8의 경우 제1 언어인 한글의 제1 음소인 'ㅏ' 음소의 형상과 제2 언어인 영어의 제2 음소인 'r' 음소의 형상 간의 유사도가 기 설정된 값을 초과할 수 있으며, 이 경우 'r' 음소를 'ㅏ' 음소로 치환할 수 있다.Thereafter, the similarity between the shape of each phoneme of the first language and the shape of each phoneme of the second language is compared to determine whether the similarity exceeds a preset value. For example, in the case of FIG. 8 , the similarity between the shape of the first phoneme 'a' of Korean, the first language, and the shape of the 'r' phoneme, the second phoneme of English, the second language, may exceed a preset value. In this case, the 'r' phoneme can be replaced with the 'ㄱ' phoneme.

필요한 경우 유사도 비교를 위한 판단 자료는 사용자(50)가 직접 입력해 둘 수 있으며, 재조합 텍스트 생성 유닛(225)은 이를 기반으로 유사도를 비교할 수 있다.If necessary, the user 50 may directly input judgment data for similarity comparison, and the recombinant text generation unit 225 may compare the similarity based on this.

마지막으로 제2 키워드 추출 유닛(224)에 의해 재조합 텍스트를 제2 키워드로서 추출할 수 있다.Finally, the recombinant text may be extracted as a second keyword by the second keyword extraction unit 224 .

다시 도 1을 참조하면, S200 단계는 의심 키워드 설정부(240)에 의해 제1 키워드와 제2 키워드를 의심 키워드로 설정하는 단계(S240), 연관 키워드 산출부(250)에 의해 의심 키워드와 연관된 연관 키워드를 산출하는 단계(S250) 및 불법 의심 데이터 판별부(230)에 의해 의심 키워드와 연관 키워드에 불법 의심 판별 모델을 적용하여 불법 의심 데이터를 판별하는 단계(S260)를 더 포함할 수 있다.Referring back to FIG. 1 , step S200 includes setting the first and second keywords as suspicious keywords by the suspicious keyword setting unit 240 (S240), and The method may further include calculating related keywords (S250) and determining illegal suspicious data by applying a suspected illegality discrimination model to the suspicious keyword and related keywords by the illegal suspicious data determining unit 230 (S260).

S210 단계 내지 S230 단계에서는 제1 키워드와 제2 키워드에 불법 의심 판별 모델을 적용하여 불법 의심 데이터에 해당하는지를 판별한다.In steps S210 to S230, it is determined whether the first keyword and the second keyword correspond to suspected illegal data by applying an illegal suspicion determination model.

추가적으로 S240 단계 내지 S260 단계에서는 제1 키워드와 제2 키워드 뿐 아니라 이와 연관된 키워드인 연관 키워드에도 불법 의심 판별 모델을 적용할 수 있도록 한다.Additionally, in steps S240 to S260, the illegal suspicion determination model can be applied not only to the first keyword and the second keyword but also to related keywords, which are related keywords.

이때 연관 키워드는 의심 키워드를 검색 엔진 상에 입력했을 때 제공되는 키워드일 수 있다.In this case, the related keyword may be a keyword provided when a suspicious keyword is entered into a search engine.

예를 들어, 의심 키워드 설정부(240)에서는 '토토'를 의심 키워드로 설정할 수 있으며, 연관 키워드 산출부(250)는 '토토'의 연관 검색어인 '환전, 충전, 놀이터' 등을 연관 키워드로 산출할 수 있다. 따라서, 불법 의심 데이터 판별부(230)에서는 '토토' 뿐 아니라 '환전, 충전, 놀이터' 등을 추가로 불법 의심 판별 모델에 입력하여 불법 의심 데이터 여부를 판별할 수 있다.For example, the suspicious keyword setting unit 240 may set 'Toto' as a suspicious keyword, and the related keyword calculation unit 250 may set 'toto' related search words such as 'exchange, charging, playground' as related keywords. can be calculated Therefore, the suspected illegal data determining unit 230 may additionally input 'exchange, charging, playground', etc. in addition to 'Toto' to the suspected illegal data determination model to determine whether or not the suspected illegal data exists.

다시 도 1 내지 도 3을 참조하면, S10 단계는 위험도 산출 모듈(300)에 의해 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받는 단계(S300)를 더 포함할 수 있다.Referring back to FIGS. 1 to 3 , in step S10 , the step S300 of inputting suspected illegal data classified by the risk calculation module 300 according to the analysis criteria for each crime type into the risk calculation model and outputting the risk degree (S300) is further performed. can include

S300 단계에서는 위험도 산출 모듈(300)에 의해 S200 단계에서 출력된 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력할 수 있으며, 위험도 산출 모델로부터 위험도를 출력받을 수 있다.In step S300, suspected illegal data classified according to the analysis criteria for each crime type output in step S200 by the risk calculation module 300 may be input to a risk calculation model, and a risk may be output from the risk calculation model.

위험도 산출 모델은 딥러닝 모델을 통해 불법 의심 데이터를 분석하고, 분석 결과를 기반으로 위험도를 출력하도록 구성된다.The risk calculation model is configured to analyze suspected illegal data through a deep learning model and output a risk based on the analysis result.

위험도 산출 모델에 사용되는 딥러닝 모델은 BiLSTM 기반 딥러닝 모델을 포함할 수 있다. 다만, 이에 한정되지 않으며 Autoencoder, self-attention 등을 포함한 통상의 기술자가 어려움 없이 적용할 수 있는 딥러닝 모델이라면 제한 없이 적용될 수 있다.The deep learning model used for the risk calculation model may include a BiLSTM-based deep learning model. However, it is not limited to this, and any deep learning model that can be applied without difficulty by a skilled person, including autoencoder, self-attention, etc., can be applied without limitation.

보다 상세히 말하면, 위험도 산출 모델은 범죄 유형이 스미싱 유형인 경우, URL 링크를 통하 특정 앱 설치를 유도하는 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정할 수 있다.More specifically, when the crime type is the smishing type, the risk calculation model may set the risk level of target data that induces installation of a specific app through a URL link to be relatively higher than the risk level of other target data.

예를 들어, 도박 사이트를 광고하는 2개의 대상 데이터가 있을 경우, 특정 대상 데이터 내에 앱 설치를 유도하는 URL 링크가 포함될 경우, 해당 앱은 도박 사이트에서 운영하는 앱일 수 있으며 따라서 앱 설치를 유도하는 URL 링크가 포함된 대상 데이터의 위험도를 그 외 대상 데이터의 위험도보다 상대적으로 높게 설정할 수 있다.For example, if there are two target data advertising a gambling site, if the specific target data contains a link to a URL that drives an app install, then the app may be an app operated by a gambling site, and thus a URL that drives an app install. The risk level of target data with links can be set relatively higher than the risk level of other target data.

또한, 범죄 유형이 대부 유형 또는 다단계 유형인 경우, 상기 기 설정된 해시 태그가 복수로 포함된 대상 데이터의 위험도를 한 개만 포함된 대상 데이터의 위험도보다 더 높게 설정할 수 있다.In addition, when the crime type is a loan type or a multi-level type, the risk level of target data including a plurality of the predetermined hash tags may be set higher than the risk level of target data including only one hash tag.

예를 들어, 위험도 분석 모델은 대상 데이터에 기 설정된 해시 태그인 '토토'와 '환전'이 포함되어 있을 경우, 해당 대상 데이터의 위험도를 '토토'만 포함된 대상 데이터보다 상대적으로 높게 설정할 수 있다.For example, the risk analysis model can set the risk of the target data to be relatively higher than that of the target data containing only 'Toto' when the target data includes preset hashtags 'Toto' and 'Exchange'. .

또한, 범죄 유형이 중고 거래 사기 유형인 경우, 특정 물품의 가격이 특정 중고 거래 사이트에서의 평균 가액보다 기 설정된 비율 미만인 것으로 기재된 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정할 수 있다.In addition, if the crime type is a second-hand transaction fraud type, the risk of target data described as having a price of a specific item less than a predetermined ratio than the average value on a specific second-hand trading site can be set relatively higher than the risk of other target data. .

예를 들어, 위험도 분석 모델은 대상 데이터에 기재된 내용이 특정 모델 스피커를 5만원에 판매하고 있으나 해당 모델의 평균 가격이 10만원이며 기 설정된 비율이 80%일 경우, 해당 스피커는 평균 가격 10만원의 80%인 8만원보다 더 저렴한 가격으로 판매되고 있으므로, 해당 내용이 기재된 대상 데이터의 위험도를 그 외 대상 데이터의 위험도보다 상대적으로 더 높게 설정할 수 있다.For example, in the risk analysis model, if the content described in the target data is that a specific model speaker is sold at 50,000 won, but the average price of the model is 100,000 won and the preset ratio is 80%, the speaker is at an average price of 100,000 won. Since it is sold at a lower price than 80%, which is 80,000 won, the risk level of the target data with the corresponding content can be set relatively higher than the risk level of other target data.

또한, 범죄 유형이 아르바이트 사기 유형인 경우, 특정 직종의 임금이 특정 알바 정보 사이트에서의 평균 임금보다 기 설정된 비율을 초과한 것으로 기재된 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정할 수 있다.In addition, if the crime type is a part-time job fraud type, the risk level of target data described as exceeding a predetermined ratio over the average wage in a specific part-time job information site can be set relatively higher than the risk level of other target data. there is.

예를 들어, 위험도 분석 모델은 대상 데이터에 기재된 내용이 시급 10만원의 모델 알바를 소개하고 있고 모델 알바의 평균 시급이 평균 5만원이며 기 설정된 비율이 20%일 경우, 해당 시급 10만원의 모델 알바는 평균 시급 5만원의 20%인 1만원을 초과하므로, 해당 내용이 기재된 대상 데이터의 위험도를 그 외 대상 데이터의 위험도보다 상대적으로 더 높게 설정할 수 있다.For example, in the risk analysis model, if the content described in the target data introduces a model part-time job with an hourly wage of 100,000 won, and the average hourly wage of the model part-time job is 50,000 won on average and the preset ratio is 20%, the model part-time job with an hourly wage of 100,000 won Since the average hourly wage exceeds 10,000 won, which is 20% of the average hourly wage of 50,000 won, the risk level of the target data with the contents can be set relatively higher than the risk level of other target data.

도 10은 범죄 대응 모듈(400)에 의해 수행되는 S400 단계를 보다 상세히 나타낸 순서도이다.10 is a flowchart illustrating step S400 performed by the crime response module 400 in more detail.

도 10을 참조하면, S400 단계는 유관 기관 신고부(410)에 의해 불법 의심 데이터를 온라인 생활범죄 별 유관 기관(40)에 제공하는 단계(S410)를 포함할 있으며, 유관 기관 신고부(410)에 의해 URL 주소를 온라인 생활범죄 별 유관 기관(40)에 제공하는 단계(S440)를 더 포함할 수 있다.Referring to FIG. 10, step S400 may include a step (S410) of providing suspected illegal data to the related agency 40 for each online life crime by the related agency reporting unit 410, and the related agency reporting unit 410 A step (S440) of providing the URL address to the relevant agency 40 for each online life crime may be further included.

또한, 불법 의심 데이터와 더불어 사용자(50)가 받은 피해 상황에 대한 정보 역시 함께 제공할 수 있다. 이때 유관 기관(40)은 경찰청, 금융감독원, 공정거래위원회 및 방송통신심의위원회 등 온라인 생활범죄와 관련된 공공기관을 모두 포함할 수 있다.In addition, along with data suspected of being illegal, information on damage received by the user 50 may also be provided. In this case, the related institutions 40 may include all public institutions related to online life crimes, such as the National Police Agency, the Financial Supervisory Service, the Fair Trade Commission, and the Korea Communications Standards Commission.

S400 단계는 피해 신고 절차 제공부(420)에 의해 사용자(50)에게 피해 신고 절차를 제공하는 단계(S420)를 더 포함할 수 있다.Step S400 may further include providing a damage report procedure to the user 50 by the damage report procedure providing unit 420 (S420).

예를 들어, 피해 신고 절차 제공부(420)는 피해 신고 절차 안내를 하거나 해당 피해와 관련된 전문가 또는 변호사를 추천하거나 해당 전문가 또는 변호사로부터 자문을 받는 방법 등을 안내할 수 있다.For example, the damage report procedure providing unit 420 may guide the damage report procedure, recommend an expert or lawyer related to the damage, or guide how to receive advice from the expert or lawyer.

S400 단계는 소장 제공부(430)에 의해 사용자(50)에게 진정서 또는 소장 작성 방법을 제공하거나, 작성을 대행하는 단계(S430)를 더 포함할 수 있다.Step S400 may further include a step (S430) of providing a petition or a method of writing a complaint to the user 50 by the complaint providing unit 430, or acting as a writing agent.

예를 들어, 사용자(50)가 피해를 입은 경우 직접 소장 또는 진정서를 작성하는 방벙을 안내하거나, 사용자가 피해 사실을 소장 제공부(430)에 전달한 경우 이를 수신하여 이를 기반으로 소장 또는 진정서를 작성하여 사용자(50)에게 제공할 수 있다.For example, if the user 50 has suffered damage, guide the method of directly writing a complaint or complaint, or if the user delivers the fact of damage to the complaint providing unit 430, receive it and write a complaint or complaint based on this. It can be provided to the user 50.

S400 단계는 경고문구 전송부(440)를 통해 사용자(50)에게 경고문구를 전송하는 단계(S450)를 더 포함할 수 있다.Step S400 may further include transmitting a warning message to the user 50 through the warning message transmission unit 440 (S450).

예를 들어, 경고문구 전송부(440)는 위험도가 기 설정된 구간 중 어느 구간에 해당하는지에 따라 서로 다른 경고문구를 사용자(50)에게 전송할 수 있다.For example, the warning phrase transmission unit 440 may transmit different warning phrases to the user 50 according to which section of the risk level preset section corresponds to.

보다 상세히 말하면, 기 설정된 구간은 보통 구간, 주의 구간, 경고 구간 및 위험 구간일 수 있으며, 가장 낮은 위험도는 보통 구간에 속하고 가장 높은 위험도는 위험 구간에 속할 수 있다.More specifically, the preset section may be a normal section, a caution section, a warning section, and a danger section, and the lowest risk may belong to the normal section and the highest risk may belong to the danger section.

이상에서 실시예를 통해 본 발명을 설명하였으나, 위 실시예는 단지 본 발명의 사상을 설명하기 위한 것으로 이에 한정되지 않는다. 통상의 기술자는 전술한 실시예에 다양한 변형이 가해질 수 있음을 이해할 것이다. 본 발명의 범위는 첨부된 특허청구범위의 해석을 통해서만 정해진다.Although the present invention has been described through examples above, the above examples are only for explaining the idea of the present invention and are not limited thereto. Those skilled in the art will understand that various modifications can be made to the above-described embodiments. The scope of the present invention is defined only through the interpretation of the appended claims.

10 온라인 생활범죄 감지 시스템
20 오픈 데이터
30 공공 데이터
40 유관 기관
50 사용자
100 대상 데이터 수집 모듈
200 불법 의심 데이터 판별 모듈
210 제1 키워드 추출부
220 제2 키워드 추출부
221 음소 단위 텍스트 추출 유닛
222 언어 종류 판단 유닛
223 조합 텍스트 생성 유닛
224 제2 키워드 추출 유닛
225 재조합 텍스트 생성 유닛
230 불법 의심 데이터 판별부
240 의심 키워드 설정부
250 연관 키워드 산출부
300 위험도 산출 모듈
400 범죄 대응 모듈
410 유관 기관 신고부
420 피해 신고 절차 제공부
430 소장 제공부
440 경고문구 전송부
10 Online life crime detection system
20 open data
30 public data
40 Relevant institutions
50 users
100 target data collection module
200 Illegal Suspicious Data Discrimination Module
210 First keyword extraction unit
220 Second keyword extraction unit
221 phoneme unit text extraction unit
222 language type judgment unit
223 Combination Text Generation Unit
224 second keyword extraction unit
225 Recombinant Text Generation Unit
230 Illegal Suspicious Data Discrimination Department
240 Suspicious keyword setting unit
250 Related keyword calculation unit
300 risk calculation module
400 Crime Response Module
410 Relevant Agency Notification Department
420 Damage Reporting Procedures Department
430 Collection Department
440 warning message transmission unit

Claims (10)

온라인 생활범죄 감지 시스템이,
a) 온라인 생활 범죄 조기 탐지를 수행할 대상 데이터를 수집하는 단계;
b) 수집된 대상 데이터를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 단계;
c) 상기 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받는 단계; 및
d) 상기 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행하는 단계를 포함하는 온라인 생활범죄 감지 방법.
online life crime detection system,
a) Collecting target data for early detection of crimes in online life;
b) inputting the collected target data into a suspected illegality discrimination model and outputting suspected illegal data classified according to analysis criteria for each crime type;
c) inputting suspected illegal data classified according to the analysis criteria for each crime type into a risk calculation model and receiving an output risk; and
d) a method for detecting online life crimes, comprising performing crime prevention measures, countermeasures, and warning measures based on the risk level.
제1항에 있어서,
상기 a) 단계는:
데이터 크롤링을 통해 검색 포탈, 블로그, 채용 정보 사이트, 알바 정보 사이트, 중고 거래 사이트, SNS, 문자, 댓글, 피해 신고 정보 및 URL 주소로부터 대상 데이터를 입력 받는 단계인 온라인 생활범죄 감지 방법.
According to claim 1,
Step a) is:
Online life crime detection method, which is a step of receiving target data from search portals, blogs, recruitment information sites, part-time job information sites, used trading sites, SNS, text messages, comments, damage report information, and URL addresses through data crawling.
제2항에 있어서,
상기 b) 단계는:
b-1) 상기 대상 데이터를 자연어 처리하거나 상기 대상 데이터에 OCR 모델을 적용한 후 키워드를 추출하는 단계; 및
b-2) 상기 키워드를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 단계를 포함하는 온라인 생활범죄 감지 방법.
According to claim 2,
Step b) is:
b-1) processing the target data in natural language or extracting keywords after applying an OCR model to the target data; and
b-2) A method for detecting online life crimes, including the step of inputting the keyword into a suspected illegality determination model and outputting suspected illegal data classified according to analysis criteria for each crime type.
제3항에 있어서,
상기 불법 의심 판별 모델은:
상기 키워드를 기반으로 상기 대상 데이터를 범죄 유형 별로 분류하고;
상기 범죄 유형 별로 분류된 대상 데이터를 각각의 범죄 유형 별 분석 기준에 따라 분류하고;
상기 범죄 유형과 상기 범죄 유형 별 분석 기준에 따라 분류된 대상 데이터를 분석하여 상기 대상 데이터가 불법 의심 데이터인지 여부를 판별하도록 구성되는 온라인 생활범죄 감지 방법.
According to claim 3,
The illegal suspicion determination model is:
classifying the target data by crime type based on the keyword;
classifying target data classified by crime type according to analysis criteria for each crime type;
The online life crime detection method configured to analyze the target data classified according to the crime type and the analysis criterion for each crime type to determine whether the target data is suspected illegal data.
제4항에 있어서,
상기 범죄 유형은:
스미싱 유형, 대부 유형, 다단계 유형, 중고 거래 사기 유형 및 아르바이트 사기 유형 중 적어도 어느 하나를 포함하는 온라인 생활범죄 감지 방법.
According to claim 4,
The crime types are:
A method for detecting online life crimes including at least one of a smishing type, a loan type, a multi-level type, a used transaction fraud type, and a part-time job fraud type.
제5항에 있어서,
상기 범죄 유형 별 분석 기준은:
상기 범죄 유형이 스미싱 유형인 경우, 범죄 기법, 범죄 피해 유형 및 개인 전화번호부 저장 여부 중 적어도 어느 하나를 포함하고;
상기 범죄 유형이 대부 유형 또는 다단계 유형인 경우, 회사명, 사업자 번호, 사업자 주소, 홈페이지 주소, 카카오톡 채팅방 유도 링크 포함 여부 및 기 설정된 해시태그 포함 여부 중 적어도 어느 하나를 포함하고;
상기 범죄 유형이 중고 거래 사기 유형인 경우, 제품명, 판매가격, 외부 앱 유도 여부, 본문 내용이 이미지 형식인지 여부, 게시글 제목, 본인 인증 여부, 판매자 인증 여부 및 중고 거래 사기 이력 사이트에서의 조회 여부 중 적어도 어느 하나를 포함하고;
상기 범죄 유형이 아르바이트 사기 유형인 경우, 모집 조건, 근무 조건, 채용 담당자 정보, 접수 방법 정보, 기업 정보 중 적어도 어느 하나를 포함하는 온라인 생활범죄 감지 방법.
According to claim 5,
The analysis criteria for each type of crime are as follows:
if the crime type is a smishing type, includes at least one of a crime technique, a crime damage type, and whether or not a personal phone book is stored;
If the crime type is a loan type or a multi-level type, at least one of company name, business number, business address, homepage address, whether or not a KakaoTalk chat room inducement link is included, and whether or not a preset hashtag is included;
If the above type of crime is second-hand transaction fraud, product name, selling price, whether or not to induce an external app, whether or not the content of the text is in image format, post title, whether to verify identity, whether to verify the seller, and whether to search on second-hand transaction fraud history sites includes at least one;
If the crime type is a part-time job fraud type, the online life crime detection method includes at least one of recruitment conditions, working conditions, recruiter information, application method information, and company information.
제6항에 있어서,
상기 위험도 산출 모델은:
상기 범죄 유형이 스미싱 유형인 경우, URL 링크를 통하 특정 앱 설치를 유도하는 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정하고;
상기 범죄 유형이 대부 유형 또는 다단계 유형인 경우, 상기 기 설정된 해시 태그가 복수로 포함된 대상 데이터의 위험도를 한 개만 포함된 대상 데이터의 위험도보다 더 높게 설정하고;
상기 범죄 유형이 중고 거래 사기 유형인 경우, 특정 물품의 가격이 특정 중고 거래 사이트에서의 평균 가액보다 기 설정된 비율 미만인 것으로 기재된 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정하고;
상기 범죄 유형이 아르바이트 사기 유형인 경우, 특정 직종의 임금이 특정 알바 정보 사이트에서의 평균 임금보다 기 설정된 비율을 초과한 것으로 기재된 대상 데이터의 위험도를 그 외의 대상 데이터의 위험도보다 상대적으로 높게 설정하도록 구성되는 온라인 생활범죄 감지 방법.
According to claim 6,
The risk calculation model is:
When the crime type is a smishing type, setting a risk level of target data that induces installation of a specific app through a URL link to be relatively higher than a risk level of other target data;
When the crime type is a loan type or a multi-level type, setting a risk level of target data including a plurality of preset hash tags higher than a risk degree of target data including only one hash tag;
If the crime type is a second-hand transaction fraud type, setting the risk level of target data in which the price of a specific item is less than a predetermined ratio to the average value on a specific second-hand trading site is relatively higher than the risk level of other target data;
If the crime type is a part-time job fraud type, the risk level of target data described as exceeding a predetermined ratio over the average wage in a specific part-time job information site is set to be relatively higher than the risk level of other target data. How to detect online life crime.
제7항에 있어서,
상기 d) 단계는:
d-1) 유관 기관 신고부에 의해 상기 불법 의심 데이터를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계;
d-2) 피해 신고 절차 제공부에 의해 사용자에게 피해 신고 절차를 제공하는 단계;
d-3) 소장 제공부에 의해 사용자에게 진정서 또는 소장 작성 방법을 제공하거나, 작성을 대행하는 단계;
d-4) 상기 유관 기관 신고부에 의해 상기 URL 주소를 상기 온라인 생활범죄 별 유관 기관에 제공하는 단계; 및
d-5) 사용자에게 경고문구를 전송하는 단계를 포함하는 온라인 생활범죄 감지 방법.
According to claim 7,
Step d) is:
d-1) providing the suspected illegal data to relevant agencies for each online life crime by a related agency report unit;
d-2) providing a damage report procedure to the user by the damage report procedure providing unit;
d-3) providing a complaint or a method for preparing a complaint to the user by the complaint providing unit, or acting on behalf of the preparation;
d-4) providing the URL address to the relevant agency for each online life crime by the related agency report unit; and
d-5) A method for detecting online life crimes, including sending a warning message to a user.
제8항에 있어서,
상기 불법 의심 판별 모델은:
사용자로부터 입력 받은 제1 학습 데이터;
Open API를 통해 공공 데이터로부터 입력 받은 제2 학습 데이터;
상기 불법 의심 판별 모델에 의해 불법 의심 데이터로 판별된 데이터인 제3 학습 데이터; 및
특정 사이트에 개시된 데이터인 제4 학습 데이터 중 적어도 어느 하나를 통해 학습하도록 구성되되,
상기 제1 학습 데이터 내지 제4 학습 데이터 각각에 서로 다른 가중치를 부여하여 학습을 수행하도록 구성되는 온라인 생활범죄 감지 방법.
According to claim 8,
The illegal suspicion determination model is:
First learning data input from a user;
Second learning data received from public data through an open API;
Third learning data that is data determined as illegal suspicious data by the illegal suspicious determination model; and
It is configured to learn through at least one of the fourth learning data, which is data disclosed on a specific site,
The online life crime detection method configured to perform learning by assigning different weights to each of the first to fourth learning data.
온라인 생활 범죄 조기 탐지를 수행할 대상 데이터를 수집하는 대상 데이터 수집 모듈;
수집된 대상 데이터를 불법 의심 판별 모델에 입력하고, 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 출력받는 불법 의심 데이터 판별 모듈;
상기 범죄 유형별 분석 기준에 따라 분류된 불법 의심 데이터를 위험도 산출 모델에 입력하고, 위험도를 출력받는 위험도 산출 모듈; 및
상기 위험도를 기반으로 범죄 예방 조치, 대응 조치 및 경고 조치를 수행하는 범죄 대응 모듈을 포함하는 온라인 생활범죄 감지 시스템.
a target data collection module for collecting target data for early online life crime detection;
an illegal suspicious data discrimination module that inputs the collected target data into a suspected illegality discrimination model and outputs suspected illegal data classified according to analysis criteria for each crime type;
a risk calculation module that inputs suspected illegal data classified according to the analysis criteria for each crime type into a risk calculation model and receives an output risk; and
An online life crime detection system including a crime response module that performs crime prevention measures, response measures, and warning measures based on the risk level.
KR1020210160030A 2021-11-19 2021-11-19 System and method for detecting online living crime capable of risk assessment KR20230073542A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210160030A KR20230073542A (en) 2021-11-19 2021-11-19 System and method for detecting online living crime capable of risk assessment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210160030A KR20230073542A (en) 2021-11-19 2021-11-19 System and method for detecting online living crime capable of risk assessment

Publications (1)

Publication Number Publication Date
KR20230073542A true KR20230073542A (en) 2023-05-26

Family

ID=86537193

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210160030A KR20230073542A (en) 2021-11-19 2021-11-19 System and method for detecting online living crime capable of risk assessment

Country Status (1)

Country Link
KR (1) KR20230073542A (en)

Similar Documents

Publication Publication Date Title
El Ballouli et al. Cat: Credibility analysis of arabic content on twitter
O'Leary What phishing e-mails reveal: An exploratory analysis of phishing attempts using text analysis
Chatterjee et al. Classifying facts and opinions in Twitter messages: a deep learning-based approach
Nindyati et al. Detecting scam in online job vacancy using behavioral features extraction
Hamisu et al. Detecting advance fee fraud using nlp bag of word model
Tanwar et al. A proposed system for opinion mining using machine learning, NLP and classifiers
Raza et al. Semantic orientation based decision making framework for big data analysis of sporadic news events
Ceballos Delgado et al. Deception detection using machine learning
Rajesh et al. Fraudulent news detection using machine learning approaches
Mahbub et al. Online recruitment fraud detection: A study on contextual features in Australian job industries
Ma et al. Detecting review spam: Challenges and opportunities
Abualigah et al. Fake news detection using recurrent neural network based on bidirectional LSTM and GloVe
Looijenga The detection of fake messages using machine learning
Manek et al. Detection of fraudulent and malicious websites by analysing user reviews for online shopping websites
Airoldi et al. Data mining challenges for electronic safety: The case of fraudulent intent detection in e-mails
Lippman et al. Toward finding malicious cyber discussions in social media
Alzghoul et al. Fraud in Online Classified Ads: Strategies, Risks, and Detection Methods: A Survey
KR20230073542A (en) System and method for detecting online living crime capable of risk assessment
KR102322918B1 (en) System and method for detecting online living crime
Santhiya et al. Fake News Detection Using Machine Learning
Saraswat et al. Phishing Detection in E-mails using Machine Learning
Kaur et al. A review on detecting fake news through text classification
Xu et al. Design and Implementation of Chinese Spam Review Detection System
Ahmad et al. Features Identification for Filtering Credible Content on Twitter Using Machine Learning Techniques
Batsleer The detection of fake webshops in the. be zone