KR102318297B1

KR102318297B1 - 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법

Info

Publication number: KR102318297B1
Application number: KR1020190175841A
Authority: KR
Inventors: 양중식; 이영준; 조영준
Original assignee: (주)아이와즈
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-10-27
Also published as: KR20210083510A

Abstract

본 발명은 전문가의 자문을 기반으로 모니터링 선정대상을 일반웹 대상, 다크웹 대상, 팩트수집 대상으로 그룹핑하고 공신력 있는 웹사이트도 데이터 수집 대상에 포함시키며 분산 수집 및 증분 색인 수행을 통해 효율적으로 수집하고 수집한 범죄첩보 데이터로부터 학습데이터를 생성하고 자연어처리 기술 및 인공지능 기술을 이용하여 웹 모니터링 데이터와 유사 팩트 문서를 비교분석하여 범죄첩보의 진위 확률을 산출함으로써 범죄첩보의 신뢰성을 향상시키는 것을 특징으로 한다.

Description

가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법{Crime detection system through fake news decision and web monitoring and Method thereof}

본 발명은 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 가짜뉴스를 탐지하고 주기적으로 웹을 모니터링하여 수집한 데이터를 분석하여 자동으로 최신 범죄첩보를 추출하는 기술에 관한 것이다.

다크웹(dark web)은 일반적인 인터넷 브라우저로는 접속할 수 없는 암호화된 인터넷망이다. 다크웹은 권력의 감시와 검열로부터 보안, 익명 및 프라이버시를 보장받기 위하여 시작되었으나, 위조지폐, 무기 암거래, 청부살인, 공문서 위조, 마약 거래, 아동 포르노 거래와 같이 인터넷 지하세계에서 범죄의 온상이 되었다.

사회관계망서비스(SNS) 또는 언론사 등을 통하여 유포되는 가짜뉴스는 교묘하게 조작된 속임수 뉴스로서, 정치 또는 경제적 이익을 위해 의도적으로 언론 보도의 형식으로 유포된 거짓 정보이고, 핵심 내용을 왜곡하거나 조작된 뉴스로 대부분 사실 확인이 쉽지 않은 자극적인 내용들을 포함하고 있다.

대부분의 다크웹은 범죄의 온상이 되기 때문에 다크웹에서 수집한 데이터는 범죄첩보로 활용할 수 있고, 가짜뉴스는 표현의 자유 뒤에 숨은 사회의 공적(公敵)이기 때문에 가짜뉴스로 판별하고 퇴치하는 방법이 필요하다.

범죄첩보 탐지 시스템에 관한 종래의 기술로서 특허문헌 1은 다크웹에서 스캐닝한 정보를 분석하여 범죄프로파일링을 수행하는 다크웹 범죄정보 분석시스템 및 그 방법을 제시하고 있다.

상기 기술은 다크웹을 통해 취득한 범죄정보를 분석하는 시스템을 제시하고 있는 바, 점점 고도화 지능화 되어가는 현실의 범죄수법에 비추어 볼 때 다크웹 범죄정보만으로는 미흡한 문제점이 있으므로, 다크웹 데이터를 포함하여 일반웹 데이터 및 팩트 데이터까지 수집 비교분석하고 종합적으로 판단하여 범죄첩보의 진위 확률을 산출할 필요가 있다.

한국등록특허 제10-1852107호

상기의 문제를 해결하고자 본 발명은 전문가의 자문을 기반으로 모니터링 선정대상을 일반웹 대상, 다크웹 대상, 팩트수집 대상으로 그룹핑하고 공신력 있는 웹사이트도 데이터 수집 대상에 포함시키고 분산 수집 및 증분 색인 수행 등을 통해 효율적으로 수집한다.

수집한 범죄정보 데이터로부터 학습데이터를 생성하고 자연어처리 기술 및 인공지능 기술을 이용하여 웹 모니터링 데이터와 유사 팩트 문서를 분석하고 범죄첩보의 진위 확률을 산출하여 최종 결과를 사용자에게 제공하고자 한다.

상기의 과제를 해결하고자 하는 본 발명의 웹 모니터링을 통한 범죄첩보 탐지 시스템은, 범죄첩보 탐지 모니터링 대상을 선정하는 선정부, 선정된 대상으로부터 범죄첩보를 수집하는 수집부, 수집한 범죄첩보를 검정하여 학습시키고 수정 및 삭제하여 재학습시키는 범죄첩보 추출 모델 생성부, 데이터 학습 및 분석을 통한 범죄첩보 추출부 및 범죄첩보의 사실여부를 판단하는 판단부를 포함하되, 상기 범죄첩보 추출 모델은 6하 원칙에 의한 스키마로 기존 및 신규 범죄 모형으로 생성되고, 정답 데이터셋으로 학습되는 것을 특징으로 한다.

상기 선정부는, 선정대상을 일반웹 대상, 다크웹 대상 또는 팩트수집 대상으로 그룹핑하는 것을 특징으로 한다.

상기 수집부는 복수의 수집기를 통한 분산 수집으로 접속차단을 방지하고, 증분 색인 수행에 의한 효율적인 수집인 것을 특징으로 한다.

상기 범죄첩보 추출 모델 생성부는 전문가가 포함된 전담팀에서 수집한 범죄정보 데이터로부터 정답 태그를 표기한 학습데이터를 생성하고 인공지능 학습을 위한 정답문서를 작성함으로써 상기 범죄정보 데이터에서 범죄첩보를 추출하고 분석하는 것을 특징으로 한다.

상기 추출부는 범죄첩보 데이터를 분석하고 최신 범죄첩보를 추출하는 단계로, 상기 수집부에서 수집한 데이터와 이로부터 미제사건 정보검색 및 유사문서 정보검색으로 검출한 데이터로부터 범죄첩보 추출 모델을 통해 미제사건을 포함한 범죄첩보를 추출하고, 수집한 각 데이터에 대한 자연어처리 및 인공지능을 활용하여 형태소를 분석하고 미분석어를 검출하여, 추출한 범죄첩보와 분석한 형태소와 검출한 미분석어를 토대로 보고서를 작성하는 것을 특징으로 한다.

상기 판단부는 범죄첩보의 사실여부를 판단하는 단계로, 팩트 DB에서 웹 모니터링 데이터와 유사한 데이터를 검색하고, 이를 통해 추출한 범죄첩보의 사실여부를 판단하는 유사 팩트 자료검색과, 자연어처리 기술 및 인공지능 기술을 이용하여 웹 모니터링 데이터와 유사 팩트 문서를 분석하고 웹 모니터링 데이터가 거짓일 확률을 산출하는 가짜뉴스 검출과 가짜일 확률이 높아질 때마다 그 근거자료를 저장하고 최종적인 결과를 사용자에게 제공하는 결과 제공을 포함하는 것을 특징으로 한다.

본 발명의 다른 실시예로서, 웹 모니터링을 통한 범죄첩보 탐지 방법은, 범죄첩보 탐지 모니터링 대상을 선정하는 선정단계, 선정된 대상으로부터 범죄첩보를 수집하는 수집단계, 수집한 범죄첩보를 검정하여 학습시키고 수정 및 삭제하여 재학습시키는 범죄첩보 추출 모델 생성단계, 데이터 학습 및 분석을 통한 범죄첩보 추출단계 및 범죄첩보의 사실여부를 판단하는 판단단계를 포함하되, 상기 범죄첩보 추출 모델은 6하 원칙에 의한 스키마로 기존 및 신규 범죄 모형으로 생성되고, 정답 데이터셋으로 학습되는 것을 특징으로 한다.

상기 선정 및 수집단계는, 모니터링 대상 사이트를 설정하는 단계와 수집 스케줄을 설정하는 단계를 거쳐 팩트 데이터 수집물, 일반웹 수집물, 다크웹 수집물에서 색인어와 역색인어를 추출하고 증분 색인을 수행하는 단계를 포함하는 것을 특징으로 한다.

상기 범죄첩보 추출 모델 생성단계는 범죄첩보 추출 모델 구축 알고리즘과 결과 검정 및 재학습 알고리즘으로 구성된다.

상기 범죄첩보 추출 모델 구축 알고리즘은 기존 및 신규 범죄첩보 데이터를 확보하는 단계와 범죄첩보 태그 표기단계와 학습용 정답 데이터셋 생성단계와 범죄첩보 추출 모델 학습단계와 추출 모델 성능 검증을 통해 검증된 범죄첩보 추출 모델을 저장하는 단계를 포함하고, 상기 결과 검정 및 재학습 알고리즘은 사용자(전문가)에게 검증 요청단계와 사용자(전문가) 검증을 통해 검증된 학습 데이터 생성단계와 미분석어 사전에 추가단계와 범죄첩보 추출모델 추가 학습 수행단계를 포함하는 것을 특징으로 한다.

상기 추출단계는 데이터 분석 및 최신 범죄첩보 추출 알고리즘과 각 문서별 분석 수행 알고리즘으로 구성된다.

상기 최신 범죄첩보 추출 알고리즘은 미제사건과 유사문서 검색단계와 웹 모니터링 문서와 미제사건 유사문서별로 그룹핑 하는 단계와 범죄첩보 추출단계와 각 문서별 분석 수행단계와 자동 보고서 작성단계를 포함하고, 상기 각 문서별 분석 수행 알고리즘은 문서 전처리단계와 형태소 분석 및 미분석어 검출단계와 개체명 분석 및 미분석어 검출단계와 구문 분석단계와 의미역 분석단계와 문서 요약단계를 포함하는 것을 특징으로 한다.

상기 판단단계는 자연어처리 기술을 활용하는 데이터 분석단계와 해당 데이터와 유사한 팩트 데이터 검색단계와 유사 데이터가 존재할 경우에 자연어처리 기술을 활용한 팩트 데이터 분석단계와 현재 분석 중인 데이터와 팩트 데이터 비교분석단계와 남은 유사 팩트 문서가 더 이상 없는 경우에 범죄첩보 데이터에 대한 최종적인 가짜확률 계산단계를 포함하는 것을 특징으로 한다.

본 발명은 모니터링 선정대상을 일반웹 대상, 다크웹 대상, 팩트수집 대상으로 그룹핑하고 공신력 있는 웹사이트도 데이터 수집 대상에 포함시키며 분산 수집 및 증분 색인 수행을 통해 효율적으로 수집하고 수집한 범죄첩보 데이터로부터 학습데이터를 생성하고 자연어처리 기술 및 인공지능 기술을 이용하여 웹 모니터링 데이터와 유사 팩트 문서를 비교분석하여 범죄첩보의 진위 확률을 산출함으로써 범죄첩보의 신뢰성을 향상시킬 수 있는 현저한 효과가 있다.

도 1은 본 발명의 실시예에 따른 범죄첩보 탐지 시스템을 도시한 블록도이다.
도 2는 본 발명의 실시예에 따른 범죄첩보 탐지 방법에서 범죄첩보 탐지 대상으로부터 범죄첩보를 수집하는 수집방법을 도시한 흐름도이다.
도 3은 범죄첩보 추출 모델 구축 방법을 도시한 흐름도이다.
도 4는 최신 범죄첩보 추출 방법과 문서별 분석 수행 방법을 도시한 흐름도이다.
도 5는 범죄첩보 추출 모델로 분석한 결과 검정 및 재학습 방법을 도시한 흐름도이다.
도 6은 범죄첩보 사실여부 판단 방법을 도시한 흐름도이다.

이하, 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.

도 1은 본 발명의 실시예에 따른 범죄첩보 탐지 시스템을 도시한 블록도로서, 범죄첩보 탐지 시스템은 범죄첩보 탐지 모니터링 대상을 선정하는 선정부(10), 선정된 대상으로부터 범죄첩보를 수집하는 수집부(20), 수집한 범죄첩보를 검증하여 학습시키고 수정 및 삭제하여 재학습시키는 범죄첩보 추출 모델 생성부(30), 데이터 학습 및 분석을 통한 범죄첩보 추출부(40), 범죄첩보의 사실여부를 판단하는 판단부(50)를 포함한다.

상기 선정부(10)는 전문가의 자문을 기반으로 모니터링 대상을 선정하되, 선정대상을 일반웹 대상(110), 다크웹 대상(120), 팩트수집 대상(130)으로 그룹핑한다.

본 발명에서 웹(web)은 일반웹과 다크웹을 모두 포괄하는 용어로 사용한다.

본 발명의 범죄첩보 추출에는 지인, 인맥 또는 탐문에 의한 직접추출은 배제되지만 웹을 통한 추출을 위한 기초 데이터나 색인어 선정에 활용하는 방식으로 온라인-오프라인의 연계가 바람직하다.

전문가는 사이버범죄 관련 전문가, 정보보호 관련 전문가, 범죄심리학자 등을 포함하는 광의적인 개념이며 온라인-오프라인 연계를 위해 정보경찰이나 수사경찰 등 오프라인 전문가도 포함될 수 있다.

또한, 전문가에는 전문가가 포함된 전담팀도 포함되며, 이들에 의한 모니터링 대상에는 일반웹 대상, 다크웹 대상, 팩트수집 대상뿐만이 아니고 대형 신문사, 중견기자 블로그, 전문 법조인 블로그 등 공신력 있는 웹사이트가 포함된다.

최근 국제적인 사이버보안 및 사이버범죄예방의 필요성이 증대되는 추세인 만큼 상기 웹 대상에는 국내뿐만이 아니고 해외 사이트도 포함되며 상기 전문가 집단에도 국제범죄 전문가가 포함될 수 있다.

특히 다크웹은 일반적인 인터넷 브라우저로는 접근이 불가능하며 암호화된 네트워크에 존재하여 특정 브라우저를 통해서만 접근이 가능한 웹사이트로서 다크웹 사이트의 주소는 일반 웹사이트 도메인과 다른 형태를 갖고 있는 경우가 대부분이므로 다크웹에 대한 정보수집과 모니터링에는 일반웹과 다른 절차와 기술이 사용되어야 하기 때문에 별도의 수집 및 모니터링 수행이 필요하다.

따라서 다크웹에 접속하고 스캐닝 및 정보채취 할 수 있는 전문가가 별도로 필요할 수도 있다.

선정된 대상으로부터 범죄첩보를 수집하는 상기 수집부(20)의 특징은 복수의 수집기를 통한 분산 수집으로 접속차단을 방지하고, 증분 색인 수행에 의한 효율적인 수집이다.

분산 수집이라 함은 복수의 수집 대상을 복수의 수집기에 분배하여 접속함으로써 수집 대상으로부터 접속차단을 피하는 수집방법이다.

수집된 데이터는 전문가가 포함된 전담팀에 의해 수시 팩트 검증을 거친 후 출처에 따라 웹 모니터링 데이터 DB와 팩트 DB로 분류되어 저장되고 다시 웹 모니터링 데이터 DB는 일반웹 DB와 다크웹 DB로 분류되어 저장된다.

팩트 데이터 수집의 경우 수집된 팩트 데이터가 과도하게 광대하고 광범위한 경우에는 샘플링을 진행한 후 상기 전문가가 포함된 전담팀에 의한 수시 팩트 검증을 거치도록 할 수 있다.

수집된 데이터로부터 색인어 및 역색인어를 추출한다.

색인은 원하는 데이터 항목을 찾아내는 데 걸리는 시간을 단축시키기 위해 색인(데이터와 그 보관 위치 목록)을 사용해서 메모리나 메모리 내의 데이터를 검색하는 방법이다.

역색인은 형태소 분석과 대상 문서 튜닝 후 키워드에 문서들의 기본키(primary Key) 혹은 주소, 파일명 등과 같은 값을 매핑하여 저장하는 기술이다. 역색인 작업을 하게 될 때의 장점은 매우 빨리 찾을 수 있다는 것이다. 기존보다 추가적인 작업과 메모리가 필요하게 되지만 검색은 매우 빠른 속도로 처리된다.

증분 색인은 빅데이터, GPU(Graphics Processing Unit) 등 많은 양의 정보를 검색하는 방법으로 해당 문서의 추가, 삭제, 변경만을 검색서비스에 반영하는 증분식 검색 시스템을 말한다.

범죄첩보 추출 모델 생성부(30)는 수집한 범죄첩보를 검정하여 학습시키고 수정 및 삭제하여 재학습시키는 범죄첩보 추출 모델 생성부로서, 전문가가 포함된 전담팀에서 수집한 범죄정보 데이터로부터 정답 태그를 표기한 학습데이터를 생성하고 인공지능 학습을 위한 정답문서를 작성함으로써 상기 범죄정보 데이터에서 범죄첩보를 추출하고 분석한다. 인공지능 학습의 예로는 딥러닝을 통한 기계학습 등이 있다.

범죄첩보 추출 모델 생성부의 기능은 크게 범죄첩보 추출 모델 구축과 결과 검정 및 재학습이다.

범죄첩보 추출 모델 구축은 기존 및 신규 범죄첩보 데이터를 확보하여 범죄첩보 태그를 표기하고 학습용 정답 데이터셋을 생성하는 작업이며, 생성된 모델은 범죄첩보 및 범죄정보 전문가가 포함된 전담팀의 검증을 거친 후 저장된다.

범죄첩보 추출 모델은 범죄 사건들을 유형화하여 시간, 장소, 범행 대상, 범행 방법, 범행 동기 등을 6하 원칙에 의한 스키마(schema)로 세운다. 분석대상 문서가 범죄첩보 추출 모델에 입력되었을 경우, 해당 모델은 추출한 범죄첩보 정보들을 괄호로 묶고 구분자와 함께 해당 첩보가 어떤 정보에 해당하는지 태그를 달아준다. 예를 들면, "이번 달 10일 밤 10시 쯤 홍대입구역 4번 출구 앞에서 이글 대기 예정. 예정대로 작대리 전달할 것."이라는 내용을 가진 문서가 범죄첩보 추출 모델에 입력되면, "(이번 달 10일 밤 10시 쯤/시간) (홍대입구역 4번 출구 앞/장소)에서 (이글/범행 대상(마약용어)) 대기 예정. 예정대로 (작대기/범행 방법(마약용어)) 전달할 것."이라는 결과를 도출한다.

범죄첩보는 사람, 증거, 혹은 사건을 확인하거나 범죄사건의 증인이나 증거와 관련된, 아직 분석이 이루어지지 않은 원형의 자료로서 범죄정보를 생산하기 위해 필요한 재료를 뜻하고, 범죄정보는 다양한 경로로 입수된 첩보를 평가하는 분석과정의 생산물로서, 관련된 첩보들을 통합하여 집약적인 꾸러미로 만든 후 문제해결을 위한 과학적인 방법들을 사용하여 만들어 낸 범죄현상에 대한 결론이나 예측을 뜻하지만 통상적으로 서로 혼용되어 쓰이고 있다.

범죄첩보는 수사첩보의 한 내용으로 범죄수사상 참고가 될 만한 제반사항이라고 할 수 있다.

구축된 모델은 유효기간이 길지 않으므로 새로운 환경과 정보에 의해 항상 리뉴얼(renewal) 되어야 한다. 본 발명에서는 리뉴얼 기능이 상기 결과 검정 및 재학습 과정에 의해 자체적으로 수행된다.

즉, 새로운 범죄첩보가 추가되면 기존 범죄첩보와 배치되는 부분을 수정하여 재생시키는 작업이 본 발명의 범죄첩보 추출 모델 구축 중에, 결과 검정 및 재학습 과정에서 자동으로 수행된다는 것이 본 발명의 특징 중 하나이다.

결과 검정 및 재학습 과정은 전문가에게 검증 요청단계와 전문가 검증을 통해 검증된 학습 데이터 생성단계와 미분석어 사전에 추가단계와 범죄첩보 추출모델 추가 학습 수행단계를 포함하는 것을 특징으로 한다.

범죄첩보 데이터에서 범죄첩보를 추출하고 이를 토대로 작성된 보고서는 전문가에게 전달되며 전문가의 검증을 거쳐 오류가 수정된 정답문서로 재생성되어 다시 범죄첩보 추출 모델 생성을 위한 재학습자료로 피드백 되는 선순환이 본 발명의 범죄첩보 추출 모델 구축 단계에서 자체적 자동적으로 이루어진다.

데이터 학습 및 분석을 통한 범죄첩보 추출부(40)는 범죄첩보 데이터를 분석하고 최신 범죄첩보를 추출하는 단계로, 수집부에서 수집한 데이터와 미제사건 정보검색 및 유사문서 정보검색으로 검출한 데이터로부터 범죄첩보 추출 모델을 통해 범죄첩보를 추출하고, 수집한 각 데이터에 대해 자연어처리 및 인공지능을 활용하여 형태소를 분석하고 미분석어를 검출하여, 추출한 범죄첩보와 분석한 형태소와 검출한 미분석어를 토대로 보고서를 작성한다.

상기 데이터 학습 및 분석은 컴퓨터 프로그램이 데이터와 처리 경험을 이용한 학습을 통해 정보 처리 능력을 스스로 향상시키는 기계학습이며, 그 중에서도 입출력 사이의 매핑이 존재하는 지도학습에 해당한다.

본 발명은 입출력 사이의 매핑을 위한 출처별 학습세트를 포함한다. 예를 들어 가짜뉴스 또는 가짜범죄첩보와 공신력 있는 뉴스 또는 진짜범죄첩보의 출처들을 각각 입력과 출력 쌍으로 학습시키는 지도학습을 통해 진짜범죄첩보의 검출능력을 향상시키는 것이다.

기계학습을 위해 인간의 학습능력을 모방한 인공지능을 활용할 수 있다.

수집한 데이터에서 미제사건과 유사한 문서를 검색할 때, TF-IDF(Term Frequency-Inverse Document Frequency) 등의 유사도 분석 알고리즘을 활용할 수 있다. TF-IDF는 단어의 빈출도와 단어의 특수성을 통해 문장 간 유사도를 계산하는 알고리즘이다.

TF-IDF 알고리즘을 활용하여 유사도 분석을 수행하기 위해 먼저 분석 대상 문서들에 대해 형태소 분석을 진행한다. 형태소 분석 결과에 대해 TF와 IDF 값을 산출한다. 문서에서 해당 단어가 얼마나 출현하였는지를 통해 TF값을 구하고, 해당 단어가 전체 문서들 중에서 몇 개의 문서에 출현했는지를 통해 DF값을 구하고 DF값의 역수를 취해 IDF값을 구한다. 마지막으로 구해둔 TF값과 IDF값을 곱하여 산출한 TF-IDF값을 활용하여 유사도 분석을 수행한다.

범죄첩보 데이터를 분석하고 최신 범죄첩보를 추출하는 과정에서 기 구축된 범죄첩보 추출 모델이 적용되며, 새로 추출된 최신 범죄첩보에 의해 상기 범죄첩보 추출 모델이 리뉴얼되는 선순환이 계속 이루어지게 된다.

수집한 각 데이터에 대해 자연어처리 및 인공지능을 활용하여 형태소를 분석하고 미분석어를 검출하여, 추출한 범죄첩보와 분석한 형태소와 검출한 미분석어를 토대로 보고서를 작성한다.

참고로 여기서 자연어처리는 인간언어 분석과 표현을 자동화하기 위한 계산 기법이다.

작성된 상기 보고서는 사용자(전문가)에게 전달되며 상기 사용자(전문가)의 검증을 거쳐 오류가 수정된 정답문서로 재생성 되고 범죄첩보 추출 모델 생성을 위한 재학습자료로 피드백 되어 상기 범죄첩보 추출 모델의 리뉴얼이 계속 이루어지게 된다.

상기 판단부(50)는 가짜뉴스 또는 범죄첩보의 사실여부를 판단하는 단계로, 팩트 DB에서 웹 모니터링 데이터와 유사한 데이터를 검색하고, 이를 통해 추출한 뉴스 또는 범죄첩보의 사실여부를 판단하는 유사 팩트 자료검색과, 자연어처리 기술 및 인공지능 기술을 이용하여 웹 모니터링 데이터와 유사 팩트 문서를 분석하고 웹 모니터링 데이터가 거짓일 확률을 산출하는 가짜뉴스 검출과, 가짜일 확률이 높아질 때마다 그 근거자료를 저장하고 최종적인 결과를 사용자에게 제공하는 결과제공을 포함한다.

상기 팩트 DB에서 웹 모니터링 데이터와 유사한 데이터를 검색하고, 유사한 문서가 존재하지 않으면 웹 모니터링 데이터는 가짜일 확률이 아주 높아 가짜확률 계산이 무의미하다고 판단하고'판단 보류'로 분류하여 자동으로 전문가 및 전담팀에 검토 요청하거나 재분석을 수행하고, 유사한 문서가 존재하면 상기 웹 모니터링 데이터의 가짜확률 계산을 위해 상기 웹 모니터링 데이터와 유사문서를 자연어처리 기술과 인공지능 기술을 활용하여 비교대조하고 서로 다른 내용이 검출되면 서로 다른 정도에 따라 가짜확률을 계산한 후 해당 문서를 근거자료로 저장한다.

계속해서 비교대조하지 않고 남은 유사 팩트 문서가 있으면 추가적으로 비교대조하여 서로 다른 내용이 검출되는 정도에 따라 가짜확률을 계산하거나 기 산출된 가짜확률을 업데이트한 후 남은 유사 팩트 문서가 없을 때까지 동일한 루프를 반복 시행하고, 남은 유사 팩트 문서가 없으면 범죄첩보 데이터에 대한 최종적인 가짜확률을 계산한다.

상기의 과정에서 가짜확률이 높아질 때마다 그 근거로 사용된 자료를 근거자료로 저장하고 최종적인 결과를 사용자에게 제공한다.

한편, 본 발명의 웹 모니터링을 통한 범죄첩보 탐지 방법은, 범죄첩보 탐지 모니터링 대상을 선정하는 선정단계, 선정된 대상으로부터 범죄첩보를 수집하는 수집단계, 수집한 범죄첩보를 검정하여 학습시키고 수정 및 삭제하여 재학습시키는 범죄첩보 추출 모델 생성단계, 데이터 학습 및 분석을 통한 범죄첩보 추출단계, 범죄첩보의 사실여부를 판단하는 판단단계로 이루어진다.

도 2는 본 발명의 실시예에 따른 범죄첩보 탐지 방법에서 범죄첩보 탐지 대상을 선정하고 선정된 대상으로부터 범죄첩보를 수집하는 수집방법을 도시한 흐름도로서, 상기 선정 및 수집단계는, 모니터링 대상 사이트를 설정하는 단계와 수집 스케줄을 설정하는 단계를 거쳐 팩트 데이터 수집물, 일반웹 수집물, 다크웹 수집물에서 색인어와 역색인어를 추출하고 증분 색인을 수행하는 단계를 포함한다.

수집한 팩트 데이터의 검정 단계는, 수집한 팩트 데이터의 양이 적당하면 전문가 및 전단팀에 팩트 검정 자료로 보내고, 과다하면 샘플링 진행 후 검정 자료로 보낸다.

전문가 및 전단팀의 팩트 검정 후 수집된 데이터로부터 색인어 및 역색인어를 추출하고 신속한 검색을 위해 증분 색인을 수행하고 팩트 DB에 저장한다.

수집한 웹 데이터의 처리 단계는, 먼저 일반웹과 다크웹으로 분류하고, 일반웹에서 수집한 데이터의 경우 수집한 데이터에서 색인어 및 역색인어를 추출하고 신속한 검색을 위해 증분 색인을 수행하고 팩트 DB에 저장한다.

다크웹 데이터의 경우 히든 서비스와 연동시켜 색인어 및 역색인어를 추출하고 신속한 검색을 위해 증분 색인을 수행하고 팩트 DB에 저장한다.

도 3은 범죄첩보 추출 모델 구축 방법을 도시한 흐름도로서, 기존 및 신규 범죄첩보 데이터를 확보하는 단계와 범죄첩보 태그 표기단계와 학습용 정답 데이터셋 생성단계와 범죄첩보 추출 모델 학습단계와 추출 모델 성능 검증을 통해 검증된 범죄첩보 추출 모델을 저장하는 단계를 포함한다.

범죄첩보 추출 모델은 범죄 사건들을 유형화하여 시간, 장소, 범행 대상, 범행 방법, 범행 동기 등을 6하 원칙에 의한 스키마(schema)로 세운다. 분석대상 문서가 범죄첩보 추출 모델에 입력되었을 경우, 해당 모델은 추출한 범죄첩보 정보들을 괄호로 묶고 구분자와 함께 해당 첩보가 어떤 정보에 해당하는지 태그를 달아준다. 예를 들면, "이번 달 10일 밤 10시 쯤 홍대입구역 4번 출구 앞에서 이글 대기 예정. 예정대로 작대리 전달할 것."이라는 내용을 가진 문서가 범죄첩보 추출 모델에 입력되면, "(이번 달 10일 밤 10시 쯤/시간) (홍대입구역 4번 출구 앞/장소)에서 (이글/범행 대상(마약용어)) 대기 예정. 예정대로 (작대기/범행 방법(마약용어)) 전달할 것."이라는 결과를 도출하여 사용자에게 전달해 준다.

기존에 수집해 둔 범죄첩보 데이터와 신규 수집한 범죄첩보 데이터를 확보하고, 사전에 전문가의 자문을 얻어 확보해 둔 범죄첩보 태그셋 DB와 연계하여 확보한 범죄첩보 데이터에 범죄첩보 태그 표기를 하고 학습용 정답 데이터셋을 생성한다.

생성한 정답 데이터셋으로 범죄첩보 추출 모델을 학습시키고 추출 모델 성능을 검정하여 추출 모델의 정답률이 기준치 이상이면 범죄첩보 추출 모델을 저장하고, 기준치 이하이면 재학습을 통해 기준치 이상이 될 때까지 학습을 반복시킨다.

정답 데이터셋은 은어적 표현과 6하 원칙에 의한 스키마(schema)로 작성된다. 정답 데이터셋의 예로서, '오빠가(전달자) 오늘(시간) 홍대 앞에서(장소) 고기(대마초) 왕창(전달 양) 사줄게(전달).'와 같은 식으로 6하 원칙의 태그로 작성되는 경우가 많다.

도 4는 최신 범죄첩보 추출 방법과 문서별 분석 수행 방법을 도시한 흐름도이다.

도 4의 최신 범죄첩보 추출 방법은 미제사건과 유사문서 검색단계와 웹 모니터링 문서와 미제사건 유사문서별로 그룹핑하는 단계와 범죄첩보 추출단계와 각 문서별 분석 수행단계와 자동 보고서 작성단계를 포함한다.

미제사건과 유사문서 검색에는 TF-IDF 등의 유사도 분석 알고리즘을 활용할 수 있다. TF-IDF는 단어의 빈출도와 단어의 특수성을 통해 문장 간 유사도를 계산하는 알고리즘이다.

미제사건 DB 및 웹(일반웹과 다크웹) 모니터링 데이터 DB에서 추출한 데이터에서 미제사건과 유사문서를 검색하고, 웹 모니터링 문서와 미제사건 유사문서별로 그룹핑한 후 범죄첩보 추출 모델을 이용하여 범죄첩보를 추출한다. 이 추출에는 이번 주기 수집 데이터에 대한 전체적인 범죄첩보 추출과 이번 주기 수집 데이터 중 미제사건과 유사한 사건에 대한 범죄첩보 추출이 포함된다.

도 4의 문서별 분석 수행 방법은 문서 전처리단계와 형태소 분석 및 미분석어 검출단계와 개체명 분석 및 미분석어 검출단계와 구문 분석단계와 의미역 분석단계와 문서 요약단계를 포함한다. 데이터 분석에 자연어처리 및 인공지능 기술을 활용할 수 있다. 문서 요약은 구문 분석과 의미역 분석 결과를 토대로 육하원칙에 따른 정보로 요약한다.

상기와 같이 추출한 범죄첩보 데이터와 수집한 데이터에 대한 분석 결과를 토대로 자동 보고서를 작성한다. 작성 요령은 해당 문서에서 추출한 범죄첩보 데이터와 검출한 미분석어를 나열하는 방식으로 미리 정의해 둔 보고서 형식에 맞춰 작성한다. 작성한 보고서는 범죄첩보 보고서 DB에 저장되고 사용자(전문가)의 검증을 거쳐 최신 범죄첩보 정보지원, 미제사건 범죄첩보 정보지원 및 학습 데이터 생성 자료로 활용된다.

도 5는 범죄첩보 추출 모델로 분석한 결과 검정 및 재학습 방법을 도시한 흐름도로서, 사용자(전문가)가 자동으로 작성되어 검증 요청된 보고서를 검토하고 잘못된 부분을 수정하여 정답 문서로 재생성하고 시스템에 재학습시키는 과정이며 이를 토대로 시간이 지날수록 더 정확한 결과를 도출할 수 있도록 하는 과정이다. 이 과정은 사용자(전문가)에게 검증을 요청하는 단계와 사용자(전문가) 검증을 통해 검증된 학습 데이터를 생성하는 단계와 미분석어 사전에 추가하는 단계와 범죄첩보 추출모델에 재학습 시키는 단계를 포함한다.

정리하면, 범죄첩보 추출 모델에 의해 추출된 범죄첩보 데이터에서 범죄첩보를 추출하고 이를 토대로 작성된 보고서는 전문가에게 전달되며 전문가의 검증을 거쳐 오류가 수정된 정답문서로 재생성 되어 다시 범죄첩보 추출 모델 생성을 위한 재학습자료로 피드백되는 선순환이 본 발명의 범죄첩보 추출 모델 구축 단계에서 자체적으로 이루어진다는 것이다.

도 6은 범죄첩보 사실여부 판단 방법을 도시한 흐름도로서, 자연어처리 기술 활용 데이터 분석단계와 해당 데이터와 유사한 팩트 데이터 검색단계와 유사 데이터가 존재할 경우에 자연어처리 기술을 활용한 팩트 데이터 분석단계와 현재 분석 중인 데이터와 팩트 데이터를 비교분석하는 단계와 남은 유사 팩트 문서가 있는 경우에 범죄첩보 데이터에 대한 최종적인 가짜확률 계산단계를 포함한다.

웹 모니터링 데이터 DB의 데이터를 자연어처리기술을 활용하여 분석하고, TF-IDF 등의 유사도 분석 알고리즘을 활용하여 해당 데이터와 유사한 팩트 데이터를 검색한다.

유사 데이터의 존재 유무에 따라, 유사한 문서가 존재하지 않으면 웹 모니터링 데이터는 가짜일 확률이 아주 높아 가짜확률 계산이 무의미하다고 판단하고 '판단 보류'로 분류하여 자동으로 전문가 및 전담팀에 검토 요청하거나 재분석을 수행하고, 유사한 문서가 존재하면 상기 웹 모니터링 데이터의 가짜확률 계산을 위해 상기 웹 모니터링 데이터와 유사문서를 자연어처리 기술과 인공지능 기술을 활용하여 비교대조하고 서로 다른 내용이 검출되면 서로 다른 정도에 따라 가짜확률을 산출한 후 해당 문서를 근거 자료로 저장한다.

계속해서 비교대조하지 않고 남은 유사 팩트 문서가 있으면 추가적으로 비교대조하여 서로 다른 내용이 검출되는 정도에 따라 가짜확률을 계산하거나 기 산출된 가짜확률을 업데이트한 후 남은 유사 팩트 문서가 없을 때까지 동일한 루프를 반복 시행하고, 남은 유사 팩트 문서가 없으면 범죄첩보 데이터에 대한 최종적인 가짜확률을 산출한다.

가짜뉴스의 판별은 범죄첩보 사실여부 판단에 활용되며 가짜뉴스 탐지기는 상기에 기재된 방법과 동일한 방법으로 작동한다.

10; 선정부 20; 수집부
30; 생성부 40; 추출부
50; 판단부 110; 일반웹
120; 다크웹 130; 팩트 수집

Claims

범죄첩보 탐지 모니터링 대상을 선정하는 선정부;
상기 선정부에서 선정된 대상으로부터 범죄첩보를 수집하는 수집부;
상기 수집부에서 수집한 범죄첩보를 검정하여 학습시키고 수정 및 삭제하여 재학습시키는 범죄첩보 추출 모델 생성부;
상기 범죄첩보 추출 모델에 데이터를 학습시키고 분석을 통해 범죄첩보를 추출하는 범죄첩보 추출부 및
상기 범죄첩보 추출부에서 추출된 범죄첩보의 사실여부를 판단하는 판단부를 포함하되,
상기 범죄첩보 추출 모델은 6하 원칙에 의한 스키마로 기존 및 신규 범죄 모형으로 생성되고, 정답 데이터셋으로 학습되며,
상기 수집부는 복수의 수집기를 통한 분산 수집으로 접속차단을 방지하고, 해당 문서의 추가, 삭제, 변경만을 검색하는 증분 색인을 수행하고,
상기 범죄첩보 추출 모델 생성부는, 수집한 범죄정보 데이터로부터 정답 태그를 표기한 학습데이터를 생성하고 기계학습을 위한 정답문서를 작성함으로써 상기 범죄정보 데이터에서 범죄첩보를 추출하고 분석하되, 상기 기계학습은 입출력 사이의 매핑을 위한 출처별 학습세트를 포함하여 입력과 출력 쌍으로 지도학습하고,
수집한 데이터에서 미제 사건을 검색하는 경우, 문서에서 해당 단어의 출현 횟수 TF값을 구하고, 해당 단어가 전체 문서들 중에서 몇 개의 문서에 출현했는지를 통해 DF값을 구하고, DF값의 역수를 취해 IDF값을 구하고, TF값과 IDF값을 곱하여 산출한 TF-IDF값을 활용하여 유사도 분석을 수행하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 시스템.
제1항에 있어서,
상기 선정부는 선정대상을 일반웹 대상, 다크웹 대상, 팩트수집 대상으로 그룹핑하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 시스템.
삭제
삭제
제1항에 있어서,
상기 범죄첩보 추출부는,
상기 수집부에서 수집한 데이터와 이로부터 미제사건 정보검색 및 유사문서 정보검색으로 검출한 데이터로부터 범죄첩보 추출 모델을 통해 미제사건을 포함한 범죄첩보를 추출하고,
수집한 각 데이터에 대해 자연어처리 및 인공지능을 활용하여 형태소를 분석하고 미분석어를 검출하여,
추출한 범죄첩보와 분석한 형태소와 검출한 미분석어를 토대로 보고서를 작성하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 시스템.
제1항에 있어서,
상기 판단부는,
팩트 DB에서 웹 모니터링 데이터와 유사한 데이터를 검색하고, 이를 통해 추출한 범죄첩보의 사실여부를 판단하는 유사 팩트 자료를 검색하고,
자연어처리 기술 및 인공지능 기술을 이용하여 웹 모니터링 데이터와 유사 팩트 문서를 분석하고 웹 모니터링 데이터가 거짓일 확률을 산출하는 가짜뉴스를 검출하고,
가짜일 확률이 높아질 때마다 그 근거자료를 저장하고 최종적인 결과를 사용자에게 제공하는 결과 제공을 포함하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 시스템.
범죄첩보 탐지 모니터링 대상을 선정하는 선정단계;
선정된 대상으로부터 범죄첩보를 수집하는 수집단계;
수집한 범죄첩보를 검정하여 학습시키고 수정 및 삭제하여 재학습시키는 범죄첩보 추출 모델 생성단계;
데이터 학습 및 분석을 통한 범죄첩보 추출단계 및
범죄첩보의 사실여부를 판단하는 판단단계를 포함하되,
상기 범죄첩보 추출 모델은 6하 원칙에 의한 스카마로 생성되고, 정답 데이터셋으로 학습되며,
상기 수집단계는 복수의 수집기를 통한 분산 수집으로 접속차단을 방지하고, 해당 문서의 추가, 삭제, 변경만을 검색하는 증분 색인을 수행하고,
상기 범죄첩보 추출 모델 생성단계는, 수집한 범죄정보 데이터로부터 정답 태그를 표기한 학습데이터를 생성하고 기계학습을 위한 정답문서를 작성함으로써 상기 범죄정보 데이터에서 범죄첩보를 추출하고 분석하되, 상기 기계학습은 입출력 사이의 매핑을 위한 출처별 학습세트를 포함하여 입력과 출력 쌍으로 지도학습하고,
수집한 데이터에서 미제 사건을 검색하는 경우, 문서에서 해당 단어의 출현 횟수 TF값을 구하고, 해당 단어가 전체 문서들 중에서 몇 개의 문서에 출현했는지를 통해 DF값을 구하고, DF값의 역수를 취해 IDF값을 구하고, TF값과 IDF값을 곱하여 산출한 TF-IDF값을 활용하여 유사도 분석을 수행하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 방법.
제7항에 있어서,
상기 선정 및 수집단계는,
모니터링 대상 사이트를 설정하는 단계와 수집 스케줄을 설정하는 단계를 거쳐 팩트 데이터 수집물, 일반웹 수집물, 다크웹 수집물에서 색인어와 역색인어를 추출하고 증분 색인을 수행하는 단계를 포함하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 방법.
제7항에 있어서,
상기 범죄첩보 추출 모델 생성단계는 범죄첩보 추출 모델 구축 알고리즘과 결과 검정 및 재학습 알고리즘으로 구성되고,
상기 범죄첩보 추출 모델 구축 알고리즘은, 기존 및 신규 범죄첩보 데이터를 확보하는 단계와 범죄첩보 태그 표기단계와 학습용 정답 데이터셋 생성단계와 범죄첩보 추출 모델 학습단계와 추출 모델 성능 검증을 통해 검증된 범죄첩보 추출 모델을 저장하는 단계를 포함하고,
상기 결과 검정 및 재학습 알고리즘은, 검증 요청단계와 사용자검증을 통해 검증된 학습 데이터 생성단계와 미분석어 사전에 추가단계와 범죄첩보 추출모델 추가 학습 수행단계를 포함하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 방법.
제7항에 있어서,
상기 범죄첩보 추출단계는 데이터 분석 및 최신 범죄첩보 추출 알고리즘과 각 문서별 분석 수행 알고리즘으로 구성되고,
상기 최신 범죄첩보 추출 알고리즘은, 미제사건과 유사문서 검색단계와 웹 모니터링 문서와 미제사건 유사문서별로 그룹핑하는 단계와 범죄첩보 추출단계와 각 문서별 분석 수행단계와 자동 보고서 작성단계를 포함하고,
상기 각 문서별 분석 수행 알고리즘은, 문서 전처리단계와 형태소 분석 및 미분석어 검출단계와 개체명 분석 및 미분석어 검출단계와 구문 분석단계와 의미역 분석단계와 문서 요약단계를 포함하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 방법.
제7항에 있어서,
상기 판단단계는 자연어처리 기술 활용 데이터 분석단계와 해당 데이터와 유사한 팩트 데이터 검색단계와 유사 데이터가 존재할 경우에 자연어처리 기술을 활용하는 팩트 데이터 분석단계;
현재 분석 중인 데이터와 팩트 데이터와의 비교분석단계 및
남은 유사 팩트 문서가 더 이상 없는 경우에 범죄첩보 데이터에 대한 최종적인 가짜확률 계산단계를 포함하는 것을 특징으로 하는 웹 모니터링을 통한 범죄첩보 탐지 방법.