KR102079970B1

KR102079970B1 - 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램

Info

Publication number: KR102079970B1
Application number: KR1020190050717A
Authority: KR
Inventors: 서상덕; 윤창훈; 이승현
Original assignee: (주)에스투더블유랩
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-04-07
Also published as: JP2022530376A; WO2020222404A1; US20220292137A1; JP7340286B2; CN113841142A; CN113841142B

Abstract

본 발명은 데이터 처리 장치에서 지식 그래프를 프로세싱하는 방법에 대한 것으로, 정보 객체들의 분류 체계에 대한 텍소노미 그래프 및 특정 정보 객체 인스턴스의 관계에 대한 엔터티 그래프를 포함하는 지식 그래프를 작성하는 a 단계; 상기 지식 그래프에 상기 데이터베이스에서 추출된 정보 객체를 반영하여 지식 그래프를 업데이트하는 b 단계; 및 업데이트된 지식 그래프를 이용하여 임의의 정보 객체의 관련성을 추론하는 c 단계를 포함하는 것을 특징으로 한다.

Description

지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램 {METHOD, APPARATUS AND COMPUTER PROGRAM FOR PROVIDING CYBER SECURITY USING A KNOWLEDGE GRAPH}

본 발명은 지식 그래프 (Knowledge Based graph)를 구축하고, 지식 그래프를 활용하여 범죄와 관련된 정황 및/또는 관련성을 추론하는 방법 및 시스템에 대한 것이다.

최근 인터넷 기술의 발달로 가상 세계를 기반으로 하는 정보가 넘쳐나고 있다. 일반 브라우저에서 검색 엔진을 통해 접근할 수 있는 일반 웹은 물론, 접속 권한이 필요한 딥 웹 (Deep web), 일반 브라우저로는 접근할 수 없으며 특정 소프트웨어를 이용해야 접속할 수 있는 익명화된 다크 웹 (Dark web), 나아가 암호화폐의 분산 원장까지 사이버 스페이스의 정보는 매순간 기하급수적으로 증가하고 있는 것이다.

이와 같은 추세와 함께, 범죄의 영역이 상당 부분 사이버 공간으로 이관되고 있다. 예를 들어 트위터를 기반으로 불특정 다수에게 성매매를 알선하거나, 마약이 판매되거나, 웹을 통해 랜섬웨어 등의 악성코드가 배포되는 것이다. 나아가 2010년 이후 급격히 성장한 토어 네트워크는 사용자 익명성을 위한 기술이 적용된 다크웹으로, 암호화폐와 결합하여 무기거래, 마약거래, 장기거래, 해킹툴 판매, 해킹 기술 공유, 개인 정보 거래, 음란물 판매 등 각종 불법 거래의 온상이 되고 있다.

한국 특허공보 10-1852107 (2018.4.25)

본 발명은 가상 세계의 정보를 지식 그래프의 형태로 형성하고, 범죄 또는 위협과 관련된 영역에서 지식 그래프를 활용하여 범죄와 관련된 정황 또는 관련성을 추론하는 방법을 제공하는 것을 목적으로 한다.

본 발명의 실시예를 따르는 데이터 처리 장치에서 지식 그래프를 프로세싱하는 방법은, 정보 객체들의 분류 체계에 대한 텍소노미 그래프 및 특정 정보 객체 인스턴스의 관계에 대한 엔터티 그래프를 포함하는 지식 그래프를 작성하는 a 단계; 상기 지식 그래프에 상기 데이터베이스에서 추출된 정보 객체를 반영하여 지식 그래프를 업데이트하는 b 단계; 및 업데이트된 지식 그래프를 이용하여 임의의 정보 객체의 관련성을 추론하는 c 단계를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 가상 공간의 데이터를 지식 그래프로 형성하여, 정보 객체들의 관계를 파악하고 이를 바탕으로 범죄와 관련된 정황 및/또는 관련성을 추론할 수 있는 효과가 있다. 나아가 본 발명에 따르면, 인터넷 환경에서 일반 웹브라우저를 통해 접근할 수 있는 일반 데이터는 물론, 특수 브라우저를 통해 접근할 수 있는 특수 데이터를 대량으로 수집하고 수집된 데이터를 지식 그래프에 반영하여 정보 연관성을 분석할 수 있는 효과가 있다.

도 1는 본 발명의 실시예를 따르는 지식 그래프의 구성을 설명하기 위한 도면
도 2는 본 발명의 실시예를 따라 지식 그래프를 작성하고 이를 기반으로 범죄와 관련된 정황 및 관련성을 추론하는 예시를 설명하기 위한 순서도
도 3은 멀티도메인에서 수집된 대량의 데이터를 정형화하고, 지식 그래프에 반영될 수 있는 정보를 추출하는 구체적인 방법을 설명하기 위한 순서도
도 4는 본 발명의 실시예를 따라 멀티도메인에서 수집된 대량의 데이터를 정형화하고, 지식 그래프를 확장하는 구체적인 예시를 설명하기 위한 도면
도 5은 본 발명의 실시예를 따라 멀티 도메인에서 대량의 데이터를 수집하는 방법을 설명하기 위한 도면

본 발명은 이하에 기재되는 실시예들의 설명 내용에 한정되는 것은 아니며, 본 발명의 기술적 요지를 벗어나지 않는 범위 내에서 다양한 변형이 가해질 수 있음은 자명하다. 그리고 실시예를 설명함에 있어서 본 발명이 속하는 기술 분야에 널리 알려져 있고 본 발명의 기술적 요지와 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다.

한편, 첨부된 도면에서 동일한 구성요소는 동일한 부호로 표현된다. 그리고 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시될 수도 있다. 이는 본 발명의 요지와 관련이 없는 불필요한 설명을 생략함으로써 본 발명의 요지를 명확히 설명하기 위함이다.

가상 세계에는 방대한 데이터가 존재하지만 데이터의 형태가 정형화되어 있지 않으며, 각각의 정보가 개별적으로 존재하여, 정보들의 연관성을 파악하거나, 연관된 정보의 의미를 분석하는 것이 쉽지 않다. 이러한 문제점을 해결하기 위하여 지식 그래프가 착안되었다. 지식 그래프는 정보들을 구조화한 것으로, 개별적으로 존재하는 정보들의 관계, 연관성을 파악하는데 사용될 수 있으며, 보다 스마트한 검색 결과를 제공하기 위한 검색 엔진의 일 구성요소로 기능할 수도 있다.

본 발명의 실시예를 따르는 지식 그래프는 도 1에 예시된 바와 같이 노드(node)와 엣지(edge)로 구성될 수 있다.

본 발명의 실시예를 따르는 지식그래프에서 노드는 클래스 (class) 노드 및 엔터티 (entity) 노드를 포함할 수 있다. 클래스 노드는 정보를 분류하고 구조화하기 위하여 계층 구조를 이루는 개념에 대한 것이며, 엔터티 노드는 임의의 클래스에 매칭되는 인스턴스에 대한 것으로 정의할 수 있다 도 1의 예에서, 클래스 노드는 호텔 112 및 시티 132를 포함하며, 엔터티 노드는 호텔 112 클래스에 인스턴스로 매칭된 Mandalay Bay Resort (124) 및 시티 클래스에 인스턴스로 매칭된 Las Vegas (122)를 예시하고 있다.

엣지는 노드의 관계에 대한 것이며, 방향성을 가질 수 있다. 도 1의 예에서, 호텔 노드 112는 시티 노드 132와 <위치>하는 관계를 의미하는 엣지 144로 연결될 수 있다.

한편, 지식 그래프는 다양한 객체들의 분류 체계에 대한 텍소노미 그래프 (110) 및 특정 객체 인스턴스의 관계에 대한 엔터티 그래프 120를 포함할 수 있으며, 텍소노미 그래프 110 및 엔터티 그래프 120는 도 1에 도시된 바와 같이 별개의 레이어로 형성될 수 있으나, 상호 매핑될 수 있다.

본 발명의 실시예를 따르는 지식 그래프를 활용하면, 검색 엔진을 보다 스마트하게 제공할 수 있다. 즉, 지식 그래프를 이용하여 쿼리의 의미를 보다 명확하게 추론할 수 있으며, 동시에 쿼리에 대한 검색 결과를 도출할 수 있다.

예를 들어 쿼리가 <라스베이거스 호텔>인 경우, 검색 엔진은 도 1에 예시된 지식 그래프를 활용하여 <호텔>에 대한 클래스 노드 112를 확인하고, 노드 112의 인스턴스인 라스베이거스 엔터티 노드 122를 확인하고, 라스베이거스 인스턴스에 매핑된 클래스, 즉 <시티> (132)를 확인하여 클래스 112와 클래스 132의 링크 정보 144 <위치함>을 확인하여, 수신된 쿼리의 의미가 <라스베이거스에 위치한 호텔에 대한 검색> 임을 추론할 수 있다. 나아가 호텔 도메인에 대한 검색 엔진에 쿼리 추론 결과를 제공할 수도 있다.

나아가 검색 엔진은 도 1에 예시된 지식 그래프를 활용하여 지식 그래프에서 호텔 노드 112와 라스베이거스 노드 122에 연결된 노드 124의 위치값과 유사한 벡터를 가지는 다른 인스턴스 노드를 검색하고, 해당 인스턴스 노드의 정보를 <라스베이거스에 위치한 호텔>에 대한 검색 결과로 제공할 수 있다. 지식 그래프를 기반으로 노드 사이의 관련성을 분석하기 위한 다양한 알고리즘이 존재하며, 이는 후술된다.

도 2는 본 발명의 실시예를 따르는 데이터 분석 시스템에서 지식 그래프를 작성하고 이를 기반으로 사이버 범죄에 대한 관련성을 추론하는 예시를 설명하기 위한 순서도이다.

단계 210에서 본 발명의 실시예를 따르는 데이터 분석 시스템은 지식 그래프의 초기 모델을 구성할 수 있다.

초기 지식 그래프는 적어도 하나 이상의 복수의 도메인의 객체들의 분류 체계에 대한 텍소노미 그래프 및 특정 객체 인스턴스의 관계에 대한 엔터티 그래프를 포함할 수 있다. 텍소노미 그래프 및 엔터티 그래프는 상이한 레이어에서 형성될 수 있으나, 상호 매핑될 수 있다. 이러한 초기 지식 그래프는 위키피디아 (wikipidia), 야고(yago) 등 신뢰도 높은 분류 모델을 소스로 작성할 수도 있으며, 이 경우, 모델은 json, csv, xml, xlsx 등 상이한 데이터 타입으로 표현될 수 있다.

예를 들어 데이터 분석 시스템은 아래의 표 1에 기재된 복수의 데이터 소스를 구조화하여 텍소노미 그래프와 엔터티 그래프 포멧으로 초기 지식 그래프를 작성할 수 있다. 본 발명의 선호되는 실시예를 따르면 초기 지식 그래프를 작성하기 위한 데이터 소스는 데이터 분류 및 객체 인스턴스 매칭에 대해 신뢰성을 인정받아 사실상의 표준으로 기능하는 데이터 모델이 적용되는 것이 적절하다.

이때 초기 지식 그래프는 전역 (Global) 모델 및/또는 도메인 특정 (Domain specific) 모델을 포함할 수 있다. 전역 모델은 표 1의 데이터 소스 YAGO 모델을 예시할 수 있으며, 도메인 특정 모델은 예를 들어 취약점 (vulnerability), 약점 (weakness), 패치 (patch), 악용 (exploits) 등 특정 주제에 대한 세부적인 분류 체계 및 각각의 클래스에 매핑되는 구체적인 인스턴스를 포함할 수 있다. 전역 모델은 모든 객체의 관계에 대한 것이기 때문에, 도메인 특정 그래프를 하위 클래스로 포함할 수 있다.

나아가 데이터 분석 시스템은 노드의 메타데이터를 기록할 수 있다. 이는 노드의 레이블로 기록될 수 있으며, 상기 레이블은 노드의 속성 정보를 포함할 수 있다. 예를 들어 도 4의 지식 그래프에서 취약점 도메인 410에 대한 텍소노미 그래프의 CVE 노드 412에 연결된 엔터티 그래프의 CVE-2015-2544 노드 421는 속성 정보로 <인터넷 익스플로러의 취약점>라는 레이블 431이 설정될 수 있다. 또 다른 예로 노드의 메타데이터는 데이터 소스에 대한 정보를 포함할 수 있으며, 도 4의 441는 이를 예시하고 있다.

본 발명의 실시예를 따르는 데이터 분석 시스템은 노드 사이의 관계를 설명하는 엣지의 내용을 지식 그래프에 기록할 수 있다. 엣지는 노드 객체 사이의 연관성을 나타내는 역할을 수행하며, 방향성 정보 및 노드 사이의 관계에 대한 정보를 포함할 수 있다.

예를 들어 도 4의 지식 그래프에서 소프트웨어 도메인 414에 대한 텍소노미 그래프의 어플리케이션 노드 416에 연결된 엔터티 그래프의 인터넷 익스플로어 10 노드 422은 노드 421과 엣지 442로 연결되며, 엣지 442은 <제품에 영향을 끼침>라는 내용 441이 설정될 수 있다.

단계 220에서 데이터 분석 시스템은 타겟 도메인을 선정할 수 있다. 본 발명의 선호되는 실시예를 따르면 사이버 보안, 범죄 및/또는 위협에 관련된 지식 모델을 타겟 도메인으로 선정할 수 있다.

이후 데이터 분석 시스템은 사이버 보안과 관련된 대량의 정보를 다양한 소스에서 수집하고 수집된 정보에 대한 데이터베이스를 구축하고 (단계 230), 미리 설정된 형태로 데이터베이스에서 추출한 정보를 정제하여 (단계 240) 타겟 도메인에 대한 도메인 특정 모델을 초기 지식 그래프에 추가하는 방식으로 지식 그래프를 확장할 수 있다. (단계 250)

보다 구체적으로, 단계 230에서 데이터 분석 시스템은 타겟 도메인에 대한 데이터베이스를 호출할 수 있다.

상기 데이터베이스는 일반 웹 환경에 공개된 데이터, 별도의 접근 권한이 필요한 딥웹, 특정 브라우저로만 접속할 수 있는 다크웹 및/또는 암호화폐 네트워크로부터 수집된 사이버 보안과 관련된 정보가 저장될 수 있다. 상기 데이터베이스를 구축하기 위하여 멀티 도메인에서 정보를 수집하는 보다 구체적인 설명은 첨부된 도 5을 참고하여 후술된다.

이후 데이터 분석 시스템은 데이터베이스에서 정보를 추출하고, 미리 설정된 형태로 정보를 정제할 수 있다. (단계 240) 단계 240에 대한 보다 구체적인 설명은 첨부된 도 3에 대한 설명에서 후술된다.

도 3은 멀티도메인에서 수집된 대량의 데이터를 정형화하고, 지식 그래프에 반영될 수 있는 정보를 추출하는 구체적인 방법을 설명하기 위한 순서도이다.

단계 310에서 데이터 분석 시스템은 데이터베이스에 수집된 대량의 데이터를 미리 설정된 형태로 정형화하거나 또는 수집된 대량의 데이터의 내용을 기반으로 지식 그래프에 반영할 정보를 추출할 수 있다.

예를 들어 수집한 데이터가 비정형 텍스트인 경우를 고려할 수 있다. 데이터 분석 시스템은 자연어 처리에 대한 알고리즘 (단계 320), 객체 추출을 위한 알고리즘, 및/또는 정보 추출을 위한 OPEN IE 등 종래의 알고리즘을 이용하여 해당 텍스트에서 정보 객체 및 정보 객체들의 관계에 대한 데이터를 추출할 수 있다. (단계 340)

예를 들어 데이터 분석 시스템은 <JP 모건 체이스가 디도스 공격을 당했다>는 텍스트가 포함된 신문기사에서 <JP 모건 체이스> , <디도스> 및 <공격 당함>이라는 주어, 목적어, 서술어를 추출할 수 있으며, 지식 그래프의 <JP 모건 체이스> 노드 및 <디도스> 노드를 확인할 것이다. 이때 <JP 모건 체이스>는 <뱅킹 컴퍼니> 클래스의 엔터티 노드이며, <디도스>는 <사이버 보안 공격> 클래스의 엔터티 노드에 해당할 것이다. 나아가 데이터 분석 시스템은 <JP 모건 체이스>노드와 <디도스> 노드를 엣지로 연결하고, 엣지의 내용으로 <공격>을 기록할 수 있다.

또 다른 예로 수집한 데이터가 이미지인 경우를 고려할 수 있다. 데이터 분석 시스템은 이미지에서 OCR (Optical Character Recognition) 기술을 적용하여 텍스트를 추출하고 이를 미리 설정된 포멧에 따라 정형화할 수 있다. 이후 자연어 처리에 대한 알고리즘, 객체 추출을 위한 알고리즘, 정보 추출을 위한 알고리즘을 이용하여 해당 데이터에서 정보 객체 및 정보 객체들의 관계에 대한 데이터를 추출할 수 있다. 나아가 대상 이미지의 작성자, 작성 시간, 소스 도메인 정보 등에 대한 메타데이터를 생성할 수 있다.

또 다른 예로 수집한 데이터가 실행 파일인 경우, 데이터 분석 시스템은 실행 파일의 내용을 분석하여 악성 코드인지 여부를 판단할 수 있으며, 실행 파일이 수집된 도메인 정보를 기반으로 악성코드까지 접근하기 위한 복수의 URL 패스를 생성하거나 해당 악성 코드의 해시, 파일 종류, 각각의 URL 패스의 악성코드 접근 카운터 정보에 대한 메타 데이터를 생성할 수도 있다.

한편, 데이터 분석 시스템은 데이터베이스에 수집된 대량의 데이터에서 해당 시점의 지식 그래프에서 파악되지 않는 정보 객체, 즉 언노운 (unknown) 객체를 파악하고, (단계 350) 이를 지식 그래프에 반영할 수 있다.

예를 들어, 임의의 데이터 소스에서 추출된 <Symantec found that Sundown EK has started using a recent Internet Explorer vulnerability known as CVE-2015-2444>라는 텍스트 데이터에, 본 발명의 실시예를 따르는 정보 추출을 위한 OPEN IE 알고리즘을 적용하면 아래의 표 2과 같은 주어-동사-목적어 관계가 적어도 하나 이상 추출될 수 있다.

표 2의 정보 객체들을 노드와 엣지로 관계로 분류하면 표 3와 같은 데이터로 표현될 수 있다.

이후 데이터 분석 시스템은 표 3의 형태로 정형화된 데이터를 지식 그래프에 반영할 것이다. 이때 해당 시점의 지식 그래프에서 파악되지 않는 노드를 언노운 (unknown) 객체로 파악하고, 언노운 객체를 위한 신규 클래스 및/또는 엔터티를 추천할 수 있다. (단계 360)

예를 들어 표 3에서 <CVE-2015-2444> 정보 객체는 CVE, 2015, 2444가 연결되는 데이터 형태를 고려할 때 지식 그래프의 CVE 클래스의 엔터티 노드로 형성되는 것이 적절할 것이다. 나아가 표 3의 <Symantec> 정보 객체는 지식 그래프의 company 클래스의 엔터티 노드로 키워드 검색되기 때문에, company 클래스의 엔터티 노드로 형성되는 것이 적절할 것이다.

이 경우, 표 3에서 <Internet Explorer vulnerability> 및 <sundown EK> 정보 객체는 지식 그래프에서 파악되지 않는 언노운 (unknown) 객체이며, 상기 언노운 정보 객체는 <CVE-2015-2444> 및 <Symantec> 정보 객체와의 관계를 이용하여 지식 그래프에 형성될 수 있다. 이에 대한 설명은 첨부된 도 4를 참고하여 설명한다.

도 4는 멀티도메인에서 수집된 대량의 데이터를 정형화하고, 지식 그래프를 확장하는 구체적인 예시를 설명하기 위한 도면이다.

도 4a에서 410 내지 419는 YAGO 분류 모델을 데이터 소스로 작성된 초기 지식 그래프를 예시하고 있다.

이와 같은 초기 지식 그래프 상태에서, 전술한 표 3의 정보 객체는 420과 같은 엔터티 그래프의 형태로 지식 그래프에 추가될 수 있다.

보다 구체적으로, 도 4a의 예에서 표 3의 <CVE-2015-2444> 정보 객체는 CVE, 2015, 2444가 연결되는 데이터 형태를 고려할 때 지식 그래프의 CVE 클래스 412의 엔터티인 421 노드로 형성될 수 있다. 나아가 표 3의 <Symantec> 정보 객체는 지식 그래프의 company 클래스 418, 419의 엔터티인 426 노드로 형성될 수 있다.

한편, 표 3에서 <Internet Explorer vulnerability> 및 <sundown EK> 정보 객체는 지식 그래프에서 파악되지 않는 언노운 (unknown) 객체이며, 언노운 객체들은 지식 그래프에서 알려진 객체와의 관계를 이용하여 지식그래프에 추가될 수 있다.

보다 구체적으로, <Internet Explorer vulnerability>는 표 3의 첫번째 행의 정보를 참고하면, <CVE-2015-2444> 노드 421과 <kown as> 관계이다. 따라서, 본 발명의 실시예를 따르는 지식 그래프 작성 시스템은 미리 생성된 노드 421과 1홉의 관계를 가지는 노드 431을 신설하고, 노드 431에 언노운 정보 객체 <Internet Explorer vulnerability>를 배치하고, 노드 421 및 노드 431을 엣지 432로 연결하고, 엣지 432의 내용을 <known as>로 기록할 수 있다.

나아가 <sundown EK>는 표 3의 세번째 행의 정보를 참고하면, <Internet Explorer vulnerability> 노드 431과 <has started using> 관계이다. 따라서, 본 발명의 실시예를 따르는 지식 그래프 작성 시스템은 미리 생성된 노드 431과 1홉의 관계를 가지는 노드 432를 신설하고, 노드 432에 언노운 정보 객체 <sundown EK>를 배치하고, 노드 432 및 노드 431을 엣지 433으로 연결하고 엣지 433의 내용을 <has started using>로 기록할 수 있다.

한편, 언노운 객체인 <sundown EK> 432는 sundown이라는 이름의 엑스플로잇 킷 (Exploit Kit; EK) 으로써, 도 4a에 포함된 텍소노미 그래프에는 해당 객체가 속할 수 있는 적절한 클래스가 존재하지 않는다. 이러한 경우, 본 발명의 실시예를 따르는 데이터 분석 시스템은 적절한 클래스를 신설하여 택소노미를 확장하기 위하여 신규 클래스 노드를 추천하고, 신규 클래스 노드의 엔터티로 언노운 객체들을 추천할 수 있다.

예를 들어, 도 4b의 노드 432, 456 내지 459와 같이 다수의 언노운 객체들이 CVE 클래스 노드 412의 엔터티 객체 461, 462, 463과 연결되고, 해당 객체들이 동일한 키워드(EK)를 포함하는 경우, 본 발명의 실시예를 따르는 데이터 분석 시스템은 언노운 객체 456, 457, 458, 459 및 432이 같은 클래스에 속할 가능성이 높다고 판단하여 새로운 클래스를 정의하도록 추천할 수 있다.

예를 들어 데이터 분석 시스템은 도 4b에 도시된 바와 같이 최상위 클래스 Malware 450 및 하위 클래스 Exploit Kit 455 신설을 추천할 수 있다. 나아가 데이터 분석 시스템은 엑스플로잇 킷을 키워드로 공유하는 언노운 객체 456, 457, 458, 459 및 432를 신설 클래스 450, 455에 연결하여 도 4c와 같이 지식 그래프를 업데이트할 수 있다.

나아가 본 발명의 실시예를 따르는 데이터 분석 시스템은 지식 그래프에서 클래스 객체 사이의 관계, 즉 엣지의 업데이트를 추천할 수 있다. 예를 들어, 도 4b에서 CVE 객체들 461, 462, 463과 Exploit Kit 객체들 456, 457, 458, 459 및 432은 각기 다른 관계, 즉 엣지로 표현되어 있는데, 실질적으로는 같은 관계를 의미할 수 있다. 본 발명의 실시예를 따르는 데이터 분석 시스템은 표현은 상이하나 실질적으로 동일한 내용인 관계(엣지)가 파악되면, 새로운 엣지를 정의하도록 추천할 수 있다.

예를 들어 데이터 분석 시스템은 도 4c에 도시된 바와 같이, CVE 412와 Exploit Kit 455 클래스는 exploitsVulnerability 관계 473로 정의할 수 있으며, 이 경우, 해당 클래스들에 속하는 객체들 또한 해당 관계를 상속받아 사용할 수 있다.

다시 도 3에 대한 설명으로 복귀하면, 단계 370에서 데이터 분석 시스템은 지식 그래프의 노드 및/또는 엣지의 레이블 및/또는 메타데이터를 어노테이트할 수 있다. 예를 들어 도 4a의 지식 그래프에서 데이터 분석 시스템은 정보의 소스에 대한 메타데이터 441, 442, 443, 및 444를 해당 노드에 대한 레이블로 설정할 수 있다.

이후 데이터 분석 시스템은, 단계 370에서 노드, 엣지, 레이블 등 구성요소들이 추가된 지식 그래프를 보다 정밀하게 큐레이션할 수 있다. 예를 들어 도 4a의 예에서 <Internet Explorer vulnerability> 노드 431는 노드 421에 연결된 엔터티 인스턴스로 취급되고 있으나, 클래스 노드 410의 하위 클래스로 분류될 수 있다. 이 경우에도 노드 421과 1홉의 관계가 유지될 수 있다. 따라서 데이터 분석 시스템은 전술한 바와 같이 410의 하위 클래스로 노드 431의 위치를 변경하도록 큐레이션하고, 도 4c와 같이 지식 그래프를 업데이트할 수 있다.

이와 같이 본 발명의 실시예를 따르는 데이터 분석 시스템은 지식 그래프에서 클래스, 엔터티 및/또는 엣지를 큐레이션하여 지식 그래프를 업데이트 할 수 있으며, 큐레이션에 대한 기록은 도 4c의 471, 475와 같이 지식 그래프에 포함되어 관리될 수 있다. 다시 도 2에 대한 설명으로 복귀하면, 데이터 분석 시스템은 단계 210에서 단계 250를 거쳐 지식 그래프를 수집된 데이터를 반영하여 확장할 수 있으며, 단계 270에서 작성한 지식 그래프를 이용하여 관련성을 추론할 수 있다.

예를 들어, 지식 그래프에 분산원장 정보 및 암호화폐 주소 그룹 정보를 포함하는 블록체인 데이터가 반영된 경우를 고려할 수 있다. 분산원장 정보에는 블록 생성 시간, 입/출력 금액, 거래 수수료, 이전 블록, 다음 블록 등의 암호화폐 블록 데이터, 거래량, 수수료, 입/출력 암호화폐 주소 등의 블록 내 거래 정보가 포함될 수 있으며 이는 메타데이터로 관리될 수 있다. 따라서 블록체인 데이터에는 다양한 암호화폐의 분산원장 정보에 포함된 암호화폐 블록 데이터와 블록 내 거래 정보들이 포함될 수 있으며, 암호화폐 주소 그룹 (월렛) 등의 소유주 정보 등이 포함될 수 있다.

이와 같은 암호화폐 거래 기록은 노드와 엣지로 연결되어 제 1 지식 그래프로 형성될 수 있으며, 이는 불법 거래에 대한 제 2 지식 그래프와 매핑될 수 있다.

이때 제 1 지식 그래프인 암호화폐 네트워크 그래프는 정형화된 블록체인 데이터에서 추출한 제1 객체 또는 제1 속성으로 제1 노드를 생성하고, 각 노드 관 관계(edge)를 이용하여 암호화폐 네트워크 그래프를 구축할 수 있다. 예를 들어, 암호화폐 입력 주소(객체 노드)-전송 금액(에지)-암호화폐 출력 주소(객체 노드)와 같은 네트워크 그래프나, 그룹 정보가 반영된 소유주 X(객체 노드)-전송 금액(에지)-랜섬웨어(속성 노드)와 같은 네트워크 그래프가 생성될 수 있다.

나아가 불법 거래에 대한 제 2 지식 그래프는 정형화된 멀티도메인 데이터에서 추출한 제2 객체 또는 제2 속성으로 제2 노드를 생성하고, 각 노드 관 관계(edge)를 이용하여 제 2 지식 그래프로 구축될 수 있다. 예를 들어 다크웹 웹페이지에서 추출한 프로필 데이터를 이용하여 사용자 아이디(객체 노드)-소유(에지)-암호화폐 주소(객체 노드)와 같은 노드 및 에지를 생성할 수 있으며, 웹페이지에서 추출한 판매 데이터를 이용하여 암호화폐 주소(객체 노드)-입금(에지)-제품(객체 노드)와 같은 노드 및 에지를 생성함으로써 제 2 지식 그래프를 구축할 수 있다.

제 2 지식 그래프 역시 암호화폐 거래 기록에 대한 제 1 지식 그래프와 같이 하나 이상의 레이어에 표시되어 멀티 레이어 구조를 가질 수 있다. 레이어 별 지식 그래프는 서로 다른 카테고리에 속한 것일 수 있다.

이후 데이터 분석 시스템은 서로 상응하는 제1 노드와 제2 노드를 맵핑하여 거래 분석 지식 그래프를 생성할 수 있다. 예를 들어, 암호화폐 네트워크 그래프의 제 1 레이어에 포함된 노드(A)가 주소 a에 대응되고, 노드(B)가 주소 b에 대응되며 두 주소는 동일 그룹에 속하는 관계이며, 지식 그래프의 레이어 #1에 포함된 노드(C)가 암호화폐 주소 b인 경우를 고려할 수 있다.

노드 (B)와 노드(C)는 동일 정보를 포함하므로 상호 맵핑될 수 있다. 즉, 지식 그래프는 암호화폐 거래 기록에 대한 제 1 지식 그래프와 제 2 지식 그래프의 노드들이 상호 맵핑된 다중 레이어 구조를 가질 수 있으며, 따라서 거래 분석 지식 그래프를 이용하면, 암호화폐 네트워크에 대한 제 1 지식 그래프의 구성요소를 제 2 지식 그래프의 구성요소를 통해 해석하는 작업이 가능하다. 예를 들어, 노드(C)가 사용자 ID를 나타내는 노드 (D)와 소유자 엣지로 연결되어 있다면, 주소 a와 b의 소유주는 노드 (D)에 대응되는 사용자 ID를 갖는 주체임을 파악할 수 있는 것이다.

또한, 직접적으로 연결되지 않은 노드들에 대한 관계 추론도 가능하다. 예를 들어전술한 불법 거래에 대한 제 2 지식 그래프는 판매자들이 사용한 암호화폐 주소와 판매 물품에 대한 관계를 표현한 그래프로 누가 무엇을 판매하는 지에 대한 정보를 포함하며, 암호화폐 거래 기록에 대한 제 1 지식 그래프는 암호화폐 주소간의 거래에 대한 정보를 가지고 있다. 이때, 관계 추론을 통해 제 2 지식 그래프에 명시적으로 나타나지 않은 암호화폐 주소가 어떠한 상품의 판매에 사용되었는지 예측할 수 있다.

보다 구체적으로, 불법 거래에 대한 제 2 지식 그래프에 나타난 암호화폐 주소들의 금전 활동은 암호화폐 거래 기록에 대한 제 1 지식 그래프에 기록되어 있어, 본 발명의 실시예를 따르는 데이터 분석 시스템은 상기 두 그래프의 정보를 연계할 수 있으며, 이를 통해 특정 상품 및 상품 종류에 대한 확률적인 거래 데이터를 확보할 수 있다. 해당 데이터를 추론 알고리즘 (머신러닝 및 딥러닝을 포함한)의 기반 데이터로 활용하여 상품 거래 모델을 생성하면, 암화화폐 주소의 사용 용도를 높은 정확도로 예측할 수 있는 효과가 있다.

도 5은 본 발명의 실시예를 따라 다크웹의 데이터를 수집하기 위한 과정을 설명하기 위한 도면이다. 다크 웹은 암호화된 네트워크에 존재하며 일반 브라우저를 사용해서는 접속되지 않는 특정 부류의 웹사이트를 의미한다. 다크웹에 존재하는 많은 사이트는 토어(TOR, The Onion Network) 네트워크를 기반으로 한다.

본 발명의 실시예를 따르는 데이터 수집 시스템은 먼저 토어 네트워크의 도메인 목록을 수집할 수 있다. (단계 510)

이를 위해 본 발명의 실시예를 따르는 데이터 수집 시스템은 Ahmia 및 FreshOnions와 같은 토어 검색 엔진 또는 다크웹 색인 사이트를 이용하여 도메인 주소를 수집할 수 있다.

나아가 수집된 도메인 주소를 시드로 하여 해당 주소에서 텍스트 컨텐츠를 크롤링하고, 다크웹 페이지에 포함된 링크를 따라 트래버스할 링크가 더 이상 없을 때까지 트래킹하는 방식으로 토어 네트워크의 도메인 주소를 수집할 수 있다.

단계 520에서 데이터 수집 시스템은 수집된 도메인 주소의 상태를 미리 설정된 주기로 확인할 수 있다. 예를 들어 토르의 STEM API를 이용하여 해당 도메인이 운영되고 있는지 폐쇄되었는지 확인하거나, 또는 해당 도메인에서 운영하는 웹페이지의 내용이 추가, 삭제, 변경되었는지를 확인하고, 해당 도메인에 대한 메타데이터에 상태 변경 정보를 기록할 수 있다.

이후 데이터 수집 시스템은 분산 크롤러 및 다수의 토어 노드를 운영하는 다수의 컨테이너를 구현하고, 수집된 도메인을 분산 크롤러에 할당할 수 있다. (단계 530)

보다 구체적으로, 본 발명의 실시예를 따르는 데이터 수집 시스템은 미리 파악한 도메인들의 등록 상태를 참고하여 가장 최근에 등록이 확인된 도메인들부터 우선적으로 분산 크롤러에 할당하거나 또는 분산 크롤러를 구성하는 각 크롤러 인스턴스의 상태를 파악하여, 크롤링을 완료한 크롤러 인스턴스에 다음에 크롤할 도메인을 동적으로 할당할 수 있다.

이후 크롤러의 동작에 따라 발생하는 트래픽은 로드 밸런서를 통해 각 컨테이너로 전달되며, 각 컨테이너는 연결된 NIC를 통해 다크웹으로 요청을 전달하여, 크롤러는 해당 도메인에서 운영하는 다크웹 페이지 전체를 수집하고 이를 데이터베이스에 기록할 수 있다. (단계 540)

본 명세서와 도면에 게시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 게시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

데이터 처리 장치에서 지식 그래프를 프로세싱하는 방법에 있어서,
정보 객체들의 분류 체계에 대한 텍소노미 그래프 및 특정 정보 객체 인스턴스의 관계에 대한 엔터티 그래프를 포함하는 지식 그래프를 작성하는 a 단계;
데이터베이스에서 추출된 정보를 미리 설정된 형태로 정제하여 정보 객체 및 상기 정보 객체 사이의 관계에 대한 데이터를 추출하고, 상기 정보 객체 및 상기 정보 객체 사이의 관계를 이용하여 상기 지식 그래프를 업데이트하는 b 단계;
업데이트된 지식 그래프를 이용하여 임의의 정보 객체의 관련성을 추론하는 c 단계를 포함하며,
상기 b 단계는,
상기 데이터베이스에서 추출된 정보 객체가 상기 지식 그래프에 존재하지 않는 언노운 객체인지 여부를 확인하는 b-1 단계;
상기 확인 결과 상기 데이터베이스에서 추출된 정보 객체가 상기 지식 그래프에 존재하지 않는 언노운 객체이면, 상기 지식 그래프에서 상기 정보 객체 사이의 관계에 해당하는 미리 생성된 노드와 1홉의 관계를 가지는 노드를 신설하고, 상기 노드에 상기 언노운 객체를 배치하여 언노운 객체 노드를 생성하는 b-2 단계; 및
임의의 클래스에 속하는 적어도 하나 이상의 엔터티 노드와 연결된 복수의 언노운 객체 노드를 확인하고, 상기 복수의 언노운 객체들이 공유하는 키워드를 이용하여 상기 지식 그래프의 텍소노미 그래프에에 신규 클래스를 신설하고, 상기 복수의 언노운 객체 노드를 상기 신규 클래스에 연결하는 b-3 단계를 포함하는 것을 특징으로 하는 지식 그래프 프로세싱 방법.
제 1 항에 있어서,
상기 b단계는,
상기 확인 결과 상기 데이터베이스에서 추출된 정보 객체가 상기 지식 그래프에 존재하면, 상기 정보 객체 중 상기 지식 그래프의 구성 요소와 키워드 또는 데이터 형태가 유사한 제 1 정보 객체를 상기 키워드 또는 데이터 형태의 유사성을 이용하여 상기 지식 그래프에 반영하고, 제 2 정보 객체를 상기 제 1 정보 객체의 관련성을 이용하여 상기 지식 그래프에 반영하는 단계를 포함하는 것을 특징으로 하는 지식 그래프 프로세싱 방법.
삭제