KR20190138037A - An information retrieval system using knowledge base of cyber security and the method thereof - Google Patents

An information retrieval system using knowledge base of cyber security and the method thereof Download PDF

Info

Publication number
KR20190138037A
KR20190138037A KR1020180064090A KR20180064090A KR20190138037A KR 20190138037 A KR20190138037 A KR 20190138037A KR 1020180064090 A KR1020180064090 A KR 1020180064090A KR 20180064090 A KR20180064090 A KR 20180064090A KR 20190138037 A KR20190138037 A KR 20190138037A
Authority
KR
South Korea
Prior art keywords
cyber security
knowledge base
web
knowledge
triples
Prior art date
Application number
KR1020180064090A
Other languages
Korean (ko)
Inventor
신승원
이용재
윤창훈
이승수
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180064090A priority Critical patent/KR20190138037A/en
Publication of KR20190138037A publication Critical patent/KR20190138037A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to an information search system using cyber a security specialized-knowledge base, and to a method thereof. The information search system comprises: a collection unit collecting web documents from cyber security-related websites shared on the surface web and dark web; a preprocessing unit extracting triples which are knowledge information related to cyber security from the collected web documents; a knowledge base generation unit generating a knowledge base using the set of triples extracted by the preprocessor; a knowledge base inference unit inferring the relationship and knowledge of the triples, based on the ontology stored in the knowledge base and representing the relationship between the triples; and a cyber security knowledge base constructing unit merging the knowledge bases inferred by a knowledge base constructing unit to construct a final cyber security knowledge base.

Description

사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법{AN INFORMATION RETRIEVAL SYSTEM USING KNOWLEDGE BASE OF CYBER SECURITY AND THE METHOD THEREOF}Information retrieval system and its method using cyber security specialized knowledge base {AN INFORMATION RETRIEVAL SYSTEM USING KNOWLEDGE BASE OF CYBER SECURITY AND THE METHOD THEREOF}

본 발명은 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 사이버 보안 검색 엔진 기능, 시각화 기능, 동향 파악 기능 및 질의/응답 기능을 구현하는 정보 검색 시스템 및 그 방법에 관한 것이다.The present invention relates to an information retrieval system and method using a cyber security-specific knowledge base, and more particularly, to an information retrieval system for implementing a cyber security search engine function, visualization function, trend grasping function, and query / response function. It is about a method.

정보 검색의 대표적인 형태인 웹 검색 엔진은 키워드 기반 검색 기법을 기반으로 하고 있으며, 웹 상의 문서들을 수집하여 해당 문서에서 출현 빈도가 높은 단어들을 인덱싱하고, 사용자가 입력한 키워드와 일치하는 단어를 많이 포함하고 있는 문서의 위치를 찾아주는 방식이다.Web search engines, a representative form of information retrieval, are based on keyword-based search techniques, which collect documents on the web, index words that appear frequently in the documents, and include many words that match the keywords entered by the user. Find the location of the document you are doing.

기존의 선행기술인 한국공개특허 제10-2014-0047952호는 일부 기본 지식만을 포함하는 단위 지식베이스를 여러 개 생성하여 독립적으로 추론한 후, 병합하여 최종 지식베이스를 구축하는 기술에 관한 것이다. Korean Patent Laid-Open Publication No. 10-2014-0047952, which is an existing prior art, relates to a technique for generating multiple unit knowledge bases including only some basic knowledge, inferring them independently, and then merging them to build a final knowledge base.

다만, 기존의 선행기술은 일반적인 지식베이스를 구축하는 방법을 개시하고 있으며, 사이버 보안이라는 특수 분야에 관련된 전문 지식 베이스를 구축, 확장, 유지하는 방법에는 한계가 존재한다.However, the existing prior art discloses a method of building a general knowledge base, and there is a limit to the method of building, extending, and maintaining a knowledge base related to a special field of cyber security.

한국공개특허 제10-2014-0047952호(2014.04.23. 공개), "지식베이스 구축장치 및 이의 지식베이스 구축방법"Korean Patent Publication No. 10-2014-0047952 (published Apr. 23, 2014), "Knowledge base construction device and its knowledge base construction method"

본 발명은 사이버 보안 지식 베이스를 활용하여 사이버 보안에 특화된 정보 검색 시스템을 제시하고자 한다.The present invention aims to propose an information retrieval system specialized for cyber security by utilizing a cyber security knowledge base.

본 발명의 목적은 일반 정보 검색 시스템보다, 사이버 보안에 관련된 사용자의 질의에 대해 더욱 정확하고 관련성이 높은 정보를 제공하고자 한다. An object of the present invention is to provide more accurate and relevant information about a user's query related to cyber security than a general information retrieval system.

본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템은 표면 웹(Surface Web) 및 다크 웹(Dark Web) 상에서 공유되는 사이버 보안에 관련된 웹 사이트로부터 웹 문서들을 수집하는 수집부, 상기 수집된 웹 문서들에서 사이버 보안에 관련된 지식 정보인 트리플들을 추출하는 전처리부, 상기 전처리부에 의해 추출된 상기 트리플들의 집합을 이용하여 지식 베이스를 생성하는 지식 베이스 생성부, 상기 지식 베이스에 저장되어 상기 트리플 사이의 관계를 나타내는 온톨로지를 기반으로, 상기 트리플들의 연관 관계 및 지식을 추론하는 지식 베이스 추론부 및 상기 지식 베이스 구축부에 의해 추론된 지식 베이스들을 병합하여 최종의 사이버 보안 지식 베이스를 구축하는 사이버 보안 지식 베이스 구축부를 포함한다.An information retrieval system using a cyber security-specific knowledge base according to an embodiment of the present invention includes a collection unit that collects web documents from a web site related to cyber security shared on a surface web and a dark web, A preprocessor extracting triples which are knowledge information related to cyber security from the collected web documents, a knowledge base generator generating a knowledge base using the set of triples extracted by the preprocessor, and storing the knowledge base Based on the ontology representing the relationship between the triples, merging the knowledge bases inferred by the knowledge base inference unit and the knowledge base inference unit that infers the relationship and knowledge of the triples to build a final cyber security knowledge base. It includes a cyber security knowledge base construction unit.

상기 정보 검색 시스템은 상기 사이버 보안 지식 베이스를 이용하여 사용자의 질의에 대한 사이버 보안에 특화된 정보를 제공하는 것을 특징으로 한다.The information retrieval system is characterized by providing information specific to cyber security for a user's query using the cyber security knowledge base.

본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템의 동작 방법에 있어서, 표면 웹(Surface Web) 및 다크 웹(Dark Web) 상에서 공유되는 사이버 보안에 관련된 웹 사이트로부터 웹 문서들을 수집하는 단계, 상기 수집된 웹 문서들에서 사이버 보안에 관련된 지식 정보인 트리플들을 추출하는 단계, 상기 추출되는 트리플들의 집합을 이용하여 지식 베이스를 생성하는 단계, 상기 지식 베이스에 저장되어 상기 트리플 사이의 관계를 나타내는 온톨로지를 기반으로, 상기 트리플들의 연관 관계 및 지식을 추론하는 단계 및 상기 추론된 지식 베이스들을 병합하여 최종의 사이버 보안 지식 베이스를 구축하는 단계를 포함한다. In a method of operating an information retrieval system using a cyber security-specific knowledge base according to an embodiment of the present invention, web documents from a web site related to cyber security shared on a surface web and a dark web Collecting, extracting triples which are knowledge information related to cyber security from the collected web documents, generating a knowledge base using the extracted set of triples, stored in the knowledge base, Based on the ontology representing the relationship, inferring the association and knowledge of the triples and merging the inferred knowledge bases to build a final cyber security knowledge base.

본 발명의 실시예에 따르면, 사이버 보안 지식 베이스를 활용하여 일반 정보 검색 시스템보다, 사이버 보안에 관련된 사용자의 질의에 대해 더욱 정확하고 관련성이 높은 정보를 제공할 수 있다. According to an embodiment of the present invention, the cyber security knowledge base may be used to provide more accurate and highly relevant information about a user's query related to cyber security than a general information retrieval system.

도 1은 본 발명의 실시예에 따른 사이버 보안 특화의 정보 검색 시스템의 세부 구성을 블록도로 도시한 것이다.
도 2는 본 발명의 실시예에 따른 사이버 보안 특화의 정보 검색 방법의 흐름도를 도시한 것이다.
1 is a block diagram illustrating a detailed configuration of a cyber security specialized information retrieval system according to an embodiment of the present invention.
2 is a flowchart illustrating a cyber security specialized information retrieval method according to an embodiment of the present invention.

이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited or limited by the embodiments. Also, like reference numerals in the drawings denote like elements.

또한, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In addition, terms used in the present specification (terminology) are terms used to properly express preferred embodiments of the present invention, which may vary depending on the intention of the viewer, the operator, or customs in the field to which the present invention belongs. Therefore, the definitions of the terms should be made based on the contents throughout the specification.

본 발명은 사이버 보안 지식 베이스를 활용하여 사이버 보안에 특화된 정보 검색 시스템을 제공한다. The present invention provides an information retrieval system specialized for cyber security by utilizing a cyber security knowledge base.

본 발명에서 제시하는 사이버 보안 특화의 정보 검색 시스템은 총 네 가지의 기능을 제공할 수 있으며, 웹 브라우저를 통해 사용될 수 있도록 각 기능이 웹 인터페이스를 통해 제공된다. 본 발명에서 제안하는 웹 인터페이스는 하기의 각 기능을 별도의 구획에서 사용가능하며, 각 구획은 개별적인 탭(tab)으로 구분될 수 있다. The cyber security-specific information retrieval system proposed in the present invention can provide a total of four functions, and each function is provided through a web interface to be used through a web browser. The web interface proposed by the present invention can use each of the following functions in separate sections, and each section can be divided into individual tabs.

첫 번째 기능은 사이버 보안 검색 엔진 기능이다. The first is the cybersecurity search engine.

상기 사이버 보안 검색 엔진 기능은 표면 웹(Surface Web) 뿐만 아니라 다크 웹(Dark Web) 상에서 접근 가능한 웹 문서들을 대상으로 사용자의 질의어에 가장 적합한 웹 문서들을 검색한다. 특히, 사이버 보안 검색 엔진 기능은 일반 검색 엔진과 다르게 사이버 보안과 밀접한 관련이 있는 정보들을 위주로 검색할 수 있다. 예를 들면, 임의의 공격 또는 멀웨어(malware)에 대한 질의가 입력되는 경우, 사이버 보안 검색 엔진 기능은 i)해당 공격/멀웨어로 인해 공격을 당하거나 또는 감염된 정보 시스템에 생기는 증상, ii)공격/멀웨어에 의해 공격을 당하거나 감염됐을 경우에 이를 제거하기 위해서 사용할 수 있는 해결책, iii)공격/멀웨어가 인터넷을 통해 전파되는 방법 및 iv)피해 대상/범위에 대한 정보를 상세히 검색하여 관련 웹 문서를 검색할 수 있다.The cyber security search engine function searches web documents that are most suitable for the user's query, not only on the surface web but also on the web documents accessible on the dark web. In particular, the cyber security search engine function can search for information that is closely related to cyber security unlike a general search engine. For example, if an attack or a query for malware is entered, the cyber security search engine function may: i) be attacked by the attack / malware or cause symptoms on an infected information system, ii) attack / A solution that can be used to remove an attack or infection caused by malware, iii) how the attack / malware spreads over the Internet, and iv) to search for detailed information about the victim / range, and to retrieve relevant web documents. You can search.

이로 인해, 본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법은 세부 주제에 대하여 상기 사이버 보안 검색 엔진 기능에 의해 검색된 결과를 확인하는 별도의 구획(section)을 구축할 수 있으며, 사용자는 각 구획에 대한 색인(tab)을 선택함으로써, 원하는 세부 주제 및 그에 관련된 정보를 검색할 수 있다. For this reason, the information retrieval system and its method using the cyber security-specific knowledge base according to an embodiment of the present invention establishes a separate section for checking the result retrieved by the cyber security search engine function on a detailed subject. In addition, the user can search for a desired detailed subject and related information by selecting a tab for each compartment.

두 번째 기능은 사용자에 의해 사이버 공격 또는 멀웨어에 대한 질의어가 주어지는 경우, 그에 대한 특성을 종합적으로 파악할 수 있는 시각화 기능이다.The second function is a visualization function that can comprehensively understand the characteristics of a cyber attack or malware when a user is given a query.

상기 시각화 기능은 사용자 입력으로 주어진 공격 또는 멀웨어를 중심으로, 이와 관련된 개체(entity)들을 각각 하나의 점(node)으로 표현하고, 각 개념들 사이의 연관성(relationship)을 간선(edge)으로 연결하며, 사용자의 입력으로 주어진 질의어에 관련된 개체들 및 연관 관계를 종합하여 그림의 형태로 표현할 수 있다. 이 때, 복수의 개체들 중에서 임의의 두 개체 사이에 관계가 존재하면, 이를 팩트(fact) 또는 사실 정보라 칭하고, 이 두 개체의 관계를 <subject, predicate, object>의 형태인 트리플(triple)로 표현할 수 있다.The visualization function expresses entities related to each attack or malware given by user input as a node, and connects the relationships between the concepts by edges. In addition, it is possible to express the objects related to the query given by the user's input and related relations in the form of pictures. At this time, if a relationship exists between any two of the plurality of entities, this is called a fact or fact information, and the relationship between the two entities is triple in the form of <subject, predicate, object>. Can be expressed as

나아가, 트리플로 표현된 사실 정보의 출처가 동시에 표시될 수 있으며, 이러한 경우에는 전술한 검색 기술이 사용될 수 있다.Furthermore, the source of the fact information expressed in triples can be displayed at the same time, in which case the above-described search technique can be used.

즉, 상기 시각화 기능은 사용자의 질의와 관련된 정보들의 관계를 보기 쉽게 제시해주는 동시에, 이 정보들의 출처를 함께 제공함으로써, 질의어에 대한 사용자의 이해를 돕는다. 예를 들면, 'Conficker'는 멀웨어의 한 종류이다'라는 문장이 웹 문서 A에 서술되어 있다고 가정했을 때, Conficker와 Malware를 의미하는 두 점 사이를 연결하고, 간선이 'is-A' 관계를 의미하도록 한다. 이 때, <Conficker, is-A, Malware>라는 트리플이 생성되며, 이 트리플에 의해 표현되는 정보는 웹 문서 A에 나타나 있으므로, 이 트리플에 웹 문서 A에 대한 링크를 포함하여 사용자로 하여금 이 사실 정보의 출처를 확인할 수 있도록 할 수 있다.In other words, the visualization function provides an easy to see relationship between the information related to the user's query, and at the same time provides the source of the information, thereby helping the user to understand the query. For example, suppose that the sentence 'Conficker' is a type of malware 'is described in Web Document A. It connects two points, meaning Conficker and Malware, and the edge connects the' is-A 'relationship. To mean. At this point, a triple called <Conficker, is-A, Malware> is created, and the information represented by this triple appears in Web document A. You can check the source of the information.

따라서, 사용자는 임의의 질의어를 입력했을 때, 이와 관련된 복수의 개체들이 어떤 연관성을 갖고 있는지를 쉽게 파악할 수 있으며, 이에 대한 출처도 같이 확인함으로써, 정보를 신뢰할 수 있다.Therefore, when a user inputs an arbitrary query word, the user can easily grasp the associations of a plurality of related entities, and the information can be trusted by checking the source thereof.

세 번째 기능은 사이버 보안과 관련된 사용자의 관심사를 수신하고, 수신된 관심사에 관련된 정보를 인터넷 및 다크 웹 상에서 지속적으로 수집하여 사용자의 관심사에 대한 가장 최신의 동향을 파악하여 요약하는 기능이다. The third function is to receive the user's interests related to cyber security, collect information related to the received interests on the Internet and the dark web, and identify and summarize the latest trends of the user's interests.

예를 들면, 사용자가 다양한 부품으로 구성된 개인용 데스크톱(desktop) 컴퓨터를 소유하고 있으며, 해당 컴퓨터에 특정 운영체제는 물론 다수의 응용프로그램을 설치하여 사용하고 있다고 가정했을 때, 사용자는 현재 사용자의 컴퓨터를 구성하고 있는 하드웨어 및 소프트웨어에 대한 정보를 본 발명이 제안하는 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템에 관심사로 등록할 수 있다. For example, suppose you own a personal desktop computer with a variety of components, and you install and use a specific operating system as well as many applications on that computer. Information about hardware and software that are being used can be registered as an interest in an information retrieval system using a cyber security-specific knowledge base proposed by the present invention.

이후, 본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법은 등록된 관심사에 기초하여 사이버 보안 관점에서 중요한 이벤트들을 수집할 수 있다. 예를 들면, 사용자의 컴퓨터에 설치되어 있는 운영체제에 대해 어떤 취약점이 발견되었으며, 이에 대한 패치가 개발 및 공개되었음을 알리는 사이버 보안 관련 뉴스 기사 또는 운영체제 제조사의 공식적인 발표가 존재하는 경우, 본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법은 가장 최신의 동향을 파악하여 요약하는 기능을 통해 상기 정보를 포함하는 웹 문서를 수집 및 종합하여 사용자에게 고지할 수 있다. Then, the information retrieval system and the method using the cyber security-specific knowledge base according to an embodiment of the present invention can collect the important events in terms of cyber security based on the registered interest. For example, if a vulnerability has been found for an operating system installed on a user's computer, and there is a cyber security news article or an official announcement by an operating system manufacturer indicating that a patch has been developed and released, an embodiment of the present invention. The information retrieval system and its method using the cyber security-specific knowledge base according to the present invention can collect and aggregate the web documents including the information through the function of identifying and summarizing the latest trends and notify the user.

또한, 사용자가 '서비스거부공격에 관한 정보'를 관심사로 정의하여 정보 검색 시스템에 등록하는 경우, 본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법은 가장 최신의 공격부터 과거의 공격 사례 순으로 공격 시점, 공격 대상, 예상 피해 규모, 공격의 주체를 종합하여 사용자에게 제공할 수 있다. 이 때, 본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법은 상기 전술한 시각화 기능을 통해서 사용자에게 출처가 되는 웹 문서에 대한 링크를 함께 제공함으로써, 제공된 정보의 신뢰도를 향상시킬 수 있다. In addition, when a user defines 'information about a denial of service attack' as an interest and registers it in the information retrieval system, the information retrieval system and the method using the cyber security-specific knowledge base according to the embodiment of the present invention are The attack time, attack target, expected damage size, and subject of the attack can be provided to the user in order from attack to past attack cases. At this time, the information retrieval system and the method using a cyber security-specific knowledge base according to an embodiment of the present invention by providing a link to a web document that is a source to the user through the above-described visualization function, It can improve the reliability.

네 번째 기능은 사이버 보안에 특화된 질의/응답 기능이다.The fourth function is a query / response function specialized for cyber security.

상기 질의/응답 기능은 정보 검색 기능이 사용자의 질의어와 관련된 웹 문서를 찾아서 관련도 순으로 나열해주는 것과는 다르게, 관련 문서들을 한차례 더 분석하여 핵심이 되는 정보들을 추출하고 사용자의 질의어에 가장 적합한 '정답'을 제공해줄 수 있다. 정보 검색 시스템의 질의어는 일반적으로 복수 개의 단어로 구성되는 반면에, 질의/응답 기능의 질의어는 의문문과 같은 문장의 형태를 갖는다. 이에 따라서, 상기 질의/응답 기능은 의문문으로 표현되는 질의어를 이해하고, 질의어에 가장 근접하고 정확한 정답을 생성하여 사용자에게 제공할 수 있다. Unlike the information search function which finds the web documents related to the user's query word and lists them in the order of relevance, the query / response function extracts the key information by analyzing the related documents one more time and provides the 'best answer' for the user's query word. 'Can be provided. A query of an information retrieval system is generally composed of a plurality of words, whereas a query of a query / response function has a sentence-like sentence form. Accordingly, the query / response function may understand a query expressed as a question, generate a correct answer that is closest to the query, and provide the correct answer to the user.

본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법에서 제시하는 사이버 보안 특화 질의/응답 기능은 사이버 보안 영역에서 사용자가 답을 얻고자 하는 질문에 대한 답을 제공할 수 있다. An information retrieval system using a cyber security-specific knowledge base according to an embodiment of the present invention and the cyber security-specific query / response function proposed by the method may provide an answer to a question that a user wants to obtain an answer in the cyber security domain. Can be.

이하에서는 도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템 및 그 방법에 대해 상세히 설명한다.Hereinafter, referring to FIGS. 1 and 2, an information retrieval system using a knowledge base of cyber security specialization and a method thereof will be described in detail.

도 1은 본 발명의 실시예에 따른 사이버 보안 특화의 정보 검색 시스템의 세부 구성을 블록도로 도시한 것이고, 도 2는 본 발명의 실시예에 따른 사이버 보안 특화의 정보 검색 방법의 흐름도를 도시한 것이다. 1 is a block diagram showing a detailed configuration of a cyber security-specific information retrieval system according to an embodiment of the present invention, Figure 2 is a flowchart of a cyber security-specific information retrieval method according to an embodiment of the present invention .

도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 사이버 보안 특화의 정보 검색 시스템은 사이버 보안 검색 엔진 기능, 시각화 기능, 동향 파악 기능 및 질의/응답 기능을 구현한다.1 and 2, the cyber security specialized information retrieval system according to an embodiment of the present invention implements a cyber security search engine function, a visualization function, a trend grasping function, and a question / answer function.

이를 위해, 본 발명의 실시예에 따른 사이버 보안 특화의 정보 검색 시스템(100)은 수집부(110), 전처리부(120), 지식 베이스 생성부(130), 지식 베이스 추론부(140) 및 사이버 보안 지식 베이스 구축부(150)를 포함한다. 또한, 도 2의 각 단계들(단계 210 내지 단계 250)은 도 1의 본 발명의 실시예에 따른 사이버 보안 특화의 정보 검색 시스템(100)은의 구성요소들 즉, 수집부(110), 전처리부(120), 지식 베이스 생성부(130), 지식 베이스 추론부(140) 및 사이버 보안 지식 베이스 구축부(150)에 의해 수행될 수 있다. To this end, the cyber security-specific information retrieval system 100 according to an embodiment of the present invention is a collection unit 110, pre-processing unit 120, knowledge base generation unit 130, knowledge base inference unit 140 and cyber Security knowledge base construction unit 150 is included. In addition, each of the steps (steps 210 to 250) of FIG. 2 includes components of the cyber security-specific information retrieval system 100 according to the embodiment of the present invention, that is, the collecting unit 110 and the preprocessor. 120, the knowledge base generating unit 130, the knowledge base inference unit 140, and the cyber security knowledge base building unit 150 may be performed.

단계 210에서, 수집부(110)는 표면 웹(Surface Web) 및 다크 웹(Dark Web) 상에서 공유되는 사이버 보안에 관련된 웹 사이트로부터 웹 문서들을 수집한다.In operation 210, the collector 110 collects web documents from a web site related to cyber security shared on a surface web and a dark web.

수집부(110)는 인터넷 또는 표면 웹(Surface Web)이라 칭하는 일반적으로 접근 가능한 웹 사이트들로부터 사이버 보안과 관련된 웹 문서들을 수집할 수 있다. 또한, 수집부(110)는 일반적인 표면 웹 접근 방법과는 다른 방법을 사용하여야만 접근이 가능한 다크 웹(Dark Web) 상에서 공유되는 사이버 보안 관련 웹 문서들도 수집할 수 있다.The collection unit 110 may collect web documents related to cyber security from generally accessible web sites called the Internet or the surface web. In addition, the collector 110 may collect cyber security-related web documents that are shared on a dark web that can be accessed only by using a method different from the general surface web access method.

사이버 공격을 계획하는 주체들은 접근이 어려운 다크 웹에 대한 사이버 공격과 관련된 정보를 교환한다. 이에, 수집부(110)는 다크 웹 상에서 공유되는 정보를 수집함으로써, 사이버 보안과 관련된 더 깊이 있는 정보를 수집할 수 있다.Agents planning cyber attacks exchange information related to cyber attacks on inaccessible dark web. Thus, the collection unit 110 may collect more in depth information related to cyber security by collecting information shared on the dark web.

표면 웹 및 다크 웹 상에서 공통적으로 사이버 보안과 관련된 웹 문서들을 선별하여 수집하기 위해, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 사이버 보안 전문가들에 의해 선정된 사이버 보안과 관련된 어휘 집합(vocabulary)를 구축 및 적용한다. 상기 어휘 집합은 발견되어 보고된 하드웨어 및 소프트웨어 보안 취약점, 취약점들에 대한 패치 정보, 공개된 사이버 공격의 이름, 사이버 공격 도구의 이름, 소프트웨어의 이름 및 버전, 사이버 공격에 대한 대응 기법의 이름, 소프트웨어 및 하드웨어 제작 회사의 이름, 사이버 보안 위협에 대응하는 조직들의 이름 및 기업들의 이름 중 적어도 어느 하나 이상이 포함될 수 있다. In order to collect and collect web documents related to cyber security in common on the surface web and the dark web, the information retrieval system 100 according to an embodiment of the present invention is a vocabulary set related to cyber security selected by cyber security experts. build and apply vocabulary The vocabulary set includes hardware and software security vulnerabilities discovered and reported, patch information for vulnerabilities, names of published cyber attacks, names of cyber attack tools, names and versions of software, names of countermeasures against cyber attacks, software And a name of a hardware manufacturing company, names of organizations corresponding to cyber security threats, and names of companies.

수집부(110)는 표면 웹 및 다크 웹의 웹 사이트들을 방문하여 상기 어휘 집합에 포함되어 있는 어휘들이 나타내는 웹 문서들을 발견하는 경우, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 저장부(160)에 그 사본을 저장할 수 있다. 이를 웹 크롤링(Web crawling)이라 한다.When the collection unit 110 visits the web sites of the surface web and the dark web and finds web documents indicated by the vocabularies included in the vocabulary set, the information retrieval system 100 according to the embodiment of the present invention may include a storage unit. The copy may be stored at 160. This is called web crawling.

본 발명의 실시예에 따른 정보 검색 시스템(100)은 사이버 보안에 대한 전문적인 정보를 수록하는 대표적인 웹 사이트로 정의된 구성 목록을 활용할 수 있다. 상기 구성 목록은 저장부(160)에 저장될 수 있다. The information retrieval system 100 according to the embodiment of the present invention may utilize a configuration list defined as a representative web site containing specialized information on cyber security. The configuration list may be stored in the storage 160.

수집부(110)는 상기 구성 목록에 포함된 웹 사이트들을 방문하여 웹 사이트에 게시된 게시물(웹 문서)들을 수집할 수 있다. 이 때, 수집부(110)는 게시물에 포함된 어휘들 중에서 사이버 보안과 관련된 어휘 집합에 포함되어 있으면서, 외부 웹 사이트의 주소에 대한 링크를 갖는 어휘가 발견되는 경우, 저장부(160)를 통해 링크되어 있는 외부 웹 사이트의 주소를 앞으로 방문할 웹 사이트 목록에 추가할 수 있다. The collector 110 may visit the web sites included in the configuration list and collect posts (web documents) posted on the web site. At this time, the collection unit 110 is included in the vocabulary set related to cyber security among the vocabulary included in the post, if the vocabulary having a link to the address of the external web site is found, through the storage unit 160 You can add the address of the linked external website to your list of future websites.

다만, 표면 웹과는 다르게 다크 웹의 웹 사이트를 방문하기 위해서는 특수한 기법이 요구된다. 다크 웹의 경우는 대부분 익명성을 보장하기 위해 Tor 프로토콜을 사용하여 접근해야 하므로, 다크 웹 상에서의 웹 문서를 수집하기 위해서는 Tor 프로토콜을 지원하는 웹 크롤링 기술이 필요하다.However, unlike the surface web, special techniques are required to visit the web site of the dark web. Dark web needs to be accessed using Tor protocol to ensure anonymity, so web crawling technology that supports Tor protocol is required to collect web documents on dark web.

본 발명의 실시예에 따른 정보 검색 시스템(100)은 Tor 프로토콜을 지원하는 웹 크롤링 기술을 구축하며, 수집부(110)는 웹 크롤링 기술을 활용하여 다크 웹 상에 게시되어 있는 사이버 보안 관련 웹 문서를 수집할 수 있다.The information retrieval system 100 according to the embodiment of the present invention builds a web crawling technology that supports the Tor protocol, and the collection unit 110 utilizes a web crawling technology to publish cyber security-related web documents on the dark web. Can be collected.

그러나, 다크 웹 상에서 사이버 보안과 관련된 웹 문서들을 다루는 웹 사이트에 대해서는 알려진 바가 없으므로, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 다크 웹을 대상으로 하는 검색 엔진을 통해 다크 웹 상에서의 사이버 보안에 관련된 웹 사이트를 검색하고, 검색 결과를 바탕으로 다크 웹 상에서의 사이버 보안 관련 웹 사이트 목록을 생성하며, 이후 생성부(110)를 통해 전술한 것과 동일하게 웹 문서를 수집할 수 있다. However, since there is no known web site for handling web documents related to cyber security on the dark web, the information retrieval system 100 according to the embodiment of the present invention uses a cyber engine on the dark web through a search engine for the dark web. A web site related to security may be searched, a cyber security related web site list may be generated on the dark web based on the search result, and the web document may be collected through the generation unit 110 as described above.

단계 220에서, 전처리부(120)는 수집된 웹 문서들에서 사이버 보안에 관련된 지식 정보인 트리플들을 추출한다.In operation 220, the preprocessor 120 extracts triples, which are knowledge information related to cyber security, from the collected web documents.

수집부(110)에 의해 수집된 웹 문서들은 본 발명의 실시예에 따른 정보 검색 시스템(100)이 활용할 수 있는 형태로 표현되어야 한다. 웹 문서는 문자 언어로 작성되므로, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 웹 문서에서 필요한 정보를 추출하기 위해 자연어처리(NLP) 기반의 전처리부(120)를 사용한다.Web documents collected by the collection unit 110 should be represented in a form that can be utilized by the information retrieval system 100 according to an embodiment of the present invention. Since the web document is written in a text language, the information retrieval system 100 according to an exemplary embodiment of the present invention uses a natural language processing (NLP) based preprocessor 120 to extract necessary information from the web document.

전처리부(120)는 수집한 웹 문서로부터 필요한 텍스트 정보를 구조적으로 추출하고, 웹 문서에 포함되어 있는 불필요한 정보들을 제거할 수 있다. 일반적으로, 웹 문서에는 웹 문서를 보기 좋은 형태로 표현하도록 돕는 CSS(Cascading Style Sheets) 코드, 동적인 기능을 추가하기 위한 다양한 스크립트 코드 및 HTML(Hyper Text Markup Language) 코드가 포함되어 있다. 이들은 정보 검색 과정에 크게 도움을 주지 않으므로 전처리부(120)는 이를 제거할 수 있다.The preprocessing unit 120 may structurally extract necessary text information from the collected web document and remove unnecessary information included in the web document. In general, Web documents include Cascading Style Sheets (CSS) code to help you present your Web document in a nicer form, various script code to add dynamic functionality, and Hyper Text Markup Language (HTML) code. Since they do not greatly help the information retrieval process, the preprocessor 120 may remove them.

이 때, 일부 HTML 코드는 텍스트 정보에 대한 메타데이터(meta data)로 작용하므로, 전처리부(120)는 HTML 코드를 이용하여 구조적인 텍스트 정보(또는 지식 정보, 트리플)를 추출할 수 있다. 예를 들면, 어떤 텍스트는 다른 웹 문서를 가리키기 위해 링크 정보가 더해져 있을 수 있고, 또 어떤 텍스트에는 제목을 나타내기 위한 정보가 더해져 있을 수 있다. 이들은 대부분 HTML 코드로 작성되어 텍스트 정보에 추가되어 있으므로, 전처리부(120)는 구조를 파악하여 제목으로 작성된 텍스트와 다른 외부 웹 문서를 가리키고 있는 텍스트를 구분하고, 동일한 텍스트 정보라도 더욱 중요하게 사용될 수 있는 텍스트를 선정하여 구조적인 텍스트 정보를 추출할 수 있다. At this time, since some HTML code acts as metadata for text information, the preprocessor 120 may extract structural text information (or knowledge information, triples) using the HTML code. For example, some text may have link information added to other web documents, and some text may have information added to indicate a title. Since most of them are written in HTML code and added to the text information, the preprocessing unit 120 grasps the structure and distinguishes the text written as the title from the text pointing to another external web document, and the same text information can be used more importantly. Selecting text can extract structural text information.

이후, 전처리부(120)는 앞서 추출된 텍스트들을 각각의 문장으로 구분할 수 있다. Subsequently, the preprocessor 120 may classify the extracted text into respective sentences.

텍스트 데이터의 의미를 파악하기 위한 기본 단위는 문장이다. 텍스트를 문장별로 나누면 각 문장이 나타내고자 하는 어떤 사건 또는 이벤트를 파악할 수 있게 되고, 이 사건 또는 이벤트의 주체와 대상이 무엇인지를 인지할 수 있게 된다. 특히, 사이버 보안과 관련된 사건 및 이벤트들에 대해서는 공격의 주체와 피해 대상을 명확히 파악하는 것이 중요하기 때문에, 문장 내에서 문장의 주체가 되는 개체(즉, 주어)와 대상이 되는 개체(즉, 목적어)를 파악하는 것이 중요하다. 이에 따라서, 문장을 파악하는 것이 선행되어야 하고, 그 다음으로는 주어와 목적어, 그리고 주어와 목적어 사이의 관계를 나타내는 동사 파악이 순차적으로 진행되어야 한다.The basic unit for understanding the meaning of text data is a sentence. By dividing the text into sentences, it is possible to identify which event or event each sentence intends to represent, and to recognize the subject and object of the event or event. In particular, for events and events related to cyber security, it is important to clearly identify the subject and target of the attack. Therefore, the subject (ie, subject) and the target (ie, object) in the sentence are important. ) Is important. Accordingly, grasping the sentence should be preceded, followed by the identification of the subject and the object, and the verb indicating the relationship between the subject and the object.

이를 위해, 전처리부(120)는 수집된 웹 문서에서 문장과 사이버 보안에 관련된 어휘를 추출할 수 있다. 이 때, 상기 트리플은 앞서 추출된 문장에서 주로 주어와 목적어로 사용되며, 이를 사이버 보안 관련 개체명(Cyber-security named entity)라 칭할 수 있다.To this end, the preprocessor 120 may extract a sentence and a vocabulary related to cyber security from the collected web document. In this case, the triple is mainly used as a subject and object in the sentence extracted above, and this may be referred to as a cyber-security named entity.

실시예에 따라서, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 어휘 집합에 포함된 어휘들을 이용하여 사이버 보안에 관련된 어휘들을 학습시키는 딥 러닝(Deep learning) 기술 기반의 개체명 인식기(Named Entity Recognizer)를 구축할 수 있다. According to an embodiment, the information retrieval system 100 according to an embodiment of the present invention may use a vocabulary included in a vocabulary set to recognize a vocabulary related to cyber security. You can build an Entity Recognizer.

구체적으로, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 단어 수준에서 효과적인 언어 모델링 결과를 나타내는 bidirectional LSTM(Long Short Term Memory) 기반의 순환 신경망 네트워크(Recurrent Neural Network) 알고리즘을 적용하여 웹 문서에 포함된 어휘들이 사이버 보안에 관련된 개체명인지 여부를 판별할 수 있다. 실시예에 따라서, 사이버 보안과 관련된 개체명으로는 취약점, 공격, 소프트웨어 및 하드웨어 이름 중 적어도 어느 하나 이상이 포함될 수 있다. Specifically, the information retrieval system 100 according to an embodiment of the present invention applies a bidirectional Long Short Term Memory (LSTM) based cyclic neural network algorithm that represents an effective language modeling result at a word level. It is possible to determine whether or not the vocabulary included in the entity names related to cyber security. According to an embodiment, the entity name related to cyber security may include at least one or more of a vulnerability, an attack, a software, and a hardware name.

특히, 사이버 보안에서는 취약점이 발견된 하드웨어 및 소프트웨어의 버전명을 정확히 인식하는 것이 중요하나, 개체명 인식기로는 이를 정확하게 파악하기 어렵다. 이에, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 사이버 보안 전문가들에 의해 정규 표현식(Regular Expression)으로 사용된 하드웨어 및 소프트웨어 버전명 인식기를 구축하고, 이를 사이버 보안 개체명 인식기에 포함시킬 수 있다. In cyber security, in particular, it is important to accurately recognize the version name of the hardware and software where the vulnerability is found, but it is difficult to identify it accurately with the entity name recognizer. Accordingly, the information retrieval system 100 according to an embodiment of the present invention constructs a hardware and software version name recognizer used as a regular expression by cyber security experts, and includes the same in the cyber security entity name recognizer. Can be.

상기 사이버 보안 개체명 인식기를 딥 러닝 기술의 기계 학습 방법으로 학습시키기 위해서는 전문가들의 의한 사이버 보안 관련 어휘 태깅(tagging 또는 annotation)이 필요하다. 태깅 작업을 원활하게 하기 위해, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 웹 브라우저 인터페이스를 기반으로 웹 문서들에서의 사이버 보안 관련 어휘 태깅 보조 시스템을 구축할 수도 있다. In order to learn the cyber security entity name recognizer by a machine learning method of deep learning technology, cyber security-related vocabulary tagging (tagging or annotation) is required. In order to facilitate tagging, the information retrieval system 100 according to an embodiment of the present invention may build a cyber security-related vocabulary tagging assistance system in web documents based on a web browser interface.

개체명 인식을 위해 관련 어휘를 태깅하는 작업은 많은 시간과 노력을 요하기 때문에, 이 작업을 쉽게 간편하게 만드는 것이 중요하다. 따라서, 본 발명의 실시예에 따른 정보 검색 시스템(100)은 사이버 보안 전문가들에게 주어진 문서에 대해서 관련 어휘를 쉽게 태깅할 수 있도록 돕고, 사이버 보안 개체명 인식기가 관련 어휘를 인식하여 학습할 수 있는 데이터 형태로 태깅 결과를 저장할 수 있다. Tagging related vocabularies for object name recognition requires a lot of time and effort, so it is important to make this task easy and simple. Therefore, the information retrieval system 100 according to an embodiment of the present invention helps cyber security experts to easily tag related vocabularies for a given document, and the cyber security entity name recognizer can recognize and learn the related vocabulary. The tagging results can be stored in data form.

또한, 전처리부(120)는 추출된 문장과 사이버 보안 관련 개체명을 바탕으로 각 문장을 <주어, 동사, 목적어>로 구성되는 트리플을 추출할 수 있다. 트리플은 어떤 사건이나 이벤트를 최소한의 정보로 나타내는 것이므로, 기계로 하여금 쉽게 그 사건이나 이벤트의 의미를 파악할 수 있게 한다.In addition, the preprocessing unit 120 may extract a triple composed of each sentence <subject, verb, object> based on the extracted sentence and the cyber security related entity name. The triples represent an event or event with minimal information, allowing the machine to easily grasp the meaning of the event or event.

실시예에 따라서, 트리플의 목적어가 단일 어휘가 아닌 다른 트리플인 경우 즉, 어떤 사건이나 이벤트를 나타내는 문장 자체가 복문(complex sentence)일 때, 중첩된 트리플(nested triple)이 발생할 수 있다. 예를 들면, '마이크로소프트는 자사의 운영체제가 취약점을 가지고 있음을 인정했다.'라는 문자에서 <마이크로소프트의 운영체제, 가진다, 취약점>이라는 트리플을 Triple 1이라고 했을 때, <마이크로소프트, 인정하다, Triple 1>과 같은 트리플이 생성될 수 있다. 이러한 과정을 통해서 생성된 트리플은 수집된 웹 문서에 대하여 색인(index)로 사용될 수 있다. According to an embodiment, a nested triple may occur when the object of the triple is a triple other than a single vocabulary, that is, when a sentence representing an event or event is a complex sentence. For example, in the words "Microsoft has acknowledged that its operating system has vulnerabilities", when the Triple <Microsoft Operating System, Has, Vulnerability> is called Triple 1, Microsoft acknowledges, Triple such as Triple 1> can be generated. The triple generated through this process can be used as an index to the collected web documents.

즉, 어느 웹 문서에 대하여, 그 웹 문서의 텍스트 정보로부터 추출된 트리플들의 집합은 그 웹 문서가 포함하는 전체 정보에 대한 일종의 요약(summary)이라고 볼 수 있으며, 인덱스는 본 발명의 실시예에 따른 정보 검색 시스템(100)이 사용자의 질의어와 가장 관련 있는 웹 문서를 찾는데 큰 도움이 될 수 있다. That is, for a web document, the set of triples extracted from the text information of the web document can be regarded as a kind of summary of the entire information contained in the web document, and the index is according to an embodiment of the present invention. The information retrieval system 100 can be of great help in finding web documents most relevant to the user's query.

단계 230에서, 지식 베이스 생성부(130)는 전처리부(120)에 의해 추출된 트리플들의 집합을 이용하여 지식 베이스를 생성한다.In operation 230, the knowledge base generator 130 generates a knowledge base using a set of triples extracted by the preprocessor 120.

상기 지식 베이스는 개체와 개체 사이의 관계로 표현되는 고차원의 정보를 의미하며, 단순 데이터나 정보와는 다르게 특정 분야의 전문가들이 보유하고 있는 '지식'을 표현할 수 있다. 일반적으로 지식 베이스에서 '지식'은 트리플로 표현된다. 이에, 본 발명의 실시예에 따른 정보 검색 시스템(100)의 지식 베이스 생성부(130)는 전술한 전처리부(120)에 의해서 생성되는 트리플들의 집합을 이용하여 지식 베이스를 구축할 수 있다. The knowledge base refers to high-level information represented by the relationship between objects, and may represent 'knowledge' possessed by experts in a specific field, unlike simple data or information. In the knowledge base, 'knowledge' is usually expressed in triples. Thus, the knowledge base generation unit 130 of the information retrieval system 100 according to an embodiment of the present invention may build a knowledge base using the set of triples generated by the preprocessor 120 described above.

본 발명의 실시예에 따른 정보 검색 시스템(100)의 지식 베이스는 전술한 네 가지 주요 기능(예를 들면, 사이버 보안 검색 엔진 기능, 시각화 기능, 동향 파악 기능 및 질의/응답 기능)을 돕는 핵심 역할을 수행할 수 있다.The knowledge base of the information retrieval system 100 according to an embodiment of the present invention is a key role that assists the four main functions (for example, cyber security search engine function, visualization function, trend grasping function, and query / response function). Can be performed.

보다 구체적으로, 지식 베이스에 포함되어 있는 트리플들은 각 웹 문서들로부터 추출된 것인 동시에 각 웹 문서들에 대한 색인으로 사용되므로, 사용자 질의에 대한 관련 웹 문서 검색에 사용될 수 있다. 또한, 사용자 질의에 대하여 질의어 확장 기능에 사용될 수 있으므로, 사용자의 질의와 관련되거나 유사한, 그러나 사용자가 직접 입력하지 않은 질의어를 이용하여 더 많은 관련 웹 문서를 검색할 수 있도록 사용될 수 있다.More specifically, since the triples included in the knowledge base are extracted from each web document and used as an index for each web document, the triples included in the knowledge base can be used to search related web documents for user queries. It can also be used for query expansion for user queries, so that it can be used to retrieve more relevant web documents using queries that are related to or similar to the user's query, but are not entered directly by the user.

또한, 지식 베이스는 i)공격/멀웨어에 대한 특성 시각화와 ii)사이버 보안 관련 사용자 관심사에 연관된 동향 정보 요약 제공, 및 iii)사이버 보안 관련 질의/응답 기능에 대하여, 트리플 및 간선 방향에 의한 그래프의 형태로 시각화할 수 있으며, 시간에 따른 트리플들의 요약을 제공하고, 의문문 형태의 사용자 질의어에 나타나는 주어, 동사, 목적어를 분석하여 가장 관련이 깊고, 높은 신뢰도를 나타내는 트리플들을 추출하여 제시할 수 있다. In addition, the Knowledge Base provides a graphical representation of the graphs in triple and edge directions for i) characterization of attacks / malware and ii) summary of trend information related to cybersecurity user concerns, and iii) cybersecurity-related query / response capabilities. It can be visualized in the form, provides a summary of triples over time, and analyzes the subjects, verbs, and objects that appear in question-type user queries, and extracts and presents the most relevant and high reliability triples.

단계 240에서, 지식 베이스 추론부(140)는 지식 베이스에 저장되어 트리플 사이의 관계를 나타내는 온톨로지를 기반으로, 트리플들의 연관 관계 및 지식을 추론한다.In operation 240, the knowledge base inference unit 140 infers the association and knowledge of the triples based on the ontology representing the relationship between the triples stored in the knowledge base.

본 발명의 실시예에 따른 정보 검색 시스템(100)은 사이버 보안 관련 지식 베이스에 대한 체계적인 관리를 위해, 사이버 보안 분야에 특화된 온톨로지와 사이버 보안 지식 베이스 관리 시스템을 제안한다. The information retrieval system 100 according to an embodiment of the present invention proposes an ontology and cyber security knowledge base management system specialized in the cyber security field for systematic management of a cyber security related knowledge base.

일반적으로, 지식 베이스는 지식 표현 체계가 정의된 온톨로지를 포함한다. 온톨로지는 지식 베이스에 저장되어 있는 트리플들 사이의 관계를 정의한다. 이에 따라서, 온톨로지에 정의되어 있는 트리플들의 관계를 기반으로, 트리플들의 연관 관계를 파악할 수 있다.In general, knowledge bases include ontologies for which knowledge representation systems are defined. Ontology defines the relationship between triples stored in the knowledge base. Accordingly, based on the relationship between the triples defined in the ontology, it is possible to grasp the relationship of the triples.

특히, 온톨로지는 클래스(class)와 인스턴스(instance) 간의 관계와 더불어 개체와 개체들 사이에 존재하는 제한 사항(constraint)을 관계로 정의하는데, 이러한 특수한 관계들을 적용하면 지식 베이스에 저장되어 있는 트리플들을 통해 이전에는 발견하지 못한 새로운 관계와 지식을 추론해낼 수 있다.In particular, ontology defines the relationship between class and instance as well as the constraints that exist between objects.These relationships apply to triples stored in the knowledge base. This allows us to infer new relationships and knowledge that we have not discovered before.

온톨로지와 관련하여 고려해야하는 중요한 두 가지 사항이 있는데, 하나는 온톨로지를 지속적으로 확장해야하는 것이고, 다른 하나는 기존에 제안된 범용 목적의 온톨로지와 연동하는 것이다. 사이버 보안 분야는 가장 빠르게 변화하는 분야 중 하나이다. 매일 같이 새로운 개념이 등장하고, 새로운 공격 및 방어 수단이 개발된다.There are two important things to consider regarding ontologies: one is to continuously expand the ontology, and the other is to work with the proposed general purpose ontology. Cyber security is one of the fastest changing areas. Every day new concepts emerge, new means of attack and defense are developed.

따라서, 이미 구축된 온톨로지에 새로운 개념이 포함되어 있지 않을 수 있다. 이를 위해서는 온톨로지를 지속적으로 확장하여 사이버 보안과 관련한 새로운 개념들이 기존의 온톨로지에 포함될 수 있도록 해야 한다.Thus, the ontology already built may not contain new concepts. To do this, the ontology must be continuously expanded so that new concepts related to cyber security can be included in the existing ontology.

본 발명의 실시예에 따른 정보 검색 시스템(100)의 지식 베이스 추론부(140)는 기존의 온톨로지에 대응되지 않는 인스턴스들을 수집하여 새로운 온톨로지 클래스를 생성하고, 기존 온톨로지를 갱신하는 방법으로 온톨로지를 확장할 수 있다. The knowledge base inference unit 140 of the information retrieval system 100 according to an embodiment of the present invention collects instances that do not correspond to the existing ontology, creates a new ontology class, and extends the ontology by a method of updating the existing ontology. can do.

또한, 본 발명의 실시예에 따른 정보 검색 시스템(100)에서 제안하는 사이버 보안의 온톨로지는, 사이버 보안이라는 분야가 실생활과도 매우 밀접한 관련을 가지고 있기 때문에, 기존에 개발된 YAGO와 Freebase와 같은 온톨로지와의 연동을 위해서, 기존의 온톨로지에 사용되는 어휘들을 포함하여 범용의 온톨로지와도 호환이 가능하도록 구축될 수 있다.In addition, the ontology of cyber security proposed by the information retrieval system 100 according to an embodiment of the present invention has an ontology such as YAGO and Freebase that have been developed since the field of cyber security is closely related to real life. In order to interoperate with, it can be constructed to be compatible with general ontology, including vocabulary used in the existing ontology.

단계 250에서, 사이버 보안 지식 베이스 구축부(150)는 지식 베이스 구축부(140)에 의해 추론된 지식 베이스들을 병합하여 최종의 사이버 보안 지식 베이스를 구축한다.In operation 250, the cyber security knowledge base construction unit 150 merges the knowledge bases inferred by the knowledge base construction unit 140 to construct a final cyber security knowledge base.

예를 들면, 사이버 보안 지식 베이스 구축부(150)는 클래스(Class), 인스턴스(Individual) 및 속성(property)를 포함하는 모든 지식 개체가 고유한 식별자(URI: Uniform Resource Identifier)를 가지는 URI 기반으로 지식 베이스를 기계적으로 병합(merge)하여 최종의 사이버 보안 지식 베이스를 구축할 수 있다. For example, the cyber security knowledge base construction unit 150 may be based on a URI in which all knowledge objects including a class, an instance, and a property have a uniform resource identifier (URI). The knowledge base can be mechanically merged to build the final cyber security knowledge base.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments may include, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Method according to the embodiment is implemented in the form of program instructions that can be executed by various computer means may be recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different form than the described method, or other components. Or even if replaced or substituted by equivalents, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

Claims (3)

사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템에 있어서,
표면 웹(Surface Web) 및 다크 웹(Dark Web) 상에서 공유되는 사이버 보안에 관련된 웹 사이트로부터 웹 문서들을 수집하는 수집부;
상기 수집된 웹 문서들에서 사이버 보안에 관련된 지식 정보인 트리플들을 추출하는 전처리부;
상기 전처리부에 의해 추출된 상기 트리플들의 집합을 이용하여 지식 베이스를 생성하는 지식 베이스 생성부;
상기 지식 베이스에 저장되어 상기 트리플 사이의 관계를 나타내는 온톨로지를 기반으로, 상기 트리플들의 연관 관계 및 지식을 추론하는 지식 베이스 추론부; 및
상기 지식 베이스 구축부에 의해 추론된 지식 베이스들을 병합하여 최종의 사이버 보안 지식 베이스를 구축하는 사이버 보안 지식 베이스 구축부
를 포함하는 사이버 보안 특화의 정보 검색 시스템.
In the information retrieval system using the cyber security-specific knowledge base,
A collection unit that collects web documents from a web site related to cyber security shared on a surface web and a dark web;
A preprocessor extracting triples which are knowledge information related to cyber security from the collected web documents;
A knowledge base generation unit generating a knowledge base using the set of triples extracted by the preprocessor;
A knowledge base inference unit for inferring associations and knowledge of the triples based on an ontology stored in the knowledge base representing the relationships between the triples; And
Cyber security knowledge base construction unit for constructing the final cyber security knowledge base by merging the knowledge bases inferred by the knowledge base construction unit
Cyber security specialized information retrieval system comprising a.
제1항에 있어서,
상기 정보 검색 시스템은
상기 사이버 보안 지식 베이스를 이용하여 사용자의 질의에 대한 사이버 보안에 특화된 정보를 제공하는 것을 특징으로 하는 사이버 보안 특화의 정보 검색 시스템.
The method of claim 1,
The information retrieval system
The cyber security specialized information retrieval system, characterized in that for providing information specific to cyber security for the user's query using the cyber security knowledge base.
사이버 보안 특화의 지식 베이스를 이용한 정보 검색 시스템의 동작 방법에 있어서,
표면 웹(Surface Web) 및 다크 웹(Dark Web) 상에서 공유되는 사이버 보안에 관련된 웹 사이트로부터 웹 문서들을 수집하는 단계;
상기 수집된 웹 문서들에서 사이버 보안에 관련된 지식 정보인 트리플들을 추출하는 단계;
상기 추출되는 트리플들의 집합을 이용하여 지식 베이스를 생성하는 단계;
상기 지식 베이스에 저장되어 상기 트리플 사이의 관계를 나타내는 온톨로지를 기반으로, 상기 트리플들의 연관 관계 및 지식을 추론하는 단계; 및
상기 추론된 지식 베이스들을 병합하여 최종의 사이버 보안 지식 베이스를 구축하는 단계
를 포함하는 사이버 보안 특화의 정보 검색 방법.
In the operation method of the information retrieval system using a cyber security specialized knowledge base,
Collecting web documents from a web site related to cyber security shared on a surface web and a dark web;
Extracting triples which are knowledge information related to cyber security from the collected web documents;
Generating a knowledge base using the extracted set of triples;
Inferring associations and knowledge of the triples based on an ontology stored in the knowledge base representing the relationships between the triples; And
Merging the inferred knowledge bases to build a final cyber security knowledge base
Cyber security-specific information retrieval method comprising a.
KR1020180064090A 2018-06-04 2018-06-04 An information retrieval system using knowledge base of cyber security and the method thereof KR20190138037A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180064090A KR20190138037A (en) 2018-06-04 2018-06-04 An information retrieval system using knowledge base of cyber security and the method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180064090A KR20190138037A (en) 2018-06-04 2018-06-04 An information retrieval system using knowledge base of cyber security and the method thereof

Publications (1)

Publication Number Publication Date
KR20190138037A true KR20190138037A (en) 2019-12-12

Family

ID=69004012

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180064090A KR20190138037A (en) 2018-06-04 2018-06-04 An information retrieval system using knowledge base of cyber security and the method thereof

Country Status (1)

Country Link
KR (1) KR20190138037A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102120200B1 (en) * 2019-12-27 2020-06-17 주식회사 와이햇에이아이 Malware Crawling Method and System
CN111552708A (en) * 2020-04-21 2020-08-18 武汉理工大学 Port intelligent retrieval system based on natural language processing
KR20210083510A (en) * 2019-12-27 2021-07-07 (주)아이와즈 Crime detection system through fake news decision and web monitoring and Method thereof
KR20220091676A (en) * 2020-12-23 2022-07-01 한국전자통신연구원 Apparatus and Method for Building Unstructured Cyber Threat Information Big-data, Method for Analyzing Unstructured Cyber Threat Information

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140047952A (en) 2012-10-15 2014-04-23 한국전자통신연구원 Knowledge base generating apparatus and knowledge base generating method thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140047952A (en) 2012-10-15 2014-04-23 한국전자통신연구원 Knowledge base generating apparatus and knowledge base generating method thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102120200B1 (en) * 2019-12-27 2020-06-17 주식회사 와이햇에이아이 Malware Crawling Method and System
KR20210083510A (en) * 2019-12-27 2021-07-07 (주)아이와즈 Crime detection system through fake news decision and web monitoring and Method thereof
CN111552708A (en) * 2020-04-21 2020-08-18 武汉理工大学 Port intelligent retrieval system based on natural language processing
KR20220091676A (en) * 2020-12-23 2022-07-01 한국전자통신연구원 Apparatus and Method for Building Unstructured Cyber Threat Information Big-data, Method for Analyzing Unstructured Cyber Threat Information

Similar Documents

Publication Publication Date Title
US20230319090A1 (en) Consolidating structured and unstructured security and threat intelligence with knowledge graphs
Zhou et al. An ensemble learning approach for XSS attack detection with domain knowledge and threat intelligence
CN113647078B (en) Method, device and computer readable storage medium for managing security events
Syed et al. UCO: A unified cybersecurity ontology
US10686830B2 (en) Corroborating threat assertions by consolidating security and threat intelligence with kinetics data
CN112131882A (en) Multi-source heterogeneous network security knowledge graph construction method and device
JP5697172B2 (en) Method and system for processing information in an information stream
US10691825B2 (en) Facilitating entity resolution via secure entity resolution database
JP7120350B2 (en) SECURITY INFORMATION ANALYSIS METHOD, SECURITY INFORMATION ANALYSIS SYSTEM AND PROGRAM
KR20190138037A (en) An information retrieval system using knowledge base of cyber security and the method thereof
KR102079970B1 (en) Method, apparatus and computer program for providing cyber security using a knowledge graph
WO2020024903A1 (en) Method and device for searching for blockchain data, and computer readable storage medium
CN110929185B (en) Website directory detection method and device, computer equipment and computer storage medium
US20190205470A1 (en) Hypotheses generation using searchable unstructured data corpus
Du et al. ExpSeeker: Extract public exploit code information from social media
Gupta et al. Big data security challenges and preventive solutions
Wei et al. Spark-mca: Large-scale, exhaustive formal concept analysis for evaluating the semantic completeness of snomed ct
CN115470489A (en) Detection model training method, detection method, device and computer readable medium
Arumugam et al. Prediction of sql injection attacks in web applications
JP7408530B2 (en) Security management system and security management method
Carvalho et al. Malware investigation using semantic technologies
Pillai Web-Based Automated System for Cyber Analytics
Djemaiel et al. A mark based-temporal conceptual graphs for enhancing Big Data management and attack scenario reconstruction
Mani Tripathi et al. Multicriteria-Based Trustworthiness Testing of Web Sites
Zhang et al. Formal Concept Analysis and Semantic Completeness