WO2017026647A1 - 메시지의 필드 인덱싱 방법 - Google Patents

메시지의 필드 인덱싱 방법 Download PDF

Info

Publication number
WO2017026647A1
WO2017026647A1 PCT/KR2016/006781 KR2016006781W WO2017026647A1 WO 2017026647 A1 WO2017026647 A1 WO 2017026647A1 KR 2016006781 W KR2016006781 W KR 2016006781W WO 2017026647 A1 WO2017026647 A1 WO 2017026647A1
Authority
WO
WIPO (PCT)
Prior art keywords
indexing
message
query
indexing method
present
Prior art date
Application number
PCT/KR2016/006781
Other languages
English (en)
French (fr)
Inventor
양봉열
황원근
김상국
성준경
Original Assignee
주식회사 이디엄
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이디엄 filed Critical 주식회사 이디엄
Publication of WO2017026647A1 publication Critical patent/WO2017026647A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a field indexing method of a message. More particularly, the present invention relates to an indexing method that enables a low-load and high-speed search.
  • each log line may include a visitor's access Internet protocol (IP), visit time information, visit web page information, and visit status.
  • IP Internet protocol
  • Patent No. 1112568 which the inventor of the present application holds as a patent owner, discloses a log indexing method for efficient retrieval of a large amount of data.
  • the method disclosed in this patent enables reliable and fast log retrieval through indexing without normalizing the log database.
  • the entire contents of this patent are reflected herein as part of this specification and may be used to explain the invention even if there is no explicit mention herein.
  • the contents of this patent should not be used to limit the scope of the present invention, but should be used only for the purpose of helping the understanding of the present invention.
  • the present invention relates to a message indexing method performed by a computer, comprising: a first step of executing a query tokenizer module for a message; and a second step of indexing the information tokenized in the first step. do.
  • the query when executing the query tokenizer module in the first step preferably includes a syntax for specifying some fields of a message, and the second step is performed only for the designated partial fields.
  • the query when executing the query tokenizer module in the first step preferably includes a syntax defining a field type of a designated field of a message.
  • high speed indexing is enabled, input / output load is reduced, and range and case comparison can be performed quickly even in a search.
  • FIG. 1 is a flow chart of an indexing method according to the present invention.
  • FIG. 2 is a flowchart of a retrieval method of data indexed by the indexing method according to the present invention
  • a computer is defined as encompassing electronic devices that perform electronic operations and are operable by a program.
  • a program may include not only a personal computer (PC) but also a server computer or a mobile device if suitable for data processing by the present invention.
  • the original data to be indexed is inserted (100).
  • the type of the original data may be web log data, firewall log data, financial transaction log data, and the like. If the indexing method according to the present invention is applicable, all kinds of data may be included, and in this specification, a "message" may be included. The term is also used interchangeably.
  • the query tokenizer module is executed 110 on the original data (message).
  • the query tokenizer module is defined as a logical combination of general purpose hardware and software that performs its functions, which, unlike conventional tokenizers, is based on queries.
  • some fields of the original data may be designated and torqued based on the query.
  • Tokens and token meta information are extracted 120 by execution of the tokenizer module.
  • Token meta information may include a field name and a field type (int, string, long, ip).
  • an index is generated by indexing the talked information (130).
  • the indexing method disclosed in the above-described inventors' patent can be applied.
  • the scope of the present invention is not limited to a specific method of indexing data after being tokenized by the execution of the query tokenizer module according to the present invention, and various publicly available indexing methods may be applied.
  • indexing when indexing is performed by designating a field type for a desired field by executing the query tokenizer module, indexing can be performed at a higher speed than the conventional indexing method.
  • the indexing method according to the present invention since only the specific (desired) field of data, for example, port information, file size, file name, etc., is indexed, I / O is indexed as compared to the conventional indexing method of indexing all the unnecessary fields. Is reduced to allow very fast searching.
  • the field type can be specified before indexing by executing the query tokenizer module, indexing can be performed with a smaller capacity than the conventional method of indexing in a string form, thereby reducing the I / O load during the search. This decreases.
  • storing an IP address as a string can be up to 15 bytes, while storing the field type as an ip type reduces it to 4 bytes, reducing the time it takes to read the data.
  • storing the field type as an ip type reduces it to 4 bytes, reducing the time it takes to read the data.
  • FIG. 2 is a flowchart for searching for information indexed by the indexing method according to the present invention.
  • a corresponding search period is checked by referring to a header of a segment, and a field entry is checked by referring to a field entry (200).
  • a posting group (log identification information list including the corresponding token) corresponding to the expression is extracted (210).
  • a Boolean operation is performed on the posting. For example, it is preferably performed when searching multiple search terms.
  • log ID log identification information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 컴퓨터가 수행하는 메시지 인덱싱 방법에 관한 것으로서, 메시지에 대해서 쿼리 토크나이저 모듈을 실행시키는 제1 단계와, 상기 제1 단계에서 토크나이징된 정보에 대해서 인덱싱을 수행하는 제2 단계를 포함한다

Description

메시지의 필드 인덱싱 방법
본 발명은 메시지의 필드 인덱싱 방법에 관한 것으로서 좀 더 구체적으로는 부하가 적고 고속의 검색이 가능하도록 하는 인덱싱 방법에 관한 것이다.
인터넷이 발달하고 인터넷 등을 이용한 온라인 서비스가 확산될수록 온라인상에서 서비스를 제공하는 서버의 동작 과정에서 발생하는 작업 내력 예를 들어 웹 로그, 방화벽 로그, 거래 로그 등의 데이터의 양이 방대해지고 있다. 일반적으로 로그에는 복수 개의 로그 라인이 기록되며, 각 로그라인에는 방문자의 접속 인터넷 프로토콜(IP), 방문 시간 정보, 방문 웹 페이지 정보, 방문 상태 등이 기록될 수 있다.
이러한 로그의 분석을 위해서 특정 단어나 문자열을 검색해야 하는 경우가 많은데 로그 데이터의 관리 내지 검색을 위한 인덱싱 과정의 중요성이 대두되고 있다.
본 출원 발명의 발명자가 특허권자로서 보유하고 있는 특허 제1112568호에는 방대한 데이터의 효율적인 검색을 위한 로그 인덱싱 방법이 개시되어 있다. 이 특허에 개시된 방법에 의하면 로그를 데이터베이스화하는 정규화 과정없이 인덱싱을 통해서 신뢰성 있고 빠른 로그 검색이 가능하게 된다. 이 특허의 내용 전체는 본 명세서의 일부로서 본 명세서에 반영되며 본 명세서에서 명시적인 언급이 없더라도 본 발명의 설명을 위해서 사용될 수 있다. 그러나 이 특허의 내용이 본 발명의 권리범위를 제한하는 것으로 이용되어서는 아니되며, 본 발명의 이해를 돕기 위한 용도로만 이용되어야 한다.
본 발명은 전술한 특허의 로그 인덱싱 방법보다 더 빠르고 부하가 적은 인덱싱 방법을 제공하는 것을 목적으로 한다.
본 발명은 컴퓨터가 수행하는 메시지 인덱싱 방법에 관한 것으로서, 메시지에 대해서 쿼리 토크나이저 모듈을 실행시키는 제1 단계와, 상기 제1 단계에서 토크나이징된 정보에 대해서 인덱싱을 수행하는 제2 단계를 포함한다.
상기 제1 단계에서 상기 쿼리 토크나이저 모듈을 실행할 때의 쿼리는 메시지의 일부 필드를 지정하는 구문을 포함하고, 상기 제2 단계는 상기 지정된 일부 필드에 대해서만 수행되는 단계인 것이 바람직하다.
상기 제1 단계에서 상기 쿼리 토크나이저 모듈을 실행할 때의 쿼리는 메시지의 지정된 필드의 필드 타입을 정의하는 구문도 포함하는 것이 바람직하다.
본 발명에 의하면, 고속 인덱싱이 가능해지며, 입력/출력 부하가 감소하며, 검색에 있어서도 범위 및 대소 비교가 빠르게 수행될 수 있는 효과가 제공된다.
도 1은 본 발명에 의한 인덱싱 방법의 흐름도.
도 2는 본 발명에 의한 인덱싱 방법에 의해 인덱싱된 데이터의 검색 방법의 흐름도.
이하에서는 첨부 도면을 참조하여 본 발명에 대해서 자세하게 설명한다. 본 발명에 의한 인덱싱 방법은 컴퓨터에 의해서 수행되며, 본 명세서에서 컴퓨터라 함은 전자적 연산을 수행하고 프로그램에 의해 작동 가능한 전자 기기를 망라하는 것으로 정의된다. 예를 들어, 개인용 컴퓨터(PC) 뿐만 아니라 서버 컴퓨터 또는 본 발며에 의한 데이터 처리에 적합하다면 모바일 기기 등도 포함될 수 있다.
도 1에는 본 발명에 의한 인덱싱 방법의 흐름도가 도시되어 있다. 먼저 인덱싱할 원본 데이터를 삽입한다(100). 원본 데이터의 종류는 웹 로그 데이터, 방화벽 로그 데이터, 금융거래 로그 데이터 등이 될 수 있으며, 본 발명에 의한 인덱싱 방법이 적용 가능한 데이터라면 그 종류를 불문하고 모두 포함될 수 있으며, 본 명세서에서는 "메시지"라는 용어로도 혼용되어 사용된다.
원본 데이터가 삽입되면 원본 데이터(메시지)에 대해서 쿼리 토크나이저 모듈이 실행된다(110). 쿼리 토크나이저 모듈은 종래의 토크나이저와 달리 쿼리에 기반을 두어 토크나이징을 하는, 범용의 하드웨어와 그 기능을 수행하는 소프트웨어의 논리적 결합으로서 정의된다.
쿼리 토크나이저 모듈의 실행에 의해서 쿼리에 기반하여 원본 데이터 중 일부 필드가 지정되어 토크나이징될 수 있다.
토크나이저 모듈의 실행에 의해서 토큰 및 토큰 메타 정보가 추출된다(120). 토큰 메타 정보로는 필드명, 필드 타입(int, string, long, ip) 등이 있을 수 있다.
다음으로 이렇게 토크나이징된 정보에 대해서 인덱싱하여 인덱스를 생성한다(130). 구체적인 인덱싱 방법으로는 여러가지가 있으며, 예를 들어 전술한 본 발명자의 특허에 개시되어 있는 인덱싱 방법을 적용할 수 있다. 그러나 본 발명에 의한 쿼리 토크나이저 모듈의 실행에 의해서 토크나이징된 후의 데이터에 대해서 인덱싱하는 구체적인 방법에 본 발명의 권리범위가 제한되는 것은 아니며, 공개되어 있는 다양한 인덱싱 방법이 적용될 수 있다.
이와 같이 쿼리 토크나이저 모듈을 실행시켜서 원하는 필드에 대해서 필드 타입을 지정해서 인덱싱을 하게 되면 종래의 인덱싱 방법에 비해서 고속으로 인덱싱을 수행할 수 있는 장점이 있다. 본 발명에 의한 인덱싱 방법에 따르면, 데이터의 특정 (원하는) 필드 예를 들어, 포트 정보, 파일 크기, 파일 이름 등에 대해서만 인덱싱을 하기 때문에 불필요한 필드까지 전체를 인덱싱하는 종래의 인덱싱 방법에 비해서 I/O가 감소하여 매우 빠른 검색이 가능해진다. 또한, 쿼리 토크나이저 모듈의 실행에 의해서 인덱싱 전에 필드의 타입을 지정할 수 있기 때문에 문자열 형태로 인덱싱하는 종래의 방법에 비하여 적은 용량으로 인덱싱을 할 수 있어, 검색시 I/O 부하가 감소하여 소요 시간이 감소한다. 예를 들어 IP 주소를 문자열로 저장하면 최대 15바이트가 되지만, 필드 타입을 ip 타입으로 저장하면 4바이트로 감소하여, 데이터를 읽는데 소요되는 시간이 줄어든다. 또한, 인덱싱 후에 필드 타입에 대한 정보(string, int, ip)가 있기 때문에 해당 타입에 맞는 연산을 수행할 수 있게 된다. 따라서 범위를 검색하거나 대소 비교를 할 때에 매우 유용하며, 또한 기존의 문자열에 대한 OR 조건식 대신 해당 타입에 맞는 연산을 직접 수행하여 고속으로 범위 검색이 가능해진다.
도 2에는 본 발명에 의한 인덱싱 방법에 의해 인덱싱되어 있는 정보를 검색하는 흐름도가 도시되어 있다.
먼저 세그먼트의 헤더를 참조하여 검색 기간의 해당 여부를 확인하고 필드 엔트리를 참조하여, 검색하려는 해당 필드의 존재 여부를 확인한다(200). 다음으로 표현식에 해당하는 포스팅 그룹(해당 토큰이 포함되는 로그 식별정보 목록)을 추출한다(210). 그리고 포스팅에 대해서 불린(Boolean) 연산을 수행한다(220). 예를 들어 다수 검색어를 검색할 때에 수행되는 것이 바람직하다.
최종적으로 검색된 로그 식별정보(로그 ID) 목록에 기초하여 원본 로그를 추출한다(230).
이상 첨부 도면을 참고하여 본 발명에 대해서 설명하였지만 본 발명의 권리범위는 후술하는 특허청구범위에 의해 결정되며 전술한 실시예 및/또는 도면에 제한되는 것으로 해석되어서는 아니된다. 그리고 특허청구범위에 기재된 발명의, 당업자에게 자명한 개량, 변경 및 수정도 본 발명의 권리범위에 포함된다는 점이 명백하게 이해되어야 한다.

Claims (3)

  1. 컴퓨터가 수행하는 메시지 인덱싱 방법에 있어서,
    메시지에 대해서 쿼리 토크나이저 모듈을 실행시키는 제1 단계와,
    상기 제1 단계에서 토크나이징된 정보에 대해서 인덱싱을 수행하는 제2 단계를 포함하는,
    메시지 인덱싱 방법.
  2. 청구항 1에 있어서,
    상기 제1 단계에서 상기 쿼리 토크나이저 모듈을 실행할 때의 쿼리는 메시지의 일부 필드를 지정하는 구문을 포함하고,
    상기 제2 단계는 상기 지정된 일부 필드에 대해서만 수행되는 단계인,
    메시지 인덱싱 방법.
  3. 청구항 1 또는 청구항 2에 있어서,
    상기 제1 단계에서 상기 쿼리 토크나이저 모듈을 실행할 때의 쿼리는 메시지의 지정된 필드의 필드 타입을 정의하는 구문을 포함하는,
    메시지 인덱싱 방법.
PCT/KR2016/006781 2015-08-12 2016-06-24 메시지의 필드 인덱싱 방법 WO2017026647A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2015-0113619 2015-08-12
KR1020150113619A KR101770271B1 (ko) 2015-08-12 2015-08-12 메시지의 필드 인덱싱 방법

Publications (1)

Publication Number Publication Date
WO2017026647A1 true WO2017026647A1 (ko) 2017-02-16

Family

ID=57984373

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/006781 WO2017026647A1 (ko) 2015-08-12 2016-06-24 메시지의 필드 인덱싱 방법

Country Status (2)

Country Link
KR (1) KR101770271B1 (ko)
WO (1) WO2017026647A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003009170A1 (en) * 2001-07-18 2003-01-30 Tralee Investments Ltd Content transfer
US20030200199A1 (en) * 2002-04-19 2003-10-23 Dow Jones Reuters Business Interactive, Llc Apparatus and method for generating data useful in indexing and searching
US20140108434A1 (en) * 2012-10-12 2014-04-17 A9.Com, Inc. Index configuration for searchable data in network
US20140136513A1 (en) * 2012-11-15 2014-05-15 Ecole polytechnique fédérale de Lausanne (EPFL) Query management system and engine allowing for efficient query execution on raw details
US20150026183A1 (en) * 2013-07-16 2015-01-22 Semantic Technologies Pty Ltd. Ontology index for content mapping

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003009170A1 (en) * 2001-07-18 2003-01-30 Tralee Investments Ltd Content transfer
US20030200199A1 (en) * 2002-04-19 2003-10-23 Dow Jones Reuters Business Interactive, Llc Apparatus and method for generating data useful in indexing and searching
US20140108434A1 (en) * 2012-10-12 2014-04-17 A9.Com, Inc. Index configuration for searchable data in network
US20140136513A1 (en) * 2012-11-15 2014-05-15 Ecole polytechnique fédérale de Lausanne (EPFL) Query management system and engine allowing for efficient query execution on raw details
US20150026183A1 (en) * 2013-07-16 2015-01-22 Semantic Technologies Pty Ltd. Ontology index for content mapping

Also Published As

Publication number Publication date
KR20170019603A (ko) 2017-02-22
KR101770271B1 (ko) 2017-08-22

Similar Documents

Publication Publication Date Title
CN102870116B (zh) 内容匹配方法和装置
CN107239701B (zh) 识别恶意网站的方法及装置
CN109413016B (zh) 一种基于规则的报文检测方法和装置
EA038063B1 (ru) Система интеллектуального управления киберугрозами
US20200314135A1 (en) Method for determining duplication of security vulnerability and analysis apparatus using same
CN102915344B (zh) 一种sql语句处理方法及装置
CN104320312A (zh) 网络应用安全测试工具及模糊测试用例生成方法和系统
US9026612B2 (en) Generating a custom parameter rule based on a comparison of a run-time value to a request URL
US20170053023A1 (en) System to organize search and display unstructured data
CN114900546B (zh) 一种数据处理方法、装置、设备及可读存储介质
US10785236B2 (en) Generation of malware traffic signatures using natural language processing by a neural network
CN111368227A (zh) 一种url处理方法以及装置
WO2019136987A1 (zh) 网络爬虫识别方法、装置、计算机设备和存储介质
CN108959294B (zh) 一种访问搜索引擎的方法和装置
CN112883088B (zh) 一种数据处理方法、装置、设备及存储介质
CN111177518A (zh) 网页净化方法、系统及计算机可读存储介质
CN114363002B (zh) 一种网络攻击关系图的生成方法及装置
WO2017026647A1 (ko) 메시지의 필드 인덱싱 방법
CN111198900B (zh) 工业控制网络的数据缓存方法、装置、终端设备及介质
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
KR101921123B1 (ko) 메시지의 필드 인덱싱 방법
CN113342647A (zh) 一种测试数据的生成方法及装置
CN112667682A (zh) 数据处理方法、装置、计算机设备和存储介质
CN113051329B (zh) 基于接口的数据采集方法、装置、设备及存储介质
CN116647412B (zh) 一种Web服务器的安全防御方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16835289

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16835289

Country of ref document: EP

Kind code of ref document: A1