KR102364036B1 - Apparatus and method for processing log data - Google Patents

Apparatus and method for processing log data Download PDF

Info

Publication number
KR102364036B1
KR102364036B1 KR1020200010412A KR20200010412A KR102364036B1 KR 102364036 B1 KR102364036 B1 KR 102364036B1 KR 1020200010412 A KR1020200010412 A KR 1020200010412A KR 20200010412 A KR20200010412 A KR 20200010412A KR 102364036 B1 KR102364036 B1 KR 102364036B1
Authority
KR
South Korea
Prior art keywords
log data
log
duplicate
check
unit
Prior art date
Application number
KR1020200010412A
Other languages
Korean (ko)
Other versions
KR20200015652A (en
Inventor
문성진
김장현
민형기
Original Assignee
넷마블 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180031158A external-priority patent/KR102073798B1/en
Application filed by 넷마블 주식회사 filed Critical 넷마블 주식회사
Priority to KR1020200010412A priority Critical patent/KR102364036B1/en
Publication of KR20200015652A publication Critical patent/KR20200015652A/en
Application granted granted Critical
Publication of KR102364036B1 publication Critical patent/KR102364036B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

로그 데이터 처리 방법이 개시된다. 로그 데이터 처리 방법은 저장된 로그 데이터에서 제1 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 상기 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행하는 단계; 및 상기 제1 로그 데이터 검사의 결과에 기초하여, 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제2 로그 데이터 검사를 수행하는 단계를 포함할 수 있다.A log data processing method is disclosed. The log data processing method includes: checking whether duplicate log data exists in stored log data in units of a first amount, and performing a first log data check for removing the duplicate log data; and performing a second log data check of checking whether duplicate log data exists in a second quantity unit and removing the duplicated log data based on the result of the first log data check there is.

Description

로그 데이터 처리 장치 및 방법{APPARATUS AND METHOD FOR PROCESSING LOG DATA}Log data processing apparatus and method {APPARATUS AND METHOD FOR PROCESSING LOG DATA}

아래의 설명은 로그 데이터 처리 장치 및 방법에 관한 것이다.The description below relates to an apparatus and method for processing log data.

데이터 중복 제거(Dedup)은 서로 다른 데이터들 간의 중복되는 부분을 검출해내고, 중복된 부분을 제거함으로써 스토리지(storage) 활용의 효율성을 높이는 것을 의미한다.Data deduplication (Dedup) refers to increasing the efficiency of storage utilization by detecting overlapping portions between different data and removing the overlapping portions.

데이터 중복 제거는 데이터에 포함되는 일 요소를 일 요소를 제외한 모든 데이터 요소들과 비교함으로써, 중복되는 데이터를 검출하고, 검출된 중복 데이터를 제거함으로써 수행될 수 있다. 데이터의 크기가 증가되는 경우, 이러한 방식은 중복 데이터를 검출하는 데에 어려움이 따를 수 있다. Data deduplication may be performed by comparing an element included in data with all data elements except for one element, detecting duplicate data, and removing the detected duplicate data. When the size of data increases, this method may have difficulty in detecting duplicate data.

한국공개특허공보 제10-2014-0141348호 (공개일: 2014.12.10.)
한국공개특허공보 제10-2015-0035876호 (공개일: 2015.04.07.)
Korean Patent Application Laid-Open No. 10-2014-0141348 (Published date: 2014.12.10.)
Korean Patent Application Laid-Open No. 10-2015-0035876 (published on: 2015.04.07.)

일 실시예에 따른 로그 데이터 처리 방법은 저장된 로그 데이터에서 제1 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 상기 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행하는 단계; 및 상기 제1 로그 데이터 검사의 결과에 기초하여, 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제2 로그 데이터 검사를 수행하는 단계를 포함할 수 있다.A log data processing method according to an embodiment includes: checking whether duplicate log data exists in stored log data in units of a first amount, and performing a first log data check for removing the duplicate log data; and performing a second log data check of checking whether duplicate log data exists in a second quantity unit and removing the duplicated log data based on the result of the first log data check there is.

일 실시예에 따르면, 상기 제2 분량 단위는 제1 분량 단위보다 더 큰 분량 단위일 수 있다.According to an embodiment, the second quantity unit may be a larger quantity unit than the first quantity unit.

일 실시예에 따른 로그 데이터 처리 방법에서 상기 제1 로그 데이터 검사를 수행하는 단계는 상기 로그 데이터에 대응되는 로그키(logkey)에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다.In the log data processing method according to an embodiment, the performing the first log data check may include checking whether duplicate log data exists based on a log key corresponding to the log data.

일 실시예에 따른 로그 데이터 처리 방법에서 상기 제1 로그 데이터 검사를 수행하는 단계는 서로 다른 서버를 통해 상기 저장된 로그 데이터를 상기 제1 분량 단위로 분산하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다.In the log data processing method according to an embodiment, performing the first log data check may include distributing the stored log data in the first amount unit through different servers to check whether duplicate log data exists. can

일 실시예에 따른 로그 데이터 처리 방법에서 상기 제1 로그 데이터 검사를 수행하는 단계는 서버에 저장된 로그키와 상기 로그 데이터에 대응되는 로그키를 비교하는 단계; 및 상기 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부에 대한 검사를 수행하는 단계를 포함할 수 있다.In the log data processing method according to an embodiment, the performing the first log data check includes: comparing a log key stored in a server with a log key corresponding to the log data; and performing a check on whether duplicate log data exists based on the comparison result.

일 실시예에 따른 로그 데이터 처리 방법에서 상기 제1 로그 데이터 검사를 수행하는 단계는 상기 서로 다른 서버들 각각에 저장된 로그키들과 상기 서로 다른 서버들 각각에 분산된 상기 제1 분량 단위의 로그 데이터 각각에 대응되는 로그키들을 비교하는 단계; 및 상기 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부에 대한 검사를 수행하는 단계를 포함할 수 있다.In the log data processing method according to an embodiment, the performing the first log data check includes log keys stored in each of the different servers and the log data of the first amount distributed to each of the different servers, respectively. comparing log keys corresponding to ; and performing a check on whether duplicate log data exists based on the comparison result.

일 실시예에 따른 로그 데이터 처리 방법에서 상기 제2 로그 데이터 검사를 수행하는 단계는 상기 제1 로그 데이터 검사에서 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터에 대응되는 로그키를 중복 판단 기준값과 상기 제2 분량 단위로 비교하는 단계; 상기 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다.In the log data processing method according to an embodiment, the performing of the second log data check includes comparing a log key corresponding to the log data determined to have no duplicate log data in the first log data check with the duplicate determination reference value and the second log data. comparing in two dose units; It may be checked whether duplicate log data exists based on the comparison result.

일 실시예에 따른 로그 데이터 처리 방법은 저장된 로그 데이터에 대응되는 중복된 로그 데이터가 제거된 결과 정보를 저장하는 저장 폴더가 존재하는지 여부를 확인하는 단계; 상기 저장 폴더가 존재하지 않는 경우, 제1 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 상기 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행하는 단계; 상기 제1 로그 데이터 검사의 결과에 기초하여, 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제2 로그 데이터 검사를 수행하는 단계;A method of processing log data according to an embodiment includes: checking whether a storage folder storing result information from which duplicate log data corresponding to the stored log data is removed exists; when the storage folder does not exist, checking whether duplicate log data exists in units of a first amount and performing a first log data check of removing the duplicate log data; performing a second log data check of checking whether duplicate log data exists in units of a second amount based on a result of the first log data check and removing the duplicate log data;

상기 제2 로그 데이터 검사의 결과에 기초하여 생성된 결과 정보를 저장하는 단계를 포함할 수 있다.The method may include storing result information generated based on a result of the second log data check.

일 실시예에 따른 로그 데이터 처리 방법은 상기 저장 폴더가 존재하는지 여부를 확인하는 단계에서 상기 저장 폴더가 존재하는 것으로 확인된 경우, 상기 저장 폴더에 상기 결과 정보가 정상적으로 저장되어 있는지 여부를 확인하는 단계를 더 포함하고, 상기 결과 정보가 정상적으로 저장되어 있지 않은 경우 상기 결과 정보를 삭제할 수 있다.In the log data processing method according to an embodiment, when it is confirmed that the storage folder exists in the step of checking whether the storage folder exists, checking whether the result information is normally stored in the storage folder It further includes, and when the result information is not normally stored, it is possible to delete the result information.

일 실시예에 따른 로그 데이터 처리 방법은 상기 결과 정보가 정상적으로 저장되어 있는 경우, 상기 저장 폴더로부터 상기 결과 정보를 획득하는 단계; 상기 결과 정보에 포함된 로그 데이터에 대한 로그키를 획득하는 단계; 및 상기 로그키를 상기 제2 로그 데이터 검사에 사용되는 중복 판단 기준값으로 저장하는 단계를 더 포함할 수 있다.The log data processing method according to an embodiment includes: when the result information is normally stored, obtaining the result information from the storage folder; obtaining a log key for log data included in the result information; and storing the log key as a duplicate determination reference value used for checking the second log data.

일 실시예에 따른 로그 데이터 처리 장치는 사용자 단말로부터 수신한 로그 데이터를 저장하는 저장부; 상기 저장된 로그 데이터에서 제1 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 상기 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행하는 제1 로그 데이터 검사부; 상기 제1 로그 데이터 검사의 결과에 기초하여, 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제2 로그 데이터 검사를 수행하는 제2 로그 데이터 검사부; 및 상기 제2 로그 데이터 검사 결과에 기초하여 중복된 로그 데이터가 제거된 로그 데이터를 포함하는 결과 정보를 생성하는 결과 정보 생성부를 포함할 수 있다.A log data processing apparatus according to an embodiment includes a storage unit for storing log data received from a user terminal; a first log data checker that checks whether duplicate log data exists in the stored log data in units of a first amount, and performs a first log data check that removes the duplicated log data; a second log data checker that checks whether duplicate log data exists in units of a second amount based on a result of the first log data check, and performs a second log data check that removes the duplicated log data; and a result information generator configured to generate result information including log data from which duplicate log data has been removed, based on the result of the second log data check.

도 1은 일 실시예에 따른 로그 데이터 처리 시스템의 전체 구성을 도시하는 도면이다.
도 2는 일 실시예에 따른, 로그 데이터 처리 장치가 로그 데이터를 처리하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 로그 데이터 처리 장치가 로그 데이터 처리하는 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 로그 데이터 처리 장치의 전체적인 구성을 도시하는 도면이다.
1 is a diagram illustrating an overall configuration of a log data processing system according to an embodiment.
2 is a flowchart illustrating a method of processing log data by an apparatus for processing log data, according to an exemplary embodiment.
3 is a flowchart illustrating a method of processing log data by an apparatus for processing log data according to an exemplary embodiment.
4 is a diagram illustrating an overall configuration of an apparatus for processing log data according to an embodiment.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. However, since various changes may be made to the embodiments, the scope of the patent application is not limited or limited by these embodiments. It should be understood that all modifications, equivalents and substitutes for the embodiments are included in the scope of the rights.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the examples are used for the purpose of description only, and should not be construed as limiting. The singular expression includes the plural expression unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate that a feature, number, step, operation, component, part, or a combination thereof described in the specification exists, but one or more other features It should be understood that this does not preclude the existence or addition of numbers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the embodiment belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present application. does not

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In addition, in the description with reference to the accompanying drawings, the same components are given the same reference numerals regardless of the reference numerals, and the overlapping description thereof will be omitted. In describing the embodiment, if it is determined that a detailed description of a related known technology may unnecessarily obscure the gist of the embodiment, the detailed description thereof will be omitted.

로그 데이터는 게임 서비스 시스템과 게임 서비스 시스템의 사용자 사이의 통신에 대한 데이터, 사용자가 발생시킨 트랜젝션의 종류, 내용, 시간 등의 내용을 포함하는 데이터일 수 있다. 사용자가 게임 플레이를 진행함에 따라 발생되는 로그 데이터가 전달됨에 있어, 정상적인 입력을 진행하였지만, 게임 서비스 시스템이 정상적인 입력으로 인식하지 못하고, 재시도 요청을 진행하는 경우가 발생할 수 있다. 이 경우, 동일한 로그 데이터가 재입력됨에 따라서 동일한 로그 데이터가 중복되는 상황이 발생할 수 있다. 중복되는 로그 데이터는 비효율을 야기할 수 있는 바, 중복되는 로그 데이터의 제거가 요구된다.The log data may be data on communication between the game service system and a user of the game service system, and data including the type, content, time, and the like of a transaction generated by the user. When the log data generated as the user proceeds to play the game is transmitted, a normal input may be performed, but the game service system may not recognize the input as a normal input and proceed with a retry request. In this case, as the same log data is re-entered, a situation in which the same log data is duplicated may occur. Duplicate log data may cause inefficiency, so it is required to remove duplicate log data.

중복되는 로그 데이터를 제거하기 위해서는 모든 로그 데이터의 상호 간의 비교 과정이 요구되지만, 게임 서비스와 같이 방대한 양의 로그 데이터가 생성되는 경우, 로그 데이터에 존재하는 중복되는 로그 데이터를 제거하는 과정은 매우 난이도가 높을 수 있다.In order to remove duplicate log data, a process of comparing all log data is required, but when a large amount of log data is generated like a game service, the process of removing duplicate log data existing in log data is very difficult. can be high

중복되는 로그 데이터를 제거하기 위한 로그 데이터 처리 시스템은 1차적으로, 로그 데이터를 제1 분량 단위로 분할하여 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행하고, 제1 로그 데이터 검사 결과에 따라 2차적으로 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거함으로써, 로그 데이터의 크기가 증가되었을 때에 보다 효율적으로 중복되는 로그 데이터를 제거할 수 있는 방법을 제공할 수 있다. The log data processing system for removing duplicate log data primarily divides the log data into a first quantity unit, checks whether duplicate log data exists, and first log data to remove the duplicate log data. By performing a check, checking whether duplicate log data exists in a second quantity unit secondarily according to the result of the first log data check, and removing the duplicate log data, compared to when the size of log data is increased A method for efficiently removing redundant log data can be provided.

로그 데이터 처리 시스템은 로그 데이터를 여러 개로 분할하여 중복된 로그 데이터를 제거하는 1차 로그 데이터 처리 및 1차 로그 데이터 처리가 수행된 로그 데이터에 대해 다시 중복된 로그 데이터를 제거하는 2차 로그 데이터 처리가 수행됨으로써, 중복된 로그 데이터를 제거함에 있어 요구되는 저장소의 부하를 줄일 수 있고, 분할되어 진행되는 처리 과정을 통해 일부 처리 과정에 예외가 발생하여 중단되는 상황이 발생하더라도, 처음부터 다시 처리 과정을 수행할 필요 없이 해당 처리 과정을 다시 수행할 수 있는 효과를 제공할 수 있다. The log data processing system divides log data into multiple pieces to remove duplicate log data, and primary log data processing and secondary log data processing to remove duplicate log data for the log data on which primary log data processing has been performed. is performed, it is possible to reduce the load on the storage required to remove duplicate log data, and even if an exception occurs in some processing processes and is interrupted through the divided processing process, the processing process starts again from the beginning. It is possible to provide the effect of performing the processing process again without the need to perform

도 1은 일 실시예에 따른 로그 데이터 처리 시스템의 전체 구성을 도시하는 도면이다.1 is a diagram illustrating an overall configuration of a log data processing system according to an embodiment.

도 1을 참조하면, 로그 데이터 처리 장치(120)는 사용자 단말(110)으로부터 로그 데이터를 수신하고, 수신한 로그 데이터를 저장부(150)에 저장할 수 있다. 로그 데이터 처리 장치(120)는 저장된 로그 데이터를 미리 설정된 분량 단위(예: 10분 단위)에 따라 분할하여 서로 다른 서버(121,123,125)로 분산하여 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터가 존재하는 것으로 확인된 경우, 중복되는 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행할 수 있다.Referring to FIG. 1 , the log data processing apparatus 120 may receive log data from the user terminal 110 and store the received log data in the storage unit 150 . The log data processing device 120 divides the stored log data according to a preset amount unit (eg, 10 minute units) and distributes them to different servers 121 , 123 , and 125 to check whether duplicate log data exists, and When it is confirmed that log data exists, a first log data check for removing duplicate log data may be performed.

로그 데이터 처리 장치(120)는 제1 로그 데이터 검사에서 중복된 로그 데이터를 포함하지 않은 것으로 확인된 로그 데이터에 대하여 외부 저장소(130)에 기반한 제2 로그 데이터 검사를 수행할 수 있다. 로그 데이터 처리 장치(120)는 제2 로그 데이터 검사에서 미리 설정된 분량 단위(예: 하루 단위)의 로그 데이터에 중복되는 로그 데이터가 존재하는지 여부를 확인하고, 중복된 로그 데이터를 제거할 수 있다.The log data processing apparatus 120 may perform a second log data check based on the external storage 130 on log data that is confirmed not to include duplicate log data in the first log data check. The log data processing apparatus 120 may check whether duplicate log data exists in log data of a preset amount unit (eg, a unit of a day) in the second log data inspection, and may remove the duplicate log data.

로그 데이터 처리 장치(120)는 외부 저장소(130)에 기초하여 수행된 제2 로그 데이터 검사의 결과에 기초하여, 중복된 로그 데이터가 존재하지 않는 것으로 결정된 로그 데이터를 로그 데이터를 영구적으로 저장하는 저장소(150)에 저장할 수 있다. 예를 들어, 저장소(150)는 하둡 분산 파일 시스템(Hadoop distributed file System(HDFS))일 수 있다. 저장소(150)에 로그 데이터의 저장이 성공한 경우, 저장된 로그 데이터에 대응되는 로그키를 외부 저장소(130)에 저장할 수 있고, 외부 저장소에 저장된 로그키는 제2 로그 데이터 검사에 중복 판단 기준값으로 사용될 수 있다.The log data processing device 120 permanently stores log data in which it is determined that there is no duplicate log data based on the result of the second log data check performed based on the external storage 130 . (150) can be stored. For example, the storage 150 may be a Hadoop distributed file system (HDFS). When the storage of the log data in the storage 150 is successful, a log key corresponding to the stored log data may be stored in the external storage 130, and the log key stored in the external storage will be used as a duplicate determination reference value in the second log data inspection. can

제1 로그 데이터 검사는 제2 로그 데이터 검사에 비해 수행되는 속도가 빠르고, 처리 비용이 저렴한 장점이 있을 수 있다.Compared to the second log data inspection, the first log data inspection may be performed faster and the processing cost may be low.

도 2는 일 실시예에 따른, 로그 데이터 처리 장치가 로그 데이터를 처리하는 방법을 설명하기 위한 흐름도이다.2 is a flowchart illustrating a method of processing log data by an apparatus for processing log data, according to an exemplary embodiment.

일 실시예에 따르면, 단계(220)에서 로그 데이터 처리 장치는 저장된 로그 데이터에서 제1 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행할 수 있다. 예를 들어, 로그 데이터 처리 장치는 저장된 로그 데이터를 10분 단위로 분할하여, 분할된 각각의 로그 데이터에 중복된 로그 데이터가 존재하는지 여부를 확인할 수 있다.According to an embodiment, in step 220, the log data processing apparatus checks whether duplicate log data exists in the stored log data in a first amount unit, and performs a first log data check for removing the duplicated log data. can be done For example, the log data processing apparatus may divide the stored log data in units of 10 minutes to determine whether duplicate log data exists in each of the divided log data.

일 실시예에 따르면, 로그 데이터 처리 장치는 로그 데이터에 대응되는 로그키(logkey)에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다. 예를 들어, 로그키는 로그 데이터의 내용을 해쉬한 것일 수 있다. 예를 들어, 로그키는 로그 데이터의 내용을 murmurhash3을 통해 생성하는 것으로 32개의 숫자일 수 있다.According to an embodiment, the log data processing apparatus may check whether duplicate log data exists based on a log key corresponding to the log data. For example, the log key may be a hash of log data. For example, the log key is generated by murmurhash3 of log data and may be 32 numbers.

일 실시예에 따르면, 로그 데이터 처리 장치는 서로 다른 서버를 통해 저장된 로그 데이터를 제1 분량 단위로 분산하여 중복된 로그 데이터가 존재하는지 여부에 대한 검사를 통해 제1 로그 데이터 검사를 수행할 수 있다. 예를 들어, 로그 데이터 처리 장치는 10분 단위로 분할된 3개의 로그 데이터를 서로 다른 세 개의 서버를 통해 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있고, 해당 과정은 동시에 수행될 수 있다.According to an embodiment, the log data processing apparatus may perform a first log data check by distributing log data stored through different servers in a first amount unit and checking whether duplicate log data exists. . For example, the log data processing apparatus may check whether duplicate log data exists through three different servers for three log data divided in units of 10 minutes, and the corresponding process may be performed simultaneously.

일 실시예에 따르면, 로그 데이터 처리 장치는 서버에 저장된 로그키와 저장된 로그 데이터에 대응되는 로그키를 비교하고, 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부에 대한 검사를 수행할 수 있다.According to an embodiment, the log data processing apparatus may compare a log key stored in the server with a log key corresponding to the stored log data, and check whether duplicate log data exists based on the comparison result. .

다른 실시예에 따르면, 로그 데이터 처리 장치는 서로 다른 서버들 각각에 저장된 로그키들과 서로 다른 서버들 각각에 분산된 제1 분량 단위의 로그 데이터 각각에 대응되는 로그키들을 비교하고, 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부에 대한 검사를 수행할 수 있다. 예를 들어, 로그 데이터 처리 장치는 spark의 reduceByKey를 이용하여 각각의 서버들 사이의 중복되는 로그키를 제거할 수 있다. 데이터 처리를 위한 프레임 워크는 제시된 예시에 한정되지 않는다.According to another embodiment, the log data processing apparatus compares log keys stored in each of the different servers with log keys corresponding to each of the log data of the first amount distributed to each of the different servers, and based on the comparison result Thus, it is possible to check whether duplicate log data exists. For example, the log data processing device can remove the duplicate log key between each server by using spark's reduceByKey. The framework for data processing is not limited to the examples presented.

일 실시예에 따르면, 로그 데이터 처리 장치는 제1 로그 데이터 검사를 수행함에 따라 저장된 로그 데이터에 중복된 로그 데이터가 존재하는 것으로 결정된 경우, 중복된 로그 데이터를 카운팅할 수 있다. 예를 들어, 로그 데이터 처리 장치는 중복된 로그 데이터의 개수를 카운팅할 수 있고, 카운팅된 중복된 로그의 개수에 대한 정보는 중복 유형에 대한 정보(예를 들어, 제1 로그 데이터 검사를 통해 검출된 중복된 로그 또는 제2 로그 데이터 검사를 통해 검출된 중복된 로그)와 함께 저장소에 저장될 수 있다.According to an exemplary embodiment, when it is determined that duplicate log data exists in the stored log data as a result of performing the first log data check, the log data processing apparatus may count the duplicate log data. For example, the log data processing apparatus may count the number of duplicated log data, and information on the counted number of duplicated logs is information on the type of duplicate (eg, detected through a first log data check) The duplicated log or the duplicated log detected through the second log data inspection) may be stored in the storage.

일 실시예에 따르면, 로그 데이터 처리 장치는 단계(230)에서 제1 로그 데이터 검사의 결과에 기초하여 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제2 로그 데이터 검사를 수행할 수 있다.According to an embodiment, the log data processing apparatus checks whether duplicate log data exists in a second amount unit based on the result of the first log data check in step 230, and removes the duplicate log data. A second log data check may be performed.

일 실시예에 다르면 제2 분량 단위는 제1 분량 단위보다 더 큰 분량 단위일 수 있다. 예를 들어, 제1 분량 단위는 10분 단위로 결정될 수 있고, 제2 분량 단위는 1일 단위로 결정될 수 있다. 로그 데이터 처리 장치는 10분 단위로 중복된 로그 데이터가 존재하는지 여부가 검사된 복수의 로그 데이터들에 대하여 1일 단위로 반복적으로 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다.According to an embodiment, the second quantity unit may be a larger quantity unit than the first quantity unit. For example, the first dosage unit may be determined in units of ten minutes, and the second dosage unit may be determined in units of one day. The log data processing apparatus may check whether duplicate log data exists repeatedly on a daily basis with respect to a plurality of log data for which it is checked whether duplicate log data exists in units of 10 minutes.

일 실시예에 따르면, 로그 데이터 처리 장치는 제1 로그 데이터 검사에서 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터에 대응되는 로그키를 중복 판단 기준값과 제2 분량 단위로 비교하고, 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 결정할 수 있다. 예를 들어, 로그 데이터 처리 장치는 제1 로그 데이터 검사를 통해 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터에 대응하는 로그키를 이미 중복된 로그 데이터 존재 여부에 대한 검사가 완료되어 중복 판단 기준값으로 저장된 로그키의 1일 단위의 분량과 중복되는지 여부를 검사할 수 있다.According to an embodiment, the log data processing apparatus compares the log key corresponding to the log data determined that there is no duplicate log data in the first log data inspection with the duplicate determination reference value by the second quantity unit, and based on the comparison result It is possible to determine whether duplicate log data exists. For example, the log data processing device stores the log key corresponding to the log data determined to have no duplicate log data through the first log data check as the duplicate determination reference value after checking for the existence of the duplicate log data is already completed. It can be checked whether it overlaps with the daily amount of log key.

일 실시예에 따르면, 로그 데이터 처리 장치는 중복된 로그 데이터가 존재하는 것으로 결정된 경우 중복된 로그 데이터를 카운팅할 수 있다. 예를 들어, 로그 데이터 처리 장치는 중복된 로그 데이터의 개수를 카운팅할 수 있고, 카운팅된 중복된 로그의 개수에 대한 정보는 중복 유형에 대한 정보(예를 들어, 제1 로그 데이터 검사를 통해 검출된 중복된 로그 또는 제2 로그 데이터 검사를 통해 검출된 중복된 로그)와 함께 저장소에 저장될 수 있다.According to an embodiment, the log data processing apparatus may count the duplicate log data when it is determined that the duplicate log data exists. For example, the log data processing apparatus may count the number of duplicated log data, and information on the counted number of duplicated logs is information on the type of duplicate (eg, detected through a first log data check) The duplicated log or the duplicated log detected through the second log data inspection) may be stored in the storage.

도 3은 일 실시예에 따른 로그 데이터 처리 장치가 로그 데이터 처리하는 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating a method of processing log data by an apparatus for processing log data according to an exemplary embodiment.

일 실시예에 따르면, 로그 데이터 처리 장치는 단계(310)에서 저장된 로그 데이터에 대응되는 중복된 로그 데이터가 제거된 결과 정보를 저장하는 저장 폴더가 존재하는지 여부를 확인할 수 있다. 로그 데이터 처리 장치는 단계(310)을 통해 저장된 로그 데이터에 대하여 사전에 중복된 로그 데이터를 제거하는 로그 데이터 처리 과정에 수행되었는지 여부를 확인할 수 있다.According to an embodiment, the log data processing apparatus may check whether a storage folder storing result information from which duplicate log data corresponding to the log data stored in step 310 is removed exists. The log data processing apparatus may check whether the log data processing process of removing duplicated log data from the stored log data in step 310 has been performed.

일 실시예에 따르면, 로그 데이터 처리 장치는 단계(310)에서 저장 폴더가 존재하지 않는 것으로 확인된 경우, 단계(320)에서 제1 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행할 수 있다.According to an exemplary embodiment, when it is determined that the storage folder does not exist in step 310 , the log data processing apparatus checks whether duplicate log data exists in the first amount unit in step 320 , and A first log data check for removing the old log data may be performed.

일 실시예에 따르면, 로그 데이터 처리 장치는 저장된 로그 데이터에 대응되는 로그키에 기초하여 서로 다른 서버를 통해 저장된 로그 데이터를 제1 분량 단위로 분산하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다. 로그 데이터 처리 장치는 제1 로그 데이터 검사를 수행하는 과정에서 중복된 로그 데이터를 확인한 경우, 중복된 로그 데이터를 제거할 수 있다.According to an embodiment, the log data processing device may check whether duplicate log data exists by distributing the log data stored through different servers in a first amount unit based on a log key corresponding to the stored log data. there is. The log data processing apparatus may remove the duplicate log data when the duplicate log data is checked in the process of performing the first log data check.

일 실시예에 따르면, 로그 데이터 처리 장치는 단계(330)에서 제1 로그 데이터 검사의 결과에 기초하여 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제2 로그 데이터 검사를 수행할 수 있다. 로그 데이터 처리 장치는 제1 로그 데이터 검사에서 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터에 대응되는 로그키를 제2 분량 단위의 중복 판단 기준값과 비교하고, 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다. 예를 들어, 로그 데이터 처리 장치는 10분 단위 분량의 제1 로그 데이터 검사를 통해 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터를 1일 단위 분량의 중복 판단 기준값과 비교하고, 비교 결과에 기초하여 중복되는 로그 데이터가 존재하는지 여부를 결정할 수 있다. 중복 판단 기준값은 이전에 수행된 로그 데이터처리를 통해 중복된 로그 데이터가 없다고 검사된 로그 데이터에 대응하여 외부 저장소에 저장된 로그키일 수 있다.According to an embodiment, the log data processing apparatus checks whether duplicate log data exists in a second amount unit based on the result of the first log data check in step 330, and removes the duplicate log data. A second log data check may be performed. The log data processing apparatus compares the log key corresponding to the log data determined to have no duplicate log data in the first log data inspection with the duplicate determination reference value of the second quantity unit, and based on the comparison result, the duplicate log data exists You can check whether For example, the log data processing apparatus compares the log data determined to have no duplicate log data through the first log data inspection of the 10-minute unit amount with the daily unit amount of duplicate determination reference value, and based on the comparison result, the log data is duplicated. It is possible to determine whether or not log data to be used exists. The duplicate determination reference value may be a log key stored in an external storage corresponding to log data checked that there is no duplicate log data through previously performed log data processing.

일 실시예에 따르면, 제2 분량 단위는 제1 분량 단위보다 더 큰 분량 단위일 수 있다. 로그 데이터 처리 장치는 제1 분량 단위로 각각의 로그 데이터에 중복된 로그 데이터가 존재하는지 여부에 대한 제1 로그 데이터 검사를 수행하고, 검사 결과 중복된 로그 데이터가 확인되지 않은 로그 데이터들에 대하여 이차적으로 제1 분량 단위보다 더 큰 분량 단위인 제2 분량 단위로 중복된 로그데이터가 존재하는지 여부에 대한 제2 로그 데이터 검사를 수행할 수 있다. 로그 데이터 처리 장치는 방대한 양의 로그 데이터를 소단위로 분할하여 중복된 로그 데이터가 존재하는지 여부를 검사하고, 검사 결과에 따라 2차적인 검사를 수행함으로써 제2 로그 데이터 검사를 위한 중복 판단 기준값을 저장하는 저장소의 부하를 줄일 수 있고, 보다 효율적으로 중복된 로그 데이터를 제거할 수 있으며, 로그 데이터 처리 과정에서 일부 예외 상황이 발생하더라도 처음부터 다시 로그 데이터 처리를 수행할 필요 없이, 예외 상황이 발생한 지점부터 이어서 로그 데이터를 처리할 수 있도록 한다.According to an embodiment, the second quantity unit may be a larger quantity unit than the first quantity unit. The log data processing apparatus performs a first log data check on whether or not duplicate log data exists in each log data in a unit of a first amount, and performs secondary log data for which duplicate log data is not checked as a result of the check As a result, the second log data check may be performed as to whether duplicate log data exists in the second quantity unit, which is a larger quantity unit than the first quantity unit. The log data processing device divides a large amount of log data into sub-units, checks whether duplicate log data exists, and performs a secondary inspection according to the inspection result to store the duplicate determination reference value for the second log data inspection It is possible to reduce the load on storage, remove duplicate log data more efficiently, and even if some exceptions occur in the process of processing log data, there is no need to process log data again from the beginning. From there, log data can be processed continuously.

일 실시예에 따르면, 로그 데이터 처리 장치는 단계(340)에서 제2 로그 데이터 검사의 결과에 기초하여 생성된 결과 정보를 저장할 수 있다. 로그 데이터 처리 장치는 제2 로그 데이터 검사 결과에 기초하여 중복된 로그 데이터가 존재하지 않는 로그 데이터를 포함하는 결과 정보를 저장소에 저장할 수 있다. 예를 들어, 저장소는 HDFS일 수 있고, 로그 데이터는 저장소에 영구하게 저장될 수 있다.According to an embodiment, the log data processing apparatus may store result information generated based on the result of the second log data check in step 340 . The log data processing apparatus may store result information including log data in which duplicate log data does not exist in the storage based on the second log data inspection result. For example, the storage may be HDFS, and log data may be permanently stored in the storage.

또한, 로그 데이터 처리 장치는 중복된 로그 데이터가 존재하지 않는 것으로 판단되어 저장소에 저장된 로그 데이터에 대응되는 로그키를 외부 저장소에 제2 로그 데이터 검사에 사용되는 중복 판단 기준값으로 저장할 수 있다. 예를 들어, 외부 저장소는 Key 및 Value 의 형태로 데이터를 저장하는 저장소일 수 있고, 저장되는 로그키를 key로 설정하고, 제2 분량 단위에 기초하여 key의 만료 시간을 지정하는 window크기를 설정하고, 설정 결과에 기초하여 로그키를 저장할 수 있다. 저장된 로그키는 추후에 진행될 제2 로그 데이터 검사에 중복 판단 기준값으로 사용될 수 있다.In addition, the log data processing apparatus may determine that there is no duplicate log data and store a log key corresponding to the log data stored in the storage as a duplicate determination reference value used for the second log data examination in the external storage. For example, the external storage may be a storage that stores data in the form of Key and Value, sets the log key to be stored as the key, and sets the window size that specifies the expiration time of the key based on the second quantity unit and the log key can be stored based on the setting result. The stored log key may be used as a duplicate determination reference value for the second log data inspection to be performed later.

또한, 로그 데이터 처리 장치는 제1 로그 데이터 검사 및 제2 로그 데이터 검사에 따른 중복된 로그 데이터의 개수 및 중복되지 않은 것으로 확인되어 저장된 로그 데이터의 개수를 카운팅할 수 있고, 카운팅 결과를 저장부에 저장할 수 있다.In addition, the log data processing apparatus may count the number of duplicated log data according to the first log data inspection and the second log data inspection and the number of log data stored as non-duplicated log data is counted, and the counting result is stored in the storage unit. can be saved

일 실시예에 따르면, 단계(310)에서 결과 정보를 저장하는 저장 폴더가 존재하는 것으로 확인된 경우, 로그 데이터 처리 장치는 단계(350)에서 저장 폴더에 결과 정보가 정상적으로 저장되어 있는지 여부를 확인할 수 있다. 단계(350)에서 결과 정보가 정상적으로 저장되어 있지 않은 것으로 확인된 경우, 로그 데이터 처리 장치는 단계(360)에서 정상적으로 저장되어 있지 않은 결과 정보를 삭제하고, 단계(320)을 통해 제1 로그 데이터 검사를 수행할 수 있다. 로그 데이터 처리 장치는 단계(350)를 통해 결과 정보가 정상적으로 저장되었는지 여부를 확인하는 절차를 통해 예외 상황이 발생하였는지 여부를 확인할 수 있고, 예외 상황이 발생한 경우, 처음부터 다시 중복된 로그 데이터를 처리하는 절차를 수행하는 것이 아니라, 예외 상황이 발생된 로그 데이터에 대하여 다시 단계(320)를 진행함으로써 로그 데이터 처리를 수행할 수 있다.According to an embodiment, if it is confirmed in step 310 that a storage folder for storing the result information exists, the log data processing apparatus may check whether the result information is normally stored in the storage folder in step 350 . there is. If it is confirmed in step 350 that the result information is not normally stored, the log data processing apparatus deletes the result information that is not normally stored in step 360 , and checks the first log data through step 320 . can be performed. The log data processing apparatus may check whether an exception has occurred through a procedure of checking whether the result information is normally stored through step 350, and if an exception occurs, process the duplicated log data again from the beginning Log data processing may be performed by performing step 320 again on the log data in which an exception condition has occurred, instead of performing a procedure to do so.

일 실시예에 따르면, 단계(350)에서 결과 정보가 정상적으로 저장된 것으로 확인된 경우, 로그 데이터 처리 장치는 단계(370)를 통해 저장 폴더로부터 결과 정보를 획득하고, 단계(380)를 통해 결과 정보에 포함된 로그 데이터에 대한 로그키를 획득하고, 단계(390)를 통해 로그키를 제2 로그 데이터 검사에 사용되는 중복 판단 기준값으로 저장할 수 있다.According to an embodiment, when it is confirmed that the result information is normally stored in step 350 , the log data processing apparatus obtains the result information from the storage folder in step 370 and stores the result information in the result information in step 380 . A log key for the included log data may be acquired, and the log key may be stored as a duplicate determination reference value used for the second log data inspection through step 390 .

도 4는 일 실시예에 따른 로그 데이터 처리 장치의 전체적인 구성을 도시하는 도면이다.4 is a diagram illustrating an overall configuration of an apparatus for processing log data according to an embodiment.

일 실시예에 따르면, 로그 데이터 처리 장치(400)는 사용자 단말로부터 수신한 로그 데이터를 저장하고, 중복된 로그 데이터가 제거된 로그 데이터를 제거한 로그 데이터를 포함하는 결과 정보를 저장하는 저장부(410), 저장된 로그 데이터에서 제1 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제1 로그 데이터 검사를 수행하는 제1 로그 데이터 검사부(420), 제1 로그 데이터 검사의 결과에 기초하여, 제2 분량 단위로 중복된 로그 데이터가 존재하는지 여부를 검사하고, 중복된 로그 데이터를 제거하는 제2 로그 데이터 검사를 수행하는 제2 로그 데이터 검사부(430) 및 제2 로그 데이터 검사 결과에 기초하여 중복된 로그 데이터가 제거된 로그 데이터를 포함하는 결과 정보를 생성하는 결과 정보 생성부를 포함할 수 있다.According to an embodiment, the log data processing apparatus 400 stores log data received from the user terminal, and the storage unit 410 for storing result information including log data from which duplicate log data is removed and log data is removed. ), a first log data inspection unit 420 that checks whether duplicate log data exists in the unit of a first amount in the stored log data, and performs a first log data inspection that removes the duplicated log data, the first log A second log data checker 430 and a second log data checker 430 that checks whether duplicate log data exists in units of a second amount based on the result of the data check, and performs a second log data check that removes the duplicated log data 2 It may include a result information generator that generates result information including log data from which duplicate log data is removed based on the log data check result.

일 실시예에 따르면, 제1 로그 데이터 검사부(420)는 저장부(410)에 저장된 사용자 단말로부터 수신한 로그 데이터에 대응되는 로그키에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다. 예를 들어, 제1 로그 데이터 검사부(420)는 10분 단위로 로그 데이터를 분할하고, 분할된 로그 데이터를 서로 다른 서버를 통해 분산시켜 중복된 로그 데이터가 존재하는지 여부에 대해 검사할 수 있다.According to an embodiment, the first log data check unit 420 may check whether duplicate log data exists based on a log key corresponding to the log data received from the user terminal stored in the storage unit 410 . . For example, the first log data inspection unit 420 may divide log data in units of 10 minutes and distribute the divided log data through different servers to check whether duplicate log data exists.

일 실시예에 따르면, 제2 로그 데이터 검사부(430)는 제1 로그 데이터 검사에서 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터에 대응되는 로그키를 중복 판단 기준값과 제2 분량 단위로 비교하고, 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사할 수 있다. 또한, 제2 분량 단위는 제1 분량 단위보다 더 큰 분량 단위일 수 있다. 예를 들어, 중복 판단 기준값은 로그 데이터 처리를 통해 중복된 로그 데이터가 존재하지 않는 것으로 결정되어 저장부(410)에 저장된 로그 데이터에 대응하는 로그키일 수 있고, 로그키는 제2 분량 단위에 기초하여 만료 시간이 결정된 key로써 key와 value의 형태로 데이터를 저장하는 외부 저장소(450)에 저장될 수 있다. 또한, 제2 로그 데이터 검사부(430)는 제2 분량 단위(예를 들어, 1일 단위)의 중복 판단 기준값과 제1 로그 데이터 검사에서 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터를 비교하여 중복된 로그 데이터가 존재하는지 여부를 결정할 수 있다.According to an embodiment, the second log data inspection unit 430 compares a log key corresponding to the log data determined to have no duplicate log data in the first log data inspection with a duplicate determination reference value in units of a second quantity, and compares Based on the result, it may be checked whether duplicate log data exists. Also, the second quantity unit may be a larger quantity unit than the first quantity unit. For example, the duplicate determination reference value may be a log key corresponding to log data stored in the storage unit 410 as it is determined that duplicate log data does not exist through log data processing, and the log key is based on the second quantity unit Thus, the expiration time may be stored in the external storage 450 that stores data in the form of a key and a value as a determined key. In addition, the second log data inspection unit 430 compares the duplicate determination reference value of the second quantity unit (eg, 1 day unit) with the log data determined that there is no duplicate log data in the first log data inspection, It can be determined whether log data exists or not.

일 실시예에 따르면, 외부 저장소는 저장된 로그키 중 제2 분량 단위를 넘어서는 로그키를 삭제함으로써, 제2 분량 단위의 로그키를 유지할 수 있다. 예를 들어, 외부 저장소는 제2 분량 단위(예를 들어 1일치 분량)의 로그키를 저장할 수 있는 저장소일 수 있고, 외부 저장소는 저장된 로그키 중 1일이 지난 로그키를 삭제하고, 이후 시점을 로그키를 저장함으로써, 제2 로그 데이터 검사를 위한 중복 판단 기준 값을 유지할 수 있다.According to an embodiment, the external storage may maintain the log key of the second quantity unit by deleting the log key exceeding the second quantity unit from among the stored log keys. For example, the external storage may be a storage capable of storing a log key of a second quantity unit (eg, one day's worth), and the external storage deletes a log key older than one day from among the stored log keys, and thereafter By storing the log key, it is possible to maintain the duplicate determination reference value for the second log data inspection.

일 실시예에 따르면, 저장부(410)는 중복된 로그 데이터가 제거된 로그 데이터를 포함하는 결과 정보, 중복된 로그 데이터를 카운팅한 카운팅 결과 및 중복되지 않는 것으로 확인되어 저장부(410)에 저장된 로그 데이터의 개수에 대한 카운팅 결과 중 적어도 하나를 포함할 수 있다.According to an embodiment, the storage unit 410 stores result information including log data from which the duplicate log data is removed, a counting result of counting the duplicate log data, and a result of counting the duplicate log data, which is confirmed to be not duplicated and stored in the storage unit 410 . At least one of the results of counting the number of log data may be included.

일 실시예에 따르면, 중복된 로그 데이터가 제거된 로그 데이터에 대응하는 로그키는 제2 로그 데이터 검사에 사용되는 중복 판단 기준 값으로 사용될 수 있다.According to an embodiment, a log key corresponding to log data from which duplicate log data is removed may be used as a duplicate determination reference value used for the second log data inspection.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or apparatus, to be interpreted by or to provide instructions or data to the processing device. , or may be permanently or temporarily embody in a transmitted signal wave. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited drawings, those skilled in the art may apply various technical modifications and variations based on the above. For example, the described techniques are performed in an order different from the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (14)

로그 데이터 처리 장치에 의해 수행되는 로그 데이터 처리 방법에 있어서,
로그 데이터에서 중복된 로그 데이터가 존재하는지 여부를 검사하는 단계; 및
상기 중복된 로그 데이터가 존재하는 것으로 확인된 경우, 상기 중복된 로그 데이터를 제거하는 단계를 포함하고,
상기 검사하는 단계는,
상기 로그 데이터를 미리 설정된 제1 분량 단위에 따라 분할하고, 상기 분할된 제1 분량 단위의 로그 데이터를 서로 다른 서버로 분산하고, 상기 서로 다른 서버 각각에 저장된 로그키와 상기 분할된 제1 분량 단위의 로그 데이터 각각에 대응되는 로그키를 비교하고, 상기 비교의 결과에 기초하여 상기 중복된 로그 데이터가 존재하는지 여부를 검사하는 제1 로그 데이터 검사를 수행하는 단계; 및
상기 제1 로그 데이터 검사에서 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터에 대응되는 로그키를 중복 판단 기준값과 상기 제1 분량 단위보다 더 큰 분량 단위인 제2 분량 단위로 비교하고, 상기 제2 분량 단위의 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사하는 제2 로그 데이터 검사를 수행하는 단계
를 포함하는 로그 데이터 처리 방법.
In the log data processing method performed by the log data processing device,
checking whether duplicate log data exists in the log data; and
When it is confirmed that the duplicate log data exists, removing the duplicate log data;
The checking step is
The log data is divided according to a preset first quantity unit, the log data of the divided first quantity unit is distributed to different servers, and the log key stored in each of the different servers and the divided first quantity unit performing a first log data check of comparing log keys corresponding to respective log data of , and checking whether the duplicate log data exists based on the result of the comparison; and
Comparing the log key corresponding to the log data determined that there is no duplicate log data in the first log data check with a duplicate determination reference value in a second quantity unit, which is a larger quantity unit than the first quantity unit, the second quantity performing a second log data check for checking whether duplicate log data exists based on the unit comparison result
A method of processing log data, including
삭제delete 삭제delete 제1항에 있어서,
상기 서로 다른 서버 각각에 저장된 로그키는, 상기 로그 데이터의 내용을 해쉬한 것인,
로그 데이터 처리 방법.
According to claim 1,
The log key stored in each of the different servers is a hash of the contents of the log data,
How to process log data.
제1항에 있어서,
상기 제2 로그 데이터 검사를 수행하는 단계는,
상기 제1 로그 데이터 검사에서 중복된 로그 데이터를 포함하지 않은 것으로 확인된 로그 데이터에 대해 외부 저장소에 기반한 로그 데이터 검사를 수행하는 단계
를 포함하는 로그 데이터 처리 방법.
According to claim 1,
The step of performing the second log data check,
performing a log data check based on an external storage on log data confirmed not to include duplicate log data in the first log data check
A method of processing log data, including
삭제delete 제5항에 있어서,
상기 제2 로그 데이터 검사의 결과에서 중복된 로그 데이터가 존재하지 않는 것으로 결정된 로그 데이터를 저장소에 저장하는 단계
를 더 포함하는 로그 데이터 처리 방법.
6. The method of claim 5,
Storing log data determined that there is no duplicate log data in a storage according to the result of the second log data check
Log data processing method further comprising a.
제7항에 있어서,
상기 저장하는 단계는,
상기 제2 로그 데이터 검사의 결과에서 결정된 로그 데이터, 및 상기 제2 로그 데이터 검사의 결과에서 결정된 상기 로그 데이터에 대응하는 로그키를 상기 저장소에 저장하는 단계
를 포함하는 로그 데이터 처리 방법.
8. The method of claim 7,
The storing step is
Storing, in the storage, log data determined from the result of the second log data inspection, and a log key corresponding to the log data determined from the result of the second log data inspection;
A method of processing log data, including
제5항에 있어서,
상기 제2 로그 데이터 검사를 수행하는 단계는,
상기 제1 로그 데이터 검사에서 중복된 로그 데이터를 포함하지 않은 것으로 확인된 로그 데이터에 대응하는 로그키를 상기 외부 저장소에 저장된 로그키와 비교하고, 상기 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사하는 단계
를 포함하는 로그 데이터 처리 방법.
6. The method of claim 5,
The step of performing the second log data check,
A log key corresponding to the log data confirmed not to include duplicate log data in the first log data check is compared with the log key stored in the external storage, and based on the comparison result, whether duplicate log data exists Steps to check whether
A method of processing log data, including
제1항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록매체.
A computer-readable recording medium recording a program for performing the method of claim 1.
로그 데이터 처리 장치에 있어서,
로그 데이터를 저장하는 저장부;
로그 데이터에서 중복된 로그 데이터가 존재하는지 여부를 검사하는 로그 데이터 검사부; 및
상기 검사 결과에 기초하여 중복된 로그 데이터가 제거된 로그 데이터를 포함하는 결과 정보를 생성하는 결과 정보 생성부를 포함하고,
상기 로그 데이터 검사부는,
상기 로그 데이터를 미리 설정된 제1 분량 단위에 따라 분할하고, 상기 분할된 제1 분량 단위의 로그 데이터를 서로 다른 서버로 분산하고, 상기 서로 다른 서버 각각에 저장된 로그키와 상기 분할된 제1 분량 단위의 로그 데이터 각각에 대응되는 로그키를 비교하고, 상기 비교의 결과에 기초하여 상기 중복된 로그 데이터가 존재하는지 여부를 검사하는 제1 로그 데이터 검사를 수행하는 제1 로그 데이터 검사부; 및
상기 제1 로그 데이터 검사에서 중복된 로그 데이터가 없는 것으로 결정된 로그 데이터에 대응되는 로그키를 중복 판단 기준값과 상기 제1 분량 단위보다 더 큰 분량 단위인 제2 분량 단위로 비교하고, 상기 제2 분량 단위의 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사하는 제2 로그 데이터 검사를 수행하는 제2 로그 데이터 검사부를 포함하는,
로그 데이터 처리 장치.
In the log data processing device,
a storage unit for storing log data;
a log data inspection unit that checks whether duplicate log data exists in the log data; and
and a result information generator for generating result information including log data from which duplicate log data has been removed based on the inspection result;
The log data inspection unit,
The log data is divided according to a preset first quantity unit, the log data of the divided first quantity unit is distributed to different servers, and the log key stored in each of the different servers and the divided first quantity unit a first log data inspection unit that compares log keys corresponding to respective log data of , and performs a first log data inspection for inspecting whether the duplicate log data exists based on the result of the comparison; and
Comparing the log key corresponding to the log data determined that there is no duplicate log data in the first log data check with a duplicate determination reference value in a second quantity unit, which is a larger quantity unit than the first quantity unit, the second quantity and a second log data checking unit that performs a second log data check for checking whether duplicate log data exists based on a comparison result of units;
Log data processing unit.
삭제delete 제11항에 있어서,
상기 제2 로그 데이터 검사부는,
상기 제1 로그 데이터 검사에서 중복된 로그 데이터를 포함하지 않은 것으로 확인된 로그 데이터에 대해 외부 저장소에 기반한 로그 데이터 검사를 수행하는,
로그 데이터 처리 장치.
12. The method of claim 11,
The second log data inspection unit,
performing log data check based on external storage for log data confirmed not to include duplicate log data in the first log data check,
Log data processing unit.
제13항에 있어서,
상기 제2 로그 데이터 검사부는,
상기 제1 로그 데이터 검사에서 중복된 로그 데이터를 포함하지 않은 것으로 확인된 로그 데이터에 대응하는 로그키를 상기 외부 저장소에 저장된 로그키와 비교하고, 상기 비교 결과에 기초하여 중복된 로그 데이터가 존재하는지 여부를 검사하는,
로그 데이터 처리 장치.
14. The method of claim 13,
The second log data inspection unit,
A log key corresponding to the log data confirmed not to include duplicate log data in the first log data check is compared with the log key stored in the external storage, and based on the comparison result, whether duplicate log data exists to check whether
Log data processing unit.
KR1020200010412A 2018-03-16 2020-01-29 Apparatus and method for processing log data KR102364036B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200010412A KR102364036B1 (en) 2018-03-16 2020-01-29 Apparatus and method for processing log data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180031158A KR102073798B1 (en) 2018-03-16 2018-03-16 Apparatus and method for processing log data
KR1020200010412A KR102364036B1 (en) 2018-03-16 2020-01-29 Apparatus and method for processing log data

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020180031158A Division KR102073798B1 (en) 2018-03-16 2018-03-16 Apparatus and method for processing log data

Publications (2)

Publication Number Publication Date
KR20200015652A KR20200015652A (en) 2020-02-12
KR102364036B1 true KR102364036B1 (en) 2022-02-17

Family

ID=80493076

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200010412A KR102364036B1 (en) 2018-03-16 2020-01-29 Apparatus and method for processing log data

Country Status (1)

Country Link
KR (1) KR102364036B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061595A (en) 2008-09-08 2010-03-18 Konica Minolta Business Technologies Inc Log data-managing program and log data-managing device
JP2012203685A (en) 2011-03-25 2012-10-22 Hitachi Ltd Access log processing system, method, and program; and access log storage/retrieval device
JP2016143388A (en) 2015-02-05 2016-08-08 日本電信電話株式会社 Log information classification device, log information classification method and program
KR101667756B1 (en) 2015-11-04 2016-10-19 한림대학교 산학협력단 Archive file de-duplication apparatus and method
JP2017098870A (en) 2015-11-27 2017-06-01 株式会社日立製作所 Log collecting system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140141348A (en) 2013-05-31 2014-12-10 삼성전자주식회사 Storage system and Method for performing deduplication in conjunction with host device and storage device
KR20150121505A (en) * 2014-04-21 2015-10-29 삼성전자주식회사 Method and device for data deduplication
KR20150035876A (en) * 2015-02-24 2015-04-07 포항공과대학교 산학협력단 Method for de-duplicating data and apparatus therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061595A (en) 2008-09-08 2010-03-18 Konica Minolta Business Technologies Inc Log data-managing program and log data-managing device
JP2012203685A (en) 2011-03-25 2012-10-22 Hitachi Ltd Access log processing system, method, and program; and access log storage/retrieval device
JP2016143388A (en) 2015-02-05 2016-08-08 日本電信電話株式会社 Log information classification device, log information classification method and program
KR101667756B1 (en) 2015-11-04 2016-10-19 한림대학교 산학협력단 Archive file de-duplication apparatus and method
JP2017098870A (en) 2015-11-27 2017-06-01 株式会社日立製作所 Log collecting system

Also Published As

Publication number Publication date
KR20200015652A (en) 2020-02-12

Similar Documents

Publication Publication Date Title
US10721326B2 (en) Method, apparatus, and electronic device for processing consensus requests in a blockchain consensus network
US10437855B1 (en) Automatic verification of asynchronously replicated data
CN108319719B (en) Database data verification method and device, computer equipment and storage medium
US11074139B2 (en) Dynamic block chain system using metadata for backing up data based on digest rules
US9367598B2 (en) Merging an out of synchronization indicator and a change recording indicator in response to a failure in consistency group formation
US8862847B2 (en) Distributed storage method, apparatus, and system for reducing a data loss that may result from a single-point failure
CN109831487B (en) Fragmented file verification method and terminal equipment
WO2020000725A1 (en) Electronic apparatus, data migration method, and storage medium
CN107870727B (en) Method and apparatus for storing data
US11563560B2 (en) Blockchain-based data evidence storage method and apparatus
US11366932B2 (en) Consensus method and data verification method, apparatus, and system of consortium blockchain
US9881030B2 (en) Distributed archive system, data archive device, and data restoring device with improved restoration and security
CN110188103A (en) Data account checking method, device, equipment and storage medium
US9985832B2 (en) Method and system for syncronization and distribution of configuration cross cluster without blocking
US8756389B2 (en) Prevention of overlay of production data by point in time copy operations in a host based asynchronous mirroring environment
US10346066B2 (en) Efficient erasure coding of large data objects
US10802920B2 (en) Backup and restore validation
US20190138386A1 (en) Recovering log-structured filesystems from physical replicas
CN109033818B (en) Terminal, authentication method, and computer-readable storage medium
KR102364036B1 (en) Apparatus and method for processing log data
CN110555682B (en) Multi-channel implementation method based on alliance chain
KR102073798B1 (en) Apparatus and method for processing log data
CN109919768B (en) Block generation method, device, medium and computing equipment
CN106301967A (en) A kind of method of data synchronization and outband management equipment
KR102151939B1 (en) Method for creating blockchain using patch transaction

Legal Events

Date Code Title Description
A107 Divisional application of patent
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant