KR20180097895A - APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM - Google Patents

APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM Download PDF

Info

Publication number
KR20180097895A
KR20180097895A KR1020170024639A KR20170024639A KR20180097895A KR 20180097895 A KR20180097895 A KR 20180097895A KR 1020170024639 A KR1020170024639 A KR 1020170024639A KR 20170024639 A KR20170024639 A KR 20170024639A KR 20180097895 A KR20180097895 A KR 20180097895A
Authority
KR
South Korea
Prior art keywords
data
reference information
abnormality
domain
detecting
Prior art date
Application number
KR1020170024639A
Other languages
Korean (ko)
Other versions
KR101965598B1 (en
Inventor
김종현
이진형
김지혁
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020170024639A priority Critical patent/KR101965598B1/en
Priority to PCT/KR2018/000581 priority patent/WO2018155817A1/en
Publication of KR20180097895A publication Critical patent/KR20180097895A/en
Application granted granted Critical
Publication of KR101965598B1 publication Critical patent/KR101965598B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

A method for detecting the abnormality of data includes the steps of: detecting whether or not first data is abnormal based on first reference information and second reference information among a plurality of reference information including a data type, metadata, and a domain through a first artificial intelligence algorithm; storing an abnormality detection result of the first data; and detecting whether or not second data is abnormal based on the second reference information and third reference information among the plurality of reference information including the data type, the metadata, and the domain through a second artificial intelligence algorithm. Accordingly, the present invention can manage data quality without the involvement of engineer experts and a director.

Description

이상탐지시스템 내의 데이터에 대한 이상을 탐지하는 장치 및 그 방법{APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM}[0001] APPARATUS AND METHOD FOR DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM [0002]

본원은 데이터의 이상을 탐지하는 장치 및 그 방법에 관한 것으로, 인공지능을 기반으로 데이터에 대한 이상치를 자동으로 탐지하는 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for detecting abnormalities in data, and an apparatus and method for automatically detecting an abnormal value for data based on artificial intelligence.

수집된 빅 데이터의 품질을 확보하는 것 대한 요구가 증가하고 있어, 빅데이터의 품질을 확보하는 것은 중요한 화두로 대두되고 있으나, 데이터의 양은 무어의 법칙(Moore's law)에 대응하는 비율로 폭발적으로 증가하고 있어, 데이터 엔지니어의 경험과 노력으로 품질을 측정하는데 어려움이 따른다. 무어의 법칙은 반도체 집적회로의 성능이 18개월마다 2배로 증가한다는 법칙이다. 또한, 비즈니스의 복잡성 증가에 따른 정보 시스템의 복잡도도 증가하고 있으며, 데이터의 종류도 정형 데이터에서 비정형 데이터로 확장되고 있으며, 빅데이터의 활용에 대한 관심 증대에 따라 데이터의 양은 더욱 늘어나고 있다. As the demand for securing the quality of the collected big data is increasing, securing the quality of the big data is becoming an important issue, but the amount of data is explosively increased at a rate corresponding to Moore's law And it is difficult to measure the quality due to the experience and efforts of the data engineer. Moore's Law states that the performance of semiconductor integrated circuits doubles every 18 months. In addition, the complexity of information systems is increasing due to the increasing complexity of business. Data types are also expanding from regular data to unstructured data, and the amount of data is increasing due to the increased interest in utilization of big data.

데이터 관리 기술들은 데이터 저장소나 액세스(Access) 기술이 주로 발전되고 있으며, 이에 반해 데이터 품질에 대한 인식은 매우 낮고, 저품질 데이터의 피해 사례와 비용 발생에 따른 데이터 품질 관리에 대한 필요성이 대두되고 있다. 예를 들면, 2009년을 5월을 기준으로 국민연금 가입자의 주민등록번호와 이름이 일치하지 않는 사례가 30만여건에 달하고 있으며, 국외에서는 주 관공서가 이미 사망한 아동의 부모들에게 위학 학교를 선택하라는 안내문을 발송하는 사례가 있다. Data management techniques are mainly developed for data storage and access technology. On the other hand, the recognition of data quality is very low, and there is a need for data quality management according to damage cases of low quality data and cost incurrence. For example, in May 2009, there were about 300,000 cases in which the resident registration number and the name of the national pension subscriber do not match. In foreign countries, the government office issued a notice to parents of children who have already died, .

이렇듯, 국내 및 국외의 공공기관 또는 기업 등지에서 사용되는 데이터베이스와 관련된 사고가 점차 증가하고 있으며, 미국 NASA의 한 연구에서 빅데이터의 경우 증가하는 데이터 양에 부합하는 데이터 품질요구사항을 만족하기 위해 자동화된 데이터 품질 측정 도구가 필요하다고 언급하는 등, 인력으로는 해결할 수 없는 데이터베이스의 품질을 자동으로 관리하고 측정하는 기술에 대한 요구도 점차 증가하고 있다. As a result, NASA's research in the United States is increasingly concerned with the use of databases in domestic and foreign public institutions and corporations, and in the case of Big Data, automation is required to meet data quality requirements that meet the increasing amount of data. There is a growing demand for a technology to automatically manage and measure the quality of a database that can not be solved by the manpower.

현재, 데이터베이스는 중요성 및 부정확한 데이터에 대한 낮은 인식, 데이터 품질 관리 비용의 인식 부족 등 데이터베이스의 데이터 품질에 대한 인식이 낮은 편에 속하며, 데이터 품질 전문가 부족으로, 기관 또는 기업에 적합한 데이터 품질 활동을 고려한 적용 기술이 요구된다. At present, the database is not well aware of the data quality of the database, such as low awareness of importance and inaccurate data, lack of awareness of data quality management costs, and lack of data quality experts. The application technique considered is required.

본원의 배경이 되는 기술은 한국특허공개공보 제 2000-0055986호에 개시되어 있다.The background technology of the present application is disclosed in Korean Patent Laid-Open Publication No. 2000-0055986.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 빅데이터 환경 내에서 데이터에 대한 이상 여부 또는 이상치를 자동으로 탐지하는 시스템을 제공하는 것을 목적으로 한다. 또한, 본원은 빅데이터 환경에서 데이터에 대한 이상치를 자동 식별 및 학습할 수 있는 인공지능 기반의 이상치 탐지하는 시스템을 제공하는 것을 목적으로 한다. SUMMARY OF THE INVENTION It is an object of the present invention to provide a system for automatically detecting abnormalities or abnormalities in data in a big data environment. It is another object of the present invention to provide a system for detecting an abnormal value based on artificial intelligence capable of automatically identifying and learning an abnormal value for data in a big data environment.

또한, 본원은 빅데이터 환경하에서 발생하는 숫자, 문자, 문자열, 사진 등의 다양한 데이터의 타입에 따라 맞춤화하여 데이터의 유형별 이상치를 탐지하는 시스템을 제공하는 것을 목적으로 한다. It is another object of the present invention to provide a system for detecting an abnormal value for each type of data by customizing it according to various types of data such as numbers, letters, strings, pictures, etc., occurring under a big data environment.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.It should be understood, however, that the technical scope of the embodiments of the present invention is not limited to the above-described technical problems, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 데이터의 이상을 탐지하는 방법은 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 단계, 제 1 데이터의 이상 탐지 결과를 저장하는 단계 및 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지하는 단계를 포함할 수 있다. According to an aspect of the present invention, there is provided a method for detecting abnormality in data, the method comprising the steps of: detecting first abnormality of data based on first reference information and second reference information among a plurality of reference information including a data type, Detecting an abnormality of the first data through the first artificial intelligence algorithm, storing an abnormality detection result of the first data, and storing second reference information and third reference information among a plurality of reference information including a data type, And detecting the abnormality of the second data based on the information and the storage result through the second artificial intelligence algorithm.

또한, 본원의 일 실시예에 따른 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 3 인공지능 알고리즘으로 통해 제 3 데이터의 이상 여부를 탐지하는 것일 수 있다. In addition, the first and second reference information among the plurality of reference information including the data type, the metadata, and the domain according to an embodiment of the present invention, and the third reference information, It may be to detect anomalies.

또한, 본원의 일 실시예에 따른 데이터 타입은 데이터를 정형 데이터 타입 또는 비정형 데이터 타입 중 어느 하나로 분류하는 것이고, 제 1 데이터의 이상 여부를 탐지하는 단계는 데이터 타입에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 것일 수 있다.  In addition, the data type according to an embodiment of the present invention classifies the data into either a formal data type or an unstructured data type, and the step of detecting the abnormality of the first data may include determining whether the first data is abnormal Lt; RTI ID = 0.0 > AI < / RTI > algorithm.

또한, 본원의 일 실시예에 따른 제 1 데이터의 이상 여부를 탐지하는 단계는, 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 금액 도메인이면, 제 1 데이터의 이상 여부를 박스플롯(Boxplot) 알고리즘을 통해 탐지하는 것일 수 있다. In addition, the step of detecting the abnormality of the first data according to an embodiment of the present invention may include the steps of detecting whether the first reference information is a data type, the second reference information is a domain, Domain, it may be to detect the abnormality of the first data through a Boxplot algorithm.

또한, 본원의 일 실시예에 따른 제 1 데이터의 이상 여부를 탐지하는 단계는, 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 메타데이터인 경우, 데이터 타입이 비정형 데이터 타입이고, JPEG(Joint Photographic Experts Group) 포맷이면, 제 1 데이터의 이상 여부를 딥 러닝(Deep Learning) 알고리즘을 통해 탐지하는 것일 수 있다. In addition, the step of detecting abnormality of the first data according to an exemplary embodiment of the present invention may include the steps of detecting whether the first reference information is a data type, the second reference information is metadata, the data type is an irregular data type, Joint Photographic Experts Group) format, it may be to detect the abnormality of the first data through a Deep Learning algorithm.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는, 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과 및 제 1 데이터에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지하는 것일 수 있다. In addition, the step of detecting the abnormality of the second data according to the embodiment of the present invention may include the steps of detecting the second reference information and the third reference information among the plurality of reference information including the data type, metadata, domain, 1 < / RTI > data based on the second artificial intelligence algorithm.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는, 제 2 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 제 2 기준 정보가 정형 데이터 타입이고, 도메인이 수 도메인이면, 제 1 데이터와의 관계 정보에 기초하여 제 2 데이터의 이상 여부를 선형회귀 알고리즘을 통해 탐지하는 것일 수 있다. In addition, the step of detecting the abnormality of the second data according to an embodiment of the present invention may include the steps of detecting whether the second reference information is a data type, the second reference information is a domain, In the case of the number domain, it may be detected through the linear regression algorithm whether the second data is abnormal based on the relationship information with the first data.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계 이후에, 제 2 데이터의 이상 탐지 결과를 저장하는 단계를 더 포함하는 것일 수 있다. In addition, the method may further include storing an abnormality detection result of the second data after the step of detecting abnormality of the second data according to an embodiment of the present invention.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는 제 2 데이터의 이상이 탐지되는 경우, 제 2 데이터를 표준화시키일 수 있다. In addition, the step of detecting the abnormality of the second data according to an embodiment of the present invention can standardize the second data when an abnormality of the second data is detected.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는, 제 2 기준 정보가 데이터 타입이고, 제 3 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 명칭 도메인이면, 제 2 데이터의 이상 여부를 유사도 알고리즘을 통해 탐지하되, 제 2 데이터의 이상이 탐지되는 경우, 제 2 데이터와 유사도가 높은 데이터로 표준화시키는 것일 수 있다. If the second reference information is a data type and the third reference information is a domain, the step of detecting the abnormality of the second data according to an embodiment of the present invention may include the steps of: Domain, it may be detected through the similarity algorithm whether the second data is abnormal, and when the abnormality of the second data is detected, the data may be standardized to the data having high similarity to the second data.

또한, 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 장치는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 이상 탐지부 및 제 1 데이터의 이상 탐지 결과를 저장하는 데이터베이스를 포함하되, 이상 탐지부는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있다. In addition, an apparatus for detecting abnormality of data according to an embodiment of the present invention may be configured to detect abnormality of first data based on first reference information and second reference information among a plurality of reference information including a data type, metadata, And a database for storing an abnormality detection result of the first data, wherein the abnormality detection unit is configured to detect an abnormality detection result of the first reference data among the plurality of reference information including the data type, The second artificial intelligence algorithm can detect the abnormality of the second data based on the information, the third reference information, and the storage result.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-described task solution is merely exemplary and should not be construed as limiting the present disclosure. In addition to the exemplary embodiments described above, there may be additional embodiments in the drawings and the detailed description of the invention.

전술한 본원의 과제 해결 수단에 의하면, 자동으로 빅데이터의 이상치 탐지를 수행할 수 있어, 엔지니어 전문가와 담당자의 개입 없이도 데이터 품질 관리가 가능하다. 또한, 빅데이터 환경하에서 늘어나는 데이터 양에 따라 새로운 유형의 데이터를 자동 학습함으로써, 체계적인 빅데이터 품질관리가 가능하다. 빅데이터 유형 판별 결과, 빅데이터 이상치 탐지 결과에 대하여 지속적인 학습을 통해 빅데이터에 대한 품질 관리를 제공할 수 있다. According to the above-mentioned problem solving means of the present invention, it is possible to automatically detect the outliers of the big data, and it is possible to manage the data quality without involvement of the engineer specialist and the person in charge. Also, systematic big data quality management is possible by automatically learning new types of data according to the amount of data that grows under the big data environment. As a result of the determination of the big data type, it is possible to provide the quality control for the big data through continuous learning about the result of detection of the big data outliers.

또한, 빅데이터의 특성을 고려하여 새롭게 추가되는 빅데이터 유형에 따른 이상치 탐지 결과를 직관적으로 제공할 수 있으며, 빅데이터 환경에서 데이터에 대한 이상치를 자동 식별 및 학습할 수 있는 인공지능 기반의 이상치 탐지 시스템을 제공할 수 있다. In addition, it is possible to intuitively provide the outlier detection result according to the newly added big data type considering the characteristics of the big data, and to detect the abnormal value based on the artificial intelligence based on the intelligent detection System can be provided.

본원은 빅데이터 환경하에서 발생하는 숫자, 문자, 문자열, 사진 등의 다양한 데이터의 타입에 따라 맞춤화하여 데이터의 유형별 이상치를 탐지할 수 있다. The present invention can customize the data according to various types of data such as numbers, letters, strings, pictures, and the like, which occur under a big data environment, and detect abnormal values for each type of data.

도 1은 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 시스템의 구성도이다.
도 2는 본원의 일 실시예에 따른 이상 탐지 장치의 구성을 나타내는 도면이다.
도 3a 내지 3c는 본원의 일 실시예에 따른 데이터의 이상 탐지를 나타내는 도면이다.
도 4는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 과정을 나타내는 흐름도이다.
도 5는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 방법을 나타내는 동작 흐름도이다.
1 is a block diagram of a system for detecting abnormality of data according to an embodiment of the present invention.
2 is a diagram showing a configuration of an anomaly detection device according to an embodiment of the present invention.
3A to 3C are diagrams illustrating abnormal detection of data according to an embodiment of the present invention.
FIG. 4 is a flowchart illustrating a process of detecting abnormality of data according to an embodiment of the present invention.
5 is an operational flow diagram illustrating a method for detecting anomalies in data in accordance with one embodiment of the present application.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. It should be understood, however, that the present invention may be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In the drawings, the same reference numbers are used throughout the specification to refer to the same or like parts.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when a part is referred to as being "connected" to another part, it is not limited to a case where it is "directly connected" but also includes the case where it is "electrically connected" do.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.It will be appreciated that throughout the specification it will be understood that when a member is located on another member "top", "top", "under", "bottom" But also the case where there is another member between the two members as well as the case where they are in contact with each other.

본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, when an element is referred to as "including " an element, it is understood that the element may include other elements as well, without departing from the other elements unless specifically stated otherwise.

도 1은 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 시스템의 구성도이다. 도 1을 참조하면 데이터의 이상을 탐지하는 시스템은 이상 탐지 장치(10), 기준 정보 사전(20) 및 탐지 대상 데이터베이스를 포함할 수 있다. 다만, 도 1에 도시된 구성이 상기된 구성으로 한정되는 것은 아니다. 1 is a block diagram of a system for detecting abnormality of data according to an embodiment of the present invention. Referring to FIG. 1, a system for detecting abnormality of data may include an anomaly detection device 10, a reference information dictionary 20, and a detection object database. However, the configuration shown in Fig. 1 is not limited to the configuration described above.

이상 탐지 장치(10)는 기준 정보 사전(20)을 기반으로 인공지능을 통한 선행학습을 수행하고, 학습 결과에 기초하여 탐지 대상 데이터베이스(30)에 대한 이상 탐지를 수행할 수 있다. 이상 탐지 장치(10)는 탐지 대상 데이터베이스(30)의 컬럼 또는 데이터에 대하여 다양한 알고리즘에 따라 정상 범주를 벗어나는 데이터에 대한 탐지를 수행할 수 있으며, 탐지 결과를 학습함으로써, 이후, 다른 탐지 대상 데이터베이스(30)에 대한 이상 탐지를 수행하는데 이용할 수 있다. 이와 같은 이상 탐지 장치(10)의 구성은 도 2를 통해 자세히 설명된다. The anomaly detection device 10 can perform the anterior detection based on the reference information dictionary 20 and the anomaly detection on the detection subject database 30 based on the learning result. The anomaly detection device 10 can perform detection of data that deviates from the normal category according to various algorithms on the column or data of the detection subject database 30. By learning the detection result, 30). ≪ / RTI > The configuration of the abnormality detection device 10 is described in detail with reference to FIG.

기준 정보 사전(20)은 이상 탐지 장치(10)가 선행학습을 할 수 있도록 하는 선행 데이터 또는 소스를 포함할 수 있다. 예를 들어, 기준 정보 사전(20)은 다양한 분야에 대한 데이터베이스를 포함할 수 있으며 좀 더 상세하게 예를 들면, 나이대 별 정상 혈압 수치 데이터베이스, 서울지역 학생 평균 신장, 몸무게 데이터베이스, 한국인 신체 평균 수치 데이터베이스, 나라별 2자리 코드 및 3자리 코드 데이터베이스, 기업들의 대표 명화 데이터베이스 등 다양한 분야에서 기준이 될 수 있는 데이터베이스 또는 평균 수치 등의 지수 등이 포함될 수 있다. The reference information dictionary 20 may include preceding data or a source that enables the anomaly detection device 10 to perform the preceding learning. For example, the reference information dictionary 20 may include databases for various fields, and more specifically, for example, a normal blood pressure database by age, an average height of a student in Seoul, a weight database, , A 2-digit code for a country and a 3-digit code database, and a representative database of corporations.

탐지 대상 데이터베이스(30)는 이상 탐지의 대상이 되는 데이터베이스로서 이상 탐지 장치(10)는 학습 결과에 기초하여 탐지 대상 데이터베이스(30)에 포함된 데이터에 대한 이상 여부를 탐지할 수 있다. The detection target database 30 is a database to be subjected to anomaly detection, and the aptitude detection device 10 can detect an abnormality with respect to the data included in the detection target database 30 based on the learning results.

이상 탐지 장치(10)를 통해 데이터에 대한 이상 여부 탐지는 데이터의 품질을 관리하는 효과를 가질 수 있다. 데이터 품질 관리란 기관이나 조직 내외부의 정보 시스템 또는 데이터베이스 사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선을 위한 활동을 의미할 수 있다. 데이터란 목적을 달성하기 위해 구축, 운영되는 정보 시스템과 관련된 모든 자료 또는 정보를 의미할 수 있으며, 데이터는 데이터베이스 내부에 저장되어 있는 데이터 값 이외에 데이터 모델이나 표준 데이터와 같은 구조 정보와 문서 형태의 산출물을 포함할 수 있으나, 일반적으로 데이터는 정보 시스템에 저장된 디지털 데이터를 의미할 수 있다. The abnormality detection of the data through the anomaly detection device 10 can have an effect of managing the quality of the data. Data quality management can mean data management and improvement activities that are continuously performed to meet the expectations of an information system or database user within an organization or an organization. Data may refer to all data or information related to the information system that is constructed and operated to achieve the purpose. Data may include data values stored in the database, structure information such as data model or standard data, , But generally the data may refer to digital data stored in the information system.

또한, 데이터 품질 관리는 현재 운영 또는 관리되고 있는 정보 시스템 내에 수록된 데이터의 품질을 측정하여 현재의 수준을 평가하고, 품질 저하의 요인을 분석하는 절차를 의미할 수 있다. 데이터 품질 관리는 운영 데이터 베이스의 테이블, 컬럼, 코드, 관계, 업무 규칙 등을 기준으로 데이터의 값을 분석하여 데이터의 품질을 진단하는 것을 의미할 수 있으며, 데이터 값과 관련된 품질 기준을 적용하여 오류 내역을 산출하고 오류 원인을 분석하는 절차를 의미할 수 있다. Data quality management can also refer to the process of evaluating the current level by measuring the quality of the data contained in the information system currently being operated or managed and analyzing the factors of the quality degradation. Data quality management can be used to diagnose the quality of data by analyzing the data values based on the tables, columns, codes, relationships, and business rules of the operational database. By applying quality standards related to data values, This may mean a procedure for calculating the breakdown and analyzing the cause of the breakdown.

도 2는 본원의 일 실시예에 따른 이상 탐지 장치(10)의 구성을 나타내는 도면이다. 도 2를 참조하면, 이상 탐지 장치(10)는 데이터베이스(110) 및 이상 탐지부(120)를 포함할 수 있다. 다만, 도 2에 도시된 이상 탐지 장치(10)의 구성이 앞서 설명된 것들로 한정되는 것은 아니다. 2 is a diagram showing a configuration of an anomaly detection device 10 according to an embodiment of the present invention. Referring to FIG. 2, the anomaly detection apparatus 10 may include a database 110 and an anomaly detection unit 120. However, the configuration of the anomaly detection device 10 shown in Fig. 2 is not limited to those described above.

이상 탐지부(120)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지할 수 있다. 예를 들어, 이상 탐지부(120)는 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 금액 도메인이면, 제 1 데이터의 이상 여부를 박스플롯(Boxplot) 알고리즘을 통해 탐지할 수 있다. The anomaly detection unit 120 detects whether the first data is abnormal based on the first reference information and the second reference information among the plurality of reference information including the data type, the metadata, and the domain through the first artificial intelligence algorithm . For example, if the first reference information is a data type, the second reference information is a domain, the data type is a fixed data type, and the domain is an amount domain, the abnormality detection unit 120 determines whether the first data is abnormal It can be detected through the Boxplot algorithm.

이때, 이상치는 데이터의 형식이나 자릿수가 상이한 경우, 잘 못 입력된 데이터 품질을 저하시키는 모든 비정상적인 데이터 또는 데이터의 형식을 이야기할 수 있다. At this time, if the format of the abnormal data is different or the number of digits is different, the abnormal data or the format of the data which degrades the poorly inputted data quality can be described.

데이터 타입은 정형 데이터 타입 또는 비정형 데이터 타입 중 어느 하나로 분류하는 것이고, 이 때, 정형 데이터 타입은 정형화된 데이터로, 고정된 필드에 저장되는 데이터를 의미할 수 있다. 예를 들면, 이름, 주소, 연락처, 배송 주소, 결제 정보 등 데이터베이스 내 고정된 필들로 구성되는 일정한 형식을 갖추어 저장되는 데이터를 의미할 수 있다. 한편, 비정형 데이터는 고정된 필드에 저장되지 않은 데이터를 의미할 수 있으며 예를 들면, 동영상 스트리밍 사이트에 업로드되는 동영상 데이터, SNS 등에 저장되는 사진과 오디오 데이터, 메신저를 통해 주고 받은 대화 데이터, 스마트폰 등을 통해 기록되는 위치 정보 등이 포함될 수 있다. The data type may be classified into either a regular data type or an unstructured data type. In this case, the fixed data type may be formatted data and may be data stored in a fixed field. For example, it may refer to data stored in a fixed format composed of fixed fills in the database such as name, address, contact, shipping address, and payment information. On the other hand, unstructured data may mean data that is not stored in a fixed field. For example, moving picture data uploaded to a video streaming site, pictures and audio data stored in a SNS, conversation data exchanged through a messenger, And the like, and the like.

메타데이터는 데이터에 대한 데이터라고 하며, 어떤 목적을 가지고 만들어진 데이터라고도 정의될 수 있다. 좀 더 상세히 말하면, 메타데이터는 데이터에 관해 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터를 의미할 수 있다. 즉, 메타데이터는 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠 또는 데이터에 대하여 부여되는 데이터로서, 구조화된 정보를 분석, 분류하고 부가적 정보를 추가하기 위해 그 데이터 뒤에 함께 따라가는 정보를 의미할 수 있다. Metadata is data about the data, which can be defined as data created for some purpose. More specifically, the metadata may be structured data about the data and may mean data describing other data. In other words, metadata is data given to contents or data according to a certain rule in order to efficiently find and use information that is found in a large amount of information, and to analyze and classify structured information and add additional information It may mean the information that follows along with the data.

도메인은 일반적으로 데이터베이스 설계 시 부여되는 데이터의 가장 작은 단위인 컬럼의 특성을 의미하며, 도메인에 부합하는 데이터 업무 규칙을 적용하면, 데이터의 무결성을 유지할 수 있는 효과를 가질 수 있다. 좀 더 상세히 말하면, 도메인은 데이터베이스에서 테이블의 설계 단계에서 각 컬럼들에 적용되는 고유한 성격으로 데이터베이스에서 관리하는 데이터의 가장 작은 단위인 컬럼의 특성에 대한 정의라고 할 수 있다. 도메인의 예시로는 금액, 수, 율, 코드, ID, 명칭, 내용, 날짜, 플래그, 번호 및 연락처 등이 있을 수 있으나 이에 한정되는 것은 아니며 다양한 도메인이 더 존재할 수 있다. A domain generally refers to a characteristic of a column, which is the smallest unit of data assigned when designing a database. By applying a data service rule conforming to a domain, the integrity of data can be maintained. More specifically, a domain is a definition of the characteristics of a column, the smallest unit of data managed by a database, with a unique nature that applies to each column at the design stage of the table in the database. Examples of the domain may include an amount, a number, a rate, a code, an ID, a name, a content, a date, a flag, a number and a contact, but the present invention is not limited thereto.

금액 도메인은 데이터의 유형이 숫자 유형인 데이터 중 매출액, 판매액, 원가 등 돈과 관련된 숫자를 의미할 수 있다. 좀 더 상세히 말하면, 금액 도메인은 돈의 액수를 표현하는 값으로써 국가별 화폐단위에 맞는 숫자 타입의 값으로 구성될 수 있다. 금액 도메인을 지속적으로 관리하면 금액 도메인에 저장되는 데이터를 항상 유효한 형태로 관리할 수 있으며 데이터 자체의 범위 유효성을 유지할 수 있다. 금액 도메인의 예시로는 금액, 세금, 가격, 단가, 비용, 요금, 잔액 또는 총액 등이 있을 수 있다. An amount domain can mean a number related to money such as sales amount, sales amount, cost, and the like, in which the type of data is a numeric type. More specifically, the value domain is a value representing the amount of money, and may be composed of a value of a numeric type suited to a country's currency unit. By constantly managing the money domain, the data stored in the money domain can always be managed in a valid form, and the range of the data itself can be validated. Examples of money domain are money, tax, price, unit price, cost, charge, balance or total amount.

수 도메인은 데이터의 유형이 숫자 유형인 데이터 중 고객수, 상품수, 관객수 등 금액이 아닌 숫자를 의미할 수 있다. 좀 더 상세히 말하면, 수 도메인은 건수, 규모, 횟수 등과 같이 숫자로 관리되는 항목을 의미할 수 있다. 수량 도메인을 지속적으로 관리하면 수 도메인에 저장되는 데이터에 대한 최대값과 최소값의 유효 범위를 유지할 수 있다. 수 도메인의 예시로는 건수, 매수, 회차, 개수, 거리, 규모, 길이, 무게, 속도, 횟수, 평형, 면적 또는 온도 등이 있을 수 있다. The number domain can mean a number, not an amount, such as the number of customers, the number of products, the number of audiences, among the data in which the type of data is a numeric type. More specifically, a numeric domain may mean numerically managed items such as number, scale, number of times, and so on. If you manage the quantity domain continuously, you can maintain the maximum value and the minimum value range for the data stored in the number domain. Examples of numerical domains may include the number of rows, the number of rows, the number of rows, the number, the distance, the scale, the length, the weight, the speed, the number, the equilibrium, the area or the temperature.

율 도메인은 데이터의 유형이 숫자 유형인 데이터 중 달성율, 정확도, 원가율 등 비율을 포함하는 숫자를 의미할 수 있다. 좀 더 상세히 말하면, 율 도메인은 진척율, 증가율, 수익율, 변동율, 이자율, 가산율, 요율 등 매우 다양하게 정의되어 활용될 수 있으며, 이 때, 증가율, 수익율, 변동율 등은 계산식에 의해 산출될 수 있고, 이자율, 가산율, 요율 등은 다른 수치데이터의 산출에 적용되는 기준정보로 관리될 수 있다. 율 도메인의 예시로는 금리, 이율, 비율, 환율 또는 백분율 등이 있을 수 있다. A rate domain can mean a number that includes the rate of accomplishment, accuracy, cost ratio, etc., of data whose type of data is a numeric type. More specifically, the rate domain can be defined and used in various ways, such as progress rate, growth rate, profit rate, rate of change, interest rate, addition rate, rate, etc. At this time, the rate of increase, , The interest rate, the addition rate, the rate, and the like can be managed as the reference information applied to the calculation of the other numerical data. Examples of rate domains are interest rates, interest rates, rates, exchange rates or percentages.

코드 도메인은 데이터의 유형이 숫자 또는 문자 유형인 데이터 중 사전에 정의된 항목으로 코드와 값을 포함할 수 있다. 예를 들면, 여자는 'F' 남자는 'M'으로 표현하는 경우, 'F', 'M'이 코드가 될 수 있고 여자와 남자가 값이 될 수 있다. 좀 더 상세히 말하면, 코드 도메인은 사용할 수 있는 데이터를 제한하거나 동일한 의미의 데이터를 동일 표현으로 관리하기 위해 간략한 코드값으로 대체된 데이터를 의미할 수 있고, 일반적으로 코드 도메인은 코드와 코드값으로 관리될 수 있다. 일 예로, 코드는 성별구분코드, 고객등급코드, 부서코드, 상품코드, 지역코드 등을 의미할 수 있고, 코드값은 성별구분코드의 'M', 'F' 등과 같이 해당 정보 항목에 데이터를 대표하거나 제한하기 위한 값을 의미할 수 있다. 코드 도메인은 표준화된 코드가 미리 정의되어 관리될 수 있다. A code domain can contain code and values as predefined items of data whose type is numeric or character type. For example, if a woman is represented by an 'F' man and an 'M' by a woman, then 'F' and 'M' can be codes and women and men can be values. More specifically, a code domain may refer to data that has been replaced with a short code value to limit the data available or to manage the same semantically equivalent data. In general, the code domain is managed by code and code values . For example, the code may refer to a gender identification code, a customer rating code, a department code, a product code, a region code, and the code value may include data such as 'M', 'F' May represent values for representing or limiting. The code domain can be predefined and managed with standardized code.

ID 도메인은 USER ID와 같이 사용자가 정의하는 고유한 값을 의미할 수 있다. The ID domain can mean a user-defined unique value, such as a USER ID.

명칭 도메인은 소정 길이 이하의 문자열을 포함하며, 고객명, 상품명 등을 의미할 수 있다. 좀 더 상세히 말하면, 명칭 도메인은 다른 것과 식별하기 위하여 사물이나 인물, 단체 등에 붙이는 이름으로, 이름, 장소, 고객명, 영문고객명, URL, IP 등을 포함할 수 있다. The name domain includes a character string of a predetermined length or shorter, and may mean a customer name, a product name, and the like. More specifically, the name domain may include a name, a place, a customer name, an English customer name, a URL, an IP, and the like as a name attached to an object, a person,

내용 도메인은 소정 길이 이상의 문자열을 포함하며, 게시물 내용 또는 자기소개서 내 등을 의미할 수 있다. 좀 더 상세히 말하면, 내용 도메인의 값은 사물 또는 행위에 대한 설명이나 참고가 될만한 내용들을 기술한 데이터를 의미할 수 있으며, 정의, 설명, 비고, 내용, 요약 등 예가 존재할 수 있다. 내용 도메인은 비정형 문자로 구성되는 특성을 가질 수 있다. The content domain includes a character string of a predetermined length or more, and may mean the content of a post or a self-introduction document. More specifically, the value of the content domain may refer to data describing a description of an object or an action or contents to be referred to, and definitions, descriptions, remarks, contents, abstracts, and the like may exist. The content domain may have properties that are composed of atypical characters.

날짜 도메인은 연도, 연월, 연월일, 일자 등의 날짜를 의미할 수 있다. 좀 더 상세히 말하면, 날짜 도메인은 날짜로 관리되는 항목을 의미할 수 있으며, 접수일자, 등록일시, 결산년월, 전송시간 등 날짜 및 시간을 의미하는 데이터를 포함할 수 있다. 날짜 도메인의 데이터 타입은 DBMS에서 제공하는 날짜 데이터 타입을 사용하는 방법과 문자 타입을 사용할 수 있다. DBMS에서 제공하는 날짜 데이터 타입을 사용하는 경우에는 DBMS 자체에서 유효하지 않은 날짜 값을 체크하기 때문에 날짜 값의 오류가 거의 없으나, 문자 타입으로 정의하여 사용하는 경우에는 잘못된 날짜값이 입력될 수 있다. The date domain can be a date, such as year, month, year, month, date, and the like. More specifically, the date domain may refer to an item managed by a date, and may include data indicating a date and time, such as a reception date, a registration date, a settlement date, and a transmission time. The date domain data type can use the date data type provided by the DBMS and the character type. When using the date data type provided by the DBMS, there is almost no error in the date value because the DBMS itself checks the invalid date value, but when the character type is defined, the wrong date value can be inputted.

플래그 도메인은 여부를 뜻하는 것으로, 0, 1, 'Y', 'N', '참', 거짓', 'True', False' 등 2개의 대향되는 값으로 구성될 수 있다. 좀 더 상세히 말하면, 플래그 도메인은 데이터의 표준화와 관리가 평이한 도메인 중에 하나로, 여부, 유무, 'Y', 'N' 또는 1, 0 등과 같이 2내지3개의 단순한 분류 값으로 구성될 수 있으며, 코드가 아닌 별개의 값으로 정의될 수 있다. 플래그 도메인에 저장되는 데이터는 항상 동일한 형태로 관리되어 정보 시스템 간의 정합성을 유지할 수 있다. The flag domain means whether there are two opposing values such as 0, 1, 'Y', 'N', 'True', 'False', 'True', and False '. More specifically, the flag domain may be composed of two or three simple classification values such as whether or not the data is normalized and managed in a plain domain, such as whether or not there is 'Y', 'N' But can be defined as a separate value. The data stored in the flag domain is always managed in the same form so that the consistency between the information systems can be maintained.

번호 도메인은 고객번호, 상품번호 등 순사적으로 증가하는 의미가 없는 숫자값을 의미할 수 있다. 좀 더 상세히 말하면, 번호 도메인은 문자 또는 숫자들의 조합에 의해 구성되며 대부분 내외부적인 번호 체 계에 따라 관리될 수 있다. 번호 도메인은 주민등록번호, 사업자등록번호, 우편번호, 법인번호, IP Address, 국제표준자료번호(ISBN/ISSN) 등과 같이 국내· 외 표준 번호 체계를 공통적으로 준수하는 데이터 또는, 사용자번호, 계좌번호, 허가번호, 승인번호, 등록번호, 상품번호 등과 같이 기업 내부적인 표준 번호 관리 체계에 따라 관리되는 데이터가 존재할 수 있다. The number domain can mean a numerical value that has no meaningful increase in order, such as a customer number and a product number. More specifically, the number domain is composed of a combination of letters or numbers and can be managed according to the internal and external numbering system. The number domain is the data that commonly conforms to the national and international standard numbering system such as resident registration number, business registration number, postal code, corporation number, IP address, international standard number (ISBN / ISSN) There may be data managed according to the company's internal standard number management system such as number, approval number, registration number, and product number.

연락처 도메인은 주소, 이메일, 연락처와 같은 정보를 포함하는 데이터를 의미할 수 있다.A contact domain may refer to data that includes information such as an address, an email, or a contact.

이상 탐지부(120)는 데이터 타입에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지할 수 있다. 예를 들어, 이상 탐지부(120)는 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 금액 도메인이면, 제 1 데이터의 이상 여부를 박스플롯(Boxplot) 알고리즘을 통해 탐지할 수 있다. The anomaly detection unit 120 can detect the abnormality of the first data based on the data type through the first artificial intelligence algorithm. For example, if the first reference information is a data type, the second reference information is a domain, the data type is a fixed data type, and the domain is an amount domain, the abnormality detection unit 120 determines whether the first data is abnormal It can be detected through the Boxplot algorithm.

즉, 이상 탐지부(120)는 탐지 대상 데이터베이스(30)의 데이터가 정형 데이터이고, 금액 도메인인 경우, 박스 플롯 알고리즘을 통해 탐지 대상 데이터베이스(30)의 데이터에 대하여 정상 범위를 벗어나는 이상치를 가지는 것으로 탐지할 수 있다. That is, when the data of the detection subject database 30 is the stereotyped data and the money amount domain, the abnormality detection unit 120 has an abnormal value that deviates from the normal range with respect to the data of the detection subject database 30 through the box plot algorithm It can detect.

박스 플롯 알고리즘은 데이터의 분포 정도를 박스 형태로 나타내는 알고리즘으로, 데이터 또는 데이터 셋(SET)에 대하여 평균값, 중앙값, 하위 25%의 값을 나타내는 하위 일분위 값, 상위 75%의 값을 나타내는 상위 삼분위 값, 상한값, 하한값 및 사분위수 범위 등을 측정하고, 상한값을 초과하는 데이터 또는 하한값 미만의 데이터를 이상 값 또는 이상치를 가지는 것으로 탐지할 수 있다. 이 때, 사분위수 점수는 상위 삼분위 값에서 하위 삼분위 값을 뺀 범위를 의미하며, 일반적으로 상한값은 상위 삼분위 값에 1.5를 곱한값, 하한값은 하위 1분위 값에 1.5를 곱한값으로 결정할 수 있다. The box plot algorithm is an algorithm that shows the degree of distribution of the data in a box form. It has a mean value, a median value, a lower first decile value indicating a value of the lower 25%, and an upper third value The upper limit value, the upper limit value, the lower limit value and the quadrature range can be measured, and data exceeding the upper limit value or data below the lower limit value can be detected as having an abnormal value or an abnormal value. In this case, the quartile score means a range obtained by subtracting the lower third value from the upper third value. Generally, the upper value is determined by multiplying the upper third value by 1.5, and the lower value is determined by multiplying the lower first value by 1.5 .

도 3a 내지 3c는 본원의 일 실시예에 따른 데이터의 이상 탐지를 나타내는 도면이다. 좀 더 상세한 예를 들어, 도3a를 참조하면, 어느 한 고등학교의 성적 데이터베이스 중 수학 성적 데이터에 대한 이상 탐지부(120)의 동작이 설명된다. 이상 탐지부(120)는 해당 데이터가 정형 데이터이고, 수 도메인이기 때문에, 박스플롯 알고리즘을 통해 이상치를 탐지할 수 있다. 이상 탐지부(120)는 박스플롯 알고리즘에 기초하여 수학 성적 데이터(또는 수학 성적 데이터를 포함하는 컬럼)의 평균은 46.6점이고, 상위 삼분위 값은 53.8, 하위 일분위 값을 38.6으로 결정할 수 있고, 이에 기초하여 상한값을 80.7로 결정하고, 하한값을 25.4로 결정할 수 있다. 이후 이상 탐지부(120)는 탐지 대상 데이터베이스(30) 내에 80.7을 초과하는 데이터 또는 25.4 미만인 데이터가 위치하는 경우, 해당 데이터가 이상치를 가지는 것으로 탐지할 수 있다. 3A to 3C are diagrams illustrating abnormal detection of data according to an embodiment of the present invention. For example, referring to FIG. 3A, the operation of the abnormality detection unit 120 for mathematical sexual data in a sexual database of a high school is described. The anomaly detection unit 120 can detect the abnormal value through the box plot algorithm because the corresponding data is the fixed data and the number domain. Based on the box plot algorithm, the abnormality detection unit 120 can determine the average of the mathematical performance data (or the column including the mathematical performance data) to be 46.6 points, the upper third value to 53.8, and the lower first decile value to 38.6, Based on this, the upper limit value can be determined as 80.7, and the lower limit value can be determined as 25.4. The abnormality detection unit 120 can detect that the data has an abnormal value when data exceeding 80.7 or less than 25.4 is located in the detection subject database 30. [

데이터가 정규분포를 따르는 경우, 박스플롯 알고리즘의 상한치를 초과하거나, 하한치 미만의 값이 존재할 확률은 각각 0.35%정도로 작을 수 있다. If the data follows a normal distribution, the probability of exceeding the upper limit value of the box plot algorithm or having a value lower than the lower limit value may be as small as 0.35%, respectively.

한편, 이상 탐지부(120)는 제 1 기준 정보가 정형 데이터이고, 제 2 기준 정보가 수 도메인인 경우, 히스토그램 알고리즘을 통해 데이터의 이상 여부를 탐지할 수도 있다. 히스토그램 알고리즘은 표로 되어있는 도수 분포를 정보 그림으로 나타낸 것으로, 도수분포표를 그래프로 나타낸 것을 의미할 수 있다. 이 때, 이상 탐지부(120)는 도수분포에 기초하여 해당 데이터의 이상 여부를 탐지할 수 있다. On the other hand, if the first reference information is the fixed data and the second reference information is the number domain, the abnormality detection unit 120 may detect abnormality of the data through the histogram algorithm. The histogram algorithm is a graph showing the distribution of frequencies in a table as information graphs, which can be expressed as a graph of the frequency distribution table. At this time, the abnormality detection unit 120 can detect abnormality of the data based on the frequency distribution.

다른 예에서, 이상 탐지부(120)는 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 메타데이터인 경우, 데이터 타입이 비정형 데이터 타입이고, JPEG(Joint Photographic Experts Group) 포맷이면, 제 1 데이터의 이상 여부를 딥 러닝(Deep Learning) 알고리즘을 통해 탐지할 수 있다. In another example, if the first reference information is a data type, the second reference information is metadata, the data type is an unstructured data type, and the JPEG (Joint Photographic Experts Group) format is used, It is possible to detect the abnormality of data through the Deep Learning algorithm.

예를 들면, 이상 탐지부(120)는 데이터가 비정형 데이터 타입이고, 그림 파일 포맷인 경우, 딥 러닝 알고리즘에 기초하여 데이터의 이상 여부를 탐지할 수 있다. 도 3b를 통해 상세히 설명하면, 이상 탐지부(120)는 이미지에 대하여 이미지를 일정 크기의 셀로 분할하고, 각 셀마다 특징점(Edge, 외곽선)을 추출하고, 추출된 특징점들의 방향에 대한 히스토그램을 구하고, 히스토그램 간의 유사도 또는 추출된 특징점들의 방향 또는 방향 벡터 간의 유사도에 기초하여 이미지에 대한 이상치를 탐지할 수 있다. 추출된 특징점들의 방향 벡터 간의 유사도는 특징점들의 방향 벡터 간의 각도 차이가 작을수록 유사도가 높으며, 특징점들의 방향 벡터 간의 각도 차이가 클수록 유사도가 낮은 것으로 판단할 수 있다. For example, the abnormality detection unit 120 can detect abnormality of data based on the deep learning algorithm when the data is an unstructured data type and a picture file format. 3B, the anomaly detection unit 120 divides an image into cells of a predetermined size, extracts feature points (edge, outline) for each cell, obtains a histogram of the directions of the extracted feature points , An ideal value for the image can be detected based on the similarity between the histograms or the similarity between the direction of the extracted feature points or the direction vector. The degree of similarity between the direction vectors of the extracted minutiae points is higher as the angle difference between the directional vectors of the minutiae points is smaller, and it can be judged that the degree of similarity is lower as the angle difference between the direction vectors of the minutiae points is larger.

좀 더 상세히 예를 들면, 탐지 대상 데이터베이스(30)가 자동차 보험 데이터베이스인 경우, 이상 탐지부(120)는 자동차 간 접촉 사고 이미지를 기초로 유사도가 낮은 이미지들을 이상치로 탐지할 수 있다. 이상 탐지부(120)는 자동차 사진을 포함하는 자동차 간의 접촉 사고와 관련 없는 이미지들을 이상치로 탐지할 수 있다. 이 때, 이상 탐지부(120)는 딥 러닝 알고리즘에 기초하여 탐지 결과를 학습하여, 이미지에 대한 학습 횟수가 누적될수록 탐지에 대한 정확도를 증가시킬 수 있고, 이에 따라 이상치 탐지에 대한 신뢰도를 향상시킬 수 있다. More specifically, for example, when the detection subject database 30 is an automobile insurance database, the abnormality detection unit 120 can detect images with low similarity as outliers based on the automobile contact accident image. The abnormality detection unit 120 may detect abnormal images that are not related to a contact accident between the automobile including the automobile photograph. At this time, the abnormality detection unit 120 learns the detection result based on the deep learning algorithm, and as the number of learning about the image accumulates, the accuracy of the detection can be increased, thereby improving the reliability of the detection of the outliers .

이상 탐지부(120)는 제 1 데이터의 이상 탐지 결과를 저장하여, 저장된 이상 탐지 결과 역시 기준 정보의 하나로써 이용할 수 있도록 한다. 다시 말해, 이상 탐지부(120) 기준 정보 사전(20)을 통해 학습한 기준 정보 외에도, 이상 탐지부(120)를 통해 탐지된 탐지 결과를 학습하여, 이상 탐지의 정확도와 신뢰도를 증가시킬 수 있다. The anomaly detection unit 120 may store the anomaly detection result of the first data so that the stored anomaly detection result may be used as one of the reference information. In other words, in addition to the reference information learned through the reference information dictionary 20 of the abnormality detection unit 120, the detection result detected through the abnormality detection unit 120 can be learned to increase the accuracy and reliability of the abnormality detection .

이상 탐지부(120)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기중 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있고, 복수의 기준 정보 중 제 1 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 3 인공지능 알고리즘을 통해 제 3 데이터의 이상 여부를 탐지할 수도 있다. The abnormality detection unit 120 may determine whether the second data is abnormal based on the second reference information and the third suspension information among the plurality of reference information including the data type, the metadata, the domain, and the storage result, And may detect abnormality of the third data through the third artificial intelligence algorithm based on the first reference information, the third reference information, and the storage result of the plurality of reference information.

일 예로, 제 2 기준 정보가 데이터 타입이고, 제 3 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 명칭 도메인이면, 제 2 데이터의 이상 여부를 유사도 알고리즘을 통해 탐지하되, 제 2 데이터의 이상이 탐지되는 경우, 제 2 데이터와 유사도가 높은 데이터로 표준화시킬 수 있다. For example, if the second criterion information is a data type, the third criterion information is a domain, the data type is a formal data type, and the domain is a name domain, whether the second data is abnormal is detected through a similarity algorithm, 2 data abnormality is detected, it is possible to standardize the data with high degree of similarity to the second data.

다시 말해, 이상 탐지부(120)는 데이터 타입이 정형 데이터 타입이고, 명칭 도메인인 경우, 데이터의 유사도에 기초하여 가장 많은 중복값을 가지는 명칭을 표준화 데이터로 결정하고, 표준화 데이터로 결정된 데이터와 다른 데이터를 이상치인 것으로 탐지할 수 있다. In other words, if the data type is a regular data type and is a name domain, the abnormality detection unit 120 determines the name having the largest number of redundant values as the standardized data based on the similarity of the data, The data can be detected as being abnormal.

도 3c를 참조하여 예를 들면, 이상 탐지부(120)는 상표 명칭 데이터베이스가 탐지 대상 데이터베이스(30)인 경우, 해당 컬럼의 데이터에 대한 중복된 데이터 및 유사도가 높은 데이터를 묶을 수 있으며, 이 중 가장 많은 중복값을 가지는 명칭을 표준화 데이터로 결정할 수 있다. 좀 더 상세히 말하면, 이상 탐지부(120)는 상표 명칭 데이터베이스에서 데이터간의 유사도에 기초하여 '메트로시티'를 100건, '메트로씨티'를 5건 총 2가지 패턴의 데이터 105건을 탐지할 수 있고, 5건의 '메트로씨티'를 이상치로 탐지하여 결정할 수 있다. 이 때, 이상 탐지부(120)는 가장 많은 데이터가 검색된 '메트로시티'를 표준화 데이터로 결정하고, 이상치를 가지는 데이터인 '메트로씨티'를 표준화 데이터인 '메트로시티'로 변경하여 표준화 시킬 수 있다. Referring to FIG. 3C, for example, when the trademark name database is the detection subject database 30, the abnormality detection unit 120 can bundle the duplicated data and the highly similar data with respect to the data of the corresponding column, The name having the largest number of duplicate values can be determined as the standardized data. More specifically, the abnormality detection unit 120 can detect 105 data of two patterns of 'metro city' and 'metro city' based on the degree of similarity between data in the trademark name database , And five cases of 'Metro City' can be determined by detecting an outlier. At this time, the abnormality detection unit 120 may determine the metric city in which the largest amount of data is searched as the standardized data, and change the metric city, which is the data having the abnormal value, to the metric city, which is the standardized data, .

한편, 위와 유사하게 이상 탐지부(120)는 '빈폴' 또는 '빈 폴' 중 중복값이 가장 많은 '빈폴'을 표준화 데이터로 결정하여, '빈 폴'을 '빈폴'로 표준화 시킬 수 있으며, 'MONTBLANC', 'MONT BLANC' 또는 'MONTBLANCC' 중 가장 많은 중복값이 탐지된 'MONTBLANC'를 표준화 데이터로 결정할 수 있다. Similarly, the abnormality detection unit 120 may standardize the 'empty pole' to 'beanpole' by determining 'beanpole' having the greatest duplicate value among 'beanpole' or 'beanpole' as standardized data, MONTBLANC ',' MONTBLANC ', or' MONTBLANCC ', which is the most redundant value detected, can be determined as the standardized data.

이상 탐지부(120)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과 및 제 1 데이터에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있다. 일 예로, 이상 탐지부(120)는 제 2 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 제 2 기준 정보가 정형 데이터 타입이고, 도메인이 수 도메인이면, 제 1 데이터와의 관계 정보에 기초하여 제 2 데이터의 이상 여부를 선형회귀 알고리즘을 통해 탐지할 수 있다. The abnormality detection unit 120 may determine abnormality of the second data based on the second reference information and the third reference information among the plurality of reference information including the data type, the metadata, the domain, and the storage result and the first data, It can be detected through artificial intelligence algorithms. For example, if the second criterion information is a data type, the second criterion information is a domain, the second criterion information is a fixed data type, and the domain is a number domain, Based on the information, it is possible to detect the abnormality of the second data through the linear regression algorithm.

좀 더 상세히 설명하면, 탐지 대상 데이터베이스(30)가 고등학생의 표준 키와 몸무게를 포함하는 데이터베이스인 경우, 이상 탐지부(120)는 키와 몸무게의 관계를 고려하여 선형회기 알고리즘을 통해 이상치를 탐지할 수 있다. 즉, 키가 140cm 인 경우와, 몸무게가 100kg인 경우 이상 탐지부(120)는 이상치로 탐지하지 않으나, 키가 140cm인 학생이 100kg의 몸무게를 가지는 경우에는 선형회기 알고리즘에 기초하여 이상치로 탐지할 수 있다. More specifically, when the detection object database 30 is a database including a standard key and a weight of a high school student, the abnormality detection unit 120 detects an abnormal value using a linear regression algorithm in consideration of the relationship between the key and the weight . That is, in the case where the height is 140 cm and the body weight is 100 kg, the abnormality detection unit 120 does not detect an abnormal value, but when a student having a height of 140 cm has a body weight of 100 kg, .

이상 탐지부(120)는 계속하여 변화되고 추가되는 빅데이터의 특성을 고려하여 탐지 대상 데이터베이스(30) 내에서 인공지능에 기반하여 데이터에 대한 이상치를 자동으로 탐지하고, 탐지 결과를 사용자(운영자 또는 관리자)에게 직관적으로 전달하여 이해하기 쉬운 형태로 디스플레이 할 수 있다. 다시 말해, 이상 탐지부(120)는 이상치 탐지 결과를 사용자에게 표시함으로써, 이상치 탐지 결과 및 탐지 결과를 시스템에 반영하기 위한 사용자로부터의 확인 절차를 수행할 수 있다. The abnormality detection unit 120 automatically detects an abnormal value for the data based on the artificial intelligence in the detection subject database 30 in consideration of the characteristics of the big data that is continuously changed and added and outputs the detection result to the user Manager) to display it in an easy-to-understand format. In other words, the anomaly detection unit 120 can perform a confirmation process from the user to reflect the outlier detection result and the detection result to the system by displaying the outliers detection result to the user.

이상 탐지부(120)는 제 2 데이터의 이상 탐지 결과를 데이터베이스(110)에 저장하여 새로운 기준 정보로써 탐지 대상 데이터베이스(30)의 이상 탐지에 이용할 수도 있다. The abnormality detection unit 120 may store the abnormality detection result of the second data in the database 110 and use it as abnormality detection of the detection subject database 30 as new reference information.

데이터베이스(110)는 빅데이터를 포함할 수 있으며 정형 데이터 및 비정형 데이터를 모두 포함할 수 있다. 데이터베이스(110)는 반정형 데이터를 포함할 수도 있다. The database 110 may include big data and may include both structured data and unstructured data. The database 110 may include semi-structured data.

이상 탐지부(120)는 데이터베이스(110)에 저장된 학습 결과인 데이터 컬럼 등을 포함하는 복수의 기준 정보에 기초하여 탐지 대상 데이터베이스(30)에 대한 이상치를 탐지할 수 있으며, 이에 기초하여 다양한 알고리즘을 통해 탐지된 이상치 탐지 결과를 기반으로 반복학습을 수행하여 이상치 탐지 결과에 대한 정확도와 신뢰도를 점차적으로 향상시킬 수 있다. 다시 말해, 이상 탐지부(120)는 이상치 탐지 결과를 데이터베이스(110)에 저장하고, 저장된 이상치 탐지 결과를 하나의 기준 정보로서 활용하여 다른 데이터에 대한 이상치 탐지에 이용할 수 있다. The abnormality detection unit 120 can detect an abnormal value for the detection subject database 30 based on a plurality of reference information including data columns or the like which are learning results stored in the database 110. Based on this, It is possible to gradually improve the accuracy and reliability of the outlier detection result by performing the iterative learning based on the outlier detection result detected through the detection. In other words, the anomaly detection unit 120 may store the outliers detection result in the database 110, and use the stored outliers detection result as one reference information to detect outliers for other data.

도메인domain 사용 알고리즘Usage algorithm 상세Detail 금액Price Boxplot
Histogram
Boxplot
Histogram
상자그림, 히스토그램을 이용하여 이상치 탐지Outlier detection using box picture and histogram
Number Boxplot
Histogram
Boxplot
Histogram
상자그림, 히스토그램을 이용하여 이상치 탐지Outlier detection using box picture and histogram
rate Boxplot
Histogram
Boxplot
Histogram
상자그림, 히스토그램을 이용하여 이상치 탐지Outlier detection using box picture and histogram
사진Picture Deep LearningDeep Learning 사진 유형별 선행 학습을 통하여 유사도 기반 이미지 클러스터링Similarity-based image clustering through prior learning by photo type 텍스트text Deep LearningDeep Learning 메타데이터를 이용한 텍스트 유형별 필요 메타데이터 및 값 존재 여부를 판별Determine whether necessary metadata and values exist for each type of text using metadata

표 1은 데이터 타입 및 도메인의 종류에 따라 이상 탐지부(120)에서 이상 탐지를 위해 결정하는 인공지능 알고리즘을 예시하고 있다. 이상 탐지부(120)는 금액, 수, 율 도메인 등과 같이 숫자와 관계한 도메인의 경우, 박스플롯 알고리즘 내지 히스토그램 알고리즘을 통해 이상치를 탐지할 수 있고, 사진 또는 텍스트와 같은 비정형 데이터 타입 및 이에 대응하는 도메인의 경우 딥러닝 알고리즘 따라 이미지의 유사도, 텍스트 유형, 메타데이터 간의 유사도 알고리즘을 통해 이상치를 탐지할 수도 있다. 다만, 표1에 도시된 것들은 본원의 다양한 실시예 중 하나에 불과하므로 이에 한정되는 것은 아니다. Table 1 illustrates an artificial intelligence algorithm that is determined for anomaly detection by the anomaly detection unit 120 according to a data type and a domain type. The abnormality detector 120 can detect an abnormal value through a box plot algorithm or a histogram algorithm in the case of a domain related to a number such as a money amount, a number rate domain, and the like, and can detect an irregular data type such as a photograph or text, In the case of a domain, it is possible to detect an abnormal value through a similarity algorithm between image similarity, text type, and metadata according to a deep learning algorithm. However, those shown in Table 1 are only examples of various embodiments of the present invention, and thus the present invention is not limited thereto.

즉, 이상 탐지부(120)는 탐지 대상 데이터가 정형 데이터인지 비정형 데이터인지 여부, 데이터에 대하여 결정된 도메인 또는 도메인의 성격, 메타데이터, 도메인, 컬럼 또는 데이터 간의 관계 정보 등 다양한 기준 정보에 기초하여 이상치 탐지를 위한 인공지능 알고리즘을 결정하고, 결정된 인공지능 알고리즘에 기초하여 탐지 대상 데이터 또는 데이터베이스에 대한 이상 탐지를 수행할 수 있다. 인공지능 알고리즘과 관련하여 박스플롯 알고리즘, 히스토그램 알고리즘, 선형회기 알고리즘, 딥러닝 알고리즘 등의 알고리즘이 포함될 수 있으나 이에 한정되는 것은 아니며 다양한 알고리즘이 더 존재할 수 있다. That is, the abnormality detection unit 120 determines whether or not the detection target data is abnormal data based on various standard information such as whether the detection target data is fixed data or non-fixed data, the domain or domain determined for the data, metadata, domain, Determine an artificial intelligence algorithm for detection, and perform anomaly detection on the object data or database based on the determined artificial intelligence algorithm. Algorithms such as a box plot algorithm, a histogram algorithm, a linear regression algorithm, and a deep running algorithm may be included in the artificial intelligence algorithm, but the present invention is not limited thereto and various algorithms may be present.

도 4는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 과정을 나타내는 흐름도이다. 도 4를 참조하면, 단계 S401에서 이상 탐지 장치(10)는 기준 정보 사전(20)에 기초하여 이상치 탐지를 위한 기준 정보에 대한 데이터를 학습하고, 단계 S402에서 학습 결과를 데이터베이스(110)에 저장할 수 있다. 이후, 단계 S403에서 이상 탐지 장치(10)는 학습 결과에 기초하여 탐지 대상 데이터베이스(30)에 포함된 데이터에 대한 이상 탐지를 수행하고, 단계 S404에서 탐지 결과, 탐지에 사용된 기준 정보 또는 탐지에 사용된 인공지능 알고리즘 등 탐지 결과와 관련된 정보를 데이터베이스(110)에 저장할 수 있다. 단계 S405에서 이상 탐지 장치(10)는 복수의 기준 정보 및 데이터베이스(110)에 저장된 저장 결과에 기초하여 다양한 인공지능 알고리즘을 이용하여 다른 데이터에 대한 이상치를 탐지할 수 있다. FIG. 4 is a flowchart illustrating a process of detecting abnormality of data according to an embodiment of the present invention. Referring to FIG. 4, in step S401, the anomaly detection device 10 learns data on reference information for abnormal value detection based on the reference information dictionary 20, and stores the learning result in the database 110 in step S402 . Thereafter, in step S403, the abnormality detection device 10 performs abnormality detection on the data included in the detection subject database 30 based on the learning result, and in step S404, the detection result, the reference information used for detection, Information related to the detection result such as the artificial intelligence algorithm used may be stored in the database 110. [ In step S405, the anomaly detection apparatus 10 can detect abnormal values for other data using various artificial intelligence algorithms based on a plurality of reference information and stored results stored in the database 110. [

즉, 본원의 일 실시예에 따른 이상 탐지 장치(10)는 탐지 대상 데이터베이스(30)에 대하여 복수의 기준 정보 및 복수의 인공지능 알고리즘을 통해 데이터에 대한 이상치 탐지를 수행할 수 있으며, 이상치 탐지의 횟수가 많아질수록 학습을 통해 이상치 탐지에 대한 정확도가 증가하여 데이터 품질관리의 정확도와 신뢰도가 증가할 수 있다. That is, the anomaly detection apparatus 10 according to an embodiment of the present invention can perform an outlier detection on data through a plurality of reference information and a plurality of artificial intelligence algorithms with respect to the detection subject database 30, As the frequency increases, the accuracy of detection of outliers increases through learning, and the accuracy and reliability of data quality management can be increased.

도 5는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 방법을 나타내는 동작 흐름도이다. 도 5에 도시된 이상 탐지 방법은 도 1 내지 도 4를 통해 설명 이상 탐지 장치(10)의 동작을 수행한다. 따라서 도 5에서 설명되지 않은 내용은 도 1 내지 도 4를 통해 설명된 이상 탐지 장치(10)의 설명에도 적용되므로 자세한 설명은 생략된다.5 is an operational flow diagram illustrating a method for detecting anomalies in data in accordance with one embodiment of the present application. The anomaly detection method shown in Fig. 5 performs the operation of the explanatory error detection apparatus 10 through Figs. 1 to 4. Fig. Therefore, the description not illustrated in FIG. 5 is also applied to the description of the anomaly detection apparatus 10 described with reference to FIGS. 1 to 4, so that a detailed description thereof will be omitted.

도 5를 참조하면, 단계 S501에서 이상 탐지 장치(10)는 데이터 타입, 상기 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하고, 단계 S502에서 제 1 데이터의 이상 탐지 결과를 저장한다. Referring to FIG. 5, in step S501, the anomaly detection device 10 determines whether or not the first data is abnormal based on the first reference information and the second reference information among the plurality of reference information including the data type, the metadata, Through the first artificial intelligence algorithm, and stores an abnormality detection result of the first data in step S502.

이후, 단계 S503에서 이상 탐지 장치(10)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있다. Thereafter, in step S503, the abnormality detection apparatus 10 determines whether or not the second data is abnormal based on the second reference information and the third reference information among the plurality of reference information including the data type, the metadata, and the domain, 2 artificial intelligence algorithms.

본원은 빅데이터를 적용한 시스템 내에서 인공지능 기반의 데이터 이상치 탐지를 수행함으로써, 빅데이터에 대한 품질의 신뢰성을 향상시키기 위한 장치 및 방법을 제공할 수 있다. 이를 위해 본원은 다양한 기준 정보에 기초하여 이상치 탐지를 위한 인공지능 알고리즘을 결정하여 적절한 방법을 통해 데이터에 대한 이상치를 탐지할 수 있다. The present invention can provide an apparatus and method for improving reliability of quality of big data by performing artificial intelligence based data outlier detection in a system to which big data is applied. To this end, we can determine an artificial intelligence algorithm for detection of anomaly based on various standard information and detect abnormal values for data through appropriate methods.

본원은 기준 정보 사전을 기반으로 인공지능을 통한 선행학습을 수행하고, 선행학습 결과를 기반으로 탐지 대상 데이터베이스에 대한 이상치 탐지를 수행할 수 있다. 이상치 탐지 결과 역시 저장하여 학습함으로써, 이상치 탐지의 정확도를 증가시킬 수 있다. 이러한 본원은 데이터 품질 관리를 위해 엔지니어가 수작업으로 진행하던 업무를 자동화 할 수 있으며, 자동화 함으로써, 투입인력을 최소화하고, 인력의 개입 없이 지속적인 데이터 품질 관리를 수행할 수 있다. We can perform preliminary learning through artificial intelligence based on the reference information dictionary and perform outlier detection on the detection target database based on the preliminary learning result. By storing and learning outlier detection results, accuracy of outlier detection can be increased. By automating and automating the tasks that the engineer carries on manually for data quality management, this department can minimize the input workforce and perform continuous data quality management without human intervention.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those of ordinary skill in the art that the foregoing description of the embodiments is for illustrative purposes and that those skilled in the art can easily modify the invention without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be interpreted as being included in the scope of the present invention.

10: 이상 탐지 장치
110: 데이터베이스
120: 이상 탐지부
30: 탐지 대상 데이터베이스
10: Abnormal detection device
110: Database
120: abnormality detection unit
30: Database to be detected

Claims (11)

데이터의 이상을 탐지하는 방법에 있어서,
데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 단계;
상기 제 1 데이터의 이상 탐지 결과를 저장하는 단계; 및
상기 데이터 타입, 상기 메타데이터, 상기 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 상기 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지하는 단계를 포함하는 것인, 이상 탐지 방법.
A method for detecting anomalies in data,
Detecting, through a first artificial intelligence algorithm, an abnormality of the first data based on first reference information and second reference information among a plurality of reference information including a data type, metadata, and domain;
Storing an abnormality detection result of the first data; And
The second artificial intelligence algorithm detects whether the second data is abnormal based on the second reference information and the third reference information among the plurality of reference information including the data type, the metadata, the domain, and the storage result The method comprising the steps of:
제 1 항에 있어서,
상기 데이터 타입, 상기 메타데이터, 상기 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 3 기준 정보와 상기 저장 결과에 기초하여 제 3 인공지능 알고리즘으로 통해 제 3 데이터의 이상 여부를 탐지하는 단계를 포함하는 것인, 이상 탐지 방법.
The method according to claim 1,
The third artificial intelligence algorithm detects an abnormality of the third data based on the data type, the metadata, the first reference information and the third reference information among the plurality of reference information including the domain, and the storage result The method comprising the steps of:
제 1 항에 있어서,
상기 데이터 타입은 상기 제 1 데이터를 정형 데이터 타입 또는 비정형 데이터 타입 중 어느 하나로 분류하는 것이고,
상기 제 1 데이터의 이상 여부를 탐지하는 단계는
상기 데이터 타입에 기초하여 상기 제 1 데이터의 이상 여부를 상기 제 1 인공지능 알고리즘을 통해 탐지하는 것인, 이상 탐지 방법.
The method according to claim 1,
Wherein the data type classifies the first data into either a structured data type or an unstructured data type,
The step of detecting the abnormality of the first data
And detects whether the first data is abnormal based on the data type through the first artificial intelligence algorithm.
제 3 항에 있어서,
상기 제 1 데이터의 이상 여부를 탐지하는 단계는,
상기 제 1 기준 정보가 상기 데이터 타입이고, 상기 제 2 기준 정보가 상기 도메인인 경우, 상기 데이터 타입이 상기 정형 데이터 타입이고, 상기 도메인이 금액 도메인이면, 상기 제 1 데이터의 이상 여부를 박스플롯(Boxplot) 알고리즘을 통해 탐지하는 것인, 이상 탐지 방법.
The method of claim 3,
Wherein the step of detecting the abnormality of the first data comprises:
Wherein if the first reference information is the data type, the second reference information is the domain, the data type is the regular data type, and the domain is the money domain, Boxplot) algorithms.
제 3 항에 있어서,
상기 제 1 데이터의 이상 여부를 탐지하는 단계는,
상기 제 1 기준 정보가 상기 데이터 타입이고, 상기 제 2 기준 정보가 상기 메타데이터인 경우, 상기 데이터 타입이 비정형 데이터 타입이고, JPEG(Joint Photographic Experts Group) 포맷이면, 상기 제 1 데이터의 이상 여부를 딥 러닝(Deep Learning) 알고리즘을 통해 탐지하는 것인, 이상 탐지 방법.
The method of claim 3,
Wherein the step of detecting the abnormality of the first data comprises:
Wherein if the first reference information is the data type and the second reference information is the metadata, if the data type is an unstructured data type and the Joint Photographic Experts Group (JPEG) format, An anomaly detection method, which is detected through a Deep Learning algorithm.
제 1 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는,
상기 데이터 타입, 상기 메타데이터, 상기 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 상기 저장 결과 및 제 1 데이터에 기초하여 상기 제 2 데이터의 이상 여부를 상기 제 2 인공지능 알고리즘을 통해 탐지하는 것인, 이상 탐지 방법.
The method according to claim 1,
Wherein the step of detecting the abnormality of the second data comprises:
The second data, the meta data, the second reference information and the third reference information among the plurality of reference information including the domain, and the storage result and the first data, An anomaly detection method that detects through an intelligent algorithm.
제 6 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는,
상기 제 2 기준 정보가 상기 데이터 타입이고, 상기 제 2 기준 정보가 상기 도메인인 경우, 상기 데이터 타입이 정형 데이터 타입이고, 상기 도메인이 수 도메인이면, 상기 제 1 데이터와의 관계 정보에 기초하여 상기 제 2 데이터의 이상 여부를 선형회귀 알고리즘을 통해 탐지하는 것인, 이상 탐지 방법.
The method according to claim 6,
Wherein the step of detecting the abnormality of the second data comprises:
Wherein when the second reference information is the data type, the second reference information is the domain, the data type is the fixed data type, and the domain is the number domain, And detecting whether the second data is abnormal through a linear regression algorithm.
제 1 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계 이후에,
상기 제 2 데이터의 이상 탐지 결과를 저장하는 단계를 더 포함하는 것인, 이상 탐지 방법.
The method according to claim 1,
After detecting the abnormality of the second data,
And storing an abnormality detection result of the second data.
제 1 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는
상기 제 2 데이터의 이상이 탐지되는 경우, 상기 제 2 데이터를 표준화시키는 것인, 이상 탐지 방법.
The method according to claim 1,
The step of detecting the abnormality of the second data
And normalizes the second data when an abnormality of the second data is detected.
제 9 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는,
상기 제 2 기준 정보가 상기 데이터 타입이고, 상기 제 3 기준 정보가 상기 도메인인 경우, 상기 데이터 타입이 정형 데이터 타입이고, 상기 도메인이 명칭 도메인이면, 상기 제 2 데이터의 이상 여부를 유사도 알고리즘을 통해 탐지하되,
상기 제 2 데이터의 이상이 탐지되는 경우, 상기 유사도 알고리즘에 기초하여 상기 제 2 데이터를 표준화시키는 것인, 이상 탐지 방법.
10. The method of claim 9,
Wherein the step of detecting the abnormality of the second data comprises:
And if the second reference information is the data type, the third reference information is the domain, the data type is the fixed data type, and the domain is the name domain, whether the second data is abnormal Detect,
And normalizes the second data based on the similarity algorithm when an abnormality of the second data is detected.
데이터의 이상을 탐지하는 장치에 있어서,
데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 이상 탐지부; 및
상기 제 1 데이터의 이상 탐지 결과를 저장하는 데이터베이스를 포함하되,
상기 이상 탐지부는 상기 데이터 타입, 상기 메타데이터, 상기 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 상기 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지하는 것인, 이상 탐지 장치.

An apparatus for detecting abnormality in data,
An abnormality detection unit for detecting an abnormality of the first data based on first reference information and second reference information among a plurality of reference information including a data type, metadata, and a domain through a first artificial intelligence algorithm; And
And a database for storing an abnormality detection result of the first data,
The abnormality detection unit may determine abnormality of the second data based on the data type, the metadata, the second reference information and the third reference information among the plurality of reference information including the domain, Which is an anomaly detection device.

KR1020170024639A 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM KR101965598B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170024639A KR101965598B1 (en) 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM
PCT/KR2018/000581 WO2018155817A1 (en) 2017-02-24 2018-01-12 Device for detecting abnormality of data in abnormality detection system, and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170024639A KR101965598B1 (en) 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM

Publications (2)

Publication Number Publication Date
KR20180097895A true KR20180097895A (en) 2018-09-03
KR101965598B1 KR101965598B1 (en) 2019-08-13

Family

ID=63253733

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170024639A KR101965598B1 (en) 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM

Country Status (2)

Country Link
KR (1) KR101965598B1 (en)
WO (1) WO2018155817A1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020050671A1 (en) * 2018-09-06 2020-03-12 Samsung Electronics Co., Ltd. Method and apparatus for normalising data in artificial intelligence system
WO2020218663A1 (en) * 2019-04-23 2020-10-29 (주) 위세아이텍 Device and method for automating process for detecting abnormal values in big data
KR102274389B1 (en) * 2020-09-18 2021-07-06 (주)위세아이텍 Method for building anomaly pattern detection model using sensor data, apparatus and method for detecting anomaly using the same
KR102299660B1 (en) 2021-02-23 2021-09-08 국민대학교산학협력단 Anomaly detecting method and anomaly detecting apparatus
KR102309764B1 (en) * 2020-11-24 2021-10-08 주식회사 하스퍼 Fpga device for performing distributed processing for multiple gpus and method for performing distributed processing using the same
KR102325629B1 (en) 2020-09-18 2021-11-11 국민대학교산학협력단 Anomaly detecting method and anomaly detecting apparatus

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507091A (en) * 2019-01-11 2020-08-07 北大方正信息产业集团有限公司 Entry checking method, device, equipment and storage medium for publication
KR102179290B1 (en) 2019-11-07 2020-11-18 연세대학교 산학협력단 Method for indentifying anomaly symptom about workload data
KR102541934B1 (en) * 2020-11-20 2023-06-12 주식회사 피씨엔 Big data intelligent collecting system
CN116703263B (en) * 2023-05-19 2024-01-16 国网物资有限公司 Power equipment distribution method, device, electronic equipment and computer readable medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198706A (en) * 1996-11-15 1998-07-31 Digital Vision Lab:Kk Information retrieval device, and method therefor
KR20000055986A (en) * 1999-02-12 2000-09-15 조정남 System and method for automatically extracting and verifing the data
KR100433584B1 (en) * 2000-12-12 2004-06-04 한국전자통신연구원 Method for product detailed information extraction of internet shopping mall with ontology and wrapper data
US20060229931A1 (en) * 2005-04-07 2006-10-12 Ariel Fligler Device, system, and method of data monitoring, collection and analysis
KR100961461B1 (en) * 2001-07-31 2010-06-08 그레이스노트 아이엔씨 Multiple step identification of recordings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198706A (en) * 1996-11-15 1998-07-31 Digital Vision Lab:Kk Information retrieval device, and method therefor
KR20000055986A (en) * 1999-02-12 2000-09-15 조정남 System and method for automatically extracting and verifing the data
KR100433584B1 (en) * 2000-12-12 2004-06-04 한국전자통신연구원 Method for product detailed information extraction of internet shopping mall with ontology and wrapper data
KR100961461B1 (en) * 2001-07-31 2010-06-08 그레이스노트 아이엔씨 Multiple step identification of recordings
US20060229931A1 (en) * 2005-04-07 2006-10-12 Ariel Fligler Device, system, and method of data monitoring, collection and analysis

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020050671A1 (en) * 2018-09-06 2020-03-12 Samsung Electronics Co., Ltd. Method and apparatus for normalising data in artificial intelligence system
US11937124B2 (en) 2018-09-06 2024-03-19 Samsung Electronics Co., Ltd. Method and apparatus for normalising data in artificial intelligence system
WO2020218663A1 (en) * 2019-04-23 2020-10-29 (주) 위세아이텍 Device and method for automating process for detecting abnormal values in big data
KR102274389B1 (en) * 2020-09-18 2021-07-06 (주)위세아이텍 Method for building anomaly pattern detection model using sensor data, apparatus and method for detecting anomaly using the same
KR102325629B1 (en) 2020-09-18 2021-11-11 국민대학교산학협력단 Anomaly detecting method and anomaly detecting apparatus
KR102309764B1 (en) * 2020-11-24 2021-10-08 주식회사 하스퍼 Fpga device for performing distributed processing for multiple gpus and method for performing distributed processing using the same
KR102299660B1 (en) 2021-02-23 2021-09-08 국민대학교산학협력단 Anomaly detecting method and anomaly detecting apparatus

Also Published As

Publication number Publication date
KR101965598B1 (en) 2019-08-13
WO2018155817A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
KR20180097895A (en) APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM
US20230342634A1 (en) System and/or method for generating clean records from imperfect data using model stack(s) including classification model(s) and confidence model(s)
US10990903B2 (en) Self-learning log classification system
CN109345348B (en) Multi-dimensional information portrait recommendation method based on travel agency users
CN107220365B (en) Accurate recommendation system and method based on collaborative filtering and association rule parallel processing
CN111445028A (en) AI-driven transaction management system
US8688603B1 (en) System and method for identifying and correcting marginal false positives in machine learning models
CN106844407B (en) Tag network generation method and system based on data set correlation
CN112148889A (en) Recommendation list generation method and device
CN111242793B (en) Medical insurance data abnormality detection method and device
CN113159881B (en) Data clustering and B2B platform customer preference obtaining method and system
CN107622326A (en) User's classification, available resources Forecasting Methodology, device and equipment
CN111680506A (en) External key mapping method and device of database table, electronic equipment and storage medium
CN112241805A (en) Defect prediction using historical inspection data
CN114971294A (en) Data acquisition method, device, equipment and storage medium
KR101930034B1 (en) Apparatus and method for determining domain
CN112214609B (en) Audit method and system based on knowledge graph
Hasheminejad et al. Clustering of bank customers based on lifetime value using data mining methods
CN113537878A (en) Package delivery method, device, equipment and storage medium
KR102358357B1 (en) Estimating apparatus for market size, and control method thereof
US20230267105A1 (en) System and method for enriching and normalizing data
CN113642291B (en) Method, system, storage medium and terminal for constructing logical structure tree reported by listed companies
CN114331679A (en) Data problem analysis method and related device
CN114357184A (en) Item recommendation method and related device, electronic equipment and storage medium
CN115187387B (en) Identification method and equipment for risk merchant

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right