KR101965598B1 - APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM - Google Patents

APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM Download PDF

Info

Publication number
KR101965598B1
KR101965598B1 KR1020170024639A KR20170024639A KR101965598B1 KR 101965598 B1 KR101965598 B1 KR 101965598B1 KR 1020170024639 A KR1020170024639 A KR 1020170024639A KR 20170024639 A KR20170024639 A KR 20170024639A KR 101965598 B1 KR101965598 B1 KR 101965598B1
Authority
KR
South Korea
Prior art keywords
data
reference information
domain
algorithm
abnormality
Prior art date
Application number
KR1020170024639A
Other languages
Korean (ko)
Other versions
KR20180097895A (en
Inventor
김종현
김지혁
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020170024639A priority Critical patent/KR101965598B1/en
Priority to PCT/KR2018/000581 priority patent/WO2018155817A1/en
Publication of KR20180097895A publication Critical patent/KR20180097895A/en
Application granted granted Critical
Publication of KR101965598B1 publication Critical patent/KR101965598B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터의 이상을 탐지하는 방법은 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 단계, 제 1 데이터의 이상 탐지 결과를 저장하는 단계 및 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지하는 단계를 포함한다. The method of detecting an abnormality of data detects an abnormality of the first data through a first artificial intelligence algorithm based on the first reference information and the second reference information among a plurality of reference information including a data type, metadata, and domain. And an abnormality of the second data based on the second reference information and the third reference information and the storage result among the plurality of reference information including the data type, metadata, and domain. Detecting whether through the second AI algorithm.

Description

이상탐지시스템 내의 데이터에 대한 이상을 탐지하는 장치 및 그 방법{APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM}Apparatus and method for detecting abnormality in data in abnormal detection system {APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM}

본원은 데이터의 이상을 탐지하는 장치 및 그 방법에 관한 것으로, 인공지능을 기반으로 데이터에 대한 이상치를 자동으로 탐지하는 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for detecting abnormalities in data, and to an apparatus and method for automatically detecting abnormalities for data based on artificial intelligence.

수집된 빅 데이터의 품질을 확보하는 것 대한 요구가 증가하고 있어, 빅데이터의 품질을 확보하는 것은 중요한 화두로 대두되고 있으나, 데이터의 양은 무어의 법칙(Moore's law)에 대응하는 비율로 폭발적으로 증가하고 있어, 데이터 엔지니어의 경험과 노력으로 품질을 측정하는데 어려움이 따른다. 무어의 법칙은 반도체 집적회로의 성능이 18개월마다 2배로 증가한다는 법칙이다. 또한, 비즈니스의 복잡성 증가에 따른 정보 시스템의 복잡도도 증가하고 있으며, 데이터의 종류도 정형 데이터에서 비정형 데이터로 확장되고 있으며, 빅데이터의 활용에 대한 관심 증대에 따라 데이터의 양은 더욱 늘어나고 있다. As the demand for securing the quality of the collected big data is increasing, securing the quality of the big data has emerged as an important topic, but the amount of data has exploded at a rate corresponding to Moore's law. It is difficult to measure quality with the experience and effort of data engineers. Moore's law states that the performance of semiconductor integrated circuits doubles every 18 months. In addition, as the complexity of the business increases, the complexity of the information system is increasing. The type of data is also expanding from structured data to unstructured data, and the amount of data is increasing as interest in the use of big data increases.

데이터 관리 기술들은 데이터 저장소나 액세스(Access) 기술이 주로 발전되고 있으며, 이에 반해 데이터 품질에 대한 인식은 매우 낮고, 저품질 데이터의 피해 사례와 비용 발생에 따른 데이터 품질 관리에 대한 필요성이 대두되고 있다. 예를 들면, 2009년을 5월을 기준으로 국민연금 가입자의 주민등록번호와 이름이 일치하지 않는 사례가 30만여건에 달하고 있으며, 국외에서는 주 관공서가 이미 사망한 아동의 부모들에게 위학 학교를 선택하라는 안내문을 발송하는 사례가 있다. Data management technologies are mainly developed for data storage and access technologies. On the other hand, the awareness of data quality is very low, and there is a need for data quality management due to damages and costs of low quality data. For example, as of May 2009, there have been more than 300,000 cases where the national pension subscriber's registration number does not match the name. There is an example of sending.

이렇듯, 국내 및 국외의 공공기관 또는 기업 등지에서 사용되는 데이터베이스와 관련된 사고가 점차 증가하고 있으며, 미국 NASA의 한 연구에서 빅데이터의 경우 증가하는 데이터 양에 부합하는 데이터 품질요구사항을 만족하기 위해 자동화된 데이터 품질 측정 도구가 필요하다고 언급하는 등, 인력으로는 해결할 수 없는 데이터베이스의 품질을 자동으로 관리하고 측정하는 기술에 대한 요구도 점차 증가하고 있다. As such, incidents related to databases used in public institutions or corporations in Korea and abroad are gradually increasing, and a study by NASA in the United States is automated to satisfy data quality requirements that meet the increasing data volume in the case of big data. There is an increasing demand for technology that automatically manages and measures the quality of databases that cannot be solved by human resources, including the need for data quality measurement tools.

현재, 데이터베이스는 중요성 및 부정확한 데이터에 대한 낮은 인식, 데이터 품질 관리 비용의 인식 부족 등 데이터베이스의 데이터 품질에 대한 인식이 낮은 편에 속하며, 데이터 품질 전문가 부족으로, 기관 또는 기업에 적합한 데이터 품질 활동을 고려한 적용 기술이 요구된다. Currently, the database is in the low awareness of the data quality of the database, such as low awareness of the importance and inaccurate data, lack of awareness of data quality management costs, and lack of data quality experts, the lack of data quality experts, Application techniques considered are required.

본원의 배경이 되는 기술은 한국특허공개공보 제 2000-0055986호에 개시되어 있다.The background technology of the present application is disclosed in Korean Patent Laid-Open No. 2000-0055986.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 빅데이터 환경 내에서 데이터에 대한 이상 여부 또는 이상치를 자동으로 탐지하는 시스템을 제공하는 것을 목적으로 한다. 또한, 본원은 빅데이터 환경에서 데이터에 대한 이상치를 자동 식별 및 학습할 수 있는 인공지능 기반의 이상치 탐지하는 시스템을 제공하는 것을 목적으로 한다. The present invention is to solve the above-mentioned problems of the prior art, and an object of the present invention is to provide a system for automatically detecting anomalies or abnormalities for data in a big data environment. In addition, an object of the present invention is to provide an artificial intelligence-based outlier detection system that can automatically identify and learn outliers for data in a big data environment.

또한, 본원은 빅데이터 환경하에서 발생하는 숫자, 문자, 문자열, 사진 등의 다양한 데이터의 타입에 따라 맞춤화하여 데이터의 유형별 이상치를 탐지하는 시스템을 제공하는 것을 목적으로 한다. In addition, an object of the present invention is to provide a system for detecting abnormalities for each type of data by customizing according to various types of data, such as numbers, letters, strings, photos, etc. that occur in a big data environment.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the embodiments of the present application is not limited to the technical problems as described above, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 데이터의 이상을 탐지하는 방법은 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 단계, 제 1 데이터의 이상 탐지 결과를 저장하는 단계 및 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지하는 단계를 포함할 수 있다. As a technical means for achieving the above technical problem, a method for detecting anomaly of data includes first data based on first reference information and second reference information among a plurality of reference information including a data type, metadata, and domain. Detecting whether an abnormality is detected by using a first artificial intelligence algorithm, storing a result of detecting abnormality of the first data, and second reference information and third reference among a plurality of reference information including data types, metadata, and domains; The method may include detecting whether the second data is abnormal based on the information and the storage result through the second artificial intelligence algorithm.

또한, 본원의 일 실시예에 따른 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 3 인공지능 알고리즘으로 통해 제 3 데이터의 이상 여부를 탐지하는 것일 수 있다. In addition, based on the first reference information and the third reference information and the storage result of the plurality of reference information including the data type, metadata, domain according to an embodiment of the present application through the third artificial intelligence algorithm It may be to detect whether there is an abnormality.

또한, 본원의 일 실시예에 따른 데이터 타입은 데이터를 정형 데이터 타입 또는 비정형 데이터 타입 중 어느 하나로 분류하는 것이고, 제 1 데이터의 이상 여부를 탐지하는 단계는 데이터 타입에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 것일 수 있다.  In addition, the data type according to an embodiment of the present application is to classify the data into one of the unstructured data type or unstructured data type, and the step of detecting whether the first data is abnormal or not based on the data type whether the first data is abnormal or not. May be detected through the first AI algorithm.

또한, 본원의 일 실시예에 따른 제 1 데이터의 이상 여부를 탐지하는 단계는, 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 금액 도메인이면, 제 1 데이터의 이상 여부를 박스플롯(Boxplot) 알고리즘을 통해 탐지하는 것일 수 있다. In addition, detecting whether the first data is abnormal according to an embodiment of the present disclosure, when the first reference information is a data type and the second reference information is a domain, the data type is a formal data type, and the domain is an amount of money. If the domain, the first data may be detected through a boxplot algorithm.

또한, 본원의 일 실시예에 따른 제 1 데이터의 이상 여부를 탐지하는 단계는, 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 메타데이터인 경우, 데이터 타입이 비정형 데이터 타입이고, JPEG(Joint Photographic Experts Group) 포맷이면, 제 1 데이터의 이상 여부를 딥 러닝(Deep Learning) 알고리즘을 통해 탐지하는 것일 수 있다. In addition, detecting whether the first data is abnormal according to an embodiment of the present disclosure, when the first reference information is a data type, the second reference information is metadata, the data type is an unstructured data type, JPEG ( In the Joint Photographic Experts Group) format, the first data may be detected through a deep learning algorithm.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는, 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과 및 제 1 데이터에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지하는 것일 수 있다. In addition, the detecting of the abnormality of the second data according to an embodiment of the present application, the second reference information and the third reference information of the plurality of reference information including the data type, metadata, domain, storage result and first The abnormality of the second data may be detected through the second artificial intelligence algorithm based on the first data.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는, 제 2 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 제 2 기준 정보가 정형 데이터 타입이고, 도메인이 수 도메인이면, 제 1 데이터와의 관계 정보에 기초하여 제 2 데이터의 이상 여부를 선형회귀 알고리즘을 통해 탐지하는 것일 수 있다. In addition, detecting whether the second data is abnormal according to an embodiment of the present disclosure, when the second reference information is a data type and the second reference information is a domain, the second reference information is a standard data type, and the domain In this case, the second domain may be detected by a linear regression algorithm based on the relationship information with the first data.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계 이후에, 제 2 데이터의 이상 탐지 결과를 저장하는 단계를 더 포함하는 것일 수 있다. The method may further include storing an abnormality detection result of the second data after detecting the abnormality of the second data according to the exemplary embodiment of the present application.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는 제 2 데이터의 이상이 탐지되는 경우, 제 2 데이터를 표준화시키일 수 있다. In addition, detecting whether an abnormality of the second data according to an embodiment of the present application may normalize the second data when an abnormality of the second data is detected.

또한, 본원의 일 실시예에 따른 제 2 데이터의 이상 여부를 탐지하는 단계는, 제 2 기준 정보가 데이터 타입이고, 제 3 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 명칭 도메인이면, 제 2 데이터의 이상 여부를 유사도 알고리즘을 통해 탐지하되, 제 2 데이터의 이상이 탐지되는 경우, 제 2 데이터와 유사도가 높은 데이터로 표준화시키는 것일 수 있다. In addition, detecting whether the second data is abnormal according to an embodiment of the present disclosure, when the second reference information is a data type and the third reference information is a domain, the data type is a formal data type, and the domain is a name. In the domain, whether the abnormality of the second data is detected through a similarity algorithm, and when an abnormality of the second data is detected, the second data may be normalized to data having a high similarity with the second data.

또한, 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 장치는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하는 이상 탐지부 및 제 1 데이터의 이상 탐지 결과를 저장하는 데이터베이스를 포함하되, 이상 탐지부는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있다. In addition, the apparatus for detecting an abnormality of the data according to an embodiment of the present application whether the first data is abnormal based on the first reference information and the second reference information of a plurality of reference information including the data type, metadata, domain Includes a database for storing the abnormality detection result of the first data and the abnormality detection unit for detecting through the first artificial intelligence algorithm, the abnormality detection unit a second criterion of the plurality of reference information including the data type, metadata, domain The abnormality of the second data may be detected through the second artificial intelligence algorithm based on the information, the third reference information, and the storage result.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-mentioned means for solving the problems are merely exemplary and should not be construed as limiting the present application. In addition to the above-described exemplary embodiments, additional embodiments may exist in the drawings and detailed description of the invention.

전술한 본원의 과제 해결 수단에 의하면, 자동으로 빅데이터의 이상치 탐지를 수행할 수 있어, 엔지니어 전문가와 담당자의 개입 없이도 데이터 품질 관리가 가능하다. 또한, 빅데이터 환경하에서 늘어나는 데이터 양에 따라 새로운 유형의 데이터를 자동 학습함으로써, 체계적인 빅데이터 품질관리가 가능하다. 빅데이터 유형 판별 결과, 빅데이터 이상치 탐지 결과에 대하여 지속적인 학습을 통해 빅데이터에 대한 품질 관리를 제공할 수 있다. According to the above-described problem solving means of the present application, it is possible to automatically detect outliers of big data, thereby enabling data quality management without the involvement of engineers and personnel. In addition, it is possible to systematically manage big data quality by automatically learning new types of data according to the increasing amount of data in a big data environment. Quality management of big data can be provided through continuous learning about big data type determination result and big data outlier detection result.

또한, 빅데이터의 특성을 고려하여 새롭게 추가되는 빅데이터 유형에 따른 이상치 탐지 결과를 직관적으로 제공할 수 있으며, 빅데이터 환경에서 데이터에 대한 이상치를 자동 식별 및 학습할 수 있는 인공지능 기반의 이상치 탐지 시스템을 제공할 수 있다. In addition, it can intuitively provide outlier detection results according to the newly added big data type considering the characteristics of big data, and AI-based outlier detection that can automatically identify and learn outliers for data in a big data environment. A system can be provided.

본원은 빅데이터 환경하에서 발생하는 숫자, 문자, 문자열, 사진 등의 다양한 데이터의 타입에 따라 맞춤화하여 데이터의 유형별 이상치를 탐지할 수 있다. The present invention can detect outliers for each type of data by customizing it according to various types of data such as numbers, letters, strings, pictures, etc., generated in a big data environment.

도 1은 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 시스템의 구성도이다.
도 2는 본원의 일 실시예에 따른 이상 탐지 장치의 구성을 나타내는 도면이다.
도 3a 내지 3c는 본원의 일 실시예에 따른 데이터의 이상 탐지를 나타내는 도면이다.
도 4는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 과정을 나타내는 흐름도이다.
도 5는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 방법을 나타내는 동작 흐름도이다.
1 is a block diagram of a system for detecting anomaly of data according to an embodiment of the present application.
2 is a view showing the configuration of the abnormality detection apparatus according to an embodiment of the present application.
3A to 3C illustrate anomaly detection of data according to an embodiment of the present application.
4 is a flowchart illustrating a process of detecting abnormality of data according to an embodiment of the present application.
5 is a flowchart illustrating a method of detecting an abnormality of data according to an exemplary embodiment of the present application.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present disclosure will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present disclosure. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted for simplicity of explanation, and like reference numerals designate like parts throughout the specification.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when a portion is "connected" to another portion, this includes not only "directly connected" but also "electrically connected" with another element in between. do.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout this specification, when a member is said to be located on another member "on", "upper", "top", "bottom", "bottom", "bottom", this means that any member This includes not only the contact but also the presence of another member between the two members.

본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, when a part is said to "include" a certain component, it means that it can further include other components, without excluding the other components unless specifically stated otherwise.

도 1은 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 시스템의 구성도이다. 도 1을 참조하면 데이터의 이상을 탐지하는 시스템은 이상 탐지 장치(10), 기준 정보 사전(20) 및 탐지 대상 데이터베이스를 포함할 수 있다. 다만, 도 1에 도시된 구성이 상기된 구성으로 한정되는 것은 아니다. 1 is a block diagram of a system for detecting anomaly of data according to an embodiment of the present application. Referring to FIG. 1, a system for detecting abnormality of data may include an abnormality detecting apparatus 10, a reference information dictionary 20, and a detection target database. However, the configuration shown in FIG. 1 is not limited to the above configuration.

이상 탐지 장치(10)는 기준 정보 사전(20)을 기반으로 인공지능을 통한 선행학습을 수행하고, 학습 결과에 기초하여 탐지 대상 데이터베이스(30)에 대한 이상 탐지를 수행할 수 있다. 이상 탐지 장치(10)는 탐지 대상 데이터베이스(30)의 컬럼 또는 데이터에 대하여 다양한 알고리즘에 따라 정상 범주를 벗어나는 데이터에 대한 탐지를 수행할 수 있으며, 탐지 결과를 학습함으로써, 이후, 다른 탐지 대상 데이터베이스(30)에 대한 이상 탐지를 수행하는데 이용할 수 있다. 이와 같은 이상 탐지 장치(10)의 구성은 도 2를 통해 자세히 설명된다. The abnormality detection apparatus 10 may perform prior learning through artificial intelligence based on the reference information dictionary 20 and perform abnormality detection on the detection target database 30 based on the learning result. The abnormality detection apparatus 10 may perform detection of data that is out of the normal category according to various algorithms with respect to columns or data of the detection target database 30, and by learning the detection result, the other detection target database ( 30) can be used to perform anomaly detection. The configuration of the abnormality detecting device 10 is described in detail with reference to FIG. 2.

기준 정보 사전(20)은 이상 탐지 장치(10)가 선행학습을 할 수 있도록 하는 선행 데이터 또는 소스를 포함할 수 있다. 예를 들어, 기준 정보 사전(20)은 다양한 분야에 대한 데이터베이스를 포함할 수 있으며 좀 더 상세하게 예를 들면, 나이대 별 정상 혈압 수치 데이터베이스, 서울지역 학생 평균 신장, 몸무게 데이터베이스, 한국인 신체 평균 수치 데이터베이스, 나라별 2자리 코드 및 3자리 코드 데이터베이스, 기업들의 대표 명화 데이터베이스 등 다양한 분야에서 기준이 될 수 있는 데이터베이스 또는 평균 수치 등의 지수 등이 포함될 수 있다. The reference information dictionary 20 may include a preceding data or a source for enabling the abnormality detecting apparatus 10 to perform the preceding learning. For example, the reference information dictionary 20 may include databases for various fields, and in more detail, for example, normal blood pressure level database by age group, student average height in Seoul, weight database, and Korean average body database For example, the index may include a database or an average value, which may be a reference in various fields, such as a 2-digit and 3-digit code database for each country and a representative name database of companies.

탐지 대상 데이터베이스(30)는 이상 탐지의 대상이 되는 데이터베이스로서 이상 탐지 장치(10)는 학습 결과에 기초하여 탐지 대상 데이터베이스(30)에 포함된 데이터에 대한 이상 여부를 탐지할 수 있다. The detection target database 30 is a database for abnormal detection, and the abnormality detection apparatus 10 may detect whether or not an abnormality is detected in the data included in the detection target database 30 based on the learning result.

이상 탐지 장치(10)를 통해 데이터에 대한 이상 여부 탐지는 데이터의 품질을 관리하는 효과를 가질 수 있다. 데이터 품질 관리란 기관이나 조직 내외부의 정보 시스템 또는 데이터베이스 사용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선을 위한 활동을 의미할 수 있다. 데이터란 목적을 달성하기 위해 구축, 운영되는 정보 시스템과 관련된 모든 자료 또는 정보를 의미할 수 있으며, 데이터는 데이터베이스 내부에 저장되어 있는 데이터 값 이외에 데이터 모델이나 표준 데이터와 같은 구조 정보와 문서 형태의 산출물을 포함할 수 있으나, 일반적으로 데이터는 정보 시스템에 저장된 디지털 데이터를 의미할 수 있다. The abnormality detection of the data through the abnormality detection apparatus 10 may have an effect of managing the quality of the data. Data quality management may refer to activities for data management and improvement that are carried out continuously to meet the expectations of information systems or database users, both inside and outside an organization or organization. Data may mean any data or information related to an information system that is built and operated to achieve its purpose. In addition to data values stored in the database, data may be structural output such as data models or standard data and outputs in the form of documents. In general, the data may mean digital data stored in an information system.

또한, 데이터 품질 관리는 현재 운영 또는 관리되고 있는 정보 시스템 내에 수록된 데이터의 품질을 측정하여 현재의 수준을 평가하고, 품질 저하의 요인을 분석하는 절차를 의미할 수 있다. 데이터 품질 관리는 운영 데이터 베이스의 테이블, 컬럼, 코드, 관계, 업무 규칙 등을 기준으로 데이터의 값을 분석하여 데이터의 품질을 진단하는 것을 의미할 수 있으며, 데이터 값과 관련된 품질 기준을 적용하여 오류 내역을 산출하고 오류 원인을 분석하는 절차를 의미할 수 있다. In addition, data quality management may refer to a procedure of measuring the quality of data contained in an information system currently being operated or managed to evaluate the current level and to analyze the factors of quality degradation. Data quality management can mean diagnosing the quality of data by analyzing data values based on tables, columns, codes, relationships, and business rules in the operational database. It can refer to the process of calculating the details and analyzing the cause of the error.

도 2는 본원의 일 실시예에 따른 이상 탐지 장치(10)의 구성을 나타내는 도면이다. 도 2를 참조하면, 이상 탐지 장치(10)는 데이터베이스(110) 및 이상 탐지부(120)를 포함할 수 있다. 다만, 도 2에 도시된 이상 탐지 장치(10)의 구성이 앞서 설명된 것들로 한정되는 것은 아니다. 2 is a view showing the configuration of the abnormality detection apparatus 10 according to an embodiment of the present application. Referring to FIG. 2, the abnormality detecting apparatus 10 may include a database 110 and an abnormality detecting unit 120. However, the configuration of the abnormality detecting apparatus 10 shown in FIG. 2 is not limited to those described above.

이상 탐지부(120)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지할 수 있다. 예를 들어, 이상 탐지부(120)는 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 금액 도메인이면, 제 1 데이터의 이상 여부를 박스플롯(Boxplot) 알고리즘을 통해 탐지할 수 있다. The abnormality detection unit 120 may detect whether the first data is abnormal through the first artificial intelligence algorithm based on the first reference information and the second reference information among a plurality of reference information including a data type, metadata, and domain. Can be. For example, when the first reference information is a data type and the second reference information is a domain, the abnormality detection unit 120 determines whether the first data is abnormal when the data type is a standard data type and the domain is an amount domain. This can be detected using a Boxplot algorithm.

이때, 이상치는 데이터의 형식이나 자릿수가 상이한 경우, 잘 못 입력된 데이터 품질을 저하시키는 모든 비정상적인 데이터 또는 데이터의 형식을 이야기할 수 있다. At this time, the outliers may refer to all abnormal data or data formats that degrade the quality of the wrong input data when the format or the number of digits of the data are different.

데이터 타입은 정형 데이터 타입 또는 비정형 데이터 타입 중 어느 하나로 분류하는 것이고, 이 때, 정형 데이터 타입은 정형화된 데이터로, 고정된 필드에 저장되는 데이터를 의미할 수 있다. 예를 들면, 이름, 주소, 연락처, 배송 주소, 결제 정보 등 데이터베이스 내 고정된 필들로 구성되는 일정한 형식을 갖추어 저장되는 데이터를 의미할 수 있다. 한편, 비정형 데이터는 고정된 필드에 저장되지 않은 데이터를 의미할 수 있으며 예를 들면, 동영상 스트리밍 사이트에 업로드되는 동영상 데이터, SNS 등에 저장되는 사진과 오디오 데이터, 메신저를 통해 주고 받은 대화 데이터, 스마트폰 등을 통해 기록되는 위치 정보 등이 포함될 수 있다. The data type is classified into one of a structured data type and an unstructured data type. In this case, the structured data type is standardized data and may mean data stored in a fixed field. For example, it may mean data stored in a certain format consisting of fixed fields in a database such as name, address, contact, shipping address, and payment information. On the other hand, unstructured data may mean data that is not stored in a fixed field, for example, video data uploaded to a video streaming site, photos and audio data stored on SNS, conversation data exchanged via messenger, smartphone Etc., location information recorded through the data may be included.

메타데이터는 데이터에 대한 데이터라고 하며, 어떤 목적을 가지고 만들어진 데이터라고도 정의될 수 있다. 좀 더 상세히 말하면, 메타데이터는 데이터에 관해 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터를 의미할 수 있다. 즉, 메타데이터는 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠 또는 데이터에 대하여 부여되는 데이터로서, 구조화된 정보를 분석, 분류하고 부가적 정보를 추가하기 위해 그 데이터 뒤에 함께 따라가는 정보를 의미할 수 있다. Metadata is called data about data and can be defined as data created for any purpose. In more detail, metadata is structured data about data, and may refer to data describing other data. In other words, metadata is data that is given to content or data according to a predetermined rule in order to efficiently find and use information that is being searched among a large amount of information, and to analyze and classify structured information and add additional information. It can refer to information that follows the data together.

도메인은 일반적으로 데이터베이스 설계 시 부여되는 데이터의 가장 작은 단위인 컬럼의 특성을 의미하며, 도메인에 부합하는 데이터 업무 규칙을 적용하면, 데이터의 무결성을 유지할 수 있는 효과를 가질 수 있다. 좀 더 상세히 말하면, 도메인은 데이터베이스에서 테이블의 설계 단계에서 각 컬럼들에 적용되는 고유한 성격으로 데이터베이스에서 관리하는 데이터의 가장 작은 단위인 컬럼의 특성에 대한 정의라고 할 수 있다. 도메인의 예시로는 금액, 수, 율, 코드, ID, 명칭, 내용, 날짜, 플래그, 번호 및 연락처 등이 있을 수 있으나 이에 한정되는 것은 아니며 다양한 도메인이 더 존재할 수 있다. A domain generally refers to a characteristic of a column, which is the smallest unit of data given when designing a database. If a data business rule suitable for a domain is applied, the domain can have the effect of maintaining the integrity of the data. In more detail, a domain is a unique property that is applied to each column during the design stage of a table in a database, and thus, a definition of a characteristic of a column, which is the smallest unit of data managed by the database. Examples of domains may include, but are not limited to, amounts, numbers, rates, codes, IDs, names, contents, dates, flags, numbers, and contacts.

금액 도메인은 데이터의 유형이 숫자 유형인 데이터 중 매출액, 판매액, 원가 등 돈과 관련된 숫자를 의미할 수 있다. 좀 더 상세히 말하면, 금액 도메인은 돈의 액수를 표현하는 값으로써 국가별 화폐단위에 맞는 숫자 타입의 값으로 구성될 수 있다. 금액 도메인을 지속적으로 관리하면 금액 도메인에 저장되는 데이터를 항상 유효한 형태로 관리할 수 있으며 데이터 자체의 범위 유효성을 유지할 수 있다. 금액 도메인의 예시로는 금액, 세금, 가격, 단가, 비용, 요금, 잔액 또는 총액 등이 있을 수 있다. The amount domain may refer to a number related to money, such as sales, sales amount, or cost, among data whose data type is numeric type. In more detail, the money domain is a value representing the amount of money, and may be composed of values of a numeric type corresponding to a national currency. Ongoing management of monetary domains ensures that the data stored in the monetary domains is always in valid form and that the scope of the data itself is valid. Examples of an amount domain may include an amount, tax, price, unit price, cost, fee, balance or total amount.

수 도메인은 데이터의 유형이 숫자 유형인 데이터 중 고객수, 상품수, 관객수 등 금액이 아닌 숫자를 의미할 수 있다. 좀 더 상세히 말하면, 수 도메인은 건수, 규모, 횟수 등과 같이 숫자로 관리되는 항목을 의미할 수 있다. 수량 도메인을 지속적으로 관리하면 수 도메인에 저장되는 데이터에 대한 최대값과 최소값의 유효 범위를 유지할 수 있다. 수 도메인의 예시로는 건수, 매수, 회차, 개수, 거리, 규모, 길이, 무게, 속도, 횟수, 평형, 면적 또는 온도 등이 있을 수 있다. The number domain may mean a number that is not an amount of money such as the number of customers, the number of products, and the number of audiences among the data whose data type is a numeric type. In more detail, the number domain may mean an item managed numerically, such as the number, size, and number of times. Ongoing management of the quantity domain allows you to maintain an effective range of maximum and minimum values for data stored in the number domain. Examples of the water domain may include a number, number of copies, turn, number, distance, scale, length, weight, speed, number of times, equilibrium, area, or temperature.

율 도메인은 데이터의 유형이 숫자 유형인 데이터 중 달성율, 정확도, 원가율 등 비율을 포함하는 숫자를 의미할 수 있다. 좀 더 상세히 말하면, 율 도메인은 진척율, 증가율, 수익율, 변동율, 이자율, 가산율, 요율 등 매우 다양하게 정의되어 활용될 수 있으며, 이 때, 증가율, 수익율, 변동율 등은 계산식에 의해 산출될 수 있고, 이자율, 가산율, 요율 등은 다른 수치데이터의 산출에 적용되는 기준정보로 관리될 수 있다. 율 도메인의 예시로는 금리, 이율, 비율, 환율 또는 백분율 등이 있을 수 있다. The rate domain may refer to a number including a ratio, such as achievement rate, accuracy, and cost rate, among data whose data type is numeric type. More specifically, the rate domain can be defined and used in various ways such as progress rate, growth rate, rate of return, rate of change, interest rate, addition rate, and rate, and the rate of increase, rate of return, rate of change, etc. , Interest rates, addition rates, rates, etc. may be managed as reference information applied to the calculation of other numerical data. Examples of rate domains may include interest rates, interest rates, rates, exchange rates or percentages.

코드 도메인은 데이터의 유형이 숫자 또는 문자 유형인 데이터 중 사전에 정의된 항목으로 코드와 값을 포함할 수 있다. 예를 들면, 여자는 'F' 남자는 'M'으로 표현하는 경우, 'F', 'M'이 코드가 될 수 있고 여자와 남자가 값이 될 수 있다. 좀 더 상세히 말하면, 코드 도메인은 사용할 수 있는 데이터를 제한하거나 동일한 의미의 데이터를 동일 표현으로 관리하기 위해 간략한 코드값으로 대체된 데이터를 의미할 수 있고, 일반적으로 코드 도메인은 코드와 코드값으로 관리될 수 있다. 일 예로, 코드는 성별구분코드, 고객등급코드, 부서코드, 상품코드, 지역코드 등을 의미할 수 있고, 코드값은 성별구분코드의 'M', 'F' 등과 같이 해당 정보 항목에 데이터를 대표하거나 제한하기 위한 값을 의미할 수 있다. 코드 도메인은 표준화된 코드가 미리 정의되어 관리될 수 있다. The code domain is a predefined item of data whose data type is numeric or character type, and may include codes and values. For example, if a woman expresses 'F' and a man expresses 'M', 'F' and 'M' can be codes, and woman and man can be values. More specifically, a code domain can mean data that has been replaced by a short code value to limit the data available or to manage data with the same meaning in the same representation, and code domains are generally managed by code and code values. Can be. For example, the code may mean a gender classification code, a customer rating code, a department code, a product code, a region code, and the like, and the code value may include data in a corresponding information item such as 'M' or 'F' of the gender classification code. It can mean a value to represent or limit. The code domain may be managed by predefined standard codes.

ID 도메인은 USER ID와 같이 사용자가 정의하는 고유한 값을 의미할 수 있다. The ID domain may mean a unique value defined by a user, such as a USER ID.

명칭 도메인은 소정 길이 이하의 문자열을 포함하며, 고객명, 상품명 등을 의미할 수 있다. 좀 더 상세히 말하면, 명칭 도메인은 다른 것과 식별하기 위하여 사물이나 인물, 단체 등에 붙이는 이름으로, 이름, 장소, 고객명, 영문고객명, URL, IP 등을 포함할 수 있다. The name domain includes a character string having a predetermined length or less and may mean a customer name, a product name, or the like. In more detail, the name domain is a name attached to an object, a person, a group, or the like to distinguish it from others, and may include a name, a place, a customer name, an English customer name, a URL, an IP, and the like.

내용 도메인은 소정 길이 이상의 문자열을 포함하며, 게시물 내용 또는 자기소개서 내 등을 의미할 수 있다. 좀 더 상세히 말하면, 내용 도메인의 값은 사물 또는 행위에 대한 설명이나 참고가 될만한 내용들을 기술한 데이터를 의미할 수 있으며, 정의, 설명, 비고, 내용, 요약 등 예가 존재할 수 있다. 내용 도메인은 비정형 문자로 구성되는 특성을 가질 수 있다. The content domain includes a string having a predetermined length or more, and may mean a post content or a cover letter. In more detail, the value of the content domain may refer to data describing a description or reference of an object or action, and examples of definition, description, remark, content, summary, and the like may exist. The content domain may have properties that consist of unstructured characters.

날짜 도메인은 연도, 연월, 연월일, 일자 등의 날짜를 의미할 수 있다. 좀 더 상세히 말하면, 날짜 도메인은 날짜로 관리되는 항목을 의미할 수 있으며, 접수일자, 등록일시, 결산년월, 전송시간 등 날짜 및 시간을 의미하는 데이터를 포함할 수 있다. 날짜 도메인의 데이터 타입은 DBMS에서 제공하는 날짜 데이터 타입을 사용하는 방법과 문자 타입을 사용할 수 있다. DBMS에서 제공하는 날짜 데이터 타입을 사용하는 경우에는 DBMS 자체에서 유효하지 않은 날짜 값을 체크하기 때문에 날짜 값의 오류가 거의 없으나, 문자 타입으로 정의하여 사용하는 경우에는 잘못된 날짜값이 입력될 수 있다. The date domain may mean a date such as year, year, month, date, and date. In more detail, the date domain may mean an item managed by a date, and may include data representing a date and time such as a reception date, a registration date and time, a settlement date month, and a transmission time. Data type of date domain can use character type and method using date data type provided by DBMS. When using the date data type provided by the DBMS, there is almost no error in the date value because the invalid date value is checked by the DBMS itself. However, when used as a character type, an incorrect date value may be entered.

플래그 도메인은 여부를 뜻하는 것으로, 0, 1, 'Y', 'N', '참', 거짓', 'True', False' 등 2개의 대향되는 값으로 구성될 수 있다. 좀 더 상세히 말하면, 플래그 도메인은 데이터의 표준화와 관리가 평이한 도메인 중에 하나로, 여부, 유무, 'Y', 'N' 또는 1, 0 등과 같이 2내지3개의 단순한 분류 값으로 구성될 수 있으며, 코드가 아닌 별개의 값으로 정의될 수 있다. 플래그 도메인에 저장되는 데이터는 항상 동일한 형태로 관리되어 정보 시스템 간의 정합성을 유지할 수 있다. The flag domain indicates whether the flag domain is 0, 1, 'Y', 'N', 'true', false ',' True ', False' may be composed of two opposing values. In more detail, the flag domain is one of the domains for which standardization and management of data is simple, and may consist of two or three simple classification values such as whether or not, 'Y', 'N' or 1, 0, etc. Can be defined as a separate value. Data stored in the flag domain is always managed in the same form to maintain consistency between information systems.

번호 도메인은 고객번호, 상품번호 등 순사적으로 증가하는 의미가 없는 숫자값을 의미할 수 있다. 좀 더 상세히 말하면, 번호 도메인은 문자 또는 숫자들의 조합에 의해 구성되며 대부분 내외부적인 번호 체 계에 따라 관리될 수 있다. 번호 도메인은 주민등록번호, 사업자등록번호, 우편번호, 법인번호, IP Address, 국제표준자료번호(ISBN/ISSN) 등과 같이 국내· 외 표준 번호 체계를 공통적으로 준수하는 데이터 또는, 사용자번호, 계좌번호, 허가번호, 승인번호, 등록번호, 상품번호 등과 같이 기업 내부적인 표준 번호 관리 체계에 따라 관리되는 데이터가 존재할 수 있다. The number domain may refer to a numerical value that does not mean to increase sequentially, such as customer number and product number. In more detail, a number domain is composed of a combination of letters or numbers and can be managed mostly according to the internal and external number system. No. Domain is data that complies with domestic and international standard number system such as social security number, business registration number, zip code, corporation number, IP address, international standard data number (ISBN / ISSN), or user number, account number, permission There may be data managed according to the company's internal standard number management system such as number, approval number, registration number and product number.

연락처 도메인은 주소, 이메일, 연락처와 같은 정보를 포함하는 데이터를 의미할 수 있다.The contact domain may refer to data including information such as an address, an email, and a contact.

이상 탐지부(120)는 데이터 타입에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지할 수 있다. 예를 들어, 이상 탐지부(120)는 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 금액 도메인이면, 제 1 데이터의 이상 여부를 박스플롯(Boxplot) 알고리즘을 통해 탐지할 수 있다. The abnormality detection unit 120 may detect whether the first data is abnormal based on the data type through the first artificial intelligence algorithm. For example, when the first reference information is a data type and the second reference information is a domain, the abnormality detection unit 120 determines whether the first data is abnormal when the data type is a standard data type and the domain is an amount domain. This can be detected using a Boxplot algorithm.

즉, 이상 탐지부(120)는 탐지 대상 데이터베이스(30)의 데이터가 정형 데이터이고, 금액 도메인인 경우, 박스 플롯 알고리즘을 통해 탐지 대상 데이터베이스(30)의 데이터에 대하여 정상 범위를 벗어나는 이상치를 가지는 것으로 탐지할 수 있다. That is, when the data of the detection target database 30 is the stereotyped data and the value domain, the abnormality detection unit 120 has an outlier that is outside the normal range with respect to the data of the detection target database 30 through a box plot algorithm. Can be detected.

박스 플롯 알고리즘은 데이터의 분포 정도를 박스 형태로 나타내는 알고리즘으로, 데이터 또는 데이터 셋(SET)에 대하여 평균값, 중앙값, 하위 25%의 값을 나타내는 하위 일분위 값, 상위 75%의 값을 나타내는 상위 삼분위 값, 상한값, 하한값 및 사분위수 범위 등을 측정하고, 상한값을 초과하는 데이터 또는 하한값 미만의 데이터를 이상 값 또는 이상치를 가지는 것으로 탐지할 수 있다. 이 때, 사분위수 점수는 상위 삼분위 값에서 하위 삼분위 값을 뺀 범위를 의미하며, 일반적으로 상한값은 상위 삼분위 값에 1.5를 곱한값, 하한값은 하위 1분위 값에 1.5를 곱한값으로 결정할 수 있다. The box plot algorithm is a box-shaped algorithm that represents the distribution of data in the form of a box. The upper value, the upper limit value, the lower limit value, and the quartile range may be measured, and data exceeding the upper limit value or data below the lower limit value may be detected as having an abnormal value or an abnormal value. In this case, the quartile score is the range of the upper quartile value minus the lower quartile value.In general, the upper limit value is determined by multiplying the upper quartile value by 1.5 and the lower limit by multiplying the lower quartile value by 1.5. Can be.

도 3a 내지 3c는 본원의 일 실시예에 따른 데이터의 이상 탐지를 나타내는 도면이다. 좀 더 상세한 예를 들어, 도3a를 참조하면, 어느 한 고등학교의 성적 데이터베이스 중 수학 성적 데이터에 대한 이상 탐지부(120)의 동작이 설명된다. 이상 탐지부(120)는 해당 데이터가 정형 데이터이고, 수 도메인이기 때문에, 박스플롯 알고리즘을 통해 이상치를 탐지할 수 있다. 이상 탐지부(120)는 박스플롯 알고리즘에 기초하여 수학 성적 데이터(또는 수학 성적 데이터를 포함하는 컬럼)의 평균은 46.6점이고, 상위 삼분위 값은 53.8, 하위 일분위 값을 38.6으로 결정할 수 있고, 이에 기초하여 상한값을 80.7로 결정하고, 하한값을 25.4로 결정할 수 있다. 이후 이상 탐지부(120)는 탐지 대상 데이터베이스(30) 내에 80.7을 초과하는 데이터 또는 25.4 미만인 데이터가 위치하는 경우, 해당 데이터가 이상치를 가지는 것으로 탐지할 수 있다. 3A to 3C illustrate anomaly detection of data according to an embodiment of the present application. For a more detailed example, referring to FIG. 3A, an operation of the abnormality detector 120 for mathematical grade data in a high school grade database is described. The anomaly detection unit 120 may detect an anomaly through a boxplot algorithm because the data is structured data and is domain. The abnormality detection unit 120 may determine that the average of the mathematical grade data (or the column including the mathematical grade data) is 46.6 points, the upper third percentile value is 53.8, and the lower first percentile value is 38.6 based on the box plot algorithm. Based on this, the upper limit value can be determined as 80.7 and the lower limit value can be determined as 25.4. The abnormality detector 120 may detect that the data has an outlier when data exceeding 80.7 or less than 25.4 is located in the detection target database 30.

데이터가 정규분포를 따르는 경우, 박스플롯 알고리즘의 상한치를 초과하거나, 하한치 미만의 값이 존재할 확률은 각각 0.35%정도로 작을 수 있다. If the data follow a normal distribution, the probability that there is a value above or above the lower limit of the boxplot algorithm may be as small as 0.35%, respectively.

한편, 이상 탐지부(120)는 제 1 기준 정보가 정형 데이터이고, 제 2 기준 정보가 수 도메인인 경우, 히스토그램 알고리즘을 통해 데이터의 이상 여부를 탐지할 수도 있다. 히스토그램 알고리즘은 표로 되어있는 도수 분포를 정보 그림으로 나타낸 것으로, 도수분포표를 그래프로 나타낸 것을 의미할 수 있다. 이 때, 이상 탐지부(120)는 도수분포에 기초하여 해당 데이터의 이상 여부를 탐지할 수 있다. Meanwhile, when the first reference information is structured data and the second reference information is several domains, the abnormality detection unit 120 may detect whether the data is abnormal through the histogram algorithm. The histogram algorithm is a graphical representation of a table of frequency distributions, which may mean a graphical representation of the frequency distribution table. At this time, the abnormality detection unit 120 may detect whether the corresponding data is abnormal based on the frequency distribution.

다른 예에서, 이상 탐지부(120)는 제 1 기준 정보가 데이터 타입이고, 제 2 기준 정보가 메타데이터인 경우, 데이터 타입이 비정형 데이터 타입이고, JPEG(Joint Photographic Experts Group) 포맷이면, 제 1 데이터의 이상 여부를 딥 러닝(Deep Learning) 알고리즘을 통해 탐지할 수 있다. In another example, when the first reference information is a data type and the second reference information is metadata, the abnormality detection unit 120 may include a first type when the data type is an unstructured data type and a JPEG (Joint Photographic Experts Group) format. The abnormality of the data can be detected through a deep learning algorithm.

예를 들면, 이상 탐지부(120)는 데이터가 비정형 데이터 타입이고, 그림 파일 포맷인 경우, 딥 러닝 알고리즘에 기초하여 데이터의 이상 여부를 탐지할 수 있다. 도 3b를 통해 상세히 설명하면, 이상 탐지부(120)는 이미지에 대하여 이미지를 일정 크기의 셀로 분할하고, 각 셀마다 특징점(Edge, 외곽선)을 추출하고, 추출된 특징점들의 방향에 대한 히스토그램을 구하고, 히스토그램 간의 유사도 또는 추출된 특징점들의 방향 또는 방향 벡터 간의 유사도에 기초하여 이미지에 대한 이상치를 탐지할 수 있다. 추출된 특징점들의 방향 벡터 간의 유사도는 특징점들의 방향 벡터 간의 각도 차이가 작을수록 유사도가 높으며, 특징점들의 방향 벡터 간의 각도 차이가 클수록 유사도가 낮은 것으로 판단할 수 있다. For example, when the data is an unstructured data type and a picture file format, the abnormality detector 120 may detect whether the data is abnormal based on a deep learning algorithm. 3B, the anomaly detection unit 120 divides an image into cells having a predetermined size, extracts feature points (edges) for each cell, obtains a histogram of directions of the extracted feature points, and the like. The outliers for the image may be detected based on the similarity between the histograms or the similarity between the direction vectors of the extracted feature points or the direction vectors. The similarity between the direction vectors of the extracted feature points is higher as the angle difference between the direction vectors of the feature points is smaller, and the similarity is lower as the angle difference between the direction vectors of the feature points is larger.

좀 더 상세히 예를 들면, 탐지 대상 데이터베이스(30)가 자동차 보험 데이터베이스인 경우, 이상 탐지부(120)는 자동차 간 접촉 사고 이미지를 기초로 유사도가 낮은 이미지들을 이상치로 탐지할 수 있다. 이상 탐지부(120)는 자동차 사진을 포함하는 자동차 간의 접촉 사고와 관련 없는 이미지들을 이상치로 탐지할 수 있다. 이 때, 이상 탐지부(120)는 딥 러닝 알고리즘에 기초하여 탐지 결과를 학습하여, 이미지에 대한 학습 횟수가 누적될수록 탐지에 대한 정확도를 증가시킬 수 있고, 이에 따라 이상치 탐지에 대한 신뢰도를 향상시킬 수 있다. In more detail, for example, when the detection target database 30 is an automobile insurance database, the abnormality detection unit 120 may detect images having low similarity as outliers based on the contact accident images between cars. The abnormality detector 120 may detect images that are not related to a contact accident between automobiles including an automobile photograph as outliers. At this time, the abnormality detection unit 120 learns the detection result based on the deep learning algorithm, and as the number of learning on the image is accumulated, the accuracy of the detection can be increased, thereby improving the reliability of the outlier detection. Can be.

이상 탐지부(120)는 제 1 데이터의 이상 탐지 결과를 저장하여, 저장된 이상 탐지 결과 역시 기준 정보의 하나로써 이용할 수 있도록 한다. 다시 말해, 이상 탐지부(120) 기준 정보 사전(20)을 통해 학습한 기준 정보 외에도, 이상 탐지부(120)를 통해 탐지된 탐지 결과를 학습하여, 이상 탐지의 정확도와 신뢰도를 증가시킬 수 있다. The abnormality detection unit 120 stores the abnormality detection result of the first data, so that the stored abnormality detection result can also be used as one of the reference information. In other words, in addition to the reference information learned through the abnormality detection unit 120 reference information dictionary 20, the detection result detected by the abnormality detection unit 120 may be learned to increase the accuracy and reliability of the abnormality detection. .

이상 탐지부(120)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기중 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있고, 복수의 기준 정보 중 제 1 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 3 인공지능 알고리즘을 통해 제 3 데이터의 이상 여부를 탐지할 수도 있다. The abnormality detection unit 120 determines whether the second data is abnormal based on the second reference information, the third airborne information, and the storage result among the plurality of reference information including the data type, metadata, and domain. The third data may be detected through the third artificial intelligence algorithm based on the first reference information, the third reference information and the storage result among the plurality of reference information.

일 예로, 제 2 기준 정보가 데이터 타입이고, 제 3 기준 정보가 도메인인 경우, 데이터 타입이 정형 데이터 타입이고, 도메인이 명칭 도메인이면, 제 2 데이터의 이상 여부를 유사도 알고리즘을 통해 탐지하되, 제 2 데이터의 이상이 탐지되는 경우, 제 2 데이터와 유사도가 높은 데이터로 표준화시킬 수 있다. For example, when the second reference information is a data type and the third reference information is a domain, when the data type is a formal data type and the domain is a name domain, whether the second data is abnormal is detected through a similarity algorithm. When abnormality of 2 data is detected, it can normalize to data with high similarity with 2nd data.

다시 말해, 이상 탐지부(120)는 데이터 타입이 정형 데이터 타입이고, 명칭 도메인인 경우, 데이터의 유사도에 기초하여 가장 많은 중복값을 가지는 명칭을 표준화 데이터로 결정하고, 표준화 데이터로 결정된 데이터와 다른 데이터를 이상치인 것으로 탐지할 수 있다. In other words, when the data type is a formal data type and the name domain, the abnormality detection unit 120 determines the name having the most duplicate value as standardized data based on the similarity of the data, and is different from the data determined as the standardized data. Data can be detected as outliers.

도 3c를 참조하여 예를 들면, 이상 탐지부(120)는 상표 명칭 데이터베이스가 탐지 대상 데이터베이스(30)인 경우, 해당 컬럼의 데이터에 대한 중복된 데이터 및 유사도가 높은 데이터를 묶을 수 있으며, 이 중 가장 많은 중복값을 가지는 명칭을 표준화 데이터로 결정할 수 있다. 좀 더 상세히 말하면, 이상 탐지부(120)는 상표 명칭 데이터베이스에서 데이터간의 유사도에 기초하여 '메트로시티'를 100건, '메트로씨티'를 5건 총 2가지 패턴의 데이터 105건을 탐지할 수 있고, 5건의 '메트로씨티'를 이상치로 탐지하여 결정할 수 있다. 이 때, 이상 탐지부(120)는 가장 많은 데이터가 검색된 '메트로시티'를 표준화 데이터로 결정하고, 이상치를 가지는 데이터인 '메트로씨티'를 표준화 데이터인 '메트로시티'로 변경하여 표준화 시킬 수 있다. For example, referring to FIG. 3C, when the trademark name database is the detection target database 30, the abnormality detection unit 120 may bundle duplicate data and high similarity data with respect to the data of the corresponding column. The name with the most duplicate values can be determined as standardized data. In more detail, the anomaly detection unit 120 may detect 105 pieces of data in two patterns, including 100 'metrocity' and 5 'metro city' based on the similarity between the data in the trademark name database. In this case, five “meta-City” can be detected as an outlier and determined. At this time, the abnormality detection unit 120 may determine the 'metrocity' from which the most data is searched as standardization data, and standardize the change by changing the metro city, which has an outlier value, to metrology, which is standardization data. .

한편, 위와 유사하게 이상 탐지부(120)는 '빈폴' 또는 '빈 폴' 중 중복값이 가장 많은 '빈폴'을 표준화 데이터로 결정하여, '빈 폴'을 '빈폴'로 표준화 시킬 수 있으며, 'MONTBLANC', 'MONT BLANC' 또는 'MONTBLANCC' 중 가장 많은 중복값이 탐지된 'MONTBLANC'를 표준화 데이터로 결정할 수 있다. Meanwhile, similarly to the above, the abnormality detection unit 120 may determine the 'bin pole' having the most duplicate values among 'bin pole' or 'empty pole' as standardized data, and may standardize the 'empty pole' as 'bean pole'. The standardized data may determine 'MONTBLANC' in which the most duplicate values among 'MONTBLANC', 'MONT BLANC' or 'MONTBLANCC' are detected.

이상 탐지부(120)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과 및 제 1 데이터에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있다. 일 예로, 이상 탐지부(120)는 제 2 기준 정보가 데이터 타입이고, 제 2 기준 정보가 도메인인 경우, 제 2 기준 정보가 정형 데이터 타입이고, 도메인이 수 도메인이면, 제 1 데이터와의 관계 정보에 기초하여 제 2 데이터의 이상 여부를 선형회귀 알고리즘을 통해 탐지할 수 있다. The abnormality detection unit 120 determines whether the second data is abnormal based on the second reference information, the third reference information, the storage result, and the first data among the plurality of reference information including the data type, metadata, and domain. It can be detected through AI algorithms. For example, when the second reference information is a data type and the second reference information is a domain, the abnormality detection unit 120 has a relation with the first data when the second reference information is a standard data type and the domain is a few domains. The abnormality of the second data may be detected through a linear regression algorithm based on the information.

좀 더 상세히 설명하면, 탐지 대상 데이터베이스(30)가 고등학생의 표준 키와 몸무게를 포함하는 데이터베이스인 경우, 이상 탐지부(120)는 키와 몸무게의 관계를 고려하여 선형회기 알고리즘을 통해 이상치를 탐지할 수 있다. 즉, 키가 140cm 인 경우와, 몸무게가 100kg인 경우 이상 탐지부(120)는 이상치로 탐지하지 않으나, 키가 140cm인 학생이 100kg의 몸무게를 가지는 경우에는 선형회기 알고리즘에 기초하여 이상치로 탐지할 수 있다. In more detail, when the detection target database 30 is a database including a high school student's standard height and weight, the abnormality detection unit 120 may detect an outlier through a linear regression algorithm in consideration of the relationship between the height and the weight. Can be. That is, when the height is 140cm and the weight is 100kg, the abnormality detection unit 120 does not detect the outliers, but when the student having the height of 140cm has the weight of 100kg, the abnormality detection may be performed based on the linear regression algorithm. Can be.

이상 탐지부(120)는 계속하여 변화되고 추가되는 빅데이터의 특성을 고려하여 탐지 대상 데이터베이스(30) 내에서 인공지능에 기반하여 데이터에 대한 이상치를 자동으로 탐지하고, 탐지 결과를 사용자(운영자 또는 관리자)에게 직관적으로 전달하여 이해하기 쉬운 형태로 디스플레이 할 수 있다. 다시 말해, 이상 탐지부(120)는 이상치 탐지 결과를 사용자에게 표시함으로써, 이상치 탐지 결과 및 탐지 결과를 시스템에 반영하기 위한 사용자로부터의 확인 절차를 수행할 수 있다. The anomaly detection unit 120 automatically detects an anomaly for data based on artificial intelligence in the detection target database 30 in consideration of the characteristics of big data that are continuously changed and added, and detects a detection result of a user (operator or It can be delivered intuitively to administrators and displayed in an easy-to-understand form. In other words, the abnormality detection unit 120 may display the abnormality detection result to the user, thereby performing a confirmation procedure from the user to reflect the abnormality detection result and the detection result in the system.

이상 탐지부(120)는 제 2 데이터의 이상 탐지 결과를 데이터베이스(110)에 저장하여 새로운 기준 정보로써 탐지 대상 데이터베이스(30)의 이상 탐지에 이용할 수도 있다. The abnormality detection unit 120 may store the abnormality detection result of the second data in the database 110 and use it for abnormality detection of the detection target database 30 as new reference information.

데이터베이스(110)는 빅데이터를 포함할 수 있으며 정형 데이터 및 비정형 데이터를 모두 포함할 수 있다. 데이터베이스(110)는 반정형 데이터를 포함할 수도 있다. The database 110 may include big data and may include both structured data and unstructured data. Database 110 may include semi-structured data.

이상 탐지부(120)는 데이터베이스(110)에 저장된 학습 결과인 데이터 컬럼 등을 포함하는 복수의 기준 정보에 기초하여 탐지 대상 데이터베이스(30)에 대한 이상치를 탐지할 수 있으며, 이에 기초하여 다양한 알고리즘을 통해 탐지된 이상치 탐지 결과를 기반으로 반복학습을 수행하여 이상치 탐지 결과에 대한 정확도와 신뢰도를 점차적으로 향상시킬 수 있다. 다시 말해, 이상 탐지부(120)는 이상치 탐지 결과를 데이터베이스(110)에 저장하고, 저장된 이상치 탐지 결과를 하나의 기준 정보로서 활용하여 다른 데이터에 대한 이상치 탐지에 이용할 수 있다. The anomaly detection unit 120 may detect an anomaly for the detection target database 30 based on a plurality of reference information including a data column, which is a learning result stored in the database 110, and based on this, various algorithms may be used. Based on the detected outlier detection results, iterative learning can be performed to gradually improve the accuracy and reliability of the outlier detection results. In other words, the anomaly detection unit 120 may store the anomaly detection result in the database 110 and use the stored anomaly detection result as one reference information to detect an anomaly of other data.

도메인domain 사용 알고리즘Usage algorithm 상세Detail 금액Price Boxplot
Histogram
Boxplot
Histogram
상자그림, 히스토그램을 이용하여 이상치 탐지Outlier detection using box plots and histograms
Number Boxplot
Histogram
Boxplot
Histogram
상자그림, 히스토그램을 이용하여 이상치 탐지Outlier detection using box plots and histograms
rate Boxplot
Histogram
Boxplot
Histogram
상자그림, 히스토그램을 이용하여 이상치 탐지Outlier detection using box plots and histograms
사진Picture Deep LearningDeep learning 사진 유형별 선행 학습을 통하여 유사도 기반 이미지 클러스터링Similarity-based Image Clustering through Prior Learning by Photo Type 텍스트text Deep LearningDeep learning 메타데이터를 이용한 텍스트 유형별 필요 메타데이터 및 값 존재 여부를 판별Determine existence of required metadata and value by text type using metadata

표 1은 데이터 타입 및 도메인의 종류에 따라 이상 탐지부(120)에서 이상 탐지를 위해 결정하는 인공지능 알고리즘을 예시하고 있다. 이상 탐지부(120)는 금액, 수, 율 도메인 등과 같이 숫자와 관계한 도메인의 경우, 박스플롯 알고리즘 내지 히스토그램 알고리즘을 통해 이상치를 탐지할 수 있고, 사진 또는 텍스트와 같은 비정형 데이터 타입 및 이에 대응하는 도메인의 경우 딥러닝 알고리즘 따라 이미지의 유사도, 텍스트 유형, 메타데이터 간의 유사도 알고리즘을 통해 이상치를 탐지할 수도 있다. 다만, 표1에 도시된 것들은 본원의 다양한 실시예 중 하나에 불과하므로 이에 한정되는 것은 아니다. Table 1 illustrates an artificial intelligence algorithm that the anomaly detection unit 120 determines for anomaly detection according to a data type and a type of domain. The anomaly detection unit 120 may detect an anomaly through a box plot algorithm or a histogram algorithm in the case of domains related to numbers, such as an amount, a number, a rate domain, and the like. In the case of domains, an outlier may be detected through a similarity algorithm between image similarity, text type, and metadata according to a deep learning algorithm. However, the ones shown in Table 1 are not limited thereto because they are only one of various embodiments of the present disclosure.

즉, 이상 탐지부(120)는 탐지 대상 데이터가 정형 데이터인지 비정형 데이터인지 여부, 데이터에 대하여 결정된 도메인 또는 도메인의 성격, 메타데이터, 도메인, 컬럼 또는 데이터 간의 관계 정보 등 다양한 기준 정보에 기초하여 이상치 탐지를 위한 인공지능 알고리즘을 결정하고, 결정된 인공지능 알고리즘에 기초하여 탐지 대상 데이터 또는 데이터베이스에 대한 이상 탐지를 수행할 수 있다. 인공지능 알고리즘과 관련하여 박스플롯 알고리즘, 히스토그램 알고리즘, 선형회기 알고리즘, 딥러닝 알고리즘 등의 알고리즘이 포함될 수 있으나 이에 한정되는 것은 아니며 다양한 알고리즘이 더 존재할 수 있다. That is, the anomaly detection unit 120 may determine an outlier based on various reference information such as whether the detection target data is structured data or unstructured data, the nature of the domain or domain determined for the data, metadata, domain, column, or relationship information between the data. An AI algorithm for detection may be determined, and anomaly detection may be performed on the detection target data or database based on the determined AI algorithm. In relation to the AI algorithm, algorithms such as a box plot algorithm, a histogram algorithm, a linear regression algorithm, and a deep learning algorithm may be included, but are not limited thereto. There may be various algorithms.

도 4는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 과정을 나타내는 흐름도이다. 도 4를 참조하면, 단계 S401에서 이상 탐지 장치(10)는 기준 정보 사전(20)에 기초하여 이상치 탐지를 위한 기준 정보에 대한 데이터를 학습하고, 단계 S402에서 학습 결과를 데이터베이스(110)에 저장할 수 있다. 이후, 단계 S403에서 이상 탐지 장치(10)는 학습 결과에 기초하여 탐지 대상 데이터베이스(30)에 포함된 데이터에 대한 이상 탐지를 수행하고, 단계 S404에서 탐지 결과, 탐지에 사용된 기준 정보 또는 탐지에 사용된 인공지능 알고리즘 등 탐지 결과와 관련된 정보를 데이터베이스(110)에 저장할 수 있다. 단계 S405에서 이상 탐지 장치(10)는 복수의 기준 정보 및 데이터베이스(110)에 저장된 저장 결과에 기초하여 다양한 인공지능 알고리즘을 이용하여 다른 데이터에 대한 이상치를 탐지할 수 있다. 4 is a flowchart illustrating a process of detecting abnormality of data according to an embodiment of the present application. Referring to FIG. 4, in step S401, the abnormality detection apparatus 10 learns data about reference information for outlier detection based on the reference information dictionary 20, and stores the learning result in the database 110 in step S402. Can be. Subsequently, in step S403, the abnormality detection apparatus 10 performs abnormality detection on the data included in the detection target database 30 based on the learning result, and in step S404, the abnormality detection apparatus 10 applies to the detection result, the reference information used for the detection, or the detection. Information related to the detection result, such as the AI algorithm used, may be stored in the database 110. In operation S405, the abnormality detecting apparatus 10 may detect an abnormality value for other data using various artificial intelligence algorithms based on the plurality of reference information and the storage result stored in the database 110.

즉, 본원의 일 실시예에 따른 이상 탐지 장치(10)는 탐지 대상 데이터베이스(30)에 대하여 복수의 기준 정보 및 복수의 인공지능 알고리즘을 통해 데이터에 대한 이상치 탐지를 수행할 수 있으며, 이상치 탐지의 횟수가 많아질수록 학습을 통해 이상치 탐지에 대한 정확도가 증가하여 데이터 품질관리의 정확도와 신뢰도가 증가할 수 있다. That is, the anomaly detection apparatus 10 according to an embodiment of the present application may perform an outlier detection on data through a plurality of reference information and a plurality of artificial intelligence algorithms with respect to the detection target database 30. As the number of times increases, the accuracy of outlier detection through learning increases, which increases the accuracy and reliability of data quality management.

도 5는 본원의 일 실시예에 따른 데이터의 이상을 탐지하는 방법을 나타내는 동작 흐름도이다. 도 5에 도시된 이상 탐지 방법은 도 1 내지 도 4를 통해 설명 이상 탐지 장치(10)의 동작을 수행한다. 따라서 도 5에서 설명되지 않은 내용은 도 1 내지 도 4를 통해 설명된 이상 탐지 장치(10)의 설명에도 적용되므로 자세한 설명은 생략된다.5 is a flowchart illustrating a method of detecting an abnormality of data according to an exemplary embodiment of the present application. The abnormality detecting method illustrated in FIG. 5 performs the operation of the abnormality detecting apparatus 10 described with reference to FIGS. 1 to 4. Therefore, since the content not described in FIG. 5 also applies to the description of the abnormality detecting apparatus 10 described with reference to FIGS. 1 to 4, detailed description thereof will be omitted.

도 5를 참조하면, 단계 S501에서 이상 탐지 장치(10)는 데이터 타입, 상기 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 데이터의 이상 여부를 제 1 인공지능 알고리즘을 통해 탐지하고, 단계 S502에서 제 1 데이터의 이상 탐지 결과를 저장한다. Referring to FIG. 5, in operation S501, the abnormality detecting apparatus 10 determines whether the first data is abnormal based on the first reference information and the second reference information among a plurality of reference information including a data type, the metadata, and a domain. Is detected through the first artificial intelligence algorithm, and the abnormal detection result of the first data is stored in step S502.

이후, 단계 S503에서 이상 탐지 장치(10)는 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 저장 결과에 기초하여 제 2 데이터의 이상 여부를 제 2 인공지능 알고리즘을 통해 탐지할 수 있다. In operation S503, the abnormality detecting apparatus 10 determines whether the second data is abnormal based on the second reference information, the third reference information and the storage result among the plurality of reference information including the data type, metadata, and domain. 2 Can be detected by AI algorithm.

본원은 빅데이터를 적용한 시스템 내에서 인공지능 기반의 데이터 이상치 탐지를 수행함으로써, 빅데이터에 대한 품질의 신뢰성을 향상시키기 위한 장치 및 방법을 제공할 수 있다. 이를 위해 본원은 다양한 기준 정보에 기초하여 이상치 탐지를 위한 인공지능 알고리즘을 결정하여 적절한 방법을 통해 데이터에 대한 이상치를 탐지할 수 있다. The present application can provide an apparatus and method for improving the reliability of quality for big data by performing AI-based data outlier detection in a system to which big data is applied. To this end, the present application may determine an artificial intelligence algorithm for outlier detection based on various reference information to detect outliers for data through an appropriate method.

본원은 기준 정보 사전을 기반으로 인공지능을 통한 선행학습을 수행하고, 선행학습 결과를 기반으로 탐지 대상 데이터베이스에 대한 이상치 탐지를 수행할 수 있다. 이상치 탐지 결과 역시 저장하여 학습함으로써, 이상치 탐지의 정확도를 증가시킬 수 있다. 이러한 본원은 데이터 품질 관리를 위해 엔지니어가 수작업으로 진행하던 업무를 자동화 할 수 있으며, 자동화 함으로써, 투입인력을 최소화하고, 인력의 개입 없이 지속적인 데이터 품질 관리를 수행할 수 있다. The present application may perform prior learning through artificial intelligence based on a reference information dictionary, and perform outlier detection on a target database to be detected based on prior learning results. Outlier detection results can also be stored and learned to increase the accuracy of outlier detection. This company can automate the manual work of engineers for data quality management, and by doing so, it can minimize the manpower and perform continuous data quality management without human intervention.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the application is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present application. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present application is indicated by the following claims rather than the above description, and it should be construed that all changes or modifications derived from the meaning and scope of the claims and their equivalents are included in the scope of the present application.

10: 이상 탐지 장치
110: 데이터베이스
120: 이상 탐지부
30: 탐지 대상 데이터베이스
10: abnormal detection device
110: database
120: abnormal detection unit
30: Target database detected

Claims (11)

데이터의 이상을 탐지하는 방법에 있어서,
제 1 데이터에 관련한 데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 인공지능 알고리즘을 결정하는 단계;
기준 정보 사전을 참고하여 상기 제 1 인공지능 알고리즘을 통해 상기 제 1 데이터의 이상 여부를 탐지하는 단계;
상기 제 1 데이터의 이상 탐지 결과를 저장하는 단계;
제 2 데이터에 관련한 상기 데이터 타입, 상기 메타데이터, 상기 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 상기 저장 결과에 기초하여 제 2 인공지능 알고리즘을 결정하는 단계; 및
기준 정보 사전 및 상기 저장 결과를 참고하여 상기 제 2 인공지능 알고리즘을 통해 상기 제 2 데이터의 이상 여부를 탐지하는 단계를 포함하는 것인, 이상 탐지 방법.
In the method of detecting abnormality of data,
Determining a first artificial intelligence algorithm based on first reference information and second reference information among a plurality of reference information including a data type, metadata, and domain related to the first data;
Detecting whether the first data is abnormal through the first artificial intelligence algorithm by referring to a reference information dictionary;
Storing the abnormality detection result of the first data;
Determining a second artificial intelligence algorithm based on the second reference information and the third reference information among the plurality of reference information including the data type, the metadata, and the domain related to the second data and the storage result; And
Detecting whether the second data is abnormal through the second artificial intelligence algorithm by referring to a reference information dictionary and the storage result.
제 1 항에 있어서,
제 3 데이터에 관련한 상기 데이터 타입, 상기 메타데이터, 상기 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 3 기준 정보에 기초하여 제 3 인공지능 알고리즘을 결정하는 단계; 및
기준 정보 사전 및 상기 저장 결과를 참고하여 상기 제 3 인공지능 알고리즘을 통해 상기 제 3 데이터의 이상 여부를 탐지하는 단계를 더 포함하는 것인, 이상 탐지 방법.
The method of claim 1,
Determining a third artificial intelligence algorithm based on first reference information and third reference information among a plurality of reference information including the data type, the metadata, and the domain related to the third data; And
And detecting whether the third data is abnormal through the third artificial intelligence algorithm by referring to a reference information dictionary and the storage result.
제 1 항에 있어서,
상기 데이터 타입은 정형 데이터 타입 및 비정형 데이터 타입을 포함하고,
상기 제 1 데이터의 이상 여부를 탐지하는 단계는
상기 데이터 타입에 기초하여 상기 제 1 데이터의 이상 여부를 상기 제 1 인공지능 알고리즘을 통해 탐지하는 것인, 이상 탐지 방법.
The method of claim 1,
The data type includes a structured data type and an unstructured data type,
Detecting whether the first data is abnormal
And detecting the abnormality of the first data based on the data type through the first artificial intelligence algorithm.
제 3 항에 있어서,
상기 제 1 인공지능 알고리즘을 결정하는 단계는,
상기 제 1 기준 정보가 상기 데이터 타입이고, 상기 제 2 기준 정보가 상기 도메인인 경우, 상기 데이터 타입이 상기 정형 데이터 타입이고, 상기 도메인이 금액 도메인이면, 박스플롯(Boxplot) 알고리즘을 상기 제 1 인공지능 알고리즘으로 결정하는 것인, 이상 탐지 방법.
The method of claim 3, wherein
Determining the first artificial intelligence algorithm,
When the first reference information is the data type and the second reference information is the domain, when the data type is the formal data type and the domain is an amount domain, a boxplot algorithm is applied to the first artificial information. Anomaly detection method that is determined by an intelligent algorithm.
제 3 항에 있어서,
상기 제 1 인공지능 알고리즘을 결정하는 단계는,
상기 제 1 기준 정보가 상기 데이터 타입이고, 상기 제 2 기준 정보가 상기 메타데이터인 경우, 상기 데이터 타입이 비정형 데이터 타입이고, JPEG(Joint Photographic Experts Group) 포맷이면, 딥 러닝(Deep Learning) 알고리즘을 상기 제 1 인공지능 알고리즘으로 결정하는 것인, 이상 탐지 방법.
The method of claim 3, wherein
Determining the first artificial intelligence algorithm,
If the first reference information is the data type and the second reference information is the metadata, if the data type is an unstructured data type and a JPEG (Joint Photographic Experts Group) format, a deep learning algorithm is applied. Determination by the first artificial intelligence algorithm, the abnormality detection method.
제 1 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는,
기준 정보 사전, 상기 저장 결과 및 상기 제 1 데이터를 참고하여, 상기 제 2 데이터의 이상 여부를 상기 제 2 인공지능 알고리즘을 통해 탐지하는 것인, 이상 탐지 방법.
The method of claim 1,
Detecting whether the second data is abnormal,
And detecting the abnormality of the second data through the second artificial intelligence algorithm by referring to a reference information dictionary, the storage result, and the first data.
제 6 항에 있어서,
상기 제 2 인공지능 알고리즘을 결정하는 단계는,
상기 제 2 기준 정보가 상기 데이터 타입이고, 상기 제 2 기준 정보가 상기 도메인인 경우, 상기 데이터 타입이 정형 데이터 타입이고, 상기 도메인이 수 도메인이면, 선형회귀 알고리즘을 상기 제 2 인공지능 알고리즘으로 결정하고,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는,
기준 정보 사전, 상기 저장 결과 및 상기 제 1 데이터와의 관계 정보에 기초하여 상기 제 2 인공지능 알고리즘을 통해 상기 제 2 데이터의 이상 여부를 탐지하는 것인, 이상 탐지 방법.
The method of claim 6,
Determining the second AI algorithm,
If the second reference information is the data type and the second reference information is the domain, if the data type is a formal data type and the domain is a number domain, the linear regression algorithm is determined as the second artificial intelligence algorithm. and,
Detecting whether the second data is abnormal,
And detecting the abnormality of the second data through the second artificial intelligence algorithm based on a reference information dictionary, the storage result, and relationship information with the first data.
제 1 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계 이후에,
상기 제 2 데이터의 이상 탐지 결과를 저장하는 단계를 더 포함하는 것인, 이상 탐지 방법.
The method of claim 1,
After detecting whether the second data is abnormal,
And storing an abnormality detection result of the second data.
제 1 항에 있어서,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는
상기 제 2 데이터의 이상이 탐지되는 경우, 상기 제 2 데이터를 표준화시키는 것인, 이상 탐지 방법.
The method of claim 1,
Detecting whether the second data is abnormal
And when the abnormality of the second data is detected, normalizing the second data.
제 9 항에 있어서,
상기 제 2 인공지능 알고리즘을 결정하는 단계는,
상기 제 2 기준 정보가 상기 데이터 타입이고, 상기 제 3 기준 정보가 상기 도메인인 경우, 상기 데이터 타입이 정형 데이터 타입이고, 상기 도메인이 명칭 도메인이면, 유사도 알고리즘을 상기 제 2 인공지능 알고리즘으로 결정하고,
상기 제 2 데이터의 이상 여부를 탐지하는 단계는,
상기 제 2 데이터의 이상이 탐지되는 경우, 상기 유사도 알고리즘에 기초하여 상기 제 2 데이터를 표준화시키는 것인, 이상 탐지 방법.
The method of claim 9,
Determining the second AI algorithm,
If the second reference information is the data type and the third reference information is the domain, if the data type is a formal data type and the domain is a name domain, a similarity algorithm is determined as the second artificial intelligence algorithm. ,
Detecting whether the second data is abnormal,
And when the abnormality of the second data is detected, normalizing the second data based on the similarity algorithm.
데이터의 이상을 탐지하는 장치에 있어서,
데이터 타입, 메타데이터, 도메인을 포함하는 복수의 기준 정보 중 제 1 기준 정보 및 제 2 기준 정보에 기초하여 제 1 인공지능 알고리즘을 결정하고, 기준 정보 사전을 참고하여 상기 제 1 인공지능 알고리즘을 통해 제 1 데이터의 이상 여부를 탐지하는 이상 탐지부; 및
상기 제 1 데이터의 이상 탐지 결과를 저장하는 데이터베이스를 포함하되,
상기 이상 탐지부는 상기 데이터 타입, 상기 메타데이터, 상기 도메인을 포함하는 복수의 기준 정보 중 제 2 기준 정보 및 제 3 기준 정보와 상기 저장 결과에 기초하여 제 2 인공지능 알고리즘을 결정하고, 상기 기준 정보 사전 및 상기 저장 결과를 참고하여 상기 제 2 인공지능 알고리즘을 통해 제 2 데이터의 이상 여부를 탐지하는 것인, 이상 탐지 장치.

In the device for detecting abnormality of data,
A first AI algorithm is determined based on the first reference information and the second reference information among a plurality of reference information including data types, metadata, and domains, and the first AI algorithm is referenced by referring to a reference information dictionary. An abnormality detecting unit detecting whether the first data is abnormal; And
Including a database for storing the abnormality detection result of the first data,
The abnormality detection unit determines a second artificial intelligence algorithm based on the second reference information, the third reference information, and the storage result among a plurality of reference information including the data type, the metadata, and the domain, and the reference information. And detecting the abnormality of the second data through the second artificial intelligence algorithm by referring to a dictionary and the storage result.

KR1020170024639A 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM KR101965598B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170024639A KR101965598B1 (en) 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM
PCT/KR2018/000581 WO2018155817A1 (en) 2017-02-24 2018-01-12 Device for detecting abnormality of data in abnormality detection system, and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170024639A KR101965598B1 (en) 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM

Publications (2)

Publication Number Publication Date
KR20180097895A KR20180097895A (en) 2018-09-03
KR101965598B1 true KR101965598B1 (en) 2019-08-13

Family

ID=63253733

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170024639A KR101965598B1 (en) 2017-02-24 2017-02-24 APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM

Country Status (2)

Country Link
KR (1) KR101965598B1 (en)
WO (1) WO2018155817A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102179290B1 (en) 2019-11-07 2020-11-18 연세대학교 산학협력단 Method for indentifying anomaly symptom about workload data
WO2022107994A1 (en) * 2020-11-20 2022-05-27 (주)피씨엔 Big data augmented analysis profiling system

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2576917B (en) 2018-09-06 2021-04-07 Samsung Electronics Co Ltd Improvements in and relating to intelligent systems
CN111507091A (en) * 2019-01-11 2020-08-07 北大方正信息产业集团有限公司 Entry checking method, device, equipment and storage medium for publication
KR102039540B1 (en) * 2019-04-23 2019-11-01 (주)위세아이텍 Device and method for automating process of detecting outlier values of big data
KR102274389B1 (en) * 2020-09-18 2021-07-06 (주)위세아이텍 Method for building anomaly pattern detection model using sensor data, apparatus and method for detecting anomaly using the same
KR102325629B1 (en) 2020-09-18 2021-11-11 국민대학교산학협력단 Anomaly detecting method and anomaly detecting apparatus
KR102309764B1 (en) * 2020-11-24 2021-10-08 주식회사 하스퍼 Fpga device for performing distributed processing for multiple gpus and method for performing distributed processing using the same
KR102299660B1 (en) 2021-02-23 2021-09-08 국민대학교산학협력단 Anomaly detecting method and anomaly detecting apparatus
CN116703263B (en) * 2023-05-19 2024-01-16 国网物资有限公司 Power equipment distribution method, device, electronic equipment and computer readable medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100433584B1 (en) 2000-12-12 2004-06-04 한국전자통신연구원 Method for product detailed information extraction of internet shopping mall with ontology and wrapper data
US20060229931A1 (en) * 2005-04-07 2006-10-12 Ariel Fligler Device, system, and method of data monitoring, collection and analysis
KR100961461B1 (en) 2001-07-31 2010-06-08 그레이스노트 아이엔씨 Multiple step identification of recordings

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198706A (en) * 1996-11-15 1998-07-31 Digital Vision Lab:Kk Information retrieval device, and method therefor
KR20000055986A (en) * 1999-02-12 2000-09-15 조정남 System and method for automatically extracting and verifing the data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100433584B1 (en) 2000-12-12 2004-06-04 한국전자통신연구원 Method for product detailed information extraction of internet shopping mall with ontology and wrapper data
KR100961461B1 (en) 2001-07-31 2010-06-08 그레이스노트 아이엔씨 Multiple step identification of recordings
US20060229931A1 (en) * 2005-04-07 2006-10-12 Ariel Fligler Device, system, and method of data monitoring, collection and analysis

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102179290B1 (en) 2019-11-07 2020-11-18 연세대학교 산학협력단 Method for indentifying anomaly symptom about workload data
WO2022107994A1 (en) * 2020-11-20 2022-05-27 (주)피씨엔 Big data augmented analysis profiling system

Also Published As

Publication number Publication date
KR20180097895A (en) 2018-09-03
WO2018155817A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
KR101965598B1 (en) APPARATUS AND METHOD for DETECTING DATA OUTLIERS IN FRAUN DETECTION SYSTEM
Yao et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model
CN109887153B (en) Finance and tax processing method and system
Yoon et al. Big data as complementary audit evidence
TW202001736A (en) Classification model training method and store classification method and device
US20150032645A1 (en) Computer-implemented systems and methods of performing contract review
KR101125417B1 (en) Method and system for assessing data quality
CN107273977A (en) Method, system and machine readable hardware storage apparatus for identifying matching
CN111159272A (en) Data quality monitoring and early warning method and system based on data warehouse and ETL
Damigos et al. How much are people willing to pay for efficient waste management schemes? A benefit transfer application
CN112241805A (en) Defect prediction using historical inspection data
CN115935412A (en) Automatic classification and classification method and system for unstructured data
Markley Tabulating Home Owners’ Loan Corporation area description sheet data
KR101930034B1 (en) Apparatus and method for determining domain
US11790680B1 (en) System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure
RU2549515C2 (en) Method of identifying personal data of open sources of unstructured information
CN113642291B (en) Method, system, storage medium and terminal for constructing logical structure tree reported by listed companies
Aboucaya et al. Detecting obstacles to collaboration in an online participatory democracy platform: a use-case driven analysis
KR101178998B1 (en) Method and System for Certificating Data
CN115187387B (en) Identification method and equipment for risk merchant
CN107491906A (en) Mapping product inspection method and system
Veiga A conceptual framework on biodiversity data quality.
US20230409618A1 (en) Systems and method for dynamically updating materiality distributions and classifications in multiple dimensions
Prakash et al. Cross-modal Data Linkage for Common Entity Identification
Sinha et al. Cerebro: Novelty detection in product reviews

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right