KR101777387B1 - Apparatus for analyzing data based on failure period - Google Patents

Apparatus for analyzing data based on failure period Download PDF

Info

Publication number
KR101777387B1
KR101777387B1 KR1020170038993A KR20170038993A KR101777387B1 KR 101777387 B1 KR101777387 B1 KR 101777387B1 KR 1020170038993 A KR1020170038993 A KR 1020170038993A KR 20170038993 A KR20170038993 A KR 20170038993A KR 101777387 B1 KR101777387 B1 KR 101777387B1
Authority
KR
South Korea
Prior art keywords
analysis
data
variable
variables
unit
Prior art date
Application number
KR1020170038993A
Other languages
Korean (ko)
Inventor
김근형
이강택
윤정아
송봉근
Original Assignee
엘아이지넥스원 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘아이지넥스원 주식회사 filed Critical 엘아이지넥스원 주식회사
Priority to KR1020170038993A priority Critical patent/KR101777387B1/en
Application granted granted Critical
Publication of KR101777387B1 publication Critical patent/KR101777387B1/en

Links

Images

Classifications

    • G06F17/5009
    • G06F2217/76

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Disclosed is a device for analyzing data based on a failure occurrence period. The data related to a failure occurrence period is obtained from data stored in a subsequent logistical support database, and visualized and grouped by performing a failure occurrence period and correspondence analysis on the obtained data so as to accurately obtain data having the highest correlation with the failure occurrence period. The device for analyzing data comprises a data search unit, a correspondence analysis unit, and a pattern analysis unit.

Description

고장발생기간 기반 데이터 분석 장치{APPARATUS FOR ANALYZING DATA BASED ON FAILURE PERIOD}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001]

본 발명은 데이터 분석 장치에 관한 것으로, 특히 무기 체계의 신뢰성 향상을 위해 고장발생기간 기반 데이터 분석 장치에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data analysis apparatus, and more particularly, to a data analysis apparatus based on a fault occurrence period for improving reliability of a weapon system.

정보기술의 발달로 인해서 다양한 분야의 데이터가 급증하고 있다. 이에 따라 최근 제조업에서는 미래 제조 산업의 변화를 주도하는 기술로써 빅 데이터 분석에 높은 관심을 갖고 있다. 특히 빅 데이터 분석을 활용한 공정 프로세스 개선은 제조업의 품질향상에 뛰어난 성과를 얻고 있다. 일예로 최근 차량 급발진 사고 등에 대한 문제 해결을 위해 빅데이터를 활용한 품질향상 연구가 수행되고 있다. 이러한 추세와 맞물려 국방 분야에서도 빅 데이터 분석을 도입하기 위해 다양한 연구를 수행하고 있다.Due to the development of information technology, data in various fields are increasing rapidly. As a result, recent manufacturing industry has been interested in big data analysis as a technology that leads change of future manufacturing industry. Especially, improvement of process process using big data analysis has achieved excellent results in manufacturing quality improvement. For example, recent studies on quality improvement using Big Data have been carried out in order to solve the problems such as the accident of the vehicle suddenly. In response to these trends, various studies are being carried out in order to introduce big data analysis in the field of defense.

특히 군수분야는 빅 데이터 분석을 통해 비약적인 발전을 이끌어낼 수 있는 분야 중 하나로써 인식되고 있다. 현재 방대한 정보가 각종 군수 관련 정보체계를 통해서 획득되고 있다. 하지만 다양한 정보들이 유의하게 활용되지 못하고 사장되고 있는 실정이다.In particular, the logistics sector is recognized as one of the areas that can lead to breakthroughs through big data analysis. Currently, vast information is being acquired through various logistics information systems. However, various information is being used without being utilized effectively.

무기체계의 결함은 인명 피해 및 비용 손실 등의 치명적 결과를 초래할 수 있음에도, 현재 무기체계는 개발 및 운용/유지까지의 각 단계가 서로 상이한 수행 기관에 의해 수행되어 데이터가 별도로 수집과 활용되고 있어, 무기체계 개발 이후 결함 원인에 대한 분석을 미흡하게 하여, 품질향상을 저해하는 요인이 된다.Although the flaws in the weapon systems can lead to fatal consequences such as loss of life and cost, the current weapon systems are carried out by different executing agencies, each stage from development and operation / maintenance to separate data collection and utilization, Since the development of the weapon system, the analysis of the cause of defects is insufficient, which is an obstacle to quality improvement.

무기체계는 품질향상을 통해 가동률을 높여 군의 전투준비태세 유지하며 유사시 그 성능을 발휘해야 한다. 전투준비태세에 있어서 중요한 요소 중 하나는 우수한 품질의 무기를 만들고 의도하는 기간 동안 고장 없이 요구된 기능을 수행하는 것이다. 이를 위해서 무기체계 개발단계의 신뢰성 확보가 가장 먼저 고려되어야 한다. 신뢰성 저하는 잔 고장, 짧은 수명 및 정비 비용 증가의 원인이 되며 효율적으로 전투준비태세를 유지할 수 없게 된다.The weapon system should increase its utilization rate through quality improvement, maintain military preparedness for combat, and demonstrate its performance in case of emergency. One of the key factors in combat readiness is the creation of high-quality weapons and the ability to perform the required functions without a fault during the intended period. For this, securing the reliability of the weapon system development stage should be considered first. Decreased reliability can lead to breakdown, short life span and increased maintenance costs, and it is not possible to maintain combat readiness efficiently.

그럼에도 현재 무기체계는 개발 단계에서만 부품 단위의 고장률을 계산하여 신뢰도를 예측하고 있다. 이는 무기체계는 높은 단위 비용, 장기간의 개발기간, 장소의 제한 등으로 많은 테스트 수행이 어렵기 때문이다. 또한 무기체계 개발 단계에서는 개발 프로세스를 거치면서 단계적인 개선이 이루어지기 때문에 축적되는 데이터의 크기가 작고 동질성 있는 대량의 데이터 수집이 어렵다는 문제가 있다. 뿐만 아니라 보안의 중요성 때문에 개발단계에서 데이터 확보조차 어려운 실정이다. 따라서 현재 시험평가에서는 명중률과 같은 단순한 정량적 척도가 평가의 기준이 되고 있다. 즉, 무기체계 개발단계의 데이터 수준으로는 연구를 수행하는데 한계가 있다.Nevertheless, the current weapon system estimates the reliability by calculating the failure rate of the parts unit only at the development stage. This is because the weapon system is difficult to perform a lot of tests due to high unit cost, long development period, and limited space. In addition, there is a problem that it is difficult to collect a large amount of data with a small amount of accumulated data because the development process of the weapon system is progressively improved through the development process. In addition, it is difficult to obtain data at the development stage due to the importance of security. Therefore, in the present test evaluation, simple quantitative measure such as accuracy rate is the standard of evaluation. In other words, there is a limit to carry out research at the data level of the weapon system development stage.

한국 등록 특허 제10-1705347호 (2017.02.03 등록)Korean Registered Patent No. 10-1705347 (Registered on Feb. 23, 2013)

본 발명의 목적은 후속군수지원 데이터베이스에서 저장된 데이터를 이용하여 개발 시의 신뢰성에 영향을 미치는 변수를 추출하고, 고장 발생 기간을 기준으로 변수들 간 상관성 패턴을 파악함으로써, 신뢰성 저하 요인을 추출함으로써, 무기 개발 시 신뢰성 저하 요인을 제거할 수 있는 고장발생기간 기반 데이터 분석 장치를 제공하는데 있다.An object of the present invention is to extract reliability deteriorating factors by extracting variables affecting reliability at the time of development by using stored data in a subsequent logistical support database and grasping a correlation pattern between variables based on a failure occurrence period, And to provide a data analysis apparatus based on a fault occurrence period that can eliminate reliability deterioration factors in weapon development.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 고장발생기간 기반 데이터 분석 장치는 야전 운용 및 정비 정보가 저장된 후속군수지원 데이터베이스를 탐색하여, 제조일로부터 고장 접수일까지의 기간을 나타내는 고장발생기간에 관련되는 데이터를 획득하고, 획득된 상기 데이터에서 상기 고장발생기간을 목적 변수로 설정하고, 나머지 데이터로부터 복수개의 분석 변수를 설정하며, 상기 목적 변수 및 복수개의 상기 분석 변수 중 연속형 변수가 존재하면, 연속형 변수를 범주형 변수로 변환하는 데이터 탐색부; 획득된 상기 데이터의 패턴을 도출하기 위해 상기 목적 변수와 상기 복수개의 분석 변수 각각에 대한 대응분석을 수행하여, 상기 목적 변수와 상기 복수개의 분석 변수 각각 사이의 상관 관계를 분석하고, 분석 결과를 시각화하는 대응분석부; 및 시각화된 상기 대응분석 결과로부터 상기 분석 변수의 각 범주를 상기 목적 변수의 각 범주에 대응하여 그룹화하고, 그룹화된 상기 분석 변수의 각 범주의 상대빈도 비율을 계산하여, 상기 목적 변수에 상관도가 가장 높은 그룹을 추출하는 패턴 분석부; 를 포함한다.According to an aspect of the present invention, there is provided an apparatus for analyzing data on the basis of a fault occurrence period, comprising: a database for searching a subsequent logistical support database storing field operation and maintenance information, Setting a failure occurrence period as an objective variable in the acquired data, and setting a plurality of analysis variables from the remaining data, and if the objective variable and the plurality of the plurality of analysis variables are present, A data search unit for converting a continuous variable into a categorical variable; Analyzing the correlation between the target variable and each of the plurality of analysis variables by performing a corresponding analysis on each of the objective variable and the plurality of analysis variables to derive a pattern of the obtained data, A corresponding analysis unit; And grouping the categories of the analytical variables corresponding to each category of the objective variable from the visualized analysis results and calculating a relative frequency ratio of each category of the analytical variables grouped, A pattern analysis unit for extracting the highest group; .

상기 데이터 탐색부는 상기 후속군수지원 데이터베이스에 저장된 정보 중 수리 요청 정보를 탐색하여 획득하고, 상기 수리 요청 정보에서 상기 고장발생기간을 계산하여 상기 목적 변수로 획득하며, 상기 수리 요청 정보에 포함된 복수개의 데이터에 대해 결측값의 수 및 범주의 레벨 개수를 기반으로 복수개의 상기 분석 변수를 선택하는 데이터 추출부; 및 상기 목적 변수 및 복수개의 상기 분석 변수 중 연속형 변수가 존재하면, 연속형 변수를 범주형 변수로 변환하고, 중복 데이터 및 각 범주별 레벨 개수가 기설정된 기준 개수 이하인 데이터를 잡음으로 제거하는 전처리부; 를 포함하는 것을 특징으로 한다.Wherein the data searching unit searches for and obtains repair request information among information stored in the subsequent log support database, calculates the fault occurrence period from the repair request information, obtains the fault occurrence period as the target variable, A data extracting unit for selecting a plurality of the analysis variables based on the number of the missing values and the number of levels of categories for the data; And transforming the continuous variable into a categorical variable when the objective variable and the plurality of the analysis variables exist, and if the redundant data and the data in which the number of levels of each category is less than a predetermined reference number are removed by noise, part; And a control unit.

상기 대응분석부는 범주형 변수인 상기 목적 변수와 복수개의 상기 분석 변수 각각을 교차표 형태로 표현하고, 상기 목적 변수에 대한 복수개의 상기 분석 변수들 각각의 종속성 정보를 나타내는 상관계수를 계산하는 상관계수 계산부; 상기 대응분석 결과를 시각적으로 표현하기 위한 차원의 수를 결정하고, 결정된 상기 차원의 수에 따른 공간 상에서 복수개의 상기 분석 변수 각각의 범주별 좌표를 계산하는 관성 차원 분석부; 및 상기 결정된 차원 공간에 상기 목적 변수의 범주 각각을 벡터 형태로 표시하고, 복수개의 상기 분석 변수 각각의 범주를 계산된 상기 좌표에 표시하여 시각화하는 시각화부; 를 포함하는 것을 특징으로 한다.Wherein the correspondence analysis unit is configured to express the objective variable and the plurality of analysis variables as a categorical variable in the form of a crosstabulation table and to calculate a correlation coefficient indicating a dependency information of each of the plurality of analysis variables for the objective variable Calculating section; An inertial dimension analyzer for determining the number of dimensions for visually expressing the corresponding analysis result and calculating coordinates of each of the plurality of analysis variables on a space according to the determined number of dimensions; And a visualization unit for displaying each category of the target variable in the determined dimension space in a vector form and displaying a category of each of the plurality of analysis variables in the calculated coordinates to visualize the category; And a control unit.

상기 상관계수 계산부는 상기 교차표 형태로 표현된 상기 목적 변수와 복수개의 상기 분석 변수 각각의 범주들에 대해 카이제곱 검정을 수행하여 획득되는 피어슨 잔차를 이용하여 상기 상관계수를 계산하고, 각각의 분석 변수에 대해 계산된 상기 상관계수가 기설정된 기준값 미만이면, 대응하는 분석 변수를 상기 대응분석 대상에서 제외하는 것을 특징으로 한다.Wherein the correlation coefficient calculation unit calculates the correlation coefficient using the Pearson residual obtained by performing a chi-square test on the target variable represented by the cross-tabular form and the categories of the plurality of analysis variables, And if the correlation coefficient calculated for the variable is less than a preset reference value, the corresponding analysis variable is excluded from the corresponding analysis target.

상기 관성 차원 분석부는 상기 각 범주들의 좌표를 상기 피어슨 잔차에 대한 특이값 분해 기법에 따라 획득하는 것을 특징으로 한다.And the inertia dimension analyzer obtains the coordinates of the categories according to the singular value decomposition technique for the Pearson residual.

상기 대응분석부는 상기 결정된 차원 공간에서 각 축에 대한 상기 범주 각각의 관성 비율을 나타내는 기여도를 계산하고, 계산된 상기 기여도가 평균 기여도 미만인 분석 변수를 상기 대응분석 대상에서 제외하는 기여도 분석부; 및 상기 결정된 차원 공간에서 각 축에 대한 상기 범주 각각의 표현력을 계산하고, 계산된 표현력이 기지정된 기준 표현력 미만인 분석 변수를 상기 대응분석 대상에서 제외하는 표현력 분석부; 를 더 포함하는 것을 특징으로 한다.Wherein the correspondence analysis unit calculates a contribution indicating an inertia ratio of each of the categories for each axis in the determined dimension space and excludes an analysis variable having the calculated contribution less than the average contribution from the corresponding analysis target; And an expressiveness analyzer for calculating the expressive power of each of the categories for each axis in the determined dimension space and excluding analytic variables whose calculated expressive power is less than a predetermined reference expressive power from the corresponding analysis target; And further comprising:

상기 패턴 분석부는 상기 결정된 차원 공간에서 계산된 상기 좌표에 표시된 복수개의 상기 분석 변수 각각의 범주를 벡터 형태로 표시된 상기 목적 변수의 범주 중 가장 인접한 상기 목적 변수의 범주에 대응하는 그룹으로 그룹화하는 그룹화부; 및 그룹화된 상기 분석 변수의 각 범주의 상대빈도 비율을 계산하여 상기 목적 변수에 대한 상관도가 가장 높은 그룹을 추출하고, 추출된 그룹에 대응하는 상기 목적 변수의 범주와 상기 분석 변수의 범주를 특성 분석을 위한 범주로 선별하는 패턴 추출부; 를 포함하는 것을 특징으로 한다.Wherein the pattern analyzing unit classifies the category of each of the plurality of analysis variables displayed in the coordinates calculated in the determined dimension space into a group corresponding to a category of the object variable closest to the category of the objective variable indicated in a vector form, ; And extracting a group having the highest degree of correlation with respect to the objective variable by calculating a relative frequency ratio of each category of the analytical variables grouped and classifying the category of the objective variable and the category of the analysis variable corresponding to the extracted group A pattern extracting unit for sorting by categories for analysis; And a control unit.

따라서, 본 발명의 고장발생기간 기반 데이터 분석 장치는 후속군수지원 데이터베이스에 저장된 데이터로부터 고장발생기간에 관련된 데이터를 획득하고, 획득된 데이터에 대해 고장발생기간과 대응분석을 수행하여 시각화하고 그룹화함으로써, 고장발생기간과 가장 상관성인 높은 데이터를 정확하게 추출할 수 있다. 그러므로 이후 무기체계 개발 시에 우선 고려되어야 하는 중요한 요인을 사전에 분석하여 효율적인 무기체계 개발이 가능하도록 한다.Therefore, the fault analysis period based data analysis apparatus of the present invention obtains data related to the fault occurrence period from the data stored in the subsequent log support database, performs visualization and grouping of the obtained data by performing fault occurrence period and corresponding analysis, It is possible to accurately extract high-data having the highest correlation with the fault occurrence period. Therefore, it will be possible to develop efficient weapon systems by analyzing the important factors that should be considered first in the development of the weapon system in advance.

도1 은 본 발명의 일 실시예에 따른 데이터 분석 장치를 나타낸다.
도2 는 전체 관성에 대한 각차원의 비율을 나타내는 그래프이다.
도3 내지 도5 는 목적 변수에 대한 분석 변수 각각의 각 차원별 기여도를 계산한 결과를 나타낸다.
도6 은 목적 변수에 대한 분석 변수 각각의 표현력을 계산한 결과를 나타낸다.
도7 내지 도9 는 목적 변수와 분석 변수 각각에 대한 대응분석 시각화 결과를 나타낸다.
도10 은 본 발명의 일 실시예에 따른 고장발생기간 기반 데이터 분석 방법을 나타낸다.
도11 은 도10 의 대응분석 단계를 상세하게 나타낸 도면이다.
1 shows a data analysis apparatus according to an embodiment of the present invention.
2 is a graph showing the ratio of each dimension to the total inertia.
FIGS. 3 to 5 show the results of calculating the contribution of each of the analysis variables to the objective variable.
6 shows the result of calculating the expressive power of each analysis variable for the target variable.
Figures 7 to 9 show the corresponding analysis visualization results for the objective variable and the analysis variable, respectively.
10 illustrates a method of analyzing data based on a fault occurrence period according to an embodiment of the present invention.
11 is a detailed view of the corresponding analysis step of FIG.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. In order to fully understand the present invention, operational advantages of the present invention, and objects achieved by the practice of the present invention, reference should be made to the accompanying drawings and the accompanying drawings which illustrate preferred embodiments of the present invention.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, the present invention will be described in detail with reference to the preferred embodiments of the present invention with reference to the accompanying drawings. However, the present invention can be implemented in various different forms, and is not limited to the embodiments described. In order to clearly describe the present invention, parts that are not related to the description are omitted, and the same reference numerals in the drawings denote the same members.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when an element is referred to as "including" an element, it does not exclude other elements unless specifically stated to the contrary. The terms "part", "unit", "module", "block", and the like described in the specification mean units for processing at least one function or operation, And a combination of software.

도1 은 본 발명의 일 실시예에 따른 데이터 분석 장치를 나타낸다.1 shows a data analysis apparatus according to an embodiment of the present invention.

도1 에 도시된 바와 같이, 본 발명의 고장발생기간 기반 데이터 분석 장치(200)는 후속군수지원 데이터베이스(100)에 저장된 데이터를 이용하여 고장발생기간을 중심으로 데이터 분석을 수행함으로써, 이전 개발된 무기체계의 결함 요인을 패턴화하여 분석함으로써, 향후 무기체계 개발 시에 신뢰성을 향상 시킬 수 있는 정보를 제공한다.As shown in FIG. 1, the failure analysis period-based data analysis apparatus 200 of the present invention performs data analysis based on a failure occurrence period using data stored in a subsequent log support database 100, By analyzing the defective factors of the weapon system by patterning, it provides information that can improve the reliability in the development of the weapon system in the future.

후속군수지원은 전력화 이후 획득한 장비에 대한 야전 운용 및 정비의 모든 군수지원 과정을 의미한다. 따라서 후속군수지원 시에 야전 운용을 통해 발생되는 결함에 대한 정비시간, 부품교체 이력, 결함원인 등의 정보 획득이 가능하다. 현재 후속군수지원 내역에 대한 정보는 데이터 형태로 획득되어 통합 데이터베이스인 후속군수지원 데이터베이스(100)에 저장된다. 즉 후속군수지원 데이터베이스(100)에는 무기체계를 효율적으로 운용하기 위한 활동들이 기록되어 있다. 따라서 후속군수지원 데이터는 전력화 후 무기체계들의 상태 정보를 제공하며 유의한 정보 획득이 가능하다.Subsequent logistic support means all logistical support processes for field operation and maintenance of equipment acquired after power up. Therefore, it is possible to obtain information such as maintenance time, parts replacement history, cause of defects, etc. of defects arising from field operation at the time of subsequent logistics support. Information on the current logistics support details is acquired in the form of data and stored in the subsequent log support database 100, which is an integrated database. That is, the subsequent logistical support database 100 records activities for efficiently operating the weapon system. Therefore, subsequent logistical support data provides state information of the weapon systems after power-up, and it is possible to obtain meaningful information.

따라서 저장된 데이터는 군수지원요소 최신화, 설계변경요소의 도출, 수리부속품 예측 등의 업무를 위한 분석에 이용될 수 있다. 즉 후속군수지원을 통해 획득된 데이터는 상기한 무기체계 개발 단계의 문제점을 개선하기 위해 활용될 수 있다.Therefore, the stored data can be used for the analysis of tasks such as updating logistics support elements, deriving design change factors, and forecasting repair accessories. That is, the data obtained through the subsequent logistics support can be utilized to improve the problems of the above-mentioned weapon system development stage.

다만 후속군수지원 데이터베이스(100)에 저장된 데이터는 대부분은 고차원 범주형 데이터의 특성을 갖는다. 따라서 이러한 특성의 데이터를 위한 분석 장치 및 분석 방법이 필요하다.However, most of the data stored in the subsequent logistical support database 100 has characteristics of high dimensional categorical data. Therefore, analytical devices and analytical methods for the data of these characteristics are needed.

도1 을 참조하면, 데이터 분석 장치(200)는 데이터 탐색부(210), 대응분석부(220) 및 패턴 분석부(230)를 구비한다.Referring to FIG. 1, the data analysis apparatus 200 includes a data search unit 210, a corresponding analysis unit 220, and a pattern analysis unit 230.

데이터 탐색부(210)는 데이터 추출부(211) 및 전처리부(212)를 구비하여, 후속군수지원 데이터베이스(100)에 저장된 데이터를 탐색하여 분석할 데이터를 획득하고, 획득된 데이터로부터 분석을 수행할 분석 변수를 선택하며, 선택된 변수에 대응하는 데이터의 전처리를 수행한다.The data searching unit 210 includes a data extracting unit 211 and a preprocessing unit 212 to obtain data to be analyzed by searching for data stored in the subsequent logistical support database 100, Select the analysis variables to perform and preprocess the data corresponding to the selected variables.

데이터 추출부(211)는 후속군수지원 데이터베이스(100)에서 수리 요청 정보를 탐색하여 추출하고, 수리 요청 정보에서 분석 변수를 선택한다. 수리 요청 정보에는 날짜, 정비요청 부대, 무기체계 종류, 결함원인, 조치 사항 및 금액 등의 정보가 포함되어 있으며, 대부분 범주형 변수(Categorical Variables)로 구성되어 있다. 그리고 데이터 추출부(211)는 분석 변수를 결측값의 수(Number of Missing data) 및 범주의 레벨 개수(Number of Categorical levels)를 기준으로 분석 변수를 선택할 수 있다.The data extracting unit 211 searches for and extracts repair request information from the subsequent log support database 100, and selects an analysis variable from the repair request information. The repair request information includes information such as date, maintenance request unit, weapon system type, cause of defect, action item and amount, and is mostly composed of categorical variables. The data extracting unit 211 may select an analysis variable based on the number of missing data and the number of categorical levels.

본 발명에서는 일예로 데이터 추출부(211)가 표1 에서와 같이, 범주형 변수인 지원부대(Military)와 무기체계(Weapon System), 결함 원인(Cause of Failure) 및 TUM을 분석 변수로 설정하는 것으로 가정한다. 여기서 TUM은 탑(Top), 유닛(Unit), 모듈(Module)을 의미하며, 무기체계의 어떤 하위 부품 구조에서 고장이 발생했는지 나타낸다.In the present invention, for example, the data extracting unit 211 sets a categorical variable Military, Weapon System, Cause of Failure, and TUM as analysis variables as shown in Table 1 . Here, TUM means Top, Unit, Module, and indicates which sub-part structure of the weapon system has failed.

Figure 112017030225475-pat00001
Figure 112017030225475-pat00001

표1 은 기지정된 기간 동안 후속군수지원 데이터베이스(100)에 수집 저장된 수리 요청 정보에서 선택된 변수를 나타낸다.Table 1 shows the variables selected in the repair request information collected and stored in the subsequent logistical support database 100 for the predefined period.

그리고 데이터 추출부(211)는 연속형 변수(Categorical Variables)인 고장발생기간(Failure Period)을 목적 변수로 선택한다. 고장발생기간은 해당 무기체계의 제조일로부터 고장 접수일까지의 기간으로 본 발명의 데이터 분석 장치가 무기체계 결함을 분석할 기반 데이터로서, 반드시 변수로 선택되어야 하는 목적 변수이다. 후속군수지원 데이터베이스(100)에는 고장발생기간이 별도로 저장되어 있지 않는 경우가 대부분이므로, 데이터 추출부(211)는 제조일로부터 고장 접수일까지의 기간을 계산하여 고장발생기간을 획득할 수도 있다.The data extraction unit 211 selects a failure period, which is a categorical variable, as a target variable. The failure occurrence period is a period from the manufacturing date of the relevant weapon system to the failure acceptance date, and the data analysis apparatus of the present invention is a target variable to be selected as a variable as the base data for analyzing the defects of the weapon system. The data extraction unit 211 may calculate the period from the manufacturing date to the failure acceptance date to obtain the failure occurrence period since most of the failure occurrence periods are not separately stored in the subsequent logistical support database 100. [

그리고 전처리부(212)는 획득된 변수에 대응하는 데이터에 대해 대응분석부(220)가 용이하게 분석할 수 있도록 전처리를 수행한다. 대응분석부(220)는 탐색적 자료 분석(Exploratory Data Analysis) 기법 중 하나인 대응분석(Correspondence Analysis)을 수행하며, 대응분석은 두 범주형 변수에 대한 분석을 수행하는 기법이다. 따라서 전처리부(212)는 연속형 변수인 고장발생기간을 범주형 변수로 변환한다. 고장발생기간은 이상값(Outlier)이 다수 존재하는 분포를 갖고 있기 때문에, 전처리부(212)는 동일 빈도 이산화(Equal Frequency Discretization)를 수행하여 고장발생기간을 범주형 변수로 변환할 수 있다. 본 발명에서는 일예로 전처리부(212)가 고장발생기간을 기간이 짧은 순서로 세 개의 그룹(FP1, FP2, FP3)으로 나누는 것으로 가정하였다. 그리고 3개의 그룹은 제1 고장발생기간그룹(FP1)은 제조일부터 1년 이내에 고장이 발생한 무기체계를 의미하며, 제2 고장발생기간그룹(FP2)은 1년 이후부터 2년 이내에 고장이 발생한 무기체계, 제3 고장발생기간그룹(FP3)은 그 외에 제조일이 오래된 제품에 대한 무기체계를 포함하는 것으로 가정한다.The preprocessing unit 212 preprocesses the data corresponding to the obtained variables so that the correspondence analysis unit 220 can easily analyze the data. The correspondence analysis unit 220 performs correspondence analysis, which is one of exploratory data analysis techniques, and the correspondence analysis is a technique of performing analysis on two categorical variables. Therefore, the preprocessing unit 212 converts the failure occurrence period, which is a continuous variable, into a categorical variable. Since the fault occurrence period has a large number of outliers, the preprocessing unit 212 can perform the equal frequency discretization to convert the fault occurrence period into the categorical variable. In the present invention, for example, it is assumed that the preprocessing unit 212 divides the failure occurrence period into three groups FP1, FP2, and FP3 in the shortest period. The first group of failures (FP1) refers to the weapon system that failed within one year from the date of manufacture. The second group of failures (FP2) refers to the weapon system that failed within two years from the first year. System, and the third failure occurrence group (FP3) are assumed to include a weapon system for products with older manufacturing dates.

또한 전처리부(212)는 동일한 접수번호를 갖는 중복데이터를 제거하고 각 변수에서 범주의 레벨 개수가 기설정된 기준 개수(예를 들면 40개) 이하인 데이터를 잡음 데이터로서 제거함으로써, 분석할 데이터의 품질을 향상시킨다. 본 발명에서는 전처리부(212)에 의해 전처리 과정을 거쳐 중복 및 잡음이 제거된 최종 분석 데이터가 지원부대(M1, M2, …, M13), 무기체계(W1, W2, …, W35), 불량원인(기타, 설계불량, 운용미숙, 자재불량, 작업불량), TUM(Top, Unit, Module)로 선정된 것으로 가정한다.In addition, the preprocessing unit 212 removes redundant data having the same reception number and removes as the noise data the data of which the number of levels of the category is equal to or less than a predetermined reference number (for example, 40) in each variable, . In the present invention, the final analysis data in which redundancy and noise are removed through the preprocessing process by the preprocessing unit 212 are transmitted to the support units M1, M2, ..., M13, the weapon systems W1, W2, ..., W35, (Other, design failure, poor operation, material failure, work defect), TUM (Top, Unit, Module).

대응분석부(220)는 데이터 탐색부(210)에 의해 획득된 최종 분석 데이터를 인가받아 대응분석을 수행한다. 대응분석은 두 범주형 변수의 상관관계 유ㅇ무뿐만 아니라, 분석 결과의 저차원 시각화를 통해서 데이터에 내재하는 패턴을 설명할 수 있는 분석 기법이다. 또한 대응분석은 탐색적 자료 분석을 위한 다른 기법들보다 상관관계 특성 파악에 장점이 있으며, 변수 간 상관관계 정보뿐만 아니라 변수가 갖는 범주들이 어떤 패턴으로 관련되어 있는지 알 수 있는 강점이 있다. 따라서 대응분석은 대량의 범주형 데이터 특성을 갖는 후속군수지원 데이터로부터 내재하는 패턴을 파악하기 위해서 유용하게 활용될 수 있다The correspondence analysis unit 220 receives the final analysis data obtained by the data search unit 210 and performs corresponding analysis. Correspondence analysis is an analytic technique that can explain not only the correlation of two categorical variables but also the patterns inherent in the data through low dimensional visualization of the analysis results. In addition, the counterpart analysis has an advantage in that it has more advantages in identifying the correlation characteristics than other techniques for exploratory data analysis, and has a strong point of knowing in which pattern the categories of the variables are related as well as the correlation information between the variables. Therefore, the correspondence analysis can be useful to identify patterns inherent in subsequent logistical support data with large quantities of categorical data characteristics

대응분석부(220)는 상관계수 계산부(221), 관성 차원 분석부(222), 기여도 분석부(223), 표현력 분석부(224) 및 시각화부(225)를 구비한다.The correspondence analysis unit 220 includes a correlation coefficient calculation unit 221, an inertia dimension analysis unit 222, a contribution analysis unit 223, an expression power analysis unit 224, and a visualization unit 225.

상관계수 계산부(221)는 데이터 탐색부(210)에서 인가된 최종 분석 데이터에서 목적 변수인 고장발생기간에 대한 복수개의 분석 변수들(지원부대와 무기체계, 결함 원인 및 TUM) 각각의 종속성 정보를 파악하기 위해 상관계수를 계산한다.The correlation coefficient calculation unit 221 calculates dependency information of each of the plurality of analysis variables (support unit, weapon system, defect cause, and TUM) for the failure occurrence period, which is the target variable, in the final analysis data applied by the data search unit 210 The correlation coefficient is calculated.

상관계수 계산부(221)는 상관계수는 카이제곱 검정을 이용하여 획득할 수 있다. 상기한 바와 같이, 고장발생기간은 전처리부(212)에 의해 범주형 변수로 변환된 상태이다. 따라서 최종 분석 데이터에서 목적 변수인 고장발생기간에 대한 복수개의 분석 변수들 각각 사이의 관계는 두개의 범주형 변수(고장발생기간과 하나의 분석 변수) 사이의 관계로 교차표 형태로 표현될 수 있다.The correlation coefficient calculator 221 can obtain the correlation coefficient using a chi-square test. As described above, the fault occurrence period is a state converted to a categorical variable by the preprocessing unit 212. [ Thus, in the final analysis, the relationship between each of the multiple analytical variables for the time period of the fault, the target variable, can be expressed in the form of a cross table with the relationship between two categorical variables (failure duration and one analytical variable) .

상관계수 계산부(221)는 교차표로 표현된 두 범주형 변수 간의 상관성을 파악하기 위해서 카이제곱 검정을 수행하며, 각 셀의 카이제곱값은 카이제곱 검정 과정을 통해서 계산된다. 그리고 이를 피어슨 잔차(Pearson residuals)라 한다. 피어슨 잔차는 카이제곱 검정의 가설에 대한 각 셀의 영향력을 나타내며, 이하에서는 피어슨 잔차의 계산 과정을 설명한다.The correlation coefficient calculator 221 performs a chi-square test to determine the correlation between the two categorical variables represented by the intersecting table, and the chi-square value of each cell is calculated through a chi-square test. This is called Pearson residuals. Pearson residuals represent the influence of each cell on the hypothesis of the chi-square test, and the calculation of Pearson residuals is described below.

행 범주의 개수가 p이고, 열 범주의 개수가 q인 교차표(F)의 전체 빈도수(n)에 대해서 상대비율 행렬(P)을 수학식 1과 같이 정의할 수 있다.The relative ratio matrix P can be defined as in Equation (1) with respect to the total frequency (n) of the cross table (F) in which the number of row categories is p and the number of column categories is q.

Figure 112017030225475-pat00002
Figure 112017030225475-pat00002

한편 교차표(F)에서 (i,i)의 요소가 행의 주변 비율(r, row marginal proportion)인 대각 행렬(Dr)과 (j,j)의 요소가 열의 주변 비율(c, row marginal proportion)인 대각 행렬(Dc)은 수학식 2 및 3과 같이 계산된다.On the other hand, if the elements of the diagonal matrix (D r ) and (j, j) in which the elements of (i, i) are in the row marginal proportion in the cross table (F) a diagonal matrix (D c ) is calculated as shown in Equations (2) and (3).

Figure 112017030225475-pat00003
Figure 112017030225475-pat00003

Figure 112017030225475-pat00004
Figure 112017030225475-pat00004

피어슨 카이제곱 검증(Pearson's chi-square test)은 교차표(F)의 열과 행의 분포에 대한 균일성을 검증하는 방법으로 사용된다. 그리고 피어슨 카이제곱 통계량(Pearson chi-squared statistic)과 피어슨 잔차는 수학식 4 및 5와 같이 계산된다.Pearson's chi-square test is used to verify the uniformity of the distribution of rows and columns of the cross table (F). The Pearson chi-squared statistic and the Pearson residual are calculated as shown in equations (4) and (5).

Figure 112017030225475-pat00005
Figure 112017030225475-pat00005

Figure 112017030225475-pat00006
Figure 112017030225475-pat00006

상관계수는 전체 관성(Total Inertia)으로써 행과 열의 종속성을 나타내며, 수학식 6과 같이 계산된다.The correlation coefficient represents total dependence of row and column as total inertia, and is calculated as shown in Equation (6).

Figure 112017030225475-pat00007
Figure 112017030225475-pat00007

전체 관성인 상관계수는 교차표 테이블에 의해서 설명되는 전체 정보량을 의미한다. 총 관성의 제곱근은 두 변수의 상관계수로 사용되며 기설정된 기준값(일예로 0.2)보다 큰 값을 나타내면 교차표의 행과 열 사이에 유의한 상관관계가 있는 것으로 해석할 수 있다.The correlation coefficient, which is the total inertia, refers to the total amount of information described by the cross-tabulation table. The square root of the total inertia is used as a correlation coefficient of two variables. If the value is larger than a predetermined reference value (for example, 0.2), it can be interpreted that there is a significant correlation between rows and columns of the intersection table.

그리고 교차표(F)에서 각 행과 열 변수가 갖고 있는 범주들 간의 카이제곱 거리를 계산하는 수학식으로 단면(Profile) 정보를 이용해서 구할 수 있다. 예를 들어 M차원 공간 안의 행 단면(row profile)에서 i번째 행과 i*행 사이의 카이제곱 거리는 수학식 7을 통해 계산할 수 있다.And can calculate the Chi square distance between the categories of each row and column variable in the cross table (F) by using the profile information as a mathematical expression. For example, the chi-square distance between the i-th row and the i * -th row in the row profile in the M-dimensional space can be calculated using Equation (7).

Figure 112017030225475-pat00008
Figure 112017030225475-pat00008

표2 는 목적 변수인 고장발생기간에 대한 복수개의 분석 변수들(지원부대와 무기체계, 결함 원인 및 TUM) 각각의 상관 계수의 일예를 나타낸다.Table 2 shows an example of the correlation coefficient of each of the plurality of analysis variables (support unit and weapon system, cause of defect, and TUM) with respect to the target period of failure.

Figure 112017030225475-pat00009
Figure 112017030225475-pat00009

표2 에 나타난바 같이, 4개의 분석 변수 중 3개의 분석 변수(지원부대와 무기체계, 결함 원인)은 고장발생기간과 유의미한 상관관계가 있는 반면, TUM은 유의미한 상관관계가 존재하지 않는 것을 확인할 수 있다. 그러므로 TUM에 대한 추가 분석은 수행할 필요가 없다.As shown in Table 2, three of the four analytical variables (support units and weapon system, cause of defects) have a significant correlation with the period of failure, while TUM shows that there is no significant correlation have. Therefore, additional analysis of the TUM need not be performed.

한편 상관계수 계산부(221)가 수학식 6에 따라 상관계수를 계산하면, 관성 차원 분석부(222)는 대응분석 결과를 표현하기 위한 차원의 수를 결정하고, 결정된 차원에서 각 범주의 좌표를 계산한다. 즉 연관성의 패턴을 잘 표현하는 축의 개수를 선택하고, 결정된 차원 각각에서 각 범주의 좌표를 계산한다.On the other hand, when the correlation coefficient calculation unit 221 calculates the correlation coefficient according to Equation (6), the inertia dimension analysis unit 222 determines the number of dimensions for expressing the corresponding analysis result, and determines the coordinates of each category . That is, the number of axes expressing the pattern of association is selected, and the coordinates of each category are calculated in each determined dimension.

대응분석은 행 변수와 열 변수 사이의 거리정보를 이용해서 저차원 공간의 그래프로 표현 가능한 장점을 갖고 있다. 그러나 이를 위해서는 교차표의 범주들을 저차원 공간상의 점으로 표현할 수 있도록 좌표를 계산할 필요가 있으며, 좌표를 계산하기 이전에 우선 대응분석 결과를 표현하기 위한 차원의 수를 결정할 필요가 있다. 이때 많은 차원을 선택할수록 설명되는 데이터의 변동성은 증가하지만, 해석을 복잡하게 할 수 있다. 이에 본 발명에서는 관성 차원 분석부(222)가 대응분석 결과를 표현하기 위한 차원의 수를 2개로 결정한 것으로 가정한다.The correspondence analysis has the advantage that it can be expressed as a low dimensional space graph using the distance information between the row variable and the column variable. However, for this purpose, it is necessary to calculate the coordinates so that the categories of the intersection table can be expressed as points on the low-dimensional space, and it is necessary to determine the number of dimensions for expressing the result of the first correspondence analysis before calculating the coordinates. In this case, as you select many dimensions, the variability of the explained data increases, but it can complicate the interpretation. In the present invention, it is assumed that the inertia dimension analyzer 222 determines the number of dimensions for expressing the corresponding analysis result as two.

각 차원은 관성으로 설명 가능하고, 특이값의 제곱이 주성분 관성(principal inertia 또는 eigenvalue)이 되며, 주성분 관성의 합은 총 관성으로 나타낸다. 총 관성에 대한 각 차원의 주성분 관성 비율에 따라서 각 차원이 해당 자료를 얼마나 설명하는지 나타낼 수 있다.Each dimension can be explained by inertia, the squared singular value is principal inertia or eigenvalue, and the sum of principal component inertia is expressed as total inertia. Depending on the principal component inertia ratio of each dimension for total inertia, it can be shown how each dimension describes the data.

이에 관성 차원 분석부(222)는 차원의 수가 결정되면, 교차표의 각 범주들에 대한 좌표를 계산한다. 각 범주들에 대한 좌표는 수학식 5에서 획득되는 피어슨 잔차(R)에 대한 특이값 분해(Singular Value Decomposition)를 적용하여 수학식 8 과 같이 획득할 수 있다.When the number of dimensions is determined, the inertia dimension analyzer 222 calculates coordinates for each category of the cross table. Coordinates for the respective categories can be obtained as in Equation (8) by applying Singular Value Decomposition for the Pearson residual (R) obtained in Equation (5).

Figure 112017030225475-pat00010
Figure 112017030225475-pat00010

그리고 행과 열의 주좌표는 수학식 9 및 10과 같이 계산되고, 행과 열의 표준 좌표는 수학식 11 및 12에 따라 계산될 수 있다.Then, the main coordinates of the rows and columns are calculated as shown in Equations (9) and (10), and the standard coordinates of the rows and columns can be calculated according to Equations (11) and (12).

Figure 112017030225475-pat00011
Figure 112017030225475-pat00011

Figure 112017030225475-pat00012
Figure 112017030225475-pat00012

Figure 112017030225475-pat00013
Figure 112017030225475-pat00013

Figure 112017030225475-pat00014
Figure 112017030225475-pat00014

여기서 Dλ는 내림차순 정렬된 특이값(Singular Value, Δ)의 대각행렬이며 고유값(Eigenvalues, λ = Dλ 2)으로부터 획득할 수 있다.Where D λ is a diagonal matrix of singular values (Δ) sorted in descending order and can be obtained from eigenvalues (λ = D λ 2 ).

도2 는 전체 관성에 대한 각차원의 비율을 나타내는 그래프이다.2 is a graph showing the ratio of each dimension to the total inertia.

도2 에서 (a) 내지 (c)는 각각 상관관계 계산부(221)에서 계산된 상관계수로부터 목적 변수인 고장발생기간과 유의미한 상관관계가 있는 것으로 판단된 3개의 분석 변수(지원부대와 무기체계, 결함 원인)들의 각 차원의 비율을 나타낸다. 상기한 바와 같이, 본 발명에서는 2개의 차원을 이용하는 것으로 결정하였으므로, 가로축은 1차원(Dim1)과 2차원(Dim2)을, 세로축은 각 차원이 갖는 관성을 나타낸다. 막대 그래프에는 각 차원(Dim1, Dim2)이 갖는 관성 비율의 수치가 표시되어 있으며, (a) 내지 (c) 각각에서 대한 관성 비율의 합은 모두 100%이다. 즉 각각 1차원 및 2차원으로 전체 관성을 구성하고 있음을 알 수 있다. 따라서 2개의 차원만으로도 대응분석 결과를 충분히 표현할 수 있다.In FIG. 2, (a) to (c) are graphs showing the correlation coefficients calculated by the correlation calculation unit 221, and the three analysis variables (the support unit and the weapon system , Cause of defect). As described above, in the present invention, since it is decided to use two dimensions, the horizontal axis represents one dimension (Dim1) and two dimensions (Dim2), and the vertical axis represents inertia of each dimension. In the bar graph, numerical values of the inertia ratios of the respective dimensions (Dim1, Dim2) are shown, and the sum of the inertia ratios for each of (a) to (c) is 100%. In other words, it can be seen that the total inertia consists of one-dimensional and two-dimensional, respectively. Therefore, the results of the corresponding analysis can be sufficiently expressed by only two dimensions.

한편 대응분석은 상기한 바와 같이, 행 변수와 열 변수 사이의 거리정보를 이용해서 저차원 공간의 그래프로 표현하여 시각화를 할 수 있다. 그리고 시각화는 여러가지 의미 있는 분석 결과를 추출, 요약 및 설명하기 위해서 사용된다. 따라서 시각화는 교차표의 행 범주와 열 범주를 좌표공간에 표현하여 대응분석 결과에 대한 이해를 돕기 위해 수행된다.On the other hand, as described above, the correspondence analysis can be visualized by expressing the graph of the low dimensional space using the distance information between the row variable and the column variable. And visualization is used to extract, summarize, and explain various meaningful analysis results. Therefore, the visualization is performed to express the row category and the column category of the cross table in the coordinate space to help understand the corresponding analysis result.

대응분석의 행과 열을 시각화하는 행렬도(Biplot)는 대칭그림(Symmetric plot)과 비대칭그림(Asymmetric plot)이 존재한다. 대칭그림은 주좌표(Principal coordinates)를 통해서 범주들을 시각적으로 보여준다. 그리고 비대칭그림은 표준좌표(Standard coordinates)로 표현된 행(또는 열) 벡터 공간에 주좌표로 표현되는 열(또는 행)의 단면 정보를 표현한 그림이다. 대칭그림은 행간 거리와 열간 거리의 정보는 대칭그림을 통해서 해석할 수 있으나, 행과 열 사이의 거리에 대해서 해석을 제공하지 못하는 단점이 존재한다. 반면 비대칭 그림은 시각적으로 행-열의 관계 해석이 가능하기 때문에 본 발명의 고장발생기간 기반 데이터 분석 장치는 비대칭그림을 사용해서 대응분석 결과를 해석하도록 구성된다. A matrix diagram (Biplot) that visualizes the rows and columns of the corresponding analysis is a symmetric plot and an asymmetric plot. The symmetric figure shows the categories visually through Principal coordinates. And the asymmetric figure is a figure representing the sectional information of the column (or row) represented by the main coordinates in the row (or column) vector space represented by the standard coordinates. In the symmetric figure, the information of the inter-row distance and the hot distance can be interpreted through the symmetric drawing, but there is a disadvantage that the distance between the row and the column can not be analyzed. On the other hand, since the asymmetric picture can visually analyze the row-column relationship, the fault-based data analysis apparatus of the present invention is configured to analyze the correspondence analysis result using the asymmetric picture.

다만 대응분석 해석 시 주의해야 할 점은 범주들의 거리가 상대적인 정보를 반영한다는 것이다. 주좌표로 표현된 두 범주가 벡터의 방향과 동일한 방향을 갖는다면, 원점으로부터 더 멀리 있는 범주에서 해당 벡터의 특성이 상대적으로 더 잘 나타난다. 또한 대응분석은 고차원의 정보를 저차원 공간에 표현하기 때문에 정보의 손실이 발생한다. 예를 들어 10 X 10의 교차표에 대해서 완전하게 해당 정보를 표현하기 위해서는 9(n-1)차원이 필요하다. 따라서 대응분석을 해석할 때 표현력(Quality of representation)과 기여도(Contribution) 정보를 활용하면 유의한 해석이 가능하다.However, it should be noted that the analysis of the corresponding analysis is that the distances of the categories reflect relative information. If the two categories represented by the main coordinates have the same direction as the direction of the vector, then the characteristics of that vector appear relatively better in the category farther from the origin. Also, the correspondence analysis results in loss of information because high-dimensional information is expressed in a low-dimensional space. For example, a 9 (n-1) dimension is required to completely represent the information for a 10 X 10 crossing table. Therefore, when analyzing the correspondence analysis, it is possible to make meaningful interpretation by using the information of quality of representation and contribution information.

이에 기여도 분석부(223)과 표현력 분석부(224)는 각 축에 대해서 설명되는 범주들의 기여도와 표현력을 계산한다.The contribution analysis unit 223 and the expression power analysis unit 224 calculate the contribution and the expressive power of the categories described for each axis.

기여도 분석부(223)는 각 축에 대해서 설명되는 범주들의 관성 비율을 나타내는 기여도를 분석한다. 예를 들어 1차원 축에 대한 기여도 값이 높은 범주는 1차원 축에 대한 설명력이 높다고 볼 수 있다. 특히 기여도는 범주의 수가 많은 경우에 유용하게 사용될 수 있다. 따라서 기여도가 낮은 범주(일예로 평균 기여도 미만의 범주)는 제거하고 설명력이 높은 범주만을 이용해서 좌표공간의 속성을 해석할 수 있다.The contribution analyzer 223 analyzes the contributions indicating the inertia ratios of the categories described for each axis. For example, a category with a high contribution to a one-dimensional axis can be considered to have a high explanatory power on a one-dimensional axis. Particularly, the contribution can be useful when there are many categories. Therefore, we can remove attributes with low contribution (for example, categories below average contribution) and interpret the attributes of the coordinate space using only high explanatory categories.

기여도 분석부(223)는 각각 교차표(F)의 행 기여도를 수학식 13에 따라 계산하고, 열 기여도를 14에 따라 계산할 수 있다.The contribution analyzer 223 may calculate the row contribution of the cross table F according to Equation (13) and calculate the thermal contribution according to 14. [

Figure 112017030225475-pat00015
Figure 112017030225475-pat00015

Figure 112017030225475-pat00016
Figure 112017030225475-pat00016

도3 내지 도5 는 목적 변수에 대한 분석 변수 각각의 각 차원별 기여도를 계산한 결과를 나타낸다.FIGS. 3 to 5 show the results of calculating the contribution of each of the analysis variables to the objective variable.

도3 은 고장발생기간과 지원부대의 대응분석을 통해 계산되는 고장발생기간의 각 차원의 기여도를 나타내고, 도4 는 고장발생기간과 무기체계의 대응분석을 통해 계산되는 고장발생기간의 각 차원의 기여도를 나타내며, 도5 는 고장발생기간과 고장원인의 대응분석을 통해 계산되는 고장발생기간의 각 차원의 기여도를 나타낸다. 그리고 도3 내지 5에서 점선은 평균 기여도를 나타낸다.FIG. 3 shows the contribution of each dimension of the failure occurrence period calculated through the analysis of the failure occurrence period and the support unit. FIG. 4 is a graph showing the contribution of each dimension of the failure occurrence period calculated through the correspondence analysis between the failure occurrence period and the weapon system. And FIG. 5 shows the contribution of each dimension of the failure occurrence period calculated through the correspondence analysis between the failure occurrence period and the failure cause. And the dashed lines in Figs. 3 to 5 indicate the average contribution.

각 차원마다 높은 설명력을 갖는 범주는 다르지만 모든 범주들이 2차원 공간에서 평균 이상의 기여도를 보이는 것을 알 수 있다. 따라서 고장발생기간의 세 가지 범주(FP1, FP2, FP3)는 저차원 공간의 속성 파악에 사용될 수 있다.It can be seen that the category with high explanatory power differs for each dimension, but all the categories have more than average contribution in the two-dimensional space. Therefore, three categories of fault occurrence period (FP1, FP2, FP3) can be used to identify properties of low dimensional space.

한편 대응분석은 고차원 데이터를 저차원 공간으로 사상하므로 모든 정보들이 유의하게 표현되지 못한다. 각 범주들은 선택된 저차원 공간에서 잘 설명되는 범주가 있고 다른 차원 공간에서 잘 설명되는 범주가 있다. 따라서 저차원 공간에서는 우수한 표현력을 갖는 범주를 중심으로 결과를 해석할 필요가 있다.On the other hand, since the correspondence analysis maps the high dimensional data to the low dimensional space, not all the information can be expressed significantly. Each category has a well-described category in the selected low-dimensional space and a well-described category in the other. Therefore, it is necessary to interpret the results in the low dimensional space centered on categories with excellent expressive power.

이에 표현력 분석부(224)는 각 축에 대해서 설명되는 범주들의 표현력을 분석한다. 표현력 분석부(224)는 각각 교차표(F)의 행 표현력을 수학식 15에 따라 계산하고, 열 표현력을 14에 따라 계산 할 수 있다.The expression power analysis unit 224 analyzes the expressive power of the categories described for each axis. The expression power analyzing unit 224 may calculate the row expressing power of the intersecting table F according to Equation 15 and calculate the column expressing power according to 14. [

Figure 112017030225475-pat00017
Figure 112017030225475-pat00017

Figure 112017030225475-pat00018
Figure 112017030225475-pat00018

본 발명은 기여도가 평균 이상이고 2차원 공간에서의 표현력이 기설정된 기준 표현력 이상인 범주들을 선택하여 결과 해석을 수행함으로써, 각 범주에서 유의미한 결과를 도출할 수 있도록 한다.The present invention can extract meaningful results in each category by selecting categories having an average contribution of more than average and expressiveness in a two-dimensional space equal to or greater than predetermined reference expressive power and performing the result analysis.

도6 은 목적 변수에 대한 분석 변수 각각의 표현력을 계산한 결과를 나타낸다.6 shows the result of calculating the expressive power of each analysis variable for the target variable.

도6 은 에서 각 변수의 모든 범주들이 2개의 차원에서 100%의 표현력을 갖는 것을 확인할 수 있다. 이는 도2 에서 1차원 및 2차원 축이 관성을 100% 설명하고 있기 때문에 나온 결과로 해석할 수 있다. 따라서 지원부대, 무기체계, 불량원인이 갖고 있는 모든 범주를 활용하여 대응분석 결과를 해석할 수 있음을 알 수 있다.FIG. 6 shows that all the categories of each variable have 100% expressive power in two dimensions. This can be interpreted as a result of the one-dimensional and two-dimensional axes explaining 100% inertia in FIG. Therefore, it can be understood that the response analysis results can be interpreted by using the support units, the weapon systems, and all categories of the cause of failure.

시각화부(225)는 관성 차원 분석부(222)에서 계산된 각 범주의 좌표를 이용하여 각 범주를 시각화한다. 시각화는 여러 가지 의미 있는 분석 결과를 추출, 요약 및 설명하기 위해서 사용되며, 상기한 바와 같이, 본 발명에서 시각화부(225)는 두 변수에 내재하는 범주들의 해석을 위해 비대칭그림을 활용하여 시각화한다. 비대칭그림은 두 변수에 대한 산점도를 나타낼 수 있으며 두 변수 간 상관성 패턴을 파악할 수 있는 장점이 있다.The visualization unit 225 visualizes each category by using the coordinates of each category calculated by the inertia dimension analysis unit 222. The visualization is used to extract, summarize, and explain various meaningful analysis results. As described above, in the present invention, the visualization unit 225 visualizes the asymmetric pictures for analysis of the categories included in the two variables . The asymmetric figure can represent scatter plot for two variables and it has an advantage that correlation pattern between two variables can be grasped.

여기서 시각화부(225)는 기여도 분석부(223)에서 기여도가 평균 미만으로 계산된 범주와 및 표현력 분석부(224)에서 표현력이 기준 표현력 미만인 범주들을 제외하여 시각화할 수 있다.In this case, the visualization unit 225 can visualize the category in which the contribution is calculated to be less than the average in the contribution analysis unit 223 and the categories in which the expression power is less than the standard expression power in the expression power analysis unit 224.

도7 내지 도9 는 목적 변수와 분석 변수 각각에 대한 대응분석 시각화 결과를 나타낸다.Figures 7 to 9 show the corresponding analysis visualization results for the objective variable and the analysis variable, respectively.

도7 은 고장발생기간과 지원부대의 대응분석 시각화 결과를 나타내고, 도8 은 고장발생기간과 무기체계의 대응분석 시각화 결과를 나타내며, 도9 는 고장발생기간과 고장원인의 대응분석 시각화 결과를 나타낸다.FIG. 7 shows the result of visualization of the correspondence analysis between the failure occurrence period and the support unit, FIG. 8 shows the correspondence analysis visualization result of the failure occurrence period and the weapon system, and FIG. 9 shows the correspondence analysis visualization result of the failure occurrence period and the failure cause .

도7 내지 도9 에서 화살표는 고장발생기간의 3가지 범주 FP1, FP2, FP3에 대한 벡터 방향을 의미한다. 벡터의 방향은 각 사분면에 대한 속성을 나타내며 주로 1차원 축을 기준으로 기간이 짧은(FP1 or FP2) 속성과 기간이 긴(FP2 or FP3) 속성이 나누어진 것을 확인할 수 있다.In Figs. 7 to 9, arrows indicate vector directions for three categories FP1, FP2 and FP3 of the fault occurrence period. The direction of the vector represents the property for each quadrant, and it can be confirmed that the property having the short duration (FP1 or FP2) and the property having the long duration (FP2 or FP3) are divided mainly on the basis of the one-dimensional axis.

또한 도7 내지 도9 에 나타난 벡터 주변의 범주((M1 ~ M13), (W1 ~ W32), (설계불량, 운용미숙, 자재불량, 작업불량, 기타))들은 각각 지원부대, 무기체계, 고장원인의 범주들을 나타낸다. 분포된 범주들은 고장발생기간 범주의 화살표와 가깝고 원점에서 멀어질수록 화살표가 나타내는 정보의 상대빈도가 높은 특징을 보인다.The categories (M1 to M13), (W1 to W32), (design defect, operation defect, material defect, work defect, etc.) around the vectors shown in FIGS. 7 to 9 are respectively set as support units, It indicates categories of causes. The distributed categories are close to the arrows in the failure occurrence period category, and the higher the relative frequency of the information indicated by the arrows is, the farther away from the origin.

패턴 분석부(230)는 시각화된 대응분석 결과로부터 무기체계의 고장발생기간을 기반으로 한 특성을 해석한다. 패턴 분석부(230)는 그룹화부(231) 및 패턴 추출부(232)를 구비한다.The pattern analysis unit 230 analyzes characteristics based on the failure occurrence period of the weapon system from the visualized correspondence analysis result. The pattern analyzing unit 230 includes a grouping unit 231 and a pattern extracting unit 232.

그룹화부(231)는 시각화된 대응분석 결과에서 분석 변수의 각 범주를 목적 변수인 고장발생기간의 3가지 범주(FP1, FP2, FP3)에 대응하는 벡터와의 유사도를 이용하여 그룹화 한다. 즉 분석 변수의 각 범주((M1 ~ M13), (W1 ~ W32), (설계불량, 운용미숙, 자재불량, 작업불량, 기타))를 고장발생기간의 3가지 범주 벡터(FP1, FP2, FP3) 중 가장 가까운 벡터에 대응하는 그룹으로 포함시킨다.The grouping unit 231 groups each category of analysis variables in the visualized correspondence analysis result by using the similarity with the vectors corresponding to the three categories (FP1, FP2, FP3) of the failure occurrence period, which is the target variable. In other words, each of the categories (M1 to M13), (W1 to W32), (design failure, poor operation, material failure, As the group corresponding to the closest vector among the groups.

그룹화부(231)의 그룹화 결과는 도7 내지 도9 에 3개의 그룹(G1, G2, G3)으로 나타나 있다.The grouping results of the grouping unit 231 are shown in FIG. 7 to FIG. 9 as three groups G1, G2, and G3.

그리고 패턴 추출부(232)는 각 그룹(G1, G2, G3)에 대한 목적 변수인 고장발생기간의 각 범주(FP1, FP2, FP3)의 상대빈도 비율을 계산하여 출력함으로써, 고장발생기간과 관련된 특성 정보를 생성한다.The pattern extracting unit 232 calculates and outputs the relative frequency ratios of the respective categories FP1, FP2 and FP3 of the failure occurrence period, which is an objective variable for each of the groups G1, G2 and G3, And generates characteristic information.

표3 은 각 그룹(G1, G2, G3)에 대한 고장발생기간의 범주(FP1, FP2, FP3)의 상대빈도 비율을 계산한 결과의 일예를 나타낸다.Table 3 shows an example of the result of calculating the relative frequency ratio of the category (FP1, FP2, FP3) of the failure occurrence period to each group (G1, G2, G3).

Figure 112017030225475-pat00019
Figure 112017030225475-pat00019

표3 에서 입력된 수치는 그룹(G1, G2, G3) 각각에 대한 고장발생기간의 3가지 범주(FP1, FP2, FP3)의 상대빈도를 나타낸다. 분석 변수 중 고장원인 변수에서는 제2 범주(FP2)와 관련 있는 범주가 존재하지 않기 때문에 값이 계산되지 않았다. 그러나 나머지 그룹들은 각 그룹(G1, G2, G3)에 대해서 범주(FP1, FP2, FP3)의 상대빈도가 높게 나타나는 것을 볼 수 있다. The values entered in Table 3 represent the relative frequency of the three categories of fault occurrence periods (FP1, FP2, FP3) for each of the groups (G1, G2, G3). In the analysis of the failure variables, the values are not calculated because there are no categories related to the second category (FP2). However, we can see that the relative frequency of categories (FP1, FP2, FP3) in the remaining groups is high for each group (G1, G2, G3).

또한 세 가지 분석 변수에 대한 대응분석 중 고장발생기간과 무기체계 사이의 대응분석은 상대빈도 비율이 가장 높게 나타났고, 고장발생기간과 고장원인 사이의 대응분석은 상대빈도 비율이 가장 낮게 나타났다. 이는 표2 와 비교했을 때 분석하고자 하는 두 변수의 상관계수 값이 높을 수록 대응분석 결과가 더 유의함을 나타낸다.Also, the correspondence analysis between the failure period and the weapon system showed the highest relative frequency ratio among the analysis of the three analysis variables, and the correspondence analysis between failure occurrence period and failure cause showed the lowest relative frequency ratio. This means that the higher the correlation coefficient of the two variables to be analyzed, the more significant the corresponding analysis results are.

즉 무기체계와 고장발생기간에서 가장 상관성 있는 패턴이 존재함을 알 수 있다. 이에 고장발생기간이 짧은 무기체계를 선별하고 속성을 파악하기 위한 분석을 수행할 수 있다.In other words, it can be seen that the most correlated pattern exists in the failure period and the weapon system. Therefore, it is possible to perform an analysis to select weapons systems having short failures and to grasp attributes.

분석을 위해서 고장발생기간이 2년 이내인 무기체계를 선별하였으며, 그 결과, 도8 의 제1 범주(FP1) 벡터와 제2 범주(FP2) 벡터 사이에 분포된 무기체계 범주들이 선택되었다. 그리고 각 무기체계의 특성은 고장원인, 지원부대, TUM의 빈도분석을 통해서 파악하였다.For the analysis, weapon systems with a failure duration of less than 2 years were selected. As a result, weapon system categories distributed between the first category (FP1) vector and the second category (FP2) vector of FIG. 8 were selected. The characteristics of each weapon system were identified through frequency analysis of failure cause, support unit, and TUM.

표4 는 고장발생기간이 2년 이내의 특성을 보이는 무기체계들에 대한 추가분석 결과를 나타낸다.Table 4 shows additional analysis results for weapon systems with a failure duration of less than two years.

Figure 112017030225475-pat00020
Figure 112017030225475-pat00020

표4 에서는 데이터의 특성상 각 변수마다 특정 범주에 빈도가 높게 형성되어있다. 결 함원인은 자재불량에서, TUM은 Module에서 높은 빈도를 나타낸 반면 지원부대는 대체적으로 고른 분포를 보였다. 따라서 각 무기체계의 특성은 각 속성 별로 두 번째로 높은 상대빈도까지 고려해서 파악하였다.Table 4 shows the frequency of each variable in a specific category due to the characteristics of data. The cause of defect was material failure, TUM showed high frequency in Module, but support group showed almost even distribution. Therefore, the characteristics of each weapon system were identified by considering the second highest relative frequency of each attribute.

표4 에서 일부 무기체계(W23, W28, W24, W2, W21)는 지원부대의 특성이 상이하지만 공통적으로 자재불량의 불량원인과 Module에서 고장이 발생한 특성을 보인다. 또한 무기체계(W5)는 위의 무기체계와 다르게 TOP에서 발생한 고장 비율이 높으며, 불량원인의 두 번째 요인은 운용미숙의 특성을 보인다. 한편 무기체계(W31, W8)는 불량원인에서 상이한 특성을 보인다. 무기체계(W31)는 기타의 불량원인이 높으며 자재불량이 두 번째로 높은 불량원인 특성일 보인다. 무기체계(W8)은 설계불량과 기타의 불량원인 특성이 높고 모두 TOP에서 불량이 발생한 것을 볼 수 있었다. 그리고 상기한 분석 결과를 활용하여 고장발생기간이 짧은 무기체계의 속성을 파악하고 유용한 정보로 활용될 수 있다.In Table 4, some weapons systems (W23, W28, W24, W2, W21) show the characteristics of defective material failure and module failure, though the characteristics of the support units are different. In addition, the weapon system (W5) has a high failure rate in TOP, unlike the above weapon system, and the second cause of failure is the nature of operational failure. On the other hand, weapons systems (W31, W8) show different characteristics in the cause of failure. The weapon system (W31) is the cause of the other defects, and the material defects are the second cause of the defects. In the weapon system (W8), the design failure and other causes of failure were high, and it was seen that failure occurred at the TOP. By using the above analysis results, it is possible to grasp the properties of the weapon system having a short period of failure and to utilize it as useful information.

결과적으로 본 발명의 고장발생기간 기반 데이터 분석 장치를 이용하면, 목적 변수인 고장발생기간에 가장 관련성이 높은 요인을 확인할 수 있도록 한다. 이후, 확인된 요인을 이용하여 다른 요인에 대한 추가 분석을 수행하면, 고장발생기간에 대한 각 요인별 특성을 용이하게 파악할 수 있으므로, 추후 새로운 무기 개발에 유용한 정보로 활용할 수 있다.As a result, by using the fault analysis period-based data analysis apparatus of the present invention, it is possible to identify the most relevant factor in the fault occurrence period which is the target variable. Further analysis of the other factors using the identified factors can be used as useful information for future development of the weapon because it can easily grasp the characteristics of each factor in the occurrence period of the failure.

도10 은 본 발명의 일 실시예에 따른 고장발생기간 기반 데이터 분석 방법을 나타내며, 도11 은 도10 의 대응분석 단계를 상세하게 나타낸 도면이다.FIG. 10 illustrates a method of analyzing data based on a fault occurrence period according to an embodiment of the present invention, and FIG. 11 is a detailed view of the corresponding analysis step of FIG.

도1 내지 도9 를 참조하면, 우선 데이터 분석 장치(200)의 데이터 탐색부(210)가 후속군수지원 데이터베이스(100)에 저장된 데이터를 탐색하여 분석할 데이터를 획득한다(S10). 데이터 탐색부(210)는 분석할 데이터로서 수리 요청 정보를 탐색하여 획득할 수 있다.Referring to FIGS. 1 to 9, the data search unit 210 of the data analysis apparatus 200 searches data stored in the logistics support database 100 to acquire data to be analyzed (S10). The data search unit 210 can search for and obtain repair request information as data to be analyzed.

그리고 데이터 탐색부(210)는 획득된 데이터에서 변수를 설정하고, 변수에 대응하는 데이터의 전처리를 수행한다(S20). 데이터 탐색부(210)는 분석을 수행할 분석 변수와 분석 기준이 되는 목적 변수를 선택할 수 있다. 이때 데이터 탐색부(210)는 결측값의 수 및 범주의 레벨 개수를 기준으로 분석 변수를 선택할 수 있다. 또한 데이터 탐색부(210)는 변수가 범주형 변수가 아닌 연속형 변수인 경우 범주형 변수로 변환하고, 중복 데이터 및 잡음 데이터를 제거하는 전처리를 수행한다. 경우에 따라서 전처리는 생략될 수 있다.Then, the data search unit 210 sets a variable in the acquired data and preprocesses data corresponding to the variable (S20). The data search unit 210 may select an analysis variable to be analyzed and an objective variable to be an analysis criterion. At this time, the data search unit 210 can select an analysis variable based on the number of missing values and the number of levels of categories. In addition, the data search unit 210 converts the categorical variable into a categorical variable when the variable is not a categorical variable but a continuous variable, and performs a preprocessing to remove redundant data and noise data. In some cases, the preprocessing can be omitted.

이후 대응분석부(220)가 획득된 데이터를 이용하여 목적 변수와 분석 변수 사이의 대응분석을 수행한다(S30). 대응분석은 데이터의 패턴을 도출하기 위해, 목적 변수와 분석 변수의 두 범주형 변수 사이의 상관 관계를 분석하고 분석 결과를 시각화한다.Thereafter, the correspondence analysis unit 220 performs a correspondence analysis between the objective variable and the analysis variable using the acquired data (S30). Correspondence analysis analyzes the correlation between the objective variable and the two categorical variables of the analytical variable and visualizes the analysis result to derive the data pattern.

도11 을 참조하면, 대응분석 단계(S30)는 대응분석부(220)의 상관관계 계산부(221)가 먼저 목적 변수에 대한 분석 변수의 종속성을 분석한다(S31). 종속성 분석은 교차표 형태로 표현된 두개의 범주형 변수(고장발생기간과 하나의 분석 변수) 사이의 관계에서 목적 변수인 고장발생기간에 대한 복수개의 분석 변수들(지원부대와 무기체계, 결함 원인 및 TUM) 각각의 종속성 정보를 파악하기 위해 상관계수를 계산하여 수행될 수 있다. 상관관계 계산부(221)는 카이제곰 검증을 수행하여 피어슨 잔차를 획득하여 계산할 수 있다.Referring to FIG. 11, in the corresponding analysis step S30, the correlation calculation unit 221 of the correspondence analysis unit 220 first analyzes the dependency of the analysis variable on the target variable (S31). Dependency analysis is based on the relationship between two categorical variables (fault duration and one analytical variable) expressed in a cross-tabular form and a number of analytical variables And TUM) to calculate the dependency information. The correlation calculating unit 221 may perform caracomarge checking to obtain the Pearson residual and calculate it.

이때 상관관계 계산부(221)는 계산된 상관계수가 기설정된 기준값 미만인 변수를 분석 대상에서 제외시킬 수 있다.At this time, the correlation calculating unit 221 may exclude the variable whose calculated correlation coefficient is less than the preset reference value from the analysis target.

그리고 관성 차원 분석부(222)가 대응분석 결과를 표현하기 위한 차원의 수를 결정하고, 결정된 차원에서 각 변수의 범주별 좌표를 계산한다(S32). 관성 차원 분석부(222)는 피어슨 잔차(R)에 대한 특이값 분해를 적용하여, 행과 열의 주좌표와 행과 열의 표준 좌표를 획득할 수 있다.Then, the inertia dimension analyzer 222 determines the number of dimensions for expressing the corresponding analysis result, and calculates the coordinates of each variable category according to the determined dimension (S32). The inertia dimension analyzer 222 may apply the singular value decomposition on the Pearson residual R to obtain the main coordinates of the rows and columns and the standard coordinates of the rows and columns.

그리고 기여도 분석부(223)가 각 축에 대해서 설명되는 범주들의 관성 비율을 나타내는 기여도를 계산하여 확인하고(S33), 표현력 분석부(224)가 각 축에 대해서 설명되는 범주들의 표현력을 계산하여 확인한다(S34). 확인 결과 기여도가 평균 기여도 미만인 범주 및 표현력이 기설정된 표현력 미만인 범주는 분석 대상에서 제외된다.Then, the contribution analysis unit 223 calculates and confirms the contribution indicating the inertia ratio of the categories described for each axis (S33), and the expressiveness analysis unit 224 calculates the expressive power of the categories described for each axis and confirms (S34). As a result, categories with a contribution less than the average contribution and categories with less expressive power than expressiveness are excluded from the analysis.

이후 시각화부(225)는 제외된 범주를 제외한 나머지 범주를 이용하여 대응분석 결과를 결정된 차원의 그래프로 시각화한다(S35). 시각화부(225)는 목적 변수인 고장 발생 기간의 각 범주를 벡터 형태로 표현하고, 분석 변수(지원부대와 무기체계, 결함 원인)의 각 범주를 좌표상에 표시하여 시각화 한다.Thereafter, the visualization unit 225 visualizes the corresponding analysis result as a graph of the determined dimension using the remaining categories except for the excluded categories (S35). The visualization unit 225 visualizes each category of the failure occurrence period, which is an objective variable, in the form of a vector, and displays each category of the analysis variable (support unit and weapon system, defect cause) on the coordinate.

다시 도10 을 참조하면, 대응분석이 수행되면, 패턴 분석부(230)는 시각화된 대응분석 결과에서 좌표에 표시된 분석 변수의 각 범주를 벡터로 표현된 목적 변수의 범주를 기준으로 그룹화한다(S40). 즉 분석 변수의 복수개의 범주를 복적 변수의 범주 중 하나에 대한 그룹으로 그룹화한다.Referring again to FIG. 10, when the corresponding analysis is performed, the pattern analyzing unit 230 groups each category of the analysis variables indicated in the coordinates on the basis of the category of the objective variable represented by the vectors in the visualized correspondence analysis result (S40 ). That is, a plurality of categories of analytical variables are grouped into a group of one of categories of multiple variables.

그리고 패턴 분석부(230)는 각 그룹에서 목적 변수의 각 범주의 상대빈도 비율을 계산하여, 상대빈도 비율이 높은 그룹으로부터, 목적변수에 가장 상관성 있는 패턴과 상관성이 없는 패턴을 도출한다.Then, the pattern analyzer 230 calculates the relative frequency ratio of each category of the objective variable in each group, and derives a pattern having no correlation with the pattern most correlated to the objective variable from the group having a relatively high frequency ratio.

경우에 따라서 패턴 분석부(230)는 가장 상관성이 있는 그룹에 대한 추가 분석 변수 범주를 해석함으로써, 상세 분석 결과를 도출할 수도 있다.In some cases, the pattern analyzer 230 may derive a detailed analysis result by interpreting additional analysis variable categories for the group with the highest correlation.

본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.The method according to the present invention can be implemented as a computer program stored in a medium for execution in a computer. Where the computer-readable medium can be any available media that can be accessed by a computer, and can also include both computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data, (Digital Versatile Disk) -ROM, a magnetic tape, a floppy disk, an optical data storage device, and the like.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is evident that many alternatives, modifications and variations will be apparent to those skilled in the art.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.

Claims (7)

야전 운용 및 정비 정보가 저장된 후속군수지원 데이터베이스를 탐색하여, 제조일로부터 고장 접수일까지의 기간을 나타내는 고장발생기간에 관련되는 데이터를 획득하고, 획득된 상기 데이터에서 상기 고장발생기간을 목적 변수로 설정하고, 나머지 데이터로부터 복수개의 분석 변수를 설정하며, 상기 목적 변수 및 복수개의 상기 분석 변수 중 연속형 변수가 존재하면, 연속형 변수를 범주형 변수로 변환하는 데이터 탐색부;
획득된 상기 데이터의 패턴을 도출하기 위해 상기 목적 변수와 상기 복수개의 분석 변수 각각에 대한 대응분석을 수행하여, 상기 목적 변수와 상기 복수개의 분석 변수 각각 사이의 상관 관계를 분석하고, 분석 결과를 시각화하는 대응분석부; 및
시각화된 상기 대응분석의 결과로부터 상기 분석 변수의 각 범주를 상기 목적 변수의 각 범주에 대응하여 그룹화하고, 그룹화된 상기 분석 변수의 각 범주의 상대빈도 비율을 계산하여, 상기 목적 변수에 상관도가 가장 높은 그룹을 추출하는 패턴 분석부;를 포함하되,
상기 데이터 탐색부는, 상기 후속군수지원 데이터베이스에 저장된 정보 중 수리 요청 정보를 탐색하여 획득하고, 상기 수리 요청 정보에서 상기 고장발생기간을 계산하여 상기 목적 변수로 획득하며, 상기 수리 요청 정보에 포함된 복수개의 데이터에 대해 결측값의 수 및 범주의 레벨 개수를 기반으로 복수개의 상기 분석 변수를 선택하는 데이터 추출부 및 상기 목적 변수 및 복수개의 상기 분석 변수 중 연속형 변수가 존재하면, 연속형 변수를 범주형 변수로 변환하고, 중복 데이터 및 각 범주별 레벨 개수가 기설정된 기준 개수 이하인 데이터를 잡음으로 제거하는 전처리부를 더욱 포함하고,
상기 대응분석부는, 범주형 변수인 상기 목적 변수와 복수개의 상기 분석 변수 각각을 교차표 형태로 표현하고, 상기 목적 변수에 대한 복수개의 상기 분석 변수들 각각의 종속성 정보를 나타내는 상관계수를 계산하는 상관계수 계산부, 상기 대응분석의 결과를 시각적으로 표현하기 위한 차원의 수를 결정하고, 결정된 상기 차원의 수에 따른 공간 상에서 복수개의 상기 분석 변수 각각의 범주별 좌표를 계산하는 관성 차원 분석부 및 상기 결정된 차원의 공간에 상기 목적 변수의 범주 각각을 벡터 형태로 표시하고, 복수개의 상기 분석 변수 각각의 범주를 계산된 상기 좌표에 표시하여 시각화하는 시각화부를 더욱 포함하는 것을 특징으로 하는 데이터 분석 장치.
Searching the subsequent logistical support database storing the field operation and maintenance information to acquire data related to the failure occurrence period indicating the period from the manufacturing date to the failure acceptance date and setting the failure occurrence period as the objective variable in the obtained data A data search unit for setting a plurality of analysis variables from the remaining data, and converting the continuous variable to a categorical variable when the objective variable and the plurality of the analysis variables among the plurality of analysis variables exist;
Analyzing the correlation between the target variable and each of the plurality of analysis variables by performing a corresponding analysis on each of the objective variable and the plurality of analysis variables to derive a pattern of the obtained data, A corresponding analysis unit; And
Grouping the categories of the analytical variables corresponding to the respective categories of the objective variable from the result of the visualized correspondence analysis and calculating a relative frequency ratio of each category of the analytical variables grouped, And a pattern analysis unit for extracting the highest group,
Wherein the data searching unit searches for and obtains repair request information among the information stored in the subsequent log support database, calculates the fault occurrence period from the repair request information, obtains the fault occurrence period as the target variable, A data extracting unit for selecting a plurality of the analysis variables based on the number of missing values and the number of levels of categories for the data, and, if there is a continuous variable among the objective variable and the plurality of analysis variables, And a preprocessing unit for removing redundant data and data having a number of levels lower than a predetermined reference number for each category by noise,
Wherein the correspondence analyzing unit is configured to express the objective variable as a categorical variable and each of the plurality of analysis variables in the form of a crosstabulation table and to calculate a correlation coefficient for calculating a correlation coefficient indicating dependency information of each of the plurality of analysis variables for the objective variable An inertia dimension analyzing unit for determining the number of dimensions for visually expressing the result of the corresponding analysis and calculating coordinates of each of the plurality of analysis variables on a space in accordance with the determined number of dimensions, Further comprising a visualization unit for displaying each category of the objective variable in a space of a determined dimension in a vector form and displaying a category of each of the plurality of analysis variables on the calculated coordinates to visualize the category.
삭제delete 삭제delete 제1 항에 있어서, 상기 상관계수 계산부는
상기 교차표 형태로 표현된 상기 목적 변수와 복수개의 상기 분석 변수 각각의 범주들에 대해 카이제곱 검정을 수행하여 획득되는 피어슨 잔차를 이용하여 상기 상관계수를 계산하고, 각각의 분석 변수에 대해 계산된 상기 상관계수가 기설정된 기준값 미만이면, 대응하는 분석 변수를 상기 대응분석의 대상에서 제외하는 것을 특징으로 하는 데이터 분석 장치.
The apparatus of claim 1, wherein the correlation coefficient calculation unit
Calculating the correlation coefficient using Pearson residuals obtained by performing a chi-square test on the target variable expressed in the cross-tabular form and the categories of each of the plurality of analysis variables, And if the correlation coefficient is less than a preset reference value, excludes the corresponding analysis variable from the object of the corresponding analysis.
제4 항에 있어서, 상기 관성 차원 분석부는
상기 각 범주들의 좌표를 상기 피어슨 잔차에 대한 특이값 분해 기법에 따라 획득하는 것을 특징으로 하는 데이터 분석 장치.
The apparatus as claimed in claim 4, wherein the inertia dimension analyzing unit
Wherein the coordinates of each of the categories are obtained according to a singular value decomposition method for the Pearson residual.
제1 항에 있어서, 상기 대응분석부는
상기 결정된 차원의 공간에서 각 축에 대한 상기 범주 각각의 관성 비율을 나타내는 기여도를 계산하고, 계산된 상기 기여도가 평균 기여도 미만인 분석 변수를 상기 대응분석의 대상에서 제외하는 기여도 분석부; 및
상기 결정된 차원 공간에서 각 축에 대한 상기 범주 각각의 표현력을 계산하고, 계산된 표현력이 기지정된 기준 표현력 미만인 분석 변수를 상기 대응분석의 대상에서 제외하는 표현력 분석부; 를 더 포함하는 것을 특징으로 하는 데이터 분석 장치.
The apparatus of claim 1, wherein the counterpart analyzing unit
A contribution analyzer for calculating a contribution indicative of an inertia ratio of each of the categories for each axis in the space of the determined dimension and excluding an analytical variable for which the calculated contribution is less than the average contribution from the object of the corresponding analysis; And
An expression analyzing unit for calculating the expressive power of each of the categories for each axis in the determined dimension space and excluding analytic variables whose calculated expressive power is less than a predetermined reference expressive power from objects of the corresponding analysis; Further comprising: a data analyzer for analyzing the data.
제1 항에 있어서, 상기 패턴 분석부는
상기 결정된 차원의 공간에서 계산된 상기 좌표에 표시된 복수개의 상기 분석 변수 각각의 범주를 벡터 형태로 표시된 상기 목적 변수의 범주 중 가장 인접한 상기 목적 변수의 범주에 대응하는 그룹으로 그룹화하는 그룹화부; 및
그룹화된 상기 분석 변수의 각 범주의 상대빈도 비율을 계산하여 상기 목적 변수에 대한 상관도가 가장 높은 그룹을 추출하고, 추출된 그룹에 대응하는 상기 목적 변수의 범주와 상기 분석 변수의 범주를 특성 분석을 위한 범주로 선별하는 패턴 추출부; 를 포함하는 것을 특징으로 하는 데이터 분석 장치.
The apparatus of claim 1, wherein the pattern analyzer
Grouping the category of each of the plurality of analysis variables displayed in the coordinates calculated in the space of the determined dimension into a group corresponding to a category of the object variable closest to the category of the object variable indicated in a vector form; And
Calculating a ratio of the relative frequency of each category of the analytical variables grouped to extract the group having the highest degree of correlation with respect to the objective variable and analyzing the category of the objective variable and the category of the analytical variable corresponding to the extracted group A pattern extracting unit for sorting by a category for; And a data analyzing unit for analyzing the data.
KR1020170038993A 2017-03-28 2017-03-28 Apparatus for analyzing data based on failure period KR101777387B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170038993A KR101777387B1 (en) 2017-03-28 2017-03-28 Apparatus for analyzing data based on failure period

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170038993A KR101777387B1 (en) 2017-03-28 2017-03-28 Apparatus for analyzing data based on failure period

Publications (1)

Publication Number Publication Date
KR101777387B1 true KR101777387B1 (en) 2017-09-26

Family

ID=60036728

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170038993A KR101777387B1 (en) 2017-03-28 2017-03-28 Apparatus for analyzing data based on failure period

Country Status (1)

Country Link
KR (1) KR101777387B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101884908B1 (en) * 2018-01-18 2018-08-02 엘아이지넥스원 주식회사 Big Data Analytics Based Reliability Prediction Apparatus
KR101884907B1 (en) * 2018-01-18 2018-08-29 엘아이지넥스원 주식회사 Big Data Analytics Based Reliability Prediction Method
KR20200114144A (en) * 2019-03-27 2020-10-07 국방과학연구소 Apparatus and method for automatically setting reliability test tool

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259127A (en) 2001-03-06 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> Correlation rule comparison method, correlation rule comparison program, and recording medium recorded with its program
JP2005327201A (en) 2004-05-17 2005-11-24 Toshiba Corp Maintenance support method, program, and device
JP2015072644A (en) * 2013-10-04 2015-04-16 株式会社日立製作所 Interactive method of predicting facility failure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259127A (en) 2001-03-06 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> Correlation rule comparison method, correlation rule comparison program, and recording medium recorded with its program
JP2005327201A (en) 2004-05-17 2005-11-24 Toshiba Corp Maintenance support method, program, and device
JP2015072644A (en) * 2013-10-04 2015-04-16 株式会社日立製作所 Interactive method of predicting facility failure

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"데이터 마이닝 기반의 수리부속 수요예측 연구", 한국인터넷정보학회 18권2호, 2017년 2월 18일*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101884908B1 (en) * 2018-01-18 2018-08-02 엘아이지넥스원 주식회사 Big Data Analytics Based Reliability Prediction Apparatus
KR101884907B1 (en) * 2018-01-18 2018-08-29 엘아이지넥스원 주식회사 Big Data Analytics Based Reliability Prediction Method
KR20200114144A (en) * 2019-03-27 2020-10-07 국방과학연구소 Apparatus and method for automatically setting reliability test tool
KR102185293B1 (en) 2019-03-27 2020-12-01 국방과학연구소 Apparatus and method for automatically setting reliability test tool

Similar Documents

Publication Publication Date Title
JP7090936B2 (en) ESG-based corporate evaluation execution device and its operation method
Al Qady et al. Automatic clustering of construction project documents based on textual similarity
JP5242959B2 (en) Abnormal factor identification method and system, program for causing a computer to execute the abnormal factor identification method, and computer-readable recording medium recording the program
CN111506637B (en) Multi-dimensional anomaly detection method and device based on KPI (Key Performance indicator) and storage medium
KR101777387B1 (en) Apparatus for analyzing data based on failure period
CN110738527A (en) feature importance ranking method, device, equipment and storage medium
CN107016416B (en) Data classification prediction method based on neighborhood rough set and PCA fusion
US9070203B2 (en) Identification and quantification of microtextured regions in materials with ordered crystal structure
Wang et al. Automatic identification of spatial defect patterns for semiconductor manufacturing
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
Amarullah et al. Planning decision support system using building mall AHP (Analytical Hierarchy Process)
EP3828731A1 (en) A method and analytical engine for a semantic analysis of textual data
KR101777386B1 (en) Method for analyzing data based on failure period
Pauwels et al. Detecting and explaining drifts in yearly grant applications
CN115659271A (en) Sensor abnormality detection method, model training method, system, device, and medium
Syafei et al. Machine Learning Model Using Extreme Gradient Boosting (XGBoost) Feature Importance and Light Gradient Boosting Machine (LightGBM) to Improve Accurate Prediction of Bankruptcy
CN112506930B (en) Data insight system based on machine learning technology
JPWO2018092317A1 (en) Selection device, selection method, and selection program
JP2015064856A (en) Data analysis program, data analysis method, and data analyzer
Chamim et al. Modeling Mechanical Component Classification Using Support Vector Machine with A Radial Basis Function Kernel
CN109754159B (en) Method and system for extracting information of power grid operation log
Maturo et al. Evaluating journals performance over time using functional instruments
CN117112857B (en) Machining path recommending method suitable for industrial intelligent manufacturing
JP2019003553A (en) Information analysis device, information analysis method, and information analysis program
LianJie et al. The Application of Software Defect Types Prediction Based on Grey Entropy Absolute Relational Analysis

Legal Events

Date Code Title Description
GRNT Written decision to grant