WO2022114639A1 - Device for ensuring fairness of artificial intelligence learning data set based on multidimensional subset association analysis, and method for ensuring fairness of artificial intelligence learning data set by using same - Google Patents

Device for ensuring fairness of artificial intelligence learning data set based on multidimensional subset association analysis, and method for ensuring fairness of artificial intelligence learning data set by using same Download PDF

Info

Publication number
WO2022114639A1
WO2022114639A1 PCT/KR2021/016695 KR2021016695W WO2022114639A1 WO 2022114639 A1 WO2022114639 A1 WO 2022114639A1 KR 2021016695 W KR2021016695 W KR 2021016695W WO 2022114639 A1 WO2022114639 A1 WO 2022114639A1
Authority
WO
WIPO (PCT)
Prior art keywords
reference value
column
column values
values
data set
Prior art date
Application number
PCT/KR2021/016695
Other languages
French (fr)
Korean (ko)
Inventor
권준호
김구
김진우
신현실
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Publication of WO2022114639A1 publication Critical patent/WO2022114639A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Definitions

  • the present invention removes the bias of the attribute value corresponding to the raw dataset attribute for artificial intelligence learning, and the artificial intelligence learning dataset fairness based on multidimensional subset association analysis to create an artificial intelligence learning dataset with guaranteed fairness. It relates to a device for guaranteeing and a method for ensuring fairness of an artificial intelligence learning dataset using the same.
  • AI algorithms can learn decision-making models, and these decision-making models can learn even biases that often exist in society. Decisions made by an algorithm that can have a significant impact on a subject's life may be biased according to characteristics that should not be related to the decision, and are adversely affected by individuals belonging to a specific group such as gender, race, or religion.
  • AI artificial intelligence
  • a step 6-1 including only the number of column values having the same value as the reference value when the number of column values of the selected cluster in the fifth step is equal to or greater than the reference value;
  • step 6-2 when the number of column values of the selected cluster and 10% or more of the reference value, and in step 6-1, data including only the number of column values having the same value as the reference value are combined to create a subdataset Step 7-1 to do;
  • the extraction is performed by checking one or more of the number of column values, the number of columns, clustering of columns, the number of clustering of columns, and column headers.
  • the reference value is characterized in that it is calculated by [Equation 1] below.
  • the data collection of the sub-dataset additionally generated in the ninth step uses the number of column values of the selected cluster, the reference value, and the selected column as input values, and the sub-data additionally generated in the 7-1 step as the result value It is characterized in that it is assembled into an association module.
  • the present invention provides an apparatus for ensuring fairness of artificial intelligence learning datasets based on multidimensional subset association analysis
  • an upload unit 10 for uploading a raw data set file prepared in CSV (Comma-Separated Values) format
  • a parsing unit 20 for parsing the structure of the uploaded raw data set file
  • a number check unit 30 for checking the number of clustered columns and the total number of column values in the parsed structure
  • a reference value calculator 40 for calculating a reference value using the number of clustering of the columns and the number of total column values
  • a reference value comparison unit 50 for selecting one cluster and comparing the number of column values of the selected cluster with the reference value
  • a data collection unit 90 that collects the data of the sub-dataset additionally generated by the iteration unit 80.
  • the parsing unit The parsing unit,
  • the reference value is characterized in that it is calculated by [Equation 1] below.
  • the present invention can solve a problem that may be biased according to characteristics that should be independent of the decision made by the algorithm and ensure fairness.
  • 1 is a flowchart showing a method of ensuring fairness of AI learning dataset based on multidimensional subset association analysis according to the present invention.
  • FIG. 2 is a block diagram illustrating an apparatus for ensuring fairness of AI learning dataset based on multidimensional subset association analysis according to the present invention.
  • 3 is a graph result showing a conventional data set.
  • the present invention removes the bias of the attribute value corresponding to the raw dataset attribute for artificial intelligence learning, and the artificial intelligence learning dataset fairness based on multidimensional subset association analysis to create an artificial intelligence learning dataset with guaranteed fairness. It relates to a device for guaranteeing and a method for ensuring fairness of an artificial intelligence learning dataset using the same.
  • the present invention looks at datasets and evaluates classifiers with fairness in mind, noting how undesirable biases can occur in machine learning (NL). To frame the context of the machine learning process about fairness, we identify biases and consider the long-term impact of model predictions that arise when these biases are not addressed.
  • the first step (S10) uploads a raw data set file prepared in a CSV (Comma-Separated Values) format. More specifically, the CSV (Comma-Separated Values) format forms a table, a field, a column, and a column value.
  • CSV Common-Separated Values
  • the table is a collection of data in an appropriate format for quick reference, and represents the structure of data in a relational database model as a two-dimensional table. In other words, it is managed in the form of column values and columns, and by designating the key, you can quickly and easily find the data you want.
  • the field is a piece of information having a certain meaning, and is the smallest unit of processing in the database system.
  • the column value is also called a record or a tuple in a relational database, and indicates a single structured data item in a table.
  • a database table can be considered to be composed of column values and columns or fields. Column values in each table represent a series of related data, and all column values in a table have the same structure.
  • the column refers to a series of data values of a specific simple data type in a relational database table and each column in the table.
  • the second step (S20) parses the structure of the uploaded raw data set file.
  • the bias of the attribute value corresponding to the attribute of the raw dataset for artificial intelligence learning is parsed by parsing the structure of the raw dataset file prepared in CSV format.
  • the parsing of the structure of the raw data set file includes the number of column values, the number of columns, the clustering of columns, the number of clustering of columns, and the column names. It is desirable to extract by checking any one or more of the header).
  • the clustering of the columns is to classify the values corresponding to each field in the raw data set file into categories, and each column is classified according to features.
  • a reference value is calculated using the number of clusters of the column and the number of total column values. More specifically, the reference value is characterized in that it is calculated by [Equation 1] below.
  • the reference value is a value obtained by dividing the number of clustering of columns from the total number of column values, and it is possible to check the standard value of each cluster by calculating an average value for each cluster of fields.
  • the reference value may be 500.
  • the fifth step (S50) after selecting one cluster, the number of column values of the selected cluster is compared with the reference value.
  • repeat execution (LOOP) is performed according to each group.
  • the number of column values to be included is determined using the values compared in the fifth step (S50).
  • the sixth step (S60) is performed separately in the following steps 6-1 (S61) and 6-2 (S62).
  • step 6-1 when the number of column values of the group selected in step S50 is equal to or greater than the reference value, only the number of column values equal to the reference value is included.
  • the first cluster when the reference value is 500 and the number of column values in the first cluster is 600, the first cluster includes only 500 column values corresponding to the reference value and discards the remaining 100 column values, or Remove.
  • step 6-2 when the number of column values in the selected cluster in the fifth step (S50) is less than the reference value, the number of column values in the selected cluster and 10% of the reference value are compared.
  • the reference value is 500
  • 50 which is 10% of the reference value
  • 100 which is the number of column values in the second cluster
  • the column of the second cluster It is confirmed that the number of values exceeds the reference value.
  • the seventh step (S70) is performed using the values performed in the 6-1 step (S61) and the 6-2 step (S62), and data including the determined number of column values is combined to create a subdataset.
  • the seventh step (S70) is performed separately in the following steps 7-1 (S71) and 7-2 (S72).
  • the 7-1 step (S71) is performed when the number of column values of the selected cluster in the 6-2 step (S62) and 10% or more of the reference value are the same as the reference value in the 6-1 step (S61). Creates a subdataset by combining data including only the number of column values of values.
  • the second cluster since the number of column values (100) of the second cluster is greater than 10% (50) of the reference value, the second cluster is included in the sub-dataset and is generated.
  • the first cluster is generated by being included in the lower data set including only 500 column values corresponding to the reference value.
  • step 7-2 when the number of column values in the group selected in step 6-2 is less than 10% of the reference value, the column values in the selected cluster are removed.
  • the reference value is 500
  • 50 which is 10% of the reference value
  • the column of the second cluster 30 the number of values
  • the fifth step (S50) to the seventh step (S70) are repeatedly performed (Loop) by the number of clustering of the column to additionally generate a sub-dataset.
  • the ninth step (S90) collects the data of the additionally generated sub-dataset. More specifically, the data collection of the sub-dataset additionally generated in the ninth step uses the number of column values of the selected cluster, the reference value, and the selected column as input values, and the step 7-1 ( The sub-dataset additionally generated in S71) is collected as a result value (output), and is collected through re-execution of the loop.
  • the ninth step if the input values are 35 white males, 30 white females, 20 black males, and 15 black females in a column having a total of 100 values, in the ninth step (S90), the column After value extraction, white male 25, white female 25, black male 20, and black female 15 are collected, and the result is a fair subset with 85 values.
  • an upload unit 10 a parsing unit 20, a number check unit 30, It consists of a reference value calculation unit 40 , a reference value comparison unit 50 , a lower data set generation unit 60 , a column value removal unit 70 , an iterative execution unit 80 , and a data collection unit 90 .
  • the upload unit 10 uploads the file after checking whether the raw data set file is in CSV (Comma-Separated Values) format. More specifically, the CSV (Comma-Separated Values) format forms a table, a field, a column, and a column value.
  • CSV Common-Separated Values
  • the parsing unit 20 parses the structure of the raw data set file.
  • the parsing unit 20 parses the structure of the raw data set file is the number of column values, the number of columns, the number of columns, the number of clustering of columns, the number of clustering of columns, and the column header (column header). ), it is preferable to extract by checking any one or more.
  • the clustering of the columns is to classify the values corresponding to each field in the raw data set file into categories, and each column is classified according to features.
  • the number check unit 30 checks the number of clustered columns and the total number of column values in the parsed structure.
  • the reference value calculator 40 calculates a reference value using the number of clusters of the column and the number of total column values.
  • the reference value is characterized in that it is calculated by [Equation 1] below.
  • the reference value is a value obtained by dividing the number of clustering of column values from the total number of column values, and the average value for each cluster is calculated for a field so that a standard value for each cluster can be identified.
  • the reference value may be 500.
  • the reference value comparison unit 50 selects one cluster and compares the number of column values of the selected cluster with the reference value.
  • the first cluster when the reference value is 500, when the number of column values in the first cluster is 600, the first cluster includes only 500 column values corresponding to the reference value.
  • the lower data set generating unit 60 combines data including only the number of column values of the selected cluster and the number of column values equal to or greater than 10% of the reference value and the same as the reference value.
  • the reference value is 500
  • 50 which is 10% of the reference value
  • 100 which is the number of column values in the second cluster
  • the column of the second cluster It is confirmed that the number of values exceeds the reference value.
  • the column value removal unit 70 is less than 10% of the number of column values of the selected cluster and the reference value, the column value of the selected cluster is removed.
  • the column value of the third cluster is deleted or removed in step 7-2 (S72).
  • the iteration performing unit 80 repeats the reference value comparison unit 50, the lower data set generation unit 60, and the column value removal unit 70 by the number of clustering of the column (Loop), Create additional subdatasets.
  • the data collection unit 90 collects data of the sub-dataset additionally generated by the iteration unit 80 .
  • the data aggregation unit 90 collects the number of column values of a specific cluster, a reference value, and a specific column as input values and the sub-dataset as a result value, thereby re-performing the loop. collected through
  • an apparatus for ensuring fairness of an artificial intelligence learning dataset based on multidimensional subset association analysis and a method of ensuring fairness of an artificial intelligence learning dataset using the same are TRAFFIC in the TRANSPORTATION domain dataset of CHICAGO DATA PORTAL.
  • the CRASHES-CRASHES dataset was used.
  • Data set and expected work information are as follows.
  • the NUMERIC FEATURES are as follows.
  • posted_speed_limit information on the speed of the vehicle recorded by the police at the time of the accident
  • the categorical features are as follows.
  • ⁇ weather_condition Weather information recorded by the police at the time of the accident. Examples of input values: CLEAR , RAIN etc.
  • ⁇ lighting_condition Lighting (brightness) information recorded by the police at the time of the accident.
  • ⁇ roadway_surface_cond Information on the condition of the road surface at the accident point recorded by the police at the time of the accident. Examples of input values: DRY, ICE, WET etc.
  • ⁇ first_crash_type Information on the type of accident recorded by the police at the time of the accident.
  • a PREDICTION task is run to determine if the cost of repairing a car accident exceeds $1,500.
  • LABEL indicates whether the cost of repairing a car accident is over $1,500.
  • FIG. 4 shows a dataset executed by the present invention, and when it is filtered by categorical features (CATEGORICAL FEATURES), as shown in the graph, it can be confirmed that the graph deviation is small in the data of each feature.
  • categorical features CATEGORICAL FEATURES
  • the present invention can solve a problem that may be biased according to characteristics that should be independent of the decision made by the algorithm and ensure fairness.

Abstract

The present invention relates to a device for ensuring fairness of an artificial intelligence learning data set based on a multidimensional subset association analysis, and a method for ensuring fairness of an artificial intelligence learning data set by using same, the device removing the biases of attribute values, which correspond to raw data set attributes for artificial intelligence learning, and creating an artificial intelligence learning data set with ensured fairness.

Description

다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법Apparatus for ensuring fairness of AI learning dataset based on multidimensional subset association analysis and method of ensuring fairness of AI training dataset using the same
본 발명은 인공지능 학습을 위한 원시 데이터셋 속성에 해당하는 속성값의 편향을 편향성을 제거하고 공정성이 보장된 인공지능 학습 데이터셋을 만드는 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법에 관한 것이다.The present invention removes the bias of the attribute value corresponding to the raw dataset attribute for artificial intelligence learning, and the artificial intelligence learning dataset fairness based on multidimensional subset association analysis to create an artificial intelligence learning dataset with guaranteed fairness. It relates to a device for guaranteeing and a method for ensuring fairness of an artificial intelligence learning dataset using the same.
최근 인공지능 알고리즘이 빠르게 성장하고 있고, 이를 활용하여 의사결정을 내리기 전에 미리 그 위험과 영향을 예측하여 사람의 판단을 보조하거나 자동화할 수 있다. 치안, 정책, 금융, 의학, 채용 등 다양한 주제에서 인공지능 알고리즘이 의사결정 모형을 학습할 수 있고, 이러한 의사결정 모형들은 종종 사회에 존재하는 편향까지도 그대로 학습될 수 있다. 대상자의 삶에 중대한 영향을 미칠 수 있는 알고리즘이 내린 결정들은 그 결정과 무관해야 하는 특성에 따라 편향될 수 있으며, 성별·인종·종교 등 특정 집단에 속한 개인들에게 불리하게 작용한다. Recently, artificial intelligence algorithms are growing rapidly, and by using them, the risks and impacts can be predicted in advance to assist or automate human judgment. In various subjects such as public security, policy, finance, medicine, and recruitment, AI algorithms can learn decision-making models, and these decision-making models can learn even biases that often exist in society. Decisions made by an algorithm that can have a significant impact on a subject's life may be biased according to characteristics that should not be related to the decision, and are adversely affected by individuals belonging to a specific group such as gender, race, or religion.
인공지능(AI) 기술의 빠른 발달로 다양한 산업 분야에 적용되면서 인공지능의 역작용이나 사회 전반에 끼치는 영향에 대한 논의가 필요하다. 특히, 성별과 인종, 사회 집단 등에 대해 편향을 갖거나 투명성 결여 등의 공정성 문제가 이슈가 된다. With the rapid development of artificial intelligence (AI) technology, it is necessary to discuss the adverse effects of artificial intelligence or its effect on society as a whole as it is applied to various industries. In particular, fairness issues such as bias or lack of transparency with respect to gender, race, and social group become an issue.
인공지능(AI)의 제대로 된 동작 및 결과를 위해서는 학습을 위한 데이터셋의 공정성 보장이 매우 중요하다. 예를 들어, 남과 여를 구분하는 인공지능에서 단순하게는 남과 여의 데이터 개수 비율이 공정하지 못한 (eg, 남 : 여 = 80,000row : 20,000row) 학습 데이터셋을 사용하게 된다면, 잘못된 결과를 초래하고 그 원인을 데이터셋의 불공정이라 할 수 있다. For the proper operation and results of artificial intelligence (AI), it is very important to ensure the fairness of the dataset for learning. For example, in artificial intelligence that distinguishes males from females, if a training dataset is used in which the ratio of the number of male and female data is simply not fair (eg, male : female = 80,000row : 20,000row), incorrect results will occur. And the cause can be said to be the unfairness of the dataset.
앞서 기술한 예시에서, 해당 남녀의 데이터 종속적인 다른 속성들에서 편향이 발생하게 된다면 남과 여 데이터 비율을 맞추는 것만으로는 제대로 된 인공지능 학습의 결과를 기대할 수 없다. 현재는 데이터셋의 공정성 보장을 위한 구체적인 방법 및 기술이 개발되어 있지 않은 상황이다. In the example described above, if bias occurs in other data-dependent properties of the male and female, proper AI learning results cannot be expected just by matching the male and female data ratios. Currently, specific methods and technologies for ensuring the fairness of datasets have not been developed.
본 발명은 상기의 문제점을 해결하기 위해서 안출된 것으로서, 본 발명의 목적은 알고리즘이 내린 결정에서 그 결정과 무관해야 하는 특성에 따라 편향될 수 있는 문제를 해결하고 공정성을 보장하는 방법에 관한 것이다. The present invention has been devised to solve the above problems, and an object of the present invention is to solve a problem that may be biased according to characteristics that should be independent of the decision made by an algorithm and to a method for ensuring fairness.
발명이 해결하고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problems to be solved by the invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those of ordinary skill in the art to which the present invention belongs from the description below. will be able
본 발명에 따른 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법은,A method of ensuring fairness of an artificial intelligence learning dataset based on multidimensional subset association analysis according to the present invention,
CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 제1단계;A first step of uploading a raw data set file prepared in CSV (Comma-Separated Values) format;
상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 제2단계;a second step of parsing the structure of the uploaded raw data set file;
상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 제3단계;a third step of checking the number of clustering columns and the total number of column values in the parsed structure;
상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 제4단계;a fourth step of calculating a reference value using the number of clustered columns and the total number of column values;
하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 제5단계;a fifth step of selecting one cluster and comparing the number of column values of the selected cluster with the reference value;
상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함하는 제6-1단계;a step 6-1 including only the number of column values having the same value as the reference value when the number of column values of the selected cluster in the fifth step is equal to or greater than the reference value;
상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교하는 제6-2단계;a step 6-2 of comparing the number of column values of the selected cluster with a value of 10% of the reference value when the number of column values of the selected cluster in step 5 is less than the reference value;
상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7-1단계;In step 6-2, when the number of column values of the selected cluster and 10% or more of the reference value, and in step 6-1, data including only the number of column values having the same value as the reference value are combined to create a subdataset Step 7-1 to do;
상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 제7-2단계;a 7-2 step of removing the column value of the selected cluster when the number of column values of the selected cluster in step 6-2 is less than 10% of the reference value;
상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계 내지 상기 제7단계를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 제8단계; 및an eighth step of repeatedly performing (Loop) steps 5 to 7 as many as the number of clustering of the columns to additionally create a sub-dataset; and
상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 제9단계;를 포함하는 것을 특징으로 한다. and a ninth step of collecting data of the additionally generated sub-dataset.
상기 제2단계에서 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은,Parsing the structure of the raw data set file in the second step is,
컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 한다. It is characterized in that the extraction is performed by checking one or more of the number of column values, the number of columns, clustering of columns, the number of clustering of columns, and column headers.
상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다. The reference value is characterized in that it is calculated by [Equation 1] below.
[식 1][Equation 1]
Figure PCTKR2021016695-appb-I000001
Figure PCTKR2021016695-appb-I000001
상기 제9단계에서 추가로 생성된 하위데이터셋의 데이터 취합은 상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값으로 하고 상기 제7-1단계에서 추가로 생성된 하위데이터를 결과값으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 한다. The data collection of the sub-dataset additionally generated in the ninth step uses the number of column values of the selected cluster, the reference value, and the selected column as input values, and the sub-data additionally generated in the 7-1 step as the result value It is characterized in that it is assembled into an association module.
또한, 본 발명인 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치는,In addition, the present invention provides an apparatus for ensuring fairness of artificial intelligence learning datasets based on multidimensional subset association analysis,
CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 업로드부(10);an upload unit 10 for uploading a raw data set file prepared in CSV (Comma-Separated Values) format;
상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 파싱부(20);a parsing unit 20 for parsing the structure of the uploaded raw data set file;
상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 개수확인부(30);a number check unit 30 for checking the number of clustered columns and the total number of column values in the parsed structure;
상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 기준값계산부(40);a reference value calculator 40 for calculating a reference value using the number of clustering of the columns and the number of total column values;
하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 기준값비교부(50);a reference value comparison unit 50 for selecting one cluster and comparing the number of column values of the selected cluster with the reference value;
상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하는 하위데이터셋생성부(60);a lower data set generating unit 60 for combining data including only the number of column values in the selected cluster and 10% or more of the reference value and the number of column values having the same value as the reference value;
상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 컬럼값제거부(70);a column value removal unit 70 that removes the column values of the selected cluster when the number of column values in the selected cluster is less than 10% of the reference value;
상기 컬럼(Column)의 군집화 개수만큼 상기 기준값비교부(50), 하위데이터셋생성부(60) 및 컬럼값제거부(70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 반복수행부(80);An iterative performing unit that repeatedly performs (Loop) the reference value comparison unit 50, the lower data set generating unit 60, and the column value removing unit 70 by the number of clustering of the column to additionally generate a lower data set (80);
상기 반복수행부(80)에 의해 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 데이터취합부(90);를 포함하는 것을 특징으로 한다. and a data collection unit 90 that collects the data of the sub-dataset additionally generated by the iteration unit 80.
상기 파싱부는,The parsing unit,
상기 원시 데이터셋 파일의 구조에서 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 한다. Extracting by checking one or more of the number of column values, the number of columns, the clustering of columns, the number of clustering of columns, and the column header in the structure of the raw data set file do it with
상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다. The reference value is characterized in that it is calculated by [Equation 1] below.
[식 1][Equation 1]
Figure PCTKR2021016695-appb-I000002
Figure PCTKR2021016695-appb-I000002
상기 데이터취합부(90)는 상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값으로 하고 상기 추가로 생성된 하위데이터를 결과값으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 한다. The data aggregation unit 90 uses the number of column values of the selected cluster, the reference value, and the selected column as input values, and collects the additionally generated sub-data as a result value with an association module. .
상기 과제의 해결 수단에 의해, 본 발명은 알고리즘이 내린 결정에서 그 결정과 무관해야 하는 특성에 따라 편향될 수 있는 문제를 해결하고 공정성을 보장할 수 있다. By means of solving the above problems, the present invention can solve a problem that may be biased according to characteristics that should be independent of the decision made by the algorithm and ensure fairness.
도 1은 본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법을 보여주는 순서도이다. 1 is a flowchart showing a method of ensuring fairness of AI learning dataset based on multidimensional subset association analysis according to the present invention.
도 2는 본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치를 나타내는 구성도이다. 2 is a block diagram illustrating an apparatus for ensuring fairness of AI learning dataset based on multidimensional subset association analysis according to the present invention.
도 3은 종래의 데이터셋을 나타낸 그래프 결과이다.3 is a graph result showing a conventional data set.
도 4는 본 발명에 의해 실행된 데이터셋 그래프 결과이다. 4 is a data set graph result executed by the present invention.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.Terms used in this specification will be briefly described, and the present invention will be described in detail.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention have been selected as currently widely used general terms as possible while considering the functions in the present invention, which may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.
명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.In the entire specification, when a part “includes” a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.Hereinafter, with reference to the accompanying drawings, the embodiments of the present invention will be described in detail so that those of ordinary skill in the art can easily implement them. However, the present invention may be embodied in several different forms and is not limited to the embodiments described herein.
본 발명에 대한 해결하고자 하는 과제, 과제의 해결 수단, 발명의 효과를 포함한 구체적인 사항들은 다음에 기재할 실시 예 및 도면들에 포함되어 있다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다.Specific details including the problem to be solved for the present invention, the means for solving the problem, and the effect of the invention are included in the embodiments and drawings to be described below. Advantages and features of the present invention, and a method for achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings.
이하, 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명하기로 한다.Hereinafter, the present invention will be described in more detail with reference to the accompanying drawings.
본 발명은 인공지능 학습을 위한 원시 데이터셋 속성에 해당하는 속성값의 편향을 편향성을 제거하고 공정성이 보장된 인공지능 학습 데이터셋을 만드는 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법에 관한 것이다.The present invention removes the bias of the attribute value corresponding to the raw dataset attribute for artificial intelligence learning, and the artificial intelligence learning dataset fairness based on multidimensional subset association analysis to create an artificial intelligence learning dataset with guaranteed fairness. It relates to a device for guaranteeing and a method for ensuring fairness of an artificial intelligence learning dataset using the same.
본 발명은 머신러닝(NL)에 원치 않은 편향이 발생할 수 있는 방식에 주목하면서 공정성을 염두에 두고 데이터세트를 살펴보고 분류자를 평가한다. 공정성에 관한 머신러닝 프로세스의 컨텍스트를 구성하기 위해 편향을 파악하고 이러한 편향이 해결되지 않을 때 발생하는 모델 예측의 장기적인 영향을 고려한다. The present invention looks at datasets and evaluates classifiers with fairness in mind, noting how undesirable biases can occur in machine learning (NL). To frame the context of the machine learning process about fairness, we identify biases and consider the long-term impact of model predictions that arise when these biases are not addressed.
본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법은, 도 1에 나타난 바와 같이 아래 단계에 의해 수행된다. The present invention, a method for ensuring fairness of an artificial intelligence learning dataset based on multidimensional subset association analysis, is performed by the following steps as shown in FIG. 1 .
먼저, 제1단계(S10)는 CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드한다. 보다 구체적으로, 상기 CSV(Comma-Separated Values) 형식은 테이블(Table), 필드(Field), 컬럼(Column) 및 컬럼값을 형성하는 것이다. First, the first step (S10) uploads a raw data set file prepared in a CSV (Comma-Separated Values) format. More specifically, the CSV (Comma-Separated Values) format forms a table, a field, a column, and a column value.
상기 테이블(Table)은 빠른 참조를 위해 적당한 형태로 자료를 모아 놓은 것으로, 관계 데이터 베이스 모델(relational data base model)에서 자료의 구조를 2차원의 표로 나타낸 것이다. 즉, 컬럼값과 컬럼의 형태로 관리되며 키를 지정함으로써 원하는 자료를 빠르고 쉽게 찾아 낼 수도 있다.The table is a collection of data in an appropriate format for quick reference, and represents the structure of data in a relational database model as a two-dimensional table. In other words, it is managed in the form of column values and columns, and by designating the key, you can quickly and easily find the data you want.
상기 필드(Field)는 어떠한 의미를 지니는 정보의 한 조각으로, 데이터베이스 시스템에서 처리의 최소 단위가 되는 것을 말한다. The field is a piece of information having a certain meaning, and is the smallest unit of processing in the database system.
상기 컬럼값은 관계형 데이터베이스에서 레코드(record) 또는 튜플(tuple)로 불리기도 하며, 어떤 테이블에서 단일 구조 데이터 항목을 가리킨다. 간단한 용어로, 데이터베이스 테이블은 컬럼값과 컬럼(Column) 또는 필드로 구성되어 있다고 간주할 수 있다. 각 테이블의 컬럼값은 일련의 관련 자료를 나타내며, 테이블에서 모든 컬럼값은 동일한 구조를 가지고 있다.The column value is also called a record or a tuple in a relational database, and indicates a single structured data item in a table. In simple terms, a database table can be considered to be composed of column values and columns or fields. Column values in each table represent a series of related data, and all column values in a table have the same structure.
상기 컬럼(Column)은 관계형 데이터베이스 테이블에서 특정한 단순 자료형의 일련의 데이터값과 테이블에서의 각 컬럼을 말한다.The column refers to a series of data values of a specific simple data type in a relational database table and each column in the table.
다음으로, 제2단계(S20)는 상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)한다. 본 발명에서 인공지능 학습을 위한 원시 데이터셋 속성에 해당하는 속성값의 편향을 CSV 형식으로 마련된 원시 데이터셋 파일의 구조를 파싱(parsing)한다. Next, the second step (S20) parses the structure of the uploaded raw data set file. In the present invention, the bias of the attribute value corresponding to the attribute of the raw dataset for artificial intelligence learning is parsed by parsing the structure of the raw dataset file prepared in CSV format.
상기 제2단계(S20)에서 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출 하는 것이 바람직하다. In the second step (S20), the parsing of the structure of the raw data set file includes the number of column values, the number of columns, the clustering of columns, the number of clustering of columns, and the column names. It is desirable to extract by checking any one or more of the header).
상기 컬럼(Column)의 군집화는 원시 데이터셋 파일에서 각 필드(Field)에 해당하는 값을 카테고리로 분류하여 놓은 것으로, 각 컬럼(Column)은 특징(Features)에 따라 분류한다. The clustering of the columns is to classify the values corresponding to each field in the raw data set file into categories, and each column is classified according to features.
다음으로, 제3단계(S30)는 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인한다. Next, in the third step (S30), the number of clustered columns and the total number of column values in the parsed structure are checked.
다음으로, 제4단계(S40)는 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산한다. 보다 구체적으로, 상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다. Next, in the fourth step ( S40 ), a reference value is calculated using the number of clusters of the column and the number of total column values. More specifically, the reference value is characterized in that it is calculated by [Equation 1] below.
[식 1][Equation 1]
Figure PCTKR2021016695-appb-I000003
Figure PCTKR2021016695-appb-I000003
상기 기준값은 전체 컬럼값의 개수에서 컬럼(Column)의 군집화 개수을 나눈 값으로, 필드(Field)를 군집에 따른 평균값을 계산하여 각 군집의 기준이 되는 값을 확인 할 수 있도록 한다. The reference value is a value obtained by dividing the number of clustering of columns from the total number of column values, and it is possible to check the standard value of each cluster by calculating an average value for each cluster of fields.
일실시예로, 전체 컬럼값의 개수가 2,000이고 컬럼(Column)의 군집화 개수이 4개인 경우, 기준값은 500이라 할 수 있다. As an example, when the total number of column values is 2,000 and the number of clustering columns is 4, the reference value may be 500.
다음으로, 제5단계(S50)는 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교한다. 상기 제5단계(S50)는 각 군집에 따라 반복수행(LOOP)을 실시한다. Next, in the fifth step (S50), after selecting one cluster, the number of column values of the selected cluster is compared with the reference value. In the fifth step (S50), repeat execution (LOOP) is performed according to each group.
다음으로, 제6단계(S60)는 상기 제5단계(S50)에서 비교 된 값을 이용하여 포함될 컬럼값의 개수를 확정한다. 상기 제6단계(S60)는 아래 제6-1단계(S61) 및 제6-2단계(S62)로 분리하여 수행한다. Next, in the sixth step (S60), the number of column values to be included is determined using the values compared in the fifth step (S50). The sixth step (S60) is performed separately in the following steps 6-1 (S61) and 6-2 (S62).
상기 제6-1단계(S61)는 상기 제5단계(S50)에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함한다. In step 6-1 (S61), when the number of column values of the group selected in step S50 is equal to or greater than the reference value, only the number of column values equal to the reference value is included.
일실시예로, 상기 기준값이 500일 때, 제1군집의 컬럼값 개수가 600인 경우 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함하고 나머지 100개에 해당하는 컬럼값은 버리거나 제거한다. In one embodiment, when the reference value is 500 and the number of column values in the first cluster is 600, the first cluster includes only 500 column values corresponding to the reference value and discards the remaining 100 column values, or Remove.
상기 제6-2단계(S62)는 상기 제5단계(S50)에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교한다. In step 6-2 (S62), when the number of column values in the selected cluster in the fifth step (S50) is less than the reference value, the number of column values in the selected cluster and 10% of the reference value are compared.
일실시예로, 상기 기준값이 500일 때, 제2군집의 컬럼값 개수가 100인 경우 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 100을 비교하고 상기 제2군집의 컬럼값 개수가 상기 기준값을 초과함을 확인한다. In one embodiment, when the reference value is 500, when the number of column values in the second cluster is 100, 50, which is 10% of the reference value, is compared with 100, which is the number of column values in the second cluster, and the column of the second cluster It is confirmed that the number of values exceeds the reference value.
다음으로, 제7단계(S70)는 상기 제6-1단계(S61) 및 제6-2단계(S62)에서 수행 된 값을 이용하여 수행하며, 상기 확정된 컬럼값의 개수를 포함한 데이터를 조합하여 하위데이터셋을 생성한다. 상기 제7단계(S70)는 아래 제7-1단계(S71) 및 제7-2단계(S72)로 분리하여 수행한다. Next, the seventh step (S70) is performed using the values performed in the 6-1 step (S61) and the 6-2 step (S62), and data including the determined number of column values is combined to create a subdataset. The seventh step (S70) is performed separately in the following steps 7-1 (S71) and 7-2 (S72).
상기 제7-1단계(S71)는 상기 제6-2단계(S62)에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계(S61)에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성한다. The 7-1 step (S71) is performed when the number of column values of the selected cluster in the 6-2 step (S62) and 10% or more of the reference value are the same as the reference value in the 6-1 step (S61). Creates a subdataset by combining data including only the number of column values of values.
일실시예로, 상기 제2군집의 컬럼값 개수(100)는 상기 기준값의 10%(50)보다 크므로 상기 제2군집은 상기 하위데이터셋에 포함되어 생성된다. In an embodiment, since the number of column values (100) of the second cluster is greater than 10% (50) of the reference value, the second cluster is included in the sub-dataset and is generated.
또한, 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함하여 상기 하위데이터셋에 포함되어 생성된다. In addition, the first cluster is generated by being included in the lower data set including only 500 column values corresponding to the reference value.
상기 제7-2단계(S72)는 상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거한다. In step 7-2 (S72), when the number of column values in the group selected in step 6-2 is less than 10% of the reference value, the column values in the selected cluster are removed.
일실시예로, 상기 기준값이 500일 때, 제3군집의 컬럼값 개수가 30인 경우 상기 제3군집의 컬럼값 개수가 상기 기준값 미만이므로 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 30을 비교하고, 상기 제6-2단계(S62)에서 상기 기준값의 10%보다 미만으로 판단한 경우 상기 제7-2단계(S72)에서 상기 제3군집의 컬럼값은 삭제하거나 제거한다. In one embodiment, when the reference value is 500, when the number of column values in the third cluster is 30, since the number of column values in the third cluster is less than the reference value, 50, which is 10% of the reference value, and the column of the second cluster 30, the number of values, is compared, and when it is determined that the value is less than 10% of the reference value in step 6-2 (S62), the column value of the third cluster is deleted or removed in step 7-2 (S72) .
다음으로, 제8단계(S80)는 상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계(S50) 내지 상기 제7단계(S70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성한다. Next, in the eighth step (S80), the fifth step (S50) to the seventh step (S70) are repeatedly performed (Loop) by the number of clustering of the column to additionally generate a sub-dataset.
다음으로, 제9단계(S90)는 상기 추가로 생성된 하위데이터셋의 데이터를 취합한다. 보다 구체적으로, 상기 제9단계에서 추가로 생성된 하위데이터셋의 데이터 취합은 상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼(Column)을 입력값(input)으로 하고 상기 제7-1단계(S71)에서 추가로 생성된 하위데이터셋을 결과값(output)으로 하여 취합하는 것으로, 상기 반복 수행(Loop)의 재수행을 통해 취합한다. Next, the ninth step (S90) collects the data of the additionally generated sub-dataset. More specifically, the data collection of the sub-dataset additionally generated in the ninth step uses the number of column values of the selected cluster, the reference value, and the selected column as input values, and the step 7-1 ( The sub-dataset additionally generated in S71) is collected as a result value (output), and is collected through re-execution of the loop.
본 발명에 의한 일실시예로, 전체 100개 값을 가진 컬럼(Column)에서 상기 입력값은 백인남자 35, 백인여자 30, 흑인남자 20, 흑인여자 15라 하면 상기 제9단계(S90)에서 컬럼값 추출 후 백인남자 25, 백인여자 25, 흑인남자 20, 흑인여자 15로 취합하고 결과값은 85개 값을 가진 공정한 서브셋을 획득한다. In an embodiment according to the present invention, if the input values are 35 white males, 30 white females, 20 black males, and 15 black females in a column having a total of 100 values, in the ninth step (S90), the column After value extraction, white male 25, white female 25, black male 20, and black female 15 are collected, and the result is a fair subset with 85 values.
또한, 본 발명인 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치는, 도 2에 나타난 바와 같이, 업로드부(10), 파싱부(20), 개수확인부(30), 기준값계산부(40), 기준값비교부(50), 하위데이터셋생성부(60), 컬럼값제거부(70), 반복수행부(80) 및 데이터취합부(90)로 구성된다. In addition, the apparatus for ensuring fairness of artificial intelligence learning datasets based on multidimensional subset association analysis according to the present invention is as shown in FIG. 2 , an upload unit 10, a parsing unit 20, a number check unit 30, It consists of a reference value calculation unit 40 , a reference value comparison unit 50 , a lower data set generation unit 60 , a column value removal unit 70 , an iterative execution unit 80 , and a data collection unit 90 .
먼저, 상기 업로드부(10)는 원시 데이터셋 파일이 CSV(Comma-Separated Values) 형식인지 확인 후 파일을 업로드한다. 보다 구체적으로, 상기 CSV(Comma-Separated Values) 형식은 테이블(Table), 필드(Field), 컬럼(Column) 및 컬럼값을 형성하는 것이다. First, the upload unit 10 uploads the file after checking whether the raw data set file is in CSV (Comma-Separated Values) format. More specifically, the CSV (Comma-Separated Values) format forms a table, a field, a column, and a column value.
다음으로, 상기 파싱부(20)는 상기 원시 데이터셋 파일의 구조를 파싱(parsing)한다. 상기 파싱부(20)는 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출 하는 것이 바람직하다. Next, the parsing unit 20 parses the structure of the raw data set file. The parsing unit 20 parses the structure of the raw data set file is the number of column values, the number of columns, the number of columns, the number of clustering of columns, the number of clustering of columns, and the column header (column header). ), it is preferable to extract by checking any one or more.
상기 컬럼(Column)의 군집화는 원시 데이터셋 파일에서 각 필드(Field)에 해당하는 값을 카테고리로 분류하여 놓은 것으로, 각 컬럼(Column)은 특징(Features)에 따라 분류한다. The clustering of the columns is to classify the values corresponding to each field in the raw data set file into categories, and each column is classified according to features.
다음으로, 상기 개수확인부(30)는 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인한다. Next, the number check unit 30 checks the number of clustered columns and the total number of column values in the parsed structure.
다음으로, 상기 기준값계산부(40)는 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산한다. 상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다. Next, the reference value calculator 40 calculates a reference value using the number of clusters of the column and the number of total column values. The reference value is characterized in that it is calculated by [Equation 1] below.
[식 1][Equation 1]
Figure PCTKR2021016695-appb-I000004
Figure PCTKR2021016695-appb-I000004
상기 기준값은 전체 컬럼값 개수에서 컬럼값들의 군집화 개수를 나눈 값으로, 필드(Field)를 군집에 따른 평균값을 계산하여 각 군집의 기준이 되는 값을 확인 할 수 있도록 한다. The reference value is a value obtained by dividing the number of clustering of column values from the total number of column values, and the average value for each cluster is calculated for a field so that a standard value for each cluster can be identified.
일실시예로, 전체 컬럼값 개수가 2,000이고 컬럼값들의 군집화 개수이 4개인 경우, 기준값은 500이라 할 수 있다. As an embodiment, when the total number of column values is 2,000 and the number of clustering of column values is 4, the reference value may be 500.
다음으로, 상기 기준값비교부(50)는 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교한다.Next, the reference value comparison unit 50 selects one cluster and compares the number of column values of the selected cluster with the reference value.
일실시예로, 상기 기준값이 500일 때, 제1군집의 컬럼값 개수가 600인 경우 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함한다. In an embodiment, when the reference value is 500, when the number of column values in the first cluster is 600, the first cluster includes only 500 column values corresponding to the reference value.
다음으로, 상기 하위데이터셋생성부(60)는 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합한다. Next, the lower data set generating unit 60 combines data including only the number of column values of the selected cluster and the number of column values equal to or greater than 10% of the reference value and the same as the reference value.
일실시예로, 상기 기준값이 500일 때, 제2군집의 컬럼값 개수가 100인 경우 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 100을 비교하고 상기 제2군집의 컬럼값 개수가 상기 기준값을 초과함을 확인한다. In one embodiment, when the reference value is 500, when the number of column values in the second cluster is 100, 50, which is 10% of the reference value, is compared with 100, which is the number of column values in the second cluster, and the column of the second cluster It is confirmed that the number of values exceeds the reference value.
다음으로, 상기 컬럼값제거부(70)는 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거한다. Next, when the column value removal unit 70 is less than 10% of the number of column values of the selected cluster and the reference value, the column value of the selected cluster is removed.
일실시예로, 상기 기준값이 500일 때, 제1군집의 컬럼값 개수가 600인 경우 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함하고 나머지 100개에 해당하는 컬럼값은 버리거나 제거한다. In one embodiment, when the reference value is 500 and the number of column values in the first cluster is 600, the first cluster includes only 500 column values corresponding to the reference value and discards the remaining 100 column values, or Remove.
또한, 상기 기준값이 500일 때, 제3군집의 컬럼값 개수가 30인 경우 상기 제3군집의 컬럼값 개수가 상기 기준값 미만이므로 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 30을 비교하고, 상기 제6-2단계(S62)에서 상기 기준값의 10%보다 미만으로 판단한 경우 상기 제7-2단계(S72)에서 상기 제3군집의 컬럼값은 삭제하거나 제거한다. In addition, when the reference value is 500, when the number of column values in the third cluster is 30, since the number of column values in the third cluster is less than the reference value, 50, which is 10% of the reference value, and the number of column values in the second cluster 30 is compared, and when it is determined that the value is less than 10% of the reference value in step 6-2 (S62), the column value of the third cluster is deleted or removed in step 7-2 (S72).
다음으로, 상기 반복수행부(80)는 상기 컬럼(Column)의 군집화 개수만큼 상기 기준값비교부(50), 하위데이터셋생성부(60) 및 컬럼값제거부(70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성한다. Next, the iteration performing unit 80 repeats the reference value comparison unit 50, the lower data set generation unit 60, and the column value removal unit 70 by the number of clustering of the column (Loop), Create additional subdatasets.
다음으로, 상기 데이터취합부(90)는 상기 반복수행부(80)에 의해 상기 추가로 생성된 하위데이터셋의 데이터를 취합한다. 상기 데이터취합부(90)는 특정 군집의 컬럼값 개수, 기준값 및 특정 컬럼(Column)을 입력값으로 하고 상기 하위데이터셋을 결과값으로 하여 취합하는 것으로, 상기 반복 수행(Loop)의 재수행을 통해 취합한다. Next, the data collection unit 90 collects data of the sub-dataset additionally generated by the iteration unit 80 . The data aggregation unit 90 collects the number of column values of a specific cluster, a reference value, and a specific column as input values and the sub-dataset as a result value, thereby re-performing the loop. collected through
일실시예로, 본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법은 CHICAGO DATA PORTAL의 TRANSPORTATION 도메인 데이터셋에서 TRAFFIC CRASHES-CRASHES 데이터셋을 활용하였다. In one embodiment, the present inventors, an apparatus for ensuring fairness of an artificial intelligence learning dataset based on multidimensional subset association analysis and a method of ensuring fairness of an artificial intelligence learning dataset using the same are TRAFFIC in the TRANSPORTATION domain dataset of CHICAGO DATA PORTAL. The CRASHES-CRASHES dataset was used.
데이터셋 및 예상 작업 정보는 아래와 같다. Data set and expected work information are as follows.
- SOURCE : TRAFFIC CRASHES - CRASHES- SOURCE : TRAFFIC CRASHES - CRASHES
- 원본 데이터셋에서 머신러닝 공정성에 영향을 미칠 수 있는 FIELD 만을 이므이 선택하여 학습에 사용- Only FIELDs that can affect machine learning fairness in the original dataset are selected and used for training
- 원본 데이터셋의 DAMAGE FIELD 수정 사용- Use the DAMAGE FIELD modification of the original dataset
· $500 OR LESS : ≤ 1500 · $500 OR LESS: ≤ 1500
· $501 - $1,500 : ≤ 1500 $501 - $1,500 : ≤ 1500
· OVER - $1,500 : 〉 1500 · OVER - $1,500 : > 1500
수적 특징(NUMERIC FEATURES)은 아래와 같다.The NUMERIC FEATURES are as follows.
· posted_speed_limit : 사고 당시 경찰에 의해 기록 된 차량의 속도 정보 posted_speed_limit: information on the speed of the vehicle recorded by the police at the time of the accident
범주적 특징(CATEGORICAL FEATURES)은 아래와 같다.The categorical features are as follows.
· weather_condition : 사고 당시 경찰에 의해 기록 된 날씨 정보. 입력값 예시: CLEAR , RAIN etc. · weather_condition: Weather information recorded by the police at the time of the accident. Examples of input values: CLEAR , RAIN etc.
· lighting_condition : 사고 당시 경찰에 의해 기록 된 조명(밝기) 정보. 입력값 예시: DAYLIGHT, DARKNESS, DARKNESS LIGHTED ROAD etc. · lighting_condition : Lighting (brightness) information recorded by the police at the time of the accident. Example input values: DAYLIGHT, DARKNESS, DARKNESS LIGHTED ROAD etc.
· roadway_surface_cond : 사고 당시 경찰에 의해 기록 된 사고지점 노면의 상태 정보. 입력값 예시: DRY, ICE, WET etc. · roadway_surface_cond : Information on the condition of the road surface at the accident point recorded by the police at the time of the accident. Examples of input values: DRY, ICE, WET etc.
· first_crash_type : 사고 당시 경찰에 의해 기록 된 사고타입 정보. 입력값 예시: REAR EDN, TURNING, ANGLE, PARKED MOTOR VEHICLE etc. · first_crash_type : Information on the type of accident recorded by the police at the time of the accident. Example input values: REAR EDN, TURNING, ANGLE, PARKED MOTOR VEHICLE etc.
예측(PREDICTION) 작업은 교통사고 수리비가 $1,500를 초과하는지 확인하기 위해 실행한다. A PREDICTION task is run to determine if the cost of repairing a car accident exceeds $1,500.
라벨(LABEL)은 교통 사고 수리비가 $1,500 넘는지 여부를 나타낸다. LABEL indicates whether the cost of repairing a car accident is over $1,500.
도 3은 종래의 데이터셋을 나타낸 것으로, 범주적 특징(CATEGORICAL FEATURES)에 의해 필터링 되었을 때 그래프에 나타난 바와 같이 각 특징의 데이터에서 그래프 편차가 큼을 확인할 수 있다. 3 shows a conventional dataset, and when filtered by categorical features, as shown in the graph, it can be seen that the graph deviation is large in the data of each feature.
한편, 도 4는 본 발명에 의해 실행된 데이터셋을 나타낸 것으로, 범주적 특징(CATEGORICAL FEATURES)에 의해 필터링 되었을 때 그래프에 나타난 바와 같이 각 특징의 데이터에서 그래프 편차가 작음을 확인할 수 있다. On the other hand, FIG. 4 shows a dataset executed by the present invention, and when it is filtered by categorical features (CATEGORICAL FEATURES), as shown in the graph, it can be confirmed that the graph deviation is small in the data of each feature.
상기 과제의 해결 수단에 의해, 본 발명은 알고리즘이 내린 결정에서 그 결정과 무관해야 하는 특성에 따라 편향될 수 있는 문제를 해결하고 공정성을 보장할 수 있다. By means of solving the above problems, the present invention can solve a problem that may be biased according to characteristics that should be independent of the decision made by the algorithm and ensure fairness.
이와 같이, 상술한 본 발명의 기술적 구성은 본 발명이 속하는 기술분야의 당업자가 본 발명의 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.As such, those skilled in the art to which the present invention pertains will understand that the above-described technical configuration of the present invention may be implemented in other specific forms without changing the technical spirit or essential characteristics of the present invention.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, the embodiments described above are to be understood as illustrative and not restrictive in all respects, and the scope of the present invention is indicated by the following claims rather than the above detailed description, and the meaning and scope of the claims and their All changes or modifications derived from the concept of equivalents should be construed as being included in the scope of the present invention.

Claims (10)

  1. 업로드부(10)가 CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 제1단계;a first step of uploading, by the uploading unit 10, a raw data set file prepared in CSV (Comma-Separated Values) format;
    파싱부(20)가 상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 제2단계;a second step of parsing, by the parsing unit 20, the structure of the uploaded raw data set file;
    개수확인부(30)가 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 제3단계;a third step in which the number check unit 30 checks the number of clustered columns and the total number of column values in the parsed structure;
    기준값계산부(40)가 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 제4단계;a fourth step in which the reference value calculator 40 calculates a reference value by using the number of clustered columns and the total number of column values;
    기준값비교부(50)가 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 제5단계;a fifth step of comparing the reference value with the number of column values of the selected cluster after the reference value comparison unit 50 selects one cluster;
    하위데이터셋생성부(60)가 상기 제5단계에서 비교 된 값을 이용하여 포함 될 컬럼값의 개수를 확정하는 제6단계; a sixth step in which the lower data set generating unit 60 determines the number of column values to be included using the values compared in the fifth step;
    컬럼값제거부(70)가 상기 확정된 컬럼값의 개수를 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7단계;a seventh step in which the column value removal unit 70 combines data including the determined number of column values to create a lower data set;
    반복수행부(80)가 상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계 내지 상기 제7단계를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 제8단계; 및an eighth step in which the iterative unit 80 repeats the fifth to seventh steps as many as the number of clustering of the columns to additionally generate a sub-dataset; and
    데이터취합부(90)가 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 제9단계;에 의해 실행되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.To ensure fairness of the artificial intelligence learning dataset based on multidimensional subset association analysis, characterized in that the data collection unit 90 collects the data of the additionally generated sub-dataset; Way.
  2. 제 1항에 있어서,The method of claim 1,
    상기 제2단계에서 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은,Parsing the structure of the raw data set file in the second step is,
    컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.Multidimensional subset association analysis, characterized in that the extraction is performed by checking at least one of the number of column values, the number of columns, the clustering of columns, the number of clustering of columns, and the column header A method to ensure fairness of the artificial intelligence training dataset based on
  3. 제 1항에 있어서,The method of claim 1,
    상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법 : The reference value is a method of ensuring fairness of the artificial intelligence learning dataset based on multidimensional subset association analysis, characterized in that it is calculated by the following [Equation 1]:
    [식 1][Equation 1]
    Figure PCTKR2021016695-appb-I000005
    Figure PCTKR2021016695-appb-I000005
  4. 제 1항에 있어서, The method of claim 1,
    상기 제9단계에서 추가로 생성된 하위데이터셋의 데이터 취합은,The data collection of the sub-dataset additionally created in the ninth step is,
    상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값(input)으로 하고 상기 제7단계에서 추가로 생성된 하위데이터를 결과값(output)으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.It is characterized in that the number of column values of the selected cluster, the reference value, and the selected column are used as input values, and the sub data additionally generated in the seventh step is collected by an association module as an output value. A method to ensure fairness of artificial intelligence training datasets based on multidimensional subset association analysis.
  5. 제 1항에 있어서,The method of claim 1,
    상기 제6단계는,The sixth step is
    상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함하는 제6-1단계; 및a step 6-1 including only the number of column values having the same value as the reference value when the number of column values of the selected cluster in the fifth step is equal to or greater than the reference value; and
    상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교하는 제6-2단계;로 분리하여 수행하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.When the number of column values of the selected cluster in the fifth step is less than the reference value, the 6-2 step of comparing the number of column values of the selected cluster with a value of 10% of the reference value; characterized in that it is performed separately A method to ensure fairness of artificial intelligence training datasets based on multidimensional subset association analysis.
  6. 제 5항에 있어서,6. The method of claim 5,
    상기 제7단계는,The seventh step is
    상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7-1단계; 및In step 6-2, when the number of column values of the selected cluster and 10% or more of the reference value, and in step 6-1, data including only the number of column values having the same value as the reference value are combined to create a subdataset Step 7-1 to do; and
    상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 제7-2단계;로 분리하여 수행하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.When the number of column values of the selected cluster and the reference value in step 6-2 is less than 10%, the column value of the selected cluster is removed in step 7-2; A method to ensure fairness of artificial intelligence training datasets based on set association analysis.
  7. CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 업로드부(10);an upload unit 10 for uploading a raw data set file prepared in CSV (Comma-Separated Values) format;
    상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 파싱부(20);a parsing unit 20 for parsing the structure of the uploaded raw data set file;
    상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 개수확인부(30);a number check unit 30 for checking the number of clustered columns and the total number of column values in the parsed structure;
    상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 기준값계산부(40);a reference value calculator 40 for calculating a reference value by using the number of clustering of the columns and the number of total column values;
    하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 기준값비교부(50);a reference value comparison unit 50 for selecting one cluster and comparing the number of column values of the selected cluster with the reference value;
    상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하는 하위데이터셋생성부(60);a lower data set generating unit 60 for combining data including only the number of column values in the selected cluster and 10% or more of the reference value and the number of column values having the same value as the reference value;
    상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 컬럼값제거부(70);a column value removal unit 70 that removes the column values of the selected cluster when the number of column values in the selected cluster is less than 10% of the reference value;
    상기 컬럼(Column)의 군집화 개수만큼 상기 기준값비교부(50), 하위데이터셋생성부(60) 및 컬럼값제거부(70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 반복수행부(80);An iterative performing unit that repeatedly performs (Loop) the reference value comparison unit 50, the lower data set generating unit 60, and the column value removing unit 70 by the number of clustering of the column to additionally generate a lower data set (80);
    상기 반복수행부(80)에 의해 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 데이터취합부(90);에 의해 실행되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치.Artificial intelligence learning data based on multidimensional subset association analysis, characterized in that it is executed by; Three devices to ensure fairness.
  8. 제 7항에 있어서,8. The method of claim 7,
    상기 파싱부는,The parsing unit,
    상기 원시 데이터셋 파일의 구조에서 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치.Extracting by checking one or more of the number of column values, the number of columns, the clustering of columns, the number of clustering of columns, and the column header in the structure of the raw data set file A device that guarantees the fairness of the artificial intelligence learning dataset based on multidimensional subset association analysis.
  9. 제 7항에 있어서,8. The method of claim 7,
    상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치 : The reference value is an apparatus for ensuring fairness of the artificial intelligence learning dataset based on multidimensional subset association analysis, characterized in that it is calculated by the following [Equation 1]:
    [식 1][Equation 1]
    Figure PCTKR2021016695-appb-I000006
    Figure PCTKR2021016695-appb-I000006
  10. 제 7항에 있어서,8. The method of claim 7,
    상기 데이터취합부(90)는,The data collection unit 90,
    상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값(input)으로 하고 상기 추가로 생성된 하위데이터를 결과값(output)으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치.Multidimensional, characterized in that the number of column values of the selected cluster, the reference value, and the selected column are combined with an association module that uses the additionally generated sub-data as an output value. A device that guarantees fairness of artificial intelligence training datasets based on subset association analysis.
PCT/KR2021/016695 2020-11-27 2021-11-16 Device for ensuring fairness of artificial intelligence learning data set based on multidimensional subset association analysis, and method for ensuring fairness of artificial intelligence learning data set by using same WO2022114639A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200161943 2020-11-27
KR10-2020-0161943 2020-11-27

Publications (1)

Publication Number Publication Date
WO2022114639A1 true WO2022114639A1 (en) 2022-06-02

Family

ID=78521431

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/016695 WO2022114639A1 (en) 2020-11-27 2021-11-16 Device for ensuring fairness of artificial intelligence learning data set based on multidimensional subset association analysis, and method for ensuring fairness of artificial intelligence learning data set by using same

Country Status (2)

Country Link
KR (1) KR102321735B1 (en)
WO (1) WO2022114639A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102321735B1 (en) * 2020-11-27 2021-11-04 부산대학교 산학협력단 Apparatus for ensuring fairness of ai learning datasets based on multidimensional subset association analysis and method for ensuring fairness of ai learning datasets thereof
KR20230149914A (en) 2022-04-20 2023-10-30 서울시립대학교 산학협력단 Device and method for training artificial intelligence model
KR20240032288A (en) 2022-09-02 2024-03-12 동국대학교 산학협력단 Apparatus and method for constructing a hybrid green tea learning dataset consisting of a quantitative green tea learning dataset generation module and a qualitative green tea learning dataset generation module

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160096460A (en) * 2015-02-05 2016-08-16 삼성전자주식회사 Recognition system based on deep learning including a plurality of classfier and control method thereof
JP2018113048A (en) * 2013-02-20 2018-07-19 ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー Outlier bias reduction system and method
KR102005628B1 (en) * 2017-04-26 2019-07-30 김정희 Method and system for pre-processing machine learning data
US20200081865A1 (en) * 2018-09-10 2020-03-12 Google Llc Rejecting Biased Data Using a Machine Learning Model
KR20200046899A (en) * 2018-10-26 2020-05-07 삼성에스디에스 주식회사 Method and apparatus for extracting data of interest
KR102321735B1 (en) * 2020-11-27 2021-11-04 부산대학교 산학협력단 Apparatus for ensuring fairness of ai learning datasets based on multidimensional subset association analysis and method for ensuring fairness of ai learning datasets thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018113048A (en) * 2013-02-20 2018-07-19 ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー Outlier bias reduction system and method
KR20160096460A (en) * 2015-02-05 2016-08-16 삼성전자주식회사 Recognition system based on deep learning including a plurality of classfier and control method thereof
KR102005628B1 (en) * 2017-04-26 2019-07-30 김정희 Method and system for pre-processing machine learning data
US20200081865A1 (en) * 2018-09-10 2020-03-12 Google Llc Rejecting Biased Data Using a Machine Learning Model
KR20200046899A (en) * 2018-10-26 2020-05-07 삼성에스디에스 주식회사 Method and apparatus for extracting data of interest
KR102321735B1 (en) * 2020-11-27 2021-11-04 부산대학교 산학협력단 Apparatus for ensuring fairness of ai learning datasets based on multidimensional subset association analysis and method for ensuring fairness of ai learning datasets thereof

Also Published As

Publication number Publication date
KR102321735B1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
WO2022114639A1 (en) Device for ensuring fairness of artificial intelligence learning data set based on multidimensional subset association analysis, and method for ensuring fairness of artificial intelligence learning data set by using same
WO2021132927A1 (en) Computing device and method of classifying category of data
WO2021080102A1 (en) Method for training and testing adaption network corresponding to obfuscation network capable of processing data to be concealed for privacy, and training device and testing device using the same
WO2021080103A1 (en) Method for learning and testing user learning network to be used for recognizing obfuscated data created by concealing original data to protect personal information and learning device and testing device using the same
WO2017213398A1 (en) Learning model for salient facial region detection
WO2018107811A1 (en) Joint defence method and apparatus for network security, and server and storage medium
WO2017007084A1 (en) Topic extraction device and method
WO2020082562A1 (en) Symbol identification method, apparatus, device, and storage medium
WO2020073495A1 (en) Artificial intelligence-based reexamination method, apparatus, and device, and storage medium
WO2018058959A1 (en) Sql auditing method and apparatus, server and storage device
WO2021091022A1 (en) Machine learning system and operating method for machine learning system
WO2014193041A1 (en) System and method for analyzing yield by utilizing sensor data of manufacturing equipment
WO2015129983A1 (en) Device and method for recommending movie on basis of distributed mining of fuzzy association rules
WO2020207038A1 (en) People counting method, apparatus, and device based on facial recognition, and storage medium
WO2022039318A1 (en) Artificial intelligence training method and system using de-identified image data
WO2022019675A1 (en) Symbol analysis device and method included in facility floor plan
WO2022086147A1 (en) Method for training and testing user learning network to be used for recognizing obfuscated data created by obfuscating original data to protect personal information and user learning device and testing device using the same
WO2021012508A1 (en) Ai image recognition method, apparatus and device, and storage medium
WO2021002722A1 (en) Method for perceiving event tagging-based situation and system for same
WO2018236120A1 (en) Method and device for identifying quasispecies by using negative marker
WO2020204219A1 (en) Method for classifying outliers in object recognition learning using artificial intelligence, classification device, and robot
WO2020071618A1 (en) Method and system for entropy-based neural network partial learning
WO2020085558A1 (en) High-speed analysis image processing apparatus and driving method for apparatus
WO2022220354A1 (en) Fish shoal ecosystem monitoring system device for detecting abnormality in fish shoal ecosystem, and method for operation same
WO2019198950A1 (en) Apparatus for providing content information and method therefor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21898465

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21898465

Country of ref document: EP

Kind code of ref document: A1