KR102303111B1 - 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법 - Google Patents

기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법 Download PDF

Info

Publication number
KR102303111B1
KR102303111B1 KR1020190148654A KR20190148654A KR102303111B1 KR 102303111 B1 KR102303111 B1 KR 102303111B1 KR 1020190148654 A KR1020190148654 A KR 1020190148654A KR 20190148654 A KR20190148654 A KR 20190148654A KR 102303111 B1 KR102303111 B1 KR 102303111B1
Authority
KR
South Korea
Prior art keywords
data
learning
quality
traceability
evaluating
Prior art date
Application number
KR1020190148654A
Other languages
English (en)
Other versions
KR20210060978A (ko
Inventor
홍장의
김문현
권용균
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020190148654A priority Critical patent/KR102303111B1/ko
Publication of KR20210060978A publication Critical patent/KR20210060978A/ko
Application granted granted Critical
Publication of KR102303111B1 publication Critical patent/KR102303111B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Stored Programmes (AREA)

Abstract

기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법이 개시되어 있다. 본 발명은, 학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계; 추출한 특성을 토대로 품질요소를 평가하는 단계; 및 각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계;를 포함하는 것을 특징으로 한다.

Description

기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법{Training Data Quality Assessment Technique for Machine Learning-based Software}
본 발명은 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법에 관한 것이다.
최근 컴퓨터 과학 분야에서 인공지능에 대한 연구가 활성화됨에 따라 인간의 학습 체계를 모방한 기계 학습 기법과 관련된 여러 알고리즘이 개발되고 있다. 이에 따라 여러 소프트웨어가 기계 학습 관련된 여러 알고리즘을 채용하고 있다. 기계 학습을 통해 소프트웨어는 과거 및 현재의 데이터로부터 특징 추출 및 일반화를 통하여 미래의 데이터를 예측하는데 사용하고 있다.
학습에 있어서 중요한 것은 여러 가지가 있을 수 있지만 그 중 무엇을 통해 학습을 할 것인가는 중요한 문제이다.
좋은 정보, 올바른 정보를 가지고 학습을 하게 된다면 그 효과는 그렇지 않은 경우보다 학습의 능률도, 결과도 좋을 것이다. 이는 비단 사람에게만 국한된 것이 아니다. 기계 학습에서 있어서 중요한 것 역시 어떤 데이터를 통해 학습하는 가이다. 학습 데이터를 구성(혹은 생성)하는 방법에 있어서는 기존에 여러 방법이 소개 된 바 있지만, 구성된 데이터의 품질을 평가할 수 있는 기준이나 방법은 제시 되지 않았다.
1. 대한민국 등록특허 제10-2005628호(2019.07.24) 2. 대한민국 공개특허 제10-2019-0044814호(2019.05.02)
본 발명의 목적은 새로운 품질 평가 척도 및 방법을 통해서 기계 학습 기반의 소프트웨어의 학습데이터를 효과적으로 평가할 수 있도록 한 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법을 제공하는 데 있다.
상기 목적을 달성하기 위하여, 본 발명에 따른 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법은, 학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계; 추출한 특성을 토대로 품질요소를 평가하는 단계; 및 각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계;를 포함하는 것을 특징으로 한다.
상기 데이터 평가 기준별 데이터 특성을 추출하는 단계는, 데이터 커버리지 관련 특성, 데이터 분포성 관련 특성, 데이터 완전성 관련 특성 및 데이터 중복성 관련 특성을 추출하는 단계를 포함하는 것을 특징으로 한다.
상기 추출한 특성을 토대로 품질요소를 평가하는 단계는, 추출한 상기 특성들을 토대로 데이터 커버리지, 데이터 분포, 데이터 완전성 및 데이터 중복성에 대하여 평가를 수행하는 단계를 포함하는 것을 특징으로 한다.
상기 데이터의 추적성 품질을 도출하는 단계는, 학습 데이터 집합으로 지능 소프트웨어 시스템이 학습을 진행하는 단계; 학습결과가 기준을 만족하는지 확인하는 단계; 입력데이터 관련 특성을 추출하는 단계; 데이터 추적성을 평가하는 단계; 추적성이 존재하는지 판단하는 단계; 및 추적성이 존재한다면 평가결과를 보고하고, 학습데이터를 재구성하는 단계;를 포함하는 것을 특징으로 한다.
상기 데이터 커버리지는 학습하고자 하는 대상에 대한 데이터의 유형을 나타내주는 척도로서, 학습 데이터 커버리지를 산출하는 척도는 하기 식 (1)과 같이 정의하는 것을 특징으로 한다.
Figure 112019118773517-pat00001
식(1)
상기 데이터 분포성은 학습 데이터가 정규 분포를 따르는지 확인하는 척도로서, 데이터의 분포성을 나타내는 척도는 하기 식(2)와 같이 정의하는 것을 특징으로 한다.
Figure 112019118773517-pat00002
식(2)
상기 데이터 완전성은 학습 데이터 집합에 학습하고자 하는 대상의 모든 속성이 포함되어 있는가를 나타내주는 척도로서, 상기 데이터의 완전성에 대한 산정은 식 (3)과 같이 정의하는 것을 특징으로 한다.
Figure 112019118773517-pat00003
식 (3)
상기 데이터의 중복성은 학습 데이터 집합에 중복되는 데이터가 얼마나 포함되어 있는가를 나타내주는 척도로서, 상기 데이터 중복성은 데이터 유사도를 통해 판별할 수 있으며, 하기 식 (4)를 통해 계산할 수 있는 것을 특징으로 한다.
Figure 112019118773517-pat00004
식 (4)
(식 (4)에서 n은 동일 유형에 속하는 학습 데이터의 개수이고, m은 유형의 수이다. 데이터의 유사도 Sim(dj, dji)는 유형 j에 속하는 데이터 dj를 기준으로 유형내의 모든 다른 데이터와의 유사도를 산출한 후, 이들을 합한 값이다.)
상기 추적성은 기계 학습을 진행한 후의 데이터 품질 평가 기준의 척도로서,
상기 추적성은 하기 식(5)로 표현될 수 있으며, 이는 추적성 존재 유무에 대하여 바이너리 값으로 평가되는 것을 특징으로 한다.
Figure 112019118773517-pat00005
식 (5)
(속성 p를 갖는 입력 데이터 Ip와 학습 데이터 집합 DL의 원소중 유사한 속성을 갖는 원소로 매핑(함수 α)된다면 추적성은 1의 값을 그렇지 않은 경우는 0을 값으로 평가된다. 추적성의 값이 0으로 나타나는 경우는 학습 모델에 수정이 필요하게 된다.)
본 발명을 통해 얻을 수 있는 효과는 다음과 같다.
본 발명에 따르면, 기존에 고려되지 않았던 학습 데이터에 대한 품질 기준을 제시함으로써, 해당 분야에 새로운 기술을 적용할 수 있는 장점이 있다.
본 발명에 따르면, 기계 학습을 사용하는 애플리케이션의 학습 데이터의 수집 및 생성 과정에서 제시하는 품질 평가 기준을 고려하여 필요한 데이터만을 선택, 수집할 수 있는 장점이 있다.
본 발명에 따르면, 기계 학습에 사용되는 학습 데이터의 품질을 높임으로써 학습의 효과를 높이고 궁극적으로 어플리케이션의 성능 향상에 기여할 수 있다.
도 1은 본 발명에 따른 학습 데이터 품질 평가 프로세스를 도시한 도면이다.
도 2는 도 1의 개략적인 과정을 세부적인 프로세스로 나누어 설명한 도면이다.
도 3은 본 발명에 따라서 만족하는 품질을 가진 학습 데이터를 통해 기계 학습 기반의 소프트웨어 학습을 진행했을 때의 결과를 토대로 데이터의 추적성 품질을 도출하는 프로세스를 설명한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법에 대하여 상세히 설명한다.
본 발명에서 제시하고자 하는 것은 기계 학습 기반의 소프트웨어를 학습시키기 위한 학습 데이터의 품질을 평가하는 기준이다. 이러한 기준을 활용하여 기계학습 기반의 소프트웨어에 사용되는 학습의 데이터의 품질을 보장하고 궁극적으로 소프트웨어의 성능을 높이는데 기여할 수 있다.
도 1은 본 발명에 따른 학습 데이터 품질 평가 프로세스를 도시한 도면이다.
도 1에 도시된 바와 같이, 데이터의 품질을 평가하는 전체적인 프로세스를 보여준다. 먼저 학습데이터로 사용될 데이터를 입력 데이터로 사용하고 입력된 데이터들을 토대로 본 발명에서 제시하는 데이터 평가 기준 별 데이터 특성을 추출하는 과정과 추출한 특성을 토대로 품질요소를 평가하는 두 과정으로 이루어진다. 각 품질 요소의 평가 결과들을 종합해 데이터의 품질을 평가할 수 있는 척도를 확인 할 수 있다. 학습데이터에 대한 평가를 진행한 사용자는 학습 데이터를 그대로 사용할지 아니면 다시 구성할지 결정하는데 있어서 해당 결과를 토대로 결정할 수 있는 것이다.
도 2는 도 1의 개략적인 과정을 세부적인 프로세스로 나누어 설명한 도면이고, 도 3은 본 발명에 따라서 만족하는 품질을 가진 학습 데이터를 통해 기계 학습 기반의 소프트웨어 학습을 진행했을 때의 결과를 토대로 데이터의 추적성 품질을 도출하는 프로세스를 설명한 도면이다.
도 2에서는 본 발명에서 제시하는 사전 데이터 평가 기준인 4가지의 데이터 품질 평가 기준을 명시한다. 해당 데이터 품질 항목을 평가하기 위해 학습데이터에서 특성을 추출하고 추출한 특성들을 토대로 수치화된 척도를 계산한다. 사용자는 4가지 항목들에서 계산된 척도들이 기준에 만족하는 수치인지 판단하고 학습데이터를 재구성할지 결정한다. 만약 만족하는 수치가 나왔다면 해당 데이터 집합을 가지고 기계학습 기반 소프트웨어의 학습을 진행한다.
도 2 및 도 3에 도시된 바와 같이, 본 발명에서는 학습 데이터 품질 평가 기준으로 (1) 데이터 커버리지, (2) 데이터 분포성, (3) 데이터 완전성, (4) 데이터 중복성, 그리고 (5) 데이터 추적성 총 5가지의 척도를 제시한다. 이 중 데이터 추적성 평가 기준은 사후 데이터 품질 평가 기준으로, 나머지 4가지 기준은 사전 데이터 품질 평가 기준척도로 삼는다.
여기서 말하는 사전과 사후의 기준점은 기계 학습을 진행하기 전인지, 혹은 학습을 진행한 후인지로 나눈다. 각각의 데이터 평가 기준에 대해서는 다음과 같다.
1. 데이터 커버리지(Data coverage)
데이터 커버리지는 학습하고자 하는 대상에 대한 데이터의 유형을 나타내주는 척도이다.
이 척도를 산정하기 위해서는 데이터의 유형이 사전에 정의되어야 한다. 일반적으로는 데이터의 분류는 크게 정상 데이터(Valid data)와 비정상 데이터(Invalid data)로 분류할 수 있다. 본 특허에서는 이를 좀 더 세분화하여 정상 범주의 데이터를 원본 데이터(Original Data), 유사 데이터(Similar Data), 변형 데이터(Transformed Data)로 구분하며, 비정상 데이터에는 왜곡 데이터(Distorted Data), 오류 데이터(Adversarial Data)로 구분한다. 이와 같은 데이터 유형의 분류는 지능 소프트웨어의 응용 영역에 대하여 추가 또는 삭제될 수 있다. 다만 학습 데이터의 유형이 사전 정의되어야 한다.
데이터 커버리지는 이러한 세분화된 학습 데이터의 유형에 적어도 하나 이상의 데이터가 존재해야 한다는 것이다. 제시한 5가지 유형에 각각 적어도 하나 이상의 데이터가 존재한다면 구성된 데이터는 모든 데이터 유형을 커버한다고 할 수 있다. 학습 데이터 커버리지를 산출하는 척도는 식 (1)과 같이 정의 한다.
Figure 112019118773517-pat00006
식(1)
식 (1)에서 정의한 것처럼 데이터 커버리지는 데이터가 하나라도 존재하는 유형의 수를 전체 유형의 수로 나눈 것의 백분율로 표현한다. 예를 들어 한 이미지 분류기에서 사전에 정의된 데이터의 유형이 5가지이고, 준비된 학습 데이터의 유형이 3가지 일 때, 학습 데이터 커버리지는 60%의 데이터 커버리지를 갖는다.
2. 데이터의 분포성(Data distribution)
데이터 분포성은 학습 데이터가 정규 분포를 따르는지 확인하는 척도이다.
자연의 데이터는 대부분 정규 분포를 이루지만 학습 데이터를 수집할 때 그 수가 충분하지 않거나 편향된 데이터를 수집하는 경우 정규분포를 따르지 않게 된다. 학습 데이터도 정규 분포를 형성해야 기계 학습 기반의 소프트웨어를 학습시킬 때 좋은 성능을 기대할 수 있다. 따라서 학습시키기 전에 데이터의 정규 분포를 먼저 확인하고 데이터를 다시 구성할지 학습을 진행할지 판단 할 수 있다. 데이터의 분포성을 나타내는 척도를 원본 데이터로 부터의 거리를 기준으로 산정하는 표준 편차로 정의 하였다. 이는 일본적인 통계 분석에서 정의하는 방법과 동일하게 식(2)와 같이 표현되었다.
Figure 112019118773517-pat00007
식(2)
본 특허에서는 학습의 효과를 높이기 위하여 구성된 학습 데이터가 표준 정규 분포를 따르도록 정의한다. 이는 원본 데이터(중앙값)를 중심으로 학습 데이터가 표준 정규분포를 따를 때, 여러 측면의 데이터 유형에 대한 학습 효과가 나타날 수 있기 때문이다. 따라서 데이터 분산성은 표준 편차의 값이 1에 가까을수록 좋다고 할 수 있으며, 유의 수준은 95%로 정의 한다.
3. 데이터의 완전성(Data completeness)
데이터 완전성은 학습 데이터 집합에 학습하고자 하는 대상의 모든 속성이 포함되어 있는가를 나타내주는 척도이다.
이 척도를 산정하기 위해서는 먼저 사용자는 학습하고자 하는 대상을 선정한다. 단순 이진 분류기라면 두 개의 대상에 대한 학습만 진행하면 되지만, 더 높은 차원의 분류기라면 여러 학습 대상을 선정한다. 이후 선정한 대상들에 대해 구조적인 특성을 분류하여 포함되어야 할 속성들을 나눈다. 나눈 기준들을 토대로 학습 데이터 집합에 해당 속성을 나타낼 수 있는 데이터들이 포함되어 있는가를 판단하여 척도를 계산한다. 데이터의 완전성에 대한 산정은 식 (3)과 같이 정의 한다.
Figure 112019118773517-pat00008
식 (3)
예를 들어, 이미지를 통한 물체 인식의 경우 하나의 물체를 표현하기 위한 다양한 구조적 형상을 기준으로 삼아 전체적인 속성의 수가 정해진다. 보다 상세히, 사람의 경우를 살펴보면 두 발, 두 손, 가슴, 등, 골반(엉덩이), 머리, 눈, 코, 입, 귀와 같은 속성을 식별할 수 있으며, 학습 데이터 전체로부터 이러한 속성이 누락 없이 모두 포함되어 있는 가를 확인하는 것이 학습 데이터의 완전성 속성이다. 만약 사람의 속성으로 정의된 엉덩이가 학습 데이터에서 누락된 경우, 엉덩이만 찍은 사진이 입력되었을 때, 이를 사람의 일부로 판단할 수 없게 된다.
4. 데이터 중복성(Data redundency)
데이터의 중복성은 학습 데이터 집합에 중복되는 데이터가 얼마나 포함되어 있는가를 나타내주는 척도이다.
학습에 있어서 데이터가 중복되는 데이터가 많이 포함되어 있다면 이미 학습한 데이터를 다시 반복 학습하는 의미 없는 과정을 거치게 되어 학습 효율측면에서 좋지 못한 영향을 미친다. 데이터에서 완전히 똑같은 데이터는 포함될 확률이 적지만 거의 유사한 데이터가 포함될 수 있는 확률이 있다. 이를 방지하기 위해 먼저 학습 대상의 속성을 가장 잘 보여주는 혹은 반드시 학습해야 하는 속성을 지닌 데이터들을 선별하여 데이터 유형이 같은 것 끼리 집합을 구성한다. 여기서 같은 데이터 유형 집합이라는 것은 첫 번째 소개했던 데이터 커버리지 기준에서 나누었던 데이터 유형별 집합을 말하며 같은 기댓값을 가지는 집합을 의미한다. 이후 비교하고자 하는 데이터와 선별한 데이터 집합에 속한 데이터들을 비교하여 유사도를 측정한다. 유사도를 측정하는 방법에는 유클리디언 거리계산, 민코프스키 거리, 코사인 유사도 측정 방법 등이 있고, 응용 영역에 따라 적절한 계산법을 선정하여 산출한다. 데이터 중복성은 데이터 유사도를 통해 판별할 수 있으며 다음의 식 (4)를 통해 계산할 수 있다.
Figure 112019118773517-pat00009
식 (4)
식 (4)에서 n은 동일 유형에 속하는 학습 데이터의 개수이고, m은 유형의 수이다. 데이터의 유사도 Sim(dj, dji)는 유형 j에 속하는 데이터 dj를 기준으로 유형내의 모든 다른 데이터와의 유사도를 산출한 후, 이들을 합한 값이다. 이를 전체 학습 데이터의 개수로 나누면 데이터이 중복성을 나타내는 척도가 된다. 산출된 데이터 중복성 값이 특정 임계치 보다 높게 산정되면, 유사도가 가장 높은 값을 가진 데이터부터 삭제하고, 데이터를 재 구성해야 한다.
5. 데이터 추적성(Data Traceability)
데이터 추적성은 학습 데이터 집합으로 지능 소프트웨어 시스템이 학습을 진행 한 후, 새로운 입력 데이터에 대하여 예상 결과와 다른 결과를 보여주었을 때 어떤 데이터가 학습의 성능을 낮추는지 확인(추적)할 수 있는 척도를 말한다. 즉 올바른 데이터가 입력되는 경우 올바른 결과를 내야 하고, 올바르지 못한 데이터가 입력되는 경우, 올바르지 못하다는 결과를 제시해야 한다. 그런데 올바르지 않은 데이터를 입력하였음에도 불구하고 올바르다고 판단하는 경우(false positive), 학습 데이터에 문제가 있음을 예상할 수 있으며, 이로 인해 어떤 학습 데이터로부터 이러한 결과가 발생하는지 그 원인을 추적할 수 있어야 한다.
앞서 설명한 네 가지의 학습 데이터 품질 평가 척도와 달리 이 품질은 사후 데이터 품질 평가 기준의 척도로 삼는다. 즉, 기계 학습 기반의 소프트웨어를 학습시켰을 때 다음과 같은 두가지의 경우가 발생하면 데이터 추적성을 평가해야 한다.
(1) 올바른 입력 데이터에 대한 잘못된 결과(false positive) : 이 경우에는 올바른 데이터에 대한 학습의 부족으로 인한 결과이다. 따라서 입력 데이터와 유사도가 높은 데이터를 추가로 생성하여 학습 데이터에 포함시켜야 한다.
(2) 올바르지 못한 입력 데이터에 대한 올바른 결과(false negative) : 이 경우는 학습의 오류에 해당되며, 올바르지 못한 입력 데이터와 유사도가 높은 학습 데이터를 제거해야 한다.
학습 데이터에 대한 추적성은 다음과 같이 식 (5)로 표현될 수 있으며, 이는 추적성 존재 유무에 대하여 바이너리 값으로 평가된다.
Figure 112019118773517-pat00010
식 (5)
즉, 속성 p를 갖는 입력 데이터 Ip와 학습 데이터 집합 DL의 원소중 유사한 속성을 갖는 원소로 매핑(함수 α)된다면 추적성은 1의 값을 그렇지 않은 경우는 0을 값으로 평가된다. 추적성의 값이 0으로 나타나는 경우는 학습 모델에 수정이 필요하게 된다.
이하, 본 발명에 따른 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법을 상세히 설명한다.
도 1 내지 도 3을 참조하면, 학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계, 추출한 특성을 토대로 품질요소를 평가하는 단계 및 각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계를 포함한다.
상기 학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계는, 데이터 커버리지 관련 특성, 데이터 분포 관련 특성, 데이터 완전성 관련 특성 및 데이터 중복성 관련 특성을 추출한다.
그리고, 상기 추출한 특성을 토대로 품질요소를 평가하는 단계는, 추출한 상기 특성들을 토대로 데이터 커버리지, 데이터 분포성, 데이터 완전성 및 데이터 중복성에 대하여 평가를 수행한다.
상기 평가 수행이 기준을 만족한다면 평가 척도를 보고하고, 기준을 만족하지 못한다면 기준미달 평가 척도를 보고하고 학습데이터를 수정 및 재구성하여, 수정된 학습데이트의 품질을 다시 평가한다.
이후에, 각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계는 다음과 같은 프로세스를 포함한다.
1) 학습 데이터 집합으로 지능 소프트웨어 시스템이 학습을 진행하는 단계
2) 학습결과가 기준을 만족하는지 확인하는 단계
만족한다면 프로세스를 종료한다.
3) 입력데이터 관련 특성을 추출하는 단계
기계학습을 통해 사용자가 기대했던 성능을 보여주지 못하는 경우에는 데이터 추적성에 대한 품질 평가를 진행한다. 예를 들어, 올바른 데이터가 입력되는 경우 올바른 결과를 내야 하고, 올바르지 못한 데이터가 입력되는 경우, 올바르지 못하다는 결과를 제시해야 한다. 그런데 올바르지 않은 데이터를 입력하였음에도 불구하고 올바르다고 판단하는 경우(false positive), 학습 데이터에 문제가 있음을 예상할 수 있다.
4) 데이터 추적성을 평가하는 단계
기계 학습 기반의 소프트웨어를 학습시켰을 때 다음과 같은 두가지의 경우가 발생하면 데이터 추적성을 평가해야 한다.
a) 올바른 입력 데이터에 대한 잘못된 결과(false positive) : 이 경우에는 올바른 데이터에 대한 학습의 부족으로 인한 결과이다. 따라서 입력 데이터와 유사도가 높은 데이터를 추가로 생성하여 학습 데이터에 포함시켜야 한다.
b) 올바르지 못한 입력 데이터에 대한 올바른 결과(false negative) : 이 경우는 학습의 오류에 해당되며, 올바르지 못한 입력 데이터와 유사도가 높은 학습 데이터를 제거해야 한다.
5) 추적성이 존재하는지 판단하는 단계
추적성이 존재한다면 평가결과를 보고하고, 학습데이터를 재구성한다.
추적성이 존재하지 않는다면 학습모델을 개선하고 종료한다.
본 발명에 따른 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법은 다음과 같은 용도로 활용될 수 있다.
기계 학습 기반의 소프트웨어를 내장한 자율주행자동차, 지능 로봇 등을 개발하 때, 시스템의 올바른 동작을 제공하기 위해서는 적합한 학습 데이터가 필요하다. 따라서 이러한 기계학습 기반의 제어 소프트웨어 개발시 필요한 학습 데이터의 품질을 평가할 수 있다.
또한, 본 발명에 따르면, 기계 학습 기반의 소프트웨어에 대한 학습 데이터를 구성할 때, 제안하는 품질 평가 기준을 활용하여 적합한 학습 데이터 개발, 생성할 수 있다.
이상 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명하다.

Claims (9)

  1. 컴퓨팅 장치에 의해 각 단계가 수행되는 기계학습 기반 소프트웨어의 학습 데이터 품질 평가 방법에 있어서,
    학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계;
    추출한 특성을 토대로 품질요소를 평가하는 단계; 및
    각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계;를 포함하고,
    상기 데이터의 추적성 품질을 도출하는 단계는,
    학습 데이터 집합으로 지능 소프트웨어 시스템이 학습을 진행하는 단계;
    학습결과가 기준을 만족하는지 확인하는 단계;
    입력데이터 관련 특성을 추출하는 단계;
    데이터 추적성을 평가하는 단계;
    추적성이 존재하는지 판단하는 단계; 및
    추적성이 존재한다면 평가결과를 보고하고, 학습데이터를 재구성하는 단계;를 포함하는 것을 특징으로 하는 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 추출한 특성을 토대로 품질요소를 평가하는 단계는,
    추출한 상기 특성들을 토대로 데이터 커버리지, 데이터 분포, 데이터 완전성 및 데이터 중복성에 대하여 평가를 수행하는 단계를 포함하는 것을 특징으로 하는 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법.
  4. 삭제
  5. 컴퓨팅 장치에 의해 각 단계가 수행되는 기계학습 기반 소프트웨어의 학습 데이터 품질 평가 방법에 있어서,
    학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계;
    추출한 특성을 토대로 품질요소를 평가하는 단계; 및
    각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계;를 포함하고,
    상기 데이터 평가 기준별 데이터 특성을 추출하는 단계는,
    데이터 커버리지 관련 특성, 데이터 분포성 관련 특성, 데이터 완전성 관련 특성 및 데이터 중복성 관련 특성을 추출하는 단계를 포함하고,
    상기 데이터 커버리지는 학습하고자 하는 대상에 대한 데이터의 유형을 나타내주는 척도로서,
    학습 데이터 커버리지를 산출하는 척도는 하기 식 (1)과 같이 정의하는 것을 특징으로 하는 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법.

    Figure 112021014586595-pat00011
    식(1)
  6. 컴퓨팅 장치에 의해 각 단계가 수행되는 기계학습 기반 소프트웨어의 학습 데이터 품질 평가 방법에 있어서,
    학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계;
    추출한 특성을 토대로 품질요소를 평가하는 단계; 및
    각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계;를 포함하고,
    상기 데이터 평가 기준별 데이터 특성을 추출하는 단계는,
    데이터 커버리지 관련 특성, 데이터 분포성 관련 특성, 데이터 완전성 관련 특성 및 데이터 중복성 관련 특성을 추출하는 단계를 포함하고,
    상기 데이터 분포성은 학습 데이터가 정규 분포를 따르는지 확인하는 척도로서,
    데이터의 분포성을 나타내는 척도는 하기 식(2)와 같이 정의하는 것을 특징으로 하는 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법.

    Figure 112021014586595-pat00012
    식(2)
  7. 컴퓨팅 장치에 의해 각 단계가 수행되는 기계학습 기반 소프트웨어의 학습 데이터 품질 평가 방법에 있어서,
    학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계;
    추출한 특성을 토대로 품질요소를 평가하는 단계; 및
    각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계;를 포함하고,
    상기 데이터 평가 기준별 데이터 특성을 추출하는 단계는,
    데이터 커버리지 관련 특성, 데이터 분포성 관련 특성, 데이터 완전성 관련 특성 및 데이터 중복성 관련 특성을 추출하는 단계를 포함하고,
    상기 데이터 완전성은 학습 데이터 집합에 학습하고자 하는 대상의 모든 속성이 포함되어 있는가를 나타내주는 척도로서,
    상기 데이터의 완전성에 대한 산정은 식 (3)과 같이 정의하는 것을 특징으로 하는 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법.

    Figure 112021014586595-pat00013
    식 (3)
  8. 컴퓨팅 장치에 의해 각 단계가 수행되는 기계학습 기반 소프트웨어의 학습 데이터 품질 평가 방법에 있어서,
    학습데이터로 사용될 입력 데이터를 토대로 데이터 평가 기준별 데이터 특성을 추출하는 단계;
    추출한 특성을 토대로 품질요소를 평가하는 단계; 및
    각각의 품질요소의 평가 결과들을 종합해 데이터의 추적성 품질을 도출하는 단계;를 포함하고,
    상기 데이터 평가 기준별 데이터 특성을 추출하는 단계는,
    데이터 커버리지 관련 특성, 데이터 분포성 관련 특성, 데이터 완전성 관련 특성 및 데이터 중복성 관련 특성을 추출하는 단계를 포함하고,
    상기 데이터의 중복성은 학습 데이터 집합에 중복되는 데이터가 얼마나 포함되어 있는가를 나타내주는 척도로서,
    상기 데이터 중복성은 데이터 유사도를 통해 판별할 수 있으며, 하기 식 (4)를 통해 계산할 수 있는 것을 특징으로 하는 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법.

    Figure 112021014586595-pat00014
    식 (4)

    (식 (4)에서 n은 동일 유형에 속하는 학습 데이터의 개수이고, m은 유형의 수이다. 데이터의 유사도 Sim(dj, dji)는 유형 j에 속하는 데이터 dj를 기준으로 유형내의 모든 다른 데이터와의 유사도를 산출한 후, 이들을 합한 값이다.)
  9. 제1항에 있어서,
    상기 추적성은 기계 학습을 진행한 후의 데이터 품질 평가 기준의 척도로서,
    상기 추적성은 하기 식(5)로 표현될 수 있으며, 이는 추적성 존재 유무에 대하여 바이너리 값으로 평가되는 것을 특징으로 하는 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법.

    Figure 112021014586595-pat00015
    식 (5)

    (속성 p를 갖는 입력 데이터 Ip와 학습 데이터 집합 DL의 원소중 유사한 속성을 갖는 원소로 매핑(함수 α)된다면 추적성은 1의 값을 그렇지 않은 경우는 0을 값으로 평가된다. 추적성의 값이 0으로 나타나는 경우는 학습 모델에 수정이 필요하게 된다.)
KR1020190148654A 2019-11-19 2019-11-19 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법 KR102303111B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190148654A KR102303111B1 (ko) 2019-11-19 2019-11-19 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190148654A KR102303111B1 (ko) 2019-11-19 2019-11-19 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법

Publications (2)

Publication Number Publication Date
KR20210060978A KR20210060978A (ko) 2021-05-27
KR102303111B1 true KR102303111B1 (ko) 2021-09-17

Family

ID=76135681

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190148654A KR102303111B1 (ko) 2019-11-19 2019-11-19 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법

Country Status (1)

Country Link
KR (1) KR102303111B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273552B (zh) * 2023-11-22 2024-02-13 山东顺国电子科技有限公司 一种基于机器学习的大数据智能治理决策方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102077804B1 (ko) 2017-04-26 2020-04-07 김정희 학습 데이터 전처리 방법 및 시스템
KR20190044814A (ko) 2017-10-23 2019-05-02 (주)인스페이스 딥러닝 학습을 위한 데이터 생성 및 자료 구축 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"분류성능평가지표 - Precision(정밀도), Recall(재현율) and Accuracy(정확도)", https://sumniya.tistory.com/26, 2018.11.05.*
"유엔의 빅데이터 품질검증 기준과 시사점- 빅데이터의 국가통계 활용을 중심으로", 보건복지포럼 2016년 11월 통권 제241호(pp. 110-121), 2016.11.01.

Also Published As

Publication number Publication date
KR20210060978A (ko) 2021-05-27

Similar Documents

Publication Publication Date Title
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
US8923608B2 (en) Pre-screening training data for classifiers
CN105426356A (zh) 一种目标信息识别方法和装置
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
Singh et al. Melford: Using neural networks to find spreadsheet errors
CN109615080B (zh) 无监督模型评估方法、装置、服务器及可读存储介质
Ordoñez et al. Explaining decisions of deep neural networks used for fish age prediction
CN114913923A (zh) 针对单细胞染色质开放性测序数据的细胞类型识别方法
KR102303111B1 (ko) 기계학습 기반 소프트웨어의 학습데이터 품질 평가 방법
CN111860118A (zh) 一种基于人工智能的人体行为分析方法
Yuan et al. Unveiling hidden dnn defects with decision-based metamorphic testing
CN112818946A (zh) 年龄识别模型的训练、年龄识别方法、装置及电子设备
JP2019158684A (ja) 検査システム、識別システム、及び識別器評価装置
CN116778579A (zh) 多人姿态的识别方法、装置、存储介质及电子设备
CN116502705A (zh) 兼用域内外数据集的知识蒸馏方法和计算机设备
CN113240213B (zh) 基于神经网络和树模型的人员甄选方法、装置及设备
CN114612246A (zh) 对象集合识别方法、装置、计算机设备及存储介质
CN113743293A (zh) 跌倒行为检测方法、装置、电子设备及存储介质
CN111353553A (zh) 清洗错误标注数据的方法、装置、计算机设备及存储介质
Braune et al. Behavioral clustering for point processes
CN107844758A (zh) 智能预审片方法、计算机设备以及可读存储介质
Reddy et al. A Novel Model Using Multiple Bagging Ensemble Method For Measuring, Inferring and Predicting the Quality of Continuous Assessment Question Papers
CN111553418B (zh) 神经元重建错误的检测方法、装置和计算机设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right