KR102408655B1 - 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법 - Google Patents

수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법 Download PDF

Info

Publication number
KR102408655B1
KR102408655B1 KR1020210150649A KR20210150649A KR102408655B1 KR 102408655 B1 KR102408655 B1 KR 102408655B1 KR 1020210150649 A KR1020210150649 A KR 1020210150649A KR 20210150649 A KR20210150649 A KR 20210150649A KR 102408655 B1 KR102408655 B1 KR 102408655B1
Authority
KR
South Korea
Prior art keywords
variable
categorical
learning
numeric
missing
Prior art date
Application number
KR1020210150649A
Other languages
English (en)
Inventor
김한준
이도훈
Original Assignee
서울시립대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울시립대학교 산학협력단 filed Critical 서울시립대학교 산학협력단
Priority to KR1020210150649A priority Critical patent/KR102408655B1/ko
Application granted granted Critical
Publication of KR102408655B1 publication Critical patent/KR102408655B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Complex Calculations (AREA)

Abstract

수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치는 디노이징 셀프 어텐션 네트워크를 저장하는 저장부 및 수치형 변수 중 일부가 결측값을 포함하고, 범주형 변수 중 일부가 결측값을 포함하는 혼합형 결측 데이터를 디노이징 셀프 어텐션 네트워크에 입력하여 수치형 변수의 결측값을 복원하고, 범주형 변수의 결측값을 복원하는 보간부를 포함하고, 디노이징 셀프 어텐션 네트워크는 수치형 변수, 수치형 변수를 이산화한 수치형 변수 및 범주형 변수에 대한 임베딩 특징 벡터를 도출하는 특징 표현 레이어, 수치형 변수, 이산화한 수치형 변수 및 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 수치형 변수의 결측값 및 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출하는 공유 레이어 및 수치형 변수, 이산화한 수치형 변수 및 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 수치형 변수의 결측값 및 범주형 변수의 결측값을 복원하는데 필요한 각 변수별 개별 파라미터를 도출하는 태스크 개별 레이어를 포함할 수 있다.

Description

수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법{APPARATUS AND METHOD FOR PERPORMING DATA IMPUTATION FOR MIXED-TYPE MISSING DATA INCLUDING NUMERIC VARIABLE AND CATEGORICAL VARIABLE}
본 발명은 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법에 관한 것이다.
빅데이터 시대가 도래하면서 데이터 기반 의사결정 기술은 데이터 산업을 위한 핵심 기술로 자리잡고 있다. 이를 위한 데이터 기반 의사결정 기술로서 머신러닝 기술이 이용된다.
머신러닝 기술은 주어진 학습용 결측 데이터를 학습하여 미래를 예측하거나 특정 상황을 분류하는 예측 모델을 생성하는 기술이다. 이러한 머신러닝 기술을 통한 고성능 예측 모델을 생성하기 위해서는 고품질의 학습용 결측 데이터가 필요하다.
하지만, 학습용 결측 데이터에 이용되는 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 있고, 이러한 학습용 결측 데이터에 기초하여 학습되는 예측 모델의 성능을 떨어뜨린다.
결측값은 정보 손실을 야기하여 분석에 대한 신뢰성 하락과 예측 모델의 성능 하락의 주요 원인이 된다. 이를 극복하기 위해, 최근에는 학습용 결측 데이터에 내제된 결측값을 보간하는 기법이 활발히 연구되고 있다.
데이터 보간 기법은 결측값을 대체값으로 채워 넣기 위해 통계 또는 머신 러닝 기법을 사용하는 프로세스를 말한다. 일반적으로, 통계 기반의 데이터 보간 기법은 평균값, 최빈값과 같은 기술 통계량을 대체값으로 사용하거나 회귀 모델을 통해 적절한 대체값을 예측하여 사용한다. 이러한 통계 기반의 데이터 보간 기법은 쉽고 빠르게 적용할 수 있는 장점이 있는 반면, 데이터의 크기가 커지고 복잡해질수록 유효성이 떨어지는 단점이 존재한다.
이를 보완하기 위해 머신러닝(예컨대, k-NN, SVM, Random Forest, 인공 신경망 등) 기반의 데이터 보간 기법들이 연구되고 있다.
머신러닝 기반의 데이터 보간 기법은 결측값이 존재하는 변수의 관측값을 기반으로 대체값을 추정하는 형태가 일반적이다. 대표적인 머신러닝 기반의 데이터 보간 기법인 MissForest은 각 관측 변수를 이용하여 결측 변수별로 Random Forest를 피팅하여 대체값을 예측한다. 인공 신경망 기반의 데이터 보간 기법의 경우, GAIN, HIVAE와 같은 생성 모델을 이용하여 결측값에 대한 대체값을 생성한다. 하지만 이러한 생성 모델의 경우, 범주형 변수에 대한 대체값을 생성하지 못하며, 범주형 변수가 혼합되어 있는 테이블 데이터에 있어 데이터를 정제하지 못하는 한계가 있다.
한편, 어텐션 메커니즘은 인공신경망 분야에서 최근 활발하게 연구되고 있는 중요한 기법이다. 어텐션 메커니즘은 자연어 처리 분야에서 시작하여 컴퓨터 비전, 정형 데이터 등의 거의 대부분의 인공신경망 응용 분야에 적용되고 있다.
한국공개특허공보 제2021-0065751호 (2021.06.04. 공개)
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대하여 디노이징 셀프 어텐션 네트워크를 통해 수치형 변수의 결측값을 복원하고, 범주형 변수의 결측값을 복원하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치는 디노이징 셀프 어텐션 네트워크를 저장하는 저장부; 및 상기 수치형 변수 중 일부가 결측값을 포함하고, 상기 범주형 변수 중 일부가 결측값을 포함하는 상기 혼합형 결측 데이터를 디노이징 셀프 어텐션 네트워크에 입력하여 상기 수치형 변수의 결측값을 복원하고, 상기 범주형 변수의 결측값을 복원하는 보간부를 포함하고, 상기 디노이징 셀프 어텐션 네트워크는, 상기 수치형 변수, 상기 수치형 변수를 이산화한 수치형 변수 및 상기 범주형 변수에 대한 임베딩 특징 벡터를 도출하는 특징 표현 레이어; 상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출하는 공유 레이어; 및 상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 각 변수별 개별 파라미터를 도출하는 태스크 개별 레이어를 포함할 수 있다.
본 발명의 다른 측면에 따른 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 방법은 디노이징 셀프 어텐션 네트워크를 저장하는 단계 및 상기 수치형 변수 중 일부가 결측값을 포함하고, 상기 범주형 변수 중 일부가 결측값을 포함하는 상기 혼합형 결측 데이터를 디노이징 셀프 어텐션 네트워크에 입력하여 상기 수치형 변수의 결측값을 복원하고, 상기 범주형 변수의 결측값을 복원하는 단계를 포함하고, 상기 디노이징 셀프 어텐션 네트워크는, 상기 수치형 변수, 상기 수치형 변수를 이산화한 수치형 변수 및 상기 범주형 변수에 대한 임베딩 특징 벡터를 도출하는 특징 표현 레이어; 상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출하는 공유 레이어; 및 상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 각 변수별 개별 파라미터를 도출하는 태스크 개별 레이어를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 본 발명은 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대하여 디노이징 셀프 어텐션 네트워크를 통해 수치형 변수의 결측값을 복원하고, 범주형 변수의 결측값을 복원할 수 있다.
이를 통해, 본 발명은 특징 표현 레이어가 구현된 디노이징 셀프 어텐션 네트워크를 통해 각 변수의 유형에 따른 임베딩 특징 벡터를 도출하고, 이를 기반으로 각 변수의 특성에 맞게 각 변수의 결측값을 복원할 수 있다.
또한, 본 발명은 정제하고자 하는 혼합형 결측 데이터의 크기가 커지더라도 데이터의 정제 성능을 향상시킬 수 있고, 고품질의 데이터를 확보 가능하도록 할 수 있다.
도 1은 데이터 보간을 위한 디노이징 기법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른, 데이터 보간 수행 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른, 디노이징 셀프 어텐션 네트워크를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 혼합형 결측 데이터 및 결측이 복원된 정제 데이터를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른, 데이터 보간 수행 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
본 발명은 데이터 보간을 위한 디노이징(Denosing) 기법을 이용한다. 디노이징 기법은 입력 데이터에 일부 손상을 주어 학습함으로써 견고한 특징 표현을 얻는 기법이다. 이러한 학습 방식을 통해 학습한 오토인코더를 디노이징 오토인코더(Denosing AutoEncoder)라고 하며, 일반적인 오토인코더보다 더 좋은 성능을 갖는다. 디노이징 오토인코더의 학습원리는 도 1과 같이 결측값이 포함된 입력 데이터(
Figure 112021127333556-pat00001
)을 입력값으로 받고, 입력 데이터(
Figure 112021127333556-pat00002
)의 결측값을 복원하도록 학습한다.
도 2는 본 발명의 일 실시예에 따른, 데이터 보간 수행 장치의 블록도이다.
도 2를 참조하면, 데이터 보간 수행 장치(100)는 저장부(200), 보간부(210) 및 학습부(220)를 포함할 수 있다. 다만, 도 2에 도시된 데이터 보간 수행 장치(100)는 본 발명의 하나의 구현 예에 불과하며, 도 2에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.
이하에서는 도 3 및 도 4를 함께 참조하여 도 2를 설명하기로 한다.
저장부(200)는 디노이징 셀프 어텐션 네트워크(30)를 저장할 수 있다. 여기서, 디노이징 셀프 어텐션 네트워크(30)는 혼합형 결측 데이터(수치형 변수 및 범주형 변수를 포함)에 대한 데이터 보간을 수행하는 네트워크이다.
디노이징 셀프 어텐션 네트워크(30)는 멀티 태스크 러닝기법을 이용하여 혼합형 결측 데이터를 복원하는 복수의 레이어를 포함할 수 있다. 구체적으로, 디노이징 셀프 어텐션 네트워크(30)는 특징 표현 레이어(301), 공유 레이어(305) 및 태스크 개별 레이어(307-1, 307-3, 307-5)를 포함할 수 있다.
학습부(220)는 디노이징 셀프 어텐션 네트워크(30)가 입력되는 혼합형 결측 데이터(40, 수치형 변수 및 범주형 변수를 포함)의 결측값을 복원하여 이를 완전한 데이터(42)로 정제시키도록 디노이징 셀프 어텐션 네트워크(30)를 학습시킬 수 있다.
이를 위해, 학습부(220)는 학습 수치형 변수 및 학습 범주형 변수를 포함하는 학습용 결측 데이터에 대하여 특징 표현 레이어(301)가 학습 수치형 변수에 대한 임베딩 특징 벡터를 도출하고, 학습 수치형 변수를 이산화한(discretize) 학습 수치형 변수에 대한 임베딩 특징 벡터를 도출하고, 학습 범주형 변수에 대한 임베딩 특징 벡터를 도출하도록 특징 표현 레이어(301)를 학습시킬 수 있다.
학습 수치형 변수를 이산화하는 과정에서 일부 정보가 손실되기 때문에 이를 보완하기 위해 학습부(220)는 이산화하지 않은 학습 수치형 변수를 특징 표현 레이어(301)에 포함된 FC(Fully Connected) 유닛에 입력하여, 학습 수치형 변수에 대한 정보를 유지하도록 FC 유닛을 학습시킬 수 있다. 여기서, FC 유닛은 FC 레이어, 레이어 정규화(Layer Normalization), ReLU로 구성되고, 이 후, 이어지는 공유 레이어(305) 및 태스크 개별 레이어(307-1, 307-3, 307-5)에서도 활용된다.
이산화한 학습 수치형 변수에 대한 임베딩 특징 벡터 및 학습 범주형 변수에 대한 임베딩 특징 벡터는 특징 표현 레이어(301)에 포함된 셀프 어텐션 레이어(303)으로 입력될 수 있다.
학습부(220)는 특징 표현 레이어(301)에 포함된 셀프 어텐션 레이어(303)가 이산화한 학습 수치형 변수에 대한 임베딩 특징 벡터 및 학습 범주형 변수에 대한 임베딩 특징 벡터 간의 문맥적 임베딩 벡터를 도출하도록 셀프 어텐션 레이어(303)를 학습시킬 수 있다. 여기서, 문맥적 임베딩 벡터는 이산화한 학습 수치형 변수에 대한 임베딩 특징 벡터 및 학습 범주형 변수에 대한 임베딩 특징 벡터 간의 연관성 정보를 나타내는 벡터값일 수 있다.
디노이징 셀프 어텐션 네트워크(30)는 특징 표현 레이어(301)를 통해 학습용 결측 데이터에 대한 임베딩 특징 벡터를 학습함으로써 디노이징 기법을 통해 임의적으로 생성되는 다양한 결측 패턴에 대한 특징 표현을 학습할 수 있다. 예를 들어, 3번째 변수에 해당하는 값을 제거한다고 하면, 디노이징 셀프 어텐션 네트워크(30)는 'Col3:NA'와 같이 해당 변수의 결측 정보를 스페셜 토큰처럼 이용하여 이에 대한 임베딩 특징 벡터를 학습할 수 있다.
디노이징 셀프 어텐션 네트워크(30)는 셀프 어텐션 레이어(303)를 통해 이산화한 학습 수치형 변수(이미 정보 손실이 발생한 변수)에 대한 임베딩 특징 벡터 및 학습 범주형 변수에 대한 임베딩 특징 벡터 간의 연관성을 학습하여 다양한 결측 패턴에 대한 특징 정보를 학습할 수 있다.
한편, 학습부(220)는 학습 수치형 변수에 대한 임베딩 특징 벡터 및 문맥적 임베딩 벡터에 기초하여 공유 레이어(305)가 학습 수치형 변수의 결측값 및 학습 범주형 변수의 결측값을 복원하는데 공통적으로 필요한 공유 파라미터를 도출하도록 공유 레이어(305)를 학습시킬 수 있다.
학습부(220)는 태스크 개별 레이어(307-1, 307-3, 307-5)가 학습 수치형 변수 및 학습 범주형 변수 각각의 결측값을 복원하는데 필요한 개별 파라미터를 도출하도록 태스크 개별 레이어(307-1, 307-3, 307-5)를 학습시킬 수 있다. 태스크 개별 레이어(307-1, 307-3, 307-5)는 각 변수의 결측값을 복원하는데 서로의 보조 태스크(Auxiliary Task)의 역할을 하여 정칙화(Requlatization) 효과를 주며 이를 일반화하면 [수학식 1]와 같이 표현될 수 있다.
[수학식 1]
Figure 112021127333556-pat00003
여기서,
Figure 112021127333556-pat00004
는 태스크 개별 레이어이고,
Figure 112021127333556-pat00005
은 혼합형 결측 데이터이고,
Figure 112021127333556-pat00006
는 공유 파라미터이고,
Figure 112021127333556-pat00007
는 개별 파라미터이다.
학습부(220)는 제 1 태스크 개별 레이어(307-1)가 학습 수치형 변수의 결측값을 복원하는데 필요한 제 1 개별 파라미터를 도출하고, 제 2 태스크 개별 레이어(307-3)가 학습 범주형 변수의 결측값을 복원하는데 필요한 제 2 개별 파라미터를 도출하고, 제 3 태스크 개별 레이어(307-5)가 학습 수치형 변수의 결측값을 복원하는데 필요한 제 3 개별 파라미터를 도출하도록 태스크 개별 레이어(307-1, 307-3, 307-5)를 학습시킬 수 있다.
디노이징 셀프 어텐션 네트워크(30)는 학습 수치형 변수에 대하여 [수학식 2]와 같이 학습용 결측 데이터을 입력으로 학습 수치형 변수의 결측값을 복원하도록 학습하고, 학습 범주형 변수에 대하여 [수학식 3]와 같이 학습용 결측 데이터를 입력으로 학습 범주형 변수의 결측값의 복원을 위한 확률을 예측하도록 학습할 수 있다.
[수학식 2]
Figure 112021127333556-pat00008
여기서,
Figure 112021127333556-pat00009
는 학습 수치형 변수의 결측 복원값(관측값)이고,
Figure 112021127333556-pat00010
은 혼합형 결측 데이터이고,
Figure 112021127333556-pat00011
는 공유 파라미터이고,
Figure 112021127333556-pat00012
는 학습 수치형 변수의 결측값을 복원할 때 사용되는 개별 파라미터이다.
[수학식 3]
Figure 112021127333556-pat00013
여기서,
Figure 112021127333556-pat00014
는 i번째 학습 범주형 변수의 결측값 복원을 위한 확률값이고,
Figure 112021127333556-pat00015
은 혼합형 결측 데이터이고,
Figure 112021127333556-pat00016
는 공유 파라미터이고,
Figure 112021127333556-pat00017
는 i번째 학습 범주형 변수의 분류 태스크를 수행할 때 필요한 개별 파라미터이다.
[수학식 3]에서
Figure 112021127333556-pat00018
는 확률값으로 맵핑하기 위한 활성화 함수이고, 이진 분류의 경우 시그모이드(sigmoid) 함수를이용하고 다중 분류의 경우 소프트맥스 함수를 이용한다.
디노이징 셀프 어텐션 네트워크(30)는 평균 복원 오차(Mean Squared Error) 손실 함수(수학식 4)를 통해 학습 수치형 변수의 결측값을 복원하도록 학습하고, 교차 엔트로피(Cross Entropy) 손실 함수(수학식 5)를 통해 학습 범주형 변수의 결측값을 복원하도록 학습할 수 있다. 이 때, 디노이징 셀프 어텐션 네트워크(30)는 [수학식 6]과 같이 각 손실 함수의 총 합을 최소화하는 파라미터 집합(
Figure 112022038159767-pat00019
)를 추정할 수 있다.
[수학식 4]
Figure 112021127333556-pat00020
[수학식 5]
Figure 112021127333556-pat00021
[수학식 6]
Figure 112021127333556-pat00022
입력부(미도시)는 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터를 입력받을 수 있다.
보간부(210)는 수치형 변수 중 일부가 결측값을 포함하고, 범주형 변수 중 일부가 결측값을 포함하는 혼합형 결측 데이터를 디노이징 셀프 어텐션 네트워크(30)에 입력하여 수치형 변수의 결측값을 복원하고, 범주형 변수의 결측값을 복원할 수 있다.
디노이징 셀프 어텐션 네트워크(30)의 특징 표현 레이어(301)는 수치형 변수, 수치형 변수를 이산화한 수치형 변수 및 범주형 변수에 대한 임베딩 특징 벡터를 도출할 수 있다.
디노이징 셀프 어텐션 네트워크(30)의 특징 표현 레이어(301)는 셀프 어텐션 레이어를 통해 이산화한 수치형 변수 및 범주형 변수 간의 문맥적 임베딩 벡터를 도출할 수 있다.
디노이징 셀프 어텐션 네트워크(30)의 공유 레이어(305)는 수치형 변수, 이산화한 수치형 변수 및 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 수치형 변수의 결측값 및 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출할 수 있다.
디노이징 셀프 어텐션 네트워크(30)의 공유 레이어(305)는 문맥적 임베딩 벡터 및 수치형 변수에 대한 임베딩 특징 벡터에 기초하여 수치형 변수의 결측값 및 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출할 수 있다.
디노이징 셀프 어텐션 네트워크(30)의 태스크 개별 레이어(307-1, 307-3, 307-5)는 수치형 변수, 이산화한 수치형 변수 및 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 수치형 변수의 결측값 및 범주형 변수의 결측값을 복원하는데 필요한 각 변수별 개별 파라미터를 도출할 수 있다.
보간부(210)는 공유 파라미터 및 변수별 개별 파라미터를 이용하여 수치형 변수의 결측값을 복원하고, 범주형 변수의 결측값을 복원할 수 있다.
보간부(210)는 평균 복원 오차 손실 함수를 통해 수치형 변수의 결측값을 복원하고, 교차 엔트로피 손실 함수를 통해 범주형 변수의 결측값을 복원할 수 있다.
한편, 당업자라면, 저장부(200), 보간부(210) 및 학습부(220) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.
도 5는 본 발명의 일 실시예에 따른, 데이터 보간 수행 방법을 나타낸 흐름도이다.
도 5를 참조하면, 단계 S501에서 데이터 보간 수행 장치(100)는 디노이징 셀프 어텐션 네트워크를 저장할 수 있다.
단계 S503에서 데이터 보간 수행 장치(100)는 수치형 변수 중 일부가 결측값을 포함하고, 범주형 변수 중 일부가 결측값을 포함하는 혼합형 결측 데이터를 디노이징 셀프 어텐션 네트워크에 입력하여 수치형 변수의 결측값을 복원하고, 범주형 변수의 결측값을 복원할 수 있다.
상술한 설명에서, 단계 S501 내지 S505는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 데이터 보간 수행 장치
100: 저장부
110: 보간부
120: 학습부

Claims (10)

  1. 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치에 있어서,
    디노이징 셀프 어텐션 네트워크를 저장하는 저장부; 및
    상기 수치형 변수 중 일부가 결측값을 포함하고, 상기 범주형 변수 중 일부가 결측값을 포함하는 상기 혼합형 결측 데이터를 디노이징 셀프 어텐션 네트워크에 입력하여 상기 수치형 변수의 결측값을 복원하고, 상기 범주형 변수의 결측값을 복원하는 보간부
    를 포함하고,
    상기 디노이징 셀프 어텐션 네트워크는,
    상기 수치형 변수, 상기 수치형 변수를 이산화한 수치형 변수 및 상기 범주형 변수에 대한 임베딩 특징 벡터를 도출하는 특징 표현 레이어;
    상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출하는 공유 레이어; 및
    상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 각 변수별 개별 파라미터를 도출하는 태스크 개별 레이어를 포함하되,
    학습 수치형 변수 및 학습 범주형 변수를 포함하는 학습용 결측 데이터에 대하여 상기 특징 표현 레이어가 상기 학습 수치형 변수에 대한 임베딩 특징 벡터, 상기 학습 수치형 변수를 이산화한 학습 수치형 변수에 대한 임베딩 특징 벡터 및 상기 학습 범주형 변수에 대한 임베딩 특징 벡터를 도출하도록 상기 특징 표현 레이어를 학습시키는 학습부를 더 포함하는 것인, 데이터 보간 수행 장치.
  2. 제 1 항에 있어서,
    상기 특징 표현 레이어는 셀프 어텐션 레이어를 통해 상기 이산화한 수치형 변수 및 상기 범주형 변수 간의 문맥적 임베딩 벡터를 도출하는 것인, 데이터 보간 수행 장치.
  3. 제 2 항에 있어서,
    상기 공유 레이어는 상기 문맥적 임베딩 벡터 및 상기 수치형 변수에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출하는 것인, 데이터 보간 수행 장치
  4. 제 1 항에 있어서,
    상기 보간부는 상기 공유 파라미터 및 상기 변수별 개별 파라미터를 이용하여 상기 수치형 변수의 결측값을 복원하고, 상기 범주형 변수의 결측값을 복원하는 것인, 데이터 보간 수행 장치
  5. 삭제
  6. 제 1 항에 있어서,
    상기 학습부는 상기 특징 표현 레이어에 포함된 셀프 어텐션 레이어가 상기 이산화한 학습 수치형 변수에 대한 임베딩 특징 벡터 및 상기 학습 범주형 변수에 대한 임베딩 특징 벡터 간의 문맥적 임베딩 벡터를 도출하도록 상기 셀프 어텐션 레이어를 학습시키는 것인, 데이터 보간 수행 장치.
  7. 제 6 항에 있어서,
    상기 학습부는 상기 학습 수치형 변수에 대한 임베딩 특징 벡터 및 상기 문맥적 임베딩 벡터에 기초하여 상기 공유 레이어가 상기 학습 수치형 변수의 결측값 및 상기 학습 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출하도록 상기 공유 레이어를 학습시키는 것인, 데이터 보간 수행 장치.
  8. 제 7 항에 있어서,
    상기 학습부는 상기 태스크 개별 레이어가 상기 학습 수치형 변수의 결측값을 복원하는데 필요한 제 1 개별 파라미터를 도출하고, 상기 학습 범주형 변수 결측값을 복원하는데 필요한 제 2 개별 파라미터를 도출하도록 상기 태스크 개별 레이어를 학습시키는 것인, 데이터 보간 수행 장치.
  9. 제 1 항에 있어서,
    상기 보간부는 평균 복원 오차(Mean Squared Error) 손실 함수를 통해 상기 수치형 변수의 결측값을 복원하고, 교차 엔트로피(Cross Entropy) 손실 함수를 통해 상기 범주형 변수의 결측값을 복원하는 것인, 데이터 보간 수행 장치.
  10. 데이터 보간 수행 장치에 의해 수행되는 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 방법에 있어서,
    디노이징 셀프 어텐션 네트워크를 저장하는 단계; 및
    상기 수치형 변수 중 일부가 결측값을 포함하고, 상기 범주형 변수 중 일부가 결측값을 포함하는 상기 혼합형 결측 데이터를 디노이징 셀프 어텐션 네트워크에 입력하여 상기 수치형 변수의 결측값을 복원하고, 상기 범주형 변수의 결측값을 복원하는 단계
    를 포함하고,
    상기 디노이징 셀프 어텐션 네트워크는,
    상기 수치형 변수, 상기 수치형 변수를 이산화한 수치형 변수 및 상기 범주형 변수에 대한 임베딩 특징 벡터를 도출하는 특징 표현 레이어;
    상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 공유 파라미터를 도출하는 공유 레이어; 및
    상기 수치형 변수, 상기 이산화한 수치형 변수 및 상기 범주형 변수 각각에 대한 임베딩 특징 벡터에 기초하여 상기 수치형 변수의 결측값 및 상기 범주형 변수의 결측값을 복원하는데 필요한 각 변수별 개별 파라미터를 도출하는 태스크 개별 레이어를 포함하되,
    상기 데이터 보간을 수행하는 방법은 학습 수치형 변수 및 학습 범주형 변수를 포함하는 학습용 결측 데이터에 대하여 상기 특징 표현 레이어가 상기 학습 수치형 변수에 대한 임베딩 특징 벡터, 상기 학습 수치형 변수를 이산화한 학습 수치형 변수에 대한 임베딩 특징 벡터 및 상기 학습 범주형 변수에 대한 임베딩 특징 벡터를 도출하도록 상기 특징 표현 레이어를 학습시키는 단계를 더 포함하는 것인, 데이터 보간 방법.
KR1020210150649A 2021-11-04 2021-11-04 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법 KR102408655B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210150649A KR102408655B1 (ko) 2021-11-04 2021-11-04 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210150649A KR102408655B1 (ko) 2021-11-04 2021-11-04 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102408655B1 true KR102408655B1 (ko) 2022-06-14

Family

ID=81980548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210150649A KR102408655B1 (ko) 2021-11-04 2021-11-04 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102408655B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050460A (zh) * 2023-03-23 2023-05-02 中南大学 基于注意力神经网络的气温数据空间插值方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치
KR20180079995A (ko) * 2017-01-03 2018-07-11 주식회사 데일리인텔리전스 머신러닝을 기반으로 데이터를 분석하는 프로그램을 생성하기 위한 방법
US20190129819A1 (en) * 2017-10-26 2019-05-02 International Business Machines Corporation Missing Values Imputation of Sequential Data
US20200265466A1 (en) * 2019-02-19 2020-08-20 Nec Laboratories America, Inc. Interpretable click-through rate prediction through hierarchical attention
KR20210065751A (ko) 2019-11-27 2021-06-04 강릉원주대학교산학협력단 결측값 대체 시스템 및 결측값 대체 방법
KR20210126936A (ko) * 2020-04-13 2021-10-21 한국전자통신연구원 불규칙한 시간 간격을 갖는 시계열 데이터의 처리 장치 및 이의 동작 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180079995A (ko) * 2017-01-03 2018-07-11 주식회사 데일리인텔리전스 머신러닝을 기반으로 데이터를 분석하는 프로그램을 생성하기 위한 방법
US20190129819A1 (en) * 2017-10-26 2019-05-02 International Business Machines Corporation Missing Values Imputation of Sequential Data
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치
US20200265466A1 (en) * 2019-02-19 2020-08-20 Nec Laboratories America, Inc. Interpretable click-through rate prediction through hierarchical attention
KR20210065751A (ko) 2019-11-27 2021-06-04 강릉원주대학교산학협력단 결측값 대체 시스템 및 결측값 대체 방법
KR20210126936A (ko) * 2020-04-13 2021-10-21 한국전자통신연구원 불규칙한 시간 간격을 갖는 시계열 데이터의 처리 장치 및 이의 동작 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SOMEPALLI Gowthami, et al, "SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training", 2 Jun 2021* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050460A (zh) * 2023-03-23 2023-05-02 中南大学 基于注意力神经网络的气温数据空间插值方法

Similar Documents

Publication Publication Date Title
Samek et al. Evaluating the visualization of what a deep neural network has learned
Siddiqui et al. Tsviz: Demystification of deep learning models for time-series analysis
KR20230128492A (ko) 설명 가능 트랜스듀서 변환기
US11049043B2 (en) Model induction method for explainable A.I
WO2020023760A1 (en) System and method for clustering products by combining attribute data with image recognition
KR102408655B1 (ko) 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법
Nguyen et al. Extendable neural matrix completion
Wu et al. A feedforward bidirectional associative memory
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN114418030A (zh) 图像分类方法、图像分类模型的训练方法及装置
Gnecco et al. Learning with mixed hard/soft pointwise constraints
Shi et al. Temporal-spatial causal interpretations for vision-based reinforcement learning
CN115169548A (zh) 基于张量的持续学习方法和装置
Wan et al. Gcf: Generalized causal forest for heterogeneous treatment effect estimation in online marketplace
Leeb et al. Structure by architecture: Structured representations without regularization
KR102105951B1 (ko) 추론을 위한 제한된 볼츠만 머신 구축 방법 및 추론을 위한 제한된 볼츠만 머신을 탑재한 컴퓨터 장치
Zhang et al. Bort: Towards explainable neural networks with bounded orthogonal constraint
CN116842153A (zh) 一种基于反馈特征学习的多模态情感分析方法、系统
CN112232360A (zh) 图像检索模型优化方法、图像检索方法、装置及存储介质
Wang et al. Contextnet: A click-through rate prediction framework using contextual information to refine feature embedding
KR20210038027A (ko) 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법
US20190311302A1 (en) Electronic apparatus and control method thereof
Agrawal et al. Deep variational inference without pixel-wise reconstruction
US20210357700A1 (en) Method and apparatus for image analysis using image classification model
Casella et al. Transfer learning via test-time neural networks aggregation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant