KR20220102012A

KR20220102012A - 데이터 생성 방법 및 장치

Info

Publication number: KR20220102012A
Application number: KR1020210004185A
Authority: KR
Inventors: 정용현; 윤성로; 하헌석; 김성원; 최주영
Original assignee: 삼성에스디에스 주식회사; 서울대학교산학협력단
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2022-07-19

Abstract

멤버십 정보가 제거된 데이터를 생성하기 위한 방법 및 장치가 개시된다. 일 실시예에 따른 멤버십 정보가 제거된 데이터를 생성하는 장치는 입력 데이터의 특징을 추출하여 잠재 벡터(latent vector)를 생성하는 인코딩부(encoder); 및 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터(reconstruction data)를 생성하는 디코딩부(decoder)를 포함한다.

Description

데이터 생성 방법 및 장치{METHOD AND APPARATUS FOR DATA GENRATION}

개시되는 실시예들은 멤버십 정보가 제거된 데이터 생성 기술과 관련된다.

일반적으로, 차등 정보 보호(Differential Privacy) 기술을 통한 개인 정보 데이터의 변경은 정보 보호가 이루어 지지 않은 원본의 데이터에 노이즈를 첨가하여, 데이터를 교란한다. 그러나, 차등 정보 보호를 적용한 데이터를 변조 방식은 특정 통계적 특성을 가지는 노이즈를 기반으로 변조를 수행하는 바, 일부 통계적 특징은 유지되지 않는 문제가 있었다.

이런 문제를 해결하기 위한 방안으로 데이터 생성 모델(Generative model)의 대표적인 방법인 생성적 적대 신경망(Generative Adversarial Networks, GANs)를 활용한 데이터 익명화가 연구되고 있다. 그러나, GANs을 이용한 데이터 익명화는 복잡도가 매우 높으며, 복잡도를 낮추는 경우 데이터 익명화 성능이 떨어지는 문제점을 가지고 있다.

대한민국 등록특허 제 10-2175977 호 (2020.11.02. 등록)

개시되는 실시예들은 멤버십 정보가 제거된 데이터를 생성하기 위한 방법 및 장치를 제공하기 위한 것이다.

일 실시예에 따른 멤버십 정보가 제거된 데이터를 생성하는 장치는 입력 데이터의 특징을 추출하여 잠재 벡터(latent vector)를 생성하는 인코딩부(encoder); 및 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터(reconstruction data)를 생성하는 디코딩부(decoder)를 포함한다.

데이터 생성 장치는 멤버십 특성 벡터로부터 클래스 정보를 예측하는 클래스 구분부(class discriminator); 및 잠재 벡터에서 멤버십 특성 벡터를 제외한 차원으로 구성된 클래스 특성 벡터(class character vector)로부터 멤버십 정보를 예측하는 멤버십 구분부(membership discriminator)를 더 포함할 수 있다.

클래스 구분부는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터를 입력 받아 학습 샘플 데이터의 레이블을 예측하며, 학습 샘플 데이터의 레이블 및 예측된 학습 샘플 데이터의 레이블의 차이에 기초하여 생성된 교차 엔트로피 손실(cross entropy loss)를 감소시키는 방향으로 학습될 수 있다.

멤버십 구분부는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터 및 참조 데이터 세트(reference dataset)에 포함된 참조 샘플 데이터(reference sample data)로부터 생성된 멤버십 특성 벡터 중 어느 하나를 입력 받아 멤버십 특성 벡터의 레이블을 예측하며, 입력된 멤버십 특성 벡터의 레이블 및 예측된 멤버십 특성 벡터의 레이블의 차이에 기초하여 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 감소시키는 방향으로 학습될 수 있다.

학습 샘플 데이터의 레이블 및 참조 샘플 데이터의 레이블은 서로 이진수 반전 값을 가질 수 있다.

디코딩부는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 잠재 벡터를 입력 받아 생성한 재구성 데이터 및 입력된 학습 샘플 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습될 수 있다.

인코딩부는 클래스 구분부 및 멤버십 구분부와 적대적 게임(adversarial game)을 통하여 학습될 수 있다.

인코딩부는 재구성 데이터 및 입력 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습되며, 클래스 구분부에서 생성된 교차 엔트로피 손실(cross entropy loss) 및 멤버십 구분부에서 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 증가시키는 방향으로 학습될 수 있다.

소정의 벡터는 모든 요소(element)들이 0인 영 벡터(zero vector), 학습 데이터 세트에 포함된 모든 학습 샘플 데이터의 평균 벡터(mean vector) 및 랜덤 잡음(random noise)로 구성된 잡음 벡터(noise vector) 중 적어도 하나일 수 있다.

일 실시예에 따른, 멤버십 정보가 제거된 데이터를 생성하는 방법은 입력 데이터의 특징을 추출하여 잠재 벡터(latent vector)를 생성하는 인코딩 단계; 및 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터(reconstruction data)를 생성하는 디코딩 단계를 포함한다.

데이터 생성 방법은 멤버십 특성 벡터로부터 클래스 정보를 예측하는 클래스 구분 단계; 및 잠재 벡터에서 멤버십 특성 벡터를 제외한 차원으로 구성된 클래스 특성 벡터(class character vector)로부터 멤버십 정보를 예측하는 멤버십 구분 단계를 더 포함할 수 있다.

클래스 구분 단계는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터를 입력 받아 학습 샘플 데이터의 레이블을 예측하며, 학습 샘플 데이터의 레이블 및 예측된 학습 샘플 데이터의 레이블의 차이에 기초하여 생성된 교차 엔트로피 손실(cross entropy loss)를 감소시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

멤버십 구분부는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터 및 참조 데이터 세트(reference dataset)에 포함된 참조 샘플 데이터(reference sample data)로부터 생성된 멤버십 특성 벡터 중 어느 하나를 입력 받아 멤버십 특성 벡터의 레이블을 예측하며, 입력된 멤버십 특성 벡터의 레이블 및 예측된 멤버십 특성 벡터의 레이블의 차이에 기초하여 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 감소시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

디코딩 단계는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 잠재 벡터를 입력 받아 생성한 재구성 데이터 및 입력된 학습 샘플 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

인코딩 단계는 클래스 구분부 및 멤버십 구분부와 적대적 게임(adversarial game)을 통하여 학습된 인공 신경망을 이용할 수 있다.

인코딩 단계는 재구성 데이터 및 입력 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습되며, 클래스 구분 단계에서 생성된 교차 엔트로피 손실(cross entropy loss) 및 멤버십 구분 단계에서 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 증가시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

개시되는 실시예들에 따르면, 멤버십 정보가 제거된 데이터를 생성할 수 있다.

도 1은 일 실시예에 따른 데이터 생성 장치의 구성도
도 2는 일 실시예에 따른 데이터 생성 장치의 동작을 설명한 예시도
도 3은 일 실시예에 따른 클래스 구분부 및 멤버십 구분부의 동작을 설명한 예시도
도 4는 일 실시예에 따른 데이터 생성 장치의 동작을 설명하기 위한 예시도
도 5는 일 실시예에 따른 데이터 생성 방법의 순서도
도 6은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 일 실시예에 따른 데이터 생성 장치의 구성도이다.

일 실시예에 따르면, 데이터 생성 장치(100)는 멤버십 정보가 제거된 데이터를 생성할 수 있다.

일 예로, 멤버십 정보는 특정 데이터 샘플이 소정의 기계 학습 모델의 학습에 사용되었는지 여부를 판단할 수 있는 소정의 정보일 수 있다. 일 예로, 멤버십 정보가 포함되어 있는 특정 데이터 샘플로 학습된 기계 학습 모델의 경우, 입력된 데이터가 학습에 사용된 특정 데이터 샘플인지 또는 아닌지에 따라 유의미한 결과의 차이를 발생시킬 수 있다. 이를 통하여 입력된 데이터가 소정의 기계 학습 모델의 학습에 사용되었는지 여부가 판별될 수 있으며, 이로 인하여 개인의 프라이버시가 침해될 수 있으며, 이를 멤버십 추론 공격(MIA : membership inference attack)이라 할 수 있다.

일 예에 따르면, 데이터 생성 장치(100)는 기계 학습 모델의 학습에 사용되는 학습 데이터에 포함된 멤버십 정보를 제거하여 새로운 학습 데이터를 생성할 수 있다.

일 실시예에 따르면, 데이터 생성 장치(100)는 입력 데이터의 특징을 추출하여 잠재 벡터(latent vector)를 생성하는 인코딩부(encoder, 110)를 포함할 수 있다.

일 실시예에 따르면, 인코딩부(110)는 클래스 구분부 및 멤버십 구분부와 적대적 게임(adversarial game)을 통하여 학습될 수 있다.

일 예로, 적대적 게임은 기계 학습 모델의 학습 방법론 중 하나로서 네트워크들이 서로 경쟁적으로 학습하는 것을 의미한다. 일 예로, 하나의 네트워크 A가 다른 네트워크 B로부터 특정 정보를 알아내기 위한 방향으로 학습하며, 다른 네트워크 B는 네트워크 A의 시도를 막기위한 방향으로 학습하는 것과 같이 서로 다른 네트워크가 다른 방향으로 경쟁하며 학습하는 것일 수 있다.

일 실시예에 따르면, 데이터 생성 장치(100)는 멤버십 특성 벡터(membership character vector)로부터 클래스 정보를 예측하는 클래스 구분부(class discriminator)를 더 포함할 수 있다.

일 예에 따르면, 잠재 벡터는 멤버십 정보와 관련성이 높은 멤버십 특정 부분과 멤버십 정보와 관련성이 낮은 클래스 특성 부분으로 나누어질 수 있다.

일 예로, 멤버십 특성 벡터는 잠재 벡터의 일부 차원으로 구성될 수 있다.

도 2를 참조하면, 인코딩부(110)는 소정의 입력 데이터를 수신하여 잠재 벡터를 생성할 수 있다. 이때, 잠재 벡터의 일부 차원이 멤버십 특성 벡터(Z _m )가 될 수 있다. 예를 들어, 잠재 벡터가 128차원의 벡터인 경우, 멤버십 특성 벡터(Z _m )는 잠재 벡터의 1차원부터 64차원까지의 일부 차원으로 구성될 수 있다.

일 예에 따르면, 잠재 벡터에서 멤버십 특성 벡터(Z _m )를 제외한 부분은 클래스 특성 벡터(class character vector, Z _c )가 될 수 있다. 예를 들어, 잠재 벡터가 128차원의 벡터이고 멤버십 특성 벡터(Z _m )가 잠재 벡터의 1차원부터 64차원까지의 일부 차원으로 구성되는 경우, 클래스 특성 벡터(Z _c )는 잠재 벡터의 65차원부터 128차원까지의 일부 차원으로 구성될 수 있다.

일 실시예에 따르면, 클래스 구분부는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터를 입력 받아 학습 샘플 데이터의 레이블을 예측할 수 있다.

도 3(a)를 참조하면, 클래스 구분부(h _c , 310)는 학습 데이터 세트에 포함된 학습 샘플 데이터 x로부터 생성된 멤버십 특성 벡터(Z _m )을 입력 받아 해당 학습 샘플 데이터 x의 레이블을

로 예측할 수 있다.

일 실시예에 따르면, 클래스 구분부(310)는 학습 샘플 데이터의 레이블 및 예측된 학습 샘플 데이터의 레이블의 차이에 기초하여 생성된 교차 엔트로피 손실(cross entropy loss)를 감소시키는 방향으로 학습될 수 있다.

일 예를 들어, 학습 샘플 데이터의 레이블이

이며, 예측된 학습 샘플 데이터의 레이블이

인 경우, 클래스 구분부(310)는 둘 사이의 차이에 기초한 기초하여 생성된 교차 엔트로피 손실(L_CE(

,

))을 감소시키기 위한 방향으로 학습될 수 있다.

일 실시예에 따르면, 데이터 생성 장치(100)는 잠재 벡터에서 멤버십 특성 벡터를 제외한 차원으로 구성된 클래스 특성 벡터(class character vector)로부터 멤버십 정보를 예측하는 멤버십 구분부(membership discriminator)를 더 포함할 수 있다.

일 실시예에 따르면, 멤버십 구분부는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터 및 참조 데이터 세트(reference dataset)에 포함된 참조 샘플 데이터(reference sample data)로부터 생성된 멤버십 특성 벡터 중 어느 하나를 입력 받아 멤버십 특성 벡터의 레이블을 예측할 수 있다.

도 3(b)를 참조하면, 멤버십 구분부(h _m , 320)는 학습 데이터 세트에 포함된 학습 샘플 데이터 또는 참조 데이터 세트에 포함된 참조 샘플 데이터로부터 생성된 멤버십 특성 벡터(Z _c )을 입력 받아 멤버십 특성 벡터의 레이블을

로 예측할 수 있다.

일 예에 따르면, 멤버십 구분부(320)는 학습 데이터 세트에 포함된 데이터 또는 참조 데이터 세트에 포함된 데이터 중 어느 하나로부터 생성된 잠재 벡터에 기초하여 생성된 멤버십 특성 데이터를 입력 받아 입력된 멤버십 특성 데이터가 학습 데이터 세트에 포함된 데이터인지 또는 참조 데이터 세트에 포함된 데이터인지 여부를 예측할 수 있다.

일 실시예에 따르면, 학습 샘플 데이터의 레이블 및 참조 샘플 데이터의 레이블은 서로 이진수 반전 값을 가질 수 있다. 예를 들어, 학습 샘플 데이터의 레이블은 '1'이며, 참조 샘플 데이터의 레이블은 '0'일 수 있다. 따라서, 예측된 특성 벡터의 레이블을

은 '0' 또는 '1'일 수 있다.

일 실시예에 따르면, 멤버십 구분부(320)는 입력된 클래스 특성 벡터(Z _c )의 레이블 및 예측된 클래스 특성 벡터의 레이블의 차이에 기초하여 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 감소시키는 방향으로 학습될 수 있다.

일 예를 들어, 입력된 클래스 특성 벡터(Z _c )의 레이블이

이며, 예측된 클래스 특성 벡터의 레이블이

인 경우, 멤버십 구분부(320)는 둘 사이의 차이에 기초한 기초하여 생성된 이진 교차 엔트로피 손실(L_CE(

,

))을 감소시키기 위한 방향으로 학습될 수 있다.

일 실시예에 따르면, 인코딩부(110)는 재구성 데이터 및 입력 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습되며, 클래스 구분부에서 생성된 교차 엔트로피 손실(cross entropy loss) 및 멤버십 구분부에서 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 증가시키는 방향으로 학습될 수 있다.

일 예에 따르면, 재구성 손실은 pixel-wise L2 loss로 정의될 수 있으며, 아래 수학식 1과 같이 정의될 수 있다.

[수학식 1]

여기서, D는 도 2에서의 디코딩부(120)를 나타내며, E는 인코더부(110)를 나타낸다.

일 실시예에 따르면, 인코더는 아래 수학식 2와 같이 재구성 손실은 감소시키며, 교차 엔트로피 및 이진 교차 엔트로피를 증가시키는 방향으로 학습될 수 있다.

[수학식 2]

여기서, a₁과 a₂는 하이퍼파라미터일 수 있다.

일 예로, 인코더가 위와 같이 학습되는 경우, 인코더는 클래스 구분자와 적대적 게임을 수행하게 되며, 이로 인하여 멤버십 특성 벡터(Z _m )에서 클래스 정보가 제거되고, 클래스 특성 벡터(Z _c )가 클래스 정보를 가지게 될 수 있다.

일 예로, 인코더가 위와 같이 학습되는 경우, 인코더는 멤버십 구분자와 적대적 게임을 수행하게 되며, 이로 인하여 클래스 특성 벡터(Z _c )에서 멤버십 정보를 제거하고, 멤버십 특성 벡터(Z _m )가 멤버십 정보를 가지게 될 수 있다.

일 실시예에 따르면, 데이터 생성 장치(100)는 소정의 잠재 벡터를 입력 받아 재구성 데이터(reconstruction data)를 생성하는 디코딩부(decoder, 120)를 포함할 수 있다.

일 실시예에 따르면, 디코딩부(120)는 인코딩부(110)에서 생성된 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터를 생성할 수 있다.

일 실시예에 따르면, 소정의 벡터는 모든 요소(element)들이 0인 영 벡터(zero vector), 학습 데이터 세트에 포함된 모든 학습 샘플 데이터의 평균 벡터(mean vector) 및 랜덤 잡음(random noise)로 구성된 잡음 벡터(noise vector) 중 적어도 하나일 수 있다.

일 예에 따르면, 잠재 벡터가 128차원의 벡터이고 멤버십 특성 벡터(Z _m )가 잠재 벡터의 1차원부터 64차원까지의 일부 차원으로 구성되는 경우, 소정 벡터는 64차원의 벡터일 수 있다. 일 예로, 소정 벡터가 영 벡터인 경우, 잠재 벡터는 1차원부터 64차원까지가 '0'으로 대체되어 변형된 잠재 벡터가 될 수 있다. 이를 통하여, 변형된 잠재 벡터는 잠재 벡터에 포함된 멤버십 정보가 모두 제거된 형태의 벡터가 될 수 있다.

일 실시예에 따르면, 디코딩부(120)는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 잠재 벡터를 입력 받아 생성한 재구성 데이터 및 입력된 학습 샘플 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습될 수 있다.

도 4는 일 실시예에 따른 데이터 생성 장치의 동작을 설명하기 위한 예시도이다.

도 4(a)는 일 예에 따른 입력 데이터가 될 수 있다. 예를 들어, 입력 데이터는 특정 숫자 정보, 색채 정보, 명도 정보 및 채도 정보를 포함하는 하나의 타일들의 집합일 수 있다.

일 예로, 숫자 정보는 동일한 숫자를 포함하는 타일이 하나 이상 존재하는 바, 숫자 정보만을 이용하여 입력 데이터에 포함된 타일을 특정할 수 없다. 반면, 동일한 색채 정보, 명도 정보 및 채도 정보를 포함하는 타일의 경우, 동일한 색채 정보, 명도 정보 및 채도 정보를 포함하는 다른 타일이 없는 경우, 특정될 수 있다. 이에 따라, 색채 정보, 명도 정보 및 채도 정보는 타일을 특정할 수 있는 멤버십 정보가 될 수 있으며, 숫자 정보는 타일을 특정할 수 없는 클래스 정보가 될 수 있다.

도 4(b)는 입력 데이터를 재구성한 데이터이다. 도 4(a)와 비교하면, 동일한 위치의 타일과 매우 유사한 숫자 정보, 색채 정보, 명도 정보 및 채도 정보를 포함하는 것을 볼 수 있다.

반면, 도 4(c)는 입력 데이터에서 멤버십 정보를 제거하여 생성한 재구성 데이터이다. 도 4(a)와 비교하면, 동일한 위치의 타일과 동일한 숫자 정보를 유추할 수 있으나, 색채 정보, 명도 정보 및 채도 정보는 변형된 것을 알 수 있다. 이에 따라, 도 4(c)와 같이 멤버십 정보가 제거된 데이터를 이용하는 경우, 멤버십 추론 공격을 방지할 수 있다.

도 5는 일 실시예에 따른 데이터 생성 방법의 순서도이다.

일 실시예에 따르면, 멤버십 정보가 제거된 데이터를 생성하는 방법은 입력 데이터의 특징을 추출하여 잠재 벡터(latent vector)를 생성하는 인코딩 단계(510)를 포함할 수 있다.

일 실시예에 따르면, 인코딩을 수행하는 인공 신경망은 클래스 구분에 이용되는 인공 신경망 및 멤버십 구분에 이용되는 인공 신경망과 적대적 게임(adversarial game)을 통하여 학습될 수 있다.

일 실시예에 따르면, 데이터 생성 방법은 멤버십 특성 벡터로부터 클래스 정보를 예측하는 클래스 구분 단계 및 잠재 벡터에서 멤버십 특성 벡터를 제외한 차원으로 구성된 클래스 특성 벡터(class character vector)로부터 멤버십 정보를 예측하는 멤버십 구분 단계를 더 포함할 수 있다.

일 실시예에 따르면, 클래스 구분 단계는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터를 입력 받아 학습 샘플 데이터의 레이블을 예측할 수 있다.

일 실시예에 따르면, 클래스 구분 단계는 학습 샘플 데이터의 레이블 및 예측된 학습 샘플 데이터의 레이블의 차이에 기초하여 생성된 교차 엔트로피 손실(cross entropy loss)를 감소시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

일 예를 들어, 학습 샘플 데이터의 레이블이

이며, 예측된 학습 샘플 데이터의 레이블이

인 경우, 클래스 구분에 이용되는 인공 신경망은 둘 사이의 차이에 기초한 기초하여 생성된 교차 엔트로피 손실(L_CE(

,

))을 감소시키기 위한 방향으로 학습될 수 있다.

일 실시예에 따르면, 데이터 생성 방법은 잠재 벡터에서 멤버십 특성 벡터를 제외한 차원으로 구성된 클래스 특성 벡터(class character vector)로부터 멤버십 정보를 예측하는 멤버십 구분 단계를 더 포함할 수 있다.

일 실시예에 따르면, 멤버십 구분 단계는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터 및 참조 데이터 세트(reference dataset)에 포함된 참조 샘플 데이터(reference sample data)로부터 생성된 멤버십 특성 벡터 중 어느 하나를 입력 받아 멤버십 특성 벡터의 레이블을 예측할 수 있다.

일 예에 따르면, 멤버십 구분 단계는 학습 데이터 세트에 포함된 데이터 또는 참조 데이터 세트에 포함된 데이터 중 어느 하나로부터 생성된 잠재 벡터에 기초하여 생성된 멤버십 특성 데이터를 입력 받아 입력된 멤버십 특성 데이터가 학습 데이터 세트에 포함된 데이터인지 또는 참조 데이터 세트에 포함된 데이터인지 여부를 예측할 수 있다.

은 '0' 또는 '1'일 수 있다.

일 실시예에 따르면, 멤버십 구분 단계는 입력된 클래스 특성 벡터(Z _c )의 레이블 및 예측된 클래스 특성 벡터의 레이블의 차이에 기초하여 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 감소시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

일 예를 들어, 입력된 클래스 특성 벡터(Z _c )의 레이블이

이며, 예측된 클래스 특성 벡터의 레이블이

인 경우, 멤버십 구분에 이용되는 인공 신경망은 둘 사이의 차이에 기초한 기초하여 생성된 이진 교차 엔트로피 손실(L_CE(

,

))을 감소시키기 위한 방향으로 학습될 수 있다.

일 실시예에 따르면, 인코딩 단계는 재구성 데이터 및 입력 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습되며, 클래스 구분부에서 생성된 교차 엔트로피 손실(cross entropy loss) 및 멤버십 구분부에서 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 증가시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

일 예에 따르면, 재구성 손실은 위에서 설명된 수학식 1과 같이 정의될 수 있다.

일 실시예에 따르면, 인코딩 단계는 위에서 설명된 수학식 2와 같이 재구성 손실은 감소시키며, 교차 엔트로피 및 이진 교차 엔트로피를 증가시키는 방향으로 학습될 수 있다.

일 실시예에 따르면, 데이터 생성 방법은 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터(reconstruction data)를 생성하는 디코딩 단계(520)를 포함할 수 있다.

일 실시예에 따르면, 디코딩 단계는 인코딩 단계에서 생성된 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터를 생성할 수 있다.

일 실시예에 따르면, 디코딩 단계는 학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 잠재 벡터를 입력 받아 생성한 재구성 데이터 및 입력된 학습 샘플 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습된 인공 신경망을 이용할 수 있다.

도 6은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.

도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되지 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 데이터 생성 장치(120)에 포함되는 하나 이상의 컴포넌트일 수 있다. 컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 데이터 생성 장치
110: 인코딩부
120: 디코딩부
310: 클래스 구분부
320: 멤버십 구분부

Claims

멤버십 정보가 제거된 데이터를 생성하는 장치에 있어서,
입력 데이터의 특징을 추출하여 잠재 벡터(latent vector)를 생성하는 인코딩부(encoder); 및
상기 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터(reconstruction data)를 생성하는 디코딩부(decoder)를 포함하는, 데이터 생성 장치.
청구항 1에 있어서,
상기 멤버십 특성 벡터로부터 클래스 정보를 예측하는 클래스 구분부(class discriminator); 및
상기 잠재 벡터에서 상기 멤버십 특성 벡터를 제외한 차원으로 구성된 클래스 특성 벡터(class character vector)로부터 멤버십 정보를 예측하는 멤버십 구분부(membership discriminator)를 더 포함하는, 데이터 생성 장치.
청구항 2에 있어서,
상기 클래스 구분부는
학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터를 입력 받아 상기 학습 샘플 데이터의 레이블을 예측하며,
상기 학습 샘플 데이터의 레이블 및 상기 예측된 학습 샘플 데이터의 레이블의 차이에 기초하여 생성된 교차 엔트로피 손실(cross entropy loss)를 감소시키는 방향으로 학습된, 데이터 생성 장치.
청구항 2에 있어서,
상기 멤버십 구분부는
학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터 및 참조 데이터 세트(reference dataset)에 포함된 참조 샘플 데이터(reference sample data)로부터 생성된 멤버십 특성 벡터 중 어느 하나를 입력 받아 멤버십 특성 벡터의 레이블을 예측하며,
상기 입력된 멤버십 특성 벡터의 레이블 및 상기 예측된 멤버십 특성 벡터의 레이블의 차이에 기초하여 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 감소시키는 방향으로 학습된, 데이터 생성 장치.
청구항 4에 있어서,
상기 학습 샘플 데이터의 레이블 및 참조 샘플 데이터의 레이블은 서로 이진수 반전 값을 가지는, 데이터 생성 장치.
청구항 1에 있어서,
상기 디코딩부는
학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 잠재 벡터를 입력 받아 생성한 재구성 데이터 및 상기 입력된 학습 샘플 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습된, 데이터 생성 장치.
청구항 2에 있어서,
상기 인코딩부는
상기 클래스 구분부 및 상기 멤버십 구분부와 적대적 게임(adversarial game)을 통하여 학습된, 데이터 생성 장치.
청구항 2에 있어서,
상기 인코딩부는
재구성 데이터 및 입력 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습되며,
상기 클래스 부분부에서 생성된 교차 엔트로피 손실(cross entropy loss) 및 상기 멤버십 구분부에서 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 증가시키는 방향으로 학습된, 데이터 생성 장치.
청구항 1에 있어서,
상기 소정의 벡터는
모든 요소(element)들이 0인 영 벡터(zero vector), 학습 데이터 세트에 포함된 모든 학습 샘플 데이터의 평균 벡터(mean vector) 및 랜덤 잡음(random noise)로 구성된 잡음 벡터(noise vector) 중 적어도 하나인, 데이터 생성 장치.
멤버십 정보가 제거된 데이터를 생성하는 방법에 있어서,
입력 데이터의 특징을 추출하여 잠재 벡터(latent vector)를 생성하는 인코딩 단계; 및
상기 잠재 벡터의 일부 차원으로 구성된 멤버십 특성 벡터(membership character vector)를 소정의 벡터로 대체하여 생성한 변형된 잠재 벡터를 입력 받아 재구성 데이터(reconstruction data)를 생성하는 디코딩 단계를 포함하는, 데이터 생성 방법.
청구항 10에 있어서,
상기 멤버십 특성 벡터로부터 클래스 정보를 예측하는 클래스 구분 단계; 및
상기 잠재 벡터에서 상기 멤버십 특성 벡터를 제외한 차원으로 구성된 클래스 특성 벡터(class character vector)로부터 멤버십 정보를 예측하는 멤버십 구분 단계를 더 포함하는, 데이터 생성 방법.
청구항 11에 있어서,
상기 클래스 구분 단계는
학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터를 입력 받아 상기 학습 샘플 데이터의 레이블을 예측하며,
상기 학습 샘플 데이터의 레이블 및 상기 예측된 학습 샘플 데이터의 레이블의 차이에 기초하여 생성된 교차 엔트로피 손실(cross entropy loss)를 감소시키는 방향으로 학습된 인공 신경망을 이용하는, 데이터 생성 방법.
청구항 11에 있어서,
상기 멤버십 구분부는
학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 멤버십 특성 벡터 및 참조 데이터 세트(reference dataset)에 포함된 참조 샘플 데이터(reference sample data)로부터 생성된 멤버십 특성 벡터 중 어느 하나를 입력 받아 멤버십 특성 벡터의 레이블을 예측하며,
상기 입력된 멤버십 특성 벡터의 레이블 및 상기 예측된 멤버십 특성 벡터의 레이블의 차이에 기초하여 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 감소시키는 방향으로 학습된 인공 신경망을 이용하는, 데이터 생성 방법.
청구항 13에 있어서,
상기 학습 샘플 데이터의 레이블 및 참조 샘플 데이터의 레이블은 서로 이진수 반전 값을 가지는, 데이터 생성 방법.
청구항 10에 있어서,
상기 디코딩 단계는
학습 데이터 세트(training dataset)에 포함된 학습 샘플 데이터(training sample data)로부터 생성된 잠재 벡터를 입력 받아 생성한 재구성 데이터 및 상기 입력된 학습 샘플 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습된 인공 신경망을 이용하는, 데이터 생성 방법.
청구항 11에 있어서,
상기 인코딩 단계는
상기 클래스 구분부 및 상기 멤버십 구분부와 적대적 게임(adversarial game)을 통하여 학습된 인공 신경망을 이용하는, 데이터 생성 방법.
청구항 11에 있어서,
상기 인코딩 단계는
재구성 데이터 및 입력 데이터의 차이에 기초하여 생성된 재구성 손실(reconstruction loss)를 감소시키는 방향으로 학습되며,
상기 클래스 구분 단계에서 생성된 교차 엔트로피 손실(cross entropy loss) 및 상기 멤버십 구분 단계에서 생성된 이진 교차 엔트로피 손실(binary cross entropy loss)을 증가시키는 방향으로 학습된 인공 신경망을 이용하는, 데이터 생성 방법.
청구항 10에 있어서,
상기 소정의 벡터는
모든 요소(element)들이 0인 영 벡터(zero vector), 학습 데이터 세트에 포함된 모든 학습 샘플 데이터의 평균 벡터(mean vector) 및 랜덤 잡음(random noise)로 구성된 잡음 벡터(noise vector) 중 적어도 하나인, 데이터 생성 방법.