KR20230107558A

KR20230107558A - 모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체

Info

Publication number: KR20230107558A
Application number: KR1020237015037A
Authority: KR
Inventors: 신주오 왕; 양 리우; 준보 장; 유 쩡
Original assignee: 징동 시티 (베이징) 디짓스 테크놀로지 코., 엘티디.
Priority date: 2020-11-23
Filing date: 2021-11-15
Publication date: 2023-07-17
Also published as: CN114528896A; US20240037408A1; WO2022105713A1; JP2023550194A

Abstract

모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체를 개시하는 바, 생성적 적대 신경망 모델은 생성기 및 두 개의 판별기를 포함하고, 상기 생성기의 출력은 두 개의 상기 판별기의 입력으로 사용되며, 상기 방법은, 상기 생성기에 의해 기준 샘플 데이터를 생성하는 단계; 제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하는 단계; 제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출하는 단계; 상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하는 단계; 및 상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하는 단계를 포함한다.

Description

모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체

본 발명은 2020년 11월 23일 자로 중국인민공화국 국가지식재산권국에 제출된 출원번호가 202011320953.8이고 발명의 명칭이 “모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체”인 발명 특허 출원의 우선권을 주장하며, 이의 모든 내용은 인용을 통해 본 명세서에 통합된다.

본 발명은 대체로 컴퓨터 기술분야에 관한 것으로, 보다 구체적으로는 모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

데이터 수집 기술이 지속적으로 발전함에 따라, 점점 더 많은 데이터가 수집되고 있고, 비즈니스 분석, 금융 서비스 및 의료 교육과 같은 다양한 분야에 널리 응용되고 있다.

그러나 데이터 자체의 불균형성과 수집 수단의 제한으로 인해, 많은 데이터에 라벨이 없거나 라벨이 불균형한 상황이 존재한다. 데이터 샘플 라벨의 불균형이란 상이한 라벨의 데이터 소스에서 일부 라벨의 데이터가 대부분을 차지하는 반면 다른 일부 라벨의 데이터가 아주 작은 부분을 차지하는 것을 의미한다. 예를 들어, 이진 분류 예측 문제에서, 라벨이 “1”인 데이터는 전체의 99%를 차지하나, 라벨이 “0”인 데이터는 1%에 불과하다.

본 발명의 내용에 포함됨.

제1 양태에서, 본 발명은 모델 트레이닝 방법에 관한 것이며, 생성적 적대 신경망 모델은 생성기 및 두 개의 판별기를 포함하고, 상기 생성기의 출력은 두 개의 상기 판별기의 입력으로 사용되며, 상기 방법은,

상기 생성기에 의해 기준 샘플 데이터를 생성하는 단계;

제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하는 단계;

제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출하는 단계;

상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하는 단계; 및

상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하는 단계를 포함한다.

일부 실시 수단에서, 상기 목적 함수의 최적화 목표는 상기 제1 거리를 최소화하고 상기 제2 거리를 최대화하는 것이다.

일부 실시 수단에서, 상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하는 단계는,

상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성기의 생성기 파라미터, 상기 제1 판별기의 제1 판별기 파라미터 및 상기 제2 판별기의 제2 판별기 파라미터를 획득하는 단계; 및

상기 생성기 파라미터, 상기 제1 판별기 파라미터 및 상기 제2 판별기 파라미터를 상기 생성적 적대 신경망 모델에 입력하여, 상기 생성적 적대 신경망 모델을 획득하는 단계를 포함한다.

일부 실시 수단에서, 상기 목적 함수는,

이고,

여기서, posData는 포지티브 클래스 데이터를 나타내며, negData는 네거티브 클래스 데이터를 나타내고, allData는 생성된 네거티브 클래스 데이터 및 원래의 네거티브 클래스 데이터의 합집합을 나타낸다. D₁은 제1 판별기 파라미터를 나타내고, D₂는 제2 판별기 파라미터를 나타내며, G는 생성기 파라미터를 나타낸다.

일부 실시 수단에서, 상기 제1 판별기 및 상기 제2 판별기는 구조가 동일하고, 상기 제1 판별기는 다수의 캐스케이드된 판별 유닛 및 sigmoid 계층을 포함하며, 마지막 레벨의 판별 유닛의 출력은 sigmoid 계층의 입력으로 사용되고, 각각의 상기 판별 유닛은 캐스케이드된 완전 연결 계층, leaky-ReLU 계층 및 sigmoid 계층을 포함한다.

일부 실시 수단에서, 상기 생성기는 다수의 캐스케이드된 생성 유닛을 포함하고, 각각의 생성 유닛은 캐스케이드된 완전 연결 계층, 정규화 계층 및 leaky-ReLU 계층을 포함한다.

제2 양태에서, 본 발명은 데이터 증강 방법에 관한 것이고, 상기 방법은,

제1 양태의 어느 하나에 따른 모델 트레이닝 방법을 통해 트레이닝된 생성적 적대 신경망 모델을 이용하여, 제2 네거티브 샘플 데이터를 생성하는 단계; 및

기설정 포지티브 샘플 데이터 및 기설정 네거티브 샘플 데이터를 포함하는 원시 데이터 세트에 상기 제2 네거티브 샘플 데이터를 추가하여 새로운 데이터 세트를 획득하는 단계를 포함한다.

제3 양태에서, 본 발명은 모델 트레이닝 장치에 관한 것이며, 생성적 적대 신경망 모델은 생성기 및 두 개의 판별기를 포함하고, 상기 생성기의 출력은 두 개의 상기 판별기의 입력으로 사용되며, 상기 장치는,

상기 생성기에 의해 기준 샘플 데이터를 생성하도록 구성되는 생성 모듈;

제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하도록 구성되는 제1 산출 모듈;

제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출하도록 구성되는 제2 산출 모듈;

상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하도록 구성되는 선택 모듈; 및

상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하도록 구성되는 트레이닝 모듈을 포함한다.

일부 실시 수단에서, 상기 트레이닝 모듈은 또한,

상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성기의 생성기 파라미터, 상기 제1 판별기의 제1 판별기 파라미터 및 상기 제2 판별기의 제2 판별기 파라미터를 획득하고;

상기 생성기 파라미터, 상기 제1 판별기 파라미터 및 상기 제2 판별기 파라미터를 상기 생성적 적대 신경망 모델에 입력하여, 상기 생성적 적대 신경망 모델을 획득하도록 구성된다.

일부 실시 수단에서, 상기 목적 함수는,

이고,

제4 양태에서, 본 발명은 데이터 증강 장치에 관한 것이고, 상기 장치는,

본 발명에 따른 모델 트레이닝 방법을 통해 트레이닝된 생성적 적대 신경망 모델을 이용하여, 제2 네거티브 샘플 데이터를 생성하도록 구성되는 생성 모듈; 및

기설정 포지티브 샘플 데이터 및 기설정 네거티브 샘플 데이터를 포함하는 원시 데이터 세트에 상기 제2 네거티브 샘플 데이터를 추가하여 새로운 데이터 세트를 획득하도록 구성되는 추가 모듈을 포함한다.

제5 양태에서, 본 발명은 프로세서, 통신 인터페이스, 메모리 및 통신 버스를 포함하는 전자 기기에 관한 것이며, 여기서, 상기 프로세서, 상기 통신 인터페이스, 상기 메모리는 상기 통신 버스를 통해 상호 간의 통신을 실현하고;

메모리는 컴퓨터 프로그램이 저장되도록 구성되며;

프로세서는 메모리에 저장된 프로그램이 실행될 경우, 본 발명에 따른 모델 트레이닝 방법 또는 본 발명에 따른 데이터 증강 방법을 구현하도록 구성된다.

제6 양태에서, 본 발명은 컴퓨터 판독 가능 저장 매체에 관한 것이며, 상기 컴퓨터 판독 가능 저장 매체에는 모델 트레이닝 방법의 프로그램 또는 데이터 증강 방법의 프로그램이 저장되어 있고, 상기 모델 트레이닝 방법의 프로그램이 프로세서에 의해 실행될 경우, 본 발명에 따른 모델 트레이닝 방법이 구현되며, 상기 데이터 증강 방법의 프로그램이 프로세서에 의해 실행될 경우, 본 발명에 따른 데이터 증강 방법이 구현된다.

일부 실시 수단에서, 본 발명의 실시예는, 생성기를 통해 기준 샘플 데이터를 생성하고, 제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하며, 제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출한 다음, 상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하고, 마지막으로, 상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득할 수 있다.

일부 실시 수단에서, 본 발명의 실시예는, 생성기를 통해 기준 샘플 데이터를 생성하고, 제1 거리 및 제2 거리를 기반으로 목적 함수를 결정하며, 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시킴으로써, 트레이닝이 완료된 생성적 적대 신경망 모델의 출력 데이터가 기설정 샘플 균형 조건을 만족할 수 있도록 하고, 적은 클래스의 샘플에 대해 별도의 데이터를 생성한다. 즉 생성된 출력 데이터는 두 가지 클래스의 샘플이 보다 균형을 이룰 수 있도록 하고, 별도의 데이터가 생성되기 때문에, 데이터양이 손실되지 않아 데이터 샘플 라벨이 불균형해지지 않는다.

본 발명의 내용에 포함됨.

여기서의 도면은 명세서에 병합되어 본 명세서의 일부분을 구성하고, 본 발명에 부합되는 실시예를 나타내며, 명세서와 함께 본 발명의 원리를 해석한다.
본 발명의 기술적 해결수단을 더욱 명확하게 설명하기 위해, 아래에서는 본 발명의 도면에 대해 간단히 설명하기로 하며, 본 기술분야의 통상의 기술자라면 진보성 창출에 힘쓰지 아니한 전제 하에 이러한 도면에 따라 다른 도면을 획득할 수도 있음은 자명하다.
도 1은 본 발명의 일 실시예에 따른 생성적 적대 신경망 모델의 원리 모식도이다.
도 2는 본 발명의 일 실시예에 따른 모델 트레이닝 방법의 일 흐름도이다.
도 3은 도 1의 단계 S105의 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 모델 트레이닝 방법의 다른 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 모델 트레이닝 장치의 구조도이다.
도 6은 본 발명의 일 실시예에 따른 다른 모델 트레이닝 장치의 구조도이다.
도 7은 본 발명의 일 실시예에 따른 전자 기기의 구조도이다.

본 발명의 실시예의 목적, 기술적 해결수단 및 장점을 보다 명확하게 하기 위해, 아래에서는 본 발명의 실시예의 도면과 함께 본 발명의 실시예의 기술적 해결수단을 명확하고 완전하게 설명한다. 물론, 설명되는 실시예는 본 발명의 일부 실시예일 뿐, 전부의 실시예가 아니다. 본 발명의 실시예를 기반으로 본 기술분야의 통상의 기술자가 진보성 창출에 힘쓰지 않은 전제 하에 획득한 모든 다른 실시예들은 모두 본 발명의 보호범위에 포함된다.

본 발명의 일 실시예는 모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체를 제공하고, 상기 모델 트레이닝 방법은 생성적 적대 신경망 모델을 트레이닝하는 데 사용되며, 생성적 적대 신경망은 두 개의 신경망이 서로 경쟁하는 방식으로 학습하도록 하는 머신 러닝에서의 비지도 학습의 한 가지 방법이다. 생성적 적대 신경망은 하나의 생성 네트워크와 하나의 판별 네트워크로 이루어진다. 생성 네트워크는 잠재 공간(latent space)에서 랜덤으로 샘플링한 것을 입력으로 사용하고, 그 출력 결과는 트레이닝 세트 중의 실제 샘플을 최대한 모방해야 한다. 판별 네트워크의 입력은 실제 샘플 또는 생성 네트워크의 출력이고, 그 목적은 생성 네트워크의 출력을 실제 샘플과 최대한 구별하기 위함이다. 반면 생성 네트워크는 판별 네트워크를 최대한 속여야 한다. 두 개의 네트워크는 서로 대립하고 지속적으로 파라미터를 조정하며, 궁긍적인 목적은 판별 네트워크가 생성 네트워크의 출력 결과가 진실되는지 여부를 판정할 수 없게 만드는 것이다.

일부 실시 수단에서, 포지티브 샘플 및 네거티브 샘플을 동시에 이용하여 네거티브 샘플 데이터를 생성하여, 생성적 적대 신경망 모델을 트레이닝시킨다. 본 발명의 실시예의 원리는, 생성된 데이터와 네거티브 샘플 사이의 차이를 감소시키고, 생성 데이터와 포지티브 샘플 사이의 차이를 증가시키는 것이다. 이러한 방법으로 생성된 네거티브 샘플은 실제 네거티브 샘플에 근접하는 분포를 유지하지만 포지티브 샘플과는 충분한 분리 간격을 유지할 수 있다. 따라서 재구성된 데이터는 분류기로 하여금 포지티브 및 네거티브 클래스의 분리면을 더욱 잘 찾을 수 있도록 한다.

일부 실시 수단에서, 도 1에 도시된 바와 같이, 생성적 적대 신경망 모델은 생성기(generator) 및 두 개의 판별기(discriminator)를 포함한다. 다시 말해서, 모델 트레이닝 방법은 생성기 및 두 개의 판별기를 트레이닝하는 데 사용된다. 여기서, 상기 생성기의 출력은 두 개의 상기 판별기의 입력으로 사용되며, 두 개의 판별기가 각각 제1 판별기 및 제2 판별기라고 가정하면, 생성기는 입력된 랜덤 노이즈 데이터를 실제 네거티브 샘플과 근접한 분포를 갖는 데이터로 변환시켜 기준 샘플 데이터(네거티브 샘플 데이터)를 생성하여, 데이터 증강의 목적을 달성하도록 구성된다.

기준 샘플 데이터 및 기설정 네거티브 샘플 데이터를 제1 판별기에 입력하면, 제1 판별기는 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 차이를 판별한다. 즉 제1 판별기는 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터가 동일한 클래스에 속하는지 여부를 판정하도록 구성된다.

기준 샘플 데이터 및 기설정 네거티브 샘플 데이터를 병합하여 네거티브 클래스 데이터를 획득하고, 네거티브 클래스 데이터 및 기설정 포지티브 샘플 데이터를 제2 판별기에 입력하면, 제2 판별기는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 차이를 판별한다. 다시 말해서, 제2 판별기는 네거티브 클래스 데이터 및 기설정 포지티브 샘플 데이터가 동일한 클래스에 속하는지 여부를 판정하도록 구성된다.

도 2에 도시된 바와 같이, 상기 모델 트레이닝 방법은,

상기 생성기에 의해 기준 샘플 데이터를 생성하는 단계 S101;

제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하는 단계 S102;

제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출하는 단계 S103;

상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하는 단계 S104; 및

상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하는 단계 S105를 포함할 수 있다.

일부 실시 수단에서, 상기 생성기는 다수의 캐스케이드된 생성 유닛을 포함하고, 각각의 생성 유닛은 캐스케이드된 완전 연결 계층, 정규화 계층 및 leaky-ReLU 계층을 포함하며, 여기서, 정규화 계층은 batch-normalization 알고리즘 계층을 가리킬 수 있고, batch-normalization 알고리즘 계층은 기울기 폭발을 방지하는 데 사용되며, 일부 실시 수단에서, 제1 레벨의 생성 유닛에서 완전 연결 계층 및 leaky-ReLU 계층의 차원은 모두 256이고, 제2 레벨의 생성 유닛에서 완전 연결 계층 및 leaky-ReLU 계층의 차원은 모두 512이며, 제3 레벨의 생성 유닛에서 완전 연결 계층 및 leaky-ReLU 계층의 차원은 모두 1024이다.

단계 S101 이전에, 원시 데이터 세트 및 가우시안 분포를 갖는 랜덤 노이즈 데이터를 획득할 수 있고, 원시 데이터 세트에는 기설정 포지티브 샘플 데이터 및 네거티브 샘플 데이터가 포함된다.

일부 실시 수단에서, 라벨이 적은 샘플을 네거티브 샘플 데이터라고 하고, 라벨이 많은 샘플을 포지티브 샘플 데이터라고 하며, 네거티브 샘플의 라벨은 -1이고, 포지티브 샘플의 라벨은 1이다.

일부 실시 수단에서, 가우시안 분포를 갖는 랜덤 노이즈 데이터를 생성기의 입력 계층에 입력할 수 있고, 랜덤 노이즈 데이터의 차원은 100차원이며, 생성기는 랜덤 노이즈 데이터를 기반으로 기준 샘플 데이터를 생성할 수 있다.

일부 실시 수단에서, 상기 제1 판별기는 다수의 캐스케이드된 판별 유닛 및 sigmoid 계층을 포함하며, 마지막 레벨의 판별 유닛의 출력은 sigmoid 계층의 입력으로 사용되고, 각각의 상기 판별 유닛은 캐스케이드된 완전 연결 계층 및 leaky-ReLU 계층을 포함하며, 제1 레벨의 판별 유닛에서 완전 연결 계층 및 leaky-ReLU 계층의 차원은 모두 512이고, 제2 레벨의 판별 유닛에서 완전 연결 계층 및 leaky-ReLU 계층의 차원은 모두 256이다.

일부 실시 수단에서, 상기 제2 판별기 및 상기 제1 판별기는 구조가 동일하고, 상기 제2 판별기는 다수의 캐스케이드된 판별 유닛 및 sigmoid 계층을 포함하며, 마지막 레벨의 판별 유닛의 출력은 sigmoid 계층의 입력으로 사용되고, 각각의 상기 판별 유닛은 캐스케이드된 완전 연결 계층, leaky-ReLU 계층 및 sigmoid 계층을 포함한다.

기준 샘플 데이터와 네거티브 샘플 사이의 차이를 감소시키고, 기준 샘플 데이터와 포지티브 샘플 사이의 차이를 증가시키기 위해, 다시 말해서, 본 발명의 실시예의 목적은, 목표 샘플 데이터로 하여금, 제1 분류기에서 큰 오차를 발생하도록 하는(즉 목표 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 차이를 작게 만듬) 반면, 제2 분류기에서 작은 오차를 발생할 수 있도록 하는 것이다(즉 목표 샘플 데이터와 기설정 포지티브 샘플 데이터 사이의 차이를 크게 만듬).

따라서, 상기 단계에서는 제1 거리 및 제2 거리를 기반으로, 기준 샘플 데이터에서 기설정 샘플 균형 조건을 만족하는 목표 샘플 데이터를 선택할 수 있고, 기설정 샘플 균형 조건은 기설정 네거티브 샘플 데이터와의 차이가 작고, 기설정 포지티브 샘플 데이터와의 차이가 큰 것을 의미할 수 있다.

기설정 샘플 균형 조건을 만족하는 목표 샘플 데이터는 기준 샘플 데이터에서 제1 거리가 작고 제2 거리가 큰 목표 샘플 데이터이며, 예시적으로, 목표 샘플 데이터는 기준 샘플 데이터에서 제1 거리가 기설정 제1 임계값보다 작고 제2 거리가 기설정 제2 임계값보다 큰 목표 샘플 데이터를 의미할 수 있다.

일부 실시 수단에서, 상기 기설정 네거티브 샘플 데이터 및 상기 포지티브 샘플 데이터를 생성적 적대 신경망 모델에 입력하고, 생성적 적대 신경망 모델에 의해 출력된 출력 데이터와 상기 목표 샘플 데이터 사이의 차이를 기반으로, 출력 데이터와 상기 목표 샘플 데이터가 일치될 때까지 생성적 적대 신경망 모델의 모델 파라미터를 지속적으로 조정하여 생성적 적대 신경망 모델이 수렴됨을 결정하여, 상기 생성적 적대 신경망 모델을 획득함으로써, 데이터 증강에 사용할 수 있다.

본 발명의 실시예는, 생성기를 통해 기준 샘플 데이터를 생성하고, 제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하며, 제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출한 다음, 상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하고, 마지막으로, 상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득할 수 있다.

본 발명의 실시예는, 생성기를 통해 기준 샘플 데이터를 생성하고, 제1 거리 및 제2 거리를 기반으로 목적 함수를 결정하며, 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시킴으로써, 트레이닝이 완료된 생성적 적대 신경망 모델의 출력 데이터가 기설정 샘플 균형 조건을 만족할 수 있도록 하고, 적은 클래스의 샘플에 대해 별도의 데이터를 생성한다. 즉 생성된 출력 데이터는 두 가지 클래스의 샘플이 보다 균형을 이룰 수 있도록 하고, 별도의 데이터가 생성되기 때문에, 데이터양이 손실되지 않아 데이터 샘플 라벨이 불균형해지지 않는다.

일부 실시 수단에서, 도 3에 도시된 바와 같이, 상기 단계 S105는,

상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성기의 생성기 파라미터, 상기 제1 판별기의 제1 판별기 파라미터 및 상기 제2 판별기의 제2 판별기 파라미터를 획득하는 단계 S301; 및

상기 생성기 파라미터, 상기 제1 판별기 파라미터 및 상기 제2 판별기 파라미터를 상기 생성적 적대 신경망 모델에 입력하여, 상기 생성적 적대 신경망 모델을 획득하는 단계 S302를 포함할 수 있다.

이고,

본 발명의 실시예는, 목적 함수를 통해 모델 파라미터를 지속적으로 조정하여, 생성기 파라미터, 제1 판별기 파라미터 및 제2 판별기 파라미터를 최종적으로 획득할 수 있으므로, 생성적 적대 신경망 모델의 출력 데이터가 기설정 샘플 균형 조건을 만족하도록 하고, 적은 클래스의 샘플에 대해 별도의 데이터를 생성한다. 즉 생성된 출력 데이터는 두 가지 클래스의 샘플이 보다 균형을 이룰 수 있도록 하고, 별도의 데이터가 생성되기 때문에, 데이터양이 손실되지 않아 데이터 샘플 라벨이 불균형해지지 않는다.

본 발명은 또한 데이터 증강 방법에 관한 것이고, 도 4에 도시된 바와 같이, 상기 방법은,

전술한 방법 실시예에 따른 모델 트레이닝 방법을 통해 트레이닝된 생산적 적대 신경망 모델을 이용하여, 제2 네거티브 샘플 데이터를 생성하는 단계 S401; 및

기설정 포지티브 샘플 데이터 및 기설정 네거티브 샘플 데이터를 포함하는 원시 데이터 세트에 상기 제2 네거티브 샘플 데이터를 추가하여 새로운 데이터 세트를 획득하는 단계 S402를 포함한다.

일부 실시 수단에서, 생성적 적대 신경망 모델의 입력 데이터는 가우시안 분포를 갖는 랜덤 노이즈 데이터이고, 생성적 적대 신경망 모델을 이용하여 데이터 증강을 수행할 경우, 생성적 적대 신경망 모델의 입력 데이터는 상기 생성적 적대 신경망 모델의 트레이닝 시 생성기에 입력된 가우시안 분포를 갖는 랜덤 노이즈 데이터와 동일하다.

제2 네거티브 샘플 데이터와 기설정 네거티브 샘플 데이터의 총 수량은 일반적으로 기설정 포지티브 샘플 데이터의 수량과 동일해야 한다.

제2 네거티브 샘플 데이터가 생성된 후, 제2 네거티브 샘플 데이터에 대응되는 데이터 라벨을 -1로 설정한다(즉 기설정 네거티브 샘플 데이터의 라벨과 동일함).

일부 실시 수단에서, 생성된 제2 네거티브 샘플 데이터를 원래 데이터 세트에 추가하고, 전체 데이터 세트에 대해 랜덤 셔플(shuffle) 조작을 수행하여, 새로운 데이터 세트를 획득할 수 있다.

본 발명의 실시예는 제2 네거티브 샘플 데이터를 생성하고, 생성된 제2 네거티브 샘플 데이터를 원시 데이터 세트에 추가하여, 직접 트레이닝에 사용 가능한 새로운 데이터 세트를 획득할 수 있으며, 새로운 데이터 세트는 이에 적용되는 모델에 의존하지 않는다.

본 발명은 또한 모델 트레이닝 장치에 관한 것이며, 생성적 적대 신경망 모델은 생성기 및 두 개의 판별기를 포함하고, 상기 생성기의 출력은 두 개의 상기 판별기의 입력으로 사용되며, 도 5에 도시된 바와 같이, 상기 장치는,

상기 생성기에 의해 기준 샘플 데이터를 생성하도록 구성되는 생성 모듈(11);

제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하도록 구성되는 제1 산출 모듈(12);

제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출하도록 구성되는 제2 산출 모듈(13);

상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하도록 구성되는 선택 모듈(14); 및

상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하도록 구성되는 트레이닝 모듈(15)을 포함한다.

일부 실시 수단에서, 상기 트레이닝 모듈은 또한,

일부 실시 수단에서, 상기 목적 함수는,

이고,

본 발명은 또한 데이터 증강 장치에 관한 것이고, 도 6에 도시된 바와 같이, 상기 장치는,

전술한 방법 실시예에 따른 모델 트레이닝 방법을 통해 트레이닝된 생성적 적대 신경망 모델을 이용하여, 제2 네거티브 샘플 데이터를 생성하도록 구성되는 생성 모듈(21); 및

기설정 포지티브 샘플 데이터 및 기설정 네거티브 샘플 데이터를 포함하는 원시 데이터 세트에 상기 제2 네거티브 샘플 데이터를 추가하여 새로운 데이터 세트를 획득하도록 구성되는 추가 모듈(22)을 포함한다.

본 발명은 또한 프로세서, 통신 인터페이스, 메모리 및 통신 버스를 포함하는 전자 기기에 관한 것이며, 여기서, 상기 프로세서, 상기 통신 인터페이스, 상기 메모리는 상기 통신 버스를 통해 상호 간의 통신을 실현하고;

메모리는 컴퓨터 프로그램이 저장되도록 구성되며;

프로세서는 메모리에 저장된 프로그램이 실행될 경우, 전술한 방법 실시예에 따른 모델 트레이닝 방법 또는 전술한 방법 실시예에 따른 데이터 증강 방법을 구현하도록 구성된다.

본 발명의 실시예에 따른 전자 기기는, 프로세서에 의해 메모리에 저장된 프로그램을 실행함으로써, 생성기를 통해 기준 샘플 데이터를 생성하고, 제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하며, 제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출한 다음, 상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하고, 마지막으로, 상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득할 수 있는 본 발명의 실시예를 구현한다. 본 발명의 실시예는, 생성기를 통해 기준 샘플 데이터를 생성하고, 제1 거리 및 제2 거리를 기반으로, 기준 샘플 데이터에서 기설정 샘플 균형 조건을 만족하는 목표 샘플 데이터를 선택하며, 마지막으로, 목표 샘플 데이터, 기설정 네거티브 샘플 데이터 및 포지티브 샘플 데이터를 이용하여 생성적 적대 신경망 모델을 트레이닝시킴으로써, 트레이닝이 완료된 생성적 적대 신경망 모델의 출력 데이터가 기설정 샘플 균형 조건을 만족할 수 있도록 하고, 적은 클래스의 샘플에 대해 별도의 데이터를 생성한다. 즉 생성된 출력 데이터는 두 가지 클래스의 샘플이 보다 균형을 이룰 수 있도록 하고, 별도의 데이터가 생성되기 때문에, 데이터양이 손실되지 않아 데이터 샘플 라벨이 불균형해지지 않는다.

상기 전자 기기에서 언급한 통신 버스(1140)는 주변 장치 상호 연결 표준(Peripheral Component Interconnect, 약칭 PCI) 버스 또는 확장 산업 표준 구조(Extended Industry Standard Architecture, 약칭 EISA) 버스 등일 수 있다. 상기 통신 버스(1140)는 주소 버스, 데이터 버스, 제어 버스 등으로 나뉠 수 있다. 표시의 편의를 위해, 도 7에서는 하나의 굵은 선으로만 표시하였으나, 이는 한 가닥의 버스 또는 한 가지 유형의 버스만 존재함을 의미하지 않는다.

통신 인터페이스(1120)는 상기 전자 기기와 다른 기기 사이의 통신을 위해 구성된다.

메모리(1130)는 랜덤 액세스 메모리(Random Access Memory, 약칭 RAM)를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리와 같은 비휘발성 메모리(non-volatile memory)를 포함할 수도 있다. 일부 실시 수단에서, 메모리는 전술한 프로세서에서 멀리 떨어져 위치하는 적어도 하나의 저장 장치일 수도 있다.

상기 프로세서(1110)는 중앙 처리 장치(Central Processing Unit, 약칭 CPU), 네트워크 프로세서(Network Processor, 약칭 NP) 등을 포함하는 범용 프로세서일 수 있고; 디지털 신호 프로세서(Digital Signal Processing, 약칭 DSP), 특정 용도 집적 회로(Application Specific Integrated Circuit, 약칭 ASIC), 필드 프로그램 가능 게이트 어레이(Field-Programmable Gate Array, 약칭 FPGA) 또는 다른 프로그램 가능 논리 소자, 개별 게이트 또는 트랜지스터 논리 소자, 개별 하드웨어 컴포넌트 등일 수도 있다.

본 발명은 컴퓨터 판독 가능 저장 매체를 더 제공하며, 상기 컴퓨터 판독 가능 저장 매체에는 모델 트레이닝 방법의 프로그램 또는 데이터 증강 방법의 프로그램이 저장되어 있고, 상기 모델 트레이닝 방법의 프로그램이 프로세서에 의해 실행될 경우, 전술한 방법 실시예에 따른 모델 트레이닝 방법의 단계가 구현되며, 상기 데이터 증강 방법의 프로그램이 프로세서에 의해 실행될 경우, 본 발명에 따른 데이터 증강 방법의 단계가 구현된다.

또한, 본 명세서에서 “제1” 및 “제2” 등과 같은 관계 용어는 단지 하나의 엔티티 또는 조작을 다른 엔티티 또는 조작과 구별하기 위한 것일 뿐, 이러한 엔티티 또는 조작 사이에 어떠한 실질적인 관계 또는 순서가 존재함을 요구하거나 암시하는 것이 아니다. 또한, 용어 “포괄”, “포함” 또는 이들의 임의의 다른 변형은 비배타적 포함을 포함하도록 의도되어, 일련의 요소를 포함하는 과정, 방법, 물품 또는 장치가 이러한 요소들을 포함할 뿐만아니라, 명확하게 나열되지 않은 다른 요소도 포함하거나, 또는 이러한 과정, 방법, 물품 또는 기기에 고유한 요소도 포함한다. 더 많은 제한이 없는 경우, “하나의 ... ...을 포함”이라는 어구로 한정된 요소는 상기 요소를 포함하는 과정, 방법, 물품 또는 장치에 다른 동일한 요소도 존재함을 배제하지 않는다.

전술한 내용은 본 기술분야의 통상의 기술자가 본 발명을 이해하거나 구현할 수 있도록 하기 위한 본 발명의 구체적인 실시형태일 뿐이다. 이러한 실시예에 대한 다양한 수정은 본 기술분야의 통상의 기술자에게 있어서 자명하고, 본 명세서에 정의된 일반적인 원리는 본 발명의 사상 또는 범위를 벗어나지 않는 전제 하에 다른 실시예에서 구현될 수 있다. 따라서, 본 발명은 본 명세서에 제시된 이러한 실시예에 제한되지 않고, 본 명세서에 공개된 원리 및 신규 특징과 일치하는 가장 넓은 범위에 부합되어야 한다.

Claims

모델 트레이닝 방법으로서,
생성적 적대 신경망 모델은 생성기 및 두 개의 판별기를 포함하고, 상기 생성기의 출력은 두 개의 상기 판별기의 입력으로 사용되며, 상기 방법은,
상기 생성기에 의해 기준 샘플 데이터를 생성하는 단계;
제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하는 단계;
제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출하는 단계;
상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하는 단계; 및
상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하는 단계를 포함하는 모텔 트레이닝 방법.
제1항에 있어서,
상기 목적 함수의 최적화 목표는 상기 제1 거리를 최소화하고 상기 제2 거리를 최대화하는 것인 모텔 트레이닝 방법.
제1항 또는 제2항에 있어서,
상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하는 단계는,
상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성기의 생성기 파라미터, 상기 제1 판별기의 제1 판별기 파라미터 및 상기 제2 판별기의 제2 판별기 파라미터를 획득하는 단계; 및
상기 생성기 파라미터, 상기 제1 판별기 파라미터 및 상기 제2 판별기 파라미터를 상기 생성적 적대 신경망 모델에 입력하여, 상기 생성적 적대 신경망 모델을 획득하는 단계를 포함하는 모텔 트레이닝 방법.
제3항에 있어서,
상기 목적 함수는,

이고,
여기서, posData는 포지티브 클래스 데이터를 나타내며, negData는 네거티브 클래스 데이터를 나타내고, allData는 생성된 네거티브 클래스 데이터와 원래의 네거티브 클래스 데이터의 합집합을 나타내며, D₁은 제1 판별기 파라미터를 나타내고, D₂는 제2 판별기 파라미터를 나타내며, G는 생성기 파라미터를 나타내는 모텔 트레이닝 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 판별기 및 상기 제2 판별기는 구조가 동일하고, 상기 제1 판별기는 다수의 캐스케이드된 판별 유닛 및 sigmoid 계층을 포함하며, 마지막 레벨의 판별 유닛의 출력은 sigmoid 계층의 입력으로 사용되고, 각각의 상기 판별 유닛은 캐스케이드된 완전 연결 계층, leaky-ReLU 계층 및 sigmoid 계층을 포함하는 모텔 트레이닝 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 생성기는 다수의 캐스케이드된 생성 유닛을 포함하고, 각각의 생성 유닛은 캐스케이드된 완전 연결 계층, 정규화 계층 및 leaky-ReLU 계층을 포함하는 모텔 트레이닝 방법.
데이터 증강 방법으로서,
제1항 내지 제6항 중 어느 한 항에 따른 모델 트레이닝 방법을 통해 트레이닝된 생성적 적대 신경망 모델을 이용하여, 제2 네거티브 샘플 데이터를 생성하는 단계; 및
기설정 포지티브 샘플 데이터 및 기설정 네거티브 샘플 데이터를 포함하는 원시 데이터 세트에 상기 제2 네거티브 샘플 데이터를 추가하여 새로운 데이터 세트를 획득하는 단계를 포함하는 데이터 증강 방법
모델 트레이닝 장치로서,
생성적 적대 신경망 모델은 생성기 및 두 개의 판별기를 포함하고, 상기 생성기의 출력은 두 개의 상기 판별기의 입력으로 사용되며, 상기 장치는,
상기 생성기에 의해 기준 샘플 데이터를 생성하도록 구성되는 생성 모듈;
제1 판별기에 의해 기준 샘플 데이터와 기설정 네거티브 샘플 데이터 사이의 제1 거리를 산출하도록 구성되는 제1 산출 모듈;
제2 판별기에 의해 상기 기준 샘플 데이터 및 기설정 네거티브 샘플 데이터로 이루어지는 네거티브 클래스 데이터와 기설정 포지티브 샘플 데이터 사이의 제2 거리를 산출하도록 구성되는 제2 산출 모듈;
상기 제1 거리 및 상기 제2 거리를 기반으로 목적 함수를 결정하도록 구성되는 선택 모듈; 및
상기 생성적 적대 신경망 모델이 수렴될 때까지 상기 목적 함수를 이용하여 상기 생성적 적대 신경망 모델을 트레이닝시켜 상기 생성적 적대 신경망 모델을 획득하도록 구성되는 트레이닝 모듈을 포함하는 모델 트레이닝 장치.
데이터 증강 장치로서,
제8항에 따른 모델 트레이닝 방법을 통해 트레이닝된 생성적 적대 신경망 모델을 이용하여, 제2 네거티브 샘플 데이터를 생성하도록 구성되는 생성 모듈; 및
기설정 포지티브 샘플 데이터 및 기설정 네거티브 샘플 데이터를 포함하는 원시 데이터 세트에 상기 제2 네거티브 샘플 데이터를 추가하여 새로운 데이터 세트를 획득하도록 구성되는 추가 모듈을 포함하는 데이터 증강 장치.
프로세서, 통신 인터페이스, 메모리 및 통신 버스를 포함하는 전자 기기로서,
상기 프로세서, 상기 통신 인터페이스, 상기 메모리는 상기 통신 버스를 통해 상호 간의 통신을 실현하고;
상기 메모리는 컴퓨터 프로그램이 저장되도록 구성되며;
상기 프로세서는 메모리에 저장된 프로그램이 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 따른 모델 트레이닝 방법 또는 제7항에 따른 데이터 증강 방법을 구현하도록 구성되는 전자 기기.
컴퓨터 판독 가능 저장 매체로서,
모델 트레이닝 방법의 프로그램 또는 데이터 증강 방법의 프로그램이 저장되어 있고, 상기 모델 트레이닝 방법의 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제6항에 따른 모델 트레이닝 방법이 구현되며, 상기 데이터 증강 방법의 프로그램이 프로세서에 의해 실행될 경우, 제7항에 따른 데이터 증강 방법이 구현되는 컴퓨터 판독 가능 저장 매체.