KR20210062039A

KR20210062039A - 증강된 판별자를 훈련하기 위한 디바이스 및 방법

Info

Publication number: KR20210062039A
Application number: KR1020217011013A
Authority: KR
Inventors: 단 쟝; 안나 코레바
Original assignee: 로베르트 보쉬 게엠베하
Priority date: 2018-09-17
Filing date: 2019-08-13
Publication date: 2021-05-28
Also published as: EP3624021A1; JP2021536075A; US20210216857A1; WO2020057867A1; CN112673384A; JP7060762B2

Abstract

증강된 판별자(AD) 및 생성자(G)를 훈련하기 위한 컴퓨터-구현 방법이 개시되며, 이 방법은, - 증강된 판별자(AD)의 훈련을 위한 실제 훈련 샘플(x_d) 및 인공 훈련 샘플(x_g)을 포함하는 훈련 세트를 제공하는 단계로서, 인공 훈련 샘플(x_g)은 생성자(G)에 의해 생성되는, 단계; - 상기 훈련 세트의 적어도 하나의 데이터 샘플(x)에 데이터 시퀀스(s)를 할당하는 단계로서; - 데이터 샘플(x) 및 할당된 데이터 시퀀스(s)의 각각의 쌍(x, s)이 복수의 클래스 중 하나에 할당되고, 이에 따라 주어진 복수의 클래스 중 할당된 하나의 클래스 및 함께 취해진 할당된 데이터 시퀀스(s)는 상기 데이터 샘플(x)이 실제 훈련 샘플(x_d)인지 인공 훈련 샘플(x_g)인지를 특성규정함; - 데이터 샘플(x) 및 할당된 데이터 시퀀스(s)의 쌍(x, s)으로부터, 대응하는 쌍(s)이 할당되는 각각의 하나의 클래스(r_d)를 계산할 수 있도록 상기 증강된 판별자(AD)를 훈련하는 단계; - 상기 증강된 판별자(AD)가 상기 하나의 클래스(r_d)를 올바르게 계산할 수 없도록, 인공 훈련 샘플(x_d)을 생성할 수 있도록 상기 생성자(G)를 훈련하는 단계를 포함한다.

Description

증강된 판별자를 훈련하기 위한 디바이스 및 방법

본 발명은, 증강된 판별자를 훈련하기 위한 방법 및 시스템과, 머신-판독가능한 저장 매체에 관한 것이다.

생성 적대적 네트워크(Generative Adversarial Network) 또는 "GAN"은, "Generative Adversarial Networks", arXiv preprint arXiv:1406.2661v1, 2014, Goodfellow 등으로부터 알려져 있다.

독립항 1의 단계들을 갖는 방법은 생성 적대적 네트워크의 더 강력한 생성자(generator)를 달성함으로써, 생성 적대적 네트워크에서 훈련된 더 강력한 판별자(discriminator)를 제공하는 이점을 갖는다.

머신 학습에서, 데이터는 머신 학습 시스템을 훈련하는데 중요하지만, 동시에, 훈련을 위한 실제 데이터는 부족한 자원일 수 있다. 생성 모델링은, 합성 데이터 생성, 데이터 증강 및 전이 학습 등의 다양한 방식으로 데이터 세트를 풍부하게 하는데 도움이 될 수 있다. 실제 문제는 종종 고차원 확률 분포를 모델링할 것을 요구하기 때문에, 생성 모델링은 여전히 어려운 연구 문제로서 남아 있다.

생성 적대적 네트워크는 가장 성공적인 모델링 접근법 중 하나이다. GAN의 핵심 아이디어는, 일반적으로 판별자(D)와 생성자(G)라고 알려진, 2개의 플레이어를 위한 경쟁 게임을 셋업하는 것이다. 생성자는 훈련 데이터와 동일한 분포로부터 나오는 샘플을 생성하기 위해 노력한다. 반대로, 판별자는 그들을 구별하는 것을 목표로 한다.

수학적으로, D와 G의 목표는 최소-최대 문제로서 공식화될 수 있다:

(1)

여기서

는 실수값 함수 D(x)를 단위 간격 [0,1]에 맵핑하는 시그모이드 함수(sigmoid-function)를 나타낸다. P_G는 생성자(G)에 의해 관리되는 생성 분포이다. 판별자(D)는 2-클래스 분류 작업을 해결하며, 여기서, 2개의 클래스는 각각 P_data 및 P_G와 연관된다. 생성자(G)는 D를 속이려고 한다. 2 플레이어 게임이 Nash 균형에 도달하면, 획득된 생성 분포 P_G는 P_data와 동일해야만 하는 점이 나타날 수 있다.

취급용이성 문제(tractability issue)를 고려할 때, 함수 공간에서 G와 D를 직접 최적화하는 것은 이론적으로는 최적이지만 비현실적이다. 편리하게도, D와 G는 그들의 기능을 파라미터화하기 위해 심층 신경망, 예를 들어 DCGAN (예를 들어, "Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks", arXiv preprint arXiv:1511.06434v2, 2016, Alec Radford, Luke Metz, Soumith Chintala을 참조)을 채택할 수 있다.

또한, 대부분의 경우, G에 대한 신경망은 명시적으로 P_G가 아니라 P_G에 후속되는 샘플러를 모델링한다. 샘플러는 랜덤 노이즈 벡터 z를 입력으로서 취하고 합성 샘플 = G(z)를 획득하기 위해 변환 G를 적용한다. z와 G의 선행 분포 P_z는 공동으로 P_G를 정의한다.

확률적 경사 하강(SGD; stochastic gradient descent) 방법은 일반적으로 최소-최대 문제를 해결하기 위해 적용된다. G와 D의 신경망 파라미터들은, 수렴할 때까지 또는 소정의 중단 기준이 충족될 때까지 교대로 반복적으로 업데이트된다. 이러한 훈련 프로세스가 수렴하거나 원하는 Nash 평형으로 수렴한다는 보장이 없다는 점에 유의한다. 이러한 이유로, GAN의 성능은 응용에 따라 다르며, 훈련 초기화, 네트워크 아키텍쳐 및 하이퍼 파라미터 선택에 민감한 것으로 나타났다. 요약하면, GAN 훈련은 어려운 작업이다.

GAN의 잠재적인 실패에 대한 하나의 근본 이유는, 특히 최적화를 위해 SGD 방법과 결합할 때, 비용 함수의 공식화로부터 발생한다. 비용 함수는 판별자 D가 최적이 아닐 때 절대 포화되지 않는다. D가 최대 값을 넘어서면, 즉, D가 주어진 G에 대해 양호하게 최적화되고 G에 의해 생성된 합성 예와 실제 샘플을 신뢰성있게 구별할 수 있을 때, G를 더 업데이트하기 위한 경사가 사라진다. 결국, 최소-최대 게임은 원하는 최적에 도달하지 못한다. P_data 및 P_G의 지원은 각각 저차원 매니폴드(manifold)에 존재한다는 점에 유의하는 것도 중요하다. 2개의 매니폴드가 실제 문제에서 중첩되거나 완벽하게 정렬될 가능성이 낮기 때문에, D가 최대 값을 획득하는 것은 거의 사소한 일이다. 따라서, GAN 훈련 동안, 강력한 D는 G의 학습 프로세스에 해를 끼친다. 반면, 지나치게 단순화된 신경망을 의도적으로 선택함에 의한 약한 D는, G가 실측 자료를 학습하기 위한 올바른 피드백을 제공할 수 없다.

문제를 해결하기 위해, 문헌 연구는 전형적으로 비용 함수 재구성 및 훈련 프로세스 정규화에 의존한다. 위에서 언급된 Goodfellow 등에 의한 2014년 출판물에는, 방정식 (1)에서 비용 함수의 내측 최대 값이 P_data와 P_G 사이의 Jenson-Shannon 발산(JSD; Jenson-Shannon divergence)으로서 식별되는 것으로 나타났다. 이것은 2개의 분포의 유사성 측정값이며 0과 동일한 최소값은 P_data = P_G에서 달성된다.

본 발명에 의해 해결하고자 하는 문제는 GAN 훈련 과정 동안 D의 조기 포화를 피하는 것이다. 따라서, G와 D의 최적화 프로세스를 밸런싱하는 신규한 방법을 제공한다.

제안된 방법이 작동하는 이유를 설명하기 위해, 다음과 같은 수학적 고려사항을 고려하는 것이 편리하다. Jensen-Shannon 발산(JSD)은 분포 쌍들의 유사성 측정값이다. GAN은 그 JSD w.r.t. P_data가 최소화되도록 P_G를 최적화하는 것을 목표로 한다. 수학적으로, 방정식 (1)에서 캡처된 GAN은 다음과 같다

(2)

방정식 (2)에서 시작하여, 본 발명의 유도는 다음과 같은 핵심 사항에 기초한다:

2개의 분포 P_data(x) 및 P_G(x)를 혼합 분포 P(x)에 연결하는, 균일 분포를 갖는 2진 랜덤 변수 s가 도입되고

여기서

(3)

즉, P_data(x)와 P_G(x)는 P(x)의 2개의 모드인 반면, s는 모드 표시자이다. 이러한 구성하에서, x와 s 사이의 상호정보는 P_data(x)와 P_G(x)의 JSD와 같으므로

(4)

상호정보 I(s, x)는 공동 분포 P(x, s)와 분리 분포 P(x)P(s) 사이의 Kullback-Leibler(KL) 발산 측정값이다. 방정식 (4)의 목표는 상호정보를 최소화하는 것이므로, KL 발산을 JSD로 대체하는데 있어서 손실이 없다. 이들 양쪽 모두는, 동일한 상태, 즉, P(x, s)=P(s)P(x) 하에서 최소화된다. 수학적으로, 이 식별은 제2의 균등한 문제로 이어진다.

(5)

분리 분포 P(x)P(s)는 다음과 같이 분해될 수 있다

(6)

여기서,

그리고

여기서 Q(x, s)는 (3)에 정의된 바와 같이 P(x, s)의 상단에 모드 플립(mode flip)을 적용한 결과이다. P(x, s)와 P(x)P(s)를 동일하게 만드는 것은 본질적으로 P(x, s)를 Q(x, s)와 같게 만드는 것이고, 즉,

(7)

(7)에서 첫 번째 및 마지막 최소화 문제를 연결하는 하나의 방식은, s를, 샘플 x에 대한 1 비트 증강으로서 간주하는 것이다. P(x, s)에 기초한 하나의 규칙은 P_data(x) 및 P_G(x)로부터의 샘플들을 각각 0과 1로 증강하는 것이다. Q(x, s)로부터 도출된 다른 규칙은 단순히 그 반대이다. 종래의 GAN에서, P_data와 P_G 사이의 JSD는 데이터와 합성 샘플을 TRUE와 FAKE로 분류하여 판별자 D에 의해 추정된다.

따라서, 본 발명의 제1 양태에서, 증강된 판별자(AD) 및 생성자(G)를 훈련하기 위한 컴퓨터-구현 방법을 갖는 것이 구상된다. 증강된 판별자(AD)는 증강된 샘플들을 구별할 필요가 있다. 따라서, 본 발명의 제1 양태에 따른 방법은 다음과 같은 단계들을 포함한다

- 증강된 판별자(AD)의 훈련을 위한 실제 훈련 샘플(x_d) 및 인공 훈련 샘플(x_g)을 포함하는 훈련 세트를 제공하는 단계, 여기서 인공 훈련 샘플(x_g)은 생성자(G)에 의해 생성됨;

- 훈련 세트의 적어도 하나의 데이터 샘플(x)에 데이터 시퀀스(s)를 할당하는 단계;

- 여기서, 데이터 샘플(x) 및 할당된 데이터 시퀀스(s)의 각각의 쌍(x, s)이 복수의 클래스 중 하나에 할당되고, 이에 따라 주어진 상기 복수의 클래스 중 할당된 하나의 클래스 및 함께 취해진 상기 할당된 데이터 시퀀스(s)는 데이터 샘플(x)이 실제 훈련 샘플(x_d)인지 인공 훈련 샘플(x_g)인지를 특성규정함; 및

- 데이터 샘플(x) 및 할당된 데이터 시퀀스(s)의 쌍(x, s)으로부터, 대응하는 쌍(x, s)이 할당되는 각각의 하나의 클래스(r_d)를 계산할 수 있도록 증강된 판별자(AD)를 훈련하는 단계

- 증강된 판별자(AD)가 앞서 언급된 하나의 클래스(r_d)를 올바르게 계산할 수 없도록, 인공 훈련 샘플(x_d)을 생성할 수 있도록 생성자(G)를 훈련하는 단계.

바람직하게는, 복수의 클래스는 2개의 클래스로 구성되고, 즉, 2개의 클래스보다 많게도 적게도 포함하지 않는다.

P(x, s)와 Q(x, s)를 구별하도록 판별자 D를 구축할 수 있다는 점에 유의한다, 즉, (7)의 마지막 JSD. 대안적 솔루션은 (7)의 마지막에서 두번째 JSD에 표시된 바와 같이 P(x, s)와 P(s)P(x)를 구별하는 것일 수 있다. P(s)P(x)는 (6)에서 P(x, s)와 Q(x, s)의 혼합이기 때문에, 2개의 대조적인 분포는 사라지는 경사 문제(vanishing gradient issue)를 완화하기 위해 중첩된 지지대를 보장한다. 이것이 도 15에 도시되어 있다.

도 15a)에는 공동 분포 P(x, s)의 예시가 도시되어 있고, 도 15b)에는 인공 훈련 샘플 p_g의 및 실제 훈련 샘플 p_d의 주어진 분포에 대한 대응하는 모드-반전된 공동 분포 Q(x, s)의 예시가 도시되어 있다. r_d에 대응할 수 있는 클래스가 각각 TRUE 및 FALSE로 표시된다면, 도 15a)에 도시된 분포는 r_d = TRUE에 대응하는 반면, 도 15b)에 도시된 분포는 r_d = FALSE에 대응한다. 도 15c)에는 P(x, s)와 Q(x, s)의 산술 평균의 예시가 도시되어 있다.

도 15c)에 도시된 분포는 s = 0 및 1에서 2개의 동일한 모드를 갖는다. 도 15a)에 도시된 분포와 도 15c)에 도시된 분포의 지지대의 중첩을 볼 수 있다. 판별자를 속이기 위해, 생성자는 도 15a)의 s = 1에서의 모드가 동일한 위치에서 s = 0에서의 모드와 동일한 형상으로 수평으로 나타나도록 G를 최적화해야 한다. 이것이 발생할 때에만, 도 15c)에 도시된 분포가 도 15a)에 도시된 분포와 동일하게 된다. 그 이유는, P_g = P_d일 때, P_g의 곡선이 좌측으로 이동하여 P_d와 수평으로 정렬되고 동일한 형상을 갖기 때문이다.

이것이 발생하면, 도 15c)의 4개의 모드는 도 15a)와 동일한 2개의 모드로 축소될 것이다. 그러면, 2개의 분포가 동일하다. 증강된 판별자 AD는 P(x, s) 및 P(x) P(s)로부터의 샘플들을 구별할 수 없을 것이다.

이 방법에 대한 개선사항은 종속항들의 주제이다.

이러한 증강된 판별자는 다수의 응용을 갖는다. 예를 들어, 머신 학습 시스템에 제공된 입력 신호가 실제 훈련 예시 샘플(x_d)과 더 유사한지 또는 인공 훈련 샘플(x_g)과 더 유사한지를 분류하기 위한 훈련된 증강된 판별자를 이용하는 것을 생각해 볼 수 있고, 즉, 훈련된 증강된 판별자는 입력 신호가 실제 훈련 예제 샘플(x_d)과 더 유사한지 또는 인공 훈련 샘플(x_g)과 더 유사한지에 따라 입력 신호를 분류한다. 이것은, 예를 들어 입력 데이터에서의 이상(anomaly)을 검출하는데 이용될 수 있다.

대안으로서, 증강된 판별자의 훈련 동안에 훈련된 생성자가 판별자를 훈련하는데 이용될 수 있다. 이러한 판별자는 증강된 판별자보다 이용하기 쉽다.

본 발명의 또 다른 양태에서, 훈련된 생성자는 훈련 샘플을 생성하는데 이용될 수 있고, 훈련 샘플은 머신 학습 시스템을 훈련시키는데 이용될 수 있다. 그 다음, 이 머신 학습 시스템은 액츄에이터를 제어하는데 이용될 수 있으므로, 제어를 더 신뢰성 있거나 및/또는 더 정확하게 한다.

본 발명의 실시예들이 이하의 도면들을 참조하여 더 상세히 논의될 것이다. 도면들에서 :
도 1은 그 환경에서 액츄에이터를 제어하는 머신 학습 시스템을 갖는 액츄에이터 제어 시스템이다;
도 2는 적어도 부분적으로 자율적인 로봇을 제어하는 액츄에이터 제어 시스템이다;
도 3은 제조 머신을 제어하는 액츄에이터 제어 시스템이다;
도 4는 자동화된 개인 비서를 제어하는 액츄에이터 제어 시스템이다;
도 5는 액세스 제어 시스템을 제어하는 액츄에이터 제어 시스템이다;
도 6은 감시 시스템을 제어하는 액츄에이터 제어 시스템이다;
도 7은 촬영 시스템을 제어하는 액츄에이터 제어 시스템이다;
도 8은 머신 학습 시스템을 제어하기 위한 훈련 시스템이다;
도 9는 증강된 판별자 및 생성자를 훈련하기 위한 적대적 훈련 시스템이다;
도 10은 상기 적대적 훈련 시스템에 의해 실행되는 훈련 방법의 플로차트도이다;
도 11은 도 12에 도시된 훈련 시스템에 의해 실행되는 훈련 방법을 나타내는 플로차트도이다;
도 12는 판별자 D를 훈련하기 위한 훈련 시스템이다;
도 13은 훈련된 증강된 판별자를 이용하기 위한 방법을 나타내는 플로차트도이다;
도 14는 훈련된 생성자 G를 이용하는 방법을 나타내는 플로차트도이다;
도 15는 본 발명의 작동 방식을 나타내는 확률 분포의 예시이다.

도 1에는 그 환경(20) 내의 액츄에이터(10)의 하나의 실시예가 도시되어 있다. 액츄에이터(10)는 액츄에이터 제어 시스템(40)과 상호작용한다. 액츄에이터(10) 및 그 환경(20)은 공동으로 액츄에이터 시스템이라고 부를 것이다. 바람직하게는 균일하게 이격된 거리에서, 센서(30)는 액츄에이터 시스템의 상태를 감지한다. 센서(30)는 수개의 센서를 포함할 수 있다. 감지된 상태를 인코딩하는 센서(30)의 출력 신호(S)(또는 센서(30)가 복수의 센서를 포함하는 경우, 센서들 각각에 대한 출력 신호(S))가 액츄에이터 제어 시스템(40)에 전송된다.

이에 의해, 액츄에이터 제어 시스템(40)은 센서 신호(S) 스트림을 수신한다. 이것은 센서 신호(S) 스트림에 따라 일련의 액츄에이터 제어 명령어(A)를 계산하고, 제어 명령어는 액츄에이터(10)에 전송된다.

액츄에이터 제어 시스템(40)은 선택사항적 수신 유닛(50)에서 센서(30)의 센서 신호(S) 스트림을 수신한다. 수신 유닛(50)은 센서 신호(S)를 입력 신호(x)로 변환한다. 대안으로서, 수신 유닛(50)이 없는 경우, 각각의 센서 신호(S)가 입력 신호(x)로서 직접 취해질 수 있다. 입력 신호(x)는, 예를 들어, 센서 신호(S)로부터의 발췌물로서 주어질 수 있다. 대안으로서, 센서 신호(S)가 입력 신호(x)를 주도록 처리될 수 있다. 입력 신호(x)는, 예를 들어, 이미지 또는 비디오 녹화 프레임을 포함할 수 있다. 즉, 입력 신호(x)는 센서 신호(S)에 따라 제공된다.

그 다음, 입력 신호(x)는, 예를 들어 인공 신경망에 의해 제공될 수 있는 머신 학습 시스템(60)에 전달된다.

머신 학습 시스템(60)은, 파라미터 저장소(P)에 저장되고 이에 의해 제공되는 파라미터(θ)에 의해 파라미터화된다.

머신 학습 시스템(60)은 입력 신호(x)로부터 출력 신호(y)를 결정한다. 출력 신호(y)는 출력 신호(y)를 제어 명령어(A)로 변환하는 변환 유닛(80)에 전송된다. 그 다음, 액츄에이터 제어 명령어(A)가 액츄에이터(10)를 제어하기 위해 액츄에이터(10)에 전송된다.

액츄에이터(10)는 액츄에이터 제어 명령어(A)를 수신하고 그에 따라 제어되며 액츄에이터 제어 명령어(A)에 대응하는 조치를 실행한다. 액츄에이터(10)는, 액츄에이터 제어 명령어(A)를, 액츄에이터(10)를 제어하는데 이용되는 추가 제어 명령어로 변환하는 제어 로직을 포함할 수 있다.

추가 실시예에서, 액츄에이터 제어 시스템(40)은 센서(30)를 포함할 수 있다. 또 다른 추가 실시예에서, 액츄에이터 제어 시스템(40)은 대안으로서 또는 추가적으로 액츄에이터(10)를 포함할 수 있다.

또한, 액츄에이터 제어 시스템(40)은 프로세서(45)(또는 복수의 프로세서) 및 명령어가 저장되는 적어도 하나의 머신-판독가능한 저장 매체(46)를 포함할 수 있으며, 명령어는 실행될 경우 액츄에이터 제어 시스템(40)이 본 발명의 하나의 양태에 따른 방법을 실행하게 한다.

액츄에이터(10)에 대한 대안으로서 또는 추가적으로, 실시예는 액츄에이터 제어 명령어(A)에 따라 역시 제어될 수 있는 디스플레이 유닛(10a)을 포함할 수 있다.

상기의 모든 실시예에서, 머신 학습 시스템(60)은 입력 신호(x)가 미리정의된 속성을 갖는지의 여부를 검출하도록 구성된 판별자를 포함할 수 있다. 예를 들어, 머신 학습 시스템(60)은 입력 신호(x)가 추가 처리에 대해 신뢰성이 있는지의 여부를 결정하도록 구성될 수 있다.

출력 신호(y)는 입력 신호(x)가 미리정의된 속성을 갖는 것으로 판정되었는지의 여부에 따라 결정될 수 있다. 예를 들어, 출력 신호(y)는 입력 신호(x)가 신뢰성이 있는 것으로 결정된 경우 일반 출력 신호(y)에 대응하도록 선택될 수 있으며, 입력 신호(x)가 신뢰성이 있지 않다고 결정된 경우 액츄에이터(10) 및/또는 디스플레이 유닛(10a)이 안전 모드에서 동작되도록 하는 정보를 포함할 수 있다.

도 2는, 액츄에이터 제어 시스템(40)이 적어도 부분적으로 자율적인 로봇, 예를 들어 적어도 부분적으로 자율적인 차량(100)을 제어하는데 이용되는 실시예를 도시한다.

센서(30)는 하나 이상의 비디오 센서 및/또는 하나 이상의 레이더 센서 및/또는 하나 이상의 초음파 센서 및/또는 하나 이상의 LiDAR 센서 및 또는 하나 이상의 위치 센서(예를 들어, GPS)를 포함할 수 있다. 이들 센서 중 일부 또는 전부는 바람직하게는 차량(100)에 통합되지만 반드시 통합되는 것은 아니다. 대안으로서 또는 추가적으로 센서(30)는 액츄에이터 시스템의 상태를 결정하기 위한 정보 시스템을 포함할 수 있다. 이러한 정보 시스템의 하나의 예는 환경(20)에서 날씨의 현재 또는 미래 상태를 결정하는 날씨 정보 시스템이다.

예를 들어, 입력 신호(x)를 이용하여, 머신 학습 시스템(60)은 예를 들어 적어도 부분적으로 자율적인 로봇 근처에 있는 물체를 검출할 수 있다. 출력 신호(y)는 물체가 적어도 부분적으로 자율적인 로봇의 근처에 놓여 있는 위치를 특성규정하는 정보를 포함할 수 있다. 제어 명령어(A)는, 예를 들어 상기 검출된 물체와의 충돌을 피하기 위해 이 정보에 따라 결정될 수 있다.

바람직하게는 차량(100)에 통합되는 액츄에이터(10)는, 브레이크, 추진 시스템, 엔진, 구동계 또는 차량(100)의 조향장치에 의해 제공될 수 있다. 액츄에이터 제어 명령어(A)는, 차량(100)이 상기 검출된 물체와의 충돌을 피하도록 액츄에이터(또는 액츄에이터들)(10)가 제어되게 결정될 수 있다. 검출된 물체는 또한 머신 학습 시스템(60)이 예를 들어 가장 가능성이 높은 것으로 간주하는 것, 예를 들어 보행자 또는 나무에 따라 분류될 수 있고, 액츄에이터 제어 명령어(A)는 분류에 따라 결정될 수 있다.

추가 실시예에서, 적어도 부분적으로 자율적인 로봇은, 예를 들어, 비행, 수영, 다이빙 또는 스테핑에 의해 이동할 수 있는 또 다른 모바일 로봇(미도시)에 의해 제공될 수 있다. 모바일 로봇은, 특히, 적어도 부분적으로 자율적인 잔디 깎는 기계, 또는 적어도 부분적으로 자율적인 청소 로봇일 수 있다. 상기의 모든 실시예에서, 액츄에이터 명령어 제어(A)는 모바일 로봇이 상기 식별된 물체와의 충돌을 피할 수 있도록 모바일 로봇의 추진 유닛 및/또는 조향 장치 및/또는 브레이크가 제어되게 결정될 수 있다.

추가 실시예에서, 적어도 부분적으로 자율적인 로봇은, 환경(20) 내의 식물의 상태를 결정하기 위해 센서(30), 바람직하게는 광학 센서를 이용하는 원예 로봇(미도시)에 의해 제공될 수 있다. 액츄에이터(10)는 화학 물질을 분사하기 위한 노즐일 수 있다. 식별된 종 및/또는 식물의 식별된 상태에 따라, 액츄에이터 제어 명령어(A)는 액츄에이터(10)가 적절한 양의 적절한 화학 물질을 식물에 분사하게 하도록 결정될 수 있다.

또 다른 추가 실시예에서, 적어도 부분적으로 자율적인 로봇은, 가정용 기기(미도시), 예를 들어, 세탁기, 스토브, 오븐, 전자 레인지 또는 식기 세척기에 의해 제공될 수 있다. 센서(30), 예를 들어, 광학 센서는 가전 제품에 의해 처리될 물체의 상태를 검출할 수 있다. 예를 들어, 가정용 기기가 세탁기인 경우, 센서(30)는 세탁기 내부의 세탁물의 상태를 검출할 수 있다. 그러면, 검출된 세탁물 재료에 따라 액츄에이터 제어 신호(A)가 결정될 수 있다.

도 3에는, 액츄에이터 제어 시스템(40)이, 제조 머신(11), 예를 들어 생산 라인의 일부로서의, 예를 들어 제조 시스템(200)의 펀치 커터, 커터 또는 건 드릴을 제어하기 위해 이용되는 실시예가 도시되어 있다. 액츄에이터 제어 시스템(40)은, 결과적으로 제조 머신(11)을 제어하는 액츄에이터(10)를 제어한다.

센서(30)는 예를 들어 제조품(12)의 속성을 캡처하는 광학 센서에 의해 제공될 수 있다. 머신 학습 시스템(60)은 이들 캡처된 속성으로부터 제품(12)의 상태를 결정할 수 있다. 그 다음, 제조 머신(11)을 제어하는 액츄에이터(10)는 제품(12)의 후속 제조 단계를 위해 제품(12)의 결정된 상태에 따라 제어될 수 있다. 또는, 액츄에이터(10)가 제품(12)의 결정된 상태에 따라 후속 제품(12)의 제조 동안 제어되는 것을 구상해 볼 수 있다.

도 4에는 액츄에이터 제어 시스템(40)이 자동화된 개인 비서(250)를 제어하는데 이용되는 실시예가 도시되어 있다. 바람직한 실시예에서, 센서(30)는 인간 사용자(249)의 음성 명령어를 수신하는 음향 센서일 수 있다. 센서(30)는 또한, 예를 들어, 사용자(249)의 제스처의 비디오 이미지를 수신하기 위한 광학 센서를 포함할 수 있다.

그 다음, 액츄에이터 제어 시스템(40)은 자동화된 개인 비서(250)를 제어하기 위한 액츄에이터 제어 명령어(A)를 결정한다. 액츄에이터 제어 명령어(A)는 센서(30)의 센서 신호(S)에 따라 결정된다. 센서 신호(S)는 액츄에이터 제어 시스템(40)에 전송된다. 예를 들어, 머신 학습 시스템(60)은, 예를 들어 사용자(249)에 의해 이루어진 제스처를 식별하기 위해 제스처 인식 알고리즘을 실행하도록 구성되거나, 사용자(249)가 말한 음성 명령어를 식별하기 위해 음성 명령어 인식 알고리즘을 실행하도록 구성될 수 있다. 그 다음, 액츄에이터 제어 시스템(40)은 자동화된 개인 비서(250)로의 전송을 위한 액츄에이터 제어 명령어(A)를 결정할 수 있다. 그 다음, 상기 액츄에이터 제어 명령어(A)를 자동화된 개인 비서(250)에 전송한다.

예를 들어, 액츄에이터 제어 명령어(A)는 머신 학습 시스템(60)에 의해 인식된 식별된 사용자 제스처 또는 식별된 사용자 음성 명령어에 따라 결정될 수 있다. 그 다음, 이것은, 자동화된 개인 비서(250)가 데이터베이스로부터 정보를 회수하고 이 회수된 정보를 사용자(249)에 의한 수신에 적합한 형태로 출력하게 하는 정보를 포함할 수 있다.

추가 실시예에서, 자동화된 개인 비서(250) 대신에, 식별된 사용자 제스처 또는 식별된 사용자 음성 명령어에 따라 액츄에이터 제어 시스템(40)이 제어되는 가정용 기기(미도시)를 제어하는 것이 구상될 수 있다. 가정용 기기는, 세탁기, 스토브, 오븐, 전자 레인지 또는 식기 세척기일 수 있다.

도 5에는 액츄에이터 제어 시스템이 액세스 제어 시스템(300)을 제어하는 실시예가 도시되어 있다. 액세스 제어 시스템은 물리적으로 액세스를 제어하도록 설계될 수 있다. 이것은, 예를 들어, 도어(401)를 포함할 수 있다. 센서(30)는 액세스가 허용되는지 여부를 결정하는데 관련된 현장을 검출하도록 구성된다. 이것은, 예를 들어, 사람의 얼굴을 검출하기 위한 이미지 또는 비디오 데이터를 제공하기 위한 광학 센서일 수 있다. 머신 학습 시스템(60)은, 예를 들어 신원을 데이터베이스에 저장된 알려진 사람과 정합시켜 그 사람의 신원을 결정함으로써 이 이미지 또는 비디오 데이터를 해석하도록 구성될 수 있다. 그 다음, 액츄에이터 제어 신호(A)는, 머신 학습 시스템(60)의 해석에 따라, 예를 들어 결정된 신원에 따라 결정될 수 있다. 액츄에이터(10)는 액츄에이터 제어 신호(A)에 따라 액세스를 허용하거나 허용하지 않는 잠금장치일 수 있다. 비물리적, 논리적 액세스 제어도 역시 가능하다.

도 6에는, 액츄에이터 제어 시스템(40)이 감시 시스템(400)을 제어하는 실시예가 도시되어 있다. 이 실시예는 도 5에 도시된 실시예와 대체로 동일하다. 따라서, 상이한 양태만이 상세히 설명될 것이다. 센서(30)는 감시중인 현장을 검출하도록 구성된다. 액츄에이터 제어 시스템은 반드시 액츄에이터(10)만을 제어하는 것이 아니라 디스플레이(10a)도 제어한다. 예를 들어, 머신 학습 시스템(60)은 광학 센서(30)에 의해 검출된 현장이 의심스러운지를 결정할 수 있다. 디스플레이(10a)에 전송되는 액츄에이터 제어 신호(A)는, 예를 들어 디스플레이(10a)로 하여금 머신 학습 시스템(60)에 의해 의심스러운 것으로 간주된 물체를 강조하도록 구성될 수 있다.

도 7에는, 촬영 시스템(500), 예를 들어 MRI 장치, 엑스레이 촬영 장치 또는 초음파 촬영 장치를 제어하기 위한 액츄에이터 제어 시스템(40)의 실시예가 도시되어 있다. 센서(30)는 예를 들어 촬영 센서일 수 있고, 그 감지된 이미지는 머신 학습 시스템(60)에 의해 해석된다. 액츄에이터 제어 신호(A)는 이 해석에 따라 선택됨으로써, 디스플레이(10a)를 제어할 수 있다. 예를 들어, 머신 학습 시스템(60)은 감지된 이미지의 한 영역을 잠재적으로 비정상적인 것으로 해석할 수 있다. 이 경우, 액츄에이터 제어 신호(A)는 디스플레이(10a)로 하여금 그 촬영을 디스플레이하고 잠재적으로 비정상적인 영역을 강조하도록 결정될 수 있다.

도 8에는, 머신 학습 시스템(60)을 훈련하기 위한 훈련 시스템(140)의 실시예가 도시되어 있다. 훈련 데이터 유닛(150)은 머신 학습 시스템(60)에 전달되는 입력 신호(x)를 결정한다. 예를 들어, 훈련 데이터 유닛(150)은 훈련 데이터의 세트(T)가 저장된 컴퓨터-구현된 데이터베이스(Q)에 액세스할 수 있다. 세트(T)는 입력 신호(x) 및 대응하는 원하는 출력 신호(y_s)의 쌍들을 포함한다. 훈련 데이터 유닛(150)은 세트(T)로부터 예를 들어 무작위로 샘플을 선택한다. 선택된 샘플의 입력 신호(x)는 머신 학습 시스템(60)에 전달된다. 원하는 출력 신호(y_s)는 평가 유닛(180)에 전달된다.

머신 학습 시스템(60)은 입력 신호(x)로부터 출력 신호(y)를 계산하도록 구성된다. 이들 출력 신호(x)도 역시 평가 유닛(180)에 전달된다.

수정 유닛(160)은 평가 유닛(180)으로부터의 입력에 따라 업데이트된 파라미터 θ'를 결정한다. 업데이트된 파라미터 θ'는 현재 파라미터 θ를 대체하기 위해 파라미터 스토리지(P)에 전송된다.

예를 들어, 평가 유닛(180)이 출력 신호(y) 및 원하는 출력 신호(y_s)에 따라 손실 함수(

)의 값을 결정하는 것을 구상해 볼 수 있다. 그 다음, 수정 유닛(160)은, 예를 들어, 손실 함수(

)를 최적화하기 위한 확률적 경사 하강을 이용하여, 업데이트된 파라미터 θ'를 계산할 수 있다.

또한, 훈련 시스템(140)은 프로세서(145)(또는 복수의 프로세서) 및 명령어가 저장되는 적어도 하나의 머신-판독가능한 저장 매체(146)를 포함할 수 있으며, 명령어는 실행될 경우 액츄에이터 제어 시스템(140)이 본 발명의 하나의 양태에 따른 방법을 실행하게 한다.

도 9에는, 증강된 판별자(AD) 및 생성자(G)를 훈련하기 위한 적대적 훈련 시스템(141)이 도시되어 있다. 실제 훈련 샘플(x_d)은 실제 훈련 샘플 데이터베이스(R)에 저장되고 증강자(AU)에 전송된다.

난수 생성자(Z)는 미리정의된 분포 P(z)로부터 샘플링된 난수 z를 생성한다. 컴퓨터 생성된 난수는 의사난수일 수도 있다는 것을 잘 이해할 것이다. 이러한 이해는 본 특허 출원 전반에 걸쳐 묵시적으로 가정된다.

미리정의된 분포에 따라 난수를 생성하기 위한 방법은 본 기술분야의 통상의 기술자에게 널리 알려져 있다. 예를 들어, 미리정의된 분포 P(z)가 Gaussian 분포라면, 널리 알려진 Box-Muller 변환을 이용하여 균일하게 분포된 난수로부터 난수(또는 의사난수) z가 획득될 수 있다. 난수 z는 생성자(G)에 전달된다. 생성자(G)는 생성자 파라미터 Φ_G에 의해 파라미터화되고 입력에서 숫자 z를 인공 훈련 샘플(x_g)로 변환하는 함수로서 정의될 수 있다. 인공 훈련 샘플(x_g)은 증강자(AU)에 전달된다.

생성자(G)는, 예를 들어, 인공 훈련 샘플(x_g)과 실제 훈련 샘플(x_d)과 동일한 차원을 갖도록 이상적으로 차원이 지정된 인공 신경망에 의해 제공될 수 있다.

데이터 시퀀스 생성자(R_s)는 데이터 시퀀스(s)를 생성한다. 데이터 시퀀스(s)는 비트 스트림일 수 있다. 예를 들어, 데이터 시퀀스 생성자(R_s)는 균일하게 분포된 난수를 생성하는 난수 생성자일 수 있다. 이 생성된 데이터 시퀀스(s)도 증강자(AU)에 전달된다.

생성자 파라미터(Φ_G)는 제2 파라미터 스토리지(P2)에 저장되고 이에 의해 생성자(G)에 공급된다. 생성된 인공 훈련 샘플(x_g)은 증강자(AU)에 전달된다.

증강자(AU)는 훈련 샘플(x)로서 실제 훈련 샘플(x_d) 또는 인공 훈련 샘플(x_g)을 선택함으로써 훈련 샘플(x)을 생성하고, 생성된 훈련 샘플(x)과 데이터 시퀀스(s)의 쌍을 증강된 판별자(AD)에 전달한다. 또한, 증강자(AU)는 데이터 시퀀스(s)로부터 증강된 판별자(AD)의 원하는 결과(r_d)와 실제 훈련 샘플(x)에 대한 그 선택(즉, 훈련 샘플(x)로서 실제 훈련 샘플(x_d) 또는 인공 훈련 샘플(x_g)를 선택했는지)을 계산한다. 상기 원하는 결과(r_d)는 평가자(AS)에 전달된다.

증강된 판별자(AD)는, 수학 함수, 예를 들어, 판별자 파라미터(Φ_D)에 의해 파라미터화되는 인공 신경망을 포함한다. 판별자 파라미터(Φ_D)는 제2 파라미터 저장소(P2)에 저장되고 증강된 판별자(AD)에 제공된다. 이 수학 함수를 이용하여, 증강된 판별자(AD)는, 훈련 샘플(x) 및 데이터 시퀀스(s)에 따라 결과(r)를 계산한다. 결과(r)는 평가자(AS)에 전달된다.

수신된 결과(r) 및 수신된 원하는 결과(r_d)에 따라, 평가자(AS)는 새로운 판별자 파라미터(Φ'_D) 및/또는 새로운 생성자 파라미터(Φ'_G)를 계산하고 이들을 제2 파라미터 저장소(P2)에 전송하여 기존 판별자 파라미터(Φ'_D) 및/또는 생성자 파라미터(Φ'_G)를 대체한다.

또한, 적대적 훈련 시스템(141)은 프로세서(147)(또는 복수의 프로세서) 및 명령어가 저장되는 적어도 하나의 머신-판독가능한 저장 매체(148)를 포함할 수 있으며, 명령어는 실행될 경우 적대적 훈련 시스템(141)이 본 발명의 한 양태에 따른 방법을 실행하게 한다.

도 10은 적대적 훈련 시스템(141)에 의해 실행될 수 있는 생성자(G) 및 증강된 판별자(AD)를 훈련하기 위한 방법의 한 실시예를 나타내는 플로차트도이다.

먼저(1000), 실제 훈련 샘플(x_d)이 훈련 샘플 데이터베이스(R)로부터 회수된다.

그 다음(1100), 데이터 시퀀스 생성자(R_s)는 회수된 실제 훈련 샘플(x_d) 당 미리정의된 수의 데이터 시퀀스(s)를 생성한다. 바람직하게는, 이 미리정의된 수는 회수된 모든 실제 훈련 샘플(x_d)에 대해 동일하다. 이 수는 1보다 크지만, 회수된 실제 훈련 샘플(x_d) 당 하나의 생성된 데이터 시퀀스(s)도 옵션이다. 바람직한 실시예에서, 단계(1000)에서의 회수 동작은 실제 훈련 샘플(x_d)이 모든 훈련 샘플 세트로부터 복수회 추출될 가능성을 포함한다. 그 다음, 각각의 추출된 훈련 샘플(x_d)에 대해, 하나의 대응하는 데이터 시퀀스(s)가 생성된다. 동일한 훈련 샘플(x_d)이 다시 추출되면, 새로운 대응하는 데이터 시퀀스(s)가 생성된다(첫 번째 데이터 시퀀스와 동일할 수 있지만, 그렇지 않을 가능성이 큼).

생성된 데이터 시퀀스(s)의 길이는 미리정의된 길이일 수 있다. 이 미리정의된 길이는 모든 반복에서 고정될 수 있다. 그러나, 또 다른 실시예에서, 이것은 증강된 판별자(D)의 훈련 진행에 따라 즉석에서 증가할 수 있다(아래 단계(1300) 참조).

그 다음 실제 훈련 샘플(x_d)이 증강되고, 즉, 각각의 실제 훈련 샘플(x_d) 및 각각의 생성된 데이터 시퀀스(s)에 대해, 실제 훈련 샘플(x_d) 및 생성된 데이터 시퀀스(s)의 쌍(x_d, s)이 제공된다. 미리정의된 수가 1보다 크면, 실제 훈련 샘플(x_d)보다 더 많은 쌍이 있다.

또한, 증강자(AU)는 바람직하게는 논리 값 TRUE 또는 FALSE 중 어느 하나에 대응하는 원하는 결과(r_d)를 계산한다. 바람직한 실시예에서, r_d는 데이터 시퀀스(s)의 체크섬(즉, 그 비트들의 값들의 합)이 짝수이면 TRUE이고 홀수이면 FALSE이다.

다음 단계(1200)에서, 생성자(G)는 인공 훈련 샘플(x_g)을 생성한다. 실제 훈련 샘플(x_d)과 마찬가지로, 데이터 시퀀스 생성자(R_s)는 생성된 인공 훈련 샘플(x_g) 당 미리정의된 수의 데이터 시퀀스(s)를 생성한다.

그 다음, 인공 훈련 샘플(x_g)이 증강되고, 즉, 인공 훈련 샘플(x_g) 각각에 대해, 그리고 각각의 생성된 데이터 시퀀스(s)에 대해, 인공 훈련 샘플(x_g) 및 생성된 데이터 시퀀스(s)의 쌍(x_g, s)이 제공된다. 미리정의된 수가 1보다 크면, 인공 훈련 샘플(x_g)보다 더 많은 쌍이 있다.

또한, 증강된 AU는 원하는 결과(r_d)를 계산한다. 상기 바람직한 실시예에서, r_d는 데이터 시퀀스(s)의 체크섬(즉, 비트들의 값들의 합)이 홀수이면 TRUE이고 짝수이면 FALSE이다.

그 다음(1300), 증강된 판별자(AD)에는 훈련 샘플(x)과 생성된 데이터 시퀀스(s)의 쌍(x, s)이 제공되며, 쌍(x, s)은 단계(1100)에서 제공된 실제 훈련 샘플(x_d)과 생성된 데이터 시퀀스(s)의 쌍(x_d, s)이거나, 단계(1200)에서 제공된 실제 훈련 샘플(x_d)과 생성된 데이터 시퀀스(s)의 쌍(x_d, s)이다. 증강된 판별자(AD)는 결과(r)를 계산한다. 평가자(AS)는 쌍(x, s)으로부터 획득된 결과(r) 및 대응하는 원하는 결과(r_d)를 수신한다. 결과(r)와 원하는 결과(r_d)가 정합하지 않으면 처벌하는 손실 함수가 예를 들어 확률 경사 하강에 의해 최소화되도록, 새로운 판별자 파라미터(Φ'_D)가 계산된다(그리고 제2 파라미터 저장소(P2)에 저장된다).

선택사항으로서, 손실 함수의 값에 따라, 생성된 데이터 시퀀스(s)가 이에 의해 생성되는 미리정의된 길이는, 증강된 판별자(AD)의 성능이 임계값 레벨보다 양호하다면 모든 후속 실행에 대해 증가될 수 있다.

그 다음(1400), 생성자(G)의 훈련 절차가 수렴되었는지가 체크된다. 만일 그렇지 않다면(1500), 상기 손실 함수가 예를 들어 확률 경사 상승에 의해 최대화되도록 새로운 생성자 파라미터(Φ'_G)가 계산된다(그리고 제2 파라미터 저장소(P2)에 저장된다). 그 다음, 방법은 단계(1100)로 다시 반복된다. 만일 그렇다면(1600), 선택사항적인 단계에서, 실제 훈련 샘플(x_d) 또는 인공 훈련 샘플(x_g)을 공급받는 판별자(D)는, 자신에게 공급된 데이터 샘플이 실제 훈련 샘플(x_d)인지 인공 훈련 샘플(x_g)인지를 구별하도록 훈련될 수 있다. 이 방법의 하나의 가능한 실시예가 도 11에 예시되어 있다. 이것으로 이 방법을 종결한다.

이 방법의 하나의 대안적인 실시예에서, 각각의 생성된 데이터 시퀀스(s)는 각각 하나의 증강된 판별자와 연관될 수 있다. 이들은 모두 판별자들의 앙상블로서 훈련될 수 있으며, 생성된 데이터 시퀀스(s)의 각각의 실현은 상이한 판별자로 이어진다. 새로운 생성자 파라미터(Φ'_G)는, 평균 손실을 계산함으로써(즉, 앙상블의 판별자들의 전부 또는 일부에 대해 평균화) 업데이트되거나, 앙상블의 판별자들 중 가장 인기있는 결과를 취함으로써 업데이트될 수 있다.

도 11에는, 도 10의 단계(1600)에서 개요된 바와 같이 판별자(D)를 훈련하기 위한 방법의 하나의 실시예를 나타내는 플로차트도가 도시되어 있다. 판별자(D)를 훈련하기 위한 훈련 시스템(141)의 한 실시예가 도 12에 도시되어 있다. 이것은 도 9에 도시된 적대적 훈련 시스템과 대체로 동일하다. 따라서, 차이점만이 강조될 것이다. 증강된 판별자(AD) 대신에, 시스템은 판별자(D)를 훈련시킨다. 증강자(AU) 대신에, 실제 훈련 샘플(x_d) 및 인공 훈련 샘플(x_g)을 수신하는 선택자(SE)가 이용된다. 그러나, 어떠한 데이터 시퀀스 생성자(R_s)도 필요하지 않고 어떠한 데이터 시퀀스(s)도 필요하지 않다. 증강자(AU) 외에, 선택기(SE)는 단지 실제 훈련 샘플(x_d) 또는 인공 훈련 샘플(x_g)을 선택하고 이를 훈련 샘플(x)로서 판별자(D)에 전달한다. 판별자(D)에 의해 계산된 결과(r)는, 판별자(D)가 수신된 훈련 샘플(x)을 실제 훈련 샘플(x_d) 또는 인공 훈련 샘플(x_g)이라고 판단하는지를 나타낸다. 따라서, 원하는 결과(r_d)는, 훈련 샘플(x)이 정말로 실제 훈련 샘플(x_d)인지, 또는 인공 훈련 샘플(x_g)인지를 나타낸다.

도 11에 나타낸 방법은, 도 10에 나타낸 방법, 특히 단계들 (1100)-(1500)에 의해 생성자(G)가 훈련되는 것으로 시작된다(2000).

그 다음(2100), 이 미리훈련된 생성자(G)는 인공 훈련 샘플(x_g)을 생성한다. 나아가(2200), 실제 훈련 샘플(x_d)은 훈련 샘플 데이터베이스(R)로부터 회수된다.

이제(2300), 판별자(D)에는, 생성된 인공 훈련 샘플(x_g) 또는 회수된 실제 훈련 샘플(x_d)로부터 취해진 훈련 샘플(x)이 공급된다. 그 다음, 각각의 훈련 샘플에 대해, 판별자(D)는, 훈련 샘플(x)이 정말로 실제 훈련 샘플(x_d)인지, 또는 인공 훈련 샘플(x_g)인지를 나타내는 결과(r)를 계산한다. 이들 훈련 샘플(x)에 따라, 판별자(D)는 결과(r)를 생성한다. 결과(r) 및 원하는 결과(r_d)에 기초하여, 방정식 (1)의 내측 최대화에 따라 판별자(D)를 특성규정하는 파라미터(Φ_D)가 새로운 파라미터(Φ'_D)로 업데이트된다.

선택사항으로서, 중단 기준에 도달했는지가 이제 결정될 수 있다(2400). 그렇지 않은 경우(2500), 생성자(G)를 특성규정하는 파라미터(Φ_G)는 방정식(1)에 따라 새로운 파라미터(Φ'_G)로 업데이트되고, 이 방법은 다시 (2100)으로 반복된다. 중단 기준에 도달한 것으로 결정되면, 이 방법은 종료된다(2600).

훈련된 판별자(D)는, 입력 신호(x)를 수신하고 이 입력 신호(x)가 정말로 실제인지 인공적인지를 결정함으로써 머신 학습 시스템(60)의 일부로서 간단한 방식으로 이용될 수 있다. 예를 들어, 생성자(G)가 훈련 동안에 특정한 특성을 포함하는 신호를 생성하도록 구성되어 있고 이 특성이 실제 훈련 데이터에 존재하지 않는다면, 도 11에 도시된 알고리즘에서 예시된 생성자(G)를 갖는 GAN 셋업에서 훈련된 판별자(D)는 이 특정한 특성이 입력 신호(x)에 존재하는지 여부를 검출하도록 훈련될 것이다. 예를 들어, 판별자(D)는 입력 신호(x)가 시스템 침입자에 의해 수정되었는지 여부를 검출하도록 훈련될 수 있다. 그 다음, 출력 신호(y)는 이 특정한 특성이 검출되었는지 여부에 따라 선택될 수 있다.

도 13은 동일한 목적을 위해 머신 학습 시스템(60)의 일부로서 훈련된 증강된 판별자(AD)를 이용하는 방법의 한 실시예를 도시한다.

먼저(3000), 머신 학습 시스템(60)은 입력 신호(x), 예를 들어 이미지를 수신한다. 데이터 시퀀스(s), 바람직하게는 복수의 데이터 시퀀스(s)가 각각의 수신된 입력 신호(x)에 대해 생성된다. 이것은 예를 들어 도 9에 도시된 데이터 시퀀스 생성자(R_s)를 이용함으로써 달성될 수 있다.

그 다음(3100), 입력 신호(x) 및 데이터 시퀀스(s)의 각각의 쌍(x, s)에 대해, 증강된 판별자(AD)가 결과(r)를 계산한다.

그 다음(3200), 상기의 쌍(x, s) 각각에 대해, 생성자(G)에 의해 생성될 수 있는 기준 신호(x_t)가 데이터 시퀀스(s)와 결합되어 증강된 판별자(AD)에 공급된다. 이 입력으로부터, 증강된 판별자(AD)는 기준 결과(r_t)를 계산한다. 대안으로서, 기준 신호(x_t)는 실제 훈련 샘플 데이터베이스(R)로부터 취해진 실제 훈련 샘플(x_d) 중 하나일 수 있다.

그 다음(3300), 각각의 입력 신호(x)에 대해, 증강된 판별자(AD)가 이것을 실제 샘플 유형으로 또는 인공 샘플 유형으로 분류했는지가 판정된다. 이를 위해, 각각의 데이터 시퀀스(s)에 대해, 증강된 판별자(AD)로부터 획득된 결과(r)가 기준 결과(r_t)와 비교된다. 이들이 동일하다면, 입력 신호(x)는 기준 신호(x_t)와 동일한 유형인 것으로 판정된다(즉, 기준 신호(x_t)가 실제 훈련 샘플 데이터베이스(R)로부터 취해진 경우 실제 샘플 유형이고 기준 신호(x_t)가 생성자(G)에 의해 생성된 경우 인공 샘플 유형임). 이들이 동일하지 않다면, 입력 신호(x)는 기준 신호(x_t)의 유형과는 상이한 유형인 것으로 판정된다(즉, 기준 신호(x_t)가 실제 훈련 샘플 데이터베이스(R)로부터 취해진 경우 인공 샘플 유형이고 기준 신호(x_t)가 생성자(G)에 의해 생성된 경우 실제 샘플 유형임).

복수의 데이터 시퀀스(s)가 생성된 경우, 입력 신호(x)가 실제 샘플 유형인지 인공 샘플 유형인지의 판정은 모든 데이터 시퀀스(s)를 이용하여 다수결에 의해 이루어질 수 있다. 선택사항으로서, 충분히 확실한 다수가 없는 경우(예를 들어, 모든 데이터 시퀀스(s)의 미리정의된 비율 이상, 예를 들어 30% 이상의 다수결 판정이 불일치인 경우), 그 판정은 결론을 주지 못하는 것으로 판정될 수 있다.

마지막으로(3400), 입력 신호(x)에 대한 상기의 판정에 기초하여, 상이한 조치들이 취해질 수 있다. 입력 신호(x)가 인공 샘플 유형인 것으로 판정되면(3500), 출력 신호(y)와 이에 대응하는 액츄에이터 제어 신호(A)는 액츄에이터(A)의 작동이 안전 모드로 전환되도록 선택될 수 있다. 입력 신호(x)가 실제 샘플 유형인 것으로 판정되면(3600), 액츄에이터(A)의 작동 모드가 유지되도록 출력 신호(y)가 선택될 수 있고, 즉, 현재 정상 모드에서 작동 중이라면 정상 모드에서의 작동이 지속될 것이다. 현재 안전 모드에서 동작중이라면, 안전 모드에서의 작동이 지속될 것이다. 입력 신호(x)에 대한 판정이 결론을 주지 못하는 것이라면(3700), 그 입력 신호(x)는 작동을 위해 무시될 수 있고, 예를 들어, 출력 신호(y)는 이전 시간 단계로부터 복사될 수 있다.

도 14에는, 액츄에이터 제어 시스템(40)의 일부일 수도 있고 아닐 수도 있는 머신 학습 시스템(60)을 훈련시키기 위해 생성자(G)가 이용되는 방법의 한 실시예를 나타내는 플로차트도가 도시되어 있다.

먼저(4000), 생성자(G)는 도 10에 나타낸 방법으로 훈련된다. 그 다음(4100), 생성자(G)가 이용되어 인공 훈련 샘플(x)의 세트를 생성한다. 대응하는 원하는 출력 신호(y_s)는 적절한 방법으로 생성된다. 예를 들어, 인공 훈련 샘플(x)이 인간 전문가에게 제시될 수 있고, 상기 인간 전문가에 의해 입력된 대응하는 출력 신호(y_s)가 수신될 수 있다.

(대안으로서, 인간 전문가가 모든 인공 훈련 샘플(x)을 라벨링하는 것 대신에, 생성자(G)가 인공 훈련 샘플(x)과 함께 원하는 출력 신호(y_s)를 생성하도록 훈련되었을 수 있다. 그 다음, 생성자(G)가 이용되어 원하는 출력 신호(y_s)를 생성할 수 있다. 이러한 방식으로 생성자(G)를 훈련하려면, 몇개의 라벨링된 훈련 데이터 샘플(예를 들어, 인간 전문가가 라벨링함)에서 시작하여 도 9 및 10에서 전술된 바와 같이 G를 훈련할 수 있고, 여기서 훈련 샘플(x)은 훈련 샘플(x) 및 대응하는 출력 신호(y_s)의 쌍(x, y_s)으로 대체되어야 한다.

인공 훈련 샘플(x) 및 대응하는 출력 신호(y_s)의 쌍(x, y_s)은 훈련 데이터 세트(T)에 추가되고 컴퓨터-구현된 데이터베이스(Q)에 저장될 수 있다.

머신 학습 시스템(60)은 훈련 시스템(140)을 이용하여 훈련될 수 있다(4200). 액츄에이터 제어 시스템(40)은 머신 학습 시스템(60)에 의해 생성된 출력 신호(y)에 따라 액츄에이터(10) 및/또는 디스플레이 유닛(10a)을 제어(4300)할 수 있다. 이것으로 이 방법을 종결한다.

Claims

증강된 판별자(AD) 및 생성자(G)를 훈련하기 위한 컴퓨터-구현 방법이며,
- 증강된 판별자(AD)의 훈련을 위해 실제 훈련 샘플(x_d) 및 인공 훈련 샘플(x_g)을 포함하는 훈련 세트를 제공하는 단계로서, 상기 인공 훈련 샘플(x_g)은 생성자(G)에 의해 생성되는, 단계;
- 상기 훈련 세트의 적어도 하나의 데이터 샘플(x)에 데이터 시퀀스(s)를 할당하는 단계;
- 여기서, 데이터 샘플(x) 및 할당된 데이터 시퀀스(s)의 각각의 쌍(x, s)이 복수의 클래스 중 하나에 할당되고, 이에 따라 주어진 복수의 클래스 중 할당된 하나의 클래스 및 함께 취해진 할당된 데이터 시퀀스(s)는 상기 데이터 샘플(x)이 실제 훈련 샘플(x_d)인지 인공 훈련 샘플(x_g)인지를 특성규정함; 및
- 데이터 샘플(x) 및 할당된 데이터 시퀀스(s)의 쌍(x, s)으로부터, 대응하는 쌍(s)이 할당되는 각각의 하나의 클래스(r_d)를 계산할 수 있도록 상기 증강된 판별자(AD)를 훈련하는 단계;
- 상기 증강된 판별자(AD)가 상기 하나의 클래스(r_d)를 올바르게 계산할 수 없도록, 인공 훈련 샘플(x_d)을 생성할 수 있도록 상기 생성자(G)를 훈련하는 단계
를 포함하는, 컴퓨터-구현 방법.
제1항에 있어서, 상기 데이터 시퀀스(s)는 무작위로 선택되는, 컴퓨터-구현 방법.
제1항 또는 제2항에 있어서, 상기 데이터 시퀀스(s)는 미리정의된 길이를 가지며, 상기 미리정의된 길이는 훈련 동안 상기 증강된 판별자(AD)의 성능의 진보에 따라 훈련 동안 증가되는, 컴퓨터-구현 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 데이터 샘플(x) 및 할당된 데이터 시퀀스(s)의 대응하는 복수의 쌍(x, s)을 생성하기 위해 복수의 데이터 시퀀스(s)가 상기 훈련 세트의 각각의 데이터 샘플(x)에 할당되는, 컴퓨터-구현 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 각각의 데이터 시퀀스(s)는 2개의 클래스 중 어느 하나에 할당되고, 상기 쌍(x, s)이 할당되는 클래스(r_d)는 상기 데이터 샘플(x)이 실제 훈련 샘플(x_d)인지 또는 인공 훈련 샘플(x_g)인지에 따라 그리고 상기 데이터 시퀀스(s)가 할당된 클래스(r_d)에 따라 결정되는, 컴퓨터-구현 방법.
제5항에 있어서, 상기 데이터 시퀀스(s)가 할당된 주어진 클래스에 대해, 상기 쌍(x, s)이 할당되는 클래스(r_d)는 상기 데이터 샘플(x)이 실제 훈련 샘플(x_d)인지 또는 인공 훈련 샘플(x_g)인지에 따라 상이한, 컴퓨터-구현 방법.
제5항 또는 제6항에 있어서, 데이터 시퀀스(s)가 할당되는 클래스는 데이터 시퀀스(s)의 모든 비트에 의존하는, 컴퓨터-구현 방법.
제5항 내지 제7항 중 어느 한 항에 있어서, 각각의 클래스에 할당되는 데이터 시퀀스(s)의 수는 모든 클래스에 대해 동일한, 컴퓨터-구현 방법.
제5항 내지 제8항 중 어느 한 항에 있어서, 상기 데이터 시퀀스(s)는 상기 데이터 시퀀스(s)의 체크섬에 따라 클래스에 할당되는, 컴퓨터-구현 방법.
머신 학습 시스템(60)에 제공되는 입력 신호(x)가 실제 훈련 예시 샘플(x_d)과 더 유사한지 또는 인공 훈련 샘플(x_g)과 더 유사한지를 분류하기 위해 제1항 내지 제9항 중 어느 한 항에 따른 방법에 의해 훈련된 증강된 판별자(AD)가 이용되는 컴퓨터-구현 방법이며, 액츄에이터 제어 시스템(40)에 의해 생성된 액츄에이터 제어 신호(A)는 상기 머신 학습 시스템(60)의 출력 신호(y)에 따라 생성되고,
상기 출력 신호(y)는 상기 입력 신호(x)가 분류된 클래스에 따라 생성되며,
상기 입력 신호(x) 및 생성된 데이터 시퀀스(s)의 쌍(x, s)이 상기 증강된 판별자(AD)에 제공되어, 이에 따라 상기 증강된 판별자(AD)가 결과(r)를 출력하고, 실제 훈련 예시 샘플(x_d)과 더 유사한지 또는 인공 훈련 샘플(x_g)과 더 유사한지가 알려져 있는 기준 신호(x_t)가 제공되고, 상기 기준 신호(r_t) 및 상기 생성된 데이터 시퀀스(s)의 기준 쌍(x_t, s)이 상기 증강된 판별자(AD)에 제공되어, 이에 따라 상기 증강된 판별자(AD)가 기준 결과(r_t)를 출력하고, 상기 결과(r) 및 상기 기준 결과(r_t)에 따라, 특히, 상기 결과(r)와 상기 기준 결과(r_t)의 비교 결과에 따라, 상기 입력 신호(x)가 실제 훈련 예시 샘플(x_d)과 더 유사한지 또는 인공 훈련 샘플(x_g)과 더 유사한지가 결정되는, 컴퓨터-구현 방법.
판별자(D)에게 제공되는 데이터 샘플(x)이 2개의 미리정의가능한 클래스 중 어느 것에 속하는지를 구별할 수 있도록 상기 판별자(D)를 훈련하기 위한 컴퓨터-구현 방법이며,
- 제1항 내지 제10항 중 어느 한 항에 따른 방법으로 생성자(G)를 훈련하는 단계;
- 상기 훈련된 생성자(G)에 의해 생성된 실제 훈련 샘플(x_d) 및 인공 훈련 샘플(x_g)을 포함하는 제2 훈련 세트를 제공하는 단계; 및
- 상기 제2 훈련 세트를 이용하여 데이터 샘플(x)이 실제 훈련 샘플(x_d)인지 또는 인공 훈련 샘플(x_g)인지를 구별할 수 있도록 상기 판별자(D)를 훈련하는 단계
를 포함하는, 컴퓨터-구현 방법.
제11항에 있어서, 머신 학습 시스템(60)에 제공되는 입력 신호(x)가 실제 훈련 예시 샘플(x_d)과 더 유사한지 또는 인공 훈련 샘플(x_g)과 더 유사한지를 분류하기 위해 상기 판별자(D)가 이용되고, 액츄에이터 제어 시스템(40)에 의해 생성된 액츄에이터 제어 신호(A)는 상기 머신 학습 시스템(60)의 출력 신호(y)에 따라 생성되고,
상기 출력 신호(y)는 상기 입력 신호(x)가 분류된 클래스에 따라 생성되며,
상기 입력 신호(x)는 상기 증강된 판별자(D)에 제공되어, 이에 따라 상기 판별자(D)가 결과(r)를 출력하고, 상기 결과(r)에 따라 상기 입력 신호(x)가 상기 실제 훈련 예시 샘플(x_d)과 더 유사한지 또는 인공 훈련 샘플(x_g)과 더 유사한지가 결정되는, 컴퓨터-구현 방법.
적어도 하나의 액츄에이터(30)를 포함하는 물리적 시스템을 제어하기 위한 제어 신호(A)를 계산하기 위해 머신 학습 시스템(60), 특히 신경망을 훈련하기 위한 훈련 샘플(x)을 생성하기 위한 컴퓨터-구현 방법이며,
- 제1항 내지 제9항 중 어느 한 항에 따른 방법으로 생성자(G)를 훈련하는 단계;
- 훈련 샘플(x)을 생성하기 위해 상기 생성자(G)를 이용하는 단계
를 포함하는, 컴퓨터-구현 방법.
적어도 하나의 액츄에이터(30)를 포함하는 물리적 시스템을 제어하기 위한 액츄에이터 제어 신호(A)를 계산하기 위해 머신 학습 시스템(60), 특히 신경망을 훈련하기 위한 컴퓨터-구현 방법이며,
- 제13항의 방법으로 훈련 샘플(x)을 생성하는 단계, 및
- 상기 훈련 샘플(x)로 상기 머신 학습 시스템(60)을 훈련하는 단계
를 포함하는, 컴퓨터-구현 방법.
제10항 또는 제12항 또는 제14항에 있어서, 액츄에이터(10)는 액츄에이터 제어 신호(A)에 따라 제어되는, 컴퓨터-구현 방법.
제15항에 있어서, 상기 액츄에이터(10)는 적어도 부분적으로 자율적인 로봇(100) 및/또는 제조 머신(200) 및/또는 자동화된 개인 비서(250) 및/또는 액세스 제어 시스템(300)을 제어하는, 컴퓨터-구현 방법.
제10항 또는 제12항 또는 제14항에 있어서, 감시 시스템(400)의 디스플레이(10a)가 액츄에이터 제어 신호(A)에 따라 제어되는 경우, 상기 입력 신호(x)는 감시 중인 현장을 검출하는 센서(30)의 센서 신호(S)에 따라 제공되고, 또는 촬영 시스템(500)의 디스플레이(10a)가 액츄에이터 제어 신호(A)에 따라 제어되는 경우, 상기 입력 신호(x)는 상기 촬영 시스템(500)의 촬영 센서(30)의 센서 신호(S)에 따라 제공되는, 컴퓨터-구현 방법.
프로세서(45, 145, 147)에 의해 실행되는 경우 제1항 내지 제17항 중 어느 한 항에 따른 방법을 그 모든 단계와 함께 실행하도록 구성된 컴퓨터 프로그램.
제18항에 따른 컴퓨터 프로그램이 저장된 머신-판독가능한 저장 매체(46, 146, 148).
제10항에 따른 방법을 실행하도록 구성된 액츄에이터 제어 시스템(40).
제1항 내지 제9항 중 어느 한 항에 따른 방법을 실행하도록 구성된 적대적 훈련 시스템(141).