KR20230162698A

KR20230162698A - 신경망의 인과 학습에 대한 프레임워크

Info

Publication number: KR20230162698A
Application number: KR1020237037422A
Authority: KR
Inventors: 박준호
Original assignee: 박준호
Priority date: 2021-03-30
Filing date: 2022-03-30
Publication date: 2023-11-28
Also published as: WO2022164299A1; US20230359867A1; KR102656365B1

Abstract

본 발명은 데이터 세트가 갖는 관측 데이터와 관측치의 레이블 사이의 인과 관계를 발견하고 설명, 추론, 및 생성에 대한 인과 추론을 각 모델에 훈련시키는 인과 협력 망 프레임워크를 개시한다. 지도 학습의 경우, 관측 입력에 대한 레이블의 예측을 통해 신경망이 조정된다. 반면, 설명자, 사유자, 및 생산자 신경망 모델을 포함하는 인과 협력 망은 관측치와 레이블을 쌍으로 받아, 다양한 출력 결과를 도출하고 입력과 출력으로부터 추론, 생성, 및 재구성의 손실 집합을 계산한다. 설명자, 사유자 및 생산자는 손실 집합에서 얻은 각 모델에 대한 오차 전파를 통해 조정된다.

Description

신경망의 인과 학습에 대한 프레임워크

본 발명은 신경망의 인과학습을 위한 새로운 프레임워크를 소개한다. 구체적으로, 본 발명에서 제시되는 이 프레임워크는 주데아 펄의 인과 관계 사다리, 인과 모델, 신경망, 지도 학습, 머신러닝 프레임워크 등과 관련된 배경 이론과 기술을 기반으로 이해할 수 있다.

머신러닝은 신경망이 비선형 문제를 해결하면서 정교하고 세부적인 작업을 처리할 수 있게 한다. 최근에는 머신러닝에서 새로운 프레임워크를 찾아내어 신경망이 적응, 다양화 및 지능을 갖추도록 하는 연구가 진행되고 있다. 이러한 새로운 프레임워크를 채택한 기술도 빠르게 발전하고 있다.

어려운 비선형 문제의 인과 모델링을 위해 신경망에서 인과 추론을 훈련시키는 다양한 연구가 진행되고 있다. 이러한 방식으로 인과학습을 위한 보편적인 프레임워크의 개발이 진행되고 있지만, 지도 학습과 같은 머신러닝의 주요 프레임워크에 비해 큰 성공을 거두지 못하고 있다.

지금까지 알려진 신경망의 인과 학습은 일반적으로 훈련 시간이 길고 분석이 이해하기 어렵기 때문에 실제로 사용하기가 쉽지 않다. 따라서 다양한 문제에 대한 도메인에서 인과 관계를 발견하고 발견된 인과 관계를 기반으로 인과 추론을 수행할 수 있는 보편적인 프레임워크가 필요하다.

(비특허 문헌 1) 스탠퍼드 철학 백과사전 - 인과 모델 (https://plato.stanford.edu/entries/causal-models/)

본 발명은 위에서 설명한 기술의 문제점을 해결하기 위해 고안되었으며, 본 발명의 목적은 다음과 같다.

소스 도메인과 타겟 도메인 간의 인과 관계를 발견하고 인과 추론으로 신경망을 학습시키는 방법을 제공한다.

통계로부터 인과 관계를 발견하여 관측 데이터의 속성을 객관적으로 설명하는 방법을 제공한다. 독립 변수의 제어 하에 변화하는 인과 효과를 예측하는 인과 모델링을 위한 신경망 학습 프레임워크를 제공한다.

본 발명에서 달성하고자 하는 목표는 위에서 언급한 것에 한정되지 않으며, 하기에서 설명하는 본 발명의 실시예에 따라 이들 기술 분야에서 일반적으로 숙련된 사람들에게 명확해질 것이다.

본원발명의 공개 목적에 따라 상기에서 설명한 목적 및 효과를 달성하기 위해, 본원발명에서는 신경망의 인과 학습을 위한 프레임워크가 제공된다. 프레임워크는 소스 도메인에서의 관측값과 타겟 도메인에서의 관측값에 대한 레이블을 수신하도록 형성되는 협력 망을 포함하고, 협력 망은 소스 도메인과 타겟 도메인 사이의 인과 관계를 학습한다. 그것들은 "설명자 620", "사유자 630", 그리고 "생산자 640"의 모델을 통해 학습되며, 각각은 신경망을 포함한다. 설명자 620은 입력 관측값 605에서 상기 관측값 605에 대한 설명을 나타내는 설명 벡터 625를 추출하여 상기 사유자 630 및 상기 생산자 640에게 상기 설명 벡터를 전송한다. 상기 사유자 630는 입력 관측값 605 및 수신된 상기 설명 벡터 625로부터 레이블을 추론하고 추론된 레이블 635을 상기 생산자 640에게 전송한다. 상기 생산자 640은 수신된 상기 추론된 레이블 635 및 상기 설명 벡터 625로부터 재구성된 관측값 655을 출력하고, 입력 레이블 615 및 상기 설명 벡터 625로부터 생성된 관측값 645를 출력한다. 상기 오차는 상기 입력 관측값, 상기 생성된 관측값 및 상기 재구성된 관측값에 의해 계산된 추론 손실 637, 생성 손실 647 및 재구성 손실 657에서 얻어진다.

본 발명의 일 실시예에 따르면, 상기 추론 손실 637은 상기 재구성된 관측값 655과 상기 생성된 관측값 645 사이의 손실이고, 상기 생성 손실 647은 상기 생성된 관측값 645과 상기 입력 관측값 605 사이의 손실이고, 상기 재구성 손실 657은 상기 재구성된 관측값 655과 상기 입력 관측값 605 사이의 손실이다.

본 발명의 일 실시예에 따르면, 상기 추론 손실은 설명자 오차 및/또는 사유자 오차를 포함하고, 상기 생성 손실은 설명자 오차 및/또는 생산자 오차를 포함하고, 상기 재구성 손실은 사유자 오차 및/또는 생산자 오차를 포함한다.

본 발명의 일 실시예에 따르면, 상기 설명자 오차는 추론 손실과 생성 손실의 합과 재구성 손실의 차이를 기반으로 얻어지고, 상기 사유자 오차는 재구성 손실과 추론 손실의 합과 생성 손실의 차이를 기반으로 얻어지고, 상기 생산자 오차는 생성 손실과 재구성 손실의 합과 추론 손실의 차이를 기반으로 얻어진다.

본 발명의 일 실시예에 따르면, 상기 모델의 매개 변수에 관한 오차 함수의 기울기는 상기 설명자 오차, 상기 사유자 오차 및 상기 생산자 오차의 역전파를 통해 계산된다.

본 발명의 일 실시예에 따르면, 상기 모델의 매개 변수는 계산된 기울기에 기반하여 조정된다.

본 발명의 일 실시예에 따르면, 상기 설명자 오차의 역전파는 사유자 또는 생산자를 조정하는데 관여하지 않으며 설명자의 매개 변수에 대한 오차 함수의 기울기를 계산하고, 상기 사유자 오차의 역전파는 생산자를 조정하는 데 관여하지 않으며 사유자의 매개 변수에 대한 오차 함수의 기울기를 계산하고, 상기 생산자 오차의 역전파는 생산자의 매개 변수에 대한 오차 함수의 기울기를 계산한다.

본 발명의 일 실시예에 따르면, 상기 협력 망은 사전 훈련되거나 훈련 중인 모델을 포함하며, 사전 훈련된 모델을 통해 입력 공간이 출력 공간에 매칭되고, 신경망 모델들은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련한다. 상기 사전 훈련된 모델은 관측값 605을 입력으로 받아 출력을 입력 레이블 615에 매핑하는 추론 모델을 포함한다.

본 발명의 일 실시예에 따르면, 상기 협력 망은 사전 훈련되거나 훈련 중인 모델을 포함하며, 사전 훈련된 모델을 통해 입력 공간이 출력 공간에 매칭되고, 신경망 모델들은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련한다. 상기 사전 훈련된 모델은 레이블 615과 잠재 벡터를 입력으로 받아 출력을 입력 관측값 605에 매핑하는 생성 모델을 포함한다.

본원발명의 다른 측면에 따르면, 신경망의 인과 학습을 위한 프레임워크는 소스 도메인에서의 관측값과 타겟 도메인에서의 관측값에 대한 레이블을 수신하도록 형성되는 협력 망을 포함한다. 협력 망은 설명자 1120, 사유자 1130 및 생산자 1140의 모델을 통해 소스 도메인과 타켓 도메인 사이의 인과 관계를 학습한다. 각각은 신경망을 포함하는데, 상기 설명자 1120는 입력 관측값 1105에서 레이블에 대한 관측값 1105의 설명을 나타내는 설명 벡터 1125를 추출한다. 생성된 관측값은 사유자 1130와 생산자 1140에게 전송된다. 상기 생산자 1140는 레이블 입력 1115과 설명 벡터 1125로부터 생성된 관측값 1145을 출력하고, 상기 벡터를 사유자 1130에게 전송한다. 상기 사유자 1130는 생성된 관측값 1145과 설명 벡터 1125에서 재구성된 레이블 1155를 출력하고, 입력 관측값 1105과 설명 벡터 1125에서 레이블을 추론하여 추론된 레이블 1135를 출력한다. 상기 모델들의 오차들은 입력 레이블 1115, 추론된 레이블 1135 및 재구성된 레이블 1155에 의해 계산된 추론 손실1137, 생성 손실 1147 및 재구성 손실 1157로부터 얻어진다.

본 발명의 일 실시예에 따르면, 상기 추론 손실 1137은 추론된 레이블 1135과 레이블 입력 1115사이의 손실이고, 상기 생성 손실 1147은 재구성된 레이블 1155와 추론된 레이블 1135 사이의 손실이고, 상기 재구성 손실 1157은 재구성된 레이블 1155와 레이블 입력 1115 사이의 손실이다.

본 발명의 일 실시예에 따르면, 상기 추론 손실은 설명자 오차와 사유자 오차를 포함하고, 상기 생성 손실은 설명자 오차와 생산자 오차를 포함하고, 상기 재구성 손실은 사유자 오차와 생산자 오차를 포함한다.

본 발명의 일 실시예에 따르면, 모델의 매개변수에 대한 오차 함수의 기울기는 설명자 오차, 사유자 오차 및 생산자 오차의 역전파를 통해 계산된다.

본 발명의 일 실시예에 따르면, 상기 신경망의 매개변수는 계산된 기울기를 기반으로 조정된다.

본 발명의 일 실시예에 따르면, 설명자 오차의 역전파는 사유자 또는 생산자를 조정하는 데 참여하지 않으며 설명자의 매개변수에 대한 오차 함수의 기울기를 계산하고, 생산자 오차의 역전파는 사유자를 조정하는 데 참여하지 않으며 생산자의 매개변수에 대한 오차 함수의 기울기를 계산하고, 사유자 오차의 역전파는 사유자의 매개 변수에 대한 오차 함수의 기울기를 계산한다.

본 발명의 일 실시예에 따르면, 상기 협력 망은 사전 훈련되거나 훈련 중인 모델을 포함한다. 상기 사전 훈련된 모델은 통계적으로 서로 매핑된 입력 공간과 출력 공간을 포함하고, 상기 신경망 모델은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련한다. 상기 사전 훈련된 모델은 관측치 1105를 입력으로 수신하여 입력 레이블 1115에 출력을 매핑하도록 형성되는 추론 모델을 포함한다.

본 발명의 일 실시예에 따르면, 상기 협력 망은 사전 훈련되거나 훈련 중인 모델을 포함한다. 상기 사전 훈련된 모델은 통계적으로 서로 매핑된 입력 공간과 출력 공간을 포함하고, 상기 신경망 모델은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련한다. 상기 사전 훈련된 모델은 레이블 1115과 잠재 벡터를 입력으로 받아 출력을 입력 관측치 1105에 매핑하도록 형성되는 생성 모델을 포함한다.

본 개시의 실시예에 따르면, 다음과 같은 효과를 기대할 수 있다.

첫째, 데이터 도메인에서 관측 데이터의 암시적이고 결정론적 속성을 예측하는 신경망의 설명 모델을 훈련시킬 수 있다.

둘째, 관측치로부터 설명과 함께 예측값을 추론하는 신경망의 추론 모델을 훈련시킬 수 있다.

셋째, 주어진 설명에 따라 제어/조작하에 변화하는 인과 효과를 생성하는 신경망의 생산 모델을 훈련시킬 수 있다.

얻을 수 있는 효과는 위에서 언급한 효과에 한정되지 않으며, 아래 제시된 본 개시의 실시예로부터 다른 언급되지 않은 효과가 명확히 파생되고 이해될 것이다. 즉, 기술자는 다음 자세한 설명으로부터 본 개시의 실천에 의해 달성할 수 있는 의도하지 않은 효과를 명확하게 이해할 수 있다.

또한, 아래의 설명에서 관측, 레이블, 소스, 타겟, 추론, 생성, 재구성 또는 설명은 점, 이미지, 값, 벡터, 코드, 표현 및 n차원/잠재 공간의 벡터/표현과 같은 데이터 유형을 가질 수 있다.

개념도는 다음과 같이 설명된다:
도면 1 - 본 개시의 데이터에서 도출된 인과 관계를 보여준다.
도면 2 - 본 개시의 통계에 기반한 머신러닝 프레임워크를 보여준다.
도면 3 - 본 개시의 관측치와 레이블 간의 관계를 보여준다.
도면 4 - 본 개시의 인과 협력 망의 프레임워크를 도입하는 것을 보여준다.
도면 5 - 본 개시의 협력 망의 예측/추론 모드를 보여주는 개념도를 보여준다.
도면 6 - 본 개시의 협력 망의 훈련 모드 A를 보여준다.
도면 7 - 본 개시의 추론 손실(훈련 모드 A에서)을 보여준다.
도면 8 - 본 개시의 생성 손실(훈련 모드 A에서)을 보여준다.
도면 9 - 본 개시의 재구성 손실(훈련 모드 A에서)을 보여준다.
도면 10 - 본 개시에 따른 모델 오류의 역전파(훈련 모드 A에서)를 보여준다.
도면 11 - 본 개시의 협력 망의 훈련 모드 B를 보여준다.
도면 12 - 본 개시의 추론 손실(훈련 모드 B에서)을 보여준다.
도면 13 - 본 개시의 생성 손실(훈련 모드 B에서)을 보여준다.
도면 14 - 본 개시의 재구성 손실(훈련 모드 B에서)을 보여준다.
도면 15 - 본 개시에 따른 모델 오류의 역전파(훈련 모드 B에서)를 보여준다.
도면 16 - 본 개시의 추론 모델을 사용하여 협력 망의 훈련(훈련 모드 A에서)를 보여준다.
도면 17 - 본 개시의 생성 모델을 사용하여 협력 망의 훈련(훈련 모드 A에서)를 보여준다.
도면 18 - 본 개시가 적용된 제1 실시예를 보여준다.
도면 19 - 본 개시가 적용된 제2 실시예를 보여준다.

본 명세서 전반에 걸쳐, 부품이 구성 요소를 "포함"하거나 "구성"하는 경우, 해당 부품은 다른 구성 요소를 더 포함할 수 있으며, 이러한 다른 구성 요소는 특별한 설명이 없는 한 배제되지 않는다. "단위", "모듈" 등의 용어는 하드웨어, 소프트웨어 또는 이들의 조합에 의해 구현될 수 있는 적어도 하나의 기능 또는 작동을 처리하는 단위를 의미한다. 또한, 본 명세서 전반에 걸쳐 구성 요소가 다른 구성 요소에 "연결"되어 있다고 설명하는 것은 물리적 연결뿐만 아니라 전기적 연결을 포함할 수 있다. 더 나아가, 구성 요소가 논리적으로 연결되어 있다는 것을 의미할 수 있다.

본 개시의 실시예에서 사용되는 구체적인 용어는 이해를 제공하기 위한 것이다. 이러한 구체적인 용어의 사용은 본 개시의 범위를 벗어나지 않는 다른 형태로 변경될 수 있다. 본 개시에서, 인과 모델, 신경망, 감독 학습 및 머신러닝 프레임워크는 서버 또는 터미널에 포함된 컨트롤러에 의해 구현될 수 있다. 컨트롤러는 기능에 따라 이유 제공자 모듈, 생산자 모듈 및 설명자 모듈(이하 "이유 제공자", "생산자", "설명자"라고 함)을 포함할 수 있다. 각 모듈의 역할, 기능, 효과 등에 대해서는 도면을 참조하여 아래에서 자세히 설명된다.

1. 데이터에서 도출된 인과 관계

도면 1은 어떤/특정 분야의 통계에서 데이터 결과와 그 결과의 명시적 원인 사이의 인과 관계를 보여준다. 관측 데이터 X(또는 관측, 효과), 명시적 원인 Y(또는 레이블) 및 잠재 원인 E(또는 인과 설명)가 방향 그래프(확률 그래픽 모델 또는 인과 그래프)로 표시된다.

관측된 효과 X와 명시적 원인 Y 사이의 관계는 머신러닝의 회귀 문제에서 독립 변수 X와 종속 변수 Y에서 찾을 수 있다. 관측 도메인 X에서 레이블 도메인 Y로의 머신러닝에서 매핑 작업도 인과 관계와 관련하여 이해될 수 있다. 일상생활에서 흔하게 발생하는 보통의 사건에서 인과 관계의 구조를 고려할 때, 명시적 원인 Y가 효과 X를 생성했다고 표현하거나, 효과 X로부터 원인 Y를 추론한다고 할 수 있다.

예를 들어, 집안에서 가스레인지를 사용하는 행위가 이벤트에서 명시적 원인 Y에 해당하고, 그 결과로 발생한 화재가 관측된 효과 X에 해당할 수 있다.

이벤트의 효과 X와 원인 Y에 인과 설명 E가 포함되어 있을 때, 주어진 설명 E에서 이벤트의 효과 X로부터 원인 Y를 추론할 수 있다. 효과 X는 주어진 설명 E에서 이벤트의 원인 Y로부터 다양하게 생성될 수 있다.

예를 들어, 인과 설명 E는 가스레인지 사용으로 인한 화재 발생 이벤트를 설명하는 설명하거나 또는 화재가 발생할 수 있는 다른 잠재적 원인을 나타낼 수 있다. 어떤 이벤트의 효과 X는 명시적 또는 레이블화된 원인 Y와 암시적 또는 잠재적 원인 E에 의해 생성될 수 있다. 널리 사용되는 기존 머신러닝 프레임워크는 통계적 접근법을 기반으로 하며, 이 접근법은 X, Y 간의 관계를 통해 관측 데이터 X에서 레이블 원인 Y를 추론하거나 레이블 원인 Y에서 관측 데이터 X를 생성하기 위해 신경망을 학습시킬 수 있다. 본 발명에 제안된 인과 학습은 X, Y 및 E 간의 관계를 통해 결정적 과정에 기반한 인과 추론을 수행하기 위해 신경망을 학습시키는 방법을 포함한다.

2. 통계 기반 머신러닝 프레임워크

도면 2에서 통계 기반 머신러닝 프레임워크의 원리가 인과적으로 재해석된다. 상기 머신러닝 프레임워크는 입력 공간을 출력 공간에 통계적으로 매핑하여 데이터 추론 또는 생성을 위한 신경망 모델링을 참조할 수 있다. 학습된 모델은 입력 공간의 입력에서 머신러닝 프레임워크를 통해 데이터 포인트를 해당하는 출력 공간에 출력한다.

도면 2A의 예에서 입력 관측 공간 X는 추론(또는 판별) 모델을 통해 출력 레이블 공간 Y에 매핑된다. 관측 공간 X의 관측 데이터(x) 입력에 대해 모델은 레이블 공간 Y의 레이블(y)을 출력한다. 추론 모델을 통한 데이터 분포는 조건부 확률 분포 P(Y|X)로 설명할 수 있다. 인과성을 통한 해석에서 관측 공간 X의 관측 데이터(x)는 관측 효과에 해당할 수 있으며, 레이블 공간 Y의 레이블(y)는 효과의 명시적 원인에 해당할 수 있다.

도면 2B의 예에서 조건 공간 Y와 잠재 공간 Z가 생성 모델(조건부 생성 모델)을 통해 관측 공간 X에 매핑된다. 조건 공간 Y의 입력(y) 및 잠재 공간 Z의 입력(z)에 대해 관측 공간 X의 관측 데이터(x)를 샘플링(또는 생성)한다. 생성 모델을 통한 데이터 분포는 조건부 확률 분포 P(X|Y)로 표현될 수 있다. 인과성을 통한 해석에서 조건 공간 Y의 조건(y)은 명시적 원인(또는 레이블)에 해당할 수 있으며, 관측 공간 X의 관측 데이터(x)는 그 효과에 해당할 수 있으며, 잠재 공간 Z의 (z)는 효과의 잠재 표현에 해당할 수 있다.

3. 관측치와 레이블 간의 관계

예를 들어, 이미지 데이터셋 X(관측 공간)의 사람 (_i)의 이미지 X_i,_k(관측 포인트)는 자세 _k(명시적 원인)의 y_k와 사람의 정체성 e_i(잠재 원인)에 의해 생성된다고 가정한다. 사람 (_i)의 이미지 X_i,_k는 자세 y_k(자세 (_k))로 레이블이 지정된다. 또한, 사람 (_i+1)의 이미지 X_i+1, _k+1은 자세 y_k+1(자세 (_k+1))로 레이블이 지정된다.

도면 3A에서 관측 공간 X의 X_i, _k(자세 (_k)와 사람 (_i)의 이미지)는 해당 레이블 공간 Y의 y_k(자세 (_k))에 매핑될 수 있다. 또한, X의 X_i+1, _k+1(자세 (_k+1)와 사람 (_i+1)의 이미지)는 Y의 y_k+1(자세 (_k+1))에 매핑될 수 있다. 그러나 반대로, y_k에서 X_i,_k 또는 y_k+1에서 X_i+1,_k+1로의 매핑은 성립하지 않을 수 있다. Y의 포인트들은 정체성에 대한 정보가 없기 때문에 X에 매핑할 수 없다.

도면 3B는 반대의 경우, 즉 레이블 공간 Y에서 설명 공간 E를 통해 관측 공간 X로의 매핑이다. Y의 포인트은 E를 통해 X의 포인트로 매핑된다. 예를 들어, Y의 포인트 y_k(자세 (_k))는 E의 포인트 e_i(사람 (_i)의 정체성)를 통해 X의 X_i,_k(자세 (_k)와 사람 (_i)의 이미지)에 매핑된다. y_k+1(자세 (_k+1))은 e_i+1(사람 (_i+1)의 정체성)를 통해 X_i+1, _k+1(자세 (_k+1)와 사람 (_i+1)의 이미지)에 매핑된다.

또한, 관측 공간 X는 설명 공간 E를 통해 레이블 공간 Y로 매핑될 수 있다. X의 포인트은 E를 통해 Y의 포인트로 매핑된다. 예를 들어, X의 X_i,_k(자세 (_k)와 사람 (_i)의 이미지)는 E의 포인트 e_i(사람 (_i)의 정체성)를 통해 Y의 포인트 y_k(자세 (_k))에 매핑될 수 있다. X_i+1, _k+1(자세 (_k+1)와 사람 (_i+1)의 이미지)는 e_i+1(사람 (_i+1)의 정체성)를 통해 y_k+1(자세 (_k+1))에 매핑될 수 있다.

인과적 설명(사람의 정체성)을 통해 관측 데이터(사람의 이미지)로부터 명시적 원인(사람의 자세)을 추론할 수 있다. 관측 데이터(사람의 이미지)는 명시적 원인(사람의 자세)로부터 생성될 수 있다. 즉, 설명 공간 E를 통해 X에서 Y로 매핑되고 Y에서 X로 매핑될 수 있다. 설명 공간 E는 신경망이 관측 공간 X와 레이블 공간 Y 사이의 양방향 추론(또는 생성)을 수행할 수 있게 한다.

4. 인과 협력 망

도면 4에서는 설명자, 사유자 및 생산자로 구성된 신경 망이 원본 도메인의 관측과 대상 도메인의 관측에 대한 레이블을 입력 쌍으로 받아 여러 출력을 내놓는다. 이는 입력 쌍과 출력 간의 관계로부터 추론, 생성 및 재구성 손실 세트를 계산한다. 오류는 손실 세트에서 오류 함수를 통해 얻어지며, 이 오류들은 각 모델의 오류 함수 기울기를 계산하기 위해 손실의 역전파 경로를 통해 거꾸로 전파한다. 소스과 대상 도메인 간의 인과 관계를 발견하고, 두 도메인의 설명 공간을 학습하며, 설명, 추론 및 효과의 인과 추론을 수행하는 새로운 프레임워크 - 인과 협력 망(이하 협력 망)이 제시된다. 협력 망은 설명자(또는 설명 모델), 사유자(또는 사유 모델) 및 생산자(또는 생산 모델)를 포함할 수 있다. 관측치와 그들의 레이블 사이의 인과 관계를 만족하는 잠재 원인(또는 인과적 설명)을 발견하고, 발견된 인과 관계를 기반으로 결정론적 예측을 수행하는 프레임워크가 될 수 있다.

설명자는 관측 공간 X의 데이터 포인트에 기반한 설명 공간 E의 해당 포인트를 출력한다. 설명자를 통한 데이터 분포는 조건부 확률 분포 P(E|X)로 표현할 수 있다.

사유자는 관측 공간 X와 설명 공간 E의 입력 포인트에 기반해 레이블 공간 Y의 데이터 포인트를 출력한다. 사유자를 통한 데이터 분포는 P(Y|X, E)로 표현할 수 있다.

생산자는 레이블 공간 Y와 설명 공간 E의 입력 포인트에 기반해 관측 공간 X의 데이터 포인트를 출력한다. 생산자를 통한 데이터 분포는 P(X|Y, E)로 표현할 수 있다.

5. 예측/추론 모드

도면 5에서는 협력 망의 훈련된 설명자, 사유자 및 생산자의 예측/추론 모드를 설명한다. 로봇 공학 분야에서 관측된 특정/특정한 사람의 이미지에서 자세를 추정하는 모델의 예측/추론 모드를 설명할 것이다.

관측 공간 X의 사람의 이미지(x) (관측)에서 사람의 자세(y) (레이블)가 지정된다고 가정한다. 관측된 사람의 정체성(e) (인과적 설명)과 사람의 자세(y) (레이블)는 이미지(x)의 데이터 생성에 대한 충분한 원인/조건이다.

도면 5A에서 설명자는 관측 입력 x(관측된 사람의 이미지)에서 인과적 설명(관측된 사람의 정체성)을 예측하고 인과적 설명 벡터 e를 사유자와 생산자에게 전달한다. 설명자는 특정/특정한 관측 입력에서 출력으로 샘플 설명 벡터 e'(어떤/특정 사람의 정체성)를 얻을 수 있다. 또는, 학습된 설명 공간 E에서 사람들의 정체성을 나타내는 무작위 샘플링을 통해 샘플 설명 벡터 e'를 얻을 수 있다.

도면 5B에서 사유자는 관측 입력 x와 받은 인과적 설명 벡터 e(관측된 사람의 정체성)에 대한 입력 관측치의 레이블(관측된 자세)을 추론한다. 어떤/특정한 관측과 설명 벡터 입력에서 출력으로 샘플 레이블 y''(무작위/특정 자세)를 얻을 수 있다. 또는 레이블 공간 Y에서 무작위 샘플링을 통해 샘플 레이블 y''를 획득할 수 있다.

도면 5C에서 생산자는 레이블 y(관측된 자세)와 샘플 설명 벡터 e'(어떤/특정 사람의 정체성)를 입력으로 받아 관측 데이터 x'(관측된 자세를 가진 어떤/특정 사람의 이미지)를 생성한다. 생산자는 인과적 설명 벡터 대신 샘플 설명 벡터를 받는 제어 e->e'로 관측 데이터 x->x'를 생성한다.

도면 5D에서 생산자는 샘플 레이블(무작위/특정 자세) y''와 인과적 설명 벡터 e(관측된 사람의 정체성)를 입력으로 받아 관측 데이터 x''(무작위/특정 자세를 가진 관측된 사람의 이미지)를 생성한다. 생산자는 관측된 사람의 레이블 대신 샘플 레이블을 받는 제어 y->y''로 관측 데이터 x->x''를 생성한다.

요약하면, 학습된 설명 공간에서의 무작위 샘플링 또는 설명자의 예측 출력에서 객체의 어떤/특정 인과적 설명을 얻을 수 있다. 사유자는 관측 입력에 따라 인과적 설명에 따라 레이블을 사유한다. 생산자는 받은 레이블 또는 인과적 설명의 제어 하에서 변화하는 인과적 효과를 생산한다.

6. 훈련 모드

지도 학습의 경우, 신경망은 데이터 세트에서 관측치를 입력하고 오류 조정을 통해 입력에 대한 레이블을 예측하도록 학습할 수 있다. 반면, 인과 협력 망을 통한 인과 학습에서는 데이터 세트 내의 관측치(데이터/포인트)와 레이블이 쌍으로 입력되어 여러 출력이 도출된다. 출력과 입력 쌍을 통해 추론, 생성, 재구성의 예측 손실 집합이 계산된다. 그런 다음 설명자, 사유자 및 생산자는 손실 집합에서 얻은 오류의 역전파에 따라 각각 조정된다.

협력 망 훈련에서 예측 손실 또는 모델 오류를 계산하기 위해 머신러닝 훈련에서 입력에 대한 레이블 출력의 예측 손실(또는 오류)을 계산하는 데 일반적으로 사용되는 손실 함수(또는 오류 함수) 범위 내의 함수를 사용할 수 있다. A에서 B를 뺀 결과를 기준으로 손실 또는 오류를 계산하는 것도 위 함수 범위에 포함될 수 있다.

협력 망 훈련에서 예측 손실은 추론 손실, 생성 손실 또는 재구성 손실을 의미할 수 있다. 예측 손실은 입력(관측치 또는 레이블)과 손실 함수의 매개변수로 전달되는 다중 출력 중 두 가지 요소로 얻어진다. 예측 매개변수(매개변수 A)와 대상 매개변수(매개변수 B)가 있는 협력 망의 손실 함수는 다음과 같이 정의할 수 있다.

예측 손실 = 손실 함수(매개변수 A, 매개변수 B)

(역전파에서 매개변수 B의 경로는 역방향 경로에서 분리될 수 있다.)

예를 들어, 협력 망 훈련(후술할 훈련 모드 A에서)에서 관측치 x와 레이블 y는 입력이고, 생성된 관측치 x1과 재구성된 관측치 x2는 출력이다. 관측치 x(입력), 생성된 관측치 x1(출력) 및 재구성된 관측치 x2(출력) 중 두 요소는 각각 매개변수 A 또는 매개변수 B에 할당된다. 그리고 입력 쌍 (x, y)에 대한 추론 손실(x, y), 생성 손실(x, y), 재구성 손실(x, y)이 계산된다.

추론 손실(x, y) = 손실 함수(재구성된 관측치 x2(출력), 생성된 관측치 x1(출력))

생성 손실(x, y) = 손실 함수(생성된 관측치 x1(출력), 관측치 x(입력))

재구성 손실(x, y) = 손실 함수(재구성된 관측치 x2(출력), 관측치 x(입력))

다른 예로, 협력 망 훈련(후술할 훈련 모드 B에서)에서 관측치 x와 레이블 y는 입력이고, 추론된 레이블 y1과 재구성된 레이블 y2는 출력이다. 레이블 y(입력), 추론된 레이블 y1(출력), 재구성된 레이블 y2(출력) 중 두 요소는 각각 매개변수 A 또는 매개변수 B에 할당된다. 또한 입력 쌍 (x, y)에 대한 추론 손실(x, y), 생성 손실(x, y), 재구성 손실(x, y)이 계산된다.

추론 손실(x, y) = 손실 함수(추론된 레이블 y1(출력), 레이블 y(입력))

생성 손실(x, y) = 손실 함수(재구성된 레이블 y2(출력), 추론된 레이블 y1(출력))

재구성 손실(x, y) = 손실 함수(재구성된 레이블 y2(출력), 레이블 y(입력))

협력 망 훈련에서 모델 오류는 설명자 오류, 사유자 오류 또는 생산자 오류를 의미할 수 있다. 모델 오류는 오류 함수에 전달되는 예측 손실 집합에서 얻어진다. 즉, 추론 손실, 생성 손실 및 재구성 손실은 오류 함수의 매개변수인 예측 손실 A, 예측 손실 B 또는 예측 손실 C에 할당되고, 해당 모델 오류가 얻어진다. 예측 손실 A와 예측 손실 B는 예측 매개변수에 해당하며, 예측 손실 C는 오류 함수의 대상 매개변수에 해당한다.

모델 오류 = 오류 함수(예측 손실 A + 예측 손실 B, 예측 손실 C)

(역전파에서 예측 손실 C의 경로는 역방향 경로에서 분리될 수 있다.)

아래 예시에서와 같이, 모델 오류는 오류 함수의 매개변수에 위치한 예측 손실에서 얻어진다.

설명자 오류(x, y) = 오류 함수(추론 손실(x, y) + 생성 손실(x, y), 재구성 손실(x, y))

사유자 오류(x, y) = 오류 함수(재구성 손실(x, y) + 추론 손실(x, y), 생성 손실(x, y))

생산자 오류(x, y) = 오류 함수(생성 손실(x, y) + 재구성 손실(x, y), 추론 손실(x, y))

설명자, 사유자 또는 생산자 오류에 대한 역전파를 통해 신경망의 매개변수(가중치 또는 편향)에 대한 오류 함수의 그래디언트가 계산된다. 또한 보유된 그래디언트에 대한 모델 업데이트를 통해 매개변수가 조정된다. 오류는 오류 함수에 포함된 예측 손실로 생성된 전파 경로(또는 자동 미분 계산 그래프)를 통해 역방향으로 이동한다.

7. 예측 손실

훈련 중에 협력 망은 관측치와 그 레이블을 입력으로 사용하고 입력에 대한 다중 출력에서 추론 손실, 생성 손실 또는 재구성 손실을 계산한다. 예측 손실은 추론 손실, 생성 손실 또는 재구성 손실을 의미한다.

첫째, 추론 손실은 입력된/수신된 관측치에서 레이블을 추론할 때 발생하는 손실이다. 관측치에서 레이블을 추론하는 것은 설명자와 사유자의 계산을 포함한다. 추론 손실은 설명자와 사유자를 통한 신호 경로를 따라 계산하는 동안 발생하는 오류를 포함할 수 있다.

둘째, 생성 손실은 입력된/수신된 레이블에서 관측치를 생성할 때 발생하는 손실이다. 레이블에서 관측치를 생성하는 것은 설명자와 생산자의 계산을 포함한다. 생성 손실은 설명자와 생산자를 통한 신호 경로를 따라 계산하는 동안 발생하는 오류를 포함할 수 있다.

셋째, 재구성 손실은 관측치 또는 레이블을 재구성할 때 발생하는 손실이다. 관측치 또는 레이블의 재구성은 사유자와 생산자의 계산을 포함한다. 재구성 손실은 사유자와 생산자를 통한 신호 경로를 따라 계산하는 동안 발생하는 오류를 포함할 수 있다.

협력 망에는 두 가지 훈련 모드가 있다. 예측 손실이 계산되는 방식에 따라 구분된다. 훈련 모드 A(명시적 인과 학습) 또는 훈련 모드 B(암시적 인과 학습)를 통해 예측 손실 집합에서 모델 오류를 얻을 수 있다.

8. 예측 손실 - 훈련 모드 A

도면 6에서 훈련 모드 A에서 협력 망은 관측치 605와 레이블 615를 입력하고 생성된 관측치 645와 재구성된 관측치 655를 출력한다. 협력 망의 설명자 620과 사유자 630은 관측치 605를 입력으로 받고, 생산자 640은 레이블 615를 입력으로 받는다.

설명자 620은 입력 관측치 605에 대한 설명 공간에서 인과적 설명 벡터 625를 사유자 630과 생산자 640에 전송한다.

사유자 630은 입력 관측치 605와 받은 설명 벡터 625로부터 레이블을 추론하고 추론된 레이블 635를 생산자에 전송한다.

생산자 640은 입력 레이블 615와 받은 설명 벡터 625를 기반으로 관측치를 생성하고 생성된 관측치 645를 출력한다. 생산자 640은 받은 설명 벡터 625와 추론된 레이블 635로부터 입력 관측치를 재구성하고 재구성된 관측치 655를 출력한다.

도면 6에서 9를 참조하여 훈련 모드 A에서는 관측치 605, 생성된 관측치 645 또는 재구성된 관측치 655에서 추론 손실, 생성 손실 및 재구성 손실인 예측 손실 집합이 얻어진다.

추론 손실 = 손실 함수(재구성된 관측치, 생성된 관측치)

생성 손실 = 손실 함수(생성된 관측치, 입력 관측치)

재구성 손실 = 손실 함수(재구성된 관측치, 입력 관측치)

훈련 모드 A의 예측 손실에 대해서 자세히 설명한다.

도면 7A에서, 추론 손실 637은 재구성된 관측치 655에서 생성된 관측치 645 사이의 예측 손실이다. 협력 망에 입력된 관측치 605와 레이블 입력 615로부터 손실은 재구성된 관측치 출력 655에서 생성된 관측치 출력 645의 생성된 전파 경로의 차이에 해당하는 경로를 계산하는 중 발생하는 오류에 해당할 수 있다.

도면 7B에서 추론 손실 637의 경로를 통한 오류 역전파는 생산자 640을 통과하므로, 사유자 630 또는 설명자 620의 매개변수에 대한 오류 함수의 기울기가 계산된다. 추론 손실을 통한 설명자 오류 역전파는 사유자 또는 생산자를 조정하는 데 관여하지 않고 설명자의 매개변수에 대한 오류 함수의 기울기를 계산한다. 추론 손실을 통한 사유자 오류 역전파는 생산자 또는 설명자를 조정하는 데 관여하지 않고 사유자의 매개변수에 대한 오류 함수의 기울기를 계산한다.

도면 8A에서 생성 손실 647은 생성된 관측치 출력 645에서 관측치 입력 605까지의 예측 손실이다. 관측치 605와 레이블 615의 입력에서 생성된 관측치 645의 출력까지의 경로에서 발생하는 오류에 해당할 수 있다.

도면 8B에서 생성 손실 647을 통한 오류 역전파는 생산자 640 또는 설명자 620의 매개변수에 대한 기울기를 계산한다. 생성 손실을 통한 설명자 오류 역전파는 사유자 또는 생산자를 조정하는 데 관여하지 않고 설명자의 매개변수에 대한 오류 함수의 기울기를 계산한다. 생성 손실을 통한 생산자 오류 역전파는 설명자 또는 사유자를 조정하는 데 관여하지 않고 생산자의 매개변수에 대한 오류 함수의 기울기를 계산한다.

도면 9A에서 재구성 손실 657은 재구성된 관측치 출력 655에서 관측치 입력 605까지의 예측 손실이다. 관측치 입력 605에서 재구성된 관측치 출력 655까지의 전진 경로는 설명자 620, 사유자 630 또는 생산자 640을 포함한 계산을 포함할 수 있다.

도면 9B에서 재구성 손실 657을 통한 오류 역전파는 사유자 630 또는 생산자 640의 매개변수에 대한 기울기를 계산하고, 설명자 620는 제외될 수 있다(또는 설명자의 출력 신호가 분리될 수 있다). 재구성 손실을 통한 사유자 오류 역전파는 설명자 또는 생산자를 조정하는 데 관여하지 않고 사유자의 매개변수에 대한 오류 함수의 기울기를 계산한다. 재구성 손실을 통한 생산자 오류 역전파는 설명자 또는 사유자를 조정하는 데 관여하지 않고 생산자의 매개변수에 대한 오류 함수의 기울기를 계산한다.

9. 예측 손실 - 훈련 모드 B

도면 11을 참조하면, 훈련 모드 B에서 관측치 1105와 레이블 1115가 입력으로 사용되며, 추론된 레이블 1135와 재구성된 레이블 1155가 협력 망 훈련에서 출력된다. 협력 망의 설명자 1120과 사유자 1130은 관측치 1105를 입력으로 받으며, 생산자 1140은 레이블 1115를 입력으로 받는다.

설명자 1120은 입력 관측치 1105에 대한 설명 공간에서 인과적 설명 벡터 1125를 사유자 1130과 생산자 1140에게 전송한다.

생산자 1140은 받은 설명 벡터 1125와 입력 레이블 1115를 기반으로 관측치를 생성하고, 생성된 관측치 1145를 사유자에게 전송한다.

사유자 1130은 받은 설명 벡터 1125와 입력 관측치 1105로부터 레이블을 추론하고 추론된 레이블 1135를 출력한다.

사유자 1130은 받은 설명 벡터 1125와 생성된 관측치 1145를 기반으로 입력 레이블을 재구성하고 재구성된 레이블 1155를 출력한다.

도면 11에서 도면 14까지 참조하면, 훈련 모드 B에서 입력 레이블, 추론된 레이블, 재구성된 레이블로부터 예측 손실을 얻을 수 있다.

추론 손실 = 손실 함수 (추론된 레이블, 입력 레이블)

생성 손실 = 손실 함수 (재구성된 레이블, 추론된 레이블)

재구성 손실 = 손실 함수 (재구성된 레이블, 입력 레이블)

훈련 모드 B의 예측 손실에 대해 자세히 설명한다.

도면 12A에서, 추론 손실 1137은 추론된 레이블 출력 1135에서 레이블 입력 1115로의 예측 손실이다. 관측치 입력 1105에서 추론된 레이블 출력 1135까지의 경로에서 발생하는 오류에 해당할 수 있다.

도면 12B에서, 추론 손실 1137의 경로를 통한 오류 역전파는 사유자 1130 또는 설명자 1120의 매개변수와 관련하여 오류 함수의 기울기를 계산한다. 추론 손실을 통한 설명자 오류의 역전파는 사유자 또는 생산자를 조정하는 데 관여하지 않고 설명자의 매개변수에 대한 오류 함수의 기울기를 계산한다. 추론 손실을 통한 사유자 오류의 역전파는 설명자 또는 생산자를 조정하는 데 관여하지 않고 사유자의 매개변수에 대한 오류 함수의 기울기를 계산한다.

도면 13A에서, 생성 손실 1147은 재구성된 레이블 1155에서 추론된 레이블 1135로의 예측 손실이다. 관측치 1105 및 레이블 입력 1115 입력에서, 손실은 재구성된 레이블 출력 1155에서 추론된 레이블 출력 1135로 생성된 전파 경로의 차이에 해당하는 경로에서 발생하는 오류에 해당할 수 있다.

도면 13B에서, 생성 손실 1147의 경로를 통한 오류 역전파는 사유자 1130을 통과하며, 따라서 생산자 1140 또는 설명자 1120의 매개변수와 관련하여 기울기가 계산된다. 생성 손실을 통한 설명자 오류의 역전파는 사유자 또는 생산자를 조정하는 데 관여하지 않고 설명자의 매개변수에 대한 오류 함수의 기울기를 계산한다. 생성 손실을 통한 생산자 오류의 역전파는 설명자 또는 사유자를 조정하는 데 관여하지 않고 생산자의 매개변수에 대한 오류 함수의 기울기를 계산한다.

도면 14A에서, 재구성 손실 1157은 재구성된 레이블 출력 1155에서 레이블 입력 1115로의 예측 손실이다. 관측치 1105 및 레이블 1115 입력에서 재구성된 레이블 1155 출력까지의 전방 경로는 설명자 1120, 사유자 1130 또는 생산자 1140과 관련된 계산을 포함할 수 있다.

도면 14B에서, 재구성 손실 1157을 통한 오류 역전파는 사유자 1130 및 생산자 1140의 매개변수와 관련하여 기울기를 계산하며, 설명자 1120은 제외될 수 있다(또는 설명자의 출력 신호가 분리될 수 있다). 재구성 손실을 통한 생산자 오류의 역전파는 설명자 또는 사유자를 조정하는 데 관여하지 않고 생산자의 매개변수에 대한 오류 함수의 기울기를 계산한다. 재구성 손실을 통한 사유자 오류의 역전파는 설명자 또는 생산자를 조정하는 데 관여하지 않고 사유자의 매개변수에 대한 오류 함수의 기울기를 계산한다.

훈련 모드 A/B와 관련된 설명에서, 협력 망의 입력 및 출력, 즉 관측치, 레이블, 인과적 설명, 생성된 관측치, 재구성된 관측치, 추론된 레이블, 재구성된 레이블은 점, 이미지, 값, 배열, 벡터, 코드, 표현, n차원/잠재 공간에서의 점, 벡터/잠재 표현 등과 같은 데이터 유형을 가질 수 있다.

10. 모델 오류

협력 망의 훈련에서 모델 오류는 설명자, 사유자 또는 생산자 오류를 의미할 수 있다. 모델 오류는 예측 손실 집합의 오류 함수에서 얻을 수 있다. 즉, 예측 손실 집합을 계산하여 모델 오류를 얻고, 각 모델 오류는 오류 함수에서 결합된 예측 손실로부터 얻어진다.

도면 10(훈련 모드 A)과 도면 15(훈련 모드 B)를 참조하여, 예측 손실로부터 모델 오류를 얻을 수 있다.

설명자 오류 = 오류 함수(추론 손실 + 생성 손실, 재구성 손실)

사유자 오류 = 오류 함수(재구성 손실 + 추론 손실, 생성 손실)

생산자 오류 = 오류 함수(생성 손실 + 재구성 손실, 추론 손실)

설명자 오류는 관측로부터 인과 설명을 예측하는 데 발생하는 오류이다. 설명자 오류는 생성 손실과 추론 손실의 합에서 재구성 손실을 예측(또는 차이 또는 뺄셈)하여 얻을 수 있다.

사유자 오류는 주어진 인과 설명과 함께 관측에서 라벨을 추론하는 데 발생하는 오류이다. 사유자 오류는 재구성 손실과 추론 손실의 합에서 생성 손실을 예측(또는 차이/뺄셈)하여 얻을 수 있다.

생산자 오류는 주어진 인과 설명과 함께 라벨에서 관측을 생성(또는 생산)하는 데 발생하는 오류이다. 생산자 오류는 생성 손실과 재구성 손실의 합에서 추론 손실을 예측(또는 차이/뺄셈)하여 얻을 수 있다.

설명자, 사유자 또는 생산자 오류의 역전파는 해당 모델의 매개 변수(가중치 또는 편향)를 조정할 수 있다. 오류 함수에 대한 신경망 매개 변수의 기울기는 역전파를 통해 계산된다. 오류는 모델 매개 변수에 대한 누적 기울기를 기반으로 한 모델 업데이트를 통해 조정될 수 있다. 오류 역전파는 예측 손실의 정방향 통과에 의해 생성된 경로를 통해 진행될 수 있다.

정방향 통과에 의해 생성된 경로에서 모델 오류의 역전파를 수정할 수 있다. 일부 예측 손실의 전파 경로는 손실 함수(또는 오류 함수)의 대상 매개 변수에 전달되는 역방향 경로에서 분리될 수 있다. 예를 들어, 손실/오류 함수의 예측 매개 변수에 손실이 전달될 때 정방향 경로를 통해 뒤로 이동하는 오류이다. 반면, 예측 손실이 손실/오류 함수의 대상 매개 변수에 전달될 때, 손실로부터의 역방향 경로가 분리될 수 있다. 분리된 경로를 통한 오류 역전파는 발생하지 않을 수 있다.

오류 역전파는 대상 조정의 대상이 아닌 신경망을 통과하면서 매개 변수를 고정시키고, 대상 신경망의 기울기를 계산할 수 있다. 또 다른 방법으로, 조정 대상이 아닌 신경망의 경우, 신경망은 손실 함수(또는 오류 함수)의 예측 매개 변수와 대상 매개 변수의 경로에 포함될 수 있다. 이에 따라, 공통 경로에 포함된 신경망의 매개 변수는 역전파에서 매개 변수의 동결과 동등한 영향을 받을 수 있다.

이어서 훈련 모드 A에서 모델 오류의 역전파에 대해 설명하겠다. 도면 10A에서 설명자 오류의 역전파는 조정에 참여하지 않고 생산자 640과 사유자 630의 매개 변수를 통과하여 설명자 620의 기울기를 계산한다. 도면 10B에서 사유자 오류의 역전파는 조정에 참여하지 않고 생산자 640의 매개 변수를 통과하여 사유자 630의 기울기를 계산한다. 도면 10C에서 생산자 오류의 역전파는 생산자 640의 기울기를 계산한다.

주변 경로의 신경망에 대한 원치 않는 매개 변수 조정을 방지하기 위해 오류 역전파로 경로를 전파 경로에서 분리할 수 있다. 예를 들어, 도면 10A에서 설명자 620의 기울기는 설명자 오류의 역전파를 통해 계산될 수 있다. 그런 다음 설명자 620의 출력 신호는 전파 경로에서 분리되어 사유자 630 또는 생산자 640에 대한 오류 역전파로 인한 추가 조정을 방지할 수 있다. 도면 10B에서 사유자 620의 기울기는 사유자 오류의 역전파를 통해 계산될 수 있다. 그런 다음 사유자 620의 출력 신호는 전파 경로에서 분리되어 생산자 640에 대한 오류 역전파로 인한 조정을 방지할 수 있다.

이어서 훈련 모드 B에서 모델 오류의 역전파에 대해 설명하겠다. 도면 15A에서 설명자 오류의 역전파는 조정에 참여하지 않고 사유자 1130과 생산자 1140의 매개 변수를 통과하여 설명자 1120의 기울기를 계산한다. 도면 15C에서 생산자 오류의 역전파는 조정에 참여하지 않고 사유자 1130의 매개 변수를 통과하여 생산자 1140의 기울기를 계산한다. 도면 15B에서 사유자 오류의 역전파는 사유자 1130의 기울기를 계산한다.

주변 경로의 신경망에 대한 원치 않는 매개 변수 조정을 방지하기 위해 오류 역전파로 경로를 전파 경로에서 분리할 수 있다. 예를 들어, 도면 15A에서 설명자 1120의 기울기는 설명자 오류의 역전파를 통해 계산될 수 있다. 그런 다음 설명자 1120의 출력 신호는 전파 경로에서 분리되어 생산자 1140 또는 사유자 1130에 대한 오류 역전파로 인한 추가 조정을 방지할 수 있다. 도면 15C에서 생산자 1140의 기울기는 생산자 오류의 역전파를 통해 계산될 수 있다. 그런 다음 생산자 1140의 출력 신호는 전파 경로에서 분리되어 사유자 1130에 대한 오류 역전파로 인한 조정을 방지할 수 있다.

설명자, 사유자, 생산자 오류의 기울기는 모델 오류의 역전파를 통해 계산될 수 있다. 설명자 오류, 사유자 오류 및 생산자 오류와 같은 모델 오류 또는 추론 손실, 생성 손실 및 재구성 손실과 같은 예측 손실은 훈련 중 모델 업데이트를 통해 점차 감소하거나 특정 값(예: 0)으로 수렴할 수 있다.

11. 사전 훈련된 모델을 사용한 훈련

이제 사전 훈련된 모델(또는 훈련 중인 모델)을 통해 매핑된 입력 및 출력에서 인과 관계를 학습하는 방법에 대해 도면 16 및 도면 17를 참조하여 설명하겠다. 사전 훈련된 모델은 입력 공간과 출력 공간이 통계적으로 매핑된 신경망 모델을 의미할 수 있다. 사전 훈련된 모델은 확률 과정을 통해 입력에 대한 출력을 생성하는 모델을 의미할 수 있다. 인과 협력 망은 사전 훈련된 모델을 추가하여 구성될 수 있다. 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계는 협력 망 훈련을 통해 발견될 수 있다. 도면 16의 사전 훈련된 추론 모델 610의 출력은 레이블 입력 615에 해당할 수 있으며, 도면 17의 사전 훈련된 생성 모델 611의 출력은 관측 입력 605에 해당할 수 있다.

도면 16은 사전 훈련된 추론 모델 610과 함께 협력 망 훈련의 예를 보여준다. 사전 훈련된 모델의 입력 공간 및 출력 공간은 도면 2A의 추론 모델과 관련된 설명을 참조하여 이해할 수 있다. 협력 망 훈련은 도면 6의 구성에 추론 모델 610을 추가로 포함한다. 관측 입력 605에 대한 추론 모델의 출력은 레이블 입력 615에 해당할 수 있다.

도면 17은 사전 훈련된 생성 모델 611과 함께 협력 망 훈련의 예를 보여준다. 사전 훈련된 모델의 입력 공간 및 출력 공간은 도면 2B의 생성 모델과 관련된 설명을 참조하여 이해할 수 있다. 협력 망은 도면 6의 구성에 생성 모델 611을 추가로 포함하여 구성된다. 생성 모델의 출력은 입력 레이블(조건 입력) 615 및 잠재 벡터 614로부터 관측 입력 605에 해당한다.

요약하면, 사전 훈련된 모델의 역 또는 양방향 추론은 협력 망 훈련을 통한 인과 학습으로 학습된다. 예를 들어, 생산자와 설명자는 훈련된 추론 모델로부터 역방향 추론을 학습할 수 있다. 또는 사유자와 설명자는 사전 훈련된 생성 모델로부터 추론의 반대 방향을 학습할 수 있다. 협력 망을 통한 사전 훈련된 모델로부터의 인과 학습은 역방향 또는 양방향 추론이 어려운 분야에 적용될 수 있다.

적용 실시예

도면 18 및 도면 19는 실제 인간 얼굴의 수십만 개 이미지가 포함된 Celeb A 데이터셋을 사용한 인과 학습의 예를 가정한다. 얼굴의 명확한 특징(성별 및 미소)은 각 이미지에 이진 레이블로 표시된다.

레이블 '성별'과 '미소'는 0과 1 사이의 실제 값을 가질 수 있다. 성별 데이터셋에서는 여성이 0으로 레이블되고 남성이 1로 레이블된다. 미소의 경우, 미소 짓지 않은 표정은 0으로 레이블되고 미소 짓는 표정은 1로 레이블된다.

설명자, 사유자, 생산자로 구성된 협력 망은 훈련 모드 A 또는 훈련 모드 B를 통해 데이터셋에서 관측값(얼굴 이미지)과 관측값의 레이블(성별 및 미소) 사이의 인과 관계를 학습한다. 이 실시예에서는 협력 망의 훈련된 모델이 실제 인간 얼굴 이미지를 기반으로 새로운 인간 얼굴 이미지를 생성하는 것을 보여준다.

설명자는 합성곱 신경망(CNN)을 포함할 수 있으며, 이미지를 받아 낮은 차원 공간(예: 256차원)의 설명 벡터를 사유자와 생산자에게 전송한다. 설명 공간에서의 설명 벡터는 성별이나 미소와 같은 레이블된 속성과 독립적인 얼굴 속성을 나타낸다.

CNN을 포함한 사유자는 레이블(성별 및 미소)을 추론하며, 설명 벡터를 입력으로 이미지로부터 추론된 레이블을 출력한다.

전치 합성곱 신경망을 포함하는 생산자는 관측 데이터(이미지)를 생성하며, 설명 벡터를 입력으로 레이블로부터 생성된 관측을 출력한다.

도면 18 및 도면 19를 참조하면, 행 (1)과 열 (b ~ g)에 데이터 세트의 6개 다른 실제 이미지가 표시된다. 행 (2 ~ 3)과 열 (a)에는 데이터 세트에 포함된 두 개의 동일한 실제 이미지가 표시된다. 생산자가 레이블 및 설명 벡터의 입력으로 생성한 이미지는 행 (2 ~ 3)과 열 (b ~ g)에 표시된다.

더 구체적으로, 입력 레이블(성별 (1) 및 미소 (0): 웃지 않는 남자)에 대한 생산자의 출력은 행 (2)와 열 (b ~ g)에 표시된다. 입력 레이블(성별 (0) 및 미소 (1): 웃는 여성)에 대한 생산자의 출력은 행 (3)과 열 (b ~ g)에 표시된다.

도면 18에서 설명자는 행 (1)과 열 (b ~ g)의 여섯 가지 다른 실제 이미지를 입력으로 받아 각 이미지에 대한 설명 벡터를 추출하고 생산자에게 전송한다. 생산자는 여섯 가지 실제 이미지에 대한 설명 벡터를 받아들이고, 입력 레이블(성별 (1) 및 미소 (0))로부터 생성된 이미지를 행 (2)과 열 (b ~ g)에 출력하고, 입력 레이블(성별 (0) 및 미소 (1))로부터 생성된 이미지를 행 (3)과 열 (b ~ g)에 출력한다.

도면 19에서 설명자는 동일한 실제 이미지를 입력으로 받아 행 (2 ~ 3)과 열 (a)의 이미지에 대한 설명 벡터를 추출하고 생산자에게 전송한다. 생산자는 동일한 이미지에 대한 설명 벡터를 받아들이고, 입력 레이블(성별 (1) 및 미소 (0))로부터 생성된 이미지를 행 (2)과 열 (b ~ g)에 출력하고, 입력 레이블(성별 (0) 및 미소 (1))로부터 생성된 이미지를 행 (3)과 열 (b ~ g)에 출력한다. 위에서 논의한 신경망의 인과 학습 프레임워크는 인간 얼굴 이미지 생성의 현재 실시예 외에도 다양한 분야에 적용될 수 있다.

Claims

소스 도메인에서의 관측값과 타겟 도메인에서의 관측값에 대한 레이블을 수신하고, 각각 신경망을 포함하는 설명자(620), 사유자(630) 및 생산자(640) 모델을 통해 소스 도메인과 타겟 도메인 간의 인과 관계를 학습하는 협력 망을 포함하며,
상기 설명자(620)는 입력 관측값(605)에서 상기 관측값(605)에 대한 설명을 나타내는 설명 벡터(625)를 추출하여 상기 사유자(630) 및 상기 생산자(640)에게 상기 설명 벡터를 전송하고,
상기 사유자(630)는 입력 관측값(605) 및 수신된 상기 설명 벡터(625)로부터 레이블을 추론하고 추론된 레이블(635)을 상기 생산자(640)에게 전송하며,
상기 생산자(640)는 수신된 상기 추론된 레이블(635) 및 상기 설명 벡터(625)로부터 재구성된 관측값(655)을 출력하고, 입력 레이블(615) 및 상기 설명 벡터(625)로부터 생성된 관측값(645)을 출력하며,
오차는 상기 입력 관측값, 상기 생성된 관측값 및 상기 재구성된 관측값에 의해 계산된 추론 손실(637), 생성 손실(647) 및 재구성 손실(657)에서 얻어지는 신경망의 인과 학습을 위한 프레임워크.
제1항에 있어서,
상기 추론 손실(637)은 상기 재구성된 관측값(655)과 상기 생성된 관측값(645) 사이의 손실이고,
상기 생성 손실(647)은 상기 생성된 관측값(645)과 상기 입력 관측값(605) 사이의 손실이고,
상기 재구성 손실(657)은 상기 재구성된 관측값(655)과 상기 입력 관측값(605) 사이의 손실인 신경망의 인과 학습을 위한 프레임워크.
제2항에 있어서,
상기 추론 손실은 설명자 오차 및/또는 사유자 오차를 포함하고,
상기 생성 손실은 설명자 오차 및/또는 생산자 오차를 포함하고,
상기 재구성 손실은 사유자 오차 및/또는 생산자 오차를 포함하는 신경망의 인과 학습을 위한 프레임워크.
제3항에 있어서,
상기 설명자 오차는 추론 손실과 생성 손실의 합과 재구성 손실의 차이를 기반으로 얻어지고,
상기 사유자 오차는 재구성 손실과 추론 손실의 합과 생성 손실의 차이를 기반으로 얻어지고,
상기 생산자 오차는 생성 손실과 재구성 손실의 합과 추론 손실의 차이를 기반으로 얻어지는 신경망의 인과 학습을 위한 프레임워크.
제4항에 있어서,
상기 모델의 매개 변수에 관한 오차 함수의 기울기는 상기 설명자 오차, 상기 사유자 오차 및 상기 생산자 오차의 역전파를 통해 계산되는 신경망의 인과 학습을 위한 프레임워크.
제5항에 있어서,
상기 모델의 매개 변수는 계산된 기울기에 기반하여 조정되는 신경망의 인과 학습을 위한 프레임워크.
제6항에 있어서,
상기 설명자 오차의 역전파는 사유자 또는 생산자를 조정하는데 관여하지 않으며 설명자의 매개 변수에 대한 오차 함수의 기울기를 계산하고,
상기 사유자 오차의 역전파는 생산자를 조정하는 데 관여하지 않으며 사유자의 매개 변수에 대한 오차 함수의 기울기를 계산하고,
상기 생산자 오차의 역전파는 생산자의 매개 변수에 대한 오차 함수의 기울기를 계산하는 신경망의 인과 학습을 위한 프레임워크.
제1항에 있어서,
상기 협력 망은,
사전 훈련되거나 훈련 중인 모델을 포함하며, 사전 훈련된 모델을 통해 입력 공간이 출력 공간에 매칭되고,
신경망 모델들은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련하며,
상기 사전 훈련된 모델은
관측값(605)을 입력으로 받아 출력을 입력 레이블(615)에 매핑하는 추론 모델을 포함하는 신경망의 인과 학습을 위한 프레임워크.
제1항에 있어서,
상기 협력 망은,
사전 훈련되거나 훈련 중인 모델을 포함하며, 사전 훈련된 모델을 통해 입력 공간이 출력 공간에 매칭되고,
신경망 모델들은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련하며,
상기 사전 훈련된 모델은:
레이블(615)과 잠재 벡터를 입력으로 받아 출력을 입력 관측값(605)에 매핑하는 생성 모델을 포함하는 신경망의 인과 학습을 위한 프레임워크.
소스 도메인에서의 관측값과 타겟 도메인에서의 관측값에 대한 레이블을 수신하여, 각각 신경망을 포함하는 설명자(1120), 사유자(1130) 및 생산자(1140)의 모델을 통해 소스 도메인과 타겟 도메인 간의 인과 관계를 학습하는 협력 망을 포함하며,
상기 설명자(1120)는 입력 관측값(1105)에서 레이블에 대한 관측값(1105)의 설명을 나타내는 설명 벡터(1125)를 추출하고 사유자(1130)와 생산자(1140)에게 벡터를 전송하고,
상기 생산자(1140)는 레이블 입력(1115)과 설명 벡터(1125)로부터 생성된 관측값(1145)을 출력하고 생성된 관측값을 사유자(1130)에게 전송하고,
상기 사유자(1130)는 생성된 관측값(1145)과 설명 벡터(1125)에서 재구성된 레이블(1155)을 출력하고, 입력 관측값(1105)과 설명 벡터(1125)에서 레이블을 추론하여 추론된 레이블(1135)을 출력하며,
상기 모델들의 오차들은 입력 레이블(1115), 추론된 레이블(1135) 및 재구성된 레이블(1155)에 의해 계산된 추론 손실(1137), 생성 손실(1147) 및 재구성 손실(1157) 로부터 얻어지는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.
제10항에 있어서,
상기 추론 손실(1137)은 추론된 레이블(1135)과 레이블 입력(1115)사이의 손실;
상기 생성 손실(1147)은 재구성된 레이블(1155)과 추론된 레이블(1135)사이의 손실;
상기 재구성 손실(1157)은 재구성된 레이블(1155)과 레이블 입력(1115)사이의 손실인 신경망의 인과 학습을 위한 프레임워크.
제11항에 있어서,
상기 추론 손실은 설명자 오차와 사유자 오차를 포함하고;
상기 생성 손실은 설명자 오차와 생산자 오차를 포함하고;
상기 재구성 손실은 사유자 오차와 생산자 오차를 포함하는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.
제12항에 있어서,
상기 설명자 오차는 추론 손실과 생성 손실의 합과 재구성 손실의 차이를 기반으로 얻어지고;
상기 사유자 오차는 재구성 손실과 추론 손실의 합과 생성 손실의 차이를 기반으로 얻어지고;
상기 생산자 오차는 생성 손실과 재구성 손실의 합과 추론 손실의 차이를 기반으로 얻어지는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.
제13항에 있어서,
모델의 매개변수에 대한 오차 함수의 기울기는 설명자 오차, 사유자 오차 및 생산자 오차의 역전파를 통해 계산되는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.
제14항에 있어서,
상기 신경망의 매개변수는 계산된 기울기를 기반으로 조정되는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.
제10항에 있어서,
설명자 오차의 역전파는 사유자 또는 생산자를 조정하는 데 참여하지 않으며 설명자의 매개변수에 대한 오차 함수의 기울기를 계산하고;
생산자 오차의 역전파는 사유자를 조정하는 데 참여하지 않으며 생산자의 매개변수에 대한 오차 함수의 기울기를 계산하고; 그리고
사유자 오차의 역전파는 사유자의 매개 변수에 대한 오차 함수의 기울기를 계산하는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.
제10항에 있어서,
상기 협력 망은,
사전 훈련되거나 훈련 중인 모델을 포함하고, 사전 훈련된 모델을 통해 입력 공간이 출력 공간에 매핑되고,
신경망 모델은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련하며,
사전 훈련된 모델은 관측치(1105)를 입력으로 받아 출력을 입력 레이블(1115)에 매핑하는 추론 모델을 포함하는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.
제10항에 있어서,
상기 협력 망은,
사전 훈련되거나 훈련 중인 모델을 포함하고, 사전 훈련된 모델을 통해 입력 공간이 출력 공간에 매핑되고,
신경망 모델은 사전 훈련된 모델의 입력 공간과 출력 공간 사이의 인과 관계를 발견함으로써 인과 추론하는 것을 훈련하며,
사전 훈련된 모델은 레이블(1115)과 잠재 벡터를 입력으로 받아 출력을 입력 관측치(1105)에 매핑하는 생성 모델을 포함하는 것을 특징으로 하는 신경망의 인과 학습을 위한 프레임워크.