KR20230128492A - 설명 가능 트랜스듀서 변환기 - Google Patents

설명 가능 트랜스듀서 변환기 Download PDF

Info

Publication number
KR20230128492A
KR20230128492A KR1020237024184A KR20237024184A KR20230128492A KR 20230128492 A KR20230128492 A KR 20230128492A KR 1020237024184 A KR1020237024184 A KR 1020237024184A KR 20237024184 A KR20237024184 A KR 20237024184A KR 20230128492 A KR20230128492 A KR 20230128492A
Authority
KR
South Korea
Prior art keywords
xtt
explainable
optionally
input
data
Prior art date
Application number
KR1020237024184A
Other languages
English (en)
Inventor
안젤로 달리
매튜 그레치
마우로 피로네
Original Assignee
엄나이 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엄나이 리미티드 filed Critical 엄나이 리미티드
Publication of KR20230128492A publication Critical patent/KR20230128492A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • G06N3/065Analogue means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Neurology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • Measuring Fluid Pressure (AREA)

Abstract

설명 가능 트랜스듀서 변환기(XTT)는, 설명 가능 변환기와 함께, 유한 상태 트랜스듀서일 수도 있다. XTT의 변형예는 설명 가능 변환기 인코더 및 설명 가능 변환기 디코더를 포함할 수도 있다. 예시적인 설명 가능 트랜스듀서는 트레이닝된 설명 가능 신경망(XNN) 아키텍쳐 또는 논리적으로 등가의 아키텍쳐에서 부분적 대체물로서 사용될 수도 있다. 설명 가능 변환기는, 변환기의 인코더 및 디코더 레이어의 하위 레이어 둘 모두에서, 변환기의 블랙박스 모델 컴포넌트를 화이트박스 모델 등가물로 대체할 수도 있다. XTT는 설명 및 해석 생성 시스템(EIGS)을 활용하여, 설명을 생성하고 그러한 설명을 필터링하여 답변, 설명 및 그것의 정당성의 해석을 생성할 수도 있다.

Description

설명 가능 트랜스듀서 변환기
예시적인 실시형태는 머신 러닝 시스템 분야에 관한 것이다.
트랜스듀서는 머신 러닝 시스템이 데이터를 입력 언어로부터 제2 출력 언어로 번역, 매핑 및 변환하는 것을 허용하는 기본 모델 중 하나이다. 유한 상태 트랜스듀서(finite state transducer; FST)는 두 개 이상의 테이프에 대해 작동하며 단일의 테이프에 대해 작동하는 일반 유한 상태 오토마타(finite state automata; FSA)보다 더 일반적인 유한 상태 오토마톤(finite state automaton)이다. FST는 문자열의 세트 사이의 관계를 정의하며, 따라서, 두 개의 별개의 입력 및 출력 세트에서 발생하는 문자열 사이의 기본 번역기 또는 변환기로서 취급될 수 있다.
유한 상태 트랜스듀서(FST)는, 도 1에서 도시되는 바와 같이, 6 튜플(
Figure pct00001
)로서 정의될 수도 있는데, 여기서 K는 유한 상태의 세트를 가리키고, Σ는 입력 심볼의 알파벳을 가리키고, Γ는 출력 심볼의 알파벳을 가리키고, s는 시작 상태를 가리키고, 그 결과, s ∈ K이고, γ는
Figure pct00002
가 되도록 하는 출력 함수를 가리키며, Δ는 전이 함수(transition function)를 가리킨다. 유한 상태 트랜스듀서는 하나의 테이프를 다른 테이프로 번역할 수도 있는 유한 상태 오토마톤이다. 형식적인 방식에서, 입력 테이프, 출력 테이프는 스위칭될 수도 있고, 그러므로 유한 상태 트랜스듀서는 양방향이다. 도 1에서 도시되는 예시적인 FST에서, 종결 상태(120)로 이어지는 네 개의 전이 경로(100, 105, 110, 및 115)가 있다. FST 내에서 강력한 매칭 및 변환 규칙을 표현하기 위해 추가적인 유한 상태 구문론(finite-state syntax)이 추가될 수 있다(Karttunen, 2000).
유한 상태 트랜스듀서(Finite state transducer; FST)는 입력 언어를 다른 언어로 번역하기 위한 기본 컴포넌트일 수도 있다. 변환기(transformer)(Vaswani 등등, 2017)은 자연어 프로세싱(Natural Language Processing; NLP) 및 이미지 분류와 같은 다양한 분야에서 최신 기술의 결과를 제공하는 어텐션 기반의(attention-based architecture) 아키텍쳐를 갖는 FST의 자연스러운 진화일 수도 있다. 변환기는, 질의(query), 키, 및 값을 동시에 계산하는 것과 같은, 자신의 컴포넌트의 병렬화에 기인하여, LSTM 아키텍쳐 및 CNN 아키텍쳐와 같은 다른 아키텍쳐보다 트레이닝하는 데 훨씬 더 적은 시간을 필요로 한다.
변환기 아키텍쳐는 인코더 컴포넌트 및 디코더 컴포넌트로 분할될 수도 있다.
인코더 컴포넌트에 대한 입력은 입력 토큰의 포지션 인코딩 및 입력 임베딩의 합산을 포함할 수도 있다. 입력 토큰이 순차적으로 삽입되고 그러므로 입력 토큰의 순서를 유지하는 순차적 아키텍쳐, 예컨대 순환 신경망과는 달리, 변환기(Vaswani 등등, 2017)에는, 단어의 순서의 개념이 없기 때문에, 포지션 인코딩이 필요로 된다. 변환기(Vaswani 등등, 2017) 아키텍쳐에서 나타내어지는 같이, 인코더 레이어의 아키텍쳐는 두 개의 하위 레이어를 포함할 수도 있다. 제1 하위 레이어는, 도 2에서 도시되는 바와 같이, 멀티 헤드 어텐션(Multi-Head Attention) 컴포넌트(215)를 포함할 수도 있고, 추가 및 정규화(Add and Normalization) 컴포넌트(217)가 후속될 수도 있다. 제2 하위 레이어는 피드포워드 신경망 컴포넌트(230)를 포함할 수도 있고, 추가 및 정규화 컴포넌트(232)가 후속될 수도 있다. 멀티 헤드 어텐션 컴포넌트는 스케일링된 내적 어텐션(Scaled Dot-Product Attention)(Vaswani 등등, 2017)의 다수의 인스턴스를 포함할 수도 있는데, 여기서 각각의 인스턴스는 모델의 일반화를 개선하기 위한 자기 자신의 가중치를 갖는다. 각각의 인스턴스 {zo, ..., zn}의 출력 매트릭스는 사슬 연결되고 가중치 매트릭스(Wo)에 의해 승산되어, 출력 매트릭스를 초래한다.
변환기(Vaswani 등등, 2017) 아키텍쳐에서 나타내어지는 같이, 디코더 레이어의 아키텍쳐는 세 개의 하위 레이어를 포함할 수도 있다. 제1 하위 레이어는 마스킹된 멀티 헤드 어텐션(Masked Multi-Head Attention) 컴포넌트(250)로 구성되고, 추가 및 정규화 컴포넌트(252)가 후속된다. 제2 하위 레이어는 멀티 헤드 어텐션(인코더-디코더) 컴포넌트(240)로 구성되고, 추가 및 정규화 컴포넌트(242)가 후속된다. 제3 하위 레이어는, 도 2에서 도시되는 바와 같이, 피드포워드 네트워크 컴포넌트(270)로 구성되고, 추가 및 정규화 컴포넌트(272)가 후속된다. 인코더-디코더 어텐션(Encoder-Decoder Attention) 컴포넌트는 멀티 헤드 어텐션 컴포넌트와 유사하지만, 그러나 질의 벡터(query vector; Q)는 디코더 레이어의 이전 하위 레이어로부터 유래하고, 키 벡터(K)와 값 벡터(V)는 최종 인코더 레이어의 출력으로부터 검색된다. 마스킹된 멀티 헤드 어텐션 컴포넌트는, 셀프 어텐션 레이어가 입력 토큰의 이전 포지션에만 참석하게끔 허용되도록 하는 수정을 갖는 멀티 헤드 어텐션 컴포넌트이다. 디코더 레이어의 출력은, 예측된 토큰을 나타내는 출력 어휘(output vocabulary)의 확률(290)을 생성하기 위해 SoftMax(소프트맥스) 계산이 후속되는 선형 레이어(280)에 연결될 수도 있다. 디코더 컴포넌트에 대한 입력은 포지션 인코딩(295) 및 출력 토큰(260)의 토큰 임베딩을 포함할 수도 있다.
변환기 아키텍쳐(Vaswani 등등, 2017)의 코어 컴포넌트는 어텐션 컴포넌트이다. 변환기는 세 가지 타입의 어텐션 메커니즘: 인코더 셀프 어텐션(Encoder Self-Attention), 디코더 셀프 어텐션(Decoder Self-Attention) 및 인코더-디코더 어텐션(Encoder-Decoder Attention)을 가질 수도 있다. 인코더 셀프 어텐션의 입력은 변환기의 소스 입력 토큰이거나, 또는 이전 인코더 레이어의 출력이다. 인코더 셀프 어텐션 컴포넌트는 마스킹을 가지지 않으며 각각의 토큰은 다른 입력 토큰과의 글로벌 종속성(global dependency)을 갖는다. 디코더 셀프 어텐션 컴포넌트는 변환기의 출력 토큰을 입력 토큰으로서 사용하거나, 또는 이전 디코더 레이어의 출력을 사용한다. 디코더 셀프 어텐션에서, 입력 토큰은 이전 입력 토큰에 종속된다. 인코더-디코더 어텐션 컴포넌트에서, 질의는 디코더 레이어의 이전 컴포넌트로부터 검색되고 키 및 값은 인코더 출력으로부터 검색된다.
셀프 어텐션에 대한 입력(inpq, inpw 및 inpk)는, 인코더-디코더 어텐션을 제외하면, 변환기에서와 동일하다. 변환기에서 제시되는 바와 같은 셀프 어텐션은 수학식 1에서 도시되는 바와 같이 예시될 수도 있다.
Figure pct00003
여기서: Q는 질의의 세트로 구성되는 매트릭스를 나타내고, K는 키의 세트로 구성되는 매트릭스를 나타내고, V는 값의 세트로 구성되는 매트릭스를 나타내고, dk는 키와 질의의 차원성을 나타낸다.
Tsai 등등(2019)의 연구는 커널의 렌즈로부터 변환기에서의 어텐션 메커니즘의 새로운 공식을 제시한다. Tsai 등등(2019)은 커널 공식화에서 마스크 메커니즘으로서 필터링 함수(M)를 사용한다. 필터링 함수(M)는 변환기의 디코더 모듈에서 셀프 어텐션의 마스킹을 위해 필요로 될 수도 있다. Tsai 등등(2019)은, 커스터마이징 가능성을 도입하는 것 및 커널 피쳐 공간, 커널의 구성 및 위치 임베딩의 통합, 값 함수(value function), 및 필터링 함수와 같은 어텐션 컴포넌트에 대한 더 나은 이해에 의해 어텐션 메커니즘의 더 나은 이해를 가능하게 한다.
변환기로부터의 양방향 인코더 표현(Bi-directional Encoder Representations from Transformers; BERT)(Devlin 등등, 2018)는 자기 감독 접근법(self-supervised approach)에서 입력 토큰의 양방향 컨텍스트 표현을 구성하도록 설계되는 변환기(Vaswani 등등, 2017)의 인코더 컴포넌트에 기초하는 아키텍쳐이다.
BERT(Devlin 등등, 2018)는 마스킹된 언어 모델링을 사용하여 랜덤 입력 토큰을 랜덤하게 마스킹하고 마스킹된 입력 토큰의 원래의 토큰을 예측하기 위한 사전 트레이닝 목표를 설정한다. BERT는 통상적으로 입력 토큰의 15 %를 랜덤하게 마스킹한다. 랜덤하게 마스킹된 입력 토큰은 [MASK] 토큰에 의해 대체될 80 % 가능성, 다른 랜덤 토큰에 의해 대체될 10 % 가능성, 변경되지 않은 상태로 유지될 10 % 가능성을 갖는다. BERT(Devlin 등등, 2018)는 다음 번 문장 예측(next sentence prediction; NSP)을 사전 트레이닝 목표로서 또한 사용하여, 제2 입력 문장이 제1 입력 문장의 다음 번 문장인지를 예측할 수도 있다. 이것은 질문-답변 예측과 같은 다수의 다운스트림 태스크에 대해 유용하다. NSP 사전 트레이닝 목표는, 입력의 제2 문장이 제1 입력 문장을 따르는 실제 문장일 50 % 가능성, 및 입력의 제2 문장이 트레이닝 데이터세트로부터의 랜덤 문장일 50 % 가능성을 가질 수도 있다.
BERT는 입력 토큰에 대해 WordPiece(워드피스) 임베딩(Wu 등등, 2016)을 사용한다. 입력 토큰의 워드피스 임베딩은 세그먼트 임베딩 및 포지션 임베딩과 합산되어 BERT 입력을 생성한다. BERT는 또한 선택된 태스크에 대한 미세 튜닝된 모델을 구성하기 위해 감독 분류(supervised classification)와 같은 접근법을 사용하여 다운스트림 태스크로 미세 튜닝될 수도 있다.
임베딩은, 내레이팅된 설명 비디오(narrated instructional video)로부터 추출되며 오브젝트 및 그것의 관련된 내레이션의 컨텍스트에 맞춰진 단어 임베딩을 예측하기 위해 시각적 검출기를 사용하는 비텍스트 정보, 예컨대 컨텍스트에 맞춰진 오브젝트 임베딩(Contextualized Object Embeddings; COBE)을 또한 나타낼 수 있다(Bertasius and Torresani, 2020).
ELMo(Peters 등등, 2018)는 언어적 컨텍스트, 및 구문론적(syntax) 및 의미론적(semantic) 특성을 고려하는 단어 표현을 구성한다. 생성된 단어 표현은 양방향 언어 모델의 내부 상태로부터 검색된다.
생성적 사전 트레이닝된 변환기(Generative Pre-trained Transformer; GPT)(Radford 등등, 2018)는, 라벨링되지 않은 텍스트의 큰 집성본(corpus)에 대한 모델을 학습하도록 설계되고 미세 튜닝을 위해 그 모델을 사용하여 라벨링된 데이터를 갖는 분류 태스크에 대해 적응되는 변환기(Vaswani 등등, 2017)의 변형예(Liu 등등, 2018)의 디코더 컴포넌트에 기초한 아키텍쳐이다. GPT 사전 트레이닝 목표는 수학식 2에서 나타내어지는 바와 같이 우도를 최대화하는 것이다.
Figure pct00004
여기서: P는 각각의 파라미터(Θ)와 함께 신경망 아키텍쳐를 사용하여 모델링되는 조건부 확률이고; u는 라벨링되지 않은 집성본(U)에서의 토큰이고, 그 결과, U = {u1, ..., un}이고; k는 GPT 아키텍쳐의 입력 컨텍스트 윈도우이다.
트레이닝된 GPT 아키텍쳐는, 분류 라벨을 예측하기 위해, 그리고 수학식 3에서 나타내어지는 목표를 최대화하기 위해 선형 레이어를 추가하는 것에 의해 감독 태스크를 위해 미세 튜닝된다.
Figure pct00005
여기서: P는 조건부 확률이고, y는 분류 라벨이고, {x1, ..., xm}은 입력 토큰이다.
Hoover 등등(2019)은, BERT 어텐션 메커니즘을 이해하기 위해 사용되는 상호 작용식 도구인 EXBERT를 제시한다. EXBERT는 학습된 컨텍스트에 맞는 표현에 대한 통찰력을 제공하는 것에 의해 잠재적인 귀납적 편향(potential inductive bias)을 설명할 수도 있다. inputs = [token1, token2, ..., tokenn]인 입력 시퀀스 입력의 어텐션은 n×n 매트릭스로서 정의될 수도 있다. EXBERT는, 상위 50 개의 매치를 검색하기 위해 코사인 유사도(Cosine Similarity)를 사용하여 집성본에서 특정한 토큰을 검색하는 기능성, 및 검색된 집성본에서의 매치된 메타데이터, 예컨대 POS 및 NER의 요약의 디스플레이과 함께, 임의의 인코더 레이어, 어텐션 헤드 또는 집성된 어텐션 값에서, 입력 시퀀스의 어텐션 관계를 n×n 매트릭스로서 표현한다.
트리 변환기(Tree Transformer)(Wang 등등, 2019)는 트리 기반의 계층 구조를 따르기 위해 어텐션 헤드에 대한 제약을 갖는 인코더 기반의 변환기 아키텍쳐이다. 제약은 구성 성분 어텐션(Constituent Attention) 모듈을 사용하여 구현되어, 집성본으로부터 트리 구조를 학습한다. 트리 변환기 레이어는 멀티 헤드 어텐션 하위 레이어, 구성 성분 어텐션 모듈, 및 피드포워드(Feed Forward) 하위 레이어로 구성된다. 구성 성분 사전 분포(Constituent Prior)는 구성 성분 어텐션 모듈에 의해 계산된다. 멀티 헤드 어텐션의 어텐션은 구성 성분 사전 분포에 의해 안내된다. 구성 성분 어텐션 모듈은 시퀀스 u = {u1, u2, ..., un}를 생성하는 것에 의해 구성 성분 사전 분포를 생성한다. u의 엘리먼트는, 각각의 입력 토큰(예를 들면, w1) 및 그것의 이웃 토큰(예를 들면, w2)이 동일한 구성 블록에 속할 확률을 나타낸다. 중단점은 작은 확률 값에 의해 나타내어지며, 새로운 구성 블록의 구성을 트리거한다. 시퀀스 u는 이웃하는 어텐션(Neighbouring Attention) 및 계층적 제약(Hierarchical Constraint)을 사용하여 구성된다. 트리 변환기 방법은 그레이박스(gray-box) 방법으로 분류될 수도 있고, 따라서, 활성화 경로의 추적이 불가능할 것이다. 제안된 방법은, 글로벌 및 로컬 설명을 생성하기 위해, 변환기 기반의 아키텍쳐에서 화이트박스(white-box) 컴포넌트를 도입한다.
EQTransformer(Mousavi 등등, 2020)는, 계층적 어텐션 모델에 기초하여, 지진 검출을 위해 인코더와 세 개의 디코더를 사용한다. 인코더에 대한 입력은 지진 신호를 포함하여, 시간 종속성의 컨텍스트에 맞는 표현을 생성한다. 디코더는 이 학습된 정보를 사용하여, 그것을, 각각의 시점에 대한 지진 신호, P 위상, 및 S 위상의 존재와 관련되는 확률 벡터에 매핑한다.
변환기 아키텍쳐는 이미지 합성(Weissenborn 등등, 2020), 다중 오브젝트 추적(Zhang 등등, 2020), 음악 생성(Huang 등등, 2018), 3D 오브젝트 검출(Yang 등등, 2019), 포인트 클라우드 프로세싱(Guo 등등, 2020), 시계열 예상(Lim 등등, 2020), 시각 언어 모델링(Li 등등, 2019), 종단간 오브젝트 검출(Zhu 등등, 2020)을 위해 사용될 수도 있다.
변환기 아키텍쳐는 블랙박스 머신 러닝 모델(black-box machine learning model)이다. 변환기(Vaswani 등등, 2017), BERT(Devlin 등등, 2018), 및 GPT(Radford 등등, 2018)의 블랙박스 피드포워드 신경망 컴포넌트는 생성된 예측에 대한 설명을 제공할 수 없다. 사전 트레이닝 동안, 변환기 내부에서 학습되는 어텐션은 블랙박스로서 남게 되고 계층 구조에 대한 인간 직관(human intuition)을 캡쳐할 수 없을 수도 있다. EXBERT는 학습된 어텐션의 일정 정도의 사후 분석을 제공하지만, 그러나 변환기 기반의 아키텍쳐는 여전히 블랙박스 모델로서 남아 있다. 제안된 방법은, 글로벌 및 로컬 설명을 생성하기 위해, 변환기 기반의 아키텍쳐에서 화이트박스 컴포넌트를 도입한다.
적어도 하나의 예시적인 실시형태에 따르면, 설명 가능 트랜스듀서 및 설명 가능 변환기를 위한 방법, 시스템 및 장치가 도시되고 설명될 수도 있다.
트랜스듀서는 머신 러닝 시스템이 데이터를 입력 언어로부터 제2 출력 언어로 번역, 매핑 및 변환하는 것을 허용할 수도 있다. 트랜스듀서는 종종 유한 상태 트랜스듀서(FST)로서 구현된다.
예시적인 변환기는 디코더 및 인코더 컴포넌트의 조합에 기초한 어텐션 기반의 아키텍쳐일 수도 있으며 다양한 머신 러닝 애플리케이션에서 최첨단 결과를 제공할 수 있다. 변환기는, 어텐션 기반의 아키텍쳐를 갖춘, FST의 정교한 진화로서 간주될 수도 있다.
예시적인 실시형태는 예시적인 설명 가능 트랜스듀서 변환기(Explainable Transducer Transformer; XTT)를 생성하기 위해 FST를 설명 가능 변환기와 결합할 수도 있다. 설명 가능 변환기 인코더(Transformer-Encoder) 및 설명 가능 변환기 디코더(Transformer-Decoder)와 같은 XTT 변형예가 고려될 수도 있다.
예시적인 설명 가능 트랜스듀서는 트레이닝된 설명 가능 신경망(Explainable Neural Network; XNN) 아키텍쳐 또는 논리적으로 등가의 아키텍쳐에서 부분적 대체물로서 사용될 수도 있다.
예시적인 설명 가능 변환기는, 변환기의 인코더 및 디코더 레이어의 하위 레이어 둘 모두에서, 변환기의 블랙박스 모델 컴포넌트를 화이트박스 모델 등가물로 대체한다.
XTT는 설명 및 해석 생성 시스템(Explanation and Interpretation Generation System; EIGS)을 활용하여, 설명을 생성하고 설명을 필터링하여 답변, 설명 및 그것의 정당성(justification)의 해석을 생성할 수도 있다.
제1 양태에서, 본 개시는 다음의 것을 포함하는 설명 가능 머신 러닝 시스템을 제공한다: 머신 러닝 시스템이 입력 언어로부터의 데이터를 제2 출력 언어로 번역, 매핑, 및 변환하는 것을 허용하도록 구성되는 유한 상태 트랜스듀서(finite state transducer; FST) - 유한 상태 트랜스듀서는 변환을 위해 사용되는 하나 이상의 입력 피쳐를 포함하는 또는 상기 하나 이상의 입력 피쳐를 변환하는 입력 언어로부터의 상기 데이터를 수신하도록 적응되고, 유한 상태 트랜스듀서는 제2 출력 언어로서 상기 하나 이상의 입력 피쳐에 기초하여 번역된, 매핑된, 및/또는 변환된 데이터를 제공하도록 추가로 구성됨 - ; 및/또는 입력 언어로부터의 상기 데이터와 관련하여 형성되는 디코더 및 인코더 컴포넌트의 조합에 기초한 어텐션 기반의 아키텍쳐를 갖는 설명 가능 변환기 - 유한 상태 트랜스듀서 및 설명 가능 변환기는 결합되어 입력 언어로부터의 상기 데이터를 번역, 매핑, 및 변환하도록 구성되는 설명 가능 트랜스듀서 변환기(XTT)를 생성하도록 구성됨 - .
제2 양태에서, 본 개시는 다음의 것을 포함하는 설명 가능 트랜스듀서 변환기를 제공하기 위한 시스템을 제공한다: 입력을 수신하도록 그리고 하나 이상의 입력 피쳐를 식별하도록 구성되는 입력 레이어; 다음의 것을 포함하는 조건부 네트워크: 하나 이상의 파티션 - 하나 이상의 파티션 각각은 규칙을 포함함 - 에 기초하여 입력 피쳐를 모델링하도록 구성되는 조건부 레이어; 하나 이상의 규칙을 하나 이상의 집성된 파티션으로 집성하도록 구성되는 집성 레이어(aggregation layer); 및 집성 레이어로부터의 집성된 파티션을 조건부 레이어로부터의 하나 이상의 파티션과 함께 선택적으로 풀링하도록 구성되는 스위치 출력 레이어; 다음의 것을 포함하는 예측 네트워크: 하나 이상의 변환을 입력 피쳐에 적용하도록 구성되는 하나 이상의 변환 뉴런을 포함하는 피쳐 생성 및 변환 네트워크; 하나 이상의 피쳐 및 하나 이상의 파티션: 중 적어도 하나에 관련되는 하나 이상의 계수를 식별하기 위해 피쳐 생성 및 변환 네트워크에 의해 변환된 피쳐를 결합하도록 구성되는 적합 레이어; 하나 이상의 계수를 분석하도록 구성되고 하나 이상의 피쳐 또는 하나 이상의 파티션 중 적어도 하나에 관련되는 값을 출력하도록 구성되는 값 출력 레이어; 및 인코더 레이어 및 디코더 레이어 - 인코더 레이어 및 디코더 레이어 중 적어도 하나는 입력으로부터 형성되는 설명 가능 아키텍쳐를 포함함 - ; 머신 프로그램 또는 인간 중 적어도 하나에 의해 해석 가능한 그리고 설명 가능한 출력을 생성하도록 구성되는 출력 레이어; 파티션 전체에 걸친 하나 이상의 실행 경로는 외부 프로세스에 의해 식별 가능함.
제3 양태에서, 본 개시는 제1 및/또는 제2 양태에서 설명되는 시스템을 전개하기 위한 컴퓨터 구현 방법을 제공한다.
본원에서 설명되는 방법은, 유형의 저장 매체 상의 머신 판독 가능 형태의, 예를 들면, 프로그램이 컴퓨터 상에서 실행될 때 그리고 컴퓨터 프로그램이 컴퓨터 판독 가능 매체 상에서 구체화될 수도 있는 경우 본원에서 설명되는 방법 중 임의의 방법의 단계 모두를 수행하도록 적응되는 컴퓨터 프로그램 코드 수단을 포함하는 컴퓨터 프로그램의 형태의 소프트웨어에 의해 수행될 수도 있다. 유형의(또는 비일시적) 저장 매체의 예는, 디스크, 썸 드라이브(thumb drive), 메모리 카드, 등등을 포함하며, 전파 신호는 포함하지 않는다. 소프트웨어는, 방법 단계가 임의의 적절한 순서로, 또는 동시에 실행될 수도 있도록 병렬 프로세서 또는 직렬 프로세서 상에서의 실행에 적합할 수 있다.
바람직한 피쳐는, 숙련된 자에게 명백할 바와 같이, 적절히 결합될 수도 있고, 본 발명의 양태 중 임의의 것과 결합될 수도 있다.
본 발명의 실시형태의 이점은 본 발명의 예시적인 실시형태의 다음의 상세한 설명으로부터 명백할 것인데, 그 설명은, 동일한 참조 번호가 동일한 엘리먼트를 나타내는 첨부의 도면과 연계하여 고려되어야 하며, 첨부의 도면에서:
도 1은 유한 상태 트랜스듀서(종래 기술)의 예시적인 실시형태이다.
도 2는 Vaswani 등등(2017)으로부터 채택되는 변환기(종래 기술)의 예시적인 실시형태이다.
도 3은 예시적인 설명 가능 신경망(XNN) 아키텍쳐이다.
도 4는 예시적인 XNN 아키텍쳐이다.
도 5는 예시적인 해석 가능 신경망(Interpretable Neural Network; INN) 아키텍쳐이다.
도 6은 파티션 정보를 갖는 인코더 및 디코더 컴포넌트에서 설명 가능 아키텍쳐를 사용하는 설명 가능 변환기 아키텍쳐의 예시적인 실시형태이다.
도 7은 병렬의 설명 가능 인코더 컴포넌트 및 병렬의 설명 가능 디코더 컴포넌트를 갖는 설명 가능 변환기 아키텍쳐의 예시적인 실시형태이다.
도 8은 (a.) 변환기 인코더(종래 기술)의 예시적인 실시형태 및 (b.) 설명 가능 변환기 인코더(XTT 인코더(XTT-Encoder))의 예시적인 실시형태이다.
도 9는 (a.) 변환기 디코더(종래 기술)의 예시적인 실시형태 및 (b.) 설명 가능 변환기 디코더(XTT 디코더(XTT-Decoder))의 예시적인 실시형태이다.
도 10은 (a) 다운스트림 분류 태스크를 갖는 XTT 인코더의 예시적인 실시형태 및 (b) 다운스트림 분류 태스크를 갖는 XTT 디코더의 예시적인 실시형태이다.
도 11은 분산된 XTT 트레이닝 시스템의 예시적인 실시형태이다.
도 12는 설명 가능 유한 상태 트랜스듀서의 예시적인 실시형태이다.
도 13은 예시적인 XNN에 규칙 기반의 지식을 내장하기 위한 시스템의 예시적인 실시형태이다.
도 14는 예시적인 설명 및 해석 프로세스를 예시하는 예시적인 개략적인 플로우차트이다.
도 15는 예시적인 유도 방법을 예시하는 예시적인 개략적인 플로우차트이다.
도 16은 CNN-XTT 아키텍쳐의 예시적인 실시형태이다.
도 17은 역 인덱싱 메커니즘을 구현하는 CNN-XTT의 예시적인 실시형태이다.
도 18은 ML 기반의 시스템의 안전 및 보증을 위한 예시적인 거동 모델(Behavioural Model)이다.
도 19는 인과 모델(causal model)을 갖는 예시적인 XTT이다.
도 20은 멀티태스크 크로스오버 학습 구조(multi-task crossover learning structure)를 갖는 예시적인 설명 가능 시스템이다.
도 21은 (a.) 단방향 크로스오버 링크 및 (b.) 양방향 크로스오버 링크를 갖는 예시적인 멀티태스크 크로스오버 학습 구조이다.
도 22는 식별 평가 추천 해결(Identify-Assess-Recommend-Resolve; IAR) 프레임워크 내에서 XTT를 사용하는 문서 프로세싱을 위한 예시적인 설명 구조 모델(Explanation Structure Model; ESM)이다.
도 23은 예시적인 XTT 시스템을 사용한 문서 데이터로부터의 예시적인 자동화된 초안 인과 모델 생성(automated draft causal model creation)이다.
본 발명의 양태는 본 발명의 특정한 실시형태를 대상으로 하는 다음의 설명 및 관련 도면에서 개시된다. 본 발명의 취지 또는 범위로부터 벗어나지 않으면서 대안적인 실시형태가 고안될 수도 있다. 추가적으로, 본 발명의 예시적인 실시형태의 널리 공지된 엘리먼트는 본 발명의 관련 세부 사항을 모호하게 하지 않도록 상세하게 설명되지 않을 것이거나 또는 생략될 것이다. 게다가, 설명의 이해를 용이하게 하기 위해, 본원에서 사용되는 여러 용어의 논의가 후속된다.
본원에서 사용될 때, 단어 "예시적인"은 "예, 인스턴스 또는 예시로서 역할을 한다는 것을 의미한다. 본원에서 설명되는 실시형태는 제한적인 것이 아니라, 단지 예시적인 것에 불과하다. 설명되는 실시형태가 반드시 다른 실시형태보다 바람직하거나 또는 유리한 것으로 해석되지 않아야 한다는 것이 이해되어야 한다. 또한, 용어 "본 발명의 실시형태", "실시형태" 또는 "본 발명"은 본 발명의 모든 실시형태가 논의된 피쳐, 이점, 또는 동작 모드를 포함해야 한다는 것을 규정하는 것은 아니다.
게다가, 본원에서 설명되는 실시형태 중 많은 것은, 예를 들면, 컴퓨팅 디바이스의 엘리먼트에 의해 수행될 액션의 시퀀스의 관점에서 설명된다. 본원에서 설명되는 액션의 다양한 시퀀스는 특정한 회로(예를 들면, 주문형 집적 회로(application specific integrated circuit; ASIC))에 의해 및/또는 적어도 하나의 프로세서에 의해 실행되는 프로그램 명령어에 의해 수행될 수 있다는 것이 기술 분야의 숙련된 자에 의해 인식되어야 한다. 추가적으로, 본원에서 설명되는 액션의 시퀀스는 액션의 시퀀스의 실행이 적어도 하나의 프로세서가 본원에서 설명되는 기능성(functionality)을 수행하는 것을 가능하게 하도록 임의의 형태의 컴퓨터 판독 가능 저장 매체 내에서 전체적으로 구체화될 수 있다. 더구나, 본원에서 설명되는 액션의 시퀀스는 하드웨어 및 소프트웨어의 조합으로 구체화될 수 있다. 따라서, 본 발명의 다양한 양태는 다수의 상이한 형태로 구체화될 수도 있는데, 다수의 상이한 형태 모두는 청구된 주제의 범위 내에 있는 것으로 고려되었다. 또한, 본원에서 설명되는 실시형태 각각의 경우, 임의의 그러한 실시형태의 대응하는 형태는, 본원에서, 예를 들면, 설명된 액션을 수행하도록 "구성되는 컴퓨터"로서 설명될 수도 있다.
용어 해석 가능 및 설명 가능은 상이한 의미를 가질 수도 있다. 해석 가능성은 인터프리터의 관점에서 정의되는 것을 필요로 할 수도 있는 특성일 수도 있다. 인터프리터는 (i.) 자기 자신의 지식과 믿음; (ii.) 목표 액션 계획(goal-action plan); (iii.) 컨텍스트; 및 (iv.) 세계 환경의 조합을 사용하여 시스템 출력 또는 아티팩트(artifacts)를 해석하는 에이전트일 수도 있다. 예시적인 인터프리터는 지식이 풍부한 인간일 수도 있다.
지식이 풍부한 인간 인터프리터에 대한 대안은, 제한된 범위의 애플리케이션에 대한 출력 또는 아티팩트를 해석할 수 있을 수도 있는, 좁은 도메인의 전문가 시스템과 같은, 적절한 자동화된 시스템일 수도 있다. 예를 들면, 의료 전문가 시스템, 또는 종단간 머신 러닝 시스템과 같은, 어떤 논리적 등가물은, 의료 애플리케이션 도메인의 특정한 세트에서 의료 결과의 유효한 해석을 출력할 수 있을 수도 있다.
미래에는, 인간 인터프리터의 역할을 부분적으로 또는 완전히 대체할 수 있고, 및/또는 해석 성능을 더 넓은 범위의 애플리케이션 도메인으로 확장할 수 있는 인간이 아닌 인터프리터가 생성될 수도 있다는 것이 고려될 수도 있다.
두 가지 별개의 타입의 해석 가능성이 있을 수도 있다: (i) 임의의 형태의 자동화된 또는 기계 모델이, 그것의 서브 컴포넌트, 구조, 및 거동과 함께, 얼마나 해석 가능한지를 측정하는 모델 해석 가능성; 및 (ii) 임의의 형태의 자동화된 또는 기계 모델로부터의 출력이 얼마나 해석 가능한지를 측정하는 출력 해석 가능성.
따라서, 해석 가능성은 단순한 이분법적 특성이 아닐 수도 있고, 완전히 해석 가능한 것부터 해석 불가능한 것까지의 범위에 이르는 슬라이딩 척도 상에서 평가될 수 있다. 모델 해석 가능성은 출력을 생성하는 기저의 실시형태, 구현예 및/또는 프로세스의 해석 가능성일 수도 있고, 한편, 출력 해석 가능성은 출력 그 자체 또는 검사 중인 모든 아티팩트의 해석 가능성일 수도 있다.
머신 러닝 시스템 또는 적절한 대안적인 실시형태는 다수의 모델 컴포넌트를 포함할 수도 있다. 모델 컴포넌트는, 가능한 입력의 서브세트에 대해, 인터프리터에 의해, 그들의 내부 거동 및 기능이 완전히 이해될 수 있고 올바르게 예측될 수 있는 경우, 모델 해석 가능할 수도 있다. 한 실시형태에서, 모델 컴포넌트의 거동 및 기능은, 상태 전이 차트, 프로세스 플로우차트 또는 프로세스 설명, 거동 모델(Behavioral Model), 또는 어떤 다른 적절한 방법과 같은 다양한 방식으로 구현되고 표현될 수 있다. 모델 컴포넌트는, 가능한 입력의 서브세트에 대해, 인터프리터에 의해, 그들의 출력이 이해될 수 있고 올바르게 해석될 수 있는 경우, 출력 해석 가능할 수도 있다.
예시적인 머신 러닝 시스템 또는 적절한 대안적인 실시형태는: (i.) 그것이 완전히 모델 해석 가능한 경우(즉, 그것의 컴포넌트 모두가 모델 해석 가능한 경우) 글로벌하게 해석 가능할 수도 있거나; 또는 (ii.) 그것이 부분적으로 모델 해석 가능한 경우(즉, 그것의 컴포넌트 중 일부만이 모델 해석 가능한 경우) 모듈 해석 가능할 수도 있다. 더구나, 머신 러닝 시스템 또는 적절한 대안적 실시형태는, 그것의 출력 모두가 해석 가능한 출력인 경우 로컬하게 해석 가능할 수도 있다.
화이트박스 특성과의 블랙박스 특성의 하이브리드 혼합물인 그레이박스(grey-box)는, 출력에 관한 한 화이트박스의 특성을 가질 수도 있지만, 그러나 그것의 내부 거동 또는 기능에 관한 한 블랙박스의 것을 가질 수도 있다.
화이트박스는 로컬 및 글로벌 설명 가능성 둘 모두를 달성할 수 있는 완전한 모델 해석 가능 및 출력 해석 가능 시스템일 수도 있다. 따라서, 완전한 화이트박스 시스템은 내부 기능 및 출력 둘 모두의 관점에서 완전히 설명 가능하고 완전히 해석 가능할 수도 있다.
블랙박스는 출력 해석 가능하지만 모델 해석 불가능할 수도 있고, 제한된 로컬 설명 가능성을 달성할 수도 있어서, 설명 가능성 성능을 거의 또는 전혀 가지지 않으며 내부 기능의 관점에서 최소 이해와 함께 그것을 최소로 설명 가능하게 만들 수도 있다. 딥 러닝 신경망(deep learning neural network)은 출력 해석 가능하지만 그럼에도 모델 해석 불가능한 시스템일 수도 있다.
그레이박스는 부분적으로 모델 해석 가능하고 출력 해석 가능한 시스템일 수도 있으며 내부 기능의 관점에서 부분적으로 설명 가능하고 출력의 관점에서 해석 가능할 수도 있다. 따라서, 예시적인 그레이박스는 가장 설명 가능하고 해석 가능한 것(화이트박스)으로부터 가장 적게 설명 가능하고 해석 가능한 것(블랙박스)까지의 스케일 상에서 화이트박스와 블랙박스 사이에 있을 수도 있다. 그레이박스 시스템은, 그들의 컴포넌트 중 일부가 모델 해석 가능할 수도 있기 때문에 모듈 해석 가능성의 레벨을 가질 수도 있다.
설명 가능 변환기(XTT) 모델에서 활용되는 설명 가능 아키텍쳐는, 설명 가능 인공 지능(eXplainable artificial intelligence; XAI) 모델, 해석 가능 신경망(Interpretable Neural Net; INN), 설명 가능 신경망(eXplainable Neural Net; XNN), 설명 가능 스파이킹 네트(eXplainable Spiking Net; XSN) 및 설명 가능 메모리 네트(eXplainable Memory Net; XMN) 모델을 포함하지만, 그러나 이들로 제한되지는 않는다. 추가로 예시적인 실시형태는 설명 가능 보강 학습(eXplainable Reinforcement Learning; XRL)의 화이트박스 본질을 이용하는 것에 의해 편향을 글로벌하게 뿐만 아니라 로컬하게 검출하기 위한 방법을 제시할 수도 있다.
몇몇 예가 이들 중 하나 이상을(예를 들면, XAI 또는 XNN만을) 구체적으로 참조할 수도 있지만, 본원에서 설명되는 실시형태 중 임의의 것은 XAI, XNN, XTT, XSN, 또는 XMN에 상호 교환 가능하게 적용될 수도 있다는 것이 고려될 수도 있다. 다른 예시적인 실시형태는 해석 가능 신경망(INN)에서의 편향 검출 및 블랙박스 모델과 화이트박스 모델 사이의 하이브리드 혼합물일 수도 있는 관련된 그레이박스 모델에 관련될 수도 있다. 예시적인 실시형태는 그레이박스 모델의 화이트박스 부분에 완전히 적용될 수도 있고 그레이박스 모델의 블랙박스 부분의 적어도 일부에 적용될 수도 있다. 본원에서 설명되는 실시형태 중 임의의 것은 INN에 상호 교환 가능하게 또한 적용될 수도 있다는 것이 고려될 수도 있다.
설명 가능 신경망(XNN)은 본질적으로 해석 가능하고 설명 가능한 새로운 타입의 인공 신경망(Artificial Neural Network; ANN)이다. XNN 배후의 주요 개념은 내부 네트워크 구조가 완전히 해석 가능하다는 것이다. 해석 가능성은 아키텍쳐 그 자체 내에서 구축되지만, 그럼에도, 그것은 표준 신경망처럼 기능한다. 이것은 신경망의 결과를 해석하기 위한 추가적인 기술 또는 프로세싱을 적용할 필요성을 제거한다. XNN은 시뮬레이션, 반복, 교란(perturbation), 등등에 대한 어떠한 필요도 없이 단일의 피드포워드 단계에서 답변 및 그것의 설명 둘 모두를 계산한다. XNN은 또한 소프트웨어뿐만 아니라 하드웨어에서도 또한 효율적으로 쉽게 구현 가능하도록 설계되어, 상당한 속도와 공간 개선으로 이어진다.
XNN은 다수의 로컬 모델을 하나의 글로벌 모델로 결합할 수도 있다. 로컬 모델은 전체 검색 공간 내의 작은 영역을 분석한다. 글로벌 모델은 전체적인 관점을 가지고 모델을 이해하는 것에 관한 것이다. XNN은 둘 모두 구현할 수도 있다 - 다수의 파티션은 로컬 구역을 나타내고 다수의 선형 모델은 각각의 파티션을 설명하며, 결합되면 그들은 글로벌 모델을 구성한다. XNN은, 설명 가능성을 유지하면서 신경망 그 자체 내에 변환을 임베딩하는 것에 의해 선형 및 비선형 데이터 둘 모두 지원한다. XNN 내의 각각의 레이어, 뉴런, 및 연결은, 블랙박스인 표준 ANN과는 달리, 정확하고 널리 공지되고 이해 가능한 기능을 갖는다. 따라서, XNN은 이해 가능하고 해석 가능한 새로운 카테고리의 신경망을 생기게 하는 지금까지 공지된 최초의 완전한 화이트박스 ANN이다.
이제 예시적인 도 13을 참조하면, 도 13은 규칙 기반의 지식 또는 XNN에 임베딩되는 논리적으로 등가의 지식을 예시하는 개략적인 플로우차트일 수도 있다. 먼저, 다수의 규칙 및 인코딩된 지식을 참조할 수도 있는 로컬화 방법을 사용하여 파티션 조건(2902)이 선택될 수도 있다. 파티션은 중첩하지 않을 수 있거나 또는 중첩할 수 있다. 비중첩 파티션의 경우, XNN은 피드포워드 모드에서 단일의 경로를 취할 수도 있다. 중첩 파티션의 경우, XNN은 피드포워드 모드에서 다수의 경로를 취할 수도 있으며 각각의 경로에 대한 확률 또는 순위 매김 점수를 계산할 수도 있다. 대안적인 실시형태에서, 중첩 파티션은 활성화된 파티션으로부터의 결과를 결합하는 집성 함수(aggregation function)를 또한 사용할 수도 있다. 파티션 조건(2902)은 표현되는 모델의 특정한 영역 상으로 XNN을 집중시키는 것으로 해석될 수 있다. 파티션 로컬화 방법은, 통상적으로, 논리곱 정규형(conjunctive normal form; CNF) 또는 논리합 정규형(disjunctive normal form; DNF)과 같은 논리적 등가물을 사용하여 다양한 피쳐(2906)가 실수(2908)에 반복적으로 비교되는 템플릿(2904)에 의해 주어지는 형태로 구현될 수도 있다. 대안적인 실시형태에서, 타입 1 또는 타입 2 퍼지 로직 시스템, 모달 로직, 양자 로직, 확률 로직, 또는 논리적 또는 유사한 명령문(statement)의 표현을 위한 다른 적절한 타입의 논리적 시스템과 같은 다른 비 부울 논리적 시스템(non-Boolean logical system)이 활용될 수도 있다.
로컬화 방법 값, 조건 및 기저의 수학식은 XAI 모델 유도 방법 또는 논리적으로 등가의 방법과 같은 외부 프로세스를 사용하여 선택 및 식별될 수도 있다. 대안적인 실시형태에서, 로컬화 값, 조건, 및 기저의 수학식은 역전파와 같은 경사 하강 방법(gradient descent method)을 사용하는 종단간 접근법을 사용하여 부분적으로 또는 완전히 유도될 수도 있다. 선택된 값은 초기 블랙박스 예측기 모델에 반복적으로 질의하는 것에 의해 및/또는 제공되는 상대적 테스트 또는 합성 데이터에 모델을 적합시킴에 있어서 소정의 레벨의 정확도가 획득될 때까지 반복적으로 테스트되고 변경된다. XNN은, 조건부 네트워크의 일부일 수도 있는 로컬화 또는 포커싱 모듈에서의 네 개의 예시적인 컴포넌트, 즉, 입력 레이어(2910), 조건부 레이어(2912), 값 레이어(2914) 및 출력 레이어(2916)를 가질 수도 있다.
입력 레이어(2910)는 XNN에 의해 프로세싱될 필요가 있는 다양한 피쳐를 수신하도록 구조화될 수도 있다. 입력 레이어(2910)는, 각각의 활성화가 뉴런의 그룹을 스위치 온하는 조건부 레이어(2912)를 통해 프로세싱된 피쳐를 공급한다. 조건부 레이어는, 출력을 전달하기 이전에 조건이 충족되는 것을 필요로 할 수도 있다. 게다가, 입력은 값 레이어(2914)에 의해 추가적으로 분석될 수도 있다. 출력 X(정수 또는 실수 값, 등등의 계산의 경우) 또는 클래스(분류 애플리케이션, 등등의 경우) X의 값은 값 레이어(2914)에 의해 계산되는 수학식 X.e에 의해 주어진다. X.e 함수 결과는 출력(2916)을 생성하기 위해 사용될 수도 있다. 조건부 레이어 및 값 레이어는 임의의 순서로, 또는 동시에 발생할 수도 있다는 것이 고려될 수도 있다.
이제 예시적인 도 3을 참조하면, 도 3은 예시적인 하이 레벨 XNN 아키텍쳐의 개략적인 다이어그램을 예시할 수도 있다. 입력 레이어(402)는 조건부 네트워크(410) 및 예측 네트워크(420) 둘 모두에, 어쩌면 동시에, 입력될 수도 있다. 조건부 네트워크(410)는 조건부 레이어(412), 집성 레이어(414) 및 (조건부 값을 출력하는) 스위치 출력 레이어(416)를 포함할 수도 있다. 예측 네트워크(420)는 피쳐 생성 및 변환(422), 적합 레이어(424), 및 예측 출력 레이어(값 출력)(426)를 포함할 수도 있다. 레이어는, 스위치 출력을 값 출력으로 승산할 수도 있는 선택 및 순위 매김 레이어(428)에 의해 분석되어, 순위가 매겨진 또는 점수가 매겨진 출력(430)을 생성할 수도 있다. 설명 및 답변은 조건부 네트워크 및 예측 네트워크에 의해 XNN에 의해 동시에 계산될 수도 있다. 선택 및 순위 매김 레이어(428)는 답변 및 설명이 출력(430)으로 전송되기 이전에 정확하게 매칭되고, 적절하게 순위가 매겨지고 점수가 매겨지는 것을 보장할 수도 있다.
조건부 네트워크(410) 및 예측 네트워크(420)의 프로세싱은 임의의 순서인 것으로 고려된다. XNN의 특정한 애플리케이션에 따라, 컴포넌트(412, 414, 및 416)와 같은 조건부 네트워크(410)의 컴포넌트 중 일부는 옵션 사항일 수도 있거나 또는 사소한 구현예로 대체될 수도 있다는 것이 고려될 수도 있다. XNN의 특정한 애플리케이션에 따라, 컴포넌트(422, 424, 및 426)와 같은 예측 네트워크(420)의 컴포넌트 중 일부는 옵션 사항일 수도 있거나 또는 사소한 구현예로 대체될 수도 있다는 것이 추가로 고려될 수도 있다.
어떤 상황에서는, 선택 및 순위 매김 레이어(428) 및 출력(430)이 하나의 통합된 컴포넌트로 결합될 수도 있다는 것이 추가로 고려될 수도 있다. 최적화 목적을 위해, XNN은 조건부 네트워크(410) 및 예측 네트워크(420) 둘 모두와 함께 모든 그들의 컴포넌트가 하나의 네트워크로 병합되어 또한 구현될 수도 있다. 이 병합된 조건부 및 예측 네트워크는 결합된 선택 및 순위 매김 레이어(428) 및 출력(430)과 또한 병합될 수도 있다. 이 최적화는 여전히 논리적으로 등가인 XNN을 초래할 것인데, 이것은 피드포워드 프로세싱의 경우 더 빠를 수도 있다.
따라서 XNN은 입력 레이어(402), 및 조건부 레이어(412), 집성 레이어(414), 스위치 출력 레이어(416), 피쳐 생성 및 변환 레이어(422), 적합 레이어(424), 예측 레이어(426)를 포함하는 조건부 네트워크(410)와 예측 네트워크(420)의 조합, 및 출력(430)으로 이어지는 순위 매김 레이어(428)가 있는 방식으로 구현될 수 있다. 이 조합은 소프트웨어 및 하드웨어 구현예 둘 모두를 비롯하여, XNN의 모든 실시형태 및 구현에 적용될 수도 있다. 이와 관련하여 XNN의 변환 성능은, XNN의 화이트박스 본질이, 비록 이것이 실제 구현예의 다양한 속성, 예컨대 사이즈/공간 사용량, 성능, 리소스 사용량, 트레이닝 가능성, 및 전체적인 스루풋에 영향을 끼치지만, XNN의 논리적 거동에 영향을 끼치지 않으면서 유연성 및 극단적인 병합(extreme merging)이 수행되는 것을 허용하기 때문에, 다른 신경망 구현예에서 고유하고 비할 데 없다.
이제 도 4를 참조하면, 도 4는, 스위치 출력 레이어 및 값 출력 레이어로부터의 결과를 결합하는 예시적인 XNN 아키텍쳐를 예시할 수도 있다. 도 4에서 묘사되는 예는 다음의 예시적인 규칙 세트(ruleset)와 논리적으로 등가이다:
Figure pct00006
규칙 세트는 출력 레이어(520)에서 활성화 함수 다음에 발견될 수도 있다. 도 4의 예시적인 아키텍쳐는 입력(400)으로 시작될 수도 있다. 이 입력(400)은 도 3에서 도시되는 아이템(402)과 같은 적절한 입력 레이어 내에서 프로세싱될 수도 있다. 그 다음, 입력은 조건부 네트워크(410) 및 예측 네트워크(420)에 대한 입력으로서 사용될 수도 있다. 도 4에서 예시되는 바와 같이, 예측 네트워크는 피쳐 생성 및 변환 레이어(422), 적합 레이어(424), 및 값 출력 레이어(426)를 포함할 수도 있다. 값 출력 레이어(426)는 입력의 상이한 피쳐에 가중치를 부여하는 수학식을 제공할 수도 있다. 게다가, 입력(400)은, 도 3에서 예시되는 바와 같이, 조건부 네트워크(410)에 대한 입력으로서 사용될 수도 있다. 다시, 조건부 레이어(412) 및 집성 레이어(414)는 스위치 출력 레이어(416)에서 표현되는 접속 규칙(conjunctive rule) 또는 다른 논리적 등가물 또는 파티션을 생성할 수도 있다.
값 출력 레이어(426) 및 스위치 출력 레이어(416)의 출력은 적절한 출력 레이어, 예컨대 도 3에서 도시되는 출력 레이어(430)에서 결합될 수도 있다. 일단 출력 레이어(430)가 형성되면, 애플리케이션에 따라, 시그모이드(sigmoid) 또는 다른 활성화 함수(520)가 결과(518)에 적용될 수도 있다. 애플리케이션에 따라, 출력 조합 이전에 및/또는 이후에, 순위 매김 레이어(516)가 결과에 또한 적용될 수도 있다는 것이 추가로 고려된다.
XNN은 해석 가능 모델을 구성하는 직관적인 방법을 제시할 수도 있고, 동시에 ANN 및 딥 러닝과 같은 관련 방법의 능력(power)을 여전히 활용할 수도 있다. 일단 모델이 역전파 또는 유사한 방법을 통해 트레이닝되면, 결과적으로 나타나는 신경망은 예측을 서빙하기 위해 사용될 수 있고 XNN의 내부 구조는 규칙을 구성하기 위해 사용될 수 있다.
해석 가능 신경망(INN)은 현존하는 딥 러닝 기술을 사용하여 설명을 자동적으로 생성할 수 있는 아키텍쳐를 제공한다. INN은 신경망에 대해 사용되는 현존하는 소프트웨어 인프라 및 하드웨어를 활용할 수 있으며, 또한, 역전파 트레이닝 기술과 완전하게 호환될 수도 있다.
아키텍쳐는, 입력을 어떤 숨겨진 피쳐로 변환하는 피쳐 변환기, 및 숨겨진 피쳐를 피쳐 가중치로 변환하는 다수의 연관성 추정기(relevance estimator)를 포함할 수도 있다. 그 다음, 피쳐 가중치는, 각각의 입력 변환 피쳐의 속성을 추출하기 위해, 변환된 입력과 결합된다. 그 다음, 결과적으로 나타나는 피쳐 속성은 결과에 대해 집성된다. 피쳐 속성은 상이한 레벨에서 추출될 수도 있다. 가장 간단한 형태에서, 속성은 원래의 입력과 직접적으로 연결될 수도 있다. CNN과 같은 다른 경우에서, 커널 및 필터에서 통상적으로 발견되는 더 높은 레벨 피쳐에 대해 피쳐 속성이 또한 계산될 수도 있다. 추가적으로, INN은 모델을 다양한 파티션으로 분할할 수도 있고, 따라서 로컬 또는 세그먼트화된 설명 가능성의 혼합을 가능하게 하는 것에 의해, 더 높은 레벨의 유연성 및 해석 가능성을 가능하게 한다. 몇몇 경우에, INN은 글로벌 설명 가능성을 또한 제공할 수 있다.
이제 도 5를 참조하면, 도 5는 해석 가능 신경망에 대한 예시적인 아키텍쳐를 예시할 수도 있다. 예시적인 실시형태는 데이터를 모델링하기 위해 표준 신경망에 아키텍쳐 제약을 적용할 수도 있다. 예시적인 실시형태는 어떤 입력 벡터 X(601)로 시작될 수도 있다. 입력은 피쳐 생성 및 변환 네트워크(602) 및 k 개의 연관성 추정기(604)에 연결될 수도 있다. 변환된 피쳐는 심층 신경망(deep neural network) 예컨대 CNN, 비선형 수학 함수 예컨대 다항식 확장, 푸리에(Fourier) 변환, 연속 데이터 버킷화(bucketization), 인과 연산자(causal operator), 또는 불연속적일 수도 있거나 또는 연속적일 수도 있는 어떤 다른 형태의 생성된 피쳐를 사용하여 계산될 수 있는 추상적 또는 하이 레벨 피쳐일 수도 있다. 피쳐 및 변환 네트워크는, 다항식 확장, 회전, 차원 및 무차원 스케일링, 푸리에 변환, Walsh(월시) 함수, 상태 공간(state-space) 및 위상 공간(phase-space) 변환, Haar(하르) 및 non-Haar(비 하르) 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, Hadamard(아다마르) 변환, 타입 1 및 타입 2 퍼지 로직, 지식 그래프 네트워크, 카테고리형 인코딩(categorical encoding), Kolmogorov/Frechet/Hausdorff/Tychonoff(콜모고로프/프레쳇/하우스도르프/타이초노프) 공간의 위상 변환, 차이 분석 및 데이터의 정규화/표준화를 포함하는 그러나 이들로 제한되지는 않는 변환의 파이프라인일 수도 있다는 것이 추가로 고려된다. 연관성 추정기(604)는 각각의 변환된 피쳐의 계수를, 적어도 로컬 방식으로, 계산할 수도 있다.
수학적 항에서, 변환 네트워크는 함수 T(X)로 표기될 수도 있다. 마찬가지로, θj(X)는 j 번째 파티션의 연관성 함수를 나타낸다. X → T(X)가 z 변환된 차원을 갖는 벡터를 반환하는 경우, 그러면 X → θj(X)는 z 계수, 또는 연관성 가중치를 갖는 벡터를 또한 반환한다. |T(X)| = |θj(X)| = z가 가정된다.
INN은 다양한 옵션 및 구성을 통해 복잡도의 모델링을 허용할 만큼 충분히 유연할 수도 있다. 함수 X → T(X) 및 X → θi(X)는 복잡한 추상적 피쳐를 모델링하는 것을 가능하게 만드는 심층 신경망일 수도 있다. 네트워크는 또한 XNN일 수도 있으며, 화이트박스 추정기를 가질 수도 있다. T(X) 및 θi(X)의 조합은 INN 아키텍쳐로 구현하기에 가능한 설명 가능 모델의 다양한 실시형태를 나타낼 수도 있다는 것이 주목될 수도 있다.
신경망은 조건부 네트워크(606)를 포함할 수도 있다. 조건부 네트워크(606)는 하나 이상의 파티션을 활성화하기 위해 IF 조건의 형태의 규칙을 평가할 수도 있다. Ci(X)의 출력은 이진수일 수도 있다. 파티션은 정적이거나 또는 동적일 수도 있으며 외부 파티셔닝(partitioning) 프로세스를 통해, 연결된 신경망을 통해, 또는 내부 프로세스를 통해 발견될 수도 있다는 것이 주목될 수도 있다. INN은 단지 하나의 파티션만을 가지고 또한 기능할 수도 있다는 것을 또한 알 수도 있을 것인데, 여기서 X의 모든 값에 대해 Ci(X)는 항상 1이다. 이것은 제로 개의 파티션을 갖는 것과 등가이다. 이 경우, 적절한 파티션을 찾기 위해 파티셔닝 방법을 적용할 필요가 없다.
피쳐 속성(608)은, 관련된 파티션에 의해 활성화되는 각각의 변환된 피쳐의 속성을 계산할 수도 있다. 연관성 속성은 계산된 계수의 결과를 변환된 피쳐로 승산할 수도 있다. 수학적 항에서, 피쳐 속성(608)은 j 번째 파티션에 대한 θj(X)T(X)를 계산할 수도 있다. 레이어(608)의 출력은 설명 생성의 기초로서 기능할 수도 있다. 이 레이어로부터의 값은 피쳐 속성 그래프, 히트맵, 텍스트 설명 또는 다른 형태의 설명을 생성하기 위해 사용될 수도 있다.
집성 레이어(610)에서, 신경망은 각각의 파티션에 대한 결과(활성화된 파티션에 대한 예측 결과)를 집성한다. 수학적 항에서, 예시적인 집성 함수는 Ajj(X)T(X))에 의해 정의될 수도 있다. 예시적인 실시형태에서, 집성 함수는 피쳐 속성의 단순한 합산일 수도 있다. 이것은 적어도 로컬 방식으로 기능하는, 선형 함수와 동등하게 되고, 그 결과, 결과(Rj) = θj(X)1T(X) + ... + θj(X)zT(X)이다.
모델은 중첩 파티션을 가질 수도 있다는 것이 고려될 수도 있다. 이 경우, 중첩 파티션을 해결하기 위해 순위 매김 함수(ranking function)가 적용될 수도 있다. R이 순위 매김 함수를 정의하고 Pj가 j 번째 파티션의 출력을 정의한다고 하면, 이것은 일반화된 모델을 다음과 같이 만든다:
f(x)= R((P1, P2, ..., Pj, ... Pk))
마지막으로, 스위치 레이어(620)는 활성화된 파티션을 선택한다. 하나보다 더 많은 파티션이 활성화되는 경우, 어떤 순위 매김 함수(625)가 적용될 필요가 있을 수도 있다. 결과는 결과 레이어(630)를 통해 생성된다.
실제 실시형태에서, INN 모델은 변환 함수 T(x)에서, 추정기 θj(x)에서, 집성 함수 A에서, 순위 매김 함수 R에서 또는 어떤 다른 컴포넌트 내에서 여러 가지 최적화를 가질 수도 있다. INN은 필요로 되는 단순성 또는 복잡도의 레벨에 따라 파티션이 커스터마이징되는 것을 가능하게 하는 것에 의해 더 높은 레벨의 유연성을 제공할 수도 있다.
이제 도 14의 예시적인 실시형태를 참조하면, 도 14는 예시적인 설명 생성 파이프라인을 제시할 수도 있다. 파이프라인은 현재 검사되고 있는 데이터 샘플, 시나리오 또는 다른 질문을 나타내는 입력 질의(902)로 시작될 수도 있는데, 이것은, 그 다음, 다음의 세 개의 컴포넌트를 통해 프로세싱될 수도 있다: 설명 가능 또는 해석 가능 시스템/모델(904), 설명자(Explainer; 908), 및 인터프리터(912). 세 가지 주요 컴포넌트 각각은 파이프라인의 다음 번 컴포넌트에 입력될 수도 있는 상이한 출력을 생성할 수도 있다. 입력 질의(902)는 특정한 데이터 샘플 또는 시나리오에만 제한되지 않고 전체 모델(글로벌 모델 설명 가능성) 또는 해석 가능 모델의 특정한 컴포넌트를 다루는 모듈 설명에 관련될 수도 있다는 것이 고려될 수도 있다.
설명 가능 또는 해석 가능 시스템/모델(904)은, 답변의 옵션 사항의(optional) 모델 설명(9062)과 함께, 그 답변(9061), 및, 옵션 사항으로, 답변 및/또는 그것의 모델 설명의 정당성(9063)으로 구성되는 설명 가능 또는 해석 가능 출력(906)을 생성할 수도 있다. 답변 및/또는 그것의 모델 설명의 정당성(9063)은, 답변 및/또는 모델 설명을 출력할 때, 설명 가능 또는 해석 가능 시스템/모델(904)에 의해 취해지는 가정, 프로세스 및 결정에 대한 추가적인 정보를 제공하는 모델 설명의 설명(즉, 메타 설명)이다. 설명자(908)는 설명 스캐폴딩(Explanation Scaffolding; 9101)으로 구성되는 설명자 출력(910)을, 옵션 사항의 후보 설명(9102)과 함께, 생성할 수도 있다. 예시적인 실시형태에서, 후보 설명은 설명 스캐폴딩(9101)의 프로세싱의 결과로서 생성되고 비감독(unsupervised) 또는 감독(supervised) 학습 및 최적화를 수반하는 어떤 형태의 반복 프로세스에서 설명 스캐폴딩의 콘텐츠의 평가의 프로세스에서 사용될 수 있다. 필터(911)는, 예를 들면, 설명자(908)가 현재의 단계에 대한 출력을 생성한 이후 그러나 인터프리터(912)가 시작하기 이전에, 설명 스캐폴딩(9101) 및 해석 스캐폴딩(Interpretation Scaffolding; 9111)을 주로 변환하고 필터링하는 옵션 사항의 컴포넌트이다.
인터프리터(912)는, 해석 스캐폴딩(9111)을 사용하여, 설명(9141)을, 그 설명의 옵션 사항의 해석(9142)과 함께, 생성할 수도 있다.
설명 및/또는 해석을 포함하는 설명 프로세스의 최종 결과(914)는 인간 유저, 다른 애플리케이션, 또는 더 큰 실시형태의 일부를 형성하는 다른 시스템 컴포넌트, 또는 어떤 다른 자동화된 시스템에 제공될 수도 있다.
도 14는 하나의 예시적인 파이프라인일 수도 있고 파이프라인은 하나 이상의 컴포넌트를 생략할 수도 있거나 또는 결합할 수도 있고, 및/또는 상이한 순서 및 시퀀스로 그들을 실행할 수도 있는 다양한 대안적 방식으로 구현될 수도 있다는 것을 유의한다. 예를 들면, 예시적인 실제 구현 실시형태에서, 설명자(908) 및 인터프리터(912) 둘 모두는 그들 각각의 출력(908 및 914)과 함께 생략될 수도 있다는 것이 고려될 수도 있다.
다른 예시적인 실시형태에서, 컴포넌트(908 및 912)는 출력(908 및 914)의 조합을 생성하는 단일의 컴포넌트로서 결합될 수도 있다.
다른 구상된 실시형태에서, 인터프리터(914)의 단순화된 구현예는 단순히 후보 설명(9102)을 취하고 그것을 설명(9141)으로서 출력한다.
글로벌(즉, 모델 레벨) 설명 또는 무질의(query-less) 애플리케이션 실시형태의 경우에, 도 14의 예시적인 파이프라인에 대한 논리적 등가성을 잃지 않으면서 심지어 입력 질의(902)도 생략될 수도 있다는 것이 추가로 고려될 수도 있다.
실제 실시형태에서 도 14의 출력의 일부 조합이 결합될 수도 있거나 또는 완전히 생략될 수도 있다는 것이 고려될 수도 있다. 예를 들면, 정당성(9063)은 몇몇 애플리케이션에서 옵션 사항으로 간주될 수도 있고, 한편 해석(9142)은 자동화된 시스템 대신 인간 인터프리터 또는 전문가가 생성하도록 남겨질 수도 있다는 것이 구상될 수도 있다. 해석 가능 머신 러닝 시스템은 완전히 이해될 수도 있으며 자신의 기능성 및 내부 거동(모델 해석 가능성), 답변(출력 해석 가능성) 및 인터프리터에 의해 해석되고 이해되는 설명을 가질 수도 있다. 답변에 수반되는 최종 설명은 그들의 핵심 구조에 대한 추가적인 사후 프로세싱을 필요로 하지 않을 수도 있지만, 도 14에서 예시되는 바와 같이, 구문론적 및 의미론적 정보를 추가하기 위한 그리고 설명을 컨텍스트에 맞추고 개인화하기 위한 프로세싱의 추가적인 사이클이 허용 가능하며, 이 경우, 설명(9141)은, 최종 스테이지에 도달하기 이전에, 변환 및 향상의 상이한 스테이지를 거치게 된다.
설명 가능 보강 학습(XRL)은 XRL 시스템이 전개되는 환경 및 액션에 대한 설명 및 설명 모델(explanatory model)의 개념을 도입하는 것에 의해 설명 가능 보강 학습 시스템을 도입한다. 액션은 현재의 상태에 정책을 적용하는 것에 의해 계산되는, 환경에 제공되는 입력을 지칭할 수도 있다. 이것은 불연속적일 수도 있거나 또는 연속적일 수도 있다. 모든 가능한 액션의 세트는 액션 공간으로 지칭된다.
RL/XRL 에이전트는 액션 선택 및 순위 매김, 즉 상태(s')로 이어지는 현재 상태(s)에 대한 어떤 액션(a)을 프로세싱할 수도 있다. 보상은 r에 의해 표기된다. RL 에이전트는 액션 선택 프로세스에 사용되는 환경의 시뮬레이션을 가질 수도 있다. 모델은, 모델 그 자체의 구조에 따라, 추가적인 연결 포인트를 가질 수도 있다.
제1 XRL 수정은 설명(x)을 모델/환경 모델의 일부로서 도입한다; 즉, 세계 모델은 xe로서 정의하는 상태(s')와 보상(r)에 대한 부분적인 또는 완전한 설명을 다시 제공할 수 있다. 제2 XRL 수정은, 관련 설명, 즉, 액션 및 액션의 설명을 각각 나타내는 a,xa를 도입하는 액션 공간 내에 있다. 정책은 과거 경험으로부터 액션으로의 매핑을 참조할 수도 있다. 정책(
Figure pct00007
)은, XRL에서, 이제 설명 가능 매핑인 가 되고, 그 결과 다음과 같이 된다:
거동 FSM의 관점에서, 각각의 (상태, 액션) 쌍은, 상태를 선택한 이후 액션을 행하기 이전에, 액션 동안, 그리고 액션이 이루어진 이후에 일정한 연결 포인트를 가질 수 있다. RL 및 XRL의 경우, 다른 연결 포인트는, 정책(π) 하에서 액션을 선택하기 이전에, 그 동안에 그리고 그 이후에 있다. 이것은 액션 공간 및/또는 상태 공간이 불연속적이거나 또는 연속적인 경우에 적용 가능하다. XRL 학습 프로세스의 일부로서의 설명은, 그들이 조정, 모니터링, 및 자동/수동 중재를 필요로 할 수도 있는 시스템의 내부 작업의 더 나은 이해를 허용할 수도 있기 때문에, 더 나은 안전 및 제어 메커니즘으로 이어질 수도 있다. XRL 에이전트는 FSM 대신 FST를 사용하여 또한 모델링될 수도 있다.
예시적인 설명 가능 트랜스듀서(Explainable Transducer; XFST)는 트레이닝된 XNN 아키텍쳐를 부분적으로 대체할 수도 있다. 설명 가능 트랜스듀서 변환기(XTT) 실시형태는, 설명 가능 아키텍쳐(x)를 사용하는 것에 의해, 변환기(Vaswani 등등, 2017)의 블랙박스 모델 컴포넌트를, 화이트박스 모델 컴포넌트로 대체할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 따라서, XFST는 화이트박스 머신 러닝 아키텍쳐를 나타낸다. 예시적인 실시형태는 유한 상태 트랜스듀서의 설명 가능 버전을 설명 가능 변환기와 함께 제공할 수도 있고 또한 두 개의 주요 설명 가능 변환기 변형예, 즉 설명 가능 변환기 인코더 및 설명 가능 변환기 디코더를 포함할 수도 있다.
예시적인 실시형태는 변환기의 인코더 레이어의 하위 레이어에서 설명 가능 모델을 도입하는 것에 의해 설명 가능 변환기 인코더를 제공할 수도 있다.
예시적인 실시형태는 변환기의 디코더 레이어의 하위 레이어에서 설명 가능 모델을 도입하는 것에 의해 설명 가능 변환기 디코더를 또한 제공할 수도 있다.
설명 가능 변환기 아키텍쳐는 설명 프레임워크를 활용하여 설명을 생성할 수도 있고 그러한 설명을 필터링하여 인터프리터에 대한 해석 가능성을 생성할 수도 있다.
설명 가능 변환기 아키텍쳐에서, 입력은 설명 가능 아키텍쳐(x)의 유도를 위한 선택된 컴포넌트에 따라 변하는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 예시적인 실시형태에서, 일단 설명 가능 모델 컴포넌트가 유도를 통해 선택되면, 변환기에 대한 실제 입력은 고정될 수 있고, 필요로 되는 경우, 더 짧은 길이의 입력에 대해 패딩이 사용될 수 있다.
설명 가능 아키텍쳐(x) - 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속함 - 는, 설명 가능 트랜스듀서 변환기(XTT)에서, 인코더 레이어의 피드포워드 네트워크 컴포넌트(230) 및 디코더 레이어의 피드포워드 네트워크 컴포넌트(270)를 유도하여, 도 6에서 묘사되는 바와 같이, 두 개의 설명 가능 아키텍쳐(700 및 710)를 생성할 수도 있다.
유도된 화이트박스 모델(700)은 추가 및 정규화 컴포넌트(217)의 출력으로부터 블랙박스 피드포워드 컴포넌트(230)의 출력까지의 설명 및 설명 가능 경로 트레이스를 구성한다. 유도된 화이트박스 모델(710)은 추가 및 정규화 컴포넌트(242)의 출력으로부터 블랙박스 피드포워드 네트워크 컴포넌트(270)의 출력까지의 설명 및 설명 가능 경로 트레이스를 구성할 수도 있다.
그들 자체가 와이드 신경망(Wide Neural Network; WNN)의 클래스인 와이드 학습 모델(Wide Learning model), 예컨대 XNN을 지원하는 설명 가능 모델을 활용하는 XTT는, 특히 딥 러닝의 일반화 성능을 와이드 학습의 더욱 정확하고 보편적인 학습 성능에 추가하는 변환기 아키텍쳐의 임베딩 본질과 결합될 때, 고유의 실용적인 특성을 나타낼 수도 있다. 계층적 파티셔닝 기술 또는 적절한 파티션을 식별하기 위해 사용될 수도 있는 다른 논리적으로 등가의 방법의 사용은, XTT의 설명 가능성 또는 해석 가능성에 부정적인 영향을 끼치지 않으면서, 상당한 표현 및 프로세싱 파워를 그들에게 추가한다. XTT 설명 모델 파티션은 초기 XTT를 생성하는 외부 프로세스에 의해 XTT의 일부로서 초기에 생성될 수도 있다. 대안적으로, XTT 파티션은 또한 적절한 파티셔닝 정보를 제공하는 링크된 분류법(taxonomy) 또는 온톨로지로부터 적절하게 초기화될 수도 있거나 또는 사전 트레이닝될 수도 있다. 일단 생성되면, XTT 설명 가능 모델은 경사 하강 방법을 사용하여 소망되는 경우 파티션을 적합시키거나 또는 추가로 개선할(refine) 수 있다. XTT 파티션은 그들의 값을 변경될 수 없는 정적인 값으로 설정되게 하는 것에 의해 잠길 수도 있거나, 또는 표준 역전파 및 관련된 기술을 사용하여 각각의 역방향 트레이닝 패스(backward training pass)에 대해 동적으로 이동 가능할 수 있다. 계층적 파티션은 상이한 레벨의 추상화(abstraction)에서 데이터를 모델링할 수도 있다. 그러한 추상화는 설명을 생성할 때 필요로 될 수도 있다. 예시적인 실시형태에서, 순위 매김 함수는, XTT가 자신의 중첩 또는 비중첩 파티션을 선택하는, 병합하는, 또는 분할하는 방법을 결정하기 위해 사용될 수도 있다. XTT 파티션의 계층적 본질이 상이한 레벨의 의미론적 및 기호학적(semiotic) 세부 사항에서 심볼 및 개념을 표현하기 위해 사용될 수도 있다는 것이 추가로 고려될 수도 있다.
XTT는, 다중 목표 최적화(Multiple Objective Optimisation; MOO), 유전 알고리즘(Genetic Algorithms; GA) 및 몬테 카를로 시뮬레이션 방법(Monte Carlo Simulation Methods; MCSM)과 같은 기술을 사용하여 또는 캐주얼 로직 및 시뮬레이션 기술(Casual Logic and Simulation technique)을 통해, 자신의 설명 가능 파티션 구조 및 값이 변경되는 것을 허용할 수도 있다. XTT 파티션은 단지 편평한 파티션이 아니라 계층적일 수도 있다. 편평한 파티션은, 단지 단일의 레벨만이 있는 가능한 계층적 파티션의 서브세트로서 간주될 수도 있다. 계층 구조의 활용은, 양호한 설명의 예상된 본질을 더욱 적절하게 모델링하는 더욱 표현적인 설명이 생성되는 것을 허용한다.
설명 가능 변환기는 3 튜플 데이터세트인 <I, O, E>에 대해 트레이닝될 수도 있는데, 여기서 I는 입력을 지칭할 수도 있고, O는 출력을 지칭할 수도 있고, 그리고 E는 입력(I)와 출력(O) 사이의 설명을 지칭할 수도 있다. 도 6에서 도시되는 바와 같이, 입력은, 설명 가능 아키텍쳐(x)로 설명 가능 변환기를 트레이닝시키기 위해, 토큰 임베딩(200), 입력 토큰(210)의 포지션 정보 및, 옵션 사항으로, 파티셔닝 정보(1500 1501) 또는 외부 설명 가능 모델로부터의 유사한 설명 생성 데이터의 조합을 포함할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
설명 가능 변환기는 인코더 레이어 및 디코더 레이어에서 어떠한 설명 가능 아키텍쳐도 사용하지 않고도 그리고 파티셔닝 정보(1500 1501) 또는 외부 설명 가능 모델로부터의 유사한 설명 생성 데이터를 인코더의 입력 임베딩에 그리고, 옵션 사항으로, 디코더의 출력 임베딩에 추가하지 않고도 트레이닝될 수도 있다.
설명 가능 변환기는 도 7에서 도시되는 바와 같이 인코더 레이어 및 디코더 레이어에 병렬로 추가적인 두 개의 레이어를 가질 수도 있다. 두 개의 추가적인 레이어는, 도 7에서 도시되는 바와 같이, 입력 공간으로부터 설명 가능 아키텍쳐를 구성하는 것에 초점이 맞춰질 수도 있다.
설명 가능 변환기는 두 개의 입력: 멀티 헤드 어텐션 컴포넌트(215)의 출력 또는 추가 및 정규화 컴포넌트(217)의 출력, 및 입력 토큰(1507)의 파티셔닝 또는 설명 가능 정보를 취하는 병렬의 설명 가능 인코더 레이어(1630)를 포함할 수도 있다.
설명 가능 변환기는 병렬의 설명 가능 인코더 레이어(1630)의 출력(1600)을 취하는 병렬의 설명 가능 디코더 레이어(709)를 포함할 수도 있다. 병렬의 설명 가능 인코더 레이어는 설명 가능 아키텍쳐 컴포넌트(701) 및 추가 및 정규화 컴포넌트(702)를 포함할 수도 있다. 병렬의 설명 가능 디코더 레이어(709)는 설명 가능 아키텍쳐 컴포넌트(703) 및 추가 및 정규화 컴포넌트(704)를 포함할 수도 있다. 예시적인 실시형태에서, 병렬의 설명 가능 인코더 레이어의 출력은 도 7에서 예시되는 바와 같이 XTT의 디코더 레이어에서 멀티 헤드 어텐션 레이어(1631)에 대한 입력으로서 사용된다. 다른 예시적인 실시형태에서, 병렬의 설명 가능 인코더 레이어(1631)의 출력은 XTT의 디코더에서 멀티 헤드 어텐션 레이어(240)에 대한 입력으로서 사용되기 이전에 인코더 레이어(1632)의 출력과 병합된다. 다른 예시적인 실시형태에서, 병렬의 설명 가능 인코더(1631)의 출력은 병렬의 설명 가능 디코더에 대한 입력으로서 단독으로 사용된다. 도 7에서 도시되는 바와 같이, XTT는 예측 출력(290) 및 관련 설명(1620)을 출력한다. 설명(1620)은 디코더 컴포넌트에 대한 피드백 루프(1610)로서 활용될 수도 있다.
과거의 설명 및 파티션 정보를 사용하여, XTT 디코더 아키텍쳐(XTT-Decoder architecture)를 사용하여, 설명 및 파티션 정보가 예측될 수도 있다. 예시적인 실시형태에서, 설명 가능 모델은 3 튜플 벡터 <i, o, e>에 의해 표현되는데, 여기서 i는 입력을 지칭하고, o는 출력을 지칭하고, e는 생성된 설명을 지칭한다. 생성된 설명(e) - 여기서 e = {e1, e2, ..., en}임 - 은, 현재의 설명(ei) 및 과거의 설명에 대한 컨텍스트 윈도우(k)가 주어지면, 다음 번 설명(e(i+1))을 예측하도록 모델을 사전 트레이닝시키기 위해 XTT 디코더에 대한 입력으로서 사용된다. 그 다음, XTT 디코더는 다운스트림 태스크의 값을 분류하기 위해 또는 예측하기 위해 설명의 별개의 세트에 대해 미세 튜닝될 수도 있다.
설명 가능 모델의 동일한 컴포넌트에 대한 하나 이상의 설명(e)에서의 차이 또는 변경이 기록될 수도 있고, 옵션 사항으로, 설명에서의 다음 번 차이 또는 변경을 예측하기 위해 XTT에 대한 입력으로서 사용될 수도 있다. 예시적인 실시형태에서, XTT 디코더는 설명에서의 다음 번 변화를 예측하기 위해 사용된다. XTT 디코더는, 예를 들면, 현재의 설명(gi) 및 과거의 설명 그래디언트에 대한 컨텍스트 윈도우(k)가 주어지면, 설명 그래디언트(explanation gradient; eg)(여기서 eg = {g1, g2, ..., gm}임)의 세트에 대해 사전 트레이닝되어, 다음 번 그래디언트(g(i+1))를 예측한다. 그 다음, XTT 디코더는 다운스트림 태스크의 값을 분류하기 위해 또는 예측하기 위해 설명 그래디언트의 별개의 세트에 대해 미세 튜닝될 수도 있다. XTT에서의 사전 트레이닝은, 트레이닝 동안 유사도(similarity) 및 대비(contrast) 둘 모두의 엘리먼트를 고려하기 위해, 입력 및 출력 데이터의 임베딩된 표현을 또한 활용할 수도 있다. 예시적인 실시형태에서, 예를 들면, 이미지 및 텍스트 캡션의 다중 모드 임베딩(multi-modal embedding)은, 관련되지 않은 이미지와 텍스트 사이의 대비가 최대화되는 것을 여전히 보장하면서, 유사하게 관련된 이미지 및 텍스트를 동시에 최소화하기 위해 활용될 수 있다. XTT 내에서의 희소 임베딩(sparse embedding)은, 특히 희소한 설명 가능 모델과 연계하여, 추가적인 성능 개선을 또한 제공할 수도 있다.
설명, 설명의 그래디언트, 또는 설명 가능 아키텍쳐(x)의 파티셔닝 정보는, 도 7에서 도시되는 바와 같이, XTT의 병렬의 설명 가능 인코더 레이어에 대한 입력(1507)으로 사용될 수도 있다. 예시적인 실시형태에서, 병렬의 설명 가능 인코더 레이어(1630)의 입력(1507)은, 후속하여 XTT 아키텍쳐를 트레이닝시키기 위해 사용될 동일한 데이터세트에 대해 트레이닝되었던 설명 가능 모델의 설명을 프로세싱한다. 또 다른 예시적인 실시형태에서, 병렬의 설명 가능 인코더 레이어에 대한 입력(1507)은 XTT를 트레이닝시키기 위해 사용될 데이터세트와 유사한 데이터세트에 대해 생성되는 설명을 지칭한다.
설명 가능 변환기 인코더의 입력은 변환기(Vaswani 등등, 2017)의 인코더 레이어의 입력과 동일할 수도 있다. 설명 가능 변환기 인코더는, 도 8의 (b)에서 도시되는 바와 같이, 설명 가능 아키텍쳐(x)(2000)를 사용하여 블랙박스 피드포워드 신경망(1900)을 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
다른 예시적인 실시형태에서, XTT는 이전 인코더 레이어의 출력, 또는 포지션 임베딩(1902)과 결합되는 토큰 임베딩(1901)으로 구성되는 입력을 갖는 전체 인코더 레이어에 대해 트레이닝되는 자신의 설명 가능 모델을 가질 수도 있다. 다이렉트 합(Direct-Sum), 룩업 테이블(Lookup Table), 및 제품 커널 타입의 포지션 인코딩 방법의 포지션 인코딩 방법을 포함하는, 그러나 이들로 제한되지는 않는 여러 가지 상이한 포지션 인코딩 방법이 XTT와 함께 사용될 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, 설명 가능 변환기 디코더의 입력 및 출력은 디코더 기반의 변환기(Liu 등등, 2018)와 동일할 수도 있다. 설명 가능 변환기 디코더에서의 설명 가능 아키텍쳐(2400)의 입력은, 도 9의 (b)에서 도시되는 바와 같이, 추가 및 정규화 컴포넌트(2340)의 출력을 포함할 수도 있다. 설명 가능 변환기 디코더의 출력은, 도 9의 (b)에서 도시되는 바와 같이, 블랙박스 피드포워드 신경망 컴포넌트(2320)의 출력일 수도 있거나, 또는 추가 및 정규화 컴포넌트(2330)의 출력일 수도 있다.
예시적인 실시형태에서, XTT에서의 하나 이상의 컴포넌트는, 설명 가능 피드포워드 네트워크 그 자체와는 별개로, 설명 가능 모델에 의해 대체될 수도 있다. 또 다른 예시적인 실시형태에서, 설명 가능 자동 인코더 디코더(explainable Auto-Encoder-Decoder; XAED)는 변환기 인코더 및/또는 변환기 디코더의 일부 또는 모두를 대체하기 위해 활용될 수도 있다.
대안적인 실시형태에서, 설명 가능 변환기 디코더에서의 설명 가능 모델은, 이전 디코더 레이어의 출력, 또는 포지션 임베딩(2310)과 결합되는 토큰 임베딩(2360)으로 구성되는 입력을 갖는 전체 디코더 레이어를 유도할 수도 있다.
설명 가능 아키텍쳐 XTT, XTT 인코더 및 XTT 디코더의 출력은 설명 가능 아키텍쳐(x)로부터 생성되는 설명 및 해석 가능성을 포함할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
XTT, XTT 인코더 및 XTT 디코더에서의 설명 가능 아키텍쳐는 입력으로서 블랙박스 컴포넌트를 가지지 않는 트레이닝 데이터세트를 사용할 수도 있다. 그 경우, 새로운 설명 가능 모델이 트레이닝된다.
XTT는 트레이닝 데이터세트의 피쳐 변환을 포함할 수도 있다. XTT 변환 함수는, 다항식 확장, 회전 변환, 차원 및 무차원 스케일링, 푸리에 변환, 월시 함수, 상태 공간 및 위상 공간 변환, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 및 타입 2 퍼지 로직, 지식 그래프 네트워크, 카테고리형 인코딩, 콜모고로프/프레쳇/하우스도르프/타이초노프 공간의 위상 변환, 차이 분석 및 데이터의 정규화/표준화를 포함하는 그러나 이들로 제한되지는 않는 변환의 파이프라인일 수도 있다. 변환 함수 파이프라인은, 시간적으로 정렬된 데이터 시퀀스를 비롯하여, 하나 이상의 변수 값에 따라 정렬되는 데이터의 시퀀스를 분석하는 변환을 더 포함할 수도 있다. 변환 함수 파이프라인은 경사 하강 방법 및 다른 설명 가능 아키텍쳐를 통해 획득되는 변환을 더 포함할 수도 있다.
인과 GAN 기반의 생성(causal GAN based generation), 유전 공학(genetic engineering), 몬테 카를로 시뮬레이션, 페트리 넷(Petri Net), 보강 학습 기술, 화이트박스 모델 그 자체 및 그것의 글로벌 모델을 사용한 시뮬레이션, 및 이용 가능할 수도 있는 다른 방법과 같은 다양한 기술을 사용하여 제안된 설명 가능 변환기 아키텍쳐 XTT, XTT 인코더 및 XTT 디코더 내의 설명 가능 아키텍쳐에게 트레이닝으로서 제시되는 트레이닝 데이터세트 샘플을 생성하기 위해, 설명 가능 모델 데이터 합성 성능이 사용될 수 있다는 것이 또한 고려된다.
인간 지식 주입(human knowledge injection; HKI) 또는 시스템 지식 주입은 XTT, XTT 인코더 및/또는 XTT 디코더 아키텍쳐에 대한 다른 타입의 입력이다. XTT, XTT 인코더 및/또는 XTT 디코더 아키텍쳐 내의 설명 가능 아키텍쳐의 계수는, 인간 유저와 AI 시스템 사이의 더욱 효과적인 협업으로 이어질 특정한 규칙을 시행하도록 수정될 수도 있다.
인간 지식 주입(HKI)은, 합성 데이터의 범위를 수정하여 훨씬 더 멀리 확장하기 위해 사용될 수도 있다는 것이 추가로 고려된다. 합성 및 HKI 방법은 데이터 분포 시프트 문제를 극복함에 있어서 XTT를 도울 수도 있고, 분포를 벗어난(Out of Distribution; OOD) 데이터를 비롯하여, 자신의 입력 및 트레이닝 공간에서 더 넓은 범위의 가능한 입력에 대해 그것을 더 잘 일반화할 수도 있다.
XTT 내의 설명 가능 모델은 제로샷 학습(zero-shot learning) 또는 퓨샷 학습(few-shot learning) 솔루션의 실질적인 구현을 가능하게 한다. 퓨샷 학습은 희소 데이터 이용 가능성 조건에 직면하는 경우 더 빨리 적응하기 위해 계층적 파티션과 로컬 모델을 이용할 수도 있다. 제로샷 학습은 규칙의 통합을 통해, 따라서, HKI를 통한 설명 가능 모델 내의 파티션 구조의 수정을 통해, 실용적인 방식으로 달성될 수도 있다. HKI의 그러한 사용은, 어떠한 트레이닝 데이터도 전혀 없이, 적절한 규칙 또는 규칙의 세트로부터 XTT가 직접적으로 부트스트랩되는 것을 가능하게 할 수도 있다. 귀납적, 연역적 및 귀추적 로직의 사용은 XTT의 적응 가능성을 향상시키기 위해 활용될 수도 있다는 것이 추가로 고려된다. 과소 적합(underfitting) 및/또는 과적합(overfitting) 문제를 방지하는 데 도움이 될 수도 있는 타당성(plausibility) 및 모델 기반의 체킹의 엘리먼트가 있다는 것을 보장하면서 XTT의 적응 가능성을 향상시키기 위해, 인과 로직의 사용이 활용될 수도 있다는 것이 추가로 고려된다.
설명 가능성은 XTT, 및 그것의 변형예인 XTT 인코더 및 XTT 디코더에서의 설명 가능 모델 컴포넌트의 파티션 정보의 추출, 및 트레이닝 데이터세트의 피쳐에 대한 피쳐 속성의 구성을 통해 달성될 수도 있다.
로컬 모델의 계수(c)는 피쳐 입력 공간에 대한 피쳐 속성으로서 사용될 수도 있다. 파티션 정보 및 피쳐 속성은 XTT, XTT 트랜스듀서(XTT-Transducer), XTT 인코더 및/또는 XTT 디코더 아키텍쳐 내의 설명 가능 아키텍쳐 컴포넌트의 출력이다.
피쳐 속성(c)은 입력 공간에 대한 계수일 수도 있으며 각각의 입력 피쳐의 중요도를 설명한다. 그러므로, 피쳐 속성은 입력 공간을 설명 가능 입력 공간으로 변환하는 것에 의한 설명 가능성의 일부이다.
XTT, XTT 인코더 및/또는 XTT 디코더 아키텍쳐가 다른 머신 러닝 시스템에 연결되는 경우, 입력 공간은 어떤 형태의 추상적인 피쳐 또는 개념을 나타낼 수도 있다. 예를 들면, XTT, XTT 인코더 및/또는 XTT 디코더 아키텍쳐에 대한 입력은 CNN 네트워크로부터의 출력일 수도 있다. 설명 가능성이 변환기 아키텍쳐의 인코더 및 디코더 부분에서 구성된 예시적인 실시형태에서, 출력은 입력 공간 피쳐에 대한 피쳐 속성 및 잠재적 공간에 대한 피쳐 속성이다. XTT는, 입력 피쳐 그 자체가 설명 가능할 정도까지, 설명 가능하지 않은 잠재적 공간의 완전한 제거를 가능하게 한다. 다른 옵션으로서, XTT, XTT 인코더 및/또는 XTT 디코더 아키텍쳐는 다음의 것 중 적어도 하나를 자신의 출력에 적용하도록 적응될 수도 있다: 푸리에 변환, 정수 변환, 실수 변환, 복소수 변환, 쿼터니언(quaternion) 변환, 옥토니언(octonion) 변환, 월시 함수, 상태 공간 변환, 위상 공간 변환, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 퍼지 로직, 지식 그래프 네트워크, 카테고리형 인코딩, 차이 분석, 정규화, 표준화, 다차원 베지어 곡선(multi-dimensional Bezier curve), 반복 관계, 및 인과 연산자.
다른 예시적인 실시형태에서, XTT, XTT 인코더 및/또는 XTT 디코더 아키텍쳐는 예측된 출력에 대해 적절한 활성화 함수 및/또는 적절한 변환을 적용하는 데 필요로 될 수도 있다. 통상적인 활성화 함수는 시그모이드 또는 SoftMax 함수 또는 적절한 등가물을 포함할 수도 있다. 통상적인 변환은, (i.) 계층적 트리 또는 네트워크, (ii.) 인과 다이어그램, (iii.) 방향성 및 무방향성 그래프, 하이퍼그래프, 또는 단순체 복합체(simplicial complex), (iv.) 멀티미디어 구조, (v.) 하이퍼링크 그래프의 세트, 또는 적절한 구조와 같은 어떤 형태의 구조를 사용한 예측 출력의 변환을 수반할 수도 있다.
대안적인 예시적 실시형태에서, 파티션은 도 15에서 도시되는 예시적인 모델 유도 방법과 같은 유도 프로세스를 사용하여 외부에서 구성될 수도 있다. 그러한 예시적인 실시형태에서, 출력은 XNN 아키텍쳐 또는 INN 아키텍쳐의 피쳐 속성이 수반되는 그러한 시스템의 파티션 정보일 것이다.
예시적인 XAI 모델 유도 방법에서, 모델링 시스템은 블랙박스 시스템에 데이터를 입력할 수도 있고 각각의 입력에 대응하는 출력을 기록할 수도 있다. 다른 실시형태에서, 모델링 시스템은 입력 데이터 세트의 모두 또는 일부에 대한 라벨 또는 응답을 반환하는, 간단한 매핑 함수와 같은, 간단한 예측기 모델을 사용할 수도 있는데, 이것은 트레이닝 데이터에 대해 유도 방법을 직접적으로 실행하는 것과 등가이다. 다른 실시형태에서, 모델링 시스템은 트레이닝 데이터로부터 예측기 모델을 직접적으로 생성하기 위해 적절한 자동 예측기 구축 방법을 사용할 수도 있다. 유도 방법에 대한 입력으로 블랙박스 또는 예측기 모델의 추가는, 원래의 입력 데이터세트로부터 에러 및/또는 노이즈를 감소시키는 데 또는 제거하는 데 도움이 될 수도 있다.
데이터 포인트는, 최초, 트레이닝 데이터의 모두 또는 일부로부터 획득될 수도 있으며, 옵션 사항으로 합성하여 생성된 데이터와 결합된다. 합성하여 생성된 데이터는 외부 프로세스, 예컨대 시뮬레이션 시스템, 세계 모델, 등등을 통해 생성될 수도 있다. 입력 데이터는 또한 공집합(empty set)일 수도 있는데, 이 경우, 유도 방법은 입력 예측기 모델로부터 획득되는 교란된 데이터(perturbated data)를 사용하여 작동할 것이다. 유도 방법의 실행 이전에, 입력 데이터 포인트의 서브세트 및/또는 입력 데이터 전체에, 옵션 사항의 데이터 품질 보증 기능이 또한 적용될 수도 있다. 유도 방법은 교란된 샘플 데이터 포인트를 동적으로 생성하는 것에 의해 글로벌 모델을 구축하는데, 교란된 샘플 데이터 포인트는, 그 다음, 블랙박스일 수도 있는 입력 예측기 모델에 주입되고, 출력 결과는, 그 다음, 기록되고 트레이닝 및/또는 합성 데이터로부터의 모든 다른 이용 가능한 데이터 포인트와 결합된다. 원래의 트레이닝 데이터를 사용하지 않으면서 교란된 데이터가 자체적으로 활용될 수도 있다는 것이 고려될 수도 있다. 교란 방법의 예시적인 실시형태는 랜덤 노이즈 추가 방법, 회전 교란, 투영 교란, k 익명화, 생성적 적대 신경망(Generative Adversarial Network; GAN) 또는 임의의 다른 적절한 교란 방법의 조합을 활용할 수도 있다. 결과적으로 나타나는 결합된 데이터 포인트는 유도 방법의 파티셔닝 함수에 대한 입력을 형성할 수도 있다. 예측기 모델로부터의 데이터 포인트는 연속적, 불연속적, 또는 카테고리적 값일 수도 있다. 분류 결과를 출력하는 예측기 모델은 (i.) 적절한 클래스 라벨을 할당하는 어떤 적절한 변환 함수를 통해, 이산화된 출력에 대해, 또는 (ii.) 어떤 적절한 변환 함수를 통해 또는 직접적으로 사용될 수 있는 확률적 출력에 대해, 그러한 분류 적용기를 가질 수도 있다.
다음 번 예시적인 단계는 "파티션"의 계층 구조를 식별할 수도 있다. 각각의 파티션은 유도 방법에 이용 가능한 결합된 데이터로부터 검색되는 데이터 포인트의 세트 또는 클러스터를 커버할 수도 있다. 각각의 파티션은 제로 개, 또는 하나 이상의 규칙을 정의할 수도 있으며, 옵션 사항으로, 그들 각각의 관련된 규칙을 갖는 자식 파티션(child partition)을 포함할 수도 있다. 추출된 파티션은 중첩 및 비중첩 파티션을 통합할 수도 있다. 중첩 파티션의 경우, 어떤 파티션을 활성화할지를 결정하기 위해 어떤 우선 순위 함수(priority function)가 사용될 수도 있다. 대안적인 실시형태에서, 하나보다 더 많은 파티션이 활성화되는 경우, 다수의 활성화된 파티션으로부터의 결과를 결합하거나 또는 분할하기 위해 어떤 집성 함수가 사용될 수도 있다. 각각의 파티션이 선형 모델에 적합하기에 충분한 데이터를 가지고 있고 선형 모델이 잘 수행되지 않을 수도 있을 정도로 너무 복잡하지 않는 한, 규칙 또는 규칙에 속하는 데이터 포인트의 클러스터를 찾기 위해 다양한 방법이 구현될 수도 있다. 선형 적합(linear fit) 이전에, 다항식 확장, 회전, 차원 및 무차원 스케일링, 상태 공간 및 위상 공간 변환, 정수/실수/복소수/쿼터니언/옥토니언 변환, 푸리에 변환, 월시 함수, 연속 데이터 버킷화, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 및 타입 2 퍼지 로직, 지식 그래프 네트워크, 카테고리형 인코딩, 콜모고로프/프레쳇/하우스도르프/타이초노프 공간의 위상 변환, 차이 분석 및 데이터의 정규화/표준화를 포함하는 그러나 이들로 제한되지는 않는 비선형 변환 및 조건부 피쳐가 개개의 파티션에 적용되어, 모델 성능을 향상시킬 수도 있다.
파티션은, 옵션 사항으로, 어떤 규칙 및/또는 거리 유사도 함수에 따라 데이터 포인트를 그룹화하는 클러스터일 수도 있다. 각각의 파티션은 개념, 또는 데이터의 별개의 카테고리를 나타낼 수도 있다. 정확히 하나의 규칙에 의해 표현되는 파티션은, 예측 또는 분류의 값을 출력하는 선형 모델을 갖는다. 모델이 선형적으로 모델링될 수도 있기 때문에, 선형 모델의 계수는 피쳐를, 그들의 중요도를 기준으로, 점수를 매기기 위해 사용될 수 있다. 기저의 피쳐는, 유도 방법이 선형 및 비선형 데이터 및/또는 선형 및 비선형 예측기 모델 양자를 핸들링하기 때문에, 선형 및 비선형 적합의 조합을 나타낼 수도 있다.
예시적인 실시형태가 수학적 용어로 설명될 수도 있다. 도 15의 예시적인 실시형태를 참조하면, 도 15는 예시적인 모델 유도 방법을 예시할 수도 있다. 예시적인 실시형태에서, X는 입력 데이터세트(1502)를 나타낼 수도 있고, Predict(x)는 n 개의 출력(1504)을 갖는 예측기 모델 함수를 나타낼 수도 있다. X는 m 차원을 갖는 매트릭스일 수도 있다. 각각의 차원(m)은 X의 입력 피쳐를 나타낼 수도 있고 각각의 출력은 클래스의 수(n)를 나타낼 수도 있다. 입력 데이터 세트는 트레이닝 데이터 및 합성 생성 데이터(synthetic generated data)의 조합일 수도 있다. 추가적으로, 예시적인 실시형태에서, 샘플은, 어떤 입력 트레이닝 또는 테스트 데이터(X)가 주어지면, 샘플 교란된 데이터(sample perturbed data)를 생성하기 위한 임의의 교란 함수일 수도 있는 Perturbate(X)와 같은 함수를 사용하여 교란될 수도 있는데(1506), 여기서 X는 입력 데이터, 입력 데이터의 일부 이웃, 입력/출력/설명 데이터의 일부 적절한 임베딩의 서브세트일 수도 있거나, 또는 심지어 자명하게 공집합일 수도 있으며, 이 경우 교란 함수는 어떤 형태의 랜덤 또는 랜덤하지 않은 패턴을 사용하여 예측기 모델에 질의할 필요가 있다. Xp는 교란된 입력 데이터세트 및 원래의 입력 데이터세트의 조합을 나타낼 수도 있고, Y는 XP = X ∪ Perturbate(X), 및 Y = Predict(XP)가 되도록 하는, 예측기 모델 함수(1508)로부터의 출력을 나타낼 수도 있다.
파티션의 계층 구조는 Partition(Xp,Y) = P가 되도록 하는 외부 함수 파티션(1510)을 통해 P에 의해 표현될 수도 있는데, 여기서 P = {P1, ..., Pi, ..., Pk}이고 k는, 각각의 파티션이 정확히 하나의 규칙에 의해 정의되는 경우의 규칙의 수와 동일하다. 파티셔닝 함수는 k 평균(k-means), 베이지안, 연결성 기반, 중심 기반, 분포 기반, 그리드 기반, 밀도 기반, 퍼지 로직 기반, 엔트로피, 상호 정보(mutual information; MI) 기반의 방법, 또는 임의의 다른 논리적으로 적절한 방법과 같은 클러스터링 알고리즘일 수도 있다. 파티션 함수는, 다수의 중첩 또는 비중첩 파티션을 초래할 앙상블 방법(ensemble method)을 또한 포함할 수도 있다. 중첩 파티션의 경우, 다수의 파티션으로부터의 결과를 결합하거나 또는 분할하기 위해, 집성 함수가 사용될 수도 있다. 파티션 함수는, 대안적으로, 관련성 기반의 알고리즘(association-based algorithm), 인과 기반의 파티셔닝 또는 다른 논리적으로 적절한 파티셔닝 구현예를 포함할 수도 있다.
Ri(x)는 i 번째 파티션에서의 각각의 규칙을 나타낼 수도 있다. 각각의 규칙(Ri(x))은, Ri(x) = C1∧C2∧...∧Cj∧...∧Cq가 되도록 하는 다수의 조건을 포함할 수도 있는데, 여기서 q는 규칙에서의 조건의 수를 나타낼 수도 있고, Cj는 i 번째 규칙(즉, i 번째 파티션)의 입력 매트릭스(x)에 대한 j 번째 조건일 수도 있다. 교란된 입력 매트릭스(Xp)는 k 개의 매트릭스로 분할될 수도 있는데, 여기서 k는 규칙의 수와 동일하고, 그 결과, XL은, 파티션이 중첩되지 않는 경우 {XL1, XL2, ..., XLi, ..., XLk}의 합집합 = Xp가 되도록 하는,
Figure pct00010
에 의해 정의되는 로컬하게 필터링된 매트릭스를 나타낸다. 파티션이 서로 중첩되는 경우, {XL1, XL2, ..., XLi, ..., XLk}의 합집합 ≠ Xp이다. 파티션이 서로 중첩되는 경우, 가장 관련성이 있는 규칙을 선택하기 위해 또는 확률적 가중 조합 방법의 어떤 형태로 사용되기 위해 순위 매김 함수가 적용될 필요가 있다. 대안적인 실시형태에서, 하나보다 더 많은 파티션이 활성화되는 경우, 다수의 파티션으로부터의 결과를 결합하기 위해, 어떤 집성 함수가 사용된다.
다음 번 예시적인 단계는 Ri에 의해 정의되는 각각의 파티션에 로컬 모델을 적합시키는 것을 수반할 수도 있다. XL은 Xp 및 Ri(x) 둘 모두에서 발견되는 입력을 나타낼 수도 있다. 다시 말하면, XL은 i 번째 규칙에 적용되는 입력 또는 피쳐 데이터일 수도 있다. 로컬 샘플은 필터링될 수도 있다(1512). 그 다음, XL은 교란될 수도 있고(1514), XLP는 XL과 Perturbate(XL)의 로컬하게 교란된 데이터세트의 조합을 나타낼 수도 있다. 따라서, YL = Predict(XLP)(이것은 교란된 데이터를 로컬하게 예측함)이다(1516). 마지막으로, XT는, XT = Transform(XLP)가 되도록 하는 XLP(1518)의 변환을 찾는 것에 의해 계산될 수도 있다. 변환 함수는, 다항식 확장, 회전, 차원 및 무차원 스케일링, 푸리에 변환, 정수/실수/복소수/쿼터니언/옥토니언 변환, 월시 함수, 상태 공간 및 위상 공간 변환, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 및 타입 2 퍼지 로직, 지식 그래프 네트워크, 카테고리형 인코딩, 차이 분석 및 데이터의 정규화/표준화를 포함하는 그러나 이들로 제한되지는 않는 변환의 파이프라인일 수도 있다. 변환 함수 파이프라인은, 시간적으로 정렬된 데이터 시퀀스를 비롯하여, 하나 이상의 변수 값에 따라 정렬되는 데이터의 시퀀스를 분석하는 변환을 더 포함할 수도 있다. XT는 새로운 피쳐를 생성할 수도 있고, 그 결과, z는 변환 함수에 의한 피쳐의 총 수를 나타낸다.
1 내지 n(즉, 출력의 수)의 범위 내의 각각의 j에 대해, 시스템은 로컬 모델을 선형 방식으로서 계산할 수도 있다(1520). YL은, 각각의 출력에 대해 하나씩, n 개의 벡터를 포함하는 매트릭스이고, 그 결과, YLj는 j 번째 출력 벡터를 나타낸다. 선형 모델은 Yij = Fit(XT,YLj)에 의해 정의될 수 있는데, 여기서 Fit는 선형 모델, 예컨대 선형 회귀, 로지스틱 회귀, 커널 방법, 등등을 적합시키는 함수이다. 선형 모델은 Yij = β0 + β1x1 + ... + βixi + ... + βzxz가 되도록 하는 계수 {β0, ..., βz}(1522)의 세트를 정의한다. 선형 모델 또는 선형 모델의 조합은 XAI 모델에 규칙(1524)을 제공할 수도 있다. 대안적인 실시형태에서, 로컬 모델의 적합은 병렬 프로그래밍 또는 경사 하강 기술, 또는 적절한 등가물을 사용하여 하나의 최소 단위 적합 함수(atomic Fit function)에서 달성될 수도 있다. xi는 다항식(예컨대, x2), 교집합(intersection)(예컨대, xy), 조건부 피쳐(예컨대, x > 10 및 y < 2), 푸리에 변환, 등등과 같은 변환된 피쳐일 수 있다는 것을 유의한다. βi는, 관련 변환 피쳐에 대한 모델에 대한 긍정적 또는 부정적 기여에 대응하는 양수 또는 음수일 수 있다는 것을 유의한다. 긍정적 또는 부정적 기여는, 또한, 활성화성(excitatory) 및 억제성(inhibitory) 영향으로서 일반적으로 지칭될 수도 있다. 로컬 모델의 적합을 단순화하기 위해 압축 또는 정규화 기술이 또한 적용될 수도 있는데, 이것은 결과적으로 나타나는 설명도 또한 간접적으로 단순화한다. 마지막으로, Yij의 다양한 조합으로부터 규칙이 구성될 수도 있다.
Figure pct00011
도 4에서 도시되는 바와 같이, np 개의 파티션을 갖는 예시적인 XNN 아키텍쳐에서, n 개의 로컬 모델(525), 값 출력 레이어(valuelayer) = {r1, r2, ..., rn}(426), 스위치 출력 레이어(switchlayer) = {s1, s2, ..., sn}(416), 및 valuelayer(426) 및 switchlayer(416)를 결합하는 접속 레이어(conjunctivelayer) = {v1, v2, ..., vn}(516)를 포함할 수도 있다. Sigmoid와 같은 활성화 함수(520)는 예시적인 XNN 아키텍쳐의 최종 출력을 생성하기 위해 출력 값에 대해 사용될 수도 있다. 희소 XNN/INN은 에너지 효율적인 방식으로 파티션 구조의 일부를 구현하기 위해 활용될 수도 있다는 것이 고려된다.
설명 가능 모델 계층적 파티션은 또한, 옵션 사항으로, 어떤 적절한 집성, 분할, 또는 최적화 방법을 사용하여 계층적 파티션의 병합 및 분할을 수반할 수도 있는 하나 이상의 반복적 최적화 단계(1523)를 적용받을 수도 있다. 적절한 최적화 방법은, 파티션의 전체 수를 최소화하는 최적의 게이지 고정을 제공하면서, 예측기의 계산 데이터 공간 내에서 토폴로지 공간에 연결되는 모든 경로를 찾으려고 시도할 수도 있다.
XTT 트랜스듀서는 XNN 아키텍쳐의 다수의 컴포넌트를 대체하기 위한 6 튜플(
Figure pct00012
)로서 정의될 수도 있는데, 여기서 K는 유한 상태(설명 모델 상태를 포함함)의 세트를 가리키고, Σ는 입력 심볼(설명 심볼을 포함함)의 알파벳을 가리키고, Γ는 출력 심볼(설명 심볼을 포함함)의 알파벳을 가리키고, s는, s ∈ K가 되도록 하는 시작 상태를 가리키고, γ는
Figure pct00013
가 되도록 하는 출력 함수를 가리키며, Δ는 전이 함수(설명과 관련되는 정당성의 주요 컴포넌트를 형성하는 설명 관련 전이를 포함함)를 가리킨다. 예시적인 실시형태에서, 입력(Σ)은, Σ = {valuelayer, switchlayer}가 되도록 하는 valuelayer(426) 및 switchlayer(416)로 설정될 수도 있다. 출력(Γ)은, Γ = {conjunctivelayer}가 되도록 하는 접속 레이어(conjunctivelayer)로 설정될 수도 있다. 설명 가능 유한 상태 트랜스듀서(XTTt)의 전이 관계(Δ)는 conjunctivelayer 값에서 valuelayer 및 switchlayer 값을 번역한다. 출력 어휘가, 접속 레이어(516) 대신, 활성화 함수(520)의 출력으로 설정될 수도 있다는 것이 추가로 고려될 수도 있다.
XTT는 트레이닝된 조건부 네트워크 레이어(410) 상에서 구성될 수도 있다. 예시적인 실시형태에서, 입력(Σ)은 XNN 아키텍쳐의 파티션 경계(412)로 설정된다. 출력(Γ)은 스위치 출력 레이어(416)로 설정된다. 전이 관계(Δ)는 스위치 출력 레이어(416)와 관련하여 조건부 레이어(412), 집성 레이어(414) 사이의 번역을 포함한다.
예시적인 실시형태에서, XSFT 스타일 XTT는 로컬 모델의 인덱스 및 각각의 예측 값을 받아들이고, 예측 값과 함께 XNN 아키텍쳐에서 활용되는 로컬 모델의 각각의 파티션 정보를 출력한다. 테이프는, 도 12에서 도시되는 바와 같이, 시작 상태(s)(2700)에서 삽입된다. 테이프는 값 레이어 엘리먼트의 인덱스를 포함하는데, 각각의 관찰에 대한 각각의 예측이 후속된다. 도 12에서 도시되는 바와 같이, 예시적인 XTT는 두 개의 파티션을 포함한다. 임의의 파티션의 각각의 인덱스의 매칭은 그러한 파티션의 상태에 진입할 것이고 그러한 파티션의 파티셔닝 정보를 반환하는데, 여기서 파티셔닝 정보는 값 레이어의 인덱스를 대체한다.
다른 예시적인 실시형태에서, 설명 가능 유한 상태 트랜스듀서는 로컬 모델의 인덱스 및 관련 예측 및/또는 질의 입력 값을 수용하고, 어떤 적절한 출력 인코딩에서 함께 다중화되는 예측 값 및 설명을 출력한다.
XTT는 다중 연결된 컴포넌트, 예컨대 블랙박스 피드포워드 신경망(230 270) 및 설명 가능 아키텍쳐(x)를 갖는 후속하는 추가 및 정규화 컴포넌트(232 272)를 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
XTT는, 설명 가능 아키텍쳐(x)를 사용하여, 디코더 레이어의 인코더-디코더 멀티 헤드 어텐션 컴포넌트(240), 추가 및 정규화 컴포넌트(242), 피드포워드 신경망 컴포넌트(270) 및/또는 추가 및 정규화 컴포넌트(272)를 유도하여, 화이트박스 모델을 생성할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 그러한 설명 가능 모델은, 원래의 컴포넌트와 그들의 설명 가능 모델 교체물 사이의 이중 시뮬레이션 등가성(bisimulation equivalence)을 유지하기 위해 의도적으로 희소할 수도 있고 및/또는 압축될 수도 있다.
변환기 아키텍쳐를 유도하는 XTT 아키텍쳐는, 도 6에서 도시되는 바와 같이, 인라인 XTT 아키텍쳐로서 지칭될 수도 있다. 변환기 아키텍쳐를 유도하고 추가적인 병렬의 설명 가능 인코더 레이어 및 병렬의 디코더 레이어를 사용하는 XTT 아키텍쳐는, 도 7에서 도시되는 바와 같이, 병렬의 XTT 아키텍쳐로서 지칭될 수도 있다.
설명 가능 변환기는 3 튜플 데이터세트인 <I, O, E>에 대해 트레이닝될 수도 있는데, 여기서 I는 입력을 지칭할 수도 있고, O는 출력을 지칭할 수도 있고, 그리고 E는 입력(I)와 출력(O) 사이의 설명을 지칭할 수도 있다. 도 6에서 도시되는 바와 같이, 입력은, 도 6에서 도시되는 바와 같이, 설명 가능 모델을 사용하여 XTT를 트레이닝시키기 위해, 토큰 임베딩(200), 토큰 포지션 정보(210) 및, 옵션 사항으로, 파티셔닝 정보(1500 1501) 또는 외부 설명 가능 모델로부터의 유사한 설명 생성 데이터의 조합을 포함할 수도 있다. Vaswani 등등(2017)에서 나타내어지는 바와 같이, 블랙박스 피드포워드 컴포넌트를 대신 사용하는 것에 의해 그레이박스 XTT 구현예가 달성될 수도 있다는 것이 추가로 고려된다.
변환기는 마스킹된 언어 모델링(Masked Language Modeling)(Devlin 등등, 2018)과 같은 자기 감독 학습 기법을 사용하는 것에 의해, 도 8의 (a)에서 도시되는 바와 같이 인코더 부분에 대해서만 트레이닝될 수도 있다. 설명 가능 변환기 인코더는, 도 8의 (b)에서 도시되는 바와 같이, 설명 가능 아키텍쳐(x)(2000)에 의해 인코더 레이어의 블랙박스 피드포워드 신경망 컴포넌트(1900)를 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. XTT 인코더의 아키텍쳐는 입력 임베딩(1901), 포지션 인코딩(1902), 멀티 헤드 어텐션 컴포넌트(1920), 추가 및 정규화 컴포넌트(1930), 설명 가능 아키텍쳐(2000) 및 추가 및 정규화 컴포넌트(1910)로 구성될 수도 있다.
설명 가능 변환기 인코더는 설명 가능 아키텍쳐(x)를 사용하여 피드포워드 신경망 컴포넌트(1900) 및 추가 및 정규화 레이어(1910)를 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
설명 가능 변환기 인코더는, 설명 가능 아키텍쳐(x)를 사용하여, 멀티 헤드 어텐션(1920), 추가 및 정규화 컴포넌트(1930), 피드포워드 신경망 컴포넌트(1900) 및/또는 추가 및 정규화 컴포넌트(1910)를 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
변환기는, 도 9의 (a)(Radford 등등, 2018)에서 예시되는 바와 같이, 변환기 아키텍쳐의 디코더 부분에 대해서만 트레이닝될 수도 있다. XTT는, 도 9의 (b)에서 도시되는 바와 같이, 설명 가능 아키텍쳐(x)(2400)에 의해 디코더 레이어의 피드포워드 신경망 컴포넌트(2320)를 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
설명 가능 변환기 디코더는, 설명 가능 아키텍쳐(x)를 사용하여, 다수의 컴포넌트, 예컨대 피드포워드 신경망 컴포넌트(2320) 및 추가 및 정규화 컴포넌트(2330)의 조합을 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
설명 가능 변환기-디코더는, 설명 가능 아키텍쳐(x)를 사용하여, 멀티 헤드 어텐션(2350), 추가 및 정규화 컴포넌트(2340), 피드포워드 신경망 컴포넌트(2320) 및/또는 추가 및 정규화 컴포넌트(2330)를 유도할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
설명 가능한 변환기 기반의 아키텍쳐 XTT, XTT 인코더, 및 XTT 디코더는, 파티셔닝 정보, 모델의 내부 계수 및 입력 공간의 피쳐 속성을 포함할 수도 있는 다수의 레벨의 설명을 생성할 수도 있으며, 그러한 설명은 인터프리터에 대한 출력일 수도 있다. 설명은 입력 차원의 중요도를 나타낼 수도 있는 텍스트 포맷 또는 숫자 포맷의 형태일 수도 있거나, 또는 입력 및 적절한 상호 작용에 대해 적용되는 어떤 형태의 적절한 변환일 수도 있는데, 여기서 그러한 변환은, 출력 설명을, 멀티미디어 이미지, 비디오, 3D 데이터, 다차원 데이터 및 다른 적절한 포맷을 포함하는 다양한 출력 포맷으로 출력할 수도 있다. 설명은, 예를 들면, 입력 차원의 주어진 세트에서 편향을 결정하기 위해 편향 제어 스왑을 활용하는 것에 의해, 중재적(interventional) 및/또는 반사실적(counterfactual) 프로세스를 적용하는 것의 결과를 또한 포함할 수도 있다. XTT를 통해 직접적으로 검출되는 임의의 그러한 편향은 그러한 편향 테스팅을 위해 데이터세트를 사용할 필요조차 없을 수도 있다. 그러한 결과는 식별 평가 추천 해결(IAR) 프레임워크 내에서 적절한 식별, 평가, 추천, 순위 매김 및 해결 함수의 적용을 통해 일반화될 수도 있다는 것이 추가로 고려된다.
XTT는, 트리, 그래프, 하이퍼그래프, 및 단순체 복합체의 형태의 계층적으로 구조화된 데이터를 비롯하여, 구조화된 데이터 및 구조화되지 않은 데이터 둘 모두를 프로세싱할 수 있다. 트리 변환기에 대한 관련된 이전의 연구(Wang 등등, 2019)는, 구성 성분 어텐션 컴포넌트를 사용하여, 어텐션 헤드를 제약하여, 입력 토큰의 트리 기반의 구조를 도입한다. 우리가 제안한 방법과는 달리, 트리 변환기는 블랙박스 피드포워드 신경망 컴포넌트를 활용하며, 따라서, 그레이박스 방법으로서 분류될 수도 있다. 활성화 경로 트레이스는, XTT와는 달리, 트리 변환기를 사용하여 구현하기에는 가능하지 않을 것이다. 제안된 방법은, 글로벌 및 로컬 설명을 생성하기 위해, 변환기 기반의 아키텍쳐에서 화이트박스 컴포넌트를 도입한다. XTT 설명 가능 모델에서의 계층적으로 구조화된 파티션 시스템은, 구성 성분 사전 분포를 사용하여 트리 변환기에서 부분적으로만 달성되는, 복잡한 구조화된 데이터의 프로세싱에 당연히 도움이 된다. XTT 어텐션 모델은, 트리 변환기 및 관련 변형예를 달성할 수 없는 그러한 사전 분포의 계층 구조의 등가물을, 상이한 레벨의 세부 사항 및 규모에서, 표현할 수 있다. 이것은 규칙 기반의 모델(XAI 모델) 또는 XNN, INN, XSN, XMN 및 다른 적절하게 등가의 구현 방법과 같은 논리적으로 등가의 방법에서 이용 가능한 선형 또는 비선형 수학식을 통해 가능할 수도 있다. 선형 또는 비선형 수학식에서, 피쳐의 목록은, 그 주어진 모델 또는 규칙의 세트에 대한 피쳐 중요도를 나타낼 수도 있는 그들의 대응하는 계수와 함께 추출될 수도 있다. F(X)에 의해 정의되는 모델에서 규칙/파티션별 가장 중요한 피쳐를 추출하기 위해, 설명 가능 모델에서의 계수 매트릭스(C)는 직접적으로 분석될 수도 있다.
대안적인 실시형태에서, 계수의 매트릭스는 벡터(I)가 I = {θ0, ..., θi, ..., θk-1}가 되도록 하는 모든 j 개의 규칙으로부터의 각각의 피쳐의 집성된 중요도를 나타내도록 집성될 수도 있는데, 여기서
Figure pct00014
이고, 그 결과, Cp,i는 p 번째 파티션/규칙의 i 번째 계수를 식별한다. 마지막으로, Is = {F0, ..., Fs, ..., Fk-1}라고 하는 것은 I의 모든 엘리먼트를 갖는 정렬된 벡터를 나타내는데, 여기서 s는 정렬 인덱스를 나타내고, 그 결과, Fs-1 ≥ Fs ≥ Fs+1이다. 정렬된 계수 인덱스(s)를 변환된 피쳐 인덱스(k)와 링크하기 위해, 맵 벡터(M)가 또한 사용될 수도 있다. 규칙 기반의 XAI 모델의 화이트박스 본질을 통해, 유저는, 그 다음, 정렬된 피쳐 중요도 벡터(Fs)의 콘텐츠를 검사하는 것에 의해 임의의 잠재적인 편향을 검사할 수 있을 수도 있는데, 그에 의해, F0 및 M0은 가장 높은 편향을 갖는 피쳐를 포함할 수도 있다.
결과적으로 나타나는 피쳐 중요도에 대해 정규화가 또한 적용될 수도 있다. 예시적인 실시형태에서, F 및 M 벡터는 편향 및 그들의 소스에 대한 적절한 리포트 및 분석을 생성하기 위해 사용될 수도 있으며, 또한, 감독, 비감독, 또는 반감독(semi-supervised) 수단 중 어느 하나를 통해 편향 감소, 완화, 또는 제거를 위한 전략을 공식화하기 위한 입력이 될 수도 있다.
예시적인 실시형태에서, XTT는 다수의 입력 및 출력 모듈을 포함할 수도 있다. 하나 이상의 모듈은, 입력 레이어에 의해 수신되기 이전에 또는 입력 레이어로부터 출력된 이후 입력을 정규화하도록 구성되는 정규화 모듈, 입력 레이어에 의해 수신되기 이전에 또는 입력 레이어로부터 출력된 이후 상기 입력을 스케일링하도록 구성되는 스케일링 모듈, 및 입력 레이어에 의해 수신되기 이전에 또는 입력 레이어로부터 출력된 이후 상기 입력을 표준화하도록 구성되는 표준화 모듈을 포함할 수도 있다.
대안적인 예시적 실시형태에서, F 및 M 벡터는, 자신의 전략을 완성함에 있어서 이 정보를 활용하는 피쳐 발견 및 모델 발견 방법에 대한 입력으로서 및/또는 피쳐 발견 및 모델 발견 방법이 AI 모델에 대한 구조적 변경을 제안하게 하는, 그리고, 옵션 사항으로, 실행하게 하는 추가적인 입력 파라미터로서 사용될 수도 있다.
예를 들면, 통상적인 실시형태에서, 편향 정보는 편향을 나타내는 XNN/XSN/XMN의 특정한 부분, 또는 편향을 야기하고 있을 수도 있는 XAI 모델에서의 규칙, 또는 편향을 나타내는 XTT의 어텐션 모델, 또는 어떤 정책 하에서 편향을 야기하고 있을 수도 있는 XRL 에이전트에 의해 취해지는 액션에 대해 GA 또는 MCSM 시스템을 집중시키기 위해 사용될 수도 있다.
로컬 편향 검출은 특정한 샘플에 적용될 수도 있다. 답변은, 그것의 설명 계수와 함께, 로컬화된 편향 검출을 위한 기초로서 기능할 수도 있다. 예시적인 모델을 참조하면, 특정한 입력 샘플은, 이 경우에서는 x 및 y인 두 개의 입력을 가질 수도 있다. 피쳐 중요도 벡터(I)는, 피쳐 {x, y, xy, x2, y2}에 대응하여, I = {β1, β2 + β10, β3 + β5, β7, β8}이 되도록 글로벌 방식으로 피쳐 중요도를 나타낼 수도 있다. 벡터(I)는, 가장 눈에 띄는 피쳐가 벡터의 시작에 배치되도록 내림차순으로 정렬될 수도 있다. 특정한 입력 벡터 {x, y}가 주어지면, 하나 이상의 규칙은 함수 f(x, y)를 통해 트리거될 수도 있다는 것이 주목될 수도 있다.
이 예시적인 실시형태에서, x ≤ 10이라고 하자. 이것은 Sigmoid(β0 + β1x + β2y + β3xy) 함수를 트리거할 수도 있는데, 이것은 설명 후보로서 기초 기능을 하는 다음의 로컬화된 피쳐 중요도 벡터로 귀결되며 그에 의해 E = {β1x, β2y, β3xy}이다. 상이한 피쳐는 글로벌 및 로컬 레벨에서 상이한 중요도를 가질 수도 있다는 것이 주목될 수도 있다; 예를 들면, 이 특정한 실시형태에서, 글로벌하게 피쳐(x)가 가장 중요할 수도 있지만, 그러나, 함수를 로컬하게 평가한 이후, y가 가장 중요하다는 것이 주목될 수도 있다.
정의된 모델의 성능을 증가시키기 위해, 적절한 분산된 설명 가능 아키텍쳐(Distributed Explainable Architecture; DEA)와 연계하여 XTT가 사용될 수도 있다. 분산된 설명 가능 아키텍쳐(DEA)는 다수의 설명 가능 아키텍쳐(DEAm)를 포함할 수도 있고, 그 결과, m = {x1, x2, ..., xn}이고 xi ∈ {XAI, XNN, INN, XTT, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐이고, 그러한 아키텍쳐는 병렬로 프로세싱된다. 예시적인 분산 프레임워크에서 설명 가능 아키텍쳐(2610)의 수는 DEAn으로서 정의된다.
도 11은 분산 트레이닝 시스템의 하이 레벨 아키텍쳐를 예시하는데, 여기서 DEAm은 XTT 아키텍쳐를 나타내고 DEAn은, 추가로, 설명 가능 아키텍쳐의 동종 또는 이종 혼합물일 수도 있는 n 개의 모델을 포함한다. DEA는, 설명 가능 아키텍쳐(DEAm)를 트레이닝시키기 위해, 데이터세트를 데이터의 다수의 서브세트(2600)로 분할한다. 전체 감소(All-Reduce), 호로보드(Horovod), 및 다른 적절한 분산 학습 기술과 같은 집합적 동작 기술을 포함하는 그러나 이들로 제한되지는 않는, DEA 내의 동종 및 이종 설명 가능 모델 혼합물에 적절한 분산 트레이닝 기술이 적용될 수도 있다는 것이 추가로 고려된다.
분산 프레임워크 DEA에서 트레이닝되는 모델은 병렬 모델로부터 평균(또는 가중된 평균)을 계산하는 것에 의해 트레이닝 국면 동안 집성된다(2620). 집성 모델은, 개개의 모델의 결과로부터가 아니라, 모델의 가중치에 직접적으로 기초하여 형성될 수도 있다. 분산된 설명 가능 아키텍쳐(DEA)는, 트레이닝 데이터가 단일의 머신의 CPU/GPU 메모리에 적합될 수 없는 대규모 데이터세트에 대해 유용할 수도 있다.
DEA는 하이브리드 모델을 포함할 수도 있고, 그 결과, 아키텍쳐의 모델은 x의 혼합물인데, 여기서 x ∈ {XAI, XNN, INN, XTT, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 예시적인 실시형태는 다수의 상이한 모델을 구현할 수도 있다. 예를 들면, 하나의 데이터 부분은 XNN을 구현할 수도 있고, 한편 동일한 시스템의 다른 데이터 부분은 XTT를 구현할 수도 있다. 그 다음, 모델은 결합되어 집성 모델을 생성할 수도 있다. 집성 모델은 x와 동일할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XTT, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속하거나 또는 다수의 상이한 모델을 구현하는 하이브리드 모델일 수도 있다.
DEA는, 하나의 모델이, 일단 트레이닝되면, 주로 트레이닝 목적을 위해 최적화되는 전체 분산 아키텍쳐에 의존할 필요 없이, 독립적으로 작동할 수 있는 다수의 독립 모델을 통합할 수도 있다.
XTT 아키텍쳐는 XTT의 설명 가능 아키텍쳐에 의해 생성되는 출력으로부터 설명 스캐폴딩을 구성할 수도 있고, 모델이 그러한 예측에 어떻게 도달했는지를 이해하는 데 도움이 되도록 인터프리터에 결과를 설명하기 위해 그것을 사용할 수도 있다. 인터프리터는 엔드 유저 또는 XTT 아키텍쳐 내의 컴포넌트일 수도 있다.
설명 가능 변환기 아키텍쳐 XTT의 기저의 컴포넌트는, 그들의 상태 또는 모델의 내부 부분을 업데이트하기 위해, 모델 해석을 필요로 할 수도 있다.
세 가지 타입의 모델 해석이 존재한다: (i.) 기본 해석 또는 답변, (ii.) 설명 해석 또는 설명, (iii.) 메타 설명 해석(human knowledge injection) 또는 정당성.
기본 해석 또는 답변은 하위 컴포넌트에 의해 이해될 수 있는 예측 출력(o)을 지칭할 수도 있다.
설명 해석 또는 설명은 2 튜플 벡터 <o, w>에 의해 표현되고, 하위 컴포넌트에 의해 이해될 수 있는 그러한 예측된 값에 대한 모델 설명(w)과 결합되는 예측 출력(o)을 지칭할 수도 있다. 모델 설명은, 주어진 관찰에 대한 입력 피쳐의 피쳐 중요도를 설명하기 위해 활용될 수도 있는, 설명 가능 아키텍쳐(x)의 계수(θ)를 포함할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
메타 설명 해석 또는 정당성은 3 튜플 벡터 <o, w, j>에 의해 표현될 수도 있고, 예측 출력(o), 모델 설명(w) 및 모델 설명의 정당성(j)을 포함할 수도 있다. 모델 정당성(j)은, 모델 설명을 생성하기 위해 고려되었던 설명 시스템에 의해 취해지는 가정, 프로세스 및 결정에 대한 추가적인 정보를 제공한다.
모델 설명 및 메타 설명 해석은 XTT 아키텍쳐 내의 컴포넌트를 업데이트하기 위해 인터프리터에 의해 활용될 수도 있다.
예시적인 실시형태에서, 입력 질의의 프로세싱에 적절한 모델을 제공하기 위해 그리고 상기 입력 질의에 관련이 있는 적절한 답변, 설명 및 옵션 사항의 정당성을 생성하기 위해, 설명 및 해석 생성 시스템(EIGS) 내에서 XTT가 활용될 수도 있다. 통상적인 EIGS 설명 및 해석 파이프라인이 도 14에서 예시되어 있다. XTT는, 프리젠테이션 출력을 변환하는 것, 유저 고유의 출력 개인화(user-specific output personalization), 컨텍스트 고유의 출력 변환, 목표 고유의 출력 변환, 계획 고유의 출력 변환 및 액션 고유의 출력 변환을 비롯하여 - 그러나 이들로 제한되지는 않음 - , EIGS의 설명 스캐폴딩의 적절한 부분을 변환하기 위해 활용될 수도 있다는 것이 추가로 고려될 수도 있다. 통계적, 인과적, 분류학적(taxonomical), 존재론적(ontological), 도메인, 및 기호학적(semiotic) 정보의 조합에 기초하여 EIGS 출력을 변환하기 위해 XTT가 활용될 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, 설명 스캐폴딩의 적절한 필터링을 생성하기 위한 적절한 모델을 필터에 제공하기 위해, 설명 및 해석 생성 시스템(EIGS) 내에서 XTT가 활용될 수도 있다. 해석 프레이밍(interpretation framing), 프로토콜 컨텍스트, 해석 규칙, 해석 프로시져, 해석 시나리오, 및 충돌 해결 정보의 조합을 활용하여 EIGS에서 설명 스캐폴딩의 적절한 부분을 필터링하기 위해 XTT가 활용될 수도 있다는 것이 추가로 고려될 수도 있다. XTT 어텐션 모델은 EIGS 내에서 필터내 및/또는 필터간 합의 프로세스를 구현하기 위해 사용될 수도 있다.
예시적인 실시형태에서, 적절한 해석을 생성하고 해석 스캐폴딩의 엘리먼트를 생성하기 위한 적절한 모델을 인터프리터에 제공하기 위해 설명 및 해석 생성 시스템(EIGS) 내에서 XTT가 활용될 수도 있다. XTT는, 해석 출력을 변환하는 것, 해석 시나리오 고유의 출력 변환, 컨텍스트 고유의 변환, 및 해석 개요 고유의 출력 변환(interpretation brief-specific output transformation)을 비롯하여 - 그러나 이들로 제한되지는 않음 - , EIGS에서 해석 스캐폴딩의 적절한 부분을 변환하기 위해 활용될 수도 있다. 프레이밍, 프로토콜, 해석 규칙, 해석 프로시져, 해석 템플릿, 해석 개요, 시나리오 모델, 도메인, 상호 작용식 컨텍스트, 및 충돌 해결 정보의 조합에 기초하여 EIGS 해석 출력을 변환하기 위해 XTT가 활용될 수도 있다. XTT 어텐션 모델은 EIGS 내에서 인터프리터내 및/또는 인터프리터간 합의 프로세스를 구현하기 위해 사용될 수도 있다. 적절한 선택 모델 및 선택 프로세스에 기초하여 EIGS 해석 출력을 변환하기 위해, XTT가 활용될 수도 있다.
XTT는 컨볼루션 신경망(convolutional neural network; CNN)의 필요 없이 이미지에 대해 트레이닝될 수도 있다(Dosovitskiy 등등, 2020; Chen 등등, 2020). 변환기는, 언어 토큰을 예측하는 대신, 입력 이미지의 픽셀을 자동 회귀적으로 예측하기 위해, 이미지의 2D 입력 구조를 통합하지 않고도, 이미지 데이터에 대해 트레이닝될 수도 있다. iGPT(Chen 등등, 2020)는, ImageNet 데이터세트의 저해상도 버전을 사용하여, 변환기 아키텍쳐에서 이미지 표현을 학습하도록 GPT-2 아키텍쳐를 트레이닝시켰다. 비전 변환기(Vision Transformer)(Dosovitskiy 등등, 2020)는 입력 이미지를 패치로 분할하고, 그들을 평탄화하고, 그리고 그들을 입력 토큰으로서 사용하여 변환기 아키텍쳐를 트레이닝시킨다. 비전 변환기(Dosovitskiy 등등, 2020) 및 iGPT(Chen 등등, 2020)는, 다중 레이어 퍼셉트론(multilayer perceptron; MLP)과 같은 자신의 컴포넌트가 설명 가능하지 않거나 또는 해석 가능하기 않기 때문에, 블랙박스 변환기로서 보일 수도 있다. XTT는, 비전 변환기(Dosovitskiy 등등, 2020) 또는 iGPT(Chen 등등, 2020)의 것들에 정렬될 수도 있는 설명의 생성 및 해석 가능 내부 계수를 허용하는 화이트박스 설명 가능 컴포넌트를 변환기 아키텍쳐 내에서 도입한다. 셀프 어텐션 메커니즘(self-attention mechanism)의 변형예가 변환기에서 사용될 수도 있다.
EQTransformer(Mousavi 등등, 2020)는, 예측된 지진 신호, P 상 및 S 상 출력이 설명 가능하지 않거나 또는 해석 가능하기 않기 때문에, 블랙박스 모델이다. XTT는, 각각의 입력 피쳐의 중요도를 설명하는 입력 공간에 대한 피쳐 속성과 같은, 해석 가능 내부 계수 및 설명의 생성을 허용하는 화이트박스 설명 가능 컴포넌트를 변환기 아키텍쳐 내에서 도입한다. 따라서, 지진 검출 시스템의 예시적인 XTT 기반의 구현예는, EQTransformer와는 달리, 화이트박스 설명 가능 시스템으로 귀결될 것이다. XTT는 또한, XNN과 같은, XTT 내에 임베딩되는 설명 가능 모델에만 전적으로 의존하여, EQTransformer에서와 같이 다수의 인코더-디코더에 의존할 필요 없이 계층적으로 구조화된 설명의 추가적인 일반화를 허용한다.
셀프 어텐션 메커니즘 또는 유사한 메커니즘은 설명 가능 아키텍쳐(x)에 의해 유도되어, 설명 가능 셀프 어텐션 메커니즘(explainable self-attention mechanism)을 생성할 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 셀프 어텐션 메커니즘 및 블랙박스 셀프 어텐션 메커니즘 또는 유사한 메커니즘의 입력 토큰은 설명 가능 아키텍쳐(x)를 유도하기 위한 입력으로서 필요로 될 수도 있다. 설명 가능 셀프 어텐션 메커니즘은, 파티셔닝 정보, 모델의 내부 계수 및 입력 공간의 피쳐 속성을 포함할 수도 있는 다수의 레벨의 설명을 생성할 수도 있으며, 그러한 설명은 인터프리터에 대한 출력일 수도 있다.
XTT는 자기 감독 기술(self-supervised technique), 예컨대 마스킹, 클로즈 삭제(cloze deletion), 패턴 활용 트레이닝(Pattern-Exploiting-Training; PET), 게임 이론 접근법, 및 다른 적절한 기술을 사용하여 트레이닝될 수도 있다. 타입이 지정된 마스크 심볼은 오브젝트의 상이한 심볼, 개념, 또는 클래스/그룹을 나타낼 수도 있으며, 입력 데이터에 걸쳐 분산 및 인코딩될 수도 있다. 입력 심볼/피쳐의 나머지와의 타입이 지정된 마스크의 상호 작용은 XTT에 의해 사용되는 일반화된 트레이닝 데이터를 나타낸다. 타입이 지정된(typed) 마스크는 가능한 태스크 및 모달리티의 서브세트 순열로부터 선택될 수도 있다. 따라서, 타입이 지정되지 않은(untyped) 마스크는 모든 가능한 태스크 및 모달리티를 하나의 마스크 심볼로 결합하는 타입이 지정된 마스크와 등가이다.
XTT는 단일의 벡터(v)에서 병합하기 위해 모든 인코더 또는 디코더 레이어로부터의 과거 학습된 표현 또는 과거의 상태를 활용할 수도 있다. 벡터(v)는 XTT의 임의의 레이어에 대한 피드백으로서 사용될 수도 있고, 그 결과, XTT의 초기 레이어는 더 높은 레벨의 표현에 액세스할 수 있다. 이전의 연구, 예컨대 피드백 변환기(Fan 등등, 2020)는 더 높은 레벨의 표현을 처리하기 위해 셀프 어텐션의 수정으로 제한된다. XTT는, 화이트박스 모델의 본질에 기인하여, 더 높은 레벨의 표현을 처리하기 위해 화이트박스 모델의 임의의 내부 계수를 활용할 수 있다. 그러한 XTT는, 인과적으로 타당하지 않은 추론을 생성하는 것 또는 통계적으로 유효하지만 그러나 인과적으로 타당하지 않을 수도 있는 예측 경로를 생성하는 것을 방지하기 위해, 과거 학습된 표현에 대해 인과적 제약을 또한 부과할 수도 있다는 것이 추가로 고려된다. XTT는,설명 가능하고 게다가 동시에 인과적이고 환경적으로 타당한 피드백 메모리를 달성하도록 과거 학습된 표현에 추가적인 환경적으로 타당한 제약을 부과하기 위해, 거동 모델 및 그들의 조건, 이벤트, 트리거, 및 액션 상태 표현을 또한 활용할 수도 있다. XTT에 피드백 메모리를 추가하는 것은 그들을 튜링 컴플리트(Turing Complete)로 또한 만드는데, 그 이유는, 그들이 조건부 프로세싱을 나타낼 수 있고 튜링 머신(Turing Machine)을 시뮬레이팅하여, 자동화된 코드 생성, 개선(refinement), 및 최적화와 같은 새로운 애플리케이션 영역을 개방할 수도 있기 때문이다.
예시적인 실시형태에서, 적절한 형식 언어(formal language)로 작성되는 현존하는 형식 컴퓨터 프로그램(formal computer program)을 분석 및 파싱하기 위해, 그리고 일단 로딩되면, XTT 어텐션 모델을 사용하여 그것을 추가로 개선하기 위해, XTT 시스템이 사용될 수도 있다. 인간 유저는, 자연어 콘텐츠를 생성하기 위해 사용되는 다음 번 시퀀스 토큰과 유사한 메커니즘을 사용하는 것에 의해 채워질 필요가 있는 영역을 나타낼 수 있을 수도 있다. 형식 언어의 경우, 설명 가능 모델 내의 계층적 파티션 구조는, 형식 언어(formal language) 프로그램 또는 아티팩트(artefact)의 구조를 직접적으로 모델링하기 위해 사용될 수도 있다. 형식 언어 프로그램을 사용하여 해결될 필요가 있는, 따라서 XTT 시스템이 명시된 문제에 대한 후보 코드 솔루션을 자동적으로 생성하는 것을 허용하는 문제를 명시하기 위해, 형식적 명세 언어(formal specification language)가 사용될 수도 있다는 것이 추가로 고려된다. 다른 옵션에서, XTT 시스템은 사전 정의된 문체 표준에 따라 코드를 변환하고, 불일치 또는 에러를 강조 표시하고, 코드의 더 나은 대안 및 리팩토링(re-factoring) 및 재작성을 제안하고, 난독화된 코드를 난독화 해제하고, 그리고, 알파 변환, 베타 감소, 및 에타 감소(eta-reduction)와 같은 기능적 프로그래밍 언어 개념을 생성된 코드에 적용하기 위해 또한 사용될 수도 있다. 다른 옵션에서 XTT 시스템은, 처음부터 또는 증명된 명령문 및/또는 불완전한 명령문의 현존하는 콜렉션을 통해, 수학적 표현, 명령문, 및 증명을 분석, 생성 및 자동 완성하기 위해, Metamath(메타매쓰), F*, HOL, Mizar(미자르), 및 등등과 같은 적절한 수학적 형식 언어 시스템과 함께 자동화된 이론 증명(Automated Theorem Proving; APT) 시스템과 연계하여 사용될 수도 있다. 다른 옵션에서, XTT 시스템은, XTT에 의해 적용되는 입력-출력 변환 사이의 기저의 가정의 설명을 제공하면서 - 이것은 약물 개발, 의료 및 제약 애플리케이션에서 수반되는 것들과 같은 규제되고 신뢰할 수 있는 애플리케이션에 필요함 - , 단백질 또는 다른 적절한 분자 형상과 연계하여 DNA 코드를 분석하여, DNA, 유전자 발현, 단백질 접힘(protein folding) 및 다른 관련된 생화학적 애플리케이션에서의 규제 변화를 설명하기 위해 사용될 수도 있다.
예시적인 실시형태에서, 종단간 딥 러닝 아키텍쳐는 이미지 및 비디오 압축을 위해 사용되는 XTT로 구성된다. 비디오 프레임은, 후속하여 XTT를 트레이닝하기 위한 입력 토큰으로서 사용되는 패치로 분할된다. 그러한 컨텍스트에 맞춰진 토큰은 최적의 성능을 위해 필요시 별개의 피쳐를 다운샘플링하는 것에 의해 생성된다. XTT의 설명 가능 아키텍쳐에 의해 생성되는 설명은 백맵(Backmap) 프로세스 동안 무손실 설명 경로를 형성할 수도 있다. 경로는 특정한 분류 라벨에 대한 필터링된 컨텍스트에 맞춰진 토큰의 중요도를 나타낼 수도 있다. XTT 성능을 추가로 가속시키기 위해, (Goyal 등등, 2020)에서 제시되는 것과 같은 중복 최적화 및 적응형 토큰 제거 기술이 활용될 수도 있다.
XTT는 종단간 자동 음성 인식(automatic speech recognition; ASR) 아키텍쳐에서 사용될 수도 있다. 예시적인 실시형태에서, 음성 오디오 파형을 대응하는 텍스트로 번역하기 위해 XTT가 사용된다. 사전 트레이닝된 XTT 컨텍스트 표현은 선형 레이어 및 SoftMax 연산에 연결되어 출력을 예측한다. 그 다음, 예측된 출력은 디코더, 예컨대 빔 검색 디코더에 연결되어, 그것을 대응하는 텍스트로 변환한다.
예시적인 실시형태에서, 음성을 프로세싱하기 위해 종단간 딥 러닝 아키텍쳐에서 XTT가 사용된다. 음성을 잠재적인 이산 표현(latent discrete representation)으로 변환하기 위해 XAED 인코더가 사용된다. 이전 출력에 기초하여 다음 번 출력을 예측하기 위해, XAED 인코더의 출력에 XTT가 연결된다. 예측된 출력을 음성으로 변환하기 위해, XAED 디코더가 XTT에 연결된다. 예시적인 실시형태의 성능을 측정하기 위해, 생성된 오디오를 텍스트로 변환하기 위한 사전 트레이닝된 ASR 모델과 함께 음소 에러율(phoneme error rate; PER) 메트릭이 사용된다.
예시적인 실시형태에서, 다중 오브젝트 추적을 위해 XTT가 사용된다. XTT는 인코더 및 두 개의 디코더(d1 및 d2)로 구성되어, 경계 박스를 출력으로서 생성한다. XTT 인코더 및 질의(q1)의 키 및 값은 입력으로서 d1에 전달된다. d1은 현재의 비디오 프레임에서 오브젝트를 예측할 수도 있다. XTT 인코더 및 질의(q2)의 키 및 값은 입력으로서 d2에 전달된다. d2는 이전 프레임에서 검출되는 오브젝트를 사용하여 현재의 비디오 프레임에서 오브젝트를 예측할 수도 있다. d1 및 d2의 성능은 합집합에 대한 교집합의 비율(intersection over union)과 같은 메트릭을 사용하여 측정될 수도 있다.
XTT는 디지털 표면 모델(digital surface mode; DSM) 또는 깊이 맵(depth map; DM) 생성을 위해, 위성, 항공 또는 다른 타입의 조감도(bird-eye-view; BEV) 이미지를 매치시키기 위해 사용될 수도 있다. 예시적인 실시형태에서, XTT 인코더는, 도 10의 (a)에서 예시되는 것과 유사한 예시적인 아키텍쳐를 활용하여, 위성 이미지 쌍 사이의 시차를 측정하기 위해 사용되는데, 여기서는 예측된 값은 분류 대신 시차 회귀를 사용하여 계산된다. XTT 인코더의 입력 토큰은 이미지 쌍을
Figure pct00015
로서 정의되는 평탄화된 이미지 패치로 분할하는 것에 의해 생성될 수도 있다. [SEP] 심볼은 제1 이미지와 제2 이미지 사이의 구분자(separator)로서 사용될 수도 있다. 시차는 선형 레이어 또는 설명 가능 아키텍쳐(x)를 XTT 인코더의 최종 레이어에 부착하는 것에 의해 예측될 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 입력 이미지는, CNN, CNN-XNN, CNN-XTT 및/또는 XAED의 조합을 사용하여, XTT 인코더 이전에 인코딩된다는 것이 추가로 고려된다. XTT 인코더의 화이트박스 설명 가능 컴포넌트는 해석 가능 내부 계수 및 각각의 입력 피쳐의 절대적 중요도 및 상대적 기여를 설명하는 설명, 예컨대 입력 이미지의 입력 공간에 대한 피쳐 속성의 생성을 허용한다. XTT 인코더의 간단한 확장 기능(extension)을 통해 단안(monocular), 입체(stereoscopic) 및 다중 뷰 입력 데이터의 화상(imagery)을 프로세싱하기 위해 XTT가 활용될 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, 오디오가 비디오에서 존재하는지를 예측하기 위한 오디오-비주얼 분류 태스크를 위해 XTT가 사용된다. 오디오는 슬라이딩 윈도우 접근법을 사용하여 프레임으로 분할되는 추출된 스펙트로그램을 사용하여 표현된다. 시각적 프레임은, 오디오 표현에서 사용되는 슬라이딩 윈도우 접근법으로부터 샘플링되는 프레임을 사용하여, 시각적 프레임 임베딩으로서, CNN-XNN 아키텍쳐의 평탄화 레이어를 사용하여 표현된다. XTT 인코더에 대한 입력은 오디오 임베딩으로 구성될 수도 있고 디코더에 대한 입력은 시각적 임베딩으로 구성될 수도 있다. 시각적 임베딩은 XTT 인코더에 대한 입력이고 오디오 임베딩이 디코더에 대한 입력이 되도록, 입력의 순서는 반전될 수도 있다. XTT는 입력 오디오 이벤트 클래스가 비디오 임베딩에서 존재하는지의 여부를 예측하기 위해 시그모이드 레이어에 연결된다. 또 다른 예시적인 실시형태에서, CNN-XNN 아키텍쳐 대신, CNN-XTT 아키텍쳐가 사용된다. 또 다른 예시적인 실시형태에서, CNN-XNN 아키텍쳐의 평탄화 레이어 대신, CNN 아키텍쳐의 최종 피드포워드 레이어가 사용된다. 또 다른 예시적인 실시형태에서, CNN-XTT 아키텍쳐는, 오디오-비주얼 입력의 오브젝트를 비롯하여, 오디오와는 별개인 다른 입력 모달리티를 검출하기 위해 활용된다.
XTT는 합성하여 생성된 다차원 데이터의 생성 및 검출을 위해 사용될 수도 있다. 예시적인 실시형태에서, 진짜 이미지로부터 딥페이크 이미지를 검출 및 분류하기 위해, 또는 머신 러닝 시스템을 혼란시키기 위해 데이터에 추가된 적대적 공격 정보의 존재를 검출하기 위해, XTT 구현예가 사용될 수도 있다. XTT의 생성 및 검출 기능을 확장하기 위해, 적절한 설명 가능 모델, 예컨대 설명 가능 생성적 적대 신경망(Explainable Generative Adversarial Network; XGAN) 및/또는 설명 가능 생성적 적대 모방 학습(Explainable Generative Adversarial Imitation Learning; XGAIL) 모델이 사용될 수도 있다는 것이 고려된다. 또 다른 예시적인 실시형태에서, 실제 화상 및 컴퓨터 생성 화상의 조합 내에서 인간 및 오브젝트의 정확하게 배치된, 프레임화된, 스케일링된, 조명된, 및 렌더링된 합성 이미지를 자동적으로 생성, 삽입 및 혼합하기 위해, 카메라 프로세싱 시스템 내에서 XTT가 구현될 수도 있다. 그러한 합성 이미지 블렌딩 시스템은 증강 현실(Augmented Reality; AR), 가상 현실(Virtual Reality; VR) 또는 유사한 메타버스 시스템 내에서 구현될 수도 있다는 것이 추가로 고려된다. 또 다른 예시적인 실시형태에서, AR/VR/메타버스 애플리케이션을 위해 활용되는 휴대용 하드웨어 안구 디바이스 내에서 XTT 기반의 시스템이 구현되어, 실생활 화상 또는 메타버스 화상과의 합성 이미지의 실시간 혼합을 수행할 수도 있다. 의료 이미지의 분석 또는 수술 내에서의 사용을 위해 의료 하드웨어 내에서; 기기 검사 프로세스 및 제조 검사 프로세스에서의 사용을 위해 엔지니어링 애플리케이션 내에서; 그리고 인간이 판독 가능하고 해석 가능한 포맷으로 데이터를 송신하는 의료용 임플란트(medical implant) 내에서, 예컨대 전기 기계 인터페이스(electro-mechanical interface), 전기 화학적 생물학적 인터페이스(electro-chemical biological interface) 또는 생물학적 신경 인공 AI 시스템 인터페이스(biological neuron-artificial AI system interface)와 같은 적절한 생물학적 전기적 인간 머신 인터페이스(biological-electrical human machine interface) 내에서, 그러한 XTT 기반의 시스템이 구현될 수도 있다는 것이 추가로 고려된다. 또 다른 예시적인 실시형태에서, XTT 기반의 시스템은, 생물학적 뉴런으로부터 입력 신호를 수신하고 생물학적 뉴런에 신호를 적절하게 인코딩된 포맷으로 출력하는, 두 개 이상의 생물학적 뉴런을 연결하는 의학적으로 이식된 디바이스의 일부로서 구현될 수도 있다. 그러한 애플리케이션은, 예를 들면, 하반신 불수 환자에서 손상된 생물학적 신경 시스템 연결을 연결하기 위한 또는 고급 인공 장구 디바이스(advanced prosthetic device)에서 카메라 및 다른 센서와 같은 인공 디바이스의 이식 및 연결을 돕기 위한 실용적인 솔루션을 제공할 수도 있다는 것이 고려된다. XTT 시스템의 일부로서 구현되는 XGAIL 시스템의 시뮬레이터 및 데이터 샘플 합성은, XTT 시스템이, 환경 세계 컨텍스트(예를 들면, 시간 동기화) 및 상이한 모달리티의 관련 시퀀스 순서에 따라 적절하게 동기화되는 다중 모드 혼합 출력을 생성하는 것을 가능하게 할 것이다는 것이 추가로 고려된다. 그러한 예시적인 XTT 시스템 구현예는, 생성된 데이터 샘플을 적절하게 수정하기 위해, 예를 들면, 특정한 예술적 스타일을 모방하기 위해 사용될 수 있는 다양한 학습된 스타일을 사용하여 신규의 데이터 샘플, 화상, 디지털 및 아날로그 혼합 미디어 그림(digital and analogue mixed-media painting), 및 3D 조각을 생성하기 위해 또한 사용될 수도 있다는 것이 추가로 고려된다. 그러한 생성된 데이터 샘플은 어떤 보안성이 있는 추적 가능한 디지털 코드, 분산 원장 엔트리(distributed ledger entry) 또는 대체 불가능한 토큰(non-fungible token; NFT)을 사용하여 태깅될 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, 형식 음악 표기법(formal music notation) 및 합성, 사운드 샘플 믹싱, 텍스트 대 음성 생성, 및 일반적인 오디오 샘플 생성의 조합을 사용하여, 음악을 생성하기 위해, XTT 구현예가 사용될 수도 있다. 예를 들면, 음악에 대한 수반하는 비디오를 생성하기 위한 비디오 생성, 포즈 추정 및 인간과 같은 움직임을 갖는 사실적인 합성 생성된 아바타 및 유사한 애플리케이션을 사용하여 댄스 비디오 생성하기 위한 딥페이크 생성 모델을 활용하여, 상이한 모달리티에서 추가적인 출력을 생성하기 위해 다중 모드 XTT 구현예가 사용될 수도 있다는 것이 추가로 고려된다. 상이한 모달리티의 입력을 분석하기 위해, 예를 들면, 가상 환경에서 사실적으로 움직이고 거동하는 아바타를 생성하도록 음성, 포즈 추정, 텍스트 및 제스쳐 식별을 관련시키기 위해, 다중 모드 XTT 구현예가 사용될 수도 있다는 것이 추가로 고려된다.
다운스트림 태스크의 성능을 더욱 개선하기 위해, 사전 트레이닝 이후 추가적인 단계로서 XTT가 사전 미세 튜닝될 수도 있다.
비디오 프레임에 대한 주석을 예측하기 위해 종단간 딥 러닝 아키텍쳐에서 XTT 인코더가 사용될 수도 있다. 예시적인 실시형태에서, 딥 러닝은 CNN-XNN 컴포넌트 및 XTT 컴포넌트로 구성된다. 입력 데이터세트의 비디오 프레임은 오브젝트 임베딩을 예측하기 위해 CNN-XNN 아키텍쳐에 대한 입력으로서 사용된다. 비디오 프레임의 대응하는 전사된 텍스트(inputt) - inputt = {t1, t2, ..., tn}임 - 는 XTT 인코더에 대한 입력으로서 사용되어 컨텍스트에 맞춰진 단어 임베딩을 예측한다. 설명 가능 종단간 딥 러닝 모델은 토큰(tj)에 대한 컨텍스트에 맞는 단어 표현의 임베딩을 학습할 것을 CNN-XNN 아키텍쳐에게 강제할 수도 있는데, 여기서 tj는 비디오 프레임의 전사된 텍스트에서 구별 가능한 단어를 가리킬 수도 있고, 그 결과, CNN-XNN 아키텍쳐는 예측 라벨의 의미론적 컨텍스트를 학습할 수도 있다. 또 다른 예시적인 실시형태에서, CNN-XNN 아키텍쳐 대신, CNN-XTT 아키텍쳐가 사용된다.
종단간 딥 러닝 아키텍쳐에서, 대화 상태 추적(dialogue state tracking; DST) 태스크를 위해, 온톨로지에서 미리 정의되는 대신, 대화 상태를 추적하고 보이지 않는 슬롯을 학습하기 위해 XTT 인코더가 사용될 수도 있다. 예시적인 실시형태에서, XTT 인코더에 대한 입력은 [CLS] 토큰, 시스템 대화 토큰 임베딩(ds) - 여기서 ds = {s1, s2, ..., sn}임 - , 유저 대화 토큰 임베딩(du) - 여기서 du = {u1, u2, ..., um}임 - , 및 입력 공간에서 ds를 du로부터 구별하는 [SEP] 토큰을 포함할 수도 있다. 그 다음, 컨텍스트에 맞춰진 토큰 표현([CLS])은, 대화의 컨텍스트 클래스를 분류하기 위해, 설명 가능 아키텍쳐(x)에 연결되는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 입력 토큰의 나머지의 컨텍스트에 맞춰진 토큰 표현은, 시작 출력에 대한 최대 예측된 확률을 갖는 토큰을 선택하는 것 및 종료 출력에 대한 최대 예측된 확률을 갖는 토큰을 선택하는 것에 의해, 슬롯 값의 시작 및 종료 포지션을 예측하기 위해, 설명 가능 아키텍쳐(x)에 연결될 수도 있다. XTT 인코더에서의 설명 가능 아키텍쳐는 블랙박스 모델로부터 유도될 수도 있거나 또는 데이터세트로부터 직접적으로 학습될 수도 있다.
예시적인 실시형태에서, XTT 인코더는 주어진 입력 시퀀스에서 엔티티를 식별하기 위해 사용된다. XTT 인코더에 의해 프로세싱되는 입력 시퀀스 {s1, s2, ..., sn}는 컨텍스트에 맞춰진 표현 {y1, y2, ..., yn}을 생성한다. 컨텍스트에 맞춰진 표현 {y1, y2, ..., yn}은 두 개의 출력: 엔티티의 시작 포지션 및 엔티티의 종료 포지션을 예측하기 위해 설명 가능 모델에 연결될 수도 있다. 시작 포지션에 대한 가장 높은 확률 예측을 갖는 컨텍스트에 맞춰진 토큰 표현은 엔티티 표현의 시작 포지션에 대해 선택될 수도 있다. 종료 포지션에 대한 가장 높은 확률 예측을 갖는 컨텍스트에 맞춰진 토큰 표현은 엔티티 표현의 종료 포지션에 대해 선택될 수도 있다.
또 다른 예시적인 실시형태에서, 입력 질문에 대한 답변의 시작 포지션 및 종료 포지션을 식별하기 위해 XTT 인코더가 사용된다. XTT 인코더에 대한 입력은 [CLS] 토큰, 질문의 토큰 임베딩(inputq) - 여기서 inputq = {q1, q2, ..., qn}임 - , 답변의 토큰 임베딩(inputa) - 여기서 inputa = {a1, a2, ..., am}임 - , 및 입력 공간에서 inputq를 inputa로부터 구별하는 [SEP] 토큰을 포함할 수도 있다. 그 다음, 컨텍스트에 맞춰진 토큰 표현([CLS])은, 토큰 임베딩(inputa)에서 답변이 존재하는지를 분류하기 위해, 설명 가능 아키텍쳐(x)에 연결되는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. inputa의 컨텍스트에 맞춰진 표현은 설명 가능 모델에 연결되어 두 가지 출력: 답변의 시작 포지션 및 답변의 종료 포지션을 예측할 수도 있다. 시작 포지션에 대한 가장 높은 확률 예측을 갖는 컨텍스트에 맞춰진 토큰 표현은 답변의 시작 포지션에 대해 선택될 수도 있다. 종료 포지션에 대한 가장 높은 확률 예측을 갖는 컨텍스트에 맞춰진 토큰 표현은 답변의 종료 포지션에 대해 선택될 수도 있다.
예시적인 실시형태에서, XTT 인코더는 텍스트에서의 엔티티의 언급(mention)을 지식 베이스의 대응하는 엔티티에 링크하기 위해 사용된다. XTT 인코더에 대한 입력은 입력 공간의 시작에서 [CLS] 토큰을 포함할 수도 있고, 후속하여, 컨텍스트의 토큰 임베딩(inputc) - 여기서 inputc = {t1, t2, ..., tn}임 - , 언급의 토큰 임베딩(inputm) - 여기서 inputm = {t1, t2, ..., tm}임 - , 엔티티의 토큰 임베딩(inpute) - 여기서 inpute = {t1, t2, ..., tk}임 - , 및 입력 공간에서 inputm 및 inputc를 inpute로부터 분리하는 [SEP] 토큰을 포함할 수도 있다. 그 다음, [CLS]의 컨텍스트에 맞춰진 토큰 표현은, 엔티티(inputm)의 언급이 엔티티(inpute)에 링크되는지 또는 되지 않는지를 예측하기 위해, 설명 가능 아키텍쳐(x)에 연결되는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. XTT 인코더는 자신의 엔티티 링크 태스크에서 의미론적으로 더욱 인식되는 XTT를 학습하기 위해 엔티티와 유사한 언급을 부정적인 예측에 할당할 수도 있다.
XTT 인코더는 XTT 디코더와 결합하여 이전 출력에 기초하여 출력을 예측할 수도 있다. 예시적인 실시형태에서, XTT 인코더는 XTT 디코더와 결합되어 비디오 프레임에서 다음 번 관찰된 액션을 예측한다. XTT 인코더는 Dosovitskiy 등등(2020)의 연구와 유사한 메커니즘에서, 비디오 프레임(V) - 여기서 V = {v1, v2, ..., vn}임 - 을 중첩되지 않은 평탄화된 이미지 패치로서 프로세싱하여, 각각의 프레임에 대해, 피쳐 표현(I)을 생성하고, 그 결과, l = XTT - Encoder(V)가 된다. XTT 인코더 프로세스는 설명 가능 비디오 코딩 및 비디오 모델링 시스템의 실제 구현예에서 사용될 수도 있다는 것이 추가로 고려된다. XTT 디코더는 시간 포지션 임베딩과 결합되는 피쳐 표현(l)을 프로세싱하여, 도 10의 (b)에서 도시되는 것과 유사한 방식으로, 이전 비디오 프레임에 기초하여, 비디오 프레임에서 존재하는 액션을 예측한다.
예시적인 실시형태에서, 의료 이미징 관찰 결과를 분류하도록 트레이닝된 인코더 기반의 변환기를 유도하기 위해 XTT 인코더 아키텍쳐가 사용될 수도 있다. 입력 토큰 {t1, t2, ..., tn}은 포지션 임베딩 메커니즘과 결합되는 의료 이미징 데이터의 일부를 가리킬 수도 있다. XTT 인코더는 설명 가능 모델(x)(2000)을 사용하여 블랙박스 피드포워드 신경망 컴포넌트(1900)를 유도하여, 블랙박스 피드포워드 신경망 컴포넌트의 출력과 관련한 파티셔닝 정보, 모델의 내부 계수 및 이전 레이어(1930)의 피쳐 속성을 포함할 수도 있는 다수의 레벨의 설명을 구성할 수도 있다. XTT 인코더는 설명 가능 모델(x)을 사용하여 블랙박스 MHA 컴포넌트(1920)를 유도하여, 블랙박스 MHA 컴포넌트(1920)의 출력과 관련한 파티셔닝 정보, 모델의 내부 계수 및 입력 토큰 {t1, t2, ..., tn}의 피쳐 속성을 포함할 수도 있는 다수의 레벨의 설명을 구성할 수도 있다. 모델의 내부 계수와 피쳐 속성은 입력 차원의 중요도, 또는 인코더 기반의 변환기에서 발견되는 편향을 나타낼 수도 있다.
XTT는, 변환기 아키텍쳐에서 학습되는 계층 구조에 대한 설명을 구성하기 위해, 구성 성분 어텐션 모듈(Wang 등등, 2019)로부터의 계수와 같은, 그러나 이들로 제한되지는 않는, 추가적인 입력을 취하는 설명 가능 모델(x)을 포함할 수도 있다.
예시적인 실시형태에서, 의료 이미징을 위한 XTT 시스템 구현예는, 분류 토큰을 입력 이미지 토큰 시퀀스에 활용하는 것에 의해, 흉부 x 선 이미지 데이터세트에서 폐렴 관찰 결과를 분류하도록 트레이닝된 설명 가능 인코더 기반의 변환기를 사용할 수도 있다. 설명 가능 아키텍쳐(x)는 각각의 이미지 패치의 구성 성분 사전 분포와 같은, 그러나 이들로 제한되지는 않는, 추가적인 입력을 취할 수도 있다. 각각의 인코더 레이어에서의 링크 확률 및 각각의 피쳐 속성은, 하향식 그리디 파싱 접근법(top-down greedy parsing approach)에 의한 비감독 파싱을 사용하여 입력 흉부 x 선 이미지 패치의 설명 가능 파스 트리(explainable parse tree)를 형성하기 위해 활용될 수도 있다.
설명 가능 변환기(XTT) 아키텍쳐는 XTT를 파이프라인의 일부로서 통합하는 종단간 설명 가능 딥 러닝 시스템, 또는 적절한 머신 러닝 시스템의 컴포넌트일 수도 있다. XTT 아키텍쳐에 대한 입력 토큰을 유도하는 기저의 아키텍쳐는 컨볼루션 신경망(CNN)일 수도 있으며 설명 가능 변환기는 아키텍쳐의 최종 컴포넌트일 수도 있다.
예시적인 실시형태는 하드웨어 회로로서 직접적으로 구현될 수도 있는데, 하드웨어 회로는, (i.) FPGA와 같은 유연한 아키텍쳐, 또는 (ii.) ASIC, 아날로그/디지털 전자기기, 광 전자기기(photo-electronic), 또는 광학 프로세서와 같은 더욱 정적인 아키텍쳐, 또는 (iii.) 연결주의 모델(connectionist model)의 하드웨어 구현예에 더 적합할 수도 있는 뉴로모픽 아키텍쳐(neuromorphic architecture), 스핀트로닉(spintronic), 또는 멤리스터(memristor), 또는 (iv.) 양자 컴퓨팅 하드웨어 중 어느 하나를 사용하여 구현될 수도 있다.
예시적인 실시형태에서, XTT는, 일반적으로 소프트웨어 구현예와 관련되는 유연성을 유지하면서, 높은 스루풋 및 하드웨어 가속 이점을 수반하는 애플리케이션에 대해 유용할 수도 있는 FPGA를 사용하여 구현될 수도 있다.
예시적인 실시형태에서, XTT는, 유사 제품의 대량 생산을 수반하는 애플리케이션에 대해 유용할 수도 있는 ASIC을 사용하여 구현될 수도 있다. 그러한 구현예는, 어쩌면 더 적은 유연성을 갖는 비용에서, 높은 성능 및 스루풋을 가질 수도 있다.
예시적인 실시형태에서, XTT는, 작은 사이즈 또는 소형 XTT에 대해 유용할 수도 있는 별개의 컴포넌트를 사용하여 구현될 수도 있다. 예를 들면, 높은 전력 시스템이 수반되는 경우 또는 기본 제어 또는 안전 모니터링을 위해 간단한 XTT가 필요로 되는 경우, 비용 및 견고성 고려는 이러한 타입의 구현예를 매력적으로 만들 수도 있다.
다른 예시적인 실시형태에서, XTT는 뉴로모픽 하드웨어를 사용하여 구현될 수도 있다. 뉴로모픽 하드웨어는 또한 스핀트로닉과 유사한 방식으로 메모리 및 프로세싱을 엮는다. 하드웨어 뉴로모픽 XTT 구현예는, 일반적인 컴퓨팅 아키텍쳐를 실제로 필요로 하지 않고도 일반적인 컴퓨팅 아키텍쳐의 것과 유사한 이점 및 유연성의 대부분을 가지면서, 고도로 효율적일 수도 있다. 뉴로모픽 XTT 구현예는, 예를 들면, XNN 조건부 네트워크의 신경 심볼 아키텍쳐를 활용하는 것에 의해, XTT의 가능한 비신경 컴포넌트도 역시 효율적으로 구현되는 것을 가능하게 하면서, XNN 및/또는 INN과 같은 설명 가능 모델을 효율적으로 구현할 수도 있다. INN과 같은 해석 가능 모델은, 주로 규칙 및/또는 워크플로우의 형태로 인간에게 추가로 제시될 수 있는 모델을 제시하는 것에 의해, 그러한 아키텍쳐가 이해 가능하게 만들어지는 것을 가능하게 한다. 이 표면 표현 형태는 편집될 수 있고, 그 다음, 뉴로모픽 하드웨어에 대해 필요로 되는 신경, 연결주의 포맷으로 원활하게 다시 변환될 수 있다. 그러한 예시적인 실시형태는 관련된 정보를 편집, 추가, 및 삭제하기 위한, 그리고 결과적으로, 뉴로모픽 디바이스의 거동을, 제어되고 신뢰 가능하며 복제 가능한 방식으로, 변경하기 위한 실용적인 솔루션을 제공한다.
다른 예시적인 실시형태에서, XTT는, 더 일반적인 활성화 함수 기반의 뉴런이 아닌, 스파이킹 뉴런(spiking neuron)을 활용하는 뉴로모픽 하드웨어 상에서 구현될 수도 있다. 스파이킹 뉴런은 전력 효율성 및 프로세싱 스루풋을 매우 크게 증가시켜, 다르게는 비스파이킹 뉴런을 통해서는 실현 불가능할 몇몇 실용적인 애플리케이션을 실현 가능하게 만들 수도 있다.
다른 예시적인 실시형태에서, XTT는 스핀트로닉 또는 멤리스터를 사용하여 구현될 수도 있다. 스핀트로닉은 메모리 및 컴퓨팅 컴포넌트를 엮어 잠재적으로 더욱 효율적인 하드웨어 구현으로 이어지는데, 동작 동안, 메모리 값, 가중치, 등등의 전송이, 만약 있더라도, 많을 필요가 없기 때문이다. 멤리스터는 유사한 이점을 제공하며 불휘발성이라는 이점을 갖는다. 스핀트로닉 및/또는 멤리스터 구현예는, 그들이 다시 프로그래밍 가능한 경우, FPGA 구현예와 유사한 특성을 가질 수도 있다. 재프로그래밍이 불가능한 스핀트로닉 또는 멤리스터는 ASIC와 유사한 특성을 가질 수도 있다. XTT는 XTT 아키텍쳐의 임의의 상태 머신 또는 테이블 기반의 부분과 함께 XTT 아키텍쳐의 임의의 연결 기반의 부분에 있는 모든 상이한 레이어 및 뉴런을 스핀트로닉 또는 멤리스터 회로로 변환하는 것에 의해, 스핀트로닉 또는 멤리스터를 사용하여 효율적으로 구현될 수 있다. 스핀트로닉 구현예는 스핀트로닉 회로에서 이용 가능한 메모리 및 프로세싱의 융합에 기인하여 실제로 특히 효율적일 수도 있다. 멤리스터 구현예는, 그들의 불휘발성 가중치 저장소가 동작 동안 멤리스터 기반의 시스템의 일부 또는 모두를 적극적으로 스위치 오프하는 것을 가능하게 만들기 때문에, 특히 전력 효율적일 수도 있다. 더 빠른 데이터 액세스 및 데이터 버스를 통한 계산적으로 비용이 많이 드는 데이터 전송 요청의 제거 또는 감소는 그러한 구현예의 성능을 크게 개선할 수 있다.
다른 예시적인 실시형태에서, XTT는 양자 프로세싱 시스템을 사용하여 구현될 수도 있다. 양자 프로세싱 시스템 상에서 구현되는 XTT는 양자 고유의 확장 기능의 추가와 함께 전통적인(classical) XTT 모델과 유사한 특성을 가질 것이다는 것이 고려된다. 예를 들면, 그러한 확장 기능은 양자 어닐링 효과 및 그들의 정확한 해석의 명세를 허용할 수도 있다. 다른 예에서, 확장 기능은 다수의 큐비트 상태, 큐비트 기본 상태, 혼합 상태, 앤실라(Ancilla) 비트, 및 얽힘 및/또는 디코히어런스에 기인하는 다른 관련 양자 효과의 올바른 해석을 허용할 수도 있다. 다른 예에서, 확장 기능은, CNOT(Controlled-NOT; 제어식 NOT), CSWAP(Controlled-Swap(제어식 스왑) 또는 프레드킨(Fredkin) 게이트), XX(이징 커플링 게이트(Ising Coupling Gate) XX), YY(이징 커플링 게이트 YY), ZZ(이징 커플링 게이트 ZZ) 게이트, 파울리(Pauli) 게이트, 아다마르 게이트, 토폴리(Toffoli) 게이트 및 직렬로 또는 병렬로 결합될 수도 있는 다른 관련된 양자 로직 연산과 같은 양자 로직 게이트와 같은, XNN 내에서의 양자 로직 고유의 연산자 및/또는 하드웨어 로직 게이트의 도입을 허용할 수도 있다. 그러한 양자 로직 게이트(또는 양자 게이트)는 다수의 큐비트에 대해 동작하여, 전통적인 로직 게이트의 양자 유사체로서 역할을 한다. 이징 게이트의 XX, YY, ZZ 지정은, 외부 전자기장과의 입자의 스핀의 상호 작용을 설명하기 위해 사용되는 파울리 X, Y, Z 매트릭스에 관련이 있다. 이들 예를 발전시켜, 그러한 양자 고유의 확장 기능은, 예를 들면, 조건, 이벤트, 트리거, 및 액션의 양자 확장된 버전을 갖는 것에 의해, XTT 아키텍쳐의 다양한 부분에서 구현될 수도 있다. XTT의 그러한 양자 확장된 버전은 양자 효과를 이용하여, 예를 들면, 다수의 액션을 실행할 수도 있거나, 또는 다수의 조건을 평가할 수도 있거나, 또는 전통적인 프로세싱 구현예에서 가능한 필요로 되는 프로세싱 단계보다 훨씬 더 적은 프로세싱 단계에서 대규모 제약 시스템을 평가할 수도 있다는 것이 추가로 고려된다. 예시적인 실시형태에서, 양자 컴퓨팅 하드웨어 상에서 구현되는 XTT는 적절한 양자 알고리즘, 예컨대 양자 푸리에 변환, 진폭 증폭, 양자 걸음 및 등등에 기초한 알고리즘을 활용할 수도 있다. 양자 디바이스에 대한 예시적인 XTT 실시형태에서, Bernstein-Vazirani(번스타인-바지라니), Simon(사이몬)의 알고리즘 또는 Deutsch-Jozsa(도위치-조사) 알고리즘은, 인코딩-디코딩 양태를 또한 잠재적으로 가속하면서, XTT 아키텍쳐의 경계 조건을 예측 및 개선하기 위해 활용될 수도 있다. 다른 예시적인 양자 실시형태에서, 거동 모델(Behavioral Model; BM)과 통합되는 XTT 아키텍쳐의 제약, 조건, 이벤트, 및 트리거 부분을 가속하기 위해, Shor(쇼어)의 알고리즘, 양자 위상(Quantum Phase) 추정 알고리즘, Grover(그로버)의 알고리즘, 양자 카운티(Quantum Counting), 양자 해밀토니안(Quantum Hamiltonian) NAND 트리, 또는 HHL 알고리즘이 사용될 수도 있다. 양자 디바이스에 대한 다른 예시적인 실시형태에서, 예를 들면, 가우시안 추정 프로세스, 또는 XTT 모델 트레이닝 동안 그리고 환경에서 정상적으로 동작하고 있을 때 둘 모두에서 더 빠른 결과를 제공하기 위해 양자 프로세싱을 활용하는 선형 연립방정식 솔버(linear system of equations solver)를 사용하는 것에 의해, 수반되는 프로세스의 일부를 가속하기 위해, QAOA 알고리즘, VQE 고유 솔버(eingensolver), CQE 고유 솔버, 및 양자 매트릭스 반전(quantum matrix inversion)과 같은 하이브리드 솔루션이 활용될 수도 있다.
XTT의 양자 구현예는 또한 멀티태스크 및 다중 모드 애플리케이션에서 상당한 이점을 제공할 수 있을 수도 있다. 예를 들면, Hilbert(힐버트) 공간은 각각의 모달리티 및/또는 태스크에 대해 정의될 수 있으며(각각의 태스크/모달리티에 대한 적절한 기본 상태 정의를 가짐) 후속하여 모든 개개의 태스크 및 모달리티를 포괄하는 멀티태스크 및 다중 모드 힐버트 공간이 구성될 수 있다. 결과적으로 나타나는 멀티태스크 및 다중 모드 힐버트 공간은 태스크와 모달리티 사이의 모든 상호 작용을 나타내기 위해 사용될 수도 있으며 크로스오버 학습의 양자 버전과 함께 모달리티 및/또는 태스크의 서브세트에 대한 트레이닝을 구현하기 위해 사용될 수 있다. 크로스오버 학습은 또한, 크로스오버 학습 구조 내의 희소 연결의 조합 및 양자 컴퓨팅 하드웨어의 우수한 검색 성능 특성이 더 빠른 애플리케이션을 생성할 가능성이 있기 때문에, 양자 구현예로부터 이점을 얻을 수도 있다. 하이브리드 구현예는, 개개의 태스크 또는 모달리티 지향 XTT를 구현하기 위해 전통적인 하드웨어가 사용되고, 크로스오버 학습 구조를 구현하기 위해 양자 하드웨어가 사용되는 실제 구현예를 초래할 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, XTT는, 프로세싱 데이터 및 이벤트 데이터 둘 모두를 비롯하여, 각각, XTT로부터 판독하고 XTT에 다시 기록하는 워크플로우 시스템 내에 통합될 수도 있다. XTT 및 워크플로우 조합은 로봇 프로세스 자동화(Robotic Process Automation; RPA) 시스템, 결정 지원 시스템(Decision Support System; DSS) 또는 데이터 레이크(Data Lake) 시스템 내에서 추가로 통합될 수도 있다는 것이 추가로 고려된다.
XTT 액션, 객관적 메트릭, 조건, 제약, 액션, 트리거, 및 이벤트는, 인과 로직과 연계하여, 귀추적, 귀납적, 연역적 로직의 조합을 활용할 수도 있다. 귀납적 로직을 사용하여, XTT는 완전히 자동적으로 학습되었을 수도 있는 일반화된 규칙 및 지식에 기초하여 미래의 거동을 예측할 수도 있다. 연역적 로직을 사용하여, XTT는 하나 이상의 조건 또는 제약의 조합에 따라 거동을 예측할 수도 있다. 귀추적 로직을 사용하여, XTT는 관찰된 시나리오를 XTT에서의 가능한 상태의 공지된 세트로 개장할(retrofit) 수도 있거나 또는 현재 관찰된 거동을 합리적으로 수용 가능한 방식으로 설명할 수 있을 수도 있다. 귀추적 로직은 XTT 기반의 진단 시스템의 실제 구현예에 또한 유용할 수도 있으며 거동 모니터링 및 예측 데이터를 사용하여 AI 시스템의 진단 및 문제 해결에서 도움이 되도록 사용될 수 있다. 귀추적 로직은 관찰된 상태에 적합하는 XTT 기반의 설명 내러티브의 생성에서 또한 유용할 수도 있으면, 한편 귀납적 및 연역적 로직은 일반적으로, 예측과 유사한 내러티브와 함께, XTT 기반의 설명 내러티브의 생성에서 유용할 수도 있다. 귀추적 로직은 환경이 부분적인 관찰 가능성을 제공하는 상황에서 유용할 수도 있다.
반사실적 언어 표현 아키텍쳐(counterfactual language representation architecture)를 사용한 인과적 설명을 위해 XTT가 사용될 수도 있다. 예시적인 실시형태에서, XTT 인코더는 잠재적 혼란 개념(potential confounding concept)의 존재를 예측하기 위해 추가적인 처리된 개념 목표(Treated Concept objective)(Feder 등등, 2020) 및 제어된 개념(Controlled Concept)(Feder 등등, 2020)을 사용하여 트레이닝된다. 그 다음, 이 예시적인 실시형태에서 XTT 인코더의 예측은, 출력 클래스에 할당되는 예측 확률 사이의 절대 차이의 평균을 사용하여, 반사실적 미세 튜닝 트레이닝을 사용하지 않은 XTT 인코더의 예측과 비교된다.
XTT는, 원인과 결과(cause-and-effect)를 핸들링하기 위해, 관련성, 중재, 및 반사실적 인과 로직을 핸들링하기 위해, 환경 모델 입력을 통해 타당성 체크를 수행하기 위해, 그리고 또한 인과적으로 타당한 동형 사상(causally plausible isomorphism)을 통해 트레이닝 데이터를 증강하기 위해, 인과 모델 고유의 기능성을 구현할 수도 있다. 도 19에서 도시되는 예시적인 실시형태에서, XTT는 설명 가능 인과 모델 기능성과 함께 구현된다. 입력 레이어(400)(이것은 설명 가능 시스템이 XNN인 경우 도 3의 입력 컴포넌트(400)에 대응할 수도 있음)는 적절한 피쳐 상호 작용 컴포넌트(424)(이것은 설명 가능 시스템이 XNN인 경우 도 3의 적합 레이어 컴포넌트(424)에 대응할 수도 있음)에 공급하는데, 이것은, 그 다음, XTT 그 자체 및/또는 그것의 설명 가능 모델 컴포넌트 중 하나일 수도 있는 설명 가능 시스템(3400)으로 공급한다. 입력 레이어(400)는 인과 모델 컴포넌트(3410)로 또한 공급한다. 피쳐 상호 작용(424) 및 설명 가능 시스템(3400)은 인과 모델(3410)에 대한 양방향 링크를 가지는데, 그들 둘 모두가 인과 모델에 공급하고 인과 모델로부터 입력, 피쳐 및 피쳐 상호 작용 정보를 다시 수신하기 때문이다. 인과 모델(3410)은 인과 프로세싱 파이프라인(4100-4600)에 입력을 제공한다. 인과 프로세싱 파이프라인은, 환경 모델(4500)로부터 환경 컨텍스트 입력(environmental contextual input ; 4510)을 옵션 사항으로 또한 수신할 수도 있는 인과 시나리오(4100)를 가지고 시작한다. 그러한 환경 컨텍스트(4510)는, 환경적으로 불가능한 상태가 AI 시스템에 의해 고려되는 것을 허용하지 않는 적절한 경계 및 타당성 제약을 설정하기 위해 사용될 수 있다. 인과 시나리오(4100)는 파이프라인에 의한 추가적인 프로세싱을 위해 고려될 적절한 정보를 선택하는 인과 선택 컴포넌트(4200)로 공급한다. 인과 변환 컴포넌트(4300)는 4200으로부터 필터링된 정보를 수신하고, 관련성 기반의 통계 변환 및 심볼 변환을 비롯한, 적절한 변환을 적용하고, 중재 컴포넌트(4400)에 공급한다. 중재 컴포넌트(4400)는 적절한 로직(예컨대 Pearl(펄)의 인과 로직을 사용하는 경우 do() 연산자)를 사용하여 인과 중재를 적용하고, 그 다음, 반사실적 컴포넌트(4600)에 공급한다. 반사실적 컴포넌트(4600)는 반사실적 인과 로직을 고려되고 있는 현재의 시나리오에 적용한다. 컴포넌트(4300, 4400, 4600)는, 적절히 파이프라인의 임의의 이전 부분으로부터 시작하여, 파이프라인 프로세스를 반복적으로 반복할 수도 있다. 파이프라인이 자신의 프로세싱의 준비가 되면, 결과는 인과적 피쳐 및 인과적 피쳐 상호 작용 컴포넌트(4700)를 통해 송신되어 인과적 모델(3410)에 다시 저장된다. 옵션 사항의 구현 양태는 예시적인 실시형태가 인과적으로 그리고 환경적으로 제약된 동형 사상의 프로세스를 통해 트레이닝 데이터를 증강하는 것을 허용할 것이다는 것이 추가로 고려된다. 그러한 옵션에서, 4700으로부터의 출력은 동형 사상 컴포넌트(4800)에 공급된다. 환경 모델(4500)은 또한, 옵션 사항으로, 관련된 환경 제약 및 불변성 정보(4520)를 동형 사상 컴포넌트(4800)로 송신할 수도 있다. 컴포넌트(4800)는 공지된 데이터에 가능한 동형 변환을 적용하고, 후속하여 인과적으로 그리고 환경적으로 타당한 새로 생성된 또는 합성된 데이터 샘플만이 증강된 인과적 피쳐 및 상호 작용 컴포넌트(4900)로 송신되는 것을 보장하기 위해 4700으로부터 수신되는 정보에 기초하여 인과적 제약 및 필터링을 적용한다. 그러한 증강된 데이터 샘플은 인과 모델(3410)에 추가되고 추가적인 재트레이닝, 적응, 퓨샷 학습 프로세스 및 다른 적절한 사용을 위해 설명 가능 시스템(3400)이 이용 가능하게 만들어진다.
예시적인 실시형태에서 계속하여, 인과 XTT의 성능을 개선하기 위해 다양한 인과적 휴리스틱(causal heuristic)이 활용될 수 있다는 것이 추가로 고려된다. 예를 들면, (Qi 등등, 2020)에서 주어지는 두 가지 휴리스틱은, 인과 XTT에 의해 과거 정보가 활용될 때마다 통합될 수 있어서, 본질적으로 항상 과거 정보와 최종 답변 사이 내에 관찰되지 않은 교란 인자(confounder) 또는 노이즈 변수를 삽입할 수 있다.
도 23은 자연어 문서로부터 초안 인과 모델을 자동적으로 생성하는 예시적인 인과 XTT 시스템 구현예를 예시한다. XTT 어텐션 모델을 활용하여, 예를 들면, (이 예에서, 회사 이미지가 제시간에 지불에 의존하기 때문에) "제시간에 지불(paying in time)"과 그것의 결과인 "우리의 이미지가 의존함(our image depends)" 사이의 전제-결과 링크를 식별하는 것에 의해, 텍스트 문서로부터의 관련된 원래의 텍스트 조각(text snippet)이, 전제(antecedent)와 그것의 결과 사이의 포지션 링크와 함께, 식별된다(47010). 적절한 마스킹 또는 일반화 프로세스 또는 어떤 적절한 자기 감독 프로세스(47020)를 통해, 원래의 인과적으로 링크된 조각(47010)은, 그 다음, 예시적인 XTT 시스템에서 일반화된 타겟(47030)으로서 표현되는 문서의 상이한 어구와 매치하도록 일반화된다. 예를 들면, "제 시간에 지불"이 "우리의 이미지가 의존함"으로 이어진다는 인과 링크(causal link)에 대한 일반화된 타겟은 "<X> 시간 내에 지불*"이 "<Y> 이미지가 의존함"으로 이어진다에 의해 주어질 수도 있는데, 여기서 <X> 및 <Y>는 두 개의 상이한 타입이 지정된 마스크(즉, 의미론적 일반화)이고 "*" 심볼은 문서의 입력 언어에 의존하는 형태학적 일반화(즉, 구문론적 일반화)이다. 그 다음, 일반화된 타겟(47030)은, 예를 들면, "유동성(liquidity)" 및 "<Z> 지불자"를 "유동성"(47110)의 인과적 개념(즉, 인과적 변수)에, "평판"에 관련되는 어구를 "기업 인식"(47130)의 인과적 개념에, 그리고 "협상" 및 "거래"에 관련되는 어구를 "구매 거래"(47120)의 인과적 개념에 링크하는 적절한 임베딩 스킴을 사용하여 인과적 개념으로 함께 클러스터링된다. 일반화된 타겟(47030)(이것은 원래의 텍스트 조각(47010)으로부터 차례로 추출되었음)의 기초가 되는 인과 구조는 인과 개념 사이의 인과 링크의 올바른 방향을 할당하기 위해 사용된다. 도 23에서 도시되는 예에서, 유동성(47110)은 구매 거래(47120)와 회사 인식(47130) 둘 모두의 원인이다. 적절한 인과적 휴리스틱은 인과 XTT가 47110과 47120 사이에 교란 인자(거래 체결 포지션에 내재되는 불확실성을 나타냄)를 그리고 47110과 47130 사이에 다른 교란 인자(회사 인식에 내재하는 불확실성 및 다른 비재정적 원인에 대한 그것의 링크를 나타냄)를 삽입하게 하는 것으로 이어질 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, XTT는 신경 심볼 조건부 제약(neuro-symbolic conditional constraint)을, 트리거 활성화의 레이트를 제한하기 위해 자신의 현재의 및/또는 이전의 이력 상태 및/또는 자신의 이전 이력 활성화 레이트의 일부 또는 모두와 링크할 수도 있다. 심볼 규칙 또는 심볼 표현의 시스템, 다항식(polynomial expression), 조건부 및 비조건부 확률 분포, 결합 확률 분포(joint probability distribution), 상태 공간 및 위상 공간 변환, 정수/실수/복소수/쿼터니언/옥토니언 변환, 푸리에 변환, 월시 함수, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 및 타입 2 퍼지 로직 및 차이 분석의 형태를 포함하는, 그러나 이들로 제한되지는 않는, 다양한 적절한 예시적인 구현예에서, 신경 심볼 제약(neuro-symbolic constraint)이 구현될 수도 있다. 신경 심볼 조건부 제약은, 설명 가능 모델 및 임의의 관련된 분류법, 온톨로지, 및 인과 모델이 액세스 가능한 상이한 피쳐 및 변수를 참조하는 데이터 구조의 형태로 또한 구현될 수도 있다. 신경 심볼 제약은 지식 그래프 네트워크의 형태로 또한 구현될 수도 있다.
명명된 참조 라벨(named reference label)이 XTT 아키텍쳐의 설명 가능 모델 내의 특정한 컴포넌트에 할당될 수도 있다. 명명된 참조 라벨은 본질적으로 설명적일 수도 있으며 외부 분류법, 온톨로지, 및 모델에 대한 추가적인 메타데이터 및 링크를 또한 포함할 수도 있다. 명명된 참조 라벨은 심볼 표현 및/또는 다음의 형태의 공식으로 구성될 수도 있다: 논리곱 정규형(CNF) 규칙 부울 로직, 1차 로직, 2차 로직, 명제 로직(propositional logic), 술어 로직(predicate logic), 모달 로직, 확률 로직, 다치값 로직(many-valued logic), 퍼지 로직, 직관주의 로직(intuitionistic logic), 비단조 로직(non-monotonic logic), 비반사 로직(non-reflexive logic), 양자 로직, 초일관 로직 또는 논리의 표현을 위한 다른 적절한 타입의 논리 시스템 - 또는 XTT에서 경로 트레이스로 지칭하는 현재의 컴포넌트의 실행을 초래한 결정의 세트 또는 시퀀스의 설명을 제공하기 위한 유사한 명령문. "활성화 경로"는, 특정한 입력에서 시작하고, 특정한 출력 예측에서 끝나는, AI 모델이 후속되는 데이터 흐름 경로로서 정의될 수도 있다. 경로 트레이스는 활성화 경로를 설명하는 특정한 AI 모델에 대한 결정, 노드, 전이, 또는 적용 가능한 설명 구조의 세트 또는 시퀀스이다. 명명된 참고 자료(reference)는, 특히 인간의 주의력 범위가 심각하게 부족하게 되거나 또는 제한될 수도 있는 잠재적으로 중요하고 스트레스가 많은 상황에서, 인간에 의한 더 쉽고 더 신뢰 가능한 식별을 보장하기 위해 안전 관련 제약에서 사용될 수도 있다.
다른 예시적인 실시형태에서, 동적 프로세스 하에서 명명된 참조 라벨의 동일한 불변성은, 역동적인 프로세스의 각각의 실행과 함께 지식을 기록해야 하거나 또는 설명 방법을 재트레이닝할 필요 없이 AI 모델 내에서 발생하는 역학의 안정적이고 장기적인 설명을 생성하기 위해, XTT에 의해 활용될 수도 있다. 2D 또는 3D 장면 내에서, 그러한 장면이 직접적으로 관찰되든 또는 합성적으로 생성되든 간에, 발생하는 시각적 역학을 설명하기 위해 적절한 시간 변환이 적용될 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, XTT는 자신의 제약 및 예측 로직 구현의 기초로서 적절한 계산 및 지식 표현 구조를 사용할 것이다. 그러한 적절한 구조는 리소스 디스크립션 프레임워크(Resource Description Framework; RDF) 트리, RDF 그래프, Levi(레비) 그래프, 또는 다른 적절한 형태의 그래프 구조일 수도 있다. 실제 XTT 구현예에서 하이퍼그래프 구조 또는 단순체 복합체가 사용될 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, XTT는 감사 로그 기능성(audit log functionality)을 구현할 수도 있다. 그러한 XTT 감사 로그 정보의 예시적인 적용은, XTT의 흐름, 상호 작용, 및 거동과 그것의 조건, 이벤트, 트리거 및 액션 및 전반적인 역학을 명확하게 설명하는 결정 로그 및 경로 트레이스의 생성에서 있다. 경로 트레이스는 전문가 시스템 및 규칙 기반의 시스템에서, 트리거되고 실행된 규칙의 주석이 달린 시퀀스로서 구현될 수도 있다는 것이 고려된다. 경로 트레이스는 워크플로우 시스템에서 워크플로우 엔진에 의해 실행된 워크플로우 노드 및 경로의 주석이 달린 시퀀스로서 구현될 수도 있다는 것이 추가로 고려된다. 경로 트레이스는 XTT의 정확한 시퀀스 및 거동을 설명하기 위해 사용될 수 있으며 유저가 관심을 가질 수도 있는 경로를 따라 가장 가까운 이웃을 디스플레이하도록 구현 및 구성될 수도 있다. XTT는 무단 변경 방지 및 추적 가능한 방식으로 레코드의 시스템, DLT, 데이터베이스, 또는 어떤 다른 적절한 시스템에 저장될 수 있는 자기 자신의 감사 시스템 로그를 활용할 수도 있다는 것이 추가로 고려된다. 그러한 감사 정보는, 관련된 AI 모델과는 별개인 독립 시스템에 저장될 수도 있거나 또는 자신의 관련된 AI 모델에 의해 사용되는 동일한 감사 시스템을 공유할 수도 있다.
예시적인 실시형태에서, XTT는, 액션의 시간 로직, 추상 머신 표기법(Abstract Machine Notation), 페트리 넷, 계산 트리 로직, 및 모달 로직, 직관주의 로직, 및/또는 Kripke(크립키) 의미론 및/또는 Alexandrov(알렉산드로프) 토폴로지를 포함하는, 그러나 이들로 제한되지는 않는, 관계형 의미론을 형식적으로 표현할 수 있는 다른 적절한 구현 방법 중 하나 이상에 기초한 시스템의 조합에 의해 구현되고 그에 의해 검증될 수도 있다.
예시적인 실시형태에서, XTT는 앵커 용어(anchor term)를 활용할 수도 있다. XTT에서의 다수의 노드와 에지, 및 다른 이벤트, 트리거, 제약, 및 액션은 특정한 애플리케이션 도메인에 대해 중요하거나 또는 결정적인 것으로 간주될 수도 있다. 그러한 중요도는 애플리케이션 또는 사용 컨텍스트에 의해, 또는 소정의 강제 제약을 부과하는 외부 써드파티, 예컨대 규제 또는 법적 기관 또는 산업 표준 제정 기관(industry standard making body)을 통해 결정될 수도 있다. 이들 타입의 중요한 또는 결정적인 제약은, 각각, 앵커 용어, 앵커 변수, 앵커 노드, 앵커 에지, 앵커 이벤트, 앵커 트리거, 앵커 제약 및 앵커 액션으로서 지칭될 수도 있다. 그러한 앵커 컴포넌트는 설명 구조 모델(Explanation Structure Model; ESM) 내에서의 앵커 용어와 유사하다. 앵커 용어는 명명된 참조 라벨을 또한 할당받을 수도 있다.
예시적인 실시형태에서, 양자화 방법은, 특히 리소스 제약 하드웨어 상에서, 성능을 증가시키기 위해 그리고 어쩌면 구현 사이즈를 감소시키기 위해, XTT 프로세싱 동안 적용될 수도 있다. XTT 정확도에 대한 양자화의 임의의 유해한 효과에 부분적으로 대응하기 위해 그리고 트레이닝 동안 불안정성을 감소시키기 위해, 예컨대, Qin 등등(2020)에서 제시되는 것과 같은 상미분 방정식(Ordinary Differential Equation; ODE) 솔버를 사용하는 어떤 형태의 불안정성 감소 기술이 적용될 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, XTT는 무모델(model-free) 및 모델 기반의 최적화 방법의 조합을 활용할 수도 있다. 모델 또는 사전 분포의 적절한 세트에 액세스하지 않고도 XTT 내에서 필요한 구조를 생성하기 위해, 통계적 관계 및 공분산, 상관 관계, 상호 정보와 같은 적절한 척도 및 다른 적절한 기술에 의존하는 무모델 방법이 사용될 수 있다. 인과 관계, 심볼 지식 또는 다른 적절한 방법에 의존하는 모델 기반의 방법은, 모델 기반의 방법의 더 넓은 계산 표현 성능에 기인하여 더 풍부하고 더욱 표현적인 최적화 단계를 추가하는 것에 의해 XTT를 추가로 개선한다.
예시적인 실시형태에서, XTT는 실용적인 데이터 프라이버시 보존 AI 시스템 구현의 기초 또는 일부로서 사용될 수도 있다. 데이터 프라이버시는 다음과 같은 다수의 시나리오에서 AI 시스템에 의해 의도적으로 또는 의도치 않게 침해될 수도 있다: (i.) AI 모델에서 의도치 않게 통합되는 트레이닝 데이터세트로부터의 개인 데이터; (ii.) 모범 답변을 반복적으로 분석하는 것에 의해 개인 데이터가 재추출될 수 있거나 또는 재생성될 수 있음; (iii.) 소정의 고유하게 식별 가능한 그룹의 개인 데이터가 결국에는 더 높은 식별 위험에 처할 수도 있음; (iv.) 고유의 키 또는 서명을 통해 모델 데이터를 관련시킬 수 있는, 모델 반전 및 멤버십 추론 기술; (v.) 개인 정보와 결합될 수도 있는 공개 데이터 소스와 같은 정보의 다른 소스가 개인 정보를 재생성할 수도 있거나 또는 다르게는 식별할 수도 있음. AI에 대한 주요 데이터 프라이버시 보호 솔루션은 네 개의 카테고리: (i.) 차분 프라이버시(differential privacy); (ii.) 안전한 다자간 계산(secure multi-party computation); (iii.) 연합 학습(federated learning); (iv.) 동형 암호화(homomorphic encryption) 하에서 분류될 수 있다. XTT 기반 시스템의 예시적인 실시형태는 모든 네 가지 카테고리 하에서 실제 구현을 가능하게 할 수도 있다.
예시적인 프라이버시 보호 솔루션 (i.)인 차분 프라이버시에서, 트레이닝 데이터에서의 노이즈 또는 어떤 다른 적절한 난독화 수단의 도입은, XTT 아키텍쳐에서, 노이즈 율(factor) 또는 비율을 통해 제어 가능한 양의 프라이버시를 생성하기 위해 사용될 수도 있다. 노이즈 레벨은 유저가 공급 또는 편집할 수 있을 수도 있는 변수일 수도 있는데, 여기서 노이즈 레벨은 제약 및/또는 목적으로 구현될 수도 있다. 프라이버시 보호 솔루션 (ii.)에서, 안전한 다자간 계산(secure multi-party computation; SMPC)은 데이터에 대한 부분적인 정보를 숨기면서 정확한 답변을 획득하기 위해 사용될 수도 있고 하나 이상의 소스로부터의 데이터를 사용하여 답변을 동시에 계산할 수도 있다. XTT 및 설명 가능 모델의 예시적인 실시형태는 답변 출력과는 별개로 설명 생성에 적용하기 위해 SMPC 프로토콜을 확장할 수도 있다. XTT의 예시적인 실시형태는 어떠한 개인 정보도 드러내지 않으면서 보안성 및 신뢰 구축 목적을 위해 형식적으로(formally) 분석 및 테스트될 수 있다는 것이 추가로 고려된다. 하드웨어 프로세서 내의 보호된 공간에서 데이터를 암호 해제하여, 시스템의 다른 부분이 일반 텍스트에서 그러한 데이터에 액세스할 수 있는 가능성을 제한하기 위해, 보안 엔클레이브(secure enclave)가 또한 사용될 수도 있다. 보안 엔클레이브와의 XTT의 조합의 종단간 하드웨어 구현예는 대부분의 형태의 데이터 공격에 대해 다소 탄력적일 수도 있다. 프라이버시 보호 솔루션 (iii.)인 연합 학습에서, XTT는 로컬 데이터 샘플만을 유지하는 다양한 탈집중화된 디바이스에 걸쳐 분산될 수도 있다. 로컬 데이터 샘플은 다른 디바이스와 공유되지 않으며, 따라서, 수반되는 프라이버시 위험을 제한하지만, 그러나 완전히 제거하지는 못하며, 메시징 옵션이, 예컨대 메쉬 네트워크에서, 네트워크 토폴로지에 의해 제한되는 또는 제약되는 IoT 또는 에지 컴퓨팅 애플리케이션에 대해 특히 적합할 수도 있다. 프라이버시 보호 솔루션 (iv.)에서, 데이터를 암호 해제하지 않으면서 그리고 또한, 옵션 사항으로, 암호화된 설명 가능 모델을 사용하지 않으면서, 암호화된 데이터에 대한 계산을 허용하기 위해, 동형 암호화, 또는 동형 컴퓨팅이 사용될 수도 있다. 동형적으로 암호화된 XNN 및 동형적으로 암호화된 데이터를 사용하는 XTT의 예시적인 실시형태에서, CKKS 프로토콜을 활용하여, 비밀 키와 공개 키가 생성된다. 공개 키는 암호화를 위해 사용되며 공유될 수 있고, 한편 개인 키는 암호 해제를 위해 사용되며, 예를 들면, 보안 하드웨어 엔클레이브 또는 유사한 구현 솔루션에서 비밀로 유지되어야만 한다.
XTT 시스템은 what-if, what-if-not, but-for 및 조건부 시나리오에 기초하여 생성된 구조화된 설명을 활용하여 그러한 시나리오를 XTT 시스템 입력에 적용한 결과에 대응하는 시나리오 기반의 설명 및 설명된 전략을 생성할 수도 있는데, 여기서 하나 이상의 가상 타겟 결과(hypothetical target outcome)가 시나리오 모델링의 일부로서 선택된다. 그러한 시나리오 기반의 설명은, 타겟 시나리오 결과가 본질적으로 대조적인지 또는 비교적인지의 여부에 따라, 각각, 대조적 설명 또는 비교적 설명으로서 또한 공지된다. 그러한 시나리오 기반의 설명 생성 애플리케이션에서, XTT 시스템은 제약을 검사되고 있는 시나리오와 관련시킬 수도 있고, 객관적 비용을 피쳐 난이도/달성 가능성/심각도와 관련시킬 수도 있고, 그리고 액션을 출력 타겟으로서 도메인 고유의 그리고 시나리오 고유의 액션과 관련시킬 수도 있다는 것이 고려된다. 또 다른 예시적인 실시형태에서, 정책, 비용 및 보상에 관한 추가적인 정보를 제공하기 위해 및/또는 XRL 에이전트에 대한 추가적인 트레이닝 예를 또한 제공하기 위해, XTT 시스템은 XRL 에이전트와 함께 구현될 수도 있다. 예시적인 실시형태에서, 대출 신청의 결과를 예측하기 위해, XTT와 같은 XAI 모델이 사용될 수도 있다. 다양한 이유, 예컨대 총 소득, 현재의 직업, 연령, 총 순자산, 및 다른 요인 때문에, 대출 신청은 수락될 수도 있거나 또는 거부될 수도 있다. 시스템 유저는 대출 신청의 결과를 변경하는 방법에 대한 제안을 원할 수도 있다. 예를 들면, 거부된 대출 신청의 경우, 시스템 유저는 신청의 스테이터스(status)가 거부로부터 승인으로 변경되기 위해서는, 입력란의 항목 중 어떤 조합이 변경될 필요가 있는지를 알기를 원할 수도 있다. 모든 입력 변수, 피쳐 및 피쳐 상호 작용의 서브세트만이 변경될 필요가 있을 수도 있다는 것이 고려될 수도 있다. 하나 이상의 비용이, 각각의 타입의 비용에 대한 어떤 적절한 메트릭에 대응하여, 각각의 변수와 관련될 수도 있다. 예를 들면, 편견으로 보호되는 클래스, 예컨대 성별 또는 인종은 관련되는 또는 완전히 도달할 수 없는 것으로 마킹되는 매우 높은 비용을 가질 수도 있다(즉, 불법적인 결과 상태). 다른 예에서, 높은 비용은 돌이킬 수 없는 전략 액션과 관련될 수도 있다. 현재의 소득과 같은 다른 변수는 총 순자산 변수보다 더 낮은 비용을 가질 수도 있다. 액션의 비용은 선형일 수도 있거나 또는 비선형적일 수도 있으며 총 비용에 영향을 끼치는 종속 또는 독립 변수를 포함할 수도 있다. 누락된 데이터는, XTT 시스템이, 수정 조치를 사용하여 또는 사용하지 않고, 누락된 데이터를 적절하게 핸들링하는 것을 가능하게 하는, 그것과 관련되는 특별 비용을 또한 가질 수도 있다. 피쳐 중요도 또는 계수와 같은 설명 데이터는 주어진 액션에 대한 예상된 보상 또는 비용의 정확한 측정을 제공한다. 부분적으로 누락된 값을 갖는 데이터에 대한 것을 비롯하여, 적용될 필요가 있는 임의의 특정한 관련성, 중재 또는 반사실적 규칙을 비롯한 액션의 총 비용을 추정하기 위해, 외인성 및 내인성 변수 및 인과 모델이 사용될 수도 있다. XTT 시스템은 특정한 상황을 사용하여 주어진 유저에 대한 제안된 액션을 학습하도록, 즉, 액션의 총 비용을 최소화하면서 결과에서의 변화로 이어지는 변수에서의 가능한 변경을 제안하도록 트레이닝될 수도 있다. 제안된 액션은 소망되는 목표로 이어지는 어떤 형태의 시퀀스를 포함할 수도 있다는 것이 또한 고려될 수도 있다. 그러한 애플리케이션의 가상 평균 또는 소망되는 시나리오 결과를 가진 애플리케이션의 (적절하게 익명화된) 실제 예(실례)를 제공하기 위해, 그러한 시나리오 기반의 XTT 시스템 설명과 연계하여 최근접 이웃 방법(nearest-neighbor method)이 활용된다는 것이 추가로 고려된다. 그러한 최근접 이웃 방법은 설명 가능 모델 내의 파티션 계층 구조를 이용하여, 동일한 파티션으로부터, 또는 가까운 파티션으로부터 또는 현재 파티션으로부터 더 멀리 떨어진 파티션으로부터 예를 생성할 수도 있다. 또한, 변수에서의 가능한 변화는 어떤 적절한 시스템에 의해 순위가 매겨지고 우선 순위화되며 식별 평가 추천 해결(IAR) 프레임워크의 형태로 자동화된 프로세스에게 또는 유저에게 제시되는 것이 추가로 고려된다. 예시적인 실시형태에서, XTT는 사실적인 환경 시뮬레이션을 생성하기 위해 및/또는 XRL 에이전트에 대한 경험 학습 데이터 샘플을 제공하기 위해 XRL 에이전트와 함께 구현될 수도 있다. 그러한 예시적인 실시형태는 가상 현실 시뮬레이션, 증강 현실 시뮬레이션, 가상 협업 공간, 및 메타버스의 생성에서 활용될 수도 있다는 것이 추가로 고려된다.
AutoXAI 시스템을 갖춘 XTT 시스템의 예시적인 실시형태에서, 시나리오 기반의 설명을 생성하기 위해, 다중 목적 최적화(Multiple Objective Optimization; MOO), 파레토 프론트 방법(Pareto Front Method), 입자 군집 최적화(Particle Swarm Optimization; PSO), 유전 알고리즘(Genetic Algorithm; GA), 베이지안 최적화(Bayesian Optimization), 진화 전략(Evolutionary Strategy), 경사 하강 기법(Gradient Descent technique) 및 몬테 카를로 시뮬레이션(Monte Carlo Simulation; MCS)과 같은 최적화 방법이 또한 사용될 수도 있다. XAED 및/또는 XGAN 시스템에 대한 인코딩-디코딩 정보는 설명 구조 모델(Explanation Structure Model; ESM)에 저장되는 속성 값 및 다른 데이터에 완전히 또는 부분적으로 링크된다는 것이 추가로 고려된다. 그러한 예시적인 AutoXAI 시스템은, XTT의 인코더 및/또는 디코더의 피드포워드 네트워크와 같은 더욱 동적인 변화와 함께, XTT 아키텍쳐 내에 저장되는 상태 지식에 대한 계산 그래프를 나타내기 위해, 형식 언어 또는 어떤 다른 적절한 수단을 활용할 수도 있다는 것이 추가로 고려된다. 이것은 AutoXAI 시스템이 XTT 시스템 성능을 하나 이상의 특정한 애플리케이션 도메인 또는 태스크에 적응시키는 것을 허용하며 XTT 내에서 메타 학습 시스템의 통합에 대한 실용적인 솔루션을 제공하는데, 이것은 보강 학습 시스템에서는 일반적이지만 XTT에 대해서는 명백하지 않은 용도이다. 그러한 메타 학습 시스템은 AutoXAI 모델 발견 동안 후속하여 개선되는 인간 프로세스 지식의 초기 통합을 위한 실용적인 솔루션을 또한 제공할 수도 있다.
XTT, XTT 인코더 또는 XTT 디코더는 동일한 파라미터를 공유하면서 다수의 태스크 및 다수의 모달리티를 프로세싱할 수도 있다. 멀티태스크 및 다중 모드 XTT 시스템의 예시적인 실시형태에서, 설명 가능 모델은 동일한 파라미터를 사용하여 오디오, 이미지 및 비디오를 프로세싱하는 XTT 인코더 또는 XTT 디코더를 포함한다. XTT 인코더 또는 XTT 디코더의 입력은 이미지에 대한 토큰화된 입력, 비디오에 대한 토큰화된 입력 및 오디오에 대한 토큰화된 입력을 포함할 수도 있고, 그 결과 다음과 같이 된다:
Figure pct00016
. XTT 인코더 또는 XTT 디코더는 각각의 모달리티에 대한 다수의 클래스 토큰을 포함할 수도 있고, 그 결과 다음과 같이 된다:
Figure pct00017
. cls(XTT-Encoder)는 태스크의 예측 출력을 생성하기 위해 선형 레이어에 첨부될 수도 있다. 입력 임베딩 및 포지션 임베딩은, 비록 그들이 동일한 XTT 인코더 또는 XTT 디코더에 연결되더라도, 각각의 모달리티마다 상이할 수도 있다. XTT 인코더 또는 XTT 디코더는 각각의 태스크의 각각의 데이터세트로부터 미니배치(minibatch)를 샘플링하는 것, 그래디언트를 계산하는 것 및 상응하여 파라미터를 업데이트하는 것에 의해 상이한 태스크에 대해 트레이닝될 수도 있다. 상이한 태스크로부터의 샘플링, 예컨대 상이한 태스크로부터 교대로 발생하는 샘플링, 태스크별 샘플링, 상이한 태스크로부터의 균일한 샘플링, 특정한 가중치 기준에 따른 태스크의 샘플링, 또는 다수의 태스크의 미니배치에 대한 그래디언트의 축적 및 모든 태스크에 걸친 미니배치의 사전 정의된 세트 또는 모든 태스크의 모든 미니배치에 대한 단일 파라미터 업데이트의 수행을 위해 다수의 전략이 사용될 수도 있다. XTT 인코더 또는 XTT 디코더는 주어진 태스크에 대해 한 번에 하나의 모달리티씩 트레이닝될 수도 있다. XTT 인코더 또는 XTT 디코더는 주어진 태스크에 대해 다중 모드 입력을 사용하는 것에 의해 다중 모드 접근법에서 트레이닝될 수도 있다. 다중 모드 XTT 인코더 또는 XTT 디코더는, 주어진 다중 모드 입력 및 출력에 대한 모델 해석 가능성을 인에이블하기 위해, 다중 모드 화이트박스 모델에서 설명이 생성되는 것을 가능하게 한다.
또 다른 예시적인 실시형태에서, XNN, INN 또는 XTT와 같은 설명 가능 모델을 활용하는 XTT는, 하나 이상의 입력 피쳐와 관련되는 하나 이상의 태스크에 대응하는 다수의 입력을 가질 수도 있고 그들 태스크에 대한 출력에 대응하는 다수의 출력을 가질 수도 있다. 그러한 컨텍스트에서 태스크의 의미론적 개념은, 단지, XTT 구조 그 자체에서 어떠한 변경도 필요로 하지 않으면서 일부 입력 피쳐를 태스크 식별자 및 태스크 메타데이터 입력 피쳐로서 지정하는 것에 의해 구현된다. 트리, 그래프, 하이퍼그래프, 또는 단순체 복합체 구조일 수도 있는, XTT의 일부를 형성하는 설명 가능 모델의 계층적 파티션 구조는 상이한 태스크에 대해 학습되는 상이한 지식 사이의 크로스오버가 효율적으로 발생하는 것을 허용한다. 그러한 크로스오버는 계층적 파티션 구조 내에서 피쳐 상호 작용을 제공하는 XTT 예측 네트워크 내에서 발생한다. XTT 조건부 네트워크는 태스크, 그것의 관련된 입력, 및 관련 출력을 링크하는 파티션 구조를 통해 올바른 경로 트레이스를 선택, 편성 및 다중화하기 위해 사용될 수도 있다. 파티션 구조의 일부를 에너지 효율적인 방식으로 구현하기 위해 더 조밀한 또는 더 희소한 XTT가 활용될 수도 있다는 것이 고려된다. 파티션 구조의 일부를 실용적인 방식으로 구현하기 위해 분산형 XTT 또는 DEA가 사용될 수도 있다는 것이 추가로 고려된다.
XTT는 희소한 설명 가능 모델 또는 피드포워드 컴포넌트, 질의 값 키 컴포넌트(query-value-key component), 어텐션 모델 및 출력 관련 컴포넌트를 비롯하여, 자신의 컴포넌트의 일부 또는 모두에서 희소한 설명 가능 모델을 사용하는 DEA를 사용하여 구현될 수도 있다. 그러한 희소 모델은 상당한 전력 감소 및 성능 가속으로 이어질 수도 있다는 것이 고려된다.
도 20은 설명 가능 AI 시스템에 대한 멀티태스크 및 다중 모드 학습을 위한 실용적인 솔루션을 나타내는, 멀티태스크(및 다중 모드) 크로스오버 학습을 갖춘 예시적인 설명 가능 시스템을 예시한다. 설명 가능 AI 시스템에 대한 크로스오버 학습을 위한 새로운 공식화는, 도 21에서 더욱 상세하게 예시되는 크로스오버 학습 구조(45300)를 활용한다. 도 20에서 계속하면, 설명 가능 서브시스템(45200) 중 어떤 것이 태스크 정보 및 그들에게 송신되는 입력(45150)을 결정하고, 따라서, 병렬로 실행될 필요가 있는 서브시스템의 수를 감소시키기 위해, 크로스오버 스위치 컨트롤러(45100)가 사용된다. 설명 가능 서브시스템은 DEA 또는 어떤 다른 적절한 동종의 또는 이종의 분산된 설명 가능 AI 시스템으로서 구현될 수도 있다. 멀티태스크 및 멀티모델 시스템의 그레이박스 버전은 블랙박스로 구성되는 하나 이상의 서브시스템을 갖는 것에 의해 구현될 수도 있다는 것이 고려된다. 예시적인 실시형태에서 계속하면, 각각의 설명 가능 서브시스템은 크로스오버 학습 구조(45300)에 대한 링크를 가지는데, 이것은, 결과적으로, 다양한 크로스오버 서브시스템(45350)으로 구성된다. 모든 서브시스템이 반드시 다른 모든 다른 서브시스템에 연결될 필요는 없으며, 크로스오버 학습 구조는 (조밀하고 완전히 연결된 네트워크가 여전히 가능할 수도 있지만) 희소 연결 네트워크로서 구현되도록 설계된다. 설명 가능 출력(45400)은 병렬로 생성되며, 그것이 출력 선택기(45500)에 도달할 때까지 어쩌면 순위가 매겨지고 우선 순위화되는데, 출력 선택기(45500)는 시스템에 의해 출력될 시스템 출력(45600)을 최종적으로 선택하기 위해 스위치 컨트롤러(45100)로부터의 제어 정보(45110)와 함께 중간의 설명 가능 출력(45400)을 취한다.
도 21은, 두 개의 서브시스템, 이 경우에서는, 서브시스템 1 노드 1(1.1) 및 서브시스템 2 노드 1(2.1) 각각으로부터 취해지는 대표적인 노드(45210)에 의해 도 21에서 표현되는 두 개의 설명 가능 서브시스템을 링크하는 예시적인 크로스오버 구조 구현예의 상세한 컴포넌트(즉, 도 20에서 도시되는 크로스오버 서브시스템(45350)의 상세한 부분)를 예시한다. 옵션 (a.)에서, 단방향 링크 또는 방향성 그래프 구조는, 서브시스템 1 노드 1을 서브시스템 2 노드 1과 링크하는 크로스오버 노드(45353), 및 서브시스템 2 노드 1을 서브시스템 1 노드 1과 링크하는 다른 크로스오버 노드(45354)를 갖는 것에 의해 두 개의 노드를 링크하기 위해 활용된다. 각각의 크로스오버 연결 노드, 즉 서브시스템 1 노드 1과 크로스오버 노드 45353 사이 내의 노이즈 노드(45351), 및 유사하게, 서브시스템 2 노드 1과 크로스오버 노드(45354) 사이 내의 노이즈 노드(45351) 사이에 옵션 사항의 크로스오버 노이즈 노드가 인라인으로 삽입될 수도 있다. 다른 옵션으로서, 크로스오버 노드 그들 자체는, 예시적인 링크(45356 및 45357)에 의해 묘사되는 바와 같이, 서로에게 정보를 송신할 수도 있다. 옵션 (b.)에서, 양방향 링크 또는 무방향성 그래프 구조가 두 개의 노드를 링크하기 위해 활용되는데, 이 경우 각각의 크로스오버 노드는 컴포넌트(45355)에 의해 예시되는 바와 같이, 양방향 크로스오버 노드가 된다. 옵션 (a.)에서와 유사한 방식으로 옵션 (b.)에서 노이즈 노드 및 크로스오버 노드간 연결이 또한 추가될 수도 있다.
도 20 및 도 21에서 도시되는 크로스오버 학습의 예시적인 실시형태는 XTT가 멀티태스크 및 다중 모드 학습을 위한 실용적인 솔루션을 제공하는 것을 가능하게 할 수도 있다. 성능을 최적화하기 위해, 트레이닝 동안 태스크 순서를 최적화하는 것, 상이한 모달리티에 대한 상이한 트레이닝 스케줄 및 최적화, 및 다수의 태스크 및 모달리티에 걸쳐 XTT 인코더를 공유하여 파라미터 공간을 최적화하는 것을 비롯하여, 다양한 분산 기술이 사용될 수 있다.
예시적인 실시형태에서, XTT는 예시적인 CNN 기반의 머신 러닝 모델의 최종 평탄화 레이어 이후 컴포넌트로서 통합될 수도 있다. 도 16에서 도시되는 바와 같이, 평탄화 레이어는 변환기 인코더 기반의 아키텍쳐(Transformer-Encoder based architecture)에 대한 입력으로서 사용될 수도 있다. 예시적인 의료 애플리케이션을 예시하는 도 16을 참조하면, XTT 인코더는 최종 인코더 레이어의 출력을 분류 레이어에 연결하는 것에 의해 미세 튜닝되어 X 선 이미지가 일반적인 특이 사항이 없는 사례를 구성하는지 또는 세균성 폐렴 또는 바이러스성 폐렴의 징후를 나타내는지를 예측할 수도 있다. 추가적인 설명 가능 머신 러닝 모델을 연결하여 설명 가능 출력을 추가로 분석하는 것에 의해 추가적인 개선 및 설명이 달성될 수도 있다는 것이 추가로 고려된다. 또 다른 예시적인 실시형태에서, XTT 또는 XNN은, 바이러스성 폐렴이 인플루엔자 바이러스와 같은 어떤 특정한 타입의 바이러스 질병에 의해 야기되었는지, 또는 COVID-19와 같은 코로나바이러스, 아데노바이러스, 및 등등에 의해 야기되었는지를 결정하기 위해, 도 16에서 도시되는 시스템의 X 선 예측 출력에 연결될 수도 있다. 결과적으로 나타나는 설명 및 해석 파이프라인에서 위험 평가 및 추천된 액션을 갖는 실행 가능한 설명이 추가로 생성될 수도 있다는 것이 추가로 고려된다.
XTT 아키텍쳐 내의 설명 가능 아키텍쳐는 분류 출력에 대한 설명을 생성할 수도 있다. 설명은 기본 해석, 설명 해석, 메타 설명 해석을 사용하여 해석될 수도 있다. 기본 해석은 하위 컴포넌트에 의해 이해될 수 있는 예측 출력(o)을 지칭할 수도 있다. 설명 해석은 2 튜플 벡터 <o, w>에 의해 표현되고, 그것은 하위 컴포넌트에 의해 이해될 수 있는 그러한 예측된 값에 대한 모델 설명(w)과 결합되는 예측 출력(o)을 지칭한다. 모델 설명은, 주어진 관찰에 대한 입력 피쳐의 피쳐 중요도를 설명하기 위해 활용될 수도 있는, 설명 가능 아키텍쳐(x)의 계수(θ)로 구성될 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 메타 설명 해석은 3 튜플 벡터 <o, w, j>에 의해 표현될 수도 있고, 예측 출력(o), 모델 설명(w) 및 모델 설명의 정당성(j)을 포함할 수도 있다. 모델 정당성(j)은, 모델 설명을 생성하기 위해 고려되었던 설명 시스템에 의해 취해지는 가정, 프로세스 및 결정에 대한 추가적인 정보를 제공한다.
블랙박스 CNN의 완전히 연결된 레이어는, 도 16에서 도시되는 바와 같이, XTT(3212)로 대체되어, 화이트박스 CNN-XTT를 구성할 수도 있다. 3202와 3210 사이의 단계는 블랙박스 CNN 아키텍쳐 및 CNN-XTT 아키텍쳐에 대해 동일하게 유지될 수도 있다. 먼저, CNN 레이어는 입력(3202)을 수신할 수도 있다. 그 다음, 입력(3202)은 컨볼루션되는데(3206), 여기서는 입력의 상이한 엘리먼트가 추출되고 분류된다. 다음으로, 컨볼루션된 레이어는 유사한 피쳐에 기초하여 풀링되거나(pooled) 또는 그룹화된다. 풀링된 피쳐는 다시 컨볼루션되고 풀링될 수 있다. 이 예시적인 실시형태에서, CNN 레이어는 컨볼루션 연산(3206)을 두 번 수행하고 풀링 연산(3208)을 두 번 수행하지만, 그러나, 애플리케이션에 따라, 이들 레이어의 추가적인 반복이 구현될 수도 있다는 것이 고려될 수도 있다. CNN 레이어가 컨볼루션되고 컨볼루션된 피쳐를 풀링한 이후, 피쳐는 다음 번 시스템으로의 입력을 위해 평탄화될 수도 있다(3210). 도 16은, 순방향 트레이닝 패스(3200) 동안의, 출력(3214)을 생성하고 설명을 추가적으로 생성할 수도 있는 XTT 아키텍쳐를 구현하는 CNN-XTT 아키텍쳐를 예시한다. 그러한 단계의 실제 구성은 특정한 CNN 네트워크의 구성에 의존할 수도 있다. 테이블 형식의 데이터세트와 유사한 CNN은, 데이터에서의 패턴을 학습하기 위해, 완전히 연결된 레이어를 사용한다. 다른 CNN 레이어는 분류 태스크 이전에 발생하는 단순한 피쳐 변환 단계이다. 유사한 개념이 CNN-XTT에서도 적용되는데, 그에 의해, 그러한 CNN 변환은 일반 XTT보다 앞서 적용될 수도 있다.
풀링 레이어는 CNN 네트워크에서 발견되는 표준 레이어이다. 그들은 통상적으로 컨볼루션 레이어 뒤에 배치되는데, 애 경우, 컨볼루션 레이어는 이미지에서의 피쳐의 요약 또는 어떤 형태의 다차원 데이터를 제공한다. 컨볼루션 레이어에서의 주요 이슈는, 그들이 입력 피쳐의 위치에 민감하다는 것이다. 이것은, 입력 데이터에서의 작은 변화가 상이한 피쳐 맵을 초래할 것이다는 것을 의미한다. 한 가지 접근법은 데이터를 다운샘플링하는 것인데, 이 경우, 낮은 해상도의 동일한 데이터가 추가적인 프로세싱을 위해 사용된다. CNN 네트워크에서 다운샘플링하기 위한 한 가지 방법은 풀링으로 칭해진다. 풀링은 연산자를 사용하여 피쳐 맵의 사이즈를 감소시킨다. 두 가지 일반적인 풀링 방법은 최대 풀링(Max Pooling) 및 평균 풀링(Average Pooling)이다. 예를 들면, 최대 풀링은 피쳐 맵으로부터 최대 값 또는 가장 큰 값을 계산하기 위해 사용될 수도 있다.
CNN-XTT는 또한, 이전에 논의된 자기 감독 모델을 비롯하여, 그들의 학습 모델을 더 잘 일반화하기 위해 마스킹된 학습 방법(masked learning method)을 최대한 사용할 수도 있다.
역 인덱싱 메커니즘(reverse indexing mechanism)(백맵)은, CNN-XTT의 화이트박스 본질에 기인하여 가능한 CNN-XTT 아키텍쳐에 고유한 어떤 것이다. 모든 레이어가 해석 가능한 경우(CNN 레이어 포함함), 출력을 원래의 입력까지 내내 역추적하기 위해 백맵을 사용하여 역 인덱싱을 적용하는 것이 가능하다.
이제 예시적인 도 17을 참조하면, 도 17은 예시적인 역 인덱싱 메커니즘을 예시할 수도 있다. 예시적인 역 인덱싱 메커니즘(3201)은 CNN-XTT에서 설명을 생성하기 위해 사용될 수도 있다. 도 17에서 예시되는 역 인덱싱 프로세스는 도 16에서 예시되는 순방향 패스 인덱싱 프로세스에서의 단계와 동일한 또는 유사한 단계를 구현할 수도 있다. 그러나, 그러한 경우, 동작은 대신 역방향으로 수행되어, 출력에서 시작하여 입력의 피쳐를 가지고 종료될 수도 있다. 게다가, 풀링 기능은 데이터를 다운샘플링하는 순방향 패스에서의 풀링과는 대조적으로, 데이터를 업샘플링할 수도 있다. 마찬가지로, 컨볼루션 레이어는 디컨볼루션(deconvolution) 동작으로서 작동한다.
예측 네트워크로부터의 출력은 CNN-XTT에서 설명을 생성하기 위한 기초로서 기능할 수도 있다. 예측 네트워크는 각각의 피쳐가 계수에 의해 가중되는 수학식을 사용하는 것에 의해 입력 피쳐를 가중할 수도 있다. 각각의 계수는 최종 컨볼루션된 피쳐의 중요도를 나타낸다. 의미 있는 설명을 생성하기 위해, 컨볼루션된 피쳐는 그들의 중요도와 함께 원래의 입력으로 다시 매핑될 수도 있다. CNN-XTT의 중간 레이어가 XNN의 완전히 연결된 조밀한 레이어(블랙박스)가 아니라 오히려 대신 희소하게 연결된(화이트박스) 레이어이기 때문에, 컨볼루션된 피쳐의 출력을 원래의 입력에 다시 매핑하는 역 인덱싱 메커니즘(백맵)을 적용하는 것이 가능하다. CNN-XTT는 역 인덱싱 메커니즘의 그들의 구현에서 고유한데, 이것은, 설명과 답변의 빠른 관련성 및 프로세싱 동안 CNN-XTT가 후속되는 정확한 활성화 경로와 함께, 설명의 빠른 출력을 허용한다.
백맵의 생성은 CNN-XTT의 아키텍쳐가 결정될 때 한 번 실행되는 정적 프로세스로서 일반적으로 구현될 수 있다. CNN-XTT 아키텍쳐 그 자체(즉, 연결, 레이어, 등등)가 업데이트되는 경우, 백맵은 그러한 아키텍쳐 업데이트마다 업데이트될 필요가 있을 것이다. 가능한 실시형태는 CNN-XTT 아키텍쳐가 동적으로 업데이트되는 경우 백맵의 동적 생성 및 업데이트를 수반할 수도 있다. 백맵 생성의 아키텍쳐 업데이트마다 한 번의 본질은 백맵 그 자체에 기초한 추가적인 최적화를 위한 효율적인 구현 및 공간을 허용한다. 예를 들면, 백맵은 입력 다차원 데이터에서 발생하는 세그먼트 및 관심 영역을 효율적으로 식별하기 위해, 심볼 및 개념을 효율적으로 식별하기 위해, 그리고 또한 입력 다차원 데이터의 요약 및 더 낮은 해상도 서브샘플을 생성하는 프로세스를 최적화하기 위해 사용될 수도 있다.
백맵은 외부 프로세스로서 또는 역함수를 수행하는 신경망으로서 프로세싱될 수도 있다. 신경망은 CNN-XTT 내에 임베딩될 수도 있거나 또는 역 인덱싱 메커니즘을 수행하도록 특별히 설계되는 별개의 네트워크로서 유지될 수도 있다. 프로세스는, XTT 네트워크의 계수에 의해 결정되는 바와 같은 피쳐 중요도를 식별하는 것으로 시작하여, 단계적으로 역방향으로 거꾸로 이동할 수도 있다. 출력 가중치는 원래의 입력으로 다시 매핑될 수도 있다. 그러한 단계는, 원래의 CNN-XTT 네트워크에서 발견되는 레이어 타입에 따라, 순차적으로 적용될 수도 있다. 매핑은 그것이 원래의 입력에 도달할 때까지 적용될 수도 있는데, 이것은 개념적 피쳐 중요도가 원래의 입력으로 다시 매핑되는 것을 가능하게 할 것이다.
CNN-XTT는 백맵을 사용하여 특정한 질의에 대한 CNN-XTT에서의 활성화 경로를 시각화하기 위해 그리고 또한 그것을 정당성의 일부로서 통합하기 위해 사용될 수도 있다. 백맵은 또한, 융합된 이미지, 질의 텍스트 및 답변 쌍의 다중 모드 표현에 설명의 엘리먼트를 추가하는 것에 의해 시각적 질문 답변을 향상시키기 위해 사용될 수도 있다(Malinowski 등등, 2016).
역 인덱싱 메커니즘은 설명을, 히트맵(heatmap)의 형태로 또는 설명을 생성할 때 실제 컨볼루션된 필터를 고려하는 어떤 형태로, 생성하는 데 유용할 수도 있다. 컨볼루션된 피쳐는 스트로크, 가장자리 또는 패턴을 검출하는 데 유용할 수도 있는데, 이들은, 그 다음, 시각적, 텍스트, 오디오, 등등일 수 있는 설명 생성 프로세스를 촉진할 수도 있다.
CNN-XTT 아키텍쳐는 커널 라벨링 방법(kernel labelling method)을 통합할 수도 있는데, 여기서 그러한 방법은 인간이 판독 가능한 라벨을, 본질적으로 텍스트가 아닌 이미지 또는 3D 스캔과 같은 데이터 포맷과 관련시킨다. 커널 라벨링 방법은, 데이터를, 패턴 인식 커널이, 적절한 키 포인트 설명 기능 및 활성화 최대화 기능과 함께, 정의되는 것을 허용하는 임의의 데이터 포맷으로부터의 프리미티브, 패턴, 심볼, 및 개념의 점진적 개선으로 라벨링한다. 커널 프리미티브는 분석되고 있는 각각의 필터에서 검색되고 있는 소정의 형상의 매트릭스로서 정의될 수도 있다. 커널 라벨링 방법은 인간 정의 커널 프리미티브(human defined kernel primitive)를 사용하여 제1 컨볼루션 레이어를 초기에 분석할 수도 있고 CNN 아키텍쳐에서 컨볼루션 및 풀링 레이어를 통해 슬라이드로 진행할 수도 있다. 상이한 커널 타입, 예컨대 선형, 비선형 다항식, 지수, 방사 기저 함수, 시그모이드 및 다른 적절한 커널은 XTT와 연계하여 활용될 수도 있다는 것이 추가로 고려된다. 예를 들면, 구적 방법(quadrature method)(
Figure pct00018
), 특이 값 분해(singular-value decomposition; SVD), 랜덤 푸리에 피쳐, 랜덤 비닝 피쳐(random binning feature) 및 다른 적절한 방법을 통해, 필요로 되는 계산 및/또는 리소스의 양을 감소시키기 위해 적절한 커널이 XTT와 연계하여 활용될 수도 있다는 것이 추가로 고려된다. CNN의 시간적으로 최적화된 변형예, 예컨대 시간 컨볼루션 네트워크(Temporal Convolutional Network; TCN)가 XTT와 연계하여 사용될 수도 있다는 것이 추가로 고려된다.
XTT는, 예측 및/또는 트레이닝 성능을 증가시키기 위해, 내적의 근사 또는 완전한 제거, 희소 로컬 어텐션 모델(sparse local attention model)의 사용, 적응형 어텐션 윈도우, 다차원 어텐션 매트릭스 근사의 사용(근사를 위해 잠재적으로 설명 가능 모델을 사용함), 지능형 가중치 공유 및 지능형 파라미터화를 포함하는, 그러나 이들로 제한되지는 않는 다양한 근사 기술을 또한 활용할 수도 있다.
XTT는, 인간이 판독 가능한 자연어, 그래픽 또는 시각적 이미지 데이터, 오디오, 음성, 햅틱, 비디오, 시계열, 다중 스펙트럼 데이터, 계층적으로 정렬된 멀티미디어 콘텐츠, 3D 데이터, 및 다른 적절한 포맷을 포함하는 그러나 이들로 제한되지는 않는, 어떤 형태의 토큰 기반의 인코딩에 적절한 다양한 포맷으로 입력 데이터가 있을 수도 있는 다양한 애플리케이션을 가질 수도 있다. 다양한 포맷의 조합이 다중화 또는 다른 형태의 입력 조합과 같은 어떤 적절한 구현 방법을 사용하여 XTT 시스템에 의해 또한 제시되고 프로세싱될 수도 있다는 것이 고려될 수도 있다.
XTT 출력은, 인간이 판독 가능한 자연어, 그래픽 또는 시각적 이미지 데이터, 오디오, 음성, 햅틱, 비디오, 시계열, 다중 스펙트럼 데이터, 계층적으로 정렬된 멀티미디어 콘텐츠, 3D 데이터, 및 다른 적절한 포맷을 포함하는 그러나 이들로 제한되지는 않는 다양한 표현 포맷 및 레이아웃을 사용하여 생성된 설명 및 해석을 제시할 수도 있다는 것이 고려될 수도 있다. 다양한 포맷의 조합은 멀티플렉싱 또는 다른 형태의 출력 조합과 같은 어떤 적절한 구현 방법을 사용하여 XTT 시스템에 의해 그것의 출력에서 또한 사용될 수도 있다.
예시적인 실시형태에서, XTT 시스템은 시퀀스 데이터를 프로세싱하기 위해 사용될 수도 있다. 시퀀스 데이터는 다음의 것을 포함하는, 그러나 이들로 제한되지는 않는, 다양한 순차적 포맷으로 피쳐 데이터를 포함하는 다수의 데이터 포인트를 포함할 수도 있다: 2D 데이터, 3D 데이터, 다차원 데이터 어레이, 트랜잭션 데이터, 시계열, 디지털화된 샘플, 센서 데이터, 이미지 데이터, 초분광 데이터(hyper-spectral data), 자연어 텍스트, 비디오 데이터, 오디오 데이터, 햅틱 데이터, LIDAR(라이다) 데이터, RADAR(레이더) 데이터, SONAR(소나) 데이터, 및 등등. 데이터 포인트는, 특정한 데이터 포인트 또는 연속적인 또는 비연속적인 간격의 데이터 포인트에 대한 출력 값 또는 분류를 나타낼 수도 있는 하나 이상의 관련 라벨을 가질 수도 있다. 데이터 포인트 시퀀스는, 합성 데이터 포인트, 교란된 데이터, 샘플링된 데이터, 또는 변환된 데이터의 조합을 출력할 수도 있는 내부 및/또는 외부 프로세스로부터 유래할 수도 있다.
XTT는 임의의 길이의 데이터 포인트 입력 시퀀스가, 다중 모드 및 멀티태스크 방식으로, 임의의 길이의 임의 데이터 포인트 출력 시퀀스에 매핑되는 것을 또한 허용할 수도 있다. 이것은, 맵 감소(Map-Reduce) 시스템과 유사한 방식으로 발생하는, 매핑 계산을 위해 (설명 가능하지 않은 잠재적 공간을 사용하는 설명 불가능 변환기(non-explainable Transformer)와는 달리) 설명 가능 모델을 활용하는 것에 의해 XTT에 의해 달성된다. XTT 크로스오버 학습 구조는 도메인 및 애플리케이션 독립적인 멀티태스크 일반화를 허용한다.
예시적인 실시형태에서, XTT 시스템은 보행 분석, 움직임 예측 및 감정 상태 예측을 비롯하여, 인간 거동을 분석하기 위해 사용될 수도 있다. 옵션으로서, 그러한 XTT 시스템은 스포츠 영상 및 운동 성과를 예측 및 분석하기 위해 사용될 수도 있다. 다른 옵션으로서, 그러한 XTT 시스템은 특히 추가적인 센서 데이터, 예컨대 ECG 심박수 데이터, 혈압, 산소화 레벨, 및 등등과 결합될 때, 의료 상태를 검출하고 예측하기 위해 사용될 수도 있다.
예시적인 실시형태에서, XTT 시스템은 금융 주식 거래 패턴을 분석할 수도 있고 시장 거동을 예측하기 위해 인과 모델 및 다중 모드 데이터의 조합을 활용할 수도 있으며, 후속하여 특정한 주식에 대한 매수, 매도, 또는 롱 포지션 또는 숏 포지션을 취하는 것과 같은 자동화된 액션을 실행할 수도 있다.
예시적인 실시형태에서, 거동 모델(Behavioral Model; BM)을 통합하는 인더스트리 4.0 애플리케이션, 예컨대, 지능형 제조, IoT 대응 애플리케이션, 지능형의 에너지 효율적이고 환경 친화적인 스마트 유틸리티 유통 및 소비 네트워크, 및 관련된 애플리케이션에 대한 XTT 시스템. 그러한 예시적인 실시형태에 의해 네 개의 주요한 상이한 타입의 기능이 제공될 수 있다: (i.) 수동적 예측 및 분석; (ii.) 반응 예측 및 분석; (iii.) 수동적 제어 및 중재; (iv.) 반응 제어 및 중재. 제조 애플리케이션에서 예시적인 애플리케이션은 다음의 것을 위한 것일 것이다: (i.) 기계류(machinery)로부터 나오는 오디오의 분석, 동작 상태의 분석, 및 사전에 고장 모드의 예측; (ii.) 엔드 유저에게 경고를 출력할 수도 있는 경계 근접 조건의 활용; (iii.) 피드백 기반의 액션 및 중재를 트리거하기 위한 피드백 임계치의 활용; (iv.) 안전 고려 사항을 비롯하여, 프로세스를 실시간으로 제어하기 위한 이벤트의 능동적 추정 및 예측의 활용.
예시적인 실시형태에서, 소스 언어로부터 타겟 언어로 문장을 번역하기 위해 XTT 모델이 사용된다. 설명 가능 인코더 컴포넌트의 입력은 소스 언어 문장(Se)이고, 그 결과 Se = {t1, t2, ..., tn}이다. 인코더 컴포넌트는 입력 시퀀스를 프로세싱하여 디코더 컴포넌트에 대한 메모리 키 및 값을 생성한다. 메모리 키 및 값은 인코더-디코더 어텐션 컴포넌트의 각각의 설명 가능 디코더 레이어로 전달된다. 그 다음, 설명 가능 디코더 컴포넌트는 선형 레이어 및 softmax 함수, 또는 유사한 메커니즘을 사용하여 Se의 번역된 토큰을 예측한다. softmax 레이어의 예측된 출력은 추가적인 예측을 위해 디코더 컴포넌트에 대한 입력으로서 사용된다. 또 다른 예시적인 실시형태에서, 설명 가능 디코더 컴포넌트의 출력을 예측하기 위해 선형 레이어 대신 설명 가능 아키텍쳐(x)가 사용되는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
예시적인 실시형태에서, 소스 언어로부터 다른 타겟 언어로 문서를 번역하기 위해 n 레이어 XTT가 사용된다. 입력 임베딩은 포지션 임베딩과 결합되고 설명 가능 변환기(XTT)에 대한 입력으로서 사용된다. 인코딩 레이어에서의 설명 가능 아키텍쳐는 블랙박스 피드포워드 신경망 컴포넌트가, 글로벌 설명 및 로컬 설명을 생성하면서, 블랙박스 피드포워드 신경망(230)의 출력을 예측하게 유도한다. 설명은 디코더의 인코더-디코더 멀티 헤드 어텐션 컴포넌트에 대해 사용될 해석을 생성하기 위해 설명 프레임워크로부터의 필터를 사용하여 필터링될 수도 있다. XTT 인코더-디코더는 상이한 상황에 대한 적응성을 개선하기 위해 동적 어텐션 범위를 또한 활용할 수도 있는데, 스팬 윈도우 길이(span window length)는 출력 설명 및/또는 정당성에 포함되는 파라미터이다. 디코더의 설명 아키텍쳐는 도 6에서 도시되는 바와 같이 피드포워드 신경망 컴포넌트(270)를 유도하여, 번역에 대한 타겟 언어 어휘의 선형 레이어의 예측에 대한 설명 가능성을 생성한다. XTT 설명 및/또는 XTT 출력은 적절한 설명 프레임워크 또는 EIGS 시스템으로부터의 필터를 사용하여 필터링되어, 결과적으로 적절한 인터프리터에게 제시되는 해석을 생성할 수도 있다. 그러한 실용적인 애플리케이션 파이프라인의 통상적인 실시형태가 도 14에 제시되어 있는데, XTT는 통상적인 설명 및 해석 파이프라인에서 컴포넌트(904, 908, 912, 및 옵션 사항으로 911)의 실용적인 실시형태로서 사용될 수 있다. (i) 인간이 판독 가능한 설명의 생성; (ii) 대화 및 상호 작용식 출력; (iii) 질문-답변; (iv) 설명 및/또는 해석의 분류; (v) 자주 묻는 질문(frequently asked question; FAQ) 타입의 출력; (vi) 이전에 공지된 컨텍스트에 관련되는 답변 및/또는 출력의 수반; 및 (vii) 다수의 순위 매김된 선택지로부터 출력의 선택을 포함하는 그러나 이들로 제한되지는 않는, 설명 및/또는 해석의 출력의 프레젠테이션 지향 변환 및 향상을 수행하기 위해 XTT가 활용될 수도 있다는 것이 추가로 고려된다. XTT는, 병렬화 및 전체 스루풋의 관점 및 또한 설명 가능성의 관점 둘 모두에서, ELMo와 같은 비 변환기 아키텍쳐(non-Transformer architecture)에 비해 상당한 이점을 제공한다는 것을 추가로 유의한다.
예시적인 실시형태에서, 전자 메일의 텍스트 콘텐츠가 스팸인지 또는 스팸이 아닌지를 검출하기 위해 n 레이어 XTT가 사용된다. 변환기 인코더 아키텍쳐는, 도 10의 (a)에서 도시되는 바와 같이, 전자 메일이 스팸인지 또는 스팸이 아닌지를 예측하기 위해, 최종 인코더 레이어에 연결되는 다운스트림 분류기(1008)로 구성된다. 분류기는 특정한 도메인 다운스트림 태스크에 대한 설명을 생성하기 위해 설명 가능 아키텍쳐(x)일 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 또 다른 예시적인 실시형태에서, 도 10의 (b)에서 도시되는 바와 같이, 텍스트 분류 태스크를 위해 변환기 디코더 아키텍쳐가 사용된다. 다운스트림 태스크 분류기(1009)는, 도메인 다운스트림 태스크에 대한 설명을 생성하기 위해 설명 가능 아키텍쳐(x)일 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 설명 가능 아키텍쳐는 피드포워드 신경망 컴포넌트(1900)로부터 유도된다. 생성된 글로벌 설명 및 로컬 설명은, 피드포워드 신경망과 같은 머신 러닝 분류기를 사용하여, 다운스트림 스팸 검출 태스크를 위해 XTT의 출력과 연계하여 사용되어, 입력 텍스트 토큰이 스팸인지 또는 스팸이 아닌지를 분류한다. 다운스트림 태스크 분류기는, 특정한 도메인 다운스트림 태스크에 대한 설명을 생성하기 위해, 설명 가능 아키텍쳐(x)를 사용하여 또한 유도될 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
유한 상태 트랜스듀서(FST)는 문서 프로세싱에 성공적으로 적용된 초기 모델 중 하나였으며, XTT는 그들 초기 FST의 직접적인 진화 및 일반화이다. FST, 및 확장 기능에 의해, XTT는, 형태소 분석, 및 유한 상태 파싱과 같은 인간 언어 기술(Human Language Technology; HLT) 애플리케이션에서 고도로 성공적이었다. 자연어를 프로세싱하기 위한 FST에 대한 초기 동기 부여는, 자연어에 대한 문법을 작성하는 것이 실용적이기에는 너무 어렵고 노동이 많이 들었다는 깨달음이었다. FST의 주요 매력 중 하나는, 그들의 비 결정성 유한 오토마톤(Non-Deterministic Finite Automaton; NDFA) 기원의 그들의 표현력이 복잡한 입력-출력 변환을 핸들링하는 것을 허용하면서, 규칙으로 변환되고 FST 형태로 다시 컴파일되는 그들의 능력이다. 설명 가능 모델을 사용하여 구현되는 XTT 어텐션 모델은 그러한 규칙 추출이 연속적인 레벨의 상세한 근사화를 통해 행해지는 것을 허용한다. XTT의 전체 어텐션 모델을 유도된 규칙으로 완전히 변환하는 것도 또한 가능할 수도 있지만, 그러나 어떤 형식의 압축, 일반화, 또는 근사화 없이는, 추출될 너무 많은 수의 규칙에 기인하여, 실용적인 시스템으로 귀결될 가능성이 없을 것이다. XTT의 이점은, 규칙의 그러한 초기 세트를 더욱 관리하기 쉬운 포맷으로 일반화하고 압축하기 위해, 타입이 지정된 마스킹 및 문법 트리 분석과 같은 심볼 방법(symbolic method) 및 정보 이론 기반의 압축 및 분석 방법이 사용될 수 있다는 것이다. XTT 내의 설명 가능 모델은 XTT 어텐션 모델을, 그들의 피쳐 상호 작용 레이어를 분석하는 것에 의해, 심볼 규칙 기반의 포맷(symbolic rule-based format)으로 변환하기 위해 사용될 수 있는데, 심볼 규칙 기반의 포맷은 (심지어 반복 또는 피드백의 엘리먼트 또는 과거의 학습된 표현 참고 자료가 있는 경우에도) 후속하여 반복 관계로 변환될 수 있고 그 다음 마지막으로 인간과 머신이 판독 가능한 규칙 포맷으로 계속 변환될 수 있다.
다른 예시적인 실시형태에서, XTT는 법적 문서를 프로세싱하기 위해 그리고 수반되는 상이한 당사자 및 엔티티에 적용 가능하며 전술한 법적 문서에 대한 참고 자료(reference)가 되는 텍스트 섹션 및 참고 자료를 정확하게 결정하기 위해 사용된다. 그 다음, XTT 어텐션 모델에 의해 추출되는 엔티티 관계, 속성 및 제약은, XTT에 의해 프로세싱되는 텍스트 언어 정보 그 자체와 함께, 예를 들면, 다음의 것의 조합을 포함하는 다양한 법적 문제에 대한, XAI 모델 및/또는 XNN 및/또는 다른 XTT에 저장되는 사전 결정된 규칙의 세트에 대해 문서를 이중 체크하기 위해, 활용된다: 위험 신호(red flag), 책임 문제, 조항의 누락, 상대방 또는 엔티티에 의한 과도하게 공격적인 주장, 우선 순위 문제, 선례, 판례 참고 자료(case law reference), 조항의 위험 분류, 조항의 영향 분류 및 특정한 조항의 수용 가능성에 대한 결정. XTT는 법률 문서의 품질을 개선하기 위해 포함 및 삭제 및/또는 완화 전략을 포함하여 가능한 편집의 순위를 매기기 위해 활용될 수도 있다는 것이 추가로 고려된다. XTT는 옵션 사항으로, XTT가 어떤 당사자의 편을 들어야 하는지에 따라, 적절한 컨텍스트를 고려하여, 그러한 당사자 이익이 상이한 유저 명시 레벨의 포괄성 및 공격성에 따라 표현되는 것을 보장할 수도 있다는 것이 추가로 고려된다.
도 22는, 설명 구조 모델(ESM) 표기법을 사용하여, 법적 문서 프로세싱을 위해 사용되는 예시적인 XTT 시스템 구현예를 예시한다. 예에서, XTT 어텐션 모델(46100)은 책임 조항 식별 컴포넌트(46150)를 사용하여 법률 문서 집성본(46110)으로부터 잠재적인 책임 관련 조항(46190)을 식별하기 위해 사용된다. XTT는 또한 외부 제공자(이 예에서는 "Lex")를 통해 획득되는 관련 관할 구역에 대한 법률 시스템을 나타내는 구조화된 규칙 시스템(46210) 및 과거의 판례 정보(46200)에 액세스할 수도 있다. 과거의 정보(46200), 법률 시스템 규칙(46210) 및 책임 관련 조항(46190)은 심각도 평가 컴포넌트(46250)를 사용하여 각각의 조항(46290)의 심각도 및 결과를 평가하기 위해 사용된다. XTT는 또한, 계약 당사자가 어느 쪽 편을 들지에 따라 상이한 책임 최소화 전략(46400)을 추천하는 책임 전략 추천기 컴포넌트(46350)를 사용하여 심각도가 평가된 책임 조항(severity assessed liability clause; 46290)을 프로세싱하기 위해, 유저 제공 시나리오 정보(46300)를, 병렬로 추출된 계약 당사자 정보(46310)와 함께, 사용한다. 마지막으로, XTT는 법적 문서(46110)에 대한 정확한 편집(46450)을 추천하기 위해 설명 가능 모델로부터의 순위 매김 컴포넌트를 사용하는데, 그 편집은, 그 다음, 자동적으로 선택될 수 있거나 또는 인간 참가형 타입의 승인(human-in-the-loop type of approval)을 사용하여 선택될 수 있다.
예시적인 실시형태에서, 문서를 프로세싱하는 XTT 시스템은, 문서의 텍스트, 이미지, 및 다른 다중 모드 콘텐츠를 올바르게 분할, 프로세싱 및 링크하기 위해, 다중 모드 문서 레이아웃 및 문서 이해 기술을 활용할 수도 있다.
XTT는 그들이 모델링하고 있는 동적 시스템 내에서 상태 변화를 추적하기 위해 그리고 그러한 시스템 내에서 식별되는 동적 프로세스를 설명하는 설명을 생성하기 위해 또한 사용될 수도 있다.
예시적인 실시형태에서, XTT 시스템은 자신의 설명 가능 모델 컴포넌트에서 빠른 가중치(Fast Weight)를 활용할 수도 있다. 그러한 XTT 시스템은 빠른 XTT(Fast XTT) 또는 F-XTT로서 표기될 수도 있다. 빠른 가중치는 결과적으로 나타나는 XTT 시스템의 런타임 성능에 우수한 향상을 제공할 수도 있고, 동시에 그것이 변화하고 있는 입력 데이터세트 분포 및 원래의 트레이닝 데이터세트의 일부가 아니었던 이전에 예측되지 않은 새로운 트레이닝 데이터 샘플에 빠르게 적응하는 것을 가능하게 할 수도 있다. F-XTT는 또한 시퀀스 입력 데이터 및 다른 유사한 다차원 입력 데이터를 핸들링하는 데 더욱 효율적일 수도 있다. 기술 분야에서 이해될 수도 있는 바와 같이, 빠른 가중치는 표준 모델 가중치보다 더 빠르게 변할 수도 있는 가중치 변수를 통해 소정의 이전 이벤트의 임시 저장소를 제공하여, 본질적으로 시스템에 대한 "단기 메모리"를 제공할 수도 있다.
다른 예시적인 실시형태에서, XTT는 대화 프로세싱, 챗봇, 콜 센터 관리 시스템, 사례 관리 시스템, 고객 지원 시스템, 클라이언트 관계 관리(client relationship management; CRM) 시스템, 대화형 시스템(conversational system), 질문 및 답변 시스템 및 유저 및/또는 다른 시스템과의 상호 작용성의 엘리먼트가 필요로 되는 유사한 애플리케이션과 같은 애플리케이션에서 일반적으로 사용되는 상호 작용식 설명 및/또는 해석 프로세스의 흐름을 제어하기 위해 사용된다. XTT 어텐션 모델은, 상호 작용 흐름의 효율적인 관리 및 관련 상호 작용 출력의 생성에 대한 실용적인 솔루션을 제공하기 위해, 자신의 답변 및 설명 생성 성능과 연계하여 사용된다. 전체 XTT 아키텍쳐를 필요로 하지 않으면서 그러한 예시적인 실시형태에서 실용적인 솔루션을 제공하기 위해, 설명 가능 변환기 디코더 타입의 솔루션이 사용될 수도 있다는 것이 추가로 고려된다. 명명된 엔티티 인식(Named Entity Recognition; NER) 및 대용어 해결(anaphora resolution)과 같은 관련 태스크를 위해 XTT 인코더가 사용될 수도 있다. XTT 인코더는, 엔티티의 시작 및 끝을 검출하기 위해, 종단간 딥 러닝 아키텍쳐에서, 문자 및 단어를 인코딩하는 데 사용될 수도 있다. 예시적인 실시형태에서, 다른 XTT 인코더에 대한 입력으로서 사용될 문자 레벨 정보를 인코딩하여 단어 레벨의 컨텍스트에 맞는 임베딩을 생성하기 위해 XTT 인코더가 사용된다. 단어 레벨 XTT 인코더는 사전 트레이닝된 단어 임베딩과 문자 레벨 XTT 인코더로부터 추출된 문자 피쳐의 조합을 프로세싱할 수도 있다. P(y|s)를 최대화하기 위해 조건부 랜덤 필드 레이어(Yan 등등, 2019)가 사용될 수도 있는데, 여기서 s는 시퀀스이고 y는 라벨 시퀀스이다. 문자 레벨 XTT 인코더 및 단어 레벨 XTT 인코더는 NER 태스크의 성능을 최적화하기 위해 상대적 포지션 인코딩 및 스케일링되지 않은 어텐션(Yan 등등, 2019)을 사용할 수도 있다.
XTT 인코더는 다운스트림 태스크에서 두 개의 문장 사이의 관계, 예컨대 질문-답변(Question-Answering)을 식별하기 위해 사용될 수도 있다. XTT 인코더는, 단일의 언어 집성본(monolingual corpus)을 사용하여 두 개의 문장 사이의 관련성을 학습하기 위해, 다음 번 문장 예측(next sentence prediction; NSP)(Devlin 등등, 2018)을 사용하여 사전 트레이닝될 수도 있다. 질문-답변 다운스트림 태스크에 대한 XTT 인코더의 입력 토큰은 {[CLS], q1, q2, ..., qn, [SEP], a1, a2, ..., am}으로서 정의될 수도 있는데, 여기서 [CLS]는 모든 입력 앞에서 사용되는 심볼 토큰이고, [SEP]는 질문과 답변 사이의 구분자 토큰이고, q는 질문의 토큰을 가리키고, 그 결과, q = {q1, q2, ..., qn}이고, a는 답변의 토큰을 가리키고, 그 결과, a = {a1, a2, ..., am}이다. [CLS] 토큰은, 답변이 입력 질문에 대응하는지를 결정하기 위한 분류를 위한 종단간 딥 러닝 네트워크에서 설명 가능 모델에 대한 입력으로서 사용된다.
XTT 디코더는, 외부 프로세스에서 타겟 엔티티에 대해 XTT 디코더를 컨디셔닝하는 것에 의해, 입력 시퀀스에서 엔티티를 검출하기 위해 그리고 엔티티 추적을 수행하기 위해 사용될 수도 있는데, 여기서 입력 시퀀스는 엔티티의 지식이 없다. XTT 디코더는 입력 시퀀스(tj)의 끝에 토큰을 추가할 수도 있고 tj의 컨텍스트에 맞춰진 토큰 표현을 사용하여 그것을 엔티티 표현과 결합할 수도 있고 그것을 설명 가능 모델에 대한 입력으로서 사용하여 클래스 예측 확률을 획득할 수도 있다. XTT 디코더는 입력 시퀀스를 재구성하는 것에 의해 타겟 엔티티를 향해 안내될 수도 있다. 입력 시퀀스는 문장과 타겟 엔티티 사이의 구분자 토큰([SEP])을 사용하여 재구성될 수도 있다. [CLS] 토큰은 입력 시퀀스의 시작에서 또는 입력 시퀀스의 끝에서 추가될 수도 있다. [CLS] 토큰은, 클래스 예측 확률을 획득하기 위해, 설명 가능 모델(x)에 대한 입력으로서 사용될 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다.
XTT는 지식 그래프, RDF 데이터베이스, 키-값 쌍 테이블 또는 XTT 설명 가능 모델 내에서 매끄럽게 병합될 수 있는 심볼 방식으로 사실을 제공하는 다른 적절한 데이터베이스에 링크될 수도 있다는 것이 추가로 고려된다. 그러한 통합은 연역적, 귀납적, 귀추적, 및 인과적 로직의 조합이, XTT의 피드포워드 예측 패스에서 활용되는 것을 또한 허용하여, 상징적으로 구조화된 지식을 연결주의 접근법과 결합한다.
예시적인 실시형태에서, 설명 가능 시스템은 예측 머신 러닝 모델의 결정을 설명하기 위해 설명 가능 챗봇 시스템에서 사용될 수도 있다. 설명 가능 챗봇 시스템은, 설명을 요청하기 위해, 유저가 설명 가능 모델(x)과 상호 작용하는 것을 허용하는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 설명 가능 챗봇 시스템은, 질의 의도를 분류하고 요청된 엔티티를 추출하기 위해, 설명 가능 아키텍쳐(x)로 구성될 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 유저와 설명 가능 챗봇 시스템 사이의 상태 및 컨텍스트를 관리하기 위해, 대화 관리 컴포넌트가 활용될 수도 있다. XTT 모델은 모델 설명을 유저가 판독 가능한 텍스트로 투영하여, 그것을 유저에게 제시하도록 트레이닝될 수도 있다. 설명 가능 채팅 시스템은, 인간 지식 주입(human knowledge injection; HKI) 또는 화이트박스 모델에서의 편견의 식별을 위해, 시스템의 관리자와의 상호 작용을 허용할 수도 있다. 유저를 위해 생성되는 설명은 모델의 기본 해석, 모델의 설명 해석, 및 모델의 메타 설명 해석을 포함할 수도 있다. 설명 해석은 2 튜플 벡터 <o, w>에 의해 표현되고, 그것은 하위 컴포넌트에 의해 이해될 수 있는 그러한 예측된 값에 대한 모델 설명(w)과 결합되는 예측 출력(o)을 지칭한다. 모델 설명은, 주어진 관찰에 대한 입력 피쳐의 피쳐 중요도를 설명하기 위해 활용될 수도 있는, 설명 가능 아키텍쳐(x)의 계수(θ)로 구성될 수도 있는데, 여기서 x ∈ {XAI, XNN, INN, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 메타 설명 해석은 3 튜플 벡터 <o, w, j>에 의해 표현될 수도 있고, 예측 출력(o), 모델 설명(w) 및 모델 설명의 정당성(j)을 포함할 수도 있다. 모델 정당성(j)은, 모델 설명을 생성하기 위해 고려되었던 설명 시스템에 의해 취해지는 가정, 프로세스 및 결정에 대한 추가적인 정보를 제공한다.
그래프 또는 하이퍼그래프 형태의 계층적 파티션 구조를 갖는 설명 가능 모델을 사용하는 XTT는 그래프-XTT(Graph-XTT; GXTT)로 일반화되는데, 여기서 어텐션 모델은 그래프 어텐션(graph-attention)(또는 하이퍼그래프 어텐션(hypergraph-attention))에 기초하고 시퀀스 대 시퀀스 변환의 표준 XTT 모드와는 별개로 그래프 대 시퀀스, 시퀀스 대 그래프, 그래프 대 그래프 변환 모드를 또한 프로세싱할 수 있다. GXTT는 방향성, 무방향성 그래프, 토폴로지 네트워크, 레비 그래프 또는 다른 적절한 표현 포맷을 포함하는 상이한 그래프, 하이퍼그래프 또는 단순체 복합체 표현 포맷을 활용할 수도 있다.
다른 예시적인 실시형태에서, XTT는 피드백 제어 타입의 메커니즘을 필요로 하는 보강 학습 타입의 애플리케이션, 또는 적절한 애플리케이션에서, 예컨대 로봇 시스템 또는 통상적인 제어 공학 애플리케이션에서 사용된다. XTT는 액션 정책으로부터 액션의 선택에 대한 실용적인 솔루션을 제공하기 위해 및/또는 보강 학습 에이전트의 일부로서 적절한 보상 기능을 구현하기 위해 사용될 수도 있다. 액션 정책 및/또는 보상 기능 그 자체의 트레이닝 및 학습에서 XTT가 사용될 수도 있다는 것이 추가로 고려된다. 상기의 XTT를 활용하는 보강 학습 에이전트에 의해 실행될 수도 있는 가능한 액션을 학습하고 발견하기 위해 XTT가 활용될 수도 있다는 것이 추가로 고려된다.
XTT가 XRL과 연계하여 및/또는 XRL 시스템의 일부로서 사용될 수도 있다는 것이 추가로 고려된다. XRL 에이전트는 필요한 컨텍스트를 제공하기 위해 XTT를 사용하여 중재적 또는 반사실적 엘리먼트를 수반하는 설명을 생성하기 위해 사용될 수도 있다.
설명 가능 변환기 아키텍쳐는 XTT 아키텍쳐를 파이프라인의 일부로서 통합하는 종단간 설명 가능 DL 시스템을 통합하기 위해 다른 머신 러닝 시스템을 통합할 수도 있다. 예시적인 실시형태에서, 설명 가능 오토인코더 XAED는 더 낮은 차원 공간에서 단어 임베딩을 압축하기 위해 사용된다. 압축된 차원 공간은, 생성된 설명 및 파티션 정보, 및 포지션 인코딩과 연계하여, 설명 가능 변환기 아키텍쳐에 대한 입력으로서 사용된다.
설명 가능 변환기(XTT) 아키텍쳐는 자율 시스템의 종단간 설명 가능 시스템의 컴포넌트일 수도 있다. 자율 시스템은 거동 모델 계층 구조(Behavioral Model Hierarchy; BMH)를 사용하여 설계될 수도 있다. BMH는 다수의 거동 모델(BMHBM)을 포함할 수도 있는데, 여기서 BMHBM = {BM1, ..., BMn}이다.
예시적인 실시형태에서, 자율 시스템은 XTT에 대한 조건부 제약(BMHc), 또는 설명 가능 변환기 인코더 아키텍쳐를 가질 수도 있는데, 여기서 아키텍쳐는 n 인코더 레이어를 갖는 변환기 인코더 기반의 아키텍쳐이고 최종 인코더 레이어의 출력은 다른 차량과의 충돌의 위험을 예측하기 위해 출력 SoftMax로 공급된다. 조건부 제약(c)은 설명 가능 아키텍쳐(3400)(x)의 내부 계수 상에 배치될 수도 있는데, 여기서 x ∈ {XAI, XNN, XTT, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 조건(c)은 계층적 형태의 다른 조건에 기초할 수도 있다. 만족성 모듈 이론(Satisfiability module theory; SMT) 및 충돌 유도 조항 학습(conflict-driven clause learning; CDCL) 만족성(Satisfiability; SAT) 솔버와 같은 형식 검증 문제 솔버(formal verification problem solver)와 호환되기 위해, 조건은 논리곱 정규형(CNF), 또는 논리합 정규형(DNF)의 형태, 또는 적절한 1차 로직의 형태를 가질 수도 있다.
거동 모델(BM)은 설명 가능 시스템(3470), 이벤트(3420), 트리거(3430), 종단 액션(3440), 피드백 액션(3450) 및 시스템 컴포넌트(3460)를 포함할 수도 있다. 하나 이상의 조건(BMc)의 활성화는 하나 이상의 트리거(BMt)(3430)를 활성화하기 위해 하나 이상의 이벤트(BMe)(3420)를 발생시킬 수도 있다. BMH 내의 다수의 BM 사이에서 트리거가 연결될 수도 있다. 트리거는 설명 가능 변환기(XTT) 아키텍쳐에 피드백 액션(3450)을 제공할 수도 있거나 또는 시스템 컴포넌트(3460)에 피드백을 제공할 수도 있거나, 또는 거동 모델에서 종단 액션(3440)을 활성화할 수도 있다. 자율 시스템의 거동 모델 계층 구조(BMH)는 다수의 머신 러닝 모델(BMHx)을 포함할 수도 있는데, 여기서 BMHx = [x1, ..., xn]이고, XTT는 BMHx의 모델 중 하나이다. 이 경우, 거동 모델 계층 구조(BMH)의 조건은 BMHt에서 특정한 트리거에 대한 조건부 요건으로서 함께 융합될 수도 있다.
설명 가능 변환기(XTT) 아키텍쳐는, 도 18에서 도시되는 바와 같이, 거동 모델 프레임워크 내의 설명 가능 시스템(3470)의 설명 가능 아키텍쳐 컴포넌트(3400)일 수도 있다. 설명 가능 시스템(3470)은 인과 아키텍쳐(3410)과 같은 다른 컴포넌트를 포함할 수도 있다. 거동 모델(BM)은 설명 가능 아키텍쳐(x)로 구성될 수도 있는데, 여기서 x ∈ {XAI, XNN, XTT, XRL, XSN, XMN}이거나 또는 논리적으로 등가의 또는 유사한 아키텍쳐에 속한다. 입력 제약은 거동 모델의 설명 가능 아키텍쳐(BMx)의 형식 검증 동안 포함될 수도 있다. 형식 명세 제약(formal specification constraint)은 설명 가능 아키텍쳐 XTT의 해석 가능 내부 계수에 기초할 수도 있다. 형식 명세 제약은, 형식 검증이 설명 가능 시스템에서 편향을 허용하지 않도록 설계될 수도 있다. 형식 명세 제약은, 형식 검증 방법이 XTT 및 모든 XTT 변형예와 함께 활용되는 것을 가능하게 하기 위해 사용될 수도 있다. 형식 명세 제약은 고급 시뮬레이션 및 거동 분석 방법이 XTT 및 모든 XTT 변형예와 함께 사용되는 것을 가능하게 할 수도 있다는 것이 추가로 고려된다.
예시적인 실시형태에서, XTT 기반의 시스템(또는 XTT 기반의 시스템에 의해 제어되는 또는 모니터링되는 서브시스템)은 정상 동작 상태 및 스테이터스로부터의 이상(anomaly), 변화(variance) 및 편차(deviation)에 대해 자신의 공칭 동작 사이클 동안 모니터링될 수도 있다. 조건, 이벤트, 트리거, 및 액션의 정의 및 구현을 허용하는 거동 모델(BM), 또는 유사한 제어 엔지니어링 솔루션과 XTT를 결합하는 것에 의해 그러한 모니터링 메커니즘이 달성될 수도 있다는 것이 추가로 고려된다. 조건, 이벤트, 트리거 및 액션의 기초가 되는 제약 및 표현을 모니터링하는 것은, 심볼 규칙 또는 심볼 표현의 시스템, 다항식, 조건부 및 비조건부 확률 분포, 결합 확률 분포, 상태 공간 및 위상 공간 변환, 정수/실수/복소수/쿼터니언/옥토니언 변환, 푸리에 변환, 월시 함수, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 및 타입 2 퍼지 로직 및 차이 분석의 형태를 포함하는, 그러나 이들로 제한되지는 않는, 다양한 적절한 예시적인 구현예에서 구현될 수도 있다. 제약 및 표현을 모니터링하는 것은, 설명 가능 모델 및 임의의 관련된 분류법, 온톨로지, 및 인과 모델이 액세스 가능한 상이한 피쳐 및 변수를 참조하는 데이터 구조의 형태로 또한 구현될 수도 있다. 제약 및 표현을 모니터링하는 것은, 지식 그래프 네트워크, 제어 차트, Nelson(넬슨) 규칙, Bode(보드) 플롯, Nyquist(나이퀴스트) 플롯 및 어떤 측정된 거동 변수가 제어를 벗어나 있는지의 여부를 결정하는 관련된 방법 - 즉, 예측 불가능성 대 일관성의 척도 - 의 형태로 또한 구현될 수도 있다.
예시적인 실시형태에서, "보행자가 자율 시스템 근처에 있고; 그러한 보행자가 좌측에서 오고 있는 경우, 우회전을 수행함"과 같은 제약 및/또는 규칙을 사용하여 설명될 수도 있는 근처의 보행자를 검출하기 위한 자율 시스템의 형식 검증을 구현하기 위해 거동 모델(BM) 내에서 XTT 아키텍쳐가 사용될 수도 있다. 자동화된 제약 및/또는 규칙 증강 시스템은 세계 컨텍스트로부터 채택되는 추가적인 배경 규칙에 의해, 예를 들면, "그러한 회전이 시스템 속도, 예측된 보행자 속도 및 우측 장애물 경계에 의해 결정되는 경우"를 추가하는 것에 의해, 검증 명령문을 증강시킬 수도 있다. 그러한 검증 문제는, 자율 시스템과 보행자 사이의 거리(D)(distl < D < distu가 주어짐, distl 및 distu는 그러한 거리의 하한 및 상한임), 및 각도(θ)(angl < θ <angu가 주어짐, angl 및 angu는 예측된 보행자 이동 벡터의 각도의 하한 및 상한임)와 같은 파라미터를 갖는 해결 가능한 연립 방정식으로 변환될 수 있다. 형식 검증 기술은, 그러한 파라미터 제약을 사용하여, 우측 회전 각도에 대한 예측 출력이 경계 내에 있을 필요가 있다는 것(olower < rightturn < oupper)을 검증하기 위해 활용될 수도 있다. 예를 더 발전시키면, 그러한 형식 검증 솔루션은, 이 경우에서는, 자율 시스템 그 자체 상에서 실행되는 실제 관찰된 거동의 관찰에 의한 동적 검증에 기초한 것들과 병렬로 또한 구현될 수도 있다. 예를 계속 진행하면, 자율 시스템은 "자동차 전방에서 달리는 보행자를 피하기 위해 우측으로 강하게 방향을 틀어야 함"과 같은 유저 레벨의 설명을 또한 출력할 수도 있다. "강하게"와 같은 설명에서의 형용사는 어떤 적절한 분류 방법, 값 룩업 테이블, 퍼지 로직 시스템, AI 모델 또는 다른 적절한 텍스트 생성 구현예를 통해 결정될 수 있다. 자율 시스템은 입력 이미지를 입력으로서 취하는 설명 가능 변환기 인코더 기반의 아키텍쳐(XTTe)로 구성될 수도 있다. 입력 이미지는 패치로 분할될 수도 있고 평탄화될 수도 있고 그들의 대응하는 포지션 인코딩과 함께 입력 토큰으로서 사용될 수도 있다. 변환기 인코더 기반의 아키텍쳐(XTTe)는 미세 튜닝을 위해 선형 레이어에 부착되어, 제어 액션을 예측할 수도 있다. 자율 시스템은, 예를 들면, "자동차가 보행자(검출된 오브젝트: 클래스 = 보행자, 신뢰도 = 95 %; 오브젝트 벡터(예측됨): 상대 각도 = 90°, 상대 속도 델타 = 2.22 m/s) 충돌(예측된 충돌 = 91 %; 예측된 부상 위험 = HIGH(높음); 예측된 차량 컴포넌트 = 전방 헤드램프)을 피하기 위해 우측으로(가속 프로파일: 각도 = 20°, 속도 델타 = 2.77 m/s) 강하게 방향을 틀었다"와 같은 진단 레벨에서 더욱 상세한 설명을 또한 출력할 수도 있다. 자율 시스템은 XAI 지식을 인코딩하고 송신하기 위한 머신 판독 가능 방법과 같은 적절한 포맷으로 인코딩되는 진단 레벨 설명을 또한 활용하여, 적절한 대시보드 디스플레이 또는 헤드업 디스플레이 시스템 또는 증강 현실 디스플레이 상에 멀티미디어 출력, 예컨대 애니메이션을 생성할 수도 있다. 그러한 정보는, IEEE 802.11p 호환 프로토콜과 같은 적절한 차량간 통신(inter-vehicle communications; IVC) 프로토콜을 사용하여 적절한 지능형 교통 시스템(Intelligent Transport System; ITS) 네트워크, 예컨대 차량 대 차량(vehicle to vehicle; V2V) 네트워크, 차량 애드혹 네트워크(vehicular ad hoc network; VANET), 모바일 애드혹 네트워크(mobile ad hoc network; MANET)를 통해 또한 송신될 수도 있다는 것이 추가로 고려된다.
자율 주행 차량(autonomous vehicle)의 XTT 시스템의 예시적인 실시형태에서, XTT는 주행 차선 형상을 예측하고, 종단간 오브젝트 검출 및 거동 예측을 수행하고, 포인트 클라우드 프로세싱을 수행하고, 단안, 입체 및 다중 뷰 이미지 데이터와 연계하여 시선 어텐션 모델을 활용하여 주변 환경의 내부 표현을 생성하고, 환경의 역학을 예측치를 생성하고 동시에 인간 승객 또는 유저에게 컨텍스트에 맞는 인식 설명을 제공하기 위해 사용될 수도 있다.
예시적인 실시형태는 설명 가능한 변환기를 제공할 수도 있다. 예시적인 실시형태는 설명 가능 트랜스듀서, 설명 가능 변환기, 설명 가능 변환기 인코더 및/또는 설명 가능 변환기 디코더를 포함할 수도 있다. 설명 가능 변환기 아키텍쳐는 예측된 데이터 표현에 대한 입력 토큰의 피쳐 속성을 설명할 수도 있다. 이것은 변환기의 주어진 컴포넌트에 대한 예측된 출력을 이해하기 위해 사용될 수도 있다. 변환기의 설명 가능 인코더 및 설명 가능 디코더의 기저의 아키텍쳐로서 XNN/INN을 사용하면, 종단간 화이트박스 머신 러닝 시스템을 구성하는 것이 가능하다. 화이트박스 변환기의 개선 사항은 다음의 것을 포함한다:
설명 가능 변환기 아키텍쳐는 표준 블랙박스 변환기만큼 강력하다.
설명 가능 변환기 아키텍쳐는 현재의 모든 딥 러닝 라이브러리 및 아키텍쳐를 이용하고 그들과 완전히 호환되어, 딥 러닝 시스템이 이용 가능한 모든 성능 개선 사항을 활용할 수도 있다.
설명 가능 변환기 아키텍쳐는 해석 가능 모델이 유연한 방식으로 생성되는 것을 허용한다. 그들은, 외부 유도 단계뿐만 아니라, 국면 단위로 또는 모델의 일부에 대한 유도를 통합하는 것에 의해 그것을 트레이닝시킬 가능성을 가질 필요 없이, 한 번의 반복에서 트레이닝될 수도 있다.
설명 가능 변환기 아키텍쳐는 파티셔닝을 통한 모델의 융합을 허용한다.
설명 가능 변환기 아키텍쳐는, 추가적인 프로세싱 또는 교란에 대한 필요 없이, 단일의 피드포워드 패스에서 인코딩 및 설명을 계산할 수도 있다.
설명 가능 변환기는, 예를 들면, 블랙박스 모델로부터 지식을 전송하는 것에 의해, 또는 외부에서 트레이닝된 현존하는 규칙 세트로부터 지식을 전송하는 것에 의해, 초기화될 수도 있다. 전이 학습은 결과적으로 나타나는 해석 가능 모델의 속도 및 품질을 개선할 수도 있다.
설명 가능 변환기 아키텍쳐는 XTT를 파이프라인의 일부로서 통합하는 종단간 설명 가능 DL 시스템을 통합하기 위해 다른 머신 러닝 시스템을 통합할 수도 있다.
설명 가능 변환기 아키텍쳐는 해석 가능한 AutoML 모델을 생성하기 위해 사용될 수도 있다.
하나의 양태에서, 다음의 것을 포함하는 설명 가능 머신 러닝 시스템이 제공된다: 머신 러닝 시스템이 입력 언어로부터의 데이터를 제2 출력 언어로 번역, 매핑, 및 변환하는 것을 허용하도록 구성되는 유한 상태 트랜스듀서(FST) - 유한 상태 트랜스듀서는 변환을 위해 사용되는 하나 이상의 입력 피쳐를 포함하는 또는 상기 하나 이상의 입력 피쳐를 변환하는 입력 언어로부터의 상기 데이터를 수신하도록 적응되고, 유한 상태 트랜스듀서는 제2 출력 언어로서 상기 하나 이상의 입력 피쳐에 기초하여 번역된, 매핑된, 및/또는 변환된 데이터를 제공하도록 추가로 구성됨 - ; 및/또는 입력 언어로부터의 상기 데이터와 관련하여 형성되는 디코더 및 인코더 컴포넌트의 조합에 기초한 어텐션 기반의 아키텍쳐를 갖는 설명 가능 변환기 - 유한 상태 트랜스듀서 및 설명 가능 변환기는 결합되어 입력 언어로부터의 상기 데이터를 번역, 매핑, 및 변환하도록 구성되는 설명 가능 트랜스듀서 변환기(XTT)를 생성하도록 구성됨 - .
다른 양태에서, 다음의 것을 포함하는 설명 가능 트랜스듀서 변환기를 제공하기 위한 시스템이 제공된다: 입력을 수신하도록 그리고 하나 이상의 입력 피쳐를 식별하도록 구성되는 입력 레이어; 다음의 것을 포함하는 조건부 네트워크: 하나 이상의 파티션 - 하나 이상의 파티션 각각은 규칙을 포함함 - 에 기초하여 입력 피쳐를 모델링하도록 구성되는 조건부 레이어; 하나 이상의 규칙을 하나 이상의 집성된 파티션으로 집성하도록 구성되는 집성 레이어; 및 집성 레이어로부터의 집성된 파티션을 조건부 레이어로부터의 하나 이상의 파티션과 함께 선택적으로 풀링하도록 구성되는 스위치 출력 레이어; 다음의 것을 포함하는 예측 네트워크: 하나 이상의 변환을 입력 피쳐에 적용하도록 구성되는 하나 이상의 변환 뉴런을 포함하는 피쳐 생성 및 변환 네트워크; 하나 이상의 피쳐 및 하나 이상의 파티션: 중 적어도 하나에 관련되는 하나 이상의 계수를 식별하기 위해 피쳐 생성 및 변환 네트워크에 의해 변환된 피쳐를 결합하도록 구성되는 적합 레이어; 하나 이상의 계수를 분석하도록 구성되고 하나 이상의 피쳐 또는 하나 이상의 파티션 중 적어도 하나에 관련되는 값을 출력하도록 구성되는 값 출력 레이어; 및 인코더 레이어 및 디코더 레이어 - 인코더 레이어 및 디코더 레이어 중 적어도 하나는 입력으로부터 형성되는 설명 가능 아키텍쳐를 포함함 - ; 머신 프로그램 또는 인간 중 적어도 하나에 의해 해석 가능한 그리고 설명 가능한 출력을 생성하도록 구성되는 출력 레이어; 파티션 전체에 걸친 하나 이상의 실행 경로는 외부 프로세스에 의해 식별 가능함.
옵션 또는 대안으로서, 청구항 1의 머신 러닝 시스템으로서, 설명 가능 변환기는 다음의 것을 포함한다: 입력 언어로부터의 상기 데이터와 관련되는 입력을 수신하도록 그리고 상기 하나 이상의 입력 피쳐를 식별하도록 구성되는 입력 레이어; 다음의 것을 포함하는 조건부 네트워크: 하나 이상의 파티션 - 하나 이상의 파티션 각각은 규칙을 포함함 - 에 기초하여 상기 하나 이상의 입력 피쳐를 모델링하도록 구성되는 조건부 레이어; 하나 이상의 규칙을 하나 이상의 집성된 파티션으로 집성하도록 구성되는 집성 레이어; 및 집성 레이어로부터의 집성된 파티션을 조건부 레이어로부터의 하나 이상의 파티션과 함께 선택적으로 풀링하도록 구성되는 스위치 출력 레이어; 다음의 것을 포함하는 예측 네트워크: 하나 이상의 변환을 상기 하나 이상의 입력 피쳐에 적용하도록 구성되는 하나 이상의 변환 뉴런을 포함하는 피쳐 생성 및 변환 네트워크; 하나 이상의 피쳐 및 하나 이상의 파티션: 중 적어도 하나에 관련되는 하나 이상의 계수를 식별하기 위해 피쳐 생성 및 변환 네트워크에 의해 변환된 피쳐를 결합하도록 구성되는 적합 레이어; 하나 이상의 계수를 분석하도록 구성되고 하나 이상의 피쳐 또는 하나 이상의 파티션 중 적어도 하나에 관련되는 값을 출력하도록 구성되는 값 출력 레이어; 및 디코더 및 인코더 컴포넌트는 상기 입력을 인코딩하기 위한 적어도 하나의 레이어 및 상기 입력을 디코딩하기 위한 적어도 하나의 레이어를 포함하고, 디코더 및 인코더 컴포넌트는 입력으로부터 형성되는 설명 가능 아키텍쳐를 포함함; 머신 프로그램 또는 인간 중 적어도 하나에 의해 해석 가능한 그리고 설명 가능한 출력을 생성하도록 구성되는 출력 레이어; 파티션 전체에 걸친 하나 이상의 실행 경로는 외부 프로세스에 의해 식별 가능함. 옵션으로서, 청구항 1 또는 2에 따른 머신 러닝 시스템으로서, XTT는 설명 가능 변환기 인코더 또는 설명 가능 변환기 디코더로서 동작하도록 구성되고, 시스템은, 옵션 사항으로, XTT의 내부 계수에 대한 조건부 제약을 더 포함하고, 그리고 조건부 제약은, 옵션 사항으로, XTT의 공칭 동작 사이클 동안 모니터링되도록 구성된다. 옵션으로서, 설명 가능 트랜스듀서는 디코더 컴포넌트 및/또는 인코더 컴포넌트의 하위 레이어에서 화이트박스 모델 컴포넌트를 포함한다. 옵션으로서, 설명 가능 신경망(XNN)을 포함하는 설명 가능 아키텍쳐가 XTT에서 활용되고, XNN은 옵션 사항으로: 조건부 레이어, 집성 레이어, 및 스위치 출력 레이어를 포함하는 조건부 네트워크; 및 피쳐 생성 및 변환 레이어, 적합 레이어, 및 예측 출력 레이어를 포함하는 예측 네트워크: 에 입력되도록 구성되는 입력 레이어; 및 스위치 출력 레이어의 출력 및 예측 출력 레이어의 출력을 곱하여 순위가 매겨진 또는 점수가 매겨진 출력을 생성하도록 구성되는 선택 및 순위 매김 레이어를 포함하고, XNN은, 옵션 사항으로, 빠른 가중치를 포함한다. 옵션으로서, 해석 가능 신경망(INN)을 포함하는 설명 가능 아키텍쳐가 XTT에서 활용되고; 및/또는 설명 가능 아키텍쳐는 설명 가능 보강 학습(XRL) 시스템을 포함하고; 및/또는 XTT는 와이드 학습 모델을 지원하도록 구성된다. 옵션으로서, 설명 가능 아키텍쳐는: 답변으로 구성되는 설명 가능 또는 해석 가능 출력을 생성하도록; 그 답변의 옵션 사항의 모델 설명을 생성하도록, 옵션 사항으로, 답변 및/또는 모델 설명의 정당성을 생성하도록 구성된다. 옵션으로서, XTT는 상기 하나 이상의 입력 피쳐를 프로세싱하도록 구성되는 파티션 - 파티션은 규칙 및/또는 거리 유사도 함수에 따라 옵션 사항으로 데이터 포인트를 그룹화하는 클러스터이고, 파티션은 그들의 값이 정적 값으로 설정된 잠긴 파티션이거나 또는 XTT의 각각의 역방향 트레이닝 패스에 대해 동적으로 이동 가능한 이동 가능 파티션임 - 을 포함하거나, 파티션은 XTT를 처음 생성하는 외부 프로세스에 의해 XTT의 일부로서 초기에 생성되거나, 또는 파티션은 파티셔닝 정보를 제공하는 링크된 분류법 또는 온톨로지로부터 적절하게 초기화되거나 또는 사전 트레이닝되고, XTT는, 옵션 사항으로, 파티션이 사전 트레이닝된 이후 사전 미세 튜닝되고, 그리고 일단 파티션이 생성되면, XTT는 경사 하강 방법을 사용하여 파티션을 적합시키거나 또는 추가로 개선하도록 구성되고, 그리고 파티션 구조는, 옵션 사항으로, 그래프 또는 하이퍼그래프로 배열되고 시스템은, 옵션 사항으로, 그래프 대 시퀀스, 시퀀스 대 그래프, 및 그래프 대 그래프 변환 모드를 프로세싱하도록 구성된다. 옵션으로서, XTT는 XTT가 파티션을 선택, 병합 또는 분할하는 방법을 결정하기 위해 순위 매김 함수를 구현하도록 구성되고, 파티션은, 옵션 사항으로, 상이한 레벨의 의미론적 및 기호학적 세부 사항에서 심볼을 표현하기 위해 사용 가능한 계층적 본질에 따라 배열된다. 옵션으로서, 파티션은 다음의 것 중 하나 이상을 사용하여 변경 가능하다: 다중 목표 최적화 기술, 유전 알고리즘, 몬테 카를로 시뮬레이션 방법, 및/또는 캐주얼 로직 및 시뮬레이션 기술. 옵션으로서, 파티션은: 두 개 이상의 중첩 파티션 및 중첩 파티션 중 어떤 것을 활성화할지를 결정하도록 구성되는 우선 순위 함수; 두 개 이상의 비중첩 파티션; 및/또는 다수의 활성화된 파티션으로부터의 결과를 결합 또는 분할하도록 구성되는 집성 함수를 포함하고, 그리고 파티션은, 옵션 사항으로, 희소 XNN 또는 INN을 사용하여 구현된다. 옵션으로서, 각각의 파티션은 다음의 것 중 하나 이상을 포함할 수도 있다: 선형 모델에 맞는 데이터; 선형 모델을 데이터에 적합시키기 이전에 다음의 것: 다항식 확장, 회전, 차원 스케일링, 무차원 스케일링, 상태 공간 변환, 위상 공간 변환, 정수 변환, 실수 변환, 복소수 변환, 쿼터니언 변환, 옥토니언 변환, 푸리에 변환, 월시 함수, 연속 데이터 버킷화, 하르 웨이블릿, 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 또는 타입 2 퍼지 로직 지식 그래프 네트워크, 카테고리형 인코딩, 콜모고로프(Kolmogorov) 공간, 프레쳇(Frechet) 공간, 하우스도르프(Hausdorff) 공간 또는 타이초노프(Tychonoff) 공간의 위상 변환, 차이 분석, 정규화, 표준화, 및 조건부 피쳐 중 적어도 하나가 적용된 데이터. 옵션으로서, 파티션은 파티셔닝 함수에 따른 계층 구조로 배열되는데, 파티셔닝 함수는 다음의 것으로부터의 하나 이상을 포함하는 클러스터링 알고리즘을 포함하고: k 평균 함수, 베이지안 함수, 연결성 기반의 파티셔닝 함수, 중심 기반의 파티셔닝 함수(centroid based partitioning function), 분포 기반의 파티셔닝 함수, 그리드 기반의 파티셔닝 함수, 밀도 기반의 파티셔닝 함수, 퍼지 로직 기반의 파티셔닝 함수, 엔트로피 기반의 함수, 또는 상호 정보 기반의 방법; 파티션 함수는, 옵션 사항으로, 복수의 중첩 및/또는 비중첩 파티션을 생성하는 앙상블 방법을 포함한다. 옵션으로서, XTT는 파티션 중 하나 이상의 파티션에 대해 하나 이상의 반복적 최적화 단계를 실행하도록 구성되고, 하나 이상의 반복적 최적화 단계는, 옵션 사항으로, 다음의 것을 수반한다: 적절한 집성, 분할 또는 최적화 방법을 사용하여 파티션을 병합 및 분할하는 것.
옵션으로서, XTT는 파티션과 관련되는 모델 설명 및 정보를 예측하도록 구성되는 XTT 디코더 아키텍쳐를 포함하고, XTT 디코더 아키텍쳐는 다음 번 모델 설명을 예측하기 위해 생성된 모델 설명을 사용하여 사전 트레이닝되고, XTT 디코더 아키텍쳐는, 옵션 사항으로, 다음 번 설명 그래디언트를 예측하여 모델 설명에서의 차이 또는 변화를 예측하기 위해 설명 그래디언트의 세트에 대해 추가로 사전 트레이닝되고, XTT 디코더 아키텍쳐는, 옵션 사항으로, 트레이닝 동안 유사도 및 대비 둘 모두의 엘리먼트를 고려하기 위해 입력 및 출력 데이터의 임베딩된 표현에 대해 사전 트레이닝되며, 임베딩된 표현은, 옵션 사항으로, 희소 임베딩이다.
옵션으로서, 설명 가능 변환기는 외부 설명 가능 모델로부터의 파티셔닝 정보를 설명 가능 변환기의 인코더 컴포넌트의 입력 임베딩에 그리고, 옵션 사항으로, 설명 가능 변환기의 디코더 컴포넌트의 출력 임베딩에 추가하는 것에 의해 트레이닝되거나; 또는 설명 가능 변환기는 인코더 및 디코더 컴포넌트에 병렬인 두 개의 추가적인 레이어 - 두 개의 추가적인 레이어는 설명 가능 변환기의 입력 공간으로부터 설명 가능 아키텍쳐를 구성하도록 구성됨 - 를 포함하거나; 또는 설명 가능 변환기는 멀티 헤드 어텐션 컴포넌트(multi-head-attention component) 또는 추가 및 정규화 컴포넌트(add-and-normalization component)를 포함하는 병렬의 설명 가능 인코더 레이어 - 병렬의 설명 가능 인코더 레이어는 멀티 헤드 어텐션 컴포넌트의 출력 또는 추가 및 정규화 컴포넌트의 출력, 및 파티셔닝 또는 설명 가능 정보를 입력으로서 수신하도록 구성됨 - 를 포함하고, 설명 가능 변환기는, 옵션 사항으로, 병렬의 설명 가능 인코더 레이어의 출력을 입력으로서 수신하도록 구성되는 병렬의 설명 가능 디코더 레이어를 더 포함하고, 병렬의 설명 가능 인코더 레이어는, 옵션 사항으로, 하나 이상의 모델 설명, 하나 이상의 모델 설명의 하나 이상의 그래디언트, 또는 하나 이상의 파티션과 관련되는 정보를 입력으로서 수신하도록 구성되는 설명 가능 아키텍쳐를, 옵션 사항으로, 포함하고, 병렬의 설명 가능 디코더는, 옵션 사항으로, 설명 가능 아키텍쳐 및 추가 및 정규화 컴포넌트를 포함하고, 병렬의 설명 가능 인코더 레이어는, 옵션 사항으로, 병렬의 설명 가능 인코더 레이어의 출력을 디코더 컴포넌트의 멀티 헤드 어텐션 레이어로 전송하도록 구성되고, 병렬의 설명 가능 인코더 레이어는, 옵션 사항으로, 출력을 디코더 컴포넌트의 멀티 헤드 어텐션 레이어로 전송하기 이전에, 출력을, 설명 가능 변환기의 인코더 컴포넌트의 출력과 병합하도록 구성된다.
옵션으로서, 설명 가능 변환기의 디코더 컴포넌트는 피드백 루프의 일부로서 입력으로서 XTT의 출력을 수신하도록 구성된다. 옵션으로서, 설명 가능 변환기의 인코더 및 또는 디코더 컴포넌트는 설명 가능 자동 인코더 디코더(XAED)로서 동작하도록 구성된다. 옵션으로서, XTT는 트레이닝 데이터세트의 하나 이상의 피쳐 변환을 포함하고, 하나 이상의 피쳐 변환은, 옵션 사항으로, 다음의 것 중 하나 이상을 포함한다: 다항식 확장, 회전 변환, 차원 스케일링, 무차원 스케일링, 푸리에 변환, 월시 함수, 상태 공간 변환, 위상 공간 변환, 하르 웨이블릿, 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 퍼지 로직 그래프 네트워크, 타입 2 퍼지 로직 그래프 네트워크, 콜모고로프 공간, 프레쳇 공간, 하우스도르프 공간 또는 타이초노프 공간의 카테고리형 인코딩 위상 변환, 차이 분석, 데이터의 정규화, 및 데이터의 표준화. 하나 이상의 피쳐 변환은, 옵션 사항으로, 변환의 파이프라인으로서 배열되되, 파이프라인은, 옵션 사항으로, 다음의 것을 더 포함한다: 하나 이상의 변수의 값에 따라 정렬되는 데이터의 시퀀스 - 데이터의 시퀀스는, 옵션 사항으로, 시간적으로 정렬된 데이터 시퀀스를 포함함 - 를 분석하도록 구성되는 변환; 및/또는 경사 하강 방법 및 다른 설명 가능 아키텍쳐를 통해 획득되는 변환. 옵션으로서, XTT는 다음의 것 중 하나 이상의 기술을 사용하여 생성되는 XTT를 트레이닝시키기 위한 트레이닝 데이터세트 샘플을 수신하도록 구성된다: 인과 GAN 기반의 생성, 유전 공학, 몬테 카를로 시뮬레이션, 페트리 넷, 보강 학습 기술, 화이트박스 모델 및 관련된 글로벌 모델을 사용한 시뮬레이션, 및/또는 이용 가능할 수도 있는 임의의 다른 방법. 옵션으로서, XTT는 인간 지식 주입(HKI), 또는 시스템 지식 주입을 입력으로서 수신하도록 추가로 구성되고, XTT 내의 설명 가능 아키텍쳐의 계수는 인간 유저와 머신 러닝 시스템 사이의 더욱 효과적인 협업으로 이어질 특정한 규칙을 시행하도록 수정 가능하고, XTT는, 옵션 사항으로, 제로샷 학습 또는 퓨샷 학습을 위해 HKI 또는 시스템 지식 주입을 사용하도록 추가로 구성된다. 옵션으로서, XTT는 XTT의 적응성을 향상시키기 위해 귀납적, 연역적, 귀추적, 및 인과적 로직 중 하나 이상을 구현하도록 구성되고, XTT는, 옵션 사항으로, 무모델 및 모델 기반의 최적화 방법의 조합을 활용하도록 추가로 구성된다. 옵션으로서, XTT는 XTT의 상기 하나 이상의 입력 피쳐가 설명 가능할 정도까지 XTT의 출력으로부터 설명 가능하지 않은 잠재적 공간의 완전한 제거를 가능하게 하도록 구성된다. 옵션으로서, XTT는, XTT의 출력에, 다음의 것 중 하나 이상을 적용하도록 구성되거나: 푸리에 변환, 정수 변환, 실수 변환, 복소수 변환, 쿼터니언 변환, 옥토니언 변환, 월시 함수, 상태 공간 변환, 위상 공간 변환, 하르 웨이블릿, 비 하르 웨이블릿, 일반화된 L" 함수, 프랙탈 기반의 변환, 아다마르 변환, 퍼지 로직 그래프 네트워크, 카테고리형 인코딩, 차이 분석, 정규화, 표준화, 다차원 베지어 곡선, 회귀 관계, 및 인과 연산자; 또는 XTT는 XTT의 출력에 활성화 함수 또는 변환 함수를 적용하도록 구성되는데, 활성화 함수 또는 변환 함수는 다음의 것 중 하나 이상을 포함한다: 시그모이드 함수, SoftMax 함수, 계층적 트리 또는 네트워크, 인과 다이어그램, 방향성 그래프, 무방향성 그래프, 하이퍼그래프, 단순체 복합체, 멀티미디어 구조, 또는 하이퍼링크된 그래프의 세트. 옵션으로서, XTT는 구조화된 데이터 및 구조화되지 않은 데이터 둘 모두를 프로세싱하도록, 그리고 계층적으로 구조화된 데이터를 프로세싱하도록 구성되고, 계층적으로 구조화된 데이터는, 옵션 사항으로, 트리, 그래프, 하이퍼그래프 및/또는 단순체 복합체의 형태로 구조화된다. 옵션으로서, XTT는 다음의 것을 더 포함한다: XTT의 입력 레이어에 의해 수신되기 이전에 또는 입력 레이어로부터 출력된 이후 복수의 입력을 정규화하도록 구성되는 정규화 모듈; 입력 레이어에 의해 수신되기 이전에 또는 입력 레이어로부터 출력된 이후 입력을 스케일링하도록 구성되는 스케일링 모듈; 및 입력 레이어에 의해 수신되기 이전에 또는 입력 레이어로부터 출력된 이후 입력을 표준화하도록 구성되는 표준화 모듈. 옵션으로서, 입력의 정규화는 편향 및 그들의 소스의 적절한 리포트 및 분석을 생성하는 것, 및 감독, 비감독, 또는 반감독 수단을 통해 편향 감소, 완화, 또는 제거를 위한 전략을 공식화하는 것을 수반한다. 옵션으로서, XTT는 분산된 설명 가능 아키텍쳐(DEA)에 걸쳐 분산되고, DEA는 설명 가능 아키텍쳐의 동종(homogeneous) 또는 이종(heterogeneous) 혼합물로 구성되고, DEA는, DEA의 설명 가능 아키텍쳐 각각을 트레이닝시키기 위해, 데이터세트를 데이터의 다수의 서브세트로 분할하도록 구성되고, DEA의 각각의 설명 가능 아키텍쳐는, 옵션 사항으로 집합적 동작 기술을 비롯하여, DEA 내의 동종 및 이종 설명 가능 모델 혼합물에 적용되는 분산 트레이닝 기술을 사용하여 트레이닝 가능하다. 옵션으로서, DEA는: DEA의 모델이 설명 가능 인공 지능(eXplainable Artificial Intelligence; XAI), 해석 가능 신경망(Interpretable Neural Net; INN), 설명 가능 신경망(eXplainable Neural Net; XNN), 설명 가능 스파이킹 네트(eXplainable Spiking Net; XSN) 및 설명 가능 메모리 네트(eXplainable Memory Net; XMN), 및/또는 설명 가능 보강 학습(eXplainable Reinforcement Learning; XRL)의 혼합물이 되도록 하는 하이브리드 모델; 복수의 독립 모델 - 주어진 독립 모델은, 일단 트레이닝되면, DEA에 의존하지 않고도, 독립적으로 작동하도록 구성 가능하고, DEA는 트레이닝을 위해 최적화됨 - 중 하나 이상을 포함할 수도 있다. 옵션으로서, XTT는 설명 및 해석 생성 시스템(EIGS) 내에서 사용 가능하고, 입력 질의를 프로세싱하기 위한 그리고 입력 질의에 관련이 있는 적절한 답변, 설명 및 옵션 사항의 정당성을 생성하기 위한 모델을 제공하도록 구성되고, XTT는, 옵션 사항으로, EIGS의 하나 이상의 부분을 변환하도록 구성되고, EIGS의 하나 이상의 부분을 변환하는 것은 다음의 것 중 하나 이상을 포함하고: 프리젠테이션 출력의 변환, 유저 고유의 출력 개인화, 컨텍스트 고유의 출력 변환, 목표 고유의 출력 변환, 계획 고유의 출력 변환, 및 액션 고유의 변환, XTT는, 옵션 사항으로, EIGS 내에서: 설명 스캐폴딩의 적절한 필터링을 생성하기 위한 적절한 모델을 필터에 제공하도록, 또는 해석 프레이밍, 프로토콜 컨텍스트, 해석 규칙, 해석 프로시져, 해석 시나리오, 및 충돌 해결 정보의 조합을 활용하여 EIGS의 하나 이상의 부분을 필터링하도록, 또는 EIGS 내에서 필터내 및/또는 필터간 합의 프로세스를 구현하도록, 또는 적절한 해석을 생성하고 해석 스캐폴딩의 엘리먼트를 생성하기 위한 적절한 모델을 인터프리터에 제공하도록, 또는 EIGS에서 해석 스캐폴딩의 적절한 부분을 변환하도록, 또는 프레이밍, 프로토콜, 해석 규칙, 해석 프로시져, 해석 템플릿, 해석 개요, 시나리오 모델, 도메인, 상호 작용식 컨텍스트, 및 충돌 해결 정보의 조합에 기초하여 EIGS의 해석 출력을 변환하도록, 또는 EIGS 내에서 인터프리터내 및/또는 인터프리터간 합의 프로세스를 구현하도록, 또는 적절한 선택 모델 및 선택 프로세스에 기초하여 EIGS 해석 출력을 변환하도록 사용 가능하다. 옵션으로서, XTT는, 옵션 사항으로 파티셔닝 정보, XTT의 내부 계수 및 XTT의 입력 공간의 피쳐 속성을 비롯하여, 다수의 레벨의 설명을 생성하도록: 구성되는 설명 가능 셀프 어텐션 메커니즘을 포함하고, 설명은 인터프리터에 대한 출력으로서 사용 가능하다. 옵션으로서, XTT는 자기 감독 기술을 사용하여 트레이닝 가능하다. 옵션으로서, XTT는 단일의 벡터 - 벡터는 XTT의 임의의 레이어에 대한 피드백으로서 사용 가능함 - 로 병합하기 위해 모든 디코더 또는 인코더 컴포넌트로부터의 과거 학습된 표현 또는 과거의 상태를 사용하도록 구성되고, XTT는, 옵션 사항으로, 단일의 벡터로 병합하기 위해 화이트박스 모델의 임의의 내부 계수를 사용하도록 추가로 구성되고, XTT는, 옵션 사항으로, 인과적으로 타당하지 않은 추론을 생성하는 것 또는 통계적으로 유효하지만 그러나 인과적으로 타당하지 않을 수도 있는 예측 경로를 생성하는 것을 방지하기 위해, 과거 학습된 표현에 대해 인과적 제약을 부과하도록 추가로 구성되고, XTT는, 옵션 사항으로, 과거 학습된 표현에 대해 환경적으로 타당한 제약을 추가로 부과하여 설명 가능하고 인과적으로 그리고 환경적으로 타당한 피드백 메모리를 달성하기 위해, 거동 모델 및 관련된 조건, 이벤트, 트리거, 및 액션 상태 표현을 활용하도록 추가로 구성된다.
옵션으로서, 시스템은: 적절한 형식 언어로 작성되는 현존하는 형식 컴퓨터 프로그램을 분석 및 파싱하도록, 그리고 일단 로딩되면, XTT 어텐션 모델을 사용하여 그것을 추가로 개선하도록 - XTT의 설명 가능 모델 내의 계층적 파티션 구조는, 옵션 사항으로, 형식 언어 프로그램의 구조를 직접적으로 모델링하기 위해 사용 가능함 - ; 또는 사전 정의된 문체 표준에 따라 코드를 변환하고, 불일치 또는 에러를 강조 표시하고, 코드의 더 나은 대안 및 리팩토링 및 재작성을 제안하고, 난독화된 코드를 난독화 해제하고, 그리고, 알파 변환, 베타 감소, 및 에타 감소와 같은 기능적 프로그래밍 언어 개념을 생성된 코드에 적용하도록; 또는 처음부터 또는 증명된 명령문 및/또는 불완전한 명령문의 현존하는 콜렉션을 통해, 수학적 표현, 명령문, 및 증명을 분석, 생성 및 자동 완성하기 위해, 적절한 수학적 형식 언어 시스템과 함께 자동화된 이론 증명 시스템과 연계하여 사용되도록; 또는 XTT에 의해 적용되는 입력-출력 변환 사이의 기저의 가정의 설명을 제공하면서, 단백질 또는 다른 적절한 분자 형상과 연계하여 DNA 코드를 분석하여 DNA, 유전자 발현, 단백질 접힘 및 다른 관련된 생화학적 애플리케이션에서의 규제 변화를 설명하도록; 또는 옵션 사항으로, 음성 오디오 파형을 대응하는 텍스트로 번역하기 위해, 종단간 자동 음성 인식 아키텍쳐에서 사용되도록; 또는 음성을 프로세싱하기 위해 종단간 딥 러닝 아키텍쳐에서 사용되도록 - 머신 러닝 시스템은, 옵션 사항으로, 음성을 잠재적인 이산 표현으로 변환하도록 구성되는 XAED 인코더를 더 포함함 - ; 또는 다중 오브젝트 추적을 위해 사용되도록; 또는 디지털 표면 모델 또는 깊이 맵 생성을 위해, 위성, 항공 또는 다른 타입의 조감도 이미지를 매치시키도록; 또는 단안, 입체, 및 다중 뷰 입력 데이터의 화상을 프로세싱하도록; 또는 오디오가 비디오에서 존재하는지를 예측하기 위한 오디오-비주얼 분류 태스크를 위해 사용되도록; 또는 다음의 것: 진짜 이미지로부터 딥페이크 이미지를 검출 및 분류하는 것, 또는 머신 러닝 시스템을 혼란시키기 위해 데이터에 추가된 적대적 공격 정보의 존재를 검출하는 것 - XTT가 설명 가능 모델을 포함함 - 중 하나 이상을 포함하는 합성하여 생성된 다차원 데이터의 생성 및 검출을 위해 사용되도록; 또는 실제 화상 및 컴퓨터 생성 화상의 조합 내에서 인간 및 오브젝트의 정확하게 배치된 프레임화된, 스케일링된, 조명된, 및 렌더링된 합성 이미지를 자동적으로 생성, 삽입 및 혼합하도록 - 머신 러닝 시스템은 카메라 프로세싱 시스템 내에서 구현됨 - ; 또는 실제 화상 및 컴퓨터 생성 화상의 조합 내에서 인간 및 오브젝트의 정확하게 배치된 프레임화된, 스케일링된, 조명된, 및 렌더링된 합성 이미지를 자동적으로 생성, 삽입 및 혼합하도록 - 머신 러닝 시스템은 의료 이미지의 분석 또는 수술 내에서의 사용을 위해 의료 하드웨어 내에서 구현됨 - ; 또는 실제 화상 및 컴퓨터 생성 화상의 조합 내에서 인간 및 오브젝트의 정확하게 배치된 프레임화된, 스케일링된, 조명된, 및 렌더링된 합성 이미지를 자동적으로 생성, 삽입 및 혼합하도록 - 머신 러닝 시스템은 기기 검사 프로세스 및 제조 검사 프로세스에서의 사용을 위해 엔지니어링 애플리케이션 내에서 구현됨 - ; 또는 인간이 판독 가능하고 해석 가능한 포맷으로 데이터를 송신하는 의료용 임플란트 내에서 구현되도록; 또는 생물학적 뉴런으로부터 입력 신호를 수신하도록 그리고 신호를 적절하게 인코딩된 포맷으로 생물학적 뉴런으로 출력하도록 - XTT는 손상된 생물학적 신경 시스템 연결을 연결하기 위한 또는 고급 인공 장구 디바이스에서 인공 디바이스의 이식 및 연결을 돕기 위한 실용적인 솔루션을 제공하기 위해 두 개 이상의 생물학적 뉴런을 연결하는 의학적으로 이식된 디바이스의 일부로서 구현됨 - ; 또는 XTT의 일부로서 XGAIL 시스템의 시뮬레이터 및 데이터 샘플 합성을 구현하여 환경 세계 컨텍스트 및 상이한 모달리티의 관련된 시퀀스 순서에 따라 적절하게 동기화되는 다중 모드 혼합 출력을 생성하도록; 또는 생성된 데이터 샘플을 적절하게 수정하기 위해 사용될 수 있는 다양한 학습된 스타일을 사용하여 새로운 데이터 샘플, 화상, 디지털 및 아날로그 혼합 미디어 그림, 및 3D 조각을 생성하도록 - 머신 러닝 시스템은, 옵션 사항으로, 생성된 데이터를, 보안성이 있는 추적 가능한 디지털 코드, 분산 원장 엔트리 또는 대체 불가능한 토큰을 사용하여 태깅하도록 추가로 구성됨 - ; 또는 형식 음악 표기법 및 합성, 사운드 샘플 믹싱, 텍스트 대 음성 생성, 및 일반적인 오디오 샘플 생성의 조합을 사용하여, 음악을 생성하도록 - 머신 러닝 시스템은, 옵션 사항으로, 상이한 모달리티의 입력을 분석하기 위해 다중 모드 XTT를 구현하도록 추가로 구성됨 - ; 또는 비디오 프레임에 대한 주석을 예측하도록 - XTT는 종단간 딥 러닝 아키텍쳐에서 XTT 인코더로서 구현됨 - ; 또는 온톨로지에서 미리 정의되는 대신 대화의 상태를 추적하고 보이지 않는 슬롯을 학습하도록; 또는 입력 시퀀스에서 엔티티를 식별하도록; 또는 입력 질문에 대한 답변의 시작 포지션 및 종료 포지션을 식별하도록; 또는 텍스트에서의 엔티티의 언급을 지식 베이스의 대응하는 엔티티에 링크하도록; 또는 이전 출력에 기초하여 출력을 예측하도록; 또는 워크플로우 시스템 내에 통합되도록, 그리고 옵션 사항으로, 로봇 프로세스 자동화 시스템, 결정 지원 시스템, 또는 데이터 레이크 시스템 내에서 추가로 통합되도록; 또는 인과적 설명 - 인과적 설명은 반사실적 언어 표현 아키텍쳐를 사용함 - 을 사용하도록; 또는 원인과 결과를 핸들링하기 위해, 관련성, 중재, 및 반사실적 인과 로직을 핸들링하기 위해, 환경 모델 입력을 통해 타당성 체크를 수행하기 위해, 그리고 인과적으로 타당한 동형 사상을 통해 트레이닝 데이터를 증강하기 위해, 인과 모델 고유의 기능성을 구현하도록; 또는 자연어 문서로부터 초안 인과 모델을 자동적으로 생성하도록 - XTT는 인과 XTT 시스템을 정의함 - ; 또는 제약 및 예측 로직 구현의 기초로서 계산 및 지식 표현 구조 - 계산 및 지식 표현 구조는, 옵션 사항으로, 리소스 디스크립션 프레임워크(Resource Description Framework; RDF) 트리, RDF 그래프, 레비 그래프, 하이퍼그래프 구조, 또는 단순체 복합체를 포함함 - 를 사용하도록; 또는 감사 로그 기능성을 구현하도록 - 감사 로그 기능성을 구현하는 것은: XTT의 흐름, 상호 작용 및 거동 및 그것의 관련된 조건, 이벤트, 트리거 및 액션 및 전반적인 역학을 설명하는 결정 로그 및 경로 트레이스를 생성하는 것을 수반하고, 경로 트레이스는, 옵션 사항으로, 전문가 시스템 및 규칙 기반의 시스템에서, 트리거되고 실행된 규칙의 주석이 달린 시퀀스로서 구현되거나, 또는 경로 트레이스는, 옵션 사항으로, 워크플로우 시스템에서 워크플로우 엔진에 의해 실행된 워크플로우 노드 및 경로의 주석이 달린 시퀀스로서 구현되고, 경로 트레이스는 XTT의 정확한 시퀀스 및 거동을 설명하기 위해 사용 가능하고, 옵션 사항으로, 유저가 관심을 갖는 경로를 따라 가장 가까운 이웃을 시스템의 유저에게 디스플레이하도록 구성되고, XTT는, 옵션 사항으로, 자기 자신의 감사 시스템 로그를 활용하도록 그리고 무단 변경 방지 및 추적 가능한 방식으로 상기 로그를 저장하도록 추가로 구성됨 - ; 또는 액션의 시간 로직, 추상 머신 표기법, 페트리넷, 계산 트리 로직, 또는 모달 로직, 직관주의 로직, 및/또는 관계형 의미론을 형식적으로 표현할 수 있는 구현 방법 중 하나 이상에 기초한 시스템의 조합에 의해 구현되고 그에 의해 검증되도록; 또는 앵커 용어 - 앵커 용어는 매우 중요한 노드, 에지, 이벤트, 트리거, 제약 또는 액션을 정의함 - 를 활용하도록; 또는 성능을 증가시키기 위해 양자화 방법을 적용하도록 - 시스템은, 옵션 사항으로, XTT의 정확도에 대한 양자화의 임의의 불리한 효과를 부분적으로 상쇄하고 트레이닝 동안 불안정성을 감소시키기 위해 불안정성 감소 기술을 적용하도록 추가로 구성됨 - ; 또는 데이터 프라이버시 보호 솔루션의 실질적인 구현을 가능하게 하도록; 또는 what-if, what-if-not, but-for 및 조건부 시나리오에 기초하여 생성된 구조화된 설명을 활용하여 그러한 시나리오를 XTT 시스템 입력에 적용한 결과에 대응하는 시나리오 기반의 설명 및 설명된 전략을 생성하도록; 또는 외인성 및 내인성 변수 및 인과 모델을 사용하여 액션의 총 비용을 추정하도록 - 총 비용을 추정하는 것은, 옵션 사항으로, 임의의 특정한 관련성, 중재 또는 반사실적 규칙을 적용하는 것을 포함하고, 옵션 사항으로, 부분적으로 누락된 값을 갖는 데이터에 대한 총 비용을 추정하는 것을 포함함 - , 시스템은, 옵션 사항으로, 그러한 애플리케이션의 가상 평균 또는 소망되는 시나리오 결과를 가진 애플리케이션의 실제 예를 제공하기 위해 최근접 이웃 방법을 활용하도록 추가로 구성됨; 또는 예측 및/또는 트레이닝 성능을 증가시키기 위해 다음의 것: 내적의 근사 또는 완전한 제거, 희소 로컬 어텐션 모델, 적응형 어텐션 윈도우, 다차원 어텐션 매트릭스 근사, 지능형 가중치 공유 및 지능형 파라미터화 중 하나 이상을 활용하도록; 또는 보행 분석, 움직임 예측 및 감정 상태 예측을 포함하는 인간 거동을 분석하도록; 또는 스포츠 영상 및 운동 성과를 예측 및 분석하도록; 또는 의학적 상태를 검출 및 예측하도록; 또는 금융 주식 거래 패턴을 분석하고 시장 거동을 예측하도록, 그리고 후속하여 특정한 주식에 대한 매수, 매도, 또는 롱 포지션 또는 숏 포지션과 같은 자동화된 액션을 실행하도록; 또는 인더스트리 4.0 애플리케이션 내에서 동작하도록; 또는 소스 언어로부터 타겟 언어로 문장을 번역하도록; 또는 프리젠테이션 지향 변환 및 설명 및/또는 해석 출력의 향상을 수행하도록; 또는 법적 문서를 프로세싱하고 수반되는 상이한 당사자 및 엔티티에 적용 가능하며 법적 문서에 대한 참고 자료(reference)가 되는 텍스트 섹션 및 참고 자료를 정확하게 결정하도록; 또는 대화 프로세싱, 챗봇, 콜 센터 관리 시스템, 사례 관리 시스템, 고객 지원 시스템, 클라이언트 관계 관리 시스템, 대화형 시스템, 질문 및 답변 시스템과 같은 애플리케이션에서 일반적으로 사용되는 상호 작용식 설명 및/또는 해석 프로세스의 흐름을 제어하도록; 또는 피드백 제어 타입의 메커니즘을 필요로 하는 보강 학습 타입의 애플리케이션에서 사용되도록 구성된다.
옵션으로서, 시스템은, 유연한 아키텍쳐 - 유연한 아키텍쳐는, 옵션 사항으로, FPGA를 포함함 - , 또는 정적 아키텍쳐 - 정적 아키텍쳐는, 옵션 사항으로, ASIC을 포함함 - , 또는 이산 컴포넌트, 또는 스핀트로닉 또는 멤리스터, 또는, 옵션 사항으로, 스파이킹 뉴런을 활용하는 뉴로모픽 아키텍쳐, 또는 양자 컴퓨팅 하드웨어: 중 어느 하나를 사용하여 하드웨어 회로로서 구현되고, 양자 컴퓨팅 하드웨어는, 옵션 사항으로: 다수의 큐비트 상태, 큐비트 기본 상태, 혼합 상태, 앤실라 비트, 및 얽힘 및/또는 디코히어런스에 기인하는 다른 관련 양자 효과의 올바른 해석을 허용하도록, 또는 옵션 사항으로, 양자 로직 게이트를 비롯하여, XNN 내에서 양자 로직 고유의 연산자 및/또는 하드웨어 로직 게이트의 도입을 허용하도록, 또는 양자 효과를 이용하는 것에 의해 다수의 액션을 실행하거나, 또는 다수의 조건을 평가하거나, 또는 대규모 제약 시스템을 평가하도록 - 양자 컴퓨팅 하드웨어는, 옵션 사항으로, 양자 알고리즘을 활용하도록 또는 하이브리드 솔루션을 활용하도록 구성됨 - , 또는 복수의 모달리티 및/또는 태스크에 대한 힐버트 공간을 정의하도록 - 다중 모드 또는 멀티태스크 힐버트 공간은 태스크와 모달리티 사이의 모든 상기 상호 작용을 나타내기 위해 사용될 수 있고 크로스오버 학습의 양자 버전과 함께 모달리티 및/또는 태스크의 서브세트에 대한 트레이닝 둘 모두를 구현하기 위해 사용될 수 있음 - 구성되는 확장 기능(extension)을 포함한다. 옵션으로서, XTT는: 신경 심볼 제약을, XTT와 관련되는 이전 이력 활성화 레이트 및/또는 XTT와 관련되는 현재 및/또는 이전 이력 상태의 일부 또는 모두와 링크하도록 구성된다. 옵션으로서, 명명된 참조 라벨이 설명 가능 아키텍쳐 내의 특정한 컴포넌트에 할당되고, 명명된 참조 라벨은, 옵션 사항으로, 메타데이터를 포함하고, 옵션 사항으로, 심볼 표현 및/또는 수학식으로 구성될 수도 있고, 명명된 참조 라벨은, 옵션 사항으로, 안전 관련 제약에서 사용 가능하고, 그리고 머신 러닝 시스템은, 옵션 사항으로, 시스템 내에서 발생하는 역학의 안정적이고 장기적인 설명을 생성하기 위해 명명된 참조 라벨의 불변성을 활용하도록 구성된다. 옵션으로서, 머신 러닝 시스템은 식별 평가 추천 프레임워크에 의해 적어도 부분적으로 정의된다. 옵션으로서, 머신 러닝 시스템은 AutoXAI 시스템을 더 포함하고, 시스템은: 시나리오 기반의 설명을 생성하도록 구성된다. 옵션으로서, 동일한 파라미터를 공유하는 다수의 태스크 및 다수의 모달리티를 프로세싱하기 위해, XTT는 설명 가능 모델을 활용하도록, 상기 하나 이상의 입력 피쳐와 관련되는 하나 이상의 태스크에 대응하는 다수의 입력을 수신하도록, 그리고 태스크에 대한 출력에 대응하는 다수의 출력을 생성하도록 구성되고, 설명 가능 모델은, 옵션 사항으로, 계층적 크로스오버 구조(hierarchical crossover structure)에 의해 정의되고, 옵션 사항으로, 복수의 크로스오버 서브시스템으로 구성되며, 상이한 태스크에 대해 학습되는 상이한 지식 사이의 크로스오버가 효율적으로 발생하는 것을 허용하도록 구성되고, 계층적 크로스오버 구조는 하나 이상의 단방향 링크 노드 및/또는 하나 이상의 양방향 링크 노드 및, 옵션 사항으로, 크로스오버 노이즈 노드 및/또는 크로스오버 노드간 링크를 포함하고, 그리고 설명 가능 모델은, 옵션 사항으로, 희소한 설명 가능 모델 또는 DEA이다. 옵션으로서, TT의 입력에 커플링되어 CNN-XTT 아키텍쳐를 정의하는 X 컨볼루션 신경망(CNN)을 더 포함하고, CNN-XTT는 질의에 대한 CNN-XTT에서의 활성화 경로를 시각화하기 위해 백맵을 사용하도록, 옵션 사항으로, 정당성의 일부로서 백맵을 통합하도록 구성되고, CNN-XTT는, 옵션 사항으로, 본질적으로 텍스트가 아닌 데이터 포맷을 사용하여 커널 라벨링 방법을 관련된 인간이 판독 가능한 라벨에 통합하도록 구성되고, 커널 라벨링 방법과 관련되는 커널 타입은, 옵션 사항으로, 근사 커널이고, CNN은, 옵션 사항으로, 시간적으로 최적화된 CNN이다. 옵션으로서, 시스템은, 인간이 판독 가능한 자연어, 그래픽 또는 시각적 포맷, 오디오, 음성, 햅틱, 비디오, 시계열, 다중 스펙트럼 데이터, 계층적으로 정렬된 멀티미디어 콘텐츠, 및 3D 데이터: 중 하나 이상인 포맷 또는 레이아웃으로 데이터를 출력하도록 구성되고, 출력 데이터는, 옵션 사항으로, 2D 데이터, 3D 데이터, 다차원 데이터 어레이, 트랜잭션 데이터, 시계열, 디지털화된 샘플, 센서 데이터, 이미지 데이터, 초분광 데이터, 자연어 텍스트, 비디오 데이터, 오디오 데이터, 햅틱 데이터, LIDAR 데이터, RADAR 데이터, SONAR 데이터: 중 하나 이상인 순차적 포맷 또는 레이아웃으로 되어 있다. 옵션으로서, 설명 가능 트랜스듀서 변환기는 동일한 세트의 파라미터를 사용하여 복수의 태스크 또는 모달리티를 실행하도록 구성되고, 복수의 입력은 하나 이상의 입력 피쳐와 관련되는 하나 이상의 태스크에 대응하고 복수의 출력은 각각의 태스크에 대응하고; 설명 가능 트랜스듀서 변환기는 계층적 파티션 구조 및 상이한 태스크에 대해 학습되는 지식을 크로스오버하도록 구성되는 크로스오버 구조 서브시스템을 더 포함하고; 예측 네트워크는 계층적 파티션 구조 내에서 하나 이상의 피쳐 상호 작용을 식별하도록 구성되고, 조건부 네트워크는 태스크를 관련된 입력 및 출력과 링크하기 위해 계층적 파티션 구조를 통해 경로 트레이스를 선택, 편성, 및 다중화하도록 구성되고; 그리고 희소한 설명 가능 모델은 조건부 네트워크 및 예측 네트워크 중 적어도 하나에서 구현되고, 크로스오버 구조 서브시스템은 단방향 링크 노드, 양방향 링크 노드, 크로스오버 노이즈 노드, 및 크로스오버 노드간 링크 중 적어도 하나를 구현한다. 옵션으로서, 하나 이상의 컨볼루션 레이어를 적용하도록 구성되고 다음의 것: 설명을 생성하기 위한 백맵 또는 역 인덱싱 메커니즘 및 커널, 패턴, 심볼, 및 개념의 점진적 개선을 사용하여 인간이 판독 가능한 라벨을 비 텍스트 데이터와 관련시키도록 구성되는 커널 라벨링 방법을 구현하도록 구성되는 컨볼루션 레이어; 및 선형, 비선형 다항식, 지수, 방사 기저 함수, 또는 시그모이드 커널 중 적어도 하나를 포함하는 하나 이상의 커널 타입은 구적 방법, 특이 값 분해, 랜덤 푸리에 피쳐, 또는 랜덤 비닝 피쳐 중 적어도 하나를 사용하여 필요로 되는 계산 및/또는 리소스의 양을 감소시키도록 구현되고; 그리고 하나 이상의 시간 컨볼루션 네트워크를 더 포함한다. 옵션으로서, 설명은 설명 가능 에이전트의 액션 및 결정에 따라 설명된 전략 및 시나리오 기반의 설명을 생성하기 위한 하나 이상의 what-if, what-if-not, 반사실적, but-for, 또는 조건부 시나리오와 관련되는 시나리오 기반의 설명을 포함하고; 및/또는 설명 가능 에이전트는 결정 결과에서의 변경으로 이어지고 총 액션 비용을 최소화하는 특정한 컨텍스트를 갖는 주어진 유저에 대한 제안된 액션을 학습하도록 트레이닝되고, 총 비용은 각각의 타입의 비용에 대한 메트릭에 기초하여 각각의 변수와 관련되는 하나 이상의 비용의 통합이며; 및/또는 가장 가까운 이웃 방법, 식별 평가 추천 해결(IAR) 프레임워크, 다중 목적 최적화(MOO), 파레토 프론트 방법, 입자 군집 최적화(PSO), 유전 알고리즘(GA), 베이지안 최적화, 진화 전략, 경사 하강 기법 및 몬테 카를로 시뮬레이션(MCS)의 사용과 관련한 시나리오 기반의 설명. 옵션으로서, 인코더 레이어는 멀티 헤드 어텐션 컴포넌트의 출력, 추가 및 정규화 컴포넌트의 출력, 입력의 설명 가능 정보 또는 파티셔닝 정보 중 적어도 하나를 수신하도록 구성되는 병렬의 설명 가능 인코더 레이어이고, 디코더 레이어는 병렬의 설명 가능 디코더 레이어로부터의 출력을 수신하도록 구성되는 병렬의 설명 가능 디코더 레이어이고, 추가 및 정규화 컴포넌트 및 멀티 헤드 어텐션 컴포넌트를 포함하고, 그리고 병렬의 설명 가능 인코더 레이어의 출력은 병렬의 설명 가능 디코더 레이어의 출력과 병합된다. 옵션으로서, 현재의 설명과 이전에 제시된 설명 사이의 차이 및/또는 변화는 설명에서의 후속하는 변화를 예측하기 위한 설명 가능 트랜스듀서 변환기에 대한 입력으로서 사용되고; 디코더는 현재의 설명 및 과거의 설명 그래디언트를 포함하는 컨텍스트 윈도우가 주어지면 다음 번 그래디언트를 예측하기 위해 설명 그래디언트의 세트에 대해 트레이닝되고; 그리고 입력 및/또는 출력의 희소 임베딩된 표현은 하나 이상의 유사도 및 대조 엘리먼트를 식별한다. 옵션으로서, 하나 이상의 설명, 설명의 그래디언트, 또는 설명 가능 아키텍쳐의 파티셔닝 정보가 인코더 레이어에 대한 입력으로서 사용되고; 설명 가능 오토인코더-디코더는 인코더 레이어 및 디코더 레이어를 포함하고; 그리고 출력은 설명 가능 트랜스듀서-변환기의 하나 이상의 레이어에 대한 트레이닝 입력으로서 사용되도록 구성되는 하나 이상의 트레이닝 데이터세트 샘플을 포함한다. 옵션으로서, 설명 가능 트랜스듀서 변환기 내의 하나 이상의 설명 가능 아키텍쳐의 계수는 제로샷 학습 또는 퓨샷 학습을 사용하여 인간 지식 주입에 의해 수정되고; 설명 가능 트랜스듀서 변환기의 하나 이상의 레이어는 귀납적 로직, 연역적 로직, 귀추적 로직, 및 인과적 로직 중 적어도 하나를 구현하고; 그리고 설명 가능 트랜스듀서 변환기는 하나 이상의 설명 가능하지 않은 잠재적 공간을 제거하도록 구성된다. 옵션으로서, 출력은 다음의 것 중 하나 이상을 추가로 적용한다: 푸리에 변환, 정수 변환, 실수 변환, 복소수 변환, 쿼터니언 변환, 옥토니언 변환, 월시 함수, 상태 공간 변환, 위상 공간 변환, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 퍼지 로직, 지식 그래프 네트워크, 카테고리형 인코딩, 차이 분석, 정규화, 표준화, 다차원 베지어 곡선, 순환 관계, 및 인과 연산자. 옵션으로서, 적어도 하나의 활성화 함수 및/또는 변환 함수를 더 포함하고, 변환 함수는 다음의 것 중 적어도 하나를 사용하여 출력을 변환하도록 구성된다: 계층적 트리, 인과 다이어그램, 방향성 또는 무방향성 그래프, 하이퍼그래프, 또는 단순체 복합체, 멀티미디어 구조, 및 하이퍼링크 그래프의 세트. 옵션으로서, 각각의 파티션은 선형 모델에 적합하도록 그리고 다항식 확장, 회전, 차원 및 무차원 스케일링, 상태 공간 및 위상 공간 변환, 정수/실수/복소수/쿼터니언/옥토니언 변환, 푸리에 변환, 월시 함수, 연속 데이터 버킷화, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 및 타입 2 퍼지 로직, 지식 그래프 네트워크, 카테고리형 인코딩, 콜모고로프/프레쳇/하우스도르프/타이초노프 공간의 위상 변환, 차이 분석 및 데이터의 정규화/표준화 중 적어도 하나를 포함하는 비선형 변환을 적용하도록 구성된다. 옵션으로서, 각각의 파티션은 규칙 또는 거리 유사도 함수에 따라 복수의 데이터 포인트를 그룹화하도록 구성되는 클러스터를 포함하고, 각각의 파티션은 데이터의 개념 또는 카테고리를 나타낸다. 옵션으로서, 파티션은, k 평균, 베이지안, 연결성 기반, 중심 기반, 분포 기반, 그리드 기반, 밀도 기반, 퍼지 로직 기반, 엔트로피, 또는 상호 정보(MI) 기반의 방법: 중 하나 이상을 포함하는 클러스터링 알고리즘에 기초하여 형성되고, 클러스터링 알고리즘은 복수의 중첩 또는 비중첩 파티션을 초래하는 앙상블 방법, 관련성 기반의 알고리즘, 또는 인과 관계 기반의 파티셔닝 함수를 더 포함한다. 옵션으로서, 입력은 구조화된 데이터 및 구조화되지 않은 데이터, 또는 하나 이상의 트리, 그래프, 하이퍼그래프, 및 단순체 복합체를 포함하는 계층적으로 구조화된 데이터를 포함하고, 그리고 설명 가능 트랜스듀서 변환기는 리소스 디스크립션 프레임워크(RDF) 트리, RDF 그래프, 또는 레비 그래프, 및 하나 이상의 결정 로그 및 경로 트레이스를 식별하도록 구성되는 감사 로그 중 적어도 하나를 포함하는 지식 표현 구조를 더 포함한다. 옵션으로서, 설명 가능 트랜스듀서 변환기는 원인과 결과 관련성, 중재, 및 반사실적 인과 로직을 식별하도록 구성되는, 그리고 추가로 환경 모델 입력을 사용하여 타당성 체크를 수행하도록 구성되고 인과적으로 타당한 동형 사상을 사용하여 트레이닝 데이터를 증강시키도록 구성되는 적어도 하나의 인과 모델을 추가로 구현하고; 적어도 하나의 인과 모델은 어텐션 모델을 사용하여 자동적으로 생성되고 일반화된 타겟에 대한 전제와 결과적 일반화 사이의 인과 링크를 식별하도록, 인과 구조를 추출하도록, 그리고 초기 인과 모델을 생성하도록 구성되고; 활성화의 과거의 레이트를 식별하는 하나 이상의 신경 심볼 제약을 더 포함하고 - 활성화의 레이트는 제약될 수 있음 - ; 그리고 설명 가능 모델 내의 하나 이상의 컴포넌트 또는 레이어에 할당되는 명명된 참조 라벨 - 각각의 명명된 참조 라벨은 적어도 하나의 설명 또는 메타데이터 및 안전 관련 제약을 제공하는 외부 분류법, 온톨로지, 및 모델에 대한 링크를 포함함 - 을 더 포함한다. 옵션으로서, 입력 레이어 이전에 또는 입력 레이어 이후에 입력을 정규화하도록 구성되는 정규화 모듈, 입력 레이어 이전에 또는 입력 레이어 이후에 입력을 스케일링하도록 구성되는 스케일링 모듈, 및 입력 레이어 이전에 또는 입력 레이어 이후에 입력을 표준화하도록 구성되는 표준화 모듈을 포함하는 하나 이상의 입력 모듈 및 출력 모듈을 더 포함한다. 옵션으로서, 설명 가능 트랜스듀서 변환기는 하나 이상의 설명 가능 레이어 또는 모델을 포함하는 분산된 설명 가능 아키텍쳐 상에서 구현되고, 그리고 하나 이상의 독립 모델은 하나 이상의 설명 가능 레이어 또는 모델과는 독립적으로 활성화하도록 구성된다. 옵션으로서, 설명 가능 트랜스듀서 변환기는 자기 감독 기술을 사용하여 트레이닝되도록 그리고 액션의 시간 로직, 추상 머신 표기법, 페트리 넷, 계산 트리 로직, 직관주의 로직, 및/또는 관계형 의미론 중 하나 이상을 사용하여 검증되도록 구성된다. 옵션으로서, 설명 가능 트랜스듀서 변환기는 현존하는 형식 컴퓨터 프로그램을 분석 및 파싱하도록 구성되고, 컴퓨터 프로그램은 하나 이상의 설명 가능 모델 내에서 계층적 파티션 구조로 모델링되고, 형식적 명세 언어는 컴퓨터 프로그램을 사용하여 해결될 문제를 명시하기 위해 사용되고, 설명 가능 트랜스듀서 변환기는 해결될 문제에 대한 후보 코드 솔루션을 생성하도록 구성되거나; 또는 설명 가능 트랜스듀서 변환기는 사전 정의된 문체 표준에 따라 코드를 변환하도록, 불일치 또는 에러를 강조 표시하도록, 그리고 코드의 대안 및 리팩토링 또는 재작성을 제안하도록, 난독화된 코드를 난독화 해제하도록, 그리고 알파 변환, 베타 감소, 및 에타 감소 중 하나 이상을 생성된 코드에 적용하도록 구성되거나, 또는 설명 가능 트랜스듀서 변환기는, 증명된 명령문 및/또는 불완전한 명령문의 현존하는 콜렉션을 사용하여 수학적 표현, 명령문, 및 증명을 분석, 생성 및 자동 완성하기 위해 자동화된 이론 증명 시스템과 함께 구현되거나, 또는 설명 가능 트랜스듀서 변환기는 음성 오디오 파형을 대응하는 텍스트로 또는 잠재적인 이산 표현으로 번역하기 위한 종단간 자동 음성 인식 아키텍쳐를 더 포함하거나, 설명 가능 트랜스듀서 변환기는 다중 오브젝트 추적을 위한 또는 디지털 표면 모델 또는 깊이 맵을 생성을 위해, 위성, 항공, 또는 조감도 이미지를 매치시키기 위한 또는 단안, 입체 및 다중 뷰 입력 데이터의 화상을 프로세싱하기 위한, 또는 비디오에 오디오 클립이 존재하는지를 예측하기 위한 오디오 시각화 분류를 위한 시스템을 더 포함한다. 옵션으로서, 적어도 하나의 레이어는, 유연한 아키텍쳐 또는 필드 프로그래머블 게이트 어레이, 정적 아키텍쳐 또는 주문형 집적 회로, 아날로그 또는 디지털 전자기기, 광전자기기(photo-electronic), 광학 프로세서, 뉴로모픽 아키텍쳐, 스핀트로닉, 또는 멤리스터, 별개의 컴퓨팅 컴포넌트, 스파이킹 뉴런, 로봇 하드웨어, 자율 차량, 산업 제어 하드웨어, 또는 양자 컴퓨팅 하드웨어: 중 적어도 하나를 포함하는 하드웨어 상에서 구현되고, 하드웨어 상의 적어도 하나의 레이어의 구현예는 하드웨어 상의 양자화 또는 하드웨어 지향 압축 기술의 적용 중 적어도 하나에 기초하고; 그리고 적어도 하나의 레이어는 희소한 설명 가능 신경망 아키텍쳐를 포함하고, 그리고 설명 가능 모델은 하나 이상의 워크플로우, 프로세스 플로우, 빠른 가중치, 로봇 프로세스 자동화(RPA), 결정 지원 시스템(DSS), 데이터 레이크, 근본 원인 분석(Root Cause Analysis; RCA), 목표 계획 액션(Goal-Plan-Action; GPA) 시스템, 프로세스 설명, 상태 전이 차트, 페트리 네트워크, 전자 회로, 로직 게이트, 광학 회로, 디지털 아날로그 하이브리드 회로, 생체 기계 인터페이스(bio-mechanical interface), 생체 전기 인터페이스(bio-electrical interface), 및 양자 회로를 구현한다. 옵션으로서, 설명 가능 모델을 포함하는 설명 구조 모델(ESM), 복수의 통계적 관계를 모델링하는 통계 구조 모델, 인과 구조 모델(causal structural model; CSM) - CSM은 복수의 인과 관계를 모델링함 - , 및 심볼 구조 모델(symbolic structural model) - 심볼 구조 모델은 하나 이상의 규칙 및/또는 심볼 로직으로서 형성되는 복수의 심볼 및 논리적 관계를 모델링함 - 을 형성하도록 구성되는 적어도 하나의 설명 가능 모델을 더 포함하고, 하나 이상의 통계적, 인과적, 심볼, 또는 논리적 관계는 앵커 컴포넌트로서 모델링되고, 설명 출력 템플릿(explanation output template; EOT)을 출력하도록 구성되는 설명 해석 생성 시스템(EIGS) 및/또는 설명 필터 해석, 및 파티셔닝 정보, 하나 이상의 설명 가능 모델의 내부 계수, 및 입력 공간의 피쳐 속성 중 적어도 하나를 포함하는 복수의 레벨의 설명을 생성하도록 구성되는 설명 가능 셀프 어텐션 메커니즘을 구현하는 것을 더 포함하고, 그리고 설명은 인터프리터에 대한 입력으로서 사용된다. 옵션으로서, 설명은 기본 해석, 설명 해석, 메타 설명 해석 중 적어도 하나, 및 설명 가능 모델과 관련하여 트리거 활성화의 레이트를 제약하기 위해 활성화의 레이트를 갖는 신경 심볼 조건부 제약을 더 포함하고, 신경 심볼 조건부 제약은 다음의 것 중 적어도 하나로서 구현된다: 심볼 규칙 또는 심볼 표현의 시스템, 다항식, 조건부 및 비조건부 확률 분포, 결합 확률 분포, 상태 공간 및 위상 공간 변환, 정수/실수/복소수/쿼터니언/옥토니언 변환, 푸리에 변환, 월시 함수, 하르 및 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 및 타입 2 퍼지 로직, 차이 분석, 및 지식 그래프 네트워크. 옵션으로서, 모델 출력을 수신하여 설명 스캐폴딩을 사용하여 설명을 생성하도록 구성되는 설명 컴포넌트 - 설명 스캐폴딩은: 답변을 나타내는 모델 출력, 모델 설명, 및 모델 융합 및 링크 컴포넌트를 포함하는 설명 모델 컴포넌트를 포함하고, 모델 융합 및 링크 컴포넌트는 하나 이상의 시스템과 데이터베이스 사이의 하나 이상의 링크와 관련되는 메타데이터 및 정보를 저장하도록 구성됨 - ; 하나 이상의 구조 방정식 모델, 구조적 인과 모델, 및/또는 인과적 방향성 비순환 그래프(causal directed acyclic graph)를 형성하는 것에 의해 적어도 하나의 원인과 결과 관계를 모델링하도록 구성되는 가설 및 인과 컴포넌트; 및 시나리오, 상호 작용, 및 프리젠테이션 컴포넌트를 더 포함한다. 옵션으로서, 출력은 답변, 모델 설명, 및 답변 및/또는 모델 설명의 정당성을 포함하고, 정당성은 답변 또는 모델 설명에 도달함에 있어서 설명 가능 신경망에 의해 사용되는 적어도 하나의 가정, 프로세스, 또는 결정을 나타낸다. 옵션으로서, 출력은, 인간이 판독 가능한 자연어 포맷, 그래픽 또는 시각적 포맷, 오디오, 음성, 햅틱, 비디오, 시계열, 다중 스펙트럼 데이터, 계층적으로 정렬된 멀티미디어 콘텐츠, 및 3D 데이터: 중 적어도 하나를 포함하고, 그리고 설명 가능 트랜스듀서 변환기는, 순차적 포맷 및 출력 값 또는 분류 또는 데이터 포인트 또는 데이터 포인트의 연속적 또는 비연속적 간격을 나타내는 하나 이상의 관련된 라벨을 포함하는 시퀀스 데이터를 프로세싱하도록 구성되고, 입력 시퀀스는 멀티모델 및 멀티태스크 방식으로 출력 시퀀스에 매핑된다. 옵션으로서, 옵션으로서, 적어도 하나의 설명 가능 신경망은 와이드 학습 모델을 구현하도록 구성된다. 옵션으로서, 조건부 레이어는 외부 파티션 생성 프로세스에 기초하여 하나 이상의 파티션을 수신하도록 구성된다. 옵션으로서, 하나 이상의 파티션은 사전 트레이닝되거나 또는 링크된 분류법 또는 온톨로지로부터 초기화된다. 옵션으로서, 옵션으로서, 파티션을 추가로 개선하기 위해 경사 하강 방법이 적용되고, 그리고 파티션 중 하나 이상은: 정적 값으로 잠겨 있거나; 역방향 트레이닝 기술, 다중 목표 최적화, 유전 알고리즘, 몬테 카를로 시뮬레이션 방법, 또는 인과 로직 및 시뮬레이션 기술을 사용하여 동적으로 조정 가능하거나; 또는 계층적이다. 옵션으로서, 하나 이상의 중첩 또는 비중첩 파티션을 선택, 병합, 또는 분할하도록 구성되는 순위 매김 함수를 더 포함하고, 그리고 하나 이상의 파티션은 적어도 두 개의 상이한 레벨의 의미론적 및 기호학적 세부 사항을 사용하여 심볼 및 개념을 나타내도록 구성된다.
상기에서 설명되는 예 중 임의의 것의 양태는, 추구되는 효과를 잃지 않으면서, 설명되는 다른 예 중 임의의 것의 양태 및/또는 옵션과 결합되어 추가적인 예를 형성할 수도 있다.
전술한 설명 및 수반되는 도면은 본 발명의 원리, 바람직한 실시형태, 및 동작 모드를 예시한다. 그러나, 본 발명은 상기에서 논의되는 특정한 실시형태에 제한되는 것으로 해석되어서는 안된다. 상기에서 논의되는 실시형태의 추가적인 변형예가 기술 분야의 숙련된 자에 의해 인식될 것이다(예를 들면, 본 발명의 소정의 구성과 관련되는 피쳐는, 소망에 따라, 본 발명의 임의의 다른 구성과 대신 관련될 수도 있음).
따라서, 상기에서 설명된 실시형태는 제한적인 것이 아니라 예시적인 것으로 여겨져야 한다. 따라서, 그들 실시형태에 대한 변형예가 다음의 청구범위에 의해 정의되는 바와 같은 본 발명의 범위로부터 벗어나지 않으면서 기술 분야의 숙련된 자에 의해 이루어질 수 있다는 것이 인식되어야 한다.

Claims (42)

  1. 설명 가능 머신 러닝 시스템(explainable machine learning system)으로서,
    상기 머신 러닝 시스템이 입력 언어로부터의 데이터를 제2 출력 언어로 번역, 매핑, 및 변환하는 것을 허용하도록 구성되는 유한 상태 트랜스듀서(finite state transducer; FST) - 상기 유한 상태 트랜스듀서는 변환을 위해 사용되는 하나 이상의 입력 피쳐를 포함하는 또는 상기 하나 이상의 입력 피쳐를 변환하는 상기 입력 언어로부터의 상기 데이터를 수신하도록 적응되고, 상기 유한 상태 트랜스듀서는 또한, 상기 제2 출력 언어로서 상기 하나 이상의 입력 피쳐에 기초하여 번역된, 매핑된, 및/또는 변환된 데이터를 제공하도록 구성됨 - ; 및/또는
    상기 입력 언어로부터의 상기 데이터와 관련하여 형성되는 디코더 및 인코더 컴포넌트의 조합에 기초한 어텐션 기반의 아키텍쳐(attention-based architecture)를 갖는 설명 가능 변환기
    를 포함하고,
    상기 유한 상태 트랜스듀서 및 상기 설명 가능 변환기는 결합되어 상기 입력 언어로부터의 상기 데이터를 번역, 매핑, 및 변환하도록 구성되는 설명 가능 트랜스듀서 변환기(explainable transducer transformer; XTT)를 생성하도록 구성되는 것인, 설명 가능 머신 러닝 시스템.
  2. 제1항에 있어서,
    상기 설명 가능 변환기는:
    상기 입력 언어로부터의 상기 데이터와 연관되는 입력을 수신하도록 그리고 상기 하나 이상의 입력 피쳐를 식별하도록 구성되는 입력 레이어;
    조건부 네트워크 - 상기 조건부 네트워크는: 하나 이상의 파티션 - 상기 하나 이상의 파티션 각각은 규칙을 포함함 - 에 기초하여 상기 하나 이상의 입력 피쳐를 모델링하도록 구성되는 조건부 레이어; 하나 이상의 규칙을 하나 이상의 집성된 파티션으로 집성하도록 구성되는 집성 레이어(aggregation layer); 및 상기 집성 레이어로부터의 상기 집성된 파티션을 상기 조건부 레이어로부터의 상기 하나 이상의 파티션과 함께 선택적으로 풀링하도록 구성되는 스위치 출력 레이어를 포함함- ;
    예측 네트워크 - 상기 예측 네트워크는: 하나 이상의 변환을 상기 하나 이상의 입력 피쳐에 적용하도록 구성되는 하나 이상의 변환 뉴런을 포함하는 피쳐 생성 및 변환 네트워크; 하나 이상의 피쳐 및 하나 이상의 파티션: 중 적어도 하나에 연관되는 하나 이상의 계수를 식별하기 위해 상기 피쳐 생성 및 변환 네트워크에 의해 변환된 피쳐를 결합하도록 구성되는 적합 레이어; 상기 하나 이상의 계수를 분석하도록 구성되고 상기 하나 이상의 피쳐 또는 상기 하나 이상의 파티션 중 적어도 하나에 연관되는 값을 출력하도록 구성되는 값 출력 레이어를 포함하고, 상기 디코더 및 상기 인코더 컴포넌트는 상기 입력을 인코딩하기 위한 적어도 하나의 레이어 및 상기 입력을 디코딩하기 위한 적어도 하나의 레이어를 포함하고, 디코더 및 인코더 컴포넌트는 상기 입력으로부터 형성되는 설명 가능 아키텍쳐를 포함함 - ;
    머신 프로그램 또는 인간 중 적어도 하나에 의해 해석 가능한 그리고 설명 가능한 출력을 생성하도록 구성되는 출력 레이어 - 상기 파티션 전체에 걸친 하나 이상의 실행 경로는 외부 프로세스에 의해 식별 가능함 - 를 포함하는, 설명 가능 머신 러닝 시스템.
  3. 제1항 또는 제2항에 있어서,
    상기 XTT는 설명 가능 변환기 인코더(explainable transformer-encoder) 또는 설명 가능 변환기 디코더(explainable transformer-decoder)로서 동작하도록 구성되고, 상기 시스템은, 옵션 사항으로, 상기 XTT의 내부 계수에 대한 조건부 제약을 더 포함하고, 상기 조건부 제약은, 옵션 사항으로, 상기 XTT의 공칭 동작 사이클 동안 모니터링되도록 구성되는, 설명 가능 머신 러닝 시스템.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 설명 가능 트랜스듀서는 상기 디코더 컴포넌트 및/또는 상기 인코더 컴포넌트의 하위 레이어에서 화이트박스 모델 컴포넌트(white-box model component)를 포함하는, 설명 가능 머신 러닝 시스템.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    설명 가능 신경망(explainable neural network; XNN)을 포함하는 설명 가능 아키텍쳐가 상기 XTT에서 활용되고,
    상기 XNN은 옵션 사항으로:
    입력 레이어 - 상기 입력 레이어는:
    조건부 레이어, 집성 레이어, 및 스위치 출력 레이어를 포함하는 조건부 네트워크; 및
    피쳐 생성 및 변환 레이어, 적합 레이어, 및 예측 출력 레이어를 포함하는 예측 네트워크
    에 입력되도록 구성됨 - 및
    상기 스위치 출력 레이어의 출력 및 상기 예측 출력 레이어의 출력을 곱하여 순위가 매겨진 또는 점수가 매겨진 출력을 생성하도록 구성되는 선택 및 순위 매김 레이어를 포함하고,
    상기 XNN은, 옵션 사항으로, 빠른 가중치(Fast Weight)를 포함하는, 설명 가능 머신 러닝 시스템.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    해석 가능 신경망(interpretable neural network; INN)을 포함하는 설명 가능 아키텍쳐가 상기 XTT에서 활용되고; 및/또는
    설명 가능 아키텍쳐는 설명 가능 보강 학습(explainable reinforcement learning; XRL) 시스템을 포함하고; 및/또는
    상기 XTT는 와이드 학습 모델(wide learning model)을 지원하도록 구성되는, 설명 가능 머신 러닝 시스템.
  7. 제2항 내지 제6항에 있어서,
    상기 설명 가능 아키텍쳐는:
    답변으로 구성되는 설명 가능 또는 해석 가능 출력을 생성하도록;
    그 답변의 옵션 사항의(optional) 모델 설명을 생성하도록,
    옵션 사항으로, 상기 답변 및/또는 상기 모델 설명의 정당성을 생성하도록 구성되는, 설명 가능 머신 러닝 시스템.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 XTT는 상기 하나 이상의 입력 피쳐를 프로세싱하도록 구성되는 파티션 - 상기 파티션은 규칙 및/또는 거리 유사도 함수에 따라 옵션 사항으로 데이터 포인트를 그룹화하는 클러스터이고, 상기 파티션은 그들의 값이 정적 값으로 설정된 잠긴 파티션이거나 또는 상기 XTT의 각각의 역방향 트레이닝 패스(backward training pass)에 대해 동적으로 이동 가능한 이동 가능 파티션임 - 을 포함하거나, 상기 파티션은 상기 XTT를 처음 생성하는 외부 프로세스에 의해 상기 XTT의 일부로서 초기에 생성되거나, 또는
    상기 파티션은 파티셔닝 정보를 제공하는 링크된 분류법(taxonomy) 또는 온톨로지(ontology)로부터 적절하게 초기화되거나 또는 사전 트레이닝되고, 상기 XTT는, 옵션 사항으로, 상기 파티션이 사전 트레이닝된 이후 사전 미세 튜닝되고, 그리고 일단 상기 파티션이 생성되면, 상기 XTT는 경사 하강 방법(gradient descent method)을 사용하여 상기 파티션을 적합시키거나 또는 추가로 개선하도록 구성되고, 그리고 상기 파티션 구조는, 옵션 사항으로, 그래프 또는 하이퍼그래프로 배열되고 상기 시스템은, 옵션 사항으로, 그래프 대 시퀀스, 시퀀스 대 그래프, 및 그래프 대 그래프 변환 모드를 프로세싱하도록 구성되는, 설명 가능 머신 러닝 시스템.
  9. 제8항에 있어서,
    상기 XTT는 상기 XTT가 파티션을 선택, 병합 또는 분할하는 방법을 결정하기 위해 순위 매김 함수(ranking function)를 구현하도록 구성되고, 상기 파티션은, 옵션 사항으로, 상이한 레벨의 의미론적(semantic) 및 기호학적(semiotic) 세부 사항에서 심볼을 표현하기 위해 사용 가능한 계층적 본질에 따라 배열되는, 설명 가능 머신 러닝 시스템.
  10. 제8항 또는 제9항에 있어서,
    상기 파티션은, 다중 목표 최적화 기술(multiple objective optimisation technique), 유전 알고리즘(genetic algorithm), 몬테 카를로(Monte Carlo) 시뮬레이션 방법, 및/또는 캐주얼 로직 및 시뮬레이션 기술: 중 하나 이상을 사용하여 변경 가능한, 설명 가능 머신 러닝 시스템.
  11. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 파티션은: 두 개 이상의 중첩 파티션 및 상기 중첩 파티션 중 어떤 것을 활성화할지를 결정하도록 구성되는 우선 순위 함수(priority function); 두 개 이상의 비중첩 파티션; 및/또는
    다수의 활성화된 파티션으로부터의 결과를 결합 또는 분할하도록 구성되는 집성 함수(aggregate function)를 포함하고, 상기 파티션은, 옵션 사항으로, 희소(sparse) XNN 또는 INN을 사용하여 구현되는, 설명 가능 머신 러닝 시스템.
  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    각각의 파티션은, 선형 모델에 맞는 데이터; 및 선형 모델을 상기 데이터에 적합시키기 이전에, 다항식 확장, 회전, 차원 스케일링, 무차원(dimensionless) 스케일링, 상태 공간 변환(state-space transform), 위상 공간 변환(phase-space transform), 정수 변환, 실수 변환, 복소수 변환, 쿼터니언(quaternion) 변환, 옥토니언(octonion) 변환, 푸리에(Fourier) 변환, 월시(Walsh) 함수, 연속 데이터 버킷화(continuous data bucketization), Haar(하르) 웨이블릿, non-Haar(비 하르) 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, Hadamard(아다마르) 변환, 타입 1 또는 타입 2 퍼지 로직 지식 그래프 네트워크, 카테고리형 인코딩(categorical encoding), Kolmogorov(콜모고로프) 공간, Frechet(프레쳇) 공간, Hausdorff(하우스도르프) 공간 또는 Tychonoff(타이초노프) 공간의 위상 변환, 차이 분석, 정규화, 표준화, 및 조건부 피쳐: 중 적어도 하나가 적용된 데이터: 중 하나 이상을 포함하는, 설명 가능 머신 러닝 시스템.
  13. 제8항 내지 제12항 중 어느 한 항에 있어서,
    상기 파티션은 파티셔닝 함수에 따른 계층 구조로 배열되되, 상기 파티셔닝 함수는, k 평균(k-means) 함수, Bayesian(베이지안) 함수, 연결성 기반의 파티셔닝 함수, 중심 기반의 파티셔닝 함수(centroid based partitioning function), 분포 기반의 파티셔닝 함수, 그리드 기반의 파티셔닝 함수, 밀도 기반의 파티셔닝 함수, 퍼지 로직 기반의 파티셔닝 함수, 엔트로피 기반의 함수, 또는 상호 정보 기반의 방법:으로부터의 하나 이상을 포함하는 클러스터링 알고리즘을 포함하고; 상기 파티션 함수는, 옵션 사항으로, 복수의 중첩 및/또는 비중첩 파티션을 생성하는 앙상블 방법(ensemble method)을 포함하는, 설명 가능 머신 러닝 시스템.
  14. 제8항 내지 제13항 중 어느 한 항에 있어서,
    상기 XTT는 상기 파티션 중 하나 이상의 파티션에 대해 하나 이상의 반복적 최적화 단계를 실행하도록 구성되고, 상기 하나 이상의 반복적 최적화 단계는, 옵션 사항으로: 적절한 집성, 분할 또는 최적화 방법을 사용하여 상기 파티션을 병합 및 분할하는 것을 수반하는, 설명 가능 머신 러닝 시스템.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    상기 XTT는 상기 파티션과 연관되는 상기 모델 설명 및 정보를 예측하도록 구성되는 XTT 디코더 아키텍쳐(XTT-Decoder architecture)를 포함하고, 상기 XTT 디코더 아키텍쳐는 다음 번 모델 설명을 예측하기 위해 생성된 모델 설명을 사용하여 사전 트레이닝되고, 상기 XTT 디코더 아키텍쳐는, 옵션 사항으로, 다음 번 설명 그래디언트를 예측하여 상기 모델 설명에서의 차이 또는 변화를 예측하기 위해 설명 그래디언트의 세트에 대해 추가로 사전 트레이닝되고, 상기 XTT 디코더 아키텍쳐는, 옵션 사항으로, 트레이닝 동안 유사도(similarity) 및 대비(contrast) 둘 모두의 엘리먼트를 고려하기 위해 입력 및 출력 데이터의 임베딩된 표현에 대해 사전 트레이닝되며, 상기 임베딩된 표현은, 옵션 사항으로, 희소 임베딩인, 설명 가능 머신 러닝 시스템.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 설명 가능 변환기는 외부 설명 가능 모델로부터의 파티셔닝 정보를 상기 설명 가능 변환기의 상기 인코더 컴포넌트의 입력 임베딩에 그리고, 옵션 사항으로, 상기 설명 가능 변환기의 상기 디코더 컴포넌트의 출력 임베딩에 추가하는 것에 의해 트레이닝되거나; 또는
    상기 설명 가능 변환기는 상기 인코더 및 디코더 컴포넌트에 병렬인 두 개의 추가적인 레이어 - 상기 두 개의 추가적인 레이어는 상기 설명 가능 변환기의 입력 공간으로부터 설명 가능 아키텍쳐를 구성하도록 구성됨 - 를 포함하거나; 또는
    상기 설명 가능 변환기는 멀티 헤드 어텐션 컴포넌트(multi-head-attention component) 또는 추가 및 정규화 컴포넌트(add-and-normalization component)를 포함하는 병렬의 설명 가능 인코더 레이어 - 상기 병렬의 설명 가능 인코더 레이어는 상기 멀티 헤드 어텐션 컴포넌트의 출력 또는 상기 추가 및 정규화 컴포넌트의 출력, 및 파티셔닝 또는 설명 가능 정보를 입력으로서 수신하도록 구성됨 - 를 포함하고, 상기 설명 가능 변환기는, 옵션 사항으로, 상기 병렬의 설명 가능 인코더 레이어의 출력을 입력으로서 수신하도록 구성되는 병렬의 설명 가능 디코더 레이어를 더 포함하고, 상기 병렬의 설명 가능 인코더 레이어는, 옵션 사항으로, 하나 이상의 모델 설명, 상기 하나 이상의 모델 설명의 하나 이상의 그래디언트, 또는 하나 이상의 파티션과 연관되는 정보를 입력으로서 수신하도록 구성되는 설명 가능 아키텍쳐를, 옵션 사항으로, 포함하고, 상기 병렬의 설명 가능 디코더는, 옵션 사항으로, 설명 가능 아키텍쳐, 및 추가 및 정규화 컴포넌트를 포함하고, 상기 병렬의 설명 가능 인코더 레이어는, 옵션 사항으로, 상기 병렬의 설명 가능 인코더 레이어의 출력을 상기 디코더 컴포넌트의 멀티 헤드 어텐션 레이어로 전송하도록 구성되고, 상기 병렬의 설명 가능 인코더 레이어는, 옵션 사항으로, 상기 출력을 상기 디코더 컴포넌트의 상기 멀티 헤드 어텐션 레이어로 전송하기 이전에, 상기 출력을, 상기 설명 가능 변환기의 상기 인코더 컴포넌트의 출력과 병합하도록 구성되는, 설명 가능 머신 러닝 시스템.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 설명 가능 변환기의 상기 디코더 컴포넌트는 피드백 루프의 일부로서 입력으로서 상기 XTT의 출력을 수신하도록 구성되는, 설명 가능 머신 러닝 시스템.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서,
    상기 설명 가능 변환기의 상기 인코더 및 또는 디코더 컴포넌트는 설명 가능 자동 인코더 디코더(explainable Auto-Encoder-Decoder; XAED)로서 동작하도록 구성되는, 설명 가능 머신 러닝 시스템.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서,
    상기 XTT는 트레이닝 데이터세트의 하나 이상의 피쳐 변환을 포함하고, 상기 하나 이상의 피쳐 변환은, 옵션 사항으로, 다항식 확장, 회전 변환, 차원 스케일링, 무차원 스케일링, 푸리에 변환, 월시 함수, 상태 공간 변환, 위상 공간 변환, 하르 웨이블릿, 비 하르 웨이블릿, 일반화된 L2 함수, 프랙탈 기반의 변환, 아다마르 변환, 타입 1 퍼지 로직 그래프 네트워크, 타입 2 퍼지 로직 그래프 네트워크, 콜모고로프 공간, 프레쳇 공간, 하우스도르프 공간 또는 타이초노프 공간의 카테고리형 인코딩 위상 변환, 차이 분석, 데이터의 정규화, 및 데이터의 표준화: 중 하나 이상을 포함하고, 상기 하나 이상의 피쳐 변환은, 옵션 사항으로, 변환의 파이프라인으로서 배열되되, 상기 파이프라인은 옵션 사항으로: 하나 이상의 변수의 값에 따라 정렬되는 데이터의 시퀀스 - 데이터의 상기 시퀀스는, 옵션 사항으로, 시간적으로 정렬된 데이터 시퀀스를 포함함 - 를 분석하도록 구성되는 변환; 및/또는 경사 하강 방법 및 다른 설명 가능 아키텍쳐를 통해 획득되는 변환을 더 포함하는, 설명 가능 머신 러닝 시스템.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서,
    상기 XTT는, 인과 GAN 기반의 생성(causal GAN based generation), 유전 공학(genetic engineering), 몬테 카를로 시뮬레이션, 페트리 넷(Petri Net), 보강 학습 기술, 화이트박스 모델 및 연관된 글로벌 모델을 사용한 시뮬레이션, 및/또는 이용 가능할 수도 있는 임의의 다른 방법: 중 하나 이상의 기술을 사용하여 생성되는 상기 XTT를 트레이닝시키기 위한 트레이닝 데이터세트 샘플을 수신하도록 구성되는, 설명 가능 머신 러닝 시스템.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서,
    상기 XTT는 또한, 인간 지식 주입(human knowledge injection; HKI), 또는 시스템 지식 주입을 입력으로서 수신하도록 추가로 구성되고, 상기 XTT 내의 설명 가능 아키텍쳐의 계수는 인간 유저와 상기 머신 러닝 시스템 사이의 더욱 효과적인 협업으로 이어질 특정한 규칙을 시행하도록 수정 가능하고, 상기 XTT는, 옵션 사항으로, 제로샷(zero-shot) 학습 또는 퓨샷(few-shot) 학습을 위해 상기 HKI 또는 시스템 지식 주입을 사용하도록 구성되는, 설명 가능 머신 러닝 시스템.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    상기 XTT는 상기 XTT의 적응성을 향상시키기 위해 귀납적(inductive), 연역적(deductive), 귀추적(abductive), 및 인과적(causal) 로직 중 하나 이상을 구현하도록 구성되고, 상기 XTT는, 옵션 사항으로, 무모델(model-free) 및 모델 기반의 최적화 방법의 조합을 활용하도록 또한 구성되는, 설명 가능 머신 러닝 시스템.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서,
    상기 XTT는 상기 XTT의 상기 하나 이상의 입력 피쳐가 설명 가능할 정도까지 상기 XTT의 출력으로부터 설명 가능하지 않은 잠재적 공간의 완전한 제거를 가능하게 하도록 구성되는, 설명 가능 머신 러닝 시스템.
  24. 제1항 내지 제23항 중 어느 한 항에 있어서,
    상기 XTT는, 상기 XTT의 출력에, 푸리에 변환, 정수 변환, 실수 변환, 복소수 변환, 쿼터니언 변환, 옥토니언 변환, 월시 함수, 상태 공간 변환, 위상 공간 변환, 하르 웨이블릿, 비 하르 웨이블릿, 일반화된 L" 함수, 프랙탈 기반의 변환, 아다마르 변환, 퍼지 로직 그래프 네트워크, 카테고리형 인코딩, 차이 분석, 정규화, 표준화, 다차원 베지어 곡선(multi-dimensional Bezier curve), 회귀 관계, 및 인과 연산자(causal operator): 중 하나 이상을 적용하도록 구성되거나; 또는
    상기 XTT는 상기 XTT의 출력에 활성화 함수 또는 변환 함수를 적용하도록 구성되되, 상기 활성화 함수 또는 변환 함수는, 시그모이드(sigmoid) 함수, SoftMax(소프트맥스) 함수, 계층적 트리 또는 네트워크, 인과 다이어그램, 방향성 그래프, 무방향성 그래프, 하이퍼그래프, 단순체 복합체(simplicial complex), 멀티미디어 구조, 또는 하이퍼링크된 그래프의 세트: 중 하나 이상을 포함하는, 설명 가능 머신 러닝 시스템.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서,
    상기 XTT는 구조화된 데이터 및 구조화되지 않은 데이터 둘 모두를 프로세싱하도록, 그리고 계층적으로 구조화된 데이터를 프로세싱하도록 구성되고, 상기 계층적으로 구조화된 데이터는, 옵션 사항으로, 트리, 그래프, 하이퍼그래프 및/또는 단순체 복합체의 형태로 구조화되는, 설명 가능 머신 러닝 시스템.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서,
    상기 XTT는,
    상기 XTT의 입력 레이어에 의해 수신되기 이전에 또는 상기 입력 레이어로부터 출력된 이후 복수의 입력을 정규화하도록 구성되는 정규화 모듈;
    상기 입력 레이어에 의해 수신되기 이전에 또는 상기 입력 레이어로부터 출력된 이후 상기 입력을 스케일링하도록 구성되는 스케일링 모듈; 및
    상기 입력 레이어에 의해 수신되기 이전에 또는 상기 입력 레이어로부터 출력된 이후 상기 입력을 표준화하도록 구성되는 표준화 모듈
    을 더 포함하는, 설명 가능 머신 러닝 시스템.
  27. 제26항에 있어서,
    상기 입력의 상기 정규화는 편향 및 그들의 소스의 적절한 리포트 및 분석을 생성하는 것, 및 감독(supervised), 비감독(unsupervised), 또는 반감독(semi-supervised) 수단을 통해 편향 감소, 완화, 또는 제거를 위한 전략을 공식화하는 것을 수반하는, 설명 가능 머신 러닝 시스템.
  28. 제1항 내지 제27항 중 어느 한 항에 있어서,
    상기 XTT는 분산된 설명 가능 아키텍쳐(distributed explainable architecture; DEA)에 걸쳐 분산되고, 상기 DEA는 설명 가능 아키텍쳐의 동종(homogeneous) 또는 이종(heterogeneous) 혼합물로 구성되고, 상기 DEA는, 상기 DEA의 상기 설명 가능 아키텍쳐 각각을 트레이닝시키기 위해, 데이터세트를 데이터의 다수의 서브세트로 분할하도록 구성되고, 상기 DEA의 각각의 설명 가능 아키텍쳐는, 옵션 사항으로, 집합적 동작 기술을 비롯하여, 상기 DEA 내의 동종 및 이종 설명 가능 모델 혼합물에 적용되는 분산 트레이닝 기술을 사용하여 트레이닝 가능한, 설명 가능 머신 러닝 시스템.
  29. 제30항에 있어서,
    상기 DEA는:
    상기 DEA의 상기 모델이 설명 가능 인공 지능(eXplainable Artificial Intelligence; XAI), 해석 가능 신경망(Interpretable Neural Net; INN), 설명 가능 신경망(eXplainable Neural Net; XNN), 설명 가능 스파이킹 네트(eXplainable Spiking Net; XSN) 및 설명 가능 메모리 네트(eXplainable Memory Net; XMN), 및/또는 설명 가능 보강 학습(eXplainable Reinforcement Learning; XRL)의 혼합물이 되도록 하는 하이브리드 모델;
    복수의 독립 모델 - 주어진 독립 모델은, 일단 트레이닝되면, 상기 DEA에 의존하지 않고도, 독립적으로 작동하도록 구성 가능하고, 상기 DEA는 트레이닝을 위해 최적화됨 -
    중 하나 이상을 포함할 수도 있는, 설명 가능 머신 러닝 시스템.
  30. 제1항 내지 제29항 중 어느 한 항에 있어서,
    상기 XTT는 설명 및 해석 생성 시스템(Explanation and Interpretation Generation System; EIGS) 내에서 사용 가능하고, 입력 질의를 프로세싱하기 위한 그리고 상기 입력 질의에 관련이 있는 적절한 답변, 설명 및 옵션 사항의 정당성을 생성하기 위한 모델을 제공하도록 구성되고,
    상기 XTT는, 옵션 사항으로, 상기 EIGS의 하나 이상의 부분을 변환하도록 구성되고, 상기 EIGS의 하나 이상의 부분을 변환하는 것은, 프리젠테이션 출력의 변환, 유저 고유의 출력 개인화(user-specific output personalization), 컨텍스트 고유의 출력 변환, 목표 고유의 출력 변환, 계획 고유의 출력 변환, 및 액션 고유의 변환: 중 하나 이상을 포함하고,
    상기 XTT는, 옵션 사항으로, 상기 EIGS 내에서:
    설명 스캐폴딩(explanation scaffolding)의 적절한 필터링을 생성하기 위한 적절한 모델을 필터에 제공하도록, 또는
    해석 프레이밍(interpretation framing), 프로토콜 컨텍스트, 해석 규칙, 해석 프로시져, 해석 시나리오, 및 충돌 해결 정보의 조합을 활용하여 상기 EIGS의 하나 이상의 부분을 필터링하도록, 또는
    상기 EIGS 내에서 필터내 및/또는 필터간 합의 프로세스를 구현하도록, 또는
    적절한 해석을 생성하고 해석 스캐폴딩의 엘리먼트를 생성하기 위한 적절한 모델을 인터프리터에 제공하도록, 또는
    EIGS에서 해석 스캐폴딩의 적절한 부분을 변환하도록, 또는
    프레이밍, 프로토콜, 해석 규칙, 해석 프로시져, 해석 템플릿, 해석 개요, 시나리오 모델, 도메인, 상호 작용식 컨텍스트, 및 충돌 해결 정보의 조합에 기초하여 EIGS의 해석 출력을 변환하도록, 또는
    EIGS 내에서 인터프리터내 및/또는 인터프리터간 합의 프로세스를 구현하도록, 또는
    적절한 선택 모델 및 선택 프로세스에 기초하여 EIGS 해석 출력을 변환하도록
    사용 가능한, 설명 가능 머신 러닝 시스템.
  31. 제1항 내지 제30항 중 어느 한 항에 있어서,
    상기 XTT는, 옵션 사항으로 파티셔닝 정보, 상기 XTT의 내부 계수 및 상기 XTT의 입력 공간의 피쳐 속성을 비롯하여, 다수의 레벨의 설명을 생성하도록: 구성되는 설명 가능 셀프 어텐션 메커니즘(explainable self-attention mechanism)을 포함하고, 상기 설명은 인터프리터에 대한 출력으로서 사용 가능한, 설명 가능 머신 러닝 시스템.
  32. 제1항 내지 제31항 중 어느 한 항에 있어서,
    상기 XTT는 자기 감독 기술(self-supervised technique)을 사용하여 트레이닝 가능한, 설명 가능 머신 러닝 시스템.
  33. 제2항 내지 제32항에 있어서,
    상기 XTT는 단일의 벡터 - 상기 벡터는 상기 XTT의 임의의 레이어에 대한 피드백으로서 사용 가능함 - 로 병합하기 위해 모든 디코더 또는 인코더 컴포넌트로부터의 과거 학습된 표현 또는 과거의 상태를 사용하도록 구성되고, 상기 XTT는, 옵션 사항으로, 상기 단일의 벡터로 병합하기 위해 상기 화이트박스 모델의 임의의 내부 계수를 사용하도록 추가로 구성되고, 상기 XTT는, 옵션 사항으로, 인과적으로 타당하지 않은 추론을 생성하는 것 또는 통계적으로 유효하지만 그러나 인과적으로 타당하지 않을 수도 있는 예측 경로를 생성하는 것을 방지하기 위해, 상기 과거 학습된 표현에 대해 인과적 제약을 부과하도록 추가로 구성되고, 상기 XTT는, 옵션 사항으로, 상기 과거 학습된 표현에 대해 환경적으로 타당한 제약을 추가로 부과하여 설명 가능하고 인과적으로 그리고 환경적으로 타당한 피드백 메모리를 달성하기 위해, 거동 모델 및 연관된 조건, 이벤트, 트리거, 및 액션 상태 표현을 활용하도록 추가로 구성되는, 설명 가능 머신 러닝 시스템.
  34. 제1항 내지 제33항 중 어느 한 항에 있어서,
    상기 시스템은:
    적절한 형식 언어(formal language)로 작성되는 현존하는 형식 컴퓨터 프로그램(formal computer program)을 분석 및 파싱하도록, 그리고 일단 로딩되면, 상기 XTT 어텐션 모델을 사용하여 그것을 추가로 개선하도록 - 상기 XTT의 설명 가능 모델 내의 계층적 파티션 구조는, 옵션 사항으로, 상기 형식 언어 프로그램의 구조를 직접적으로 모델링하기 위해 사용 가능함 - ; 또는
    사전 정의된 문체 표준에 따라 코드를 변환하고, 불일치 또는 에러를 강조 표시하고, 코드의 더 나은 대안 및 리팩토링(re-factoring) 및 재작성을 제안하고, 난독화된 코드를 난독화 해제하고, 그리고, 알파 변환, 베타 감소, 및 에타 감소(eta-reduction)와 같은 기능적 프로그래밍 언어 개념을 생성된 코드에 적용하도록; 또는
    처음부터 또는 증명된 명령문(statement) 및/또는 불완전한 명령문의 현존하는 콜렉션을 통해, 수학적 표현, 명령문, 및 증명을 분석, 생성 및 자동 완성하기 위해, 적절한 수학적 형식 언어 시스템과 함께 자동화된 이론 증명 시스템(Automated Theorem Proving system)과 연계하여 사용되도록; 또는
    상기 XTT에 의해 적용되는 입력-출력 변환 사이의 기저의 가정의 설명을 제공하면서, 단백질 또는 다른 적절한 분자 형상과 연계하여 DNA 코드를 분석하여 DNA 유전자 발현, 단백질 접힘(protein folding) 및 다른 관련된 생화학적 애플리케이션에서의 규제 변화를 설명하도록; 또는
    옵션 사항으로, 음성 오디오 파형을 대응하는 텍스트로 번역하기 위해, 종단간 자동 음성 인식 아키텍쳐에서 사용되도록; 또는
    음성을 프로세싱하기 위해 종단간 딥 러닝 아키텍쳐에서 사용되도록 - 상기 머신 러닝 시스템은, 옵션 사항으로, 상기 음성을 잠재적인 이산 표현으로 변환하도록 구성되는 XAED 인코더를 더 포함함 - ; 또는
    다중 오브젝트 추적을 위해 사용되도록; 또는
    디지털 표면 모델 또는 깊이 맵 생성을 위해, 위성, 항공 또는 다른 타입의 조감도(bird-eye-view) 이미지를 매치시키도록; 또는
    단안(monocular), 입체(stereoscope), 및 다중 뷰 입력 데이터의 화상(imagery)을 프로세싱하도록; 또는
    오디오가 비디오에서 존재하는지를 예측하기 위한 오디오-비주얼 분류 태스크를 위해 사용되도록; 또는
    다음의 것:
    진짜 이미지로부터 딥페이크 이미지를 검출 및 분류하는 것, 또는
    머신 러닝 시스템을 혼란시키기 위해 데이터에 추가된 적대적 공격 정보의 존재를 검출하는 것 - 상기 XTT가 설명 가능 모델을 포함함 -
    중 하나 이상을 포함하는 합성하여 생성된 다차원 데이터의 생성 및 검출을 위해 사용되도록; 또는
    실제 화상 및 컴퓨터 생성 화상의 조합 내에서 인간 및 오브젝트의 정확하게 배치된 프레임화된, 스케일링된, 조명된, 및 렌더링된 합성 이미지를 자동적으로 생성, 삽입 및 혼합하도록 - 상기 머신 러닝 시스템은 카메라 프로세싱 시스템 내에서 구현됨 - ; 또는
    실제 화상 및 컴퓨터 생성 화상의 조합 내에서 인간 및 오브젝트의 정확하게 배치된 프레임화된, 스케일링된, 조명된, 및 렌더링된 합성 이미지를 자동적으로 생성, 삽입 및 혼합하도록 - 상기 머신 러닝 시스템은 의료 이미지의 분석 또는 수술 내에서의 사용을 위해 의료 하드웨어 내에서 구현됨 - ; 또는
    실제 화상 및 컴퓨터 생성 화상의 조합 내에서 인간 및 오브젝트의 정확하게 배치된 프레임화된, 스케일링된, 조명된, 및 렌더링된 합성 이미지를 자동적으로 생성, 삽입 및 혼합하도록 - 상기 머신 러닝 시스템은 기기 검사 프로세스 및 제조 검사 프로세스에서의 사용을 위해 엔지니어링 애플리케이션 내에서 구현됨 - ; 또는
    인간이 판독 가능하고 해석 가능한 포맷으로 데이터를 송신하는 의료용 임플란트 내에서 구현되도록; 또는
    생물학적 뉴런으로부터 입력 신호를 수신하도록 그리고 신호를 적절하게 인코딩된 포맷으로 생물학적 뉴런으로 출력하도록 - 상기 XTT는 손상된 생물학적 신경 시스템 연결을 연결하기 위한 또는 고급 인공 장구 디바이스(advanced prosthetic device)에서 인공 디바이스의 이식 및 연결을 돕기 위한 실용적인 솔루션을 제공하기 위해 두 개 이상의 생물학적 뉴런을 연결하는 의학적으로 이식된 디바이스의 일부로서 구현됨 - ; 또는
    상기 XTT의 일부로서 XGAIL 시스템의 시뮬레이터 및 데이터 샘플 합성을 구현하여 환경 세계 컨텍스트 및 상이한 모달리티의 관련된 시퀀스 순서에 따라 적절하게 동기화되는 다중 모드 혼합 출력을 생성하도록; 또는
    생성된 데이터 샘플을 적절하게 수정하기 위해 사용될 수 있는 다양한 학습된 스타일을 사용하여 새로운 데이터 샘플, 화상, 디지털 및 아날로그 혼합 미디어 그림, 및 3D 조각을 생성하도록 - 상기 머신 러닝 시스템은, 옵션 사항으로, 상기 생성된 데이터를, 보안성이 있는 추적 가능한 디지털 코드, 분산 원장 엔트리(distributed ledger entry) 또는 대체 불가능한 토큰(non-fungible token)을 사용하여 태깅하도록 추가로 구성됨 - ; 또는
    형식 음악 표기법 및 합성, 사운드 샘플 믹싱, 텍스트 대 음성 생성, 및 일반적인 오디오 샘플 생성의 조합을 사용하여, 음악을 생성하도록 - 상기 머신 러닝 시스템은, 옵션 사항으로, 상이한 모달리티의 입력을 분석하기 위해 다중 모드 XTT를 구현하도록 추가로 구성됨 - ; 또는
    비디오 프레임에 대한 주석을 예측하도록 - 상기 XTT는 종단간 딥 러닝 아키텍쳐에서 XTT 인코더로서 구현됨 - ; 또는
    온톨로지에서 미리 정의되는 대신 대화의 상태를 추적하고 보이지 않는 슬롯을 학습하도록; 또는
    입력 시퀀스에서 엔티티를 식별하도록; 또는
    입력 질문에 대한 답변의 시작 포지션 및 종료 포지션을 식별하도록; 또는
    텍스트에서의 엔티티의 언급을 지식 베이스의 대응하는 엔티티에 링크하도록; 또는
    이전 출력에 기초하여 출력을 예측하도록; 또는
    워크플로우 시스템 내에 통합되도록, 그리고 옵션 사항으로, 로봇 프로세스 자동화 시스템(Robotic Process Automation system), 결정 지원 시스템(Decision Support System), 또는 데이터 레이크 시스템(Data Lake system) 내에서 추가로 통합되도록; 또는
    인과적 설명 - 상기 인과적 설명은 반사실적 언어 표현 아키텍쳐(counterfactual language representation architecture)를 사용함 - 을 사용하도록; 또는
    원인과 결과를 핸들링하기 위해, 관련성, 중재, 및 반사실적 인과 로직을 핸들링하기 위해, 환경 모델 입력을 통해 타당성 체크를 수행하기 위해, 그리고 인과적으로 타당한 동형 사상(causally plausible isomorphism)을 통해 트레이닝 데이터를 증강하기 위해, 인과 모델 고유의 기능성을 구현하도록; 또는
    자연어 문서로부터 초안 인과 모델(draft causal model)을 자동적으로 생성하도록 - 상기 XTT는 인과 XTT 시스템을 정의함 - ; 또는
    제약 및 예측 로직 구현의 기초로서 계산 및 지식 표현 구조 - 상기 계산 및 지식 표현 구조는, 옵션 사항으로, 리소스 디스크립션 프레임워크(Resource Description Framework; RDF) 트리, RDF 그래프, Levi(레비) 그래프, 하이퍼그래프 구조, 또는 단순체 복합체를 포함함 - 를 사용하도록; 또는
    감사 로그 기능성(audit log functionality)을 구현하도록 - 감사 로그 기능성을 구현하는 것은: 상기 XTT의 흐름, 상호 작용 및 거동 및 그것의 관련된 조건, 이벤트, 트리거 및 액션 및 전반적인 역학을 설명하는 결정 로그 및 경로 트레이스를 생성하는 것을 수반하고,
    상기 경로 트레이스는, 옵션 사항으로, 전문가 시스템 및 규칙 기반의 시스템에서, 트리거되고 실행된 규칙의 주석이 달린 시퀀스로서 구현되고, 또는
    상기 경로 트레이스는, 옵션 사항으로, 워크플로우 시스템에서 워크플로우 엔진에 의해 실행된 워크플로우 노드 및 경로의 주석이 달린 시퀀스로서 구현되고, 그리고
    상기 경로 트레이스는 상기 XTT의 정확한 시퀀스 및 거동을 설명하기 위해 사용 가능하고, 옵션 사항으로, 유저가 관심을 갖는 경로를 따라 가장 가까운 이웃을 상기 시스템의 유저에게 디스플레이하도록 구성되고,
    상기 XTT는, 옵션 사항으로, 자기 자신의 감사 시스템 로그를 활용하도록 그리고 무단 변경 방지 및 추적 가능한 방식으로 상기 로그를 저장하도록 추가로 구성됨 - ; 또는
    액션의 시간 로직, 추상 머신 표기법, 페트리넷, 계산 트리 로직, 또는 모달 로직, 직관주의 로직(intuitionistic logic), 및/또는 관계형 의미론(relational semantic)을 형식적으로 표현할 수 있는 구현 방법 중 하나 이상에 기초한 시스템의 조합에 의해 구현되고 그에 의해 검증되도록; 또는
    앵커 용어(anchor term) - 상기 앵커 용어는 매우 중요한 노드, 에지, 이벤트, 트리거, 제약 또는 액션을 정의함 - 를 활용하도록; 또는
    성능을 증가시키기 위해 양자화 방법을 적용하도록 - 상기 시스템은, 옵션 사항으로, 상기 XTT의 정확도에 대한 양자화의 임의의 불리한 효과를 부분적으로 상쇄하고 트레이닝 동안 불안정성을 감소시키기 위해 불안정성 감소 기술을 적용하도록 추가로 구성됨 - ; 또는
    데이터 프라이버시 보호 솔루션의 실질적인 구현을 가능하게 하도록; 또는
    what-if, what-if-not, but-for 및 조건부 시나리오에 기초하여 생성된 구조화된 설명을 활용하여 그러한 시나리오를 XTT 시스템 입력에 적용한 결과에 대응하는 시나리오 기반의 설명 및 설명된 전략을 생성하도록; 또는
    외인성 및 내인성 변수 및 인과 모델을 사용하여 액션의 총 비용을 추정하도록 - 상기 총 비용을 추정하는 것은, 옵션 사항으로, 임의의 특정한 관련성, 중재 또는 반사실적 규칙을 적용하는 것을 포함하고, 옵션 사항으로, 부분적으로 누락된 값을 갖는 데이터에 대한 총 비용을 추정하는 것을 포함하고,
    상기 시스템은, 옵션 사항으로, 그러한 애플리케이션의 가상 평균 또는 소망되는 시나리오 결과를 가진 애플리케이션의 실제 예를 제공하기 위해 최근접 이웃 방법(nearest-neighbor method)을 활용하도록 추가로 구성됨 - ; 또는
    예측 및/또는 트레이닝 성능을 증가시키기 위해, 내적의 근사 또는 완전한 제거, 희소 로컬 어텐션 모델(sparse local attention model), 적응형 어텐션 윈도우, 다차원 어텐션 매트릭스 근사, 지능형 가중치 공유 및 지능형 파라미터화: 중 하나 이상을 활용하도록; 또는
    보행 분석, 움직임 예측 및 감정 상태 예측을 포함하는 인간 거동을 분석하도록; 또는
    스포츠 영상 및 운동 성과를 예측 및 분석하도록; 또는
    의학적 상태를 검출 및 예측하도록; 또는
    금융 주식 거래 패턴을 분석하고 시장 거동을 예측하도록, 그리고 후속하여 특정한 주식에 대한 매수, 매도, 또는 롱 포지션 또는 숏 포지션과 같은 자동화된 액션을 실행하도록; 또는
    인더스트리 4.0 애플리케이션 내에서 동작하도록; 또는
    소스 언어로부터 타겟 언어로 문장을 번역하도록; 또는
    프리젠테이션 지향 변환 및 설명 및/또는 해석 출력의 향상을 수행하도록; 또는
    법적 문서를 프로세싱하고 수반되는 상이한 당사자 및 엔티티에 적용 가능하며 상기 법적 문서에 대한 참고 자료(reference)가 되는 텍스트 섹션 및 참고 자료를 정확하게 결정하도록; 또는
    대화 프로세싱, 챗봇, 콜 센터 관리 시스템, 사례 관리 시스템, 고객 지원 시스템, 클라이언트 관계 관리 시스템, 대화형 시스템, 질문 및 답변 시스템과 같은 애플리케이션에서 일반적으로 사용되는 상호 작용식 설명 및/또는 해석 프로세스의 흐름을 제어하도록; 또는
    피드백 제어 타입의 메커니즘을 필요로 하는 보강 학습 타입의 애플리케이션에서 사용되도록
    구성되는, 설명 가능 머신 러닝 시스템.
  35. 제1항 내지 제34항 중 어느 한 항에 있어서,
    상기 시스템은:
    유연한 아키텍쳐 - 상기 유연한 아키텍쳐는, 옵션 사항으로, FPGA를 포함함 - , 또는
    정적 아키텍쳐 - 상기 정적 아키텍쳐는, 옵션 사항으로, ASIC을 포함함 - , 또는
    이산 컴포넌트, 또는
    스핀트로닉 또는 멤리스터, 또는
    옵션 사항으로, 스파이킹 뉴런(spiking neuron)을 활용하는 뉴로모픽 아키텍쳐(neuromorphic architecture),
    또는 양자 컴퓨팅 하드웨어
    중 어느 하나를 사용하여 하드웨어 회로로서 구현되고, 상기 양자 컴퓨팅 하드웨어는, 옵션 사항으로:
    다수의 큐비트 상태, 큐비트 기본 상태, 혼합 상태, 앤실라(Ancilla) 비트, 및 얽힘 및/또는 디코히어런스에 기인하는 다른 관련 양자 효과의 올바른 해석을 허용하도록, 또는
    옵션 사항으로, 양자 로직 게이트를 비롯하여, XNN 내에서 양자 로직 고유의 연산자 및/또는 하드웨어 로직 게이트의 도입을 허용하도록, 또는
    양자 효과를 이용하는 것에 의해 다수의 액션을 실행하거나, 또는 다수의 조건을 평가하거나, 또는 대규모 제약 시스템을 평가하도록 - 상기 양자 컴퓨팅 하드웨어는, 옵션 사항으로, 양자 알고리즘을 활용하도록 또는 하이브리드 솔루션을 활용하도록 구성됨 - , 또는
    복수의 모달리티 및/또는 태스크에 대한 힐버트 공간(Hilbert space)을 정의하도록 - 상기 다중 모드 또는 멀티태스크 힐버트 공간은 태스크와 모달리티 사이의 모든 상기 상호 작용을 나타내기 위해 사용될 수 있고 크로스오버 학습의 양자 버전과 함께 모달리티 및/또는 태스크의 서브세트에 대한 트레이닝 둘 모두를 구현하기 위해 사용될 수 있음 -
    구성되는 확장 기능(extension)을 포함하는, 설명 가능 머신 러닝 시스템.
  36. 제1항 내지 제35항 중 어느 한 항에 있어서,
    상기 XTT는: 신경 심볼 제약(neuro-symbolic constraint)을, 상기 XTT와 관련되는 이전 이력 활성화 레이트 및/또는 상기 XTT와 관련되는 현재 및/또는 이전 이력 상태의 일부 또는 모두와 링크하도록 구성되는, 설명 가능 머신 러닝 시스템.
  37. 제4항 내지 제36항에 있어서,
    명명된 참조 라벨(named reference label)이 상기 설명 가능 아키텍쳐 내의 특정한 컴포넌트에 할당되고, 상기 명명된 참조 라벨은, 옵션 사항으로, 메타데이터를 포함하고, 옵션 사항으로, 심볼 표현 및/또는 수학식으로 구성될 수도 있고,
    상기 명명된 참조 라벨은, 옵션 사항으로, 안전 관련 제약에서 사용 가능하고, 그리고
    상기 머신 러닝 시스템은, 옵션 사항으로, 상기 시스템 내에서 발생하는 역학의 안정적이고 장기적인 설명을 생성하기 위해 상기 명명된 참조 라벨의 불변성을 활용하도록 구성되는, 설명 가능 머신 러닝 시스템.
  38. 제1항 내지 제37항 중 어느 한 항에 있어서,
    상기 머신 러닝 시스템은 식별 평가 추천(Identify-Assess-Recommend) 프레임워크에 의해 적어도 부분적으로 정의되는, 설명 가능 머신 러닝 시스템.
  39. 제1항 내지 제38항 중 어느 한 항에 있어서,
    상기 머신 러닝 시스템은 AutoXAI 시스템을 더 포함하고, 상기 시스템은 시나리오 기반의 설명을 생성하도록 구성되는, 설명 가능 머신 러닝 시스템.
  40. 제1항 내지 제39항 중 어느 한 항에 있어서,
    동일한 파라미터를 공유하는 다수의 태스크 및 다수의 모달리티를 프로세싱하기 위해,
    상기 XTT는 설명 가능 모델을 활용하도록, 상기 하나 이상의 입력 피쳐와 관련되는 하나 이상의 태스크에 대응하는 다수의 입력을 수신하도록, 그리고 상기 태스크에 대한 출력에 대응하는 다수의 출력을 생성하도록 구성되고,
    상기 설명 가능 모델은, 옵션 사항으로, 계층적 크로스오버 구조(hierarchical crossover structure)에 의해 정의되고, 옵션 사항으로, 복수의 크로스오버 서브시스템으로 구성되며, 상이한 태스크에 대해 학습되는 상이한 지식 사이의 크로스오버가 효율적으로 발생하는 것을 허용하도록 구성되고,
    상기 계층적 크로스오버 구조는 하나 이상의 단방향 링크 노드 및/또는 하나 이상의 양방향 링크 노드 및, 옵션 사항으로, 크로스오버 노이즈 노드 및/또는 크로스오버 노드간 링크를 포함하고, 그리고
    상기 설명 가능 모델은, 옵션 사항으로, 희소한 설명 가능 모델 또는 DEA인, 설명 가능 머신 러닝 시스템.
  41. 제40항에 있어서,
    상기 XTT의 입력에 커플링되어 CNN-XTT 아키텍쳐를 정의하는 컨볼루션 신경망(convolutional neural network; CNN)을 더 포함하고, 상기 CNN-XTT는 질의에 대한 상기 CNN-XTT에서의 활성화 경로를 시각화하기 위해 백맵(backmap)을 사용하도록, 옵션 사항으로, 정당성의 일부로서 상기 백맵을 통합하도록 구성되고, 상기 CNN-XTT는, 옵션 사항으로, 본질적으로 텍스트가 아닌 데이터 포맷을 사용하여 커널 라벨링 방법(kernel labelling method)을 관련된 인간이 판독 가능한 라벨에 통합하도록 구성되고, 상기 커널 라벨링 방법과 관련되는 커널 타입은, 옵션 사항으로, 근사 커널이고, 상기 CNN은, 옵션 사항으로, 시간적으로 최적화된 CNN인, 설명 가능 머신 러닝 시스템.
  42. 제1항 내지 제41항 중 어느 한 항에 있어서,
    상기 시스템은, 인간이 판독 가능한 자연어, 그래픽 또는 시각적 포맷, 오디오, 음성, 햅틱, 비디오, 시계열, 다중 스펙트럼 데이터, 계층적으로 정렬된 멀티미디어 콘텐츠, 및 3D 데이터: 중 하나 이상인 포맷 또는 레이아웃으로 데이터를 출력하도록 구성되고,
    상기 출력 데이터는, 옵션 사항으로, 2D 데이터, 3D 데이터, 다차원 데이터 어레이, 트랜잭션 데이터, 시계열, 디지털화된 샘플, 센서 데이터, 이미지 데이터, 초분광 데이터, 자연어 텍스트, 비디오 데이터, 오디오 데이터, 햅틱 데이터, LIDAR(라이다) 데이터, RADAR(레이더) 데이터, SONAR(소나) 데이터: 중 하나 이상인 순차적 포맷 또는 레이아웃으로 되어 있는, 설명 가능 머신 러닝 시스템.
KR1020237024184A 2020-12-17 2021-12-17 설명 가능 트랜스듀서 변환기 KR20230128492A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063126694P 2020-12-17 2020-12-17
US63/126,694 2020-12-17
PCT/EP2021/086646 WO2022129610A1 (en) 2020-12-17 2021-12-17 Explainable transducer transformers

Publications (1)

Publication Number Publication Date
KR20230128492A true KR20230128492A (ko) 2023-09-05

Family

ID=79425360

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237024184A KR20230128492A (ko) 2020-12-17 2021-12-17 설명 가능 트랜스듀서 변환기

Country Status (8)

Country Link
US (2) US11593631B2 (ko)
EP (1) EP4264498A1 (ko)
JP (1) JP2024500182A (ko)
KR (1) KR20230128492A (ko)
CN (1) CN116888602A (ko)
AU (1) AU2021399965A1 (ko)
CA (1) CA3202297A1 (ko)
WO (1) WO2022129610A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902849B (zh) * 2018-06-20 2021-11-30 华为技术有限公司 用户行为预测方法及装置、行为预测模型训练方法及装置
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
US11878684B2 (en) * 2020-03-18 2024-01-23 Toyota Research Institute, Inc. System and method for trajectory prediction using a predicted endpoint conditioned network
EP4252152A1 (en) * 2021-01-07 2023-10-04 Google LLC Neural networks with switch layers
US11966707B2 (en) * 2021-01-13 2024-04-23 Zapata Computing, Inc. Quantum enhanced word embedding for natural language processing
US11829726B2 (en) * 2021-01-25 2023-11-28 International Business Machines Corporation Dual learning bridge between text and knowledge graph
US20220247548A1 (en) * 2021-02-01 2022-08-04 Sap Se Efficient distributed privacy-preserving computations
US11842159B1 (en) * 2021-03-16 2023-12-12 Amazon Technologies, Inc. Interpreting a text classifier
US11531555B2 (en) * 2021-03-26 2022-12-20 International Business Machines Corporation Selective pruning of a system configuration model for system reconfigurations
US11921824B1 (en) * 2021-03-29 2024-03-05 Amazon Technologies, Inc. Sensor data fusion using cross-modal transformer
US20220318640A1 (en) * 2021-03-31 2022-10-06 Fujitsu Limited Automated empathetic reconciliation of decisions of artificial intelligence (ai) models
US11908202B2 (en) * 2021-12-23 2024-02-20 Gm Cruise Holdings Llc Method and system of using a global transformer for efficient modeling of global context in point clouds
CN115311720B (zh) * 2022-08-11 2023-06-06 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN115147315B (zh) * 2022-09-05 2022-12-09 杭州涿溪脑与智能研究所 一种基于变压器模块的神经网络荧光显微图像去噪方法
US20240087683A1 (en) * 2022-09-14 2024-03-14 Microsoft Technology Licensing, Llc Classification using a machine learning model trained with triplet loss
GB202213823D0 (en) * 2022-09-22 2022-11-09 Veltz Francois Text generation
CN115510854B (zh) * 2022-09-27 2023-06-09 北京白星花科技有限公司 基于强化学习的实体关系提取方法和系统
CN115578735B (zh) * 2022-09-29 2023-09-15 北京百度网讯科技有限公司 文本检测方法和文本检测模型的训练方法、装置
US20240169189A1 (en) * 2022-11-18 2024-05-23 NEC Laboratories Europe GmbH Iterative self-explaining artificial intelligence system for trustworthy decision making
US11972333B1 (en) * 2023-06-28 2024-04-30 Intuit Inc. Supervisory systems for generative artificial intelligence models
CN117349786A (zh) * 2023-09-11 2024-01-05 国网湖北省电力有限公司宜昌供电公司 基于数据均衡的证据融合变压器故障诊断方法
CN116992888A (zh) * 2023-09-25 2023-11-03 天津华来科技股份有限公司 基于自然语义的数据分析方法及系统
CN117421661B (zh) * 2023-12-19 2024-02-13 南开大学 一种基于反事实增强的图卷积网络的群组推荐方法
CN117953351A (zh) * 2024-03-27 2024-04-30 之江实验室 一种基于模型强化学习的决策方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5499319A (en) * 1991-09-30 1996-03-12 Al Janabi; Talib H. Fuzzy logic controller
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US10832138B2 (en) * 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
US10733532B2 (en) * 2016-01-27 2020-08-04 Bonsai AI, Inc. Multiple user interfaces of an artificial intelligence system to accommodate different types of users solving different types of problems with artificial intelligence
US11151450B2 (en) * 2018-05-21 2021-10-19 Fair Isaac Corporation System and method for generating explainable latent features of machine learning models
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
US20190370647A1 (en) * 2019-01-24 2019-12-05 Intel Corporation Artificial intelligence analysis and explanation utilizing hardware measures of attention
US11669716B2 (en) * 2019-03-13 2023-06-06 Cognizant Technology Solutions U.S. Corp. System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains
US11132403B2 (en) * 2019-09-06 2021-09-28 Digital Asset Capital, Inc. Graph-manipulation based domain-specific execution environment
US11676365B2 (en) * 2019-12-16 2023-06-13 Accenture Global Solutions Limited Explainable artificial intelligence (AI) based image analytic, automatic damage detection and estimation system
US20210350221A1 (en) * 2020-05-05 2021-11-11 Silicon Laboratories Inc. Neural Network Inference and Training Using A Universal Coordinate Rotation Digital Computer
US11763180B2 (en) * 2020-07-28 2023-09-19 Intuit Inc. Unsupervised competition-based encoding
US11934957B2 (en) * 2020-08-27 2024-03-19 GM Global Technology Operations LLC Methods, systems, and apparatuses for user-understandable explainable learning models
US20220067510A1 (en) * 2020-09-03 2022-03-03 Paypal, Inc. System and method for tag-directed deep-learning-based features for predicting events and making determinations
US20220147838A1 (en) * 2020-11-09 2022-05-12 Adobe Inc. Self-supervised visual-relationship probing

Also Published As

Publication number Publication date
WO2022129610A1 (en) 2022-06-23
EP4264498A1 (en) 2023-10-25
CA3202297A1 (en) 2022-06-23
US11593631B2 (en) 2023-02-28
JP2024500182A (ja) 2024-01-04
US11797835B2 (en) 2023-10-24
US20220198254A1 (en) 2022-06-23
CN116888602A (zh) 2023-10-13
AU2021399965A1 (en) 2023-08-03
US20230153599A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
US11797835B2 (en) Explainable transducer transformers
US11948083B2 (en) Method for an explainable autoencoder and an explainable generative adversarial network
Das et al. Opportunities and challenges in explainable artificial intelligence (xai): A survey
Li et al. A survey of data-driven and knowledge-aware explainable ai
US20200104726A1 (en) Machine learning data representations, architectures, and systems that intrinsically encode and represent benefit, harm, and emotion to optimize learning
US11651216B2 (en) Automatic XAI (autoXAI) with evolutionary NAS techniques and model discovery and refinement
US11055616B2 (en) Architecture for an explainable neural network
Bagherzadeh et al. A review of various semi-supervised learning models with a deep learning and memory approach
US11443164B2 (en) Explanation and interpretation generation system
WO2021099338A1 (en) Architecture for an explainable neural network
US20220138532A1 (en) Interpretable neural network
US11599749B1 (en) Method of and system for explainable knowledge-based visual question answering
Liu et al. A survey of quantum-cognitively inspired sentiment analysis models
Xia An overview of deep learning
TWI803852B (zh) 可解釋人工智慧及可解釋神經網路轉換
US20230134798A1 (en) Reasonable language model learning for text generation from a knowledge graph
Maharaj Generalizing in the Real World with Representation Learning
US11442963B1 (en) Method of and system for ranking subgraphs as potential explanations for graph classification
TWI810549B (zh) 可解釋的神經網路、相關的電腦實施方法、及用於實施可解釋的神經網路之系統
Tomczak Latent Variable Models
Ras Perspectives on explainable deep learning
Daniels Explanation-Driven Learning-Based Models for Visual Recognition Tasks
Janghorbani Self-Supervised Object-Centric Representations Learning of Computer Vision and Natural Language Understanding Models
Škrlj From Unimodal to Multimodal Machine Learning: An Overview
Ross Training Machine Learning Models by Regularizing their Explanations