KR20190109194A

KR20190109194A - 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법

Info

Publication number: KR20190109194A
Application number: KR1020180093308A
Authority: KR
Inventors: 허자욱; 이해범; 이주호; 김세훈
Original assignee: 주식회사 에이아이트릭스
Priority date: 2018-03-16
Filing date: 2018-08-09
Publication date: 2019-09-25
Also published as: KR102192461B1; KR102192461B9

Abstract

본 명세서의 실시예에 따른 뉴럴네트워크 학습 장치는, 입력 적응형 방식으로 분리된 평균과 표준편차를 사용하여 주의 집중 가중치를 생성하고, 생성된 주의 집중 가중치로 학습된 불확정성을 고려한 주의 집중 모델을 뉴럴네트워크에 적용하는 제어부와 상기 불확정성을 고려한 주의 집중 모델을 저장하는 저장부를 포함한다.

Description

불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법{APPARATUS AND METHOD FOR LEARNING NEURAL NETWORK CAPABLE OF MODELING UNCERRAINTY}

본 발명은 데이터 처리 장치 및 방법에 관한 것이다. 보다 상세하게는, 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법에 관한 것이다.

최근 컴퓨팅 기술이 발전함에 따라 인공신경망인 뉴럴네트워크에 대한 기술이 발전하게 되었다.

즉, 대규모 뉴럴네트워크를 이용하여 기계학습을 수행하고, 학습된 결과를 통해 다양한 문제의 결과를 예측할 수 있게 되었다. 뉴럴네트워크는 산업, 의료, 교육 등의 다양한 분야에서 널리 사용되고 있다. 이러한 뉴럴네트워크는 딥러닝을 이용하여 생성된 예측 모델 등을 적용하여 입력 데이터로 현재 또는 미래의 상황을 예측할 수 있다.

뉴럴네트워크에 적용된 예측 모델은 높은 안정성을 필요로 하는 데이터의 분석에 사용될 수 있다. 예를 들어, 뉴럴네트워크는 높은 안정성을 필요로 하는 의료 분야에서 사용되는 경우, 뉴럴네트워크가 환자의 상태를 잘못 예측하는 경우, 환자의 생명에 치명적인 영향을 미치게 된다.

기존의 뉴럴네트워크는 확실한 예측이 불가능한 특성, 즉 불확정성에 대한 개념을 고려하지 않았다. 그로 인해, 뉴럴네트워크는 예측 모델의 딥러닝에 불확정성을 고려할 수 없어, 의료 분야 등에서 잘못된 상황을 예측할 가능성이 존재한다. 이와 같이, 뉴럴네트워크는 입력 데이터의 불확정성을 고려하지 못한 경우, 불확정성으로 인해 잘못된 예측 결과가 도출되는 문제점이 있었다.

또한, 뉴럴네트워크는 많은 수의 파라미터를 포함하는 여러 개의 비선형 변환 계층을 갖는 예측 모델의 사용 시 불확정성을 고려하지 않는다면 데이터의 분석이 매우 어렵다는 문제점이 있었다.

따라서 상술된 문제점을 해결하기 위한 기술이 필요하게 되었다.

관련하여 선행기술문헌인 한국 공개특허공보 제10-2017-0069138호에서는 고층 구조물의 안전 평가를 위한 예측 모델을 생성하는 인공신경망 기반 고층 구조물 응력 예측모델 시스템을 기재한다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법을 제시하는 데 목적이 있다.

본 명세서에서 개시되는 실시예들은 불확정성을 고려한 주의 집중 모델이 적용된 뉴럴네트워크를 이용하여 상황의 예측을 가능하게 하여 불확정성을 모델링할 수 있는 뉴럴네트워크 학습장치 및 방법을 제시하는데 목적이 있다.

본 명세서에서 개시되는 실시예들은 많은 수의 파라미터를 포함하는 여러 개의 비선형 변환 계층을 갖는 예측 모델에서의 잘못된 예측을 방지하여 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법을 제시하는데 목적이 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치는, 입력 적응형 방식으로 분리된 평균과 표준편차를 사용하여 주의 집중 가중치를 생성하고, 생성된 주의 집중 가중치로 학습된 불확정성을 고려한 주의 집중 모델을 뉴럴네트워크에 적용하는 제어부, 및 상기 불확정성을 고려한 주의 집중 모델을 저장하는 저장부를 포함할 수 있다.

다른 실시예에 따르면, 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치에 의해 수행되는 뉴럴네트워크 학습 방법은, 입력 적응형 방식으로 분리된 평균과 표준편차를 사용하여 주의 집중 가중치를 생성하는 단계; 및 생성된 주의 집중 가중치로 학습된 불확정성을 고려한 주의 집중 모델을 뉴럴네트워크에 적용하는 단계를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법을 제시할 수 있다.

또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 불확정성을 고려한 주의 집중 모델을 이용하여 상황의 예측을 가능하게 하여 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법을 제시할 수 있다.

또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 많은 수의 파라미터를 포함하는 여러 개의 비선형 변환 계층을 갖는 예측 모델에서의 잘못된 예측을 방지하여 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법을 제시할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따른 불확정성을 모델링할 수 있는 뉴럴네트워크학습 장치를 도시한 도면이다.
도 2는 일 실시예에 따른 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 방법을 도시한 도면이다.
도 3은 일 실시예에 따른 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치의 성능을 도시한 그래프이다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.

다만, 이를 설명하기에 앞서, 아래에서 사용되는 용어들의 의미를 먼저 정의한다.

이하에서, '예측 모델(predictive model)'은 뉴럴네트워크(neural network)에 적용될 수 있으며, 딥러닝(deep learning) 방식으로 학습될 수 있다. 이러한, 예측 모델은 입력 데이터로부터 특정 상황의 예측에 이용될 수 있다.

'주의 집중 모델(attention model)'은 입력 데이터, 즉 입력 인스턴스 각각에 대해 가장 관련성이 높은 부분 집합에 초점을 맞추어 학습된 예측 모델의 한 형태이다. 주의 집중 모델은 입력 데이터와 관련된 것으로 판명된 기능에 더 많은 가중치를 할당하기 위해 입력 적응형 방식(input-adaptive manner)으로 주어진 특징에 대한 계수(cofficient)를 생성한다. 이러한 주의 집중 모델은 딥러닝을 이용한 모델의 관련 기능의 해석에 효과적이고, 생성된 주의 집중 할당을 통해 쉽게 해석이 가능한 특징을 갖는다. 하지만, 주의 집중 모델은 주의 집중이 어려운, 즉 관련성을 찾기 어려운 뉴럴네트워크에서는 다소 약한 훈련 방식으로 훈련되기 때문에 신뢰성을 보장하기 어렵다는 특징을 갖는다.

'불확정성을 고려한 주의 집중 모델(uncertainty-aware attention(UA) model, 이하 'UA 모델'이라 칭하기로 함)'은 입력 메커니즘을 고려하여 입력에 의존하는 불확정성 개념을 적용한 주의 집중 모델이다. UA 모델은 입력 데이터에 다양한 레벨의 노이즈(noise), 즉 불확정한 인스턴스(instance)가 있는 경우, 이러한 노이즈에 대해 더 큰 분산(variance)을 학습하도록 하는 모델이다. 예를 들어, 불확정성은 기계 번역이나 이미지에 주석을 첨부하는 것과 같이 주의 집중이 되는 부분과 출력 사이에 명확한 연결을 찾는 경우에 크게 문제가 되지 않는다. 따라서, UA 모델은 입력 데이터에 노이즈가 많고, 일대일로 일치하지 않는 변수들이 포함된 상황에서 잘못된 예측의 방지에 효과적으로 사용될 수 있다.

위에 정의한 용어 이외에 설명이 필요한 용어는 아래에서 각각 따로 설명한다.

도 1은 일 실시예에 따른 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치를 도시한 도면이다.

도 1을 참조하면, 뉴럴네트워크 학습 장치(100)는 네트워크(N)를 통해 원격지의 서버에 접속하거나, 타 단말 및 서버와 연결 가능한 컴퓨터나 휴대용 단말기, 웨어러블 디바이스(Wearable Device) 등으로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop)등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), GSM(Global System for Mobile communications), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), 스마트폰(Smart Phone), 모바일 WiMAX(Mobile Worldwide Interoperability for Microwave Access) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

이러한, 뉴럴네트워크 학습 장치(100)는 입출력부(110), 통신부(120), 저장부(130), 및 제어부(140)를 포함할 수 있다.

입출력부(110)는 사용자로부터 입력을 수신하기 위한 입력부와, 작업의 수행 결과 또는 뉴럴네트워크 학습 장치(100)의 상태 등의 정보를 표시하기 위한 출력부를 포함할 수 있다. 예를 들어, 입출력부(110)는 사용자 입력을 수신하는 조작 패널 및 화면을 표시하는 디스플레이 패널 등을 포함할 수 있다.

구체적으로, 입력부는 키보드, 물리 버튼, 터치 스크린, 카메라 또는 마이크 등과 같이 다양한 형태의 사용자 입력을 수신할 수 있는 장치들을 포함할 수 있다. 또한, 출력부는 디스플레이 패널 또는 스피커 등을 포함할 수 있다. 다만, 이에 한정되지 않고 입출력부(110)는 다양한 입출력을 지원하는 구성을 포함할 수 있다.

통신부(120)는 다른 디바이스 또는 네트워크와 유무선 통신을 수행할 수 있다. 이를 위해, 통신부(120)는 다양한 유무선 통신 방법 중 적어도 하나를 지원하는 통신 모듈을 포함할 수 있다. 예를 들어, 통신 모듈은 칩셋(chipset)의 형태로 구현될 수 있다.

통신부(120)가 지원하는 무선 통신은, 예를 들어 Wi-Fi(Wireless Fidelity), Wi-Fi Direct, 블루투스(Bluetooth), UWB(Ultra Wide Band) 또는 NFC(Near Field Communication) 등일 수 있다. 또한, 통신부(120)가 지원하는 유선 통신은, 예를 들어 USB 또는 HDMI(High Definition Multimedia Interface) 등일 수 있다. 상술된 통신은 예시일 뿐이며, 뉴럴네트워크 학습 장치(100)가 통신을 수행할 수 있도록 하는 각종 통신 기법이 가능하다.

저장부(130)는 파일, 애플리케이션, 및 프로그램 등과 같은 다양한 종류의 데이터가 설치 및 저장될 수 있다. 저장부(130)에 저장된 데이터는 후술될 제어부(140)에 의해 액세스되어 이용되거나, 또는 제어부(140)에 의해 새로운 데이터가 저장될 수 있다. 또한 저장부(130)는 제어부(140)에 의해 실행될 수 있는 프로그램을 저장할 수 있다.

한편, 제어부(140)는 뉴럴네트워크 학습 장치(100)의 전체적인 동작을 제어하며, CPU 등과 같은 프로세서를 포함할 수 있다. 제어부(140)는 입출력부(110)를 통해 수신한 유저 입력에 대응되는 동작을 수행하도록 뉴럴네트워크 학습 장치(100)에 포함된 다른 구성들을 제어할 수 있다.

본 실시예에 따르면, 제어부(140)는 불확정성을 고려한 UA 모델에 관련된 메커니즘을 학습할 수 있다. 제어부(140)는 변분 추론(variational inference)을 사용하여 UA 모델을 학습하고, 주의 집중 모델에 대비 다양한 예측을 할 수 있다.

제어부(140)는 UA 모델의 학습을 위해 베이지안 모델을 사용하여 입력 데이터에 대한 예측의 불확정성에 대한 정도를 측정할 수 있으며, 주의 집중 모델을 생성할 수 있는 주의 집중 메커니즘을 활용할 수 있다.

제어부(140)는 'D'를 N개의 입력 데이터 포인트(X = [x⁽¹⁾, …x^(N)])의 집합과 N개의 입력 데이터 포인트에 각각에 대응되는 라벨들(Y=[y⁽¹⁾, …y^(N)])을 포함하는 데이터 집합으로 결정할 수 있다. 이때, 제어부(140)는 데이터 인덱스를 n=1, …, N으로 설정할 수 있다.

제어부(140)는 확률론적 주의 집중 메커니즘(stochastic attention mechanism)의 프레임워크를 이용할 수 있다. 제어부(140)는 임의의 뉴럴네트워크로부터 길이 r인 벡터 v_j(x)의 각 열에서 i개의 중간 특징(intermediate feature)의 연결을

로 설정할 수 있다. 제어부(140)는 v(x)로부터 임의의 변수 집합

을 UA 모델 구조에 의존하는 a_j차원에서 특정 분포

로부터 조건적으로 생성할 수 있다. 제어부(140)는 컨텍스트 벡터(context vector)(

)를 하기의 수학식 1과 같이 생성할 수 있다.

여기서, 연산자(⊙)는 a_j의 차원에 따라 미리 결정될 수 있고, 예를 들어, a_j가 스칼라이면, 곱셈 연산으로 정의될 수 있고, 반면에

이면, 개별 엘리먼트들 간의 곱으로 정의될 수 있다. 따라서, 제어부(140)는 j번째 특징에 대한 주의 집중 가중치(a_j)와 j번째 중간 특징의 벡터(v_j(x))를 미리 결정된 연산자로 연산하고, 연산 결과를 합산하여 컨텍스트 벡터를 획득할 수 있다. 이후, 제어부(140)는 미리 결정된 함수(f())를 이용하여 주어진 컨텍스트 벡터(c)의 예측값(

)을 생성할 수 있다.

제어부(140)는 UA 모델을 확률론적 주의 집중 모델의 형태로 생성할 수 있다. 제어부(140)는 베르누이 분산(Bernoulli distribution)으로부터 의 생성에 기초한 확률론적 주의 집중 메커니즘을 사용할 수 있다. 이때, 제어부(140)는 변화도(gradient)의 분산을 줄이기 위한 추가적인 규칙들과 함께 증거 하한값(ELBO: evidence lower bound)을 최대화하도록 변수를 학습할 수 있다. 제어부(140)는 필요에 따라 확률론적 주의 집중 메커니즘(stochastic attention mechanism)을 대신하여 결정론적 주의 집중 메커니즘(deterministic attention mechanism)을 사용할 수도 있다.

한편, 제어부(140)는 베르누이(또는, 멀티누이(multi)) 분포에 대한 확률론적 주의 집중을 모델링하는 데에 두 가지 한계(limitation)가 있다.

첫 번째 한계를 살펴보면, 베르누이 분산(분포)(Bernoulli distribution)에 대한 변화(variance)(

)는 할당 확률(

)에 의존한다. 베르누이 분포에 대한 변화는

에 의해 결정되기 때문이다. 할당 확률(

)이 약 0.5인 경우, 확률론적 주의 집중 모델은 같은 낮은 분산으로 주의 집중 강도(attention strength)(a)를 생성할 수 없으며, 그 반대의 경우도 마찬가지이다. 이러한 한계를 극복하기 위해, 제어부(140)는 주의 집중 불확도(attention uncertainty)로부터 주의 집중 강도(a)를 구분하여 동일한 주의 집중 강도에서도 불확정성을 변화시킬 수 있다.

두 번째 한계를 살펴보면, 확률론적인 주의 집중 모델은 입력에 독립적으로 노이즈를 모델링한다. 이에 각 입력에 대해 불확정성의 양을 모델링하는 것이 불가능하고, 이는 신뢰할 수 있는 기계 학습에 대해 결정적인 요소가 된다. 동일한 예측 작업 및 동일한 특징(feature)들의 집합에 대해서도 각 특징(feature)에 대한 불확정성의 양은 다른 인스턴스에 따라 크게 변화할 수 있다. 이러한 한계를 극복하기 위해, 제어부(140)는 불확정성을 나타내는 표준편차(

)를 입력 적응 함수(

)로 모델링하여 주어진 인스턴스에 대해 모델이 갖는 다른 다양한 양의 신뢰를 반영할 수 있게 한다. 분포(distribution)에 대해서, 예를 들어 제어부(140)는 가장 간단하고 효율적인 솔루션의 하나로 가우시안 분포(Gaussian distribution)를 사용할 수 있다.

제어부(140)는 정밀도(

)를 갖는 제로 평균 등방성 가우시안(zero-mean isotropic Gaussian)을 갖는 주의 집중의 생성에 연관된 뉴럴네트워크 파라미터(

)의 서브셋(subset)(

)을 가정할 수 있다. z로 표시된, 스쿼싱(squashing) 이전에 주의 집중 점수는 조건부 분포(conditional distribution) (

)로부터 생성될 수 있고, 조건부 분포(

)는 하기의 수학식 2와 같이 나타낼 수 있다.

여기서,

와

는 미리 설정된 특정값(

) 에 의해 매개변수화(parameterized)된 평균(mean)과 표준편차(s.d.)(또는 분산)이다. 또한,

은 정규 분포를 나타내고, I는 아이덴티티(Identity) 행렬을 나타낸다.

과

는 동일한 레이어에서 생성되지만, 파라미터의 집합이 다를 수 있다. 하지만, 제어부(140)는 일반적으로

로 파라미터를 나타낼 수 있다. 제어부(140)는 표준편차에 대해 대각성분을 제외한 나머지 성분이 모두 '0'인 대각행렬(diag()) 연산을 적용할 수 있다. 제어부(140)는 실제 주의 집중 강도(a)을 일부 스쿼시 함수(squashing function)(

)를 z(예를 들어, 시그모이드(sigmoid) 또는 쌍곡 탄젠트(hyperbolic tangent))에 적용(

)하여 획득할 수 있다.

수학식 2와의 비교를 위해, 제어부(140)는 입력에 관계없이 변화하는 바닐라 확률 주의 집중(vanilla stochastic attention)을 고려할 수 있으며, 하기의 수학식 3과 같이 나타낼 수 있다.

상술한 바와 같이, 주의 집중 모델은 특징에 대해 다른 양의 불확정성을 표현할 수 없다. 제안된 실시예에서, 그래픽의 형태로 도시될 수 있는 관점에서 분포(

)는 x에 독립적인 반면, 분포(

)는 x에 조건부이다. 즉, 분포(

)는 모델 파라미터(model parameter)(인식적 불확정성(epistemic uncertainty))의 불확정성을 포착하는 경향이 있지만, 분포(

)는 다른 입력 포인트들(이분산성 불확정성(heteroscedastic uncertainty))에 따라 변화하는 데이터의 불확정성에 따라 민감하게 반응할 수 있다. 함께 모델링을 하였을 경우, 불확정성의 품질이 개선될 수 있다.

제어부(140)는 입력에 의존하지 않거나 입력에 의존하는 모든 불확정성을 모델링하면, 입력 데이터에 포함된 불확정성을 포착하여 위험을 분석할 수 있다. 예를 들어, 제어부(140)는 불확정성의 모델링을 통해 희귀 질환과 같이 불충분한 양의 임상 데이터로 인한 불확정성과 환자(예를 들어, 패혈증(sepsis))에 따라 변화하는 불확정성을 포착할 수 있다.

제어부(140)는 스쿼싱하기 전에 주의 집중 가중치를 나타내는 잠정적 변수(latent variable)의 집합(

)을 Z로 설정할 수 있다. 뉴럴네트워크에서,

는 변수들 사이의 비선형 종속성에 기인하여 사후 분포(posterior distribution)(

)는 계산적으로 다루기 어렵다. 그러므로, 제어부(140)는 많은 베이지안 모델에서 성공한 근사화 방법인 변분 추론을 이용할 수 있다. 제어부(140)는 경로 방향 역전파(backpropagation)에 대한 재파라미터화(reprameterization) 기술을 이용한다.

제어부(140)는 변분 분포(variational distribution)를 하기의 수학식 4와 같이 정의할 수 있다.

제어부(140)는 변분 파라미터(variational parameter) M을 사용하여 드롭아웃 근사(dropout approximation)를 위한

을 설정한다. 제어부(140)는 결정론적인 가중치 행렬(deterministic weight matrice)의 드롭아웃 샘플링과

가중치 감소(weight decay)의 형태에서 변분 추론으로 근사화될 수 있는 가우스 행렬을 먼저 적용한 뉴럴네트워크를 이용한다. 제어부(140)는 Y(테스트 시간에 사용할 수 없기 때문에)에 대한 의존성을 낮추고 분포(

)에 균등하게

를 간단히 설정한다.

에스지브이비(SGVB) 프레임워크 중에서, 제어부(140)는 증거 하한값(ELBO: evidence lower bound)을 최소화한다.

제어부(140)는 수학식 5에서와 같이 몬테카를로 샘플링(Monte-Carlo sampling)을 이용하여 기대치를 근사화한다. 여기서, 첫 번째 KL 부분은 드롭아웃 근사화를 갖는 M에 대한

의 정규화로 감소한다. 두 번째 KL 부분은 두 개의 분포가 동일하기 때문에 사라진다. 제어부(140)는 최종 최대화 목표를 하기의 수학식 6과 같이 나타낼 수 있다.

제어부(140)는 드롭 아웃 마스크(

)를 사용하여 랜덤 가중치를 샘플링하고, 재파라미터화 트릭(reparameterizable trick)을 위한 경로별 미분 함수 g를 갖는

와

와 같은 z를 샘플링한다.

는 조정가능한 하이퍼 매개 변수이다. 그러나, 제어부(140)는 다른 결정론적 가중치를 포함하여 뉴럴네트워크 전체에 거쳐 공통적인

감쇄의 설정을 간단히 설정할 수 있다.

제어부(140)는 새로운 입력 인스턴스(input instance)(x^*)를 테스트할 때, 제안된 모델(

)에 의해 정확한 라벨(label) y^*을 갖는 확률을 계산할 수 있다. 여기서, 몬테카를로 샘플링을 이용한

를 하기의 수학식 7과 같이 나타낼 수 있다.

제어부(140)는 샘플 드롭아웃 마스크(sample dropout mask)(

)를 샘플링할 수 있고, 샘플링된 값은

이다.

따라서, 완벽한 보정(perfect calibration)은 실제 정확도(actual accuracies)와 정확히 일치(

,

)할 때 발생된다. 또한, 제어부(140)는 보정을 위해 예측 보정 에러(Expected Calibration Error, 이하 'ECE'라 칭하기로 함)를 보정을 위한 요약 통계(summary statistic)로서 이용할 수 있다. 제어부(140)는 요약 통계를 모델의 신뢰도의 분포에 관련된 예측차(expected gap)를 하기의 수학식 8과 같이 나타낼 수 있다.

변분 주의 집중 모델(variational attention model)은 일반적인 것으로 레버리지 주의 집중 메커니즘에 대한 일반적인 깊은 뉴럴네트워크에 적용될 수 있다. 예를 들어, 제어부(140)는 시계열 데이터로부터 예측을 위한 응용에 이용되며, 이러한 응용의 예로 전자 건강 기록(electronic health record)으로부터 환자의 상태에 대한 위험 분석(risk analysis)을 할 수 있다.

제안된 실시예에 따른 UA 모델을 적용하기 위해 리테인(Reverse Time Attention Model, 이하 'RETAIN'이라 칭하기로 함) 모델을 고려할 수 있으며, RETAIN 모델은 타임 스텝(timestep)과 특징(feature) 전반에서 두 가지 형태의 주의 집중 순환뉴럴네트워크(Recurrent Neural Network, 이하 'RNN'이라 칭하기로 함)를 이용한 모델의 한 형태로 제안된 모델이다. 제안된 실시예에 따른 RETAIN 모델에 UA 모델을 적용하여 전자 건강 기록에서 리스크 예측 작업에 최첨단 성능을 얻었고, 학습된 주의 집중을 통해 유용한 해석을 제공할 수 있음을 하기에서 설명한다.

우선, RETAIN 모델의 전체 구조를 간략히 검토한다. 제어부(140)는 타입스텝(timestep) i에 관심을 가질 수 있다. 입력 임베딩(input embedding) v₁, …, v_i에서, 제어부(140)는 타입스텝(

)과 특징(

)에 대해 두 가지 다른 주의 집중을 생성할 수 있으며 수학식 9와 같이 나타낼 수 있다.

두 개의 RNN의 파라미터는

로서 수집될 수 있다. 제어부(140)는 RNN의 출력 g와 h로부터 주의 집중 로짓(attention logit)인 e와 d를 생성하고, 소프트맥스(softmax) 함수와 쌍곡 함수(tanh) 각각을 함수로 스쿼싱(squashing)한다. 다음으로, 제어부(140)는 생성된 두 개의 주의 집중

와

는 입력 임베딩(v)에 다시 곱하여, 타임스탬프 i까지 c로 컨벡스 합(convex sum)(

)된다. 제어부(140)는 최종 선형 예측을

에 기초하여 학습한다.

RETAIN 모델은 다음과 같이 학습한 것을 해석할 수 있다. 예를 들어, 제어부(140)가 시간 j에서의 최종 예측에 따른 x_k의 집합 효과(aggregate)를 나타낼 수 있다. RETAIN 모델은 타임스텝(

)과 특징(

) 모두에 주의 집중을 하기 때문에, 총 기여도 계산은 특정 타입 스텝에서 입력 데이터 포인트의 최종 기여의 계산 시 고려되어야 한다(

). 바꾸어 말하면, 그것은 로짓(

)의 특정 부분이며, x_{j, k}에 기인할 수 있다.

제어부(140)는 확률론적 주의 집중 모델로서 RETAIN모델을 해석할 수 있다. 우선, 제어부(140)는 가우시안 잠재 변수(Gaussian latent variable)로서 RNN 파라미터(

)를 확률이 고정된 MC 드롭아웃으로 근사화할 수 있다. 제어부(140)는 입력 독립 잠재 변수(input dependent latent variable) Z를 e와 d의 집합과 주의 집중 로짓에 따라 간소화할 수 있다. 제어부(140)는 e와 d의 로그 변수를 RNN g와 d의 출력과 파라미터의 다른 집합을 사용하여 평균과 같은 방법으로 생성할 수 있다. 또한, 대각 가우시안(diagonal gaussian)에 대한 재매개화 트릭은 간단하다. 제어부(140)는 ELBO를 최대화하는, 모든 컴포넌트 X, Y, Z와

를 이용할 수 있다.

제어부(140)는 UA모델에서 예측 결과의 확신이 불확정적일 때, '예(yes)' 또는 '아니오(no)'의 예측 결과를 출력할 수 없는 '아이디케이(IDK: I do not know)'을 출력할 수 있다. 제어부(140)는 MC-드롭아웃과 확률론적 가우시안 노이즈를 소정 횟수 이상 사용하여 예측의 분산을 샘플링하여 예측의 불확정성을 측정하고, 표준편차가 미리 설정된 임계값보다 큰 인스턴스의 레이블을 IDK로 예측하도록 할 수 있다.

한편, 실시예에 따른 저장부(130)는 UA 모델 또는 UA 모델이 적용된 뉴럴네트워크를 저장할 수 있으며, 제어부(140)의 요청에 따라 저장된 UA 모델 또는 UA 모델이 적용된 뉴럴네트워크를 제어부(140)로 출력할 수 있다.

제안된 실시예는 불확정성 주의 집중 메커니즘을 제안한다. 불확정성 주의 집중 메커니즘은 입력 적응형 방식으로 분리되고 훈련된 학습된 평균과 분산으로 가우시안 분포에 따라 주의 집중 가중치를 생성한다. 이러한 입력 적응형 노이즈 모델링은 분산형 불확정성 또는 인스턴스 별 불확정성을 포착하여 예측 불확정성에 대해 보다 정확한 교정(correction)을 산출할 수 있다. 또한 제안된 실시에는 변분 추론을 사용하여 UA 모델을 학습할 수 있다. 예측 신뢰도에 대한 추가 분석을 통해 UA 모델이 정확하게 보정되어 "모름(IDK)" 옵션을 사용하여 예측을 수행 할 때 예측을 연기하는 것을 확인할 수 있다. 제안된 실시예에 따른 UA 모델은 안정성 예측 등을 위한 불확정성을 갖는 데이터뿐만 아니라 이미지 주석 및 기계 번역과 같은 작업에도 적용될 수 있다.

뉴럴네트워크 학습 장치(100)는 불확정성을 교정하는 정확성을 높일 수 있으며, IDK 결정을 통해 예측 성능에 대한 추가 평가를 연기하여 높은 신뢰성을 갖는 UA 모델을 적용한 뉴럴네트워크를 제공할 수 있다.

도 2는 일 실시예에 따른 UA 모델을 이용한 뉴럴네트워크 학습 방법을 도시한 도면이다.

도 2를 참조하면, 뉴럴네트워크 학습 장치(100)는 입력 데이터의 불확정성을 모델링하기 위해 입력 적응형 방식으로 분리된 평균과 표준편차를 사용하여 주의 집중 가중치를 생성한다(S210). 뉴럴네트워크 학습 장치(100)는 표준편차를 이용하면, 불확정성을 모델링할 수 있다.

뉴럴네트워크 학습 장치(100)는 주의 집중 가중치를 사용하여 학습된 UA 모델을 뉴럴네트워크에 적용한다(S220).

뉴럴네트워크 학습 장치(100)는 뉴럴네트워크에 예측을 위한 데이터가 입력되었는지 확인할 수 있다(S230). 뉴럴네트워크 학습 장치(100)는 UA 모델이 적용된 뉴럴네트워크를 사용하여 데이터를 예측(또는 분석)하는 동작 절차이다.

S230단계의 판단결과, 예측을 위한 데이터가 입력되면, 뉴럴네트워크 학습 장치(100)는 입력 데이터에 대한 불확정성을 고려한 예측 결과를 출력하고 동작을 종료할 수 있다.

하지만, S230단계의 판단결과, 예측을 위한 데이터가 입력되지 않으면, 뉴럴네트워크 학습 장치(100)는 동작을 종료할 수 있다.

뉴럴네트워크 학습 장치(100)는 UA 모델이 적용된 뉴럴네트워크를 사용하면, 입력 데이터의 불확정성을 고려하여 예측 결과를 출력할 수 있어 정확도가 향상될 수 있다.

도 3은 일 실시예에 따른 UA 모델의 정확도를 결정론적 주의 집중 모델과 확률론적 주의 집중 모델과 비교하기 위한 그래프이다.

도 3을 참조하면, (a)는 결정론적 주의 집중 모델(Deterministic Attention Model)의 정확도를 보여주는 그래프이고, (b)는 확률론적 주의 집중 모델(Stochastic Attention Model)의 정확도를 보여주는 그래프이고, (c)는 UA 모델의 정확도를 보여주는 그래프이다.

그래프의 가로축은 신뢰도(confidence)를 나타내고, 세로축은 정확도(accuracy)를 나타낸다. 여기서, 붉은 막대는 해당 모델의 출력이다. 여기서, ECE는 모델 신뢰도와 실제 정확도 사이의 가중 평균 갭(weighted-average gap)인 예상 교정 오차를 나타내며, 갭은 녹색 막대로 표시된다.

이와 같이, 제안된 실시예에 따른, 뉴럴네트워크 학습 장치(100)는 불확정성을 보정할 수 있으며, 불확정성의 품질은 (c)에 도시된 신뢰도 그래프로부터 평가될 수 있다. 뉴럴네트워크 학습 장치(100)에서 불확정성의 보정이 더 잘될수록 UA 모델의 신뢰도와 정확도 사이에 간격이 작아지며, 불확정성의 보정 여부를 녹색 막대를 이용하여 확인할 수 있다.

제안된 실시예에 따른 UA 모델은 (c)에 도시된 바와 같이, 결정론적 주의 집중 모델이나 확률론적 주의 집중 모델에 관련된 (a), (b)보다 성능이 우수함을 확인할 수 있다. 이와 같이, 뉴럴네트워크 학습 장치(100)는 기존 주의 집중 모델들에 비해 보정의 성능이 우수한 뉴럴네트워크를 생성할 수 있으며, 정확도가 더욱 향상된 뉴럴네트워크를 통해 예측 또는 예측의 연기 여부를 결정하여 신뢰도 높은 예측을 할 수 있다.

제안된 실시예에 따른 뉴럴네트워크 학습 장치(100)는 입력 메커니즘에 대한 입력에 의존하는 불확정성의 개념을 도입하여 주어진 입력을 기반으로 다양한 수준의 노이즈가 있는 각 기능으로부터 불확정한 인스턴스에 대한 분산을 학습할 수 있다.

제안된 실시예에 따른 뉴럴네트워크 학습 장치(100)는 의료 분야와 같이 불확정성을 갖는 입력 데이터를 사용한 예측 모델, 즉 UA 모델의 생성에 이용될 수 있으며, 예측 결과가 안정성이 보장되어야 하는 다양한 분야에 확장하여 적용될 수 있다.

본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다

또한 본 발명의 일실시예에 따르는 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 본 발명의 일실시예에 따르는 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 뉴럴네트워크 학습 장치 110: 입출력부
120: 통신부 130: 메모리
140: 제어부

Claims

불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치에 있어서,
입력 적응형 방식으로 분리된 평균과 표준편차를 사용하여 주의 집중 가중치를 생성하고, 생성된 주의 집중 가중치로 학습된 불확정성을 고려한 주의 집중 모델을 뉴럴네트워크에 적용하는 제어부; 및
상기 불확정성을 고려한 주의 집중 모델을 저장하는 저장부를 포함하는 뉴럴네트워크 학습 장치.
제 1 항에 있어서,
상기 제어부는,
입력 데이터에 대해 베이지안 모델을 사용하여 예측의 불확정성에 대한 정도를 측정하는 뉴럴네트워크 학습 장치.
제 1 항에 있어서,
상기 제어부는,
주의 집중 모델을 이용하여 상기 뉴럴네트워크의 중간 특징들의 벡터와 상기 주의 집중 가중치를 미리 설정된 연산자를 이용하여 연산한 결과를 합산하여 컨텍스트 벡터를 획득하고, 상기 컨텍스트 벡터를 예측함수로 예측하여 예측값을 획득하는 뉴럴네트워크 학습 장치.
제 3 항에 있어서,
상기 제어부는,
상기 주의 집중 가중치는 조건부 분포로부터의 주의 집중 점수를 스쿼싱 함수를 사용하여 생성되고,
상기 조건부 분포는 가우시안 분포를 포함하는 뉴럴네트워크 학습 장치.
제 4 항에 있어서,
상기 제어부는,
상기 주의 집중 점수를 생성하기 위한 조건부 분포를 미리 설정된 특정 값에 의해 매개 변수화된 평균과 표준편차를 이용하여 계산하되, 상기 표준편차에 대각행렬을 적용하여 계산하는 뉴럴네트워크 학습 장치.
제 1 항에 있어서,
상기 제어부는,
가중치 행렬의 드롭아웃 샘플링과 가중치 감소에서 변분 추론으로 근사화될 수 있는 가우스 행렬을 적용한 뉴럴네트워크를 이용하여 상기 불확정성을 고려한 주의 집중 모델을 학습하는 뉴럴네트워크 학습 장치.
제 1 항에 있어서,
상기 제어부는,
입력 데이터의 표준편차가 미리 설정된 기준표준편차 이상이면, 예측값을 판정할 수 없는 상태를 나타내는 정보(IDK: I do not know)를 출력하는 뉴럴네트워크 학습 장치.
불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치에 의해 수행되는 뉴럴 네트워크 학습 방법에 있어서,
입력 적응형 방식으로 분리된 평균과 표준편차를 사용하여 주의 집중 가중치를 생성하는 단계; 및
생성된 주의 집중 가중치로 학습된 불확정성을 고려한 주의 집중 모델을 뉴럴네트워크에 적용하는 단계를 포함하는 뉴럴네트워크 학습 방법.
제 8 항에 있어서,
상기 가중치를 생성하는 단계는,
입력 데이터에 대해 베이지안 모델을 사용하여 예측의 불확정성에 대한 정도를 측정하는 단계를 포함하는 뉴럴네트워크 학습 장치.
제 8 항에 있어서,
상기 주의 집중 모델을 뉴럴네트워크에 적용하는 단계는,
주의 집중 모델을 이용하여 상기 뉴럴네트워크의 중간 특징들의 벡터와 상기 주의 집중 가중치를 미리 설정된 연산자를 이용하여 연산한 결과를 합산하여 컨텍스트 벡터를 획득하는 단계; 및
상기 컨텍스트 벡터를 예측함수로 예측하여 예측값을 획득하는 단계를 포함하는 뉴럴네트워크 학습 방법.
제 10 항에 있어서,
상기 가중치를 생성하는 단계는,
상기 주의 집중 가중치를 조건부 분포로부터의 주의 집중 점수를 스쿼싱 함수를 사용하여 생성하는 단계를 포함하고,
상기 조건부 분포는 가우시안 분포를 포함하는 뉴럴네트워크 학습 방법.
제 11 항에 있어서,
상기 주의 집중 점수를 스쿼싱 함수를 사용하여 생성하는 단계는,
상기 주의 집중 점수를 생성하기 위한 조건부 분포를 미리 설정된 특정 값에 의해 매개 변수화된 평균과 표준편차를 이용하여 계산하되, 상기 표준편차에 대각행렬을 적용하여 계산하는 단계를 포함하는 뉴럴네트워크 학습 방법.
제 8 항에 있어서,
상기 주의 집중 모델을 뉴럴네트워크에 적용하는 단계는,
가중치 행렬의 드롭아웃 샘플링과 가중치 감소에서 변분 추론으로 근사화될 수 있는 가우스 행렬을 적용한 뉴럴네트워크를 이용하여 상기 불확정성을 고려한 주의 집중 모델을 학습하는 단계를 포함하는 뉴럴네트워크 학습 방법.
제 8 항에 있어서,
상기 주의 집중 모델을 뉴럴네트워크에 적용하는 단계는,
입력 데이터의 표준편차가 미리 설정된 기준표준편차 이상이면, 예측값을 판정할 수 없는 상태를 나타내는 정보(IDK: I do not know)를 출력하는 단계를 포함하는 뉴럴네트워크 학습 방법.
뉴럴네트워크 학습 장치에 의해 수행되며, 제 8 항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.