KR20230055853A

KR20230055853A - 비용 효율적 인스턴스 및 특징 재순위화를 통한 신경망의 파라미터 개선 장치 및 방법

Info

Publication number: KR20230055853A
Application number: KR1020210139713A
Authority: KR
Inventors: 유진규
Original assignee: 주식회사 에이아이트릭스
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2023-04-26

Abstract

신경망의 파라미터 개선 장치 및 그 장치에서의 신경망의 파라미터 개선 방법에 관한 것으로 본 명세서에서 개시된 일 실시예에 따르면, 신경망 장치에서의 신경망의 파라미터 개선 방법에 있어서, 선행학습(pre-training)을 위한 데이터를 입력받아 신경망를 학습시키는 단계, 선행학습된 신경망의 파라미터에 대한 비용-효율적인 인스턴스 및 특징의 재순위화를 수행(Cost-Effective Instance and Feature Reranking, CER )하는 단계를 포함할 수 있다.

Description

비용 효율적 인스턴스 및 특징 재순위화를 통한 신경망의 파라미터 개선 장치 및 방법{APPARATUS AND METHOD FOR IMPROVING PARAMETERS OF NEURAL NETWORKS USING COST-EFFECTIVE INSTANCE AND FEATURE RE-RANKING}

본 명세서에서 개시되는 실시예들은 신경망의 파라미터 개선 장치 및 그 장치에서의 신경망의 파라미터 개선 방법에 관한 것으로 보다 구체적으로, 비용-효율적인 인스턴스 및 특징의 재순위화(Cost-Effective instance and feature Reranking, CER)를 수행하여 신경망의 파라미터를 수정하는 파라미터 개선 장치 및 방법에 대한 것이다.

신경망은 오늘날 예측 모델링 작업을 위해 가장 널리 사용되는 도구이다. 그러나 모델의 복잡한 특성은, 네트워크가 학습한 것을 해석하기 어렵게 만들고, 이로 인해 사람이 이해 가능한 형태로 해석 또는 예측을 제공할 수 있는 해석 가능한 모델에 대한 관심이 급증하고 있다. 어텐션 메커니즘(attention mechanism), 액티베이션 시각화(activation visualization), 인간 내에서 인간 해석 가능성에 대한 최적화를 포함한 해석 가능성에 대한 다양한 솔루션이 존재하지만, 신경망가 생성한 모든 해석이 정확하거나 인간이 이해할 수 있는 것은 아니다. 이는 주로 두 가지 이유 때문이다. 1) 학습 모델의 정확성과 신뢰성은 학습 데이터의 양과 질에 크게 좌우된다. 2) 신경망는 예측에는 도움이 되지만 사람이 인식할 수 없는 논-로버스트(non-robust)한 특징을 학습하는 경향이 있다. 기존 모델의 주요 한계는 인간 감독관의 수동적 역할만 고려하기 때문에 인간 감독관은 제공된 해석을 그대로 받아들일 수밖에 없다는 데 있다.

한편 선행기술 문헌인 한국 공개 특허 제10-2020-0072910호는 딥러닝 프레임워크를 활용한 신경망 구조 확장 방법에 관해 제시할 뿐 상술된 한계를 해결하고 있지 못하다. 따라서 이러한 한계를 해결하기 위한 기술이 필요하게 되었다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은, 신경망의 파라미터 개선 장치 및 그 장치에서의 신경망의 파라미터 개선 방법을 제시하는 것을 목적으로 한다.

본 명세서에서 개시되는 실시예들은, 인간 감독관의 입력인 주석을 기초로 비용-효율적인 인스턴스 및 특징의 재순위화(Cost-Effective instance and feature Reranking, CER)을 수행하여 신경망의 파라미터를 수정하는 것을 목적으로 한다.

본 명세서에서 개시되는 실시예들은, 재학습(retraining)과 오버피팅(overfitting) 없이 새로운 어텐션 수준(attention -level)의 감독을 샘플-효율적으로(sample-efficiently) 결합하여, 신규한 확률론적 어텐션 메커니즘(probabilistic attention mechanism)을 제시하는 것을 목적으로 한다.

본 명세서에서 개시되는 실시예들은, 인간 감독관의 인적 비용을 최소화하기 위해, 불확실성 점수(Uncertainty score), 영향 점수(Influence score) 또는 반사실 점수(Conterfactual score)로 측정되는 예측에 대한 부정적 영향을 기반으로 효율적인 인스턴스와 특징에 대한 재순위화 알고리즘을 제시하는 것을 목적으로 한다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 일 실시예에 따르면, 신경망 장치에서의 신경망의 파라미터 개선 방법에 있어서, 선행학습(pre-training)을 위한 데이터를 입력받아 신경망를 학습시키는 단계, 선행학습된 신경망의 파라미터에 대한 비용-효율적인 인스턴스 및 특징의 재순위화를 수행(Cost-Effective Instance and Feature Reranking, CER)하는 단계, 재순위화된 신경망의 파라미터를 수정하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 신경망(Artificial Neural Network) 장치에 있어서, 데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부, 프로그램이 저장되는 저장부, 및 적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 입출력부를 통해 러닝을 수행하는 제어부를 포함하며, 상기 제어부는, 선행학습(pre-training)을 위한 데이터를 입력받아 신경망를 학습시키고, 선행학습된 신경망의 파라미터에 대한 비용-효율적인 인스턴스 및 특징의 재순위화를 수행(Cost-Effective Instance and Feature Reranking, CER)하며, 재순위화된 신경망의 파라미터를 수정할 수 있다.

다른 실시예에 따르면, 신경망의 파라미터 개선 장치에서의 신경망의 파라미터 개선 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체로서 상기 신경망의 파라미터 개선 방법은, 선행학습(pre-training)을 위한 데이터를 입력받아 신경망를 학습시키는 단계, 선행학습된 신경망의 파라미터에 대한 비용-효율적인 인스턴스 및 특징의 재순위화를 수행(Cost-Effective Instance and Feature Reranking, CER)하는 단계, 재순위화된 신경망의 파라미터를 수정하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 신경망의 파라미터 개선 장치에 의해 수행되며 신경망의 파라미터 개선 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램으로서 상기 신경망의 파라미터 개선 방법은, 선행학습(pre-training)을 위한 데이터를 입력받아 신경망를 학습시키는 단계, 선행학습된 신경망의 파라미터에 대한 비용-효율적인 인스턴스 및 특징의 재순위화를 수행(Cost-Effective Instance and Feature Reranking, CER)하는 단계, 재순위화된 신경망의 파라미터를 수정하는 단계를 포함할 수 있다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 신경망의 파라미터 개선 장치 및 그 장치에서의 신경망의 파라미터 개선 방법을 제시할 수 있다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 인간 감독관의 입력인 주석을 기초로 신경 어텐션 프로세스(Neural Attention Process, NAP), 및 비용-효율적인 인스턴스 및 특징의 재순위화(Cost-Effective instance and feature Reranking, CER)을 수행하여 신경망의 파라미터를 수정할 수 있다.

또한, 전술한 과제 해결 수단 중 어느 하나에 의하면, 인간 감독관의 인적 비용을 최소화하기 위해, 불확실성 점수(Uncertainty score), 영향 점수(Influence score) 또는 반사실 점수(Conterfactual score)로 측정되는 예측에 대한 부정적 영향을 기반으로 효율적인 인스턴스와 특징에 대한 재순위화 알고리즘을 제시할 수 있다.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따른 신경망 장치를 설명하기 위한 예시도이다.
도 2는 일 실시예에 따른 신경망 장치의 구성을 도시한 블록도이다.
도 3 및 도 4는 일 실시예에 따른 신경망 구성을 나타낸 구성도이다.
도 5 및 도 6은 일 실시예에 따른 신경망 장치를 설명하기 위한 예시도이다.
도 7 및 도 8은 일 실시예에 따른 신경망 장치의 재순위화에 의한 성능을 나타내는 실험 데이터이다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

다만 이를 설명하기에 앞서, 아래에서 사용되는 용어들의 의미를 먼저 정의한다. 이하에서 ‘신경망’는 입력레이어, 적어도 하나의 은닉레이어 그리고 출력레이어로 구성될 수 있으며, 각 레이어는 적어도 하나의 ‘노드’로 구성될 수 있다. 그리고 각 레이어의 노드는 다음 레이어의 노드와의 연결관계를 형성할 수 있다. 그리고 ‘파라미터’는 신경망의 각 레이어의 노드에 입력되는 데이터를 다음 레이어에 전달할 때 레이어에 입력되는 데이터의 반영강도를 결정하는 값으로 예를 들어, 가중치(Weight), 커널 파라미터(Kernel parameter) 또는 액티베이션(Activation), 어텐션(Attention)일 수 있다.

이하 첨부된 도면을 참고하여 실시예들을 설명하기로 한다.

도 1 은 일 실시예에 따른 신경망 장치를 설명하기 위한 예시도이다. 일 실시예에 따른 신경망 장치는 어텐션 생성기(Attention generator)에 대한 인간 감독관의 주석(Human Annotation)을 기초로 어텐션 생성기의 파라미터를 수정할 수 있다. 즉, 인간 감독관에게 해석을 제공하고 그에 따라 인간 감독관이 모델을 조종하도록 할 수 있다. 즉 도 1을 참조하면, 신경망의 파라미터 개선 장치는 어텐션 생성기에 대한 인간 감독관의 주석(Annotation)을 기초로 어텐션 생성기의 파라미터를 수정할 수 있고 이를 위해, 신경 어텐션 프로세스(Neural Attention Process, 이하에서는 'NAP'라고도 함; 도 1의 (A) 참조), 비용-효율적인 인스턴스 및 특징의 재순위화(Cost-Effective instance and feature Reranking, 이하에서는 'CER'라고도 함; 도 1의 (B) 참조), 인간 감독관의 주석 입력(Annotation; 도 1의 (C) 참조)이 주요 구성임을 알 수 있다. 인간 감독관의 입력인 주석을 기초로 NAP와 CER을 수행하여 신경망의 파라미터를 수정함을 알 수 있다.

도 1을 참조하면, 재학습(retraining)과 오버피팅(overfitting)의 문제를 해결하기 위해, 어텐션 생성기에 의해 생성된 어텐션을 단계 (B)로 넘길 수 있도록 하고, 또한 어텐션 생성기에 새로운 의견(observations)를 적용할 수 있다.

또한 도 1을 참조하면, CER을 수행할 수 있고 그에 따라 인스턴스-수준(instance level) 재순위화 및 특징-수준(feature-level) 재순위화를 거쳐 인간감독관에게 어텐션을 전달할 수 있고, 인간 감독관은 어텐션 마스킹을 수행함에 따라 어텐션에 대한 의견을 낼 수 있다. NAP와 CER을 수행하는 구체적인 방법에 대해서는 아래에서 다른 도면들을 참조하여 후술한다.

도 2는 일 실시예에 따른 신경망 장치(200)의 구성을 도시한 블록도이다.

도 2를 참조하면, 일 실시예에 따른 신경망의 파라미터 개선 장치(200)는 입출력부(210), 저장부(220), 통신부(230) 및 제어부(240)를 포함할 수 있다.

일 실시예에 따른 입출력부(210)는 사용자로부터 입력을 수신하기 위한 입력장치와, 작업의 수행 결과 또는 신경망의 파라미터 개선 장치(200)의 상태 등의 정보를 표시하기 위한 출력장치를 포함할 수 있다. 예를 들어, 입출력부(210)는 데이터 처리의 명령을 수신하기 위한 입력부와 수신한 명령에 따라 처리된 결과를 출력하는 출력부를 포함할 수 있다. 일 실시예에 따르면 입출력부(210)는 키보드나 마우스, 터치패널 등의 사용자 입력수단과, 모니터나 스피커 등의 출력수단을 포함할 수 있다. 입출력부(210)를 통해 감독관은 주석 입력을 위한 인터페이스를 제시받을 수 있으며, 해당 인터페이스를 통해 주석을 입력할 수 있다.

한편, 저장부(220)는 각종 데이터나 프로그램들을 저장할 수 있다.

한편 통신부(230)는 신경망의 파라미터 개선 장치(200)가 다른 장치와 데이터를 교환하도록 하는 구성이다. 통신부(230)는 인간 감독관의 입력을 수신하거나, 제어부(240)가 신경 어텐션 프로세스를 이용한 인터랙티브 어텐션 러닝을 수행하는 과정에서 필요한 신경망와 관련된 데이터를 수신하여 제공할 수도 있다.

그리고 제어부(240)는 신경망의 파라미터 개선 장치(200)의 전체적인 동작을 제어하며, CPU 또는 GPU 등과 같은 프로세서를 포함하는 구성으로, 저장부(220)에 저장된 프로그램을 실행함으로써 이하에서 제시되는 알고리즘에 따라 신경망의 러닝을 위한 연산을 수행한다.

제어부(240)가 수행하는 구체적인 방법에 대해서는 아래에서 다른 도면들을 참조하여 자세하게 설명한다. 제어부(240)는 어텐션 생성기를 이용하여 어텐션 메커니즘을 수행하는 방법에 대해 설명한다. 어텐션 메커니즘은 신경망이 예측(Prediction)에 보다 관련 있는 특징(Feature)에 집중할 수 있도록 하기 위해 입력-의존적인 방식(Input-Dependent Manner)으로 특징의 부분집합(subset)을 입력에 대응되도록 선택하는 딥러닝 기법(Deep-Learning Method)이다. 즉, 어텐션 메커니즘은 입력과 특징에 대한 계수(coefficients)를 입력-적응적으로(input-adaptively) 생성하여 예측을 위해 더 많은 가중치를 할당함으로써 작동한다.

한편, 일 실시예에 따라서, 제어부(240)는 신경망의 선행학습(pre-training)을 위해 입력된 데이터인

에 대해, 선행학습된 신경망인

와, 선행학습된 신경망의 파라미터인

를 가정할 수 있다.

는

를 갖는 시계열 인스턴스(time-series instance)를 의미하고,

는 대응되는 라벨을 의미한다. 이때, 레이블이 지정된 인스턴스(instance) 각각을

로 나타낸다. 제어부(240)는 선행학습을 위한 데이터(

)를 입력받아 신경망를 선행학습시킨다. 즉, 신경망의 파라미터(

)는 학습되는 모든 인스턴스에 대한 개별 손실(individual loss;

)의 예상치(expectation)인 경험적 위험도(Empirical Risk)가 최소화되도록 학습(train)시킬 수 있다. 일 실시예에 따르면, 손실함수와 관련하여, 회귀(Regression)에는 평균-변환 오류(Mean-Squared Error)를 사용하고, 분류(Classification)에는 범주형 교차 엔트로피(Categorical Cross-Entropy)를 사용할 수 있다.

또한, 선행학습된 신경망의 파라미터(

)는 두개의 하위 파라미터

로 구성될 수 있다. 이때,

는 주 신경망(

)의 파라미터이고,

는 어텐션 생성 네트워크(어텐션 생성기;

)의 파라미터이다. 제어부(240)가 어텐션 생성기를 이용하여 어텐션 메커니즘을 수행한 값을 '어텐션'이라고 정의한다. 제어부(240)는 어텐션 생성기(

)를 이용하여 시계열 인스턴스(

)에 대해 어텐션(

)를 생성할 수 있다. 이때, 각 어텐션(

)은 시간(time) 축의 어텐션(

)과, 특징(feature) 축의 어텐션(

)으로 구분된다. 어텐션은 T 시간 단계를 따라 D 특징에 적용됨으로써, 모델이 예측과 관련된 입력의 표현(representation)의 특정 특징에 집중하도록 할 수 있다. 따라서 어텐션은 모델의 결정의 해석을 제공할 수 있다. 이후, 제어부(240)는 어텐션 생성기를 포함하는 선행학습된 신경망(

)에 대한 인간 감독관의 주석(Annotation)을 기초로 신경망의 파라미터를 수정할 수 있다.

제어부(240)가 인간 감독관의 입력을 기초로 어텐션 생성기의 파라미터(

)를 업데이트하는 방법은 다음과 같다. 제어부(240)는 각 라운드마다 인간 감독관으로 하여금 어텐션 생성기(

)에 의해 생성된 어텐션(

)을 검사하도록 할 수 있다. 즉, 인간 감독관은 어텐션 생성기(

)에 의해 생성된 어텐션(

)을 검사할 수 있다. 이후, 제어부(240)는 인간 감독관의 각 샘플(

)에 대한 어텐션 마스크(

)를 실측 라벨(Ground-Truth Label)로서 입력받을 수 있다. 이때, 어텐션 마스크(

)는 3가지 값인 {-1, 0, 1}로 구성되며, -1은 "I don't know"를 의미하며, 0은 "Not attend" 그리고 1은 "Attend"를 의미한다.

실시예에 따르면, 비용을 최소화하기 위해 파라미터(

)를 고정하고 파라미터(

)만을 업데이트할 수 있다. 상술된 방법은 IAL 프레임워크를 설명한 것이다.

한편 신경 어텐션 프로세스(NAP; Neural Attention Process)에 대해 후술한다. NAP는 사람 주석을 이용한 분할상환(amortization)에 의한 재학습없이 효과적으로 모델을 업데이트한다. NAP를 설명하기에 앞서, 논문(Retain: An interpretable predictive model for healthcare using reverse time attention mechanism. In Advances in Neural Information Processing Systems, pp. 3504-3512, 2016.; Choi et al.)에서 제시되는 RETAIN을 모델로서 사용함으로써, 시계열 예측(time-series Prediction)에 대해 어텐션 메커니즘이 적용되는 방법을 간략히 설명한다.

여기서 선형 임베딩(linear embedding)을

라고 가정하고, 특정 특징의 예측에 대한 기여도를 직접 계산할 수 있도록,

가

의 동일하게 차원

를 갖는 것으로 가정한다. 또한, 시간(time) 축과 특징(feature) 축 모두의 어텐션 계수(Attention Coefficients)는 다음의 수학식에 의하여 도출될 수 있다.

[수학식 1]

이때,

는 시간 축에 대해 적용된 어텐션 가중치이고,

는 특징 축에 대한 적용된 어텐션 가중치를 의미한다. 또한 논문(Neural image caption generation with visual attention. In ICML, 2015.; Xu et al.)에서의 스토캐스틱(stochastic) 어텐션도 고려한다. 또한,

라고 가정하면, 해당 모델은 다음의 수학식 2에 따라 예측

을 만든다.

[수학식 2]

이때,

는 행렬의 구성요소별 곱셈(element-wise multiplication)을 의미하고,

는 출력 레이어를 의미한다.

일 실시예에 따르면, 제어부(240)는 주석을 임베딩하고 요약할 수 있다. 관련하여, 입력 임베딩(

)을 LSTM(논문: Long short term memory. Neural Computation, 9:1735-1780, 1997.; Hochreiter et al.)

에 입력하여, 시계열 표현(

)을 생성할 수 있다.

이어서, 어텐션 마스크(

)가 주어지면, 제어부(240)는 다른 LSTM을 이용하여 중간 표현(

)을 생성한다. 이후, 제어부(240)는 순열분별연산(Permutation-invariant operation)을 이용하여 주석 요약 표현(

)을 생성한다. 이때, 순열분별연산의 예시로는 평균이 있을 수 있다. 주석 요약 표현(

)은 수학식 3에 의하여 생성될 수 있다. 또 다른 실시예에 따르면, 제어부(240)는 어텐션을 생성하고 NAP 를 학습시킬 수 있다.

제어부(240)는 확률적 그레디언트 변동 추론(Stochastic gradient variational inference)을 통해 NAP의 파라미터를 학습시킨다.

한편, 제어부(240)는 NAP를 수행하면서, 수학식 6과 유사하게 어텐션을 생성하되, 시계열 표현(

)만을 입력하는 것뿐만 아니라, 시계열 표현(

)과 주석 요약 벡터(

)를 연결(concatenation)하여 입력한다. 이를 통해 신경망는 어텐션 생성기의 모든 파라미터(

)를 재학습하지 않고도, 주석 요약 벡터(

)에서 얻은 정보를 자연스럽게 반영할 수 있다.

관련하여, 도 3과 4는 신경망의 파라미터 개선 장치를 설명하기 위한 예시도로서, 제어부가 신경 어텐션 프로세스(NAP; Neural Attention Process)를 수행하는 방법을 나타낸 것이다.

도 3을 참조하면, 제어부(240)는 어텐션 마스크(

)가 주어지면, 제어부(240)는 다른 LSTM을 이용하여 중간 표현(

)을 생성하고, 주석 요약 벡터(

)를 도출해냄을 알 수 있다.

도 4를 참조하면, 첫번째 라운드(s=1)에서, 새로운 어텐션 마스크

가 주어지면, 제어부(240)는, 새로운 어텐션 마스크를 입력으로 하여 주석 요약 벡터(

)에 대한 파라미터인 평균 및 분산을 NAP가 생성하도록 할 수 있다.

이때 일 실시예에 따르면 제어부(240)는 주석 요약 벡터(

)를 스탠다드 가우시안 우선 분포로 정규화할 수 있고, NAP의 파라미터를 스토캐스틱 그래디언트 변수 추론(stochastic gradient variational inference)으로 학습시킬 수 있다. 한편, 인간 감독관이 모든 인스턴스(Instance)와 특징(Feature)을 검사하도록 하는 것은 매우 비효율적이다. 제어부(240)가 모든 어텐션 값 중 무작위로 부분집합을 샘플림함으로써 해당 비용을 줄일 수도 있지만, 이미 정확하거나 신경망의 예측에 거의 영향을 미치지 않는 인스턴스 또는 특징을 선택하는 결과를 초래할 수 있다. 따라서, 이를 해결하기 위하여, 이하 비용-효율적인 인스턴스 및 특징의 재순위화(Cost-Effective Instance and Feature Reranking, CER)를 설명한다.

제어부(240)는 인간 감독관이 제공할 피드백이 큰 성능 향상을 가져오도록 중요한 인스턴스 및 특징을 선택하기 위하여 인스턴스 및 특징을 재순위화할 수 있다. 관련하여, 제어부(240)는 인스턴스 및 특징의 부정적인 영향력(Negative Impact)을 기초로 하여 인스턴스 및 특징을 재순위화할 수 있다.

일 실시예에 따르면 제어부(240)는 인스턴스 수준에서 재순위화할 수 있다.

관련하여, 제어부(240)가 인스턴스를 재순위화하는 경우, 제어부(240)는 인스턴스의 영향 점수(Influence Score) 및 불확실성 점수(Uncertainty Score) 중 적어도 하나를 기초로 인스턴스를 재순위화할 수 있다.

먼저, 영향 점수(Influence Score)에 대해서 설명한다.

영향 점수(Influence Score)는 논문(Understanding black-box predictions via influence functions. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1885-1894. JMLR. org, 2017.; Koh et al.)에서 제시된 영향 함수(Influence function)를 이용하여 즉 신경망의 개별 학습 지점이 모델의 예측에 미치는 영향력을 근사화한 것이다. 인스턴스의 영향 점수는 검증 지점(

)이 주어졌을 때, 특정 학습 인스턴스(

)가 학습 프로세스에서 제외될 경우 유효 손실(validation loss)을 계산하는 방식으로 계산된다.

관련하여,

는 경험적 위험(Empirical Risk,

)이 최소화되도록 계산되는 파라미터이고,

는 오리지널 학습 데이터에서 특정 학습 인스턴스(

)가 제외되면서 경험적 위험(

)이 최소화되도록 계산되는 파라미터로 가정한다. 그러면, 특정 학습 인스턴스(

)의 제거효과는

로 도출될 수 있다. 이를 정확하게 계산하려면

번 재학습(retraining)과 상당한 비용이 들기 때문에, 영향 함수(

)를 수학식 12 내지 13과 같이 근사화할 수 있다.

[수학식 4]

[수학식 5]

이때,

는 헤시안(Hessian)으로,

와 같이 계산된다. 요악하기 위해, 영향 함수(

)는 모델에 대한 재학습(retraining) 없이 유효 손실에 대한 변화를 (가능하다면 상수로) 근사화시킬 수 있다.

제어부(240)가 인스턴스의 영향 점수(Influence Score)를 기초로 인스턴스를 재순위화하는 방법을 설명한다. 제어부(240)는 인스턴스의 영향 점수를 기초로 인스턴스를 재순위화할 수 있다. 학습 도중, 유효성 인스턴스(validation instance)(

)가 주어지면, 제어부(240)는

로 구성시키기 위해 유효 손실(

)을 가장 높게 하는 인스턴스 P개를 선택한다. 즉, 선행학습된 신경망에 의해 잘못 예측된 유효성 인스턴스에 큰 영향을 미치는 학습 인스턴스를 선택하고자 하는 것이다.

을 통하여, 학습 인스턴스(

)의 영향 점수는

로 계산된다.

한편, 영향 점수는 인스턴스의 부정적인 영향(Negative Impact)을 직접 측정할 수 있지만, 헤시안 계산(Hessian Computation)으로 인해 비용이 많이 든다. 부정적인 영향(Negative Impact)을 측정하기 위해 대안적인 방법은 불확실성(Uncertainty)(불확실성 점수)을 이용하는 것이다. 제어부(240)는 예측 불확실성이 높은 인스턴스를 수정될 잠재후보로 선택할 수 있다. 인스턴스의 예측 불확실성은 몬테-카를로(Monte-Carlo(MC)) 샘플링에 의해 간단히 도출될 수 있다. 인스턴스 수준 불확실성 점수는 분산값인

로 정의한다.

또 실시예에 따르면 제어부(240)는 특징 수준에서 재순위화할 수 있다. 이때 제어부(240)는 상술된 영향 점수, 불확실성 점수 및 반사실 점수(Counterfactual Score) 중 적어도 하나를 기초로 특징을 재순위화할 수 있다. 즉 실시예에 따르면 제어부(240)는 특징의 영향 점수를 기초로 인스턴스를 재순위화할 수 있다.

특징의 영향 점수에 대해서 설명한다. 인스턴스의 영향 점수와 마찬가지로, 특징의 영향 점수는 특정 특징 값이 수정된 경우 유효 손실은 어떻게 변화할 것인지를 측정하는 것이다.

이때

를 학습 데이터라 하고, 특정 특징(

)의 영향(influence)을 계산한다고 가정하자. 이때, 특정 특징(

)은 특정 시간 t에 대한 d번째 입력 특징이며,

를 만족한다. 교란된 자료(Pertubed data) 지점을

로 정의한다. 이때,

는 시간 t의 d번째 특징을 하나로 갖는 원핫벡터(one-hot vector)이다.

는

를

로 대체하여 경험적 위험(Empirical Risk)이 최소화되도록 하는 파라미터라고 정의한다. 특징(Feature)의 영향 점수는 수학식 6와 같이 도출된다. 또한 수학식 7과 같이 근사화될 수 있다.

[수학식 6]

[수학식 7]

제어부(240)는 수학식 7에 도출된 근사치를 기초로 특징의

한 값의 평균(mean

of feature)으로부터

를 샘플링하고, 복수의 교란(perturbation) 행위에 대한 평균 영향 점수를 계산하여 특징의 순위를 매긴다. 이때, 인스턴스 수준 영향 점수를 위해, 선택된 유효 샘플에 대한 영향 점수를 합할 수 있다. 특정 특징(

)을 교란하여(perturbing) 얻은 영향 점수를

로 표현할 수 있다.

한편, 제어부(240)는 특징의 재순위화할 수 있다. 관련하여, NAP는 개별 특징에 적용되는 어텐션에 스토캐스티시티(stochasticity)를 야기하게 된다. 이는 자연스럽게 특징 수준의 불확실성 점수를 도출할 수 있게 한다. 특정 특징(

)의 특징 수준의 불확실성 점수를

로 정의할 수 있다.

한편, 제어부(240)는 특징의 반사실 점수를 기초로 특징을 재순위화할 수 있다. 이때, 반사실 점수는 영향 점수, 불확실성 점수보다 특징의 부정적인 영향(negative impact)을 가장 직접적으로 측정할 수 있다. 해당 특징의 어텐션 값을 제외시켜 반사실 점수를 계산할 수 있다.

일 실시예에 따라서, 제어부(240)가 CER을 수행하는 방법은 다음 표 1의 Algorithm 2와 같이 표현될 수 있다.

[표 1]

상술된 바에 따라 CER을 수행함에 따라 선택된 부분집합은 그들의 부정적인 영향력(Negative Impact)에 의해 인스턴스와 특징이 정렬된다. 온라인을 통한 유저 인터페이스를 통해 감독관에게 어텐션을 가시화하고 제시할 수 있다.

도 5 및 6은 본 명세서에 개시된 일 실시예에 따른 신경망의 파라미터 개선 장치를 설명하기 위한 예시도이며, 심혈관계 질환의 리스크 예측 태스크를 위한 어텐션 주석 인터페이스를 도시한 것이다. 도 5에서 도시된 바와 같이, 감독관들은 각 특징에 대해 어텐션 마스크를, {-1, 0, 1} 중 선택하여 입력할 수 있으며, 이때 -1은 "I don't know"를 의미하며, 0은 "Not attend" 그리고 1은 "Attend"를 의미한다. 도 4의 인터페이스는 주어진 태스크에 따라 (이미지 데이터를 위한) 어텐션 맵(attention map) 또는 (표로 나타낸 데이터를 위한) 표 차트(barplot)를 이용하여 높은 어텐션을 갖는 특징을 시각적으로 강조해줄 수 있다. 그에 따라 감독관은 어텐션 가중치를 관찰하고 잘못 할당되었는지를 체크하며, 필요하다면 정정할 수 있다.

그리고 도 6에 도시된 바와 같이 신경망의 파라미터 개선 장치에서의 신경망의 파라미터 개선 장치는 신경망의 파라미터 개선 장치(200)는 신경 어텐션 프로세스를 이용한 인터랙티브 어텐션 러닝을 수행할 수 있다.

나아가 도 7에 도시된 바와 같이 주어진 태스크에 따라 (이미지 데이터를 위한) 어텐션 맵(attention map) 또는 차트(barplot)를 이용하여 높은 어텐션을 갖는 특징을 시각적으로 강조해줄 수 있다. 그에 따라 감독관은 어텐션 가중치를 관찰하고 잘못 할당되었는지를 체크하며, 필요하다면 정정할 수 있다.

도 8에는 재순위화를 통해 학습된 뉴럴 네트워크의 성능이 향상되는 것이 나타나있다.

이상에서, 명세서에 기재된 "…부", "…모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.

상술된 실시예들에 따른 신경망의 파라미터 개선 장치 및 그 장치에서의 신경망의 파라미터 개선 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.

또한 상술된 실시예들에 따른 신경망의 파라미터 개선 장치 및 그 장치에서의 신경망의 파라미터 개선 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 상술된 실시예들에 따른 신경망의 파라미터 개선 장치 및 그 장치에서의 신경망의 파라미터 개선 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 명세서를 통해 보호받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

210: 입출력부 220: 저장부
230: 통신부 240: 제어부

Claims

신경망 장치에서의 신경망의 파라미터 개선 방법에 있어서,
선행학습(pre-training)을 위한 데이터를 입력받아 신경망를 학습시키는 단계;
선행학습된 신경망의 파라미터에 대한 비용-효율적인 인스턴스 및 특징의 재순위화를 수행(Cost-Effective Instance and Feature Reranking, CER )하는 단계;
재순위화된 신경망의 파라미터를 수정하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 방법은,
재순위화된 인스턴스 및 특징 중 일부에 기초하여 어텐션 생성기를 이용하여 어텐션을 생성하는 단계;
생성된 어텐션을 인간 감독관에게 제시하는 단계;
상기 인간 감독관으로부터 주석을 입력받는 단계; 및
상기 인간 감독관의 주석을 기초로 신경 어텐션 프로세스(Neural Attention Process, NAP)를 수행하는 단계를 더 포함하는, 방법.
제2항에 있어서,
상기 재순위화를 수행하는 단계는,
인스턴스의 영향 점수(Influence Score) 및 불확실성 점수(Uncertainty Score) 중 적어도 하나를 기초로 인스턴스를 재순위화하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 재순위화를 수행하는 단계는,
특징의 영향 점수(influence score), 불확실성 점수(Uncertainty Score) 및 반사실 점수(Counterfactual Score) 중 적어도 하나를 기초로 특징을 재순위화하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 재순위화를 수행하는 단계는,
특징의 영향 점수(influence score), 불확실성 점수(Uncertainty Score) 및 반사실 점수(Counterfactual Score) 중 적어도 하나를 기초로 특징을 재순위화하는 단계를 포함하는, 방법.
제2항에 있어서,
상기 신경망의 파라미터를 수정하는 단계는,
선행학습을 위한 데이터의 부분집합에 대한 인간 감독관의 입력을 기초로 하여 잠재 벡터를 생성하는 단계; 및
상기 잠재 벡터를 상기 어텐션 생성기에 추가적인 입력으로 하여 어텐션을 생성하는 단계를 포함하는, 방법.
신경망(Artificial Neural Network) 장치에 있어서,
데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부;
프로그램이 저장되는 저장부; 및
적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 입출력부를 통해 러닝을 수행하는 제어부를 포함하며,
상기 제어부는,
선행학습(pre-training)을 위한 데이터를 입력받아 신경망를 학습시키고, 선행학습된 신경망의 파라미터에 대한 비용-효율적인 인스턴스 및 특징의 재순위화를 수행(Cost-Effective Instance and Feature Reranking, CER )하는, 장치.
제7항에 있어서,
상기 제어부는,
신경 어텐션 프로세스(Neural Attention Process, NAP)를 이용한 인터랙티브 어텐션 러닝(Interactive Attention Learning, IAL)을 수행고, 재순위화된 인스턴스 및 특징 중 일부에 기초하여 어텐션 생성기를 이용하여 어텐션을 생성하고, 생성된 어텐션을 인간 감독관에게 제시하며, 상기 인간 감독관으로부터 주석을 입력받고, 상기 인간 감독관의 주석을 기초로 신경 어텐션 프로세스를 수행하여 상기 신경망의 파라미터를 수정하는, 장치.
제5항에 있어서,
상기 제어부는,
불확실성 점수(Uncertainty Score) 및 인스턴스의 영향 점수(Influence Score) 중 적어도 하나를 기초로 인스턴스를 재순위화하는, 장치.
제5항에 있어서,
상기 제어부는,
비용-효율적인 인스턴스 및 특징의 재순위화를 수행하되, 특징의 영향 점수(influence score), 불확실성 점수(Uncertainty Score) 및 반사실 점수(Counterfactual Score) 중 적어도 하나를 기초로 특징을 재순위화하는, 장치.
컴퓨터에 제1항에 기재된 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
신경망의 파라미터 개선 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.