KR102583943B1 - 태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법 - Google Patents

태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법 Download PDF

Info

Publication number
KR102583943B1
KR102583943B1 KR1020220101187A KR20220101187A KR102583943B1 KR 102583943 B1 KR102583943 B1 KR 102583943B1 KR 1020220101187 A KR1020220101187 A KR 1020220101187A KR 20220101187 A KR20220101187 A KR 20220101187A KR 102583943 B1 KR102583943 B1 KR 102583943B1
Authority
KR
South Korea
Prior art keywords
parameters
task
neural network
learning
network device
Prior art date
Application number
KR1020220101187A
Other languages
English (en)
Inventor
김은우
진현동
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020220101187A priority Critical patent/KR102583943B1/ko
Application granted granted Critical
Publication of KR102583943B1 publication Critical patent/KR102583943B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/153Multidimensional correlation or convolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

태스크 간의 상관관계 분석을 기반으로 딥러닝의 연속학습을 수행하는 신경망 장치 및 방법이 개시된다. 일 실시예에 따른 신경망 장치는 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부; 및 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부를 포함하며, 는 태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트 및 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하여 생성될 수 있다.

Description

태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법{A neural network apparatus and neural network learning method for performing continuous learning using a correlation analysis algorithm between tasks}
태스크 간의 상관관계 분석을 기반으로 딥러닝의 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법에 관한 것이다.
최근 이전 태스크들의 지식을 유지하기 위해 많은 접근법들이 제안되고 있다. 이는 일반적으로 정규화 방법, 재생 (replay) 방법, 동적 확장 그리고 구조적 할당 방법으로 범주화 된다.
정규화 방법들은 새로운 태스크에 대해 학습하는 동안 이전 태스크에 대해 민감한 매개변수들이 변하지 않도록 새로운 패널티를 도입한다. 그러나 패널티가 해당 매개변수들이 변하는 것을 충분히 방지하지 못하여 많은 태스크에 대한 학습을 수행하는 경우 효과적이지 않다.
재생(replay) 방법은 이전 태스크에서 적은 수의 데이터를 일부 저장하여 새로운 태스크의 데이터와 함께 딥러닝 네트워크를 학습하는 방법이다. 그러나, 재생 방법은 저장된 데이터를 보유 할 수 있는 크기 제한으로 인해 많은 수의 태스크를 학습하는 경우 각 태스크에 해당되는 저장된 데이터 수가 감소하여 성능이 저하될 수 있다.
동적 확장 방법은 새로운 태스크가 들어오거나, 성능이 미리 결정된 기준을 충족하지 못할 때 네트워크를 확장한다. 그 결과 많은 양의 계산 비용이 발생하며, 실생활 문제에 적용 가능성이 제한된다.
카테고리인 구조적 할당 방법은 태스크에 대한 매개변수의 분리된 집합을 각각 구성하여, 이전 태스크에 할당된 매개변수 집합들을 이용하여 새로운 태스크에 할당된 매개변수 집합을 학습한다. 그러나, 새 태스크의 최적화에 부정적인 영향을 줄 수 있는 이전 매개변수를 사용하여 성능이 저하될 수 있다.
한국공개특허공보 제10-2019-0098107호(2019.08.21)
새로운 태스크 학습 시 이전 태스크들의 지식을 잃는 문제를 해결하기 위한 태스크 간의 상관관계 분석을 기반으로 딥러닝의 연속학습을 수행하는 신경망 장치 및 방법을 제공하는데 목적이 있다.
일 양상에 따르면, 신경망 장치는 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부; 및 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부를 포함하며, 는 태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트 및 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하여 생성될 수 있다.
학습된 매개변수 세트 는 i 번째 태스크를 학습하여 생성한 매개변수 와 1 번째 내지 i-1 번째 태스크를 통하여 생성한 매개 변수 내지 을 포함하는 매개변수 세트 집합 를 이용하여 매개변수 에 가지치기(prune) 및 재학습을 수행하여 획득될 수 있다.
민감도는 피셔 정보 행렬(fisher information matrix)을 이용하여 계산될 수 있다.
이진 마스크는 매개변수 세트 에 피셔 정보 행렬을 적용하여 계산된 매개변수 세트의 민감도 값에 태스크 i에 대한 이진 가중치를 곱한 값에 임계 함수(threshold function)을 적용하여 생성될 수 있다.
이진 가중치는 태스크 Ti 에 대한 신경망 구조(network architecture) ai에 검벨 소프트맥스(gumbel softmax)를 적용하여 계산될 수 있다.
일 양상에 따르면, 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부 및 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부를 포함하는 신경망 장치에서 매개변수 를 학습하는 방법에 있어서, 태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트를 생성하는 단계; 및 하나 이상의 마스킹된 매개변수 세트 및 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하는 단계를 포함할 수 있다.
딥러닝 연속학습에서 이전 태스크들에 대한 정보의 유실 없이 새로운 태스크의 최적화된 아키텍쳐를 찾을 수 있다.
도 1은 일 실시예에 따른 신경망 장치의 구성도이다.
도 2는 일 실시예에 따른 신경망 장치의 매개변수 학습 방법을 설명하기 위한 예시도이다.
도 3은 일 실시예에 따른 신경망 장치의 매개변수 학습 방법을 도시한 흐름도이다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 신경망 장치 및 신경망 장치의 매개변수 학습 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.
도 1은 일 실시예에 따른 신경망 장치의 구성도이다.
일 실시예에 따르면, 신경망 장치(100)는 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부(110) 및 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부(120)를 포함할 수 있다.
일 예에 따르면, 신경망 장치(100)는 새로운 태스크 학습 시 이전 태스크들의 지식을 잃는 문제를 태스크 간 연관을 짓는 문제로 재해석하여 해결할 수 있다. 일 예로, 신경망 장치(100)는 하나의 딥러닝 네트워크에서 연속학습 시 새로운 태스크와 이전 태스크 간의 상관관계 분석을 통해 새로운 태스크에 도움이 되는 이전 태스크들의 매개변수들을 선택적으로 이용할 수 있다. 예를 들어, 신경망 장치(100)는 태스크 수준에서 경사도(gradient) 기반 모델 탐색을 이용하며 이보다 더 작은 매개변수 단위에서 민감도 측정을 통해 이전 태스크에서 기여 가능한 매개변수를 선택할 수 있다.
일 실시예에 따르면, 태스크 Tt 특정 매개변수 세트 는 태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트 및 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하여 생성될 수 있다. 예를 들어, 태스크 Tt 특정 매개변수 세트 는 아래 수학식과 같이 나타낼 수 있다.
[수학식 1]
여기서, 은 element-wise 곱, 은 threshold function을 나타낸다.
일 예에 따르면, 수학식 1의 는 이진 마스크를 나타내며, 도 2의 이진 마스크(binary mask, 240)와 같이 나타낼 수 있다. 여기서, F()는 매개변수 세트 에 대한 민감도를 계산하기 위한 피셔 정보 행렬(fisher information matrix)이다.
일 실시예에 따르면, 학습된 매개변수 세트 는 i 번째 태스크를 학습하여 생성한 매개변수 와 1 번째 내지 i-1 번째 태스크를 통하여 생성한 매개 변수 내지 을 포함하는 매개변수 세트 집합 를 이용하여 매개변수 에 가지치기(prune) 및 재학습을 수행하여 획득될 수 있다.
일 예에 따르면, 본 실시예에서 순차적인 태스크들 T1, ..., Tt이 들어올 때, Tt={Xt, Yt}는 데이터 와 이에 대응되는 레이블 로 구성될 수 있다. 첫 번째 태스크 T1은 Θ1w 1로 매개변수화 되어있는 특징 추출부(feature extractor) 와 해당 태스크의 분류기(classifier) 를 학습시킬 수 있다. 일 예로, 신경망 장치(100)의 기본적인 구조는 하나의 특징 추출부와 분류부를 포함할 수 있다. 예를 들어, 태스크 id가 주어지는 태스크 증분(task-incremental) 시나리오의 경우, 해당 분류부를 이용하여 예측(prediction)을 수행할 수 있다.
일 예로, T1를 학습 할 때, 매개변수 θ1는 Θ1에 할당될 수 있다(Θ1=[θ1]). 이후, 학습이 끝나면 가치치기(pruning)을 통해 불필요한 매개변수들을 제거하고, 남은 매개변수들을 재학습하여 최종적인 태스크 특정 매개변수 세트 를 획득할 수 있다. 예를 들어, 도 2에서 검색 공간(210)의 첫번째 박스에 포함된 원들은 매개변수 세트 θ1이 되며, 원들 중 색상이 채워진 원은 가지치기 및 재학습되어 획득된 를 나타낼 수 있다.
일 예로, i번째 태스크 Ti 학습 시 T-1 태스크까지 학습 된 특징 추출부의 가지치기(prune)가 된 곳에 θi를 할당한다. 이후, 할당된 모든 매개변수 세트 Θi=[]를 이용하여 현재 태스크의 매개변수 θi를 학습 시 forward pass와 backward pass는 아래 수학식과 같이 나타낼 수 있다.
[수학식 2]
이후, Ti의 학습이 끝나면, 가지치기(pruning)과 재학습(retraining)을 통해서 를 획득할 수 있다.
일 실시예에 따르면, 이진 마스크는 매개변수 세트 에 피셔 정보 행렬을 적용하여 계산된 매개변수 세트의 민감도 값에 태스크 i에 대한 이진 가중치를 곱한 값에 임계 함수(threshold function)을 적용하여 생성될 수 있다.
일 예로, 최적의 네트워크 아키택쳐 at를 찾기 위해 기울기 기반(gradient-based) 탐색방법을 사용할 수 있다. 태스크 Tt에 도움을 주는 태스크들을 찾기 위한 탐색 가능한 네트워크의 구조의 개수는 2t-1이며, 각 선택은 불연속한(discrete) 탐색 공간을 가지고 있다. 이는 학습 가능한 파라미터 a=(a1,..., at-1) 검벨 소프트맥스(gumbel softmax)를 샘플링 통해 불연속한 검색 공간으로 인한 기울기를 구할 수 없는 문제를 완화할 수 있다. 이를 통해 아래의 손실값을 최소화하는 방향으로 a=(a1,..., at-1) 와 θt 가 업데이트될 수 있다.
[수학식 3]
일 실시예에 따르면, 이진 가중치는 태스크 Ti 에 대한 신경망 구조(network architecture) ai에 검벨 소프트맥스(gumbel softmax)를 적용하여 계산될 수 있다. 예를 들어, 이진 가중치는 아래 수학식과 같이 나타낼 수 있다.
[수학식 4]
일 예에 따르면, 탐색된 최적의 네트워크 at의 특징 추출부의 매개변수는 아래 수학식과 같이 나타낼 수 있다.
[수학식 5]
일 예로, 위의 실시예에서 태스크 단위로 선택한 매개변수 세트에 포함된 매개변수 단위에 민감도를 적용하여 매개변수를 선택할 수 있다. 예를 들어, 모든 매개변수에 대한 피셔 정보 행렬을 적용해 새로운 태스크의 손실값에 대한 민감도 측정을 할 수 있다. 즉, 피셔 정보 행렬을 통하여 각 매개변수 세트의 매개변수를 위치별로 표기할 수 있다. 도 2를 참조하면, 학습된 매개변수 세트 별로 피셔 정보 행렬 F()을 적용하면 (230)에서와 같이 각 매개변수 세트의 매개변수를 위치별로 표기할 수 있다.
일 예로, 피셔 정보 행렬은 아래의 수학식과 같이 나타낼 수 있다.
[수학식 6]
여기서, 는 특징 추출부의 모든 매개변수에 대한 parameter 에 대한 로그 우도(log-likehood)의 기울기(gradient)이다.
일 예로, 위의 수학식 6을 매개변수 세트별로 분할하는 경우 아래의 수학식과 같이 나타낼 수 있다.
[수학식 7]
예를 들어, 수학식 6의 피셔 정보 행렬은 도 2의 sensitivity F로 나타낼 수 있으며, 이를 매개변수 세트 단위로 분할하는 경우, 도 2의 230과 같이 로 나타내는 행렬과 같이 나타낼 수 있다.
일 예에 따르면, 샘플링된 변수 m과 민감도를 고려한 태스크 t 특정 매개변수 세트 는 아래 수학식과 같이 나타낼 수 있다.
[수학식 8]
예를 들어, 수학식 7에서 계산된 민감도 와 각 태스크 별 이진 가중치 를 곱한 후 임계값 함수를 적용한 는 도 2의 이진 마스크(binary mask)로 나타낼 수 있다. 이후, 이진 마스크에 이전 태스크 i=1~t-1 를 학습하여 생성한 매개변수 세트 를 적용한 매개변수들과 태스크 t를 학습하여 생성한 매개변수 세트 를 합집합하면 태스크 t에 대한 최종적인 매개변수 세트 를 획득할 수 있다.
일 실시예에 따르면, 태스크의 id가 제공되지 않는 클래스 증분 학습(class-incremental learning)을 수행하기 위해 메타 분류기(meta classifier) 를 이용할 수 있다. 예를 들어, 메타 분류기는 기존의 특징 추출부 및 분류부와 별개의 신경망(network)일 수 있다.
[수학식 9]
일 예로, 메타 분류기는 위 수학식처럼 태스크의 id를 예측할 수 있으며, 예측된 태스크 id를 기반으로 분류부 및 예측한 최적의 아키텍처 ai 를 테스트시 사용할 수 있다. 일 예로, 메타 분류기를 학습하기 위한 데이터 는 exemplar 를 이용하며 이를 아래 수학식을 이용하여 획득할 수 있다.
[수학식 10]
여기서,는 concatenation 연산자이며, flatten은 1차원 벡터로 만드는 함수이다. 는 탐색된 최적의 아키텍처에서 태스크 특정 분류기를 제외한 부분을 나타낸다. 메타 분류기는 아래의 수학식과 같이 손실값을 최소화하는 방향으로 학습될 수 잇다.
[수학식 11]
여기서, 은 대조 손실(contrastive loss)이며, 은 similarity metric, 은 메타 분류기에서 추출된 특징이며 서로 다른 태스크의 데이터이다.
도 3은 일 실시예에 따른 신경망 장치의 매개변수 학습 방법을 도시한 흐름도이다.
일 실시예에 따르면, 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부 및 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부를 포함하는 신경망 장치는 매개변수 를 학습하기 위하여 태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트를 생성할 수 있다(310). 이후, 신경망 장치는 하나 이상의 마스킹된 매개변수 세트 및 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하여 매개변수 를 학습할 수 있다(320).
일 예로, 도 3의 실시예 중 도 1 내지 도 2를 참조하여 설명한 실시예와 중복되는 내용은 생략하였다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 신경망 장치(100)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
100: 신경망 장치
110: 특징 추출부
120: 분류부

Claims (11)

  1. 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부; 및
    상기 태스크 Tt 의 상기 매개변수 세트 와 구별되는 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부를 포함하며,
    상기 매개변수 세트 는,
    상기 태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트 및 상기 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하여 생성되는, 신경망 장치.
  2. 제 1 항에 있어서,
    상기 학습된 매개변수 세트 는,
    i 번째 태스크를 학습하여 생성한 매개변수 와 1 번째 내지 i-1 번째 태스크를 통하여 생성한 매개 변수 내지 을 포함하는 매개변수 세트 집합 를 이용하여 매개변수 에 가지치기(prune) 및 재학습을 수행하여 획득되는, 신경망 장치.
  3. 제 1 항에 있어서,
    상기 민감도는,
    피셔 정보 행렬(fisher information matrix)을 이용하여 계산되는, 신경망 장치.
  4. 제 1 항에 있어서,
    상기 이진 마스크는,
    상기 매개변수 세트 에 피셔 정보 행렬을 적용하여 계산된 매개변수 세트의 민감도 값에 태스크 i에 대한 이진 가중치를 곱한 값에 임계 함수(threshold function)을 적용하여 생성되는, 신경망 장치.
  5. 제 4 항에 있어서,
    상기 이진 가중치는,
    태스크 Ti 에 대한 신경망 구조(network architecture) ai에 검벨 소프트맥스(gumbel softmax)를 적용하여 계산되는, 신경망 장치.
  6. 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부 및 상기 태스크 Tt 의 상기 매개변수 세트 와 구별되는 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부를 포함하는 신경망 장치에서 매개변수 를 학습하는 방법에 있어서,
    태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트를 생성하는 단계; 및
    상기 하나 이상의 마스킹된 매개변수 세트 및 상기 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하는 단계를 포함하는, 신경망 장치의 매개변수 학습 방법.
  7. 제 6 항에 있어서,
    상기 학습된 매개변수 세트 는,
    i 번째 태스크를 학습하여 생성한 매개변수 와 1 번째 내지 i-1 번째 태스크를 통하여 생성한 매개 변수 내지 을 포함하는 매개변수 세트 집합 를 이용하여 매개변수 에 가지치기(prune) 및 재학습을 수행하여 획득되는, 신경망 장치의 매개변수 학습 방법.
  8. 제 6 항에 있어서,
    상기 민감도는,
    피셔 정보 행렬(fisher information matrix)을 이용하여 계산되는, 신경망 장치의 매개변수 학습 방법.
  9. 제 6 항에 있어서,
    상기 이진 마스크는,
    상기 매개변수 세트 에 피셔 정보 행렬을 적용하여 계산된 매개변수 세트의 민감도 값에 태스크 i에 대한 이진 가중치를 곱한 값에 임계 함수(threshold function)을 적용하여 생성되는, 신경망 장치의 매개변수 학습 방법.
  10. 제 9 항에 있어서,
    상기 이진 가중치는,
    태스크 Ti 에 대한 신경망 구조(network architecture) ai에 검벨 소프트맥스(gumbel softmax)를 적용하여 계산되는, 신경망 장치의 매개변수 학습 방법.
  11. 비일시적 컴퓨터 판독 가능한 저장 매체(non-transitory computer readable storage medium)에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 하나 이상의 명령어들을 포함하고, 상기 명령어들은 하나 이상의 프로세서들을 가지며 태스크 Tt 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 특징 추출부 및 상기 태스크 Tt 의 상기 매개변수 세트 와 구별되는 특정 매개변수 세트 가 적용된 인공 신경망으로 구성된 분류부를 포함하는 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치로 하여금,
    태스크 Tt 이전의 하나 이상의 태스크로부터 학습된 매개변수 세트 에 민감도를 기초로 생성한 이진 마스크를 적용하여 생성한 하나 이상의 마스킹된 매개변수 세트를 생성하는 단계; 및
    상기 하나 이상의 마스킹된 매개변수 세트 및 상기 태스크 Tt 를 학습하여 생성한 매개변수 를 합집합 연산하여 상기 를 생성하는 단계를 수행하도록 하는, 컴퓨터 프로그램.
KR1020220101187A 2022-08-12 2022-08-12 태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법 KR102583943B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220101187A KR102583943B1 (ko) 2022-08-12 2022-08-12 태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220101187A KR102583943B1 (ko) 2022-08-12 2022-08-12 태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법

Publications (1)

Publication Number Publication Date
KR102583943B1 true KR102583943B1 (ko) 2023-09-26

Family

ID=88190863

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220101187A KR102583943B1 (ko) 2022-08-12 2022-08-12 태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법

Country Status (1)

Country Link
KR (1) KR102583943B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190098107A (ko) 2019-08-02 2019-08-21 엘지전자 주식회사 딥 러닝을 위한 신경망 학습 장치 및 그 방법
US20210383158A1 (en) * 2020-05-26 2021-12-09 Lg Electronics Inc. Online class-incremental continual learning with adversarial shapley value

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190098107A (ko) 2019-08-02 2019-08-21 엘지전자 주식회사 딥 러닝을 위한 신경망 학습 장치 및 그 방법
US20210383158A1 (en) * 2020-05-26 2021-12-09 Lg Electronics Inc. Online class-incremental continual learning with adversarial shapley value

Similar Documents

Publication Publication Date Title
US11741342B2 (en) Resource-efficient neural architects
KR102158683B1 (ko) 외부 메모리로 신경망들 증강
KR102532749B1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
CN110287477B (zh) 实体情感分析方法及相关装置
KR102410820B1 (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US20210174214A1 (en) Systems and methods for quantizing a neural network
US11537930B2 (en) Information processing device, information processing method, and program
KR20200014510A (ko) 기계 학습 기반의 예측 서비스 제공 방법 및 그 장치
CN110489110B (zh) 一种基于深度学习的代码生成方法及装置
KR102074909B1 (ko) 소프트웨어 취약점 분류 장치 및 방법
CN113837370A (zh) 用于训练基于对比学习的模型的方法和装置
US20190228297A1 (en) Artificial Intelligence Modelling Engine
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN112069799A (zh) 基于依存句法的数据增强方法、设备和可读存储介质
CN116594748A (zh) 针对任务的模型定制处理方法、装置、设备和介质
CN113449821A (zh) 融合语义和图像特征的智能训练方法、装置、设备及介质
US20230004816A1 (en) Method of optimizing neural network model and neural network model processing system performing the same
KR102583943B1 (ko) 태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법
KR20220032861A (ko) 하드웨어에서의 성능을 고려한 뉴럴 아키텍처 서치 방법 빛 장치
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN108460453B (zh) 一种用于ctc训练的数据处理方法、装置及系统
CN117999560A (zh) 机器学习模型的硬件感知渐进训练
KR102441442B1 (ko) 그래프 컨볼루션 네트워크 학습 방법 및 장치
US20210357700A1 (en) Method and apparatus for image analysis using image classification model

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant