KR102036968B1 - 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치 - Google Patents

전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치 Download PDF

Info

Publication number
KR102036968B1
KR102036968B1 KR1020170135635A KR20170135635A KR102036968B1 KR 102036968 B1 KR102036968 B1 KR 102036968B1 KR 1020170135635 A KR1020170135635 A KR 1020170135635A KR 20170135635 A KR20170135635 A KR 20170135635A KR 102036968 B1 KR102036968 B1 KR 102036968B1
Authority
KR
South Korea
Prior art keywords
objective function
model
models
feature
specialization
Prior art date
Application number
KR1020170135635A
Other languages
English (en)
Other versions
KR20190043720A (ko
Inventor
신진우
이기민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170135635A priority Critical patent/KR102036968B1/ko
Priority to US15/798,237 priority patent/US20190122081A1/en
Publication of KR20190043720A publication Critical patent/KR20190043720A/ko
Application granted granted Critical
Publication of KR102036968B1 publication Critical patent/KR102036968B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • G06N3/0427
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치가 제시된다. 일 측면에 있어서, 본 발명에서 제안하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법은 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계 및 상기 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 단계를 포함한다.

Description

전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치{Confident Multiple Choice Learning}
본 발명은 이미지 분류, 이미지 추출과 다양한 상황에 응용이 가능한 앙상블 방법 및 장치에 관한 것이다.
컴퓨터 비전, 음성 인식, 자연어 처리, 신호처리와 같은 기계학습 분야에서 앙상블 기법은 최근 혁신적인 성능을 보여주고 있다. 부스팅(boosting) 그리고 배깅(bagging)과 같은 다양한 앙상블 기법이 존재함에도 불구하고 각 모델을 독립적으로 학습하여 사용하는 IE(independent ensemble) 기법이 가장 보편적으로 이용되고 있다. IE 기법은 단순히 모델의 분산을 줄임으로써 성능을 향상시키는 기법이기 때문에 전체적인 성능향상에는 한계점을 가진다.
이와 같은 문제를 해결하기 위해서 특정 데이터에 특화된 앙상블 기법이 제안되었지만 딥 러닝 모델이 잘못된 답을 리턴함에도 불구하고 높은 신뢰도를 가지는 과잉 신뢰도 이슈로 인해서 실제로 적용하는 것이 매우 어렵다. 다시 말해, 특성화에 기반 앙상블 기법은 특화된 데이터에 대해서 높은 성능을 보이지만 과잉 신뢰도(overconfidence) 이슈로 인해 맞는 답을 내는 모델을 선택하는 것이 불분명하다는 문제점을 갖는다.
본 발명이 이루고자 하는 기술적 과제는 이미지 분류, 이미지 추출과 다양한 상황에 응용이 가능한 앙상블 기법을 제안하여 각 모델을 특정 서브-테스크(sub-task)에 특화되면서도 신뢰성이 높도록 만드는 새로운 손실 함수와 모델 간의 특징을 공유하여 더욱 일반적인 특징을 생성하고 이를 통해 성능을 향상 시키는 방법 및 장치를 제공하는데 있다.
일 측면에 있어서, 본 발명에서 제안하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법은 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계 및 상기 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 단계를 포함한다.
상기 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계는 가장 높은 정확도를 갖는 하나의 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 나머지 모델들은 쿨백-라이블러 발산을 최소화한다.
상기 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계는 경사 하강법(stochastic gradient descent)에 기반하여 랜덤 집단(random batch)을 선택하는 단계, 선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산하는 단계, 데이터 별로 가장 낮은 목적 함수 값을 갖는 모델에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하는 단계 및 가장 낮은 목적 함수 값을 갖는 모델을 제외한 나머지 모델들에 대하여 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트 하는 단계를 포함한다.
상기 선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산하는 단계는 하기 식을 이용하여 목적 함수 값을 계산하고,
Figure 112017103028938-pat00001
여기에서,
Figure 112017103028938-pat00002
,
Figure 112017103028938-pat00003
이고, 입력 x에 대하여
Figure 112017103028938-pat00004
은 m번째 모델의 예측 값,
Figure 112017103028938-pat00005
은 쿨백-라이블러 발산,
Figure 112017103028938-pat00006
은 균일 분포,
Figure 112017103028938-pat00007
는 패널티 파라미터,
Figure 112017103028938-pat00008
은 할당 변수를 나타낸다.
상기 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 단계는 하기 식을 이용하여 일반적 특징을 계산하고,
Figure 112017103028938-pat00009
여기에서,
Figure 112017103028938-pat00010
는 뉴럴 네트워크의 가중치, h는 숨겨진 특징,
Figure 112017103028938-pat00011
는 베르누이 무작위 마스크,
Figure 112017103028938-pat00012
는 활성 함수를 나타낸다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치는 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 목적 함수 계산부 및 상기 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 특징 공유부를 포함한다.
상기 목적 함수 계산부는 가장 높은 정확도를 갖는 하나의 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 나머지 모델들은 쿨백-라이블러 발산을 최소화한다.
상기 목적 함수 계산부는 경사 하강법(stochastic gradient descent)에 기반하여 랜덤 집단(random batch)을 선택하는 랜덤 집단 선택부, 선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산하는 계산부 및 데이터 별로 가장 낮은 목적 함수 값을 갖는 모델에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하고, 가장 낮은 목적 함수 값을 갖는 모델을 제외한 나머지 모델들에 대하여 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트 하는 업데이트부를 포함한다.
본 발명의 실시예들에 따르면 이미지 분류, 이미지 추출과 다양한 상황에 응용이 가능한 앙상블 기법을 이용하여 각 모델을 특정 서브-테스크(sub-task)에 특화되면서도 신뢰성이 높도록 만드는 새로운 손실 함수와 모델 간의 특징을 공유하여 더욱 일반적인 특징을 생성하고 이를 통해 성능을 향상 시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 앙상블에 대하여 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 목적 함수를 구하기 위한 데이터 분산을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 모델 별 목적 함수 값을 계산하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 모델들 간의 특징 공유에 대하여 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치의 구성을 나타내는 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 앙상블에 대하여 설명하기 위한 도면이다.
딥러닝 앙상블이란, 트레인 멀티플 모델들을 이용하여 최종 결정을 위해 그것의 출력들을 조합한다. 예를 들어, 테스트 데이터(110)에 대한 트레인 멀티플 모델들(121, 122, 123)을 생성하고, 이를 이용하여 다수표(Majority voting)(130)를 갖는 데이터를 최종 결정(140)한다.
최근 컴퓨터 비전, 음성 인식, 자연어 처리, 신호처리와 같은 기계학습 분야에서 앙상블 기법은 최근 혁신적인 성능을 보여주고 있다. 부스팅(boosting) 그리고 배깅(bagging)과 같은 다양한 앙상블 기법이 존재함에도 불구하고 각 모델을 독립적으로 학습하여 사용하는 IE(independent ensemble) 기법이 가장 보편적으로 이용되고 있다. IE 기법은 단순히 모델의 분산을 줄임으로써 성능을 향상시키는 기법이기 때문에 전체적인 성능향상에는 한계점을 가진다.
이와 같은 문제를 해결하기 위해서 특정 데이터에 특화된 앙상블 기법이 제안되었지만 딥 러닝 모델이 잘못된 답을 리턴함에도 불구하고 높은 신뢰도를 가지는 과잉 신뢰도 이슈로 인해서 실제로 적용하는 것이 매우 어렵다. 다시 말해, 특성화에 기반 앙상블 기법은 특화된 데이터에 대해서 높은 성능을 보이지만 과잉 신뢰도 이슈로 인해 맞는 답을 내는 모델을 선택하는 것이 불분명하다는 문제점을 갖는다.
도 2는 본 발명의 일 실시예에 따른 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법을 설명하기 위한 흐름도이다.
본 발명은 위에서 설명한 바와 같은 문제를 해결하고 이미지 분류(classification), 이미지 추출(segmentation)과 다양한 상황에 응용이 가능한 앙상블 기법으로 먼저 각 모델을 특정 서브-테스크(sub-task)에 특화되면서도 신뢰성이 높도록 만드는 새로운 손실 함수와 모델간의 특징을 공유하여 더 일반적인 특징을 생성하고 이를 통해 성능을 향상 시키는 기법에 관한 것을 포함한다. 본 발명에서 제안한 CMCL(confident multiple choice learning)라는 새로운 앙상블 기법은 새로운 목적함수인 컨피던트 오라클 손실(confident oracle loss)과 특징 공유(feature sharing) 기법으로 구성된다.
다시 말해, 제안하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법은 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계(110) 및 상기 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 단계(120)를 포함한다.
단계(110)에서 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구한다. 이때, 가장 높은 정확도를 갖는 하나의 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 나머지 모델들은 쿨백-라이블러 발산을 최소화한다.
이러한 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계(110)는 경사 하강법(stochastic gradient descent)에 기반하여 랜덤 집단(random batch)을 선택하는 단계(111), 선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산하는 단계(112), 데이터 별로 가장 낮은 목적 함수 값을 갖는 모델에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하는 단계(113) 및 가장 낮은 목적 함수 값을 갖는 모델을 제외한 나머지 모델들에 대하여 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트 하는 단계(114)를 포함한다.
본 발명의 일 실시예에 따르면, 신뢰 가능하면서도 특정 데이터에 특화되도록 학습이 이루어지기 위해 다음과 같은 목적함수를 제안하였다.
Figure 112017103028938-pat00013
여기에서,
Figure 112017103028938-pat00014
,
Figure 112017103028938-pat00015
,
Figure 112017103028938-pat00016
,
Figure 112017103028938-pat00017
이고, 입력 x에 대하여
Figure 112017103028938-pat00018
은 m번째 모델의 예측 값,
Figure 112017103028938-pat00019
은 쿨백-라이블러 발산,
Figure 112017103028938-pat00020
은 균일 분포,
Figure 112017103028938-pat00021
는 패널티 파라미터,
Figure 112017103028938-pat00022
은 할당 변수를 나타낸다.
새로운 목적 함수는 MCL의 목적 함수와 달리 특성화되지 않은 데이터에 대해서는 균일 분포와의 쿨백-라이블러 발산을 최소화함으로써 엔트로피를 최대화하는 것을 알 수 있다. 분류를 예로 들면 가장 정확한 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 다른 모델들은 쿨백-라이블러 발산을 최소화함으로써 낮은 예측 값을 가지도록 하는 것을 알 수 있다.
컨피던트 오라클 손실을 최적화하기 위해서 아래와 같은 경사 하강법(stochastic gradient descent)에 기반한 알고리즘을 제안한다.
Figure 112017103028938-pat00023
이러한 알고리즘은 랜덤 집단(random batch)을 선택하고 해당 집단에 대해서 모델 별 목적 함수 값을 계산한다. 이후, 데이터 별로 가장 목적 함수 값이 낮은 모델만 기존의 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하고 다른 모델들은 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트 한다.
단계(120)에서, 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행한다.
컨피던트 오라클 손실과 더불어 성능을 더 향상시키기 위해서 특징 공유라고 하는 정규화 기법을 제안한다. 과잉 신뢰도(Overconfidence) 이슈를 해결하기 위해서는 데이터로부터 일반적인 특징을 추출하는 것이 중요하다는 것을 알 수 있다. 따라서 앙상블 모델 간의 특징을 공유하는 특징 공유 기법을 제안한다.
본 발명의 실시예에 따르면, L레이어를 가지는 M개의 뉴럴 네트워크(neural network)가 주어졌을 때 특징 공유를 위한 수학식은 다음과 같이 정의된다.
Figure 112017103028938-pat00024
여기에서,
Figure 112017103028938-pat00025
는 뉴럴 네트워크의 가중치, h는 숨겨진 특징,
Figure 112017103028938-pat00026
는 베르누이 무작위 마스크,
Figure 112017103028938-pat00027
는 활성 함수를 나타낸다.
위 식에서 알 수 있듯이 특정 모델의 특징은 다른 모델들의 특징을 공유함으로써 정의된다. 하지만 이러한 경우 모델 간의 의존도가 높아질 수 있기 때문에 드롭아웃(dropout)과 같이 랜덤 마스크(random mask)를 특징에 곱하여 과적합(overfitting)을 방지하였다.
도 3은 본 발명의 일 실시예에 따른 목적 함수를 구하기 위한 데이터 분산을 나타내는 도면이다.
도 3(a)는 데이터 분산(data distribution)을 나타내는 그래프이고, 도 3(b)는 균일 분포(uiform distribution)을 나타내는 그래프이다. 여기에서 타겟 데이터(target data)에 대하여
Figure 112017103028938-pat00028
이고, 비타겟 데이터(non-target data)에 대하여
Figure 112017103028938-pat00029
이다.
도 4는 본 발명의 일 실시예에 따른 모델 별 목적 함수 값을 계산하는 과정을 설명하기 위한 도면이다.
이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하기 위해 먼저, 경사 하강법(stochastic gradient descent)에 기반하여 랜덤 집단(random batch)을 선택한다. 예를 들어, 선택된 해당 집단(410)에 대하여 모델 1(421), 모델 2(422), 모델 3(423) 별로 목적 함수 값을 계산한다. 각각의 모델에 관한 데이터 별로 가장 낮은 목적 함수 값을 갖는 모델에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트한다. 가장 낮은 목적 함수 값을 갖는 모델을 제외한 나머지 모델들에 대하여 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트한다.
도 5는 본 발명의 일 실시예에 따른 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하는 과정을 설명하기 위한 도면이다.
위에서 설명한 바와 같이 가장 낮은 목적 함수 값을 갖는 모델(510)에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트한다. 먼저, 해당 모델(510)에 대한 데이터 분산 그래프(521)와 균일 분포 그래프(522)를 구하고, 이를 평균화 하여 정규화된 모델 파라미터를 나타내는 그래프(530)를 구한다.
도 6은 본 발명의 일 실시예에 따른 모델들 간의 특징 공유에 대하여 설명하기 위한 도면이다.
컨피던트 오라클 손실과 더불어 성능을 더 향상시키기 위해서 특징 공유라고 하는 정규화 기법을 제안한다. 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행한다. 과잉 신뢰도(Overconfidence) 이슈를 해결하기 위해서는 데이터로부터 일반적인 특징을 추출하는 것이 중요하다. 따라서 본 발명의 일 실시예에 따른 앙상블 모델 간의 특징을 공유한다.
특정 모델의 특징은 다른 모델들의 특징을 공유함으로써 정의된다. 하지만 이러한 경우 모델 간의 의존도가 높아질 수 있기 때문에 드롭아웃(dropout)과 같이 랜덤 마스크(random mask)를 특징에 곱하여 과적합(overfitting)을 방지하였다.
예를 들어, 도 6과 같이 숨겨진 특징A(611)과 표시된 특징B1(622)을 공유 하여 공유된 특징 A+B1(632)을 생성하고, 숨겨진 특징B(612)과 표시된 특징A1(621)을 공유 하여 공유된 특징 B+A1(631)을 생성한다.
도 7은 본 발명의 일 실시예에 따른 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치의 구성을 나타내는 도면이다.
본 발명은 위에서 설명한 바와 같은 문제를 해결하고 이미지 분류(classification), 이미지 추출(segmentation)과 다양한 상황에 응용이 가능한 앙상블 기법으로 먼저 각 모델을 특정 서브-테스크(sub-task)에 특화되면서도 신뢰성이 높도록 만드는 새로운 손실 함수와 모델간의 특징을 공유하여 더 일반적인 특징을 생성하고 이를 통해 성능을 향상 시키는 기법에 관한 것을 포함한다. 본 발명에서 제안한 CMCL(confident multiple choice learning)라는 새로운 앙상블 기법은 새로운 목적함수인 컨피던트 오라클 손실(confident oracle loss)과 특징 공유(feature sharing) 기법으로 구성된다.
제안하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치(700)는 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 목적 함수 계산부(710) 및 상기 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 특징 공유부(720)를 포함한다.
목적 함수 계산부(710)는 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구한다. 이때, 가장 높은 정확도를 갖는 하나의 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 나머지 모델들은 쿨백-라이블러 발산을 최소화한다.
이러한 목적 함수 계산부(710)는 랜덤 집단 선택부(711), 계산부(712), 업데이트부(713)를 포함한다.
랜덤 집단 선택부(711)는 경사 하강법(stochastic gradient descent)에 기반하여 랜덤 집단(random batch)을 선택한다.
계산부(712)는 선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산한다.
업데이트부(713)는 데이터 별로 가장 낮은 목적 함수 값을 갖는 모델에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하고, 가장 낮은 목적 함수 값을 갖는 모델을 제외한 나머지 모델들에 대하여 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트한다.
본 발명의 일 실시예에 따르면, 신뢰 가능하면서도 특정 데이터에 특화되도록 학습이 이루어지기 위해 계산부(712)를 통해 다음과 같은 목적함수를 계산한다.
Figure 112017103028938-pat00030
여기에서,
Figure 112017103028938-pat00031
,
Figure 112017103028938-pat00032
,
Figure 112017103028938-pat00033
,
Figure 112017103028938-pat00034
이고, 입력 x에 대하여
Figure 112017103028938-pat00035
은 m번째 모델의 예측 값,
Figure 112017103028938-pat00036
은 쿨백-라이블러 발산,
Figure 112017103028938-pat00037
은 균일 분포,
Figure 112017103028938-pat00038
는 패널티 파라미터,
Figure 112017103028938-pat00039
은 할당 변수를 나타낸다.
새로운 목적 함수는 MCL의 목적 함수와 달리 특성화되지 않은 데이터에 대해서는 균일 분포와의 쿨백-라이블러 발산을 최소화함으로써 엔트로피를 최대화하는 것을 알 수 있다. 분류를 예로 들면 가장 정확한 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 다른 모델들은 쿨백-라이블러 발산을 최소화함으로써 낮은 예측 값을 가지도록 하는 것을 알 수 있다.
컨피던트 오라클 손실을 최적화하기 위해서 설명한 바와 같은 경사 하강법(stochastic gradient descent)에 기반한 알고리즘1(Algorithm1)을 제안한다.
이러한 알고리즘은 랜덤 집단(random batch)을 선택하고 해당 집단에 대해서 모델 별 목적 함수 값을 계산한다. 이후, 데이터 별로 가장 목적 함수 값이 낮은 모델만 기존의 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하고 다른 모델들은 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트 한다.
특징 공유부(720)는 모델들 간의 특징 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행한다.
컨피던트 오라클 손실과 더불어 성능을 더 향상시키기 위해서 특징 공유라고 하는 정규화 기법을 제안한다. 과잉 신뢰도(Overconfidence) 이슈를 해결하기 위해서는 데이터로부터 일반적인 특징을 추출하는 것이 중요하다는 것을 알 수 있다. 따라서 앙상블 모델 간의 특징을 공유하는 특징 공유 기법을 제안한다.
본 발명의 실시예에 따르면, L레이어를 가지는 M개의 뉴럴 네트워크(neural network)가 주어졌을 때 특징 공유를 위한 수학식은 다음과 같이 정의된다.
Figure 112017103028938-pat00040
여기에서,
Figure 112017103028938-pat00041
는 뉴럴 네트워크의 가중치, h는 숨겨진 특징,
Figure 112017103028938-pat00042
는 베르누이 무작위 마스크,
Figure 112017103028938-pat00043
는 활성 함수를 나타낸다.
위 식에서 알 수 있듯이 특정 모델의 특징은 다른 모델들의 특징을 공유함으로써 정의된다. 하지만 이러한 경우 모델 간의 의존도가 높아질 수 있기 때문에 드롭아웃(dropout)과 같이 랜덤 마스크(random mask)를 특징에 곱하여 과적합(overfitting)을 방지하였다.
이와 같이 제안하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치는 이미지 분류, 이미지 추출과 다양한 상황에서, 기존의 앙상블 기법을 개선하여 각 모델을 특정 데이터에 특화되면서도 신뢰성이 높도록 만드는 새로운 손실 함수와 모델간의 특징을 공유하여 일반적인 특징을 만들고, 학습할 수 있는 기법을 이용한다.
본 발명이 해결하고자 하는 기술적 과제는 딥러닝 모델의 과잉 신뢰도 이슈를 해결하여 특성화에 기반한 앙상블 기법의 성능을 향상 시키는 것이다. 특성화 기반 앙상블 기법은 특화된 데이터에 대해서 높은 성능을 보이지만 과잉 신뢰도 이슈로 인해 맞는 답을 내는 모델을 선택하는 것이 불분명하다는 문제점을 가진다. 이러한 문제를 해결하기 위해서 특화되지 않은 데이터에 대해서는 균일 분포를 가지도록 강제하는 새로운 형태의 손실 함수와 모델 간의 특징을 공유함으로써 더욱 일반적인 특징을 생성할 수 있는 기법을 제안한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 목적 함수 계산부를 통해 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계; 및
    특징 공유부를 통해 상기 모델들 간의 특징을 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 단계
    를 포함하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법.
  2. 제1항에 있어서,
    목적 함수 계산부를 통해 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계는,
    가장 높은 정확도를 갖는 하나의 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 나머지 모델들은 쿨백-라이블러 발산을 최소화하는
    전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법.
  3. 제1항에 있어서,
    목적 함수 계산부를 통해 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 단계는,
    경사 하강법(stochastic gradient descent)에 기반하여 랜덤 집단(random batch)을 선택하는 단계;
    선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산하는 단계;
    데이터 별로 가장 낮은 목적 함수 값을 갖는 모델에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하는 단계; 및
    가장 낮은 목적 함수 값을 갖는 모델을 제외한 나머지 모델들에 대하여 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트 하는 단계
    를 포함하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법.
  4. 제3항에 있어서,
    상기 선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산하는 단계는 하기 식을 이용하여 목적 함수 값을 계산하고,
    Figure 112019068114510-pat00075

    여기에서,
    Figure 112019068114510-pat00076
    ,
    Figure 112019068114510-pat00077
    이고, 입력 x에 대하여
    Figure 112019068114510-pat00078
    은 m번째 모델의 예측 값,
    Figure 112019068114510-pat00079
    은 쿨백-라이블러 발산,
    Figure 112019068114510-pat00080
    은 균일 분포,
    Figure 112019068114510-pat00081
    는 패널티 파라미터,
    Figure 112019068114510-pat00082
    은 할당 변수를 나타내는
    전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법.
  5. 제1항에 있어서,
    특징 공유부를 통해모델들 간의 특징을 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 단계는 하기 식을 이용하여 일반적 특징을 계산하고,
    Figure 112019068114510-pat00083

    여기에서,
    Figure 112019068114510-pat00084
    는 뉴럴 네트워크의 가중치, h는 숨겨진 특징,
    Figure 112019068114510-pat00085
    는 베르누이 무작위 마스크,
    Figure 112019068114510-pat00086
    는 활성 함수를 나타내는
    전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법.
  6. 이미지 처리를 위한 모델들의 분류되지 않은 데이터에 대하여 균일 분포와의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 엔트로피를 최대화하는 목적 함수를 구하는 목적 함수 계산부; 및
    상기 모델들 간의 특징을 공유하여 일반적 특징을 생성하고, 상기 일반적 특징을 이용하여 이미지 처리를 위한 학습을 수행하는 특징 공유부
    를 포함하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치.
  7. 제6항에 있어서,
    상기 목적 함수 계산부는,
    가장 높은 정확도를 갖는 하나의 모델만 해당 데이터에 대해서 기존의 손실을 학습하고 나머지 모델들은 쿨백-라이블러 발산을 최소화하는
    전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치.
  8. 제6항에 있어서,
    상기 목적 함수 계산부는,
    경사 하강법(stochastic gradient descent)에 기반하여 랜덤 집단(random batch)을 선택하는 랜덤 집단 선택부;
    선택된 해당 집단에 대하여 모델 별 목적 함수 값을 계산하는 계산부; 및
    데이터 별로 가장 낮은 목적 함수 값을 갖는 모델에 대하여 학습 손실에 대한 경사도를 계산하여 모델 파라미터를 업데이트하고, 가장 낮은 목적 함수 값을 갖는 모델을 제외한 나머지 모델들에 대하여 쿨백-라이블러 발산에 대한 경사도를 계산하여 모델 파라미터를 업데이트 하는 업데이트부
    를 포함하는 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치.
  9. 제8항에 있어서,
    상기 계산부는 하기 식을 이용하여 목적 함수 값을 계산하고,
    Figure 112019068114510-pat00087

    여기에서,
    Figure 112019068114510-pat00088
    ,
    Figure 112019068114510-pat00089
    이고, 입력 x에 대하여
    Figure 112019068114510-pat00090
    은 m번째 모델의 예측 값,
    Figure 112019068114510-pat00091
    은 쿨백-라이블러 발산,
    Figure 112019068114510-pat00092
    은 균일 분포,
    Figure 112019068114510-pat00093
    는 패널티 파라미터,
    Figure 112019068114510-pat00094
    은 할당 변수를 나타내는
    전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치.
  10. 제6항에 있어서,
    상기 특징 공유부는 하기 식을 이용하여 일반적 특징을 계산하고,
    Figure 112019068114510-pat00095

    여기에서,
    Figure 112019068114510-pat00096
    는 뉴럴 네트워크의 가중치, h는 숨겨진 특징,
    Figure 112019068114510-pat00097
    는 베르누이 무작위 마스크,
    Figure 112019068114510-pat00098
    는 활성 함수를 나타내는
    전문화에 기반한 신뢰성 높은 딥러닝 앙상블 장치.
KR1020170135635A 2017-10-19 2017-10-19 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치 KR102036968B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170135635A KR102036968B1 (ko) 2017-10-19 2017-10-19 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치
US15/798,237 US20190122081A1 (en) 2017-10-19 2017-10-30 Confident deep learning ensemble method and apparatus based on specialization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170135635A KR102036968B1 (ko) 2017-10-19 2017-10-19 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190043720A KR20190043720A (ko) 2019-04-29
KR102036968B1 true KR102036968B1 (ko) 2019-10-25

Family

ID=66170298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170135635A KR102036968B1 (ko) 2017-10-19 2017-10-19 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치

Country Status (2)

Country Link
US (1) US20190122081A1 (ko)
KR (1) KR102036968B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020177862A1 (en) * 2019-03-06 2020-09-10 Telefonaktiebolaget Lm Ericsson (Publ) Prediction of device properties
KR20210021866A (ko) 2019-08-19 2021-03-02 에스케이텔레콤 주식회사 데이터 분류 장치, 데이터 분류 방법 및 데이터 분류 장치를 학습시키는 방법
CN111339553A (zh) * 2020-02-14 2020-06-26 云从科技集团股份有限公司 一种任务处理方法、系统、设备及介质
CN111523621B (zh) * 2020-07-03 2020-10-20 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN113408696A (zh) * 2021-05-17 2021-09-17 珠海亿智电子科技有限公司 深度学习模型的定点量化方法及装置
CN114937477A (zh) * 2022-04-26 2022-08-23 上海交通大学 一种分子动力模拟的随机分批高斯和方法
CN116664773B (zh) * 2023-06-02 2024-01-16 北京元跃科技有限公司 一种基于深度学习的多张绘画生成3d模型的方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7958067B2 (en) * 2006-07-12 2011-06-07 Kofax, Inc. Data classification methods using machine learning techniques
US8630975B1 (en) * 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9864817B2 (en) * 2012-01-28 2018-01-09 Microsoft Technology Licensing, Llc Determination of relationships between collections of disparate media types
US11256982B2 (en) * 2014-07-18 2022-02-22 University Of Southern California Noise-enhanced convolutional neural networks
RU2666631C2 (ru) * 2014-09-12 2018-09-11 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Обучение dnn-студента посредством распределения вывода
WO2016196005A1 (en) * 2015-06-04 2016-12-08 Microsoft Technology Licensing, Llc Fast low-memory methods for bayesian inference, gibbs sampling and deep learning
US9811761B2 (en) * 2015-08-28 2017-11-07 International Business Machines Corporation System, method, and recording medium for detecting video face clustering with inherent and weak supervision
KR102147361B1 (ko) * 2015-09-18 2020-08-24 삼성전자주식회사 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US9576031B1 (en) * 2016-02-08 2017-02-21 International Business Machines Corporation Automated outlier detection
US10769532B2 (en) * 2017-04-05 2020-09-08 Accenture Global Solutions Limited Network rating prediction engine

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
비특허문헌 : KL-divergence as an objective function. Graduate Descent(2014.10.06), 출처:https://timvieira.github.io/blog/post/2014/10/06/kl-divergence-as-an-objective-function/

Also Published As

Publication number Publication date
KR20190043720A (ko) 2019-04-29
US20190122081A1 (en) 2019-04-25

Similar Documents

Publication Publication Date Title
KR102036968B1 (ko) 전문화에 기반한 신뢰성 높은 딥러닝 앙상블 방법 및 장치
US10460230B2 (en) Reducing computations in a neural network
US20190171935A1 (en) Robust gradient weight compression schemes for deep learning applications
JP6610278B2 (ja) 機械学習装置、機械学習方法及び機械学習プログラム
CN110766142A (zh) 模型生成方法和装置
US11010514B2 (en) Grouping of Pauli strings using entangled measurements
CN111695415A (zh) 图像识别模型的构建方法、识别方法及相关设备
US20180129930A1 (en) Learning method based on deep learning model having non-consecutive stochastic neuron and knowledge transfer, and system thereof
CN106663184A (zh) 人脸数据验证的方法和系统
KR102293791B1 (ko) 반도체 소자의 시뮬레이션을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
US10635078B2 (en) Simulation system, simulation method, and simulation program
KR102142943B1 (ko) 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치
KR20190045038A (ko) 음성 인식 방법 및 장치
JP2019128904A (ja) 予測システム、シミュレーションシステム、方法およびプログラム
KR20220059287A (ko) 시계열 예측을 위한 어텐션 기반 스태킹 방법
KR102369413B1 (ko) 영상 처리 장치 및 방법
US11636175B2 (en) Selection of Pauli strings for Variational Quantum Eigensolver
US20210232895A1 (en) Flexible Parameter Sharing for Multi-Task Learning
WO2020090651A1 (ja) 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム
Cuevas et al. Otsu and Kapur segmentation based on harmony search optimization
US11853658B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
KR102289396B1 (ko) 군장비 수리부속 품목 수요예측의 고도화를 위한 강화학습 적용
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
WO2020040007A1 (ja) 学習装置、学習方法及び学習プログラム
US20230409667A1 (en) Selection of pauli strings for variational quantum eigensolver

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant