KR20240048689A - 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템 - Google Patents

기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템 Download PDF

Info

Publication number
KR20240048689A
KR20240048689A KR1020220128314A KR20220128314A KR20240048689A KR 20240048689 A KR20240048689 A KR 20240048689A KR 1020220128314 A KR1020220128314 A KR 1020220128314A KR 20220128314 A KR20220128314 A KR 20220128314A KR 20240048689 A KR20240048689 A KR 20240048689A
Authority
KR
South Korea
Prior art keywords
input
meta
test data
meta input
data
Prior art date
Application number
KR1020220128314A
Other languages
English (en)
Inventor
노용만
유영준
김민수
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020220128314A priority Critical patent/KR20240048689A/ko
Priority to CN202211615785.4A priority patent/CN116384495A/zh
Priority to PCT/KR2022/020498 priority patent/WO2023113507A1/ko
Priority to US18/066,637 priority patent/US20230196112A1/en
Publication of KR20240048689A publication Critical patent/KR20240048689A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템이 제시된다. 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법은, 입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 단계; 및 사용자 환경의 테스트 데이터의 분포를 상기 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계를 포함할 수 있다.

Description

기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템{META INPUT METHOD AND SYSTEM AND USER-CENTERED INFERENCE METHOD AND SYSTEM VIA META INPUT FOR RECYCLING OF PRE-TRAINED DEEP LEARNING MODEL}
아래의 실시예들은 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템에 관한 것으로, 더욱 상세하게는 기 학습된 딥러닝 모델을 재학습 없이 새로운 테스트 데이터로 추론 성능을 높게 유지하는 방법 및 시스템에 관한 것이다.
오늘날 우리는 개인의 삶뿐만 아니라 사회 전반에 영향을 미칠 수 있는 급변하는 기술발전의 시대에 살고 있다. 이러한 기술이 발전함에 따라 GPU(Graphic Processing Unit) 기반의 컴퓨팅 자원을 바탕으로 방대한 양의 학습 데이터로 학습된 딥러닝(Deep Learning) 모델이 IoT(Internet of Things) 장비나 에지-디바이스(edge-device)와 같은 사용자 중심 추론 응용에 이용되고 있다. 이러한 딥러닝 모델은 학습된 데이터가 사용자가 이용할 데이터와 비슷할 때 추론 성능이 우수하여 자율 주행, 의학 진단, 보안, 자동화 분야에서 물체 검출, 인식, 이상 탐지 등에 유용하게 쓰이고 있다. 하지만, 학습된 딥러닝 모델을 사용자 중심 응용 분야에 적용 시에 사용자 입력 데이터가 학습된 데이터와 상이하다면 모델 추론 성능이 현저히 떨어지게 된다. 실제는 대부분 학습 데이터와 사용자의 환경이 다르므로 사용자의 테스트 데이터에서의 성능을 위해 딥러닝 모델을 긴 시간에 걸쳐서 다시 학습해야 하는 불편함이 있다. 사용자의 테스트 데이터는 사용자가 어떤 환경에 있고, 어떻게 이용하는지에 따라 변화하기 때문에, 학습 시 사용된 학습 데이터로 학습된 딥러닝 모델을 실제 사용자 환경에 맞게 적용하기에는 성능 측면에서 큰 어려움이 있다는 것이다.
기존의 딥러닝 모델은 방대한 데이터를 가지고 학습해야 하므로, 모델이 완성되기까지 긴 시간 동안 학습이 필요하다. 이렇게 학습된 딥러닝 모델은 추론 시 입력 데이터가 학습 데이터와 비슷한 환경이 되면 기대 성능을 얻을 수 있으나, 환경이 변화하여 입력 데이터가 학습 데이터와 다르면 모델의 성능이 떨어지게 된다. 이러한 데이터 기반 학습 딥러닝의 근본적인 문제는 재학습 시 파괴적 망각(Catastrophic forgetting) 현상과 새 클래스(class) 추가 문제, 환경변화가 다른 데이터 문제가 존재한다.
Dong-Hyun Lee et al. Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. In Workshop on challenges in representation learning, ICML, volume 3, page 896, 2013.
실시예들은 기 학습된 딥러닝 모델을 사용자 중심 추론 시, 사용함에 있어 사용자 환경에 맞는 메타 입력을 생성하여 입력 데이터와 함께 추론에 사용해 딥러닝 모델의 재학습 없이도 사용자 환경에서의 추론 시 성능이 유지되도록 제공하고자 한다.
다만, 본 실시예들이 해결하고자 하는 기술적 과제들은 상기 과제로 한정되는 것은 아니며, 본 실시예들의 기술적 사상 및 영역으로부터 벗어나지 않은 범위에서 다양하게 확장될 수 있다.
일 실시예에 따른 컴퓨터 장치에 의해 수행되는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법은, 입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 단계; 및 사용자 환경의 테스트 데이터의 분포를 상기 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계를 포함할 수 있다.
상기 메타 입력을 최적화하는 단계는, 상기 메타 입력은 역전파를 통해 그래디언트(gradient) 기반 학습 알고리즘으로 최적화할 수 있다.
상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는, 최적화된 상기 메타 입력을 테스트 데이터에 추가하여, 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 맞게 이동 또는 정렬할 수 있다.
상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는, 최적화된 상기 메타 입력을 통해 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 일치시킴에 따라, 기 학습된 블랙박스 심층 신경망(DNN)이 이미 학습한 지식은 학습과는 다른 환경에서도 활용 가능하다.
상기 메타 입력을 최적화하기 이전에, 기 학습된 상기 딥러닝 모델이 있는 경우, 사용자 환경의 상기 테스트 데이터 분포에서 상기 메타 입력을 생성하는 단계를 더 포함할 수 있다.
상기 메타 입력을 생성하는 단계는, 사용자 환경의 테스트 데이터의 샘플의 실측 정보(ground truth)를 통해 상기 메타 입력을 생성할 수 있다.
상기 메타 입력을 생성하는 단계는, 사용자 환경의 테스트 데이터를 샘플링하며, 상기 딥러닝 모델과 샘플링된 사용자 환경의 상기 테스트 데이터를 사용하여 상기 메타 입력을 생성할 수 있다.
최적화된 상기 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 상기 딥러닝 모델에 입력하여 추론할 수 있다.
다른 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 시스템은, 입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 메타 입력 최적화부; 및 사용자 환경의 테스트 데이터의 분포를 상기 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 메타 입력 추가부를 포함할 수 있다.
상기 메타 입력 최적화부는, 상기 메타 입력은 역전파를 통해 그래디언트(gradient) 기반 학습 알고리즘으로 최적화할 수 있다.
상기 메타 입력 추가부는, 최적화된 상기 메타 입력을 테스트 데이터에 추가하여, 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 맞게 이동 또는 정렬할 수 있다.
상기 메타 입력 추가부는, 최적화된 상기 메타 입력을 통해 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 일치시킴에 따라, 기 학습된 블랙박스 심층 신경망(DNN)이 이미 학습한 지식은 학습과는 다른 환경에서도 활용 가능하다.
상기 메타 입력을 최적화하기 이전에, 기 학습된 상기 딥러닝 모델이 있는 경우, 사용자 환경의 상기 테스트 데이터 분포에서 상기 메타 입력을 생성하는 메타 입력 생성부를 더 포함할 수 있다.
상기 메타 입력 생성부는, 사용자 환경의 테스트 데이터의 샘플의 실측 정보(ground truth)를 통해 상기 메타 입력을 생성할 수 있다.
상기 메타 입력 생성부는, 사용자 환경의 테스트 데이터를 샘플링하며, 상기 딥러닝 모델과 샘플링된 사용자 환경의 상기 테스트 데이터를 사용하여 상기 메타 입력을 생성할 수 있다.
최적화된 상기 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 상기 딥러닝 모델에 입력하여 추론할 수 있다.
또 다른 실시예에 따른 컴퓨터 장치에 의해 수행되는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 방법은, 기 학습된 딥러닝 모델이 있는 경우, 사용자 환경의 테스트 데이터의 분포에서 메타 입력(meta input)을 생성하는 단계; 및 상기 생성된 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 상기 딥러닝 모델에 입력하여 추론하는 단계를 포함하고, 상기 메타 입력을 생성하는 단계는, 입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 단계; 및 사용자 환경의 테스트 데이터의 분포를 상기 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계를 포함할 수 있다.
상기 메타 입력을 최적화하는 단계는, 상기 메타 입력은 역전파를 통해 그래디언트(gradient) 기반 학습 알고리즘으로 최적화할 수 있다.
상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는, 최적화된 상기 메타 입력을 테스트 데이터에 추가하여, 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 맞게 이동 또는 정렬할 수 있다.
상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는, 최적화된 상기 메타 입력을 통해 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 일치시킴에 따라, 기 학습된 블랙박스 심층 신경망(DNN)이 이미 학습한 지식은 학습과는 다른 환경에서도 활용 가능하다.
실시예에 따르면, 모델의 재학습 없이 사용자 환경에 맞는 메타-입력을 생성하여 함께 입력하여 사용자 중심의 다양한 환경에서 기 학습된 모델을 사용할 수 있는 새로운 연구들을 촉진 및 활성화할 수 있다.
실시예에 따르면, 기 학습된 딥러닝 모델을 추론(test) 시 사용함에 있어 사용자 환경에 맞게 전술한 문제점을 해결하는 새로운 인공지능 활용 기법과 시스템을 제시함으로써, 기 학습된 모델의 학습 환경과 다른 환경의 데이터가 입력되는 테스트(test)라고 해도, 사용자는 고성능의 효과를 달성할 수 있다.
실시예에 따르면, 방대한 데이터와 긴 시간 동안 학습이 필요한 딥러닝 모델의 추론 시, 사용자 환경에 적응하여 활용하기 위해 환경이 변화된 테스트 데이터로 딥러닝 모델을 다시 학습하지 않고, 사용자 입장에서 입력 데이터에 맞는 메타 입력을 입력 데이터와 함께 사용함으로써, 기 학습된 딥러닝 모델을 사용자에 맞게 활용할 수 있다. 이에 따라 모델의 재학습이 필요하지 않으며, 추론 시 사용자의 다양한 환경에서 기 학습된 딥러닝 모델을 사용할 수 있다.
다만, 본 실시예들의 효과는 상기 효과들로 한정되는 것은 아니며, 본 실시예들의 기술적 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있다.
도 1a 내지 도 1c는 일 실시예에 따른 객체 감지 작업에서 제안된 메타 입력의 사용 예를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 추론 단계에서의 메타 입력의 최적화를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 최적화된 메타 입력을 이용한 추론을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법을 나타내는 흐름도이다.
도 5는 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 시스템을 나타내는 블록도이다.
도 6은 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 방법을 나타내는 흐름도이다.
도 7은 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 시스템을 나타내는 블록도이다.
도 8은 일 실시예에 따른 메타 입력을 생성하는 과정을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 메타 입력을 추론하는 과정을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
최근 딥 뉴럴 네트워크(Deep Neural Network, DNN)가 발전하면서 이미지 분류, 물체 검출 등 다양한 분야에서 높은 정확도를 보여주고 있다. 이러한 딥러닝 모델은 방대한 데이터를 가지고 학습하기 때문에 딥러닝 모델을 완성하기 위해 긴 시간 동안 학습이 필요하다. 또한, 학습 데이터와 비슷한 환경이 되어야 기대 성능을 낼 수 있으며 환경이 변화하게 되면 모델의 성능이 떨어지는 문제점이 있다. 실제로는 대부분 학습 데이터와 사용자가 추론하는 환경이 다르기 때문에 사용자의 추론 데이터에서의 성능을 위해 딥러닝 모델을 다시 학습해야 하는 불편함이 존재한다.
아래의 실시예들은 새 테스트 데이터를 입력 받은 딥러닝 모델이 변화한 추론 환경에서도 기존 성능을 유지할 수 있도록 도와주는 역할을 하는 메타 입력(meta input) 신호 생성을 제안하며, 이를 통해 기 학습된 딥러닝 모델을 테스트 시에 재학습 없이 새로운 테스트 데이터로 추론 성능을 높게 유지하고자 한다.
실시예들에 따르면 기 학습된 딥러닝 모델을 재활용할 수 있도록 메타 입력을 생성하여 사용자 입장에서 추론할 수 있는 방법을 제공함으로써, 학습 환경과 사용자 환경이 달라지더라도 딥 뉴럴 네트워크가 성능을 유지할 수 있는 방법을 제공한다. 현재 딥러닝 모델은 추론 성능이 우수하고 자율주행, 의학 진단, 보안, 자동화 분야에서 물체 검출, 인식, 이상 탐지 등에 유용하게 쓰이고 있다. 하지만, 딥러닝 모델은 방대한 데이터의 학습으로 완성되며, 하나의 모델을 얻기 위해 학습하는 시간이 많이 걸린다. 또한, 학습된 딥러닝 모델을 응용분야에 적용 시 사용자 입력 데이터와 학습 데이터가 많이 다르면 모델 추론 성능이 떨어지는 문제가 있다. 본 실시예에서 제안된 메타 입력 신호 생성 기술은 기 학습된 모델 파라미터를 그대로 사용하면서도 학습 데이터와 상이한 테스트 데이터에서도 높은 성능이 나오도록 할 수 있다.
아래의 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템은 기 학습된 딥러닝 모델을 재학습 없이 새로운 테스트 데이터로 추론 성능을 높게 유지하는 것을 요지로 한다.
실시예들은 메타 입력을 생성하여 입력 데이터와 함께 사용자 에지 추론에 사용할 수 있다. 이때, 메타 입력은 사용자가 작업 목적에 맞게 에지 추론 시 기 학습된 딥러닝 모델을 사용하는 입장에서 사용자의 추론 환경에 맞도록 생성된다. 즉, 실시예들은 사용자의 활용 데이터의 분포를 이용하여 메타 입력을 생성하며, 이 메타 입력과 기 학습된 딥러닝 모델로 최고 성능의 추론이 가능할 수 있다.
이에 실시예들은 기 학습된 모델을 사용자 중심 추론에 사용할 때, 기 학습된 모델 그대로 사용자 중심 환경에 맞게 사용할 수 있는 새로운 인공지능 활용 기법을 제안한다. 특히, 실시예들은 일반적으로 영상 처리에 쓰이는 딥러닝 모델들이 사용자 중심 환경에서 에지-디바이스로 활용될 때 다양한 원인으로 잡음이 발생하여, 기기에 의도치 않은 출력을 야기하거나 오류를 일으켜 딥러닝 모델의 신뢰성과 편의성을 저하시키는 문제점으로 제안 방법의 유용성을 보이고자 한다. 이를 위해 학습 데이터와 달리 잡음이 섞인 사용자 중심 테스트 환경에서도 재학습 없이 딥러닝 모델의 성능을 유지할 수 있는 알고리즘을 제안한다. 본 실시예의 목적은 방대한 데이터로 긴 시간 동안 학습이 필요한 딥러닝 모델을 사용자 중심 환경에서 추론 시 딥러닝 모델을 다시 재학습하지 않고 사용하는 것이다. 사용자 중심 추론 시 메타 입력을 생성하여 입력 데이터와 함께 사용한다. 이를 통해 기 학습된 모델에 학습 시와 완전히 다른 특성을 가지는 데이터가 입력된다고 해도, 사용자는 메타 입력을 함께 사용함으로써 딥러닝 모델의 성능을 유지할 수 있다. 이는 사용자 중심 추론에서 학습 모델과 사용자 추론을 분리시킨 발상으로 데이터 기반 딥러닝 모델 활용에 있어 추론 시 처리를 제시하는 새로운 방법이라고 할 수 있다.
아래에서는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템에 대해 설명한다. 여기서, 블랙박스 심층 신경망에서의 메타 입력 방법 및 시스템을 예를 들어 설명한다.
실시예들은 최종 사용자가 심층 신경망(DNN)의 입력 레벨 변환을 통해 자체 테스트 환경에서 기 학습된 블랙박스(Black Box) DNN을 활용할 수 있는 새로운 접근 방식을 제안한다. 구체적으로, 실시예들은 학습과 테스트 사이의 환경 불일치를 줄이기 위해 설계된 테스트 데이터를 변환하기 위한 메타 입력이라는 추가 입력을 제시한다. 이러한 불일치는 학습된 블랙박스 DNN의 성능을 저하시키는 것으로 잘 알려져 있으며, 결국 실제 환경에서 DNN의 실용성이 결여되는 결과를 초래한다. 제안된 접근 방식은 모델의 미세 조정이 필요한 기존 적응 방법과 달리, 기 학습된 모델을 블랙박스로 간주한다. 따라서 제안된 메타 입력은 네트워크 아키텍처와 가중치 매개 변수의 수정 없이 얻을 수 있다. 이를 위해 입력 데이터와 모델의 출력 예측 간의 관계를 고려하여 메타 입력을 최적화한다. 그런 다음, 테스트 데이터의 분포를 원래 사용된 학습 데이터의 분포에 맞게 이동 및 정렬하기 위해 테스트 데이터에 추가된다. 결국, 최종 사용자는 학습과는 다른 자체 테스트 환경에서 블랙박스 모델을 활용할 수 있다. 이미지 분류, 객체 감지 및 시각적 음성 인식을 포함한 다양한 응용 분야에서 블랙박스 DNN의 성능을 향상시키는 데 제안된 메타 입력의 실용성과 효과를 검증한다.
오늘날 딥러닝이 크게 발전하면서 대규모 데이터베이스에서 잘 학습된 심층 신경망(DNN)은 컴퓨터 비전, 자연어 처리, 음성 처리 등 다양한 영역에서 인상적인 성능을 보여준다. 그러나 실제 응용에서 강력한 성능을 발휘하여 이를 활용하는 데 한 가지 핵심 문제가 있다. 즉, 학습과 테스트 간의 환경 불일치이다. 학습과 테스트 데이터 사이의 분포 불일치는 DNN의 상당한 성능 저하를 초래한다는 것은 잘 알려져 있다. 따라서 사용자가 최첨단 모델 중 하나를 제공받더라도 자체 테스트 환경에서 그 강력함을 경험하지 못할 수 있다.
도 1a 내지 도 1c는 일 실시예에 따른 객체 감지 작업에서 제안된 메타 입력의 사용 예를 설명하기 위한 도면이다.
예를 들어, 도 1a에 도시된 바와 같이, 맑은 날씨 조건에서 학습된 블랙박스 객체 감지기(110)는 동일한 시험 조건에서 성공적으로 감지를 수행할 수 있다. 그러나, 도 1b에 도시된 바와 같이, 사용자가 악천후 조건에서 이러한 모델을 적용하고자 하는 경우, 블랙박스 객체 감지기(110)는 객체 감지를 제대로 수행하지 못할 수 있다. 이 경우, 현재로서는 사용자는 학습 환경과 일치하지 않는 환경에서 모델을 이용하지 않는 것이 좋다.
이 문제를 해결하기 위한 한 가지 가능한 방향은 도메인 불변 표현을 학습하여 소스 도메인과 타겟 도메인 사이의 도메인 격차를 줄이는 것을 목표로 하는 도메인 적응(Domain Adaptation, DA)이다. 그러나, 일반적으로 도메인 적응(DA) 방법은 학습을 위해 네트워크의 내부 구조(즉, 화이트박스(white-box))를 알아야 하며 소스 데이터베이스와 타겟 데이터베이스를 동시에 필요로 하고, 최종 사용자가 네트워크 아키텍처를 아는 것은 시간이 많이 걸리고 어려울 수 있다.
본 실시예에서는 추론 단계(즉, 끝점(end point))에서 이동된 데이터 분포 하에서 잘 학습된 DNN 모델의 성능을 즐기는 방법을 개발하는 데 중점을 둔다. 따라서 모델을 블랙박스로 취급하여(즉, 모델의 아키텍처와 미세 조정을 알지 못하는 경우) 사용자가 모델을 제어하고 테스트 환경에 맞출 수 있는 프레임워크를 제공하는 것을 목표로 한다. DNN의 입력 레벨 변환에서 최근 성공을 거두어 원래 학습된 작업을 다른 작업으로 변환하는 것에 자극을 받아, 실시예들은 잘 학습된 모델의 가중치 매개 변수를 건드리는 대신, 메타 입력이라는 추가 입력을 사용하여 테스트 데이터의 분포를 학습 데이터에 일치시킬 것을 제안한다. 구체적으로, 실시예들은 다른 환경에서 블랙박스 모델을 채택하려는 사용자가 모델을 학습하는 데 사용되는 데이터에 액세스할 수 없는 상태에서 레이블이 지정된(또는 레이블이 지정되지 않은) 소수의 테스트 데이터만 사용할 수 있는 상황에 직면한다고 가정한다. 그런 다음, 제안된 프레임워크는 메타 입력을 최적화하여 테스트 입력 데이터를 학습 데이터와 정렬되도록 변환한다.
도 1c에 도시된 바와 같이, 제안된 메타 입력을 시험 데이터에 내장할 수 있어 악천후에서도 블랙박스 객체 감지기(110)가 제대로 작동할 수 있다. 이와 같이, 메타 입력(120)의 도움으로 블랙박스 객체 감지기(110)가 악천후 조건에서 캡처된 테스트 데이터에 대해서도 적절하게 감지를 수행할 수 있다. 메타 입력(120)은 테스트 데이터의 분포를 학습 데이터의 분포로 변환할 수 있고, 여기서 학습 데이터는 블랙박스 객체 감지기(110)의 학습에 사용될 수 있다.
제안된 메타 입력(120)을 통해, 기 학습된 모델의 학습된 지식은 네트워크 아키텍처와 가중치 매개 변수의 수정 없이 다양한 테스트 환경으로 확장될 수 있다. 따라서 사용자는 환경에 해당하는 메타 입력(120)을 관리하여 자체 테스트 데이터에서 기성 DNN으로 향상된 성능을 경험할 수 있다. 메타 입력(120)은 역전파를 통해 모든 그래디언트(gradient) 기반 학습 알고리즘으로 간단히 최적화할 수 있다. 이미지 분류, 객체 감지, 시각적 음성 인식 등 세 가지 작업에 대한 광범위한 실험을 통해 제안된 방법의 효과와 실제 사용 가능성을 보여준다.
본 실시예들의 주요 기여는 다음과 같다. 사용자가 입력 및 모델의 출력 예측에만 액세스할 수 있는 블랙박스 설정에서 제안된 메타 입력은 테스트 데이터의 분포를 학습 데이터의 분포에 맞출 수 있다. 따라서 블랙박스 DNN이 이미 학습한 지식은 학습과는 다른 환경에서도 활용할 수 있다. 또한, 네트워크의 가중치 매개 변수를 수정하고 소스 및 타겟 도메인 데이터를 동시에 활용하는 기존 도메인 적응(DA) 방법과는 구별되는 제안된 메타 입력은 모델 세부 조정이 필요하지 않으며, 몇 가지 테스트 데이터만 있으면 된다. 또한, 제안된 방법의 실용성은 기본 이미지 분류 작업에서 객체 감지 및 시각적 음성 인식 작업에 이르기까지 광범위하게 검증된다.
심층 신경망(DNN)은 데이터의 일반화된 특징 표현을 추출하기 위해 널리 채택되었다. 이러한 일반화된 DNN을 학습시키기 위해, 학습 및 테스트 데이터가 모두 동일한 분포에서 유래하고 유사한 공동 확률 분포를 공유한다고 가정한다. 그러나 실제 시나리오에서는 학습 집합과 테스트 집합이 서로 다른 특징과 분포에서 도출될 수 있기 때문에 이 제약 조건을 쉽게 위반한다. 앞서 언급한 문제를 해결하기 위해 기존의 연구자들은 도메인 적응(DA)이라는 연구 분야에 노력을 기울였다. 도메인 적응(DA)은 충분한 레이블과 데이터 크기(즉, 소스 도메인)로 학습된 DNN이 서로 다른 분포(즉, 타겟 도메인)에서 샘플링된 데이터에 대해 잘 수행하고 일반화할 수 있도록 하는 기술이다. 도메인 적응(DA)은 불일치 기반 방법, 적대적 기반 방법, 재구성 기반 방법으로 분류할 수 있다. 도메인 적응(DA)의 기존 작업의 대부분은 모델 아키텍처 수정 또는 재학습에 대한 추가 비용을 채택하여 모델 성능을 향상시키는 데 중점을 둔다. 게다가, 보통 소스 도메인 데이터와 타겟 도메인 데이터를 동시에 필요로 한다.
도메인 적응(DA)과 달리, 실시예들은 모델의 아키텍처와 미세 조정에 대해 알 필요가 없는 메타 입력이라는 새로운 방법을 제안한다. 제안된 메타 입력은 DNN의 테스트 입력을 변환하기 위한 추가 입력이다. 따라서, 소스 도메인 데이터에 대해 기 학습된 DNN을 블랙박스로 처리함으로써, 메타 입력은 테스트 입력 분포를 블랙박스 모델을 구축하는 데 사용되는 학습 데이터로 변환하여 모델의 성능을 향상시킬 수 있다.
최근, 입력 변환(Input Transformation) 방법은 가중치 매개변수의 수정 없이 학습된 모델과 상호 작용할 수 있는 가능성으로 큰 관심을 끌고 있다. 예를 들어, 소스 과제(예컨대, ImageNet 분류)에서 샘플 클래스를 분류하도록 학습된 DNN은 손으로 쓴 숫자 타겟 과제(예컨대, 숫자 분류)를 분류하도록 재프로그래밍 할 수 있다. 이를 위해 사전에 소스 과제의 클래스 레이블과 타겟 과제의 클래스 레이블 간의 매핑 기능을 구성해야 한다. 이러한 클래스 매핑 프로세스가 완료되면 프레임 모양의 적대적 섭동이 입력 이미지를 둘러싸고 적용되어 타겟 태스크를 수행한다. 실시예들은 최종 제품 사용자가 학습과 테스트 환경 간의 차이를 고려하지 않고 특정 작업을 위해 개발된 기성 DNN으로 작업할 수 있도록 입력 변환을 사용한 프레임워크를 제공하려고 한다. 앞서 언급한 입력 변환 작업과 달리, 실시예들은 다른 작업 시나리오를 고려하지 않고 일반적으로 개발 환경과 구별되는 사용자 환경에서 블랙박스 DNN을 사용하는 방법에 중점을 둔다.
실시예들은 사용자가 특정 과제(예컨대, 이미지 분류 등)를 수행할 수 있는 기 학습된 DNN에 액세스할 수 있다는 것을 고려한다. 주어진 신경망 f는 다음과 같이 Ns 샘플로 구성된 소스 도메인 데이터, 라는 학습 데이터에 대해 사전 학습되며, 다음과 같이 나타낼 수 있다.
[수학식 1]
여기서, 는 각각 i번째 소스 도메인 샘플과 해당 레이블이며, 은 과제에 대해 정의된 목적 함수를 나타내며, 는 신경망의 학습 가능한 매개 변수이다.
그런 다음, 기 학습된 모델은 소스 도메인 데이터에 대한 예측을 적절하게 수행하는 매핑 함수 로 간주할 수 있으며, 이는 에 의해 매개 변수화된다.
사용자가 레이블이 지정된 샘플 와 레이블이 지정되지 않은 샘플 로 구성된 타겟 도메인 데이터( )라 하는 자체 테스트 데이터에 모델을 적용하려고 한다고 가정한다. 여기서, 이다. 레이블이 지정된 샘플은 일반적으로 소스 도메인 데이터와 비교하여 매우 적다. 즉, 이다. 일반적으로 타겟 도메인은 사용자가 적용하려는 환경에 따라 동적으로 변경될 수 있으므로 타겟 도메인 데이터의 분포가 소스 도메인 데이터의 분포와 다를 수 있다. 이 경우, 기 학습된 모델은 학습과 테스트 환경의 불일치로 인해 사용자가 테스트하고자 하는 데이터에 대해 적절하게 예측하지 못할 것이다.
이를 처리하기 위해, 본 실시예에서는 학습된 블랙박스 모델이 타겟 도메인 데이터에서도 예측을 제대로 수행하도록 하기 위해 테스트 데이터에 적용될 추가 입력인 메타 입력 W를 제시한다. 따라서 Xt에서 샘플링된 테스트 데이터에 제안된 메타 입력 W만 추가함으로써 원래 학습된 모델 매개 변수 수정 및 모델을 블랙박스로 처리하지 않고도 매핑 함수 를 구성함을 목표로 한다.
아래에서는 도 2 및 도 3을 참조하여 타겟 테스트 데이터가 블랙박스 네트워크를 지시하는 데 사용되는 소스 트레인 데이터와 다른 분포를 가질 때 제안된 메타 입력의 개요를 설명한다.
메타 입력은 입력과 출력 관계를 조사하여 추론 단계에서 최적화될 수 있다. 학습된 모델은 블랙박스로 취급되므로 최적화 중에 가중치 매개변수가 수정되지 않는다. 최적화 후, 메타 입력은 사용자가 작업하려는 테스트 샘플에 추가된다. 메타 입력을 추가하면 테스트 데이터의 분포가 학습된 모델과 정렬되고 강력한 성능을 얻을 수 있다.
도 2는 일 실시예에 따른 추론 단계에서의 메타 입력의 최적화를 설명하기 위한 도면이다.
도 2를 참조하면, 추론 단계에서 메타 입력의 최적화 흐름을 나타낸다. 제안된 메타 입력 W(220)는 학습 가능하고 보편적이므로 최적화된 후 모든 타겟 도메인 데이터(210)에 한 번 포함될 수 있다. 메타 입력(220)이 다루는 타겟 입력과 모델 예측 점수 사이의 관계를 조사함으로써 메타 입력(220)을 최적화될 수 있다. 그런 다음, 최적화된 메타 입력은 타겟 도메인 데이터의 분포를 학습 소스 도메인 데이터의 분포로 변환할 수 있으며, 학습된 모델(230)이 타겟 도메인 데이터(210)에서도 적절하게 수행되도록 한다.
이해를 위해, 아래에서는 데이터 유형을 이미지로 가정한다. 목표 입력 이미지가 들어오면 입력 이미지와 동일한 크기의 메타 입력 가 전체 이미지를 차지하는데, 여기서, H, W, C는 각각 높이, 폭, 채널의 치수이다.
잠재 공간에서 타겟 도메인 이미지를 소스 도메인으로 변환하기 위해, 실시예들은 와 같이 타겟 도메인 이미지에 메타 입력 W를 추가하여 입력 레벨 변환을 적용한다. 여기서, 는 변환된 이미지이다. 최적화된 메타 입력 W*는 다음과 같은 최적화 문제를 해결함으로써 얻을 수 있다.
[수학식 2]
여기서, 그래디언트 기반 학습 알고리즘을 사용하여 해결할 수 있다. 학습된 모델 매개 변수 를 업데이트하지 않고 작업 손실 을 최소화함으로써 메타 입력을 최적화하여 타겟 도메인 이미지가 잠재 공간에서 소스 도메인 데이터와 유사한 분포를 갖도록 할 수 있다.
도 3은 일 실시예에 따른 최적화된 메타 입력을 이용한 추론을 설명하기 위한 도면이다.
최적화된 메타 입력 W*(320)는, 도 3에 도시된 바와 같이, 요소별 합을 통해 타겟 입력 이미지에 적용될 수 있다. 따라서 최적화된 메타 입력(320)으로 주어진 기 학습된 모델 (330)는 다음의 공식 으로 테스트 데이터(310)에 대해 강력하게 수행할 수 있다. 여기서, 는 사용자가 테스트하고자 하는 레이블이 지정되지 않은 타겟 데이터 에 대한 예측 결과이다. 레이블이 지정된 타겟 도메인 데이터 를 사용할 수 있다고 가정하더라도(즉, 0 < Nl,t), 레이블이 지정된 타겟 도메인 데이터가 없을 때(즉, Nl,t = 0) 최적화 문제를 해결하기 위한 기존의 비지도 방법(비특허문헌 1)을 채택할 수 있다. 예를 들어, 실시예들은 기 학습된 모델(330)을 사용하여 먼저 레이블이 지정되지 않은 샘플에 의사(pseudo) 레이블을 지정하고 학습에 의사 레이블을 사용하는 자체 학습 방법(비특허문헌 1)을 사용할 수 있다. 모델 신뢰 기반 의사 레이블링을 다음과 같이 작성할 수 있다.
[수학식 3]
여기서, 는 예측을 실제 레이블로 사용하기 위한 모델 신뢰 범위를 결정한다. 획득된 의사 레이블 를 사용하여, [수학식 2]의 최적화 문제를 쉽게 해결할 수 있다.
최적화된 메타 입력 W*(320)는 테스트 입력 를 변환하여 테스트 입력을 잠재 공간의 소스 도메인으로 전송할 수 있다. 따라서 학습된 모델(330)은 도메인 이동 샘플을 적절하게 처리하고 최종 사용자에게 정확한 예측(340)을 제공할 수 있다.
도 4는 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법을 나타내는 흐름도이다.
도 4를 참조하면, 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법은, 입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 단계(S110), 및 사용자 환경의 테스트 데이터의 분포를 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 메타 입력을 테스트 데이터에 추가하는 단계(S120)를 포함할 수 있다.
실시예에 따라, 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법은, 메타 입력을 최적화하기 이전에, 기 학습된 딥러닝 모델이 있는 경우, 사용자 환경의 테스트 데이터 분포에서 메타 입력을 생성하는 단계를 더 포함할 수 있다.
아래에서 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법을 보다 상세히 설명한다.
일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법은 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 시스템을 예를 들어 설명할 수 있다.
도 5는 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 시스템을 나타내는 블록도이다.
도 5를 참조하면, 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 시스템(500)은 메타 입력 최적화부(510) 및 메타 입력 추가부(520)를 포함하여 이루어질 수 있다. 실시예에 따라 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 시스템(500)은 메타 입력 생성부를 더 포함할 수 있다.
단계(S110)에서, 메타 입력 최적화부(510)는 입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화할 수 있다. 메타 입력 최적화부(510)는 메타 입력은 역전파를 통해 그래디언트(gradient) 기반 학습 알고리즘으로 최적화할 수 있다.
단계(S120)에서, 메타 입력 추가부(520)는 사용자 환경의 테스트 데이터의 분포를 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 메타 입력을 테스트 데이터에 추가할 수 있다. 보다 구체적으로, 메타 입력 추가부(520)는 최적화된 메타 입력을 테스트 데이터에 추가하여, 사용자 환경의 테스트 데이터의 분포를 학습 데이터의 분포에 맞게 이동 또는 정렬할 수 있다. 이와 같이 메타 입력 추가부(520)는 최적화된 메타 입력을 통해 사용자 환경의 테스트 데이터의 분포를 학습 데이터의 분포에 일치시킴에 따라, 기 학습된 블랙박스 심층 신경망(DNN)이 이미 학습한 지식은 학습과는 다른 환경에서도 활용 가능하다.
실시예들은 최적화된 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 딥러닝 모델에 입력하여 추론할 수 있다.
한편, 메타 입력을 최적화하기 이전에, 기 학습된 딥러닝 모델이 있는 경우, 사용자 환경의 테스트 데이터 분포에서 메타 입력을 생성하는 메타 입력 생성부를 더 포함할 수 있다.
메타 입력 생성부는 사용자 환경의 테스트 데이터의 샘플의 실측 정보(ground truth)를 통해 메타 입력을 생성할 수 있다. 메타 입력 생성부는 사용자 환경의 테스트 데이터를 샘플링하며, 딥러닝 모델과 샘플링된 사용자 환경의 테스트 데이터를 사용하여 메타 입력을 생성할 수 있다. 한편, 메타 입력 생성부는 아래에서 도 7을 참조하여 설명되는 생성부에 포함되거나 생성부를 포함할 수 있다.
이와 같이 실시예들은 테스트 입력 콘텐츠에 메타 입력을 추가하는 기술을 제안하여 기 학습된 딥러닝 모델을 테스트 시에 재학습 없이 새로운 테스트 데이터로 추론 성능을 높게 유지하고자 한다.
아래에서는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 방법 및 시스템에 대해 설명한다.
도 6은 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 방법을 나타내는 흐름도이다.
도 6을 참조하면, 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 방법은, 기 학습된 딥러닝 모델이 있는 경우, 사용자 환경의 테스트 데이터의 분포에서 메타 입력(meta input)을 생성하는 단계(S210), 및 생성된 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 딥러닝 모델에 입력하여 추론하는 단계(S220)를 포함하여 이루어질 수 있다.
여기서 메타 입력을 생성하는 단계는, 입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 단계, 및 사용자 환경의 테스트 데이터의 분포를 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 메타 입력을 테스트 데이터에 추가하는 단계를 포함할 수 있다. 한편, 메타 입력을 최적화하는 단계는 도 4 및 도 5에서 설명한 단계(S110)를 포함하거나 단계(S110)에 포함될 수 있고, 최적화된 메타 입력을 테스트 데이터에 추가하는 단계는 도 4 및 도 5에서 설명한 단계(S120)를 포함하거나 단계(S120)에 포함될 수 있다.
일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 방법은 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 시스템을 예를 들어 설명할 수 있다.
도 7은 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 시스템을 나타내는 블록도이다. 또한, 도 8은 일 실시예에 따른 메타 입력을 생성하는 과정을 설명하기 위한 도면이고, 도 9는 일 실시예에 따른 메타 입력을 추론하는 과정을 설명하기 위한 도면이다.
도 7을 참조하면, 일 실시예에 따른 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 시스템(700)은 생성부(710) 및 추론부(720)를 포함할 수 있다.
단계(S210)에서, 생성부(710)는 기 학습된 딥러닝 모델이 있는 경우, 사용자 환경의 테스트 데이터의 분포에서 메타 입력을 생성한다.
도 8을 참조하면, 단계(S210)은 학습 데이터 (에 대하여 최적화하여 기 학습된 딥러닝 모델( )이 있을 때, 사용자 중심 환경의 테스트 데이터의 분포(T)에서 메타 입력(W)을 생성할 수 있다. 이때, 단계(S210)은 사용자 중심 환경의 테스트 데이터 샘플(T)의 실측 정보(ground truth) U를 통해 메타 입력(W~T)을 생성한다. 이에, 단계(S210)은 사용자 환경의 테스트 데이터를 샘플링하며, 기 학습된 딥러닝 모델과 샘플링된 사용자 환경의 테스트 데이터를 사용하여 메타 입력을 생성할 수 있다.
이때, 메타 입력은 하기의 [수학식 3]과 같이 나타낼 수 있다.
[수학식 3]
본 실시예의 생성 과정에서는 하기의 [수학식 4]와 같은 손실 함수를 메타 입력(W~T)에 대해 최소화하여 최적화하는 것을 특징으로 한다.
[수학식 4]
단계(S210)은 이와 같은 최적화 방식으로 생성된 메타 입력(W*~T)을 통해 테스트 데이터 샘플 분포(T) 내에서 어떤 테스트 데이터가 입력되어도 최적화된 메타 입력(W*~T)을 추가하여 기 학습된 딥러닝 모델을 재학습 없이 그대로 사용하더라도 추론 시, 기존의 높은 성능을 낼 수 있다.
단계(S220)에서, 추론부(720)는 생성된 메타 입력을 사용자 환경의 테스트 데이터(테스트 입력 데이터)에 추가한 입력을 기 학습된 딥러닝 모델에 입력하여 추론한다.
도 9를 참조하면, 도 9(a)에 도시된 바와 같은 기존의 기본적인 이미지 분류 모델은 사용자 환경의 입력 데이터가 학습 데이터(D)와는 완전히 다른 T라는 잡음 환경이라고 했을 때, 학습된 데이터와 상이한 데이터 특성 때문에 잘못된 오분류가 발생하여 성능이 심각하게 감소한다. 이러한 문제를 해결하기 위해 알려진 기존 방법들은 사용자 데이터를 포함한 새 학습 데이터를 만들어 딥러닝 모델()을 재학습하였다. 이는 학습 시간도 길어질뿐더러 실제 에지-디바이스를 이용하는 사용자가 딥네트워크 구조와 학습 데이터를 알 수 없는 경우가 많아 재학습 자체가 어렵다는 근본적인 문제가 있다.
이와 달리, 도 9(b)에 도시된 바와 같이, 단계(S210)에서 생성한 메타 입력을 이용하게 되면, 이미 기 학습된 딥러닝 모델을 바로 활용할 수 있다. 단계(S220)은 최적화된 메타 입력(W*~T)을 사용자 환경의 테스트 데이터(t')에 추가하며, 사용자 환경의 테스트 데이터(t')와 최적화된 메타 입력(W*~T)이 결합된 입력을 기 학습된 딥러닝 모델에 입력할 수 있다. 이렇게 되면, 기 학습된 딥러닝 모델로도 t' 입력의 정답 u'을 맞춤으로써, 기존 모델의 파라미터들을 그대로 쓰면서 새 입력 데이터의 분포에서 성능을 유지한 채로 사용할 수 있게 된다.
이에 따라서, 본 실시예에 따른 메타 입력을 통한 사용자 중심 추론 방법은 외부 신호를 기 학습된 딥러닝 모델의 파라미터로 그대로 사용하면서 학습 데이터와 다른 테스트 데이터에서도 높은 추론 성능이 나오도록 할 수 있다. 이때, 외부 신호의 역할은 새 테스트 데이터를 입력 받은 딥러닝 모델이 최고의 성능을 내도록 도와주는 역할을 할 수 있다.
이상과 같이, 실시예들에 따르면 기 학습된 딥러닝 모델을 테스트 시에 재학습 없이 새로운 테스트 데이터로 추론 성능을 높게 유지할 수 있고, 테스트 입력 콘텐츠에 메타 입력을 추가한 입력 데이터를 만들어 기 학습된 딥러닝 모델에 입력하면 성능을 유지할 수 있다. 또한, 메타 입력 신호는 기 학습된 모델의 파라미터를 그대로 쓰면서도 학습 데이터와 다른 테스트 데이터에서도 높은 추론 성능이 나오도록 할 수 있다. 즉, 메타 입력 신호의 역할은 새 테스트 데이터를 입력 받은 딥러닝 모델이 최고의 성능을 내도록 도와주는 역할을 한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 컴퓨터 장치에 의해 수행되는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법에 있어서,
    입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 단계; 및
    사용자 환경의 테스트 데이터의 분포를 상기 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계
    를 포함하는, 메타 입력 방법.
  2. 제1항에 있어서,
    상기 메타 입력을 최적화하는 단계는,
    상기 메타 입력은 역전파를 통해 그래디언트(gradient) 기반 학습 알고리즘으로 최적화하는, 메타 입력 방법.
  3. 제1항에 있어서,
    상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는,
    최적화된 상기 메타 입력을 테스트 데이터에 추가하여, 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 맞게 이동 또는 정렬하는, 메타 입력 방법.
  4. 제1항에 있어서,
    상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는,
    최적화된 상기 메타 입력을 통해 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 일치시킴에 따라, 기 학습된 블랙박스 심층 신경망(DNN)이 이미 학습한 지식은 학습과는 다른 환경에서도 활용 가능한, 메타 입력 방법.
  5. 제1항에 있어서,
    상기 메타 입력을 최적화하기 이전에, 기 학습된 상기 딥러닝 모델이 있는 경우, 사용자 환경의 상기 테스트 데이터 분포에서 상기 메타 입력을 생성하는 단계
    를 더 포함하는, 메타 입력 방법.
  6. 제5항에 있어서,
    상기 메타 입력을 생성하는 단계는,
    사용자 환경의 테스트 데이터의 샘플의 실측 정보(ground truth)를 통해 상기 메타 입력을 생성하는, 메타 입력 방법.
  7. 제6항에 있어서,
    상기 메타 입력을 생성하는 단계는,
    사용자 환경의 테스트 데이터를 샘플링하며, 상기 딥러닝 모델과 샘플링된 사용자 환경의 상기 테스트 데이터를 사용하여 상기 메타 입력을 생성하는, 메타 입력 방법.
  8. 제1항에 있어서,
    최적화된 상기 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 상기 딥러닝 모델에 입력하여 추론하는, 메타 입력 방법.
  9. 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 시스템에 있어서,
    입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 메타 입력 최적화부; 및
    사용자 환경의 테스트 데이터의 분포를 상기 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 메타 입력 추가부
    를 포함하는, 메타 입력 시스템.
  10. 제9항에 있어서,
    상기 메타 입력 최적화부는,
    상기 메타 입력은 역전파를 통해 그래디언트(gradient) 기반 학습 알고리즘으로 최적화하는, 메타 입력 시스템.
  11. 제9항에 있어서,
    상기 메타 입력 추가부는,
    최적화된 상기 메타 입력을 테스트 데이터에 추가하여, 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 맞게 이동 또는 정렬하는, 메타 입력 시스템.
  12. 제9항에 있어서,
    상기 메타 입력 추가부는,
    최적화된 상기 메타 입력을 통해 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 일치시킴에 따라, 기 학습된 블랙박스 심층 신경망(DNN)이 이미 학습한 지식은 학습과는 다른 환경에서도 활용 가능한, 메타 입력 시스템.
  13. 제9항에 있어서,
    상기 메타 입력을 최적화하기 이전에, 기 학습된 상기 딥러닝 모델이 있는 경우, 사용자 환경의 상기 테스트 데이터 분포에서 상기 메타 입력을 생성하는 메타 입력 생성부
    를 더 포함하는, 메타 입력 시스템.
  14. 제9항에 있어서,
    상기 메타 입력 생성부는,
    사용자 환경의 테스트 데이터의 샘플의 실측 정보(ground truth)를 통해 상기 메타 입력을 생성하는, 메타 입력 시스템.
  15. 제14항에 있어서,
    상기 메타 입력 생성부는,
    사용자 환경의 테스트 데이터를 샘플링하며, 상기 딥러닝 모델과 샘플링된 사용자 환경의 상기 테스트 데이터를 사용하여 상기 메타 입력을 생성하는, 메타 입력 시스템.
  16. 제9항에 있어서,
    최적화된 상기 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 상기 딥러닝 모델에 입력하여 추론하는, 메타 입력 시스템.
  17. 컴퓨터 장치에 의해 수행되는 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력을 통한 사용자 중심 추론 방법에 있어서,
    기 학습된 딥러닝 모델이 있는 경우, 사용자 환경의 테스트 데이터의 분포에서 메타 입력(meta input)을 생성하는 단계; 및
    상기 생성된 메타 입력을 사용자 환경의 테스트 데이터에 추가한 입력을 상기 딥러닝 모델에 입력하여 추론하는 단계
    를 포함하고,
    상기 메타 입력을 생성하는 단계는,
    입력 데이터와 기 학습된 딥러닝 모델의 출력 예측 간의 관계를 고려하여 메타 입력(meta input)을 최적화하는 단계; 및
    사용자 환경의 테스트 데이터의 분포를 상기 딥러닝 모델을 구축하는 데 사용되는 학습 데이터의 분포로 변환하기 위해, 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계
    를 포함하는, 메타 입력을 통한 사용자 중심 추론 방법.
  18. 제17항에 있어서,
    상기 메타 입력을 최적화하는 단계는,
    상기 메타 입력은 역전파를 통해 그래디언트(gradient) 기반 학습 알고리즘으로 최적화하는, 메타 입력을 통한 사용자 중심 추론 방법.
  19. 제17항에 있어서,
    상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는,
    최적화된 상기 메타 입력을 테스트 데이터에 추가하여, 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 맞게 이동 또는 정렬하는, 메타 입력을 통한 사용자 중심 추론 방법.
  20. 제17항에 있어서,
    상기 최적화된 상기 메타 입력을 테스트 데이터에 추가하는 단계는,
    최적화된 상기 메타 입력을 통해 사용자 환경의 상기 테스트 데이터의 분포를 상기 학습 데이터의 분포에 일치시킴에 따라, 기 학습된 블랙박스 심층 신경망(DNN)이 이미 학습한 지식은 학습과는 다른 환경에서도 활용 가능한, 메타 입력을 통한 사용자 중심 추론 방법.
KR1020220128314A 2021-12-16 2022-10-07 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템 KR20240048689A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020220128314A KR20240048689A (ko) 2022-10-07 2022-10-07 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템
CN202211615785.4A CN116384495A (zh) 2021-12-16 2022-12-15 元输入方法及系统和基于元输入用户中心推导方法及系统
PCT/KR2022/020498 WO2023113507A1 (ko) 2021-12-16 2022-12-15 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템
US18/066,637 US20230196112A1 (en) 2021-12-16 2022-12-15 Meta input method and system and user-centered inference method and system via meta input for recycling of pretrained deep learning model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220128314A KR20240048689A (ko) 2022-10-07 2022-10-07 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20240048689A true KR20240048689A (ko) 2024-04-16

Family

ID=90882666

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220128314A KR20240048689A (ko) 2021-12-16 2022-10-07 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20240048689A (ko)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Dong-Hyun Lee et al. Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. In Workshop on challenges in representation learning, ICML, volume 3, page 896, 2013.

Similar Documents

Publication Publication Date Title
Finn Learning to learn with gradients
Bunel et al. Adaptive neural compilation
CN111950269A (zh) 文本语句处理方法、装置、计算机设备和存储介质
US20170213126A1 (en) Artificial intelligence engine configured to work with a pedagogical programming language to train one or more trained artificial intelligence models
US11676043B2 (en) Optimizing hierarchical classification with adaptive node collapses
Tang et al. Semantic equivalent adversarial data augmentation for visual question answering
JP2022550326A (ja) 言語タスクのための対照事前トレーニング
US11157772B2 (en) System and method for generating adversarial examples
CN113837370B (zh) 用于训练基于对比学习的模型的方法和装置
CN112541060B (zh) 一种基于对抗训练的端到端任务型对话学习框架和方法
KR102592935B1 (ko) 신경망 모델 학습 방법 및 장치, 컴퓨터 프로그램
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN115034201A (zh) 使用弱监督多奖励强化学习扩充用于句子分类的文本数据
Fu et al. Role-wise data augmentation for knowledge distillation
Liu et al. Out-of-distribution generalization by neural-symbolic joint training
US20240046128A1 (en) Dynamic causal discovery in imitation learning
CN111612152B (zh) 一种量子计算机的模拟控制方法、系统及相关组件
KR20240048689A (ko) 기 학습된 딥러닝 모델의 재활용을 위한 메타 입력 방법 및 시스템과, 메타 입력을 통한 사용자 중심 추론 방법 및 시스템
Lücke et al. Truncated variational sampling for ‘black box’optimization of generative models
US11416775B2 (en) Training robust machine learning models
Hu et al. Variational auto-encoder for text generation
Galovic et al. Improving robustness of malware classifiers using adversarial strings generated from perturbed latent representations
Julian Deep learning with pytorch quick start guide: learn to train and deploy neural network models in Python
KR20210141150A (ko) 이미지 분류 모델을 이용한 이미지 분석 방법 및 장치
Lambert et al. Flexible recurrent neural networks