KR20230133854A - 크로스-도메인 적응적 학습 - Google Patents

크로스-도메인 적응적 학습 Download PDF

Info

Publication number
KR20230133854A
KR20230133854A KR1020237024007A KR20237024007A KR20230133854A KR 20230133854 A KR20230133854 A KR 20230133854A KR 1020237024007 A KR1020237024007 A KR 1020237024007A KR 20237024007 A KR20237024007 A KR 20237024007A KR 20230133854 A KR20230133854 A KR 20230133854A
Authority
KR
South Korea
Prior art keywords
loss
target
features
target domain
domain feature
Prior art date
Application number
KR1020237024007A
Other languages
English (en)
Inventor
데바스밋 다스
파티 무라트 포리클리
성락 윤
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Priority claimed from PCT/US2022/070267 external-priority patent/WO2022159960A1/en
Publication of KR20230133854A publication Critical patent/KR20230133854A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/76Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data
    • G06F7/764Masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)

Abstract

크로스-도메인 적응적 학습을 위한 기법들이 제공된다. 타겟 도메인 피처 추출 모델은 소스 데이터 세트 상에서 트레이닝된 소스 도메인 피처 추출 모델로부터 튜닝되고, 여기서 튜닝은 타겟 데이터 세트 상에서 트레이닝되는 마스크 생성 모델을 사용하여 수행되고, 튜닝은 타겟 데이터 세트를 사용하여 수행된다.

Description

크로스-도메인 적응적 학습
관련 출원에 대한 상호 참조
이 출원은 2022년 1월 19일자로 출원된 미국 특허 출원 번호 제 17/648,415 호를 우선권으로 주장하고 이는 2021년 1월 20일자로 출원된 미국 가특허출원 제 63/139,714 호의 이익 및 그 우선권을 주장하며, 본원에서는 그 전체 내용을 그 전체로 참조로 포함한다.
도입
본 개시의 양태들은 크로스-도메인 적응적 학습에 관한 것이다.
머신 러닝은 광범위한 태스크들, 이를 테면, 이미지 인식, 스피치 (또는 스피커) 식별 등에 적용되었다. 일반적으로, 머신 러닝 모델들 (이를 테면, 컨볼루션 신경망) 은 특정 도메인의 피처들을 학습하도록 트레이닝된다. 결과적으로, 이러한 모델들은 통상적으로, 이 제한된 도메인을 넘어, 심지어 밀접하게-관련된 태스크들까지 일반화되지 않는다. 예를 들어, 플라워의 이미지들을 분류하도록 트레이닝된 모델은 동물의 이미지들을 분류하는데 있어서 잘 수행하지 못할 것이다.
또한, 트레이닝 머신 러닝 모델은 일반적으로 많은 수의 트레이닝 샘플들 (종종 표본으로 지칭됨) 을 요구한다. 매우 적은 수의 샘플들이 이용가능하면, 트레이닝된 모델 정확도는 일반적으로 빈약하다. 더 적은 수의 샘플들이 이용가능한 다른 도메인들에 대해 (많은 수의 샘플들을 사용하여 하나의 도메인에 대해 트레이닝되는) 기존 모델을 적응시키기 위한 노력이 이루어졌다. 그러나, 현재의 접근법들은 잘 일반화되지 않으며, 유사한 도메인들에 적응될 때에도 제한된 정확도를 보여왔다. 특히, 도메인들이 더 구별되면, 트레이닝된 모델들을 적응시키기 위한 기존의 접근법들은 합리적인 정확도를 제공하지 못하였다.
따라서, 타겟 도메인에서 적은 트레이닝 샘플들을 사용하여 상이한 도메인들에서 정확하게 수행하도록 모델들을 적응시키기 위한 더 효과적인 기법들이 필요하다.
특정 양태들은 소스 데이터 세트 상에서 트레이닝된 소스 도메인 피처 추출 모델로부터 타겟 도메인 피처 추출 모델을 튜닝하는 단계를 포함하는 컴퓨터 구현 방법을 제공하고, 여기서 튜닝은 타겟 데이터 세트 상에서 트레이닝되는 마스크 생성 모델을 사용하여 수행되고, 튜닝은 타겟 데이터 세트를 사용하여 수행된다.
추가의 양태들은 본원에 설명된 방법들을 수행하도록 구성되는 장치들 뿐만 아니라, 디바이스의 프로세서에 의해 실행될 때 본 명세서에 설명된 방법들을 수행하게 하는 컴퓨터 실행가능 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체들에 관한 것이다.
다음의 설명 및 관련된 도면들은 하나 이상의 양태들의 특정 예시적 특징들을 상세하게 설명할 것이다.
첨부된 도면은 여러 양태들의 특정 특징들을 나타내며, 이에 따라 본 개시의 범위를 제한하는 것으로 고려되지 않는다.
도 1 은 타겟 도메인 피처 추출기에 대한 백본으로서 역할을 하는 소스 도메인 피처 추출기를 트레이닝하기 위한 일 예의 워크플로우를 나타낸다.
도 2 는 타겟 도메인에 대한 적응성을 돕기 위해 마스트 생성기를 트레이닝하기 위한 일 예의 워크플로우를 나타낸다.
도 3 은 타겟 도메인에 대한 타겟 도메인 피처 추출기를 튜닝하기 위한 일 예의 워크플로우를 나타낸다.
도 4 는 타겟 도메인에 대한 트레이닝된 도메인 피처 추출기 및 분류기를 사용하기 위한 일 예의 워크플로우를 나타낸다.
도 5 는 타겟 도메인에 대한 머신 러닝 모델을 트레이닝 및 튜닝하기 위한 방법을 예시하는 일 예의 플로우 다이어그램을 나타낸다.
도 6 은 소스 도메인 피처 추출기를 트레이닝하기 위한 방법을 예시하는 일 예의 플로우 다이어그램을 나타낸다.
도 7 은 마스크 생성기를 트레이닝하기 위한 방법을 예시하는 다른 예의 플로우 다이어그램을 나타낸다.
도 8 은 타겟 도메인 피처 추출기 및 분류기를 트레이닝하기 위한 방법을 예시하는 다른 예의 플로우 다이어그램을 나타낸다.
도 9 는 타겟 도메인에서의 입력 데이터를 분류하기 위해 타겟 도메인 피처 추출 모델을 사용하기 위한 방법을 예시하는 플로우 다이어그램이다.
도 10 은 타겟 도메인 피처 추출 모델을 트레이닝하기 위한 방법을 예시하는 다른 예의 플로우 다이어그램을 나타낸다.
도 11 은 타겟 도메인들에 대한 머시닝 러닝 모델들을 트레이닝 및 튜닝하도록 구성되는 프로세싱 시스템을 예시하는 일 예의 블록 다이어그램을 나타낸다.
이해를 용이하게 하기 위해, 동일한 참조 부호들은, 가능할 경우, 도면들에 공통인 동일한 엘리먼트들을 지정하도록 사용되었다. 일 양태의 엘리먼트들 및 피처들은 추가 기재없이도 다른 양태들에 유익하게 통합될 수도 있음이 고려된다.
본 개시의 양태들은 소수의 트레이닝 샘플들을 사용하여 상이한 도메인들에 머신 러닝 모델들을 적응하기 위한 장치들, 방법들, 프로세싱 시스템들 및 비일시적 컴퓨터 판독가능 매체를 제공한다.
통상의 머신 러닝은 모델을 오버핏팅하는 것을 회피하고 추론 동안 합리적인 정확도를 실현하기 위하여 많은 수의 그리고 여러 라벨링된 트레이닝 모델들에 의존한다. 예를 들어, 이미지들에서 플로워들을 정확하게 분류하도록 신경망을 트레이닝하기 위해, 어느 플라워(들)이 존재하는지를 나타내는 대응하는 라벨을 갖는 많은 수의 이미지들이, 네트워크를 반복적으로 트레이닝 및 리파이닝하는데 사용되어야 한다. 적은 수의 이러한 라벨링된 샘플들만이 이용가능하면, 모델은 사용된 특정 샘플들로만 오버핏팅하는 경향이 있을 것이고 다른 새로운 이미지들에 대해서는 (예를 들어, 매우 낮은 정확도로) 빈약하게 수행할 것이다.
본 개시의 일부 양태들에서, 소스 도메인에 대해 자기-지도 (self-supervised) 기법을 사용하여 피처 추출 모델이 트레이닝된다. 일 양태에서, 자기-지도 학습은 휴먼 생성된 라벨들과는 대조적으로, 감독을 제공하도록 데이터 자체에 의존한다. 이러한 자기-지도를 사용하는 것에 의해, 그리고 소스 도메인에서 트레이닝 샘플들의 라벨들을 사용하는 것을 억제하는 것에 의해 (예를 들어, 지도 학습을 사용하는 것을 억제하는 것에 의해), 피처 추출 모델은 통상의 지도 학습에서와 같이 데이터를 분류하도록 학습하기 보다는 입력 데이터의 피처들을 추출하도록 학습한다. 일부 양태들에서, 이 소스 도메인 피처 추출 모델은 그 후, 비교적 적은 수의 샘플들을 사용하여 타겟 도메인에 대한 도메인 피처 추출기로서 역할을 하도록 리파이닝될 수 있는데, 이는 (단일의 샘플이 사용될 때) "원-샷"학습으로 지칭될 수도 있거나 또는 (적은 수의 샘플들이 사용될 때) "퓨-샷" 학습으로 지칭될 수도 있다. 본 명세서에 설명된 양태들에서, 소수 도메인에 대한 소스 도메인 피처 추출기를 타겟 도메인에 대한 타겟 도메인 피처 추출기로의 이 변환은 리파이닝, 트레이닝, 튜닝, 미세 튜닝, 적응화 등으로 지칭될 수도 있다.
일부 양태들에서, 타겟 모델의 정확도를 강화하기 위하여, 시스템은 또한 타겟 도메인에 기초하여 소스 도메인 피처 추출기의 출력으로부터 핵심 피처들을 선택하는 것을 돕도록 마스크 생성기 (예를 들어, 계층, 서브네트워크, 또는 네트워크 모델) 을 또한 트레이닝할 수 있다. 생성된 마스크(들)은 선택된 피처들에 대해 포커싱하도록 타겟 소스 추출기를 강제하는 것에 의해 타겟 소스 추출기의 트레이닝을 개선할 수 있다. 이는 타겟 도메인에 대하여 예측적인 피처들을 선택적으로 사용하는 것에 의해 모델이 일반화하도록 도울 수 있는데 이는 오버피팅을 방지할 수 있고 높은 정확도 및 달리 개선된 성능을 실현하는데 필요한 타겟 도메인 샘플들의 수를 감소시킬 수 있다.
유리하게, 본 개시의 양태들은 그럼에도 불구하고 높은 태스크 정확도를 실현하기 위해 타겟 도메인에 대한 비교적 적은 트레이닝 샘플들을 요구한다 (예를 들어, 분류). 예를 들어, 소스 도메인에 대해 수 천개의 샘플들이 존재할 수도 있지만, 타겟 모델은 수백개 미만의 샘플들 (여러 구현들에서, 단일의 샘플들, 5 개의 샘플들, 10 개의 샘플들, 20 개의 샘플들, 50 개의 샘플들 등을 포함함) 을 사용하여 트레이닝될 수도 있다.
이러한 적응은 적은 표본이 이용가능한 도메인에서 머신 러닝 모델의 정확도를 개선하는 넓은 적용능력을 갖는다. 예를 들어, 스피커 검증 (그들의 음성에 기초하여 개인의 아이덴티티를 검증함) 에서, 모델은 소스 도메인 데이터 (예를 들어, 스피커들의 제 1 그룹으로부터의 데이터) 를 사용하여 트레이닝될 수 있고, 그 다음, 소스 도메인과 타겟 도메인 사이에 스피킹 스타일에 큰 차이가 있을 때에도 개선된 검증 정확도를 제공하기 위해 본 명세서에 설명된 기법들을 사용하여 타겟 도메인 (예를 들어, 단일의 새로운 스피커에 관련됨) 에 적응될 수 있다.
다른 예로서, 모델은 (예를 들어, 플라워를 식별하는) 소스 도메인에서 이미지 인식을 수행하도록 트레이닝된 다음, (예를 들어, 위성 이미지, 의료 이미지 등을 분류하는) 적은 수의 샘플들로 타겟 도메인에 적응될 수 있다.
유사하게, 이미지 검증을 위하여, 이를 테면, 생체 인식 데이터 (예를 들어, 얼굴 데이터, 홍채 데이터, 핸드-라이팅 스타일 등) 를 검증하기 위하여, 일반 모델은 소스 데이터를 사용하여 트레이닝되고 특정 사용자에 대한 타겟 데이터를 사용하여 미세 튜닝될 수 있다. 예를 들어, 본 명세서에 설명된 기법들은 도메인들 사이에 큰 차이들이 존재할 수 있는 실제 지문과 스푸핑된 지문을 구별하기 위해 모델들을 트레이닝하는데 사용될 수 있다. 또 다른 예로서, 어드밴스드 운전자 보조 시스템들은 특정 운전자의 인게이지먼트의 비교적 적은 수의 샘플들을 사용하여 운전자 인게이지먼트 레벨들을 분류하도록 리파이닝될 수 있다.
본 명세서에서 논의되는 일부 양태들에서, 소스 도메인 및 타겟 도메인은 각각, 입력 공간 () 및 라벨 공간 () 에 걸친 개별적인 조인트 분포들 (P) 로서 모델링될 수 있다. 입력 공간의 한계 분포는 로서 표기될 수도 있다. 일반적으로, 인스턴스들 (x, y) 은 P 로부터 샘플링될 수 있으며, 여기서 x 는 입력이고 y 는 대응하는 라벨이다. 따라서, 소스 도메인은 () 로서 표현될 수 있고, 타겟 도메인은 조인트 분포들 Ps 및 Pt 각각과 함께 () 로서 표현될 수도 있다. 일 양태에서, 도메인 차이에 기인하여, 소스 마진 분포 () 는 타겟 마진 분포 와 매우 다를 수 있다. 또한, 타겟 도메인 내의 클래스들은 완전히 신규할 수 있다 ( 사이에 오버랩이 없음). 본 개시의 양태들에서, 시스템은 먼저 소스 분포 (Ps) 로부터 샘플링된 비교적 많은 양의 데이터를 사용하여 모델을 트레이닝할 수 있다. 모델은 그 후 타겟 분포 (Pt) 로부터 샘플링된 비교적 작은 양의 데이터에 기초하여 타겟 도메인에 적응될 수 있다.
본 개시의 양태들은 매우 다양한 머신 러닝 태스크들에 적용될 수 있고, 일반적으로 임의의 수의 태스크 도메인들에서 모델들의 정확도를 개선할 수 있다.
소스 도메인 피처 추출기를 트레이닝하기 위한 예시적인 워크플로우
도 1 은 타겟 도메인 피처 추출기에 대한 백본으로서 역할을 하는 소스 도메인 피처 추출기 (120) 를 트레이닝하기 위한 일 예의 워크플로우 (100) 를 나타낸다.
도 1 에서, 소스 도메인 샘플들 (105) 의 세트는 소스 도메인 피처 추출기 (120) 를 트레이닝하는데 사용된다. 이 예에서, 소스 도메인 샘플들 (105) 은 비교적 많은 수의 샘플들 (예를 들어, 적어도 타겟 도메인에서 이용가능한 것보다 더 많은 크기의 정도) 이 이용가능한 소스 도메인에서의 트레이닝 표본들이다. 예를 들어, 소스 도메인이 동물들의 분류에 대응하면, 소스 도메인 샘플들 (105) 은 동물들의 이미지들을 포함할 수 있다. 일부 양태들에서, 각각의 소스 도메인 샘플 (105) 은 자신이 속하는 클래스를 나타내는 대응하는 라벨과 연관된다. 그러나, 자기-지도 학습 동안, 라벨들 (존재하는 경우) 은 무시될 수 있다.
예시된 바와 같이, 소스 도메인 샘플들 (105) 중 하나 이상은 소스 도메인 피처 추출기 (120) 에 입력으로서 직접 제공될 수 있으며, 이는 각각의 입력 소스 도메인 샘플 (105) 에 대한 소스 피처들 (130) 의 세트를 출력한다. 일반적으로, 소스 피처들 (130) 은 값들의 다차원 텐서에 의해 표현되며, 여기서 각각의 차원은 특정 피처에 대응한다.
일 양태에서, 소스 도메인 피처 추출기 (120) 는 신경망 (예를 들어, 또는 신경망의 부분, 이를 테면, 신경망의 하나 이상의 계층들) 이다. 예를 들어, 소스 도메인 피처 추출기 (120) 는 입력 계층 및 하나 이상의 은닉 계층을 포함하되, 완전-연결 분류기 또는 출력 계층이 없는 신경망에 대응할 수 있다. 즉, 네트워크의 마지막 계층으로부터의 출력은 입력 데이터의 분류보다는, 피처들의 세트 (예를 들어, 소스 피처들 (130)) 또는 임베딩일 수 있다.
워크플로우 (100) 에서, 증강 컴포넌트 (110) 는 증강 샘플(들)(115) 을 생성하기 위해 다양한 변환들을 사용하여 (예를 들어, 트레이닝 배치에서) 소스 도메인 샘플들 (105) 을 증강시키는데 사용된다. 이들 변환은, 예를 들어, 회전들, (예를 들어, 그레이스케일로의) 컬러 변환, 병진들, 노이즈의 부가, 반전들 등을 포함할 수 있다. 변환들은 시스템이 입력 라벨에 의존하지 않고 자기-지도 방식으로 소스 도메인의 피처들을 학습하게 할 수 있다.
일부 양태들에서, 단일의 증강된 샘플 (115) 이 각각의 소스 도메인 샘플 (105)에 대해 생성된다. 다른 양태들에서, 임의의 수의 증강된 샘플들 (115) 은 각각의 소스 도메인 샘플 (105) 에 대해 생성될 수 있다. 예시된 바와 같이, 각각의 증강된 샘플 (115) 은 대응하는 세트의 증강된 피처들 (125) 을 생성하기 위해 소스 도메인 피처 추출기 (120) 에 의해 프로세싱된다. 일 양태에서, 증강된 피처들 (125) 은 소스 피처들 (130) 과 동일한 차원성을 갖는다. 예시된 워크플로우 (100) 가 개념적 명확성을 위해 이산 증강 피처들 (125) 및 소스 피처들 (130) 을 도시하지만, 소스 도메인 피처 추출기 (120) 는 일반적으로 입력이 변환되었는지에 대해 불가지론적이며, 결과적인 피처들은 그렇지 않으면 구별가능하지 않을 수 있다.
손실 컴포넌트 (135) 는 손실 (140) 을 생성하기 위해 각각의 소스 도메인 샘플 (105) 과 연관된 증강된 피처(들)(125) 및 소스 피처(들)(130) 을 수신 및 프로세싱할 수 있다. 이 손실 (140) 은 소스 도메인 피처 추출기 (120) 를 리파이닝하기 위해 사용된다. 일반적으로, 임의의 적합한 자기-지도 손실 함수가 사용될 수 있다. 적어도 하나의 양태에서, 증강된 샘플들 및 오리지널 샘플들은 대조 손실 (140) 을 계산하기 위해 사용되며, 여기서 대조 손실 (140) 은 소스 도메인 샘플들과 증강된 샘플들 사이의 차이 또는 대조에 적어도 부분적으로 기초한다.
일 양태에서, 워크플로우 (100) 는 Nb 개의 트레이닝 샘플들 (소스 도메인 샘플들 (105)) 을 사용하여 수행될 수도 있으며, 여기서, 샘플들은 로서 표현된다. 각각의 샘플 xi에 대해, 시스템은 먼저 Nt 랜덤 (또는 의사 랜덤) 변환들을 획득할 수 있으며 (결과적으로 Nt 개의 증강 샘플들 (115) 을 초래함), 여기서 j 번째 변환된 인스턴스는 xij 로서 표현되고 j={1,2..., Nt} 이다. 일 양태에서, 시스템은 아래의 식 1 에 정의된 대조 (예를 들어, 교차 엔트로피) 손실을 사용하여 변환된 인스턴스들 xij 를 xi 에 가깝게 강제하고 xk, k≠i 로부터 멀리 강제할 수 있다.
식 1에서, 는 소스 도메인 피처 추출 모델 (예를 들어, 도 1 의 120) 이고, d(·) 는 거리 메트릭이고, Nb 는 소스 데이터 세트의 배치 사이즈이고, Nt 는 증강들의 수이고, xk 는 소스 데이터 세트의 오리지널 샘플이고, xij는 소스 데이터 세트의 변환된 샘플이다. 일 양태에서, 유클리드 거리 (Euclidean distance) 가 거리 메트릭 d(·) 으로서 사용된다.
양태들에서, 이러한 자기-지도 손실 (이는 소스 라벨들을 고려하지 않고 계산됨) 은 소스 도메인 피처 추출기 (120) 가 소스 도메인을 넘어 확장될 수 있는 더 일반적으로 적용가능한 피처들을 학습하게 한다.
타겟 도메인에 대한 마스크 생성기를 트레이닝하기 위한 일 예의 워크플로우
도 2 는 타겟 도메인에 대한 적응을 돕기 위해 마스트 생성기를 트레이닝하기 위한 일 예의 워크플로우 (200) 를 나타낸다.
일반적으로, 워크플로우 (200) 는 태스크-관련 피처들 (예를 들어, 타겟 도메인에서 입력 데이터의 클래스들을 분류 및/또는 구별하는 것을 돕는 피처들) 및 태스크-비관련 피처들 (예를 들어, 타겟 도메인에서 클래스들을 구별하는 것을 돕지 않는 피처들) 을 선택하는 하나 이상의 마스크들을 생성하는 데 사용될 수 있다. 그러한 마스크들의 사용은 시스템이 원래의 소스 도메인으로부터 멀리 그리고 타겟 도메인을 향해 일반화되게 함으로써 최종 모델들의 정확도를 개선할 수 있다.
도 2 에서, 타겟 도메인 샘플들 (205) 의 세트의 각각의 샘플은 (예를 들어, 임베딩에서) 타겟 피처(들)(210) 의 대응하는 세트를 생성하기 위해 소스 도메인 피처 추출기 (120)(예를 들어, 위에서 논의된 워크플로우 (100) 를 사용하여 트레이닝된 신경망) 에 제공된다. 일 양태에서, 타겟 피처 (210) 는 도 1 과 관련하여 논의된 소스 피처 (130) 및 증강된 피처 (125) 와 동일한 차원성을 갖는다.
각각의 타겟 도메인 샘플 (205) 은 타겟 도메인에 대한 트레이닝 표본이다. 일반적으로, 타겟 도메인은 일부 물질 측면에서 소스 도메인과 상이하다. 예를 들어, 타겟 도메인은 소스 도메인에 존재하지 않는 하나 이상의 클래스를 포함할 수 있다. 적어도 하나의 양태에서, 클래스들은 타겟 도메인의 클래스들 중 어느 것도 소스 도메인에 존재하지 않도록 완전히 이산적일 수 있고, 그 반대도 마찬가지이다.
일부 양태들에서, 소스 및 타겟 도메인은 또한 다른 방식으로 상이할 수 있다. 예를 들어, 소스 도메인은 컬러 이미지를 사용할 수 있는 반면, 타겟 도메인은 그레이스케일을 사용한다. 유사하게, 소스 도메인은 원근 (perspective)(예를 들어, 공간의 깊이 또는 차원을 반영하는 동물의 이미지) 을 포함하는 입력 데이터를 사용할 수 있는 반면, 타겟 도메인은 그러한 원근을 갖지 않는다 (예를 들어, 평면 x-선 이미지).
타겟 피처들 (210) 은 마스크 생성기 (215) 에 제공된다. 마스크 생성기 (215) 는 입력 피처들의 세트 (예를 들어, 텐서) 를 수신하고 대응하는 마스크를 출력하는 신경망을 포함할 수 있다. 마스크는 일반적으로 입력 텐서와 동일한 차원성 (예를 들어, 타겟 피처들 (210) 과 동일한 차원성) 을 가지며, 각각의 피처에 대해 0 과 1 사이의 값을 특정한다. 일부 양태들에서, 값은 각각의 피처, 예를 들어, 이진 출력 마스크에 대해 1 또는 0일 수 있다.
일 예에서, (소스 도메인으로부터 트레이닝된) 소스 도메인 피처 추출기 (120) 를 로 표기하도록 한다. 타겟 도메인 샘플들 (205) 의 배치 이 주어지면, 각각의 샘플에 대해, 소스 도메인 피처 추출기 (120) 는 타겟 피처들 (210) 을 생성하는데 사용될 수 있다. 이들 피처들은 마스크 를 획득하기 위해 마스크 생성기 (215)(M(·) 로 표현될 수 있음) 에 입력된다.
일부 양태들에서, 마스크는 이진 마스크 (220) 로 변환된다. 예를 들어, 시스템은 0.5 미만의 모든 값들을 0 으로 변환하고 0.5 이상의 임의의 값들을 1 로 변환하는 것에 의해 (또는 다른 컷오프를 사용하여) 이진 마스크로 마스크를 변환할 수도 있다. 이러한 방식으로, 바이너리 마스크는 입력으로부터 피처들을 선택적으로 통과시키거나 억제하도록 작용한다. 도 2 에 도시된 예에서, 이진 마스크 (220) 의 흑색 부분들은 하나의 이진 마스크 값 (예를 들어, 1) 을 나타내고, 이진 마스크 (220) 의 백색 부분들은 다른 이진 마스크 값 (예를 들어, 0) 을 나타낸다.
일부 양태들에서, 이진 마스크 (220) 를 생성하는 것은 마스크의 값들에 로지스틱 잡음을 추가하는 것, 및 결과적인 값들에 선형 또는 비선형 활성화 함수를 적용하는 것을 포함한다. 즉, 이진 마스크 (mij) 를 생성하기 위해, 시스템은 확률적 절차를 사용할 수 있다. 예를 들어, zij 를 i번째 샘플 및 j번째 차원에 대응하는 마스크 생성기 (215) 로부터의 비제한 출력 로짓 (logit) 이라고 둔다. 시스템은 l=log(u)-log(1-u) 및 u∼uniform(0,1) 이 되도록 로지스틱 노이즈 l 를 생성할 수 있다. 그 다음, 노이즈는 아래의 식 2 를 사용하여 마스크 mij 를 생성하기 위해 로짓들에 추가될 수 있으며, 여기서 는 시그모이드 연산이고, τ 는 온도 파라미터이다.
로짓들에 대한 노이즈의 추가는 트레이닝 동안 타겟 테스크에 적합한 상이한 이진 마스크들을 테스트하는 데 사용될 수 있다. 트레이닝 동안 이산 마스크들을 역-전파하기 위해, 시스템은 역방향 패스 동안 식 2 를 사용하여 직통 추정기 (straight through estimator) 및 순방향 패스 동안 하드 임계 동작을 사용할 수 있다. 적어도 하나의 양태에서, 하드 임계 동작은 mij > 0.5 이면 mij 를 1 로 설정하고 그외의 경우 0 으로 설정하는 것을 수반한다. 추론 모드 동안, 마스크의 하드 임계 동작은 로지스틱 노이즈 l=0으로 수행될 수 있고, 따라서 시스템은 결정론적 출력을 생성할 수 있다.
예시된 바와 같이, 마스크 (220)(이진 마스크일 수 있음) 는 이어서 동작 (225) 을 사용하여 타겟 피처들(210)에 적용되어 포지티브 피처들 (230) 의 세트 및 네거티브 피처들 (235) 의 세트를 생성한다. 일부 양태들에서, 태스크-관련 피처들은 포지티브 피처들로 지칭될 수 있는 반면, 태스크-비관련 피처들은 네가티브 피처들로 지칭된다.
적어도 하나의 양태에서, 동작 (225) 은 엘리먼트-별 곱 (element-wise product)(예를 들어, Hadamard 곱) 동작이다. 일부 양태들에서, 피처들 (fi) 및 마스크 (mi) 가 주어지면, 포지티브 피처들 (230) 은 로서 표현될 수 있고, 네거티브 피처들 (235) 은 로서 표현될 수 있으며, 여기서 은 엘리먼트-별 곱이고, 1 은 (예를 들어, 피처 텐서와 동일한 차원의) 적절한 차원들 중 하나의 벡터 또는 텐서이고, 는 d 개의 엘리먼트들로 구성된 마스크 벡터 또는 텐서이고 j번째 엘리먼트는 mij 로서 표현된다.
예시된 바와 같이, 포지티브 피처들 (230) 및 네거티브 피처들 (235) 은 그 후 손실 컴포넌트 (135) 에 의해 프로세싱되어, 마스크 생성기 (215) 를 리파이닝하는데 사용되는 손실 (240) 을 생성한다.
일반적으로, 마스크 생성기 (215) 는 포지티브 피처들 (230)() 이 타겟 클래스들 사이에서 차별적이 되는 한편, 네가티브 피처들 () 이 그렇지 않도록 보장하기 위해 트레이닝된다. 따라서, 마스크 생성기 (215) 는 가 통계적으로 다이버전트하도록 트레이닝될 수 있다.
일부 양태들에서, 구별적 포지티브 피처들 () 을 생성하기 위해, 손실 컴포넌트 (135) 는 크로스-엔트로피 손실 함수를 사용한다. 예를 들어, 시스템은 선형 분류기를 사용하여 분류를 생성하도록 포지티브 피처들 (230) 을 프로세싱할 수도 있다. 이 분류는, 대응하는 타겟 도메인 샘플 (205) 에 대한 실제 라벨과 함께, 식 3 에서와 같이, 크로스-엔트로피 손실을 계산하는 데 사용될 수 있다.
식 3 에서, 는 크로스-엔트로피 기준이고, 는 포지티브 피처들 () 에 대해 사용되는 선형 분류자이고, yi는 타겟 피처들 () 를 생성하기 위해 사용된 타겟 도메인 샘플 (205) 에 대한 라벨이며, 이는 그 후 포지티브 피처들 () 를 생성하기 위해 마스크로 프로세싱되었다.
일 양태에서, 네거티브 피처들 (235)() 에 기초하여 손실을 계산하기 위해, 손실 컴포넌트 (135) 는 아래의 식 4 에서와 같이 최대 엔트로피 기준을 사용하며, 여기서 C-(·) 는 네거티브 피처들 () 에 대해 사용되는 선형 분류기이고, 의 소프트맥스 출력들의 엔트로피이다.
일부 양태들에서, 위에서 논의된 바와 같이, 손실 컴포넌트 (135) 는 또한 포지티브 피처들 (230) 및 네가티브 피처들 (235) 이 통계적으로 다이버전트하는 것을 보장하기 위해 손실을 계산한다. 따라서, sd(·) 가 2개의 피쳐 세트 (포지티브 세트 () 와 네거티브 세트 ()) 사이의 통계적 거리이면, 시스템은 아래의 식 5 를 사용하여 다이버전트 손실을 최소화할 수 있다. 일 양태에서, 식 5 의 지수 항은 최적성에 가까울 때 더 안정적이고 더 작은 그래디언트들을 제공하기 위해 사용될 수 있다.
워크플로우 (200) 에서, 손실 컴포넌트 (135) 는 마스크 생성기 (215) 를 리파이닝하기 위해 사용되는 전체 손실 (240) 을 생성하기 위해 포지티브 손실, 네가티브 손실 및/또는 다이버전트 손실을 조합할 수 있다. 적어도 하나의 양태에서, 식 3, 식 4, 및 식 5 에서 위에 정의된 손실 항들은 가중되고 결합되어, 아래 식 6 에서 정의된 바와 같이, 마스크 생성기 (215) 에 대한 전체 손실을 획득한다.
식 6 에서 λpos, λneg, λdiv는 각각의 손실 컴포넌트에 대한 가중치이다. 일 양태에서, 이들 가중치들은 구성가능한 하이퍼파라미터들이다. 다른 양태에서, 가중치들은 트레이닝가능 파라미터들이다. 예를 들어, 가중치들 λpos, λneg, 및 λdiv 은 지수 감쇠 (exponential decay) 를 사용하여 학습될 수도 있고, Lmask 는 다음과 같이 정의될 수도 있다:
그 다음, Lmask 는 최종 손실을 획득하기 위해 주어진 배치에서 트레이닝 샘플들에 걸쳐 평균화될 수 있으며, 이는 각각의 파라미터들을 업데이트하기 위해 M(·), C+(·) 및 C-(·) 에 걸쳐 역-전파된다. 일 양태에서, 소스 도메인 피처 추출기 (120) 의 파라미터들은 마스크 생성기 (215) 의 트레이닝 동안 동결되고 변경되지 않는다.
이러한 방식으로, 마스크 생성기 (215) 는 입력 피처들의 세트가 주어지면 마스크를 생성하기 위해 타겟 도메인 내의 샘플들에 기초하여 반복적으로 리파이닝된다.
타겟 도메인 피처 추출기를 생성하도록 소스 도메인 피처 추출기를 적응시키기 위한 일 예의 워크플로우
도 3 은 타겟 도메인에 대한 타겟 도메인 피처 추출기 (305) 를 튜닝하기 위한 일 예의 워크플로우 (300) 를 나타낸다. 워크플로우 (300) 는 타겟 도메인 피처 추출기 (305) 를 타겟 도메인에 적응시키기 위한 미세 튜닝 스테이지로서 사용될 수 있다. 워크플로우 (300) 에서, 타겟 도메인 피처 추출기 (305) 및 태스크 분류기 (315) 는 타겟 도메인 데이터 (205) 에 대해 트레이닝된다. 타겟 도메인이 비교적 적은 수의 라벨링된 데이터 샘플들만을 포함할 수 있기 때문에, 일부 양태들에서, 시스템은 아래에서 더 상세히 논의되는 바와 같이, 트레이닝된 마스크 생성기 (215) 를 사용하여 포지티브 피처들을 생성하기 위해 타겟 도메인 피처 추출기 (305) 를 정규화한다.
타겟 도메인 샘플들 (205) 은 각각의 타겟 도메인 샘플 (205) 에 대한 대응하는 타겟 피처(들)(210) 을 생성하기 위해 트레이닝된 소스 도메인 피처 추출기 (120) 를 각각 통과한다. 그 다음, 타겟 피처들 (210) 의 각각의 텐서 각각은 트레이닝된 마스크 생성기 (215) 를 통과하여 (전술한 바와 같이 이진 마스크일 수 있는) 대응하는 마스크 (220) 를 생성한다. 이어서, 각각의 마스크 (220) 가 각각의 타겟 피처들 (210) 에 적용되어 (예를 들어, 요소별 곱 연산을 사용하여) 각각의 세트의 포지티브 피처들 (230) 을 생성한다.
타겟 도메인 피처 추출기 (305) 는 입력 데이터 (예를 들어, 타겟 도메인 샘플들 (205)) 의 피처들을 추출하도록 트레이닝되는, 신경망과 같은 머신 러닝 모델 (또는 그 일부) 일 수 있다. 일 양태에서, 타겟 도메인 피처 추출기 (305) 는 트레이닝된 소스 도메인 피처 추출기 (120) 의 파라미터들을 사용하여 초기화된다. 즉, 소스 도메인 피처 추출기 (120) 는 임의의 값으로 초기화될 수 있지만, 타겟 도메인 피처 추출기 (305) 는 학습된 소스 도메인 피처 추출기 (120) 의 값을 이용하여 초기화될 수 있다. 이어서, 이들 파라미터는 트레이닝된 타겟 도메인 피처 추출기 (305) 를 생성하기 위해 리파이닝되거나 "튜닝"될 수 있다. 이를 통해, 오리지널 소스 도메인 피처 추출기 (120) 는 타겟 도메인에 적응할 수 있다.
를 소스 도메인 피처 추출기 의 파라미터들로부터 초기화되는 타겟 도메인 피처 추출기 (305) 로 한다.
타겟 도메인에 대한 하나 이상의 타겟 도메인 샘플 (205) 이 주어지면, 타겟 도메인 피처 추출기 (305) 는 태스크 피처 (310) 의 대응하는 세트를 생성하는데 사용된다. 즉, 타겟 도메인 샘플들 의 배치 (batch) 가 주어지면, 각각의 샘플에 대해, 시스템은 피처 텐서 또는 벡터 를 생성한다.
도 3 에서, 각각의 타겟 도메인 샘플 (205) 에 대해, 대응하는 타겟 피처부들 (310) 및 포지티브 피처들 (230) 은 손실 컴포넌트 (135) 에 의해 손실 (330) 을 계산하는데 사용된다. 일부 양태들에서, 위에서 논의된 바와 같이, 손실 컴포넌트 (135) 는 (예를 들어, 타겟 도메인 피처 추출기 (305) 의 피처 도메인이 포지티브 피처 텐서 (230) 의 피처들과 유사한 것을 보장하기 위해) 관련 또는 두드러진 피처들에 기초하여 타겟 도메인 피처 추출기 (305) 를 정규화하기 위해 손실 (330) 을 생성한다.
일부 경우들에서, 타겟 도메인 피처 () 가 관련 (포지티브) 피처들에 가깝다는 것을 보장하기 위해, 시스템은 관련 타겟 텐서 또는 벡터를 생성할 수 있다 (). 그런 다음 정규화 손실은 아래의 식 7 을 사용하여 정의될 수 있으며, 여기서 는 원점으로부터의 텐서 또는 벡터의 유클리드 거리 (Euclidean 기준 (norm) 또는 2-기준이라고도 함) 이다.
워크플로우 (300) 에서, 태스크 피처들 (310) 은 또한 태스크 분류기 (315) 에 제공된다. 태스크 분류기 (315) 및 타겟 도메인 피처 추출기 (305) 는 각각 신경망 모델일 수 있거나, 단일 신경망 모델의 상이한 양태들일 수 있다. 예를 들어, 타겟 도메인 피처 추출기 (305) 는 하나 이상의 초기 계층들 (예를 들어, 입력 계층 및 하나 이상의 내부 은닉 계층들) 로서 사용될 수 있는 반면, 태스크 분류기 (315) 는 피처들을 분류하는데 사용되는 네트워크의 단부에 하나 이상의 완전히 연결된 계층들을 포함할 수 있다.
태스크 피처들 (310) 의 각각의 세트는 대응하는 분류 (320) 를 생성하기 위해 태스크 분류기 (315) 에 제공된다. 즉, 피처 () 는 분류 (320) 를 생성하기 위해 태스크 분류기 (315)(C(·)) 에 대한 입력으로서 제공될 수 있다. 일 양태에서, 태스크 분류기 (315) 는 선형 분류기 (예를 들어, 입력 피처들의 선형 조합에 기초하여 입력 데이터를 분류하는 분류기) 이다.
손실 컴포넌트 (135) 는 원래의 입력 타겟 도메인 샘플 (205) 에 대한 분류 (320) 와 대응하는 타겟 라벨 (325) 사이의 교차 엔트로피 손실에 적어도 부분적으로 기초하여 손실 (330) 을 계산할 수 있다. 이 크로스-엔트로피 손실은 아래의 식 8 을 사용하여 계산될 수 있다.
식 8 에서, LXEnt(·) 는 교차-엔트로피 기준이고, C(·)는 타겟 피처들 에 대해 사용된 선형 분류자이고, yi 는 타겟 피처들 () 를 생성하는데 사용된 타겟 도메인 샘플 (205) 에 대한 라벨이다.
예시된 바와 같이, 정규화 손실 Lreg (태스크 피처들 (310) 및 포지티브 피처들 (230) 을 사용하여 계산됨) 및 태스크 손실 (타겟 라벨들 및 분류들을 사용하여 계산됨) 은 가중되고 결합되어 전체 손실 (330) 을 획득할 수 있으며, 이는 아래의 식 9 를 사용하여 정의될 수 있다.
식 9 에서 λreg는 각 손실 컴포넌트의 기여도를 조정하기 위한 가중치이다. 일 양태에서, 이 가중치는 구성가능한 하이퍼파라미터이다. 다른 양태에서, λreg 는 트레이닝가능 파라미터일 수 있다. 예를 들어, λreg 는 지수 감쇠를 사용하여 학습될 수 있고, Lft 로 정의될 수 있다.
Lft는 배치 또는 트레이닝 에포크에 대한 최종 손실을 획득하기 위해 주어진 배치에서 트레이닝 샘플들에 걸쳐 평균화될 수 있고, 그 다음, 그 손실은 그들 각각의 파라미터들을 업데이트하기 위해 (타겟 도메인 피처 추출기(305)) 및 C(·)(태스크 분류기 (315)) 에 걸쳐 역-전파될 수 있다. 일반적으로, 소스 도메인 피처 추출기 (120) 및 마스크 생성기 (215) 의 파라미터들은 타겟 도메인 피처 추출기 (305) 및 태스크 분류기 (315) 의 트레이닝 동안 업데이트되지 않는다.
트레이닝 샘플들 (205)이 타겟 도메인 피처 추출기 (305) 및 태스크 분류기 (315) 를 리파이닝하는데 사용된 후에, 타겟 피처 추출기 (305) 및 태스크 분류기 (315) 는 소스 도메인 피처 추출기 (120) 또는 마스크 생성기 (215) 의 사용 없이 타겟 도메인에 대한 새로운 입력 데이터를 분류하는데 사용될 수 있다. 유리하게는, 타겟 도메인 피처 추출기 (305) 는 많은 양의 소스 데이터를 사용하여 트레이닝된 소스 도메인 피처 추출기 (120) 로부터 인스턴스화되었기 때문에, 타겟 도메인 데이터만이 사용된 경우보다 더 정확도 및 다이버시티를 갖는 피처를 추출할 수 있다. 추가적으로, (랜덤하게 인스턴스화된 모델보다는) 트레이닝된 소스 도메인 피처 추출기로부터 시작함으로써, 타겟 도메인 피처 추출기의 트레이닝은 상당히 더 적은 계산 리소스들로 수행될 수 있고 더 적은 시간을 요구한다. 또한, 소스 도메인 피처 추출기 (120) 를 학습시키기 위해 자기-지도가 사용될 수 있기 때문에, 이는 비유사 도메인에 대해 잘 일반화될 수 있다. 또한, 타겟 도메인 샘플에 기초하여 마스크 생성기 (215) 를 트레이닝하고 사용함으로써, 소스 도메인 피처 추출기 (120) 는 타겟 도메인에 대해 구체적으로 튜닝될 수 있으며, 이는 모델의 결과적인 정확도를 상당히 증가시킨다.
트레이닝된 타겟 도메인 피처 추출기 및 분류기를 사용하기 위한 예시적인 워크플로우
도 4 는 타겟 도메인에 대한 트레이닝된 도메인 피처 추출기 (305) 및 분류기 (315) 를 사용하기 위한 일 예의 워크플로우 (400) 를 나타낸다.
이 예에서, 타겟 도메인 피처 추출기 (305) 및 태스크 분류기 (315) 는 타겟 도메인에서 하나 이상의 라벨링된 샘플을 사용하여 트레이닝되었다. 개념적 명확성을 위해 개별 컴포넌트들로서 도시되지만, 일부 양태들에서, 타겟 도메인 피처 추출기 (305) 및 태스크 분류기 (315) 는 단일 신경망 또는 다른 유형의 머신 러닝 모델을 사용하여 구현된다.
일단 타겟 도메인 피처 추출기 (305) 및 태스크 분류기 (315) 가 사용을 위해 트레이닝되고 배치되면, 타겟 도메인 데이터 (405) 는 타겟 도메인 피처 추출기 (305) 에 제공될 수 있다. 일반적으로, 타겟 도메인 데이터 (405) 는 (분류가 원하는 태스크라고 가정하여) 타겟 도메인에서의 분류를 위해 수신되거나 캡처되는 라벨링되지 않거나 분류되지 않은 입력 데이터이다. 예를 들어, 타겟 도메인이 의료 이미지에서 의료 이상을 분류하는 것이라면, 타겟 도메인 데이터 (405) 는 이러한 이상을 포함하거나 포함하지 않을 수 있는 하나 이상의 이미지 (예를 들어, x-선 또는 MRI 이미지) 를 포함할 수 있다.
타겟 도메인 피처 추출기 (305) 는 타겟 도메인 데이터 (405) 의 각각의 샘플을 프로세싱하여 피처들 (410) 의 대응하는 세트를 생성한다. 위에서 논의된 바와 같이, 피처들 (410) 의 이러한 세트는 (예를 들어, 벡터 또는 텐서에서) 수치 값들의 다차원 세트를 포함할 수 있다. 이들 피처들 (410) 은, 차례로, 입력 피처들 (410) 의 각각의 세트에 대한 분류 (415) 를 출력하는 태스크 분류기 (315) 에 제공된다. 예를 들어, 분류 (415) 는 타겟 도메인 데이터 (405) 를 타겟 도메인 내의 하나 이상의 클래스로 분류할 수 있다.
워크플로우 (400) 를 사용하여 분류 (415) 를 생성하는 것은 로서 표현될 수 있으며, 여기서 xte는 테스트 샘플 (예를 들어, 타겟 도메인 데이터 (405)) 이고, 는 타겟 도메인 피처 추출기 (305) 이고, C(·) 는 태스크 분류기 (315) 이다. 일부 양태들에서, 소프트맥스 (softmax) 연산은 개별 클래스 확률들을 획득하기 위해 의 출력에 사용될 수 있다. 이들 확률에 기초하여, 가장 개연성있는 클래스가 선택되고 입력 타겟 도메인 데이터 (405) 에 대한 분류 (415) 로서 출력될 수 있다.
타겟 도메인에 대한 머신 러닝 모델을 트레이닝하기 위한 일 예의 방법
도 5 는 타겟 도메인에 대한 머신 러닝 모델을 트레이닝 및 튜닝하기 위한 방법을 예시하는 일 예의 플로우 다이어그램 (500) 이다.
방법 (500) 은 트레이닝 시스템이 소스 도메인 샘플들 (예를 들어, 도 1 의 소스 도메인 샘플들 (105)) 의 세트를 사용하여 소스 도메인 피처 추출기 (예를 들어, 도 1-3 의 소스 도메인 피처 추출기 (120)) 를 트레이닝시키는 블록 (505) 에서 시작한다. 위에서 논의된 바와 같이, 소스 도메인 샘플들은 일반적으로 소스 도메인에 대한 트레이닝 데이터에 대응한다. 소스 도메인 샘플들은 연관된 라벨들을 가질 수 있거나 갖지 않을 수 있다.
소스 도메인 피처 추출기를 트레이닝하는 것은 일반적으로 소스 도메인 피처 추출기를 리파이닝하기 위해 소스 도메인 샘플들의 라벨들을 고려하지 않는 자기-지도 손실 함수를 사용하는 것을 포함한다. 적어도 하나의 양태에서, 자기-지도 손실 함수는, 위에서 논의된 바와 같이, 소스 도메인 샘플들 및 대응하는 증강 또는 변환된 샘플들의 세트에 기초하여 계산된 대조 손실 (예를 들어, 데이터의 세트들 사이의 대조에 기초하여 계산된 손실) 이다.
양태들에서, 소스 도메인 피처 추출기를 트레이닝하는 것은 확률적 경사 하강법 (stochastic gradient descent) 을 사용하여, 트레이닝 배치들의 세트를 사용하여, 기타 등등을 사용하여 수행될 수 있다. 소스 도메인 피처 추출기를 트레이닝하는 프로세스는 아래 도 6 을 참조하여 보다 구체적으로 설명한다.
블록 (510) 에서, 트레이닝 시스템은 소스 도메인 피처 추출기 및 타겟 도메인 샘플들 (예를 들어, 도 2-3 의 타겟 도메인 샘플들 (205)) 의 세트를 사용하여 마스크 생성기 (예를 들어, 도 2 의 마스크 생성기 (215)) 를 트레이닝한다. 타겟 도메인 샘플들은 일반적으로 타겟 도메인에 대한 라벨링된 트레이닝 데이터에 대응한다. 일부 양태들에서, 소스 및 타겟 도메인들이 일반적으로 유사한 태스크들에 관련될 수 있지만 (예를 들어, 둘 다 이미지들을 분류하는 것을 수반함), 소스 및 타겟 도메인들은 비교적 다이버전트할 수 있다. 즉, 입력 데이터의 분포는 실질적으로 도메인마다 상이할 수 있다. 또한, 각각의 도메인에 대한 관련 클래스는 완전히 오버랩되는 것은 아닐 수도 있다.
마스크 생성기는 타겟 도메인에 대한 모델들을 트레이닝할 때 소스 도메인 피처 추출기에 의해 출력된 특정 피처들을 선택하고 억제하는데 사용될 수 있는 (이진 마스크일 수 있거나, 이진 마스크로 변환될 수 있는) 출력 마스크를 생성한다. 위에서 논의된 바와 같이, 마스크 생성기의 사용은 모델이 타겟 도메인에 적응하는 것을 학습하는 것을 도울 수 있다. 양태들에서, 마스크 생성기를 트레이닝하는 것은 확률적 경사 하강법을 사용하여, 트레이닝 배치들의 세트를 사용하여, 기타 등등을 사용하여 수행될 수 있다. 마스크 생성기를 트레이닝하는 프로세스는 아래 도 7 을 참조하여 보다 구체적으로 설명한다.
블록 (515) 에서, 트레이닝 시스템은 타겟 도메인 피처 추출기 (예를 들어, 타겟 도메인 피처 추출기 (305)) 및 태스크 분류기 (예를 들어, 태스크 분류기 (315)) 를 인스턴스화한다. 일부 양태들에서, 타겟 도메인 피처 추출기는 소스 도메인 피처 추출기의 파라미터들을 사용하여 인스턴트화된다. 즉, 타겟 도메인 피처 추출기의 파라미터를 초기화하기 위해 랜덤 또는 의사 랜덤 값을 사용하는 대신, 소스 도메인 피처 추출기의 파라미터들을 사용할 수 있다. 위와 같이, 이는 더 적은 샘플들이 사용되기 때문에 타겟 도메인 피처 추출기를 트레이닝하는 데 필요한 시간 및 컴퓨팅 리소스들을 감소시킬 수 있다. 또한, 소스 피처 추출기로부터 적응시킴으로써, 랜덤 초기화로부터 트레이닝된 타겟 도메인 피처 추출기에 비해 타겟 도메인 피처 추출기의 정확도가 개선된다.
그 다음, 방법 (500) 은 블록 (520) 으로 계속되는데, 여기서 트레이닝 시스템은 라벨링된 타겟 도메인 샘플들을 사용하여 타겟 도메인 피처 추출기 및 분류기를 리파이닝 (또는 트레이닝) 한다. 일부 양태들에서, 시스템은 위에서 논의된 바와 같이, 타겟 도메인 피처 추출기 및/또는 분류기의 파라미터들을 리파이닝하는 것을 돕기 위해 마스크 생성기를 사용한다. 양태들에서, 타겟 도메인 피처 추출기 및 태스크 분류기를 트레이닝하는 것은 확률적 경사 하강법을 사용하여, 트레이닝 배치들의 세트를 사용하여, 기타 등등을 사용하여 수행될 수 있다. 타겟 도메인 피처 추출기 및 분류기를 트레이닝하는 프로세스는 아래 도 8 을 참조하여 보다 구체적으로 설명한다.
소스 도메인 피처 추출 모델을 트레이닝하기 위한 일 예의 방법
도 6 은 소스 도메인 피처 추출기를 트레이닝하기 위한 방법 (600) 의 일 예를 예시한 플로우 다이어그램이다. 일 양태에서, 방법 (600) 은 도 5 의 블록 (505) 에 대한 추가적인 세부사항을 제공한다.
방법 (600) 은 블록 (605) 에서 시작하며, 여기서 트레이닝 시스템이 소스 도메인 샘플을 수신한다. 위에서 논의된 바와 같이, 소스 도메인 샘플들은 일반적으로 소스 도메인에 대한 입력 데이터의 일부 형태이다. 소스 도메인 샘플은 트레이닝 시스템이 트레이닝 동안에 라벨들을 사용하지 않기 때문에 라벨 또는 분류를 포함할 수도 또는 포함하지 않을 수도 있다.
예를 들어, 이미지 분류 태스크에서 소스 도메인 샘플은 이미지를 포함할 수 있다. 유사하게, 음성 인식 또는 검증 태스크에 대해, 소스 도메인 샘플은 말하는 사용자의 오디오를 포함할 수 있다. 운전자 각성도 태스크의 경우, 소스 도메인 샘플은 운전자의 상태 (예를 들어, 눈 움직임, 머리 배향, 그립 등) 와 관련된 데이터를 포함할 수 있다.
블록 (610) 에서, 트레이닝 시스템은 소스 도메인 샘플에 기초하여 하나 이상의 증강된 샘플들 (예를 들어, 도 1 의 증강된 샘플들 (115), 또한 변환된 샘플들로 지칭됨) 을 생성한다. 일부 경우들에서, 증강 샘플(들)을 생성하는 것은 소스 도메인 샘플에 하나 이상의 변환 (예를 들어, 회전, 병진, 크롭 (crop), 부가적 노이즈, 컬러 변화, 반전 등등) 을 랜덤하게 또는 의사-랜덤하게 적용하는 것을 포함한다. 일 양태에서, 증강된 샘플들의 수 뿐만 아니라 변환들의 타입 및 스케일은 구성 가능한 하이퍼파라미터들을 사용하여 제어될 수 있다.
블록 (615) 에서, 트레이닝 시스템은 소스 도메인 피처 추출기를 사용하여 수신된 소스 도메인 샘플에 대한 소스 피처들의 텐서를 생성한다. 소스 피처 텐서는 다차원 텐서 또는 수치 값들의 벡터이며, 여기서 텐서의 각각의 차원은 각각의 피처에 대응한다. 일 양태에서, 피처 텐서의 사이즈 (예를 들어, 피처들의 수) 는 트레이닝 시스템의 구성가능한 하이퍼파라미터이다.
블록 (620) 에서, 트레이닝 시스템은 유사하게, 각각의 개개의 증강된 샘플에 대해, 각각의 세트의 증강된 피처들 (예를 들어, 도 1의 증강된 피처들(125)) 을 생성한다. 트레이닝 시스템은 소스 도메인 피처 추출기에 입력으로서 각각의 증강된 샘플을 제공함으로써 그렇게 한다. 양태들에서, 증강된 피처들의 세트의 사이즈 또는 차원은 소스 피처들의 사이즈 또는 차원과 매칭한다.
방법 (600) 은 그 후 블록 (625) 으로 계속되며, 여기서 트레이닝 시스템은 소스 피처(들) 및 증강 피처(들)에 기초하여 하나 이상의 손실 측정치들을 계산한다. 일부 양태들에서, 트레이닝 시스템은 소스 피처들 및 증강 피처들의 세트(들)를 사용하여 대조 손실을 계산한다. 예를 들어, 트레이닝 시스템은 수신된 소스 도메인 샘플에 기초하여 손실의 측정치를 계산하기 위해 (위의) 식 1 을 사용할 수 있다.
블록 (630) 에서, 트레이닝 시스템은 현재 배치가 완료되었는지 여부를 결정한다. 일반적으로, 각각의 배치의 사이즈는 구성가능한 하이퍼파라미터이다. 배치가 완성되지 않으면, 방법 (600) 은 블록 (605) 으로 리턴하여 다음 소스 도메인 샘플을 프로세싱한다.
블록 (630) 에서, 트레이닝 시스템이 현재 배치가 완성되었다고 결정하면, 방법 (600) 은 블록 (635) 으로 계속되고, 여기서 트레이닝 시스템은 계산된 손실에 기초하여 소스 도메인 피처 추출기의 하나 이상의 파라미터를 리파이닝한다. 예를 들어, 트레이닝 시스템은 (예를 들어, 손실들을 평균화함으로써) 배치 내의 각각의 소스 도메인 샘플에 대해 생성된 손실(들)에 기초하여 총 손실을 결정할 수 있다. 일부 양태들에서, 트레이닝 시스템은 모델의 내부 파라미터들을 리파이닝하기 위해 역전파 기술들을 사용함으로써 소스 도메인 피처 추출기를 리파이닝한다.
그 다음, 방법 (600) 은 블록 (640) 으로 계속되며, 여기서 트레이닝 시스템은 소스 도메인 피처 추출기의 트레이닝이 완료되었는지 여부를 결정한다. 다양한 양태들에서, 트레이닝 완료는 다양한 종료 기준을 사용하여 정의될 수 있다. 예를 들어, 종료 기준은 정의된 수의 배치 (batch) 또는 에포크 (epoch), 추출기를 트레이닝하는데 소모된 시간의 길이, 테스트 및/또는 검증 데이터에 대한 모델 정확도 등을 포함할 수 있다.
트레이닝이 완료되지 않으면, 방법 (600) 은 블록 (605) 으로 리턴하여 트레이닝의 다음 배치를 시작한다. 블록 (640) 에서, 트레이닝 시스템이 소스 도메인 피처 추출기의 트레이닝이 완료되었다고 결정하면, 방법 (600) 은 블록 (645) 에서 종료된다. 따라서, 일단 이 소스 도메인 피처 추출기가 소스 도메인에 대해 트레이닝되면, 이는 마스크 생성기를 트레이닝시키는 데 사용될 수 있고, 위에서 논의된 바와 같이 타겟 도메인 피처 추출기를 생성하도록 리파이닝될 수 있다.
타겟 도메인에 대한 마스크 생성기를 트레이닝하기 위한 일 예의 방법
도 7 은 마스크 생성기를 트레이닝하기 위한 방법 (700) 을 예시하는 일 예의 플로우 다이어그램이다. 일 양태에서, 방법 (700) 은 도 5 의 블록 (510) 에 대한 추가적인 세부사항을 제공한다.
방법 (700) 은 블록 (705) 에서 시작하며, 여기서 트레이닝 시스템이 타겟 도메인 샘플을 수신한다. 위에서 논의된 바와 같이, 타겟 도메인 샘플들은 일반적으로 타겟 도메인에 대한 입력 데이터의 일부 형태이다. 일 양태에서, 타겟 도메인 샘플은 라벨 또는 다른 분류와 연관된다.
예를 들어, 이미지 분류 도메인에서, 타겟 도메인 샘플은 이미지 및 이미지에 대한 정확한 클래스를 나타내는 대응하는 라벨을 포함할 수 있다. 유사하게, 음성 인식 또는 검증 도메인에 대해, 타겟 도메인 샘플은 말하는 사용자의 오디오뿐만 아니라, 스피커의 아이덴티티 (또는 스피커가 검증되는지 여부) 에 관한 라벨 또는 표시를 포함할 수 있다. 운전자 각성도 도메인에 대해, 타겟 도메인 샘플은 운전자의 상태 (예를 들어, 눈 움직임, 머리 배향, 그립 등) 와 관련된 데이터뿐만 아니라, 데이터가 수집되었을 때 운전자가 충분히 경고했는지에 대한 표시를 포함할 수 있다.
블록 (710) 에서, 트레이닝 시스템은 소스 도메인 피처 추출기를 사용하여 수신된 타겟 도메인 샘플에 대한 타겟 피처들의 세트를 생성한다. 일 양태에서, 타겟 피처들의 세트는 수치 값들의 다차원 텐서이고, 여기서 텐서에서의 각각의 차원은 개별적인 피처에 대응한다. 일부 경우들에서, 타겟 피처 텐서의 사이즈 (예를 들어, 피처들의 수)는 위에서 논의된 소스 피처들의 사이즈와 매칭하고, 트레이닝 시스템의 구성가능한 하이퍼파라미터이다.
블록 (715) 에서, 트레이닝 시스템은 타겟 피처들에 기초하여 마스크 (예를 들어, 도 2 의 220) 를 생성한다. 일 양태에서, 트레이닝 시스템은 타겟 피처들을 신경망일 수 있는 마스크 생성기에 입력으로서 제공함으로써 그렇게 한다. 마스크는 일반적으로 0부터 1까지의 범위의 값들의 세트이며, 여기서 마스크의 사이즈 또는 차원은 타겟 피처들의 사이즈 또는 차원과 매칭한다. 즉, 타겟 피처 세트에서의 차원 또는 각각의 피처에 대하여, 마스크에 대응하는 값들이 존재한다.
일부 양태들에서, 마스크는 이진 마스크를 생성하는데 사용될 수도 있다. 즉, 생성된 마스크는 0과 1 사이의 다양한 값들을 포함할 수 있지만, 트레이닝 시스템은 각각의 값에 대해 0 또는 1만을 포함하는 이진 마스크를 생성할 수 있다. 일부 양태들에서, 마스크를 이진 마스크로 변환하는 것은 각각의 값을 임계치와 비교하는 것 (예를 들어, 0.5 미만의 모든 값들을 0으로 설정하고 모든 다른 값들을 1 로 설정하는 것) 을 수반한다. 일부 양태들에서, 트레이닝 시스템은 (예를 들어, 위의 식 2 를 사용하여) 로지스틱 노이즈를 마스크에 추가하고, 이어서 각각의 차원에 대한 값들을 설정하기 위한 활성화 함수의 적용이 뒤따를 수 있다.
블록 (720) 에서, 트레이닝 시스템은 마스크 (예를 들어, 이진 마스크) 를 타겟 피처들에 적용함으로써 포지티브 피처들의 세트 (예를 들어, 도 2 의 230) 를 생성한다. 일 양태에서, 포지티브 피처들은, 위에서 논의된 바와 같이, 마스크와 타겟 피처들 사이의 엘리먼트-별 곱 (element-wise product) 을 계산함으로써 생성된다.
추가적으로, 블록 (725) 에서, 트레이닝 시스템은 (이진) 마스크를 타겟 피처들에 적용함으로써 네가티브 피처들의 세트 (예를 들어, 도 2 의 235) 를 생성한다. 일 양태에서, 네가티브 피처들은, 위에서 논의된 바와 같이, 마스크의 부정과 타겟 피처들 사이의 엘리먼트 별 곱을 계산함으로써 생성된다.
방법 (700) 은 블록 (730) 으로 계속되며, 여기서 트레이닝 시스템은 포지티브 피처(들) 및 네가티브 피처(들)에 기초하여 하나 이상의 손실 측정치들을 계산한다. 일부 양태들에서, 트레이닝 시스템은 포지티브 및 네거티브 피처들을 사용하여 3개의 손실 측정치들: 포지티브 피처들에 기초한 포지티브 손실, 네거티브 피처들에 기초한 네거티브 손실, 및 포지티브 및 네거티브 피처들에 기초한 다이버전트 손실을 계산한다.
적어도 하나의 양태에서, 트레이닝 시스템은 위의 식 3 을 사용하는 것과 같이, 하나 이상의 최소 크로스-엔트로피 기법들을 사용하여 포지티브 손실을 계산한다. 유사하게, 트레이닝 시스템은 위의 식 4 를 사용하는 것과 같이, 하나 이상의 최대 엔트로피 기법들을 사용하여 네가티브 손실을 계산할 수 있다. 유사하게, 트레이닝 시스템은 위의 식 5 를 사용하는 것과 같이, 하나 이상의 최대 평균 불일치 기법들을 사용하여 다이버전트 손실을 계산할 수 있다.
일부 양태들에서, 트레이닝 시스템은 그 후 개별 손실 측정치들을 애그리게이션함으로써 트레이닝 프로세스에 대한 전체 손실을 계산할 수 있다. 예를 들어, 트레이닝 시스템은 개별 손실 컴포넌트들을 함께 합산할 수 있다. 일부 양태들에서, 이 합은 (예를 들어, 위의 식 6 을 사용하여) 가중된 애그리게이트이며, 여기서 손실의 각각의 컴포넌트에 적용할 특정 가중치들은 트레이닝가능한 파라미터 또는 구성가능한 하이퍼파라미터일 수 있다.
블록 (735) 에서, 트레이닝 시스템은 현재 트레이닝 배치가 완성되었는지 여부를 결정할 수 있다. 일 양태에서, 각각의 배치의 사이즈는 구성가능한 하이퍼파라미터이다. 배치가 완성되지 않으면, 방법 (700) 은 블록 (705) 으로 리턴하여 다음 타겟 도메인 샘플을 프로세싱한다.
블록 (735) 에서, 트레이닝 시스템이 현재 배치가 완성되었다고 결정하면, 방법 (700) 은 블록 (740) 으로 계속되고, 여기서 트레이닝 시스템은 계산된 손실에 기초하여 마스크 생성기의 하나 이상의 파라미터들을 리파이닝한다. 예를 들어, 트레이닝 시스템은 (예를 들어, 손실들을 평균화함으로써) 배치 내의 각각의 타겟 도메인 샘플에 대해 생성된 손실(들)에 기초하여 총 손실을 결정할 수 있다. 일부 양태들에서, 트레이닝 시스템은 모델의 내부 파라미터들을 리파이닝하기 위해 역전파 기술들을 사용함으로써 소스 도메인 피처 추출기를 리파이닝한다. 위와 같이, 마스크 생성기가 리파이닝되는 동안, 소스 도메인 피처 추출 모델의 파라미터들은 변경되지 않은 채로 있을 수 있다.
그 다음, 방법 (700) 은 블록 (745) 으로 계속되며, 여기서 트레이닝 시스템은 마스크 생성기의 트레이닝이 완료되었는지 여부를 결정한다. 다양한 양태들에서, 트레이닝 완료는 다양한 종료 기준을 사용하여 정의될 수 있다. 예를 들어, 종료 기준은 정의된 수의 배치들 또는 에포크들, 마스크 생성기를 트레이닝하는데 소모된 시간의 길이, 임계 손실이 달성되는 등을 포함할 수 있다.
트레이닝이 완료되지 않으면, 방법 (700) 은 블록 (705) 으로 리턴하여 트레이닝의 다음 배치를 시작한다. 블록 (745) 에서, 트레이닝 시스템이 마스크 생성기의 트레이닝이 완료되었다고 결정하면, 방법 (700) 은 블록 (750) 에서 종료된다. 따라서, 일단 이 마스크 생성기가 타겟 도메인에 대해 트레이닝되면, 위에서 논의된 바와 같이, 타겟 도메인 피처 추출기를 생성하기 위해 소스 도메인 피처 추출기를 리파이닝하는 데 사용될 수 있다.
타겟 피처 추출 및 분류기 모델을 트레이닝하기 위한 일 예의 방법
도 8 은 타겟 도메인 피처 추출기 및 분류기를 트레이닝하기 위한 일 예의 방법 (800) 을 예시하는 플로우 다이어그램이다. 일 양태에서, 방법 (800) 은 도 5 의 블록 (520) 에 대한 추가적인 세부사항을 제공한다.
방법 (800) 은 블록 (805) 에서 시작하며, 여기서 트레이닝 시스템이 타겟 도메인 샘플을 수신한다. 위에서 논의된 바와 같이, 타겟 도메인 샘플들은 일반적으로 타겟 도메인에 대한 입력 데이터의 일부 형태이다. 일 양태에서, 타겟 도메인 샘플은 라벨 또는 다른 분류와 연관된다.
블록 (810) 에서, 트레이닝 시스템은 수신된 타겟 도메인 샘플에 대한 타겟 특징들의 세트를 생성하기 위해 소스 도메인 특징 추출기를 사용한다. 위에 논의된 바와 같이, 타겟 피처들의 세트는 수치 값들의 다차원 텐서일 수도 있고, 여기서 텐서에서의 각각의 차원은 개별적인 피처에 대응한다.
블록 (815) 에서, 트레이닝 시스템은 마스크 생성기를 사용하여 타겟 피처들을 프로세싱하는 것에 의해 마스크를 생성한다. 양태들에서, 생성된 마스크는 0 내지 1 범위의 값들의 세트일 수 있거나, 또는 (연속적인 마스크에 기초하여 생성될 수 있는) 이진 마스크일 수 있다.
그 다음, 방법 (800) 은 블록 (820) 으로 계속되며, 여기서 트레이닝 시스템은 생성된 타겟 피처들에 (이진) 마스크를 적용함으로써 포지티브 피처들의 세트를 생성한다. 위에서 논의된 바와 같이, 이는 위에서 논의된 바와 같이, (이진) 마스크와 타겟 피처들 사이의 엘리먼트-별 곱을 계산함으로써 수행될 수 있다.
블록 (825) 에서, 트레이닝 시스템은 타겟 도메인 샘플을 사용하여 태스크 피처들의 세트를 생성한다. 태스크 피처들은 타겟 도메인 피처 추출기를 사용하여 타겟 도메인 샘플을 프로세싱함으로써 생성된다. 일부 양태들에서, 타겟 도메인 피처 추출기는 (트레이닝된) 소스 도메인 피처 추출기의 파라미터들을 사용하여 초기화된다. 초기에, 타겟 도메인 피처 추출기는 소스 도메인 피처 추출기와 정렬되고 출력들은 동일 (또는 유사)할 것이다. 그러나, 트레이닝이 진행되고 타겟 도메인 피처 추출기의 파라미터들이 타겟 도메인에 대해 리파이닝됨에 따라 (소스 도메인 피처 추출기의 파라미터들이 고정된 상태로 유지되는 동안), 그들의 출력들이 다이버즈할 것이다.
블록 (830) 에서, 트레이닝 시스템은 위에서 논의된 바와 같이, 태스크 분류기를 사용하여 생성된 태스크 피처들을 분류한다. 방법 (800) 은 그후, 블록 (835) 에서 계속한다.
블록 (835) 에서, 트레이닝 시스템은 생성된 태스크 피처(들) 및 포지티브 피처(들)의 세트에 기초하여 하나 이상의 손실 측정치들을 계산한다. 이 손실 컴포넌트는 생성된 마스크에 의해 선택된 피처들에 기초하여 타겟 도메인 피처 추출기를 정규화하기 위해 사용될 수 있다. 마스크 생성기가 타겟 도메인 샘플들을 사용하여 트레이닝됨에 따라, 타겟 도메인 피처 추출기는 그에 의해 타겟 도메인에 적응된다. 적어도 하나의 양태에서, 트레이닝 시스템은 위의 식 7 을 사용하는 것과 같이, 하나 이상의 거리 기법을 사용하여 피처 손실을 계산한다.
블록 (840) 에서, 트레이닝 시스템은 타겟 도메인 샘플에 대해 생성된 태스크 피처(들) 및 생성된 분류(들)에 기초하여 하나 이상의 손실 측정치를 유사하게 계산할 수 있다. 적어도 하나의 양태에서, 트레이닝 시스템은 위의 식 8 을 사용하는 것과 같이, 하나 이상의 최소 크로스-엔트로피 기법들을 사용하여 이 태스크 손실을 계산한다.
일부 양태들에서, 트레이닝 시스템은 그 후 개별 손실 측정치들을 애그리게이션함으로써 트레이닝 프로세스에 대한 전체 손실을 계산할 수 있다. 예를 들어, 트레이닝 시스템은 개별 손실 컴포넌트들을 함께 합산할 수 있다. 일부 양태들에서, 이 합은 (예를 들어, 위의 식 9 를 사용하여) 가중된 애그리게이트이며, 여기서 손실의 각각의 컴포넌트에 적용할 특정 가중치들은 트레이닝가능한 파라미터 또는 구성가능한 하이퍼파라미터일 수 있다.
블록 (845) 에서, 트레이닝 시스템은 현재 배치가 완성되었는지 여부를 결정한다. 일 양태에서, 각각의 배치의 사이즈는 구성가능한 하이퍼파라미터이다. 배치가 완성되지 않으면, 방법 (800) 은 블록 (805) 으로 리턴하여 다음 타겟 도메인 샘플을 프로세싱한다.
블록 (845) 에서, 트레이닝 시스템이 현재 배치가 완성되었다고 결정하면, 방법 (800) 은 블록 (850) 으로 계속되고, 여기서 트레이닝 시스템은 계산된 손실에 기초하여 태스크 분류기 및 타겟 도메인 피처 추출기의 하나 이상의 파라미터들을 리파이닝한다. 예를 들어, 트레이닝 시스템은 (예를 들어, 손실들을 평균화함으로써) 배치 내의 각각의 타겟 도메인 샘플에 대해 생성된 손실(들)에 기초하여 총 손실을 결정할 수 있다. 일부 양태들에서, 트레이닝 시스템은 모델들의 내부 파라미터들을 리파이닝하기 위해 역전파 기술들을 사용함으로써 태스크 분류기 및 타겟 도메인 피처 추출기를 리파이닝한다. 양태들에서, 타겟 도메인 피처 추출기 및 태스크 분류기가 리파이닝되는 동안, 소스 도메인 피처 추출 모델 및 마스크 생성기의 파라미터들은 고정된다.
그 다음, 방법 (800) 은 블록 (855) 으로 계속되며, 여기서 트레이닝 시스템은 타겟 도메인 피처 추출기 및 태스크 분류기의 트레이닝이 완료되었는지 여부를 결정한다. 다양한 양태들에서, 트레이닝 완료는 다양한 종료 기준을 사용하여 정의될 수 있다. 예를 들어, 종료 기준은 정의된 수의 배치들 또는 에포크들, 모델들을 트레이닝하는데 소모된 시간의 길이 등을 포함할 수 있다.
트레이닝이 완료되지 않으면, 방법 (800) 은 블록 (805) 으로 리턴하여 트레이닝의 다음 배치를 시작한다. 블록 (855) 에서, 트레이닝 시스템이 태스크 분류기 및 타겟 도메인 피처 추출기의 트레이닝이 완료되었다고 결정하면, 방법 (800) 은 블록 (860) 에서 종료된다. 이어서, 타겟 도메인 피처 추출기 및 태스크 분류기는, 앞서 논의된 바와 같이, 타겟 도메인에 대한 새로운 입력 데이터를 분류하는데 사용될 수 있다.
타겟 도메인에 대한 머신 러닝 모델을 트레이닝하기 위한 일 예의 방법
도 9 는 본 명세서에서 개시된 일부 양태들에 따라 타겟 도메인에서의 입력 데이터를 분류하기 위해 타겟 도메인 피처 추출 모델을 사용하기 위한 방법 (900) 을 예시하는 플로우 다이어그램이다.
방법 (900) 은 블록 (905) 에서 시작하며, 여기서 추론 시스템이 타겟 도메인에서의 입력 데이터를 수신한다. 일부 양태들에서, 추론 시스템은 트레이닝된 타겟 모델들 (예를 들어, 도 1-3 및 도 5-8을 참조하여 위에서 논의된 트레이닝 시스템에 의해 트레이닝됨) 을 사용하는 개별 시스템이다. 다른 양태들에서, 추론 및 트레이닝은 단일 시스템 또는 디바이스를 사용하여 수행될 수 있다. 일반적으로, 입력 데이터는 분류를 위해 수신되거나 수집되는 (도 4의 타겟 도메인 데이터 (405) 와 같은) 라벨링되지 않은 데이터에 대응한다.
블록 (910) 에서, 추론 시스템은 타겟 도메인 피처 추출기를 사용하여 입력 데이터에 대한 피처들의 세트를 생성한다. 예를 들어, 추론 시스템은 도 1-3 및 5-8 을 참조하여 위에서 논의된 기술들을 사용하여 트레이닝되고 튜닝된 타겟 도메인 피처 추출기를 사용하여 입력 데이터를 프로세싱할 수 있다.
블록 (915) 에서, 추론 시스템은 태스크 분류기를 사용하여 생성된 피처들의 세트를 분류할 수 있다. 예를 들어, 추론 시스템은 도 1-3 및 도 5-8 을 참조하여 위에서 논의된 기술들을 사용하여 트레이닝된 태스크 분류기를 사용하여 피처들의 세트를 프로세싱할 수 있다.
블록 (920) 에서, 추론 시스템은 입력 데이터에 대해 생성된 분류(들)를 리턴한다. 이러한 방식으로, 추론 시스템은 타겟 도메인의 모델들을 사용할 수 있으며, 여기서 모델들은 소스 도메인에서 트레이닝되었고 타겟 도메인에 적응되어 분류들을 생성한다. 이는 타겟 도메인에서 트레이닝 샘플에 대한 필요성이 감소되면서 더 정확한 분류를 가능하게 함으로써 모델 및 추론 시스템의 기능을 향상시킨다.
타겟 도메인에 대한 머신 러닝 모델을 트레이닝하기 위한 일 예의 방법
도 10 은 본 명세서에서 개시된 일부 양태들에 따라 타겟 도메인 피처 추출 모델 (예를 들어, 도 3 에서 305) 을 트레이닝하기 위한 방법 (1000) 을 예시하는 플로우 다이어그램이다.
방법 (1000) 은 블록 (1005) 에서 시작하며, 여기서 트레이닝 시스템이 소스 데이터 세트에 기초하여 소스 도메인 피처 추출 모델을 트레이닝한다.
일부 양태들에서, 소스 도메인 피처 추출 모델은 자기-지도 손실 함수를 사용하여 트레이닝된다. 일부 양태들에서, 자기-지도 손실 함수는 대조 손실 함수를 포함한다.
일부 양태들에서, 방법 (1000) 은 소스 데이터 세트의 하나 이상의 샘플에 대해 하나 이상의 변환을 수행하는 것에 의해 소스 데이터 세트를 증강시키는 단계를 더 포함한다. 추가적으로, 일부 양태들에서, 대조 손실 함수는 위의 식 1 을 포함한다.
블록 (1010) 에서, 트레이닝 시스템은 타겟 데이터 세트에 기초하여 마스크 생성 모델 (예를 들어, 도 2 의 215) 을 트레이닝하고, 여기서 마스크 생성 모델은 트레이닝된 소스 도메인 피처 추출 모델로부터의 출력을 입력으로서 취한다.
일부 양태들에서, 마스크 생성 모델을 트레이닝하는 단계는 타겟 데이터 세트 및 마스크 생성 모델에 기초하여 포지티브 피처들의 세트를 생성하는 단계, 및 타겟 데이터 세트 및 마스크 생성 모델에 기초하여 네거티브 피처들의 세트를 생성하는 단계를 포함한다.
추가적으로, 일부 양태들에서, 방법 (1000) 은 마스크 생성 모델을 사용하여 마스크들의 세트 (예를 들어, 도 2 에서의 220) 를 생성하는 단계, 및 마스크들의 세트에 기초하여 이진 마스크들의 세트를 생성하는 단계를 더 포함한다. 일부 양태들에서, 마스크들의 세트에 기초하여 이진 마스크들의 세트를 생성하는 단계는 마스크들의 세트에 비선형 활성화 함수를 적용하여 마스크들의 세트에 로지스틱 노이즈를 추가하는 단계를 포함한다. 적어도 하나의 양태에서, 비선형 활성화 함수는 시그모이드 함수를 포함한다.
일부 양태들에서, 마스크 생성 모델은 포지티브 피처들의 세트에 기초하여 크로스-엔트로피 손실 컴포넌트를 포함하는 손실 함수를 사용하여 트레이닝된다. 추가적으로, 일부 양태들에서, 손실 함수는 네가티브 피처들의 세트에 기초한 최대 엔트로피 손실 컴포넌트를 더 포함한다. 또한, 일부 양태들에서, 손실 함수는 포지티브 피처들의 세트 및 네가티브 피처들의 세트에 기초한 다이버전트 손실 컴포넌트를 더 포함한다.
일부 양태들에서, 손실 함수는 크로스-엔트로피 손실 컴포넌트에 대한 제 1 가중 파라미터, 최대 엔트로피 손실 컴포넌트에 대한 제 2 가중 파라미터, 및 다이버전트 손실 컴포넌트에 대한 제 3 가중 파라미터를 더 포함한다.
블록 (1015) 에서, 트레이닝 시스템은 소스 도메인 피처 추출 모델에 기초하여 타겟 도메인 피처 추출 모델 (예를 들어, 도 3 의 305) 을 생성한다. 일부 양태들에서, 타겟 도메인 피처 추출 모델은 신경망 모델을 포함한다.
블록 (1020) 에서, 트레이닝 시스템은 마스크 생성 모델 및 타겟 데이터 세트를 사용하여 타겟 도메인 피처 추출 모델을 튜닝한다.
일부 양태들에서, 타겟 도메인 피처 추출 모델은 정규화 손실 컴포넌트를 포함하는 손실 함수를 사용하여 트레이닝된다. 적어도 하나의 양태에서, 정규화 손실 컴포넌트는 유클리드 거리 함수 (Euclidean distance function) 를 포함한다. 추가적으로, 일부 양태들에서, 손실 함수는 교차 엔트로피 손실 컴포넌트를 더 포함한다.
일부 양태들에서, 주어진 샘플에 대해, 크로스-엔트로피 손실 컴포넌트는 주어진 샘플에 기초하여 마스크 생성 모델에 의해 생성된 포지티브 피처 및 주어진 샘플에 기초하여 선형 분류 모델에 의해 생성된 분류 출력에 기초하여 크로스-엔트로피 손실 값을 생성하도록 구성된다.
적어도 하나의 양태에서, 손실 함수는 정규화 손실 컴포넌트에 대한 가중 파라미터를 더 포함한다.
일부 양태들에서, 방법 (1000) 은 타겟 도메인 피처 추출 모델을 사용하여 추론을 생성하는 단계를 더 포함한다.
적응성 머신 러닝을 위한 일 예의 시스템
일부 양태들에서, 도 1-10 과 관련하여 설명된 방법들 및 워크플로우들은 하나 이상의 디바이스 상에서 수행될 수 있다. 예를 들어, 트레이닝 및 추론은 단일 디바이스에 의해 수행되거나 다수의 디바이스들에 걸쳐 분산될 수도 있다. 종종 모델은 강력한 컴퓨팅 디바이스 상에서 트레이닝된 다음 추론을 수행하기 위해 다른 덜 강력한 디바이스들 (예를 들어, 모바일 디바이스들) 에 배치될 것이다.
도 11 은, 예를 들어, 도 1-10 과 관련하여 설명된 방법들을 포함하는, 본원에 설명된 여러 방법들의 양태들을 수행하도록 구성될 수도 있는 프로세싱 시스템 (1100) 을 예시하는 블록도를 도시한다.
프로세싱 시스템 (1100) 은 일부 예에서 멀티 코어 CPU일 수도 있는 중앙 프로세싱 유닛 (CPU) (1102) 을 포함한다. CPU (1102) 에서 실행된 명령들은, 예를 들어, CPU (1102) 와 연관된 프로그램 메모리로부터 로딩될 수도 있거나, 또는 메모리 (1114) 로부터 로딩될 수도 있다.
프로세싱 시스템 (1100) 은 또한 그래픽 프로세싱 유닛 (GPU) (1104), 디지털 신호 프로세서 (DSP) (1106) 및 신경 프로세싱 유닛 (NPU)(1110) 과 같은 특정 기능에 맞춰진 추가 프로세싱 컴포넌트를 포함한다.
도 11 에 도시되지 않았지만, NPU (1110) 는 CPU (1102), GPU (1104), 및/또는 DSP (1106) 중 하나 이상의 일부로서 구현될 수도 있다.
프로세싱 시스템 (1100) 은 또한 입력/출력 (1108) 을 포함한다. 일부 양태들에서, 입력/출력 (1108) 은, 프로세싱 시스템 (1100) 이 네트워크 (이를테면, 인터넷) 를 통하여 하나 이상의 다른 디바이스들 또는 시스템들에 커플링될 수 있게 하는 하나 이상의 네트워크 인터페이스들을 포함할 수 있다.
예시된 양태에 포함되지 않지만, 프로세싱 시스템 (1100) 은 또한 스크린들, 물리적 버튼들, 스피커들, 마이크로폰들 등과 같은 하나 이상의 추가적인 입력 및/또는 출력 디바이스들 (1108) 을 포함할 수도 있다.
프로세싱 시스템 (1100) 은 또한 동적 랜덤 액세스 메모리, 플래시 기반 정적 메모리 등과 같은 하나 이상의 정적 및/또는 동적 메모리를 나타내는 메모리 (1114) 를 포함한다. 이 예에서, 메모리 (1114) 는 처리 시스템 (1100) 의 전술한 프로세서들 중 하나 이상에 의해 실행될 수 있는 컴퓨터 실행 가능 컴포넌트들을 포함한다.
이 예에서, 메모리 (1114) 는 증강 컴포넌트 (110), 소스 도메인 피처 추출기 (120), 손실 컴포넌트 (135), 마스크 생성기 (215), 타겟 도메인 피처 추출기 (305), 및 태스크 분류기 (315) 를 포함한다. 도시된 컴포넌트들 및 도시되지 않은 다른 컴포넌트들은 본 명세서에서 설명된 방법들의 다양한 양태들을 수행하도록 구성될 수도 있다. 메모리 (1114) 는 또한 위에서 논의된 바와 같이, 소스 도메인 샘플들 (105) 및 타겟 도메인 샘플들 (205) 의 세트를 포함한다.
일 예의 항들
항 1: 방법은: 소스 데이터 세트에 기초하여 소스 도메인 피처 추출 모델을 트레이닝하는 단계; 타겟 데이터 세트에 기초하여 마스크 생성 모델을 트레이닝하는 단계 - 마스크 생성 모델은 트레이닝된 소스 도메인 피처 추출 모델로부터의 출력을 입력으로서 취함 -; 소스 도메인 피처 추출 모델에 기초하여 타겟 도메인 피처 추출 모델을 생성하는 단계; 및 마스크 생성 모델 및 타겟 데이터 세트를 사용하여 타겟 도메인 피처 추출 모델을 튜닝하는 단계를 포함한다.
항 2: 항 1 의 방법에서, 소스 도메인 피처 추출 모델은 자기-지도 손실 함수를 사용하여 트레이닝된다.
항 3: 항 1-2 의 어느 하나의 방법에서, 자기-지도 손실 함수는 대조 손실 함수를 포함한다.
항 4: 항 1-3 의 어느 하나의 방법에서, 소스 데이터 세트의 하나 이상의 샘플들에 대해 하나 이상의 변환들을 수행하는 것에 의해 소스 데이터 세트를 증강시키는 단계를 더 포함한다.
항 5: 항 1-4 의 어느 하나의 방법에서, 대조 손실 함수는 을 포함하고; 식에서, 는 소스 도메인 피처 추출 모델이고, d(·) 는 거리 메트릭이고, Nb는 소스 데이터 세트의 배치 사이즈이고, Nt 는 증강들의 수이고, x k 는 소스 데이터 세트의 오리지널 샘플이고, x ij는 소스 데이터 세트의 변환된 샘플이다.
항 6: 항 1-5 의 어느 하나의 방법에서, 마스크 생성 모델을 트레이닝하는 단계는 타겟 데이터 세트 및 마스크 생성 모델에 기초하여 포지티브 피처들의 세트를 생성하는 단계, 및 타겟 데이터 세트 및 마스크 생성 모델에 기초하여 네거티브 피처들의 세트를 생성하는 단계를 포함한다.
항 7: 항 1-6 의 어느 하나의 방법은, 마스크 생성 모델을 사용하여 마스크들의 세트를 생성하는 단계; 및 마스크들의 세트에 기초하여 이진 마스크들의 세트를 생성하는 단계를 더 포함한다.
항 8: 항 1-7 의 어느 하나의 방법에서, 마스크들의 세트에 기초하여 이진 마스크들의 세트를 생성하는 단계는 마스크들의 세트에 로지스틱 노이즈를 추가하는 단계; 및 마스크들의 세트에 비선형 활성화 함수를 적용하는 단계를 포함한다.
항 9: 항 1-8 의 어느 하나의 방법에서, 비선형 활성화 함수는 시그모이드 함수를 포함한다.
항 10: 항 1-9 의 어느 하나의 방법에서, 마스크 생성 모델은 포지티브 피처들의 세트에 기초하여 크로스-엔트로피 손실 컴포넌트를 포함하는 손실 함수를 사용하여 트레이닝된다.
항 11: 항 1-10 의 어느 하나의 방법에서, 손실 함수는 네가티브 피처들의 세트에 기초한 최대 엔트로피 손실 컴포넌트를 더 포함한다.
항 12: 항 1-11 의 어느 하나의 방법에서, 손실 함수는 포지티브 피처들의 세트 및 네가티브 피처들의 세트에 기초한 다이버전트 손실 컴포넌트를 더 포함한다.
항 13: 항 1-12 의 어느 하나의 방법에서, 손실 함수는 크로스-엔트로피 손실 컴포넌트에 대한 제 1 가중 파라미터, 최대 엔트로피 손실 컴포넌트에 대한 제 2 가중 파라미터, 및 다이버전트 손실 컴포넌트에 대한 제 3 가중 파라미터를 더 포함한다.
항 14: 항 1-13 의 어느 하나의 방법에서, 타겟 도메인 피처 추출 모델은 정규화 손실 컴포넌트를 포함하는 손실 함수를 사용하여 트레이닝된다.
항 15: 항 1-14 의 어느 하나의 방법에서, 정규화 손실 컴포넌트는 유클리드 거리 함수 (Euclidean distance function) 를 포함한다.
항 16: 항 1-15 의 어느 하나의 방법에서, 손실 함수는 크로스-엔트로피 손실 컴포넌트를 더 포함한다.
항 17: 항 1-16 의 어느 하나의 방법에서, 주어진 샘플에 대해, 크로스-엔트로피 손실 컴포넌트는 주어진 샘플에 기초하여 마스크 생성 모델에 의해 생성된 포지티브 피처 및 주어진 샘플에 기초하여 선형 분류 모델에 의해 생성된 분류 출력에 기초하여 크로스-엔트로피 손실 값을 생성하도록 구성된다.
항 18: 항 1-17 의 어느 하나의 방법에서, 손실 함수는 정규화 손실 컴포넌트에 대한 가중 파라미터를 더 포함한다.
항 19: 항 1-18 의 어느 하나의 방법에서, 타겟 도메인 피처 추출 모델은 신경망 모델을 포함한다.
항 20: 항 1-19 의 어느 하나의 방법은, 타겟 도메인 피처 추출 모델을 사용하여 추론을 생성하는 단계를 더 포함한다.
항 21: 방법은: 소스 데이터 세트 상에서 트레이닝된 소스 도메인 피처 추출 모델로부터 타겟 도메인 피처 추출 모델을 튜닝하는 단계를 포함하고, 여기서 튜닝은 타겟 데이터 세트 상에서 트레이닝되는 마스크 생성 모델을 사용하여 수행되고, 튜닝은 타겟 데이터 세트를 사용하여 수행된다.
항 22: 항 21 의 방법은 항들 2-20 의 어느 하나를 더 포함한다.
항 23: 시스템은, 컴퓨터 실행가능 명령들을 포함하는 메모리; 및 컴퓨터 실행가능 명령들을 실행하고 프로세싱 시스템으로 하여금 항들 1-22 중 어느 하나에 따른 방법을 수행하게 하도록 구성된 하나 이상의 프로세서들을 포함한다.
항 24: 컴퓨터 실행가능 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체로서, 컴퓨터 실행가능 명령들은, 프로세싱 시스템의 하나 이상의 프로세서들에 의해 실행될 경우, 프로세싱 시스템으로 하여금 항들 1-22 중 어느 하나에 따른 방법을 수행하게 한다.
항 25: 컴퓨터 판독가능 저장 매체 상에 수록된 컴퓨터 프로그램 제품은 항들 1-22 중 어느 하나에 따른 방법을 수행하기 위한 코드를 포함한다.
추가적인 고려사항들
전술한 설명은 당업자로 하여금 본 명세서에서 설명된 다양한 양태들을 실시할 수 있게 하도록 제공된다. 본 명세서에서 논의된 예들은 청구항들에 기재된 범위, 적용가능성, 또는 양태들을 한정하는 것은 아니다. 이들 양태들에 대한 다양한 수정들은 당업자에게 용이하게 자명할 것이며, 본 명세서에서 정의된 일반적인 원리들은 다른 양태들에 적용될 수도 있다. 예를 들어, 본 개시의 범위로부터 일탈함없이 논의된 엘리먼트들의 기능 및 배열에 있어서 변경들이 행해질 수도 있다. 다양한 예들은 다양한 절차들 또는 컴포넌트들을 적절하게 생략, 치환, 또는 추가할 수도 있다. 예를 들어, 설명된 방법들은 설명된 것과 상이한 순서로 수행될 수도 있으며, 다양한 단계들이 추가, 생략, 또는 결합될 수도 있다. 또한, 일부 예들에 관하여 설명된 특징들은 기타 예들에서 결합될 수도 있다. 예를 들어, 본 명세서에 기술된 임의의 수의 양태들을 이용하여 장치가 구현될 수도 있거나 또는 방법이 실시될 수도 있다. 또한, 본 개시의 범위는 여기에 제시된 본 개시의 다양한 양태들 외에 또는 이에 추가하여 다른 구조, 기능성, 또는 구조 및 기능성을 이용하여 실시되는 그러한 장치 또는 방법을 커버하도록 의도된다. 본 명세서에 개시된 개시의 임의의 양태는 청구항의 하나 이상의 요소에 의해 구체화될 수도 있다는 것이 이해되어야 한다.
본 명세서에서 사용된 바와 같이, 단어 "예시적인" 은 "예, 실례, 또는 예시로서 작용함" 을 의미하도록 사용된다. 본 명세서에서 "예시적인" 것으로서 설명된 임의의 양태가 반드시 다른 양태들에 비해 유리하거나 또는 바람직한 것으로서 해석되어야 하는 것은 아니다.
본원에 사용된, 항목들의 리스트 "중 적어도 하나" 를 나타내는 어구는, 단일 멤버들을 포함한 그러한 아이템들의 임의의 조합을 나타낸다. 일 예로서, "a, b, 또는 c 중 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 뿐 아니라 동일한 엘리먼트의 배수들과의 임의의 조합 (예컨대, a-a, a-a-a, a-a-b, a-a-c, a-b-b, a-c-c, b-b, b-b-b, b-b-c, c-c, 및 c-c-c 또는 a, b, 및 c 의 임의의 다른 오더링) 을 커버하도록 의도된다.
본원에서 이용되는 바와 같이, 용어 "결정하는" 은 매우 다양한 액션들을 망라한다. 예를 들어, "결정하는 것" 은 계산하는 것, 컴퓨팅하는 것, 프로세싱하는 것, 도출하는 것, 조사하는 것, 룩업하는 것 (예를 들어, 표, 데이터베이스 또는 다른 데이터 구조에서 룩업하는 것), 확인하는 것 등을 포함할 수도 있다. 또한, "결정하는 것" 은 수신하는 것 (예를 들어, 정보를 수신하는 것), 액세스하는 것 (예를 들어, 메모리 내 데이터에 액세스하는 것) 등을 포함할 수도 있다. 또한, "결정하는 것" 은 해결하는 것, 선택하는 것, 선출하는 것, 확립하는 것 등을 포함할 수도 있다.
본 명세서에 개시된 방법들은 그 방법들을 달성하기 위한 하나 이상의 단계 또는 액션들을 포함한다. 그 방법 단계들 및/또는 액션들은 청구항들의 범위로부터 일탈함 없이 서로 상호교환될 수도 있다. 즉, 단계들 또는 액션들의 특정 순서가 명시되지 않으면, 특정 단계들 및/또는 액션들의 순서 및/또는 사용은 청구항들의 범위로부터 일탈함이 없이 수정될 수도 있다. 또한, 설명된 다양한 방법 동작들은 대응하는 기능들을 수행 가능한 임의의 적합한 수단에 의해 수행될 수도 있다. 그 수단은, 회로, 주문형 집적 회로 (ASIC), 또는 프로세서를 포함하지만 이들에 제한되지는 않는 다양한 하드웨어 및/또는 소프트웨어 컴포넌트(들) 및/또는 모듈(들)을 포함할 수도 있다. 일반적으로, 도면들에 예시된 동작들이 있는 경우에, 그 동작들은 유사한 넘버링을 가진 대응하는 상대의 기능식 (means-plus-function) 컴포넌트들을 가질 수도 있다.
다음의 청구항들은 본 명세서에 나타낸 양태들로 한정되도록 의도되지 않지만, 청구항들의 언어와 부합하는 전체 범위를 부여받아야 한다. 청구항 내에서, 단수로의 엘리먼트에 대한 언급은, 구체적으로 그렇게 서술되지 않는 한 "하나 및 오직 하나"를 의미하도록 의도되지 않고 오히려 "하나 이상"을 의미하도록 의도된다. 명확하게 달리 서술되지 않으면, 용어 "일부" 는 하나 이상을 지칭한다. 어떠한 청구항 엘리먼트도 그 엘리먼트가 어구 "~하는 수단"을 사용하여 명백하게 기재되지 않는다면, 또는 방법 청구항의 경우, 그 엘리먼트가 어구 "~하는 단계"를 사용하여 기재되지 않는다면, 35 U.S.C.§112(f) 의 규정 하에서 해석되지 않아야 한다. 당업자에게 공지되거나 나중에 공지되게 될 본 개시 전반에 걸쳐 설명된 다양한 양태들의 엘리먼트들에 대한 모든 구조적 및 기능적 균등물들은 본 명세서에 참조에 의해 명백히 통합되며 청구항들에 의해 포괄되도록 의도된다. 더욱이, 본 명세서에 개시된 어떤 것도, 그러한 개시가 청구항들에 명시적으로 기재되는지 여부와 무관하게 공중에 전용되도록 의도되지 않는다.

Claims (29)

  1. 방법으로서,
    소스 데이터 세트에 대해 트레이닝된 소스 도메인 피처 추출 모델을 사용하여 타겟 도메인 피처 추출 모델을 튜닝하는 단계를 포함하고,
    상기 튜닝하는 단계는 타겟 데이터 세트에 대해 트레이닝된 마스크 생성 모델을 사용하여 수행되고,
    상기 튜닝하는 단계는 상기 타겟 데이터 세트를 사용하여 수행되는, 방법.
  2. 제 1 항에 있어서,
    상기 소스 도메인 피처 추출 모델은 자기-지도 손실 함수를 사용하여 트레이닝되는, 방법.
  3. 제 2 항에 있어서,
    상기 자기-지도 손실 함수는 대조 손실 함수를 포함하는, 방법.
  4. 제 3 항에 있어서,
    상기 소스 데이터 세트의 하나 이상의 샘플들에 대해 하나 이상의 변환들을 수행하는 것에 의해 상기 소스 데이터 세트를 증강시키는 단계를 더 포함하는, 방법.
  5. 제 1 항에 있어서,
    상기 마스크 생성 모델을 트레이닝하는 것은:
    상기 타겟 데이터 세트 및 상기 마스크 생성 모델에 기초하여 포지티브 피처들의 세트를 생성하는 것; 및
    상기 타겟 데이터 세트 및 상기 마스크 생성 모델에 기초하여 네가티브 피처들의 세트를 생성하는 것을 포함하는, 방법.
  6. 제 5 항에 있어서,
    상기 마스크 생성 모델을 사용하여 마스크들의 세트를 생성하는 단계; 및
    상기 마스크들의 세트에 기초하여 이진 마스크들의 세트를 생성하는 단계를 더 포함하는, 방법.
  7. 제 6 항에 있어서,
    상기 마스크들의 세트에 기초하여 상기 이진 마스크들의 세트를 생성하는 단계는:
    로지스틱 노이즈를 상기 마스크들의 세트에 추가하는 단계; 및
    상기 마스크들의 세트에 비선형 활성화 함수를 적용하는 단계를 포함하는, 방법.
  8. 제 7 항에 있어서,
    상기 비선형 활성화 함수는 시그모이드 함수를 포함하는, 방법.
  9. 제 5 항에 있어서,
    상기 마스크 생성 모델은 포지티브 피처들의 세트에 기초하여 크로스-엔트로피 손실 컴포넌트를 포함하는 손실 함수를 사용하여 트레이닝되는, 방법.
  10. 제 9 항에 있어서,
    상기 손실 함수는 네가티브 피처들의 세트에 기초한 최대 엔트로피 손실 컴포넌트를 더 포함하는, 방법.
  11. 제 10 항에 있어서,
    상기 손실 함수는 상기 포지티브 피처들의 세트 및 상기 네가티브 피처들의 세트에 기초한 다이버전트 손실 컴포넌트를 더 포함하는, 방법.
  12. 제 11 항에 있어서,
    상기 손실 함수는:
    상기 크로스-엔트로피 손실 컴포넌트에 대한 제 1 가중 파라미터;
    상기 최대 엔트로피 손실 컴포넌트에 대한 제 2 가중 파라미터; 및
    상기 다이버전스 손실 컴포넌트에 대한 제 3 가중 파라미터를 더 포함하는, 방법.
  13. 제 1 항에 있어서,
    상기 타겟 도메인 피처 추출 모델은 정규화 손실 컴포넌트를 포함하는 손실 함수를 사용하여 트레이닝되는, 방법.
  14. 제 13 항에 있어서,
    상기 정규화 손실 컴포넌트는 유클리드 거리 함수 (Euclidean distance function) 를 포함하는, 방법.
  15. 제 14 항에 있어서,
    상기 손실 함수는 크로스-엔트로피 손실 컴포넌트를 더 포함하는, 방법.
  16. 제 15 항에 있어서,
    주어진 샘플에 대해, 상기 크로스-엔트로피 손실 컴포넌트는 상기 주어진 샘플에 기초하여 상기 마스크 생성 모델에 의해 생성된 포지티브 피처 및 상기 주어진 샘플에 기초하여 선형 분류 모델에 의해 생성된 분류 출력에 기초하여 크로스-엔트로피 손실 값을 생성하도록 구성되는, 방법.
  17. 제 15 항에 있어서,
    상기 손실 함수는 정규화 손실 컴포넌트에 대한 가중 파라미터를 더 포함하는, 방법.
  18. 제 1 항에 있어서,
    상기 타겟 도메인 피처 추출 모델은 신경망 모델을 포함하는, 방법.
  19. 제 1 항에 있어서,
    상기 타겟 도메인 피처 추출 모델을 사용하여 추론을 생성하는 단계를 더 포함하는, 방법.
  20. 프로세싱 시스템으로서,
    컴퓨터 실행가능 명령들을 포함하는 메모리; 및
    상기 컴퓨터 실행가능 명령들을 실행하도록 구성되는 하나 이상의 프로세서들을 포함하고,
    상기 하나 이상의 프로세서들은 상기 프로세싱 시스템으로 하여금:
    소스 데이터 세트에 대해 트레이닝된 소스 도메인 피처 추출 모델을 사용하여 타겟 도메인 피처 추출 모델을 튜닝하는 것을 포함하는 동작을 수행하게 하고,
    상기 튜닝하는 것은 타겟 데이터 세트에 대해 트레이닝된 마스크 생성 모델을 사용하여 수행되고,
    상기 튜닝하는 것은 상기 타겟 데이터 세트를 사용하여 수행되는, 프로세싱 시스템.
  21. 제 20 항에 있어서,
    상기 소스 도메인 피처 추출 모델은 자기-지도 손실 함수를 사용하여 트레이닝되는, 프로세싱 시스템.
  22. 제 21 항에 있어서,
    상기 자기-지도 손실 함수는 대조 손실 함수를 포함하는, 프로세싱 시스템.
  23. 제 22 항에 있어서,
    상기 동작은 상기 소스 데이터 세트의 하나 이상의 샘플들에 대해 하나 이상의 변환들을 수행하는 것에 의해 상기 소스 데이터 세트를 증강시키는 것을 더 포함하는, 프로세싱 시스템.
  24. 제 20 항에 있어서,
    상기 마스크 생성 모델을 트레이닝하는 것은:
    상기 타겟 데이터 세트 및 상기 마스크 생성 모델에 기초하여 포지티브 피처들의 세트를 생성하는 것;
    상기 타겟 데이터 세트 및 상기 마스크 생성 모델에 기초하여 네가티브 피처들의 세트를 생성하는 것;
    상기 마스크 생성 모델을 사용하여 마스크들의 세트를 생성하는 것; 및
    상기 마스크들의 세트에 기초하여 이진 마스크들의 세트를 생성하는 것을 포함하는, 프로세싱 시스템.
  25. 제 24 항에 있어서,
    상기 마스크들의 세트에 기초하여 상기 이진 마스크들의 세트를 생성하는 것은:
    로지스틱 노이즈를 상기 마스크들의 세트에 추가하는 것; 및
    상기 마스크들의 세트에 비선형 활성화 함수를 적용하는 것을 포함하는, 프로세싱 시스템.
  26. 제 25 항에 있어서,
    상기 마스크 생성 모델은 손실 함수를 사용하여 트레이닝되고,
    상기 포지티브 피처들의 세트에 기초한 크로스-엔트로피 손실 컴포넌트;
    상기 네가티브 피처들의 세트에 기초한 최대 엔트로피 손실 컴포넌트; 및
    상기 포지티브 피처들의 세트 및 상기 네가티브 피처들의 세트에 기초한 다이버전트 손실 컴포넌트를 포함하는, 프로세싱 시스템.
  27. 제 26 항에 있어서,
    상기 손실 함수는:
    상기 크로스-엔트로피 손실 컴포넌트에 대한 제 1 가중 파라미터;
    상기 최대 엔트로피 손실 컴포넌트에 대한 제 2 가중 파라미터; 및
    다이버전스 손실 컴포넌트에 대한 제 3 가중 파라미터를 더 포함하는, 프로세싱 시스템.
  28. 제 20 항에 있어서,
    상기 타겟 도메인 피처 추출 모델은 정규화 손실 컴포넌트를 포함하는 손실 함수를 사용하여 트레이닝되고,
    상기 정규화 손실 컴포넌트는 유클리드 거리 함수를 포함하는, 프로세싱 시스템.
  29. 제 20 항에 있어서,
    상기 동작은 상기 타겟 도메인 피처 추출 모델을 사용하여 추론을 생성하는 것을 더 포함하는, 프로세싱 시스템.
KR1020237024007A 2021-01-20 2022-01-20 크로스-도메인 적응적 학습 KR20230133854A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163139714P 2021-01-20 2021-01-20
US63/139,714 2021-01-20
US17/648,415 2022-01-19
US17/648,415 US20220230066A1 (en) 2021-01-20 2022-01-19 Cross-domain adaptive learning
PCT/US2022/070267 WO2022159960A1 (en) 2021-01-20 2022-01-20 Cross-domain adaptive learning

Publications (1)

Publication Number Publication Date
KR20230133854A true KR20230133854A (ko) 2023-09-19

Family

ID=82405766

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237024007A KR20230133854A (ko) 2021-01-20 2022-01-20 크로스-도메인 적응적 학습

Country Status (5)

Country Link
US (1) US20220230066A1 (ko)
EP (1) EP4281908A1 (ko)
KR (1) KR20230133854A (ko)
CN (1) CN116868206A (ko)
BR (1) BR112023013752A2 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
US11900534B2 (en) * 2021-07-30 2024-02-13 The Boeing Company Systems and methods for synthetic image generation
US11651554B2 (en) * 2021-07-30 2023-05-16 The Boeing Company Systems and methods for synthetic image generation
CN116543269B (zh) * 2023-07-07 2023-09-05 江西师范大学 基于自监督的跨域小样本细粒度图像识别方法及其模型

Also Published As

Publication number Publication date
EP4281908A1 (en) 2023-11-29
CN116868206A (zh) 2023-10-10
BR112023013752A2 (pt) 2023-12-05
US20220230066A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
Ohri et al. Review on self-supervised image recognition using deep neural networks
Nalisnick et al. Hybrid models with deep and invertible features
KR20230133854A (ko) 크로스-도메인 적응적 학습
EP1433118B1 (en) System and method of face recognition using portions of learned model
US11875488B2 (en) Method and device for parallel processing of retinal images
CN111133453A (zh) 人工神经网络
GB2588747A (en) Facial behaviour analysis
Lee et al. Deep representation learning for affective speech signal analysis and processing: Preventing unwanted signal disparities
Sharmili et al. Earthworm Optimization with Improved SqueezeNet Enabled Facial Expression Recognition Model.
Lin et al. Balancing reconstruction quality and regularisation in elbo for vaes
Gantayat et al. Study of algorithms and methods on emotion detection from facial expressions: a review from past research
Li Regularized adaptation: Theory, algorithms and applications
US20230297653A1 (en) Model disentanglement for domain adaptation
CN116758379A (zh) 一种图像处理方法、装置、设备及存储介质
Sawant et al. Text to image generation using GAN
JP2004046621A (ja) テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体
Suri et al. A2-LINK: recognizing disguised faces via active learning and adversarial noise based inter-domain knowledge
Tan et al. Learning sparse confidence-weighted classifier on very high dimensional data
Koide-Majima et al. Mental image reconstruction from human brain activity: Neural decoding of mental imagery via deep neural network-based Bayesian estimation
WO2022159960A1 (en) Cross-domain adaptive learning
Li et al. Foundation
Sopov et al. Self-configuring ensemble of neural network classifiers for emotion recognition in the intelligent human-machine interaction
Mokadem et al. Age regression based on local image features
Sowmya et al. Face aging through uniqueness conserving by cGAN with separable convolution
Kumar et al. A discriminative reliability-aware classification model with applications to intelligibility classification in pathological speech