KR20220024990A

KR20220024990A - L2TL(Learning to Transfer Learn)을 위한 프레임워크

Info

Publication number: KR20220024990A
Application number: KR1020227002727A
Authority: KR
Inventors: 린차오 주; 토마스 존 피스터; 세르칸 오메르 아릭
Original assignee: 구글 엘엘씨
Priority date: 2019-08-02
Filing date: 2020-08-02
Publication date: 2022-03-03
Also published as: CN114207626A; JP2022543245A; JP7342242B2; JP2023162346A; US20210034976A1; US20240054345A1; WO2021026044A1; EP4007973A1

Abstract

방법(400)은 소스 데이터 세트(104) 및 타겟 데이터 세트(106)를 수신하는 단계, 및 소스 데이터 세트 및 타겟 데이터 세트에 기반하여 심층 학습 모델(150)에 대한 손실 함수(201)를 식별하는 단계를 포함한다. 손실 함수(201)는 인코더 가중치들(210), 소스 분류기 계층 가중치들(202), 타겟 분류기 계층 가중치들(204), 계수들(206), 및 정책 가중치(208)를 포함한다. L2TL(learning to transfer learn) 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제1 단계 동안, 방법은 또한 손실 함수를 최소화하는 인코더 가중치들, 소스 분류기 계층 가중치들 및 타겟 분류기 계층 가중치들을 학습하기 위해 경사 하강-기반 최적화를 적용하는 단계, 및 정책 모델(209)의 샘플링 액션들에 의해 계수들을 결정하는 단계를 포함한다. 복수의 학습 반복들 각각의 제2 단계 동안, 방법은 또한 평가 지표(220)를 최대화하는 정책 가중치를 결정하는 단계를 포함한다.

Description

L2TL(Learning to Transfer Learn)을 위한 프레임워크

[0001] 본 개시내용은 L2TL(learning to transfer learn) 위한 프레임워크에 관한 것이다.

[0002] 기계 학습 모델들은 입력을 수신하고, 수신된 입력에 기반하여 출력, 예컨대, 예측된 출력을 생성한다. 일부 기계 학습 모델들은 파라메트릭 모델들이며, 수신된 입력 및 모델의 파라미터들의 값들에 기반하여 출력을 생성한다.

[0003] 일부 기계 학습 모델들은 수신된 입력에 대한 출력을 생성하기 위해 모델들의 다수의 계층들을 이용하는 심층 모델들이다. 예컨대, 심층 신경망은 수신된 입력에 비-선형 변환을 적용하여 출력을 각각 생성하는 하나 이상의 은닉 계층들 및 출력 계층을 포함하는 심층 기계 학습 모델이다.

[0004] 본 개시내용의 일 양상은 소스 데이터 세트 및 타겟 데이터 세트에 대해 공동으로 최적화된 심층 학습 모델에 대한 가중치 할당을 적응적으로 학습하는 방법을 제공한다. 방법은, 데이터 프로세싱 하드웨어에서, 소스 데이터 세트 및 타겟 데이터 세트를 수신하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 소스 데이터 세트 및 타겟 데이터 세트에 기반하여 심층 학습 모델에 대한 손실 함수를 식별하는 단계를 포함한다. 손실 함수는 인코더 가중치들, 소스 분류기 계층 가중치들, 타겟 분류기 계층 가중치들, 계수들, 및 정책 가중치를 포함한다. 심층 학습 모델에 대한 가중치 할당들을 학습하도록 구성된 L2TL(learning to transfer learn) 아키텍처에 대한 복수의 학습 반복들 각각의 제1 단계 동안, 방법은 또한, 데이터 프로세싱 하드웨어에 의해, 손실 함수를 최소화하는 인코더 가중치들, 소스 분류기 계층 가중치들 및 타겟 분류기 계층 가중치들을 학습하기 위해 경사 하강-기반 최적화를 적용하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 정책 모델의 샘플링 액션들에 의해 계수들을 결정하는 단계를 포함한다. L2TL 아키텍처에 대한 복수의 학습 반복들 각각의 제2 단계 동안, 방법은 또한 데이터 프로세싱 하드웨어에 의해, 손실 함수에 대한 평가 지표를 최대화하는 정책 가중치를 결정하는 단계를 포함한다.

[0005] 본 개시내용의 구현들은 다음의 선택적인 특징들 중 하나 이상을 포함할 수 있다. 일부 구현들에서, 손실 함수에 대한 평가 지표를 최대화하는 정책 가중치를 결정하는 단계는 제1 단계 동안 학습된 인코더 가중치들 및 타겟 분류기 계층 가중치들을 사용하는 단계를 포함한다. 정책 모델은 학습 반복의 제1 단계를 수행하는 동안 고정될 수 있다. 정책 모델은 강화 학습-기반 정책 모델을 포함할 수 있다. 손실 함수에 대한 평가 지표는 타겟 평가 데이터 세트에 대한 심층 학습 모델의 성능을 정량화할 수 있고, 타겟 평가 데이터 세트는 심층 학습 모델에 의해 이전에 확인되지 않던 타겟 데이터 세트의 데이터 샘플들의 서브세트를 포함한다.

[0006] 일부 예들에서, 복수의 학습 반복들 각각의 제1 단계 동안, 방법은 또한, 데이터 프로세싱 하드웨어에 의해, 특정 사이즈를 갖는, 소스 데이터 세트로부터의 소스 데이터 샘플들의 훈련 배치를 샘플링하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 손실 함수를 최소화하는 인코더 가중치들, 소스 분류기 계층 가중치들 및 타겟 분류기 계층 가중치들을 학습하도록 심층 학습 모델을 훈련시키는 데 사용하기 위한 N-최상 신뢰도 점수들을 갖는, 소스 데이터 샘플들의 훈련 배치로부터의 소스 데이터 샘플들을 선택하는 단계를 포함한다. 추가적인 예들에서, 복수의 학습 반복들 각각의 제2 단계 동안, 방법은 또한 데이터 프로세싱 하드웨어에 의해, 평가 지표를 최대화하는 보상을 계산하기 위해 타겟 평가 데이터 세트에 대한 정책 경사를 사용하여 정책 모델을 훈련시키는 단계를 포함한다. 이런 추가적인 예들에서, 손실 함수에 대한 평가 지표를 최대화하는 정책 가중치를 결정하는 단계는 계산된 보상에 기반한다.

[0007] 일부 구현들에서, 소스 데이터 세트는 제1 복수의 이미지들을 포함하고 타겟 데이터 세트는 제2 복수의 이미지들을 포함한다. 여기서, 소스 데이터 세트의 제1 복수의 이미지들의 이미지들의 수는 타겟 데이터 세트의 제2 복수의 이미지들의 이미지들의 수보다 더 클 수 있다. L2TL 아키텍처는 인코더 네트워크 계층, 소스 분류기 계층, 및 타겟 분류기 계층을 포함할 수 있다.

[0008] 본 개시내용의 다른 양상은 소스 데이터 세트 및 타겟 데이터 세트에 대해 공동으로 최적화된 심층 학습 모델에 대한 가중치 할당을 적응적으로 학습하기 위한 시스템을 제공한다. 시스템은 데이터 프로세싱 하드웨어, 및 사용자 디바이스의 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 메모리 하드웨어는, 데이터 프로세싱 하드웨어 상에서 실행될 때 그 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 명령들을 저장하고, 동작들은 소스 데이터 세트 및 타겟 데이터 세트를 수신하는 동작; 및 소스 데이터 세트 및 타겟 데이터 세트에 기반하여 심층 학습 모델에 대한 손실 함수를 식별하는 동작을 포함한다. 손실 함수는 인코더 가중치들, 소스 분류기 계층 가중치들, 타겟 분류기 계층 가중치들, 계수들, 및 정책 가중치를 포함한다. 심층 학습 모델에 대한 가중치 할당들을 학습하도록 구성된 L2TL(learning to transfer learn) 아키텍처에 대한 복수의 학습 반복들 각각의 제1 단계 동안, 동작들은 또한 손실 함수를 최소화하는 인코더 가중치들, 소스 분류기 계층 가중치들 및 타겟 분류기 계층 가중치들을 학습하기 위해 경사 하강-기반 최적화를 적용하는 동작; 및 정책 모델의 샘플링 액션들에 의해 계수들을 결정하는 동작을 포함한다. L2TL 아키텍처에 대한 복수의 학습 반복들 각각의 제2 단계 동안, 동작들은 또한 손실 함수에 대한 평가 지표를 최대화하는 정책 가중치를 결정하는 동작을 포함한다.

[0009] 이 양상은 다음의 선택적인 특징들 중 하나 이상을 포함할 수 있다. 일부 구현들에서, 손실 함수에 대한 평가 지표를 최대화하는 정책 가중치를 결정하는 동작은 제1 단계 동안 학습된 인코더 가중치들 및 타겟 분류기 계층 가중치들을 사용하는 동작을 포함한다. 정책 모델은 학습 반복의 제1 단계를 수행하는 동안 고정될 수 있다. 정책 모델은 강화 학습-기반 정책 모델을 포함할 수 있다. 손실 함수에 대한 평가 지표는 타겟 평가 데이터 세트에 대한 심층 학습 모델의 성능을 정량화할 수 있고, 타겟 평가 데이터 세트는 심층 학습 모델에 의해 이전에 확인되지 않던 타겟 데이터 세트의 데이터 샘플들의 서브세트를 포함한다.

[0010] 일부 예들에서, 복수의 학습 반복들 각각의 제1 단계 동안, 동작들은 또한 특정 사이즈를 갖는, 소스 데이터 세트로부터의 소스 데이터 샘플들의 훈련 배치를 샘플링하는 동작; 및 손실 함수를 최소화하는 인코더 가중치들, 소스 분류기 계층 가중치들 및 타겟 분류기 계층 가중치들을 학습하도록 심층 학습 모델을 훈련시키는 데 사용하기 위한 N-최상 신뢰도 점수들을 갖는, 소스 데이터 샘플들의 훈련 배치로부터의 소스 데이터 샘플들을 선택하는 동작을 포함한다. 추가적인 예들에서, 복수의 학습 반복들 각각의 제2 단계 동안, 동작들은 또한 평가 지표를 최대화하는 보상을 계산하기 위해 타겟 평가 데이터 세트에 대한 정책 경사를 사용하여 정책 모델을 훈련시키는 동작을 포함한다. 이런 추가적인 예들에서, 손실 함수에 대한 평가 지표를 최대화하는 정책 가중치를 결정하는 동작은 계산된 보상에 기반한다.

[0011] 일부 구현들에서, 소스 데이터 세트는 제1 복수의 이미지들을 포함하고 타겟 데이터 세트는 제2 복수의 이미지들을 포함한다. 여기서, 소스 데이터 세트의 제1 복수의 이미지들의 이미지들의 수는 타겟 데이터 세트의 제2 복수의 이미지들의 이미지들의 수보다 더 클 수 있다. L2TL 아키텍처는 인코더 네트워크 계층, 소스 분류기 계층, 및 타겟 분류기 계층을 포함할 수 있다.

[0012] 본 개시내용의 하나 이상의 구현들의 세부사항들은 아래의 설명 및 첨부 도면에서 기재된다. 다른 양상들, 특징들, 및 장점들은 설명 및 도면들로부터 그리고 청구항들로부터 자명해질 것이다.

[0013] 도 1은 소스 데이터 세트 및 훈련 데이터 세트에 대해 공동으로 최적화된 L2TL(learning to transfer learn) 아키텍처 및 심층 학습 모델을 포함하는 시스템의 개략도이다.
[0014] 도 2는 소스 데이터 세트로부터 정보를 적절히 추출함으로써 타겟 데이터 세트에 대한 전이 학습을 향상시키기 위한 예시적인 L2TL(learning to transfer learn) 아키텍처의 개략도이다.
[0015] 도 3은 심층 학습 모델의 가중치들을 업데이트하기 위한 복수의 학습 반복들 각각의 제1 및 제2 단계들을 묘사하는 예시적인 L2TL(learning to transfer learn) 알고리즘의 개략도이다.
[0016] 도 4는 소스 데이터 세트 및 타겟 데이터 세트에 대해 공동으로 최적화된 심층 학습 모델에 대한 가중치 할당을 적응적으로 학습하는 방법에 대한 동작들의 예시적인 어레인지먼트이다.
[0017] 도 5는 본원에서 설명된 시스템들 및 방법들을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
[0018] 다양한 도면들에서의 동일한 참조 심볼들은 동일한 엘리먼트들을 표시한다.

[0019] 심층 신경망들은 이미지들, 텍스트, 및 오디오를 이해하는 데 매우 유리하다. 심층 신경망들의 성능은 훈련 데이터가 많을수록 크게 향상된다. 애플리케이션들이 다양화되고 작은 훈련 데이터 세트들을 갖는 사용 사례들로 확장함에 따라, 통상의 훈련 접근법들은 종종 고성능을 산출하기에 불충분하다. 추가의 소스 데이터 세트들을 활용하고 관련 정보를 타겟 데이터 세트로 "전이"하는 것이 매우 유리하게 된다. 일반적으로 대규모 소스 데이터 세트에 대한 사전 훈련된 모델을 획득하고 이어서 타겟 데이터 세트에 대해 그것을 추가로 훈련시키는(미세-조정으로서 알려짐) 형태의 전이 학습이 대부분의 실세계 인공 지능 애플리케이션들에 대한 표준 레시피가 되었다. 임의의 초기화로부터 훈련시키는 것과 비교하여, 미세-조정은 객체 인식, 의미론적 세그먼트화, 언어 이해, 음성 합성, 시청각 인식, 및 언어 번역에 대해 입증된 바와 같이 상당한 성능 향상들 및 수렴 속도 향상을 가져온다.

[0020] 본원에서의 구현들은 소스 데이터 세트로부터 정보를 적절히 추출함으로써 타겟 데이터 세트에 대한 전이 학습을 향상시키기 위해 데이터 프로세싱 하드웨어 상에서 실행하는 L2TL(learning to transfer learn) 아키텍처에 관한 것이다. 고정된 가중 할당 함수를 사용하여 소스 도메인과 타겟 도메인 간의 관련성을 측정하는 전이 학습 기술들과 달리, L2TL 아키텍처는 소스 데이터 세트 및 타겟 데이터 세트에 대해 공동으로 최적화된 심층 학습 모델에 대한 가중치 할당을 적응적으로 학습할 수 있다. 자명할 바와 같이, 심층 학습 모델에 대한 적응 가중치들의 학습은 타겟 평가 데이터 세트에 대한 심층 학습 모델의 성능에 의해 안내될 수 있다. 특히, 타겟 성능 지표를 사용하여 성능이 정량화될 수 있음으로써, L2TL 아키텍처는 타겟 평가 성능 향상의 목적을 위한 관련성을 직접 목표로 할 수 있다.

[0021] 중요도 가중 함수에 대해 최적화하는 동안, 스케일링 계수들의 선정을 위한 한 가지 옵션은 (1, 0)과 (0, 1) 사이에서 그것들을 교번하는 것이다. 이는 최적화된 정책 가중치(

)를 사용하여 수렴 때까지 소스 데이터 세트를 훈련하고, 이어서 소스 데이터 세트로부터의 사전 훈련된 가중치들을 사용하여 수렴 때까지 타겟 데이터 세트를 훈련한다. 일부 구현들에서, 프레임워크는 스케일 불변의 최적화로서 단일 계수를 최적화한다. 정책 최적화 단계는 훈련가능한 파라미터들에 대한 경사-하강 기반 최적화로부터 분리되고, 신호가 이들 간에 공유된다.

[0022] 구현들은 L2TL 아키텍처에 대한 복수의 학습 반복 각각에서 2개의 단계들을 사용하는 것에 관한 것이다. 복수의 학습 반복들 각각에 대한 제1 단계 동안, L2TL 아키텍처는 그 L2TL 아키텍처에 대한 손실 함수를 최소화하는 인코더 가중치들, 소스 분류기 계층 가중치들 및 타겟 분류기 계층 가중치들을 학습하기 위해 경사 하강-기반 최적화를 적용하고, 또한 정책 모델의 샘플링 액션들에 의해 계수들을 결정한다. 정책 모델은 제1 단계 동안 고정될 수 있다. 일부 경우들에서, 배치의 소스 데이터 세트 샘플들 대부분은 관련이 없는 반면에 일부 배치들은 더 많은 관련 예들을 포함할 때, 손실이 왜곡될 수 있다. 이 문제를 완화하기 위해, L2TL 아키텍처는 더 큰 배치를 샘플링하고 더 많은 관련 예들을 동적으로 선택할 수 있다. 각각의 반복에서, L2TL 아키텍처는 특정 사이즈의 훈련 배치를 샘플링하고, 훈련을 위해 가장 높은 신뢰도 점수들을 가진 다수의 상위 샘플들을 사용할 수 있다. 이 접근법은, 수렴 때까지 대부분의 소스 데이터 세트 샘플들에 대한 경사들이 계산되지 않을 것이기 때문에, 계산적인 이익들을 산출할 수 있다.

[0023] 복수의 학습 반복들 각각에 대한 제2 단계 동안, L2TL 아키텍처는 제1 단계 동안 학습된 인코더 가중치들을 사용하여 타겟 평가 데이터 세트에 대한 평가 지표를 최대화하는 정책 가중치(

)를 최적화한다. 이는, 정책 모델이 보상의 최적화를 위해 중요도 가중 함수 및 단일 계수에 대한 액션들을 출력하도록 하기 위한 RL 문제로서 처리될 수 있다. 정책 모델을 훈련시킬 때, L2TL 아키텍처는 특정 사이즈를 갖는 배치를 사용하여 타겟 데이터 세트에 대한 보상을 최대화하기 위해 정책 경사를 사용할 수 있다. L2TL 아키텍처는 변동을 줄이기 위해 이동 평균 기준선들을 사용할 수 있다. L2TL 아키텍처는 강화 학습을 사용하여 정책 경사를 계산할 수 있다. L2TL 아키텍처는 또한 정책 경사를 최적화하기 위해 확률적 목표의 경사-기반 최적화를 사용할 수 있는데, 예컨대, 아담(Adam) 최적화기를 사용할 수 있다.

[0024] 도 1을 참조하면, 일부 구현들에서, 시스템(100)은 자원들(132)을 포함하는 계산 환경(130)을 포함하는데, 그 자원들(132)은 이를테면 데이터 프로세싱 하드웨어(134)(예컨대, 서버(들) 또는 CPU(들)) 및/또는 데이터 프로세싱 하드웨어(134) 상에서 실행될 때 그 데이터 프로세싱 하드웨어(134)로 하여금 동작들을 수행하게 하는 명령들을 저장하는 원격 메모리 하드웨어(136)이다. L2TL(learning to transfer learn) 아키텍처(200) 및 심층 학습 모델(150)은 자원(132)에 상주할 수 있다. 일반적으로, 심층 학습 모델(150)은 수신된 입력에 대한 출력을 생성하기 위해서 모델들의 다수의 계층들을 포함하는 심층 학습 네트워크, 즉, 기계 학습 모델을 포함한다. 도시된 예에서, 심층 학습 모델(150)은 소스 데이터 세트(104) 및 타겟 데이터 세트(106)에 대해 공동으로 최적화되고, L2TL 아키텍처(200)는 심층 학습 모델(150)에 대한 가중치 할당을 적응적으로 학습하도록 구성된다.

[0025] 도 2는, 데이터 프로세싱 하드웨어(134) 상에서 실행되고 소스 데이터 세트(104) 및 타겟 데이터 세트(106)를 수신하는 L2TL 아키텍처(200)의 예를 도시한다. 소스 데이터 세트(104)는 제1 복수의 이미지들을 포함하고 타겟 데이터 세트(106)는 제2 복수의 이미지들을 포함한다. 소스 데이터 세트(104)의 제1 복수의 이미지들은 타겟 데이터 세트(106)의 제2 복수의 이미지들보다 더 큰 수의 이미지들을 포함한다. 다른 구현들에서, 소스 데이터 세트(104) 및 타겟 데이터 세트(106)는 이미지들 이외의 데이터 샘플들, 이를테면 오디오 샘플들 또는 텍스트 샘플들(그러나, 이것들로 제한되지 않음)을 포함한다. 타겟 데이터 세트(106)는 특정 세트의 훈련 샘플들, 예컨대, 특수 타겟 작업을 수행하도록, 예컨대, 개(dog)들을 포함하는 이미지들을 인지하도록 심층 학습 모델(150)을 훈련시키기 위한 개들을 포함하는 이미지들을 포함한다. 그러나, 소스 데이터 세트(104)는 개들을 포함할 수 있거나 또는 개들을 포함하지 않을 수 있는 다양한 부류들에 걸친 이미지들에 대한 초대형 공개 데이터 세트를 포함할 수 있다. 특히, 소스 및 타겟 데이터 세트들(104, 106)은 각각 레이블링(labeled)될 수 있다. 소스 데이터 세트(104)의 소스 샘플들이 타겟 데이터 세트(106)의 타겟 샘플들과 묵시적으로 관련되면서 학습 프로세스에 유리하게 될 특징들을 가질 수는 있지만, 그것들이 다른 부류들에 속할 수 있는 경우들이 있다. 예컨대, 심층 학습 모델(150)이 새(bird) 이미지들에 대한 분류를 수행하도록 훈련되는 예를 고려하자. 소스 데이터 세트(104)는 새 이미지들을 포함하지 않을 수 있지만, 원시 데이터의 가치 있는 표현들을 학습하기 위해 유사한 시각적 패턴들을 공유할 때 새 분류기의 훈련을 보조할 유사한 시각적 패턴들을 갖는 비행기 이미지들을 가질 수 있다. L2TL 아키텍처(200)는 정책 학습을 통해 이러한 경우들을 자동으로 처리하도록 설계되고, 그리고 수동 소스 데이터 세트 선택 또는 고정 도메인 유사성 방법들이 할 수 없는 방식으로 성능을 더욱 향상시킬 수 있다. L2TL 아키텍처(200)는 소스 및 타겟 작업들에 대한 심층 학습 모델들(150)의 협력적 최적화를 고려하면서, 구성 손실 항의 스케일링을 위해 적응 가중치들(202, 204, 208, 210)을 사용한다. 도 2의 L2TL 아키텍처(200)의 점선 박스들은 훈련가능 기능들에 대응한다.

[0026] L2TL 아키텍처(200)는 소스 데이터 세트(104)로부터 정보를 적절히 추출함으로써 타겟 데이터 세트(106)에 대한 전이 학습을 향상시키도록 구성된다. L2TL 아키텍처(200)는 소스 데이터 세트(104) 및 타겟 데이터 세트(106)에 기반하여 심층 학습 네트워크(150)에 대한 손실 함수(201)를 식별하도록 구성된다. 손실 함수(201)는 심층 학습 모델(150)의 인코더 신경망(152)과 연관된 인코더 가중치들(210), 심층 학습 모델(150)의 소스 분류기 계층(154)과 연관된 소스 분류기 계층 가중치들(202), 심층 학습 모델(150)의 타겟 분류기 계층(156)과 연관된 타겟 분류기 계층 가중치들(204), 소스 및 타겟 데이터 세트들(104, 106)에 대한 계수들(206), 및 심층 학습 모델(150)의 정책 모델(209)과 연관된 정책 가중치(208)를 포함할 수 있다. 손실 함수(201)는 다음과 같이 표현될 수 있다.

(1)

여기서 (x, y)는 입력 및 출력 쌍들이고, B_S 및 B_T는 소스 및 타겟 배치 사이즈들이고,

및

은 i번째 반복에서의 스케일링 계수들(206)이고,

은 중요도 가중 함수(212)이고,

및

은 훈련가능 파라미터들(

(인코딩 가중치들(210)),

(소스 분류기 계층 가중치들(202)) 및

(타겟 분류기 계층 가중치들(204)))을 이용하는 소스 및 타겟 데이터 세트들(104, 106)에 대한 인코딩 함수들이다. 자명할 바와 같이, 수학식 1에 의해 표현된 손실 함수(201)의 학습 목적은 성능 지표(R)(220)의 최대화를 통해서, 미확인되는 타겟 평가 데이터 세트(106')로 일반화하는 것이다.

[0027] L2TL(learning to transfer learn) 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제1 단계 동안, L2TL 아키텍처(200)는 손실 함수(201)를 최소화하는 인코더 가중치들(

)(210), 소스 분류기 계층 가중치들(

)(202) 및 타겟 분류기 계층 가중치들(

)(204)을 학습하기 위해 경사 하강-기반 최적화를 적용하고, 정책 모델(209)의 샘플링 액션들에 의해 계수들(206)을 결정한다. 예컨대, 손실 함수(201)를 최소화하는 적응가능 가중치들(

(210),

(202),

)을 학습하기 위해 경사 하강-기반 최적화를 적용하는 것은 다음의 수학식으로 표현될 수 있다.

(2)

[0028] 제1 단계 동안, 정책 모델(209)은 고정된 상태로 유지된다. 대부분의 배치들이 소스 데이터 세트(104)로부터의 관련 샘플들을 포함할지라도, 배치의 소스 데이터 세트 샘플들 대부분이 관련이 없는 경우(그리고, 이상적으로 더 낮은 가중치들을 얻을 경우)에는, 손실 함수(201)가 왜곡될 수 있다. 이 문제를 완화하기 위해, 제1 단계는 각각의 반복에서 더 큰 배치 사이즈들을 사용하고, 가장 관련성이 있은 예들을 그것으로부터 동적으로 선택할 수 있다. 각각의 반복에서, L2TL 아키텍처는 M_S·B_S 사이즈의 훈련 배치를 샘플링하고, 그 반복 동안 훈련 업데이트들을 위해 가장 높은 가중치들을 갖는 그것들의 최상위 B_S를 사용한다. 이 접근법은 또한, 수렴 때까지 대부분의 소스 데이터 세트 샘플들에 대한 경사들이 계산되지 않을 것이기 때문에, 계산적인 이익들을 산출할 수 있다.

[0029] 도 2는 소스 및 타겟 데이터 세트들(104, 106)의 개개의 입력들(x)과 그것들의 대응하는 레이블들/출력들(y) 간의 경사들을 최소화하는 것을 포함하는, 소스 및 타겟 데이터 세트들(104, 106) 각각에 대한 학습 반복의 제1 단계 동안의 훈련 오브젝티브를 갖는 L2TL 아키텍처(200)를 도시한다. 여기서, 인코딩 네트워크(152)는 소스 데이터 세트(104)로부터의 입력 특징들(예컨대, 이미지들)을 인코딩하고, 소스 분류기 계층(154)("소스 결정 계층"으로도 지칭됨)은 인코딩된 입력 특징들을 사용하여 신뢰도 점수를 출력하며, 이에 의해 훈련 오브젝티브는 입력 특징들의 신뢰도 점수와 대응하는 레이블들/출력들(y) 간의 소스 데이터 세트 분류 손실(손실 함수(201)의 수학식 1에서 첫 번째 항(

)에 대응함)을 결정한다. 합산 함수(203)가 손실 함수(201)의 집계 경사들을 결정하기 위해서 타겟 데이터 세트 분류 손실(손실 함수(201)의 수학식 1의 두 번째 항(

)에 대응함)을 소스 데이터 세트 분류 손실과 중요도 가중치들(212)의 곱에 더하기 전에, 소스 데이터 세트 분류 손실에는 손실 함수(201)의 수학식 1의

에 대응하는 중요도 가중치들(212)이 곱해진다. 각각의 반복의 손실 함수의 집계된 경사들에 기반하여, L2TL 아키텍처(200)는 소스 데이터 세트(103)의 수렴 때까지 인코더 가중치들(

)(210), 소스 분류기 계층 가중치들(

)(202) 및 타겟 분류기 계층 가중치들(

)(204) 각각을 결정/업데이트한다.

[0030] 인코딩 네트워크(152)는 또한 타겟 데이터 세트(106)로부터의 입력 특징들(예컨대, 이미지들)을 인코딩하고, 타겟 분류기 계층(156)("타겟 결정 계층"으로도 지칭됨)은 인코딩된 입력 특징들을 사용하여 신뢰도 점수를 출력하며, 이에 의해 훈련 오브젝티브는 입력 특징들에 대한 신뢰도 점수와 타겟 데이터 세트의 대응하는 레이블들/출력들(y) 간의 타겟 데이터 세트 분류 손실(

)을 결정한다. 위에서 언급한 바와 같이, 합산 함수(203)는 손실 함수(201)에 대한 집계 경사들을 결정하기 위해서 타겟 데이터 세트 분류 손실을 소스 데이터 세트 분류 손실과 중요도 가중치들(208)의 곱에 더한다.

[0031] L2TL 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제2 단계 동안, L2TL 아키텍처(200)는 손실 함수(201)에 대한 평가 지표(220)를 최대화하는 정책 가중치(

)(208)를 결정한다. 여기서, L2TL 아키텍처(200)는 제1 단계에서 학습된 인코더 가중치들(

)(210) 및 타겟 분류기 계층 가중치들(

)(204)을 사용하여 평가 지표(R)(220)를 최대화하는 정책 가중치(

)(208)를 결정한다. 본원에서 사용된 바와 같이, 손실 함수에 대한 평가 지표('평가 메트릭'으로도 지칭됨)(220)는 타겟 평가 데이터 세트(106')에 대한 심층 학습 모델(150)(즉, 인코더 네트워크(152) 및 타겟 분류기 계층(156))의 성능을 정량화한다. 일부 예들에서, 타겟 평가 데이터 세트(106')는 훈련의 제1 단계 동안 심층 학습 모델(150)에 의해 이전에 확인되지 않던 타겟 데이터 세트(106)의 데이터 샘플들(예컨대, 이미지들)의 서브세트를 포함한다. 따라서, 정책 가중치(

)(208)를 결정하는 것은 타겟 평가 데이터 세트(106')에 대한 평가 지표(

)(220)를 최대화하기 위해 정책 가중치(208)를 최적화하는 것을 포함하며, 다음과 같이 표현될 수 있다.

(3)

여기서, D'_T은 제1 단계 동안 심층 학습 모델(150)에 의해 이전에 확인되지 않던 타겟 데이터 세트(106)의 데이터 샘플들(예컨대, 입력 특징들(x), 출력 레이블들(y))의 서브세트를 포함할 수 있는 미확인된 타겟 평가 데이터 세트(106')이다. 정책 모델(209)이 제1 단계에서 고정되는 동안, 제2 단계 동안, L2TL 아키텍처(200)는 수학식 3을 사용하여 평가 지표(220)를 최대화하는 보상을 계산하기 위해서 타겟 평가 데이터 세트(106')에 대한 정책 경사를 사용하여 정책 모델(209)을 훈련시킨다. 따라서, L2TL 아키텍처(200)는 계산된 보상에 기반하여 평가 지표(R)(220)를 최대화하는 정책 가중치(

)(208)를 결정/업데이트한다. 업데이트된 정책 가중치(

)(208)에 기반하여, 후속 학습 반복의 제1 단계 동안 결정될 소스 데이터 세트 분류 손실에 승수로서 적용되는 중요도 가중치들(212)은 정책 모델(209)의 액션들을 샘플링함으로써 업데이트된다. 따라서, L2TL 아키텍처(200)는 정책 모델(209)을 이용하여 인코더 가중치들(

)(210), 소스 분류기 계층 가중치들(

)(202) 및 타겟 분류기 계층 가중치들(

)(204)을 학습하고, 타겟 평가 데이터 세트(106')에 대한 평가 지표(R)(220)를 최대화하는 정책 가중치(

)(208)를 결정/업데이트한다. 그 결과, L2TL 아키텍처(200)는 타겟 평가 데이터 세트(106')에 대한 성능 향상의 특수 목적을 위한 관련성을 직접적으로 목표로 함으로써 일반적인 관련성을 넘어선다. 도 3은 가중치들(

(210),

(202),

(204) 및

(208))을 업데이트하기 위한 복수의 학습 반복들 각각의 제1 및 제2 단계들을 묘사하는 예시적인 L2TL 알고리즘을 제공한다.

[0032] 효과적으로, 정책 모델(209)은 소스 데이터 세트(104)의 다수의 부류들 각각에 대한 중요도 가중치들(212)을 적응적으로 출력함으로써, L2TL 아키텍처(200)가 타겟 데이터 세트(106)의 성능을 직접적으로 최적화하기 위해 소스 데이터 세트 부류 가중치들을 학습할 수 있게 한다. 중요도 가중치들(212)의 적응적인 할당을 통해, L2TL 아키텍처(200)는, 타겟 오브젝티브를 학습하도록 심층 학습 모델(150)을 훈련시키기 위한 소스 데이터 세트(104)로부터의 관련 정보가 추출될 수 있도록, 소스 데이터 세트(104)의 더 많은 관련 데이터 샘플들에 더 높은 가중치들을 할당한다. 정책 모델(209)은 강화 학습-기반 정책 모델을 포함할 수 있다. 게다가, 일부 예들에서, L2TL 아키텍처(200)는 소스 데이터 세트(104)의 샘플들의 순위를 타겟 작업에 대한 그것들의 기여도에 기반하여 산출한다.

[0033] 도 4는 소스 데이터 세트(104) 및 타겟 데이터 세트(106)에 대해 공동으로 최적화된 심층 학습 모델(150)에 대한 가중치 할당을 적응적으로 학습하는 방법(400)에 대한 동작들의 예시적인 어레인지먼트의 흐름도를 제공한다. 데이터 프로세싱 하드웨어(134)(도 1)는 메모리 하드웨어(136)(도 1)에 저장된 명령들을 실행함으로써 방법(400)에 대한 동작들을 수행할 수 있다. 동작(402)에서, 방법(400)은 소스 데이터 세트(104) 및 타겟 데이터 세트(106)를 수신하는 단계를 포함한다. 동작(404)에서, 방법(400)은 소스 데이터 세트(104) 및 타겟 데이터 세트(106)에 기반하여 심층 학습 모델(150)에 대한 손실 함수(201)를 식별하는 단계를 포함한다. 손실 함수(201)는 인코더 가중치들(210), 소스 분류기 계층 가중치들(202), 타겟 분류기 계층 가중치들(204), 계수들(206), 및 정책 가중치(208)를 포함한다.

[0034] 심층 학습 모델(150)에 대한 가중치 할당들을 학습하도록 구성된 L2TL(learning to transfer learn) 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제1 단계 동안, 방법(400)은 또한 동작(406)에서 손실 함수를 최소화하는 인코더 가중치들, 소스 분류기 계층 가중치들 및 타겟 분류기 계층 가중치들을 학습하기 위해 경사 하강-기반 최적화를 적용하는 단계; 및 동작(408)에서 정책 모델(209)의 샘플링 액션들에 의해 계수들(206)을 결정하는 단계를 포함한다. L2TL 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제2 단계 동안, 방법(400)은 또한, 동작(410)에서, 손실 함수(201)에 대한 평가 지표(220)를 최대화하는 정책 가중치(208)를 결정하는 단계를 포함한다.

[0035] 소프트웨어 애플리케이션(즉, 소프트웨어 자원)은 컴퓨팅 디바이스로 하여금 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예들에서, 소프트웨어 애플리케이션은 “애플리케이션”, “앱” 또는 “프로그램”으로 지칭될 수 있다. 예시적인 애플리케이션들은 시스템 진단 애플리케이션들, 시스템 관리 애플리케이션들, 시스템 유지보수 애플리케이션들, 워드 프로세싱 애플리케이션들, 스프레드시트 애플리케이션들, 메시징 애플리케이션들, 미디어 스트리밍 애플리케이션들, 소셜 네트워킹 애플리케이션들, 및 게임 애플리케이션들을 포함하지만 이것들로 제한되지는 않는다.

[0036] 비-일시적인 메모리는 컴퓨팅 디바이스에 의한 사용을 위해 임시적으로 또는 영구적으로 프로그램들(예컨대, 명령들의 시퀀스들) 또는 데이터(예컨대, 프로그램 상태 정보)를 저장하는 데 사용되는 물리 디바이스들일 수 있다. 비-일시적인 메모리는 휘발성 및/또는 비-휘발성 어드레싱가능 반도체 메모리일 수 있다. 비-휘발성 메모리의 예들은 플래시 메모리 및 ROM(read-only memory)/PROM(programmable read-only memory)/EPROM(erasable programmable read-only memory)/EEPROM(electronically erasable programmable read-only memory)(예컨대, 통상적으로 부트 프로그램들과 같은 펌웨어를 위해 사용됨)을 포함하지만 이것들로 제한되지는 않는다. 휘발성 메모리의 예들은 RAM(random access memory), DRAM(dynamic random access memory), SRAM(static random access memory), PCM(phase change memory)뿐만 아니라 디스크들 또는 테이프들을 포함하지만 이것들로 제한되지는 않는다.

[0037] 도 5는 본 문헌에서 설명된 시스템들 및 방법들을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스(500)의 개략도이다. 컴퓨팅 디바이스(500)는 다양한 형태들의 디지털 컴퓨터들, 이를테면 랩톱들, 데스크톱들, 워크스테이션들, 개인 휴대 정보 단말들, 서버들, 블레이드(blade) 서버들, 메인프레임들, 및 다른 적절한 컴퓨터들을 나타내도록 의도된다. 여기서 도시된 컴포넌트들, 그것들의 연결들 및 관계들, 및 그들의 기능들은 단지 예시적인 것으로만 의도되며, 본 문헌에서 설명되고 그리고/또는 청구되는 본 발명들의 구현들을 제한하도록 의도되지 않는다.

[0038] 컴퓨팅 디바이스(500)는 프로세서(510)(예컨대, 데이터 프로세싱 하드웨어), 메모리(520)(예컨대, 메모리 하드웨어), 저장 디바이스(예컨대, 메모리 하드웨어)(530), 메모리(520) 및 고속 확장 포트들(550)에 연결된 고속 인터페이스/제어기(540), 및 저속 버스(570) 및 저장 디바이스(530)에 연결된 저속 인터페이스/제어기(560)를 포함한다. 컴포넌트들(510, 520, 530, 540, 550, 및 560) 각각은 다양한 버스들을 사용하여 상호연결되며, 공통 마더보드 상에 또는 다른 방식들로 적절하게 장착될 수 있다. 프로세서(510)는 고속 인터페이스(540)에 결합된 디스플레이(580)와 같은 외부 입력/출력 디바이스 상에 GUI(graphical user interface)에 대한 그래픽 정보를 디스플레이하기 위해 메모리(520)에 또는 저장 디바이스(530)에 저장된 명령들을 포함하는, 컴퓨팅 디바이스(500) 내에서의 실행을 위한 명령들을 프로세싱할 수 있다. 다른 구현들에서, 다수의 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 타입들의 메모리와 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(500)이 연결될 수 있으며, 각각의 디바이스는 필요한 동작들의 부분들을 (예컨대, 서버 뱅크, 블레이드 서버들의 그룹, 또는 멀티-프로세서 시스템으로서) 제공한다. 프로세서(510)는 도 1의 데이터 프로세싱 하드웨어(134)에 대응하며, L2TL 아키텍처(200) 및 심층 학습 모델(150)을 실행할 수 있다.

[0039] 메모리(520)는 컴퓨팅 디바이스(500) 내에 정보를 비-일시적으로 저장한다. 메모리(520)는, 컴퓨터-판독가능 매체, 휘발성 메모리 유닛(들), 또는 비-휘발성 메모리 유닛(들)일 수 있다. 비-일시적인 메모리(520)는 컴퓨팅 디바이스(500)에 의한 사용을 위해 임시적으로 또는 영구적으로 프로그램들(예컨대, 명령들의 시퀀스들) 또는 데이터(예컨대, 프로그램 상태 정보)를 저장하는 데 사용되는 물리 디바이스들일 수 있다. 비-휘발성 메모리의 예들은 플래시 메모리 및 ROM(read-only memory)/PROM(programmable read-only memory)/EPROM(erasable programmable read-only memory)/EEPROM(electronically erasable programmable read-only memory)(예컨대, 통상적으로 부트 프로그램들과 같은 펌웨어를 위해 사용됨)을 포함하지만 이것들로 제한되지는 않는다. 휘발성 메모리의 예들은 RAM(random access memory), DRAM(dynamic random access memory), SRAM(static random access memory), PCM(phase change memory)뿐만 아니라 디스크들 또는 테이프들을 포함하지만 이것들로 제한되지는 않는다.

[0040] 저장 디바이스(530)는 컴퓨팅 디바이스(500)를 위한 대용량 저장소를 제공할 수 있다. 일부 구현들에서, 저장 디바이스(530)는 컴퓨터-판독가능 매체이다. 다양한 상이한 구현들에서, 저장 디바이스(530)는 저장 영역 네트워크 또는 다른 구성들 내의 디바이스들을 포함하여, 플로피 디스크 디바이스, 하드 디스크 디바이스, 광학 디스크 디바이스, 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 솔리드 스테이트 메모리 디바이스, 또는 디바이스들의 어레이일 수 있다. 추가적인 구현들에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로(tangibly) 구현된다. 컴퓨터 프로그램 제품은, 실행될 때 위에서 설명된 방법들과 같은 하나 이상의 방법들을 수행하는 명령들을 포함한다. 정보 캐리어는 컴퓨터- 또는 기계-판독가능 매체, 이를테면 메모리(520), 저장 디바이스(530), 또는 프로세서(510) 상의 메모리이다.

[0041] 고속 제어기(540)는 컴퓨팅 디바이스(500)에 대한 대역폭-집약적 동작들을 관리하는 반면, 저속 제어기(560)는 더 낮은 대역폭-집약적 동작들을 관리한다. 그러한 직무들의 할당은 단지 예시적이다. 일부 구현들에서, 고속 제어기(540)는 메모리(520)에, (예컨대, 그래픽 프로세서 또는 가속기를 통해) 디스플레이(580)에, 그리고 다양한 확장 카드들(미도시)을 수용할 수 있는 고속 확장 포트들(550)에 결합된다. 일부 구현들에서, 저속 제어기(560)는 저장 디바이스(530) 및 저속 확장 포트(590)에 결합된다. 다양한 통신 포트들(예컨대, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는 저속 확장 포트(590)는 예컨대 네트워크 어뎁터를 통해 하나 이상의 입력/출력 디바이스들, 이를테면 키보드, 포인팅 디바이스, 스캐너, 또는 네트워크 디바이스, 이를테면 스위치 또는 라우터에 결합될 수 있다.

[0042] 컴퓨팅 디바이스(500)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예컨대, 컴퓨팅 디바이스(500)는 표준 서버(500a)로서 또는 그러한 서버들(500a)의 그룹에서 여러 번, 랩톱 컴퓨터(500b)로서, 또는 랙(rack) 서버 시스템(500c)의 일부로서 구현될 수 있다.

[0043] 본원에 설명된 시스템들 및 기술들의 다양한 구현들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특수 설계된 ASIC(application specific integrated circuit)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이것들의 조합들로 실현될 수 있다. 이런 다양한 구현들은, 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 그것들로 데이터 및 명령들을 송신하도록 특수 목적 또는 범용 목적으로 결합될 수 있는 적어도 하나의 프로그래밍가능 프로세서를 포함하는 프로그래밍가능 시스템 상에서 실행가능하고 그리고/또는 해석가능한 하나 이상의 컴퓨터 프로그램들로의 구현을 포함할 수 있다.

[0044] 이런 컴퓨터 프로그램들(프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 또는 코드로도 알려짐)은 프로그래밍가능 프로세서에 대한 기계 명령들을 포함하며, 고레벨의 절차적인 및/또는 객체-지향적인 프로그래밍 언어로 그리고/또는 어셈블리/기계 언어로 구현될 수 있다. 본원에 사용된 바와 같이, 용어들 “기계-판독가능 매체” 및 “컴퓨터-판독가능 매체”는 기계-판독가능 신호로서 기계 명령들을 수신하는 기계-판독가능 매체를 포함하여, 기계 명령들 및/또는 데이터를 프로그래밍가능 프로세서에 제공하는 데 사용되는 임의의 컴퓨터 프로그램 제품, 비-일시적인 컴퓨터-판독가능 매체, 장치 및/또는 디바이스(예컨대, 자기 디스크들, 광학 디스크들, 메모리, PLD(Programmable Logic Device)들)를 지칭한다. 용어 “기계-판독가능 신호”는 기계 명령들 및/또는 데이터를 프로그래밍가능 프로세서에 제공하는 데 사용되는 임의의 신호를 지칭한다.

[0045] 본 명세서에서 설명된 프로세스들 및 논리 흐름들은 입력 데이터에 대해 동작하여 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래밍가능 프로세서들(데이터 프로세싱 하드웨어로도 지칭됨)에 의해 수행될 수 있다. 특수 목적 논리 회로, 예컨대, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 프로세스들 및 논리 흐름들이 또한 수행될 수 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서들은 범용 및 특수 목적 마이크로프로세서들 둘 모두, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 또는 이상의 프로세서들을 예로서 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 그 둘 모두로부터 명령들 및 데이터를 수신할 것이다. 컴퓨터의 본질적인 엘리먼트들은 명령들을 수행하기 위한 프로세서, 및 명령들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스들, 예컨대, 자기, 광자기 디스크들, 또는 광학 디스크들을 포함하거나, 또는 그것들로부터 데이터를 수신하거나 그것들로 데이터를 전송하거나 또는 그 둘 모두를 위해 동작가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 디바이스들을 가질 필요가 없다. 컴퓨터 프로그램 명령들 및 데이터를 저장하는 데 적합한 컴퓨터 판독가능 매체들은 반도체 메모리 디바이스들, 예컨대, EPROM, EEPROM, 및 플래시 메모리 디바이스들; 자기 디스크들, 예컨대, 내부 하드 디스크들 또는 착탈형 디스크들; 광자기 디스크들; 및 CD ROM 및 DVD-ROM 디스크들을 예로서 포함하는 모든 형태들의 비-휘발성 메모리, 매체들 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보완되거나 그것에 통합될 수 있다.

[0046] 사용자와의 상호작용을 제공하기 위해, 본 개시내용의 하나 이상의 양상들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예컨대, CRT(cathode ray tube), LCD(liquid crystal display) 모니터, 또는 터치 스크린, 및 선택적으로는, 사용자가 입력을 컴퓨터에 제공할 수 있게 하는 키보드 및 포인팅 디바이스, 예컨대, 마우스 또는 트랙볼을 갖는 컴퓨터 상에서 구현될 수 있다. 다른 종류들의 디바이스들도 또한 사용자와의 상호작용을 제공하기 위해 사용될 수 있고; 예컨대, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백, 예컨대, 시각적인 피드백, 가청적인 피드백, 또는 촉각적인 피드백일 수 있으며; 그리고 사용자로부터의 입력은 음향, 음성, 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가적으로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문헌들을 전송하고 그 디바이스로부터 문헌들을 수신함으로써; 예컨대, 웹 브라우저로부터 수신된 요청들에 대한 응답으로 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 전송함으로써 사용자와 상호작용할 수 있다.

[0047] 다수의 구현들이 설명되었다. 그럼에도 불구하고, 본 개시내용의 사상 및 범위로부터 벗어나지 않으면서 다양한 수정들이 이루어질 수 있다는 것이 이해될 것이다. 따라서, 다른 구현들은 다음의 청구항들의 범위 내에 있다.

Claims

방법(400)으로서,
데이터 프로세싱 하드웨어(134)에서, 소스 데이터 세트(104) 및 타겟 데이터 세트(106)를 수신하는 단계;
상기 데이터 프로세싱 하드웨어(134)에 의해, 상기 소스 데이터 세트(104) 및 상기 타겟 데이터 세트(106)에 기반하여 심층 학습 모델(150)에 대한 손실 함수(201)를 식별하는 단계 ― 상기 손실 함수(201)는:
인코더 가중치들(210);
소스 분류기 계층 가중치들(202);
타겟 분류기 계층 가중치들(204);
계수들(206); 및
정책 가중치(208)를 포함함 ―;
상기 심층 학습 모델(150)에 대한 가중치 할당들을 학습하도록 구성된 L2TL(learning to transfer learn) 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제1 단계 동안:
상기 데이터 프로세싱 하드웨어(134)에 의해, 상기 손실 함수(201)를 최소화하는 상기 인코더 가중치들(210), 상기 소스 분류기 계층 가중치들(202) 및 상기 타겟 분류기 계층 가중치들(204)을 학습하기 위해 경사 하강-기반 최적화를 적용하는 단계; 및
상기 데이터 프로세싱 하드웨어(134)에 의해, 정책 모델(209)의 샘플링 액션들에 의해 상기 계수들(206)을 결정하는 단계; 및
상기 L2TL 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제2 단계 동안, 상기 데이터 프로세싱 하드웨어(134)에 의해, 상기 손실 함수(201)에 대한 평가 지표(220)를 최대화하는 상기 정책 가중치(208)를 결정하는 단계를 포함하는, 방법(400).
제1 항에 있어서,
상기 정책 모델(209)은 학습 반복의 상기 제1 단계를 수행하는 동안 고정되는, 방법(400).
제1 항 또는 제2 항에 있어서,
상기 정책 모델(209)은 강화 학습-기반 정책 모델을 포함하는, 방법(400).
제1 항 내지 제3 항 중 어느 한 항에 있어서,
상기 손실 함수(201)에 대한 평가 지표(220)를 최대화하는 상기 정책 가중치(208)를 결정하는 단계는 상기 제1 단계 동안 학습된 상기 인코더 가중치들(210) 및 상기 타겟 분류기 계층 가중치들(204)을 사용하는 단계를 포함하는, 방법(400).
제1 항 내지 제4 항 중 어느 한 항에 있어서,
상기 손실 함수(201)에 대한 평가 지표(220)는 타겟 평가 데이터 세트(106')에 대한 상기 심층 학습 모델(150)의 성능을 정량화하고, 상기 타겟 평가 데이터 세트(106')는 상기 심층 학습 모델(150)에 의해 이전에 확인되지 않던 상기 타겟 데이터 세트(106)의 데이터 샘플들의 서브세트를 포함하는, 방법(400).
제1 항 내지 제5 항 중 어느 한 항에 있어서,
상기 복수의 학습 반복들 각각의 제1 단계 동안:
상기 데이터 프로세싱 하드웨어(134)에 의해, 특정 사이즈를 갖는, 상기 소스 데이터 세트(104)로부터의 소스 데이터 샘플들의 훈련 배치를 샘플링하는 단계; 및
상기 데이터 프로세싱 하드웨어(134)에 의해, 상기 손실 함수(201)를 최소화하는 상기 인코더 가중치들(210), 상기 소스 분류기 계층 가중치들(202) 및 상기 타겟 분류기 계층 가중치들(204)을 학습하도록 상기 심층 학습 모델(150)을 훈련시키는 데 사용하기 위한 N-최상 신뢰도 점수들을 갖는, 상기 소스 데이터 샘플들의 훈련 배치로부터의 소스 데이터 샘플들을 선택하는 단계를 더 포함하는, 방법(400).
제1 항 내지 제6 항 중 어느 한 항에 있어서,
상기 복수의 학습 반복들 각각의 제2 단계 동안:
상기 데이터 프로세싱 하드웨어에 의해, 상기 평가 지표(220)를 최대화하는 보상을 계산하기 위해 타겟 평가 데이터 세트(106')에 대한 정책 경사(policy gradient)를 사용하여 상기 정책 모델(209)을 훈련시키는 단계를 더 포함하고,
상기 손실 함수(201)에 대한 평가 지표(220)를 최대화하는 상기 정책 가중치(208)를 결정하는 단계는 계산된 보상에 기반하는, 방법(400).
제1 항 내지 제7 항 중 어느 한 항에 있어서,
상기 소스 데이터 세트(104)는 제1 복수의 이미지들을 포함하고; 그리고
상기 타겟 데이터 세트(106)는 제2 복수의 이미지들을 포함하는, 방법(400).
제8 항에 있어서,
상기 소스 데이터 세트(104)의 제1 복수의 이미지들의 이미지들의 수는 상기 타겟 데이터 세트(106)의 제2 복수의 이미지들의 이미지들의 수보다 더 큰, 방법(400).
제1 항 내지 제9 항 중 어느 한 항에 있어서,
상기 L2TL 아키텍처(200)는 인코더 네트워크 계층(152), 소스 분류기 계층(154), 및 타겟 분류기 계층(156)을 포함하는, 방법(400).
시스템(100)으로서,
데이터 프로세싱 하드웨어(134); 및
상기 데이터 프로세싱 하드웨어(134)와 통신하고 명령들을 저장하는 메모리 하드웨어(136)를 포함하고,
상기 명령들은, 상기 데이터 프로세싱 하드웨어(134) 상에서 실행될 때, 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하고, 상기 동작들은:
소스 데이터 세트(104) 및 타겟 데이터 세트(106)를 수신하는 동작;
상기 소스 데이터 세트(104) 및 상기 타겟 데이터 세트(106)에 기반하여 심층 학습 모델(150)에 대한 손실 함수(201)를 식별하는 동작 ― 상기 손실 함수(201)는:
인코더 가중치들(210);
소스 분류기 계층 가중치들(202);
타겟 분류기 계층 가중치들(204);
계수들(206); 및
정책 가중치(208)를 포함함 ―;
상기 심층 학습 모델(150)에 대한 가중치 할당들을 학습하도록 구성된 L2TL(learning to transfer learn) 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제1 단계 동안:
상기 손실 함수(201)를 최소화하는 상기 인코더 가중치들(210), 상기 소스 분류기 계층 가중치들(202) 및 상기 타겟 분류기 계층 가중치들(204)을 학습하기 위해 경사 하강-기반 최적화를 적용하는 동작; 및
정책 모델(209)의 샘플링 액션들에 의해 상기 계수들(206)을 결정하는 동작; 및
상기 L2TL 아키텍처(200)에 대한 복수의 학습 반복들 각각의 제2 단계 동안, 상기 손실 함수(201)에 대한 평가 지표(220)를 최대화하는 상기 정책 가중치(208)를 결정하는 동작을 포함하는, 시스템(100).
제11 항에 있어서,
상기 정책 모델(209)은 학습 반복의 상기 제1 단계를 수행하는 동안 고정되는, 시스템(100).
제11 항 또는 제12 항에 있어서,
상기 정책 모델(209)은 강화 학습-기반 정책 모델을 포함하는, 시스템(100).
제11 항 내지 제13 항 중 어느 한 항에 있어서,
상기 손실 함수(201)에 대한 평가 지표를 최대화하는 상기 정책 가중치(208)를 결정하는 동작은 상기 제1 단계 동안 학습된 상기 인코더 가중치들(210)을 사용하는 동작을 포함하는, 시스템(100).
제11 항 내지 제14 항 중 어느 한 항에 있어서,
상기 손실 함수(201)에 대한 평가 지표(220)는 타겟 평가 데이터 세트(106')에 대한 상기 심층 학습 모델(150)의 성능을 정량화하고, 상기 타겟 평가 데이터 세트(106')는 상기 심층 학습 모델(150)에 의해 이전에 확인되지 않던 상기 타겟 데이터 세트(106)의 데이터 샘플들의 서브세트를 포함하는, 시스템(100).
제11 항 내지 제15 항 중 어느 한 항에 있어서,
상기 동작들은 상기 복수의 학습 반복들 각각의 제1 단계 동안:
특정 사이즈를 갖는, 상기 소스 데이터 세트(104)로부터의 소스 데이터 샘플들의 훈련 배치를 샘플링하는 동작; 및
상기 손실 함수(201)를 최소화하는 상기 인코더 가중치들(210), 상기 소스 분류기 계층 가중치들(202) 및 상기 타겟 분류기 계층 가중치들(204)을 학습하도록 상기 심층 학습 모델(150)을 훈련시키는 데 사용하기 위한 N-최상 신뢰도 점수들을 갖는, 상기 소스 데이터 샘플들의 훈련 배치로부터의 소스 데이터 샘플들을 선택하는 동작을 더 포함하는, 시스템(100).
제11 항 내지 제16 항 중 어느 한 항에 있어서,
상기 동작들은 상기 복수의 학습 반복들 각각의 제2 단계 동안:
상기 평가 지표(220)를 최대화하는 보상을 계산하기 위해 타겟 평가 데이터 세트(106')에 대한 정책 경사를 사용하여 상기 정책 모델(209)을 훈련시키는 동작을 더 포함하고, 그리고
상기 손실 함수(201)에 대한 평가 지표(220)를 최대화하는 상기 정책 가중치(208)를 결정하는 동작은 계산된 보상에 기반하는, 시스템(100).
제11 항 내지 제17 항 중 어느 한 항에 있어서,
상기 소스 데이터 세트(104)는 제1 복수의 이미지들을 포함하고; 그리고
상기 타겟 데이터 세트(106)는 제2 복수의 이미지들을 포함하는, 방법(400).
제18 항에 있어서,
상기 소스 데이터 세트(104)의 제1 복수의 이미지들의 이미지들의 수는 상기 타겟 데이터 세트(106)의 제2 복수의 이미지들의 이미지들의 수보다 더 큰, 시스템(100).
제11 항 내지 제19 항 중 어느 한 항에 있어서,
상기 L2TL 아키텍처(200)는 인코더 네트워크 계층(152), 소스 분류기 계층(154), 및 타겟 분류기 계층(156)을 포함하는, 시스템(100).