KR20200106566A

KR20200106566A - 광역 및 심층 기계 학습 모델들

Info

Publication number: KR20200106566A
Application number: KR1020207025666A
Authority: KR
Inventors: 탈 샤키드; 로한 아닐; 히리시케시 발크리쉬나 애러드하이; 무스타파 이스피어; 글렌 앤더슨; 웨이 차이; 메흐메트 레벤트 코츠; 예레미야 함슨; 샤오빙 리우; 그레고리 션 코라도; 투샤르 디팍 찬드라; 흥-즈 쳉
Original assignee: 구글 엘엘씨
Priority date: 2016-04-13
Filing date: 2016-12-28
Publication date: 2020-09-14
Also published as: EP3427193A1; US10762422B2; CN109196527A; JP2019517057A; JP6758406B2; EP4068165A1; KR20180120240A; US20170300814A1; US20200372359A1; KR102155261B1; WO2017180208A1; KR102240662B1

Abstract

시스템은 하나 이상의 컴퓨터 및 상기 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금 예측 출력을 생성하기 위해 입력을 처리하기 위한 복합(combined) 기계 학습 모델을 구현하게 하는 명령들을 저장하는 하나 이상의 저장 디바이스를 포함한다. 상기 결합 모델은, 심층 모델 출력을 생성하기 위해 특징들을 처리하는 심층 기계 학습 모델; 광역 모델 출력을 생성하기 위해 상기 특징들을 처리하는 광역 기계 학습 모델; 및 예측 출력을 생성하기 위해 상기 심층 기계 학습 모델에 의해 생성된 심층 모델 출력과 상기 광역 기계 학습 모델에 의해 생성된 광역 모델 출력을 처리하는 결합 계층을 포함한다. 상기 심층 기계 학습 모델 및 상기 광역 기계 학습 모델을 모두 포함함으로써, 상기 결합 기계 학습 도델은 암기 및 일반화의 이점을 모두 얻을 수 있고 그에 따라 입력 특징들로부터 출력을 예측할 때 더 잘 수행할 수 있다.

Description

광역 및 심층 기계 학습 모델들{WIDE AND DEEP MACHINE LEARNING MODELS}

본 출원은 2016년 4월 13일에 출원된 미국 가출원 번호 62/322,161에 우선권을 주장한다. 상기 선행 출원의 개시는 본 출원의 일부로 간주되며 본 출원의 개시 내용에 참고로 통합된다.

본 출원은 기계 학습 모델을 사용하여 입력을 처리하는 것에 관한 것이다.

기계 학습 모델들은 입력을 수신하고, 상기 수신된 입력에 기초하여 출력(예컨대, 예측된 출력)을 생성한다. 일부 기계 학습 모델은 파라메트릭(parametric models) 모델이며, 상기 수신된 입력 및 상기 모델의 파라미터 값에 기초하여 출력을 생성한다.

일부 기계 학습 모델은 수신된 입력에 대한 출력을 생성하기 위해 여러 계층의 모델을 채용하는 심층 모델(deep model)이다. 예를 들어, 심층 신경망은 출력을 생성하기 위해 수신 입력에 비선형 변환을 각각 적용하는 출력 계층과 하나 이상의 은익(hidden) 계층을 포함한다.

본 명세서는 광역 및 심층 기계 학습 모델, 즉 광역 기계 학습 모델 및 심층 기계 학습 모델 모두를 포함하는 복합(combined) 기계 학습 모델을 구현하기 위한 시스템 및 방법을 기술한다.

일반적으로, 본 명세서에 기술된 주제의 하나의 혁신적인 양태는, 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터들에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 복수의 특징들을 포함하는 기계 학습 입력을 처리하기 위한 복합 기계 학습 모델을 구현하고 상기 기계 학습 입력에 대한 예측 출력(predicted output)을 생성하게 하는 명령들을 저장하는 하나 이상의 저장 디바이스를 포함한다. 상기 복합 기계 학습 모델은 심층 모델 중간 예측 출력을 생성하기 위해 상기 특징들을 처리하도록 구성된 심층 기계 학습 모델, 광역 모델 중간 예측 출력을 생성하기 위해 상기 특징들을 처리하도록 구성된 광역 기계 학습 모델 및 상기 예측 출력을 생성하기 위해 상기 심층 기계 학습 모델에 의해 생성된 상기 심층 모델 중간 예측 출력 및 상기 광역 기계 학습 모델에 의해 생성된 상기 광역 모델 중간 예측 출력을 처리하도록 구성된 결합 계층을 포함할 수 있고, 상기 심층 기계 학습 모델 및 상기 광역 기계 학습 모델은 상기 심층 모델 중간 예측 출력 및 상기 광역 모델 중간 예측 출력을 생성하기 위해 트레이닝 데이터에 대해 공동으로 트레이닝된다.

전술한 실시예 및 다른 실시예는 각각 단독으로 또는 조합하여 하기의 특징들 중 하나 이상을 선택적으로 포함할 수 있다. 상기 특징들은 컨텐츠 프리젠 테이션 설정의 특징들일 수 있고, 상기 예측 출력은 컨텐츠 프리젠 테이션 설정에 대한 예측 출력이다. 상기 컨텐츠 프리젠테이션 설정의 특징들은 상기 컨텐츠 프리젠테이션 설정에 제시될 컨텐츠 아이템의 특징들을 포함할 수 있고, 상기 컨텐츠 프리젠테이션 설정에 대한 상기 예측 출력은 상기 컨텐츠 아이템이 상기 컨텐츠 프리젠테이션 설정에서 제시되는 경우 특정 목적(objective)이 충족될 가능성을 나타낸다. 상기 결합 계층은 상기 컨텐츠 아이템이 상기 컨텐츠 프리젠테이션 설정에서 제시되는 경우 상기 특정 목적이 충족될 가능성을 나타내는 스코어를 생성하기 위해 상기 심층 기계 학습 모델에 의해 생성된 상기 심층 모델 중간 예측 출력 및 상기 광역 기계 학습 모델에 의해 생성된 상기 광역 모델 중간 예측 출력을 처리하도록 구성된 로지스틱 회귀 계층(logistic regression layer)일 수 있다. 상기 컨텐츠 프리젠테이션 설정에 대한 상기 예측 출력은 사전 결정된 컨텐츠 아이템 세트내의 각 컨텐츠 아이템에 대한 각각의 스코어일 수 있고, 각각의 스코어는 상기 대응하는 컨텐츠 아이템이 상기 컨텐츠 프리젠테이션 설정에서 제시되는 경우 특정 목적이 충족될 각각의 가능성을 나타낸다. 상기 결합 계층은 사전 결정된 컨텐츠 아이템 세트내의 각 컨텐츠 아이템에 대한 각각의 스코어를 생성하기 위해 상기 심층 기계 학습 모델에 의해 생성된 상기 심층 모델 중간 예측 출력 및 상기 광역 기계 학습 모델에 의해 생성된 상기 광역 모델 중간 예측 출력을 처리하도록 구성된 소프트맥스 계층일 수 있다. 상기 특징들은 컨텐츠 프리젠테이션 설정에서 컨텐츠 아이템이 제시될 사용자를 특정화하는 사용자 특징들을 포함할 수 있다. 상기 특징들은 상기 컨텐츠 프리젠테이션 설정의 컨텍스트를 특징화하는 컨텍스트 정보를 포함할 수 있다. 상기 심층 모델은 심층 신경망을 포함할 수 있다. 상기 심층 모델은 상기 특징의 각각의 수치 임베딩에 각 특징들 매핑하도록 구성된 임베딩 계층를 포함할 수 있다. 상기 광역 모델은 일반화된 선형 모델일 수 있다. 상기 광역 모델은 상기 특징들 및 상기 특징들로부터 생성된 변형된 특징을 처리하여 상기 광역 모델 중간 출력을 생성하도록 구성될 수 있다. 상기 광역 모델 중간 출력 및 상기 심층 모델 중간 출력은 로그 오즈(log odds)일 수 있다.

일반적으로, 본 명세서에 기술된 주제의 또 다른 혁신적인 양태는 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터가 전술한 바와 같은 복합 기계 학습 모델을 구현하게 하는 명령들을 저장하는 하나 이상의 컴퓨터 저장 매체에 구현될 수 있다.

본 명세서에 기술된 주제의 또 다른 혁신적인 양태는 전술한 복합 기계 학습 모델을 트레이닝시키는 방법으로 구현될 수 있다. 상기 방법은, 복수의 트레이닝 입력 각각에 대해, (i) 상기 트레이닝 입력의 특징들 및 (ii) 상기 트레이닝 입력에 대한 공지된(known) 출력을 포함하는 트레이닝 데이터를 획득하는 단계, 및 상기 트레이닝 입력 각각에 대해: 심층 기계 학습 모델의 파라미터들의 현재 값에 따라 상기 트레이닝 입력에 대한 심층 모델 중간 예측 출력을 생성하기 위해 상기 심층 기계 학습 모델을 사용하여 상기 트레이닝 입력의 특징들을 처리하는 단계, 상기 광역 기계 학습 모델의 파라미터들의 현재 값에 따라 상기 트레이닝 입력에 대한 광역 모델 중간 예측 출력을 생성하기 위해 상기 광역 기계 학습 모델을 사용하여 상기 트레이닝 입력의 특징들을 처리하는 단계, 상기 트레이닝 입력에 대한 예측 출력을 생성하기 위해 상기 결합 계층을 사용하여 상기 트레이닝 입력에 대한 상기 심층 모델 중간 예측 출력 및 상기 광역 모델 중간 예측 출력을 처리하는 단계, 상기 심층 기계 학습 모델과 상기 광역 기계 학습 모델의 파라미터들의 현재 값을 공동으로 조정하기 위해 상기 트레이닝 입력에 대한 상기 예측 출력과 상기 트레이닝 입력에 대한 상기 공지된 출력 간의 오차로부터 결정된 기울기(gradient)를 상기 결합 계층을 통해 상기 광역 기계 학습 모델 및 상기 심층 기계 학습 모델로 역전파하는 단계의 동작들을 포함할 수 있다.

전술한 실시예 및 다른 실시예는 각각 다음의 특징들 중 하나 이상을 단독으로 또는 조합하여 선택적으로 포함할 수 있다. 상기 방법은 미니-배치 확률적 최적화(mini-batch stochastic optimization)를 사용하여 상기 심층 기계 학습 모델 및 상기 광역 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계의 동작을 포함할 수 있다. 상기 방법은 LI 정규화를 따르는 FTLR(Follow-the-Regularized-Lead) 알고리즘을 사용하여 상기 광역 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계의 동작을 포함할 수 있다. 상기 방법은 적응 학습률(adaptive learning rate)을 갖는 확률적 기울기 최적화를 사용하여 상기 심층 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계의 동작을 포함할 수 있다.

본 명세서에서 설명된 주제의 또 다른 혁신적인 양태는 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 전술한 방법의 동작들을 수행하게 하는 명령들을 저장하는 하나 이상의 컴퓨터 저장 매체에 구현될 수 있다.

본 명세서에서 설명된 주제의 또 다른 혁신적인 양태는 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 전술한 방법의 동작들을 수행하게 하는 명령들을 저장하는 하나 이상의 저장 디바이스로 구현될 수 있다.

본 명세서에서 설명된 본 발명의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 일반적으로, 광역 기계 학습 모델은 상호곱 특징 변환의 광역 세트를 통해 특징 상호 작용을 암기할 수 있으며 심층 기계 학습 모델은 상기 입력 특징들에 임베딩 함수들을 적용함으로써 보이지 않는 특징 조합들을 일반화할 수 있다. 심층 기계 학습 모델과 광역 기계 학습 모델을 모두 포함함으로써, 상기 광역 및 심층 기계 학습 모델은 암기와 일반화의 이점을 모두 얻을 수 있으며 이에 따라 입력 특징들의 세트로부터 출력 예측을 더 잘 수행할 수 있다.

본 명세서의 주제의 하나 이상의 실시예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 주제의 다른 특징, 양태 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.

도 1은 광역 및 심층 기계 학습 모델의 예를 나타내는 블록도이다.
도 2는 광역 및 심층 학습 모델을 사용하여 예측 입력을 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 광역 및 심층 학습 모델을 포함하는 기계 학습 시스템을 트레이닝시키기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

도 1은 심층 기계 학습 모델(104), 광역 기계 학습 모델(106) 및 복합 계층(134)을 포함하는 광역 및 심층 기계 학습 모델(102)의 일 예의 블록도이다. 상기 광역 및 심층 기계 학습 모델(102)은 다수의 특징들(features), 예를 들어 특징(108-122)을 포함하는 모델 입력을 수신하여, 상기 모델 입력에 대한 예측된 출력, 예를 들어, 예측 출력(136)을 생성하도록 상기 특징들을 처리한다.

예로서, 상기 모델 입력은 단어들의 시퀀스일 수 있고, 상기 특징(108-122)은 상기 시퀀스 내의 단어들을 나타내는 토큰 및 상기 시퀀스 내의 단어들을 특징화하는 다른 특징들을 포함할 수 있다. 이 예에서, 상기 예측 출력(136)은 예를 들어, 특정 단어가 상기 시퀀스의 다음 단어일 가능성 또는 상기 시퀀스의 특정 단어에 대한 품사 또는 어의(word sense)에 대한 예측일 수 있다.

다른 예에서, 상기 특징(108-122)은 컨텐츠 프리젠테이션 설정(setting)의 특징을 포함할 수 있고, 상기 예측 출력(136)은 컨텐츠 프리젠테이션 설정에 대한 예측 출력일 수 있다.

일부 경우에, 상기 특징(108-122)은 컨텐츠 아이템의 특징을 포함할 수 있고, 상기 컨텐츠 프리젠테이션 설정에 대한 상기 예측 출력(136)은 상기 컨텐츠 아이템이 컨텐츠 프리젠테이션 설정에서 제시되는 경우 특정 목적(objective)이 충족될 가능성을 나타내는 스코어일 수 있다.

일부 경우에, 상기 특징(108-122)은 컨텐츠 아이템이 컨텐츠 프리젠테이션 설정에서 제시될 사용자를 특징화하는 사용자 특징을 포함할 수 있다.

일부 경우에, 상기 특징들은 컨텐츠 프리젠테이션 설정의 컨텍스트(context)를 특징화하는 컨텍스트 정보를 포함할 수 있다.

일부 이들 경우에, 상기 컨텐츠 프리젠테이션 설정에 대한 상기 예측 출력(136)은 다수의 컨텐츠 아이템들의 사전 결정된 세트 내의 각 컨텐츠 아이템에 대한 각각의 스코어이며, 각각의 스코어는 상기 대응하는 컨텐츠 아이템이 상기 컨텐츠 프리젠테이션 설정에서 제시되는 경우 상기 특정 목적이 충족될 각각의 가능성을 나타낸다.

예를 들어, 상기 컨텐츠 아이템 프리젠테이션 설정은 사용자에 의해 제출된 검색 쿼리에 대한 응답일 수 있다. 예를 들어, 상기 검색 쿼리는 인터넷 검색 엔진에 제출된 검색 쿼리일 수 있고, 상기 컨텐츠 아이템은 검색 쿼리에 대한 응답에 포함될 후보인 인터넷 리소스를 식별하는 인터넷 검색 결과 또는 상기 검색 쿼리에 대한 응답으로 상기 인터넷 검색 결과와 함께 디스플레이될 후보인 제3자 컨텐츠 아이템일 수 있다. 다른 예로서, 상기 검색 쿼리는 온라인 앱 스토어에 제출된 검색 쿼리일 수 있고, 상기 컨텐츠 아이템은 검색 쿼리에 응답하여 디스플레이될 후보인 상기 온라인 앱 스토어에서 이용 가능한 애플리케이션을 식별하는 애플리케이션 검색 결과일 수 있다.

다른 예로서, 상기 컨텐츠 아이템 프리젠테이션 설정은 인터넷 리소스, 예를 들어 웹 페이지의 특정 위치일 수 있고, 상기 컨텐츠 아이템들은 인터넷 리소스의 특정 위치에 디스플레이될 후보인 제3자 컨텐츠 아이템일 수 있다.

다른 예로서, 상기 컨텐츠 아이템 프리젠테이션 설정은 컨텐츠 추천 설정, 예를 들어, 특정 타입의 컨텐츠 아이템이 사용자에게 제시되고, 상기 사용자가 관심을 가질 수 있는 특정 타입의 다른 컨텐츠 아이템들의 추천들이 또한 사용자에게 제시될 수 있는 설정일 수 있다.

이 예에서, 광역 모델에 의해 스코어링된 컨텐츠 아이템들은 사용자에게 추천될 후보인 컨텐츠 아이템일 수 있다. 예를 들어, 영상(video)이 온라인 영상 공유 서비스에 의해 사용자에게 제시될 수 있다. 상기 제시된 영상과 함께, 사용자가 관심을 가질 수 있는 다른 영상의 섬네일이 상기 영상 공유 서비스에 의해 사용자에게 제시될 수 있다. 다른 예로서, 온라인 마켓 플레이스에 의해 판매되는 제품을 식별하는 제품 페이지가 사용자에게 제시될 수 있으며, 상기 제품 페이지는 사용자가 관심을 가질 수 있는 다른 제품에 대한 제품 페이지로의 링크를 또한 포함할 수 있다.

상기 특정 목적은 컨텐츠 프리젠테이션 설정에서 주어진 컨텐츠 아이템을 제시한 결과와 관련되는 다양한 목적 중 임의의 것일 수 있다.

예를 들어, 상기 특정 목적은 사용자가 컨텐츠 프리젠테이션 설정에서 제시되는 컨텐츠 아이템을 선택하는 것일 수 있다. 이 경우, 주어진 컨텐츠 아이템에 대한 스코어는 사용자가 컨텐츠 프리젠테이션 설정에서 제시되는 컨텐츠 아이템을 클릭하거나 그렇지 않으면 상기 컨텐츠 아이템을 선택할 가능성을 나타낸다.

또 다른 예로서, 상기 특정 목적은 컨텐츠 프리젠테이션 설정에서 제시되는 컨텐츠 아이템을 본 후에, 하나 이상의 특정 액션, 예를 들어, 아이템 구매를 수행하는 사용자일 수 있다. 이 경우, 주어진 컨텐츠 아이템에 대한 스코어는 상기 주어진 컨텐츠 아이템이 컨텐츠 프리젠테이션 설정에서 제시되는 경우 사용자가 상기 지정된 액션들 중 하나를 수행할 가능성을 나타낸다.

다른 예로서, 상기 특정 목적은 컨텐츠 프리젠테이션 설정에 컨텐츠 아이템을 디스플레이함으로써 사용자 참여(engagement)에 악 영향을 미치지 않는 것일 수 있다. 이 경우 주어진 컨텐츠 아이템에 대한 스코어는 컨텐츠 프리젠테이션 설정에서 상기 주어진 컨텐츠 아이템이 제시되는 경우 사용자 참여 메트릭(metric)의 값 또는 사용자 참여 메트릭 값의 변화를 나타낸다. 상기 사용자 참여 메트릭은 제시된 컨텐츠 항목과의 사용자의 참여를 측정하는 임의의 적절한 메트릭일 수 있다.

상기 심층 기계 학습 모델(104)은 임베딩 계층(150) 및 심층 신경망(130)를 포함하는 심층 모델이다. 일부 구현예에서, 상기 임베딩 계층은 심층 신경망(130)에 포함된다. 상기 임베딩 계층(150)은 임베딩 함수 세트, 예컨대 임베딩 함수들(124~128)을 포함한다. 상기 심층 신경망(130)은 다수의 동작 계층을 포함하고, 상기 계층들 중 적어도 하나는 수신된 입력에 비선형 변환을 적용하여 출력을 생성한다.

특히, 상기 심층 기계 학습 모델(104)은 심층 모델 중간 예측 출력을 생성하기 위해 상기 광역 및 심층 학습 모델(102)의 모델 입력에 포함된 제1 특징 세트를 처리하도록 구성된다. 예를 들어, 상기 심층 기계 학습 모델(104)은 제1 특징 세트(108~114)를 처리하도록 구성된다. 상기 임베딩 계층은 임베딩 함수들을 상기 특징 세트(108~114) 중 하나 이상에 적용할 수 있다. 예를 들어, 상기 임베딩 계층(150)은 임베딩 함수(124~128)를 특징(110~114)에 적용한다. 일부 경우, 상기 임베딩 계층에 의해 처리되는 특징들은 사용자 특징(예컨대, 국가, 언어 및 인구 통계), 컨텍스트 특징(예컨대, 기기, 시간대 및 요일) 및 노출 특징(예컨대, 앱 사용 연령, 앱의 이력적 통계)와 같은 드문, 범주형(categorical) 특징들이다. 상기 임베딩 계층에 의해 처리되지 않는 다른 특징들은 소프트웨어 애플리케이션의 다수의 설치와 같은 지속적 특징을 포함할 수 있다. 상기 임베딩 함수(124- 128) 각각은 각각의 특징(110-114)을 예를 들어 상기 특징의 부동 소수점 벡터 표현과 같은 각각의 수치 임베딩에 매핑하는 각각의 특징(110-114)에 변환을 적용한다. 상기 수치 임베딩은 하나 이상의 부동 소수점 값 또는 인코딩이 부동 소수점 값을 나타내는 하나 이상의 양자화 정수값을 포함할 수 있다. 임베딩 함수들은 도 2를 참조하여 이하에서 보다 상세하게 설명될 것이다.

심층 신경망(130)는 임베딩 계층 및 선택적으로 다른 입력 특징들(예를 들어, 특징(108))로부터 수치 임베딩을 입력으로서 수신한다. 상기 심층 신경망(130)는 심층 모델 중간 예측 출력을 생성하기 위해 상기 수신된 입력에 비선형 변환을 각각 적용하는 다수의, 예를 들어 3개 이상의 동작들의 계층을 포함한다. 따라서, 상기 심층 신경망(130)은 상기 수치 임베딩 및 다른 입력 특징들에 다수의 비선형 변환을 적용하여, 상기 입력의 대체 표현, 즉 상기 심층 모델 중간 예측 출력을 생성한다.

상기 광역 기계 학습 모델(106)은 광역 및 협역(shallow) 모델, 예를 들어 일반화된 선형 모델(138)이며, 상기 광역 및 심층 학습 모델(102)의 상기 모델 입력에 포함된 제2 특징 세트(예컨대, 특징들(116-122)를 처리하여 광역 모델 중간 예측 출력을 생성하도록 구성된다. 일부 구현예에서, 상기 제2 특징 세트 내의 특징 중 일부는 상기 제1 특징 세트 내의 특징 중 일부와 중첩될 수 있다. 일부 다른 구현예에서, 상기 제2 특징 세트는 제1 특징 세트와 완전히 다를 수 있다.

일부 구현예에서, 광역 기계 학습 모델(106)은 상호곱(cross-product) 특징 변환(132)을 사용하여, 제2 특징 세트의 특징들 내의 원래의 입력 특징들(예컨대, 특징들(120 및 122)) 및 다른 특징들(예컨대, 특징들(116-118)) 모두를 처리하여 상기 광역 모델 중간 출력을 생성하도록 구성된다. 일부 경우, 상기 상호곱 특징 변환(132)은 범주형 특징에 적용된다. 2진 특징들의 경우, 상기 상호곱 변환은 상기 구성 특징들이 모두 1이면 1이고 그렇지 않으면 0이다. 이 변환은 2진화된 범주형 특징들 간의 상호 작용을 포착하고, 상기 일반화된 선형 모델에 비선형성을 추가할 수 있다.

각 중간 출력내의 각 값은 예를 들어 로그 오즈(log odds) 출력, 확률값 또는 다른 종류의 수치값일 수 있다.

상기 복합 기계 학습 모델(102)은 심층 기계 학습 모델(104)에 의해 생성된 심층 모델 중간 예측 출력 및 상기 광역 기계 학습 모델(106)에 의해 생성된 광역 모델 중간 예측 출력을 처리하여 상기 예측 출력(136)을 생성하도록 구성된 결합 계층(134)을 또한 포함한다. 상기 예측 출력이 단일 스코어인 구현예에서, 상기 결합 계층은 로지스틱 회귀 계층(logistic regression layer)일 수 있다. 상기 예측 출력이 다수의 스코어를 포함하는 구현예에서, 상기 결합 계층은 소프트맥스 계층(softmax layer)일 수 있다.

도 2는 광역 및 심층 학습 모델을 사용하여 예측 입력을 생성하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 상기 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다.

상기 시스템은 입력의 특징들을 획득한다(단계 202). 전술한 바와 같이, 상기 특징들 각각은 시퀀스 내의 단어들을 나타내는 하나의 토큰 또는 다수의 토큰과 상기 시퀀스 내의 단어들을 특징화(characterizing)하는 다른 특징들을 포함할 수 있다. 상기 특징들 각각은 각 특징에 포함된 토큰들의 수에 따라 다른 타입일 수 있다.

상기 시스템은 심층 기계 학습 모델을 사용하여 상기 획득된 특징들로부터 제1 특징 세트를 처리하여 심층 모델 중간 예측 출력을 생성한다(단계 204). 상술 한 바와 같이, 상기 심층 기계 학습 모델은 심층 신경망 및 임베딩 함수들을 포함하는 임베딩 계층을 포함한다. 일부 구현예에서, 상기 시스템은 임베딩 계층을 상기 제1 특징 세트의 서브 세트에 적용한다. 특히, 시스템은 서브 세트 내의 특징들의 특징 타입 각각에 대해 상기 임베딩 함수의 각각을 사용하여 상기 특징의 수치 임베딩, 예를 들어 부동 소수점 벡터 표현을 생성한다. 특징 타입 및 구현예에 따라, 주어진 특징 타입에 대한 상기 임베딩 함수는 임의의 다양한 임베딩 함수 중 하나일 수 있다.

예를 들어, 특징들이 단일 토큰으로 구성되는 특징 타입에 대해, 상기 임베딩 함수는 심플(simple embedding) 임베딩 함수일 수 있다. 심플 임베딩 함수는 단일 토큰을 부동 소수점 벡터, 즉 부동 소수점 값의 벡터에 매핑한다. 예를 들어, 상기 심플 임베딩 함수는, 파라미터들의 현재 값에 기초하여(예를 들어 특정 록업 테이블을 사용하여) 토큰 "cat"을 벡터 [0.1, 0.5, 0.2]에 매핑하고 상기 단어 "iPod"를 벡터 [0.3, 0.9, 0.0]로 매핑할 수 있다.

다른 예로서, 특징들이 잠재적으로 2개 이상의 토큰 리스트로 구성될 수 있는 특징 타입에 대해, 상기 임베딩 함수는 병렬 임베딩 함수일 수 있다. 병렬 임베딩 함수는 토큰 리스트내의 각 토큰을 각각의 부동 소수점 벡터에 매핑하여, 상기 각각의 부동 소수점 벡터의 연결인 단일 벡터를 출력한다. 예를 들어, 정렬된 토큰리스트("Atlanta", "Hotel")에 대해, 상기 병렬 임베딩 함수는 "Atlanta"에 벡터 [0.1, 0.2, 0.3]를 매핑하고 "Hotel"을 벡터[0.4, 0.5, 0.6]에 매핑하여, [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]을 출력한다. 상기 각각의 부동 소수점 벡터를 식별하기 위해, 상기 병렬 임베딩 함수는 단일 룩업 테이블 또는 다수의 상이한 룩업 테이블을 사용할 수 있다.

다른 예로서, 특징들이 잠재적으로 2개 이상의 토큰 리스트로 구성될 수 있는 특징 타입에 대해, 상기 임베딩 함수는 결합 임베딩 함수(combining embedding function)일 수 있다. 결합 임베딩 함수는 리스트내의 각 토큰을 각각의 부동 소수점 벡터에 매핑한 다음 상기 각각의 부동 소수점 벡터를 단일 병합 벡터(single merged vector)에 병합한다. 상기 결합 임베딩 함수는 상기 각각의 부동 소수점 벡터의 합, 평균 또는 가중된 선형 결합과 같은 선형 함수 또는 비선형 함수(예컨대, 구성 요소별 최대 또는 표준 제한 선형 조합(component-wise maximum or a norm-constrained linear combination))을 사용하여 상기 각각의 부동 소수점 벡터를 병합할 수 있다. 상기 각각의 부동 소수점 벡터를 식별하기 위해, 상기 병렬 임베딩 함수는 단일 룩업 테이블 또는 다수의 상이한 룩업 테이블을 사용할 수 있다. 예를 들어, 상기 정렬된 리스트 {"Atlanta", "Hotel"}에 대해, 상기 병렬 임베딩 함수는 "Atlanta")를 벡터 [0.1, 0.2, 0.3]에 매핑하고 "Hotel"을 벡터 [0.4, 0.5, 0.6]에 매핑하여, 상기 두 벡터의 합계 [0.5, 0.7, 0.9]를 출력한다.

다른 예로서, 특징들이 잠재적으로 2개 이상의 토큰 리스트로 구성될 수 있는 특징 타입에 대해, 상기 임베딩 함수는 혼합 임베딩(mixed embedding) 함수일 수 있다. 혼합 임베딩 함수는 토큰 리스트 내의 각 토큰을 각각의 부동 소수점 벡터에 매핑하여 상기 각각의 부동 소수점 벡터의 연결인 초기 벡터를 생성한다. 그런 다음, 상기 혼합 임베딩 함수는 각각의 부동 소수점 벡터를 병합 벡터에 병합하여 상기 병합 벡터를 상기 초기 벡터와 연결한다. 예를 들어, 상기 정렬 리스트 { "Atlanta", "Hotel"}에 대해, 상기 혼합 임베딩 함수는 상기 병렬 임베딩 함수 및 상기 결합 임베eld 함수에 의해 출력된 벡터들의 연결(concatenation) 즉, [0.1, 0.2, 0.3, 0.4 , 0.5, 0.6, 0.5, 0.7, 0.9]을 출력할 수 있다.

구현예에 따라, 시스템은 2개의 상이한 특징 타입에 대해 2가지 상이한 종류의 임베딩 함수를 이용할 수 있고, 상기 2가지 임베딩 함수는 파라미터를 공유하거나 공유하지 않을 수 있다. 예를 들어, 상기 시스템은 제1 특징 타입에 대한 결합 임베딩 함수 및 제2 특징 타입에 대한 혼합 임베딩 함수을 이용할 수 있다.

하나 이상의 특징이 이산형(discrete)이 아닌 경우, 임베딩 함수을 사용하여 상기 특징을 처리하기 전에, 시스템은 해시 함수를 사용하여 각 비-이산 특징을 해시할 수 있다. 그런 다음, 시스템은 각 해시된 특징을 미리 정의된 파티션 세트 중 하나로 파티션하고, 상기 특징에 대한 상기 임베딩 함수을 사용하여 상기 파티션에 대응하는 값을 처리할 수 있다. 또한, 특정 특징이 획득될 수 없는 경우, 시스템은 해당 특징을 사전 결정된 값으로 매핑할 수 있다.

일부 구현예에서, 부동 소수점 값 대신에, 주어진 임베딩 함수는 상이한 종류의 수치값을 생성할 수 있다. 예를 들어, 상기 임베딩 함수는 인코딩이 부동 소수점 값을 나타내는 양자화된 정수값을 생성할 수 있다.

상기 시스템은 수치 임베딩(예컨대, 부동 소수점 벡터 표현)을 처리하고, 선택적으로 하나 이상의 원래 입력 특징들을 심층 신경망을 사용하여 처리한다. 상기 심층 신경망는 예를 들어, 도 1의 심층 신경망(130)일 수 있다. 상기 심층 망은 비선형 변환을 포함하여 적어도 하나의 계층을 갖는 다수의 계층을 포함한다. 비선형 변환은 각각의 파라미터 세트의 값에 기초하여 정의될 수 있다. 예를 들어, 상기 심층 망은 하나 이상의 은익 신경 계층 및 스파스 바이너리(sparse binary) 출력 계층, 예를 들어 모든 위치에서 0 또는 1인 벡터를 출력하는 계층을 포함할 수 있다. 일반적으로, 상기 심층 망은 특징들의 서브 세트의 부동 소수점 벡터 표현 및 상기 제1 특징 세트의 나머지 특징들에 기초하여 심층 모델 중간 예측 출력으로서 상기 입력의 대체 표현을 생성한다.

상기 시스템은 광역 기계 학습 모델을 사용하여 상기 획득된 특징들로부터 제2 특징 세트를 처리하여 광역 모델 중간 예측 출력을 생성한다(단계(206)). 일부 구현예에서, 상기 제2 특징 세트는 상기 제1 특징 세트와 중첩될 수 있다. 일부 다른 구현예에서, 상기 제2 특징 세트는 상기 제1 특징 세트와 다를 수 있다. 상기 시스템은 상기 제2 특징 세트의 서브 세트에 상호곱 특징 변환을 적용하여 변환된 (transformed) 특징들을 생성할 수 있다. 그런 다음, 시스템은 상기 광역 모델을 사용하는 상호곱 특징 변환의 사용을 통해 상기 제2 특징 세트내의 원래 입력 특징들 및 상기 다른 특징들로부터 생성된 상기 변환된 특징들 모두를 처리하여 광역 모델 중간 출력을 생성할 수 있다. 상기 광역 모델은 상기 일반화된 선형 모델을 상기 원래 입력 특징들과 상기 변환된 특징들에 적용하여 광역 모델 중간 출력을 생성할 수 있다.

상기 시스템은 심층 모델 출력 및 광역 모델 출력을 처리하여 결합 계층을 사용하는 예측 출력을 생성한다(단계 208). 일반적으로, 상기 결합 계층은 예를 들어 상기 2개의 출력의 합 또는 가중 합을 계산함으로써 상기 심층 모델 출력과 광역 모델 출력을 결합하여 결합 출력을 생성한 다음 상기 결합 출력으로부터 예측 출력을 생성한다. 상기 예측 출력이 단일 스코어인 구현예에서, 상기 시스템은 심층 모델 출력 및 광역 모델 출력을 처리하기 위해 결합 계층으로서 로지스틱 회귀 계층을 사용할 수 있다. 상기 예측 출력이 다수의 스코어를 포함하는 구현예에서, 상기 시스템은 심층 모델 출력 및 광역 모델 출력을 처리하기 위해 결합 계층으로서 소프트맥스 계층을 사용할 수 있다.

도 3은 광역 및 심층 학습 모델을 포함하는 기계 학습 시스템을 트레이닝하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 상기 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다.

광역 모델 및 심층 모델의 파라미터들의 트레이닝된 값을 결정하기 위해, 시스템은 트레이닝 데이터에 대해 상기 결합 모델을 트레이닝시킨다.

일부 실시예들에서 및 도 3에 기술된 바와 같이, 시스템은 광역 모델 및 심층 모델을 공동으로(jointly) 트레이닝시킨다.

시스템은 다수의 트레이닝 입력 각각에 대해, (i) 트레이닝 입력의 특징들 및 (ii) 트레이닝 입력에 대한 공지된 출력을 포함하는 트레이닝 데이터를 획득한다(단계 302).

그 다음, 시스템은 각각의 트레이닝 입력에 대해, 심층 기계 학습 모델을 사용하여 상기 트레이닝 입력의 특징를 처리함으로써 결합 모델을 트레이닝시켜, 상기 심층 기계 학습 모델의 파라미터들의 현재 값에 따라 상기 트레이닝 입력에 대한 심층 모델 중간 예측 출력을 생성한다(단계 304).

시스템은 광역 기계 학습 모델을 사용하여 상기 트레이닝 입력의 특징들을 처리하여, 상기 광역 기계 학습 모델의 파라미터들의 현재 값에 따라 상기 트레이닝 입력에 대한 광역 모델 중간 예측 출력을 생성한다(단계 306).

이어서, 시스템은 상기 결합 계층을 사용하여 상기 트레이닝 입력에 대한 상기 심층 모델 중간 예측 출력 및 상기 광역 모델 중간 예측 출력을 처리하여, 상기 트레이닝 입력에 대한 예측 출력을 생성한다(단계 308).

그런 다음, 시스템은 상기 트레이닝 입력에 대한 예측 출력과 상기 트레이닝 입력에 대한 공지된(known) 출력 간의 오차(error)를 결정한다. 게다가, 시스템은 상기 결합 계층를 통해 상기 오차로부터 결정된 기울기(gradient)를 상기 광역 기계 학습 모델 및 심층 기계 학습 모델로 역전파(backpropagates)하여, 상기 오차를 감소시키는 방향으로 상기 심층 기계 학습 모델 및 광역 기계 학습 모델의 상기 현재의 파라미터 값들을 공동으로 조정한다(단계 310). 또한, 상기 역 전파의 방법을 통해, 시스템은 심층 학습 모델로 오차 신호를 전송하여, 상기 심층 학습 모델이 예를 들어 심층 신경망 및 임베딩 함수 세트와 같은 그의 내부 컴포넌트의 파라미터를 조정하도록 한다. 역전파의 연속 단계. 시스템은 또한 상기 광역 학습 모델로 오차 신호를 전송하여 상기 광역 학습 모델이 상기 일반화된 선형 모델의 파라미터들을 조정하도록 한다.

일반적으로, 이러한 구현에서, 시스템은 미니-배치(batch) 확률적 최적화를 사용하여 심층 기계 학습 모델 및 광역 기계 학습 모델을 트레이닝시킨다. 예를 들어, 시스템은 LI 정규화를 따르는 FTLR(Follow-the-Regularized-Lead) 알고리즘을 사용하여 상기 광역 기계 학습 모델을 트레이닝할 수 있고 적응 학습률(adaptive learning rate)을 갖는 확률적 기울기 최적화를 사용하여 심층 기계 학습 모델을 제2 트레이닝 데이터에 대해 트레이닝할 수 있다.

일부 다른 구현예에서, 시스템은 먼저 상기 결합 모델과 별도로 하나의 트레이닝 데이터 세트에 대해 상기 광역 모델을 트레이닝하고, 그런 다음 상기 결합 모델의 일부로서 동일하거나 상이한(possibly different) 트레이닝 데이터에 대해 상기 심층 모델을 트레이닝시킨다.

즉, 시스템은 먼저 상기 심층 모델에 의해 생성된 중간 출력(intermediate outputs)을 고려하지 않고 상기 트레이닝 데이터에 대해 광역 모델을 트레이닝시킨다.

이러한 다른 구현들에서, 상기 광역 모델을 트레이닝한 후 상기 심층 모델을 트레이닝하는데 사용되는 트레이닝 데이터내의 각 트레이닝 입력에 대해, 시스템은 심층 기계 학습 모델을 사용하여 상기 트레이닝 입력의 특징들을 처리하여 상기 심층 기계 학습 모델의 파라미터들의 현재 값에 따라 상기 트레이닝 입력에 대한 심층 모델 중간 예측 출력을 생성하고, 상기 광역 기계 학습 모델을 이용하여 상기 트레이닝 입력의 특징들을 처리하여 상기 광역 기계 학습 모델의 트레이닝된 파라미터 값들에 따라 상기 트레이닝 입력에 대한 광역 모델 중간 예측 출력을 생성하고, 그리고 상기 결합 계층을 사용하여 상기 트레이닝 입력에 대한 상기 심층 모델 중간 예측 출력 및 상기 광역 모델 중간 예측 출력을 처리하여 상기 트레이닝 입력에 대한 예측 출력을 생성한다. 그런 다음, 상기 시스템은 상기 심층 기계 학습 모델에 대한 결합 계층를 통해 상기 트레이닝 입력에 대한 상기 예측 출력과 상기 트레이닝 입력에 대한 상기 공지된 출력 사이의 오차로부터 결정된 기울기를 역전파하여, 상기 심층 기계 학습 모델의 파라미터들의 현재 값을 조정, 즉 상기 광역 모델의 상기 트레이닝된 파라미터 값들을 고정(fixed)으로 유지할 수 있다.

또 다른 구현예에서, 시스템은 먼저 상기 결합 모델과 별도로 하나의 트레이닝 데이터 세트에 대해 상기 심층 모델을 트레이닝하고, 그런 다음 상기 결합 모델의 일부로서 동일하거나 상이한 트레이닝 데이터에 대해 상기 광역 모델을 트레이닝시킨다..

즉, 시스템은 광역 모델에 의해 생성된 중간 출력을 고려하지 않고 상기 트레이닝 데이터에 대해 상기 심층 모델을 먼저 트레이닝시킨다.

이러한 다른 구현들에서, 상기 심층 모델을 트레이닝한 후 상기 심층 모델을 트레이닝하는데 사용되는 트레이닝 데이터내의 각 트레이닝 입력에 대해, 시스템은 광역 기계 학습 모델을 사용하여 상기 트레이닝 입력의 특징들을 처리하여 상기 광역 기계 학습 모델의 파라미터들의 현재 값에 따라 상기 트레이닝 입력에 대한 광역 모델 중간 예측 출력을 생성하고, 상기 심층 기계 학습 모델을 이용하여 상기 트레이닝 입력의 특징들을 처리하여 상기 심층 기계 학습 모델의 트레이닝된 파라미터 값들에 따라 상기 트레이닝 입력에 대한 심층 모델 중간 예측 출력을 생성하고, 그리고 상기 결합 계층을 사용하여 상기 트레이닝 입력에 대한 상기 광역 모델 중간 예측 출력 및 상기 심층 모델 중간 예측 출력을 처리하여 상기 트레이닝 입력에 대한 예측 출력을 생성한다. 그런 다음, 상기 시스템은 상기 광역 기계 학습 모델에 대한 결합 계층를 통해 상기 트레이닝 입력에 대한 상기 예측 출력과 상기 트레이닝 입력에 대한 상기 공지된 출력 사이의 오차로부터 결정된 기울기를 역전파하여, 상기 광역 기계 학습 모델의 파라미터들의 현재 값을 조정, 즉 상기 심층 모델의 상기 트레이닝된 파라미터 값들을 고정으로 유지할 수 있다.

특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은, 시스템에 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합이 설치되어 동작시에 상기 시스템으로 하여금 상기 동작들 또는 액션들을 수행하게 하는 것을 의미한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은, 하나 이상의 프로그램이 데이터 처리 장치에 의해 실행될 때 상기 장치로 하여금 상기 동작들 또는 액션들을 수행하게 하는 명령들을 포함함을 의미한다.

본 명세서에서 설명된 주제 및 기능적 동작들의 실시예는 본 명세서에 개시된 구조 및 구조적 등가물 또는 이들 중 하나 이상의 조합을 포함하는, 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있다. 본 명세서에서 설명된 주제의 실시예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의한 실행되거나 또는 데이터 처리 장치의 동작을 제어하기 위한 유형의 비일시적인 프로그램 캐리어상에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 선택적으로, 또는 부가적으로, 상기 프로그램 명령들은 인위적으로 생성된 전파 신호, 예를 들어 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하도록 생성된 기계-생성의 전기적, 광학적 또는 전자기적 신호상에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스 또는 이들 중 하나 이상의 조합일 수 있다. 그러나, 상기 컴퓨터 저장 매체는 전파 신호가 아니다.

"데이터 처리 장치"라는 용어는 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 다수의 프로세서 또는 컴퓨터를 포함하는, 데이터 처리를 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그램 가능 게이트 어레이) 또는 ASIC(주문형 집적 회로)을 포함할 수 있다. 상기 장치는 또한 하드웨어 이외에, 관심 대상의(in question) 컴퓨터 프로그램, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들의 하나 이상의 조합을 구성하는 코드에 대한 실행 환경을 생성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있는)은 컴파일된 또는 해석된 언어 또는 선언적 또는 절차적 언어를 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있으며, 독립 실행형 프로그램또는 모듈, 컴포넌트, 서브 루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 장치(unit)를 포함하는 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 프로그램 또는 데이터를 보유하고 있는 파일의 일부, 관심 대상의 프로그램 전용 파일 또는 다수의 조정 파일(예컨대, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신망으로 상호 연결된 다수의 컴퓨터상에서 실행되도록 배포될 수 있다.

본 명세서에서 사용된 것처럼, "엔진" 또는 "소프트웨어 엔진"은 상기 입력과 다른 출력을 제공하는 소프트웨어로 구현된 입/출력 시스템을 지칭한다. 엔진은 라이브러리, 플랫폼, 소프트웨어개발 키트(SDK) 또는 객체와 같은 인코딩된 기능 블록일 수 있다. 각 엔진은 서버, 휴대 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 뮤직 플레이어, 전자책 리더, 랩탑 또는 데스크탑 컴퓨터, PDA, 스마트폰, 또는 하나 이상의 프로세서 및 컴퓨터 판독 가능 매체를 포함하는 고정식 또는 휴대용 디바이스와 같은 임의 유형의 컴퓨팅 디바이스에서 구현될 수 있다. 또한, 2개 이상의 엔진은 동일한 컴퓨팅 디바이스 또는 상이한 컴퓨팅 장치 디바이스상에 구현될 수 있다.

본 명세서에서 설명된 프로세스 및 논리 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스 및 논리 흐름은 또한 FPGA 또는 ASIC과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 상기 장치 역시 특수 목적 논리 회로로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는, 예를 들어 범용 또는 특수 목적 마이크로 프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성 요소는 명령들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)를 저장하기 위한 하나 이상의 대용량 저장 디바이스를 포함하거나, 또는 하나 이상의 대용량 저장 디바이스로부터 데이터를 수신하거나 데이터를 둘 모두를 하도록 동작 가능하게 결합될 것이다. 그러나 컴퓨터에는 그러한 디바이스들이 있을 필요가 없다. 또한, 컴퓨터는 다른 디바이스, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 디바이스(예컨대, 범용 직렬 버스(USB) 플래시 드라이브)에 구현될 수 있다.

컴퓨터 프로그램 명령들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예로서 반도체 베모리 디바이스(예컨대, EPROM, EEPROM 및 플래시 메모리 디바이스), 자기 디스크(예컨대, 내부 하드 디스크 또는 이동식 디스크), 광 자기 디스크, 및 CD ROM 및 DVD-ROM 디스크를 포함하는, 모든 형태의 비-휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 기재된 주제의 실시예는 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예컨대, 마우스 또는 트랙볼)를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스가, 예를 들어, 임의의 형태의 감각 피드백(예컨대, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있는 상기 사용자에게 제공되는 피드백은 및 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있는 상기 사용자로터의 입력 뿐만 아니라 사용자와의 상호 작용을 제공하는데 사용될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스와 문서를 주고 받음으로써, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 디바이스상의 웹 브라우저에 웹 페이지를 전송함으로써 사용자와 상호 작용할 수 있다.

본 명세서에서 설명된 본질의 실시예는 데이터 서버와 같은 백 엔드 컴포넌트를 포함하거나, 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 또는 사용자가 본 명세서에서 기술된 주제의 구현예들과 상호 작용할 수 있는 그래픽 사용자인터페이스 또는 웹 브라우저를 갖는 프론트 엔드 컴포넌트를 포함하거나 또는 상기 하나 이상의 그러한 백 엔드, 미들웨어 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스탬에 구현될 수 있다. 상기 시스템의 컴포넌트는 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 광역 통신망 ("WAN"), 예를 들어 인터넷을 포함한다.

상기 컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 전형적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램의 의해 발생한다.

본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에서 설명되는 소정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예와 간련하여 설명된 다양한 특징은 또한 다수의 실시예에서 개별적으로 또는 임의의 적절한 서브 조합으로 구현될 수 있다. 게다가, 특징들은 소정 조합으로 작용하고 상술한 바와같이 초기에 청구된 것으로 설명될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 어떤 경우 조합으로부터 제거될 수 있고, 상기 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 유도될 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 결과를 얻기 위해, 그러한 동작들이 도시된 순서 또는 순차적인 순서로 수행될 필요가 있거나 도시된 모든 동작들이 수행되도록 요구하는 것으로 이해되어서는 안된다. 소정 상황에서, 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시예들에서 다양한 시스템 모듈 및 컴포넌트들의 분리는 모든 실시예에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 설명된 프로그램 컴포넌트 및 시스템은 일반적으로 단일 소프트웨어 제품에 통합되거나 여러 소프트웨어 제품에 패키질징 수 있다.

상기 주제의 특정 실시예가 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 상기 청구항에 인용된 액션들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 얻을 수 있다. 하나의 예로서, 첨부 도면들에 도시된 프로세스는 바람직한 결과를 얻기 위해, 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 소정 구현예에서, 멀티 태스킹 및 병렬 처리가 유리할 수 있다.

Claims

하나 이상의 컴퓨터 및 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 기계 학습 입력을 처리하기 위한 복합(combined) 기계 학습 모델을 구현하게하는 명령들을 저장하는 하나 이상의 저장 디바이스를 포함하는 시스템으로서, 상기 복합 기계 학습 모델은,
연속 특징들을 포함하는 복수의 특징의 서브 세트를 처리하여 심층 모델 중간 예측 출력을 생성하도록 구성된 심층 기계 학습 모델;
복수의 특징의 이진 특징들을 처리하여 광역 모델 중간 예측 출력을 생성하도록 구성된 광역 기계 학습 모델; 및
심층 기계 학습 모델에 의해 생성된 심층 모델 중간 예측 출력과 광역 기계 학습 모델에 의해 생성된 광역 모델 중간 예측 출력을 처리하여 예측 출력을 생성하도록 구성된 결합 계층을 포함하고,
상기 심층 기계 학습 모델과 광역 기계 학습 모델은 심층 모델 중간 예측 출력 및 광역 모델 중간 예측 출력을 생성하기 위해 트레이닝 데이터에 대해 공동으로 트레이닝된 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 이진 특징들은 스파스(spaese) 특징들의 원-핫(one-hot) 인코딩된 표현인 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 이진 특징들은 범주형 특징들의 이진화된 표현인 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 복수의 특징은 컨텐츠 프레젠테이션 설정의 특징들이고, 상기 예측 출력은 컨텐츠 프레젠테이션 설정에 대한 예측 출력인 것을 특징으로 하는 시스템.
제4항에 있어서,
상기 컨텐츠 프레젠테이션 설정의 특징들은,
컨텐츠 프레젠테이션 설정에 제시될 콘텐츠 아이템의 특징들을 포함하고, 상기 콘텐츠 프레젠테이션 설정에 대한 예측 출력은 상기 컨텐츠 아이템이 컨텐츠 프레젠테이션 설정에서 제시되는 경우 특정 목적(objective)이 충족될 가능성을 나타내는 것을 특징으로 하는 시스템.
제5항에 있어서,
상기 결합 계층은,
심층 기계 학습 모델에 의해 생성된 심층 모델 중간 예측 출력 및 광역 기계 학습 모델에 의해 생성된 광역 모델 중간 예측 출력을 처리하여 상기 컨텐츠 아이템이 컨텐츠 프리젠테이션 설정에서 제시되는 경우 특정 목적이 충족될 가능성을 나타내는 스코어를 생성하도록 구성된 로지스틱 회귀 계층인 것을 특징으로 하는 시스템.
제4항에 있어서,
상기 컨텐츠 프리젠테이션 설정에 대한 예측 출력은,
사전 결정된 컨텐츠 아이템 세트 내의 각 컨텐츠 아이템에 대한 개별 (respective) 스코어이고, 개별 스코어 각각은 상기 대응하는 컨텐츠 아이템이 컨텐츠 프리젠테이션 설정에서 제시되는 경우 특정 목적이 충족될 개별 가능성을 나타내는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 결합층은,
심층 기계 학습 모델에 의해 생성된 심층 모델 중간 예측 출력 및 광역 기계 학습 모델에 의해 생성된 광역 모델 중간 예측 출력을 처리하여 사전 결정된 컨텐츠 아이템 세트내의 각 컨텐츠 아이템에 대한 개별 스코어를 생성하도록 구성된 소프트맥스 계층인 것을 특징으로 하는 시스템.
제4항에 있어서,
상기 복수의 특징은,
컨텐츠 프리젠테이션 설정에서 컨텐츠 아이템이 제시될 사용자를 특징짓는 사용자 특징들을 포함하는 것을 특징으로 하는 시스템.
제4항에 있어서,
상기 복수의 특징은,
컨텐츠 프리젠테이션 설정의 컨텍스트를 특징짓는 컨텍스트 정보를 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 심층 기계 학습 모델은 심층 신경망을 포함하는 것을 특징으로 하는 시스템. .
제1항에 있어서,
상기 심층 기계 학습 모델은,
각각의 특징을 그 특징의 개별 숫자 임베딩에 매핑하도록 구성된 임베딩 계층을 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 광역 기계 학습 모델은 일반화된 선형 모델인 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 광역 기계 학습 모델은,
이진 특징들 및 그 이진 특징들로부터 생성된 변환된 특징들 처리하여 광역 모델 중간 출력을 생성하도록 구성되는 것을 특징으로 하는 시스템.
제1항에 있어서,
광역 기계 학습 모델 중간 출력 및 심층 모델 중간 출력은 로그 오즈((log odds) 출력인 것을 특징으로 하는 시스템.
복합 기계 학습 모델을 트레이닝시키는 방법으로서, 복합 기계 학습 모델은 기계 학습 입력을 처리하여 기계 학습 입력에 대한 출력을 생성하도록 구성되고, 복합 기계 학습 모델은 심층 기계 학습 모델, 광역 기계 학습 모델, 및 심층 기계 학습 모델과 광역 기계 학습 모델의 출력을 처리하여 기계 학습 입력에 대한 출력을 생성하도록 구성된 결합 계층을 포함하고, 상기 방법은,
복수의 트레이닝 입력 각각에 대해, (i) 트레이닝 입력의 복수의 특징 및 (ii) 트레이닝 입력에 대한 공지된 출력을 포함하는 트레이닝 데이터를 획득하는 단계; 및
각각의 트레이닝 입력에 대해:
심층 기계 학습 모델의 파라미터들의 현재 값에 따라 트레이닝 입력에 대한 심층 모델 중간 예측 출력을 생성하도록 심층 기계 학습 모델을 사용하여 연속 특징들을 포함하는 복수의 특징의 서브 세트를 처리하는 단계;
광역 기계 학습 모델의 파라미터들의 현재 값에 따라 트레이닝 입력에 대한 광역 모델 중간 예측 출력을 생성하도록 광역 기계 학습 모델을 사용하여 트레이닝 입력의 복수의 특징의 이진 특징들을 처리하는 단계;
트레이닝 입력에 대한 예측 출력을 생성하도록 결합 계층을 사용하여 트레이닝 입력에 대한 심층 모델 중간 예측 출력 및 광역 모델 중간 예측 출력을 처리하는 단계;
심층 기계 학습 모델과 광역 기계학습 모델의 파라미터들의 현재 값을 공동으로 조정하도록 트레이닝 입력에 대한 예측 출력과 결합 계층을 통한 트레이닝 입력에 대한 공지된 출력 사이의 오류에서 결정된 기울기(gradient)를 광역 기계 학습 모델과 심층 기계 학습 모델로 역 전파하는 단계를 포함하는 것을 특징으로 하는 복합 기계 학습 모델을 트레이닝시키는 방법.
제16항에 있어서,
상기 이진 특징들은 스파스 특징들의 원-핫 인코딩된 표현인 것을 특징으로 하는 복합 기계 학습 모델을 트레이닝시키는 방법.
제16항에 있어서,
상기 이진 특징들은 범주형 특징들의 이진화된 표현인 것을 특징으로 하는 복합 기계 학습 모델을 트레이닝시키는 방법.
제16항에 있어서,
미니-배치 확률적 최적화(mini-batch stochastic optimization)를 사용하여 심층 기계 학습 모델과 광역 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계를 더 포함하는 것을 특징으로 하는 복합 기계 학습 모델을 트레이닝시키는 방법.
제16항에 있어서,
LI 정규화를 따르는 FTLR(Follow-the-Regularized-Lead) 알고리즘을 사용하여 광역 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계를 더 포함하는 것을 특징으로 하는 복합 기계 학습 모델을 트레이닝시키는 방법.
제16항에 있어서,
적응 학습률(adaptive learning rate)을 갖는 확률적 기울기 최적화를 사용하여 심층 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계를 더 포함하는 것을 특징으로 하는 복합 기계 학습 모델을 트레이닝시키는 방법.
적어도 하나의 컴퓨터에 의해 실행될 때, 적어도 하나의 컴퓨터로 하여금 복합 기계 학습 모델을 트레이닝하기 위한 동작들을 수행하게 하는 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 매체로서, 복합 기계 학습 모델은 기계 학습 입력을 처리하여 기계 학습 입력에 대한 출력을 생성하도록 구성되고, 복합 기계 학습 모델은 심층 기계 학습 모델, 광역 기계 학습 모델, 및 심층 기계 학습 모델과 광역 기계 학습 모델의 출력을 처리하여 기계 학습 입력에 대한 출력을 생성하도록 구성된 결합 계층을 포함하고, 상기 동작들은,
복수의 트레이닝 입력 각각에 대해, (i) 트레이닝 입력의 복수의 특징 및 (ii) 트레이닝 입력에 대한 공지된 출력을 포함하는 트레이닝 데이터를 획득하는 단계; 및
각각의 트레이닝 입력에 대해:
심층 기계 학습 모델의 파라미터들의 현재 값에 따라 트레이닝 입력에 대한 심층 모델 중간 예측 출력을 생성하도록 심층 기계 학습 모델을 사용하여 연속 특징들을 포함하는 복수의 특징의 서브 세트를 처리하는 단계;
광역 기계 학습 모델의 파라미터들의 현재 값에 따라 트레이닝 입력에 대한 광역 모델 중간 예측 출력을 생성하도록 광역 기계 학습 모델을 사용하여 트레이닝 입력의 복수의 특징의 이진 특징들을 처리하는 단계;
트레이닝 입력에 대한 예측 출력을 생성하도록 결합 계층을 사용하여 트레이닝 입력에 대한 심층 모델 중간 예측 출력 및 광역 모델 중간 예측 출력을 처리하는 단계;
심층 기계 학습 모델과 광역 기계학습 모델의 파라미터들의 현재 값을 공동으로 조정하도록 트레이닝 입력에 대한 예측 출력과 결합 계층을 통한 트레이닝 입력에 대한 공지된 출력 사이의 오류에서 결정된 기울기(gradient)를 광역 기계 학습 모델과 심층 기계 학습 모델로 역 전파하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제22항에 있어서,
상기 이진 특징들은 스파스 특징들의 원-핫 인코딩된 표현인 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제22항에 있어서,
상기 이진 특징들은 범주형 특징들의 이진화된 표현인 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제22항에 있어서,
상기 동작들은,
LI 정규화를 따르는 FTLR(Follow-the-Regularized-Lead) 알고리즘을 사용하여 광역 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계를 더 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
제22항에 있어서,
상기 동작들은,
적응 학습률(adaptive learning rate)을 갖는 확률적 기울기 최적화를 사용하여 심층 기계 학습 모델의 파라미터들의 현재 값을 조정하는 단계를 더 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.