KR20210110780A - 멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기 - Google Patents

멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기 Download PDF

Info

Publication number
KR20210110780A
KR20210110780A KR1020210109539A KR20210109539A KR20210110780A KR 20210110780 A KR20210110780 A KR 20210110780A KR 1020210109539 A KR1020210109539 A KR 1020210109539A KR 20210109539 A KR20210109539 A KR 20210109539A KR 20210110780 A KR20210110780 A KR 20210110780A
Authority
KR
South Korea
Prior art keywords
task
sample
update
model
parameter
Prior art date
Application number
KR1020210109539A
Other languages
English (en)
Inventor
원후이 쟝
디엔하이 위
즈화 우
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210110780A publication Critical patent/KR20210110780A/ko

Links

Images

Classifications

    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Neurology (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 출원은 멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기를 개시하고, 컴퓨터 기술 분야에 관한 것으로, 특히 딥러닝 및 인공지능 기술 분야에 관한 것이다. 구체적인 구현 방안은 트레이닝 샘플 집합을 획득하고; 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣고; 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 임의의 샘플 대열 중의 데이터를 사용하여, 멀티태스크 모델 중의 공유 네트워크 계층 및 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고; 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 것을 포함한다. 이리하여, 이러한 멀티태스크 모델의 파라미터 업데이트 방법을 통해, 멀티태스크 모델에 대해 분산형 트레이닝할 경우, 국부 파라미터 업데이트를 구현하여, 멀티태스크 모델의 정밀도를 개선한다.

Description

멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기{PARAMETER UPDATE METHOD, DEVICE AND ELECTRONIC EQUIPMENT FOR MULTITASK MODEL}
본 출원은 컴퓨터 기술 분야에 관한 것으로, 특히 딥러닝 및 인공지능 기술 분야에 관한 것으로, 멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기를 제공한다.
멀티태스크 러닝은 복수의 타겟 함수의 트레이닝 태스크를 최적화하는 것이며, 모니터링 러닝의 일종 형태이다. 멀티태스크 러닝의 핵심 문제와 난점은 복수의 서브 태스크의 트레이닝 데이터를 처리하고, 복수의 서브 태스크의 최적화 러닝을 균형하게 하는 것이다.
관련 기술에서, 분산형 트레이닝하는 방식으로 멀티태스크 모델의 트레이닝을 구현할 수 있는 바, 즉 복수의 기계를 통해 연합 트레이닝하여 기계의 데이터 용량 제한과 딥러닝의 성능 요구를 만족하도록 한다. 분산형 트레이닝에서 가장 자주 쓰는 패턴이 파라미터 서버 패턴이다. 집합군 중의 노드가 컴퓨팅 노드 및 파라미터 서비스 노드 두가지로 나눌 수 있다. 컴퓨팅 노드는 로컬에 분배된 트레이닝 데이터(블록)에 대한 컴퓨팅 러닝을 책임지고, 대응되는 파라미터를 업데이트하며; 파라미터 서비스 노드는 분산형 저장하는 방식을 채택하여 각자 전역 파라미터의 일 부분을 저장하여 서비스 쪽으로서 컴퓨팅 노드의 파라미터 조회 및 업데이트 청구를 접수한다.
본 출원은 멀티태스크 모델에 사용한 파라미터 업데이트 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품을 제공한다.
본 출원의 일 측면에 따라 제공되는 멀티태스크 모델의 파라미터 업데이트 방법은, 트레이닝 샘플 집합을 획득하는 단계 - 상기 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함함; 상기 각 샘플이 소속된 태스크에 따라 상기 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는 단계; 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 상기 임의의 샘플 대열 중의 샘플을 사용하여 상기 멀티태스크 모델 중의 공유 네트워크 계층 및 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하는 단계; 상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계를 포함한다.
본 출원의 다른 측면에 따라 제공되는 멀티태스크 모델의 파라미터 업데이트 장치는, 트레이닝 샘플 집합을 획득하는 획득 모듈 - 상기 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함함; 상기 각 샘플이 소속된 태스크에 따라 상기 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는 분류 모듈; 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 상기 임의의 샘플 대열 중의 샘플을 사용하여 상기 멀티태스크 모델 중의 공유 네트워크 계층 및 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하는 트레이닝 모듈; 상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 업데이트 모듈을 포함한다.
본 출원의 또 다른 측면에 따라 제공되는 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리를 포함하고; 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서가 상기 멀티태스크 모델의 파라미터 업데이트 방법을 수행하도록 한다.
본 출원의 또 다른 측면에 따라 제공되는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서, 상기 컴퓨터 명령은 상기 컴퓨터가 상기 멀티태스크 모델의 파라미터 업데이트 방법을 수행하도록 사용된다.
본 출원의 또 다른 측면에 따라 제공되는 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행되는 경우 상기 멀티태스크 모델의 파라미터 업데이트 방법을 수행하도록 한다.
본 출원의 또 다른 측면의 실시예에서 제공하는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램은, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 멀티태스크 모델의 파라미터 업데이트 방법이 실행된다.
본 출원의 기술 방안에 따르면, 관련 기술에서 멀티태스크 모델의 분산형 트레이닝에서 하나의 태스크에 대해 트레이닝 한 번 수행한 다음 멀티태스크 모델 중의 모든 태스크의 모델 파라미터를 업데이트해야 하고 멀티태스크 모델의 정밀도 및 성능을 저하시키는 문제를 해결하였다. 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣고, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 당해 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고, 더 나아가 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트한다. 이리하여, 멀티태스크 모델 중의 특정 태스크에 대응되는 샘플 수량이 배치 데이터 요구에 도달할 경우 당해 태스크에 대응되는 샘플 만을 사용하여 멀티태스크 모델의 공유 네트워크 계층 및 당해 태스크에 대응되는 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 기타 태스크에 대응되는 서브 네트워크 계층의 파라미터를 업데이트할 필요가 없으므로, 멀티태스크 모델에 대해 분산형 트레이닝할 경우 국부 파라미터 업데이트를 구현하여 멀티태스크 모델의 정밀도를 개선한다.
이해 가능한 바로는 본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하지도 않는다. 본 출원의 기타 특징들은 하기의 명세서에 의해 쉽게 이해될 것이다.
첨부된 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원에 대한 한정이 구성되지 않는다. 여기서,
도1은 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 방법의 흐름도이고;
도2는 본 출원의 실시예에 따른 다른 멀티태스크 모델의 파라미터 업데이트 방법의 흐름도이고;
도3은 본 출원의 실시예에 따른 또 다른 멀티태스크 모델의 파라미터 업데이트 방법의 흐름도이고;
도4는 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 장치의 구조 개략도이고;
도5는 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 방법을 구현하기 위한 전자 기기의 블록도이다.
이하, 첨부된 도면을 결합하여 본 출원의 예시적인 실시예에 대해 설명하며, 여기에는 이해를 돕기 위해 본 출원의 실시예의 다양한 세부 사항을 포함하므로, 이는 단지 예시적인 것으로 이해해야 한다. 따라서, 당업자는 본 출원의 범위 및 사상을 벗어나지 않는 한 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있음을 인식해야 한다. 마찬가지로, 명확성과 간결성을 위해, 하기의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략한다.
이하, 본 출원의 방안에 언급된 기술 분야에 대해 간단히 설명한다.
인공지능은 인간의 특정 사유 과정 및 지능 행위(예컨대, 러닝, 추리, 사고, 계획 등)를 컴퓨터로 시뮬레이션하기 위해 연구하는 학과이며, 하드웨어 층면의 기술 뿐만 아니라 소프트웨어 층면의 기술도 포함한다. 인공지능 하드웨어 기술은 일반적으로 컴퓨터 시각 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 러닝/딥러닝, 빅데이터 처리 기술, 지식 그래프 기술 등 몇 가지 주요 방향을 포함한다.
딥러닝은 기계 러닝 분야의 새로운 연구 방향이며, 기계 러닝에 인입되어 기계 러닝을 최초의 타겟 - 인공지능에 더 가까워지도록 한다. 딥러닝은 샘플 데이터의 내재적 법칙 및 표현 계층을 러닝하는 것이며, 이러한 러닝 과정에서 획득한 정보는 문자, 이미지 및 소리 등과 같은 데이터의 해석에 대해 큰 도움이 된다. 딥러닝의 최종 타겟은 기계로 하여금 인간과 같은 분석 러닝 능력을 구비할 수 있고, 문자, 이미지 및 소리 등과 같은 데이터를 인식할 수 있도록 한다. 딥러닝은 검색 기술, 데이터 마이닝, 기계 러닝, 기계 번역, 자연 언어 처리, 멀티미디어 러닝, 음성, 추천 및 개성화 기술, 및 기타 관련 분야에서 많은 성과를 획득하였다.
본 출원의 실시예는 관련 기술에서 멀티태스크 모델의 분산형 트레이닝에서, 하나의 태스크에 대해 트레이닝 한 번 수행한 다음 멀티태스크 모델 중의 모든 태스크의 모델 파라미터를 업데이트해야 하고, 멀티태스크 모델의 정밀도 및 성능을 저하시키는 문제에 대해, 멀티태스크 모델의 파라미터 업데이트 방법을 제출하였다.
이하, 첨부된 도면을 참조하여 본 출원에서 제공되는 멀티태스크 모델의 파라미터 업데이트 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품에 대해 상세히 설명한다.
도1은 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 방법의 흐름도이다.
도1에 도시된 바와 같이, 당해 멀티태스크 모델의 파라미터 업데이트 방법은 하기의 단계를 포함한다.
단계101, 트레이닝 샘플 집합을 획득하고, 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함한다.
설명해야 하는 바로는, 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 방법은 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 장치에 의해 수행될 수 있으며, 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 장치는 임의의 전자 기기에 구성될 수 있고, 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 방법을 수행하도록 한다.
본 출원의 실시예에서, 본 출원의 실시예에 따른 멀티태스크 모델 트레이닝 방법은 복수의 기능을 동시에 구현하기 위한 임의의 모델 트레이닝 장면에 응용될 수 있으며, 예를 들어, 정보 스트림 추천, 광고 추천, 검색 추천 등 응용 장면에 응용될 수 있다.
하나의 예시로서, 본 출원의 실시예에 따른 멀티태스크 모델 트레이닝 방법은 광고 추천 장면에 응용될 수 있으므로, 복수의 서브 태스크를 구비한 광고 추천 모델을 트레이닝하도록 한다. 예를 들어, 광고 추천 모델은 광고의 조회수 및 전환율을 예측하도록 사용될 수 있으며, 즉 광고 추천 모델은 두개의 서브 태스크 - 광고의 조회수 및 전환율- 을 포함한다.
트레이닝 샘플 집합은 멀티태스크 모델의 실제 응용 장면 중의 과거 사용 데이터에 따라 생성될 수 있다.
설명해야 하는 바로는, 지도형 트레이닝 장면에서 각 샘플은 트레이닝 데이터 및 트레이닝 데이터에 대한 라벨 데이터를 포함할 수 있고; 비지도형 트레이닝 장면에서 각 샘플은 트레이닝 데이터 만을 포함할 수 있다.
예를 들어 설명하면, 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 방법이 광고 추천 장면에 응용될 경우, 즉 멀티태스크 모델은 광고 추천 모델일 수 있고, 광고 추천 모델은 광고 추천 기능을 구비한 응용 장면에 응용될 수 있으므로, 광고 추천 모델이 응용한 응용 프로그램의 과거 사용 데이터로부터 트레이닝 샘플 집합을 획득할 수 있다. 예를 들어, 비지도형 트레이닝 장면에서, 응용 프로그램 중 하나의 광고의 광고 유형, 시간 길이, 태그 등 특징 데이터를 하나의 샘플로 사용할 수 있고; 지도형 트레이닝 장면에서, 응용 프로그램 중 하나의 광고의 광고 유형, 시간 길이, 태그 등 특징 데이터를 하나의 트레이닝 데이터로 사용할 수 있고, 또한 사용자의 당해 광고에 대한 조회수, 관람 시간 길이, 좋아요수, 배포수, 공유수, 전환율 등 사용자 조작 데이터를 당해 트레이닝 데이터에 대응되는 라벨 데이터로 사용할 수 있고, 더 나아가 당해 트레이닝 데이터 및 당해 트레이닝 데이터에 대응되는 라벨 데이터를 하나의 샘플로 사용할 수 있다. 더 나아가 상기 방식에 따라 응용 프로그램 중의 대량 광고의 과거 사용 데이터에 따라 대량 트레이닝 샘플을 포함하는 트레이닝 샘플 집합을 생성한다.
본 출원의 실시예에서, 트레이닝 샘플 집합을 획득할 때, 또한 각 샘플이 멀티태스크 모델 중의 어느 태스크를 트레이닝하는지를 라벨할 수 있다. 즉, 트레이닝 샘플 집합에는 또한 각 샘플이 소속된 태스크를 포함할 수 있다.
단계102, 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는다.
본 출원의 실시예에서, 멀티태스크 모델 중의 복수의 태스크에 대한 트레이닝 타겟이 다르기 때문에, 각 태스크를 트레이닝하기 위해 사용된 샘플이 또한 다를 수 있으며, 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 트레이닝 샘플 집합을 분류할 수 있으므로, 동일한 태스크에 소속된 샘플을 같은 샘플 대열에 넣는다. 따라서, 하나의 샘플 대열 중의 샘플을 사용하여 멀티태스크 모델 중의 하나의 태스크에 대해 단독으로 트레이닝할 수 있다.
가능한 구현 방식으로서, 또한, 멀티태스크 모델 트레이닝 과정에서 트레이닝 샘플 집합을 실시간으로 획득하여, 각 샘플을 획득할 때 마다 당해 샘플이 소속된 태스크에 따라 당해 샘플을 해당되는 샘플 대열에 넣는다.
단계103, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 임의의 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성한다.
공유 네트워크 계층은 멀티태스크 모델의 각 태스크에 모두 사용되는 네트워크 계층을 의미한다. 서브 네트워크 계층은 멀티태스크 모델 중의 임의의 태스크에 단독으로 사용되는 네트워크 계층을 의미한다. 타겟 서브 네트워크 계층은 현재 트레이닝할 태스크에 단독으로 사용되는 서브 네트워크 계층을 의미한다.
본 출원의 실시예에서, 샘플 대열 중의 샘플 수량이 일정한 수량에 도달해야 태스크에 대한 트레이닝 효과를 확보할 수 있으므로, 배치 데이터의 수량(즉, 트레이닝 데이터 요구)을 미리 설정할 수 있다. 따라서, 트레이닝 데이터 집합 중의 샘플을 해당되는 샘플 대열에 넣는 과정에서 각 샘플 대열 중의 샘플 수량을 실시간으로 결정할 수 있고, 임의의 샘플 대열 중의 샘플 수량이 미리 설정된 배치 데이터의 수량에 도달할 경우 당해 샘플 대열 중의 각 샘플을 멀티태스크 모델에 순차적으로 입력하므로, 당해 샘플 대열 중의 샘플을 사용하여 멀티태스크 모델 중의 공유 네트워크 계층에 대해 트레이닝하고, 그리고 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 결정한다.
단계104, 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트한다.
파라미터 서버는 멀티태스크 모델의 모델 파라미터를 저장하는 서버를 의미하고, 저장된 모델 파라미터에 대해 업데이트할 수 있도록 컴퓨팅 노드의 파라미터 조회 및 업데이트 청구를 접수할 수 있다.
본 출원의 실시예에서, 태스크와 관련된 샘플 대열 중의 샘플을 사용하여 멀티태스크 모델 중의 당해 태스크에 대해 트레이닝 한 라운드 수행한 다음, 생성된 모델 파라미터 업데이트 경도를 파라미터 서버에 송신할 수 있으므로, 파라미터 서버로 하여금 생성된 모델 파라미터 업데이트 경도에 포함된 타겟 서브 네트워크 계층에 대한 업데이트 경도에 따라 타겟 서브 네트워크 계층의 모델 파라미터에 대해 업데이트하고, 그리고 생성된 모델 파라미터 업데이트 경도에 포함된 공유 네트워크 계층에 대한 업데이트 경도에 따라 공유 네트워크 계층의 모델 파라미터에 대해 업데이트할 수 있다.
본 출원의 실시예의 기술 방안에 따르면, 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣고, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 당해 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고, 더 나아가 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트한다. 이리하여, 멀티태스크 모델 중의 특정 태스크에 대응되는 샘플 수량이 배치 데이터 요구에 도달할 경우 당해 태스크에 대응되는 샘플 만을 사용하여 멀티태스크 모델의 공유 네트워크 계층 및 당해 태스크에 대응되는 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 기타 태스크에 대응되는 서브 네트워크 계층의 파라미터를 업데이트할 필요가 없으므로, 멀티태스크 모델에 대해 분산형 트레이닝할 경우 국부 파라미터 업데이트를 구현하여 멀티태스크 모델의 정밀도를 개선한다.
본 출원의 가능한 구현 형태에서, 태그 기술을 통해 각 샘플이 소속된 태스크에 대해 라벨링할 수 있으므로, 트레이닝 샘플 집합에 대해 분류할 수 있고 멀티태스크 모델의 트레이닝 효과를 더 개선할 수 있다.
이하, 도2를 결합하여 본 출원의 실시예에서 제공되는 멀티태스크 모델의 파라미터 업데이트 방법에 대해 진일보 설명한다.
도2는 본 출원의 실시예에 따른 다른 멀티태스크 모델의 파라미터 업데이트 방법의 흐름도이다.
도2에 도시된 바와 같이, 당해 멀티태스크 모델의 파라미터 업데이트 방법은 하기의 단계를 포함한다.
단계201, 트레이닝 샘플 집합을 획득하고, 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함한다.
상기 단계201의 구체적인 구현 과정 및 원리는 상기 실시예의 상세 설명을 참조할 수 있으므로, 여기서는 더 이상 설명하지 않는다.
단계202, 각 샘플이 소속된 태스크에 따라 각 샘플에 대응되는 태스크 태그를 결정한다.
가능한 구현 방식으로서, 각 샘플에 하나의 속성 도메인을 첨가할 수 있고, 그 다음 각 샘플이 소속된 태스크에 따라 각 샘플에 대응되는 태스크 태그를 결정할 수 있고, 더 나아가 각 샘플에 대응되는 태스크 태그에 따라 각 샘플의 속성 도메인의 값을 결정하여, 속성 도메인의 값을 통해 샘플의 태스크 태그를 표시할 수 있다.
예를 들어 설명하면, 멀티태스크 모델은 광고 추천 모델이고, 광고 추천 모델은 두개의 태스크를 포함하는 바, 태스크 1은 예측 광고 조회수이고, 태스크 2는 예측 광고 전환율이다. 샘플 1이 소속된 태스크가 태스크 1인 경우, 샘플 1에 대응되는 태스크 태그를 1로 결정할 수 있고, 샘플 1의 속성 도메인의 값을 [1]로 결정하며; 샘플 2가 소속된 태스크가 태스크 2인 경우, 샘플 2에 대응되는 태스크 태그를 2로 결정할 수 있고, 샘플 2의 속성 도메인의 값을 [2]로 결정하며; 샘플 3이 소속된 태스크가 태스크 1과 태스크 2인 경우, 샘플 3에 대응되는 태스크 태그를 1과 2로 결정할 수 있고, 샘플 3의 속성 도메인의 값을 [1, 2]로 결정하며; 이리하여 트레이닝 샘플 집합 중의 모든 샘플의 태스크 태그를 결정한다.
단계203, 각 샘플에 대응되는 태스크 태그에 따라 각 샘플을 태스크 태그에 대응되는 샘플 대열에 순차적으로 넣는다.
본 출원의 실시예에서, 각 샘플에 대응되는 태스크 태그를 결정한 다음, 같은 태스크 태그를 구비한 샘플을 동일한 샘플 대열에 분류할 수 있다.
하나의 예시로서, 샘플에 대응되는 태스크 태그는 하나 또는 복수일 수 있으며, 샘플에 대응되는 태스크 태그의 수량에 따라 트레이닝 샘플 집합에 대해 분류할 수 있으므로 각 샘플에 대응되는 샘플 대열을 결정한다.
상황 1
임의의 샘플이 하나의 태스크 태그에 대응되는 상황하에서, 당해 태스크 태그에 대응되는 샘플 대열에 임의의 샘플이 모두 포함되는 것을 결정한다. 예를 들어, 샘플 1에 대응되는 태스크 태그가 1인 경우, 샘플 1을 태스크 태그 1에 대응되는 샘플 대열에 넣을 수 있고, 태스크 태그 1에 대응되는 샘플 대열에는 태스크 1을 트레이닝하기 위한 모든 샘플을 포함한다.
상황 2
임의의 샘플이 복수의 태스크 태그에 대응되는 상황하에서, 복수의 태스크 태그 중의 각 태스크 태그에 대응되는 샘플 대열에 임의의 샘플이 모두 포함되는 것을 결정한다.
예를 들어 설명하면, 샘플 2에 대응되는 태스크 태그가 1과 2인 경우, 샘플 2를 태스크 태그 1에 대응되는 샘플 대열에 넣을 수도 있고, 샘플 2를 태스크 태그 2에 대응되는 샘플 대열에 넣을 수도 있으므로, 샘플 2는 태스크 1을 트레이닝할 수도 있고, 태스크 2를 트레이닝할 수도 있다.
단계204, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 임의의 샘플 대열 중의 샘플을 사용하여, 멀티태스크 모델 중의 공유 네트워크 계층 및 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성한다.
상기 단계204의 구체적인 구현 과정 및 원리는 상기 실시예의 상세 설명을 참조할 수 있으므로, 여기서는 더 이상 설명하지 않는다.
단계205, 임의의 샘플 대열에 관련된 태스크 태그에 따라 타겟 파라미터 서버를 결정한다.
본 출원의 실시예에서, 서로 다른 태스크에 대응되는 모델 파라미터는 서로 다른 파라미터 서버를 사용하여 저장할 수 있으므로, 멀티태스크 모델의 국부 파라미터 업데이트에 편리하다. 따라서, 각 파라미터 서버에 저장된 모델 파라미터에 관련된 태스크에 따라 각 파라미터 서버에 대응되는 태스크 태그를 결정할 수 있으므로, 태스크 태그와 파라미터 서버의 대응관계를 구축하고, 각 파라미터 서버에 저장된 모델 파라미터가 소속된 태스크에 대해 표시한다. 따라서, 샘플 대열 중의 샘플을 사용하여 멀티태스크 모델 중의 임의의 태스크에 대해 트레이닝 한 라운드 수행하여 모델 파라미터 업데이트 경도를 생성한 다음, 샘플 대열에 대응되는 태스크 태그 및 태스크 태그와 파라미터 서버의 대응관계에 따라 당해 태스크 태그에 대응되는 타겟 파라미터 서버를 결정할 수 있다.
단계206, 생성된 모델 파라미터 업데이트 경도를 타겟 파라미터 서버에 송신하여, 타겟 파라미터 서버로 하여금, 업데이트 경도에 따라 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하도록 한다.
본 출원의 실시예에서, 현재 트레이닝하는 태스크에 대응되는 타겟 파라미터를 저장하는 서버를 결정한 다음, 당해 태스크에 대응되는 모델 파라미터 업데이트 경도를 타겟 파라미터 서버에 송신할 수 있으므로, 타겟 파라미터 서버로 하여금 공유 네트워크 계층에 대한 업데이트 경도에 따라 저장된 공유 네트워크 계층의 모델 파라미터에 대해 업데이트하고, 그리고 타겟 서브 네트워크 계층에 대한 업데이트 경도에 따라 저장된 타겟 서브 네트워크 계층의 모델 파라미터에 대해 업데이트한다.
본 출원의 실시예의 기술 방안에 따르면, 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 각 샘플에 대응되는 태스크 태그를 결정할 수 있고, 그리고 각 샘플에 대응되는 태스크 태그에 따라 각 샘플을 태스크 태그에 대응되는 샘플 대열에 순차적으로 넣고, 그 다음, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 당해 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고, 더 나아가 임의의 샘플 대열에 관련된 태스크 태그에 따라 타겟 파라미터 서버를 결정하고, 생성된 모델 파라미터 업데이트 경도를 타겟 파라미터 서버에 송신하여, 타겟 파라미터 서버로 하여금 업데이트 경도에 따라 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하도록 한다. 이리하여, 태그 기술에서 각 샘플이 소속된 태스크에 대해 라벨링함을 통해, 트레이닝 샘플 집합에 대해 분류하기 편리하고, 서로 다른 파라미터 서버를 통해 서로 다른 태스크에 대응되는 모델 파라미터를 저장하고, 더 나아가 멀티태스크 모델 중의 특정 태스크에 대응되는 샘플 수량이 배치 데이터 요구에 도달할 경우, 당해 태스크에 대응되는 샘플 만을 사용하여 멀티태스크 모델의 공유 네트워크 계층 및 당해 태스크에 대응되는 서브 네트워크 계층에 대해 트레이닝하여, 기타 태스크에 대응되는 서브 네트워크 계층의 파라미터를 업데이트할 필요가 없으므로, 멀티태스크 모델에 대해 분산형 트레이닝할 경우 국부 파라미터 업데이트를 구현하여 멀티태스크 모델의 정밀도를 개선할 뿐만 아니라, 국부 파라미터 업데이트의 간편성도 진일보 개선한다.
본 출원의 가능한 구현 형태에서, 또한 멀티태스크 모델 중의 각 태스크의 가중치에 따라 공유 네트워크 계층의 모델 파라미터에 대한 각 태스크의 업데이트 폭을 제약할 수 있으므로, 멀티태스크의 태스크 편향성을 낮추고, 멀티태스크 모델의 정밀도를 진일보 개선한다.
이하, 도3을 결합하여 본 출원의 실시예에서 제공되는 멀티태스크 모델의 파라미터 업데이트 방법에 대해 진일보 설명한다.
도3은 본 출원의 실시예에 따른 또 다른 멀티태스크 모델의 파라미터 업데이트 방법의 흐름도이다.
도3에 도시된 바와 같이, 당해 멀티태스크 모델의 파라미터 업데이트 방법은 하기의 단계를 포함한다.
단계301, 트레이닝 샘플 집합을 획득하고, 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함한다.
단계302, 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는다.
단계303, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 임의의 샘플 대열 중의 샘플을 사용하여, 멀티태스크 모델 중의 공유 네트워크 계층 및 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성한다.
상기 단계301-303의 구체적인 구현 과정 및 원리는 상기 실시예의 상세 설명을 참조할 수 있으므로, 여기서는 더 이상 설명하지 않는다.
단계304, 임의의 샘플 대열에 관련된 태스크의 가중치를 결정한다.
본 출원의 실시예에서, 태스크에 대해 트레이닝하는 횟수가 많을수록 당해 태스크에 대응되는 샘플이 멀티태스크 모델에 대한 최적화 효과가 좋고, 따라서 태스크에 대한 트레이닝하는 횟수, 즉 태스크와 관련된 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 횟수에 따라 각 태스크의 가중치를 결정할 수 있다.
가능한 구현 방식으로서, 샘플 대열 중의 샘플을 사용하여 멀티태스크 모델 중의 공유 네트워크 계층에 대해 트레이닝하고, 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 당해 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성한 다음, 당해 태스크에 관련된 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 횟수를 결정할 수 있고, 또한 당해 횟수를 당해 태스크의 가중치로 결정한다.
예를 들어 설명하면, 태스크 1과 관련된 샘플 대열 중의 샘플 수량이 처음으로 트레이닝 데이터 요구에 도달할 경우, 태스크 1의 가중치를 1로 결정할 수 있고; 태스크 1과 관련된 샘플 대열 중의 샘플 수량이 두 번째로 트레이닝 데이터 요구에 도달할 경우, 태스크 1의 가중치를 2로 결정할 수 있다.
단계305, 가중치 및 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트한다.
본 출원의 실시예에서, 현재 트레이닝하는 태스크의 가중치를 결정한 다음, 당해 태스크의 가중치와 생성된 당해 태스크에 대응되는 모델 파라미터 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층의 모델 파라미터에 대해 업데이트할 수 있고, 또한 태스크에 대응되는 타겟 서브 네트워크 계층의 모델 파라미터에 대해 업데이트할 수 있다.
가능한 구현 방식으로서, 멀티태스크 모델 중의 공유 네트워크 계층이 모든 태스크에 대응되는 샘플 대열 중의 샘플에 대해 처리할 수 있으므로, 멀티태스크 모델 중의 모든 태스크의 성능에 영향을 미칠 수 있고, 하지만 각 태스크에 대응되는 서브 네트워크 계층이 당해 태스크에 대응되는 샘플 대열 중의 샘플 만에 대해 처리하므로 멀티태스크 모델 중의 기타 태스크의 샘플 및 성능과는 무관하다. 따라서, 공유 네트워크 계층의 파라미터를 업데이트할 때만 태스크의 가중치를 인입할 수 있다. 즉, 본 출원의 실시예의 가능한 구현 방식에서, 상기 단계305는,
업데이트 경도에 따라 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계;
가중치 및 업데이트 경도에 따라 공유 네트워크 계층의 업데이트 경도를 결정하는 단계;
공유 네트워크 계층의 업데이트 경도에 따라 공유 네트워크 계층의 파라미터에 대해 업데이트하는 단계를 포함할 수 있다.
본 출원의 실시예에서, 각 태스크에 대응되는 서브 네트워크 계층이 당해 태스크에 대응되는 샘플 대열 중의 샘플 만에 대해 처리하므로 멀티태스크 모델 중의 기타 태스크의 샘플 및 성능과는 무관하고, 따라서, 샘플 대열을 통해 생성된 모델 파라미터 업데이트 경도에 따라 해당 태스크에 대응되는 서브 네트워크 계층 중의 파라미터에 대해 직접 업데이트할 수 있으므로, 타겟 서브 네트워크 계층의 파라미터 업데이트 과정을 해당 태스크에 대응되는 샘플 대열 만과 관련하여, 기타 태스크에 대응되는 샘플에 의존하지 않도록 하고, 멀티태스크 모델 트레이닝의 태스크 편향성을 낮추고, 각 태스크의 트레이닝 정밀도를 개선한다.
본 출원의 실시예에서, 멀티태스크 모델 중의 공유 네트워크 계층이 모든 태스크에 대응되는 샘플 대열 중의 샘플에 대해 처리할 수 있으므로, 멀티태스크 모델 중의 모든 태스크의 성능에 영향을 미칠 수 있다. 따라서, 각 태스크에 대응되는 샘플 대열을 통해 생성된 모델 파라미터 업데이트 경도에 따라 멀티태스크 모델 중의 공유 네트워크 계층의 모델 파라미터에 대해 공동으로 업데이트할 수 있으므로, 공유 네트워크 계층이 각 태스크에서 상대적으로 우수한 처리 성능을 구비할 수 있도록 한다.
본 출원의 실시예의 가능한 구현 방식에서, 태스크의 가중치는 당해 태스크에 대응되는 샘플 대열을 통해 생성된 경도가 멀티태스크 모델 트레이닝 과정에서 모델 파라미터 업데이트 수행할 때의 중요성을 반영할 수 있으므로, 모델 파라미터 업데이트 경도 및 각 태스크의 가중치에 따라 공유 네트워크 계층의 업데이트 경도를 결정할 수 있고, 공유 네트워크 계층의 업데이트 경도에 따라 공유 네트워크 계층 중의 모델 파라미터를 업데이트할 때 태스크의 가중치를 통해 각 태스크의 샘플 대열이 공유 네트워크 계층에 대한 최적화 효과를 균형있게 하고, 공유 네트워크 계층이 각 태스크에 대해 처리를 수행할 때 모두 상대적으로 높은 정밀도를 구비할 수 있도록 확보한다.
선택적으로, 모델 파라미터에 대한 태스크의 업데이트 경도와 태스크의 가중치의 승적을 공유 네트워크 계층의 업데이트 경도로 결정할 수 있고, 그리고 공유 네트워크 계층의 업데이트 경도를 파라미터 서버에 송신하여, 파라미터 서버로 하여금 공유 네트워크 계층의 업데이트 경도에 따라 공유 네트워크 계층의 파라미터에 대해 업데이트할 수 있도록 한다.
본 출원의 실시예의 기술 방안에 따르면, 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣고, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 당해 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고, 더 나아가 태스크의 가중치 및 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트한다. 이리하여, 멀티태스크 모델 중의 특정 태스크에 대응되는 샘플 수량이 배치 데이터 요구에 도달할 경우 당해 태스크에 대응되는 샘플 만을 사용하여 멀티태스크 모델의 공유 네트워크 계층 및 당해 태스크에 대응되는 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 기타 태스크에 대응되는 서브 네트워크 계층의 파라미터를 업데이트할 필요가 없으므로, 멀티태스크 모델 중의 각 태스크의 가중치에 따라 공유 네트워크 계층의 모델 파라미터에 대한 각 태스크의 업데이트 폭을 제약하여, 멀티태스크 모델에 대해 분산형 트레이닝할 경우 국부 파라미터 업데이트를 구현할 뿐만 아니라, 멀티태스크의 태스크 편향성을 낮추고, 멀티태스크 모델의 정밀도를 진일보 개선한다.
상기 실시예를 구현하기 위해, 본 출원은 또한 멀티태스크 모델의 파라미터 업데이트 장치를 제공한다.
도4는 본 출원의 실시예에 따른 멀티태스크 모델의 파라미터 업데이트 장치의 구조 개략도이다.
도4에 도시된 바와 같이, 당해 멀티태스크 모델의 파라미터 업데이트 장치(40)는,
트레이닝 샘플 집합을 획득하는 획득 모듈(41) - 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함함;
각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는 분류 모듈(42);
임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 임의의 샘플 대열 중의 샘플을 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하는 트레이닝 모듈(43); 및
업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 업데이트 모듈(44)을 포함한다.
실제 사용시, 본 출원의 실시예에서 제공되는 멀티태스크 모델의 파라미터 업데이트 장치는 전술한 멀티태스크 모델의 파라미터 업데이트 방법을 수행하도록 임의의 전자 기기에 구성될 수 있다.
본 출원의 실시예의 기술 방안에 따르면, 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣고, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 당해 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고, 더 나아가 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트한다. 이리하여, 멀티태스크 모델 중의 특정 태스크에 대응되는 샘플 수량이 배치 데이터 요구에 도달할 경우 당해 태스크에 대응되는 샘플 만을 사용하여 멀티태스크 모델의 공유 네트워크 계층 및 당해 태스크에 대응되는 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 기타 태스크에 대응되는 서브 네트워크 계층의 파라미터를 업데이트할 필요가 없으므로, 멀티태스크 모델에 대해 분산형 트레이닝할 경우 국부 파라미터 업데이트를 구현하여 멀티태스크 모델의 정밀도를 개선한다.
본 출원의 가능한 구현 형태에서, 상기 분류 모듈(42)은,
각 샘플이 소속된 태스크에 따라 각 샘플에 대응되는 태스크 태그를 결정하는 제1 결정 유닛; 및
각 샘플에 대응되는 태스크 태그에 따라 각 샘플을 태스크 태그에 대응되는 샘플 대열에 순차적으로 넣는 분류 유닛을 포함한다.
더 나아가, 본 출원의 다른 가능한 구현 형태에서, 상기 분류 유닛은,
임의의 샘플이 복수의 태스크 태그에 대응되는 상황하에서, 복수의 태스크 태그 중의 각 태스크 태그에 대응되는 샘플 대열에 임의의 샘플이 모두 포함되는 것을 결정하는 제1 결정 서브 유닛을 포함한다.
더 나아가, 본 출원의 또 다른 가능한 구현 형태에서, 상기 업데이트 모듈(44)은,
임의의 샘플 대열에 관련된 태스크 태그에 따라 타겟 파라미터 서버를 결정하는 제2 결정 유닛; 및
생성된 모델 파라미터 업데이트 경도를 타겟 파라미터 서버에 송신하여, 타겟 파라미터 서버로 하여금, 업데이트 경도에 따라 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 송신 유닛을 포함한다.
더 나아가, 본 출원의 또 다른 가능한 구현 형태에서, 상기 업데이트 모듈(44)은,
임의의 샘플 대열에 관련된 태스크의 가중치를 결정하는 제3 결정 유닛; 및
가중치 및 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 업데이트 유닛을 포함한다.
더 나아가, 본 출원의 또 다른 가능한 구현 형태에서, 상기 업데이트 유닛은,
업데이트 경도에 따라 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 제1 업데이트 서브 유닛;
가중치 및 업데이트 경도에 따라 공유 네트워크 계층의 업데이트 경도를 결정하는 제2 결정 서브 유닛; 및
공유 네트워크 계층의 업데이트 경도에 따라 공유 네트워크 계층의 파라미터에 대해 업데이트하는 제2 업데이트 서브 유닛을 포함한다.
설명해야 하는 바로는, 상기 도1, 도2, 도3에 도시된 멀티태스크 모델의 파라미터 업데이트 방법 실시예에 대한 해석과 설명은 당해 실시예의 멀티태스크 모델의 파라미터 업데이트 장치(40)에도 적용되어, 여기서는 더 이상 설명하지 않는다.
본 출원의 실시예의 기술 방안에 따르면, 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 각 샘플에 대응되는 태스크 태그를 결정할 수 있고, 그리고 각 샘플에 대응되는 태스크 태그에 따라 각 샘플을 태스크 태그에 대응되는 샘플 대열에 순차적으로 넣고, 그 다음, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 당해 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고, 더 나아가 임의의 샘플 대열에 관련된 태스크 태그에 따라 타겟 파라미터 서버를 결정하고, 생성된 모델 파라미터 업데이트 경도를 타겟 파라미터 서버에 송신하여, 타겟 파라미터 서버로 하여금 업데이트 경도에 따라 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하도록 한다. 이리하여, 태그 기술에서 각 샘플이 소속된 태스크에 대해 라벨링함을 통해, 트레이닝 샘플 집합에 대해 분류하기 편리하고, 서로 다른 파라미터 서버를 통해 서로 다른 태스크에 대응되는 모델 파라미터를 저장하고, 더 나아가 멀티태스크 모델 중의 특정 태스크에 대응되는 샘플 수량이 배치 데이터 요구에 도달할 경우, 당해 태스크에 대응되는 샘플 만을 사용하여 멀티태스크 모델의 공유 네트워크 계층 및 당해 태스크에 대응되는 서브 네트워크 계층에 대해 트레이닝하여, 기타 태스크에 대응되는 서브 네트워크 계층의 파라미터를 업데이트할 필요가 없으므로, 멀티태스크 모델에 대해 분산형 트레이닝할 경우 국부 파라미터 업데이트를 구현하여 멀티태스크 모델의 정밀도를 개선할 뿐만 아니라, 국부 파라미터 업데이트의 간편성도 진일보 개선한다.
본 출원의 실시예에 따라 본 출원은 또한 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 제공한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 멀티태스크 모델의 파라미터 업데이트 방법이 실행된다.
도5는 본 출원의 실시예를 실시하기 위한 예시적인 전자 기기(500)의 개략적 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 또한 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에서 제시된 구성 요소, 이들의 연결 및 관계, 또한 이들의 기능은 단지 예일 뿐이며 본문에서 설명되거나 및/또는 요구되는 본 출원의 구현을 제한하려는 의도가 아니다.
도5에 도시된 바와 같이, 기기(500)는 컴퓨팅 유닛(501)을 포함하며, 읽기 전용 메모리(ROM)(502)에 저장된 컴퓨터 프로그램에 의해 또는 저장 유닛(508)로부터 랜덤 액세스 메모리(RAM)(503)에 로딩된 컴퓨터 프로그램에 의해 수행되어 각종 적절한 동작 및 처리를 수행할 수 있다. RAM(503)에, 또한 기기(500)가 오퍼레이션을 수행하기 위해 필요한 각종 프로그램 및 데이터가 저장되어 있다. 컴퓨팅 유닛(501), ROM(502) 및 RAM(503)는 버스(504)를 통해 서로 연결되어 있다. 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결되어 있다.
키보드, 마우스 등과 같은 입력 유닛(506); 각종 유형의 모니터, 스피커 등과 같은 출력 유닛(507); 자기 디스크, 광 디스크 등과 같은 저장 유닛(508); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버 등과 같은 통신 유닛(509)을 포함하는 기기(500) 중의 복수의 부품이 I/O 인터페이스(505)에 연결된다. 통신 유닛(509)은 장치(500)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 기기와 정보/데이터를 교환하도록 허락한다.
컴퓨팅 유닛(501)은 프로세싱 및 컴퓨팅 능력을 구비한 다양한 범용 및/또는 전용 프로세싱 컴포넌트일 수 있다. 컴퓨팅 유닛(501)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공 지능(AI) 컴퓨팅 칩, 기계 러닝 모델 알고리즘을 수행하는 다양한 컴퓨팅 유닛, 디지털 신호 처리기(DSP), 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 제한되지 않는다. 컴퓨팅 유닛(501)은 예를 들어 멀티태스크 모델의 파라미터 업데이트 방법과 같은 윗글에서 설명한 각각의 방법 및 처리를 수행한다. 예를 들어, 일부 실시예에서, 멀티태스크 모델의 파라미터 업데이트 방법은 저장 유닛(508)과 같은 기계 판독 가능 매체에 유형적으로 포함되어 있는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(502) 및/또는 통신 유닛(509)을 통해 기기(500)에 로드 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(503)에 로딩되고 컴퓨팅 유닛(501)에 의해 수행되는 경우, 전술한 멀티태스크 모델의 파라미터 업데이트 방법의 하나 또는 하나 이상의 단계를 수행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(501)은 임의의 다른 적절한 방식(예를 들어, 펌웨어에 의해)을 통해 구성되어 멀티태스크 모델의 파라미터 업데이트 방법을 수행하도록 한다.
여기서 설명되는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래머블 게이트 어레이(FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템온칩(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및 이들의 조합 중의 적어도 하나로 구현될 수 있다. 이러한 다양한 실시 방식은 하나 또는 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있으며, 당해 하나 또는 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 수행 및/또는 해석될 수있고, 당해 프로그램 가능 프로세서는 전용 또는 일반용일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고 또한 데이터 및 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
본 출원의 방법을 구현하기 위해 사용되는 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공될 수 있으므로, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 수행되는 경우, 흐름도 및/또는 블록도에서 규정한 기능/조작을 구현하도록 한다. 프로그램 코드는 전체적으로 기계에서 수행되거나, 부분적으로 기계에서 수행되거나, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행되고 부분적으로 원격 기계에서 수행되거나 또는 전체적으로 원격 기계 또는 서버에서 수행될 수 있다.
본 출원의 문맥에서, 기계 판독 가능 매체는 명령 수행 시스템, 장치 또는 기기에 의해 사용되거나 명령 수행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형의 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 제한되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 하나 이상의 전선을 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래머블 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 제한되지 않는다.
사용자와의 인터랙션을 제공하기 위해 여기에 설명된 시스템 및 기술은 컴퓨터에서 실시될 수 있다. 당해 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 당해 키보드 및 당해 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 유형의 장치를 사용하여 사용자와의 인터랙션을 제공할 수도 있으며, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 당해 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시 방식과 인터랙션할 수 있음), 또는 이러한 백엔드 부품, 미들웨어 부품 또는 프런트 엔드 부품의 임의의 조합을 포한하는 컴퓨팅 시스템에서 실시될 수 있다. 시스템의 부품은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷 및 블록체인 네트워크를 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통신 네트워크를 통해 인터랙션한다. 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 대응되는 컴퓨터에서 수행하여 클라이언트와 서버 간의 관계를 생성한다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서비스 시스템 중의 일종의 호스트 제품이고, 기존의 물리적 호스트 및 VPS(Virtual Private Server, 가상 사설 서버) 서비스에 존재하고 있는 관리가 어렵고 비즈니스 확장이 약한 결점을 해결하기 위한 것이다.
본 출원의 실시예의 기술 방안에 따르면, 트레이닝 샘플 집합 중의 각 샘플이 소속된 태스크에 따라 각 샘플을 대응되는 샘플 대열에 순차적으로 넣고, 임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 당해 샘플 대열 중의 데이터를 사용하여 멀티태스크 모델 중의 공유 네트워크 계층 및 당해 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 당해 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하고, 더 나아가 업데이트 경도에 따라 파라미터 서버 중의 공유 네트워크 계층 및 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트한다. 이리하여, 멀티태스크 모델 중의 특정 태스크에 대응되는 샘플 수량이 배치 데이터 요구에 도달할 경우, 당해 태스크에 대응되는 샘플 만을 사용하여 멀티태스크 모델의 공유 네트워크 계층 및 당해 태스크에 대응되는 서브 네트워크 계층에 대해 트레이닝하는 것을 통해, 기타 태스크에 대응되는 서브 네트워크 계층의 파라미터를 업데이트할 필요가 없으므로, 멀티태스크 모델에 대해 분산형 트레이닝할 경우 국부 파라미터 업데이트를 구현하여 멀티태스크 모델의 정밀도를 개선한다.
이해 가능한 바로는, 전술한 다양한 형식의 프로세스에 있어서 단계 재정렬, 추가 또는 삭제를 할 수 있다. 예를 들어, 본 출원에 개시된 기술 솔루션이 이루고자 하는 결과를 구현할 수 있는 한, 본 출원에 기재된 각 단계들은 병렬로, 순차적으로 또는 다른 순서로 수행될 수 있으나, 본 명세서에서 이에 대해 한정하지 않는다.
전술한 구체적인 실시 방식들은 본 출원의 보호 범위에 대한 한정을 구성하지 않는다. 당업자라면 본 출원의 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 출원의 보호 범위에 포함된다.

Claims (16)

  1. 멀티태스크 모델의 파라미터 업데이트 방법에 있어서,
    트레이닝 샘플 집합을 획득하는 단계 - 상기 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함함;
    상기 각 샘플이 소속된 태스크에 따라 상기 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는 단계;
    임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 상기 임의의 샘플 대열 중의 샘플을 사용하여 상기 멀티태스크 모델 중의 공유 네트워크 계층 및 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하는 단계;
    상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계를 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 방법.
  2. 제1항에 있어서,
    상기 각 샘플이 소속된 태스크에 따라 상기 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는 단계는,
    상기 각 샘플이 소속된 태스크에 따라 각 샘플에 대응되는 태스크 태그를 결정하는 단계; 및
    각 샘플에 대응되는 태스크 태그에 따라 각 샘플을 상기 태스크 태그에 대응되는 샘플 대열에 순차적으로 넣는 단계를 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 방법.
  3. 제2항에 있어서,
    상기 각 샘플에 대응되는 태스크 태그에 따라 각 샘플을 상기 태스크 태그에 대응되는 샘플 대열에 순차적으로 넣는 단계는,
    임의의 샘플이 복수의 태스크 태그에 대응되는 상황하에서, 상기 복수의 태스크 태그 중의 각 태스크 태그에 대응되는 샘플 대열에 상기 임의의 샘플이 모두 포함되는 것을 결정하는 단계를 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 방법.
  4. 제1항에 있어서,
    상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계는,
    상기 임의의 샘플 대열에 관련된 태스크 태그에 따라 타겟 파라미터 서버를 결정하는 단계;
    상기 생성된 모델 파라미터 업데이트 경도를 상기 타겟 파라미터 서버에 송신하여, 상기 타겟 파라미터 서버로 하여금, 상기 업데이트 경도에 따라 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하도록 하는 단계를 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 방법.
  5. 제1항에 있어서,
    상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계는,
    상기 임의의 샘플 대열에 관련된 태스크의 가중치를 결정하는 단계;
    상기 가중치 및 상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계를 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 방법.
  6. 제5항에 있어서,
    상기 가중치 및 상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계는,
    상기 업데이트 경도에 따라 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 단계;
    상기 가중치 및 상기 업데이트 경도에 따라 상기 공유 네트워크 계층의 업데이트 경도를 결정하는 단계; 및
    상기 공유 네트워크 계층의 업데이트 경도에 따라 상기 공유 네트워크 계층의 파라미터에 대해 업데이트하는 단계를 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 방법.
  7. 멀티태스크 모델의 파라미터 업데이트 장치에 있어서,
    트레이닝 샘플 집합을 획득하는 획득 모듈 - 상기 샘플 집합에는 복수의 샘플 및 각 샘플이 소속된 태스크를 포함함;
    상기 각 샘플이 소속된 태스크에 따라 상기 각 샘플을 대응되는 샘플 대열에 순차적으로 넣는 분류 모듈;
    임의의 샘플 대열 중의 샘플 수량이 트레이닝 데이터 요구에 도달한 상황하에서, 상기 임의의 샘플 대열 중의 샘플을 사용하여 상기 멀티태스크 모델 중의 공유 네트워크 계층 및 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 타겟 서브 네트워크 계층에 대해 트레이닝하여, 상기 임의의 샘플 대열에 관련된 태스크에 대응되는 모델 파라미터 업데이트 경도를 생성하는 트레이닝 모듈; 및
    상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 업데이트 모듈을 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 장치.
  8. 제7항에 있어서,
    상기 분류 모듈은,
    상기 각 샘플이 소속된 태스크에 따라 각 샘플에 대응되는 태스크 태그를 결정하는 제1 결정 유닛; 및
    각 샘플에 대응되는 태스크 태그에 따라 각 샘플을 상기 태스크 태그에 대응되는 샘플 대열에 순차적으로 넣는 분류 유닛을 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 장치.
  9. 제8항에 있어서,
    상기 분류 유닛은,
    임의의 샘플이 복수의 태스크 태그에 대응되는 상황하에서, 상기 복수의 태스크 태그 중의 각 태스크 태그에 대응되는 샘플 대열에 상기 임의의 샘플이 모두 포함되는 것을 결정하는 제1 결정 서브 유닛을 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 장치.
  10. 제7항에 있어서,
    상기 업데이트 모듈은,
    상기 임의의 샘플 대열에 관련된 태스크 태그에 따라 타겟 파라미터 서버를 결정하는 제2 결정 유닛; 및
    상기 생성된 모델 파라미터 업데이트 경도를 상기 타겟 파라미터 서버에 송신하여, 상기 타겟 파라미터 서버로 하여금, 상기 업데이트 경도에 따라 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하도록 하는 송신 유닛을 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 장치.
  11. 제7항에 있어서,
    상기 업데이트 모듈은,
    상기 임의의 샘플 대열에 관련된 태스크의 가중치를 결정하는 제3 결정 유닛; 및
    상기 가중치 및 상기 업데이트 경도에 따라 파라미터 서버 중의 상기 공유 네트워크 계층 및 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 업데이트 유닛을 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 장치.
  12. 제11항에 있어서,
    상기 업데이트 유닛은,
    상기 업데이트 경도에 따라 상기 타겟 서브 네트워크 계층의 파라미터에 대해 업데이트하는 제1 업데이트 서브 유닛;
    상기 가중치 및 상기 업데이트 경도에 따라 상기 공유 네트워크 계층의 업데이트 경도를 결정하는 제2 결정 서브 유닛; 및
    상기 공유 네트워크 계층의 업데이트 경도에 따라 상기 공유 네트워크 계층의 파라미터에 대해 업데이트하는 제2 업데이트 서브 유닛을 포함하는 것,
    을 특징으로 하는 멀티태스크 모델의 파라미터 업데이트 장치.
  13. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리를 포함하고; 여기서,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 상기 방법을 수행하도록 하는 것,
    을 특징으로 하는 전자 기기.
  14. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항에 따른 상기 방법을 수행하도록 하는 것,
    을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.
  15. 컴퓨터 프로그램 제품에 있어서,
    컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행되는 경우 제1항 내지 제6항 중 어느 한 항에 따른 상기 방법을 수행하도록 하는 것,
    을 특징으로 하는 컴퓨터 프로그램 제품.
  16. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 따른 상기 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210109539A 2020-12-14 2021-08-19 멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기 KR20210110780A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011474877.6 2020-12-14
CN202011474877.6A CN112559007B (zh) 2020-12-14 2020-12-14 多任务模型的参数更新方法、装置及电子设备

Publications (1)

Publication Number Publication Date
KR20210110780A true KR20210110780A (ko) 2021-09-09

Family

ID=75063566

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210109539A KR20210110780A (ko) 2020-12-14 2021-08-19 멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기

Country Status (5)

Country Link
US (1) US20210374542A1 (ko)
EP (1) EP3913545A3 (ko)
JP (1) JP7194252B2 (ko)
KR (1) KR20210110780A (ko)
CN (1) CN112559007B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610150B (zh) * 2021-08-05 2023-07-25 北京百度网讯科技有限公司 模型训练的方法、对象分类方法、装置及电子设备
WO2023060578A1 (en) * 2021-10-15 2023-04-20 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for multi-task and multi-scene unified ranking
CN114065952A (zh) * 2021-11-29 2022-02-18 腾讯科技(深圳)有限公司 模型训练的方法和装置
CN114240506A (zh) * 2021-12-21 2022-03-25 北京有竹居网络技术有限公司 多任务模型的建模方法、推广内容处理方法及相关装置
CN114792125B (zh) * 2022-04-15 2023-06-23 北京百度网讯科技有限公司 基于分布式训练的数据处理方法、装置、电子设备和介质
CN114860405B (zh) * 2022-05-17 2023-01-31 北京百度网讯科技有限公司 多任务模型的参数更新方法、装置和存储介质
CN117291669A (zh) * 2022-06-15 2023-12-26 脸萌有限公司 多任务模型训练方法、数据处理方法、装置及电子设备
CN115081630A (zh) * 2022-08-24 2022-09-20 北京百度网讯科技有限公司 多任务模型的训练方法、信息推荐方法、装置和设备
CN115358413A (zh) * 2022-09-14 2022-11-18 清华大学 一种点云多任务模型的训练方法、装置及电子设备
CN115690544B (zh) * 2022-11-11 2024-03-01 北京百度网讯科技有限公司 多任务学习方法及装置、电子设备和介质
CN116611858A (zh) * 2023-07-17 2023-08-18 深圳须弥云图空间科技有限公司 目标推荐方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203395B (zh) * 2016-07-26 2020-01-14 厦门大学 基于多任务深度学习的人脸属性识别方法
WO2018047225A1 (ja) 2016-09-06 2018-03-15 三菱電機株式会社 学習装置、信号処理装置および学習方法
CN106778583B (zh) * 2016-12-07 2019-12-17 北京理工大学 基于卷积神经网络的车辆属性识别方法与装置
US10649806B2 (en) * 2017-04-12 2020-05-12 Petuum, Inc. Elastic management of machine learning computing
CN109919317B (zh) * 2018-01-11 2024-06-04 华为技术有限公司 一种机器学习模型训练方法和装置
US20210073615A1 (en) 2018-04-12 2021-03-11 Nippon Telegraph And Telephone Corporation Neural network system, neural network method, and program
CN109447259A (zh) * 2018-09-21 2019-03-08 北京字节跳动网络技术有限公司 多任务处理及多任务处理模型训练方法、装置和硬件装置
CN111461156A (zh) * 2019-01-18 2020-07-28 搜狗(杭州)智能科技有限公司 一种多任务训练方法及装置
CN110889510B (zh) * 2019-12-05 2022-06-07 武汉大学 一种面向分布式机器学习任务的在线调度方法及装置
CN111461343B (zh) * 2020-03-13 2023-08-04 北京百度网讯科技有限公司 模型参数更新方法及其相关设备
CN111191642B (zh) * 2020-04-08 2020-07-21 腾讯科技(深圳)有限公司 基于多任务分类的指纹防伪识别方法、装置及电子设备
CN111881968B (zh) * 2020-07-22 2024-04-09 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备
CN111709533B (zh) * 2020-08-19 2021-03-30 腾讯科技(深圳)有限公司 机器学习模型的分布式训练方法、装置以及计算机设备
CN111813869B (zh) * 2020-08-21 2021-03-23 支付宝(杭州)信息技术有限公司 一种基于分布式数据的多任务模型训练方法及系统

Also Published As

Publication number Publication date
EP3913545A3 (en) 2022-03-16
EP3913545A2 (en) 2021-11-24
US20210374542A1 (en) 2021-12-02
JP7194252B2 (ja) 2022-12-21
CN112559007B (zh) 2022-09-23
CN112559007A (zh) 2021-03-26
JP2022028871A (ja) 2022-02-16

Similar Documents

Publication Publication Date Title
KR20210110780A (ko) 멀티태스크 모델의 파라미터 업데이트 방법, 장치 및 전자 기기
CN109460513B (zh) 用于生成点击率预测模型的方法和装置
CN112561077B (zh) 多任务模型的训练方法、装置及电子设备
KR20200109230A (ko) 뉴럴 네트워크 생성 방법 및 장치
US20230010160A1 (en) Multimodal data processing
CN112527383B (zh) 用于生成多任务模型的方法、装置、设备、介质和程序
JP2024503774A (ja) 融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ測定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
US11809505B2 (en) Method for pushing information, electronic device
CN112102448A (zh) 虚拟对象图像显示方法、装置、电子设备和存储介质
CN113627536A (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN113378855A (zh) 用于处理多任务的方法、相关装置及计算机程序产品
CN111241838A (zh) 文本实体的语义关系处理方法、装置及设备
JP2023531759A (ja) 車線境界線検出モデルの訓練方法、車線境界線検出モデルの訓練装置、電子機器、記憶媒体及びコンピュータプログラム
CN114266937A (zh) 模型训练、图像处理方法,装置,设备以及存储介质
CN112784102A (zh) 视频检索方法、装置和电子设备
CN112100291A (zh) 一种数据分箱的方法和装置
CN115879469B (zh) 文本数据处理方法、模型训练方法、装置及介质
EP4134885A2 (en) Method and apparatus of recommending data, electronic device, and medium
CN113239273B (zh) 用于生成文本的方法、装置、设备以及存储介质
CN111767290B (zh) 用于更新用户画像的方法和装置
CN109857838B (zh) 用于生成信息的方法和装置
CN113408304A (zh) 文本翻译方法、装置、电子设备及存储介质
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN112348587B (zh) 信息推送方法、装置和电子设备
CN113420227B (zh) 点击率预估模型的训练方法、预估点击率的方法、装置