KR20220061060A - 데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220061060A
KR20220061060A KR1020220050650A KR20220050650A KR20220061060A KR 20220061060 A KR20220061060 A KR 20220061060A KR 1020220050650 A KR1020220050650 A KR 1020220050650A KR 20220050650 A KR20220050650 A KR 20220050650A KR 20220061060 A KR20220061060 A KR 20220061060A
Authority
KR
South Korea
Prior art keywords
data processing
processing model
training
node
target
Prior art date
Application number
KR1020220050650A
Other languages
English (en)
Inventor
양카이 쑤
귀빈 왕
샤오옌 푸
지졔 첸
밍슌 양
밍šœ 양
시준 콩
밍 지아
레이 지아
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220061060A publication Critical patent/KR20220061060A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체를 제공하고, 컴퓨터 기술분야에 관한 것으로, 특히 딥 러닝, 빅 데이터 처리 등 인공 지능 기술분야에 관한 것이다. 구체적인 구현 수단은, 샘플 데이터를 획득하고; 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하며; 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하고; 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하며; 샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하는 것이다. 각 순방향 노드의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델의 구조에 대해 상응한 최적화 처리를 수행하므로, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시켜, 데이터 처리 모델의 트레이닝 효율을 효과적으로 향상시키고, 데이터 처리 모델의 데이터 처리 효과를 효과적으로 향상시킬 수 있다.

Description

데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체{METHOD AND DEVICE FOR TRAINING DATA PROCESSING MODEL, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 발명은 컴퓨터 기술분야에 관한 것으로, 특히 딥 러닝, 빅 데이터 처리 등 인공 지능 기술분야에 관한 것이며, 구체적으로는 데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.
인공 지능은 컴퓨터로 하여금 사람의 일부 사고 과정과 지능적 행동(예를 들면 학습, 추론, 사고, 계획 등)을 시뮬레이션하도록 하는 학과로서, 하드웨어 차원의 기술을 포함할 뿐만 아니라 소프트웨어 차원의 기술도 포함한다. 인공 지능 하드웨어 기술은 일반적으로 센서, 전용 인공 지능 칩, 클라우드 컴퓨팅, 분산식 저장, 빅 데이터 처리 등 기술을 포함하고; 인공 지능 소프트웨어 기술은 주요하게 컴퓨터 비전 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 학습, 딥 러닝, 빅 데이터 처리 기술, 지식 그래프 기술 등과 같은 몇 가지 방향을 포함한다.
관련 기술에서, 데이터 처리 모델을 트레이닝할 경우, 데이터 처리 모델이 많은 중간 계산 결과를 생성할 수 있는데, 이러한 중간 계산 결과는 대량의 비디오 메모리를 점용하게 되어, 데이터 처리 모델의 트레이닝 효율에 영향을 미치게 된다.
본 발명은 데이터 처리 모델에 사용되는 트레이닝 방법, 데이터 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램을 제공한다.
본 발명의 제1 양태에 따르면, 데이터 처리 모델의 트레이닝 방법을 제공하고, 당해 방법은, 샘플 데이터를 획득하는 단계; 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하는 단계; 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하는 단계; 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하는 단계; 및 샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 단계; 를 포함한다.
본 발명의 제2 양태에 따르면, 데이터 처리 방법을 제공하고, 당해 방법은, 처리될 데이터를 획득하는 단계; 및 상기 처리될 데이터를 상술한 데이터 처리 모델의 트레이닝 방법에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 상기 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득하는 단계; 를 포함한다.
본 발명의 제3 양태에 따르면, 데이터 처리 모델의 트레이닝 장치를 제공하고, 당해 장치는, 샘플 데이터를 획득하는 제1 획득 모듈; 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하는 제2 획득 모듈; 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하는 결정 모듈; 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하는 제1 처리 모듈; 및 샘플 데이터, 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 트레이닝 모듈; 을 포함한다.
본 발명의 제4 양태에 따르면, 데이터 처리 장치를 제공하고, 당해 장치는, 처리될 데이터를 획득하는 제3 획득 모듈; 및 상기 처리될 데이터를 상술한 데이터 처리 모델의 트레이닝 장치에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 상기 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득하는 제2 처리 모듈; 을 포함한다.
본 발명의 제5 양태에 따르면, 전자 기기를 제공하고, 당해 전자 기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 명령은 적어도 하나의 프로세서에 의해 실행되어, 적어도 하나의 프로세서로 하여금 제1 양태에 따른 데이터 처리 모델의 트레이닝 방법 또는 제2 양태에 따른 데이터 처리 방법을 수행하도록 한다.
본 발명의 제6 양태에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 컴퓨터 명령은 컴퓨터로 하여금 제1 양태에 따른 데이터 처리 모델의 트레이닝 방법 또는 제2 양태에 따른 데이터 처리 방법을 수행하도록 한다.
본 발명의 제7 양태에 따르면, 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하고, 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1 양태에 따른 데이터 처리 모델의 트레이닝 방법 또는 제2 양태에 따른 데이터 처리 방법을 구현한다.
본 명세서에서 설명한 내용은 본 발명의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 발명의 기타 특징은 아래의 명세서를 통해 보다 용이하게 이해할 수 있을 것이다.
각 순방향 노드의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델의 구조에 대해 상응한 최적화 처리를 수행하므로, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시켜, 데이터 처리 모델의 트레이닝 효율을 효과적으로 향상시키고, 데이터 처리 모델의 데이터 처리 효과를 효과적으로 향상시킬 수 있다.
첨부 도면은 본 기술 수단을 더 잘 이해하기 위한 것으로, 본 발명을 한정하지 않는다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다.
도 2는 본 발명의 실시예의 시간 의존성 특징의 개략도이다.
도 3은 본 발명의 제2 실시예에 따른 개략도이다.
도 4는 본 발명의 실시예의 다른 시간 의존성 특징의 개략도이다.
도 5는 본 발명의 제3 실시예에 따른 개략도이다.
도 6은 본 발명의 제4 실시예에 따른 개략도이다.
도 7은 본 발명의 제5 실시예에 따른 개략도이다.
도 8은 본 발명의 제6 실시예에 따른 개략도이다.
도 9는 본 발명의 제7 실시예에 따른 개략도이다.
도 10은 본 발명의 실시예에 따른 데이터 처리 모델의 트레이닝 방법을 실시하기 위한 예시적인 전자 기기의 개략적인 블록도를 도시한다.
이하 도면과 결부하여 본 발명의 예시적인 실시예를 설명하되, 이해를 돕기 위해 여기에는 본 발명의 실시예의 여러 가지 세부 사항이 포함되고 이들은 단지 예시적인 것으로 이해되어야 한다. 따라서, 본 기술분야에서 통상의 지식을 가진 자들은 본 발명의 범위와 정신을 벗어나지 않고서 여기서 설명한 실시예에 대해 여러 가지 변화와 수정을 진행할 수 있다는 것을 알아야 한다. 마찬가지로, 정확성과 간결성을 위해 아래의 설명에서는 공지 기능과 구조에 대한 설명을 생략한다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다.
설명해야 할 것은, 본 실시예의 데이터 처리 모델의 트레이닝 방법의 수행 주체는 데이터 처리 모델의 트레이닝 장치이고, 당해 장치는 소프트웨어 및/또는 하드웨어의 방식으로 구현되며, 당해 장치는 전자 기기에 구성될 수 있고, 전자 기기는 단말, 서버 등을 포함할 수 있으나 이에 한정되지 않는다.
본 발명의 실시예는 딥 러닝, 빅 데이터 처리 등 인공 지능 기술분야에 관한 것이다.
인공 지능(Artificial Intelligence)의 영문 약칭은 AI이다. 인공 지능은 사람의 지능을 시뮬레이션하고 연장하며 확장하기 위한 이론, 방법, 기술 및 응용 시스템을 연구 및 개발하는 하나의 새로운 기술 과학이다.
딥 러닝은 샘플 데이터의 내재적 법칙과 표현 수준을 학습하는 것이며, 이러한 학습 과정에서 획득된 정보는 문자, 이미지 및 소리 등과 같은 데이터에 대한 해석에 큰 도움이 된다. 딥 러닝의 최종 목표는 기계로 하여금 사람처럼 분석 학습 능력을 가지도록 하여 문자, 이미지 및 소리 등 데이터를 인식할 수 있도록 하는 것이다.
빅 데이터 처리는, 인공 지능의 방식을 이용하여 규모가 큰 데이터를 분석 및 처리하는 과정을 가리키고, 빅 데이터는 데이터 양이 많고(Volume), 속도가 빠르며(Velocity), 종류가 많고(Variety), 가치(Value), 진실성(Veracity)과 같은 5개의 V로 요약될 수 있다.
본 실시예에서, 데이터 처리 모델의 트레이닝 방법의 수행주체는 다양한 공개 또는 합법적인 방식으로 샘플 데이터를 획득할 수 있는 바, 예를 들면, 공개 데이터 세트에서 획득하거나 또는 사용자의 허가를 거쳐 사용자로부터 획득한 것일 수 있다. 당해 샘플 데이터는 어느 특정 사용자의 개인 정보를 반영할 수 없다.
설명해야 할 것은, 본 발명의 실시예의 샘플 데이터는 모두 관련 법률, 법규에 부합되는 상황에서 획득한 것이다.
도 1에 도시된 바와 같이, 당해 데이터 처리 모델의 트레이닝 방법은 아래 단계S101 내지 S105를 포함한다.
S101에서, 샘플 데이터를 획득한다.
모델을 트레이닝하기 위한 데이터는 샘플 데이터라고 불릴 수 있는데, 당해 샘플 데이터는 샘플의 이미지 데이터일 수도 있고 샘플의 오디오 데이터일 수도 있는데, 이에 대해 한정하지 않는다.
일부 실시예에서, 샘플 데이터를 획득할 경우, 비디오 스트림을 획득하고, 당해 비디오 스트림에 대해 비디오 프레임 해석을 수행하여 멀티 프레임 비디오를 샘플 데이터로 획득할 수 있거나, 또는, 각 프레임의 비디오에 대응되는 오디오 데이터를 해석하여 샘플 데이터로 사용할 수도 있는데, 이에 대해 한정하지 않는다.
샘플 데이터의 수량은 복수일 수 있다.
설명해야 할 것은, 본 실시예의 샘플 데이터는 어느 특정 사용자에 대한 샘플 데이터가 아니고, 어느 특정 사용자의 개인 정보를 반영할 수 없다.
본 실시예의 샘플 데이터는 공개 데이터 세트에서 가져오거나, 또는 샘플 데이터에 대응되는 사용자의 허가를 거쳐 샘플 데이터를 획득할 수 있다.
S102에서, 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득한다.
트레이닝 초기 단계에서 획득된 데이터 처리 모델은 초기 데이터 처리 모델이라고 불릴 수 있는데, 당해 초기 데이터 처리 모델은 인공 지능 모델, 구체적으로 예를 들면 신경망 모델 또는 기계 학습 모델일 수 있고, 물론, 데이터 처리 태스크를 수행할 수 있는 기타 임의의 가능한 모델을 사용할 수도 있으며, 본 발명은 이에 대해 한정하지 않는다.
본 발명의 실시예에서, 샘플 데이터를 획득하고, 초기 데이터 처리 모델을 획득함에 있어서, 초기 데이터 처리 모델의 구조에 대해 대응되는 최적화 처리를 진행하는 단계를 수행할 수 있는 바, 예를 들면, 초기 데이터 처리 모델의 구조를 단순화하거나, 또는 기타 임의의 가능한 방식을 이용하여 초기 데이터 처리 모델의 구조에 대해 대응되는 최적화 처리를 진행함으로써, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시키도록 지원할 수 있다.
본 발명의 실시예의 초기 데이터 처리 모델은 복수의 순방향 노드를 포함하는데, 순방향 노드는 데이터 처리 로직에서 순방향 계산 태스크를 수행할 수 있는 바, 즉 샘플 데이터를 데이터 처리 모델에 입력한 후, 통상적으로 순방향 노드에 기반하여 샘플 데이터에 대해 순방향 계산 태스크를 수행하여 샘플 데이터에 각각 대응되는 복수의 중간 계산 결과를 출력하는데, 여기서, 샘플 데이터를 순방향 노드에 입력한 후, 순방향 노드를 이용하여 샘플 데이터에 대해 순방향 계산 태스크를 수행하여 출력된 계산 결과는 중간 계산 결과라고 불릴 수 있다.
순방향 노드의 수량이 복수일 경우, 복수의 순방향 노드는 순차적 연결 관계와 같은 일정한 연결 관계를 가질 수 있어, 복수의 순방향 노드가 순방향 계산 태스크를 수행하는 것은, 복수의 순방향 노드가 입력된 샘플 데이터에 대해 순차적으로 순방향 계산을 수행하는 과정일 수 있다.
본 실시예에서, 샘플 데이터를 획득한 후, 초기 데이터 처리 모델을 획득할 수 있고, 즉 미리 설정된 모델 베이스에서 데이터 처리 모델을 획득하여 초기 데이터 처리 모델로 사용할 수 있고, 당해 초기 데이터 처리 모델은 복수의 순방향 노드를 포함하며, 복수의 순방향 노드는 순방향 계산 태스크를 수행할 때 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력할 수 있다.
설명해야 할 것은, 본 실시예의 초기 데이터 처리 모델도 어느 특정 사용자에 대한 데이터 처리 모델이 아니고, 어느 특정 사용자의 개인 정보를 반영할 수도 없다.
S103에서, 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정한다.
시간 의존성 특징이란, 대응되는 순방향 노드와 기타 순방향 노드 간에 시간 차원의 계산 연관 관계가 존재하는지 여부, 즉 대응되는 순방향 노드가 순방향 계산 태스크를 수행할 때 기타 순방향 노드에 의해 출력된 중간 계산 결과에 의존하는지 여부를 가리키며, 당해 시간 의존성 특징은 상이한 순방향 노드의 계산 순서에서의 의존일 수도 있고, 한 단락의 계산 시간 내에 시간 차원에서의 계산 연관 관계의 의존일 수도 있는데, 본 발명은 이에 대해 한정하지 않는다.
예를 들어 설명하면, 만약 순방향 계산 태스크의 계산 순서가 0-t이고, t는 순방향 노드의 계산 번호이고, 즉, 순방향 계산 태스크가 0단계 계산、1단계 계산, …, t단계 계산을 포함하며, 상이한 순방향 노드가 상이한 단계의 계산 태스크를 각각 대응되게 수행할 수 있고, 만약 하나의 순방향 노드가 t단계 계산을 수행할 때 t-1단계 계산에서 출력된 중간 계산 결과에 의존하면, 당해 순방향 노드의 시간 의존성 특징은, 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재함을 결정할 수 있으며, 만약 하나의 순방향 노드가 t단계 계산을 수행할 때 기타 임의의 한 단계 계산에서 출력된 중간 계산 결과에 의존하지 않으면, 당해 순방향 노드의 시간 의존성 특징은, 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재하지 않음을 결정할 수 있다.
도 2에 도시된 바와 같이, 도 2는 본 발명의 실시예의 시간 의존성 특징 개략도이고, 복수의 순방향 노드는 순방향 노드2, 순방향 노드3, 순방향 노드4를 포함하고, 복수의 순방향 노드의 계산 순서는 순차적으로 순방향 노드2, 순방향 노드3, 순방향 노드4이며, 상응하게, 순방향 노드는 0-t단계의 계산을 수행할 때, t-1, t, t+1단계 계산 순서에 따라 순차적으로 계산할 수 있다. 순방향 노드3은 t단계 계산을 수행할 때, t-1단계에서 출력된 중간 계산 결과에 의존하며, t+1단계 계산을 수행할 때, t단계에서 출력된 중간 계산 결과에 의존하며, 이로써, 순방향 노드3의 시간 의존성 특징은, 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재함을 결정할 수 있고, 순방향 노드2와 순방향 노드4는 t-1단계, t단계 및 t+1단계 계산을 수행할 때, 기타 임의의 한 단계에서 출력된 중간 계산 결과에 의존할 필요가 없으며, 이때 순방향 노드2와 순방향 노드4의 시간 의존성 특징은, 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재하지 않음을 결정할 수 있다.
일부 실시예에서, 순방향 노드에 대응되는 시간 의존성 특징을 결정할 경우, 당해 순방향 노드에 입력한 중간 계산 결과를 획득하고, 당해 입력된 중간 계산 결과가 기타 단계 계산 태스크에서 출력된 중간 계산 결과와 연관 관계가 존재하는지 여부를 분석하고, 대응되는 시간 의존성 특징을 분석하여 획득할 수 있는데, 본 발명은 이에 대해 한정하지 않는다.
본 실시예에서, 초기 데이터 처리 모델을 획득한 후, 초기 데이터 처리 모델의 각 순방향 노드와 기타 순방향 노드 간의 계산 연관 관계를 분석하고, 분석하여 획득된 계산 연관 관계에 따라 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하거나, 또는, 초기 데이터 처리 모델에 대응되는 구성 파일을 획득하고, 당해 구성 파일을 해석하여 각 순방향 노드에 대응되는 속성 특징을 획득하며, 속성 특징을 상응하게 분석하여 복수의 순방향 노드에 각각 대응되는 복수의 시간 의존성 특징을 획득할 수 있으며, 본 발명은 이에 대해 한정하지 않는다.
S104에서, 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득한다.
초기 데이터 처리 모델에 대해 최적화 처리를 수행하여 획득된 데이터 처리 모델은 트레이닝될 데이터 처리 모델이라고 불릴 수 있다.
상술한 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정한 후, 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리함으로써, 트레이닝될 데이터 처리 모델을 획득할 수 있다.
예를 들면, 복수의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델에 대해 최적화 트레이닝을 수행하여, 초기 데이터 처리 모델의 모델 구조 파라미터에 대해 상응한 업데이터를 수행하여, 최적화된 초기 데이터 처리 모델을 획득하고, 당해 최적화된 초기 데이터 처리 모델은 트레이닝될 데이터 처리 모델이라고 불릴 수 있고, 또는, 기타 임의의 가능한 방식을 이용하여 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리할 수도 있다.
S105에서, 샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득한다.
상술한 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득한 후, 샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득할 수 있다.
예를 들면, 복수의 샘플 데이터 및 복수의 중간 계산 결과를 트레이닝될 데이터 처리 모델에 입력하여, 트레이닝될 데이터 처리 모델에서 출력된 예측 처리 결과를 획득하며, 만약 예측 처리 결과와 어노테이션 처리 결과 간에 수렴 조건을 만족하면 트레이닝이 완료되고, 트레이닝하여 획득된 데이터 처리 모델을 타깃 데이터 처리 모델로 사용한다.
일부 실시예에서, 트레이닝될 데이터 처리 모델에 대해 손실 함수를 미리 구성하고, 데이터 처리 모델을 트레이닝하는 과정에서, 샘플 데이터, 복수의 중간 계산 결과, 및 예측 처리 결과, 어노테이션 처리 결과를 손실 함수의 입력 파라미터로 사용하며, 손실 함수가 입력한 손실 값을 결정하고, 당해 손실 값과 결부하여 데이터 처리 모델이 수렴 타이밍을 만족하는지 여부를 결정할 수 있으며, 본 발명은 이에 대해 한정하지 않는다.
설명해야 할 것은, 본 단계를 거쳐 획득된 타깃 데이터 처리 모델에는 샘플 데이터에 대한 데이터 처리 로직이 포함되는데, 당해 샘플 데이터의 데이터 처리 로직의 구축은 사용자의 허가를 거친 후 수행된 것이고, 그 구축 과정은 관련 법률 및 법규에 부합된다.
본 실시예에서, 샘플 데이터를 획득하고; 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하며; 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하고; 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하며; 샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득함으로써, 각 순방향 노드의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델의 구조에 대해 상응한 최적화 처리를 수행하므로, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시켜, 데이터 처리 모델의 트레이닝 효율을 효과적으로 향상시키고, 데이터 처리 모델의 데이터 처리 효과를 효과적으로 향상시킬 수 있다.
도 3은 본 발명의 제2 실시예에 따른 개략도이다.
도 3에 도시된 바와 같이, 당해 데이터 처리 모델의 트레이닝 방법은 아래 단계를 포함한다.
S301에서, 샘플 데이터를 획득한다.
설명해야 할 것은, 본 실시예의 샘플 데이터는 어느 특정 사용자에 대한 샘플 데이터가 아니고, 어느 특정 사용자의 개인 정보를 반영할 수 없다.
본 실시예의 샘플 데이터는 공개 데이터 세트에서 획득하거나, 또는 샘플 데이터에 대응되는 사용자의 허가를 거쳐 샘플 데이터를 획득한 것일 수 있다.
S302에서, 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득한다.
일부 응용 시나리오에서, 초기 데이터 처리 모델에 대해 재계산 범위를 구획할 수도 있는데, 당해 재계산 범위 내에는 복수의 순방향 노드가 포함될 수 있고, 당해 복수의 순방향 노드는 초기 데이터 처리 모델의 모든 순방향 노드 중의 일부 순방향 노드일 수 있으며, 당해 일부 순방향 노드에서 타깃 순방향 노드의 선별을 지원할 수 있는데, 본 발명은 이에 대해 한정하지 않는다.
설명해야 할 것은, 본 실시예의 초기 데이터 처리 모델도 어느 특정 사용자에 대한 데이터 처리 모델이 아니고, 어느 특정 사용자의 개인 정보를 반영할 수도 없다.
S303에서, 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정한다.
S301-S303의 설명은 상기 실시예를 구체적으로 참조할 수 있는 바, 여기서 더 이상 설명하지 않는다.
S304에서, 복수의 시간 의존성 특징에 따라 복수의 순방향 노드에서 타깃 순방향 노드를 결정한다.
계산 과정에서 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재하지 않는 순방향 노드는 타깃 순방향 노드라고 불릴 수 있다.
상술한 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정한 후, 복수의 시간 의존성 특징에 따라 복수의 순방향 노드에서 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재하지 않는 순방향 노드를 결정하고 타깃 순방향 노드로 사용할 수 있다.
도 4와 함께 결부하여 본 실시예를 설명할 수 있는데, 도 4에 도시된 바와 같이, 도 4는 본 발명의 실시예의 다른 시간 의존성 특징 개략도로서, 순방향 노드1, 순방향 노드2, 순방향 노드3, 순방향 노드4를 포함하고, 순방향 노드1, 순방향 노드2, 순방향 노드3, 순방향 노드4의 시간 의존성 특징을 결정하는 것을 통해 알 수 있다 시피, 순방향 노드1의 시간 의존성 특징은, 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재하지 않으며, 순방향 노드1을 타깃 순방향 노드로 결정할 수 있다.
본 실시예에서, 복수의 순방향 노드에 대응되는 의존성 특징을 결정하는 것을 통해, 복수의 순방향 노드에서 기타 순방향 노드와 시간 차원의 계산 연관 관계가 존재하지 않는 타깃 순방향 노드를 결정하고, 당해 타깃 순방향 노드에 재계산 상태를 설정(즉 도 4에 도시된 바와 같이 타깃 순방향 노드1에 대해 대응되는 재계산 노드1을 구성)하여, 당해 타깃 순방향 노드에서 출력된 재계산 결과를 획득하고, 그 다음, 샘플 데이터, 복수의 중간 결과 및 재계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여 타깃 데이터 처리 트레이닝 모델을 획득할 수 있다.
타깃 순방향 노드를 재계산 상태로 설정할 경우, 모델의 역방향 계산을 수행할 때, 만약 역방향 노드가 타깃 순방향 노드에서 출력된 중간 계산 결과에 의존하면, 그에 대응되는 재계산 노드를 이용하여 재계산 태스크를 수행하고, 타깃 순방향 노드에 대응되는 중간 계산 결과를 출력하여, 모델의 파라미터 튜닝을 지원하도록 할 수 있다.
S305에서, 타깃 순방향 노드에 대응되는 재계산 노드를 생성하되, 재계산 노드는 샘플 데이터에 대응되는 재계산 결과를 출력하기 위한 것이며, 재계산 결과는 타깃 순방향 노드에서 출력되는 중간 계산 결과와 동일하다.
상술한 복수의 시간 의존성 특징에 따라 복수의 순방향 노드에서 타깃 순방향 노드를 결정한 후, 타깃 순방향 노드에 대응되는 재계산 노드를 생성할 수 있다.
재계산 노드는, 데이터 처리 모델의 역방향 트레이닝 과정에서, 샘플 데이터에 대해 다시 재계산 태스크를 수행하여 타깃 순방향 노드에 대응되는 중간 계산 결과를 생성하는 것을 가리키는 바, 당해 재계산에 의해 획득된 중간 계산 결과는 데이터 처리 모델의 역방향 트레이닝을 지원할 수 있으며, 역방향 트레이닝의 목적은 모델 파라미터 튜닝일 수 있다.
상기 재계산 노드는 재계산 과정에서 중간 계산 결과를 출력하는데, 당해 중간 계산 결과는 재계산 결과로 불릴 수 있고, 상기 재계산 노드가 재계산 과정에서 출력한 재계산 결과는 타깃 순방향 노드가 순방향 트레이닝 과정에서 출력한 중간 계산 결과와 동일하다.
본 실시예에서, 순방향 노드에 대해 재계산 및 비디오 메모리의 종합 수익을 계산하는 것을 통해, 재계산 및 비디오 메모리의 종합 수익이 제일 큰 순방향 노드에 대응되는 재계산 노드를 생성할 수 있는데, 구체적인 계산 공식은 recommit_benefit = output_size - input_size + recompute_input_size이고, recommit_benefit는 재계산 및 비디오 메모리 종합 수익 값이며, output_size는 순방향 노드가 출력한 중간 계산 결과의 비디오 메모리 크기이고, input_size는 순방향 노드가 모두 입력한 비디오 메모리 크기이며, recompute_input_size는 타깃 순방향 노드가 입력한 비디오 메모리 크기이고, 계산하여 획득된 타깃 순방향 노드에서 재계산 비디오 메모리 수익이 제일 큰 계산 노드를 결정하여, 상기 계산 노드에 대응되는 재계산 노드를 생성하는 바, 최대 재계산 및 비디오 메모리 종합 수익 값이 미리 설정된 임계값보다 작을 때까지 상기 단계를 반복한다. 반대로, 만약 계산하여 획득된 재계산 및 비디오 메모리 종합 수익 값이 미리 설정된 임계값보다 크면, 타깃 순방향 노드에 대응되는 재계산 노드를 생성하지 않을 수 있다.
예를 들면, 도 4에 도시된 바와 같이, 상기 결정된 타깃 순방향 노드가 순방향 노드1이면, 순방향 노드1에 대해 재계산 및 비디오 메모리 종합 수익의 계산을 수행하고, 만약 순방향 노드1에 대해 계산하여 획득된 재계산 및 비디오 메모리 종합 수익이 미리 설정된 임계값보다 작으면, 타깃 순방향 노드1에 대응되는 재계산 노드를 생성하는데, 여기서, 순방향 노드1는 재계산 과정에서 재계산 결과1을 출력하고, 재계산 결과1은 상기 순방향 노드1이 순방향 계산에서 출력한 중간 계산 결과1과 동일한 결과이며, 반대로, 만약 순방향 노드1에 대해 계산하여 획득된 재계산 및 비디오 메모리 종합 수익이 미리 설정된 임계값보다 크면, 타깃 순방향 노드에 대응되는 재계산 노드를 생성하지 않을 수 있으며, 이때, 후속적인 계산을 통해 다시 재계산 노드를 결정할 수 있는데, 본 발명은 이에 대해 한정하지 않는다.
S306에서, 복수의 순방향 노드 및 재계산 노드에 따라, 트레이닝될 데이터 처리 모델을 생성한다.
상술한 타깃 순방향 노드에 대응되는 재계산 노드를 생성한 후, 복수의 순방향 노드 및 재계산 노드에 따라, 트레이닝될 데이터 처리 모델을 생성할 수 있다.
본 실시예에서, 복수의 시간 의존성 특징에 따라 복수의 순방향 노드에서 타깃 순방향 노드를 결정하고; 타깃 순방향 노드에 대응되는 재계산 노드를 생성하되, 재계산 노드는 샘플 데이터에 대응되는 재계산 결과를 출력하기 위한 것이며, 재계산 결과와 타깃 순방향 노드에서 출력된 중간 계산 결과가 동일하며; 복수의 순방향 노드 및 재계산 노드에 따라 트레이닝될 데이터 처리 모델을 생성함으로써, 시간 의존성 특징을 참조하여 초기 데이터 처리 모델에 대해 구조적인 최적화를 수행하며, 상응한 재계산 노드를 구성하여 재계산 태스크를 수행하므로, 재계산을 통해 획득된 재계산 결과를 이용하여 데이터 처리 모델에 대해 파라미터 튜닝을 수행하는 것을 지원할 수 있어, 타깃 순방향 노드에서 출력된 중간 계산 결과에 대한 의존성을 효과적으로 저하시킬 수 있다.
설명해야 할 것은, 본 단계를 통해 획득된 트레이닝될 데이터 처리 모델은 샘플 데이터에 대한 데이터 처리 로직을 포함하는데, 당해 샘플 데이터의 데이터 처리 로직의 구축은 사용자의 허가를 거친 후 수행된 것이고, 그 구축 과정은 관련 법률 및 법규에 부합된다.
S307에서, 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하고; 기타 중간 계산 결과는 기타 순방향 노드에서 출력된, 샘플 데이터에 대응되는 중간 계산 결과이고, 타깃 순방향 노드와 기타 순방향 노드는 함께 복수의 순방향 노드를 구성한다.
상술한 복수의 순방향 노드 및 재계산 노드에 따라 트레이닝될 데이터 처리 모델을 생성한 후, 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는데, 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 결합하여 트레이닝될 데이터 처리 모델을 트레이닝하므로, 데이터 처리 모델의 트레이닝 효율과 성능을 효과적으로 향상시킬 수 있고, 데이터 처리 모델의 트레이닝 효과를 효과적으로 향상시킬 수 있어, 데이터 처리 모델로 하여금 실시간 수요가 높은 응용 시나리오에 적응하도록 할 수 있다.
상기 도 4와 함께 결부하여 본 실시예를 설명할 수 있는데, 도 4에 도시된 바와 같이, 데이터 처리 모델은 순방향 노드1, 순방향 노드2, 순방향 노드3, 순방향 노드4, 역방향 노드1, 역방향 노드2, 역방향 노드3 및 역방향 노드4를 포함하고, 상술한 재계산 노드1 및 재계산 결과1을 결정한 후, 샘플 데이터, 순방향 노드2에서 출력된 중간 계산 결과2 및 순방향 노드3에서 출력된 중간 계산 결과3과 함께 결부하여 트레이닝될 데이터 처리 모델을 트레이닝함으로써, 데이터 처리 모델에 대해 파라미터 튜닝을 수행하고, 파라미터 튜닝을 통해 타깃 데이터 처리 모델을 획득할 수 있다.
일부 실시예에서, 순방향 노드와 역방향 노드에 대해 각각 상응한 손실 함수를 구성하여, 순방향 노드의 계산을 수행하는 과정에서 순방향 노드에 구성된 손실 함수에서 출력된 손실 값을 획득하고, 그 다음 중간 계산 결과2를 역방향 노드2의 입력으로 하며, 중간 계산 결과3을 역방향 노드3 및 역방향 노드4의 입력으로 하고, 재계산 결과1을 역방향 노드1의 입력으로 하며, 역방향 노드의 역방향 계산(역방향 계산은 모델에 대해 파라미터 튜닝을 수행하기 위한 것임)을 수행하는 것을 통해, 역방향 노드에 구성된 손실 함수에 따라 모델의 하강 구배를 계산하여 획득하고, 옵티마이저를 업데이트하여 하강 구배를 모델 파라미터에 응용하여, 업데이트된 모델의 트레이닝 파라미터를 획득하며, 그 다음, 업데이트된 모델 트레이닝 파라미터와 미리 설정된 모델 트레이닝의 기준 파라미터를 비교하여, 모델의 트레이닝 완료 여부를 결정할 수 있다.
본 실시예에서, 샘플 데이터를 획득하고; 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하며; 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하고; 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하며; 샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득함으로써, 각 순방향 노드의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델의 구조에 대해 상응한 최적화 처리를 수행하므로, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시켜, 데이터 처리 모델의 트레이닝 효율을 효과적으로 향상시키고, 데이터 처리 모델의 데이터 처리 효과를 효과적으로 향상시킬 수 있다. 복수의 시간 의존성 특징에 따라 복수의 순방향 노드에서 타깃 순방향 노드를 결정하고; 타깃 순방향 노드에 대응되는 재계산 노드를 생성하되, 재계산 노드는 샘플 데이터에 대응되는 재계산 결과를 출력하기 위한 것이며, 재계산 결과와 타깃 순방향 노드에서 출력된 중간 계산 결과가 동일하며; 복수의 순방향 노드 및 재계산 노드에 따라 트레이닝될 데이터 처리 모델을 생성함으로써, 시간 의존성 특징을 참조하여 초기 데이터 처리 모델에 대해 구조적인 최적화를 수행하며, 상응한 재계산 노드를 구성하여 재계산 태스크를 수행하므로, 재계산을 통해 획득된 재계산 결과를 이용하여 데이터 처리 모델에 대해 파라미터 튜닝을 수행하는 것을 지원함으로써, 타깃 순방향 노드에서 출력된 중간 계산 결과에 대한 의존성을 효과적으로 저하시킬 수 있다.
도 5는 본 발명의 제3 실시예에 따른 개략도이다.
도 5에 도시된 바와 같이, 당해 데이터 처리 모델의 트레이닝 방법은 아래 단계를 포함한다.
S501에서, 샘플 데이터를 트레이닝될 데이터 처리 모델의 순방향 트레이닝 입력으로 사용하여, 트레이닝될 데이터 처리 모델의 복수의 순방향 노드에서 출력된 복수의 중간 계산 결과를 획득한다.
본 실시예에서, 샘플 데이터를 트레이닝될 데이터 처리 모델에 입력하고, 트레이닝될 데이터 처리 모델의 복수의 순방향 노드에 기반하여 순방향 계산 태스크(순방향 계산 태스크는 데이터 처리 태스크를 수행할 수 있음)를 수행함으로써, 복수의 순방향 노드에서 각각 출력되는 복수의 중간 계산 결과를 획득하며, 당해 중간 계산 결과는 역방향 계산 태스크의 입력으로 사용될 수 있고, 역방향 계산 태스크는 모델 파라미터 튜닝 태스크로 간주될 수 있다.
설명해야 할 것은, 본 실시예의 샘플 데이터는 어느 특정 사용자에 대한 샘플 데이터가 아니고, 어느 특정 사용자의 개인 정보를 반영할 수 없다.
본 실시예의 샘플 데이터는 공개 데이터 세트에서 획득되거나, 또는 샘플 데이터에 대응되는 사용자의 허가를 거쳐 샘플 데이터를 획득할 수 있다.
S502에서, 타깃 순방향 노드에서 출력된 중간 계산 결과를 삭제하고, 기타 순방향 노드에서 출력된 기타 중간 계산 결과를 유지한다.
상술한 샘플 데이터를 트레이닝될 데이터 처리 모델의 순방향 트레이닝 입력으로 사용하여, 트레이닝될 데이터 처리 모델의 복수의 중간 계산 결과를 획득한 후, 타깃 순방향 노드에서 출력된 중간 계산 결과를 삭제하고, 기타 순방향 노드에서 출력된 기타 중간 계산 결과를 유지할 수 있다.
예를 들면, 상기 순방향 노드1, 순방향 노드2, 순방향 노드3 및 순방향 노드4는 순방향 트레이닝에서 샘플 데이터에 관련된 중간 계산 결과1, 중간 계산 결과2, 중간 계산 결과3 및 중간 계산 결과4를 각각 출력하는데, 상술한 순방향 노드1을 타깃 순방향 노드로 결정한 후, 순방향 노드1에서 출력된 중간 계산 결과1을 삭제하고, 중간 계산 결과2, 중간 계산 결과3 및 중간 계산 결과4를 유지하여 기타 중간 계산 결과로 사용할 수 있다.
본 실시예에서, 샘플 데이터를 트레이닝될 데이터 처리 모델의 순방향 트레이닝 입력으로 사용하여, 트레이닝될 데이터 처리 모델의 복수의 순방향 노드에서 출력된 복수의 중간 계산 결과를 획득하고, 그 다음, 타깃 순방향 노드에서 출력된 중간 계산 결과를 삭제하고, 기타 순방향 노드에서 출력된 기타 중간 계산 결과를 유지함으로써, 타깃 순방향 노드에서 출력된 중간 계산 결과가 후속적인 모델 트레이닝 과정에서 비디오 메모리를 지속적으로 점용하는 것을 방지하고, 저장 성능을 향상시켜 데이터 처리 모델의 트레이닝 속도를 향상시키는 것을 지원할 수 있다.
S503에서, 재계산 노드에서 생성된, 샘플 데이터에 대응되는 재계산 결과를 획득한다.
즉, 트레이닝될 데이터 처리 모델의 복수의 역방향 노드에 기반하여 역방향 계산 태스크(역방향 계산 태스크는 모델 파라미터 튜닝 태스크로 간주될 수 있음)를 수행할 경우, 재계산 노드를 이용하여 재계산 태스크를 수행함으로써, 샘플 데이터에 대응되는 중간 계산 결과(재계산 노드에서 출력된 중간 계산 결과는 재계산 결과로 불릴 수 있음)를 출력할 수 있다.
S504에서, 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 트레이닝될 데이터 처리 모델의 역방향 트레이닝 입력으로 사용하여, 복수의 역방향 노드에서 출력된 예측 튜닝 파라미터를 획득한다.
상술한 재계산 노드에서 생성된, 샘플 데이터에 대응되는 재계산 결과를 획득한 후, 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 트레이닝될 데이터 처리 모델의 역방향 트레이닝 입력으로 사용하여, 복수의 역방향 노드에서 출력된 예측 튜닝 파라미터를 획득할 수 있다.
역방향 노드에서 예측하여 획득된 튜닝 파라미터는 예측 튜닝 파라미터로 불릴 수 있고, 예측 튜닝 파라미터는 모델 트레이닝 상태를 반영하는 파라미터일 수 있으며, 당해 파라미터는 예측하여 획득될 수 있으며, 상응하게 모델 트레이닝의 경우, 당해 트레이닝될 데이터 처리 모델은 대응되는 초기 튜닝 파라미터를 가지고, 당해 초기 튜닝 파라미터는 조절될 튜닝 파라미터일 수 있으며, 역방향 트레이닝 과정에서 역방향 계산 태스크를 수행하여 모델의 조절될 튜닝 파라미터를 튜닝할 수 있는데, 이때 역방향 노드는 상응한 예측 튜닝 파라미터를 생성할 수 있다.
본 실시예에서, 데이터 처리 모델에 대해 미리 손실 함수를 구성할 수 있고, 역방향 노드를 수행하는 과정에서, 미리 구성된 손실 함수에 따라 데이터 처리 모델 트레이닝 파라미터의 하강 구배를 계산하여 획득할 수 있으며, 파라미터 업데이트를 수행하는 것을 통해 상기 하강 구배를 모델 트레이닝 파라미터에 응용하여, 업데이트된 예측 튜닝 파라미터를 획득할 수 있다.
S505에서, 예측 튜닝 파라미터와 어노테이션 튜닝 파라미터(annotated tuning parameters)가 설정된 조건을 만족하면, 트레이닝하여 획득된 데이터 처리 모델을 타깃 데이터 처리 모델로 사용한다.
데이터 처리 모델에 대해 미리 성능 지표를 구성하고, 당해 성능 지표에 따라 해석하여 획득된 데이터 처리 모델의 타깃 튜닝 파라미터는, 어노테이션 튜닝 파라미터라고 불릴 수 있다.
일부 실시예에서, 미리 데이터 처리 모델에 대해 상응한 어노테이션 튜닝 파라미터를 설정하고, 데이터 처리 모델에 대해 손실 함수를 미리 구성하며, 데이터 처리 모델에 대한 역방향 트레이닝 과정에서, 파라미터 업데이트를 수행하는 것을 통해 업데이트된 예측 튜닝 파라미터를 획득한다. 만약 예측 튜닝 파라미터와 어노테이션 튜닝 파라미터 사이의 손실 값이 당해 손실 임계값보다 작으면, 예측 튜닝 파라미터와 어노테이션 튜닝 파라미터 사이가 설정된 조건을 만족하는 것으로 결정할 수 있고, 예측 튜닝 파라미터에 따라 조절될 튜닝 파라미터를 조절하여 타깃 데이터 처리 모델을 획득하거나, 또는 설정된 조건은 기타 임의의 가능한 조건으로 구성될 수 있는데, 본 발명은 이에 대해 한정하지 않는다.
이로써 본 실시예에서, 재계산 노드에서 생성된, 샘플 데이터에 대응되는 재계산 결과를 획득하고, 그 다음 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 트레이닝될 데이터 처리 모델의 역방향 트레이닝 입력으로 사용하여, 복수의 역방향 노드에서 출력된 예측 튜닝 파라미터를 획득하며, 예측 튜닝 파라미터와 어노테이션 튜닝 파라미터가 설정된 조건을 만족하면, 트레이닝하여 획득된 데이터 처리 모델을 타깃 데이터 처리 모델로 사용함으로써, 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 결부하여 역방향 계산 태스크를 수행하여 모델에 대해 파라미터 튜닝을 수행하므로, 데이터 처리 모델의 표현 성능을 효과적으로 향상시켜, 데이터 처리 모델의 트레이닝 효율과 성능을 모두 실현하며, 데이터 처리 모델의 트레이닝 효과를 효과적으로 향상시킬 수 있어, 데이터 처리 모델로 하여금 실시간 수요가 높은 응용 시나리오에 적응하도록 하여, 모델 트레이닝 및 사용 시나리오가 크게 풍부하도록 할 수 있다.
상기 트레이닝하여 획득된 데이터 처리 모델은 스트리밍 계산 시나리오에 효과적으로 적용되고, 재계산 최적화의 사용성과 지능성을 효과적으로 증가시키며, 사용자의 사용 조건을 저하시켜, 샘플 데이터의 배치 사이즈를 증가시키는 동시에 계산 속도를 보장하는 목적을 달성하여, 데이터 처리 알고리즘으로 하여금 보다 신속하게 생산 환경에서 트레이닝하여, 데이터 처리 모델의 교부 효율을 향상시킬 수 있다.
설명해야 할 것은, 본 단계를 통해 획득된 타깃 데이터 처리 모델은 샘플 데이터에 대한 데이터 처리 로직을 포함하는데, 당해 샘플 데이터의 데이터 처리 로직의 구축은 사용자의 허가를 거친 후 수행된 것이고, 그 구축 과정은 관련 법률 및 법규에 부합된다.
본 실시예에서, 샘플 데이터를 트레이닝될 데이터 처리 모델의 순방향 트레이닝 입력으로 사용하여, 트레이닝될 데이터 처리 모델의 복수의 순방향 노드에서 출력된 복수의 중간 계산 결과를 획득하고, 그 다음 타깃 순방향 노드에서 출력된 중간 계산 결과를 삭제하고, 기타 순방향 노드에서 출력된 기타 중간 계산 결과를 유지하며, 그 다음 재계산 노드에서 생성된, 샘플 데이터에 대응되는 재계산 결과를 획득함으로써, 타깃 순방향 노드에서 출력된 중간 결과가 후속적인 모델 트레이닝 과정에서 비디오 메모리를 지속적으로 점용하는 것을 방지하고, 저장 성능을 향상시켜 데이터 처리 모델의 트레이닝 속도를 향상시키는 것을 지원할 수 있다. 재계산 노드에서 생성된, 샘플 데이터에 대응되는 재계산 결과를 획득하고, 그 다음 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 트레이닝될 데이터 처리 모델의 역방향 트레이닝 입력으로 사용하여, 복수의 역방향 노드에서 출력된 예측 튜닝 파라미터를 획득하며, 예측 튜닝 파라미터와 어노테이션 튜닝 파라미터가 설정된 조건을 만족하면, 트레이닝하여 획득된 데이터 처리 모델을 타깃 데이터 처리 모델로 사용함으로써, 샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 결부하여 역방향 계산 태스크를 수행하여 모델에 대해 파라미터 튜닝을 수행하므로, 데이터 처리 모델의 표현 성능을 효과적으로 향상시켜, 데이터 처리 모델의 트레이닝 효율과 성능을 모두 실현하며, 데이터 처리 모델의 트레이닝 효과를 효과적으로 향상시킬 수 있어, 데이터 처리 모델로 하여금 실시간 수요가 높은 응용 시나리오에 적응하도록 하여, 모델 트레이닝 및 사용 시나리오가 크게 풍부하도록 할 수 있다.
도 6은 본 발명의 제4 실시예에 따른 개략도이다.
본 실시예에서, 데이터 처리 방법의 수행 주체는 여러 가지 공개적이고 합법적인 방식으로 처리될 데이터를 획득할 수 있는 바, 예를 들면, 공개 데이터 세트에서 획득하거나, 또는 사용자의 허가를 거쳐 사용자로부터 획득한 것일 수 있다. 당해 처리될 데이터는 어느 특정 사용자의 개인 정보를 반영할 수 없다.
설명해야 할 것은, 본 발명의 실시예의 처리될 데이터는 모두 관련 법률 및 법규에 부합되는 상황에서 획득한 것이다.
도 6에 도시된 바와 같이, 당해 데이터 처리 방법은 아래 단계를 포함한다.
S601에서, 처리될 데이터를 획득한다.
현재 처리해야 할 데이터는 처리될 데이터라고 불릴 수 있다.
당해 처리될 데이터는 예를 들면 한 단락의 음성 데이터 프레임일 수도 있고, 여러 단락의 음성 데이터 프레임일 수도 있는 바, 즉, 처리될 데이터의 수량은 하나 또는 복수일 수 있는데, 본 발명은 이에 대해 한정하지 않는다.
설명해야 할 것은, 본 발명의 실시예의 처리될 데이터는 모두 관련 법률 및 법규에 부합되는 상황에서 획득한 것이다.
S602에서, 처리될 데이터를 상술한 데이터 처리 모델의 트레이닝 방법에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득한다.
상술한 처리될 데이터를 획득한 후, 처리될 데이터를 상술한 데이터 처리 모델의 트레이닝 방법에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득할 수 있다.
본 실시예에서, 처리될 데이터를 획득하고, 처리될 데이터를 상술한 데이터 처리 모델의 트레이닝 방법에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득함으로써, 타깃 데이터 처리 모델은 순방향 노드의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델의 구조에 대해 최적화 처리를 수행하고 트레이닝하여 획득된 것이므로, 타깃 데이터 처리 모델을 이용하여 처리될 데이터를 처리할 경우, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시켜, 데이터 처리 효율을 효과적으로 향상시키고 데이터 처리 효과를 효과적으로 향상시킬 수 있다.
도 7은 본 발명의 제5 실시예에 따른 개략도이다.
도 7에 도시된 바와 같이, 당해 데이터 처리 모델의 트레이닝 장치(70)는,
샘플 데이터를 획득하는 제1 획득 모듈(701);
샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하는 제2 획득 모듈(702);
복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하는 결정 모듈(703);
복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하는 제1 처리 모듈(704); 및
샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 트레이닝 모듈(705)을 포함한다.
본 발명의 일부 실시예에서, 도 8에 도시된 바와 같이, 도 8은 본 발명의 제6 실시예에 따른 개략도이다. 당해 이미지 처리 모델의 트레이닝 장치(80)는 제1 획득 모듈(801), 제2 획득 모듈(802), 결정 모듈(803), 제1 처리 모듈(804) 및 트레이닝 모듈(805)을 포함하고, 제1 처리 모듈(804)은,
복수의 시간 의존성 특징에 따라 복수의 순방향 노드에서 타깃 순방향 노드를 결정하는 결정 서브 모듈(8041);
타깃 순방향 노드에 대응되는 재계산 노드를 생성하는 제1 생성 서브 모듈(8042) - 재계산 노드는 샘플 데이터에 대응되는 재계산 결과를 출력하기 위한 것이고, 재계산 결과는 타깃 순방향 노드에서 출력된 중간 계산 결과와 동일함- ; 및
복수의 순방향 노드 및 재계산 노드에 따라 트레이닝될 데이터 처리 모델을 생성하는 제2 생성 서브 모듈(8043)을 포함한다.
본 발명의 일부 실시예에서, 트레이닝 모듈(805)은,
샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 트레이닝 서브 모듈(8051)을 포함하되;
기타 중간 계산 결과는 기타 순방향 노드에서 출력된, 샘플 데이터에 대응되는 중간 계산 결과이고, 타깃 순방향 노드와 기타 순방향 노드는 함께 복수의 순방향 노드를 구성한다.
본 발명의 일부 실시예에서, 트레이닝 모듈(805)은,
샘플 데이터를 트레이닝될 데이터 처리 모델의 순방향 트레이닝 입력으로 사용하여, 트레이닝될 데이터 처리 모델의 복수의 순방향 노드에서 출력된 복수의 중간 계산 결과를 획득하는 입력 서브 모듈(8052); 및
타깃 순방향 노드에서 출력된 중간 계산 결과를 삭제하고, 기타 순방향 노드에서 출력된 기타 중간 계산 결과를 유지하는 삭제 서브 모듈(8053)을 더 포함한다.
본 발명의 일부 실시예에서, 트레이닝될 데이터 처리 모델은, 샘플 데이터에 대응되는 예측 튜닝 파라미터를 출력하기 위한 복수의 역방향 노드를 포함하고, 샘플 데이터는 대응되는 어노테이션 튜닝 파라미터를 구비하고, 트레이닝 서브 모듈(8051)은,
재계산 노드에서 생성된, 샘플 데이터에 대응되는 재계산 결과를 획득하고;
샘플 데이터, 기타 중간 계산 결과 및 재계산 결과를 트레이닝될 데이터 처리 모델의 역방향 트레이닝 입력으로 사용하여, 복수의 역방향 노드에서 출력된 예측 튜닝 파라미터를 획득하며;
예측 튜닝 파라미터와 어노테이션 튜닝 파라미터가 설정된 조건을 만족하면, 트레이닝하여 획득된 데이터 처리 모델을 타깃 데이터 처리 모델로 사용한다.
본 발명의 일부 실시예에서, 타깃 순방향 노드의 시간 의존성 특징은, 타깃 순방향 노드와 기타 순방향 노드 간에 시간 차원의 계산 연관 관계가 존재하지 않음을 지시한다.
이해할 수 있다 시피, 본 실시예의 도 8의 데이터 처리 모델의 트레이닝 장치(80)와 상기 실시예의 데이터 처리 모델의 트레이닝 장치(70), 제1 획득 모듈(801)과 상기 실시예의 제1 획득 모듈(701), 제2 획득 모듈(802)과 상기 실시예의 제2 획득 모듈(702), 결정 모듈(803)과 상기 실시예의 결정 모듈(703), 제1 처리 모듈(804)과 상기 실시예의 제1 처리 모듈(704), 및 트레이닝 모듈(805)과 상기 실시예의 트레이닝 모듈(705)은 동일한 기능과 구조를 구비할 수 있다.
설명해야 할 것은, 상술한 데이터 처리 모델의 트레이닝 방법에 대한 해석 설명은 본 실시예의 데이터 처리 모델의 트레이닝 장치에도 적용된다.
본 실시예에서, 샘플 데이터를 획득하고; 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하며; 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하고; 복수의 시간 의존성 특징에 따라 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하며; 샘플 데이터 및 복수의 중간 계산 결과를 이용하여 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득한다. 각 순방향 노드의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델의 구조에 대해 상응한 최적화 처리를 수행하므로, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시켜, 데이터 처리 모델의 트레이닝 효율을 효과적으로 향상시키고, 데이터 처리 모델의 데이터 처리 효과를 효과적으로 향상시킬 수 있다.
도 9는 본 발명의 제7 실시예에 따른 개략도이다.
도 9에 도시된 바와 같이, 당해 데이터 처리 장치(900)는,
처리될 데이터를 획득하는 제3 획득 모듈(901); 및
처리될 데이터를 상술한 데이터 처리 모델의 트레이닝 장치에서 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 상기 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득하는 제2 처리 모듈(902)을 포함한다.
설명해야 할 것은, 상술한 데이터 처리 방법에 대한 해석 설명은 본 실시예의 데이터 처리 장치에도 적용되며, 여기서 더 설명하지 않는다.
본 실시예에서, 처리될 데이터를 획득하고, 처리될 데이터를 상술한 데이터 처리 모델의 트레이닝 방법에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득함으로써, 타깃 데이터 처리 모델은 순방향 노드의 시간 의존성 특징과 결부하여 초기 데이터 처리 모델의 구조에 대해 최적화 처리를 수행하고 트레이닝하여 획득된 것이므로, 타깃 데이터 처리 모델을 이용하여 처리될 데이터를 처리할 경우, 데이터 처리 로직이 비디오 메모리에 대한 소비를 효과적으로 저하시켜, 데이터 처리 효율을 효과적으로 향상시키고 데이터 처리 효과를 효과적으로 향상시킬 수 있다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.
도 10은 본 발명의 실시예에 따른 데이터 처리 모델의 트레이닝 방법을 구현하기 위한 예시적인 전자 기기의 개략적인 블록도를 도시한다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자 기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 컴포넌트, 이들의 연결과 관계 및 이들의 기능은 단지 예시에 불과하며, 본 명세서에 기술되거나 및/또는 청구된 본 발명의 구현을 한정하도록 의도되지 않는다.
도 10에 도시된 바와 같이, 기기(1000)는 계산 유닛(1001)을 포함하고, 계산 유닛(1001)은 읽기 전용 메모리(ROM)(1002)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1008)으로부터 랜덤 액세스 메모리(RAM)(1003)에 로딩된 컴퓨터 프로그램에 따라 여러 가지 적당한 동작과 처리를 수행할 수 있다. RAM(1003)에는 기기(1000)의 동작에 필요한 여러 가지 프로그램과 데이터가 더 저장될 수 있다. 계산 유닛(1001), ROM (1002) 및 RAM (1003)은 버스(1004)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1005)도 버스(1004)에 연결된다.
기기(1000)의 복수의 컴포넌트는 I/O인터페이스(1005)에 연결되고, 복수의 컴포넌트는 키 보드, 마우스 등과 같은 입력 유닛(1006); 여러 가지 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1007); 자기 디스크, 시디 롬 등과 같은 저장 유닛(1008); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버와 같은 통신 유닛(1009)을 포함한다. 통신 유닛(1009)은 기기(1000)로 하여금 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전신 네트워크를 통해 기타 기기와 정보/데이터를 교환하도록 허용한다.
계산 유닛(1001)은 처리 및 컴퓨팅 능력을 가지는 여러 가지 범용 및/또는 전용 처리 어셈블리일 수 있다. 계산 유닛(1001)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 여러 가지 전용 인공 지능(AI) 컴퓨팅 칩, 여러 가지 기계 학습 모델 알고리즘을 운행하는 계산 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적당한 프로세서, 컨트롤러, 마이크로컨트롤러 등을 포함하나 이에 한정되지 않는다. 계산 유닛(1001)은 상기에서 설명한 각 방법과 처리, 예를 들어 데이터 처리 모델의 트레이닝 방법 또는 데이터 처리 방법을 수행한다. 예를 들어, 일부 실시예에서, 데이터 처리 모델의 트레이닝 방법 또는 데이터 처리 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 저장 유닛(1008)과 같은 기계 판독 가능 매체에 유형적으로 포함될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1002) 및/또는 통신 유닛(1009)을 거쳐 기기(1000)에 로딩 및/또는 장착될 수 있다. 컴퓨터 프로그램이 RAM(1003)에 로딩되어 계산 유닛(1001)에 의해 수행될 경우, 상기 내용에서 설명한 데이터 처리 모델의 트레이닝 방법 또는 데이터 처리 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안적으로, 기타 실시예에서, 계산 유닛(1001)은 기타 임의의 적당한 방식(예를 들어, 펌웨어)에 의해 데이터 처리 모델의 트레이닝 방법 또는 데이터 처리 방법을 수행하도록 구성될 수 있다.
본 명세서에서 설명한 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적 회로 시스템, 필드 프로그래머블 게이트 어레이(FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 여러 가지 실시형태는, 하나 또는 복수의 컴퓨터 프로그램에서 실시되되, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 수행 및/또는 해석될 수 있고, 상기 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신할 수 있고, 데이터와 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 이용하여 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드로 하여금 프로세서 또는 컨트롤러에 의해 수행될 경우 흐름도 및/또는 블록도에서 규정한 기능/동작이 실시되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 수행될 수도 있고 부분적으로 기계에서 수행될 수도 있으며, 독립적인 소프트웨어 패키지로서 부분적으로 기계에서 수행되는 동시에 부분적으로 원격 기계에서 수행되거나, 또는 완전히 원격 기계 또는 서버에서 수행될 수 있다.
본 발명의 앞뒤 문장에서, 기계 판독 가능 매체는 유형적인 매체일 수 있는 바, 명령 수행 시스템, 장치 또는 기기에 의해 사용되거나 또는 명령 수행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 이들의 임의의 적합한 조합을 포함하나 이에 한정되는 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예는, 하나 또는 복수의 선을 기반으로 하는 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그래밍 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 이들의 임의의 적합한 조합을 포함한다.
사용자와의 인터랙션을 제공하기 위해, 여기에 설명된 시스템 및 기술을 컴퓨터에서 구현할 수 있는데, 상기 컴퓨터는, 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터), 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 종류의 장치를 사용하여 사용자와의 인터랙션을 제공할 수도 있는 바, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백) 일 수 있고, 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)로 사용자에 의해 입력된 정보를 수신할 수 있다.
명세서에 설명된 시스템 및 기술은 백 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백 엔드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 컴포넌트는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷 및 블록체인 네트워크가 포함될 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터랙션한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 발생된다. 서버는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 바, 클라우드 컴퓨팅 서비스 시스템의 하나의 호스트 제품으로서, 전통적인 물리 호스트와 VPS서비스("Virtual Private Server", 또는 "VPS")에서 관리 난이도가 크고 서비스 확장성이 약한 단점을 해결한다. 서버는 분산식 시스템의 서버 또는 블록체인과 결합된 서버일 수도 있다.
이해해야 할 것은, 이상에서 설명한 여러 가지 형태의 프로세스를 사용하여, 단계를 재정렬, 증가 또는 삭제할 수 있다. 예를 들면, 본 발명에서 기재한 각 단계는 동시에 수행할 수도 있고 순차적으로 수행할 수도 있으며 상이한 순서로 수행할 수도 있는 바, 본 발명에서 개시한 기술적 수단에서 기대하는 결과를 실현할 수만 있다면 본 내용은 이에 대해 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호범위를 한정하지 않는다. 본 기술분야에서 통상의 지식을 가진 자들은 설계 요구와 기타 요소에 따라 여러 가지 수정, 조합, 하위 조합과 대체를 진행할 수 있다는 것을 이해할 수 있다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선 등은 모두 본 발명의 보호범위 내에 포함된다.

Claims (20)

  1. 샘플 데이터를 획득하는 단계;
    상기 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하는 단계;
    상기 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하는 단계;
    상기 복수의 시간 의존성 특징에 따라 상기 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하는 단계; 및
    상기 샘플 데이터 및 상기 복수의 중간 계산 결과를 이용하여 상기 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 단계; 를 포함하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 방법.
  2. 제1항에 있어서,
    상기 복수의 시간 의존성 특징에 따라 상기 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하는 단계는,
    상기 복수의 시간 의존성 특징에 따라 상기 복수의 순방향 노드에서 타깃 순방향 노드를 결정하는 단계;
    상기 타깃 순방향 노드에 대응되는 재계산 노드를 생성하는 단계 - 상기 재계산 노드는 상기 샘플 데이터에 대응되는 재계산 결과를 출력하기 위한 것이고, 상기 재계산 결과는 상기 타깃 순방향 노드에서 출력된 중간 계산 결과와 동일함 - ; 및
    상기 복수의 순방향 노드 및 상기 재계산 노드에 따라 상기 트레이닝될 데이터 처리 모델을 생성하는 단계; 를 포함하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 방법.
  3. 제2항에 있어서,
    상기 샘플 데이터, 상기 복수의 중간 계산 결과를 이용하여 상기 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 단계는,
    상기 샘플 데이터, 기타 중간 계산 결과 및 상기 재계산 결과를 이용하여 상기 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 단계를 포함하되;
    상기 기타 중간 계산 결과는 기타 순방향 노드에서 출력된, 상기 샘플 데이터에 대응되는 중간 계산 결과이고, 상기 타깃 순방향 노드와 상기 기타 순방향 노드는 함께 상기 복수의 순방향 노드를 구성하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 방법.
  4. 제3항에 있어서,
    상기 샘플 데이터, 기타 중간 계산 결과 및 상기 재계산 결과를 이용하여 상기 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 단계 전에,
    상기 샘플 데이터를 상기 트레이닝될 데이터 처리 모델의 순방향 트레이닝 입력으로 사용하여, 상기 트레이닝될 데이터 처리 모델의 복수의 순방향 노드에서 출력된 복수의 중간 계산 결과를 획득하는 단계; 및
    상기 타깃 순방향 노드에서 출력된 중간 계산 결과를 삭제하고, 상기 기타 순방향 노드에서 출력된 상기 기타 중간 계산 결과를 유지하는 단계; 를 더 포함하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 방법.
  5. 제4항에 있어서,
    상기 트레이닝될 데이터 처리 모델은, 상기 샘플 데이터에 대응되는 예측 튜닝 파라미터를 출력하기 위한 복수의 역방향 노드를 포함하고, 상기 샘플 데이터는 대응되는 어노테이션 튜닝 파라미터를 구비하고,
    상기 샘플 데이터, 기타 중간 계산 결과 및 상기 재계산 결과를 이용하여 상기 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 단계는,
    상기 재계산 노드에서 생성된, 상기 샘플 데이터에 대응되는 재계산 결과를 획득하는 단계;
    상기 샘플 데이터, 기타 중간 계산 결과 및 상기 재계산 결과를 상기 트레이닝될 데이터 처리 모델의 역방향 트레이닝 입력으로 사용하여, 상기 복수의 역방향 노드에서 출력된 예측 튜닝 파라미터를 획득하는 단계; 및
    상기 예측 튜닝 파라미터와 상기 어노테이션 튜닝 파라미터가 설정된 조건을 만족하면, 트레이닝하여 획득된 데이터 처리 모델을 상기 타깃 데이터 처리 모델로 사용하는 단계; 를 포함하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 방법.
  6. 제2항에 있어서,
    상기 타깃 순방향 노드의 시간 의존성 특징은, 상기 타깃 순방향 노드와 기타 순방향 노드 간에 시간 차원의 계산 연관 관계가 존재하지 않음을 지시하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 방법.
  7. 처리될 데이터를 획득하는 단계; 및
    상기 처리될 데이터를 제1항 내지 제6항 중 어느 한 항에 따른 데이터 처리 모델의 트레이닝 방법에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 상기 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득하는 단계; 를 포함하는,
    것을 특징으로 하는 데이터 처리 방법.
  8. 샘플 데이터를 획득하는 제1 획득 모듈;
    상기 샘플 데이터에 대응되는 복수의 중간 계산 결과를 출력하기 위한 복수의 순방향 노드를 포함하는 초기 데이터 처리 모델을 획득하는 제2 획득 모듈;
    상기 복수의 순방향 노드에 대응되는 복수의 시간 의존성 특징을 결정하는 결정 모듈;
    상기 복수의 시간 의존성 특징에 따라 상기 초기 데이터 처리 모델을 처리하여, 트레이닝될 데이터 처리 모델을 획득하는 제1 처리 모듈; 및
    상기 샘플 데이터 및 상기 복수의 중간 계산 결과를 이용하여 상기 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 트레이닝 모듈; 을 포함하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 장치.
  9. 제8항에 있어서,
    상기 제1 처리 모듈은,
    상기 복수의 시간 의존성 특징에 따라 상기 복수의 순방향 노드에서 타깃 순방향 노드를 결정하는 결정 서브 모듈;
    상기 타깃 순방향 노드에 대응되는 재계산 노드를 생성하는 제1 생성 서브 모듈- 상기 재계산 노드는 상기 샘플 데이터에 대응되는 재계산 결과를 출력하기 위한 것이고, 상기 재계산 결과는 상기 타깃 순방향 노드에서 출력된 중간 계산 결과와 동일함- ; 및
    상기 복수의 순방향 노드 및 상기 재계산 노드에 따라 상기 트레이닝될 데이터 처리 모델을 생성하는 제2 생성 서브 모듈; 을 포함하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 장치.
  10. 제9항에 있어서,
    상기 트레이닝 모듈은,
    상기 샘플 데이터, 기타 중간 계산 결과 및 상기 재계산 결과를 이용하여 상기 트레이닝될 데이터 처리 모델을 트레이닝하여, 타깃 데이터 처리 모델을 획득하는 트레이닝 서브 모듈을 포함하고,
    상기 기타 중간 계산 결과는 기타 순방향 노드에서 출력된, 상기 샘플 데이터에 대응되는 중간 계산 결과이고, 상기 타깃 순방향 노드와 상기 기타 순방향 노드는 함께 상기 복수의 순방향 노드를 구성하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 장치.
  11. 제10항에 있어서,
    상기 트레이닝 모듈은,
    상기 샘플 데이터를 상기 트레이닝될 데이터 처리 모델의 순방향 트레이닝 입력으로 사용하여, 상기 트레이닝될 데이터 처리 모델의 복수의 순방향 노드에서 출력된 복수의 중간 계산 결과를 획득하는 입력 서브 모듈; 및
    상기 타깃 순방향 노드에서 출력된 중간 계산 결과를 삭제하고, 상기 기타 순방향 노드에서 출력된 상기 기타 중간 계산 결과를 유지하는 삭제 서브 모듈; 을 더 포함하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 장치.
  12. 제11항에 있어서,
    상기 트레이닝될 데이터 처리 모델은, 상기 샘플 데이터에 대응되는 예측 튜닝 파라미터를 출력하기 위한 복수의 역방향 노드를 포함하고, 상기 샘플 데이터는 대응되는 어노테이션 튜닝 파라미터를 구비하고,
    상기 트레이닝 서브 모듈은,
    상기 재계산 노드에서 생성된, 상기 샘플 데이터에 대응되는 재계산 결과를 획득하며;
    상기 샘플 데이터, 기타 중간 계산 결과 및 상기 재계산 결과를 상기 트레이닝될 데이터 처리 모델의 역방향 트레이닝 입력으로 사용하여, 상기 복수의 역방향 노드에서 출력된 예측 튜닝 파라미터를 획득하며;
    상기 예측 튜닝 파라미터와 상기 어노테이션 튜닝 파라미터가 설정된 조건을 만족하면, 트레이닝하여 획득된 데이터 처리 모델을 상기 타깃 데이터 처리 모델로 사용하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 장치.
  13. 제9항에 있어서,
    상기 타깃 순방향 노드의 시간 의존성 특징은, 상기 타깃 순방향 노드와 기타 순방향 노드 간에 시간 차원의 계산 연관 관계가 존재하지 않음을 지시하는,
    것을 특징으로 하는 데이터 처리 모델의 트레이닝 장치.
  14. 처리될 데이터를 획득하는 제3 획득 모듈; 및
    상기 처리될 데이터를 제8항 내지 제13항 중 어느 한 항에 따른 데이터 처리 모델의 트레이닝 장치에 의해 트레이닝하여 획득된 타깃 데이터 처리 모델에 입력하여, 상기 타깃 데이터 처리 모델에서 출력된 데이터 처리 결과를 획득하는 제2 처리 모듈; 을 포함하는,
    것을 특징으로 하는 데이터 처리 장치.
  15. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 하는,
    것을 특징으로 하는 전자 기기.
  16. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제7항에 따른 방법을 수행하도록 하는,
    것을 특징으로 하는 전자 기기.
  17. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 하는,
    것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  18. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 컴퓨터로 하여금 제7항에 따른 방법을 수행하도록 하는,
    것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  19. 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 따른 방법을 구현하는,
    것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
  20. 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제7항에 따른 방법을 구현하는,
    것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020220050650A 2021-05-27 2022-04-25 데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체 KR20220061060A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110584511.2 2021-05-27
CN202110584511.2A CN113361574A (zh) 2021-05-27 2021-05-27 数据处理模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
KR20220061060A true KR20220061060A (ko) 2022-05-12

Family

ID=77527913

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220050650A KR20220061060A (ko) 2021-05-27 2022-04-25 데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20220207427A1 (ko)
EP (1) EP4020327A3 (ko)
JP (1) JP2022078286A (ko)
KR (1) KR20220061060A (ko)
CN (1) CN113361574A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186738B (zh) * 2022-06-20 2023-04-07 北京百度网讯科技有限公司 模型训练方法、装置和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5510014B2 (ja) * 2010-04-13 2014-06-04 富士通株式会社 ニューラルネットワーク設計方法及びプログラム
EP3446260B1 (en) * 2016-05-20 2019-09-25 DeepMind Technologies Limited Memory-efficient backpropagation through time
JP2020135748A (ja) * 2019-02-25 2020-08-31 株式会社Preferred Networks 最適化装置、最適化方法及びプログラム
CN112529210A (zh) * 2020-12-09 2021-03-19 广州云从鼎望科技有限公司 模型训练方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
US20220207427A1 (en) 2022-06-30
CN113361574A (zh) 2021-09-07
EP4020327A3 (en) 2022-10-26
JP2022078286A (ja) 2022-05-24
EP4020327A2 (en) 2022-06-29

Similar Documents

Publication Publication Date Title
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US10776977B2 (en) Real-time lip synchronization animation
JP7358698B2 (ja) 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
WO2022052744A1 (zh) 会话信息处理方法、装置、计算机可读存储介质及设备
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20220148239A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
KR20210081309A (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
US20230084055A1 (en) Method for generating federated learning model
JP7297038B2 (ja) ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
JP2022173453A (ja) ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
US20230206578A1 (en) Method for generating virtual character, electronic device and storage medium
CN113641807A (zh) 对话推荐模型的训练方法、装置、设备和存储介质
US20230115984A1 (en) Method and apparatus for training model, method and apparatus for generating molecules
US20220398834A1 (en) Method and apparatus for transfer learning
JP2021128327A (ja) 口形特徴予測方法、装置及び電子機器
KR20220010045A (ko) 영역 프레이즈 마이닝 방법, 장치 및 전자 기기
CN114187405A (zh) 确定虚拟形象的方法及装置、设备、介质和产品
JP2023007369A (ja) 翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体
KR20210105315A (ko) 데이터 주석 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램
KR20220116395A (ko) 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체
KR20220061060A (ko) 데이터 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체
US20210389156A1 (en) Map rendering method and apparatus, device, and storage medium
JP7121791B2 (ja) 言語生成方法、装置及び電子機器