KR102541306B1 - 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기 - Google Patents

텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기 Download PDF

Info

Publication number
KR102541306B1
KR102541306B1 KR1020210056142A KR20210056142A KR102541306B1 KR 102541306 B1 KR102541306 B1 KR 102541306B1 KR 1020210056142 A KR1020210056142 A KR 1020210056142A KR 20210056142 A KR20210056142 A KR 20210056142A KR 102541306 B1 KR102541306 B1 KR 102541306B1
Authority
KR
South Korea
Prior art keywords
sample data
generation model
text generation
prediction
structure information
Prior art date
Application number
KR1020210056142A
Other languages
English (en)
Other versions
KR20210057708A (ko
Inventor
웨이 리
신얀 시아오
후아 우
하이펭 왕
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210057708A publication Critical patent/KR20210057708A/ko
Application granted granted Critical
Publication of KR102541306B1 publication Critical patent/KR102541306B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본원 발명은 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기를 개시하는데 이는 자연 언어 처리 기술분야에 관한 것이다. 구체적인 실현방안은, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득하고; 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행하며; 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하고; 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성하며; 텍스트 생성 모델을 생성하도록 제1 손실 값에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하는 것이다. 이로써, 이러한 텍스트 생성 모델의 트레이닝 방법을 통하여 로컬 시맨틱 옵셋의 문제점을 해결하고 텍스트 생성의 정확도를 향상시킨다.

Description

텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기{METHOD, APPARATUS, AND ELECTRONIC DEVICE FOR TRAINING TEXT GENERATION MODEL}
본원 발명은 컴퓨터 기술분야에 관한 것으로, 특히 자연 언어 기술분야에 관한 것이며 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기를 제기한다.
관련 기술에서, 딥 러닝에 기반한 텍스트 생성 방법은 모두 글자에 기반하여 생성된 것인 바, 즉 글자에 따라 생성된 타겟 텍스트이다.
그러나, 글자에 기반하여 생성한 텍스트 생성 모델은 단지 글자 사이의 의존 관계에 기반하여 텍스트 정보를 생성하므로 로컬 시맨틱 옵셋 현상이 쉽게 발생하여 텍스트 생성 모델의 정확도가 낮고 생성된 텍스트 질량도 양호하지 못하다.
본원 발명은 텍스트 생성 모델의 트레이닝을 위한 방법, 장치, 전자기기 및 저장매체를 제공한다.
본원 발명의 일 양태에 따르면, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득하는 단계; 상기 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 상기 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행하는 단계; 상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 상기 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하는 단계; 상기 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 상기 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성하는 단계; 및 텍스트 생성 모델을 생성하도록 상기 제1 손실 값에 근거하여 상기 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하는 단계; 를 포함하는 텍스트 생성 모델의 트레이닝 방법을 제공한다.
본원 발명의 다른 양태에 따르면, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득하기 위한 제1 획득 모듈; 상기 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 상기 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행하기 위한 제1 생성 모듈; 상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 상기 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하기 위한 제2 생성 모듈; 상기 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 상기 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성하기 위한 제3 생성 모듈; 및 텍스트 생성 모델을 생성하도록 상기 제1 손실 값에 근거하여 상기 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하기 위한 제1 트레이닝 모듈; 을 포함하는 텍스트 생성 모델의 트레이닝 장치를 제공한다.
본원 발명의 또 다른 양태에 따르면, 전자기기를 제공하는바, 당해 전자기기는 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결하는 메모리; 를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 상술한 바와 같은 텍스트 생성 모델의 트레이닝 방법을 수행한다.
본원 발명의 또 다른 양태에 따르면, 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하는바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 상술한 바와 같은 텍스트 생성 모델의 트레이닝 방법이 수행된다.
본원 발명의 또 다른 양태에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 상술한 바와 같은 텍스트 생성 모델의 트레이닝 방법이 수행된다.
본원 발명의 기술적 해결수단에 따르면, 글자에 기반하여 생성한 텍스트 생성 모델이 글자 사이의 의존 관계에만 기반하여 텍스트 정보를 생성함으로써 로컬 시맨틱 옵셋 현상이 쉽게 나타나게 되어 텍스트 생성 모델의 정확도가 낮고, 생성된 텍스트 질량이 양호하지 않은 문제를 해결한다. 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고 초기 텍스트 생성 모델을 이용하여 각 제1 샘플 데이터를 처리함으로써 각 샘플 데이터와 대응되는 예측 구조 정보를 생성하고, 각 예측 구조 정보 및 대응되는 타겟 구조 정보의 차이에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하여 텍스트 생성 모델의 구문 생성 능력을 향상시킨다. 이로써, 텍스트 생성 모델의 구문 생성 능력을 향상시키도록 텍스트 생성 모델을 이용하여 구조 정보에서의 구문을 생성함으로써 구문 입도로부터 텍스트를 생성하는 것을 구현하여 텍스트를 생성하는 앞뒤 문장 연결을 향상시켜 로컬 시맨틱 옵셋 문제를 해결하고 텍스트 생성의 정확도를 향상시킨다.
본 명세서에서 설명한 내용은 본원 발명의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니고 본원 발명의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본원 발명의 기타 특징은 아래의 명세서를 통해 더 용이하게 이해할 수 있을 것이다.
첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본원 발명을 한정하지 않는다. 여기서,
도 1은 본원 발명의 실시예에서 제공하는 한가지 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이고;
도 2는 본원 발명의 실시예에서 제공하는 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이며;
도 3은 본원 발명의 실시예에서 제공하는 또 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이고;
도 4는 본원 발명의 실시예에서 제공하는 또 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이며;
도 5는 본원 발명의 실시예에서 제공하는 또 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이고;
도 6은 본원 발명의 실시예에서 제공하는 한가지 텍스트 생성 모델의 트레이닝 장치의 구조 모식도이며;
도 7은 본원 발명의 실시예에 따른 텍스트 생성 모델의 트레이닝 방법을 실현하기 위한 전자기기의 블록도이다.
이하, 첨부 도면과 결부하여 본원 발명의 예시적인 실시예들을 설명하고자 하며, 이해를 돕기 위해 본원 발명의 실시예들의 다양한 세부 사항들이 포함되는데, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본원 발명의 기술 분야의 통상 지식을 가진 자라면 본원 발명의 범위 및 사상을 벗어나지 않으면서 본 명세서에 설명된 실시예들에 대해 다양한 변경 및 수정이 이루어질 수 있음을 알아야 한다. 또한, 명확성 및 간결성을 위해, 공지된 기능 및 구조에 대한 설명은 아래 설명에서 생략된다.
본원 발명의 실시예는 관련 기술에서 글자 사이의 의존 관계에만 기반하여 텍스트 정보를 생성함으로써 로컬 시맨틱 옵셋 현상이 쉽게 나타나게 되어 텍스트 생성 모델의 정확도가 낮고, 생성된 텍스트 질량이 양호하지 않은 문제에 대하여 텍스트 생성 모델의 트레이닝 방법을 제기한다.
이하, 도면을 참조하여 본원 발명이 제공하는 텍스트 생성 모델의 트레이닝 방법, 장치, 전자기기 및 저장매체를 상세히 설명한다.
도 1은 본원 발명의 실시예에서 제공하는 한가지 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이다.
도 1에 도시된 바와 같이, 상기 텍스트 생성 모델의 트레이닝 방법은 단계101 내지 단계105를 포함한다.
단계101에서, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득한다.
설명해야 할 것은, 본원 발명의 실시예에 따른 텍스트 생성 모델의 트레이닝 방법은 본원 발명의 실시예에 따른 텍스트 생성 모델의 트레이닝 장치에 의해 수행될 수 있다. 본원 발명의 실시예에 따른 텍스트 생성 모델의 트레이닝 장치는 임의의 전자기기에 설치되어 본원 발명의 실시예에 따른 텍스트 생성 모델의 트레이닝 방법을 수행할 수 있다.
여기서, 제1 샘플 데이터 세트는 대량의 마킹되지 않은 텍스트 데이터를 포함하는 데이터 세트, 즉 제1 샘플 데이터는 마킹되지 않은 텍스트 데이터일 수 있다.
본원 발명의 실시예에서, 네트워크 문장, 문헌, 논문, 저작 등 자료에서 일부 텍스트를 추출하여 제1 샘플 데이터 세트를 구성하고 텍스트 생성 모델의 트레이닝 데이터로 사용할 수 있다. 여기서, 제1 샘플 데이터는 트레이닝하여 생성된 텍스트 생성 모델이 여라 가지 상이한 시나리오의 사용 수요에 적응할 수 있도록 비교적 짧은 텍스트(예를 들어 단독적인 문구)일 수도 있고 비교적 긴 텍스트(예를 들어 문장에서의 단락, 전체 문장 등)일 수도 있다.
단계102에서, 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행한다.
여기서, 타겟 구조 정보는 제1 샘플 데이터에서의 전부 또는 일부 구문 및 각 구문이 제1 샘플 데이터에서의 역할을 포함할 수 있다.
한가지 가능한 실현 방식으로서, 제1 샘플 데이터에 포함되는 관건적인 구문을 추출하고 추출된 각 구문의 역할(예를 들어 각 구문과 제1 샘플 데이터에서의 술어의 관계 등)을 추출하도록 의미역 결정 모델을 이용하여 제1 샘플 데이터를 처리함으로써 각 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성할 수 있다.
설명해야 할 것은, 구조 정보의 추출 방식은 이상에서 나열한 상황을 포함할 수 있으나 이에 한정되지 않는다. 실제로 사용할 경우, 실제 수요 및 구체적인 애플리케이션 시나리오에 근거하여 적합한 구조 정보 추출 방식을 선택할 수 있는데 본원 발명의 실시예는 이에 대해 한정하지 않는다. 예를 들어, 개방형 정보 추출 방식을 이용하여 구조 정보 추출을 진행할 수도 있다.
단계103에서, 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력한다.
여기서, 초기 텍스트 생성 모델은 입력 텍스트 데이터에 근거하여 구문 입도로부터 타겟 텍스트의 딥 러닝 모델을 생성하는 것을 가리킬 수 있다. 다시 말하면, 초기 텍스트 생성 모델의 출력은 복수의 구문이고 복수의 구문 사이에는 앞뒤 문장 관계를 가지며 하나의 완전하고 조리가 있는 텍스트를 구성할 수 있다.
여기서, 예측 구조 정보는 초기 텍스트 생성 모델이 제1 샘플 데이터에 근거하여 출력한 복수의 구문을 포함할 수 있다.
본원 발명의 실시예에서, 각 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력한 후, 초기 텍스트 생성 모델은 각 제1 샘플 데이터에 근거하여 각 제1 샘플 데이터의 구조 정보에 대해 각각 예측, 즉 각 제1 샘플 데이터와 대응되는 예측 구조 정보를 생성하도록 각 제1 샘플 데이터와 각각 대응되는 복수의 구문을 출력한다.
단계104에서, 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성한다.
본원 발명의 실시예에서, 제1 샘플 데이터와 대응되는 타겟 구조 정보가 제1 샘플 데이터의 실제 구조 정보를 나타내므로 제1 샘플 데이터와 대응되는 예측 구조 정보 및 타겟 구조 정보의 차이는 초기 텍스트 생성 모델이 생성한 예측 구조 정보가 정확한지 여부를 반영할 수 있다. 이로써 초기 텍스트 생성 모델을 수정하도록 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터와 대응되는 예측 구조 정보와 타겟 구조 정보의 차이에 근거하여 초기 텍스트 생성 모델의 제1 손실 값을 결정하여 초기 텍스트 생성 모델의 구문 생성 능력을 향상시킬 수 있다.
한가지 가능한 실현 방식으로서, 타겟 구조 정보에 복수의 구문이 포함될 경우, 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 구문과 타겟 구조 정보에서 상응한 구문의 차이에 근거하여 제1 손실 값을 결정할 수 있다. 구체적으로, 우선 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 구문의 단어 벡터 및 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 각 구문의 단어 벡터를 결정하고, 그 다음 예측 구조 정보에서의 각 구문의 단어 벡터와 타겟 구조 정보에서 상응한 구문의 단어 벡터 사이의 거리 또는 코사인 유사성 등 파라미터에 근거하여 제1 샘플 데이터와 대응하는 예측 구조 정보에서의 각 구문의 분포 확률을 결정함으로써 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 구문의 분포 확률을 결정하여 제1 손실 값을 결정할 수 있다. 여기서, 예측 구조 정보에서의 구문의 분포 확률은 구문의 신뢰도를 나타낼 수 있고, 초기 텍스트 생성 모델이 구문을 출력하는 동시에 출력한 것일 수 있다.
예를 들어 설명하면, 제1 샘플 데이터와 대응되는 타겟 구조 정보에는 a, b, c, d와 같은 4개의 구문을 포함하고, 상기 제1 샘플 데이터와 대응되는 예측 구조 정보에는 a', b', c', d'가 포함되어 구문 a'의 단어 벡터와 구문a의 단어 벡터의 코사인 유사성을 결정하며, 나아가 구문a'의 단어 벡터와 구문 a의 단어 벡터의 코사인 유사성을 구문 a'의 분포 확률로 결정하며; 그 다음 동일한 방식에 따라 구문 b', 구문 c', 구문 d'의 분포 확률을 각각 결정하고; 나아가 구문 a', 구문 b', 구문 c', 구문 d'의 분포 확률의 평균값을 상기 제1 샘플 데이터와 대응되는 예측 구조 정보의 분포 확률로 결정하며, 마지막으로 제1 샘플 데이터 세트에서의 모든 샘플 데이터와 대응하는 예측 구조 정보의 분포 확률을 기설정된 손실 함수(예를 들어 교차 엔트로피 손실 함수)에 대입하여 제1 손실 값을 결정한다.
설명해야 할 것은, 상기 예는 단지 예시적인 것으로서 본원 발명에 대한 한정으로 간주하지 말아야 한다. 실제로 사용할 경우, 실제 수요 및 구체적인 응용 시나리오에 따라 적합한 손실 함수 및 제1 손실 값의 결정방식을 선택할 수 있는데 본원 발명의 실시예는 이에 대해 한정하지 않는다.
단계105에서, 텍스트 생성 모델을 생성하도록 제1 손실 값에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행한다.
본원 발명의 실시예에서, 초기 텍스트 생성 모델의 제1 손실 값을 결정한 후, 우선 제1 손실 값이 기설정 범위에 있는지 여부를 판정한다. 제1 손실 값이 기설정 범위에 있으면 초기 텍스트 생성 모델의 구문 생성 능력이 요구에 부합된다고 결정하여 초기 텍스트 생성 모델에 대한 트레이닝 과정을 완료하고 초기 텍스트 생성 모델을 트레이닝이 완료된 텍스트 생성 모델로 결정할 수 있다. 제1 손실 값이 기설정 범위에 있지 않으면 초기 텍스트 생성 모델의 구문 생성 능력이 요구에 부합되지 않는 것으로 결정하여 제1 손실 값에 따라 초기 텍스트 생성 모델의 파라미터를 업데이트함으로써 업데이트한 후의 텍스트 생성 모델을 생성할 수 있다. 다음, 업데이트된 후의 텍스트 생성 모델을 이용하여 제1 샘플 데이터 세트를 처리하되, 업데이트한 후의 텍스트 생성 모델의 제1 손실 값이 기설정 범위에 놓일 때까지 상기 트레이닝 과정을 중복하여 텍스트 생성 모델의 트레이닝 과정을 완료한다.
설명해야 할 것은, 실제로 사용할 경우, 실제 수요 및 구체적인 응용 시나리오에 따라 텍스트 생성 모델의 파라미터를 업데이트하는 방법을 결정할 수 있는데 본원 발명의 실시예는 이에 대해 한정하지 않는다. 예를 들어, 경사 하강법을 이용하여 텍스트 생성 모델의 파라미터를 업데이트할 수 있다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고 초기 텍스트 생성 모델을 이용하여 각 제1 샘플 데이터를 처리함으로써 각 샘플 데이터와 대응되는 예측 구조 정보를 생성하며, 각 예측 구조 정보 및 대응되는 타겟 구조 정보의 차이에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하여 텍스트 생성 모델의 구문 생성 능력을 향상시킨다. 이로써, 텍스트 생성 모델의 구문 생성 능력을 향상시키도록 텍스트 생성 모델을 이용하여 구조 정보에서의 구문을 생성함으로써 구문 입도로부터 텍스트를 생성하는 것을 구현하여 텍스트를 생성하는 앞뒤 문장 연결을 향상시켜 로컬 시맨틱 옵셋 문제를 해결하고 텍스트 생성의 정확도를 향상시킨다.
본원 발명의 한가지 가능한 실시형태에서, 초기 텍스트 생성 모델에는 인코더와 디코더가 포함될 수 있는데 인코더를 통해 제1 샘플 데이터에 대해 벡터 표시를 진행하고 디코더를 통해 제1 샘플 데이터의 벡터 표시를 처리함으로써 제1 샘플 데이터와 대응되는 타겟 텍스트를 생성한다.
이하 도 2와 결부하여 본원 발명의 실시예에서 제공하는 텍스트 생성 모델의 트레이닝 방법을 더 설명한다.
도 2는 본원 발명의 실시예에서 제공하는 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이다.
도 2에 도시된 바와 같이, 상기 텍스트 생성 모델의 트레이닝 방법은 단계201 내지 단계207을 포함한다.
단계201에서, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득한다.
단계202에서, 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행한다.
상기 단계201 내지 단계202의 구체적인 실현과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있는데 여기서 더 이상 설명하지 않는다.
단계203에서, 제1 샘플 데이터와 각각 대응되는 벡터 표시 그룹을 생성하도록 제1 샘플 데이터를 초기 인코더에 입력한다.
여기서, 초기 인코더는 자연 언어 처리분야에서 임의로 텍스트 데이터에 대해 벡터 매핑을 진행할 수 있는 단어 벡터 매핑 모델일 수 있다. 실제로 사용할 경우, 실제 수요 및 구체적인 응용 시나리오에 따라 적합한 단어 벡터 매핑 모델을 초기 인코더로 선택할 수 있는데 본원 발명의 실시예는 이에 대해 한정하지 않는다.
여기서, 제1 샘플 데이터와 대응되는 벡터 표시 그룹은 제1 샘플 데이터에서의 각 문자 부호와 대응되는 벡터 표시를 포함한다. 바꾸어 말하면, 제1 샘플 데이터와 대응되는 벡터 표시 그룹에는 복수의 벡터 표시가 포함되고, 각 벡터 표시는 각각 제1 샘플 데이터에서의 각 문자 부호와 대응되는 벡터 표시이다. 설명해야 할 것은, 문자 부호와 대응되는 벡터 표시는 상기 문자 부호와 대응되는 단어 벡터로서 상기 문자 부호의 시맨틱 정보를 표징하기 위한 것일 수 있고; 문자 부호와 대응되는 벡터 표시는 상기 문자 부호와 대응되는 단어 벡터와 위치 벡터를 더 포함할 수 있는데, 여기서 위치 벡터는 상기 문자 부호가 제1 샘플 데이터에서의 위치 특징, 예를 들어 문자 부호가 제1 샘플 데이터에서의 순서를 표징하기 위한 것일 수 있다.
본원 발명의 실시예에서, 초기 텍스트 생성 모델은 초기 인코더와 초기 디코더를 포함할 수 있는데, 초기 디코더는 입력된 제1 샘플 데이터에 대해 문자 부호 입도로부터 코딩 처리하여 제1 샘플 데이터에서의 각 문자 부호와 대응되는 벡터 표시를 결정하고 제1 샘플 데이터에서의 각 문자 부호와 대응되는 벡터 표시를 이용하여 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 구성하여 출력할 수 있다.
단계204에서, 복수의 예측 세그먼트를 생성하도록 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 초기 디코더에 입력한다.
여기서, 초기 디코더는 임의로 텍스트 데이터의 벡터 표시에 근거하여 텍스트 데이터를 다시 생성하는 언어 모델일 수 있다.
여기서, 예측 세그먼트는 초기 인코더가 출력한 텍스트에서의 세그먼트를 가리킨다. 설명해야 할 것은, 예측 세그먼트는 완전한 시맨틱을 가지는 구문 또는 단어일 수 있고, 구문 입도로부터 텍스트를 생성하여 텍스트 생성 모델의 정확도와 효율을 향상시킬 수 있다.
본원 발명의 실시예에서, 초기 인코더는 제1 샘플 데이터에 대해 코딩 처리를 진행한 후, 생성된 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 초기 디코더에 입력하여 초기 디코더가 제1 샘플 데이터에서의 각 문자 부호의 벡터 표시에 근거하여 제1 샘플 데이터와 대응되는 복수의 예측 세그먼트를 생성하도록 할 수 있다.
더 나아가, 제1 샘플 데이터와 대응되는 각 예측 세그먼트를 생성할 경우, 제1 샘플 데이터의 전체 시맨틱 정보, 현재 예측 세그먼트 이전에 생성한 예측 세그먼트의 시맨틱 정보에 근거하여 현재의 예측 세그먼트를 생성할 수 있다. 즉, 본원 발명의 실시예의 한가지 가능한 실시형태에서, 상기 단계204는,
i번째 예측 세그먼트를 예측할 경우, i번째 예측 세그먼트를 생성하도록 제1 샘플 데이터와 대응되는 벡터 표시 그룹, 첫번째 내지 i-1번째 예측 세그먼트 및 i번째 예측 세그먼트의 위치 특징에 근거하여 디코딩 처리를 진행하되, 여기서, i는 N보다 작거나 같은 자연수인 단계를 포함할 수 있다.
한가지 가능한 실현 방식으로서, 초기 디코더는 제1 샘플 데이터의 i번째 예측 세그먼트를 생성할 경우, 제1 샘플 데이터의 전체 시맨틱, i번째 예측 세그먼트 이전에 생성한 첫번째 내지 i-1번째 예측 세그먼트의 시맨틱 정보 및 i번째 예측 세그먼트 자체의 위치 정보에 근거하여 i번째 예측 세그먼트를 생성할 수 있다. 따라서, i번째 예측 세그먼트를 예측할 경우, 초기 디코더는 제1 샘플 데이터와 대응되는 벡터 표시 그룹, 첫번째 내지 i-1번째 예측 세그먼트 및 i번째 예측 세그먼트의 위치 특징에 대해 디코딩 처리를 진행하여 i번째 예측 세그먼트를 생성할 수 있다.
설명해야 할 것은, 제1 샘플 데이터와 대응되는 첫번째 예측 세그먼트를 생성할 경우, 이미 생성된 예측 세그먼트가 존재하지 않으므로 기설정된 시작 부호를 이용하여 이미 생성된 예측 세그먼트를 대체할 수 있다. 바꾸어 말하면, 초기 디코더는 제1 샘플 데이터와 대응되는 벡터 표시 그룹, 시작 부호와 대응되는 벡터 표시 및 첫번째 예측 세그먼트의 위치 특징에 대하여 제1 샘플 데이터와 대응되는 첫번째 예측 세그먼트를 생성할 수 있다. 여기서, 실제로 사용할 경우, 시작 부호는 "<S>"와 같은 일반 시소러스에서의 시작 부호를 사용할 수 있는데 본원 발명의 실시예는 이에 대해 한정하지 않는다.
설명해야 할 것은, i번째 예측 세그먼트의 위치 특징은 초기 디코더가 i번째 예측 세그먼트의 순서를 생성하는 것에 따라 위치 벡터를 생성하는 것일 수 있다. 예를 들어, 다섯 번째 예측 세그먼트의 위치 특징은 "5"에 대해 벡터 표시를 진행하여 생성한 위치 벡터일 수 있다. 실제로 사용할 경우, 실제 수요 및 구체적인 응용 시나리오에 따라 위치 특징과 대응되는 위치 벡터의 차원과 생성방식을 결정하는데 본원 발명의 실시예는 이에 대해 한정하지 않는다.
더 나아가, 제1 샘플 데이터와 대응되는 각 예측 세그먼트에 대하여, 초기 인코더는 하나의 예측 세그먼트를 생성할 때 동시에 예측 세그먼트가 포함하는 복수의 문자 부호를 생성하여 텍스트 생성 모델의 효율을 더 향상시킬 수 있다. 즉 본원 발명의 실시예의 한가지 가능한 실시형태에서, i번째 예측 세그먼트를 생성하는 단계는,
i번째 예측 세그먼트를 예측할 경우, 초기 디코더를 이용하여 i번째 예측 세그먼트에서의 M개의 문자 부호를 동시에 생성하는 단계를 포함할 수 있다.
한가지 가능한 실현 방식으로서, 초기 디코더는 구문 입도로부터 텍스트 데이터를 생성, 즉 각 예측 세그먼트에 대하여 초기 디코더는 예측 세그먼트에 포함되는 복수의 문자 부호를 병렬로 생성하여 텍스트 생성 모델의 효율을 더 향상시킬 수 있다. 본원 발명의 실시예에서, 제1 샘플 데이터와 대응되는 i번째 예측 세그먼트에서의 j번째 문자 부호에 대하여, 초기 디코더는 제1 샘플 데이터와 대응되는 벡터 표시 그룹, 첫번째 내지 i번째 예측 세그먼트의 벡터 표시 및 j번째 문자 부호의 위치 특징에 대해 디코딩 처리하여 I번째 예측 세그먼트에서의 j번째 문자 부호를 생성한다.초기 디코더가 하나의 예측 세그먼트에서의 하나의 문자 부호를 생성할 경우, 단지 초기 인코더의 출력과 상기 예측 세그먼트가 이전에 생성한 각 예측 세그먼트의 벡터 표시 및 상기 문자 부호가 본원 발명에서의 위치 특징에만 의존할 뿐 상기 예측 세그먼트에서 상기 문자 부호 이전에 위치한 각 문자 부호의 벡터 표시에는 의존하지 않으므로 예측 세그먼트에서의 각 문자 부호는 동시에 병렬로 생성된 것일 수 있다.
더 나아가, 예측 세그먼트의 길이를 미리 기설정하여 초기 디코더가 기설정 길이에 따라 예측 세그먼트를 생성하도록 할 수도 있다. 즉 본원 발명의 실시예의 한가지 가능한 실시형태에서, 상기 단계204는,
예측 세그먼트의 기설정 길이를 획득하는 단계;
초기 디코더를 이용하여 기설정 길이의 복수의 예측 세그먼트를 생성하도록 제1 샘플 데이터와 대응되는 벡터 표시 그룹 및 기설정 길이에 대해 디코딩 처리를 진행하는 단계를 포함할 수 있다.
여기서, 예측 세그먼트의 길이가 기설정 길이보다 작으면 예측 세그먼트의 길이가 기설정 길이와 같도록 기설정된 보완 부호를 이용하여 예측 세그먼트를 보충할 수 있다.
본원 발명의 실시예에서, 초기 디코더는 구문 입도로부터 텍스트 데이터를 생성할 수 있으므로 예측 세그먼트의 기설정 길이를 미리 기설정하여 초기 디코더가 제1 샘플 데이터와 대응되는 벡터 표시 그룹에 근거하여 기설정 길이의 예측 세그먼트를 생성하도록 할 수 있다. 예를 들어, 기설정 길이가 4이면 초기 인코더는 4개의 문자 부호를 포함하는 복수의 예측 세그먼트를 순차적으로 출력할 수 있다.
한가지 가능한 실현 방식으로서, 초기 인코더가 생성한 예측 세그먼트의 길이가 기설정 길이보다 작으면 예측 세그먼트의 길이가 기설정 길이와 같도록 기설정된 보완 부호를 이용하여 예측 세그먼트를 보완함으로써 예측 세그먼트의 길이가 일치하지 않음으로 인한 모델 트레이닝 오차를 저하시켜 텍스트 생성 모델의 정확성을 더 향상시킬 수 있다. 여기서, 실제로 사용할 경우, 보완 부호는 "<PAD>"와 같은 일반 시소러스에서의 보완 부호를 이용할 수 있는데 본원 발명의 실시예는 이에 대해 한정하지 않는다.
예를 들어 설명하면, 예측 세그먼트의 기설정 길이가 4이고 초기 디코더가 생성한 하나의 예측 세그먼트가 "폭발"이면 예측 세그먼트인 "폭발"을 보완하여 예측 세그먼트를 "폭발<PAD><PAD>"로 다시 결정할 수 있다.
단계205에서, 제1 샘플 데이터와 대응되는 복수의 예측 세그먼트에 근거하여 제1 샘플 데이터와 대응되는 예측 구조 정보를 생성한다.
본원 발명의 실시예에서, 제1 샘플 데이터와 대응되는 복수의 예측 세그먼트를 결정한 후, 복수의 예측 세그먼트를 이용하여 제1 샘플 데이터와 대응되는 예측 구조 정보를 구성할 수 있다.
단계206에서, 예측 구조 정보에서의 복수의 예측 세그먼트와 각각의 타겟 구조 정보에서의 복수의 타겟 세그먼트 사이의 차이에 근거하여 제1 손실 값을 생성한다.
본원 발명의 실시예에서, 제1 샘플 데이터와 대응되는 타겟 구조 정보에는 복수의 타겟 세그먼트가 포함될 수 있고 타겟 세그먼트와 예측 구조 정보에서의 복수의 예측 세그먼트는 하나씩 대응될 수 있다.
한가지 가능한 실현 방식으로서, 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 예측 세그먼트와 타겟 구조 정보에서의 상응한 타겟 세그먼트의 차이에 근거하여 제1 손실 값을 결정할 수 있다. 구체적으로, 우선 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 예측 세그먼트의 단어 벡터, 및 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 각 타겟 세그먼트의 단어 벡터를 결정한 다음 예측 구조 정보에서의 각 예측 세그먼트의 단어 벡터와 타겟 구조 정보에서의 상응한 타겟 세그먼트의 단어 벡터 사이의 거리 또는 코사인 유사성 등 파라미터에 근거하여 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 예측 세그먼트의 분포 확률을 결정함으로써 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 예측 세그먼트의 분포 확률에 근거하여 제1 손실 값을 결정할 수 있다. 여기서, 예측 구조 정보에서의 예측 세그먼트의 분포 확률은 예측 세그먼트의 신뢰도를 나타낼 수 있는 바, 초기 텍스트 생성 모델이 예측 세그먼트를 출력하는 동시에 출력한 것일 수 있다.
예를 들어 설명하면, 제1 샘플 데이터와 대응되는 타겟 구조 정보에는 a, b, c, d와 같은 4개의 타겟 세그먼트를 포함하고, 상기 제1 샘플 데이터와 대응되는 예측 구조 정보에는 a', b', c', d'와 같은 4개의 예측 세그먼트가 포함되어 예측 세그먼트a'의 단어 벡터와 타겟 세그먼트a의 단어 벡터의 코사인 유사성을 결정하며, 나아가 예측 세그먼트a'의 단어 벡터와 타겟 세그먼트a의 단어 벡터의 코사인 유사성을 예측 세그먼트a'의 분포 확률로 결정하며; 그 다음 동일한 방식에 따라 예측 세그먼트b', 예측 세그먼트c', 예측 세그먼트d'의 분포 확률을 각각 결정하고; 나아가 예측 세그먼트a', 예측 세그먼트b', 예측 세그먼트c', 예측 세그먼트d'의 분포 확률의 평균값을 상기 제1 샘플 데이터와 대응되는 예측 구조 정보의 분포 확률로 결정하며, 마지막으로 제1 샘플 데이터 세트에서의 모든 샘플 데이터와 대응하는 예측 구조 정보의 분포 확률을 기설정된 손실 함수(예를 들어 교차 엔트로피 손실 함수)에 대입하여 제1 손실 값을 결정한다.
단계207에서, 텍스트 생성 모델을 생성하도록 제1 손실 값에 근거하여 초기 인코더와 초기 디코더에 대해 구문 생성 능력 트레이닝을 진행한다.
본원 발명의 실시예에서, 제1 손실 값을 결정한 후, 우선 제1 손실 값이 기설정 범위에 놓이는지 여부를 판정할 수 있다. 만약 제1 손실 값이 기설정 범위에 놓이면 초기 인코더와 초기 디코더의 구문 생성 능력이 요구에 부합된다고 결정하여 초기 텍스트 생성 모델에 대한 트레이닝 과정을 완료하고 초기 텍스트 생성 모델을 트레이닝을 완료한 텍스트 생성 모델로 결정할 수 있다. 만약 제1 손실 값이 기설정 범위에 놓이지 않으면 초기 인코더와 초기 디코더의 구문 생성 능력이 요구에 부합되지 않는 것으로 결정하여 제1 손실 값에 근거하여 초기 인코더와 초기 디코더의 파라미터를 각각 업데이트함으로써 업데이트한 후의 인코더와 디코더를 생성할 수 있다. 다음, 업데이트된 후의 인코더와 디코더를 이용하여 제1 샘플 데이터 세트를 처리하되, 업데이트한 후의 인코더와 디코더의 제1 손실 값이 기설정 범위에 놓일 때까지 상기 트레이닝 과정을 중복하여 인코더와 디코더의 트레이닝 과정을 완료한다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고 초기 디코더를 이용하여 각 제1 샘플 데이터의 벡터 표시 그룹을 생성한 다음 초기 디코더를 이용하여 제1 샘플 데이터의 벡터 표시 그룹에 따라 제1 샘플 데이터와 대응되는 예측 세그먼트를 순차적으로 생성하며 각 예측 세그먼트에서의 문자 부호를 병렬로 생성하고, 더 나아가 각 제1 샘플 데이터와 대응되는 예측 구조 정보에서의 각 예측 구조 정보 및 상응한 타겟 세그먼트의 차이에 근거하여 제1 손실 값을 결정함으로써 초기 인코더와 초기 디코더를 업데이트한다. 이로써, 텍스트 생성 모델의 디코더는 구문 입도로부터 텍스트를 생성하고 각 구문에서의 문자 부호를 생성함으로써 텍스트를 생성하는 앞뒤 문장 연결을 향상시켜 로컬 시맨틱 옵셋 문제를 해결하고 텍스트 생성의 정확도를 향상시키며 텍스트 생성의 효율을 향상시킨다.
본원 발명의 한가지 가능한 실시형태에서, 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 일부 구문에 대해 마스크 처리를 진행하고 텍스트 생성 모델을 이용하여 마스크 된 구문을 생성함으로써 텍스트 생성 모델의 구문 간 관계 모델링 능력을 향상시킬 수도 있다.
이하 도 3과 결부하여 본원 발명의 실시예에서 제공하는 텍스트 생성 모델의 트레이닝 방법을 더 설명한다.
도 3은 본원 발명의 실시예에서 제공하는 또 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이다.
도 3에 도시된 바와 같이, 상기 텍스트 생성 모델의 트레이닝 방법은 단계301 내지 단계310을 포함한다.
단계301에서, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득한다.
단계302에서, 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행한다.
단계303에서, 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력한다.
단계304에서, 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성한다.
단계305에서, 텍스트 생성 모델을 생성하도록 제1 손실 값에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행한다.
상기 단계301 내지 단계305의 구체적인 과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있는 바, 여기서 더 이상 설명하지 않는다.
단계306에서, 타겟 구조 정보에서의 복수의 구문의 마스크 대기 위치를 획득한다.
본원 발명의 실시예에서는 랜덤의 방식을 이용하여 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 마스크 대기 위치, 즉 타겟 구조 정보에서 마스크해야 할 구문을 결정하거나; 또는 X개의 구문마다 하나의 마스크 대기 위치를 결정하여 제1 샘플 데이터와 대응되는 타겟 구조 정보에 대응하는 모든 마스크 대기 위치를 결정할 수 있다.
예를 들어 설명하면, 1 개의 구문마다 하나의 마스크 대기 위치를 결정하는데 만약 제1 샘플 데이터와 대응되는 타겟 구조 정보에 5개의 구문이 포함되면 두 번째 구문과 네 번째 구문을 마스크 대기 위치로 결정할 수 있다.
단계307에서, 마스크 대기 위치에 있는 마스크 구문을 마스크한다.
본원 발명의 실시예에서, 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 마스크 대기 위치를 결정한 후, 마스크 대기 위치에서의 구문에 대해 마스크 처리를 진행하여 마스크한 후의 타겟 구조 정보를 생성하도록 할 수 있다.
단계308에서, 마스크 위치와 대응되는 예측 구문을 생성하도록 마스크한 후의 타겟 구조 정보를 텍스트 생성 모델에 입력한다.
본원 발명의 실시예에서, 각각의 제1 샘플 데이터와 대응되는 마스크한 후의 타겟 구조 정보를 텍스트 생성 모델에 입력하여 텍스트 생성 모델이 구조 정보에서 마스크 되지 않은 위치의 구문에 근거하여 마스크 위치와 대응되는 예측 구문을 생성하도록 할 수 있다. 바꾸어 말하면, 텍스트 생성 모델이 마스크 위치의 앞뒤 문장 정보에 따라 마스크 위치와 대응되는 예측 구문을 생성함으로써 텍스트 생성 모델의 구문 간 관계 모델링 능력을 트레이닝 하도록 한다.
단계309에서, 마스크 구문과 예측 구문에 근거하여 제2 손실 값을 생성한다.
본원 발명의 실시예에서, 각 마스크 위치와 대응되는 마스크 구문 및 대응되는 예측 구문 사이의 차이에 근거하여 제2 손실 값을 결정하고 제2 손실 값에 근거하여 텍스트 생성 모델의 파라미터를 업데이트하여 텍스트 생성 모델의 구문 간 관계의 모델링 능력을 트레이닝 할 수 있다.
한가지 가능한 실현 방식으로서, 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 각 마스크 위치의 마스크 구문과 예측 구문의 차이에 근거하여 제2 손실 값을 결정할 수 있다. 구체적으로, 우선 각 마스크 위치의 마스크 구문의 단어 벡터 및 각 예측 구문의 단어 벡터를 결정한 다음, 각 마스크 구문의 단어 벡터 및 상응한 예측 구문의 단어 벡터 사이의 거리 또는 코사인 유사성 등 파라미터에 근거하여 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 각 마스크 위치의 예측 구문의 분포 확률을 결정하고, 더 나아가 복수의 제1 샘플 데이터와 대응되는 타겟 구조 정보에서의 각 마스크 위치의 예측 구문의 분포 확률에 근거하여 제2 손실 값을 결정할 수 있다. 여기서, 타겟 구조 정보에서 마스크 위치의 예측 구문의 분포 확률은 예측 구문의 신뢰도를 나타낼 수 있는 바, 텍스트 생성 모델이 예측 구문을 출력할 때 동시에 출력한 것일 수 있다.
예를 들어 설명하면, 제1 샘플 데이터와 대응되는 타겟 구조 정보에 a, b, c, d와 같은 4개의 구문이 포함되고, 마스크 위치와 대응되는 마스크 구문이 b와 d이며, 마스크 위치와 대응되는 예측 구문이 각각 b'와 d'이면 마스크 구문b의 단어 벡터와 예측 구문b'의 단어 벡터의 코사인 유사성을 결정할 수 있고, 나아가 마스크 구문b의 단어 벡터와 예측 구문b'의 단어 벡터의 코사인 유사성을 예측 구문b'의 분포 확률로 결정할 수 있으며; 그 다음 동일한 방식에 따라 예측 구문d'의 분포 확률을 결정하고; 나아가 예측 구문b'와 예측 구문d'의 분포 확률의 평균 값을 상기 제1 샘플 데이터와 대응되는 예측 구문의 분포 확률로 결정할 수 있으며, 마지막으로 제1 샘플 데이터 세트에서의 모든 제1 샘플 데이터와 대응되는 예측 구문의 분포 확률을 기설정된 손실 함수(예를 들어 교차 엔트로피 손실 함수)에 대입하여 제2 손실 값을 결정할 수 있다.
설명해야 할 것은, 상기 예는 단지 예시적인 것으로서 본원 발명에 대한 한정으로 간주하지 말아야 한다. 실제로 사용할 경우, 실제 수요 및 구체적인 응용 시나리오에 따라 적합한 손실 함수 및 제2 손실 값의 결정 방식을 선택할 수 있는데 본원 발명의 실시예는 이에 대해 한정하지 않는다.
단계310에서, 제2 손실 값에 근거하여 텍스트 생성 모델에 대해 구문 간 관계 능력 트레이닝을 진행한다.
본원 발명의 실시예에서, 텍스트 생성 모델의 제2 손실 값을 결정한 후, 우선 제2 손실 값이 기설정 범위에 있는지 여부를 판정한다. 제2 손실 값이 기설정 범위에 있으면 텍스트 생성 모델의 구문 간 관계 모델링 능력이 요구에 부합된다고 결정하여 텍스트 생성 모델에 대한 트레이닝 과정을 완료할 수 있다. 제2 손실 값이 기설정 범위에 있지 않으면 텍스트 생성 모델의 구문 간 관계 모델링 능력이 요구에 부합되지 않는 것으로 결정하여 제2 손실 값에 따라 텍스트 생성 모델의 파라미터를 업데이트함으로써 업데이트한 후의 텍스트 생성 모델을 생성할 수 있다. 다음, 업데이트된 후의 텍스트 생성 모델을 이용하여 제1 샘플 데이터 세트를 처리하되, 업데이트한 후의 텍스트 생성 모델의 제2 손실 값이 기설정 범위에 놓일 때까지 상기 트레이닝 과정을 중복하여 텍스트 생성 모델의 트레이닝 과정을 완료한다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고, 추출된 타겟 구조 정보에서의 일부 구문에 대해 마스크 처리를 진행한 다음 텍스트 생성 모델을 이용하여 마스크 위치의 앞뒤 문장 관계에 따라 마스크 위치의 예측 구문을 생성하며, 나아가 각 타겟 구조 정보에서의 각 마스크 위치의 마스크 구문과 예측 구문 사이의 차이에 근거하여 제2 손실 값을 결정함으로써 텍스트 생성 모델의 구문 간 관계 모델링 능력을 트레이닝 한다. 이로써, 구조 정보에서 마스크 되지 않은 구문에 근거하여 마스크 위치의 예측 구문을 생성함으로써 텍스트 생성 모델의 구문 간 관계 모델링 능력을 트레이닝하고, 나아가 텍스트 생성의 정확도와 효율을 향상시킨다.
본원 발명의 한가지 가능한 실시형태에서, 텍스트 생성 모델의 구문 생성 능력 트레이닝과 구문 간 관계 모델링 능력 트레이닝을 융합하여 텍스트 생성 모델의 트레이닝 효율과 정확성을 더 향상시킬 수도 있다.
이하 도 4와 결부하여 본원 발명의 실시예에서 제공하는 텍스트 생성 모델의 트레이닝 방법을 더 설명한다.
도 4는 본원 발명의 실시예에서 제공하는 또 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이다.
도 4에 도시된 바와 같이, 상기 텍스트 생성 모델의 트레이닝 방법은 단계401 내지 단계407을 포함한다.
단계401에서, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득한다.
단계402에서, 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행하되, 여기서, 타겟 구조 정보는 제1 샘플 데이터와 대응되는 복수의 타겟 세그먼트를 포함한다.
상기 단계401 내지 단계402의 구체적인 실현과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있는데 여기서 더 이상 설명하지 않는다.
단계403에서, 복수의 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치를 결정한다.
본원 발명의 실시예에서, 제1 샘플 데이터와 대응되는 타겟 구조 정보가 제1 샘플 데이터에서 추출된 복수의 세그먼트로 구성되므로 타겟 구조 정보에서의 각 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치를 결정할 수 있다.
예를 들어 설명하면, 제1 샘플 데이터가 "2019년 12월 후베이 우한에서 코로나 폭발......"이면 제1 샘플 데이터와 대응되는 타겟 구조는 "후베이 우한―폭발―코로나", 즉 복수의 타겟 세그먼트는 각각 "후베이 우한", "폭발", "코로나"이며, 이로써 복수의 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치는 2, 3, 4, 즉 복수의 타겟 세그먼트는 각각 제1 샘플 데이터에서의 두 번째 구문, 세 번째 구문 및 네 번째 구문이다.
단계404에서, 복수의 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치에 근거하여 제1 샘플 데이터에서의 복수의 타겟 세그먼트에 대해 각각 마스크 처리를 진행한다.
본원 발명의 실시예에서, 타겟 구조 정보에서의 복수의 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치를 결정한 후, 즉 각 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치에 근거하여 제1 샘플 데이터에서의 복수의 타겟 세그먼트에 대해 마스크 처리를 진행할 수 있다.
단계405에서, 마스크한 후의 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하되, 여기서, 예측 구조 정보에서의 각 예측 세그먼트와 제1 샘플 데이터에서 마스크 된 타겟 세그먼트는 서로 대응된다.
본원 발명의 실시예에서, 제1 샘플 데이터를 마스크한 후, 마스크한 후의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하여 초기 텍스트 생성 모델을 이용하고, 마스크한 후의 제1 샘플 데이터에서의 마스크 위치의 앞뒤 문장에 따라 각 마스크 위치와 대응되는 예측 세그먼트를 생성함으로써 제1 샘플 데이터와 대응되는 예측 구조 정보를 구성하며, 이로써 초기 텍스트 생성 모델의 구문 생성 능력과 구문 간 관계의 모델링 능력을 동시에 트레이닝 할 수 있다.
단계406에서, 각 예측 세그먼트 및 각각 대응되는 타겟 세그먼트와의 차이에 근거하여 제1 손실 값을 생성한다.
단계407에서, 텍스트 생성 모델을 생성하도록 제1 손실 값에 근거하여 초기 텍스트 생성 모델을 트레이닝 한다.
상기 단계406 내지 단계407의 구체적인 실현과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있는데 여기서 더 이상 설명하지 않는다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고 추출된 타겟 구조 정보에서의 각 타겟 세그먼트에 근거하여 제1 샘플 데이터에 대해 마스크 처리를 진행한 다음 초기 텍스트 생성 모델을 이용하여 마스크한 후의 제1 샘플 데이터를 처리하여 마스크 위치의 앞뒤 문장에 근거하여 제1 샘플 데이터에서의 마스크 위치와 대응되는 예측 세그먼트를 생성함으로써 각 예측 세그먼트 및 대응되는 타겟 세그먼트의 차이에 따라 제1 손실 값을 생성하여 초기 텍스트 생성 모델을 트레이닝 한다. 이로써, 제1 샘플 데이터와 대응되는 타겟 구조 정보에 근거하여 제1 샘플 데이터에서의 일부 세그먼트에 대해 마스크 처리를 진행함으로써 초기 텍스트 생성 모델을 이용하여 제1 샘플 데이터에서의 마스크 위치에 대해 구문 생성을 진행하여 동시에 텍스트 생성 모델의 구문 생성 능력과 구문 간 관계 모델링 능력을 구현함으로써 텍스트 생성 모델의 트레이닝 효율을 향상시킬 뿐만 아니라 텍스트 생성 모델의 정확성도 향상시킨다.
본원 발명의 한가지 가능한 실시형태에서, 텍스트 생성 모델의 구문 생성 능력과 구문 간 관계 모델링 능력을 트레이닝하여 일반적인 사전 트레이닝 텍스트 생성 모델을 생성한 후, 구체적인 응용 시나리오에 근거하여 사전 트레이닝 텍스트 생성 모델의 파라미터를 미세 조정함으로써 텍스트 생성 모델이 특정 분야에서의 텍스트 생성 효과를 향상시킬 수도 있다.
이하 도 5와 결부하여 본원 발명의 실시예에서 제공하는 텍스트 생성 모델의 트레이닝 방법을 더 설명한다.
도 5는 본원 발명의 실시예에서 제공하는 또 다른 텍스트 생성 모델의 트레이닝 방법의 과정 모식도이다.
도 5에 도시된 바와 같이, 상기 텍스트 생성 모델의 트레이닝 방법은 단계501 내지 단계508을 포함한다.
단계501에서, 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득한다.
단계502에서, 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행한다.
단계503에서, 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력한다.
단계504에서, 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성한다.
단계505에서, 텍스트 생성 모델을 생성하도록 제1 손실 값에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행한다.
상기 단계501 내지 단계505의 구체적인 실현과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있는데 여기서 더 이상 설명하지 않는다.
단계506에서, 타겟 시나리오를 획득한다.
여기서, 타겟 시나리오는 대화 생성 시나리오, 기계 번역 시나리오, 문답 시나리오 및 요약 생성 시나리오에서의 하나 또는 복수의 조합을 포함할 수 있다.
본원 발명의 실시예에서, 타겟 시나리오는 텍스트 생성 모델을 미세 조정하는 과정에서 사용자가 자체로 선택한 것일 수도 있고; 프로세서가 미리 설정된 여러 가지 응용 시나리오에 따라 각 응용 시나리오를 순차적으로 각각 타겟 시나리오로 결정한 것일 수도 있는데, 본원 발명의 실시예는 이에 대해 한정하지 않는다.
단계507에서, 타겟 시나리오에 근거하여 대응되는 제2 샘플 데이터 세트를 획득하되, 여기서, 제2 샘플 데이터 세트는 감독 샘플 데이터 세트이다.
본원 발명의 실시예에서, 타겟 시나리오를 획득한 후, 타겟 시나리오에 근거하여 타겟 시나리오와 대응되는 제2 샘플 데이터 세트를 획득할 수 있는데 제2 샘플 데이터 세트는 감독 샘플 데이터 세트이다. 여기서, 제2 샘플 데이터 세트는 사용자가 타겟 시나리오를 설정한 후 주동적으로 업로드한 것일 수도 있고; 프로세서가 미리 저장된 타겟 시나리오와 감독 샘플 데이터 세트의 매핑 관계에 근거하여 미리 저장된 감독 샘플 데이터 세트에서 획득한 것일 수도 있다.
단계508에서, 타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 제2 샘플 데이터 세트를 이용하여 텍스트 생성 모델에 대해 파라미터 조절을 진행한다.
본원 발명의 실시예에서, 텍스트 생성 모델을 이용하여 각 제2 샘플 데이터와 대응되는 예측 데이터를 생성하도록 타겟 시나리오와 대응되는 제2 샘플 데이터 세트에서의 각 제2 샘플 데이터를 텍스트 생성 모델에 입력함으로써 각 제2 샘플 데이터와 대응되는 예측 데이터 및 상응한 마크 데이터의 차이에 근거하여 텍스트 생성 모델에 대해 파라미터 조절을 진행함으로써 타겟 시나리오와 대응되는 텍스트 생성 모델을 생성한다.
한가지 가능한 실현형식으로서, 제2 샘플 데이터 세트는 복수의 제2 샘플 데이터를 포함하는 감독 샘플 데이터 세트이므로 각 제2 샘플 데이터는 소스 데이터 및 소스 데이터와 대응되는 마크 데이터를 포함하여 텍스트 생성 모델이 각 소스 데이터에 대한 처리 결과 및 상응한 마크 데이터의 차이에 근거하여 텍스트 생성 모델에 대해 파라미터 조절을 진행할 수 있다. 즉 본원 발명의 실시예의 한가지 가능한 실시형태에서, 상기 단계508은,
복수의 소스 데이터와 각각 대응하는 마크 세그먼트 서열을 생성하도록 복수의 소스 데이터와 대응되는 마크 데이터에 대해 각각 세그먼테이션을 진행하는 단계;
복수의 소스 데이터와 각각 대응하는 예측 세그먼트 서열을 생성하도록 복수의 소스 데이터를 텍스트 생성 모델에 입력하는 단계;
예측 세그먼트 서열과 마크 세그먼트 서열의 차이에 근거하여 제3 손실 값을 생성하는 단계; 및
타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 제3 손실 값에 근거하여 텍스트 생성 모델의 파라미터를 업데이트하는 단계를 포함할 수 있다.
본원 발명의 실시예에서, 텍스트 생성 모델이 구문 입도로부터 텍스트를 생성하므로 텍스트가 생성한 예측 세그먼트의 길이(즉 예측 세그먼트와 대응되는 기설정 길이)에 근거하여 각 소스 데이터와 대응되는 마크 데이터를 세그먼테이션하여 각 소스 데이터와 각각 대응되는 예측 세그먼트 서열을 생성함으로써 텍스트 생성 모델이 각 소스 데이터에 따라 각 소스 데이터와 대응되는 예측 세그먼트 서열을 생성할 경우, 각 소스 데이터와 대응되는 예측 세그먼트 서열 및 마크 세그먼트 서열의 차이에 따라 제3 손실 값을 생성하여 텍스트 생성 모델이 타겟 시나리오에서의 텍스트가 생성한 성능 요구를 만족시킬 때까지 제3 손실 값에 따라 텍스트 생성 모델의 파라미터를 조절함으로써 텍스트 생성 모델에 대한 미세 조정 과정을 완성하고 타겟 시나리오와 대응되는 텍스트 생성 모델을 완성할 수 있다.
설명해야 할 것은, 제3 손실 값의 결정 방식 및 제3 손실 값에 따라 텍스트 생성 모델의 파라미터를 조절하는 과정은 상기 실시예가 제1 손실 값 및 제2 손실 값에 대한 상세한 설명을 참조할 수 있으므로 여기서 더 이상 설명하지 않는다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 타겟 시나리오와 대응되는 감독 샘플 데이터 세트에 따라 사전 트레이닝 된 텍스트 생성 모델의 파라미터를 미세 조정하여 텍스트 생성 모델의 텍스트 생성 성능이 타겟 시나리오의 텍스트 생성 요구에 부합되도록 할 수 있다. 이로써, 일반적인 사전 트레이닝 텍스트 생성 모델을 생성함으로써 특정된 응용 시나리오에 따라 텍스트 생성 모델의 파라미터를 미세 조정하여 특정된 응용 시나리오와 대응되는 텍스트 생성 모델을 생성하게 되는 바, 이로써 특정된 시나리오에서의 텍스트 생성 모델의 트레이닝 효율을 향상시킬 뿐만 아니라 텍스트 생성 모델이 특정된 시나리오에서의 텍스트 생성 질량도 향상시킨다.
상기 실시예를 구현하기 위하여, 본원 발명은 텍스트 생성 모델의 트레이닝 장치를 더 제기한다.
도 6은 본원 발명의 실시예에서 제공하는 한가지 텍스트 생성 모델의 트레이닝 장치의 구조 모식도이다.
도 6에 도시된 바와 같이, 상기 텍스트 생성 모델의 트레이닝 장치(60)는,
복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득하기 위한 제1 획득 모듈(61);
복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행하기 위한 제1 생성 모듈(62);
복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하기 위한 제2 생성 모듈(63);
복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성하기 위한 제3 생성 모듈(64); 및
텍스트 생성 모델을 생성하도록 제1 손실 값에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하기 위한 제1 트레이닝 모듈(65)을 포함한다.
실제로 사용할 경우, 본원 발명의 실시예에서 제공하는 텍스트 생성 모델의 트레이닝 장치는 임의의 전자기기에 배치되어 상술한 텍스트 생성 모델의 트레이닝 방법을 수행할 수 있다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고 초기 텍스트 생성 모델을 이용하여 각 제1 샘플 데이터를 처리함으로써 각 샘플 데이터와 대응되는 예측 구조 정보를 생성하고, 각 예측 구조 정보 및 대응되는 타겟 구조 정보의 차이에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하여 텍스트 생성 모델의 구문 생성 능력을 향상시킨다. 이로써, 텍스트 생성 모델의 구문 생성 능력을 향상시키도록 텍스트 생성 모델을 이용하여 구조 정보에서의 구문을 생성함으로써 구문 입도로부터 텍스트를 생성하는 것을 구현하여 텍스트를 생성하는 앞뒤 문장 연결을 향상시켜 로컬 시맨틱 옵셋 문제를 해결하고 텍스트 생성의 정확도를 향상시킨다.
본원 발명의 한가지 가능한 실시형태에서, 상기 초기 텍스트 생성 모델은 초기 인코더와 초기 디코더를 포함하고; 상응하게, 상기 제2 생성 모듈(63)은,
제1 샘플 데이터와 각각 대응되는 벡터 표시 그룹을 생성하도록 제1 샘플 데이터를 초기 인코더에 입력하기 위한 제1 생성 유닛;
복수의 예측 세그먼트를 생성하도록 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 초기 디코더에 입력하기 위한 제2 생성 유닛; 및
제1 샘플 데이터와 대응되는 복수의 예측 세그먼트에 근거하여 제1 샘플 데이터와 대응되는 예측 구조 정보를 생성하되, 여기서, 제1 손실 값에 근거하여 초기 인코더와 초기 디코더에 대해 구문 생성 능력 트레이닝을 진행하는 제3 생성 유닛을 포함한다.
더 나아가, 본원 발명의 다른 한가지 가능한 실시형태에서, 상기 타겟 구조 정보는 복수의 구문을 포함하고; 상응하게, 상기 텍스트 생성 모델의 트레이닝 장치(60)는,
복수의 구문에서의 마스크 대기 위치를 획득하기 위한 제2 획득 모듈;
마스크 대기 위치에 있는 마스크 구문을 마스크하기 위한 마스크 모듈;
마스크 위치와 대응되는 예측 구문을 생성하도록 마스크한 후의 타겟 구조 정보를 텍스트 생성 모델에 입력하기 위한 제5 생성 모듈;
마스크 구문과 예측 구문에 근거하여 제2 손실 값을 생성하기 위한 제6 생성 모듈; 및
제2 손실 값에 근거하여 텍스트 생성 모델에 대해 구문 간 관계 능력 트레이닝을 진행하기 위한 제2 트레이닝 모듈을 더 포함한다.
더 나아가, 본원 발명의 또 다른 한가지 가능한 실시형태에서, 상기 예측 세그먼트는 N개이고 N은 자연수이며; 상응하게, 상기 제2 생성 유닛은,
i번째 예측 세그먼트를 예측할 경우, i번째 예측 세그먼트를 생성하도록 제1 샘플 데이터와 대응되는 벡터 표시 그룹, 첫번째 내지 i-1번째 예측 세그먼트 및 i번째 예측 세그먼트의 위치 특징에 근거하여 디코딩 처리를 진행하되, 여기서, i는 N보다 작거나 같은 자연수인 제1 생성 서브 유닛을 포함한다.
더 나아가, 본원 발명의 또 다른 한가지 가능한 실시형태에서, 상기 예측 세그먼트는 M개의 문자 부호를 포함하되, M은 자연수이고; 상응하게, 상기 제1 생성 서브 유닛은,
i번째 예측 세그먼트를 예측할 경우, 초기 디코더를 이용하여 i번째 예측 세그먼트에서의 M개의 문자 부호를 동시에 생성하기 위한 병렬 생성 서브 유닛을 포함한다.
더 나아가, 본원 발명의 또 다른 한가지 가능한 실시형태에서, 상기 구문 생성 능력 트레이닝과 상기 구문 간 관계 능력 트레이닝은 융합하여 진행한다.
더 나아가, 본원 발명의 다른 한가지 가능한 실시형태에서, 상기 타겟 구조 정보는 상기 제1 샘플 데이터와 대응되는 복수의 타겟 세그먼트를 포함하고; 상응하게, 상기 제2 생성 모듈(63)은,
복수의 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치를 결정하기 위한 제1 결정 유닛;
복수의 타겟 세그먼트가 각 제1 샘플 데이터에서의 위치에 근거하여 제1 샘플 데이터에서의 복수의 타겟 세그먼트에 대해 각각 마스크 처리를 진행하기 위한 마스크 유닛;
마스크한 후의 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하되, 여기서, 예측 구조 정보에서의 각 예측 세그먼트는 제1 샘플 데이터에서 마스크 된 타겟 세그먼트와 대응되고 각 예측 세그먼트와 각각의 대응되는 타겟 세그먼트의 차이에 근거하여 제1 손실 값을 생성하는 제4 생성 유닛을 포함한다.
더 나아가, 본원 발명의 또 다른 한가지 가능한 실시형태에서, 상기 타겟 구조 정보는 상기 제1 샘플 데이터와 대응되는 복수의 타겟 세그먼트를 포함하고; 상응하게, 상기 제3 생성 모듈(64)은,
예측 구조 정보에서의 복수의 예측 세그먼트와 각각의 타겟 구조 정보에서의 복수의 타겟 세그먼트 사이의 차이에 근거하여 제1 손실 값을 생성하기 위한 제5 생성 유닛을 포함한다.
더 나아가, 본원 발명의 또 다른 한가지 가능한 실시형태에서, 상기 제2 생성 유닛은,
예측 세그먼트의 기설정 길이를 획득하기 위한 획득 서브 유닛;
초기 디코더를 이용하여 기설정 길이의 복수의 예측 세그먼트를 생성하도록 제1 샘플 데이터와 대응되는 벡터 표시 그룹 및 기설정 길이에 대해 디코딩 처리를 진행하기 위한 제2 생성 서브 유닛을 포함하고;
여기서, 예측 세그먼트의 길이가 기설정 길이보다 작으면 예측 세그먼트의 길이가 기설정 길이와 같도록 기설정된 보완 부호를 이용하여 예측 세그먼트를 보충할 수 있다.
더 나아가, 본원 발명의 또 다른 한가지 가능한 실시형태에서, 상기 텍스트 생성 모델의 트레이닝 장치(60)는,
타겟 시나리오를 획득하기 위한 제3 획득 모듈;
타겟 시나리오에 근거하여 대응되는 제2 샘플 데이터 세트를 획득하되, 여기서, 제2 샘플 데이터 세트는 감독 샘플 데이터 세트인 제4 획득 모듈; 및
타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 제2 샘플 데이터 세트를 이용하여 텍스트 생성 모델에 대해 파라미터 조절을 진행하는 제7 생성 모듈을 더 포함한다.
더 나아가, 본원 발명의 다른 한가지 가능한 실시형태에서, 상기 제2 샘플 데이터 세트에는 복수의 제2 샘플 데이터가 포함되고, 각 제2 샘플 데이터는 소스 데이터 및 소스 데이터와 대응되는 마크 데이터를 포함하며; 상응하게, 상기 제7 생성 모듈은,
복수의 소스 데이터와 각각 대응하는 마크 세그먼트 서열을 생성하도록 복수의 소스 데이터와 대응되는 마크 데이터에 대해 각각 세그먼테이션을 진행하기 위한 제6 생성 유닛;
복수의 소스 데이터와 각각 대응하는 예측 세그먼트 서열을 생성하도록 복수의 소스 데이터를 텍스트 생성 모델에 입력하기 위한 제7 생성 유닛;
예측 세그먼트 서열과 마크 세그먼트 서열의 차이에 근거하여 제3 손실 값을 생성하기 위한 제8 생성 유닛; 및
타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 제3 손실 값에 근거하여 텍스트 생성 모델의 파라미터를 업데이트하기 위한 제9 생성 유닛을 포함한다.
더 나아가, 본원 발명의 다른 한가지 가능한 실시형태에서, 상기 타겟 시나리오는 대화 생성 시나리오, 기계 번역 시나리오, 문답 시나리오 및 요약 생성 시나리오에서의 하나 또는 복수의 조합을 포함한다.
설명해야 할 것은, 상술한 도 1, 도 2, 도 3, 도 4, 도 5에 도시된 텍스트 생성 모델의 트레이닝 방법의 실시예에 대한 해석 설명은 상기 실시예의 텍스트 생성 모델의 트레이닝 장치(60)에도 적용되는 바, 여기서 더 이상 설명하지 않는다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고 추출된 타겟 구조 정보에서의 각 타겟 세그먼트에 근거하여 제1 샘플 데이터에 대해 마스크 처리를 진행한 다음 초기 텍스트 생성 모델을 이용하여 마스크한 후의 제1 샘플 데이터를 처리하여 마스크 위치의 앞뒤 문장에 근거하여 제1 샘플 데이터에서의 마스크 위치와 대응되는 예측 세그먼트를 생성함으로써 각 예측 세그먼트 및 대응되는 타겟 세그먼트의 차이에 따라 제1 손실 값을 생성하여 초기 텍스트 생성 모델을 트레이닝 한다. 이로써, 제1 샘플 데이터와 대응되는 타겟 구조 정보에 근거하여 제1 샘플 데이터에서의 일부 세그먼트에 대해 마스크 처리를 진행함으로써 초기 텍스트 생성 모델을 이용하여 제1 샘플 데이터에서의 마스크 위치에 대해 구문 생성을 진행하여 동시에 텍스트 생성 모델의 구문 생성 능력과 구문 간 관계 모델링 능력을 구현함으로써 텍스트 생성 모델의 트레이닝 효율을 향상시킬 뿐만 아니라 텍스트 생성 모델의 정확성도 향상시킨다.
본원 발명의 실시예에 따르면, 본원 발명은 또한 전자기기 및 판독 가능 저장 매체를 더 제공한다.
도 7은 본원 발명의 실시예에 따른 텍스트 생성 모델의 트레이닝 방법을 구현하는 전자기기의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등의 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 구성 요소, 그들의 연결 및 관계 및 그 기능은 단지 예시에 불과하며, 본 명세서에 기술되거나 및/또는 청구된 구현을 한정하도록 의도되지 않는다.
도 7에 도시된 바와 같이, 상기 전자기기는 하나 이상의 프로세서(701), 메모리(702) 및 고속 인터페이스 및 저속 인터페이스를 포함하는 다양한 구성 요소를 연결하기 위한 인터페이스를 포함한다. 다양한 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위해 메모리에 저장된 명령을 포함하여 전자기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시 방식에서, 필요한 경우, 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자기기를 연결할 수 있고, 각 장치는 단지 몇가지 필요한 기능(예를 들어, 서버 배열, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 7은 프로세서(701)가 하나인 경우를 예를 들어 설명한다.
메모리(702)는 본원 발명에 의해 제공된 비 일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 적어도 하나의 프로세서에 의해 본원 발명의 텍스트 생성 모델의 트레이닝 방법을 수행하도록, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본원 발명의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터로 하여금 본원 발명의 텍스트 생성 모델의 트레이닝 방법을 실행하게 하는 컴퓨터 명령어가 저장된다.
메모리(702)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램, 본원 발명의 실시예의 텍스트 생성 모델의 트레이닝 방법에 대응하는 프로그램 명령/모듈과 같은 모듈(예를 들어, 도 6에 도시된 제1 획득 모듈(61), 제1 생성 모듈(62), 제2 생성 모듈(63), 제3 생성 모듈(64) 및 제1 트레이닝 모듈(65))을 저장하기 위해 사용될 수 있다. 프로세서(701)는 메모리(702)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여 서버의 다양한 기능적 애플리케이션 및 데이터 처리를 실행한다. 다시 말하면, 상기 방법 실시예의 텍스트 생성 모델의 트레이닝 방법을 구현한다.
메모리(702)는 프로그램을 저장하기 위한 영역 및 데이터를 저장하기 위한 영역을 포함할 수 있고, 여기서 프로그램을 저장하기 위한 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고; 데이터를 저장하기 위한 영역에는 모델의 파라미터를 업데이트하는 전자기기를 사용하여 생성된 데이터가 저장될 수 있다. 또한, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 자기 디스크 저장 장치, 플래시 메모리 장치 또는 다른 비 일시적 솔리드 스테이트 저장 장치와 같은 적어도 하나의 비 일시적 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(702)는 프로세서(701)에 대해 원격으로 설정된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 모델의 파라미터가 업데이트된 전자기기에 연결될 수 있다. 상기 네트워크의 사례는 인터넷, 인트라넷, 근거리 네트워크, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 한정되지는 않는다.
텍스트 생성 모델의 트레이닝 방법을 수행하는 전자기기는 입력 장치(703) 및 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스를 통해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 7은 버스를 통한 연결을 예시한 것이다.
입력 장치(703)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 모델의 파라미터를 업데이트하는 전자기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 터치 스크린, 키 패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 이상의 마우스 버튼, 트랙 볼, 조이스틱 및 기타 입력 장치일 수 있다. 출력 장치(704)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지는 않는다. 일부 실시 방식에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원의 임의의 실시예의 텍스트 생성 모델의 트레이닝 방법이 수행된다.
본 명세서에 설명된 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로, 집적 회로 시스템, 전용 ASIC(애플리케이션 특정 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 이러한 다양한 실시 방식은 하나 이상의 컴퓨터 프로그램에 의해 실시될 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 시스템에 의해 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그램 가능 프로세서의 기계 명령어가 포함되고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리 언어/기계어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용되는 용어 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”는 프로그램 가능 프로세서에 기계 명령 및/또는 데이터를 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장비 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키며, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 “기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 지칭한다.
사용자와의 상호 작용을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있다. 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터)와 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 포함하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 종류의 장치를 사용하여 사용자와의 상호 작용을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백) 일 수 있고, 임의의 형태(음성 입력, 스피치 입력 또는 촉각 입력 포함)로 사용자에 의해 발송된 정보를 수신할 수 있다.
본 명세서에 설명된 시스템 및 기술은 백 엔드 구성 요소(예를 들어, 데이터 서버)를 포함하는 컴퓨팅 시스템 또는 미들웨어 구성 요소(예를 들어, 애플리케이션 서버)를 포함하는 컴퓨팅 시스템 또는 프론트 엔드 구성 요소(예를 들어, 예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 구현과 상호 작용할 수 있음)를 포함하는 컴퓨팅 시스템 또는 이러한 백 엔드 구성 요소, 미들웨어 구성 요소 또는 프론트 엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 구성 요소는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 LAN(Local Area Network), WAN(Wide Area Network) 및 인터넷이 포함될 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 발생된다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 제1 샘플 데이터 세트에서의 각 제1 샘플 데이터에 대해 구조 정보 추출을 진행하고 초기 텍스트 생성 모델을 이용하여 각 제1 샘플 데이터를 처리함으로써 각 샘플 데이터와 대응되는 예측 구조 정보를 생성하고, 각 예측 구조 정보 및 대응되는 타겟 구조 정보의 차이에 근거하여 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하여 텍스트 생성 모델의 구문 생성 능력을 향상시킨다. 이로써, 텍스트 생성 모델의 구문 생성 능력을 향상시키도록 텍스트 생성 모델을 이용하여 구조 정보에서의 구문을 생성함으로써 구문 입도로부터 텍스트를 생성하는 것을 구현하여 텍스트를 생성하는 앞뒤 문장 연결을 향상시켜 로컬 시맨틱 옵셋 문제를 해결하고 텍스트 생성의 정확도를 향상시킨다.
상기에 도시된 다양한 형태의 과정을 통해 단계를 재정렬, 추가 또는 삭제할 수 있다는 것을 이해해야 한다. 예를 들어, 본원 발명에 설명된 각 단계들은 병렬, 순차적 또는 상이한 순서로 수행될 수 있으며, 본원 발명에 개시된 기술적 해결책이 원하는 결과를 달성할 수만 있으면, 별도로 한정되지 않는다.
상기 구체적인 실시 방식은 본원 발명의 보호 범위에 대한 제한을 구성하지 않는다. 당업자는 설계 요건 및 다른 요인에 따라 다양한 변형, 조합, 하위 조합 및 대체가 이루어질 수 있다는 것을 이해해야 한다. 본원 발명의 원리와 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본원 발명의 보호 범위에 포함된다.

Claims (27)

  1. 텍스트 생성 모델의 트레이닝 장치에 의해 수행되는 텍스트 생성 모델의 트레이닝 방법에 있어서,
    복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득하는 단계;
    상기 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 상기 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행하는 단계;
    상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 상기 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하는 단계;
    상기 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 상기 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성하는 단계; 및
    텍스트 생성 모델을 생성하도록 상기 제1 손실 값에 근거하여 상기 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하는 단계; 를 포함하고,
    상기 텍스트 생성 모델을 생성한 후,
    타겟 시나리오를 획득하는 단계;
    상기 타겟 시나리오에 근거하여 대응되는 제2 샘플 데이터 세트를 획득하되, 여기서, 상기 제2 샘플 데이터 세트는 감독 샘플 데이터 세트인 단계; 및
    상기 타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 상기 제2 샘플 데이터 세트를 이용하여 상기 텍스트 생성 모델에 대해 파라미터 조절을 진행하는 단계; 를 더 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  2. 제1항에 있어서,
    상기 초기 텍스트 생성 모델은 초기 인코더와 초기 디코더를 포함하고,
    상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 상기 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하는 단계는,
    상기 제1 샘플 데이터와 각각 대응되는 벡터 표시 그룹을 생성하도록 상기 제1 샘플 데이터를 상기 초기 인코더에 입력하는 단계;
    복수의 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 상기 초기 디코더에 입력하는 단계; 및
    상기 제1 샘플 데이터와 대응되는 상기 복수의 예측 세그먼트에 근거하여 상기 제1 샘플 데이터와 대응되는 예측 구조 정보를 생성하되, 여기서, 상기 제1 손실 값에 근거하여 상기 초기 인코더와 상기 초기 디코더에 대해 구문 생성 능력 트레이닝을 진행하는 단계; 를 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  3. 제1항에 있어서,
    상기 타겟 구조 정보는 복수의 구문을 포함하고,
    상기 복수의 구문에서의 마스크 대기 위치를 획득하는 단계;
    상기 마스크 대기 위치에 있는 마스크 구문을 마스크하는 단계;
    상기 마스크 대기 위치와 대응되는 예측 구문을 생성하도록 마스크한 후의 상기 타겟 구조 정보를 상기 텍스트 생성 모델에 입력하는 단계;
    상기 마스크 구문과 상기 예측 구문에 근거하여 제2 손실 값을 생성하는 단계; 및
    상기 제2 손실 값에 근거하여 상기 텍스트 생성 모델에 대해 구문 간 관계 능력 트레이닝을 진행하는 단계; 를 더 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  4. 제2항에 있어서,
    상기 예측 세그먼트는 N개이고 N은 자연수이며,
    복수의 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 초기 디코더에 입력하는 단계는,
    i번째 예측 세그먼트를 예측할 경우, 상기 초기 디코더는 상기 i번째 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹, 첫번째 내지 i-1번째 예측 세그먼트 및 상기 i번째 예측 세그먼트의 위치 특징에 근거하여 디코딩 처리를 진행하되, 여기서, i는 N보다 작거나 같은 자연수인 단계를 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  5. 제4항에 있어서,
    상기 예측 세그먼트는 M개의 문자 부호를 포함하고 M은 자연수이며,
    상기 i번째 예측 세그먼트를 생성하는 단계는,
    i번째 예측 세그먼트를 예측할 경우, 상기 초기 디코더를 이용하여 상기 i번째 예측 세그먼트에서의 M개의 문자 부호를 동시에 생성하는 단계를 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  6. 제2항에 있어서,
    상기 구문 생성 능력 트레이닝과 상기 구문 간 관계 능력 트레이닝은 융합하여 진행되는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  7. 제6항에 있어서,
    상기 타겟 구조 정보는 상기 제1 샘플 데이터와 대응되는 복수의 타겟 세그먼트를 포함하고,
    상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 상기 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하는 단계는,
    상기 복수의 타겟 세그먼트가 각 상기 제1 샘플 데이터에서의 위치를 결정하는 단계;
    상기 복수의 타겟 세그먼트가 각 상기 제1 샘플 데이터에서의 위치에 근거하여 상기 제1 샘플 데이터에서의 복수의 타겟 세그먼트에 대해 각각 마스크 처리를 진행하는 단계;
    상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 마스크한 후의 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하되, 여기서, 상기 예측 구조 정보에서의 각 예측 세그먼트는 상기 제1 샘플 데이터에서 마스크 된 타겟 세그먼트와 대응되고 각 예측 세그먼트와 각각의 대응되는 타겟 세그먼트의 차이에 근거하여 제1 손실 값을 생성하는 단계; 를 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  8. 제2항에 있어서,
    상기 타겟 구조 정보는 상기 제1 샘플 데이터와 대응되는 복수의 타겟 세그먼트를 포함하고,
    상기 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 상기 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성하는 단계는,
    상기 예측 구조 정보에서의 상기 복수의 예측 세그먼트와 각각의 상기 타겟 구조 정보에서의 상기 복수의 타겟 세그먼트 사이의 차이에 근거하여 상기 제1 손실 값을 생성하는 단계를 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  9. 제2항에 있어서,
    복수의 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 초기 디코더에 입력하는 단계는,
    예측 세그먼트의 기설정 길이를 획득하는 단계; 및
    초기 디코더를 이용하여 기설정 길이의 상기 복수의 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹 및 상기 기설정 길이에 대해 디코딩 처리를 진행하는 단계; 를 포함하고,
    여기서, 상기 예측 세그먼트의 길이가 상기 기설정 길이보다 작으면 상기 예측 세그먼트의 길이가 상기 기설정 길이와 같도록 기설정된 보완 부호를 이용하여 상기 예측 세그먼트를 보충하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  10. 삭제
  11. 제1항에 있어서,
    상기 제2 샘플 데이터 세트에는 복수의 제2 샘플 데이터가 포함되고 상기 제2 샘플 데이터마다 소스 데이터 및 상기 소스 데이터와 대응되는 마크 데이터를 포함하며,
    상기 타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 상기 제2 샘플 데이터 세트를 이용하여 상기 텍스트 생성 모델에 대해 파라미터 조절을 진행하는 단계는,
    상기 복수의 소스 데이터와 각각 대응하는 마크 세그먼트 서열을 생성하도록 상기 복수의 소스 데이터와 대응되는 마크 데이터에 대해 각각 세그먼테이션을 진행하는 단계;
    상기 복수의 소스 데이터와 각각 대응하는 예측 세그먼트 서열을 생성하도록 상기 복수의 소스 데이터를 상기 텍스트 생성 모델에 입력하는 단계;
    상기 예측 세그먼트 서열과 상기 마크 세그먼트 서열의 차이에 근거하여 제3 손실 값을 생성하는 단계; 및
    상기 타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 상기 제3 손실 값에 근거하여 상기 텍스트 생성 모델의 파라미터를 업데이트하는 단계; 를 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  12. 제1항에 있어서,
    상기 타겟 시나리오는 대화 생성 시나리오, 기계 번역 시나리오, 문답 시나리오 및 요약 생성 시나리오에서의 하나 또는 복수의 조합을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 방법.
  13. 복수의 제1 샘플 데이터를 포함하는 제1 샘플 데이터 세트를 획득하기 위한 제1 획득 모듈;
    상기 복수의 제1 샘플 데이터와 각각 대응되는 타겟 구조 정보를 생성하도록 복수의 상기 제1 샘플 데이터에 대해 각각 구조 정보 추출을 진행하기 위한 제1 생성 모듈;
    상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 상기 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하기 위한 제2 생성 모듈;
    상기 복수의 제1 샘플 데이터와 대응되는 예측 구조 정보와 대응되는 상기 타겟 구조 정보의 차이에 근거하여 제1 손실 값을 생성하기 위한 제3 생성 모듈;
    텍스트 생성 모델을 생성하도록 상기 제1 손실 값에 근거하여 상기 초기 텍스트 생성 모델에 대해 구문 생성 능력 트레이닝을 진행하기 위한 제1 트레이닝 모듈;
    타겟 시나리오를 획득하기 위한 제3 획득 모듈;
    상기 타겟 시나리오에 근거하여 대응되는 제2 샘플 데이터 세트를 획득하되, 여기서, 상기 제2 샘플 데이터 세트는 감독 샘플 데이터 세트인 제4 획득 모듈; 및
    상기 타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 상기 제2 샘플 데이터 세트를 이용하여 상기 텍스트 생성 모델에 대해 파라미터 조절을 진행하기 위한 제7 생성 모듈; 을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  14. 제13항에 있어서,
    상기 초기 텍스트 생성 모델은 초기 인코더와 초기 디코더를 포함하고,
    상기 제2 생성 모듈은,
    상기 제1 샘플 데이터와 각각 대응되는 벡터 표시 그룹을 생성하도록 상기 제1 샘플 데이터를 상기 초기 인코더에 입력하기 위한 제1 생성 유닛;
    복수의 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹을 상기 초기 디코더에 입력하기 위한 제2 생성 유닛; 및
    상기 제1 샘플 데이터와 대응되는 상기 복수의 예측 세그먼트에 근거하여 상기 제1 샘플 데이터와 대응되는 예측 구조 정보를 생성하되, 여기서, 상기 제1 손실 값에 근거하여 상기 초기 인코더와 상기 초기 디코더에 대해 구문 생성 능력 트레이닝을 진행하는 제3 생성 유닛; 을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  15. 제13항에 있어서,
    상기 타겟 구조 정보는 복수의 구문을 포함하고,
    복수의 구문에서의 마스크 대기 위치를 획득하기 위한 제2 획득 모듈;
    상기 마스크 대기 위치에 있는 마스크 구문을 마스크하기 위한 마스크 모듈;
    상기 마스크 대기 위치와 대응되는 예측 구문을 생성하도록 마스크한 후의 상기 타겟 구조 정보를 상기 텍스트 생성 모델에 입력하기 위한 제5 생성 모듈;
    상기 마스크 구문과 상기 예측 구문에 근거하여 제2 손실 값을 생성하기 위한 제6 생성 모듈; 및
    상기 제2 손실 값에 근거하여 상기 텍스트 생성 모델에 대해 구문 간 관계 능력 트레이닝을 진행하기 위한 제2 트레이닝 모듈; 을 더 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  16. 제14항에 있어서,
    상기 예측 세그먼트는 N개이고 N은 자연수이며,
    상기 제2 생성 유닛은,
    i번째 예측 세그먼트를 예측할 경우, 상기 초기 디코더는 상기 i번째 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹, 첫번째 내지 i-1번째 예측 세그먼트 및 상기 i번째 예측 세그먼트의 위치 특징에 근거하여 디코딩 처리를 진행하는데, 여기서, i는 N보다 작거나 같은 자연수인 제1 생성 서브 유닛을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  17. 제16항에 있어서,
    상기 예측 세그먼트는 M개의 문자 부호를 포함하고 M은 자연수이며,
    상기 제1 생성 서브 유닛은,
    i번째 예측 세그먼트를 예측할 경우, 상기 초기 디코더를 이용하여 상기 i번째 예측 세그먼트에서의 M개의 문자 부호를 동시에 생성하기 위한 병렬 생성 서브 유닛을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  18. 제14항에 있어서,
    상기 구문 생성 능력 트레이닝과 상기 구문 간 관계 능력 트레이닝은 융합하여 진행되는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  19. 제18항에 있어서,
    상기 타겟 구조 정보는 상기 제1 샘플 데이터와 대응되는 복수의 타겟 세그먼트를 포함하고,
    상기 제2 생성 모듈은,
    상기 복수의 타겟 세그먼트가 각 상기 제1 샘플 데이터에서의 위치를 결정하기 위한 제1 결정 유닛;
    상기 복수의 타겟 세그먼트가 각 상기 제1 샘플 데이터에서의 위치에 근거하여 상기 제1 샘플 데이터에서의 복수의 타겟 세그먼트에 대해 각각 마스크 처리를 진행하기 위한 마스크 유닛;
    상기 복수의 제1 샘플 데이터와 각각 대응되는 예측 구조 정보를 생성하도록 마스크한 후의 복수의 제1 샘플 데이터를 초기 텍스트 생성 모델에 입력하되, 여기서, 상기 예측 구조 정보에서의 각 예측 세그먼트는 상기 제1 샘플 데이터에서 마스크 된 타겟 세그먼트와 대응되고 각 예측 세그먼트와 각각의 대응되는 타겟 세그먼트의 차이에 근거하여 제1 손실 값을 생성하는 제4 생성 유닛; 을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  20. 제14항에 있어서,
    상기 타겟 구조 정보는 상기 제1 샘플 데이터와 대응되는 복수의 타겟 세그먼트를 포함하고,
    상기 제3 생성 모듈은,
    상기 예측 구조 정보에서의 상기 복수의 예측 세그먼트와 각각의 상기 타겟 구조 정보에서의 상기 복수의 타겟 세그먼트 사이의 차이에 근거하여 상기 제1 손실 값을 생성하기 위한 제5 생성 유닛을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  21. 제14항에 있어서,
    상기 제2 생성 유닛은,
    예측 세그먼트의 기설정 길이를 획득하기 위한 획득 서브 유닛; 및
    초기 디코더를 이용하여 기설정 길이의 상기 복수의 예측 세그먼트를 생성하도록 상기 제1 샘플 데이터와 대응되는 벡터 표시 그룹 및 상기 기설정 길이에 대해 디코딩 처리를 진행하기 위한 제2 생성 서브 유닛; 을 포함하고,
    여기서, 상기 예측 세그먼트의 길이가 상기 기설정 길이보다 작으면 상기 예측 세그먼트의 길이가 상기 기설정 길이와 같도록 기설정된 보완 부호를 이용하여 상기 예측 세그먼트를 보충하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  22. 삭제
  23. 제13항에 있어서,
    상기 제2 샘플 데이터 세트에는 복수의 제2 샘플 데이터가 포함되고 상기 제2 샘플 데이터마다 소스 데이터 및 상기 소스 데이터와 대응되는 마크 데이터를 포함하되, 여기서, 상기 제7 생성 모듈은,
    상기 복수의 소스 데이터와 각각 대응하는 마크 세그먼트 서열을 생성하도록 상기 복수의 소스 데이터와 대응되는 마크 데이터에 대해 각각 세그먼테이션을 진행하기 위한 제6 생성 유닛;
    상기 복수의 소스 데이터와 각각 대응하는 예측 세그먼트 서열을 생성하도록 상기 복수의 소스 데이터를 상기 텍스트 생성 모델에 입력하기 위한 제7 생성 유닛;
    상기 예측 세그먼트 서열과 상기 마크 세그먼트 서열의 차이에 근거하여 제3 손실 값을 생성하기 위한 제8 생성 유닛; 및
    상기 타겟 시나리오와 대응되는 텍스트 생성 모델을 생성하도록 상기 제3 손실 값에 근거하여 상기 텍스트 생성 모델의 파라미터를 업데이트하기 위한 제9 생성 유닛; 을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  24. 제13항에 있어서,
    상기 타겟 시나리오는 대화 생성 시나리오, 기계 번역 시나리오, 문답 시나리오 및 요약 생성 시나리오에서의 하나 또는 복수의 조합을 포함하는,
    것을 특징으로 하는 텍스트 생성 모델의 트레이닝 장치.
  25. 전자기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결하는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제9항, 제11항, 제12항 중 어느 한 항의 텍스트 생성 모델의 트레이닝 방법을 수행하는,
    것을 특징으로 하는 전자기기.
  26. 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제9항, 제11항, 제12항 중 어느 한 항의 텍스트 생성 모델의 트레이닝 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체.
  27. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제9항, 제11항, 제12항 중 어느 한 항의 텍스트 생성 모델의 트레이닝 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210056142A 2020-05-28 2021-04-30 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기 KR102541306B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010470844.8 2020-05-28
CN202010470844.8A CN111709248B (zh) 2020-05-28 2020-05-28 文本生成模型的训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
KR20210057708A KR20210057708A (ko) 2021-05-21
KR102541306B1 true KR102541306B1 (ko) 2023-06-12

Family

ID=72538729

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210056142A KR102541306B1 (ko) 2020-05-28 2021-04-30 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기

Country Status (5)

Country Link
US (1) US11574133B2 (ko)
EP (1) EP3916611A1 (ko)
JP (1) JP2021157802A (ko)
KR (1) KR102541306B1 (ko)
CN (1) CN111709248B (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257393B (zh) 2020-12-22 2021-04-13 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
EP4268116A1 (en) * 2020-12-25 2023-11-01 Microsoft Technology Licensing, LLC Generation of data models for predicting data
CN112633947B (zh) * 2020-12-30 2023-04-07 北京有竹居网络技术有限公司 文本生成模型生成方法、文本生成方法、装置及设备
CN112800542B (zh) * 2021-01-27 2023-01-20 清华大学 一种样本数据生成方法及装置、存储介质
CN112966712B (zh) * 2021-02-01 2023-01-20 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN113033801A (zh) * 2021-03-04 2021-06-25 北京百度网讯科技有限公司 神经网络模型的预训练方法、装置、电子设备和介质
CN113095040A (zh) * 2021-04-16 2021-07-09 支付宝(杭州)信息技术有限公司 一种编码网络的训练方法、文本编码方法和系统
CN113205384B (zh) * 2021-05-10 2024-02-06 北京百度网讯科技有限公司 文本处理方法、装置、设备以及存储介质
CN113553864B (zh) * 2021-06-30 2023-04-07 北京百度网讯科技有限公司 翻译模型的训练方法、装置、电子设备及存储介质
CN113807102B (zh) * 2021-08-20 2022-11-01 北京百度网讯科技有限公司 建立语义表示模型的方法、装置、设备和计算机存储介质
CN114547270B (zh) * 2022-02-25 2023-04-21 北京百度网讯科技有限公司 文本处理方法、文本处理模型的训练方法、装置和设备
CN114925660B (zh) * 2022-05-23 2023-07-28 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN115422322B (zh) * 2022-08-05 2023-07-21 北京海泰方圆科技股份有限公司 一种摘要生成方法及装置
CN115146049B (zh) * 2022-09-01 2022-12-27 科大讯飞(苏州)科技有限公司 问答检索方法、模型训练方法及装置、设备和存储介质
CN115942039B (zh) * 2022-11-30 2024-02-23 北京百度网讯科技有限公司 视频生成方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007137487A1 (en) 2006-05-15 2007-12-06 Panasonic Corporation Method and apparatus for named entity recognition in natural language
JP2018028866A (ja) 2016-08-19 2018-02-22 日本電信電話株式会社 説明文生成方法、説明文生成モデル学習方法、及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
US11080598B2 (en) * 2018-05-15 2021-08-03 Sap Se Automated question generation using semantics and deep learning
CN109062937B (zh) * 2018-06-15 2019-11-26 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN110807311B (zh) * 2018-07-18 2023-06-23 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109242043A (zh) * 2018-09-29 2019-01-18 北京京东金融科技控股有限公司 用于生成信息预测模型的方法和装置
CN109933662B (zh) * 2019-02-15 2021-03-12 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN110263324B (zh) * 2019-05-16 2021-02-12 华为技术有限公司 文本处理方法、模型训练方法和装置
CA3081242A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN110196894B (zh) * 2019-05-30 2021-06-08 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110197279B (zh) * 2019-06-10 2021-01-29 北京百度网讯科技有限公司 变换模型训练方法、装置、设备和存储介质
CA3150031C (en) * 2019-08-05 2024-04-23 Ai21 Labs Systems and methods of controllable natural language generation
CN110457661B (zh) * 2019-08-16 2023-06-20 腾讯科技(深圳)有限公司 自然语言生成方法、装置、设备及存储介质
CN110580292B (zh) * 2019-08-28 2023-11-03 腾讯科技(深圳)有限公司 一种文本标签生成方法、装置和计算机可读存储介质
CN110717327B (zh) * 2019-09-29 2023-12-29 北京百度网讯科技有限公司 标题生成方法、装置、电子设备和存储介质
US11741306B2 (en) * 2019-12-18 2023-08-29 Microsoft Technology Licensing, Llc Controllable grounded text generation
CN111177348B (zh) * 2019-12-20 2023-04-28 卓尔智联(武汉)研究院有限公司 问题生成模型的训练方法、装置、电子设备及存储介质
CN111126047B (zh) * 2019-12-23 2024-02-13 中国银联股份有限公司 一种同义文本生成的方法及装置
US11797862B2 (en) * 2020-01-22 2023-10-24 Google Llc Extreme language model compression with optimal sub-words and shared projections
US10885436B1 (en) * 2020-05-07 2021-01-05 Google Llc Training text summarization neural networks with an extracted segments prediction objective

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007137487A1 (en) 2006-05-15 2007-12-06 Panasonic Corporation Method and apparatus for named entity recognition in natural language
JP2018028866A (ja) 2016-08-19 2018-02-22 日本電信電話株式会社 説明文生成方法、説明文生成モデル学習方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Wei Li외 5명, "Leveraging Graph to Improve Abstractive Multi-Document Summarization", Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.05.20., pp.1.-12. 1부.*

Also Published As

Publication number Publication date
CN111709248A (zh) 2020-09-25
CN111709248B (zh) 2023-07-11
JP2021157802A (ja) 2021-10-07
US11574133B2 (en) 2023-02-07
US20210374359A1 (en) 2021-12-02
EP3916611A1 (en) 2021-12-01
KR20210057708A (ko) 2021-05-21

Similar Documents

Publication Publication Date Title
KR102541306B1 (ko) 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
US11928439B2 (en) Translation method, target information determining method, related apparatus, and storage medium
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022013602A (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
CN112597753A (zh) 文本纠错处理方法、装置、电子设备和存储介质
US11537792B2 (en) Pre-training method for sentiment analysis model, and electronic device
US11200382B2 (en) Prosodic pause prediction method, prosodic pause prediction device and electronic device
KR20210092151A (ko) 텍스트 엔티티의 시맨틱 설명 처리 방법, 장치 및 기기
CN111079945B (zh) 端到端模型的训练方法及装置
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
KR102630243B1 (ko) 구두점 예측 방법 및 장치
JP2021108115A (ja) 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
EP3855339A1 (en) Method and apparatus for generating text based on semantic representation
JP7121791B2 (ja) 言語生成方法、装置及び電子機器
JP7262519B2 (ja) 質問の答えの決定方法、装置、機器及び記憶媒体
KR20210058765A (ko) 음성 인식 방법, 장치, 전자기기 및 저장 매체
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
US20220028370A1 (en) Method and apparatus for recognizing speech, electronic device and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right