KR20210157342A - 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 - Google Patents

언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 Download PDF

Info

Publication number
KR20210157342A
KR20210157342A KR1020210077685A KR20210077685A KR20210157342A KR 20210157342 A KR20210157342 A KR 20210157342A KR 1020210077685 A KR1020210077685 A KR 1020210077685A KR 20210077685 A KR20210077685 A KR 20210077685A KR 20210157342 A KR20210157342 A KR 20210157342A
Authority
KR
South Korea
Prior art keywords
text
language model
sentence
splicing
training
Prior art date
Application number
KR1020210077685A
Other languages
English (en)
Inventor
단씨앙 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210157342A publication Critical patent/KR20210157342A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 언어 모델의 훈련 방법, 장치, 전자 기기 및 컴퓨터 기록 매체를 개시하였으며, 딥 러닝 기술분야 및 자연어 처리 기술분야에 관한 것이다. 구체적인 구현 형태는: 복수의 문장 중 각각의 문장에서 한 단락씩 텍스트를 각각 샘플링하여 복수 단락의 텍스트를 얻는 단계; 상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻는 단계; 상기 스플라이싱 텍스트를 언어 모델에 입력하여 상기 언어 모델을 통해 문장 수량의 예측 값을 출력하는 단계; 상기 복수의 문장의 실제 문장 수량 및 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련하는 단계를 포함한다. 본 출원은 복수의 문장에서 샘플링된 텍스트를 이용하여 언어 모델을 훈련하여 언어 모델이 전체 텍스트 내용에 대한 분류를 구현할 수 있으며, 언어 모델이 텍스트 내용에 대한 인식 효과를 향상시킨다.

Description

언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 {LANGUAGE MODEL TRAINING METHOD, DEVICE, ELECTRONIC EQUIPMENT AND READABLE STORAGE MEDIUM}
본 출원은 컴퓨터 기술분야에 관한 것이며, 구체적으로 딥 러닝 기술 분야와 자연어 처리 기술 분야에 관한 것이며, 특히 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체에 관한 것이다.
중국어 자연어 처리(Natural Language Processing, NLP) 분야에서는 언어 모델의 자가 감독(self-supervised) 사전 훈련 학습(pre-training)을 위해 다량의 비감독 텍스트(unsupervised text)를 사용하고, 감독된 작업 데이터를 사용하여 언어 모델을 각각의 파라미터 미세 조정(fine-tuning) 하며, 현재 NLP 분야의 고급 언어 모델 교육 기술이다.
종래 기술의 언어 모델 훈련 학습에 있어서, 언어 모델에 대한 단일 문장 분류 작업 면의 훈련이 부족하고, 언어 모델의 단일 문장 분류 능력이 부족하여 언어 모델의 텍스트 내용에 대한 인식 효과가 제한된다.
본 출원의 여러 양태는 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체를 제공하며, 언어 모델이 전체 텍스트 내용에 대한 분류를 구현하여 언어 모델이 텍스트 내용에 대한 인식 효과를 향상시킨다.
제1 양태에 있어서, 본 출원은 언어 모델의 훈련 방법을 제공하며, 당해 방법은
복수의 문장 중 각각의 문장에서 한 단락씩 텍스트를 각각 샘플링하여 여러 텍스트를 얻는 단계;
상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻는 단계;
상기 스플라이싱 텍스트를 언어 모델에 입력하여 상기 언어 모델에 의해 문장 수량의 예측 값을 출력하는 단계;
상기 복수의 문장의 실제 문장 수량과 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련하는 단계를 포함한다.
제2 양태에 있어서, 본 출원은 언어 모델의 훈련 장치를 제공하며, 당해 장치는:
복수의 문장 중 각각의 문장에서 한 단락씩 텍스트를 각각 샘플링하여 복수 단락의 텍스트를 얻는 샘플링 유닛;
상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻는 스플라이싱 유닛;
입력된 상기 스플라이싱 텍스트를 수신하여 문장 수량의 예측 값을 출력하는 언어 모델;
상기 복수의 문장의 실제 문장 수량과 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련하는 훈련 유닛을 포함한다.
제3 양태에 있어서, 전자 기기를 제공하며,당해 전자 기기는:
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며, 여기서
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 상술한 양태 및 임의의 가능한 구현 방법을 수행하도록 한다.
제4 양태에 있어서, 컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체를 제공하며, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상술한 양태 및 임의의 가능한 구현 방법을 수행하도록 한다.
상기 기술 구성으로부터 알 수 있는 바, 본 출원 실시예는 복수의 문장 중 각각의 문장에서 한 단락씩 텍스트를 각각 샘플링하여 복수 단락의 텍스트를 얻고, 상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻은 후 상기 스플라이싱 텍스트를 언어 모델에 입력하여 언어 모델에 의해 문장 수량의 예측 값을 출력하며, 상기 복수의 문장의 실제 문장 수량 및 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련한다. 즉 훈련된 언어 모델을 얻을 수 있으며, 훈련된 언어 모델이 전체 텍스트의 내용에 대해 인식 및 분류하는 기능을 가지도록 하여 언어 모델이 텍스트 내용에 대한 인식 효과를 향상시킨다.
또한 본 출원에서 제공하는 기술 구성을 사용하여 훈련된 언어 모델을 후속 NLP작업에 사용 시 NLP작업의 처리 결과의 정확도를 효과적으로 향상시킬 수 있다.
본 명세서에서 설명된 내용은 본 개시의 실시예들의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 개시의 범위를 제한하려는 의도가 아님을 이해해야 한다. 본 개시 내용의 다른 특징은 다음 설명을 통해 쉽게 이해될 것이다.
이하에서는 본 출원의 실시예의 기술 구성을 보다 명확하게 설명하기 위해 실시예 또는 종래 기술의 설명에 이용되어야 할 도면을 간략히 소개한다. 아래에 설명하는 도면은 본 출원의 일부 실시예일 뿐이며, 당업자에 있어서, 이러한 도면들에 기초하여 다른 도면들이 창조적인 노력없이 얻어질 수 있다. 도면은 본 구성을 더 잘 이해하기 위해서만 사용되며 본 출원을 제한하지 않는다. 여기서 :
도 1은 본 출원 제1 실시예에 따른 개략도이다;
도 2는 본 출원 제2 실시예에 따른 개략도이다;
도 3은 본 출원 제3 실시예에 따른 개략도이다;
도 4는 본 출원 제4 실시예에 따른 개략도이다;
도 5는 본 출원 제5 실시예에 따른 개략도이다;
도 6은 본 출원 실시예의 언어 모델의 훈련 방법의 전자 기기를 구현하는 개략도이다.
이하, 도면을 참조하여 본 출원의 시범적인 실시예를 기술하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 출원 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 기술에서는 잘 알려진 기능 및 구조의 기술을 생략하였다.
상기 설명한 실시예는 본 출원의 부분적 실시예이며 전부 실시예가 아님은 자명한 것이다. 본 출원의 실시예에 기초하여, 창의적인 작업없이 당업자에 의해 획득된 다른 모든 실시예는 본 출원의 보호 범위 내에 속한다.
본 출원의 실시예에 포함된 단말기는 휴대폰, 개인 디지털 보조기 (Personal Digital Assistant,PDA), 무선 핸드 헬드 장치, 태블릿 컴퓨터(Tablet Computer) 및 개인용 컴퓨터(Personal Computer,PC), MP3 플레이어, MP4 플레이어, 웨어러블 장치 (예 : 스마트 안경, 스마트 시계, 스마트 팔찌 등), 스마트 홈 장치 및 기타 스마트 장치를 포함할 수 있지만 이에 국한되지 않음에 유의해야 한다.
또한 이 본 명세서의 "및/또는"이라는 용어는 연관된 객체를 설명하는 연관 관계일 뿐이며 A 및/또는 B와 같은 세 가지 유형의 관계가 있을 수 있다. 즉 A만 존재함, A와 B가 동시에 존재함, B만 존재함 세 가지 경우로 표시할 수 있다. 또한 본 명세서에서 "/"문자 부호는 일반적으로 앞뒤의 연관된 개체가 "또는" 관계에 있음을 나타낸다.
종래 기술의 언어 모델 사전 훈련 학습에 있어서, 언어 모델에 대한 단일 문장 분류 작업 면의 훈련이 부족하고, 언어 모델의 단일 문장 분류 능력이 부족하여 언어 모델의 텍스트 내용에 대한 인식 효과가 제한된다.
본 출원은 상기 문제에 대하여 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체를 제공하여 언어 모델이 전체 텍스트 내용에 대한 분류를 구현하여 언어 모델이 텍스트 내용에 대한 인식 효과를 향상시킨다.
도 1은 본 출원 제1 실시예에 따른 개략도이며 도 1에 나타낸 바와 같다.
단계 101, 복수의 문장 중 각각의 문장에서 한 단락의 텍스트를 각각 샘플링하여 복수 단락의 텍스트를 얻는다.
단락 102, 상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻는다.
단락 103, 상기 스플라이싱 텍스트를 언어 모델에 입력하여 상기 언어 모델을 통해 문장 수량의 예측 값을 출력한다.
단락 104, 상기 복수의 문장의 실제 문장 수량과 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련한다.
여기서, 상기 단계 101~104는 반복 수행 과정일 수 있고, 단계 101~104를 반복 수행하는 것을 통해 언어 모델에 대한 훈련을 구현하며, 미리 설정된 훈련 완성 조건을 만족할 때 언어 모델에 대한 훈련을 완성한다.
선택적으로, 본 실시예의 가능한 구현 방식에서 상기 미리 설정된 훈련 완성 조건은 실제 수요에 따라 설정될 수 있다. 예를 들면, 다음을 포함할 수 있다: 상기 복수의 문장의 실제 문장 수와 상기 문장 수의 예측 값 사이의 차이가 제1 미리 설정 역치보다 작다. 예를 들면, 2; 및/또는, 언어 모델의 훈련 차수(즉, 단계 101~104의 반복 수행 차수)는 제2 미리 설정 역치에 도달한다(예를 들면, 100만 번).
이해해야 할 것은, 단계 101~104의 부분 또는 전부 수행 주체는 로컬 단말기에 위치한 애플리케이션일 수 있고, 또는 로컬 단말기에 위치한 애플리케이션에 설치한 플러그인 또는 소프트웨어 개발 키트(Software Development Kit,SDK) 등 기능 유닛일 수도 있으며, 또는 네트워크 측의 서버에 위치한 처리 엔진일 수 있으며, 본 실시예에서 특별히 제한하지 않는다.
상기 애플리케이션은 단말기에 설치된 네이티브 앱(nativeApp)일 수 있으며, 또는 단말기의 브라우저의 웹페이지 앱(webApp)일 수도 있음을 이해할 수 있으며, 본 실시예에서 제한하지 않는다.
본 실시예에서 복수의 문장 중 각각의 문장에서 샘플링된 복수 단락의 텍스트를 스플라이싱하는 것을 통해 언어 모델이 스플라이싱 텍스트의 문자 수량(즉 문장 유래 수량)을 예측하도록 하며, 언어 모델이 예측한 문자 수량과 실제 문자 수량에 기반하여 상기 언어 모델을 훈련하며, 훈련된 언어 모델이 전체 텍스트의 내용에 대해 인식 및 분류하는 기능을 가지도록 하여 언어 모델이 텍스트 내용에 대한 인식 효과를 향상시킨다.
또한, 본 출원이 제공하는 기술 구성을 사용하여 훈련된 언어 모델을 후속 NLP 작업에 사용 시 NLP 작업의 처리 결과의 정확도를 효과적으로 향상시킬 수 있다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 단계 101에서 랜덤으로 문장 데이터 베이스에서 복수의 문장을 선택할 수 있으며, 다음 상기 복수의 문장 중 각각의 문장에서 한 단락의 연속적인 텍스트를 랜덤으로 샘플링한다. 여기서, 각각의 단락의 연속적인 텍스트는 적어도 하나의 문구를 포함한다. 즉, 각각의 문장에서 선택된 한 단락 텍스트는 하나의 문구를 포함할 수 있고 복수의 연속적인 문구를 포함할 수도 있다. 예를 들면, 2개 또는 3개 연속적인 문구를 포함할 수 있다.
본 실시예에서 문장 데이터 베이스에는 비교적 많은 수의 문장을 포함할 수 있으며, 여기서 문장의 장르, 내용 분류 면에서 같을 수도 있고 다를 수도 있다. 랜덤으로 매번 문장 데이터 베이스에서 복수의 문장을 선택하여, 상기 복수의 문장 중 각각의 문장에서 한 단락의 연속적인 텍스트를 랜덤으로 샘플링하여 언어 모델의 훈련에 사용하여 언어 모델이 서로 다른 내용에 대한 학습 및 분류 기능을 향상시킬 수 있다; 하나의 문장에서 연속적인 텍스트는 내용상 일관되고 어의 상 연관되어 있으므로, 각각의 문장에서 샘플링한 연속적인 텍스트는 언어 모델의 훈련에 사용되며, 언어 모델의 어의 학습 기능을 향상시키는데 유리하며, 서로 다른 문구가 동일한 문장에서 온 것인지를 정확하게 인식하는데 유리하다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 본 출원 상기 실시예의 상기 언어 모델은 임의의 언어 모델일 수 있다. 예를 들면, 지식 보강 어의 표시 (Enhanced Representation from kNowledge IntEgration,ERNIE) 모델을 사용할 수 있다.
ERNIE 모델은 대량의 데이터의 개체 개념 등 선험 어의 지식(semantic knowledge)을 모델링 하는 것을 통해 완전한 개념의 어의 표시를 학습할 수 있으며, 단어 맞추기 및 개체 개념과 같은 어의 유닛을 통해 ERNIE 모델을 사전 훈련하여 ERNIE 모델이 어의 지식 유닛에 대한 표시가 현실 세계에 더욱 가까워지도록 한다. ERNIE 모델은 문자 특징 입력에 기반하여 모델링하는 동시에 선험 어의 지식 유닛을 직접 모델링하여 비교적 강한 어의 표시 기능을 가진다. 본 실시예에서 ERNIE 모델을 언어 모델로 하여 ERNIE 모델의 비교적 강한 어의 표시 기능을 이용하여, 전체 텍스트의 내용을 인식 및 분류할 수 있으며, ERNIE 모델의 내용 인식 및 분류 효과를 더욱 보강한다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 복수의 문장에서 샘플링하여 얻은 복수 단락의 텍스트의 문자 수량은 미리 설정된 문자 수량보다 크지 않다. 당해 미리 설정된 문자 수량은 상기 언어 모델이 지원할 수 있는 최대 문자 수량으로부터 설정할 수 있다. 예를 들면, 상기 미리 설정된 문자 수량은 상기 언어 모델이 지원할 수 있는 최대 문자 수량일 수 있으며; 또는 상기 미리 설정된 문자 수량은 상기 언어 모델이 지원하는 최대 문자 수량 범위 내에서 비교적 좋은 언어 인식 기능을 가질 수 있는 문자 수량이며, 당해 문자 수량의 구체적인 값은 언어 모델의 구체적인 유형 및 기능에 따라 확정할 수 있다; 또는 상기 미리 설정된 문자 수량은 다른 방식을 사용하여 확정할 수도 있으며 본 출원 실시예는 미리 설정된 문자 수량의 구체적인 확정 방식 및 값을 제한하지 않는다.
예를 들면, ERNIE 모델의 경우 512자 이하의 텍스트에 대해 비교적 좋은 어의 학습 기능을 가지고 있기 때문에 여러 문장에서 샘플링하여 얻은 복수 단락의 텍스트의 문자 수량은 512자 이하일 수 있다. 이렇게 512자 이하의 스플라이싱 텍스트로 ERNIE 모델을 훈련할 때 ERNIE 모델의 어의 학습 기능을 충분히 활용하여 ERNIE 모델의 훈련 효율성과 훈련 효과를 향상시킬 수 있다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 단계 102에서 상기 복수 단락의 텍스트의 문구 순서를 교란하고,순서 교란 후의 문구를 스플라이싱하여 스플라이싱 텍스트를 얻을 수 있다.
본 실시예에서 상기 복수 단락의 텍스트 중 문구 순서를 교란한 후 스플라이싱하여 얻은 스플라이싱 텍스트 중 인접한 문구 사이에는 어의 관련성이 존재하지 않으며, 얻은 스플라이싱 텍스트를 이용하여 언어 모델을 훈련하여, 언어 모델의 내용 인식 및 분류 기능을 향상시킬 수 있으며, 언어 모델의 훈련 효과를 향상시킬 수 있다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 상기 복수 단락의 텍스트 중 각각의 문구의 문구 표식(sentence embedding)을 통일적인 미리 설정된 표식으로 설정할 수 있다. 예를 들면, 0; 또는 상기 스플라이싱 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정한다(예를 들면, 0).
본 실시예에서 복수 단락의 텍스트 중 또는 스플라이싱 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정하여 언어 모델이 입력된 스플라이싱 텍스트에 몇 개의 문구가 포함되어 있는지 감지할 수 없도록 하여 스플라이싱 텍스트 중 문구가 복수의 문장에서 올 수 있음을 쉽게 감지할 수 없도록 하므로 언어 모델의 훈련 효과를 향상시킬 수 있다.
본 공개 실시예에서 언어 모델을 훈련하기 위한 스플라이싱 텍스트는 문구를 구분하지 않으므로 스플라이싱 텍스트의 전체 텍스트를 하나의 문구로 할 수 있으므로 본 공개 실시예에서 스플라이싱 텍스트에 대한 내용 인식 및 분류를 단일 문구 분류라고 할 수 있다. 본 실시예에서 훈련하여 얻은 언어 모델에 기반하여 단일 문구 분류 작업에 사용할 수 있다.
도 2는 본 출원 제2 실시예에 따른 개략도이며 도 2에 나타낸 바와 같다.
랜덤으로 문장 데이터 베이스에서 4개 문장을 선택한다: 문장 1, 문장 2, 문장 3, 문장 4. 상기 4개 문장 중 각각의 문장에서 한 단락 연속적인 텍스트를 랜덤으로 샘플링한다. 문장 2에서 샘플링된 텍스트에 2개 연속적인 문구가 포함된다고 가정할 때, 문장 1, 문장 3, 문장 4에서 하나의 문구를 각각 사용하면 상기 4개 문장에서 샘플링된 5개 문구 순서를 교란한 후 스플라이싱 하여 스플라이싱 텍스트를 얻으며, 5개 문구의 문구 표식을 각각 0으로 설정한다. 다음 스플라이싱 텍스트를 ERNIE 모델에 입력하여, ERNIE 모델을 통해 당해 스플라이싱 텍스트의 문장 수량을 예측한다. 즉 복수의 문장에서 오며, 문장 수량의 예측 값 M을 얻는다. 문장 수량의 예측 값 M 및 실제 문장 수량 4에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 ERNIE 모델을 훈련한다. 예를 들면, ERNIE 모델이 출력한 문장 수량의 예측 값 M은 4이고,또는 훈련 차수는 100만번에 달한다.
도 3은 본 출원 제3 실시예에 따른 개략도이며 도 3에 나타낸 바와 같다.
제1 실시예를 기반으로 미리 설정된 훈련 완성 조건을 만족하여 훈련된 언어 모델을 얻은 후 감독이 있는 NLP 작업을 통해 언어 모델을 더욱 최적화할 수 있으며, 언어 모델의 NLP 작업 중에서의 예측 기능을 더욱 향상시킬 수 있다.
제2 실시예에서 감독이 있는 NLP 작업을 통해 언어 모델을 최적화하는 것은 구체적으로 다음과 같은 단계를 통해 구현할 수 있다:
단계 201, 훈련된 언어 모델을 이용하여 NLP 작업을 하여 처리 결과를 얻는다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 여기서 NLP 작업은 예를 들면, 분류, 매칭, 시퀀스 라벨링 등 NLP 작업 중의 임의의 하나 이상일 수 있으며 본 실시예에서 한정하지 않는다. 이에 따라 처리 결과는 예를 들면, 분류 결과, 매칭 결과, 시퀀스 라벨링 결과 등 구체적인 NLP 작업의 처리 결과이다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 단계 201에서 구체적으로 훈련된 언어 모델을 이용하여 다른 분류, 매칭, 시퀀스 라벨링을 구현하는 예를 들면, 컨볼루션 신경망(convolutional neural network,CNN), 장단기 기억(Long Short Term Memory,LSTM)모델, Bag of Word(BOW) 모델 등 네트워크 모델을 결합하여, NLP 작업하여 처리 결과를 얻는다. 예를 들면, 다른 분류, 매칭, 시퀀스 라벨링을 구현하기 위한 네트워크 모델은 언어 모델의 출력에 기반하여 분류, 매칭, 시퀀스 라벨링 등 처리하여 대응하는 분류 결과, 매칭 결과, 시퀀스 라벨링 결과 등 처리 결과를 얻는다.
단계 202, 상기 처리 결과 및 상기 처리 결과에 대응하는 라벨링 결과 정보 사이의 차이에 따라 상기 언어 모델 중 각각의 파라미터 값을 미세 조정(fine-tuning)한다. 즉 언어 모델 중 각각의 파라미터 값을 미세 조정한다.
여기서 상기 라벨링 결과 정보는 미리 수행하려는 NLP 작업에 대해 인공적으로 라벨링하여 얻은 정확한 처리 결과이다.
여기서, 상기 단계 201~202는 반복 수행 과정일 수 있으며, 단계 201~202를 반복 수행하는 것을 통해 미리 설정된 조건을 만족할 때까지 언어 모델을 여러 번 미세 조정 하여 언어 모델의 미세 조정을 완성한다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 상기 미리 설정된 조건은 실제 수요에 따라 설정될 수 있다. 예를 들면, 다음을 포함할 수 있다: 상기 처리 결과 및 라벨링 결과 정보 사이의 차이가 미리 설정된 차이보다 작고 제3 미리 설정 역치보다 작다; 및/또는, 언어 모델의 미세 조정 차수(즉, 단계 201~202의 반복 수행 차수)는 제4 미리 설정 역치에 도달한다.
본 실시예에서 언어 모델 전체 구조를 변경하지 않고 감독 데이터가 있는 (즉 라벨링 결과 정보)NLP 작업을 통해 언어 모델 중 각각의 파라미터 값에 대해 더욱 최적화할 수 있어 각각의 NLP작업에 따라 언어 모델을 최적화 반복하는데 유리하며, 언어 모델의 예측 성능을 향상시킨다.
이해해야 할 것은, 상술한 각각의 방법 실시예에 있어서, 간단한 설명을 위해 이들은 모두 일련의 동작 조합으로 표현되었지만, 당업자라면 본 출원은 설명된 동작 순서의 제한을 받지 않음을 알 수 있다. 본 출원에 따르면 일부 단계는 다른 순서를 사용하거나 또는 동시에 수행할 수 있기 때문이다. 또한 당업자라면 명세서에서 설명된 실시예는 모두 바람직한 실시예에 속하며 관련된 동작 및 모듈은 본 출원에 필수적인 것이 아님을 알 수 있다.
상기 실시예에서 각각의 실시예에 대한 설명은 모두 그 자체에 초점을 두고 있으며 어느 실시예에서 상세하게 설명하지 않은 부분에 대해서 다른 실시예의 관련 설명을 참조할 수 있다.
도 4는 본 출원 제4 실시예에 따른 개략도이며 도 4에 나타낸 바와 같다. 본 실시예의 언어 모델의 훈련 장치(300)는 샘플링 유닛(301), 스플라이싱 유닛(302), 언어 모델(303) 및 훈련 유닛(304)을 포함할 수 있다. 여기서, 샘플링 유닛(301)은 복수의 문장 중 각각의 문장에서 한 단락의 텍스트를 각각 샘플링하여, 복수 단락의 텍스트를 얻는다; 스플라이싱 유닛(302)은 상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻는다; 언어 모델(303)은 입력된 상기 스플라이싱 텍스트를 수신하여 문장 수량의 예측 값을 출력하는데 사용한다; 훈련 유닛(304)은 상기 복수의 문장의 실제 문장 수량 및 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델(303)을 훈련한다.
이해해야 할 것은, 본 실시예의 언어 모델의 훈련 장치의 수행 주체의 부분 또는 전부는 로컬 단말기에 위치한 애플리케이션일 수 있고, 로컬 단말기에 위치한 애플리케이션에 설치한 플러그인 또는 소프트웨어 개발 키트(Software Development Kit,SDK) 등 기능 유닛일 수도 있으며, 또는 네트워크 측의 서버에 위치한 처리 엔진일 수 있으며, 본 실시예에서 특별히 제한하지 않는다.
상기 애플리케이션은 단말기에 설치된 네이티브 앱(nativeApp)일 수 있으며, 또는 단말기의 브라우저의 웹페이지 앱(webApp)일 수도 있음을 이해할 수 있으며, 본 실시예에서 제한하지 않는다.
본 실시예에서 복수의 문장 중 각각의 문장에서 샘플링된 복수 단락의 텍스트 통해, 언어 모델이 예측한 문장 수량 및 실제 문장 수량에 기반하여 상기 언어 모델을 훈련하여 훈련된 언어 모델이 전체 텍스트의 내용에 대해 인식 및 분류하는 기능을 가지도록 하여 언어 모델이 텍스트 내용에 대한 인식 효과를 향상시킨다.
또한 본 출원에서 제공하는 기술 구성을 사용하여 훈련된 언어 모델을 후속의 NLP작업에 사용 시 NLP 작업의 처리 결과의 정확도를 효과적으로 향상시킬 수 있다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 상기 샘플링 유닛(301)은 구체적으로 랜덤으로 문장 데이터 베이스에서 상기 복수의 문장을 선택하며; 상기 복수의 문장 중 각각의 문장에서 한 단락의 연속적인 텍스트를 랜덤으로 샘플링하며 상기 한 단락의 연속적인 텍스트는 적어도 하나의 문구를 포함한다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 상기 복수 단락의 텍스트의 문자 수량은 미리 설정된 문자 수량보다 크지 않다. 당해 미리 설정된 문자 수량은 상기 언어 모델이 지원할 수 있는 최대 문자 수량으로부터 설정할 수 있다. 예를 들면, 상기 미리 설정된 문자 수량은 상기 언어 모델이 지원할 수 있는 최대 문자 수량일 수 있으며; 또는 상기 미리 설정된 문자 수량은 상기 언어 모델이 지원하는 최대 문자 수량 범위 내에서 비교적 좋은 언어 인식 성능을 가지는 문자 수량일 수 있으며, 당해 문자 수량의 구체적인 값은 언어 모델의 구체적인 유형 및 성능에 따라 확정할 수 있다; 또는 상기 미리 설정된 문자 수량은 다른 방식을 사용하여 확정할 수도 있으며, 본 출원 실시예는 미리 설정된 문자 수량의 구체적인 확정 방식 및 값을 제한하지 않는다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 상기 스플라이싱 유닛(302)은 구체적으로 상기 복수 단락의 텍스트 중 문구 순서를 교란하고. 순서 교란 후의 문구를 스플라이싱하여 스플라이싱 텍스트를 얻는다.
선택적으로, 본 실시예의 가능한 구현 방식에서, 상기 언어 모델(303)은 임의의 언어 모델일 수 있으며 예를 들면, ERNIE 모델을 사용할 수 있다.
도 5는 본 출원 제5 실시예에 따른 개략도이며 도 5에 나타낸 바와 같이, 도 4에 나타낸 실시예를 기반으로 본 실시예의 언어 모델의 훈련 장치(300)는 표식 설정 유닛(401)을 더 포함할 수 있다. 표식 설정 유닛(401)은 상기 복수 단락의 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정하거나; 또는 상기 스플라이싱 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정한다.
선택적으로, 도 5를 참고하면, 본 실시예의 가능한 구현 방식에서, 상기 언어 모델(303)은 미리 설정된 훈련 완성 조건을 만족한 후,NLP 작업을 수행하여 처리 결과를 얻는데 사용할 수 있다. 이에 대응하여 상기 실시예의 언어 모델의 훈련 장치(300)는 미세 조정 유닛(402)을 더 포함할 수 있다. 미세 조정 유닛 (402)은 상기 처리 결과 및 상기 처리 결과에 대응하는 라벨링 결과 정보 사이의 차이에 따라 상기 언어 모델 (303)의 각각의 파라미터 값을 미세 조정 한다.
이해해야 할 것은, 도 1~도 3에 대응하는 실시예의 방법은 상기 도 4~도 5 실시예에서 제공하는 언어 모델의 훈련 장치에 의해 구현될 수 있다. 상세한 설명은 도 1~도 3에 대응하는 실시예의 관련 내용을 참고할 수 있으며 여기서 생략한다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체를 제공한다.
도 6은 본 출원 실시예의 언어 모델의 훈련 방법을 구현하기 위한 전자 기기의 개략도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 기술하거나 및/또는 요구하는 본 발명의 구현을 한정하려는 것이 아니다.
도 6에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(501), 메모리(502) 및 각각의 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각각의 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 수행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 (예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각각의 기기는 부분적인 필요한 조작 (예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 6에서는 하나의 프로세서(501)의 예를 들었다.
메모리(502)는 본 출원에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기록매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 출원에 의해 제공되는 언어 모델의 훈련 방법을 수행하도록 한다. 본 출원의 비 일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 기억하며 당해 컴퓨터 명령은 컴퓨터로 하여금 본 출원에 의해 제공되는 언어 모델의 훈련 방법을 수행하도록 한다.
메모리(502)는 일종의 비 일시적 컴퓨터 판독 가능 기록매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 수행 가능 프로그램 및 유닛을 기억하는데 사용될 수 있는 바, 예를 들면 본 출원 실시예의 언어 모델의 훈련 방법에 대응하는 프로그램 명령/유닛을 기억하는데 사용될 수 있다. (예를 들면, 도 4에 나타낸 샘플링 유닛(301), 스플라이싱 유닛(302), 언어 모델(303) 및 훈련 유닛(304)). 프로세서(501)는 메모리(502) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 유닛을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 상술한 방법 실시예의 언어 모델의 훈련 방법을 구현한다.
메모리(502)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 앱을 기억할 수 있고, 데이터 기억 영역은 본 출원 실시예에서 제공하는 언어 모델의 훈련 방법을 구현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(502)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(502)는 선택적으로 프로세서(501)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 본 출원 실시예에서 제공하는 언어 모델의 훈련 방법을 구현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
언어 모델의 훈련 방법의 전자 기기는 입력 장치(503) 및 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리(502), 입력 장치(503) 및 출력 장치(504)는 버스 또는 다른 방식을 통해 연결될 수 있으며 도 6에서는 버스를 통해 연결하는 예를 들었다.
입력 장치(503)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 본 출원 실시예에서 제공하는 언어 모델의 훈련 방법을 구현하는 전자 기기의 유저 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(504)는 디스플레이 기기, 보조 조명 장치(예를 들면 LED) 및 촉각 피드백 장치(예를 들면 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 기억 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 계산 프로그램 (프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 (예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 (예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치 (예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 (예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.
여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템 (예를 들면 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템 (예를 들면 응용 서버), 또는 프런트엔드 구성 요소를 포함하는 계산 시스템(예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 당해 그래픽 유저 인터페이스 또는 당해 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 (예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 수행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.
본 출원 실시예의 기술 구성에 따르면 ,복수의 문장 중 각각의 문장에서 샘플링한 복수 단락의 텍스트를 통해 언어 모델이 예측한 문장 수량 및 실제 문장 수량에 기반하여 상기 언어 모델을 훈련하여 훈련된 언어 모델이 전체 텍스트의 내용에 대해 인식 및 분류하는 기능을 가지도록 하여 언어 모델이 텍스트 내용에 대한 인식 효과를 향상시킨다.
또한 본 출원에서 제공하는 기술 구성을 사용하여 훈련된 언어 모델을 후속 NLP작업에 사용시 NLP작업의 처리 결과의 정확도를 효과적으로 향상시킨다.
상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각각의 단계는 병렬로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 구성이 원하는 결과를 구현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 수행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (15)

  1. 복수의 문장 중의 각각의 문장에서 한 단락씩 텍스트를 각각 샘플링하여, 복수 단락의 텍스트를 얻는 단계 ;
    상기 복수 단락의 텍스트를 스플라이싱(splicing)하여 스플라이싱 텍스트를 얻는 단계;
    상기 스플라이싱 텍스트를 언어 모델에 입력하여 상기 언어 모델에 의해 문장 수량의 예측 값을 출력하는 단계; 및
    상기 복수의 문장의 실제 문장 수량과 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련하는 단계;
    를 포함하는,
    언어 모델의 훈련 방법.
  2. 제1항에 있어서,
    상기 복수의 문장 중의 각각의 문장에서 한 단락씩 텍스트를 각각 샘플링하여 복수 단락의 텍스트를 얻는 단계는:
    랜덤으로 문장 데이터 베이스에서 상기 복수의 문장을 선택하는 단계;
    상기 복수의 문장 중의 각각의 문장에서 한 단락의 연속적인 텍스트를 랜덤으로 샘플링하는 단계- 상기 한 단락의 연속적인 텍스트는 적어도 하나의 문구를 포함함-;
    을 포함하는,
    언어 모델의 훈련 방법.
  3. 제1항에 있어서,
    상기 복수 단락의 텍스트의 문자 수량은 미리 설정된 문자 수량보다 많지 않은,
    언어 모델의 훈련 방법.
  4. 제1항에 있어서,
    상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻는 단계는:
    상기 복수 단락의 텍스트의 문구 순서를 교란하고, 순서 교란 후의 문구를 스플라이싱하여 스플라이싱 텍스트를 얻는
    것을 포함하는,
    언어 모델의 훈련 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 언어 모델은 지식 보강 어의 표시(ERNIE) 모델을 포함하며;
    및/또는 ,
    상기 복수 단락의 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정하는 단계; 또는,
    상기 스플라이싱 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정하는 단계;
    를 더 포함하는,
    언어 모델의 훈련 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련하는 단계의 후에:
    상기 언어 모델을 이용하여 자연어 처리 (NLP) 작업하여 처리 결과를 얻는 단계; 및
    상기 처리 결과 및 상기 처리 결과에 대응하는 라벨링 결과 정보 사이의 차이에 기반하여, 상기 언어 모델의 각각의 파라미터 값을 미세 조정하는 단계;
    를 더 포함하는,
    언어 모델의 훈련 방법.
  7. 복수의 문장 중의 각각의 문장에서 한 단락씩 텍스트를 각각 샘플링하여 복수 단락의 텍스트를 얻는 샘플링 유닛;
    상기 복수 단락의 텍스트를 스플라이싱하여 스플라이싱 텍스트를 얻는 스플라이싱 유닛;
    입력된 상기 스플라이싱 텍스트를 수신하여 문장 수량의 예측 값을 출력하는 언어 모델; 및
    상기 복수의 문장의 실제 문장 수량 및 상기 문장 수량의 예측 값에 기반하여 미리 설정된 훈련 완성 조건을 만족할 때까지 상기 언어 모델을 훈련하는 훈련 유닛;
    을 포함하는,
    언어 모델의 훈련 장치.
  8. 제7항에 있어서,
    상기 샘플링 유닛은:
    랜덤으로 문장 데이터 베이스에서 상기 복수의 문장을 선택하며;
    상기 복수의 문장 중의 각각의 문장에서 한 단락의 연속적인 텍스트를 랜덤으로 샘플링하며, 상기 한 단락의 연속적인 텍스트는 적어도 하나의 문구를 포함하는
    언어 모델의 훈련 장치.
  9. 제7항에 있어서,
    상기 복수 단락의 텍스트의 문자 수량은 미리 설정된 문자 수량보다 많지 않은
    언어 모델의 훈련 장치.
  10. 제7항에 있어서,
    상기 스플라이싱 유닛은:
    상기 복수 단락의 텍스트 중 문구의 순서를 교란하고, 순서 교란 후의 문구를 스플라이싱하여 스플라이싱 텍스트를 얻는,
    언어 모델의 훈련 장치.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 언어 모델은 지식 보강 어의 표시(ERNIE) 모델을 포함하고; 및/또는,
    상기 장치는 표식 설정 유닛을 더 포함하며,
    상기 표식 설정 유닛은:
    상기 복수 단락의 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정하거나; 또는,
    상기 스플라이싱 텍스트 중 각각의 문구의 문구 표식을 통일적인 미리 설정된 표식으로 설정하는,
    언어 모델의 훈련 장치.
  12. 제7항 내지 제11항 중 어느 한 항에 있어서,
    상기 언어 모델이 미리 설정된 훈련 완성 조건을 만족한 후 자연어 처리(NLP) 작업을 수행하여 처리 결과를 얻으며;
    상기 장치는 미세 조정 유닛을 더 포함하며,
    상기 미세 조정 유닛은 상기 처리 결과 및 상기 처리 결과에 대응하는 라벨링 결과 정보 사이의 차이에 따라 상기 언어 모델 중 각각의 파라미터 값을 미세 조정하는,
    언어 모델의 훈련 장치.
  13. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
    전자 기기.
  14. 컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
    기록 매체.
  15. 비 일시적 컴퓨터 판독 가능 기록 매체에 기억되어 있는 프로그램에 있어서,
    상기 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
    프로그램.
KR1020210077685A 2020-06-19 2021-06-15 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 KR20210157342A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010564636.4A CN111859982B (zh) 2020-06-19 2020-06-19 语言模型的训练方法、装置、电子设备及可读存储介质
CN202010564636.4 2020-06-19

Publications (1)

Publication Number Publication Date
KR20210157342A true KR20210157342A (ko) 2021-12-28

Family

ID=72987591

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210077685A KR20210157342A (ko) 2020-06-19 2021-06-15 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체

Country Status (5)

Country Link
US (1) US20210397791A1 (ko)
EP (1) EP3926514A1 (ko)
JP (1) JP7179123B2 (ko)
KR (1) KR20210157342A (ko)
CN (1) CN111859982B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102618219B1 (ko) 2023-07-03 2023-12-27 주식회사 렛서 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을미세 조정하는 방법 및 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을 미세 조정하기 위한 전자 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699216A (zh) * 2020-12-28 2021-04-23 平安科技(深圳)有限公司 端到端的语言模型预训练方法、系统、设备及存储介质
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置
CN114943228B (zh) * 2022-06-06 2023-11-24 北京百度网讯科技有限公司 端到端敏感文本召回模型的训练方法、敏感文本召回方法
CN115033678A (zh) * 2022-08-09 2022-09-09 北京聆心智能科技有限公司 一种对话模型训练方法、装置及设备
CN115310425B (zh) * 2022-10-08 2023-01-03 浙江浙里信征信有限公司 基于政策文本分类和关键信息识别的政策文本分析方法
CN115630630B (zh) * 2022-10-25 2024-02-13 北京百度网讯科技有限公司 语言模型处理方法、业务处理方法、装置、设备及介质

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262039A1 (en) * 2004-05-20 2005-11-24 International Business Machines Corporation Method and system for analyzing unstructured text in data warehouse
US9690804B2 (en) * 2010-05-28 2017-06-27 Rakuten, Inc. Information processing device, information processing method, information processing program, and recording medium
JP6011856B2 (ja) 2012-11-09 2016-10-19 日本電信電話株式会社 文書間関係推定モデル学習装置、文書間関係推定装置、方法、及びプログラム
US9703783B2 (en) * 2013-03-15 2017-07-11 Yahoo! Inc. Customized news stream utilizing dwelltime-based machine learning
US20170154035A1 (en) * 2014-07-23 2017-06-01 Nec Corporation Text processing system, text processing method, and text processing program
US20190332619A1 (en) * 2014-08-07 2019-10-31 Cortical.Io Ag Methods and systems for mapping data items to sparse distributed representations
EP3203383A4 (en) * 2014-10-01 2018-06-20 Hitachi, Ltd. Text generation system
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
US10445356B1 (en) * 2016-06-24 2019-10-15 Pulselight Holdings, Inc. Method and system for analyzing entities
US10776434B1 (en) * 2016-11-16 2020-09-15 First American Financial Corporation System and method for document data extraction, data indexing, data searching and data filtering
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
KR101851890B1 (ko) * 2017-01-13 2018-06-07 군산대학교산학협력단 디지털 컨텐츠를 분석하는 방법
US11263523B1 (en) * 2017-01-27 2022-03-01 Manzama, Inc. System and method for organizational health analysis
US10713432B2 (en) * 2017-03-31 2020-07-14 Adobe Inc. Classifying and ranking changes between document versions
KR102071582B1 (ko) * 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
US11100144B2 (en) * 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
US10740560B2 (en) * 2017-06-30 2020-08-11 Elsevier, Inc. Systems and methods for extracting funder information from text
US11574287B2 (en) * 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US10789942B2 (en) * 2017-10-24 2020-09-29 Nec Corporation Word embedding system
US10891943B2 (en) * 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
US10515149B2 (en) * 2018-03-30 2019-12-24 BlackBoiler, LLC Method and system for suggesting revisions to an electronic document
JP2019200494A (ja) * 2018-05-14 2019-11-21 富士通株式会社 表示プログラム、表示方法および表示装置
US20200125671A1 (en) * 2018-10-17 2020-04-23 International Business Machines Corporation Altering content based on machine-learned topics of interest
US10831793B2 (en) * 2018-10-23 2020-11-10 International Business Machines Corporation Learning thematic similarity metric from article text units
US11416534B2 (en) 2018-12-03 2022-08-16 Fujitsu Limited Classification of electronic documents
US20200184016A1 (en) 2018-12-10 2020-06-11 Government Of The United States As Represetned By The Secretary Of The Air Force Segment vectors
JP7077265B2 (ja) * 2019-05-07 2022-05-30 株式会社東芝 文書解析装置、学習装置、文書解析方法および学習方法
KR20200135607A (ko) * 2019-05-22 2020-12-03 삼성전자주식회사 학습 네트워크 모델 기반의 언어 처리 방법 및 장치
CN110188360B (zh) * 2019-06-06 2023-04-25 北京百度网讯科技有限公司 模型训练方法和装置
US11526804B2 (en) * 2019-08-27 2022-12-13 Bank Of America Corporation Machine learning model training for reviewing documents
US11508173B2 (en) * 2019-10-30 2022-11-22 Adobe Inc. Machine learning prediction and document rendering improvement based on content order
US11797594B2 (en) * 2019-12-09 2023-10-24 Verint Americas Inc. Systems and methods for generating labeled short text sequences
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质
CN111125364B (zh) 2019-12-24 2023-04-25 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法
CN111259112B (zh) * 2020-01-14 2023-07-04 北京百度网讯科技有限公司 医疗事实的验证方法和装置
US11416684B2 (en) * 2020-02-06 2022-08-16 Adobe Inc. Automated identification of concept labels for a set of documents
US20210342737A1 (en) * 2020-05-01 2021-11-04 EMC IP Holding Company LLC Ai/ml based proactive system to improve sales productivity by categorizing and determining relevant news

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102618219B1 (ko) 2023-07-03 2023-12-27 주식회사 렛서 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을미세 조정하는 방법 및 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을 미세 조정하기 위한 전자 장치

Also Published As

Publication number Publication date
JP2022002088A (ja) 2022-01-06
EP3926514A1 (en) 2021-12-22
JP7179123B2 (ja) 2022-11-28
CN111859982A (zh) 2020-10-30
US20210397791A1 (en) 2021-12-23
CN111859982B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
US20210390943A1 (en) Method And Apparatus For Training Model, Method And Apparatus For Synthesizing Speech, Device And Storage Medium
EP3916612A1 (en) Method and apparatus for training language model based on various word vectors, device, medium and computer program product
US20210390260A1 (en) Method, apparatus, device and storage medium for matching semantics
US11526668B2 (en) Method and apparatus for obtaining word vectors based on language model, device and storage medium
EP3851977A1 (en) Method, apparatus, electronic device, and storage medium for extracting spo triples
JP7159248B2 (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
EP3822842A2 (en) Method and apparatus for generating semantic representation model, electronic device, and storage medium
KR102472708B1 (ko) 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기
CN110674314A (zh) 语句识别方法及装置
EP3929768A1 (en) Method and apparatus for generating triple sample, electronic device and computer storage medium
US11775766B2 (en) Method and apparatus for improving model based on pre-trained semantic model
CN111078878B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN111127191B (zh) 风险评估方法及装置
US11704326B2 (en) Generalization processing method, apparatus, device and computer storage medium
JP2021114284A (ja) 句読点予測方法および装置
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
EP3869382A2 (en) Method and device for determining answer of question, storage medium and computer program product
US11562150B2 (en) Language generation method and apparatus, electronic device and storage medium
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
CN112100335B (zh) 问题生成方法、模型训练方法、装置、设备和存储介质
CN111651988B (zh) 用于训练模型的方法、装置、设备以及存储介质
CN111859981B (zh) 语言模型获取及中文语义理解方法、装置及存储介质