KR20210067852A - 문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210067852A
KR20210067852A KR1020200076413A KR20200076413A KR20210067852A KR 20210067852 A KR20210067852 A KR 20210067852A KR 1020200076413 A KR1020200076413 A KR 1020200076413A KR 20200076413 A KR20200076413 A KR 20200076413A KR 20210067852 A KR20210067852 A KR 20210067852A
Authority
KR
South Korea
Prior art keywords
training
model
question
task
fine
Prior art date
Application number
KR1020200076413A
Other languages
English (en)
Other versions
KR102396936B1 (ko
Inventor
홍위 리
징 리우
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210067852A publication Critical patent/KR20210067852A/ko
Application granted granted Critical
Publication of KR102396936B1 publication Critical patent/KR102396936B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

본원은 문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체를 개시하며, 딥 런닝 영역에 관한 것인 바, 여기서 상기 방법은, 서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻는 것 - 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응됨 - ; 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행하여 N개의 미세 조정 모델을 얻는 것; 및 N개의 미세 조정 모델에 기반하여 최종적으로 필요로 하는 문답 독해 모델을 확정하는 것을 포함한다. 본원의 상기 방안을 적용함으로써, 모델의 일반화 능력 등이 향상될 수 있다.

Description

문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체 {METHOD, DEVICE, ELECTRONIC DEVICE AND STORAGE MEDIUM FOR ACQUIRING READING COMPREHENSION MODEL}
본원은 컴퓨터 응용 기술에 관한 것인 바, 특히 딥 러닝(deep learning)영역의 문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.
문답 독해 기술이란, 하나 또는 복수의 단락(P) 및 하나의 문제(Q)가 주어지면, 기계 학습의 방법을 이용하여 모델로 하여금 답안(A)을 예측하도록 하는 기술을 가리킨다.
현재의 문답 독해 모델은 대부분 사전 훈련 - 미세 조정 방식을 통해 취득하는 바, 즉 우선 하나의 모델 구조를 선정하고, 이어서 대량의 출처가 단일한 비지도 훈련 데이터 상에서 사전 훈련을 수행하며, 그 후 지도 훈련 데이터를 사용하여 단일한 문답 독해 태스크 상에서 미세 조정을 수행함으로써, 최종적으로 필요로 하는 문답 독해 모델을 얻는다.
하지만, 상술한 방식의 모델 구조 및 훈련 태스크가 단일하여, 모델의 일부 공통 특징의 학습을 어렵게 하며, 모델의 일반화 능력의 약화 등을 초래한다.
이에 따라, 본원은 문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체를 제공한다.
문답 독해 모델 취득 방법에 있어서,
서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻는 것 - 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응됨 - ;
각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행하여 N개의 미세 조정 모델을 얻는 것; 및
상기 N개의 미세 조정 모델에 기반하여 상기 문답 독해 모델을 확정하는 것을 포함한다.
본원의 바람직한 일 실시예에 있어서, 상기 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하는 것은,
임의의 모델에 대해 각각 적어도 두 개의 서로 다른 소정 영역으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하는 것을 포함한다.
본원의 바람직한 일 실시예에 있어서,
임의의 사전 훈련 모델에 대해, 각각 상기 사전 훈련 모델에 대응하는 훈련 태스크에 따라, 적어도 하나의 소정 영역으로부터의 비지도 훈련 데이터를 이용하여, 상기 사전 훈련 모델에 대해 딥 사전 훈련을 수행하여, 강화된 사전 훈련 모델을 얻는 것을 더 포함하며,
여기서, 상기 딥 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터와 상기 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 서로 다른 영역으로부터의 데이터이다.
본원의 바람직한 일 실시예에 있어서, 상기 미세 조정을 수행하는 것은,
임의의 사전 훈련 모델에 대해, 미세 조정의 각 단계에서, 각각 상기 프라이머리 태스크 및 상기 세컨더리 태스크 중에서 하나의 태스크를 선택하여 훈련을 수행하고, 모델 파라미터를 업데이트하는 것을 포함하며,
여기서, 상기 프라이머리 태스크가 선택되는 횟수는 임의의 세컨더리 태스크가 선택되는 횟수보다 많다.
본원의 바람직한 일 실시예에 있어서, 상기 상기 N개의 미세 조정 모델에 기반하여 상기 문답 독해 모델을 확정하는 것은,
지식 증류 기술을 이용하여, 상기 N개의 미세 조정 모델을 하나의 단일 모델로 압축하여, 상기 단일 모델을 상기 문답 독해 모델로 설정하는 것을 포함한다.
문답 독해 모델 취득 장치에 있어서, 제1 사전 훈련 유닛, 미세 조정 유닛 및 융합 유닛을 구비하며,
상기 제1 사전 훈련 유닛은, 서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻으며, 여기서, 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응되며,
상기 미세 조정 유닛은, 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행하여 N개의 미세 조정 모델을 얻으며,
상기 융합 유닛은, 상기 N개의 미세 조정 모델에 기반하여 상기 문답 독해 모델을 확정한다.
본원의 바람직한 일 실시예에 있어서, 상기 제1 사전 훈련 유닛은, 임의의 모델에 대해 각각 적어도 두 개의 서로 다른 소정 영역으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련을 수행한다.
본원의 바람직한 일 실시예에 있어서, 제2 사전 훈련 유닛을 더 구비하며,
상기 제2 사전 훈련 유닛은, 임의의 사전 훈련 모델에 대해, 각각 상기 사전 훈련 모델에 대응하는 훈련 태스크에 따라, 적어도 하나의 소정 영역으로부터의 비지도 훈련 데이터를 이용하여, 상기 사전 훈련 모델에 대해 딥 사전 훈련을 수행하여, 강화된 사전 훈련 모델을 얻으며, 여기서, 상기 딥 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터와 상기 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 서로 다른 영역으로부터의 데이터이다.
본원의 바람직한 일 실시예에 있어서, 임의의 사전 훈련 모델에 대해, 상기 미세 조정 유닛이 미세 조정을 수행하는 각 단계에서, 각각 상기 프라이머리 태스크 및 상기 세컨더리 태스크 중에서 하나의 태스크를 선택하여 훈련을 수행하며, 모델 파라미터를 업데이트 하며, 여기서, 상기 프라이머리 태스크가 선택되는 횟수는 임의의 세컨더리 태스크가 선택되는 횟수보다 많다.
본원의 바람직한 일 실시예에 있어서, 상기 융합 유닛은, 지식 증류 기술을 이용하여, 상기 N개의 미세 조정 모델을 하나의 단일 모델로 압축하여, 상기 단일 모델을 상기 문답 독해 모델로 설정한다.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행됨으로써, 상기 적어도 하나의 프로세서로 하여금 상기의 방법을 수행할 수 있도록 한다.
컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서, 상기 컴퓨터 명령은 상기 컴퓨터가 상기의 방법을 수행하도록 한다.
상술한 본원의 하나의 실시예는 아래와 같은 이점 또는 유익한 효과를 갖는다. 서로 다른 구조의 여러 종류의 모델을 채택하여 사전 훈련을 수행함으로써 모델 구조가 단일한 문제를 해결하였고, 미세 조정 단계에서 문답 독해 태스크 외에 기타 자연 언어 처리 태스크를 세컨더리 태스크로 추가하여, 훈련 태스크를 풍부하게 할뿐만 아니라, 더욱 많은 훈련 데이터를 이용함으로써, 최종적으로 얻은 문답 독해 모델이 더욱 공통적인 특징을 학습할 수 있도록 하여, 모델의 일반화 능력 등을 향상시켰으며; 또한, 사전 훈련 단계에서 서로 다른 영역으로부터의 비지도 훈련 데이터를 이용하여 모델에 대해 사전 훈련을 수행할 수 있음으로써, 데이터 출처를 풍부하게 하여, 모델의 영역 적응성 등을 강화하였으며; 또한, 사전 훈련의 계산 비용이 크고, 시간이 많이 걸리기에, 훈련 데이터가 각 영역을 전면적으로 커버하지 못하므로, 사전 훈련 단계에서 부족한 데이터 영역을 보충하기 위하여, 복수의 영역 상에서 사전 훈련 모델에 대해 더 한 층의 딥 사전 훈련을 타깃적으로 수행함으로써, 모델의 이러한 영역에서의 적응성 등을 더 한층 증강시킬 수 있다. 상술한 옵션의 방식이 구비하는 기타 효과는 아래에서 구체적인 실시예를 참고하여 설명한다.
도면은 본 방안을 더욱 잘 이해되도록 하는 바, 본원을 한정하지 않는다. 여기서,
도 1은 본원에 기재된 문답 독해 모델 취득 방법의 제1 실시예의 플로우 차트이고;
도 2는 본원에 기재된 문답 독해 모델 취득 방법의 제2 실시예의 플로우 차트이며;
도 3은 본원에 기재된 문답 독해 모델 취득 장치(300)의 실시예의 구성의 개략적인 구조도이고;
도 4는 본원 실시예에 따른 방법의 전자 기기의 블럭도이다.
이하, 이해를 용이하게 하기 위하여, 도면을 참조하여 본원 실시예의 다양한 세부 사항을 포함하는 본원의 예시적인 실시예를 설명하는 바, 이들을 단지 예시적인 것으로 간주하여야 한다. 따라서, 당업자는 여기서 설명되는 실시예에 대해 여러가지 변형과 수정을 이룰 수 있으며, 이들은 본원의 법위와 정신을 벗어나지 않음을 인식해야 한다. 마찬가지로, 명확성과 간결성을 위하여 이하의 설명에서는 공지된 기능과 구조에 대한 설명을 생략한다.
또한, 본 명세서 중의 용어인 "및/또는"은 단지 관련 대상의 관련 관계를 설명하는 바, 예를 들면, A및/또는 B는 A가 단독으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독으로 존재하는 이러한 세가지 관계를 나타냄을 이해해야 한다. 또한, 본 명세서 중의 문자인 “/”는 일반적으로 전호 관련 대상이 “또는”의 관계인 것을 나타낸다.
도 1은 본원에 기재된 문답 독해 모델 취득 방법의 제1 실시예의 플로우 차트이다. 도 1에 나타낸 바와 같이, 당해 방법은 이하의 구체적인 실현 방식을 포함한다.
101에 있어서, 서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻으며, 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응된다.
102에 있어서, 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행하여 N개의 미세 조정 모델을 얻는다.
103에 있어서, N개의 미세 조정 모델에 기반하여 최종적으로 필요로 하는 문답 독해 모델을 확정한다.
본 실시예에 있어서, 사전 훈련 단계에 있어서, 복수의 서로 다른 구조의 모델을 채택할 수 있는 바, 변환기로부터의 양방향 코딩 표현(BERT, BidirectioNal ENcoder RepreseNtatioNs from TraNsformers)모델, XL-Net 모델 및 지식 통합 중의 증강 표현(ERNIE, ENhaNced RepreseNtatioN from kNowledge INtEgratioN)모델 등을 포함하나 이에 한정되지 않는다. 상기 서로 다른 구조의 N개의 모델은 각각 어떠한 모델인지는 실제 수요에 따라 정해질 수 있으며, N의 구체적인 값은 실제 수요에 따라 정해질 수 있다.
바람직하게는, 임의의 모델에 대해 각각 적어도 두 개의 서로 다른 소정 영역으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련을 수행할 수 있다. 상기 서로 다른 소정 영역은 네트워크, 교과서, 소설, 재무 보고서 등을 포함하나 이에 한정되지 않으며, 이에 의해 데이터 출처를 풍부하게 하여, 모델의 영역 적응성 등을 향상시킨다.
서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응되며, 상기 사전 훈련 태스크는 관련성 예측, 언어 모델 등을 포함하나 이에 한정되지 않는다.
사전 훈련을 수행할 때, 임의의 모델에 대해 우선 모델 파라미터를 랜덤으로 초기화한 후, 대응하는 사전 훈련 태스크에 따라, 대응하는 비지도 훈련 데이터를 이용하여 특정의 라운드 수를 훈련함으로써, 복수의 사전 훈련 모델을 얻을 수 있으며, 구체적인 실현은 기존 기술을 채택할 수 있다.
예를 들면, 모델 a에 대응하는 사전 훈련 태스크가 사전 훈련 태스크 a일 경우, 영역1, 영역2 및 영역3으로부터의 비지도 훈련 데이터를 이용하여, 모델 a에 대해 사전 훈련을 수행하여, 사전 훈련 모델 a를 얻을 수 있으며; 모델 b에 대응하는 사전 훈련 태스크가 사전 훈련 태스크 b일 경우, 영역1, 영역2 및 영역3으로부터의 비지도 훈련 데이터를 이용하여, 모델 b에 대해 사전 훈련을 수행하여, 사전 훈련 모델 b를 얻을 수 있으며; 모델 c에 대응하는 사전 훈련 태스크가 사전 훈련 태스크 c일 경우, 영역1, 영역2 및 영역3으로부터의 비지도 훈련 데이터를 이용하여, 모델 c에 대해 사전 훈련을 수행하여, 사전 훈련 모델 c를 얻을 수 있으며; 이에 따라, 합계 3개의 사전 훈련 모델을 얻을 수 있다.
사전 훈련의 계산 비용이 크고, 시간이 많이 걸리기에, 훈련 데이터가 각 영역을 전면적으로 커버하지 못하므로, 사전 훈련 단계에서 부족한 데이터 영역을 보충하기 위하여, 복수의 영역 상에서 사전 훈련 모델에 대해 더 한 층의 딥 사전 훈련을 타깃적으로 수행함으로써, 모델의 이러한 영역에서의 적응성 등을 더 한층 증강시킬 수 있다.
이에 따라, 임의의 사전 훈련 모델에 대해, 각각 당해 사전 훈련 모델에 대응하는 훈련 태스크에 따라(즉 사전 훈련 때 대응되는 사전 훈련 태스크임), 적어도 하나의 소정 영역으로부터의 비지도 훈련 데이터를 이용하여, 당해 사전 훈련 모델에 대해 딥 사전 훈련을 수행함으로써, 강화된 사전 훈련 모델을 얻을 수 있으며, 여기서, 딥 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터와 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 서로 다른 영역으로부터의 데이터이다.
예를 들면, 사전 훈련 모델 a의 경우, 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 영역1, 영역2 및 영역3으로부터의 데이터이고, 딥 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 영역4으로부터의 데이터이며, 영역4는 최종적으로 얻은 문답 독해 모델에 적용하려는 영역 등일 수 있다. 사전 훈련 단계는 대량의 비지도 훈련 데이터를 필요로 하나, 어떤 이유로 인해 영역4에 대해 사전 훈련에 사용할 충분히 많은 비지도 훈련 데이터를 취득하지 못할 수 있다. 그러나, 영역1, 영역2 및 영역3은 모두 사전 훈련에 사용할 충분히 많은 비지도 훈련 데이터를 취득할 수 있다. 그러면, 상술한 처리 방식에 따라, 영역1, 영역2 및 영역3으로부터의 비지도 훈련 데이터를 이용하여 모델 a에 대해 사전 훈련을 수행하여 사전 훈련 모델 a를 얻은 수, 다시 영역4으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련 모델 a에 대해 딥 사전 훈련을 수행함으로써, 강화된 사전 훈련 모델 a를 얻을 수 있다.
상술한 방식에 따라, N개의 강화된 사전 훈련 모델을 얻을 수 있다. 실제 적용에 있어서, 임의의 사전 훈련 모델에 대해, 동일한 사전 훈련 태스크에 따라, 적어도 하나의 소정 영역(예를 들면 전술한 영역4)으로부터의 비지도 훈련 데이터를 이용하여 특정의 라운드 수를 훈련함으로써, 강화된 사전 훈련 모델을 얻을 수 있다.
N개의 사전 훈련 모델에 대해, 진일보로 미세 조정 처리를 수행할 수 있으며. 바람직하게는, 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행함으로써, N개의 미세 조정 모델을 얻을 수 있다.
상기 세컨더리 태스크가 구체적으로 어떠한 태스크를 포함하는지는 실제 수요에 따라 정해질 수 있다, 예를 들면 분류 태스크, 매칭 태스크 등을 포함하나 이에 한정되지 않는다.
임의의 사전 훈련 모델에 대해, 미세 조정의 각 단계에서, 각각 프라이머리 태스크 및 세컨더리 태스크 중에서 랜덤으로 하나의 태스크를 선택하여 훈련을 수행하고, 모델 파라미터를 업데이트 하며. 여기서, 프라이머리 태스크가 선택되는 횟수는 임의의 세컨더리 태스크가 선택되는 횟수보다 많다.
프라이머리 태스크 및 세컨더리 태스크가 선택되는 횟수 비율은 미리 설정될 수 있다. 예를 들면, 각각 세컨더리 태스크 1 및 세컨더리 태스크 2와 같이 합계 두 개의 세컨더리 태스크를 포함하는 것으로 가정할 경우, 프라이머리 태스크, 세컨더리 태스크 1 및 세컨더리 태스크 2가 선택되는 횟수 비율이 5: 2: 3일 수 있다.
미세 조정의 각 단계는 하나의 태스크에 각각 대응되며, 태스크가 서로 다를 경우 사용하는 훈련 데이터도 서로 다름을 알 수 있다.
미세 조정 처리를 경과한 후, N개의 미세 조정 모델을 얻을 수 있으며, 진일보로 N개의 미세 조정 모델에 기반하여 최종적으로 필요로 하는 문답 독해 모델을 확정할 수 있다.
얻어낸 N개의 미세 조정 모델이 바로 문답 독해 모델이며, 전통적인 방식에 따르면, 일반적으로 직접 모델 통합 방식을 채택하여, N개의 미세 조정 모델의 출력 확률을 평균화하여 최종적인 출력을 얻으나, 이 경우 시스템의 효율 저하를 초래하며, 소비되는 하드웨어 리소스가 증가하게 된다. 이러한 문제를 극복하기 위하여, 본 실시예에서는 지식 증류 기술을 사용하여, N개의 미세 조정 모델을 융합하여 하나의 단일 모델로 압축함으로써, 당해 단일 모델을 최종적으로 필요로 하는 문답 독해 모델로 설정하는 방안을 제안한다. 지식 증류 기술의 구체적인 실현은 기존 기술을 채택할 수 있다.
얻어낸 문답 독해 모델에 기반하여, 후속으로 문답 독해를 수행할 수 있다.
상술한 설명에 기초하여, 도 2는 본원에 기재된 문답 독해 모델 취득 방법의 제2 실시예의 플로우 차트이다. 도 2에 나타낸 바와 같이, 당해 방법은 이하의 구체적인 실현 방식을 포함한다.
201에 있어서, 서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻으며, 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응된다.
여기서, 임의의 모델에 대해 각각 적어도 두개의 서로 다른 소정 영역으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련을 수행할 수 있다.
202에 있어서, 각 사전 훈련 모델에 대해, 각각 당해 사전 훈련 모델에 대응하는 훈련 태스크에 따라, 적어도 하나의 소정 영역으로부터의 비지도 훈련 데이터를 이용하여, 당해 사전 훈련 모델에 대해 딥 사전 훈련을 수행하여, 강화된 사전 훈련 모델을 얻으며, 여기서, 딥 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터와 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 서로 다른 영역으로부터의 데이터이다.
203에 있어서, 강화된 각 사전 훈련 모델에 대해, 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 당해 모델에 대해 미세 조정을 수행하여 미세 조정 모델을 얻는다.
강화된 각 사전 훈련 모델에 대해, 미세 조정의 각 단계에서, 각각 프라이머리 태스크 및 세컨더리 태스크 중에서 랜덤으로 하나의 태스크를 선택하여 훈련을 수행하며, 모델 파라미터를 업데이트 하며. 프라이머리 태스크가 선택되는 횟수는 임의의 세컨더리 태스크가 선택되는 횟수보다 많을 수 있다.
204에 있어서, 지식 증류 기술을 이용하여, 각 미세 조정 모델을 하나의 단일 모델로 압축하여, 당해 단일 모델을 최종적으로 필요로 하는 문답 독해 모델로 설정한다.
전술한 각 방법 실시예에 대해, 설명의 간결성을 위하여, 모두 일련의 동작 조합으로 표현하였으나, 당업자는 본원은 설명된 동작의 순서에 한정되지 않으며, 이는 본원에 따르면 일부 단계는 기타 순서를 채택하거나 또는 또는 동시에 진행할 수 있음을 알 수 있다는 것을 설명할 필요가 있다. 다음으로, 당업자는 명세서에서 설명한 실시예는 모두 바람직한 실시예일 뿐, 관련된 동작 및 모듈은 본원에 반드시 필요한 것이 아님을 알아야 한다.
상술한 실시예에 있어서, 각 실시예에 대한 설명은 각각 치중하는 부분이 있으며, 어느 한 실시예에서 상세히 설명하지 않은 부분은 기타 실시예의 관련 설명을 참조할 수 있다.
총괄적으로, 본원 방법의 실시예의 상기 방안을 채택하면, 서로 다른 구조의 여러 종류의 모델을 채택하여 사전 훈련을 수행함으로써 모델 구조가 단일한 문제를 해결하였고, 미세 조정 단계에서 문답 독해 태스크 외에 기타 자연 언어 처리 태스크를 세컨더리 태스크로 추가하여, 훈련 태스크를 풍부하게 할뿐만 아니라, 더욱 많은 훈련 데이터를 이용함으로써, 최종적으로 얻은 문답 독해 모델이 더욱 공통적인 특징을 학습할 수 있도록 하여, 모델의 일반화 능력 등을 향상시켰으며; 또한, 사전 훈련 단계에서 서로 다른 영역으로부터의 비지도 훈련 데이터를 이용하여 모델에 대해 사전 훈련을 수행할 수 있음으로써, 데이터 출처를 풍부하게 하여, 모델의 영역 적응성 등을 강화하였으며; 또한, 사전 훈련의 계산 비용이 크고, 시간이 많이 걸리기에, 훈련 데이터가 각 영역을 전면적으로 커버하지 못하므로, 사전 훈련 단계에서 부족한 데이터 영역을 보충하기 위하여, 복수의 영역 상에서 사전 훈련 모델에 대해 더 한 층의 딥 사전 훈련을 타깃적으로 수행함으로써, 모델의 이러한 영역에서의 적응성 등을 더 한층 증강시킬 수 있다.
이상은 방법 실시예에 관한 설명이며, 이하 장치 실시예를 통해 본원에 기재된 방안을 진일보 설명하기로 한다.
도 3은 본원에 기재된 문답 독해 모델 취득 장치(300)의 실시예의 구성의 개략적인 구조도이다. 도 3에 나타낸 바와 같이, 당해 장치는 제1 사전 훈련 유닛(301), 미세 조정 유닛(303) 및 융합 유닛(304)을 구비한다.
제1 사전 훈련 유닛(301)은, 서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻으며, 여기서 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응된다.
미세 조정 유닛(303)은, 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행하여 N개의 미세 조정 모델을 얻는다.
융합 유닛(304)은, N개의 미세 조정 모델에 기반하여 최종적으로 필요로 하는 문답 독해 모델을 확정한다.
본 실시예에 있어서, 복수의 서로 다른 구조의 모델을 채택할 수 있다. 제1 사전 훈련 유닛(301)은 임의의 모델에 대해 각각 적어도 두 개의 서로 다른 소정 영역으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련을 수행할 수 있다.
상기 서로 다른 소정 영역은 네트워크, 교과서, 소설, 재무 보고서 등을 포함하나 이에 한정되지 않는다. 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응되며, 상기 사전 훈련 태스크는 관련성 예측, 언어 모델 등을 포함하나 이에 한정되지 않는다.
도 3에 나타낸 장치는 제2 사전 훈련 유닛(302)을 더 구비할 수 있으며, 당해 제2 사전 훈련 유닛(302)은 임의의 사전 훈련 모델에 대해, 각각 당해 사전 훈련 모델에 대응하는 훈련 태스크에 따라, 적어도 하나의 소정 영역으로부터의 비지도 훈련 데이터를 이용하여, 당해 사전 훈련 모델에 대해 딥 사전 훈련을 수행하여, 강화된 사전 훈련 모델을 얻으며, 여기서, 딥 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터와 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 서로 다른 영역으로부터의 데이터이다.
미세 조정 유닛(303)은 얻어낸 N개의 사전 훈련 모델에 대해 진일보로 미세 조정을 수행할 수 있으며, 예를 들면 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행함으로써, N개의 미세 조정 모델을 얻을 수 있다.
바람직하게는, 미세 조정 유닛(303)은 임의의 사전 훈련 모델에 대해, 미세 조정의 각 단계에서, 각각 프라이머리 태스크 및 세컨더리 태스크 중에서 하나의 태스크를 선택하여 훈련을 수행하고, 모델 파라미터를 업데이트 하며, 여기서, 프라이머리 태스크가 선택되는 횟수는 임의의 세컨더리 태스크가 선택되는 횟수보다 많다. 상기 세컨더리 태스크가 구체적으로 어떠한 태스크를 포함하는지는 실제 수요에 따라 정해질 수 있다, 예를 들면 분류 태스크, 매칭 태스크 등을 포함하나 이에 한정되지 않는다.
진일보로, 융합 유닛(304)은 지식 증류 기술을 이용하여, N개의 미세 조정 모델을 하나의 단일 모델로 압축하여, 당해 단일 모델을 최종적으로 필요로 하는 문답 독해 모델로 설정할 수 있다.
도 3에 나타낸 장치 실시예의 구체적인 동작 과정은 전술한 방법 실시예 중의 관련 설명을 참조할 수 있는 바, 더 이상 설명하지 않는다.
총괄적으로, 본 실시예에서 서로 다른 구조의 여러 종류의 모델을 채택하여 사전 훈련을 수행함으로써 모델 구조가 단일한 문제를 해결하였고, 미세 조정 단계에서 문답 독해 태스크 외에 기타 자연 언어 처리 태스크를 세컨더리 태스크로 추가하여, 훈련 태스크를 풍부하게 할뿐만 아니라, 더욱 많은 훈련 데이터를 이용함으로써, 최종적으로 얻은 문답 독해 모델이 더욱 공통적인 특징을 학습할 수 있도록 하여, 모델의 일반화 능력 등을 향상시켰으며; 또한, 사전 훈련 단계에서 서로 다른 영역으로부터의 비지도 훈련 데이터를 이용하여 모델에 대해 사전 훈련을 수행할 수 있음으로써, 데이터 출처를 풍부하게 하여, 모델의 영역 적응성 등을 강화하였으며; 또한, 사전 훈련의 계산 비용이 크고, 시간이 많이 걸리기에, 훈련 데이터가 각 영역을 전면적으로 커버하지 못하므로, 사전 훈련 단계에서 부족한 데이터 영역을 보충하기 위하여, 복수의 영역 상에서 사전 훈련 모델에 대해 더 한 층의 딥 사전 훈련을 타깃적으로 수행함으로써, 모델의 이러한 영역에서의 적응성 등을 더 한층 증강시킬 수 있다.
본원의 실시예에 따르면, 본원은 전자 기기와 판독 가능 저장 매체를 더 제공한다.
도 4에 나타낸 바와 같이, 도 4는 본원 실시예에 따른 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낼 수 있다. 전자 기기는 또한 개인 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계, 및 이들의 기능은 단지 예일뿐이며, 본 명세서 중의 설명 및/또는 요구하는 본원의 실현을 한정하려는 것이 아니다.
도 4에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(Y01), 메모리(Y02), 및 고속 인터페이스와 저속 인터페이스를 포함하는 각 구성 요소를 연결하기 위한 인터페이스를 구비한다. 각 구성 요소는 서로 다른 버스를 이용하여 서로 연결되며, 공통 마더 보드에 장착하거나 필요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 수행되는 명령을 처리하며, 당해 명령은 메모리 내 또는 메모리 상에 저장되어, 외부 입력/출력 장치(예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 그래픽 사용자 화면을 디스플레이하기 위한 그래픽 정보의 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기(예를 들면, 서버 어레이, 블레이드 서버 그룹, 또는 멀티 프로세서 시스템을 연결함)를 연결할 수 있으며, 각 기기는 필요한 일부 동작을 제공한다. 도 4에서는 하나의 프로세서(Y01)의 예를 든다.
메모리(Y02)는 본원에 의해 제공되는 비 일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행되는 명령이 저장되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본원에 의해 제공되는 방법을 수행하도록 한다. 본원의 비 일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 본원에 의해 제공되는 방법을 수행하도록 한다.
메모리(Y02)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 본원 실시예 중의 방법에 대응하는 프로그램 명령/모듈(예를 들면, 도면 X에 나타낸 xx 모듈 X01, xx 모듈 x02 및 xx 모듈 x03)과 같은, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(Y01)는 메모리(Y02) 내에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 각 기능 애플리케이션 및 데이터 처리를 수행하는 바, 즉 상술한 방법 실시예 중의 방법을 실현한다.
메모리(Y02)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있으며, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있으며; 데이터 저장 영역은 전자 기기의 사용에 따라 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(Y02)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 비 일시적 메모리를 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 메모리 장치, 플래시 메모리 장치, 또는 기타 비 일시적 고체 메모리 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(Y02)는 프로세서(Y01)에 대해 원격 설치된 메모리를 선택적으로 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 전자 기기에 연결된다. 상술한 네트워크의 예는 인터넷, 인트라넷, 근거리 네트워크, 모바일 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
전자 기기는 입력 장치(Y03)와 출력 장치(Y04)를 더 구비할 수 있다. 프로세서(Y01), 메모리(Y02), 입력 장치(Y03) 및 출력 장치(Y04)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 4에서는 버스를 통해 연결한 예를 든다.
입력 장치(Y03)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 또한 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 당해 입력 장치는 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나의 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등과 같은 입력 장치일 수 있다. 출력 장치(Y04)는 디스플레이 기기, 보조 조명 장치 및 햅틱 피드백 장치(예를 들면 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이, 발광 다이오드 디스플레이 및 플라즈마 디스플레이를 포함하나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명되는 시스템과 기술의 각 실시 방식은, 디지털 전자 회로 시스템, 직접 회로 시스템, 전용 직접 회로, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 실현될 수 있다. 이러한 각 실시 방식은 하나의 또는 복수의 컴퓨터 프로그램 중에서 실시되며, 당해 하나의 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 공통 프로그램 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신할 수 있으며, 또한 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 계산 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)는 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 예를 들면 본 명세서에서 사용되는 용어인 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들면, 자기 디스크, 광학 디스크, 메모리, 프로그램 가능 논리 장치)를 가리키며, 기계 판독 가능 신호로 수신하는 기계 명령의 기계 판독 가능 매체를 포함한다. 용어인 “기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 신호를 가리킨다.
사용자와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명되는 시스템과 기술을 실시할 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이 하기 위한 디스플레이 장치(예를 들면, 음극선 관 또는 액정 디스플레이 모니터); 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 사용자는 당해 키보드와 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치는 또한 사용자와의 대화를 제공할 수 있는 바; 예를 들면, 사용자에게 제공하는 피드백은 임의의 형식의 감각 피드백(예를 들면, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 또한 임의의 형식(음향 입력, 음성 입력 또는 촉각 입력)을 통해 사용자의 입력을 수신할 수 있다.
여기서 설명하는 시스템과 기술을, 백엔드 구성 요소를 포함하는 계산 시스템(예를 들면, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템(예를 들면, 애플리케이션 서버), 또는 프런트 엔드 구성 요소를 포함하는 계산 시스템(예를 들면, 그래픽 사용자 화면 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터임, 사용자는 당해 그래픽 사용자 화면 또는 당해 네트워크 브라우저를 통해 여기서 설명하는 시스템과 기술의 실시 방식과 대화할 수 있음), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트 엔드 구성 요소를 포함하는 임의의 조합의 계산 시스템에서 실시할 수 있다. 임의의 형식 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 서로 연결할 수 있다. 통신 네트워크의 예는 근거리 네트워크, 광역 통신망 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 대화한다. 해당하는 컴퓨터 상에서 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 수행하여 클라이언트와 서버의 관계를 구현한다.
상기에 나타낸 각 형식의 프로세스를 사용하여 단계를 재정렬, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본원에 기재된 각 단계는 병렬, 순차적 또는 서로 다른 순서로 수행될 수 있으며, 본원에 개시된 기술 방안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본원의 보호 범위에 대한 한정을 구성하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 변형, 조합, 하위 조합 및 치환이 이루어질 수 있음을 이해해야 한다. 본원의 정신 및 원칙 내에서 이루어진 어떠한 변경, 동등한 대체 및 개량 등은 모두 본원의 보호 범위 내에 포함된다.

Claims (13)

  1. 문답 독해 모델 취득 방법에 있어서,
    서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련(unsupervised training) 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻는 것 - 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응됨 - ;
    각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도훈련(supervised training) 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행하여 N개의 미세 조정 모델을 얻는 것;
    상기 N개의 미세 조정 모델에 기반하여 상기 문답 독해 모델을 확정하는 것을 포함하는
    것을 특징으로 하는 문답 독해 모델 취득 방법.
  2. 제1 항에 있어서,
    각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하는 것은,
    임의의 모델에 대해 각각 적어도 두 개의 서로 다른 소정 영역으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하는 것을 포함하는
    것을 특징으로 하는 문답 독해 모델 취득 방법.
  3. 제1 항에 있어서,
    상기 방법은,
    임의의 사전 훈련 모델에 대해, 각각 상기 사전 훈련 모델에 대응하는 훈련 태스크에 따라, 적어도 하나의 소정 영역으로부터의 비지도 훈련 데이터를 이용하여, 상기 사전 훈련 모델에 대해 딥(deep) 사전 훈련을 수행하여, 강화된 사전 훈련 모델을 얻는 것을 더 포함하며,
    여기서, 상기 딥 사전 훈련을 수행할 시 이용되는 비지도 훈련 데이터와 상기 사전 훈련을 수행할 시 이용되는 비지도 훈련 데이터는 서로 다른 영역으로부터의 데이터인
    것을 특징으로 하는 문답 독해 모델 취득 방법.
  4. 제1 항에 있어서,
    상기 미세 조정을 수행하는 것은,
    임의의 사전 훈련 모델에 대해, 미세 조정의 각 단계에서, 각각 상기 프라이머리 태스크 및 상기 세컨더리 태스크 중에서 하나의 태스크를 선택하여 훈련을 수행하고, 모델 파라미터를 업데이트하는 것을 포함하며,
    여기서, 상기 프라이머리 태스크가 선택되는 횟수는 임의의 세컨더리 태스크가 선택되는 횟수보다 많은
    것을 특징으로 하는 문답 독해 모델 취득 방법.
  5. 제1 항에 있어서,
    상기 상기 N개의 미세 조정 모델에 기반하여 상기 문답 독해 모델을 확정하는 것은,
    지식 증류 기술을 이용하여, 상기 N개의 미세 조정 모델을 하나의 단일 모델로 압축하여, 상기 단일 모델을 상기 문답 독해 모델로 설정하는 것을 포함하는
    것을 특징으로 하는 문답 독해 모델 취득 방법.
  6. 문답 독해 모델 취득 장치에 있어서,
    제1 사전 훈련 유닛, 미세 조정 유닛 및 융합 유닛을 구비하며,
    상기 제1 사전 훈련 유닛은, 서로 다른 구조의 N(N은 1보다 큰 양의 정수임) 개의 모델에 대해, 각각 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하여, N개의 사전 훈련 모델을 얻으며, 여기서, 서로 다른 모델은 각각 서로 다른 사전 훈련 태스크에 대응되며,
    상기 미세 조정 유닛은, 각각 문답 독해 태스크를 프라이머리 태스크로 설정하고, 소정의 기타 자연 언어 처리 태스크를 세컨더리 태스크로 설정하여, 지도 훈련 데이터를 이용하여 각 사전 훈련 모델에 대해 미세 조정을 수행하여 N개의 미세 조정 모델을 얻으며,
    상기 융합 유닛은, 상기 N개의 미세 조정 모델에 기반하여 상기 문답 독해 모델을 확정하는
    것을 특징으로 하는 문답 독해 모델 취득 장치.
  7. 제6 항에 있어서,
    상기 제1 사전 훈련 유닛은, 임의의 모델에 대해 각각 적어도 두 개의 서로 다른 소정 영역으로부터의 비지도 훈련 데이터를 이용하여 사전 훈련을 수행하는
    것을 특징으로 하는 문답 독해 모델 취득 장치.
  8. 제6 항에 있어서,
    제2 사전 훈련 유닛을 더 구비하며,
    상기 제2 사전 훈련 유닛은, 임의의 사전 훈련 모델에 대해, 각각 상기 사전 훈련 모델에 대응하는 훈련 태스크에 따라, 적어도 하나의 소정 영역으로부터의 비지도 훈련 데이터를 이용하여, 상기 사전 훈련 모델에 대해 딥 사전 훈련을 수행하여, 강화된 사전 훈련 모델을 얻으며, 여기서, 상기 딥 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터와 상기 사전 훈련을 수행할 시 이용하는 비지도 훈련 데이터는 서로 다른 영역으로부터의 데이터인
    것을 특징으로 하는 문답 독해 모델 취득 장치.
  9. 제6 항에 있어서,
    임의의 사전 훈련 모델에 대해, 상기 미세 조정 유닛이 미세 조정을 수행하는 각 단계에서, 각각 상기 프라이머리 태스크 및 상기 세컨더리 태스크 중에서 하나의 태스크를 선택하여 훈련을 수행하고, 모델 파라미터를 업데이트 하며, 여기서, 상기 프라이머리 태스크가 선택되는 횟수는 임의의 세컨더리 태스크가 선택되는 횟수보다 많은
    것을 특징으로 하는 문답 독해 모델 취득 장치.
  10. 제6 항에 있어서,
    상기 융합 유닛은, 지식 증류 기술을 이용하여, 상기 N개의 미세 조정 모델을 하나의 단일 모델로 압축하여, 상기 단일 모델을 상기 문답 독해 모델로 설정하는
    것을 특징으로 하는 문답 독해 모델 취득 장치.
  11. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행됨으로써, 상기 적어도 하나의 프로세서로 하여금 제1 항 내지 제5 항 중 어느 한 항의 방법을 수행할 수 있도록 하는
    것을 특징으로 하는 전자 기기.
  12. 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1 항 내지 제5 항 중 어느 한 항의 방법을 수행하도록 하는
    것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
  13. 컴퓨터로 하여금 제1 항 내지 제5 항 중 어느 한 항의 방법을 수행하도록 하는
    것을 특징으로 하는 컴퓨터 프로그램.
KR1020200076413A 2019-11-28 2020-06-23 문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체 KR102396936B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019111896538 2019-11-28
CN201911189653.8A CN111079938B (zh) 2019-11-28 2019-11-28 问答阅读理解模型获取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20210067852A true KR20210067852A (ko) 2021-06-08
KR102396936B1 KR102396936B1 (ko) 2022-05-11

Family

ID=70056826

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200076413A KR102396936B1 (ko) 2019-11-28 2020-06-23 문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210166136A1 (ko)
EP (1) EP3828774A1 (ko)
JP (1) JP7036321B2 (ko)
KR (1) KR102396936B1 (ko)
CN (1) CN111079938B (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160568B (zh) * 2019-12-27 2021-04-06 北京百度网讯科技有限公司 机器阅读理解模型训练方法、装置、电子设备和存储介质
CN111640425B (zh) * 2020-05-22 2023-08-15 北京百度网讯科技有限公司 一种模型训练和意图识别方法、装置、设备及存储介质
CN111832277B (zh) 2020-06-04 2024-03-26 北京百度网讯科技有限公司 阅读理解模型的训练方法及阅读理解处理方法
CN111831805A (zh) * 2020-07-01 2020-10-27 中国建设银行股份有限公司 一种模型创建方法、装置、电子设备和可读存储装置
CN112100345A (zh) * 2020-08-25 2020-12-18 百度在线网络技术(北京)有限公司 是非类问答模型的训练方法、装置、电子设备及存储介质
CN112507099B (zh) * 2020-12-18 2021-12-24 北京百度网讯科技有限公司 对话理解模型的训练方法、装置、设备和存储介质
CN113408638A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 模型训练方法、装置、设备和计算机存储介质
CN113641804A (zh) * 2021-07-19 2021-11-12 北京百度网讯科技有限公司 预训练模型获取方法、装置、电子设备及存储介质
CN113705628B (zh) * 2021-08-06 2024-02-06 北京百度网讯科技有限公司 预训练模型的确定方法、装置、电子设备以及存储介质
CN113935305A (zh) * 2021-08-10 2022-01-14 上海明略人工智能(集团)有限公司 一种多阶段多任务的文本阅读理解方法及装置
CN114119972A (zh) * 2021-10-29 2022-03-01 北京百度网讯科技有限公司 模型获取及对象处理方法、装置、电子设备及存储介质
CN114547687A (zh) * 2022-02-22 2022-05-27 浙江星汉信息技术股份有限公司 基于差分隐私技术的问答系统模型训练方法和装置
EP4310727A1 (en) 2022-07-20 2024-01-24 Thesee Improved online scoring
CN116663679A (zh) * 2023-07-25 2023-08-29 南栖仙策(南京)高新技术有限公司 一种语言模型训练方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415939A (zh) * 2018-01-25 2018-08-17 北京百度网讯科技有限公司 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202017007641U1 (de) * 2016-07-18 2024-01-24 Deepmind Technologies Limited Training von maschinellen Lernmodellen auf mehrere maschinelle Lernaufgaben
CN108121800B (zh) * 2017-12-21 2021-12-21 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108538285B (zh) * 2018-03-05 2021-05-04 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN108960283B (zh) * 2018-05-30 2022-01-11 北京市商汤科技开发有限公司 分类任务增量处理方法及装置、电子设备和存储介质
CN108959396B (zh) * 2018-06-04 2021-08-17 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108959488B (zh) * 2018-06-22 2021-12-07 创新先进技术有限公司 维护问答模型的方法及装置
CN109300121B (zh) * 2018-09-13 2019-11-01 华南理工大学 一种心血管疾病诊断模型的构建方法、系统及该诊断装置
CN109829038A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 基于深度学习的问答反馈方法、装置、设备及存储介质
WO2020220369A1 (en) * 2019-05-01 2020-11-05 Microsoft Technology Licensing, Llc Method and system of utilizing unsupervised learning to improve text to content suggestions
US11960843B2 (en) * 2019-05-02 2024-04-16 Adobe Inc. Multi-module and multi-task machine learning system based on an ensemble of datasets
CN110032646B (zh) * 2019-05-08 2022-12-30 山西财经大学 一种基于多源领域适应联合学习的跨领域文本情感分类方法
CN110222349B (zh) * 2019-06-13 2020-05-19 成都信息工程大学 一种深度动态上下文词语表示的方法及计算机
US11262978B1 (en) * 2019-06-19 2022-03-01 Amazon Technologies, Inc. Voice-adapted reformulation of web-based answers
US11568143B2 (en) * 2019-11-15 2023-01-31 Intuit Inc. Pre-trained contextual embedding models for named entity recognition and confidence prediction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415939A (zh) * 2018-01-25 2018-08-17 北京百度网讯科技有限公司 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sebastian Ruder, The State of Transfer Learning in NLP* *

Also Published As

Publication number Publication date
US20210166136A1 (en) 2021-06-03
KR102396936B1 (ko) 2022-05-11
JP7036321B2 (ja) 2022-03-15
EP3828774A1 (en) 2021-06-02
CN111079938B (zh) 2020-11-03
JP2021086603A (ja) 2021-06-03
CN111079938A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
KR102396936B1 (ko) 문답 독해 모델 취득 방법, 장치, 전자 기기 및 저장 매체
US11928432B2 (en) Multi-modal pre-training model acquisition method, electronic device and storage medium
EP3828719A2 (en) Method and apparatus for generating model for representing heterogeneous graph node, electronic device, storage medium, and computer program product
KR102538467B1 (ko) 모델의 증류 방법, 장치, 전자기기 및 저장매체
US11417314B2 (en) Speech synthesis method, speech synthesis device, and electronic apparatus
KR102441475B1 (ko) 질문 분석 방법, 장치, 지식 기반 질문 응답 시스템 및 전자 기기
JP7262571B2 (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
US20210209417A1 (en) Method and apparatus for generating shared encoder
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
JP2022002091A (ja) 画像編集モデルの構築方法及び装置
JP7192192B2 (ja) 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
JP7170094B2 (ja) オペレーター併合方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
KR20210036875A (ko) 사전훈련된 시맨틱 모델에 기반하는 모델 개량 방법, 장치, 전자 기기, 저장 매체 및 프로그램
EP3799036A1 (en) Speech control method, speech control device, electronic device, and readable storage medium
CN110852449A (zh) 模型迁移方法和电子设备
KR20210080150A (ko) 번역 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR102607536B1 (ko) 옵티마이저 학습 방법, 장치, 전자 기기 및 판독 가능 기록 매체
JP7201654B2 (ja) 意味表現に基づくテキスト生成方法、意味表現に基づくテキスト生成装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
CN116030235A (zh) 目标检测模型训练方法、目标检测方法、装置和电子设备
CN111783872B (zh) 训练模型的方法、装置、电子设备及计算机可读存储介质
US11792407B2 (en) Method and device for coding video using optimal video frame structure, and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant