WO2022097909A1 - 비지도 기반 질의 생성 모델의 학습 방법 및 장치 - Google Patents

비지도 기반 질의 생성 모델의 학습 방법 및 장치 Download PDF

Info

Publication number
WO2022097909A1
WO2022097909A1 PCT/KR2021/012669 KR2021012669W WO2022097909A1 WO 2022097909 A1 WO2022097909 A1 WO 2022097909A1 KR 2021012669 W KR2021012669 W KR 2021012669W WO 2022097909 A1 WO2022097909 A1 WO 2022097909A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
query
query generation
word
type
Prior art date
Application number
PCT/KR2021/012669
Other languages
English (en)
French (fr)
Inventor
맹성현
강준모
산 로만 아리츠푸에르토
홍기원
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2022097909A1 publication Critical patent/WO2022097909A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to query generation.
  • the Question Generation (QG) model aims to generate the most appropriate question for a given context and answer, and infers an answer from the given document and query. , QA).
  • the question-and-answer model can be learned through a question-and-answer dataset that is pre-established in the structure of documents, questions, and answers.
  • the performance of the question-and-answer model varies depending on the quality of the dataset, but the cost of creating a high-quality dataset is not too high.
  • the task to be solved is to provide a teacher model that non-biased regularization of different query generation models, and a student model that learns to create a query using information transmitted during the regularization process of the teacher model.
  • the task to be solved is word token-level regularization, in which the teacher model determines the model to generate the probability distribution of the next word token among different query generation models based on the bias of the word tokens generated so far. to provide a way
  • the task to be solved is to provide a method for unsupervised learning in which the student model uses the probability distribution of word tokens sequentially transmitted from the teacher model.
  • a method of operating a learning apparatus in a process of generating a query for a document and a correct answer, determining a query type of word tokens extracted so far, a type different from the determined query type among a plurality of query generation models determining a specific query generating model of and generating a normalized label for , and training a new query generation model using the input information and the normalized label.
  • the input information may include the document, the correct answer, and word tokens extracted so far.
  • the method further includes extracting a new word token predicted by the specific query generation model from the input information, adding the new word token to the word tokens extracted so far, and repeating the query generation process may include
  • the normalized label may be generated in a query generation model selected from among the plurality of query generation models.
  • the plurality of query generation models may include a language model type query generation model and a copy type query generation model for generating a query based on reverse translation.
  • the determining of the model for generating the next word token may include determining which query generating model among the plurality of query generating models is biased, and selecting the next word token in a direction to remove the bias. You can select the query generation model to be created.
  • a method of operating a learning apparatus comprising: sequentially extracting word tokens constituting a query for a correct answer from a document by combining a plurality of query generation models of different types; The word torques are sequentially extracted each time, obtaining a probability distribution of a query generation model predicting a corresponding word torque among the plurality of query generation models, and using the probability distribution obtained each time the word torques are sequentially extracted for the document and providing a new query generation model that learns to create a query.
  • the step of sequentially extracting the word tokens may include determining which query generation model from among the plurality of query generation models extracted so far is biased toward a specific query for generating the next word token in a direction to remove the bias. It may include determining a generation model, and extracting a new word token predicted by the specific query generation model from input information.
  • the determining of the specific query generation model may include determining a query type of the word tokens extracted so far, and determining, among the plurality of query generation models, a type different from the determined query type as the specific query query generation model. .
  • the probability distribution obtained whenever the word torques are sequentially extracted may be used for learning the new query generation model as a label obtained by normalizing the plurality of query generation models.
  • the plurality of query generation models may include a language model type query generation model and a copy type query generation model for generating a query based on reverse translation.
  • a learning apparatus operated by at least one processor by combining a plurality of query generation models of different types, sequentially extracting word tokens constituting a query for a correct answer from a document, and the word Whenever torques are sequentially extracted, a teacher model that obtains a probability distribution of a query generation model predicting a corresponding word torque among the plurality of query generation models, and when the word tokens are sequentially extracted from the teacher model and a student model that receives the probability distribution obtained for each input as a label for input information, predicts from the input information, and then learns a loss between the probability distribution of a word token and the label.
  • the teacher model determines which query generation model among the plurality of query generation models extracted so far is biased, and determines a specific query generation model to generate the next word token in a direction to remove the bias,
  • the new word token predicted by the specific query generation model may be extracted from the input information.
  • the teacher model may determine a query type of the word tokens extracted so far, and may determine, among the plurality of query generation models, a type different from the determined query type as the specific query query generation model.
  • the plurality of query generation models may include a language model type query generation model and a copy type query generation model for generating a query based on reverse translation, and the teacher model and the student model may be connected by a pipeline.
  • various query generation models may be combined and normalized in an unsupervised environment.
  • a generalized query generation model may be generated in which characteristics of various query generation models are generalized based on the structure of the teacher model and the student model.
  • the model generated according to the embodiment may be widely applied to natural language processing fields such as a conversation system such as a chatbot, a QA system, and an information retrieval system.
  • the model generated according to the embodiment provides query generation and query response, particularly in an unsupervised learning environment, it has scalability that can be applied to multiple domains and languages.
  • the model generated according to the embodiment may be applied to a language lacking a Q&A dataset, and may be utilized to develop a QA system for people who use the corresponding language.
  • FIG. 1 is a block diagram of a learning apparatus according to an embodiment.
  • FIG. 2 is a diagram for explaining an instance-level regularization method and a word token-level regularization method.
  • 3 is a diagram for explaining learning of an unsupervised query generation model according to an embodiment.
  • FIG. 4 is a flowchart illustrating a method of operating a learning apparatus according to an exemplary embodiment.
  • FIG. 5 is a flowchart illustrating a method of operating a teacher model according to an exemplary embodiment.
  • FIG. 6 is a flowchart illustrating a method of operating a student model according to an exemplary embodiment.
  • transmitting or providing may include not only direct transmission or provision, but also transmission or provision indirectly through another device or using a detour path.
  • ...unit means a unit that processes at least one function or operation, which may be implemented as hardware or software or a combination of hardware and software. .
  • an apparatus is configured and connected such that at least one processor can perform the operations of the present disclosure by executing instructions.
  • the computer program includes instructions that are described for a processor to execute the operations of the present disclosure, and may be stored in a non-transitory computer readable storage medium.
  • the computer program may be downloaded over a network or sold as a product.
  • a “model” of the present disclosure is a machine learning model for learning at least one task, and may be implemented as a computer program executed by a processor.
  • the “model” of the present disclosure may be configured using various models based on a neural network to suit input data, task type, learning method, and the like.
  • a question generation (QG) model is a model that generates a query corresponding to a document (context, C) and an answer (answer, A), and may generate a query in various ways.
  • a copy-type query generation model (copy-type QG) that generates a query based on back-translation
  • a language model type query generation model Lianguage Model(LM)-type QG
  • the copy-type query generation model creates a query based on back-translation. Accordingly, the copy-type query generation model (copy-type QG) generates queries in the same word and order as documents. For example, from a document (context) containing " ⁇ Level 1 of DDM Architecture was formally published in 1986. ⁇ ", "When level 1 of DDM Architecture was formally published?" is generated, "level 1 of DDM Architecture was formally published” are words copied directly from the document.
  • the language model type query generation model creates a query by inputting documents into a pre-trained language model. However, because the language model did not learn to generate queries, it generates queries that are very different from documents. For example, from a document including " ⁇ Level 1 of DDM Architecture was formally published in 1986. ⁇ ", "When did the rst level 1 of DDM Architecture come out?" may be generated.
  • the present disclosure solves the shortcomings of each query generation model by combining and regularizing different types of query generation models, and using information generated in the regularization process, the characteristics of the query generation models are integrated into a single query generation model ( How to generalize to the student model) is described in detail.
  • a query generation model is exemplified as a generation model, but the framework proposed in the present disclosure may be generalized to various information generation fields such as text generation.
  • a method of combining and normalizing query generation models may be utilized as a method of ensembles text generation models.
  • FIG. 1 is a block diagram of a learning apparatus according to an embodiment.
  • the learning device 10 may be implemented as a computing device operated by at least one processor.
  • the learning device 10 includes one or more processors 11 , a memory 13 for loading a computer program executed by the processor 11 , a storage device 15 for storing computer programs and various data, and a communication interface 17 . , and a bus 19 connecting them.
  • the learning apparatus 10 may further include various components.
  • the processor 11 is a device for controlling the operation of the learning device 10, and may be a processor of various types that processes instructions included in a computer program, for example, a central processing unit (CPU), a micro processor (MPU) Unit), a micro controller unit (MCU), a graphic processing unit (GPU), or any type of processor well known in the art of the present disclosure.
  • CPU central processing unit
  • MPU micro processor
  • MCU micro controller unit
  • GPU graphic processing unit
  • the memory 13 stores various data, commands and/or information.
  • the memory 13 may load a corresponding computer program from the storage device 15 so that instructions described to execute the operations of the present disclosure are processed by the processor 11 .
  • the memory 13 may be, for example, read only memory (ROM), random access memory (RAM), or the like.
  • the storage device 15 may non-temporarily store a computer program and various data.
  • the storage device 15 is a non-volatile memory such as a read only memory (ROM), an erasable programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), a flash memory, a hard disk, a removable disk, or in the art to which the present disclosure pertains. It may be configured to include any well-known computer-readable recording medium.
  • the communication interface 17 may be a wired/wireless communication module supporting wired/wireless communication.
  • the bus 19 provides a communication function between the components of the learning device 10 .
  • the computer program includes instructions executed by the processor 11 , and is stored in a non-transitory computer readable storage medium, wherein the instructions are read by the processor 11 . Make the action of initiation to be executed.
  • the computer program may be downloaded over a network or sold as a product.
  • the “model” described in the present disclosure may be implemented as a computer program executed by the processor 11 .
  • the learning device 10 , the processor 11 , or the teacher model, the student model, the generative model, and the normalization model may be described as the subject of the operation.
  • FIG. 2 is a diagram for explaining an instance-level regularization method and a word token-level regularization method.
  • the instance-level normalization method integrates datasets of different generative models (eg, copy-type QG and LM-type QG), and uses instances (eg, query statements) generated from each generative model. You can choose to train a student model (student QG).
  • generative models eg, copy-type QG and LM-type QG
  • instances eg, query statements
  • different types of generative models may be normalized through a more detailed word token level normalization method instead of instance level normalization that selects the entire sentence.
  • the student model should be trained with balanced data to solve the disadvantages of each generative model that generates queries that are either too similar to documents or too different from documents.
  • the teacher model determines that the word tokens constituting the question are evenly generated in different generative models so that the student model is not biased toward a specific generative model among the plurality of generative models.
  • a method for a teacher model to normalize a plurality of generative models so that the student model is not biased toward a specific generative model among a plurality of generative models, and learning of the student model through this method will be described in detail.
  • 3 is a diagram for explaining learning of an unsupervised query generation model according to an embodiment.
  • the learning apparatus 10 learns a student model 200 using a teacher model 100 .
  • the teacher model 100 normalizes the plurality of generative models so that the student model 200 is not biased toward a specific generative model among the plurality of generative models.
  • the teacher model 100 and the student model 200 may be connected by a pipeline.
  • the teacher model 100 selects a probability distribution to make the student model 200 an unbiased generative model. , these relationships are named the teacher model and the learning model.
  • the teacher model 100 may include a plurality of generative models 110 and 130 , and a regularization model 150 . It is assumed that the generative model 110 is a query generation model (LM-type QG) of the language model type. It is assumed that the generative model 130 is a copy-type query generating model (copy-type QG).
  • LM-type QG query generation model
  • copy-type QG copy-type query generating model
  • Each of the plurality of generation models 110 and 130 outputs a probability distribution of a word token to be generated next based on input information, and provides the probability distribution of the word token to the normalization model 150 .
  • the probability distribution of the word token means the probability distribution of all tokens included in the vocabulary.
  • the correct answer may be any named entity recognized in the document.
  • the regularization model 150 determines which generative model among the plurality of generative models generated word tokens (q t ⁇ t ) is biased, and generates the next word token in the direction of removing the bias. select
  • the regularization model 150 may be an artificial neural network model that prevents a question composed of word tokens from being easily identified as a language model type (LM-type) or a copy type (Copy-type).
  • LM-type language model type
  • Copy-type a copy type
  • the regularization model 150 may be implemented as a discriminator of a generative adversarial network (GAN).
  • the regularization model 150 generates a regularized label for the input information (C, A, q t ⁇ t ), and transmits the normalized label to the student model 200 .
  • the normalized label is the probability distribution of the next word token (q t ').
  • the normalization model 150 selects a generative model for generating the next word token, and transmits the probability distribution of the word token output from the selected generative model to the pipeline-connected student model 200 .
  • Each of the plurality of generative models 110 and 130 constituting the teacher model 100 is exaggerated to generate the probability distribution of the next word token from the input information (C, A, q t ⁇ t ) until the question is completed.
  • the regularization model 150 selects a generative model for removing the bias of the word tokens (q t ⁇ t ) generated so far from the input information (C, A, q t ⁇ t ) until the question is completed, and , the normalization process of transferring the probability distribution of the next word token generated by the selected generative model to the student model 200 is repeated.
  • the student model 200 is a single generative model that learns characteristics of various generative models, and it is assumed in the description that it is a query generation model.
  • the student model 200 may learn to minimize the loss by using the KL-divergence loss.
  • the student model 200 is provided with the probability distribution of the selected word token level so that the question style is not biased toward any generative model, and learns to minimize loss from the provided probability distribution. Accordingly, the student model 200 may generate a query in which two query types that are too similar to a document or too different from a document are mixed even in an unsupervised environment.
  • FIG. 4 is a flowchart illustrating a method of operating a learning apparatus according to an exemplary embodiment.
  • the learning apparatus 10 determines a query type of word tokens extracted so far, and determines a query generation model of a different type from the determined query type as a model for generating the next word token ( S110 ).
  • the learning apparatus 10 obtains the probability distribution predicted for the vocabulary by the determined query generation model from the input information (S120).
  • the input information may consist of a document, a correct answer, and word tokens extracted so far.
  • the learning apparatus 10 generates the probability distribution predicted by the determined query generation model as a label normalized to the input information ( S130 ).
  • the learning apparatus 10 trains a new query generation model (student model) by using the normalized label for the input information (S140).
  • FIG. 5 is a flowchart illustrating a method of operating a teacher model according to an exemplary embodiment.
  • the teacher model 100 receives a document ( S210 ).
  • the teacher model 100 selects an arbitrary object name recognized from the document as the correct answer, and generates initial input information including the document and the correct answer (S220).
  • the teacher model 100 inputs input information into a plurality of generative models, and determines a specific generative model for generating the next word token from among the plurality of generative models based on the query types of word tokens generated so far ( S230).
  • the teacher model 100 determines the query type (LM-type or Copy-type) from the word tokens generated so far (q t ⁇ t ), and predicts the next word token from the generation model of a different type from the determined type. use.
  • query type LM-type or Copy-type
  • the teacher model 100 extracts a new word token predicted by a specific generation model, and generates a query by adding a new word token to the previously extracted word tokens (S240).
  • the teacher model 100 stores the probability distribution for the input information predicted by the specific generative model, and provides the probability distribution for the input information as the learning data of the student model 200 ( S250 ).
  • the teacher model 100 provides a probability distribution as a label instead of transferring the selected specific word token as a label of the input information.
  • the student model 200 may learn the probability of all word tokens included in the vocabulary.
  • the teacher model 100 determines whether the query creation is completed in the current time step (S260). When the question mark is generated, the teacher model 100 may determine that the query generation is complete.
  • the teacher model 100 repeats the query generation process (S130) by adding the selected word token to the input information in order to extract the next word token (S270).
  • the input information may consist of documents, correct answers, and word tokens selected so far.
  • the teacher model 100 ends the query generation process from the document (S280).
  • FIG. 6 is a flowchart illustrating a method of operating a student model according to an exemplary embodiment.
  • the student model 200 predicts the probability distribution of the next word token using input information transmitted from the teacher model 100 ( S310 ).
  • the student model 200 calculates the loss of the probability distribution and the predicted probability distribution for the input information transmitted from the teacher model 100, and learns the loss (S320).
  • the probability distribution for the input information is the probability distribution predicted for the vocabulary by the generative model that predicts the next word token from the input information.
  • a generative model providing a probability distribution for input information is determined according to the judgment of the teacher model 100 . Accordingly, the probability distribution for the input information provided by the student model 200 is a label normalized by the teacher model 100 .
  • a generalized query generation model may be generated in which characteristics of various query generation models are generalized based on the structure of the teacher model and the student model.
  • the model generated according to the embodiment may be widely applied to natural language processing fields such as a conversation system such as a chatbot, a QA system, and an information retrieval system. Since the model generated according to the embodiment provides query generation and query response, particularly in an unsupervised learning environment, it has scalability that can be applied to multiple domains and languages.
  • the model generated according to the embodiment may be applied to a language lacking a Q&A dataset, and may be utilized to develop a QA system for people who use the corresponding language.
  • the embodiment of the present invention described above is not implemented only through the apparatus and method, and may be implemented through a program for realizing a function corresponding to the configuration of the embodiment of the present invention or a recording medium in which the program is recorded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

학습 장치의 동작 방법으로서, 문서와 정답에 대한 질의 생성 과정에서, 현재까지 추출된 단어 토큰들의 질의 타입을 판단하는 단계, 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입의 특정 질의 생성 모델을, 다음 단어 토큰을 생성할 모델로 결정하는 단계, 상기 특정 질의 생성 모델이 입력 정보로부터, 어휘에 대해 예측한 확률 분포를 획득하는 단계, 그리고 상기 확률 분포를, 상기 입력 정보에 대한 정규화된 레이블로 생성하고, 상기 입력 정보와 상기 정규화된 레이블을 이용하여, 신규 질의 생성 모델을 학습시키는 단계를 포함한다.

Description

비지도 기반 질의 생성 모델의 학습 방법 및 장치
본 발명은 질의 생성에 관한 것이다.
질의 생성(Question Generation, QG) 모델은, 주어진 문서(context)와 정답(answer)에 가장 알맞은 질의(question)를 생성하는 것을 목표로 하며, 주어진 문서와 질의로부터 정답을 유추하는 질의 응답(Question Answering, QA)과 관련된다.
일반적으로 질의 응답 모델은 문서, 질의, 정답 구조로 미리 구축되어있는 질의 응답 데이터셋을 통해 학습할 수 있다. 데이터셋의 품질에 따라 질의 응답 모델의 성능이 달라지는데, 고품질의 데이터셋을 생성하는 비용이 만만치 않다.
한편, 질의 응답 데이터셋 없이, 주어진 문서로부터 정답과 질의를 생성하는 비지도 학습이 제안되었고, 이를 통해 질의 응답 데이터셋을 생성 및 확장할 수 있다. 하지만, 종래의 비지도 기반 질의 생성 모델은, 역번역(back-translation) 기반으로 질의를 생성하므로, 질의가 문서와 같은 단어와 순서로 생성된다. 결과적으로 비지도 기반으로 생성된 질의 응답 데이터셋의 난이도가 낮아서, 강인한 질의 응답 모델을 학습시키기 어렵다.
해결하고자 하는 과제는 서로 다른 질의 생성 모델들을 비편향적으로 정규화(regularization)하는 교사 모델, 그리고 교사 모델의 정규화 과정에서 전달된 정보를 이용하여 질의 생성을 학습하는 학생 모델을 제공하는 것이다.
해결하고자 하는 과제는 교사 모델이 현재까지 생성된 단어 토큰들의 편향성을 기초로 서로 다른 질의 생성 모델들 중에서 다음 단어 토큰의 확률 분포를 생성할 모델을 결정하는 단어 토큰 수준 정규화(Word Token-level regularization) 방법을 제공하는 것이다.
해결하고자 하는 과제는 학생 모델이 교사 모델로부터 순차적으로 전달된 단어 토큰의 확률 분포를 이용하여 비지도 학습하는 방법을 제공하는 것이다.
한 실시예에 따른 학습 장치의 동작 방법으로서, 문서와 정답에 대한 질의 생성 과정에서, 현재까지 추출된 단어 토큰들의 질의 타입을 판단하는 단계, 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입의 특정 질의 생성 모델을, 다음 단어 토큰을 생성할 모델로 결정하는 단계, 상기 특정 질의 생성 모델이 입력 정보로부터, 어휘에 대해 예측한 확률 분포를 획득하는 단계, 그리고 상기 확률 분포를, 상기 입력 정보에 대한 정규화된 레이블로 생성하고, 상기 입력 정보와 상기 정규화된 레이블을 이용하여, 신규 질의 생성 모델을 학습시키는 단계를 포함한다.
상기 입력 정보는 상기 문서, 상기 정답, 그리고 상기 현재까지 추출된 단어 토큰들을 포함할 수 있다.
상기 동작 방법은 상기 특정 질의 생성 모델이 상기 입력 정보로부터 예측한 새로운 단어 토큰을 추출하고, 상기 현재까지 추출된 단어 토큰들에 상기 새로운 단어 토큰을 추가하고, 상기 질의 생성 과정을 반복하는 단계를 더 포함할 수 있다.
상기 정규화된 레이블은 상기 복수의 질의 생성 모델들 중에서 선택된 질의 생성 모델에서 생성될 수 있다.
상기 복수의 질의 생성 모델들은 언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함할 수 있다.
상기 다음 단어 토큰을 생성할 모델로 결정하는 단계는 상기 현재까지 생성된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 질의 생성 모델을 선택할 수 있다.
다른 실시예에 따른 학습 장치의 동작 방법으로서, 서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하는 단계, 상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 단계, 그리고 상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를 상기 문서에 대한 질의 생성을 학습하는 신규 질의 생성 모델로 제공하는 단계를 포함한다.
상기 단어 토큰들을 순차적으로 추출하는 단계는 현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하는 단계, 그리고 상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출하는 단계를 포함할 수 있다.
상기 특정 질의 생성 모델을 결정하는 단계는 상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정할 수 있다.
상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포는, 상기 복수의 질의 생성 모델들을 정규화한 레이블로써 상기 신규 질의 생성 모델의 학습에 사용될 수 있다.
상기 복수의 질의 생성 모델들은 언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함할 수 있다.
또 다른 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 학습 장치로서, 서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하고, 상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 교사 모델, 그리고 상기 교사 모델로부터, 상기 단어 토큰들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를, 입력 정보에 대한 레이블로 전달받고, 상기 입력 정보로부터 예측한 다음 단어 토큰의 확률 분포와 상기 레이블과의 손실을 학습하는 학생 모델을 포함한다.
상기 교사 모델은 현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하며, 상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출할 수 있다.
상기 교사 모델은 상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정할 수 있다.
상기 복수의 질의 생성 모델들은 언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하고, 상기 교사 모델과 상기 학생 모델은 파이프라인으로 연결될 수 있다.
실시예에 따르면 비지도 환경에서 다양한 질의 생성 모델들을 조합하고 정규화할 수 있다.
실시예에 따르면 교사 모델과 학생 모델 구조를 기초로, 다양한 질의 생성 모델들의 특징이 일반화된 질의 생성 모델을 생성할 수 있다.
실시예에 따라 생성된 모델은 챗봇과 같은 대화 시스템, QA 시스템, 정보 검색 시스템 등의 자연어 처리 분야에 폭 넓게 적용될 수 있다.
실시예에 따라 생성된 모델은 특히 비지도 학습 환경에서의 질의 생성 및 질의 응답을 제공하므로, 여러 도메인과 언어에 적용될 수 있는 확장성을 가진다.
실시예에 따라 생성된 모델은 질의 응답 데이터셋이 부족한 언어에 적용되어, 해당 언어를 사용하는 사람들을 위한 QA 시스템 개발에 활용될 수 있다.
도 1는 한 실시예에 따른 학습 장치의 구성도이다.
도 2는 인스턴스 수준 정규화(Instance-level regularization) 방법과, 단어 토큰 수준 정규화(Word Token-level regularization) 방법을 설명하는 도면이다.
도 3은 한 실시예에 따른 비지도 기반 질의 생성 모델의 학습을 설명하는 도면이다.
도 4는 한 실시예에 따른 학습 장치의 동작 방법을 설명하는 흐름도이다.
도 5는 한 실시예에 따른 교사 모델의 동작 방법을 설명하는 흐름도이다.
도 6은 한 실시예에 따른 학생 모델의 동작 방법을 설명하는 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
설명에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
설명에서, "전송 또는 제공"은 직접적인 전송 또는 제공하는 것뿐만 아니라 다른 장치를 통해 또는 우회 경로를 이용하여 간접적으로 전송 또는 제공도 포함할 수 있다.
설명에서, 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.
설명에서, 흐름도에 기재된 동작 순서는 변경될 수 있고, 여러 동작들이 병합되거나, 어느 동작이 분할될 수 있고, 특정 동작은 수행되지 않을 수 있다.
설명에서, "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
설명에서, 장치는 적어도 하나의 프로세서가 명령어들(instructions)을 실행함으로써, 본 개시의 동작을 수행할 수 있도록 구성 및 연결된다. 컴퓨터 프로그램은 프로세서가 본 개시의 동작을 실행하도록 기술된 명령어들(instructions)을 포함하고, 비일시적-컴퓨터 판독가능 저장매체(non-transitory computer readable storage medium)에 저장될 수 있다. 컴퓨터 프로그램은 네트워크를 통해 다운로드되거나, 제품 형태로 판매될 수 있다.
본 개시의 "모델"은 적어도 하나의 태스크(task)를 학습하는 기계학습모델(machine learning model)로서, 프로세서에 의해 실행되는 컴퓨터 프로그램으로 구현될 수 있다. 본 개시의 "모델"은 입력 데이터, 태스크 종류, 학습 방법 등에 맞게, 신경망(neural network) 기반의 다양한 모델을 이용하여 구성될 수 있다.
질의 생성(Question Generation, QG) 모델은, 문서(context, C)와 정답(answer, A)에 해당하는 질의(question)를 생성하는 모델로서, 다양한 방식으로 질의를 생성할 수 있다. 본 개시에서는, 비지도 환경에서 질의 생성하는 모델로서, 역번역(back-translation) 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델(copy-type QG), 그리고 언어 모델 타입의 질의 생성 모델(Language Model(LM)-type QG)을 예로 들어 설명하나, 질의 생성 모델 타입이나 조합되는 질의 생성 모델들의 수는 다양하게 변경될 수 있다.
먼저, 복사 타입의 질의 생성 모델(copy-type QG)은 역번역(back-translation) 기반으로 질의를 생성한다. 따라서, 복사 타입의 질의 생성 모델(copy-type QG)은 문서와 같은 단어와 순서로 질의를 생성하게 된다. 예를 들면, "~ Level 1 of DDM Architecture was formally published in 1986. ~"를 포함하는 문서(context)로부터, "When level 1 of DDM Architecture was formally published?"가 생성되는데, "level 1 of DDM Architecture was formally published"가 문서로부터 그대로 복사된 단어들이다.
언어 모델 타입의 질의 생성 모델(LM-type QG)은 사전 학습된 언어 모델(Pre-trained Language Model)에 문서를 입력해서 질의를 생성한다. 하지만, 언어 모델이 질의 생성을 학습한 것이 아니라서, 문서와 너무 다른 질의를 생성하게 된다. 예를 들면, "~ Level 1 of DDM Architecture was formally published in 1986.~”를 포함하는 문서로부터, "When did the rst level 1 of DDM Architecture come out?"가 생성될 수 있다.
하지만, 비지도 환경에서는 기준(ground truth) 질문이 제공되지 않기 때문에 복사 타입의 질의 생성 모델(copy-type QG)과 언어 모델 타입의 질의 생성 모델(LM-type QG)의 문제를 해결하는 것이 쉽지 않다.
본 개시는 서로 다른 종류의 질의 생성 모델들을 조합 및 정규화(regularization)해서 각 질의 생성 모델들이 가지는 단점을 해결하고, 정규화 과정에서 생성된 정보를 이용하여 질의 생성 모델들의 특징을 하나의 질의 생성 모델(학생 모델)로 일반화하는 방법에 대해 자세히 설명한다.
설명에서, 생성 모델로서, 질의 생성 모델을 예로 들어 설명하지만, 본 개시에서 제안된 프레임워크는 텍스트 생성(text generation)과 같은 다양한 정보 생성 분야에 일반화될 수 있다. 예를 들어, 질의 생성 모델들을 조합 및 정규화하는 방법이 텍스트 생성 모델들을 앙상블하는 방법으로 활용될 수 있다.
도 1은 한 실시예에 따른 학습 장치의 구성도이다.
도 1을 참고하면, 학습 장치(10)는 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치로 구현될 수 있다. 학습 장치(10)는 하나 이상의 프로세서(11), 프로세서(11)에 의하여 수행되는 컴퓨터 프로그램을 로드하는 메모리(13), 컴퓨터 프로그램 및 각종 데이터를 저장하는 저장 장치(15), 통신 인터페이스(17), 그리고 이들을 연결하는 버스(19)를 포함할 수 있다. 이외에도, 학습 장치(10)는 다양한 구성 요소가 더 포함될 수 있다.
프로세서(11)는 학습 장치(10)의 동작을 제어하는 장치로서, 컴퓨터 프로그램에 포함된 명령어들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다.
메모리(13)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(13)는 본 개시의 동작을 실행하도록 기술된 명령어들이 프로세서(11)에 의해 처리되도록 해당 컴퓨터 프로그램을 저장 장치(15)로부터 로드할 수 있다. 메모리(13)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다.
저장 장치(15)는 컴퓨터 프로그램, 각종 데이터를 비임시적으로 저장할 수 있다. 저장 장치(15)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
통신 인터페이스(17)는 유/무선 통신을 지원하는 유/무선 통신 모듈일 수 있다.
버스(19)는 학습 장치(10)의 구성 요소 간 통신 기능을 제공한다.
컴퓨터 프로그램은, 프로세서(11)에 의해 실행되는 명령어들(instructions)을 포함하고, 비일시적-컴퓨터 판독가능 저장매체(non-transitory computer readable storage medium)에 저장되며, 명령어들은 프로세서(11)가 본 개시의 동작을 실행하도록 만든다. 컴퓨터 프로그램은 네트워크를 통해 다운로드되거나, 제품 형태로 판매될 수 있다.
본 개시에서 설명하는 "모델"은 프로세서(11)에 의해 실행되는 컴퓨터 프로그램으로 구현될 수 있다. 설명에서는, 학습 장치(10), 프로세서(11), 또는 교사 모델, 학생 모델, 생성 모델, 정규화 모델을 동작의 주체로 설명할 수 있다.
도 2는 인스턴스 수준 정규화(Instance-level regularization) 방법과, 단어 토큰 수준 정규화(Word Token-level regularization) 방법을 설명하는 도면이다.
도 2의 (a)를 참고하면, 서로 다른 종류의 생성 모델들을 사용하여 생성 모델들의 특징을 하나의 생성 모델(설명에서 "학생 모델"이라고 함)로 일반화하는 방법으로서, 인스턴스 수준 정규화가 가능하다.
인스턴스 수준 정규화 방법은 서로 다른 생성 모델들(예를 들면, copy-type QG 및 LM-type QG)의 데이터셋을 통합하고, 각 생성 모델에서 생성된 인스턴스들(예를 들면, 질의 문장들)을 선택하여 학생 모델(student QG)을 학습시킬 수 있다.
도 2의 (b)를 참고하면, 전체 문장을 선택하는 인스턴스 수준 정규화 대신, 좀더 세분화된 단어 토큰 수준 정규화 방법을 통해, 서로 다른 종류의 생성 모델들을 정규화할 수 있다. 이때, 학생 모델이 균형 있는 데이터로 학습해야, 문서와 너무 유사하거나 문서와 너무 다른 질의를 생성하는 각 생성 모델의 단점을 해결할 수 있다.
따라서, 교사 모델은 학생 모델이 복수의 생성 모델들 중에서 특정 생성 모델로 편향되지 않도록, 질문을 구성하는 단어 토큰들이 서로 다른 생성 모델들에서 고르게 생성되도록 판단한다. 다음에서, 학생 모델이 복수의 생성 모델들 중에서 특정 생성 모델로 편향되지 않도록, 교사 모델이 복수의 생성 모델들을 정규화 방법, 그리고 이를 통한 학생 모델의 학습에 대해 자세히 설명한다.
도 3은 한 실시예에 따른 비지도 기반 질의 생성 모델의 학습을 설명하는 도면이다.
도 3을 참고하면, 학습 장치(10)는 교사 모델(Teacher model)(100)을 이용하여 학생 모델(Student model)(200)을 학습시킨다. 학생 모델(200)이 복수의 생성 모델들 중에서 특정 생성 모델로 편향되지 않도록, 교사 모델(100)이 복수의 생성 모델들을 정규화한다. 교사 모델(100)과 학생 모델(200)은 파이프라인으로 연결될 수 있다. 참고로, 학생 모델이 교사 모델을 모방하면서 학습하는 일반적인 지식 증류(Knowledge distillation)와 달리, 교사 모델(100)이 학생 모델(200)을 비편향된 생성 모델로 만들기 위해 확률 분포를 선별하는 특징이 있고, 이러한 관계를 교사 모델과 학습 모델로 명명한 것이다.
교사 모델(100)은 복수의 생성 모델들(110, 130), 그리고 정규화 모델(150)로 구성될 수 있다. 생성 모델(110)은 언어 모델 타입의 질의 생성 모델(LM-type QG)이라고 가정한다. 생성 모델(130)은 복사 타입의 질의 생성 모델(copy-type QG)이라고 가정한다.
복수의 생성 모델들(110, 130) 각각은 입력 정보를 기초로 다음에 생성할 단어 토큰의 확률 분포를 출력하고, 단어 토큰의 확률 분포를 정규화 모델(150)에게 제공한다. 단어 토큰의 확률 분포는 어휘(vocabulary)에 포함된 모든 토큰들의 확률 분포를 의미한다. 타임 스텝마다 각 생성 모델로 입력 정보가 입력되는데, 현재 타임 스텝(step=t)의 입력 정보는 문서(Context, C), 정답(Answer, A) 그리고 현재까지 연속적으로 생성된 단어 토큰들(qt<t)일 수 있다. 정답은 문서에서 인식된 임의의 개체명(named entity)일 수 있다.
정규화 모델(150)은 현재까지 생성된 단어 토큰들(qt<t)이 복수의 생성 모델들 중에서 어느 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 생성 모델을 선택한다. 정규화 모델(150)은 단어 토큰들로 구성된 질문이 언어 모델 타입(LM-type)이나 복사 타입(Copy-type)으로 쉽게 판별되는 것을 방지하는 인공신경망 모델일 수 있다. 예를 들면, 정규화 모델(150)은 생성적 적대 신경망(Generative Adversarial Networks, GAN)의 판별기(discriminator)로 구현될 수 있다.
정규화 모델(150)은 현재 타입 스텝(step=t)까지 생성된 단어 토큰들(qt<t)이 LM-type과 Copy-type일 확률을 계산하고, LM-type 확률이 더 크다면, 다음 단어 토큰(qt')은 Copy-type의 점수를 최대로 만들고, Copy-type 확률이 더 크다면, 다음 단어 토큰은 LM-type의 점수를 최대로 만들 수 있다.
정규화 모델(150)은 입력 정보(C, A, qt<t)에 대한 정규화된 레이블(regularized label)을 생성하고, 정규화된 레이블을 학생 모델(200)로 전달한다. 정규화된 레이블은 다음 단어 토큰(qt')의 확률 분포이다. 정규화 모델(150)은 다음 단어 토큰을 생성할 생성 모델을 선택하고, 선택한 생성 모델에서 출력된 단어 토큰의 확률 분포를, 파이프라인 연결된 학생 모델(200)에게 전달한다.
교사 모델(100)를 구성하는 복수의 생성 모델들(110, 130) 각각은 질문이 완성될 때까지 입력 정보(C, A, qt<t)로부터 다음 단어 토큰의 확률 분포를 생성하는 과장을 반복한다. 정규화 모델(150)은 질문이 완성될 때까지 입력 정보(C, A, qt<t)로부터, 현재까지 생성된 단어 토큰들(qt<t)의 편향을 제거하기 위한 생성 모델을 선택하고, 선택한 생성 모델이 생성한 다음 단어 토큰의 확률 분포를 학생 모델(200)에게 전달하는 정규화 과정을 반복한다.
학생 모델(200)은 다양한 생성 모델들의 특징을 학습하는 단일 생성 모델이고, 설명에서는 질의 생성 모델이라고 가정한다. 학생 모델(200)은 현재 타임 스텝(step=t)의 입력 정보(C, A, qt<t)를 기초로 다음 단어 토큰의 확률 분포를 추론한다. 이때, 학생 모델(200)은 정규화 모델(150)로부터 전달된 정규화된 레이블인 확률 분포와의 손실(loss)을 최소화하는 학습을 반복한다. 학생 모델(200)은 KL-divergence loss를 이용하여 손실을 최소화하는 학습을 할 수 있다.
이와 같이, 학생 모델(200)은 질문 스타일이 어느 생성 모델로 편향되지 않도록 선택된 단어 토큰 수준의 확률 분포를 제공받고, 제공받은 확률 분포와의 손실을 최소화하는 학습을 한다. 따라서, 학생 모델(200)은 비지도 환경에서도 문서와 너무 유사하거나 문서와 너무 다른 두 질의 타입이 혼합된 질의를 생성할 수 있다.
도 4는 한 실시예에 따른 학습 장치의 동작 방법을 설명하는 흐름도이다.
도 4를 참고하면, 학습 장치(10)는 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 판단한 질의 타입과 다른 타입의 질의 생성 모델을 다음 단어 토큰을 생성할 모델로 결정한다(S110).
학습 장치(10)는 결정한 질의 생성 모델이 입력 정보로부터 어휘에 대해 예측한 확률 분포를 획득한다(S120). 입력 정보는, 문서, 정답, 그리고 현재까지 추출된 단어 토큰들로 구성될 수 있다.
학습 장치(10)는 결정한 질의 생성 모델이 예측한 확률 분포를, 입력 정보에 대한 정규화된 레이블로 생성한다(S130).
학습 장치(10)는 입력 정보에 대한 정규화된 레이블을 이용하여, 신규 질의 생성 모델(학생 모델)을 학습시킨다(S140).
도 5는 한 실시예에 따른 교사 모델의 동작 방법을 설명하는 흐름도이다.
도 5를 참고하면, 교사 모델(100)은 문서를 입력받는다(S210).
교사 모델(100)은 문서에서 인식된 임의의 개체명을 정답으로 선택하고, 문서와 정답을 포함하는 초기 입력 정보를 생성한다(S220).
교사 모델(100)은 복수의 생성 모델들로 입력 정보를 입력하고, 현재까지 생성된 단어 토큰들의 질의 타입을 기초로, 복수의 생성 모델들 중에서 다음 단어 토큰을 생성할 특정 생성 모델을 결정한다(S230). 교사 모델(100)은 현재까지 생성된 단어 토큰들(qt<t)로부터 질의 타입(LM-type인지 Copy-type)을 판단하고, 판단한 타입과 다른 타입의 생성 모델에서 예측한 다음 단어 토큰을 사용한다.
교사 모델(100)은 특정 생성 모델에서 예측한 새로운 단어 토큰을 추출하고, 이전에 추출한 단어 토큰들에 새로운 단어 토큰을 추가하여 질의를 생성한다(S240).
한편, 교사 모델(100)은 특정 생성 모델에서 예측한 입력정보에 대한 확률 분포를 저장하고, 입력 정보에 대한 확률 분포를 학생 모델(200)의 학습 데이터로 제공한다(S250). 교사 모델(100)은 선택된 특정 단어 토큰을 입력 정보의 레이블로 전달하는 대신, 확률 분포를 레이블로 제공한다. 이를 통해, 학생 모델(200)은 어휘에 포함된 단어 토큰들 전체의 확률을 학습할 수 있다.
교사 모델(100)은 현재 타임 스텝에서 질의 생성 완료인지 판단한다(S260). 교사 모델(100)은 물음표가 생성되면 질의 생성 완료로 판단할 수 있다.
교사 모델(100)은 질의 생성 미완료이면, 다음 단어 토큰 추출을 위해, 선택한 단어 토큰을 입력 정보에 추가하여 질의 생성 과정(S130)을 반복한다(S270). 입력 정보는 문서, 정답, 그리고 지금까지 선택된 단어 토큰들로 구성될 수 있다.
교사 모델(100)은 질의 생성이 완료되면, 문서로부터의 질의 생성 과정을 종료한다(S280).
도 6은 한 실시예에 따른 학생 모델의 동작 방법을 설명하는 흐름도이다.
도 6을 참고하면, 학생 모델(200)은 교사 모델(100)로부터 전달된 입력 정보를 이용하여 다음 단어 토큰의 확률 분포를 예측한다(S310).
학생 모델(200)은 교사 모델(100)로부터 전달된 입력 정보에 대한 확률 분포와 예측한 확률 분포의 손실을 계산하고, 손실을 학습한다(S320). 입력 정보에 대한 확률 분포는 입력 정보로부터 다음 단어 토큰을 예측한 생성 모델이 어휘에 대해 예측한 확률 분포다. 입력 정보에 대한 확률 분포를 제공하는 생성 모델은 교사 모델(100)의 판단에 따라 결정된다. 따라서, 학생 모델(200)이 제공받는 입력 정보에 대한 확률 분포는, 교사 모델(100)에 의해 정규화된 레이블이다.
이와 같이, 실시예에 따르면 비지도 환경에서 다양한 질의 생성 모델들을 조합하고 정규화할 수 있다. 실시예에 따르면 교사 모델과 학생 모델 구조를 기초로, 다양한 질의 생성 모델들의 특징이 일반화된 질의 생성 모델을 생성할 수 있다. 실시예에 따라 생성된 모델은 챗봇과 같은 대화 시스템, QA 시스템, 정보 검색 시스템 등의 자연어 처리 분야에 폭 넓게 적용될 수 있다. 실시예에 따라 생성된 모델은 특히 비지도 학습 환경에서의 질의 생성 및 질의 응답을 제공하므로, 여러 도메인과 언어에 적용될 수 있는 확장성을 가진다. 실시예에 따라 생성된 모델은 질의 응답 데이터셋이 부족한 언어에 적용되어, 해당 언어를 사용하는 사람들을 위한 QA 시스템 개발에 활용될 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (15)

  1. 학습 장치의 동작 방법으로서,
    문서와 정답에 대한 질의 생성 과정에서, 현재까지 추출된 단어 토큰들의 질의 타입을 판단하는 단계,
    복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입의 특정 질의 생성 모델을, 다음 단어 토큰을 생성할 모델로 결정하는 단계,
    상기 특정 질의 생성 모델이 입력 정보로부터, 어휘에 대해 예측한 확률 분포를 획득하는 단계, 그리고
    상기 확률 분포를, 상기 입력 정보에 대한 정규화된 레이블로 생성하고, 상기 입력 정보와 상기 정규화된 레이블을 이용하여, 신규 질의 생성 모델을 학습시키는 단계
    를 포함하는 동작 방법.
  2. 제1항에서,
    상기 입력 정보는
    상기 문서, 상기 정답, 그리고 상기 현재까지 추출된 단어 토큰들을 포함하는, 동작 방법.
  3. 제1항에서,
    상기 특정 질의 생성 모델이 상기 입력 정보로부터 예측한 새로운 단어 토큰을 추출하고, 상기 현재까지 추출된 단어 토큰들에 상기 새로운 단어 토큰을 추가하고, 상기 질의 생성 과정을 반복하는 단계
    를 더 포함하는, 동작 방법.
  4. 제1항에서,
    상기 정규화된 레이블은
    상기 복수의 질의 생성 모델들 중에서 선택된 질의 생성 모델에서 생성되는, 동작 방법.
  5. 제1항에서,
    상기 복수의 질의 생성 모델들은
    언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하는, 동작 방법.
  6. 제1항에서,
    상기 다음 단어 토큰을 생성할 모델로 결정하는 단계는
    상기 현재까지 생성된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 질의 생성 모델을 선택하는, 동작 방법.
  7. 학습 장치의 동작 방법으로서,
    서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하는 단계,
    상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 단계, 그리고
    상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를 상기 문서에 대한 질의 생성을 학습하는 신규 질의 생성 모델로 제공하는 단계
    를 포함하는, 동작 방법.
  8. 제7항에서,
    상기 단어 토큰들을 순차적으로 추출하는 단계는
    현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하는 단계, 그리고
    상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출하는 단계
    를 포함하는, 동작 방법.
  9. 제7항에서,
    상기 특정 질의 생성 모델을 결정하는 단계는
    상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정하는, 동작 방법.
  10. 제7항에서,
    상기 단어 토크들이 순차적으로 추출될 때마다 획득한 상기 확률 분포는, 상기 복수의 질의 생성 모델들을 정규화한 레이블로써 상기 신규 질의 생성 모델의 학습에 사용되는, 동작 방법.
  11. 제7항에서,
    상기 복수의 질의 생성 모델들은
    언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하는, 동작 방법.
  12. 적어도 하나의 프로세서에 의해 동작하는 학습 장치로서,
    서로 다른 타입의 복수의 질의 생성 모델들을 조합하여, 문서로부터 정답에 대한 질의를 구성하는 단어 토큰들을 순차적으로 추출하고, 상기 단어 토크들이 순차적으로 추출될 때마다, 상기 복수의 질의 생성 모델들 중에서 해당 단어 토크를 예측한 질의 생성 모델의 확률 분포를 획득하는 교사 모델, 그리고
    상기 교사 모델로부터, 상기 단어 토큰들이 순차적으로 추출될 때마다 획득한 상기 확률 분포를, 입력 정보에 대한 레이블로 전달받고, 상기 입력 정보로부터 예측한 다음 단어 토큰의 확률 분포와 상기 레이블과의 손실을 학습하는 학생 모델
    을 포함하는 학습 장치.
  13. 제12항에서,
    상기 교사 모델은
    현재까지 추출된 단어 토큰들이 상기 복수의 질의 생성 모델들 중에서 어느 질의 생성 모델로 편향되어 있는지 판별하고, 편향을 제거하는 방향으로 다음 단어 토큰을 생성할 특정 질의 생성 모델을 결정하며, 상기 특정 질의 생성 모델이 입력 정보로부터 예측한 새로운 단어 토큰을 추출하는, 학습 장치.
  14. 제12항에서,
    상기 교사 모델은
    상기 현재까지 추출된 단어 토큰들의 질의 타입을 판단하고, 상기 복수의 질의 생성 모델들 중에서, 판단한 질의 타입과 다른 타입을 상기 특정 질의 질의 생성 모델로 결정하는, 학습 장치.
  15. 제12항에서,
    상기 복수의 질의 생성 모델들은
    언어 모델 타입의 질의 생성 모델, 그리고 역번역 기반으로 질의를 생성하는 복사 타입의 질의 생성 모델을 포함하고,
    상기 교사 모델과 상기 학생 모델은 파이프라인으로 연결되는, 학습 장치.
PCT/KR2021/012669 2020-11-09 2021-09-16 비지도 기반 질의 생성 모델의 학습 방법 및 장치 WO2022097909A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200148808A KR102486440B1 (ko) 2020-11-09 2020-11-09 비지도 기반 질의 생성 모델의 학습 방법 및 장치
KR10-2020-0148808 2020-11-09

Publications (1)

Publication Number Publication Date
WO2022097909A1 true WO2022097909A1 (ko) 2022-05-12

Family

ID=81457109

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/012669 WO2022097909A1 (ko) 2020-11-09 2021-09-16 비지도 기반 질의 생성 모델의 학습 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102486440B1 (ko)
WO (1) WO2022097909A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063345A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법
KR101873873B1 (ko) * 2018-03-12 2018-07-03 미디어젠(주) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
KR20190061460A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 신뢰도 기반 질의응답 시스템 및 방법
JP2019215841A (ja) * 2018-06-07 2019-12-19 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
KR20200064007A (ko) * 2018-11-28 2020-06-05 한국과학기술원 정답을 찾는 질의 응답 시스템 및 그의 훈련 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063345A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법
KR20190061460A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 신뢰도 기반 질의응답 시스템 및 방법
KR101873873B1 (ko) * 2018-03-12 2018-07-03 미디어젠(주) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
JP2019215841A (ja) * 2018-06-07 2019-12-19 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
KR20200064007A (ko) * 2018-11-28 2020-06-05 한국과학기술원 정답을 찾는 질의 응답 시스템 및 그의 훈련 방법

Also Published As

Publication number Publication date
KR20220062986A (ko) 2022-05-17
KR102486440B1 (ko) 2023-01-09

Similar Documents

Publication Publication Date Title
WO2021096009A1 (ko) 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
WO2021251690A1 (ko) 인공 지능 학습 기반의 학습 컨텐츠 추천 시스템 및 그것의 동작 방법
WO2021054514A1 (ko) 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
WO2020111314A1 (ko) 개념 그래프 기반 질의응답 장치 및 방법
WO2021049706A1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
WO2021095987A1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
WO2021071137A1 (ko) 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템
WO2021162362A1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
WO2019107625A1 (ko) 기계 번역 방법 및 이를 위한 장치
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2020231005A1 (ko) 영상 처리 장치 및 그 동작방법
CN110019749A (zh) 生成vqa训练数据的方法、装置、设备和计算机可读介质
Gong et al. An attention-based deep model for automatic short answer score
WO2022097909A1 (ko) 비지도 기반 질의 생성 모델의 학습 방법 및 장치
WO2022114368A1 (ko) 뉴로 심볼릭 기반 릴레이션 임베딩을 통한 지식완성 방법 및 장치
WO2024090712A1 (ko) 공감대 형성을 통한 심리 치료용 인공지능 대화 시스템
Li et al. Cross-lingual transferring of pre-trained contextualized language models
WO2023033194A1 (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
WO2022108206A1 (ko) 설명 가능한 지식그래프 완성 방법 및 장치
WO2022163996A1 (ko) 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
Wang The performance of artificial intelligence translation app in Japanese language education guided by deep learning
WO2021045434A1 (ko) 전자 장치 및 이의 제어 방법
WO2022149758A1 (ko) 풀이 경험이 없는 추가된 문제 컨텐츠에 대한 예측된 정답 확률을 기초로, 문제를 평가하는 학습 컨텐츠 평가 장치, 시스템 및 그것의 동작 방법
WO2021256578A1 (ko) 이미지 캡션 자동 생성 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21889374

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21889374

Country of ref document: EP

Kind code of ref document: A1