WO2024091088A1 - 약한 라벨 데이터 기반의 wsd와 연관된 모델 학습 방법 및 장치 - Google Patents

약한 라벨 데이터 기반의 wsd와 연관된 모델 학습 방법 및 장치 Download PDF

Info

Publication number
WO2024091088A1
WO2024091088A1 PCT/KR2023/016945 KR2023016945W WO2024091088A1 WO 2024091088 A1 WO2024091088 A1 WO 2024091088A1 KR 2023016945 W KR2023016945 W KR 2023016945W WO 2024091088 A1 WO2024091088 A1 WO 2024091088A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
wsd
loss
data
word
Prior art date
Application number
PCT/KR2023/016945
Other languages
English (en)
French (fr)
Inventor
이수열
최영민
Original Assignee
(주)이팝소프트
주식회사 퓨리오사에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이팝소프트, 주식회사 퓨리오사에이아이 filed Critical (주)이팝소프트
Publication of WO2024091088A1 publication Critical patent/WO2024091088A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a model learning method and device associated with WSD based on weak label data, and to a model learning method and device associated with WSD for solving problems of existing WSD algorithms.
  • WSD Wad Sense Disambiguation
  • WSD may refer to determining which meaning of a word is activated by its use in a specific context or a machine learning model for this purpose. In other words, WSD can be used to determine the overall context of a sentence and determine the clear meaning of each word based on this.
  • the WSD model has the problem of increasing inference time and cost because it conducts inference by additionally considering numerous other additional information in addition to the input sentence.
  • it is difficult to secure a sufficient amount of labeling data to train the WSD model, so there is a disadvantage in that model performance deteriorates as learning progresses with limited data.
  • the present invention provides a model learning method associated with WSD based on weak label data, a computer program stored in a computer-readable medium, a computer-readable medium storing the computer program, and a device (system) to solve the above problems.
  • the present invention may be implemented in various ways, including a method, an apparatus (system), a computer program stored in a computer-readable medium, or a computer-readable medium on which the computer program is stored.
  • a model training method associated with a WSD performed by at least one processor includes a first set of training data associated with a first meaning of a word and a second set of training data associated with a second meaning of the word.
  • the present invention is implemented in various ways, including a method, an apparatus (system), a computer program stored in a computer-readable medium, or a computer-readable medium on which the computer program is stored, based on the step of generating a batch containing learning data and the generated batch. It can be.
  • a model learning method associated with WSD based on weak label data uses complete label data in which a plurality of tokens constituting a sentence are all labeled to identify a word. generating a first model that performs WSD, providing the generated first model with weak label data labeled with some of the plurality of tokens constituting the sentence, thereby extracting pseudo-label data, and the weak label data and pseudo-labels. It includes generating a second model that performs WSD on words using data.
  • the pseudo-label data includes estimated labeling information for unlabeled tokens included in the weak label data.
  • the step of generating a second model that performs WSD for words using weak label data and pseudo-label data includes pre-trained using margin-based loss and mask language modeling loss. It includes performing fine tuning on the language model to generate a second model that performs WSD on words.
  • the step of generating a second model that performs WSD for a word using the margin-based loss and the mask language modeling loss includes a linear combination of the margin-based loss and the mask language modeling loss. It includes the step of generating a second model that performs WSD on the word.
  • the step of generating a second model that performs WSD for a word using a linear combination of the margin-based loss and the mask language modeling loss includes the margin-based loss and the mask language modeling loss. It includes performing backpropagation so that the total loss value of the linear combination is small.
  • the language model is a DeBERTa (Decoding-enhanced BERT with Disentangled Attention) model.
  • the step of generating a second model that performs WSD for a word using a margin-based loss and a mask language modeling loss includes a variable for imposing a penalty on pseudo-labeled data. and generating a second model that performs WSD on a word using a margin-based loss and a mask language modeling loss.
  • generating a second model that performs WSD for a word using a margin-based loss including a variable for imposing a penalty on pseudo-labeled data and a mask language modeling loss.
  • determining the value of the variable to be a value of 1 or less.
  • a computer program stored in a computer-readable recording medium is provided.
  • a computing device includes a communication module, a memory, and at least one processor connected to the memory and configured to execute at least one computer-readable program included in the memory.
  • At least one program generates a first model that performs WSD on a word using complete label data in which a plurality of tokens constituting a sentence are all labeled, and a plurality of tokens constituting a sentence are added to the generated first model.
  • Some of them include instructions for extracting pseudo-label data by providing labeled weak label data and generating a second model that performs WSD for words using the weak label data and pseudo-label data.
  • the WSD model can perform calculations without distinguishing between the support set and the query set and perform learning using all training data, and thus learning can be performed without loss of information. Additionally, when the margin is satisfied, learning may not be performed so that the distance between data becomes farther or closer, so learning efficiency may increase.
  • the WSD model when learning a WSD model using a linear combination of a margin-based loss and a mask language modeling loss, there is an advantage in that an additional pre-training effect occurs by applying the mask language modeling loss to an additional corpus.
  • the WSD model can maintain the function of restoring masked input by continuously learning the pre-training task together, and can prevent the phenomenon of overfitting for words that make up the batch in which learning is performed.
  • the generalization performance of the final WSD model can be significantly improved.
  • time complexity can be significantly reduced by labeling tokens constituting idioms and learning a WSD model, thereby effectively preventing the possibility of system overload.
  • a second model can be created so that accuracy does not decrease even when weak label data is used. Additionally, labeling data can be effectively collected even when only weak label data is used using the first model.
  • Figure 1 is a diagram illustrating an example of creating a batch for creating a model that performs WSD according to an embodiment of the present invention.
  • Figure 2 is a diagram showing an example of a loss function for training a WSD model according to an embodiment of the present invention.
  • Figure 3 is a diagram illustrating an example in which generalization is performed according to an embodiment of the present invention.
  • Figure 4 is a diagram illustrating an example of labeling that enables effective processing of idioms according to an embodiment of the present invention.
  • Figure 5 is a diagram showing an example of generating data for creating a WSD model according to an embodiment of the present invention.
  • Figure 6 is a diagram showing an example of a model learning method associated with WSD according to an embodiment of the present invention.
  • Figure 7 is a diagram showing an example of a model learning method associated with WSD for idiom processing according to an embodiment of the present invention.
  • Figure 8 is a diagram showing an example of a model learning method associated with WSD based on weak label data according to an embodiment of the present invention.
  • Figure 9 is a block diagram showing the internal configuration of a computing device according to an embodiment of the present invention.
  • a specific component when referred to as being “coupled,” “combined,” “connected,” or “reacting” with any other component, the specific component is directly bonded, combined, and/or connected to the other component. Alternatively, it may be connected or react, but is not limited thereto. For example, one or more intermediate components may exist between a particular component and another component. Additionally, in the present invention, “and/or” may include each of one or more listed items or a combination of at least a portion of one or more items.
  • first and second are used to distinguish specific components from other components, and the components described above are not limited by these terms.
  • first and second are used to distinguish specific components from other components, and the components described above are not limited by these terms.
  • first component may be an element of the same or similar form as the “second” component.
  • WSD Wide Sense Disambiguation
  • model refers to a machine learning model and/or an artificial neural network model, and may include any model used to infer an answer to a given input.
  • the model may include a deep neural network including an input layer (layer), a plurality of hidden layers, and an output layer.
  • each layer may include one or more nodes.
  • the model may include weights associated with a plurality of nodes included in the model.
  • the weights may include arbitrary parameters associated with the artificial neural network model.
  • “few-shot learning” may refer to a method of learning an artificial neural network model with good performance with only a small amount of data.
  • a “language model” may be an artificial neural network model for assigning or calculating probabilities for word sequences, and may be a pre-trained model, for example, based on BERT (Bidirectional Encoder Representations from Transformers). Can include models.
  • Figure 1 is a diagram illustrating an example of creating a batch 120 for creating a model that performs WSD according to an embodiment of the present invention.
  • the learning data 110 may include data corresponding to each word and meaning.
  • the data may be sentence data, and the sentence data may be composed of a plurality of tokens corresponding to each word included in the sentence. That is, the learning data 110 may include a plurality of sentence data classified by the meaning of the word in a specific context.
  • a batch 120 may be created that includes a first set of training data associated with a first meaning of the word and a second set of training data associated with a second meaning of the word. That is, a batch 120 may be created to perform fine tuning on the pre-trained language model 130.
  • the batch 120 is a set of at least a portion of the learning data 110, and a batch 120 and/or a batch set corresponding to each word may be generated.
  • the language model 130 can be learned using an independent multi-task learning method for each word based on a batch set corresponding to each word.
  • the language model 130 may be a model based on Bidirectional Encoder Representations from Transformers (BERT) and, for example, may include a Decoding-enhanced BERT with Disentangled Attention (DeBERTa) model.
  • BERT Bidirectional Encoder Representations from Transformers
  • DeBERTa Decoding-enhanced BERT with Disentangled Attention
  • the data included in the batch 120 may be extracted by randomly selecting a sense index. For example, if the batch 120 may include data corresponding to K meanings, K meanings among the K+a meanings are randomly selected and data corresponding to the selected meanings are included in the batch 120. You can.
  • the value a may be a value for adjusting the degree to which the semantic index is randomly selected and the degree to which data overlaps.
  • FIG. 2 is a diagram showing an example of a loss function for training the WSD model 210 according to an embodiment of the present invention.
  • existing WSD models can be trained using few-shot learning to achieve sufficient performance even for the meaning (sense) of words with a small amount of data.
  • the general few-shot learning learning method divides the batch set into a support set and a query set and learns only the distance between the support set and the query set, so all information is utilized. There is a problem of not learning.
  • the WSD model 210 may be learned using metric-based few-shot learning.
  • the WSD model 210 may be learned using a margin-based loss (or loss function) 212 as shown in Equation 1 below.
  • the WSD model 210 can be learned using a linear combination of the margin-based loss 212 and the mask language modeling loss 214.
  • the WSD model 210 may be learned using a linear combination of the margin-based loss 212 and the mask language modeling loss 214 as shown in Equation 2 below.
  • the mask language modeling loss 214 may be a form in which ri is added to a function used when pre-training a language model.
  • the loss value of the mask language modeling loss 214 can be calculated, and data sampling can be performed accordingly.
  • the performance of the WSD model 210 can be improved by observing more distance pairs through the mask language modeling loss 214.
  • back-propagation may be performed so that the total loss value 220 of the linear combination of the margin-based loss 212 and the mask language modeling loss 214 becomes small.
  • the mask language modeling loss 214 is used as an additional corpus.
  • an additional pre-training effect occurs by applying .
  • the WSD model 210 can maintain the function of restoring masked input by continuously learning the pre-training task together, and can prevent the phenomenon of overfitting for words that make up the batch in which learning is performed. there is.
  • FIG. 3 is a diagram illustrating an example in which generalization is performed according to an embodiment of the present invention.
  • generalization may refer to a method of learning a model that minimizes errors for new samples that are not in the training data.
  • the generalization performance of the final model can be improved by creating a plurality of models 310 and applying the SWA (Stochastic Weight Averaging) algorithm 320 and the GreedySoup algorithm 330 to each model.
  • the SWA algorithm 320 may refer to an algorithm for averaging the weights of each model
  • the GreedySoup algorithm 330 may refer to an algorithm for combining and averaging the weights of a plurality of models.
  • the SWA algorithm 320 refers to an algorithm that averages weights while continuing to train the model at a learning rate below the predetermined standard after model learning has progressed above a predetermined standard.
  • the weights of the first model 310_1 may be averaged
  • the weights of the second model 310_2 may be averaged
  • the weights of the nth model 310_n may be averaged. there is. If the weights are averaged like this, the performance of each model can be improved.
  • one WSD model can be created using a plurality of learned models 310.
  • the weights of the final WSD model can be determined by averaging the weights of each model based on the GreedySoup algorithm 330. In this case, some weights among the weights of the plurality of learned models 310 may be selected and averaged.
  • the performance of the WSD model may be measured after combining and averaging the weights, and the combined weights may be selected and averaged only if the performance of the WSD model is improved.
  • the weights are optimized using both the SWA algorithm 320 and the GreedySoup algorithm 330, the generalization performance of the final WSD model can be significantly improved.
  • both the SWA algorithm 320 and the GreedySoup algorithm 330 are used for generalization of the WSD model, but the present invention is not limited thereto.
  • the SWA algorithm 320 and the GreedySoup algorithm 330 may be optionally used.
  • Figure 4 is a diagram illustrating an example of labeling that enables effective processing of idioms according to an embodiment of the present invention.
  • an idiom may refer to a word that combines two or more words and has the same syntactic effect as one word.
  • the idiom k 410 may be composed of a first token 420_1, a second token 420_2, an n-th token 420_n, etc., which represent each word constituting the idiom k 410.
  • the conventional WSD model assumes that the tokens constituting the idiom are adjacent to each other, and performs WSD for the idiom using the embedding of adjacent tokens.
  • this method it is not possible to consider that tokens that are not adjacent to each other constitute an idiom, and there is a problem that the time complexity for calculating the embedding of the idiom increases.
  • each token included in an idiom can be labeled with the meaning of the idiom.
  • the idiom k (410) is composed of a first token (420_1), a second token (420_2), an n-th token (420_n), etc. representing each word constituting the idiom
  • the corresponding tokens (420) ) can be labeled with the idiom k (430).
  • idiom data consisting of a plurality of tokens including a first token and a second token
  • the sense of the idiom is labeled in the first word corresponding to the first token
  • the second token is labeled with the sense of the idiom.
  • the meaning of the idiom can be labeled in the second word corresponding to the token.
  • fine tuning is performed on the pre-trained language model based on the first batch generated to correspond to the first word and the second batch generated to correspond to the second word, A model that performs WSD can be created.
  • the number of combinations for calculating the embedding of an idiom for any sentence x can be configured as in Equation 5 below.
  • Figure 5 is a diagram showing an example of generating data for creating a WSD model according to an embodiment of the present invention.
  • performing labeling on all tokens included in a sentence to train a WSD model is quite costly and inefficient. Therefore, it is important to perform learning using weakly labeled data in which only some of the tokens that make up the sentence are labeled.
  • weakly labeled data there is a problem that incorrect embeddings are generated for unlabeled tokens, which may lead to an accuracy drop.
  • the first stage may be a process of generating a first model 510 that performs WSD using fully labeled data 512. That is, a first model 510 that performs WSD on a word can be created using complete label data 512 in which a plurality of tokens constituting a sentence are all labeled.
  • the first model 510 may be learned using a linear combination of a margin-based loss and a mask language modeling loss, and may be a model to which the SWA algorithm and/or the Greedy Soup algorithm is applied.
  • the second stage (stage 2) provides weak label data 514, in which some of the plurality of tokens constituting the sentence are labeled, to the generated first model 510 to generate pseudo labeled data 516. It may be an extraction process. That is, labels for unlabeled tokens among the tokens included in the weak label data 514 are generated by the first model 510, and pseudo label data 516 can be extracted.
  • the pseudo label data 516 may include estimated labeling information for unlabeled tokens included in the weak label data 514.
  • the third stage may be a process of generating a second model 520 that performs WSD on a word using weak label data 514 and pseudo label data 516.
  • the second model 520 may be learned using a linear combination of a margin-based loss and a mask language modeling loss, and may be a model to which the SWA algorithm and the Greedy Soup algorithm are applied.
  • the margin-based loss used to generate the second model 520 may include a variable for imposing a penalty on the pseudo-labeled data 516.
  • the loss function for generating the second model 520 may be configured as shown in Equation 6 below.
  • the value of the variable (ri,j) may be determined to be a value of 1 or less. That is, the pseudo label data 516 inevitably includes noise, and when the pseudo label data 516 is input, the influence of noise can be reduced by imposing a penalty on the pseudo label data 516. .
  • FIG 6 is a diagram showing an example of a model learning method 600 associated with WSD according to an embodiment of the present invention.
  • the model learning method 600 associated with the WSD may be performed by at least one processor (eg, at least one processor of a computing device).
  • a model training method 600 associated with a WSD may begin with a processor generating a batch comprising a first set of training data associated with a first meaning of a word and a second set of training data associated with a second meaning of a word. (S610).
  • the processor may perform fine tuning on a pre-trained language model based on the generated batch to create a model that performs WSD for words (S620). For example, the processor may perform fine tuning on a pre-trained language model using a margin-based loss and a mask language modeling loss to create a model that performs WSD on words. In this case, the processor can generate a model that performs WSD on a word using a linear combination of a margin-based loss and a mask language modeling loss. Additionally, the processor may perform backpropagation so that the total loss value of the linear combination of the margin-based loss and the mask language modeling loss is small.
  • Figure 7 is a diagram illustrating an example of a model learning method 700 associated with WSD for idiom processing according to an embodiment of the present invention.
  • the model learning method 700 associated with the WSD for idiom processing may be performed by at least one processor (eg, at least one processor of a computing device).
  • the model learning method 700 associated with WSD for idiom processing may be initiated by the processor extracting idiom data consisting of a plurality of tokens including a first token and a second token (S710).
  • the processor may label the first word corresponding to the first token with the meaning of the idiom, and label the second word corresponding to the second token with the meaning of the idiom (S720).
  • the processor then performs fine tuning on the pre-trained language model based on the first batch generated to correspond to the first word and the second batch generated to correspond to the second word to generate the first word and the second word.
  • a model that performs WSD can be created (S730).
  • the processor may perform fine tuning on a pre-trained language model using a margin-based loss and a mask language modeling loss to generate a model that performs WSD for the first word and the second word. For example, the processor may generate a model that performs WSD for the first word and the second word using a linear combination of a margin-based loss and a mask language modeling loss. Additionally, the processor may perform backpropagation so that the total loss value of the linear combination of the margin-based loss and the mask language modeling loss is small.
  • FIG. 8 is a diagram illustrating an example of a model learning method 800 associated with WSD based on weak label data according to an embodiment of the present invention.
  • the model learning method 800 associated with WSD based on weak label data may be performed by at least one processor (e.g., at least one processor of a computing device).
  • the model learning method 800 associated with WSD based on weak label data may be initiated by the processor generating a first model that performs WSD for a word using fully labeled data in which a plurality of tokens constituting a sentence are all labeled. There is (S810).
  • the processor may extract pseudo-label data by providing weak label data in which some of the plurality of tokens constituting the sentence are labeled to the generated first model (S820).
  • the pseudo-label data may include estimated labeling information for unlabeled tokens included in the weak label data.
  • the processor may generate a second model that performs WSD on the word using the weak label data and pseudo-label data (S830).
  • the processor may perform fine tuning on a pre-trained language model using a margin-based loss and a mask language modeling loss to generate a second model that performs WSD on a word. For example, the processor may generate a second model that performs WSD on a word using a linear combination of a margin-based loss and a mask language modeling loss.
  • the processor may generate a second model that performs WSD for words using a margin-based loss including a variable for penalizing pseudo-labeled data, and a mask language modeling loss. .
  • the processor may determine the value of the variable to be a value of 1 or less.
  • Figure 9 is a block diagram showing the internal configuration of a computing device 900 according to an embodiment of the present invention.
  • the computing device 900 may include a memory 910, a processor 920, a communication module 930, and an input/output interface 940.
  • the computing device 900 may be configured to communicate information and/or data over a network using a communication module 930.
  • Memory 910 may include any non-transitory computer-readable recording medium.
  • the memory 910 is a non-permanent mass storage device such as random access memory (RAM), read only memory (ROM), disk drive, solid state drive (SSD), flash memory, etc. mass storage device).
  • RAM random access memory
  • ROM read only memory
  • SSD solid state drive
  • flash memory etc. mass storage device
  • non-perishable mass storage devices such as ROM, SSD, flash memory, disk drive, etc. may be included in the computing device 900 as a separate persistent storage device that is distinct from memory.
  • an operating system and at least one program code may be stored in the memory 910.
  • These software components may be loaded from a computer-readable recording medium separate from the memory 910.
  • Recording media readable by such a separate computer may include recording media directly connectable to the computing device 900, for example, floppy drives, disks, tapes, DVD/CD-ROM drives, memory cards, etc. It may include a computer-readable recording medium.
  • software components may be loaded into the memory 910 through the communication module 930 rather than a computer-readable recording medium.
  • at least one program may be loaded into the memory 910 based on a computer program installed by files provided through the communication module 930 by developers or a file distribution system that distributes the installation file of the application. You can.
  • the processor 920 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. Commands may be provided to a user terminal (not shown) or another external system by the memory 910 or communication module 930.
  • the communication module 930 may provide a configuration or function for a user terminal (not shown) and the computing device 900 to communicate with each other through a network, and the computing device 900 may be configured to communicate with an external system (e.g., a separate cloud system). etc.) may provide a configuration or function for communication.
  • control signals, commands, data, etc. provided under the control of the processor 920 of the computing device 900 pass through the communication module 930 and the network to the user terminal and/or the communication module of the external system. and/or transmitted to an external system.
  • the input/output interface 940 of the computing device 900 may be connected to the computing device 900 or may be a means for interfacing with a device (not shown) for input or output that the computing device 900 may include. .
  • the input/output interface 940 is shown as an element configured separately from the processor 920, but the present invention is not limited thereto, and the input/output interface 940 may be included in the processor 920.
  • Computing device 900 may include more components than those of FIG. 9 . However, there is no need to clearly show most prior art components.
  • the processor 920 of the computing device 900 may be configured to manage, process, and/or store information and/or data received from a plurality of user terminals and/or a plurality of external systems.
  • the above-described method and/or various embodiments may be implemented with digital electronic circuitry, computer hardware, firmware, software, and/or combinations thereof.
  • Various embodiments of the present invention are executed by a data processing device, for example, one or more programmable processors and/or one or more computing devices, or as a computer program stored in a computer-readable recording medium and/or a computer-readable recording medium. It can be implemented.
  • the above-described computer program may be written in any form of programming language, including compiled language or interpreted language, and may be distributed in any form such as a stand-alone program, module, or subroutine.
  • a computer program may be distributed via a single computing device, multiple computing devices connected through the same network, and/or multiple computing devices distributed so as to connect through multiple different networks.
  • the above-described method and/or various embodiments may include one or more processors configured to execute one or more computer programs that process, store, and/or manage certain functions, functions, etc., by operating on input data or generating output data. It can be performed by .
  • the method and/or various embodiments of the present invention may be performed by special purpose logic circuits such as a Field Programmable Gate Array (FPGA) or Application Specific Integrated Circuit (ASIC), and the method and/or various embodiments of the present invention may An apparatus and/or system for performing embodiments may be implemented as a special purpose logic circuit, such as an FPGA or ASIC.
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • the one or more processors executing the computer program may include a general purpose or special purpose microprocessor and/or one or more processors in any type of digital computing device.
  • the processor may receive instructions and/or data from each of read-only memory and random access memory, or may receive instructions and/or data from read-only memory and random access memory.
  • components of a computing device performing methods and/or embodiments may include one or more processors for executing instructions and one or more memory devices for storing instructions and/or data.
  • a computing device may exchange data with one or more mass storage devices for storing data.
  • a computing device can receive/receive data from a magnetic disc or an optical disc and transmit data to the magnetic or optical disc.
  • Computer-readable storage media suitable for storing instructions and/or data associated with a computer program include semiconductor memory devices such as EPROM (Erasable Programmable Read-Only Memory), EEPROM (Electrically Erasable PROM), and flash memory devices. It may include, but is not limited to, any form of non-volatile memory.
  • computer-readable storage media may include magnetic disks such as internal hard disks or removable disks, magneto-optical disks, CD-ROM, and DVD-ROM disks.
  • the computing device may include a display device (e.g., cathode ray tube (CRT), liquid crystal display (LCD), etc.) for presenting or displaying information to the user and a display device (e.g., cathode ray tube (CRT), liquid crystal display (LCD), etc.) for providing or displaying information to the user.
  • a display device e.g., cathode ray tube (CRT), liquid crystal display (LCD), etc.
  • It may include, but is not limited to, a pointing device (e.g., keyboard, mouse, trackball, etc.) capable of providing input and/or commands.
  • the computing device may further include any other types of devices for providing interaction with the user.
  • a computing device may provide any form of sensory feedback to a user for interaction with the user, including visual feedback, auditory feedback, and/or tactile feedback.
  • the user can provide input to the computing device through various gestures such as sight, voice, and movement.
  • various embodiments may be implemented in a computing system that includes a back-end component (e.g., a data server), a middleware component (e.g., an application server), and/or a front-end component.
  • the components may be interconnected by any form or medium of digital data communication, such as a communications network.
  • a communication network may include a Local Area Network (LAN), a Wide Area Network (WAN), etc.
  • Computing devices may be implemented using hardware and/or software configured to interact with a user, including a user device, user interface (UI) device, user terminal, or client device. You can.
  • a computing device may include a portable computing device, such as a laptop computer.
  • computing devices include personal digital assistants (PDAs), tablet PCs, game consoles, wearable devices, internet of things (IoT) devices, virtual reality (VR) devices, AR (augmented reality) devices, etc. may be included, but are not limited thereto.
  • Computing devices may further include other types of devices configured to interact with a user.
  • the computing device may include a portable communication device (eg, a mobile phone, smart phone, wireless cellular phone, etc.) suitable for wireless communication over a network, such as a mobile communication network.
  • the computing device may wirelessly connect to a network server using wireless communication technologies and/or protocols, such as radio frequency (RF), microwave frequency (MWF), and/or infrared ray frequency (IRF). It can be configured to communicate with.
  • RF radio frequency
  • MMF microwave frequency
  • IRF infrared ray frequency

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법에 관한 것이다. 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법은, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하는 단계, 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하는 단계 및 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.

Description

약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법 및 장치
본 발명은 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법 및 장치에 관한 것으로, 기존의 WSD 알고리즘의 문제점들을 해결하기 위한 WSD와 연관된 모델 학습 방법 및 장치에 관한 것이다.
WSD(Word Sense Disambiguation)는 특정 맥락에서 단어의 사용에 의해 단어의 어떤 의미가 활성화되는지를 결정하는 것 또는 이를 위한 기계학습 모델 등을 지칭할 수 있다. 즉, WSD는 문장의 전체 맥락을 판단하고, 이를 기초로 각 단어의 명확한 의미를 결정하기 위해 사용될 수 있다.
일반적으로, WSD 모델은 입력된 문장 뿐만이 아니라 다른 부가적인 수많은 정보를 추가적으로 고려하여 추론을 진행하기 때문에 추론 시간 및 비용이 증가하는 문제가 있다. 또한, WSD 모델을 학습시키기 위한 충분히 많은 라벨링 데이터를 확보하는데 어려움이 있어, 한정적인 데이터로 학습을 진행함에 따라 모델의 성능이 저하되는 단점이 있다. 추가적으로, 숙어, 구동사 등에 대한 의미를 고려하지 못하는 한계가 있다.
본 발명은 상기와 같은 문제점을 해결하기 위한 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법, 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체 및 장치(시스템)를 제공한다.
본 발명은 방법, 장치(시스템), 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 포함한 다양한 방식으로 구현될 수 있다.
본 발명의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 WSD와 연관된 모델 학습 방법은, 단어의 제1 의미와 연관된 제1 세트의 학습 데이터 및 단어의 제2 의미와 연관된 제2 세트의 학습 데이터를 포함하는 배치를 생성하는 단계 및 생성된 배치를 기초로 본 발명은 방법, 장치(시스템), 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 포함한 다양한 방식으로 구현될 수 있다.
본 발명의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법은, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하는 단계, 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하는 단계 및 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 의사 라벨 데이터는 약한 라벨 데이터에 포함된 라벨링되지 않은 토큰에 대한 추정 라벨링 정보를 포함한다.
본 발명의 일 실시예에 따르면, 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 언어 모델은 DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델이다.
본 발명의 일 실시예에 따르면, 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는, 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 의사 라벨 데이터인 경우, 변수의 값을 1 이하의 값으로 결정하는 단계를 포함한다.
본 발명의 일 실시예에 따른 상술된 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 제공된다.
본 발명의 일 실시예에 따른 컴퓨팅 장치는, 통신 모듈, 메모리 및 메모리와 연결되고, 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서를 포함한다. 적어도 하나의 프로그램은, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하고, 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하고, 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 포함한다.
본 발명의 다양한 실시예에서 각 단어에 대응하는 배치를 생성하는 WSD 모델의 학습을 수행하는 경우, 모든 의미에 대응하는 모든 데이터를 효과적으로 추출되어 각 단어에 대한 독립적인 멀티 태스크 학습이 수행될 수 있다. 또한, 이와 같이 멀티 태스크 학습이 수행되는 경우, 생성된 WSD 모델은 입력된 하나의 문장만을 이용하여 특정 문맥에서의 WSD를 수행할 수 있다.
본 발명의 다양한 실시예에서 WSD 모델은 서포트 셋과 쿼리 셋의 구분 없이 계산을 수행하여 학습 데이터를 모두 활용한 학습을 수행할 수 있으며, 이에 따라 정보의 손실 없이 학습을 수행할 수 있다. 또한, 마진을 만족하는 경우, 데이터 사이의 거리가 더 멀어지거나 가까워지도록 학습을 수행하지 않을 수 있으므로 학습 효율이 증가할 수 있다.
본 발명의 다양한 실시예에서 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 WSD 모델을 학습하는 경우, 마스크 언어 모델링 손실을 추가적인 코퍼스에 적용함으로써 추가적인 사전 훈련 효과가 발생하는 이점이 있다. 또한, 사전 훈련 태스크를 지속적으로 같이 학습하여 마스킹된 입력을 복원하는 기능을 WSD 모델이 유지할 수 있으며, 학습이 진행되는 배치를 구성하는 단어에 대해 오버 피팅이 발생하는 현상을 방지할 수 있다.
본 발명의 다양한 실시예에서 SWA 알고리즘 및 GreedySoup 알고리즘을 모두 이용하여 가중치를 최적화하는 경우, 최종적인 WSD 모델의 일반화 성능이 현저히 향상될 수 있다.
본 발명의 다양한 실시예에서 숙어를 구성하는 토큰들에 대한 라벨링을 수행하여 WSD 모델을 학습시킴으로써 시간 복잡도가 현저히 줄어들 수 있으며, 이에 따라 시스템 과부하가 발생할 가능성을 효과적으로 차단할 수 있다.
본 발명의 다양한 실시예에서 약한 라벨 데이터 및 의사 라벨 데이터를 모두 이용하여 학습을 진행함으로써, 약한 라벨 데이터를 이용하는 경우에도 정확도 하락이 발생하지 않도록 제2 모델이 생성될 수 있다. 또한, 제1 모델을 이용하여 약한 라벨 데이터만을 이용하는 경우에도 효과적으로 라벨링 데이터가 수집될 수 있다.
본 발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자("통상의 기술자"라 함)에게 명확하게 이해될 수 있을 것이다.
본 발명의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.
도 1은 본 발명의 일 실시예에 따른 WSD를 수행하는 모델을 생성하기 위한 배치가 생성되는 예시를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 WSD 모델을 학습시키기 위한 손실 함수의 예시를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 일반화가 수행되는 예시를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 숙어에 대한 효과적인 처리가 가능한 라벨링이 수행되는 예시를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 WSD 모델 생성을 위한 데이터를 생성하는 예시를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 WSD와 연관된 모델 학습 방법의 예시를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 숙어 처리를 위한 WSD와 연관된 모델 학습 방법의 예시를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법의 예시를 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 나타내는 블록도이다.
이하, 본 발명의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명이 완전하도록 하고, 본 발명이 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
본 발명에서, "포함하다", "포함하는" 등의 용어는 특징들, 단계들, 동작들, 요소들 및/또는 구성 요소들이 존재하는 것을 나타낼 수 있으나, 이러한 용어가 하나 이상의 다른 기능들, 단계들, 동작들, 요소들, 구성 요소들 및/또는 이들의 조합이 추가되는 것을 배제하지는 않는다.
본 발명에서, 특정 구성 요소가 임의의 다른 구성 요소에 "결합", "조합", "연결" 되거나, "반응" 하는 것으로 언급된 경우, 특정 구성 요소는 다른 구성 요소에 직접 결합, 조합 및/또는 연결되거나, 반응할 수 있으나, 이에 한정되지 않는다. 예를 들어, 특정 구성 요소와 다른 구성 요소 사이에 하나 이상의 중간 구성 요소가 존재할 수 있다. 또한, 본 발명에서 "및/또는"은 열거된 하나 이상의 항목의 각각 또는 하나 이상의 항목의 적어도 일부의 조합을 포함할 수 있다.
본 발명에서, "제1", "제2" 등의 용어는 특정 구성 요소를 다른 구성 요소와 구별하기 위해 사용되는 것으로, 이러한 용어에 의해 상술된 구성 요소가 제한되진 않는다. 예를 들어, "제1" 구성 요소는 "제2" 구성 요소와 동일하거나 유사한 형태의 요소일 수 있다.
본 발명에서, "WSD(Word Sense Disambiguation)"는 특정 맥락에서 단어의 사용에 의해 단어의 어떤 의미가 활성화되는지를 결정하는 것을 지칭할 수 있으며, WSD 모델은 WSD를 수행하는 기계학습 모델을 지칭할 수 있다.
본 발명에서, "모델"은 기계학습 모델 및/또는 인공신경망 모델을 지칭하는 것으로서, 주어진 입력에 대한 답을 추론하는 데 사용하는 임의의 모델을 포함할 수 있다. 일 실시예에 따르면, 모델은 입력 레이어(층), 복수 개의 은닉 레이어 및 출력 레이어를 포함한 딥 뉴럴 네트워크를 포함할 수 있다. 여기서, 각 레이어는 하나 이상의 노드를 포함할 수 있다. 또한, 모델은 모델에 포함된 복수의 노드와 연관된 가중치를 포함할 수 있다. 여기서, 가중치는 인공신경망 모델과 연관된 임의의 파라미터를 포함할 수 있다.
본 발명에서, "퓨샷 러닝(few-shot learning)"은 소량의 데이터만으로도 좋은 성능을 갖는 인공신경망 모델을 학습시키는 방법을 지칭할 수 있다.
본 발명에서, "언어 모델(language model)"은 단어 시퀀스에 대한 확률을 할당하거나 계산하기 위한 인공신경망 모델일 수 있으며, 사전 훈련된 모델로서 예를 들어, BERT(Bidirectional Encoder Representations from Transformers) 기반의 모델을 포함할 수 있다.
도 1은 본 발명의 일 실시예에 따른 WSD를 수행하는 모델을 생성하기 위한 배치(120)가 생성되는 예시를 나타내는 도면이다. 도시된 것과 같이, 학습 데이터(110)는 각 단어(word) 및 의미(sense)에 대응하는 데이터(data)들을 포함할 수 있다. 예를 들어, 데이터는 문장(sentence) 데이터일 수 있으며, 문장 데이터는 문장에 포함된 각각의 단어에 대응하는 복수의 토큰(token)으로 구성될 수 있다. 즉, 학습 데이터(110)는 특정 문맥에서의 단어의 의미로 구분되는 복수의 문장 데이터를 포함할 수 있다.
일 실시예에 따르면, 단어의 제1 의미와 연관된 제1 세트의 학습 데이터 및 단어의 제2 의미와 연관된 제2 세트의 학습 데이터를 포함하는 배치(120)가 생성될 수 있다. 즉, 사전 학습된 언어 모델(130)에 대한 파인 튜닝(fine tuning)을 수행하기 위해 배치(120)가 생성될 수 있다. 여기서, 배치(120)는 학습 데이터(110)의 적어도 일부의 집합으로써, 각 단어(word) 마다 대응되는 배치(120) 및/또는 배치 셋이 생성될 수 있다. 이에 따라, 언어 모델(130)은 각 단어에 대응하는 배치 셋(batch set)을 기초로 각각의 단어에 대해 독립적인 멀티 태스크 학습(multi-task learning) 방식으로 학습될 수 있다. 여기서, 언어 모델(130)은 BERT(Bidirectional Encoder Representations from Transformers) 기반의 모델일 수 있으며, 예를 들어, DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델을 포함할 수 있다.
일 실시예에 따르면, 하나의 배치(120)에 다양한 조합의 의미를 갖는 데이터를 포함시키기 위해 의미 인덱스(sense index)를 랜덤하게 선택하여 배치(120)에 포함되는 데이터를 추출할 수 있다. 예를 들어, 배치(120)가 K개의 의미에 대응하는 데이터를 포함할 수 있는 경우, K+a 개의 의미 중 K개의 의미가 랜덤하게 선택되어 선택된 의미에 대응하는 데이터들이 배치(120)에 포함될 수 있다. 이 경우, a 값은 의미 인덱스가 랜덤하게 선택되는 정도와 데이터가 중복되는 정도 사이를 조정하기 위한 값일 수 있다. 이와 같은 구성에 의해, 각 단어에 대응하는 배치(120)를 생성하는 WSD 모델의 학습을 수행하는 경우, 모든 의미에 대응하는 모든 데이터를 효과적으로 추출되어 각 단어에 대한 독립적인 멀티 태스크 학습이 수행될 수 있다. 또한, 이와 같이 멀티 태스크 학습이 수행되는 경우, 생성된 WSD 모델은 입력된 하나의 문장만을 이용하여 특정 문맥에서의 WSD를 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 WSD 모델(210)을 학습시키기 위한 손실 함수의 예시를 나타내는 도면이다. 일반적으로, 기존의 WSD 모델은 데이터 개수가 작은 단어의 의미(sense)에 대해서도 충분한 성능을 발휘하기 위해 퓨샷 러닝(few-shot learning)의 학습 방식으로 학습될 수 있다. 그러나, 일반적인 퓨샷 러닝 학습 방식은 배치 셋을 서포트 셋(support set)과 쿼리 셋(query set)으로 나누어서 학습하는 방식이어서 서포트 셋과 쿼리 셋 사이의 거리(distance)만을 학습하기 때문에 모든 정보를 활용하여 학습하지 않는 문제가 있다.
일 실시예에 따르면, 상술된 문제를 해결하기 위해 본 발명에 따른 WSD 모델(210)은 메트릭 기반의 퓨샷 러닝(metric-based few-shot learning)으로 학습될 수 있다. 예를 들어, WSD 모델(210)은 다음의 수학식 1과 같은 마진 기반의 손실(또는 손실 함수)(212)을 이용하여 학습될 수 있다.
Figure PCTKR2023016945-appb-img-000001
Figure PCTKR2023016945-appb-img-000002
Figure PCTKR2023016945-appb-img-000003
Figure PCTKR2023016945-appb-img-000004
Figure PCTKR2023016945-appb-img-000005
Figure PCTKR2023016945-appb-img-000006
일반적으로, 방대한 양의 데이터 셋으로 사전 훈련된 언어 모델에 대한 파인 튜닝이 수행되는 경우, 사전 훈련된 언어 모델의 파라미터가 가지고 있는 정보가 사라지거나 오버 피팅(overfitting)이 발생하는 문제가 있다.
이와 같은 문제를 해결하기 위해, 본 발명에 따른 WSD 모델(210)은 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합을 이용하여 학습될 수 있다. 예를 들어, WSD 모델(210)은 다음의 수학식 2와 같은 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합을 이용하여 학습될 수 있다.
Figure PCTKR2023016945-appb-img-000007
Figure PCTKR2023016945-appb-img-000008
Figure PCTKR2023016945-appb-img-000009
일 실시예에 따르면, 마스크 언어 모델링 손실(214)은 언어 모델을 사전 훈련할 때 사용되는 함수에서 ri가 추가된 형태일 수 있다. 여기서, ri는 1인 경우에만 마스크 언어 모델링 손실(214)의 손실 값이 계산될 수 있으며, 이에 따라 데이터 샘플링을 수행할 수 있다. 이와 같이, 데이터 샘플링을 수행하는 경우, GPU VRAM의 사용량을 줄일 수 있으며, 이에 따라, 더 큰 배치 사이즈가 학습에 이용될 수 있다. 또한, WSD 모델(210)은 이러한 마스크 언어 모델링 손실(214)을 통해 더 많은 경우의 거리 쌍(distance pair)을 관찰함으로써 성능이 향상될 수 있다.
일 실시예에 따르면, 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합의 총 손실 값(220)이 작아지도록 역전파(back-propagation)가 수행될 수 있다. 이와 같은 구성에 의해, 마진 기반의 손실(212) 및 마스크 언어 모델링 손실(214)의 선형 결합을 이용하여 WSD 모델(210)을 학습하는 경우, 마스크 언어 모델링 손실(214)을 추가적인 코퍼스(corpus)에 적용함으로써 추가적인 사전 훈련 효과가 발생하는 이점이 있다. 또한, 사전 훈련 태스크를 지속적으로 같이 학습하여 마스킹된 입력을 복원하는 기능을 WSD 모델(210)이 유지할 수 있으며, 학습이 진행되는 배치를 구성하는 단어에 대해 오버 피팅이 발생하는 현상을 방지할 수 있다.
도 3은 본 발명의 일 실시예에 따른 일반화가 수행되는 예시를 나타내는 도면이다. 일 실시예에 따르면, 일반화(generalization)는 학습 데이터에 없는 새로운 샘플에 대한 오류를 최소화하는 모델의 학습 방법을 지칭할 수 있다. 도시된 것과 같이, 복수의 모델(310)을 생성하고, 각 모델에 SWA(Stochastic Weight Averaging) 알고리즘(320) 및 GreedySoup 알고리즘(330)을 적용하여 최종 모델의 일반화 성능을 향상시킬 수 있다. 여기서, SWA 알고리즘(320)은 각 모델의 가중치(weight)를 평균화하기 위한 알고리즘을 지칭할 수 있으며, GreedySoup 알고리즘(330)은 복수의 모델의 가중치를 조합하여 평균화하기 위한 알고리즘을 지칭할 수 있다.
일 실시예에 따르면, SWA 알고리즘(320)은 모델의 학습이 사전 결정된 기준 이상 진행된 후, 사전 결정된 기준 이하의 학습률(learning rate)로 모델 학습을 계속 진행하면서 가중치를 평균화하는 알고리즘을 지칭할 수 있다. 예를 들어, SWA 알고리즘(320)이 사용되는 경우, 제1 모델(310_1)의 가중치가 평균화되고, 제2 모델(310_2)의 가중치가 평균화되고, 제n 모델(310_n)의 가중치가 평균화될 수 있다. 이와 같이 가중치가 평균화되는 경우, 각 모델의 성능이 향상될 수 있다.
일 실시예에 따르면, 학습된 복수의 모델(310)을 이용하여 하나의 WSD 모델을 생성할 수 있다. 예를 들어, GreedySoup 알고리즘(330)을 기초로 각 모델의 가중치를 평균화하여 최종적인 WSD 모델의 가중치를 결정할 수 있다. 이 경우, 학습된 복수의 모델(310)의 가중치들 중 일부의 가중치가 선택되어 평균화될 수 있다. 예를 들어, 가중치를 조합하고 평균화한 후 WSD 모델의 성능을 측정하고, WSD 모델의 성능이 향상된 경우에만 조합된 가중치가 선택되어 평균화될 수 있다. 이와 같은 구성에 의해, SWA 알고리즘(320) 및 GreedySoup 알고리즘(330)을 모두 이용하여 가중치를 최적화하는 경우, 최종적인 WSD 모델의 일반화 성능이 현저히 향상될 수 있다.
도 3에는 WSD 모델의 일반화를 위해, SWA 알고리즘(320) 및 GreedySoup 알고리즘(330)이 모두 이용된 것으로 상술되었으나, 이에 한정되지 않는다. SWA 알고리즘(320) 및 GreedySoup 알고리즘(330)은 선택적으로 이용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 숙어에 대한 효과적인 처리가 가능한 라벨링이 수행되는 예시를 나타내는 도면이다. 일 실시예에 따르면, 숙어는 2개 이상의 단어가 결합하여 구문상 1개의 단어와 같은 작용을 하는 단어를 지칭할 수 있다. 예를 들어, 숙어 k(410)는 숙어 k(410)를 구성하는 각각의 단어를 나타내는 제1 토큰(420_1), 제2 토큰(420_2), 제n 토큰(420_n) 등으로 구성될 수 있다.
일반적으로, 종래의 WSD 모델은 숙어를 구성하는 토큰들이 서로 인접한 것을 가정하고, 인접한 토큰들의 임베딩을 이용하여 숙어에 대한 WSD를 수행한다. 그러나, 이와 같은 방법을 이용하는 경우 서로 인접하지 않은 토큰들이 숙어를 구성하는 것을 고려하지 못하고, 숙어의 임베딩을 계산하기 위한 시간 복잡도(time complexity)가 증가하는 문제가 있다.
Figure PCTKR2023016945-appb-img-000010
이와 같이 시간 복잡도가 증가하는 문제를 해결하기 위해, 숙어에 포함된 각각의 토큰들은 해당 숙어의 의미로 라벨링될 수 있다. 예를 들어, 숙어 k(410)가 숙어를 구성하는 각각의 단어를 나타내는 제1 토큰(420_1), 제2 토큰(420_2), 제n 토큰(420_n) 등으로 구성되는 경우, 해당 토큰들(420)은 숙어 k로 라벨링될 수 있다(430).
다시 말해, 제1 토큰 및 제2 토큰을 포함하는 복수의 토큰으로 구성된 숙어 데이터가 추출되는 경우, 제1 토큰에 대응하는 제1 단어에 숙어의 의미(sense)를 라벨링(labeling)하고, 제2 토큰에 대응하는 제2 단어에 숙어의 의미를 라벨링할 수 있다. 그리고 나서, 제1 단어에 대응하도록 생성된 제1 배치 및 제2 단어에 대응하도록 생성된 제2 배치를 기초로 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델이 생성될 수 있다. 이와 같이 라벨링을 수행하는 경우, 임의의 문장 x에 대해 숙어의 임베딩을 계산하기 위한 조합의 개수는 다음의 수학식 5와 같이 구성될 수 있다.
Figure PCTKR2023016945-appb-img-000011
이와 같은 구성에 의해, 숙어를 구성하는 토큰들에 대한 라벨링을 수행하여 WSD 모델을 학습시킴으로써 시간 복잡도가 현저히 줄어들 수 있으며, 이에 따라 시스템 과부하가 발생할 가능성을 효과적으로 차단할 수 있다.
도 5는 본 발명의 일 실시예에 따른 WSD 모델 생성을 위한 데이터를 생성하는 예시를 나타내는 도면이다. 일반적으로, WSD 모델 학습을 위해 문장에 포함된 모든 토큰에 대해 라벨링을 수행하는 것은 상당한 비용이 소요되며 비효율적이다. 따라서, 문장을 구성하는 토큰 중 일부만 라벨링된 약한 라벨 데이터(weakly labeled data)를 이용하여 학습을 수행하는 것이 중요하다. 그러나, 약한 라벨 데이터를 이용하는 경우, 라벨링되지 않은 토큰에 대해 잘못된 임베딩이 생성되어 정확도 하락(accuracy drop)이 발생할 수 있는 문제가 있다.
이러한 문제를 해결하기 위해, 총 3 단계의 WSD 모델 학습 과정이 수행될 수 있다. 먼저, 제1 단계(stage 1)는 완전 라벨 데이터(fully labeled data)(512)를 이용하여 WSD를 수행하는 제1 모델(510)을 생성하는 과정일 수 있다. 즉, 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터(512)를 이용하여 단어에 대한 WSD를 수행하는 제1 모델(510)이 생성될 수 있다. 상술한 바와 같이, 제1 모델(510)은 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 학습될 수 있으며, SWA 알고리즘 및/또는 Greedy Soup 알고리즘이 적용된 모델일 수 있다.
제2 단계(stage 2)는 생성된 제1 모델(510)에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터(514)를 제공하여 의사 라벨 데이터(pseudo labeled data)(516)를 추출하는 과정일 수 있다. 즉, 제1 모델(510)에 의해 약한 라벨 데이터(514)에 포함된 토큰 중 라벨링이 되지 않은 토큰들에 대한 라벨이 생성되어 의사 라벨 데이터(516)가 추출될 수 있다. 여기서, 의사 라벨 데이터(516)는 약한 라벨 데이터(514)에 포함된 라벨링(labeling)되지 않은 토큰에 대한 추정 라벨링 정보를 포함할 수 있다.
제3 단계(stage 3)는 약한 라벨 데이터(514) 및 의사 라벨 데이터(516)를 이용하여 단어에 대한 WSD를 수행하는 제2 모델(520)을 생성하는 과정일 수 있다. 상술한 바와 같이, 제2 모델(520)은 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 학습될 수 있으며, SWA 알고리즘 및 Greedy Soup 알고리즘이 적용된 모델일 수 있다.
일 실시예에 따르면, 제2 모델(520)을 생성하기 위해 사용되는 마진 기반의 손실은 의사 라벨 데이터(516)에 대한 페널티를 부여하기 위한 변수를 포함할 수 있다. 예를 들어, 제2 모델(520)을 생성하기 위한 손실 함수는 다음의 수학식 6과 같이 구성될 수 있다.
Figure PCTKR2023016945-appb-img-000012
예를 들어, 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 의사 라벨 데이터(516)인 경우, 변수(ri,j)의 값은 1 이하의 값으로 결정될 수 있다. 즉, 의사 라벨 데이터(516)는 노이즈(noise)를 포함할 수 밖에 없으며, 의사 라벨 데이터(516)가 입력되는 경우, 의사 라벨 데이터(516)에 페널티를 부여함으로써 노이즈의 영향을 감소시킬 수 있다.
이와 같은 구성에 의해, 약한 라벨 데이터(514) 및 의사 라벨 데이터(516)를 모두 이용하여 학습을 진행함으로써, 약한 라벨 데이터(514)를 이용하는 경우에도 정확도 하락이 발생하지 않도록 제2 모델(520)이 생성될 수 있다. 또한, 제1 모델(510)을 이용하여 약한 라벨 데이터(514)만을 이용하는 경우에도 효과적으로 라벨링 데이터가 수집될 수 있다.
도 6은 본 발명의 일 실시예에 따른 WSD와 연관된 모델 학습 방법(600)의 예시를 나타내는 도면이다. WSD와 연관된 모델 학습 방법(600)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. WSD와 연관된 모델 학습 방법(600)은 프로세서가 단어의 제1 의미와 연관된 제1 세트의 학습 데이터 및 단어의 제2 의미와 연관된 제2 세트의 학습 데이터를 포함하는 배치를 생성함으로써 개시될 수 있다(S610).
프로세서는 생성된 배치를 기초로 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다(S620). 예를 들어, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 이 경우, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 또한, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행할 수 있다.
도 7은 본 발명의 일 실시예에 따른 숙어 처리를 위한 WSD와 연관된 모델 학습 방법(700)의 예시를 나타내는 도면이다. 숙어 처리를 위한 WSD와 연관된 모델 학습 방법(700)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 숙어 처리를 위한 WSD와 연관된 모델 학습 방법(700)은 프로세서가 제1 토큰 및 제2 토큰을 포함하는 복수의 토큰으로 구성된 숙어 데이터를 추출함으로써 개시될 수 있다(S710).
일 실시예에 따르면, 프로세서는 제1 토큰에 대응하는 제1 단어에 숙어의 의미를 라벨링하고, 제2 토큰에 대응하는 제2 단어에 숙어의 의미를 라벨링할 수 있다(S720). 그리고 나서, 프로세서는 제1 단어에 대응하도록 생성된 제1 배치 및 제2 단어에 대응하도록 생성된 제2 배치를 기초로 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다(S730).
프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 예를 들어, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 제1 단어 및 제2 단어에 대한 WSD를 수행하는 모델을 생성할 수 있다. 또한, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행할 수 있다.
도 8은 본 발명의 일 실시예에 따른 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법(800)의 예시를 나타내는 도면이다. 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법(800)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법(800)은 프로세서가 문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성함으로써 개시될 수 있다(S810).
프로세서는 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출할 수 있다(S820). 여기서, 의사 라벨 데이터는 약한 라벨 데이터에 포함된 라벨링되지 않은 토큰에 대한 추정 라벨링 정보를 포함할 수 있다. 그리고 나서, 프로세서는 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다(S830).
일 실시예에 따르면, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다. 예를 들어, 프로세서는 마진 기반의 손실 및 마스크 언어 모델링 손실의 선형 결합을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다.
일 실시예에 따르면, 프로세서는 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성할 수 있다. 예를 들어, 프로세서는 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 의사 라벨 데이터인 경우, 변수의 값을 1 이하의 값으로 결정할 수 있다.
도 9는 본 발명의 일 실시예에 따른 컴퓨팅 장치(900)의 내부 구성을 나타내는 블록도이다. 일 실시예에 따르면, 컴퓨팅 장치(900)는 메모리(910), 프로세서(920), 통신 모듈(930) 및 입출력 인터페이스(940)를 포함할 수 있다. 도 9에 도시된 바와 같이, 컴퓨팅 장치(900)는 통신 모듈(930)을 이용하여 네트워크를 통해 정보 및/또는 데이터를 통신할 수 있도록 구성될 수 있다.
메모리(910)는 비-일시적인 임의의 컴퓨터 판독 가능한 기록매체를 포함할 수 있다. 일 실시예에 따르면, 메모리(910)는 RAM(random access memory), ROM(read only memory), 디스크 드라이브, SSD(solid state drive), 플래시 메모리(flash memory) 등과 같은 비소멸성 대용량 저장 장치(permanent mass storage device)를 포함할 수 있다. 다른 예로서, ROM, SSD, 플래시 메모리, 디스크 드라이브 등과 같은 비소멸성 대용량 저장 장치는 메모리와는 구분되는 별도의 영구 저장 장치로서 컴퓨팅 장치(900)에 포함될 수 있다. 또한, 메모리(910)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다.
이러한 소프트웨어 구성요소들은 메모리(910)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 이러한 컴퓨팅 장치(900)에 직접 연결가능한 기록 매체를 포함할 수 있는데, 예를 들어, 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 예로서, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 모듈(930)을 통해 메모리(910)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템이 통신 모듈(930)을 통해 제공하는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 메모리(910)에 로딩될 수 있다.
프로세서(920)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(910) 또는 통신 모듈(930)에 의해 사용자 단말(미도시) 또는 다른 외부 시스템으로 제공될 수 있다.
통신 모듈(930)은 네트워크를 통해 사용자 단말(미도시)과 컴퓨팅 장치(900)가 서로 통신하기 위한 구성 또는 기능을 제공할 수 있으며, 컴퓨팅 장치(900)가 외부 시스템(일례로 별도의 클라우드 시스템 등)과 통신하기 위한 구성 또는 기능을 제공할 수 있다. 일례로, 컴퓨팅 장치(900)의 프로세서(920)의 제어에 따라 제공되는 제어 신호, 명령, 데이터 등이 통신 모듈(930)과 네트워크를 거쳐 사용자 단말 및/또는 외부 시스템의 통신 모듈을 통해 사용자 단말 및/또는 외부 시스템으로 전송될 수 있다.
또한, 컴퓨팅 장치(900)의 입출력 인터페이스(940)는 컴퓨팅 장치(900)와 연결되거나 컴퓨팅 장치(900)가 포함할 수 있는 입력 또는 출력을 위한 장치(미도시)와의 인터페이스를 위한 수단일 수 있다. 도 9에서는 입출력 인터페이스(940)가 프로세서(920)와 별도로 구성된 요소로서 도시되었으나, 이에 한정되지 않으며, 입출력 인터페이스(940)가 프로세서(920)에 포함되도록 구성될 수 있다. 컴퓨팅 장치(900)는 도 9의 구성요소들보다 더 많은 구성요소들을 포함할 수 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다.
컴퓨팅 장치(900)의 프로세서(920)는 복수의 사용자 단말 및/또는 복수의 외부 시스템으로부터 수신된 정보 및/또는 데이터를 관리, 처리 및/또는 저장하도록 구성될 수 있다.
상술된 방법 및/또는 다양한 실시예들은, 디지털 전자 회로, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 본 발명의 다양한 실시예들은 데이터 처리 장치, 예를 들어, 프로그래밍 가능한 하나 이상의 프로세서 및/또는 하나 이상의 컴퓨팅 장치에 의해 실행되거나, 컴퓨터 판독 가능한 기록 매체 및/또는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 상술된 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램, 모듈, 서브 루틴 등의 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨팅 장치, 동일한 네트워크를 통해 연결된 복수의 컴퓨팅 장치 및/또는 복수의 상이한 네트워크를 통해 연결되도록 분산된 복수의 컴퓨팅 장치를 통해 배포될 수 있다.
상술된 방법 및/또는 다양한 실시예들은, 입력 데이터를 기초로 동작하거나 출력 데이터를 생성함으로써, 임의의 기능, 함수 등을 처리, 저장 및/또는 관리하는 하나 이상의 컴퓨터 프로그램을 실행하도록 구성된 하나 이상의 프로세서에 의해 수행될 수 있다. 예를 들어, 본 발명의 방법 및/또는 다양한 실시예는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있으며, 본 발명의 방법 및/또는 실시예들을 수행하기 위한 장치 및/또는 시스템은 FPGA 또는 ASIC와 같은 특수 목적 논리 회로로서 구현될 수 있다.
컴퓨터 프로그램을 실행하는 하나 이상의 프로세서는, 범용 목적 또는 특수 목적의 마이크로 프로세서 및/또는 임의의 종류의 디지털 컴퓨팅 장치의 하나 이상의 프로세서를 포함할 수 있다. 프로세서는 읽기 전용 메모리, 랜덤 액세스 메모리의 각각으로부터 명령 및/또는 데이터를 수신하거나, 읽기 전용 메모리와 랜덤 액세스 메모리로부터 명령 및/또는 데이터를 수신할 수 있다. 본 발명에서, 방법 및/또는 실시예들을 수행하는 컴퓨팅 장치의 구성 요소들은 명령어들을 실행하기 위한 하나 이상의 프로세서, 명령어들 및/또는 데이터를 저장하기 위한 하나 이상의 메모리 디바이스를 포함할 수 있다.
일 실시예에 따르면, 컴퓨팅 장치는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치와 데이터를 주고받을 수 있다. 예를 들어, 컴퓨팅 장치는 자기 디스크(magnetic disc) 또는 광 디스크(optical disc)로부터 데이터를 수신하거나/수신하고, 자기 디스크 또는 광 디스크로 데이터를 전송할 수 있다. 컴퓨터 프로그램과 연관된 명령어들 및/또는 데이터를 저장하기에 적합한 컴퓨터 판독 가능한 저장 매체는, EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable PROM), 플래시 메모리 장치 등의 반도체 메모리 장치를 포함하는 임의의 형태의 비 휘발성 메모리를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨터 판독 가능한 저장 매체는 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, CD-ROM 및 DVD-ROM 디스크를 포함할 수 있다.
사용자와의 상호 작용을 제공하기 위해, 컴퓨팅 장치는 정보를 사용자에게 제공하거나 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT (Cathode Ray Tube), LCD(Liquid Crystal Display) 등) 및 사용자가 컴퓨팅 장치 상에 입력 및/또는 명령 등을 제공할 수 있는 포인팅 장치(예를 들어, 키보드, 마우스, 트랙볼 등)를 포함할 수 있으나, 이에 한정되지 않는다. 즉, 컴퓨팅 장치는 사용자와의 상호 작용을 제공하기 위한 임의의 다른 종류의 장치들을 더 포함할 수 있다. 예를 들어, 컴퓨팅 장치는 사용자와의 상호 작용을 위해, 시각적 피드백, 청각 피드백 및/또는 촉각 피드백 등을 포함하는 임의의 형태의 감각 피드백을 사용자에게 제공할 수 있다. 이에 대해, 사용자는 시각, 음성, 동작 등의 다양한 제스처를 통해 컴퓨팅 장치로 입력을 제공할 수 있다.
본 발명에서, 다양한 실시예들은 백엔드 구성 요소(예: 데이터 서버), 미들웨어 구성 요소(예: 애플리케이션 서버) 및/또는 프론트 엔드 구성 요소를 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 이 경우, 구성 요소들은 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 상호 연결될 수 있다. 예를 들어, 통신 네트워크는 LAN(Local Area Network), WAN(Wide Area Network) 등을 포함할 수 있다.
본 명세서에서 기술된 예시적인 실시예들에 기반한 컴퓨팅 장치는, 사용자 디바이스, 사용자 인터페이스(UI) 디바이스, 사용자 단말 또는 클라이언트 디바이스를 포함하여 사용자와 상호 작용하도록 구성된 하드웨어 및/또는 소프트웨어를 사용하여 구현될 수 있다. 예를 들어, 컴퓨팅 장치는 랩톱(laptop) 컴퓨터와 같은 휴대용 컴퓨팅 장치를 포함할 수 있다. 추가적으로 또는 대안적으로, 컴퓨팅 장치는, PDA(Personal Digital Assistants), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스 등을 포함할 수 있으나, 이에 한정되지 않는다. 컴퓨팅 장치는 사용자와 상호 작용하도록 구성된 다른 유형의 장치를 더 포함할 수 있다. 또한, 컴퓨팅 장치는 이동 통신 네트워크 등의 네트워크를 통한 무선 통신에 적합한 휴대용 통신 디바이스(예를 들어, 이동 전화, 스마트 전화, 무선 셀룰러 전화 등) 등을 포함할 수 있다. 컴퓨팅 장치는, 무선 주파수(RF; Radio Frequency), 마이크로파 주파수(MWF; Microwave Frequency) 및/또는 적외선 주파수(IRF; Infrared Ray Frequency)와 같은 무선 통신 기술들 및/또는 프로토콜들을 사용하여 네트워크 서버와 무선으로 통신하도록 구성될 수 있다.
본 발명에서 특정 구조적 및 기능적 세부 사항을 포함하는 다양한 실시예들은 예시적인 것이다. 따라서, 본 발명의 실시예들은 상술된 것으로 한정되지 않으며, 여러 가지 다른 형태로 구현될 수 있다. 또한, 본 발명에서 사용된 용어는 일부 실시예를 설명하기 위한 것이며 실시예를 제한하는 것으로 해석되지 않는다. 예를 들어, 단수형 단어 및 상기는 문맥상 달리 명확하게 나타내지 않는 한 복수형도 포함하는 것으로 해석될 수 있다.
본 발명에서, 달리 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함하여 본 명세서에서 사용되는 모든 용어는 이러한 개념이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 또한, 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 맥락에서의 의미와 일치하는 의미를 갖는 것으로 해석되어야 한다.
본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명의 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 발명의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims (17)

  1. 적어도 하나의 프로세서에 의해 수행되는 약한 라벨 데이터 기반의 WSD(Word Sense Disambiguation)와 연관된 모델 학습 방법으로서,
    문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터(fully labeled data)를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하는 단계;
    상기 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터(weakly labeled data)를 제공하여 의사 라벨 데이터(pseudo labeled data)를 추출하는 단계; 및
    상기 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;
    를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  2. 제1항에 있어서,
    상기 의사 라벨 데이터는 상기 약한 라벨 데이터에 포함된 라벨링(labeling)되지 않은 토큰에 대한 추정 라벨링 정보를 포함하는, 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  3. 제1항에 있어서,
    상기 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,
    마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝(fine tuning)을 수행하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;
    를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  4. 제3항에 있어서,
    상기 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,
    상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;
    를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  5. 제4항에 있어서,
    상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,
    상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파(back-propagation)를 수행하는 단계;
    를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  6. 제3항에 있어서,
    상기 언어 모델은 DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델인, 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  7. 제3항에 있어서,
    상기 마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,
    상기 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 상기 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계;
    를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  8. 제7항에 있어서,
    상기 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 상기 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하는 단계는,
    상기 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 상기 의사 라벨 데이터인 경우, 상기 변수의 값을 1 이하의 값으로 결정하는 단계;
    를 포함하는 약한 라벨 데이터 기반의 WSD와 연관된 모델 학습 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
  10. 컴퓨팅 장치로서,
    통신 모듈;
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로그램은,
    문장을 구성하는 복수의 토큰이 모두 라벨링된 완전 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제1 모델을 생성하고,
    상기 생성된 제1 모델에 문장을 구성하는 복수의 토큰 중 일부가 라벨링된 약한 라벨 데이터를 제공하여 의사 라벨 데이터를 추출하고,
    상기 약한 라벨 데이터 및 의사 라벨 데이터를 이용하여 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 포함하는 컴퓨팅 장치.
  11. 제10항에 있어서,
    상기 의사 라벨 데이터는 상기 약한 라벨 데이터에 포함된 라벨링되지 않은 토큰에 대한 추정 라벨링 정보를 포함하는, 컴퓨팅 장치.
  12. 제10항에 있어서,
    상기 적어도 하나의 프로그램은,
    마진 기반의 손실 및 마스크 언어 모델링 손실을 이용하여 사전 훈련된 언어 모델에 대한 파인 튜닝을 수행하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
  13. 제12항에 있어서,
    상기 적어도 하나의 프로그램은,
    상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
  14. 제13항에 있어서,
    상기 적어도 하나의 프로그램은,
    상기 마진 기반의 손실 및 상기 마스크 언어 모델링 손실의 선형 결합의 총 손실 값이 작아지도록 역전파를 수행하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
  15. 제12항에 있어서,
    상기 언어 모델은 DeBERTa(Decoding-enhanced BERT with Disentangled Attention) 모델인, 컴퓨팅 장치.
  16. 제12항에 있어서,
    상기 적어도 하나의 프로그램은,
    상기 의사 라벨 데이터에 대한 페널티를 부여하기 위한 변수를 포함하는 상기 마진 기반의 손실, 및 마스크 언어 모델링 손실을 이용하여 상기 단어에 대한 WSD를 수행하는 제2 모델을 생성하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
  17. 제16항에 있어서,
    상기 적어도 하나의 프로그램은,
    상기 마진 기반의 손실에 입력된 제1 데이터 및 제2 데이터 중 적어도 하나가 상기 의사 라벨 데이터인 경우, 상기 변수의 값을 1 이하의 값으로 결정하기 위한 명령어들을 더 포함하는 컴퓨팅 장치.
PCT/KR2023/016945 2022-10-27 2023-10-27 약한 라벨 데이터 기반의 wsd와 연관된 모델 학습 방법 및 장치 WO2024091088A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220139921A KR20240059099A (ko) 2022-10-27 2022-10-27 약한 라벨 데이터 기반의 wsd와 연관된 모델 학습 방법 및 장치
KR10-2022-0139921 2022-10-27

Publications (1)

Publication Number Publication Date
WO2024091088A1 true WO2024091088A1 (ko) 2024-05-02

Family

ID=90831467

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/016945 WO2024091088A1 (ko) 2022-10-27 2023-10-27 약한 라벨 데이터 기반의 wsd와 연관된 모델 학습 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20240059099A (ko)
WO (1) WO2024091088A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723101A (zh) * 2021-09-09 2021-11-30 国网电子商务有限公司 一种应用于意图识别的词义消歧方法及装置
US20220100962A1 (en) * 2020-09-30 2022-03-31 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220100962A1 (en) * 2020-09-30 2022-03-31 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network
CN113723101A (zh) * 2021-09-09 2021-11-30 国网电子商务有限公司 一种应用于意图识别的词义消歧方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LUYAO HUANG; CHI SUN; XIPENG QIU; XUANJING HUANG: "GlossBERT: BERT for Word Sense Disambiguation with Gloss Knowledge", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 20 August 2019 (2019-08-20), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081571903 *
YUANXIN LIU; FANDONG MENG; ZHENG LIN; PENG FU; YANAN CAO; WEIPING WANG; JIE ZHOU: "Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 May 2022 (2022-05-29), 201 Olin Library Cornell University Ithaca, NY 14853, XP091228402 *
YUE YU; SIMIAO ZUO; HAOMING JIANG; WENDI REN; TUO ZHAO; CHAO ZHANG: "Fine-Tuning Pre-trained Language Model with Weak Supervision: A Contrastive-Regularized Self-Training Approach", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 31 March 2021 (2021-03-31), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081900375 *

Also Published As

Publication number Publication date
KR20240059099A (ko) 2024-05-07

Similar Documents

Publication Publication Date Title
WO2018074716A1 (ko) 검색 컨텍스트를 이용한 질의 추천 방법 및 시스템
US20180293507A1 (en) Method and apparatus for extracting keywords based on artificial intelligence, device and readable medium
EP3815080A1 (en) Apparatus and method for personalized natural language understanding
WO2017135797A2 (en) Method and electronic device for managing operation of applications
WO2015108300A1 (ko) 프레임률 제어 방법 및 그 전자 장치
WO2020262788A1 (en) System and method for natural language understanding
WO2021132797A1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
WO2024091088A1 (ko) 약한 라벨 데이터 기반의 wsd와 연관된 모델 학습 방법 및 장치
WO2024091087A1 (ko) Wsd와 연관된 모델 학습 방법 및 장치
WO2018088585A1 (ko) 복약 관리 방법 및 그 장치
WO2023229305A1 (en) System and method for context insertion for contrastive siamese network training
WO2023058920A1 (ko) 인적 자원 관리를 위한 사용자의 성향 기반의 직책 추천 방법 및 장치
WO2016186326A1 (ko) 검색어 리스트 제공 장치 및 이를 이용한 방법
WO2022163985A1 (ko) 인공지능 추론모델을 경량화하는 방법 및 시스템
WO2023017884A1 (ko) 디바이스에서 딥러닝 모델의 레이턴시를 예측하는 방법 및 시스템
WO2021251600A1 (ko) 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치
WO2019045441A1 (en) METHOD FOR PROVIDING MULTIMODAL PREDICTIONS BASED ON COGNITIVE SEMIOTICS AND ASSOCIATED ELECTRONIC DEVICE
WO2020022645A1 (en) Method and electronic device for configuring touch screen keyboard
WO2017122872A1 (ko) 전자 출판물에 대한 정보를 생성하는 장치 및 방법
WO2014058137A1 (ko) 웹 페이지의 스크롤탑 속성을 이용한 스크롤 수행 시스템 및 방법
WO2013183833A1 (ko) 게임 아이템 강화 방법 및 그 서버, 및 기록매체
WO2018174469A1 (ko) 디지털 정보 제공 시스템 및 방법
WO2021029563A1 (ko) 학습 정보를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2023096004A1 (ko) 모듈화 방식의 게임 제작 방법 및 시스템
EP3923230A1 (en) Method and apparatus for processing risk-management feature factors, electronic device and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23883192

Country of ref document: EP

Kind code of ref document: A1