WO2022060061A1 - 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치 - Google Patents

딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치 Download PDF

Info

Publication number
WO2022060061A1
WO2022060061A1 PCT/KR2021/012530 KR2021012530W WO2022060061A1 WO 2022060061 A1 WO2022060061 A1 WO 2022060061A1 KR 2021012530 W KR2021012530 W KR 2021012530W WO 2022060061 A1 WO2022060061 A1 WO 2022060061A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
definition text
definition
target word
vocabulary
Prior art date
Application number
PCT/KR2021/012530
Other languages
English (en)
French (fr)
Inventor
이형종
김찬우
Original Assignee
주식회사 렉스퍼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 렉스퍼 filed Critical 주식회사 렉스퍼
Publication of WO2022060061A1 publication Critical patent/WO2022060061A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Definitions

  • the present invention relates to a method for automatically generating a vocabulary problem using a deep learning-based word meaning clarification model, a computer program thereof, and a server device thereof.
  • Vocabulary problem is a type of test that evaluates foreign language ability, and it is a problem that allows you to select the meaning or definition (example or option) of a specific word in the presented sentence. After examining the meaning of a specific word in a sentence, the examinee must select the answer that matches the meaning from among the suggested answers.
  • An object of the present invention is to provide a method for automatically generating a vocabulary problem using a deep learning-based word meaning clarification model, a computer program thereof, and a server device thereof.
  • a method for automatically generating a vocabulary problem using a deep learning-based word semantic clarification model according to the present invention for achieving the above-described technical problem includes: a) an example including at least one example sentence when at least one target word is input Randomly calling at least one example sentence including the target word from a sentence pool, and b) generating at least one vocabulary problem related to the target word based on an artificial intelligence-based word meaning disambiguation model.
  • step a) includes: a-1) extracting at least one definition text associated with the target word from a lexical semantic database to generate a candidate answer list; a-2) Based on the model, the example sentence calculating a score by matching the target word in the candidate answer list with each definition text included in the candidate answer list, and a-3) based on the score result corresponding to each of the calculated definition texts, and generating an answer sheet, wherein step a-3) includes: a-3-1) generating a first definition text with the highest score as a correct answer line based on the score result; and a-3-2 ) generating at least one second definition text other than the first definition text in the candidate answer list as at least one incorrect answer line, wherein step a-3-2) is in the candidate answer list At least one third definition text having a score less than or equal to a preset reference value and another definition text having a score greater than or equal to a predetermined percentage of the score corresponding to the first definition text are not generated as the incorrect answer, the a- Step 2)
  • step a-1 when a-1-1) the number of definition texts of the target word included in the candidate answer list is less than the first reference number set in advance, at least one identical to the target word Searching for a word having a meaning as a first synonym; and a-1-2) extracting at least one definition text related to the first synonym from the vocabulary semantic database and updating the list of candidate answers.
  • the step a-3-2) includes generating a candidate incorrect answer prediction list based on a definition text corresponding to the same part-of-speech of the target word in the example sentence, and a definition text included in the candidate incorrect answer prediction list It may include generating one or more incorrect answers based on the .
  • the step a-3-2) includes the steps of searching for a word having at least one same meaning as the target word as a second synonym when the number of incorrect answer lines is less than a preset second reference number; extracting at least one definition text associated with the second synonym from the lexical semantic database and updating it in the candidate answer list, and generating the incorrect answer prediction based on the word meaning disambiguation model and the updated candidate answer list It may further include the step of
  • step a-3-2) may further include not searching for a word having the same meaning as the first definition text generated as the correct answer line as a second synonym.
  • the present invention may include a computer program stored in a computer-readable recording medium in order to execute a method for automatically generating a vocabulary problem using a deep learning-based word meaning clarification model in combination with a computer.
  • the server device for automatically generating a vocabulary problem using a deep learning-based word meaning clarification model includes a communication module for receiving at least one target word, and a program for automatically generating a deep learning-based vocabulary problem.
  • the program is executed, at least one example sentence including the target word is randomly called from the example sentence pool including at least one example sentence, and based on an artificial intelligence-based word meaning clarification model a processor for generating at least one lexical problem associated with the target word, wherein the processor extracts at least one definition text associated with the target word from a lexical semantic database to generate a candidate answer list, and based on the model , calculates a score by matching the target word in the example sentence and each definition text included in the candidate answer list, and predicts the answer to the vocabulary problem based on the score result corresponding to each of the calculated definition texts , and the processor generates the highest-scoring first definition text as the correct answer selection based on the score result when generating the answer choice for the vocabulary problem, and the first definition text in the
  • the processor when the processor generates the candidate answer list, if the number of definition texts of the target word included in the candidate answer list is less than a preset first reference number, at least one same meaning as the target word A word having , may be searched for as a first synonym, and at least one definition text related to the first synonym may be extracted from the vocabulary semantic database and updated in the candidate answer list.
  • the processor when generating the incorrect answer prediction, the processor generates a candidate incorrect answer prediction list based on a definition text corresponding to the same part-of-speech of the target word in the example sentence, and a definition included in the candidate incorrect answer prediction list One or more incorrect answer sheets can be generated based on the text.
  • the processor searches for a word having the same meaning as at least one of the target word as a second synonym when the number of incorrect answer lines is less than a preset second reference number when generating the incorrect answer line, At least one definition text associated with the second synonym is extracted from the vocabulary semantic database and updated in the candidate answer list, and based on the word meaning disambiguation model and the updated candidate answer list, the incorrect answer prediction can be generated there is.
  • the processor may not search for a word having the same meaning as the first definition text generated with the correct answer line as a second synonym.
  • FIG. 1 is a diagram for explaining a server device for automatically generating a vocabulary problem based on deep learning according to an embodiment of the present invention.
  • FIG. 2 is a flowchart schematically illustrating a method for automatically generating a vocabulary problem based on deep learning according to an embodiment of the present invention.
  • FIG. 3 is an exemplary diagram illustrating that when a target word is input, an arbitrary example sentence including the target word is called according to an embodiment of the present invention.
  • FIG. 4 is a flowchart schematically illustrating a method of generating a vocabulary problem by generating a correct answer list according to an embodiment of the present invention.
  • FIG. 5 is an exemplary diagram illustrating generation of a candidate answer list by extracting a definition text associated with a target word from a lexical semantic database.
  • FIG. 6 is a flowchart schematically illustrating a method of updating a candidate answer list based on a first synonym according to an embodiment of the present invention.
  • FIG. 7 is a flowchart schematically illustrating a method for generating an answer sheet according to an embodiment of the present invention.
  • FIG. 8 is an exemplary diagram illustrating a method for generating a correct answer line according to an embodiment of the present invention.
  • FIG. 9 is an exemplary diagram illustrating generation of a candidate incorrect prediction list based on a correct answer text corresponding to the same part-of-speech as a target word according to an embodiment of the present invention.
  • FIG. 10 is an exemplary diagram of a method for automatically generating a vocabulary problem based on deep learning according to an embodiment of the present invention.
  • FIG. 1 a server apparatus for automatically generating a vocabulary problem based on deep learning according to an embodiment of the present invention will be described with reference to FIG. 1 .
  • FIG. 1 is a diagram for explaining a server device for automatically generating a vocabulary problem based on deep learning according to an embodiment of the present invention.
  • a server device 300 for automatically generating a vocabulary problem using a deep learning-based word meaning clarification model according to the present invention includes a communication module 310, a memory 320 and a processor 330. includes
  • the communication module 310 When the communication module 310 receives a target word from the user terminal, the communication module 310 receives an example sentence including the target word from the example sentence pool. In addition, the communication module 310 receives at least one definition text associated with the target word from the vocabulary semantic database. Meanwhile, the apparatus for automatically generating a vocabulary problem based on deep learning may include an input unit to directly receive a target word from a user.
  • the memory 320 stores a deep learning-based program for generating a candidate answer list based on data received from the communication module 310 and calculating a score for each definition text in the candidate answer list.
  • the above-described lexical semantic database may be stored in the memory 320 in the form of a thesaurus program such as WordNet to provide at least one definition text and a synonym for a target word.
  • a thesaurus program such as WordNet to provide at least one definition text and a synonym for a target word.
  • the present invention is not limited thereto.
  • the processor 330 executes a program stored in the memory 320 .
  • the method for automatically generating a deep learning-based vocabulary problem which will be described below with reference to FIGS. 2 to 7 , may be performed.
  • the apparatus 300 described with reference to FIG. 1 may be provided as a component of a server to be described later.
  • FIG. 2 is a flowchart schematically illustrating a method for automatically generating a vocabulary problem based on deep learning according to an embodiment of the present invention.
  • FIGS. 2, 4, 6 and 7 may be understood as being performed by a deep learning-based vocabulary problem generating apparatus, and may be understood as being performed by a server operated by a vocabulary problem provider.
  • the present invention is not limited thereto.
  • the processor randomly calls at least one example sentence including the target word from the example sentence pool 10 including at least one example sentence ( S110).
  • the target word means a word that is a subject of a vocabulary problem.
  • a user who is provided with a problem, that is, a learner or an examinee, must recognize the meaning or definition of the target word in the sentence, and select the correct answer from the answer sheet in the vocabulary question.
  • the foreign language is not limited to English shown in the drawings, and any foreign language other than the native language, such as Japanese or Chinese, may be the target.
  • any foreign language other than the native language such as Japanese or Chinese
  • Korean since an embodiment of the present invention does not exclude Korean, it goes without saying that Korean may be applied as a foreign language when targeting foreigners.
  • the user may input a word to be learned as a target word.
  • the user may input the target word through the input unit of the device for automatically generating a vocabulary problem based on deep learning or through the user terminal, where the user terminal is a computer device such as a smartphone, tablet, PDA, laptop, desktop, server, etc. or a telecommunication device.
  • the target word may be extracted and input as a target word by the server based on a result of a previous vocabulary problem performed by a user provided with a vocabulary problem. For example, when an incorrect answer rate for a specific word among vocabulary problems previously provided to the user exceeds a predetermined reference value, the specific word may be extracted as a target word to generate a vocabulary problem.
  • the example sentence pool 10 may be a database operated by a company that provides a problem, or an example including the target word from a publicized site (www.wordhippo.com, www.manythings.org, etc.) You can also import text.
  • the present invention is not limited thereto.
  • FIG. 3 is an exemplary diagram illustrating that when a target word is input, an arbitrary example sentence including the target word is called according to an embodiment of the present invention.
  • the processor randomly extracts an example sentence including “temper” from the example sentence pool 10 through the communication module.
  • step S110 when an example sentence including a target word is randomly called in step S110, at least one vocabulary problem related to the target word is generated based on an AI-based word meaning clarification model (S120). ).
  • An embodiment of the present invention can generate incorrect answer sheet using a Gloss-Informed Bi-encoder Word Sense Disambiguation model (hereinafter, "WSD model”) and a natural language processing model initialized by the BERT model, but is limited thereto it is not
  • the BERT model is a two-way deep learning model, which means a deep learning model that is pretrained to mask and match a specific word (word) in a given sentence (Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova) , "BERT: Bidirectional Encoder Representations from Transformers", 2019).
  • the WSD model refers to a deep learning model pre-trained to detect the meaning of the words in the sentence, that is, the meaning of the words used in the sentence.
  • the WSD model divides the sentence into tokens and embeds them into vectors corresponding to each token using the BERT model. Then, all definitions of the target word in the sentence are extracted from the lexical semantic database. In this case, the definition of the target word may be extracted as it is from the text stored in the database.
  • Each definition text is also divided into tokens and then embedded into a vector corresponding to each definition text by the BERT model. Then, by calculating the dot product of the vector corresponding to the target word and the vector corresponding to each definition text, the "definition text" corresponding to the vector having the highest value is determined as the meaning of the target word in the sentence.
  • the lexical problem for the purpose of the present invention is to make not only the correct answer line that matches the meaning of the target word in the example sentence, but also a plurality of incorrect answers (typically, 4 excluding the correct answer line in the case of a five-choice multiple choice) line.
  • an embodiment of the present invention applies an improved method without utilizing the existing WSD model as it is.
  • FIG. 4 is a flowchart schematically illustrating a method of generating a vocabulary problem based on a deep learning model according to an embodiment of the present invention
  • FIG. 5 is a list of candidate answers by extracting definition text associated with a target word from a vocabulary semantic database. It is an example diagram showing the creation.
  • the processor extracts at least one definition text related to the target word from the vocabulary semantic database to generate the candidate answer list 30 ( S121 ).
  • the vocabulary semantic database may be a database operated by a company that provides vocabulary problems, or it may be a WordNet program or a WordNet website that provides information (definitions, thesaurus, etc.) for deep learning-based natural language processing.
  • the present invention is not limited thereto.
  • the candidate answer list 30 is stored in the form of text (hereinafter, "definition text") corresponding to each definition.
  • each answer sheet of the lexical problem includes the definition of the target word or, as an incorrect answer, the definition not related to the target word. That is, the user determines whether the target word and each answer line match the "definition" expressed.
  • "text" expressing the definition corresponding to each definition is embedded as a vector. Therefore, since the dot product value with the vector corresponding to the target word needs to be calculated, the present invention will be described with the term “definition text” with respect to text expressing the definition of each target word.
  • the processor After the processor generates a candidate answer list, based on the deep learning model, the target word in the example sentence and each definition text included in the candidate answer list are matched to calculate a score. (S122).
  • An embodiment of the present invention divides an example sentence into tokens, based on the WSD model described above, and embeds them in vectors corresponding to respective torques. Then, all definitions in the lexical semantic database corresponding to the target word are extracted, the definition text for each definition is divided into tokens, and the definition text is embedded into a vector corresponding to each definition. In addition, by calculating a dot product value with a vector corresponding to the target word, a score for each definition may be calculated.
  • FIG. 6 is a flowchart schematically illustrating a method of updating a candidate answer list based on a first synonym according to an embodiment of the present invention.
  • the target word and at least One word having the same meaning may be searched for as a first synonym (S121_b), and at least one definition text related to the first synonym may be extracted from the vocabulary semantic database and updated in the candidate answer list 30 (S121_b).
  • the preset first reference number is ten.
  • a synonym of the target word may be extracted, and the definition of the extracted synonym may be added to the candidate answer list.
  • the synonym may be at least one, but is not limited thereto.
  • the definition text related to the first synonym may be randomly extracted from the lexical semantic database.
  • WordNet may be stored in the form of a program in the memory in the deep learning-based automatic vocabulary generating device, or by the communication module of the deep learning-based automatic vocabulary generating device, through the WordNet site provided online. You may also receive information.
  • a deep learning-based supervised learning model may be used to search for the first synonym based on thesaurus related to the target word provided by WordNet.
  • the present invention is not limited thereto.
  • the definition texts related to the first synonym may be extracted as many as the number of definition texts of the target word is less than the first reference value, but is not limited thereto. That is, the definition text associated with the first synonym may be extracted even within a range exceeding the first reference value.
  • FIG. 7 is a flowchart schematically illustrating a method for generating an answer sheet according to an embodiment of the present invention
  • FIG. 8 is an exemplary diagram illustrating a method for generating an answer sheet according to an embodiment of the present invention.
  • step S123 includes the step of generating the highest-scoring first definition text as a correct answer line based on the score result corresponding to each definition text (S123_a) and the first definition in the candidate answer list
  • the method may further include generating at least one second definition text other than the text as at least one incorrect answer line (S123_b).
  • the first definition text is generated as a correct answer sheet.
  • the first definition text may be generated as a correct answer line as it is in the text form stored in the above-described lexical semantic database, or the definition text is modified such as font, font size, and arbitrary number addition for the answer line form to generate a correct answer line it might be
  • the present invention is not limited thereto.
  • an incorrect answer line is generated based on the remaining definition text excluding the first definition text in the candidate answer list, that is, the second definition text.
  • the incorrect answer line may be generated from the definition text having a high score to the incorrect answer line by arranging the scores of the second definition text in descending order.
  • step S123_b may further include not generating the at least one third definition text having a score less than or equal to a preset reference value in the candidate answer list as the incorrect answer choice.
  • a definition with a low score among a plurality of definitions of the target word in the candidate answer list that is, a definition that is far from the definition of the target word in the example sentence may not be generated as an incorrect answer.
  • the definition text in which the score corresponding to the definition text in the candidate answer list has a score less than or equal to the preset reference value is not generated as an incorrect answer line.
  • the generating of incorrect predictions may include: generating a list of candidate incorrect predictions based on the definition text corresponding to the same part-of-speech of the target word corresponding to the first definition text;
  • the method may include generating one or more incorrect predictions based on the definition text included in the candidate incorrect prediction list.
  • the correct answer may be easily extracted according to the part-of-speech of the specific word.
  • the user selects a definition text for the same part-of-speech of the target word as opposed to the intention of the lexical problem for allowing the user to learn the true meaning of a specific word, that is, the target word of the present invention. That is, the examinee or learner selects an answer by simply judging whether the part-of-speech is the same without exploring the true meaning of the target word.
  • the candidate incorrect prediction list 40 is generated based on the definition corresponding to the same part-of-speech as the target word in the example sentence. And based on the definition text in the generated candidate incorrect answer list 40, an incorrect answer of the vocabulary question is generated.
  • FIG. 9 is an exemplary diagram illustrating generation of a candidate incorrect prediction list based on a correct answer text corresponding to the same part-of-speech as a target word according to an embodiment of the present invention.
  • the correct answer to the vocabulary problem of the target word “temper” was generated as “a disposition to exhibit uncontrolled anger”.
  • the first definition text generated as the correct answer sacred site indicates the definition of the noun of “temper”. Accordingly, from among the plurality of definition texts in the candidate answer list, only the definition text indicating the definition of the noun possessed by “temper” is extracted to generate the candidate incorrect prediction list 40 . And it may be possible to generate incorrect answer predictions based on the definition text in the candidate incorrect prediction list.
  • a part-of-speech filtering process using a deep learning-based natural language processing algorithm may be performed.
  • the present invention is not limited thereto.
  • another definition text having a score greater than or equal to a predetermined percentage of the score corresponding to the first definition text may not be generated as the incorrect answer.
  • the definition text having the highest score among the plurality of definition texts in the candidate answer list is generated as a correct answer sheet.
  • another definition text having a slight difference in score from the definition text generated by the correct answer line is generated as the incorrect answer line, it results in substantially generating a plurality of incorrect answer papers.
  • the minute difference between the score and the definition text generated by the correct answer means that the definition text is also similar to the meaning of the target word in the example sentence. Therefore, although it is generated as an incorrect answer sheet, it is actually like providing a problem in which a plurality of correct answers exist to the examinee or learner. Therefore, in order to prevent this, the score of the definition text generated as the correct answer list and the other definition text having a score greater than or equal to a preset ratio may not be generated as an incorrect answer line.
  • a word having at least one same meaning as the target word is searched for as a second synonym, and the At least one definition text associated with the second synonym may be extracted and updated in the candidate answer list.
  • incorrect answer predictions may be further generated.
  • the second reference number related to the number of incorrect predictions is three. That is, it is assumed that one correct answer and three incorrect answer papers are generated.
  • the server searches for a word having the same meaning as the target word as the second synonym.
  • the definition text associated with the second synonym after extracting the definition text associated with the second synonym from the lexical semantic database, it may be updated in the candidate answer list. And, based on the updated candidate answer list, one more incorrect answer sheet may be generated.
  • the existing candidate answer list may be newly updated with the definition text of the second synonym. That is, only the definition text of the second synonym may generate the number of incorrect answer papers that is less than the second reference number.
  • the second synonym may be requested to be input by the server and input by the user, or the second synonym may be extracted and searched based on a deep learning model for extracting the synonym.
  • the present invention is not limited thereto.
  • a word having the same meaning as the first definition text generated as a correct answer line may not be searched for as a second synonym.
  • FIG. 10 is an exemplary diagram of a method for automatically generating a vocabulary problem based on deep learning according to an embodiment of the present invention.
  • a vocabulary problem is automatically generated based on the generated correct answer choice and a plurality of correct answer choices by the above-described method.
  • the correct answer line and the incorrect answer line paper may be assigned and arranged so that an arbitrary number within the number of correct answer lines is not duplicated.
  • generating a question sentence based on a target word and an example of a vocabulary problem based on at least one example sentence randomly fetched from an example sentence pool may further include generating an example sentence.
  • steps S110 to S120 may be further divided into additional steps or combined into fewer steps according to an embodiment of the present invention.
  • some steps may be omitted if necessary, and the order between steps may be changed.
  • the above-described contents of FIG. 1 may also be applied to the method of automatically generating a vocabulary problem based on deep learning of FIGS. 2 to 10 .
  • the method for automatically generating a vocabulary problem based on deep learning may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a computer-readable recording medium. .
  • the above-mentioned program in order for the computer to read the program and execute the methods implemented as a program, C, C++, JAVA, Ruby, which the processor (CPU) of the computer can read through the device interface of the computer; It may include code coded in a computer language such as machine language. Such code may include functional code related to a function defining functions necessary for executing the methods, etc., and includes an execution procedure related control code necessary for the processor of the computer to execute the functions according to a predetermined procedure. can do. In addition, the code may further include additional information necessary for the processor of the computer to execute the functions or code related to memory reference for which location (address address) in the internal or external memory of the computer to be referenced. there is.
  • the code uses the communication module of the computer to determine how to communicate with any other computer or server remotely. It may further include a communication-related code for whether to communicate and what information or media to transmit and receive during communication.
  • the storage medium is not a medium that stores data for a short moment, such as a register, a cache, a memory, etc., but a medium that stores data semi-permanently and can be read by a device.
  • examples of the storage medium include, but are not limited to, ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device. That is, the program may be stored in various recording media on various servers accessible by the computer or in various recording media on the computer of the user.
  • the medium may be distributed in a computer system connected to a network, and a computer-readable code may be stored in a distributed manner.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 딥러닝 기반의 단어 의미 명확화 모델을 이용하여 어휘 문제를 자동으로 생성하는 방법, 그 컴퓨터 프로그램 및 그 서버 장치에 관한 것이다. 본 발명에 따르면, 어휘 문제 내에서 딥러닝 기반의 단어 의미 명확화 모델을 이용하여 난이도 높은 보기 답안을 생성함으로써, 문제를 제공받은 수험생 또는 학습자가 해당 단어에 대한 의미를 깊게 고찰하고 이해할 수 있도록 하는 기회를 제공한다. 또한, 타겟 단어의 입력 만으로도, 딥러닝 기반의 단어 의미 명확화 모델을 이용하여 어휘 문제가 자동으로 생성됨에 따라, 학습자는 원하는 단어에 대한 문제를 반복하여 제공받을 수 있으며, 문제를 생성하는 업체 또한 문제 생성에 소요되는 비용과 시간을 절감할 수 있다.

Description

딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치
본 발명은 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치에 관한 것이다.
어휘 문제는 외국어 능력을 평가하는 각종 시험에 출제되고 있는 유형으로, 제시된 문장 내 특정 단어가 가지는 의미 또는 정의(보기 또는 선택지)를 선택하도록 하는 문제이다. 수험생은 문장 내에서의 특정 단어가 발휘하는 의미를 고찰한 후 제시된 답안 중에서 해당 의미와 일치하는 답안을 선택하여야 한다.
특히, 이러한 어휘 문제를 해결하기 위해서는 수험생이 단순히 특정 단어가 가지고 있는 복수의 정의 또는 의미를 암기하는 것만으로는 부족하며, 특정 단어가 가지고 있는 각각의 정의를 고찰한 후 이해할 것을 요구한다. 따라서 어휘 문제를 통한 반복 학습을 통해, 수험생 또는 학습자의 단어가 가지는 의미를 깊게 이해할 수 있다.
어휘 문제를 통한 수험생 또는 학습자의 어휘 실력 향상을 위해서는 어휘 문제에서 제공하는 보기 답안의 중요성이 요구된다. 단순히 정답과 오답만을 나열한 것이 아니라, 수험생이 보기 답안을 통해서 어휘 문제의 대상인 특정 단어에 대해 깊이 고찰하는 기회를 제공해야 한다. 그러나 종래 다양한 어휘 문제는 이를 반영하지 못하고, 단순히 특정 단어에 대한 의미를 암기하는 것만으로도 문제를 해결할 수 있게끔 보기 답안을 제시하고 있다. 즉, 보기 답안을 통해 학습자가 해당 단어에 대해 깊이 고찰할 기회를 제공하지 못하고 있다.
한편, 국제화 시대에 제2 외국어의 필요성이 높아지면서, 제2 외국어와 관련된 다양한 문제가 생성되고 수험생에게 제공된다. 그러나 이러한 문제들은 각각의 문제를 생성하는 업체에 의해 정형화된 형태로 제공되기 때문에, 수험생이나 학습자가 원하는 특정 단어에 대한 문제를 제공받는 것은 어려움이 있다. 무엇보다 문제를 생성하는 업체의 입장에서도, 다양한 문제를 생성하기 위해서는 많은 비용과 인력이 소모되는 문제점이 있다.
따라서, 수험생뿐만 아니라 문제를 제공하는 업체가 문제를 제공 받거나 또는 생성하고자 하는 특정 단어에 대한 어휘 문제를 자동으로 생성하는 방안이 필요하다.
본 발명이 해결하고자 하는 과제는 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치를 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또 다른 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 본 발명에 따른 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법은, a) 적어도 하나의 타겟 단어가 입력될 경우, 적어도 하나의 예시 문장을 포함하는 예시 문장 풀에서 상기 타겟 단어를 포함하는 적어도 하나의 예시 문장을 랜덤으로 불러오는 단계 및 b) 인공지능 기반의 단어 의미 명확화 모델을 기반으로, 상기 타겟 단어와 연관된 적어도 하나의 어휘 문제를 생성하는 단계를 포함하고, 상기 a) 단계는 a-1) 어휘 의미 데이터베이스로부터 상기 타겟 단어와 연관된 적어도 하나의 정의 텍스트를 추출하여 후보 답안 리스트를 생성하는 단계와, a-2) 상기 모델을 기반으로, 상기 예시 문장에서의 타겟 단어와 상기 후보 답안 리스트에 포함된 각각의 정의 텍스트를 매칭하여 점수를 산출하는 단계, 및 a-3)상기 산출된 각각의 정의 텍스트에 상응하는 점수 결과에 기초하여, 상기 어휘 문제의 답안 선지를 생성하는 단계를 포함하고, 상기 a-3) 단계는 a-3-1) 상기 점수 결과에 기초하여 가장 높은 점수의 제1 정의 텍스트를 정답 선지로 생성하는 단계 및 a-3-2) 상기 후보 답안 리스트 내에서 상기 제1 정의 텍스트를 제외한 다른 적어도 하나의 제2 정의 텍스트를 적어도 하나의 오답 선지로 생성하는 단계를 포함하고, 상기 a-3-2) 단계는 상기 후보 답안 리스트 내에서 사전에 설정된 기준 값 이하의 점수를 가지는 적어도 하나의 제3 정의 텍스트 및 상기 제1 정의 텍스트에 상응하는 점수의 소정 비율 이상의 점수를 가진 다른 정의 텍스트는 상기 오답 선지로 생성하지 않고, 상기 a-2) 단계는 a-2-1) 상기 타겟 단어를 포함하는 예시 문장을 단어 기준의 토큰으로 분할하고, 각각의 토큰에 상응하는 벡터로 임베딩하는 단계와, a-2-2) 상기 후보 답안 리스트 내 각각의 정의 텍스트에 상응하는 벡터로 임베딩하는 단계, 및 a-2-3) 상기 타겟 단어에 상응하는 벡터와 상기 각각의 정의 텍스트에 상응하는 벡터의 내적 값을 산출하고, 그 결과에 기초하여 각각의 정의 텍스트에 점수를 부여하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 a-1) 단계는 a-1-1) 상기 후보 답안 리스트에 포함된 상기 타겟 단어의 정의 텍스트의 개수가 사전에 설정된 제1 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제1 유의어로 탐색하는 단계 및 a-1-2) 상기 어휘 의미 데이터베이스로부터 상기 제1 유의어에 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신하는 단계를 포함할 수 있다.
또한, 상기 a-3-2) 단계는 상기 예시 문장 내 상기 타겟 단어의 품사와 동일한 품사에 상응하는 정의 텍스트를 기초로 후보 오답 선지 리스트를 생성하는 단계 및 상기 후보 오답 선지 리스트에 포함된 정의 텍스트를 기초로 하나 이상의 오답 선지를 생성하는 단계를 포함할 수 있다.
또한, 상기 a-3-2) 단계는 상기 오답 선지의 개수가 사전에 설정된 제2 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제2 유의어로 탐색하는 단계와, 상기 어휘 의미 데이터베이스로부터 상기 제2 유의어와 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신하는 단계, 및 상기 단어 의미 명확화 모델과 상기 갱신된 후보 답안 리스트를 기초로, 상기 오답 선지를 생성하는 단계를 더 포함할 수 있다.
또한, 상기 a-3-2) 단계는 상기 정답 선지로 생성된 제1 정의 텍스트와 동일한 의미를 가지는 단어는 제2 유의어로 탐색하지 않는 단계를 더 포함할 수 있다.
또한, 본 발명은 컴퓨터와 결합되어, 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램을 구비할 수 있다.
또한, 본 발명에 따른 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 서버 장치는, 적어도 하나의 타겟 단어를 수신하는 통신모듈과, 딥러닝 기반의 어휘 문제를 자동으로 생성하는 프로그램이 저장된 메모리와, 상기 프로그램이 실행됨에 따라, 적어도 하나의 예시 문장을 포함하는 예시 문장 풀에서 상기 타겟 단어를 포함하는 적어도 하나의 예시 문장을 랜덤으로 불러오고, 인공지능 기반의 단어 의미 명확화 모델을 기반으로 상기 타겟 단어와 연관된 적어도 하나의 어휘 문제를 생성하는 프로세서를 포함하고, 상기 프로세서는 어휘 의미 데이터베이스로부터 상기 타겟 단어와 연관된 적어도 하나의 정의 텍스트를 추출하여 후보 답안 리스트를 생성하고, 상기 모델을 기반으로, 상기 예시 문장에서의 타겟 단어와 상기 후보 답안 리스트에 포함된 각각의 정의 텍스트를 매칭하여 점수를 산출하며, 상기 산출된 각각의 정의 텍스트에 상응하는 점수 결과에 기초하여, 상기 어휘 문제의 답안 선지를 생성하고, 상기 프로세서는 상기 어휘 문제의 답안 선지를 생성 시에, 상기 점수 결과에 기초하여 가장 높은 점수의 제1 정의 텍스트를 정답 선지로 생성하고, 상기 후보 답안 리스트 내에서 상기 제1 정의 텍스트를 제외한 다른 적어도 하나의 제2 정의 텍스트를 적어도 하나의 오답 선지로 생성하고, 상기 프로세서는 상기 오답 선지를 생성 시에, 상기 후보 답안 리스트 내에서 사전에 설정된 기준 값 이하의 점수를 가지는 적어도 하나의 제3 정의 텍스트 및 상기 제1 정의 텍스트에 상응하는 점수의 소정 비율 이상의 점수를 가진 다른 정의 텍스트는 상기 오답 선지로 생성하지 않고, 상기 프로세서는 상기 점수를 산출 시에, 상기 타겟 단어를 포함하는 예시 문장을 단어 기준의 토큰으로 분할하고, 각각의 토큰에 상응하는 벡터로 임베딩하고, 상기 후보 답안 리스트 내 각각의 정의 텍스트에 상응하는 벡터로 임베딩하며, 상기 타겟 단어에 상응하는 벡터와 상기 각각의 정의 텍스트에 상응하는 벡터의 내적 값을 산출하고, 그 결과에 기초하여 각각의 정의 텍스트에 점수를 부여하는 것을 특징으로 한다.
이때, 상기 프로세서는 상기 후보 답안 리스트를 생성 시에, 상기 후보 답안 리스트에 포함된 상기 타겟 단어의 정의 텍스트의 개수가 사전에 설정된 제1 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제1 유의어로 탐색하고, 상기 어휘 의미 데이터베이스로부터 상기 제1 유의어에 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신할 수 있다.
또한, 상기 프로세서는 상기 오답 선지를 생성 시에, 상기 예시 문장 내 상기 타겟 단어의 품사와 동일한 품사에 상응하는 정의 텍스트를 기초로 후보 오답 선지 리스트를 생성하고, 상기 후보 오답 선지 리스트에 포함된 정의 텍스트를 기초로 하나 이상의 오답 선지를 생성할 수 있다.
또한, 상기 프로세서는 상기 오답 선지를 생성 시에, 상기 오답 선지의 개수가 사전에 설정된 제2 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제2 유의어로 탐색하고, 상기 어휘 의미 데이터베이스로부터 상기 제2 유의어와 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신하며, 상기 단어 의미 명확화 모델과 상기 갱신된 후보 답안 리스트를 기초로, 상기 오답 선지를 생성할 수 있다. 이때, 상기 프로세서는, 상기 오답 선지를 생성 시에, 상기 정답 선지로 생성된 제1 정의 텍스트와 동일한 의미를 가지는 단어는 제2 유의어로 탐색하지 않을 수 있다.
상술한 본 발명에 의하면, 어휘 문제 내에서 딥러닝 기반의 단어 의미 명확화 모델을 이용하여 난이도 높은 보기 답안을 생성함으로써, 문제를 제공받은 수험생 또는 학습자가 해당 단어에 대한 의미를 깊게 고찰하고 이해할 수 있도록 하는 기회를 제공한다.
또한, 타겟 단어의 입력 만으로도, 딥러닝 기반의 단어 의미 명확화 모델을 이용하여 어휘 문제가 자동으로 생성됨에 따라, 학습자는 원하는 단어에 대한 문제를 반복하여 제공받을 수 있으며, 문제를 생성하는 업체 또한 문제 생성에 소요되는 비용과 시간을 절감할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 서버 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 방법을 개략적으로 나타낸 순서도이다.
도 3은 본 발명의 일 실시예에 따른, 타겟 단어가 입력된 경우, 상기 타겟 단어를 포함하는 임의의 예시 문장을 불러오는 것을 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따른 정답 선지 리스트를 생성하여 어휘 문제를 생성하는 방법을 개략적으로 나타낸 순서도이다.
도 5는 어휘 의미 데이터베이스로부터 타겟 단어와 연관된 정의 텍스트를 추출하여 후보 답안 리스트를 생성하는 것을 나타낸 예시도이다.
도 6은 본 발명의 일 실시예에 따른, 제1 유의어에 기초하여 후보 답안 리스트를 갱신하는 방법을 개략적으로 나타낸 순서도이다.
도 7은 본 발명의 일 실시예에 따른 답안 선지를 생성하는 방법을 개략적으로 나타낸 순서도이다.
도 8은 본 발명의 일 실시예에 따른 정답 선지를 생성하는 방법을 나타낸 예시도이다.
도 9는 본 발명의 일 실시예에 따른 타겟 단어와 동일한 품사에 상응하는 정답 텍스트를 기초로 후보 오답 선지 리스트를 생성하는 것을 나타낸 예시도이다.
도 10은 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 방법에 관한 예시도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 도 1을 참조하여 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 서버 장치에 대하여 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 서버 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명에 따른 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 서버 장치(300)(이하, 장치)는 통신모듈(310), 메모리(320) 및 프로세서(330)를 포함한다.
통신모듈(310)은 사용자 단말기로부터 타겟 단어를 입력 받으면, 상기 타겟 단어를 포함하는 예시 문장을 예시 문장 풀로부터 수신한다. 그리고 통신모듈(310)은 상기 타겟 단어와 연관된 적어도 하나의 정의 텍스트를 어휘 의미 데이터베이스로부터 수신한다. 한편, 딥러닝 기반의 어휘 문제 자동 생성 장치는 입력부를 포함하여, 직접 사용자로부터 타겟 단어를 입력받을 수도 있다.
메모리(320)에는 통신모듈(310)로부터 수신한 데이터에 기초하여 후보 답안 리스트를 생성하고, 후보 답안 리스트 내 각각의 정의 텍스트에 대한 점수를 산출하는 딥러닝 기반의 프로그램이 저장된다.
한편, 상술한 어휘 의미 데이터베이스는 WordNet과 같은 유의어 사전 프로그램형태로 상기 메모리(320)에 저장되어 타겟 단어에 대한 적어도 하나의 정의 텍스트와 유의어를 제공할 수도 있다. 그러나 이에 한정하는 것은 아니다.
프로세서(330)는 메모리(320)에 저장된 프로그램을 실행시킨다. 프로세서(330)는 메모리(320)에 저장된 프로그램을 실행시킴에 따라, 후술하는 도 2 내지 도 7을 참조하여 설명할 딥러닝 기반의 어휘 문제 자동 생성 방법을 수행할 수 있다.
도 1을 참조하여 설명한 장치(300)는 후술한 서버의 구성요소로 제공될 수 있다.
이하, 도 2 내지 도 9를 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 방법을 개략적으로 나타낸 순서도이다.
한편, 도 2, 도 4, 도 6 및 도 7에 도시된 단계들은 딥러닝 기반의 어휘 문제 생성 장치에 의해 수행되는 것으로 이해될 수 있으며, 어휘 문제 제공 업체가 운영하는 서버에 의해 수행되는 것으로도 이해될 수 있다. 그러나 이에 제한되는 것은 아니다.
본 명세서는 상술한 딥러닝 기반의 어휘 문제 생성 장치를 주체로 도 2, 도 4, 도 6 및 도 7에 도시된 단계들에 대하여 설명하도록 한다.
먼저 도 2를 참조하면, 적어도 하나의 타겟 단어가 입력될 경우, 프로세서는 적어도 하나의 예시 문장을 포함하는 예시 문장 풀(10)에서 타겟 단어를 포함하는 적어도 하나의 예시 문장을 랜덤으로 불러온다(S110).
타겟 단어는 어휘 문제의 대상이 되는 단어를 의미한다. 문제를 제공받는 사용자, 즉 학습자 또는 수험생은 문장 내 타겟 단어가 가지고 있는 의미 또는 정의가 무엇인지를 인지하여, 어휘 문제 내 답안 선지에서 정답 선지를 선택해야 한다.
본 발명의 일 실시예에서 외국어는 도면에 도시된 영어로 한정되는 것이 아니라, 일본어, 중국어 등 모국어가 아닌 임의의 외국어가 그 대상이 될 수 있다. 또한, 본 발명의 일 실시예는 한국어를 배제하는 것이 아닌바 외국인을 대상으로 할 경우에는 한국어도 외국어로 적용될 수 있음은 물론이다.
한편 사용자는 학습하고자 하는 단어를 타겟 단어로 입력할 수 있다. 이때 사용자는 딥러닝 기반의 어휘 문제 자동 생성 장치의 입력부를 통해 또는 사용자 단말을 통해 타겟 단어를 입력할 수 있는데, 여기에서 사용자 단말은 스마트폰, 태블릿, PDA, 랩톱, 데스크톱, 서버 등과 같은 컴퓨터 장치 또는 전기 통신 장치를 의미한다.
또는 타겟 단어는, 어휘 문제를 제공받는 사용자가 수행한 이전 어휘 문제 결과에 기초하여, 서버에 의해 타겟 단어로 추출되어 입력될 수도 있다. 예를 들어, 사용자에게 이전에 제공되었던 어휘 문제 중 특정 단어에 관한 오답률이 소정의 기준 값을 초과하는 경우, 상기 특정 단어를 타겟 단어로 추출하여, 어휘 문제를 생성할 수도 있다.
한편, 상기 예시 문장 풀(10)은, 문제를 제공하는 업체에서 운영하는 데이터베이스일 수 있으며, 또는 공용화된 사이트(www.wordhippo.com, www.manythings.org 등)로부터 상기 타겟 단어를 포함하는 예시 문장을 불러올 수도 있다. 그러나 이에 제한되는 것은 아니다.
도 3은 본 발명의 일 실시예에 따른, 타겟 단어가 입력된 경우, 상기 타겟 단어를 포함하는 임의의 예시 문장을 불러오는 것을 나타낸 예시도이다.
도 3을 참조하면, 사용자에 의해 타겟 단어로 "temper"가 입력된 경우, 프로세서는 통신 모듈을 통해 예시 문장 풀(10)에서 상기 "temper"를 포함하는 예시 문장을 랜덤으로 추출한다.
다시 도 2를 참조하면, S110 단계에서 타겟 단어를 포함하는 예시 문장을 랜덤으로 불러오면, 인공지능 기반의 단어 의미 명확화 모델을 기반으로, 상기 타겟 단어와 연관된 적어도 하나의 어휘 문제를 생성 한다(S120).
본 발명의 일 실시예는 BERT 모델에 의해 초기화된, Gloss-Informed Bi-encoder Word Sense Disambiguation 모델(이하, "WSD 모델")과 자연어 처리 모델을 이용하여 오답 선지를 생성할 수 있으나, 이에 제한되는 것은 아니다.
BERT 모델은 양방향 딥러닝 모델로서, 주어진 문장에서 특정 어절(단어)을 마스킹하고, 이를 맞추도록 미리 학습(Pretrained)된 딥러닝 모델을 의미한다(Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Bidirectional Encoder Representations from Transformers", 2019).
한편, 상기 WSD 모델은 문장 내 단어가 가지고 있는 의미, 즉 문장에서 사용된 단어의 의미를 탐지하도록 사전 학습된 딥러닝 모델을 의미한다. WSD 모델은, 문장을 토큰으로 분할하고, 상기 BERT 모델을 이용하여 각각의 토큰에 상응하는 벡터로 임베딩한다. 그리고, 어휘 의미 데이터베이스 내에서 상기 문장 내 타겟 단어에 관한 정의를 모두 추출한다. 이때, 타겟 단어의 정의는 데이터베이스 내에 저장된 텍스트 그대로 추출될 수 있다. 각각의 정의 텍스트 또한 토큰으로 분할한 뒤 BERT 모델에 의해 각각의 정의 텍스트에 상응하는 벡터로 임베딩한다. 그리고 상기 타겟 단어와 상응하는 벡터와 각각의 정의 텍스트에 상응하는 벡터의 내적을 계산하여, 가장 높은 값의 벡터에 상응하는 "정의 텍스트"를 상기 타겟 단어가 문장 내에서 가지는 의미로 판단한다.
본 발명에서 목적으로 하는 어휘 문제는, 예시 문장 내 타겟 단어가 가지고 있는 의미와 일치하는 정답 선지 뿐만 아니라, 복수개의 오답(통상적으로 5지선다형의 경우 정답 선지를 제외하고 4개) 선지를 만들어야 하므로, 본 발명의 일 실시예는 기존의 WSD 모델을 그대로 활용하지 않고 개량된 방법을 적용한다.
이하에선, WSD 모델을 개량하여, 구체적으로는 WSD 모델의 마지막 레이어를 변형하여 어휘 문제를 자동 생성하는 본 발명의 일 실시예에 대하여 상세히 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 딥러닝 모델에 기반하여 어휘 문제를 생성하는 방법을 개략적으로 나타낸 순서도이고, 도 5는 어휘 의미 데이터베이스로부터 타겟 단어와 연관된 정의 텍스트를 추출하여 후보 답안 리스트를 생성하는 것을 나타낸 예시도이다.
도 4를 참조하면, 타겟 단어와 연관된 어휘 문제를 생성하는 단계에서는, 프로세서는 어휘 의미 데이터베이스로부터 상기 타겟 단어와 연관된 적어도 하나의 정의 텍스트를 추출하여 후보 답안 리스트(30)를 생성한다(S121).
어휘 의미 데이터베이스는 어휘 문제를 제공하는 업체에서 운영하는 데이터베이스일 수 있으며, 딥러닝 기반의 자연어 처리를 위한 정보(정의, 시소러스 등)를 제공하는 WordNet 프로그램 또는 WordNet 웹사이트일 수도 있다. 그러나 이에 제한되는 것은 아니다.
도 5를 참조하면, 타겟 단어로 입력된 "temper"에 관한 WordNet 상에 저장된 모든 정의를 추출하는 것을 알 수 있다. 이때, 후보 답안 리스트(30)에는 각각의 정의에 상응하는 텍스트(이하, "정의 텍스트")의 형태로 저장된다.
어휘 문제는 타겟 단어가 예시 문장 내에서 가지는 문맥상의 의미를 탐구하여 상기 타겟 단어가 가지는 의미를 학습시키는 것을 목적으로 한다. 따라서, 어휘 문제의 각각의 답안 선지는 상기 타겟 단어가 가지는 정의에 관한, 또는 오답으로서 상기 타겟 단어와는 관련이 없는 정의에 관한 내용을 포함한다. 즉, 사용자는 타겟 단어와 각각의 답안 선지가 표현하는 "정의"와 일치하는지를 판단하는데, 본 발명에서는 답안 선지를 생성하기 위하여, 각각의 정의에 상응하는 정의를 표현하는 "텍스트"를 벡터로 임베딩하여 상기 타겟 단어에 상응하는 벡터와의 내적 값을 산출해야 하므로, 각각의 타겟 단어의 정의를 표현하는 텍스트에 관하여 "정의 텍스트"라는 용어로 본 발명을 설명하도록 한다.
다시 도 4를 참조하면, 프로세서는 후보 답안 리스트를 생성한 후, 딥러닝 모델을 기반으로, 상기 예시 문장에서의 타겟 단어와 상기 후보 답안 리스트에 포함된 각각의 정의 텍스트를 매칭하여 점수를 산출한다(S122).
본 발명의 일 실시예는, 상술한 WSD 모델에 기반하여, 예시 문장을 토큰으로 분할하여, 각각의 토크에 상응하는 벡터로 임베딩한다. 그리고 타겟 단어에 상응하는 상기 어휘 의미 데이터베이스 내의 모든 정의를 추출하고, 각각의 정의에 관한 정의 텍스트를 토큰으로 분할하여, 각각의 정의에 상응하는 벡터로 임베딩한다. 그리고 상기 타겟 단어에 상응하는 벡터와의 내적 값을 산출하여 각각의 정의에 관한 점수를 산출할 수 있을 것이다.
도 6은 본 발명의 일 실시예에 따른, 제1 유의어에 기초하여 후보 답안 리스트를 갱신하는 방법을 개략적으로 나타낸 순서도이다.
한편, 도 6을 참조하면, 본 발명의 일 실시예에 따라 S121 단계에서 생성된 후보 답안 리스트에 포함된 타겟 단어의 정의 텍스트의 개수가 사전에 설정된 제1 기준 개수보다 적을 경우, 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제1 유의어로 탐색하고(S121_b), 어휘 의미 데이터베이스로부터 제1 유의어에 연관된 적어도 하나의 정의 텍스트를 추출하여 후보 답안 리스트(30)에 갱신할 수 있다(S121_b).
구체적으로, 사전에 설정된 제1 기준 개수가 10개라고 가정한다. 이때, WordNet에 저장된 정의가 10개 미만인 단어가 타겟 단어로 입력된 경우에는, 상기 타겟 단어의 유의어를 추출하고, 상기 추출된 유의어의 정의를 상기 후보 답안 리스트에 추가할 수 있을 것이다. 이때, 유의어는 적어도 하나 이상일 수 있으며 이에 한정하는 것은 아니다.
예를 들어, “serendipity” 또는 “auspicious”와 같은 영어 단어는 WordNet에 각각 하나의 정의만이 저장되어 있다. 따라서, “serendipity”가 타겟 단어로 입력된 경우, 해당 단어의 정의만으로는 복수의 오답 선지를 생성하는 것이 불가능하다. 그렇기 때문에, 동일한 의미 또는 유사한 의미를 가지는, 예를 들어 “serendipity”와 유사한 의미를 가지는 “chance”를 제1 유의어로 탐색하고, 상기 WordNet에 저장된 “chance”에 관한 정의 텍스트를 추출하여 후보 답안 리스트를 갱신할 수 있다.
이로써, 사용자에게 타겟 단어와 관련된 다양한 보기 답안을 제공함으로써, 타겟 단어와 관련된 학습 효과를 높일 수 있을 것이다.
한편, 제1 유의어에 연관된 정의 텍스트는 어휘 의미 데이터베이스 내에서 랜덤으로 추출될 수 있다. 또는 WordNet과 같은 thesaurus 사전을 활용할 수도 있다. WordNet은 상기 딥러닝 기반의 어휘 자동 생성 장치 내 메모리에 프로그램 형태로 저장될 수도 있으며, 또는 상기 딥러닝 기반의 어휘 자동 생성 장치의 통신모듈에 의해, 온라인에서 제공되는 WordNet 사이트를 통해 정의 텍스트에 관한 정보를 수신할 수도 있다.
한편, WordNet에서 제공하는 타겟 단어와 관련된 thesaurus를 기초로 제1 유의어를 탐색하기 위해 딥러닝 기반의 지도 학습(Supervised Learning) 모델을 활용할 수도 있다. 그러나 이에 제한되는 것은 아니다.
한편, 제1 유의어에 연관된 정의 텍스트는, 상기 타겟 단어의 정의 텍스트 개수가 상기 제1 기준 값에 미달하는 개수에 상응하는 개수만큼 추출될 수 있으며, 이에 제한되는 것은 아니다. 즉, 제1 유의어에 연관된 정의 텍스트는 상기 제1 기준 값을 초과하는 범위 내에서도 추출될 수도 있다.
다시 도 5를 참조하면, 각각의 정의에 관한, 보다 상세하게는 각각의 정의 텍스트에 상응하는 점수를 산출하면, 산출된 각각의 정의 텍스트에 상응하는 점수 결과에 기초하여, 상기 어휘 문제의 답안 선지를 생성한다(S123)
이하에서는, 본 발명의 답안 선지를 생성하는 방법에 대해 구체적으로 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 답안 선지를 생성하는 방법을 개략적으로 나타낸 순서도이고, 도 8은 본 발명의 일 실시예에 따른 정답 선지를 생성하는 방법을 나타낸 예시도이다.
한편 도 7을 참조하면, S123 단계는 각각의 정의 텍스트에 상응하는 점수 결과에 기초하여 가장 높은 점수의 제1 정의 텍스트를 정답 선지로 생성하는 단계(S123_a)와 후보 답안 리스트 내에서 상기 제1 정의 텍스트를 제외한 다른 적어도 하나의 제2 정의 텍스트를 적어도 하나의 오답 선지로 생성하는 단계(S123_b)를 더 포함할 수 있다.
도 8을 참조하면, 후보 답안 리스트 내의 각각의 정의 텍스트에 대한 점수가 산출되었다. 이때, 타겟 단어인 “temper”에 관한 복수의 정의 중 “a disposition to exhibit uncontrolled anger”에 가장 높은 점수가 산출된 것을 알 수 있다. 가장 높은 점수로 산출된 정의 텍스트(이하, “제1 정의 텍스트”)는 정답 선지로 생성된다. 이때, 제1 정의 텍스트는 상술한 어휘 의미 데이터베이스 내에 저장된 텍스트 형태 그대로 정답 선지로 생성될 수도 있으며 또는 글씨체, 글씨의 크기, 답안 선지 형태를 위한 임의의 번호 부가 등 정의 텍스트가 변형되어 정답 선지로 생성될 수도 있다. 그러나 이에 제한되는 것은 아니다.
제1 정의 텍스트를 정답 선지로 생성하면(S123_a), 후보 답안 리스트 내에서 제1 정의 텍스트를 제외한 나머지 정의 텍스트, 즉 제2 정의 텍스트를 기초로 오답 선지를 생성한다.
이때, 오답 선지는 제2 정의 텍스트의 점수를 내림차순으로 정렬하여, 높은 점수의 정의 텍스트부터 오답 선지로 생성될 수 있다. 이를 통해, 정답 선지와 가장 유사하지만 궁극적으로 내포하고 있는 의미가 상이한 정의 텍스트를 오답으로 생성함으로써, 난이도가 높은 문제를 생성할 수 있다. 또한 이는 수험생과 학습자에게 타겟 단어의 진정한 의미를 고찰하도록 하는 효과를 발휘할 수 있다.
한편 S123_b 단계는, 상기 후보 답안 리스트 내에서 사전에 설정된 기준 값 이하의 점수를 가지는 적어도 하나의 제3 정의 텍스트는 상기 오답 선지로 생성하지 않는 단계를 더 포함할 수 있다.
구체적으로, 후보 답안 리스트 내의 타겟 단어에 관한 복수의 정의 중 점수가 낮은, 즉 예시 문장 내의 타겟 단어가 의미하는 정의와는 거리가 먼 정의는 오답 선지로 생성하지 않을 수 있다. 이는, 사용자에게 보다 난이도 높은 어휘 문제를 생성하여 제공하기 위함이다. 따라서, 후보 답안 리스트 내 정의 텍스트에 상응하는 점수가 사전에 설정된 기준 값 이하의 점수를 가지는 정의 텍스트는 오답 선지로 생성되지 않는다.
또한, 본 발명의 일 실시예에 따라 오답 선지를 생성하는 단계는, 제1 정의 텍스트에 상응하는 상기 타겟 단어의 품사와 동일한 품사에 상응하는 정의 텍스트를 기초로 후보 오답 선지 리스트를 생성하는 단계 및 상기 후보 오답 선지 리스트에 포함된 정의 텍스트를 기초로 하나 이상의 오답 선지를 생성하는 단계를 포함할 수 있다.
특히 문장 내 특정 단어의 의미를 찾는, 어휘 문제의 경우 특정 단어의 품사에 따라서 정답이 쉽게 추출되는 경우가 발생한다. 이는 특정 단어, 즉 본 발명의 타겟 단어의 진정한 의미를 사용자가 학습하도록 하는 어휘 문제의 의도와는 다르게, 타겟 단어의 품사와 동일한 품사에 관한 정의 텍스트를 사용자가 선택하기 때문이다. 즉, 수험생 또는 학습자는 타겟 단어의 진정한 의미에 대한 탐구 없이, 단순히 품사의 동일 여부만을 판단하여 답을 선택한다. 그렇기 때문에, 본 발명의 일 실시예는 오답 선지를 생성하는 단계에서, 예시 문장 내 타겟 단어와 동일한 품사에 상응하는 정의를 기초로 후보 오답 선지 리스트(40)를 생성한다. 그리고 생성된 후보 오답 선지 리스트(40) 내 정의 텍스트를 기초로 어휘 문제의 오답 선지를 생성한다.
도 9는 본 발명의 일 실시예에 따른 타겟 단어와 동일한 품사에 상응하는 정답 텍스트를 기초로 후보 오답 선지 리스트를 생성하는 것을 나타낸 예시도이다.
도 9를 참조하면, 타겟 단어인 “temper”의 어휘 문제의 정답 선지는 “a disposition to exhibit uncontrolled anger”로 생성되었다. 이때, 정답 성지로 생성된 제1 정의 텍스트는 “temper”의 명사에 관한 정의를 나타낸 것이다. 따라서, 후보 답안 리스트 내 복수의 정의 텍스트 중, “temper”가 가지는 명사에 대한 정의를 나타낸 정의 텍스트만을 추출하여 후보 오답 선지 리스트(40)를 생성한다. 그리고 후보 오답 선지 리스트 내 정의 텍스트를 기초로 오답 선지를 생성할 수 있을 것이다.
이때, 본 발명의 일 실시예에 따라 타겟 단어의 품사와 동일한 품사에 상응하는 정의 텍스트를 추출하기 위하여, 딥러닝 기반의 자연어 처리 알고리즘을 이용한 품사 필터링 과정을 수행할 수 있다. 그러나 이에 제한되는 것은 아니다.
또한 본 발명의 일 실시예로 제1 정의 텍스트에 상응하는 점수의 소정 비율 이상의 점수를 가진 다른 정의 텍스트는 상기 오답 선지로 생성하지 않을 수 있다.
구체적으로, 후보 답안 리스트 내 복수의 정의 텍스트 중 가장 높은 점수의 정의 텍스트는 정답 선지로 생성된다. 이때, 정답 선지로 생성된 정의 텍스트와 점수 차이가 미세한 다른 정의 텍스트가 오답 선지로 생성된다면, 실질적으로 복수의 오답 선지를 생성하는 결과를 초래한다. 왜냐하면, 정답 선지로 생성된 정의 텍스트와 점수 차이가 미세하다는 것은, 해당 정의 텍스트 역시 예시 문장 내 타겟 단어가 가지는 의미와 유사하다는 것을 의미하기 때문이다. 따라서, 비록 오답 선지로 생성되었으나, 실질적으로 수험생 또는 학습자에게는 복수의 정답이 존재하는 문제를 제공하는 것과 같다. 따라서 이를 방지하기 위하여, 정답 리스트로 생성된 정의 텍스트의 점수와 사전에 설정된 비율 이상의 점수를 가진 다른 정의 텍스트는 오답 선지로 생성되지 않을 수 있다.
한편 본 발명의 일 실시예로, 오답 선지의 개수가 사전에 설정된 제2 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제2 유의어로 탐색하고, 어휘 의미 데이터베이스로부터 상기 제2 유의어와 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신할 수 있다. 이때, 상술한 딥러닝 모델에 기반하여 갱신된 후보 답안 리스트를 기초로, 오답 선지를 더 생성할 수 있다.
예를 들어, 오답 선지의 개수와 관련된 제2 기준 개수가 3개라고 가정한다. 즉, 1개의 정답 선지와 3개의 오답 선지를 생성하는 것으로 가정한다. 이때, 오답 선지를 생성하는 단계를 통해, 2개의 오답 선지만을 생성하였다면, 서버는 타겟 단어와 동일한 의미를 가지는 단어를 제2 유의어로 탐색한다.
그리고 제2 유의어와 연관된 정의 텍스트를 상기 어휘 의미 데이터베이스로부터 추출한 후 후보 답안 리스트에 갱신할 수 있다. 그리고 갱신된 후보 답안 리스트를 기초로, 1개의 오답 선지를 더 생성할 수 있다.
이때, 기존의 후보 답안 리스트는 상기 제2 유의어의 정의 텍스트로 새롭게 갱신될 수 있다. 즉, 제2 유의어의 정의 텍스트 만으로 제2 기준 개수에 미달하는 개수의 오답 선지를 생성할 수도 있다.
한편, 제2 유의어는 서버에 의해 사용자에게 입력할 것을 요청하고, 사용자에 의해 입력될 수도 있으며, 또는 제2 유의어는 유의어를 추출하는 딥러닝 모델에 기반하여 추출하여 탐색될 수도 있다. 그러나 이에 제한되는 것은 아니다.
이때, 본 발명의 일 실시예로, 정답 선지로 생성된 제1 정의 텍스트와 동일한 의미를 가지는 단어는 제2 유의어로 탐색하지 않을 수 있다.
이미 정답 선지로 생성된 제1 정의 텍스트와 동일한 의미를 가진 단어를 제2 유의어로 탐색하고, 제2 유의어의 어휘 의미 데이터베이스에 저장된 정의 텍스트를 기초로 오답 선지를 생성한다면, 이미 생성된 정답 선지와 실질적으로 동일한 의미를 가지는 오답 선지를 생성하는 것과 같은 결과를 초래한다. 이는 복수 정답을 가진 문제를 생성하는 것으로서, 문제를 푸는 수험생에게 혼란을 줄 수 있기 때문이다.
도 10은 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 방법에 관한 예시도이다.
도 10을 참조하면, 상술한 방법에 의해, 생성된 정답 선지와 복수의 정답 선지를 기초로 어휘 문제가 자동 생성된다. 이때, 정답 선지와 오답 선지는 각각 정답 선지의 개수 내에서의 임의의 번호가 중복되지 않도록 부여되어 배치될 수 있다.
한편, 도 10을 참조하면, 본 발명의 일 실시예에 따라 타겟 단어를 기초로 문제의 질의 문장을 생성하는 단계와 예시 문장 풀에서 랜덤으로 불러온 적어도 하나의 예시 문장을 기초로 어휘 문제의 보기 예시 문장을 생성하는 단계를 더 포함할 수 있다.
한편, 상술한 설명에서, 단계 S110 내지 S120은 본 발명의 구현 예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 상술한 도 1의 내용은 도 2 내지 도 10의 딥러닝 기반의 어휘 문제 자동 생성 방법에도 적용될 수 있다.
이상에서 전술한 본 발명의 일 실시예에 따른 딥러닝 기반의 어휘 문제 자동 생성 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 컴퓨터 판독가능 기록 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (11)

  1. 딥러닝 기반의 단어 의미 명확화 모델을 이용하여 어휘 문제를 자동 생성하는 서버 장치에 의해 수행되는 방법으로서,
    a) 적어도 하나의 타겟 단어가 입력될 경우, 적어도 하나의 예시 문장을 포함하는 예시 문장 풀에서 상기 타겟 단어를 포함하는 적어도 하나의 예시 문장을 랜덤으로 불러오는 단계; 및
    b) 인공지능 기반의 단어 의미 명확화 모델을 기반으로, 상기 타겟 단어와 연관된 적어도 하나의 어휘 문제를 생성하는 단계를 포함하고,
    상기 a) 단계는,
    a-1) 어휘 의미 데이터베이스로부터 상기 타겟 단어와 연관된 적어도 하나의 정의 텍스트를 추출하여 후보 답안 리스트를 생성하는 단계;
    a-2) 상기 모델을 기반으로, 상기 예시 문장에서의 타겟 단어와 상기 후보 답안 리스트에 포함된 각각의 정의 텍스트를 매칭하여 점수를 산출하는 단계; 및
    a-3)상기 산출된 각각의 정의 텍스트에 상응하는 점수 결과에 기초하여, 상기 어휘 문제의 답안 선지를 생성하는 단계를 포함하고,
    상기 a-3) 단계는,
    a-3-1) 상기 점수 결과에 기초하여 가장 높은 점수의 제1 정의 텍스트를 정답 선지로 생성하는 단계; 및
    a-3-2) 상기 후보 답안 리스트 내에서 상기 제1 정의 텍스트를 제외한 다른 적어도 하나의 제2 정의 텍스트를 적어도 하나의 오답 선지로 생성하는 단계;를 포함하고,
    상기 a-3-2) 단계는,
    상기 후보 답안 리스트 내에서 사전에 설정된 기준 값 이하의 점수를 가지는 적어도 하나의 제3 정의 텍스트 및 상기 제1 정의 텍스트에 상응하는 점수의 소정 비율 이상의 점수를 가진 다른 정의 텍스트는 상기 오답 선지로 생성하지 않고,
    상기 a-2) 단계는,
    a-2-1) 상기 타겟 단어를 포함하는 예시 문장을 단어 기준의 토큰으로 분할하고, 각각의 토큰에 상응하는 벡터로 임베딩하는 단계;
    a-2-2) 상기 후보 답안 리스트 내 각각의 정의 텍스트에 상응하는 벡터로 임베딩하는 단계; 및
    a-2-3) 상기 타겟 단어에 상응하는 벡터와 상기 각각의 정의 텍스트에 상응하는 벡터의 내적 값을 산출하고, 그 결과에 기초하여 각각의 정의 텍스트에 점수를 부여하는 단계를 포함하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법.
  2. 제1항에 있어서,
    상기 a-1) 단계는,
    a-1-1) 상기 후보 답안 리스트에 포함된 상기 타겟 단어의 정의 텍스트의 개수가 사전에 설정된 제1 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제1 유의어로 탐색하는 단계; 및
    a-1-2) 상기 어휘 의미 데이터베이스로부터 상기 제1 유의어에 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신하는 단계를 포함하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법.
  3. 제1항에 있어서,
    상기 a-3-2) 단계는,
    상기 예시 문장 내 상기 타겟 단어의 품사와 동일한 품사에 상응하는 정의 텍스트를 기초로 후보 오답 선지 리스트를 생성하는 단계; 및
    상기 후보 오답 선지 리스트에 포함된 정의 텍스트를 기초로 하나 이상의 오답 선지를 생성하는 단계를 포함하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법.
  4. 제1항에 있어서,
    상기 a-3-2) 단계는,
    상기 오답 선지의 개수가 사전에 설정된 제2 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제2 유의어로 탐색하는 단계;
    상기 어휘 의미 데이터베이스로부터 상기 제2 유의어와 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신하는 단계; 및
    상기 단어 의미 명확화 모델과 상기 갱신된 후보 답안 리스트를 기초로, 상기 오답 선지를 생성하는 단계;를 더 포함하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법.
  5. 제4항에 있어서,
    상기 a-3-2) 단계는,
    상기 정답 선지로 생성된 제1 정의 텍스트와 동일한 의미를 가지는 단어는 제2 유의어로 탐색하지 않는 단계;를 더 포함하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법.
  6. 컴퓨터와 결합되어, 제1항 내지 제5항 중 어느 하나의 항의 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
  7. 적어도 하나의 타겟 단어를 수신하는 통신모듈;
    딥러닝 기반의 어휘 문제를 자동으로 생성하는 프로그램이 저장된 메모리; 및
    상기 프로그램이 실행됨에 따라, 적어도 하나의 예시 문장을 포함하는 예시 문장 풀에서 상기 타겟 단어를 포함하는 적어도 하나의 예시 문장을 랜덤으로 불러오고, 인공지능 기반의 단어 의미 명확화 모델을 기반으로 상기 타겟 단어와 연관된 적어도 하나의 어휘 문제를 생성하는 프로세서를 포함하고,
    상기 프로세서는, 어휘 의미 데이터베이스로부터 상기 타겟 단어와 연관된 적어도 하나의 정의 텍스트를 추출하여 후보 답안 리스트를 생성하고, 상기 모델을 기반으로, 상기 예시 문장에서의 타겟 단어와 상기 후보 답안 리스트에 포함된 각각의 정의 텍스트를 매칭하여 점수를 산출하며, 상기 산출된 각각의 정의 텍스트에 상응하는 점수 결과에 기초하여, 상기 어휘 문제의 답안 선지를 생성하고,
    상기 프로세서는, 상기 어휘 문제의 답안 선지를 생성 시에, 상기 점수 결과에 기초하여 가장 높은 점수의 제1 정의 텍스트를 정답 선지로 생성하고, 상기 후보 답안 리스트 내에서 상기 제1 정의 텍스트를 제외한 다른 적어도 하나의 제2 정의 텍스트를 적어도 하나의 오답 선지로 생성하고,
    상기 프로세서는, 상기 오답 선지를 생성 시에, 상기 후보 답안 리스트 내에서 사전에 설정된 기준 값 이하의 점수를 가지는 적어도 하나의 제3 정의 텍스트 및 상기 제1 정의 텍스트에 상응하는 점수의 소정 비율 이상의 점수를 가진 다른 정의 텍스트는 상기 오답 선지로 생성하지 않고,
    상기 프로세서는, 상기 점수를 산출 시에, 상기 타겟 단어를 포함하는 예시 문장을 단어 기준의 토큰으로 분할하고, 각각의 토큰에 상응하는 벡터로 임베딩하고, 상기 후보 답안 리스트 내 각각의 정의 텍스트에 상응하는 벡터로 임베딩하며, 상기 타겟 단어에 상응하는 벡터와 상기 각각의 정의 텍스트에 상응하는 벡터의 내적 값을 산출하고, 그 결과에 기초하여 각각의 정의 텍스트에 점수를 부여하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 서버 장치.
  8. 제7항에 있어서,
    상기 프로세서는, 상기 후보 답안 리스트를 생성 시에,
    상기 후보 답안 리스트에 포함된 상기 타겟 단어의 정의 텍스트의 개수가 사전에 설정된 제1 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제1 유의어로 탐색하고,
    상기 어휘 의미 데이터베이스로부터 상기 제1 유의어에 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 서버 장치.
  9. 제7항에 있어서,
    상기 프로세서는, 상기 오답 선지를 생성 시에,
    상기 예시 문장 내 상기 타겟 단어의 품사와 동일한 품사에 상응하는 정의 텍스트를 기초로 후보 오답 선지 리스트를 생성하고,
    상기 후보 오답 선지 리스트에 포함된 정의 텍스트를 기초로 하나 이상의 오답 선지를 생성하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 서버 장치.
  10. 제7항에 있어서,
    상기 프로세서는, 상기 오답 선지를 생성 시에,
    상기 오답 선지의 개수가 사전에 설정된 제2 기준 개수보다 적을 경우, 상기 타겟 단어와 적어도 하나의 동일한 의미를 가지는 단어를 제2 유의어로 탐색하고,
    상기 어휘 의미 데이터베이스로부터 상기 제2 유의어와 연관된 적어도 하나의 정의 텍스트를 추출하여 상기 후보 답안 리스트에 갱신하며,
    상기 단어 의미 명확화 모델과 상기 갱신된 후보 답안 리스트를 기초로, 상기 오답 선지를 생성하는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 서버 장치.
  11. 제10항에 있어서,
    상기 프로세서는, 상기 오답 선지를 생성 시에,
    상기 정답 선지로 생성된 제1 정의 텍스트와 동일한 의미를 가지는 단어는 제2 유의어로 탐색하지 않는,
    딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 서버 장치.
PCT/KR2021/012530 2020-09-18 2021-09-14 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치 WO2022060061A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200120614A KR102318072B1 (ko) 2020-09-18 2020-09-18 딥러닝 기반의 어휘 문제 자동 생성 방법
KR10-2020-0120614 2020-09-18

Publications (1)

Publication Number Publication Date
WO2022060061A1 true WO2022060061A1 (ko) 2022-03-24

Family

ID=78287012

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/012530 WO2022060061A1 (ko) 2020-09-18 2021-09-14 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치

Country Status (2)

Country Link
KR (1) KR102318072B1 (ko)
WO (1) WO2022060061A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100786352B1 (ko) * 2006-08-10 2007-12-14 울산대학교 산학협력단 한국어 어휘 학습을 위한 자동 문제 생성 방법
KR101460449B1 (ko) * 2013-08-05 2014-11-20 포항공과대학교 산학협력단 자동 빈칸 채우기 문제 생성 방법 및 이를 수행하는 프로그램을 기록한 기록매체 장치
KR101847345B1 (ko) * 2017-04-12 2018-04-10 한국과학기술원 온톨로지 기술과 지식 구조의 기계적 생성을 활용한 객관식 형성 평가 문제의 자동 생성 방법
KR101926669B1 (ko) * 2018-07-24 2018-12-07 서울대학교산학협력단 텍스트 임베딩 모델을 이용한 객관식 빈칸 채우기 퀴즈 생성 장치 및 방법
KR20200011155A (ko) * 2018-07-24 2020-02-03 주식회사 아이포트폴리오 유사 답안 제공 시스템 및 이의 운용 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100022916A (ko) 2008-08-20 2010-03-03 정근수 프로그램을 이용한 시험지 자동 생성 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100786352B1 (ko) * 2006-08-10 2007-12-14 울산대학교 산학협력단 한국어 어휘 학습을 위한 자동 문제 생성 방법
KR101460449B1 (ko) * 2013-08-05 2014-11-20 포항공과대학교 산학협력단 자동 빈칸 채우기 문제 생성 방법 및 이를 수행하는 프로그램을 기록한 기록매체 장치
KR101847345B1 (ko) * 2017-04-12 2018-04-10 한국과학기술원 온톨로지 기술과 지식 구조의 기계적 생성을 활용한 객관식 형성 평가 문제의 자동 생성 방법
KR101926669B1 (ko) * 2018-07-24 2018-12-07 서울대학교산학협력단 텍스트 임베딩 모델을 이용한 객관식 빈칸 채우기 퀴즈 생성 장치 및 방법
KR20200011155A (ko) * 2018-07-24 2020-02-03 주식회사 아이포트폴리오 유사 답안 제공 시스템 및 이의 운용 방법

Also Published As

Publication number Publication date
KR102318072B1 (ko) 2021-10-27
KR102318072B9 (ko) 2022-03-11

Similar Documents

Publication Publication Date Title
Hu et al. Ocnli: Original chinese natural language inference
WO2018030672A1 (ko) 머신러닝을 활용한 정해진 시나리오로 고객과 상담하는 로봇 자동 상담 방법 및 시스템
WO2021049706A1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
WO2021071137A1 (ko) 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템
WO2013172534A1 (ko) 대화 관리 시스템 및 방법
WO2012115324A1 (ko) 대화 관리 방법 및 이를 실행하는 장치
WO2020111314A1 (ko) 개념 그래프 기반 질의응답 장치 및 방법
WO2016208941A1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
WO2015050321A1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
WO2021100902A1 (ko) 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
WO2015020299A1 (ko) 자동 빈칸 채우기 문제 생성 방법 및 이를 수행하는 프로그램을 기록한 기록매체 장치
WO2013062302A1 (ko) 작문 자동 평가를 위한 예제기반 오류 검출 시스템, 이를 위한 방법 및 이를 위한 오류 검출 장치
WO2022060060A1 (ko) 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치
WO2022060061A1 (ko) 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치
WO2024090712A1 (ko) 공감대 형성을 통한 심리 치료용 인공지능 대화 시스템
WO2011049313A9 (ko) 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
WO2022235073A1 (ko) 독해와 작문 능력의 향상을 가이드하는 방법 및 그 장치
WO2021206449A1 (ko) 온라인 영어 학습 서비스 및 이를 운용하는 관리 서버
WO2022050724A1 (ko) 질의에 대한 응답 결정 장치, 방법 및 시스템
US11475222B2 (en) Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents
WO2017122904A1 (ko) 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
WO2017122872A1 (ko) 전자 출판물에 대한 정보를 생성하는 장치 및 방법
Peters et al. Translation Studies
Chin Language transfer in the acquisition of the semantic contrast in L3 Spanish
WO2024101554A1 (ko) 키워드를 이용한 패러프레이즈 문장 생성장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21869683

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21869683

Country of ref document: EP

Kind code of ref document: A1