WO2022060060A1 - 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치 - Google Patents

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치 Download PDF

Info

Publication number
WO2022060060A1
WO2022060060A1 PCT/KR2021/012529 KR2021012529W WO2022060060A1 WO 2022060060 A1 WO2022060060 A1 WO 2022060060A1 KR 2021012529 W KR2021012529 W KR 2021012529W WO 2022060060 A1 WO2022060060 A1 WO 2022060060A1
Authority
WO
WIPO (PCT)
Prior art keywords
difficulty
foreign language
fingerprint
sentence
per
Prior art date
Application number
PCT/KR2021/012529
Other languages
English (en)
French (fr)
Inventor
이형종
Original Assignee
주식회사 렉스퍼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 렉스퍼 filed Critical 주식회사 렉스퍼
Publication of WO2022060060A1 publication Critical patent/WO2022060060A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Definitions

  • the present invention relates to a method of generating a foreign language fingerprint for education by adjusting the difficulty of the fingerprint, a computer program therefor, and an apparatus therefor.
  • the problem to be solved by the present invention is that, when a foreign language fingerprint with high difficulty is input or a foreign language fingerprint with low difficulty is input, it is converted into an educational foreign language fingerprint having the difficulty desired by the user through the process of simplification of vocabulary and syntax or vice versa.
  • a method for providing to a user, a computer program thereof, and an apparatus thereof are provided.
  • the method of generating a foreign language fingerprint for education through adjustment of the difficulty of the fingerprint according to the present invention for solving the above-described technical problem includes: a) When a fingerprint composed of one or more foreign language sentences (hereinafter referred to as a target fingerprint) is input, the input target Measuring the difficulty level of the fingerprint; b) adjusting the difficulty level of the foreign language sentence of the target fingerprint; c) according to the adjustment result of the difficulty level, each of the foreign language sentences of the target fingerprint is composed of replaceable sentences Measuring each difficulty level of the replacement candidate group fingerprint, and d) outputting a fingerprint matching a preset target difficulty level among the replacement candidate group fingerprint as a foreign language fingerprint for education, wherein step b) includes b-1) above Adjusting the difficulty level for the vocabulary included in the foreign language sentence of the target fingerprint; b-2) adjusting the difficulty level for the phrase for the foreign language sentence of the target fingerprint; the step b-1) includes b-1-1) generating a first list by extracting all synonyms for a
  • the method of generating a foreign language fingerprint for education by adjusting the difficulty level of the fingerprint according to the present invention e) when the difficulty of the output foreign language fingerprint for education is lower than the target difficulty, the corresponding word is preliminarily selected from among the words belonging to the candidate group
  • the method may further include replacing the word with a higher level of difficulty than the corresponding word on the defined curriculum.
  • the step b-2) includes b-2-1) determining whether the foreign language sentence of the target fingerprint corresponds to any one of an equivalence clause, a conjunction clause, and a relative clause clause; b-2-2) above adjusting the difficulty by simplifying a foreign language sentence corresponding to any one into a plurality of detailed foreign language sentences or by combining a plurality of simplified detailed foreign language sentences to increase the difficulty; and b-2-3) the foreign language sentence with the difficulty adjusted It may include the step of increasing the difficulty by simplifying the foreign language sentence of the middle passive voice type into the foreign language sentence of the active voice type, or changing the foreign language sentence of the active voice type into the foreign language sentence of the passive voice type.
  • step b-2) includes b-2-4) tokenizing the foreign language sentence of the target fingerprint based on a dependent syntax analysis model, and b-2-5) the tokenized foreign language sentence is a joint clause or It may further include the step of performing marking on the corresponding part by determining whether it corresponds to the relative clause.
  • step b-2) may further include b-2-6) performing at least one of a truecasing process and a process of removing unused punctuation marks for the foreign language sentence whose difficulty has been adjusted.
  • step b-2 when the difficulty of the output foreign language for education is lower than the target difficulty, at least two or more detailed foreign language sentences among the plurality of detailed foreign language sentences are recombined, or The method may further include reconverting the foreign language sentence of the active voice type into the foreign language sentence of the passive voice type.
  • the preset difficulty measurement criteria are: average number of words per sentence, average number of noun phrases per sentence, average number of nouns per sentence, average number of verb phrases per sentence, average number of adjectives per sentence, per sentence average number of dependent clauses, average number of prepositional phrases per sentence, number of entities per sentence, number of distinct entities per sentence, number of lexical chains per sentence, average number of syllables per word, number of lexical chains per word, number of lexical chains per noun phrase, across the passage ratio of words exceeding three syllables of, the number of noun phrases in the entire passage, the number of nouns in the entire passage, the number of verb phrases in the entire passage, the number of adjectives in the entire passage, the number of dependent clauses in the entire passage,
  • Number of words at level 2 number of words at 3rd to 2nd level per word, 2nd through 3rd level words in the entire passage, number of words in 3rd through 2nd level per word, university level in the entire passage may include one or more of a word count and a college-level word count per word.
  • step c) c-1) applying a preset difficulty measurement criterion to the replacement candidate group fingerprint and c-2) applying a linear regression technique to the result according to the preset difficulty measurement criterion to the replacement candidate group Measuring the difficulty of each of the fingerprints, wherein the preset difficulty measurement criterion is, the average number of words per sentence, the average number of noun phrases per sentence, the average number of nouns per sentence, the average number of verb phrases per sentence, the average number of adjectives per sentence, average number of dependent clauses per sentence, average number of prepositional phrases per sentence, number of entities per sentence, number of distinct entities per sentence, number of lexical chains per sentence, average number of syllables per word, number of lexical chains per word, number of lexical chains per noun phrase, fingerprint Proportion of words with more than three syllables in the whole, the number of noun phrases in the entire passage, the number of nouns in the entire passage, the number of verb phrases in the entire passage,
  • step d) d-1) providing an adjustable difficulty range according to a difficulty measurement result for the alternative candidate fingerprint, and d-2) when the target difficulty is included within the adjustable difficulty range, the It may include outputting an alternative fingerprint matching the target difficulty as a foreign language fingerprint for education.
  • the present invention may include a computer program stored in a computer-readable recording medium in order to execute the method for generating a foreign language fingerprint for education by adjusting the difficulty of the fingerprint according to the present invention by being combined with a computer.
  • the server device for generating a foreign language fingerprint for education by adjusting the difficulty level of the fingerprint includes a communication module for receiving a fingerprint (hereinafter referred to as a target fingerprint) composed of one or more foreign language sentences, and adjusting the difficulty level of the target fingerprint.
  • a target fingerprint a fingerprint composed of one or more foreign language sentences
  • the processor adjusts the difficulty for the vocabulary included in the foreign language sentence of the target fingerprint, and adjusts the difficulty for the phrase for the foreign language sentence of the target fingerprint, , the processor generates a first list by extracting all synonyms for a corresponding word included in the target fingerprint when adjusting the difficulty with respect to the vocabulary included in the foreign language sentence of the target fingerprint, and a pre-learned language Based on the model, a second list including words that can be replaced with the corresponding word is generated in consideration
  • the processor may replace the corresponding word with a word of higher difficulty than the corresponding word in a predefined curriculum among words belonging to the candidate group. there is.
  • the processor determines whether the foreign language sentence of the target fingerprint corresponds to any one of an equivalence clause, a conjunction clause, and a relative clause clause, when the difficulty is adjusted for the syntax of the foreign language sentence of the target fingerprint, A foreign language sentence corresponding to any one is simplified into a plurality of detailed foreign language sentences, or the difficulty is adjusted by increasing the difficulty by combining a plurality of simplified detailed foreign language sentences, and a foreign language sentence of a passive voice type among the foreign language sentences for which the difficulty has been adjusted is converted into an active voice.
  • the difficulty can be increased by simplifying it to a foreign language sentence of the older type, or changing the foreign language sentence of the active voice type to a foreign language sentence of the passive voice type.
  • the processor tokenizes the foreign language sentence of the target fingerprint based on a dependent syntax analysis model when the difficulty is adjusted for the syntax of the foreign language sentence of the target fingerprint, and the tokenized foreign language sentence is combined clause Alternatively, it is possible to determine whether or not it corresponds to the relative clause and perform marking on the corresponding part.
  • the processor adjusts the difficulty for the phrase for the foreign language sentence of the target fingerprint, at least one of a truecasing process and a process of removing unused punctuation marks for the foreign language sentence for which the difficulty has been adjusted can be performed.
  • the difficulty of the foreign language sentence of the target fingerprint is adjusted for the syntax of the foreign language sentence of the target fingerprint
  • the difficulty of the output foreign language fingerprint for education is lower than the target difficulty
  • the detail of at least two or more of the plurality of detailed foreign language sentences may be recombined, or the foreign language sentences of the active voice type may be reconverted into foreign language sentences of the passive voice type.
  • the processor when measuring the difficulty level of the target fingerprint, applies a preset difficulty measurement criterion to the target fingerprint, and applies a linear regression technique to the result according to the preset difficulty measurement criterion for the target fingerprint.
  • the preset difficulty measurement criteria are: average number of words per sentence, average number of noun phrases per sentence, average number of nouns per sentence, average number of verb phrases per sentence, average number of adjectives per sentence, average number of dependent clauses per sentence, sentence average number of prepositional phrases per word, number of entities per sentence, number of distinct entities per sentence, number of lexical chains per sentence, average number of syllables per word, number of lexical chains per word, number of lexical chains per noun phrase, words with more than 3 syllables throughout the passage Ratio, the number of noun phrases in the entire passage, the number of nouns in the entire passage, the number of verb phrases in the entire passage, the number of adjectives in the entire passage, the number of dependent clauses in the entire
  • the processor applies a preset difficulty measurement criterion to the replacement candidate fingerprint when measuring each difficulty level for the replacement candidate fingerprint, and applies a linear regression technique to the result according to the preset difficulty measurement criterion to obtain the Measure each difficulty level for the alternative candidate fingerprints, but the preset difficulty measurement criteria are: average number of words per sentence, average number of noun phrases per sentence, average number of nouns per sentence, average number of verb phrases per sentence, average number of adjectives per sentence, per sentence average number of dependent clauses, average number of prepositional phrases per sentence, number of entities per sentence, number of distinct entities per sentence, number of lexical chains per sentence, average number of syllables per word, number of lexical chains per word, number of lexical chains per noun phrase, across the passage ratio of words exceeding three syllables of, the number of noun phrases in the entire passage, the number of nouns in the entire passage, the number of verb phrases in the entire passage, the number of adjectives in the entire passage, the number of dependent clauses in
  • Number of words at level 2 number of words at 3rd to 2nd level per word, 2nd through 3rd level words in the entire passage, number of words in 3rd through 2nd level per word, university level in the entire passage may include one or more of a word count and a college-level word count per word.
  • the processor provides a difficulty adjustment range according to the difficulty measurement result for the substitute candidate group fingerprint when outputting a fingerprint matching a preset target difficulty among the substitute candidate group fingerprints as an educational foreign language fingerprint, and the difficulty can be adjusted When the target difficulty level is included in the range, an alternative fingerprint matching the target difficulty level may be output as a foreign language fingerprint for education.
  • the cost of creating a fingerprint is very high, but according to the present invention, it is possible to create fingerprints for various English tests such as the SAT and TOEIC or for English education at a low cost.
  • foreign language fingerprints for education can be generated for each level of difficulty, which has the advantage of being able to create a question bank at low cost.
  • FIG. 1 is a flowchart of a method for generating a foreign language fingerprint for education according to an embodiment of the present invention.
  • FIG. 2 is a flowchart for explaining a process of adjusting difficulty for a vocabulary according to an embodiment of the present invention.
  • FIG. 3 is a diagram for explaining an example of a process of adjusting a difficulty level for a vocabulary.
  • FIG. 4 is a flowchart for explaining a process of adjusting the difficulty for a phrase in an embodiment of the present invention.
  • FIG. 5 is a diagram for explaining an example of a process of adjusting a difficulty level for a phrase.
  • FIG. 6 is a view for explaining the difficulty measurement standard in an embodiment of the present invention.
  • 7 is a diagram for explaining the content of selecting an alternative fingerprint that meets the target difficulty level.
  • FIG. 8 is a diagram for explaining a foreign language fingerprint generation server device for education according to an embodiment of the present invention.
  • FIG. 1 is a flowchart of a method for generating a foreign language fingerprint for education according to an embodiment of the present invention.
  • FIG. 1 may be understood to be performed by a platform server device (hereinafter, referred to as a server) of a service company that provides a method for generating a foreign language fingerprint for education, but is not limited thereto.
  • a platform server device hereinafter, referred to as a server
  • a service company that provides a method for generating a foreign language fingerprint for education
  • the server receives a fingerprint (hereinafter, target fingerprint) composed of one or more foreign language sentences (S110).
  • target fingerprint a fingerprint composed of one or more foreign language sentences
  • the foreign language is not limited to English, but any foreign language other than the native language, such as Japanese or Chinese, may be the target.
  • any foreign language other than the native language such as Japanese or Chinese
  • Korean it goes without saying that Korean may be applied as a foreign language when targeting foreigners.
  • the server measures the difficulty of the input target fingerprint (S120).
  • the server performs the following steps to lower the difficulty when the difficulty of the target fingerprint is higher than the target difficulty preset by the user.
  • the target difficulty of the user may vary, but is not necessarily limited thereto.
  • an embodiment of the present invention is not limited to lowering the difficulty of the target fingerprint, and the server performs the reverse process of simplification of vocabulary and syntax in order to increase the difficulty when the difficulty of the target fingerprint is lower than the target difficulty preset by the user. can also be performed.
  • the server may perform a process for lowering the difficulty level and, conversely, a process for increasing the difficulty level, and may perform these processes in a complex manner.
  • the user may set the target difficulty level by using a predetermined terminal device.
  • the user's terminal device may be a computer device or a telecommunication device such as a smart phone, tablet, PDA, laptop, desktop, etc., but is not limited thereto.
  • the server performs a process of adjusting the difficulty of the foreign language sentence of the target fingerprint (S130).
  • the server performs a process of adjusting the difficulty for the vocabulary included in the foreign language sentence of the target fingerprint (hereinafter, the lexical difficulty adjustment process) and the process of adjusting the difficulty for the phrase included in the foreign language sentence of the target fingerprint (hereinafter referred to as the process of adjusting the difficulty level) , syntactic difficulty adjustment process) to adjust the difficulty of foreign language sentences in the target text.
  • the lexical difficulty adjustment process the process of adjusting the difficulty level
  • syntactic difficulty adjustment process syntactic difficulty adjustment process
  • FIG. 2 is a flowchart for explaining a process of adjusting difficulty for a vocabulary according to an embodiment of the present invention.
  • 3 is a diagram for explaining an example of a process of adjusting a difficulty level for a vocabulary.
  • the purpose of performing the vocabulary difficulty adjustment process is to replace a vocabulary with a simpler one or a simple vocabulary with a more difficult vocabulary.
  • kucera francis frequency was calculated from the Psycholinguistic Dictionary. This is because more frequently used words are considered psychologically less difficult than less frequently used words, so the higher the kucera francis frequency is calculated, the lower the difficulty of the corresponding word is evaluated.
  • the lexical simplification process proceeded in such a way that words in a specific text were replaced with a higher kucera francis frequency.
  • kucera francis frequency is a study based on data from 1967 and is not suitable for current use.
  • the lexical simplification process through a method that depends only on the frequency of use may not convey the meaning of the original text as it is. This is because even a single word can have multiple meanings, so if you select only high-frequency among synonyms and proceed with simplification, it can be replaced with a synonym with a completely different meaning from the existing language.
  • natural difficulty can be adjusted through the process of extracting synonyms to detect words with similar meanings, and also considering whether the corresponding words fit the context using a language model.
  • the server generates a first list by extracting all synonyms for a given word included in the target fingerprint (S210).
  • the server may extract a synonym for the corresponding word using WordNet.
  • the server generates a second list including words that can be replaced with respect to the corresponding word in consideration of the contextual meaning of the corresponding word based on the pre-learned language model (S220).
  • the pre-trained language model may be a latent word language model based on a Bayesian network.
  • the server may generate a second list including words that can be replaced with respect to the corresponding word after considering the contextual meanings of before and after words connected to the corresponding word.
  • the latent word language model in the present invention makes it possible to grasp the contextual meaning of a specific word by considering words connected before and after.
  • the server can learn the unlabeled corpus.
  • the server learns a probability set for words related to all synonyms for the word through the latent word language model, so it is possible to adjust the vocabulary difficulty more accurately than simply importing and replacing synonyms from WordNet Do.
  • the server sets a word belonging to the intersection of the first and second lists as a candidate group (S230). That is, the server considers the words belonging to the intersection as a candidate group in consideration of the meaning and context of the corresponding word.
  • the server replaces the corresponding word with the word having the lowest difficulty in the predefined curriculum among the words belonging to the candidate group or the word with the highest difficulty ( S240 ).
  • the server uses CoKEC-word, which is the most recent data among the words difficulty in the Korean English education process, in order to check which word of the candidate group can be replaced with a more simplified or increased difficulty level. Available.
  • CoKEC-word about 50,000 words are organized by category from Level A to E.
  • 3 is an example of the process of adjusting the difficulty for the vocabulary. For example, when the vocabulary difficulty adjustment process is performed for the word 'executive' in the sentence "A Japanese electronic executive was kidnapped here." All synonyms of the word 'executive' are extracted and generated as a first list, and a second list that is a set of words that can replace 'executive' is generated based on the language model.
  • the difficulty can be adjusted by replacing the corresponding word with a word belonging to the candidate group with relatively low or high difficulty using CoKEC-word.
  • the server may replace the corresponding word with a word belonging to a candidate group with the highest level of difficulty in a predefined curriculum or a word having a higher level of difficulty than the current level of difficulty.
  • the difficulty of the target fingerprint is lower than the target difficulty of the user through the vocabulary simplification process, but it is determined that it is too low compared to the education level of the user, a word having a difficulty higher than the current difficulty may be substituted.
  • the user's education level is determined to correspond to the user's current grade information, but is not necessarily limited thereto, and manual setting is also possible.
  • 4 is a flowchart for explaining a process of adjusting the difficulty for a phrase in an embodiment of the present invention.
  • 5 is a diagram for explaining an example of a process of adjusting a difficulty level for a phrase.
  • the text difficulty adjustment process requires a syntactic difficulty adjustment process along with the vocabulary difficulty adjustment process.
  • many studies have already been conducted, and there are many studies that proceed with the difficulty adjustment task only through deep learning without the existing rulebase coding.
  • foreign language sentences in the target text are divided according to Conjoint Clauses, Relative Clauses, and Appositive Clauses through the syntactic difficulty adjustment process, and the passive voice is changed to the active voice. Adjust the difficulty for text by converting it to type or vice versa.
  • the server tokenizes the foreign language sentence of the target fingerprint based on the dependency parsing model through the analysis module (S310), and then determines whether the tokenized foreign language sentence corresponds to a conjunction clause or a relative clause clause. It is determined whether or not the corresponding part is marked (S320).
  • the Stanford NLP Parser (CoreNLP) having the highest score in the Universal Dependencies part can be applied as a dependency parsing analysis model in order to lower the difficulty of the syntax.
  • the process of marking whether there is a part in a sentence that corresponds to a conjunction clause or a relative clause that requires adjustment of syntactic difficulty is performed.
  • the server may mark it separately according to the meaning of the context, such as 'and' and 'when'.
  • the server determines whether the foreign language sentence of the target fingerprint corresponds to any one of the equivalence clause, the conjunction clause, and the relative clause clause through the conversion module (S330), and converts the foreign language sentence corresponding to any one into a plurality of detailed foreign language sentences
  • the difficulty is adjusted by increasing the difficulty by combining a plurality of detailed foreign language sentences simplified or simplified (S340).
  • the server simplifies the foreign language sentences of the passive voice type among the simplified foreign language sentences into the foreign language sentences of the active voice type, or changes the foreign language sentences of the active voice type into the foreign language sentences of the passive voice type to increase the difficulty (S350).
  • the server repeats the syntax difficulty adjustment process through the transformation module until there are no more rules to apply.
  • all syntax simplification processes in the present invention may be performed based on the result values derived from CoreNLP trained based on universality dependency.
  • the associative clause function first checks whether it is an Adverbial Clause Modifier (ADVL) or a Coordinating Conjunction (CC) tag.
  • ADVL Adverbial Clause Modifier
  • CC Coordinating Conjunction
  • the junction tag is detected, and in the example sentence above, 'give' and 'handled', which are sibling conjunctions with 'and', have a junction relationship. Accordingly, it is split into two sentences: “The problem was handled by myself.” and “And won't give you more trouble.”
  • the server performs at least one of a truecasing process and a process of removing unused punctuation marks with respect to the foreign language sentence whose difficulty is adjusted through the formation module (S360).
  • the purpose of the formation module is to rearrange the sentences whose difficulty has been adjusted to fit the grammar.
  • true casing may be executed through a Python implementation model, and when learning a language other than English, it may be re-learned with a corpus of the corresponding language.
  • the formation module proceeds with a process of confirming whether a new discourse marker is required. For example, if you need to split into two sentences through the discourse marker 'although', you need to add 'but' to the last sentence.
  • the verb connecting the subject and the cognate word must be modified to fit the tense, singular, and plural grammars.
  • the difficulty is lower than the user's target difficulty or If it is higher and does not match the user's education level, the difficulty may be increased again by performing at least one of a process of additionally performing a syntax simplification process, a process of combining re-segmented sentences, or a process of converting an active voice to a passive voice. .
  • the server measures the difficulty of each of the replacement candidate fingerprints composed of sentences that can be substituted for the foreign language sentences of the target fingerprint ( S140 ). Then, a fingerprint matching the target difficulty preset by the user from among the fingerprints of the alternative candidate group is output as a foreign language fingerprint for education (S150).
  • an embodiment of the present invention set a more specific difficulty measurement criterion (LXPER Index) out of the existing Flesch-Kincaid Readability Test limit.
  • an embodiment of the present invention is characterized by considering a lexical chain for more accurately measuring not only a visual standard but also a psychological difficulty that a person can feel.
  • FIG. 6 is a view for explaining the difficulty measurement standard in an embodiment of the present invention.
  • the difficulty measurement standard shown in FIG. 6 is derived from almost all measurable items by applying the Berkeley Neural Parser.
  • the preset difficulty measurement criteria are: average number of words per sentence, average number of noun phrases per sentence, average number of nouns per sentence, average number of verb phrases per sentence, average number of adjectives per sentence, average number of dependent clauses per sentence, average number of prepositional phrases per sentence, number of entities per sentence, number of distinct entities per sentence, number of lexical chains per sentence, average number of syllables per word, number of lexical chains per word, number of lexical chains per noun phrase, more than 3 syllables throughout the passage Word ratio, number of noun phrases in the whole passage, number of nouns in the whole passage, number of verb phrases in the whole passage, number of adjectives in the whole passage, number of dependent clauses in the whole passage, number of prepositional phrases in the whole passage, unique in the whole passage Number of entities, number of lexical chains in the entire passage, number of words in the middle 2 to 3 level in the entire passage, the number of words in middle 2 to 3 level per word, words in level
  • the server applies a preset difficulty measurement standard to the target fingerprint and the replacement candidate group fingerprint, and applies a linear regression technique to the result according to the preset difficulty measurement standard to determine the difficulty of the input target fingerprint and the replacement candidate group fingerprint. Measure each difficulty level.
  • the server may measure the difficulty by using Equation 1 below.
  • a linear regression technique is applied to the results according to the difficulty measurement standard for all sentences of the target fingerprint, and each difficulty can be measured.
  • a training model for a linear regression model may have various options, and all texts used in a regular education process may be applied as training data for this purpose.
  • 7 is a diagram for explaining the content of selecting an alternative fingerprint that meets the target difficulty level.
  • the server After measuring the difficulty of the alternative candidate fingerprint, the server provides an adjustable range of difficulty according to the difficulty measurement result for the alternative candidate fingerprint. And, when the target difficulty is included within the range of difficulty adjustment, the server outputs an alternative fingerprint matching the target difficulty as a foreign language fingerprint for education.
  • the server may provide a difficulty adjustment range by comparing each difficulty level of 'solution 1 to solution 6' which is an alternative candidate fingerprint in FIG. 7 .
  • the server may provide the user with a classification from a range that can be simplified the most (low point), a target difficulty level of the user (User reference), and a range that has the highest degree of difficulty (high point).
  • the server may output an alternative fingerprint matching the target difficulty level as a foreign language fingerprint for education. If the target difficulty is not set, the most simplified range (low point) may be provided as a foreign language fingerprint for education. Alternatively, the range with the highest level of difficulty may be provided as a foreign language fingerprint for education.
  • steps S110 to S360 may be further divided into additional steps or combined into fewer steps according to an embodiment of the present invention.
  • some steps may be omitted if necessary, and the order between steps may be changed.
  • the contents of FIG. 8, which will be described later, may also be applied to the method of generating foreign language fingerprints for education of FIGS. 1 to 7 even if other contents are omitted.
  • a foreign language fingerprint generating server for education generating a foreign language fingerprint for education by adjusting the difficulty of the fingerprint according to an embodiment of the present invention
  • FIG. 8 is a diagram for explaining a foreign language fingerprint generation server 400 for education according to an embodiment of the present invention.
  • the foreign language fingerprint generation server device 400 for education includes a communication module 410 , a memory 420 , and a processor 430 .
  • the communication module 410 receives a target fingerprint composed of one or more foreign language sentences by transmitting and receiving data to and from a user terminal or other terminal providing a foreign language fingerprint.
  • the memory 420 stores a program for outputting a foreign language fingerprint for education matching the target difficulty level of the user based on the data received from the communication module 410 .
  • the processor 430 executes the program stored in the memory 420, it measures the difficulty of the input target fingerprint, performs a difficulty adjustment process for foreign language sentences of the target fingerprint, and as a result of the difficulty adjustment process, the target fingerprint After measuring the difficulty of each of the replacement candidate fingerprints composed of replaceable sentences for the foreign language sentences, a fingerprint matching the target difficulty preset by the user among the replacement candidate fingerprints is output as an educational foreign language fingerprint.
  • the processor 430 performs a vocabulary difficulty adjustment process and a syntax difficulty adjustment process as a difficulty adjustment process for the foreign language sentence of the target fingerprint.
  • the foreign language fingerprint generation server 400 for education described with reference to FIG. 8 may be provided as a component of the above-described server.
  • the method for generating a foreign language fingerprint for education according to an embodiment of the present invention described above may be implemented as a program (or application) and stored in a medium in order to be executed in combination with a computer that is hardware.
  • the above-mentioned program in order for the computer to read the program and execute the methods implemented as a program, C, C++, JAVA, Ruby, which the processor (CPU) of the computer can read through the device interface of the computer; It may include code coded in a computer language such as machine language. Such code may include functional code related to a function defining functions necessary for executing the methods, etc., and includes an execution procedure related control code necessary for the processor of the computer to execute the functions according to a predetermined procedure. can do. In addition, the code may further include additional information necessary for the processor of the computer to execute the functions or code related to memory reference for which location (address address) in the internal or external memory of the computer to be referenced. there is.
  • the code uses the communication module of the computer to determine how to communicate with any other computer or server remotely. It may further include a communication-related code for whether to communicate and what information or media to transmit and receive during communication.
  • the storage medium is not a medium that stores data for a short moment, such as a register, a cache, a memory, etc., but a medium that stores data semi-permanently and can be read by a device.
  • examples of the storage medium include, but are not limited to, ROM, RAM, CD-ROM, magnetic tape, floppy disk, and an optical data storage device.
  • the program may be stored in various recording media on various servers accessible by the computer or in various recording media on the computer of the user.
  • the medium may be distributed in a computer system connected to a network, and a computer-readable code may be stored in a distributed manner.

Abstract

본 발명은 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치에 관한 것이다. 본 발명에 따르면, 온라인 또는 오프라인 상에 현존하는 임의의 외국어 지문들을 대상으로 사용자가 희망하는 타겟 난이도에 맞도록 변환된 교육용 외국어 지문으로 제공이 가능하다. 즉, 외국어 문제 작성의 경우 지문 창작 비용이 매우 높은 편이나, 본 발명에 의하면 수능과 토익 등 각종 영어 시험용 또는 영어 교육용 지문을 저비용으로 창작이 가능하다. 또한, 다양한 난이도별로 교육용 외국어 지문 생성이 가능하며, 이를 통해 저비용으로 문제 은행 생성이 가능하다는 장점이 있다.

Description

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치
본 발명은 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치에 관한 것이다.
과거뿐만 아니라 최근에도 지속적으로 외국어 학습에 대한 필요성이 증가하고 있으며, 이에 따른 다양한 학습자료의 제공이 필요하다. 그러나, 외국어 지문을 가지고 다양한 학습자료를 만들기 위해서는 문서 편집도구를 이용하여 출제자가 문제를 일일이 출제하고 편집하는 노고를 거쳐야 한다. 따라서, 이러한 노고를 줄일 수 있는 방안이 필요하다.
한편, 지난 10년~20년간 특정 문단에 자동으로 가독성 지수를 부여하거나, 특정 난이도의 문단을 선별해내는 연구가 다수 이루어졌으며 이에 대한 성과도 거두고 있는 실정이다. 하지만, 문단 자체의 난이도를 낮추어 가독성을 높이는 연구는 상대적으로 많이 진행되지 못한 상태이다. 또한, 학습자나 사용자의 요구에 맞춰 난이도를 높여주는 연구 역시 미흡한 실정이다.
대부분의 텍스트 단순화(Text Simplification)에 대한 연구는 텍스트의 난이도를 가장 쉬운 수준으로 단순화시키는 것에 있다. 하지만, 무분별하게 가장 단순한 수준으로 텍스트를 변경한 것을 곧바로 교육용 지문으로 사용할 경우, 지문의 난이도가 너무 쉬워질 수 있기 때문에 적합하지 않다는 문제가 있다. 반대로, 구조가 간단한 텍스트라도 그 주제나 소재 등이 적합하여 상위 학습자 또는 사용자에게 활용가치가 있을 상황도 존재한다.
따라서, 사용자의 언어 수준에 맞추어 외국어 지문을 단순화시키거나 또는 난이도를 상향시킨 후 이를 사용자에게 제공할 수 있는 방안이 필요하다.
본 발명이 해결하고자 하는 과제는 난이도가 높은 외국어 지문을 입력받거나 난이도가 낮은 외국어 지문을 입력받은 경우, 어휘 단순화와 구문 단순화 또는 그 반대의 과정을 통해 사용자가 원하는 난이도를 갖는 교육용 외국어 지문으로 변환하여 사용자에게 제공하는 방법, 그 컴퓨터 프로그램 및 그 장치를 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법은, a) 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)이 입력되면, 상기 입력된 대상 지문의 난이도를 측정하는 단계와, b) 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계와, c) 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하는 단계, 및 d) 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하며, 상기 b) 단계는 b-1) 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 단계 및 b-2) 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하는 단계를 포함하고, 상기 b-1) 단계는 b-1-1) 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하는 단계와, b-1-2) 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계와, b-1-3) 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하는 단계, 및 b-1-4) 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하는 단계를 포함하고, 상기 b-1-2) 단계는 상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 것을 특징으로 한다.
이때, 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법은, e) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체하는 단계를 더 포함할 수 있다.
한편, 상기 b-2) 단계는 b-2-1) 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하는 단계와, b-2-2) 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하는 단계, 및 b-2-3) 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는 단계를 포함할 수 있다.
또한, 상기 b-2) 단계는 b-2-4) 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하는 단계 및 b-2-5) 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는 단계를 더 포함할 수 있다.
또한, 상기 b-2) 단계는 b-2-6) 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는 단계를 더 포함할 수 있다.
또한, 상기 b-2) 단계는 b-2-7) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는 단계를 더 포함할 수 있다.
또한, 상기 a) 단계는 a-1) 상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계 및 a-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하는 단계를 포함하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.
또한, 상기 c) 단계는 c-1) 상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계 및 c-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하는 단계를 포함하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.
또한, 상기 d) 단계는 d-1) 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하는 단계 및 d-2) 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는 단계를 포함할 수 있다.
또한, 본 발명은 컴퓨터와 결합되어, 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램을 구비할 수 있다.
또한, 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치는, 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 수신하는 통신모듈과, 상기 대상 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 프로그램이 저장된 메모리, 및 상기 프로그램이 실행됨에 따라, 상기 대상 지문의 난이도를 측정하고, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하고, 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하고, 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 프로세서를 포함하고, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 난이도를 조정 시에, 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하고, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하고, 상기 프로세서는 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정 시에, 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하고, 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하고, 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하며, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하고, 상기 프로세서는 상기 제2 리스트를 생성 시에, 상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성할 수 있다.
이때, 상기 프로세서는 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체할 수 있다.
또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하고, 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하며, 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시킬 수 있다.
또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하고, 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행할 수 있다.
또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행할 수 있다.
또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환할 수 있다.
또한, 상기 프로세서는 상기 대상 지문의 난이도를 측정 시에, 상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.
또한, 상기 프로세서는 상기 대체 후보군 지문에 대한 각 난이도를 측정 시에, 상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.
또한, 상기 프로세서는 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력 시에, 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하고, 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력할 수 있다.
상술한 본 발명에 의하면, 온라인 또는 오프라인 상에 현존하는 임의의 외국어 지문들을 대상으로 사용자가 희망하는 타겟 난이도에 맞도록 변환된 교육용 외국어 지문으로 제공이 가능하다.
즉, 외국어 문제 작성의 경우 지문 창작 비용이 매우 높은 편이나, 본 발명에 의하면 수능과 토익 등 각종 영어 시험용 또는 영어 교육용 지문을 저비용으로 창작이 가능하다.
또한, 다양한 난이도별로 교육용 외국어 지문 생성이 가능하며, 이를 통해 저비용으로 문제 은행 생성이 가능하다는 장점이 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법의 순서도이다.
도 2는 본 발명의 일 실시예에서의 어휘를 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다.
도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에서의 구문을 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다.
도 5는 구문을 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에서의 난이도 측정 기준을 설명하기 위한 도면이다.
도 7은 타겟 난이도에 부합하는 대체 지문을 선택하는 내용을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 서버 장치를 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치(400)에 의해 수행되는 방법(이하, 교육용 외국어 지문 생성 방법)을 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법의 순서도이다.
한편, 도 1에 도시된 단계들은 교육용 외국어 지문 생성 방법을 제공하는 서비스 업체의 플랫폼 서버 장치(이하, 서버)에 의해 수행되는 것으로 이해될 수 있지만, 이에 제한되는 것은 아니다.
먼저, 서버는 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 입력받는다(S110).
본 발명의 일 실시예에서 외국어는 영어로 한정되는 것이 아니라, 일본어, 중국어 등 모국어가 아닌 모든 외국어가 그 대상이 될 수 있다. 또한, 본 발명의 일 실시예는 한국어를 배제하는 것이 아닌 바 외국인을 대상으로 할 경우에는 한국어도 외국어로 적용될 수 있음은 물론이다.
다음으로, 서버는 입력된 대상 지문의 난이도를 측정한다(S120). 이때, 본 발명의 일 실시예는 난이도가 높은 텍스트를 사용자의 언어 수준에 맞게 단순화시키기 위한 것이므로, 서버는 대상 지문의 난이도가 사용자에 의해 미리 설정된 타겟 난이도보다 높을 경우 난이도를 낮추기 위하여 다음 단계를 수행할 수도 있으나, 사용자의 타겟 난이도는 가변될 수 있는바 반드시 이에 한정되는 것은 아니다. 또한, 본 발명의 일 실시예는 대상 지문의 난이도를 낮추는 것으로 한정되는 것은 아니며, 서버는 대상 지문의 난이도가 사용자에 의해 미리 설정된 타겟 난이도보다 낮을 경우 난이도를 높이기 위해 어휘 단순화와 구문 단순화의 반대 과정을 수행할 수도 있다.
즉, 서버는 대상 지문의 난이도가 사용자에 의해 설정된 타겟 난이도보다 높을 경우 난이도를 낮추기 위한 과정, 반대로 난이도를 높이기 위한 과정을 수행할 수 있으며, 이러한 과정을 복합적으로 수행할 수도 있다.
한편, 사용자는 소정의 단말 장치를 이용하여 타겟 난이도를 설정할 수 있다. 예를 들어 사용자의 단말 장치는 스마트폰, 태블릿, PDA, 랩톱, 데스크톱 등과 같은 컴퓨터 장치 또는 전기 통신 장치일 수 있으나, 이에 제한되는 것은 아니다.
다음으로, 서버는 대상 지문의 외국어 문장에 대한 난이도를 조정하는 과정을 수행한다(S130).
이때, 서버는 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 과정(이하, 어휘 난이도 조정 과정)과, 대상 지문의 외국어 문장에 포함된 구문을 대상으로 난이도를 조정하는 과정(이하, 구문 난이도 조정 과정)을 통해 대상 지문의 외국어 문장에 대한 난이도를 조정하는 과정을 수행한다.
이하에서는 본 발명의 일 실시예에 따른 어휘 난이도 조정과정과 구문 난이도 조정 과정을 구체적으로 설명하도록 한다.
도 2는 본 발명의 일 실시예에서의 어휘를 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다. 도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
어휘 난이도 조정 과정을 수행하는 목적은 어휘를 더 단순한 것으로 대체하거나 단순한 어휘를 보다 난이도가 높은 어휘로 대체하기 위한 것이다.
일 예로 어휘를 단순화하기 위해 종래에는 특정 텍스트의 모든 단어들에 대하여 WordNet을 통해 동의어(Synonym)들을 찾았다. 그리고 모든 동의어들에 대해 심리 언어학 사전(Psycholinguistic Dictionary)에서 kucera francis frequency를 산출하였다. 이는 더 많이 쓰이는 단어가 덜 쓰이는 단어들보다 심리적으로 난이도가 더 낮은 것으로 간주되므로, kucera francis frequency가 높게 산출될수록 해당 단어의 난이도는 더 낮게 평가된다. 이 과정을 통해 특정 텍스트의 단어들이 kucera francis frequency가 더 높은 것으로 대체되는 방식으로 어휘 단순화 과정이 진행되었다. 하지만, kucera francis frequency는 1967년도 자료에 기반한 연구로, 현재 사용되기에는 부적절하다.
한편, 사용 빈도수에만 의존하는 방식을 통한 어휘 단순화 과정은 원래 텍스트가 가지고 있던 의미를 그대로 전달하지 못할 수 있다. 이는 하나의 단어라 할지라도 여러 의미를 가질 수 있기 때문에, 동의어 중 빈도수가 높은 것만을 선택해 단순화를 진행한다면 기존 언어와는 전혀 다른 뜻의 동의어로 대체될 수 있기 때문이다.
이와 같이 종래의 언어 단순화 과정은 대부분 모든 동의어 중 난이도가 가장 낮은 것만을 사용하여 단순화를 진행하였기 때문에 문맥에 적합하지 않은 경우가 빈번하였다.
이러한 문제를 해결하기 위하여, 본 발명은 동의어를 추출하여 비슷한 의미의 단어를 검출하는 것과 더불어, 언어 모델을 사용하여 해당 단어가 문맥에 맞는지도 고려하는 과정을 통해 자연스러운 난이도 조정이 가능하다.
이를 위해, 서버는 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성한다(S210). 일 실시예로, 서버는 워드넷(WordNet)을 이용하여 해당 단어에 대한 동의어를 추출할 수 있다.
다음으로, 서버는 미리 학습된 언어 모델(Language Model)에 기초하여, 해당 단어의 문맥적 의미를 고려하여 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성한다(S220).
이때, 미리 학습된 언어 모델은 베이지안 네트워크(Bayesian Network) 기반의 잠재 단어 언어 모델(Latent Words Language Model)일 수 있다. 서버는 잠재 단어 언어 모델에 기초하여, 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려한 후 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성할 수 있다.
본 발명에서의 잠재 단어 언어 모델은 특정 단어와 전후로 연결된 단어들을 고려하여 해당 단어의 문맥적 의미 파악을 가능하게 한다. 이러한 잠재 단어 언어 모델을 이용하여 서버는 라벨링되지 않은 상태의 말뭉치를 학습할 수 있다. 또한, 서버는 잠재 단어 언어 모델을 통해 해당 단어에 대한 모든 동의어와 관련된 단어에 대한 확률 세트(Probability Set)를 학습하는바, 워드넷에서 단순히 동의어를 가져와서 대체하는 것보다 정확한 어휘 난이도 조정이 가능하다.
그 다음, 서버는 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정한다(S230). 즉, 서버는 교집합에 속하는 단어들을 해당 단어의 의미와 문맥까지 고려한 후보군인 것으로 간주한다.
다음으로, 서버는 해당 단어를 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 난이도가 가장 낮은 단어로 대체하거나 또는 난이도가 가장 높은 단어로 대체한다(S240). 일 실시예로, 서버는 후보군 단어 중 어느 단어로 대체하는 것이 더욱 단순화하거나 난이도를 상향시킬 수 있는지를 확인하기 위해, 한국 영어 교육 과정에서 단어 난이도를 정리한 것 중 가장 최신 자료인 CoKEC-word를 이용할 수 있다. CoKEC-word에는 약 50,000개의 단어가 Level A부터 E까지 카테고리 별로 정리되어 있다.
도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시로, 예를 들어 “A Japanese electronic executive was kidnapped here.”이라는 문장 중 'executive' 단어를 대상으로 어휘 난이도 조정 과정을 수행하는 경우, 'executive' 단어의 모든 동의어를 추출하여 제1 리스트로 생성하고, 언어 모델에 기초하여 'executive'를 대체 가능한 단어들의 집합인 제2 리스트를 생성한다.
그리고 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정한 후, CoKEC-word를 이용하여 해당 단어를 후보군에 속하는 단어 중 상대적으로 난이도가 낮은 또는 높은 단어로 대체하여 난이도를 조정할 수 있다.
한편, 본 발명에 따라 서버는 해당 단어를 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 높은 단어 또는 현재 난이도보다 높은 난이도를 갖도록 하는 단어로 대체할 수도 있다.
일 예로, 어휘 단순화 과정을 통해 대상 지문의 난이도가 사용자의 타겟 난이도보다 낮아졌으나, 사용자의 교육 수준에 비하여 너무 낮은 것으로 판단시, 현재 난이도보다 높은 난이도를 갖는 단어로 대체할 수 있다. 이때, 사용자의 교육 수준은 사용자의 현재 학년 정보에 상응하도록 결정되나 반드시 이에 한정되는 것은 아니며 수동 설정도 가능함은 물론이다.
도 4는 본 발명의 일 실시예에서의 구문을 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다. 도 5는 구문을 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
텍스트 난이도 조정 과정은 어휘 난이도 조정 과정과 더불어 구문 난이도 조정 과정이 필요하다. 어휘 난이도 조정 과정의 경우 이미 다수 연구된 바가 있으며, 기존 규칙 베이스 코딩없이 딥러닝만을 통해 난이도 조정 작업을 진행하는 연구도 많다.
하지만, 아직까지 구체적으로 구문 난이도 조정을 위한 오픈소스 연구는 거의 없는 실정이다. 이는 구문이 어휘와는 달리 일일이 대응할 수 있는 요소가 없어 딥러닝만을 가지고 난이도를 조정하기에는 난이도가 너무 높기 때문이다.
또한, 딥러닝 방식만을 채택하면 오류 발생시 정확히 어느 부분을 추가 수정해야 하는지 전혀 알 수 없다. 이와 관련하여, 심플 위키피디아(Simple Wikipedia)와 노멀 위키피디아(Normal Wikipedia)를 활용하여 어휘와 구문을 크게 구분하지 않고 난이도 조정을 진행하려는 시도는 있었지만, 이는 특수한 학습 소스만 적용 가능하여 활용도가 극히 낮다는 문제가 있었다.
이러한 문제점을 해소하기 위하여, 본 발명에서는 구문 난이도 조정 과정을 통해 대상 지문 내 외국어 문장을 결합절(Conjoint Clauses), 관계사절(Relative Clauses), 동격어절(Appositive Clauses)에 따라 분할하고, 수동태형을 능동태형 또는 그 반대로 변환하여 텍스트에 대한 난이도를 조정한다.
구체적으로, 서버는 분석 모듈을 통해 대상 지문의 외국어 문장을 의존 구문 분석 모델(Dependency Parsing)에 기초하여 토큰화(Tokenization)한 후(S310), 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행한다(S320).
본 발명에서는 구문의 난이도를 낮추기 위하여 의존 구문 분석 모델로 보편적 의존성(Universal Dependencies) 부분에서 가장 높은 점수를 가진 Stanford NLP Parser(CoreNLP)를 적용할 수 있다.
분석 모듈에서는 한 문장에서 결합절이나 관계사절에 해당하여 구문 난이도 조정이 필요한 부분이 있는지 마킹하는 과정을 진행한다. 이때, 서버는 결합절을 마킹하는 과정에서는 'and'와 'when'과 같이 문맥의 의미에 따라 구분하여 마킹할 수 있다.
다음으로, 서버는 변환 모듈을 통해 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하고(S330), 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정한다(S340). 그 다음, 서버는 단순화된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시킨다(S350).
서버는 변환 모듈을 통한 구문 난이도 조정 과정을 더 이상 적용할 규칙이 존재하지 않을 때까지 계속하여 반복한다. 일 예로, 본 발명에서의 모든 구문 단순화 과정은 보편성 의존성에 기반하여 훈련된 CoreNLP에서 도출된 결과 값을 기반으로 진행될 수 있다.
예를 들어 구문 난이도를 낮추기 위한 과정과 관련하여 도 5를 참조하면, "The problem was handled by myself and won't give you more trouble."이라는 문장이 있는 경우, 분석 모듈에서의 의존 구문 분석 모델을 통한 파싱 과정을 거친 위 문장은 분석 모듈로 전달된 후 담화 표지어(Discourse Marker)가 확인된다.
위 예시 문장에서는 'and'가 담화 표지어에 해당하며, 분석 모듈은 결합절 함수를 실행시킨다. 결합절 함수는 부사절 수식어(ADVL, Adverbial Clause Modifier)인지 동위 접속사(CC, Coordinating Conjunction) 태그인지를 먼저 확인하며, 위 예시 문장은 'and'와 'give'에서 동위 접속사 관계가 있다.
그 다음, 접합(conjunction) 태그를 검출하며, 위 예시 문장에서는 'and'와 동위 접속사 관계에 있는 'give'와 'handled'가 접합 관계에 있다. 이에 따라 "The problem was handled by myself.”, “And won't give you more trouble."과 같이 두 문장으로 분할된다.
난이도를 낮추기 위한 구문 단순화 과정을 거친 위 두 문장은 다시 동일한 과정을 반복하게 되며, "And won't give you more trouble." 문장의 경우 더 이상 적용할 단순화 규칙이 존재하지 않으므로 구문 단순화 과정을 종료한다.
반면, "The problem was handled by myself." 문장의 경우 수동태형 문장이기 때문에 구문 단순화 과정을 통해 "Myself handled the problem."과 같은 능동태형 문장으로 다시 단순화된다.
다음으로, 서버는 형성 모듈을 통해 난이도가 조정 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행한다(S360). 본 발명의 일 실시예에서 형성 모듈의 목적은 난이도가 조정된 문장들을 문법에 맞도록 재배열하는 것에 있다. 일 실시예로, 트루케이싱은 파이썬 구현 모델을 통해 실행될 수 있으며, 영어 외 타 언어 학습시 해당 언어의 말뭉치로 다시 학습시키면 된다.
일 예로, 결합절을 두 문장으로 분할하는 경우, 형성 모듈은 새로운 담화 표지어가 필요한지 여부에 대해 확인하는 과정을 진행한다. 예를 들어, 'although'라는 담화 표지어를 통해 두 문장으로 분할해야 하는 경우, 뒷 문장에는 'but'을 추가해야 한다. 또한, 동격어절을 나누는 경우에도 주어와 동격어를 이어주는 동사를 시제와 단수, 복수 문법에 맞도록 변형해주어야 한다.
한편, 구문 난이도 조정 과정을 통해 복수 개의 문장으로 분할 또는 이들을 결합하거나 능동태형 문장으로 단순화하거나 수동태형 문장으로 난이도를 상향시킴에 따라, 후술하는 난이도 측정 결과 사용자의 타겟 난이도보다 더 난이도가 낮거나 또는 높아져 사용자의 교육 수준에 부합하지 않는 경우 구문 단순화 과정을 추가적으로 수행하거나, 또는 다시 분할된 문장을 결합하는 과정, 또는 능동태형을 수동태형으로 변환하는 과정 중 적어도 하나를 수행하여 다시 난이도를 높일 수도 있다.
다시 도 1을 참조하면, 서버는 어휘 난이도 조정 과정과 구문 난이도 조정 과정을 수행한 결과, 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정한다(S140). 그리고 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력한다(S150).
구문 난이도 조정 과정을 완료하면 대상 지문에 포함된 모든 문장들에 대해 대체 가능한 형태(Potential Solutions)가 생성된다. 서버는 이러한 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 난이도를 계산한다.
지문의 난이도를 측정하기 위한 기존의 가장 대표적인 시도로 Flesch-Kincaid Readability Test가 있다. 이는 지문의 전체 단어 개수, 문장 개수, 음절 수에 따라 학년 별로 난이도를 구분하려는 시도였다. 하지만, 세 가지 기준 만으로는 사람이 느끼는 지문의 어려움 정도를 측정하기 어려웠으며 그 오차범위도 크다는 문제가 있었다.
현재는 파싱 기술이 많이 발전하여 외국어 지문을 보다 세분화할 수 있게 되었으며, 동사구 수, 종속절 수, 전치사구 수 등의 분류도 가능하다. 이에 따라, 본 발명의 일 실시예는 기존 Flesch-Kincaid Readability Test 한계에서 벗어나 더욱 구체화된 난이도 측정 기준(LXPER Index)을 설정하였다. 특히, 본 발명의 일 실시예는 눈으로 보이는 기준뿐만 아니라 사람이 심리학적으로 느낄 수 있는 어려움을 보다 정확히 측정하기 위한 어휘 체인(Lexical Chain)을 고려하는 것을 특징으로 한다.
도 6은 본 발명의 일 실시예에서의 난이도 측정 기준을 설명하기 위한 도면이다. 이때, 도 6에 도시된 난이도 측정 기준은 Berkeley Neural Parser를 적용하여 측정 가능한 거의 모든 항목들을 도출한 것이다.
도 6에 도시된 바와 같이, 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.
서버는 대상 지문 및 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법(Linear Regression)을 적용하여 입력된 대상 지문의 난이도와 대체 후보군 지문에 대한 각 난이도를 측정한다. 이때, 서버는 이하의 수학식 1을 이용하여 난이도를 측정할 수 있다.
Figure PCTKR2021012529-appb-M000001
수학식 1에서 a, b, c 등의 파리미터들에 대한 최적화 과정을 수행하고 나면, 대상 지문의 모든 문장들에 대하여 난이도 측정기준에 따른 결과에 선형 회귀 기법을 적용하여, 대체 후보군 지문에 대한 각 난이도를 측정할 수 있다.
한편, 본 발명의 일 실시예에서 선형 회귀 모델을 위한 훈련 모델(Training Model)은 다양한 옵션이 있을 수 있으며, 이를 위한 훈련 데이터로 정규 교육 과정에서 사용되는 모든 텍스트를 적용할 수 있다.
도 7은 타겟 난이도에 부합하는 대체 지문을 선택하는 내용을 설명하기 위한 도면이다.
대체 후보군 지문에 대한 난이도를 측정한 후, 서버는 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공한다. 그리고 서버는 난이도 조정 가능 범위 내에 타겟 난이도가 포함되는 경우, 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력한다.
예를 들어, 서버는 도 7에서 대체 후보군 지문인 'solution 1~solution 6'의 각 난이도를 비교하여 난이도 조정 가능 범위를 제공할 수 있다. 서버는 가장 단순화시킬 수 있는 범위(low point)에서부터 사용자의 타겟 난이도(User reference), 그리고 가장 난이도가 높은 범위(high point)까지 구분하여 사용자에게 제공할 수 있다.
기본적으로, 서버는 사용자의 타겟 난이도가 설정된 경우 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력할 수 있다. 만약 타겟 난이도가 설정되지 않은 경우에는 가장 단순화된 범위(low point)를 교육용 외국어 지문으로 제공할 수도 있다. 또는 그 반대로 가장 난이도가 상향된 범위를 교육용 외국어 지문으로 제공할 수도 있다.
한편, 상술한 설명에서, 단계 S110 내지 S360은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 후술하는 도 8의 내용은 도 1 내지 도 7의 교육용 외국어 지문 생성 방법에도 적용될 수 있다.
이하에서는 본 발명의 일 실시예에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 장치(400, 이하 교육용 외국어 지문 생성 서버 장치)에 대하여 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 서버 장치 (400)를 설명하기 위한 도면이다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 서버 장치(400)는 통신모듈(410), 메모리(420) 및 프로세서(430)를 포함한다.
통신모듈(410)은 사용자 단말 기타 외국어 지문을 제공하는 단말과 데이터를 송수신하여, 하나 이상의 외국어 문장으로 구성된 대상 지문을 수신한다.
메모리(420)에는 통신모듈(410)로부터 수신한 데이터에 기초하여 사용자의 타겟 난이도에 부합하는 교육용 외국어 지문을 출력하기 위한 프로그램이 저장된다.
프로세서(430)는 메모리(420)에 저장된 프로그램을 실행시킴에 따라, 입력된 대상 지문의 난이도를 측정하고, 대상 지문의 외국어 문장에 대한 난이도 조정 과정을 수행하며, 난이도 조정 과정 수행 결과, 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정한 후, 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력한다. 이때, 프로세서(430)는 대상 지문의 외국어 문장에 대한 난이도 조정 과정으로 어휘 난이도 조정 과정 및 구문 난이도 조정 과정을 수행한다.
도 8을 참조하여 설명한 교육용 외국어 지문 생성 서버 장치(400)는 상술한 서버의 구성요소로 제공될 수 있다.
이상에서 전술한 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (19)

  1. 교육용 외국어 지문(text)을 생성하는 장치에 의해 수행되는 방법에 있어서,
    a) 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)이 입력되면, 상기 입력된 대상 지문의 난이도를 측정하는 단계;
    b) 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계;
    c) 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하는 단계; 및
    d) 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하며,
    상기 b) 단계는,
    b-1) 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 단계; 및
    b-2) 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하는 단계를 포함하고,
    상기 b-1) 단계는,
    b-1-1) 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하는 단계;
    b-1-2) 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계;
    b-1-3) 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하는 단계; 및
    b-1-4) 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하는 단계를 포함하고,
    상기 b-1-2) 단계는,
    상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 것을 특징으로 하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  2. 제1항에 있어서,
    e) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  3. 제1항에 있어서,
    상기 b-2) 단계는,
    b-2-1) 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하는 단계;
    b-2-2) 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하는 단계; 및
    b-2-3) 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는 단계를 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  4. 제3항에 있어서,
    상기 b-2) 단계는,
    b-2-4) 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하는 단계; 및
    b-2-5) 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  5. 제3항에 있어서,
    상기 b-2) 단계는,
    b-2-6) 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  6. 제3항에 있어서,
    상기 b-2) 단계는,
    b-2-7) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  7. 제1항에 있어서,
    상기 a) 단계는,
    a-1) 상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계; 및
    a-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하는 단계를 포함하되,
    상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  8. 제1항에 있어서,
    상기 c) 단계는,
    c-1) 상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계; 및
    c-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하는 단계를 포함하되,
    상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  9. 제1항에 있어서,
    상기 d) 단계는,
    d-1) 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하는 단계; 및
    d-2) 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  10. 컴퓨터와 결합되어, 제1항 내지 제9항 중 어느 하나의 항의 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
  11. 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 수신하는 통신모듈;
    상기 대상 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 프로그램이 저장된 메모리; 및
    상기 프로그램이 실행됨에 따라, 상기 대상 지문의 난이도를 측정하고, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하고, 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하고, 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 프로세서;를 포함하고,
    상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정 시에, 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하고, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하고,
    상기 프로세서는, 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정 시에, 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하고, 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하고, 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하며, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하고,
    상기 프로세서는, 상기 제2 리스트를 생성 시에, 상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 것을 특징으로 하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  13. 제11항에 있어서,
    상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,
    상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하고,
    상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하며,
    상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  14. 제13항에 있어서,
    상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,
    상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하고,
    상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  15. 제13항에 있어서,
    상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,
    상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  16. 제13항에 있어서,
    상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,
    상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  17. 제11항에 있어서,
    상기 프로세서는, 상기 대상 지문의 난이도를 측정 시에,
    상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고,
    상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하되,
    상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  18. 제11항에 있어서,
    상기 프로세서는, 상기 대체 후보군 지문에 대한 각 난이도를 측정 시에,
    상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고,
    상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하되,
    상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
  19. 제11항에 있어서,
    상기 프로세서는, 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력 시에,
    상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하고,
    상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
PCT/KR2021/012529 2020-09-16 2021-09-14 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치 WO2022060060A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200118978A KR102251554B1 (ko) 2020-09-16 2020-09-16 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법
KR10-2020-0118978 2020-09-16

Publications (1)

Publication Number Publication Date
WO2022060060A1 true WO2022060060A1 (ko) 2022-03-24

Family

ID=75913236

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/012529 WO2022060060A1 (ko) 2020-09-16 2021-09-14 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치

Country Status (2)

Country Link
KR (1) KR102251554B1 (ko)
WO (1) WO2022060060A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220138422A1 (en) * 2020-10-30 2022-05-05 Microsoft Technology Licensing, Llc Determining lexical difficulty in textual content

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102251554B1 (ko) * 2020-09-16 2021-05-13 주식회사 렉스퍼 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120050804A (ko) * 2010-11-11 2012-05-21 (주)컴퍼스미디어 외국어 지문 편집 시스템 및 외국어 지문 편집 서비스 제공 방법
JP2013072973A (ja) * 2011-09-27 2013-04-22 Hitachi Solutions Ltd 語学学習教材提供システム、文章変換方法及びプログラム
KR20140087951A (ko) * 2013-01-01 2014-07-09 주홍찬 이미지 데이터 및 원어민의 발음 데이터를 이용한 영어 문법 학습장치 및 방법
KR102050266B1 (ko) * 2018-11-19 2019-12-02 이형종 영어 학습 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR102251554B1 (ko) * 2020-09-16 2021-05-13 주식회사 렉스퍼 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102018786B1 (ko) 2018-09-18 2019-09-06 유인에듀닉스 주식회사 지문을 이용한 외국어 학습자료 제공방법 및 그 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120050804A (ko) * 2010-11-11 2012-05-21 (주)컴퍼스미디어 외국어 지문 편집 시스템 및 외국어 지문 편집 서비스 제공 방법
JP2013072973A (ja) * 2011-09-27 2013-04-22 Hitachi Solutions Ltd 語学学習教材提供システム、文章変換方法及びプログラム
KR20140087951A (ko) * 2013-01-01 2014-07-09 주홍찬 이미지 데이터 및 원어민의 발음 데이터를 이용한 영어 문법 학습장치 및 방법
KR102050266B1 (ko) * 2018-11-19 2019-12-02 이형종 영어 학습 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR102251554B1 (ko) * 2020-09-16 2021-05-13 주식회사 렉스퍼 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220138422A1 (en) * 2020-10-30 2022-05-05 Microsoft Technology Licensing, Llc Determining lexical difficulty in textual content

Also Published As

Publication number Publication date
KR102251554B1 (ko) 2021-05-13

Similar Documents

Publication Publication Date Title
Brill Some advances in transformation-based part of speech tagging
WO2022060060A1 (ko) 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치
WO2014025135A1 (ko) 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
Davydov et al. Information system for translation into Ukrainian sign language on mobile devices
WO2016208941A1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
Rüdian et al. Challenges of using auto-correction tools for language learning
Liu Beyond the Wall Street Journal: Anchoring and comparing discourse signals across genres
Zhang et al. Gender voices in Chinese university students’ English writing: A corpus study
Yue et al. Translationese and interlanguage in inverse translation: A case study
WO2022177372A1 (ko) 인공지능을 이용하여 튜터링 서비스를 제공하기 위한 시스템 및 그에 관한 방법
Sen et al. Chinese automatic text simplification based on unsupervised learning
Ye Chinese to English lexical transfer errors in the writing of rural senior high school students
Xiang et al. A cross-guidance cross-lingual model on generated parallel corpus for classical Chinese machine reading comprehension
Nguyen et al. Systematic knowledge acquisition for question analysis
Llorens et al. Data-driven approach based on semantic roles for recognizing temporal expressions and events in Chinese
WO2021182828A1 (ko) 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
WO2024025184A1 (ko) 동사의 문형별 및 단어의 품사별 영어 해석편 제공시스템 및 그것을 기록한 매체
Nagata et al. A method for rating English texts by reading level for Japanese learners of English
WO2022060061A1 (ko) 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치
Li Intelligent Calibration Method of Urban Publicity Translation Based on Machine Learning
Vijaya Prakash et al. Model to Detect and Correct the Grammatical Error in a Sentence Using Pre-trained BERT
Zhu Semantic Relationship Model of Chinese International Core Vocabulary in Artificial Intelligence Scenarios
Gautam et al. Subject-Verb Agreement Error Handling using NLP: A Literature Review
Gao et al. A Questionnaire and Big Data-based Study on the Mixing up of Chinese Structural Particles

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21869682

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21869682

Country of ref document: EP

Kind code of ref document: A1