WO2018034426A1 - 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 - Google Patents

커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 Download PDF

Info

Publication number
WO2018034426A1
WO2018034426A1 PCT/KR2017/006917 KR2017006917W WO2018034426A1 WO 2018034426 A1 WO2018034426 A1 WO 2018034426A1 KR 2017006917 W KR2017006917 W KR 2017006917W WO 2018034426 A1 WO2018034426 A1 WO 2018034426A1
Authority
WO
WIPO (PCT)
Prior art keywords
corpus
error
kernel
learning
errors
Prior art date
Application number
PCT/KR2017/006917
Other languages
English (en)
French (fr)
Inventor
차정원
박태호
신창욱
박다솔
박성재
Original Assignee
창원대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 창원대학교 산학협력단 filed Critical 창원대학교 산학협력단
Publication of WO2018034426A1 publication Critical patent/WO2018034426A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Definitions

  • the present invention relates to a method for automatically correcting an error in a learning corpus for machine learning in natural language processing, and more particularly, a human-created learning corpus required to generate a recognition and classifier model in natural language processing.
  • the kernel in the Ripple-Down Rule (RDR) system This operation relates to a method for automatically correcting tagging corpus errors using kernel RDR, which is configured to operate on various tag corpus by simply replacing the kernel.
  • the present invention in order to solve the problems of the prior art corpus error correction methods that had difficulty in writing a rule for error correction as described above, the characteristics of the document tagged in the error corpus and the correct corpus using RDR Automatically generates correction rules reflecting the error correction and recognizes errors in the learning corpus for refined mass machine learning that directly affects the natural language processing system, and corrects the errors of the morphological corpus and the corpus of individual names.
  • Automatically correct tagging corpus errors using kernel RDR which is configured to apply the characteristics of Korean corpus and to be applied to corpus of various forms by using kernel. It is about a method.
  • Examples of the related art related to the method of analyzing and correcting an error in a context or syntax as described above for example, according to Korean Patent Publication No. 10-1500617, a Korean sentence input by a user Among the many spelling grammar errors that appear in, search for context-sensitive spelling errors that cannot be resolved through dictionary searches and suggest alternatives to correct them.
  • Descriptions have been made of a device and method for correcting spelling errors using a Korean lexical semantic network that is configured to improve the performance of the Korean document corrector by correcting the spelling errors.
  • the spelling error correction dictionary may be selected.
  • the technical contents of the spelling error correction system and method that can be configured to obtain a high spelling error correction effect while using only, to automatically recognize and correct the spelling error of the sentence input from the mobile terminal.
  • each word constituting a phrase It is configured to determine the probability of appearance in the corpus, and to determine whether the syntax is an error by obtaining an estimated probability (Pe), an expected frequency of occurrence (Po), and an actual occurrence probability (Pa) of the phrase appearing in the corpus.
  • Pe estimated probability
  • Po expected frequency of occurrence
  • Pa actual occurrence probability
  • Korean Patent Publication No. 10-1358614 it is possible to analyze a corpus to determine a partial word.
  • a dictionary analysis dictionary By constructing a dictionary analysis dictionary, the whole word is divided into two or more words, and then searched and analyzed for the PWD (Partial Word morpheme madd Dictionary) and the learning data builder and the learning data builder.
  • PWD Partial Word morpheme madd Dictionary
  • a corpus-based Korean morpheme analyzer and a method for analyzing the same have been presented, which are configured to increase the speed and reproducibility of analyzing a word and to increase accuracy in tagging.
  • the information corpus can be processed and utilized. As the field grows, the importance of information corpus for learning has not diminished.
  • an attribute error is an error that occurs while entering an attribute value, which includes a case where there is no attribute or a duplicate value.
  • a category error is a consistency error that corresponds to a case where the same data is classified into different categories. It is divided into classification errors when the category is incorrectly assigned.
  • a corpus for learning is required to generate a recognition and classifier model, and such a corpus should not be in error because it determines the performance of the model.
  • the corpus is inevitably error-prone by its own writing, and furthermore, since there is no consistency or regularity in such errors, it is possible to define rules that can properly correct such irregular errors. Also, there was a problem that was not easy. Therefore, in the related art, a method of removing or avoiding an error is mainly studied by a method of learning except an error in learning, and a method of directly correcting an error of a learning corpus has been studied. It is not enough.
  • an error occurs because a person directly writes a learning corpus required for generating a recognition and classifier model in natural language processing.
  • the pattern of the error is irregular, it is difficult to prepare a rule for error correction.
  • a rule that is a criterion for judging the error of the corpus can be generated, and the errors in the corpus are automatically recognized using these rules. While it is desirable to provide a method for automatically correcting corpus errors in a new configuration that can be modified and applied to various forms of corpus through the kernel, there is no device or method that satisfies all such requirements. to be.
  • the present invention is to solve the problems of the prior art as described above, and therefore, the object of the present invention is that an error occurs because a person directly writes a learning corpus necessary for generating a recognition and classifier model in natural language processing.
  • the kernel is operated in the Ripple (Ripple-Down Rule) system to replace the kernel. It is to provide a tagging corpus error correction method using kernel RDR that is configured to operate on various tag corpus.
  • Another object of the present invention in order to solve the problems of the prior art corpus error correction methods that had difficulty in writing a rule for error correction as described above, tagging in the error corpus and the correct corpus using RDR Automatically generate correction rules that reflect the characteristics of documents, and recognize errors in the learning corpus for refined mass machine learning that directly affect the natural language processing system, and correct errors in the morphological corpus and entity corpus.
  • a human corpus of the learning corpus for the natural language processing by the pattern of the error is irregular irregular pattern of the prior art had difficulty in writing a rule for error correction
  • a method of automatically correcting a tagging corpus error using a kernel RDR Rapple-Down Rules
  • a kernel RDR Rapple-Down Rules
  • the learning step using the Single Classification Ripple Down Rules (SCRDR), based on the threshold value input by the user for the entire sentence or document input in the input step (Initial Corpus) and correct answer corpus ( Gold Corpus), characterized in that configured to be performed to each process.
  • SCRDR Single Classification Ripple Down Rules
  • the learning step if the morpheme between the error sentence and the correct answer sentence is different due to an incorrectly analyzed morpheme so as to learn the features appearing in the Korean morpheme parts of speech tagging and the entity name tagging, the morpheme of the sentence is transformed into a correct answer sentence. Learning by using a rule, delete the semantic morpheme and perform the learning using only the situation to be applied so that the generated rule can be applied to the same type of error irrespective of the word.
  • the method for the object name tagging error type attached to the different parts of speech in the same morpheme, except for the object name semantic recognition error and the object name recognition range error, the error and tag other than the name of the object name tag It is characterized in that it is configured to learn only the error that is recognized as the entity name and to perform a process for correcting the error.
  • the rule generation step characterized in that configured to perform the process of generating the information learned by the SCRDR into a 'Rule' file based on the threshold value input by the user and the kernel generated in advance.
  • the kernel is configured to include a morpheme part-of-speech tag kernel and an entity name tag kernel configured for each type on the basis of both the morpheme unit and the word unit so that the kernel can be changed according to the learning corpus.
  • morphemes use the first and last morphs of the previous word and the last and the first and last morphs of the next word, ignoring the word and using the previous three morphs and the next three morphs.
  • the object name tag kernel is generated by using the stem of the previous word and the stem of the next word, and using the two previous stems and the next two stems, ignoring the word. It is done.
  • the error correcting step may be performed by reading the 'Rule' file generated in the rule generation step, applying the document to the error correcting target, and changing a tag determined as an error to a learned correct tag. It is characterized in that the configuration.
  • a computer-readable recording medium having recorded thereon a program configured to cause a computer to execute the tagging corpus error correction method using the kernel RDR described above.
  • an automatic corpus error correction system configured to automatically correct an error of an input sentence or a document, comprising: an input unit for a user to input various information; A processing unit for correcting an error of a document input through the input unit; And an output unit for displaying a processing result of the processing unit to a user, wherein the processing unit is configured to correct an error of an input document using an automatic tagging corpus error correction method using the kernel RDR described above.
  • An automatic corpus error correction system is provided, which is configured.
  • the tagging corpus error automatic correction method using the kernel RDR configured to operate the various tag corpus by simply replacing the kernel by allowing the kernel to operate in the RDR system is provided.
  • An error occurs because a human writes a learning corpus required to generate a classifier model.
  • the error pattern of the prior art corpus error correction methods has been difficult because the pattern of the error is irregular. I can solve it.
  • the present invention using the RDR as described above, automatically generates a correction rule reflecting the characteristics of the document tagged in the error corpus and the correct corpus, and refined mass machine learning that directly affects the natural language processing system. It is possible to apply the characteristics of Korean corpus by operating the morpheme unit by providing a method of automatic tagging corpus error correction using kernel RDR which is configured to recognize the errors in the corpus and recognize the corpus and entity name corpus.
  • the kernel can be applied to various forms of corpus, while minimizing errors in mass corpus production.
  • FIG. 1 is a diagram illustrating a learning method when the morpheme numbers of error sentences and correct answer sentences are different.
  • FIG. 2 is a table illustrating types of entity name tag errors in a table.
  • 3 is a table showing the configuration of the morpheme part-of-speech tag kernel and the entity name tag kernel.
  • Figure 4 is a table showing the work group and corpus applied for the comparative experiment for verifying the validity and performance of the present invention in a table.
  • 5 is a table showing the number of errors in the Wikipedia sentences and blog sentences used as the evaluation corpus and the performance of the morpheme part-of-speech tag evaluation corpus.
  • 6 is a table showing the performance of the entity name evaluation corpus for the blog sentences used as the evaluation corpus.
  • FIG. 7 is a table showing the number of errors for each type of error appearing in the evaluation corpus.
  • 9 is a table showing the results of a learning condition selection experiment comparing the error learning and the total learning performance of individual names using blog documents.
  • FIG. 10 is a table showing results of comparing morpheme parts-of-speech tag error correction performance according to Wikipedia corpus learning amount.
  • FIG. 11 is a table summarizing the results of comparing the morpheme parts-of-speech tag error correction performance according to the blog corpus learning amount.
  • FIG. 13 is a table showing the results of comparing Wikipedia corpus morpheme part-of-speech tag error correction performance by blog learning.
  • FIG. 14 is a table showing the results of comparing blog corpus morpheme part-of-speech tag error correction performance by Wikipedia.
  • FIG. 15 is a table illustrating error types of morphemes of speech tagging.
  • FIG. 16 is a table illustrating error types of entity name tagging.
  • 17 is a table summarizing the maximum performance of the morpheme POS tagging error correction according to the learning document and the evaluation document confirmed for each experiment.
  • FIG. 18 is a flowchart schematically showing the overall configuration of a tagging corpus error automatic correction method using kernel RDR according to an embodiment of the present invention.
  • an error occurs because a person directly writes a learning corpus required for generating a recognition and classifier model in natural language processing, but the pattern of the error is irregular so that a rule for correcting an error is generated.
  • the automatic tagging corpus error correction method using the kernel RDR configured to operate on various tag corpus by simply replacing the kernel by operating the kernel in the RDR system It is about.
  • the present invention to solve the problems of the prior art corpus error correction methods that had difficulty in writing a rule for error correction, using the RDR of the document tagged in the error corpus and the correct corpus Automatically generate correction rules reflecting characteristics and recognize errors in the learning corpus for refined mass machine learning directly affecting natural language processing systems and correct errors in morphological analysis corpus and entity name corpus.
  • Tagging corpus errors using kernel RDR which is configured to apply the characteristics of Korean corpus by operating in units and to be applied to corpus of various forms by using kernel, to minimize errors when producing large corpus. It is about a correction method.
  • Ripple Ripple-Down Rules
  • SCRDR Single Classification Ripple Down Rules
  • MCRDR Multiple Classification
  • NRDR Nested Ripple Down Rules
  • SCRDR outputs one result from the input value
  • MCRDR outputs one or more results
  • NRDR outputs the result according to a user defined condition
  • corrects a part-of-speech tag or object name tag error In order to perform the operation to the SCRDR that can correct the input error tag to the correct one is suitable, therefore, in the present invention, the present invention has been described through the system using the SCRDR, but is not limited only to this content It should be noted.
  • RDR and decision tree each deal with the problem of classifying given data as a method of supervised learning. Both methods generate a classification method using a set of known answers, then predict the correct answer for a given object, It creates nodes by dividing it down, but the decision tree uses probability or statistical data to find the best variables to classify the data, creates a tree based on those variables, and creates nodes to optimize the generated nodes.
  • RDR in case of RDR, if one rule is created first, it generates exception handling for the exception that rule can have, that is, when "EXCEPT" can occur, and no further exception is thrown. When you create a new rule, "FALSE" occurs to create a rule for the new predictor.
  • the decision tree is determined by the probability or statistical value that the variables of the subject can generate, but in the case of RDR, it is necessary to check all the rules that deal with the variables of the subject. Finally, they are classified by the rule "ACCEPT".
  • the present invention is to improve the performance of the learning corpus by correcting the error of the correct corpus, since the errors appearing in the system results appear with a certain rule and a high frequency, it is easy to create a rule for correcting the system result error
  • the error that appears in the human-tagged corpus is irregular in pattern and the number is small. Therefore, in the present invention, the kernel can be operated in the RDR system to find a small number of patterns in the human-written corpus. It is designed to operate on various tagged corpus by replacing only kernel.
  • a tagged corpus written by a number of researchers by hand is called 'Initial corpus'
  • a corpus complemented by a person is called a 'Gold corpus'
  • RDR Reliable and Low Latency
  • the existing RDR learning method compares the initial corpus and the correct corpus to examine whether different tags are attached at the same position, and if the tags are different, the previous two stems and the next in the correct corpus are corrected so that the error can be corrected. Extract the pattern of two morphemes.
  • the existing RDR made based on the English document is difficult to apply the morphemes and word information used in the Korean language, so the present inventors can analyze and learn the features appearing in the Korean morpheme parts of speech tagging and the features appearing in the entity name tagging
  • the present inventors can analyze and learn the features appearing in the Korean morpheme parts of speech tagging and the features appearing in the entity name tagging
  • Korean morpheme part-of-speech tagging can be analyzed as two or more morphemes, unlike English, so if the existing RDR learning method is applied as it is, there is a problem that the morpheme number is different between the error sentence and the correct answer sentence. Therefore, when the morphemes of the error sentence and the correct answer sentence are different due to the morphemes analyzed incorrectly, it is necessary to modify the form of the sentence to be learned in order to learn the same.
  • FIG. 1 is a diagram showing a table of learning methods when the morphemes of error sentences and correct answer sentences are different.
  • NNG is a common noun
  • NNP is a proper noun
  • JX is an auxiliary noun
  • the type of entity tagging error is different from the morphological error type, that is, the morphological error is an error in which a different part of speech is attached to the same morpheme. Error type corresponding to substitution.
  • an object tag error shows all types of errors of insertion, deletion, and substitution, that is, insertion is not an object name but an incorrectly recognized object name, deletion is an object name not recognized, and substitution is recognized as an object name but an invalid tag is recognized. It is classified as a case of attachment or wrong boundary.
  • FIG. 2 is a diagram illustrating types of entity name tag errors classified into a table.
  • type 1 is an error generated by recognizing an object name but attaches an invalid object name tag
  • type 2 is an error in which a word is recognized as an object name, not an object name
  • type 3 is an object name. This error is caused by not recognizing a word
  • type 4 is caused by recognizing only part of an object name.
  • types 1 and 2 are defined as an error of object name tag classification, and the RDR system presented in the embodiment of the present invention performs only a function of correcting tag information that is already attached, so that object type meaning recognition error and recognition range error type It should be noted that Type 3 and Type 4 are excluded.
  • the kernel RDR (kernel RDR) will be described.
  • the kernel system can be changed and used according to the learning corpus by additionally implementing the kernel system in the existing RDR, thereby increasing the versatility and the morpheme of Korean.
  • FIG. 3 is a diagram showing the configuration of the morpheme part-of-speech tag kernel and the entity name tag kernel.
  • the kernel used for learning the morpheme part-of-speech tagging corpus has a morpheme and a morpheme part-of-speech tag, and in order to use it as a kernel, both the morphological units and the word units were used as the criteria for extracting the kernel.
  • the first and last morphemes of, and the first and last morphemes of the next phrase were used.
  • the previous three morphemes and the next three morphemes were ignored, and the parts of speech were used in the same way as the morphemes. .
  • the kernel used for learning the part-of-speech tagging corpus used the morpheme of the previous word and the morpheme of the next word, ignoring the word, and using the previous two morphemes and the next two morphemes.
  • ImproveThreshold is the threshold for the number of times a tag is modified by another tag
  • MatchThreshold is the threshold for the same pattern of error pairs that satisfy the ImproveThreshold.
  • the present invention provides various thresholds for determining the appropriate threshold for error correction. Application was verified through experiment.
  • the conventional RDR learning method learned only when the tag is different by comparing the primitive corpus with the correct answer corpus, which is a rule where the error occurs.
  • the threshold is low, a pattern that appears only when an error occurs is found.
  • the learning patterns that appear generally may be inappropriate rules for correcting errors, these rules are applied to non-error situations, causing the system to generate an error.
  • the inventors in order to verify the validity and utility of the method proposed in the present invention, to identify the difference between the learning method including only the error and the correct answer, and then vary according to the amount of learning Various experiments were conducted by setting a threshold.
  • the present inventors first experimented with two document groups in order to investigate the correction performance between the tagging group and the correction performance in the tagging group.
  • Figure 4 is a table showing the work group and corpus applied for the comparative experiment for verifying the validity and performance of the present invention in a table.
  • the workgroup A tagged the Korean Wikipedia document
  • the workgroup B tagged the blog document, and thus the types of errors generated by the workers in the workgroup A and the workgroup B are different.
  • the corpus Wikipedia (A) and blog (B) documents contain different errors.
  • the morpheme parts attached corpus follows the Sejong tag set, and the entity name corpus follows the ETRI tag set.
  • the morpheme part-of-speech tagging corpus used 4,000 sentences of the Korean Wikipedia document for learning, 10,000 sentences for evaluation, and a blog document used 4,000 sentences for learning, and 4,000 sentences for evaluation. Was used.
  • FIG. 5 is a table showing the number of errors in the Wikipedia sentences and blog sentences used as the evaluation corpus and the performance of the morpheme part-of-speech tag evaluation corpus.
  • Figure 6 is a table showing the performance of the entity name evaluation corpus for 4,000 sentences extracted from the blog document used as the evaluation corpus.
  • FIG. 7 is a diagram showing the number of errors for each type of error appearing in the evaluation corpus in a table.
  • Type 1 contains 72 errors
  • Type 2 includes 88 errors, respectively.
  • the present inventors performed verification experiments for the above two cases by comparing the performance when the ImproveThreshold is 0 to 3 and the match-Threshold is 1 using the morphemes of speech tagging corpus.
  • FIG. 8 is a table showing the results of a learning condition selection experiment comparing the performance of morphological error learning and total learning using Wikipedia documents.
  • the table shows the results of the learning condition selection experiment comparing the error learning and the total learning performance of individual names using blog documents.
  • the present inventors have different amounts of corpus used in the RDR learning in order to confirm whether the learning corpus can be modified even with a small amount of learning.
  • the Wikipedia document and blog document are divided into 1,000 sentence units from 1,000 sentences to 4,000 sentences. Experiments were performed by varying the thresholds in order to find the thresholds for generating the optimal rules.
  • FIG. 10 is a table showing results of comparing morpheme parts of speech tag error correction performance according to Wikipedia corpus learning amount
  • FIG. 11 is a diagram of morpheme parts of speech tag error correction according to blog corpus learning amount
  • FIG. 12 is a diagram showing the results of comparing the performance in a table
  • FIG. 12 is a diagram showing the results of comparing the object name tag error correction performance according to the blog corpus learning amount.
  • the number at the beginning of each row represents a threshold
  • the number before the '-' symbol represents the ImproveThreshold
  • the number after the represents the MatchThreshold
  • 'r # of reduce' represents error correction.
  • the number of errors is reduced to 'e: # of error' is the total number of errors, and 'r / e * 100' is the error correction rate.
  • FIG. 13 is a diagram showing the results of comparing Wikipedia corpus morpheme part-of-speech tag error correction performance by blog learning
  • FIG. 14 is a blog corpus morpheme part-of-speech tag error correcting by Wikipedia learning. The table shows the results of comparing the performance.
  • the number at the beginning of each line represents a threshold
  • the number before the '-' symbol represents the ImproveThreshold
  • the number after the represents the MatchThreshold
  • 'r # of reduce' represents error correction.
  • the number of errors is reduced to 'e: # of error' is the total number of errors, and 'r / e * 100' is the error correction rate.
  • the threshold used for the experiment was selected to show the high performance in each workgroup experiment. That is, the rules for learning the blog document are [(3-1), (3-2), (4-1), (4-2), (5-1), (5-2), (6-1), (6-2)], and the rules for learning Wikipedia documents are [(5-1), (5-2), (6-1), (6-2), (7-1), (7-2), (8-1), (8-2)].
  • FIG. 15 is a table showing error types of morphemes of speech tagging in a table
  • FIG. 16 is a diagram showing error types of individual tagging in a table.
  • NNG is a common noun
  • NNP is a proper noun
  • JX is an auxiliary verb
  • JKS is a main investigation
  • JC is a connection investigation
  • JKB is a sub-shoot
  • XR is a root
  • SN is a number
  • SF is a period.
  • SP stands for decimal
  • TRM stands for terminology
  • OGR stands for institution / corporation
  • CV stands for civilization / culture term.
  • the type 1 error is the same as the company name and the service system name provided by the company.
  • ambiguity occurs in the part-of-speech attachment
  • the type 2 error is the case in which the part-of-speech is attached to the word rather than the individual name.
  • the present invention through the experiment that the learning results are applied to other group documents, as the amount of learning documents increases, it was confirmed that the performance is reduced due to the bias of the rule in the learning domain.
  • the present invention proposes a new method for automatically correcting an error of a part-of-speech corpus through kernel RDR, and as a result, the rule generated by the learning method including the correct answer is described above with reference to FIG.
  • Wikipedia documents reduced errors by 62% and improved document performance by 2% in experiments on documents created by the same workgroup.
  • the blog document was also described with reference to FIG. As can be seen, we have reduced up to 853 errors, reducing errors by 44% and improving document performance by 0.8%.
  • FIG. 17 is a diagram showing the maximum performance of morpheme parts tagging error correction according to the learning document and the evaluation document confirmed for each experiment in a table.
  • FIG. 18 is a flowchart schematically illustrating an overall configuration of a tagging corpus error automatic correction method using kernel RDR according to an embodiment of the present invention.
  • the automatic tagging corpus error correction method using the kernel RDR is divided into input stages S10 and RDR (Ripple-) for receiving a sentence or a document to be studied.
  • Down rules comparing the initial corpus and the correct corpus according to a predetermined threshold value, and comparing the error and correct answers to the entire sentence or document input in the input step S10, respectively.
  • Rule generation step (S30) for generating a rule for error correction based on a predetermined threshold value and a kernel (kernel) based on the learning step of learning (S20) and the learning result of the learning step (S20).
  • a series of processes including an error correction step (S40) for correcting an error in a sentence or a document that is an error correction target using the rule generated in the rule generation step (S30).
  • the learning step (S20) basically the first corpus for the entire sentence or document input according to the threshold value input by the user using SCRDR (Single Classification Ripple Down Rules)
  • SCRDR Single Classification Ripple Down Rules
  • the above-described method in the type of the object tag tagging error type with the different parts of speech attached to the same morpheme, except for the object name semantic recognition error and the object name recognition range error, an error with a wrong object tag and a word other than the object name It can be configured to learn only the error that recognizes as the entity name and to perform the process of correcting the error.
  • the rule generation step (S30), as described above with reference to Figure 3, through the kernel system configured to be changed according to the learning corpus, to analyze the error pattern and generate the rule, that is,
  • the kernel system is generated based on both morphological units and word units to generate the respective kernels for the morpheme part-of-speech corpus and the entity-tagging corpus, which are the first and last stems of the previous word and the first stem of the next word.
  • the morpheme and the last morpheme are used, the previous three morphemes and the next three morphemes are ignored, and the parts of speech are used in the same way as the morphemes.
  • Using the morpheme and the morpheme of the next word ignoring the word and using the previous two morphemes and the next two morphemes It may be configured to use.
  • the threshold value may be configured to be determined and input by the user as an optimal value when generating a rule through RDR learning.
  • the rule generation step (S30) by generating a rule that meets the conditions based on the user-specified threshold value and the kernel to generate the information learned by the SCRDR as a 'Rule' file
  • the error correction Step S40 may be configured to perform a process of reading a 'Rule' file generated as a result of the learning, applying the document to be an error correction target, and changing a tag determined as an error to a learned correct tag. have.
  • the corpus to automatically correct the tagging corpus error correction method using the kernel RDR according to the present invention configured as described above is automatically performed through a computer or dedicated hardware, thereby automatically correcting an error of an input sentence or document. Automatic error correction device and system can be easily implemented.
  • the corpus error correcting apparatus and system described above may include, for example, an input unit for a user to input various information, a processing unit for correcting an error of an input document, and a processing result of the processing unit to the user. It is configured to include an output unit, the processing unit may be configured to automatically perform a process for correcting the error of the input document using the tagging corpus error correction method using the kernel RDR according to the present invention.
  • the present invention using the RDR as described above, automatically generates a correction rule reflecting the characteristics of the document tagged in the error corpus and the correct corpus, and refined mass machine learning that directly affects the natural language processing system. It is possible to apply the characteristics of Korean corpus by operating the morpheme unit by providing a method of automatic tagging corpus error correction using kernel RDR which is configured to recognize the errors in the corpus and recognize the corpus and entity name corpus.
  • the kernel can be applied to various forms of corpus, while minimizing errors in mass corpus production.
  • the present invention can be applied to the language processing industry using a computer.

Abstract

본 발명은 자연어 처리에서 기계학습을 위한 학습 말뭉치 내의 오류를 자동으로 수정하는 방법에 관한 것으로, 본 발명에 따르면, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR(Ripple-Down Rule)을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하여 대량의 말뭉치 제작시 오류를 최소화할 수 있으며, 또한, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, RDR 시스템에 커널이 동작하도록 구성됨으로써 커널 교체만으로 다양한 태그 말뭉치에 적용할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공된다.

Description

커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법
본 발명은 자연어 처리에서 기계학습을 위한 학습 말뭉치 내의 오류를 자동으로 수정하는 방법에 관한 것으로, 더 상세하게는, 종래, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR(Ripple-Down Rule) 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.
또한, 본 발명은, 상기한 바와 같이 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하며, 이때, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있도록 구성됨으로써, 대량의 말뭉치 제작시 오류를 최소화할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.
최근, 컴퓨터와 모바일 기기가 각 개인에게까지 널리 보급되고, 또한, 기계학습을 이용한 문제해결이 점점 더 많은 분야로 확대됨에 따라, 입력된 말뭉치에서 문맥이나 구문의 오류를 분석하고 수정하는 방법에 대하여 여러 가지 연구가 활발히 진행되고 있다.
더 상세하게는, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 예로는, 예를 들면, 한국 등록특허공보 제10-1500617호에 따르면, 사용자가 입력한 한국어 문장에서 나타나는 여러 맞춤법 문법 오류 중에서 사전(事典) 검색을 통해 해결할 수 없는 문맥 철자오류(context-sensitive spelling error)를 검색하고, 이를 교정할 대치어를 제시하는 것에 의해 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써, 한국어 문서 교정기의 성능을 높일 수 있도록 구성되는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법에 관한 기술내용이 제시된 바 있다.
또한, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 다른 예로는, 예를 들면, 한국 등록특허공보 제10-1491581호에 따르면, 철자오류 보정사전을 트라이(TRIE) 형태로 구성하는 것에 의해 메모리 사용량과 탐색 시간을 최소화하고, 등록되어 있는 문자열이 나타나면 문맥통계를 이용하여 해당 문자열을 보정 문자열로 교체할 것인지를 효율적으로 판단하는 것에 의해 작은 용량의 메모리와 단순 연산만을 이용하면서도 높은 철자오류 보정효과를 얻을 수 있도록 구성됨으로써, 휴대 단말기에서 입력된 문장의 철자 오류를 자동으로 인식하여 보정할 수 있는 철자 오류 보정 시스템 및 방법에 관한 기술내용이 제시된 바 있다.
아울러, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 또 다른 예로는, 예를 들면, 한국 등록특허공보 제10-1431339호에 따르면, 구문을 구성하는 각 단어가 코퍼스 내에서 출현할 출현확률을 구하고, 구문이 코퍼스 내에서 출현할 추정확률(Pe), 예상 출현빈도확률(Po) 및 실제 출현확률(Pa)을 구하여, 구문의 오류 여부를 판단하도록 구성됨으로써, 빈도수가 낮은 특수한 표현이나 반복적인 실수가 많이 행해지는 표현에 대해서도 오류검출을 정확히 할 수 있도록 구성되는 확률적 구문오류 검출방법 및 장치에 관한 기술내용이 제시된 바 있다.
더욱이, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 또 다른 예로는, 예를 들면, 한국 등록특허공보 제10-1358614호에 따르면, 말뭉치를 분석하여 부분어절의 기분석 사전을 구축하는 것에 의해 간단하게 PWD(Partial Word morpheme madd Dictionary)와 형태소 위치 적합성을 구축하는 학습데이터 구축기 및 학습데이터 구축기에 의해 구축된 사전에 대하여 어절 전체를 둘 이상으로 나눈 뒤 검색하여 분석하는 형태소 분석기를 포함하여, 어절을 분석하는 속도 및 재현율을 높이고 태깅(Tagging)에서의 정확도를 높일 수 있도록 구성되는 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법에 관한 기술내용이 제시된 바 있다.
상기한 바와 같이, 종래, 문맥이나 구문의 오류를 분석하고 수정하는 방법에 대하여 여러 가지 기술내용들이 제시된 바 있으나, 상기한 바와 같은 종래기술의 방법들은 다음과 같은 문제점이 있는 것이었다.
더 상세하게는, 종래, 자연어 처리에 있어서, 통계정보에 기반하는 방법과 기계학습을 이용하는 두 가지 방법이 주류를 이루고 있고, 이들 방법에서는 학습을 위한 말뭉치가 중요한 역할을 담당하게 되나, 학습 말뭉치는 작성하는데 시간과 비용이 많이 요구된다.
이러한 이유로, 종래, 지도학습(supervised learning)을 대체하는 비지도학습(unsupervised learning)이나, 반지도학습(semi-supervised learning)에 대한 성공적인 연구결과에도 불구하고, 정보부착 말뭉치를 가공하여 활용할 수 있는 분야가 점점 증가하고 있음으로 인해 학습을 위한 정보부착 말뭉치의 중요성은 줄어들지 않고 있다.
그러나 대량의 말뭉치를 제작하기 위하여는 다수의 사람들이 작업을 해야 하므로 일관성 있는 말뭉치를 제작하기가 매우 어려우며, 기계학습에서 학습 데이터의 오류는, 크게 나누어, 속성오류(attribute noise)와 범주오류(class noise)의 두 가지로 분류된다.
먼저, 속성오류는 속성값을 입력하는 도중에 발생하는 오류로서, 여기에는 속성이 없거나 중복된 값이 있는 경우가 포함되고, 범주오류는 다시 같은 데이터가 다른 범주로 분류된 경우에 해당하는 일관성 오류와 범주가 잘못 할당된 경우에 해당하는 분류오류로 나누어진다.
이러한 오류를 해결하기 위해, 종래, 최대치(majority)와 일치(non-objection) 전략을 사용하는 방법, 최대 정보량 기준을 사용하는 방법, 포화필터(saturation filter) 방법, 인공신경망을 사용하는 방법 등이 제시된 바 있으나, 이들은 모두 현재 학습 데이터에서 오류로 인식된 부분을 제거하여 학습 데이터의 일관성을 유지하는 것에 초점이 맞춰져 있고, 오류들을 수정하는 방법에 대하여는 고려된 바 없었다.
즉, 자연어처리 분야에 있어서, 인식 및 분류기 모델을 생성하기 위해서는 학습을 위한 말뭉치가 필요하며, 이러한 학습 말뭉치는 결과적으로 해당 모델의 성능을 결정하기 때문에 오류가 있어서는 안된다.
그러나 말뭉치는 사람이 직접 작성함으로 인해 필연적으로 오류가 발생하게 되며, 더욱이, 그러한 오류들에 어떠한 일관성이나 규칙성 있는 것도 아니므로, 이와 같이 불규칙적으로 발생하는 오류를 적절하게 수정할 수 있는 규칙을 정의하는 것 또한 용이하지 못한 문제가 있었으며, 이에, 종래에는, 학습시 오류를 제외하고 학습하는 방법 등으로 오류를 제거 또는 회피하는 방법이 주로 연구되었고, 학습 말뭉치의 오류를 직접 수정하는 방법에 대하여는 연구가 부족한 실정이다.
따라서 상기한 바와 같이, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류 수정방법들의 문제점을 해결하기 위하여는, 학습 말뭉치의 오류를 판단할 수 있는 기준이 되는 규칙(Rule)을 생성하고, 이러한 규칙을 이용하여 학습 말뭉치 내의 오류를 자동으로 인식하고 수정할 수 있는 동시에, 커널을 통해 다양한 형태의 말뭉치에 적용 가능하도록 구성되는 새로운 구성의 말뭉치 오류 자동수정방법을 제공하는 것이 바람직하나, 아직까지 그러한 요구를 모두 만족시키는 장치나 방법은 제시되지 못하고 있는 실정이다.
본 발명은 상기한 바와 같은 종래기술의 문제점을 해결하고자 하는 것으로, 따라서 본 발명의 목적은, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR(Ripple-Down Rule) 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공하고자 하는 것이다.
아울러, 본 발명의 또 다른 목적은, 상기한 바와 같이 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하며, 이때, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있도록 구성됨으로써, 대량의 말뭉치 제작시 오류를 최소화할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공하고자 하는 것이다.
상기한 바와 같은 목적을 달성하기 위해, 본 발명에 따르면, 자연어처리를 위한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류의 패턴이 불규칙하여 오류수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결할 수 있도록 구성되는 커널(kernel) RDR(Ripple-Down Rules)을 이용한 태깅 말뭉치 오류 자동수정방법에 있어서, 학습대상이 되는 문장 또는 문서가 입력되는 입력단계; 상기 입력단계에서 입력된 문장이나 문서 전체에 대한 오류 및 정답을 각각 학습하는 학습단계; 상기 학습단계의 학습결과에 근거하여, 미리 정해진 임계값과 커널에 따라 오류 패턴을 분석하고 오류 수정을 위한 규칙(Rules)을 생성하는 규칙생성단계; 및 상기 규칙생성단계에서 생성된 규칙을 이용하여 오류수정 대상이 되는 문장이나 문서의 오류를 수정하는 오류수정단계를 포함하는 일련의 처리과정이 컴퓨터나 또는 전용의 하드웨어에 의해 자동으로 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공된다.
여기서, 상기 학습단계는, SCRDR(Single Classification Ripple Down Rules)을 이용하여, 사용자에 의해 입력된 임계값에 따라 상기 입력단계에서 입력된 문장이나 문서 전체에 대하여 초벌 코퍼스(Initial Corpus)와 정답 코퍼스(Gold Corpus)를 각각 학습하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
또한, 상기 학습단계는, 한국어 형태소 품사 태깅과 개체명 태깅에서 나타나는 특징을 학습할 수 있도록 잘못 분석된 형태소로 인해 오류 문장과 정답 문장간의 형태소가 다를 경우 해당 문장의 형태소를 정답 문장의 형태로 변형하여 학습하고, 생성된 규칙이 단어에 상관없이 같은 유형의 오류에 적용될 수 있도록 의미형태소를 삭제하고 품사태그만을 이용하여 학습을 수행하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
아울러, 상기 방법은, 동일한 형태소에 다른 품사가 부착된 개체명 태깅 오류 유형에 대하여, 개체명 의미인식 오류와 개체명 인식범위 오류는 제외하고, 잘못된 개체명 태그를 부착한 오류와 개체명이 아닌 단어를 개체명으로 인식한 오류만을 학습하고 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
더욱이, 상기 규칙생성단계는, 사용자에 의해 입력되는 상기 임계값과 미리 생성된 상기 커널을 바탕으로 하여 상기 SCRDR로 학습된 정보를 'Rule' 파일로 생성하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
여기서, 상기 커널은, 학습 말뭉치에 따라 변경이 가능하도록 형태소 단위와 어절 단위 모두를 기준으로 하여 각각의 유형별로 구성되는 형태소 품사 태그 커널 및 개체명 태크 커널을 포함하여 구성되고, 상기 형태소 품사 태그 커널은, 형태소는 이전 어절의 첫 형태소와 품사 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하고, 품사는 상기 형태소와 동일하게 사용하여 생성되며, 상기 개체명 태그 커널은, 이전 어절의 형태소와 다음 어절의 형태소를 사용하고, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하여 생성되는 것을 특징으로 한다.
또한, 상기 오류수정단계는, 상기 규칙생성단계에서 생성된 상기 'Rule' 파일을 읽어들여 오류수정 대상이 되는 문서에 적용하고, 오류로 판단된 태그를 학습된 정답 태그로 변경하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
아울러, 본 발명에 따르면, 상기에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 컴퓨터에 실행시키도록 구성되는 프로그램이 기록된 컴퓨터에서 판독 가능한 기록매체가 제공된다.
더욱이, 본 발명에 따르면, 입력된 문장이나 문서의 오류를 자동으로 수정하도록 구성되는 자동 말뭉치 오류 수정시스템에 있어서, 사용자가 각종 정보를 입력하기 위한 입력부; 상기 입력부를 통해 입력된 문서의 오류를 수정하는 처리부; 및 상기 처리부의 처리 결과를 사용자에게 표시하는 출력부를 포함하여 구성되고, 상기 처리부는, 상기에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 이용하여 입력된 문서의 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 하는 자동 말뭉치 오류 수정시스템이 제공된다.
상기한 바와 같이, 본 발명에 따르면, RDR 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공됨으로써, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결할 수 있다.
또한, 본 발명에 따르면, 상기한 바와 같이 RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공됨으로써, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능하고, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있는 동시에, 대량의 말뭉치 제작시 오류를 최소화할 수 있다.
도 1은 오류 문장과 정답 문장의 형태소 수가 다를 때의 학습방법을 표로 정리하여 나타낸 도면이다.
도 2는 개체명 태그 오류의 유형을 표로 분류하여 나타낸 도면이다.
도 3은 형태소 품사 태그 커널과 개체명 태그 커널의 구성을 표로 정리하여 나타낸 도면이다.
도 4는 본 발명의 타당성 및 성능을 검증하기 위한 비교실험을 위해 적용된 작업그룹과 말뭉치를 표로 정리하여 나타낸 도면이다.
도 5는 평가 말뭉치로 사용된 위키피디아 문장과 블로그 문장의 오류 수와 형태소 품사 태그 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.
도 6은 평가 말뭉치로 사용된 블로그 문장에 대한 개체명 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.
도 7은 평가 말뭉치에서 나타나는 개체명 오류 유형별 오류 수를 표로 정리하여 나타내는 도면이다.
도 8은 위키피디아 문서를 이용하여 형태소 오류 학습과 전체 학습의 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이다.
도 9는 블로그 문서를 이용하여 개체명의 오류 학습과 전체 학습 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이다.
도 10은 위키피디아 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 11은 블로그 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 12는 블로그 말뭉치 학습량에 따른 개체명 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 13은 블로그 학습으로 위키피디아 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 14는 위키피디아 학습으로 블로그 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 15는 형태소 품사 태깅의 오류 유형을 표로 정리하여 나타낸 도면이다.
도 16은 개체명 태깅의 오류 유형을 표로 정리하여 나타낸 도면이다.
도 17은 각 실험별로 확인된 학습문서와 평가문서에 따른 형태소 품사 태깅 오류 수정의 최대 성능을 표로 정리하여 나타낸 도면이다.
도 18은 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 전체적인 구성을 개략적으로 나타내는 플로차트이다.
이하, 첨부된 도면을 참조하여, 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 구체적인 실시예에 대하여 설명한다.
여기서, 이하에 설명하는 내용은 본 발명을 실시하기 위한 하나의 실시예일 뿐이며, 본 발명은 이하에 설명하는 실시예의 내용으로만 한정되는 것은 아니라는 사실에 유념해야 한다.
또한, 이하의 본 발명의 실시예에 대한 설명에 있어서, 종래기술의 내용과 동일 또는 유사하거나 당업자의 수준에서 용이하게 이해하고 실시할 수 있다고 판단되는 부분에 대하여는, 설명을 간략히 하기 위해 그 상세한 설명을 생략하였음에 유념해야 한다.
즉, 본 발명은, 후술하는 바와 같이, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.
아울러, 본 발명은, 후술하는 바와 같이, 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하며, 이때, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있도록 구성됨으로써, 대량의 말뭉치 제작시 오류를 최소화할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.
계속해서, 도면을 참조하여, 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 구체적인 내용에 대하여 설명한다.
여기서, 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 구체적인 내용에 대하여 설명하기 전에, 먼저, RDR에 대하여 설명하면 다음과 같다.
즉, RDR(Ripple-Down Rules)은, 1993년 화학 병리학 보고서에 대한 병리학 유지 보수시스템에 처음 도입되었으며, 이후 지식기반 시스템을 구축하도록 수정되어, SCRDR(Single Classification Ripple Down Rules)과 MCRDR(Multiple Classification Ripple Down Rules), NRDR(Nested Ripple Down Rules) 등과 같이 다양한 형태의 RDR이 개발되었다.
여기서, SCRDR은 입력된 값으로부터 하나의 결과를 출력하며, MCRDR은 한 개 이상의 결과를 출력하고, NRDR은 사용자가 정의한 임의의 조건에 따라 결과를 출력하며, 형태소 품사 태그 또는 개체명 태그 오류를 수정하는 작업을 수행하기 위해서는 입력된 오류 태그를 올바른 하나의 정답으로 수정할 수 있는 SCRDR이 적합하므로, 이에, 본 발명에서는, SCRDR을 이용한 시스템을 통하여 본 발명을 설명하였으나, 반드시 이러한 내용으로만 한정되는 것은 아님에 유념해야 한다.
더 상세하게는, SCRDR은, 최상위 루트 노드로부터 조건에 따라 "EXCEPT"와 "FALSE"가 발생하고 노드를 이동하며 분류가 결정되고, 본 발명에서 사용한 SCRDR의 규칙은 재귀적으로 정의되며, 각 노드는 "EXCEPT"와 "FALSE"의 후속 노드와 연결되어 있고, 관측대상은 루트 노드로부터 조건에 따라 노드를 이동하며 최종적으로 "ACCEPT"된 규칙에 의해 분류된다.
RDR과 의사결정 트리는 각각 지도학습의 한 방법으로 주어진 데이터를 분류하는 문제를 다루며, 두 방법 모두 이미 알고 있는 정답 셋을 이용하여 분류방법을 생성한 후 주어진 대상의 정답을 예측하고, 최상위 루트 노드로부터 그 하위로 나뉘어 내려가며 노드를 생성하나, 의사결정 트리는 데이터를 분류하기 위한 최적의 변수를 찾기 위해 확률 또는 통계 데이터를 이용하고 그 변수를 기준으로 트리를 생성하며 생성된 노드를 최적화하기 위해 노드를 병합하는 과정을 거치는 반면, RDR의 경우는 먼저 하나의 규칙이 생성되면 그 규칙이 가질 수 있는 예외, 즉, "EXCEPT"가 발생할 수 있는 경우에 대하여 예외적인 처리를 생성하고 더 이상의 예외가 발생하지 않고 새로운 규칙을 생성할 때 "FALSE"가 발생하여 새로운 예측변수에 대한 규칙을 생성한다.
또한, 정답을 결정하는 과정에서, 의사결정 트리는 관측대상이 가진 변수들이 생성할 수 있는 확률 또는 통계값에 의해 정답이 결정되나, RDR의 경우는 관측대상이 가진 변수를 다루는 모든 규칙을 확인하여 가장 마지막에 "ACCEPT"한 규칙에 의해 분류된다.
아울러, 본 발명은 정답 말뭉치의 오류를 수정하여 학습 말뭉치의 성능을 높이고자 하는 것으로, 시스템 결과에서 나타나는 오류는 일정한 규칙을 띄고 높은 빈도로 나타나므로 시스템 결과 오류를 수정하기 위한 규칙을 쉽게 생성할 수 있으나, 사람이 직접 태그를 부착한 말뭉치에서 나타나는 오류는 패턴이 불규칙하며 그 수가 적으므로, 이에, 본 발명에서는 사람이 직접 작성한 말뭉치에서 적은 수로 나타나는 패턴을 찾기 위해 RDR 시스템에 커널이 동작할 수 있도록 구성하여, 커널만 교체하면 다양한 태그 부착 말뭉치에 동작할 수 있도록 설계하였다.
여기서, 본 발명에서는, 다수의 연구자들이 손으로 작성한 태그 부착 말뭉치를 '초벌 말뭉치(Initial corpus)'라 하고, 이를 사람이 보완한 코퍼스를 '정답 코퍼스(Gold corpus)'라 하며, 이 둘을 RDR로 학습하여 자동으로 태그 부착 코퍼스의 오류를 수정하는 방법을 제시하였다.
즉, 기존의 RDR 학습방법은 초벌 코퍼스와 정답 코퍼스를 비교하여 같은 위치에 서로 다른 태그가 부착되어 있는지 검토하고, 만약 태그가 다른 경우 오류가 정답으로 고쳐질 수 있도록 정답 말뭉치에서 이전 2개의 형태소와 다음 2개의 형태소의 패턴을 추출한다.
그러나 영어 문서를 기준으로 만들어진 기존의 RDR은 한국어에서 사용하는 형태소와 어절 정보가 그대로 적용되기 어려우므로, 본 발명자들은 한국어 형태소 품사 태깅에서 나타나는 특징과 개체명 태깅에서 나타나는 특징을 분석하고 학습할 수 있도록 시스템을 변형하여, 입력된 한국어 문장을 학습 및 평가할 수 있도록 형태소 단위의 분석이 가능한 동시에, 커널을 통해 한국어에 적합한 패턴을 추출할 수 있도록 수정하였다.
더 상세하게는, 한국어 형태소 품사 태깅은 영어와 다르게 하나의 어절이 2개 이상의 형태소로 분석될 수 있으며, 따라서 기존의 RDR 학습 방법을 그대로 적용할 경우 오류 문장과 정답 문장 간에 형태소 수가 달라지는 문제가 발생하므로, 이와 같이 잘못 분석된 형태소로 인해 오류 문장과 정답 문장의 형태소 수가 다를 경우, 이를 학습하기 위해 학습되는 문장의 형태를 변형하여 학습할 필요가 있다.
즉, 도 1을 참조하면, 도 1은 오류 문장과 정답 문장의 형태소 수가 다를 때의 학습방법을 표로 정리하여 나타낸 도면이다.
여기서, 도 1에 있어서, NNG는 일반명사, NNP는 고유명사, JX는 보조사를 각각 의미한다.
도 1에 나타낸 바와 같이, "닌텐도"라는 명사가 "닌텐"과 "도"로 분리되어 분석된 오류가 나타날 경우, 해당 어절의 형태소들을 하나의 어절로 묶어 "닌텐/NNG+도/JX"로 학습할 수 있도록 시스템이 변형하여 정보를 분석하며, 또한, 학습을 통해 생성된 규칙이 단어는 다르지만 같은 유형의 오류에 적용될 수 있도록 의미 형태소를 삭제하고 품사 태그만을 이용하는 방법을 사용하였다.
아울러, 개체명 태깅 오류의 유형은 형태소의 오류 유형과는 다른 형태를 나타내며, 즉, 형태소 오류는 동일한 형태소에 다른 품사가 부착된 오류로서, 일반적으로 오류 유형을 삽입, 삭제, 치환으로 분류할 때에 치환에 해당되는 오류 유형이다.
반면, 개체명 태그 오류는 삽입, 삭제, 치환의 모든 오류 유형이 나타나며, 즉, 삽입은 개체명이 아니지만 잘못 인식한 개체명, 삭제는 개체명 미인식, 치환은 개체명으로 인식은 했지만 잘못된 태그를 부착하거나 잘못된 경계를 가지는 경우로 분류된다.
도 2를 참조하면, 도 2는 개체명 태그 오류의 유형을 표로 분류하여 나타낸 도면이다.
도 2에 나타낸 바와 같이, 유형(type) 1은 개체명을 인식했으나 잘못된 개체명 태그를 부착해 발생한 오류이고, 유형 2는 개체명이 아닌 단어를 개체명으로 인식한 오류이며, 유형 3은 개체명인 단어를 인식하지 못해 발생하는 오류이고, 유형 4는 개체명의 일부분만을 인식해 발생하는 오류이다.
여기서, 유형 1과 2는 개체명 태그 분류의 오류라고 정의하며, 본 발명의 실시예에서 제시된 RDR 시스템은 이미 부착된 태그정보를 수정하는 기능만을 수행하므로 개체명 의미인식 오류와 인식범위 오류 유형인 유형 3과 유형 4는 제외되었음에 유념해야 한다.
다음으로, 커널 RDR(Kernel RDR)에 대하여 설명하면, 본 발명에서는 기존의 RDR에 커널 시스템을 추가로 구현하는 것에 의해 학습 말뭉치에 따라 커널을 변경하여 사용할 수 있도록 하여 범용성을 높이는 동시에, 한국어의 형태소와 어절의 특성에 맞게 학습을 할 수 있도록 시스템을 구축하였으며, 이를 위해, RDR 학습시, 커널 시스템으로 입력한 정보에 따라 패턴을 분석하고 규칙을 생성하며, 커널을 통해 패턴을 분석할 수 있도록 형태소 품사 태깅 말뭉치와 개체명 태깅 말뭉치의 각각에 맞는 커널을 생성하였다.
즉, 도 3을 참조하면, 도 3은 형태소 품사 태그 커널과 개체명 태그 커널의 구성을 표로 정리하여 나타낸 도면이다.
도 3에 나타낸 바와 같이, 형태소 품사 태깅 말뭉치 학습에 사용되는 커널은 형태소와 형태소 품사 태그가 있으며, 이를 커널로 사용하기 위해 커널을 추출하는 기준을 형태소 단위와 어절 단위 모두 사용하였고, 형태소는 이전 어절의 첫 형태소 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하였으며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하였고, 또한, 품사에 대하여도 형태소와 동일하게 사용하였다.
아울러, 개체명 품사 태깅 말뭉치 학습에 사용되는 커널은 이전 어절의 형태소와 다음 어절의 형태소를 사용하였으며, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하였다.
계속해서, 임계치(Threshold)의 결정에 대하여 설명하면, RDR에는 ImproveThresold와 MatchThreshold 두 가지의 임계치가 있으며, RDR에서 학습을 통해 규칙을 생성시에는 사용자가 지정한 임계치에 따라 규칙이 다르게 생성된다.
여기서, ImproveThreshold는 어떠한 태그가 다른 태그로 수정되는 수에 대한 임계치이며, MatchThreshold는 ImproveThreshold를 만족하는 오류쌍 중 동일하게 나타나는 패턴에 대한 임계치이다.
예를 들면, ImproveThresold가 3이고 MatchThreshold가 2일 경우, A라는 태그가 B라는 태그로 수정될 때 1번 패턴에 의해서 수정되는 수가 4번, 2번 패턴에 의해 수정되는 수가 1번이라고 하면, 수정되는 총수는 5번이므로 ImproveThreshold 이상이고 1번 패턴이 MatchThreshold 이상이므로 1번 패턴이 학습된다.
이와 같이 결정된 임계치는 말뭉치에 존재하는 다양한 오류에 동일하게 작용되므로, 오류를 수정하기에 가장 적합한 임계치를 찾는 작업이 중요하며, 이에, 본 발명은, 오류 수정에 적합한 임계치를 결정할 수 있도록 다양한 임계치를 적용하여 실험을 통해 검증하였다.
여기서, 기존의 RDR 학습방법은 초벌 코퍼스와 정답 코퍼스를 비교하여 태그가 다른 경우에만 학습하였고, 이는 오류가 발생하는 위치에서 규칙을 학습하는 것으로, 임계치가 낮으면 오류가 발생했을 때에만 나타나는 패턴이 아닌 일반적으로 나타나는 패턴을 학습함으로 인해 오류를 수정하는데 부적절한 규칙이 학습될 수도 있으므로, 이러한 규칙은 오류가 아닌 상황에도 적용되어 시스템이 오류를 발생시키는 문제가 있다.
그러나 문서 전체를 학습하게 되면 오류를 발생하는 규칙을 다시 정답으로 되돌리는 규칙이 학습될 수 있으므로, 이에, 본 발명에서는, 문서 전체를 학습하여 규칙을 생성하도록 구성됨으로써 오류 수정의 정확도를 높일 수 있도록 하였다.
더 상세하게는, 본 발명자들은, 후술하는 바와 같이, 본 발명에서 제안된 방법의 타당성 및 효용성을 검증하기 위해, 오류만 학습하는 방법과 정답을 포함한 학습의 차이점을 확인하고, 이후 학습량에 따라 다양한 임계치(threshold)를 설정하여 다양한 실험을 진행하였다.
이를 위해, 본 발명자들은, 먼저, 태깅 그룹 내에서 수정 성능과 태깅 그룹 간의 수정 성능을 조사하기 위해 두 개의 문서 그룹을 만들어 실험을 진행하였다.
즉, 도 4를 참조하면, 도 4는 본 발명의 타당성 및 성능을 검증하기 위한 비교실험을 위해 적용된 작업그룹과 말뭉치를 표로 정리하여 나타낸 도면이다.
도 4에 나타낸 바와 같이, 작업그룹 A에서는 한국어 위키피디아 문서를 태깅하였고, 작업그룹 B에서는 블로그 문서를 태깅하였으며, 따라서 작업그룹 A와 작업그룹 B의 작업자가 발생시키는 오류의 유형은 서로 다르므로, 초벌 말뭉치인 위키피디아(A) 문서와 블로그(B) 문서는 서로 다른 오류를 포함하고 있다.
이와 같이 문서를 두 가지로 구분함으로써 학습량과 임계치의 변화에 대한 결과를 각각 확인할 수 있고, 학습된 규칙을 교차 검증할 수도 있으며, 이에, 본 발명자들은, 그룹 내의 오류수정과 그룹간의 오류수정에 대한 실험을 각각 진행하여 그 결과를 비교하였다.
여기서, 본 실시예에 있어서, 형태소 품사 부착 말뭉치는 세종 태그셋을 따르며, 개체명 말뭉치는 ETRI 태그셋을 따른다.
더 상세하게는, 형태소 품사 태깅 말뭉치는 학습을 위해 한국어 위키피디아 문서 중 4,000문장을 사용하였고, 평가를 위해 10,000문장을 사용하였으며, 블로그 문서는 학습을 위해 총 4,000문장을 사용하였고, 평가를 위해 4,000문장을 사용하였다.
또한, 도 5를 참조하면, 도 5는 평가 말뭉치로 사용된 위키피디아 문장과 블로그 문장의 오류 수와 형태소 품사 태그 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.
즉, 평가에 사용한 위키 10,000 문장과 블로그 4,000문장의 오류 수와 형태소 단위 성능은 도 5에 나타낸 바와 같으며, 개체명 태깅 말뭉치는 유형 1과 2에 대한 오류에 대하여만 개체명 태그 수정을 하였다.
아울러, 도 6을 참조하면, 도 6은 평가 말뭉치로 사용된 블로그 문서에서 추출된 4,000문장에 대한 개체명 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.
더욱이, 도 7을 참조하면, 도 7은 평가 말뭉치에서 나타나는 개체명 오류 유형별 오류 수를 표로 정리하여 나타내는 도면이다.
도 7에 나타낸 바와 같이, 평가 말뭉치에서 유형 1은 72개, 유형 2는 88개의 오류를 각각 포함하여 모두 160개의 오류를 포함하고 있다.
계속해서, 상기한 바와 같은 환경에서 오류만을 학습하는 경우(Err)와 정답을 포함한 모든 내용을 학습하는 경우(All)에 대하여 각각 어떠한 성능 차이가 있는지를 확인한 학습조건 선택 실험의 결과에 대하여 설명한다.
즉, 본 발명자들은, 형태소 품사 태깅 말뭉치를 사용하여 ImproveThreshold가 0에서부터 3까지이고 match-Threshold가 1일 때의 성능을 각각 비교하는 것에 의해 상기한 두 가지 경우에 대하여 각각 검증실험을 수행하였다.
더 상세하게는, 도 8 및 도 9를 참조하면, 도 8은 위키피디아 문서를 이용하여 형태소 오류 학습과 전체 학습의 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이고, 도 9는 블로그 문서를 이용하여 개체명의 오류 학습과 전체 학습 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이다.
도 8 및 도 9에 나타낸 각각의 실험결과로부터 알 수 있듯이, 오류만 학습하는 경우(Err)보다 정답을 포함하여 학습하는 경우(All)가 성능이 더 좋게 나타났으며, 그 이유는, 임계치가 낮을 경우 오류를 수정하는 특수한 패턴이 아닌 일반적으로 나타나는 패턴을 학습하기 때문이다.
이에, 본 발명에서는, 형태소 품사 태그와 개체명 태그 오류수정을 위해 모든 실험을 정답을 포함하는 방법(All)으로 학습하였다.
계속해서, 학습량과 임계치에 따른 성능을 평가한 결과에 대하여 설명하면, 본 발명자들은, 소량의 학습으로도 학습 말뭉치를 수정할 수 있는지를 확인하기 위해 RDR 학습에 사용되는 말뭉치의 양을 각각 다르게 하여 각각의 성능을 비교하였으며, 이와 함께, 임계치를 다양하게 적용하여 각 임계치별로 성능이 어떻게 다른지 또한 확인하였다.
더 상세하게는, 먼저, RDR을 이용한 한국어 형태소 품사 태그 오류수정에서 학습량에 따른 성능을 확인하기 위해, 위키피디아 문서와 블로그 문서를 각각 1,000문장에서 4,000문장까지 1,000문장 단위로 나누어 학습하고, 학습 문서에서 최적의 규칙을 생성할 수 있는 임계치를 찾기 위해 임계치를 다양하게 변경하여 실험을 수행하였다.
즉, 도 10 내지 도 14를 참조하면, 도 10은 위키피디아 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이고, 도 11은 블로그 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이며, 도 12는 블로그 말뭉치 학습량에 따른 개체명 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
여기서, 도 10 내지 도 12에 있어서, 각 행 처음의 숫자는 임계치를 나타내며, '-' 기호 앞의 숫자는 ImproveThreshold를 나타내고, 뒤의 숫자는 MatchThreshold를 나타내며, 'r: # of reduce'는 오류수정으로 감소된 오류 수이고, 'e: # of error'는 전체 오류 수이며, 'r/e * 100'으로 오류 수정률을 나타내었다.
실험 결과, 먼저, 도 10에 나타낸 바와 같이, 위키피디아 문서를 학습하여 같은 위키피디아 문서를 평가했을 경우, 1,000문장을 학습한 규칙은 임계치에 따라 최대 5,121개의 오류를 감소시켰고, 2,000문장과 3,000문장을 학습한 경우에는 최대 5,349개의 오류를 수정시켰으며, 4,000문장에서는 5,482개의 오류를 수정하였다.
또한, 도 11에 나타낸 바와 같이, 블로그 문서에서는, 1,000문장을 학습한 규칙은 최대 851개의 오류를 감소시켰고, 2,000문장에서는 839개, 3,000문장에서는 840개, 4,000문장에서는 853개의 오류를 감소시켰다.
아울러, 도 12에 나타낸 바와 같이, 개체명 태그 오류 수정의 RDR 학습에서는, 2,000문장, 3,000문장, 4,000문장을 학습하여 각각 35개, 40개, 50개의 규칙이 생성되었으며, 2,000문장 학습시 최대 56개의 오류를 감소시켰고, 3,000문장에서는 55개, 4,000문장에서는 56개의 오류를 감소시켰다.
반면, 문장 수를 변경하며 학습하고 평가하였을 때 각각의 결과는 큰 차이를 보이지 않았으며, 이는 형태소 말뭉치와 비교하여 개체명은 주변 형태소 또는 어절 정보에 영향을 적게 받기 때문에 낮은 임계치에서 패턴을 찾기 어렵기 때문이라고 분석된다.
따라서 여러 번 등장하는 오류는 대부분 수정되었지만 규칙에 적용되지 않은 새로운 단어나 주변 정보를 가지는 개체명은 학습량을 늘려도 규칙에 적용되지 않는 것으로 분석된다.
계속해서, 작업그룹간 성능을 평가한 결과에 대하여 설명하면, 본 발명자들은, 형태소 품사 태그 오류 수정은 학습한 결과가 다른 그룹의 문서에 얼마나 적용되는지 확인하기 위해 학습한 규칙을 서로 다른 그룹의 문서에 적용하여 성능을 확인하였다.
즉, 도 13 및 도 14를 참조하면, 도 13은 블로그 학습으로 위키피디아 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이고, 도 14는 위키피디아 학습으로 블로그 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
여기서, 도 13 및 도 14에 있어서, 각 행 처음의 숫자는 임계치를 나타내며, '-' 기호 앞의 숫자는 ImproveThreshold를 나타내고, 뒤의 숫자는 MatchThreshold를 나타내며, 'r: # of reduce'는 오류수정으로 감소된 오류 수이고, 'e: # of error'는 전체 오류 수이며, 'r/e * 100'으로 오류 수정률을 나타내었다.
또한, 실험에 사용한 임계치는 각 작업그룹 실험에서 상위의 성능을 보여준 임계치를 선택하였으며, 즉, 블로그 문서를 학습한 규칙은[(3-1), (3-2), (4-1), (4-2), (5-1), (5-2), (6-1), (6-2)]의 임계치를 사용하였고, 위키피디아 문서를 학습한 규칙은 [(5-1), (5-2), (6-1), (6-2), (7-1), (7-2), (8-1),(8-2)]의 임계치를 사용하였다.
도 13에 나타낸 바와 같이, 먼저, 블로그 문서를 학습한 규칙으로 위키피디아 문서를 수정했을 때에는 같은 그룹의 문서인 위키피디아 문서를 학습한 결과보다는 성능이 떨어졌으나, 결과적으로 최대 3,049개의 오류를 수정하여 약 1.1%의 성능이 향상되었다.
아울러, 도 14에 나타낸 바와 같이, 학습량 1,000문장에 임계치가 (5-1) 일 때 같은 블로그 문서를 평가한 실험에서 최대 853개의 오류를 수정한 결과보다 51개가 더 많은 904개의 오류를 수정하여, 위키피디아 문서를 학습하여 블로그 문서에 적용한 결과가 같은 블로그 문서를 학습하여 평가한 결과보다 오히려 성능이 좋게 나타났다.
그러나 이러한 결과만으로는 위키피디아 학습결과가 블로그 문서 수정에 적합하다고 판단하기 어려우며, 이는, 위키피디아를 학습한 규칙 중 시스템 오류를 발생시킬 수 있는 규칙이 블로그 문서에서 적용되지 않는 경우가 많아 이러한 결과가 나타났다고 분석되었다.
상기한 바와 같은 실험결과로부터, 일반적으로 학습량이 적을 때 다른 작업문서 간의 실험결과가 학습량이 많을 때보다 상대적으로 성능이 좋게 나타났으며, 이는, 학습문서의 양이 많을수록 해당 도메인에 적합한 규칙이 생성되고, 학습된 규칙은 다른 도메인의 문서를 수정하기에는 부적합하다는 것을 알 수 있다.
상기한 바와 같이, 본 발명에서는, RDR을 통해 형태소 품사 태그 오류와 개체명 태그 오류를 수정하는 실험을 통해 사람이 직접 구축한 정답 말뭉치에도 적지만 오류가 존재하고 RDR을 통해 패턴을 추출할 수 있음을 확인하였다.
더 상세하게는, 도 15 및 도 16을 참조하면, 도 15는 형태소 품사 태깅의 오류 유형을 표로 정리하여 나타낸 도면이고, 도 16은 개체명 태깅의 오류 유형을 표로 정리하여 나타낸 도면이다.
여기서, 도 15 및 도 16에 있어서, NNG는 일반명사, NNP는 고유명사, JX는 보조사, JKS는 주격조사, JC는 접속조사, JKB는 부사격조사, XR은 어근, SN은 숫자, SF는 마침표, SP는 소수점, TRM은 전문용어, OGR는 기관/기업, CV는 문명/문화 용어를 각각 의미한다.
도 15 및 도 16에 나타낸 바와 같이, 형태소 품사 태깅 문서와 개체명 태깅 문서에서 각각 다양한 오류가 나타났으며, 즉, 형태소 품사 태깅 문서에서 나타난 오류에는 단어의 마지막 음절이 조사와 동일할 경우 '명사' + '조사'로 분석하는 오류가 다양하게 포함되어 있었고, 접속조사와 부사격조사 분석을 서로 반대로 분석한 오류도 있었다.
또한, 가장 많이 나타난 오류는 마침표와 가운데점에 대한 태깅으로, 소숫점이나 URL에 포함되는 가운데점과 문장 끝에 나타나는 마침표점은 서로 다른 태그를 부착하는데 이를 수작업자가 빈번하게 오류를 범하는 것을 알 수 있었다.
아울러, 개체명 태깅의 오류는 상기에서 설명한 바와 같이 4개의 오류 유형이 존재하고, 본 발명에서는 오류유형 1과 2만 수정하였으며, 즉, 유형 1의 오류는 기업명과 기업에서 제공하는 서비스 시스템명이 동일할 때 품사 부착에 애매성이 발생한 경우이고, 유형 2의 오류는 개체명이 아닌 단어에 품사를 부착한 경우이다.
더욱이, 본 발명은, 오류만 학습하는 경우(Err)와 정답을 학습하는 경우(All)에 대한 실험을 통해 소량의 문서를 학습하여 임계치가 낮은 경우는 모든 내용을 포함하여 학습하는 경우가 성능이 더 우수하다는 것을 확인하였으며, 학습량과 임계치에 대한 실험을 통하여 학습량이 많을수록 학습문서에 나타나는 오류의 수가 증가하여 학습에 도움이 되는 것은 당연하지만 학습량이 적더라도 임계치에 따라 충분히 오류를 수정할 수 있다는 것을 실험결과를 통해 증명하였다.
이는, 도 11을 참조하여 블로그 문서를 학습하고 평가한 실험에서 1,000문장을 학습하고 임계치가 (3-1)인 경우 최대 성능과 오류 수정 수가 2개밖에 차이가 나지 않는 것을 통해 확인할 수 있다.
또한, 본 발명은, 학습결과를 다른 그룹 문서에 적용한 실험을 통하여 학습 문서량이 많아짐에 따라 규칙이 학습 도메인에 치우침으로 인해 성능이 떨어지는 것을 확인하였다.
상기한 바와 같이, 본 발명에서는, 품사 부착 코퍼스의 오류를 커널 RDR을 통해 자동으로 수정하는 새로운 방법을 제시하고, 그 결과로, 정답을 포함한 학습 방법으로 생성한 규칙은, 도 10을 참조하여 상기한 바와 같이, 같은 작업그룹이 작성한 문서에 대한 실험에서 위키피디아 문서의 경우 최대 5,482개의 오류를 감소시켜 오류를 62% 감소시키고 문서 성능을 2% 향상시켰으며, 블로그 문서 또한, 도 11을 참조하여 상기한 바와 같이, 최대 853개의 오류를 감소시켜 오류를 44% 감소시키고 문서 성능을 0.8% 향상시키는 것을 확인하였다.
이와 같이, 학습과 평가가 같은 그룹의 문서는 RDR 학습을 통한 코퍼스 오류 수정으로 코퍼스의 성능을 향상시킬 수 있다는 실험결과를 통해, 사람이 직접 구축하여 오류의 수가 적고 규칙이 복잡하더라도 RDR 시스템을 통해 수정이 가능한 반면, 다른 작업 그룹간 성능 평가에서는 학습을 통해 생성되는 규칙이 학습문서와 긴밀함으로 인해 학습 문서량이 증가함에 따라 다른 그룹 문서에는 적합하지 않다는 것을 확인하였다.
즉, 도 17을 참조하면, 도 17은 각 실험별로 확인된 학습문서와 평가문서에 따른 형태소 품사 태깅 오류 수정의 최대 성능을 표로 정리하여 나타낸 도면이다.
이상, 상기한 내용들로부터, 오류 수나 유형에 따라 유동적인 임계치를 결정할 수 있는 시스템을 구축 가능하다면 결정된 임계치가 오류의 유형에 따라 제각기 다른 오류 수를 모두 만족시킬 수 없는 문제점을 극복하여 더 나은 오류 수정률을 나타낼 수 있을 것으로 기대된다.
따라서 상기에 설명한 바와 같은 일련의 처리과정이 컴퓨터나 또는 전용의 하드웨어에 의해 수행되도록 함으로써, 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 구현할 수 있다.
즉, 도 18을 참조하면, 도 18은 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 전체적인 구성을 개략적으로 나타내는 플로차트이다.
도 18에 나타낸 바와 같이, 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법은, 크게 나누어, 학습대상이 되는 문장 또는 문서를 입력받는 입력단계(S10)와, RDR(Ripple-Down Rules)을 이용하여, 미리 정해진 임계값에 따라 초벌 코퍼스(Initial Corpus)와 정답 코퍼스(Gold corpus)를 비교하여 상기한 입력단계(S10)에서 입력된 문장이나 문서 전체에 대한 오류 및 정답을 각각 학습하는 학습단계(S20)와, 상기한 학습단계(S20)의 학습결과에 근거하여 미리 정해진 임계값과 커널(kernel)에 따라 오류수정을 위한 규칙(Rules)을 생성하는 규칙생성단계(S30)와, 상기한 규칙생성단계(S30)에서 생성된 규칙을 이용하여 오류수정 대상이 되는 문장이나 문서의 오류를 수정하는 오류수정단계(S40)를 포함하는 일련의 처리과정이 컴퓨터나 또는 전용의 하드웨어에 의해 자동으로 수행되도록 구성될 수 있다.
여기서, 상기한 학습단계(S20)는, 상기에 설명한 바와 같이, 기본적으로는 SCRDR(Single Classification Ripple Down Rules)을 이용하여 사용자에 의해 입력된 임계값에 따라 입력된 문장이나 문서 전체에 대하여 초벌 코퍼스와 정답 코퍼스를 학습하며, 이때, 한국어 형태소 품사 태깅과 개체명 태깅에서 나타나는 특징을 분석하고 학습할 수 있도록 하기 위해, 잘못 분석된 형태소로 인해 오류 문장과 정답 문장간의 형태소가 다를 경우는 해당 문장의 형태소를 변형하여 학습하고, 또한, 생성된 규칙이 단어에 상관없이 같은 유형의 오류에 적용될 수 있도록 의미형태소를 삭제하고 품사태그만을 이용하여 학습을 수행하는 처리가 수행되도록 구성될 수 있다.
아울러, 상기한 방법은, 동일한 형태소에 다른 품사가 부착된 개체명 태깅 오류 유형에 있어서, 개체명 의미인식 오류와 개체명 인식범위 오류는 제외하고 잘못된 개체명 태그를 부착한 오류와 개체명이 아닌 단어를 개체명으로 인식한 오류만을 학습하고 오류를 수정하는 처리가 수행되도록 구성될 수 있다.
더욱이, 상기한 규칙생성단계(S30)는, 도 3을 참조하여 상기에 설명한 바와 같이, 학습 말뭉치에 따라 변경이 가능하도록 구성되는 커널 시스템을 통하여 오류 패턴을 분석하고 규칙을 생성하며, 즉, 이러한 커널 시스템은, 형태소 품사 말뭉치와 개체명 태깅 말뭉치에 대한 각각의 커널을 생성하기 위해 형태소 단위와 어절 단위를 모두 기준으로 하여 생성되는 것으로, 형태소는 이전 어절의 첫 형태소 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하고, 품사도 형태소와 동일하게 사용하며, 개체명 품사 태깅 말뭉치 학습에 사용되는 커널은 이전 어절의 형태소와 다음 어절의 형태소를 사용하고, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하도록 구성될 수 있다.
또한, 형태소 품사 태그 커널과 개체명 태그 커널의 구체적인 구성은 도 3에 나타낸 바와 같으며, RDR 학습을 통한 규칙 생성시 임계값은 사용자에 의해 최적의 값으로 결정되어 입력되도록 구성될 수 있다.
즉, 상기한 규칙생성단계(S30)는, 사용자가 지정한 임계값과 커널을 바탕으로 조건에 부합하는 규칙을 생성하여 SCRDR로 학습된 정보를 'Rule' 파일로 생성하며, 아울러, 상기한 오류수정단계(S40)는, 이러한 학습의 결과로 생성된 'Rule' 파일을 읽어들여 오류수정 대상이 되는 문서에 적용하고, 오류로 판단된 태그를 학습된 정답 태그로 변경하는 처리가 수행되도록 구성될 수 있다.
더욱이, 상기한 바와 같이 구성되는 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 컴퓨터나 전용의 하드웨어를 통하여 자동으로 수행되도록 구성함으로써, 입력된 문장이나 문서의 오류를 자동으로 수정하는 말뭉치 오류 자동 수정장치 및 시스템을 용이하게 구현할 수 있다.
더 상세하게는, 상기한 말뭉치 오류 자동 수정장치 및 시스템은, 예를 들면, 사용자가 각종 정보를 입력하기 위한 입력부와, 입력된 문서의 오류를 수정하는 처리부 및 처리부의 처리 결과를 사용자에게 표시하는 출력부를 포함하여 구성되고, 상기한 처리부는 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 이용하여 입력된 문서의 오류를 수정하는 처리가 자동으로 수행되도록 구성될 수 있다.
따라서 상기한 바와 같이 하여 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 구현할 수 있다.
또한, 상기한 바와 같이 하여 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 구현하는 것에 의해, 본 발명에 따르면, RDR 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공됨으로써, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결할 수 있다.
아울러, 본 발명에 따르면, 상기한 바와 같이 RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공됨으로써, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능하고, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있는 동시에, 대량의 말뭉치 제작시 오류를 최소화할 수 있다.
이상, 상기한 바와 같은 본 발명의 실시예를 통하여 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 상세한 내용에 대하여 설명하였으나, 본 발명은 상기한 실시예에 기재된 내용으로만 한정되는 것은 아니며, 따라서 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 설계상의 필요 및 기타 다양한 요인에 따라 여러 가지 수정, 변경, 결합 및 대체 등이 가능한 것임은 당연한 일이라 하겠다.
본 발명은 컴퓨터를 이용한 언어처리 산업 분야에 적용될 수 있다.

Claims (9)

  1. 자연어처리를 위한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류의 패턴이 불규칙하여 오류수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결할 수 있도록 구성되는 커널(kernel) RDR(Ripple-Down Rules)을 이용한 태깅 말뭉치 오류 자동수정방법에 있어서,
    학습대상이 되는 문장 또는 문서가 입력되는 입력단계;
    상기 입력단계에서 입력된 문장이나 문서 전체에 대한 오류 및 정답을 각각 학습하는 학습단계;
    상기 학습단계의 학습결과에 근거하여, 미리 정해진 임계값과 커널에 따라 오류 패턴을 분석하고 오류 수정을 위한 규칙(Rules)을 생성하는 규칙생성단계; 및
    상기 규칙생성단계에서 생성된 규칙을 이용하여 오류수정 대상이 되는 문장이나 문서의 오류를 수정하는 오류수정단계를 포함하는 일련의 처리과정이 컴퓨터나 또는 전용의 하드웨어에 의해 자동으로 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
  2. 제 1항에 있어서,
    상기 학습단계는,
    SCRDR(Single Classification Ripple Down Rules)을 이용하여, 사용자에 의해 입력된 임계값에 따라 상기 입력단계에서 입력된 문장이나 문서 전체에 대하여 초벌 코퍼스(Initial Corpus)와 정답 코퍼스(Gold Corpus)를 각각 학습하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
  3. 제 2항에 있어서,
    상기 학습단계는,
    한국어 형태소 품사 태깅과 개체명 태깅에서 나타나는 특징을 학습할 수 있도록 잘못 분석된 형태소로 인해 오류 문장과 정답 문장간의 형태소가 다를 경우 해당 문장의 형태소를 정답 문장의 형태로 변형하여 학습하고,
    생성된 규칙이 단어에 상관없이 같은 유형의 오류에 적용될 수 있도록 의미형태소를 삭제하고 품사태그만을 이용하여 학습을 수행하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
  4. 제 3항에 있어서,
    상기 방법은,
    동일한 형태소에 다른 품사가 부착된 개체명 태깅 오류 유형에 대하여, 개체명 의미인식 오류와 개체명 인식범위 오류는 제외하고, 잘못된 개체명 태그를 부착한 오류와 개체명이 아닌 단어를 개체명으로 인식한 오류만을 학습하고 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
  5. 제 4항에 있어서,
    상기 규칙생성단계는,
    사용자에 의해 입력되는 상기 임계값과 미리 생성된 상기 커널을 바탕으로 하여 상기 SCRDR로 학습된 정보를 'Rule' 파일로 생성하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
  6. 제 5항에 있어서,
    상기 커널은,
    학습 말뭉치에 따라 변경이 가능하도록 형태소 단위와 어절 단위 모두를 기준으로 하여 각각의 유형별로 구성되는 형태소 품사 태그 커널 및 개체명 태크 커널을 포함하여 구성되고,
    상기 형태소 품사 태그 커널은,
    형태소는 이전 어절의 첫 형태소와 품사 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하고, 품사는 상기 형태소와 동일하게 사용하여 생성되며,
    상기 개체명 태그 커널은,
    이전 어절의 형태소와 다음 어절의 형태소를 사용하고, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하여 생성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
  7. 제 6항에 있어서,
    상기 오류수정단계는,
    상기 규칙생성단계에서 생성된 상기 'Rule' 파일을 읽어들여 오류수정 대상이 되는 문서에 적용하고, 오류로 판단된 태그를 학습된 정답 태그로 변경하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
  8. 청구항 1항 내지 청구항 7항 중 어느 한 항에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 컴퓨터에 실행시키도록 구성되는 프로그램이 기록된 컴퓨터에서 판독 가능한 기록매체.
  9. 입력된 문장이나 문서의 오류를 자동으로 수정하도록 구성되는 자동 말뭉치 오류 수정시스템에 있어서,
    사용자가 각종 정보를 입력하기 위한 입력부;
    상기 입력부를 통해 입력된 문서의 오류를 수정하는 처리부; 및
    상기 처리부의 처리 결과를 사용자에게 표시하는 출력부를 포함하여 구성되고,
    상기 처리부는,
    청구항 1항 내지 청구항 7항 중 어느 한 항에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 이용하여 입력된 문서의 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 하는 자동 말뭉치 오류 수정시스템.
PCT/KR2017/006917 2016-08-17 2017-06-29 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 WO2018034426A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160104123A KR101813683B1 (ko) 2016-08-17 2016-08-17 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
KR10-2016-0104123 2016-08-17

Publications (1)

Publication Number Publication Date
WO2018034426A1 true WO2018034426A1 (ko) 2018-02-22

Family

ID=60938988

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/006917 WO2018034426A1 (ko) 2016-08-17 2017-06-29 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법

Country Status (2)

Country Link
KR (1) KR101813683B1 (ko)
WO (1) WO2018034426A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555096A (zh) * 2018-06-01 2019-12-10 深圳狗尾草智能科技有限公司 用户意图识别方法、系统、终端及介质
CN111046663A (zh) * 2019-11-26 2020-04-21 华南理工大学 一种中文表单的智能校正方法
CN111488466A (zh) * 2020-04-16 2020-08-04 清华大学 中文带标记错误语料生成方法、计算装置和存储介质
CN112560459A (zh) * 2020-12-04 2021-03-26 北京百度网讯科技有限公司 用于模型训练的样本筛选方法、装置、设备及存储介质
US11537660B2 (en) 2020-06-18 2022-12-27 International Business Machines Corporation Targeted partial re-enrichment of a corpus based on NLP model enhancements
CN116226677A (zh) * 2023-05-09 2023-06-06 北京搜狐新媒体信息技术有限公司 平行语料构建方法及装置、存储介质及电子设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102030289B1 (ko) 2018-11-02 2019-11-08 창원대학교 산학협력단 적대적 학습 방법을 이용한 문장 생성 시스템 및 방법
KR102019207B1 (ko) * 2018-11-12 2019-09-06 주식회사 와이즈넛 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법
US20220019737A1 (en) * 2018-12-31 2022-01-20 Llsollu Co., Ltd. Language correction system, method therefor, and language correction model learning method of system
KR102199835B1 (ko) * 2018-12-31 2021-01-07 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
CN113642318B (zh) * 2021-10-14 2022-01-28 江西风向标教育科技有限公司 英语文章的纠错方法、系统、存储介质及设备
KR102602813B1 (ko) * 2023-02-08 2023-11-17 주식회사 보인정보기술 받아쓰기 문장 자동 생성 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097741A1 (en) * 2006-10-18 2008-04-24 Domenica Bagnato Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient egyptian
KR20110059267A (ko) * 2009-11-27 2011-06-02 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
KR20120053207A (ko) * 2010-11-17 2012-05-25 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
KR20130057715A (ko) * 2011-11-24 2013-06-03 한국과학기술정보연구원 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080097741A1 (en) * 2006-10-18 2008-04-24 Domenica Bagnato Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient egyptian
KR20110059267A (ko) * 2009-11-27 2011-06-02 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
KR20120053207A (ko) * 2010-11-17 2012-05-25 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
KR20130057715A (ko) * 2011-11-24 2013-06-03 한국과학기술정보연구원 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NGUYEN, DAT QUOC ET AL.: "RDRPOSTagger : A Ripple Down Rules-based Part-Of-Speech Tagger", PROCEEDINGS OF THE DEMONSTRATIONS AT THE 14TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 26 April 2014 (2014-04-26), pages 17 - 20, XP055464774 *
PARK, TAE-HO ET AL.: "Automatic Correction of Errors in Annotated Corpus Using Kernel Ripple-Down Rules", JOURNAL OF KIISE, vol. 43, 6 June 2016 (2016-06-06), pages 636 - 644 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555096A (zh) * 2018-06-01 2019-12-10 深圳狗尾草智能科技有限公司 用户意图识别方法、系统、终端及介质
CN111046663A (zh) * 2019-11-26 2020-04-21 华南理工大学 一种中文表单的智能校正方法
CN111046663B (zh) * 2019-11-26 2023-05-23 华南理工大学 一种中文表单的智能校正方法
CN111488466A (zh) * 2020-04-16 2020-08-04 清华大学 中文带标记错误语料生成方法、计算装置和存储介质
CN111488466B (zh) * 2020-04-16 2023-06-06 清华大学 中文带标记错误语料生成方法、计算装置和存储介质
US11537660B2 (en) 2020-06-18 2022-12-27 International Business Machines Corporation Targeted partial re-enrichment of a corpus based on NLP model enhancements
CN112560459A (zh) * 2020-12-04 2021-03-26 北京百度网讯科技有限公司 用于模型训练的样本筛选方法、装置、设备及存储介质
CN112560459B (zh) * 2020-12-04 2023-10-20 北京百度网讯科技有限公司 用于模型训练的样本筛选方法、装置、设备及存储介质
CN116226677A (zh) * 2023-05-09 2023-06-06 北京搜狐新媒体信息技术有限公司 平行语料构建方法及装置、存储介质及电子设备
CN116226677B (zh) * 2023-05-09 2023-07-14 北京搜狐新媒体信息技术有限公司 平行语料构建方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
KR101813683B1 (ko) 2017-12-29

Similar Documents

Publication Publication Date Title
WO2018034426A1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
WO2020009297A1 (ko) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
WO2017217661A1 (ko) 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
WO2020159232A1 (en) Method, apparatus, electronic device and computer readable storage medium for image searching
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2019177182A1 (ko) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
WO2011122724A1 (ko) 아밥 소스코드의 코드 검사를 수행하는 코드검사 수행시스템
WO2022203167A1 (en) Speech recognition method, apparatus, electronic device and computer readable storage medium
WO2022065811A1 (en) Multimodal translation method, apparatus, electronic device and computer-readable storage medium
WO2020197257A1 (ko) 가시적 표현 요소를 이용한 번역 방법 및 그 장치
WO2022005188A1 (en) Entity recognition method, apparatus, electronic device and computer readable storage medium
WO2018084581A1 (en) Method and apparatus for filtering a plurality of messages
WO2021049877A1 (en) Electronic apparatus for selecting ai assistant and response providing method thereof
WO2023172025A1 (ko) 시계열적 정보를 인코딩하는 모델을 사용하여 개체-쌍 사이의 연관성 관련 정보를 예측하는 방법 및 이를 이용하여 생성되는 예측 시스템
WO2018056779A1 (en) Method of translating speech signal and electronic device employing the same
WO2020141787A1 (ko) 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
WO2022191368A1 (ko) 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치
WO2022080659A1 (ko) 전자 장치 및 이의 제어 방법
WO2011068315A4 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
WO2023163405A1 (ko) 신용평가 모델 업데이트 또는 교체 방법 및 장치
WO2017094967A1 (ko) 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
WO2020141706A1 (en) Method and apparatus for generating annotated natural language phrases
WO2023101377A1 (en) Method and apparatus for performing speaker diarization based on language identification
WO2022131740A1 (en) Methods and systems for generating abbreviations for a target word
WO2015088291A1 (ko) 장문 번역 서비스 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17841610

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17841610

Country of ref document: EP

Kind code of ref document: A1