WO2023085499A1 - 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법 - Google Patents

분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법 Download PDF

Info

Publication number
WO2023085499A1
WO2023085499A1 PCT/KR2021/018452 KR2021018452W WO2023085499A1 WO 2023085499 A1 WO2023085499 A1 WO 2023085499A1 KR 2021018452 W KR2021018452 W KR 2021018452W WO 2023085499 A1 WO2023085499 A1 WO 2023085499A1
Authority
WO
WIPO (PCT)
Prior art keywords
classification
classifier
supplementary
priority
unit
Prior art date
Application number
PCT/KR2021/018452
Other languages
English (en)
French (fr)
Inventor
이경일
박상석
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Publication of WO2023085499A1 publication Critical patent/WO2023085499A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Definitions

  • the technical idea of the present invention relates to a text classification system, and specifically, to a text classification system that classifies collected input texts according to a desired purpose and organizes the input texts as meaningful data.
  • the present invention is derived from research conducted and conducted by Saltlux Co., Ltd. as part of the Innovation Growth Engine Project (Artificial Intelligence) project of the Ministry of Science and ICT. [Research period: 2021.01.01 ⁇ 2021.12.31, research management specialized institution: Information and Communication Planning and Evaluation Institute, research project title: [Exobrain 2 detailed task] WiseKB: development of self-learning knowledge base and reasoning technology based on big data understanding, Assignment identification number: 2013-2-00109-009]
  • a text classification system that integrates and classifies input texts is being actively studied.
  • Input text refers to texts that can be read in books, knowledge encyclopedias, and news.
  • a machine learning-based classification method can be applied to the text classification system.
  • a machine learning-based classification method learns a large amount of input texts including classification codes and classifies the input texts from the learned statistical results.
  • An object to be solved by the technical idea of the present invention is to provide a similar sentence search system that outputs a sentence similar to a sentence of a query with improved accuracy when a query is received from a user.
  • a text classification system includes a main classification unit configured to perform main classification on input texts based on machine learning, based on the classification result
  • a supplementary classification unit having a plurality of set classifiers and configured to perform supplementary classification on the input texts, an output generator configured to generate classification outputs from the main classification result and the supplementary classification result, and processing the classification outputs and an output processing unit configured to generate knowledge data.
  • the complementary classification unit is configured to manage a classifier priority management unit configured to manage first priorities of the plurality of classifiers and second priorities of rules of each of the plurality of classifiers. and a rule priority management unit, wherein the supplementary classification unit is configured to perform the supplementary classification based on the first and second priorities.
  • the supplementary classification unit lists the plurality of classifiers according to the first priority, lists the rules according to the second priority, and in order according to the list result. It is characterized in that it is configured to perform the supplementary classification by passing the input texts.
  • the rules are characterized in that they correspond to any one of keywords and patterns including word spaces.
  • the rules include a plurality of patterns, each of the plurality of patterns including a plurality of keywords and at least one word space between two of the plurality of keywords. And, at least some of the plurality of patterns are characterized in that the length is different.
  • the classifier priority management unit is configured to manage the first priority according to meta data corresponding to each of the input tests, and the rule priority management unit is configured to manage the first priority according to the metadata. and configured to manage the second priority.
  • an error detection unit configured to detect an error of the plurality of classifiers by comparing the classification outputs with correct answers, and a supplementary classification correction unit configured to modify the supplementary classification unit based on the error detection result. It is characterized by further including.
  • the error detection unit is configured to generate an identifier for identifying a classifier in which an error is detected among the plurality of classifiers
  • the supplementary classification correction unit is configured to generate an identifier corresponding to the identifier. It is characterized in that it is configured to modify the priority of the classifier or to modify the priority of the rules of the classifier subject to modification.
  • the supplementary classification correction unit may be configured to delete at least one of the rules in the classifier to be modified or add a new rule to the classifier to be modified.
  • a text classification method includes performing main classification on input texts based on machine learning, performing supplementary classification on the input texts, and the main classification result. and generating classification outputs from the supplementary classification result and generating knowledge data by processing the classification outputs, wherein the performing of the supplementary classification comprises arranging a plurality of classifiers according to a first priority. The step of arranging the rules of each of the plurality of classifiers according to a second priority, and passing the input texts in an order according to the result of the arranging.
  • comparing the classification outputs with correct answers generating an identifier for a classifier in which an error is detected based on the comparison result, and identifying a classifier to be corrected corresponding to the identifier.
  • the method may further include modifying priorities or priorities of rules of the classifier subject to modification.
  • the first and second priorities may be set for each metadata corresponding to each of the input texts.
  • each of the classification outputs is characterized in that it is composed of n (where n is an integer of 1 or more) bit data indicating whether or not the classification criterion is satisfied.
  • a text classification system includes a supplementary classification unit capable of supplementing the difficulty of modifying the machine learning-based main classification unit, and easily modifies the supplementary classification unit according to an error detection result. This has the effect of improving the reliability of the entire text classification system.
  • Effects obtainable in the exemplary embodiments of the present disclosure are not limited to the effects mentioned above, and other effects not mentioned above can be obtained from the general knowledge in the art to which the exemplary embodiments of the present disclosure belong from the following description. It can be clearly derived and understood by those who have it. That is, unintended effects according to the implementation of the exemplary embodiments of the present disclosure may also be derived by those skilled in the art from the exemplary embodiments of the present disclosure.
  • FIG. 1 is a block diagram showing a text classification system according to an exemplary embodiment of the present disclosure and an input/output relationship thereof.
  • FIG. 2A and 2B are diagrams for explaining the configuration and relationship between the main classification unit and the supplementary classification unit of FIG. 1 .
  • 3A and 3B are diagrams for explaining the operation of the first and second classifiers.
  • FIG. 4 is a diagram for explaining a supplementary classification operation of the first classifier of FIG. 3A.
  • FIG. 5A is a block diagram illustrating a supplementary classifier according to an exemplary embodiment of the present disclosure
  • FIG. 5B is a flowchart illustrating a supplementary classification operation of the supplementary classifier of FIG. 5A.
  • 6A to 6C are diagrams for explaining a supplementary classification operation in consideration of meta data according to an exemplary embodiment of the present disclosure.
  • FIGS. 7A to 7C are diagrams for explaining a method of modifying a supplementary classifier according to an exemplary embodiment of the present disclosure.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms may be used for the purpose of distinguishing one component from another. For example, a first element could be termed a second element, and similarly, a second element could be termed a first element, without departing from the scope of the present invention.
  • a component represented or described as a block may be a hardware block or a software block.
  • each of the components may be an independent hardware block that exchanges signals with each other, or may be a software block executed on a single processor.
  • a “system” or “database” may refer to a computing system including at least one processor and memory accessed by the processor.
  • the text classification system 100 described below includes a user terminal, a mobile phone, a smart phone, a desktop computer, a notebook computer, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia player (PMP), a navigation device, and a slate PC. ), a tablet PC, an ultrabook, a wearable device, a server, and the like.
  • PDA personal digital assistant
  • PMP portable multimedia player
  • slate PC slate PC
  • tablet PC an ultrabook
  • a wearable device a server, and the like.
  • the text classification system 100 may receive input texts 10, classify the input texts 10 into classification criteria desired by a user, and process the input texts 10 into meaningful data.
  • An interface may be provided so that the user can easily recognize the data when the user requests it.
  • the text classification system 100 may also be referred to as a machine learning-based text classification system.
  • the input texts 10 may refer to data including various types of texts.
  • text classification system 100 may collect input texts 10 over the Internet.
  • the input texts 10 may be texts (eg, comments, blogs, news articles, etc.) written in services provided by a specific Internet site, and provided by Wikipedia (Wikipedia.org). It may be informational texts, or may be texts written in a social network service.
  • the text classification system 100 may receive the input texts 10 through a local network or may receive the input texts 10 stored in a storage medium by accessing the storage medium. there is.
  • the text classification system 100 includes a preprocessing unit 110, a main classification unit 120, a supplementary classification unit 130, an output generation unit 140, an error detection unit 150, and a correct answer DB.
  • (DataBase) 160, a supplementary classification correction unit 170, an output processing unit 180, and a knowledge DB 190 may be included.
  • the pre-processor 110 filters the input texts 10 so that the main classification unit 120 and the supplementary classification unit 130 can easily classify the input texts 10. , preprocessing operations such as calibration can be performed.
  • a preprocessing unit (or 110) can be extracted.
  • a pattern may be defined as a sentence composed of a plurality of keywords and word spaces between the keywords.
  • a word space refers to a word that is not a keyword and is recognized as a space in the main classification unit 120 and the supplementary classification unit 130.
  • Word spaces may be defined in units such as syllables.
  • the "k1" keyword, the "k2” keyword, the "k3” keyword It can contain "word space 1", "word space 2" with length.
  • keywords and patterns may correspond to rules of each classifier of the supplementary classification unit 130 to be described later.
  • word spaces may include morpheme spaces.
  • the main classification unit 120 may perform a machine learning-based main classification operation on the input texts 10 .
  • the main classification unit 120 may perform a main classification operation using an artificial neural network (ANN).
  • An artificial neural network may refer to a structure that implements sets of interconnected neurons (or neuron models). An artificial neuron can generate output by performing simple operations on input texts 10, and the output can be passed as input to another neuron.
  • an artificial neural network may be referred to as a deep learning network, and includes a deep neural network (DNN), a convolution neural network (CNN), and a recurrent neural network (RNN). ), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), and Deep Q-Network.
  • the supplementary classification unit 130 is to supplement the main classification unit 120 and may perform a supplementary classification operation on the input texts 10 .
  • the supplementary classification unit 130 may include a plurality of classifiers for supplementary classification operation.
  • the plurality of classifiers may be of the same or different types.
  • some of the plurality of classifiers may be white list classifiers, and others may be black list classifiers.
  • the white list classifier passes input texts that meet its own rules and then classifies the passed input texts, and the black list classifier blocks input texts that meet its own rules and then classifies the remaining input texts.
  • the supplementary classifier 130 may perform a supplementary classification operation based on a first priority for a plurality of classifiers and a second priority for each rule of the plurality of classifiers.
  • the first priority and the second priority may be managed for each metadata corresponding to each of the input texts 10 . Details about this will be described later.
  • the output generator 140 may generate classification outputs from the main classification result from the main classification unit 120 and the supplementary classification result from the supplementary classification unit 130 .
  • the classification output may be composed of n (where n is an integer of 1 or more) bit data indicating whether or not the classification criterion is satisfied. For example, when the classification criterion is whether input text corresponding to a comment on a movie-related Internet news article indicates a positive response to the movie, the classification output has a value of '1' when it is classified as a positive response. , can have a value of '0' when classified as negative.
  • the error detection unit 150 compares the classification results received from the output generation unit 140 with the correct answers stored in the answer DB 160, and classifiers of the supplementary classification unit 130 based on the comparison result.
  • An identifier for a classifier in which an error is detected may be generated.
  • the supplementary classification correction unit 170 may modify the priority of the classifier to be corrected corresponding to the identifier generated by the error detection unit 150 or the priority of the rules of the classifier to be corrected. As a result, the supplementary classification correction unit 170 may modify the above-described first priority or second priority of the supplementary classification unit 130 . In addition, the supplementary classification correction unit 170 may update rules by deleting some of the rules of the classifier to be modified or adding new rules, and may modify or set priorities for the updated rules. A specific example of this will be described later with reference to FIG. 7C.
  • the supplementary classification correction unit 170 is a supplementary classification unit (based on the detection result of the error detection unit 150 so that the input texts that are not properly classified in the main classification unit 120 can be properly classified). 130) can be modified.
  • the output processing unit 180 may process the classification outputs received from the output generation unit 140 into knowledge data that can be easily checked by a user, and the processed knowledge data may be stored in the knowledge DB 190. can be stored in In some embodiments, when a user requests knowledge data for the input texts 10, the text classification system 100 reads the knowledge data from the knowledge DB 190 and provides the knowledge data to the user through a predetermined interface. can
  • the text classification system 100 includes a supplementary classification unit 130 capable of supplementing the difficulty of modifying the machine learning-based main classification unit 120, By easily modifying the supplementary classification unit 130 according to the error detection result, reliability of the entire text classification system 100 can be improved.
  • FIG. 2A and 2B are diagrams for explaining the configuration and relationship between the main classification unit 120 and the supplementary classification unit 130 of FIG. 1 .
  • the main classifier 120 may include a deep learning network 121.
  • the deep learning network 121 may be built through learning to classify sample texts based on various classification criteria.
  • the deep learning network 121 is modeled and built in advance, and it may be difficult to correct it immediately if the user does not properly perform the desired classification.
  • the supplementary classification unit 130 may operate in conjunction with the main classification unit 120 .
  • the supplementary classifier 130 may include first to m classifiers 130_1 to 130_m.
  • the supplementary classification unit 130 is located at the rear end of the main classification unit 120 and may perform a supplementary classification operation as a post-processing operation for the output of the main classification unit 120 .
  • the main classification unit 120 may main classify the input texts TEXT_IN using the deep learning network 121 and output the main classification result RS1 to the supplementary classification unit 130 .
  • the supplementary classification unit 130 may perform a supplementary classification operation on the main classification result RS1 to correctly correct and classify input texts incorrectly classified by the main classifier 120 .
  • the supplementary classification unit 130 lists the first to m-th classifiers 130_1 to 130_m based on the first priority, and the first to m-th classifiers 130_1 based on the second priority. ⁇ 130_m) of each rule can be listed.
  • the supplementary classification unit 130 may perform a supplementary classification operation by passing the main classification result RS1 in order according to the list result.
  • the supplementary classifier 130 may output a supplementary classification result RS2 by performing a supplementary classification operation.
  • the supplementary classification unit 130 may be located in front of the main classification unit 120 and perform a supplementary classification operation as a preprocessing operation for the input of the main classification unit 120 .
  • the supplementary classifier 130 supplementarily classifies the input texts TEXT_IN using the first to m-th classifiers 130_1 to 130_m, and sends the supplementary classification result RS1' to the main classifier 120. can be printed out.
  • the main classification unit 120 may perform a main classification operation on the supplementary classification result RS1' using the deep learning network 121 and output the main classification result RS2'.
  • the main classification unit 120 and the supplementary classification unit 130 receive the input texts TEXT_IN in parallel, and perform the main classification operation and the supplementary classification. Each operation can be performed in parallel.
  • 3A and 3B are diagrams for explaining the operation of the first and second classifiers 130_1 and 130_2.
  • the embodiment of FIG. 2A and an example in which the supplementary classifier includes the first and second classifiers 130_1 and 130_2 will be mainly described.
  • the first classifier 130_1 includes a first rule group as a white list classifier, and the first rule group may include keywords or patterns 'A', 'B', and 'C'. .
  • the first classifier 130_1 may receive the main classification result RS1 including the first to third input texts T_A, T_B, and T_C and classification outputs each having a value of '0'.
  • the first input text T_A may include the 'A' pattern
  • the second input text T_B may include the 'B' pattern
  • the third input text T_C may include the 'C' pattern.
  • the first classifier 130_1 applies a first rule group to the main classification result RS1 to supplement the first to third input texts T_A, T_B, T_C and classification outputs each having a value of '1'.
  • the classification result (RS2) can be output.
  • the second classifier 130_2 includes a second rule group as a black list classifier, and the second rule group may include keywords or patterns 'D', 'E', and 'F'.
  • the second classifier 130_2 may receive the main classification result RS1 including the fourth to sixth input texts T_D, T_E, and T_F and classification outputs each having a value of '1'.
  • the fourth input text T_D may include the 'D' pattern
  • the fifth input text T_E may include the 'E' pattern
  • the sixth input text T_F may include the 'F' pattern.
  • the second classifier 130_2 applies the second rule group to the main classification result RS1 to supplement the fourth to sixth input texts T_D, T_E, T_F and classification outputs each having a '0' value.
  • the classification result (RS2) can be output.
  • FIG. 4 is a diagram for explaining a supplementary classification operation of the first classifier 130_1 of FIG. 3A.
  • the first classifier 130_1 may perform a supplementary classification operation on input texts using rules (A, B, and C) according to a predetermined priority.
  • the first classifier 130_1 may list rules in the order of 'A', 'B', and 'C' and classify the input text in the order of listing.
  • the lengths of 'A', 'B', and 'C' may be different, and the length of each rule may be considered in determining the priority.
  • the priorities of the rules A, B, and C of the first classifier 130_1 may be modified, and details thereof will be described later.
  • FIG. 5A is a block diagram illustrating a supplementary classifier 130 according to an exemplary embodiment of the present disclosure
  • FIG. 5B is a flowchart illustrating a supplementary classification operation of the supplementary classifier 130 of FIG. 5A.
  • the supplementary classification unit 130 may include a first classifier 130_1, a second classifier 130_2, and a supplementary classification control unit 132.
  • the configuration example of the supplementary classifier 130 is only an example, and is not limited thereto, and it is clear that the technical concept of the present disclosure can be applied to a supplementary classifier including more classifiers.
  • the first classifier 130_1 may include rules (R11, R21, ⁇ , Rn1) in the first rule group, and the second classifier 130_2 may include rules (Rn) in the second rule group.
  • R12, R22, ⁇ , Rm2) may be included.
  • the supplementary classification control unit 132 may include a classifier priority management unit 132_1 and a rule priority management unit 132_2.
  • the classifier priority manager 132_1 may manage the priorities of the first classifier 130_1 and the second classifier 130_2.
  • the classifier priority management unit 132_1 may manage the first classifier 130_1 with a higher priority than the second classifier 130_2, and thus, the first classifier 130_1 may replace the second classifier 130_2.
  • Priority may be given to the classification operation.
  • the rule priority manager 132_2 determines the priorities of the rules R11, R21, , and Rn1 of the first classifier 130_1 and the priorities of the rules R12, R22, , and Rm2 of the second classifier 130_2. You can manage your ranking.
  • the supplementary classification unit 130 lists the classifiers 130_1 and 130_2 based on the priority set by the classifier priority management unit 132_1, and priorities set by the rule priority management unit 132_2. After listing the rules (R11, R21, Rn1, R21, Rn1/R12, R22, R22, Rm2) in the classifiers 130_1 and 130_2 based on the ranking, the input texts are passed in order according to the list result to perform a supplementary classification operation. can be done
  • the supplementary classification unit 130 may determine a coarse classification order for the classifiers 130_1 and 130_2 based on the classifier priority by the classifier priority management unit 132_1. there is.
  • step S110 the supplementary classification unit 130 determines the rules R11, R21, Rn1/R12, R22, Rn1/R12, R22, It is possible to determine a fine classification order for Rm2).
  • the supplementary classification unit 130 may classify the input texts according to the determined classification orders.
  • 6A to 6C are diagrams for explaining a supplementary classification operation in consideration of meta data according to an exemplary embodiment of the present disclosure.
  • meta data may include categories of input text.
  • meta data indicates a category of a movie in a movie-related Internet news article, and may have values indicating 'drama', 'animation', 'fantasy', and the like.
  • meta data may also include indices by which input texts can be identified.
  • meta data when the meta data is 'drama' and 'animation', the age group, taste, gender, etc. who write comments on movie-related Internet news articles may be different, and accordingly, a method of expressing a positive or negative reaction this may be different. Accordingly, meta data needs to be considered for classifying input texts, and the complementary classifier of the present invention has first priority of classifiers and second priority of rules of each classifier based on meta data of input texts. A ranking can be set or determined.
  • classifier listing may refer to a state in which a plurality of classifiers are listed according to a predetermined priority.
  • the arrangement of classifiers for each meta data may be managed differently, and this may be interpreted as being equivalent to managing the first priority of classifiers differently for each meta data.
  • rule listing may refer to a state in which rules included in each of the classifiers are listed according to a predetermined priority order. Rule enumeration may be managed differently for each meta data, which may be interpreted as being equivalent to managing the second priorities of rules included in each of the classifiers differently for each meta data.
  • a supplementary classification operation to which the first classifier list CL1 is applied may be performed on the input texts corresponding to the first meta data M1.
  • a supplementary classification operation to which the second classifier list CL2 is applied may be performed on the input texts corresponding to the second meta data M2.
  • a supplementary classification operation to which the third classifier enumeration CL3 is applied may be performed on the input texts corresponding to the third meta data M3.
  • a supplementary classification operation to which the first rule enumeration RL11 is applied is applied to the input texts corresponding to the first meta data M1 in relation to the first classifier C1.
  • a supplementary classification operation to which the second rule list RL21 is applied may be performed on the input texts corresponding to the second meta data M2.
  • a supplementary classification operation to which the third rule list RL31 is applied may be performed on input texts corresponding to the third meta data M3.
  • a supplementary classification operation to which the fourth rule enumeration RL12 is applied may be performed on the input texts corresponding to the first meta data M1.
  • a supplementary classification operation to which the fifth rule list RL22 is applied may be performed on the input texts corresponding to the second meta data M2.
  • a supplementary classification operation to which the sixth rule list RL32 is applied may be performed on the input texts corresponding to the third meta data M3.
  • FIGS. 6A and 6B examples of managing the priorities of classifiers or rules differently for each meta data are mainly shown, but the present invention is not limited thereto, and the technical idea of the present invention is a complementary classification operation among classifiers for each meta data.
  • Classifiers participating in may be selected differently, and among rules included in each of the selected classifiers, rules participating in the supplementary classification operation may be selected differently.
  • the supplementary classification unit may determine a coarse classification order for classifiers based on metadata corresponding to input texts.
  • the supplementary classification unit may list classifiers to conform to the list of classifiers set in meta data corresponding to the input texts by referring to the first table TB1 of FIG. 6A .
  • the supplementary classification unit may determine a fine classification order for rules of each of the classifiers based on metadata corresponding to the input texts.
  • the supplementary classifier may list rules of each of the classifiers in accordance with rules set in meta data corresponding to the input texts by referring to the second table TB2 of FIG. 6B .
  • the supplementary classifier may classify the input texts according to the classification order determined through steps S200 and S210 in consideration of metadata of the input texts.
  • FIGS. 7A to 7C are diagrams for explaining a method of modifying a supplementary classifier according to an exemplary embodiment of the present disclosure.
  • FIG. 7A is a flowchart for explaining an operating embodiment of the error detection unit 150 and the supplementary classification correction unit 170 of FIG. 1 for correcting the supplementary classification unit.
  • the error detection unit 150 may compare classification outputs with correct answers.
  • the error detection unit 150 (FIG. 1) may generate an error occurrence identifier based on the comparison result.
  • the supplementary classification correction unit 170 may correct the corresponding classifier based on the error occurrence classifier identifier.
  • FIG. 7B shows a third table TB3 including an error occurrence classifier identifier as an error detection result for classifiers.
  • the error detection unit 150 may generate an error occurrence classifier identifier indicating a classifier that classifies the input text as a classification output having an incorrect value, as shown in the third table TB3 .
  • error occurrence classifier identifiers CI1 and CI2 indicating a causative classifier may be generated.
  • the supplementary classification correction unit 170 may check the erroneous classifier identifiers CI1 and CI2 and perform a correction operation on the identified classifiers.
  • Figure 7c shows pictures (a) to (c) for explaining various methods of modifying the supplementary classifier. In the following, embodiments modified from the example of FIG. 4 are described.
  • the supplementary classification correction unit 170 (FIG. 1) corrects the priorities shown in FIG. 4 as shown in (a) to 'B' and 'A' of the first classifier 130_1 (FIG. 3A). , rules are listed in the order of 'C', and the supplementary classification unit 130 may classify the input texts in the order listed.
  • the supplementary classification correction unit 170 (FIG. 1) adds a new rule G to the rules A, B, and C shown in FIG. 4 as shown in FIG. By arranging the rules in the order of 'A', 'B', 'C', and 'G' of , the supplementary classification unit 130 may classify the input texts in the listed order.
  • the supplementary classification correction unit 170 (FIG. 1) corrects the priorities shown in FIG. 4 as shown in (a) to 'B' and 'A' of the first classifier 130_1 (FIG. 3A). , rules are listed in the order of 'C', and the supplementary classification unit 130 may classify
  • the supplementary classification unit 130 may classify the input texts in the listed order.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 기술적 사상의 일측면에 따라 텍스트 분류 시스템은, 기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하도록 구성된 메인 분류부, 상기 분류 결과를 기반으로 설정된 복수의 분류기들을 구비하고, 상기 입력 텍스트들에 대한 보완 분류를 수행하도록 구성된 보완 분류부, 상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하도록 구성된 출력 생성부 및 상기 분류 출력들을 가공하여 지식 데이터를 생성하도록 구성된 출력 가공부를 포함한다.

Description

분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법
본 발명의 기술적 사상은 텍스트 분류 시스템에 관한 것으로, 구체적으로는, 수집된 입력 텍스트들을 원하는 목적에 맞게 분류하여 입력 텍스트들을 의미있는 데이터로서 정리하는 텍스트 분류 시스템에 관한 것이다.
본 발명은 과학기술정보통신부의 혁신성장동력 프로젝트(인공지능) 사업의 일환으로 (주)솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2021.01.01~2021.12.31, 연구관리 전문기관: 정보통신기획평과원, 연구과제명:[엑소브레인2 세부과제]WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 2013-2-00109-009]
입력 텍스트들을 통합하여 분류하는 텍스트 분류 시스템에 관하여 활발하게 연구되고 있다. 입력 텍스트는 책, 지식 백과, 뉴스 등에서 읽을 수 있는 글들을 의미한다. 텍스트 분류 시스템에는 기계 학습 기반 분류 방법이 적용될 수 있다. 머신 러닝 기반 분류 방법은 분류 코드가 포함된 대량의 입력 텍스트들을 학습하고, 학습된 통계 결과로부터 입력 텍스트들을 분류한다.
종래의 기계 학습 기반 분류 방법은 텍스트 분류 시스템 내의 분류기에 오류가 발생하여도 오류를 검출하고, 오류를 수정하기가 어려워 분류 결과에 대한 신뢰성이 낮을 수 있다. 이에 따라, 기계 학습 기반 분류 방법의 신뢰성을 개선하기 위한 다양한 연구가 진행되고 있다.
본 발명의 기술적 사상이 해결하려는 과제는 사용자로부터 질의를 수신하였을 때, 질의의 문장과 유사한 문장을 향상된 정확도로 출력하는 유사 문장 검색 시스템을 제공함에 있다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상의 일측면에 따라 텍스트 분류 시스템은, 기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하도록 구성된 메인 분류부, 상기 분류 결과를 기반으로 설정된 복수의 분류기들을 구비하고, 상기 입력 텍스트들에 대한 보완 분류를 수행하도록 구성된 보완 분류부, 상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하도록 구성된 출력 생성부 및 상기 분류 출력들을 가공하여 지식 데이터를 생성하도록 구성된 출력 가공부를 포함한다.
본 발명의 예시적 실시예에 따라, 상기 보완 분류부는, 상기 복수의 분류기들의 제1 우선 순위를 관리하도록 구성된 분류기 우선 순위 관리부 및 상기 복수의 분류기들 각각의 규칙들의 제2 우선 순위를 관리하도록 구성된 규칙 우선 순위 관리부를 포함하고, 상기 보완 분류부는, 상기 제1 및 제2 우선 순위를 기반으로 상기 보완 분류를 수행하도록 구성된 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 보완 분류부는, 상기 제1 우선 순위에 따라 상기 복수의 분류기들을 나열하고, 상기 제2 우선 순위에 따라 상기 규칙들을 나열하며, 상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시켜 상기 보완 분류를 수행하도록 구성된 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 규칙들은, 단어 공백이 포함된 패턴 및 키워드 중 어느 하나에 해당하는 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 규칙들은, 복수의 패턴들을 포함하고, 상기 복수의 패턴들 각각은, 복수의 키워드들 및 상기 복수의 키워드들 중 둘 사이의 적어도 하나의 단어 공백을 포함하며, 상기 복수의 패턴들 중 적어도 일부는 길이가 상이한 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 분류기 우선 순위 관리부는, 상기 입력 테스트들 각각에 대응하는 메타 데이터 별로 상기 제1 우선 순위를 관리하도록 구성되고, 상기 규칙 우선 순위 관리부는, 상기 메타 데이터 별로 상기 제2 우선 순위를 관리하도록 구성된 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 분류 출력들과 정답들을 비교하여 상기 복수의 분류기들의 오류를 검출하도록 구성된 오류 검출부 및 상기 오류 검출 결과를 기반으로 상기 보완 분류부를 수정하도록 구성된 보완 분류 수정부를 더 포함하는 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 오류 검출부는, 상기 복수의 분류기들 중 오류가 검출된 분류기를 식별하기 위한 식별자를 생성하도록 구성되고, 상기 보완 분류 수정부는, 상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위를 수정하거나, 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하도록 구성된 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 보완 분류 수정부는, 상기 수정 대상 분류기 내의 상기 규칙들 중 적어도 하나를 삭제하거나, 새로운 규칙을 상기 수정 대상 분류기에 추가하도록 구성된 것을 특징으로 한다.
본 발명의 기술적 사상의 다른 일측면에 따른 텍스트 분류 방법은, 기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하는 단계, 상기 입력 텍스트들에 대한 보완 분류를 수행하는 단계, 상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하는 단계 및 상기 분류 출력들을 가공하여 지식 데이터를 생성하는 단계를 포함하고, 상기 보완 분류를 수행하는 단계는, 복수의 분류기들을 제1 우선 순위에 따라 나열하는 단계, 상기 복수의 분류기들 각각의 규칙들을 제2 우선 순위에 따라 나열하는 단계 및 상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시키는 단계를 포함하는 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 분류 출력들과 정답들을 비교하는 단계, 상기 비교 결과를 기반으로 오류가 검출된 분류기에 대한 식별자를 생성하는 단계, 상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위 또는 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 제1 및 제2 우선 순위는, 상기 입력 텍스트들 각각에 대응하는 메타 데이터 별로 설정된 것을 특징으로 한다.
본 발명의 예시적 실시예에 따라, 상기 분류 출력들 각각은, 분류 기준에 부합하는지 여부를 나타내는 n(단, n은 1이상의 정수)비트 데이터로 구성된 것을 특징으로 한다.
본 개시의 예시적 실시예에 따른 텍스트 분류 시스템은 기계 학습 기반 메인 분류부에 대한 수정이 어려운 점을 감안하여 이를 보완할 수 있는 보완 분류부를 포함하고, 보완 분류부를 오류 검출 결과에 따라 용이하게 수정함으로써 전체적인 텍스트 분류 시스템의 신뢰성을 개선할 수 있는 효과가 있다.
본 개시의 예시적 실시 예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 아니하며, 언급되지 아니한 다른 효과들은 이하의 기재로부터 본 개시의 예시적 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 개시의 예시적 실시예들을 실시함에 따른 의도하지 아니한 효과들 역시 본 개시의 예시적 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
도 1은 본 개시의 예시적 실시예에 따른 텍스트 분류 시스템 및 그의 입출력 관계를 나타내는 블록도이다.
도 2a 및 도 2b는 도 1의 메인 분류부와 보완 분류부의 구성 및 관계를 설명하기 위한 도면이다.
도 3a 및 도 3b는 제1 및 제2 분류기의 동작을 설명하기 위한 도면이다.
도 4는 도 3a의 제1 분류기의 보완 분류 동작을 설명하기 위한 도면이다.
도 5a는 본 개시의 예시적 실시예에 따른 보완 분류부를 나타내는 블록도이고, 도 5b는 도 5a의 보완 분류부의 보완 분류 동작을 설명하기 위한 순서도이다.
도 6a 내지 도 6c는 본 개시의 예시적 실시예에 따라 메타 데이터를 고려한 보완 분류 동작을 설명하기 위한 도면들이다.
도 7a 내지 도 7c는 본 개시의 예시적 실시예에 따라 보완 분류부를 수정하는 방법을 설명하기 위한 도면들이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다. 본 발명의 실시예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 벗어나지 않으면서, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하 도면 및 설명에서, 하나의 블록으로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다. 또한, 본 명세서에서 "시스템" 또는 "데이터베이스"는 적어도 하나의 프로세서 및 프로세서에 의해서 액세스되는 메모리를 포함하는 컴퓨팅 시스템을 지칭할 수 있다.
도 1은 본 개시의 예시적 실시예에 따른 텍스트 분류 시스템(100) 및 그의 입출력 관계를 나타내는 블록도이다. 이하에서 서술되는 텍스트 분류 시스템(100)은 유저 단말, 휴대폰, 스마트 폰, 데스크 탑, 노트북 컴퓨터, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device), 서버 등에 적용될 수 있다.
도 1을 참조하면, 텍스트 분류 시스템(100)은 입력 텍스트들(10)을 수신할 수 있고, 입력 텍스트들(10)을 사용자가 원하는 분류 기준들로 분류하여 유의미한 데이터들로 가공할 수 있으며, 사용자가 요청하는 때에 데이터들을 사용자가 용이하게 인지할 수 있도록 인터페이스를 제공할 수 있다. 본 명세서에서 텍스트 분류 시스템(100)은 기계 학습 기반 텍스트 분류 시스템으로도 지칭될 수 있다.
입력 텍스트들(10)은 다양한 종류의 텍스트들을 포함하는 데이터를 지칭할 수 있다. 일부 실시예에서, 텍스트 분류 시스템(100)은 인터넷을 통해서 입력 텍스트들(10)을 수집할 수 있다. 예를 들면, 입력 텍스트들(10)은 특정 인터넷 사이트에서 제공하는 서비스들에서 작성된 텍스트들(예를 들면, 댓글, 블로그, 뉴스 기사 등)일 수 있고, 위키백과(Wikipedia.org)에서 제공하는 정보 텍스트들일 수 있고, 소셜 네트워크 서비스에서 작성된 텍스트들일 수 있다. 또한, 일부 실시예들에서, 텍스트 분류 시스템(100)은 로컬 네트워크를 통해서 입력 텍스트들(10)을 수신할 수 있고, 저장 매체에 액세스함으로써 저장 매체에 저장된 입력 텍스트들(10)을 수신할 수도 있다.
도 1에 도시된 바와 같이, 텍스트 분류 시스템(100)은 전처리부(110), 메인 분류부(120), 보완 분류부(130), 출력 생성부(140), 오류 검출부(150), 정답 DB(DataBase)(160), 보완 분류 수정부(170), 출력 가공부(180) 및 지식 DB(190)를 포함할 수 있다.
예시적 실시예로, 전처리부(110)는 메인 분류부(120) 및 보완 분류부(130)가 입력 텍스트들(10)에 대한 분류를 용이하게 할 수 있도록 입력 텍스트들(10)에 대한 필터링, 교정 등의 전처리 동작을 수행할 수 있다. 일부 실시예들에서, 입력 텍스트들(10)에 포함된 키워드들, 패턴들(또는, 정규 표현식)들을 메인 분류부(120) 및 보완 분류부(130)가 용이하게 인식할 수 있도록 전처리부(110)에 의해 추출될 수 있다. 본 명세서에서 패턴은 복수의 키워드들과 키워드들 사이의 단어 공백으로 구성된 문장으로 정의될 수 있다. 본 명세서에서 단어 공백은 키워드가 아닌 단어로서 메인 분류부(120) 및 보완 분류부(130)에서는 공백으로 인식되는 것을 지칭한다. 일 예로, "(k1)(단어 공백)(k2)"로 구성된 패턴의 경우, "k1" 키워드와 "k2" 키워드, 이들 사이의 소정의 길이를 갖는 "단어 공백"을 포함할 수 있다. 단어 공백은 음절 등의 단위로 정의될 수 있다. 다른 예로, "(k1)(단어 공백 1)(k2)(단어 공백 2)(k3)"로 구성된 패턴의 경우, "k1" 키워드, "k2" 키워드, "k3" 키워드, 이들 사이의 소정의 길이를 갖는 "단어 공백 1", "단어 공백 2"을 포함할 수 있다. 한편, 키워드 및 패턴은 후술될 보완 분류부(130)의 분류기들 각각의 규칙에 해당될 수 있다. 한편, 일부 실시예에서 단어 공백은 형태소 공백을 포함할 수 있다.
예시적 실시예로, 메인 분류부(120)는 입력 텍스트들(10)에 대하여 기계 학습 기반 메인 분류 동작을 수행할 수 있다. 일 예로, 메인 분류부(120)는 인공 신경망(Artificial Neural Network: ANN)을 사용하여 메인 분류 동작을 수행할 수 있다. 인공 신경망은 뉴런(neuron)(또는, 뉴런 모델)들이 상호 연결된 집합들을 구현하는 구조를 지칭할 수 있다. 인공 뉴런은 입력 텍스트들(10)에 대한 단순 연산들을 수행함으로써 출력을 생성할 수 있고, 출력은 다른 뉴런에 입력으로서 전달될 수 있다. 한편, 인공 신경망(ANN)은 딥 러닝(deep learning) 네트워크로서 지칭될 수 있고, 심층 신경망(Deep Neural Network; DNN), 합성곱 신경망(Convolution Neural Network; CNN), 순환 신경망(Recurrent Neural Network; RNN), 제한 볼츠만 머신(Restricted Boltzmann Machine; RBM), 심층 신뢰 신경망(Deep Belief Network; DBN), 심층 Q-네트워크(Deep Q-Network)를 포함할 수도 있다.
예시적 실시예로, 보완 분류부(130)는 메인 분류부(120)를 보완하기 위한 것으로, 입력 텍스트들(10)에 대한 보완 분류 동작을 수행할 수 있다. 보완 분류부(130)는 보완 분류 동작을 위해 복수의 분류기들을 포함할 수 있다. 일부 실시예들에서, 복수의 분류기들은 동일 또는 상이한 종류일 수 있다. 예를 들어, 복수의 분류기들 중 일부는 화이트 리스트 분류기일 수 있고, 다른 일부는 블랙 리스트 분류기일 수 있다. 화이트 리스트 분류기는 자신의 규칙들에 부합하는 입력 텍스트들을 통과시킨 후에 통과된 입력 텍스트들을 분류하고, 블랙 리스트 분류기는 자신의 규칙들에 부합하는 입력 텍스트들을 차단시킨 후에 나머지 입력 텍스트들을 분류하는 동작을 수행할 수 있다. 예시적 실시예로, 보완 분류부(130)는 복수의 분류기들에 대한 제1 우선 순위 및 복수의 분류기들 각각의 규칙들에 대한 제2 우선 순위를 기반으로 보완 분류 동작을 수행할 수 있다. 일부 실시예들에서, 제1 우선 순위와 제2 우선 순위는 입력 텍스트들(10) 각각에 대응하는 메타 데이터 별로 관리될 수 있다. 이에 대한 구체적인 내용은 후술한다.
예시적 실시예로, 출력 생성부(140)는 메인 분류부(120)로부터의 메인 분류 결과 및 보완 분류부(130)로부터의 보완 분류 결과로부터 분류 출력들을 생성할 수 있다. 본 명세서에서 분류 출력은 분류 기준에 부합하는지 여부를 나타내는 n(단, n은 1이상의 정수)비트 데이터로 구성될 수 있다. 예를 들어, 영화 관련 인터넷 뉴스 기사의 댓글에 해당하는 입력 텍스트가 영화에 대한 긍정적 반응을 나타내는 내용인지 여부가 분류 기준에 해당되는 때에, 분류 출력은 긍정적 반응으로 분류된 때에는 '1' 값을 갖고, 부정으로 분류된 때에는 '0' 값을 가질 수 있다.
예시적 실시예로, 오류 검출부(150)는 출력 생성부(140)로부터 수신된 분류 결과들을 정답 DB(160)에 저장된 정답들과 비교하여 비교 결과를 기반으로 보완 분류부(130)의 분류기들 중 오류가 검출된 분류기에 대한 식별자를 생성할 수 있다.
예시적 실시예로, 보완 분류 수정부(170)는 오류 검출부(150)에서 생성된 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위 또는 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정할 수 있다. 그 결과, 보완 분류 수정부(170)는 보완 분류부(130)의 전술된 제1 우선 순위 또는 제2 우선 순위를 수정할 수 있다. 또한, 보완 분류 수정부(170)는 수정 대상 분류기의 규칙들 중 일부를 삭제하거나, 새로운 규칙을 추가함으로써 규칙들을 업데이트할 수 있으며, 업데이트된 규칙들에 대한 우선 순위를 수정 또는 설정할 수 있다. 이에 대한 구체적인 예는 도 7c에서 후술한다.
일부 실시예들에서, 보완 분류 수정부(170)는 메인 분류부(120)에서 적절하게 분류하지 못한 입력 텍스트들이 적절하게 분류될 수 있도록 오류 검출부(150)의 검출 결과를 기반으로 보완 분류부(130)를 수정할 수 있다.
예시적 실시예로, 출력 가공부(180)는 출력 생성부(140)로부터 수신된 분류 출력들을 사용자가 용이하게 확인할 수 있는 지식 데이터로 가공할 수 있으며, 가공된 지식 데이터를 지식 DB(190)에 저장힐 수 있다. 일부 실시예들에 있어서, 사용자가 입력 텍스트들(10)에 대한 지식 데이터를 요청하는 때에 텍스트 분류 시스템(100)은 지식 DB(190)로부터 지식 데이터를 리드하여 사용자에게 소정의 인터페이스를 통해 제공할 수 있다.
본 발명의 예시적 실시예들에 따른 텍스트 분류 시스템(100)은 기계 학습 기반 메인 분류부(120)에 대한 수정이 어려운 점을 감안하여 이를 보완할 수 있는 보완 분류부(130)를 포함하고, 보완 분류부(130)를 오류 검출 결과에 따라 용이하게 수정함으로써 전체적인 텍스트 분류 시스템(100)의 신뢰성을 개선할 수 있는 효과가 있다.
도 2a 및 도 2b는 도 1의 메인 분류부(120)와 보완 분류부(130)의 구성 및 관계를 설명하기 위한 도면이다.
도 2a를 참조하면, 메인 분류부(120)는 딥 러닝 네트워크(121)를 포함할 수 있다. 딥 러닝 네트워크(121)는 다양한 분류 기준들을 기반으로 샘플 텍스트들을 분류하는 학습을 통해 구축된 상태일 수 있다. 딥 러닝 네트워크(121)는 미리 모델링되어 구축된 것으로서 사용자가 원하는 분류를 제대로 수행하지 못하는 경우에 즉각적인 수정이 어려울 수 있다. 이러한 문제를 개선하기 위해 보완 분류부(130)는 메인 분류부(120)와 연계하여 동작할 수 있다.
예시적 실시예로, 보완 분류부(130)는 제1 내지 제m 분류기(130_1~130_m)를 포함할 수 있다. 보완 분류부(130)는 메인 분류부(120)의 후단에 위치하여 메인 분류부(120)의 출력에 대한 후처리 동작으로서 보완 분류 동작을 수행할 수 있다. 구체적으로, 메인 분류부(120)는 딥 러닝 네트워크(121)를 이용하여 입력 텍스트들(TEXT_IN)을 메인 분류하고, 메인 분류 결과(RS1)를 보완 분류부(130)로 출력할 수 있다. 보완 분류부(130)는 메인 분류 결과(RS1)에 대하여 보완 분류 동작을 수행하여 메인 분류기(120)가 잘못 분류한 입력 텍스트들을 옳게 정정하여 분류할 수 있다.
예시적 실시예로, 보완 분류부(130)는 제1 우선 순위를 기반으로 제1 내지 제m 분류기(130_1~130_m)를 나열하고, 제2 우선 순위를 기반으로 제1 내지 제m 분류기(130_1~130_m)의 각각의 규칙들을 나열할 수 있다. 보완 분류부(130)는 메인 분류 결과(RS1)를 나열 결과에 따른 순서대로 통과시킴으로써 보완 분류 동작을 수행할 수 있다. 보완 분류부(130)는 보완 분류 동작을 수행하여 보완 분류 결과(RS2)를 출력할 수 있다.
도 2b를 더 참조하면, 보완 분류부(130)는 메인 분류부(120)의 전단에 위치하여 메인 분류부(120)의 입력에 대한 전처리 동작으로서 보완 분류 동작을 수행할 수 있다. 구체적으로, 보완 분류부(130)는 제1 내지 제m 분류기(130_1~130_m)를 이용하여 입력 텍스트들(TEXT_IN)을 보완 분류하고, 보완 분류 결과(RS1')를 메인 분류부(120)로 출력할 수 있다. 메인 분류부(120)는 보완 분류 결과(RS1')에 대하여 딥 러닝 네트워크(121)를 이용하여 메인 분류 동작을 수행하고, 메인 분류 결과(RS2')를 출력할 수 있다.
다만, 이는 예시적 실시예들에 불과하며, 이에 국한되지 않고, 메인 분류부(120)와 보완 분류부(130)는 병렬적으로 입력 텍스트들(TEXT_IN)을 수신하고, 메인 분류 동작과 보완 분류 동작을 각각 병렬적으로 수행할 수 있다.
도 3a 및 도 3b는 제1 및 제2 분류기(130_1, 130_2)의 동작을 설명하기 위한 도면이다. 이하에서는, 도 2a의 실시예와 보완 분류부가 제1 및 제2 분류기(130_1, 130_2)를 포함하는 예시를 중심으로 서술한다.
도 3a를 참조하면, 제1 분류기(130_1)는 화이트 리스트 분류기로서 제1 규칙 그룹을 포함하며, 제1 규칙 그룹은 키워드 또는 패턴인 'A', 'B' 및 'C'를 포함할 수 있다. 일 예로, 제1 분류기(130_1)는 제1 내지 제3 입력 텍스트(T_A, T_B, T_C)와 각각의 '0' 값을 갖는 분류 출력을 포함하는 메인 분류 결과(RS1)를 수신할 수 있다. 제1 입력 텍스트(T_A)에는 'A' 패턴이 포함되고, 제2 입력 텍스트(T_B)에는 'B' 패턴이 포함되며, 제3 입력 텍스트(T_C)에는 'C' 패턴이 포함될 수 있다. 제1 분류기(130_1)는 메인 분류 결과(RS1)에 제1 규칙 그룹을 적용하여 제1 내지 제3 입력 텍스트(T_A, T_B, T_C)와 각각의 '1' 값을 갖는 분류 출력을 포함하는 보완 분류 결과(RS2)를 출력할 수 있다.
도 3b를 더 참조하면, 제2 분류기(130_2)는 블랙 리스트 분류기로서 제2 규칙 그룹을 포함하며, 제2 규칙 그룹은 키워드 또는 패턴인 'D', 'E' 및 'F'를 포함할 수 있다. 일 예로, 제2 분류기(130_2)는 제4 내지 제6 입력 텍스트(T_D, T_E, T_F)와 각각의 '1' 값을 갖는 분류 출력을 포함하는 메인 분류 결과(RS1)를 수신할 수 있다. 제4 입력 텍스트(T_D)에는 'D' 패턴이 포함되고, 제5 입력 텍스트(T_E)에는 'E' 패턴이 포함되며, 제6 입력 텍스트(T_F)에는 'F' 패턴이 포함될 수 있다. 제2 분류기(130_2)는 메인 분류 결과(RS1)에 제2 규칙 그룹을 적용하여 제4 내지 제6 입력 텍스트(T_D, T_E, T_F)와 각각의 '0' 값을 갖는 분류 출력을 포함하는 보완 분류 결과(RS2)를 출력할 수 있다.
도 4는 도 3a의 제1 분류기(130_1)의 보완 분류 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 제1 분류기(130_1)는 소정의 우선 순위에 따른 규칙들(A, B, C)를 이용하여 입력 텍스트들에 대한 보완 분류 동작을 수행할 수 있다. 일 예로, 제1 분류기(130_1)는 'A', 'B', 'C' 순으로 규칙들을 나열하고, 나열된 순서대로 입력 텍스트들을 분류할 수 있다. 일부 실시예들에 있어서, 'A', 'B', 'C'의 길이는 상이할 수 있으며, 각 규칙의 길이는 우선 순위를 결정하는 데에 있어 고려될 수 있다.
예시적 실시예로, 제1 분류기(130_1)의 규칙들(A, B, C)의 우선 순위는 수정될 수 있으며, 이에 대한 구체적인 내용은 후술한다.
도 5a는 본 개시의 예시적 실시예에 따른 보완 분류부(130)를 나타내는 블록도이고, 도 5b는 도 5a의 보완 분류부(130)의 보완 분류 동작을 설명하기 위한 순서도이다.
도 5a를 참조하면, 보완 분류부(130)는 제1 분류기(130_1), 제2 분류기(130_2) 및 보완 분류 제어부(132)를 포함할 수 있다. 한편, 보완 분류부(130)의 구성예는 예시적인 것에 불과한 바, 이에 국한되지 않고, 더 많은 분류기들을 포함하는 보완 분류부에도 본 개시의 기술적 사상이 적용될 수 있음은 분명하다.
예시적 실시예로, 제1 분류기(130_1)는 제1 규칙 그룹 내의 규칙들(R11, R21,쪋,Rn1)을 포함할 수 있고, 제2 분류기(130_2)는 제2 규칙 그룹 내의 규칙들(R12, R22,쪋, Rm2)을 포함할 수 있다.
예시적 실시예로, 보완 분류 제어부(132)는 분류기 우선 순위 관리부(132_1) 및 규칙 우선 순위 관리부(132_2)를 포함할 수 있다. 분류기 우선 순위 관리부(132_1)는 제1 분류기(130_1) 및 제2 분류기(130_2)에 대한 우선 순위를 관리할 수 있다. 일 예로, 분류기 우선 순위 관리부(132_1)는 제1 분류기(130_1)를 제2 분류기(130_2)보다 높은 우선 순위로 관리할 수 있으며, 이에 따라, 제1 분류기(130_1)는 제2 분류기(130_2)보다 우선하여 분류 동작을 수행할 수 있다. 규칙 우선 순위 관리부(132_2)는 제1 분류기(130_1)의 규칙들(R11, R21,쪋, Rn1)의 우선 순위와 제2 분류기(130_2)의 규칙들(R12, R22, 쪋, Rm2)의 우선 순위를 관리할 수 있다.
예시적 실시예로, 보완 분류부(130)는 분류기 우선 순위 관리부(132_1)에 의해 설정된 우선 순위를 기반으로 분류기들(130_1, 130_2)을 나열하고, 규칙 우선 순위 관리부(132_2)에 의해 설정된 우선 순위를 기반으로 분류기들(130_1, 130_2) 내의 규칙들(R11, R21,쪋, Rn1/R12, R22,쪋, Rm2)을 나열한 후, 나열 결과에 따른 순서대로 입력 텍스트들을 통과시켜 보완 분류 동작을 수행할 수 있다.
도 5b를 더 참조하면, 단계 S100에서 보완 분류부(130)는 분류기 우선 순위 관리부(132_1)에 의한 분류기 우선 순위를 기반으로 분류기들(130_1, 130_2)에 대한 코어스(coarse) 분류 순서를 결정할 수 있다.
단계 S110에서 보완 분류부(130)는 규칙 우선 순위 관리부(132_2)에 의한 규칙 우선 순위를 기반으로 각각의 분류기들(130_1, 130_2) 내의 규칙들(R11, R21,쪋, Rn1/R12, R22,쪋, Rm2)에 대한 파인(fine) 분류 순서를 결정할 수 있다.
단계 S120에서 보완 분류부(130)는 결정된 분류 순서들에 따라 입력 텍스트들을 분류할 수 있다.
도 6a 내지 도 6c는 본 개시의 예시적 실시예에 따라 메타 데이터를 고려한 보완 분류 동작을 설명하기 위한 도면들이다.
도 6a에는 메타 데이터 별로 분류기들의 제1 우선 순위를 관리하는 예시를 나타내는 제1 테이블(TB1)이 도시되어 있다. 본 명세서에서, 메타 데이터는 입력 텍스트의 카테고리를 포함할 수 있다. 일 예로, 메타 데이터는 영화 관련 인터넷 뉴스 기사에서의 영화의 카테고리를 나타내는 것으로, 메타 데이터는 '드라마', '애니메이션', '판타지' 등을 가르키는 값들을 가질 수 있다. 더 나아가, 메타 데이터는 입력 텍스트들을 식별할 수 있는 인덱스들도 포함할 수 있다.
일 예로, 메타 데이터가 '드라마'인 경우와 '애니메이션'인 경우에 영화 관련 인터넷 뉴시 기사의 댓글을 작성하는 연령층, 취향, 성별 등이 다를 수 있으며, 이에 따라, 긍정적 반응 또는 부정적 반응을 나타내는 방식이 상이할 수 있다. 이에 따라, 메타 데이터는 입력 텍스트들을 분류하는 데에 고려되어야 할 필요가 있으며, 본 발명의 보완 분류부는 입력 텍스트들의 메타 데이터를 기반으로 분류기들의 제1 우선 순위, 분류기들 각각의 규칙들의 제2 우선 순위를 설정 또는 결정할 수 있다.
본 명세서에서 분류기 나열은 복수의 분류기들이 소정의 우선 순위에 따라 나열된 상태를 지칭할 수 있다. 메타 데이터 별로 분류기 나열은 다르게 관리될 수 있으며, 이는 메타 데이터 별로 분류기들에 대한 제1 우선 순위가 다르게 관리됨과 동등하게 해석될 수 있다. 또한, 본 명세서에서 규칙 나열은 분류기들 각각에 포함된 규칙들이 소정의 우선 순위에 따라 나열된 상태를 지칭할 수 있다. 메타 데이터 별로 규칙 나열은 다르게 관리될 수 있으며, 이는 메타 데이터 별로 분류기들 각각에 포함된 규칙들에 대한 제2 우선 순위가 다르게 관리됨과 동등하게 해석될 수 있다.
도 6a의 제1 테이블(TB1)을 참조하면, 제1 메타 데이터(M1)에 대응하는 입력 텍스트들에 대해서는 제1 분류기 나열(CL1)이 적용된 보완 분류 동작이 수행될 수 있다. 제2 메타 데이터(M2)에 대응하는 입력 텍스트들에 대해서는 제2 분류기 나열(CL2)이 적용된 보완 분류 동작이 수행될 수 있다. 제3 메타 데이터(M3)에 대응하는 입력 텍스트들에 대해서는 제3 분류기 나열(CL3)이 적용된 보완 분류 동작이 수행될 수 있다.
도 6b의 제2 테이블(TB2)을 참조하면, 제1 분류기(C1)와 관련하여 제1 메타 데이터(M1)에 대응하는 입력 텍스트들에 대해서는 제1 규칙 나열(RL11)이 적용된 보완 분류 동작이 수행될 수 있다. 제2 메타 데이터(M2)에 대응하는 입력 텍스트들에 대해서는 제2 규칙 나열(RL21)이 적용된 보완 분류 동작이 수행될 수 있다. 제3 메타 데이터(M3)에 대응하는 입력 텍스트들에 대해서는 제3 규칙 나열(RL31)이 적용된 보완 분류 동작이 수행될 수 있다.
제2 분류기(C2)와 관련하여 제1 메타 데이터(M1)에 대응하는 입력 텍스트들에 대해서는 제4 규칙 나열(RL12)이 적용된 보완 분류 동작이 수행될 수 있다. 제2 메타 데이터(M2)에 대응하는 입력 텍스트들에 대해서는 제5 규칙 나열(RL22)이 적용된 보완 분류 동작이 수행될 수 있다. 제3 메타 데이터(M3)에 대응하는 입력 텍스트들에 대해서는 제6 규칙 나열(RL32)이 적용된 보완 분류 동작이 수행될 수 있다.
한편, 도 6a 및 도 6b에서는 메타 데이터 별로 분류기 또는 규칙들에 대한 우선 순위를 다르게 관리하는 예시들이 중심으로 도시되었으나, 이에 국한되지 않고, 본 발명의 기술적 사상은 메타 데이터 별로 분류기들 중 보완 분류 동작에 참여하는 분류기들이 다르게 선택될 수 있고, 선택된 분류기들 각각에 포함된 규칙들 중 보완 분류 동작에 참여하는 규칙들이 다르게 선택되는 실시예도 포함할 수 있다.
도 6c를 더 참조하면, 단계 S200에서 보완 분류부는 입력 텍스트들에 대응하는 메타 데이터를 기반으로 분류기들에 대한 코어스 분류 순서를 결정할 수 있다. 구체적으로, 보완 분류부는 도 6a의 제1 테이블(TB1)을 참조하여 입력 텍스트들에 대응하는 메타 데이터에 설정된 분류기 나열에 부합하도록 분류기들을 나열할 수 있다.
단계 S210에서 보완 분류부는 입력 텍스트들에 대응하는 메타 데이터를 기반으로 분류기들 각각의 규칙들에 대한 파인 분류 순서를 결정할 수 있다. 구체적으로, 보완 분류부는 도 6b의 제2 테이블(TB2)을 참조하여 입력 텍스트들에 대응하는 메타 데이터에 설정된 규칙 나열에 부합하도록 분류기들 각각의 규칙들을 나열할 수 있다.
단계 S220에서 보완 분류부는 입력 텍스트들의 메타 데이터를 고려하여 단계 S200 및 단계 S210를 통해 결정된 분류 순서에 따라 입력 텍스트들을 분류할 수 있다.
도 7a 내지 도 7c는 본 개시의 예시적 실시예에 따라 보완 분류부를 수정하는 방법을 설명하기 위한 도면들이다.
도 7a에는 보완 분류부를 수정하는 도 1의 오류 검출부(150) 및 보완 분류 수정부(170)의 동작 실시예를 설명하기 위한 순서도가 도시되어 있다.
도 7a를 참조하면, 단계 S300에서 오류 검출부(150, 도 1)는 분류 출력들을 정답들과 비교할 수 있다. 단계 S310에서 오류 검출부(150, 도 1)는 비교 결과를 기반으로 오류 발생 식별자를 생성할 수 있다. 단계 S320에서 보완 분류 수정부(170, 도 1)는 오류 발생 분류기 식별자를 기반으로 해당 분류기를 수정할 수 있다.
도 7b에는 분류기들에 대한 오류 검출 결과로서 오류 발생 분류기 식별자를 포함하는 제3 테이블(TB3)이 도시되어 있다.
도 7b를 더 참조하면, 오류 검출부(150, 도 1)는 제3 테이블(TB3)과 같이 입력 텍스트를 잘못된 값을 갖는 분류 출력으로 분류한 분류기를 가르키는 오류 발생 분류기 식별자를 생성할 수 있다. 일 예로, 입력 텍스트들(IN1~IN4) 각각에 대응하는 분류 출력들이 잘못된 값을 갖는 때에, 원인이되는 분류기를 나타내는 오류 발생 분류기 식별자들(CI1, CI2)을 생성할 수 있다. 보완 분류 수정부(170, 도 1)는 오류 발생 분류기 식별자들(CI1, CI2)을 확인하여 확인된 분류기들에 대하여 수정 동작을 수행할 수 있다.
도 7c에는 보완 분류부를 수정하는 다양한 방법을 설명하기 위한 그림(a) 내지 그림(c)가 도시되어 있다. 이하에서는, 도 4의 예시로부터 수정되는 실시예들이 서술된다.
예시적 실시예로, 보완 분류 수정부(170, 도 1)는 그림(a)와 같이 도 4에 도시된 우선 순위를 수정하여 제1 분류기(130_1, 도 3a)의 'B', 'A', 'C' 순으로 규칙들을 나열하고, 보완 분류부(130)는 나열된 순서대로 입력 텍스트들을 분류할 수 있다. 보완 분류 수정부(170, 도 1)는 그림(b)와 같이 도 4에 도시된 규칙들(A, B, C)에 새로운 규칙(G)을 추가하고, 제1 분류기(130_1, 도 3a)의 'A', 'B', 'C', 'G' 순으로 규칙들을 나열하여 보완 분류부(130)는 나열된 순서대로 입력 텍스트들을 분류할 수 있다. 보완 분류 수정부(170, 도 1)는 그림(c)와 같이 도 4에 도시된 규칙들(A, B, C)에서 일부 규칙(B)을 삭제하고, 제1 분류기(130_1, 도 3a)의 'A', 'C' 순으로 규칙들을 나열하여 보완 분류부(130)는 나열된 순서대로 입력 텍스트들을 분류할 수 있다.
본 개시는 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

Claims (13)

  1. 기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하도록 구성된 메인 분류부;
    상기 분류 결과를 기반으로 설정된 복수의 분류기들을 구비하고, 상기 입력 텍스트들에 대한 보완 분류를 수행하도록 구성된 보완 분류부;
    상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하도록 구성된 출력 생성부; 및
    상기 분류 출력들을 가공하여 지식 데이터를 생성하도록 구성된 출력 가공부를 포함하는 텍스트 분류 시스템.
  2. 제1항에 있어서,
    상기 보완 분류부는,
    상기 복수의 분류기들의 제1 우선 순위를 관리하도록 구성된 분류기 우선 순위 관리부; 및
    상기 복수의 분류기들 각각의 규칙들의 제2 우선 순위를 관리하도록 구성된 규칙 우선 순위 관리부를 포함하고,
    상기 보완 분류부는,
    상기 제1 및 제2 우선 순위를 기반으로 상기 보완 분류를 수행하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
  3. 제2항에 있어서,
    상기 보완 분류부는,
    상기 제1 우선 순위에 따라 상기 복수의 분류기들을 나열하고, 상기 제2 우선 순위에 따라 상기 규칙들을 나열하며, 상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시켜 상기 보완 분류를 수행하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
  4. 제2항에 있어서,
    상기 규칙들은,
    단어 공백이 포함된 패턴 및 키워드 중 어느 하나에 해당하는 것을 특징으로 하는 텍스트 분류 시스템.
  5. 제2항에 있어서,
    상기 규칙들은,
    복수의 패턴들을 포함하고,
    상기 복수의 패턴들 각각은,
    복수의 키워드들 및 상기 복수의 키워드들 중 둘 사이의 적어도 하나의 단어 공백을 포함하며,
    상기 복수의 패턴들 중 적어도 일부는 길이가 상이한 것을 특징으로 하는 텍스트 분류 시스템.
  6. 제2항에 있어서,
    상기 분류기 우선 순위 관리부는,
    상기 입력 테스트들 각각에 대응하는 메타 데이터 별로 상기 제1 우선 순위를 관리하도록 구성되고,
    상기 규칙 우선 순위 관리부는,
    상기 메타 데이터 별로 상기 제2 우선 순위를 관리하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
  7. 제2항에 있어서,
    상기 분류 출력들과 정답들을 비교하여 상기 복수의 분류기들의 오류를 검출하도록 구성된 오류 검출부; 및
    상기 오류 검출 결과를 기반으로 상기 보완 분류부를 수정하도록 구성된 보완 분류 수정부를 더 포함하는 것을 특징으로 하는 텍스트 분류 시스템.
  8. 제7항에 있어서,
    상기 오류 검출부는,
    상기 복수의 분류기들 중 오류가 검출된 분류기를 식별하기 위한 식별자를 생성하도록 구성되고,
    상기 보완 분류 수정부는,
    상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위를 수정하거나, 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
  9. 제8항에 있어서,
    상기 보완 분류 수정부는,
    상기 수정 대상 분류기 내의 상기 규칙들 중 적어도 하나를 삭제하거나, 새로운 규칙을 상기 수정 대상 분류기에 추가하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
  10. 텍스트 분류 방법에 있어서,
    기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하는 단계;
    상기 입력 텍스트들에 대한 보완 분류를 수행하는 단계;
    상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하는 단계; 및
    상기 분류 출력들을 가공하여 지식 데이터를 생성하는 단계를 포함하고,
    상기 보완 분류를 수행하는 단계는,
    복수의 분류기들을 제1 우선 순위에 따라 나열하는 단계;
    상기 복수의 분류기들 각각의 규칙들을 제2 우선 순위에 따라 나열하는 단계; 및
    상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시키는 단계를 포함하는 것을 특징으로 하는 텍스트 분류 방법.
  11. 제10항에 있어서,
    상기 분류 출력들과 정답들을 비교하는 단계;
    상기 비교 결과를 기반으로 오류가 검출된 분류기에 대한 식별자를 생성하는 단계;
    상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위 또는 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 분류 방법.
  12. 제10항에 있어서,
    상기 제1 및 제2 우선 순위는,
    상기 입력 텍스트들 각각에 대응하는 메타 데이터 별로 설정된 것을 특징으로 하는 텍스트 분류 방법.
  13. 제10항에 있어서,
    상기 분류 출력들 각각은, 분류 기준에 부합하는지 여부를 나타내는 n(단, n은 1이상의 정수)비트 데이터로 구성된 것을 특징으로 하는 텍스트 분류 방법.
PCT/KR2021/018452 2021-11-12 2021-12-07 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법 WO2023085499A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0156066 2021-11-12
KR1020210156066A KR20230069730A (ko) 2021-11-12 2021-11-12 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법

Publications (1)

Publication Number Publication Date
WO2023085499A1 true WO2023085499A1 (ko) 2023-05-19

Family

ID=86335979

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/018452 WO2023085499A1 (ko) 2021-11-12 2021-12-07 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법

Country Status (2)

Country Link
KR (1) KR20230069730A (ko)
WO (1) WO2023085499A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) * 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
US20110098999A1 (en) * 2009-10-22 2011-04-28 National Research Council Of Canada Text categorization based on co-classification learning from multilingual corpora
US20120179633A1 (en) * 2011-01-10 2012-07-12 Accenture Global Services Limited Identification of attributes and values using multiple classifiers
US20150199609A1 (en) * 2013-12-20 2015-07-16 Xurmo Technologies Pvt. Ltd Self-learning system for determining the sentiment conveyed by an input text
KR101542195B1 (ko) * 2014-03-28 2015-08-05 주식회사 솔트룩스 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) * 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
US20110098999A1 (en) * 2009-10-22 2011-04-28 National Research Council Of Canada Text categorization based on co-classification learning from multilingual corpora
US20120179633A1 (en) * 2011-01-10 2012-07-12 Accenture Global Services Limited Identification of attributes and values using multiple classifiers
US20150199609A1 (en) * 2013-12-20 2015-07-16 Xurmo Technologies Pvt. Ltd Self-learning system for determining the sentiment conveyed by an input text
KR101542195B1 (ko) * 2014-03-28 2015-08-05 주식회사 솔트룩스 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법

Also Published As

Publication number Publication date
KR20230069730A (ko) 2023-05-19

Similar Documents

Publication Publication Date Title
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
US10430405B2 (en) Apply corrections to an ingested corpus
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
WO2021095987A1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
WO2021112463A1 (ko) 기업을 위한 정보 제공 장치 및 방법
Ogawa et al. News bias analysis based on stakeholder mining
WO2023063610A1 (ko) 기계독해를 이용한 리뷰 분석 시스템 및 방법
WO2021256884A1 (ko) Ai를 이용한 가짜뉴스 판독 방법 및 장치
JP2017151588A (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
Kratzwald et al. IntKB: A verifiable interactive framework for knowledge base completion
Park et al. Discovering microbe-disease associations from the literature using a hierarchical long short-term memory network and an ensemble parser model
Zhang et al. PPLook: an automated data mining tool for protein-protein interaction
WO2023085499A1 (ko) 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
Wang et al. ComQA: Compositional question answering via hierarchical graph neural networks
WO2019112223A1 (ko) 전자 문서 검색 방법 및 그 서버
Madaan et al. Generating clues for gender based occupation de-biasing in text
WO2023085500A1 (ko) 그래프 독해 기반 지식 추출을 위한 시스템 및 방법
Abdelhakim et al. Ar-PuFi: A short-text dataset to identify the offensive messages towards public figures in the Arabian community
WO2021054512A1 (ko) 지식 베이스 보강을 위한 시스템 및 방법
Weissenbacher et al. Text mining biomedical literature to identify extremely unbalanced data for digital epidemiology and systematic reviews: dataset and methods for a SARS-CoV-2 genomic epidemiology study
WO2020138618A1 (ko) 음악 감성 인식 방법 및 장치
CN112269877A (zh) 数据标注方法及装置
WO2024080794A1 (en) Method and system for classifying one or more hyperlinks in a document

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21964208

Country of ref document: EP

Kind code of ref document: A1