WO2012050252A1 - 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법 - Google Patents

분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법 Download PDF

Info

Publication number
WO2012050252A1
WO2012050252A1 PCT/KR2010/007243 KR2010007243W WO2012050252A1 WO 2012050252 A1 WO2012050252 A1 WO 2012050252A1 KR 2010007243 W KR2010007243 W KR 2010007243W WO 2012050252 A1 WO2012050252 A1 WO 2012050252A1
Authority
WO
WIPO (PCT)
Prior art keywords
qualities
category
classifier
matrix
feature
Prior art date
Application number
PCT/KR2010/007243
Other languages
English (en)
French (fr)
Inventor
정도헌
성원경
정한민
조민희
홍순찬
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2012050252A1 publication Critical patent/WO2012050252A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the present invention relates to a system and a method for automatic generation of a large capacity classifier by dynamic coupling of a classifier, and more particularly, to a classifier generating apparatus for extracting qualities from a learning target document of each database and obtaining similarities between the extracted qualities and categories Generating a feature class matrix including a weight for each feature and a term vector to generate an individual classifier for determining a category of a new document to be classified to be collected, The code information of the qualities appearing in the qualification matrix to be combined is listed, the category characteristics values for the qualities are summed up to generate an integrated matrix, and all the qualities of the combination database are learned using the integrated matrix To the dynamic coupling of a classifier that freely generates a classifier It relates to a large auto-generated classifier systems and methods.
  • qualities mean keywords or terms.
  • the present invention has been made in order to solve the above-mentioned problems, and an object of the present invention is to provide a method and system for dynamically combining a plurality of database to be combined and generating a large capacity classifier capable of learning a large- And a system and method for automatically generating a large capacity classifier by dynamic combination of the classifiers.
  • a database management system comprising: a database for classifying and storing a plurality of documents according to a characteristic of a document; extracting qualities from a learning target document of each database; A classifier generating device for generating a characteristic class matrix including a weight for each attribute and a term vector to generate a classifier for classifying a document to be classified to be newly collected, The code information of the qualities appearing in the target feature property matrix is listed, the integrated property value of each feature is summed up to generate an integrated matrix, and then all the feature information of the combination object database is learned using the integrated matrix, And a classifier dynamic coupling device A system for automatically generating a large capacity classifier by dynamic coupling is provided.
  • the classifier generating apparatus is provided for each database.
  • the classifier generating apparatus linearly combines the term vectors with respect to all the qualities constituting the learning target document and determines a high value of the voting result as the category of the classification target document.
  • the classifier dynamic coupling apparatus generates an integrated matrix for each capacity by dividing the database to be combined into capacities having a predetermined size, and generates an integrated classifier that learns all the qualities of the database to be combined using the integrated matrixes.
  • the classifier dynamic coupling apparatus repeatedly performs the process of integrating the generated integrated matrix with the individual feature characteristic matrix or another integrated matrix to generate a new integrated matrix.
  • a learning apparatus comprising a feature extraction unit for extracting a feature from a learning target document, a weight calculation unit for obtaining a similarity between the extracted feature and category and a weight for each feature using the similarity, A feature vector generating unit for generating a feature vector matrix including weights obtained by the weight computing unit for each feature of the learning target document, a term vector generating unit for generating a weighted term vector for each feature constituting the learning target document, A plurality of term vectors generated by the term vector generation unit are combined for a feature having the same qualities as the features extracted from the newly collected classification target document, As a final category of the classifier generating apparatus It is.
  • the feature extraction unit may include at least one of a method of using a keyword field of a learning target document, a method of extracting information from unstructured information of a title or abstract based on a corpus dictionary, a natural language processing method using a stemming or morphological analysis technique Extract the qualities through.
  • the weight calculator calculates similarity using at least one similar coefficient among cosine, dice, jacquard, and log multiplication ratios or using various distance coefficients.
  • the weight computation unit adds the inverse document frequency to the feature weight Weights of final qualities ( ).
  • the term vector generation unit generates a term vector composed of " category, weight " pairs for each of the qualities.
  • the category determining unit learns the qualities of the newly collected classification target document by learning in the classifier to match the stored term vectors, adds the weight values of the subject information of the vector information, and then calculates the maximum value The final category is determined.
  • the feature property matrix includes a document number, a category code, a weight, and a category property value for each property, wherein the category property value includes a frequency characteristic and a characteristic value of the case where the property appears and belongs to a specific category, Frequency, frequency of occurrence of qualities but not belonging to a specific category, frequency of occurrence of qualities not belonging to a specific category, and the like.
  • a database management method comprising the steps of: extracting qualities from a plurality of qualities characteristic matrices in a database to be combined; listing code information of the extracted qualities; A weight computing unit for obtaining the similarities of the respective qualities and categories constituting the integrated matrix and obtaining weights for the qualities by using the similarities, a weight calculator for calculating the weights for each of the qualities constituting the integrated matrix, There is provided a classifier dynamic coupling apparatus including a term vector generating unit for generating a displayed term vector and generating an integrated classifier that has learned all the qualities of the object database.
  • the classifier dynamic binding apparatus combines a plurality of term vectors generated in the term vector generating unit with characteristics of the same qualities extracted from the newly collected classification target document, And a category determining unit that determines the category as the final category of the classification object document.
  • the classifier dynamic coupling apparatus may further include a capacity division unit that divides the coupling object database into capacities of a predetermined size.
  • the integrated matrix generation unit simultaneously generates an integrated matrix for each of the capacities divided by the capacity division unit in parallel.
  • the classifier dynamic coupling apparatus may further include an integration matrix generating unit that pyramidically and repeatedly integrates the integration matrix generated by the integration matrix generation unit with the individual feature property matrix or the integration matrix with another integration matrix to generate a new integration matrix And may further include a management section.
  • the integrated matrix generation unit generates a total set of feature values appearing in the feature feature matrix and adds up the category feature values for each feature to generate an integrated matrix.
  • the integrated matrix generator may automatically calculate missing categories in the entire category list for each feature, dynamically generate a field for the category in the memory, and sum up the total category property values for each feature to obtain an integrated matrix And stores the result in the database.
  • the integrated matrix generation unit may generate a list of unique qualities extracted by the qualification extraction unit, extract a whole category code from the combination qualities characteristic matrix to generate a category code list, If there is information, extract the category property value for the entire category code, but generate the category property value for the non-existent category code.
  • the integrated matrix generation unit generates the qualities and generates category property values for all the category codes in the category code list.
  • a method for classifying a plurality of classifiers comprising: (a) extracting qualities from a learning object document of each database by a plurality of classifier generating apparatuses; (b) (C) generating a feature matrix and a term vector including the calculated weight for each of the qualities constituting the learning target document by the plurality of classifier generating apparatuses, (D) a classifier dynamic coupling device for classifying the code information of the qualities appearing in the plurality of attributes to be combined into a plurality of pieces of code information for each of the qualities, Categorizing the categorical property values to produce an integrated matrix; (e) There is provided a method of automatically generating a large capacity classifier by dynamic combination of a classifier including a step of generating an integrated classifier that has learned all qualities of a database to be combined using a matrix.
  • step (c) comprises the steps of: generating a quality characteristic matrix including the calculated weight for each of the qualities constituting the learning target document; generating a weighted term vector for each qualification constituting the learning target document; A plurality of generated term vectors are combined and calculated in the form of a vote for the same qualities extracted from the newly collected classification target document, and as a result, the specific category having the maximum value is determined as the final And generating an individual classifier which is determined as a category.
  • a method for automatically generating a large capacity classifier by dynamic coupling of a classifier comprising the steps of: (a) extracting qualities from a feature property matrix in a database to be combined; (C) calculating a degree of similarity between each feature and a category constituting the integrated matrix, and calculating a degree of similarity between categories of the feature and the category, (D) generating a term vector including weights for each of the qualities constituting the integrated matrix, and generating an integrated classifier that has learned all the qualities of the database to be combined,
  • a method for automatically generating a large capacity classifier by dynamic combination of a classifier including a plurality of classifiers comprising the steps of: (a) extracting qualities from a feature property matrix in a database to be combined; (C) calculating a degree of similarity between each feature and a category constituting the integrated matrix, and calculating a degree of similarity between categories of the feature and the category, (D) generating a term vector including weights for each of the qualities constituting the integrated
  • a method for automatically generating a large capacity classifier by dynamic binding of the classifier comprises the steps of combining a plurality of term vectors generated by the term vector generation unit for the same qualities extracted from a newly collected classification target document, As a result, it may further include determining a specific category having a maximum value as a final category of the classification target document.
  • the method of automatically generating a large capacity classifier by dynamic combination of the classifiers may further comprise the step of repeatedly performing the pyramidal and iterative process of integrating the generated integrated matrix with the individual feature characteristic matrix or another integrated matrix after the step (b) And generating an integrated matrix.
  • step (b) a total set of feature values appearing in the feature property matrix is generated, and an integrated matrix is generated by summing up the category feature values for each feature, and the missing category in the whole category list is automatically Calculates a field for the category dynamically on the memory, adds the total category property values for each feature, generates an integrated matrix, and stores the result in the database.
  • a list of unique qualities extracted from the qualitative characteristics matrix is generated, and a category code list is generated by extracting the entire category codes. If there is information on specific qualities in each individual table, A category property value for a category code is extracted and a category property value is calculated for a non-existent category code, and when a specific property does not exist in each of the individual tables, a corresponding property is created, Generate category property values for each category code.
  • a method for automatically generating a large capacity classifier by dynamic coupling of a classifier comprising the steps of: (a) (C) listing code information for the extracted qualities, and summing the category characteristic values for each of the qualities to generate an integrated matrix; (d) (E) generating a term vector including weights for each of the qualities displayed in the unified matrix, and calculating a weighting value for each combination of qualities, Generating an integrated classifier that has learned all the qualities of the object database;
  • the capacity sorter automatic generation method is provided.
  • a plurality of database to be combined can be dynamically combined to universally apply to any database in order to generate a large capacity classifier capable of learning a large-capacity document.
  • Figure 1 is a diagram of a system for automatically generating a large capacity classifier by dynamic coupling of a classifier according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically showing a configuration of a classifier generating apparatus according to an embodiment of the present invention
  • FIG. 3 is a block diagram schematically showing a configuration of a classifier dynamic coupling apparatus according to the present invention.
  • FIG. 4 is a flowchart illustrating a method for automatically generating a large capacity classifier by dynamic coupling of a classifier according to an embodiment of the present invention.
  • FIG. 5 and 6 are flowcharts illustrating a method in which a classifier dynamic coupling apparatus according to an embodiment of the present invention automatically generates a large capacity classifier by dynamic coupling of an individual classifier.
  • FIG. 1 is a diagram illustrating a system for automatically generating a large capacity classifier by dynamic coupling of a classifier according to an embodiment of the present invention.
  • a large capacity classifier automatic generation system by dynamic coupling of a classifier includes a plurality of databases 100a, 100b, .., 100n (hereinafter referred to as "100") in which a plurality of documents are classified and stored according to characteristics of a document, 200b,..., 200n (hereinafter referred to as 200), and a classifier dynamic coupling apparatus 300 provided for each database.
  • the database 100 refers to a space in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term property of the document.
  • the database 100 may include a GTB database storing technological trends, An SOC to be stored, an NDS database in which overseas academic papers are stored, and a GNS database in which the above three databases are integrated.
  • the classifier generating apparatus 200 extracts qualities from a learning target document of each database 100, calculates similarities between the extracted qualities and categories, computes weights for the qualities, and then calculates qualities including weights An individual classifier for generating a characteristic matrix and a term vector to determine a category of a document to be classified to be newly collected is generated for each database 100. At this time, the classifier generating apparatus 200 linearly combines the term vectors of all the qualities constituting the learning target document, and determines the value of the voting result as a category of the classification target document.
  • the term vector consists of "category, weight" pairs for each feature.
  • the classifier dynamic binding apparatus 300 lists the code information of the qualities appearing in the plurality of feature qualities matrices to be combined and generates the integrated matrices by summing the category characteristic values of the respective qualities, An integrated classifier that learns all the qualities of the database to be combined is created.
  • the generated integrated classifier may be a large capacity classifier.
  • the classifier dynamic coupling apparatus 300 divides the database to be combined into capacities of a predetermined size to generate an integrated matrix for each capacity, and integrates all the qualities of the database to be combined using the respective integrated matrices Create a classifier. At this time, the classifier dynamic coupling apparatus 300 simultaneously generates an integrated matrix for each capacity in parallel.
  • the classifier dynamic binding apparatus 300 repeatedly performs the process of integrating the generated integrated matrix with the individual feature characteristic matrix or the other integrated matrix to generate a new large integrated matrix. That is, the categorizer dynamic coupling device 300 may combine the integrated matrices with individual feature characteristics matrices or other integration matrices in a variety of ways to create a new large integrated matrix, such as by creating various combinations of individual feature matrices .
  • the classifier dynamic binding apparatus 300 performs the dynamic binding of the classifier using a method of combining the feature matrix generated by the classifier generating apparatus 200.
  • the classifier dynamic binding apparatus 300 divides the combining object database into a proper size and dynamically combines them to generate a large integrated matrix again. At this time, it is not necessary to randomize the learning target documents or to reduce the quality of the learning target.
  • FIG. 1 is a diagram illustrating a system for automatically generating a large capacity classifier by dynamic coupling of a classifier according to an embodiment of the present invention.
  • a large capacity classifier automatic generation system by dynamic coupling of a classifier includes a plurality of databases 100a, 100b, .., 100n (hereinafter referred to as "100") in which a plurality of documents are classified and stored according to characteristics of a document, 200b,..., 200n (hereinafter referred to as 200), and a classifier dynamic coupling apparatus 300 provided for each database.
  • the database 100 refers to a space in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term property of the document.
  • the database 100 may include a GTB database storing technological trends, An SOC to be stored, an NDS database in which overseas academic papers are stored, and a GNS database in which the above three databases are integrated.
  • the classifier generating apparatus 200 extracts qualities from a learning target document of each database 100, calculates similarities between the extracted qualities and categories, computes weights for the qualities, and then calculates qualities including weights An individual classifier for generating a characteristic matrix and a term vector to determine a category of a document to be classified to be newly collected is generated for each database 100. At this time, the classifier generating apparatus 200 linearly combines the term vectors of all the qualities constituting the learning target document, and determines the value of the voting result as a category of the classification target document.
  • the term vector consists of "category, weight" pairs for each feature.
  • the classifier dynamic binding apparatus 300 lists the code information of the qualities appearing in the plurality of feature qualities matrices to be combined and generates the integrated matrices by summing the category characteristic values of the respective qualities, An integrated classifier that learns all the qualities of the database to be combined is created.
  • the generated integrated classifier may be a large capacity classifier.
  • the classifier dynamic coupling apparatus 300 divides the database to be combined into capacities of a predetermined size to generate an integrated matrix for each capacity, and integrates all the qualities of the database to be combined using the respective integrated matrices Create a classifier. At this time, the classifier dynamic coupling apparatus 300 simultaneously generates an integrated matrix for each capacity in parallel.
  • the classifier dynamic binding apparatus 300 repeatedly performs the process of integrating the generated integrated matrix with the individual feature characteristic matrix or the other integrated matrix to generate a new large integrated matrix. That is, the categorizer dynamic coupling device 300 may combine the integrated matrices with individual feature characteristics matrices or other integration matrices in a variety of ways to create a new large integrated matrix, such as by creating various combinations of individual feature matrices .
  • the classifier dynamic binding apparatus 300 performs the dynamic binding of the classifier using a method of combining the feature matrix generated by the classifier generating apparatus 200.
  • the classifier dynamic binding apparatus 300 divides the combining object database into a proper size and dynamically combines them to generate a large integrated matrix again. At this time, it is not necessary to randomize the learning target documents or to reduce the quality of the learning target.
  • classifier dynamic coupling apparatus 300 A detailed description of the classifier dynamic coupling apparatus 300 that performs the above functions will be described with reference to FIG.
  • FIG. 2 is a block diagram schematically showing a configuration of a classifier generating apparatus according to an embodiment of the present invention.
  • the classifier generating apparatus 200 includes a feature extracting unit 210, a weight calculating unit 220, a feature matrix generating unit 225, a term vector generating unit 230, a category determining unit 240, And a storage unit 250.
  • the qualification extraction unit 210 extracts qualities from a learning target document. That is, the feature extraction unit 210 may use a keyword field of a learning target document, a method of extracting information from unstructured information of a title or abstract based on a corpus dictionary, a natural language processing using a stemming or morphological analysis technique Extract the qualities through at least one of the methods.
  • the weight calculator 220 obtains the similarities between the qualities extracted from the qualities extractor 210 and the categories, and obtains weights for the qualities using the similarities.
  • the weight of each qualification means the degree of association between qualities (keyword) and category (subject field).
  • the weight calculator 220 calculates similarity using similar coefficients such as cosine, dice, jacquard, or log multiplication ratio, or using various distance coefficients.
  • the weight calculator 220 calculates a cosine-like coefficient cos (f i , c j ) using Equation 1 so as to give a weight to the qualities and uses Equation 2 using the obtained cosine- Weights for qualities (vs (f i , c j )) are obtained.
  • TP is the qualities f i is the appearance, say the frequency of the case within the scope c j
  • FP has qualities f i the frequency of the case does not occur within the scope c j
  • TN qualities f i is the emergence one category c j
  • FN is the frequency when the feature f i does not appear and does not belong to the category c j .
  • f i is a feature
  • c j is a category
  • tf is a term frequency
  • df is a document frequency
  • cos (f i , c j ) is a cosine-like coefficient
  • the weight computing unit 220 obtains a weight for each final feature using Equation (2), which is an addition of an inverse document frequency to a feature weight.
  • the weight computing unit 220 may calculate the similarity using the logarithmic multiplication ratio lor (f i , c) j as shown in Equation (3).
  • the weight computing unit 220 can express the feature vector d as shown in Equation (4) using the weights of the calculated qualities.
  • vs (f i , c j ) constituting the document vector d can be obtained by using similarity coefficients such as cosine, dice, Jacquard, or log multiplication ratio or by using the weighting factors f i in the document d it means.
  • the feature-property-matrix generation unit 225 generates a feature-property matrix including weights obtained by the weight-value calculation unit 220 for each of the qualities constituting the learning-target document. That is, the feature-property-matrix generation unit 225 generates a feature-property matrix having fields formed by document numbers, category codes, weights, category property values, and the like for individual qualities constituting the learning target document.
  • the category characteristic value is a frequency characteristic of the appearance of the qualities and belonging to the specific category, the frequency and the frequency of the cases where the qualities do not appear but belong to the specific category, the frequencies and the qualities of the cases where the qualities do not belong
  • the term "frequency" refers to the frequency of cases that do not belong to a specific category.
  • the feature characteristic matrix is used when the classifier dynamic coupling device dynamically combines a plurality of classifiers.
  • the term vector generation unit 230 generates a term vector having weights for each of the qualities constituting the learning target document.
  • the generated term vector consists of a pair of " category, weight " for each feature.
  • the category determination unit 240 combines a plurality of term vectors generated by the term vector generation unit 230 with the qualities extracted from the newly collected classification target document and calculates them in a voting format. As a result, The specific category having the maximum value is determined as the final category of the classification object document.
  • the category determination unit 240 may learn the qualities of the newly collected classification target document by matching with the stored term vectors in the classifier, add the weight values of the subject information of the vector information, A specific category with a maximum value of one result is determined as the final category.
  • the category determination unit 240 determines the category of the classification target document using Equation (5).
  • f i qualification
  • c j category
  • test document d ⁇ f 1, f 2 , f 3, ..., f n ⁇
  • subject categories C ⁇ c 1, c 2 , c 3, ...., c n ⁇
  • the qualification value voting classifier assigns a category c j satisfying equation (5) to a document, assuming that the qualities f i have a weight for the category c j as vs (f i , c j ).
  • the storage unit 250 stores a quality characteristic matrix indicating a category code, a weight, and a category characteristic value for each characteristic.
  • FIG. 3 is a block diagram schematically showing a configuration of a classifier dynamic coupling apparatus according to the present invention.
  • the classifier dynamic coupling apparatus 300 includes a feature extraction unit 310, an integrated matrix generation unit 320, a weight calculation unit 330, a term vector generation unit 340, and a category determination unit 350 .
  • the feature extraction unit 310 extracts a feature from a plurality of feature qualities matrices to be combined. At this time, the feature extraction unit 310 extracts the feature from the feature property matrix generated by the classifier generation device for each feature.
  • the integrated matrix generator 320 lists the code information of the extracted qualities and generates an integrated matrix by summing the category characteristic values of the respective qualities. That is, the integrated matrix generation unit 320 generates a total set of the feature values appearing in the feature feature matrix, and adds up the category feature values for each feature to generate an integrated matrix.
  • the integrated matrix generator 320 automatically calculates a missing category in the entire category list for each feature, dynamically generates a field for the category in the memory, and adds the total category feature values for each feature To generate an integrated matrix, and stores the result in a database.
  • the integrated matrix generator 320 generates a list of unique qualities extracted from the qualities extractor 310, and extracts a total category code from the combination qualities characteristic matrix to generate a category code list. Then, the integrated matrix generator 320 extracts a category characteristic value for the entire category code when there is information on a specific characteristic in each individual table, and calculates and generates a category characteristic value for the non-existent category code .
  • the integrated matrix generator 320 If there is no specific feature in each individual table, the integrated matrix generator 320 generates a corresponding feature and generates a category property value for each category code in the category code list.
  • the integrated matrix generator 320 dynamically calculates the integrated information of each feature matrix such as the number of qualities and the total number of documents, and outputs TP, TN, FP, FN, Similarity, and reverse document frequency (IDF).
  • the integrated matrix generator 320 sums TP, TN, FP, and FN by category for each attribute. At this time, for each feature, the missing category is automatically calculated from the whole category list to generate a field for the category.
  • the integrated matrix generator 320 For example, if the predetermined category code information is "bio, chemistry, geography, mathematics", and there is no category corresponding to "mathematics" in a specific qualification, the integrated matrix generator 320 generates , And a category for "mathematics" is generated by obtaining FP and FN for all categories.
  • the weight computing unit 330 obtains similarities between the qualities and categories constituting the integrated matrix generated by the integrated matrix generator 320, and obtains weights for the qualities using the similarity.
  • the method for calculating the weight for each of the qualities uses Equations (1) to (3).
  • the term vector generator 340 generates an integrated classifier that generates weighted term vectors for each of the qualities of the unified matrix and learns all the qualities of the association target database.
  • the generated term vector consists of a pair of " category, weight " for each feature.
  • the category determination unit 350 combines the plurality of term vectors generated by the term vector generation unit 340 with the qualities extracted from the newly collected classification target document, The specific category having the maximum value is determined as the final category of the classification object document.
  • the category determining unit 350 may learn the qualities of the newly collected classification target document by learning the classified term vectors in the classifier, add the weighted values of the subject information of the vector information, A specific category with a maximum value of the result is determined as the final category. At this time, the category determining unit 350 determines the final category of the classification target document using Equation (5).
  • the classifier dynamic binding apparatus 300 may further include a capacity division unit (not shown) for dividing the connection target database into a capacity of a predetermined size. Then, the integrated matrix generator 320 simultaneously generates the integrated matrices for each of the capacities divided by the capacity divider (not shown) in parallel.
  • the capacity division unit (not shown) divides the size of the heterogeneous database into a plurality of sizes and processes a large amount of data.
  • the classifier dynamic coupling apparatus 300 may further include an integrated matrix generation management unit 370.
  • the integrated matrix generation and management unit 370 repeatedly performs the pyramidal-type iterative process of integrating the integrated matrices generated by the integrated matrice generation unit 320 with the individual feature characteristic matrices or with other integrated matrices to generate a new integrated matrix do.
  • the integrated matrix generation managing unit 370 may generate the integrated matrices generated by the integrated matrix generating unit 320, such as generating the integrated matrices by variously combining the individual characteristic matrices, into individual characteristic matrices or other integrated matrices Various combinations are made to create a new large integrated matrix.
  • FIG. 4 is a flowchart illustrating a method of automatically generating a large capacity classifier by dynamic coupling of a classifier according to an embodiment of the present invention.
  • the classifier generating apparatus extracts qualities from a learning target document of a corresponding database (S400), calculates similarities between the extracted qualities and categories, and calculates weights for qualities (S402).
  • the classifier generating apparatus generates qualities characteristic matrices and term vectors including the calculated weight values for each of the qualities constituting the learning target document (S404).
  • the qualitative characteristics matrix includes qualities, categories, similarities, weights, category characteristic values, and the like.
  • the classifier generating apparatus determines a category using the generated term vector for a newly collected classification target document (S406). That is, the classifier generating apparatus combines the generated plurality of term vectors for the same qualities as the qualities extracted from the newly collected classification target document, calculates them in the form of a vote, and calculates a specific category having the maximum value As the final category of the classification target document.
  • the classifier generating apparatus provides the classifier dynamic matching apparatus generated in step S404 to the classifier dynamic coupling apparatus (step S408).
  • the classifier dynamic combination device lists the code information of the qualities appearing in the plurality of attributes to be combined from the classifier generating device, and adds the category property values for each attribute to generate an integrated matrix (S410). That is, the classifier dynamic combining apparatus generates a total set of the feature values appearing in the feature feature matrix, and adds up the category feature values for each feature to generate an integrated matrix. At this time, for each feature, missing categories are automatically calculated from the whole category list, the fields for the category are dynamically generated on the memory, the total category property values for each feature are summed to generate an integrated matrix, To the database.
  • the classifier dynamic binding apparatus After performing step S410, the classifier dynamic binding apparatus generates an integrated classifier that has learned all the qualities of the association target database using the generated integrated matrix (S412).
  • FIG. 5 is a flowchart illustrating a method in which a classifier dynamic coupling apparatus according to an embodiment of the present invention automatically generates a large capacity classifier by dynamic coupling of an individual classifier.
  • the classifier dynamic coupling apparatus extracts qualities from a qualities characteristic matrix in a database to be combined (S500), compiles code information for the extracted qualities, adds the category characteristic values for each qualities, And generates a matrix (S502).
  • the classifier dynamic binding apparatus automatically generates a field for the category in the entire category list for the corresponding property, Thereby generating a matrix.
  • the classifier dynamic coupling apparatus can pyramidally and repeatedly perform the process of integrating the generated integrated matrix with the individual feature characteristic matrix or integrating it with another integrated matrix, thereby generating a new large integrated matrix.
  • the classifier dynamic binding apparatus After the execution of step S502, the classifier dynamic binding apparatus obtains the similarities of the respective qualities and categories constituting the integrated matrix (S504), and obtains weights for the qualities using the similarity (S506). At this time, the classifier dynamic coupling apparatus obtains the similarity by using similarity coefficients such as cosine, dice, Jacquard, or log multiplication ratio, or by using various distance coefficients, and calculates a weight for each property using the similarity.
  • similarity coefficients such as cosine, dice, Jacquard, or log multiplication ratio
  • the classifier dynamic binding apparatus After performing step S506, the classifier dynamic binding apparatus generates a term vector including weights for each of the qualities constituting the unified matrix, and generates an integrated classifier that has learned all the qualities of the association target database (S508) .
  • the classifier dynamic binding apparatus combines the plurality of generated term vectors for the same qualities extracted from the newly collected classification target document, and calculates a certain category having the maximum value As a final category of the classification target document (S510).
  • FIG. 6 is a flowchart illustrating a method in which a classifier dynamic coupling apparatus according to an embodiment of the present invention automatically generates a large capacity classifier by dynamic coupling of an individual classifier.
  • the classifier dynamic coupling apparatus divides a database to be coupled into a capacity of a predetermined size (S600).
  • the classifier dynamic binding apparatus extracts each of the qualities from the qualities characteristic matrix in each of the divided capacities (S602), lists the code information for the extracted qualities, adds the category characteristic values for the respective qualities, (S604).
  • steps S606 to S612 correspond to steps S504 to S510 in FIG. 5, description thereof will be omitted.
  • the classifier dynamic coupling apparatus can automatically divide and dynamically combine large-capacity learning documents.
  • the system and method for automatically generating a large capacity classifier by dynamic coupling of the classifier of the present invention can dynamically combine a plurality of database to be combined to generate a large capacity classifier capable of learning a large amount of documents, It is suitable for a high necessity to apply.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법에 관한 것으로서, 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 데이터베이스, 각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하는 분류기 생성 장치, 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기 동적 결합 장치를 포함한다. 따라서, 본 발명에 따르면, 대용량의 문서를 학습시킬 수 있는 대용량 분류기 생성을 위해 복수의 결합대상 데이터베이스를 동적으로 결합하여 어떤 데이터베이스에 대해서도 범용적으로 적용할 수 있다.

Description

분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
본 발명은 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법에 관한 것으로, 더욱 상세하게는 분류기 생성 장치가 각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하고, 분류기 동적 결합 장치가 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 자유롭게 생성하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법에 관한 것이다.
다양한 학술정보 데이터베이스를 구축하고 서비스하는 경우, 서비스 고도화를 위해 개별 문서의 자동 분류와 통합 분류 및 검색 체계의 적용이 중요한 기술적 요소가 된다.
그러나, 자동범주화를 실제 서비스에 적용하기 위해서는 두 가지 문제가 반드시 해결되어야 한다. 첫째, 대용량 문서를 학습할 수 있는 대용량 기반의 분류기 생성기법이 만들어져야 하고 둘째, 도메인 지식 기반의 마이닝 기술에 비해 일반적으로 사용할 수 있는 안정적이고 범용적인 기술이 개발되어야 한다는 점이다. 즉, 대용량 데이터 환경에 적용이 가능한 대용량 학습기반의 자동범주화 기법과 범용적으로 사용할 수 있는 기법의 개발이 필요하다.
또한, 자동범주화 기법을 실제 서비스에 응용하고자 할 때, 경우에 따라서는 수백만건 이상의 정보자원을 처리해야 하는 경우가 있는데, 이때 범주를 대표하는 문서를 잘 선택하거나, 문서를 대표하는 자질을 선택하고 자질을 축소하는 기법이 필요하게 되므로 비교적 자질 축소 기법에 민감하지 않은 분류기의 개발이 중요하다. 여기서, 자질은 키워드 또는 용어를 의미한다.
또한, 통합정보 서비스를 하는 경우, 서비스를 위한 표준 주제 분류 체계에 맞도록 여러 자원을 자동 분류해야 하는데, 학술논문과 특허, 학술논문과 연구보고서 등 이기종 데이터베이스 간의 교차 자동분류 성능이 현저히 떨어지기 때문에 대용량 환경에서 분류기를 범용화 시키기에 어려운 기술적 문제점이 존재한다.
본 발명은 상기한 문제점을 해결하기 위하여 것으로, 본 발명의 목적은 대용량의 문서를 학습시킬 수 있는 대용량 분류기 생성을 위해 복수의 결합대상 데이터베이스를 동적으로 결합하여 어떤 데이터베이스에 대해서도 범용적으로 적용할 수 있는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 데이터베이스, 각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하는 분류기 생성 장치, 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기 동적 결합 장치를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템이 제공된다.
상기 분류기 생성 장치는 각 데이터베이스별로 구비되어 있다.
상기 분류기 생성장치는 상기 학습 대상 문서를 구성하는 모든 자질에 대해 상기 용어 벡터를 선형 결합하여 투표결과가 높은 값을 상기 분류 대상 문서의 범주로 결정한다.
상기 분류기 동적 결합 장치는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하여 각 용량에 대한 통합 매트릭스를 생성하고, 각 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다.
또한, 상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 반복적으로 수행하여 새로운 하나의 통합 매트릭스를 생성한다.
본 발명의 다른 측면에 따르면, 학습 대상 문서로부터 자질을 추출하는 자질 추출부, 상기 추출된 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부, 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 가중치 연산부에서 구해진 가중치를 포함하는 자질 특성 매트릭스를 생성하는 자질 특성 매트릭스 생성부, 상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 용어벡터 생성부, 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부를 포함하는 분류기 생성 장치가 제공된다.
상기 자질 추출부는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목 또는 초록의 비구조적 정보로부터 정보를 추출하여 이용하는 방법, 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법들 중 적어도 하나를 통해 자질을 추출한다.
상기 가중치 연산부는 코사인, 다이스, 자카드, 로그승산비 중 적어도 하나의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구한다.
상기 가중치 연산부는 자질 가중치에 역문헌 빈도(Inverse Document Frequency)를 추가한
Figure PCTKR2010007243-appb-I000001
를 이용하여 최종 자질별 가중치(
Figure PCTKR2010007243-appb-I000002
)를 구한다.
상기 용어벡터 생성부는 각 자질에 대해 "범주, 가중치" 쌍으로 구성된 용어벡터를 생성한다.
상기 범주 결정부는 상기 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정한다.
상기 자질 특성 매트릭스는 자질별 문서번호, 범주코드, 가중치, 범주 특성값을 포함하되, 상기 범주 특성값은 자질이 출현하고 특정 범주에 속하는 경우의 빈도수, 자질이 출현하지 않으나 특정 범주에 속하는 경우의 빈도수, 자질이 출현하나 특정 범주에 속하지 않은 경우의 빈도수, 자질이 출현하지 않으면서 특정 범주에도 속하지 않은 경우의 빈도수를 포함한다.
본 발명의 또 다른 측면에 따르면, 복수개의 결합 대상 데이터베이스내 자질 특성 매트릭스로부터 자질을 추출하는 자질 추출부, 상기 추출된 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 통합 매트릭스 생성부, 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 각각 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부, 상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 용어벡터 생성부를 포함하는 분류기 동적 결합 장치가 제공된다.
상기 분류기 동적 결합 장치는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부를 더 포함할 수 있다.
또한, 상기 분류기 동적 결합 장치는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 용량 분할부를 더 포함할 수 있다.
상기 통합 매트릭스 생성부는 상기 용량 분할부에 의해 분할된 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성한다.
또한, 상기 분류기 동적 결합 장치는 상기 통합 매트릭스 생성부에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 통합 매트릭스를 생성하는 통합 매트릭스 생성 관리부를 더 포함할 수 있다.
상기 통합 매트릭스 생성부는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다.
또한, 상기 통합 매트릭스 생성부는 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장한다.
또한, 상기 통합 매트릭스 생성부는 상기 자질 추출부에서 추출된 고유한 자질의 리스트를 만들고, 상기 결합 대상 자질 특성 매트릭스로부터 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성한다.
또한, 상기 통합 매트릭스 생성부는 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성한다.
본 발명의 또 다른 측면에 따르면, (a) 복수의 분류기 생성장치가 각 데이터베이스의 학습 대상 문서로부터 자질을 각각 추출하는 단계, (b) 상기 복수의 분류기 생성장치가 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 각각 연산하는 단계, (c) 상기 복수의 분류기 생성장치가 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류 대상 문서의 범주를 각각 결정하는 개별 분류기를 각각 생성하는 단계, (d) 분류기 동적 결합 장치가 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계, (e) 상기 분류기 동적 결합 장치가 상기 생성된 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법이 제공된다.
상기 (c)단계는 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스를 생성하는 단계, 상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 단계, 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 개별 분류기를 생성하는 단계를 포함한다.
본 발명의 또 다른 측면에 따르면, 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서, (a) 결합 대상 데이터베이스내의 자질 특성 매트릭스로부터 자질을 추출하는 단계, (b) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계, (c) 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계, (d) 상기 통합 매트릭스를 구성하는 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법이 제공된다.
상기 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법은 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 단계를 더 포함할 수 있다.
상기 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법은 상기 (b)단계 이후, 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 거대한 통합 매트릭스를 생성하는 단계를 더 포함할 수 있다.
상기 (b)단계는, 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하되, 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장한다.
또한, 상기 (b)단계는, 상기 자질 특성 매트릭스에서 추출된 고유한 자질의 리스트를 만들고, 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성하고, 상기 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성한다.
본 발명의 또 다른 측면에 따르면, 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서, (a) 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 단계, (b) 각 분할된 용량내의 자질 특성 매트릭스로부터 자질을 추출하는 단계, (c) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계, (d) 상기 통합 매트릭스에 표시된 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계, (e) 상기 통합 매트릭스에 표시된 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법이 제공된다.
상술한 바와 같이 본 발명에 따르면, 대용량의 문서를 학습시킬 수 있는 대용량 분류기 생성을 위해 복수의 결합대상 데이터베이스를 동적으로 결합하여 어떤 데이터베이스에 대해서도 범용적으로 적용할 수 있다.
또한, 여러 개의 자질특성 매트릭스를 생성하고 이를 동적으로 자유롭게 구성함에 의해, 실제로 대용량의 매트릭스를 생성하는 것과 작은 용량의 매트릭스를 다수 생성하여 동적으로 결합하는 것의 수치상 차이가 전혀 없는 효과가 있다.
도 1은 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템을 나타낸 도면.
도 2는 본 발명의 실시예에 따른 분류기 생성 장치의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명에 따른 분류기 동적 결합 장치의 구성을 개략적으로 나타낸 블럭도.
도 4는 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법을 나타낸 흐름도.
도 5 및 도 6은 본 발명의 실시예에 따른 분류기 동적 결합 장치가 개별 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법을 나타낸 흐름도.
이하에서 설명되는 자질은 키워드 또는 용어를 의미한다.
도 1은 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템을 나타낸 도면이다.
도 1을 참조하면, 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템은 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 복수의 데이터베이스(100a, 100b, .., 100n, 이하 100이라 칭함), 각 데이터베이스별로 구비된 분류기 생성 장치(200a, 200b,..., 200n, 이하 200이라 칭함), 분류기 동적 결합 장치(300)를 포함한다.
상기 데이터베이스(100)는 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 공간을 의미하며, 예를 들어, 과학기술동향이 저장되는 GTB 데이터베이스, 국내학술논문이 저장되는 SOC, 해외학술논문이 저장되는 NDS 데이터베이스, 상기의 세 개의 데이터베이스가 통합된 GNS 데이터베이스 등으로 분류될 수 있다.
상기 분류기 생성 장치(200)는 각 데이터베이스(100)의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류 대상 문서의 범주를 결정하는 개별 분류기를 데이터베이스(100)별로 생성한다. 이때, 상기 분류기 생성장치(200)는 학습 대상 문서를 구성하는 모든 자질에 대한 용어 벡터를 선형 결합하여 투표결과가 높은 값을 상기 분류 대상 문서의 범주로 결정한다. 여기서, 상기 용어 벡터는 각 자질에 대해 "범주, 가중치" 쌍으로 구성된다.
상기 분류기 동적 결합 장치(300)는 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 상기 생성된 통합 분류기는 대용량 분류기일 수 있다.
또한, 상기 분류기 동적 결합 장치(300)는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하여 각 용량에 대한 통합 매트릭스를 생성하고, 각 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 이때, 상기 분류기 동적 결합 장치(300)는 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성한다.
또한, 상기 분류기 동적 결합 장치(300)는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 반복적으로 수행하여 새로운 커다란 통합 매트릭스를 생성한다. 즉, 상기 분류기 동적 결합 장치(300)는 개별 자질 특성 매트릭스를 다양하게 조합하여 통합 매트릭스를 생성하는 것처럼, 통합 매트릭스를 개별 자질 특성 매트릭스 또는 다른 통합 매트릭스와 다양하게 조합하여 새로운 거대한 통합 매트릭스를 생성할 수 있다.
상기와 같은 분류기 동적 결합 장치(300)는 상기 분류기 생성 장치(200)에서 생성된 자질 특성 매트릭스를 결합하는 방법을 이용하여 분류기의 동적 결합을 수행한다.
또한, 상기 분류기 동적 결합 장치(300)는 학습할 대상 문헌이 많은 경우, 결합 대상 데이터베이스를 적당한 크기로 분할하고, 동적으로 결합하여 거대한 통합 매트릭스를 다시 생성하게 된다. 이때, 학습대상 문헌을 랜덤하게 섞거나 자질 축소 등을 고려하지 않아도 된다.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
이하에서 설명되는 자질은 키워드 또는 용어를 의미한다.
도 1은 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템을 나타낸 도면이다.
도 1을 참조하면, 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템은 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 복수의 데이터베이스(100a, 100b, .., 100n, 이하 100이라 칭함), 각 데이터베이스별로 구비된 분류기 생성 장치(200a, 200b,..., 200n, 이하 200이라 칭함), 분류기 동적 결합 장치(300)를 포함한다.
상기 데이터베이스(100)는 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 공간을 의미하며, 예를 들어, 과학기술동향이 저장되는 GTB 데이터베이스, 국내학술논문이 저장되는 SOC, 해외학술논문이 저장되는 NDS 데이터베이스, 상기의 세 개의 데이터베이스가 통합된 GNS 데이터베이스 등으로 분류될 수 있다.
상기 분류기 생성 장치(200)는 각 데이터베이스(100)의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류 대상 문서의 범주를 결정하는 개별 분류기를 데이터베이스(100)별로 생성한다. 이때, 상기 분류기 생성장치(200)는 학습 대상 문서를 구성하는 모든 자질에 대한 용어 벡터를 선형 결합하여 투표결과가 높은 값을 상기 분류 대상 문서의 범주로 결정한다. 여기서, 상기 용어 벡터는 각 자질에 대해 "범주, 가중치" 쌍으로 구성된다.
상기와 같은 역할을 수행하는 분류기 생성 장치(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.
상기 분류기 동적 결합 장치(300)는 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 상기 생성된 통합 분류기는 대용량 분류기일 수 있다.
또한, 상기 분류기 동적 결합 장치(300)는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하여 각 용량에 대한 통합 매트릭스를 생성하고, 각 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 이때, 상기 분류기 동적 결합 장치(300)는 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성한다.
또한, 상기 분류기 동적 결합 장치(300)는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 반복적으로 수행하여 새로운 커다란 통합 매트릭스를 생성한다. 즉, 상기 분류기 동적 결합 장치(300)는 개별 자질 특성 매트릭스를 다양하게 조합하여 통합 매트릭스를 생성하는 것처럼, 통합 매트릭스를 개별 자질 특성 매트릭스 또는 다른 통합 매트릭스와 다양하게 조합하여 새로운 거대한 통합 매트릭스를 생성할 수 있다.
상기와 같은 분류기 동적 결합 장치(300)는 상기 분류기 생성 장치(200)에서 생성된 자질 특성 매트릭스를 결합하는 방법을 이용하여 분류기의 동적 결합을 수행한다.
또한, 상기 분류기 동적 결합 장치(300)는 학습할 대상 문헌이 많은 경우, 결합 대상 데이터베이스를 적당한 크기로 분할하고, 동적으로 결합하여 거대한 통합 매트릭스를 다시 생성하게 된다. 이때, 학습대상 문헌을 랜덤하게 섞거나 자질 축소 등을 고려하지 않아도 된다.
상기와 같은 역할을 수행하는 분류기 동적 결합 장치(300)에 대한 상세한 설명은 도 3을 참조하기로 한다.
도 2는 본 발명의 실시예에 따른 분류기 생성 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 분류기 생성 장치(200)는 자질 추출부(210), 가중치 연산부(220), 자질 특성 매트릭스 생성부(225), 용어벡터 생성부(230), 범주 결정부(240), 저장부(250)를 포함한다.
상기 자질 추출부(210)는 학습 대상 문서로부터 자질을 추출한다. 즉, 상기 자질 추출부(210)는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목 또는 초록의 비구조적 정보로부터 정보를 추출하여 이용하는 방법, 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법들 중 적어도 하나를 통해 자질을 추출한다.
상기 가중치 연산부(220)는 상기 자질 추출부(210)에서 추출된 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구한다. 여기서, 자질별 가중치는 자질(키워드)과 범주(주제분야)의 연관도를 의미한다.
또한, 상기 가중치 연산부(220)는 코사인, 다이스, 자카드 또는 로그승산비 등의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구한다.
예를 들어, 학습 대상 문서에 나타난 n개의 단어 자질집합과 후보범주 m개의 집합을 각각 F={f1, f2, f3, ..., fn}와 C={c1, c2, c3, ...., cn}로 표현하고, 자질 fi가 범주 cj에 대하여 가지는 가중치를 vs(fi, cj)라고 한다.
이때, 키워드에 해당하는 자질 f와 키워드가 속한 주제분야를 의미하는 범주 c간의 관계는 표1과 같다.
표 1
범주 cj 소속 범주 cj 미소속
자질 fi 출현 TP TN
자질 fi 미출현 FP FN
상기 가중치 연산부(220)는 자질에 대한 가중치를 부여하기 위하여 수학식 1을 이용하여 코사인 유사계수(cos(fi, cj))를 구하고, 상기 구해진 코사인 유사계수를 이용한 수학식 2를 이용하여 자질별 가중치(vs(fi, cj))를 구한다.
수학식 1
Figure PCTKR2010007243-appb-M000001
여기서, TP는 자질 fi가 출현하고 범주 cj에 속하는 경우의 빈도수를 말하고, FP는 자질 fi가 출현하지 않으나 범주 cj에 속하는 경우의 빈도수, TN은 자질 fi가 출현하나 범주 cj에 속하지 않은 경우의 빈도수를 말하고, FN은 자질 fi가 출현하지 않으면서 범주 cj에 속하지 않은 경우의 빈도수를 말한다.
수학식 2
Figure PCTKR2010007243-appb-M000002
여기서, fi: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(fi, cj): 코사인 유사계수일 수 있다.
즉, 상기 가중치 연산부(220)는 자질 가중치에 역문헌 빈도수(Inverse Document Frequency)를 추가한 수학식 2를 이용하여 최종 자질별 가중치를 구한다.
또한, 상기 가중치 연산부(220)는 수학식 3과 같은 로그승산비(lor(fi,c)j) 공식을 이용하여 유사도를 구할 수 있다.
수학식 3
Figure PCTKR2010007243-appb-M000003
n개의 자질을 갖는 문헌 d로 구성된 데이터베이스의 경우, 상기 가중치 연산부(220)는 각 계산된 자질별 가중치를 이용하여 수학식 4와 같은 자질값 벡터(d)로 표현할 수 있다.
수학식 4
Figure PCTKR2010007243-appb-M000004
여기서, 문헌 벡터d를 구성하는 vs(fi, cj)는 코사인, 다이스, 자카드 또는 로그승산비 등의 유사계수를 이용하거나 다양한 거리계수를 이용하여 산출한 문헌 d안의 자질 fi의 가중치를 의미한다.
상기 자질 특성 매트릭스 생성부(225)는 학습 대상 문서를 구성하는 각 자질에 대해 상기 가중치 연산부(220)에서 구해진 가중치를 포함하는 자질 특성 매트릭스를 생성한다. 즉, 상기 자질 특성 매트릭스 생성부(225)는 학습 대상 문서를 구성하는 개별 자질에 대해 문서번호, 범주 코드, 가중치, 범주 특성값 등으로 필드가 구성된 자질 특성 매트릭스를 생성한다. 여기서, 상기 범주 특성값은 자질이 출현하고 특정 범주에 속하는 경우의 빈도수, 자질이 출현하지 않으나 특정 범주에 속하는 경우의 빈도수, 자질이 출현하나 특정 범주에 속하지 않은 경우의 빈도수, 자질이 출현하지 않으면서 특정 범주에도 속하지 않은 경우의 빈도수를 말한다.
상기 자질 특성 매트릭스는 분류기 동적 결합 장치가 복수의 분류기를 동적으로 결합할 때 이용된다.
상기 용어벡터 생성부(230)는 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성한다. 상기 생성된 용어벡터는 각 자질에 대해 "범주, 가중치"의 쌍으로 구성되어 있다.
상기 범주 결정부(240)는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부(230)에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다.
즉, 상기 범주 결정부(240)는 상기 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정한다.
따라서, 상기 범주 결정부(240)는 수학식 5를 이용하여 상기 분류 대상 문서의 범주를 결정한다.
수학식 5
Figure PCTKR2010007243-appb-M000005
여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미한다.
예를 들어, 실험 문서인 d={f1, f2, f3, ..., fn}, 주제 범주를 C={c1, c2, c3, ...., cn}라고 할 때, 자질 fi가 범주 cj에 대하여 가지는 가중치를 vs(fi, cj)라고 하면, 자질값 투표 분류기는 수학식 5를 만족하는 범주 cj를 문서에 할당한다.
상기 저장부(250)에는 각 자질별 범주코드, 가중치, 범주 특성값 등이 표시된 자질 특성 매트릭스가 저장되어 있다.
도 3은 본 발명에 따른 분류기 동적 결합 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 3을 참조하면, 분류기 동적 결합 장치(300)는 자질 추출부(310), 통합 매트릭스 생성부(320), 가중치 연산부(330), 용어벡터 생성부(340), 범주 결정부(350)를 포함한다.
상기 자질 추출부(310)는 복수개의 결합 대상 자질 특성 매트릭스로부터 자질을 추출한다. 이때, 상기 자질 추출부(310)는 각 자질에 대해 분류기 생성 장치에 의해 생성된 자질 특성 매트릭스에서 자질을 추출하게 된다.
상기 통합 매트릭스 생성부(320)는 상기 추출된 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다. 즉, 상기 통합 매트릭스 생성부(320)는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다.
이때, 상기 통합 매트릭스 생성부(320)는 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하며, 그 결과를 데이터베이스에 저장한다.
또한, 상기 통합 매트릭스 생성부(320)는 상기 자질 추출부(310)에서 추출된 고유한 자질의 리스트를 만들고, 상기 결합 대상 자질 특성 매트릭스로부터 전체 범주코드를 추출하여 범주코드 리스트를 만든다. 그런 다음 상기 통합 매트릭스 생성부(320)는 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하고, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성한다.
또한, 상기 통합 매트릭스 생성부(320)는 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성한다.
즉, 상기 통합 매트릭스 생성부(320)는 자질이 모든 개별 테이블에 출현하지는 않으므로, 자질의 개수, 전체 문헌의 수 등 각 자질 특성 매트릭스의 통합 정보를 동적으로 산출하여 TP, TN, FP, FN, 유사도, 역문헌빈도(IDF) 등의 범주 특성값을 재계산하게 된다.
다시 말하면, 상기 통합 매트릭스 생성부(320)는 각 자질에 대해 범주별로 TP, TN, FP, FN을 합산한다. 이때, 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 생성하게 된다.
예를 들어, 기 설정된 범주코드 정보가 "바이오, 화학, 지리, 수학"의 4가지인데, 특정 자질에 "수학"에 해당하는 범주가 없다면, 상기 통합 매트릭스 생성부(320)는 다른 자질의 값으로부터 전체의 합을 구하고, 모든 범주에 대해 FP와 FN을 구하여 "수학"에 대한 범주를 생성하게 된다.
상기 가중치 연산부(330)는 상기 통합 매트릭스 생성부(320)에서 생성된 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구한다. 상기 자질별 가중치를 계산하는 방법은 수학식 1 내지 수학식 3을 이용한다.
상기 용어벡터 생성부(340)는 상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다. 상기 생성된 용어벡터는 각 자질에 대해 "범주, 가중치"의 쌍으로 구성되어 있다.
상기 범주 결정부(350)는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부(340)에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다.
즉, 상기 범주 결정부(350)는 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정한다. 이때, 상기 범주 결정부(350)는 수학식 5를 이용하여 상기 분류 대상 문서의 최종 범주를 결정한다.
상기 분류기 동적 결합 장치(300)는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 용량 분할부(미도시)를 더 포함할 수 있다. 그러면, 상기 통합 매트릭스 생성부(320)는 상기 용량 분할부(미도시)에 의해 분할된 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성하게 된다.
상기 용량 분할부(미도시)는 이질적인 데이터베이스의 용량이 일정 용량 이상인 경우, 그 크기를 분할하여 대용량의 데이터를 처리할 수 있도록 한다.
또한, 상기 분류기 동적 결합 장치(300)는 통합 매트릭스 생성 관리부(370)를 더 포함할 수도 있다. 상기 통합 매트릭스 생성 관리부(370)는 상기 통합 매트릭스 생성부(320)에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 통합 매트릭스를 생성한다.
즉, 상기 통합 매트릭스 생성 관리부(370)는 개별 자질 특성 매트릭스를 다양하게 조합하여 통합 매트릭스를 생성하는 것처럼, 상기 통합 매트릭스 생성부(320)에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스 또는 다른 통합 매트릭스와 다양하게 조합하여 새로운 거대한 통합 매트릭스를 생성한다.
도 4는 본 발명의 실시예에 따른 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법을 나타낸 흐름도이다.
도 4를 참조하면, 분류기 생성장치는 해당 데이터베이스의 학습 대상 문서로부터 자질을 추출하고(S400), 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한다(S402).
그런 다음 상기 분류기 생성 장치는 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성한다(S404). 상기 자질 특성 매트릭스는 자질, 범주, 유사도, 가중치, 범주 특성값 등이 표시되어 있다.
상기 S404의 수행 후, 상기 분류기 생성장치는 신규로 수집되는 분류 대상 문서에 대해 상기 생성된 용어 벡터를 이용하여 범주를 결정한다(S406). 즉, 상기 분류기 생성 장치는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산하고, 그 계산한 결과 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다.
상기 S406이 수행되면, 상기 분류기 생성 장치는 상기 S404에서 생성된 자질 특성 매트릭스를 분류기 동적 결합 장치에 제공한다(S408).
상기 분류기 동적 결합 장치는 상기 분류기 생성 장치로부터의 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다(S410). 즉, 상기 분류기 동적 결합 장치는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다. 이때, 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장한다.
상기 S410의 수행 후, 상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다(S412).
도 5는 본 발명의 실시예에 따른 분류기 동적 결합 장치가 개별 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법을 나타낸 흐름도이다.
도 5를 참조하면, 분류기 동적 결합 장치는 결합 대상 데이터베이스내의 자질 특성 매트릭스로부터 자질을 추출하고(S500), 상기 추출된 자질에 대한 코드정보를 리스트화하고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다(S502). 이때, 상기 분류기 동적 결합 장치는 기 설정된 범주코드 정보를 근거로 적어도 하나의 범주가 존재하지 않은 자질이 존재하는 경우, 해당 자질에 대해 전체 범주 리스트에서 자동으로 해당 범주에 대한 필드를 생성하여, 통합 매트릭스를 생성하게 된다.
또한, 상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 거대한 통합 매트릭스를 생성할 수 있다.
상기 S502의 수행 후, 상기 분류기 동적 결합 장치는 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고(S504), 그 유사도를 이용하여 자질별 가중치를 구한다(S506). 이때, 상기 분류기 동적 결합 장치는 코사인, 다이스, 자카드 또는 로그승산비 등의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구한다.
상기 S506의 수행 후, 상기 분류기 동적 결합 장치는 상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치를 포함하는 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성한다(S508).
그런 다음, 상기 분류기 동적 결합 장치는 신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정한다(S510).
도 6은 본 발명의 실시예에 따른 분류기 동적 결합 장치가 개별 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법을 나타낸 흐름도이다.
도 6을 참조하면, 분류기 동적 결합 장치는 결합 대상 데이터베이스를 일정 크기의 용량으로 분할한다(S600).
그런 다음 상기 분류기 동적 결합 장치는 각 분할된 용량내의 자질 특성 매트릭스로부터 각각 자질을 추출하고(S602), 상기 추출된 자질에 대한 코드정보를 리스트화하고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한다(S604).
S606부터 S612는 도 5의 S504부터 S510과 상응하므로, 그 설명은 생략하기로 한다.
상기와 같은 방법에 의해 상기 분류기 동적 결합 장치는 대용량의 학습 문서를 자동으로 분할하고 동적으로 결합할 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
이상과 같이 본 발명의 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법은 대용량의 문서를 학습시킬 수 있는 대용량 분류기 생성을 위해 복수의 결합대상 데이터베이스를 동적으로 결합하여 어떤 데이터베이스에 대해서도 범용적으로 적용할 필요성이 높은 것에 적합하다.

Claims (29)

  1. 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 데이터베이스;
    각 데이터베이스의 학습 대상 문서로부터 자질을 추출하고, 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 연산한 후, 각 자질에 대해 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류대상 문서의 범주를 결정하는 개별 분류기를 생성하는 분류기 생성 장치; 및
    복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성한 후 상기 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기 동적 결합 장치;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  2. 제1항에 있어서,
    상기 분류기 생성 장치는 각 데이터베이스별로 구비된 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  3. 제1항에 있어서,
    상기 분류기 생성장치는 상기 학습 대상 문서를 구성하는 모든 자질에 대해 상기 용어 벡터를 선형 결합하여 투표결과가 높은 값을 상기 분류 대상 문서의 범주로 결정하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  4. 제1항에 있어서,
    상기 분류기 동적 결합 장치는 상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하여 각 용량에 대한 통합 매트릭스를 생성하고, 각 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  5. 제1항에 있어서,
    상기 분류기 동적 결합 장치는 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 반복적으로 수행하여 새로운 하나의 통합 매트릭스를 생성하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템.
  6. 학습 대상 문서로부터 자질을 추출하는 자질 추출부;
    상기 추출된 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부;
    상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 가중치 연산부에서 구해진 가중치를 포함하는 자질 특성 매트릭스를 생성하는 자질 특성 매트릭스 생성부;
    상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 용어벡터 생성부; 및
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부;
    를 포함하는 분류기 생성 장치.
  7. 제6항에 있어서,
    상기 자질 추출부는 학습 대상 문서의 키워드 필드를 이용하는 방법, 코퍼스 사전을 기반으로 제목 또는 초록의 비구조적 정보로부터 정보를 추출하여 이용하는 방법, 스테밍 또는 형태소 분석기법을 이용하는 자연어 처리방법들 중 적어도 하나를 통해 자질을 추출하는 것을 특징으로 하는 분류기 생성 장치.
  8. 제6항에 있어서,
    상기 가중치 연산부는 코사인, 다이스, 자카드, 로그승산비 중 적어도 하나의 유사계수를 이용하거나 다양한 거리계수를 이용하여 유사도를 구하는 것을 특징으로 하는 분류기 생성 장치.
  9. [규칙 제26조에 의한 보정 05.11.2010] 
    제6항에 있어서, 상기 가중치 연산부는 자질 가중치에 역문헌 빈도(Inverse Document Frequency)를 추가한
    Figure WO-DOC-FIGURE-109
    를 이용하여 최종 자질별 가중치(
    Figure WO-DOC-FIGURE-109a
    )를 구하는 것을 특징으로 하는 분류기 생성 장치.
  10. 제6항에 있어서,
    상기 용어벡터 생성부는 각 자질에 대해 "범주, 가중치" 쌍으로 구성된 용어벡터를 생성하는 것을 특징으로 하는 분류기 생성 장치.
  11. 제6항에 있어서,
    상기 범주 결정부는 상기 신규로 수집되는 분류 대상 문서를 구성하는 자질들에 대해 분류기에서 학습되어 저장된 용어벡터를 매칭하여 벡터정보의 주제별 가중치값을 모두 합한 후, 투표형식으로 계산한 결과의 최대값을 갖는 특정범주를 최종범주로 결정하는 것을 특징으로 하는 분류기 생성 장치.
  12. 제6항에 있어서,
    상기 자질 특성 매트릭스는 자질별 문서번호, 범주코드, 가중치, 범주 특성값을 포함하되,
    상기 범주 특성값은 자질이 출현하고 특정 범주에 속하는 경우의 빈도수, 자질이 출현하지 않으나 특정 범주에 속하는 경우의 빈도수, 자질이 출현하나 특정 범주에 속하지 않은 경우의 빈도수, 자질이 출현하지 않으면서 특정 범주에도 속하지 않은 경우의 빈도수를 포함하는 것을 특징으로 하는 분류기 생성 장치.
  13. 복수개의 결합 대상 데이터베이스내 자질 특성 매트릭스로부터 자질을 추출하는 자질 추출부;
    상기 추출된 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 통합 매트릭스 생성부;
    상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 각각 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 가중치 연산부; 및
    상기 통합 매트릭스를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 용어벡터 생성부;
    를 포함하는 분류기 동적 결합 장치.
  14. 제13항에 있어서,
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 범주 결정부를 더 포함하는 분류기 동적 결합 장치.
  15. 제13항에 있어서,
    상기 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 용량 분할부를 더 포함하는 분류기 동적 결합 장치.
  16. 제13항 또는 제15항에 있어서,
    상기 통합 매트릭스 생성부는 상기 용량 분할부에 의해 분할된 각 용량에 대한 통합 매트릭스를 병렬로 동시에 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  17. 제13항에 있어서,
    상기 통합 매트릭스 생성부에서 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 통합 매트릭스를 생성하는 통합 매트릭스 생성 관리부를 더 포함하는 분류기 동적 결합 장치.
  18. 제13항에 있어서,
    상기 통합 매트릭스 생성부는 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  19. 제18항에 있어서,
    상기 통합 매트릭스 생성부는 각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장하는 것을 특징으로 하는 분류기 동적 결합 장치.
  20. 제13항에 있어서,
    상기 통합 매트릭스 생성부는 상기 자질 추출부에서 추출된 고유한 자질의 리스트를 만들고, 상기 결합 대상 자질 특성 매트릭스로부터 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되,
    존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  21. 제20항에 있어서,
    상기 통합 매트릭스 생성부는 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성하는 것을 특징으로 하는 분류기 동적 결합 장치.
  22. (a) 복수의 분류기 생성장치가 각 데이터베이스의 학습 대상 문서로부터 자질을 각각 추출하는 단계;
    (b) 상기 복수의 분류기 생성장치가 상기 추출된 자질과 범주의 유사도를 구하여 자질별 가중치를 각각 연산하는 단계;
    (c) 상기 복수의 분류기 생성장치가 상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스 및 용어 벡터를 생성하여 신규로 수집되는 분류 대상 문서의 범주를 각각 결정하는 개별 분류기를 각각 생성하는 단계;
    (d) 분류기 동적 결합 장치가 복수개의 결합 대상 자질 특성 매트릭스에 출현한 자질들의 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계; 및
    (e) 상기 분류기 동적 결합 장치가 상기 생성된 통합 매트릭스를 이용하여 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  23. 제22항에 있어서,
    상기 (c)단계는,
    상기 학습 대상 문서를 구성하는 각 자질에 대해 상기 연산된 가중치를 포함하는 자질 특성 매트릭스를 생성하는 단계;
    상기 학습 대상 문서를 구성하는 각 자질에 대해 가중치가 표시된 용어 벡터를 생성하는 단계; 및
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 개별 분류기를 생성하는 단계를 포함하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  24. 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서,
    (a) 결합 대상 데이터베이스내의 자질 특성 매트릭스로부터 자질을 추출하는 단계;
    (b) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계;
    (c) 상기 통합 매트릭스를 구성하는 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계; 및
    (d) 상기 통합 매트릭스를 구성하는 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  25. 제24항에 있어서,
    신규로 수집되는 분류 대상 문서로부터 추출된 자질과 동일한 자질에 대해, 상기 용어벡터 생성부에서 생성된 복수의 용어벡터를 결합하여 투표형식으로 계산한 결과, 최대값을 갖는 특정 범주를 상기 분류 대상 문서의 최종 범주로 결정하는 단계를 더 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  26. 제24항에 있어서,
    상기 (b)단계 이후, 상기 생성된 통합 매트릭스를 개별 자질 특성 매트릭스와 통합 또는 다른 통합 매트릭스와 통합하는 과정을 피라미드식으로 반복적으로 수행하여 새로운 거대한 통합 매트릭스를 생성하는 단계를 더 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  27. 제24항에 있어서,
    상기 (b)단계는, 상기 자질 특성 매트릭스에 출현한 자질값의 전체 셋을 만들고 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하되,
    각 자질에 대해 전체 범주 리스트에서 빠진 범주는 자동으로 계산하여 그 범주에 대한 필드를 메모리상에 동적으로 생성하고, 각 자질에 대한 전체 범주 특성값을 합산하여 통합 매트릭스를 생성하고, 그 결과를 데이터베이스에 저장하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  28. 제24항에 있어서,
    상기 (b)단계는, 상기 자질 특성 매트릭스에서 추출된 고유한 자질의 리스트를 만들고, 전체 범주코드를 추출하여 범주코드 리스트를 만든 후, 각 개별 테이블에서 특정 자질에 대한 정보가 있는 경우 전체 범주코드에 대한 범주 특성값을 추출하되, 존재하지 않은 범주코드에 대해서는 범주 특성값을 계산하여 생성하고,
    상기 각 개별 테이블 중에서 특정 자질이 존재하지 않은 경우, 해당 자질을 만들고 상기 범주코드 리스트에 있는 모든 범주코드별로 범주 특성값을 각각 생성하는 것을 특징으로 하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
  29. 분류기 동적 결합 장치가 분류기의 동적 결합에 의해 대용량 분류기를 자동으로 생성하는 방법에 있어서,
    (a) 결합 대상 데이터베이스를 일정 크기의 용량으로 분할하는 단계;
    (b) 각 분할된 용량내의 자질 특성 매트릭스로부터 자질을 추출하는 단계;
    (c) 상기 추출된 자질에 대한 코드정보를 리스트화하고, 각 자질에 대한 범주 특성값을 합산하여 통합 매트릭스를 생성하는 단계;
    (d) 상기 통합 매트릭스에 표시된 각 자질과 범주의 유사도를 구하고, 그 유사도를 이용하여 자질별 가중치를 구하는 단계; 및
    (e) 상기 통합 매트릭스에 표시된 각 자질에 대한 가중치가 포함된 용어 벡터를 생성하여 상기 결합 대상 데이터베이스의 모든 자질 정보를 학습한 통합 분류기를 생성하는 단계;
    를 포함하는 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 방법.
PCT/KR2010/007243 2010-10-12 2010-10-21 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법 WO2012050252A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0099164 2010-10-12
KR1020100099164A KR101035038B1 (ko) 2010-10-12 2010-10-12 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2012050252A1 true WO2012050252A1 (ko) 2012-04-19

Family

ID=44366142

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/007243 WO2012050252A1 (ko) 2010-10-12 2010-10-21 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR101035038B1 (ko)
WO (1) WO2012050252A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678848B2 (en) 2018-02-12 2020-06-09 Wipro Limited Method and a system for recognition of data in one or more images
CN113139143A (zh) * 2021-03-31 2021-07-20 杭州电子科技大学 面向智慧校园的网页表数据与关系型数据库数据集成方法
US11068718B2 (en) 2019-01-09 2021-07-20 International Business Machines Corporation Attribute classifiers for image classification
WO2021258635A1 (zh) * 2020-06-24 2021-12-30 山东建筑大学 基于用水规律的用户画像方法与系统
US11630987B2 (en) 2018-04-30 2023-04-18 International Business Machines Corporation Neural belief reasoner
US11922285B2 (en) 2021-06-09 2024-03-05 International Business Machines Corporation Dividing training data for aggregating results of multiple machine learning elements

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101339103B1 (ko) 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
KR102352481B1 (ko) * 2019-12-27 2022-01-18 동국대학교 산학협력단 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법
KR102370171B1 (ko) * 2020-02-25 2022-03-03 경희대학교 산학협력단 문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치
CN112800172B (zh) * 2021-02-07 2022-07-12 重庆大学 一种基于两阶段注意力机制的代码搜索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
KR20080053103A (ko) * 2006-12-08 2008-06-12 포항공과대학교 산학협력단 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
KR20090048261A (ko) * 2007-11-09 2009-05-13 조선대학교산학협력단 문서분류를 위한 의미적 주제선정방법
KR20090108530A (ko) * 2008-04-11 2009-10-15 한국전자통신연구원 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
KR20080053103A (ko) * 2006-12-08 2008-06-12 포항공과대학교 산학협력단 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
KR20090048261A (ko) * 2007-11-09 2009-05-13 조선대학교산학협력단 문서분류를 위한 의미적 주제선정방법
KR20090108530A (ko) * 2008-04-11 2009-10-15 한국전자통신연구원 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678848B2 (en) 2018-02-12 2020-06-09 Wipro Limited Method and a system for recognition of data in one or more images
US11630987B2 (en) 2018-04-30 2023-04-18 International Business Machines Corporation Neural belief reasoner
US11068718B2 (en) 2019-01-09 2021-07-20 International Business Machines Corporation Attribute classifiers for image classification
US11281912B2 (en) 2019-01-09 2022-03-22 International Business Machines Corporation Attribute classifiers for image classification
WO2021258635A1 (zh) * 2020-06-24 2021-12-30 山东建筑大学 基于用水规律的用户画像方法与系统
CN113139143A (zh) * 2021-03-31 2021-07-20 杭州电子科技大学 面向智慧校园的网页表数据与关系型数据库数据集成方法
CN113139143B (zh) * 2021-03-31 2022-07-12 杭州电子科技大学 面向智慧校园的网页表数据与关系型数据库数据集成方法
US11922285B2 (en) 2021-06-09 2024-03-05 International Business Machines Corporation Dividing training data for aggregating results of multiple machine learning elements

Also Published As

Publication number Publication date
KR101035038B1 (ko) 2011-05-19

Similar Documents

Publication Publication Date Title
WO2012050252A1 (ko) 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
WO2016171341A1 (ko) 클라우드 기반 병리 분석 시스템 및 방법
WO2015167074A1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
WO2013151221A1 (ko) 대용량 데이터의 클러스터 결과 분석 시스템 및 방법
WO2020258657A1 (zh) 异常检测方法、装置、计算机设备及存储介质
WO2017146337A1 (ko) 데이터베이스의 아카이빙 방법 및 장치, 아카이빙된 데이터베이스의 검색 방법 및 장치
WO2016099019A1 (ko) 특허문서 분류 시스템 및 방법
WO2010137814A2 (en) Method of providing by-viewpoint patent map and system thereof
WO2021215551A1 (ko) 블록체인 기반의 전자 연구노트 검증 방법 및 이를 이용한 전자 연구노트 관리 장치
WO2012046906A1 (ko) 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법
WO2017115994A1 (ko) 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
WO2019198950A1 (ko) 컨텐츠 정보 제공 장치 및 그 방법
WO2022220354A1 (ko) 어군 생태계의 이상 여부를 감지하기 위한 어군 생태계 모니터링 시스템 장치 및 그 동작 방법
WO2017057858A1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
WO2012046904A1 (ko) 다중 자원 기반 검색정보 제공 장치 및 방법
WO2022050551A1 (ko) 법률 서비스 제공 시스템 및 그 방법
WO2011068315A4 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
WO2022080583A1 (ko) 시계열 분포 특징을 고려한 딥러닝 기반 비트코인 블록 데이터 예측 시스템
WO2013008978A1 (ko) 개체 식별 결과 검색 시스템 및 방법
WO2013187587A1 (ko) 데이터 샘플링 방법 및 장치
WO2023113158A1 (ko) 범죄 행위자 프로파일링 방법, 이를 수행하는 장치 및 컴퓨터 프로그램
WO2012030049A2 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
WO2011136413A1 (ko) 특허 유사도 검출에 의한 지적재산권 포괄 성형망 구현장치 및 방법
WO2012144684A1 (ko) 기술의 발전 속도 예측 장치 및 방법
WO2022114447A1 (ko) 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10858439

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10858439

Country of ref document: EP

Kind code of ref document: A1