WO2011068315A4 - 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법 - Google Patents

최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법 Download PDF

Info

Publication number
WO2011068315A4
WO2011068315A4 PCT/KR2010/008115 KR2010008115W WO2011068315A4 WO 2011068315 A4 WO2011068315 A4 WO 2011068315A4 KR 2010008115 W KR2010008115 W KR 2010008115W WO 2011068315 A4 WO2011068315 A4 WO 2011068315A4
Authority
WO
WIPO (PCT)
Prior art keywords
document
database
category
maximum
classification target
Prior art date
Application number
PCT/KR2010/008115
Other languages
English (en)
French (fr)
Other versions
WO2011068315A2 (ko
WO2011068315A3 (ko
Inventor
정도헌
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2011068315A2 publication Critical patent/WO2011068315A2/ko
Publication of WO2011068315A3 publication Critical patent/WO2011068315A3/ko
Publication of WO2011068315A4 publication Critical patent/WO2011068315A4/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Definitions

  • the present invention relates to a method and apparatus for optimizing a concept by using a maximum concept intensity recognition technique to maximize the performance of automatically classifying (automatically categorizing) an optimal database for a newly input document in a plurality of distributed database environments And a method thereof.
  • a maximum weight value is calculated by linearly combining vector information calculated from a plurality of databases by using a feature value extracted from an input classification object document, a distributed database in which a classification object document is best classified is selected,
  • the present invention provides an optimum domain selection apparatus and method using the maximum conceptual strength recognition technique.
  • a distributed database in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term attribute of the document, A maximum concept value for determining the maximum value of the weighted value computed by the feature value of the document category after determining the category of the classified document by computing a weight value for each attribute using the extracted similarity of the qualities and category, And a database selection unit for selecting a distributed database similar to the characteristics of the classification object document by applying the maximum concept intensity of the classification object document determined by the maximum conceptual strength determination unit to the distributed database, .
  • the result values selected by the database selection unit are accumulated for each classification target document, And a counter for selecting a distributed database that is semantically specified as the most similar database.
  • a distributed database in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term attribute of the document, Calculating a weight value for each attribute by using the extracted attribute and category similarity, calculating a maximum value by calculating a category value of the classification object document and a weight value for each attribute of the document category, And a weighted maximum value for each category and qualities of the calculated document is applied to the distributed database, so that a distributed database similar to the characteristics of the classified document and a category corresponding to the document in the database are simultaneously selected And a database and category selection unit.
  • the distributed database result values selected by the database and the category selection unit are accumulated for each classification target document And a counter unit for selecting a distributed database in which the entire classification target document is classified.
  • the weight values of the qualities of the optimal database selection apparatus using the maximum conceptual strength recognition technique according to the present invention can be calculated from the qualification value voting classifier using the cosine-like coefficient, which is a correlation scale having a high frequency preference tendency have.
  • the maximum concept intensity determiner of the optimum database selection apparatus using the maximum conceptual strength recognition technique according to the present invention, or the maximum value calculator for each category and feature may calculate the weight value for each feature by the following equation have.
  • the maximum conceptual strength determination unit of the optimal database selection apparatus using the maximum conceptual strength recognition technique according to the present invention can determine the category of the classification target document according to the following equation.
  • the maximum concept intensity determiner or the maximum weight calculation unit for each category and attribute of the optimal database selection apparatus using the maximum conceptual strength recognition technique according to the present invention may calculate the weighted maximum value by the category and the document category The maximum value calculated by the weighting value for each attribute can be determined.
  • the database selection unit of the optimum database selection apparatus using the maximum conceptual strength recognition technique according to the present invention can select a distributed database similar to the characteristics of the classification target document among the respective distributed databases by the following equation.
  • the counter unit of the optimal database selection apparatus using the maximum conceptual strength recognition technique according to the present invention can select a distributed database similar to the characteristics of the entire classification target document among the respective distributed databases by the following equation.
  • a distributed database including a distributed database in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term attribute of the document, (A) extracting a feature from a classification object document and calculating a weight value for each feature using the extracted feature and the degree of similarity of the category; and (b) determining a category of the document to be classified using the weight value for each attribute, and determining a maximum value of the calculated weight value for each attribute of the document as a maximum concept intensity; and (c) The maximum concept intensity is applied to each of the distributed databases, Emitter comprises selecting a base.
  • the steps (a) to (c) are repeated for each classification target document, Selecting a distributed database having a maximum cumulative number of distributed databases selected in the step of selecting a distributed database.
  • the weight value for each of the qualities may be calculated by the following equation.
  • the category of the classification target document may be determined by the following equation.
  • the categories of the classified document and the feature value weight values for the document category are calculated by the following equations .
  • a database similar to the characteristics of the classification object document among the distributed databases may be selected by the following equation .
  • a distributed database including a distributed database in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term attribute of the document, (A) extracting a feature from a classification object document and calculating a weight value for each feature using the extracted feature and the degree of similarity of the category; and (b) calculating a maximum value obtained by calculating a category value of the classification target document and a weight value of each category of the document using the weight value for each attribute; and (c) A maximum value obtained by calculating a weight value for each property of the category is applied to each of the distributed databases,
  • the database similar to the characteristics of the document includes the step of selecting a category to which the document the same time.
  • the steps (a) to (c) are repeated for each classification target document, A distributed database having a maximum cumulative number of distributed databases selected in the step of selecting a category and a category corresponding to the document in the database at the same time.
  • a program for performing an optimal domain selection method using a maximum conceptual strength recognition technique can be recorded and recorded in a recording medium readable by an electronic device.
  • a distributed database in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term attribute of the document, Calculating a weight value for each attribute by using the extracted attribute and category similarity, calculating a maximum value by calculating a category value of the classification object document and a weight value for each attribute of the document category, A distributed database that is similar to the characteristics of the classified document by applying the weighted maximum value for each category and qualities of the calculated document to the distributed database, and a database that simultaneously selects categories corresponding to the document in the database And a category selection unit, And an external terminal which processes the authentication procedure with the server and receives information on the database and the categories corresponding to the classification target document selected from the server through the wired / wireless communication network, .
  • the server of the optimal database selection system using the maximum conceptual strength recognition technique according to the present invention accumulates the result values selected by the database selection unit with respect to each classification target document when a plurality of the classification target documents are input, A distributed database in which the entirety of the classification target document is classified, and a counter unit that simultaneously selects a category corresponding to the document in the database.
  • FIG. 1 is a diagram schematically illustrating a configuration of an optimal database selection apparatus using a maximum conceptual strength recognition technique according to a first embodiment of the present invention.
  • FIG. 2 is a schematic diagram illustrating an optimal database selection apparatus using a maximum conceptual strength recognition technique according to a second embodiment of the present invention. Referring to FIG.
  • FIG. 3 is a flowchart illustrating an optimal database selection method using the maximum conceptual strength recognition technique according to the first embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating an optimal database selection method using a maximum conceptual strength recognition technique according to a second embodiment of the present invention.
  • FIG. 5 is a diagram schematically illustrating a configuration of an optimal database selection system using a maximum conceptual strength recognition technique according to the present invention.
  • FIG. 6 is a diagram for explaining an optimal database selection method using the maximum conceptual strength recognition technique according to the present invention.
  • FIGS. 7 to 12 are diagrams showing results of cross-testing of a database for an experimental document set using an optimal database selection method using the maximum conceptual strength recognition technique according to the present invention.
  • FIG. 1 is a block diagram schematically illustrating an optimal database selection apparatus using a maximum conceptual strength recognition technique according to a first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a maximum conceptual strength
  • FIG. 1 is a schematic diagram showing a configuration of an optimum database selection apparatus using a recognition technique.
  • an optimal database selection apparatus 100 using a maximum conceptual strength recognition technique includes a distributed database 110, a maximum conceptual strength determination unit 120a, A selection unit 130a and a counter unit 140.
  • the distributed database 110 refers to a space in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term attribute of the document.
  • a GTB database storing technological trends
  • An SOC in which a thesis is stored
  • an NDS database in which overseas academic papers are stored
  • a GNS database in which the above three databases are integrated.
  • Each of the distributed databases 110 includes a classifier learned from a stored document, and a weight value for each qualifier (keyword) is calculated from each classifier to classify the category (subject field) of the document.
  • the maximum conceptual strength determination unit 120a may extract the qualities from the classification target document and calculate weight values for the qualities using the extracted qualities and similarity of the categories.
  • the maximum conceptual strength determining unit 120a may determine the maximum value of the concept value by calculating the weight value of each attribute of the document category after determining the category of the document to be classified.
  • the weight value of each qualitative means the degree of association between the qualities (keyword) and the category (subject field), and the weight values of the qualities are the qualitative value voting classifiers using the similarity coefficient having the high frequency preference tendency .
  • the similarity coefficients are the Jacquard Coefficient, the Cosine Coefficient and the log-odds ratios, the mutual information, etc., which have a tendency to prefer low frequencies, Can be applied in various ways.
  • the maximum conceptual strength determiner 120 calculates the weight values v (f, c j ) for the qualities according to [Equation 1] and calculates the category c determining a j), and may determine a category of the target document is classified by the formula 3] (c j) and the maximum value (v max cj) by calculating a quality value of the weight values for the document category.
  • the database selection unit 130a applies the maximum concept intensity of the classification target document determined by the maximum conceptual strength determination unit 120a to the distributed database 110 to obtain a distributed database 110 similar to the characteristic of the classification target document You can choose.
  • the database selection unit 130a can select a distributed database similar to the characteristics of the classification target document among the respective distributed databases 110 by using (Equation 4).
  • the counter 140 can accumulate the result values selected by the database selection unit 130a for each classification target document and select the distributed database 110 in which the entire classification target document is classified .
  • the counter unit 140 selects a distributed database similar to the characteristics of the entire classification target document using the result of accumulating " 1 & .
  • the optimal database selection apparatus 100 using the maximum conceptual strength recognition technique includes a distributed database 110, a weighted maximum value calculation unit 120b, a database and category selection unit 130b, and a counter unit 140.
  • the functions of the decentralized database 110 and the counter 140 are similar to those described in the first embodiment, and the weight and maximum value calculation unit 120b and the database and category selection unit 130b This will be explained in detail.
  • the weight and maximum weight calculation unit 120b may extract the qualities from the classification target document and calculate weight values for the qualities using the extracted qualities and the degree of similarity of the categories.
  • the database and category selecting unit 130b applies the weighted maximum values according to categories and qualities of the calculated documents to the distributed database 110 to determine whether the documents in the distributed database 110 and the distributed database 110, You can select the appropriate category at the same time.
  • the database and category selecting unit 130b can simultaneously select the category of the database and the document to which the classification target document corresponds by the above-described [Expression 4] and [Expression 5].
  • FIG. 1 is a block diagram schematically illustrating an optimal database selection apparatus using a maximum conceptual strength recognition technique according to a first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a maximum conceptual strength
  • FIG. 1 is a schematic diagram showing a configuration of an optimum database selection apparatus using a recognition technique.
  • an optimal database selection apparatus 100 using a maximum conceptual strength recognition technique includes a distributed database 110, a maximum conceptual strength determination unit 120a, A selection unit 130a and a counter unit 140.
  • the distributed database 110 refers to a space in which a plurality of documents are classified and stored according to a characteristic of a document including a classification scheme and a term attribute of the document.
  • a GTB database storing technological trends
  • An SOC in which a thesis is stored
  • an NDS database in which overseas academic papers are stored
  • a GNS database in which the above three databases are integrated.
  • Each of the distributed databases 110 includes a classifier learned from a stored document, and a weight value for each qualifier (keyword) is calculated from each classifier to classify the category (subject field) of the document.
  • the maximum conceptual strength determination unit 120a may extract the qualities from the classification target document and calculate weight values for the qualities using the extracted qualities and similarity of the categories.
  • the maximum conceptual strength determining unit 120a may determine the maximum value of the concept value by calculating the weight value of each attribute of the document category after determining the category of the document to be classified.
  • the weight value of each qualitative means the degree of association between the qualities (keyword) and the category (subject field), and the weight values of the qualities are the qualitative value voting classifiers using the similarity coefficient having the high frequency preference tendency .
  • the similarity coefficients are the Jacquard Coefficient, the Cosine Coefficient and the log-odds ratios, the mutual information, etc., which have a tendency to prefer low frequencies, Can be applied in various ways.
  • the maximum conceptual strength determiner 120 calculates the weight values v (f, c j ) for the qualities according to [Equation 1] and calculates the category c determining a j), and may determine a category of the target document is classified by the formula 3] (c j) and the maximum value (v max cj) by calculating a quality value of the weight values for the document category.
  • the database selection unit 130a applies the maximum concept intensity of the classification target document determined by the maximum conceptual strength determination unit 120a to the distributed database 110 to obtain a distributed database 110 similar to the characteristic of the classification target document You can choose.
  • the database selection unit 130a can select a distributed database similar to the characteristics of the classification target document among the respective distributed databases 110 by using (Equation 4).
  • the counter 140 can accumulate the result values selected by the database selection unit 130a for each classification target document and select the distributed database 110 in which the entire classification target document is classified .
  • the counter unit 140 selects a distributed database similar to the characteristics of the entire classification target document using the result of accumulating " 1 & .
  • the optimal database selection apparatus 100 using the maximum conceptual strength recognition technique includes a distributed database 110, a weighted maximum value calculation unit 120b, a database and category selection unit 130b, and a counter unit 140.
  • the functions of the decentralized database 110 and the counter 140 are similar to those described in the first embodiment, and the weight and maximum value calculation unit 120b and the database and category selection unit 130b This will be explained in detail.
  • the weight and maximum weight calculation unit 120b may extract the qualities from the classification target document and calculate weight values for the qualities using the extracted qualities and the degree of similarity of the categories.
  • the database and category selecting unit 130b applies the weighted maximum values according to categories and qualities of the calculated documents to the distributed database 110 to determine whether the documents in the distributed database 110 and the distributed database 110, You can select the appropriate category at the same time.
  • the database and category selecting unit 130b can simultaneously select the category of the database and the document to which the classification subject branch corresponds by the above-described [Expression 6] and [Expression 7].
  • a program for performing an optimal database selection method using a maximum conceptual strength recognition technique can be recorded and recorded in a recording medium readable by an electronic device.
  • the optimal database selection method using the maximum conceptual strength recognition technique can be written in a computer program, and the codes and code segments constituting the program can be easily deduced by a computer programmer in the field.
  • a program for an optimal database selection method using a maximum conceptual strength recognition method is stored in a computer readable medium, readable and executed by a computer, and can be automatically categorized have.
  • FIG. 3 is a flowchart illustrating an optimal database selection method using a maximum conceptual strength recognition technique according to a first embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a method of selecting a maximum conceptual strength recognition technique according to a second embodiment of the present invention.
  • FIG. 2 is a flowchart showing an optimal database selection method using the database.
  • a weight value for each input character is calculated (S310) (S320). Then, a distributed database similar to the characteristics of the classification target document is selected (S330), and a distributed database having the maximum cumulative number of selected distributed databases is selected as the final database (S340).
  • An optimal database selection method using a maximum conceptual strength recognition technique including a distributed database in which a plurality of documents are classified and stored means an algorithm for selecting a distributed database to be classified according to the characteristics of a classification target document.
  • the optimal database selection method using the maximum conceptual strength recognition technique according to the present invention is a method of classifying a document using a result value obtained by measuring maximum concept strength of individual documents.
  • the maximum concept intensity is calculated by Equation (5), and is defined as a maximum value obtained by calculating a weight value for each property.
  • the method of obtaining the weight value of each attribute is to extract the attribute from each classified document and calculate it using the extracted attribute and the degree of similarity of the category and calculate the weight value according to the attribute of the document using the category of the determined document
  • the maximum value is determined as the maximum concept intensity.
  • the maximum value of the category of the document and the calculated value of the weight for each category of the category of the document can be determined by [Equation 1] to [Equation 5] as described above.
  • a distributed database similar to the characteristics of the classification object document can be selected by applying the maximum concept intensity to each of the distributed databases.
  • the above steps S310 to S330 are methods for selecting a distributed database for one document. When a plurality of documents to be classified are input, the above steps S310 to S330 are repeated for each document to be classified , A distributed database having the largest cumulative number of selected distributed databases can be selected.
  • a weight value for each attribute is calculated (S410) (S420), and selects a category corresponding to the document in the distributed database and the database similar to the characteristics of the classification target document (S430). Then, the selected distributed database The distributed database having the maximum cumulative number can be selected as the final database (S440).
  • the optimal database selection method using the maximum conceptual strength recognition technique according to the second embodiment of the present invention is similar to the optimal database selection method using the maximum conceptual strength recognition technique according to the first embodiment, At the same time, there is a difference in determining the category of documents corresponding to the selected distributed database.
  • FIG. 5 is a diagram schematically illustrating a configuration of an optimal database selection system using a maximum conceptual strength recognition technique according to the present invention.
  • the optimal database selection system using the maximum conceptual strength recognition technique includes a server 510, a wired / wireless communication network 520, and an external terminal 530.
  • the server 510 includes components of an optimal database selection device using the maximum conceptual strength recognition technique described above and transmits information on a database and a category of the classification target document selected from the server 510 via the wired / And transmits it to the terminal 530.
  • the external terminal 530 processes the authentication procedure with the server 510, and the classification target document can receive information on the category of the corresponding database and document.
  • the server 510 can select a distributed database in which a plurality of documents to be classified are classified by accumulating selected database result values for each document to be classified.
  • FIG. 6 is a view for explaining an optimal database selection method using the maximum conceptual strength recognition technique according to the present invention
  • FIGS. 7 to 12 illustrate an optimal database selection method using the maximum conceptual strength recognition technique according to the present invention
  • FIG. 5 is a diagram showing a result of cross-experimenting a database with respect to an experimental document set.
  • Experimental models such as A, B, and C are prepared to test the probability of selecting an optimal database by an optimal database selection method using the maximum conceptual strength recognition technique according to the present invention.
  • A, B, or C experimental models can be implemented with GTB, SOC, or NDS learning models.
  • the second step is to compare the results of heterogeneous database classification experiments using the classifier.
  • the classifier generation is performed by extracting the qualities from the classification target document DB1, DB2 or DB3 and calculating the weight values by the qualities using the extracted qualities and the degree of similarity of the categories, and then, by linear combination of the subject- Create a classifier.
  • step 3 performance is measured and compared using an optimal database selection method using the maximum conceptual strength recognition technique according to the present invention.
  • the preprocessing step is divided into 8 types, and the qualities (keywords) are extracted using methods such as stemming and morphological analysis.
  • FIG. 7 shows a case where only the database (domain) is selected in the optimal database selection method using the maximum conceptual strength recognition technique according to the present invention after extracting the classification target experiment document set from the NDS database, Respectively.
  • the NDS experimental document set can be confirmed that the experiment with the NDS learning model occupies the highest percentage.
  • FIG. 8 is a flowchart illustrating a method for selecting a database (domain) and a category (subject field) in an optimal database selection method using the maximum conceptual strength recognition technique according to the present invention, Respectively.
  • the optimal database selection apparatus and method using the maximum conceptual strength recognition technique of the present invention can find an optimal model among individual learning models distributed in a difficult environment where large-scale learning models are difficult to construct, It is suitable for a need to construct an automatic classification environment suitable for the environment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스, 분류대상 문서가 입력되면 상기 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하여 상기 분류대상 문서의 범주를 결정한 후 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정하는 최대 개념강도 결정부, 및 상기 최대 개념강도 결정부에서 결정된 상기 분류대상 문서의 최대 개념강도를 상기 분산형 데이터베이스에 대하여 각각 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택하는 데이터베이스 선택부를 포함한다.

Description

최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
본 발명은 자질별 가중치값을 이용하여 다수의 분산형 데이터베이스 환경에서 신규로 입력된 문서에 대하여 최적의 데이터베이스를 선택해 자동 분류(자동범주 부여)하는 성능을 극대화하기 위한 최대 개념강도 인지기법을 이용한 최적의 도메인 선택장치 및 그 방법에 관한 것이다.
다양한 학술정보 데이터베이스를 구축하고 서비스하는 경우, 서비스 고도화를 위해 자주 언급되는 것이 개별 문서의 자동분류화와 통합 분류 체계의 적용에 대한 것이다.
그러나, 개별 문서의 자동분류 문제는 대용량의 데이터베이스 환경 하에서 학습모델을 대용량 기반으로 처리해야 하기 때문에 많은 연구에서 제안된 최적의 알고리즘을 실제 서비스에 적용하기 어려운 문제점이 있다.
통합정보 서비스의 경우 통합서비스의 표준 주제분류에 맞도록 여러 자원을 자동분류해야 하며, 이때 이기종 데이터베이스 간의 자동분류 성능이 현저히 떨어지기 때문에 실효성이 떨어지는 문제가 있다.
예를 들어, 논문과 특허, 또는 논문과 연구보고서의 경우 분류와 용어속성을 갖는 정보소스가 상이하고, 유사한 영역으로 생각되는 학술논문정보 내에서도 사용되는 용어개념이 상이하여 분류학습 모델을 일반화하기 어려운 문제가 있다.
따라서, 다양한 분야와 속성을 가진 정보자원이 구축된 분산형 데이터베이스 환경으로 새로운 자원(문서)이 입수되어 자동으로 해당되는 데이터베이스 및 문서의 범주를 할당해야 하는 자동분류 환경 구축이 요구된다.
본 발명은 입력된 분류대상 문서로부터 추출된 자질값을 이용해 여러 데이터베이스로부터 연산한 벡터정보를 선형 결합하여 최대 가중치값을 산출하여 분류대상 문서가 최적으로 분류되는 분산형 데이터베이스를 선택하고, 동시에 상기 데이터베이스에서 해당되는 문서의 범주를 부여하는 최대 개념강도 인지기법을 이용한 최적의 도메인 선택장치 및 그 방법을 제공한다.
본 발명의 한 특징에 따르면, 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스, 분류대상 문서가 입력되면 상기 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하여 상기 분류대상 문서의 범주를 결정한 후 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정하는 최대 개념강도 결정부, 및 상기 최대 개념강도 결정부에서 결정된 상기 분류대상 문서의 최대 개념강도를 상기 분산형 데이터베이스에 대하여 각각 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택하는 데이터베이스 선택부를 포함한다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치에 상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 데이터베이스 선택부에서 선택한 결과값을 누적하여 상기 분류대상 문서 전체가 의미적으로 가장 유사한 데이터베이스로 지정되는 분산형 데이터베이스를 선택하는 카운터부를 더 포함할 수 있다.
본 발명의 다른 특징에 따르면, 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스, 분류대상 문서가 입력되면 상기 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하고 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 산출하는 범주 및 자질별 가중치 최대값 산출부, 및 상기 산출된 문서의 범주와 자질별 가중치 최대값을 상기 분산형 데이터베이스에 대하여 각각 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스와 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 데이터베이스 및 범주 선택부를 포함한다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 데이터베이스 및 범주 선택부에서 선택된 분산형 데이터베이스 결과값을 누적하여 상기 분류대상 문서 전체가 분류되는 분산형 데이터베이스를 선택하는 카운터부를 더 포함할 수 있다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 상기 자질별 가중치값은 고빈도어 선호경향을 갖는 연관성 척도인 코사인 유사계수를 사용하는 자질값 투표형 분류기로부터 연산될 수 있다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 상기 최대 개념강도 결정부 또는 상기 범주 및 자질별 가중치 최대값 산출부는 아래 수학식에 의하여 상기 자질별 가중치값을 연산할 수 있다.
Figure PCTKR2010008115-appb-I000001
(여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 상기 최대 개념강도 결정부는 아래 수학식에 의하여 상기 분류대상 문서의 범주를 결정할 수 있다.
Figure PCTKR2010008115-appb-I000002
(여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미함)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 상기 최대 개념강도 결정부 또는 범주 및 자질별 가중치 최대값 산출부는 아래 수학식에 의하여 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 결정할 수 있다.
Figure PCTKR2010008115-appb-I000003
(여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 상기 데이터베이스 선택부는 아래 수학식에 의하여 각각의 분산형 데이터베이스 중 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택할 수 있다.
Figure PCTKR2010008115-appb-I000004
(여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 를 의미함)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 상기 카운터부는 아래 수학식에 의하여 각각의 분산형 데이터베이스 중 상기 분류대상 문서 전체의 특성과 유사한 분산형 데이터베이스를 선택할 수 있다.
Figure PCTKR2010008115-appb-I000005
(여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
본 발명의 다른 특징에 따르면, 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스를 포함하며 분류대상 문서가 입력되면 상기 분류대상 문서의 특성에 따라 데이터베이스가 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에 있어서, (a) 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하는 단계, (b) 상기 자질별 가중치값을 이용하여 상기 분류대상 문서의 범주를 결정하고 상기 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정하는 단계, 및 (c) 상기 최대 개념강도를 각각의 분산형 데이터베이스에 대하여 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택하는 단계를 포함한다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 (a) 내지 (c) 단계를 반복하며, 상기 (c) 단계에서 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스를 선택하는 단계를 더 포함할 수 있다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 상기 (a)단계에서, 상기 자질별 가중치값은 아래 수학식에 의하여 연산될 수 있다.
Figure PCTKR2010008115-appb-I000006
(여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 상기 (b)단계에서, 상기 분류대상 문서의 범주는 아래 수학식에 의하여 결정될 수 있다.
Figure PCTKR2010008115-appb-I000007
(여기서, fi: 자질, cj: 범주, vs((fi, cj): 자질별 가중치값을 의미함)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 상기 (b)단계에서, 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질값 가중치값은 아래 수학식에 의하여 연산될 수 있다.
Figure PCTKR2010008115-appb-I000008
(여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 상기 (c)단계에서, 상기 분산형 데이터베이스 중 상기 분류대상 문서의 특성과 유사한 데이터베이스는 아래 수학식에 의하여 선택될 수 있다.
Figure PCTKR2010008115-appb-I000009
(여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 를 의미함)
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 (a) 내지 (c) 단계를 반복하며, 상기 (c) 단계에서 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스를 선택하는 단계에서, 상기 누적 개수가 최대인 분산형 데이터베이스는 아래 수학식에 의하여 선택될 수 있다.
Figure PCTKR2010008115-appb-I000010
(여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
본 발명의 다른 특징에 따르면, 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스를 포함하며 분류대상 문서가 입력되면 상기 분류대상 문서의 특성에 따라 데이터베이스가 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에 있어서, (a) 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하는 단계, (b) 상기 자질별 가중치값을 이용하여 상기 분류대상 문서의 범주와 상기 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 산출하는 단계, 및 (c) 상기 문서의 범주와 상기 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 각각의 분산형 데이터베이스에 대하여 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 단계를 포함한다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 (a) 내지 (c) 단계를 반복하며, 상기 (c) 단계에서 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 단계를 더 포함할 수 있다.
본 발명의 다른 특징에 따르면, 최대 개념강도 인지기법을 이용한 최적의 도메인 선택방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체에 기록될 수 있다.
본 발명의 다른 특징에 따르면, 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스, 분류대상 문서가 입력되면 상기 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하고 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 산출하는 범주 및 자질별 가중치 최대값 산출부, 상기 산출된 문서의 범주와 자질별 가중치 최대값을 상기 분산형 데이터베이스에 대하여 각각 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스와 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 데이터베이스 및 범주 선택부와, 상기 분류대상 문서가 해당되는 데이터베이스와 범주에 대한 정보를 전송하는 송수신부를 포함하는 서버, 및 상기 서버와 인증절차를 처리하며 유무선 통신망을 통해 상기 서버로부터 선택된 상기 분류대상 문서가 해당되는 데이터베이스와 범주에 대한 정보를 전송받는 외부단말을 포함한다.
또한, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택시스템의 상기 서버는, 상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 데이터베이스 선택부에서 선택한 결과값을 누적하여 상기 분류대상 문서 전체가 분류되는 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 카운터부를 더 포함할 수 있다.
본 발명의 실시 예에서는 문서가 분산된 데이터베이스 중 어디에 해당되는지 분류할 때, 대용량 분류의 문제점을 해결하고 분류대상 문서의 특성과 가장 유사한 데이터베이스를 선택할 수 있는 효과가 있다.
또한, 대용량 학습모델 구축을 통한 범주화가 어려운 환경에서 분산된 개별 학습모델 중 최적의 모델을 찾을 수 있으며, 통합정보서비스 환경에 적합한 자동분류 환경을 구축할 수 있다.
도 1은 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 구성도를 개략적으로 도시한 도면이다.
도 2는 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 구성도를 개략적으로 도시한 도면이다.
도 3은 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 흐름도를 도시한 도면이다.
도 4는 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 흐름도를 도시한 도면이다.
도 5는 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택시스템의 구성도를 개략적으로 도시한 도면이다.
도 6은 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법을 설명하기 위한 도면이다.
도 7 내지 도 12는 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법을 사용하여 실험 문서셋에 대하여 데이터베이스를 교차 실험한 결과를 나타내는 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
이제 본 발명의 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 도메인 선택장치 및 그 방법에 대하여 도면을 참조하여 상세하게 설명하고, 도면 부호에 관계없이 동일하거나 대응하는 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
< 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치>
도 1은 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 구성도를 개략적으로 도시한 도면이고, 도 2는 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 구성도를 개략적으로 도시한 도면이다.
제1 실시 예
도 1에 도시한 바와 같이, 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치(100)는 분산형 데이터베이스(110), 최대 개념강도 결정부(120a), 데이터베이스 선택부(130a) 및 카운터부(140)를 포함한다.
분산형 데이터베이스(110)는 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 공간을 의미하며, 예를 들어, 과학기술동향이 저장되는 GTB 데이터베이스, 국내학술논문이 저장되는 SOC, 해외학술논문이 저장되는 NDS 데이터베이스, 상기의 세 개의 데이터베이스가 통합된 GNS 데이터베이스 등으로 분류될 수 있다.
각각의 분산형 데이터베이스(110)는 저장된 문서로부터 학습된 분류기를 포함하며, 각각의 분류기로부터 자질(키워드)별 가중치값이 연산되어 문서의 범주(주제분야)를 분류할 수 있다.
최대 개념강도 결정부(120a)는 분류대상 문서가 입력되면, 분류대상 문서로부터 자질을 추출하고 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산할 수 있다.
최대 개념강도 결정부(120a)는 분류대상 문서의 범주를 결정한 후 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정할 수 있다.
여기서, 자질별 가중치값은 자질(키워드)과 범주(주제분야)의 연관도를 의미하며, 자질별 가중치값은 고빈도어 선호경향을 갖는 연관성 척도인 유사 계수를 사용하는 자질값 투표형 분류기 등으로부터 연산될 수 있다.
유사 계수는 고빈도어 선호경향을 갖는 자카드 계수(Jaccard Coefficient), 코사인 유사계수(Cosine Coefficient) 등과, 저빈도어 선호경향을 갖는 로그승산비(Log-odds ratios), 상호정보량(Mutual information) 등을 다양하게 적용할 수 있다.
예를 들어, 분류대상 문서에 나타난 n개의 단어 자질집합과 후보범주 m개의 집합을 각각 F={f1, f2, f3, ..., fn}와 C={c1, c2, c3, ...., cn}로 표현하고, 자질 fi가 범주 cj에 대하여 가지는 자질값을 vs(fi, cj)라고 한다.
구체적으로, 최대 개념강도 결정부(120)는 [수학식 1]에 의하여 자질별 가중치값(vs(f, cj))을 연산하고, [수학식 2]에 의하여 분류대상 문서의 범주(cj)를 결정하며, [수학식 3]에 의하여 분류대상 문서의 범주(cj)와 문서 범주에 대한 자질값 가중치값을 연산한 최대값(vcj max)을 결정할 수 있다.
수학식 1
Figure PCTKR2010008115-appb-M000001
(여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
수학식 2
Figure PCTKR2010008115-appb-M000002
(여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미함)
수학식 3
Figure PCTKR2010008115-appb-M000003
(여기서, fi: 자질, cj: 범주, vs((fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
데이터베이스 선택부(130a)는 최대 개념강도 결정부(120a)에서 결정된 분류대상 문서의 최대 개념강도를 분산형 데이터베이스(110)에 대하여 각각 적용하여 분류대상 문서의 특성과 유사한 분산형 데이터베이스(110)를 선택할 수 있다.
구체적으로, 데이터베이스 선택부(130a)는 [수학식 4]에 의하여 각각의 분산형 데이터베이스(110) 중 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택할 수 있다.
수학식 4
Figure PCTKR2010008115-appb-M000004
(여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 를 의미함)
카운터부(140)는 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 데이터베이스 선택부(130a)에서 선택한 결과값을 누적하여 분류대상 문서 전체가 분류되는 분산형 데이터베이스(110)를 선택할 수 있다.
즉, 카운터부(140)는 [수학식 5]에 의하여 각각의 분산형 데이터베이스(110)가 선택되면 "1"을 누적한 결과값을 이용하여 분류대상 문서 전체의 특성과 유사한 분산형 데이터베이스를 선택할 수 있다.
수학식 5
Figure PCTKR2010008115-appb-M000005
(여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
제2 실시 예
도 2에 도시한 바와 같이, 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치(100)는 분산형 데이터베이스(110), 범주 및 자질별 가중치 최대값 산출부(120b), 데이터베이스 및 범주 선택부(130b) 및 카운터부(140)를 포함한다.
상기의 분산형데이터베이스(110)와 카운터부(140)의 기능은 제1 실시 예에서 설명한 바와 유사하며, 범주 및 자질별 가중치 최대값 산출부(120b) 및 데이터베이스 및 범주 선택부(130b)에 대하여 구체적으로 설명하도록 한다.
먼저, 범주 및 자질별 가중치 최대값 산출부(120b)는 분류대상 문서가 입력되면 분류대상 문서로부터 자질을 추출하고 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산할 수 있다.
또한, 분류대상 문서의 범주와 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 산출한 후 분산형 데이터베이스 선택 및 범주 선택시 활용할 수 있다.
데이터베이스 및 범주 선택부(130b)는 산출된 문서의 범주와 자질별 가중치 최대값을 분산형 데이터베이스(110)에 대하여 각각 적용하여 분류대상 문서의 특성과 유사한 분산형 데이터베이스(110)와 데이터베이스에서 문서가 해당되는 범주를 동시에 선택할 수 있다.
구체적으로, 데이터베이스 및 범주 선택부(130b)는 상술한 [수학식 4] 및 [수학식 5]에 의하여 분류대상 문서가 해당되는 데이터베이스 및 문서의 범주를 동시에 선택할 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
이제 본 발명의 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 도메인 선택장치 및 그 방법에 대하여 도면을 참조하여 상세하게 설명하고, 도면 부호에 관계없이 동일하거나 대응하는 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
< 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치>
도 1은 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 구성도를 개략적으로 도시한 도면이고, 도 2는 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 구성도를 개략적으로 도시한 도면이다.
제1 실시 예
도 1에 도시한 바와 같이, 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치(100)는 분산형 데이터베이스(110), 최대 개념강도 결정부(120a), 데이터베이스 선택부(130a) 및 카운터부(140)를 포함한다.
분산형 데이터베이스(110)는 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 공간을 의미하며, 예를 들어, 과학기술동향이 저장되는 GTB 데이터베이스, 국내학술논문이 저장되는 SOC, 해외학술논문이 저장되는 NDS 데이터베이스, 상기의 세 개의 데이터베이스가 통합된 GNS 데이터베이스 등으로 분류될 수 있다.
각각의 분산형 데이터베이스(110)는 저장된 문서로부터 학습된 분류기를 포함하며, 각각의 분류기로부터 자질(키워드)별 가중치값이 연산되어 문서의 범주(주제분야)를 분류할 수 있다.
최대 개념강도 결정부(120a)는 분류대상 문서가 입력되면, 분류대상 문서로부터 자질을 추출하고 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산할 수 있다.
최대 개념강도 결정부(120a)는 분류대상 문서의 범주를 결정한 후 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정할 수 있다.
여기서, 자질별 가중치값은 자질(키워드)과 범주(주제분야)의 연관도를 의미하며, 자질별 가중치값은 고빈도어 선호경향을 갖는 연관성 척도인 유사 계수를 사용하는 자질값 투표형 분류기 등으로부터 연산될 수 있다.
유사 계수는 고빈도어 선호경향을 갖는 자카드 계수(Jaccard Coefficient), 코사인 유사계수(Cosine Coefficient) 등과, 저빈도어 선호경향을 갖는 로그승산비(Log-odds ratios), 상호정보량(Mutual information) 등을 다양하게 적용할 수 있다.
예를 들어, 분류대상 문서에 나타난 n개의 단어 자질집합과 후보범주 m개의 집합을 각각 F={f1, f2, f3, ..., fn}와 C={c1, c2, c3, ...., cn}로 표현하고, 자질 fi가 범주 cj에 대하여 가지는 자질값을 vs(fi, cj)라고 한다.
구체적으로, 최대 개념강도 결정부(120)는 [수학식 1]에 의하여 자질별 가중치값(vs(f, cj))을 연산하고, [수학식 2]에 의하여 분류대상 문서의 범주(cj)를 결정하며, [수학식 3]에 의하여 분류대상 문서의 범주(cj)와 문서 범주에 대한 자질값 가중치값을 연산한 최대값(vcj max)을 결정할 수 있다.
[수학식 1]
Figure PCTKR2010008115-appb-I000011
(여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
[수학식 2]
Figure PCTKR2010008115-appb-I000012
(여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미함)
[수학식 3]
Figure PCTKR2010008115-appb-I000013
(여기서, fi: 자질, cj: 범주, vs((fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
데이터베이스 선택부(130a)는 최대 개념강도 결정부(120a)에서 결정된 분류대상 문서의 최대 개념강도를 분산형 데이터베이스(110)에 대하여 각각 적용하여 분류대상 문서의 특성과 유사한 분산형 데이터베이스(110)를 선택할 수 있다.
구체적으로, 데이터베이스 선택부(130a)는 [수학식 4]에 의하여 각각의 분산형 데이터베이스(110) 중 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택할 수 있다.
[수학식 4]
Figure PCTKR2010008115-appb-I000014
(여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 를 의미함)
카운터부(140)는 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 데이터베이스 선택부(130a)에서 선택한 결과값을 누적하여 분류대상 문서 전체가 분류되는 분산형 데이터베이스(110)를 선택할 수 있다.
즉, 카운터부(140)는 [수학식 5]에 의하여 각각의 분산형 데이터베이스(110)가 선택되면 "1"을 누적한 결과값을 이용하여 분류대상 문서 전체의 특성과 유사한 분산형 데이터베이스를 선택할 수 있다.
[수학식 5]
Figure PCTKR2010008115-appb-I000015
(여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
제2 실시 예
도 2에 도시한 바와 같이, 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치(100)는 분산형 데이터베이스(110), 범주 및 자질별 가중치 최대값 산출부(120b), 데이터베이스 및 범주 선택부(130b) 및 카운터부(140)를 포함한다.
상기의 분산형데이터베이스(110)와 카운터부(140)의 기능은 제1 실시 예에서 설명한 바와 유사하며, 범주 및 자질별 가중치 최대값 산출부(120b) 및 데이터베이스 및 범주 선택부(130b)에 대하여 구체적으로 설명하도록 한다.
먼저, 범주 및 자질별 가중치 최대값 산출부(120b)는 분류대상 문서가 입력되면 분류대상 문서로부터 자질을 추출하고 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산할 수 있다.
또한, 분류대상 문서의 범주와 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 산출한 후 분산형 데이터베이스 선택 및 범주 선택시 활용할 수 있다.
데이터베이스 및 범주 선택부(130b)는 산출된 문서의 범주와 자질별 가중치 최대값을 분산형 데이터베이스(110)에 대하여 각각 적용하여 분류대상 문서의 특성과 유사한 분산형 데이터베이스(110)와 데이터베이스에서 문서가 해당되는 범주를 동시에 선택할 수 있다.
구체적으로, 데이터베이스 및 범주 선택부(130b)는 상술한 [수학식 6] 및 [수학식 7]에 의하여 분류대상 분서가 해당되는 데이터베이스 및 문서의 범주를 동시에 선택할 수 있다.
<최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법이 기록된 기록매체>
본 발명의 다른 특징에 따르면, 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체에 기록될 수 있다.
최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법은 컴퓨터 프로그램으로 작성 가능하며, 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다.
또한, 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에 관한 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 분류대상 문서를 자동범주화할 수 있다.
<최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법>
도 3은 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 흐름도를 도시한 도면이고, 도 4는 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법의 흐름도를 도시한 도면이다.
제1 실시 예
도 3에 도시한 바와 같이, 본 발명의 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법은 입력문서에 대해 자질별 가중치값을 연산하고(S310), 최대 개념강도로 결정하고(S320), 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택한 후(S330), 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스를 최종 데이터베이스로 선택한다(S340).
다수의 문서가 분류되어 저장되는 분산형 데이터베이스를 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법은, 분류대상 문서의 특성에 따라 분류될 분산형 데이터베이스를 선택하는 알고리즘을 의미한다.
본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법은 개별문서의 최대 개념강도를 측정한 결과값을 이용하여 문서를 분류하는 방법이다.
먼저, 최대 개념강도는 [수학식 5]에 의하여 계산되며, 자질별 가중치값을 연산한 최대값으로 정의된다.
자질별 가중치값을 구하는 방법은 각각의 분류대상 문서로부터 자질을 추출하고 추출된 자질과 범주의 유사도를 이용하여 연산되며, 결정된 문서의 범주를 이용하여 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정한다.
구체적으로, 문서의 범주 및 문서의 범주에 대한 자질별 가중치값을 연산한 최대값은 상술한 바와 같이 [수학식 1] 내지 [수학식 5]에 의하여 결정될 수 있다.
다음으로, 최대 개념강도를 각각의 분산형 데이터베이스에 대하여 적용하여 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택할 수 있다.
상기의 단계(S310~S330)는 하나의 문서에 대하여 분산형 데이터베이스를 선택하는 방법이며, 다수의 분류대상 문서가 입력되면, 각각의 분류대상 문서에 대하여 상기의 단계(S310~S330)를 반복하며, 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스를 선택할 수 있다.
제2 실시 예
도 4에 도시한 바와 같이, 본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법은 자질별 가중치값을 연산하고(S410), 분류대상 문서의 범주와 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 산출하고(S420), 분류대상 문서의 특성과 유사한 분산형 데이터베이스 및 데이터베이스에서 문서가 해당되는 범주를 동시에 선택한 후(S430), 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스를 최종 데이터베이스로 선택할 수 있다(S440).
본 발명의 제2 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법은 제1 실시 예에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법과 유사하며, 분산형 데이터베이스를 선택하면서 동시에 선택된 분산형 데이터베이스에 해당되는 문서의 범주를 결정하는 차이가 있다.
<최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택시스템>
도 5는 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택시스템의 구성도를 개략적으로 도시한 도면이다.
도 5에 도시한 바와 같이, 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택시스템은 서버(510), 유무선 통신망(520) 및 외부단말(530)을 포함한다.
서버(510)는 상술한 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치의 구성요소를 포함하여 구성되며, 유무선 통신망을 통해 서버(510)로부터 선택된 분류대상 문서의 데이터베이스와 범주에 대한 정보를 외부단말(530)로 전송한다.
외부단말(530)은 서버(510)와 인증절차를 처리하며, 분류대상 문서가 해당되는 데이터베이스와 문서의 범주에 대한 정보를 전송받을 수 있다.
또한, 서버(510)는, 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 선택된 데이터베이스 결과값을 누적하여 다수의 분류대상 문서 전체가 분류되는 분산형 데이터베이스를 선택할 수 있다.
도 6은 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법을 설명하기 위한 도면이고, 도 7 내지 도 12는 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법을 사용하여 실험 문서셋에 대하여 데이터베이스를 교차 실험한 결과를 나타내는 도면이다.
본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에 의하여 최적의 데이터베이스를 선택하는 확률을 실험하기 위하여 A, B, C 등의 실험 모델을 준비한다.
A, B 또는 C 실험 모델은 GTB, SOC 또는 NDS 학습 모델로 구현될 수 있다.
실험은 세 단계로 진행되며, 1단계는 전처리 단계에서의 다양한 실험을 통해 분류결과가 전처리에 의하여 왜곡되지 않도록 한다.
2단계는 분류기를 이용하여 교차분류 실험을 통해 이기종의 데이터베이스 분류실험 결과를 비교하는 단계이다.
분류기 생성은 분류대상 문서(DB1, DB2 또는 DB3)로부터 자질을 추출하고, 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하여 자질의 주제-가중치 벡터정보의 선형결합을 통해 데이터베이스별 분류기를 생성한다.
3단계에서 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법을 적용하여 성능을 측정하여 비교한다.
여기서, 전처리 단계는 8가지 유형으로 구분되며, 스테밍과 형태소분석 등의 방법을 사용하여 자질(키워드)을 추출한 것이다.
먼저, 도 7은 분류대상 실험 문서셋을 NDS 데이터베이스에서 추출한 후, 교차실험과 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에서 데이터베이스(도메인) 만을 선택하는 경우 각각의 데이터베이스 선택비율을 측정 결과이다.
도 7에 나타낸 바와 같이, NDS 실험 문서셋은 NDS 학습 모델을 가지고 실험한 결과가 가장 높은 퍼센트를 차지하는 것을 확인할 수 있다.
도 8은 본 발명에 따른 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에서 데이터베이스(도메인)와 범주(주제분야)를 동시에 선택하는 경우 각각의 데이터베이스별 분류기에 대해 문서 자동 범주화의 정확률을 추가로 측정한 것이다.
데이터베이스(도메인)와 범주(주제분야)를 동시에 선택하는 경우에는 최대 개념강도 측정을 통해 선택된 해당 데이터베이스의 분류기를 직접 이용해서 다시 한번 자동범주화를 실행하는 경우와 거의 비슷한 성능을 보이는 것을 확인할 수 있으며, 특히, 최적의 데이터베이스 선택과 동시에 실시간으로 고성능의 자동범주화가 이루어진다는 점이 매우 특징적이다.
상기의 실험 결과를 확인하기 위하여, 신규의 문서를 실험 문서셋으로 설정한 후 각각의 데이터베이스에 대하여 실험한 결과 도 10 내지 도 12와 같은 결과를 얻을 수 있다.
즉, 본 발명에 따른 최대 개념강도 인지기법을 이용하여 최적의 데이터베이스를 선택하면, 신규 문서는 NDS 데이터베이스를 선택하게 된다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
이상과 같이 본 발명의 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법은 대용량 학습모델 구축을 통한 범주화가 어려운 환경에서 분산된 개별 학습모델 중 최적의 모델을 찾을 수 있으며, 통합정보서비스 환경에 적합한 자동분류 환경을 구축할 필요성이 높은 것에 적합하다.

Claims (31)

  1. 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스;
    분류대상 문서가 입력되면 상기 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하여 상기 분류대상 문서의 범주를 결정한 후 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정하는 최대 개념강도 결정부; 및
    상기 최대 개념강도 결정부에서 결정된 상기 분류대상 문서의 최대 개념강도를 상기 분산형 데이터베이스에 대하여 각각 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택하는 데이터베이스 선택부;를 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
  2. 제1항에 있어서,
    상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 데이터베이스 선택부에서 선택한 결과값을 누적하여 상기 분류대상 문서 전체가 분류되는 분산형 데이터베이스를 선택하는 카운터부를 더 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
  3. 제1항 또는 제2항에 있어서,
    상기 최대 개념강도 결정부는 아래 수학식에 의하여 상기 자질별 가중치값을 연산하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000016
    (여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
  4. 제3항에 있어서,
    상기 최대 개념강도 결정부는 아래 수학식에 의하여 상기 분류대상 문서의 범주를 결정하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000017
    (여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미함)
  5. 제3항에 있어서,
    상기 최대 개념강도 결정부는 아래 수학식에 의하여 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 결정하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000018
    (여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
  6. 제5항에 있어서,
    상기 데이터베이스 선택부는 아래 수학식에 의하여 각각의 분산형 데이터베이스 중 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000019
    (여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 를 의미함)
  7. 제6항에 있어서,
    상기 카운터부는 아래 수학식에 의하여 각각의 분산형 데이터베이스 중 상기 분류대상 문서 전체의 특성과 유사한 분산형 데이터베이스를 선택하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000020
    (여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
  8. 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스;
    분류대상 문서가 입력되면 상기 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하고 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 산출하는 범주 및 자질별 가중치 최대값 산출부; 및
    상기 산출된 문서의 범주와 자질별 가중치 최대값을 상기 분산형 데이터베이스에 대하여 각각 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스와 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 데이터베이스 및 범주 선택부;를 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
  9. 제8항에 있어서,
    상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 데이터베이스 및 범주 선택부에서 선택된 분산형 데이터베이스 결과값을 누적하여 상기 분류대상 문서 전체가 분류되는 분산형 데이터베이스를 선택하는 카운터부를 더 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
  10. 제8항에 있어서,
    상기 자질별 가중치값은 고빈도어 선호경향을 갖는 연관성 척도인 코사인 유사계수를 사용하는 자질값 투표형 분류기로부터 연산되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
  11. 제8항 또는 제9항에 있어서,
    상기 범주 및 자질별 가중치 최대값 산출부는 아래 수학식에 의하여 상기 자질별 가중치값을 연산하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000021
    (여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
  12. 제11항에 있어서,
    상기 범주 및 자질별 가중치 최대값 산출부는 아래 수학식에 의하여 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질값 가중치값을 연산하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000022
    (여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
  13. 제12항에 있어서,
    상기 데이터베이스 및 범주 선택부는 아래 수학식에 의하여 각각의 분산형 데이터베이스 중 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000023
    (여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 를 의미함)
  14. 제13항에 있어서,
    상기 카운터부는 아래 수학식에 의하여 각각의 분산형 데이터베이스 중 상기 분류대상 문서 전체의 특성과 유사한 분산형 데이터베이스를 선택하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치.
    Figure PCTKR2010008115-appb-I000024
    (여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
  15. 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스를 포함하며 분류대상 문서가 입력되면 상기 분류대상 문서의 특성에 따라 데이터베이스가 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에 있어서,
    (a) 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하는 단계;
    (b) 상기 자질별 가중치값을 이용하여 상기 분류대상 문서의 범주를 결정하고 상기 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 최대 개념강도로 결정하는 단계; 및
    (c) 상기 최대 개념강도를 각각의 분산형 데이터베이스에 대하여 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스를 선택하는 단계;를 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
  16. 제15항에 있어서,
    상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 (a) 내지 (c) 단계를 반복하며, 상기 (c) 단계에서 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스를 선택하는 단계를 더 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
  17. 제15 또는 제16항에 있어서, 상기 (a)단계에서,
    상기 자질별 가중치값은 아래 수학식에 의하여 연산되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000025
    (여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
  18. 제17항에 있어서, 상기 (b)단계에서,
    상기 분류대상 문서의 범주는 아래 수학식에 의하여 결정되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000026
    (여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미함)
  19. 제17항에 있어서, 상기 (b)단계에서,
    상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질값 가중치값은 아래 수학식에 의하여 연산되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000027
    (여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
  20. 제19항에 있어서, 상기 (c)단계에서,
    상기 분산형 데이터베이스 중 상기 분류대상 문서의 특성과 유사한 데이터베이스는 아래 수학식에 의하여 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000028
    (여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 를 의미함)
  21. 제20항에 있어서,
    상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 (a) 내지 (c) 단계를 반복하며, 상기 (c) 단계에서 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스를 선택하는 단계에서,
    상기 누적 개수가 최대인 분산형 데이터베이스는 아래 수학식에 의하여 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000029
    (여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
  22. 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스를 포함하며 분류대상 문서가 입력되면 상기 분류대상 문서의 특성에 따라 데이터베이스가 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법에 있어서,
    (a) 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하는 단계;
    (b) 상기 자질별 가중치값을 이용하여 상기 분류대상 문서의 범주와 상기 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 산출하는 단계; 및
    (c) 상기 문서의 범주와 상기 문서의 범주에 대한 자질별 가중치값을 연산한 최대값을 각각의 분산형 데이터베이스에 대하여 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 단계;를 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
  23. 제22항에 있어서,
    상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 (a) 내지 (c) 단계를 반복하며, 상기 (c) 단계에서 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 단계를 더 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
  24. 제22항 또는 제23항에 있어서, 상기 (a)단계에서,
    상기 자질별 가중치값은 아래 수학식에 의하여 연산되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000030
    (여기서, f: 자질, cj: 범주, tf: 용어 빈도수, df: 문헌 빈도수, cos(f, cj): 코사인 유사계수를 의미함)
  25. 제24항에 있어서, 상기 (b)단계에서,
    상기 분류대상 문서의 범주는 아래 수학식에 의하여 결정되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000031
    (여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값을 의미함)
  26. 제24항에 있어서, 상기 (b)단계에서,
    상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질값 가중치값은 아래 수학식에 의하여 연산되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000032
    (여기서, fi: 자질, cj: 범주, vs(fi, cj): 자질별 가중치값, vcj max: 문서 범주에 대한 자질별 가중치값을 연산한 최대값)
  27. 제26항에 있어서, 상기 (c)단계에서,
    상기 분산형 데이터베이스 중 상기 분류대상 문서의 특성과 유사한 데이터베이스 및 상기 데이터베이스에서는 상기 문서가 해당되는 범주는 아래 수학식에 의하여 동시에 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000033
    (여기서, dj: j번째 문서, Dk: k번째 데이터베이스, dj pred[2]: vcj max 을 의미함)
  28. 제27항에 있어서,
    상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 (a) 내지 (c) 단계를 반복하며, 상기 (c) 단계에서 선택되는 분산형 데이터베이스의 누적 개수가 최대인 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 단계에서,
    상기 누적 개수가 최대인 분산형 데이터베이스는 아래 수학식에 의하여 선택되는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택방법.
    Figure PCTKR2010008115-appb-I000034
    (여기서, set{d}: 전체 문서 집합, dj: j번째 문서, Dk: k번째 데이터베이스, binary(MCRsingle(dj pred)[1]): 선택된 Dk 에 따라 "1" 또는 "0" 값을 부여하는 것을 의미함)
  29. 제15항 내지 제28항 중 어느 한 항에 있어서, 최대 개념강도 인지기법을 이용한 최적의 도메인 선택방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록매체.
  30. 문서의 분류체계와 용어 속성을 포함하는 문서의 특성에 따라 다수의 문서가 분류되어 저장되는 분산형 데이터베이스, 분류대상 문서가 입력되면 상기 분류대상 문서로부터 자질을 추출하고 상기 추출된 자질과 범주의 유사도를 이용하여 자질별 가중치값을 연산하고 상기 분류대상 문서의 범주와 상기 문서 범주에 대한 자질별 가중치값을 연산한 최대값을 산출하는 범주 및 자질별 가중치 최대값 산출부, 상기 산출된 문서의 범주와 자질별 가중치 최대값을 상기 분산형 데이터베이스에 대하여 각각 적용하여 상기 분류대상 문서의 특성과 유사한 분산형 데이터베이스와 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 데이터베이스 및 범주 선택부와, 상기 분류대상 문서가 해당되는 데이터베이스와 범주에 대한 정보를 전송하는 송수신부를 포함하는 서버; 및
    상기 서버와 인증절차를 처리하며 유무선 통신망을 통해 상기 서버로부터 선택된 상기 분류대상 문서가 해당되는 데이터베이스와 범주에 대한 정보를 전송받는 외부단말;을 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택시스템.
  31. 제30항에 있어서,
    상기 서버는, 상기 분류대상 문서가 다수 입력되면 각각의 분류대상 문서에 대하여 상기 데이터베이스 선택부에서 선택한 결과값을 누적하여 상기 분류대상 문서 전체가 분류되는 분산형 데이터베이스 및 상기 데이터베이스에서 상기 문서가 해당되는 범주를 동시에 선택하는 카운터부를 더 포함하는 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택시스템.
PCT/KR2010/008115 2009-12-03 2010-11-16 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법 WO2011068315A2 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2009-0118944 2009-12-03
KR1020090118944A KR101064256B1 (ko) 2009-12-03 2009-12-03 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법

Publications (3)

Publication Number Publication Date
WO2011068315A2 WO2011068315A2 (ko) 2011-06-09
WO2011068315A3 WO2011068315A3 (ko) 2011-09-29
WO2011068315A4 true WO2011068315A4 (ko) 2011-12-15

Family

ID=44115389

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/008115 WO2011068315A2 (ko) 2009-12-03 2010-11-16 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR101064256B1 (ko)
WO (1) WO2011068315A2 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101243054B1 (ko) * 2012-07-06 2013-03-13 한국과학기술정보연구원 웹 검색 기반 용어 인식 방법 및 장치
KR101240330B1 (ko) * 2012-07-16 2013-03-11 한국과학기술정보연구원 다차원 문서 분류 시스템 및 방법
US9424321B1 (en) * 2015-04-27 2016-08-23 Altep, Inc. Conceptual document analysis and characterization
CN106446089B (zh) * 2016-09-12 2019-08-16 北京大学 一种多维度领域关键知识的提取和存储方法
US11379618B2 (en) * 2017-06-01 2022-07-05 International Business Machines Corporation Secure sensitive personal information dependent transactions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100356105B1 (ko) * 2000-05-30 2002-10-19 주식회사 엔아이비소프트 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR100718586B1 (ko) * 2002-11-25 2007-05-16 한국과학기술원 웹 상의 이질적인 이미지 데이터베이스들을 선택하기 위한복합추정 방법 및 이를 이용한 검색 시스템
KR100756921B1 (ko) 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
KR100816923B1 (ko) 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법

Also Published As

Publication number Publication date
KR101064256B1 (ko) 2011-09-14
WO2011068315A2 (ko) 2011-06-09
WO2011068315A3 (ko) 2011-09-29
KR20110062274A (ko) 2011-06-10

Similar Documents

Publication Publication Date Title
WO2021003930A1 (zh) 客服录音的质检方法、装置、设备及计算机可读存储介质
WO2018004236A1 (ko) 개인정보의 비식별화 방법 및 장치
WO2019117466A1 (ko) 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법
WO2011068315A4 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
WO2010021527A2 (ko) 영상에 포함된 객체를 색인하는 시스템 및 방법
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2010087566A1 (en) Document analysis system
WO2015178600A1 (en) Speech recognition method and apparatus using device information
WO2017213281A1 (ko) 빅데이터의 비식별화 처리 방법
WO2020168606A1 (zh) 广告视频优化方法、装置、设备及计算机可读存储介质
WO2016175564A1 (ko) 오디오 컨텐츠 인식 방법 및 장치
WO2023153821A1 (en) Method of compressing neural network model and electronic apparatus for performing the same
WO2012050252A1 (ko) 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
WO2021034106A1 (ko) 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법
WO2017146338A1 (ko) 인덱스정보를 생성하는 데이터베이스의 아카이빙 방법 및 장치, 인덱스정보를 포함하는 아카이빙된 데이터베이스의 검색 방법 및 장치
WO2023191129A1 (ko) 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2020091253A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2021246812A1 (ko) 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
WO2020138575A1 (ko) 기계 학습 데이터 선택 방법 및 장치
WO2022050551A1 (ko) 법률 서비스 제공 시스템 및 그 방법
WO2013032198A1 (ko) 높은 연관성을 가지는 아이템을 추천하는 아이템 기반의 추천 엔진
WO2023229094A1 (ko) 행동 예측 방법 및 장치
WO2023163405A1 (ko) 신용평가 모델 업데이트 또는 교체 방법 및 장치
WO2023132657A1 (ko) 상품 트렌드 예측 서비스 제공 장치, 방법 및 프로그램
WO2023224430A1 (en) Method and apparatus for on-device personalised analysis using a machine learning model

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10834730

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10834730

Country of ref document: EP

Kind code of ref document: A2