KR101897513B1 - Method, apparatus and computer-readable recording medium for selecting feature using relational matrix - Google Patents

Method, apparatus and computer-readable recording medium for selecting feature using relational matrix Download PDF

Info

Publication number
KR101897513B1
KR101897513B1 KR1020170174394A KR20170174394A KR101897513B1 KR 101897513 B1 KR101897513 B1 KR 101897513B1 KR 1020170174394 A KR1020170174394 A KR 1020170174394A KR 20170174394 A KR20170174394 A KR 20170174394A KR 101897513 B1 KR101897513 B1 KR 101897513B1
Authority
KR
South Korea
Prior art keywords
matrix
data
row
column
numbers
Prior art date
Application number
KR1020170174394A
Other languages
Korean (ko)
Inventor
신병주
임준식
왕보현
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020170174394A priority Critical patent/KR101897513B1/en
Application granted granted Critical
Publication of KR101897513B1 publication Critical patent/KR101897513B1/en

Links

Images

Classifications

    • G06F17/30533
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method, a device, and a computer-readable recording medium for selecting a feature using a relational matrix, which generate a matrix of input data and count an association between the data by using a relational matrix, thereby finally selecting the most associated minority features. According to an embodiment of the present invention, the method for selecting a feature using a relational matrix comprises the following steps: generating the matrix composed of a row number and a column number set for each of the input data; counting the number of occurrences of the data appearing together with a specific event by using the generated matrix whenever the specific event occurs; selecting the data in which the number of occurrences is the highest among the input data; and extracting feature data associated with the selected data.

Description

관계형 행렬을 이용한 특징 선택 방법, 장치 및 컴퓨터 판독 가능한 기록매체{METHOD, APPARATUS AND COMPUTER-READABLE RECORDING MEDIUM FOR SELECTING FEATURE USING RELATIONAL MATRIX}[0001] METHOD, APPARATUS AND COMPUTER READABLE RECORDING MEDIUM FOR SELECTING FEATURE USING RELATIONAL MATRIX [0002]

본 발명은 관계형 행렬(Relational Matrix)을 이용한 특징 선택 방법 및 컴퓨터 판독 가능한 기록매체에 관한 것으로, 입력된 데이터들의 상관관계에 기반하여 특징들을 선택하는 관계형 행렬을 이용한 특징 선택 방법, 장치 및 컴퓨터 판독 가능한 기록매체이다.The present invention relates to a feature selection method using a relational matrix and a computer-readable recording medium, and more particularly, to a feature selection method, apparatus, and computer readable medium using a relational matrix for selecting features based on correlation of input data Recording medium.

인간이 가지고 있는 유전자 중에서 정보를 가지고 있는 약 30,000개의 유전자 중 질병과 관련이 있는 유전자의 수는 30,000개에 비해 극히 일부분이다.Of the approximately 30,000 genes in humans that have information, the number of genes associated with disease is only a fraction of the 30,000.

인간의 유전자 중 질병과 관련된 유전자를 찾는 것과 같이, 대량의 데이터들 중 관련성이 있는 극히 일부의 특징 데이터들을 추출하기 위한 방법으로 Overlapped Area 측정법, Match Count 방법과 같은 Sequential Backward Search 방식이 있다.There are Sequential Backward Search methods such as Overlapped Area Measurement and Match Count method for extracting a very small number of characteristic data that are relevant among a large amount of data, such as finding a gene related to a disease among human genes.

다만 Sequential Backward Search 방식은 적합성이 가장 안좋은 특징을 찾아 하나씩 제거하는 방식이므로, 대량의 특징들 중 극히 일부에 해당하는 적절한 특징을 찾기에는 많은 시간이 소요되는 단점이 있다.However, since the sequential backward search method is a method of finding the most disadvantageous features and eliminating them one by one, it takes a long time to find an appropriate feature corresponding to a very small number of features.

종래에는 특징들 간의 상관관계에 기반하여 적절한 특징들을 찾는 Gini Index, MRMR(Maximum Relevance and Minimum Redundancy)와 같은 알고리즘이 개발되었다.In the past, algorithms such as Gini Index and Maximum Relevance and Minimum Redundancy (MRMR) were developed based on the correlation between features.

Gini Index 알고리즘은 집합에 얼마나 이질적인 것이 섞여있는지를 측정하는 방식을 통해 적절한 특징들을 찾는 알고리즘으로, 특징들은 이진분류(binary classification)을 통해서 계산된 Gini index를 가지며, 가장 작은 Gini Index를 가지는 상위 k개의 특징들이 적절한 특징들로 선택된다.The Gini Index algorithm is an algorithm that finds the proper features by measuring how heterogeneous is mixed in the set. The features have Gini index calculated by binary classification, and the top k Features are selected as appropriate features.

MRMR 알고리즘은 변수들 간의 상호정보(mutual information)를 사용하여 높은 연관성(maximum relevancy)을 가지는 동시에 낮은 중복성(minimum redundancy)을 가지는 특징들의 부분집합을 선정하는 방법을 통해 대량의 특징들 중 일부의 적절한 특징들을 선택한다.The MRMR algorithm uses mutual information between variables to select a subset of features with a maximum relevancy while having a minimum redundancy. Select features.

Gini Index 및 MRMR 알고리즘은 두 종의 꽃잎의 너비, 유전자들 및 바퀴의 개수에 의한 탈 것의 분류 등 유사한 성격을 갖는 특징들간의 상관관계를 계산할 때 유용하다.The Gini Index and MRMR algorithms are useful for calculating correlations between features of similar characteristics, such as the width of two petals, the number of genes, and the number of wheels.

하지만, 기계학습의 경우, 입력변수로 사용되는 특징들 간의 유사성이 항상 보장되는 것은 아니기 때문에, 유사성이 보장되지 않은 입력변수들 간의 상관관계를 보다 정확하게 추정하여, 적절한 특징들을 선택하는 알고리즘의 개발이 필요하다.However, in the case of machine learning, since the similarity between features used as input variables is not always guaranteed, the development of an algorithm for more accurately estimating the correlation between input variables for which similarity is not guaranteed, need.

A Comparative Analysis of Feature Selection Algorithms on Classification of Gene Microarray Dataset, J. jeyachidra, M. punithavalli. February 21, 2013, Information Communication and Embedded Systems (ICICES), 2013 International Conference on.A Comparative Analysis of Feature Selection Algorithms on Classification of Gene Microarray Dataset, J. jeyachidra, M. punithavalli. February 21, 2013, Information Communication and Embedded Systems (ICICES), 2013 International Conference on.

본 발명은 입력된 데이터들의 행렬을 생성하고, 관계형 행렬을 이용하여 데이터들의 간의 연관성 여부를 카운트함으로써, 최종적으로 가장 연관된 소수의 특징들을 선택하는 관계형 행렬을 이용한 특징 선택 방법, 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것이다.The present invention relates to a feature selection method, a device and a computer readable recording method using a relational matrix for generating a matrix of input data, using a relational matrix to determine whether the data are related or not, and finally selecting the most- Media.

본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법은 입력된 데이터들 각각에 대해 설정된 행 번호와 열 번호로 구성된 행렬을 생성하는 단계; 특정 이벤트가 발생할 때마다, 상기 생성된 행렬을 이용해 상기 특정 이벤트와 함께 출현한 데이터들의 출현 횟수를 카운트하는 단계; 상기 입력된 데이터들 중 출현 횟수가 가장 많이 카운트된 데이터를 선택하는 단계; 및 상기 선택된 데이터와 연관된 특징 데이터들을 추출하는 단계를 포함할 수 있다.A feature selection method using a relational matrix according to an exemplary embodiment of the present invention includes generating a matrix including a row number and a column number set for each of input data; Counting the number of occurrences of data appearing together with the specific event using the generated matrix every time a specific event occurs; Selecting data in which the number of occurrences is the highest among the input data; And extracting feature data associated with the selected data.

상기 생성하는 단계는, 상기 입력된 데이터들의 수가 n개인 경우, n x n 크기의 행렬을 생성하는 단계를 포함할 수 있다.The generating may include generating an n x n matrix when the number of input data is n.

상기 카운트하는 단계는, 상기 행렬의 행 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 행 번호들을 선택하는 단계; 상기 행렬의 열 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 열 번호들을 선택하는 단계; 및 상기 행렬에서 상기 선택된 행 번호들에 포함된 원소들 중 상기 선택된 열 번호들에 중복으로 포함된 원소들의 값을 증가시키면서 상기 데이터들의 출현 횟수를 카운트하는 단계를 포함할 수 있다.Wherein the counting step includes the steps of: selecting row numbers set for data appearing together with the specific event among the row numbers of the matrix; Selecting column numbers set for data appearing together with the specific event among column numbers of the matrix; And counting the number of occurrences of the data while increasing values of elements included in the selected column numbers among the elements included in the selected row numbers in the matrix.

상기 데이터를 선택하는 단계는, 상기 행렬의 대각성분에 포함된 원소들 중 가장 큰 값을 가진 원소의 행 번호를 선택하는 단계; 및 상기 선택된 행 번호에 대응되는 데이터를 선택하는 단계를 포함할 수 있다.Wherein the step of selecting the data comprises: selecting a row number of an element having a largest value among elements included in a diagonal component of the matrix; And selecting data corresponding to the selected row number.

상기 특징 데이터들을 추출하는 단계는, 상기 행렬의 상기 선택된 행 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 열 번호들을 선택하는 단계; 및 상기 행렬의 상기 선택된 각 열 번호별로, 상기 선택된 각 열 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출하는 단계를 포함할 수 있다.Wherein the extracting of the feature data comprises: selecting column numbers including N upper elements in order of magnitude among elements included in the selected row number of the matrix; And extracting feature data corresponding to the row numbers including the upper N elements in order of magnitude among the elements included in the selected column numbers for each selected column number of the matrix.

상기 특징 데이터들을 추출하는 단계는, 상기 행렬의 상기 선택된 각 열 번호별로, 상기 각 열에 포함된 원소들을 크기에 따라 내림차순으로 정렬시킨 서브행렬들을 생성하는 단계; 상기 생성된 각 서브행렬의 1행 1열에서부터 N행 1열까지의 부분행렬에 포함된 원소들을 추출하는 단계; 및 상기 행렬의 열 번호들 중 상기 서브행렬들에 대응되는 열 번호들 각각에서, 상기 각 서브행렬에서 추출된 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출하는 단계를 포함할 수 있다.The extracting of the characteristic data may include generating sub-matrices in which the elements included in the respective columns are sorted in descending order of size for each selected column number of the matrix; Extracting elements included in the partial matrixes from the first row and the first column to the N row and the first column of each of the generated sub-matrices; And extracting feature data corresponding to row numbers including the elements extracted from the respective sub-matrices, in each of the column numbers corresponding to the sub-matrices among the column numbers of the matrix.

상기 N은, 상기 추출된 데이터들의 개수의 제곱근보다 이상이고, 상기 입력된 데이터들의 개수 이하의 자연수이다.N is a natural number equal to or less than a square root of the number of extracted data and equal to or less than the number of the input data.

상기 서브행렬들은, 상기 입력된 데이터들의 수가 n개인 경우, n x N 크기의 행렬이다.The submatrices are n x N matrices when the number of input data is n.

본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 장치는 입력된 데이터들 각각에 대해 설정된 행 번호와 열 번호로 구성된 행렬을 생성하고, 특정 이벤트가 발생할 때마다, 상기 생성된 행렬을 이용해 상기 특정 이벤트와 함께 출현한 데이터들의 출현 횟수를 카운트하고, 상기 입력된 데이터들 중 출현 횟수가 가장 많이 카운트된 데이터를 선택하고, 상기 선택된 데이터와 연관된 특징 데이터들을 추출할 수 있다.A feature selection apparatus using a relational matrix according to an exemplary embodiment of the present invention generates a matrix including row numbers and column numbers set for each of input data, and generates a matrix using the generated matrix It is possible to count the number of occurrences of data appearing together with a specific event, select data in which the number of occurrences is the highest among the input data, and extract the feature data associated with the selected data.

상기 장치는, 상기 입력된 데이터들의 수가 n개인 경우, n x n 크기의 행렬을 생성할 수 있다.The apparatus may generate a matrix of size n x n if the number of input data is n.

상기 장치는, 상기 행렬의 행 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 행 번호들을 선택하고, 상기 행렬의 열 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 열 번호들을 선택하고, 상기 행렬에서 상기 선택된 행 번호들에 포함된 원소들 중 상기 선택된 열 번호들에 중복으로 포함된 원소들의 값을 증가시키면서 상기 데이터들의 출현 횟수를 카운트할 수 있다.Wherein the apparatus selects row numbers set for data appearing together with the specific event among the row numbers of the matrix and sets a column number set for data appearing together with the specific event among the column numbers of the matrix The number of occurrences of the data can be counted while increasing the value of the elements included in the selected column numbers among the elements included in the selected row numbers in the matrix.

상기 장치는, 상기 행렬의 대각성분에 포함된 원소들 중 가장 큰 값을 가진 원소의 행 번호를 선택하고, 상기 선택된 행 번호에 대응되는 데이터를 선택할 수 있다.The apparatus can select the row number of the element having the largest value among the elements included in the diagonal component of the matrix and select the data corresponding to the selected row number.

상기 장치는, 상기 행렬의 상기 선택된 행 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 열 번호들을 선택하고, 상기 행렬의 상기 선택된 각 열 번호별로, 상기 선택된 각 열 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출할 수 있다.The apparatus includes column numbers including upper N elements in order of magnitude among the elements included in the selected row number of the matrix and is included in each selected column number for each selected column number of the matrix The feature data corresponding to the row numbers including the upper N elements in the order of the size of the elements can be extracted.

상기 장치는, 상기 행렬의 상기 선택된 각 열 번호별로, 상기 각 열에 포함된 원소들을 크기에 따라 내림차순으로 정렬시킨 서브행렬들을 생성하고, 상기 생성된 각 서브행렬의 1행 1열에서부터 N행 1열까지의 부분행렬에 포함된 원소들을 추출하고, 상기 행렬의 열 번호들 중 상기 서브행렬들에 대응되는 열 번호들 각각에서, 상기 각 서브행렬에서 추출된 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출할 수 있다.The apparatus generates submatrices in which the elements included in each column are sorted in descending order of size for each selected column number of the matrix, and generates submatrices from the first row to the first column of the generated submatrix, Corresponding to the row numbers including the elements extracted from the respective sub-matrices, in each of the column numbers corresponding to the sub-matrices among the column numbers of the matrix, Data can be extracted.

상기 N은, 상기 추출된 데이터들의 개수의 제곱근보다 이상이고, 상기 입력된 데이터들의 개수 이하의 자연수이다.N is a natural number equal to or less than a square root of the number of extracted data and equal to or less than the number of the input data.

상기 서브행렬들은, 상기 입력된 데이터들의 수가 n개인 경우, n x N 크기의 행렬이다.The submatrices are n x N matrices when the number of input data is n.

본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 포함할 수 있다.And a computer readable recording medium recording a computer program for executing a feature selection method using a relational matrix according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법, 장치 및 컴퓨터 판독 가능한 기록매체에 따르면, 종래의 Sequential Backward Search 방식보다 연산 시간을 줄일 수 있는 효과가 있다.According to the feature selection method, apparatus, and computer-readable recording medium using the relational matrix according to an embodiment of the present invention, the computation time can be reduced compared to the conventional sequential backward search method.

또한, Gini Index 및 MRMR 알고리즘보다 연관성에 대한 정확도가 높은 특징들을 선택할 수 있는 효과가 있으며, 정확도가 동일할 경우에도 더 적은 특징들을 선택할 수 있는 효과가 있다.In addition, it has the effect of selecting features with higher relevance to the association than the Gini Index and MRMR algorithm, and selecting fewer features even when the accuracy is the same.

또한, 관계형 행렬은 특징의 값이 아니라 학습과정에서 결과에 기여하는 정도를 판단하여 특징들을 선택하므로, 선택되는 특징들 간의 유사성을 요구하지 않아 더욱 정확한 특징들을 추출할 수 있으며, 입력변수들 간의 유사성이 보장되지 않은 기계학습에서도 사용될 수 있는 효과가 있다.In addition, since the relational matrix selects characteristics by judging the degree of contribution to the result in the learning process rather than the value of the characteristic, more accurate features can be extracted because similarity between the selected features is not required, Can be used in unsecured machine learning.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법의 순서도를 간략히 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법에 있어서, 생성된 행렬의 예시를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법에 있어서, 가장 많이 카운트된 데이터를 선택하는 예시를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법에 있어서, 특징 데이터들을 추출하는 예시를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 관계형 행렬을 이용하여 특징들을 추출한 실험데이터를 도시한 도면이다.
The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of the specification, illustrate embodiments of the invention and, together with the description, serve to explain the technical features of the invention.
1 is a flowchart briefly illustrating a method of selecting a feature using a relational matrix according to an embodiment of the present invention.
2 is a diagram illustrating an example of a generated matrix in a feature selection method using a relational matrix according to an embodiment of the present invention.
FIG. 3 is a diagram illustrating an example of selecting a most-counted data in a feature selection method using a relational matrix according to an embodiment of the present invention.
4 is a diagram illustrating an example of extracting feature data in a feature selection method using a relational matrix according to an embodiment of the present invention.
5 is a diagram showing experimental data in which features are extracted using a relational matrix according to an embodiment of the present invention.

본 명세서에서 제1 및/또는 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 즉, 구성요소들을 상기 용어들에 의해 한정하고자 함이 아니다.The terms first and / or second in this specification are used only for the purpose of distinguishing one element from another. That is, the components are not intended to be limited by the terms.

본 명세서에서 '포함하다' 라는 표현으로 언급되는 구성요소, 특징, 및 단계는 해당 구성요소, 특징 및 단계가 존재함을 의미하며, 하나 이상의 다른 구성요소, 특징, 단계 및 이와 동등한 것을 배제하고자 함이 아니다.The components, features, and steps referred to in the specification as " comprising " in this specification are intended to mean that there are corresponding components, features, and steps, and do not preclude the presence of one or more other components, features, steps, and the like Is not.

본 명세서에서 단수형으로 특정되어 언급되지 아니하는 한, 복수의 형태를 포함한다. 즉, 본 명세서에서 언급된 구성요소 등은 하나 이상의 다른 구성요소 등의 존재나 추가를 의미할 수 있다.Includes plural forms as long as it is not specified and specified in the singular form herein. That is, the components and the like referred to in this specification may mean the presence or addition of one or more other components or the like.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함하여, 본 명세서에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자(통상의 기술자)에 의하여 일반적으로 이해되는 것과 동일한 의미이다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs to be.

즉, 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.That is, terms such as those defined in commonly used dictionaries should be construed as meaning consistent with meaning in the context of the related art, and unless otherwise expressly defined herein, interpreted in an ideal or overly formal sense It does not.

이하에서는, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법, 장치 및 컴퓨터 판독 가능한 기록매체에 대해 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to the preferred embodiments of the present invention, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the like elements throughout.

도 1은 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법의 순서도를 간략히 도시한 도면이다.1 is a flowchart briefly illustrating a method of selecting a feature using a relational matrix according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법은 행렬을 설정하는 단계(S101), 카운트하는 단계(S103), 데이터를 선택하는 단계(S105) 및 특징 데이터들을 추출하는 단계(S107)을 포함할 수 있다.Referring to FIG. 1, a feature selection method using a relational matrix according to an embodiment of the present invention includes a step of setting a matrix (S101), a step of counting (S103), a step of selecting data (S105) (Step S107).

본 발명의 일 실시예에 따른 관계형 행렬(Relational Matrix)을 이용한 특징 선택 방법은 본 발명의 다른 실시예에 따른 관계형 행렬을 이용한 특징 선택 장치에 의해서 수행될 수 있다.A feature selection method using a relational matrix according to an embodiment of the present invention may be performed by a feature selection apparatus using a relational matrix according to another embodiment of the present invention.

행렬을 생성하는 단계(S101)는 입력된 데이터들 각각에 대해 설정된 행 번호와 열 번호로 구성된 행렬을 생성하는 단계이다. 예컨대, n개의 데이터들이 입력된 경우, 각 데이터에 대해 설정된 행 번호와 열 번호로 구성된 n x n 행렬이 생성될 수 있으며, 행렬의 원소는 0으로 초기화될 수 있다.The step of generating a matrix (S101) is a step of generating a matrix composed of row numbers and column numbers set for each of the input data. For example, when n pieces of data are input, an n x n matrix composed of a row number and a column number set for each piece of data may be generated, and an element of the matrix may be initialized to zero.

카운트하는 단계(S103)는 특정 이벤트가 발생할 때마다, 생성된 행렬을 이용해 상기 특정 이벤트와 함께 출현한 데이터들의 출현 횟수를 카운트하는 단계이다.The counting step S103 is a step of counting the number of occurrences of data appearing together with the specific event using the generated matrix whenever a specific event occurs.

즉, 행렬의 행 번호들 중 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 행 번호들을 선택하고, 행렬의 열 번호들 중 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 열 번호들을 선택하여, 선택된 행 번호들에 포함된 원소들 중 선택된 열 번호들에 중복으로 포함된 원소들의 값을 1씩 증가시키면서 데이터들의 출현 횟수를 카운트하는 단계이다.That is, among the row numbers of the matrix, row numbers set for data appearing together with a specific event are selected, column numbers set for data appearing together with a specific event among the column numbers of the matrix are selected, Counting the number of occurrences of data while increasing the value of the elements redundantly included in the selected column numbers among the elements included in the numbers by one.

예컨대, X라는 이벤트가 발생할 때 A, B 및 C 이벤트가 같이 발생하면, A, B 및 C 이벤트에 대해 설정된 행 번호들에서, A, B 및 C에 대해 설정된 열 번호들의 원소를 1씩 증가시킬 수 있다.For example, if A, B, and C events occur together when an event X occurs, the elements of the column numbers set for A, B, and C are incremented by 1 in the row numbers set for the A, B, and C events .

즉, 행렬에서 (A,A), (A,B), (A,C), (B,A), (B,B), (B,C), (C,A), (C,B) 및 (C,C)의 원소를 1씩 증가시킴으로써, 특정 이벤트가 발생될 때마다 함께 일어난 이벤트들에 대해 설정된 행렬의 원소의 값을 증가시킴으로써, 이벤트들 간의 관련성이 표현될 수 있다.(A, B), (B, A), (B, B), (B, C) ) And (C, C) by 1, thereby increasing the value of the element of the matrix set for the events that occur together each time a specific event is generated.

데이터를 선택하는 단계(S105)는 입력된 데이터들 중 출현 횟수가 가장 많이 카운트된 데이터를 선택하는 단계이다.The step of selecting data (step S105) is a step of selecting data in which the number of times of appearance is the greatest among the input data.

카운트하는 단계(S103)를 마친 행렬은 대각성분을 기준으로 대칭이므로, 행렬의 대각성분에 출현 횟수가 가장 많이 카운트된 데이터가 포함될 수 있다.Since the matrix after the counting step S103 is symmetric with respect to the diagonal component, the data in which the number of times of appearance is the largest is included in the diagonal component of the matrix.

즉, 행렬의 대각성분에 포함된 원소들 중 가장 큰 값을 가진 원소의 행 번호에 대응되는 데이터가 가장 많이 카운트된 데이터로 선택될 수 있다.That is, the data corresponding to the row number of the element having the largest value among the elements included in the diagonal elements of the matrix can be selected as the most counted data.

예컨대, 본 발명에서는 (A,A), (B,B) 및 (C,C)와 같은 대각성분의 원소들의 값들도 증가시키기 때문에, 행렬의 원소들 중 최대값을 갖는 원소는 대각성분에 포함된다.For example, in the present invention, since values of elements of the diagonal elements such as (A, A), (B, B) and (C, C) also increase, the element having the maximum value among the elements of the matrix is included in the diagonal element do.

특징 데이터들을 추출하는 단계(S107)는 데이터를 선택하는 단계(S105)에서 선택된 데이터와 연관된 특징 데이터들을 추출하는 단계이다.The step of extracting feature data (S107) is a step of extracting feature data associated with the data selected in the step of selecting data (S105).

먼저, 행렬의 원소들 중 가장 큰 값을 갖는 원소의 행 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들을 포함하는 열 번호들이 선택될 수 있다.First, column numbers including upper N elements in the order of magnitude among the elements included in the row number of the element having the largest value among the elements of the matrix can be selected.

여기서, N은 행렬의 행 또는 열의 수보다는 작고, 추출하려는 특징 데이터들의 개수의 제곱근보다 큰 수로서, 임의로 설정될 수 있다. 즉, N에 따라 추출되는 특징 데이터들의 수의 상한이 결정될 수 있다.Here, N may be arbitrarily set to be smaller than the number of rows or columns of the matrix and larger than the square root of the number of feature data to be extracted. That is, the upper limit of the number of feature data extracted according to N can be determined.

예컨대, 행렬의 원소들 중 (C,C)가 가장 큰 값을 갖는 원소라면, C행에 포함된 원소들 중 크기순으로 상위 2개의 원소들이 포함된 열 번호들이 선택될 수 있다. C행에 포함된 원소들 중 상위 2개의 원소들이 (C,A) 및 (C,C)에 포함되었다면, 선택된 열 번호들은 A 및 C이다.For example, if (C, C) among the elements of the matrix is the element having the largest value, the column numbers including the upper two elements in order of magnitude among the elements included in the C row can be selected. If the top two elements of the elements included in row C are included in (C, A) and (C, C), the selected column numbers are A and C.

다음으로, 선택된 열 번호별로, 각 열 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 추출될 수 있다.Next, for each selected column number, the upper N elements may be extracted in descending order among the elements included in each column number.

예컨대, 선택된 A열 및 C열에 각각 포함된 원소들을 크기에 따라 내림차순으로 정렬시킨 2개의 n x 1 서브행렬들이 생성되고, 각 서브행렬의 1행 1열부터 2행 1열까지의 부분행렬에 포함된 원소들이 추출될 수 있다. 여기서, n은 입력된 데이터들의 수로서, 위의 예시에서는 3 x 1 서브행렬들이 생성될 수 있다.For example, two nx 1 submatrices are generated in which the elements included in the selected column A and column C are sorted in descending order according to their sizes, and the nx 1 submatrices included in the submatrix from row 1 column 1 row 2 column 1 column Elements can be extracted. Here, n is the number of input data, and in the above example 3 x 1 sub-matrices can be generated.

각 서브행렬별로 원소들을 추출한 후, 행렬의 열 번호들 중 서브행렬들에 대응되는 열 번호들 각각에서, 추출된 원소들이 포함된 행렬의 행 번호들이 선택될 수 있다.After extracting the elements for each sub-matrix, the row numbers of the matrix including the extracted elements may be selected in each of the column numbers corresponding to the sub-matrices among the column numbers of the matrix.

예컨대, A열에 대응되는 서브행렬에서 추출된 원소들이 3 및 5이면, 행렬의 A열에서 원소가 3 및 5인 행들이 선택될 수 있다. 행렬의 각 열 번호에서 가장 큰 원소는 행렬의 대각성분에 포함되기 때문에, A행과 나머지 행들 중 하나의 행이 선택될 수 있다. 마찬가지로 C열에서는 C행과 나머지 행들 중 하나의 행이 선택될 수 있다.For example, if the elements extracted from the sub-matrix corresponding to column A are 3 and 5, rows with elements 3 and 5 in column A of the matrix may be selected. Since the largest element in each column number of the matrix is included in the diagonal of the matrix, row A and row one of the remaining rows can be selected. Similarly, in row C, a row of C and one of the remaining rows may be selected.

마지막으로, 선택된 각 행 번호에 대응되는 데이터들이 특징 데이터들로 추출될 수 있다. Finally, data corresponding to each selected row number can be extracted as the feature data.

예컨대, A열에서 A행과 B행이 선택되고, C열에서 B행과 C행이 선택되었다면, A, B 및 C행에 대응되는 데이터들이 특징 데이터들로 추출될 수 있다.For example, if row A and row B are selected in column A and row B and row C are selected in column C, data corresponding to rows A, B, and C may be extracted as feature data.

도 2는 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법에 있어서, 생성된 행렬의 예시를 도시한 도면이다.2 is a diagram illustrating an example of a generated matrix in a feature selection method using a relational matrix according to an embodiment of the present invention.

도 2a는 A 이벤트와 관련이 있을 것으로 예측되는 1, 2, 3, 4 및 5 이벤트들에 대한 그래프(101)를 도시한 도면이다.FIG. 2A is a graph showing a graph 101 for events 1, 2, 3, 4, and 5 predicted to be associated with an A event.

도 2b는 A 이벤트가 발생할 때, 1, 2 및 4 이벤트가 발생한 경우, 1, 2 및 4 이벤트들에 대한 링크(103)를 도시한 도면이다.2B is a diagram illustrating a link 103 for events 1, 2, and 4 when events 1, 2, and 4 occur when an A event occurs.

도 2c는 1, 2 및 4 이벤트가 발생한 경우에, 1, 2, 3, 4 및 5 이벤트에 대해 생성된 행렬(105)에 포함된 원소들의 값을 증가시킨 예시를 도시한 도면이다.2C shows an example of increasing the values of the elements included in the matrix 105 generated for the 1, 2, 3, 4 and 5 events when the 1, 2 and 4 events occur.

도 2를 참조하면, 행렬의 행 번호 및 열 번호는 각 이벤트와 대응될 수 있다. 예컨대, I1 내지 I5 행 번호는 각각 1 내지 5 이벤트와 대응되고, I1 내지 I5 열 번호는 각각 1 내지 5이벤트와 대응된다.Referring to FIG. 2, the row number and column number of the matrix may correspond to each event. For example, line numbers I1 to I5 correspond to 1 to 5 events, respectively, and column numbers I1 to I5 correspond to 1 to 5 events, respectively.

1, 2 및 4 이벤트가 발생한 경우, 행렬의 (I1,I1), (I1,I2), (I1,I4), (I2,I1), (I2,I2), (I2,I4), (I4,I1), (I4,I2) 및 (I4,I4)에 포함된 원소들의 값이 1씩 증가될 수 있다.(I1, I2), (I1, I4), (I2, I1), (I2, I2), (I2, I4) , I1), (I4, I2) and (I4, I4) may be incremented by one.

도 3은 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법에 있어서, 가장 많이 카운트된 이벤트를 선택하는 예시를 도시한 도면이다.FIG. 3 is a diagram illustrating an example of selecting a most-counted event in a feature selection method using a relational matrix according to an embodiment of the present invention.

도 4는 본 발명의 일 실시예에 따른 관계형 행렬을 이용한 특징 선택 방법에 있어서, 특징 이벤트들을 추출하는 예시를 도시한 도면이다.4 is a diagram illustrating an example of extracting feature events in a feature selection method using a relational matrix according to an embodiment of the present invention.

도 3 내지 4를 참조하면, 이벤트 A가 발생할 때마다, 함께 발생한 이벤트들에 대응되는 행렬의 원소들의 값을 증가시켰을 경우, 행렬의 원소들 중 최대값을 갖는 원소는 행렬의 대각성분에 포함될 수 있다.3 to 4, when the value of the elements of the matrix corresponding to the events that occur together is increased every time the event A occurs, the element having the maximum value among the elements of the matrix may be included in the diagonal of the matrix have.

예컨대, 이벤트 A가 발생했을 때, 이벤트 1, 2 및 4가 함께 발생한 경우, I1행의 원소들 중 (I1,I2) 및 (I1, I4) 뿐만 아니라 (I1, I1)에 포함된 원소의 값도 증가되기 때문에, 행렬에 포함된 원소들 중 최대값을 가진 원소는 대각성분에 포함된다.For example, when events 1, 2 and 4 occur together when the event A occurs, the values of the elements included in (I1, I1) as well as (I1, I2) The element having the maximum value among the elements included in the matrix is included in the diagonal element.

본 예시에서는 (I4,I4)(107)에 포함된 원소가 13의 값을 가지므로, I4행이 선택되고, I4행에 대응되는 4이벤트가 가장 많이 카운트된 데이터로 추출될 수 있다.In this example, since the element included in (I4, I4) 107 has a value of 13, row I4 is selected and four events corresponding to row I4 can be extracted as the most counted data.

다음으로, I4행에 포함된 원소들 중 크기가 큰 순으로 상위 N개의 원소들을 포함하는 열들이 선택될 수 있다. Next, columns including the top N elements in descending order of magnitude of the elements included in row I4 may be selected.

본 예시에서는 N을 3개로 설정하여, 상위 3개의 원소들을 포함하는 열들(109)을 선택하였으며, 선택된 열 번호들은 I2, I3 및 I4이다.In this example, N is set to three, and columns including the top three elements are selected, and the selected column numbers are I2, I3, and I4.

마지막으로, 선택된 각 열 번호에 포함된 원소들(111) 중 크기가 큰 순으로 상위 N개의 원소들을 포함하는 행 번호들이 선택될 수 있다.Finally, row numbers including the top N elements in descending order of the size of the elements 111 included in each selected column number can be selected.

본 예시에서는 I2, I3 및 I4 열들 각각에서, 각 열 번호에 포함된 원소들 중 크기가 큰 순으로 상위 3개의 원소들을 포함하는 행 번호들이 선택될 수 있다.In this example, in each of the columns I2, I3, and I4, row numbers including the top three elements in descending order of the size of the elements included in each column number can be selected.

I2 열의 경우 I2, I4 및 I1 행이 선택되고, I3 열의 경우 I3, I4 및 I2 행이 선택되고, I4열의 경우 I4, I2 및 I3 행이 선택된다.I2, I4 and I1 rows are selected for the I2 column, I3, I4 and I2 rows for the I3 column are selected, and I4, I2 and I3 rows for the I4 column are selected.

선택된 행 번호들은 I1, I2, I3 및 I4으로, 각 행 번호에 대응되는 1, 2, 3 및 4 이벤트가 A 이벤트와 관련된 특징 이벤트들로 추출될 수 있다.Selected row numbers may be extracted as feature events associated with A events, such as I1, I2, I3, and I4, with 1, 2, 3, and 4 events corresponding to each row number.

도 5는 본 발명의 일 실시예에 따른 관계형 행렬을 이용하여 특징들을 추출한 실험데이터를 도시한 도면이다.5 is a diagram showing experimental data in which features are extracted using a relational matrix according to an embodiment of the present invention.

DatasetDataset Number of GenesNumber of Genes ClassesClasses Training DataTraining Data Colon Cancer DatabaseColon Cancer Database 20002000 NormalNormal 2222 CancerCancer 4040

표 1은 (비특허문헌 1)에서 사용한 Colon Cancer Dataset으로, Colon Cancer Dataset은 Gini 인데스, 최대 관련성 및 최소 중복성 (Maximum Relevance and Minimum Redundancy, MRMR) 및 본 발명의 일 실시예에 따른 관계형 행렬의 정확도 분석을 위한 Dataset으로 사용되었다.Table 1 shows the Colon Cancer Dataset used in (Non-Patent Document 1), Colon Cancer Dataset used in the Gini index, Maximum Relevance and Minimum Redundancy (MRMR), and Relational Matrix according to one embodiment of the present invention. It was used as Dataset for accuracy analysis.

도 5를 참조하면, 총 2000개의 Gene에 대해 2000 x 2000 행렬을 생성하고, 20 x 20 크기의 관계형 행렬을 이용하여 75개의 Gene들을 추출하였다.Referring to FIG. 5, a 2000 x 2000 matrix is generated for a total of 2000 Gens, and 75 Gens are extracted using a 20 x 20 relational matrix.

여기서 20의 크기는, 행렬의 행 번호 또는 열 번호에 포함된 원소들 중 크기순으로 상위 20개의 원소들을 선택하는 숫자로서, 추출되는 feature Gene들의 개수의 상한을 정하는 크기일 수 있다.Here, the size of 20 is a number that selects the upper 20 elements in order of size of the elements included in the row number or column number of the matrix, and may be a size that defines the upper limit of the number of feature Gene extracted.

예컨대, 2000 x 2000의 행렬의 대각성분 중 Ix 행의 원소의 값이 가장 큰 경우, Ix 행에 포함된 원소들 중 크기순으로 상위 20개의 원소들을 포함하는 열 번호들이 추출될 수 있다.For example, when the value of the element of the Ix row among the diagonal elements of the 2000 x 2000 matrix is the largest, the column numbers including the upper 20 elements in order of magnitude among the elements included in the Ix row can be extracted.

그 후, 추출된 열 번호별로, 각 열에 포함된 원소들 중 크기순으로 상위 20개의 원소들을 포함하는 행 번호들이 추출되고, 추출된 행 번호들에 대응되는 75개의 Gene들이 추출될 수 있다.Then, row numbers including the top 20 elements are extracted from among the elements included in each column in the order of the extracted column numbers, and 75 Gens corresponding to the extracted row numbers can be extracted.

이와 같은 방식으로 75개의 Gene들에 대해서는 10 x 10 크기의 관계형 행렬을 통해 14개의 Gene들을 추출하고, 14개의 Gene들에 대해서는 4 x 4 크기의 관계형 행렬을 통해 7개의 Gene들을 추출하였다.In this way, we extracted 14 Gens through a 10 x 10 relational matrix for 75 Gens, and extracted 7 Gens through a 4 x 4 relational matrix for 14 Gens.

ClassifierClassifier Feature Selection MethodFeature Selection Method Selected Features CountSelected Features Count Accuracy(%)Accuracy (%) Error(%)Error (%) Bayesian NetworkBayesian Network Gini IndexGini Index 1010 87.1087.10 12.9012.90 MRMRMRMR 1010 85.4885.48 14.5214.52 NEWFMNEWFM Gini IndexGini Index 1010 87.1087.10 12.9012.90 MRMRMRMR 1010 88.7188.71 11.2911.29 Relational MatrixRelational Matrix 77 88.7188.71 11.2911.29

표 2는 Colon Cancer Dataset을 Gini Index, MRMR 및 관계형 행렬로 10개 이하의 선택된 특징들(Selected features)의 정확도를 측정한 실험 데이터이다.Table 2 shows experimental data on the accuracy of the Colon Cancer Dataset with Gini Index, MRMR, and relational matrix for less than 10 selected features.

검증의 방법으로는 (비특허문헌 1)에서 개시된 LOO(Leave-One-Out) Cross Validation을 사용하였다.As a verification method, a leave-one-out (LOO) cross validation disclosed in (Non-Patent Document 1) was used.

실험 결과를 보면, 가중 퍼지소속함수 기반 신경망(Neural Network with Weighted Fuzzy Membership Functions, NEWFM), MRMR 및 관계형 행렬(Relational Matrix)의 조합이 88.71%의 정확도로 가장 높은 정확도를 보였으며, NEWFM과 관계형 행렬의 조합이 7개의 특징들을 선택함으로써 가장 적은 수의 특징을 선택하였다.Experimental results show that the combination of the Neural Network with Weighted Fuzzy Membership Functions (NEWFM), MRMR and Relational Matrix has the highest accuracy with an accuracy of 88.71%, NEWFM and Relational Matrix Has selected the smallest number of features by selecting seven features.

정확도가 동일하더라도 선택된 특징의 수가 적을수록 신뢰도가 증가하기 때문에, 위 결과를 종합하면 NEWFM과 관계형 행렬의 조합이 가장 뛰어난 성능을 보였다.As the number of selected features increases, the reliability increases. Even though the accuracy is the same, the combination of NEWFM and relational matrix has the best performance.

ClassifierClassifier Feature Selection MethodFeature Selection Method Selected Features CountSelected Features Count Accuracy(%)Accuracy (%) Error(%)Error (%) Bayesian Network
Bayesian Network
Gini IndexGini Index 2020 88.7188.71 11.2911.29
MRMRMRMR 2020 83.8783.87 16.1316.13 NEWFMNEWFM Relational MatrixRelational Matrix 1414 90.3290.32 9.689.68

표 3은 Colon Cancer Dataset을 Gini Index, MRMR 및 관계형 행렬로 선택된 10개 초과 20개 이하의 특징들(Selected features)의 정확도를 측정한 실험 데이터이다.Table 3 shows experimental data on the accuracy of the Colon Cancer Dataset over 10 to 20 selected features selected by Gini Index, MRMR and relational matrix.

검증의 방법은 표2에서와 마찬가지로 (비특허문헌 1)에서 개시된 LOO(Leave-One-Out) Cross Validation을 사용하였다.As a method of verification, a leave-one-out (LOO) cross validation disclosed in (Non-Patent Document 1) was used as in Table 2.

실험 결과를 보면, NEWFM과 관계형 행렬의 조합이 90.32%의 정확도로 가장 높은 정확도를 보였으며, 14개의 특징들을 선택함으로써 가장 적은 수의 특징을 선택하였다.Experimental results show that the combination of NEWFM and relational matrix has the highest accuracy with accuracy of 90.32% and selects the fewest features by selecting 14 features.

따라서, 위 결과를 종합하면 NEWFM과 관계형 행렬의 조합이 가장 뛰어난 성능을 보였다.Therefore, the combination of NEWFM and relational matrices shows the best performance when we combine the above results.

Feature Selection MethodFeature Selection Method Index of the selected 10 features(genes)Index of the selected 10 features (genes) Gini IndexGini Index 245, 249, 267, 493, 513, 1423, 1671, 1771, 1772245, 249, 267, 493, 513, 1423, 1671, 1771, 1772 MRMRMRMR 249, 493, 513, 625, 765, 1042, 1671, 1771, 1772249, 493, 513, 625, 765, 1042, 1671, 1771, 1772 Relational MatrixRelational Matrix 82, 245, 249, 286, 493, 765, 177282, 245, 249, 286, 493, 765, 1772

표 4는 표 2의 NEWFM과 Gini Index, MRMR 및 관계형 행렬 간의 조합에 따라 추출된 feature(gene)들을 나타낸 표이다.Table 4 shows the extracted features (genes) according to the combination of NEWFM and Gini Index, MRMR, and relational matrix in Table 2.

249, 493, 765, 1772는 세 가지 Method를 통해 공통적으로 추출되었으나, 245는 Gini Index 및 관계형 행렬에서만 추출되었고, 72 및 286은 관계형 행렬에서만 추출되었다.249, 493, 765, and 1772 were extracted through three methods. However, 245 was extracted only from Gini Index and relational matrix, and 72 and 286 were extracted from relational matrix only.

Gini Index 및 MRMR과 달리 관계형 행렬은 특징의 값이 아니라 학습과정에서 결과에 기여하는 정도를 판단하여 특징들을 선택하기 때문에, 선택되는 특징들 간의 유사성을 요구하지 않아 더욱 정확한 특징들을 추출할 수 있다.Unlike the Gini Index and MRMR, relational matrices do not require the similarity between the selected features because they select the features by judging the extent of contribution to the results in the learning process, not the feature values.

본 명세서에서 설명된 실시예들에 관한 예시적인 모듈, 단계, 과정, 로직 블록, 수단, 단계 또는 이들의 조합은 전자 하드웨어(코딩 등에 의해 설계되는 디지털 설계), 소프트웨어(프로그램 명령을 포함하는 다양한 형태의 애플리케이션) 또는 이들의 조합에 의해 구현될 수 있다. 하드웨어 및/또는 소프트웨어 중 어떠한 형태로 구현되는지는 사용자 단말에 부여되는 설계상의 제약에 따라 달라질 수 있다. 또한, 본 명세서에서 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합에 의해 실행될 수 있다. 소프트웨어에 의해 실행되는 경우, 그 기능은 하나 이상의 명령이나 코드로서 컴퓨터-판독가능 저장 매체에 저장되거나 이를 통해 전송될 수 있다. 컴퓨터-판독가능 저장 매체는 컴퓨터에 의해 액세스 가능한 임의의 이용가능한 매체를 총괄적으로 지칭한다.Steps, processes, logic blocks, means, steps, or combinations thereof, in connection with the embodiments described herein may be implemented as electronic hardware (digital designs designed by coding or the like), software Or a combination thereof). Hardware, and / or software may vary depending on design constraints imposed on the user terminal. In addition, the functions described herein may be implemented by hardware, software, firmware, or a combination thereof. When executed by software, the function may be stored on or transmitted via a computer-readable storage medium as one or more instructions or code. Computer-readable storage media generally refers to any available media that can be accessed by a computer.

비록 본 명세서에서의 설명은 예시적인 몇 가지 양상으로 나타났지만, 다양한 수정이나 변경이 후술되는 특허청구범위에 의해 정의되는 범주로부터 이루어질 수 있으며, 본 발명의 기술적인 보호범위는 다음의 특허청구범위에 의하여 정해져야 할 것이다.Although the description herein has been made in some illustrative aspects, various modifications and variations can be made from the categories defined by the following claims, and the technical scope of the invention is defined in the following claims It should be decided by.

101 : 1, 2, 3, 4 및 5이벤트들에 대한 그래프
103 : 1, 2 및 4 이벤트들에 대한 링크
105 : 1, 2, 3, 4 및 5이벤트에 대해 생성된 행렬
107 : (I4,I4)
109 : 상위 3개의 원소들을 포함하는 열들
111 : 선택된 각 열에 포함된 원소들
101: Graph for 1, 2, 3, 4, and 5 events
103: Link to events 1, 2 and 4
105: Matrix generated for events 1, 2, 3, 4, and 5
107: (I4, I4)
109: Columns containing the top three elements
111: Elements contained in each selected column

Claims (17)

입력된 데이터들 각각에 대해 설정된 행 번호와 열 번호로 구성된 행렬을 생성하는 단계;
특정 이벤트가 발생할 때마다, 상기 생성된 행렬을 이용해 상기 특정 이벤트와 함께 출현한 데이터들의 출현 횟수를 카운트하는 단계;
상기 입력된 데이터들 중 출현 횟수가 가장 많이 카운트된 데이터를 선택하는 단계; 및
상기 선택된 데이터와 연관된 특징 데이터들을 추출하는 단계를 포함하고,
상기 카운트하는 단계는,
상기 행렬의 행 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 행 번호들을 선택하는 단계;
상기 행렬의 열 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 열 번호들을 선택하는 단계; 및
상기 행렬에서 상기 선택된 행 번호들에 포함된 원소들 중 상기 선택된 열 번호들에 중복으로 포함된 원소들의 값을 증가시키면서 상기 데이터들의 출현 횟수를 카운트하는 단계를 포함하는,
관계형 행렬을 이용한 특징 선택 방법.
Generating a matrix including a row number and a column number set for each of the input data;
Counting the number of occurrences of data appearing together with the specific event using the generated matrix every time a specific event occurs;
Selecting data in which the number of occurrences is the highest among the input data; And
Extracting feature data associated with the selected data,
Wherein the counting step comprises:
Selecting row numbers set for data appearing together with the specific event among the row numbers of the matrix;
Selecting column numbers set for data appearing together with the specific event among column numbers of the matrix; And
And counting the number of occurrences of the data while increasing the value of the elements included in the selected column numbers among the elements included in the selected row numbers in the matrix.
Feature Selection Method Using Relational Matrix.
제1항에 있어서,
상기 생성하는 단계는,
상기 입력된 데이터들의 수가 n개인 경우, n x n 크기의 행렬을 생성하는 단계를 포함하며,
관계형 행렬을 이용한 특징 선택 방법.
The method according to claim 1,
Wherein the generating comprises:
Generating a matrix of size nxn if the number of input data is n,
Feature Selection Method Using Relational Matrix.
삭제delete 제1항에 있어서,
상기 데이터를 선택하는 단계는,
상기 행렬의 대각성분에 포함된 원소들 중 가장 큰 값을 가진 원소의 행 번호를 선택하는 단계; 및
상기 선택된 행 번호에 대응되는 데이터를 선택하는 단계를 포함하는,
관계형 행렬을 이용한 특징 선택 방법.
The method according to claim 1,
Wherein the step of selecting the data comprises:
Selecting a row number of an element having a largest value among elements included in a diagonal component of the matrix; And
And selecting data corresponding to the selected row number.
Feature Selection Method Using Relational Matrix.
제4항에 있어서,
상기 특징 데이터들을 추출하는 단계는,
상기 행렬의 상기 선택된 행 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 열 번호들을 선택하는 단계; 및
상기 행렬의 상기 선택된 각 열 번호별로, 상기 선택된 각 열 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출하는 단계를 포함하는,
관계형 행렬을 이용한 특징 선택 방법.
5. The method of claim 4,
Wherein the extracting of the feature data comprises:
Selecting column numbers including upper N elements in order of magnitude among elements included in the selected row number of the matrix; And
Extracting feature data corresponding to the row numbers including the upper N elements in order of magnitude among the elements included in the selected column numbers for each selected column number of the matrix;
Feature Selection Method Using Relational Matrix.
제5항에 있어서,
상기 특징 데이터들을 추출하는 단계는,
상기 행렬의 상기 선택된 각 열 번호별로, 상기 각 열에 포함된 원소들을 크기에 따라 내림차순으로 정렬시킨 서브행렬들을 생성하는 단계;
상기 생성된 각 서브행렬의 1행 1열에서부터 N행 1열까지의 부분행렬에 포함된 원소들을 추출하는 단계; 및
상기 행렬의 열 번호들 중 상기 서브행렬들에 대응되는 열 번호들 각각에서, 상기 각 서브행렬에서 추출된 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출하는 단계를 포함하는,
관계형 행렬을 이용한 특징 선택 방법.
6. The method of claim 5,
Wherein the extracting of the feature data comprises:
Generating sub-matrices in which the elements included in the respective columns are sorted in descending order of size for each selected column number of the matrix;
Extracting elements included in the partial matrixes from the first row and the first column to the N row and the first column of each of the generated sub-matrices; And
Extracting feature data corresponding to row numbers including elements extracted from the sub-matrices in column numbers corresponding to the sub-matrices among column numbers of the matrix,
Feature Selection Method Using Relational Matrix.
제5항에 있어서,
상기 N은,
상기 추출된 데이터들의 개수의 제곱근보다 이상이고, 상기 입력된 데이터들의 개수 이하의 자연수인,
관계형 행렬을 이용한 특징 선택 방법.
6. The method of claim 5,
Wherein N is
Wherein the number of the extracted data is greater than a square root of the number of extracted data,
Feature Selection Method Using Relational Matrix.
제6항에 있어서,
상기 서브행렬들은,
상기 입력된 데이터들의 수가 n개인 경우,
n x N 크기의 행렬인,
관계형 행렬을 이용한 특징 선택 방법.
The method according to claim 6,
The sub-
If the number of the input data is n,
< RTI ID = 0.0 > nx <
Feature Selection Method Using Relational Matrix.
입력된 데이터들 각각에 대해 설정된 행 번호와 열 번호로 구성된 행렬을 생성하고,
특정 이벤트가 발생할 때마다, 상기 행렬의 행 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 행 번호들을 선택하고, 상기 행렬의 열 번호들 중 상기 특정 이벤트와 함께 출현한 데이터들에 대해 설정된 열 번호들을 선택하고, 상기 행렬에서 상기 선택된 행 번호들에 포함된 원소들 중 상기 선택된 열 번호들에 중복으로 포함된 원소들의 값을 증가시키면서 상기 데이터들의 출현 횟수를 카운트하고,
상기 입력된 데이터들 중 출현 횟수가 가장 많이 카운트된 데이터를 선택하고,
상기 선택된 데이터와 연관된 특징 데이터들을 추출하는 제어부를 포함하는,
관계형 행렬을 이용한 특징 선택 장치.
Generates a matrix including a row number and a column number set for each of the input data,
Selecting row numbers set for data appearing together with the specific event among the row numbers of the matrix every time a specific event occurs and for detecting data appearing together with the specific event among column numbers of the matrix Counting the number of occurrences of the data while incrementing values of elements redundantly included in the selected column numbers among the elements included in the selected row numbers in the matrix,
Selects the data in which the number of appearance times of the input data is the highest,
And a controller for extracting feature data associated with the selected data,
Feature selection device using relational matrix.
제9항에 있어서,
상기 입력된 데이터들의 수가 n개인 경우, n x n 크기의 행렬을 생성하는,
관계형 행렬을 이용한 특징 선택 장치.
10. The method of claim 9,
Generating a matrix of size nxn when the number of input data is n,
Feature selection device using relational matrix.
삭제delete 제9항에 있어서,
상기 행렬의 대각성분에 포함된 원소들 중 가장 큰 값을 가진 원소의 행 번호를 선택하고,
상기 선택된 행 번호에 대응되는 데이터를 선택하는,
관계형 행렬을 이용한 특징 선택 장치.
10. The method of claim 9,
Selecting a row number of an element having a largest value among elements included in the diagonal component of the matrix,
Selecting data corresponding to the selected row number,
Feature selection device using relational matrix.
제12항에 있어서,
상기 행렬에서 상기 선택된 행 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 열 번호들을 선택하고,
상기 행렬에서 상기 선택된 각 열 번호별로, 상기 선택된 각 열 번호에 포함된 원소들 중 크기순으로 상위 N개의 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출하는,
관계형 행렬을 이용한 특징 선택 장치.
13. The method of claim 12,
Selecting column numbers including upper N elements in order of magnitude among elements included in the selected row number in the matrix,
Extracting feature data corresponding to the row numbers including the upper N elements in order of magnitude among the elements included in the selected column numbers for each selected column number in the matrix,
Feature selection device using relational matrix.
제13항에 있어서,
상기 행렬의 상기 선택된 각 열 번호별로, 상기 각 열에 포함된 원소들을 크기에 따라 내림차순으로 정렬시킨 서브행렬들을 생성하고,
상기 생성된 각 서브행렬의 1행 1열에서부터 N행 1열까지의 부분행렬에 포함된 원소들을 추출하고,
상기 행렬의 열 번호들 중 상기 서브행렬들에 대응되는 열 번호들 각각에서, 상기 각 서브행렬에서 추출된 원소들이 포함된 행 번호들에 대응되는 특징 데이터들을 추출하는,
관계형 행렬을 이용한 특징 선택 장치.
14. The method of claim 13,
Generating sub-matrices in which the elements included in the respective columns are sorted in descending order of size for each selected column number of the matrix,
Extracts the elements included in the partial matrixes from the first row to the first column of the generated sub-matrix to the N-th row and the first column,
Extracting feature data corresponding to row numbers including the elements extracted from the sub-matrices in each of the column numbers corresponding to the sub-matrices among the column numbers of the matrix,
Feature selection device using relational matrix.
제13항에 있어서,
상기 N은,
상기 추출된 데이터들의 개수의 제곱근보다 이상이고, 상기 입력된 데이터들의 개수 이하의 자연수인,
관계형 행렬을 이용한 특징 선택 장치.
14. The method of claim 13,
Wherein N is
Wherein the number of the extracted data is greater than a square root of the number of extracted data,
Feature selection device using relational matrix.
제14항에 있어서,
상기 서브행렬들은,
상기 입력된 데이터들의 수가 n개인 경우,
n x N 크기의 행렬인,
관계형 행렬을 이용한 특징 선택 장치.
15. The method of claim 14,
The sub-
If the number of the input data is n,
< RTI ID = 0.0 > nx <
Feature selection device using relational matrix.
제1항의 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.A computer-readable recording medium recording a computer program for executing the method of claim 1.
KR1020170174394A 2017-12-18 2017-12-18 Method, apparatus and computer-readable recording medium for selecting feature using relational matrix KR101897513B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170174394A KR101897513B1 (en) 2017-12-18 2017-12-18 Method, apparatus and computer-readable recording medium for selecting feature using relational matrix

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170174394A KR101897513B1 (en) 2017-12-18 2017-12-18 Method, apparatus and computer-readable recording medium for selecting feature using relational matrix

Publications (1)

Publication Number Publication Date
KR101897513B1 true KR101897513B1 (en) 2018-09-12

Family

ID=63592963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170174394A KR101897513B1 (en) 2017-12-18 2017-12-18 Method, apparatus and computer-readable recording medium for selecting feature using relational matrix

Country Status (1)

Country Link
KR (1) KR101897513B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223605A (en) * 2002-01-30 2003-08-08 Toshiba Corp Data analysis method, data analysis device, and program
JP2004213098A (en) * 2002-12-26 2004-07-29 Toshiba Corp Congestion prediction system, congestion prediction method and congestion prediction program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223605A (en) * 2002-01-30 2003-08-08 Toshiba Corp Data analysis method, data analysis device, and program
JP2004213098A (en) * 2002-12-26 2004-07-29 Toshiba Corp Congestion prediction system, congestion prediction method and congestion prediction program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Comparative Analysis of Feature Selection Algorithms on Classification of Gene Microarray Dataset, J. jeyachidra, M. punithavalli. February 21, 2013, Information Communication and Embedded Systems (ICICES), 2013 International Conference on.

Similar Documents

Publication Publication Date Title
CN108491817B (en) Event detection model training method and device and event detection method
Meyer et al. The support vector machine under test
Nguyen et al. Unbiased Feature Selection in Learning Random Forests for High‐Dimensional Data
CN111080360B (en) Behavior prediction method, model training method, device, server and storage medium
Alzate et al. Multiway spectral clustering with out-of-sample extensions through weighted kernel PCA
Bi et al. Learning to Predict from Crowdsourced Data.
Nascimento et al. Integrating complementary techniques for promoting diversity in classifier ensembles: A systematic study
Adeli et al. Logistic regression confined by cardinality-constrained sample and feature selection
Ditzler et al. Extensions to online feature selection using bagging and boosting
CN110232154B (en) Random forest-based product recommendation method, device and medium
KR101901307B1 (en) Method, apparatus and computer-readable recording medium for classifying classes using deep neural network with weighted fuzzy membership function
CN112612948A (en) Deep reinforcement learning-based recommendation system construction method
Charalambides et al. Weighted gradient coding with leverage score sampling
Nieto-Reyes et al. A random-projection based test of Gaussianity for stationary processes
JP6795721B1 (en) Learning systems, learning methods, and programs
Lloyd et al. Latent point process allocation
CN111369489B (en) Image identification method and device and terminal equipment
El Amri et al. More powerful HSIC-based independence tests, extension to space-filling designs and functional data
KR101897513B1 (en) Method, apparatus and computer-readable recording medium for selecting feature using relational matrix
Isele et al. Active learning of expressive linkage rules for the web of data
CN111723206B (en) Text classification method, apparatus, computer device and storage medium
Jhang Voting and ensemble schemes based on CNN models for photo-based gender prediction
Lin Supersaturated multistratum designs
CN107403199B (en) Data processing method and device
Santana et al. A comparative analysis of feature selection methods for ensembles with different combination methods

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant