KR102533708B1 - Method and server for generating dataset relationship automatically - Google Patents

Method and server for generating dataset relationship automatically Download PDF

Info

Publication number
KR102533708B1
KR102533708B1 KR1020200167919A KR20200167919A KR102533708B1 KR 102533708 B1 KR102533708 B1 KR 102533708B1 KR 1020200167919 A KR1020200167919 A KR 1020200167919A KR 20200167919 A KR20200167919 A KR 20200167919A KR 102533708 B1 KR102533708 B1 KR 102533708B1
Authority
KR
South Korea
Prior art keywords
dataset
matrix
generating
similarity
description
Prior art date
Application number
KR1020200167919A
Other languages
Korean (ko)
Other versions
KR20220078412A (en
Inventor
김경원
정종진
박종빈
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020200167919A priority Critical patent/KR102533708B1/en
Publication of KR20220078412A publication Critical patent/KR20220078412A/en
Application granted granted Critical
Publication of KR102533708B1 publication Critical patent/KR102533708B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터셋 관계 자동 생성 방법이 제공된다. 상기 방법은 소정의 데이터셋 서비스를 위한 제1 디스크립션이 구비된 데이터셋에 포함된 데이터 레벨 특징 정보를 추출하는 단계; 상기 데이터셋의 제1 디스크립션에 상기 데이터 레벨 특징 정보가 반영된 적어도 하나의 제2 디스크립션을 생성하는 단계; 상기 제1 및 제2 디스크립션에 기초하여 복수의 데이터셋 간의 유사도를 산출하는 단계; 상기 산출된 유사도를 기반으로 유사도 매트릭스를 생성하는 단계; 상기 서비스에 상응하는 엔터티와 상기 데이터셋 간의 연관관계 정보를 산출하는 단계; 상기 연관관계 정보에 기초하여 상기 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성하는 단계; 및 상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계를 포함한다.A method for automatically generating dataset relationships is provided. The method may include extracting data level feature information included in a dataset having a first description for a predetermined dataset service; generating at least one second description in which the data level characteristic information is reflected in the first description of the dataset; calculating a similarity between a plurality of datasets based on the first and second descriptions; generating a similarity matrix based on the calculated similarity; calculating association information between an entity corresponding to the service and the dataset; generating a relationship matrix between the entity and a dataset based on the relationship information; and generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix.

Description

데이터셋 관계 자동 생성 방법 및 서버{METHOD AND SERVER FOR GENERATING DATASET RELATIONSHIP AUTOMATICALLY}Dataset relationship automatic creation method and server {METHOD AND SERVER FOR GENERATING DATASET RELATIONSHIP AUTOMATICALLY}

본 발명은 데이터셋 관계 자동 생성 방법 및 서버에 관한 것으로, 다종의 데이터셋을 제공함에 있어 데이터셋 간의 관계를 자동으로 생성하는 방법 및 서버에 관한 것이다.The present invention relates to a method and server for automatically generating dataset relationships, and more particularly to a method and server for automatically generating relationships between datasets when providing multiple types of datasets.

종래 데이터셋을 사용자에게 제공하는 서비스는 데이터셋 등록시 제공자가 명시적으로 기술한 디스크립션을 기반으로 사용자가 요구한 검색 키워드, 카테고리 등의 매칭을 통해 사용자가 원하는 데이터셋을 제공하는 방법을 주로 사용하고 있다.Conventional services that provide a dataset to users mainly use a method of providing a dataset that the user wants through matching the search keyword, category, etc. requested by the user based on the description explicitly described by the provider when registering the dataset. there is.

이러한 종래 기술의 경우, 데이터셋 디스크립션 정보 부족 문제, 데이터셋 구성 데이터 레벨의 정보 부재 문재, 그리고 데이터셋 이용 상황을 반영한 가변적인 가중치의 적용이 불가한 문제가 있다.In the case of such a prior art, there are problems such as lack of data set description information, lack of information on the data set configuration data level, and inability to apply a variable weight reflecting the data set usage situation.

국내 공개특허공보 10-2017-0136976 (2017.12.12)Domestic Patent Publication No. 10-2017-0136976 (2017.12.12)

본 발명의 실시예는 다종의 데이터셋을 사용자에게 제공함에 있어, 명시된 디스크립션 정보뿐만 아니라, 데이터셋과 연관도가 높은 데이터셋을 함께 제공하여, 효과적인 데이터셋의 검색 및 선택을 위한 정보를 제공할 수 있는, 다종 데이터셋 관계 자동 생성 방법 및 서버를 제공한다. Embodiments of the present invention provide information for effective data set search and selection by providing not only specified description information but also data sets with a high degree of relevance to the data set in providing various types of data sets to the user. Provides a method and server for automatically generating multi-type dataset relationships that can be used.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 데이터셋 관계 자동 생성 방법은 소정의 데이터셋 서비스를 위한 제1 디스크립션이 구비된 데이터셋에 포함된 데이터 레벨 특징 정보를 추출하는 단계; 상기 데이터셋의 제1 디스크립션에 상기 데이터 레벨 특징 정보가 반영된 적어도 하나의 제2 디스크립션을 생성하는 단계; 상기 제1 및 제2 디스크립션에 기초하여 복수의 데이터셋 간의 유사도를 산출하는 단계; 상기 산출된 유사도를 기반으로 유사도 매트릭스를 생성하는 단계; 상기 서비스에 상응하는 엔터티와 상기 데이터셋 간의 연관관계 정보를 산출하는 단계; 상기 연관관계 정보에 기초하여 상기 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성하는 단계; 및 상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계를 포함한다.As a technical means for achieving the above-described technical problem, the method for automatically generating a dataset relationship according to the first aspect of the present invention includes data level characteristic information included in a dataset having a first description for a predetermined dataset service. extracting; generating at least one second description in which the data level characteristic information is reflected in the first description of the dataset; calculating a similarity between a plurality of datasets based on the first and second descriptions; generating a similarity matrix based on the calculated similarity; calculating association information between an entity corresponding to the service and the dataset; generating a relationship matrix between the entity and a dataset based on the relationship information; and generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix.

본 발명의 일부 실시예에서, 상기 데이터셋의 제1 디스크립션에 상기 데이터 레벨 특징 정보가 반영된 제2 디스크립션을 생성하는 단계는, 상기 데이터셋에 포함된 데이터의 유형에 대응되는 상이한 조합으로 상기 제 2 디스크립션을 생성할 수 있다.In some embodiments of the present invention, generating a second description in which the data level characteristic information is reflected in the first description of the dataset includes the second description in a different combination corresponding to the type of data included in the dataset. A description can be created.

본 발명의 일부 실시예에서, 상기 산출된 유사도를 기반으로 유사도 매트릭스를 생성하는 단계는, 상기 복수의 데이터셋 중 제1 데이터셋을 기준으로 하는 제2 데이터셋에 대한 상대적인 유사도 매트릭스를 생성할 수 있다.In some embodiments of the present invention, generating a similarity matrix based on the calculated similarity may generate a relative similarity matrix for a second dataset based on the first dataset among the plurality of datasets. there is.

본 발명의 일부 실시예에서, 상기 서비스에 상응하는 엔터티는, 상기 데이터셋에 대응하는 제1 디스크립션을 구성하는 구성요소, 상기 데이터셋의 사용자 검색 키워드, 사용자 프로파일 구성요소, 사용자 선호도 정보 중 적어도 하나를 포함할 수 있다.In some embodiments of the present invention, the entity corresponding to the service may include at least one of a component constituting the first description corresponding to the dataset, a user search keyword of the dataset, a user profile component, and user preference information. can include

본 발명의 일부 실시예에서, 상기 연관관계 정보에 기초하여 상기 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성하는 단계는, 상기 엔터티의 개수에 대응하도록 복수 개의 연관관계 매트릭스를 생성할 수 있다.In some embodiments of the present invention, the generating of the association matrix between the entity and the dataset based on the association information may generate a plurality of association matrices corresponding to the number of entities.

본 발명의 일부 실시예에서, 상기 연관관계 정보에 기초하여 상기 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성하는 단계는, 상기 연관관계 정보에 따라 상기 엔터티 별로 가중치를 부여하여 상기 연관관계 매트릭스를 생성할 수 있다.In some embodiments of the present invention, the generating of the association matrix between the entity and the dataset based on the association information may include generating the association matrix by assigning a weight to each entity according to the association information. can

본 발명의 일부 실시예에서,상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계는, 상기 유사도 매트릭스에 상기 연관관계 매트릭스를 적용하여 각 엔터티 별로 상대적 데이터셋 연관도 매트릭스를 생성할 수 있다.In some embodiments of the present invention, the step of generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix may include applying the relevance matrix to the similarity matrix and relative dataset relevance matrix for each entity. can create

본 발명의 일부 실시예에서, 상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계는, 상기 연관관계 매트릭스를 구성하는 제1 데이터셋에 상응하는 제1 연관관계 정보와 제2 데이터셋에 상응하는 제2 연관관계 정보를 합산하는 단계; 및 상기 제1 데이터셋과 제2 데이터셋에 상응하는 유사도를 상기 합산 결과에 곱셉 연산하여 상기 상대적 데이터셋 연관도 매트릭스를 생성하는 단계를 포함할 수 있다.In some embodiments of the present invention, generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix may include first relevance information corresponding to a first dataset constituting the relevance matrix and summing up second association information corresponding to a second dataset; and generating the relative dataset relevance matrix by multiplying the summation result by a similarity corresponding to the first dataset and the second dataset.

본 발명의 일부 실시예에서, 상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계는, 상기 엔터티 중 특정 엔터티에 대한 필터링 및 가중치 중 적어도 하나를 적용하는 단계를 더 포함할 수 있다.In some embodiments of the present invention, generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix further includes applying at least one of filtering and weighting to a specific entity among the entities. can do.

또한, 본 발명의 제2 측면에 따른 소정의 데이터셋 서비스를 위한 데이터셋 관계 자동 생성 서버는 사용자 단말과 데이터 송수신을 통해 데이터셋 서비스 요청에 상응하는 서비스 정보를 제공하는 통신모듈, 상기 데이터셋 서비스를 제공하기 위한 데이터셋 관계를 자동으로 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 데이터셋 서비스를 위한 제1 디스크립션이 구비된 데이터셋에 포함된 데이터 레벨 특징 정보를 추출하고 이를 반영하여 적어도 하나의 제2 디스크립션을 생성하고, 상기 제1 및 제2 디스크립션에 기초하여 복수의 데이터셋 간의 유사도를 산출 및 반영하여 유사도 매트릭스를 생성하며, 상기 서비스에 상응하는 엔터티와 상기 데이터셋 간의 연관관계 정보를 산출 및 반영하여 연관관계 매트릭스를 생성하고, 상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성한다.In addition, the server for automatically generating a dataset relationship for a predetermined dataset service according to the second aspect of the present invention includes a communication module for providing service information corresponding to a dataset service request through data transmission and reception with a user terminal, and the dataset service It includes a memory storing a program for automatically generating a dataset relationship for providing, and a processor for executing the program stored in the memory. At this time, as the program is executed, the processor extracts data level feature information included in a dataset having a first description for the dataset service and reflects it to generate at least one second description, Based on the first and second descriptions, a similarity matrix is created by calculating and reflecting similarity between a plurality of datasets, and calculating and reflecting association information between an entity corresponding to the service and the dataset to obtain a association matrix. and create a relative dataset relevance matrix based on the similarity matrix and relevance matrix.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 연관관계 매트릭스를 구성하는 제1 데이터셋에 상응하는 제1 연관관계 정보와 제2 데이터셋에 상응하는 제2 연관관계 정보를 합산하고, 상기 제1 데이터셋과 제2 데이터셋에 상응하는 유사도를 상기 합산 결과에 곱셉 연산하여 상기 상대적 데이터셋 연관도 매트릭스를 생성할 수 있다. In some embodiments of the present invention, the processor adds up first association information corresponding to a first dataset constituting the association matrix and second association information corresponding to a second dataset, and The relative dataset relevance matrix may be generated by multiplying the summation result by similarities corresponding to the dataset and the second dataset.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 엔터티 중 특정 엔터티에 대한 필터링 및 가중치 중 적어도 하나를 적용하여 상기 상대적 데이터셋 연관도 매트릭스를 생성할 수 있다.In some embodiments of the present invention, the processor may generate the relative dataset relevance matrix by applying at least one of filtering and weighting to a specific entity among the entities.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.In addition to this, another method for implementing the present invention, another system, and a computer readable recording medium recording a computer program for executing the method may be further provided.

상기와 같은 본 발명에 따르면, 데이터 사용자가 데이터를 검색함에 있어서 제한적으로 제공되는 데이터셋 디스크립션의 한계를 극복하고, 효율적인 데이터셋 검색 및 이용 방법을 제공할 수 있다.According to the present invention as described above, when a data user searches for data, it is possible to overcome the limitations of the limitedly provided dataset description and to provide an efficient method for searching for and using a dataset.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.

도 1은 일반적인 데이터셋 제공 서비스에서의 데이터셋 디스크립션 구조를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 데이터셋 관계 자동 생성 방법의 순서도이다.
도 3은 제2 디스크립션 생성 과정을 도시한 도면이다.
도 4는 제1 및 제2 디스크립션의 연결 구조를 도시한 도면이다.
도 5는 유사도 산출 및 유사도 매트릭스를 설명하기 위한 도면이다.
도 6은 연관관계 매트릭스를 생성하는 내용을 설명하기 위한 도면이다.
도 7은 상대적 데이터셋 연관도 매트릭스를 설명하기 위한 도면이다.
도 8은 본 발명의 일반적인 적용 프로세스를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 데이터셋 관계 자동 생성 서버를 설명하기 위한 도면이다.
1 is a diagram for explaining a dataset description structure in a general dataset providing service.
2 is a flowchart of a method for automatically generating dataset relationships according to an embodiment of the present invention.
3 is a diagram illustrating a process of generating a second description.
4 is a diagram illustrating a connection structure of first and second descriptions.
5 is a diagram for explaining similarity calculation and similarity matrix.
6 is a diagram for explaining contents of generating an association matrix.
7 is a diagram for explaining a relative dataset relevance matrix.
8 is a diagram for explaining a general application process of the present invention.
9 is a diagram for explaining a server for automatically generating dataset relationships according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, only these embodiments are intended to complete the disclosure of the present invention, and are common in the art to which the present invention belongs. It is provided to fully inform the person skilled in the art of the scope of the invention, and the invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.Terminology used herein is for describing the embodiments and is not intended to limit the present invention. In this specification, singular forms also include plural forms unless specifically stated otherwise in a phrase. As used herein, "comprises" and/or "comprising" does not exclude the presence or addition of one or more other elements other than the recited elements. Like reference numerals throughout the specification refer to like elements, and “and/or” includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various components, these components are not limited by these terms, of course. These terms are only used to distinguish one component from another. Accordingly, it goes without saying that the first element mentioned below may also be the second element within the technical spirit of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings commonly understood by those skilled in the art to which the present invention belongs. In addition, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless explicitly specifically defined.

도 1은 일반적인 데이터셋 제공 서비스에서의 데이터셋 디스크립션 구조를 설명하기 위한 도면이다.1 is a diagram for explaining a dataset description structure in a general dataset providing service.

도 1을 참조하면, 종래 기술은 데이터셋별로 별도의 디스크립션 포맷을 구성하고, 데이터셋 등록자가 디스크립션 포맷에 맞게 해당 정보를 명시적으로 기술하는 방법을 주로 이용하고 있다. 이때, 디스크립션 포맷에 포함되는 정보는 데이터셋 명칭, 제공기관, 등록일시, 키워드, 간략한 설명 등이 있으며, 서비스에 따라 데이터셋 분류, 키워드 등의 추가 정보를 추가하는 경우도 있다.Referring to FIG. 1, the prior art mainly uses a method in which a separate description format is configured for each dataset and a dataset registrant explicitly describes corresponding information in accordance with the description format. At this time, information included in the description format includes dataset name, provider, registration date, keyword, brief description, etc., and additional information such as dataset classification and keyword may be added depending on the service.

이러한 종래의 데이터셋을 사용자에게 제공하는 서비스는 도 1과 같이 데이터셋 제공자가 명시적으로 기술한 디스크립션만에 기반하여 서비스를 제공하였다. 이러한 종래 기술은 데이터셋 디스크립션의 구성요소에 따라 검색의 한계가 결정되며, 디스크립션 포맷의 구성요소에 포함되지 않는 정보는 검색이 불가능하여 검색의 효율이 현저히 떨어지는 문제가 있었다.As shown in FIG. 1, the conventional service providing a data set to the user was provided based only on the description explicitly described by the data set provider. In this prior art, the search limit is determined according to the components of the data set description, and information not included in the components of the description format cannot be searched, resulting in significantly reduced search efficiency.

예를 들어, 데이터셋 디스크립션 포맷이 데이터셋 명칭, 제공자, 업로드 일시만으로 구성되어 있다면, 데이터 사용자는 데이터셋 명칭과 제공자에 대한 키워드 검색만을 통하여 자신이 원하는 데이터를 검색할 수 있을 뿐이며, 이 경우 데이터셋 사용자가 원하는 데이터를 검색하기 위해서는 많은 시간과 노력을 필요로 하였다.For example, if the dataset description format consists of only the dataset name, provider, and upload date, data users can only search for the data they want through keyword searches for the dataset name and provider. In this case, the data It took a lot of time and effort to search the set user's desired data.

또한, 종래 기술에 따른 데이터셋 디스크립션에 기반한 데이터셋 검색 방법은, 데이터셋에 포함된 데이터들이 내포하고 있는 묵시적인 특징 정보의 부재로 인해, 상세한 데이터셋 검색 및 사용자가 원하는 양질의 데이터셋의 검색에 어려움이 있다. 이로 인해 데이터셋 사용자는 디스크립션 기반 검색 후, 데이터셋의 데이터를 일일이 확인하여 자신이 원하는 데이터셋을 선택할 수밖에 없다.In addition, the dataset search method based on the dataset description according to the prior art, due to the absence of implicit feature information included in the data included in the dataset, is useful for detailed dataset searches and searches for high-quality datasets desired by users. There are difficulties. Because of this, dataset users have no choice but to select the dataset they want by checking the data of the dataset one by one after a description-based search.

이와 더불어, 종래 기술의 경우 데이터셋 이용 상황을 반영한 가변적인 가중치 적용이 불가하다는 문제가 있다. In addition, in the case of the prior art, there is a problem that it is impossible to apply a variable weight reflecting the dataset usage situation.

데이터셋 이용자는 데이터 이용 목적 및 상황에 따라 원하는 데이터셋이 상이할 수 있다. 예를 들어, 특정 기관에서 업로드한 데이터셋을 더 선호한다든지, 아니면 특정 데이터의 특징을 포함한 데이터셋을 더 선호할 수도 있다. Data set users may have different desired datasets depending on the purpose and situation of data use. For example, a dataset uploaded by a specific organization may be preferred, or a dataset containing characteristics of specific data may be preferred.

이러한 데이터의 검색 및 이용 상황은 수시로 변할 수 있으며, 종래의 데이터셋 제공 서비스에서는 이를 위해 특정 항목에 대한 필터링 기능 등을 제공하고 있으나, 이는 데이터셋 디스크립션 검색시 특정 항목을 제외하는 기능만을 제공할 뿐이다. 결국, 종래 기술은 수시로 변하는 데이터의 검색 및 이용 상황에 가변적인 가중치 적용이 불가한 문제가 있다.The search and use conditions of such data can change from time to time, and conventional dataset providing services provide a filtering function for specific items for this purpose, but this only provides a function to exclude specific items when searching for a dataset description. . As a result, the prior art has a problem in that it is impossible to apply variable weights to frequently changing data retrieval and use conditions.

이와 같이, 종래 기술은 명시적인 데이터셋 디스크립션을 통해 데이터 사용자가 원하는 데이터셋을 검색하도록 하고 있으며, 주로 키워드 검색이나 필드 단위 검색을 통한 검색을 지원한다.As such, the prior art allows a data user to search for a desired dataset through explicit dataset description, and mainly supports search through keyword search or field unit search.

이러한 종래 기술은 전술한 바와 같이 정보량의 한계가 존재하며, 데이터셋에 포함된 데이터 자체에 대한 묵시적인 정보는 반영하지 못한다는 한계가 있다.As described above, this prior art has a limitation in the amount of information and cannot reflect implicit information about the data itself included in the dataset.

이와 달리, 본 발명의 일 실시예는 다종의 데이터셋을 사용자에게 제공함에 있어, 명시된 디스크립션 정보뿐만 아니라, 데이터셋과 연관도가 높은 데이터셋을 함께 제공하여, 효과적인 데이터셋의 검색 및 선택을 위한 정보를 제공할 수 있는 장점이 있다.In contrast, in one embodiment of the present invention, in providing various types of datasets to the user, not only the specified description information, but also a dataset having a high correlation with the dataset is provided together, so that the search and selection of the dataset is effective. There are advantages to providing information.

이하, 도 2 내지 도 8을 참조하여 본 발명의 일 실시예에 따른 데이터셋 관계 자동 생성 방법에 대하여 설명하도록 한다.Hereinafter, a method for automatically generating dataset relationships according to an embodiment of the present invention will be described with reference to FIGS. 2 to 8 .

도 2는 본 발명의 일 실시예에 따른 데이터셋 관계 자동 생성 방법의 순서도이다.2 is a flowchart of a method for automatically generating dataset relationships according to an embodiment of the present invention.

한편, 도 2에 도시된 각 단계들은 데이터셋 관계 자동 생성 서버(100, 이하 서버)에 의해 수행되는 것으로 이해될 수 있으나, 반드시 이에 한정되는 것은 아니다.Meanwhile, each of the steps shown in FIG. 2 may be understood to be performed by the server 100 (hereinafter referred to as the server) for automatically generating dataset relationships, but is not necessarily limited thereto.

먼저, 서버(100)는 소정의 데이터셋 서비스를 위한 제1 디스크립션이 구비된 데이터셋에 포함된 데이터 레벨 특징 정보를 추출한다(S110). 이때, 서버(100)는 데이터의 특성별로 상이한 특징 추출 방법을 적용할 수 있다.First, the server 100 extracts data level feature information included in a dataset having a first description for a predetermined dataset service (S110). At this time, the server 100 may apply different feature extraction methods for each characteristic of the data.

본 발명에서는 기존 데이터셋 디스크립션인 제1 디스크립션에 추가로 데이터셋에 포함된 데이터를 분석하여 데이터셋의 특성을 표현할 수 있는 데이터 레벨의 디스크립션인 제2 디스크립션을 생성하며, 이를 통해 기존의 제1 디스크립션을 보강한다. 여기에서 데이터 레벨 특징 정보는 데이터셋에 포함되어 있는 데이터에 묵시적으로 포함된 정보들을 개별적으로 추출하고, 해당 데이터셋을 대표할 수 있는 특징으로 기술된다. 이러한 묵시적인 데이터 레벨 특징 정보들은 데이터의 타입에 따라 상이하게 정의될 수 있으며, 다종의 데이터 조합을 통해 복합적인 데이터로 구성된 데이터셋의 경우, 복수 개의 제2 디스크립션이 생성될 수도 있다.In the present invention, in addition to the first description, which is an existing dataset description, the data included in the dataset is analyzed to generate a second description, which is a data-level description that can express the characteristics of the dataset, through which the existing first description reinforce Here, the data level feature information individually extracts information implicitly included in the data included in the dataset, and is described as a feature that can represent the dataset. Such implicit data-level characteristic information may be defined differently according to data types, and in the case of a dataset composed of complex data through a combination of various types of data, a plurality of second descriptions may be generated.

다음으로, 서버(100)는 데이터셋의 제1 디스크립션을 대상으로, 추출된 데이터 레벨 특징 정보가 반영된 적어도 하나의 제2 디스크립션을 생성한다(S120). 즉, 서버(100)는 기존의 데이터셋 디스크립션인 제1 디스크립션에 추가적인 데이터 레벨 특징 정보를 반영하여 제2 디스크립션을 생성한다.Next, the server 100 generates at least one second description in which the extracted data level feature information is reflected, targeting the first description of the dataset (S120). That is, the server 100 generates a second description by reflecting additional data level characteristic information to the first description, which is an existing dataset description.

일 실시예로, 서버(100)는 데이터셋에 포함된 데이터의 유형에 대응되는 상이한 조합으로 제2 디스크립션을 생성할 수 있다. 다시 말해, 서버(100)는 데이터셋에 포함된 데이터의 유형에 따라 상이한 항목으로 조합하여 데이터 레벨의 제2 디스크립션을 생성할 수 있다. 일 예로, 서버(100)는 하나의 데이터셋을 대상으로 데이터셋에 포함된 데이터의 유형에 따라 여러 개의 데이터 레벨의 제2 디스크립션을 생성할 수 있다.As an example, the server 100 may generate the second description in a different combination corresponding to the type of data included in the dataset. In other words, the server 100 may generate the second description of the data level by combining different items according to the type of data included in the dataset. For example, the server 100 may generate second descriptions of several data levels for one dataset according to the type of data included in the dataset.

도 3은 제2 디스크립션 생성 과정을 도시한 도면이다. 도 4는 제1 및 제2 디스크립션의 연결 구조를 도시한 도면이다.3 is a diagram illustrating a process of generating a second description. 4 is a diagram illustrating a connection structure of first and second descriptions.

예를 들어, 데이터셋에 포함된 데이터 중 이미지가 포함되어 있는 경우, 이미지의 크기(평균, 최소, 최대, 해상도), 포맷, 장소 분석(EXIF 정보 통계), 포함된 오브젝트들의 정보 등 데이터셋에는 개별 데이터에서 추출 가능한 정보들을 기반으로 데이터셋을 규정할 수 있는 추가 정보들이 포함되어 있다.For example, if an image is included in the data included in the dataset, the size of the image (average, minimum, maximum, resolution), format, location analysis (EXIF information statistics), information on included objects, etc. It contains additional information that can define a dataset based on information that can be extracted from individual data.

이러한 데이터 레벨 특징 정보들은 데이터셋에 포함되어 있는 데이터의 유형에 따라 여러 개의 디스크립션(제2 디스크립션)으로 생성될 수 있다. 그리고, 제2 디스크립션의 포맷은 추가적인 정의를 통해 확장이 가능하다.Such data level characteristic information may be generated as several descriptions (second descriptions) according to the type of data included in the dataset. And, the format of the second description can be extended through additional definition.

서버(100)는 데이터 레벨 특징 정보 추출 과정에서 데이터의 유형에 따라 이미지 오브젝트 라벨링, 분류, 통계분석 등 다양한 방법을 통해 추출된 정보를 가공하여 제1 디스크립션에 추가 반영할 수 있으며, 특정 목적을 가진 서비스에 적용하기 위해 특화된 정보를 추출하여 구성도 가능하다.The server 100 may process information extracted through various methods such as image object labeling, classification, and statistical analysis according to the type of data in the process of extracting data level feature information and additionally reflect it in the first description. It is also possible to extract and configure specialized information to apply to the service.

다음으로, 서버(100)는 데이터셋 별 명시적 제1 디스크립션과 데이터 레벨의 제2 디스크립션의 생성이 완료되면, 제1 및 제2 디스크립션에 기초하여 복수의 데이터셋 간의 유사도를 산출하고(S130), 산출된 유사도를 기반으로 유사도 매트릭스를 생성한다(S140).Next, when the creation of the first explicit description for each dataset and the second description of the data level are completed, the server 100 calculates a similarity between a plurality of datasets based on the first and second descriptions (S130). , a similarity matrix is generated based on the calculated similarity (S140).

도 5는 유사도 산출 및 유사도 매트릭스를 설명하기 위한 도면이다.5 is a diagram for explaining similarity calculation and similarity matrix.

일 실시예로, 서버(100)는 제1 및 제2 디스크립션 간의 유사도 산출시 다양한 알고리즘을 적용할 수 있으며, 본 발명에서는 특정 유사도 산출 및 비교 알고리즘으로 한정하지 않는다.As an embodiment, the server 100 may apply various algorithms when calculating the similarity between the first and second descriptions, and the present invention is not limited to a specific similarity calculation and comparison algorithm.

복수의 데이터셋 간의 유사도는 다음 식 1과 같이 나타낼 수 있다.The similarity between the plurality of datasets can be expressed as in Equation 1 below.

[식 1][Equation 1]

Figure 112020131245541-pat00001
Figure 112020131245541-pat00001

이때, 두 데이터셋 간의 유사도

Figure 112020131245541-pat00002
의 연산 방식은 서비스의 필요와 목적에 따라 다양한 유사도 산출 알고리즘을 이용할 수 있으며, 일 예로 두 데이터셋 간의 유사도 값은 다음 식 2와 같이 정의할 수 있다.At this time, the similarity between the two datasets
Figure 112020131245541-pat00002
The calculation method of can use various similarity calculation algorithms depending on the need and purpose of the service. As an example, the similarity value between two datasets can be defined as in Equation 2 below.

[식 2][Equation 2]

Figure 112020131245541-pat00003
Figure 112020131245541-pat00003

서버(100)는 복수의 데이터셋 중 제1 데이터셋을 기준으로 하는 제2 데이터셋에 대한 상대적인 유사도 매트릭스를 생성할 수 있으며, 이를 기반으로 서버(100)는 해당 데이터셋과 유사도가 높은 데이터셋을 추천하는 등 유사도 기반의 서비스 구성 및 제공이 가능하다.The server 100 may generate a relative similarity matrix for a second dataset based on a first dataset among a plurality of datasets, and based on this, the server 100 may generate a dataset having a high similarity with the corresponding dataset. It is possible to configure and provide services based on similarity, such as recommending

다음으로, 서버(100)는 서비스에 상응하는 엔터티(Entity)와 데이터셋 간의 연관관계 정보를 산출하고(S150), 산출된 연관관계 정보에 기초하여 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성한다(S160).Next, the server 100 calculates association information between the entity corresponding to the service and the dataset (S150), and creates a association matrix between the entity and the dataset based on the calculated association information (S150). S160).

도 6은 연관관계 매트릭스를 생성하는 내용을 설명하기 위한 도면이다.6 is a diagram for explaining contents of generating an association matrix.

본 발명에서는 데이터셋간 유사도 매트릭스를 생성하는 것과 별도로, 서비스를 구성하는 엔터티와 데이터셋간의 연관관계를 연산하여 엔터티-데이터셋 간의 연관관계 매트릭스를 구성한다.In the present invention, apart from generating a similarity matrix between datasets, a relational relationship between entities constituting a service and a dataset is calculated to construct a relational relationship matrix between entities and datasets.

여기에서 서비스에 상응하는 엔터티는, 데이터셋 제공자, 조직 등록일시 등 데이터셋에 대응하는 제1 디스크립션을 구성하는 구성요소(Factor), 데이터셋의 사용자 검색 키워드, 사용자 프로파일 구성요소(소속, 조직, 지역, 연령 등) 및 사용자 선호도 정보(선호 키워드, 검색 기록 등) 중 적어도 하나를 포함할 수 있다.Here, the entity corresponding to the service is a component constituting the first description corresponding to the dataset, such as the dataset provider and the date and time of organization registration (Factor), user search keywords of the dataset, and user profile components (affiliation, organization, region, age, etc.) and user preference information (preferred keyword, search record, etc.).

일 실시예로, 서버(100)는 엔터티의 개수에 대응하도록 복수 개의 연관관계 매트릭스를 생성할 수 있다. 즉, 본 발명의 일 실시예는 생성 대상으로 하는 엔터티의 수에 따라 다수의 연관관계 매트릭스 생성이 가능하다. 이때, 연관관계 매트릭스 생성 대상인 엔터티와 규모는 서비스 운영자가 결정할 수 있으며, 서비스의 특성 및 운영 목적에 따라 적절하게 생성할 수 있다.As an embodiment, the server 100 may generate a plurality of correlation matrices to correspond to the number of entities. That is, according to an embodiment of the present invention, a plurality of correlation matrices can be created according to the number of entities to be created. In this case, the entity and scale to be generated for the relationship matrix can be determined by the service operator, and can be appropriately created according to the characteristics and operational purpose of the service.

엔터티

Figure 112020131245541-pat00004
과 데이터셋의 관계는 다음 식 3과 같이 나타낼 수 있다.entity
Figure 112020131245541-pat00004
The relationship between and the dataset can be expressed as Equation 3 below.

[식 3][Equation 3]

Figure 112020131245541-pat00005
Figure 112020131245541-pat00005

또한, 엔터티-데이터셋 간 연관관계 매트릭스는 다양한 방법에 따라 생성될 수 있으며, 각 엔터티와 데이터셋의 관계를 연결관계 기반으로 가장 쉽게 표현할 수 있는 방법은

Figure 112020131245541-pat00006
Figure 112020131245541-pat00007
이 관계가 있는 경우 "1", 관계가 없는 경우 "0"으로 표현하는 것이며, 이는 식 4와 같이 나타낼 수 있다.In addition, the association matrix between entities and datasets can be created according to various methods, and the easiest way to express the relationship between each entity and the dataset based on the connection relationship is
Figure 112020131245541-pat00006
class
Figure 112020131245541-pat00007
If there is this relationship, it is expressed as "1", and if there is no relationship, it is expressed as "0", which can be expressed as in Equation 4.

[식 4][Equation 4]

Figure 112020131245541-pat00008
Figure 112020131245541-pat00008

일 실시예로, 서버(100)는 연관관계 정보에 따라 엔터티 별로 가중치를 부여하여 연관관계 매트릭스를 생성할 수 있다. 연관관계 정보는 이벤트 발생 등에 따라 수시로 변경되는 정보이므로, 서버(100)는 엔터티 별로 차등적인 값을 부여할 수 있으며, 엔터티 별로 차등적인 값을 부여하는 방법을 통해 엔터티 별로 가중치를 반영할 수 있다. 예를 들어, 사용자가 특정 기관에 대한 선호가 있다면, 상대적인 연관관계 정보 구성시 특정 기관에만 가중치를 높게 반영할 수 있다. 이는 종래의 특정 항목에 대한 필터링과는 상이한 결과를 도출하게 된다. 이와 같은 연관관계 정보는 식 5와 같이 나타낼 수 있다.As an embodiment, the server 100 may generate an association matrix by assigning a weight to each entity according to association information. Since association information is information that is frequently changed according to occurrence of an event, the server 100 may assign a differential value to each entity, and may reflect a weight for each entity through a method of assigning a differential value to each entity. For example, if a user has a preference for a specific organization, a high weight may be applied only to the specific organization when constructing relative association information. This leads to a different result from conventional filtering for a specific item. Such correlation information can be expressed as in Equation 5.

[식 5][Equation 5]

Figure 112020131245541-pat00009
Figure 112020131245541-pat00009

서버(100)는 기준이 되는 엔터티에 따라 엔터티-데이터셋 간 연관관계 매트릭스를 상이하게 표현할 수 있다. 한편, 연관관계 매트릭스의 생성 및 업데이트 시점은 서비스 운영 정책에 따라 결정될 수 있다.The server 100 may differently express the relationship matrix between the entity and the dataset according to the reference entity. Meanwhile, the creation and update timing of the association matrix may be determined according to a service operation policy.

이와 같이, 본 발명의 일 실시예는 데이터셋 제공자와 데이터셋 간의 관계뿐만 아니라, 서비스를 구성하는 다양한 엔터티 간 관계를 활용하는 것을 특징으로 한다. 일 예로, 서버(100)는 검색 키워드와 데이터셋 간의 연관정보(유사도 매트릭스)를 이용하여 연관관계 매트릭스를 구성할 수도 있다.As such, one embodiment of the present invention is characterized by utilizing not only the relationship between the dataset provider and the dataset, but also the relationship between various entities constituting the service. For example, the server 100 may configure a relation matrix using relation information (similarity matrix) between search keywords and datasets.

다음으로, 서버(100)는 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성한다(S170).Next, the server 100 generates a relative dataset relevance matrix based on the similarity matrix and the relevance matrix (S170).

도 7은 상대적 데이터셋 연관도 매트릭스를 설명하기 위한 도면이다.7 is a diagram for explaining a relative dataset relevance matrix.

각 엔터티에 대하여 엔터티-데이터셋 간 연관관계 매트릭스가 구성되면, 서버(100)는 기 연산한 데이터셋간 유사도 매트릭스와, 엔터티-데이터 간의 연관관계 매트릭스를 이용하여 상대적 데이터셋 연관도 매트릭스를 구성할 수 있다.When the entity-dataset association matrix is configured for each entity, the server 100 may construct a relative dataset association matrix using the previously calculated similarity matrix between datasets and the entity-data association matrix. there is.

일 실시예로, 서버(100)는 기 생성된 데이터셋 간 유사도 매트릭스에 해당 엔터티를 기준으로 구성된 연관관계 매트릭스를 적용하여 각 엔터티별로 상대적 데이터셋 연관도 매트릭스를 생성할 수 있다.As an embodiment, the server 100 may generate a relative dataset relevance matrix for each entity by applying a relevance matrix configured based on a corresponding entity to a pre-generated similarity matrix between datasets.

상대적 데이터셋 연관도 매트릭스는 식 6과 같이 나타낼 수 있다.The relative dataset relevance matrix can be expressed as Equation 6.

[식 6][Equation 6]

Figure 112020131245541-pat00010
Figure 112020131245541-pat00010

서버(100)는 이러한 상대적 데이터셋 연관도 매트릭스를 다양한 방법을 적용하여 생성할 수 있으며, 엔터티

Figure 112020131245541-pat00011
을 기준으로 데이터셋간 상대적인 연관관계 정보 값
Figure 112020131245541-pat00012
또한 다양한 방법을 적용하여 산출할 수 있다.The server 100 may generate this relative dataset relevance matrix by applying various methods, and the entity
Figure 112020131245541-pat00011
Relative correlation information value between datasets based on
Figure 112020131245541-pat00012
It can also be calculated by applying various methods.

다음 식 7은 데이터셋간 상대적인 연관관계 정보 값을 연산하는 가장 쉬운 예시를 나타낸 것이다.The following Equation 7 shows the easiest example of calculating the relative relation information value between datasets.

[식 7][Equation 7]

Figure 112020131245541-pat00013
Figure 112020131245541-pat00013

즉, 서버(100)는 연관관계 매트릭스를 구성하는 제1 데이터셋에 상응하는 제1 연관관계 정보와, 제2 데이터셋에 상응하는 제2 연관관계 정보를 합산하고, 제1 및 제2 데이터셋에 상응하는 유사도를 합산 결과에 곱셈 연산하여 상대적 데이터셋 연관도 매트릭스를 생성할 수 있다.That is, the server 100 sums the first association information corresponding to the first dataset constituting the association matrix and the second association information corresponding to the second dataset, and the first and second datasets. A relative dataset relevance matrix may be generated by multiplying the summation result by the similarity corresponding to .

이에 추가적으로, 서버(100)는 엔터티 중 특정 엔터티에 대한 필터링 및 가중치 중 적어도 하나를 적용할 수 있으며, 이는 전술한 엔터티-데이터셋 간의 연관관계 정보 산출시 적용하는 방법을 이용할 수 있다.In addition to this, the server 100 may apply at least one of filtering and weighting to a specific entity among entities, and this may use the above-described method applied when calculating correlation information between entities and datasets.

본 발명에서 제안하는 데이터 레벨 특징 정보가 반영된 제2 디스크립션 생성 과정, 엔터티-데이터셋 간의 연관관계 매트릭스 생성 과정, 그리고 상대적 데이터셋 연관도 매트릭스 생성 과정과 관련된 일련의 프로세스는 도 8에 도시된 바와 같다.A series of processes related to the process of generating the second description in which the data level feature information proposed in the present invention is reflected, the process of generating an entity-dataset relation matrix, and the process of generating a relative dataset relatedness matrix are as shown in FIG. 8. .

도 8은 본 발명에서 제안하는 기술의 일반적인 적용 프로세스를 도시한 것으로, 서비스 적용 및 운영 방식에 따라 프로세스의 변형 및 업데이트 시점의 변경이 가능하며, 이를 통해 데이터셋을 사용하는 사용자에게 적응적 서비스 제공이 가능하다.8 shows a general application process of the technology proposed in the present invention, and it is possible to modify the process and change the update timing according to the service application and operation method, through which adaptive services are provided to users using the dataset. this is possible

도 8과 같이, 초기 데이터셋과 관련된 명시적인 데이터셋에 대응하는 제1 디스크립션이 등록되면, 데이터 레벨의 제2 디스크립션이 추출된다. 그리고 제1 디스크립션과 제2 디스크립션을 기반으로 데이터셋 간 유사도 매트릭스 및 엔터티-데이터셋 간 연관관계 매트릭스가 생성된다. 이후, 생성된 유사도 매트릭스 및 연관관계 매트릭스를 이용하여 상대적 데이터셋 연관도 매트릭스가 생성되어, 데이터셋 서비스에 활용될 수 있는 구조로 구성된다.As shown in FIG. 8 , when a first description corresponding to an explicit dataset related to an initial dataset is registered, a second description of a data level is extracted. Also, based on the first description and the second description, a similarity matrix between datasets and a relation matrix between entities and datasets are generated. Thereafter, a relative dataset relevance matrix is created using the generated similarity matrix and relevance matrix, and is configured into a structure that can be utilized for a dataset service.

그밖에, 본 발명의 일 실시예는 엔터티가 변경되는 신규 이벤트(검색, 로그 등)가 발생시 엔터티-데이터셋 간 연관관계 매트릭스가 업데이트될 수 있으며, 상대적 데이터셋 연관도 매트릭스 역시 업데이트되는 구조로 동작하게 된다. 이때, 상대적 데이터셋 연관도 매트릭스 구성시 도 8과 같이 상황에 따른 가중치 조건이 반영될 수 있으며, 이는 전술한 연관관계 매트릭스 구성에도 반영될 수 있다.In addition, in one embodiment of the present invention, when a new event (search, log, etc.) in which an entity is changed occurs, the entity-dataset association matrix can be updated, and the relative dataset association matrix is also updated. do. In this case, when configuring the relative dataset relevance matrix, weight conditions according to circumstances may be reflected as shown in FIG. 8, which may also be reflected in the aforementioned relevance matrix configuration.

한편, 상술한 설명에서, 단계 S110 내지 단계 S170 은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 2 내지 도 8에 기술된 내용은 도 9의 데이터셋 관계 자동 생성 서버(100)에도 적용된다.Meanwhile, in the above description, steps S110 to S170 may be further divided into additional steps, or combined into fewer steps, according to an embodiment of the present invention. Also, some steps may be omitted if necessary, and the order of steps may be changed. In addition, even if other omitted contents, the contents described in FIGS. 2 to 8 are also applied to the data set relationship automatic generation server 100 of FIG. 9 .

이하에서는 본 발명의 일 실시예에 따른 소정의 데이터셋 서비스를 위한 데이터셋 관계 자동 생성 서버(100)에 대하여 설명하도록 한다.Hereinafter, a dataset relationship automatic generation server 100 for a predetermined dataset service according to an embodiment of the present invention will be described.

도 9는 본 발명의 일 실시예에 따른 데이터셋 관계 자동 생성 서버(100)를 설명하기 위한 도면이다.9 is a diagram for explaining a dataset relation automatically generating server 100 according to an embodiment of the present invention.

도 9를 참조하면, 데이터셋 관계 자동 생성 서버(100)는 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.Referring to FIG. 9 , the server 100 for automatically generating dataset relationships includes a communication module 110 , a memory 120 and a processor 130 .

통신모듈(110)은 소정의 사용자 단말과 데이터 송수신을 통해 데이터셋 서비스 요청에 상응하는 서비스 정보를 제공한다.The communication module 110 provides service information corresponding to a dataset service request through data transmission and reception with a predetermined user terminal.

메모리(120)에는 데이터셋 서비스를 제공하기 위한 데이터셋 관계를 자동으로 생성하기 위한 프로그램이 저장되며, 프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킨다.A program for automatically generating a dataset relationship for providing a dataset service is stored in the memory 120, and the processor 130 executes the program stored in the memory 120.

프로세서(130)는 데이터셋 서비스를 위한 제1 디스크립션이 구비된 데이터셋에 포함된 데이터 레벨 특징 정보를 추출하고 이를 반영하여 적어도 하나의 제2 디스크립션을 생성한다. 그리고 제1 및 제2 디스크립션에 기초하여 복수의 데이터셋 간의 유사도를 산출 및 반영하여 유사도 매트릭스를 생성하고, 서비스에 상응하는 엔터티와 데이터셋 간의 연관관계 정보를 산출 및 반영하여 연관관계 매트릭스를 생성한 후, 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하여, 이를 기반으로 데이터셋 서비스를 사용자 단말로 제공한다.The processor 130 generates at least one second description by extracting data level characteristic information included in a dataset having a first description for a dataset service and reflecting it. And based on the first and second descriptions, a similarity matrix is created by calculating and reflecting the similarity between a plurality of datasets, and a correlation matrix is created by calculating and reflecting association information between an entity corresponding to a service and a dataset. Then, a relative dataset relevance matrix is created based on the similarity matrix and the relevance matrix, and based on this, the dataset service is provided to the user terminal.

이상에서 전술한 본 발명의 일 실시예에 따른 데이터셋 관계 자동 생성 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.The above-described method for automatically generating dataset relationships according to an embodiment of the present invention may be implemented as a program (or application) to be executed in combination with a server, which is hardware, and stored in a medium.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.The aforementioned program is C, C++, JAVA, machine language, etc. It may include a code coded in a computer language of. These codes may include functional codes related to functions defining necessary functions for executing the methods, and include control codes related to execution procedures necessary for the processor of the computer to execute the functions according to a predetermined procedure. can do. In addition, these codes may further include memory reference related codes for which location (address address) of the computer's internal or external memory should be referenced for additional information or media required for the computer's processor to execute the functions. there is. In addition, when the processor of the computer needs to communicate with any other remote computer or server in order to execute the functions, the code uses the computer's communication module to determine how to communicate with any other remote computer or server. It may further include communication-related codes for whether to communicate, what kind of information or media to transmit/receive during communication, and the like.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.The storage medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and is readable by a device. Specifically, examples of the storage medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., but are not limited thereto. That is, the program may be stored in various recording media on various servers accessible by the computer or various recording media on the user's computer. In addition, the medium may be distributed to computer systems connected through a network, and computer readable codes may be stored in a distributed manner.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.Steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, implemented in a software module executed by hardware, or implemented by a combination thereof. A software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art to which the present invention pertains.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.Although the embodiments of the present invention have been described with reference to the accompanying drawings, those skilled in the art to which the present invention pertains can be implemented in other specific forms without changing the technical spirit or essential features of the present invention. you will be able to understand Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

100: 데이터셋 관계 자동 생성 서버
110: 통신모듈
120: 메모리
130: 프로세서
100: Dataset relationship auto-generation server
110: communication module
120: memory
130: processor

Claims (12)

컴퓨터에 의해 수행되는 방법에 있어서,
소정의 데이터셋 서비스를 위한 제1 디스크립션이 구비된 데이터셋에 포함된 데이터 레벨 특징 정보를 추출하는 단계;
상기 데이터셋의 제1 디스크립션에 상기 데이터 레벨 특징 정보가 반영된 적어도 하나의 제2 디스크립션을 생성하는 단계;
상기 제1 및 제2 디스크립션에 기초하여 복수의 데이터셋 간의 유사도를 산출하는 단계;
상기 산출된 유사도를 기반으로 유사도 매트릭스를 생성하는 단계;
상기 서비스에 상응하는 엔터티와 상기 데이터셋 간의 연관관계 정보를 산출하는 단계;
상기 연관관계 정보에 기초하여 상기 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성하는 단계; 및
상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계를 포함하고,
상기 연관관계 정보에 기초하여 상기 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성하는 단계는,
상기 연관관계 정보에 따라 상기 엔터티 별로 가중치를 부여하여 상기 연관관계 매트릭스를 생성하는 것인,
데이터셋 관계 자동 생성 방법.
In a method performed by a computer,
extracting data level feature information included in a dataset having a first description for a predetermined dataset service;
generating at least one second description in which the data level characteristic information is reflected in the first description of the dataset;
calculating a similarity between a plurality of datasets based on the first and second descriptions;
generating a similarity matrix based on the calculated similarity;
calculating association information between an entity corresponding to the service and the dataset;
generating a relationship matrix between the entity and a dataset based on the relationship information; and
Generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix,
Generating a relation matrix between the entity and the dataset based on the relation information,
Generating the association matrix by assigning a weight to each entity according to the association information;
How to automatically create dataset relationships.
제1항에 있어서,
상기 데이터셋의 제1 디스크립션에 상기 데이터 레벨 특징 정보가 반영된 제2 디스크립션을 생성하는 단계는,
상기 데이터셋에 포함된 데이터의 유형에 대응되는 상이한 항목의 조합으로 상기 제 2 디스크립션을 생성하는 것인,
데이터셋 관계 자동 생성 방법.
According to claim 1,
Generating a second description in which the data level characteristic information is reflected in the first description of the dataset,
Generating the second description with a combination of different items corresponding to the type of data included in the dataset,
How to automatically create dataset relationships.
제1항에 있어서,
상기 산출된 유사도를 기반으로 유사도 매트릭스를 생성하는 단계는,
상기 복수의 데이터셋 중 제1 데이터셋을 기준으로 하는 제2 데이터셋에 대한 상대적인 유사도 매트릭스를 생성하는 것인,
데이터셋 관계 자동 생성 방법.
According to claim 1,
Generating a similarity matrix based on the calculated similarity,
Generating a relative similarity matrix for a second dataset based on the first dataset among the plurality of datasets,
How to automatically create dataset relationships.
제1항에 있어서,
상기 서비스에 상응하는 엔터티는, 상기 데이터셋에 대응하는 제1 디스크립션을 구성하는 구성요소, 상기 데이터셋의 사용자 검색 키워드, 사용자 프로파일 구성요소, 사용자 선호도 정보 중 적어도 하나를 포함하는 것인,
데이터셋 관계 자동 생성 방법.
According to claim 1,
The entity corresponding to the service includes at least one of a component constituting the first description corresponding to the dataset, a user search keyword of the dataset, a user profile component, and user preference information,
How to automatically create dataset relationships.
제1항에 있어서,
상기 연관관계 정보에 기초하여 상기 엔터티와 데이터셋 간의 연관관계 매트릭스를 생성하는 단계는,
상기 엔터티의 개수에 대응하도록 복수 개의 연관관계 매트릭스를 생성하는 것인,
데이터셋 관계 자동 생성 방법.
According to claim 1,
Generating a relation matrix between the entity and the dataset based on the relation information,
Generating a plurality of association matrices to correspond to the number of entities,
How to automatically create dataset relationships.
삭제delete 제1항에 있어서,
상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계는,
상기 유사도 매트릭스에 상기 연관관계 매트릭스를 적용하여 각 엔터티 별로 상대적 데이터셋 연관도 매트릭스를 생성하는 것인,
데이터셋 관계 자동 생성 방법.
According to claim 1,
Generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix,
Generating a relative dataset relevance matrix for each entity by applying the association matrix to the similarity matrix,
How to automatically create dataset relationships.
제7항에 있어서,
상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계는,
상기 연관관계 매트릭스를 구성하는 제1 데이터셋에 상응하는 제1 연관관계 정보와 제2 데이터셋에 상응하는 제2 연관관계 정보를 합산하는 단계; 및
상기 제1 데이터셋과 제2 데이터셋에 상응하는 유사도를 상기 합산 결과에 곱셉 연산하여 상기 상대적 데이터셋 연관도 매트릭스를 생성하는 단계를 포함하는,
데이터셋 관계 자동 생성 방법.
According to claim 7,
Generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix,
adding up first association information corresponding to a first dataset constituting the association matrix and second association information corresponding to a second dataset; and
Generating the relative dataset relevance matrix by multiplying the summation result by similarities corresponding to the first dataset and the second dataset,
How to automatically create dataset relationships.
제7항에 있어서,
상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하는 단계는,
상기 엔터티 중 특정 엔터티에 대한 필터링 및 가중치 중 적어도 하나를 적용하는 단계를 더 포함하는,
데이터셋 관계 자동 생성 방법.
According to claim 7,
Generating a relative dataset relevance matrix based on the similarity matrix and the relevance matrix,
Further comprising applying at least one of filtering and weighting to a specific entity among the entities.
How to automatically create dataset relationships.
소정의 데이터셋 서비스를 위한 데이터셋 관계 자동 생성 서버에 있어서,
소정의 사용자 단말과 데이터 송수신을 통해 데이터셋 서비스 요청에 상응하는 서비스 정보를 제공하는 통신모듈,
상기 데이터셋 서비스를 제공하기 위한 데이터셋 관계를 자동으로 생성하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 데이터셋 서비스를 위한 제1 디스크립션이 구비된 데이터셋에 포함된 데이터 레벨 특징 정보를 추출하고 이를 반영하여 적어도 하나의 제2 디스크립션을 생성하고, 상기 제1 및 제2 디스크립션에 기초하여 복수의 데이터셋 간의 유사도를 산출 및 반영하여 유사도 매트릭스를 생성하며, 상기 서비스에 상응하는 엔터티와 상기 데이터셋 간의 연관관계 정보를 산출 및 반영하여 연관관계 매트릭스를 생성하고, 상기 유사도 매트릭스와 연관관계 매트릭스를 기반으로 상대적 데이터셋 연관도 매트릭스를 생성하고,
상기 프로세서는 상기 엔터티 중 특정 엔터티에 대한 필터링 및 가중치 중 적어도 하나를 적용하여 상기 상대적 데이터셋 연관도 매트릭스를 생성하는 것인,
데이터셋 관계 자동 생성 서버.
In the server for automatically generating dataset relationships for a given dataset service,
A communication module that provides service information corresponding to a dataset service request through data transmission and reception with a predetermined user terminal;
A memory storing a program for automatically generating a dataset relationship for providing the dataset service; and
Including a processor that executes the program stored in the memory,
As the program is executed, the processor extracts data level characteristic information included in a dataset having a first description for the dataset service and generates at least one second description by reflecting it, and Based on the first and second descriptions, a similarity matrix is created by calculating and reflecting similarity between a plurality of datasets, and a correlation matrix is created by calculating and reflecting association information between an entity corresponding to the service and the dataset, , Create a relative dataset relevance matrix based on the similarity matrix and relevance matrix,
wherein the processor generates the relative dataset relevance matrix by applying at least one of filtering and weighting to a specific entity among the entities;
Dataset Relationship Auto-Generation Server.
제10항에 있어서,
상기 프로세서는 상기 연관관계 매트릭스를 구성하는 제1 데이터셋에 상응하는 제1 연관관계 정보와 제2 데이터셋에 상응하는 제2 연관관계 정보를 합산하고, 상기 제1 데이터셋과 제2 데이터셋에 상응하는 유사도를 상기 합산 결과에 곱셉 연산하여 상기 상대적 데이터셋 연관도 매트릭스를 생성하는 것인,
데이터셋 관계 자동 생성 서버.
According to claim 10,
The processor adds up first association information corresponding to a first dataset constituting the association matrix and second association information corresponding to a second dataset, and Generating the relative dataset relevance matrix by multiplying the summation result by the corresponding degree of similarity,
Dataset Relationship Auto-Generation Server.
삭제delete
KR1020200167919A 2020-12-03 2020-12-03 Method and server for generating dataset relationship automatically KR102533708B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200167919A KR102533708B1 (en) 2020-12-03 2020-12-03 Method and server for generating dataset relationship automatically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200167919A KR102533708B1 (en) 2020-12-03 2020-12-03 Method and server for generating dataset relationship automatically

Publications (2)

Publication Number Publication Date
KR20220078412A KR20220078412A (en) 2022-06-10
KR102533708B1 true KR102533708B1 (en) 2023-05-18

Family

ID=81986733

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200167919A KR102533708B1 (en) 2020-12-03 2020-12-03 Method and server for generating dataset relationship automatically

Country Status (1)

Country Link
KR (1) KR102533708B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102100346B1 (en) * 2019-08-29 2020-04-14 (주)프람트테크놀로지 Apparatus and method for managing dataset

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170136976A (en) 2016-06-02 2017-12-12 한국전자통신연구원 Method and apparatus for real-time big data processing and distribution based on data specifications
KR102309249B1 (en) * 2019-04-22 2021-10-07 한국전자통신연구원 Apparatus and method for managing data based on data managing structure

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102100346B1 (en) * 2019-08-29 2020-04-14 (주)프람트테크놀로지 Apparatus and method for managing dataset

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
정종진 외 2인, 데이터셋 검색 지원을 위한 메타데이터 자동 추출에 관한 연구, 2020년도 한국통신학회 하계종합학술발표회, 867-868페이지

Also Published As

Publication number Publication date
KR20220078412A (en) 2022-06-10

Similar Documents

Publication Publication Date Title
JP7343568B2 (en) Identifying and applying hyperparameters for machine learning
CN108292310B (en) Techniques for digital entity correlation
US10102253B2 (en) Minimizing index maintenance costs for database storage regions using hybrid zone maps and indices
RU2443015C2 (en) Ranking functions making use of modified naive bayesian requests classifier with incremental update
US9129010B2 (en) System and method of partitioned lexicographic search
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
CN110019551B (en) Data warehouse construction method and device
US11210350B2 (en) Automated assistance for generating relevant and valuable search results for an entity of interest
JP5705114B2 (en) Information processing apparatus, information processing method, program, and web system
KR101679050B1 (en) Personalized log analysis system using rule based log data grouping and method thereof
CN112070550A (en) Keyword determination method, device and equipment based on search platform and storage medium
CN113297458A (en) Paging query method, device and equipment
RU2595523C2 (en) Image processing method, method of generating image index, method of detecting conformity of the image from the image storage and server (versions)
CN113590144A (en) Dependency processing method and device
KR102533708B1 (en) Method and server for generating dataset relationship automatically
US8005844B2 (en) On-line organization of data sets
US11755671B2 (en) Projecting queries into a content item embedding space
CN113946365A (en) Page identification method and device, computer equipment and storage medium
CN111858609A (en) Fuzzy query method and device for block chain
US11966393B2 (en) Adaptive data prefetch
US11921756B2 (en) Automated database operation classification using artificial intelligence techniques
CN111383071B (en) Method and device for screening conditions of scenes related to real estate transaction system
US20240054102A1 (en) Scalable and Cost-Efficient Information Retrieval Architecture for Massive Datasets
CN118035180A (en) Metadata completion method and device
CN117332241A (en) Feature evaluation method, device, electronic equipment and computer readable storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right