KR20220094797A - 메타정보를 관리하는 데이터 관리 서버 및 그 제어방법 - Google Patents
메타정보를 관리하는 데이터 관리 서버 및 그 제어방법 Download PDFInfo
- Publication number
- KR20220094797A KR20220094797A KR1020200186394A KR20200186394A KR20220094797A KR 20220094797 A KR20220094797 A KR 20220094797A KR 1020200186394 A KR1020200186394 A KR 1020200186394A KR 20200186394 A KR20200186394 A KR 20200186394A KR 20220094797 A KR20220094797 A KR 20220094797A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- column
- meta information
- original data
- rdf
- Prior art date
Links
- 238000013523 data management Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 238000007726 management method Methods 0.000 claims abstract description 24
- 230000008859 change Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000000746 purification Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 메타정보를 관리하는 데이터 관리 서버 및 그 제어방법에 관한 것이다. 본 발명에 따른 메타정보를 관리하는 데이터 관리 서버는, 입력되는 원본 데이터를 기초로 데이터 테이블을 생성하는 데이터 관리부; 데이터 관리부에서 생성한 데이터 테이블에 포함된 원본 데이터를 RDF 표준에 따라 분석하는 테이블 분석부; 상기 테이블 분석부에 의한 분석 결과에 기초하여 각 데이터 테이블에 대응되는 메타 테이블을 생성하는 메타정보 관리부; 사용자에 의해 상기 원본 데이터 테이블의 내용이 변경될 시 해당 변경 내용을 별도의 확장 컬럼 테이블의 컬럼으로 구성하고 컬럼간 관계를 생성하여 등록하는 컬럼 설정부를 포함하는 것을 특징으로 한다.
Description
본 발명은 메타정보를 관리하는 데이터 관리 서버 및 제어방법에 관한 것으로, 보다 상세하게는 RDF 기반 비정형 빅데이터의 효율적인 관리와 분석을 위한 데이터 관리 서버 및 그 제어방법에 관한 것이다.
전세계적으로 빅데이터 시장이 지속적으로 성장할 것으로 전망되지만, 빅데이터에 대한 회의론도 나타나고 있다. 가트너는 2014년 기준으로 빅데이터가 과잉 기대의 정점을 지나 '환멸기(Trough of Disillusionment)' 단계에 진입하였다고 한다. 이는 빅데이터 기술이 이미 널리 알려지고 그 한계를 드러내면서 어느 정도 거품이 꺼진 상태가 되었음을 의미한다. 빅데이터의 효과에 대한 의문도 꾸준히 제기되고 있는데, 미국의 컨설팅 회사인 인포침스(Infochimps)의 조사 결과도 전체 빅데이터 프로젝트 중 절반 이상이 실패했으며 성공한 기업들조차 운영 효율 측면에서는 성공하지 못했음을 보여주고 있다. 또한 빅데이터 프로젝트를 통해 제대로 된 효과를 거두었다고 응답한 기업이 열 개 중 한 개도 되지 않는다는 조사결과도 있다.
빅데이터의 활용을 어렵게 하는 대표적 요인으로는 구조적 측면에서 빅데이터는 '정형ㅇ비정형 데이터의 집합'이라는 것이다.
대부분의 결과가 예상되는 정형 데이터 분석과 달리, 형태가 가변적인 비정형 데이터는 그만큼 무한한 의미의 해석과 관점이 담길 수 있는 여지가 담겨있기 때문이다.
빅데이터 분석을 위해서는 데이터 컬럼구조에 대한 정제와 표준화가 필요한데, 비정형 데이터의 경우 빅데이터 플랫폼 및 연구자의 목적에 따라 정제와 나름의 표준화가 진행되어 결국 무수히 많은 데이터 파편화가 재생산되는 악순환을 반복하고 있다.
따라서, 비정형 빅데이터의 전처리, 마이닝에 있어 표준화를 보장하면서 분석 대상 데이터를 목적에 맞게 분류 및 통합해 활용할 수 있도록 데이터 유연성과 확장성을 지원해 빅데이터 활용과 분석의 생산성을 향상시키고자 하는 요구가 증대되고 있으며, 상술한 문제점들을 해결할 수 있는 방안이 시급한 실정이다.
RDF(Resource Description Framework)는 웹상의 자원의 정보를 표현하기 위한 XML 규격으로 상이한 메타데이터 간의 어의, 구문 및 구조에 대한 공통적인 규칙을 지원하는 기법을 통해 웹상에 존재하는 기계 해독형(machine-understandable)정보를 교환하기 위하여 월드 와이드 웹 컨소시엄에서 제안한 것으로, 메타데이터간의 효율적인 교환 및 상호호환을 목적으로 한다.
따라서, 이미 국제적인 데이터 표준화 기준이 되고있는 RDF 기반의 비정형 빅데이터 통합관리 및 분석 지원 방안이 요구되고 있다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 안출된 것으로서, 그 목적은 입력된 원본 비정형 데이터의 테이블 생성 시 테이블 컬럼 별 속성을 딥러닝 활용 RDF 모델을 적용해 RDF 기반의 표준화된 메타데이터 테이블을 생성하여 관리함으로써 상이한 비정형 데이터에 대한 정보조회와 활용성을 높이고, 데이터 정제 작업 시 컬럼을 변경하지 않고 별도의 확장 컬럼 테이블을 생성하고 관계 테이블과의 관계를 RDF 트리플 메타정보로 통합 관리함으로써 데이터 파편화를 방지하며, 비정형 데이터의 효율적인 데이터 교환 및 상호호환, 통합 등 효율적인 관리 및 분석이 가능하도록 하는 메타정보를 관리하는 데이터 관리 서버 및 그 제어방법을 제공하는 것이다.
상기한 목적을 달성하기 위해 본 발명에 따른 메타정보를 관리하는 데이터 관리 서버는, 입력되는 원본 데이터를 기초로 데이터 테이블을 생성하는 데이터 관리부; 데이터 관리부에서 생성한 데이터 테이블에 포함된 원본 데이터를 RDF 표준에 따라 분석하는 테이블 분석부; 상기 테이블 분석부에 의한 분석 결과에 기초하여 각 데이터 테이블에 대응되는 메타 테이블을 생성하는 메타정보 관리부; 사용자에 의해 상기 원본 데이터 테이블의 내용이 변경될 시 해당 변경 내용을 별도의 확장 컬럼 테이블의 컬럼으로 구성하고 컬럼간 관계를 생성하여 등록하는 컬럼 설정부를 포함하여 구성된다.
여기서, 상기 컬럼 설정부는, 사용자에게 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터를 제공하고, 사용자의 요청에 따라 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터 중 적어도 어느 하나를 수정할 수 있다.
또, 상기한 목적을 달성하기 위해 본 발명에 따른 메타정보를 관리하는 데이터 관리 서버의 제어방법은, 원본 데이터 테이블에 포함된 원본 데이터를 RDF 표준에 따라 분석하여 원본 데이터 별 메타정보가 포함된 메타정보 테이블을 생성하는 단계와; 상기 원본 데이터 테이블과 메타정보 테이블의 컬럼 간 관계에 해당하는 RDF 트리플을 RDF 표준에 맞춰 생성하여 상기 메타정보에 포함시키는 단계와; 사용자에 의해 상기 원본 데이터 테이블의 내용이 변경될 시 해당 변경 내용을 별도의 확장 컬럼 테이블의 컬럼으로 구성하고 컬럼간 관계를 생성하는 등록하는 단계를 포함하여 이루어진다.
여기서, 사용자에게 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터를 제공하고, 사용자의 요청에 따라 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터 중 적어도 어느 하나를 수정할 수 있다.
상술한 목적을 달성하기 위한 본 발명에 따른 데이터 관리 서버는, 사용자 단말, 데이터 관리서버, 별도의 데이터베이스 등 다양한 방식을 통해 입력되는 데이터를 획득하고 다양한 정형ㅇ비정형 원본 데이터의 테이블을 생성해 DB를 구성하는 데이터관리부; 원본 데이터 테이블 컬럼 별 속성을 딥러닝 활용 RDF 모델을 적용해 분석하는 테이블 분석부; 원본 데이터 테이블 별 RDF 기반의 표준화된 메타데이터 테이블을 자동 생성하고 새롭게 추가되는 모든 데이터 테이블의 메타정보를 상기 방식으로 구성하는 메타정보 관리부; 원본 데이터 테이블 컬럼에 대한 표준화/정제/변경 및 추가 작업 시 별도의 확장 컬럼 테이블을 생성하고 관계 테이블/컬럼과의 관계정보를 트리플 메타정보로 구성할 수 있는 컬럼 설정부를 포함하여 구성될 수 있다.
또한, RDF 표준화를 위한 다양한 표준화 어휘집(문법 형태소 사전, 어휘 형태소 사전, 전문용어 사전, 사용자 정의 사전, 중의 테이블, RDA Vocabularies 등)을 활용한 딥러닝 자연어처리 방법(RNA, CNN)을 적용한 컬럼분석과 트리플 설정을 지원할 수 있다.
여기서 데이터관리부는, 사용자가 등록한 모든 데이터 테이블을 관리하며, 정형ㅇ비정형의 데이터를 서로 다른 이종 DB로 구성할 수 있다.
여기서, 메타정보 관리부에서 생성한 원본 데이터 테이블의 메타정보 테이블, 컬럼설정부에서 생성한 확장 컬럼 테이블과 사용자가 생성한 View Table에 대한 생성/수정/삭제와 모든 이력을 관리할 수 있다.
여기서, 신규 생성, 변경된 테이블 컬럼에 대한 분석 요청을 테이블 분석부에 요청할 수 있다.
여기서, 테이블 분석부는, 데이터 관리부에서 생성한 데이터 테이블의 컬럼 별 속성을 분석할 수 있고, 이를 위해 데이터 테이블의 컬럼명과 컬럼별 Row Record를 인식하여 컬럼별 의미와 속성을 딥러닝 기반의 RDF적용 모델을 활용해 분석하고 분석결과를 메타정보 관리부에 전달할 수있다.
여기서 데이터 관리부에 의해 신규 생성, 수정되어 분석 요청한 테이블 컬럼 정보에 대한 분석을 수행할 수 있다.
여기서, 메타정보 관리부는 테이블 분석부에서 획득한 원본 데이터 테이블의 컬럼 속성 정보를 해당 원본 테이블과 매칭되는 메타정보 테이블로 생성/업데이트 할 수 있다.
여기서, 컬럼 설정부는 데이터 테이블에 대한 표준화정제/변경 작업을 관리하고 컬럼 변경 시 해당 컬럼과 관계된 확장 컬럼으로 자동 생성하고 이를 별도의 연결된 확장 컬럼 테이블로 구성해 관리할 수 있다.
이상 설명한 바와 같이 본 발명에 따르면, 비정형 빅데이터에 대한 메타정보를 RDF 표준화를 적용한 딥러닝모델을 활용하여 자동으로 생성하고, 데이터 표준화와 정제 작업 수행 시 RDF 기반의 확장 컬럼 개념을 적용해 별도의 확장 컬럼 테이블로 관리함으로써 여러버전의 중복 테이블 생성이 불필요해 DB 파편화를 방지하고 효율적인 데이터 자원관리가 가능하며, RDF 기반 표준화 메타정보 관리체계 구축을 통해 빅데이터의 공유와 활용 생산성을 증대시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 빅데이터 관리 시스템을 도시한 도면이고,
도 2는 본 발명의 일 실시예에 따른 데이터 관리 서버의 구성을 도시한 블록도이고,
도 3은 본 발명의 일 실시예에 따른 데이터 테이블을 생성하는 과정을 도시한 도면이고,
도 4는 본 발명의 일 실시예에 따른 확장 컬럼 생성과 설정 과정을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 데이터 관리 서버의 구성을 도시한 블록도이고,
도 3은 본 발명의 일 실시예에 따른 데이터 테이블을 생성하는 과정을 도시한 도면이고,
도 4는 본 발명의 일 실시예에 따른 확장 컬럼 생성과 설정 과정을 도시한 도면이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.
이하 본 발명에 따른 각 실시예는 본 발명의 이해를 돕기 위한 하나의 예에 불과하고, 본 발명이 이러한 실시예에 한정되는 것은 아니다. 특히 본 발명은 각 실시예에 포함되는 개별 구성, 개별 기능, 또는 개별 단계 중 적어도 어느 하나 이상의 조합으로 구성될 수 있다.
특히, 편의상 청구 범위의 일부 청구항에는 '(a)'와 같은 알파벳을 포함시켰으나, 이러한 알파벳이 각 단계의 순서를 규정하는 것은 아니다.
또한 이하 본 발명에 따른 각 실시예에서 언급하는 각 신호는 한 번의 연결 등에 의해 전송되는 하나의 신호를 의미할 수도 있지만, 후술하는 특정 기능 수행을 목적으로 전송되는 일련의 신호 그룹을 의미할 수도 있다. 즉, 각 실시예에서는 소정의 시간 간격을 두고 전송되거나 상대 장치로부터의 응답 신호를 수신한 이후에 전송되는 복수 개의 신호들이 편의상 하나의 신호명으로 표현될 수 있는 것이다.
본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비 할 수 있다는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 빅데이터 관리 시스템을 도시한 도면이다.
도1을 참조하면, 본발명의 일 실시예에 따른 객체 관리 시스템은 통신망을 통해 서로 통신 가능한 사용자단말(100), 데이터 관리 서버(200)를 포함할 수 있다.
먼저, 통신망은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있다. 근거리통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.
사용자 단말(100)은 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Po rtable Multimedia Player), 태블릿 PC 등과 같이 무선 통신망을 통하여 외부 서버와 연결될 수 있는 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있으며, 이 외에도 데스크탑 PC, 랩탑 PC와 같이, 네트워크를 통하여 외부 서버와 연결될 수 있는 통신 장치도 포함할 수 있다.
사용자 단말(100)은 정보를 표시하기 위한 디스플레이 장치, 정보를 입력하기 위한 인터페이스 장치 등을 포함할 수 있다.
사용자 단말(100)은 시스템에 등록된 데이터에 대한 원본 데이터와 메타정보를 화면에 표시할 수 있으며, 인터페이스 장치를 통해 화면상에 표시되는 내용을 기초로 사용자는 데이터 테이블 및 메타정보 정보 테이블 정보를 관리하고, 확장 컬럼과 View Table 생성을 요청할 수 있다.
사용자 단말(100)은 사용자에 의해 입력된 요청 정보를 데이터 관리 서버(200)로 전송하며, 이러한 사용자 요청에 따라 원본 데이터 테이블, 메타정보 테이블, 확장컬럼 테이블, View Table이 관리될 수 있다.
데이터 관리 서버(200)는 데이터 특성에 따라, 정형ㅇ비정형의 다중 이종 DB(RDBMS, NoSQL)로 구성하고 그 정보를 관리할 수 있다
여기서 정형 데이터는 그 형태 또는 그 형식이 일정하게 정해져 있는 것을 의미하고, 비정형은 이러한 형태 또는 형식이 일정하게 정해져 있지 않은 데이터를 의미한다.
데이터 관리 서버(200)는 원본 데이터를 RDF 표준화를 적용한 딥러닝 알고리즘을 이용해 분석해 데이터 테이블의 메타정보를 생성할 수 있다.
여기서 RDF는 자원 기술 프레임워크(Resource Description Framework, RDF)을 의미하는 것으로서,웹상의 자원의 정보를 표현하기 위한 규격이다.
상이한 메타데이터 간의 어의, 구문 및 구조에 대한 공통적인 규칙을 지원한다. 웹상에 존재하는 기계 해독형(machine-understandable)정보를 교환하기 위하여 월드 와이드 웹 컨소시엄에서 제안한 것으로, 메타데이터간의 효율적인 교환 및 상호호환을 목적으로 하는 것이다.
메타 데이터 교환을 위해서 명확하고 구조화된 의미표현을 제공해 주는 공통의 기술언어로 XML(eXtensible Markup Language)을 사용하기도 하는데, RDF는 데이터 모형, 데이터의 상호교환을 위한 구문, 스키마 모형, 기계 해독형 스키마를 위한 구문, 질문과 프로파일 프로토콜과 같은 요소로 구성된다.
이러한 RDF 에 대한 것은 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
데이터 관리 서버(200)는 또한, 원본 데이터를 RDF 표준화를 적용한 딥러닝 알고리즘을 이용해 분석하여 데이터 테이블의 컬럼별 속성을 분석하고 메타정보를 생성할 수 있다.
이때 데이터 관리 서버(200)는 RDF 트리플 정보를 메타정보에 포함하고 수정할 수 있다.
여기서 RDF 트리플(Triple)은 RDF의 기본적인 구성 단위에 해당하는데, 트리플은 주어부(subject), 술어부(predicate), 목적부(object)로 나타낼 수 있다.
트리플은 방향성 그래프(directed graph)로서, 각 트리플은 주어부에서 목적부로 가는 에지(edge)이고, 이 에지 상에 레이블로서 술어부를 가지게 되는데, 이러한 RDF 트리플 역시 공지된 것에 불과하므로 보다 상세한 설명은 생략한다.
데이터 관리 서버(200)는 데이터 메타정보 구성 시, 데이터 테이블별 트리플 정보와 확장컬럼 별 트리플 정보를 구성할 수 있으며, 트리플 구성 시 RDF 표준화 어휘사전을 기반한 메타정보 관리 도구를 통해 구성할 수 있다.
도 2에는 이러한 본 발명의 일 실시예에 따른 데이터 관리 서버의 구체적인 기능 블록이 도시되었다.
도 2를 참조하면, 데이터 관리 서버(200)는 데이터 관리부(210), 테이블 분석부(220), 메타정보 관리부(230), 컬럼 설정부(240)를 포함하여 구성될 수 있고, 더 나아가및 딥러닝 기반 RDF 표준화 엔진(250)이 추가적으로 포함될 수 있다.
먼저, 데이터 관리부(210)는 사용자 단말(100)로부터 또는 별도의 데이터베이스(미 도시함) 등으로부터 다양한 방식을 통해 입력되는 데이터 정보를 획득하고 데이터 테이블을 생성할 수 있다.
데이터 관리부(210)는 데이터를 특성에 따라 정형ㅇ비정형으로 분류해 여러 이종 DB로 관리할 수 있는데, 예를 들어, MySQL, Maria, PostgreSQL, Mongo DB 등 여러 DB에 저장된 데이터 테이블을 관리할 수 있으며, 이렇게 생성된 데이터 테이블(원본 데이터 테이블)은 사용자에 의한 데이터 구성 변경 시 새롭게 구성될 수 있다.
테이블 분석부(220)는 데이터 관리부(210)에서 획득된 데이터 테이블 정보를 분석하여 테이블 내에서 컬럼 속성을 인식할 수 있다.
예를 들어, 테이블 분석부(220)는 테이블 컬럼의 컬럼명, Record 데이터를 분석하여 , 컬럼명과 Record 데이터의 의미를 인식하고 분석하여, 테이블 컬럼의 속성을 인식할 수 있다.
또한, 테이블 분석부(220)는 테이블에서 인식된 컬럼의 의미를 인식할 수 있으며, 예를 들어, 어휘 형태소 사전, 전문용어 사전 등의 다양한 어휘사전과 딥러닝 기반 자연어처리 방법(RNA, CNN) 등 다양한 알고리즘을 통해 테이블 컬럼명과 Record 데이터를 인식하고 분석할 수 있다.
어휘 기반에 의해 특정 단어 등에 대한 의미를 분석하는 기술 그 자체는 공지된 것에 해당하므로 보다 상세한 설명은 생략한다.
또한, 테이블 분석부(220)는 RDF 표준화를 위한 다양한 표준화 어휘집(문법 형태소 사전, 어휘 형태소 사전, 전문용어 사전, 사용자 정의 사전, 중의 테이블, RDA Vocabularies 등)을 활용한 딥러닝 자연어처리 방법(RNA, CNN)을 적용한 컬럼분석과 테이블 간 관계 메타정보인 트리플 설정을 지원할 수 있다.
예를 들어, 제1데이터 테이블의 제3컬럼의 컬럼명이 'date'이고 해당 컬럼 Row의 Record 데이터가 20.12.31 형식이면 테이블 분석부(220)는 해당 컬럼을 'DATE' 속성으로 인식하고 해당 메타정보를 생성하며, 컬럼명과 Record의 형식이 RDF 기반 표준화된 형태인지 인식하여 해당 분석결과를 메타정보 관리부(230)로 제공할 수 있다.
한편, 메타정보 관리부(230)는 테이블 분석부(220)에 의한 분석 결과에 기초하여 각 데이터 테이블에 대응되는 메타 테이블을 생성하는 기능을 수행한다.
이때 메타정보 관리부(230)는 원본 데이터 테이블의 컬럼 속성 정보를 해당 원본 테이블과 매칭되는 메타정보 테이블로 생성/업데이트할 수 있다.
특히, 메타정보 관리부(230)는 메타정보 테이블 구성 시, 딥러닝 기반 RDF 표준화 엔진(250)을 활용하여 RDF 표준화 기준에 맞춰 원본 데이터 테이블과 매칭된 메타정보 테이블로 구성하고 트리플 정보를 구성할 수 있다.
앞서 설명한 바와 같이 RDF 표준화 그 자체는 공지된 기술에 해당한 것이므로, 보다 상세한 설명은 생략한다.
구체적으로, 메타정보 관리부(230)는 데이터 관리 서버에 추가된 모든 데이터 테이블의 메타정보 테이블을 생성하고 데이터 테이블 업데이트 내용을 실시간 반영하여 관리할 수 있다.
컬럼 설정부(240)는 모든 데이터 테이블의 컬럼을 수정/삭제/추가 관리하고 원본 데이터 테이블과 메타정보 테이블, 확장 컬럼 테이블 및 View Table의 컬럼 정보의 속성과 Record를 변경하고 관계 정보 트리플을 설정/변경할 수 있다.
즉, 컬럼 설정부(240)는 사용자에게 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터를 제공하고, 사용자의 요청에 따라 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터 중 적어도 어느 하나를 수정할 수 있는데, 이를 위해 사용자에게 각종 테이블의 내용을 제공할 수도 있다.
특히, 컬럼 설정부(240)는 사용자에 의해 상기 원본 데이터 테이블의 내용이 변경될 시 해당 변경 내용을 별도의 확장 컬럼 테이블의 컬럼으로 구성하고 컬럼간 관계를 생성하여 등록할 수 있다.
예를 들어, 컬럼 설정부(240)는 제1데이터 테이블의 제4컬럼을 RDF 표준모델에 따라 정제/변환할 시, 제1데이터 테이블의 제4컬럼의 내용을 직접 덮어쓰는 것이 아니라 제1데이터 테이블의 제4컬럼을 표준화한 Record 정보를 별도의 확장 컬럼으로 추가하는데 이를 제1데이터 테이블이 아닌 제1-N확장 컬럼 테이블의 컬럼으로 생성하여 관리할 수 있다.
구체적으로, 컬럼 설정부(240)는 원본 데이터 테이블의 직접적인 변경 없이 선택적으로 컬럼을 지정하여 해당 컬럼에 대한 변경 내용을 별도의 확장 컬럼 테이블로 구성 관리할 수 있다. 즉, 제1데이터 테이블의 제3컬럼 'date'의 Record 형식인 'yy.dd.dd'를 표준화된 'yyyy-mm-dd'로 변경하면, 제1데이터 테이블의 컬럼을 직접 변경하는 것이 아니라 제1-N확장 컬럼 테이블의 제1컬럼 'date'컬럼으로 'yyyy-mm-dd'형식의 Record를 구성하고 해당 테이블/컬럼의 관계를 트리플 Object(제1-N확장 컬럼 테이블, 제1컬럼) - Predicate(Standardization.date.format) - Subject(제1데이터 테이블.제3컬럼)로 구성할 수 있다.
딥러닝 기반 RDF 표준화 엔진(250)은 자연어처리를 위해 다양한 어휘사전(문법 형태소 사전, 어휘 형태소 사전, 전문 용어 사전, 사용자 정의 사전 및 중의 테이블과 RDA Vocabularies 등)을 활용한 딥러닝 학습모델을 포함하고 학습성능 향상을 위해 어휘사전의 추가 학습과 파인튜닝을 수행 할 수 있다.
딥러링 학습모델 역시 RDF 표준화 관련 기술과 마찬가지로 공지된 기술을 이용하는 것이므로 보다 상세한 설명은 생략한다.
[실시예1]
본 발명의 실효성을 위하여 도 3은 데이터의 메타정보를 생성하는 과정을 도시한 도식이다.
도 3은 원본데이터를 입력받아 원본 데이터 테이블을 생성한 후 딥러닝 기반 RDF 표준화 엔진을 활용해 데이터 전처리를 수행하고 원본 데이터 테이블의 컬럼을 자동 분석한다.
데이터 테이블의 컬럼명과 컬럼 Record 데이터의 텍스트를 인식하여 형태소 분석, 중의성 해결, 의미 분석, 구문 분석, 문장성분 분석을 수행하고 RDF 표준의 SPARQL로 변환하여 메타정보 테이블을 생성해 분석 내용을 기록한다.
즉, 원본 데이터 테이블에 매칭되는 별도의 메타 정보 테이블을 자동으로 생성하여 메타 데이터를 추가하는 것이고, 여기서 메타 데이터는 데이터 테이블의 컬럼명과, 컬럼 레코드 데이터의 텍스트에 대한 문자 인식 등을 통해 이루어질 수 있는 것이다.
사용자는 사용자 단말을 통해 데이터 테이블 관리도구에 접속해 실시간 데이터 테이블 구성과 메타정보 테이블 내용을 확인할 수 있다.
도 4는 데이터 테이블의 정보를 변경할 시 별도의 확장컬럼 테이블을 생성하여 변경내용을 별도의 테이블로 구성하는 과정을 도시한 도식이다.
사용자는 데이터 테이블 관리 도구를 통해 원본 데이터 테이블 현황, 메타 정보 테이블 현황, 테이블 트리플 관계 정보 등에 대해 확인 및 수동 관리를 수행할 수 있다.
여기서 실제 각종 데이터에 대한 저장, 변경 등은 데이터 관리 서버(200)에서 이루어지는데, 사용자는 사용자 단말(100)의 데이터 테이블 관리 도구를 이용하여 이러한 데이터 관리 서버(200)에 접속하여 필요한 요청 및 수행 처리를 제어할 수 있는 것이다.
또한 사용자는 특정 원본 데이터 테이블을 선택한 후, 테이블 컬럼 관리 도구를 이용하여 해당 테이블 메타 정보, 컬럼 트리플 정보, 컬럼 레코드 데이터 등에 대한 관리를 할 수 있다.
즉, 데이터 테이블의 컬럼 정보를 업데이트하거나 확장할 때 테이블 컬럼 관리도구를 통해 RDF 표준에 따라 컬럼 정보를 생성/관리하고 확장된 컬럼의 관계 컬럼을 RDF 표준의 트리플로 구성/관리할 수 있도록 지원한다.
사용자는 원본 데이터 컬럼과 변경한 확장 컬럼을 비교할 수 있으며, 트리플에 따라 원본 데이터 테이블과 확장 컬럼 테이블은 실시간 연계 관리할 수 있다.
한편, 상술한 각 실시예를 수행하는 과정은 소정의 기록 매체(예를 들어 컴퓨터로 판독 가능한)에 저장된 프로그램 또는 애플리케이션에 의해 이루어질 수 있음은 물론이다. 여기서 기록 매체는 RAM(Random Access Memory)과 같은 전자적 기록 매체, 하드 디스크와 같은 자기적 기록 매체, CD(Compact Disk)와 같은 광학적 기록 매체 등을 모두 포함한다.
이때, 기록 매체에 저장된 프로그램은 컴퓨터나 스마트폰 등과 같은 하드웨어 상에서 실행되어 상술한 각 실시예를 수행할 수 있다. 특히, 상술한 본 발명에 따른 데이터 관리 서버의 기능 블록 중 적어도 어느 하나는 이러한 프로그램 또는 애플리케이션에 의해 구현될 수 있다.
또한, 본 발명은 상기한 특정 실시예에 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 변형 및 수정하여 실시할 수 있는 것이다. 이러한 변형 및 수정이 첨부되는 특허청구범위에 속한다면 본 발명에 포함된다는 것은 자명할 것이다.
100 : 사용자 단말
200 : 데이터 관리 서버
210 : 데이터 관리부
220 : 테이블 분석부
230 : 메타정보 관리부
240 : 라벨 분석부
250 : 딥러닝 기반 RDF 표준화 엔진
200 : 데이터 관리 서버
210 : 데이터 관리부
220 : 테이블 분석부
230 : 메타정보 관리부
240 : 라벨 분석부
250 : 딥러닝 기반 RDF 표준화 엔진
Claims (4)
- (a) 원본 데이터 테이블에 포함된 원본 데이터를 RDF 표준에 따라 분석하여 원본 데이터 별 메타정보가 포함된 메타정보 테이블을 생성하는 단계와;
(b) 상기 원본 데이터 테이블과 메타정보 테이블의 컬럼 간 관계에 해당하는 RDF 트리플을 RDF 표준에 맞춰 생성하여 상기 메타정보에 포함시키는 단계와;
(c) 사용자에 의해 상기 원본 데이터 테이블의 내용이 변경될 시 해당 변경 내용을 별도의 확장 컬럼 테이블의 컬럼으로 구성하고 컬럼간 관계를 생성하는 등록하는 단계를 포함하는 것을 특징으로 하는 메타정보를 관리하는 데이터 관리 서버의 제어방법. - 제1항에 있어서,
사용자에게 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터를 제공하고, 사용자의 요청에 따라 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터 중 적어도 어느 하나를 수정하는 것을 특징으로 하는 메타정보를 관리하는 데이터 관리 서버의 제어방법. - 입력되는 원본 데이터를 기초로 데이터 테이블을 생성하는 데이터 관리부;
데이터 관리부에서 생성한 데이터 테이블에 포함된 원본 데이터를 RDF 표준에 따라 분석하는 테이블 분석부;
상기 테이블 분석부에 의한 분석 결과에 기초하여 각 데이터 테이블에 대응되는 메타 테이블을 생성하는 메타정보 관리부;
사용자에 의해 상기 원본 데이터 테이블의 내용이 변경될 시 해당 변경 내용을 별도의 확장 컬럼 테이블의 컬럼으로 구성하고 컬럼간 관계를 생성하여 등록하는 컬럼 설정부를 포함하는 것을 특징으로 하는 메타정보를 관리하는 데이터 관리 서버. - 제3항에 있어서,
상기 컬럼 설정부는, 사용자에게 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터를 제공하고, 사용자의 요청에 따라 상기 원본 데이터 테이블, 상기 메타 정보 테이블, 상기 확장 컴럼 테이블에 포함된 데이터 중 적어도 어느 하나를 수정하는 것을 특징으로 하는 메타정보를 관리하는 데이터 관리 서
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200186394A KR102597181B1 (ko) | 2020-12-29 | 2020-12-29 | 메타정보를 관리하는 데이터 관리 서버 및 그 제어방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200186394A KR102597181B1 (ko) | 2020-12-29 | 2020-12-29 | 메타정보를 관리하는 데이터 관리 서버 및 그 제어방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220094797A true KR20220094797A (ko) | 2022-07-06 |
KR102597181B1 KR102597181B1 (ko) | 2023-11-02 |
Family
ID=82399993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200186394A KR102597181B1 (ko) | 2020-12-29 | 2020-12-29 | 메타정보를 관리하는 데이터 관리 서버 및 그 제어방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102597181B1 (ko) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6044375A (en) * | 1998-04-30 | 2000-03-28 | Hewlett-Packard Company | Automatic extraction of metadata using a neural network |
WO2012091541A1 (en) * | 2010-12-28 | 2012-07-05 | Mimos Berhad | A semantic web constructor system and a method thereof |
KR20150026825A (ko) | 2013-09-02 | 2015-03-11 | 한국전자통신연구원 | NoSQL 데이터 및 링크드 데이터 연계 장치 및 방법 |
US20150331993A1 (en) * | 2014-05-16 | 2015-11-19 | Battelle Memorial Institute | Custom Knowledgebases and Sequence Datasets |
KR20160027455A (ko) * | 2014-08-29 | 2016-03-10 | 한국전자통신연구원 | 대용량 rdf 데이터 관리 방법 및 장치 |
KR101783791B1 (ko) * | 2016-05-01 | 2017-10-11 | 충북대학교 산학협력단 | 프로버넌스 관리를 위한 압축 장치 및 방법 |
KR101836314B1 (ko) * | 2016-10-28 | 2018-03-09 | (주) 아인스에스엔씨 | Rdbms 데이터의 트리플 자동변환방법 및 시스템 |
US20190294672A1 (en) * | 2018-03-23 | 2019-09-26 | Abbyy Production Llc | Information extraction from natural language texts |
KR20200082179A (ko) * | 2018-12-28 | 2020-07-08 | 인천대학교 산학협력단 | 공간 데이터의 의미론적 주석을 위한 데이터 변환 방법 |
-
2020
- 2020-12-29 KR KR1020200186394A patent/KR102597181B1/ko active IP Right Grant
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6044375A (en) * | 1998-04-30 | 2000-03-28 | Hewlett-Packard Company | Automatic extraction of metadata using a neural network |
WO2012091541A1 (en) * | 2010-12-28 | 2012-07-05 | Mimos Berhad | A semantic web constructor system and a method thereof |
KR20150026825A (ko) | 2013-09-02 | 2015-03-11 | 한국전자통신연구원 | NoSQL 데이터 및 링크드 데이터 연계 장치 및 방법 |
US20150331993A1 (en) * | 2014-05-16 | 2015-11-19 | Battelle Memorial Institute | Custom Knowledgebases and Sequence Datasets |
KR20160027455A (ko) * | 2014-08-29 | 2016-03-10 | 한국전자통신연구원 | 대용량 rdf 데이터 관리 방법 및 장치 |
KR101783791B1 (ko) * | 2016-05-01 | 2017-10-11 | 충북대학교 산학협력단 | 프로버넌스 관리를 위한 압축 장치 및 방법 |
KR101836314B1 (ko) * | 2016-10-28 | 2018-03-09 | (주) 아인스에스엔씨 | Rdbms 데이터의 트리플 자동변환방법 및 시스템 |
US20190294672A1 (en) * | 2018-03-23 | 2019-09-26 | Abbyy Production Llc | Information extraction from natural language texts |
KR20200082179A (ko) * | 2018-12-28 | 2020-07-08 | 인천대학교 산학협력단 | 공간 데이터의 의미론적 주석을 위한 데이터 변환 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102597181B1 (ko) | 2023-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malyshev et al. | Getting the most out of Wikidata: Semantic technology usage in Wikipedia’s knowledge graph | |
US10783202B2 (en) | Analyzing concepts over time | |
US11023461B2 (en) | Query translation | |
US9720944B2 (en) | Method for facet searching and search suggestions | |
US9686374B2 (en) | System and method for fragment level dynamic content regeneration | |
US20190163715A1 (en) | System and method for the dynamic provisioning of static content | |
US8935277B2 (en) | Context-aware question answering system | |
US7958131B2 (en) | Method for data management and data rendering for disparate data types | |
CN109426725B (zh) | 数据脱敏方法、设备及计算机可读存储介质 | |
US11941034B2 (en) | Conversational database analysis | |
US10162613B1 (en) | Re-usable rule parser for different runtime engines | |
US20170011114A1 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
CN103186639A (zh) | 数据生成方法及系统 | |
JP2023507286A (ja) | 自然言語クエリを構造化クエリ言語に変換するためのスキーマ注釈ファイルの自動作成 | |
CN116628018A (zh) | 一种数据查询方法、装置、服务器及存储介质 | |
US20170124090A1 (en) | Method of discovering and exploring feature knowledge | |
JP2022546228A (ja) | 構造化及び非構造化されたデータを使用する照会の解決 | |
CN111857688A (zh) | Sql代码自动补全方法、系统及存储介质 | |
KR20220094797A (ko) | 메타정보를 관리하는 데이터 관리 서버 및 그 제어방법 | |
CN110929503A (zh) | 基于医学同义词在线编辑检索系统 | |
US20090210400A1 (en) | Translating Identifier in Request into Data Structure | |
CN101576897A (zh) | 文件内容检索系统及方法 | |
KR100551689B1 (ko) | 웹 온톨로지 저장/관리 시스템 및 방법 | |
JP2009151541A (ja) | 検索システムにおける最適情報の提示方法 | |
KR20140104544A (ko) | 의미 데이터 구축을 위한 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |