KR102153259B1

KR102153259B1 - 데이터 도메인 추천 방법 및 추천된 도메인을 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법

Info

Publication number: KR102153259B1
Application number: KR1020200035511A
Authority: KR
Inventors: 신우택; 이진희; 천승태
Original assignee: 주식회사 데이터스트림즈
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-09-08

Abstract

소정의 업종에 대한 데이터를 수집하여 전처리하고, 전처리된 데이터에 대해 데이터와 연관된 도메인들을 추천하기 위해 훈련된 딥러닝 모델을 적용함으로써 데이터와 연관된 도메인들을 결정하고, 결정된 도메인들을 추천 도메인으로서 제공하는 방법이 제공된다.

Description

데이터 도메인 추천 방법 및 추천된 도메인을 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법{DATA DOMAIN RECOMMENDATION METHOD AND METHOD FOR CONSTRUCTING INTEGRATED DATA REPOSITORY MANAGEMENT SYSTEM USING RECOMMENDED DOMAIN}

아래의 설명은 기업 또는 단체나, 업종에 대한 데이터와 연관된 도메인을 추천하는 방법에 관한 것으로, 특히, 딥러닝 모델을 사용하여 데이터와 연관된 도메인을 추천하고, 이를 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법에 관한 것이다.

4차 산업이 활성화되고 이에 대한 관심이 높아짐에 따라, IT, 금융, 경제, 의료 등 여러 업종들 및 분야들에서 다양한 종류의 데이터가 대규모로 생성되고 있으며, 이러한 데이터를 관리하기 위해 많은 자원이 소비되고 있다.

이러한 대규모의 빅데이터의 관리를 통해 수집된 데이터의 품질을 향상시킴으로써, 데이터를 다른 연구나 제품 개발에 있어서 활용할 수 있고, 따라서, 이러한 데이터 관리의 중요성은 점차 증대되고 있다.

따라서, 빅데이터와 같은 데이터를 관리하는 관리자들이 좀더 직관적이고 편리하게 데이터를 관리할 수 있도록 하는 방법이 요구된다.

한편, 한국공개특허 제10-2014-0133383호(공개일 2014년 11월 19일)에는 데이터 관리 장치, 데이터 관리 방법 및 데이터 관리 시스템으로서, 클라우드 환경 하에서 외부 저장 공간에 데이터와 키워드를 암호화하여 저장하고, 키워드들에 대한 검색 가능한 암호문을 생성하여, 검색하려는 키워드에 대한 토큰을 이용해 암호화된 키워드들로부터 해당 키워드를 포함하는 데이터의 검색 등을 가능하게 하는 기술에 관해 개시하고 있다.

상기에서 설명된 정보는 단지 이해를 돕기 위한 것이며, 종래 기술의 일부를 형성하지 않는 내용을 포함할 수 있으며, 종래 기술이 통상의 기술자에게 제시할 수 있는 것을 포함하지 않을 수 있다.

소정의 업종에 대한 데이터를 수집하여 전처리하고, 전처리된 데이터에 대해 데이터와 연관된 도메인들을 추천하기 위해 훈련된 딥러닝 모델을 적용함으로써 데이터와 연관된 도메인들을 결정하고, 결정된 도메인들을 추천 도메인으로서 제공하는 방법을 제공할 수 있다.

각 업종에 대한 데이터에 대해 도메인을 연관시켜 구축된 데이터 저장소 시스템들에 대해, 각 데이터 저장소 시스템에 대해 추가적인 데이터를 수집 가능하도록 하는 기능과, 각 데이터 저장소 시스템에 대해 용어 또는 도메인을 정의하도록 하는 기능과, 데이터 저장소 시스템들의 데이터와 연관된 개별/부문/전사 표준들을 관리하는 기능을 제공하는 통합 데이터 저장소(Data Repository) 관리 시스템을 구축하는 방법을 제공할 수 있다.

일 측면에 있어서, 컴퓨터 시스템에 의해 수행되는, 데이터의 도메인을 추천하는 방법에 있어서, 소정의 업종에 대한 데이터를 수집하는 단계, 상기 수집된 데이터를 전처리하는 단계, 상기 전처리된 데이터에 대해, 상기 데이터와 연관된 복수의 도메인들을 추천하기 위해 훈련된 딥러닝 모델을 적용하는 단계 및 상기 데이터에 대한 상기 딥러닝 모델에 대한 적용의 결과로서, 상기 복수의 도메인들을 추천 도메인으로서 제공하는 단계를 포함하는, 데이터의 도메인을 추천하는 방법이 제공된다.

상기 딥러닝 모델은 상기 복수의 도메인들의 각 도메인의 소분류에 해당하는 적어도 하나의 예시를 결정하는 것을 통해, 상기 예시를 포함하는 상기 각 도메인을 결정하도록 훈련되고, 상기 추천 도메인으로서 제공하는 단계는, 상기 각 도메인에 대해, 상기 각 도메인에 포함되는 상기 예시를 상기 각 도메인과 함께 제공하고, 상기 복수의 도메인들은 순위화되어 상기 추천 도메인으로서 제공될 수 있다.

상기 딥러닝 모델은 지도 학습(Supervised Learning)에 기반하여 훈련된 모델로서, 태깅된 데이터 항목들의 각각을 포함하는 훈련용 데이터에 기반하여 훈련된 모델일 수 있다.

상기 딥러닝 모델은 강화 학습(Reinforcement Learning)에 기반하여 훈련된 모델이고, 상기 데이터의 도메인을 추천하는 방법은 상기 데이터에 대한 상기 딥러닝 모델의 적용의 결과에 기반하여, 상기 딥러닝 모델을 업데이트하는 단계를 더 포함할 수 있다.

상기 데이터의 도메인을 추천하는 방법은 상기 추천 도메인으로서 제공되는 도메인들 외에, 사용자가 상기 데이터에 대해 추가로 도메인을 입력할 수 있도록 하는 기능을 제공하는 사용자 인터페이스를 제공하는 단계를 더 포함할 수 있다.

상기 데이터의 도메인을 추천하는 방법에 따라, 상기 추천 도메인으로서 제공되는 도메인들 중 적어도 하나의 도메인을 상기 업종에 대한 데이터의 속성으로서 결정하는 단계, 상기 업종과는 상이한 다른 업종에 대한 다른 데이터에 대해, 상기 수집하는 단계, 상기 전처리하는 단계, 상기 제공하는 단계, 및 상기 결정하는 단계를 반복함으로써, 상기 다른 업종에 대한 다른 데이터와 연관된 적어도 하나의 도메인을 상기 다른 업종에 대한 다른 데이터의 속성으로서 결정하는 단계 및 상기 업종에 대한 데이터와 상기 데이터의 속성이 매핑되어 구축된 상기 데이터에 대한 제1 데이터 저장소 시스템과, 상기 다른 업종에 대한 다른 데이터와 상기 다른 데이터의 속성이 매핑되어 구축된 상기 다른 데이터에 대한 제2 데이터 저장소 시스템에 대한 통합 데이터 저장소(Data Repository) 관리 시스템을 구축하는 단계를 포함하고, 상기 업종에 대한 데이터 및 상기 다른 업종에 대한 다른 데이터는 메타데이터이고, 상기 데이터 저장소 관리 시스템은, 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 시스템에 대해 추가적인 데이터를 수집하는 제1 기능과, 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 시스템에 대해 용어 또는 도메인을 정의하도록 하는 제2 기능과, 상기 데이터와 연관된 제1 표준, 상기 다른 데이터와 연관된 제2 표준, 및 상기 데이터 및 상기 다른 데이터 둘 다와 연관된 제3 표준을 관리하는 제3 기능을 제공하고, 상기 제1 표준은 상기 제1 데이터 저장소 시스템과 연관된 개별 표준이고, 상기 제2 표준은 상기 제2 데이터 저장소 시스템과 연관된 개별 표준이고, 상기 제3 표준은 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 시스템과 연관된 전사 표준 또는 부문 표준인, 통합 데이터 저장소 관리 시스템을 구축하는 방법이 제공된다.

상기 통합 데이터 저장소 관리 시스템을 구축하는 방법은, 상기 데이터의 속성으로서 결정된 도메인 및 상기 다른 데이터의 속성으로서 결정된 도메인의 각 도메인이, 상기 제1 표준, 상기 제2 표준 및 상기 제3 표준 중 어느 것에 해당하는지 여부를 판정하는 단계 및 상기 판정의 결과에 따라 상기 각 도메인을 상기 제1 표준, 상기 제2 표준 및 상기 제3 표준 중 어느 하나에 할당하는 단계를 더 포함할 수 있다.

상기 판정하는 단계는, 상기 데이터의 속성으로서 결정된 도메인 및 상기 다른 데이터의 속성으로서 결정된 도메인 중에서, 상기 데이터의 속성에만 해당하는 것으로 결정된 도메인을 상기 제1 표준에 해당하는 것으로 판정하고, 상기 다른 데이터의 속성에만 해당하는 것으로 결정된 도메인을 상기 제2 표준에 해당하는 것으로 판정하고, 상기 데이터의 속성 및 상기 다른 데이터의 속성에 공통으로 해당하는 것으로 결정된 도메인을 상기 제3 표준에 해당하는 것으로 판정할 수 있다.

상기 데이터 저장소 관리 시스템은, 상기 데이터와 연관된 단어, 용어 및 도메인과, 상기 다른 데이터와 연관된 단어, 용어 및 도메인을 검색하기 위한 딕셔너리 기능을 제공하고, 상기 딕셔너리 기능에 의해 단어, 용어 또는 도메인이 조회될 때, 상기 조회되는 단어, 용어 또는 도메인에는 상기 단어, 용어 또는 도메인이 해당하는 상기 제1 표준, 상기 제2 표준 및 상기 제3 표준 중 어느 하나가 함께 조회될 수 있다.

상기 제1 표준은 상기 데이터에 특정된 정보를 포함하도록 구성되고, 상기 제2 표준은 상기 다른 데이터에 특정된 정보를 포함하도록 구성되고, 상기 제3 표준은 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 간에 공유되어야 하는 마스터 정보를 포함하도록 구성될 수 있다.

실시예들을 통해서는, 데이터를 관리하는 관리자가 수동으로 데이터와 연관된 도메인을 설정할 필요 없이, 업종 별로 수집된 데이터에 대해, 해당 데이터와 연관된 도메인들을 자동으로 추천 받을 수 있다. 단순히 데이터를 분류하는 도메인을 제공하는 것에서 그치지 않고, 도메인에 포함되는 소분류에 해당하는 예시를 함께 제공할 수 있다. 따라서, 데이터를 관리하는 관리자의 편의성을 증대시킴과 동시에 데이터의 품질 및 활용성을 개선시킬 수 있다.

각 업종에 대한 데이터에 대해 도메인을 연관시켜 구축된 데이터 저장소 시스템들에 대해, 통합 데이터 저장소 관리 시스템을 구축하여 활용함으로써, 다수 업종들의 데이터에 대한 활용성 및 관리의 편의성을 극대화할 수 있다.

도 1은 일 실시예에 따른, 데이터와 연관된 도메인을 추천하는 방법을 나타낸다.
도 2는 일 실시예에 따른, 데이터와 연관된 도메인을 추천하는 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른, 데이터와 연관된 도메인을 추천하는 방법을 나타내는 흐름도이다.
도 4는 일 실시예에 따른, 각 업종에 대한 데이터에 대해 도메인을 연관시켜 구축된 데이터 저장소 시스템들에 대해, 통합 데이터 저장소 관리 시스템을 구축하는 방법을 나타낸다.
도 5는 일 예에 따른, 데이터와 연관된 추천된 도메인을 출력하는 방법을 나타낸다.
도 6은 일 예에 따른, 통합 데이터 저장소 관리 시스템을 구축하고, 구축된 통합 데이터 저장소 관리 시스템을 통해 데이터를 조회하는 방법을 나타낸다.
도 7은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템을 사용하여 각 업종에 대한 데이터를 통합 및 연결하는 방법을 나타낸다.
도 8은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템에서 정의되는 용어/도메인/표준의 분류 체계를 나타낸다.
도 9 및 도 10은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템을 사용하여 개별/부문/전사 표준을 관리하는 방법을 나타낸다.
도 11은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템을 사용하여 구현되는 통합 딕셔너리를 나타낸다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 일 실시예에 따른 데이터와 연관된 도메인을 추천하는 방법을 나타낸다.

도시된 것처럼, 실시예에서는 특정한 업종(예컨대, 업종 A)에 대해 수집된 데이터(예컨대, 메타데이터)(10)가 예컨대, 딥러닝 모델과 같은, 머신러닝 모델(100)에 의해 분석될 수 있다. 머신러닝 모델(100)은 입력되는 데이터(10)에 대해 해당 데이터(10)와 연관된 도메인을 결정(추론)하도록 훈련된 딥러닝 모델일 수 있다. 데이터(10)에 대해 이러한 머신러닝 모델(100)이 적용됨으로써, 데이터와 연관된 도메인들이 추천 도메인들(50)로서 제공되어 출력될 수 있다.

여기서, 데이터(10)는 특정한 업종(예컨대, 업종 A)과 관련된 데이터로서, 업종 A에서 사용하는 용어나 단어를 데이터 항목으로서 포함할 수 있다. 용어는 복수의 단어들로 구성될 수 있다. 데이터(10)는 메타데이터일 수 있다. 데이터(10)와 연관되는 도메인은 데이터(10)가 포함되는 용어나 단어가 매핑되는 대상일 수 있다. 도메인은 데이터(10)의 속성에 대응할 수 있고, 또한, 데이터(10)의 속성에서 정의된 조건을 만족시키는 데이터 항목들(또는 값들)의 범위를 나타낼 수 있다. 데이터(10)에 포함된 용어 또는 단어는 표준 용어 또는 표준 단어일 수 있다. 이 때, 데이터(10)에는 표준 (용어/단어) 사전(딕셔너리)이 구축되어 있을 수 있다. 데이터(10)와 연관된 추천 도메인들(50) 중 적어도 하나는 데이터(10)의 관리자에 의해, 데이터(10)에 대한 표준 도메인으로서 설정될 수 있다.

도메인은 예컨대, 데이터(10)의 칼럼에 대한 속성을 그룹화한 것으로서, 예컨대, "번호", "금액", "명칭", "수량", "분류", "날짜", "비율", "내용", "코드", "키", "공통"을 포함할 수 있다. 도메인은 데이터(10)가 관련되는 업종에 따라 상이하게 분류될 수 있다. 이러한 도메인은 데이터(10)에 포함된 데이터 항목들의 분류의 기준이 될 수 있다.

실시예에서 제공되는 추천 도메인들(50)은 상기의 예시와 같은 도메인들(즉, 11가지의 도메인들)뿐만 아니라 그 각각의 소분류에 해당하는 적어도 하나의 예시를 포함할 수 있다. 말하자면, 전술된 머신러닝 모델(100)은 입력되는 데이터(10)에 대해 해당 데이터(10)와 연관된 도메인뿐만 아니라 그 소분류에 해당하는 예시들 역시 결정(추론)하도록 훈련된 딥러닝 모델일 수 있다. 예컨대, 머신러닝 모델(100)은, 입력된 데이터(10)에 대해, 소분류에 해당하는 적어도 하나의 예시를 결정하는 것을 통해, 해당 예시를 포함하는 도메인을 결정하도록 훈련된 것일 수 있다. 예컨대, 도시된 것처럼, 도메인 "번호"의 소분류에 해당하는 예시는 '주민등록번호' 및 '고객번호'일 수 있다.

전술된 실시예를 통해서는, 데이터를 관리하는 관리자가 수동으로 데이터(10)와 연관된 도메인을 설정할 필요 없이, 업종 별로 수집된 데이터(10)에 대해, 해당 데이터(10)와 연관된 도메인들 및 그 소분류에 해당하는 예시들을 자동으로 추천 받을 수 있다.

추천 도메인(50)을 결정 및 제공하는 방법에 대해서는, 후술될 도 2 내지 도 11을 참조하여 더 자세하게 설명된다.

도 2는 일 실시예에 따른 데이터와 연관된 도메인을 추천하는 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.

도 2에서 도시한 바와 같이, 컴퓨터 시스템(200)은 데이터(10)와 연관된 도메인들을 추천하기 위한 방법을 실행하기 위한 구성요소로서 프로세서(210), 메모리(220), 영구 저장 장치(230), 버스(240), 입출력 인터페이스(250) 및 네트워크 인터페이스(260)를 포함할 수 있다. 컴퓨터 시스템(200)은 도시된 것과는 달리 복수의 컴퓨터 시스템들로 구성될 수도 있다. 컴퓨터 시스템(200)은, 예컨대, 데이터(10)를 관리 및 활용하는 기업 또는 단체나 그 계열사 혹은 본사에서 사용하는. 데이터(10)를 관리하기 위한 서버 또는 기타 컴퓨터일 수 있다.

프로세서(210)는 데이터(10)와 연관된 도메인들을 추천하기 위한 방법을 구현하기 위한 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(210)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(210)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(210)는 버스(240)를 통해 메모리(220)에 접속될 수 있다.

메모리(220)는 컴퓨터 시스템(200)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(220)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(220)는 컴퓨터 시스템(200)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(220)는 예를 들어, 데이터(10)와 연관된 도메인들을 추천하기 위한 방법의 수행을 위한 명령어들을 포함하는 컴퓨터 시스템(200)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(200)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(210)를 포함할 수 있다.

버스(240)는 컴퓨터 시스템(200)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(240)는 예를 들어, 컴퓨터 시스템(200)의 컴포넌트들 사이에서, 예를 들어, 프로세서(210)와 메모리(220) 사이에서 데이터를 운반할 수 있다. 버스(240)는 컴퓨터 시스템(200)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(230)는 (예를 들어, 메모리(220)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(200)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(230)는 컴퓨터 시스템(200) 내의 프로세서(210)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(230)는 예를 들어, 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

전술된 머신러닝 모델(100)은 메모리(220) 또는 영구 저장 장치(230) 내에서 구현되어 있을 수 있다. 또는, 이러한 머신러닝 모델(100)은 컴퓨터 시스템(200)의 외부에 존재하는 다른 컴퓨터 시스템 상에서 구현되어 있을 수 있다.

입출력 인터페이스(250)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다.

네트워크 인터페이스(260)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(260)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다.

또한, 다른 실시예들에서의 컴퓨터 시스템(200)은 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요는 없다. 예를 들어, 컴퓨터 시스템(200)은 상술한 입출력 인터페이스(250)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

이러한 컴퓨터 시스템(200)을 통해 구현되는 실시예들을 통해서는, 업종 별로 수집된 데이터(10)에 대해 해당 데이터(10)와 연관된 도메인들 및 그 소분류에 해당하는 예시들이 자동으로 추천되어 제공될 수 있다.

이상 도 1을 참조하여 전술된 기술적 특징들에 대한 설명은 도 2에 대해서도 그대로 적용될 수 있는 바, 중복되는 설명은 생략한다.

후술될 상세한 설명에서, 컴퓨터 시스템(200)의 구성(예컨대, 프로세서(210))에 의해 수행되는 동작은 설명의 편의상 컴퓨터 시스템(200)에 의해 수행되는 동작으로 설명될 수 있다.

또한, 본 개시에서 "사전"이라는 용어는 "딕셔너리"와 혼용하여 사용될 수 있고, 특별히 구분하고 있지 않은 한 양자는 서로 대체되어 사용될 수도 있다.

도 3은 일 실시예에 따른 데이터와 연관된 도메인을 추천하는 방법을 나타내는 흐름도이다.

단계(310)에서, 컴퓨터 시스템(200)은 소정의 업종에 대한 데이터(10)를 수집할 수 있다. 예컨대, 컴퓨터 시스템(200)은 업종 별로 해당 업종에 대한 데이터(10)를 수집할 수 있다. 데이터(10)는 특정한 업종(예컨대, 업종 A)과 관련된 데이터로서, 업종 A에서 사용하는 용어나 단어를 데이터 항목으로서 포함할 수 있다.

단계(320)에서, 컴퓨터 시스템(200)은 수집된 데이터(10)를 전처리할 수 있다. 이러한 전처리의 작업은 수집된 데이터(10)를 후술될 딥러닝 모델(100)(즉, 머신러닝 모델(100))에의 적용에 적합하도록 가공하는 것일 수 있다.

단계(330)에서, 컴퓨터 시스템(200)은, 단계(320)에서의 전처리에 따라, 전처리된 데이터에 대해, 데이터(10)와 연관된 복수의 도메인들을 추천하기 위해 훈련된 딥러닝 모델(100)을 적용할 수 있다.

단계(340)에서, 컴퓨터 시스템(200)은, 단계(330)에서의 딥러닝 모델(100)에 대한 적용의 결과로서, 복수의 도메인들을 추천 도메인들(50)으로서 제공할 수 있다. 예컨대, 추천 도메인들(50)은 데이터(10)의 관리자의 요청에 따라 컴퓨터 시스템(200)의 화면에서 출력될 수 있다.

아래에서, 데이터(10)와 연관된 복수의 도메인들을 추천하기 위해 훈련된 딥러닝 모델(100)에 대해 보다 자세하게 설명한다.

전술한 것처럼, 딥러닝 모델(100)은 데이터(10)와 연관된 복수의 도메인들의 각 도메인의 소분류에 해당하는 적어도 하나의 예시를 결정(추론)하도록 훈련된 것일 수 있다. 이에 따라, 추천 도메인들(50)을 제공함에 있어서는, 추천되는 각 도메인에 포함되는 소분류에 해당하는 예시가 함께 제공될 수 있다.

딥러닝 모델(100)은 데이터(10)와 연관된 복수의 도메인들의 각 도메인의 소분류에 해당하는 적어도 하나의 예시를 결정하는 것을 통해, 해당 예시를 포함하는 각 도메인을 결정하도록 훈련된 것일 수도 있다. 예컨대, 딥러닝 모델(100)은 데이터(10)로부터 '주민등록번호' 및 '고객번호'와 같은 소분류의 예시들을 추론할 수 있고, 이와 같은 소분류의 예시들을 통해 도메인 "번호"를 추론할 수 있다.

또한, 컴퓨터 시스템(200)은, 딥러닝 모델(100)에 의한 추론의 정확도에 기반하여, 추천 도메인들(50)을 순위화하여 제공할 수 있다. 예컨대, 컴퓨터 시스템(200)은 딥러닝 모델(100)에 의한 추론의 정확도가 높은 것으로 결정된 상위 N개(예컨대, 5개)의 도메인들을 추천 도메인들(50)로서 제공할 수 있다. 컴퓨터 시스템(200)은 최상위의 정확도를 갖는 도메인을 화면의 가장 상단에서 출력할 수 있다.

단계(330)에서 사용되는 딥러닝 모델(100)은 예컨대, CNN 기반의 모델, RNN 기반의 모델 또는 강화 학습(Reinforcement Learning) 기반의 모델일 수 있다.

CNN 기반의 모델은, 합성곱 신경망(Convolutional Neural Network, CNN)을 사용하는 것으로서, 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 일종일 수 있다. CNN 기반의 모델은 하나 또는 복수의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어질 수 있고, 가중치와 통합 계층(pooling layer)들을 추가로 더 활용할 수 있다.

RNN 기반의 모델은, 순환 신경망을 이용하는 것으로서, 인공 신경망을 구성하는 유닛 사이의 연결이 directed cycle을 구성하는 신경망을 사용하는 모델일 수 있다. RNN 기반의 모델은 임의의 입력을 처리하기 위해 신경망 내부의 메모리를 활용할 수 있다.

강화 학습 기반의 모델은, 에이전트(agent)가 환경(environment)로부터 액션(action)을 취하며, 이에 따라 에이전트에 보상(reward)과 State(상태)가 주어지게 되고, 보상이 가장 크게 되도록 에이전트를 훈련시키는 모델일 수 있다. 강화 학습 기반의 모델은, 에이전트가 사전 지식을 가지고 있는지 여부에 따라, 모델 베이스(model-based) 알고리즘을 사용하는 모델 또는 모델 프리(model-free) 알고리즘을 사용하는 모델로 구분될 수 있다. 강화학습 기반 모델은 일례로, Deep Q-Network 및 Soft Actor Critics 모델에 기반하여 구현될 수 있다.

실시예에서는, 딥러닝 모델(100)로서, 강화 학습 기반의 모델(즉, 강화 학습에 기반하여 훈련된 모델)이 사용될 수 있다. 강화 학습 기반의 모델은 사용자(즉, 데이터(10)의 관리자)의 개입 없이 학습에 따라 지속적으로(또는 주기적으로) 업데이트될 수 있다.

이에 따라, 단계(350)에서, 컴퓨터 시스템(200)은 데이터(10)에 대한 딥러닝 모델(100)의 적용의 결과에 기반하여, 딥러닝 모델(100)을 업데이트할 수 있다. 예컨대, 컴퓨터 시스템(200)은 데이터(10)에 대해 결정된 추천 도메인(50)을 학습함으로써 업데이트될 수 있고, 추후의 추천 도메인(50)의 추론의 정확도를 보다 높이기 위해 업데이트될 수 있다.

또한, 딥러닝 모델(100)은 예컨대, 지도 학습(Supervised Learning)에 기반하여 훈련된 모델 또는 비지도 학습(Unsupervised Learning)에 기반하여 훈련된 모델일 수 있다.

딥러닝 모델(100)이 지도 학습에 기반하여 훈련된 모델인 경우, 딥러닝 모델(100)은 태깅된 데이터 항목들의 각각을 포함하는 훈련용 데이터에 기반하여 훈련된 모델일 수 있다.

딥러닝 모델(100)이 지도 학습에 기반하여 훈련된 모델인 경우, 전술된 단계(320)의 전처리 단계에 있어서, 데이터(10)는 태깅될 수 있다.

"태깅"은 데이터 태깅 또는 데이터 라벨링(data labeling)을 나타낼 수 있다. 데이터에 라벨을 지정하는 경우는, 딥러닝 모델(100)이 예측하고자 하는 답에 해당하는 대상을 표시하기 위해 데이터가 마크 업 또는 주석 처리되는 것일 수 있다. 딥러닝 모델(100)을 훈련되기 전에 이러한 라벨링이 수행될 수 있고, 딥러닝 모델(100)을 데이터 모델에 적용하는 시점에서는 데이터 태깅은 수행되지 않을 수 있다.

딥러닝 모델(100)을 구축함에 있어서, 딥러닝 모델(100)에 (훈련용) 데이터를 넣기 전에 데이터를 가공하고, 딥러닝 모델(100)을 보다 정확한 예측 모델로서 구현하기 위해 태깅 프로세스가 수행될 수 있다. 여기서 태깅은 데이터가 어떠한 도메인에 속하는 지를 표시하는 것, 즉, 일종의 정답을 같은 것을 태깅하는 것일 수 있고, 이에 따라, 훈련용 데이터를 통해, 보다 정확한 예측이 가능하게 되는 딥러닝 모델(100)이 구축될 수 있다.

단계(360)에서, 컴퓨터 시스템(200)은 추천 도메인(들)(50)으로서 제공되는 도메인들 외에, 사용자(즉, 관리자)가 데이터(10)에 대해 추가로 도메인을 입력할 수 있도록 하는 기능을 제공하는 사용자 인터페이스를 제공할 수 있다. 사용자 인터페이스는 도메인 뿐만아니라 도메인의 소분류에 해당하는 예시를 추가로 더 입력할 수 있도록 하는 기능을 더 제공할 수 있다.

따라서, 데이터(10)의 관리자는 제공된 추천 도메인들(50) 중 원하는 도메인이 추천이 되지 않을 경우, 도메인을 직접 설정할 수 있다. 따라서, 데이터(10)에 대한 도메인의 설정이 보다 정교하게 이루어질 수 있다.

실시예의 딥러닝 모델(100)의 훈련용 데이터에 해당하는 입력은 각 용어들/단어들과 그것의 해당하는 도메인이 서로 1 대 1로 라벨링(labeling)되어있는 데이터일 수 있다. 이를 통해, 텍스트 분류(Text Classification)가 가능한 모델이 구축될 수 있고, 가중치(weight)들이 훈련/학습될 수 있다. 이로서, 구축된 딥러닝 모델(100)은 특정한 텍스트가 어떠한 도메인(즉, 상위 도메인 및/또는 하위(소분류) 도메인)에 속하는지를 추론할 수 있고, 새로운 입력(도메인이 분류되지 않은 텍스트)에 대해, 해당 입력이 속하는 상위 5개의 도메인을 추론하여 제공할 수 있다. 사용자는 이들 중 입력에 대해 매칭되는 도메인을 선택할 수 있다.

전술된 11가지의 도메인에 제한되지 않고, 다양한 도메인들이 존재할 수 있다. 전술된 11가지의 도메인은 과학기술정부통신부와 한국데이터베이스진흥원에서 지정한 11가지의 도메인일 수 있다. 실시예에서는, 이러한 11가지의 도메인이 디폴트(default)로 설정될 수 있다. 또한, 필요에 따라 더 세부적인 도메인 분류가 이루어질 수 있다. 예컨대, 금융/카드/은행 업종에서는 11가지의 표준 도메인 이외에도 '번호'를 세분화 하여, 주민등록번호, 사업자등록번호, 종목번호, 전화번호 등과 같은 다른 도메인(소분류 도메인)을 세분화하여 관리할 수 있다. 또한, 유통업계에서는 '수량'이라는 도메인을 길이, 너비, 무게, 부피 등으로 세분화함으로써 물류에 대한 효율성을 증대시킬 수 있다.

소분류 도메인들은 대분류 도메인에 대해 맵핑될 수 있다. 즉, 전술된 소분류 도메인은 도메인 '수량' 또는 '번호'에 대해 맵핑될 수 있다. 이러한 맵핑에 의해 사용자는 필요에 따라 소분류의 도메인이 속하는 대분류 도메인을 확인할 수 있다. 즉, 실시예에서의 도메인의 분류는 각각의 소분류 도메인을 기준으로 이루어질 수 있고, 소분류 도메인과 대분류 도메인 간의 매핑의 결과가 별도로 저장되어 관리될 수 있다.

이상 도 1 및 도 2를 참조하여 전술된 기술적 특징들에 대한 설명은 도 3에 대해서도 그대로 적용될 수 있는 바, 중복되는 설명은 생략한다.

도 4는 일 실시예에 따른, 각 업종에 대한 데이터에 대해 도메인을 연관시켜 구축된 데이터 저장소 시스템들에 대해, 통합 데이터 저장소 관리 시스템을 구축하는 방법을 나타낸다.

단계(410)에서, 컴퓨터 시스템(200)은, 복수의 업종들의 각각에 대해, 각 업종의 데이터에 대한 추천 도메인들로서 제공된 도메인들 중 적어도 하나의 도메인을 각 업종에 대한 데이터의 속성으로서 결정할 수 있다. 이러한 결정은 제공된 추천 도메인들에 대한 관리자의 선택에 기반하여 이루어질 수 있다.

말하자면, 컴퓨터 시스템(200)은 전술된 데이터(10)에 대한 추천 도메인들(50)로서 제공된 도메인들 중 적어도 하나의 도메인을 해당 업종에 대한 데이터(10)의 속성으로서 결정할 수 있다. 또한, 컴퓨터 시스템(200)은 상기 업종과는 상이한 다른 업종에 대한 다른 데이터에 대해, 상기 단계들(310 내지 340)을 반복함으로써, 상기 다른 데이터와 연관된 (추천 도메인들 중) 적어도 하나의 도메인을 해당 다른 데이터의 속성으로서 결정할 수 있다.

단계(410)에 따라, 업종 별로 수집된 데이터에 대해, 수집된 데이터 별로 해당 데이터의 속성에 해당하는 도메인이 결정될 수 있다.

이 때, 업종 별로 수집된 데이터에 대한 데이터 저장소(data repository) 시스템은, 해당 데이터에 대해 결정된 데이터의 속성(즉, 결정된 도메인)이 매핑됨으로써 구축될 수 있다.

단계(420)에서, 컴퓨터 시스템(200)은, 이러한 각 업종의 데이터와 연관된 데이터 저장소 시스템에 대해, 통합 데이터 저장소 관리 시스템을 구축할 수 있다.

예컨대, 컴퓨터 시스템(200)은 일 업종에 대한 데이터와 상기 데이터의 속성이 매핑되어 구축된 해당 데이터에 대한 제1 데이터 저장소 시스템과, 다른 업종에 대한 다른 데이터와 상기 다른 데이터의 속성이 매핑되어 구축된 해당 다른 데이터에 대한 제2 데이터 저장소 시스템에 대한 통합 데이터 저장소 관리 시스템을 구축할 수 있다.

한편, 상기 업종에 대한 데이터 및 상기 다른 업종에 대한 다른 데이터는 모두 메타데이터일 수 있다. 제1 데이터 저장소 시스템 및 제2 데이터 저장소 시스템은 각각 통합 메타데이터 저장소(Meta Data Repository; MDR)일 수 있다.

통합 데이터 저장소 관리 시스템은 복수의 업종들의 각각에 대한 데이터를 통합적으로 관리하는 시스템일 수 있다. 통합 데이터 저장소 관리 시스템은 복수의 업종들의 각각에 대한 데이터에 대해 MRM(Multi Repository Management)을 가능하게 할 수 있다.

통합 데이터 저장소 관리 시스템과 복수의 업종들의 각각의 데이터에 대한 MRM에 대해서는 후술될 도 6 내지 도 11을 참조하여 더 자세하게 설명된다.

단계(420)을 통해 구축된 데이터 저장소 관리 시스템은, 데이터 저장소 시스템(MDR)(즉, 제1 데이터 저장소 시스템 및 제2 데이터 저장소 시스템에 대해) 추가적인 데이터를 수집할 수 있도록 하는 제1 기능과; 데이터 저장소 시스템(MDR)(즉, 제1 데이터 저장소 시스템 및 제2 데이터 저장소 시스템)에 대해 용어 또는 도메인을 정의할 수 있도록 하는 제2 기능과; 데이터 저장소 시스템(MDR)들과 표준들을 관리하기 위한 제3 기능을 제공할 수 있다.

통합 데이터 저장소 관리 시스템은, 제1 기능에 의해, 각 데이터 저장소 시스템에서 추가적인 데이터를 수집하도록 할 수 있다. 통합 데이터 저장소 관리 시스템은, 제2 기능에 의해, 각 데이터 저장소 시스템에 대해 추가적인 용어 또는 도메인을 정의할 할 수 있다.

이 때, 제3 기능은 상기 제1 데이터 저장소 시스템의 데이터와 연관된 제1 표준, 상기 제2 데이터 저장소 시스템의 다른 데이터와 연관된 제2 표준, 및 상기 데이터 및 상기 다른 데이터 둘 다와 연관된 제3 표준을 관리하는 기능일 수 있다.

여기서, 제1 표준은 제1 데이터 저장소 시스템과만 연관된 개별 표준일 수 있고, 제2 표준은 제2 데이터 저장소 시스템과만 연관된 개별 표준일 수 있다. 한편, 제3 표준은 제1 데이터 저장소 시스템 및 제2 데이터 저장소 시스템을 비롯한 모든 데이터 저장소 시스템들과 연관된 전사 표준이거나, 데이터 저장소 시스템들 중 (전부가 아닌) 적어도 2개의 시스템들과 연관된 부문 표준일 수 있다.

개별 표준은 특정한 데이터 저장소 시스템(즉, 해당 데이터 저장소 시스템의 데이터(일 업종의 데이터))에만 적용되는 표준일 수 있다. 전사 표준은 모든 데이터 저장소 시스템들(즉, 모든 데이터(모든 업종의 데이터))에 전사적으로 적용되는 표준일 수 있다. 부문 표준은 데이터 저장소 시스템들 중 (전부가 아닌) 적어도 2개의 시스템들에 대해서만 적용되는 표준일 수 있다.

예컨대, 개별 표준으로서의 제1 표준은 상기 제1 데이터 저장소 시스템의 데이터에 대해 특정된 정보를 포함하도록 구성될 수 있고, 개별 표준으로서의 제2 표준은 상기 제2 데이터 저장소 시스템의 다른 데이터에 대해 특정된 정보를 포함하도록 구성될 수 있다. 부문 표준 또는 전사 표준으로서의, 제3 표준은, 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 간에 공유되어야 하는 마스터 정보를 포함하도록 구성될 수 있다.

단계(430)에서, 컴퓨터 시스템(200)은 단계(410)에서 데이터의 속성으로서 결정된 도메인(즉, 상기 데이터의 속성으로서 결정된 도메인 및 상기 다른 데이터의 속성으로서 결정된 도메인의 각 도메인)이, 제1 표준, 제2 표준 및 제3 표준 중 어느 것에 해당하는지 여부를 판정할 수 있다. 말하자면, 컴퓨터 시스템(200)은 각 업종의 데이터에 대해 결정된 도메인이 개별 표준, 부문 표준 또는 전사 표준 중 어느 것에 해당하는 것인지 여부를 판정할 수 있다.

단계(440)에서, 컴퓨터 시스템(200)은 단계(430)에서의 판정의 결과에 따라 각 도메인을 (상기 각 도메인이 해당하는) 제1 표준, 제2 표준 및 제3 표준 중 어느 하나에 할당할 수 있다. 즉, 각 업종의 데이터에 대해 결정된 도메인은 개별 표준, 부문 표준 또는 전사 표준 중 어느 하나로 할당될 수 있다.

따라서, 각 업종의 데이터에 대해 결정된 도메인은 복수의 업종들의 데이터와 관련되어 매핑될 수 있다. 이러한 매핑 관계에 따라, 통합 데이터 저장소 관리 시스템을 통해 사용자는, 복수의 업종들의 데이터를 조회할 수 있다.

단계(410)에서, 각 업종의 데이터의 속성으로서 결정된 도메인들 중에서, 특정한 하나의 업종의 데이터의 속성에만 해당하는 것으로 결정된 도메인을 제1/제2 표준(즉, 개별 표준)에 해당하는 것으로 판정할 수 있고, 모두가 아닌 둘 이상의 업종의 데이터의 속성에 해당하는 것으로 결정된 도메인을 제3 표준 중 부문 표준에 해당하는 것으로 판정할 수 있고, 모든 업종의 데이터의 속성에 공통으로 해당하는 것으로 결정된 도메인을 제3 표준 중 전사 표준에 해당하는 것으로 판정할 수 있다.

구축된 데이터 저장소 관리 시스템은, 데이터 저장소 시스템들의 데이터와 연관된 단어, 용어 및 도메인(즉, 상기 데이터와 연관된 단어, 용어 및 도메인과, 상기 다른 데이터와 연관된 단어, 용어 및 도메인을 검색하기 위한 딕셔너리 기능을 제공할 수 있다. 딕셔너리 기능은 구축된 데이터 저장소 관리 시스템에 구축된 통합 딕셔너리에 의해 수행될 수 있다. 딕셔너리 기능은 단어, 용어 및 도메인 중 적어도 하나에 대한 검색 및 조회 기능을 제공할 수 있다.

구축된 데이터 저장소 관리 시스템에 의해 제공되는 딕셔너리 기능에 의해 단어, 용어 및/또는 도메인이 조회될 때, 조회되는 단어, 용어 및/또는 도메인에는 해당 단어, 용어 및/또는 도메인이 속하는 제1 표준, 제2 표준 및 제3 표준 중 어느 하나가 함께 조회될 수 있다.

말하자면, 딕셔너리 기능에 의해 조회되는 단어, 용어 또는 도메인이 조회되는 경우, 그것이 개별 표준, 전사 표준 및 부문 표준 중 어느 것에 해당하는지가 조회된 단어, 용어 또는 도메인에 함께 출력될 수 있다.

이상 도 1 내지 도 3을 참조하여 전술된 기술적 특징들에 대한 설명은 도 4에 대해서도 그대로 적용될 수 있는 바, 중복되는 설명은 생략한다.

도 5는 일 예에 따른, 데이터와 연관된 추천된 도메인을 출력하는 방법을 나타낸다.

도시된 것처럼, 데이터(10)와 연관된 추천 도메인들(50)로서 총 5개의 도메인들이 제공될 수 있다. 이러한 추천 도메인들(50)은 도시된 것처럼, 컴퓨터 시스템(200)의 화면(500) 상에 표시될 수 있다(510).

추천 도메인들(50)은 데이터(10)에 대한 정확도(즉, 관련도)의 순서대로 순위화되어 출력될 수 있다. 또한, 추천 도메인들(50)의 각각은 그 소분류에 해당하는 예시를 더 포함하여 출력될 수 있다.

도시된 예시에서는, 1순위의 추천 1로는 도메인 '번호'와 소분류 '전화번호'가 출력되었고, 2순위의 추천 2로는 도메인 '번호'와 소분류 '고객번호'가 출력되었고, 3순위의 추천 3으로는 도메인 '번호'와 소분류 '사무실번호'가 출력되었고, 4순위의 추천 4로는 도메인 '코드'와 소분류 '개별'이 출력되었고, 5순위의 추천 5로는 도메인 '번호'와 소분류 '계좌번호'가 출력되었다.

사용자는, 추천된 도메인 및 그 소분류의 예시를 참조하여, 이들 중 데이터(10)의 속성에 가장 부합하는 도메인을 선택할 수 있다. 또는, 컴퓨터 시스템(200)은 추천 1에 해당하는 도메인을 데이터(10)의 속성에 가장 부합하는 도메인으로서 자동으로 선택할 수도 있다.

컴퓨터 시스템(200)은, 사용자가 도메인을 추가할 수 있도록 하는 사용자 인터페이스를 제공할 수 있고, 이에 따라, 사용자는 추천 1 내지 5 중 적절한 도메인이 없는 경우, 추천 1 내지 5를 참조하여 새로운 도메인을 입력할 수 있다.

이상 도 1 내지 도 4를 참조하여 전술된 기술적 특징들에 대한 설명은 도 5에 대해서도 그대로 적용될 수 있는 바, 중복되는 설명은 생략한다.

도 6은 일 예에 따른, 통합 데이터 저장소 관리 시스템을 구축하고, 구축된 통합 데이터 저장소 관리 시스템을 통해 데이터를 조회하는 방법을 나타낸다.

도시된 A 시스템, B 시스템 및 C 시스템의 각각은 전술된 데이터 저장소 시스템에 대응할 수 있다. 즉, A 시스템, B 시스템 및 C 시스템의 각각은 업종(기업/계열사) 별 데이터에 대한 데이터 저장소 시스템일 수 있다.

A 시스템, B 시스템 및 C 시스템의 각각의 데이터의 데이터 항목들은 데이터 표준 사전에 매핑될 수 있다. 예컨대, 각 시스템의 데이터에 포함된 용어, 단어 및 도메인 중 적어도 하나는 표준 사전에 매핑되어 있을 수 있다.

또한, 각 시스템과 연관된 표준 사전은 통합 표준 사전에 대해 매핑될 수 있다. 통합 표준 사전은 A 시스템, B 시스템 및 C 시스템을 관리하는 기업들/계열사들을 통합 관리하는 그룹의 표준 사전일 수 있다. 각 시스템과 연관된 표준 사전은, 해당 표준 사전에 포함된 용어, 단어 또는 도메인이 개별/부문/전사 표준(또는 용어)에 해당하는지가 결정됨으로써, 통합 표준 사전에 매핑될 수 있다.

통합 표준 사전의 사용자는 통합 표준 사전을 조회함으로써 각 시스템과 연관된 표준 사전에 포함된 데이터를 조회할 수 있다.

이상 도 1 내지 도 5를 참조하여 전술된 기술적 특징들에 대한 설명은 도 6에 대해서도 그대로 적용될 수 있는 바, 중복되는 설명은 생략한다.

아래에서는, 빅데이터에 해당하는 전술된 데이터(10)에 대해 딥러닝 모델(100)을 사용하여 데이터(10)와 연관된 도메인을 추천하는 방법에 대해 더 자세하게 설명한다.

전술한 것처럼, 실시예를 통해서는, 딥러닝 모델(100)을 사용하여 데이터에 대해 도메인을 순위화하여 추천할 수 있고, 데이터(10)의 업종 별로 도메인을 추천할 수 있다. 이에 따라, 관리자가 데이터(10)에 포함된 용어에 대한 도메인을 일일이 찾아 설정할 필요가 없게 되며, 데이터 관리의 직관성이 높아지며 데이터의 품질 또한 향상될 수 있다.

[도메인]

도메인은 속성에서 정의된 조건을 만족시키는 값의 범위를 나타낼 수 있다. 예컨대, 도메인은 11가지(번호, 금액, 명칭, 수량, 분류, 날짜, 비율, 내용, 코드, 키, 공통)로 분류될 수 있다. 실시예의 딥 러닝 모델(100)은 데이터(10)로부터 이러한 도메인 뿐만아니라 그 소분류인 예시까지도 분류할 수 있다.

[머신러닝을 활용한 도메인 자동 판별]

데이터(10)로부터 도메인을 분류하기 위해서는, 머신러닝에 기반한 방법이 사용될 수 있다. 예컨대, 전처리된 데이터를 활용하여 파생변수를 정의하고 최근접 이웃 알고리즘, 의사결정 트리, 랜덤 포레스트, 서포트 벡터 머신을 활용하여 도메인을 분류할 수 있다. 또는, 전처리 되지 않은 데이터를 활용하여 파 변수를 정의한 후 랜덤 포레스트 알고리즘을 활용함으로써 도메인을 분류할 수도 있다.

실시예의 딥 러닝 모델(100)은 데이터(10)로부터 이러한 도메인 뿐만아니라 그 소분류인 예시까지도 분류할 수 있고, 따라서, 관리자 도메인 및 그 예시를 따로 입력할 필요가 해소될 수 있다.

아래 표 1은 도메인 및 그 소분류에 해당하는 예시의 일례를 나타낸다.

[표 1]

[도메인 추천 시스템]

실시예의 추천 시스템(전술된 컴퓨터 시스템(200))을 통해서는, 관리자가 도메인을 메뉴에 들어가 일일이 도메인을 설정할 필요 없이, 딥러닝 모델(100)을 활용하여 가장 확률이 높은, 일례로, 5 개의 도메인을 추천 받을 수 있다.

[시스템 처리과정]

도메인을 추천하기 위한 시스템을 구현하기 위해서는, 먼저, 앞서 도 3을 참조하여서도 설명한 것처럼, 업종 별로 데이터(10)를 수집해야 할 수 있다. 데이터(10)는 업종 별로 사용하는 용어 및/또는 단어와, 그것과 맵핑된 도메인을 포함할 수 있다. 사용되는 용어나 단어의 의미는 업종마다 다를 수 있으므로, 이를 구분을 하지 않고 통합하여 사용할 경우에는, 잘못된 도메인 추천이 이루어질 수 있다. 따라서, 데이터는 업종 별로 수집될 수 있다.

수집된 데이터(10)는 전처리되어야 할 수 있다. 또한, 사용되는 딥러닝 모델(100)에 따라 태깅(tagging)이 수행될 수 있다. 딥러닝 모델(100)이 지도 학습 기반의 모델인 경우, 딥러닝 모델을 훈련시키기 위해서는 반드시 태그(tag)가 필요할 수 있다. 딥러닝 모델(100)이 비지도학습 기반의 모델인 경우, 데이터를 여러 개의 그룹으로 나누어 주는 작업만 수행하면 되므로, 태깅은 필요하지 않을 수 있다.

데이터(10)에 대한 전처리는, 아래 표 2에서 정의된 것처럼, 데이터 정제, 데이터 통합, 데이터 정리, 데이터 변환을 포함할 수 있다.

[표 2]

그 다음으로, 전처리된 데이터에 대해 딥러닝 모델(100)을 적용할 수 있다. 딥러닝 모델(100)의 적용 단계에서는, 다양한 딥러닝 알고리즘을 훈련(training)을 시켜본 후 가장 정확도가 높은 추천을 해주는 알고리즘을 선별하여 딥러닝 모델(100)에 적용하여 사용할 수 있다. 예컨대, 최근접 알고리즘, 랜덤 포레스트, 서포트 백터 머신, 순환신경망, 합성곱 신경망이 사용될 수 있다.

이러한 딥러닝 모델(100)에의 적용 결과에 따라, 추천 도메인들(50)을 결정하여 제공할 수 있다.

[실시예의 도메인 추천 시스템의 장점]

분류 정확도를 고려하여, 실시예에서는, Top 1 accuracy 또는 Top 5 accuracy를 갖는 추천 도메인들을 결정하여 제공할 수 있다. Top 1 accuracy는 확률이 가장 높은 것을 제시하는 것이며, Top 5 accuracy는 상위 5개의 결과를 제시하는 것일 수 있다. 추천 시스템의 경우 하나의 도메인을 추천하기 보다는, 복수(예컨대, 5개)의 도메인을 추천하는 것이 보다 효과적일 수 있다.

실시예에서는, 추천 도메인들(50) 중 관리자가 원하는 도메인이 존재하지 않는 경우, 관리자가 직접 도메인을 설정할 수 있다. 따라서, 도메인 자동 추천 시스템의 오류율이 한층 더 저감될 수 있다.

종래의 시스템의 경우, 사용자가 용어를 제시한 후 도메인을 관리자가 설정해야 하지만, 실시예에서는, 도 5를 참조하여 전술한 것처럼, 5개의 추천 도메인들(50)이 제시됨으로써 이들 중 적적한 도메인을 관리자가 선택할 수 있다. 따라서, 관리자의 편리성과 데이터(10)의 품질의 향상이 도모될 수 있다.

아래에서는 도 7 내지 도 11을 참조하여, 통합 데이터 저장소 관리 시스템과, 이러한 통합 데이터 저장소 관리 시스템을 사용하여 복수의 업종들의 데이터에 대한 MRM을 수행하는 방법에 대해 더 자세하게 설명된다.

(복수의 업종들을 갖는) 기업은, 사업부문의 확장 또는 개별 법인의 신설 등이 있는 경우, 독립적인 사업 운영을 전제로 하는 바, 이에 따라 정보화 역시 개별적으로 추진되는 경우가 일반적이다.

또한, 조직 내에 다양한 업종들을 보유하고 있거나, 물리적으로 분리된 상태로 존재하는 데이터 저장소 시스템들 또는 그룹사와 계열사 간의 표준의 공유 및 데이터 공동 활용을 위해서는 각각의 분산된 메타 데이터 공유 대상에 대한 통합적인 관리가 필요하다. 또한, 업무의 특성상 발생하는 다중 표준과, 그룹사 및 계열사들 간의 표준 공유를 위하여 각 조직 별(또는 업종 별) 표준을 기준으로 분산되어 있는 메타데이터 관리 시스템 간의 데이터 호환성을 확보해야 할 필요가 있다.

관련하여, MRM(Multi Repository Management)은 그룹 산하의 개별 계열사들(또는 업종들) 간의 다중 표준을 토대로, 그룹사와 계열사간 데이터 공유를 위한 그룹사의 표준을 정의하고 그룹 표준(Global Standard)을 기준으로 각 개별 표준(Local Standard) 간의 매핑 또는 포함 관계를 관리하는 것을 의미할 수 있다. 다시 말해, MRM은 업종이 다른 업무의 특성에 따라 관리되는 회사 별 메타데이터를 하나의 통합 저장소로서 관리하고, 개별적인 메타 데이터 별 개별 표준을 작성하고 그룹 표준과 개별 표준간 구조적 관계를 지속적으로 관리하는 것을 의미할 수 있다.

이를 해결하기 위해서는 통합 메타데이터 저장소(MDR: Meta Data Repository)를 기반으로, 각각의 메타데이터에 존재하는 표준 간에 상호 관계를 정하고, MRM을 통해, 표준이 서로 다른 시스템 간의 데이터 공유에 있어서, 상호 운용성을 확보해야 할 수 있다.

MRM을 제공하는 통합 데이터 저장소 관리 시스템의 주요 기능은 다중 메타 데이터를 하나의 통합 저장소에서 수집할 수 있도록 하는 기능과; 각 데이터 저장소 시스템 별 표준 사전 정의 및 개별 매핑 기능과; 개별 메타데이터 별 표준 사전(단어, 용어, 도메인)을 정의, 적재시키는 기능과; 다중 표준간 구조 및 관계 관리(전사/부문/개별 표준의 정의 및 관계 설정) 기능을 포함할 수 있다.

[MRM의 개념]

산업계는 업종별로 특성을 가질 수 있다. 예컨대, 제조업은 생산 라인별로, 금융은 지주사를 중심으로, 행정기관인 경우는 본청을 중심으로 지방청과 산하기관이 존재할 수 있다. 이들 각각에 대해서는 별개의 IT시스템이 적용될 수 있고, 이와 관련된 데이터(메타 데이터)는 각각 별개로 관리되는 경우가 많다.

MRM은 이러한 업종별 메타데이터를 통합적으로 관리하는 것일 수 있다.

또한, MRM은, MDR에 대해, MDR들 간의 표준, 기준 정보 및 기타 메타데이터의 동기화를 수행할 수 있도록 하는 것일 수 있다.

도 7은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템을 사용하여 각 업종에 대한 데이터를 통합 및 연결하는 방법을 나타낸다.

도 7에서는, 통합 데이터 저장소 관리 시스템(700)이 도시되었고, MDR1 내지 3의 각각은 전술된 데이터 저장소 시스템에 대응할 수 있다.

도시된 것처럼 데이터 저장소 시스템(즉, MDR1 내지 3)에 포함된 단어, 용어 및/또는 도메인(예컨대, 전술된 컴퓨터 시스템(200)에 의해 추천된 도메인)은, 통합 데이터 저장소 관리 시스템(700)의 통합 MDR에서 전사 표준, 부분 표준 또는 개별 표준에 할당될 수 있다. 이에 따라, 통합 데이터 저장소 관리 시스템(700)을 통해, MDR1 내지 3의 데이터에 대한 통합적인 조회 및 접근과, 표준 관리가 가능하게 될 수 있다.

도 8은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템에서 정의되는 용어/도메인/표준의 분류 체계를 나타낸다. 도시된 A사 내지 C사 메타데이터 시스템은 전술된 데이터 저장소 시스템에 대응할 수 있다.

도 9 및 도 10은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템을 사용하여 개별/부문/전사 표준을 관리하는 방법을 나타낸다.

도시된 것처럼, 각 데이터 저장소 시스템에서 정의되어 있는 표준 용어와 표준 도메인은 통합 데이터 저장소 관리 시스템에 의해 전사 표준(용어), 부문 표준(용어) 또는 개별 표준(용어)에 할당될 수 있다.

도 10에서 도시된 것처럼, MDR 1 내지 4의 표준 (한글) 단어 각각은 전사 표준, 부문 표준, 또는 개별 표준에 해당하는 것으로서 식별될 수 있다. 또한, 수집된 메타데이터 중 용어 기준으로 분할된 단어와 용어에 해당하는 도메인(타입, 자릿수) 역시 전사 표준, 부문 표준, 또는 개별 표준에 해당하는 것으로서 식별될 수 있다.

도 11은 일 예에 따른, 구축된 통합 데이터 저장소 관리 시스템을 사용하여 구현되는 통합 딕셔너리를 나타낸다.

도시된 것처럼, 구축된 통합 데이터 저장소 관리 시스템에는 통합 딕셔너리(1100)가 구축될 수 있다. 통합 딕셔너리에는, 개별적인 데이터 저장소 시스템에서 구현된 데이터 딕셔너리 또는 표준 사전이 매핑되어 있을 수 있다.

통합 딕셔너리(1100)에는 용어, 단어 및 도메인이 정의되어 있을 수 있다. 또한, 각 용어에 대해 해당 용어가 전사 용어에 해당하는지, 부문 용어에 해당하는지, 개별 용어에 해당하는지가 정의되어 있을 수 있다. 또한, 통합 딕셔너리(1100)에는 (개별적인 데이터 저장소 시스템들과 연관된) 표준들 간의 구조 체계가 정의되어 있을 수 있다. 또한, 통합 딕셔너리(1100)에는 용어에 대한 체계 역시 정의되어 있을 수 있다.

통합 데이터 저장소 관리 시스템은 각 기관(각 데이터 저장소 시스템)에서 수집한 데이터에 기반한 데이터 딕서너리와 각 기관의 표준 사전정보를 수집할 수 있다. 또한, 통합 데이터 저장소 관리 시스템은 상기 표준 사전과 메타 정보를 연결한 매핑 정보를 수집할 수 있다. 통합 데이터 저장소 관리 시스템은, 표준 사전이 존재하지 않는 경우 없는, 표준 사전을 신규로 작성하여 매핑을 수행할 수 있다. 이에 따라, 통합 데이터 저장소 관리 시스템은 통합 딕셔너리(1100)를 구축할 수 있다.

통합 딕셔너리(1100)를 구성함에 있어서, 각 용어에 대하여 전사/부문/개별 표준(용어) 여부를 판정하여, 해당 용어에 적시해 둘 수 있다.

이상 도 1 내지 도 6을 참조하여 전술된 기술적 특징들에 대한 설명은 도 7 내지 도 11에 대해서도 그대로 적용될 수 있는 바, 중복되는 설명은 생략한다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템에 의해 수행되는, 데이터의 도메인을 추천하는 방법에 있어서,
소정의 업종에 대한 데이터를 수집하는 단계;
상기 수집된 데이터를 전처리하는 단계;
상기 전처리된 데이터에 대해, 상기 데이터와 연관된 복수의 도메인들을 추천하기 위해 훈련된 딥러닝 모델을 적용하는 단계; 및
상기 데이터에 대한 상기 딥러닝 모델에 대한 적용의 결과로서, 상기 복수의 도메인들을 추천 도메인으로서 제공하는 단계
를 포함하고,
상기 추천 도메인으로서 제공되는 도메인들 중 적어도 하나의 도메인을 상기 업종에 대한 데이터의 속성으로서 결정하는 단계;
상기 업종과는 상이한 다른 업종에 대한 다른 데이터에 대해, 상기 수집하는 단계, 상기 전처리하는 단계, 상기 제공하는 단계, 및 상기 결정하는 단계를 반복함으로써, 상기 다른 업종에 대한 다른 데이터와 연관된 적어도 하나의 도메인을 상기 다른 업종에 대한 다른 데이터의 속성으로서 결정하는 단계; 및
상기 업종에 대한 데이터와 상기 데이터의 속성이 매핑되어 구축된 상기 데이터에 대한 제1 데이터 저장소 시스템과, 상기 다른 업종에 대한 다른 데이터와 상기 다른 데이터의 속성이 매핑되어 구축된 상기 다른 데이터에 대한 제2 데이터 저장소 시스템에 대한 통합 데이터 저장소(Data Repository) 관리 시스템을 구축하는 단계
를 더 포함하고,
상기 업종에 대한 데이터 및 상기 다른 업종에 대한 다른 데이터는 메타데이터이고,
상기 통합 데이터 저장소 관리 시스템은, 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 시스템에 대해 추가적인 데이터를 수집하는 제1 기능과, 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 시스템에 대해 용어 또는 도메인을 정의하도록 하는 제2 기능과, 상기 데이터와 연관된 제1 표준, 상기 다른 데이터와 연관된 제2 표준, 및 상기 데이터 및 상기 다른 데이터 둘 다와 연관된 제3 표준을 관리하는 제3 기능을 제공하고,
상기 제1 표준은 상기 제1 데이터 저장소 시스템과 연관된 개별 표준이고,
상기 제2 표준은 상기 제2 데이터 저장소 시스템과 연관된 개별 표준이고,
상기 제3 표준은 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 시스템과 연관된 전사 표준 또는 부문 표준인, 데이터의 도메인을 추천하는 방법.
삭제
제1항에 있어서,
상기 딥러닝 모델은 지도 학습(Supervised Learning)에 기반하여 훈련된 모델로서, 태깅된 데이터 항목들의 각각을 포함하는 훈련용 데이터에 기반하여 훈련된 모델인, 데이터의 도메인을 추천하는 방법.
제1항에 있어서,
상기 딥러닝 모델은 강화 학습(Reinforcement Learning)에 기반하여 훈련된 모델이고,
상기 데이터에 대한 상기 딥러닝 모델의 적용의 결과에 기반하여, 상기 딥러닝 모델을 업데이트하는 단계
를 더 포함하는, 데이터의 도메인을 추천하는 방법.
제1항에 있어서,
상기 추천 도메인으로서 제공되는 도메인들 외에, 사용자가 상기 데이터에 대해 추가로 도메인을 입력할 수 있도록 하는 기능을 제공하는 사용자 인터페이스를 제공하는 단계
를 더 포함하는, 데이터의 도메인을 추천하는 방법.
삭제
제1항에 있어서,
상기 데이터의 속성으로서 결정된 도메인 및 상기 다른 데이터의 속성으로서 결정된 도메인의 각 도메인이, 상기 제1 표준, 상기 제2 표준 및 상기 제3 표준 중 어느 것에 해당하는지 여부를 판정하는 단계; 및
상기 판정의 결과에 따라 상기 각 도메인을 상기 제1 표준, 상기 제2 표준 및 상기 제3 표준 중 어느 하나에 할당하는 단계
를 더 포함하는, 데이터의 도메인을 추천하는 방법.
제7항에 있어서,
상기 판정하는 단계는,
상기 데이터의 속성으로서 결정된 도메인 및 상기 다른 데이터의 속성으로서 결정된 도메인 중에서,
상기 데이터의 속성에만 해당하는 것으로 결정된 도메인을 상기 제1 표준에 해당하는 것으로 판정하고,
상기 다른 데이터의 속성에만 해당하는 것으로 결정된 도메인을 상기 제2 표준에 해당하는 것으로 판정하고,
상기 데이터의 속성 및 상기 다른 데이터의 속성에 공통으로 해당하는 것으로 결정된 도메인을 상기 제3 표준에 해당하는 것으로 판정하는, 데이터의 도메인을 추천하는 방법.
제7항에 있어서,
상기 통합 데이터 저장소 관리 시스템은,
상기 데이터와 연관된 단어, 용어 및 도메인과, 상기 다른 데이터와 연관된 단어, 용어 및 도메인을 검색하기 위한 딕셔너리 기능을 제공하고,
상기 딕셔너리 기능에 의해 단어, 용어 또는 도메인이 조회될 때, 상기 조회되는 단어, 용어 또는 도메인에는 상기 단어, 용어 또는 도메인이 해당하는 상기 제1 표준, 상기 제2 표준 및 상기 제3 표준 중 어느 하나가 함께 조회되는, 데이터의 도메인을 추천하는 방법.
제1항에 있어서,
상기 제1 표준은 상기 데이터에 특정된 정보를 포함하도록 구성되고,
상기 제2 표준은 상기 다른 데이터에 특정된 정보를 포함하도록 구성되고,
상기 제3 표준은 상기 제1 데이터 저장소 시스템 및 상기 제2 데이터 저장소 간에 공유되어야 하는 마스터 정보를 포함하도록 구성되는, 데이터의 도메인을 추천하는 방법.