KR101969531B1

KR101969531B1 - 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법

Info

Publication number: KR101969531B1
Application number: KR1020170150724A
Authority: KR
Inventors: 정병준; 임준원; 민윤홍; 안유리; 원인호; 권소연; 이진영
Original assignee: 주식회사 뉴스젤리
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2019-04-16

Abstract

본 발명의 일 실시예는 컴퓨터 시스템 내에서 구현되는 방법으로서, (a) 복수의 데이터를 불러오고 사용자의 입력을 받아 시각화의 대상이 되는 데이터 집단이 선택되는 데이터 집단 선택 단계; (b) 상기 데이터 집단에서 데이터의 필드 정보를 획득하는 데이터 필드 정보 획득 단계; (c) 상기 데이터 집단에서 데이터의 필드에 대해 통계 요소를 계산하는 데이터 필드 통계 단계; (d) 상기 데이터 필드 정보 및 상기 통계 요소 중 어느 하나 이상에 기초하여 상기 데이터 집단 내에 존재하는 필드간 계층 (hierarchy) 정보에 관한 메타 데이터를 생성하는 계층정보 파악 단계; (e) 상기 메타 데이터를 사용자가 시각적으로 인식할 수 있도록 그래피컬한 아웃풋을 생성하고 상기 컴퓨터 시스템을 통해 표현하는 계층정보 표시 단계를 포함하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 제공한다.

Description

데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법 {METHOD ABOUT AUTOMATICALLY EXTRACTING AND VISUALIZING HIERARCHICAL INFORMATION WITHIN A DATA COLLECTION}

본 발명은 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법에 관한 것으로, 더욱 상세하게는 데이터 집단에 대한 분석을 통해 데이터 집단 내에 존재하는 데이터 간의 계층정보를 자동으로 추출하고 이를 사용자가 시각적으로 인식할 수 있는 그래피컬한 아웃풋을 생성하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법에 관한 것이다.

최근 다양한 분야에서 복잡한 데이터 처리 시스템 (Data Processing System) 을 사용하는데, 이러한 데이터 처리 시스템은 데이터에 대한 일련의 조작을 행하기 위해 컴퓨터 시스템을 통해 입력 (input), 처리 (processing), 출력 (output) 및 통신 (communication) 등의 작업을 수행할 수 있다.

많은 데이터 처리 시스템에서, 데이터는 데이터 베이스 파일, 운영체제, 플랫 파일(flat file), 인터넷, 기타의 여러 가지 많은 데이터 소스로부터 중앙 보존부(central repository)에 불러들여 진다.

종종, 데이터는 데이터 시스템에 로딩되기 전에 변형된다. 변형은 클렌징(cleansing), 통합(integration), 추출 (extraction) 을 포함할 수 있다. 데이터의 경로, 데이터 소스들 및 데이터 시스템에 저장된 데이터의 경로를 보전하기 위하여, 메타 데이터(metadata)가 사용될 수 있다. 메타 데이터(“데이터에 관한 데이터”라고도 함)는 다른 데이터의 속성, 포맷, 근원, 이력, 상호 관계, 기타를 기술하는 데이터이다. 메타 데이터 관리는 복잡한 데이터 관리 시스템에서 중심적인 역할을 한다.

정보 처리 사회에서 이러한 데이터 처리/관리 시스템의 중요성이 부각됨에 따라, 관련 기술이 급속도로 개발되고 있는데, 현재까지는 주로 데이터 집단 전체 또는 특정 영역 자체의 정리나 바 (bar) 차트, 라인 (line) 차트, 스캐터 (scatter) 차트, 워드 클라우드 (word cloud), 트리맵 (tree map) 등을 활용한 데이터 집단 자체의 시각화가 주를 이루고 있다.

그러나, 데이터 분석과 활용이 점차 심화되고 있는 추세에서, 데이터 베이스 사용자는 어떠한 데이터가 다른 데이터 소스로부터 어떻게 유도되는 지를 조사하기 원할 수 있다.

예를 들어, 데이터 베이스 사용자는 어떻게 데이터 집합 또는 데이터 객체가 생성되었는지 또는 어느 소스로부터 데이터 집합 또는 데이터 객체가 도입되었는지 알기를 원할 수 있다.

데이터 집합이 유도된 소스로부터 데이터 집합을 추적하는 것은 데이터 계보 추적(data lineage tracing)[또는 “업스트림 데이터 계보 추적(upstream data lineage tracing)”]이라고 불린다.

때때로 데이터 베이스 사용자는 어떤 데이터가 어떻게 사용되었는지[“다운스트림 데이터 계보 추적(downstream data lineage tracing)” 또는 “임팩트 분석(impact analysis)”이라고 함] 조사하기를 원하는데, 예를 들어 어떤 애플리케이션이 주어진 데이터 집합을 판독하였는지와 같은 경우이다.

데이터 베이스 사용자는 또한 어떻게 데이터 집합이 다른 데이터 집합에 관련되어 있는지를 알고 싶어할 수 있다. 예를 들어, 사용자는 데이터 집합이 변형된 경우, 어떤 테이블이 영향을 받을 것인지를 알고 싶어할 수 있다.

그러나, 현재로서는 데이터 집단 자체의 분석을 통해 데이터 계보 추적이나 데이터간의 관계 및 관련성을 제시할 수 있는 시스템은 전무한 실정이다.

즉, 선행기술에서와 같이 데이터의 분류나 관계에 관한 정보를 사용자로부터 입력 받고, 이를 바탕으로 데이터 재분류를 수행하는 시스템 또는 방법은 존재하지만, 이러한 기술에 의하면 결국 데이터 계보 추적, 관계 및 관련성 분석은 결국 사용자의 판단과 지식에 크게 의존하는 것에 불과하여 데이터 계층 정보 (hierarchy) 나 관계 정보를 자동으로 추출하고 분석하여 이를 사용자가 시각적으로 일견에 파악할 수 있도록 제시해 줄 수는 없다.

따라서, 데이터 집단 정보만을 가지고, 데이터 집단 내부에 존재하는 데이터 간의 계층정보를 자동으로 추출하고 이를 사용자가 시각적으로 인식할 수 있는 그래피컬한 아웃풋을 생성하는 방법 또는 이에 관한 시스템이 절실히 필요하다.

한국 공개특허공보 제 10-2014-0114559 호 (2014년09월29일)

본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 데이터 집단에 대한 분석을 통해 데이터 집단 내에 존재하는 데이터 간의 계층정보를 자동으로 추출하고 이를 사용자가 시각적으로 인식할 수 있는 그래피컬한 아웃풋을 생성하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 제공하는 것이다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면은 컴퓨터 시스템 내에서 구현되는 방법으로서, (a) 복수의 데이터를 불러오고 사용자의 입력을 받아 시각화의 대상이 되는 데이터 집단이 선택되는 데이터 집단 선택 단계; (b) 상기 데이터 집단에서 데이터의 필드 정보를 획득하는 데이터 필드 정보 획득 단계; (c) 상기 데이터 집단에서 데이터의 필드에 대해 통계 요소를 계산하는 데이터 필드 통계 단계; (d) 상기 데이터 필드 정보 및 상기 통계 요소 중 어느 하나 이상에 기초하여 상기 데이터 집단 내에 존재하는 필드간 계층 (hierarchy) 정보에 관한 메타 데이터를 생성하는 계층정보 파악 단계; (e) 상기 메타 데이터를 사용자가 시각적으로 인식할 수 있도록 그래피컬한 아웃풋을 생성하고 상기 컴퓨터 시스템을 통해 표현하는 계층정보 표시 단계를 포함하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 제공한다.

일 실시예에 있어서, 상기 데이터 필드 정보 획득 단계는, 특정 필드에 부여된 필드의 속성값을 추출함으로써 필드 정보를 획득하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법일 수 있다.

일 실시예에 있어서, 상기 데이터 필드 통계 단계는, 특정 필드에 대한 상기 속성값에 따라, 상기 속성값이 수치형 변수인 경우에는 수치 통계값을 도출하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법일 수 있다.

일 실시예에 있어서, 상기 데이터 필드 통계 단계는, 특정 필드에 대한 상기 속성값에 따라, 상기 속성값이 범주형 변수인 경우에는 데이터 분류를 통해 데이터 빈도 통계값을 도출하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법일 수 있다.

일 실시예에 있어서, 상기 데이터 필드 통계 단계는, 데이터 집단 내의 제 1 필드와 제 2 필드에 대해, 관계 분석을 통해 필드간 통계 모델을 도출하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법일 수 있다.

일 실시예에 있어서, 상기 계층정보 파악 단계는, 상기 데이터 필드 정보 및 상기 통계 요소 중 어느 하나 이상에 존재하는 계층 관계에 관한 정보를 추출하는 예비계층정보 추출 단계와, 상기 예비계층정보와 내재된 계층정보 모델을 비교함으로써 데이터 집단 내 계층정보를 최종적으로 결정하는 계층정보 확정 단계를 포함하여 데이터 집단 내에 존재하는 필드간 계층정보에 관한 메타 데이터를 생성하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법일 수 있다.

일 실시예에 있어서, 상기 계층정보 파악 단계는, 상기 데이터 필드 정보 및 상기 통계 요소 중 어느 하나 이상에 관한 클러스터링을 통해 그룹핑 된 데이터 노드를 생성하고, 상기 데이터 노드가 갖는 형식을 정의한 내부 스키마 정보에 기초하여 상기 데이터 노드간의 상하 위계를 결정함으로써 데이터 집단 내에 존재하는 필드간 계층정보에 관한 메타 데이터를 생성하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법일 수 있다.

일 실시예에 있어서, 상기 계층정보 표시 단계는, 상기 데이터 노드에 대해 사용자가 이용하는 의미정보인 외부 스키마 정보를 상기 내부 스키마 정보에 의해 결정된 상하 위계에 대응시키고, 상기 외부 스키마 정보의 상하 위계를 상기 메타 데이터로 하여 사용자가 시각적으로 인식할 수 있도록 그래피컬한 아웃풋을 생성하고 상기 컴퓨터 시스템을 통해 표현하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법일 수 있다.

본 발명의 일 측면에 따르면, 데이터 집단 내에 존재하는 데이터들 및/또는 필드들 사이의 상관관계, 위계 및 계층정보 등을 사용자의 단순 선택 동작만으로 그래피컬한 아웃풋의 형태로 시각화 할 수 있다.

나아가, 상기 그래피컬한 아웃풋 형태의 시각화 정보를 사용자가 직접 조작하고 변경할 수 있으며, 이를 통해, 데이터 집단의 구조를 일견에 파악하고 부가적인 조작을 수행할 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1 은 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 나타내는 순서도이다.
도 2 는 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 나타내는 순서도이다.
도 3 은 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 나타내는 순서도이다.
도 4 는 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 나타내는 순서도이다.
도 5 는 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 나타내는 개념도이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

실시예들은 컴퓨터 시스템의 운영 체제 상에서 실행되는 응용 프로그램과 연계하여 실행되는 일반적인 상황의 프로그램 모듈로 설명될 것이지만, 당업자라면, 측면들은 또한 다른 프로그램 모듈과 연계하여 구현될 수 있음을 알 수 있을 것이다.

일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 컴포넌트, 데이터 구조, 및 다른 유형의 구조를 포함한다. 또한, 당업자라면, 실시예들은 핸드헬드 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 또는 프로그램가능 소비자 전자기기, 미니컴퓨터, 메인프레임 컴퓨터, 및 이에 필적하는 컴퓨팅 디바이스를 포함하는 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 알 것이다. 실시예 들은 또한 통신 네트워크를 통해 링크되는 원격 프로세싱 장치에 의해 태스크들이 수행되는 분산형 컴퓨팅 환경에서도 실시될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 모두에 위치할 수 있다.

실시예들은 컴퓨터 구현 프로세스(방법), 컴퓨팅 시스템, 또는 컴퓨터 프로그램 제품 또는 컴퓨터 판독가능 매체와 같은 제조 물품으로 구현될 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 시스템에 의해 판독가능하고 컴퓨터 또는 컴퓨팅 시스템으로 하여금 예시적인 프로세스(들)를 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램을 인코딩하는 컴퓨터 저장 매체일 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 메모리 장치이다.

컴퓨터 판독가능 저장 매체는 예를 들어 휘발성 컴퓨터 메모리, 비휘발성 메모리, 하드 드라이브, 플래시 드라이브, 플로피 디스크 또는 콤팩트 디스크, 및 이에 필적하는 하드웨어 매체 중 하나 이상을 통해 구현될 수 있다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1 내지 4 는 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 나타내는 순서도이고, 도 5 는 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 나타내는 개념도이다.

도 1 내지 5 를 참조하면, 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법은 온라인 환경을 기반으로 하는 방법일 수 있다.

본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법이 온라인 환경을 기반으로 한다는 것은, 네트워크 (Network) 를 기반으로한 인터넷 환경에서 구현된다는 것을 의미할 수 있다.

네트워크는 유선 및 무선 등과 같은 그 네트워킹 양태를 가리지 않고 구성될 수 있다. 예를 들어, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있으며, 바람직하게 본 발명에서 말하는 통신망은 전 세계의 국가 간에 서로 연결된 인터넷으로 구성될 수 있다.

네트워크는 서버, 클라이언트, 인터넷 서비스 제공자, 및 통신 매체의 임의의 토폴로지를 포함할 수 있다. 본 발명에서 설명하는 실시예들에 따른 시스템은 정적 또는 동적 토폴로지를 가질 수 있다. 네트워크는 기업 네트워크와 같은 보안 네트워크, 무선 개방 네트워크와 같은 비보안 네트워크(unsecure network), 또는 인터넷을 포함할 수 있다. 네트워크는 또한 PSTN(Public Switched Telephone Network) 또는 셀룰러 네트워크와 같은 다른 네트워크를 통해 통신을 조정할 수도 있다. 또한, 네트워크는 블루투스 등과 같은 단거리 무선 네트워크를 포함할 수 있다. 네트워크는 본 명세서에 기술된 구성들 사이의 통신을 제공한다. 예컨대, 네트워크는 음향, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함할 수 있다.

또한, 본 발명의 일 실시예에 의한 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 실행하기 위해, 인터넷 환경에 접속하는 것은 웹 브라우저 (Web browser) 를 통해 이루어질 수 있다.

웹 브라우저는 인터넷 상에서 제공되는 다양한 정보를 웹 페이지를 통해 표시하는 프로그램으로, 예를 들면, 'Internet Explorer' 등과 같이 운영체제 설치 시 클라이언트 환경 각각의 메모리 내에 함께 설치될 수 있고, 'Chrome', 'Firefox' 등과 같이 고객 요청에 따라 별도로 클라이언트 환경의 메모리 내에 설치될 수도 있다.

데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법은 데이터 집단 선택 단계 (S100), 데이터 필드 정보 획득 단계 (S200), 데이터 필드 통계 단계 (S300), 계층정보 파악 단계 (S400) 및 계층정보 표시 단계 (S500) 를 포함한다.

데이터 집단 선택 단계 (S100) 에서는 복수의 데이터를 불러오고 사용자의 입력을 받아 시각화의 대상이 되는 데이터 집단이 선택될 수 있다.

사용자의 입력을 받는 장치는 카메라, 마이크, 터치 구동 스크린, 키보드, 마우스 및 이에 필적하는 것들을 포함하는 하드웨어일 수 있다.

사용자의 입력을 받는 장치는 데이터를 검색하기 위해 클라우드 호스트 플랫폼(cloud-hosted platform)과 같은 외부 리소스와 통신할 수 있다. 클라우드 호스트 플랫폼은 데이터 저장소 및 콘텐츠 서버를 포함하는 원격 리소스를 포함할 수 있다.

또한, 사용자의 입력을 받는 장치는 터치 구동 장치에 더하여, 광학 제스처 캡처, 자이로스코프 입력 장치, 마우스, 키보드, 안구 추적 입력, 및 이에 필적하는 소프트웨어 및/또는 하드웨어 기반 기술과 같은 다른 입력 메카니즘을 통해 달성될 수 있다.

사용자의 입력 동작은 데이터상의 일부 영역을 클릭 (Click) 하거나 드래그 (Drag) 하는 것일 수 있고, 이러한 일부 영역은 단일 영역이거나, 복수개의 데이터 셀을 포함하는 영역일 수 있다.

이로써, 간단한 사용자의 입력 동작에 의해 시각화의 대상이 되는 데이터 집단이 쉽게 구성될 수 있다.

본 발명의 일 실시예에 의한 데이터 집단은 셀 단위로 저장된 데이터의 집합일 수 있다.

각 셀에 저장되어 있는 데이터는 예를 들어, 성별(남자와 여자), 계급(이병, 일병, 상병, 병장)과 같이 사전에 정해진 특정 유형으로 분류되는 범주형 변수와 나이, 키, 몸무게 등의 수치형 변수로 구별될 수 있다.

본 발명의 일 실시예에 의한 데이터 집단은 데이터 파싱에 의해 구성될 수 있다.

데이터의 파싱은, 파서 (parser) 역할을 하는 컴퓨터 시스템이 문장 단위의 문자열을 의미 있다고 여겨지는 토큰 (token) 으로 분류하고 이를 구문 트리 (parse tree) 로 재구성하는 구문 분석 과정을 의미할 수 있다. 파싱 과정에서 부호에 불과한 일련의 문자열이 기계어로 번역되어 유의미한 의미 단위가 된다.

한편, 구문 분석이란 일련의 문자로 나열된 문장 내에서 의미 단위를 떼어내는 작업으로서, 이러한 의미 단위가 중심적인 요소인지 교착되는 요소인지 등의 위계를 정하고 분류하는 행위까지를 포함할 수 있다.

데이터 필드 정보 획득 단계 (S200) 에서는 데이터 집단에서 데이터의 필드 정보가 획득될 수 있다.

데이터 필드 정보는 셀에 저장되어 있는 데이터 필드에 관한 정보로서, 사전에 정해진 특정 유형으로 분류되는 범주형 변수와 수치형 변수로 구분될 수 있다.

일 실시예에 의하면, 데이터 필드 정보 획득 단계 (S200) 에서는 특정 필드에 부여된 필드의 속성값을 추출함으로써 필드 정보가 획득될 수 있다.

데이터 필드 통계 단계 (S300) 에서는 데이터 집단에서 데이터의 필드에 대해 통계 요소가 계산될 수 있다.

통계 요소는 데이터 집단에 대해 일반적으로 적용되는 통계치 계산 알고리즘, 통계 모델 등에 의해 도출될 수 있다.

일 실시예에 의하면, 수치형 변수에 대해서는 평균, 분산, 표준편차, 중앙값, 최소값 및 최대값 등의 통계치일 수 있고, 범주형 변수에 대해서는 특정 범주값의 빈도수 등일 수 있으며, 나아가, 상관관계 분석 및 회귀분석과 같은 통계적 모델에 의한 결과값일 수 있으나, 이에 한정하는 것은 아니다.

즉, 일 실시예에 의하면, 데이터 필드 통계 단계 (S300) 에서는 특정 필드에 대한 속성값에 따라, 속성값이 수치형 변수인 경우에는 수치 통계값이 도출되는 것일 수 있고, 범주형 변수인 경우에는 데이터 분류를 통해 데이터 빈도 통계값이 도출되는 것일 수 있으며, 나아가, 데이터 집단 내의 제 1 필드와 제 2 필드에 대해, 관계 분석을 통해 필드간 통계 모델이 도출될 수 있다.

계층정보 파악 단계 (S400) 에서는 데이터 필드 정보 및 통계 요소 중 어느 하나 이상에 기초하여 데이터 집단 내에 존재하는 필드간 계층 (hierarchy) 정보에 관한 메타 데이터가 생성될 수 있다.

메타 데이터는 데이터에 대한 데이터를 의미할 수 있으며, 특히 본 명세서에서는 데이터 집단 내에 존재하는 데이터간의 계층 정보를 나타내는 데이터일 수 있다.

이러한 메타 데이터에 의해, 사용자는 데이터 계층에 관한 질문들 (예를 들면, 주어진 값은 어디에서 왔는가? 어떻게 출력값이 계산되었는가? 어떤 애플리케이션이 이 데이터를 만들어내고 이 데이터에 의존하는가?) 에 대한 답과 데이터들 또는 데이터 필드간의 상관관계 (예를 들면, 주어진 데이터 집단에서 데이터 필드간의 포함관계는 어떠한가? 복수의 필드에 대해 상위 개념을 갖는 필드는 어떤 것이고 반대로 하위 개념을 갖는 필드는 어떤 것이가?) 에 대한 답을 얻을 수 있다.

개발자는 제안된 변경(예를 들면, 이 데이터가 변화하면, 다른 어떤 부분이 영향을 받을 것인가? 이 소스 포맷이 변화하면, 어떤 애플리케이션이 영향을 받을 것인가?)들의 결과를 이해할 수 있다.

사용자/개발자는 또한 데이터 계층, 데이터들 또는 데이터 필드간의 상관관계 및 제안된 변경 모두에 관련된 답들에 관한 질문들을 얻을 수 있다(예를 들면, 어떤 그룹이 이 데이터를 만들고 사용하는 데 책임이 있는가? 누가 이 애플리케이션을 마지막으로 변경하였는가? 무슨 변경을 하였는가?).

계층정보 표시 단계 (S500) 에서는, 메타 데이터를 사용자가 시각적으로 인식할 수 있도록 그래피컬한 아웃풋이 생성되고 이러한 아웃풋이 컴퓨터 시스템을 통해 표현될 수 있다.

컴퓨터 시스템은 일종의 클라이언트 환경일 수 있는데, 클라이언트 환경 (Client environment) 이란, 본 발명의 상세한 설명에서 기재하고 있는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법을 수행하는 엔진을 실행할 수 있다.

일 실시예에서, 클라이언트 환경은 메모리나 서버, 인터넷 등과 같은 로컬 또는 원격 저장 장치로부터 데이터를 얻을 수 있다.

다른 실시예에서, 클라이언트 환경에서 실행되는 애플리케이션 프로그램을 사용하여 데이터가 클라이언트 환경에서 생성될 수 있다.

클라이언트 환경은 사용자 또는 기타 엔티티로부터 입력 또는 피드백을 얻어 이를 적용하도록 구성될 수 있다. 피드백은 출력에 관한 사용자 또는 기타 엔티티의 선호도를 이해하기 위해 클라이언트 환경에서 해석될 수 있다.

입력 또는 피드백은 사용자나 기타 엔티티로부터 직접 얻거나 및/또는 클라이언트 환경에 의해 생성될 수 있는 하나 이상의 프롬프트(prompt)에 대한 응답에서 얻을 수 있다. 이런 입력 또는 피드백에 기반하여, 클라이언트 환경은 작업 지시 정보를 생성할 수 있다.

본 발명에서 설명되는 대상이 클라이언트 환경상의 운영 체제 및 응용 프로그램의 실행과 연계하여 실행되는 프로그램 모듈의 일반적인 범주에서 제시되지만, 본 기술분야에 관한 통상의 기술자는 다른 타입의 프로그램 모듈과 조합하여 다른 구현예들이 수행될 수 있음을 인지할 것이다.

일반적으로, 프로그램 모듈은 루틴, 프로그램, 컴포넌트, 데이터 구조, 그리고, 특정 작업을 수행하는 또는 특정 추상 데이터 타입을 구현하는 다른 타입의 구조를 포함한다.

나아가, 본 기술분야에 관한 통상의 기술자는 본원에서 설명되는 대상이 데스크탑 PC, 태블릿 PC, 랩탑 PC, 셋탑 박스를 포함하는 IPTV와 같이, 네트워크를 통하여 외부 서버와 연결될 수 있는 통신 장치와 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC 등과 같이 네트워크를 통하여 외부 서버와 연결될 수 있는 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 가전, 미니 컴퓨터, 메인프레임 컴퓨터 등을 포함하는, 클라이언트 환경 구성으로 실시될 수 있음을 이해할 것이다.

나아가, 클라이언트 환경 인터페이스란 기계, 특히 컴퓨터와 사용자 (C, 인간) 사이의 상호 작용과 정보 교환을 위한 인터페이스로 컴퓨터 상호 작용(HCI : human-computer interaction) 혹은 인간-기계 인터페이스(MMI : man-machine interface)라고도 불리우며, 이러한 클라이언트 환경 인터페이스는 크게 입력과 출력의 두 가지 방법을 제공할 수 있다.

입력은 사용자가 시스템을 조작하는 방법을 정의하고, 출력은 사용자가 조작에 따라 시스템이 생성한 결과를 제시하는 수단일 수 있다. 본 발명의 일 실시예에 의한 클라이언트 환경 인터페이스는 심리학과 생리학에 기반하여 사용자가 필요한 요소를 쉽게 찾고 사용하며 정확한 결과를 손쉽게 얻어낼 수 있도록 설계될 수 있다.

본 발명의 일 실시예에 의한 클라이언트 환경 인터페이스는 프로그램이 사용자에게 표시되는 그래픽, 텍스트, 음성 정보와 사용자가 프로그램을 제어하는 사용자 제어 시퀀스에 대한 상호 작용 방법을 모두 포함한다.

클라이언트 환경 인터페이스 종류로는 그래픽 사용자 인터페이스(GUI : graphical user interface), 웹 사용자 인터페이스(WUI : web user interface), 명령 줄 인터페이스(CLI : command-line interface), 배치 인터페이스(batch interface), 터치 인터페이스(touch interface), 음성 사용자 인터페이스 등이 있다.

이러한 클라이언트 환경하에서, 메타 데이터 시각화를 위한 그래피컬한 아웃풋은 클라이언트 환경에 포함된 디스플레이상의 사용자 인터페이스 모듈에 의하여 나타날 수 있다.

메타 데이터는 메타 데이터의 의미정보를 나타내는 형식 뿐만아니라, 다른 형태의 데이터 요소(예를 들면, 실행 가능한 프로그램의 입력 또는 출력으로 사용되는 데이터) 및/또는 변형들(예를 들면, 데이터를 처리하거나 생성하는 데이터 플로우 그래프와 같은 데이터 처리 엔티티(entity)와 연관된 어떠한 유형의 데이터 조작)으로 표시될 수 있다.

시각화는 계층정보들을 메타 데이터 객체들 또는 메타 데이터 객체들의 그룹핑을 표시하는 그래픽 노드를 연결하는 선으로서 표시할 수 있다.

일 실시예에서, 메타 데이터의 시각화는 클라이언트 환경 브라우저 상에서 실행되는 인터페이스일 수 있다.

메타 데이터 시각화는 데이터 계층정보와 관련된 정보를 디스플레이할 수 있다. 나아가 메타 데이터 시각화 환경에서 사용자는 시각화된 메타 데이터의 그래피컬한 표현을 획득할 수 있음에 그치지 않고, 시각화된 메타 데이터를 편집할 수 있다. 이로써, 사용자는 데이터 집단 내의 계층정보를 확인하고 이를 선별적으로 조작할 수 있다.

시각화된 메타 데이터 사용하여 데이터 계층정보를 획득하는 것은 몇 가지 이유에서 유용하다. 예를 들어, 데이터 집단 내의 데이터들 및/또는 필드들 사이의 관계가 직관적이고 쉽게 해석될 수 있다. 사용자는 또한 어떤 데이터 필드가 특정한 타입의 데이터를 저장하는지 그리고 상기 데이터 필드는 데이터 집단 내에서 어떤 위계상에 위치되어 있는지 확인할 수 있다. 일 예에서 비즈니스 조건의 경우, 선택된 데이터 집단에 관한 데이터 계층정보 다이어그램은 어떤 데이터 요소(열이나 필드와 같은)가 어떤 비즈니스 조건(기업 내의 정의)와 연관되는지를 표시할 수 있다.

메타 데이터 시각화에 의한 그래피컬한 아웃풋은 또한 사용자가 임팩트 분석(impact analysis)을 하는 경우 도움이 될 수 있다. 특히, 사용자는 열이나 필드가 데이터 집합에 추가되는 경우 어떤 다운스트림 실행 가능 프로그램들이 영향을 받는지 알기를 원할 수 있고, 누가 그 통지를 받을 필요가 있는지 알기를 원할 수 있다. 임팩트 분석은 어디서 주어진 데이터 요소가 사용되는지 결정할 수 있고, 또한 그 데이터 요소를 변경하는 파생 집합(ramification)을 결정할 수 있다. 유사하게, 사용자는 어떤 데이터 집합이 실행 가능한 프로그램의 변화에 의하여 영향을 받는지 시각화할 수 있고 또한 어떤 데이터 베이스 테이블을 생성하지 않고 제거하는 것이 안전한지 시각화할 수 있다.

본 발명의 일 실시예에 의한 메타 데이터 시각화로서 객체에 대한 그래픽이 제공될 수 있고, 사용자는 메타 데이터를 찾고 분석할 수 있다. 예를 들어, 사용자는 데이터 계층정보의 시각화를 사용하여 시스템과 애플리케이션의 컨텐츠를 볼 수 있고, 특정 데이터 및/또는 필드의 상세를 찾을 수 있으며, 또한 데이터 및/또는 필드 사이의 관계를 보여줄 수 있고, 이는 사용자가 앞서 설명한 데이터 계층정보 분석 및 임팩트 분석과 같은 다양한 형태의 종속성 분석을 쉽게 실행할 수 있도록 해 준다.

나아가, 데이터 및/또는 필드의 상하 위계도 시각화될 수 있고, 상하 위계는 특정 데이터 및/또는 필드에 대하여 검색될 수 있다. 데이터 및/또는 필드가 발견되면, 데이터 및/또는 필드에 대하여 표시(bookmark)가 생성될 수 있고 이는 사용자가 쉽게 그들에게 회신할 수 있게 해 준다. 적절한 허가가 있으면, 사용자는 메타 데이터 시각화 환경에서 메타 데이터를 편집할 수 있다. 예를 들어, 사용자의 데이터 및/또는 필드의 서술을 업데이트할 수 있고, 비즈니스 조건을 생성할 수 있고, 데이터 및/또는 필드들 사이의 관계(비즈니스 조건을 레포트 내의 필드 또는 표 내의 열에 연결하는 것과 같은)를 편집할 수 있고, 데이터 및/또는 필드를 이동할 수 있고(예를 들어, 데이터 집단을 하나의 애플리케이션에서 다른 애플리케이션으로 이동함) 또는 데이터 및/또는 필드를 삭제할 수 있다.

사용자는 또한 자신만의 다이어그램을 구성할 수 있다. 예를 들어, 다이어그램은 메타 데이터의 주요/외부 키를 따르도록 구성될 수 있다. 또한 필터들이 종속성 분석에 적용되어 계층정보 다이어그램으로부터 정보를 배제할 수 있다. 예를 들어, 사용자가 계층정보 다이어그램으로부터 거절된 파일인 데이터 집단을 배제하고자한다면, 사용자는 계층정보 다이어그램 내의 거절 파일의 디스플레이를 온 및 오프로 토글(toggle)할 수 있다.

본 발명의 다른 실시예에 의하면, 계층정보 파악 단계 (S410) 는 예비계층정보 추출 단계 (S411), 계층정보 확정 단계 (S412) 및 계층정보에 관한 메타 데이터 생성 단계 (S413) 를 포함한다.

예비계층정보 추출 단계 (S411) 에서는, 데이터 필드 정보 및 통계 요소 중 어느 하나 이상에 존재하는 계층 관계에 관한 정보가 추출될 수 있다.

그리고, 계층정보 확정 단계 (S412) 에서는, 상기 예비계층정보와 내재된 계층정보 모델을 비교함으로써 데이터 집단 내 계층정보가 최종적으로 결정될 수 있다.

즉, 일 실시예에 의하면, 예비계층정보 추출 단계 (S411) 를 통해 서로 다른 2 이상의 필드간의 계층정보 후보가 선정될 수 있고, 이는 본 발명의 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법상에 내재되어있는 계층구조를 정의하는 계층정보 모델과 비교됨으로써, 데이터 집단 내의 필드간 계층정보가 확정될 수 있다.

한편, 예를 들어 데이터 집단 내의 제 1 필드와 제 2 필드에 대해, 제 2 필드의 값들이 제 1 필드의 값을 기준으로 반복되는 경우와 같이, 데이터 자체에서 계층관계가 뚜렷이 드러나는 경우에는 제 2 필드가 제 1 필드의 하위에 해당된다는 계층정보가 생성될 수 있다.

이러한 확정된 계층정보는 계층정보에 관한 메타 데이터 생성 단계 (S413) 를 통해 시각화를 위한 메타 데이터로 생성될 수 있다.

본 발명의 또다른 실시예에 의하면, 계층정보 파악 단계 (S420) 는 데이터 노드 생성 단계 (S421), 데이터 노드간의 상하 위계 결정 단계 (S422) 및 계층정보에 관한 메타 데이터 생성 단계 (S423) 를 포함한다.

데이터 노드 생성 단계 (S421) 에서는 데이터 필드 정보 및 통계 요소 중 어느 하나 이상에 관한 클러스터링을 통해 그룹핑 된 데이터 노드가 생성될 수 있다.

클러스터링은 계량적 또는 정성적인 측정에 기초하여 데이터를 몇몇 그룹으로 분류하는 것을 의미하며, 이러한 클러스터링을 통해 데이터 및/또는 필드가 그룹핑되고 이러한 그룹핑에 대한 데이터 노드가 생성될 수 있다.

그리고, 데이터 노드간의 상하 위계 결정 단계 (S422) 에서는 데이터 노드가 갖는 형식을 정의한 내부 스키마 정보에 기초하여 데이터 노드간의 상하 위계가 결정될 수 있다.

여기서, 스키마 정보란 데이터 집단의 구조에 관해서 사용자가 측면에서의 논리 구조와 컴퓨터 시스템 측면에서의 물리 구조를 기술하는 개념으로써, 특히 내부 스키마 정보는 데이터 및/또는 필드의 구조 형식을 구체적으로 정의하는 것일 수 있다.

즉, 이러한 내부 스키마 정보에 의해 데이터 및/또는 필드간의 관계가 기계적으로 자동 분석될 수 있다.

나아가, 계층정보에 관한 메타 데이터 생성 단계 (S423) 를 통해, 데이터 집단 내에 존재하는 필드간 계층정보에 관한 메타 데이터가 생성될 수 있다.

본 발명의 또다른 실시예에 의하면, 계층정보 표시 단계 (S530) 는, 외부 스키마 정보와 내부 스키마 정보 대응 단계 (S531), 외부 스키마 정보의 상하 위계를 메타 데이터로 재설정하는 단계 (S532) 및 외부 스키마 정보에 관한 메타 데이터를 사용자가 시각적으로 인식할 수 있도록 표시하는 단계 (S533) 를 포함한다.

구체적으로, 외부 스키마 정보와 내부 스키마 정보 대응 단계 (S531) 에서는 데이터 노드에 대해 사용자가 이용하는 의미정보인 외부 스키마 정보를 내부 스키마 정보에 의해 결정된 상하 위계에 대응시킬 수 있다.

그리고, 외부 스키마 정보의 상하 위계를 메타 데이터로 재설정하는 단계 (S532) 에서는 시각화를 위한 메타 데이터를 내부 스키마 정보에서 외부 스키마 정보로 전환하여 재설정할 수 있다.

나아가, 이렇게 재설정된 외부 스키마 정보를 이용하여 외부 스키마 정보에 관한 메타 데이터를 사용자가 시각적으로 인식할 수 있도록 표시하는 단계 (S533) 가 수행됨으로써, 최종적으로 사용자가 실제 이해할 수 있고 취급이 가능한 외부 스키마 정보에 의한 메타 데이터가 그래피컬한 아웃풋으로 생성될 수 있다.

따라서, 사용자는 간단한 선택 조작만으로, 데이터 집단 내에 존재하는 데이터 및/또는 필드간의 계층정보를 쉽고 빠르게 획득할 수 있고, 이러한 계층정보는 도 5 에서 나타내는 예시와 같이 사용자가 시각적으로 인식할 수 있도록 표현되기 때문에 사용자가 직관적으로 이해할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

S100 : 데이터 집단 선택 단계
S200 : 데이터 필드 정보 획득 단계
S300 : 데이터 필드 통계 단계
S400 : 계층정보 파악 단계
S500 : 계층정보 표시 단계

Claims

컴퓨터 시스템 내에서 구현되는 방법으로서,
(a) 복수의 데이터를 불러오고 사용자의 입력을 받아 시각화의 대상이 되는 데이터 집단이 선택되는 데이터 집단 선택 단계;
(b) 상기 데이터 집단에서 데이터의 필드 정보를 획득하는 데이터 필드 정보 획득 단계;
(c) 상기 데이터 집단에서 데이터의 필드에 대해 통계 요소를 계산하는 데이터 필드 통계 단계;
(d) 상기 데이터 필드 정보 및 상기 통계 요소 중 어느 하나 이상에 기초하여 상기 데이터 집단 내에 존재하는 필드간 계층 (hierarchy) 정보에 관한 메타 데이터를 생성하는 계층정보 파악 단계;
(e) 상기 메타 데이터를 사용자가 시각적으로 인식할 수 있도록 그래피컬한 아웃풋을 생성하고 상기 컴퓨터 시스템을 통해 표현하는 계층정보 표시 단계를 포함하고,
상기 데이터 필드 통계 단계는,
데이터 집단 내의 제 1 필드와 제 2 필드에 대해, 관계 분석을 통해 필드간 통계 모델을 도출하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법.
제 1 항에 있어서,
상기 데이터 필드 정보 획득 단계는,
특정 필드에 부여된 필드의 속성값을 추출함으로써 필드 정보를 획득하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법.
제 2 항에 있어서,
상기 데이터 필드 통계 단계는,
특정 필드에 대한 상기 속성값에 따라, 상기 속성값이 수치형 변수인 경우에는 수치 통계값을 도출하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법.
제 2 항에 있어서,
상기 데이터 필드 통계 단계는,
특정 필드에 대한 상기 속성값에 따라, 상기 속성값이 범주형 변수인 경우에는 데이터 분류를 통해 데이터 빈도 통계값을 도출하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법.
삭제
제 1 항에 있어서,
상기 계층정보 파악 단계는,
상기 데이터 필드 정보 및 상기 통계 요소 중 어느 하나 이상에 존재하는 계층 관계에 관한 정보를 추출하는 예비계층정보 추출 단계와,
상기 예비계층정보와 내재된 계층정보 모델을 비교함으로써 데이터 집단 내 계층정보를 최종적으로 결정하는 계층정보 확정 단계를 포함하여 데이터 집단 내에 존재하는 필드간 계층정보에 관한 메타 데이터를 생성하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법.
제 1 항에 있어서,
상기 계층정보 파악 단계는,
상기 데이터 필드 정보 및 상기 통계 요소 중 어느 하나 이상에 관한 클러스터링을 통해 그룹핑 된 데이터 노드를 생성하고,
상기 데이터 노드가 갖는 형식을 정의한 내부 스키마 정보에 기초하여 상기 데이터 노드간의 상하 위계를 결정함으로써 데이터 집단 내에 존재하는 필드간 계층정보에 관한 메타 데이터를 생성하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법.
제 7 항에 있어서,
상기 계층정보 표시 단계는,
상기 데이터 노드에 대해 사용자가 이용하는 의미정보인 외부 스키마 정보를 상기 내부 스키마 정보에 의해 결정된 상하 위계에 대응시키고,
상기 외부 스키마 정보의 상하 위계를 상기 메타 데이터로 하여 사용자가 시각적으로 인식할 수 있도록 그래피컬한 아웃풋을 생성하고 상기 컴퓨터 시스템을 통해 표현하는 것을 특징으로 하는 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법.