KR102345890B1 - 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치 - Google Patents

정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치 Download PDF

Info

Publication number
KR102345890B1
KR102345890B1 KR1020210076100A KR20210076100A KR102345890B1 KR 102345890 B1 KR102345890 B1 KR 102345890B1 KR 1020210076100 A KR1020210076100 A KR 1020210076100A KR 20210076100 A KR20210076100 A KR 20210076100A KR 102345890 B1 KR102345890 B1 KR 102345890B1
Authority
KR
South Korea
Prior art keywords
data
source node
target node
item
node
Prior art date
Application number
KR1020210076100A
Other languages
English (en)
Inventor
김기훈
Original Assignee
주식회사 사이람
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 사이람 filed Critical 주식회사 사이람
Priority to KR1020210076100A priority Critical patent/KR102345890B1/ko
Application granted granted Critical
Publication of KR102345890B1 publication Critical patent/KR102345890B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따르면, 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하고, 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하여 정형 데이터의 상관 관계를 시각화하는 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치가 개시된다.

Description

정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치 {GRAPH MODELING METHOD AND GRAPH MODELING APPARATUS USING STRUCTURED DATA}
본 발명은 그래프 모델링 방법에 관한 것으로, 보다 자세하게는 정형 데이터를 이용한 그래프 모델링 방법 및 그래프 모델링 장치에 관한 것이다.
그래프 데이터베이스(Graph Database)는 빅데이터 시대에 접어들며, 정형 데이터(정해진 특정 조건에 맞게 저장된) 위주의 처리만 가능한 관계형 데이터베이스(Relational Database)를 보완하기 위해 등장한 NoSQL계열의 데이터베이스이다.
기존 관계형 데이터베이스 환경에서는 구매, 인적 정보 등 각종 데이터를 표의 형태로 저장한 후 별도의 데이터 시각화 기술을 통해 이를 그래프화하여 분석한다.
이에 따라, 관계형 데이터베이스를 그래프 데이터로 추출함에 따라 특정 패턴과 이상 현상을 빠르게 추적하고, 이를 시각화함으로써 분석을 용이하게 하여 데이터의 상관 관계를 보다 직관적으로 빠르게 분석하도록 하는 기술이 필요하다.
본 발명의 일 실시예에 따른 해결하고자 하는 과제는, 정형 데이터에 네트워크 분석 기법, 예컨대 그래프 모델링을 적용하여서 그로부터 소정의 유의미한 분석 결과가 도출되도록 하는 것을 포함한다.
또한, 정형 데이터를 전처리하여 그래프 데이터로 추출함에 따라 특정 패턴과 이상 현상을 빠르게 추적하고, 이를 시각화함으로써 분석을 용이하게 하여 데이터의 상관 관계를 보다 직관적으로 빠르게 분석하도록 하는 것을 포함한다.
본 명세서에 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
상기 과제를 해결하기 위해, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법은, 그래프 모델링 장치가 수행하는 그래프 모델링 방법에 있어서, 정형 데이터를 입력 받는 단계, 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하는 단계 및 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 단계를 포함하여 수행된다.
여기서, 상기 식별된 항목별로 구분된 데이터 집합들은, 소스 노드에 관한 집합, 타겟 노드에 관한 집합 및 상기 소스 노드와 상기 타겟 노드간의 링크에 관한 집합을 포함한다.
여기서, 상기 정형 데이터는, 비-네트워크 데이터이다.
여기서, 상기 그래프 모델링은, 네트워크 분석 기법에 기반한 것이다.
여기서, 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하는 단계는, 상기 복수의 이벤트 정보들에서 소스 노드에 관한 특징과 관련된 키워드를 포함하는 소스 노드 항목을 식별하여, 상기 소스 노드 항목에 대해 구분된 소스 노드에 관한 집합을 선택하는 단계 및 상기 복수의 이벤트 정보들에서 타겟 노드에 관한 특징과 관련된 키워드를 포함하는 타겟 노드 항목을 식별하여, 상기 타겟 노드 항목에 대해 구분된 타겟 노드에 관한 집합을 선택하는 단계를 포함한다.
여기서, 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 각각의 항목별로 구분된 데이터 집합들을 선택하는 단계는, 상기 복수의 이벤트 정보들에서 상기 소스 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 소스 노드 속성 항목을 식별하여, 소스 노드 속성 항목에 대해 구분된 소스 노드 속성에 관한 집합을 선택하는 단계 및 상기 복수의 이벤트 정보들에서 상기 타겟 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 타겟 노드 속성 항목을 식별하여, 상기 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합을 선택하는 단계를 더 포함한다.
여기서, 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 각각의 항목별로 구분된 데이터 집합들을 선택하는 단계는, 상기 복수의 이벤트 정보들에서 상기 소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드를 포함하는 링크 속성 항목을 식별하여, 상기 링크 속성 항목에 대해 구분된 링크에 관한 집합을 선택하는 단계를 더 포함한다.
여기서, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 단계는, 상기 소스 노드 항목과 상기 타겟 노드 항목을 각각 소스 노드와 타겟 노드로 지정하는 단계, 상기 소스 노드와 상기 타겟 노드를 연결하는 링크를 생성하는 단계, 상기 소스 노드 속성에 관한 집합에 포함되는 데이터들과 상기 타겟 노드 속성에 관한 집합에 포함되는 데이터들을 이용하여 상기 소스 노드와 상기 타겟 노드에 대해 속성값을 부여하는 단계 및 상기 소스 노드에 관한 집합에 포함되는 데이터들과 상기 타겟 노드에 관한 집합에 포함되는 데이터들 사이에 연결된 링크 생성 빈도수 또는 상기 링크에 관한 집합에 포함되는 데이터들에 따라 연결 가중치를 결정하는 단계를 더 포함한다.
본 발명의 다른 실시예에 따른 정형 데이터의 그래프 모델링 장치는, 컴퓨팅 장치와 연결되어 상기 컴퓨팅 장치로부터 정형 데이터를 획득하는 입력부, 상기 정형 데이터를 입력 받고, 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하고, 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 프로세서 및 상기 그래프 모델링을 수행하여 생성되거나 갱신된 그래프 모델을 저장하는 메모리를 포함한다.
이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하고, 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하여 정형 데이터의 상관 관계를 시각화할 수 있다.
또한, 정형 데이터를 전처리하여 그래프 데이터로 추출함에 따라 특정 패턴과 이상 현상을 빠르게 추적하고, 이를 시각화함으로써 분석을 용이하게 하여 데이터의 상관 관계를 보다 직관적으로 빠르게 분석하도록 할 수 있다.
여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.
도 1은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치가 적용되는 빅데이터 분석 시스템을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치를 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법을 나타낸 흐름도이다.
도 4은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법의 그래프 모델링 과정을 설명하기 위한 도면이다.
도 5 내지 도 9는 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법을 구체적으로 설명하기 위한 도면이다.
이하, 본 발명에 관련된 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치에 대하여 도면을 참조하여 보다 상세하게 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
본 발명의 일 실시예는 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치에 관한 것이다.
도 1은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치가 적용되는 빅데이터 분석 시스템을 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치가 적용되는 빅데이터 분석 시스템(1)은 그래프 모델링 장치(10), 빅 데이터 관리부(20) 및 데이터 분석부(30)를 포함한다.
본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치가 적용되는 빅데이터 분석 시스템(1)은 빅데이터 중에서 기업 저장소에 존재하는 트랜잭션 데이터(Transaction data)를 전처리하여 그래프 데이터(Graph data)로 가져와서 그래프 분석(Graph Analytics)(기존의 SNA 분석기법 등)을 적용하고, 그 결과를 머신 러닝(Machine Learning) 에서 그래프 속성(graph feature)으로 활용하도록 하는 절차(procedure)를 수행하는 시스템이다.
트랜잭션 데이터(Transaction data)를 전처리하여 그래프 데이터(Graph data)로 추출하기 위해, 본 발명의 일 실시예에 따른 그래프 모델링 장치(10)는 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하고, 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행한다.
여기서, 정형 데이터는, 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성된 데이터이다. 기업 내에 축적되는 데이터는 마스터 데이터(master data), 트랜잭션 데이터(transaction data), 기타 비정형 데이터(unstructured data)로 나뉜다.
마스터 데이터는 개체(entity)와 그 속성(property)들을 담고 있으며, 트랜잭션 데이터는 특정 시점에 발생한 모든 이벤트(event)의 내역을 기록하고 있다.
트랜잭션 데이터(transaction data)는, 비-네트워크 데이터로써, 본래 노드(node) 와 엣지(edge)로 이뤄진 자료 구조가 아닌 각종 데이터가 별도의 지정된 형태로만 저장된 데이터이다. 이에 따라, 별도의 지정된 형태로부터 개체 간의 관계를 분석하기 위한 과정이 필요하다.
네트워크 분석 기법은 데이터를 분석할 때 개체에 대한 분석과 함께 개체 간의 관계를 분석하기 위한 방법이며, 이를 통해 데이터의 모델링이 가능해진다.
네트워크 분석 기법 중 하나인 그래프 분석(graph analysis)은 노드의 연결구조 상 위치 속성값을 계산하는 방법이다. 중요성을 측정하는 중심도(centrality) 지수, 응집 클러스터를 판별하는 커뮤니티(community), 그리고 역할/지위를 판별하는 등위성(equivalence) 지수를 이용한다.
그래프 분석은 그 자체로서 스코어링이나 추천 등에 활용될 수도 있지만, 기계학습(machine learning)을 위한 그래프 속성 추출기(graph feature extractor)로서 활용될 수 있다. 분류(classification)나 회귀(regression) 분석과 같은 지도학습(supervised learning)에서는 속성(feature)을 투입 데이터로 요구하는데, 그래프 분석은 개체들의 고유 속성과는 구별되는 연결구조상의 위치 속성을 만들어주는 전처리 프로세스로서의 역할을 함으로써, 예측의 정확성을 제고하는 데에 기여할 수 있다.
종래의 경우 네트워크 데이터를 입력 받아, 네트워크 데이터의 노드와 엣지를 이용하여 네트워크 분석 기법을 이용하였으나, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치(10)는 비-네트워크 데이터인 정형 데이터로부터 개체와 개체간의 관계를 분석하여 그래프 모델링을 수행하고, 이를 시각화함으로써 데이터의 상관 관계를 보다 직관적으로 빠르게 분석하도록 할 수 있다.
비-네트워크 데이터로부터 개체와 개체간의 관계를 분석하기 위해서는, 항목별로 구별된 데이터 집합을 선별하여, 항목에 따라 노드를 지정하는 과정이 필요하며, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치(10)는 트랜잭션 데이터를 이용하여 다수의 항목을 선별하고, 지정된 항목별로 다양한 그래프를 모델링하게 된다.
빅 데이터 관리부(20)는 기업 내 데이터 베이스(DB)의 트랜잭션(Transaction) 데이터를 저장하고 관리한다.
데이터 분석부(30)는 그래프 모델링의 결과를 이용하여 머신 러닝(Machine Learning)에서 그래프 속성(graph feature)으로 활용하여 입력 데이터에 따른 출력을 예측한다.
이하에서는, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치 (10)에 대해 보다 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치를 나타낸 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치(10)는 프로세서(110), 메모리(120) 및 입력부(130)를 포함한다.
본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치(10)는 빅데이터 중에서 기업 저장소에 존재하는 트랜잭션 데이터(Transaction data)를 전처리하여 그래프 데이터(Graph data)를 추출하기 위한 장치이다.
트랜잭션 데이터(Transaction data)는 특정 시점에 발생한 모든 이벤트(event) 내역을 기록한 데이터이다. 이벤트(event) 내역이, 행과 열을 구분하여 기록되며, 행은 트랜잭션 또는 이벤트 정보를 포함하고, 열은 트랜잭션 또는 이벤트 정보에 관한 항목을 구분한다.
추출된 그래프 데이터(Graph data)는 그래프 분석(Graph Analytics)을 적용하고, 그 결과를 머신 러닝(Machine Learning)에서 속성(feature)으로 활용하게 된다.
여기서, 정형 데이터는, 비-네트워크 데이터이며, 그래프 모델링은, 네트워크 분석 기법에 기반한 것이다.
비-네트워크 데이터는 본래 노드(node) 와 엣지(edge)로 이뤄진 자료 구조가 아닌 데이터로서, 각종 데이터가 별도의 지정된 형태로만 저장된 데이터이다. 이에 따라, 별도의 지정된 형태로부터 개체 간의 관계를 분석하기 위한 과정이 필요하다.
네트워크 분석 기법은 데이터를 분석할 때 개체에 대한 분석과 함께 개체 간의 관계를 분석하기 위한 방법이며, 이를 통해 데이터의 모델링이 가능해진다.
입력부(130)는 컴퓨팅 장치와 연결되어 상기 컴퓨팅 장치로부터 정형 데이터를 획득한다. 여기서, 컴퓨팅 장치는 기업 저장소를 포함하는 다수의 장치들을 의미한다. 또한, 입력부(130)는 외부 장치와 연결되어, 외부 장치로부터 사용자 명령을 입력 받고, 프로세서는 사용자 명령에 따라 정형 데이터를 식별할 수 있다.
또한, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치(10)는 디스플레이를 더 포함할 수 있으며 디스플레이는, 입력부에서 수신한 정형 데이터를 표시할 수 있다.
또한, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 장치(10)는 입출력 인터페이스를 더 포함할 수 있으며, 입출력 인터페이스는, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 장치 내의 다른 구성요소(들)에 전달할 수 있는 인터페이스의 역할을 할 수 있다.
프로세서(110)는 상기 정형 데이터를 입력 받고, 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하고, 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행한다.
프로세서(110)에서 수행되는 정형 데이터의 그래프 모델링 방법은 하기 도 3 내지 도 9에서 상세히 설명한다.
메모리(120)는 상기 그래프 모델링을 수행하여 생성되거나 갱신된 그래프 모델을 저장한다.
메모리(120)는, 프로세서(110) 또는 다른 구성 요소들로부터 수신되거나 프로세서(110) 또는 다른 구성 요소들에 의해 생성된 명령 또는 데이터를 저장할 수 있다. 메모리(120)는 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API, application programming interface), 실행파일 등의 프로그래밍 모듈을 포함할 수 있다. 상술한 각각의 프로그래밍 모듈들은 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다.
도 3은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법을 나타낸 흐름도이다.
본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법은 트랜잭션 데이터(Transaction data)를 전처리 하여 그래프 데이터(Graph data)를 추출하는 방법으로서, 사전에 준비되어 있어야 할 인풋 데이터는 비-네트워크 데이터로서, 하나의 행(row)에 하나의 트랜잭션(transaction) 또는 이벤트(event)정보를 갖고 있고, 열(column)에는 각 트랜잭션(transaction) 또는 이벤트(event)를 특징짓는 다양한 속성값이 기록된 데이터 테이블이다.
프로세서는 데이터 테이블에서 사용자 입력으로 (1) 소스 노드(Source Node) 컬럼 지정, (2) 타겟 노드(Target Node) 컬럼 지정, (3) 소스 노드 속성(Source Node Attribute) 컬럼 지정, (4) 타겟 노드 속성(Target Node Attribute) 컬럼 지정, (5) 링크 속성(Link Attribute) 컬럼 지정, (6) 링크 가중치(Link Weight) 컬럼 지정, (7) 1-모드/2-모드 네트워크(1-mode/2-mode Network) 선택, (8) 멀티그래프(Multigraph) 처리 방식 선택을 수행하고, 사용자 선택을 반영하여 그래프 데이터(Graph data)를 구성한다.
구체적으로, 도 3을 참조하면, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법은 그래프 모델링 장치가, 정형 데이터를 입력 받는 단계(S100)에서 시작한다.
여기서, 정형 데이터는, 비-네트워크 데이터이며, 그래프 모델링은, 네트워크 분석 기법에 기반한 것이다.
비-네트워크 데이터는 노드(node) 와 엣지(edge)로 이뤄진 자료 구조가 아닌 데이터로서, 각종 데이터가 별도의 지정된 형태로만 저장된 데이터이다.
네트워크 분석 기법은 데이터를 분석할 때 개체에 대한 분석과 함께 개체 간의 관계를 분석하기 위한 방법이며, 이를 통해 데이터의 모델링이 가능해진다.
단계 S200에서 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택한다.
여기서, 다수의 항목들이란 각각의 열(column)에서 트랜잭션(transaction) 또는 이벤트(event)를 특징짓는 다양한 속성값을 의미하는 항목들을 의미하며, 식별된 항목별로 구분된 데이터 집합들은, 소스 노드에 관한 집합, 타겟 노드에 관한 집합 및 상기 소스 노드와 상기 타겟 노드간의 링크에 관한 집합을 포함한다.
구체적으로, 복수의 이벤트 정보들에서 소스 노드에 관한 특징과 관련된 키워드를 포함하는 소스 노드 항목을 식별하여, 상기 소스 노드 항목에 대해 구분된 소스 노드에 관한 집합을 선택한다.
이후, 복수의 이벤트 정보들에서 타겟 노드에 관한 특징과 관련된 키워드를 포함하는 타겟 노드 항목을 식별하여, 상기 타겟 노드 항목에 대해 구분된 타겟 노드에 관한 집합을 선택한다.
여기서, 소스 노드란 그래프를 모델링을 수행하고자 하는 제1 개체를 의미하며, 타겟 노드란 상기 소스 노드와 상호 관련이 있을 것으로 생각되는 제2 개체를 의미한다. 본 발명의 일 실시예에서는 데이터가 항목별로 구분되어 있으므로, 소스 노드 항목과 타겟 노드 항목을 먼저 식별한 후, 식별된 데이터의 집합에 포함된 데이터들 간의 조합에 따라 그래프를 모델링하게 된다.
이후, 복수의 이벤트 정보들에서 상기 소스 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 소스 노드 속성 항목을 식별하여, 소스 노드 속성 항목에 대해 구분된 소스 노드 속성에 관한 집합을 선택한다.
이후, 복수의 이벤트 정보들에서 상기 타겟 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 타겟 노드 속성 항목을 식별하여, 상기 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합을 선택한다.
이후, 복수의 이벤트 정보들에서 상기 소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드를 포함하는 링크 속성 항목을 식별하여, 상기 링크 속성 항목에 대해 구분된 링크에 관한 집합을 선택한다.
단계 S300에서 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행한다.
구체적으로, 소스 노드 항목과 상기 타겟 노드 항목을 각각 소스 노드와 타겟 노드로 지정한다.
이후, 소스 노드와 상기 타겟 노드를 연결하는 링크를 생성한다.
이후, 상기 소스 노드 속성에 관한 집합에 포함되는 데이터들과 상기 타겟 노드 속성에 관한 집합에 포함되는 데이터들을 이용하여 상기 소스 노드와 상기 타겟 노드에 대해 속성값을 부여한다.
이후, 상기 소스 노드에 관한 집합에 포함되는 데이터들과 상기 타겟 노드에 관한 집합에 포함되는 데이터들 사이에 연결된 링크 생성 빈도수 또는 상기 링크에 관한 집합에 포함되는 데이터들에 따라 연결 가중치를 결정한다.
여기서, 상기 단계 S200 내지 단계 S300은 정형 데이터에서 소스 노드 및 타겟 노드를 표시하는 과정, 소스 노드 및 타겟 노드 사이의 관계를 지시하는 사용자 입력을 획득하는 과정, 상기 사용자 입력에 기초하여, 소스 노드 및 타겟 노드 사이의 관계 구조를 표시하는 과정으로 수행될 수 있다.
도 4은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법의 그래프 모델링 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 정형 데이터와 생성된 그래프 데이터(Graph data)를 예로 들어 도시한 것이다.
트랜잭션 데이터는 그래프 모델링(graph modeling)이라는 처리과정을 거쳐 그래프 데이터(graph data)로 변환될 수 있다. 즉, 트랜잭션 데이터의 각 이벤트에 등장하는 개체의 쌍(pair)이 링크(link)로 정의되며, 이벤트의 속성이 링크의 속성으로, 그리고 각 개체가 노드(node)로 정의되게 된다. 트랜잭션 데이터 자체가 다중모드(multi-mode) 그래프 데이터의 형식을 띄고 있으므로, 개체의 조합을 어떻게 정의하느냐에 따라 1모드 네트워크(1-mode network) 또는 2모드 네트워크(2-mode network)로 모델링 된다.
도 4에서는 정형 데이터를 보험 종목과 피보험자, 계약자로 예로 들어 도시하였으나, 이에 한정되는 것은 아니고, 다양한 분야의 이벤트 정보와 이벤트 속성에 관한 정보가 포함된 데이터를 이용하여 그래프 데이터를 생성할 수 있다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법에서 입력되는 트랜잭션 데이터(Transaction data)는 하나의 행(row)에 하나의 트랜잭션(transaction) 또는 이벤트(event)정보를 포함하여, 순번에 따라 다수의 이벤트(event)정보(E)가 나열된다. 여기서, 순번은 이벤트 정보 저장 순서이거나 특정 항목의 정렬 순서에 따라 재배열하는 것이 가능하다.
열(column)(C)에는 각 트랜잭션(transaction) 또는 이벤트(event)를 특징짓는 다양한 속성값이 기록된다.
프로세서는, 입력되는 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택한다.
여기서, 다수의 항목들이란 각각의 열(column)에서 트랜잭션(transaction) 또는 이벤트(event)를 특징짓는 다양한 속성값을 의미하는 항목들을 의미한다.
열(column) 각각은 최상단에 데이터들의 속성을 의미하는 키워드로 구분되며, 하단에 해당 항목별 데이터가 나열된다. 예를 들어, 항목이 '회사'인 경우, 데이터 집합에는 S생명, H해상 등의 데이터가 포함되며, 항목이 '병원이름'인 경우, 데이터 집합에는 S병원, Y병원, G병원 등의 데이터가 포함된다.
식별된 항목별로 구분된 데이터 집합들은, 그래프 모델링을 수행하기 위해 각각 소스 노드에 관한 집합, 타겟 노드에 관한 집합 및 상기 소스 노드와 상기 타겟 노드간의 링크에 관한 집합을 포함하여 구분된다.
이후, 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행한다.
예를 들어, 소스 노드가 계약자(N1)이고, 타겟 노드가 피보험자(N2)인 경우, 소스 노드에 관한 집합에 포함되는 데이터인 'NYN'(N1)은 타겟 노드에 관한 집합에 포함되는 데이터인 'KSE'(N2a), 'HKD'(N2b)와 각각 링크를 생성할 수 있다.
또한, 소스 노드가 설계사(N3)이고, 타겟 노드가 병원이름(N4)인 경우, 소스 노드에 관한 집합에 포함되는 데이터인 'K'(N3)는 타겟 노드에 관한 집합에 포함되는 데이터인 'G병원'(N4a), 'C병원'(N4b), 'Y병원'(N4c), 'S병원'(N4d), 'H병원'(N4e), 'I병원'(N4f)와 각각 링크를 생성할 수 있다.
이에 따라, 소스 노드와 타겟 노드로 지정되는 항목의 차이에 따라, 그래프 모델의 패턴이 다르게 구성되는 것을 확인할 수 있다.
본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법에 따라, 소스 노드와 타겟 노드를 지정하고, 소스 노드 속성, 타겟 노드 속성, 링크 속성을 부여하는 과정을 도 5 내지 도 9를 이용하여 더욱 상세히 설명한다.
도 5 내지 도 9는 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법을 구체적으로 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 정형 데이터의 복수의 이벤트 정보들에서 식별되는 다수의 항목별로 구분된 데이터 집합들을 나타낸 것이다.
도 5에서는 트랜잭션 데이터의 샘플을 <sales> 분야로 예로 들어 도시한 것이다.
구체적으로, 행(row)에 구매자 정보와 제품 정보가 포함된 이벤트(event)정보(E)가 구매일 순으로 나열되어 있으며, 열(column)에 구매일(Date), 구매 사이트(Website), 제품_ID(Product_ID), 제품_이름(Product_Name), 구매자_ID(Customer_ID), 구매자_이름(Customer_Name), 단위 가격(Unit Price), 수량(Quantity), 가격(Price)으로 항목이 구분되어 있다.
프로세서는 정형 데이터에 포함된 복수의 이벤트 정보들(E)에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하게 된다.
여기서, 식별된 항목별로 구분된 데이터 집합들은, 소스 노드에 관한 집합, 타겟 노드에 관한 집합 및 상기 소스 노드와 상기 타겟 노드간의 링크에 관한 집합을 포함한다.
먼저, 복수의 이벤트 정보들에서 소스 노드에 관한 특징과 관련된 키워드(212)를 포함하는 소스 노드 항목(211)을 식별하여, 상기 소스 노드 항목에 대해 구분된 소스 노드에 관한 집합(210)을 선택한다.
여기서, 소스 노드에 관한 특징과 관련된 키워드(212)는 소스 노드를 고객으로 지정할 경우, 고객(Customer)과 관련된 내용이거나, 관련된 내용을 포함하거나, 유사한 내용인 키워드를 의미한다. 본 발명의 일 실시예에서는 고객(Customer)과 관련된 키워드를 포함하는 구매자_ID(Customer_ID)로 소스 노드 항목(211)을 식별하여, 상기 소스 노드 항목에 대해 구분된 소스 노드에 관한 집합(210)을 선택한다.
이후, 복수의 이벤트 정보들에서 타겟 노드에 관한 특징과 관련된 키워드를 포함하는 타겟 노드 항목을 식별하여, 상기 타겟 노드 항목에 대해 구분된 타겟 노드에 관한 집합을 선택한다.
여기서, 타겟 노드에 관한 특징과 관련된 키워드(222)는 타겟 노드를 제품으로 지정할 경우, 제품(Product)과 관련된 내용이거나, 관련된 내용을 포함하거나, 유사한 내용인 키워드를 의미한다. 본 발명의 일 실시예에서는 제품(Product)과 관련된 키워드를 포함하는 제품_ID(Product_ID)로 타겟 노드 항목(221)을 식별하여, 상기 타겟 노드 항목에 대해 구분된 타겟 노드에 관한 집합(220)을 선택한다.
이후, 복수의 이벤트 정보들에서 상기 소스 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 소스 노드 속성 항목을 식별하여, 소스 노드 속성 항목에 대해 구분된 소스 노드 속성에 관한 집합을 선택한다.
여기서, 소스 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 소스 노드 속성 항목은, 소스 노드 항목의 키워드인 고객(Customer)(242)와 유사한 키워드가 포함된 구매자_이름(Customer_Name)으로 소스 노드 속성 항목(241)을 식별하여 소스 노드 속성 항목에 대해 구분된 소스 노드 속성에 관한 집합(240)을 선택한다.
소스 노드와 소스 노드 속성 모두 고객(Customer) 키워드를 포함하고 있으나, 구매자_이름(Customer_Name)의 경우 포함된 데이터가 더 구체적인 데이터를 포함하고 있으므로 소스 노드 속성으로 선택한다.
이후, 복수의 이벤트 정보들에서 상기 타겟 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 타겟 노드 속성 항목을 식별하여, 상기 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합을 선택한다.
여기서, 타겟 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 타겟 노드 속성 항목은, 타겟 노드 항목의 키워드인 제품(Product)(252)와 유사한 키워드가 포함된 제품_이름(Product_Name)으로 타겟 노드 속성 항목(251)을 식별하여 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합(250)을 선택한다.
타겟 노드와 타겟 노드 속성 모두 제품(Product) 키워드를 포함하고 있으나, 제품_이름(Product_Name)의 경우 포함된 데이터가 더 구체적인 데이터를 포함하고 있으므로 타겟 노드 속성으로 선택한다.
또한, 타겟 노드 항목의 키워드인 제품(Product)과 관련된 단위 가격(Unit Price)으로 타겟 노드 속성 항목(261)을 식별하여 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합(260)을 선택한다.
이후, 복수의 이벤트 정보들에서 상기 소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드를 포함하는 링크 속성 항목을 식별하여, 상기 링크 속성 항목에 대해 구분된 링크에 관한 집합을 선택한다.
여기서, 링크는 소스 노드와 타겟 노드의 관계를 의미하며, 링크 각각의 관계는 두 개의 노드가 어떻게 연결되어 있는지를 나타낸다.
소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드는 구매일(Date), 구매 사이트(Website), 수량(Quantity)에 관한 것이며, 이를 포함하는 링크 속성 항목(273, 274, 281)을 각각 식별하여 각각의 링크 속성 항목에 대해 구분된 링크에 관한 집합들(270, 280)을 선택한다.
또한, 링크에 관한 집합에서 링크 속성 항목 이외에 링크 연결 가중치를 결정하기 위해 소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드인 가격(Price)을 포함하는 항목(291)을 식별하여 링크 연결 가중치를 결정하기 위한 링크에 관한 집합(291)을 선택할 수 있다.
이후, 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행한다.
즉, 소스 노드에 관한 집합(210)에 포함되는 데이터들과 타겟 노드에 관한 집합(220)에 포함되는 데이터들 간의 링크(230)를 연결하게 된다.
도 6은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법에서 소스 노드와 타겟 노드 지정을 나타낸 것이다.
프로세서는, 구매자_ID(Customer_ID)에 해당하는 소스 노드 항목(210)과 제품_ID(Product_ID)에 해당하는 타겟 노드 항목(220)을 각각 고객에 해당하는 소스 노드(310)와 제품에 해당하는 타겟 노드(320)로 지정한다. 이후, 소스 노드와 상기 타겟 노드를 연결하는 링크(330)를 생성한다.
또한, 구매자_이름(Customer_Name)에 해당하는 소스 노드 항목(240)과 구매 사이트(Website)에 해당하는 타겟 노드 항목(271)을 각각 고객에 해당하는 소스 노드(310)와 웹사이트에 해당하는 타겟 노드(370)로 지정한다. 이후, 소스 노드와 상기 타겟 노드를 연결하는 링크(380)를 생성한다.
이를 통해, 하나의 비-네트워크 데이터를 이용하여 각각 다른 항목의 소스 노드와 타겟 노드를 지정함에 따라 다른 항목간의 상호 관계를 확인하는 그래프 모델 생성이 가능함을 확인할 수 있다.
도 7은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법에서 소스 노드와 타겟 노드에 대해 속성값을 부여하는 것을 나타낸 것이다.
프로세서는, 소스 노드 속성에 관한 집합에 포함되는 데이터들과 상기 타겟 노드 속성에 관한 집합에 포함되는 데이터들을 이용하여 상기 소스 노드와 상기 타겟 노드에 대해 속성값을 부여한다.
구체적으로, 구매자_ID(Customer_ID)에 해당하는 소스 노드 항목(210)과 제품_ID(Product_ID)에 해당하는 타겟 노드 항목(220)을 각각 고객에 해당하는 소스 노드(310)와 제품에 해당하는 타겟 노드(320)로 지정한다. 이후, 소스 노드와 상기 타겟 노드를 연결하는 링크(330)를 생성하고, 구매자_이름(Customer_Name)에 해당하는 소스 노드 속성에 관한 집합(240)에 포함되는 데이터들을 이용하여 소스 노드에 속성값을 부여하며, 본 발명의 일 실시예에서는 고객ID, 고객명, 성별을 포함하는 데이터(341)를 이용한다.
또한, 제품_이름(Product_Name)에 해당하는 타겟 노드 속성에 관한 집합(250)에 포함되는 데이터들을 이용하여 타겟 노드에 속성값을 부여하며, 본 발명의 일 실시예에서는 제품ID, 제품명, 단가를 포함하는 데이터(351)를 이용한다.
이후, 단위 가격(Unit Price)에 해당하는 링크에 관한 집합(260)에 포함되는 데이터들을 이용하여 링크에 속성값을 부여하며, 본 발명의 일 실시예에서는 일자, 총액, 수량을 포함하는 데이터(361)를 이용한다.
구매자_이름(Customer_Name)에 해당하는 소스 노드 항목(240)과 구매 사이트(Website)에 해당하는 타겟 노드 항목(271)을 각각 고객에 해당하는 소스 노드(310)와 웹사이트에 해당하는 타겟 노드(370)로 지정하는 경우에는, 구매 사이트(Website)에 해당하는 타겟 노드 속성에 관한 집합(271)에 포함되는 데이터들을 이용하여 타겟 노드에 속성값을 부여하며, 본 발명의 일 실시예에서는 사이트명, 주소를 포함하는 데이터(371)를 이용한다.
이후, 상기 소스 노드에 관한 집합에 포함되는 데이터들과 상기 타겟 노드에 관한 집합에 포함되는 데이터들 사이에 연결된 링크 생성 빈도수 또는 상기 링크에 관한 집합에 포함되는 데이터들에 따라 연결 가중치를 결정한다.
도 8은 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법에서 1-모드/2-모드 네트워크(1-mode/2-mode Network)를 나타낸 것이다.
본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법은 네트워크 타입을 선택 가능하다.
도 8의 좌측은 2개의 노드셋(Nodeset)과 2-모드 네트워크(2-mode Network)를 도시한 것이고, 도 8의 우측은 1개의 노드셋(Nodeset)과 1-모드 네트워크(1-mode Network)를 도시한 것이다.
노드셋(Nodeset)간의 교집합 없으면, 2-모드 네트워크(2-mode Network)로 자동 분류하며, 노드셋(Nodeset)간의 교집합 있으면, 1-모드 네트워크(1-mode Network)로 자동 분류한다.
이후, 멀티그래프(Multigraph) 처리 방식 선택을 수행하고, 사용자 선택을 반영하여 그래프 데이터(Graph data)를 구성한다.
도 9는 본 발명의 일 실시예에 따른 정형 데이터의 그래프 모델링 방법에서 노드셋(NodeSet), 링크셋(LinkSet)을 정의한 것을 예로 들어 나타낸 것이다.
도 9를 참조하면, 정형 데이터의 구매자_이름(Customer_Name) 항목(241)과 제품_이름(Product_Name) 항목(251)을 이용하여 소스 노드의 이름(341)과 타겟 노드의 이름(351)을 정의할 수 있다.
또한, 정형 데이터의 제목(201)을 이용하여 링크셋(LinkSet)의 이름(301)을 정의할 수 있으며 본 발명의 일 실시예에서는 'Sales (Product-Customer) Network'로 정의할 수 있다.
본 발명의 또 다른 실시예에 따르면, 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하는 단계 및 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 단계를 포함하는 정형 데이터의 그래프 모델링 방법을 실행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.
이러한 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
10: 정형 데이터의 그래프 모델링 장치
110: 프로세서
120: 메모리
130: 입력부

Claims (10)

  1. 그래프 모델링 장치가 수행하는 그래프 모델링 방법에 있어서,
    정형 데이터를 입력 받는 단계;
    상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하는 단계; 및
    상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 단계;를 포함하고,
    상기 식별된 항목별로 구분된 데이터 집합들은,
    소스 노드에 관한 집합, 타겟 노드에 관한 집합 및 상기 소스 노드와 상기 타겟 노드간의 링크에 관한 집합을 포함하며,
    상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하는 단계는,
    상기 복수의 이벤트 정보들에서 소스 노드에 관한 특징과 관련된 키워드를 포함하는 소스 노드 항목을 식별하여, 상기 소스 노드 항목에 대해 구분된 소스 노드에 관한 집합을 선택하는 단계;
    상기 복수의 이벤트 정보들에서 타겟 노드에 관한 특징과 관련된 키워드를 포함하는 타겟 노드 항목을 식별하여, 상기 타겟 노드 항목에 대해 구분된 타겟 노드에 관한 집합을 선택하는 단계;
    상기 복수의 이벤트 정보들에서 상기 소스 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 소스 노드 속성 항목을 식별하여, 소스 노드 속성 항목에 대해 구분된 소스 노드 속성에 관한 집합을 선택하는 단계; 및
    상기 복수의 이벤트 정보들에서 상기 타겟 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 타겟 노드 속성 항목을 식별하여, 상기 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합을 선택하는 단계를 포함하고,
    상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 각각의 항목별로 구분된 데이터 집합들을 선택하는 단계는,
    상기 복수의 이벤트 정보들에서 상기 소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드를 포함하는 링크 속성 항목을 식별하여, 상기 링크 속성 항목에 대해 구분된 링크에 관한 집합을 선택하는 단계를 포함하여 수행되는 정형 데이터의 그래프 모델링 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 정형 데이터는, 비-네트워크 데이터인 것을 특징으로 하는 정형 데이터의 그래프 모델링 방법.
  4. 제3항에 있어서,
    상기 그래프 모델링은, 네트워크 분석 기법에 기반한 것을 특징으로 하는 정형 데이터의 그래프 모델링 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 제1항에 있어서,
    상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 단계는,
    상기 소스 노드 항목과 상기 타겟 노드 항목을 각각 소스 노드와 타겟 노드로 지정하는 단계;
    상기 소스 노드와 상기 타겟 노드를 연결하는 링크를 생성하는 단계;
    상기 소스 노드 속성에 관한 집합에 포함되는 데이터들과 상기 타겟 노드 속성에 관한 집합에 포함되는 데이터들을 이용하여 상기 소스 노드와 상기 타겟 노드에 대해 속성값을 부여하는 단계; 및
    상기 소스 노드에 관한 집합에 포함되는 데이터들과 상기 타겟 노드에 관한 집합에 포함되는 데이터들 사이에 연결된 링크 생성 빈도수 또는 상기 링크에 관한 집합에 포함되는 데이터들에 따라 연결 가중치를 결정하는 단계;를 더 포함하여 수행되는 정형 데이터의 그래프 모델링 방법.
  9. 컴퓨팅 장치와 연결되어 상기 컴퓨팅 장치로부터 정형 데이터를 획득하는 입력부;
    상기 정형 데이터를 입력 받고, 상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하고, 상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 프로세서; 및
    상기 그래프 모델링을 수행하여 생성되거나 갱신된 그래프 모델을 저장하는 메모리;를 포함하되,
    상기 식별된 항목별로 구분된 데이터 집합들은,
    소스 노드에 관한 집합, 타겟 노드에 관한 집합 및 상기 소스 노드와 상기 타겟 노드간의 링크에 관한 집합을 포함하며,
    상기 프로세서는,
    상기 복수의 이벤트 정보들에서 소스 노드에 관한 특징과 관련된 키워드를 포함하는 소스 노드 항목을 식별하여, 상기 소스 노드 항목에 대해 구분된 소스 노드에 관한 집합을 선택하고, 상기 복수의 이벤트 정보들에서 타겟 노드에 관한 특징과 관련된 키워드를 포함하는 타겟 노드 항목을 식별하여, 상기 타겟 노드 항목에 대해 구분된 타겟 노드에 관한 집합을 선택하며, 상기 복수의 이벤트 정보들에서 상기 소스 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 소스 노드 속성 항목을 식별하여, 소스 노드 속성 항목에 대해 구분된 소스 노드 속성에 관한 집합을 선택하고, 상기 복수의 이벤트 정보들에서 상기 타겟 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 타겟 노드 속성 항목을 식별하여, 상기 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합을 선택하며, 상기 복수의 이벤트 정보들에서 상기 소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드를 포함하는 링크 속성 항목을 식별하여, 상기 링크 속성 항목에 대해 구분된 링크에 관한 집합을 선택하는
    정형 데이터의 그래프 모델링 장치.
  10. 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하는 단계; 및
    상기 식별된 항목별로 구분된 데이터 집합들에 포함되는 데이터들을 이용하여, 상기 데이터 집합들 간의 상호 관련성을 나타내는 조합에 따라 그래프 모델링을 수행하는 단계;를 포함하고,
    상기 식별된 항목별로 구분된 데이터 집합들은,
    소스 노드에 관한 집합, 타겟 노드에 관한 집합 및 상기 소스 노드와 상기 타겟 노드간의 링크에 관한 집합을 포함하며,
    상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 다수의 항목들을 식별하여 상기 식별된 항목별로 구분된 데이터 집합들을 선택하는 단계는,
    상기 복수의 이벤트 정보들에서 소스 노드에 관한 특징과 관련된 키워드를 포함하는 소스 노드 항목을 식별하여, 상기 소스 노드 항목에 대해 구분된 소스 노드에 관한 집합을 선택하는 단계;
    상기 복수의 이벤트 정보들에서 타겟 노드에 관한 특징과 관련된 키워드를 포함하는 타겟 노드 항목을 식별하여, 상기 타겟 노드 항목에 대해 구분된 타겟 노드에 관한 집합을 선택하는 단계;
    상기 복수의 이벤트 정보들에서 상기 소스 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 소스 노드 속성 항목을 식별하여, 소스 노드 속성 항목에 대해 구분된 소스 노드 속성에 관한 집합을 선택하는 단계; 및
    상기 복수의 이벤트 정보들에서 상기 타겟 노드 항목의 키워드와 적어도 일부가 유사한 키워드가 포함된 타겟 노드 속성 항목을 식별하여, 상기 타겟 노드 속성 항목에 대해 구분된 타겟 노드 속성에 관한 집합을 선택하는 단계를 포함하고,
    상기 정형 데이터에 포함된 복수의 이벤트 정보들에서 각각의 항목별로 구분된 데이터 집합들을 선택하는 단계는,
    상기 복수의 이벤트 정보들에서 상기 소스 노드와 상기 타겟 노드간의 링크와 관련된 키워드를 포함하는 링크 속성 항목을 식별하여, 상기 링크 속성 항목에 대해 구분된 링크에 관한 집합을 선택하는 단계를 포함하여 수행하는 정형 데이터의 그래프 모델링 방법을 실행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
KR1020210076100A 2021-06-11 2021-06-11 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치 KR102345890B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210076100A KR102345890B1 (ko) 2021-06-11 2021-06-11 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210076100A KR102345890B1 (ko) 2021-06-11 2021-06-11 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치

Publications (1)

Publication Number Publication Date
KR102345890B1 true KR102345890B1 (ko) 2022-01-03

Family

ID=79348400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210076100A KR102345890B1 (ko) 2021-06-11 2021-06-11 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치

Country Status (1)

Country Link
KR (1) KR102345890B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120073841A (ko) * 2010-12-27 2012-07-05 한국전자통신연구원 포렌식 데이터의 데이터테이블 생성 장치 및 방법
US20170103125A1 (en) * 2015-10-08 2017-04-13 Samsung Electronics Co., Ltd. Apparatus and method of exploring and accessing relevant data from big data repository
KR20170062358A (ko) * 2015-11-27 2017-06-07 한국전자통신연구원 정형 스트림 데이터 처리장치 및 처리방법
KR101764674B1 (ko) * 2017-01-06 2017-08-03 한국인터넷진흥원 침해 자원에 대한 그래프 데이터베이스 생성 방법 및 그 장치
KR101987915B1 (ko) * 2017-12-22 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120073841A (ko) * 2010-12-27 2012-07-05 한국전자통신연구원 포렌식 데이터의 데이터테이블 생성 장치 및 방법
US20170103125A1 (en) * 2015-10-08 2017-04-13 Samsung Electronics Co., Ltd. Apparatus and method of exploring and accessing relevant data from big data repository
KR20170062358A (ko) * 2015-11-27 2017-06-07 한국전자통신연구원 정형 스트림 데이터 처리장치 및 처리방법
KR101764674B1 (ko) * 2017-01-06 2017-08-03 한국인터넷진흥원 침해 자원에 대한 그래프 데이터베이스 생성 방법 및 그 장치
KR101987915B1 (ko) * 2017-12-22 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템

Similar Documents

Publication Publication Date Title
Li et al. Extracting object-centric event logs to support process mining on databases
EP2124176A1 (en) Task analysis program and task analyzer
US20160004757A1 (en) Data management method, data management device and storage medium
CA2935281C (en) A multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships
US9489433B2 (en) User interface for predictive model generation
US9268842B2 (en) Information processing apparatus, control method for the same, and computer-readable recording medium
Idowu et al. Asset management in machine learning: A survey
Aljumaili et al. Metadata-based data quality assessment
Rokis et al. Exploring Low-Code Development: A Comprehensive Literature Review
Berti et al. A generic approach to extract object-centric event data from databases supporting SAP ERP
US20080208528A1 (en) Apparatus and method for quantitatively measuring the balance within a balanced scorecard
JP2020013413A (ja) 判断支援装置および判断支援方法
JP6800716B2 (ja) データ分析装置、データ分析方法、及びデータ分析プログラム
Hübner et al. Using interaction data for continuous creation of trace links between source code and requirements in issue tracking systems
JP6120607B2 (ja) 要件検出装置及び要件検出プログラム
KR102345890B1 (ko) 정형 데이터의 그래프 모델링 방법 및 그래프 모델링 장치
Khayatbashi et al. Transforming event knowledge graph to object-centric event logs: A comparative study for multi-dimensional process analysis
US20100145748A1 (en) Information technology planning based on enterprise architecture
KR102375668B1 (ko) 그래프 표현 학습 모델의 생성 방법
CN111415213B (zh) 认知采购
Moreira et al. Towards a Models Traceability and Synchronization Approach of an Enterprise Architecture.
Nátz et al. Methods of functional measurement of software
BAYKAL et al. Performance analysis of classification algorithms of several data mining softwares
Breitmayer et al. Deriving Event Logs from Legacy Software Systems
Trabelsi et al. Employing Data and Process Mining Techniques for Redundancy Detection and Analystics in Business Processes.

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant