KR102449580B1 - 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법 - Google Patents

컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법 Download PDF

Info

Publication number
KR102449580B1
KR102449580B1 KR1020210020053A KR20210020053A KR102449580B1 KR 102449580 B1 KR102449580 B1 KR 102449580B1 KR 1020210020053 A KR1020210020053 A KR 1020210020053A KR 20210020053 A KR20210020053 A KR 20210020053A KR 102449580 B1 KR102449580 B1 KR 102449580B1
Authority
KR
South Korea
Prior art keywords
component
data
analysis
module
present
Prior art date
Application number
KR1020210020053A
Other languages
English (en)
Other versions
KR20220116781A (ko
Inventor
박호진
서지수
선영욱
황지원
임승범
이상희
안영민
채종현
하태빈
강윤기
Original Assignee
(주)아이브릭스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이브릭스 filed Critical (주)아이브릭스
Priority to KR1020210020053A priority Critical patent/KR102449580B1/ko
Publication of KR20220116781A publication Critical patent/KR20220116781A/ko
Application granted granted Critical
Publication of KR102449580B1 publication Critical patent/KR102449580B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus

Abstract

본 발명은 플로우 및 대시보드를 포함하는 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법에 관합니다.
본 발명의 플로우는 컴포넌트 설정 모듈 및 컴포넌트 연결 모듈을 포함합니다. 또한, 대시보드는 시각화 모듈, 보드 구성 모듈 및 리포팅 모듈을 포함합니다. 즉 본 발명은 컴포넌트 네트워크 구조를 통해 비정형 데이터를 사용자 정의 설정으로 분석하는 플로우와, 분석된 데이터의 통계치를 차트와 같은 차트 위젯을 통해 표현하는 대시보드로 구성된 웹 기반 애플리케이션에 관한 발명입니다.

Description

컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법{THE UNSTRUCTURED DATA ANALYSIS METHOD USING COMPONENT NETWORK BASED ANALYSIS SYSTEM}
본 발명은 텍스트 분석 및 처리 기술에 관하며, 특히 비정형 텍스트 데이터를 분석하고 시각화하는 기술에 관한다.
데이터는 매일 생성되고 있으며, 생성되는 데이터의 양은 날로 증가하고 있다. 바야흐로 빅데이터의 세상이 된 것이다. 빅데이터를 종합적으로 분석함으로써 우리는 통찰력 있는 분석결과를 도출할 수 있다. 이것이 4차 산업혁명 시대의 핵심이 되고 있다. 특히 비정형 데이터가 포함되어 있는 대량의 텍스트 데이터의 처리와 분석 작업이 더욱 중요해지고 있다.
비정형 데이터 분석은 다양한 활용 분야로 확대되고 있다. 대표적으로 SNS(Social Networking Service), VoC(Voice of Customer) 분석 등의 사례가 그러하다. SNS, VoC와 같은 비정형 텍스트 기반의 분석 결과를 얻기 위해서는 자연어 처리가 필수적이다. 비정형 텍스트 분석의 첫 단계는 형태소 분석이다. 일반적으로 우리가 사용하는 핵심 키워드는 주로 명사 위주이기 때문에 비정형 텍스트를 형태소 단위로 분리하여 선택/취하 하게 된다. 비정형 텍스트를 공백 기준으로 처리할 경우 분석 결과에 신뢰도가 없어지게 되므로(조사나 용언의 활용 형태에 따라 다른 단어로 취급되는 문제 등) 형태소 분석이 필요한 것이다. 또한, 형태소 분석 이외에도 분석하려는 문서의 특성, 분석을 활용하는 분야에 따라 추가적인 규칙이 적용될 수 있으며, 품사를 제외하는 과정 또는 품사를 합치는 과정이 추가적으로 필요하게 된다. 신조어 및 오탈자 처리, 동의어, 제외어 등 자연어 처리에서 특정 분석에만 해당하는 처리과정이 필요하기도 하다.
그런데 이러한 추가적인 처리 과정으로 자연어 처리 방법이 수정, 변경된다면, 해당 모듈의 내부 로직을 직접 수정해야 한다. 그 때문에 파이썬 혹은 자바, R과 같은 코딩 기술이 요구되고, 따라서 여러 형태의 데이터를 분석을 하기 위해서는 코딩을 할 수 있는 전문가만이 비정형 텍스트 분석을 할 수 있는 한계가 생기고 말았다.
본 발명의 발명자들은 위와 같은 문제점을 해결하기 위하여 오랫동안 연구하고 서로 토론하면서 개발한 끝에 본 발명을 완성하기에 이르렀다.
선행특허문헌: 대한민국 공개특허공보 제10-2018-0127622호
본 발명의 목적은 코딩 기술을 잘 모르는 비전문가들도 손쉽게 비정형 데이터를 분석할 수 있는 방법론을 제안함에 있다.
즉, 본 발명은 사용자가 따로 코드 작업을 하지 않고 컴포넌트를 설정 및 연결함으로써 데이터에 알맞은 분석 시스템을 구축할 수 있으며, 또한 분석된 데이터를 활용하여 대시보드를 생성할 수 있는 시스템을 제안한다.
본 발명의 발명자들은 모든 컴포넌트에서 필드 설정이 가능하도록 본 발명을 완성하였다. 그러므로 필드별로 다른 전처리를 거칠 수 있다. 또한 텍스트 분석 과정에서 정확성을 높이기 위해 불용어 제외 및 동의어 치환 등의 사전 기능을 사용할 수 있다. 이것은 본 발명의 다른 목적이다.
종래에는 전체 데이터 분석 실행이 한 번 이루어진 후부터 계속해서 증분되는 데이터를 추가적으로 분석하기 위해 대량의 데이터 전부를 다시 실행해야 했다. 그러나 본 발명자들은 기존의 배치 실행이 아니라 새로 수집된 데이터를 대상으로 분석하는 증분 기능을 추가할 수 있도록 시스템을 설계했으므로 빠른 분석이 가능하다. 이것이 본 발명의 또 다른 목적이 되겠다.
또한, 본 발명의 컴포넌트 연결은 N:N 형태로 연결이 가능하다. DEPTH기준에서 병렬적으로 실행이 가능하기 때문에 직렬적인 노드 실행 구조에 비해 대량의 데이터를 빠르게 실행 할 수 있다. 이것이 본 발명의 또 다른 목적이다.
분석된 데이터가 같은 시스템에서 여러 차트를 생성 및 그룹화하여 대시보드로 구성할 수 있다면, 그리고 pdf 및 다양한 방식의 파일로 리포팅이 가능하다면, 사용자는 소유한 데이터를 활용해서 인사이트를 쉽게 도출할 수 있을 것이다. 그런 발명을 완성하는 것이 본 발명의 또 다른 목적이다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론 할 수 있는 범위 내에서 추가적으로 고려될 것이다.
위와 같은 과제를 달성하기 위한 본 발명은 컴퓨터 장치에 의해 실행되며, 플로우 및 대시보드를 포함하는 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법으로서:
상기 플로우는 컴포넌트 설정 모듈 및 컴포넌트 연결 모듈을 포함하고,
사용자 단말의 사용자 화면에서 상기 컴포넌트 설정 모듈을 이용하여 데이터 분석에 필요한 필드와 해당 필드의 전처리 방법을 설정하고, 상기 컴포넌트 연결 모듈을 이용하여 복수의 컴포넌트들을 사용자 화면에서 연결한 후, 이러한 설정과 연결에 따라 상기 분석 시스템을 실행하여 분석결과를 얻는 단계; 및
상기 대시보드를 통해 상기 분석결과에 대한 통계치를 도출하여 시각화를 행하는 단계;를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 어느 실시예에 따른 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법에 있어서, 상기 대시보드는 시각화 모듈, 보드 구성 모듈 및 리포팅 모듈을 포함하고, 상기 시각화 모듈은 컴포넌트 네트워크에서 생성된 분석결과를 선택하여 분석 데이터에 대한 복수의 차트 위젯을 제공할 수 있다.
또한, 본 발명의 바람직한 어느 실시예에 따른 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법에 있어서, 상기 컴포넌트 연결 모듈이 컴포넌트 연결 제약 사항을 미리 설정하는 단계를 더 포함하는 것이 좋다.
또한, 본 발명의 바람직한 어느 실시예에 따른 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법에 있어서, 상기 플로우가 데이터 분석 실행 이후 새로 수집된 증분 데이터에 대한 분석을 증분 데이터에 대해서만 처리하도록 하는 단계를 더 포함할 수 있다.
본 발명은 데이터 분석 시 사용자가 특별한 코딩 작업 없이 컴포넌트를 구성하고 설정 값을 입력하여 분석 시스템을 구축할 수 있는 장점이 있다. 요컨대 비전문가도 쉽게 데이터를 분석 할 수 있다는 것이다.
또한, 본 발명은 증분 분석이 가능하다는 장점이 있다. 초기 실행 외에 증분된 데이터에 대해서는 빠르게 분석을 제공 받을 수 있고 자세한 처리 방식으로 정확한 분석으로 신뢰가 높은 분석 데이터를 제공받을 수 있다.
또한, 여러 데이터 (SNS, VoC 데이터 등)를 입력하여 인사이트를 도출해야 할 경우, 데이터 로드 컴포넌트를 다양하게 생성 후, 각각 전처리작업을 설정한 후 공통의 처리로 병합하는 것이 가능하다.
또한, 컴포넌트 네트워크에서 생성된 데이터를 활용하여 다양한 차트로 대시보드를 생성할 수 있으며 생성된 대시보드를 pdf 및 그 외의 파일 형태로 리포팅이 가능하여 쉽고 편리하게 인사이트를 도출 할 수 있다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 본 발명의 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 플로우 화면의 예이다.
도 3은 본 발명의 바람직한 어느 실시예에 따른 대시보드 화면의 일 예를 나타낸다
도 4 내지 도 18은 본 발명의 바람직한 어느 실시예에 따른 플로우(100)의 설정에 관한 사용자 화면의 예를 나타낸다.
도 19 내지 도 21는 본 발명의 바람직한 어느 실시예에 따른 컴포넌트 연결 제약 사항의 개념을 개략적으로 나타낸다.
도 22는 설정되고 연결된 플로우(100)의 실행 처리 방법의 전체 프로세스를 개략적으로 나타낸다.
도 23은 본 발명의 바람직한 어느 실시예에 따른 시각화 모듈의 리스트를 선택하는 사용자 화면의 예를 도시한다.
도 24는 본 발명의 어느 실시예에 따른 시각화 모듈 기능을 예시하는 사용자 화면이다. 또한 도 25는 시각화 모듈의 사용자 편집 기능을 예시한다.
도 26 본 발명의 보드 구성 모듈에 의해 차트 위젯의 배치 및 크기를 조절하는 예시화면이다.
도 27은 본 발명의 차트 위젯의 그룹화를 보여주는 예시화면이다.
도 28은 본 발명의 리포팅 모듈이 PDF 포맷으로 리포팅을 한 사용자 화면의 예이다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 바람직한 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.
컴퓨터 장치(1)는 비정형 데이터를 수집해서 분석하고 처리하는 프로세서 기능을 하는 장치이다. 바람직한 어느 실시예에서는 하나 이상의 서버 장치로 이해될 수 있다. 바람직한 다른 실시예에서는 관리자 컴퓨터 단말일 수도 있다. 또한 컴퓨터 장치(1)는 하나 이상의 하드웨어/소프트웨어 장비로 구성되며, 비정형 데이터가 보관되어 있는 데이터베이스에 액세스하여 데이터를 수집, 분석, 정제, 분류하는 등의 기능을 처리한다. 컴퓨터 장치(1)에는 다양한 소프트웨어 모듈들이 설치되어 있다. 본 발명의 구성을 보다 편의적으로 설명하기 위해서 도 1에서는 웹 기반의 애플리케이션으로서 컴포넌트 네트워크 기반 분석 시스템(10)만을 나타낸다.
컴포넌트 네트워크 기반 분석 시스템(10)은 데이터베이스(7)에 저장되어 있는 비정형 데이터를 수집해서 분석한다. 컴포넌트 네트워크 기반 분석 시스템(10)은 플로우(100)와 대시보드(200)를 포함한다.
플로우(100)는 컴포넌트 설정 모듈과 컴포넌트 연결 모듈로 구성되어 있다.
컴포넌트 설정 모듈은 데이터 분석에 필요한 필드와 해당 필드의 전처리 방법을 사용자 정의할 수 있다. 컴포넌트 연결 모듈을 통해 분석 흐름에 따라 컴포넌트들을 연결할 수 있다.
본 발명의 컴포넌트 네트워크 기반의 텍스트 분석 시스템의 구축 방법을 먼저 간략하게 설명하면 아래의 프로세스와 같다.
첫째, 플로우를 생성하여 작업 영역에 사용할 컴포넌트를 드래그 앤 드롭한다. 둘째, 분석 흐름에 따라 컴포넌트들을 연결한다. 도 2는 본 발명의 바람직한 어느 실시예에 따른 플로우 화면의 예이다. 셋째, 각 컴포넌트에 맞는 필수 설정값을 입력 및 선택 후 저장한다. 넷째, 분석 시스템 구축을 완료한 후, 작업을 저장한다. 다섯째, 저장 후에는 분석 시스템을 전체 실행 및 증분실행을 할 수 있다. 또는 각 컴포넌트별로 단독 실행을 진행할 수 있다. 여섯째, 실행 진행율은 프로그래스 바(progress bar)로 확인이 가능하며, 실행 중단을 할 수 있다. 일곱째, 각 컴포넌트의 실행 결과와 실행 히스토리는 해당 컴포넌트를 클릭하여 하단에서 확인이 가능하다.
컴포넌트 네트워크 기반의 분석 시스템을 실행한 다음, 생성된 분석 데이터를 기반으로 대시보드(200)를 통해 통계치를 도출할 수 있으며 시각화할 수 있다. 분석된 텍스트 데이터를 시각화하기 위해 대시보드(200)는 시각화 모듈, 보드 구성 모듈, 리포팅 모듈을 포함한다.
상기 시각화 모듈은 컴포넌트 네트워크에서 생성된 분석 결과를 선택하여 해당 데이터를 바탕으로 하는 다양한 차트 위젯들을 제공한다. 시각화 모듈은 텍스트, 그리드차트, 라인차트, 막대차트, 파이차트, 워드 클라우드를 포함하여 구성된다.
보드 구성 모듈은 생성된 차트 위젯을 보드에 배치하고 그룹화하여 여러 분석 결과를 하나의 보드에서 통합적으로 확인 할 수 있다. 이때 차트 위젯은 대시보드 내의 여러 보드에서 재사용할 수 있다.
리포팅 모듈은 구성된 대시보드의 결과물을 PDF, HTML 등으로 제공하여 전사적으로 보고서를 제공할 수 있다.
도 3은 본 발명의 바람직한 어느 실시예에 따른 대시보드 화면의 일 예를 나타낸다.
이제 플로우(100)의 설정과 연결과 실행 처리 방법에 관하여 도 4~도 21을 이용하여 자세히 설명한다.
먼저 컴포넌트 설정 정보의 구체적인 내용은 도 4 내지 도 18에 나타난 바와 같다.
현재 데이터를 불러오는 일, 전처리를 수행하는 작업, 결과 데이터를 출력하는 모든 부분은 컴포넌트를 설정하고 연결함으로써 구축할 수 있다.
도 4는 입력 엔진을 설정하는 화면 시나리오를 예시한다. 이 소프트웨어 엔진으로는 분산형 오픈 소스 검색 및 분석엔진으로 아파치 루씬 기반의 일래스틱서치elasticesearchTM을 사용하였다. 이 엔진에서 분석에 사용할 데이터를 가져온다.
엔진 접속 정보 영역(101)에 호스트 정보와 타임아웃을 입력한다. 또한, 연결 테스트 영역(103)에 위에서 설정한 접속 정보를 통해 연결 여부를 테스트할 수 있다.
다음으로 인덱스 패턴 영역(105)의 텍스트 박스에 인덱스 패턴을 입력하여 일래스틱서치에 저장된 색인 목록을 확인할 수 있다. 인덱스 패턴으로 조회된 인덱스에 포함되어 있는 필드가 목록으로 출력되는데, 이후 연결되는 컴포넌트에서 사용할 필드를 필드 선택 영역(107)에서 선택한다.
도 5는 데이터의 공백을 제거하는 화면 시나리오를 예시한다. 도 5에 나타난 바와 같이, 입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(109)에서 공백을 제거할 필드를 선택한다.
도 6은 데이터의 특정 문자를 사용자가 설정한 다른 문자로 치환하는 화면 시나리오를 예시한다.
정규 표현식 입력 영역(110)에 데이터에서 치환하고자 하는 문자를 정규 표현식으로 입력한다. 그리고 치환문자 설정 영역(112)에 치환할 문자를 입력한다.
입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 그러면 필드 선택 영역(114)에서 치환할 필드를 선택한다.
도 7은 데이터를 공백 기준으로 분리하는 화면 시나리오를 예시한다. 도 7에 나타난 바와 같이, 입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(116)에서 분리할 필드를 선택한다.
도 8은 데이터를 사용자가 설정한 문자를 기준으로 분리하는 화면 시나리오를 예시한다.
정규 표현식 입력 영역(118)에 데이터 분리 기준이 되는 문자를 입력한다. 입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(119)에서 분리할 필드를 선택한다.
도 9는 데이터를 음절개수마다 분리하는 화면 시나리오를 예시한다. 음절개수 입력 영역(120)에 데이터를 분리할 음절개수를 숫자로 입력한다. 그다음 입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(122)에서 분리할 필드를 선택한다.
도 10은 심플 메인 키워드(Simple Main Keyword) 화면 시나리오를 예시한다. 데이터의 출현 빈도(Term Frequency) 혹은 역문헌 출현 빈도(Inverse Document Frequency)와 같은 알고리즘을 적용하여 데이터(단어)와 가중치를 추출할 수 있다.
도 10에 도시된 바와 같이 알고리즘 선택 버튼(124)를 선택하고, 데이터 추출 기준이 되는 알고리즘을 선택한다. 그와 같은 알고리즘으로는 TF, Logarithm TF, Augmented TF, TF*IDF가 있다.
입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(126)에 심플 메인 키워드의 알고리즘을 적용할 필드를 선택한다.
도 11은 탑 N 익스트랙터(Top N Extractor) 화면 시나리오를 예시한다. 가중치 내림차순으로 N개의 데이터(단어 또는 문장)을 추출해서 저장하는 컴포넌트이다.
분리 데이터 개수 설정 영역(128)에서 추출하고자 하는 분리 데이터의 개수를 설정한다.
입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(130)에서 추출할 필드를 선택한다. 단, 심플 메인 키워드 전처리가 실행된 필드만 선택이 가능하다.
도 12는 형태소 분석 필드 선택 사용자 화면의 구성의 예이다. 텍스트 데이터를 형태소 분석하여 형태소 태그와 함께 저장한다.
도시되어 있는 것처럼 입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(132)에서 형태소 분석을 수행할 필드를 선택한다.
도 13은 한국 형태소 조합의 청크(chunk)를 설정하는 사용자 화면의 구성을 나타낸다. 청크 설정 영역(134)에서 조합하고자 하는 형태를 선택한다. 그리고 입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(136)에서 형태소를 조합하고자 하는 필드를 선택한다. 단, 형태소 태깅이 된 필드(형태소 태그와 함께 저장된 데이터)만 선택이 가능하다.
도 14는 본 발명의 일 실시예에 따른 날짜 컨버터 설정 예시 화면을 나타낸다. 날짜와 시간이 조합된 ISO 표준에 맞지 않아 날짜가 인식되지 않은 데이터의 타입을 변경하여 저장해주는 것이다(DATE 타입).
도 14에 나타난 것처럼 날짜 포맷 설정 영역(138)에서 현재 날짜 데이터를 도시된 저장 형식으로 입력한다.
디폴트 영역(140)을 통해 변환된 날짜 데이터의 날짜 형식이 맞지 않거나 빈 값의 데이터에 대한 디폴트 값을 설정한다.
입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(142)에서 DATE 타입으로 변경할 필드를 선택한다.
도 15는 본 발명의 일 실시예에서 동의어 사전(Synonym Dictionary) 설정에 관한 화면 시나리오를 나타낸다.
사전 선택 영역(144)에서 사용할 동의어 사전을 선택한다. 선택한 동의어 사전 내의 각 표제어의 모든 동의어를 해당 표제어로 변경한다.
입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(146)에서 동의어 사전을 적용할 필드를 선택한다. 가중치 및 형태소와 함께 저장된 데이터 필드는 선택이 불가능하다.
도 16은 본 발명의 일 실시예에서 제외어 사전(Stopword Dictionary) 설정에 관한 화면 시나리오를 나타낸다.
사전 선택 영역(148)에서 사용할 제외어 사전을 선택한다.
입력 일래스틱서치 컴포넌트에서 선택된 필드가 목록으로 출력된다. 필드 선택 영역(150)에서 제외어 사전을 적용할 필드를 선택한다. 가중치 및 형태소와 함께 저장된 데이터 필드는 선택이 불가능하다.
도 17은 출력 일래스틱서치 설정 예시 화면의 예를 나타낸다.
상위 컴포넌트에서 처리된 데이터 값을 대시보드에서 활용하기 위해 분석이 가능하도록 데이터를 저장한다. 각 필드의 전처리를 다르게 설정할 수 있으므로 병합 및 분석 기능을 포함하도록 저장하는 형태이다.
필드 선택 영역(152)에서 데이터의 결과값으로서 저장할 필드를 선택한다.
도 18은 본 발명의 바람직한 어느 실시예에 따른 Korean POS Extractor에 관한 화면 시나리오를 나타낸다. 사용자가 원하는 형태소 태그의 형태소만 추출하는 컴포넌트이다.
형태소 태그 선택 영역(154)에서 추출하고자 하는 형태소 태그를 선택한다.
그다음 필드 선택 모듈(156)에서 선택된 태그의 형태소만 추출할 필드를 선택한다. 단, 추출할 필드는 태깅이 된 필드(형태소 태그와 함께 저장된 데이터)만 선택이 가능하다.
도 19 내지 도 23은 본 발명의 바람직한 어느 실시예에 따른 컴포넌트 연결 제약 사항의 개념을 개략적으로 나타낸다.
도 19는 본 발명에 따른 컴포넌트 간의 연결제약을 예시한다.
입력 일래스틱서치(160)는 데이터를 불러오는 컴포넌트로 입력 단자에는 연결이 불가하여 입력단자(왼쪽 단자)가 존재하지 않는다. 마찬가지로, 출력 일래스틱서치(161)는 데이터를 출력하는 컴포넌트로 출력 단자에는 연결이 불가능하여 출력단자(오른쪽 단자)가 존재하지 않는다.
본 발명은 해당 컴포넌트간의 연결을 통해 전처리 과정이 네트워크 흐름에 따라 실행될 수 있다. 그러나 각 컴포넌트의 상호관계가 존재하고 트리구조가 아닌 N:N 네트워크 구조로 연결의 제약 조건이 존재한다. 제약 조건은 다음과 같은데, 제약 사항에 해당하는 구조가 발생시, 사용자 화면의 알림창을 통하여 사용자에게 해당 제약에 대해 설명하며 올바른 방법을 제안하게 된다.
도 20은 본 발명의 바람직한 어느 실시예에 따른 컴포넌트간 연결 제약 사항의 예시이다.
도 20(a)에서 보는 바와 같이, 연결이 되지 않은 컴포넌트(163)는 출력 일래스틱서치 컴포넌트(165)를 통해 저장할 필드가 존재하지 않으므로, 도 20(b)에서 보는 것처럼, 해당 컴포넌트(163)는 출력 일래스틱서치 컴포넌트(165)에 연결되는 것은 불가능하다.
도 21은 본 발명의 바람직한 다른 실시예에 따른 컴포넌트 간 연결 제약 사항의 예시이다.
도 21(a)와 같이 순차적으로 연결되는 컴포넌트는 문제가 없다. 그러나 도 21(b)처럼, 컴포넌트를 연결함에 있어서, 어떤 연결되는 컴포넌트(167)를 이전 처리 단계를 가진 상위 컴포넌트(166)에 출력을 연결할 수 없다. 이는 컴포넌트 처리의 순환 오류를 방지하기 위함이다.
도 22는 설정되고 연결된 플로우(100)의 실행 처리 방법의 전체 프로세스를 개략적으로 나타낸다.
플로우의 실행에는 배치실행과 증분 실행이 존재한다. 플로우를 실행할 때, 중복적으로 실행되는 경우에 데이터 변경 충돌을 방지하고자 실행 토큰을 할당받아 실행하며, 중복실행이 불가하게 구조화되어 있다. 실행 후에는, 실행에 대한 데이터 각각의 실행 여부를 저장하며, 증분된 데이터에 대해서만 증분 처리를 가능하게 한다.
플로우가 현재 실행중인지를 확인한다(S100). 현재 실행 중이 아니어서 실행 가능하다면 실행 토큰을 할당받아 플로우 상태를 실행 중으로 변경한다(S110). 그다음 배치 실행인지를 확인하고(S120), 배치 실행이라면 컴포넌트의 연결정보를 읽어와 실행 DEPTH에 따라 순서를 저장한다(S125). 컴포넌트 연결 정보를 정리하고(S125), 입력일래스틱 컴포넌트에 설정된 모든 데이터를 가져온다(S135). 배치 실행이 아니라면 증분된 데이터를 탐색하고(S130), 플로우 상태를 증분 데이터가 존재 여부에 따라 프로세스를 달리한다(S131) 증분 데이터가 존재하지 않는 경우에는 플로우 상태를 완료로 변경하고(S132), 증분 데이터가 존재하는 경우에 컴포넌트의 연결정보를 읽어와 실행 DEPTH에 따라 순서를 저장한다(S134).
다음으로 실행 순서대로 저장된 변수에 컴포넌트가 존재하는지를 확인한 후에(S140), 실행할 컴포넌트가 없다면 플로우 상태를 완료로 변경하고(S142), 실행할 컴포넌트가 존재하는 경우 실행 뎁쓰(DEPTH)를 탐색하여 하위 컴포넌트들을 실행하고(S145), 컴포넌트의 실행 여부를 확인하기 위하여 데이터 ID를 @type.id에 저장한다(S155).
이상에서 설명한 바와 같이 컴포넌트 네트워크 기반의 분석 시스템을 실행한 다음에는 생성된 분석 데이터를 기반으로 대시보드를 통해 통계치를 도출하여 시각화를 행한다. 즉, 대시보드에서는 플로우의 출력 일랙스틱서치 컴포넌트를 통해 생성된 데이터를 바탕으로 시각화 및 리포팅을 제공한다. 하나의 대시보드는 N(N은 1 이상의 정수이다)개의 보드를 생성할 수 있으며, 보드는 N개의 차트 위젯으로 이루어진다.
앞에서 설명한 도 3은 이러한 본 발명의 바람직한 어느 실시예에 따른 대시보드의 예시화면이다.
대시보드 컴포넌트의 시각화 모듈은 텍스트, 그리드, 라인차트, 막대차트, 파이차트, 워드 클라우드를 포함한다. 사용자는 생성된 텍스트 분석 결과에 알맞은 모듈을 선택하여 대시보드에 크기 및 위치를 자유롭게 배치 가능한 차트 위젯을 생성할 수 있다.
생성된 플로우를 선택하고 플로우에 속한 출력 일래스틱 컴포넌트에서 저장된 데이터를 선택하면 데이터가 보유하고 있는 필드의 리스트와 필드에서 사용할 수 있는 측정값 리스트를 확인할 수 있다. 분석 결과의 문자, 날짜 데이터에 대해서는 개수 측정값, 분석 결과의 숫자 필드에 대해서는 기존에 정의되거나 저장되지 않은 합계, 평균, 최대값, 최소값, 표준편차, 분산 등의 측정값를 사용하여 데이터 시각화를 할 수 있다.
도 23은 이러한 차트 위젯의 리스트를 선택하는 사용자 화면의 예를 도시한다.
또한, 본 발명의 차트 위젯이 플로우의 출력 일래스틱서치 컴포넌트에서 저장된 데이터를 기반으로 시각화를 할 수 있기 때문에 차트를 구성하기 위한 별도의 데이터 셋을 구성할 필요가 없다. 대시보드에 배치할 수 있는 차트 위젯은 시각화 모듈의 선택과 출력 일래스틱서치 컴포넌트의 데이터 필드를 차원값 필드로 드래그 앤 드롭함으로써 간편하게 생성할 수 있다. 한편, 각 시각화 모듈은 필요에 따라 차원값 필드에 대해서 각각의 제약사항을 가진다.
도 24는 본 발명의 어느 실시예에 따른 차트 위젯을 예시하는 사용자 화면이다. 또한 도 25는 대시보드의 사용자 편집 기능을 예시한다.
도 25에 나타난 바와 같이, 시각화 모듈의 사용자 편집 기능을 이용하여 하나의 차트 위젯을 다양하게 설정할 수 있다.
본 발명의 대시보드의 보드 구성 모듈은 생성된 차트 위젯을 드래그 앤 드롭 방식으로 보드에 배치할 수 있으며, 크기를 자유롭게 조절할 수도 있다. 즉, 생성된 대시 보드는 해당하는 대시보드 내의 여러 보드에서 재사용 할 수 있는 것이다.
도 26은 이러한 보드 구성 모듈에 의해 차트 위젯의 배치 및 크기를 조절하는 예시화면이다.
여러 개의 차트 위젯을 그룹화하여 하나의 위젯으로 병합할 수도 있으며, 표현하고자 하는 데이터의 타입이나 성격에 따라 보다 직관적으로 배치하는 것도 가능하다.
도 27은 이러한 차트 위젯의 그룹화를 보여주는 예시화면이다.
본 발명의 대시보드(200)의 리포팅 모듈은 전술한 차트 위젯으로 구성된 Web기반의 대시보드를 PDF, HTML 등으로 제공한다. 즉, 다양한 환경에서 데이터 시각화를 확인하고 손쉽게 전사적으로 공유할 수 있는 장점이 있다.
도 28은 리포팅 모듈이 PDF 포맷으로 리포팅을 한 사용자 화면의 예이다.
참고로, 본 발명의 일 실시예에 따른 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계 되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐 만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (4)

  1. 컴퓨터 장치에 의해 실행되며, 플로우 및 대시보드를 포함하는 웹 기반의 애플리케이션인 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법으로서:
    상기 컴포넌트 네트워크의 기반 분석 시스템은 데이터베이스에 저장되어 있는 비정형 데이터를 수집해서 분석하고,
    상기 플로우는 필드별 전처리를 위해 컴포넌트에서 필드 설정이 가능한 컴포넌트 설정 모듈 및 분석 흐름에 따라 복수의 컴포넌트들을 사용자 화면에서 연결하는 컴포넌트 연결 모듈을 포함하고,
    사용자 단말의 사용자 화면에서 상기 컴포넌트 설정 모듈을 이용하여 데이터 분석에 필요한 필드와 해당 필드의 전처리 방법을 설정하고,
    상기 사용자 단말이 상기 컴포넌트 연결 모듈을 이용하여 복수의 컴포넌트들을 사용자 화면에서 연결한 후, 이러한 설정과 연결에 따라 상기 분석 시스템을 실행하여 분석결과를 얻는 단계; 및
    상기 대시보드를 통해 상기 분석결과에 대한 통계치를 도출하여 시각화를 행하는 단계;를 포함하는, 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법.
  2. 제1항에 있어서,
    상기 대시보드는 시각화 모듈, 보드 구성 모듈 및 리포팅 모듈을 포함하고, 상기 시각화 모듈은 컴포넌트 네트워크에서 생성된 분석결과를 선택하여 분석 데이터에 대한 복수의 차트 위젯을 제공하는 것인, 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법.
  3. 제1항에 있어서,
    상기 컴포넌트 연결 모듈이 컴포넌트 연결 제약 사항을 미리 설정하는 단계를 더 포함하는, 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법.
  4. 제1항에 있어서,
    상기 플로우가 데이터 분석 실행 이후 새로 수집된 증분 데이터에 대한 분석을 증분 데이터에 대해서만 처리하도록 하는 단계를 더 포함하는, 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법.
KR1020210020053A 2021-02-15 2021-02-15 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법 KR102449580B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210020053A KR102449580B1 (ko) 2021-02-15 2021-02-15 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020053A KR102449580B1 (ko) 2021-02-15 2021-02-15 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법

Publications (2)

Publication Number Publication Date
KR20220116781A KR20220116781A (ko) 2022-08-23
KR102449580B1 true KR102449580B1 (ko) 2022-09-30

Family

ID=83092920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020053A KR102449580B1 (ko) 2021-02-15 2021-02-15 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법

Country Status (1)

Country Link
KR (1) KR102449580B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016519810A (ja) 2013-03-15 2016-07-07 アマゾン・テクノロジーズ・インコーポレーテッド 半構造データのためのスケーラブルな分析プラットフォーム
US20180157982A1 (en) 2016-12-05 2018-06-07 Sap Se Data analytics system using insight providers

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920983B1 (en) * 2010-03-04 2011-04-05 TaKaDu Ltd. System and method for monitoring resources in a water utility network
EP2490135A1 (en) * 2011-02-21 2012-08-22 Amadeus S.A.S. Method and system for providing statistical data from a data warehouse
KR102354808B1 (ko) * 2019-03-26 2022-01-25 한국전자통신연구원 컴포넌트 개발 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016519810A (ja) 2013-03-15 2016-07-07 アマゾン・テクノロジーズ・インコーポレーテッド 半構造データのためのスケーラブルな分析プラットフォーム
US20180157982A1 (en) 2016-12-05 2018-06-07 Sap Se Data analytics system using insight providers

Also Published As

Publication number Publication date
KR20220116781A (ko) 2022-08-23

Similar Documents

Publication Publication Date Title
US10489463B2 (en) Finding documents describing solutions to computing issues
US10095690B2 (en) Automated ontology building
US10073827B2 (en) Method and system to generate a process flow diagram
US20140280256A1 (en) Automated data parsing
KR102519868B1 (ko) 다수 미디어 소스로부터의 콘텐츠의 조직화 및 시각화
WO2016162879A1 (en) Text mining system and tool
US20210209500A1 (en) Building a complementary model for aggregating topics from textual content
KR20180042710A (ko) 유사도 분석 기반 이음 동의 항목 관리 방법 및 장치
US11023654B2 (en) Analyzing document content and generating an appendix
US10175960B2 (en) User interface area coverage
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
JP2017041171A (ja) テストシナリオ生成支援装置およびテストシナリオ生成支援方法
JP2007011604A (ja) 不具合診断システム及びプログラム
US20230126421A1 (en) Method and apparatus for deriving keywords based on technical document database
WO2014064777A1 (ja) 文書評価支援システム、及び文書評価支援方法
KR102449580B1 (ko) 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법
Yano et al. Labeling feature-oriented software clusters for software visualization application
KR102025813B1 (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
US10387472B2 (en) Expert stance classification using computerized text analytics
KR102371224B1 (ko) 공항 및 항공 기술의 트렌드 분석 장치 및 방법
US11341188B2 (en) Expert stance classification using computerized text analytics
Wolfe ChronoNLP: Exploration and Analysis of Chronological Textual Corpora
JP2019200488A (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
US20230143297A1 (en) Production knowledge management system, production knowledge management method, and production knowledge management program
Vasili et al. A study of summarization techniques in Albanian language

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant