KR20180127622A

KR20180127622A - 텍스트 데이터 수집 및 분석을 위한 시스템

Info

Publication number: KR20180127622A
Application number: KR1020180122160A
Authority: KR
Inventors: 전병진; 최윤진
Original assignee: 최윤진
Priority date: 2017-12-07
Filing date: 2018-10-12
Publication date: 2018-11-29
Also published as: KR20200009117A; KR102179890B1

Abstract

상기 목적을 달성하기 위한 전자 장치 및 서버를 포함하는 텍스트 데이터 분석 시스템에 있어서, 상기 서버의 메모리는 복수의 모듈 및 데이터 베이스를 포함하며, 상기 전자 장치는, 상기 서버로부터 상기 서버에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면을 표시하고, 상기 UI의 제1 영역은 상기 복수의 모듈 각각에 대응되는 복수의 아이콘을 포함하고, 상기 제1 영역을 통해 상기 복수의 아이콘 중 적어도 하나를 선택하기 위한 사용자 명령이 입력되면, 상기 복수의 아이콘 중 선택된 적어도 하나의 아이콘에 대응되는 컴포넌트를 상기 UI의 제2 영역에 표시하고, 상기 UI의 제2 영역에 표시된 컴포넌트를 선택하는 사용자 명령이 입력되면, 상기 디스플레이는 상기 선택된 컴포넌트에 대응되는 기능을 수행하기 위해 필요한 입력 데이터를 입력 받기 위한 UI를 표시하고, 상기 입력 데이터를 입력 받기 위한 UI를 통해 텍스트 데이터가 입력된 후, 상기 입력된 텍스트 데이터를 상기 서버로 전송하기 위한 사용자 명령이 입력되면, 상기 입력된 텍스트 데이터 및 상기 입력된 텍스트 데이터에 대한 모듈에 대한 정보를 상기 서버로 전송하고, 상기 서버는, 상기 입력된 텍스트 데이터에 대한 모듈에 대한 정보를 바탕으로 상기 복수의 모듈 중 기능을 수행할 모듈을 선택하고, 상기 선택된 모듈에 상기 전자 장치로부터 수신한 입력 데이터를 바탕으로 출력 텍스트 데이터를 획득하고, 상기 획득된 텍스트 데이터를 상기 전자 장치로 전송한다.

Description

텍스트 데이터 수집 및 분석을 위한 시스템{Systems for data collection and analysis}

본 개시는 텍스트 데이터 수집 및 분석을 위한 시스템에 관한 것으로, 보다 상세하게는 복수의 모듈 각각에 대응되는 복수의 컴포넌트를 사용자 입력에 따라 연결하여 사용자가 원하는 텍스트 데이터 분석을 수월하게 하기 위한 시스템에 관한 것이다.

본 개시는 상술한 문제점을 해결하기 위한 것으로, 텍스트 데이터 분석을 위한 서버 및 텍스트 데이터 분석을 위한 사용자 명령을 입력하는 전자 장치를 포함하는 시스템에 관한 것이다.

상기 목적을 달성하기 위한 전자 장치 및 서버를 포함하는 텍스트 데이터 분석 시스템에 있어서, 상기 전자 장치는, 메모리; 통신부; 디스플레이; 및 프로세서; 를 포함하고, 상기 서버는, 통신부; 메모리; 및 프로세서; 를 포함하며, 상기 서버는, 상기 서버의 메모리는 텍스트 데이터 수집을 위한 텍스트 데이터 모듈, 텍스트 데이터 분리 모듈, 텍스트 데이터 통합 모듈, 텍스트 데이터 수집 모듈 및 텍스트 데이터 변환 모듈, 텍스트 데이터 전처리를 위한 형태소 분석 모듈 및 개체명 인식 모듈, 텍스트 데이터 분석을 위한 단어 빈도 분석 모듈, 감성 분석 모듈, LDA 토픽 모델링 모듈, 키워드 추출 모듈 및 동시 출현 분석 모듈, 텍스트 데이터 출력을 위한 워드 클라우드 모듈, 네트워크 다이어그램 모듈, 클러스터 다이어그램 모듈, 히스토그램 모듈 및 동시 출현 매트릭스 모듈 및 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석을 위한 데이터 베이스를 포함하고, 상기 전자 장치는, 상기 서버로부터 상기 서버에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면을 표시하고, 상기 UI의 제1 영역은 상기 복수의 모듈 각각에 대응되는 복수의 아이콘을 포함하고, 상기 제1 영역을 통해 상기 복수의 아이콘 중 적어도 하나를 선택하기 위한 사용자 명령이 입력되면, 상기 복수의 아이콘 중 선택된 적어도 하나의 아이콘에 대응되는 컴포넌트를 상기 UI의 제2 영역에 표시하고, 상기 UI의 제2 영역에 표시된 컴포넌트를 선택하는 사용자 명령이 입력되면, 상기 디스플레이는 상기 선택된 컴포넌트에 대응되는 기능을 수행하기 위해 필요한 입력 데이터를 입력 받기 위한 UI를 표시하고, 상기 입력 데이터를 입력 받기 위한 UI를 통해 텍스트 데이터가 입력된 후, 상기 입력된 텍스트 데이터를 상기 서버로 전송하기 위한 사용자 명령이 입력되면, 상기 입력된 텍스트 데이터 및 상기 입력된 텍스트 데이터에 대한 모듈에 대한 정보를 상기 서버로 전송하고, 상기 서버는, 상기 입력된 텍스트 데이터에 대한 모듈에 대한 정보를 바탕으로 상기 복수의 모듈 중 기능을 수행할 모듈을 선택하고, 상기 선택된 모듈에 상기 전자 장치로부터 수신한 입력 데이터를 바탕으로 출력 텍스트 데이터를 획득하고, 상기 획득된 텍스트 데이터를 상기 전자 장치로 전송한다.

이때, 상기 전자 장치는, 상기 UI의 제2 영역에 복수의 모듈에 대응되는 복수의 컴포넌트가 표시되고, 상기 복수의 컴포넌트 중 적어도 두개의 컴포넌트를 연결하기 위한 사용자 명령이 입력되면, 상기 적어도 두개의 컴포넌트를 연결하고, 상기 복수의 모듈에 대응되는 복수의 컴포넌트 각각은 입력단에서 연결 가능한 컴포넌트 및 출력단에서 연결 가능한 컴포넌트를 포함하고, 상기 UI의 제2 영역을 통해 상기 복수의 컴포넌트 중 하나가 선택되면, 상기 UI의 제1 영역은 상기 선택된 복수의 컴포넌트 중 하나와 연결 가능한 컴포넌트에 대응되는 아이콘을 상기 선택된 복수의 컴포넌트 중 하나와 연결 가능하지 않은 아이콘과 구별하여 표시할 수 있다.

이때, 상기 텍스트 데이터 수집 모듈은 수집 모듈 및 검색 엔진 모듈을 더 포함하고, 상기 수집 모듈은, 기 설정된 시간 간격으로 외부 서버로부터 텍스트 데이터를 수신하고, 수신된 텍스트 데이터를 각각에 인덱스를 부가하여 상기 데이터 베이스에 저장하고, 상기 검색 엔진 모듈은 상기 전자 장치로부터 텍스트 데이터 수집을 위한 제어 신호를 수신한 경우, 상기 수신한 제어 신호에 대응되는 텍스트 데이터를 상기 데이터 베이스로부터 검색하기 위한 모듈일 수 있다.

이때, 상기 전자 장치는, 상기 서버에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면은, 상기 데이터 베이스 관리를 위한 텍스트 데이터 관리 아이콘을 포함하고, 상기 텍스트 데이터 관리 아이콘을 통해 상기 전자 장치의 메모리에 저장된 텍스트 데이터를 업로드하기 위한 사용자 명령이 입력되면, 상기 메모리에 저장된 텍스트 데이터를 상기 서버로 전송하고, 상기 서버는, 상기 수집 모듈을 이용하여 상기 전자 장치로부터 업로드된 각각에 텍스트 데이터에 인덱스를 부가할 수 있다.

이때, 상기 서버에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면은 텍스트 데이터 사용량을 확인하기 위한 텍스트 데이터 사용 아이콘을 포함하고, 상기 텍스트 데이터 사용 아이콘을 통한 사용자 명령이 입력되면, 상기 전자 장치가 사용한 텍스트 데이터 사용량이 표시되며, 상기 텍스트 데이터 사용량은 상기 텍스트 데이터 관리 아이콘을 통해 입력된 텍스트 데이터와 관련된 텍스트 데이터 사용량, 상기 텍스트 데이터 수집 모듈을 통해 수집된 텍스트 데이터와 관련된 텍스트 데이터 사용량, 상기 텍스트 데이터 분석 모듈을 통해 분석된 텍스트 데이터와 관련된 텍스트 데이터 사용량을 포함하고, 상기 서버는, 상기 전자 장치로 상기 텍스트 데이터 사용량에 따른 비용을 기 설정된 주기로 전송할 수 있다.

이때, 텍스트 데이터 전처리를 위한 상기 형태소 분석 모듈 및 상기 개체명 인식 모듈은 각각의 기능을 수행하기 위한 인공 지능 모델을 포함하고, 상기 데이터 베이스는 상기 텍스트 데이터를 분석한 사전 데이터 베이스를 포함하고, 텍스트 데이터 전처리를 위한 상기 각각의 인공 지능 모델은 상기 사전 데이터 베이스에 저장된 텍스트 데이터를 학습 데이터로 입력하여 상기 각각의 인공 지능 모델을 학습시키고, 상기 서버는, 상기 텍스트 데이터 수집 모델을 통해 수집된 텍스트 데이터가 입력 데이터로 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 인공 지능 모델에 입력되면, 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델을 바탕으로 상기 사전 데이터 베이스를 업데이트 할 수 있다.

이때, 텍스트 데이터 분석을 위한 상기 단어 빈도 분석 모듈, 상기 감성 분석 모듈, 상기 LDA 토픽 모델링 모듈, 상기 키워드 추출 모듈 및 상기 동시 출현 분석 모듈은 각각의 기능을 수행하기 위한 인공 지능 모델을 포함하고, 텍스트 데이터 분석을 위한 상기 각각의 인공 지능 모델은 상기 데이터 베이스에 저장된 텍스트 데이터를 학습 데이터데이터로 입력하여 상기 각각의 인공 지능 모델을 학습시키고, 상기 서버는, 상기 텍스트 데이터 수집 모듈을 통해 수집된 텍스트 데이터가 입력 데이터로 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델에 입력되면, 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델을 바탕으로 텍스트 데이터 분석 결과를 출력할 수 있다.

상술한 본 개시의 다양한 실시예에 따라, 사용자는 전자 장치에 제공되는 UI 화면을 통해 간편하게 텍스트 데이터를 분석하고, 분석 결과를 다양한 방법을 통해 확인할 수 있다.

도 1은 본 개시의 일 실시예에 따른, 전자 장치 및 서버를 설명하기 위한 시스템도이다.
도 2a 및 도 2b는 본 개시의 일 실시예에 따른, 전자 장치 및 서버의 구성을 간략히 도시한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 서버의 메모리에 포함된 다양한 모듈을 설명하기 위한 블록도이다.
도 4a 내지 도 4c는 본 개시의 일 실시예에 따른 전자 장치의 화면을 설명하기 위한 예시도이다.
도 5a 내지 도 5e는 본 개시의 일 실시예에 따른 텍스트 데이터 수집과 관련된 모듈의 기능을 설명하기 위한 예시도이다.
도 6a 및 도 6b는 본 개시의 일 실시예에 따른, 텍스트 데이터 전처리와 관련된 모듈의 기능을 설명하기 위한 예시도이다.
도 7a 내지 도 7e는 본 개시의 일 실시예에 따른, 텍스트 데이터 분석과 관련된 모듈의 기능을 설명하기 위한 예시도이다.
도 8a 내지 도 8e는 본 개시의 일 실시예에 따른, 텍스트 데이터 시각화와 관련된 모듈의 기능을 설명하기 위한 예시도이다.
도 9a 내지 도 9e는 본 개시의 일 실시예에 따른, 텍스트 데이터 시각화 결과를 설명하기 위한 예시도이다.

이하, 본 문서의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것 만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 문서의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimediaplayer), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

본 문서에서, 사용자라는 용어는 전자 장치 또는 서버를 사용하는 사람 또는 전자 장치를 사용하는 장치를 지칭할 수 있다.

이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하기로 한다.

도 1은 본 개시의 일 실시예에 따른, 전자 장치 및 서버를 설명하기 위한 시스템도이다.

도 1에 도시된 바와 같이, 텍스트 데이터 분석을 위한 시스템(1000)은 전자 장치(100) 및 서버(200)를 포함한다.

서버(200)는 텍스트 데이터 분석을 위한 프로그램을 전자 장치(100)로 제공할 수 있다. 예를 들어, 서버(200)는 텍스트 데이터 분석을 위한 홈페이지를 구축할 수 있으며, 전자 장치(100)는 서버(200)가 구축한 홈페이지로 접근하여 텍스트 데이터 분석을 수행할 수 있다. 그러나 이에 한정되는 것은 아니며, 전자 장치(100)가 텍스트 데이터 분석을 위한 프로그램 또는 어플리케이션을 저장하고 있으며, 후술한 텍스트 데이터 분석을 위한 다양한 기능 중 적어도 하나를 실행하고자 하는 경우, 서버(200)로 해당 기능에 대한 결과를 요청하는 제어 신호를 전송하고, 서버(200)는 전자 장치(100)의 요청과 관련된 결과를 획득하여 전자 장치(100)로 전송할 수 있음은 물론이다. 또는, 도 1 내지 이하의 실시예에서는 전자 장치(100) 및 서버(200)가 연동하여 텍스트 데이터 분석을 수행하는 실시예에 대하여 설명하고 있지만, 전자 장치(100) 또는 서버(200) 중 어느 하나의 구성이 독립적으로 텍스트 데이터 분석을 수행할 수 있음은 물론이다.

전자 장치(100)는 텍스트 데이터 분석을 위한 UI 화면을 표시할 수 있다. 예를 들어, 텍스트 데이터 분석을 위해 서버(200)가 구축한 홈페이지에 접근하면, 전자 장치(100)는 서버(200)에 포함된 복수의 텍스트 데이터 분석 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면을 표시할 수 있다. 이때, 서버(200)에 포함된 복수의 텍스트 데이터 분석 모듈은 텍스트 데이터 수집을 위한 텍스트 데이터 모듈, 텍스트 데이터 분리 모듈, 텍스트 데이터 통합 모듈, 텍스트 데이터 수집 모듈 및 텍스트 데이터 변환 모듈, 텍스트 데이터 전처리를 위한 형태소 분석 모듈 및 개체명 인식 모듈, 텍스트 데이터 분석을 위한 단어 빈도 분석 모듈, 감성 분석 모듈, LDA 토픽 모델링 모듈, 키워드 추출 모듈 및 동시 출현 분석 모듈, 텍스트 데이터 출력을 위한 워드 클라우드 모듈, 네트워크 다이어그램 모듈, 클러스터 다이어그램 모듈, 히스토그램 모듈 및 동시 출현 매트릭스 모듈 중 적어도 하나를 포함할 수 있다.

한편, 텍스트 데이터 분석을 위한 UI 화면은, 제1 영역 및 제2 영역을 포함할 수 있다. 제1 영역은 복수의 모듈 각각에 대응되는 복수의 아이콘을 포함하고, 제1 영역을 통해 복수의 아이콘 중 적어도 하나를 선택하는 사용자 명령이 입력되면, 전자 장치(100)는 복수의 아이콘 중 선택된 적어도 하나의 아이콘에 대응되는 컴포넌트를 제2 영역에 표시할 수 있다. 이때, 복수의 아이콘 중 적어도 하나를 선택하는 사용자 명령이란, 제1 영역에 위치한 하나의 아이콘을 클릭(또는 터치)하여 제2 영역으로 드래그하는 명령일 수 있다. 다만, 이에 한정되는 것은 아니며, 복수의 아이콘 중 적어도 하나를 선택하는 사용자 명령은 더블클릭, 롱 클릭, 롱 터치, 스와이프, 호버링 등 전자 장치(100)의 구성 및 사용자 편의를 고려하여 다양한 방식으로 이뤄질 수 있음은 물론이다.

제2 영역에 컴포넌트가 표시된 후, 제2 영역에 표시된 컴포넌트를 선택하는 사용자 명령이 입력되면, 전자 장치(100)는 선택된 컴포넌트에 대응되는 기능을 수행하기 위해 필요한 입력 데이터를 입력 받기 위한 UI를 표시할 수 있다. 입력 데이터를 입력 받기 위한 UI를 통해 텍스트 데이터가 입력된 후 입력된 텍스트 데이터를 서버(200)로 전송하기 위한 사용자 명령이 입력되면, 전자 장치(100)는 입력된 텍스트 데이터 및 입력된 텍스트 데이터에 대한 모듈의 정보를 서버(200)로 전송할 수 있다.

서버(200)는, 전자 장치(100)로부터 수신한 입력된 텍스트 데이터에 대한 모듈의 정보를 바탕으로, 서버(200)에 포함된 복수의 모듈 중, 기능을 수행할 모듈을 선택하고, 선택된 모듈에 전자 장치(100)로부터 수신한 입력 데이터를 바탕으로 출력 텍스트 데이터를 획득할 수 있다.

서버(200)는 획득된 텍스트 데이터를 전자 장치(100)로 전송할 수 있다.

한편, 전자 장치(100)는, UI의 제2 영역에 복수의 모듈에 대응되는 복수의 컴포넌트가 표시되고, 복수의 컴포넌트 중 적어도 두개의 컴포넌트를 연결하기 위한 사용자 명령이 입력되면, 적어도 두개의 컴포넌트를 연결할 수 있다. 즉, 전자 장치(100)는 제2 영역에 표시된 복수의 컴포넌트가 서로 연동되어 텍스트 데이터 분석을 수행할 필요가 있는 경우, 해당하는 컴포넌트를 연결할 수 있다. 예를 들어, 텍스트 데이터 수집 모듈(314)를 통해 수집된 텍스트 데이터를 이용하여 형태소 분석을 수행하고자 하는 경우, 전자 장치(100)는 텍스트 데이터 수집 모듈(314) 및 형태소 분석 모듈(321)을 연결할 수 있다.

한편, 서버(200)에 포함된 복수의 모듈 각각은 연결 가능한 모듈에 대한 정보 및 연결 불가능한 모듈의 정보를 포함할 수 있다. 구체적으로, 복수의 모듈에 대응되는 복수의 컴포넌트 각각은 입력단에서 연결 가능한 컴포넌트 및 출력단에서 연결 가능한 컴포넌트에 대한 정보를 포함할 수 있다. 예를 들어, 형태소 분석 모듈(321)은 입력단으로 텍스트 데이터 분리 모듈(312), 텍스트 데이터 통합 모듈(313), 텍스트 데이터 수집 모듈(314) 및 텍스트 데이터 변환 모듈(315)와 연결 가능하고, 출력단으로 텍스트 데이터 모듈(311), 개체명 인식 모듈(322), 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333) 및 키워드 추출 모듈(334)와 연결 가능할 수 있다. 이때, 입력단으로 연결되는 모듈은 형태소 분석 모듈(321)로 텍스트 데이터를 입력하기 위한 모듈이며, 출력단으로 연결되는 모듈은 형태로 분석 모듈(321)에서 텍스트 데이터가 출력되어 출력된 텍스트 데이터를 수신하는 모듈일 수 있다.

한편, 전자 장치(100)는 제2 영역에 표시된 복수의 컴포넌트 중 하나가 선택되면, 제1 영역은 선택된 복수의 컴포넌트 중 하나와 연결 가능한 컴포넌트에 대응되는 아이콘을 선택된 복수의 컴포넌트 중 하나와 연결 가능하지 않은 아이콘과 구별하여 표시할 수 있다. 이때, 전자 장치(100)는 선택된 컴포넌트의 출력단에 연결 가능한 아이콘에 대응되는 아이콘만을 구별하여 표시하거나, 선택된 컴포넌트의 입력단에 연결 가능한 아이콘에 대응되는 아이콘만을 구별하여 표시하거나, 선택된 컴포넌트의 입력단 및 출력단에 연결 가능한 아이콘에 대응되는 아이콘만을 구별하여 표시하거나, 선택된 컴포넌트의 입력단 및 출력단에 연결 가능한 아이콘에 대응되는 아이콘만을 구별하여 표시하되, 입력단에 연결 가능한 아이콘과 출력단에 연결 가능한 아이콘을 구별하여 표시하는 등 다양한 방법으로 아이콘을 표시할 수 있다 예를 들어 형태소 분석 모듈(321)에 대응되는 컴포넌트가 선택되면, 전자 장치(100)는 데이터 모듈(311), 개체명 인식 모듈(322), 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333) 및 키워드 추출 모듈(334) 각각에 대응되는 아이콘을 다른 아이콘과 구별하여 표시할 수 있다.

한편, 서버(200)는 후술하는 바와 같이, 텍스트 데이터 수집 모듈(314)를 포함할 수 있다. 이때, 텍스트 데이터 수집 모듈(314)는 외부 서버 등으로부터 텍스트 데이터를 수집하여 데이터 베이스에 저장하기 위한 수집 모듈 및 사용자 요청에 따라 데이터 베이스 내에서 검색을 수행하는 검색 엔진 모듈을 더 포함할 수 있다. 수집 모듈은 기 설정된 시간 간격으로 외부 서버로부터 텍스트 데이터를 수신하고, 수신된 텍스트 데이터 각각에 인덱스를 부가하여 데이터 베이스에 저장할 수 있다. 텍스트 데이터 수집을 위하여 텍스트 데이터 크롤링(Crawling) 또는 텍스트 데이터 스크래핑(Scrapping)등의 기법이 사용될 수 있다. 이때, 외부 서버로부터 텍스트 데이터를 수신하는 방법은 다양할 수 있다. 일 실시예로, 외부 서버가 네이버, 구글 등의 검색 포털인 경우, 수집 모듈은 검색 포털의 실시간 검색어 또는 검색어 순위 등을 기반으로 수신할 텍스트 데이터를 결정할 수 있다. 또 다른 실시예로, 수집 모듈은 특정 검색어에 대한 텍스트 데이터를 수신하기 위한 사용자 명령이 입력되면, 입력된 검색어에 대한 검색 결과를 외부 서버로부터 수신하여 저장할 수 있음은 물론이다. 수집 모듈은 외부 서버로부터 수신한 텍스트 데이터 각각에 인덱스를 부가할 수 있다. 인덱스를 부가함으로써, 검색 엔진 모듈의 검색 능력을 향상시킬 수 있는 효과가 존재한다.

검색 엔진 모듈은 전자 장치(100)로부터 텍스트 데이터 수집을 위한 제어 신호를 수신한 경우, 수신한 제어 신호에 대응되는 텍스트 데이터를 서버(200)의 데이터 베이스로부터 검색할 수 있다.

한편, 서버(200)에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면은, 상기 데이터 베이스 관리를 위한 텍스트 데이터 관리 아이콘을 포함할 수 있다. 이때, 텍스트 데이터 관리 아이콘은 상술한 제1 영역 및 제2 영역 외부에 존재할 수 있다. 텍스트 데이터 관리 아이콘은, 전자 장치(100) 내부의 텍스트 데이터를 바탕으로 텍스트 데이터 분석을 수행할 경우 사용될 수 있다. 즉, 텍스트 데이터 관리 아이콘을 통해 메모리(110)에 저장된 텍스트 데이터를 업로드하기 위한 사용자 명령이 입력되면, 전자 장치(100)는 메모리(110)에 저장된 텍스트 데이터를 서버(200)로 전송하고, 서버(200)는 수집 모듈을 이용하여 업로드된 텍스트 데이터 각각에 인덱스를 부가할 수 있다.

한편, 서버(200)는 전자 장치(100)에서의 텍스트 데이터 사용량을 측정하기 위한 기능을 전자 장치(100)에 제공할 수 있다. 구체적으로, 서버(200)에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면은 텍스트 데이터 사용량을 확인하기 위한 텍스트 데이터 사용 아이콘을 포함할 수 있다. 이때, 텍스트 데이터 사용 아이콘은 상술한 제1 영역 및 제2 영역 외부에 존재할 수 있다. 텍스트 데이터 사용 아이콘을 통한 사용자 명령이 입력되면, 전자 장치(100)는 전자 장치(100)가 사용한 텍스트 데이터의 사용량을 표시할 수 있다.

이때, 텍스트 데이터 사용량이란 상기 텍스트 데이터 관리 아이콘을 통해 입력된 텍스트 데이터와 관련된 텍스트 데이터 사용량, 텍스트 데이터 수집 모듈(314)을 통해 수집된 텍스트 데이터와 관련된 텍스트 데이터 사용량, 텍스트 데이터 분석 모듈(331 내지 335)을 통해 분석된 텍스트 데이터와 관련된 텍스트 데이터 사용량을 포함할 수 있다.

이러한 텍스트 데이터 사용량은 전자 장치(100)의 사용자가 서버(200)의 관리자에게 지불하는 비용에 대한 기준이 될 수 있다. 즉, 서버(200)는, 전자 장치(100)로 텍스트 데이터 사용량에 따른 비용을 기 설정된 주기(예를 들어, 한달)로 전송할 수 있다.

한편, 텍스트 데이터 전처리를 위한 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)은 각각의 기능을 수행하기 위한 인공 지능 모델을 포함하고, 서버(200)의 데이터 베이스는 텍스트 데이터를 분석한 사전 데이터 베이스를 포함할 수 있다. 텍스트 데이터 전처리를 위한 각각의 인공 지능 모델은 사전 데이터 베이스에 저장된 텍스트 데이터를 학습 데이터데이터로 입력하여 각각의 인공 지능 모델을 학습시킬 수 있다.

인공 지능 모델이 학습되면, 서버(200)는, 텍스트 데이터 수집 모듈(314)을 통해 수집된 텍스트 데이터가 입력 데이터로 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 인공 지능 모델에 입력되면, 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델을 바탕으로 상기 사전 데이터 베이스를 업데이트 할 수 있다. 나아가, 학습된 인공 지능 모델은 수집된 텍스트 데이터를 입력 데이터로 텍스트 데이터 전처리를 수행할 수 있음은 물론이다.

같은 방법으로, 텍스트 데이터 분석을 위한 단어 빈도 분석 모듈, 감성 분석 모듈, LDA 토픽 모델링 모듈, 키워드 추출 모듈 및 동시 출현 분석 모듈은 각각의 기능을 수행하기 위한 인공 지능 모델을 포함할 수 있다 텍스트 데이터 분석을 위한 각각의 인공 지능 모델은 데이터 베이스에 저장된 텍스트 데이터를 학습 데이터로 입력하여 각각의 인공 지능 모델을 학습시킬 수 있다.

이때, 텍스트 데이터 수집 모듈을 통해 수집된 텍스트 데이터가 입력 데이터로 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델에 입력되면, 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델을 바탕으로 텍스트 데이터 분석 결과를 출력할 수 있다.

도 2a 및 도 2b는 본 개시의 일 실시예에 따른, 전자 장치 및 서버의 구성을 간략히 도시한 블록도이다.

전자 장치(100)는 메모리(110), 통신부(120), 디스플레이(130) 및 프로세서를 포함할 수 있다.

메모리(110)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 텍스트 데이터를 저장할 수 있다. 특히, 메모리(110)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(110)는 프로세서(140)에 의해 액세스되며, 프로세서(140)에 의한 텍스트 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(110), 프로세서(140) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.

메모리(110)는 각종 어플리케이션 또는 프로그램을 저장하고 있거나, 텍스트 데이터 분석의 기초가 되는 다양한 로우 텍스트 데이터를 저장할 수 있다.

통신부(120)는 타 전자 장치와 통신을 수행하기 위한 구성이다. 한편, 통신부(120)가 타 전자 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다. 무선 통신은, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 일 실시예에 따르면, 무선 통신은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 무선 통신 또는 유선 통신이 수행되는 네트워크는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.

통신부(120)는 서버(200)와 통신을 수행할 수 있다. 예를 들어, 전자 장치(100)는 통신부(120)를 통해 서버(200)가 제공하는 홈페이지에 접속하거나, 서버가 제공하는 프로그램을 다운 받을 수 있다.

디스플레이(130)는 다양한 영상을 출력하기 위한 구성이다. 다양한 영상을 제공하기 위한 디스플레이(130)는 다양한 형태의 디스플레이 패널로 구현될 수 있다. 예를 들어, 디스플레이 패널은 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes), AM-OLED(Active-Matrix Organic Light-Emitting Diode), LcoS(Liquid Crystal on Silicon) 또는 DLP(Digital Light Processing) 등과 같은 다양한 디스플레이 기술로 구현될 수 있다. 또한, 디스플레이(130)는 플렉서블 디스플레이(flexible display)의 형태로 전자 장치(100)의 전면 영역 및, 측면 영역 및 후면 영역 중 적어도 하나에 결합될 수도 있다.

디스플레이(130)는 텍스트 데이터 분석을 위한 다양한 화면을 표시하기 위한 구성이다. 상술한 바와 같이, 디스플레이는 텍스트 데이터 분석을 위한 UI 화면을 표시할 수 있고, UI 화면은 제1 영역, 제2 영역 및 그외 다양한 영역 및 다양한 아이콘, 컴포넌트를 표시할 수 있다.

프로세서(140)는 상술한 바와 같이, 전자 장치(100)의 전반적인 동작을 제어한다. 프로세서(140)는 RAM, ROM, 메인 CPU, 그래픽 처리부), 제1 내지 n 인터페이스, 버스를 포함할 수 있다. 이때, RAM, ROM, 메인 CPU, 그래픽 처리부 및 제1 내지 n 인터페이스 등은 버스를 통해 서로 연결될 수 있다.

서버(200)는 메모리(210), 통신부(220) 및 프로세서(230)을 포함한다. 메모리(210), 통신부(220) 및 프로세서(230)의 구성 및 동작은 상술한 전자 장치(100)의 메모리(110), 통신부(120) 및 프로세서(140)와 유사하여 구체적인 설명에 대하여는 생략한다.

메모리(220)는 다양한 텍스트 데이터를 저장하거나, 프로그램 또는 어플리케이션 실행에 필요한 다양한 모듈을 저장하기 위한 구성이다.

한편, 전자 장치(100) 및 서버(200)는 상술한 구성 외에도 필요에 따라 다양한 구성이 추가될 수 있음은 물론이다. 예를 들어, 전자 장치(100) 및 서버(200)는 필요에 따라 입력부, 출력부 등의 다양한 구성을 포함할 수 있다, 상술한 바와 같이, 메모리(220)는 텍스트 데이터 수집을 위한 데이터 모듈(311), 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314) 및 데이터 변환 모듈(315), 텍스트 데이터 전처리를 위한 형태소 분석 모듈(321) 및 개체명 인식 모듈(322), 텍스트 데이터 분석을 위한 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333), 키워드 추출 모듈(334) 및 동시 출현 분석 모듈(335), 텍스트 데이터 출력을 위한 워드 클라우드 모듈(341), 네트워크 다이어그램 모듈(342), 클러스터 다이어그램 모듈(343), 히스토그램 모듈(344) 및 동시 출현 매트릭스(345) 모듈 및 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석을 위한 텍스트 데이터를 저장하고 있는 데이터 베이스를 저장할 수 있다.

이하에서는 도 3 내지 도 9를 이용하여 본 개시에 따른 다양한 모듈의 기능에 대하여 설명한다.

각각의 모듈의 구체적인 설명에 앞서, 도 4를 이용하여 텍스트 데이터 분석을 위해 제공된 UI 화면을 설명한다.

도 4a 내지 도 4c는 본 개시의 일 실시예에 따른 전자 장치의 화면을 설명하기 위한 예시도이다.

텍스트 데이터 분석을 위한 UI 화면은, 제1 영역(410), 제2 영역(420) 및 제3 영역(430)을 포함할 수 있다. 이때, 제1 영역(410)은 서버(200)에 저장된 복수의 모듈 각각에 대응되는 각각의 아이콘을 단계에 따라 구분하여 표시할 수 있다. 즉, 제1 영역(410)은 텍스트 데이터 수집과 관련된 텍스트 데이터 아이콘 텍스트 데이터 분리 아이콘, 텍스트 데이터 통합 아이콘, 텍스트 데이터 수집 아이콘 및 텍스트 데이터 변환 아이콘을 포함하고, 텍스트 데이터 전처리와 관련된 형태소 분석 아이콘 및 개체명 인식 아이콘을 포함하고, 텍스트 데이터 분석과 관련된 단어 빈도 분석 아이콘, 감성 분석 아이콘, LDA 토픽 모델링 아이콘, 키워드 추출 아이콘 및 동시 출연 분석 아이콘을 포함하고, 텍스트 데이터 시각화와 관련된 워드 클라우드 아이콘, 네트워크 다이어그램 아이콘, 클러스터 다이어그램 아이콘, 히스토그램 아이콘 및 동시 출현 매트릭스 아이콘을 포함할 수 있으며, 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석 및 텍스트 데이터 시각화와 관련된 아이콘 들은 구분되어 표시될 수 있다.

제1 영역(410)에 표시된 복수의 아이콘은 텍스트 데이터 분석을 위한 파이프 라인을 작업하기 위한 기본 컴포넌트의 역할을 할 수 있다. 예를 들어, 제1 영역(410)에 표시된 복수의 아이콘 중 적어도 두개를 선택하고, 선택된 아이콘에 대응되는 컴포넌트를 제2 영역(420)에 생성하고, 생성된 컴포넌트를 연결하는 방식을 통해 텍스트 데이터 분석 파이프 라인을 구축할 수 있다.

제2 영역(420)은, 제1 영역(410)을 통해 선택된 아이콘에 대응되는 컴포넌트를 표시할 수 있다. 이때, 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석 및 텍스트 데이터 시각화와 관련된 컴포넌트들은 서로 구별되어 표시될 수 있다. 예를 들어, 도 4a에 도시된 바와 같이, 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석 및 텍스트 데이터 시각화와 관련된 컴포넌트들은 서로 다른 색상으로 표시될 수 있다. 그러나 이에 한정되는 것은 아니며, 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석 및 텍스트 데이터 시각화와 관련된 컴포넌트들은 서로 다른 크기, 명도, 조도, 채도로 표시되거나, 서로 다른 뎁스를 가지는 3D 컴포넌트로 표시될 수도 있음은 물론이다.

한편, 제2 영역(420)에 표시된 컴포넌트에 대한 사용자 명령(예를 들어, 마우스 클릭, 터치, 음성 명령 등)이 입력되면, 전자 장치(100)는 선택된 컴포넌트에서 실행할 수 있는 기능을 추가로 표시할 수 있다. 예를 들어 도 4a의 제2 영역(420) 좌측 하단에 도시된 바와 같이, 텍스트 데이터 분리 컴포넌트에 대한 사용자 명령이 입력되면, 전자 장치(100)는 텍스트 데이터 분리 컴포넌트를 삭제하기 위한 삭제 컴포넌트, 텍스트 데이터 분리 컴포넌트와 다른 컴포넌트를 연결하기 위한 연결 컴포넌트, 텍스트 데이터 분리 컴포넌트에 대응되는 기능을 실행하기 위한 실행 컴포넌트를 텍스트 데이터 분리 컴포넌트 하단에 표시할 수 있다. 삭제 컴포넌트를 통해 사용자 명령이 입력되면, 전자 장치(100)는 선택된 컴포넌트를 삭제할 수 있다,

연결 컴포넌트를 통해 사용자 명령이 입력되면, 전자 장치(100)는 선택된 컴포넌트 및 다른 컴포넌트를 연결하여 표시할 수 있다. 이때, 연결 컴포넌트를 통한 사용자 명령은 연결 컴포넌트를 클릭(또는 터치) 한 후 다른 컴포넌트로 입력된 클릭(또는 터치)를 드래그 하는 사용자 명령일 수 있다. 이때, 드래그의 목적지인 컴포넌트가 연결 컴포넌트에 대응되는 컴포넌트와 연결이 불가능한 경우, 전자 장치(100)는 제2 영역(420)의 일 영역에 연결이 불가능함을 알리는 안내 화면을 표시할 수 있다. 구체적으로, 도 4b에 도시된 바와 같이, 텍스트 데이터 분리 컴포넌트에서 동시 출현 분석 컴포넌트로의 연결은 불가능하므로, 전자 장치(100)는 '텍스트 데이터 분리' 컴포넌트는 '동시 출현 분석' 컴포넌트의 입력으로 사용될 수 없습니다. 라는 안내 화면을 표시할 수 있다.

반면, 도 4c에 도시된 바와 같이, 드래그의 목적지인 컴포넌트가 연결 컴포넌트에 대응되는 컴포넌트와 연결이 가능한 경우, 전자 장치(100)는 드래그의 목적지인 컴포넌트를 하이라이트 표시하여 연결이 가능함을 사용자에게 알릴 수 있다. 컴포넌트가 하이라이트 된 상태에서 전자 장치(100)에 입력된 드래그가 해제되면, 전자 장치(100)는 두개의 컴포넌트를 연결할 수 있다.

한편, 본 개시에 따른 컴포넌트의 연결 관계는, 출발 컴포넌트로부터 도착 컴포넌트로의 방향성을 가질 수 있다. 또한, 방향성에 따라, 동일한 두개의 컴포넌트이라도 연결되거나 연결되지 않을 수 있다. 예를 들어, 형태소 분석 컴포넌트가 출발 컴포넌트로, 동시 출현 분석 컴포넌트가 도착 컴포넌트로 연결될 수는 있으나, 동시 출현 분석 컴포넌트가 출발 컴포넌트로, 형태소 분석 컴포넌트가 도착 컴포넌트로 연결될 수는 없다. 이러한 연결 가능 여부에 대하여는 후술한다. 한편, 형태소 분석 컴포넌트가 출발 컴포넌트로, 동시 출현 분석 컴포넌트가 도착 컴포넌트로 연결되었다는 의미는, 형태소 분석 컴포넌트를 통해 기능이 실행되고 획득된 결과를 동시 출현 분석의 입력으로 사용한다는 것을 의미한다. 구체적으로, 형태소 분석을 통해 특정 문서가 형태소 단위로 분류된 경우, 동시 출연 분석은 분류된 형태소를 바탕으로 이뤄질 수 있을 것이다.

실행 컴포넌트를 통한 사용자 명령이 입력되면, 전자 장치(100)는 실행 컴포넌트가 적용되는 컴포넌트(예를 들어, 텍스트 데이터 분리 컴포넌트)들에 대응되는 기능을 수행하기 위한 제어 신호를 서버(200)로 전송하고, 서버(200)는 수신한 제어 신호에 대응되는 모듈(예를 들어, 텍스트 데이터 분리 모듈)을 바탕으로 출력 결과를 생성하여 전자 장치(100)로 전송하고, 전자 장치(100)는 수신한 출력 결과를 표시할 수 있다.

나아가, 제2 영역(420)에 표시된 컴포넌트에 대한 사용자 명령(예를 들어, 마우스 클릭, 터치, 음성 명령 등)이 입력되면, 전자 장치(100)는 선택된 컴포넌트에 대응되는 설정 화면을 제3 영역(430)에 표시할 수 있다. 예를 들어, 제2 영역(420) 텍스트 데이터 분리 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일 영역에 텍스트 데이터 분리 기능과 관련된 설정 화면을 표시할 수 있다.

도 3은 본 개시의 일 실시예에 따른 서버의 메모리에 포함된 다양한 모듈을 설명하기 위한 블록도이다. 이하에서는 각각의 모듈의 기능 및 동작, 각각의 모듈과 관련되 전자 장치(100)에서의 UI 화면 및 정보에 대하여 구체적으로 설명한다. 구체적으로, 텍스트 데이터 수집을 위한 데이터 모듈(311), 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314) 및 데이터 변환 모듈(315)은 도 5a 내지 도 5e, 텍스트 데이터 전처리를 위한 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)은 도 6a 및 도 6b, 텍스트 데이터 분석을 위한 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333), 키워드 추출 모듈(334) 및 동시 출현 분석 모듈(335)은 도 7a 내지 도 7e, 텍스트 데이터 출력을 위한 워드 클라우드 모듈(341), 네트워크 다이어그램 모듈(342), 클러스터 다이어그램 모듈(343), 히스토그램 모듈(344) 및 동시 출현 매트릭스(345) 모듈은 도 8 a 내지 도 9e를 이용하여 설명한다.

한편, 이하에서는 연결 관계를 설명함에 있어서 설명의 편의를 위해, B 모듈의 출력 텍스트 데이터가 A모듈의 입력 데이터로 입력될 수 있는 연결 관계에 대하여는 A 모듈은 B 모듈에 대한 입력 모듈이라고 표현하며, A 모듈의 출력 텍스트 데이터가 B 모듈의 입력 데이터로 입력될 수 있는 연결 관계에 대하여는 A 모듈은 B 모듈에 대한 출력 모듈이라고 표현한다.

도 5a 내지 도 5e는 본 개시의 일 실시예에 따른 텍스트 데이터 수집과 관련된 모듈의 기능을 설명하기 위한 예시도이다.

데이터 모듈(311)은 텍스트 데이터에 대한 정보를 불러오기 위한 구성이다. 데이터 모듈(311)은 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314), 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)에 대한 입력 모듈일 수 있다. 이때, 데이터 모듈(311)에 대한 출력 모듈은 존재하지 않을 수 있다.

상술한 바와 같이, 제2 영역(420)에 표시된 텍스트 데이터 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 텍스트 데이터 설정 화면(510)을 표시할 수 있다. 텍스트 데이터 설정 화면(510)은 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314), 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)으로부터 입력된 텍스트 데이터들의 대한 정보를 출력하거나, 전자 장치(100)에 존재하는 텍스트 데이터에 대한 정보를 출력할 수 있다. 구체적으로, 전자 장치(100)에 존재하는 텍스트 데이터는 텍스트 데이터 설정 화면(510)의 입력 파일 설정을 통해 서버(200)로 업로드하여 출력할 수 있다. 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314), 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)으로부터 입력된 텍스트 데이터들의 대한 정보는, 각각의 모듈과 연결된 경우 출력할 수 있다. 텍스트 데이터 설정 화면(510)은 행크기, 열크기, 전체 토큰 수, 명사 토큰 수와 같은 정보를 추가로 표시할 수 있다.

데이터 분리 모듈(312)는 텍스트 데이터를 특정 기준이 따라 필터링 하기 위한 구성이다. 데이터 분리 모듈(312)은 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314)에 대한 입력 모듈이며, 데이터 모듈(311), 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 변환 모듈(315) 및 형태소 분석 모듈(321)에 대한 출력 모듈일 수 있다.

제2 영역(420)에 표시된 텍스트 데이터 분리 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 도 5에 도시된 바와 같이, 텍스트 데이터 분리 설정 화면(520)을 표시할 수 있다. 텍스트 데이터 분리 설정 화면(520)의 칼럼 인덱스, 칼럼 구분자, 키워드 리스트 등이 입력되면, 전자 장치(100) 및 서버(200)는 입력된 조건에 따라 텍스트 데이터를 분리할 수 있다.

데이터 통합 모듈(313)은 복수개의 텍스트 데이터 각각에서 원하는 부분의 텍스트 데이터 각각을 획득하여 하나의 텍스트 데이터로 통합하기 위한 모듈이다. 예를 들어, 텍스트 데이터가 문서인 경우, 데이터 통합 모듈(313)은 복수개의 문서 중 특정 칼럼만을 획득하여 하나의 문서를 획득할 수 있다. 데이터 통합 모듈(313)은 데이터 분리 모듈(312), 데이터 통합 모듈(313) 및 데이터 수집 모듈(314)에 대한 입력 모듈이며, 데이터 모듈(311), 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 변환 모듈(315) 및 형태소 분석 모듈(321)에 대한 출력 모듈일 수 있다.

제2 영역(420)에 표시된 텍스트 데이터 통합 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 텍스트 데이터 통합 설정 화면(530)을 표시할 수 있다.

데이터 수집 모듈(314)는 텍스트 데이터를 수집하기 위한 모듈이다. 상술한 바와 같이, 데이터 수집 모듈(314)는 수집 모듈 및 검색 엔진 모듈을 포함할 수 있으며, 검색 엔진 모듈을 통해 사용자로부터 입력된 검색어에 대한 텍스트 데이터를 데이터 베이스로부터 수집할 수 있다. 데이터 수집 모듈(314)는 데이터 모듈(311), 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 변환 모듈(315) 및 형태소 분석 모듈(321)에 대한 출력 모듈일 수 있다.

제2 영역(420)에 표시된 텍스트 데이터 수집 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 도 5에 도시된 바와 같이, 텍스트 데이터 수집 설정 화면(510)을 표시할 수 있다. 상술한 바와 같이, 텍스트 데이터 수집은 서버(200)의 텍스트 데이터베이스로부터 수집되거나, 전자 장치(100)로부터 업로드된 텍스트 데이터로부터 수집될 수 있다. 텍스트 데이터 수집 설정 화면(530)을 통해 검색어, 수집 대상, 대상 언어 등이 입력되면, 전자 장치(100) 및 서버(200)는 입력된 조건에 따른 텍스트 데이터를 수집할 수 있다.

데이터 변환 모듈(315)는 텍스트 데이터의 유형을 변경하기 위한 모듈이다. 예를 들어 데이터가 텍스트 파일인 경우, 데이터 변환 모듈(314)은 텍스트 파일을 CSV파일의 형태로 변환할 수 있다. 또는, 데이터가 PDF, WORD, PPT, EXCEL, CSV 파일인 경우, 데이터 변환 모듈(315)는 데이터 변환 모듈(314)은 PDF, WORD, PPT, EXCEL, CSV 파일을 텍스트 파일로 변환할 수 있다. 이때, 입력 파일의 유형은 입력 제3 영역(430)의 설정 화면 중 입력 파라미터의 값을 통해 판단할 수 있다. 데이터 변환 모듈(315)는 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314), 데이터 변환 모듈(315), 형태소 분석 모듈(321), 개체명 인식 모듈(322), 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333), 키워드 추출 모듈(334)및 동시 출현 분석 모듈(335)에 대한 입력 모듈이고, 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 변환 모듈(315), 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)에 대한 출력 모듈일 수 있다.

제2 영역(420)에 표시된 데이터 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 데이터 변환 설정 화면(510)을 표시할 수 있다. 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 변환 모듈(315), 형태소 분석 모듈(321) 및 개체명 인식 모듈(322) 중 적어도 하나에 의해 기능이 수행된 데이터 또는 전자 장치(100)로부터 업로드된 데이터는 변환될 데이터 유형에 따라 변환될 수 있다.

도 6a 및 도 6b는 본 개시의 일 실시예에 따른, 텍스트 데이터 전처리와 관련된 모듈의 기능을 설명하기 위한 예시도이다.

형태소 분석 모듈(321)은 입력된 텍스트 데이터를 형태소별로 구분하고, 구분된 텍스트 데이터를 저장하기 위한 구성이다. 이때, 형태소란 의미를 가지는 가장 작은 단위를 의미하며, 특히 한국어에서만 존재할 수 있는 의미이다. 따라서, 본 형태소 분석 모듈(321)은 특히 한국어에 대하여 문장을 분리하기 위한 구성일 수 있다. 형태소 분석 모듈(321)은 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 수집 모듈(314) 및 데이터 변환 모듈(315)에 대한 입력 모듈이고, 데이터 모듈(311), 개체명 인식 모듈(322), 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333) 및 키워드 추출 모듈(334)에 대한 출력 모듈일 수 있다.

제2 영역(420)에 표시된 형태소 분석 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 도 6에 도시된 바와 같이, 형태소 분석 설정 화면(610)을 표시할 수 있다. 대상 언어, 원형 변경 여부, 원형 복원 여부등의 설정값을 입력한 경우, 전자 장치(100) 및 서버(200)는 설정된 값에 따른 결과를 출력할 수 있다.

한편, 서버(200)는 형태소 분석을 위한 사전 데이터 베이스를 메모리(210)에 저장할 수 있다. 이때, 사전 데이터베이스는 각각의 단어에 대한 다양한 정보를 포함할 수 있다. 예를 들어, 사전 데이터 베이스는 각각의 단어에 대하여 개체명 정보, 개체명 그룹 정보, 형태소 태그 정보, 감성 정보, 불용어 정보 및 사용 정보를 포함할 수 있다. 이때, 개체명이란 단어가 가지는 의미(예를 들어, 단어 자체는 다르지만 그 의미가 같은 경우 동일한 개체명을 가질 수 있다), 개체명 그룹 정보는 개체명의 카테고리(예를 들어, 인물 장소 날짜 등과 같은 카테고리) 및 카테고리에 대한 서브 카테고리(예를 들어 인물 카테고리에 대한 연예인, 정치인, 운동 선수 등과 같은 서브 카테고리)에 대한 정보를 의미하고, 형태소 태그 정보란 해당 단어의 품사(고유명사, 동사, 형용사 등)에 대한 정보를 의미하고, 감성 정보란 해당 단어가 긍정적인 단어인지 또는 부정적인 단어인지 여부를 의미하고, 불용어 정보란 텍스트 분석에 있어서 의미가 없는 단어(그거, 여기, 은, 는, 이, 가 등)에 대한 정보일 수 있다.

서버(200)는 사전 데이터 베이스를 이용하여 더욱 정확한 형태소 분석을 수행할 수 있다. 이때, 사전 데이터 베이스는 기존에 등록되어 있는 텍스트 데이터일 수 있으나 다양한 방법에 의해 업데이트 될 수 있다. 예를 들어, 텍스트 데이터 분석을 이용하는 복수의 전자 장치에 등록된 텍스트 데이터를 바탕으로 사전 데이터 베이스가 업데이트 될 수 있다. 또는 사전 데이터 베이스에 저장된 텍스트 데이터를 학습 데이터로 학습된 인공 지능 모델이 서버(200)에 저장된 경우, 임의의 단어를 입력 데이터로 사전 업데이트를 위한 인공 지능 모델에 입력하여, 상술한 개체명 정보, 개체명 그룹 정보, 형태소 태그 정보, 감성 정보, 불용어 정보 및 사용 정보를 출력할 수도 있다.

개체명 인식 모듈(322)는 형태소 분석 결과 텍스트 데이터를 활용하여 개체명을 인식하고 인식된 결과를 새로운 텍스트 데이터 파일로 저장하기 위한 구성이다. 고유 명사의 경우, 기존 형태소 분석 결과와 원하는 분석 결과가 상이한 경우가 있을 수 있다. 예를 들어, "뉴욕 타임즈"와 같은 고유 명사를 형태소 분석할 경우, 뉴욕 과 타임즈로 분리될 수 있다. 그러나 뉴욕 타임즈는 하나의 고유 명사로 텍스트 데이터 분석시 분리되지 말아야 할 하나의 단어일 수 있다. 개체명 인식 모듈(322)는 상기의 경우, "뉴욕 타임즈"를 하나의 분석 단위로 결정할 수 있다. 개체명 인식 모듈(322)는 형태소 분석 모듈(321)에 대한 입력 모듈이고, 데이터 모듈(311), 데이터 변환 모듈(315), 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333), 키워드 추출 모듈(334) 및 동시 출현 분석 모듈(335)에 대한 출력 모듈일 수 있다.

도 7a 내지 도 7e는 본 개시의 일 실시예에 따른, 텍스트 데이터 분석과 관련된 모듈의 기능을 설명하기 위한 예시도이다.

단어 빈도 분석 모듈(331)은 형태소 분석 모듈(321) 및 개체명 인식 모듈(322) 중 적어도 하나의 인식 결과를 바탕으로 텍스트 데이터에 포함된 단어의 빈도를 분석하기 위한 구성이다. 구체적으로, 단어 빈도 분석 모듈(331)은 전처리 과정을 통해 전처리된 텍스트 데이터에 포함된 단어 각각에 가중치를 부여하고, 부여된 가중치에 따라 해당 단어가 텍스트 데이터에 출현한 빈도를 획득할 수 있다. 이때, 가중치는 단어가 텍스트 데이터 내에서 사용된 횟수, 단어의 중요도에 대한 정보, 단어의 품사에 대한 정보(명사인지, 형용사 또는 조사인지 여부 등을 의미하며, 일반적으로 명사가 형용사 또는 조사보다 높은 가중치를 가질 수 있다.)를 바탕으로 결정될 수 있다. 단어 빈도 분석 모듈(331)은 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)에 대한 입력 모듈이고, 데이터 변환 모듈(315), 워드 클라우드 모듈(341) 및 히스토그램 모듈(344)에 대한 출력 모듈일 수 있다.

한편, 제2 영역(420)에 표시된 단어 빈도 분석 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 도 7에 도시된 바와 같이, 단어 빈도 분석 설정 화면(710)을 표시할 수 있다. 형태소 태그 리스트에 대한 사용자 명령이 입력되면, 전자 장치(100) 및 서버(200)는 형태소 태그 리스트에 대한 사용자 명령(예를 들어, 고유 명사(NNP) 및 일반 명사(NNG)에 대하여만 단어를 분석하기 위한 사용자 명령)에 따른 결과를 출력할 수 있다.

감성 분석 모듈(332)는 형태소 분석 모듈(321) 및 개체명 인식 모듈(322) 중 적어도 하나의 인식 결과를 바탕으로 텍스트 데이터에 대한 감성을 분석하기 위한 구성이다. 구체적으로, 감성 분석 모듈(332)는 단어의 감성 수준(긍정 또는 부정)을 스코어로 수치화할 수 있다. 이때, 각각의 단어에 대한 감성 수준은 사전 데이터 베이스에 저장된 정보를 이용하여 판단될 수 있다. 나아가 감성 분석 모듈(332)은 단어뿐 아니라 구, 절, 문장, 문단 또는 문서 전체의 감성 수준을 판단할 수도 있음은 물론이다. 이 경우, 감성 분석 모듈(332)는 각각의 단어의 감성 수준에 대한 스코어를 바탕으로 구, 절, 문장, 문단 또는 문서 전체의 감성 수준을 판단할 수 있다. 이때, 부정의 의미를 나타내는 단어(싫다, 않, 아니 등)와 특정 단어(예를 들어 (0.1의 스코어를 가지는)사과)가 결합된 경우, 감성 분석 모듈(332)는 해당 단어에 대한 스코어의 부호를 반전시킬 수 있다. 예를 들어, "사과 싫다"라는 문장의 스코어는 -0.1일 수 있다. 상술한 방법을 통해 획득된 스코어가 양수인 경우, 해당 구, 절, 문장, 문단 또는 문서 전체의 감성 정보는 긍정이고, 획득된 스코어가 음수인 경우, 해당 구, 절, 문장, 문단 또는 문서 전체의 감성 정보는 부정일 수 있다.

한편, 상술한 방법 외에도, 감성 분석 모듈(332)는 다양한 감성을 판단할 수 있음은 물론이다. 상술한 실시예에서는 단어 등의 감성을 긍정 또는 부정으로 분류하였으나, 기쁜, 슬픔, 화남 등과 같은 다양한 감성을 분석할 수 있음은 물론이다. 예를 들어, 상술한 긍정 또는 부정에 대한 스코어의 개념을 확장하여, J. Russel의 원형 감정 모델에 의해 표현되는 다양한 감성 중 어느 하나를 판단할 수 있음은 물론이다. 이때 감성 분석 모듈(332)는 감성 분석을 위한 인공 지능 모델을 더 포함할 수 있다. 감성 분석을 위한 인공 지능 모델은 사전 데이터 베이스에 저장된 단어의 긍정/부정 정도를 학습 데이터로 하여 단어에 대한 감성을 학습할 수 있다. 학습이 완료된 인공 지능 모델은 임의의 단어를 입력 데이터로 하여 단어에 대한 감성을 출력할 수 있다.

감성 분석 모듈은 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)에 대한 입력 모듈이고, 데이터 모듈(311), 데이터 분리 모듈(312), 데이터 통합 모듈(313), 데이터 변환 모듈(315) 및 히스토그램 모듈(344)에 대한 출력 모듈일 수 있다. 한편, 감성 분석 설정 화면(720)은 도 7b에 도시된 바와 같으며, 전자 장치(100)의 파일을 업로드하거나 형태소 분석 모듈(321) 및 개체명 인식 모듈(322) 중 적어도 하나의 인식 결과를 바탕으로 분석될 수 있음은 상술한 다양한 모듈들과 같다.

LDA 토픽 모델링 모듈(333)은 형태소 분석 모듈(321) 및 개체명 인식 모듈(322) 중 적어도 하나의 인식 결과를 바탕으로 LDA 토픽 모델링을 수행하기 위한 구성이다. 즉, LDA 토픽 모델링 모듈(333)은 LDA(Latent Dirichlet Allocation)기법에 의한 토픽 모델링 기술을 바탕으로 텍스트 데이터를 분석할 수 있다. 그러나 상술한 방법에 한정되는 것은 아니며, SVM(Support Vector Machin)기법, ATM(Author Topic Model)기법, DMR(Dirichlet Multinomial Regression) 기법 등 텍스트 정보 검색 또는 텍스트 정보 요약을 위한 다양한 기법이 적용될 수 있음은 물론이다.

LDA 토픽 모델링 모듈(333)은 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)에 대한 입력 모듈이고, 데이터 변환 모듈(315), 클러스터 다이어그램 모듈(343) 및 히스토그램 모듈(344)에 대한 출력 모듈일 수 있다.

한편, 2 영역(420)에 표시된 LDA 토픽 모델링 컴포넌트를 클릭(또는 터치) 하는 사용자 명령이 입력되면, 전자 장치(100)는 제3 영역(430)의 일부에, 도 7에 도시된 바와 같이, LDA 토픽 모델링 설정 화면(730)을 표시할 수 있다. LDA 토픽 모델링 설정 화면(730)은 형태소 태그 리스트, 토픽수, 키워드 수, Iteration 수, 알파값 및 베타 값을 설정하기 위한 화면을 포함할 수 있다.

키워드 추출 모듈(334)은 형태소 분석 모듈(321) 및 개체명 인식 모듈(322) 중 적어도 하나의 인식 결과를 바탕으로 텍스트 데이터의 키워드를 획득하기 위한 구성이다. 키워드가 하나의 단어인 경우에는 상술한 단어 빈도 분석 모듈(331)을 통해 키워드를 추출할 수 있을 것이나, 일반적으로 키워드는 하나 이상인 경우가 많을 것이다. 따라서, 키워드 추출 모듈(334)은 복수의 단어를 포함하는 키워드를 추출해 낼 수 있다. 키워드에 해당하는 최대 단어의 개수는 도 7에 도시된 키워드 추출 설정 화면(740)을 통해 입력될 수 있다. 이때 키워드는 문서에 포함된 단어의 단순 빈도(Term Frequency, 이하 TF) 및 역 문서 빈도(Inverse Document Frequency, 이하 IDF)에 의해 결정될 수 있다 구체적으로, 문서에 포함된 단어가 매우 적은 경우, 해당 단어의 중요성은 대체로 낮다. 즉, TF가 낮은 단어는 키워드가 아닐 확률이 높다. 반면, 문서에 포함된 단어가 매우 많은 경우에도 해당 단어의 중요성이 높다고 할 수 없는 경우가 있다. 예를 들어, 은, 는, 이, 가와 같은 조사들은 대부분의 문서에서 가장 많이 등장하는 단어들 중 하나이나 이러한 조사가 문서의 키워드일 확률은 매우 낮다.

따라서, 키워드 추출 모듈(334)은 텍스트 데이터 분석을 위한 문서에서의 TF 및 텍스트 데이터 분석을 위한 문서를 포함하는 복수의 독립된 문서에서의 IDF를 모두 고려하여 키워드를 추출할 수 있다. 즉, 키워드 추출 모듈(334)는, 텍스트 데이터 분석을 위한 문서에서 출현 빈도가 높은 단어들 중, 텍스트 데이터 분석을 위한 문서를 포함하는 복수의 독립된 문서들에서 출현 빈도가 높은 단어들을 제외하고 키워드를 추출할 수 있다.

키워드 추출 모듈(334)은 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)에 대한 입력 모듈이고, 데이터 변환 모듈(315), 워드 클라우드 모듈(341) 및 히스토그램 모듈(344)에 대한 출력 모듈일 수 있다.

동시 출현 분석 모듈(335)는 형태소 분석 모듈(321) 및 개체명 인식 모듈(322) 중 적어도 하나의 인식 결과를 바탕으로 단어들 사이의 연관도를 획득하기 위한 구성이다. 구체적으로, 동시 출현 분석 모듈(335)는 단어들이 동시에 출현한 빈도를 바탕으로 단어들 사이의 가중치를 획득하고, 획득된 가중치를 바탕으로 특정 단어와 연관있는 단어를 획득하기 위한 구성일 수 있다. 이때, 단어들 간의 가중치는 단어와 단어 사이의 거리(단어와 단어 사이에 존재하는 다른 단어의 수), 단어의 출현 빈도를 바탕으로 결정될 수 있다. 한편, 도 7e에 도시된 바와 같이 동시 출현 분석 설정 화면(750)을 통해 형태소 태그 리스트, 키워드, 캐시된 매트릭스 사용 여부, 윈도우 크기 등을 설정할 수 있다. 동시 출현 분석 설정 화면(750)을 통해 키워드가 "결혼"으로 입력된 경우, 서버(200)는 결혼과 관련된 단어들을 획득할 수 있다.

한편, 동시 출현 분석 모듈(335)는 동시 출현 분석을 위한 인공 지능 모델을 더 포함할 수 있다. 동시 출현 분석을 위한 인공 지능 모델은 복수의 문서들을 학습 데이터로 하여 문서에 포함된 단어들에 대한 동시 출현 빈도와 관련된 가중치를 학습할 수 있다. 학습이 완료된 인공 지능 모델은 임의의 문서를 입력 데이터로 하여 단어들에 대한 가중치를 출력할 수 있다.

동시 출현 분석 모듈(335)는 형태소 분석 모듈(321) 및 개체명 인식 모듈(322)에 대한 입력 모듈이고, 데이터 변환 모듈(315), 워드 클라우드 모듈(341), 네트워크 다이어그램 모듈(342) 및 동시 출현 매트릭스(345) 모듈에 대한 출력 모듈일 수 있다.

도 8a 내지 도 8e는 본 개시의 일 실시예에 따른, 텍스트 데이터 시각화와 관련된 모듈의 기능을 설명하기 위한 예시도이며, 도 9a 내지 도 9e는 본 개시의 일 실시예에 따른, 텍스트 데이터 시각화 결과를 설명하기 위한 예시도이다.

워드 클라우드 모듈(341)은 분석된 텍스트 데이터를 바탕으로 워드 클라우드를 생성하기 위한 구성이다. 도 8a에 도시된 바와 같이, 워드 클라우드 설정 화면(810)은 마스크 옵션, 가로 길이, 세로 길이, 여백, 최대 단어 수, 최소 글씨 크기, 최대 글씨 크기, 배경색 등의 정보를 설정하기 위한 화면을 표시할 수 있으며, 출력 파일 우측의 눈모양 아이콘을 클릭하면, 도 9a에 도시된 바와 같이 워드 클라우드(910)가 출력될 수 있다.

워드 클라우드 모듈(341)은 단어 빈도 분석 모듈(331), 키워드 추출 모듈(334) 및, 동시 출현 분석 모듈(335)을 입력 모듈로 할 수 있다.

네트워크 다이어그램 모듈(342)은 동시 출현 분석 모듈(335)에 의해 획득된 동시 출현 분석 결과를 네트워크 다이어그램 형태로 출력하기 위한 구성이다. 도 8b에 도시된 바와 같이, 네트워크 다이어그램 설정 화면(820)은 상위 N노드에 대한 정보를 설정하기 위한 화면을 포함할 수 있으며, 출력 파일 우측의 눈모양 아이콘을 클릭하면, 도 9b에 도시된 바와 같이 네트워크 다이어그램(920)이 출력될 수 있다.

네트워크 다이어그램 모듈(342)는 동시 출현 분석 모듈(335)를 입력 모듈로 할 수 있다. 클러스터 다이어그램 모듈(343)은 LDA 토픽 모델링 모듈(333)에 의해 획득된 LDA 토픽 모델링 결과를 클러스터 다이어그램 형태로 출력하기 위한 구성이다. 도 8c에 도시된 바와 같이, 클러스터 다이어그램 설정 화면(830)은 색채 배합 정보, 상위 N노드에 대한 정보를 설정하기 위한 화면을 포함할 수 있으며, 출력 파일 우측의 눈모양 아이콘을 클릭하면, 도 9c에 도시된 바와 같이 클러스터 다이어그램(930)이 출력될 수 있다.

클러스터 다이어그램 모듈(343)은 LDA 토픽 모델링 모듈(333)에 대한 입력 모듈일 수 있다.

히스토그램 모듈(344)은, 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333), 키워드 추출 모듈(334)의 분석 결과를 히스토그램 형태로 출력하기 위한 구성이다. 도 8d에 도시된 바와 같이, 히스토그램 설정 화면(840)은 입력 파일을 입력하기 위한 화면 도는 출력 파일을 출력하기 위한 화면을 포함할 수 있으며, 출력 파일 우측의 눈모양 아이콘을 클릭하면, 도 9d에 도시된 바와 같이 히스토그램(940-1, 940-2)이 출력될 수 있다. 이때, 히스토그램(940-1)은 일반적인 분석 방법에 의한 히스토그램이며, 히스토그램(940-2)는 감성 분석 방법에 의한 히스토그램이다.

히스토그램 모듈(344)은, 단어 빈도 분석 모듈(331), 감성 분석 모듈(332), LDA 토픽 모델링 모듈(333), 키워드 추출 모듈(334)에 대한 입력 모듈일 수 있다.

동시 출현 매트릭스 모듈(345)는 동시 출현 분석 모듈(335)에 의해 획득된 동시 출현 분석 결과를 동시 출현 매트릭스의 형태로 출력하기 위한 구성이다. 도 8e에 도시된 바와 같이, 동시 출현 매트릭스 설정 화면(850)은 입력 파일을 입력하기 위한 화면 도는 출력 파일을 출력하기 위한 화면을 포함할 수 있으며, 출력 파일 우측의 눈모양 아이콘을 클릭하면, 도 9e에 도시된 바와 같이 동시 출현 매트릭스 (950)가 출력될 수 있다.

동시 출현 매트릭스 모듈(345)는 동시 출현 분석 모듈(335)에 대한 입력 모듈일 수 있다.

한편, 상술한 바와 같이, 복수의 모듈 전부 또는 일부는 인공 지능 모델을 포함할 수 있다. 인공 지능 모델을 사용하는 경우, 프로세서(230)는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. 이 때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다.

나아가, 인공 지능 모델이 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

또한, 인공 지능 모델은 인공 지능 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 인공 지능 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 인공 지능 모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있다. 인공 지능 모델은 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 인공 지능 모델은, 일 예로, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 텍스트 데이터를 주고받을 수 있다.

예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 인공 지능 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 획득 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 획득될 수 있다.

다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

100: 전자 장치 200: 서버

Claims

전자 장치 및 서버를 포함하는 텍스트 데이터 분석 시스템에 있어서,
상기 전자 장치는,
메모리;
통신부;
디스플레이; 및
프로세서; 를 포함하고,
상기 서버는,
통신부;
메모리; 및
프로세서; 를 포함하며,
상기 서버는,
상기 서버의 메모리는 텍스트 데이터 수집을 위한 텍스트 데이터 모듈, 텍스트 데이터 분리 모듈, 텍스트 데이터 통합 모듈, 텍스트 데이터 수집 모듈 및 텍스트 데이터 변환 모듈, 텍스트 데이터 전처리를 위한 형태소 분석 모듈 및 개체명 인식 모듈, 텍스트 데이터 분석을 위한 단어 빈도 분석 모듈, 감성 분석 모듈, LDA 토픽 모델링 모듈, 키워드 추출 모듈 및 동시 출현 분석 모듈, 텍스트 데이터 출력을 위한 워드 클라우드 모듈, 네트워크 다이어그램 모듈, 클러스터 다이어그램 모듈, 히스토그램 모듈 및 동시 출현 매트릭스 모듈 및 텍스트 데이터 수집, 텍스트 데이터 전처리, 텍스트 데이터 분석을 위한 데이터 베이스를 포함하고,
상기 전자 장치는,
상기 서버로부터 상기 서버에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면을 표시하고,
상기 UI의 제1 영역은 상기 복수의 모듈 각각에 대응되는 복수의 아이콘을 포함하고, 상기 제1 영역을 통해 상기 복수의 아이콘 중 적어도 하나를 선택하기 위한 사용자 명령이 입력되면, 상기 복수의 아이콘 중 선택된 적어도 하나의 아이콘에 대응되는 컴포넌트를 상기 UI의 제2 영역에 표시하고,
상기 UI의 제2 영역에 표시된 컴포넌트를 선택하는 사용자 명령이 입력되면, 상기 디스플레이는 상기 선택된 컴포넌트에 대응되는 기능을 수행하기 위해 필요한 입력 데이터를 입력 받기 위한 UI를 표시하고,
상기 입력 데이터를 입력 받기 위한 UI를 통해 텍스트 데이터가 입력된 후, 상기 입력된 텍스트 데이터를 상기 서버로 전송하기 위한 사용자 명령이 입력되면, 상기 입력된 텍스트 데이터 및 상기 입력된 텍스트 데이터에 대한 모듈에 대한 정보를 상기 서버로 전송하고,
상기 서버는,
상기 입력된 텍스트 데이터에 대한 모듈에 대한 정보를 바탕으로 상기 복수의 모듈 중 기능을 수행할 모듈을 선택하고, 상기 선택된 모듈에 상기 전자 장치로부터 수신한 입력 데이터를 바탕으로 출력 텍스트 데이터를 획득하고,
상기 획득된 텍스트 데이터를 상기 전자 장치로 전송하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 전자 장치는,
상기 UI의 제2 영역에 복수의 모듈에 대응되는 복수의 컴포넌트가 표시되고, 상기 복수의 컴포넌트 중 적어도 두개의 컴포넌트를 연결하기 위한 사용자 명령이 입력되면, 상기 적어도 두개의 컴포넌트를 연결하고,
상기 복수의 모듈에 대응되는 복수의 컴포넌트 각각은 입력단에서 연결 가능한 컴포넌트 및 출력단에서 연결 가능한 컴포넌트를 포함하고,
상기 UI의 제2 영역을 통해 상기 복수의 컴포넌트 중 하나가 선택되면, 상기 UI의 제1 영역은 상기 선택된 복수의 컴포넌트 중 하나와 연결 가능한 컴포넌트에 대응되는 아이콘을 상기 선택된 복수의 컴포넌트 중 하나와 연결 가능하지 않은 아이콘과 구별하여 표시하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 텍스트 데이터 수집 모듈은 수집 모듈 및 검색 엔진 모듈을 더 포함하고,
상기 수집 모듈은, 기 설정된 시간 간격으로 외부 서버로부터 텍스트 데이터를 수신하고, 수신된 텍스트 데이터를 각각에 인덱스를 부가하여 상기 데이터 베이스에 저장하고,
상기 검색 엔진 모듈은 상기 전자 장치로부터 텍스트 데이터 수집을 위한 제어 신호를 수신한 경우, 상기 수신한 제어 신호에 대응되는 텍스트 데이터를 상기 데이터 베이스로부터 검색하기 위한 모듈인 것을 특징으로 하는 시스템.
제3항에 있어서,
상기 전자 장치는,
상기 서버에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면은, 상기 데이터 베이스 관리를 위한 텍스트 데이터 관리 아이콘을 포함하고,
상기 텍스트 데이터 관리 아이콘을 통해 상기 전자 장치의 메모리에 저장된 텍스트 데이터를 업로드하기 위한 사용자 명령이 입력되면, 상기 메모리에 저장된 텍스트 데이터를 상기 서버로 전송하고,
상기 서버는,
상기 수집 모듈을 이용하여 상기 전자 장치로부터 업로드된 각각에 텍스트 데이터에 인덱스를 부가하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 서버에 포함된 복수의 모듈에 대한 컴포넌트를 편집하기 위한 UI 화면은 텍스트 데이터 사용량을 확인하기 위한 텍스트 데이터 사용 아이콘을 포함하고, 상기 텍스트 데이터 사용 아이콘을 통한 사용자 명령이 입력되면, 상기 전자 장치가 사용한 텍스트 데이터 사용량이 표시되며,
상기 텍스트 데이터 사용량은 상기 텍스트 데이터 관리 아이콘을 통해 입력된 텍스트 데이터와 관련된 텍스트 데이터 사용량, 상기 텍스트 데이터 수집 모듈을 통해 수집된 텍스트 데이터와 관련된 텍스트 데이터 사용량, 상기 텍스트 데이터 분석 모듈을 통해 분석된 텍스트 데이터와 관련된 텍스트 데이터 사용량을 포함하고,
상기 서버는, 상기 전자 장치로 상기 텍스트 데이터 사용량에 따른 비용을 기 설정된 주기로 전송하는 것을 특징으로 하는 시스템.
제1항에 있어서,
텍스트 데이터 전처리를 위한 상기 형태소 분석 모듈 및 상기 개체명 인식 모듈은 각각의 기능을 수행하기 위한 인공 지능 모델을 포함하고
상기 데이터 베이스는 상기 텍스트 데이터를 분석한 사전 데이터 베이스를 포함하고,
텍스트 데이터 전처리를 위한 상기 각각의 인공 지능 모델은 상기 사전 데이터 베이스에 저장된 텍스트 데이터를 학습 데이터로 입력하여 상기 각각의 인공 지능 모델을 학습시키고,
상기 서버는,
상기 텍스트 데이터 수집 모듈을 통해 수집된 텍스트 데이터가 입력 데이터로 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 인공 지능 모델에 입력되면, 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델을 바탕으로 상기 사전 데이터 베이스를 업데이트 하는 것을 특징으로 하는 시스템.
제1항에 있어서,
텍스트 데이터 분석을 위한 상기 단어 빈도 분석 모듈, 상기 감성 분석 모듈, 상기 LDA 토픽 모델링 모듈, 상기 키워드 추출 모듈 및 상기 동시 출현 분석 모듈은 각각의 기능을 수행하기 위한 인공 지능 모델을 포함하고,
텍스트 데이터 분석을 위한 상기 각각의 인공 지능 모델은 상기 데이터 베이스에 저장된 텍스트 데이터를 학습 데이터로 입력하여 상기 각각의 인공 지능 모델을 학습시키고,
상기 서버는,
상기 텍스트 데이터 수집 모듈을 통해 수집된 텍스트 데이터가 입력 데이터로 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델에 입력되면, 상기 학습된 각각의 인공 지능 모델 중 적어도 하나의 학습된 인공 지능 모델을 바탕으로 텍스트 데이터 분석 결과를 출력하는 것을 특징으로 하는 시스템.