KR20220116086A

KR20220116086A - 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체

Info

Publication number: KR20220116086A
Application number: KR1020210019562A
Authority: KR
Inventors: 고휘석
Original assignee: 고휘석
Priority date: 2021-02-13
Filing date: 2021-02-13
Publication date: 2022-08-22

Abstract

데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 시스템은, 웹페이지로부터 텍스트 데이터를 수집하는 빅데이터 수집부; 수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하는 텍스트 전처리부; 상기 형태소 정보를 카테고리 별로 분류하고, 연관 단어를 추출하는 온톨로지 사전 확장부; 상기 형태소 정보로부터 상기 연관 단어 간 유사도를 측정하여 특정 개체명의 연관 개체명들을 인식하는 개체명 인식부; 상기 형태소 정보로부터 특정 개체명에 관련된 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 텍스트 증시 관련성 분류부를 포함한다. 이에 따라, 텍스트 데이터를 자동으로 수집하고 증시 관련성이 높은 데이터 위주로 정제하는 작업이 가능하다.

Description

텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체 { SYSTEM AND METHOD FOR COLLECTING AND CLEANSING TEXT DATA, AND RECORDING MEDIUM FOR PERFORMING THE METHOD }

본 발명은 증시 관련 텍스트 데이터의 수집·정제 방법, 그 방법을 수행하기 위한 기록 매체에 관한 것으로서, 더욱 상세하게는 법령·정책을 포함하는 비정형 데이터를 자동으로 수집하고 정제하여 증시 관련성이 높은 데이터를 제공하기 위한 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체에 관한 것이다.

데이터 마이닝은 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것으로, 보다 상세하게는 의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정이다.

이러한 데이터 마이닝은 다양한 분야에서 활용되고 있는 바, 경제 분야에서 경제전망을 예측하기 위하여 활용한다.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 시스템을 제공하는 것이다.

본 발명의 다른 목적은 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법을 제공하는 것이다.

본 발명의 또 다른 목적은 상기 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 시스템은, 웹페이지로부터 텍스트 데이터를 수집하는 빅데이터 수집부; 수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하는 텍스트 전처리부; 상기 형태소 정보를 카테고리 별로 분류하고, 연관 단어를 추출하는 온톨로지 사전 확장부; 상기 형태소 정보로부터 상기 연관 단어 간 유사도를 측정하여 특정 개체명의 연관 개체명들을 인식하는 개체명 인식부; 상기 형태소 정보로부터 특정 개체명에 관련된 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 텍스트 증시 관련성 분류부를 포함한다.

본 발명의 실시예에서, 상기 빅데이터 수집부는, 상기 웹페이지를 방문하여 텍스트 데이터를 수집하는 텍스트 크롤러(Crawler)부; 상기 수집된 텍스트 데이터의 HTML 구조를 분석하여 필요한 정보를 추출하는 HTML 파서부; 및 추출된 정보를 데이터베이스에 저장하는 저장부를 포함할 수 있다.

본 발명의 실시예에서, 상기 텍스트 전처리부는, 상기 수집한 텍스트 데이터의 원본 텍스트로부터 의미를 갖는 최소 단어를 추출하여 단어별 빈도 목록을 구축하는 형태소 분석부; 및 상기 수집한 텍스트 데이터 중 스팸 데이터를 제거하는 스팸 데이터 제거부를 포함할 수 있다.

본 발명의 실시예에서, 상기 온톨로지 사전 확장부는, 기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하고, 상기 연관 단어를 추출하는 단어 탐색어 맵부; 및 상기 연관 단어를 상기 온톨로지 사전에 업데이트하는 온톨로지 사전 업데이트부를 포함할 수 있다.

본 발명의 실시예에서, 상기 단어 맵핑부는, 명사와 서술어 간 PMI 값을 계산하는 명사 서술어 PMI 계산부; 및 명사와 명사 간 PMI 값을 계산하는 복합단어 PMI 계산부를 포함할 수 있다.

본 발명의 실시예에서, 상기 이형태 자동 추출부는, 계산된 PMI 값을 기초로 상기 연관 단어의 유사도를 계산하는 유사도 계산부; 및 상기 연관 단어 및 각 연관 단어의 유사도에 따른 상기 연관 개체명들의 목록을 구축하는 연관 단어 목록부를 포함할 수 있다.

본 발명의 실시예에서, 상기 개체명 인식부는, 상기 연관 개체명들을 추출하여 개체명 정보를 업데이트하는 개체명 사전 업데이트부를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 증시 관련성 분류부는, 상기 수집한 텍스트 데이터의 증시 관련 단어에 대한 극성값을 포함하는 증시 관련 단어사전 구축부; 및 증서 관련 단어의 빈도수를 기초로 텍스트의 증시 관련성을 분류하는 텍스트 증시 관련성 분류부를 포함할 수 있다.

본 발명의 실시예에서, 상기 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 시스템은, 도출된 상기 증시 관련성 수치를 시각적 정보로 제공하는 데이터 시각화부를 더 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법은, 웹페이지로부터 텍스트 데이터를 수집하는 단계; 수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하고, 상기 형태소 정보로부터 명사-결합단어 및 명사-서술어를 추출하는 단계; 기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하는 단계; 상기 형태소 정보로부터 연관 단어 간 유사도를 측정하여 특정 개체명의 연관 개체명들을 인식하는 단계; 상기 형태소 정보로부터 특정 개체명 및 연관 개체명들에 관련된 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 단계를 포함한다.

본 발명의 실시예에서, 상기 웹페이지로부터 텍스트 데이터를 수집하는 단계는, 상기 웹페이지를 방문하여 텍스트 데이터를 수집하는 단계; 상기 수집된 텍스트 데이터의 HTML 구조를 분석하여 필요한 정보를 추출하는 단계; 및 추출된 정보를 데이터베이스에 저장하는 단계를 포함할 수 있다.

본 발명의 실시예에서, 상기 수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하는 단계는, 상기 수집한 텍스트 데이터의 원본 텍스트로부터 의미를 갖는 최소 단어를 추출하여 단어별 빈도 목록을 구축하는 단계; 및 상기 수집한 텍스트 데이터 중 스팸 데이터를 제거하는 단계를 포함할 수 있다.

본 발명의 실시예에서, 상기 기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하는 단계는, 기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하는 단계; 및 상기 연관 단어를 중심으로 탐색어 맵을 통해서 상기 온톨로지 사전에 업데이트하는 단계를 포함할 수 있다.

본 발명의 실시예에서, 상기 특정 개체명의 연관 개체명들을 인식하는 단계는, 상기 형태소 정보로부터 명사와 서술어 및 명사와 결합단어 간 PMI(Pointwise Mutual Information) 값을 계산하는 단계; 및 계산된 PMI 값을 기초로 상기 연관 단어의 유사도를 계산하여 상기 특정 개체명의 연관 개체명들을 도출하는 단계를 포함할 수 있다.

본 발명의 실시예에서, 상기 수집한 텍스트 데이터의 증시 관련 단어에 대한 극성값을 포함하는 증시 관련 단어사전을 구축하는 단계; 및 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 단계를 포함할 수 있다.

본 발명의 실시예에서, 상기 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법은, 도출된 상기 증시 관련성 수치를 시각적 정보로 제공하는 단계를 더 포함할 수 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

이와 같은 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법에 따르면, 수집한 텍스트 데이터가 내포하는 증시 관련성 수치를 정량화하고 통계적으로 활용하여 데이터를 분석한다. 따라서 텍스트 데이터의 의미가 전달하는 사실적 특성에 기반하여 분석을 진행하고, 기업·부동산의 가치변동에 영향을 줄 수 있는 이벤트-시간-장소 정보 추출이 가능하다. 이에 따라, 신뢰도 높은 데이터 정제 결과를 제공하여 위험도가 낮은 투자 결정을 유도할 수 있다.

도 1은 본 발명의 일 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 시스템의 블록도이다.
도 2는 도 1의 빅데이터 수집부의 상세 블록도이다.
도 3은 도 1의 텍스트 전처리부의 상세 블록도이다.
도 4는 도 1의 온톨로지 사전 확장부의 상세 블록도이다.
도 5는 도 1의 개체명 인식부의 상세 블록도이다.
도 6은 도 1의 증시 관련성 분류부의 상세 블록도이다.
도 7은 본 발명의 일 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 시스템의 블록도이다.

본 발명에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 시스템(10, 이하 시스템)은 텍스트 데이터를 자동으로 수집하고 증시 관련성이 높은 데이터 위주로 정제한다.

도 1을 참조하면, 본 발명에 따른 시스템(10)은 빅데이터 수집부(110), 텍스트 전처리부(130), 온톨로지 사전 확장부(140), 개체명 인식부(150), 증시 관련성 분류부(170)를 포함한다. 본 발명의 다른 실시예에 따른 시스템(10)은 데이터 시각화부(190)를 더 포함할 수 있다.

본 발명의 상기 시스템(10)은 데이터 마이닝을 통한 증시 관련 텍스트 데이터의 수집·정제를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 빅데이터 수집부(110), 상기 텍스트 전처리부(130), 상기 온톨로지 사전 확장부(140), 상기 개체명 인식부(150), 상기 증시 관련성 분류부(170) 및 상기 데이터 시각화부(190)의 구성은 상기 시스템(10)에서 실행되는 상기 데이터 마이닝을 통한 증시 관련 텍스트 데이터의 수집·정제를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 시스템(10)은 별도의 단말이거나 단말의 일부 모듈일 수 있다. 또한, 상기 빅데이터 수집부(110), 상기 텍스트 전처리부(130), 상기 온톨로지 사전 확장부(140), 상기 개체명 인식부(150), 상기 증시 관련성 분류부(170) 및 상기 데이터 시각화부(190)의 구성은 하나의 통합 모듈로 형성되거나, 둘 이상의 모듈로 이루어질 수 있다. 그러나 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 시스템(10)은 이동성을 갖거나 고정될 수 있다. 상기 시스템(10)은 서버(Server) 또는 엔진(Engine) 형태일 수 있으며, 디바이스(Device), 기구(Apparatus), 단말(Terminal), UE(User Equipment), MS(Mobile Station), 무선기기(Wireless Device), 휴대기기(Handheld Device) 등 다른 용어로 불릴 수 있다.

상기 시스템(10)은 운영체제(Operation System; OS)를 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 시스템의 하드웨어를 사용할 수 있도록 하기 위한 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

상기 빅데이터 수집부(110)는 웹페이지로부터 공공데이터를 포함하는 텍스트 데이터를 수집한다.

도 2를 참조하면, 상기 빅데이터 수집부(110)는 텍스트 크롤러(Crawler)부(111), HTML 파서부(113) 및 저장부(115)를 포함할 수 있다.

상기 텍스트 크롤러(Crawler)부(111)는 상기 웹페이지를 방문하여 주기적으로 또는 특정 기간의 텍스트 데이터를 수집한다. 또는, 기업·부동산의 가치변동에 영향을 줄 수 있는 공공데이터를 수집할 수 있으며, 공공데이터는 법령, 정책 등을 소스로 할 수 있다.

예를 들어, 사용자가 지정한 여러 공공데이터 제공 웹페이지로부터 공공데이터를 수집할 수 있고, 사용자가 수집 명령을 내리면 URL, page 번호 등과 같은 정보를 이용하여 해당 웹페이지에 지속적으로 방문하여 데이터를 수집할 수 있다.

상기 HTML 파서부(113)는 상기 수집된 텍스트 데이터의 HTML 구조를 분석하여 필요한 정보를 추출한다. 빅데이터 분석 환경에서는 보다 다양한 종류의 소스(Source)로부터 데이터를 수집 및 분석해야 하므로 웹 크롤링(Web Crawling) 및 HTML 파싱(Parsing) 기술에 대한 필요성이 높아지고 있다.

상기 HTML 파서부(113)는 HTML 구조를 자동으로 파악하고, 이로부터 필요한 정보만 자동으로 파싱한다. 예를 들어, HTML 구조의 공통요소 부분은 자동으로 탐지하고, class, id 등의 속성 태그를 이용하여 DOM(Document Object Model) 트리(Tree) 내에서 해당 노드가 어떠한 의미를 지니는지를 자동으로 추론하여 실제 수집하고자 하는 내용을 자동으로 수집한다.

상기 저장부(115)는 상기 HTML 파서부(113)에서 추출된 정보를 지정된 데이터베이스(300)에 저장한다.

상기 텍스트 전처리부(130)는 상기 빅데이터 수집부(110)에서 수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석한다. 상기 텍스트 전처리부(130)가 분석하는 데이터는 상기 데이터베이스(300)에 저장된 텍스트 데이터일 수 있다.

도 3을 참조하면, 상기 텍스트 전처리부(130)는 형태소 분석부(131) 및 스팸 데이터 제거부(133)를 포함할 수 있다. 상기 텍스트 전처리부(130)에 의해 전처리된 정보는 전처리 데이터베이스에 저장될 수 있다.

상기 형태소 분석부(131)는 상기 수집한 텍스트 데이터의 원본 텍스트로부터 의미를 갖는 최소 단어를 추출하여 단어별 빈도 목록을 구축한다. 이는 수집하여 필터링한 텍스트 데이터를 자연어 처리 기반으로 의미관계를 분석하고 증시 관련성 분석을 통하여 구조화 정보로 생성하기 위함이다.

상기 형태소 분석부(131)는 API 및 멀티쓰레드 형태소 분석 모듈을 이용하여 형태소 분석을 수행할 수 있다. 이때 상기 형태소 분석부(131)는 API 및 멀티쓰레드 형태소 분석 모듈과 통신을 하는데, 이때 통신하는 패킷은 사전에 정의된 클래스를 이용하며 이 클래스는 크롤링된 페이지의 정보를 알 수 있는 인식자와 같은 메타데이터 및 텍스트 데이터에 대한 정보를 포함할 수 있다.

형태소(Morpheme)란, 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소단위로 정의된다. 형태소가 다른 형태소와의 구체적인 결합으로 실현되었을 때는 이형태(Allomorph)라고 한다.

형태소 분석이 완료된 정보는 상기 온톨로지 사전 확장부(140), 상기 개체명 인식부(150) 및 상기 증시 관련성 분류부(170)로 전송된다. 따라서 상기 온톨로지 확장부(140), 상기 개체명 인식부(150) 및 상기 증시 관련성 분류부(170)는 텍스트 데이터의 원본 텍스트가 아닌, 상기 형태소 분석부(131)에서 형태소 분석된 결과를 이용하게 된다.

상기 스팸 데이터 제거부(133)는 상기 수집한 텍스트 데이터 중 스팸 데이터를 제거한다. 본 발명과 연관성이 없는 텍스트 데이터는 제거하여 전처리 데이터베이스에 저장될 수 있다.

일 실시예로서, 홍보성 뉴스, 광고 등을 제거하기 위해 아래의 수학식 1과 같은 베이지안 필터링을 이용하여 스팸 데이터를 제거할 수 있다.

베이지안 필터링을 사용하기 위해 스팸 데이터를 수집하여 수집된 텍스트 데이터에 등장하는 단어들에 대한 정보를 이용하여 비율 값을 확인하고, 사전에 계산된 결과값을 이용하여 스팸 데이터와 증시 관련 데이터로 분류할 수 있다. 그 분류 결과에 기초하여 지속적인 학습을 통해 전체 텍스트 데이터에서 특정 스팸 데이터에 등장하는 단어들의 비율을 갱신할 수 있다.

도 4를 참조하면, 상기 온톨로지 사전 확장부(140)는 기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하고, 기 구축된 온톨로지 사전의 연관어를 중심으로 하여 탐색어 맵을 통해 해당 토픽을 설명할 수 있는 연관어 후보를 추출하는 단어 탐색어 맵부(141) 및 상기 연관 단어를 상기 온톨로지 사전(145)에 업데이트하는 온톨로지 사전 업데이트부(143)를 포함할 수 있다.

상기 개체명 인식부(150)는 상기 텍스트 전처리부(130)에서 전송된 형태소 정보로부터 단어 간 유사도를 측정하여 특정 개체명의 연관 개체명들을 인식한다. 법령의 경우 별칭, 약어로 사용되는 경우가 많이 있다(예: 만화진흥에 관한 법률/만화진흥법, 박물관 및 미술관 진흥법/박물관미술관법 등).

이와 같은 문제를 해결하기 위해 상기 개체명 인식부(150)는 단어 맵핑부(151)와 이형태 자동 추출부(153)를 이용하여 개체명 후보 정보를 추출하며 지속적인 학습을 통해 개체명 사전을 업데이트할 수 있다. 상기 단어 맵핑부(151)는 상기 형태소 정보로부터 명사와 서술어 및 명사와 결합단어 간 PMI(Pointwise Mutual Information) 값을 계산하고, 상기 이형태 자동 추출부(153)는 계산된 PMI 값을 기초로 상기 연관 단어의 유사도를 계산하여 상기 특정 개체명의 연관 개체명들을 도출한다.

이를 위한 전처리 단계로서, 상기 텍스트 전처리부(130)는 텍스트 데이터로부터 복합명사를 추출하여 고빈도 복합명사 목록을 구축하고, 고빈도 복합명사 목록을 사용하여 복합명사 및 결합단어에 대한 출현빈도를 추출하여 상기 개체명 인식부(150)에 전달할 수 있다.

또한, 상기 텍스트 전처리부(130)는 텍스트 데이터로부터 형태소 분석기를 이용하여 명사/서술어를 추출한 후 고빈도 명사 목록 및 서술어 목록을 구축하고 단어별 빈도를 계산하여 명사-서술어 동시출현빈도 목록을 구축하여 상기 개체명 인식부(150)에 전달할 수 있다.

도 5를 참조하면, 상기 단어 맵핑부(151)는 명사와 서술어 간 PMI 값을 계산하는 명사 서술어 PMI 계산부(1511) 및 명사와 명사 간 PMI 값을 계산하는 복합단어 PMI 계산부(1513)를 포함할 수 있다.

상기 단어 맵핑부(151)는 고빈도 복합명사(명사-명사) 동시출현빈도와 명사-서술어 동시출현빈도로부터 PMI 계산을 통하여 PMI 목록을 구축할 수 있다. 아래의 수학식 2는 명사와 서술어 간의 PMI 값을 계산하는 식이고, 아래의 수학식 3은 복합명사의 명사와 결합단어 간의 PMI 값을 계산하는 식이다.

여기서

는 텍스트 데이터 c의 특징단어 집합이고,

는 텍스트 데이터 c의 연관단어 집합이고,

는 텍스트 데이터 c에 등장한 문장들의 집합이다.

상기 이형태 자동 추출부(153)는 계산된 PMI 값을 기초로 상기 연관 단어의 유사도를 계산하는 유사도 계산부(1531) 및 상기 연관 단어 및 각 연관 단어의 유사도에 따른 상기 연관 개체명들의 목록을 구축하는 연관 단어 목록부(1533)를 포함할 수 있다.

상기 이형태 자동 추출부(153)는 복합명사 PMI 목록과 명사-서술어 PMI 목록으로부터 유사도를 계산하여 연관단어 목록을 구축한다. 아래의 수학식 4는 명사-서술어의 PMI를 벡터 값으로 하여, 명사와 이형태 후보 간의 코사인 유사도를 계산한다.

여기서,

는 텍스트 데이터 c의 특징단어 집합이고,

는 텍스트 데이터 c의 이형태 후보 명사 집합을 나타낸다.

상기 개체명 인식부(150)는 상기 연관 개체명들을 추출하여 개체명 정보를 개체명 사전(157)에 업데이트하는 개체명 사전 업데이트부(155)를 더 포함할 수 있다.

상기 증시 관련성 분류부(170)는 상기 형태소 정보로부터 특정 개체명에 관련된 증시 관련 단어의 빈도수를 기초로 텍스트의 증시 관련성을 분류한다. 이때 특정 개체명은 상기 개체명 인식부(150)에서 도출한 연관 개체명들을 모두 포함할 수 있다. 이에 따라 누락되는 데이터 없이 정확한 결과를 유도할 수 있으며, 개체명 사전은 지속적으로 업데이트되므로 환경 변화에 따라 최적화된 기능을 제공할 수 있다.

도 6을 참조하면, 상기 증시 관련 분류부(170)는 각 증시 관련 단어에 대한 극성값을 포함하는 증시 관련 단어사전(172)을 구축하는 증시 관련 단어사전 구축부(171) 및 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 텍스트 증시 관련성 분류부(173)를 포함할 수 있다.

또한, 텍스트 증시 관련성 분류부(173)는 상기 증시 관련 단어를 포함한 텍스트 데이터가 기업·부동산 등의 가치변동에 영향을 미칠 수 있는 시점과 그 정도 등을 활용할 수 있다.

상기 데이터 시각화부(190)는 상기 증시 관련성 분류부(170)를 통해 도출된 결과를 사용자들이 쉽게 이해할 수 있도록 시각 정보로 표현한다. 상기 데이터 시각화부(190)는 증시 관련성이 높은 텍스트 데이터의 기업·부동산 등의 가치변동에 영향을 미칠 수 있는 시점과 그 정도 등의 정보를 상기 증시 관련성 수치와 함께 시각적 정보로 제공할 수도 있다.

사용자는 상기 데이터 시각화부(190)를 통해서 인터페이스를 제공받고, 텍스트 데이터의 증시 관련성에 대한 결과를 이해하기 용이한 시각적 정보로 인지할 수 있다. 예를 들어 사용자는 증시 관련성이 높은 텍스트 데이터가 기업·부동산 등의 가치변동에 여향을 미칠 수 있는 시점 순 또는 그 정도 순으로 각 텍스트 데이터에 관한 자세한 보고서를 얻을 수 있다.

도 7은 본 발명의 일 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법은, 도 1의 시스템(10)과 실질적으로 동일한 구성에서 진행될 수 있다. 따라서 도 1의 시스템(10)과 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다. 또한, 본 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법은 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 7을 참조하면, 본 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법은, 웹페이지로부터 텍스트 데이터를 수집한다(단계 S10).

상기 웹페이지로부터 텍스트 데이터를 수집하는 단계(단계 S10)는, 상기 웹페이지를 방문하여 텍스트 데이터를 수집하는 단계, 상기 수집된 텍스트 데이터의 HTML 구조를 분석하여 필요한 정보를 추출하는 단계 및 추출된 정보를 데이터베이스에 저장하는 단계를 포함할 수 있다.

상기 텍스트 데이터가 수집되면, 수집된 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석한다(단계 S30).

상기 수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하는 단계(단계 S30)는 상기 수집한 텍스트 데이터의 원본 텍스트로부터 의미를 갖는 최소 단어를 추출하여 단어별 빈도 목록을 구축하는 단계 및 상기 수집한 텍스트 데이터 중 스팸 데이터를 제거하는 단계를 포함할 수 있다.

상기 형태소 정보 분석이 완료되면, 상기 형태소 정보를 카테고리 별로 분류한다(단계 S40). 이 단계에서, 기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하는 단계 및 상기 연관 단어를 중심으로 탐색어 맵을 통해서 상기 온톨로지 사전에 업데이트하는 단계를 포함할 수 있다.

이어, 상기 형태소 정보로부터 연관 단어 간 유사도를 측정하여 특정 개체명의 연관 개체명을 인식한다(단계 S50).

상기 특정 개체명의 연관 개체명들을 인식하는 단계(단계 S50)는, 상기 형태소 정보로부터 단어 간 PMI 값을 계산하는 단계 및 계산된 PMI 값을 기초로 상기 연관 단어의 유사도를 계산하여 상기 특정 개체명의 연관 개체명들을 도출하는 단계를 포함할 수 있다.

상기 형태소 정보로부터 명사와 서술어 및 명사와 결합단어 간 PMI 값을 계산하는 단계는, 명사와 서술어 간 PMI 값을 계산하는 단계 및 명사와 명사 간 PMI 값을 계산하는 단계를 포함할 수 있고, 상기 연관 단어를 도출하는 단계는, 계산된 PMI 값을 기초로 연관 단어의 유사도를 계산하는 단계 및 연관 단어 및 각 연관 단어의 유사도에 따른 목록을 구축하는 단계를 포함할 수 있다.

이어, 상기 형태소 정보로부터 특정 개체명에 관련된 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류한다(단계 S70). 이때 상기 증시 관련 단어를 포함한 텍스트 데이터가 기업·부동산 등의 가치변동에 영향을 미칠 수 있는 시점과 그 정도 등을 활용할 수 있다.

상기 텍스트 데이터의 증시 관련성을 분류하는 단계(단계 S70)는, 각 증시 관련 단어에 대한 극성값을 포함하는 증시 관련 단어사전을 구축하는 단계 및 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 단계를 포함할 수 있다.

또한, 본 실시예에 따른 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법은, 도출된 증시 관련성 수치를 시각적으로 제공하는 단계를 더 포함할 수도 있다.

이와 같은, 데이터 마이닝을 통한 증시 관련 텍스트 데이터 수집·정제 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 비정형 데이터 자동 수집 기술, 대용량 텍스트 전처리 기술, 온톨로지 사전 구축 기술, 개체명 인식 기술, 텍스트 데이터 증시 관련성 분류 기술, 시각화 표현 기법에 대한 기술적 성과를 이루었다. 또한, 증시 관련성 높은 텍스트 데이터 수집·정제 결과를 제공함으로써 해당 데이터가 기업·부동산 등의 가치변동에 영향을 미칠 수 있는 시점과 그 정도 등을 위험도가 낮은 투자 결정을 할 수 있도록 투자자문업 등 다양한 사업 분야에 적용할 수 있다.

10: 증시 관련 텍스트 데이터 수집·정제 시스템 110: 빅데이터 수집부
130: 텍스트 전처리부 140: 온톨로지 사전 확장부
150: 개체명 인식부 170: 증시 관련성 분류부
190: 데이터 시각화부 111: 텍스트 크롤러부
113: HTML 파서부 115: 저장부
131: 형태소 분석부 133: 스팸 데이터 제거부
141: 단어 탐색어 맵부 143: 온톨로지 사전 업데이트부
151: 단어 맵핑부 153: 이형태 자동 추출부
155: 개체명 사전 업데이트부 1511: 명사 서술어 PMI 계산부
1513: 복합단어 PMI 계산부 1531: 유사도 계산부
1533: 연관 단어 목록부 171: 증시 관련 단어사전 구축부
173: 텍스트 증시 관련성 분류부

Claims

웹페이지로부터 텍스트 데이터를 수집하는 빅데이터 수집부;
수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하고, 상기 형태소 정보로부터 명사-결합단어 및 명사-서술어를 추출하는 텍스트 전처리부;
상기 형태소 정보를 카테고리 별로 분류하고, 연관 단어를 추출하는 온톨로지 사전 확장부;
상기 형태소 정보로부터 상기 연관 단어 간 유사도를 측정하여 특정 개체명의 연관 개체명들을 인식하는 개체명 인식부;
상기 형태소 정보로부터 특정 개체명 및 연관 개체명들에 관련된 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 증시 관련성 분류부를 포함하며,
상기 텍스트 전처리부는,
상기 텍스트 데이터로부터 명사-결합단어 목록 및 명사-서술어 목록을 구축하고, 상기 명사-결합단어의 동시출현빈도 목록 및 상기 명사-서술어의 동시출현빈도 목록을 추출하고,
상기 개체명 인식부는,
상기 명사-결합단어의 동시출현빈도를 기초로 상기 명사-결합단어의 PMI(Pointwise Mutual Information)값을 산출하고, 상기 명사-서술어의 동시출현빈도를 기초로 상기 명사-서술어의 PMI값을 계산하는 단어 맵핑부; 및
상기 명사-결합단어의 PMI값 목록과 상기 명사-서술어의 PMI값 목록으로부터 상기 연관 단어의 유사도를 계산하여 상기 특정 개체명의 연관 개체명들을 도출하는 이형태 자동 추출부를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서, 상기 빅데이터 수집부는,
상기 웹페이지를 방문하여 텍스트 데이터를 수집하는 텍스트 크롤러(Crawler)부;
상기 수집된 텍스트 데이터의 HTML 구조를 분석하여 필요한 정보를 추출하는 HTML 파서부; 및
추출된 정보를 데이터베이스에 저장하는 저장부를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서, 상기 텍스트 전처리부는,
상기 수집한 텍스트 데이터의 원본 텍스트로부터 의미를 갖는 최소 단어를 추출하여 단어별 빈도 목록을 구축하는 형태소 분석부; 및
상기 수집한 텍스트 데이터 중 스팸 데이터를 제거하는 스팸 데이터 제거부를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서, 상기 온톨로지 사전 확장부는,
기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하고, 상기 연관 단어를 추출하는 단어 탐색어 맵부; 및
상기 연관 단어를 상기 온톨로지 사전에 업데이트하는 온톨로지 사전 업데이트부를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서, 상기 단어 맵핑부는,
명사와 서술어 간 PMI 값을 계산하는 명사 서술어 PMI 계산부; 및
명사와 명사 간 PMI 값을 계산하는 복합단어 PMI 계산부를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서, 상기 이형태 자동 추출부는,
계산된 PMI 값을 기초로 상기 연관 단어의 유사도를 계산하는 유사도 계산부; 및
상기 연관 단어 및 각 연관 단어의 유사도에 따른 상기 연관 개체명들의 목록을 구축하는 연관 단어 목록부를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서, 상기 개체명 인식부는,
상기 연관 개체명들을 추출하여 개체명 정보를 업데이트하는 개체명 사전 업데이트부를 더 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서, 상기 증시 관련성 분류부는,
상기 수집한 텍스트 데이터의 증시 관련 단어에 대한 극성값을 포함하는 증시 관련 단어사전 구축부; 및
증서 관련 단어의 빈도수를 기초로 텍스트의 증시 관련성을 분류하는 텍스트 증시 관련성 분류부를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
제1항에 있어서,
도출된 상기 증시 관련성 수치를 시각적 정보로 제공하는 데이터 시각화부를 더 포함하는, 증시 관련 텍스트 데이터의 수집·정제 시스템.
웹페이지로부터 텍스트 데이터를 수집하는 단계;
수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하고, 상기 형태소 정보로부터 명사-결합단어 및 명사-서술어를 추출하는 단계;
기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하는 단계;
상기 형태소 정보로부터 연관 단어 간 유사도를 측정하여 특정 개체명의 연관 개체명들을 인식하는 단계;
상기 형태소 정보로부터 특정 개체명 및 연관 개체명들에 관련된 증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 단계를 포함하며,
상기 명사-결합단어 및 명사-서술어를 추출하는 단계는,
상기 텍스트 데이터로부터 명사-결합단어 목록 및 명사-서술어 목록을 구축하고, 상기 명사-결합단어의 동시출현빈도 목록 및 상기 명사-서술어의 동시출현빈도 목록을 추출하는 단계를 포함하고,
상기 연관 개체명들을 인식하는 단계는,
상기 명사-결합단어의 동시출현빈도를 기초로 상기 명사-결합단어의 PMI(Pointwise Mutual Information)값을 산출하고, 상기 명사-서술어의 동시출현빈도를 기초로 상기 명사-서술어의 PMI값을 계산하는 단계; 및
상기 명사-결합단어의 PMI값 목록과 상기 명사-서술어의 PMI값 목록으로부터 상기 연관 단어의 유사도를 계산하여 상기 특정 개체명의 연관 개체명들을 도출하는 단계를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 방법.
제10항에 있어서, 상기 웹페이지로부터 텍스트 데이터를 수집하는 단계는,
상기 웹페이지를 방문하여 텍스트 데이터를 수집하는 단계;
상기 수집된 텍스트 데이터의 HTML 구조를 분석하여 필요한 정보를 추출하는 단계; 및
추출된 정보를 데이터베이스에 저장하는 단계를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 방법.
제10항에 있어서, 상기 수집한 텍스트 데이터의 원본 텍스트에 대하여 형태소 정보를 분석하는 단계는,
상기 수집한 텍스트 데이터의 원본 텍스트로부터 의미를 갖는 최소 단어를 추출하여 단어별 빈도 목록을 구축하는 단계; 및
상기 수집한 텍스트 데이터 중 스팸 데이터를 제거하는 단계를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 방법.
제10항에 있어서, 상기 기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하는 단계는,
기 구축된 온톨로지 사전을 이용하여 상기 형태소 정보를 카테고리 별로 분류하는 단계; 및
상기 연관 단어를 중심으로 탐색어 맵을 통해서 상기 온톨로지 사전에 업데이트하는 단계를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 방법.
제10항에 있어서, 상기 텍스트 데이터의 증시 관련성을 분류하는 단계는,
상기 수집한 텍스트 데이터의 증시 관련 단어에 대한 극성값을 포함하는 증시 관련 단어사전을 구축하는 단계; 및
증시 관련 단어의 빈도수를 기초로 텍스트 데이터의 증시 관련성을 분류하는 단계를 포함하는, 증시 관련 텍스트 데이터의 수집·정제 방법.
제10항에 있어서,
도출된 상기 증시 관련성 수치를 시각적 정보로 제공하는 단계를 더 포함하는, 증시 관련 텍스트 데이터의 수집·정제 방법.
제10항 내지 제15항 중 어느 하나의 항에 따른 증시 관련 텍스트 데이터의 수집·정제 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.