KR101886418B1

KR101886418B1 - Gpu를 활용한 주가 예측 시뮬레이션 제공 시스템

Info

Publication number: KR101886418B1
Application number: KR1020180021352A
Authority: KR
Inventors: 전명훈; 전상현
Original assignee: 주식회사 한국코어텍; 전명훈; 전상현
Priority date: 2018-02-22
Filing date: 2018-02-22
Publication date: 2018-08-28

Abstract

본 발명에 따른 GPU를 활용한 주가 예측 시뮬레이션 제공 시스템은, 외부 서버로부터 시세 정보, 뉴스, 기업 정보를 포함하는 복수 개의 데이터를 입력받는 데이터 입력 모듈; 상기 데이터를 기반으로 통계 분석 시뮬레이션을 복수 개의 GPU를 통해 실행하여 산출된 시뮬레이션 결과인 주가를 예측하는 시뮬레이션 실행 모듈과, 상기 주가를 기반으로 주식의 매도 및 매수 시점인 매매시점을 파악하는 매매시점 파악 모듈을 포함하는 데이터 분석 인터페이스;를 포함하는 것을 특징으로 한다.

Description

GPU를 활용한 주가 예측 시뮬레이션 제공 시스템{A System of Stock Price Simulation Based on GPU}

본 발명은 GPU를 활용한 주가 예측 시뮬레이션 제공 시스템에 관한 것으로서, 보다 상세하게 설명하면 외부로부터 입력받은 시세정보, 기업정보, 뉴스를 GPU를 통해 분석한 후 시뮬레이션을 거쳐 주가를 예측하고 주식의 매도 및 매수시점을 빠른 시간 내에 파악하여 복잡하고 다양한 원인에 의해 실시간으로 변동되는 주가를 정확하고 효율적인 예측을 기대할 수 있는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템에 관한 것이다.

일반적으로 주식 시장은 복합적인 이유로 가격이 결정되어 그 가격 변동에 대한 이유를 명확히 알지 못하는 경우가 발생한다. 이렇게 다양하고 복잡한 영향을 받는 주식 가격은 시세나 기업의 수익성 및 정치, 경제, 사회 등을 포함하는 뉴스에 의해 결정되는 경우가 자주 발생하는데, 이는 우리가 살아가는 사회에서 어떠한 변화가 발생되고 진행할 것인지 미리 예측이 가능하기 때문이다. 그러므로 사람들이 일반적으로 접할 수 있는 시세, 기업의 사업 현황 및 뉴스 기사를 통해 주식 시장의 변동 사항을 예측할 수 있는 장치나 프로그램이 많이 개발되고 있는 실정이다.

이와 관련하여, 한국 등록특허 제 10-1531970호(발명의 명칭 : 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템)는 소셜 데이터 및 뉴스를 포함한 대량의 데이터에 대한 감성 평가 데이터에 증시 관련 펀더멘털 데이터를 반영하여 개별 종목의 주가를 보다 신뢰성있게 예측하는 소셜 데이터의 분석을 통한 주가 예측 방법 및 그 시스템을 제공하는 방법을 제시하고 있다.

상기 발명은, 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 복수의 제 1 문서를 수집하는 단계; 상기 복수의 제 1 문서에 대하여 형태소를 분석하는 단계; 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 상기 복수의 제 1 문서 전체에 대한 감성을 평가하여 상기 복수의 제 1 문서 전체의 데이터를 분석하는 단계; 실제 주가와 연관된 복수의 증시 주변 데이터를 이용하여 적어도 하나의 증시 관련 펀더멘털 데이터를 수집하는 단계; 및 상기 복수의 제 1 문서 전체의 감성과 관련된 평가 데이터에, 수집된 상기 증시 관련 펀더멘털 데이터의 값을 반영하여 상기 개별 종목의 주가를 예측하는 단계를 포함하여 주가 예측 방법을 제안하고 있다.

마찬가지로, 한국 공개특허 제 특2001-0091621호(발명의 명칭 : 인터넷 주가 분석 프로그램을 이용한 주가 분석 서비스시스템 및 서비스방법)는 개인 투자자들의 주가 분석을 위해서 신뢰성 있는 투자 도구 및 분석 방법을 제공하는 방법을 제안하고 있다.

상기 발명은, 주가 관련 정보를 입력받아 각종 데이터로 가공처리 하는 가공처리 시스템(110)과, 그 가공처리 시스템(110)의 정보를 데이터베이스로 관리하는 FTP 서버 시스템(120)과, 사용자의 등록, 인증 및 관리를 하고 홈페이지를 제공하는 고객지원 네트웍 서버(130)로 이루어진 주가분석 서비스 서버 시스템(100)과; 상기 서버 시스템으로부터 각종 정보를 다운로드 받아 개인 데이터 베이스로 저장함과 아울러 주가 분석 챠트를 동원하여 챠트를 제공하는 주가 분석 프로그램(G-POINT)이 설치 운용되는 사용자(클라이언트; 사용자 PC)(200)로 이루어져, 파일로 관리하는 실시간 기업정보/시황정보 조회와, 원 클릭 자동 자료 다운과, 이미지 광고 및 문자 광고 서비스, 실제 코드와 자사 코드를 링크시켜 등록하는 자체코드 관리, 최초 한사람 요청에 의한 다운자료 생성하여 다운실행등의 서비스를 제공하고, 자체 개발 특수 챠트 및 달러화, 엔화, 유로화 베이스 챠트를 제공하여 투자 분석하는 것을 제시하고 있다.

그러나 상기 두 발명은 순간의 정보로 인해 주가의 특성을 충분히 고려하지 못했으며, 나아가 정보가 흘러넘치고 쉴 새 없이 변화하는 현대 사회에서 보다 빠른 정보 분석을 하기 위한 대안이 마련되지 않은, 현대 사회의 특성에 발맞추지 못한 발명이라고 볼 수 있다.

또한, 일반적인 CPU를 통하여 시뮬레이션을 수행하면 상당히 긴 시간이 소요되는데, 이러한 점은 시뮬레이션의 의미를 퇴색시키는 단점이 된다. 이러한 단점으로 인해 많은 시뮬레이션이 사장되고 있는 현실이다.

따라서 상술한 바와 같은 문제점을 해결하기 위해 데이터 처리 속도가 현저히 빠르고 정확학 GPU를 통해 데이터를 효율적으로 분석하고 이를 기반으로 시뮬레이션을 실행하여 주가를 예측, 나아가 주식의 매도 및 매수 시점을 파악할 수 있는 주가 예측 시뮬레이션 시스템을 개발할 필요성이 대두되는 실정이다.

본 발명은 상기 기술의 문제점을 극복하기 위해 안출된 것으로, 별도로 구비된 GPU를 통해 외부로부터 입력받은 시세정보, 기업정보, 뉴스를 포함하는 데이터를 분석하고 실시간으로 시뮬레이션을 실행하는 것을 주요 목적으로 한다.

본 발명의 다른 목적은, 실행된 시뮬레이션 결과를 기반으로 주가를 빠르게 예측하고 주식의 매도 및 매수 시점을 정확하고 효율적으로 파악하는 것이다.

본 발명의 또 다른 목적은, 데이터에 포함된 텍스트에서 키워드를 추출하고 토픽 별로 데이터베이스를 구축하여 데이터 분석 시간을 단축하는 것이다.

상기 목적을 달성하기 위하여, 본 발명에 따른 GPU를 활용한 주가 예측 시뮬레이션 제공 시스템은, 외부 서버로부터 시세 정보, 뉴스, 기업 정보를 포함하는 복수 개의 데이터를 입력받는 데이터 입력 모듈; 상기 데이터를 기반으로 통계 분석 시뮬레이션을 복수 개의 GPU를 통해 실행하여 산출된 시뮬레이션 결과인 주가를 예측하는 시뮬레이션 실행 모듈과, 상기 주가를 기반으로 주식의 매도 및 매수 시점인 매매시점을 파악하는 매매시점 파악 모듈을 포함하는 데이터 분석 인터페이스;를 포함하는 것을 특징으로 한다.

또한, 상기 시뮬레이션 실행 모듈은, 상기 GPU가 상기 데이터를 연산하는데 소요되는 연산 시간을 예측하는 연산 시간 예측부와, 상기 연산 시간에 따라 연산을 수행할 상기 데이터의 우선순위를 선정하는 우선순위 선정부를 포함하고, 상기 우선순위에 따라 상기 데이터를 연산하는 것을 특징으로 한다.

나아가, 상기 시뮬레이션 실행 모듈은, 상기 데이터의 연산 과정을 복수 개의 섹터로 분할하는 연산 과정 분할부와, 각각의 상기 섹터를 연산하는데 소요되는 시간인 섹터 연산 시간을 파악하는 섹터 연산 시간 파악부 및, 각각 상기 섹터에 해당하는 상기 섹터 연산 시간을 비교하여, 전체의 상기 섹터들 중 일부만을 선별하여 연산하는 분할 연산부를 포함하는 것을 특징으로 한다.

더불어, 상기 시스템은, 상기 데이터에 포함된 용어를 파악하는 용어 파악 모듈과, 복수 개의 상기 용어들을 등장 빈도 및 근접도에 따라 그룹핑한 그룹핑 팩터를 통해 유효 용어를 도출하는 유효 용어 도출 모듈을 포함하고, 도출된 상기 유효 용어를 키워드로 지정하는 키워드 지정 인터페이스;를 더 포함하는 것을 특징으로 한다.

본 발명에 따른 GPU를 활용한 주가 예측 시뮬레이션 제공 시스템은,

1) 주가를 예측하기 위해 외부로부터 입력받은 데이터를 GPU를 통해 분석 및 시뮬레이션을 실행하여 실시간으로 변동하는 요인에 발맞춰 주가를 보다 정확하고 빠른 시간에 예측할 수 있고,

2) 나아가, 시뮬레이션을 실행한 결과 예측된 주가를 기반으로 주식의 매도 및 매수 시점을 파악하여 주식 매매자가 주식의 매매시점을 용이하고 정확히 알 수 있도록 하며,

3) 데이터로부터 키워드를 추출하고 토픽별로 데이터베이스를 구축함으로써 GPU가 데이터를 보다 효율적으로 분석할 수 있는 효과를 제시한다.

도 1은 본 발명의 시스템에 대한 개략적인 구성을 나타낸 개념도.
도 2는 본 발명의 시스템의 전체적인 프로세스를 나타낸 개념도.
도 3은 본 발명의 시스템의 GPU 구성을 나타낸 개념도.
도 4는 본 발명의 시스템의 전체적인 구성을 나타낸 블록도.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하도록 한다. 첨부된 도면은 축척에 의하여 도시되지 않았으며, 각 도면의 동일한 참조 번호는 동일한 구성 요소를 지칭한다.

도 1은 본 발명의 시스템에 대한 개략적인 구성을 나타낸 개념도이다.

도 1을 참조하여 설명하면, 본 발명의 GPU(10)를 활용한 주가 예측 시뮬레이션 시스템은 복수 개의 GPU(10)를 통해 대량의 데이터를 연산하여 주식 종목의 매도 및 매수 시점을 파악하여 유저(30)에게 제공하는 기능을 수행하는 것으로서, 외부 서버(20)로부터 입력된 것으로서 데이터베이스로 저장된 실시간 증권 시세 정보, 기업 정보, 뉴스, 기타 정보를 포함하는 데이터의 연산 과정과 전략 시뮬레이션을 통해 주식의 매도 및 매수 시점을 파악하는 것을 주요 특징으로 한다.

본 발명의 시스템은 금융자산 거래를 위해 사용되는 여러 알고리즘 전략을 외부로부터 입력받은 데이터를 통해 사전에 수행함으로써 안정적인 전략 시뮬레이션을 제공한다. 이러한 시뮬레이션이 보다 정확히 수행되려면 짧은 시간에 최대한 많은 시뮬레이션 결과를 얻는 것이 바람직하다. 이를 위해 본 발명의 시스템은 현재 그래픽 카드로 많이 사용되고 있는 GPU(10)를 활용하여 시뮬레이션 실행 속도를 획기적으로 향상시킬 수 있다.

또한 방대한 정보가 범람하는 외부 서버(20)로부터 데이터를 입력받아 시뮬레이션을 실행하면, 그 시뮬레이션 결과가 수십억 건에 달할 수 있으므로 일반적인 데이터베이스에 저장하기에는 저장 속도가 현저히 떨어진다. 이러한 현상을 방지하기 위해 본 발명의 시스템은 GPU(10)를 병렬처리 플랫폼으로 적용하여 데이터의 저장 속도를 보다 향상시킬 수 있다.

특히, 실시간으로 시세를 파악해야하는 주식 종목의 경우에는 빠른 시간 내에 데이터를 분석하는 것이 바람직하므로, 본 발명의 시스템을 적용하기에 적합하다고 할 수 있다.

도 2는 본 발명의 시스템의 전체적인 프로세스를 나타낸 개념도이며, 도 3은 도 3은 본 발명의 시스템의 GPU(10) 구성을 나타낸 개념도이다.

도 1과 도 2 및 도 3을 참조하면, 본 발명의 시스템에서 활용되는 GPU(10)(Graphics processing unit)는 데이터를 연산하고 전략 시뮬레이션을 실행하는 메인 서버에 해당하는 주체로서, 본 발명의 시스템에서 메인 서버로서의 역할을 수행한다. GPU(10)는 효율적으로 병렬 처리하기 위한 복잡한 처리 작업 속도를 향상시키는 것으로서, 연산 과정에서 CPU의 연산 속도를 10배 이상 초월하는 성능을 지니는 것을 특징으로 한다. 본 발명의 시스템에서는 하나의 GPU(10)로 데이터를 연산할 수 있으나, 정보에 민감한 주가를 효율적으로 예측하기 위해 복수 개의 GPU(10)를 구비함으로써 보다 신속한 데이터 분석을 통해 실시간 변화하는 증권 시세를 충분히 반영할 수 있는 기능을 제공한다.

이때 GPU(10)는 병렬 플랫폼을 적용하여 데이터를 처리하게 되는데, 보다 자세히 설명하면, 외부 서버(20)로부터 입력받은 데이터를 병렬적으로 처리하여 시뮬레이션을 보다 많이 실행할 수 있을 뿐 아니라 방대한 양의 시뮬레이션 결과를 저장할 수 있다. 나아가, 이러한 시뮬레이션 결과를 유저(30)에게 제공하여 이를 기반으로 유저(30)가 금융자산 거래를 실시할 수 있도록 하며, 본 발명의 시스템 관리자가 실시간으로 시스템의 운영 관리를 도모할 수 있다.

유저(30)(유저(30)가 구비하고 있는 서버도 함께 포함하여 유저(30)라고 설명하도록 한다.)는 본 발명의 시스템을 통해 시뮬레이션 수행 결과를 알게 되고 그 결과를 입력받는 주체로서, 시뮬레이션 결과를 통해 금융자산(즉 주식)의 매매 여부를 결정할 수 있다. 이때 유저(30)는 개인 및 기업 또는 개인 및 기업이 구비한 복수 개의 PC가 될 수 있으며, 방대한 시뮬레이션 결과를 입력받을 수 있어야 하므로 그에 상응하는 성능을 지닌 PC를 구비하는 것이 바람직하다.

본 발명의 시스템에서 데이터를 입력받는 외부 서버(20)는 증권 시세, 기업의 수익성, 정치, 사회, 경제 부문 기사를 포함하는 뉴스를 제공할 수 있도록 증권사와 기업 및 신문사에서 별도로 구비한 복수 개의 서버일 수 있다.

이와 같이 외부 서버(20)로부터 데이터를 입력받아 향상된 데이터 처리 작업 속도를 가지는 GPU(10)를 통해 데이터를 분석하고 주가를 예측하는 본 발명의 시스템의 구성 중 데이터를 보다 효율적으로 분석하기 위한 구체적인 구성을 설명하면 다음과 같다.

도 4는 본 발명의 시스템의 전체적인 구성을 나타낸 블록도이다.

도 4를 참조하여 설명하면, 본 발명의 시스템은 방대한 데이터를 수집한 후 GPU(10)의 연산 과정을 통해 산출된 파라미터를 기반으로 전략 시뮬레이션을 실행하여 주식의 매도 및 매수 시점을 파악하는 기능을 제공한다고 앞서 설명하였다. 이때 방대한 데이터를 효율적으로 분석하기 위해 본 발명의 시스템은 데이터를 토픽별로 분류하여 데이터베이스를 구축한 후 각 토픽별로 데이터를 분석하여 좀 더 빠른 시간 내에 시세를 파악하여 정확한 주식 매도 및 매수 시점을 파악할 수 있는 구성을 갖출 수 있다. 이를 위해 본 발명의 시스템은 방대한 데이터로부터 핵심 용어를 도출하여 예비 키워드로 지정하는 키워드 지정 인터페이스(200)와, 도출된 키워드의 중요도 고저에 따라 토픽을 선정하고 선정된 토픽에 해당하는 키워드를 그룹핑하여 토픽 DB를 구축하는 토픽 선정 인터페이스(300) 및, 토픽 DB로부터 입력받은 토픽 데이터를 연산한 후 시뮬레이션을 실행하여 매매 시점(매도 시점 및 매수 시점을 포함한다.)을 파악하는 데이터 분석 인터페이스(400)를 포함할 수 있다.

각 인터페이스에 대해 자세히 설명하기에 앞서, 본 발명의 시스템이 구현되기 위해 외부 서버(20)로부터 데이터를 입력받는데, 이를 위해 본 발명의 시스템의 구성으로 데이터 입력 모듈(100)이 포함될 수 있다.

데이터 입력 모듈(100)은 외부 서버(20)로부터 데이터를 입력받는 것으로서, 이때 데이터란 주가를 예측하기 위한 정보로, 예를 들어 시세를 알 수 있는 시세정보, 기업의 사업 현황을 포함하는 기업정보, 각종 포털 사이트에 기재된 뉴스 및 기타 주가에 영향을 미치는 기타정보가 본 발명의 시스템에서의 데이터가 될 수 있다. 더하여, 본 발명의 시스템에서 데이터는 하나의 콘텐츠를 의미하는 것으로 한다.(즉, 뉴스 기사 하나 또는 기업 현황과 관련된 글 하나가 각각 하나의 데이터가 될 수 있다.)

본 발명의 시스템은 이렇게 입력받은 데이터에 포함된 용어들 중 키워드를 도출하는 키워드 지정 인터페이스(200)를 포함할 수 있다. 키워드 지정 인터페이스(200)는 외부 서버(20)로부터 입력받은 방대한 데이터를 효율적으로 연산하기 위해 데이터에 포함된 용어들 중 핵심 용어를 도출하여 키워드로 지정하는 기능을 제공한다. 이러한 기능을 제공하기 위해 키워드 지정 인터페이스(200)는 용어 파악 모듈(210), 유효 용어 도출 모듈(220), 간격 파악 모듈(230), 키워드 도출 모듈(240)을 포함할 수 있다.

용어 파악 모듈(210)은 데이터에 포함된 용어를 파악하는 것으로서, 데이터에 포함된 용어들을 어절별로 나눈 후 하나의 독립적 사용이 가능한 명사와 명사 간을 연결하는 연결어(조사, 관사 등) 등으로 분할하여 이를 모두 용어로 파악하는 기능을 수행한다. 이는 일반적으로 수행될 수 있는 텍스트 분석 과정의 기본 작업이며, 작은 단위의 용어로 분할할수록 도출되는 키워드의 정확도가 상승할 수 있다.

유효 용어 도출 모듈(220)은 용어 파악부에 의해 파악된 복수 개의 용어들을 등장빈도 및 근접도에 따라 그룹핑한 그룹핑 팩터를 통해 유효 용어를 도출하는 역할을 제공한다. 특히, 근접도를 판단하는 경우에는 빅데이터 분야에서 텍스트 마이닝과 같은 작업 시 활용되는 다양한 데이터 마이닝 알고리즘이 공개되어 있기 때문에 이를 활용하는 것도 가능하다. 그러나 단순히 복수 개의 용어의 등장빈도와 근접도를 각각 비교하는 것은 방대한 데이터를 처리하기에는 비효율적은 방법이라고 할 수 있다. 이러한 문제점을 해결하기 위해 그룹핑 팩터를 통해 용어의 그룹핑을 진행하는데, 그룹핑 팩터는 둘 이상의 용어의 등장빈도 및 근접도의 비교를 반복 처리하여 데이터에 포함된 용어들 각각의 중요도를 파악한 후, 중요도가 파악된 용어들을 유효 용어로 분류하는 기능을 제공한다. 즉, 유효 용어 도출 모듈(220)은 그룹핑 팩터를 통해 용어를 기준으로 유효 용어를 분류하여 데이터에 포함된 전체 용어를 비교 판단하지 않고 의미가 있다고 판단된 단어만 도출하는 것으로서, 본 발명의 시스템에서 데이터의 내용을 좀 더 정확하고 빠른 시간 내에 파악할 수 있는 기능을 수행한다.

이때 그룹핑 팩터는 다음의 수학식 1을 통해 설명할 수 있다.

수학식 1.

여기서,

는 용어

에 대한 용어

의 그룹핑 팩터,

용어

와 근접한 용어

의 누적 합,

는 용어

와 근접한 용어

의 누적 합,

은 용어

와 근접한 용어 전체의 누적 합,

은 용어

와 근접한 용어 전체의 누적 합을 의미한다.

즉 유효 용어 도출 모듈(220)은 후술할 토픽 선정 인터페이스(300)에서 용어 파악부에 의해 파악된 용어로부터 토픽을 선정하는 것보다 상술한 수학식 1에 의해 도출된 유효 용어를 통해 토픽을 선정하는 것이 보다 효율적인 방법임을 제시하고 있다.

나아가, 키워드 지정 인터페이스(200)는 키워드를 지정할 시 좀 더 정확하고 효율적으로 추출하기 위하여 별도로 데이터에 포함된 용어를 일렬로 나열한 후 나열된 각 용어 사이 중 유효 용어와 용어 사이의 간격을 파악하는 간격 파악 모듈(230)을 포함할 수 있다. 이때 이러한 간격을 근접도에 적용하여 간격의 광협에 따른 간격 가중치를 반영한 그룹핑 팩터를 기반으로 근접도의 개념을 더욱 확장시킬 수 있으며, 키워드 지정 모듈은 이렇게 확장된 근접도의 개념을 통해 데이터에서 키워드를 도출하는 키워드 도출 모듈(240)을 더 포함할 수 있다.

일반적으로 데이터(예를 들어, 하나의 뉴스 기사의 경우)의 핵심 내용을 알려주는 중요한 용어의 경우 문장 내에 가깝게 위치하는데, 실질적으로 본 발명의 시스템이 데이터의 내용을 정확히 파악하기 위해서는 이러한 용어들의 간격을 고려할 필요가 있다. 따라서 키워드 지정 인터페이스(200)에는 이러한 간격의 광협에 따라 근접도에 적용할 수 있는 간격 가중치를 반영한 그룹핑 팩터를 통해 데이터에서 키워드를 도출하는 키워드 도출 모듈(240)이 더 포함되는 것이다.

이때 키워드를 도출하는 방법은 다음의 수학식 2를 통해 알 수 있다.

수학식 2.

여기서,

는 키워드,

은 전체 그룹핑 횟수,

은

번째 그룹핑에서 용어

에 대한 용어

의 그룹핑 팩터,

은

번째 그룹핑에서 용어

와 용어

의 간격,

는 용어

와 용어

의 최대 간격을 의미한다.

이렇게 키워드 도출 모듈(240)은 상술한 유효 용어 도출 모듈(220)에서 설명한 유효 용어 도출 방법을 더 보완한 것으로서, 간격 가중치를 반영한 그룹핑 팩터를 통해 데이터를 좀 더 정확하게 파악하여 핵심 내용을 알려주는 역할을 제공한다.

정리하자면, 키워드 지정 인터페이스(200)는 방대한 양의 데이터에 포함된 용어를 등장빈도 및 근접도 그리고 용어 간 간격을 기반으로 효율적으로 분석한 후 키워드를 도출하는 기능을 수행하는 것으로서, 이렇게 도출된 키워드는 후술할 토픽 선정 인터페이스(300)에서 토픽을 선정하기 위한 도구가 될 수 있다.

토픽 선정 인터페이스(300)는 키워드 지정 인터페이스(200)에 의해 지정된 키워드의 중요도를 산출한 후 최고 중요도를 지닌 키워드를 토픽으로 선정하는 것으로서, 이렇게 선정된 토픽과 관련된 키워드를 배치하여 각 토픽별 데이터페이스를 구축하는 역할을 제공한다. 이러한 역할을 제공하기 위해 토픽 선정 인터페이스(300)는 중요도 산출 모듈(310), 토픽 선정 모듈(320), 하위 키워드 배치 모듈(330), 토픽 DB 생성 모듈(미도시)을 포함할 수 있다.

중요도 산출 모듈(310)은 하나의 데이터 내에서 도출된 키워드가 데이터의 내용을 파악하는데 얼마나 중요한 의미를 지니는지를 의미하는 중요도를 산출하는 것으로서, 이를 위해 기준 키워드 수치 산출부(311), 비교 키워드 수치 산출부(312), 중복 수치 산출부(313), 중요도 산출부(314)를 포함할 수 있다.

기준 키워드 수치 산출부(311)는 키워드 지정 인터페이스(200)에서 하나의 데이터에서 지정된 복수 개의 키워드 중 어느 하나를 기준 키워드로 지정한 후 기준 키워드에 대한 기준 키워드 수치를 산출하는 것으로서, 기준 키워드 수치는 다음의 수학식 3을 통해 산출될 수 있다.

수학식 3.

여기서,

는 데이터

에 포함된 기준 키워드

의 기준 키워드 수치,

는 데이터

에 포함된 키워드 개수,

는 데이터

에 포함된 문장 중 기준 키워드

가 포함될 확률 분포를 나타낸다.

나아가, 데이터

에 포함된 문장 중 기준 키워드

가 포함될 확률 분포인

는 다음의 수학식 2를 통해 산출될 수 있다.

수학식 4.

여기서,

는 데이터

에 포함된 문장 중 기준 키워드

가 포함될 확률 분포,

는 데이터

에 포함된

번째 문장에서 기준 키워드

가 포함될 확률,

는 데이터

에 포함된

번째 문장에서 기준 키워드

가 포함되지 않을 확률,

는 데이터

에 포함된 전체 문장의 개수를 의미한다.

상술한 수학식 3 및 수학식 4에 대해 설명하자면, 기준 키워드 수치는 특정 데이터에 포함된 키워드 개수 대비 데이터에 포함된 문장 중 기준 키워드가 포함될 확률 분포를 나타내는 것으로서, 이를 통해 데이터 내에서 기준 키워드의 분포 정도를 알 수 있다.

비교 키워드 수치 산출부(312)는 하나의 데이터에서 지정된 복수 개의 키워드 중 기준 키워드를 제외한 키워드를 비교 키워드로 지정한 후, 비교 키워드에 대한 비교 키워드 수치를 산출하는 것으로서, 비교 키워드 수치는 다음의 수학식 3을 통해 산출될 수 있다.

수학식 5.

여기서,

는 비교 키워드

의 비교 키워드 수치,

는 비교 키워드가 포함된 데이터,

는 전체 데이터 집합,

는 등장수치로서 데이터

에 비교 키워드

가 등장하는 경우에는 1, 등장하지 않는 경우에는 0을 의미한다.

상술한 수학식 3은 데이터에 포함된 기준 키워드의 등장 확률 분포를 고려한 것이나, 수학식 5에서는 비교 키워드가 데이터에 등장하면 1, 아니면 0으로 처리하여, 기준 키워드와 비교 키워드 간의 중요성을 구별할 수 있다.

중복 수치 산출부(313)는 복수 개의 데이터에 동시에 등장한 키워드에 대한 중복 수치를 산출하는 것으로서, 후술할 중요도를 산출하는데 있어서 복수 개의 데이터에 중복으로 등장한 키워드를 고려하여 보다 정확한 중요도를 산출하는데 기여를 한다. 이때, 중복 수치는 다음의 수학식 4를 통해 산출될 수 있다.

수학식 6.

여기서,

는 키워드

에 대한 중복 수치,

는 등장수치로서 데이터

에 키워드

가 등장하는 경우에는 1, 등장하지 않는 경우에는 0의 값을 지니며,

는 등장수치로서 데이터

에 키워드

즉, 수학식 6에 의하면 키워드 z가 데이터 γ 및 데이터 δ에 등장하면 1, 그렇지 않으면 0의 값을 각각 갖는 것으로서 단순히 데이터 γ 및 데이터 δ에 키워드 z가 몇 번이나 등장했는지 여부에 더하여 키워드 z가 데이터 γ 및 데이터 δ에 등장하는 경우 1의 값을 갖도록 처리한 후 각 데이터에 해당하는 등장수치를 곱하여 중복 수치를 산출한다. 이렇게 산출된 중복 수치는 키워드 z가 데이터 γ에 등장한 횟수와 키워드 z가 데이터 δ에 등장한 횟수를 모두 고려하여 키워드가 데이터에 중복으로 등장한 정도를 나타내기 위한 수치라고 할 수 있다.

중요도 산출부(314)는 산출된 기준 키워드 수치와 비교 키워드 수치 및 중복 수치를 기반으로 데이터에 포함된 각 키워드에 대한 중요도를 산출하는 기능을 수행하는 것으로서, 기준 키워드 수치와 비교 키워드 수치 및 중복 수치를 통합하여 키워드에 대한 최종적인 중요도를 산출하는 역할을 수행한다. 이러한 중요도는 다음의 수학식 7을 통해 산출되는 것을 특징으로 한다.

수학식 7.

여기서,

는 데이터

에 포함된 키워드

에 대한 중요도,

는 데이터

에 포함된 기준 키워드

의 기준 키워드 수치,

는 비교 키워드

의 비교 키워드 수치,

는 키워드

에 대한 중복 수치를 의미한다.

수학식 7은 상술한 기준 키워드 수치와 비교 키워드 수치 및 중복 수치를 기반으로 중요도를 산출하는 수학식으로서, 분모에는 기준 키워드의 등장 확률 분포를 반영한 기준 키워드 수치와 비교 키워드의 등장 횟수를 카운팅한 비교 키워드 수치를 변수로 하고, 분자에는 복수의 데이터에 중복적으로 등장하는 키워드의 등장 횟수를 기반으로 산출된 중복 수치를 변수로 하여 데이터 내에서 키워드가 얼마나 자주 등장했는지에 따른 중요도를 판단할 수 있는 기능을 제공한다.

이와 같이 상술한 중요도 산출 모듈(310)을 통해 하나의 데이터에 포함된 각 키워드에 해당하는 중요도를 산출할 수 있는데, 이때 토픽 선정 인터페이스(300)는 하나의 데이터에 포함된 키워드 중 가장 높은 중요도 값을 가지는 키워드를 그 데이터의 토픽으로 선정하는 토픽 선정 모듈(320)을 더 포함할 수 있다.

토픽 선정 모듈(320)은 중요도 산출 모듈(310)에 의해 각 데이터에 포함된 각각의 키워드에 해당하는 중요도를 산출한 후 각 데이터에 포함된 키워드 중 중요도 값이 최고인 키워드를 각 데이터의 토픽으로 선정하는 것으로서, 이때 선정된 토픽은 데이터의 내용을 가장 핵심적으로 나타내는 데이터의 제목이라고 할 수 있다.

나아가, 토픽 선정 인터페이스(300)는 각 데이터마다 선정된 토픽과 연관된 하위 키워드를 해당하는 토픽에 배치하여 토픽 DB를 생성하는 하위 키워드 배치 모듈(330)을 포함할 수 있다.

상세히 설명하면, 하위 키워드 배치 모듈(330)은 각 데이터마다 선정된 토픽과 토픽으로 선정되지 않은 키워드 간의 연관도를 산출한 후 연관도의 고저에 따라 키워드를 하위 키워드로 선정하여 해당 토픽에 배치하는 것으로서, 각 토픽과 연관된 키워드를 토픽의 하위 구성으로 배치하여 토픽별로 데이터베이스를 구축하는 기능을 수행한다.

예를 들어, 어느 기업의 사업 호황을 다룬 기사인 데이터 A에서 선정된 토픽이 a라고 하고 같은 기업의 사업 현황을 다룬 기사인 데이터 B에 포함된 키워드가 b, c, d일 때 토픽 a에 대한 키워드 b, c, d 각각이 모두 연관이 있다고 가정하면, 토픽 a에 대한 하위 키워드는 b, c, d가 될 수 있다.

이때 연관도를 산출하기 위해 하위 키워드 배치 모듈(330)은 토픽 집합 생성부(331), 키워드 집합 생성부(332), 연관도 산출부(333)를 포함할 수 있다.

토픽 집합 생성부(331)는 복수의 데이터로부터 선정된 복수 개의 토픽을 그룹핑하여 토픽 집합을 생성하는 기능을 제공하는 것으로서, 본 발명의 시스템에서는 주가를 예측하기 위해 외부 서버(20)로부터 방대한 양의 데이터를 입력받기 때문에 이로부터 선정된 토픽 역시 그 양이 많을 수밖에 없으므로 그룹핑을 통해 각 후술할 키워드 집합과의 비교 처리가 가능하도록 하는 역할을 수행한다.

키워드 집합 생성부(332)는 토픽으로 지정되지 않은 키워드를 그룹핑하여 키워드 집합을 생성하는 기능을 수행하는 것으로서, 토픽 집합 생성부(331)와 유사한 기능 및 목적을 지니므로 이에 대한 자세한 설명은 생략하기로 한다.

연관도 산출부(333)는 토픽 집합과 키워드 집합을 비교 처리하여 토픽 및 키워드에 대한 연관도를 산출하는 것으로서, 이때 비교 처리 방식에는 다양한 방식이 존재하나, 본 발명의 시스템에서는 바람직하게 다음의 수학식 8을 통해 연관도를 산출하는 것을 특징으로 한다.

수학식 8.

여기서,

는 연관도,

는 토픽 집합에 포함된 전체 토픽의 개수,

은 키워드 집합에 포함된 전체 키워드의 빈도수,

는 토픽 집합에 포함된 토픽 중 키워드와 중복되는 중복 토픽의 빈도수,

은 키워드 집합에 포함된 키워드 중 토픽과 중복되는 중복 키워드의 빈도수를 의미한다.

수학식 8은 빈도수를 기반으로 산출된 값에 로그를 취한 것으로, 방대한 양의 토픽 및 키워드 분석에 따른 높은 빈도수에 의해 산출된 연관도가 과도하게 크게 나오는 것을 방지할 수 있으며, 전체 토픽 및 키워드의 빈도수 그리고 중복 토픽 및 중복 키워드의 빈도수를 고려하여 보다 정확한 연관도를 산출할 수 있다.

나아가, 토픽 선정 인터페이스(300)는 이렇게 산출된 연관도의 고저에 따라 토픽의 하위 구성이 될 수 있는 하위 키워드를 배치하여 이를 토픽 데이터로 지정한 후 각 토픽별로 토픽 데이터베이스를 구축할 수 있다. 예를 들어, 토픽 A에 대한 하위 키워드가 a1, a2, a3이라고 할 때 토픽 A 데이터베이스에는 a1, a2, a3가 토픽 데이터로 저장될 수 있다.

본 발명의 시스템은 위와 같이 구축된 토픽 데이터베이스에 저장된 토픽 데이터를 연산하여 산출된 연산 결과 값을 기반으로 시뮬레이션을 실행하는 데이터 분석 인터페이스(400)를 더 포함할 수 있다.

데이터 분석 인터페이스(400)는 토픽 데이터베이스로부터 토픽 데이터를 입력받은 후 이를 연산한 결과 값을 기반으로 시뮬레이션을 실행하여 주식의 매도 및 매수 시점을 파악하는 것으로서, 이러한 기능을 수행하기 위해 데이터 연산 모듈, 시뮬레이션 실행 모듈(410), 매매시점 파악 모듈(420)을 포함할 수 있다.

시뮬레이션 실행 모듈(410)은 토픽 데이터베이스로부터 입력받은 토픽 데이터를 기반으로 시뮬레이션을 실행하는 것으로서, 이때 시뮬레이션은 토픽 데이터를 기반으로 주가를 예측하기 위해 모의실험을 하는 기능을 수행한다. 또한 시뮬레이션 실행 모듈(410)은 복수 개의 GPU(10)에 의해 실행되므로, 급격히 변동하는 시세 정보에 발맞추기 위해 시뮬레이션을 ms(millisecond)단위로 실행토록 할 수 있다. 여기서 시뮬레이션의 예로 몬테카를로 분석, 회귀분석, MACD 모델 분석 등이 있으며, 시뮬레이션의 종류로는 그 제한이 없다. 일 실시예로 회귀분석의 경우에는 다음의 수학식을 통해 종가를 예측하는 것을 특징으로 한다.

수학식.

여기서,

는 종가,

는 순번,

는 기울기,

는 절편,

는 오차를 의미하며,

이다.

회귀분석 시뮬레이션의 경우에는 회귀계수인 A와 B를 산출하는 것을 목적으로 하며, 이렇게 회귀분석 시뮬레이션을 수행한 결과 장기적인 회귀분석의 경우에는 기울기인 A를 통해 진입하고 장기 및 단기 회귀분석의 차이가 좁혀지면 청산하도록 설정할 수 있다.

이러한 시뮬레이션 실행 모듈(410)은 보다 신속하게 시뮬레이션을 실행하기 위해 연산 시간 예측부(411), 우선순위 선정부(412)를 포함할 수 있으며, 이에 대한 자세한 설명은 다음과 같다.

연산 시간 예측부(411)는 상기 GPU(10)가 상기 데이터를 연산하는데 소요되는 연산 시간을 예측하는 것으로서, 시뮬레이션을 실행하는데 활용되는 함수(일 실시예로 Kernal 함수)를 통해 데이터를 연산할 수 있는데, 데이터 입력 모듈(100)에 의해 데이터를 입력받은 후 함수에 의해 데이터를 연산 처리하는데 소요되는 시간을 예측하는 기능을 제공한다.

우선순위 선정부(412)는 상기 연산 시간에 따라 연산을 수행할 상기 데이터의 우선순위를 선정하는 것으로서, 데이터의 연산 시간이 짧으면 우선순위를 높게 지정하여 우선순위가 높은 데이터의 연산을 우선적으로 처리하는 역할을 수행한다. 이러한 기능을 하는 우선순위 선정부(412)를 통해 신속하게 시뮬레이션 결과를 도출해낼 수 있다.

나아가, 급격히 변동하는 증권 시세를 충분히 반영하기 위하여 시뮬레이션 속도를 향상시키기 위해 시뮬레이션 실행 모듈(410)은 연산 과정 부할부(413)와 섹터 연산 시간 파악부(414) 및 분할 연산부(415)를 포함할 수 있다.

연산 과정 부할부(413)는 상기 데이터의 연산 과정을 복수 개의 섹터로 분할하는 것으로서, 여기서 섹터란 함수의 연산 과정 전체를 복수개의 구간으로 나눈 것 중 하나이다.

이렇게 연산 과정 분할부(413)에 의해 생성된 섹터는 섹터 연산 시간 파악부(414)에 의해 각각의 상기 섹터를 연산하는데 소요되는 시간인 섹터 연산 시간이 파악된다. 이때 상술한 우선순위 선정부(412)에 의해 섹터 연산 시간에 따라 우선순위가 선정되어 우선순위가 높은 순서대로 데이터를 연산 처리할 수도 있다.

섹터 중 일부만 연산하여 작업 속도를 더욱 높일 수 있는데, 이러한 기능을 수행하는 분할 연산부(415)는 각각 상기 섹터에 해당하는 상기 섹터 연산 시간을 비교하여, 전체의 상기 섹터들 중 일부만을 선별하여 연산하는 기능을 제공한다. 즉 각각의 섹터에 해당하는 섹터 연산 시간을 파악하고 비교하여 섹터 연산 시간이 비교적 짧은 섹터만을 연산하는 역할을 제공한다. 이때 전체 섹터 중 일부만 연산을 실행해도 시뮬레이션 결과를 충분히 도출할 수 있을 정도인 것이 바람직하다.

상술한 시뮬레이션 실행 모듈(410)의 하위 구성을 통해 도출된 시뮬레이션 결과를 기반으로 주식을 매도할 것인지 또는 매수할 것인지를 판단할 수 있는데, 이를 위해 데이터 분석 인터페이스(400)는 매매시점 파악 모듈(420)을 포함할 수 있다.

매매시점 파악 모듈(420)은 시뮬레이션을 실행한 결과를 기반으로 주식의 매도 및 매수 시점을 파악하는 것으로서, 예를 들어 장기 회귀분석 기울기가 매수진입 기준가격(이는 본 발명의 시스템 관리자에 의해 설정될 수 있다.)을 상향 돌파하면 주식을 매수하고, 하향 돌파하면 주식을 매도하도록 진입 규칙을 설정할 수 있으며, 단기 회귀분석 추정 값이 장기 회귀분석 추정 값을 하향돌파하면 매수 청산을 하고 상향돌파하면 매도 청산하도록 청산 규칙을 설정할 수 있다.

지금까지 설명한 바와 같이, 본 발명에 따른 GPU를 활용한 주가 예측 시뮬레이션 제공 시스템의 구성 및 작용을 상기 설명 및 도면에 표현하였지만 이는 예를 들어 설명한 것에 불과하여 본 발명의 사상이 상기 설명 및 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 변화 및 변경이 가능함은 물론이다.

10 : GPU 20 : 외부 서버
30 : 유저 100 : 데이터 입력 모듈
200 : 키워드 지정 인터페이스 210 : 용어 파악 모듈
220 : 유효 용어 도출 모듈 230 : 간격 파악 모듈
240 : 키워드 도출 모듈 300 : 토픽 선정 인터페이스
310 : 중요도 산출 모듈 311 : 기준 키워드 수치 산출부
312 : 비교 키워드 수치 산출부 313 : 중복 수치 산출부
314 : 중요도 산출부 320 : 토픽 선정 모듈
330 : 하위 키워드 배치 모듈 331 : 토픽 집합 생성부
332 : 키워드 집합 생성부 333 : 연관도 산출부
400 : 데이터 분석 인터페이스 410 : 시뮬레이션 실행 모듈
411 : 연산 시간 예측부 412 : 우선 순위 선정부
413 : 연산 과정 분할부 414 : 섹터 연산 시간 파악부
415 : 분할 연산부 420 : 매매시점 파악 모듈

Claims

GPU를 활용한 주가 예측 시뮬레이션 제공 시스템으로서,
외부 서버로부터 시세 정보, 뉴스, 기업 정보를 포함하는 복수 개의 데이터를 입력받는 데이터 입력 모듈;
상기 데이터를 기반으로 통계 분석 시뮬레이션을 복수 개의 GPU를 통해 실행하여 산출된 시뮬레이션 결과인 주가를 예측하는 시뮬레이션 실행 모듈과, 상기 주가를 기반으로 주식의 매도 및 매수 시점인 매매시점을 파악하는 매매시점 파악 모듈을 포함하는 데이터 분석 인터페이스;
상기 데이터에 포함된 용어를 파악하는 용어 파악 모듈과, 복수 개의 상기 용어들을 등장 빈도 및 근접도에 따라 그룹핑한 그룹핑 팩터를 통해 유효 용어를 도출하는 유효 용어 도출 모듈을 포함하고, 도출된 상기 유효 용어를 키워드로 지정하는 키워드 지정 인터페이스;를 포함하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
제 1항에 있어서,
상기 시뮬레이션 실행 모듈은,
상기 GPU가 상기 데이터를 연산하는데 소요되는 연산 시간을 예측하는 연산 시간 예측부와,
상기 연산 시간에 따라 연산을 수행할 상기 데이터의 우선순위를 선정하는 우선순위 선정부를 포함하고,
상기 우선순위에 따라 상기 데이터를 연산하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
제 1항에 있어서,
상기 시뮬레이션 실행 모듈은,
상기 데이터의 연산 과정을 복수 개의 섹터로 분할하는 연산 과정 분할부와,
각각의 상기 섹터를 연산하는데 소요되는 시간인 섹터 연산 시간을 파악하는 섹터 연산 시간 파악부 및,
각각 상기 섹터에 해당하는 상기 섹터 연산 시간을 비교하여, 전체의 상기 섹터들 중 일부만을 선별하여 연산하는 분할 연산부를 포함하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
삭제
제 1항에 있어서,
상기 유효 용어 도출 모듈은,
다음의 수학식 1을 통해 상기 유효 용어를 도출하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
수학식 1.

(여기서,
는 용어
에 대한 용어
의 그룹핑 팩터,
용어
와 근접한 용어
의 누적 합,
는 용어
와 근접한 용어
의 누적 합,
은 용어
와 근접한 용어 전체의 누적 합,
은 용어
와 근접한 용어 전체의 누적 합)
제 1항에 있어서,
상기 키워드 지정 인터페이스는,
상기 용어 및 상기 유효 용어를 일렬로 나열한 후 상기 용어와 상기 유효 용어 사이의 간격을 파악하는 간격 파악 모듈과,
상기 간격의 대소에 따른 간격 가중치를 반영한 그룹핑 팩터를 기반으로 키워드를 도출하는 키워드 도출 모듈을 포함하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
제 6항에 있어서,
상기 키워드 도출 모듈은,
다음의 수학식 2를 통해 키워드를 도출하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
수학식 2.

(여기서,
는 키워드,
은 전체 그룹핑 횟수,
은
번째 그룹핑에서 용어
에 대한 용어
의 그룹핑 팩터,
은
번째 그룹핑에서 용어
와 용어
의 간격,
는 용어
와 용어
의 최대 간격)
제 7항에 있어서,
상기 시스템은,
상기 데이터 내에서 상기 키워드의 중요도를 산출하는 중요도 산출 모듈과, 상기 중요도 중 최댓값을 가지는 중요도를 지닌 상기 키워드를 토픽으로 선정하는 토픽 선정 모듈을 포함하는 토픽 선정 인터페이스;를 포함하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
제 8항에 있어서,
상기 중요도 산출 모듈은,
복수 개의 상기 키워드 중 어느 하나를 기준 키워드로 지정한 후 상기 기준 키워드에 대한 기준 키워드 수치를 산출하는 기준 키워드 수치 산출부와,
복수 개의 키워드 중 기준 키워드를 제외한 키워드를 비교 키워드로 지정한 후 상기 비교 키워드에 대한 비교 키워드 수치를 산출하는 비교 키워드 수치 산출부 및,
복수 개의 데이터에 동시에 등장한 키워드에 대한 중복 수치를 산출하는 중복 수치 산출부와,
산출된 상기 기준 키워드 수치와 상기 비교 키워드 수치 및 상기 중복 수치를 기반으로 상기 데이터에 포함된 각각의 상기 키워드에 대한 중요도를 산출하는 중요도 산출부를 포함하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
제 9항에 있어서,
상기 기준 키워드 수치 산출부는,
다음의 수학식 3 및 수학식 4를 통해 산출되고,
상기 비교 키워드 수치 산출부는,
다음의 수학식 5를 통해 산출되며,
상기 중복 수치 산출부는,
다음의 수학식 6을 통해 산출되고,
상기 중요도 산출부는,
다음의 수학식 7을 통해 산출되는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
수학식 3.

(여기서,
는 데이터
에 포함된 기준 키워드
의 기준 키워드 수치,
는 데이터
에 포함된 키워드 개수,
는 데이터
에 포함된 문장 중 기준 키워드
가 포함될 확률 분포)
수학식 4.

(여기서,
는 데이터
에 포함된 문장 중 기준 키워드
가 포함될 확률 분포,
는 데이터
에 포함된
번째 문장에서 기준 키워드
가 포함될 확률,
는 데이터
에 포함된
번째 문장에서 기준 키워드
가 포함되지 않을 확률,
는 데이터
에 포함된 전체 문장의 개수)
수학식 5.

(여기서,
는 비교 키워드
의 비교 키워드 수치,
는 비교 키워드가 포함된 데이터,
는 전체 데이터 집합,
는 등장수치로서 데이터
에 비교 키워드
가 등장하는 경우에는 1, 등장하지 않는 경우에는 0을 의미)
수학식 6.

(여기서,
는 키워드
에 대한 중복 수치,
는 등장수치로서 데이터
에 키워드
가 등장하는 경우에는 1, 등장하지 않는 경우에는 0의 값을 지니며,
는 등장수치로서 데이터
에 키워드
가 등장하는 경우에는 1, 등장하지 않는 경우에는 0을 의미)
수학식 7.

(여기서,
는 데이터
에 포함된 키워드
에 대한 중요도,
는 데이터
에 포함된 기준 키워드
의 기준 키워드 수치,
는 비교 키워드
의 비교 키워드 수치,
는 키워드
에 대한 중복 수치)
제 8항에 있어서,
상기 토픽 선정 인터페이스는,
상기 토픽과 상기 키워드의 연관도를 산출한 후 연관도 고저에 따라 상기 키워드를 하위 키워드로 선정하여 상기 토픽에 배치함으로서 토픽 데이터베이스를 구축하는 하위 키워드 배치 모듈을 포함하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
제 11항에 있어서,
상기 하위 키워드 배치 모듈은,
복수의 데이터로부터 선정된 복수 개의 토픽을 그룹핑하여 토픽 집합을 생성하는 토픽 집합 생성부와,
토픽으로 지정되지 않은 키워드를 그룹핑하여 키워드 집합을 생성하는 키워드 집합 생성부 및,
토픽 집합과 키워드 집합을 비교 처리하여 토픽 및 키워드에 대한 연관도를 산출하는 연관도 산출부를 포함하는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
제 12항에 있어서,
상기 연관도는,
다음의 수학식 8에 의해 산출되는 것을 특징으로 하는, GPU를 활용한 주가 예측 시뮬레이션 제공 시스템.
수학식 8.

(여기서,
는 연관도,
는 토픽 집합에 포함된 전체 토픽의 개수, 은 키워드 집합에 포함된 전체 키워드의 빈도수,
는 토픽 집합에 포함된 토픽 중 키워드와 중복되는 중복 토픽의 빈도수,
은 키워드 집합에 포함된 키워드 중 토픽과 중복되는 중복 키워드의 빈도수)