KR102269425B1

KR102269425B1 - 토픽 선정을 위한 자동화된 정보 처리 방법

Info

Publication number: KR102269425B1
Application number: KR1020200118076A
Authority: KR
Inventors: 최상훈; 양태민; 김재윤
Original assignee: 주식회사 딥서치
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-06-25
Also published as: KR20220036324A; KR102477893B1

Abstract

특정 관심 주제 또는 테마 등을 지정함이 없이도 수집된 소스 데이터에 대한 분석을 통하여 지배적인 토픽(dominant topic)을 자동으로 선정하는 정보 처리 방법이 게시된다. 본 게시에 따른 정보 처리 방법은 상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 단계와, 상기 수집된 소스 데이터를 클러스터링 하는 단계와, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계와, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계와, 상기 선정된 클러스터에 대응되는 토픽(topic)을 결정하는 단계를 포함할 수 있다.

Description

토픽 선정을 위한 자동화된 정보 처리 방법{AUTOMATED DATA PROCESSING METHOD FOR TOPIC ADOPTION}

본 발명은 자동화된 정보 처리 방법에 관한 것이다. 보다 자세하게는, 테마, 범주 등의 한정이 없이 판단 시점의 토픽(dominant topic)을 스스로 선정하는 자동화된 정보 처리 방법에 관한 것이다.

한국공개특허 제 2020-0065736 호 문헌에서 관심 토픽에 대한 투자 대상 기업을 결정하는 방법이 제시된다. 한국공개특허 제 2020-0065736 호 문헌은 다양한 문서를 분석하고, 그 결과를 이용하여 관심 토픽과 관련 있는 기업들을 자동으로 선정하고 있다. 이러한 관심 토픽 기반 투자 대상 기업 자동 결정 방법은 관심 토픽이 지정되는 것을 전제로 하여 투자 대상 기업을 자동으로 결정하는 방법을 제시하는 것이다.

한국공개특허 제 2020-0065736 호 (2020.06.09 공개)

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 판단 시점의 지배적인 토픽(dominant topic)을 스스로 선정하는 자동화된 정보 처리 방법 및 그 장치를 제공하는 것이다.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 판단 시점의 떠오르는 토픽(rising topic)을 스스로 선정하는 자동화된 정보 처리 방법 및 그 장치를 제공하는 것이다.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 판단 시점에 이전 시점 대비 커다란 변화가 있는 토픽(topic with great change)을 스스로 선정하는 자동화된 정보 처리 방법 및 그 장치를 제공하는 것이다.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 사용자 또는 관리자에 의한 어떠한 테마, 범주의 한정도 없는 상태에서 스스로 판단시점의 토픽을 선정하고, 선정된 토픽과 관련된 투자 자산도 스스로 선정하여 투자 유니버스를 자동 생성하는 방법 및 그 장치를 제공하는 것이다.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 토픽의 선정에 있어서, 선정의 기반이 되는 소스 데이터의 수집 위치를 지정 받음으로써, 지정된 위치의 소스 데이터에 담긴 시장 관점이 반영되도록 하는 투자 유니버스 자동 생성 방법 및 그 장치를 제공하는 것이다.

본 게시의 몇몇 실시예들을 통하여 달성하고자 하는 기술적 과제는, 토픽의 선정에 있어서, 선정의 기반이 되는 소스 데이터의 타입 별 가중치를 지정 받음으로써, 각 타입의 소스 데이터 별로 그 정보가 반영되는 정도가 차등화 되도록 하는 투자 유니버스 자동 생성 방법 및 그 장치를 제공하는 것이다.

본 게시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 게시의 일 실시예에 따른 정보 처리 방법은, 상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 단계와, 상기 수집된 소스 데이터를 클러스터링 하는 단계와, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계와, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계와, 상기 선정된 클러스터에 대응되는 토픽(topic)을 결정하는 단계를 포함할 수 있다.

상기 수집된 소스 데이터 중 적어도 일부는 본문 텍스트를 포함하는 문서 데이터이고, 상기 수집된 소스 데이터를 클러스터링 하는 단계는 상기 문서 데이터의 본문 텍스트를 이용하여 상기 문서 데이터의 내용을 표현하는 특징 데이터를 생성하는 단계와, 상기 특징 데이터를 이용하여 각각의 문서 데이터를 클러스터링 하는 단계를 포함할 수 있다. 이 때, 상기 문서 데이터의 내용을 표현하는 특징 데이터를 생성하는 단계는 각각의 문서 데이터의 본문 텍스트에 대하여, 명사 혹은 명사구인 토큰 단위로 구분하는 토큰화(tokenizing)를 수행하는 단계와, 상기 토큰화에 의하여 추출된 토큰을 특징으로 변환하는 단계를 포함할 수 있다. 또한, 상기 토큰화를 수행하는 단계는 상기 본문 텍스트를 공백을 기준으로 단편화 하는 단계와, 상기 단편화에 의하여 제1 명사 및 상기 제1 명사에 바로 인접한 제2 명사가 추출된 경우, 상기 제1 명사 및 상기 제2 명사를 기계 학습에 의하여 학습된 복합 명사 추정 모델에 입력 하는 단계와, 상기 복합 명사 추정 모델의 출력 값을 이용하여 상기 제1 명사 및 상기 제2 명사의 연결이 복합 명사를 구성하는지 여부를 결정하는 단계와 상기 복합 명사가 하나의 토큰을 구성하도록 상기 토큰화를 수행하는 단계를 포함할 수 있다.

상기 수집된 소스 데이터 중 적어도 일부는 본문 텍스트를 포함하는 문서 데이터이고, 상기 수집된 소스 데이터를 클러스터링 하는 단계는 상기 수집된 소스 데이터의 타입이 제1 종류인 경우 상기 제1 종류의 문서에 대하여 사전 지정된 제1 불용어를 상기 본문 텍스트에서 노이즈 제거하는 단계와, 상기 수집된 소스 데이터의 타입이 제2 종류인 경우 상기 제2 종류의 문서에 대하여 사전 지정된 제2 불용어를 상기 본문 텍스트에서 노이즈 제거하는 단계와, 상기 노이즈 제거 후의 각 문서 데이터를 클러스터링 하는 단계를 포함할 수 있다. 이 때, 상기 제1 종류는 특허이고, 상기 제1 불용어는, "방법", "장치", "시스템", "공정", "물질", "화합물", "효과" 및 "실시예"를 포함할 수 있다. 또한, 상기 제2 종류는 뉴스이고, 상기 제2 불용어는, "광고", "기자", "기사" 및 하나 이상의 언론사 명칭을 포함할 수 있다.

상기 평가하는 단계는, 상기 클러스터에 포함된 각 소스 데이터의 타입의 다양성 지표를 연산하는 단계와, 상기 소스 데이터의 타입의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함할 수 있다.

또한, 상기 평가하는 단계는, 상기 클러스터에 포함된 각 소스 데이터의 스코어를 상기 소스 데이터의 타입에 따른 스코어 연산 규칙에 따라 연산하는 단계와, 상기 클러스터에 포함된 각 소스 데이터의 스코어를 합산 하는 단계와, 상기 스코어 합산치가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함할 수도 있다.

또한, 상기 평가하는 단계는, 상기 클러스터에 포함된 각 소스 데이터의 관련 주체를 상기 소스 데이터의 타입에 따른 관련 주체 추출 규칙에 따라 결정하는 단계와, 상기 클러스터에 포함된 각 소스 데이터 관련 주체의 다양성 지표를 연산하는 단계와, 상기 소스 데이터 관련 주체의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함할 수도 있다.

상기 소스 데이터를 수집하는 단계는, 기 지정된 소스 데이터 수집 주기 마다, 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 단계를 포함할 수 있다. 또한, 상기 수집된 소스 데이터를 클러스터링 하는 단계는, 기 지정된 클러스터링 주기 마다 상기 축적된 소스 데이터를 클러스터링 하되, 상기 클러스터링 주기는 상기 소스 데이터 수집 주기 보다 긴, 단계를 포함할 수 있다. 또한, 상기 각 클러스터를 평가하는 단계는, 기 지정된 클러스터링 평가 주기 마다 이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행하는 단계를 포함할 수 있다. 이 때, 상기 클러스터링 평가 주기는 상기 클러스터링 주기 보다 긴 것일 수 있다. 이 때, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계는, 이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행한 결과, 긍정적 방향의 시간적 변화가 큰 상위 n개(n는 1 이상의 자연수)의 클러스터를 선정하는 단계를 포함할 수 있다. 또한, 상기 기 지정된 클러스터링 평가 주기 마다, 이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행하는 단계는, 당해 클러스터링 결과에 따른 각 클러스터와 과거의 클러스터링 결과에 따른 각 클러스터의 동일성 매칭을 수행하는 단계와, 당해 클러스터링 결과에 따른 각 클러스터 별로 과거의 동일 클러스터 대비 평가 메트릭의 변화를 연산하는 단계를 포함할 수 있다. 또한, 상기 당해 클러스터링 결과에 따른 각 클러스터와 과거의 클러스터링 결과에 따른 각 클러스터의 동일성 매칭을 수행하는 단계는, 당해 클러스터링 결과에 따른 제1 클러스터의 대표점과, 과거 클러스터링 결과에 따른 제2 클러스터의 대표점 사이의 특징 공간(feature space) 상의 유클리드 거리(Euclidean distance)를 기준으로, 상기 제1 클러스터와 상기 제2 클러스터의 동일성을 판정하는 단계를 포함할 수 있다. 또한, 상기 당해 클러스터링 결과에 따른 각 클러스터와 과거의 클러스터링 결과에 따른 각 클러스터의 동일성 매칭을 수행하는 단계는, 특징 공간 상에서, 당해 클러스터링 결과에 따른 제1 클러스터가 차지하는 영역과, 과거 클러스터링 결과에 따른 제2 클러스터가 차지하는 영역이 겹치는 영역의 크기를 기준으로, 상기 제1 클러스터와 상기 제2 클러스터의 동일성을 판정하는 단계를 포함할 수도 있다.

상기 선정된 클러스터에 대응되는 토픽을 결정하는 단계는, 상기 선정된 클러스터의 각 소스 데이터를 토큰화 하는 단계와, 상기 토큰화의 결과 얻어진 상기 선정된 클러스터의 전체 토큰 중 주요 키워드를 선정하는 단계와, 상기 주요 키워드 각각의 중요도를 조정하되, 과거 클러스터링 결과에 따른 상기 선정된 클러스터와의 동일성 매칭 클러스터의 토픽에 포함되었던 주요 키워드의 중요도를 상향하는 방식으로 상기 조정을 수행하는 단계와, 상기 주요 키워드의 중요도를 이용하여, 상기 선정된 클러스터에 대응되는 토픽에 포함될 주요 키워드를 선정하는 단계를 포함할 수 있다.

상기 선정된 클러스터에 대응되는 토픽을 결정하는 단계는, 상기 선정된 클러스터의 각 소스 데이터를 토큰화 하는 단계와, 상기 토큰화의 결과 얻어진 상기 선정된 클러스터의 전체 토큰 중 주요 키워드를 선정하는 단계와, 상기 주요 키워드 각각의 상호 유사도를 연산하고, 상호 유사도가 낮은 주요 키워드는 노이즈 필터링 하는 단계와, 상기 노이즈 필터링 되지 않은 주요 키워드들 중에서, 중요도를 기준으로 상기 선정된 클러스터에 대응되는 토픽에 포함될 주요 키워드를 선정하는 단계를 포함할 수도 있다.

몇몇 실시예들에서, 상기 정보 처리 방법은 상기 결정된 토픽에 대응되는 자산을 결정하는 단계와, 상기 결정된 자산을 포함하는 투자 유니버스를 자동 구성하는 단계와, 상기 자동 구성된 투자 유니버스에 대한 정보를 출력하는 단계를 더 포함할 수 있다. 이 때, 상기 자산을 결정하는 단계는, 상기 결정된 토픽에 포함된 키워드 셋을 이용하여, 하나 이상의 유사 키워드를 조회 하는 단계와, 상기 결정된 토픽에 포함된 키워드 셋과 상기 하나 이상의 유사 키워드를 이용하여, 상기 결정된 토픽에 대응되는 자산을 결정하는 단계를 포함할 수 있다.

본 게시의 다른 실시예에 따른 정보 처리 방법은, 상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하되, 기 지정된 소스 데이터 수집 주기 마다 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 단계와, 기 지정된 클러스터링 주기 마다, 상기 축적된 소스 데이터를 클러스터링 하고, 상기 클러스터링의 결과 형성된 각 클러스터의 토픽을 결정하는 단계와, 기 지정된 클러스터링 평가 주기 마다, 각 토픽의 클러스터에 대하여 시간적 변화 평가를 수행하는 단계와, 상기 토픽의 클러스터의 상기 시간적 변화 평가에 따른 변화량을 기준으로 다이나믹 토픽을 선정하는 단계와, 상기 선정된 다이나믹 토픽에 대한 정보를 출력하는 단계를 포함할 수 있다.

각 토픽의 클러스터에 대하여 시간적 변화 평가를 수행하는 단계는, 당해 클러스터링 주기의 제1 토픽의 클러스터의 특징 공간 상 분포에 대한 정보와, 이전 클러스터링 주기의 상기 제1 토픽의 클러스터의 특징 공간 상 분포에 대한 정보를 비교하는 단계를 포함할 수 있다.

상기 다이나믹 토픽을 선정하는 단계는, 당해 클러스터링 결과에 따른 상기 제1 토픽의 클러스터의 대표점과, 과거 클러스터링 결과에 따른 상기 제1 토픽의 클러스터의 대표점 사이의 특징 공간 상의 유클리드 거리를 기준으로 상기 다이나믹 토픽을 선정하는 단계를 포함할 수 있다.

본 게시의 또 다른 실시예에 따른 정보 처리 방법은, 상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 단계와, 상기 수집된 소스 데이터를 클러스터링 하는 단계와, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계와, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계와, 상기 선정된 클러스터에 대응되는 자산을 자동 결정하는 단계를 포함할 수 있다. 또한, 상기 클러스터에 대응되는 자산을 자동 결정하는 단계는, 상기 클러스터의 각 소스 데이터에 대하여 영향력을 연산하는 단계와, 상기 클러스터의 각 소스 데이터에서 관련 자산을 추출하는 단계와, 상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 가중치를 상기 소스 데이터의 영향력을 이용하여 설정하는 단계와, 상기 가중치를 기준으로, 상기 클러스터에서 추출된 모든 관련 자산 중 일부를 상기 클러스터에 대응되는 자산으로서 선정하는 단계를 포함할 수 있다.

상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 영향력을 상기 소스 데이터의 영향력을 이용하여 설정하는 단계는, 상기 관련 자산의 기 등록된 기본 가중치를, 상기 소스 데이터의 영향력을 이용하여 조정함으로써 상기 관련 자산의 영향력을 설정하는 단계를 포함할 수 있다.

상기 클러스터의 각 소스 데이터에 대하여 영향력을 연산하는 단계는, 상기 소스 데이터의 타입에 따른 가중치를 조회 하는 단계와, 상기 소스 데이터의 영향력을 상기 조회된 가중치를 이용하여 조정하는 단계를 포함할 수 있다.

본 게시의 또 다른 실시예에 따른 정보 처리 방법은, 소스 데이터 수집 대상 장치로부터 수집된 소스 데이터를 클러스터링 하는 단계와, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계와, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계와, 상기 선정된 클러스터에 대응되는 자산을 결정하는 단계와, 상기 결정된 자산을 포함하는 투자 유니버스를 자동 생성하는 단계를 포함할 수 있다. 이 때, 상기 투자 유니버스는 상기 컴퓨팅 장치에 어떠한 섹터 정보도 제공됨이 없이 자동 생성되는 것을 특징으로 하는 것일 수 있다.

상기 정보 처리 방법은, 상기 클러스터링 하는 단계 이전에, 투자 유니버스 구성 설정 정보를 얻는 단계와 상기 투자 유니버스 구성 설정 정보를 이용하여 상기 소스 데이터 수집 대상 장치를 결정하는 단계를 더 포함할 수 있다. 이 때, 상기 소스 데이터 수집 대상 장치를 결정하는 단계는, 상기 투자 유니버스 구성 설정 정보에 따를 때 분석 대상 소스 데이터의 위치에 사용자 장치가 포함되는 경우, 상기 소스 데이터 수집 대상 장치가 상기 컴퓨팅 장치에 연결된 사용자 장치로 결정되는 단계를 포함할 수 있다. 또한, 상기 소스 데이터 수집 대상 장치를 결정하는 단계는, 상기 투자 유니버스 구성 설정 정보에 따를 때 분석 대상 소스 데이터의 위치에 지정 URL이 포함되는 경우, 상기 소스 데이터 수집 대상 장치가 상기 지정 URL에 대응되는 서비스 서버로 결정되는 단계를 포함할 수도 있다.

상기 정보 처리 방법은, 상기 클러스터링 하는 단계 이전에 투자 유니버스 구성 설정 정보를 얻는 단계를 더 포함할 수 있다.

상기 투자 유니버스 구성 설정 정보는 소스 데이터 타입 별 가중치 정보를 포함할 수 있다. 또한, 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계는, 상기 소스 데이터 타입 별 가중치를 이용하여, 상기 클러스터링의 결과 형성된 복수의 클러스터 각각에 대한 평가를 수행하는 단계와, 상기 복수의 클러스터 각각에 대한 평가의 결과를 이용하여, 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함할 수 있다.

상기 투자 유니버스 구성 설정 정보는 성장 토픽 관련 자산 및 우세 토픽 관련 자산 중 어느 하나로 선택된 편입 자산 타입 정보를 포함할 수 있다. 또한, 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계는, 상기 편입 자산 타입 정보가 상기 성장 토픽 관련 자산으로 지정된 경우, 당해 클러스터링의 결과 형성된 복수의 클러스터 각각에 대한 시간적 변화 평가를 이전 클러스터링의 결과를 이용하여 수행하고, 상기 시간적 변화 평가에 따를 때 긍정적 방향의 변화량을 기준으로 상기 복수의 클러스터 중 일부를 선정하며, 상기 편입 자산 타입 정보가 상기 우세 토픽 관련 자산으로 지정된 경우, 당해 클러스터링의 결과 형성된 복수의 클러스터 각각의 볼륨에 대한 평가 결과를 기준으로 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함할 수 있다.

도 1 내지 도 4는 본 게시의 몇몇 실시예들에 따른 투자 유니버스 자동 생성 시스템의 구성도들이다.
도 5는 본 게시의 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 6 내지 도 7은 도 5를 참조하여 설명한 정보 처리 방법의 일부 동작을 보다 상세히 설명하기 위한 상세 순서도들이다.
도 8은 본 게시의 또 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 9는 도 8을 참조하여 설명한 정보 처리 방법의 일부 동작을 보다 상세히 설명하기 위한 상세 순서도이다.
도 10 내지 도 12는 도 9를 참조하여 설명한 동작 중 당해 클러스터링의 결과 구성된 클러스터를 과거 클러스터링 결과 구성된 클러스터와 동일성 매칭하는 예시적인 방법을 설명하기 위한 도면들이다.
도 13은 본 게시의 또 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 14 내지 도 19는 도 13을 참조하여 설명한 동작 중 당해 클러스터링의 결과 구성된 예시적인 토픽의 클러스터를 과거 클러스터링 결과 구성된 상기 예시적인 토픽의 클러스터와 대비하여 상기 예시적인 토픽에 대한 시간적 변화 평가를 수행하는 방법을 설명하기 위한 도면들이다.
도 20은 도 5, 도 8 또는 도 13을 참조하여 설명한 클러스터 대응 토픽 결정 방법을 상세하게 설명하기 위한 순서도이다.
도 21은 도 5, 도 8 또는 도 13을 참조하여 설명한 정보 처리 방법의 후속 동작으로서 수행될 수 있는 몇몇 동작들을 예시적으로 설명하기 위한 순서도이다.
도 22는 도 21을 참조하여 설명한 일부 동작을 상세하게 설명하기 위한 상세 순서도이다.
도 23은 본 게시의 또 다른 실시예에 따른 정보 처리 방법의 순서도이다.
도 24는 도 23을 참조하여 설명한 일부 동작을 보다 상세하게 설명하기 위한 상세 순서도이다.
도 25는 본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법의 제1 순서도이다.
도 26은 본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법의 제2 순서도이다.
도 27 내지 도 29는 도 26을 참조한 투자 유니버스 구성 설정 세팅 동작 관련하여, 사용자 단말에 표시될 수 있는 예시적인 환경설정 화면들을 도시한 도면이다.
도 30은 본 게시의 몇몇 실시예들에 따른 예시적인 컴퓨팅 장치의 하드웨어 구성을 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서의 실시예들을 상세히 설명한다. 본 명세서의 실시예들의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 명세서의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 명세서의 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 명세서의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 명세서의 실시예들을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 명세서의 실시예들의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

이하, 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

자동 생성된 투자 유니버스에 대한 트레이딩 지원 시스템

본 게시의 일 실시예에 따르면 투자 유니버스 자동 생성 및 자동 생성된 투자 유니버스에 대한 트레이딩 지원 시스템(이하, '트레이딩 지원 시스템'으로 약칭한다)이 제공된다. 본 실시예에 따른 트레이딩 지원 시스템에 대하여 도 1 내지 도 4를 참조하여 설명한다.

도 1에 도시된 바와 같이, 본 실시예에 따른 트레이딩 지원 시스템은 투자 유니버스 구성 장치(100) 및 트레이딩 시스템(20)을 포함할 수 있다. 본 실시예에 따른 트레이딩 지원 시스템은 투자 유니버스 구성 장치(100)를 관리하거나, 트레이딩 시스템(20)에 접속하여 자동 생성된 투자 유니버스와 관련된 투자 상품을 트레이딩 하는 사용자 단말(30)을 더 포함할 수 있다.

투자 유니버스 구성 장치(100)는 소스 데이터 저장 장치(10)로부터 소스 데이터를 자동으로 수집(40)한다. 도 1에 도시된 바와 같이 소스 데이터는 특허 문서, 논문, 뉴스 등 다양한 텍스트 기반의 자료를 포함할 수 있으며, 투자 유니버스 구성 장치(100)는 상기 소스 데이터의 수집을 위해 복수의 컴퓨팅 장치에 접속할 수 있다. 투자 유니버스 구성 장치(100)는 상기 소스 데이터를 저장하는 소스 데이터 저장 장치(10)가 제공하는 자료 조회 API(Application Programming Interface)를 이용하여 상기 소스 데이터를 수집하거나, 크롤링(crawling) 방식으로 상기 소스 데이터를 수집할 수 있다.

소스 데이터 저장 장치(10)는 특허 문헌 조회 서버, 논문 조회 서버 및 언론사의 웹 서버 및 인터넷 뉴스 포털 서비스의 웹 서버 중 적어도 하나를 포함할 수 있다.

상기 소스 데이터는 특허 문서, 논문, 뉴스 등 공식적으로 간행된 텍스트 기반의 자료로 한정되지 않는다. 예를 들어, 블로그, SNS(Social Network Service) 등 개인적으로 온라인에 게시된 컨텐츠도 상기 소스 데이터로서 수집될 수 있을 것이다.

상기 소스 데이터는 텍스트 기반의 자료로 한정되지 않는다. 예를 들어, 유튜브(www.youtube.com) 등의 동영상 게시 플랫폼 또는 넷플릭스(www.netflix.com) 등의 OTT(Over The Top) 서비스에 업로드 된 동영상 스트리밍 서비스 등에서 멀티미디어 컨텐츠가 수집될 수 있으며, 투자 유니버스 구성 장치(100)는 이러한 멀티미디어 컨텐츠를 투자 유니버스 구성 장치(100)가 분석할 수 있는 형태로 변환할 수 있다. 예를 들어, 투자 유니버스 구성 장치(100)는 수집된 동영상의 자막 컨텐츠를 상기 소스 데이터로서 사용하거나, 수집된 동영상의 음성을 STT(Speech To Text) 기술을 이용하여 텍스트로 변환하고, 상기 변환된 텍스트를 상기 소스 데이터로서 사용할 수 있을 것이다.

또한, 투자 유니버스 구성 장치(100)는 인터넷 라디오, 음성 e-book 컨텐츠 등 음성 컨텐츠를 STT 기술로 텍스트 변환한 것을 상기 소스 데이터로서 사용할 수도 있음은 물론이다.

종합하면, 소스 데이터의 타입은 특허, 논문, 뉴스, 공시자료 등의 공식 간행 텍스트와, SNS, 비디오/오디오 변환 텍스트 등 비공식 간행 텍스트로 구분될 수 있을 것이다.

요컨대, 상기 소스 데이터는 정보 처리 기술을 통하여 투자 유니버스 구성 장치(100)가 그 내용을 분석할 수 있는 텍스트의 형태로 변환될 수 있는 모든 형태의 컨텐츠를 포함하는 것으로 이해되어야 할 것이다. 다만, 이하의 기재에서는 이해의 편의를 돕기 위해 투자 유니버스 구성 장치(100)가 텍스트 형태의 소스 데이터를 수집하는 것을 대상으로 실시예들을 설명하기로 한다.

투자 유니버스 구성 장치(100)는 주기적으로 또는 비주기적으로 소스 데이터를 자동 수집(40)한다. 예를 들어, 투자 유니버스 구성 장치(100)는 소스 데이터 수집 배치 프로세스(batch process)를 수행하되, 기 지정된 주기에 따라 상기 배치 프로세스를 수행하거나, 특정 이벤트가 발생된 것으로 판정되면 상기 배치 프로세스를 수행하거나, 사용자 단말(30) 중 관리자 단말로부터 상기 배치 프로세스의 수행 커맨드가 수신되면 상기 배치 프로세스를 수행할 수 있다.

물론, 투자 유니버스 구성 장치(100)는 상시적으로 소스 데이터를 자동 수집(40)할 수도 있을 것이다.

투자 유니버스 구성 장치(100)는 트레이딩 시스템(20)으로부터 시장 정보를 수신하고, 수신된 시장 정보를 이용하여 시장 상황을 모니터링 하며, 상기 모니터링의 결과를 이용하여 시장 상황에 기준치 이상의 변동이 있는지 여부를 판정하고, 시장 상황에 기준치 이상의 변동이 있는 것으로 판정하면 상기 특정 이벤트가 발생된 것으로 판정할 수 있다. 예를 들어, 투자 유니버스 구성 장치(100)는 주식 시장의 지수가 기준치 이상의 변동이 있는 경우 상기 특정 이벤트가 발생된 것으로 판정하거나, 주식 시장의 기 지정된 몇몇 대표 주식의 가격 지수에 기준치 이상의 변동이 있는 경우 상기 특정 이벤트가 발생된 것으로 판정할 수 있을 것이다.

투자 유니버스 구성 장치(100)는 수집된 소스 데이터를 축적한다. 이 때, 투자 유니버스 구성 장치(100)는 중복 수집된 소스 데이터는 제거 후 축적할 수 있을 것이다. 물론, 투자 유니버스 구성 장치(100)는 소스 데이터 게시일 등의 식별용 정보를 이용하여 소스 데이터가 기 수집된 것인지 여부를 판정하고, 새로운 소스 데이터 만을 자동 수집(40)할 수도 있을 것이다.

투자 유니버스 구성 장치(100)는 축적된 소스 데이터에 대한 클러스터링(clustering)을 수행한다. 상기 클러스터링의 방식은 다양한 실시예와 함께 후술될 것이다. 투자 유니버스 구성 장치(100)는 주기적으로 축적된 소스 데이터를 클러스터링 할 수 있다. 클러스터링의 주기는 소스 데이터 수집의 주기보다 길거나 같을 수 있다. 예를 들어, 소스 데이터 수집은 매일 수행되고, 클러스터링은 매주 수행(weekly)되거나 매일 수행(daily)될 수 있을 것이다.

투자 유니버스 구성 장치(100)는 축적된 소스 데이터에 담겨 있는 정보를 이용하여 상기 소스 데이터를 클러스터링 하기 위해, 축적된 소스 데이터 각각의 본문 텍스트를 특징 데이터로 변환하고, 상기 변환된 특징 데이터를 클러스터링 알고리즘에 입력하여 상기 클러스터링을 수행할 수 있다. 요컨대, 투자 유니버스 구성 장치(100)는 각 소스 데이터의 메타 데이터가 아닌 본문의 내용을 이용하여 상기 클러스터링을 수행하는 것으로 이해할 수 있을 것이다. 상기 메타 데이터는, 특허 문서의 출원인, 발명자, 발명의 명칭, IPC 등의 기술 분류 코드 등일 수 있고, 논문의 논문명, 저자, 주제어, 발행 기관 등일 수 있으며, 뉴스의 기사 타이틀, 언론사, 기자 등일 수 있다.

투자 유니버스 구성 장치(100)는 상기 클러스터링의 결과로 형성된 복수의 클러스터들 각각에 대한 평가(assessment)를 수행하고, 평가의 결과를 이용하여 상기 복수의 클러스터들 중에서 일부를 선정한다. 상기 평가의 방식은 다양한 실시예들과 함께 후술될 것이며, 평가의 결과는 평가 스코어(assessment score) 또는 평가 등급(assessment grade)의 형태로 각 클러스터에 대하여 출력될 수 있다. 투자 유니버스 구성 장치(100)는 상기 평가 스코어 또는 상기 평가 등급을 기준으로 하나의 클러스터 만을 선정할 수도 있고, 기 지정된 개수의 상위 클러스터를 선정할 수도 있다.

투자 유니버스 구성 장치(100)는 기 지정된 평가 주기에 따라 주기적으로 클러스터의 평가를 수행하거나, 상기 클러스터링의 수행 이후 곧바로 클러스터의 평가를 수행할 수 있다. 즉, 클러스터의 평가 주기는 클러스터링 주기와 같거나 더 길 수 있다. 예를 들어, 클러스터링이 매주 수행(weekly)될 때, 클러스터의 평가는 매월 수행(monthly) 되거나, 클러스터링 이후 바로 수행될 수 있을 것이다.

투자 유니버스 구성 장치(100)는 상기 선정된 클러스터에 대응되는 자산(asset)을 결정하거나, 상기 선정된 클러스터에 대응되는 주제(topic)를 결정한 후 결정된 주제에 대응되는 자산을 결정할 수 있다. 상기 결정된 자산에 대하여도 스코어 또는 등급이 부여될 수 있으며, 상기 결정된 자산의 스코어 또는 등급은 상기 자산이 대응되는 클러스터의 평가 스코어 또는 평가 등급에 기반하여 결정될 수 있을 것이다.

투자 유니버스 구성 장치(100)는 하나의 자산 만을 선정할 수도 있고, 기 지정된 개수의 상위 자산을 선정할 수도 있으며, 기 지정된 기준 스코어를 상회하는 자산이 선정될 수도 있다.

투자 유니버스 구성 장치(100)는 기 지정된 투자 유니버스 생성 주기에 따라 주기적으로 투자 유니버스 생성을 수행할 수 있다. 이 때, 투자 유니버스 생성 주기는 클러스터의 평가 주기와 동일할 수 있다. 즉, 클러스터의 평가의 결과로 선정된 클러스터에 대응되는 하나 이상의 자산으로 구성된 투자 유니버스가 생성될 수 있는 것이다. 예를 들어, 클러스터의 평가 주기가 매월 평가(monthly)일 때, 매월 최신의 상황을 반영한 투자 유니버스가 자동으로 생성될 수 있을 것이다.

이 때, 투자 유니버스 생성 주기는 클러스터의 평가 주기 보다 길 수도 있다. 예를 들어, 클러스터의 평가 주기가 매월 평가(monthly)일 때, 투자 유니버스 생성 주기는 매 분기 평가(quarterly)일 수 있다. 표 1을 참조하여 투자 유니버스 생성 방식을 설명한다.

1월 내지 3월에 총 3번의 클러스터 평가가 수행되고 그에 따라 3번의 자산 선정이 이뤄졌으며, 그 결과가 표 1과 같다고 가정하자. 또한, 2개의 자산을 포함하는 투자 유니버스가 생성되도록 설정된 상황을 가정한다. 제1 실시예에서, 자산 선정 회수를 기준으로 컷-오프(cut-off)가 이뤄질 수 있다. 이 경우 투자 유니버스는 [B화학, C전자]로 생성될 것이다. B화학은 3회 선정되었고, C전자는 2회 선정되었기 때문이다. 제2 실시예에서, 스코어를 기준으로 컷-오프가 이뤄질 수도 있다. 이 경우 투자 유니버스는 [D자동차, C전자]로 생성될 것이다. 자산의 스코어를 기준으로 1등은 88점의 D자동차이고, 2등은 82점의 C전자이기 때문이다.

제3 실시예에서, 컷-오프 없이 3번의 자산 선정 과정에서 한번이라도 선정된 모든 자산을 포함하도록 투자 유니버스가 생성될 수도 있다. 이 경우 투자 유니버스는 [A전자, B화학, C전자, D자동차]로 생성될 것이다.

제4 실시예에서, 생성된 투자 유니버스는 각 편입 자산 별 비중에 대한 정보도 포함할 수 있다. 상기 편입 자산 별 비중은 상기 자산의 스코어, 자산의 선정 횟수 또는 상기 컷-오프 기준에 따른 투자 유니버스 내 순위를 기준으로 자동 결정될 수 있다. 일 실시예에서, 상기 편입 자산 별 비중은 펀드 매니저 등 전문가 단말로부터 수동으로 입력될 수도 있음은 물론이다.

상기 투자 유니버스에 포함된 자산은 상장 지수 펀드(Exchange Traded Fund; ETF)의 형태로 거래소에 상장되어 주식처럼 거래될 수 있다. 이 때, 투자자들의 이해를 돕기 위해, 투자 유니버스 구성 장치(100)는 투자 유니버스 구성 이유에 대한 정보를 자동으로 생성할 수 있다. 상기 투자 유니버스 구성 이유에 대한 정보는 상기 투자 유니버스의 구성 자산 및 그 비중에 대한 정보와 함께 트레이딩 시스템에 송신될 수 있을 것이다. 상기 투자 유니버스 구성 이유에 대한 정보는, 각 자산 선정의 결과 및 자산 선정의 이유가 된 선정된 클러스터에 대한 상세 정보를 포함할 수 있다. 상기 선정된 클러스터에 대한 상세 정보는 클러스터에 속한 소스 데이터의 양적인 정보, 소스 데이터 타입 별 비중 및 클러스터의 시간적 변화에 대한 정보 중 적어도 하나를 포함할 수 있다.

트레이딩 시스템(20)은 투자 유니버스 구성 장치(100)로부터 수신된 투자 유니버스 구성 이유에 대한 정보를 이용하여 ETF의 상품 설명서를 자동으로 생성하고, 투자자의 사용자 단말(30)의 요청에 응답하여 상기 상품 설명서를 사용자 단말(30)에 송신할 수 있을 것이다.

몇몇 실시예에서, 투자 유니버스 구성 장치(100)가 업데이트 된 투자 유니버스의 정보를 생성하는 것에 응답하여, 상기 상장 지수 펀드 계정에 편입된 자산에 대한 매매 주문을 자동 생성할 수 있다. 이로 인해, 상기 상장 지수 펀드는 투자 유니버스 구성 장치(100)에 의하여 업데이트된 투자 유니버스에 포함된 자산 및 그 비중을 추종하도록 설계될 수 있을 것이다.

도 1에는 투자 유니버스 구성 장치(100)가 소스 데이터 저장 장치(10)로 부터 소스 데이터를 자동 수집(40)하는 것으로 도시되어 있으나, 도 2에 도시된 바와 같이, 투자 유니버스 구성 장치(100)는 상기 소스 데이터를 트레이딩 시스템(20)으로부터 자동 수집(41)할 수도 있다. 트레이딩 시스템(20)으로부터 자동 수집(41)되는 소스 데이터는 투자 자산 별 거래 정보, 공시 정보, 증권사 리포트 등을 포함할 수 있다.

또한, 도 3에 도시된 바와 같이, 투자 유니버스 구성 장치(100)는 사용자 단말(30)로부터 소스 데이터를 자동 수집(42)할 수도 있다. 즉, 투자 유니버스 구성 장치(100)는 투자 유니버스의 자동 생성을 의뢰한 투자자의 단말에 저장된 다양한 자료를 분석하고, 분석 결과를 이용하여 자동으로 투자 유니버스를 생성할 수 있는 것이다. 소스 데이터의 자동 수집(42)을 위해 사용자 단말(30)에 백그라운드에서 동작하는 에이전트(agent) 소프트웨어(31)가 설치될 수 있을 것이다.

에이전트 소프트웨어(31)는 사용자 단말(30)에 저장된 파일들을 대상으로 소스 데이터 적격성을 평가하고, 소스 데이터 적격으로 평가된 파일들을 투자 유니버스 구성 장치(100)의 요청에 응답하여 송신(pull 방식)하거나, 투자 유니버스 구성 장치(100)의 요청과 무관하게 주기적/비주기적으로 투자 유니버스 구성 장치(100)에 송신(push 방식)할 수 있을 것이다.

에이전트 소프트웨어(31)는 사용자 단말(30)에 저장된 다양한 파일들 중 자연어 형태의 정보로 변환될 수 있는 파일들을 소스 데이터 적격으로 평가할 수 있을 것이다. 몇몇 실시예들에서, 상기 에이전트 소프트웨어는 소스 데이터 적격으로 평가된 파일을 읽고, 상기 파일에 포함된 정보를 텍스트 형태의 사전 정의된 포맷의 정보로 변환한 후 투자 유니버스 구성 장치(100)에 송신할 수 있다. 이 경우, 에이전트 소프트웨어(31)는 소스 데이터의 분석에 소요되는 투자 유니버스 구성 장치(100)의 연산 부하를 절감시켜줄 수 있을 것이다.

상기 소스 데이터 적격의 파일은 텍스트 기반의 파일에 한정되지 않는다. 상술한 바와 같이, 정보 변환 기술을 이용하여 텍스트 정보를 추출할 수 있는 모든 타입의 파일이 상기 소스 데이터 적격의 파일이 될 수 있다. 예를 들어, 에이전트 소프트웨어(31)는 STT(Speech To Text) 모듈을 포함할 수 있고, 상기 STT 모듈을 이용하여 동영상 파일 또는 음성 파일의 음성을 텍스트로 변환한 후, 상기 사전 정의된 포맷의 투자 유니버스 구성 장치 송신용 정보를 생성할 수도 있을 것이다.

몇몇 실시예에서, 사용자 단말(30)의 특정 디렉토리가 소스 데이터 탐색 대상으로 지정될 수 있다. 이 때, 각 디렉토리 별 가중치가 지정될 수 있으며, 각 디렉토리 별 소스 데이터 타입도 함께 지정될 수 있을 것이다. 에이전트 소프트웨어(31)는 소스 데이터 탐색 대상에 대한 정보를 수신하고, 수신된 정보에 따라 소스 데이터 탐색 로직을 수행할 수 있다. 이러한 실시예는 도 28을 참조하여 자세히 후술될 것이다.

도 4에 도시된 바와 같이, 투자 유니버스 구성 장치(100)는 트레이딩 소스 데이터 저장 장치로부터의 소스 데이터 자동 수집(40), 트레이딩 시스템으로부터의 소스 데이터 자동 수집(41) 및 사용자 단말로부터의 소스 데이터 자동 수집(42)을 병행할 수도 있을 것이다. 이 때, 투자 유니버스 구성 장치(100)는 각각의 자동 수집 채널(40, 41, 42)으로부터 수집되는 소스 데이터의 건수 비율, 건수 상한치 또는 스코어링 가중치 등에 대한 소스 데이터 수집 설정 정보를 참조하여 소스 데이터 자동 수집을 수행할 수 있을 것이다.

지금까지 도 1 내지 도 4를 참조하여, 몇몇 실시예들에 따른 트레이딩 지원 시스템의 구성 및 동작을 설명하였다. 도 1 내지 도 4에는 트레이딩 시스템(20)과 투자 유니버스 구성 장치(100)가 물리적으로 분리된 별개의 장치인 것으로 도시되어 있으나, 필요에 따라 트레이딩 시스템(20)의 일부 모듈로서 투자 유니버스 구성 장치(200)가 구현될 수도 있음은 물론이다.

토픽의 자동 결정

이하, 본 게시의 다른 실시예에 따른 정보 처리 방법을 설명한다. 상기 정보 처리 방법은 소스 데이터를 수집하고, 수집된 소스 데이터의 내용을 분석하여 토픽을 자동으로 결정하는 동작을 포함한다. 본 실시예에 따른 정보 처리 방법은 도 1 내지 도 4를 참조하여 설명한 트레이딩 지원 시스템에 의하여 수행되는 것일 수 있으나, 그 용도가 투자 유니버스의 자동 생성으로 한정되지는 않는다.

본 실시예에 따른 정보 처리 방법은 도 1 내지 도 4의 투자 유니버스 구성 장치로 예시되는 컴퓨팅 장치에 의하여 수행될 수 있다. 본 실시예에 따른 컨텐츠 공동 편집 방법은 복수의 컴퓨팅 장치들에 의하여 나뉘어 수행될 수 있다. 이하, 본 실시예에 따른 정보 처리 방법을 설명함에 있어서, 각각의 동작의 주체에 대한 기재가 생략될 수 있으며, 이 경우 상기 동작의 주체는 컴퓨팅 장치인 것으로 이해될 수 있을 것이다.

또한, 도 1 내지 도 4를 참조하여 설명된 실시예를 통하여 이해될 수 있는 기술적 사상은, 특별한 언급이 없더라도 본 실시예에 따른 정보 처리 방법에 당연히 적용될 수 있다. 따라서, 도 1 내지 도 4를 참조하여 설명된 사항은 본 실시예를 통하여 중복 설명하지 않기로 한다. 이하, 도 5를 기초로 하되, 도 6 내지 도 12를 더 참조하여 본 실시예에 따른 정보 처리 방법을 설명한다.

단계 S100에서, 상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터가 수집된다. 상기 소스 데이터가 다양한 채널을 통하여 수집될 수 있는 점과, 동영상, 문서 등 서로 다른 형식의 소스 데이터가 분석 가능한 본문 텍스트로 변환되는 과정 등에 대하여는 도 1 내지 도 4를 참조한 설명을 참조한다. 이하, 문서 데이터 형태의 소스 데이터가 수집된 상황을 가정하여 설명한다. 상술한 바와 같이, 소스 데이터의 수집은 기 지정된 소스 데이터 수집 주기에 기반하여 주기적으로 수행될 수 있다.

상기 수집된 소스 데이터들이 축적되고, 클러스터링이 수행되어야 한다는 판정이 내려지면, 단계 S200에서 축적된 소스 데이터가 클러스터링 된다. 이 때, 상기 문서 데이터의 본문 텍스트를 이용하여 상기 문서 데이터의 내용을 표현하는 특징 데이터가 생성되며, 상기 특징 데이터를 이용하여 각각의 문서 데이터가 클러스터링 될 수 있다. 상기 클러스터링 과정을 도 6을 참조하여 자세히 설명한다. 상술한 바와 같이, 클러스터링은 기 지정된 클러스터링 주기에 기반하여 주기적으로 수행될 수 있으며 상기 클러스터링 주기는 상기 소스 데이터 수집 주기와 같거나 더 길게 지정된 것일 수 있다.

단계 S201에서, 수집된 본문 텍스트로부터 노이즈가 제거된다. 노이즈 제거 기준은 소스 데이터의 타입 별로 서로 다르게 지정될 수 있다. 상기 노이즈는 해당 타입의 소스 데이터에서 빈번하게 발견되는 단어 또는 표현을 포함하며, 이러한 노이즈의 제거를 통해 각각의 소스 데이터에서 특징적으로 언급하고 있는 내용이 정확하게 분석될 수 있을 것이다.

상술한 바와 같이, 소스 데이터의 타입은 특허, 논문, 뉴스, 공시자료 등의 공식 간행 텍스트와, SNS, 비디오/오디오 변환 텍스트 등 비공식 간행 텍스트로 구분될 수 있다. 예시적으로, 특허 문헌에 대하여는 "방법", "장치", "시스템", "공정", "물질", "화합물", "효과" 및 "실시예"가 불용어로서 노이즈 제거될 수 있다. 또한, 예시적으로, 뉴스에 대하여는, "광고", "기자", "기사" 및 언론사 명칭이 불용어로서 노이즈 제거될 수 있다.

단계 S202에서, 노이즈 제거 후의 본문 텍스트가 토큰화(tokenizing)된다. 상기 토큰화는 본문 텍스트를 복수의 토큰 단위로 구분하는 것이며, 상기 각각의 토큰은 명사(noun) 또는 명사구(noun phrase)로 한정될 수 있다. 토큰을 명사 또는 명사구로 한정함으로써, 상기 토큰으로부터 추출된 특징 데이터(feature data)가 각 소스 데이터의 내용을 보다 변별력 있게 표현하게 될 것이다.

토큰화 과정은, 상기 본문 텍스트를 공백을 기준으로 단편화 하는 동작, 상기 단편화에 의하여 제1 명사 및 상기 제1 명사에 바로 인접한 제2 명사가 추출된 경우, 상기 제1 명사 및 상기 제2 명사를 복합 명사(compound noun) 추정 모델에 입력 하는 동작, 상기 복합 명사 추정 모델의 출력 값을 이용하여 상기 제1 명사 및 상기 제2 명사의 연결이 복합 명사를 구성하는지 여부를 결정하는 동작 및 상기 복합 명사가 하나의 토큰을 구성하도록 상기 토큰화를 수행하는 동작을 포함할 수 있다.

상기 복합 명사 추정 모델은 각각의 소스 데이터 타입 별로 생성된 것일 수 있다. 예를 들어, 특허 문서를 위한 복합 명사 추정 모델과, 뉴스 문서를 위한 복합 명사 추정 모델이 개별적으로 마련될 수 있다. 복합 명사 추정의 정확도를 높이기 위해, 세분화된 복합 명사 추정 모델이 마련될 수도 있을 것이다. 예를 들어, 소프트웨어 분야 특허 문서를 위한 복합 명사 추정 모델, 반도체 분야 특허 문서를 위한 복합 명사 추정 모델, 디스플레이 분야 특허 문서를 위한 복합 명사 추정 모델 등 특허 문헌의 기술 분야 마다 개별적인 복합 명사 추정 모델이 마련될 수도 있을 것이다.

복합 명사는 공백을 기준으로 서로 분리되어 있는 명사들로 구성된다. 이 때, 상술한 바와 같이 서로 분리된 명사들이 복합 명사를 구성하는 것이어서 하나의 토큰으로서 식별되어야 하는지 여부가 기계 학습 또는 통계적 방법론에 기반하여 추정되는 것이다. 복수의 단어로 구성된 복합 명사의 사용 비중이 낮지 않으므로, 복합 명사 추정 모델을 기반으로 복합 명사를 단일 토큰으로 처리하는 것은 토큰으로부터 추출된 특징 데이터가 각 소스 데이터의 내용을 보다 변별력 있게 표현하는데 기여하게 될 것이다.

단계 S203에서, 토큰화에 따라 추출된 토큰이 특징 데이터로 변환된다. 상기 특징 데이터는 BoW(Bag of Words), TF-IDF, BM25와 같은 희소 표현(sparse representation)에 기반하여 변환되거나, Word2Vec, Doc2Vec와 같은 밀집 표현(dense representation)에 기반하여 변환될 수 있다. 몇몇 실시예에서, 특징 데이터로의 변환 방식은 각각의 소스 데이터 타입 별로 사전 지정된 것일 수 있다. 즉, 특허 문서의 특징 변환 방식과, 뉴스 문서의 특징 변환 방식이 서로 다를 수 있다.

소스 데이터를 특징 데이터로 변환하는 동작(S201 내지 S203)은 축적된 각각의 소스 데이터 별로 반복 수행될 수 있다(S204, S205). 축적된 모든 소스 데이터에 대하여 특징 데이터 변환이 완료되면, 단계 S206에서 각 소스 데이터의 특징 데이터를 이용한 클러스터링이 수행된다. 상기 클러스터링은 k-means, spectral, DBSCAN, HDBSCAN 등의 알려진 클러스터링 알고리즘을 이용하여 수행될 수 있을 것이다.

단계 S300에서, 상기 클러스터링의 결과 형성된 각 클러스터가 평가된다. 본 게시에서 각각의 클러스터가 평가된다는 것은, 각각의 클러스터의 중요도를 평가하는 것으로 이해될 수 있다. 또한, 상기 중요도는 축적된 전체가 소스 데이터가 의미하는 현 시점의 포괄적인 상황 정보와의 관련성을 의미할 수 있다.

상술한 바와 같이, 클러스터링의 평가는 기 지정된 클러스터링 평가 주기에 기반하여 주기적으로 수행될 수 있으며 상기 클러스터링 평가 주기는 상기 클러스터링 주기와 같거나 더 길게 지정된 것일 수 있다. 상기 클러스터링 평가 주기가 상기 클러스터링 주기보다 더 길게 지정된 것인 경우, 상기 클러스터링 평가는 직전의 클러스터링 평가 이후에 수행된 여러번의 클러스터링 결과들을 이용하여 수행될 수 있을 것이다. 각각의 클러스터가 평가되는 방식에 대하여 도 7을 참조하여 상술한다.

도 7에 도시된 바와 같이, 하나 이상의 평가 메트릭(assessment metric)이 연산된다. 도 7에는 예시적인 6가지의 메트릭이 순차적으로 연산되는 것으로 도시되어 있으나, 그 연산의 순서가 도 7에 도시된 것으로 한정될 필요는 없으며, 6가지의 메트릭 중 일부만이 연산될 수도 있고, 도 7에 도시된 것 이외의 추가 메트릭이 본 게시에 따른 클러스터 평가의 취지에 따라 연산되고 평가에 반영될 수도 있을 것이다.

아래의 각 메트릭을 연산함에 있어서, 각 소스 데이터 별로 서로 다른 가중치가 적용될 수 있음을 유의한다. 제1 실시예에서, 도 27에 도시된 바와 같이 각 소스 데이터 타입 별 가중치(2004)가 지정될 수 있다. 제2 실시예에서, 도 28에 도시된 바와 같이 소스 데이터가 수집된 사용자 단말의 디렉토리 별 가중치(2008)가 지정될 수도 있다. 제3 실시예에서, 도 29에 도시된 바와 같이 소스 데이터가 수집된 웹 서버 별 가중치(2010)가 지정될 수도 있다. 아래에서 각각의 메트릭에 대하여 설명한다.

클러스터 크기(A)의 연산이 수행된다(S301). 클러스터 크기(A)는 클러스터에 속한 소스 데이터의 개수일 수 있다. 특정 클러스터에 속한 소스 데이터가 많을수록 해당 클러스터의 중요도가 높은 것으로 평가 될 수 있을 것이다. 클러스터에 속한 소스 데이터가 많다는 것은, 그만큼 그 클러스터에 대하여 언급하고 있는 문헌이 많다는 것을 의미하기 때문이다.

몇몇 실시예에서, 클러스터 크기(A)는 클러스터에 속한 소스 데이터의 개수와, 특징 공간(feature space) 상의 클러스터의 크기를 모두 반영하도록 연산될 수도 있을 것이다. 특정 클러스터에 속한 소스 데이터가 많고, 클러스터의 특징 공간 상 넓이가 넓을 수록 해당 클러스터의 중요도가 높은 것으로 볼 수 있을 것이다. 클러스터에 속한 소스 데이터가 많고 특징 공간에서 그 클러스터가 넓은 영역을 차지하고 있다는 것은, 그만큼 그 클러스터에 대하여 언급하고 있는 문헌이 많으며, 논의되는 내용도 풍부하다는 것을 의미하기 때문이다.

클러스터 분산도(B)의 연산이 수행된다(S302). 상기 클러스터 분산도(B)는 특징 공간(feature space) 상의 클러스터의 크기를 가리키는 값일 수 있다. 클러스터의 특징 공간 상 넓이가 넓을 수록 해당 클러스터의 중요도가 높은 것으로 평가 될 수 있을 것이다. 특징 공간에서 클러스터가 넓은 영역을 차지하고 있다는 것은, 그만큼 그 클러스터에서 논의되는 내용도 풍부하다는 것을 의미하기 때문이다.

클러스터 긍/부정 통계량(C)의 연산이 수행된다(S303). 클러스터 긍/부정 통계량(C)은 클러스터에 속한 각각의 소스 데이터의 토큰에 대하여 감정 분석(sentiment analysis)을 수행한 결과 얻어진 각 소스 데이터의 긍/부정 스코어를 합산한 것으로 이해될 수 있을 것이다. 클러스터 긍/부정 통계량(C)이 높은 긍정도를 가리킬 수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터에 속한 소스 데이터들의 내용이 긍정적이라는 것은, 해당 클러스터가 포괄적으로 가리키고 있는 주제 역시 긍정적으로 평가되고 있는 것을 의미하기 때문이다.

클러스터 소스 데이터 타입의 다양성(D)의 연산이 수행된다(S304). 클러스터 소스 데이터 타입의 다양성(D)은, 예를 들어 해당 클러스터에 속한 소스 데이터의 타입 분산 값을 의미할 수 있을 것이다. 클러스터 소스 데이터 타입의 다양성(D)이 클수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터의 소스 데이터 타입이 다양하다는 것은, 해당 클러스터가 포괄적으로 가리키고 있는 주제에 대하여 특허, 뉴스, SNS 등 다양한 형식의 문서들이 공개되고 있다는 뜻이기 때문이다.

클러스터의 소스 데이터 별 스코어 합산치(E)의 연산이 수행된다(S305). 클러스터의 소스 데이터 별 스코어 합산치(E)는, 해당 클러스터에 포함된 각 소스 데이터의 스코어를 상기 소스 데이터의 타입에 따른 스코어 연산 규칙에 따라 연산하고, 상기 클러스터에 포함된 각 소스 데이터의 스코어를 합산하는 것에 의하여 연산될 수 있다.

상기 스코어 연산 규칙은 소스 데이터 타입 별로 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌의 스코어 연산 규칙은, 패밀리 특허가 많을수록, 도면이 많을수록, 상세한 설명의 길이가 길수록, 청구항이 많을수록, 독립 청구항이 많을수록, 피인용 건수가 많을수록 더 높은 스코어가 연산 되게 정의될 수 있다. 또한, 뉴스 문헌의 스코어 연산 규칙은, 조회 수가 많을수록, 댓글 건수가 많을수록, 긍정도 점수가 높을수록 더 높은 스코어가 연산 되게 정의될 수 있을 것이다.

클러스터의 소스 데이터 별 스코어 합산치(E)가 높을수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터의 소스 데이터 별 스코어 합산치(E)는 특정 클러스터에 소속된 소스 데이터의 양적인 측면 뿐만 아니라 질적인 측면까지도 고려하여 클러스터 평가가 이뤄지게 하는 효과를 제공할 수 있다.

클러스터의 소스 데이터 관련 주체의 다양성(F)의 연산이 수행된다(S306). 클러스터의 소스 데이터 관련 주체의 다양성(F)은, 상기 클러스터에 포함된 각 소스 데이터의 관련 주체를 상기 소스 데이터의 타입에 따른 관련 주체 추출 규칙에 따라 결정하고, 상기 클러스터에 포함된 각 소스 데이터 관련 주체의 다양성 지표를 연산하는 것에 의하여 연산될 수 있다.

상기 주체 추출 규칙은 소스 데이터 타입 별로 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌의 주체 추출 규칙은 출원인을 해당 소스 데이터의 주체로 결정하는 것으로 정의될 수 있을 것이다. 또한, 뉴스 문헌의 주체 추출 규칙은 개체명 인식(NER; Named-Entity Recognition) 기술을 이용하여 뉴스 문헌에서 추출된 자산 명칭 중에서 상위의 일부 자산 명칭을 해당 소스 데이터의 주체로 결정하는 것으로 정의될 수 있을 것이다.

클러스터의 소스 데이터 관련 주체의 다양성(F)이 높을 수록 해당 클러스터의 중요도가 높은 것으로 평가될 수 있을 것이다. 클러스터의 소스 데이터 관련 주체가 다양하다는 것은, 해당 클러스터가 포괄적으로 가리키고 있는 주제에 대하여, 다양한 주체들이 관련 문서들을 공개하고 있거나, 다양한 주체들에 의한 활동이 공개되고 있다는 뜻이기 때문이다.

클러스터 평가에 필요한 메트릭의 연산이 마무리되면, 단계 S307에서 하나 이상의 메트릭을 이용하여 평가 스코어 또는 평가 등급이 연산된다. 또한, 각 클러스터에 대한 메트릭 연산 및 그에 기반한 평가 스코어 또는 평가 등급의 연산은 각각의 클러스터에 대하여 반복하여 수행될 것이다(S308, S309).

다시 도 5로 돌아와서 설명한다. 단계 S400에서, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부가 선정된다. 이 때, 각 클러스터에 부여된 평가 스코어 또는 평가 등급을 기준으로 상위의 클러스터가 선정될 수 있다. 선정되는 클러스터의 개수는 기 지정된 고정 개수이거나, 클러스터의 전체 개수 중 기 지정된 비율에 대응되는 개수일 수 있다.

단계 S500에서, 상기 선정된 클러스터에 대응되는 토픽(topic)이 결정된다. 선정된 클러스터에 대응되는 토픽이 결정되는 방법에 대하여는 도 20을 참조하여 상세히 후술하기로 한다.

클러스터의 시간적 변화를 반영한 토픽의 자동 결정

지금까지 도 5 내지 도 7을 참조한 설명에서, 수집되어 축적된 소스 데이터에 대하여 클러스터링이 수행되고, 각각의 클러스터에 대한 평가의 결과를 이용하여 일부의 클러스터가 선정되며, 선정된 클러스터에 대응되는 토픽이 결정되는 과정이 게시되었다.

몇몇 실시예에서, 각각의 클러스터에 대한 평가는 시간적 변화에 대한 평가를 포함할 수 있다. 상기 시간적 변화에 대한 평가는 각 클러스터가 과거의 클러스터링 결과 대비 시간적으로 어떻게 변화하였는지를 평가하는 것으로 이해될 수 있을 것이다. 본 실시예에서는, 당해 클러스터링에서 절대적인 평가 스코어가 높지 않더라도 성장세가 두드러지는 클러스터의 토픽이 출력될 수 있을 것이다.

토픽을 자동 결정하는 정보 처리 방법이 투자 유니버스를 자동 생성하는 방법에 적용되는 경우, 투자 유니버스 자동 결정 환경 설정 화면에서 성장 토픽 관련 자산을 우선 편입하는 옵션이 선택되면 클러스터에 대한 평가에 시간적 변화에 대한 평가가 포함될 것이다. 반면에, 투자 유니버스 자동 결정 환경 설정 화면에서 우세 토픽 관련 자산을 우선 편입하는 옵션이 선택되면 클러스터에 대한 평가에 시간적 변화에 대한 평가가 포함되지 않거나, 시간적 변화에 대한 평가가 포함되더라도 그 가중치가 낮게 조정될 것이다. 도 27 내지 도 29에 도시된 편입 자산의 타입을 선택하는 옵션(2006)을 참조한다.

이하, 도 8 내지 도 19를 참조하여 클러스터의 시간적 변화 평가를 포함하는 정보 처리 방법을 설명하기로 한다. 도 5 내지 도 7을 참조하여 설명된 실시예를 통하여 이해될 수 있는 기술적 사상은, 특별한 언급이 없더라도 본 실시예에 따른 정보 처리 방법에 당연히 적용될 수 있다. 먼저 도 8을 참조하여 설명한다.

단계 S100 및 S160에서, 소스 데이터의 주기적인 수집 및 수집된 소스 데이터의 축적이 수행된다.

클러스터링 주기가 완성되면(S150), 축적된 소스 데이터에 대한 클러스터링이 수행된다(S200). 클러스터링의 수행 결과는 추후 클러스터 평가에서 참조될 수 있도록 기 지정된 형식으로 가공된 후 저장될 수 있을 것이다(S260). 상기 클러스터링의 수행 결과는 각 클러스터 별 소송 소스 데이터의 식별 정보, 각 클러스터 별 특징 공간 상 형성 위치 및 소속 소스 데이터의 특징 공간 상 위치 정보를 포함할 수 있다.

클러스터 평가 주기가 완성되면(S250), 최근 수행된 클러스터링의 결과로 형성된 각각의 클러스터 별로 시간적 변화 평가가 수행된다(S310).

시간적 변화 평가의 수행 결과 긍정적인 시간적 변화를 보이는 일부의 클러스터가 선정될 것이다(S410). 이 때, 긍정적 시간적 변화의 크기가 큰 순으로 상위의 기 설정 개수 또는 기 설정 비율의 클러스터가 선정될 수 있다. 상기 시간적 변화의 크기는, 도 7을 참조하여 설명한 평가 메트릭이 기준이 될 수 있다.

예를 들어, 최근 수행된 클러스터링의 결과로 형성된 제1 클러스터의 상기 평가 메트릭에서, 과거의 클러스터링의 결과로 형성되고 상기 제1 클러스터와 동일성이 있는 것으로 평가된 제2 클러스터의 상기 평가 메트릭을 차감한 결과가 상기 시간적 변화의 크기인 것으로 이해될 수 있을 것이다. 상기 차감한 결과가 양의 값이고 그 값이 클수록, 긍정적인 시간적 변화를 보이는 것으로 평가될 것이다.

다음으로, 상기 선정된 클러스터에 대응되는 토픽이 결정되고, 상기 결정된 토픽에 대한 정보가 출력될 수 있다(S500). 상술한 바와 같이 이 때 출력되는 토픽은 성장성이 컸던 토픽을 가리키는 것으로, 예를 들어 성장성이 큰 투자 자산을 자동 결정하기 위해 활용될 수 있을 것이다.

도 8을 참조하여 설명한 정보 처리 방법에 따르면, 소스 데이터를 수집하는 것은, 기 지정된 소스 데이터 수집 주기 마다 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 것을 포함하고, 수집된 소스 데이터를 클러스터링 하는 것은, 기 지정된 클러스터링 주기 마다 상기 축적된 소스 데이터를 클러스터링 하는 것으로 이해될 수 있을 것이다. 이 때, 상기 클러스터링 주기는 상기 소스 데이터 수집 주기 보다 긴 것일 수 있다.

도 9를 참조하여, 시간적 변화 평가의 수행 과정(S310)을 보다 자세히 설명한다.

단계 S3100에서, 과거의 각 클러스터링 주기 별 클러스터링 결과 데이터가 로딩된다. 이 때 로딩 되는 클러스터링 결과 데이터의 건수는 사전 설정될 수 있다. 예를 들어, 직전 2회의 클러스터링 결과 데이터를 참조하여 시간적 변화 평가가 수행되는 것으로 설정될 수 있을 것이다. 예를 들어, 매주 클러스터링이 수행되는 설정 상황에서, 마지막 클러스터링이 8월 셋째주라면, 8월 첫째주의 클러스터링 결과 데이터와 8월 둘째주의 클러스터링 결과 데이터가 로딩될 수 있을 것이다.

단계 S3102에서, 최근 클러스터링의 결과로 형성된 각 클러스터와 대응되는 과거 클러스터가 식별된다. 즉, 최근 클러스터링의 결과로 형성된 각 클러스터와 실질적으로 동일한 과거 클러스터 사이의 동일성 매칭이 수행된다.

각각의 클러스터링의 결과로 형성되는 클러스터에는 다른 회차에도 그대로 통용될 수 있는 고유의 식별자가 부여되기 어려우므로, 상기 동일성 매칭은 특징 공간 상에서 매칭 대상인 2개의 클러스터(평가 대상인 최근의 클러스터, 비교 대상인 과거의 클러스터)가 얼마나 유사한지를 평가하는 것에 의하여 수행된다. 이하, 동일성 매칭의 기준 관련하여 제5 내지 제9 실시예를 설명한다.

제5 실시예에서, 각 클러스터의 특징 공간 상 대표점의 유클리드 거리(Euclidean distance)를 기준으로 상기 동일성 매칭이 수행될 수 있다. 예를 들어, 평가 대상인 제1 클러스터의 대표점과 과거 클러스터링의 결과 형성된 각각의 과거 클러스터의 대표점 사이의 유클리드 거리들이 연산되고, 가장 짧은 유클리드 거리를 보이는 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.

제5-1 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 거리 중심점일 수 있다. 도 10 내지 도 12를 참조하여 자세히 설명한다. 도 10은 2020년 8월 첫째주 클러스터링 결과(3110)이고, 그 결과 3개의 클러스터(3111, 3112, 3113)가 특징 공간 상에서 형성된다. 도 11은 평가 대상인 2020년 8월 둘째주의 클러스터링 결과(3120)를 도시한다. 클러스터링 결과 3개의 클러스터(3121, 3122, 3123)가 특징 공간 상에서 형성된다.

도 12는 평가 대상 클러스터의 대표점과 과거 클러스터링의 클러스터의 대표점 사이의 유클리드 거리들을 도시한다. 이해를 돕기 위해 가장 인접한 3개의 유클리드 거리들(d1, d2, d3) 만이 도시되어 있다. 평가 대상 클러스터(3121)와 가장 짧은 유클리드 거리(d1)를 보이는 과거 클러스터(3111)가 동일성 매칭되고, 평가 대상 클러스터(3122)와 가장 짧은 유클리드 거리(d2)를 보이는 과거 클러스터(3112)가 동일성 매칭되며, 평가 대상 클러스터(3123)와 가장 짧은 유클리드 거리(d1)를 보이는 과거 클러스터(3113)가 동일성 매칭될 것이다.

제5-2 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 무게 중심점일 수도 있다. 상기 무게 중심점은 각각의 소스 데이터의 특징 공간상 분포를 고려하는 중심점인 것으로 이해될 수 있을 것이다. 상기 무게 중심점을 연산함에 있어서, 각각의 소스 데이터가 동일한 무게를 가지는 것으로 처리될 수도 있고, 도 7의 단계 S305에서 설명한 소스 데이터 별 스코어만큼의 무게를 가지는 것으로 처리될 수도 있을 것이다.

제5 실시예에 따르면, 클러스터링의 결과와 관계없이, 평가 대상 클러스터와 과거 클러스터링의 클러스터 사이의 객관적인 유사도가 추출되는 효과를 얻는다. 제5 실시예는, 동일성이 인정되어야 하는 과거와 현재의 클러스터라면 특징 공간 상에서 그 대표점의 이동이 크지 않을 것인 점에 기인한 실시예이다.

제6 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 크기를 기준으로 상기 동일성 매칭이 수행될 수 있다. 즉, 평가 대상인 제1 클러스터와 과거 클러스터링의 결과 형성된 각각의 과거 클러스터가 서로 겹치는 영역의 크기가 연산되고, 겹치는 영역이 가장 큰 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.

제7 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 소스 데이터 개수를 기준으로 상기 동일성 매칭이 수행될 수도 있다. 즉, 평가 대상인 제1 클러스터와 과거 클러스터링의 결과 형성된 각각의 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 개수가 가장 많은 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.

제8 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역에 위치한 소스 데이터의 스코어(도 7의 단계 S305 참조)의 합산치를 기준으로 상기 동일성 매칭이 수행될 수도 있다. 즉, 평가 대상인 제1 클러스터와 과거 클러스터링의 결과 형성된 각각의 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 스코어 합산치가 가장 큰 과거 클러스터가 상기 제1 클러스터의 동일성 매칭 클러스터로 결정될 수 있다.

상술한 제5 내지 제8 실시예는, 특징 공간 상에서 매칭 대상인 2개의 클러스터(평가 대상인 최근의 클러스터, 비교 대상인 과거의 클러스터)가 얼마나 유사한지를 평가함으로써, 평가 대상인 최근의 클러스터와 동일한 것으로 추정되는 과거의 클러스터를 찾는 방법을 제시한다. 제5 내지 제8 실시예는 각각의 클러스터링의 결과로 형성되는 클러스터에는 다른 회차에도 그대로 통용될 수 있는 고유의 식별자가 부여되기 어려운 점으로 인하여 필요한 것인데, 본 게시의 다른 몇몇 실시예에서는 클러스터링 결과에 따라 형성되는 각각의 클러스터에 대하여 클러스터에 대응되는 토픽을 결정하고, 이렇게 결정된 토픽을 상기 클러스터의 식별자로서 활용함으로써, 평가 대상 클러스터와 동일한 과거의 클러스터를 정확하게 찾아낼 수 있다. 이러한 실시예에 대하여 도 13 내지 도 19를 참조하여 설명한다.

도 5 내지 도 7을 참조하여 설명된 실시예를 통하여 이해될 수 있는 기술적 사상은, 특별한 언급이 없더라도 도 13 내지 도 19를 참조한 본 실시예에 따른 정보 처리 방법에 당연히 적용될 수 있다. 먼저 도 13을 참조하여 설명한다.

클러스터링 주기가 완성되면(S150), 축적된 소스 데이터에 대한 클러스터링이 수행된다(S200). 클러스터링의 수행 결과는 추후 클러스터 평가에서 참조될 수 있도록 기 지정된 형식으로 가공된 후 저장될 수 있을 것이다(S260-1). 도 13에 도시된 실시예에서는, 도 8에 도시된 실시예와는 달리 상기 클러스터링의 수행 결과에 각 클러스터 별 소송 소스 데이터의 식별 정보, 각 클러스터 별 특징 공간 상 형성 위치 및 소속 소스 데이터의 특징 공간 상 위치 정보뿐만 아니라, 각 클러스터 별 토픽 정보가 더 포함될 수 있다. 상기 토픽 정보는 하나 이상의 키워드 셋에 대한 정보를 가리킨다. 몇몇 실시예에서, 상기 토픽 정보가 복수의 키워드의 셋인 경우, 상기 토픽 정보는 각 키워드 별 가중치 정보를 더 포함할 수 있다.

상술한 바와 같이, 클러스터링의 결과가 저장될 때 각 클러스터의 토픽 정보도 포함되어야 하므로, 소스 데이터에 대한 클러스터링(S200)이 수행되면 곧 이어 각각의 클러스터에 대응되는 토픽이 결정되는 것이다(S500-1). 클러스터에 대응되는 토픽이 결정되는 과정에 대하여는 도 20을 참조하여 상세히 후술할 것이다.

클러스터 평가 주기가 완성되면(S250), 최근 수행된 클러스터링의 결과로 형성된 각각의 클러스터 별로 시간적 변화 평가가 수행된다(S320). 관련하여 도 14 내지 도 19를 참조하여 설명한다.

상술한 바와 같이, 토픽을 클러스터의 식별자로서 활용함으로써, 평가 대상 클러스터와 동일한 과거의 클러스터를 정확하게 찾아낼 수 있는 바, 평가 대상 클러스터와 과거의 클러스터 간 동일성 매칭은 각 클러스터의 토픽 간 동일성을 판정하는 것으로 간소화될 수 있다.

토픽 간 동일성을 판정하는 것은, 토픽을 구성하는 키워드 셋의 일치 비율이 높을 수록 토픽 간 동일성이 높은 것으로 판정하는 것을 포함할 수 있다. 상기 키워드 셋의 일치 비율은 토픽의 각 키워드 별 가중치를 고려하여 연산 될 수 있다. 예를 들어, 평가 대상 클러스터의 제1 토픽과 과거 클러스터의 제2 토픽 모두 2개의 키워드 셋으로 구성되는 경우, 2개의 키워드 중 하나만 일치하더라도 높은 가중치를 가지는 키워드가 일치하는 것이 토픽 간 동일성이 높은 것으로 판정될 것이다.

도 14는 2020년 8월 셋째 주의 클러스터링 결과(3130)로서 3개의 클러스터(3131, 3132, 3133)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 15는 2020년 8월 넷째 주의 클러스터링 결과(3140)로서 3개의 클러스터(3141, 3142, 3143)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 16은 2020년 8월 넷째 주의 클러스터링 결과(3140)를 2020년 8월 셋째 주의 클러스터링 결과와 대비하여 도시한다.

단계 S320에서 시간적 변화 평가가 수행됨에 있어, 몇몇 실시예들이 제시된다. 이와 관련하여, 제9 실시예 내지 제 13 실시예를 설명한다.

제9 실시예에서, 각 클러스터의 특징 공간 상 대표점의 유클리드 거리(Euclidean distance)를 기준으로 상기 시간적 변화 평가가 수행될 수 있다. 도 16에 도시된 상황에서, 토픽 AI의 클러스터의 대표점이 1주일 사이에 가장 멀리 이동한 것을 알 수 있다. 이 경우, 2020년 8월 넷째주에 가장 변화가 큰 토픽은 AI인 것으로 결정될 수 있을 것이다.

제9-1 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 거리 중심점일 수 있다.

제9-2 실시예에서, 상기 클러스터의 대표점은 클러스터 영역의 무게 중심점일 수도 있다. 상기 무게 중심점은 각각의 소스 데이터의 특징 공간상 분포를 고려하는 중심점인 것으로 이해될 수 있을 것이다. 상기 무게 중심점을 연산함에 있어서, 각각의 소스 데이터가 동일한 무게를 가지는 것으로 처리될 수도 있고, 도 7의 단계 S305에서 설명한 소스 데이터 별 스코어만큼의 무게를 가지는 것으로 처리될 수도 있을 것이다.

제10 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 크기를 기준으로 상기 시간적 변화 평가가 수행될 수 있다. 즉, 특정 토픽의 평가 대상 클러스터와 과거 클러스터가 서로 겹치는 영역의 크기가 연산되고, 겹치는 영역이 작을수록 시간적 변화가 큰 것으로 평가될 수 있는 것이다.

도 17 내지 도 19를 참조하여 제10 실시예를 설명한다.

도 17은 2020년 9월 첫째 주의 클러스터링 결과(3150)로서 3개의 클러스터(3151, 3152, 3153)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 18은 2020년 9월 둘째 주의 클러스터링 결과(3160)로서 3개의 클러스터(3161, 3162, 3163)가 형성되고, 각 클러스터의 토픽은 AI, VR, IoT로 각각 결정된 것을 도시한다. 도 19는 2020년 9월 둘째 주의 클러스터링 결과(3160)를 2020년 9월 첫째 주의 클러스터링 결과와 대비하여 도시한다.

도 19에 도시된 바와 같이, 특징 공간 상에서 2020년 9월 둘째 주의 클러스터링 결과에 따른 클러스터와, 2020년 9월 첫째 주의 클러스터링 결과에 따른 클러스터 사이에 겹치는 영역이 가장 작은 토픽은 AI인 것을 알 수 있다. 따라서, 이 경우 시간적 변화가 가장 큰 토픽은 AI로 결정될 수 있을 것이다.

제11 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역의 소스 데이터 개수를 기준으로 상기 시간적 변화 평가가 수행될 수도 있다. 즉, 특정 토픽의 평가 대상 클러스터와 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 개수가 연산되고, 서로 겹치는 영역에 위치한 소스 데이터의 개수가 적을수록 시간적 변화가 큰 것으로 평가될 수 있는 것이다.

제12 실시예에서, 평가 대상 클러스터와 과거 클러스터링의 클러스터가 겹치는 영역에 위치한 소스 데이터의 스코어(도 7의 단계 S305 참조)의 합산치를 기준으로 상기 시간적 변화 평가가 수행될 수도 있다. 즉, 특정 토픽의 평가 대상 클러스터와 과거 클러스터가 서로 겹치는 영역에 위치한 소스 데이터의 스코어 합산치가 연산되고, 연산된 합산치가 작을수록 시간적 변화가 큰 것으로 평가될 수 있는 것이다.

제13 실시예에서, 도 7을 참조하여 설명한 평가 메트릭을 기준으로 하여 상기 시간적 변화 평가가 수행될 수도 있다. 예를 들어, 최근 수행된 클러스터링의 결과로 형성된 제1 토픽의 제1 클러스터의 평가 메트릭에서, 과거의 클러스터링의 결과로 형성되고 상기 제1 토픽의 제2 클러스터의 평가 메트릭을 차감한 결과가 상기 시간적 변화의 크기인 것으로 이해될 수 있을 것이다.

다시 도 13으로 돌아와 설명한다. 단계 S420에서, 시간적 변화 평가의 수행 결과 큰 시간적 변화를 보이는 일부의 클러스터가 선정된다. 이 때, 시간적 변화의 크기가 큰 순으로 상위의 기 설정 개수 또는 기 설정 비율의 클러스터가 선정될 수 있다. 상기 차감한 결과가 양의 값이고 그 값이 클수록, 긍정적인 시간적 변화를 보이는 것으로 평가될 것이다.

도 13 내지 도 19를 참조하여 설명한 실시예에 따르면, 토픽을 기준으로 현재와 과거의 클러스터가 정확하게 연결될 수 있는 점을 이용하여 시간적 변화가 큰 토픽을 찾아낼 수 있는 효과를 얻는다. 요컨대, 도 8 내지 도 12를 참조하여 설명한 실시예에서는 긍정적인 방향의 시간적 변화를 가지는 성장형 클러스터를 선정하고, 선정된 클러스터의 토픽을 성장형 토픽으로 자동 선정할 수 있었다면, 도 13 내지 도 19를 참조하여 설명한 실시예는 변화가 큰 토픽을 자동 선정할 수 있는 것이다.

다음으로, 상기 선정된 클러스터를 가지는 토픽에 대한 정보가 출력될 것이다(S420). 상술한 바와 같이 이 때 출력되는 토픽은 변동성이 컸던 토픽을 가리키는 것으로, 예를 들어 변동성이 큰 투자 자산을 자동 결정하기 위해 활용될 수 있을 것이다.

이하, 도 20을 참조하여, 도 5, 도 8 또는 도 13을 참조하여 설명한 클러스터 대응 토픽의 결정 관련 동작을 상세하게 설명한다. 도 20에 도시된 동작은 도 5의 S500 단계와 도 8의 S500 단계에 대응되는 것으로 이해될 수 있을 것이다. 또한, 도 13의 S500-1 단계는 도 20을 참조하여 설명될 S500 단계를 클러스터링 결과 형성된 모든 클러스터들을 대상으로 반복 수행하는 것으로 이해될 수 있을 것이다.

단계 S5000에서, 클러스터에 속한 각 소스 데이터가 토큰화 된다. 상기 토큰화의 과정은 도 6을 참조하여 설명한 동작이 동일하게 적용될 수 있다.

단계 S5002에서, 토큰화의 결과 얻어진 클러스터 내 전체 토큰 중 일부가 주요 키워드로서 추출된다. 이 때, 토큰 각각에 대하여 산출된 중요도가 상기 주요 키워드의 추출 기준일 수 있다. 토큰 각각의 중요도가 산출될 때 TF-IDF, LDA 등의 키워드 가중치 연산 알고리즘이 이용될 수 있다. 예를 들어, 토큰의 중요도를 기준으로 기 지정된 개수의 상위 토큰이 상기 주요 키워드로서 추출되거나, 기 지정된 비율에 대응되는 개수의 상위 토큰이 상기 주요 키워드로서 추출될 수 있을 것이다.

몇몇 실시예에서는 단계 S5002의 수행 결과 추출된 주요 키워드의 셋이 토픽으로서 결정될 수 있다. 한편 다른 몇몇 실시예에서는 단계 S5002의 수행 결과 추출된 주요 키워드 셋에 대하여 추가 동작이 수행되고, 그 결과를 이용하여 클러스터의 최종 토픽이 결정될 수도 있다. 따라서, 단계 S5002의 수행 이후에 추가적으로 수행될 수 있는 동작들을 설명하기로 한다.

단계 S5004에서, 과거의 클러스터링 결과를 이용하여 상기 주요 키워드 각각의 중요도가 조정될 수 있다. 토픽 결정의 대상인 제1 클러스터와 동일성 매칭된 과거의 제2 클러스터의 토픽을 참고하여 상기 주요 키워드 각각의 중요도가 조정될 수 있을 것이다.

예를 들어, 상기 제1 클러스터의 주요 키워드 중에서 상기 제2 클러스터의 토픽에 포함되었던 주요 키워드는 그 중요도가 상향 조정될 수 있다. 과거의 클러스터링 결과에 따른 제2 클러스터와 최근의 클러스터링 결과에 따른 제1 클러스터가 서로 동일성이 인정되는 것이라면, 제2 클러스터의 토픽과 제1 클러스터의 토픽 역시 서로 동일성이 인정될 가능성이 높은 것으로 볼 수 있을 것이다. 따라서, 이러한 점을 고려하여, 상술한 바와 같이 주요 키워드 각각의 중요도가 조정되는 것으로 이해될 수 있을 것이다. 물론, 이러한 방식에 따르더라도 토픽 결정 대상인 클러스터에서 새롭게 등장하는 토큰의 중요도가 매우 높게 연산 된다면, 그 토큰은 상술한 중요도 조정에도 불구하고 토픽의 키워드 셋에 포함되게 될 것이다.

몇몇 실시예에서는 단계 S5004의 수행 결과 추출된 주요 키워드의 셋이 토픽으로서 결정될 수 있다. 즉, 조정된 중요도를 기준으로 기 지정된 개수의 상위 주요 키워드가 토픽의 키워드 셋에 포함되거나, 기 지정된 비율에 대응되는 개수의 상위 토큰이 토픽의 키워드 셋에 포함될 수 있을 것이다.

다른 몇몇 실시예에서는 추가 동작이 더 수행되고 더 수행되는 추가 동작의 그 결과가 토픽으로서 최종 결정될 수도 있는 바, 아래에서 더 수행되는 추가 동작에 대하여 설명한다.

단계 S5006에서, 상기 주요 키워드 각각의 상호 유사도가 연산되고, 상호 유사도가 낮은 주요 키워드 중 중요도가 낮은 주요 키워드는 노이즈 필터링 될 수 있다. 단계 S5006은, 상호 연관 관계가 높지 않은 키워드들이 하나의 클러스터의 토픽으로서 제시되는 것을 방지하기 위한 동작으로 이해될 수 있을 것이다.

제1 주요 키워드와 제2 주요 키워드 사이의 상호 유사도가 연산되는 예시적인 방식을 설명한다. 토픽 결정 대상인 클러스터의 모든 소스 데이터들에서 상기 제1 주요 키워드와 상기 제2 주요 키워드 사이의 상호 연관 관계가 표현된 횟수가 높을수록 상기 상호 유사도가 높게 연산될 수 있다. 예를 들어, 토픽 결정 대상인 클러스터에 소속된 어떤 특허 문헌에 '제1 주요 키워드와 제2 주요 키워드는 인과 관계가 있는 것으로 볼 수 있다'는 문장이 포함된 경우, 상기 제1 주요 키워드와 상기 제2 키워드 사이의 상호 연관 관계가 1회 표현된 것으로 볼 수 있을 것이다.

단계 S5008에서는, 단계 S5006의 노이즈 필터링을 통과한 주요 키워드들 중에서 중요도를 기준으로 기 지정된 개수의 상위 주요 키워드가 토픽의 키워드 셋에 포함되거나, 기 지정된 비율에 대응되는 개수의 상위 토큰이 토픽의 키워드 셋에 포함될 수 있다.

도 20을 참조하여 설명된 토픽 결정 동작에서, 토픽을 구성하는 주요 키워드는 고정된 개수를 가지거나, 클러스터의 전체 토큰 개수에 비례하는 개수를 가지거나, 클러스터의 크기에 비례하는 개수를 가질 수 있다. 상기 클러스터의 크기는 도 7의 S301을 참조하여 설명한 평가 메트릭을 의미하는 것으로 이해될 수 있을 것이다.

토픽을 구성하는 주요 키워드가 고정된 개수를 가지는 경우, 토픽 정보를 이용하는 후속의 정보 처리 동작의 연산 부하가 감소하는 효과를 얻을 수 있다. 토픽을 구성하는 주요 키워드가 클러스터의 전체 토큰 개수에 비례하는 개수를 가지는 경우, 클러스터에 다양한 대상이 언급되고 있는 상황을 최대한 반영하여 중요하게 언급되고 있는 다양한 대상으로 최대한 토픽으로서 현출하는 효과를 얻을 수 있다. 토픽을 구성하는 주요 키워드가 클러스터의 크기에 비례하는 개수를 가지는 경우, 클러스터에 다양한 소스 데이터가 포함된 상황을 최대한 반영하여 많은 정보량을 최대한 현출하는 효과를 얻을 수 있다.

투자 유니버스의 자동 결정

지금까지 도 5 내지 도 20을 참조하여, 수집된 소스 데이터에 대한 분석을 통해 최근 수집된 소스 데이터들이 표현하는 토픽을 자동 결정하는 방법들을 설명하였다. 이렇게 자동으로 결정된 토픽은 다양한 후속 정보 처리 방법에 입력됨으로써, 가치 있는 후속 정보의 현출을 도울 수 있을 것이다. 그 중 일예로, 상기 토픽에 대응하는 자산을 자동으로 결정하고, 이를 통해 투자 유니버스의 자동 생성이 가능하다. 이하, 도 21 내지 도 29를 참조하여 투자 유니버스의 자동 결정 방법을 설명한다.

도 21은 도 5, 도 8 또는 도 13의 방법을 통하여 결정된 토픽을 이용하여 투자 유니버스를 자동으로 생성하는 방법의 순서도이다.

단계 S600에서, 결정된 토픽에 대응되는 자산이 결정된다. 이 때, 상기 결정된 자산의 중요도가 함께 결정될 수 있다. 상기 자산의 중요도는 토픽의 기반이 된 클러스터의 평가 스코어 또는 평가 등급에 기반하여 결정될 수 있다. 즉, 클러스터의 평가 스코어 또는 등급이 높을수록 그 클러스터의 토픽에 대응된 자산의 중요도도 높게 결정되며, 중요도가 높게 결정된 자산은 투자 유니버스 내에서도 비중이 높게 결정될 수 있는 것이다.

토픽에 대응되는 자산이 결정되는 과정에 대하여 도 22를 참조하여 보다 자세히 설명한다.

단계 S6000에서, 토픽의 유사 키워드들이 결정된다. 상기 유사 키워드는 사전 데이터에서 획득된 유의어, Word2Vec 알고리즘을 이용하여 획득된 유사 의미의 키워드 등을 포함할 수 있다.

단계 S6002에서, 상기 토픽에 포함된 키워드 셋 및 상기 유사 키워드들을 모두 포함하는 키워드 셋이 구성된다.

단계 S6004에서, 상기 키워드 셋을 이용하여 토픽에 대응되는 자산이 조회된다. 토픽에 속한 주요 키워드 셋 및 그 유사 키워드들을 모두 이용하여 토픽에 대응되는 자산이 결정되므로, 토픽에 대응되는 소수의 자산이 정확하게 결정될 수 있을 것이다.

토픽에 대응되는 자산이 결정되는 과정과 관련하여, 도 22를 참조한 설명 이외에도 본 출원인에 의하여 출원된 한국특허공개공보 제2020-0065736호의 기재가 참조될 수 있을 것이다.

다시 도 21으로 돌아와서 설명한다. 단계 S700에서, 기존의 투자 유니버스에 편입된 자산과 단계 S600에서 결정된 자산을 이용하여 투자 유니버스가 자동 생성된다. 상기 투자 유니버스에 대한 정보는 각각의 자산에 대한 식별 정보 및 그 비중을 포함할 수 있다.

상술한 바와 같이, 새로운 토픽의 결정은 주기적으로 반복하여 수행될 수 있고, 새로운 토픽의 결정에 따른 자산의 투자 유니버스 편입 결정 또한 반복될 수 있다. 따라서, 투자 유니버스에 편입된 자산은 그 자산에 대응되는 토픽이 지속적으로 발생하고 그에 따라 지속적으로 편입 결정이 이뤄지지 않는 이상, 투자 유니버스에서 제외되어야 할 것이다. 이를 위해, 투자 유니버스에 편입된 자산의 비중에는 에이징(aging) 개념이 적용될 수 있다. 즉, 투자 유니버스에 포함된 자산의 비중은 시간의 흐름에 따라 자동으로 감소될 수 있다. 그리고, 기준치 미만의 비중을 가지는 자산은 투자 유니버스에서 자동 제외될 수 있다.

본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법을 도 23을 참조하여 설명한다. 본 실시예에 따른 방법 역시 컴퓨팅 장치에 의하여 수행될 수 있으며, 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치에 의하여 일부 동작이 나뉘어 수행될 수 있다. 또한, 상술한 실시예들에서 설명된 기술적 사상은 당연히 본 실시예에도 적용될 수 있다.

본 실시예에 따른 방법은 소스 데이터를 수집하고(S100), 수집된 소스 데이터를 클러스터링 하며(S200), 클러스터링 결과에 따른 각 클러스터에 대한 평가를 수행하고(S300), 평가의 결과에 기반하여 전체 클러스터 중 일부를 선정하는 것(S400)까지는 상술한 몇몇 실시예들과 유사하나, 선정된 클러스터에 대응되는 자산을 바로 결정하는 것(S550)에서 상술한 몇몇 실시예들과 차별화된다. 단계 S700에서는, 단계 S550에서 결정된 자산을 이용한 투자 유니버스 자동 생성 동작이 수행된다.

상술한 몇몇 실시예들에서는, 선정된 클러스터에 대응되는 토픽이 결정되고 상기 결정된 토픽에 대응되는 자산이 결정되나, 본 실시예에서는 선정된 클러스터에 대응되는 자산이 바로 결정된다. 이하, 도 24를 참조하여 단계 S550를 상세히 설명한다.

단계 S5500에서, 상기 선정된 클러스터에 속한 각 소스 데이터 별로 그 영향력이 연산된다. 이 때, 소스 데이터의 타입 별로 그 영향력의 연산 방식이 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌의 영향력 연산 규칙은, 패밀리 특허가 많을수록, 도면이 많을수록, 상세한 설명의 길이가 길수록, 청구항이 많을수록, 독립 청구항이 많을수록, 피인용 건수가 많을수록 더 높은 영향력이 연산 되게 정의될 수 있다. 또한, 뉴스 문헌의 스코어 연산 규칙은, 조회 수가 많을수록, 댓글 건수가 많을수록, 긍정도 점수가 높을수록 더 높은 영향력이 연산 되게 정의될 수 있을 것이다.

단계 S5500에서 연산된 소스 데이터의 영향력은, 소스 데이터의 타입에 따른 가중치에 따라 조정될 수도 있다. 예를 들어, 도 27의 소스 데이터 타입 별 가중치(2004)가 환경 설정 사항의 하나로서 지정된 경우, 높은 가중치가 지정된 타입의 소스 데이터의 영향력은 영향력 연산의 결과 대비 더 높게 조정되고, 낮은 가중치가 지정된 타입의 소스 데이터의 영향력은 영향력 연산의 결과 대비 더 낮게 조정될 수 있을 것이다. 이로써, 투자 유니버스 편입 자산 결정에 영향을 미치는 정도가 소스 데이터 타입 별로 서로 달라질 수 있다.

단계 S5502에서, 상기 선정된 클러스터에 속한 각 소스 데이터 별로 관련 자산이 추출된다. 이 때, 소스 데이터의 타입 별로 관련 자산의 추출 방식이 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌 타입의 소스 데이터의 관련 자산은 출원인 또는 특허권자일 수 있다. 또한 뉴스 타입의 소스 데이터의 관련 자산은 뉴스의 본문 텍스트에서 NER을 통하여 추출된 자산 명칭 중 IF-IDF 알고리즘 등을 통하여 연산된 키워드 중요도가 가장 높은 것일 수 있다. 또한, SNS, 블로그, IR 공시 자료 타입의 소스 데이터의 관련 자산은 문서를 공개한 기업일 수 있다.

또한, 단계 S5502에서 상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 영향력이 상기 소스 데이터의 영향력을 이용하여 설정된다. 이 때, 상기 관련 자산의 기 등록된 기본 가중치가 상기 소스 데이터의 영향력을 이용하여 조정됨으로써, 상기 자산의 영향력이 결정될 수 있다. 이를 통하여, 현실을 반영한 각 자산의 중요도가 클러스터 대응 자산 결정 과정에 반영되도록 할 수 있는 것이다. 물론, 상기 기본 가중치가 높은 자산이라도 소스 데이터의 영향력이 매우 낮다면 클러스터 대응 자산에서 탈락될 수 있을 것이며, 상기 기본 가중치가 낮은 자산이라도 소스 데이터의 영향력이 매우 높다면 클러스터 대응 자산에서 선정될 수 있을 것이다.

다음의 상황을 가정하여 설명한다. 코로나 19의 전세계적인 확산 상황 관련하여 코로나 19 백신과 관련된 클러스터가 중요 클러스터로서 선정되었고, 상기 선정된 클러스터에 기본 가중치가 매우 낮았던 A사의 코로나 19 백신 관련된 특허 문헌들이 다수 포함되었으며, 상기 특허 문헌들의 영향력이 대부분 높게 연산되었다면, 상기 선정된 클러스터에 기본 가중치가 매우 높았던 B사의 코로나 19 백신 관련 뉴스로서 영향력이 낮은 것이 소수 포함되었더라도, 상기 선정된 클러스터에 대응되는 자산은 B사가 아닌 A사가 될 수 있을 것이다. 그 결과, A사의 주식이 투자 유니버스에 신규 편입될 수 있을 것이다.

단계 S5504에서, 선정된 클러스터에서 추출된 전체 관련 자산 중, 그 영향력을 기준으로 선정된 일부가 상기 선정된 클러스터의 대응 자산으로서 결정될 것이다. 상기 선정된 클러스터의 크기(도 7의 S301 참조하여 설명한 사항 참조)가 클수록 상기 선정되는 자산의 개수가 증가될 수도 있고, 상술된 클러스터 평가의 스코어 또는 등급이 높을수록 상기 선정되는 자산의 개수가 증가될 수도 있을 것이며, 상기 선정된 클러스터의 크기, 평가 스코어 또는 평가 등급과 무관하게, 자산의 영향력 만을 기준으로 그 자산이 상기 선정된 클러스터의 대응 자산으로서 결정될 수도 있을 것이다. 예를 들어, 자산의 영향력 값이 기준치를 넘으면 그 자산은 무조건 상기 선정된 클러스터의 대응 자산으로서 결정될 수 있을 것이다.

본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법을 도 25를 참조하여 설명한다. 본 실시예에 따른 방법 역시 컴퓨팅 장치에 의하여 수행될 수 있으며, 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치에 의하여 일부 동작이 나뉘어 수행될 수 있다. 또한, 상술한 실시예들에서 설명된 기술적 사상은 당연히 본 실시예에도 적용될 수 있다.

본 실시예에 따른 방법은 소스 데이터를 수집하고(S100), 수집된 소스 데이터를 클러스터링 하며(S200), 클러스터링 결과에 따른 각 클러스터에 대한 평가를 수행하고(S300), 평가의 결과에 기반하여 전체 클러스터 중 일부를 선정하는 것(S400)까지는 상술한 몇몇 실시예들과 유사하다.

도 23을 참조하여 설명한 실시예와 본 실시예에 따른 방법을 비교하여 설명한다. 도 23을 참조하여 설명한 실시예에서는 선정된 클러스터에 대응되는 자산을 바로 결정한 바 있다(S550), 반면에 본 실시예에서는 선정된 클러스터의 자산 매칭 비율이 기준치 이상인 경우(S460)에 한하여 선정된 클러스터에 대응되는 자산이 바로 결정되고, 선정된 클러스터의 자산 매칭 비율이 기준치 미만인 경우(S460)에는 도 5 및 도 21을 참조하여 설명한 바와 같이, 선정된 클러스터에 대응되는 토픽이 결정되고(S500), 결정된 토픽에 대응되는 자산이 결정되게 된다(S600).

선정된 클러스터의 자산 매칭 비율이란, 클러스터의 소스 데이터들 중에서 관련 자산이 추출되는 비율을 가리킨다. 이미 설명한 바와 같이, 소스 데이터의 타입 별로 관련 자산의 추출 방식이 서로 다르게 정의될 수 있다. 예를 들어, 특허 문헌 타입의 소스 데이터의 관련 자산은 출원인 또는 특허권자일 수 있다. 또한 뉴스 타입의 소스 데이터의 관련 자산은 뉴스의 본문 텍스트에서 NER을 통하여 추출된 자산 명칭 중 IF-IDF 알고리즘 등을 통하여 연산된 키워드 중요도가 가장 높은 것일 수 있다. 또한, SNS, 블로그, IR 공시 자료 타입의 소스 데이터의 관련 자산은 문서를 공개한 기업일 수 있다. 클러스터의 소스 데이터들 중에서 위의 방법에 의하여 관련 자산이 추출되고, 그 관련 자산이 기 등록된 관련 자산 리스트에 포함된 것이면 그 소스 데이터의 관련 자산 추출은 성공한 것으로 판단될 것이다. 즉, 상기 자산 매칭 비율이란, 클러스터의 소스 데이터들 중에서 관련 자산 추출이 성공한 소스 데이터의 비율을 가리킨다.

상기 자산 매칭 비율이 낮은 경우, 선정된 클러스터에 대응되는 관련 자산을 바로 추출하는 것 보다는, 선정된 클러스터에 대응되는 토픽을 먼저 결정하고, 상기 결정된 토픽에 대응되는 자산을 상기 선정된 클러스터에 대응되는 관련 자산으로서 결정하는 것이, 관련 자산 결정의 정확도를 높일 수 있을 것이다.

본 게시의 또 다른 실시예에 따른 투자 유니버스 자동 생성 방법을 도 26을 참조하여 설명한다. 본 실시예에 따른 방법 역시 컴퓨팅 장치에 의하여 수행될 수 있으며, 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치에 의하여 일부 동작이 나뉘어 수행될 수 있다. 또한, 상술한 실시예들에서 설명된 기술적 사상은 당연히 본 실시예에도 적용될 수 있다.

단계 S10에서 투자 유니버스 구성 설정이 세팅된다. 상기 투자 유니버스 구성 설정의 세팅을 위해, 환경 설정 화면이 제공될 수 있다. 이와 관련하여 도 27 내지 도 29를 참조하여 설명한다.

도 27에 도시된 바와 같이, 예시적인 환경 설정 화면은, 분석 대상 소스 데이터의 위치를 선택하는 화면(2002), 소스 데이터 타입 별 가중치를 입력하는 화면(2004) 및 편입 자산의 타입을 선택하는 화면(2006)을 포함할 수 있다. 각각의 화면에 대한 사용자 입력이 투자 유니버스 자동 생성 과정에 어떠한 영향을 미치는지는 이미 설명한 바 있으므로, 관련된 중복 설명은 생략하기로 한다.

도 27에 도시된 투자 유니버스 구성 설정을 해설한다. 도 27의 설정은, 특허, 논문, 뉴스 등의 공개 데이터와, 트레이딩 시스템의 공시 자료, 증권사 리포트, 거래 정보 등의 정보를 소스 데이터로서 분석할 것인 점, 소스 데이터 타입은 특허 40%, 논문 20%, 뉴스 20%, SNS 12%, 공시자료 8%의 순서인 점, 현재 평가 스코어가 큰 클러스터가 아닌, 성장세가 큰 클러스터에 대응되는 자산을 투자 유니버스에 편입하는 점을 가리킨다.

도 28에 도시된 투자 유니버스 구성 설정을 해설한다. 도 28의 설정은 사용자 단말의 지정된 디렉토리에 저장된 자료 만을 분석하고, 그 결과를 이용하여 투자 유니버스를 자동 생성하는 것을 가리킨다. 또한, 지정된 두개의 디렉토리의 소스 데이터 간의 가중치는 40% 대 60%로 지정되었고, 현재 평가 스코어가 큰 클러스터가 아닌, 성장세가 큰 클러스터에 대응되는 자산을 투자 유니버스에 편입하는 점을 가리킨다.

도 29에 도시된 투자 유니버스 구성 설정을 해설한다. 도 29의 설정은 지정된 4개의 웹 사이트(www.naver.com, www.daum.net, www.nytimes.com, www.bloomberg.com)에 공개되는 자료 만을 분석하고, 그 결과를 이용하여 투자 유니버스를 자동 생성하는 것을 가리킨다. 또한, 지정된 4개의 웹 사이트의 소스 데이터 간의 가중치는 30%, 20%, 20%, 30%로 지정되었고, 현재 평가 스코어가 큰 클러스터가 아닌, 성장세가 큰 클러스터에 대응되는 자산을 투자 유니버스에 편입하는 점을 가리킨다.

다시 도 26으로 돌아와서 설명한다.

단계 S20에서, 투자 유니버스가 자동으로 구성된다. 이 때, 상기 투자 유니버스 구성 설정이 반영될 것이다. 단계 S20은 이미 수차례 상술된 바 있는 단계 S100, S200, S300, S400, S550, S700의 순차적 수행으로 도시되어 있다. 단계 S20은, 상술된 투자 유니버스 자동 생성 관련 다양한 실시예들로 대체될 수 있음은 물론이다.

단계 S30에서, 생성된 투자 유니버스의 각 자산 별 포함 이유가 표시될 수 있다. 본 게시의 실시예들에서 생성되는 투자 유니버스는 컴퓨팅 장치에 의하여 자동 생성되는 것이고, 각 자산의 편입 사유가 다량의 소스 데이터의 본문 내용을 분석한 결과인 바, 투자자 입장에서는 투자 유니버스의 각 자산 및 그 비중이 결정된 근거가 궁금할 수 있다. 따라서, 투자 유니버스의 자동 생성 이유에 대한 정보가 투자자의 단말 장치의 요청에 응답하여 송신될 수 있는 것이다.

상기 투자 유니버스 자동 생성 이유에 대한 정보는 상기 투자 유니버스의 구성 자산 및 그 비중에 대한 정보와 함께 송신될 수 있을 것이다. 상기 투자 유니버스 구성 이유에 대한 정보는, 각 자산 선정의 결과 및 자산 선정의 이유가 된 선정된 클러스터에 대한 상세 정보를 포함할 수 있다. 상기 선정된 클러스터에 대한 상세 정보는 클러스터에 속한 소스 데이터의 양적인 정보, 소스 데이터 타입 별 비중 및 클러스터의 시간적 변화에 대한 정보 중 적어도 하나를 포함할 수 있다. 상기 투자 유니버스 자동 생성 이유에 대한 정보는 자동으로 생성된 ETF의 상품 설명서에 포함될 수 있을 것이다.

다음으로, 투자자의 투자 관련 의사 결정을 돕기 위해, 단계 S40에서는 직전에 생성된 투자 유니버스와의 대비 정보가 더 표시될 수 있을 것이다. 이미 설명한 바와 같이, 투자 유니버스의 편입 자산에 대한 정보는 주기적으로 반복하여 출력될 수 있고, 상기 편입 자산을 이용한 투자 유니버스의 업데이트가 이뤄질 수 있다. 상기 대비 정보는, 상기 투자 유니버스의 업데이트에 따른 편입 자산의 비중 변동, 신규 편입, 기존 편입 자산의 제외 등의 정보를 포함할 수 있을 것이다.

컴퓨터 프로그램 및 컴퓨팅 장치

지금까지 도 1 내지 도 29를 참조하여 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이하, 본 발명의 몇몇 실시예들에 따른 예시적인 컴퓨팅 장치의 하드웨어 구성을 도 30을 참조하여 설명하기로 한다.

도 30은 본 발명의 다양한 실시예에서 컴퓨팅 장치를 구현할 수 있는 예시적인 하드웨어 구성도이다. 본 실시예에 따른 컴퓨팅 장치(2000)는 하나 이상의 프로세서(1100), 시스템 버스(1600), 통신 인터페이스(1200), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램(1500)을 로드(load)하는 메모리(1400)와, 컴퓨터 프로그램(1500)를 저장하는 스토리지(1300)를 포함할 수 있다. 도 30에는 본 발명의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 30에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

컴퓨팅 장치(2000)는, 예를 들어 도 1 내지 도 4를 참조하여 설명한 투자 유니버스 구성 장치(100) 또는 트레이딩 시스템(20)의 하드웨어 구현 결과일 수 있다. 또한, 컴퓨팅 장치(2000)는 투자 유니버스 구성 장치(100)의 동작을 수행하는 모듈이 내장된 트레이딩 시스템(20)의 하드웨어 구현 결과일 수도 있다. 이 때, 상기 투자 유니버스 구성 장치(100)의 동작을 수행하는 모듈은 컨테이너로서 구현될 수 있다.

프로세서(1100)는 컴퓨팅 장치(2000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(1100)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(2000)는 둘 이상의 프로세서를 구비할 수 있다.

메모리(1400)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1400)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(1300)로부터 하나 이상의 프로그램(190)을 로드(load) 할 수 있다. 메모리(1400)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다. 시스템 버스(1600)는 컴퓨팅 장치(1000)의 구성 요소 간 통신 기능을 제공한다.

시스템 버스(1600)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다. 통신 인터페이스(1200)는 컴퓨팅 장치(2000)의 유무선 인터넷 통신을 지원한다. 통신 인터페이스(1200)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1200)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다. 스토리지(1300)는 하나 이상의 컴퓨터 프로그램(1500)을 비임시적으로 저장할 수 있다. 스토리지(1300)는 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(1500)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들을 포함할 수 있다. 컴퓨터 프로그램(1500)이 메모리(1400)에 로드 되면, 프로세서(1100)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.

예시적인 컴퓨터 프로그램(1500)은 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 인스트럭션과, 상기 수집된 소스 데이터를 클러스터링 하는 인스트럭션과, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 인스트럭션과, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 인스트럭션과, 상기 선정된 클러스터에 대응되는 토픽(topic)을 결정하는 인스트럭션을 포함할 수 있다.

다른 예시적인 컴퓨터 프로그램(1500)은 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하되, 기 지정된 소스 데이터 수집 주기 마다 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 인스트럭션과, 기 지정된 클러스터링 주기 마다, 상기 축적된 소스 데이터를 클러스터링 하고, 상기 클러스터링의 결과 형성된 각 클러스터의 토픽을 결정하는 인스트럭션과, 기 지정된 클러스터링 평가 주기 마다, 각 토픽의 클러스터에 대하여 시간적 변화 평가를 수행하는 인스트럭션과, 상기 토픽의 클러스터의 상기 시간적 변화 평가에 따른 변화량을 기준으로 다이나믹 토픽을 선정하는 인스트럭션과, 상기 선정된 다이나믹 토픽에 대한 정보를 출력하는 인스트럭션을 포함할 수 있다.

다른 예시적인 컴퓨터 프로그램(1500)은 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 인스트럭션과, 상기 수집된 소스 데이터를 클러스터링 하는 인스트럭션과, 상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 인스트럭션과, 상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 인스트럭션과, 상기 선정된 클러스터에 대응되는 자산을 자동 결정하는 인스트럭션을 포함할 수 있다. 이때, 상기 클러스터에 대응되는 자산을 자동 결정하는 인스트럭션은, 상기 클러스터의 각 소스 데이터에 대하여 영향력을 연산하는 인스트럭션과, 상기 클러스터의 각 소스 데이터에서 관련 자산을 추출하는 인스트럭션과, 상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 가중치를 상기 소스 데이터의 영향력을 이용하여 설정하는 인스트럭션과, 상기 가중치를 기준으로, 상기 클러스터에서 추출된 모든 관련 자산 중 일부를 상기 클러스터에 대응되는 자산으로서 선정하는 인스트럭션을 포함할 수 있다.

이상 첨부된 도면을 참조하여 본 명세서의 실시예들을 설명하였지만, 본 명세서의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서의 실시예들이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의하여 수행되는 방법에 있어서,
상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 단계;
상기 수집된 소스 데이터를 클러스터링 하는 단계;
상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계;
상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계; 및
상기 선정된 클러스터에 대응되는 토픽(topic)을 결정하는 단계를 포함하되,
상기 소스 데이터를 수집하는 단계는,
기 지정된 소스 데이터 수집 주기 마다, 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 단계를 포함하고,
상기 수집된 소스 데이터를 클러스터링 하는 단계는,
기 지정된 클러스터링 주기 마다 상기 축적된 소스 데이터를 클러스터링 하되, 상기 클러스터링 주기는 상기 소스 데이터 수집 주기 보다 긴, 단계를 포함하며,
상기 각 클러스터를 평가하는 단계는,
기 지정된 클러스터링 평가 주기 마다, 이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행하되, 상기 클러스터링 평가 주기는 상기 클러스터링 주기 보다 긴, 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 수집된 소스 데이터 중 적어도 일부는 본문 텍스트를 포함하는 문서 데이터이고,
상기 수집된 소스 데이터를 클러스터링 하는 단계는,
상기 문서 데이터의 본문 텍스트를 이용하여 상기 문서 데이터의 내용을 표현하는 특징 데이터를 생성하는 단계; 및
상기 특징 데이터를 이용하여 각각의 문서 데이터를 클러스터링 하는 단계를 포함하는,
정보 처리 방법.
제2 항에 있어서,
상기 문서 데이터의 내용을 표현하는 특징 데이터를 생성하는 단계는,
각각의 문서 데이터의 본문 텍스트에 대하여, 명사 혹은 명사구인 토큰 단위로 구분하는 토큰화(tokenizing)를 수행하는 단계; 및
상기 토큰화에 의하여 추출된 토큰을 특징으로 변환하는 단계를 포함하되,
상기 토큰화를 수행하는 단계는,
상기 본문 텍스트를 공백을 기준으로 단편화 하는 단계;
상기 단편화에 의하여 제1 명사 및 상기 제1 명사에 바로 인접한 제2 명사가 추출된 경우, 상기 제1 명사 및 상기 제2 명사를 기계 학습에 의하여 학습된 복합 명사 추정 모델에 입력하는 단계;
상기 복합 명사 추정 모델의 출력 값을 이용하여 상기 제1 명사 및 상기 제2 명사의 연결이 복합 명사를 구성하는지 여부를 결정하는 단계; 및
상기 복합 명사가 하나의 토큰을 구성하도록 상기 토큰화를 수행하는 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 수집된 소스 데이터 중 적어도 일부는 본문 텍스트를 포함하는 문서 데이터이고,
상기 수집된 소스 데이터를 클러스터링 하는 단계는,
상기 수집된 소스 데이터의 타입이 제1 종류인 경우 상기 제1 종류의 문서에 대하여 사전 지정된 제1 불용어를 상기 본문 텍스트에서 노이즈 제거하는 단계;
상기 수집된 소스 데이터의 타입이 제2 종류인 경우 상기 제2 종류의 문서에 대하여 사전 지정된 제2 불용어를 상기 본문 텍스트에서 노이즈 제거하는 단계; 및
상기 노이즈 제거 후의 각 문서 데이터를 클러스터링 하는 단계를 포함하는,
정보 처리 방법.
제4 항에 있어서,
상기 제1 종류는 특허이고,
상기 제1 불용어는, "방법", "장치", "시스템", "공정", "물질", "화합물", "효과" 및 "실시예"를 포함하는,
정보 처리 방법.
제4 항에 있어서,
상기 제2 종류는 뉴스이고,
상기 제2 불용어는, "광고", "기자", "기사" 및 하나 이상의 언론사 명칭을 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 평가하는 단계는,
상기 클러스터에 포함된 각 소스 데이터의 타입의 다양성 지표를 연산하는 단계; 및
상기 소스 데이터의 타입의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 평가하는 단계는,
상기 클러스터에 포함된 각 소스 데이터의 스코어를 상기 소스 데이터의 타입에 따른 스코어 연산 규칙에 따라 연산하는 단계;
상기 클러스터에 포함된 각 소스 데이터의 스코어를 합산하는 단계; 및
상기 스코어 합산치가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 평가하는 단계는,
상기 클러스터에 포함된 각 소스 데이터의 관련 주체를 상기 소스 데이터의 타입에 따른 관련 주체 추출 규칙에 따라 결정하는 단계;
상기 클러스터에 포함된 각 소스 데이터 관련 주체의 다양성 지표를 연산하는 단계; 및
상기 소스 데이터 관련 주체의 다양성 지표가 높을수록 상기 클러스터를 긍정적으로 평가하는 단계를 포함하는,
정보 처리 방법.
삭제
제1 항에 있어서,
상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계는,
이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행한 결과, 긍정적 방향의 시간적 변화가 큰 상위 n개(n는 1 이상의 자연수)의 클러스터를 선정하는 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 기 지정된 클러스터링 평가 주기 마다, 이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행하는 단계는,
당해 클러스터링 결과에 따른 각 클러스터와 과거의 클러스터링 결과에 따른 각 클러스터의 동일성 매칭을 수행하는 단계; 및
당해 클러스터링 결과에 따른 각 클러스터 별로 과거의 동일 클러스터 대비 평가 메트릭의 변화를 연산하는 단계를 포함하는,
정보 처리 방법.
제12 항에 있어서,
상기 당해 클러스터링 결과에 따른 각 클러스터와 과거의 클러스터링 결과에 따른 각 클러스터의 동일성 매칭을 수행하는 단계는,
당해 클러스터링 결과에 따른 제1 클러스터의 대표점과, 과거 클러스터링 결과에 따른 제2 클러스터의 대표점 사이의 특징 공간(feature space) 상의 유클리드 거리(Euclidean distance)를 기준으로, 상기 제1 클러스터와 상기 제2 클러스터의 동일성을 판정하는 단계를 포함하는,
정보 처리 방법.
제12 항에 있어서,
상기 당해 클러스터링 결과에 따른 각 클러스터와 과거의 클러스터링 결과에 따른 각 클러스터의 동일성 매칭을 수행하는 단계는,
특징 공간 상에서, 당해 클러스터링 결과에 따른 제1 클러스터가 차지하는 영역과, 과거 클러스터링 결과에 따른 제2 클러스터가 차지하는 영역이 겹치는 영역의 크기를 기준으로, 상기 제1 클러스터와 상기 제2 클러스터의 동일성을 판정하는 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 선정된 클러스터에 대응되는 토픽을 결정하는 단계는,
상기 선정된 클러스터의 각 소스 데이터를 토큰화 하는 단계;
상기 토큰화의 결과 얻어진 상기 선정된 클러스터의 전체 토큰 중 주요 키워드를 선정하는 단계;
상기 주요 키워드 각각의 중요도를 조정하되, 과거 클러스터링 결과에 따른 상기 선정된 클러스터와의 동일성 매칭 클러스터의 토픽에 포함되었던 주요 키워드의 중요도를 상향하는 방식으로 상기 조정을 수행하는 단계; 및
상기 주요 키워드의 중요도를 이용하여, 상기 선정된 클러스터에 대응되는 토픽에 포함될 주요 키워드를 선정하는 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 선정된 클러스터에 대응되는 토픽을 결정하는 단계는,
상기 선정된 클러스터의 각 소스 데이터를 토큰화 하는 단계;
상기 토큰화의 결과 얻어진 상기 선정된 클러스터의 전체 토큰 중 주요 키워드를 선정하는 단계;
상기 주요 키워드 각각의 상호 유사도를 연산하고, 상호 유사도가 낮은 주요 키워드는 노이즈 필터링 하는 단계;
상기 노이즈 필터링 되지 않은 주요 키워드들 중에서, 중요도를 기준으로 상기 선정된 클러스터에 대응되는 토픽에 포함될 주요 키워드를 선정하는 단계를 포함하는,
정보 처리 방법.
제1 항에 있어서,
상기 결정된 토픽에 대응되는 자산을 결정하는 단계;
상기 결정된 자산을 포함하는 투자 유니버스를 자동 구성하는 단계; 및
상기 자동 구성된 투자 유니버스에 대한 정보를 출력하는 단계를 더 포함하는,
정보 처리 방법.
제17 항에 있어서,
상기 자산을 결정하는 단계는,
상기 결정된 토픽에 포함된 키워드 셋을 이용하여, 하나 이상의 유사 키워드를 조회 하는 단계; 및
상기 결정된 토픽에 포함된 키워드 셋과 상기 하나 이상의 유사 키워드를 이용하여, 상기 결정된 토픽에 대응되는 자산을 결정하는 단계를 포함하는,
정보 처리 방법.
컴퓨팅 장치에 의하여 수행되는 방법에 있어서,
상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하되, 기 지정된 소스 데이터 수집 주기 마다 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 단계;
기 지정된 클러스터링 주기 마다, 상기 축적된 소스 데이터를 클러스터링 하고, 상기 클러스터링의 결과 형성된 각 클러스터의 토픽을 결정하는 단계;
기 지정된 클러스터링 평가 주기 마다, 각 토픽의 클러스터에 대하여 시간적 변화 평가를 수행하는 단계;
상기 토픽의 클러스터의 상기 시간적 변화 평가에 따른 변화량을 기준으로 다이나믹 토픽을 선정하는 단계; 및
상기 선정된 다이나믹 토픽에 대한 정보를 출력하는 단계를 포함하되,
상기 클러스터링 주기는 상기 소스 데이터 수집 주기보다 길고, 상기 클러스터링 평가 주기는 상기 클러스터링 주기와 같거나 상기 클러스터링 주기보다 긴,
정보 처리 방법.
제19 항에 있어서,
각 토픽의 클러스터에 대하여 시간적 변화 평가를 수행하는 단계는,
당해 클러스터링 주기의 제1 토픽의 클러스터의 특징 공간 상 분포에 대한 정보와, 이전 클러스터링 주기의 상기 제1 토픽의 클러스터의 특징 공간 상 분포에 대한 정보를 비교하는 단계를 포함하는,
정보 처리 방법.
제20 항에 있어서,
상기 다이나믹 토픽을 선정하는 단계는,
당해 클러스터링 결과에 따른 상기 제1 토픽의 클러스터의 대표점과, 과거 클러스터링 결과에 따른 상기 제1 토픽의 클러스터의 대표점 사이의 특징 공간 상의 유클리드 거리를 기준으로 상기 다이나믹 토픽을 선정하는 단계를 포함하는,
정보 처리 방법.
컴퓨팅 장치에 의하여 수행되는 방법에 있어서,
상기 컴퓨팅 장치와 네트워크를 통하여 연결된 하나 이상의 외부 장치에 저장된 소스 데이터를 수집하는 단계;
상기 수집된 소스 데이터를 클러스터링 하는 단계;
상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계;
상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계; 및
상기 선정된 클러스터에 대응되는 자산을 자동 결정하는 단계를 포함하되,
상기 클러스터에 대응되는 자산을 자동 결정하는 단계는,
상기 클러스터의 각 소스 데이터에 대하여 영향력을 연산하는 단계;
상기 클러스터의 각 소스 데이터에서 관련 자산을 추출하는 단계;
상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 가중치를 상기 소스 데이터의 영향력을 이용하여 설정하는 단계; 및
상기 가중치를 기준으로, 상기 클러스터에서 추출된 모든 관련 자산 중 일부를 상기 클러스터에 대응되는 자산으로서 선정하는 단계를 포함하고,
상기 소스 데이터를 수집하는 단계는,
기 지정된 소스 데이터 수집 주기 마다, 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 단계를 포함하고,
상기 수집된 소스 데이터를 클러스터링 하는 단계는,
기 지정된 클러스터링 주기 마다 상기 축적된 소스 데이터를 클러스터링 하되, 상기 클러스터링 주기는 상기 소스 데이터 수집 주기 보다 긴, 단계를 포함하며,
상기 각 클러스터를 평가하는 단계는,
기 지정된 클러스터링 평가 주기 마다, 이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행하되, 상기 클러스터링 평가 주기는 상기 클러스터링 주기 보다 긴, 단계를 포함하는,
정보 처리 방법.
제22 항에 있어서,
상기 클러스터의 각 소스 데이터에서 추출된 관련 자산의 영향력을 상기 소스 데이터의 영향력을 이용하여 설정하는 단계는,
상기 관련 자산의 기 등록된 기본 가중치를 상기 소스 데이터의 영향력을 이용하여 조정함으로써 상기 관련 자산의 영향력을 설정하는 단계를 포함하는,
정보 처리 방법.
제22 항에 있어서,
상기 클러스터의 각 소스 데이터에 대하여 영향력을 연산하는 단계는,
상기 소스 데이터의 타입에 따른 가중치를 조회 하는 단계;
상기 소스 데이터의 영향력을 상기 조회된 가중치를 이용하여 조정하는 단계를 포함하는,
정보 처리 방법.
컴퓨팅 장치에 의하여 수행되는 방법에 있어서,
소스 데이터 수집 대상 장치로부터 수집된 소스 데이터를 클러스터링 하는 단계;
상기 클러스터링의 결과 형성된 각 클러스터를 평가하는 단계;
상기 평가의 결과를 이용하여 상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계;
상기 선정된 클러스터에 대응되는 자산을 결정하는 단계; 및
상기 결정된 자산을 포함하는 투자 유니버스를 자동 생성하는 단계를 포함하되,
상기 투자 유니버스는 상기 컴퓨팅 장치에 어떠한 섹터 정보도 제공됨이 없이 자동 생성되는 것을 특징으로 하고,
상기 소스 데이터를 수집하는 단계는,
기 지정된 소스 데이터 수집 주기 마다, 이전에 수집된 바 없는 신규의 소스 데이터를 수집하고, 수집된 소스 데이터를 축적하는 단계를 포함하고,
상기 수집된 소스 데이터를 클러스터링 하는 단계는,
기 지정된 클러스터링 주기 마다 상기 축적된 소스 데이터를 클러스터링 하되, 상기 클러스터링 주기는 상기 소스 데이터 수집 주기 보다 긴, 단계를 포함하며,
상기 각 클러스터를 평가하는 단계는,
기 지정된 클러스터링 평가 주기 마다, 이전의 클러스터링 주기에서의 클러스터링 결과를 이용한 클러스터의 시간적 변화 평가를 수행하되, 상기 클러스터링 평가 주기는 상기 클러스터링 주기 보다 긴, 단계를 포함하는,
투자 유니버스 자동 생성 방법.
제25 항에 있어서,
상기 클러스터링 하는 단계 이전에,
투자 유니버스 구성 설정 정보를 얻는 단계; 및
상기 투자 유니버스 구성 설정 정보를 이용하여 상기 소스 데이터 수집 대상 장치를 결정하는 단계를 더 포함하는,
투자 유니버스 자동 생성 방법.
제26 항에 있어서,
상기 소스 데이터 수집 대상 장치를 결정하는 단계는,
상기 투자 유니버스 구성 설정 정보에 따를 때 분석 대상 소스 데이터의 위치에 사용자 장치가 포함되는 경우, 상기 소스 데이터 수집 대상 장치가 상기 컴퓨팅 장치에 연결된 사용자 장치로 결정되는 단계를 포함하는,
투자 유니버스 자동 생성 방법.
제26 항에 있어서,
상기 소스 데이터 수집 대상 장치를 결정하는 단계는,
상기 투자 유니버스 구성 설정 정보에 따를 때 분석 대상 소스 데이터의 위치에 지정 URL이 포함되는 경우, 상기 소스 데이터 수집 대상 장치가 상기 지정 URL에 대응되는 서비스 서버로 결정되는 단계를 포함하는,
투자 유니버스 자동 생성 방법.
제25 항에 있어서,
상기 클러스터링 하는 단계 이전에,
투자 유니버스 구성 설정 정보를 얻는 단계를 더 포함하고,
상기 투자 유니버스 구성 설정 정보는 소스 데이터 타입 별 가중치 정보를 포함하며,
상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계는,
상기 소스 데이터 타입 별 가중치를 이용하여, 상기 클러스터링의 결과 형성된 복수의 클러스터 각각에 대한 평가를 수행하는 단계; 및
상기 복수의 클러스터 각각에 대한 평가의 결과를 이용하여, 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함하는,
투자 유니버스 자동 생성 방법.
제25 항에 있어서,
상기 클러스터링 하는 단계 이전에,
투자 유니버스 구성 설정 정보를 얻는 단계를 더 포함하고,
상기 투자 유니버스 구성 설정 정보는 성장 토픽 관련 자산 및 우세 토픽 관련 자산 중 어느 하나로 선택된 편입 자산 타입 정보를 포함하며,
상기 클러스터링의 결과 형성된 복수의 클러스터 중 일부를 선정하는 단계는,
상기 편입 자산 타입 정보가 상기 성장 토픽 관련 자산으로 지정된 경우, 당해 클러스터링의 결과 형성된 복수의 클러스터 각각에 대한 시간적 변화 평가를 이전 클러스터링의 결과를 이용하여 수행하고, 상기 시간적 변화 평가에 따를 때 긍정적 방향의 변화량을 기준으로 상기 복수의 클러스터 중 일부를 선정하며,
상기 편입 자산 타입 정보가 상기 우세 토픽 관련 자산으로 지정된 경우, 당해 클러스터링의 결과 형성된 복수의 클러스터 각각의 볼륨에 대한 평가 결과를 기준으로 상기 복수의 클러스터 중 일부를 선정하는 단계를 포함하는,
투자 유니버스 자동 생성 방법.