KR102345481B1

KR102345481B1 - 인공지능 기반의 종목연관 키워드 결정방법 및 그 시스템

Info

Publication number: KR102345481B1
Application number: KR1020190178529A
Authority: KR
Inventors: 김동진; 송민정; 김정민; 김준석; 임은주; 박경자; 이현용; 김병훈
Original assignee: 주식회사 씽크풀
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-01-03
Also published as: KR20210086815A

Abstract

인공지능 기반의 종목연관 키워드 결정방법 및 그 시스템이 개시된다.
상기 인공지능 기반의 종목연관 키워드 결정방법은 시스템이 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하는 단계, 상기 시스템이 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계를 포함하며, 상기 시스템이 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계는 상기 시스템이 수집된 비정형 데이터들 중 전부 또는 일부인 학습대상 데이터들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습을 수행하는 단계, 수행결과 획득된 상기 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하는 단계, 및 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출하는 단계를 포함한다.

Description

인공지능 기반의 종목연관 키워드 결정방법 및 그 시스템{Method and system for deciding keyword related with stock item based on artificial intelligence}

본 발명은 인공지능 기반의 종목연관 키워드 결정방법 및 그 시스템에 관한 것이다.

보다 상세하게는 특정 금융상품(예컨대, 주식, 채권, 선물/옵션 등)에 대한 연관 키워드를 네트워크 상의 비정형 데이터로부터 인공지능 기반으로 효과적으로 추출함으로써 상기 특정 금융상품에 대한 관련된 이슈를 포괄적으로 확인하면서도 투자에 활용할 수 있도록 하는 방법 및 그 시스템에 관한 것이다.

특정 금융상품(예컨대, 특정 주식종목 등)과 연관된 키워드를 알고 있다면 해당 키워드에 대한 정보의 검색 등을 통해 상기 특정 금융상품의 가격변동을 예측하는 등과 같이 매우 유용할 수 있다.

따라서 종래에도 특정 금융상품별로 연관 키워드를 정의하고 이를 활용하고자 하는 시도가 있어왔다.

이러한 기술적 사상으로는 한국특허출원(출원번호 1020140003377, 키워드 연동 투자 정보 제공 시스템), 한국특허출원(출원번호 1020150149810, 연관 종목 정보 통합 제공 방법) 등에 개시된 바 있다.

하지만 종래의 기술적 사상은 연관 키워드 또는 특정 금융상품의 연관 정보를 사람이 수동으로 일일이 유지하는 방식이거나 웹 상에서 노출빈도 등을 이용하는 방식이어서 사람의 국한된 지식에 의존하거나 또는 실질적으로 크게 관련이 없는 키워드라도 특정 금융상품의 명칭과 같이 등장하는 일반적인 단어들이 연관 키워드로 선정되는 등 정확성이 상당히 낮은 문제점이 있었다.

따라서 특정인의 지식과 경험에 의존하는 것이 아니라 네트워크 상에서 유통되는 다양한 비정형 데이터로부터 특정 금융상품과 유의미한 정도로 연관성이 있는 키워드를 상대적으로 정확하게 추출해낼 수 있는 기술적 사상이 요구된다.

-한국특허출원 출원번호(1020140003377, "키워드 연동 투자 정보 제공 시스템") -한국특허출원(출원번호 1020150149810, "연관 종목 정보 통합 제공 방법")

본 발명이 이루고자 하는 기술적인 과제는 소셜 미디어와 같이 다수의 비정형 데이터(비정형 문서, 예컨대, 뉴스, 사용자들이 작성한 게시글, 댓글 등)의 생산자들이 생산하는 정보로부터 특정 금융상품에 실질적으로 유의미한 연관 키워드를 인공지능 기반으로 추출할 수 있는 기술적 사상을 제공하는 것이다.

또한 소셜 미디어와 같은 비정형 데이터의 특성상 동일한 또는 거의 유사한 컨텐츠가 서로 다른 게시자에 의해 네트워크상에 업로도되는 경우가 빈번한데 이러한 비정형 데이터의 중복성까지 고려한 정확도가 향상된 연관 키워드를 추출할 수 있는 기술적 사상을 제공하는 것이다.

또한 이러한 연관 키워드의 추출을 주기적으로 수행하면서 연관 키워드의 변화를 빠르게 확인할 수 있도록 하는 기술적 사상을 제공하는 것이다.

본 발명의 기술적 사상에 따른 인공지능 기반의 종목연관 키워드 결정방법은 시스템이 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하는 단계, 상기 시스템이 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계를 포함하며, 상기 시스템이 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계는 상기 시스템이 수집된 비정형 데이터들 중 전부 또는 일부인 학습대상 데이터들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습을 수행하는 단계, 수행결과 획득된 상기 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하는 단계, 및 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출하는 단계를 포함한다.

상기 인공지능 기반의 종목연관 키워드 결정방법은 상기 시스템이 수집한 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행하는 단계를 더 포함하며, 필터링을 수행한 후에 남은 비정형 데이터들이 학습대상 데이터로 특정될 수 있다.

상기 시스템이 수집한 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행하는 단계는, 상기 시스템이 상기 수집한 비정형 데이터들 각각에 대한 문서 벡터(document vector)를 생성하는 단계, 상기 시스템이 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하는 단계, 및 상기 시스템이 클러스터링된 비정형 데이터 클러스터들 각각에서 일부를 학습대상 데이터에서 제외하도록 필터링을 수행하는 단계를 포함할 수 있다.

상기 시스템이 상기 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하는 단계는, 상기 시스템이 상기 유사도가 일정 수준 이상이며 비정형 데이터의 생성시간이 미리 정해진 시간범위 내인 비정형 데이터들 간에 클러스터링을 수행하는 단계를 포함할 수 있다.

상기 인공지능 기반의 종목연관 키워드 결정방법은, 상기 시스템이 미리 정해진 주기별로 상기 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하는 단계 및 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계를 수행하는 것을 특징으로 하며, 상기 특정 금융종목에 대해 기존에 추출되지 않았던 새로운 연관 키워드가 추출되는 경우, 소정의 알람 프로세스를 수행하는 단계를 더 포함할 수 있다.

상기 수행결과 획득된 상기 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하는 단계는 상기 제1벡터와 코사인 유사도(Cosine Similarity)가 일정 값 이상이거나 상기 제1벡터와 유클리디안 거리(Euclidean Distance)가 일정 값 이하인 상기 제2벡터를 적어도 하나 추출하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 종목연관 키워드 결정방법은 시스템이 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하는 단계, 상기 시스템이 상기 수집한 비정형 데이터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하는 단계, 상기 시스템이 클러스터링된 비정형 데이터 클러스터 각각에서 일부를 제외하도록 필터링을 수행하는 단계, 및 필터링을 수행한 후에 남은 비정형 데이터들에 기초하여 상기 특정 금융종목에 상응하는 연관 키워드를 추출하는 단계를 포함한다.

상기 시스템이 상기 수집한 비정형 데이터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하는 단계는, 상기 시스템이 상기 유사도가 일정 수준 이상이며 비정형 데이터의 생성시간이 미리 정해진 시간범위 내인 비정형 데이터들 간에 클러스터링을 수행하는 단계를 포함할 수 있다.

상기의 방법은 데이터 처리장치에 설치되며 컴퓨터 판독가능한 기록매체에 기록된 컴퓨터 프로그램에 의해 수행될 수 있다.

다른 일 측면에 따르면, 본 발명의 기술적 사상에 따른 시스템은 프로세서, 프로그램이 저장된 저장장치를 포함하며, 상기 프로세서는 상기 프로그램을 구동하여 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하고, 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하되, 상기 연관 키워드를 추출하기 위해, 수집된 비정형 데이터들 중 전부 또는 일부인 학습대상 데이터들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습을 수행하고, 수행결과 획득된 상기 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하며, 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출한다.

또한 다른 실시 예에 따른 시스템은 프로세서, 프로그램이 저장된 저장장치를 포함하며, 상기 프로세서는 상기 프로그램을 구동하여 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하고, 수집한 비정형 데이터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하며, 클러스터링된 비정형 데이터 클러스터 각각에서 일부를 제외하도록 필터링을 수행하고, 필터링을 수행한 후에 남은 비정형 데이터들에 기초하여 상기 특정 금융종목에 상응하는 연관 키워드를 추출한다.

본 발명의 기술적 사상에 따르면 소셜 미디어와 같이 다수의 비정형 데이터(비정형 문서, 예컨대, 뉴스, 사용자들이 작성한 게시글, 댓글 등)의 생산자들이 생산하는 정보로부터 특정 금융상품에 실질적으로 유의미한 연관 키워드를 인공지능 기반으로 추출함으로써 특정인의 단편적 지식이나 노출빈도에 따른 연관 키워드의 추출이 아닌 키워드 추출시점에서의 살아있는 정보들로부터 해당 정보들의 의미를 고려하여 실질적으로 해당 금융상품과 연관성이 있는 키워드를 추출할 수 있는 효과가 있다.

또한 소셜 미디어와 같은 비정형 데이터의 특성상 동일한 또는 거의 유사한 컨텐츠가 서로 다른 게시자에 의해 네트워크상에 업로도되는 경우(예컨대, 어느 하나의 동일하거나 매우 유사한 뉴스 기사가 여러 매체에 의해 네트워크 상에 업로드되거나, 특정인의 컨텐츠가 다수의 사용자들에 의해 반복적으로 업로드되는 경우)가 빈번한데 이러한 비정형 데이터의 중복성까지 필터링을 수행하여 어느 정도 해소한 후에 연관 키워드를 추출함으로써 정확도를 향상시킬 수 있는 효과가 있다.

또한 이러한 연관 키워드의 추출을 주기적으로 그리고 추출시점에서 최근의 비정형 데이터들에 국한하여 수행함으로써 연관 키워드의 변화를 빠르게 확인하고, 이에 따라 특정 금융상품과 관련된 유의미한 정보를 빠른 시간에 확인할 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도1은 본 발명의 기술적 사상에 따른 인공지능 기반의 종목연관 키워드 결정방법을 수행하기 위한 개략적인 시스템 구성들을 설명하기 위한 도면이다.
도2는 본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정을 수행하는 시스템의 개략적인 논리적 구성을 설명하기 위한 도면이다.
도3은 본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정을 수행하는 시스템의 개략적인 물리적 구성을 설명하기 위한 도면이다.
도4는 본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정방법을 구현하기 위한 데이터 플로우를 예시적으로 나타낸다.
도5는 본 발명의 실시 예에 따른 자연어 처리모델의 개념을 설명하기 위한 도면이다.
도6은 본 발명의 실시 예에 따라 워드벡터를 통한 연관 키워드를 추출하는 개념을 설명하기 위한 도면이다.
도7은 본 발명의 실시 예에 따라 필터링을 수행하는 개념을 설명하기 위한 도면이다.
도8은 본 발명의 실시 예에 따라 연관 키워드의 변화를 설명하기 위한 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 아니 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도1은 본 발명의 기술적 사상에 따른 인공지능 기반의 종목연관 키워드 결정방법을 수행하기 위한 개략적인 시스템 구성들을 설명하기 위한 도면이다.

도1을 참조하면, 본 발명의 기술적 사상에 따른 인공지능 기반의 종목연관 키워드 결정방법을 구현하기 위해서는 소정의 연관 키워드 결정시스템(이하, 100)이 구현될 수 있다.

상기 연관 키워드 결정시스템(100)은 본 발명의 기술적 사상에 따라 특정 금융상품(예컨대, 주식, 선물, 옵션 등의 금융상품의 개별종목을 의미하며 이하 '특정 금융종목'이라 함)의 연관 키워드를 추출하여 관리자 또는 사용자에게 제공할 수 있다.

연관 키워드라 함은 이론적으로는 특정 금융종목(예컨대, 주식종목 A, 채권 B 등)의 가치변동에 영향을 미치는 이벤트, 객체, 인물, 동향 등을 나타내는 키워드를 의미할 수 있다. 실질적으로는 본 발명의 기술적 사상에 따라 다수의 비정형 데이터들(예컨대, SNS 등의 소셜 미디어상의 사용자 컨텐츠, 뉴스, 카페 또는 블로그 등에 개시된 컨텐츠 등)에 기초하여 상기 특정 금융종목과 연관 있는 것으로 추출되는 키워드를 의미할 수 있다.

상기 연관 키워드 결정시스템(100)은 네트워크를 통해 상기 특정 금융종목에 상응하는 비정형 데이터들을 수집할 수 있다. 상기 특정 금융종목에 상응하는 비정형 데이터라 함은 상기 특정 금융종목의 명칭(예컨대, 삼성전자, 하이닉스 등)이 포함되어 있으면서 네트워크 상에서 유통되는 다양한 컨텐츠를 의미할 수 있으며, 이러한 비정형 데이터는 언론사, 금융기관, 증권사, 일반적인 사용자들에 의해 생성될 수 있다. 상기 비정형 데이터는 일종의 문서로써 취급될 수 있으며, 텍스트가 포함되어 있으면 컨텐츠의 길이가 길거나(예컨대, 몇 줄 또는 몇 십 줄 이상의 게시글) 또는 짧거나(예컨대, 한 줄의 댓글 등) 무관하게 상기 비정형 데이터가 될 수 있다.

또한 본 명세서에서 정의되는 비정형 데이터는 상기 연관 키워드 결정시스템(100)에 의해 수집되는 데이터가 미리 정해진 형식에 제한을 받지 않는다는 것을 의미하는 것이지, 상기 비정형 데이터의 생산자별로는 일정한 형식과 규칙을 가지도록 생성될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 연관 키워드 결정시스템(100)은 주기적으로 또는 관리자의 명령에 따라 특정 금융종목에 상응하는 비정형 데이터들을 크롤링할 수 있다. 구현 예에 따라서는 상기 비정형 데이터의 수집 대상이 되는 시스템에서 미리 정해진 프로토콜(예컨대, API)을 통해 상기 비정형 데이터를 수집할 수도 있다. 일 예에 의하면 상기 특정 금융종목에 상응하는 비정형 데이터인지와 무관하게 대량의 비정형 데이터들이 수집된 후 상기 연관 키워드 결정시스템(100)에 의해 상기 특정 금융종목에 해당하는 데이터들만이 추출될 수도 있으며, 다른 일 예에 의하면 상기 특정 금융종목에 상응하는 비정형 데이터들만이 네트워크를 통해 수집될 수도 있다.

그러면 상기 연관 키워드 결정시스템(100)은 이렇게 수집된 비정형 데이터들에 기초하여 상기 특정 금융종목의 연관 키워드를 결정할 수 있다.

즉 본 발명의 기술적 사상에 의하면 상기 연관 키워드 결정시스템(100)은 연관 키워드의 결정 시점에서 현재 네트워크상에 유통되는 다수의 컨텐츠 생산자에 의해 작성된 의견, 반응, 분석들을 토대로 상기 특정 금융종목의 연관 키워드를 결정하는 특징이 있다. 이를 위해 상기 연관 키워드 결정시스템(100)은 특정 금융종목의 연관 키워드를 결정하기 위해 사용되는 비정형 데이터를 상기 비정형 데이터의 생산시점(예컨대, 네트워크상에 업로드 시점)에 기초하여 제한할 수 있다. 예컨대 최근 소정의 기간(예컨대, 1달, 3달 등)에 생상된 비정형 데이터만에 기초하여 상기 연관 키워드 결정시스템(100)은 특정 금융종목의 연관 키워드를 결정할 수 있다.

그리고 이러한 연관 키워드의 결정을 주기적으로 수행하면서 해당 특정 금융종목의 연관 키워드의 변화를 모니터링함으로서 상기 특정 금융종목 또는 상기 특정 금융종목의 주체(예컨대, 회사 등)의 사업방향의 변화나 유의미한 이벤트의 발생여부를 연관 키워드에 기반하여 확인할 수 있는 효과가 있다.

본 발명의 기술적 사상에 의하면 상기 연관 키워드 결정시스템(100)은 특정 금융종목의 연관 키워드를 네트워크 상에 유통되는 비정형 데이터를 분석하여 결정하며, 이러한 비정형 데이터의 분석에는 딥러닝 기반의 자연어 처리모델(Natural Language Processing Model)을 이용할 수 있다.

특히 보다 정확도 높은 연관 키워드의 결정을 위해 상기 연관 키워드 결정시스템(100)은 컨텍스트 센서티브(context sensitive)한 자연어 처리모델을 이용할 수 있다.

컨텍스트 센서티브 자연어 처리모델은 컨텍스트 프리(Context Free) 자연어 처리모델과 상반되는 개념으로써 어떤 키워드 또는 문장의 의미를 문맥에 따라 달리 정의 또는 인식하는 자연어 처리모델을 의미할 수 있다. 이에 비해 컨텍스트 프리 자연어 처리모델은 문맥과 무관하게 해당 키워드 또는 문장 자체로써 해당 키워드 또는 문장의 의미를 정의하거나 인식하는 것을 의미할 수 있다.

이러한 컨텍스트 센서티브한 자연어 처리모델은 다수의 학습 대상 데이터를 학습하여 실제로 특정 키워드(자연어 처리모델에서는 토큰이라고 표현하기도 하며, 키워드는 하나의 토큰 또는 토큰의 결합일 수 있음, 본 명세서에서는 설명의 편의를 위해 토큰 또는 토큰의 결합을 키워드로 표현하기로 함)와 연관이 있는 키워드를 잘 파악하는 것이 해당 자연어 처리모델의 중요한 성능 중 하나이며, 이를 위해서 어텐션(attention)이라는 개념을 적용한 자연어 처리모델이 등장하였다.

어텐션은 어떤 키워드를 정의하거나 인식하기 위해 해당 키워드와 연관이 있으므로 더 집중(attention)해서 참고하여야 다른 키워드와의 관계를 의미할 수 있다. 예컨대, 제1키워드와 어텐션의 값이 높은 제2키워드는 학습 데이터 상에서 상기 특정 키워드와 연관성이 높게 사용되었음을 의미할 수 있다.

어텐션 메커니즘과 어텐션 함수 등의 어텐션의 개념에 대해서는 널리 공지되어 있으므로 상세한 설명은 생략하도록 한다.

이러한 어텐션의 개념을 이용하여 학습 데이터들에 사용된 키워드들을 벡터화하는 자연어 처리모델의 경우 학습 데이터들에 포함된 각각의 키워드들은 문맥을 반영하여 벡터화될 수 있게 된다.

이러한 자연어 처리모델의 일 예는 예컨대, ELMo(Embeddings from Language Model), ULM-FiT (Universal Language Model Fine-tuning for Text Classification), BERT (Bidirectional Encoder Representations from Transformers) 등이 존재한다.

상기의 자연어 처리모델은 어떠한 경우든 키워드를 벡터화하는 태스크(word embedding)를 수행하며, 이러한 키워드의 벡터화를 통해 해당 키워드의 의미를 벡터로 표현할 수 있다.

특히 BERT (Bidirectional Encoder Representations from Transformers)의 경우는 비지도 학습(Unsupervised Learning)을 통해 다량의 학습 데이터를 라벨링(labeling)이라는 태스크 없이도 학습하여 키워드별로 문맥에 따라 차별적으로 해당 키워드를 높은 성능으로 벡터화할 수 있는 모델로 각광을 받고 있다.

따라서 본 발명의 일 실시 예에 의한 자연어 처리모델은 학습 데이터를 BERT 자연어 처리모델을 통해 학습하여 각각의 키워드를 벡터화하는 장연어 처리모델일 수 있지만, 이에 국한되지는 않는다.

어떠한 경우든 본 발명의 기술적 사상에 의하면 컨텍스트 센서티브한 자연어 처리모델을 통해 문맥을 반영한 각각의 키워드의 벡터화 결과를 이용할 경우, 종래에 단순히 통계적인 빈도 등을 통해 연관 키워드를 결정하는 방식에 비해 훨씬 높은 성능(즉, 단순히 특정 키워드와 같이 등장하는 빈도는 높지만 실질적인 연관성은 거의 없는 일반적인 의미의 단어들)을 가질 수 있다.

한편, 본 발명의 기술적 사상은 네트워크상의 비정형 데이터를 통해 특정 금융종목의 연관 키워드를 결정함으로써 다수의 컨텐츠 생산자의 다양한 의견이 반영되면서도 시간적 경향성을 반영할 수 있다는 장점을 그대로 보유하면서도, 네트워크상에 수집된 비정형 데이터를 이용하는 경우 발생할 수 있는 문제점을 해결할 수 있는 기술적 사상을 같이 제공할 수 있다.

네트워크상에 수집된 비정형 데이터를 이용하는 경우 발생할 수 있는 대표적인 문제점은 정보의 중복성일 수 있다. 즉, 동일하거나 실제로 거의 동일한 내용이 다수의 컨텐츠 생산자에 의해 별개의 비정형 데이터로써 생산되는 문제점이 있다. 이러한 경우 실질적으로는 한 개의 컨텐츠(텍스트 문서)임에도 다수의 생산자에 의해 반복적으로 업로드되거나 약간의 변경만 가해진 채 업로드되는 경우, 상기 한 개의 컨텐츠가 자연어 처리모델에 의해 반복적으로 학습되는 문제가 발생할 수 있다.

그리고 이는 해당 컨텐츠에 자연어 처리모델이 오버피팅(over fitting)되는 문제점 즉, 실제로는 크게 연관성이 없거나 연관성의 정도가 낮지만 높은 연관성을 가지도록 학습되는 경향을 가질 수 있다.

이를 위해 상기 연관 키워드 결정시스템(100)은 비정형 데이터를 소정의 기준을 통해 필터링하여 중복성을 해소하는 기술적 사상을 제공할 수 있다.

결국 본 발명의 기술적 사상에 따르면 네트워크상의 다수의 비정형 데이터 즉, 다수의 생산자가 생산하는 다수의 라이브(live)한 정보들로부터 특정 금융종목의 연관 키워드를 의미를 어느 정도 이해할 수 있는 컨텍스트 센서티브한 자연어 처리모델을 통해 정확도 높게 결정하되, 네트워크상의 다수의 비정형 데이터를 이용하는 경우에 발생할 수 있는 문제점까지 해결할 수 있는 효과가 있다.

이러한 기술적 사상을 구현하기 위한 상기 연관 키워드 결정시스템(100)의 개략적인 구성은 도 2 및 도 3을 참조하여 설명하도록 한다.

도2는 본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정을 수행하는 시스템의 개략적인 논리적 구성을 설명하기 위한 도면이다. 또한 도3은 본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정을 수행하는 시스템의 개략적인 물리적 구성을 설명하기 위한 도면이다.

도2를 참조하면, 본 발명의 기술적 사상에 따른 연관 키워드 결정시스템(100)은 제어모듈(110), 데이터 수집모듈(120), 자연어 처리모델(130)을 포함할 수 있다. 실시 예에 따라 상기 연관 키워드 결정시스템(100)은 필터링 모듈(140), 문서벡터 생성모듈(150), 및/또는 DB(160)를 더 포함할 수 있다.

상기 연관 키워드 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비한 논리적인 구성을 의미할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 연관 키워드 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 연관 키워드 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예컨대, 상기 제어모듈(110), 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 각각은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 제어모듈(110), 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 각각을 구성하는 소프트웨어 및/또는 하드웨어의 결합 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 구성들이 서로 유기적으로 결합되어 각각의 상기 모듈들을 구현할 수도 있다.

또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.

한편, 상기 연관 키워드 결정시스템(100)은 물리적으로는 도 3에 도시된 바와 같은 구성을 가질 수 있다. 상기 연관 키워드 결정시스템(100)은 은 본 발명의 기술적 사상을 구현하기 위한 프로그램이 저장되는 메모리(저장장치)(120-1), 및 상기 메모리(120)에 저장된 프로그램을 실행하기 위한 프로세서(110-1)가 구비될 수 있다.

상기 프로세서(110-1)는 상기 연관 키워드 결정시스템(100)의 구현 예에 따라, CPU, 모바일 프로세서 등 다양한 명칭으로 명명될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. 또한, 도 2에서 설명한 바와 같이 상기 연관 키워드 결정시스템(100)은 복수의 물리적 장치들이 유기적으로 결합되어 구현될 수도 있으며, 이러한 경우 상기 프로세서(110-1)는 물리적 장치별로 적어도 한 개 구비되어 본 발명의 연관 키워드 결정시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 메모리(120-1)는 상기 프로그램이 저장되며, 상기 프로그램을 구동시키기 위해 상기 프로세서가 접근할 수 있는 어떠한 형태의 저장장치로 구현되어도 무방하다. 또한 하드웨어적 구현 예에 따라 상기 메모리(120-1)는 어느 하나의 저장장치가 아니라 복수의 저장장치로 구현될 수도 있다. 또한 상기 메모리(120-1)는 주기억장치 뿐만 아니라, 임시기억장치를 포함할 수도 있다. 또한 휘발성 메모리 또는 비휘발성 메모리로 구현될 수도 있으며, 상기 프로그램이 저장되고 상기 프로세서에 의해 구동될 수 있도록 구현되는 모든 형태의 정보저장 수단을 포함하는 의미로 정의될 수 있다.

상기 연관 키워드 결정시스템(100)은 실시 예에 따라 본 발명의 기술적 사상에 따라 금융종목별로 연관 키워드를 결정하고 이를 활용하고자 하는 주체(예컨대, 증권사, 은행, 또는 기타 서비스 사업자 등)가 운영하고 실시하는 시스템일 수 있고, 웹 서버, 컴퓨터 등 다양한 방식으로 구현될 수 있으며, 본 명세서에서 정의되는 기능을 수행할 수 있는 어떠한 형태의 데이터 프로세싱 장치도 포함하는 의미로 정의될 수 있다.

또한 상기 연관 키워드 결정시스템(100)의 실시 예에 따라 다양한 주변장치들(주변장치 1 내지 주변장치 N, 130-1, 131-1)이 더 구비될 수 있다. 예컨대, 키보드, 모니터, 그래픽 카드, 통신장치 등이 주변장치로써 상기 연관 키워드 결정시스템(100)에 더 포함될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

이하, 본 명세서에서 소정의 모듈이 어떤 기능을 수행한다고 함은 상기 프로세서(110-1)가 상기 메모리(120-1)에 구비된 프로그램을 구동하여 상기 기능을 수행하는 것을 의미함을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 제어모듈(110)은 본 발명의 기술적 사상을 구현하기 위해 투자시스템(100)에 포함된 다른 구성(예컨대, 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 등)의 기능 및/또는 리소스를 제어할 수 있다.

상기 데이터 수집모듈(120)은 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집할 수 있다. 이를 위해 상기 데이터 수집모듈(120)은 소정의 정보 소스 시스템이 제공하는 웹 또는 앱의 정보를 크롤링하거나 상기 시스템이 제공하는 API를 통해 수집할 수 있다. 이러한 정보 소스 시스템은 SNS(Social Network Service) 시스템, 언론사, 거래소, 금융기관, 포털, 카페, 블로그 등 다양할 수 있다.

또한 특정 금융종목에 상응하는지 여부와 무관하게 수집 가능한 데이터를 모두 수집한 후 특정 금융종목에 상응하는 데이터만을 추출하거나 또는 특정 금융종목에 상응하는 데이터만을 상기 시스템으로부터 수집할 수도 있다.

그러면 상기 제어모듈(110)은 수집한 상기 비정형 데이터들(예컨대, 금융관련 뉴스, 공시, 사용자가 업로드한 컨텐츠, 애널리스트 리포트 등의 다양한 문서 컨텐츠 또는 이들에 대한 댓글 등)에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출할 수 있다.

이를 위해 상기 제어모듈(110)은 상기 자연어 처리모델(130)을 통해 수집된 비정형 데이터들 중 전부 또는 일부인 학습대상 데이터들을 학습하도록 할 수 있다.

상기 자연어 처리모델(130)은 전술한 바와 같이 적어도 컨텍스트 센서티브(context-senstivie)하게 학습대상 데이터들에 포함된 키워드를 각각 벡터화할 수 있는 모델일 수 있다.

예컨대 상기 자연어 처리모델(130)은 BERT 등과 같이 비지도 학습을 통해 대량의 코퍼스(corpus)를 학습할 수 있는 모델일 수 있고, 상기 학습대상 데이터들만을 훈련하거나 또는 상기 학습대상 데이터들이 아닌 다른 대량의 문서들 즉 코퍼스들을 먼저 학습(pretrained model)한 후 상기 학습대상 데이터들을 추가로 훈련하는 방식으로 학습될 수 있다.

예컨대, 도5는 본 발명의 실시 예에 따른 자연어 처리모델의 개념을 설명하기 위한 도면인데, 도5에 도시된 바와 같이 소정의 자연어 처리모델(130, 예컨대, BERT 등의 NLP 모델)이 구비될 수 있다.

상기 자연어 처리모델(130)은 학습대상 데이터들(예컨대, D1, D2, D3, D4 등)에 대한 학습을 수행한다.

상기 자연어 처리모델(130)은 학습대상 데이터들이 충분히 많은 경우에는 학습대상 데이터들만으로 학습이 수행될 수도 있지만, 통상적으로 학습대상 데이터들만으로는 충분한 양이 안 될 가능성이 높으므로 상기 자연어 처리모델(130)은 상기 학습대상 데이터들이 아닌 다른 대량의 데이터들(예컨대, BERT의 경우 wiki 데이터)로 이미 사전 학습된(pre-trained) 모델일 수 있다.

그리고 상기 학습대상 데이터들을 추가로 학습하여 상기 학습대상 데이터들에 포함된 키워드들 각각에 대한 워드벡터를 획득할 수 있다.

학습대상 데이터는 상기 연관 키워드 결정시스템(100)이 수집한 특정 금융종목에 상응하는 비정형 데이터들 중에서 전술한 바와 같이 중복성 문제를 해결하고 남은 데이터들일 수 있다.

이러한 중복성 문제를 해결하기 위한 기술적 사상은 상세히 후술하도록 하며, 소정의 기준을 통해 서로 다른 비정형 데이터들이 중복성이 있다고 판단되면 이들 중 하나(또는 실시 예에 따라 몇 개)만을 남김으로써 학습대상 데이터들이 특정될 수 있다.

어떠한 경우든 상기 자연어 처리모델(130)은 학습대상 데이터들에 포함되어 있는 키워드들 각각을 문맥(context)을 반영하여 벡터화할 수 있는 모델일 수 있다.

그러면 상기 제어모듈(110)은 학습된 자연어 처리모델(130)을 통해 획득된 상기 특정 금융종목의 키워드(즉, 상기 특정 금융종목의 명칭)에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하고, 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출할 수 있다.

성능이 뛰어난 즉, 잘 훈련된 자연어 처리모델(130)은 키워드를 벡터화하면서 동일하거나 유사한 의미를 가지는 키워드는 벡터공간 상에서 가까운 위치에 존재할 수 있도록 벡터화를 수행할 수 있다.

그리고 이렇게 벡터화된 키워드들은 벡터 공간 상(예컨대, BERT의 경우 768차원 공간)에 매핑될 수 있다.

이러한 개념은 도 6을 참조해 설명하도록 한다.

도6은 본 발명의 실시 예에 따라 워드벡터를 통한 연관 키워드를 추출하는 개념을 설명하기 위한 도면이다.

도6을 참조하면, 학습된 자연어 처리모델(130)을 통해 상기 학습대상 데이터들에 포함된 각각의 키워드들은 벡터화될 수 있으며, 이를 도시하면 도 6에 도시된 바와 같을 수 있다.

도6에서 제1벡터(10)은 특정 금융종목에 해당하는 키워드(즉 명칭)를 나타내는 벡터일 수 있다.

그리고 상기 키워드와 밀접한 연관이 있는 것으로 자연어 처리모델(130)을 통해 학습된 키워드들 각각의 벡터들(예컨대, 20 내지 27)은 벡터공간 상에서 가까운 위치에 매핑되게 된다.

이때 상기 자연어 처리모델(130)은 컨텍스트를 고려하여 워드 임베딩(키워드 벡터화)을 수행하며, 이에 따라 단순히 특정 금융종목에 해당하는 키워드와 함께 기재된 경우가 많지만 다른 금융종목과도 함께 기재된 경우 등 과 같이 실질적인 의미상으로 큰 연관성이 없는 단어들(예컨대, 주식에서 일반적으로 쓰이는 키워드들, '~이다' 등의 용언 등)은 상기 특정 금융종목에 대응되는 제1벡터(10)와는 벡터 공간 상에서 거리가 상대적으로 멀게 매핑될 수 있다.

따라서 상기 제어모듈(110)은 학습대상 데이터들에 포함된 키워드들이 상기 자연어 처리모델(130)에 의해 각각 벡터화된 결과를 통해 상기 특정 금융종목의 연관 키워드를 추출할 수 있다.

예컨대, 상기 제1벡터(10)와 미리 정해진 일정 기준 예컨대, 코사인 유사도(Cosine Similarity)가 일정 값 이상이거나 상기 제1벡터와 유클리디안 거리(Euclidean Distance)가 일정 값 이하인 벡터들(예컨대, 20 내지 27)을 추출하고 추출된 벡터들에 대응되는 키워드를 연관 키워드로 추출할 수 있다.

코사인 유사도 또는 유클리디언 거리는 모두 벡터 공간 상에서 벡터의 유사도를 측정하기 위해 사용될 수 있는 지표임은 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

또한 상기 일정 값을 얼마로 결정할지는 실험을 통해 결정할 수 있음은 물론이다.

이렇게 추출된 연관 키워드는 서비스의 관리자 또는 추가적인 프로세싱에 의해 더 제한될 수도 있지만, 어떠한 경우든 이러한 방식으로 추출된 연관 키워드들이 상기 특정 금융종목의 연관 키워드 또는 그 후보로 특정될 수 있다.

한편 상기 연관 키워드 결정시스템(100)은 특정 금융종목에 상응하는 비정형 데이터들을 전부 학습대상 데이터로 학습하는 것이 아니라, 소정의 필터링을 수행하고 수행결과 남은 비정형 데이터들만을 학습대상 데이터로 특정할 수 있다.

이를 위해 상기 필터링 모듈(140)은 상기 연관 키워드 결정시스템(100)이 수집한 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행할 수 있다. 그리고 필터링을 수행한 후에 남은 비정형 데이터들이 학습대상 데이터로 특정될 수 있다.

일 예에 의하면, 상기 필터링 모듈(140)은 수집한 비정형 데이터들 중복성이 높은 비정형 데이터들은 필터링을 통해 걸러내고 학습대상 데이터들 간에는 중복성이 낮은 것들만 특정할 수 있다.

이를 위해 상기 필터링 모듈(140)은 비정형 데이터들 즉, 문서들 간에 유사도가 일정 수준 이상 높은 문서들 간에 클러스터링(clustering) 또는 그루핑(grouping)할 수 있다.

이를 위해 상기 연관 키워드 결정시스템(100)은 각각의 비정형 데이터들을 나타내는 문서 벡터를 생성하고 이를 활용할 수 있다. 문서 벡터는 해당 문서를 특징짓기 위한 벡터이며 컨텍스트를 고려하여 워드 임베딩이 잘 수행되는 자연어 처리모델(130)을 통해서 획득되는 워드 벡터들을 이용하여 해당 워드 벡터에 대응하는 키워드들을 포함하는 문장(sentence)을 특징짓는 문장 벡터(sentence vector) 또는 해당 문장들을 포함하는 해당 문서를 특징짓는 문서 벡터(document vector)를 정의하는 방식은 다양할 수 있음은 물론이다.

물론 문서 벡터를 생성하기 위해서 상기 자연어 처리모델(130)이 생성한 워드벡터를 반드시 이용해야 하는 것은 아니며, 단순히 문서간의 유사성을 판단하기 위한 다양한 공지의 문서 벡터(예컨대, TF-IDF 또는 이들을 활용한 방식) 생성 방식이 이용될 수 있음은 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

이러한 문서벡터의 생성은 문서벡터 생성모듈(150)에 의해 수행될 수 있다.

일 예에 의하면 상기 문서벡터 생성모듈(150)은 상기 자연어 처리모델(130)을 통해 획득되는, 문서에 포함된 키워드들 각각의 워드벡터를 활용하여 문서벡터를 생성할 수 있다. 워드벡터를 활용하여 문장벡터를 생성하고 이를 이용하여 문서벡터를 생성할 수도 있고, 워드벡터로부터 바로 문서벡터를 정의할 수도 있다. 문장벡터 및/또는 문서벡터를 도출하기 위해 문장 또는 문서에 포함된 키워드 각각의 워드벡터를 소정의 방식으로 연산할 수 있고, 각각의 방식은 실시 예에 따라 다양해질 수 있음은 물론이다. 특히 BERT와 같이 양방향으로 깊은 어텐션을 고려하여 워드 임베딩을 수행하는 모델의 경우, 워드벡터를 통해 생성하는 문장벡터 또는 문서벡터의 성능은 높아질 수 있다.

그러면 상기 필터링 모듈(140)은 상기 문서벡터 생성모듈(150)에 의해 생성된 비정형 데이터들 각각에 대한 문서벡터에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 할 수 있다. 문서벡터간의 유사도 역시 전술한 바와 같은 코사인 유사도 또는 유클리디언 거리가 이용될 수 있으며, 클러스트링의 기준 값을 얼마로 정할지는 다양한 실시 예가 가능할 수 있다.

그러면 상기 필터링 모듈(140)은 클러스터링된 비정형 데이터 클러스터들 각각에서 일부를 학습대상 데이터에서 제외하도록 필터링을 수행할 수 있다.

한편 본 발명의 기술적 사상에 의하면 클러스터링을 수행할 때 비정형 데이터들 각각의 생성시점(예컨대, 업로드 시간 등)을 더 고려하여 클러스터링이 수행될 수도 있다.

이는 통상적으로 어떤 한 컨텐츠가 생성되면, 상기 컨텐츠의 생성시점과 유사한 시점에 상기 컨텐츠에 기초한 중복 컨텐츠(예컨대, 동일하거나 유사한 컨텐츠가 서로 다른 게시자에 의해 업로드되는 컨텐츠)가 생성되는 경우가 빈번하며 이때는 중복 컨텐츠를 필터링하는 것이 바람직할 수 있다. 하지만 내용이 유사한 컨텐츠라도 일정 시간이상의 차이가 있는 경우에는 그 자체로 독자적인 컨텐츠로서 다수의 사용자들에 의해 인식되고 취급될 수 있기 때문이다.

따라서 설령 그 의미가 유사한 컨텐츠 즉 비정형 데이터라 하더라도 그 생성시점의 시간 간격이 큰 경우에는, 새롭게 시장에 영향을 미치거나 사용자의 인식에 영향을 미칠 수 있는 새로운 컨텐츠로 취급되는 것이 오히려 바람직할 수 있다. 따라서 본 발명의 기술적 사상은 이러한 개념을 수용하여 비정형 데이터들에 대한 필터링을 수행할 수 있다.

이러한 일 예는 도7에 도시된 바와 같을 수 있다.

도7은 본 발명의 실시 예에 따라 필터링을 수행하는 개념을 설명하기 위한 도면이다.

도7을 참조하면, 상기 문서벡터 생성모듈(150)에 의해 네트워크로부터 비정형 데이터들 각각에 대응하는 문서벡터들(예컨대, D1 내지 D19)이 생성될 수 있다.

도7에 도시된 각각의 문서벡터들(예컨대, D1 내지 D19)은 문서벡터들간의 유사도에 의해 어느 하나의 클러스터로 클러스터링된 문서벡터들일 수 있다.

일 실시 예에 의하면, 어느 하나의 클러스터로 분류된 문서벡터들(예컨대, D1 내지 D19)은 실제로 내용이 유사한 비정형 데이터들이므로 이중에서 어느 하나의 문서 또는 필요에 따라 가장 유사도가 낮은 몇 개의 문서 즉, 비정형 데이터만을 학습대상 데이터로 남기고 나머지는 필터링을 수행하여 학습대상 데이터를 특정할 수 있다. 그리고 이러한 과정을 각각의 클러스터들에 대해 수행할 수 있다.

또한 실시 예에 따라서는 상기 필터링 모듈(140)은 문서의 유사도뿐만 아니라 해당 문서의 생성시점에 더 기초하여 클러스터링을 수행할 수도 있다. 즉, 문서의 유사도가 일정 수준 이상이면서 문서의 생성시간이 일정 간격내인 조건을 만족하는 문서들간에 클러스터링이 수행될 수 있으며, 그 결과는 도7에 도시된 바와 같을 수 있다.

즉, 문서의 유사도만으로는 하나의 클러스터로 분류된 문서벡터들(예컨대, D1 내지 D19)이 문서의 생성시간이라는 기준을 통해 3개의 세부 클러스터(Dt1, Dt2, Dt3)로 분류될 수 있다.

그러면 상기 필터링 모듈(140)은 각각의 세부 클러스터(Dt1, Dt2, Dt3)에서 필터링을 수행하고 남은 문서들 즉, 비정형 데이터들 1개 또는 몇 개를 학습대상 데이터로 특정할 수 있다.

이처럼 문서의 생성시간에 더 기초하여 클러스터링을 수행하여 필터링을 수행하는 것은 단순히 비정형 데이터의 수집을 세분화하는 것에 비해 보다 효과적이다. 왜냐하면 비정형 데이터의 수집은 자연어 처리모델(130)의 학습결과에 영향을 미칠 정도로 데이터의 양이 충분히 존재하여야 함으로 상대적으로 긴 주기(예컨대, 몇 개월) 단위로 수행되는 것이 바람직하다. 하지만 이렇게 상대적으로 긴 시간동안 수집된 비정형 데이터들 중는 실제로 어느 한 개의 컨텐츠에 기초하여 중복성이 있도록 생성된 컨텐츠가 존재할 뿐만 아니라, 의미는 유사하지만 별개의 생성자에 의해 별개로 생성된 독자적 컨텐츠일 수도 있다. 따라서 후자의 경우는 설령 그 의미는 유사하더라도 별개의 정보로써 학습대상 데이터에 포함되는 것이 바람직할 수 있다.

따라서 상대적으로 긴 주기 단위로 특정 금융종목에 상응하는 비정형 데이터들을 수집한 후, 비정형 데이터(문서)들 간의 유사도 및 생성시간 기준(예컨대, 1일 또는 2일)으로 상대적으로 짧은 기간의 시간범위 내의 문서들을 클러스터링을 수행하는 것이 중복성은 제거하면서도 다수의 컨텐츠 생성자들의 개별적인 견해 또는 분석이 담긴 컨텐츠에 따라 연관 키워드를 생성하기 위한 본 발명의 취지를 잘 달성할 수 있다.

이에 따라 상기 필터링 모듈(140)은 상기 세부 클러스터(Dt1, Dt2, Dt3)들 각각에서 한 개 또는 몇 개의 문서벡터들에 상응하는 문서들만을 학습대상 데이터로 남기는 필터링을 수행할 수 있다.

한편, 본 발명의 기술적 사상은 네트워크 상의 다수의 컨텐츠 생성자의 견해나 분석 또는 뉴스 등을 통해 특정 금융종목의 연관 키워드를 결정하는 특징을 가지므로, 이러한 연관 키워드의 변화 또는 추이가 상기 특정 금융종목 또는 이에 해당하는 회사의 변화 또는 이들에 대한 다수의 사람들의 인식의 변화를 반영하는 것일 수 있다.

따라서 특정 금융종목의 연관 키워드의 변화가 있을 경우 이를 빠른 시간 내에 인식하는 경우에는 상대적으로 해당 변화를 고려한 투자전략의 생성이 가능할 수 있다.

이를 위해 상기 연관 키워드 결정시스템(100)은 소정의 주기별로 연관 키워드 결정을 수행할 수 있다.

그리고 각 주기별로 미리 정해진 기간 내에 생성된 비정형 데이터들로써 연관 키워드의 결정을 수행할 수 있고, 그 결과들을 소정의 DB(160)에 저장 및 관리함으로써 특정 금융종목의 연관 키워드의 변화를 모니터링할 수 있다.

이러한 일 예는 도8을 참조하여 설명하도록 한다.

도8은 본 발명의 실시 예에 따라 연관 키워드의 변화를 설명하기 위한 도면이다.

도8을 참조하면, 상기 제어모듈(110)은 상술한 바와 같은 방식으로 특정 금융종목(예컨대, S1, S2 등)의 연관 키워드를 결정할 수 있다.

예컨대, 제1주기(P1)에서 상기 특정 금융종목(예컨대, S1)의 연관 키워드들(예컨대, K1, K2, K3, K4)가 결정되었고, 제2주기(P2)에서 다시 연관 키워드를 결정하였지만 제1주기(P1)에서 결정된 연관 키워드들과는 차이가 없을 수 있다. 즉, 제2주기(P2)에서 결정된 연관 키워드들 역시 제1주기(P1)과 동일한 K1, K2, K3, K4일 수 있다.

하지만 제3주기(P3)에서 결정된 연관 키워드는 K1, K3, K4, K5일 수 있다. 즉, 새로운 연관 키워드(K5)가 제3주기에서 상기 특정 금융종목(예컨대, S1)의 연관 키워드로 결정될 수 있으며, 이는 실제 상기 특정 금융종목(예컨대, S1)이나 이에 해당하는 회사에 K5라는 연관 키워드와 관련된 이슈가 발생했거나 적어도 그 이슈가 발생한 것으로 인식한 사용자들이 등장했음을 의미할 수 있다.

이러한 경우 상기 제어모듈(110)은 소정의 알람 프로세스를 수행할 수 있으며, 이러한 알람 프로세스는 상기 연관 키워드 결정시스템(100)을 운영하는 주체의 관리자 또는 미리 지정된 알림통보 대상자나 머신에게 새로운 연관 키워드가 등장했음을 통보하는 절차일 수 있다.

이를 통해 해당 통보를 수신한 객체는 이를 확인하고 새로운 투자전략의 검토나 수립을 빠르게 진행할 수 있는 효과가 있다.

상술한 바와 같은 본 발명의 기술적 사상에 따른 인공지능 기반의 종목연관 키워드 결정방법을 간략히 도식화하면 도4와 같을 수 있다.

도4는 본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정방법을 구현하기 위한 데이터 플로우를 예시적으로 나타낸다.

도4에 도시된 바와 같이, 상기 연관 키워드 결정시스템(100)은 연관 키워드를 결정할 소정의 금융종목을 특정할 수 있다(S100). 그리고 특정한 특정 금융종목에 상응하는 비정형 데이터를 수집할 수 있다(S200).

그러면 상기 연관 키워드 결정시스템(100)은 수집한 비정형 데이터에 기초하여 상기 특정 금융종목의 연관 키워드를 결정할 수 있다(S300).

연관 키워드를 결정하기 위해 전술한 바와 같이 컨텍스트 센서티브한 자연어 처리모델이 이용될 수 있고, 상기 자연어 처리모델의 학습에 이용되는 학습대상 데이터는 수집된 비정형 데이터들 전부가 아니라 소정의 필터링 프로세스가 수행된 후에 특정될 수 있음은 전술한 바와 같다.

또한, 이러한 프로세스는 소정의 주기 즉, 미리 정해진 일정시간이 경과하면 반복적으로 수행될 수 있다(S400).

그리고 새로운 연관 키워드가 결정되면 소정의 알람 프로세스를 수행할 수 있다.

본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

인공지능 기반의 종목연관 키워드 결정방법에 있어서,
시스템이 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하는 단계;
상기 시스템이 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계를 포함하며,
상기 시스템이 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계는,
상기 시스템이 수집된 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행하는 단계;
필터링을 수행한 후에 남은 비정형 데이터들이 학습대상 데이터로 특정되어 상기 학습대상 데이터들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습을 수행하는 단계;
수행결과 획득된 상기 자연어 처리모델을 통해 산출되는 상기 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하는 단계; 및
추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출하는 단계를 포함하며,
상기 시스템이 수집한 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행하는 단계는,
상기 시스템이 상기 수집한 비정형 데이터들 각각에 대한 문서 벡터(document vector)를 생성하는 단계;
상기 시스템이 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상이며 비정형 데이터의 생성시간이 미리 정해진 시간범위 내인 비정형 데이터들 간에 클러스터링을 수행하는 단계; 및
상기 시스템이 클러스터링된 비정형 데이터 클러스터들 각각에서 일부를 학습대상 데이터에서 제외하도록 필터링을 수행하는 단계를 포함하는 인공지능 기반의 종목연관 키워드 결정방법.
삭제
삭제
삭제
제1항에 있어서, 상기 인공지능 기반의 종목연관 키워드 결정방법은,
상기 시스템이 미리 정해진 주기별로 상기 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하는 단계 및 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하는 단계를 수행하는 것을 특징으로 하며,
상기 특정 금융종목에 대해 기존에 추출되지 않았던 새로운 연관 키워드가 추출되는 경우, 소정의 알람 프로세스를 수행하는 단계를 더 포함하는 인공지능 기반의 종목연관 키워드 결정방법.
제1항에 있어서, 상기 수행결과 획득된 상기 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하는 단계는,
상기 제1벡터와 코사인 유사도(Cosine Similarity)가 일정 값 이상이거나 상기 제1벡터와 유클리디안 거리(Euclidean Distance)가 일정 값 이하인 상기 제2벡터를 적어도 하나 추출하는 단계를 포함하는 인공지능 기반의 종목연관 키워드 결정방법.
종목연관 키워드 결정방법에 있어서,
시스템이 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하는 단계;
상기 시스템이 상기 수집한 비정형 데이터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하는 단계;
상기 시스템이 클러스터링된 비정형 데이터 클러스터 각각에서 일부를 제외하도록 필터링을 수행하는 단계; 및
필터링을 수행한 후에 남은 비정형 데이터들에 기초하여 상기 특정 금융종목에 상응하는 연관 키워드를 추출하는 단계를 포함하며,
상기 시스템이 상기 수집한 비정형 데이터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하는 단계는,
상기 시스템이 상기 유사도가 일정 수준 이상이며 비정형 데이터의 생성시간이 미리 정해진 시간범위 내인 비정형 데이터들 간에 클러스터링을 수행하는 단계를 포함하는 종목연관 키워드 결정방법.
삭제
데이터 처리장치에 제1항, 제5항 내지 제7항 중 어느 한 항에 기재된 방법을 수행시키기 위한, 컴퓨터 판독가능한 기록매체에 기록된 컴퓨터 프로그램.
프로세서;
프로그램이 저장된 저장장치를 포함하며,
상기 프로세서는 상기 프로그램을 구동하여 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하고, 수집한 비정형 데이터들에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출하되,
수집된 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행하고, 필터링을 수행한 후에 남은 비정형 데이터들이 학습대상 데이터로 특정되어 상기 학습대상 데이터들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습을 수행하여 획득된 상기 자연어 처리모델을 통해 산출되는 상기 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하고, 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출하는 것을 특징으로 하며,
상기 비정형 데이터에 대한 필터링을 수행하기 위해, 상기 수집한 비정형 데이터들 각각에 대한 문서 벡터(document vector)를 생성하고, 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상이며 비정형 데이터의 생성시간이 미리 정해진 시간범위 내인 비정형 데이터들 간에 클러스터링을 수행하고, 클러스터링된 비정형 데이터 클러스터들 각각에서 일부를 학습대상 데이터에서 제외하도록 필터링을 수행하는 인공지능 기반의 종목연관 키워드 결정시스템.
프로세서;
프로그램이 저장된 저장장치를 포함하며,
상기 프로세서는 상기 프로그램을 구동하여, 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집하고, 수집한 비정형 데이터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하며, 클러스터링된 비정형 데이터 클러스터 각각에서 일부를 제외하도록 필터링을 수행하고, 필터링을 수행한 후에 남은 비정형 데이터들에 기초하여 상기 특정 금융종목에 상응하는 연관 키워드를 추출하되,
상기 수집한 비정형 데이터들에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 하기 위해, 상기 유사도가 일정 수준 이상이며 비정형 데이터의 생성시간이 미리 정해진 시간범위 내인 비정형 데이터들 간에 클러스터링을 수행하는 인공지능 기반의 종목연관 키워드 결정시스템.