KR102517743B1

KR102517743B1 - 인공지능 기반의 투자지표 결정방법 및 그 시스템

Info

Publication number: KR102517743B1
Application number: KR1020190178569A
Authority: KR
Inventors: 김동진; 김정민; 송민정; 김준석; 임은주; 박경자; 이현용; 김병훈
Original assignee: 주식회사 씽크풀
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-04-05
Also published as: KR20210086817A

Abstract

인공지능 기반의 투자지표 결정방법 및 그 시스템이 개시된다.
상기 인공지능 기반의 투자지표 결정방법은 시스템이 특정 금융종목 또는 상기 특정 금융종목의 연관 키워드에 대해 상응하는 복수의 비정형 문서들을 수집하는 단계, 상기 시스템이 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계를 포함하며, 상기 시스템이 수집한 비정형 문서들에 기초하여 상기 비정형 문서들이 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계는 상기 시스템이 수집된 비정형 문서들 중 전부 또는 일부인 판단대상 문서들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습된 영향 판단모델-상기 영향 판단모델은 상기 판단대상 문서들에 포함된 개별문서 자체 또는 상기 개별문서에 포함된 문장별로 투자에 긍정적 영향을 미치는지 또는 정적 영향을 미치는지 여부를 포함하는 분류결과를 출력할 수 있도록 학습된 모델임-의 출력결과에 기초하여 상기 투자영향지표를 결정하는 단계를 포함한다.

Description

인공지능 기반의 투자지표 결정방법 및 그 시스템{Method and system for investment indicators related with stock item based on artificial intelligence}

본 발명은 인공지능 기반의 종목연관 키워드 결정방법 및 그 시스템에 관한 것이다. 또한 인공지능 기반의 투자지표 결정방법 및 그 시스템에 관한 것이다.

보다 상세하게는 특정 금융상품(예컨대, 주식, 채권, 선물/옵션 등)에 대한 연관 키워드를 네트워크 상의 비정형 데이터로부터 인공지능 기반으로 효과적으로 추출함으로써 상기 특정 금융상품에 대한 관련된 이슈를 포괄적으로 확인하면서도 투자에 활용할 수 있도록 하는 방법 및 그 시스템에 관한 것이다.

또한 특정 금융상품 및/또는 상기 특정 금융상품의 연관 키워드를 활용하여 인공지능 기반으로 신뢰성 있는 투자지표를 결정할 수 있는 방법 및 그 시스템에 관한 것이다.

특정 금융상품(예컨대, 특정 주식종목 등)과 연관된 키워드를 알고 있다면 해당 키워드에 대한 정보의 검색 등을 통해 상기 특정 금융상품의 가격변동을 예측하는 등과 같이 매우 유용할 수 있다.

따라서 종래에도 특정 금융상품별로 연관 키워드를 정의하고 이를 활용하고자 하는 시도가 있어왔다.

이러한 기술적 사상으로는 한국특허출원(출원번호 1020140003377, 키워드 연동 투자 정보 제공 시스템), 한국특허출원(출원번호 1020150149810, 연관 종목 정보 통합 제공 방법) 등에 개시된 바 있다.

하지만 종래의 기술적 사상은 연관 키워드 또는 특정 금융상품의 연관 정보를 사람이 수동으로 일일이 유지하는 방식이거나 웹 상에서 노출빈도 등을 이용하는 방식이어서 사람의 국한된 지식에 의존하거나 또는 실질적으로 크게 관련이 없는 키워드라도 특정 금융상품의 명칭과 같이 등장하는 일반적인 단어들이 연관 키워드로 선정되는 등 정확성이 상당히 낮은 문제점이 있었다.

따라서 특정인의 지식과 경험에 의존하는 것이 아니라 네트워크 상에서 유통되는 다양한 비정형 데이터로부터 특정 금융상품과 유의미한 정도로 연관성이 있는 키워드를 상대적으로 정확하게 추출해낼 수 있는 기술적 사상이 요구된다.

또한 종래에 소셜 미디어 등의 네트워크 상에 다수의 비정형 데이터를 통해 주가 예측을 하고자 하는 시도가 있었다. 이러한 시도는 한국등록특허(등록번호 10-1531970호, "소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측시스템")에 개시된 바 있다. 하지만 이러한 종래의 시도는 단어 또는 키워드별로 주가에 긍정적인 또는 부정적인 영향을 미치는지를 판단하여 종합적으로 해당 문서가 긍정적 영향을 미치는지 부정적 영향을 미치는지를 판단하는 방식이다.

하지만 이러한 방식은 개별적인 키워드별로 긍부정 판단을 수행하기 때문에, 키워드별로 긍부정 판단을 수행한 결과를 이용하여 적절한 알고리즘(예컨대, 나이브 베이즈 분류(Naive Bayesian))을 통해 문장 또는 문서 전체가 긍정적인지 부정적인지를 분류한다고 하더라도 실제로는 오류가 클 수밖에 없는 문제점이 있다. 즉, 문장 또는 문서 안에 존재하는 키워드별 긍부정 판단이 아무리 잘 수행된다고 하더라도 문장 또는 문서가 긍정적인 영향을 미치는지 부정적 영향을 미치는지에 대한 판단결과는 오류가 클 수 밖에 없다.

또한 종래의 방식은 키워드별로 긍부정의 감성평가를 수행하는데 이러한 경우는 미리 정해진 또는 정형적으로 자주 쓰이는 키워드(예컨대, 공시 데이터 또는 뉴스 등에서 사용되는 용어들)에 대해서는 잘 동작할 수 있지만 일반 사용자들이 편하게 사용하는 구어체나 자주 사용하지 않는 키워드를 이용하여 해당 금융상품에 대한 의견 또는 분석을 하는 경우에는 정확도가 상당히 낮아지는 문제점이 있다.

따라서 특정 금융상품이나 특정 금융상품의 연관 키워드에 상응하는 비정형 데이터 즉, 문서들로부터 키워드가 아닌 문장 또는 문서 단위로 금융상품의 가치에 긍정적 영향 또는 부정적 영향을 미칠 수 있는지를 판단하는 인공지능 기반의 딥러닝 모델을 설계하고 이를 통해 유의미하고 신뢰성있는 투자지표를 결정할 수 있는 기술적 사상이 요구된다.

-한국특허출원 출원번호(1020140003377, "키워드 연동 투자 정보 제공 시스템") -한국특허출원(출원번호 1020150149810, "연관 종목 정보 통합 제공 방법") -한국등록특허(등록번호 10-1531970, "소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측시스템")

본 발명이 이루고자 하는 기술적인 과제는 소셜 미디어와 같이 다수의 비정형 데이터(비정형 문서, 예컨대, 뉴스, 사용자들이 작성한 게시글, 댓글 등)의 생산자들이 생산하는 정보로부터 특정 금융상품에 실질적으로 유의미한 연관 키워드를 인공지능 기반으로 추출할 수 있는 기술적 사상을 제공하는 것이다.

또한 소셜 미디어와 같은 비정형 데이터의 특성상 동일한 또는 거의 유사한 컨텐츠가 서로 다른 게시자에 의해 네트워크상에 업로도되는 경우가 빈번한데 이러한 비정형 데이터의 중복성까지 고려한 정확도가 향상된 연관 키워드를 추출할 수 있는 기술적 사상을 제공하는 것이다.

또한 이러한 연관 키워드의 추출을 주기적으로 수행하면서 연관 키워드의 변화를 빠르게 확인할 수 있도록 하는 기술적 사상을 제공하는 것이다.

또한 네트워크 상에서 유통되는 다수의 문서들을 통해 유의미하고 신뢰성있는 투자지표를 결정할 수 있는 기술적 사상을 제공하는 것이다.

본 발명의 기술적 사상에 따른 인공지능 기반의 투자지표 결정방법은 시스템이 특정 금융종목 또는 상기 특정 금융종목의 연관 키워드에 대해 상응하는 복수의 비정형 문서들을 수집하는 단계, 상기 시스템이 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계를 포함하며, 상기 시스템이 수집한 비정형 문서들에 기초하여 상기 비정형 문서들이 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계는 상기 시스템이 수집된 비정형 문서들 중 전부 또는 일부인 판단대상 문서들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습된 영향 판단모델-상기 영향 판단모델은 상기 판단대상 문서들에 포함된 개별문서 자체 또는 상기 개별문서에 포함된 문장별로 투자에 긍정적 영향을 미치는지 또는 정적 영향을 미치는지 여부를 포함하는 분류결과를 출력할 수 있도록 학습된 모델임-의 출력결과에 기초하여 상기 투자영향지표를 결정하는 단계를 포함한다.

상기 투자영향지표를 결정하는 단계는 상기 시스템이 판단대상 문서들 각각별 분류결과 및 문서별 가중치의 곱에 기초하여 상기 투자영향지표를 결정하는 단계를 포함하며, 상기 문서별 가중치는 문서의 출처에 따라 달라지는 것을 특징으로 할 수 있다.

상기 인공지능 기반의 투자지표 결정방법은 상기 시스템이 수집한 비정형 문서들 중 미리 정해진 필터링 조건에 해당하는 비정형 문서에 대한 필터링을 수행하는 단계를 더 포함하며, 필터링을 수행한 후에 남은 비정형 문서들이 상기 판단대상 문서들로 특정되는 것을 특징으로 할 수 있다.

상기 시스템이 수집한 비정형 문서들 중 미리 정해진 필터링 조건에 해당하는 비정형 문서에 대한 필터링을 수행하는 단계는, 상기 시스템이 상기 수집한 비정형 문서들 각각에 대한 문서 벡터(document vector)를 생성하는 단계, 상기 시스템이 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상인 비정형 문서들을 클러스터링 하는 단계, 및 상기 시스템이 클러스터링된 비정형 문서 클러스터들 각각에서 일부를 판단대상 문서에서 제외하도록 필터링을 수행하는 단계를 포함할 수 있다.

상기 시스템이 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상인 비정형 문서들을 클러스터링 하는 단계는 상기 시스템이 상기 유사도가 일정 수준 이상이며 비정형 문서의 생성시간이 미리 정해진 시간범위 내인 비정형 문서들 간에 클러스터링을 수행하는 단계를 포함할 수 있다.

상기 시스템이 특정 금융종목 또는 상기 특정 금융종목의 연관 키워드에 대해 상응하는 복수의 비정형 문서들을 수집하는 단계는, 상기 시스템이 상기 특정 금융종목에 상응하는 제1비정형 문서들 및 상기 연관 키워드에 상응하는 제2비정형 문서들을 각각 수집하는 단계를 포함하며, 상기 시스템이 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계는 상기 제1비정형 문서들에 기초하여 추출된 제1투자영향지표 및 상기 제2비정형 문서들에 기초하여 추출된 제2투자영향지표에 기초하여 결정하는 단계를 포함할 수 있다.

상기 인공지능 기반의 투자지표 결정방법은 상기 연관 키워드의 연관 키워드인 2차연관 키워드에 상응하는 복수의 제3비정형 문서들을 수집하는 단계를 더 포함하며, 상기 시스템이 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 미치는 투자영향지표를 결정하는 단계는 상기 제3정형 문서들에 기초하여 추출된 제3투자영향지표에 더 기초하여 상기 투자영향지표를 결정하는 단계를 포함할 수 있다.

상기 제1비정형 문서들에 기초하여 추출된 제1투자영향지표 및 상기 제2비정형 문서들에 기초하여 추출된 제2투자영향지표에 기초하여 결정하는 단계는 상기 제1투자영향지표 및 상기 제2투자영향지표별로 서로 다른 가중치를 가지도록 상기 투자영향지표가 결정되는 것을 특징으로 할 수 있다.

상기 영향 판단모델은 상기 개별문서에 포함된 복수의 문장들별로 투자에 긍정적 영향을 미치는지 또는 정적 영향을 미치는지 여부를 포함하는 분류결과를 출력하도록 수행하고, 판단된 복수의 문장들별 분류결과에 기초하여 상기 개별문서의 분류결과가 판단되는 것을 특징으로 할 수 있다.

상기의 방법은 데이터 처리장치에 설치되며 컴퓨터 판독가능한 기록매체에 기록된 컴퓨터 프로그램에 의해 구현될 수 있다.

본 발명의 다른 일 예에 의하면, 인공지능 기반의 투자지표 결정시스템은 프로세서, 프로그램이 저장된 저장장치를 포함하며, 상기 프로세서는 상기 프로그램을 구동하여 특정 금융종목 또는 상기 특정 금융종목의 연관 키워드에 대해 상응하는 복수의 비정형 문서들을 수집하고, 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정하되, 수집된 비정형 문서들 중 전부 또는 일부인 판단대상 문서들에 대해 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 학습된 영향 판단모델-상기 영향 판단모델은 상기 판단대상 문서들에 포함된 개별문서 자체 또는 상기 개별문서에 포함된 문장별로 투자에 긍정적 영향을 미치는지 또는 정적 영향을 미치는지 여부를 포함하는 분류결과를 출력할 수 있도록 학습된 모델임-의 출력결과에 기초하여 상기 투자영향지표를 결정한다.

본 발명의 기술적 사상에 따르면 소셜 미디어와 같이 다수의 비정형 데이터(비정형 문서, 예컨대, 뉴스, 사용자들이 작성한 게시글, 댓글 등)의 생산자들이 생산하는 정보로부터 특정 금융상품에 실질적으로 유의미한 연관 키워드를 인공지능 기반으로 추출함으로써 특정인의 단편적 지식이나 노출빈도에 따른 연관 키워드의 추출이 아닌 키워드 추출시점에서의 살아있는 정보들로부터 해당 정보들의 의미를 고려하여 실질적으로 해당 금융상품과 연관성이 있는 키워드를 추출할 수 있는 효과가 있다.

또한 소셜 미디어와 같은 비정형 데이터의 특성상 동일한 또는 거의 유사한 컨텐츠가 서로 다른 게시자에 의해 네트워크상에 업로도되는 경우(예컨대, 어느 하나의 동일하거나 매우 유사한 뉴스 기사가 여러 매체에 의해 네트워크 상에 업로드되거나, 특정인의 컨텐츠가 다수의 사용자들에 의해 반복적으로 업로드되는 경우)가 빈번한데 이러한 비정형 데이터의 중복성까지 필터링을 수행하여 어느 정도 해소한 후에 연관 키워드를 추출함으로써 정확도를 향상시킬 수 있는 효과가 있다.

또한 이러한 연관 키워드의 추출을 주기적으로 그리고 추출시점에서 최근의 비정형 데이터들에 국한하여 수행함으로써 연관 키워드의 변화를 빠르게 확인하고, 이에 따라 특정 금융상품과 관련된 유의미한 정보를 빠른 시간에 확인할 수 있는 효과가 있다.

또한 네트워크 상에서 유통되는 다수의 문서들을 통해 해당 문서가 특정 금융상품에 대해 긍정적인지 또는 부정적인지를 문장 또는 문서단위로 판단할 수 있는 딥러닝 모델을 설계하고 이를 통해 유의미하고 신뢰성있는 투자지표를 결정할 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도1은 본 발명의 기술적 사상에 따른 인공지능 기반의 결정방법을 수행하기 위한 개략적인 시스템 구성들을 설명하기 위한 도면이다.
도2는 본 발명의 실시 예에 따른 인공지능 기반의 결정을 수행하는 시스템의 개략적인 논리적 구성을 설명하기 위한 도면이다.
도3은 본 발명의 실시 예에 따른 인공지능 기반의 결정을 수행하는 시스템의 개략적인 물리적 구성을 설명하기 위한 도면이다.
도4는 본 발명의 실시 예에 따른 인공지능 기반의 결정방법을 구현하기 위한 데이터 플로우를 예시적으로 나타낸다.
도5는 본 발명의 실시 예에 따른 자연어 처리모델의 개념을 설명하기 위한 도면이다.
도6은 본 발명의 실시 예에 따라 워드벡터를 통한 연관 키워드를 추출하는 개념을 설명하기 위한 도면이다.
도7은 본 발명의 실시 예에 따라 필터링을 수행하는 개념을 설명하기 위한 도면이다.
도8은 본 발명의 실시 예에 따라 연관 키워드의 변화를 설명하기 위한 도면이다.
도9는 본 발명의 실시 예에 따라 투자영향지표를 결정하는 개념을 설명학이 위한 도면이다.
도10은 본 발명의 실시 예에 따른 비정형 문서들을 이용하여 투자영향지표를 결정하는 개념을 설명하기 위한 도면이다.
도11은 본 발명의 실시 예에 따라 문장단위의 감성평가를 통해 문서의 영향평가를 수행하는 개념을 설명하기 위한 도면이다.
도12는 본 발명의 실시 예에 따라 문서의 차수를 반영하여 적응적으로 영향평가를 수행하는 개념을 설명하기 위한 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 아니 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도1은 본 발명의 기술적 사상에 따른 인공지능 기반의 결정방법을 수행하기 위한 개략적인 시스템 구성들을 설명하기 위한 도면이다.

도1을 참조하면, 본 발명의 기술적 사상에 따른 인공지능 기반의 결정방법을 구현하기 위해서는 소정의 결정시스템(이하, 100)이 구현될 수 있다.

상기 결정시스템(100)은 본 발명의 기술적 사상에 따라 특정 금융상품(예컨대, 주식, 선물, 옵션 등의 금융상품의 개별종목을 의미하며 이하 '특정 금융종목'이라 함)의 연관 키워드를 추출하여 관리자 또는 사용자에게 제공할 수 있다.

또한 상기 결정시스템(100)은 본 발명의 기술적 사상에 따라 소셜 미디어 등 네트워크에서 수집되는 비정형 데이터(문서들)을 이용해 특정 금융종목의 가치변동을 예측할 수 있는 소정의 투자지표(투자영향지표로 표현하기도 함)를 결정할 수 있다.

특히 본 발명의 기술적 사상에 따라 결정되는 특정 금융종목의 연관 키워드를 이용하여 상기 특정 금융종목의 투자영향지표를 결정하는 경우에는 보다 신뢰성 있으면서 시기적으로 변화하는 사회적 인식(연관키워드의 변화 등)을 반영한 투자영향지표의 결정이 가능한 효과가 있다.

연관 키워드라 함은 이론적으로는 특정 금융종목(예컨대, 주식종목 A, 채권 B 등)의 가치변동에 영향을 미치는 이벤트, 객체, 인물, 동향 등을 나타내는 키워드를 의미할 수 있다. 실질적으로는 본 발명의 기술적 사상에 따라 다수의 비정형 데이터들(예컨대, SNS 등의 소셜 미디어상의 사용자 컨텐츠, 뉴스, 카페 또는 블로그 등에 개시된 컨텐츠 등, 이하 비정형 문서들이라고도 함)에 기초하여 상기 특정 금융종목과 연관 있는 것으로 추출되는 키워드를 의미할 수 있다.

상기 결정시스템(100)은 네트워크를 통해 상기 특정 금융종목에 상응하는 비정형 데이터들을 수집할 수 있다. 상기 특정 금융종목에 상응하는 비정형 데이터라 함은 상기 특정 금융종목의 명칭(예컨대, 삼성전자, 하이닉스 등)이 포함되어 있으면서 네트워크상에서 유통되는 다양한 컨텐츠를 의미할 수 있으며, 이러한 비정형 데이터는 언론사, 금융기관, 증권사, 일반적인 사용자들에 의해 생성될 수 있다.

또한 상기 결정시스템(100)은 특정 금융종목의 연관 키워드에 상응하는 비정형 데이터들을 수집할 수도 있으며, 이를 이용하여 투자영향지표를 결정할 수도 있다. 본 명세서에서 소정의 키워드(예컨대, 연관 키워드 등)에 상응하는 비정형 데이터라 함은, 해당 키워드를 포함하고 있는 데이터를 의미할 수 있다.

또한 본 명세서에서 정의되는 비정형 데이터는 상기 결정시스템(100)에 의해 수집되는 데이터가 미리 정해진 형식에 제한을 받지 않는다는 것을 의미하는 것이지, 상기 비정형 데이터의 생산자별로는 일정한 형식과 규칙을 가지도록 생성될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 결정시스템(100)은 주기적으로 또는 관리자의 명령에 따라 특정 금융종목에 상응하는 비정형 데이터들을 크롤링할 수 있다. 구현 예에 따라서는 상기 비정형 데이터의 수집 대상이 되는 시스템에서 미리 정해진 프로토콜(예컨대, API)을 통해 상기 비정형 데이터를 수집할 수도 있다. 일 예에 의하면 상기 특정 금융종목에 상응하는 비정형 데이터인지와 무관하게 대량의 비정형 데이터들이 수집된 후 상기 결정시스템(100)에 의해 상기 특정 금융종목에 해당하는 데이터들만이 추출될 수도 있으며, 다른 일 예에 의하면 상기 특정 금융종목에 상응하는 비정형 데이터들만이 네트워크를 통해 수집될 수도 있다.

그러면 상기 결정시스템(100)은 이렇게 수집된 비정형 데이터들에 기초하여 상기 특정 금융종목의 연관 키워드를 결정할 수 있다.

즉 본 발명의 기술적 사상에 의하면 상기 결정시스템(100)은 연관 키워드의 결정 시점에서 현재 네트워크상에 유통되는 다수의 컨텐츠 생산자에 의해 작성된 의견, 반응, 분석들을 토대로 상기 특정 금융종목의 연관 키워드를 결정하는 특징이 있다. 이를 위해 상기 결정시스템(100)은 특정 금융종목의 연관 키워드를 결정하기 위해 사용되는 비정형 데이터를 상기 비정형 데이터의 생산시점(예컨대, 네트워크상에 업로드 시점)에 기초하여 제한할 수 있다. 예컨대 최근 소정의 기간(예컨대, 1달, 3달 등)에 생상된 비정형 데이터만에 기초하여 상기 결정시스템(100)은 특정 금융종목의 연관 키워드를 결정할 수 있다.

그리고 이러한 연관 키워드의 결정을 주기적으로 수행하면서 해당 특정 금융종목의 연관 키워드의 변화를 모니터링함으로서 상기 특정 금융종목 또는 상기 특정 금융종목의 주체(예컨대, 회사 등)의 사업방향의 변화나 유의미한 이벤트의 발생여부를 연관 키워드에 기반하여 확인할 수 있는 효과가 있다.

본 발명의 기술적 사상에 의하면 상기 결정시스템(100)은 특정 금융종목의 연관 키워드를 네트워크 상에 유통되는 비정형 데이터를 분석하여 결정하며, 이러한 비정형 데이터의 분석에는 딥러닝 기반의 자연어 처리모델(Natural Language Processing Model)을 이용할 수 있다.

특히 보다 정확도 높은 연관 키워드의 결정을 위해 상기 결정시스템(100)은 컨텍스트 센서티브(context sensitive)한 자연어 처리모델을 이용할 수 있다.

컨텍스트 센서티브 자연어 처리모델은 컨텍스트 프리(Context Free) 자연어 처리모델과 상반되는 개념으로써 어떤 키워드 또는 문장의 의미를 문맥에 따라 달리 정의 또는 인식하는 자연어 처리모델을 의미할 수 있다. 이에 비해 컨텍스트 프리 자연어 처리모델은 문맥과 무관하게 해당 키워드 또는 문장 자체로써 해당 키워드 또는 문장의 의미를 정의하거나 인식하는 것을 의미할 수 있다.

이러한 컨텍스트 센서티브한 자연어 처리모델은 다수의 학습 대상 데이터를 학습하여 실제로 특정 키워드(자연어 처리모델에서는 토큰이라고 표현하기도 하며, 키워드는 하나의 토큰 또는 토큰의 결합일 수 있음, 본 명세서에서는 설명의 편의를 위해 토큰 또는 토큰의 결합을 키워드로 표현하기로 함)와 연관이 있는 키워드를 잘 파악하는 것이 해당 자연어 처리모델의 중요한 성능 중 하나이며, 이를 위해서 어텐션(attention)이라는 개념을 적용한 자연어 처리모델이 등장하였다.

어텐션은 어떤 키워드를 정의하거나 인식하기 위해 해당 키워드와 연관이 있으므로 더 집중(attention)해서 참고하여야 다른 키워드와의 관계를 의미할 수 있다. 예컨대, 제1키워드와 어텐션의 값이 높은 제2키워드는 학습 데이터 상에서 상기 특정 키워드와 연관성이 높게 사용되었음을 의미할 수 있다.

어텐션 메커니즘과 어텐션 함수 등의 어텐션의 개념에 대해서는 널리 공지되어 있으므로 상세한 설명은 생략하도록 한다.

이러한 어텐션의 개념을 이용하여 학습 데이터들에 사용된 키워드들을 벡터화하는 자연어 처리모델의 경우 학습 데이터들에 포함된 각각의 키워드들은 문맥을 반영하여 벡터화될 수 있게 된다.

이러한 자연어 처리모델의 일 예는 예컨대, ELMo(Embeddings from Language Model), ULM-FiT (Universal Language Model Fine-tuning for Text Classification), BERT (Bidirectional Encoder Representations from Transformers) 등이 존재한다.

상기의 자연어 처리모델은 어떠한 경우든 키워드를 벡터화하는 태스크(word embedding)를 수행하며, 이러한 키워드의 벡터화를 통해 해당 키워드의 의미를 벡터로 표현할 수 있다.

특히 BERT (Bidirectional Encoder Representations from Transformers)의 경우는 비지도 학습(Unsupervised Learning)을 통해 다량의 학습 데이터를 라벨링(labeling)이라는 태스크 없이도 학습하여 키워드별로 문맥에 따라 차별적으로 해당 키워드를 높은 성능으로 벡터화할 수 있는 모델로 각광을 받고 있다.

따라서 본 발명의 일 실시 예에 의한 자연어 처리모델은 학습 데이터를 BERT 자연어 처리모델을 통해 학습하여 각각의 키워드를 벡터화하는 장연어 처리모델일 수 있지만, 이에 국한되지는 않는다.

어떠한 경우든 본 발명의 기술적 사상에 의하면 컨텍스트 센서티브한 자연어 처리모델을 통해 문맥을 반영한 각각의 키워드의 벡터화 결과를 이용할 경우, 종래에 단순히 통계적인 빈도 등을 통해 연관 키워드를 결정하는 방식에 비해 훨씬 높은 성능(즉, 단순히 특정 키워드와 같이 등장하는 빈도는 높지만 실질적인 연관성은 거의 없는 일반적인 의미의 단어들)을 가질 수 있다.

한편, 본 발명의 기술적 사상에 의하면 상기 결정시스템(100)은 특정 금융종목의 투자영향지표를 네트워크 상의 비정형 데이터에 기반하여 결정할 수 있다. 이때 상술한 바와 같이 결정된 특정 금융종목의 연관 키워드를 이용할 수도 있지만, 반드시 이에 국한되지는 않으며 전문가 등의 사람에 의해 결정된 특정 금융종목의 연관 키워드를 이용하여서도 본 발명의 기술적 사상에 따른 투자영향지표를 결정할 수도 있다.

이를 위해 상기 결정시스템(100)은 딥러닝 기반의 자연어 처리모델을 이용할 수 있다. 투자영향지표를 결정하기 위한 상기 자연어 처리모델은 연관 키워드를 결정하기 위한 자연어 처리모델과는 별개로 구비될 수도 있다.

이러한 자연어 처리모델은 후술할 바와 같이 영향판단 모듈로 명명될 수도 있다. 상기 자연어 처리모델은 비정형 데이터 즉, 수집된 문서들에 포함된 문장들이 해당 특정 금융종목에 긍정적 영향을 미치는지 부정적 영향을 미치는지를 판단하거나 문서들 자체가 긍정적 영향을 미치는지 부정적 영향을 미치는지를 판단할 수 있도록 학습된 딥러닝 모델일 수 있다. 이하 본 명세서에서는 연관 키워드를 결정하기 위해 학습된 자연어 처리모델을 제1자연어 처리모델이라 명명하기로 한다. 또한 투자영향지표를 결정하기 위한 자연어 처리모델 즉, 영향 판단모델은 제2자연어 처리모델로 명명하기로 한다.

제1자연어 처리모델과 제2자연어 처리모델은 각각 별개로 구비될 수 있다. 실시 예에 따라 상기 제2자연어 처리모델은 제1자연어 처리모델을 구축한 후, 제1자연어 처리모델을 파인튜닝(fine-tuning)하여 특정 문장 또는 문서가 입력되면 해당 문장 또는 문서가 긍정적인지, 부정적인지, 또는 중립인지 여부를 분류하는 분류모델로 학습된 모델일 수 있다.

이처럼 특정 데이터가 입력되면 긍정 또는 부정을 포함하는 분류결과를 출력하는 머신러닝 모델을 감성분석(Sentiment Analisys) 모델이라고 한다.

실시 예에 따라 상기 제2자연어 처리모델은 긍정, 부정, 또는 중립의 3개의 클래스로 입력 데이터를 분류하는 모델일 수도 있고, 다른 실시 예에 따라서는 강한긍정, 약한긍정, 강한부정, 약한부정, 중립 등과 같이 더 많은 클래스로 입력 데이터를 분류하도록 학습되는 모델일 수도 있다.

이러한 제2자연어 처리모델은 컨텍스트 센서티브한 자연어 처리모델(예컨대, BERT 등)을 대량의 코퍼스(또는 문서)로 사전학습(pre-training)한 후, 사전학습된 모델을 이용하여 상술한 바와 같은 감성분석을 수행하도록 파인튜닝함으로써 구축할 수 있다. 이러한 사전학습에는 전술한 바와 같이 BERT 등의 공개된 자연어 처리모델 그 자체 또는 금융상품과 관련된 데이터를 추가로 학습하여 제1자연어 처리모델을 구축하고, 제1자연어 처리모델을 다수의 라벨링된 학습 데이터를 이용하여 파인튜닝하여 구축할 수 있다. 다수의 라벨링된 학습 데이터는 다수의 문장들에 대해 제2자연어 처리모델이 출력할 분류결과(예컨대, 긍정, 부정, 또는 중립)를 라벨링한 데이터일 수 있다. 물론 문서 자체를 학습 데이터로 이용할 경우는 문서 자체에 라벨링된 데이터가 학습 데이터가 될 수도 있다.

어떠한 경우든 본 발명의 기술적 사상에 따른 제2자연어 처리모델은 문장별로 해당 문장이 특정 금융종목에 대해 긍정적인 문장인지 또는 부정적인 문장인지를 포함하는 분류결과를 출력할 수 있다. 이는 종래에 키워드별로 긍정 또는 부정의 감성분석을 소정의 방식을 수행하는 것에 비해 훨씬 높은 정확도와 신뢰성이 있는 판단결과를 도출할 수 있다.

즉, 종래의 방식인 키워드별 감성분석의 경우에는 한 문장에서 긍정적인 키워드와 부정적인 키워드가 공존하는 경우 확률적 모델(예컨대, 나이브 베이지안 방식 등)을 통해 해당 문장 또는 문서가 긍정적일 확률 또는 부정적일 확률을 예측할 수밖에 없으며 이러한 경우 감성분석의 정확도가 상대적으로 낮을 수 밖에 없는 문제점이 있었다.

하지만 대량의 데이터로 학습된 컨텍스트 센서티브한 자연어 처리모델을 이용하여 문장 또는 문서 단위 자체에 대해 감성분석을 하는 딥러닝 모델의 경우, 라벨링된 학습 데이터의 의미 자체가 유사한 문장 또는 문서를 해당 라벨링 결과와 동일한 출력을 할 수 있도록 학습되며 이러한 경우 훨씬 더 신뢰성 있는 감성분석이 수행될 수 있는 효과가 있다.

이하 본 명세서에서는 제2자연어 처리모델은 수집된 비정형 문서들에 포함된 문장별로 감성분석을 수행하고 이를 통해 문서에 대한 감성분석을 수행하는 경우를 예시적으로 설명하지만, 실시 예에 따라서는 문서자체에 대해 감성분석 결과를 출력하도록 상기 제2자연어 처리모델이 학습되고 활용될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

한편, 본 발명의 기술적 사상은 네트워크상의 비정형 데이터를 통해 특정 금융종목의 연관 키워드를 결정함으로써 다수의 컨텐츠 생산자의 다양한 의견이 반영되면서도 시간적 경향성을 반영할 수 있다는 장점을 그대로 보유하면서도, 네트워크상에 수집된 비정형 데이터를 이용하는 경우 발생할 수 있는 문제점을 해결할 수 있는 기술적 사상을 같이 제공할 수 있다.

네트워크상에 수집된 비정형 데이터를 이용하는 경우 발생할 수 있는 대표적인 문제점은 정보의 중복성일 수 있다. 즉, 동일하거나 실제로 거의 동일한 내용이 다수의 컨텐츠 생산자에 의해 별개의 비정형 데이터로써 생산되는 문제점이 있다. 이러한 경우 실질적으로는 한 개의 컨텐츠(텍스트 문서)임에도 다수의 생산자에 의해 반복적으로 업로드되거나 약간의 변경만 가해진 채 업로드되는 경우, 상기 한 개의 컨텐츠가 자연어 처리모델에 의해 반복적으로 학습되는 문제가 발생할 수 있다.

그리고 이는 해당 컨텐츠에 자연어 처리모델이 오버피팅(over fitting)되는 문제점 즉, 실제로는 크게 연관성이 없거나 연관성의 정도가 낮지만 높은 연관성을 가지도록 학습되는 경향을 가질 수 있다.

이를 위해 상기 결정시스템(100)은 비정형 데이터를 소정의 기준을 통해 필터링하여 중복성을 해소하는 기술적 사상을 제공할 수 있다.

결국 본 발명의 기술적 사상에 따르면 네트워크상의 다수의 비정형 데이터 즉, 다수의 생산자가 생산하는 다수의 라이브(live)한 정보들로부터 특정 금융종목의 연관 키워드를 의미를 어느 정도 이해할 수 있는 컨텍스트 센서티브한 자연어 처리모델을 통해 정확도 높게 결정하되, 네트워크상의 다수의 비정형 데이터를 이용하는 경우에 발생할 수 있는 문제점까지 해결할 수 있는 효과가 있다. 또한 다수의 생산자가 생산하는 다수의 라이브(live)한 정보들에 기초하여 해당 특정 금융종목의 방향성을 예측할 수 있는 소정의 투자영향지표를 결정할 수 있다.

이러한 기술적 사상을 구현하기 위한 상기 결정시스템(100)의 개략적인 구성은 도 2 및 도 3을 참조하여 설명하도록 한다.

도2는 본 발명의 실시 예에 따른 인공지능 기반의 결정을 수행하는 시스템의 개략적인 논리적 구성을 설명하기 위한 도면이다. 또한 도3은 본 발명의 실시 예에 따른 인공지능 기반의 결정을 수행하는 시스템의 개략적인 물리적 구성을 설명하기 위한 도면이다.

도2를 참조하면, 본 발명의 기술적 사상에 따른 결정시스템(100)은 제어모듈(110), 데이터 수집모듈(120), 자연어 처리모델(영향판단 모델을 포함함, 130)을 포함할 수 있다. 실시 예에 따라 상기 결정시스템(100)은 필터링 모듈(140), 문서벡터 생성모듈(150), 및/또는 DB(160)를 더 포함할 수 있다.

상기 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비한 논리적인 구성을 의미할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예컨대, 상기 제어모듈(110), 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 각각은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 제어모듈(110), 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 각각을 구성하는 소프트웨어 및/또는 하드웨어의 결합 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 구성들이 서로 유기적으로 결합되어 각각의 상기 모듈들을 구현할 수도 있다.

또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.

한편, 상기 결정시스템(100)은 물리적으로는 도 3에 도시된 바와 같은 구성을 가질 수 있다. 상기 결정시스템(100)은 은 본 발명의 기술적 사상을 구현하기 위한 프로그램이 저장되는 메모리(저장장치)(120-1), 및 상기 메모리(120)에 저장된 프로그램을 실행하기 위한 프로세서(110-1)가 구비될 수 있다.

상기 프로세서(110-1)는 상기 결정시스템(100)의 구현 예에 따라, CPU, 모바일 프로세서 등 다양한 명칭으로 명명될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. 또한, 도 2에서 설명한 바와 같이 상기 결정시스템(100)은 복수의 물리적 장치들이 유기적으로 결합되어 구현될 수도 있으며, 이러한 경우 상기 프로세서(110-1)는 물리적 장치별로 적어도 한 개 구비되어 본 발명의 결정시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 메모리(120-1)는 상기 프로그램이 저장되며, 상기 프로그램을 구동시키기 위해 상기 프로세서가 접근할 수 있는 어떠한 형태의 저장장치로 구현되어도 무방하다. 또한 하드웨어적 구현 예에 따라 상기 메모리(120-1)는 어느 하나의 저장장치가 아니라 복수의 저장장치로 구현될 수도 있다. 또한 상기 메모리(120-1)는 주기억장치 뿐만 아니라, 임시기억장치를 포함할 수도 있다. 또한 휘발성 메모리 또는 비휘발성 메모리로 구현될 수도 있으며, 상기 프로그램이 저장되고 상기 프로세서에 의해 구동될 수 있도록 구현되는 모든 형태의 정보저장 수단을 포함하는 의미로 정의될 수 있다.

상기 결정시스템(100)은 실시 예에 따라 본 발명의 기술적 사상에 따라 금융종목별로 연관 키워드를 결정하고 이를 활용하고자 하는 주체(예컨대, 증권사, 은행, 또는 기타 서비스 사업자 등)가 운영하고 실시하는 시스템일 수 있고, 웹 서버, 컴퓨터 등 다양한 방식으로 구현될 수 있으며, 본 명세서에서 정의되는 기능을 수행할 수 있는 어떠한 형태의 데이터 프로세싱 장치도 포함하는 의미로 정의될 수 있다.

또한 상기 결정시스템(100)은 본 발명의 기술적 사상에 따라 특정 금융종목에 대한 투자영향지표를 결정할 수도 있다.

또한 상기 결정시스템(100)의 실시 예에 따라 다양한 주변장치들(주변장치 1 내지 주변장치 N, 130-1, 131-1)이 더 구비될 수 있다. 예컨대, 키보드, 모니터, 그래픽 카드, 통신장치 등이 주변장치로써 상기 결정시스템(100)에 더 포함될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

이하, 본 명세서에서 소정의 모듈이 어떤 기능을 수행한다고 함은 상기 프로세서(110-1)가 상기 메모리(120-1)에 구비된 프로그램을 구동하여 상기 기능을 수행하는 것을 의미함을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 제어모듈(110)은 본 발명의 기술적 사상을 구현하기 위해 투자시스템(100)에 포함된 다른 구성(예컨대, 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 등)의 기능 및/또는 리소스를 제어할 수 있다.

상기 데이터 수집모듈(120)은 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집할 수 있다. 이를 위해 상기 데이터 수집모듈(120)은 소정의 정보 소스 시스템이 제공하는 웹 또는 앱의 정보를 크롤링하거나 상기 시스템이 제공하는 API를 통해 수집할 수 있다. 이러한 정보 소스 시스템은 SNS(Social Network Service) 시스템, 언론사, 거래소, 금융기관, 포털, 카페, 블로그 등 다양할 수 있다. 물론 상기 데이터 수집모듈(120)은 특정 금융종목의 연관 키워드에 상응하는 복수의 비정형 데이터들을 수집할 수도 있다.

또한 특정 금융종목(또는 특정 금융종목의 연관 키워드)에 상응하는지 여부와 무관하게 수집 가능한 데이터를 모두 수집한 후 특정 금융종목(또는 특정 금융종목의 연관 키워드)에 상응하는 데이터만을 추출하거나 또는 특정 금융종목(또는 특정 금융종목의 연관 키워드)에 상응하는 데이터만을 상기 정보 소스 시스템으로부터 수집할 수도 있다.

그러면 상기 제어모듈(110)은 수집한 상기 비정형 데이터들(예컨대, 금융관련 뉴스, 공시, 사용자가 업로드한 컨텐츠, 애널리스트 리포트 등의 다양한 문서 컨텐츠 또는 이들에 대한 댓글 등)에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출할 수 있다. 또는 상기 제어모듈(110)은 특정 금융종목에 상응하는 투자영향지표를 결정할 수 있다.

이를 위해 상기 제어모듈(110)은 상기 자연어 처리모델(130)을 통해 수집된 비정형 데이터들 중 전부 또는 일부인 학습대상 데이터들을 학습하도록 할 수 있다. 상기 자연어 처리모델(130)은 전술한 바와 같이 제1자연어 처리모델 및 제2자연어 처리모델을 포함할 수 있다. 제2자연어 처리모델은 전술한 바와 같이 비정형 데이터들 즉, 비정형 문서들에 포함된 문장들 또는 문서자체에 대해 상기 특정 금융종목에 대해 긍정적 영향을 미치지는지 또는 부정적 영향을 미치는지를 포함하는 분류결과를 출력하는 영향판단 모델 또는 감성분석 모델일 수 있다.

상기 자연어 처리모델(130)에 포함된 제1자연어 처리모델은 전술한 바와 같이 적어도 컨텍스트 센서티브(context-senstivie)하게 학습대상 데이터들에 포함된 키워드를 각각 벡터화할 수 있는 모델일 수 있다.

예컨대 상기 제1자연어 처리모델은 BERT 등과 같이 비지도 학습을 통해 대량의 코퍼스(corpus)를 학습할 수 있는 모델일 수 있고, 상기 학습대상 데이터들만을 훈련하거나 또는 상기 학습대상 데이터들이 아닌 다른 대량의 문서들 즉 코퍼스들을 먼저 학습(pretrained model)한 후 상기 학습대상 데이터들을 추가로 훈련하는 방식으로 학습될 수 있다.

예컨대, 도5는 본 발명의 실시 예에 따른 자연어 처리모델의 개념을 설명하기 위한 도면인데, 도5에 도시된 바와 같이 소정의 제1자연어 처리모델이 상기 자연어 처리모델(130, 예컨대, BERT 등의 NLP 모델)에 구비될 수 있다.

상기 제1자연어 처리모델은 학습대상 데이터들(예컨대, D1, D2, D3, D4 등)에 대한 학습을 수행한다.

상기 제1자연어 처리모델은 학습대상 데이터들이 충분히 많은 경우에는 학습대상 데이터들만으로 학습이 수행될 수도 있지만, 통상적으로 학습대상 데이터들만으로는 충분한 양이 안 될 가능성이 높으므로 상기 제1자연어 처리모델은 상기 학습대상 데이터들이 아닌 다른 대량의 데이터들(예컨대, BERT의 경우 wiki 데이터)로 이미 사전 학습된(pre-trained) 모델일 수 있다.

그리고 상기 학습대상 데이터들을 추가로 학습하여 상기 학습대상 데이터들에 포함된 키워드들 각각에 대한 워드벡터를 획득할 수 있다.

학습대상 데이터는 상기 결정시스템(100)이 수집한 특정 금융종목에 상응하는 비정형 데이터들 중에서 전술한 바와 같이 중복성 문제를 해결하고 남은 데이터들일 수 있다.

이러한 중복성 문제를 해결하기 위한 기술적 사상은 상세히 후술하도록 하며, 소정의 기준을 통해 서로 다른 비정형 데이터들이 중복성이 있다고 판단되면 이들 중 하나(또는 실시 예에 따라 몇 개)만을 남김으로써 학습대상 데이터들이 특정될 수 있다.

어떠한 경우든 상기 제1자연어 처리모델은 학습대상 데이터들에 포함되어 있는 키워드들 각각을 문맥(context)을 반영하여 벡터화할 수 있는 모델일 수 있다.

그러면 상기 제어모듈(110)은 학습된 제1자연어 처리모델을 통해 획득된 상기 특정 금융종목의 키워드(즉, 상기 특정 금융종목의 명칭)에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하고, 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출할 수 있다.

성능이 뛰어난 즉, 잘 훈련된 제1자연어 처리모델은 키워드를 벡터화하면서 동일하거나 유사한 의미를 가지는 키워드는 벡터공간 상에서 가까운 위치에 존재할 수 있도록 벡터화를 수행할 수 있다.

그리고 이렇게 벡터화된 키워드들은 벡터 공간 상(예컨대, BERT의 경우 768차원 공간)에 매핑될 수 있다.

이러한 개념은 도 6을 참조해 설명하도록 한다.

도6은 본 발명의 실시 예에 따라 워드벡터를 통한 연관 키워드를 추출하는 개념을 설명하기 위한 도면이다.

도6을 참조하면, 학습된 제1자연어 처리모델을 통해 상기 학습대상 데이터들에 포함된 각각의 키워드들은 벡터화될 수 있으며, 이를 도시하면 도 6에 도시된 바와 같을 수 있다.

도6에서 제1벡터(10)은 특정 금융종목에 해당하는 키워드(즉 명칭)를 나타내는 벡터일 수 있다.

그리고 상기 키워드와 밀접한 연관이 있는 것으로 제1자연어 처리모델을 통해 학습된 키워드들 각각의 벡터들(예컨대, 20 내지 27)은 벡터공간 상에서 가까운 위치에 매핑되게 된다.

이때 상기 제1자연어 처리모델은 컨텍스트를 고려하여 워드 임베딩(키워드 벡터화)을 수행하며, 이에 따라 단순히 특정 금융종목에 해당하는 키워드와 함께 기재된 경우가 많지만 다른 금융종목과도 함께 기재된 경우 등 과 같이 실질적인 의미상으로 큰 연관성이 없는 단어들(예컨대, 주식에서 일반적으로 쓰이는 키워드들, '~이다' 등의 용언 등)은 상기 특정 금융종목에 대응되는 제1벡터(10)와는 벡터 공간 상에서 거리가 상대적으로 멀게 매핑될 수 있다.

따라서 상기 제어모듈(110)은 학습대상 데이터들에 포함된 키워드들이 상기 제1자연어 처리모델에 의해 각각 벡터화된 결과를 통해 상기 특정 금융종목의 연관 키워드를 추출할 수 있다.

예컨대, 상기 제1벡터(10)와 미리 정해진 일정 기준 예컨대, 코사인 유사도(Cosine Similarity)가 일정 값 이상이거나 상기 제1벡터와 유클리디안 거리(Euclidean Distance)가 일정 값 이하인 벡터들(예컨대, 20 내지 27)을 추출하고 추출된 벡터들에 대응되는 키워드를 연관 키워드로 추출할 수 있다.

코사인 유사도 또는 유클리디언 거리는 모두 벡터 공간 상에서 벡터의 유사도를 측정하기 위해 사용될 수 있는 지표임은 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

또한 상기 일정 값을 얼마로 결정할지는 실험을 통해 결정할 수 있음은 물론이다.

이렇게 추출된 연관 키워드는 서비스의 관리자 또는 추가적인 프로세싱에 의해 더 제한될 수도 있지만, 어떠한 경우든 이러한 방식으로 추출된 연관 키워드들이 상기 특정 금융종목의 연관 키워드 또는 그 후보로 특정될 수 있다.

한편 상기 결정시스템(100)은 특정 금융종목에 상응하는 비정형 데이터들을 전부 학습대상 데이터로 학습하는 것이 아니라, 소정의 필터링을 수행하고 수행결과 남은 비정형 데이터들만을 학습대상 데이터로 특정할 수 있다.

이를 위해 상기 필터링 모듈(140)은 상기 결정시스템(100)이 수집한 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행할 수 있다. 그리고 필터링을 수행한 후에 남은 비정형 데이터들이 학습대상 데이터로 특정될 수 있다.

일 예에 의하면, 상기 필터링 모듈(140)은 수집한 비정형 데이터들 중복성이 높은 비정형 데이터들은 필터링을 통해 걸러내고 학습대상 데이터들 간에는 중복성이 낮은 것들만 특정할 수 있다.

이를 위해 상기 필터링 모듈(140)은 비정형 데이터들 즉, 문서들 간에 유사도가 일정 수준 이상 높은 문서들 간에 클러스터링(clustering) 또는 그루핑(grouping)할 수 있다.

이를 위해 상기 결정시스템(100)은 각각의 비정형 데이터들을 나타내는 문서 벡터를 생성하고 이를 활용할 수 있다. 문서 벡터는 해당 문서를 특징짓기 위한 벡터이며 컨텍스트를 고려하여 워드 임베딩이 잘 수행되는 제1자연어 처리모델을 통해서 획득되는 워드 벡터들을 이용하여 해당 워드 벡터에 대응하는 키워드들을 포함하는 문장(sentence)을 특징짓는 문장 벡터(sentence vector) 또는 해당 문장들을 포함하는 해당 문서를 특징짓는 문서 벡터(document vector)를 정의하는 방식은 다양할 수 있음은 물론이다.

물론 문서 벡터를 생성하기 위해서 상기 제1자연어 처리모델이 생성한 워드벡터를 반드시 이용해야 하는 것은 아니며, 단순히 문서간의 유사성을 판단하기 위한 다양한 공지의 문서 벡터(예컨대, TF-IDF 또는 이들을 활용한 방식) 생성 방식이 이용될 수 있음은 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

이러한 문서벡터의 생성은 문서벡터 생성모듈(150)에 의해 수행될 수 있다.

일 예에 의하면 상기 문서벡터 생성모듈(150)은 상기 제1자연어 처리모델을 통해 획득되는, 문서에 포함된 키워드들 각각의 워드벡터를 활용하여 문서벡터를 생성할 수 있다. 워드벡터를 활용하여 문장벡터를 생성하고 이를 이용하여 문서벡터를 생성할 수도 있고, 워드벡터로부터 바로 문서벡터를 정의할 수도 있다. 문장벡터 및/또는 문서벡터를 도출하기 위해 문장 또는 문서에 포함된 키워드 각각의 워드벡터를 소정의 방식으로 연산할 수 있고, 각각의 방식은 실시 예에 따라 다양해질 수 있음은 물론이다. 특히 BERT와 같이 양방향으로 깊은 어텐션을 고려하여 워드 임베딩을 수행하는 모델의 경우, 워드벡터를 통해 생성하는 문장벡터 또는 문서벡터의 성능은 높아질 수 있다.

그러면 상기 필터링 모듈(140)은 상기 문서벡터 생성모듈(150)에 의해 생성된 비정형 데이터들 각각에 대한 문서벡터에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 할 수 있다. 문서벡터간의 유사도 역시 전술한 바와 같은 코사인 유사도 또는 유클리디언 거리가 이용될 수 있으며, 클러스트링의 기준 값을 얼마로 정할지는 다양한 실시 예가 가능할 수 있다.

그러면 상기 필터링 모듈(140)은 클러스터링된 비정형 데이터 클러스터들 각각에서 일부를 학습대상 데이터에서 제외하도록 필터링을 수행할 수 있다.

한편 본 발명의 기술적 사상에 의하면 클러스터링을 수행할 때 비정형 데이터들 각각의 생성시점(예컨대, 업로드 시간 등)을 더 고려하여 클러스터링이 수행될 수도 있다.

이는 통상적으로 어떤 한 컨텐츠가 생성되면, 상기 컨텐츠의 생성시점과 유사한 시점에 상기 컨텐츠에 기초한 중복 컨텐츠(예컨대, 동일하거나 유사한 컨텐츠가 서로 다른 게시자에 의해 업로드되는 컨텐츠)가 생성되는 경우가 빈번하며 이때는 중복 컨텐츠를 필터링하는 것이 바람직할 수 있다. 하지만 내용이 유사한 컨텐츠라도 일정 시간이상의 차이가 있는 경우에는 그 자체로 독자적인 컨텐츠로서 다수의 사용자들에 의해 인식되고 취급될 수 있기 때문이다.

따라서 설령 그 의미가 유사한 컨텐츠 즉 비정형 데이터라 하더라도 그 생성시점의 시간 간격이 큰 경우에는, 새롭게 시장에 영향을 미치거나 사용자의 인식에 영향을 미칠 수 있는 새로운 컨텐츠로 취급되는 것이 오히려 바람직할 수 있다. 따라서 본 발명의 기술적 사상은 이러한 개념을 수용하여 비정형 데이터들에 대한 필터링을 수행할 수 있다.

이러한 일 예는 도7에 도시된 바와 같을 수 있다.

도7은 본 발명의 실시 예에 따라 필터링을 수행하는 개념을 설명하기 위한 도면이다.

도7을 참조하면, 상기 문서벡터 생성모듈(150)에 의해 네트워크로부터 비정형 데이터들 각각에 대응하는 문서벡터들(예컨대, D1 내지 D19)이 생성될 수 있다.

도7에 도시된 각각의 문서벡터들(예컨대, D1 내지 D19)은 문서벡터들간의 유사도에 의해 어느 하나의 클러스터로 클러스터링된 문서벡터들일 수 있다.

일 실시 예에 의하면, 어느 하나의 클러스터로 분류된 문서벡터들(예컨대, D1 내지 D19)은 실제로 내용이 유사한 비정형 데이터들이므로 이중에서 어느 하나의 문서 또는 필요에 따라 가장 유사도가 낮은 몇 개의 문서 즉, 비정형 데이터만을 학습대상 데이터로 남기고 나머지는 필터링을 수행하여 학습대상 데이터를 특정할 수 있다. 그리고 이러한 과정을 각각의 클러스터들에 대해 수행할 수 있다.

또한 실시 예에 따라서는 상기 필터링 모듈(140)은 문서의 유사도뿐만 아니라 해당 문서의 생성시점에 더 기초하여 클러스터링을 수행할 수도 있다. 즉, 문서의 유사도가 일정 수준 이상이면서 문서의 생성시간이 일정 간격내인 조건을 만족하는 문서들간에 클러스터링이 수행될 수 있으며, 그 결과는 도7에 도시된 바와 같을 수 있다.

즉, 문서의 유사도만으로는 하나의 클러스터로 분류된 문서벡터들(예컨대, D1 내지 D19)이 문서의 생성시간이라는 기준을 통해 3개의 세부 클러스터(Dt1, Dt2, Dt3)로 분류될 수 있다.

그러면 상기 필터링 모듈(140)은 각각의 세부 클러스터(Dt1, Dt2, Dt3)에서 필터링을 수행하고 남은 문서들 즉, 비정형 데이터들 1개 또는 몇 개를 학습대상 데이터로 특정할 수 있다.

이처럼 문서의 생성시간에 더 기초하여 클러스터링을 수행하여 필터링을 수행하는 것은 단순히 비정형 데이터의 수집을 세분화하는 것에 비해 보다 효과적이다. 왜냐하면 비정형 데이터의 수집은 제1자연어 처리모델의 학습결과에 영향을 미칠 정도로 데이터의 양이 충분히 존재하여야 함으로 상대적으로 긴 주기(예컨대, 몇 개월) 단위로 수행되는 것이 바람직하다. 하지만 이렇게 상대적으로 긴 시간동안 수집된 비정형 데이터들 중는 실제로 어느 한 개의 컨텐츠에 기초하여 중복성이 있도록 생성된 컨텐츠가 존재할 뿐만 아니라, 의미는 유사하지만 별개의 생성자에 의해 별개로 생성된 독자적 컨텐츠일 수도 있다. 따라서 후자의 경우는 설령 그 의미는 유사하더라도 별개의 정보로써 학습대상 데이터에 포함되는 것이 바람직할 수 있다.

따라서 상대적으로 긴 주기 단위로 특정 금융종목에 상응하는 비정형 데이터들을 수집한 후, 비정형 데이터(문서)들 간의 유사도 및 생성시간 기준(예컨대, 1일 또는 2일)으로 상대적으로 짧은 기간의 시간범위 내의 문서들을 클러스터링을 수행하는 것이 중복성은 제거하면서도 다수의 컨텐츠 생성자들의 개별적인 견해 또는 분석이 담긴 컨텐츠에 따라 연관 키워드를 생성하기 위한 본 발명의 취지를 잘 달성할 수 있다.

이에 따라 상기 필터링 모듈(140)은 상기 세부 클러스터(Dt1, Dt2, Dt3)들 각각에서 한 개 또는 몇 개의 문서벡터들에 상응하는 문서들만을 학습대상 데이터로 남기는 필터링을 수행할 수 있다.

한편, 본 발명의 기술적 사상은 네트워크 상의 다수의 컨텐츠 생성자의 견해나 분석 또는 뉴스 등을 통해 특정 금융종목의 연관 키워드를 결정하는 특징을 가지므로, 이러한 연관 키워드의 변화 또는 추이가 상기 특정 금융종목 또는 이에 해당하는 회사의 변화 또는 이들에 대한 다수의 사람들의 인식의 변화를 반영하는 것일 수 있다.

따라서 특정 금융종목의 연관 키워드의 변화가 있을 경우 이를 빠른 시간 내에 인식하는 경우에는 상대적으로 해당 변화를 고려한 투자전략의 생성이 가능할 수 있다.

이를 위해 상기 결정시스템(100)은 소정의 주기별로 연관 키워드 결정을 수행할 수 있다.

그리고 각 주기별로 미리 정해진 기간 내에 생성된 비정형 데이터들로써 연관 키워드의 결정을 수행할 수 있고, 그 결과들을 소정의 DB(160)에 저장 및 관리함으로써 특정 금융종목의 연관 키워드의 변화를 모니터링할 수 있다.

이러한 일 예는 도8을 참조하여 설명하도록 한다.

도8은 본 발명의 실시 예에 따라 연관 키워드의 변화를 설명하기 위한 도면이다.

도8을 참조하면, 상기 제어모듈(110)은 상술한 바와 같은 방식으로 특정 금융종목(예컨대, S1, S2 등)의 연관 키워드를 결정할 수 있다.

예컨대, 제1주기(P1)에서 상기 특정 금융종목(예컨대, S1)의 연관 키워드들(예컨대, K1, K2, K3, K4)가 결정되었고, 제2주기(P2)에서 다시 연관 키워드를 결정하였지만 제1주기(P1)에서 결정된 연관 키워드들과는 차이가 없을 수 있다. 즉, 제2주기(P2)에서 결정된 연관 키워드들 역시 제1주기(P1)과 동일한 K1, K2, K3, K4일 수 있다.

하지만 제3주기(P3)에서 결정된 연관 키워드는 K1, K3, K4, K5일 수 있다. 즉, 새로운 연관 키워드(K5)가 제3주기에서 상기 특정 금융종목(예컨대, S1)의 연관 키워드로 결정될 수 있으며, 이는 실제 상기 특정 금융종목(예컨대, S1)이나 이에 해당하는 회사에 K5라는 연관 키워드와 관련된 이슈가 발생했거나 적어도 그 이슈가 발생한 것으로 인식한 사용자들이 등장했음을 의미할 수 있다.

이러한 경우 상기 제어모듈(110)은 소정의 알람 프로세스를 수행할 수 있으며, 이러한 알람 프로세스는 상기 결정시스템(100)을 운영하는 주체의 관리자 또는 미리 지정된 알림통보 대상자나 머신에게 새로운 연관 키워드가 등장했음을 통보하는 절차일 수 있다.

이를 통해 해당 통보를 수신한 객체는 이를 확인하고 새로운 투자전략의 검토나 수립을 빠르게 진행할 수 있는 효과가 있다.

상술한 바와 같은 본 발명의 기술적 사상에 따른 인공지능 기반의 종목연관 키워드 결정방법을 간략히 도식화하면 도4와 같을 수 있다.

도4는 본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 결정방법을 구현하기 위한 데이터 플로우를 예시적으로 나타낸다.

도4에 도시된 바와 같이, 상기 결정시스템(100)은 연관 키워드를 결정할 소정의 금융종목을 특정할 수 있다(S100). 그리고 특정한 특정 금융종목에 상응하는 비정형 데이터를 수집할 수 있다(S200).

그러면 상기 결정시스템(100)은 수집한 비정형 데이터에 기초하여 상기 특정 금융종목의 연관 키워드를 결정할 수 있다(S300).

연관 키워드를 결정하기 위해 전술한 바와 같이 컨텍스트 센서티브한 제1자연어 처리모델이 이용될 수 있고, 상기 제1자연어 처리모델의 학습에 이용되는 학습대상 데이터는 수집된 비정형 데이터들 전부가 아니라 소정의 필터링 프로세스가 수행된 후에 특정될 수 있음은 전술한 바와 같다.

또한, 이러한 프로세스는 소정의 주기 즉, 미리 정해진 일정시간이 경과하면 반복적으로 수행될 수 있다(S400).

그리고 새로운 연관 키워드가 결정되면 소정의 알람 프로세스를 수행할 수 있다.

한편 전술한 바와 같이 상기 제어모듈(110)은 특정 금융종목에 상응하는 투자영향지표를 결정할 수도 있다.

이러한 일 예는 도 9를 참조하여 설명하도록 한다.

도9는 본 발명의 실시 예에 따라 투자영향지표를 결정하는 개념을 설명학이 위한 도면이다.

도9를 참조하면, 본 발명의 실시 예에 따른 결정시스템(100)의 제어모듈(110)은 투자영향지표를 결정할 금융종목을 특정할 수 있다.

그리고 데이터 수집모듈(120)은 특정한 특정 금융종목에 상응하는 비정형 데이터 즉, 문서들을 수집할 수 있음은 전술한 바와 같다. 실시 예에 따라 상기 데이터 수집모듈(120)은 특정 금융종목의 연관 키워드에 상응하는 비정형 문서들을 수집할 수도 있다. 즉, 상기 결정시스템(100)은 특정 금융종목에 상응하는 비정형 문서들(제1비정형 문서들이라 함)만을 이용하여 투자영향지표를 결정할 수도 있고, 상기 제1비정형 문서들뿐만 아니라 특정 금융종목의 연관 키워드에 상응하는 비정형 문서들(제2비정형 문서들이라 함)에 더 기초하여 투자영향지표를 결정할 수도 있다. 실시 예에 따라서는 연관 키워드의 연관 키워드에 상응하는 비정형 문서들(제3비정형 문서들이라 함)에 더 기초하여 투자영향지표를 결정할 수도 있다.

이처럼 특정 금융종목 자체를 언급하고 있는 문서뿐만 아니라, 특정 금융종목의 연관 키워드를 언급하고 있는 문서, 더 나아가 특정 금융종목의 연관 키워드의 연관 키워드를 언급하고 있는 문서들과 같이 연관 키워드의 차수를 확장해가면서 특정 금융종목과 연관성 있는 문서들을 확장할 수 있고, 이들을 통해 후술하는 바와 같이 투자영향지표를 결정할 수 있다. 몇 차의 연관 키워드에 상응하는 문서(예컨대, 특정 금융종목의 연관 키워드에 상응하는 비정형 문서를 제2비정형 문서 또는 2차비정형 문서라 정의하면, 특정 금융종목의 연관 키워드의 연관 키워드에 상응하는 비정형 문서는 3차 비정형 문서로 정의할 수 있음)까지 포함하여 투자영향지표를 결정할지에 대해서는 실시 예에 따라 달라질 수 있다.

또한 필연적으로 제1비정형 문서(1차비정형 문서)와 그다음 차수인 2차비정형 문서 간에는 중복되는 문서가 존재할 수 있고, 이러한 경우에는 빠른 차수의 비정형 문서로 취급할 수 있다.

어떠한 경우든 데이터 수집모듈(120)에 의해 1차비정형 문서들을 포함하며 n(n은 2이상의 자연수)차 비정형 문서들이 수집되면, 상기 제어모듈(110)은 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정할 수 있다.

상기 제어모듈(110)은 수집한 비정형 문서들에 기초하여 상기 비정형 문서들이 상기 특정 금융종목에 상응하는 투자영향지표를 결정하기 위해 상기 자연어 처리모델(130)에 포함된 제2자연어 처리모델을 이용할 수 있다.

상기 제2자연어 처리모델은 전술한 바와 같이 수집된 비정형 문서들 중 전부 또는 일부인 판단대상 문서들에 대해 해당 문서들 각각이 특정 금융종목에 대해 긍정적인 영향을 갖는 것 또는 부정적인 영향을 갖는 것을 포함하는 미리 정해진 분류결과로 분류할 수 있다.

상기 제2자연어 처리모델은 문서들 자체 뿐만 아니라 문서에 포함된 문장별로 영향판단 즉, 감성분석을 수행할 수도 있으며, 실시 예에 따라서는 문장별 감성분석 결과에 기초하여 문서의 감성분석을 수행할 수 있다.

일 예에 의하면, 상기 제2자연어 처리모델은 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델을 통해 감성분석을 수행할 수 있도록 학습되어 있으며, 이러한 학습된 제2자연어 처리모델을 통해 수집된 비정형 문서들의 전부 또는 일부에 대한 감성분석이 수행될 수 있다.

제2자연어 처리모델이 출력하는 감성분석 결과는 단순히 긍정, 부정, 또는 중립의 3개 클래스일 수도 있지만, 더 상세한 클래스(예컨대, 강한긍정, 약한긍정, 강한부정, 약한부정, 중립 등)로 분류할 수도 있다. 물론, 제2자연어 처리모델의 학습시에는 출력할 클래스별로 라벨링이 수행되어야 함은 물론이다.

한편 수집된 비정형 문서들 전부를 감성분석을 수행할 판단대상 문서들로 특정하는 경우는 전술한 바와 같이 어느 하나의 컨텐츠를 그대로 복제하여 업로드하거나 약간의 변경만 가해진 컨텐츠가 업로드되는 등의 소셜 미디어 상에서의 컨텐츠 중복성 문제로 인해 실질적으로는 하나의 컨텐츠가 다수의 문서들로 재생산되어 투자영향지표에 과다한 영향을 미치는 문제가 발생할 수 있다.

이를 위해 제2자연어 처리모델이 감성분석을 수행할 대상 역시 필터링 모듈(140)에 의해 필터링될 수 있으며, 그 기준은 도 7에서 전술한 바와 같을 수 있다.

즉, 필터링 모듈(140)은 연관 키워드를 결정하기 위해 필터링을 수행한 것과 동일 또는 유사한 방식으로 제2자연어 처리모델이 감성분석을 수행할 대상인 판단대상 문서들에 대해서도 필터링을 수행할 수 있다.

필터링 모듈(140)은 수집한 비정형 문서들 중 미리 정해진 필터링 조건에 해당하는 비정형 문서에 대한 필터링을 수행할 수 있으며, 필터링을 수행한 후에 남은 비정형 문서들이 판단대상 문서들로 특정될 수 있다.

이때 필터링을 수행하기 위해 전술환 바와 같이 문서들 간 유사도가 일정 수준 이상인 비정형 문서들 간에 클러스터링이 수행될 수 있고,

제2항에 있어서, 상기 시스템이 수집한 비정형 문서들 중 미리 정해진 필터링 조건에 해당하는 비정형 문서에 대한 필터링을 수행하는 단계는, 클러스터링된 비정형 문서 클러스터들 각각에서 일부를 판단대상 문서에서 제외하도록 필터링을 수행할 수 있다.

또한 유사도 뿐만 아니라 비정형 문서의 생성시간이 미리 정해진 시간범위 내인 기준을 더 이용하여 비정형 문서들 간에 클러스터링을 수행할 수 있음은 전술한 바와 같다. 그리고 비정형 문서들 간의 유사도 판단을 위해 문서벡터가 이용될 수 있음도 전술한 바와 같다.

이러한 방식으로 중복성이 어느 정도 해소된 후의 비정형 문서들 즉 판단대상 문서들에 대해 제2자연어 처리모델은 감성분석을 수행할 수 있다.

판단대상 문서들에 대해 감성분석을 수행한 결과를 이용하여 투자영향지표를 결정하기 위한 개념은 도10에 도시된다.

도10은 본 발명의 실시 예에 따른 비정형 문서들을 이용하여 투자영향지표를 결정하는 개념을 설명하기 위한 도면이다.

도10을 참조하면, 상기 제2자연어 처리모델은 판단대상 문서들이 특정되면 판단대상 문서들(예컨대, D₁ 내지 D_n) 각각을 입력으로 받아서 판단대상 문서들 각각에 대한 감성분석 결과(예컨대, f_D1 내지 f_Dn)를 출력할 수 있다.

제2자연어 처리모델이 긍정, 부정, 및 중립의 3개의 클래스로 출력을 수행하도록 학습된 경우, 상기 감성분석 결과(예컨대, f_D1 내지 f_Dn) 역시 긍정, 부정, 및 중립 중 어느 하나일 수 있다.

그러면 긍정, 부정, 및 중립 각각이 소정의 수치(예컨대, 1, -1, 0)로 치환될 수 있고, 각각의 문서별 가중치가 소정의 방식으로 정의됨으로써 도 10에 도시된 바와 같은 투자영향지표가 결정될 수 있다. 긍정, 부정, 및 중립별로 대응되는 수치는 다양한 실시 예가 가능할 수 있음은 물론이다.

즉, 투자영향지표(F)는 각각의 문서들의 감성분석 결과와 문서별 가중치의 곱으로 정의될 수 있다.

이때 가중치는 다양하게 결정될 수 있으며, 일 예에 의하면 상기 가중치는 문서의 출처일 수 있다. 예컨대, 문서의 출처별로 미리 가중치가 정해질 수 있으며, 이러한 가중치는 출처별 신뢰도에 따라 정해질 수 있다.

예컨대, 문서가 언론사나 공공기관, 금융기관 등 상대적으로 높은 신뢰성을 가지는 출처인 경우에는 높게 책정되고, 개별 사용자인 경우에는 상대적으로 낮게 책정될 수 있다. 또한 개별 사용자들이 출처인 경우에도 다양한 방식으로 사용자별 신뢰도를 결정(예컨대, 컨텐츠 생산 수, 팔로워의 수 등)하고 이에 따라 차별적인 가중치가 부여될 수도 있다.

한편, 각각의 문서들별 감성분석은 전술한 바와 같이 제2자연어 처리모델을 학습할 때부터 학습 데이터를 문서 자체로 설정하고 학습 데이터인 다수의 문서들에 대한 라벨링을 수행하여, 판단대상 문서들이 입력되면 판단대상 문서들 자체에 대해 감성분석 결과를 출력하도록 구현될 수도 있다.

하지만 문서들이 상대적으로 짧은 경우가 아니라면, 긴 문서들에 대해서는 문서 자체에 대해 학습 데이터의 생성시에 라벨링을 하기도 어렵거니와 문서 내에 긍정적인 문장 및 부정적인 문장이 공존하는 경우에는 문서 단위로 일괄적으로 긍정 또는 부정으로 판단하기가 용이하지 않을 수 있다.

따라서 본 발명의 기술적 사상에 의하면 문서들의 감성분석 결과를 수행하기 위해 문장들별 감성분석 결과를 이용할 수 있고, 이러한 개념은 도 11을 참조하여 설명하도록 한다.

도11은 본 발명의 실시 예에 따라 문장단위의 감성평가를 통해 문서의 영향평가를 수행하는 개념을 설명하기 위한 도면이다.

도11을 참조하면, 제2자연어 처리모델은 각각의 판단대상 문서들(Di)에 포함된 문장들(예컨대, S1 내지 Sm)별로 긍정, 부정, 또는 중립 등의 감성분석을 수행할 수 있다.

물론, 이를 위해서는 상기 제2자연어 처리모델은 학습시에 라벨링된 문장들을 학습 데이터로 이용하여 학습되어야 함은 물론이다.

그러면 각각의 문장들별 감성분석 결과(예컨대, f_s1, f_s2, ..., f_sm)에 기초하여 상기 제어모듈(110)은 상기 문서(Di)의 감성분석 결과(f_Di)를 판단할 수 있다.

상기 문서(Di)의 감성분석 결과(f_Di) 역시 각각의 문장별 감성분석결과와 이들의 가중치(예컨대, α₁ 내지 α_m)의 곱에 의해 결정될 수 있으며, 가중치는 실험을 통해 적응적으로 결정될 수 있다.

이처럼 문장별 감성분석 결과를 통해 문서의 감성분석 결과를 도출하는 경우에는 문서자체에 대해 감성분석을 수행하도록 학습되는 것에 비해 보다 정확성 높은 감성분석이 수행될 수 있는 효과가 있다.

한편, 상기 데이터 수집모듈(120)에 의해 수집되는 비정형 문서들은 전술한 바와 같이 특정 금융종목에 상응하는 문서들(제1비정형 문서 또는 2차비정형 문서) 뿐만 아니라, 특정 금융종목의 연관 키워드에 상응하는 문서(제2비정형 문서 또는 2차 비정형 문서) 또는 연관 키워드의 연관 키워드에 상응하는 문서(제3비정형 문서 또는 3차 비정형 문서) 등과 같이 그 범위가 확대될 수 있다.

이러한 경우에는 판단대상 문서들 각각의 차수별로 개별적으로 부분 투자영향지표를 결정하고, 부분 투자영향지표들에 기초하여 전체 투자영향지표를 결정할 수 있다.

이러한 일 예는 도 12를 참조하여 설명하도록 한다.

도12는 본 발명의 실시 예에 따라 문서의 차수를 반영하여 적응적으로 영향평가를 수행하는 개념을 설명하기 위한 도면이다.

도 12를 참조하면, 필터링 모듈(140)에 의해 필터링이 수행된 후의 문서들은 D₁₁ 내지 D_1N, D₂₁ 내지 D_2M, D₃₁ 내지 D_3P일 수 있다.

그리고 D₁₁ 내지 D_1N는특정 금융종목에 상응하는 비정형 문서 즉, 제1차 비정형 문서일 수 있고, D₂₁ 내지 D_2M는 2차 비정형 문서이며, D₃₁ 내지 D_3P은 3차 비정형 문서일 수 있다.

이러한 경우 상기 제어모듈(110)은 각각의 비정형 문서의 차수별 투자영향지표(F₁, F₂, F₃ 등)를 개별적으로 산정하고, 차수별 투자영향지표들에 대해 차별적인 가중치(예컨대, a, b, c)를 산정하여 전체 투자영향지표(F)를 결정할 수 있다.

이때 낮은 차수일수록 가중치는 높게 설정될 수 있다. 이는 낮은 차수일수록 해당 특정 금융종목에 직접적인 언급이 된 컨텐츠이기 때문이며, 직접성이 높을수록 특정 금융종목에 미치는 영향이 더 클 수 있기 때문이다.

결국 특정 금융종목의 투자영향지표를 네트워크 상의 다수의 생산자에 의해 생산된 컨텐츠를 통해 결정하면서, 투자영향지표에 영향을 미치는 문서의 범위를 키워드의 확장에 따라 확장하여 투자영향지표를 결정할 수 있다. 그리고 확장의 정도에 따라 차별적으로 투자영향지표에 미치는 정도를 조정함으로써 실제로 사용자들이 해당 문서를 보고 특정 금융종목과 연관성이 직접적이라고 판단하는 경우에는 보다 높은 영향을 미치고 연관성이 간접적이거나 낮다고 생각할 수 있는 문서는 투자영향지표에도 낮은 영향을 미치도록 상기 투자영향지표가 결정될 수 있다.

본 발명의 실시 예에 따른 인공지능 기반의 종목연관 키워드 또는 투자영향지표 결정방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

인공지능 기반의 투자지표 결정방법에 있어서,
시스템이 특정 금융종목에 상응하는 비정형 데이터들 중 최근 소정의 기간에 생산된 비정형 데이터만으로 특정되는 학습대상 데이터들에 대해 컨텍스트 센서티브(context-senstivie)한 제1자연어 처리모델을 통해 학습을 수행하고, 학습의 수행결과로 획득된 학습된 상기 제1자연어 처리모델을 통해 상기 특정 금융종목의 키워드에 상응하는 제1벡터를 추출하고, 추출한 상기 제1벡터와 코사인 유사도(Cosine Similarity)가 일정 값 이상이거나 상기 제1벡터와 유클리디안 거리(Euclidean Distance)가 일정 값 이하인 기준을 만족하는 제2벡터를 적어도 하나 추출하여, 추출된 적어도 하나의 제2벡터 각각에 대응되는 키워드를 상기 특정 금융종목의 연관 키워드로 결정하는 단계;
시스템이 특정 금융종목에 상응하거나 또는 상기 특정 금융종목의 연관 키워드 각각에 상응하는 비정형 문서들을 수집하는 단계;
상기 시스템이 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계를 포함하며,
상기 시스템이 수집한 비정형 문서들에 기초하여 상기 비정형 문서들이 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계는,
상기 시스템이 수집된 비정형 문서들 중 전부 또는 일부인 판단대상 문서들에 대해 제2자연어 처리모델을 통해 학습을 수행하여 구축된 영향 판단모델-상기 영향 판단모델은 상기 판단대상 문서들에 포함된 개별문서에 포함된 문장별로 감성분석을 수행하여 투자에 긍정적 영향을 미치는지 또는 부정적 영향을 미치는지 여부를 포함하는 분류결과를 출력할 수 있도록 학습된 모델임-의 출력결과에 기초하여 상기 투자영향지표를 결정하는 단계를 포함하는 인공지능 기반의 투자지표 결정방법.
제1항에 있어서, 상기 투자영향지표를 결정하는 단계는,
상기 시스템이 판단대상 문서들 각각별 분류결과 및 문서별 가중치의 곱에 기초하여 상기 투자영향지표를 결정하는 단계를 포함하며,
상기 문서별 가중치는 문서의 출처에 따라 달라지는 것을 특징으로 하는 인공지능 기반의 투자지표 결정방법.
제1항에 있어서, 상기 인공지능 기반의 투자지표 결정방법은,
상기 시스템이, 수집한 비정형 문서들 중 미리 정해진 필터링 조건에 해당하는 비정형 문서에 대한 필터링을 수행하는 단계를 더 포함하며,
필터링을 수행한 후에 남은 비정형 문서들이 상기 판단대상 문서들로 특정되는 것을 특징으로 하는 인공지능 기반의 투자지표 결정방법.
제3항에 있어서, 상기 시스템이, 수집한 비정형 문서들 중 미리 정해진 필터링 조건에 해당하는 비정형 문서에 대한 필터링을 수행하는 단계는,
상기 시스템이, 상기 수집한 비정형 문서들 각각에 대한 문서 벡터(document vector)를 생성하는 단계;
상기 시스템이, 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상인 비정형 문서들을 클러스터링 하는 단계; 및
상기 시스템이, 클러스터링된 비정형 문서 클러스터들 각각에서 일부를 판단대상 문서에서 제외하도록 필터링을 수행하는 단계를 포함하는 인공지능 기반의 투자지표 결정방법.
제4항에 있어서, 상기 시스템이, 생성한 문서 벡터들에 기초하여 유사도가 일정 수준 이상인 비정형 문서들을 클러스터링 하는 단계는,
상기 시스템이, 상기 유사도가 일정 수준 이상이며 비정형 문서의 생성시간이 미리 정해진 시간범위 내인 비정형 문서들 간에 클러스터링을 수행하는 단계를 포함하는 인공지능 기반의 투자지표 결정방법.
제1항에 있어서, 상기 시스템이 특정 금융종목에 상응하거나 또는 상기 특정 금융종목의 연관 키워드 각각에 상응하는 비정형 문서들을 수집하는 단계는,
상기 시스템이, 상기 특정 금융종목에 상응하는 제1비정형 문서들 및 상기 연관 키워드 각각에 상응하는 제2비정형 문서들을 각각 수집하는 단계를 포함하며,
상기 시스템이, 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정하는 단계는,
상기 시스템이, 상기 제1비정형 문서들에 기초하여 추출된 제1투자영향지표 및 상기 제2비정형 문서들에 기초하여 추출된 제2투자영향지표에 기초하여 결정하는 단계를 포함하는 인공지능 기반의 투자지표 결정방법.
제6항에 있어서, 상기 인공지능 기반의 투자지표 결정방법은,
상기 시스템이, 상기 연관 키워드의 연관 키워드인 2차연관 키워드에 상응하는 복수의 제3비정형 문서들을 수집하는 단계를 더 포함하며,
상기 시스템이, 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 미치는 투자영향지표를 결정하는 단계는,
상기 시스템이, 상기 제3비정형 문서들에 기초하여 추출된 제3투자영향지표에 더 기초하여 상기 투자영향지표를 결정하는 단계를 포함하는 인공지능 기반의 투자지표 결정방법.
제6항에 있어서, 상기 시스템이, 상기 제1비정형 문서들에 기초하여 추출된 제1투자영향지표 및 상기 제2비정형 문서들에 기초하여 추출된 제2투자영향지표에 기초하여 결정하는 단계는,
상기 시스템이, 상기 제1투자영향지표 및 상기 제2투자영향지표에 대해 서로 다른 가중치를 설정하여 상기 투자영향지표를 결정하는 것을 특징으로 하는 인공지능 기반의 투자지표 결정방법.
제1항에 있어서, 상기 영향 판단모델은,
상기 개별문서에 포함된 복수의 문장들별로 투자에 긍정적 영향을 미치는지 또는 부정적 영향을 미치는지 여부를 포함하는 분류결과를 출력하며,
판단된 복수의 문장들별 분류결과에 기초하여 상기 개별문서의 분류결과가 판단되는 것을 특징으로 하는 인공지능 기반의 투자지표 결정방법.
데이터 처리장치에 설치되며 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 수행하기 위한, 컴퓨터 판독가능한 기록매체에 기록된, 컴퓨터 프로그램.
프로세서;
프로그램이 저장된 저장장치를 포함하며,
상기 프로세서는 상기 프로그램을 구동하여,
특정 금융종목에 상응하는 비정형 데이터들 중 최근 소정의 기간에 생산된 비정형 데이터만으로 특정된 학습대상 데이터들에 대해 컨텍스트 센서티브(context-senstivie)한 제1자연어 처리모델을 통해 학습을 수행하고, 학습의 수행결과로 획득된 학습된 상기 제1자연어 처리모델을 통해 상기 특정 금융종목의 키워드에 상응하는 제1벡터를 추출하고, 추출한 상기 제1벡터와 코사인 유사도(Cosine Similarity)가 일정 값 이상이거나 상기 제1벡터와 유클리디안 거리(Euclidean Distance)가 일정 값 이하인 기준을 만족하는 제2벡터를 적어도 하나 추출하여, 추출된 적어도 하나의 제2벡터 각각에 대응되는 키워드를 상기 특정 금융종목의 연관 키워드로 결정하고,
특정 금융종목에 상응하거나 또는 상기 특정 금융종목의 연관 키워드 각각에 상응하는 비정형 문서들을 수집하고, 수집한 비정형 문서들에 기초하여 상기 특정 금융종목에 상응하는 투자영향지표를 결정하되,
수집된 비정형 문서들 중 전부 또는 일부인 판단대상 문서들에 대해 제2자연어 처리모델을 통해 학습을 수행하여 구축된 영향 판단모델-상기 영향 판단모델은 상기 판단대상 문서들에 포함된 개별문서에 포함된 문장별로 감성분석을 수행하여 투자에 긍정적 영향을 미치는지 또는 부정적 영향을 미치는지 여부를 포함하는 분류결과를 출력할 수 있도록 학습된 모델임-의 출력결과에 기초하여 상기 투자영향지표를 결정하는 인공지능 기반의 투자지표 결정시스템.