KR20220073356A - 인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템 - Google Patents

인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템 Download PDF

Info

Publication number
KR20220073356A
KR20220073356A KR1020200161358A KR20200161358A KR20220073356A KR 20220073356 A KR20220073356 A KR 20220073356A KR 1020200161358 A KR1020200161358 A KR 1020200161358A KR 20200161358 A KR20200161358 A KR 20200161358A KR 20220073356 A KR20220073356 A KR 20220073356A
Authority
KR
South Korea
Prior art keywords
keyword
issue
item
financial
keywords
Prior art date
Application number
KR1020200161358A
Other languages
English (en)
Inventor
김동진
김정민
김준석
송민정
임수정
임은주
이현용
김병훈
Original Assignee
주식회사 씽크풀
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씽크풀 filed Critical 주식회사 씽크풀
Priority to KR1020200161358A priority Critical patent/KR20220073356A/ko
Publication of KR20220073356A publication Critical patent/KR20220073356A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템이 개시된다.
상기 인공지능 기반의 이슈 금융종목 결정방법은 시스템이 비정형 데이터에 기초한 이슈 키워드를 특정하는 단계 및 상기 시스템이 추출한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하는 단계를 포함하며, 상기 시스템이 특정한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하는 단계는, 상기 시스템이, 비정형 테이터들을 학습한 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델에 의해 벡터화된 키워드들에 기초하여, 금융종목별로 대응되는 연관 키워드가 추출되어 저장된 종목별 연관 키워드 정보에 기초하여 상기 이슈 금융종목을 결정하는 단계를 포함한다.

Description

인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템{Method and system for deciding issue stock item based on artificial intelligence}
본 발명은 인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템에 관한 것이다.
보다 상세하게는 특정 금융상품(예컨대, 주식, 채권, 선물/옵션 등)에 대한 연관 키워드를 네트워크 상의 비정형 데이터로부터 인공지능 기반으로 효과적으로 추출함으로써 상기 특정 금융상품에 대한 관련된 이슈를 포괄적으로 확인하면서도 투자에 활용할 수 있도록 하는 방법 및 그 시스템에 관한 것이다.
또한 현재의 이슈 키워드를 기반으로 관련된 금융종목(상품)을 효과적으로 결정할 수 있는 방법 및 그 시스템에 관한 것이다.
특정 금융상품(예컨대, 특정 주식종목 등)과 연관된 키워드를 알고 있다면 해당 키워드에 대한 정보의 검색 등을 통해 상기 특정 금융상품의 가격변동을 예측하는 등과 같이 매우 유용할 수 있다.
따라서 종래에도 특정 금융상품별로 연관 키워드를 정의하고 이를 활용하고자 하는 시도가 있어왔다.
이러한 기술적 사상으로는 한국특허출원(출원번호 1020140003377, 키워드 연동 투자 정보 제공 시스템), 한국특허출원(출원번호 1020150149810, 연관 종목 정보 통합 제공 방법) 등에 개시된 바 있다.
하지만 종래의 기술적 사상은 연관 키워드 또는 특정 금융상품의 연관 정보를 사람이 수동으로 일일이 유지하는 방식이거나 웹 상에서 노출빈도 등을 이용하는 방식이어서 사람의 국한된 지식에 의존하거나 또는 실질적으로 크게 관련이 없는 키워드라도 특정 금융상품의 명칭과 같이 등장하는 일반적인 단어들이 연관 키워드로 선정되는 등 정확성이 상당히 낮은 문제점이 있었다.
따라서 특정인의 지식과 경험에 의존하는 것이 아니라 네트워크 상에서 유통되는 다양한 비정형 데이터로부터 특정 금융상품과 유의미한 정도로 연관성이 있는 키워드를 상대적으로 정확하게 추출해낼 수 있는 기술적 사상이 요구된다.
또한 이러한 키워드를 기반으로 현재 경제, 정치, 산업 등의 다양한 사회적 이슈의 발생 시 상기 이슈에 관련된 금융상품을 빠르고 정확하게 추출해낼 수 있는 기술적 사상이 요구된다.
-한국특허출원 출원번호(1020140003377, "키워드 연동 투자 정보 제공 시스템") -한국특허출원(출원번호 1020150149810, "연관 종목 정보 통합 제공 방법")
본 발명이 이루고자 하는 기술적인 과제는 소셜 미디어와 같이 다수의 비정형 데이터(비정형 문서, 예컨대, 뉴스, 사용자들이 작성한 게시글, 댓글 등)의 생산자들이 생산하는 정보로부터 특정 금융상품에 실질적으로 유의미한 연관 키워드를 인공지능 기반으로 추출할 수 있는 기술적 사상을 제공하는 것이다.
또한 소셜 미디어와 같은 비정형 데이터의 특성상 동일한 또는 거의 유사한 컨텐츠가 서로 다른 게시자에 의해 네트워크상에 업로도되는 경우가 빈번한데 이러한 비정형 데이터의 중복성까지 고려한 정확도가 향상된 연관 키워드를 추출할 수 있는 기술적 사상을 제공하는 것이다.
또한 이러한 연관 키워드의 추출을 주기적으로 수행하면서 연관 키워드의 변화를 빠르게 확인할 수 있도록 하는 기술적 사상을 제공하는 것이다.
또한 경제, 정치, 산업 등의 다양한 사회적 이슈의 발생 시 상기 이슈에 관련된 금융상품을 빠르고 정확하게 추출해낼 수 있는 기술적 사상을 제공하는 것이다.
본 발명의 기술적 사상에 따른 인공지능 기반의 이슈 금융종목 결정방법은 시스템이 비정형 데이터에 기초한 이슈 키워드를 특정하는 단계 및 상기 시스템이 추출한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하는 단계를 포함하며, 상기 시스템이 특정한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하는 단계는, 상기 시스템이, 비정형 테이터들을 학습한 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델에 의해 벡터화된 키워드들에 기초하여, 금융종목별로 대응되는 연관 키워드가 추출되어 저장된 종목별 연관 키워드 정보에 기초하여 상기 이슈 금융종목을 결정하는 단계를 포함한다.
상기 인공지능 기반의 이슈 금융종목 결정방법은, 상기 자연어 처리모델에 의해 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하는 단계 및 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출하는 단계를 포함할 수 있다.
상기 인공지능 기반의 이슈 금융종목 결정방법은, 종목별 연관 키워드 정보에 기초하여 키워드 기준의 키워드 관계DB를 구축하는 단계를 더 포함하며, 상기 키워드 관계DB에 기초하여 상기 이슈 금융종목을 결정하는 것을 특징으로 할 수 있다.
상기 종목별 연관 키워드 정보에 기초하여 키워드 기준의 키워드 관계DB를 구축하는 단계는, 상기 종목별 연관 키워드 정보에 포함된 소정의 제1연관 키워드에 대응되는 적어도 하나의 금융종목을 상기 제1연관 키워드의 연관종목으로 대응시켜 저장하는 단계 및 상기 종목별 연관 키워드 정보에, 특정 금융종목에 대응되는 연관키워드로써 상기 제1연관 키워드 및 적어도 하나의 제2연관 키워드가 존재하는 경우, 상기 적어도 하나의 제2연관 키워드를 상기 제1연관 키워드의 연관 키워드로 대응시켜 저장하는 단계를 포함할 수 있다.
상기 이슈 금융종목을 결정하는 단계는, 상기 키워드 관계DB로부터 상기 이슈 키워드에 대응되는 연관종목을 상기 이슈 금융종목으로 결정하는 단계를 포함할 수 있다.
상기 이슈 금융종목을 결정하는 단계는, 상기 키워드 관계DB로부터 상기 이슈 키워드의 연관 키워드 각각에 대응되는 연관 키워드 연관종목을 특정하는 단계, 상기 이슈 키워드의 상기 연관 키워드 연관종목을 상기 이슈 금융종목으로 결정하는 단계를 포함할 수 있다.
상기 이슈 금융종목을 결정하는 단계는, 상기 이슈 키워드의 상기 연관 키워드 연관종목 중에서 상기 이슈 키워드의 연관종목에 포함되지 않는 순수 연관 키워드 연관종목을 특정하는 단계를 더 포함하며, 상기 순수 연관 키워드 연관종목은 상기 연관종목과 구분하여 수요자측에 제공되는 것을 특징으로 할 수 있다.
다른 일 측면에 따른 인공지능 기반의 이슈 금융종목 결정방법은 키워드 및 상기 키워드의 연관종목과 상기 키워드의 연관 키워드가 대응되어 저장되는 키워드 관계DB가 저장되는 단계, 시스템이 비정형 데이터에 기초한 이슈 키워드를 특정하는 단계, 상기 키워드 관계DB로부터 상기 이슈 키워드의 연관 키워드 각각에 대응되는 연관 키워드 연관종목을 특정하는 단계, 및 상기 시스템이 상기 이슈 키워드의 상기 연관 키워드 연관종목 중에서 상기 이슈 키워드의 연관종목에 포함되지 않는 순수 연관 키워드 연관종목을 상기 이슈 금융종목으로 결정하는 단계를 포함한다.
상기의 방법은 컴퓨터 판독가능한 기록매체에 기록된 컴퓨터 프로그램에 의해 구현될 수 있다.
본 발명의 기술적 사상을 구현하기 위한 인공지능 기반의 이슈 금융종목 결정시스템은 프로세서, 프로그램이 저장된 저장장치를 포함하며,
상기 프로세서는 상기 프로그램을 구동하여, 비정형 데이터에 기초한 이슈 키워드를 특정하고, 특정한한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하되, 상기 이슈 금융종목을 결정하기 위해, 비정형 테이터들을 학습한 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델에 의해 벡터화된 키워드들에 기초하여, 금융종목별로 대응되는 연관 키워드가 추출되어 저장된 종목별 연관 키워드 정보에 기초하여 상기 이슈 금융종목을 결정하는 것을 특징으로 한다.
다른 일 측면에 따른 인공지능 기반의 이슈 금융종목 결정시스템은 프로세서, 프로그램이 저장된 저장장치를 포함하며, 상기 프로세서는 상기 프로그램을 구동하여, 키워드 및 상기 키워드의 연관종목과 상기 키워드의 연관 키워드가 대응되어 저장되는 키워드 관계DB를 저장하고, 비정형 데이터에 기초한 이슈 키워드를 특정하며, 상기 키워드 관계DB로부터 상기 이슈 키워드의 연관 키워드 각각에 대응되는 연관 키워드 연관종목을 특정하고, 상기 이슈 키워드의 상기 연관 키워드 연관종목 중에서 상기 이슈 키워드의 연관종목에 포함되지 않는 순수 연관 키워드 연관종목을 상기 이슈 금융종목으로 결정한다.
본 발명의 기술적 사상에 따르면 소셜 미디어와 같이 다수의 비정형 데이터(비정형 문서, 예컨대, 뉴스, 사용자들이 작성한 게시글, 댓글 등)의 생산자들이 생산하는 정보로부터 특정 금융상품에 실질적으로 유의미한 연관 키워드를 인공지능 기반으로 추출함으로써 특정인의 단편적 지식이나 노출빈도에 따른 연관 키워드의 추출이 아닌 키워드 추출시점에서의 살아있는 정보들로부터 해당 정보들의 의미를 고려하여 실질적으로 해당 금융상품과 연관성이 있는 키워드를 추출할 수 있는 효과가 있다.
또한 소셜 미디어와 같은 비정형 데이터의 특성상 동일한 또는 거의 유사한 컨텐츠가 서로 다른 게시자에 의해 네트워크상에 업로도되는 경우(예컨대, 어느 하나의 동일하거나 매우 유사한 뉴스 기사가 여러 매체에 의해 네트워크 상에 업로드되거나, 특정인의 컨텐츠가 다수의 사용자들에 의해 반복적으로 업로드되는 경우)가 빈번한데 이러한 비정형 데이터의 중복성까지 필터링을 수행하여 어느 정도 해소한 후에 연관 키워드를 추출함으로써 정확도를 향상시킬 수 있는 효과가 있다.
또한 이러한 연관 키워드의 추출을 주기적으로 그리고 추출시점에서 최근의 비정형 데이터들에 국한하여 수행함으로써 연관 키워드의 변화를 빠르게 확인하고, 이에 따라 특정 금융상품과 관련된 유의미한 정보를 빠른 시간에 확인할 수 있는 효과가 있다.
또한 이러한 연관 키워드에 기반하여, 경제, 정치, 산업 등의 다양한 사회적 이슈의 발생 시 상기 이슈에 관련된 금융상품을 빠르고 정확하게 추출해낼 수 있는 효과가 있다.
더욱이 연관 키워드의 연관 키워드로 확장을 하는 경우 이슈에 직접적인 금융상품 뿐만 아니라 간접적인 연관성을 갖는 금융상품까지도 탐색할 수 있는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도1은 본 발명의 기술적 사상에 따른 인공지능 기반의 이슈 금융종목 결정방법을 수행하기 위한 개략적인 시스템 구성들을 설명하기 위한 도면이다.
도2는 본 발명의 실시 예에 따른 인공지능 기반의 이슈 금융종목 결정을 수행하는 시스템의 개략적인 논리적 구성을 설명하기 위한 도면이다.
도3은 본 발명의 실시 예에 따른 인공지능 기반의 이슈 금융종목 결정을 수행하는 시스템의 개략적인 물리적 구성을 설명하기 위한 도면이다.
도4는 본 발명의 실시 예에 따른 인공지능 기반의 이슈 금융종목 결정방법을 구현하기 위한 데이터 플로우를 예시적으로 나타낸다.
도5는 본 발명의 실시 예에 따른 자연어 처리모델의 개념을 설명하기 위한 도면이다.
도6은 본 발명의 실시 예에 따라 워드벡터를 통한 연관 키워드를 추출하는 개념을 설명하기 위한 도면이다.
도7은 본 발명의 실시 예에 따라 필터링을 수행하는 개념을 설명하기 위한 도면이다.
도8은 본 발명의 실시 예에 따라 연관 키워드의 변화를 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예에 따른 키워드 관계 DB를 설명하기 위한 도면이다.
도 10은 본 발명의 실시 예에 따라 키워드 관계 DB를 이용한 이슈 금융상품의 탐색을 설명하기 위한 도면이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 아니 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에 있어서, “포함하다”또는 “가지다”등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도1은 본 발명의 기술적 사상에 따른 인공지능 기반의 이슈 금융종목 결정방법을 수행하기 위한 개략적인 시스템 구성들을 설명하기 위한 도면이다.
도1을 참조하면, 본 발명의 기술적 사상에 따른 인공지능 기반의 이슈 금융종목 결정방법을 구현하기 위해서는 소정의 결정시스템(이하, 100)이 구현될 수 있다.
상기 결정시스템(100)은 본 발명의 기술적 사상에 따라 특정 금융상품(예컨대, 주식, 선물, 옵션 등의 금융상품의 개별종목을 의미하며 이하 '특정 금융종목'이라 함)의 연관 키워드를 추출하여 관리자 또는 사용자에게 제공할 수 있다.
또한 상기 결정시스템(100)은 다양한 사회적 이슈가 발생한 경우, 이러한 이슈에 관련성이 있는 이슈 금융종목을 결정하여 관리자 또는 사용자에게 제공할 수 있다.
연관 키워드라 함은 이론적으로는 특정 금융종목(예컨대, 주식종목 A, 채권 B 등)의 가치변동에 영향을 미치는 이벤트, 객체, 인물, 동향 등을 나타내는 키워드를 의미할 수 있다. 실질적으로는 본 발명의 기술적 사상에 따라 다수의 비정형 데이터들(예컨대, SNS 등의 소셜 미디어상의 사용자 컨텐츠, 뉴스, 카페 또는 블로그 등에 개시된 컨텐츠 등)에 기초하여 상기 특정 금융종목과 연관 있는 것으로 추출되는 키워드를 의미할 수 있다.
또한 이슈 금융종목은 정치, 경제, 산업 등의 다양한 사회적 이슈가 발생한 경우, 이러한 이슈에 직간접적으로 영향을 받을 가능성이 있는 금융종목을 의미할 수 있다.
상기 결정시스템(100)은 네트워크를 통해 상기 특정 금융종목에 상응하는 비정형 데이터들을 수집할 수 있다. 상기 특정 금융종목에 상응하는 비정형 데이터라 함은 상기 특정 금융종목의 명칭(예컨대, 삼성전자, 하이닉스 등)이 포함되어 있으면서 네트워크 상에서 유통되는 다양한 컨텐츠를 의미할 수 있으며, 이러한 비정형 데이터는 언론사, 금융기관, 증권사, 일반적인 사용자들에 의해 생성될 수 있다. 상기 비정형 데이터는 일종의 문서로써 취급될 수 있으며, 텍스트가 포함되어 있으면 컨텐츠의 길이가 길거나(예컨대, 몇 줄 또는 몇 십 줄 이상의 게시글) 또는 짧거나(예컨대, 한 줄의 댓글 등) 무관하게 상기 비정형 데이터가 될 수 있다.
또한 본 명세서에서 정의되는 비정형 데이터는 상기 결정시스템(100)에 의해 수집되는 데이터가 미리 정해진 형식에 제한을 받지 않는다는 것을 의미하는 것이지, 상기 비정형 데이터의 생산자별로는 일정한 형식과 규칙을 가지도록 생성될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
상기 결정시스템(100)은 주기적으로 또는 관리자의 명령에 따라 특정 금융종목에 상응하는 비정형 데이터들을 크롤링할 수 있다. 구현 예에 따라서는 상기 비정형 데이터의 수집 대상이 되는 시스템에서 미리 정해진 프로토콜(예컨대, API)을 통해 상기 비정형 데이터를 수집할 수도 있다. 일 예에 의하면 상기 특정 금융종목에 상응하는 비정형 데이터인지와 무관하게 대량의 비정형 데이터들이 수집된 후 상기 결정시스템(100)에 의해 상기 특정 금융종목에 해당하는 데이터들만이 추출될 수도 있으며, 다른 일 예에 의하면 상기 특정 금융종목에 상응하는 비정형 데이터들만이 네트워크를 통해 수집될 수도 있다.
그러면 상기 결정시스템(100)은 이렇게 수집된 비정형 데이터들에 기초하여 상기 특정 금융종목의 연관 키워드를 결정할 수 있다.
또한 상기 결정시스템(100)은 이슈 키워드를 특정할 수 있다.
상기 이슈 키워드는 이슈 금융종목을 결정하는 시점에서 발생한 사회적 이슈를 나타내는 키워드일 수 있다.
이러한 이슈 키워드는 수집된 비정형 데이터 중 현재부터 미리 정해진 일정 시간(하루, 또는 1주일 등)내에 수집된 비정형 데이터로부터 자동으로 추출될 수 있다. 예컨대, 상기 결정시스템(100)은 비정형 데이터들에서 키워드의 빈도, 비정형 데이터의 출처 등 다양한 요소에 기반하여 자동으로 상기 이슈 키워드가 결정될 수도 있다. 이러한 이슈 키워드를 결정하기 위한 다양한 선행기술(한국특허출원 출원번호 10-2015-0012255호, 10-2014-0081204호, 10-2019-0146726호 등)이 널리 공지되어 있으므로 비정형 데이터에 기초하여 이슈 키워드를 결정하는 구체적인 방식에 대한 설명은 본 명세서에서는 생략하도록 한다.
다른 실시 예에 의하면, 상기 결정시스템(100)은 검색 서비스, 온라인 상품 판매 플랫폼 등의 다양한 서비스 측 시스템으로부터 이슈가 되는 키워드를 수신하여 수신된 키워드를 이슈 키워드로 특정할 수도 있다.
실시 예에 따라서는 관리자 또는 사용자가 자신이 판단한 이슈 또는 관심있는 이슈에 대한 키워드를 직접 입력하면, 상기 결정시스템(100)은 입력된 키워드를 이슈 키워드로 특정할 수도 있다.
본 발명의 기술적 사상에 의하면 상기 결정시스템(100)은 연관 키워드의 결정 시점에서 현재 네트워크상에 유통되는 다수의 컨텐츠 생산자에 의해 작성된 의견, 반응, 분석들을 토대로 상기 특정 금융종목의 연관 키워드를 결정하는 특징이 있다. 이를 위해 상기 결정시스템(100)은 특정 금융종목의 연관 키워드를 결정하기 위해 사용되는 비정형 데이터를 상기 비정형 데이터의 생산시점(예컨대, 네트워크상에 업로드 시점)에 기초하여 제한할 수 있다. 예컨대 최근 소정의 기간(예컨대, 1달, 3달 등)에 생산된 비정형 데이터 만에 기초하여 상기 결정시스템(100)은 특정 금융종목의 연관 키워드를 결정할 수 있다.
그리고 이러한 연관 키워드의 결정을 주기적으로 수행하면서 해당 특정 금융종목의 연관 키워드의 변화를 모니터링함으로서 상기 특정 금융종목 또는 상기 특정 금융종목의 주체(예컨대, 회사 등)의 사업방향의 변화나 유의미한 이벤트의 발생여부를 연관 키워드에 기반하여 확인할 수 있는 효과가 있다.
본 발명의 기술적 사상에 의하면 상기 결정시스템(100)은 특정 금융종목의 연관 키워드를 네트워크 상에 유통되는 비정형 데이터를 분석하여 결정하며, 이러한 비정형 데이터의 분석에는 딥러닝 기반의 자연어 처리모델(Natural Language Processing Model)을 이용할 수 있다.
특히 보다 정확도 높은 연관 키워드의 결정을 위해 상기 결정시스템(100)은 컨텍스트 센서티브(context sensitive)한 자연어 처리모델을 이용할 수 있다.
컨텍스트 센서티브 자연어 처리모델은 컨텍스트 프리(Context Free) 자연어 처리모델과 상반되는 개념으로써 어떤 키워드 또는 문장의 의미를 문맥에 따라 달리 정의 또는 인식하는 자연어 처리모델을 의미할 수 있다. 이에 비해 컨텍스트 프리 자연어 처리모델은 문맥과 무관하게 해당 키워드 또는 문장 자체로써 해당 키워드 또는 문장의 의미를 정의하거나 인식하는 것을 의미할 수 있다.
이러한 컨텍스트 센서티브한 자연어 처리모델은 다수의 학습 대상 데이터를 학습하여 실제로 특정 키워드(자연어 처리모델에서는 토큰이라고 표현하기도 하며, 키워드는 하나의 토큰 또는 토큰의 결합일 수 있음, 본 명세서에서는 설명의 편의를 위해 토큰 또는 토큰의 결합을 키워드로 표현하기로 함)와 연관이 있는 키워드를 잘 파악하는 것이 해당 자연어 처리모델의 중요한 성능 중 하나이며, 이를 위해서 어텐션(attention)이라는 개념을 적용한 자연어 처리모델이 등장하였다.
어텐션은 어떤 키워드를 정의하거나 인식하기 위해 해당 키워드와 연관이 있으므로 더 집중(attention)해서 참고하여야 다른 키워드와의 관계를 의미할 수 있다. 예컨대, 제1키워드와 어텐션의 값이 높은 제2키워드는 학습 데이터 상에서 상기 특정 키워드와 연관성이 높게 사용되었음을 의미할 수 있다.
어텐션 메커니즘과 어텐션 함수 등의 어텐션의 개념에 대해서는 널리 공지되어 있으므로 상세한 설명은 생략하도록 한다.
이러한 어텐션의 개념을 이용하여 학습 데이터들에 사용된 키워드들을 벡터화하는 자연어 처리모델의 경우 학습 데이터들에 포함된 각각의 키워드들은 문맥을 반영하여 벡터화될 수 있게 된다.
이러한 자연어 처리모델의 일 예는 예컨대, ELMo(Embeddings from Language Model), ULM-FiT (Universal Language Model Fine-tuning for Text Classification), BERT (Bidirectional Encoder Representations from Transformers) 등이 존재한다.
상기의 자연어 처리모델은 어떠한 경우든 키워드를 벡터화하는 태스크(word embedding)를 수행하며, 이러한 키워드의 벡터화를 통해 해당 키워드의 의미를 벡터로 표현할 수 있다.
특히 BERT (Bidirectional Encoder Representations from Transformers)의 경우는 비지도 학습(Unsupervised Learning)을 통해 다량의 학습 데이터를 라벨링(labeling)이라는 태스크 없이도 학습하여 키워드별로 문맥에 따라 차별적으로 해당 키워드를 높은 성능으로 벡터화할 수 있는 모델로 각광을 받고 있다.
따라서 본 발명의 일 실시 예에 의한 자연어 처리모델은 학습 데이터를 BERT 자연어 처리모델을 통해 학습하여 각각의 키워드를 벡터화하는 자연어 처리모델일 수 있지만, 이에 국한되지는 않는다.
어떠한 경우든 본 발명의 기술적 사상에 의하면 컨텍스트 센서티브한 자연어 처리모델을 통해 문맥을 반영한 각각의 키워드의 벡터화 결과를 이용할 경우, 종래에 단순히 통계적인 빈도 등을 통해 연관 키워드를 결정하는 방식에 비해 훨씬 높은 성능(즉, 단순히 특정 키워드와 같이 등장하는 빈도는 높지만 실질적인 연관성은 거의 없는 일반적인 의미의 단어들)을 가질 수 있다.
한편, 본 발명의 기술적 사상은 네트워크상의 비정형 데이터를 통해 특정 금융종목의 연관 키워드를 결정함으로써 다수의 컨텐츠 생산자의 다양한 의견이 반영되면서도 시간적 경향성을 반영할 수 있다는 장점을 그대로 보유하면서도, 네트워크상에 수집된 비정형 데이터를 이용하는 경우 발생할 수 있는 문제점을 해결할 수 있는 기술적 사상을 같이 제공할 수 있다.
네트워크상에 수집된 비정형 데이터를 이용하는 경우 발생할 수 있는 대표적인 문제점은 정보의 중복성일 수 있다. 즉, 동일하거나 실제로 거의 동일한 내용이 다수의 컨텐츠 생산자에 의해 별개의 비정형 데이터로써 생산되는 문제점이 있다. 이러한 경우 실질적으로는 한 개의 컨텐츠(텍스트 문서)임에도 다수의 생산자에 의해 반복적으로 업로드되거나 약간의 변경만 가해진 채 업로드되는 경우, 상기 한 개의 컨텐츠가 자연어 처리모델에 의해 반복적으로 학습되는 문제가 발생할 수 있다.
그리고 이는 해당 컨텐츠에 자연어 처리모델이 오버피팅(over fitting)되는 문제점 즉, 실제로는 크게 연관성이 없거나 연관성의 정도가 낮지만 높은 연관성을 가지도록 학습되는 경향을 가질 수 있다.
이를 위해 상기 결정시스템(100)은 비정형 데이터를 소정의 기준을 통해 필터링하여 중복성을 해소하는 기술적 사상을 제공할 수 있다.
결국 본 발명의 기술적 사상에 따르면 네트워크상의 다수의 비정형 데이터 즉, 다수의 생산자가 생산하는 다수의 라이브(live)한 정보들로부터 특정 금융종목의 연관 키워드를 의미를 어느 정도 이해할 수 있는 컨텍스트 센서티브한 자연어 처리모델을 통해 정확도 높게 결정하되, 네트워크상의 다수의 비정형 데이터를 이용하는 경우에 발생할 수 있는 문제점까지 해결할 수 있는 효과가 있다.
학습된 자연어 처리모델을 통해 종목별로 연관 키워드가 하나 이상 결정되면, 결정된 연관 키워드와 종목의 상관관계 즉, 종목별 연관 키워드 정보에 기초하여 특정 키워드와 관련성이 높은 금융종목의 탐색이 이루어질 수 있다.
더욱이 상기 특정 키워드가 전술한 바와 같은 이슈 키워드인 경우, 이러한 이슈 키워드에 상응하는 이슈 금융종목의 결정이 빠르고 정확하게 이루어질 수 있으며, 이러한 이슈 금융종목에 대한 정보를 관리자 또는 사용자에게 제공하는 경우 투자관점에서 매우 높은 효과를 가질 수 있다.
또한, 이러한 이슈 키워드에 상응하는 이슈 금융종목의 결정을 위해서, 본 발명의 기술적 사상에 의하면 종목별 연관 키워드 정보에 기초하여 키워드 관계 DB를 별도로 구축할 수도 있다.
그리고 구축한 키워드 관계 DB에 기초하여 보다 빠르고 정확하게 특정 키워드에 관련된 연관 금융종목의 결정이 이루어질 수 있으며, 직접적 관련성이 아닌 간접적 관련성이 있는 금융종목의 탐색도 효과적으로 이루어질 수 있는 효과가 있다.
이러한 기술적 사상을 구현하기 위한 상기 결정시스템(100)의 개략적인 구성은 도 2 및 도 3을 참조하여 설명하도록 한다.
도2는 본 발명의 실시 예에 따른 인공지능 기반의 이슈 금융종목 결정을 수행하는 시스템의 개략적인 논리적 구성을 설명하기 위한 도면이다. 또한 도3은 본 발명의 실시 예에 따른 인공지능 기반의 이슈 금융종목 결정을 수행하는 시스템의 개략적인 물리적 구성을 설명하기 위한 도면이다.
도2를 참조하면, 본 발명의 기술적 사상에 따른 결정시스템(100)은 제어모듈(110), 데이터 수집모듈(120), 자연어 처리모델(130)을 포함할 수 있다. 실시 예에 따라 상기 결정시스템(100)은 필터링 모듈(140), 문서벡터 생성모듈(150), 및/또는 DB(160)를 더 포함할 수 있다.
상기 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비한 논리적인 구성을 의미할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 결정시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예컨대, 상기 제어모듈(110), 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 각각은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 제어모듈(110), 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 각각을 구성하는 소프트웨어 및/또는 하드웨어의 결합 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 구성들이 서로 유기적으로 결합되어 각각의 상기 모듈들을 구현할 수도 있다.
또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
한편, 상기 결정시스템(100)은 물리적으로는 도 3에 도시된 바와 같은 구성을 가질 수 있다. 상기 결정시스템(100)은 은 본 발명의 기술적 사상을 구현하기 위한 프로그램이 저장되는 메모리(저장장치)(120-1), 및 상기 메모리(120)에 저장된 프로그램을 실행하기 위한 프로세서(110-1)가 구비될 수 있다.
상기 프로세서(110-1)는 상기 결정시스템(100)의 구현 예에 따라, CPU, 모바일 프로세서 등 다양한 명칭으로 명명될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. 또한, 도 2에서 설명한 바와 같이 상기 결정시스템(100)은 복수의 물리적 장치들이 유기적으로 결합되어 구현될 수도 있으며, 이러한 경우 상기 프로세서(110-1)는 물리적 장치별로 적어도 한 개 구비되어 본 발명의 결정시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
상기 메모리(120-1)는 상기 프로그램이 저장되며, 상기 프로그램을 구동시키기 위해 상기 프로세서가 접근할 수 있는 어떠한 형태의 저장장치로 구현되어도 무방하다. 또한 하드웨어적 구현 예에 따라 상기 메모리(120-1)는 어느 하나의 저장장치가 아니라 복수의 저장장치로 구현될 수도 있다. 또한 상기 메모리(120-1)는 주기억장치 뿐만 아니라, 임시기억장치를 포함할 수도 있다. 또한 휘발성 메모리 또는 비휘발성 메모리로 구현될 수도 있으며, 상기 프로그램이 저장되고 상기 프로세서에 의해 구동될 수 있도록 구현되는 모든 형태의 정보저장 수단을 포함하는 의미로 정의될 수 있다.
상기 결정시스템(100)은 실시 예에 따라 본 발명의 기술적 사상에 따라 금융종목별로 연관 키워드를 결정하고 이를 활용하고자 하는 주체(예컨대, 증권사, 은행, 또는 기타 서비스 사업자 등)가 운영하고 실시하는 시스템일 수 있고, 웹 서버, 컴퓨터 등 다양한 방식으로 구현될 수 있으며, 본 명세서에서 정의되는 기능을 수행할 수 있는 어떠한 형태의 데이터 프로세싱 장치도 포함하는 의미로 정의될 수 있다.
또한 상기 결정시스템(100)의 실시 예에 따라 다양한 주변장치들(주변장치 1 내지 주변장치 N, 130-1, 131-1)이 더 구비될 수 있다. 예컨대, 키보드, 모니터, 그래픽 카드, 통신장치 등이 주변장치로써 상기 결정시스템(100)에 더 포함될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
이하, 본 명세서에서 소정의 모듈이 어떤 기능을 수행한다고 함은 상기 프로세서(110-1)가 상기 메모리(120-1)에 구비된 프로그램을 구동하여 상기 기능을 수행하는 것을 의미함을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
상기 제어모듈(110)은 본 발명의 기술적 사상을 구현하기 위해 투자시스템(100)에 포함된 다른 구성(예컨대, 상기 데이터 수집모듈(120), 상기 자연어 처리모델(130), 상기 필터링 모듈(140), 상기 문서벡터 생성모듈(150), 및/또는 상기 DB(160) 등)의 기능 및/또는 리소스를 제어할 수 있다.
상기 데이터 수집모듈(120)은 특정 금융종목에 상응하는 복수의 비정형 데이터들을 수집할 수 있다. 이를 위해 상기 데이터 수집모듈(120)은 소정의 정보 소스 시스템이 제공하는 웹 또는 앱의 정보를 크롤링하거나 상기 시스템이 제공하는 API를 통해 수집할 수 있다. 이러한 정보 소스 시스템은 SNS(Social Network Service) 시스템, 언론사, 거래소, 금융기관, 포털, 카페, 블로그 등 다양할 수 있다.
또한 특정 금융종목에 상응하는지 여부와 무관하게 수집 가능한 데이터를 모두 수집한 후 특정 금융종목에 상응하는 데이터만을 추출하거나 또는 특정 금융종목에 상응하는 데이터만을 상기 시스템으로부터 수집할 수도 있다.
그러면 상기 제어모듈(110)은 수집한 상기 비정형 데이터들(예컨대, 금융관련 뉴스, 공시, 사용자가 업로드한 컨텐츠, 애널리스트 리포트 등의 다양한 문서 컨텐츠 또는 이들에 대한 댓글 등)에 기초하여 상기 특정 금융종목에 대응되는 연관 키워드를 추출할 수 있다.
이를 위해 상기 제어모듈(110)은 상기 자연어 처리모델(130)을 통해 수집된 비정형 데이터들 중 전부 또는 일부인 학습대상 데이터들을 학습하도록 할 수 있다.
상기 자연어 처리모델(130)은 전술한 바와 같이 적어도 컨텍스트 센서티브(context-senstivie)하게 학습대상 데이터들에 포함된 키워드를 각각 벡터화할 수 있는 모델일 수 있다.
예컨대 상기 자연어 처리모델(130)은 BERT 등과 같이 비지도 학습을 통해 대량의 코퍼스(corpus)를 학습할 수 있는 모델일 수 있고, 상기 학습대상 데이터들만을 훈련하거나 또는 상기 학습대상 데이터들이 아닌 다른 대량의 문서들 즉 코퍼스들을 먼저 학습(pretrained model)한 후 상기 학습대상 데이터들을 추가로 훈련하는 방식으로 학습될 수 있다.
예컨대, 도5는 본 발명의 실시 예에 따른 자연어 처리모델의 개념을 설명하기 위한 도면인데, 도5에 도시된 바와 같이 소정의 자연어 처리모델(130, 예컨대, BERT 등의 NLP 모델)이 구비될 수 있다.
상기 자연어 처리모델(130)은 학습대상 데이터들(예컨대, D1, D2, D3, D4 등)에 대한 학습을 수행한다.
상기 자연어 처리모델(130)은 학습대상 데이터들이 충분히 많은 경우에는 학습대상 데이터들만으로 학습이 수행될 수도 있지만, 통상적으로 학습대상 데이터들만으로는 충분한 양이 안 될 가능성이 높으므로 상기 자연어 처리모델(130)은 상기 학습대상 데이터들이 아닌 다른 대량의 데이터들(예컨대, BERT의 경우 wiki 데이터)로 이미 사전 학습된(pre-trained) 모델일 수 있다.
그리고 상기 학습대상 데이터들을 추가로 학습하여 상기 학습대상 데이터들에 포함된 키워드들 각각에 대한 워드벡터를 획득할 수 있다.
학습대상 데이터는 상기 결정시스템(100)이 수집한 특정 금융종목에 상응하는 비정형 데이터들 중에서 전술한 바와 같이 중복성 문제를 해결하고 남은 데이터들일 수 있다.
이러한 중복성 문제를 해결하기 위한 기술적 사상은 상세히 후술하도록 하며, 소정의 기준을 통해 서로 다른 비정형 데이터들이 중복성이 있다고 판단되면 이들 중 하나(또는 실시 예에 따라 몇 개)만을 남김으로써 학습대상 데이터들이 특정될 수 있다.
어떠한 경우든 상기 자연어 처리모델(130)은 학습대상 데이터들에 포함되어 있는 키워드들 각각을 문맥(context)을 반영하여 벡터화할 수 있는 모델일 수 있다.
그러면 상기 제어모듈(110)은 학습된 자연어 처리모델(130)을 통해 획득된 상기 특정 금융종목의 키워드(즉, 상기 특정 금융종목의 명칭)에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하고, 추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출할 수 있다.
성능이 뛰어난 즉, 잘 훈련된 자연어 처리모델(130)은 키워드를 벡터화하면서 동일하거나 유사한 의미를 가지는 키워드는 벡터공간 상에서 가까운 위치에 존재할 수 있도록 벡터화를 수행할 수 있다.
그리고 이렇게 벡터화된 키워드들은 벡터 공간 상(예컨대, BERT의 경우 768차원 공간)에 매핑될 수 있다.
이러한 개념은 도 6을 참조해 설명하도록 한다.
도6은 본 발명의 실시 예에 따라 워드벡터를 통한 연관 키워드를 추출하는 개념을 설명하기 위한 도면이다.
도6을 참조하면, 학습된 자연어 처리모델(130)을 통해 상기 학습대상 데이터들에 포함된 각각의 키워드들은 벡터화될 수 있으며, 이를 도시하면 도 6에 도시된 바와 같을 수 있다.
도6에서 제1벡터(10)은 특정 금융종목에 해당하는 키워드(즉 명칭)를 나타내는 벡터일 수 있다.
그리고 상기 키워드와 밀접한 연관이 있는 것으로 자연어 처리모델(130)을 통해 학습된 키워드들 각각의 벡터들(예컨대, 20 내지 27)은 벡터공간 상에서 가까운 위치에 매핑되게 된다.
이때 상기 자연어 처리모델(130)은 컨텍스트를 고려하여 워드 임베딩(키워드 벡터화)을 수행하며, 이에 따라 단순히 특정 금융종목에 해당하는 키워드와 함께 기재된 경우가 많지만 다른 금융종목과도 함께 기재된 경우 등 과 같이 실질적인 의미상으로 큰 연관성이 없는 단어들(예컨대, 주식에서 일반적으로 쓰이는 키워드들, '~이다' 등의 용언 등)은 상기 특정 금융종목에 대응되는 제1벡터(10)와는 벡터 공간 상에서 거리가 상대적으로 멀게 매핑될 수 있다.
따라서 상기 제어모듈(110)은 학습대상 데이터들에 포함된 키워드들이 상기 자연어 처리모델(130)에 의해 각각 벡터화된 결과를 통해 상기 특정 금융종목의 연관 키워드를 추출할 수 있다.
예컨대, 상기 제1벡터(10)와 미리 정해진 일정 기준 예컨대, 코사인 유사도(Cosine Similarity)가 일정 값 이상이거나 상기 제1벡터와 유클리디안 거리(Euclidean Distance)가 일정 값 이하인 벡터들(예컨대, 20 내지 27)을 추출하고 추출된 벡터들에 대응되는 키워드를 연관 키워드로 추출할 수 있다.
코사인 유사도 또는 유클리디언 거리는 모두 벡터 공간 상에서 벡터의 유사도를 측정하기 위해 사용될 수 있는 지표임은 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
또한 상기 일정 값을 얼마로 결정할지는 실험을 통해 결정할 수 있음은 물론이다.
이렇게 추출된 연관 키워드는 서비스의 관리자 또는 추가적인 프로세싱에 의해 더 제한될 수도 있지만, 어떠한 경우든 이러한 방식으로 추출된 연관 키워드들이 상기 특정 금융종목의 연관 키워드 또는 그 후보로 특정될 수 있다.
한편 상기 결정시스템(100)은 특정 금융종목에 상응하는 비정형 데이터들을 전부 학습대상 데이터로 학습하는 것이 아니라, 소정의 필터링을 수행하고 수행결과 남은 비정형 데이터들만을 학습대상 데이터로 특정할 수 있다.
이를 위해 상기 필터링 모듈(140)은 상기 결정시스템(100)이 수집한 비정형 데이터들 중 미리 정해진 필터링 조건에 해당하는 비정형 데이터에 대한 필터링을 수행할 수 있다. 그리고 필터링을 수행한 후에 남은 비정형 데이터들이 학습대상 데이터로 특정될 수 있다.
일 예에 의하면, 상기 필터링 모듈(140)은 수집한 비정형 데이터들 중복성이 높은 비정형 데이터들은 필터링을 통해 걸러내고 학습대상 데이터들 간에는 중복성이 낮은 것들만 특정할 수 있다.
이를 위해 상기 필터링 모듈(140)은 비정형 데이터들 즉, 문서들 간에 유사도가 일정 수준 이상 높은 문서들 간에 클러스터링(clustering) 또는 그루핑(grouping)할 수 있다.
이를 위해 상기 결정시스템(100)은 각각의 비정형 데이터들을 나타내는 문서 벡터를 생성하고 이를 활용할 수 있다. 문서 벡터는 해당 문서를 특징짓기 위한 벡터이며 컨텍스트를 고려하여 워드 임베딩이 잘 수행되는 자연어 처리모델(130)을 통해서 획득되는 워드 벡터들을 이용하여 해당 워드 벡터에 대응하는 키워드들을 포함하는 문장(sentence)을 특징짓는 문장 벡터(sentence vector) 또는 해당 문장들을 포함하는 해당 문서를 특징짓는 문서 벡터(document vector)를 정의하는 방식은 다양할 수 있음은 물론이다.
물론 문서 벡터를 생성하기 위해서 상기 자연어 처리모델(130)이 생성한 워드벡터를 반드시 이용해야 하는 것은 아니며, 단순히 문서간의 유사성을 판단하기 위한 다양한 공지의 문서 벡터(예컨대, TF-IDF 또는 이들을 활용한 방식) 생성 방식이 이용될 수 있음은 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
이러한 문서벡터의 생성은 문서벡터 생성모듈(150)에 의해 수행될 수 있다.
일 예에 의하면 상기 문서벡터 생성모듈(150)은 상기 자연어 처리모델(130)을 통해 획득되는, 문서에 포함된 키워드들 각각의 워드벡터를 활용하여 문서벡터를 생성할 수 있다. 워드벡터를 활용하여 문장벡터를 생성하고 이를 이용하여 문서벡터를 생성할 수도 있고, 워드벡터로부터 바로 문서벡터를 정의할 수도 있다. 문장벡터 및/또는 문서벡터를 도출하기 위해 문장 또는 문서에 포함된 키워드 각각의 워드벡터를 소정의 방식으로 연산할 수 있고, 각각의 방식은 실시 예에 따라 다양해질 수 있음은 물론이다. 특히 BERT와 같이 양방향으로 깊은 어텐션을 고려하여 워드 임베딩을 수행하는 모델의 경우, 워드벡터를 통해 생성하는 문장벡터 또는 문서벡터의 성능은 높아질 수 있다.
그러면 상기 필터링 모듈(140)은 상기 문서벡터 생성모듈(150)에 의해 생성된 비정형 데이터들 각각에 대한 문서벡터에 기초하여 유사도가 일정 수준 이상인 비정형 데이터들을 클러스터링 할 수 있다. 문서벡터간의 유사도 역시 전술한 바와 같은 코사인 유사도 또는 유클리디언 거리가 이용될 수 있으며, 클러스트링의 기준 값을 얼마로 정할지는 다양한 실시 예가 가능할 수 있다.
그러면 상기 필터링 모듈(140)은 클러스터링된 비정형 데이터 클러스터들 각각에서 일부를 학습대상 데이터에서 제외하도록 필터링을 수행할 수 있다.
한편 본 발명의 기술적 사상에 의하면 클러스터링을 수행할 때 비정형 데이터들 각각의 생성시점(예컨대, 업로드 시간 등)을 더 고려하여 클러스터링이 수행될 수도 있다.
이는 통상적으로 어떤 한 컨텐츠가 생성되면, 상기 컨텐츠의 생성시점과 유사한 시점에 상기 컨텐츠에 기초한 중복 컨텐츠(예컨대, 동일하거나 유사한 컨텐츠가 서로 다른 게시자에 의해 업로드되는 컨텐츠)가 생성되는 경우가 빈번하며 이때는 중복 컨텐츠를 필터링하는 것이 바람직할 수 있다. 하지만 내용이 유사한 컨텐츠라도 일정 시간이상의 차이가 있는 경우에는 그 자체로 독자적인 컨텐츠로서 다수의 사용자들에 의해 인식되고 취급될 수 있기 때문이다.
따라서 설령 그 의미가 유사한 컨텐츠 즉 비정형 데이터라 하더라도 그 생성시점의 시간 간격이 큰 경우에는, 새롭게 시장에 영향을 미치거나 사용자의 인식에 영향을 미칠 수 있는 새로운 컨텐츠로 취급되는 것이 오히려 바람직할 수 있다. 따라서 본 발명의 기술적 사상은 이러한 개념을 수용하여 비정형 데이터들에 대한 필터링을 수행할 수 있다.
이러한 일 예는 도7에 도시된 바와 같을 수 있다.
도7은 본 발명의 실시 예에 따라 필터링을 수행하는 개념을 설명하기 위한 도면이다.
도7을 참조하면, 상기 문서벡터 생성모듈(150)에 의해 네트워크로부터 비정형 데이터들 각각에 대응하는 문서벡터들(예컨대, D1 내지 D19)이 생성될 수 있다.
도7에 도시된 각각의 문서벡터들(예컨대, D1 내지 D19)은 문서벡터들간의 유사도에 의해 어느 하나의 클러스터로 클러스터링된 문서벡터들일 수 있다.
일 실시 예에 의하면, 어느 하나의 클러스터로 분류된 문서벡터들(예컨대, D1 내지 D19)은 실제로 내용이 유사한 비정형 데이터들이므로 이중에서 어느 하나의 문서 또는 필요에 따라 가장 유사도가 낮은 몇 개의 문서 즉, 비정형 데이터만을 학습대상 데이터로 남기고 나머지는 필터링을 수행하여 학습대상 데이터를 특정할 수 있다. 그리고 이러한 과정을 각각의 클러스터들에 대해 수행할 수 있다.
또한 실시 예에 따라서는 상기 필터링 모듈(140)은 문서의 유사도뿐만 아니라 해당 문서의 생성시점에 더 기초하여 클러스터링을 수행할 수도 있다. 즉, 문서의 유사도가 일정 수준 이상이면서 문서의 생성시간이 일정 간격내인 조건을 만족하는 문서들간에 클러스터링이 수행될 수 있으며, 그 결과는 도7에 도시된 바와 같을 수 있다.
즉, 문서의 유사도만으로는 하나의 클러스터로 분류된 문서벡터들(예컨대, D1 내지 D19)이 문서의 생성시간이라는 기준을 통해 3개의 세부 클러스터(Dt1, Dt2, Dt3)로 분류될 수 있다.
그러면 상기 필터링 모듈(140)은 각각의 세부 클러스터(Dt1, Dt2, Dt3)에서 필터링을 수행하고 남은 문서들 즉, 비정형 데이터들 1개 또는 몇 개를 학습대상 데이터로 특정할 수 있다.
이처럼 문서의 생성시간에 더 기초하여 클러스터링을 수행하여 필터링을 수행하는 것은 단순히 비정형 데이터의 수집을 세분화하는 것에 비해 보다 효과적이다. 왜냐하면 비정형 데이터의 수집은 자연어 처리모델(130)의 학습결과에 영향을 미칠 정도로 데이터의 양이 충분히 존재하여야 함으로 상대적으로 긴 주기(예컨대, 몇 개월) 단위로 수행되는 것이 바람직하다. 하지만 이렇게 상대적으로 긴 시간동안 수집된 비정형 데이터들 중는 실제로 어느 한 개의 컨텐츠에 기초하여 중복성이 있도록 생성된 컨텐츠가 존재할 뿐만 아니라, 의미는 유사하지만 별개의 생성자에 의해 별개로 생성된 독자적 컨텐츠일 수도 있다. 따라서 후자의 경우는 설령 그 의미는 유사하더라도 별개의 정보로써 학습대상 데이터에 포함되는 것이 바람직할 수 있다.
따라서 상대적으로 긴 주기 단위로 특정 금융종목에 상응하는 비정형 데이터들을 수집한 후, 비정형 데이터(문서)들 간의 유사도 및 생성시간 기준(예컨대, 1일 또는 2일)으로 상대적으로 짧은 기간의 시간범위 내의 문서들을 클러스터링을 수행하는 것이 중복성은 제거하면서도 다수의 컨텐츠 생성자들의 개별적인 견해 또는 분석이 담긴 컨텐츠에 따라 연관 키워드를 생성하기 위한 본 발명의 취지를 잘 달성할 수 있다.
이에 따라 상기 필터링 모듈(140)은 상기 세부 클러스터(Dt1, Dt2, Dt3)들 각각에서 한 개 또는 몇 개의 문서벡터들에 상응하는 문서들만을 학습대상 데이터로 남기는 필터링을 수행할 수 있다.
한편, 본 발명의 기술적 사상은 네트워크 상의 다수의 컨텐츠 생성자의 견해나 분석 또는 뉴스 등을 통해 특정 금융종목의 연관 키워드를 결정하는 특징을 가지므로, 이러한 연관 키워드의 변화 또는 추이가 상기 특정 금융종목 또는 이에 해당하는 회사의 변화 또는 이들에 대한 다수의 사람들의 인식의 변화를 반영하는 것일 수 있다.
따라서 특정 금융종목의 연관 키워드의 변화가 있을 경우 이를 빠른 시간 내에 인식하는 경우에는 상대적으로 해당 변화를 고려한 투자전략의 생성이 가능할 수 있다.
이를 위해 상기 결정시스템(100)은 소정의 주기별로 연관 키워드 결정을 수행할 수 있다.
그리고 각 주기별로 미리 정해진 기간 내에 생성된 비정형 데이터들로써 연관 키워드의 결정을 수행할 수 있고, 그 결과들을 소정의 DB(160)에 저장 및 관리함으로써 특정 금융종목의 연관 키워드의 변화를 모니터링할 수 있다.
이러한 일 예는 도8을 참조하여 설명하도록 한다.
도8은 본 발명의 실시 예에 따라 연관 키워드의 변화를 설명하기 위한 도면이다.
도8을 참조하면, 상기 제어모듈(110)은 상술한 바와 같은 방식으로 특정 금융종목(예컨대, S1, S2 등)의 연관 키워드를 결정할 수 있다.
예컨대, 제1주기(P1)에서 상기 특정 금융종목(예컨대, S1)의 연관 키워드들(예컨대, K1, K2, K3, K4)가 결정되었고, 제2주기(P2)에서 다시 연관 키워드를 결정하였지만 제1주기(P1)에서 결정된 연관 키워드들과는 차이가 없을 수 있다. 즉, 제2주기(P2)에서 결정된 연관 키워드들 역시 제1주기(P1)과 동일한 K1, K2, K3, K4일 수 있다.
하지만 제3주기(P3)에서 결정된 연관 키워드는 K1, K3, K4, K5일 수 있다. 즉, 새로운 연관 키워드(K5)가 제3주기에서 상기 특정 금융종목(예컨대, S1)의 연관 키워드로 결정될 수 있으며, 이는 실제 상기 특정 금융종목(예컨대, S1)이나 이에 해당하는 회사에 K5라는 연관 키워드와 관련된 이슈가 발생했거나 적어도 그 이슈가 발생한 것으로 인식한 사용자들이 등장했음을 의미할 수 있다.
이러한 경우 상기 제어모듈(110)은 소정의 알람 프로세스를 수행할 수 있으며, 이러한 알람 프로세스는 상기 결정시스템(100)을 운영하는 주체의 관리자 또는 미리 지정된 알림통보 대상자나 머신에게 새로운 연관 키워드가 등장했음을 통보하는 절차일 수 있다.
이를 통해 해당 통보를 수신한 객체는 이를 확인하고 새로운 투자전략의 검토나 수립을 빠르게 진행할 수 있는 효과가 있다.
상술한 바와 같은 본 발명의 기술적 사상에 따라 종목 연관 키워드를 결정하는 방법을 간략히 도식화하면 도4와 같을 수 있다.
도4는 본 발명의 실시 예에 따른 인공지능 기반의 이슈 금융종목 결정방법을 구현하기 위한 데이터 플로우를 예시적으로 나타낸다.
도4에 도시된 바와 같이, 상기 결정시스템(100)은 연관 키워드를 결정할 소정의 금융종목을 특정할 수 있다(S100). 그리고 특정한 특정 금융종목에 상응하는 비정형 데이터를 수집할 수 있다(S200).
그러면 상기 결정시스템(100)은 수집한 비정형 데이터에 기초하여 상기 특정 금융종목의 연관 키워드를 결정할 수 있다(S300).
연관 키워드를 결정하기 위해 전술한 바와 같이 컨텍스트 센서티브한 자연어 처리모델이 이용될 수 있고, 상기 자연어 처리모델의 학습에 이용되는 학습대상 데이터는 수집된 비정형 데이터들 전부가 아니라 소정의 필터링 프로세스가 수행된 후에 특정될 수 있음은 전술한 바와 같다.
또한, 이러한 프로세스는 소정의 주기 즉, 미리 정해진 일정시간이 경과하면 반복적으로 수행될 수 있다(S400).
그리고 새로운 연관 키워드가 결정되면 소정의 알람 프로세스를 수행할 수 있다.
한편, 이렇게 종목별로 연관 키워드가 결정되면, 사회적 이슈가 발생한 경우 이러한 이슈에 관련성이 있는 이슈 금융종목이 빠르고 정확하게 결정될 수 있다.
종목별로 연관 키워드가 결정되어 종목별 연관 키워드 정보가 유(160)에 유지/관리되어 있을 수 있고, 전술한 바와 같이 상기 결정시스템(100)이 이슈 키워드를 특정하면 상기 결정시스템(100)은 이슈 키워드를 종목별 연관 키워드 정보에서 탐색하여 탐색된 키워드에 상응하는 금융종목을 이슈 키워드에 상응하는 이슈 금융종목으로 결정할 수 있다.
실시 예에 따라서는, 상기 이슈 금융종목을 보다 빠르고 효과적으로 결정하기 위해, 상기 종목별 연관 키워드 정보에 기초하여 키워드 관계 DB를 구축할 수도 있다.
상기 키워드 관계 DB는 키워드별로 키워드를 기준으로 어떤 금융종목이 상응하는 연관종목인지 또는 어떤 다른 키워드가 상기 키워드의 연관 키워드인지를 체계적으로 정리하고 유지/관리하는 DB일 수 있다. 이러한 키워드 관계 DB 역시 상기 DB(160)에 저장되어 유지/관리될 수 있으며, 주기별로 종목별 연관 키워드가 업데이트되면 이에 연동하여 상기 키워드 관계 DB 역시 유지/관리될 수 있다.
본 발명의 실시 예에서는 상기 키워드 관계 DB를 통해 이슈 키워드에 상응하는 이슈 금융종목이 결정되는 일 예를 설명하고 있지만, 단순히 도 8에 도시된 바와 같은 종목별 연관 키워드 정보에 기초하여서도 이슈 키워드에 상응하는 이슈 금융종목이 결정될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
키워드 관계 DB를 이용하는 경우의 일 예는 도 9 내지 도 10을 참조하여 설명하도록 한다.
도 9는 본 발명의 실시 예에 따른 키워드 관계 DB를 설명하기 위한 도면이다.
도 9를 참조하면, 도 9의 상측에 도시된 표는 전술한 바와 같이 종목별로 연관 키워드가 컨텍스트 센서티브한 자연어 처리모델에 기초하여 결정된 일 예를 도시하고 있다.
종목별 연관 키워드 정보에는 도 9에 도시된 바와 같은 정보가 포함될 수 있으며, 제1금융종목(S1)에 상응하는 키워드는 K1, K2, K3일 수 있고, 제2금융종목(S2)에 상응하는 키워드는 K1, K4, K5일 수 있고, 제3금융종목(S3)에 상응하는 키워드는 K5, K6, K7일 수 있다.
그러면 상기 제어모듈(110)은 이러한 종목별 연관 키워드 정보에 기초하여 별도로 키워드 관계 DB를 구축할 수 있다.
키워드 관계 DB는 전술한 바와 같이 각각의 키워드를 기준으로 상응하는 금융종목 및 상응하는 키워드를 유지/관리하는 정보일 수 있다.
예컨대, 도 9의 상측에 도시된 표로부터, 제1키워드(K1)에 상응하는 연관 종목은 제1금융종목(S1) 및 제2금융종목(S2)일 수 있고, 제1키워드(K1)에 상응하는 제1키워드(K1)의 연관 키워드는 K2, K3, K4, K5일 수 있다.
또한 제5키워드(K5)에 상응하는 연관 종목은 제2금융종목(S2) 및 제3금융종목(S3)일 수 있고, 제5키워드(K5)에 상응하는 연관 키워드는 K1, K4, K6, K7일 수 있다.
즉, 상기 제어모듈(110)은 상기 종목별 연관 키워드 정보에 포함된 소정의 제1연관 키워드(예컨대, K1)에 대응되는 적어도 하나의 금융종목(예컨대, S1, S2)을 상기 제1연관 키워드(예컨대, K1)의 연관종목으로 대응시켜 저장할 수 있다.
또한 상기 종목별 연관 키워드 정보에, 특정 금융종목(예컨대, S1)에 대응되는 연관 키워드로써 상기 제1연관 키워드(예컨대, K1) 및 적어도 하나의 제2연관 키워드(예컨대, K2, K3)가 존재하는 경우, 상기 적어도 하나의 제2연관 키워드(예컨대, K2, K3)를 상기 제1연관 키워드(예컨대, K1)의 연관 키워드(예컨대, K2, K3)로 대응시켜 저장할 수 있다.
이러한 방식으로 상기 제어모듈(110)은 각각의 키워드를 기준으로 연관 금융종목 및 연관 키워드를 정리하면, 종목별 연관 키워드 정보에 기초하여 키워드 관계 DB를 구축할 수 있으며, 그 결과는 도 9의 아래에 도시된 표와 같을 수 있다.
이렇게 키워드 관계 DB를 구축하면, 종목별 연관 키워드 정보에 기초하여 특정 키워드(예컨대, 이슈 키워드)에 상응하는 연관 금융종목(예컨대, 이슈 금융종목)을 탐색하는 것에 비해 훨씬 효과적일 수 있다.
또한, 특정 키워드와 직접적 연관성이 아니라 간접적 연관성이 있는 금융종목의 탐색에도 효과적일 수 있다.
예컨대, 제1금융종목(S1)에 연관 키워드로 제1키워드(K1), 제2키워드(K2), 및 제3키워드(K3)가 도출되었다는 것은, 제1키워드(K1), 제2키워드(K2), 및 제3키워드(K3)는 각각 제1금융종목(S1)과는 직접적인 관련성이 있는 키워드임을 의미할 수 있다.
그런데 제1키워드(K1), 제2키워드(K2), 및 제3키워드(K3) 또한 동일한 어느 하나의 금융종목(S1)에 직접적 관련성이 있는 키워드이므로, 제1키워드(K1), 제2키워드(K2), 및 제3키워드(K3) 간에도 일정 수준 이상의 관련성이 있는 것으로 취급될 수 있다.
이러한 가정하에서 제1키워드(K1)와 관련된 연관 금융종목을 결정할 때, 당연히 제1키워드(K1)와 직접적 관련성이 있는 금융종목(예컨대, S1, S2)은 키워드 관계 DB 상에서 별도로 유지되는 정보이므로, 매우 빠르고 효과적으로 탐색이 가능하다.
하지만 본 발명의 기술적 사상에 의하면, 이러한 제1키워드(K1)와 관련성이 있는 제1키워드(K1)의 연관 키워드(K2, K3, K4, K5) 각각의 연관종목 역시 비정형 데이터 상에서는 직접적 연관성이 없는 것으로 판단되었지만, 비정형 데이터 상에서는 표현되지 않은 산업구조상 또는 다양한 비즈니스 구성상 일정 수준 이상의 연관성이 있을 수도 있다.
예컨대, 제5키워드(K5)는 제1키워드(K1)의 연관 키워드일 수 있고, 제5키워드(K5)의 연관 종목은 도 9의 하부에 도시된 바와 같이 제2금융종목(S2) 및 제3금융종목(S3)일 수 있다.
그러면 제1키워드(K1)가 이슈 키워드인 경우, 상기 제어모듈(110)은 상기 이슈 키워드(K1)의 연관종목으로써 비정형 데이터에 기초하여 직접적인 연관성이 있다고 분류된 S1, S2를 이슈 금융종목으로써 결정할 수도 있지만, 이에 더해 제1키워드(K1)의 연관 키워드들(K2, K3, K4, K5) 각각의 연관 금융종목을 추가적으로 상기 이슈 금융종목에 포함시킬 수도 있다.
이때 이슈 키워드(예컨대, K1)의 연관 키워드(예컨대, K5)의 연관 금융종목(예컨대, S2, S3)에는 상기 이슈 키워드(예컨대, K1)의 연관 금융종목과 중복되는 금융종목(예컨대, S2)이 포함될 수도 있고, 상기 이슈 키워드(예컨대, K1)의 연관 금융종목에 포함되지 않는 새로운 금융종목(예컨대, S3)이 포함될 수도 있다.
이처럼 상기 제어모듈(110)이 이슈 키워드(예컨대, K1)의 연관 금융종목으로 상기 이슈 키워드(예컨대, K1)의 연관 키워드(예컨대, K2, K3, K4, K5) 각각의 연관 금융종목을 포함시킬 경우, 이러한 연관 키워드(예컨대, K2, K3, K4, K5)의 연관종목 중에서 상기 이슈 키워드(예컨대, K1)의 연관종목(예컨대, S1, S2)에 포함되지 않는 연관종목(예컨대, S3 등)을 순수 연관 키워드 연관종목으로 특정할 수 있다.
이러한 순수 연관 키워드 연관종목은, 비정형 데이터 상에서는 직접적 연관성이 낮은 것으로 분류되었지만, 간접적으로나마 다양한 관점에서 일정 수준 이상 이슈 키워드와 연관성이 있을 가능성이 높은 금융종목일 수 있으며, 본 발명의 기술적 사상에 의하면 이러한 순수 연관 키워드 연관종목까지도 이슈 키워드에 상응하는 연관종목으로써 관리자 또는 사용자등의 수요자측에게 제공할 수 있는 효과가 있다.
특히, 상기 제어모듈(110)은 상기 이슈 키워드(예컨대, K1)와 직접적인 관련성이 있는 것으로 판단된 직접 연관종목(예컨대, S1, S2)와 간접적 관련성 있는 것으로 판단된 상기 순수 연관 키워드 연관종목(예컨대, S3)을 구분하여 상기 연관종목과 구분하여 수요자측에 제공할 수 있다.
그러면 수요자는 현재 사회적 이슈에 직접적인 연관이 있는 금융종목과 간접적인 연관이 있는 금융종목을 구분하여 인지할 수 있고, 이에 따라 직접적인 금융종목에 대한 투자판단뿐만 아니라 간접적 연관이 있는 금융종목에 대한 투자판단까지도 신속히 할 수 있는 효과가 있다.
도 10은 본 발명의 실시 예에 따라 키워드 관계 DB를 이용한 이슈 금융상품의 탐색을 설명하기 위한 도면이다.
도 10을 참조하여 구체적인 일 예를 설명하면, 사회적 이슈로써 D램 반도체 공급부족이 뉴스, SNS 등의 비정형 데이터에서 언급이 될 수 있다.
그러면 상기 결정시스템(100)은 D램 반도체라는 키워드(K1)를 이슈 키워드로 특정할 수 있다.
그러면 사람들은 빠른 시간 내에 정확하게 D램 반도체와 관련성이 있는 금융종목이 무엇인지를 알고자 할 수 있다.
상기 결정시스템(100)은 상기 이슈 키워드(D램 반도체)와 직접 연관성이 있는(예컨대, 키워드 관계 DB에 대응되는 연관종목으로 저장된) 금융종목인 S1(예컨대, 삼성전자), S2(예컨대, SK 하이닉스)를 이슈 금융종목으로 결정할 수 있다.
이에 더해 상기 결정시스템(100)은 상기 이슈 키워드(D램 반도체)의 연관 키워드로 관리되고 있는 제2키워드(K2, 예컨대, SSD), 제3키워드(K3, 예컨대, 디스플레이), 제4키워드(K4, 예컨대, 시스템 메모리), 제5키워드(K5, 예컨대, GPU) 각각의 연관종목을 더 탐색할 수 있다.
예컨대, 제2키워드(K2, 예컨대, SSD)의 연관종목은 S1, S2일 수 있고, 제3키워드(K3, 예컨대, 디스플레이)의 연관종목은 S2, S3, 일 수 있으며, 제4키워드(K4, 예컨대, 시스템 메모리)의 연관종목은 S3, S5이고, 제5키워드(K5, 예컨대, GPU)의 연관종목은 S2, S3라고 가정할 수 있다.
그러면 연관 키워드 연관종목은 S1, S2, S3, S5일 수 있고, 여기서 S3, S5는 이슈 키워드(D램 반도체)와는 직접적 관련성이 없더라도 일정 수준 이상의 관련성이 높을 것으로 추측되는 금융종목 즉, 순수 연관 키워드 연관종목일 수 있다.
수요자는 이슈 키워드(D램 반도체)와 직접적인 관련성이 있는 연관종목 S1, S2에 대해서 빠른 시간 내에 정확하게 정보를 제공받을 수 있을 뿐 아니라, S3, S5라는 종목 역시 일정 수준 관련성이 있다는 정보를 제공받을 수 있고, 그에 따라 S3, S5에 대해서도 선제적인 투자판단을 할 수 있는 효과가 있다.
본 발명의 실시 예에 따른 인공지능 기반의 이슈 금융종목 결정방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (11)

  1. 시스템이 비정형 데이터에 기초한 이슈 키워드를 특정하는 단계; 및
    상기 시스템이 추출한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하는 단계를 포함하며,
    상기 시스템이 특정한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하는 단계는,
    상기 시스템이, 비정형 테이터들을 학습한 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델에 의해 벡터화된 키워드들에 기초하여, 금융종목별로 대응되는 연관 키워드가 추출되어 저장된 종목별 연관 키워드 정보에 기초하여 상기 이슈 금융종목을 결정하는 단계를 포함하는 인공지능 기반의 이슈 금융종목 결정방법.
  2. 제1항에 있어서, 상기 인공지능 기반의 이슈 금융종목 결정방법은,
    상기 자연어 처리모델에 의해 특정 금융종목의 키워드에 상응하는 제1벡터 및 상기 제1벡터와 소정의 기준을 만족하는 제2벡터를 적어도 하나 추출하는 단계; 및
    추출된 적어도 하나의 제2벡터에 대응되는 키워드를 상기 연관 키워드로 추출하는 단계를 포함하는 인공지능 기반의 이슈 금융종목 결정방법.
  3. 제1항에 있어서, 상기 인공지능 기반의 이슈 금융종목 결정방법은,
    종목별 연관 키워드 정보에 기초하여 키워드 기준의 키워드 관계DB를 구축하는 단계를 더 포함하며,
    상기 키워드 관계DB에 기초하여 상기 이슈 금융종목을 결정하는 것을 특징으로 하는 인공지능 기반의 이슈 금융종목 결정방법.
  4. 제3항에 있어서, 상기 종목별 연관 키워드 정보에 기초하여 키워드 기준의 키워드 관계DB를 구축하는 단계는,
    상기 종목별 연관 키워드 정보에 포함된 소정의 제1연관 키워드에 대응되는 적어도 하나의 금융종목을 상기 제1연관 키워드의 연관종목으로 대응시켜 저장하는 단계; 및
    상기 종목별 연관 키워드 정보에, 특정 금융종목에 대응되는 연관키워드로써 상기 제1연관 키워드 및 적어도 하나의 제2연관 키워드가 존재하는 경우, 상기 적어도 하나의 제2연관 키워드를 상기 제1연관 키워드의 연관 키워드로 대응시켜 저장하는 단계를 포함하는 인공지능 기반의 이슈 금융종목 결정방법.
  5. 제4항에 있어서, 상기 이슈 금융종목을 결정하는 단계는,
    상기 키워드 관계DB로부터 상기 이슈 키워드에 대응되는 연관종목을 상기 이슈 금융종목으로 결정하는 단계를 포함하는 인공지능 기반의 이슈 금융종목 결정방법.
  6. 제4항에 있어서, 상기 이슈 금융종목을 결정하는 단계는,
    상기 키워드 관계DB로부터 상기 이슈 키워드의 연관 키워드 각각에 대응되는 연관 키워드 연관종목을 특정하는 단계;
    상기 이슈 키워드의 상기 연관 키워드 연관종목을 상기 이슈 금융종목으로 결정하는 단계를 포함하는 인공지능 기반의 이슈 금융종목 결정방법.
  7. 제6항에 있어서, 상기 이슈 금융종목을 결정하는 단계는,
    상기 이슈 키워드의 상기 연관 키워드 연관종목 중에서 상기 이슈 키워드의 연관종목에 포함되지 않는 순수 연관 키워드 연관종목을 특정하는 단계를 더 포함하며,
    상기 순수 연관 키워드 연관종목은,
    상기 연관종목과 구분하여 수요자측에 제공되는 것을 특징으로 하는 인공지능 기반의 이슈 금융종목 결정방법.
  8. 키워드 및 상기 키워드의 연관종목과 상기 키워드의 연관 키워드가 대응되어 저장되는 키워드 관계DB가 저장되는 단계;
    시스템이 비정형 데이터에 기초한 이슈 키워드를 특정하는 단계;
    상기 키워드 관계DB로부터 상기 이슈 키워드의 연관 키워드 각각에 대응되는 연관 키워드 연관종목을 특정하는 단계; 및
    상기 시스템이 상기 이슈 키워드의 상기 연관 키워드 연관종목 중에서 상기 이슈 키워드의 연관종목에 포함되지 않는 순수 연관 키워드 연관종목을 상기 이슈 금융종목으로 결정하는 단계를 포함하는 인공지능 기반의 이슈 금융종목 결정방법.
  9. 데이터 처리장치에 설치되며 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 판독가능한 기록매체에 기록된 컴퓨터 프로그램.
  10. 프로세서;
    프로그램이 저장된 저장장치를 포함하며,
    상기 프로세서는 상기 프로그램을 구동하여,
    비정형 데이터에 기초한 이슈 키워드를 특정하고, 특정한한 상기 이슈 키워드에 상응하는 이슈 금융종목을 결정하되,
    상기 이슈 금융종목을 결정하기 위해, 비정형 테이터들을 학습한 컨텍스트 센서티브(context-senstivie)한 자연어 처리모델에 의해 벡터화된 키워드들에 기초하여, 금융종목별로 대응되는 연관 키워드가 추출되어 저장된 종목별 연관 키워드 정보에 기초하여 상기 이슈 금융종목을 결정하는 것을 특징으로 하는 인공지능 기반의 이슈 금융종목 결정시스템.
  11. 프로세서;
    프로그램이 저장된 저장장치를 포함하며,
    상기 프로세서는 상기 프로그램을 구동하여,
    키워드 및 상기 키워드의 연관종목과 상기 키워드의 연관 키워드가 대응되어 저장되는 키워드 관계DB를 저장하고,
    비정형 데이터에 기초한 이슈 키워드를 특정하며, 상기 키워드 관계DB로부터 상기 이슈 키워드의 연관 키워드 각각에 대응되는 연관 키워드 연관종목을 특정하고, 상기 이슈 키워드의 상기 연관 키워드 연관종목 중에서 상기 이슈 키워드의 연관종목에 포함되지 않는 순수 연관 키워드 연관종목을 상기 이슈 금융종목으로 결정하는 인공지능 기반의 이슈 금융종목 결정시스템.
KR1020200161358A 2020-11-26 2020-11-26 인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템 KR20220073356A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200161358A KR20220073356A (ko) 2020-11-26 2020-11-26 인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200161358A KR20220073356A (ko) 2020-11-26 2020-11-26 인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR20220073356A true KR20220073356A (ko) 2022-06-03

Family

ID=81983642

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200161358A KR20220073356A (ko) 2020-11-26 2020-11-26 인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR20220073356A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140003377A (ko) 2010-07-14 2014-01-09 스미토모 긴조쿠 고잔 가부시키가이샤 질화알루미늄 결정의 제조 방법
JP2015149810A (ja) 2014-02-05 2015-08-20 株式会社デンソー 電力変換装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140003377A (ko) 2010-07-14 2014-01-09 스미토모 긴조쿠 고잔 가부시키가이샤 질화알루미늄 결정의 제조 방법
JP2015149810A (ja) 2014-02-05 2015-08-20 株式会社デンソー 電力変換装置

Similar Documents

Publication Publication Date Title
CN110799981B (zh) 用于与领域无关的方面级别情绪检测的系统和方法
US10664540B2 (en) Domain specific natural language understanding of customer intent in self-help
US9646077B2 (en) Time-series analysis based on world event derived from unstructured content
KR102517743B1 (ko) 인공지능 기반의 투자지표 결정방법 및 그 시스템
Jonnalagadda et al. A new iterative method to reduce workload in systematic review process
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
Chen et al. Bert-log: Anomaly detection for system logs based on pre-trained language model
Garcia-Lopez et al. Analysis of relationships between tweets and stock market trends
JP2022548215A (ja) リアルタイム会話のための累進的なコロケーション
US20220383867A1 (en) Automated generation of fine-grained call reasons from customer service call transcripts
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
Shcherban et al. Automatic identification of code smell discussions on stack overflow: A preliminary investigation
Fornaciari et al. Geolocation with attention-based multitask learning models
Adhikari et al. Evolution of composition, readability, and structure of privacy policies over two decades
Bashir et al. Requirement or not, that is the question: A case from the railway industry
Agrawal et al. Hierarchical model for goal guided summarization of annual financial reports
Lo et al. An emperical study on application of big data analytics to automate service desk business process
Tan et al. Constructing and Interpreting Causal Knowledge Graphs from News
Ng et al. Augmenting fake content detection in online platforms: A domain adaptive transfer learning via adversarial training approach
KR102345481B1 (ko) 인공지능 기반의 종목연관 키워드 결정방법 및 그 시스템
US20230079455A1 (en) Systems and methods for generating causal insight summary
KR20220073356A (ko) 인공지능 기반의 이슈 금융종목 결정방법 및 그 시스템
Qiu et al. Exploring the forecasting potential of company annual reports
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
KR102155692B1 (ko) 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal