KR20230077589A - 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템 - Google Patents

외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템 Download PDF

Info

Publication number
KR20230077589A
KR20230077589A KR1020220020843A KR20220020843A KR20230077589A KR 20230077589 A KR20230077589 A KR 20230077589A KR 1020220020843 A KR1020220020843 A KR 1020220020843A KR 20220020843 A KR20220020843 A KR 20220020843A KR 20230077589 A KR20230077589 A KR 20230077589A
Authority
KR
South Korea
Prior art keywords
processor
financial
data
question
learning
Prior art date
Application number
KR1020220020843A
Other languages
English (en)
Inventor
김성환
오교중
김일훈
김진원
안현각
안형준
차원석
Original Assignee
아일리스프런티어 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아일리스프런티어 주식회사 filed Critical 아일리스프런티어 주식회사
Publication of KR20230077589A publication Critical patent/KR20230077589A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템에 관한 것으로 본 발명의 일 실시예에 의한 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 시스템은 입력 데이터, 입력 데이터베이스를 이용하여 정보를 처리하는 프로세서와 프로세서가 생성한 정보를 저장하는 데이터베이스를 포함하며, 프로세서는 외부 데이터베이스를 검색하여 입력받은 질문 데이터에 대응하는 결과를 출력한다.

Description

외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템{METHOD OF CLASSIFYING INTENTION OF VARIOUS QUESTION AND SEARCHING ANSWERS OF FINANCIAL DOMAIN USING EXTERNAL DATABSE AND SYSTEM IMPELEMTING THEREOF}
본 발명은 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템에 관한 것이다.
금융과 관련하여 정보를 제공하는 영역은 일반 지식 영역과 달리 전문적인 용어와 약어들을 처리하는 기술이 필요하다. 특히, 다양한 기사와 보고서 등은 양질의 금융 정보를 제공하므로 이를 토대로 하여 금융 정보를 효과적으로 제공하는 것이 필요하다.
종래에 챗봇을 이용하여 지식 정보를 제공하건 지식 정보에 대한 질의 응답을 제공하는 기술은 형태소나 단어 패턴을 기반으로 지식을 검색하기 때문에, 학습 데이터에 없는 새로운 질의에 대해서는 답변을 제공할 수 없었으며, 데이터베이스에 한정된 정보만을 제공하는 한계가 있었다.
이에, 금융에 특화된 용어를 기반으로 정보를 처리하고 질문의 의도를 분류하여 답변을 제공하는 방안이 요청된다.
본 명세서는 응용 도메인 특화 사전학습 언어모델의 학습 및 해당 모델을 이용한 기계학습 기반의 분류 모델과 기계 독해 모델을 도입한 방법론을 적용하여 입력 금융 텍스트를 심층 분석하여 정보를 제공하고자 한다.
본 명세서는 텍스트 추론 기술을 적용한 인공지능 금융 전문가 시스템을 구축하고자 한다.
본 명세서는 질문의 의도를 분류하고 관련된 실시간 금융 텍스트 정보를 추출하여 해당 문서에서 답변을 검색하고자 한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제들로 제한되지 않으며, 여기서 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 의한 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법은 시스템의 프로세서가 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출하고, 상기 프로세서가 상기 개체명을 상기 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행하는 단계와 상기 프로세서가 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 상기 데이터베이스에 저장하는 단계와 상기 프로세서가 다수의 후보 금융 문서에 상기 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 상기 프로세서가 입력데이터로 입력된 금융 질의 답변 문서를 이용하여 학습 데이터를 생성하는 단계와 상기 프로세서가 질문 데이터를 입력받는 단계와 상기 프로세서는 상기 개체명 사전, 상기 언어 모델 및 상기 학습 데이터를 상기 질문 데이터에 적용하여 상기 질문 데이터의 질문의 의도를 분류하여 출력하는 단계와 상기 프로세서는 외부 데이터베이스에서 상기 질문의 의도에 대응하는 문서를 검색하는 단계와 상기 프로세서는 상기 검색한 문서에 상기 질문 데이터를 적용하여 산출된 답변들 중 하나 이상을 응답으로 출력하는 단계를 포함한다.
본 발명의 다른 실시예에 의한 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법은 시스템의 프로세서가 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출하고, 상기 프로세서가 상기 개체명을 상기 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행하는 단계와 상기 프로세서가 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 상기 데이터베이스에 저장하는 단계와 상기 프로세서가 다수의 후보 금융 문서에 상기 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 상기 프로세서가 입력데이터로 입력된 금융 질의 답변 문서를 이용하여 학습 데이터를 생성하는 단계와 상기 프로세서가 질문 데이터를 입력받는 단계와 상기 프로세서는 상기 개체명 사전, 상기 언어 모델 및 상기 학습 데이터를 상기 질문 데이터에 적용하여 상기 질문 데이터의 답변 및 정확도를 출력하는 단계와 상기 프로세서는 외부 데이터베이스에서 상기 질문에 대응하는 문서를 검색하는 단계와 상기 프로세서는 상기 검색한 문서에 상기 질문 데이터를 적용하여 상기 정확도 이상으로 산출된 답변들 중 하나 이상을 응답으로 출력하는 단계를 포함한다.
본 발명의 일 실시예에 의한 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 시스템은 입력 데이터, 입력 데이터베이스를 이용하여 정보를 처리하는 프로세서와 프로세서가 생성한 정보를 저장하는 데이터베이스를 포함하며, 프로세서는 외부 데이터베이스를 검색하여 입력받은 질문 데이터에 대응하는 결과를 출력한다.
본 발명의 실시예를 구현할 경우 응용 도메인 특화 사전학습 언어모델의 학습 및 해당 모델을 이용한 기계학습 기반의 분류 모델과 기계 독해 모델을 도입한 방법론을 적용하여 입력 금융 텍스트를 심층 분석하여 정보를 제공할 수 있다.
본 발명의 실시예를 구현할 경우 텍스트 추론 기술을 적용한 인공지능 금융 전문가 시스템을 구축할 수 있다.
본 발명의 실시예를 구현할 경우 질문의 의도를 분류하고 관련된 실시간 금융 텍스트 정보를 추출하여 해당 문서에서 답변을 검색할 수 있다.
본 발명이 제공하는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 여기서 언급되지 않은 또 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시 예에 따른 지도학습 및 기계독해 방법론을 이용한 질의 답변 검색 시스템을 나타내는 흐름도이다.
도 2는 본 발명의 실시 예에 따른 비지도학습 기반 개체명 추출 단계에 관한 상세 흐름도이다.
도 3은 본 발명의 실시 예에 따른 전이학습을 위한 금융 단어 및 문장 임베딩에 대한 상세 흐름도이다.
도 4는 본 발명의 실시예에 따라 지도학습 기반 분류 모델 학습 및 이용 단계(S300)의 구체적인 수행 방법에 관한 상세 흐름도이다.
도 5는 본 발명의 실시 예에 따른 기계독해 모델 학습 및 이용 단계에 관한 상세 흐름도이다.
도 6은 본 발명의 실시 에에 따른 기계독해 학습세트 생성 모듈에 관한 상세 흐름도이다.
도 7은 본 발명의 실시 예에 따른 개체명 기반 문서 필터링 및 제목 임베딩 비교에 관한 상세 흐름도이다.
도 8은 본 발명의 일 실시예에 의한 인공지능 금융 전문가 시스템의 구성을 보여주는 도면이다.
도 9는 본 발명의 일 실시예에 의한 S100, S200, S500, S600의 과정을 통합하여 제시한 도면이다.
도 10은 본 발명의 일 실시예에 의한 임베딩 모델과 학습 데이터를 적용하여 S300 및 S400의 프로세스를 수행하는 과정을 보여주는 도면이다.
도 11은 본 발명의 실시 예에 따른 지도학습 분류 모델 및 기계 학습 시 사용하는 입력과 출력에 관한 설명을 도시한 도면이다.
도 12는 본 발명의 실시 예에 따른 기계독해 모델 학습 시 사용하는 입력과 출력에 관한 설명을 도시한 도면이다.
도 13은 본 발명에 기재된 발명의 주요 실시예를 포함하는 챗봇 시스템의 전체적인 구성도이다.
도 14는 본 발명의 일 실시예에 의한 금융 도메인 언어처리를 위한 금융정보 자동 추출과정을 보여주는 도면이다.
도 15는 본 발명의 일 실시예에 의한 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 과정을 도시한 도면이다.
도 16은 본 발명의 일 실시예에 의한 외부 데이터베이스를 이용하여 정답을 검색하는 과정을 보여주는 도면이다.
도 17은 본 발명의 일 실시예에 의한 외부 데이터베이스를 이용하여 정답을 검색하는 과정을 보여주는 도면이다.
도 18은 본 발명의 일 실시예에 의한 웹 크롤링 시스템의 세부 동작을 보여주는 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예롤 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다.
따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 실시간 투자 자문 챗봇 서비스를 위한 텍스트 심층 이해 기반 인공지능 금융 전문가 시스템에 대해 살펴본다
일 실시예로, 금융 지식베이스와 말뭉치 학습을 통해 도메인에 특화된 사전학습 모델을 구축하고, 해당 모델을 적용한 의도분류 기술 및 기계독해 기술에 기반한 심층 텍스트 이해 기술을 적용하여 인공지능 투자 자문 서비스를 제공하는 방법 및 이를 위한 장치에 대해 살펴본다.
특정 분야의 정보를 제공하기 위한 대화 시스템은 지식베이스 검색을 위한 질의로 규정하기 위해 사용자가 입력한 텍스트에서 질의문을 추출하고 패턴을 분석하여 대화 상태를 설계하고 추적하는 과정으로 구성된다.
또한, 정보를 제공하고자 하는 분야의 서비스의 목적에 적합하게, 시스템의 규모와 기능 범위를 한정할 수 있다. 그리고 지식 DB에 해당 분야의 준비된 지식을 보유하여 사용자가 입력한 질의에 답변을 제공할 수 있다.
종래 기술들은 지식베이스에 미리 정의한 사용자 예상 질의를 포함하여 구축하며, 해당 지식베이스 내에서 매칭되는 질의를 검색하여 답변을 제공하는 방식을 사용한다.
그러나 일반적으로 미리 정의된 질의 내에서만 질문을 입력하지 않기 때문에 미리 정의되지 않은 질의에 대해서는 답변을 제공하지 못하거나 엉뚱한 답변을 제공할 가능성이 많다.
이는 단어 수준의 개체명 질의어를 사용하는 것에서 기인한다. 단어 단위의 질의어를 사용하는 방식에서는 유사어라는 관계가 사전에 정의되어 있지 않은 다른 단어에 대해서는 의미 파악에 한계가 있다. 또한 사전에 없는 단어의 경우에는 OOV(Out-Of-Vocabulary) 문제가 발생하게 되어 형태소 분석 과정에서도 문제가 발생될 가능성이 크다.
또한 규칙베이스를 이용한 질의 검색 방법은 해당 질의와 매칭되는 지식이 지식베이스 내에 없으면 답변을 제공하기 어려울 뿐만 아니라 유사 질의 패턴 등의 지식베이스를 지속적으로 추가해주어야 한다는 한계가 있다.
미응답 질의에 대하여 지속적으로 지식베이스를 관리할 수 있지만 질의를 검색하는 지식베이스는 한정적이며 실시간으로 업데이트되는 정보를 답변에 담기 어렵다는 한계를 지니고 있다. 또한 지식 구축과정의 질과 양에서 한계가 있을 뿐만 아니라, 낮은 빈도로 등장하는 지식, 시간이 지남에 따라 추가되거나 변경되는 지식 등 규모와 변동성이 큰 목적지향 대화시스템의 지식베이스를 모델링하거나 유지 보수하는 것은 한계가 있다.
사용자 입력에 대해서 형태소 또는 키워드 분석을 하여 미리 구축한 동의어, 상하위어, 그래프 등의 추가적인 지식을 가진 시소러스나 온톨로지와 같은 금융 지식베이스에 기반하여 적절한 정보나 답변을 제공하는 방식을 취하는 방법에 있어서 응용 도메인에 따른 추가 지식을 구축을 하는데 한계가 존재하며 외부 지식베이스와의 연동성에도 문제가 있다.
따라서, 본 명세서에서는 질의어 검색 및 지식베이스 구축의 한계를 극복하기 위해서, 사용자 입력을 언어학적 분석 방법론을 통해 질의어를 확장하여 지식 내에서 유사성이 높은 지식을 검색한다.
또한, 형태소나 질의 패턴과 같은 언어학적 자질 및 지식 기반 대화 시스템 및 챗봇 서비스의 지식 구축 문제 및 성능 한계를 극복하고, 추가적으로 외부 경제 지표, 통계 자료 등 실시간 맞춤형 금융 정보를 제공하는 실시간 투자 자문 챗봇 서비스를 개발하는 것이 필요하다.
이를 위해, 본 명세서에서는 응용 도메인 특화 사전학습 언어모델의 학습 및 해당 모델을 이용한 기계학습 기반의 분류 모델과 기계 독해 모델을 도입한 방법론을 적용한다. 본 명세서의 실시예를 적용할 경우, 입력 금융 텍스트를 심층 이해하고, 텍스트 추론 기술을 적용한 인공지능 금융 전문가 시스템을 구축한다. 이를 통해 의도를 분류하고 관련된 실시간 금융 텍스트 정보를 추출하여 해당 문서에서 답변을 검색한다.
본 발명의 실시 형태에 따른, 비지도학습 기반 개체명 추출 단계; 전이학습을 위한 단어 및 문장 임베딩 단계; 지도학습 기반 의도분류 모델 학습 및 이용 단계; 기계독해 모델 학습 및 이용 단계; 기계독해 학습세트 생성 단계; 및 개체명 기반 문서 필터링 및 제목 임베딩 비교 단계를 포함한다.
일 실시예에 따르면, 비지도 학습 기반 개체명 추출 단계는 말뭉치 문장 전처리 단계; 초/중/종성 분리 및 알파벳 대문자화 단계; 내부단어 분리 단계;를 포함할 수 있다.
일 실시예에 따르면, 전이학습을 위한 단어 및 문장 임베딩 단계는 말뭉치 문장 전처리 단계; 비지도 학습 기반 토크나이저 적용 단계; 사전학습 언어모델 구축 단계;를 포함할 수 있다.
일 실시예에 따르면 지도학습 기반 의도분류 모델 학습 및 이용 단계는 금융 관련 질문 입력 토크나이징 단계; 입력 질문 임베딩 단계; 지도학습 기반 분류모델 구축 단계;를 포함할 수 있다.
일 실시예에 따르면 기계독해 모델 학습 및 이용 단계는 기계독해 입력 데이터 전처리 단계; 입력 질문/문서 임베딩 단계; 기계독해 모델 구축 단계;를 포함할 수 있다.
일 실시예에 따르면 기계독해 학습세트 생성 단계는 추가 피쳐 생성 단계; 데이터 구조 변환 단계;를 포함할 수 있다.
일 실시예에 따르면 개체명 기반 문서 필터링 및 제목 임베딩 비교 단계는 개체명 기반 문서 필터링 단계; 금융 문서 제목/의도 간 임베딩 비교 단계;를 포함할 수 있다.
이하, 첨부되는 도면을 참조하여 본 발명의 실시 형태에 따른 지도학습 및 기계독해 방법론을 이용한 질의 답변 검색 방법을 설명한다.
도 1은 본 발명의 실시 예에 따른 지도학습 및 기계독해 방법론을 이용한 질의 답변 검색 시스템을 나타내는 흐름도이다.
도 1은 일 실시예에 따른 본 발명의 대표도이며, 본 발명은 금융 도메인에서 발생하는 다양한 질의에 대응하여 의도를 분류하고 답변을 검색하는 기술을 일 실시예로 제시한다. 비지도학습 기반 개체명 추출 단계(S100); 전이학습을 위한 단어 및 문장 임베딩 단계(S200); 지도학습 기반 의도분류 모델 학습 및 이용 단계(S300); 기계독해 모델 학습 및 이용 단계(S400); 기계독해 학습세트 생성 단계(S500); 및 개체명 기반 문서 필터링 및 제목 임베딩 비교 단계(S600)를 포함한다. 또한, 실시간 비즈니스 데이터 베이스를 구축하기 위해 실시간 웹크롤링 시스템(S800)이 웹크롤링을 수행하여 다양한 정보들을 수집할 수 있다.
도 1을 참조하면 개체명 사전 구축하는 부분은 형태소 분석 및 비지도 학습을 통한 도메인/말뭉치 특화 토크나이저 모델을 학습하는 방법을 사용하였다. 상기 추출된 개체명(S100)을 기반으로 하는 언어모델로 임베딩(S200)하는 과정에서 비지도 학습 모델을 이용하고, 이를 입력으로 이용하는 지도학습 모델을 기반으로 의도를 분류한다.
상기 개체명 사전과 지도학습 모델을 통해 추출된 개체명과 분류 의도는 개체명 기반 문서 필터링 및 제목 임베딩 비교에 사용되어 관련 금융문서를 추출하고 해당 금융문서는 기계독해 모델의 입력 정보로 사용되어 답변 추출된다. 또한 별도로 기계독해 모델 학습 세트 생성 모듈(S500)을 통해 기계독해 학습이 가능한 구조 형태로 데이터를 구축한다.
금융특화 원시 말뭉치는 비지도학습기반 개체명 추출(S100)과 전이학습을 위한 단어 및 문장 임베딩(S200) 과정에 이용된다. 그리고 금융 질의 세트와 S200의 결과를 입력받은 지도학습기반 의도분류모델학습 및 이용(S300) 결과는 의도 분류 결과를 생성하고 답변을 생성한다.
한편, 금융특화 원시 말뭉치는 금융관련 질문/답변과 금융특화 문서와 결합하여 기계독해 학습세트 생성 모듈(S500)에 입력된다. 또한, 대규모 비즈니스 데이터베이스에서 개체명 기반 문서 필터링 및 제목 임베딩 비교(S600)에 의해 질문 연관 문서를 생성한다. S500 및 질문 연관 문서는 다시 기계독해 모델 학습 및 이용(S400) 프로세스에 입력되어 답변 추출 결과를 생성한다.
도 1의 프로세스에서 S100 ~ S600의 과정에 대해 상세하게 살펴본다. 각 프로세스는 후술할 시스템(1000)의 프로세서(1500)가 수행한다.
도 2는 본 발명의 실시 예에 따른 비지도학습 기반 개체명 추출 단계에 관한 상세 흐름도이다. 도 2는 S100 단계의 구체적인 수행 방법을 보여준다.
도 2를 참조하면, 예시적인 실시예에 따른 말뭉치 문장을 전처리하는 단계(S110), 초/중/종성을 분리하고 및 알파벳 대문자화 단계(S120), 내부단어 분리 단계(S130)를 포함할 수 있다. 다른 실시예로, 개체명 사전이 소문자로 구성된 경우, 알파벳 소문자화 단계를 수행할 수 있다.
도 2를 참조하면 이 발명에 적용된 비지도 학습 기반의 토크나이저 학습 방식은 프로세서(1500)가 주어진 말뭉치에서 빈번히 결합하여 사용된 음절(글자) 패턴을 학습하여 복합어 및 개체명의 경계를 자동으로 학습한다.
이 같은 방법을 경계 인식(Span detection)이라고 한다. 이 방법을 적용하기 위해서는 단순하게 특정 도메인의 말뭉치(뉴스 기사, 공문서 등)를 수집할 수 있다. 또한, 다른 실시예에 의하면, 학습 데이터의 표현 자체를 이용하여 모델을 구축할 수도 있다.
이 학습 방법을 통해 구축된 토크나이저의 가장 큰 장점은 자동으로 색인어 지식을 구축할 수 있으며, 새로운 색인어 추가의 경우, 해당 색인어를 사용한 문장만 추가하면 추출될 수 있다는 점이다. 또한, 중간 결과물이 기존의 색인어 지식과 비슷한 형태로 생성되기 때문에 기존의 색인어 지식과 결합도 비교적 쉽다.
또한 프로세서(1500)는 기존의 색인어 지식이나 형태소 분석기에 독립적으로 학습을 적용할 수 있다. 프로세서(1500)는 복합 명사, 조사, 어미 처리에 있어서 토크나이징을 수행하기 때문에 띄어쓰기에 무관하게 입력을 처리하여 분석할 수 있게 되며, 형태소 분석의 성능에 따라 결과가 나빠지지 않는다.
그리고 프로세서(1500)는 서브 워드 분리 알고리즘을 적용하여 토큰 내에서도 유사한 표현 패턴을 내부 정보로 학습하기 때문에 색인어 지식이 없는(Out-of-Vocaburary) 경우에도 학습을 수행할 수 있다.. 또한, 형태소 분석기를 사용하지 않고도, 프로세서(1500)는 학습 및 색인어추출 성능을 개선할 수 있는데, 1초에 약 15,000 문장의 토크나이징이 가능하다.
도 3은 본 발명의 실시 예에 따른 전이학습을 위한 금융 단어 및 문장 임베딩에 대한 상세 흐름도이다. 의도분류 및 기계독해를 위한 단어 및 문장 임베딩 단계(S200)의 구체적인 수행 방법에 대한 상세 흐름도이다. 도 3의 실시예는 금융 말뭉치를 전처리하고 주요 개체명 사전과 응용 도메인에 특화된 개체명을 포함하는 토크나이저가 적용되어 사전학습 언어모델을 학습하는 과정을 보여준다.
도 3을 참조하면, 예시적인 실시예에 따른 말뭉치 문장 전처리 단계(S210), 비지도 학습 기반 토크나이저 적용 단계(S220), 사전학습 언어모델 구축 단계(S230)를 포함할 수 있다.
예시적인 실시예에 따른 상기 문장 전처리 단계(S210)에서 프로세서(1500)는 입력 데이터를 분석하면서 전처리 과정을 수행한다. 알파벳 입력의 경우 반각 대문자로 일괄 처리하할 수 있으며, 프로세서(1500)는, 보다 나은 문장 임베딩을 위해 일정 길이 이상의 문단은 문장을 분리하는 작업을 수행한다.
또한 띄어쓰기 및 오탈자 보정을 통해 OOV(Out of Vocabulary) 문제를 미리 방지한다. 이를 통해 프로세서(1500)는 임베딩에서의 학습 성능을 개선할 수 있을 뿐만 아니라, 지도학습 기반 분류 모델 학습 및 이용 단계(S300)에서의 분류 정확도를 향상시킬 수 있다.
도 2 및 3의 프로세스를 이용하면 금융용어 사전을 제공할 수 있다. 자체 형태소 분석기 및 사전을 기반으로 하며 또한 리토크나이징을 이용하여 금융용어를 임베딩시킬 수 있다. 도 2 및 도 3에서 말뭉치 토크나이징을 수행함에 있어서 리토크나이징을 적용한다. 이는 금융 용어 사전 우선으로 금융 용어나 핵심 단어가 분리되지 않도록 처리한다.
도 4는 본 발명의 실시 예에 따른 지도학습 기반 의도분류 모델 학습 및 이용 단계에 관한 상세 흐름도이다.
도 4는 본 발명의 실시예에 따라 지도학습 기반 분류 모델 학습 및 이용 단계(S300)의 구체적인 수행 방법에 관한 상세 흐름도이다. 도 4의 실시예는 학습된 사전학습 언어 모델을 기반으로 정의된 금융 도메인 질의와 답변을 통해 의도분류 모델을 학습하여 금융 의도 분류 모델을 구현하고, 새로운 실시간 금융 질의 입력으로부터 파악된 의도를 도출하는 과정을 보여준다.
도 4를 참조하면, 예시적인 실시예에 따른 금융 관련 입력질문 토크나이징 단계(S310), 입력 질문 임베딩 단계(S320), 지도학습 기반 분류모델 학습 단계(S330); 입력 질문 의도 분류 단계(S340)를 포함할 수 있다.
예시적인 실시예에 따른 금융 관련 입력질문 토크나이징 단계(S310)에서 프로세서(1500)는 입력 질문에 대해 상기 비지도 학습 기반 개체명 추출 단계(S100)에서 추출된 개체명 사전을 기반으로 토크나이징을 수행한다.
예시적인 실시예에 따른 입력 질문 임베딩 단계(S320)에서 프로세서(1500)는 상기 사전학습 언어모델 구축 단계(S230)에서 학습된 언어모델을 기반으로 입력 문장에 대한 임베딩 정보를 가져올 수 있다. 이를 통해 입력 문장은 연산이 가능한 실수 벡터 형태로 변환되고 지도학습 분류모델 및 기계독해 모델에서 사용되는 입력 정보를 생성할 수 있게 된다.
예시적인 실시예에 따른 지도학습 기반 분류모델 학습 단계(S330)에서 프로세서(1500)는 상기 입력 질문 임베딩 단계(S320)에서 변환된 문장 임베딩 결과와 의도를 지도학습 하는 과정을 거친다. 이 과정을 통해 금융 질의 의도분류 모델을 구축할 수 있다.
예시적인 실시예에 따른 입력 질문 의도 분류 단계(S340)에서 프로세서(1500)는 입력 문장을 임베딩하는 과정을 거쳐 입력 벡터를 만들고 지도학습된 의도 분류 모델로 각 의도 별 확률이 계산이 되어 가장 신뢰도가 높은 의도 순서대로 분류 결과를 예측할 수 있다. 해당 과정에서 일정 신뢰도 이상의 결과가 나오지 않는 경우는 상기 기계독해 모델 학습 및 이용 단계(S400)를 활용하여 질문과 관련되는 문서를 검색하여 해당 문서에서 질문에 대한 답변을 검색하여 챗봇 시스템의 응답률을 제고할 수 있다.
도 5는 본 발명의 실시 예에 따른 기계독해 모델 학습 및 이용 단계에 관한 상세 흐름도이다.
도 5는 본 발명의 실시예에 따라 기계독해 학습 및 이용 단계(S400)의 구체적인 수행 방법에 관한 상세 흐름도이다. 도 5의 실시예는 금융 문서와 질문을 기계독해 모델 학습에 입력형태로 변환하는 전처리를 진행한 후 기계독해 모델을 학습하여 금융 기계독해 모델을 구현하여, 새로운 금융문서에서 답변을 검색하여 추출하는 과정을 보여준다.
도 5를 참조하면, 예시적인 실시예에 따른 기계독해 입력 데이터 전처리 단계(S410), 입력 질문/문서 임베딩 단계(S420), 기계독해 모델 학습 단계(S430); 답변 검색 단계(S440)를 포함할 수 있다.
예시적인 실시예에 따른 기계독해 입력 데이터 전처리 단계(S410)에서 프로세서(1500)는 입력 질문과 관련 문서를 통해 질문/문서 임베딩 단계(S420)의 입력 정보로 사용 가능한 형태로 변환을 수행한다. 해당 과정에서 질문과 문서 내용은 구분자를 기준으로 하나의 데이터로 취합된다.
예시적인 실시예에 따른 입력 질문/문서 임베딩 단계(S420)에서 프로세서(1500)는 상기 입력 질문 임베딩 단계(S320)와 동일하게 상기 사전학습 언어모델 구축 단계(S230)에서 학습된 언어모델을 기반으로 입력 질문/문서에 대해 임베딩 정보를 가져와서 기계독해 모델에서 사용되는 입력 정보를 생성할 수 있다.
예시적인 실시예에 따른 기계독해 모델 학습 단계(S430)에서 프로세서(1500)는 상기 질문/문서 임베딩 단계(S420)에서 변환된 임베딩 결과와 의도를 지도학습 하는 과정을 거친다. 이 과정을 통해 금융 문서 내 질의에 대한 답변을 검색하는 기계독해 모델을 구축할 수 있다.
예시적인 실시예에 따른 답변 검색 단계(S440)에서 프로세서(1500)는 입력 질문/문서를 임베딩하는 과정을 거쳐 입력 벡터를 만들고 학습된 금융문서 기계독해 모델로 검색 답변 결과를 예측할 수 있다.
도 6은 본 발명의 실시 에에 따른 기계독해 학습세트 생성 모듈에 관한 상세 흐름도이다.
도 6은 본 발명의 실시예에 따라 도 1의 기계독해 학습세트 생성 모듈(S500)의 구체적인 수행 방법에 관한 상세 흐름도이다. 도 6의 실시예는 금융 문서와 질의/답변을 입력받아 답변 위치 및 길이 등의 새로운 피쳐를 추가하고 기계독해 모델 학습의 입력 형태로 변환하여 기계독해 학습 세트를 생성한다.
예시적인 실시예에 따른 추가 피쳐 생성 단계(S510)에서 프로세서(1500)는 금융 질의답변과 금융 문서를 통해서 해당 금융 문서에서 기계독해 모델 학습 단계(S430)의 입력 정보로 사용 가능한 형태로 변환에 필요한 답변의 위치, 답변 길이를 피쳐로 추가로 생성하는 과정을 수행한다.
예시적인 실시예에 따라 데이터 구조 변환 단계(S520)에서 프로세서(1500)는 상기 추가 피쳐 생성 단계(S510)에서 생성된 데이터를 기계독해 모델 학습 단계(S430)의 입력 정보로 사용 가능한 구조의 dict 형태로 변환하는 작업을 수행한다. 그 결과 프로세서(1500)는 학습 데이터를 생성할 수 있다.
도 7은 본 발명의 실시 예에 따른 개체명 기반 문서 필터링 및 제목 임베딩 비교에 관한 상세 흐름도이다.
도 7은 본 발명의 실시예에 따라 도 1의 개체명 기반 문서 필터링 및 제목 임베딩 비교 단계(S600)의 구체적인 수행 방법에 관한 상세 흐름도이다. 도 7의 실시예는 입력된 질의에 대해서 주요 개체명을 추출하고 해당 개체명을 포함하는 금융문서를 1차적으로 필터링하여 해당 문서의 제목과 질의의 임베딩을 비교하여 가장 연관성이 높은 문서를 추출하는 과정을 보여준다.
예시적인 실시예에 따른 개체명 기반 문서 필터링 단계(S610)에서 프로세서(1500)는 입력 질문에 포함된 주요 개체명을 기준으로 문서 제목에 해당 주요 개체명 포함 여부를 판단하여 1차적으로 필터링하는 과정을 수행한다.
예시적인 실시예에 따른 금융 문서 제목-질문 간 임베딩 비교 단계(S620)에서 프로세서(1500)는 상기 개체명 기반 문서 필터링 단계(S610)에서 1차적으로 필터링된 문서 제목과 질문을 상기 사전학습 언어모델 구축 단계(S230)에서 학습된 언어모델을 기반으로 입력 질문/문서에 대해 임베딩 정보를 가져와서 비교하여 가장 질문과 유사도와 연관도가 높은 문서를 추출하는 과정을 수행한다. 도 7의 수행 결과 다수의 후보 금융 문서에서 연관성이 높은 금융 문서만 추출될 수 있다.
도 8은 본 발명의 일 실시예에 의한 인공지능 금융 전문가 시스템의 구성을 보여주는 도면이다. 시스템(1000)은 입력 데이터(1100)와 입력 데이터베이스(1200)를 이용하여 금융 전문 특화된 학습 모델을 구축하고 이를 기반으로 의도 분류 및 기계 독해에 기반하여 심층 텍스트 이해를 통해 결과(1300)를 산출한다. 프로세서(1500)는 전술한 과정들을 수행하며 데이터베이스(1900)는 전술한 과정에서 산출된 개체명 사전, 학습 데이터, 임베딩 모델 등을 저장한다.
입력 데이터(1100)는 금융 특화 원시 말뭉치, 금융 질의 답변, 금융 관련 질문, 금융 문서 등을 일 실시예로 한다.
입력 데이터베이스(1200)는 대규모 비즈니스 데이터베이스, 금융질의세트, 금융기계독해 학습세트 등을 일 실시예로 한다.
도 8의 시스템은 실시간 금융텍스트 심층 이해 및 외부 지식베이스 활용을 위한 기계학습 기반 챗봇 시스템을 구현한 것이며 전술한 도 1 내지 도 7의 실시예에서 제시하는 프로세스를 구현한다.
도 8의 시스템은 금융도메인 언어처리를 위해 AI 애널리스트 지원 서비스 구현을 위한 대규모 비즈니스 데이터 수집하고 금융 도메인 데이터분석 및 자연어처리를 위한 기반지식을 금융용어 사전으로 구축한다.
도 8의 시스템은 비정형 데이터로부터 금융 특화 인과관계 추출하기 위해 비정형 금융 정보 요약 기술 개발 및 자연어처리 기반 인과 관계 분석한다.
도 8의 시스템은 금융도메인 사전학습 언어모델을 구축하기 위해 금융정보의 실시간 텍스트 이해를 위한 학습모델을 구축하고, 실시간 금융정보 지원을 위한 학습모델을 고도화한다. 또한, 금융 도메인의 세부 영역에 따라 도 8의 시스템의 사전 학습 언어 모델을 경량화할 수 있고, 응용 도메인 특화 어휘 지식을 정제할 수 있다.
도 8의 시스템은 금융 전문용어를 의미기반으로 처리하기 위해 의미 기반(긍/부정, 중요도, 하이라이트) 분석 모듈을 포함할 수 있다.
도 8의 시스템은 금융도메인 사전학습 모델 기반으로 질의응답에 특화하여 답변과 의도 분류를 수행하기 위해 실시간 텍스트 이해를 위한 오픈소스 기반 기계독해 엔진을 포함할 수 있다. 아울러, 금융 전문가 수준의 투자정보 지원을 위한 질의응답 및 기계독해를 고도화시킬 수 있다.
도 9는 본 발명의 일 실시예에 의한 S100, S200, S500, S600의 과정을 통합하여 제시한 도면이다. 프로세서(1500)는 S100, S200의 프로세스를 수행하여 임베딩 모델을 생성한다. 그리고 프로세서(1500)는 S500의 프로세스를 수행하여 학습 데이터를 생성한다.
아울러, 프로세서(1500)는 S600 과정에서 개체명 사전과 대규모 비즈니스 데이터베이스를 이용하여 문서 필터링(S610)및 임베딩 비교(S620)를 수행하여 질문과 유사도가 높은 문서를 최종적으로 추출한다.
대규모 비즈니스 데이터는 국내외 뉴스, 정책 자료, 공시 자료, 기술 자료, 연구보고서 등을 수집한 결과이며, 이들은 비정형 데이터를 일 실시예로 한다. 또한, 대규모 비즈니스 데이터 베이스를 구성하는 데이터가 실시간 정보를 반영할 수 있도록 실시간 웹크롤링 시스템(S800)이 웹 크롤링을 수행하여 정보들을 수집할 수 있다.
도 10은 본 발명의 일 실시예에 의한 임베딩 모델과 학습 데이터를 적용하여 S300 및 S400의 프로세스를 수행하는 과정을 보여주는 도면이다.
도 5 및 도 6의 프로세스를 통합하여 살펴본다. S310 및 S410은 금융 질의 세트 또는 금융 기계 독해 학습 세트와 학습 데이터를 이용하여 입력된 금융 관련 질문(또는 S410의 경우 금융문서 또는 도 8의 추출 문서와 함께 입력된 금융 관련 질문)을 전처리하는 과정이다(S11).
프로세서(1500)는 S11의 처리된 결과에 임베딩 모델을 적용하여 입력된 질문이나 문서를 임베딩한다(S320, S420)(S12). 이를 기반으로 프로세서(1500)는 지도 학습 기반 분류 모델을 구축(S330)하여 금융 질의 의도 분류 모델을 생성할 수 있다(S13). 또는, 프로세서(1500)는 기계 독해 모델 학습을 수행하여(S430)하여 금융 문서 기계 독해 모델을 생성할 수 있다(S13).
그 결과 프로세서(1500)는 S14와 같이 입력된 질문의 의도를 분류하여(S340) 의도 분류 결과 및 답변을 생성한다.
또는, 프로세서(1500)는 S14와 같이 입력된 금융 관련 질문에 대한 답변을 검색하여 답변 추출 결과를 생성한다.
전술한 실시예를 적용할 경우 리토크나이징을 적용하여 금융용어의 임베딩 효과를 높이도록 기술을 적용할 수 있다.
예를 들어, 금융용어를 사전에 준비하고 이를 자체 형태소 분석기 및 사전 기반으로 처리하여 금융용어의 처리 과정에서 특정 용어가 사라지거나 혹은 분리되는 문제를 해결할 수 있다.
또한 말뭉치를 토크나이징(tokenizing)하는 과정에서 리토크나이징을 적용한다. 즉, 금융 용어 사전을 우선으로 하여 금융용어나 핵심 단어가 분리되지 않도록 처리할 수 있다.
아울러, 전술한 실시예를 적용할 경우 응답률 제고를 위한 외부 실시간 데이터베이스 활용 정답 검색 기술을 적용할 수 있다.
기존 질의 지식 데이터베이스에서 검색할 경우 확률 임계치가 낮은 질의에 대해서 외부 실시간 크롤링 데이터베이스를 사용하여 하기의 프로세스를 따를 수 있다. 즉, 외부 실시간 크롤링 데이터베이스에서 유사 문서 검색한다. 그리고, 관련 문서에 기계독해 모델을 통해 질의를 던져 가장 확률이 높은 답변을 찾아 응답으로 채택한다.
프로세서(1500)는 학습을 수행하고 모델을 생성하거나 이를 기반으로 필터링, 비교, 분류 등을 수행하는 모듈을 포함할 수 있다.
도 10의 실시예는 비정형 금융 정보의 요약 기술 및 자연어처리 기반 인과관계 분석을 더 포함할 수 있다. 도 8의 시스템(1000)은 금융 관련 뉴스기사 말뭉치 통한 시황 및 주식 종목별로 요약 데이터를 생성할 수 있다. 아울러, 도 8의 시스템(1000)은 문맥/의미역 기반 상호참조 관계를 분석하고 인과 지식 그래프를 구축할 수 있다.
그 결과 도 8의 시스템(1000)은 의미 분석(긍/부정, 중요도, 하이라이트)기반 대화 처리를 수행하고, 그래프 지식 기반 인과 분석 결과를 생성하여 질문에 답변을 제공할 수 있다.
한편, 도 8의 시스템(1000)은 오픈소스 기반 기계독해 엔진을 더 포함할 수 있다. 이는 공개 사전학습 언어모델 기반 질의-응답을 산출하여 질의에 대응하는 응답을 제공하는데 기계독해 엔진은 오픈소스 기반 금융 도메인 특화 기계독해 기능을 제공할 수 있다.
질의-응답 및 기계독해 성능을 높이기 위해 도 8의 시스템(1000)은 금융도메인 특화 말뭉치 기반 질의응답 지식 자동 추출 모듈을 더 포함할 수 있다. 그리고 도 8의 시스템(1000)은 응용도메인 특화 사전학습 언어모델을 이용한 기계독해 기반 클로즈 도메인(Close-Domain) 질의응답 엔진을 더 포함할 수 있다.
도 11은 본 발명의 실시 예에 따른 지도학습 분류 모델 및 기계 학습 시 사용하는 입력과 출력에 관한 설명을 도시한 도면이다. 도 11은 사용자 입력 정보의 종류와 형태가 무엇인지 보여준다.
도 11은 상기 지도학습 기반 분류 모델 학습 및 이용 단계(S300)에서 실시 예에 따른 지도학습 기반 분류 모델 학습 시 사용하는 입력과 출력에 관한 설명 그림으로, 사용자 입력 정보의 종류와 형태가 무엇인지 보여준다.
도 12는 본 발명의 실시 예에 따른 기계독해 모델 학습 시 사용하는 입력과 출력에 관한 설명을 도시한 도면이다. 도 12는 입력 정보의 종류와 형태가 무엇인지 보여준다.
도 12는 상기 기계독해 모델 학습 및 이용 단계(S400)에서 실시 예에 따른 기계독해 모델 학습 시 사용하는 입력과 출력에 관한 설명 그림으로, 입력 및 출력 정보의 종류와 형태가 무엇인지 보여준다.
도 13은 본 발명에 기재된 발명의 주요 실시예를 포함하는 챗봇 시스템의 전체적인 구성도이다.
도 13은 본 발명의 주요 실시예에 따라 지도학습 및 기계독해 방법론을 이용한 질의 답변 검색 시스템의 전체적인 구성도이다.
도 13은 전술한 S100~S600의 각 프로세스들을 수행하는 프로세서(1500)의 세부 구성요소들을 도시한 도면이다. 전처리 작업인 도메인/말뭉치 특화 토크나이저 학습 모델(1510)과 금융특화 사전학습 모델(1520)이다.
또한, 프로세서(1500)의 금융텍스트 의도분류 모델(1530)은 질문의 의도를 분류하고 해당 질문의 답변을 출력할 수 있다.
또한, 프로세서(1500)의 관련 금융문서 추출 모듈(1560)은 문서 필터링 모듈(S610)과 임베딩 비교 모듈(S620)에 의한 작업 결과인 추출 문서를 기계 독해 모델(1540)에 입력한다. 기계독해 모델(S430)은 질문에 대해 답변을 출력한다.
답변을 출력하는 최종 모델은 기계독해 모델(1540) 및 금융텍스트 의도 분류 모델(1530)이다.
도 14는 본 발명의 일 실시예에 의한 금융 도메인 언어처리를 위한 금융정보 자동 추출과정을 보여주는 도면이다. 금융도메인 언어처리에 특화하여 적용할 수 있다. 말뭉치 데이터는 애널리스트 리서치 보고서, 경제시황 보고서, 경제기사 등을 포함한다. 프로세서(1500)는 형태소 분석을 수행하du 키워드 및 복합어 사전을 구축한다. 그리고 사전을 고도화하기 위해 동의어 지식을 구축하고, 신규 개체명을 등록한다. 동의어는 동일 의미의 다른 표현으로 키워드 상 동의어로 처리할 수 있다. 신규 개체명을 등록할 경우 서로 관련된 단어들을 결합하여 등록할 수 있다.
또한, 시스템(1000)은 실시간 금융 텍스트 이해 위한 학습모델을 구축할 수 있다. 금융도메인 특화 사전학습 언어모델을 구성하고 공개 사전학습 언어모델을 이용하여 응용 태스크 성능을 비교할 수 있다. 시스템(1000)은 도메인 특화된 말뭉치 데이터와 금융 도메인에 특화된 사전 학습 모델을 결합하고 언어모델을 인코더 학습시킬 수 있다. 특히, 말뭉치 데이터는 전화 상담이나 채팅 상담에서 생성된 데이터를 포함하며, 시스템(1000)은 이들을 전처리하여 문장을 학습시킬 수 있다.
도 15는 본 발명의 일 실시예에 의한 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 과정을 도시한 도면이다.
전술한 실시예를 정리하면 다음과 같다.
시스템(1000)의 프로세서(1500)가 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출한다(S710).
프로세서(1500)가 추출한 개체명을 시스템(1000)의 데이터베이스(1900)에 저장한다(S720).
프로세서(1500)가 데이터베이스(1900)에 저장된 개체명을 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행한다(S730). 제1입력 데이터 및 제2입력 데이터는 시간차이를 두고 입력된 말뭉치 데이터를 일 실시예로 한다. 말뭉치 데이터는 금융 특화 원시 말뭉치 데이터를 일 실시예로 한다. 또는 제1입력 데이터는 말뭉치 데이터이고 제2입력 데이터는 질문 데이터인 것을 일 실시예로 한다.
개체명을 추출함에 있어서, 프로세서(1500)는 말뭉치에 포함된 문장을 전처리하여 초성과 중성과 종성으로 분리한 후, 문장에 포함된 알파벳을 대문자 또는 소문자로 일괄 변환하여 단어를 분리할 수 있다. 또한, 단어를 분리하는 과정에서 개체명 사전 및 금융 용어 사전에 포함된 단어는 하나의 단어로 처리하는 리토크나이징을 수행할 수 있다.
프로세서(1500)가 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 상기 데이터베이스에 저장한다(S740).
이후, 프로세서(1500)는 다수의 후보 금융 문서에 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 프로세서(1500)가 말뭉치에서 추출한 금융 질의 답변 문서를 이용하여 학습 데이터를 생성할 수 있다(S750).
한편, 프로세서(1500)는 질문 데이터를 입력 데이터로 입력받은 후 질문 데이터에 대응하여 의도를 분류하거나 답변을 생성할 수 있다(S760).
보다 상세히, 개체명을 추출하는 단계 또는 토크나이징을 수행하는 단계에서 프로세서(1500)는 데이터베이스(1900)에 저장된 개체명 사전 또는 금융용어 사전에 포함된 단어는 분리하지 않고 하나의 단어로 처리하는 리토크나이징을 수행할 수 있다. 또한, 이들 단어 사이에 스페이스(공백) 등 빈 공간이 있거나 기호 등이 포함된 경우 프로세서(1500)는 이를 수정하여 처리한다.
예를 들어 "삼전주가" 라는 단어가 개체명 사전 또는 금융용어 사전에 포함된 경우, 말뭉치에서 "삼성 주가" 라거나 "삼성주 가" 와 같이 스페이스가 포함된 경우에 프로세서(1500)는 해당 단어를 하나의 단어로 처리하도록 리토크나이징을 수행할 수 있다.
또한, 프로세서(1500)는 순차적으로 입력 데이터를 처리할 수 있다. 예를 들어, 다수의 말뭉치 데이터가 있으며, 제1 및 제2 입력 데이터가 모두 금융 특화 원시 말뭉치 데이터인 실시예를 살펴본다. 프로세서(1500)는 제1입력 데이터를 처리하여 개체명 사전 또는 금융용어 사전에 단어를 추가한 후, 새로운 제2입력 데이터를 처리하여 특정한 단어를 식별한다. 그리고 식별한 단어가 개체명 사전 또는 금융용어 사전에 없을 경우 이를 추가한다.
즉, 프로세서(1500)는 말뭉치에서 개체명 사전 또는 금융용어 사전에 포함되지 않는 단어를 식별하여 개체명 사전 또는 금융용어 사전에 추가하는 과정을 반복하여 수행할 수 있다.
또한, 프로세서(1500)는 앞서 도 9의 S510, S520 과정을 수행할 수 있다. 예를 들어, 프로세서(1500)는 다수의 후보 금융 문서에 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한다. 또한, 프로세서(1500)는 말뭉치에서 추출한 금융 질의 답변 문서를 이용하여 학습 데이터를 생성한다.
금융 질의 답변 문서는 금융 질의 및 이에 대응하는 금융 답변을 포함하는 문서이다.
프로세서(1500)는 금융 질의 답변 문서에 포함된 답변의 위치 또는 답변의 길이에 따라 피쳐를 생성할 수 있으며 이는 학습 데이터에 반영된다.
이후, 프로세서(1500)는 질문 데이터를 입력받은 후, 이에 대해 의도를 분류하거나 답변을 생성할 수 있다.
일 실시예로, 프로세서(1500)는 개체명 사전, 언어 모델 및 학습 데이터를 질문 데이터에 적용하여 질문 데이터의 질문의 의도를 분류하여 출력할 수 있다.
다른 실시예로, 프로세서(1500)는 개체명 사전, 언어 모델 및 학습 데이터를 질문 데이터에 적용하여 질문 데이터의 답변을 생성하여 출력할 수 있다. 이때, 프로세서(1500)는 질문의 의도를 분류하고 그 결과를 이용하여 질문 데이터의 답변을 생성할 수 있다.
다음으로 도 16 및 도 17에서 본 발명의 일 실시예에 의한 외부 데이터베이스를 이용하여 정답을 검색하는 과정을 살펴본다. 정답을 검색하는 전단계로, 프로세서(1500)는 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출하고, 개체명을 상기 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행할 수 있다. 그리고 프로세서(1500)는 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 데이터베이스에 저장할 수 있다.
또한, 프로세서(1500)는 다수의 후보 금융 문서에 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 상기 프로세서가 입력데이터로 입력된 금융 질의 답변 문서를 이용하여 학습 데이터를 생성할 수 있다.
도 16 및 도 17에서 응답률 제고를 위해 본 발명의 시스템은 외부 실시간 데이터베이스 활용하여 정답을 검색할 수 있다. 도 15의 S760 및 도 10의 S440 단계와 함께 살펴본다.
도 16은 본 발명의 일 실시예에 의한 외부 데이터베이스를 이용하여 정답을 검색하는 과정을 보여주는 도면이다. 도 16은 질문의 의도에 대응하는 외부 데이터베이스의 문서를 검색하는 과정을 보여주는 도면이다.
프로세서(1500)는 질문 데이터를 입력받는다(S441). 그리고 프로세서(1500)는 개체명 사전, 언어 모델 및 학습 데이터를 질문 데이터에 적용하여 질문 데이터의 질문의 의도를 분류하여 출력한다(S442).
프로세서(1500)는 외부 데이터베이스에서 상기 질문의 의도에 대응하는 문서를 검색한다(S443). 이를 위해 프로세서(1500)는 주기적으로 외부 의 정보들을 크롤링하여 외부 데이터베이스를 구축할 수 있다. 외부 데이터베이스는 입력 데이터베이스(1200)의 일 실시예가 될 수 있다.
프로세서(1500)는 검색한 문서에 질문 데이터를 적용하여 산출된 답변들 중 하나 이상을 응답으로 출력한다.
도 17은 본 발명의 일 실시예에 의한 외부 데이터베이스를 이용하여 정답을 검색하는 과정을 보여주는 도면이다. 도 17은 내부에서 생성한 답변의 정확도보다 높은 정확도를 가지는 외부 데이터베이스의 문서를 검색하는 과정을 보여주는 도면이다.
프로세서(1500)는 질문 데이터를 입력받는다(S441). 그리고 프로세서(1500)는 개체명 사전, 언어 모델 및 학습 데이터를 질문 데이터에 적용하여 질문 데이터의 답변 및 정확도를 출력한다(S446).
프로세서(1500)는 외부 데이터베이스에서 상기 질문에 대응하는 문서를 검색한다(S446). 이를 위해 프로세서(1500)는 주기적으로 외부의 정보들을 크롤링하여 외부 데이터베이스를 구축할 수 있다. 외부 데이터베이스는 입력 데이터베이스(1200)의 일 실시예가 될 수 있다.
프로세서(1500)는 검색한 문서에 질문 데이터를 적용하여 정확도 이상의 산출된 답변들 중 하나 이상을 응답으로 출력한다.
예를 들어 내부에서 생성한 답변의 정확도가 70%인 경우, 프로세서(1500)는 이보다 높은 정확도를 산출한 답변들 중 하나 이상을 응답으로 출력할 수 있다.
도 16 및 도 17을 적용할 경우, 확률 임계치가 낮은 질의에 대해서 외부 실시간 크롤링 DB를 사용하여 정확도가 높은 답변을 생성할 수 있다.
이를 위해 프로세서(1500)는 외부의 실시간 크롤링 DB에서 유사 문서를 검색할 수 있다. 아울러 프로세서(1500)는 관련 문서에 기계독해 모델을 통해 질의를 던져 가장 확률이 높은 답변을 찾아 응답으로 출력할 수 있다.
또한, 본 발명의 일 실시예에 의한 질문의 의도를 분류한 결과를 적용하여 외부 문서의 검색 정확도와 답변의 정확도를 높일 수 있다.
도 8의 시스템 구성은 도 16 또는 도 17의 과정을 수행할 수 있다.
예를 들어, 프로세서(1500)는 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출하고 프로세서(1500)는 개체명을 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행한다. 그리고 프로세서(1500)는 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 상기 데이터베이스에 저장한다. 또한, 프로세서(1500)는 다수의 후보 금융 문서에 상기 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 상기 프로세서가 입력데이터로 입력된 금융 질의 답변 문서를 이용하여 학습 데이터를 생성한다.
그리고 프로세서(1500)는 외부 데이터베이스를 검색하여 입력받은 질문 데이터에 대응하는 결과를 출력할 수 있다.
도 18은 본 발명의 일 실시예에 의한 웹 크롤링 시스템의 세부 동작을 보여주는 도면이다. 실시간 웹 크롤링 시스템(S800)은 다수의 웹사이트의 주소(URL)를 유지하며 각 웹사이트에 데이터를 요청한다(S810). 그리고 실시간 웹 크롤링 시스템(S800)은 응답받은 데이터의 구조를 분석하여 유효한 데이터인지 검증을 하여 필터링을 수행한다(S820). 이후, 필터링된 데이터를 필요한 요소별로 분리 및 전처리를 수행한다(S830). 이와 같은 과정을 통해 생성된 데이터들은 대규모 비즈니스 데이터베이스에 저장된다.
웹 크롤링 시스템(S800)은 S830과 같이 파싱 데이터를 정제한 후에 대규모 비즈니스 데이터베이스에 저장되는 과정에서 각 데이터들의 출처 정보를 함께 저장할 수 있다. 예를 들어 웹 크롤링 시스템(S800)은 A라는 사이트에서 산출된 데이터와 B라는 사이트에서 산출된 데이터를 저장할 때, 각각 데이터들의 출처를 A 또는 B로 저장할 수 있다.
이후, 대규모 비즈니스 데이터베이스는 저장된 데이터들에 대해 검색된 횟수를 저장할 수 있다.
데이터 출처 검색횟수
화폐주조세 A 30
인구오너스 B 20
그리고 본 발명의 시스템(1000)은 데이터들의 검색 횟수가 높아질 경우, 해당 데이터를 최초로 혹은 자주 사용하는 웹사이트(출처)에 대한 정보를 기록한다. 그리고 시스템(1000)은 추후 해당 데이터에 대한 세부 정보를 확보하는 과정에서 기록한 웹사이트에서 제공하는 정보들을 크롤링하여, 정보의 정확도를 높일 수 있다. 예를 들어 표 1에 제시된 바와 같이 "화폐주조세"와 관련하여 A라는 사이트에서 크롤링되어 데이터베이스에 저장한 후, 해당 단어에 대해 검색이 30회 발생한 경우, 시스템(1000)은 해당 단어와 관련된 다른 정보들에 대해 A 라는 사이트에서 정보를 수집할 수 있다.
이는 관련 데이터에 대한 검색이 증가할 경우, 해당 데이터와 관련된 정보를 출처로 확인된 사이트에서 보다 자세히 제공할 수 있으므로, 시스템(1000)은 검색된 데이터에 관련된 다른 정보들에 대해 크롤링 방식으로 정보를 추가로 수집할 수 있다.
또한, 표 1과 다른 실시예로, 시스템(1000)은 검색 횟수가 많은 데이터를 포함하는 웹 문서를 다수 보유한 웹사이트(출처)에 대한 정보를 유지할 수 있다. 이러한 정보는 웹 크롤링 시스템(S800)이 유지할 수 있다.
데이터 출처 포함 웹문서의 수
화폐주조세 A 80
화폐주조세 B 3
표 2는 특정 데이터에 대해 특정 사이트(출처)가 해당 단어를 포함하는 웹문서의 개수를 저장하는 표이다. 예를 들어 "화폐주조세"라는 단어를 포함하는 웹문서를 80개를 제공하는 A 사이트와 3개를 제공하는 B 사이트가 표 2에 제시되어 있다. 이 경우, 본 발명의 시스템(1000)은 해당 데이터들와 관련된 웹문서의 수가 높아질 경우 해당 사이트가 해당 데이터(예를 들어 화폐주조세)에 관련된 정보를 많이 제공하는 사이트로 판단한다. 따라서, 시스템(1000)은 질문의 의도를 분류하여 그에 대응하는 문서를 검색하는 과정에서 해당 키워드와 관련하여 다수의 웹문서를 제공하는 사이트에서 산출된 웹문서를 검색할 수 있다. 만약 질문 데이터가 "화폐주조세"를 포함한다면, 시스템(1000)은 A 사이트의 웹문서들을 이용하여 질문의 의도를 분류하거나 질문의 의도에 대응하는 문서를 검색할 수 있다.
또한, 시스템(1000)은 "화폐주조세"와 관련된 질문 데이터의 답변들 중에서 하나 이상을 응답으로 출력하는 과정에서 A 사이트의 웹문서들을 이용할 수 있다. 즉, 시스템(1000)은 "화폐주조세"와 관련된 질문 데이터의 답변들을 ans1, ans2, ans3를 산출하고, A 사이트의 웹문서들에 질문 데이터를 적용하여 각각의 답변들인 ans1, ans2, ans3의 정확도를 산출하고, 산출된 정확도에 대응하여 가장 높은, 혹은 일정 기준 이상 높은 결과를 산출한 답변을 선택한다.
그리고, 시스템(1000)은 질문 데이터에 적합한 다수의 사이트들을 정리하여 질문들의 분류에 따라, 또는 의도에 따라 각각의 외부 사이트가 제공하는 정보에 가중치를 부여할 수 있다.
예를 들어 세금과 관련된 질문에 대해서는 A 사이트의 웹문서들이 유용한 정보를 제공하는 경우, 세금 관련 질문에 대해 답변을 생성하는 과정에서 A 사이트의 웹문서들에게 가중치를 부여할 수 있다. 마찬가지로, 투자와 관련된 질문에 대해서는 B 사이트의 웹문서들이 유용한 정보를 제공하는 경우, 투자 관련 질문에 대해 답변을 생성하는 과정에서 B 사이트의 웹문서들에게 가중치를 부여할 수 있다. 표 3은 가중치에 대한 예시이다.
질문 분류 출처 가중치
세금 A 170%
투자 B 130%
전술한 실시예를 구현할 경우, 종래의 목적지향 대화시스템 및 챗봇 시스템의 지식베이스 구축의 한계와 검색 기반질의 응답 시스템의 성능의 한계를 보완할 수 있다. 최근 다양한 공공, 유통 등 다양한 응용 도메인에서 고객 상담, 직원용 챗봇, RPA 서비스 등 목적지향 대화시스템 및 질의 응답 시스템을 이용한 챗봇 서비스가 많아졌고, 응용 도메인에 따른 지식 데이터베이스 구축 및 관리에 한계 및 어려움이 드러나고 있어 본 발명의 실시예를 적용할 경우 또는 이를 응용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 답변을 검색할 수 있는 서비스를 제공할 수 있다.
본 발명의 시스템(1000)은 비정형 텍스트가 입력되면 이를 분석함에 있어서, 질의어, 개체명 등을 분석하는데 적용할 기본 사전을 데이터베이스(1900)에 포함한다. 프로세서(1500)는 비지도 학습 기반의 어휘 분절(토크나이저) 학습 방법을 적용하였으며, 이를 통해 질의어/색인어 사전의 특성을 가지는 개체명 사전을 응용 도메인에 특화하여 최적으로 제공할 수 있다.
본 발명의 시스템(1000)은 금융 도메인 말뭉치를 추가로 수집하고 사전학습 언어모델 학습을 통해 금융권에 특화된 언어 모델을 구축하여, 관련(금융/투자) 복잡한 전처리나 지식 구축 작업을 최소화하고 응용 도메인의 다양한 서비스에 공통적으로 이용하기 위한 입력 처리 절차를 제공할 수 있다. 또한, 본 발명의 시스템(1000)은 질문 분류, 텍스트 추론 등 심층 텍스트 이해 및 기계독해 등의 프로세스를 제공하여 성능의 최적화를 가능하게 한다.
또한, 본 발명의 시스템(1000)은 지도학습 기반 의도분류 모델을 적용하여, 고객의 질의에 대한 의도를 분류할 수 있다. 의도 분류 모델을 구축하여 오분류/미분류 사례에 대한 추가 학습 프로세스를 구현하여 기존 분류 모델의 성능을 최소한의 노력으로 개선할 수 있는 시스템을 구성하였다.
또한, 본 발명의 시스템(1000)은 입력에 대한 의미 및 내재적 정보에 기반한 텍스트 추론 기술을 적용하여, 의도분류 모델에서 답을 찾지 못하는 경우에도 유사한 절의나 문서를 검색할 수 있는 기능을 추가하여 지식 데이터베이스에 정의되지 않은 질의에 대한 답변에 대한 응답률을 개선할 수 있다.
또한, 본 발명의 시스템(1000)은 정확한 문서 색인, 신속한 검색을 통해 실시간으로 외부 지식 베이스의 관련 문서를 검색하거나 문서에서 미리 정의되지 않은 질의에 대한 답변을 자동으로 추출하여 질의응답의 결과로 제공할 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 전술된 실시예는 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해되어야 하며, 본 발명의 범위는 전술된 상세한 설명보다는 후술될 특허청구범위에 의해 나타내어질 것이다. 그리고 이 특허청구범위의 의미 및 범위는 물론, 그 등가개념으로부터 도출되는 모든 변경 및 변형 가능한 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
따라서, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위 및 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
1000: 시스템 1500: 프로세서
1900: 데이터베이스

Claims (12)

  1. 시스템의 프로세서가 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출하고, 상기 프로세서가 상기 개체명을 상기 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행하는 단계;
    상기 프로세서가 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 상기 데이터베이스에 저장하는 단계;
    상기 프로세서가 다수의 후보 금융 문서에 상기 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 상기 프로세서가 입력데이터로 입력된 금융 질의 답변 문서를 이용하여 학습 데이터를 생성하는 단계;
    상기 프로세서가 질문 데이터를 입력받는 단계;
    상기 프로세서는 상기 개체명 사전, 상기 언어 모델 및 상기 학습 데이터를 상기 질문 데이터에 적용하여 상기 질문 데이터의 질문의 의도를 분류하여 출력하는 단계;
    상기 프로세서는 외부 데이터베이스에서 상기 질문의 의도에 대응하는 문서를 검색하는 단계; 및
    상기 프로세서는 상기 검색한 문서에 상기 질문 데이터를 적용하여 산출된 답변들 중 하나 이상을 응답으로 출력하는 단계를 포함하며,
    상기 외부 데이터베이스는 다수의 웹사이트에서 크롤링하여 추출한 데이터를 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법.
  2. 시스템의 프로세서가 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출하고, 상기 프로세서가 상기 개체명을 상기 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행하는 단계;
    상기 프로세서가 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 상기 데이터베이스에 저장하는 단계;
    상기 프로세서가 다수의 후보 금융 문서에 상기 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 상기 프로세서가 입력데이터로 입력된 금융 질의 답변 문서를 이용하여 학습 데이터를 생성하는 단계;
    상기 프로세서가 질문 데이터를 입력받는 단계;
    상기 프로세서는 상기 개체명 사전, 상기 언어 모델 및 상기 학습 데이터를 상기 질문 데이터에 적용하여 상기 질문 데이터의 답변 및 정확도를 출력하는 단계;
    상기 프로세서는 외부 데이터베이스에서 상기 질문에 대응하는 문서를 검색하는 단계; 및
    상기 프로세서는 상기 검색한 문서에 상기 질문 데이터를 적용하여 상기 정확도 이상으로 산출된 답변들 중 하나 이상을 응답으로 출력하는 단계를 포함하며,
    상기 외부 데이터베이스는 다수의 웹사이트에서 크롤링하여 추출한 데이터를 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법.
  3. 제1항 또는 제2항 중 어느 한 항에 있어서,
    상기 개체명을 추출하는 단계 또는 상기 토크나이징을 수행하는 단계는
    상기 프로세서가 상기 데이터베이스에 저장된 개체명 사전 또는 상기 금융용어 사전에 포함된 단어는 분리하지 않고 하나의 단어로 처리하는 단계를 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법.
  4. 제1항 또는 제2항 중 어느 한 항에 있어서,
    상기 제1 및 제2 입력 데이터는 금융 특화 원시 말뭉치 데이터이며,
    상기 프로세서는 상기 말뭉치에서 상기 개체명 사전 또는 상기 금융용어 사전에 포함되지 않는 단어를 식별하여 상기 개체명 사전 또는 상기 금융용어 사전에 추가하는 단계를 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법.
  5. 제4항에 있어서,
    상기 금융 질의 답변 문서는 금융 질의 및 이에 대응하는 금융 답변을 포함하는 문서이며,
    상기 프로세서는 상기 금융 질의 답변 문서에 포함된 상기 답변의 위치 또는 답변의 길이에 따라 피쳐를 생성하는 단계를 더 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법.
  6. 제1항 또는 제2항 중 어느 한 항에 있어서,
    상기 제1 및 제2 입력 데이터는 금융 특화 원시 말뭉치이며,
    상기 개체명을 추출하는 단계는
    상기 프로세서가 상기 말뭉치에 포함된 문장을 전처리하여 초성과 중성과 종성으로 분리한 후, 상기 문장에 포함된 알파벳을 대문자 또는 소문자로 일괄 변환하여 단어를 분리하는 단계를 더 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법.
  7. 제1항 또는 제2항 중 어느 한 항에 있어서,
    상기 프로세서는 외부의 실시간 크롤링 DB에서 유사 문서를 검색하는 단계를 더 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법.
  8. 입력 데이터, 입력 데이터베이스를 이용하여 정보를 처리하는 프로세서; 및
    상기 프로세서가 생성한 정보를 저장하는 데이터베이스를 포함하며,
    상기 프로세서가 제1입력 데이터를 이용하여 비지도학습 기반 개체명을 추출하고, 상기 프로세서가 상기 개체명을 상기 제1입력 데이터 또는 제2입력 데이터의 전처리된 결과에 적용하여 토크나이징을 수행하며,
    상기 프로세서가 토크나이징된 결과에 기반하여 금융용어 사전을 포함한 언어 모델을 구축하여 상기 데이터베이스에 저장하며,
    상기 프로세서가 다수의 후보 금융 문서에 상기 개체명 사전을 적용하여 문서를 필터링하여 하나 이상의 금융 문서를 추출한 결과 및 상기 프로세서가 입력데이터로 입력된 금융 질의 답변 문서를 이용하여 학습 데이터를 생성하며,
    상기 프로세서는 외부 데이터베이스를 검색하여 입력받은 질문 데이터에 대응하는 결과를 출력하며,
    상기 외부 데이터베이스는 다수의 웹사이트에서 크롤링하여 추출한 데이터를 포함하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 시스템.
  9. 제8항에 있어서,
    상기 프로세서는 질문 데이터를 입력받은 후 상기 개체명 사전, 상기 언어 모델 및 상기 학습 데이터를 상기 질문 데이터에 적용하여 상기 질문 데이터의 질문의 의도를 분류하여 출력하며,
    상기 프로세서는 상기 외부 데이터베이스에서 상기 질문의 의도에 대응하는 문서를 검색한 후, 상기 검색한 문서에 상기 질문 데이터를 적용하여 산출된 답변들 중 하나 이상을 응답으로 출력하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 시스템.
  10. 제8항에 있어서,
    상기 프로세서는 질문 데이터를 입력받은 후 상기 개체명 사전, 상기 언어 모델 및 상기 학습 데이터를 상기 질문 데이터에 적용하여 상기 질문 데이터의 답변 및 정확도를 출력하며,
    상기 프로세서는 상기 외부 데이터베이스에서 상기 질문의 의도에 대응하는 문서를 검색한 후, 상기 검색한 문서에 상기 질문 데이터를 적용하여 상기 정확도 이상으로 산출된 답변들 중 하나 이상을 응답으로 출력하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 시스템.
  11. 제8항에 있어서,
    상기 제1 및 제2 입력 데이터는 금융 특화 원시 말뭉치이며,
    상기 프로세서는 상기 말뭉치에 포함된 문장을 전처리하여 초성과 중성과 종성으로 분리한 후, 상기 문장에 포함된 알파벳을 대문자 또는 소문자로 일괄 변환하여 단어를 분리하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 시스템.
  12. 제8항에 있어서,
    상기 프로세서는 외부의 실시간 크롤링 DB에서 유사 문서를 검색하는, 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 시스템.

KR1020220020843A 2021-11-25 2022-02-17 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템 KR20230077589A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210164238 2021-11-25
KR1020210164238 2021-11-25

Publications (1)

Publication Number Publication Date
KR20230077589A true KR20230077589A (ko) 2023-06-01

Family

ID=86770844

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220020842A KR20230077588A (ko) 2021-11-25 2022-02-17 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템
KR1020220020843A KR20230077589A (ko) 2021-11-25 2022-02-17 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020220020842A KR20230077588A (ko) 2021-11-25 2022-02-17 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템

Country Status (1)

Country Link
KR (2) KR20230077588A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235233B (zh) * 2023-10-24 2024-06-11 之江实验室 一种基于大模型的财报自动化问答方法和装置
CN117892799B (zh) * 2024-03-15 2024-06-04 中国科学技术大学 以多层次任务为导向的金融智能分析模型训练方法及系统

Also Published As

Publication number Publication date
KR20230077588A (ko) 2023-06-01

Similar Documents

Publication Publication Date Title
US6675159B1 (en) Concept-based search and retrieval system
US8346795B2 (en) System and method for guiding entity-based searching
US8751218B2 (en) Indexing content at semantic level
WO2021076606A1 (en) Conceptual, contextual, and semantic-based research system and method
US7509313B2 (en) System and method for processing a query
US20110213804A1 (en) System for extracting ralation between technical terms in large collection using a verb-based pattern
JP2004534324A (ja) 索引付きの拡張可能な対話的文書検索システム
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
US11657076B2 (en) System for uniform structured summarization of customer chats
KR20230077589A (ko) 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템
KR20020072140A (ko) 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
Ramprasath et al. A survey on question answering system
Verma et al. Accountability of NLP tools in text summarization for Indian languages
Devi et al. A hybrid document features extraction with clustering based classification framework on large document sets
Bouarroudj et al. Named entity disambiguation in short texts over knowledge graphs
Alyami et al. Systematic literature review of Arabic aspect-based sentiment analysis
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
EP0822503A1 (en) Document retrieval system
Breja et al. A survey on non-factoid question answering systems
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
Loukam et al. Keyphrase extraction from modern standard Arabic texts based on association rules
Husain Critical concepts and techniques for information retrieval system
Maria et al. A new model for Arabic multi-document text summarization
Yadav et al. Large text document summarization based on an enhanced fuzzy logic approach
Shinde et al. Pattern discovery techniques for the text mining and its applications