KR102580512B1 - 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 - Google Patents

자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 Download PDF

Info

Publication number
KR102580512B1
KR102580512B1 KR1020230048429A KR20230048429A KR102580512B1 KR 102580512 B1 KR102580512 B1 KR 102580512B1 KR 1020230048429 A KR1020230048429 A KR 1020230048429A KR 20230048429 A KR20230048429 A KR 20230048429A KR 102580512 B1 KR102580512 B1 KR 102580512B1
Authority
KR
South Korea
Prior art keywords
sentence
learning
important
data
sentences
Prior art date
Application number
KR1020230048429A
Other languages
English (en)
Inventor
이홍재
고형석
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230048429A priority Critical patent/KR102580512B1/ko
Application granted granted Critical
Publication of KR102580512B1 publication Critical patent/KR102580512B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 인터넷 상의 비정형 오픈 데이터를 수집하여, 자연어 처리를 통해텍스트를 분석하여, 중요 문장을 추출하고, 기존 중요 문장 리스트와 유사도를 비교하여 중요한 신규 문장 발생시 로봇 프로세스 자동화(RPA)를 이용하여 자동 문장 클러스터링 딥러닝 모델 학습에 필요한 학습 데이터를 생성하고 학습을 수행하는 장치 및 방법에 관한 것으로, 수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제 및 구조화하는 전처리 단계; 상기 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계; 상기 전처리 단계를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계; 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계; 추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계; 및 신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계;를 포함한다.

Description

자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 및 방법{AUTOMATED RPA LEARNING APPARATUS AND METHOD FOR AUTOMATIC SENTENCE CLUSTERING DEEP LEARNING MODEL}
본 발명은 인터넷 상의 비정형 오픈 데이터를 수집하여, 텍스트 추출, 형태소 분석 및 문장 분류를 수행하고, 텍스트에 대한 단어의 빈도 통계 및 역문서 빈도 계산을 통해 중요한 문장으로 판단되면, 기존 중요 문장 리스트와 유사도를 비교하여 신규 중요 문장 여부를 판단하고, 중요한 신규 문장 발생시 로봇 프로세스 자동화(RPA)를 이용하여 자동 문장 클러스터링 딥러닝 모델 학습에 필요한 학습 데이터를 생성하고 학습을 수행하는 장치 및 방법에 관한 것이다.
인터넷은 수많은 정보와 데이터를 제공하는 매우 중요한 정보원이다. 그러나 인터넷이 제공하는 방대한 데이터 중에서 비정형 데이터가 대부분을 차지하므로, 비정형 데이터 분석은 매우 중요한 분야로 인식되고 있다.
인터넷 상의 비정형 데이터 분석은 다양한 분야에서 활용된다.
예를 들어, 마케팅 분야에서는 소셜 미디어에서 얻은 고객의 의견이나 블로그, 포럼 등에서의 고객 평가와 댓글 등의 비정형 데이터를 분석하여 제품에 대한 시장 인식, 고객 선호도, 경쟁 업체와의 차별화 등을 분석할 수 있다.
또한, 금융 분야에서는 비정형 데이터 분석을 통해 주식 시장 예측, 신용 위험 평가, 보험 가격 결정 등에 활용될 수 있고, 의료 분야에서는 환자 데이터나 진료 기록 등을 분석하여 질병 예측, 치료 방법 개발, 약물 개발 등에 활용될 수 있다. 이와 같이 인터넷 상의 비정형 데이터 분석은 다양한 분야에서 중요한 역할을 수행하고 있으며, 이를 통해 기업이나 조직은 더욱 빠르고 정확한 의사 결정을 내릴 수 있다.
비정형 데이터는 일반적으로 자연어 형태로 작성되어 있으며, 이러한 데이터를 분석하고 활용하기 위해서는 텍스트 마이닝이나 자연어 처리와 같은 기술이 필요하다.
최근 대용량의 비정형 데이터를 정확하게 분석하기 위해 인공 지능을 활용한 자연어 처리 기술이 사용되고 있다. 특히, 데이터 분석을 통해 기존 데이터와 유사한 패턴을 찾아내고, 그 패턴을 기반으로 새로운 데이터를 추천하는 기술을 여러 분야에 적용될 수 있는 기술로 인식되고 있다.
또한, 유사 데이터 추천을 위해서는 지속적으로 새로운 정보를 식별하고, 이에 대해 대용량의 데이터를 학습하는 것이 매우 중요하다. 그러나 모델 학습을 위해 지속적으로 새로운 데이터를 수집하고, 수집한 데이터를 학습 데이터로 구축하는 것은 반복적인 프로세스일 뿐만 아니라 많은 시간과 비용이 수반되므로, 지속적으로 모델을 학습시키기 위한 자동화 방법이 요구된다.
본 발명은 상기 문제점을 해결하기 위해 인터넷 상의 비정형 데이터를 인공지능 기반 자연어 처리 기술을 적용하여 텍스트 데이터를 분석하고, 텍스트 데이터에서 중요 문장으로 판단된 문장에 대해 기존에 분류된 중요 문장과 비교하여 신규 중요 문장으로 판단되면 로봇 프로세스 자동화(RPA)를 이용하여 해당 문장과 연관된 데이터를 수집하여 학습 데이터를 생성하고, 모델을 학습시키는 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법은, 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치에서, 수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제 및 구조화하는 전처리 단계; 상기 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계; 상기 전처리 단계를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계; 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계; 추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계; 및 신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계;를 포함할 수 있다.
또한, 상기 전처리 단계는, 상기 수집된 비정형 데이터에서 텍스트를 추출하는 단계; 상기 텍스트에서 형태소 분석 및 문장을 분리하여 구조화하는 단계; 및 구조화한 상기 텍스트에서 불용어를 제거하는 단계;를 포함할 수 있다.
또한, 상기 문장 분류 단계는, 상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식; 상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및 상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 딥러닝 모델 또는 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 딥러닝 모델을 적용하여 문장을 분류하는 것을 특징으로 한다.
또한, 상기 TF-IDF 산출 단계는, 단어 단위로 토큰화된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스를 생성하는 단계; 및 상기 문서 단어 매트릭스에 각 단어의 역문서 빈도를 계산하여 가중치로 적용하는 단계;를 포함할 수 있다.
또한, 상기 중요 문장 추출 단계는, 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문서를 중요 문장으로 판단하는 것을 특징으로 한다.
또한, 상기 신규 중요 문장 판단 단계는, 상기 중요 문장 추출 단계에서 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하는 것을 특징으로 한다.
또한, 상기 학습 자동화 단계는, 신규 중요 문장으로 판단된 문장에 포함된 대한 키워드, 상기 문장 분류 단계에서 분류된 카테고리 및 수집된 비정형 데이터에 대한 메타 데이터를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하는 단계; 상기 수집 조건을 수집 자동화 프로세스에 적용하고, 데이터 수집을 지시하는 단계; 상기 수집 자동화 프로세스를 통해 데이터를 수집하여 저장하는 단계;
전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 단계; 및 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 단계;를 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치는, 외부 서버로부터 비정형 데이터를 수집하는 데이터 수집부; 수집된 상기 비정형 데이터에 대해 텍스트 추출, 형태소 분석, 문장 분리 및 불용어 제거를 수행하는 전처리부; 문장 단위로 분리된 각각의 문장을 사전 학습된 문장 분류 딥러닝 모델을 통하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류부; 전처리한 상기 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 적용하여 생성된 문서 단어 매트릭스를 통해 중요 문장을 추출하고, 상기 중요 문장이 신규 중요 문장인지를 판단하는 중요 문장 추출부; 및 신규 중요 문장으로 판단된 문장을 학습시키기 위한 데이터 수집, 학습 데이터 생성 및 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 자동화된 프로세스를 적용하여 수행하는 학습 자동화부;를 구비할 수 있다.
또한, 상기 문장 분류 딥러닝 모델은, 상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식; 상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및 상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 모델이거나, 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 모델인 것을 특징으로 한다.
또한, 상기 중요 문장 추출부는, 단어 단위로 토큰화 된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스로 생성하고, 역문서 빈도를 계산하여 가중치로 적용하는 매트릭스 생성부; 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 비교하여 중요 문장 여부를 판단하는 중요 문장 판단부; 및 상기 중요 문장 판단부에 의해 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가하는 신규 문장 판단부;를 포함할 수 있다.
또한, 상기 학습 자동화부는, 상기 신규 중요 문장에 포함된 대한 키워드, 상기 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 카테고리 및 상기 신규 중요 문장이 포함된 비정형 데이터에 대한 메타 정보를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하여 자동화 프로세스에 적용하고, 적어도 하나 이상의 수집 프로세스를 구동하여 상기 수집 조건에 따라 데이터를 수집하는 데이터 수집 자동화부;를 포함할 수 있다.
또한, 상기 학습 자동화부는, 자동화된 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 학습 데이터 생성 자동화부; 및 자동화된 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 모델 학습 자동화부;를 더 포함할 수 있다.
자연어 처리 기술을 적용하여 유사 데이터 추천을 위해 지속적으로 새로운 정보를 자동으로 식별할 수 있고, 식별된 정보에 대한 자동 문장 클러스터링 딥러닝 모델의 학습을 위해 자동으로 학습 데이터를 수집하고, 전처리를 수행하여 학습 데이터로 구축하여 모델 학습을 수행하는 반복적인 프로세스를 로봇 자동화 프로세스(RPA)를 통해 자동화하여 학습 시스템의 효율성을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 전체 관계도이다.
도 2는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 기능에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에 대한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 방법에서 신규 중요 문장에 대한 학습 자동화 단계에 대한 상세 순서도이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로써 이는 발명자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이고, 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 생략하기로 한다.
이하, 도면을 참조로 하여 본 발명에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치 및 방법을 설명한다.
도 1은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치(이하, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치라 함.)의 전체 관계도이다.
도 1을 참조하면, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 적어도 하나 이상의 외부 서버(200)와 네트워크로 연결되어 서로 통신할 수 있다.
본 발명에서 언급하는 네트워크라 함은 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.
본 발명에서 외부 서버(200)는, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)가 비정형 오픈 데이터를 수집하는 대상 서버로, 특정 API나 웹 크롤링 기술을 활용하여 데이터 수집이 가능한 공개된 데이터를 제공하는 서버들을 의미할 수 있다.
외부 서버(200)는 빅데이터 서버, SNS(Social Network Service), 뉴스 사이트, 문서 관리 시스템, 커뮤니티 사이트, 기업 시스템 등 분야에 제한되지 않고 인터넷 상에서 데이터 수집이 가능한 서버들을 포함할 수 있다.
자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는, 인터넷 상의 비정형 오픈 데이터를 수집하여, 텍스트를 분석하여, 중요 문장을 추출하고, 추출된 중요 문장이 새로운 문장, 즉, 새로운 정보인지를 판단하여 새로운 정보인 경우 이에 대한 데이터를 수집하여 자동 문장 클러스터링 딥러닝 모델을 학습시킨다.
여기서, 수집된 비정형 오픈 데이터를 분석하기 위해, 자연어 처리 기술을 적용하여, 단어 빈도 통계 및 역문서 빈도(TF-IDF)를 산출하여 중요 문장에 대한 판단 및 추출을 수행할 수 있다.
또한, 추출된 중요 문장이 신규 중요 문장인지를 판단하기 위해 기존에 등록 관리되는 중요 문장 리스트와 유사도 행렬 비교를 수행할 수 있다.
또한, 신규 중요 문장으로 판단된 문장에 대한 새로운 정보를 학습하기 위해 로봇 프로세스 자동화(RPA, Robot Process Automation)를 이용하여 해당 문장의 키워드, 카테고리 및 비정형 데이터에 대한 메타 정보들을 조합하여 수집 조건을 생성하고, 수집 조건에 해당하는 데이터를 수집하고, 학습 데이터를 생성하여, 자동 문장 클러스터링 딥러닝 모델을 학습을 수행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치(100)의 기능에 대한 블록도이다.
도 2를 참조하면, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 데이터 수집부(110), 전처리부(120), 문장 분류부(130), 중요 문장 추출부(140) 및 학습 자동화부(150)를 구비할 수 있다.
데이터 수집부(110)는 외부 서버(200)로부터 비정형 데이터를 수집하는 기능을 수행한다.
예를 들어, 데이터 수집부(110)는 웹 스크래핑(Web Scraping), 웹 크롤링(Web Crawling), Open API 등을 사용하여 데이터를 수집할 수 있다.
또한, 데이터 수집 시에 로봇 프로세스 자동화(RPA)를 적용하여 크롤링(crawling)을 통해서 비정형 데이터를 실시간 또는 주기적으로 수집할 수 있다.
데이터 수집부(110)는 적어도 하나 이상의 데이터 수집을 위한 프로세스 또는 스레드(thread)를 생성하여 관리할 수 있고, 각각의 데이터 수집 프로세스/스레드(thread)는 사전에 설정되거나 입력값으로 전달 받은 수집 조건에 따라 비정형 데이터를 수집한다.
수집 조건은 분야(도메인), 세부 카테고리, 수집 대상 사이트, 수집 파일 형식, 수집 제한 대상, 수집 주기, 수집 시점, 수집 데이터의 저장 방식 등을 포함할 수 있다.
전처리부(120)는 수집된 비정형 데이터에 대해 텍스트 추출, 문장 분리, 형태소 분석, 토큰화 및 불용어 제거를 수행할 수 있다.
수집된 비정형 데이터는 텍스트, 이미지, 표, 소스 코드(html, javascript, xml) 등이 포함될 수 있으므로, 먼저, 비정형 데이터로부터 분석 대상인 텍스트를 추출하고, 추출한 텍스트를 정제하고 구조화하는 과정을 수행한다.
텍스트 정제 및 구조화를 위해 형태소 분석, 문장 분리 및 불용어 제거를 수행할 수 있다.
먼저, 추출된 텍스트에 대해 형태소 분석을 수행할 수 있다.
여기서, 형태소 분석을 위해 Mecab, Kkma, Komoran, Okt 등의 형태소 분석기를 사용할 수 있다.
또한, 하나 이상의 형태소를 사용하여 분리하고, 각 형태소의 태그명을 통합하는 과정을 수행할 수 있다.
이때, 형태소 분석을 통해 토큰화를 수행할 수 있다. 본 발명에서 토큰화 단위는 의미를 포함하는 단어 단위가 바람직할 것이다.
형태소 분석 후에는 각 문장에 대한 형태소 태그를 부착할 수 있다. 이는 형태소 태그를 확인하여, 특정 형태소에 대한 제거, 토큰화를 하기 위함이다.
한편, 입력된 텍스트는 하나 이상의 문장으로 구성되거나, 하나의 문장으로 구성되어 있으나, 접속사로 연결된 문장을 포함할 수 있다. 따라서, 입력된 텍스트에 대해 문장으로 분리하고, 입력된 텍스트에 대해 분리된 하나 이상의 문장을 묶어 구조화하여 관리할 수 있다.
또한, 형태소 태그를 확인하여 불용 형태소를 제거할 수 있다.
불용 형태소는 문맥의 의도 분석에 불필요한 띄어쓰기, 문장 부호, 조사, 접속사, 어미 등을 포함할 수 있고, 명사와 형용사 중 불필요한 단어들을 정의하여 제거 대상으로 포함할 수 있다.
한편, 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어 주는 정규화를 수행할 수 있다.
텍스트의 정규화는 대, 소문자 통합, 한자를 한글로 변환 등을 포함할 수 있다.
문장 분류부(130)는 문장 단위로 분리된 텍스트를 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하여 그 결과를 저장한다.
여기서 문장 분류 딥러닝 모델은 상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식 모델, 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석 모델, 문장의 의도를 분석하는 의도 분석 모델을 포함할 수 있고, 상기 언급된 모델들을 적어도 하나 이상 결합한 복수개의 앙상블 모델일 수 있다.
사전 학습된 분류 딥러닝 모델은 BERT(Bidirectional Encoder Representations from Transformers), ELMo(Embeddings from Language Models), ULMFiT(Universal Language Model Fine-tuning) 일 수 있다.
각각의 문장 분류 모델 또는 앙상블 모델로부터 분류된 카테고리는 해당 문장의 키워드, 유사도 비교, 중요 문장 판단 및 관련 데이터 수집 조건 등에 기초 데이터로 적용될 수 있다.
중요 문장 추출부(140)는 전처리한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 적용하여 생성된 문서 단어 매트릭스를 통해 중요 문장을 추출하고, 중요 문장이 신규 중요 문장인지를 판단한다.
중요 문장 추출부(140)는 매트릭스 생성부(141), 중요 문장 판단부(142) 및 신규 문장 판단부(143)를 포함할 수 있다.
매트릭스 생성부(141)는 단어 단위로 토큰화 된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스로 생성하고, 역문서 빈도를 계산하여 가중치로 적용한다.
보다 구체적으로 비정형 데이터로부터 추출된 텍스트는 적어도 하나 이상의 문장으로 구성될 수 있고, 각 문장은 단어 단위로 토큰화 되어 구조화되어 있다.
매트릭스 생성부(141)는 문장과 단어로 구조화된 데이터에 대해 단어의 등장 빈도를 수치화하여 매트릭스 형태로 생성하고, 단어들 마다 중요한 정도를 가중치로 반영하기 위해 역문서 빈도를 적용할 수 있다.
이렇게 생성된 문서 단어 매트릭스는 통해 문장의 중요도를 판단하는 기준으로 사용된다.
또한, 여러 개의 문장 중에 특정 단어가 특정 문장 내에서 얼마나 중요한 것인지를 나타내거나, 문장 내에서의 키워드 추출, 문장 간의 유사도를 구하는 등의 용도로 사용할 수 있다.
중요 문장 판단부(142)는 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 비교하여 중요 문장 여부를 판단한다.
보다 구체적으로, 문서 단어 매트릭스의 수치값, 즉, 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문장을 중요 문장으로 판단할 수 있다.
이때, 중요도 기준값은 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)의 설정 인터페이스를 통해 설정되거나, 기존에 중요 문장으로 판단되어 관리되는 중요 문장 리스트에 포함된 문장들의 중요도 평균값으로 자동 설정될 수 있다.
신규 문장 판단부(143)는 중요 문장 판단부(142)에 의해 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 상기 중요 문장으로 판단된 문장을 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가한다.
여기서, 신규 중요 문장은 새로운 정보를 의미할 수 있으며, 새로운 대상 또는 기존에 관리되는 대상에 대해 새로운 이슈, 주제, 긍정/부정 관심도 등을 의미하는 정보로 판단될 수 있다.
학습 자동화부(150)는 신규 중요 문장으로 판단된 문장을 학습시키기 위한 데이터 수집, 학습 데이터 생성 및 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 자동화된 프로세스를 적용하여 수행한다.
이때, 파이프라인 자동화(Pipeline Automation)를 통해 데이터 수집부터 학습 데이터 생성 및 모델 학습까지 데이터 처리 프로세스를 적용하여 수행할 수 있다.
학습 자동화부(150)는 데이터 수집 자동화부(151), 학습 데이터 생성 자동화부(152) 및 모델 학습부(153)를 포함할 수 있다.
데이터 수집 자동화부(151)는 신규 중요 문장에 포함된 대한 키워드, 상기 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 카테고리 및 신규 중요 문장이 포함된 비정형 데이터에 대한 메타 정보를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하여 자동화 프로세스에 적용하고, 적어도 하나 이상의 수집 프로세스를 구동하여 상기 수집 조건에 따라 데이터를 수집한다.
보다 구체적으로, 데이터 수집 자동화부(151)는 신규 중요 문장에 관련된 데이터를 자동으로 수집하기 위해 로봇 프로세스 자동화(RPA)를 적용하여 데이터를 수집할 수 있다.
여기서, 데이터 수집의 자동화를 위해 수집할 데이터의 대상 사이트, 카테고리, 키워드를 조합하여 수집 조건을 생성한다.
수집 조건은 사전에 정해진 패턴, 정규식 등으로 표현될 수 있다.
카테고리는 신규 중요 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 개체명, 의도, 긍정/부정의 감성, 의도의 분류 결과일 수 있다.
키워드는 중요도가 가장 높은 하나의 단어 또는 중요도가 기준값 이상인 복수개의 단어일 수 있고, 여기서, 중요도가 높은 단어는 문서 단어 매트릭스에서 단어 빈도 및 역문서 빈도값이 클수록 중요도가 높은 단어를 의미할 수 있다.
또한, 데이터 수집 자동화부(151)는 적어도 하나 이상의 수집 자동화 프로세스를 생성하고, 각 수집 자동화 프로세스로 수집 조건을 전달하여 데이터 수집을 지시할 수 있다.
이때, 수집 자동화 프로세스는 데이터 수집부(110)를 통해 데이터 수집 기능을 수행할 수 있고, 수집 자동화 프로세스는 병렬적으로 수행될 수 있다.
데이터 수집부(110)의 기능은 앞에서 설명하였으므로, 여기에서는 생략한다.
수집 자동화 프로세스는 설정된 수집 대상 사이트, 수집 파일 형식, 수집 제한 대상, 수집 주기, 수집 시간, 수집 데이터의 저장 방식 등을 확인하여 데이터 수집을 수행한다.
수집 자동화 프로세스는 수집 대상 사이트, 카테고리 별로 데이터를 분리하여 저장할 수 있다. 이때, 저장 형식은 파일 형태로 스토리지에 저장하거나 데이터베이스에 저장될 수 있다.
또한, 상기 수집 조건은 상기 데이터에 대한 메타 데이터로 관리되어 데이터 분석 시 함께 사용될 수 있다.
학습 데이터 생성 자동화부(152)는 로봇 프로세스 자동화(RPA)를 적용한 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 자동으로 학습 데이터를 생성한다.
보다 구체적으로, 학습 데이터 생성 자동화부(152)는 적어도 하나 이상의 전처리 자동화 프로세스를 생성하고, 데이터 전처리 및 가공을 지시할 수 있다.
이때, 전처리 자동화 프로세스는 전처리부(120)를 통해 전처리 작업을 수행하고, 전처리 자동화 프로세스는 병렬적으로 수행될 수 있다.
전처리부(120)의 기능은 앞에서 설명하였으므로, 여기에서는 생략한다.
또한, 학습 데이터 생성 자동화부(152)는 수집된 데이터 양을 확인하여, 데이터 전처리에 소요되는 시간을 계산한 후, 필요한 전처리 자동화 프로세스의 개수를 산정하고, 해당 프로세스를 생성하여 병렬적으로 전처리를 수행할 수 있다.
또한, 수집 대상 도메인 및 사이트에 따라 전처리 방식은 다르게 설정되어 적용될 수 있다.
예를 들어, 수집 대상이 뉴스 사이트인 경우, 카테고리(정치, 경제, 사회, 연예, 스포츠, 국외 등), 제목, 본문으로 나누어 저장될 수 있고, SNS(Social Network Service) 인 경우, 제목, 본문, 댓글, 태그, 사용자 프로필 등으로 나누어 저장될 수 있다.
모델 학습부(153)는 자동화된 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행한다.
이때, 학습된 자동 문장 클러스터링 딥러닝 모델은 성능 평가를 위해 별도로 저장되어 관리될 수 있다.
학습 데이터는 여러 개의 훈련 데이터 셋으로 나뉘어 구성될 수 있고, 모델 학습 시 일정 개수의 데이터 셋을 학습시킨 후, 성능을 평가할 수 있다.
이때, 군집화 성능 평가 및 차원 축소 성능 평가를 통해 모델을 평가할 수 있다.
도 3은 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치의 하드웨어 구조를 나타낸 도면이다.
도 3을 참조하면, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.
사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다.
네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)를 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록 매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록 매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송 매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
도 4는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에 대한 순서도이다.
이하, 도 4를 참조하여 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에 대해 설명한다.
본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법은, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)에서 수행된다.
먼저, 도 4에서는 도시하지 않았으나, 전처리 단계(S410) 이전에 외부 서버(200)로부터 비정형 데이터를 수집하여 저장하는 단계를 수행할 수 있고, 데이터 수집부(110)에 의해 웹 스크래핑(Web Scraping), 웹 크롤링(Web Crawling), Open API 등을 사용하여 실시간 또는 주기적으로 수행될 수 있다.
데이터 수집 시, 대상 사이트, 카테고리, 주제, 수집 일시, 문서/글 작성자, 문서/글 작성일, 문서/글 형식 등의 메타 정보를 함께 수집하여, 데이터에 대한 메타 데이터로 저장할 수 있다.
이후, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제하는 전처리 단계를 수행한다. (S410)
여기서, 전처리 단계(S410)에서는 수집된 비정형 데이터에서 텍스트를 추출하고, 정제 및 구조화할 수 있다.
수집된 비정형 데이터는 텍스트, 이미지, 표, 소스 코드(html, javascript, xml) 등이 포함될 수 있으므로, 먼저, 비정형 데이터로부터 분석 대상인 텍스트를 추출하고, 형태소 분석 및 문장을 분리하여 구조화한 후, 불용어(불용 형태소)를 제거할 수 있다.
이후, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계를 수행한다. (S420)
여기서 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식, 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석 및 상기 문장의 의도를 분석하는 의도 분석을 개별적으로 수행하는 복수개의 딥러닝 모델 또는 개체명 인식, 감성 분석, 의도 분석을 서로 결합하여 수행하는 복수개의 딥러닝 모델을 적용하여 문장을 분류할 수 있다.
즉, 문장 분류 딥러닝 모델은 개체명 인식 모델, 감성 분석 모델, 의도 분석 모델을 포함하는 복수개의 딥러닝 모델이거나, 상기 언급된 모델들을 적어도 하나 이상 결합한 복수개의 앙상블 모델일 수 있다.
이렇게 문장 분류 단계를 통해 분류된 카테고리는 이후, 해당 문장의 키워드, 유사도 비교, 중요 문장 판단 및 관련 데이터 수집 조건 등에 기초 데이터로 사용될 수 있다.
다음으로, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 전처리 단계(S410)를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계를 수행한다. (S430)
TF-IDF 산출 단계(S430)에서는 텍스트 또는 문장 내의 중요한 단어 및 중요 문장을 추출하기 위해 각 단어의 중요도를 출현 빈도로 산출하고, 역문서 빈도를 반영한 가중치를 적용하여 수치화 한다.
TF-IDF 산출 단계(S430)는 먼저, 단어 단위로 토큰화된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스를 생성하고, 상기 문서 단어 매트릭스에 각 단어의 역문서 빈도를 계산하여 가중치로 적용하여 수치화할 수 있다.
이후, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값(TF_IDF)을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계를 수행한다. (S440)
중요 문장 추출은 문서 단어 매트릭스의 수치값, 즉, 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문장을 중요 문장으로 판단할 수 있다.
다음으로, 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치(100)는 추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계를 수행한다. (S450)
유사도 행렬 비교는 중요 문장으로 추출된 문장과 중요 문장 리스트 두 문장 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 중요 문장으로 추출된 문장을 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가한다.
S450단계에서 추출된 중요 문장이 신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계를 수행한다. (S460)
즉, 신규 중요 문장으로 판단되면, 해당 신규 중요 문장에 대한 모델 학습이 필요한 것으로 판단하고, 상기 신규 중요 문장에 대한 데이터를 수집하여 자동 문장 클러스터링 딥러닝 모델을 학습시키기 위한 프로세스를 수행하게 된다.
이때, 데이터 수집 및 모델 학습은 로봇 자동화 프로세스(RPA)를 통해 수행된다.
도 5는 본 발명의 일 실시예에 따른 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법에서 신규 중요 문장에 대한 학습 자동화 단계에 대한 상세 순서도이다.
도 5를 참조하여 학습 자동화 단계(S460)에 대해 자세히 설명한다.
신규 중요 문장으로 판단되면, 해당 문장에 포함된 대한 키워드, 상기 문장 분류 단계에서 분류된 카테고리 및 수집된 비정형 데이터에 대한 메타 데이터를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성한다. (S461)
이때, 수집 조건은 사전에 정해진 패턴, 정규식 등으로 표현될 수 있다.
이렇게 생성된 수집 조건을 수집 자동화 프로세스에 적용하고, 데이터 수집을 지시한다. (S462)
수집 자동화 프로세스는 수집 대상 사이트, 카테고리 별로 적어도 하나 이상이 실행되어 병렬적으로 수행될 수 있고, 수집 조건도 상이하게 적용될 수 있다.
수집 자동화 프로세스는 설정된 수집 조건에 따라 데이터를 수집하여 저장한다. (S463)
이후, 전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성한다. (S464)
이때, 적어도 하나 이상의 전처리 자동화 프로세스가 실행되어 전처리 작업을 수행할 수 있고, 실행되는 프로세스의 개수는 수집된 데이터 양과 데이터 전처리에 소요되는 시간에 따라 결정될 수 있다.
또한, 데이터 전처리는 수집 대상 사이트에 따라 전처리 방식이 다르게 설정되어 적용될 수 있다.
데이터 전처리가 완료되어 학습 데이터가 생성되면, 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행한다. (S465)
이때, 학습 데이터의 양에 따라 여러 개의 훈련 데이터 셋으로 나누어 모델을 학습하고, 성능을 평가하게 된다.
상기 S461 내지 S465를 포함하는 학습 자동화 단계(S460)는 스크립트화 된 자동화 프로세스를 통해 파이프라인 자동화(Pipeline Automation)를 적용하여 수행될 수 있다.
상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.
100: 자동 문장 클러스터링 딥러닝 모델 RPA 학습 장치
110: 데이터 수집부 120: 전처리부
130: 문장 분류부
140: 중요 문장 추출부
141: 매트릭스 생성부 142: 중요 문장 판단부
143: 신규 문장 판단부
150: 학습 자동화부
151: 데이터 수집 자동화부
152: 학습 데이터 생성 자동화부
153: 모델 학습부
200: 외부 서버

Claims (12)

  1. 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치에서, 외부 서버로부터 비정형 데이터를 수집하는 단계;
    수집된 비정형 데이터에서 텍스트를 추출하고, 추출한 텍스트를 정제 및 구조화하는 전처리 단계;
    상기 전처리 단계에서 분리된 문장을 사전 학습된 문장 분류 딥러닝 모델을 적용하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류 단계;
    상기 전처리 단계를 수행한 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 반영하여 문서 단어 매트릭스로 저장하는 TF-IDF 산출 단계;
    상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 확인하여 중요 문장을 추출하는 중요 문장 추출 단계;
    추출된 중요 문장을 유사도 행렬 비교를 통해 중요 문장 리스트와 비교하여 신규 중요 문장 여부를 판단하는 신규 중요 문장 판단 단계; 및
    신규 중요 문장으로 판단되면, 자동화된 프로세스를 적용하여 신규 중요 문장에 대한 학습 데이터 수집, 생성 및 자동 문장 클러스터링 딥러닝 모델 학습을 수행하는 학습 자동화 단계;를 포함하고,
    상기 신규 중요 문장 판단 단계는,
    상기 중요 문장 추출 단계에서 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하는 것을 특징으로 하며,
    상기 학습 자동화 단계는,
    신규 중요 문장으로 판단된 문장에 포함된 대한 키워드, 상기 문장 분류 단계에서 분류된 카테고리 및 수집된 비정형 데이터에 대한 메타 데이터를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하는 단계;
    적어도 하나 이상의 수집 자동화 프로세스를 생성하고, 각 수집 자동화 프로세스로 수집 조건을 전달하여 데이터 수집을 지시하는 단계;
    상기 수집 자동화 프로세스를 통해 데이터를 수집하여 저장하는 단계;
    적어도 하나 이상의 전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 단계; 및
    학습 자동화 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 단계;를 포함하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
  2. 제 1항에 있어서,
    상기 전처리 단계는,
    상기 수집된 비정형 데이터에서 텍스트를 추출하는 단계;
    상기 텍스트에서 형태소 분석 및 문장을 분리하여 구조화하는 단계; 및
    구조화한 상기 텍스트에서 불용어를 제거하는 단계;를 포함하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
  3. 제 1항에 있어서,
    상기 문장 분류 단계는,
    상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식;
    상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및
    상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 딥러닝 모델 또는 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 딥러닝 모델을 적용하여 문장을 분류하는 것을 특징으로 하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
  4. 제 1항에 있어서,
    상기 TF-IDF 산출 단계는,
    단어 단위로 토큰화된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스를 생성하는 단계; 및
    상기 문서 단어 매트릭스에 각 단어의 역문서 빈도를 계산하여 가중치로 적용하는 단계;를 포함하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
  5. 제 1항에 있어서,
    상기 중요 문장 추출 단계는,
    상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값이 설정된 중요도 기준값 이상인 경우, 해당 문서를 중요 문장으로 판단하는 것을 특징으로 하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 방법.
  6. 삭제
  7. 삭제
  8. 외부 서버로부터 비정형 데이터를 수집하는 데이터 수집부;
    수집된 상기 비정형 데이터에 대해 텍스트 추출, 형태소 분석, 문장 분리 및 불용어 제거를 수행하는 전처리부;
    문장 단위로 분리된 각각의 문장을 사전 학습된 문장 분류 딥러닝 모델을 통하여 적어도 하나 이상의 카테고리로 분류하는 문장 분류부;
    전처리한 상기 텍스트에 대해 단어 빈도 통계를 생성하고, 역문서 빈도를 적용하여 생성된 문서 단어 매트릭스를 통해 중요 문장을 추출하고, 상기 중요 문장이 신규 중요 문장인지를 판단하는 중요 문장 추출부; 및
    신규 중요 문장으로 판단된 문장을 학습시키기 위한 데이터 수집, 학습 데이터 생성 및 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 자동화된 프로세스를 적용하여 수행하는 학습 자동화부;를 구비하고,
    상기 중요 문장 추출부는,
    상기 중요 문장 판단부에 의해 중요 문장으로 판단된 문장과 기존에 등록된 중요 문장 리스트 간의 코사인 유사도를 비교하여, 상기 유사도가 사전에 설정된 임계치 이하인 경우, 신규 중요 문장으로 판단하여 상기 중요 문장 리스트에 추가하는 신규 문장 판단부;를 포함하고,
    상기 학습 자동화부는,
    상기 신규 중요 문장에 포함된 대한 키워드, 상기 문장에 대해 사전 학습된 문장 분류 딥러닝 모델을 적용하여 분류된 카테고리 및 상기 신규 중요 문장이 포함된 비정형 데이터에 대한 메타 정보를 사용하여 학습 데이터 수집을 위한 수집 조건을 생성하고, 적어도 하나 이상의 수집 자동화 프로세스에 적용하여 상기 수집 조건에 따라 데이터를 수집하는 데이터 수집 자동화부;
    적어도 하나 이상의 전처리 자동화 프로세스를 통해 수집된 데이터를 가공하고, 전처리하여 학습 데이터를 생성하는 학습 데이터 생성 자동화부; 및
    학습 자동화 프로세스를 통해 상기 학습 데이터를 적용하여 자동 문장 클러스터링 딥러닝 모델에 대한 학습을 수행하는 모델 학습 자동화부;를 포함하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치.
  9. 제 8항에 있어서,
    상기 문장 분류 딥러닝 모델은,
    상기 문장에서 인물, 공간 및 시간을 포함한 특정한 개체명을 인식하는 개체명 인식;
    상기 문장의 긍정적 또는 부정적인 감성을 분석하는 감성 분석; 및
    상기 문장의 의도를 분석하는 의도 분석;을 개별적으로 수행하는 복수개의 모델이거나, 상기 개체명 인식, 상기 감성 분석, 상기 의도 분석을 서로 결합하여 수행하는 복수개의 모델인 것을 특징으로 하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치.
  10. 제 8항에 있어서,
    상기 중요 문장 추출부는,
    단어 단위로 토큰화 된 텍스트에 대해 단어 빈도 통계를 생성하여 문서 단어 매트릭스로 생성하고, 역문서 빈도를 계산하여 가중치로 적용하는 매트릭스 생성부; 및
    상기 문서 단어 매트릭스의 단어 빈도 및 역문서 빈도값을 비교하여 중요 문장 여부를 판단하는 중요 문장 판단부;를 더 포함하는,
    자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 RPA 학습 장치.
  11. 삭제
  12. 삭제
KR1020230048429A 2023-04-12 2023-04-12 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 KR102580512B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230048429A KR102580512B1 (ko) 2023-04-12 2023-04-12 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230048429A KR102580512B1 (ko) 2023-04-12 2023-04-12 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102580512B1 true KR102580512B1 (ko) 2023-09-20

Family

ID=88191451

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230048429A KR102580512B1 (ko) 2023-04-12 2023-04-12 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102580512B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20180117458A (ko) * 2017-04-19 2018-10-29 아시아나아이디티 주식회사 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
KR20220141000A (ko) * 2021-04-12 2022-10-19 경기대학교 산학협력단 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법
KR20230046494A (ko) * 2021-09-30 2023-04-06 (주)모니터랩 머신러닝 기반 url 카테고리 자동 분류 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20180117458A (ko) * 2017-04-19 2018-10-29 아시아나아이디티 주식회사 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
KR20220141000A (ko) * 2021-04-12 2022-10-19 경기대학교 산학협력단 비정형 데이터 기반 교통 위험 탐지 시스템 및 방법
KR20230046494A (ko) * 2021-09-30 2023-04-06 (주)모니터랩 머신러닝 기반 url 카테고리 자동 분류 방법 및 시스템

Similar Documents

Publication Publication Date Title
Salloum et al. Mining social media text: extracting knowledge from Facebook
US20180196881A1 (en) Domain review system for identifying entity relationships and corresponding insights
CN108563620A (zh) 文本自动写作方法和系统
US20150019571A1 (en) Method for population of object property assertions
KR20170004165A (ko) 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN107544988B (zh) 一种获取舆情数据的方法和装置
US20150317390A1 (en) Computer-implemented systems and methods for taxonomy development
US20160299891A1 (en) Matching of an input document to documents in a document collection
Binkley et al. The need for software specific natural language techniques
Sandhu et al. Enhanced Text Mining Approach for Better Ranking System of Customer Reviews
KR20190048781A (ko) 온라인 의견 정보 수집 및 분석 시스템
WO2022178153A1 (en) Framework for early warning of domain-specific events
CN117009524B (zh) 一种基于舆情情感分析的互联网大数据分析方法及系统
Atoum et al. A framework to predict software “quality in use” from software reviews
Reddy et al. Classification of user’s review using modified logistic regression technique
Al-Ayyoub et al. Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study.
Tan et al. Constructing and Interpreting Causal Knowledge Graphs from News
KR102580512B1 (ko) 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법
Gupta et al. Tools of opinion mining
Voronov et al. Forecasting popularity of news article by title analyzing with BN-LSTM network
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
Deshpande et al. BI and sentiment analysis
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
Alagarsamy et al. A fuzzy content recommendation system using similarity analysis, content ranking and clustering
US20160350410A1 (en) Context-dependent evidence detection

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant