KR102570178B1 - Method for generating and utilizing a training dataset for deep learning based generative ai system using super-large ai - Google Patents

Method for generating and utilizing a training dataset for deep learning based generative ai system using super-large ai Download PDF

Info

Publication number
KR102570178B1
KR102570178B1 KR1020230049811A KR20230049811A KR102570178B1 KR 102570178 B1 KR102570178 B1 KR 102570178B1 KR 1020230049811 A KR1020230049811 A KR 1020230049811A KR 20230049811 A KR20230049811 A KR 20230049811A KR 102570178 B1 KR102570178 B1 KR 102570178B1
Authority
KR
South Korea
Prior art keywords
learning
deep learning
query
generating
based generative
Prior art date
Application number
KR1020230049811A
Other languages
Korean (ko)
Inventor
고형석
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230049811A priority Critical patent/KR102570178B1/en
Application granted granted Critical
Publication of KR102570178B1 publication Critical patent/KR102570178B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks

Abstract

본 발명은 초거대 AI를 활용한 딥러닝 기반 생성형 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법에 관한 것으로, 독립망으로 구축되어 있는 초거대 AI를 이용하는 사용자의 질의에 따라 사전에 학습되지 않은 최신정보를 외부의 연계 서버를 통해 검색하고, 상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터로 저장하고, 상기 전처리를 통해 정제한 것 중에서 내용을 Few-Shot Dataset으로 제공해서 생성한 프롬프트를 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성 및 제공할 수 있도록 하는 딥러닝 기반 생성형 AI 시스템의 활용방법에 관한 것이다. 또한, 본 발명은 상기 저장한 학습데이터를 가능한 짧은 주기로 딥러닝 기반 생성형 AI 모델을 파인 튜닝할 수 있도록 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법에 관한 것이다.The present invention relates to a method for generating and utilizing a learning dataset of a deep learning-based generative AI system using super-giant AI, which is not pre-learned according to a user's query using a super-giant AI built as an independent network. The latest information that has not been found is searched through an external linked server, and the latest information retrieved is pre-processed into query, title, summary information, content, and English, and stored as learning data. It is about how to utilize a deep learning-based generative AI system that generates and provides reports by inputting prompts generated by providing them as a shot dataset to a deep learning-based generative AI model. In addition, the present invention relates to a method for generating and using a learning dataset of a deep learning-based generative AI system that enables fine-tuning of a deep learning-based generative AI model in a short period of time using the stored learning data.

Description

초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법{METHOD FOR GENERATING AND UTILIZING A TRAINING DATASET FOR DEEP LEARNING BASED GENERATIVE AI SYSTEM USING SUPER-LARGE AI}How to create and utilize training datasets for deep learning-based generative AI systems using ultra-large AI

본 발명은 초거대 AI를 활용한 딥러닝 기반 생성형 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법에 관한 것으로, 더욱 상세하게는 독립망으로 구축되어 있는 초거대 AI를 이용하는 사용자의 질의에 따라 사전에 학습되지 않은 최신정보를 외부의 연계 서버를 통해 검색하고, 상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터로 저장하고, 상기 전처리를 통해 정제한 것 중에서 내용을 Few-Shot Dataset으로 제공해서 생성한 프롬프트를 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성 및 제공할 수 있도록 하는 딥러닝 기반 생성형 AI 시스템의 활용방법에 관한 것이다. 또한, 본 발명은 상기 저장한 학습데이터를 가능한 짧은 주기로 딥러닝 기반 생성형 AI 모델을 파인 튜닝할 수 있도록 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법에 관한 것이다.The present invention relates to a method for generating and utilizing a learning dataset of a deep learning-based generative AI system using super-giant AI, and more specifically, according to a user's query using a super-giant AI built as an independent network. The latest information that has not been learned in advance is searched through an external linked server, the searched latest information is pre-processed into query, title, summary information, content and English, stored as learning data, and refined through the pre-processing. It is about a method of using a deep learning-based generative AI system that generates and provides a report by inputting the prompt generated by providing the contents as a Few-Shot Dataset to the deep learning-based generative AI model. In addition, the present invention relates to a method for generating and using a learning dataset of a deep learning-based generative AI system that enables fine-tuning of a deep learning-based generative AI model in a short period of time using the stored learning data.

LLM(Large Language Model) 등의 초거대 AI는 매우 많은 양의 텍스트 데이터를 사용하여 학습된 인공지능 모델로서, 자연어 처리 작업을 수행하며, 다양한 언어 모델링 작업에 사용될 수 있다.Super-massive AI such as LLM (Large Language Model) is an artificial intelligence model learned using a very large amount of text data, and can be used for natural language processing tasks and various language modeling tasks.

대부분의 LLM은 인터넷, 책, 신문기사, 블로그 등의 다양한 웹 문서 및 텍스트 데이터가 포함된 수백억 개 이상의 문장으로 구성된 데이터 셋으로 학습될 수 있으며, 자연어 이해, 문장 생성, 기계 번역, 챗봇, 자동 요약 등의 다양한 응용 프로그램에서 사용될 수 있다.Most LLMs can be trained with data sets consisting of more than tens of billions of sentences, including various web documents and text data from the Internet, books, newspaper articles, and blogs, and can be trained with natural language understanding, sentence generation, machine translation, chatbots, and automatic summarization. It can be used in various applications such as

또한, LLM을 기반으로 하는 딥러닝 모델은 인간이 사용하는 언어를 학습하고, 그 언어로 다양한 작업을 수행하는 인공지능 기술이다. 예를 들어, 자연어 이해를 통해 사람이 작성한 문장을 이해하고, 이를 바탕으로 질문에 답변하는 작업을 수행하는 것이 대표적이며, 특히 인간과 대화하는 인공지능인 챗봇과 같은 분야에서 큰 관심을 받고 있다.In addition, the deep learning model based on LLM is an artificial intelligence technology that learns human language and performs various tasks with that language. For example, it is typical to understand sentences written by people through natural language understanding and to answer questions based on this, and in particular, chatbots, artificial intelligence that communicates with humans, are receiving great attention.

그러나, LLM을 기반으로 하는 딥러닝 모델은 대규모의 데이터 셋이 필요하기 때문에, 학습데이터가 적을 경우 학습 데이터에만 과적합(overfitting)되고 일반화 능력이 부족하여 성능이 저하될 수 있으며, 제한된 범위에서 수집되거나 특정 집단에 대한 데이터만 포함되는 경우 편향된 데이터 학습(data bias)으로 인해 일반화 능력이 부족해지는 문제점이 발생할 수 있다.However, since deep learning models based on LLM require large-scale data sets, if the training data is small, performance may deteriorate due to overfitting only to the training data and lack of generalization ability. When data for a specific group is included, or when only data for a specific group is included, a problem of lack of generalization ability may occur due to biased data learning (data bias).

그러므로 데이터의 다양성을 보장하고, 과적합을 방지하며, 모델 성능을 개선하기 위한 기술을 사용하는 것이 매우 중요하다.Therefore, it is very important to use techniques to ensure data diversity, avoid overfitting, and improve model performance.

따라서 본 발명에서는 사용자의 질의에 따라 외부의 연계 서버를 통해 검색한 최신정보를 토대로 딥러닝 기반 생성형 AI 모델을 재학습하고, 상기 최신정보를 참조하여 사용자의 질의를 구체화한 프롬프트를 상기 재학습한 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성할 수 있는 방안을 제시하고자 한다.Therefore, in the present invention, a deep learning-based generative AI model is re-learned based on the latest information retrieved through an external linked server according to a user's query, and the prompt embodying the user's query is re-learned by referring to the latest information. We would like to suggest a way to generate a report by inputting it into a deep learning-based generative AI model.

즉, 기존에 학습되어 있는 적은 수의 학습데이터가 아닌, 사용자가 입력한 질의에 따라 최신 정보로 재학습된 딥러닝 기반 생성형 AI 모델을 통해서 사용자가 원하는 보고서를 생성할 수 있는 것이다.In other words, the report desired by the user can be generated through a deep learning-based generative AI model retrained with the latest information according to the query entered by the user, rather than a small number of previously learned learning data.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 초거대 AI를 활용한 딥러닝 기반 생성형 AI 모델을 통해 사용자의 질의(query)에 따른 보고서를 생성하여 제공할 수 있는 방법 및 장치를 제공하는 것을 목적으로 한다.The present invention was created to solve the above problems, and provides a method and apparatus capable of generating and providing a report according to a user's query through a deep learning-based generative AI model using super-large AI. intended to provide

또한, 본 발명은 사용자의 질의에 따라 사전에 학습되지 않은 최신정보를 외부의 연계 서버를 통해 검색하여 수집하고, 상기 수집한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터로 저장할 수 있는 방법 및 장치를 제공하는 것을 다른 목적으로 한다.In addition, the present invention retrieves and collects the latest information that has not been learned in advance according to a user's query through an external linkage server, and preprocesses the collected latest information into a query, title, summary information, content, and English to obtain learning data. It is another object to provide a method and apparatus capable of storing as.

또한, 본 발명은 외부의 연계 서버를 통해 검색하여 수집한 최신정보를 전처리하여 정제한 것 중에서 내용을 퓨 샷 데이터셋(Few-Shot Dataset)으로 제공해서 프롬프트를 생성하고, 상기 생성한 프롬프트를 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성 및 제공할 수 있는 방법 및 장치를 제공하는 것을 다른 목적으로 한다.In addition, the present invention creates a prompt by providing the contents as a Few-Shot Dataset among the preprocessed and refined latest information collected by searching through an external linked server, and generates a prompt by deep Another object is to provide a method and device capable of generating and providing a report by inputting into a learning-based generative AI model.

또한, 본 발명은 상기 전처리한 학습데이터를 가능한 짧은 주기로 딥러닝 기반 생성형 AI 모델을 파인 튜닝할 수 있는 방법 및 장치를 제공하는 것을 다른 목적으로 한다.In addition, another object of the present invention is to provide a method and apparatus capable of fine-tuning a deep learning-based generative AI model with the shortest possible cycle of the preprocessed learning data.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problems described above, and other technical problems may exist.

본 발명의 일 실시예에 따른 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법은, 딥러닝 기반 생성형 AI 스템의 학습 데이터셋 생성 및 활용장치에서, 사용자 단말로부터 쿼리를 입력받는 쿼리 입력 단계; 상기 입력받은 쿼리에 대한 최신정보를 외부 연계 서버를 통해 검색하는 검색 단계; 상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터를 생성하는 전처리 및 학습데이터 생성 단계; 및 상기 생성한 학습데이터를 토대로 딥러닝 기반 생성형 AI 모델을 재학습하는 재학습 단계;를 포함하며, 상기 딥러닝 기반 생성형 AI 모델을 통해서 사용자가 입력한 쿼리에 따라 검색한 최신정보가 반영된 보고서를 생성하는 것을 특징으로 한다.A method for generating and utilizing a learning dataset of a deep learning-based generative AI system according to an embodiment of the present invention is a query input from a user terminal in an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system. input step; a search step of searching for the latest information on the inputted query through an external connection server; A preprocessing and learning data generation step of generating learning data by preprocessing the searched latest information into a query, title, summary information, content, and English; And a re-learning step of re-learning the deep learning-based generative AI model based on the generated learning data; including, the latest information searched according to the query input by the user through the deep learning-based generative AI model is reflected. Characterized in generating a report.

또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법은, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치에서, 상기 전처리를 통해 정제한 항목 중 내용을 퓨 샷 데이터셋(Few-Shot Dataset)으로 제공해서, 상기 쿼리를 구체화한 프롬프트를 생성하는 프롬프트 생성 단계;를 더 포함하는 것을 특징으로 한다.In addition, in the deep learning-based generative AI system learning dataset generation and utilization method, in the deep learning-based generative AI system learning dataset generation and utilization device, the content among the items refined through the preprocessing is a pew shot. It is characterized in that it further comprises; a prompt generating step of generating a prompt materializing the query by providing it as a dataset (Few-Shot Dataset).

또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법은, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치에서, 상기 생성한 프롬프트를 상기 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출하는 보고서 추출 단계; 및 상기 추출한 보고서를 상기 쿼리를 제공한 상기 사용자 단말로 제공하는 보고서 제공 단계;를 더 포함하며, 상기 딥러닝 기반 생성형 AI 모델은, 초거대 AI를 기반으로 하는 오픈 대화형 언어모델로서, 상기 쿼리를 보완하여 생성한 프롬프트에 따라 보고서를 생성하는 것을 특징으로 한다.In addition, the method for generating and using a learning dataset of the deep learning-based generative AI system includes, in the apparatus for generating and utilizing a learning dataset of the deep learning-based generative AI system, the generated prompt is sent to the deep learning-based generative AI system. A report extraction step of extracting a report by inputting it to the model; And a report providing step of providing the extracted report to the user terminal that provided the query; wherein the deep learning-based generative AI model is an open conversational language model based on super-large AI, wherein the It is characterized by generating a report according to the prompt created by complementing the query.

또한, 상기 재학습 단계는, 상기 전처리 및 학습데이터 생성 단계를 통해 생성한 학습데이터가 사전에 설정한 임계값(threshold)에 도달되면, 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 특징으로 한다.In addition, in the re-learning step, when the learning data generated through the pre-processing and generating the learning data reaches a pre-set threshold, the deep learning-based generative AI model is re-learned. do.

또한, 상기 검색 단계는, 각각의 사용자가 입력한 보고서 생성을 위한 쿼리에 대한 최신정보를 사전에 설정한 소정 주기에 따라 상기 외부 연계 서버를 통해 검색하는 것을 더 포함하며, 상기 전처리 및 학습데이터 생성 단계는, 상기 검색 단계를 통해 소정 주기에 따라 검색한 최신정보를 전처리하여 학습데이터를 생성하는 것을 더 포함하며, 상기 재학습 단계는, 상기 전처리 및 학습데이터 생성 단계에서 생성한 학습데이터를 토대로 상기 딥러닝 기반 생성형 AI 모델을 재학습하되, 상기 전처리 및 학습데이터 생성 단계에서 생성한 학습데이터가 사전에 설정한 임계값을 초과할 때마다 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 더 포함하는 것을 특징으로 한다.In addition, the search step further includes searching for the latest information on a query for report generation input by each user through the external link server according to a predetermined cycle set in advance, and generating the preprocessing and learning data. The step further includes generating learning data by pre-processing the latest information retrieved according to a predetermined period through the search step, and the re-learning step is based on the learning data generated in the pre-processing and learning data generating step. Re-learning the deep learning-based generative AI model, but further re-learning the deep learning-based generative AI model whenever the learning data generated in the preprocessing and generating the learning data exceeds a preset threshold. It is characterized by including.

아울러, 본 발명의 일 실시예에 따른 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치는, 사용자 단말로부터 쿼리를 입력받는 쿼리 입력부; 상기 입력받은 쿼리에 대한 최신정보를 외부 연계 서버를 통해 검색하는 검색부; 상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터를 생성하는 전처리 및 학습데이터 생성부; 및 상기 생성한 학습데이터를 토대로 딥러닝 기반 생성형 AI 모델을 재학습하는 재학습부;를 포함하며, 상기 딥러닝 기반 생성형 AI 모델을 통해서 사용자가 입력한 쿼리에 따라 검색한 최신정보가 반영된 보고서를 생성하는 것을 특징으로 한다.In addition, an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system according to an embodiment of the present invention includes a query input unit that receives a query from a user terminal; a search unit for searching the latest information on the inputted query through an external connection server; a pre-processing and learning data generation unit for generating learning data by pre-processing the searched latest information into queries, titles, summary information, contents and English; And a re-learning unit for re-learning a deep learning-based generative AI model based on the generated learning data, and the latest information searched according to a query input by a user through the deep learning-based generative AI model is reflected. Characterized in generating a report.

또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치는, 상기 전처리를 통해 정제한 항목 중 내용을 퓨 샷 데이터셋(Few-Shot Dataset)으로 제공해서, 상기 쿼리를 구체화한 프롬프트를 생성하는 프롬프트 생성부;를 더 포함하는 것을 특징으로 한다.In addition, the device for generating and utilizing the learning dataset of the deep learning-based generative AI system provides the contents of the items refined through the preprocessing as a Few-Shot Dataset, and prompts that specify the query. It is characterized in that it further comprises a; prompt generation unit for generating a.

또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치는, 상기 생성한 프롬프트를 상기 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출하는 보고서 추출부; 및 상기 추출한 보고서를 상기 쿼리를 제공한 상기 사용자 단말로 제공하는 보고서 제공부;를 더 포함하며, 상기 딥러닝 기반 생성형 AI 모델은, 초거대 AI를 기반으로 하는 오픈 대화형 언어모델로서, 상기 쿼리를 보완하여 생성한 프롬프트에 따라 보고서를 생성하는 것을 특징으로 한다.In addition, the device for generating and utilizing the learning dataset of the deep learning-based generative AI system includes a report extractor for extracting a report by inputting the generated prompt to the deep learning-based generative AI model; And a report providing unit for providing the extracted report to the user terminal that provided the query; wherein the deep learning-based generative AI model is an open conversational language model based on super-large AI, It is characterized by generating a report according to the prompt created by complementing the query.

또한, 상기 재학습부는, 상기 전처리 및 학습데이터 생성부를 통해 생성한 학습데이터가 사전에 설정한 임계값(threshold)에 도달되면, 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 특징으로 한다.In addition, the re-learning unit is characterized by re-learning the deep learning-based generative AI model when the learning data generated through the pre-processing and learning data generation unit reaches a preset threshold.

또한, 상기 검색부는, 각각의 사용자가 입력한 보고서 생성을 위한 쿼리에 대한 최신정보를 사전에 설정한 소정 주기에 따라 상기 외부 연계 서버를 통해 검색하는 것을 더 포함하며, 상기 전처리 및 학습데이터 생성부는, 상기 검색부를 통해 소정 주기에 따라 검색한 최신정보로부터 학습데이터를 생성하는 것을 더 포함하며, 상기 재학습부는, 상기 전처리 및 학습데이터 생성부에서 생성한 학습데이터를 토대로 상기 딥러닝 기반 생성형 AI 모델을 재학습하되, 상기 전처리 및 학습데이터 생성부에서 생성한 학습데이터가 사전에 설정한 임계값을 초과할 때마다 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 더 포함하는 것을 특징으로 한다.In addition, the search unit further includes searching for the latest information on a query for report generation input by each user through the external link server according to a predetermined cycle set in advance, and the pre-processing and learning data generation unit , Further comprising generating learning data from the latest information searched according to a predetermined cycle through the search unit, wherein the re-learning unit based on the learning data generated by the pre-processing and learning data generation unit, the deep learning-based generation type AI Re-learning the model, but further comprising re-learning the deep learning-based generative AI model whenever the learning data generated by the pre-processing and learning data generation unit exceeds a preset threshold .

이상에서와 같이 본 발명의 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법에 따르면, 사용자의 질의에 따라 외부의 연계 서버를 통해 사전에 학습되어 있지 않은 최신정보를 검색하고, 상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터로 저장하고, 상기 전처리를 통해 정제한 것 중에서 내용을 Few-Shot Dataset으로 제공해서 생성한 프롬프트를 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성하도록 함으로써, 최신 경향이나 분석이 반영된 보고서의 생성이 가능하며, 보고서의 정확도와 신뢰성을 높일 수 있는 효과가 있다.As described above, according to the method for generating and utilizing the learning dataset of the deep learning-based generative AI system using the super-large AI of the present invention, the latest information that has not been learned in advance through an external linked server according to the user's query Search for, and pre-process the searched latest information into queries, titles, summary information, contents, and English to save as learning data, and provide prompts generated by providing the contents refined through the pre-processing as a Few-Shot Dataset. By generating a report by inputting it into a deep learning-based generative AI model, it is possible to generate a report that reflects the latest trends or analysis, and has the effect of increasing the accuracy and reliability of the report.

또한, 본 발명은 사용자의 질의에 따라 검색한 최신정보로부터 생성된 학습데이터를 가능한 짧은 주기를 통해 딥러닝 기반 생성형 AI 모델을 파인 튜닝함으로써, 딥러닝 모델의 성능을 향상시킬 수 있는 효과가 있다.In addition, the present invention has the effect of improving the performance of the deep learning model by fine-tuning the deep learning-based generative AI model through the shortest possible cycle of learning data generated from the latest information retrieved according to the user's query. .

다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.However, the effects of the present invention are not limited to the above-mentioned effects, and effects not mentioned will be clearly understood by those skilled in the art from this specification and the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치를 포함한 전체 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법의 동작과정을 상세하게 나타낸 순서도이다.
1 is a diagram schematically showing the entire configuration including an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system using super-large AI according to an embodiment of the present invention.
2 is a block diagram showing the configuration of a learning dataset generation and utilization device of a deep learning-based generative AI system according to an embodiment of the present invention in more detail.
3 is a diagram showing the hardware structure of an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system according to an embodiment of the present invention.
4 is a flowchart showing in detail the operation process of a method for generating and utilizing a learning dataset of a deep learning-based generative AI system using super-large AI according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. However, the spirit of the present invention is not limited to the presented embodiments, and those skilled in the art who understand the spirit of the present invention may add, change, delete, etc. other elements within the scope of the same spirit, through other degenerative inventions or the present invention. Other embodiments included within the scope of the inventive idea can be easily proposed, but it will also be said to be included within the scope of the inventive concept.

또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.In addition, components having the same function within the scope of the same idea appearing in the drawings of each embodiment are described using the same reference numerals.

도 1은 본 발명의 일 실시예에 따른 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치를 포함한 전체 구성을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing the entire configuration including an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system using super-large AI according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명은 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100, 이하 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치라 함), 사용자 단말(200), 외부 연계 서버(300) 등을 포함하여 구성된다.As shown in FIG. 1, the present invention is an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system using super-large AI (100, hereinafter, generating and utilizing a learning dataset of a deep learning-based generative AI system) referred to as a device), a user terminal 200, an external connection server 300, and the like.

상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 초거대 AI를 활용한 딥러닝 기반 생성형 AI 모델을 이용하여, 사용자가 입력하는 특정 질의(쿼리, query)에 대해서 보고서 형태의 자료를 추출하여 제공하도록 독립망 내에 독자적으로 구현된 서버 컴퓨터, 플랫폼 등을 의미한다.The deep learning-based generative AI system's learning dataset generation and utilization device 100 uses a deep learning-based generative AI model using super-large AI for a specific query (query) input by a user. Refers to a server computer, platform, etc. independently implemented within a subnetwork to extract and provide data in the form of a report.

특히, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 네트워크를 통해 접속한 사용자 단말(200)로부터 특정 쿼리(예를 들어, 농어민단체 현안)가 입력(①)되면, 인터넷에 직접 연결하지 않고, 인터넷에 연계되어 있는 외부 연계 서버(300)를 통해 검색하여 상기 쿼리에 대한 최신정보를 제공받고(②), 상기 제공받은 최신정보를 전처리하여 복수 개의 학습데이터를 생성하여 저장한다(③).In particular, the device 100 for generating and utilizing learning datasets of the deep learning-based generative AI system when a specific query (for example, an issue of farmers and fishermen groups) is input (①) from the user terminal 200 accessed through the network. , Without directly connecting to the Internet, search through an external connection server 300 linked to the Internet to receive the latest information on the query (②), and pre-process the provided latest information to generate a plurality of learning data. and save it (③).

이때 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 외부 연계 서버(300)를 통해 검색한 최신정보를 전처리하여 학습데이터를 생성할 때, 각각의 최신정보를 질의-제목-요약정보-내용-영문으로 전처리하고, 상기 전처리한 내용을 딥러닝 기반 생성형 AI 모델의 형식에 맞는 형태로 하여 학습데이터를 생성한다.At this time, when the learning data set generation and utilization device 100 of the deep learning-based generative AI system pre-processes the latest information retrieved through the external linkage server 300 to generate learning data, each latest information is queried. -Title-summary information-content-preprocessed in English, and the preprocessed contents are created in a form suitable for the format of the deep learning-based generative AI model to generate learning data.

이는 본 발명의 주요 특징 중 하나로서, 본 발명은 상기 딥러닝 기반 생성형 AI 모델에 축적되어 있는 학습데이터가 많지 않아 사용자의 쿼리에 대한 보고서를 추출할 때 성능이 떨어지는 것을 방지하기 위해서, 해당 쿼리에 대한 사전에 학습되어 있지 않은 최신정보를 즉시 검색하여 학습데이터를 마련하고, 이를 통해서 상기 딥러닝 기반 생성형 AI 모델의 성능을 개선함으로써, 사용자가 원하는 보고서의 정확도를 향상시킬 수 있도록 하는 것이다.This is one of the main features of the present invention, in order to prevent performance degradation when extracting a report on a user's query because there is not much learning data accumulated in the deep learning-based generative AI model, the query It is to immediately search for the latest information that has not been learned in advance to prepare learning data, and improve the performance of the deep learning-based generative AI model through this, thereby improving the accuracy of the report desired by the user.

이어서, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 딥러닝 기반 생성형 AI 모델을 통해서 사용자의 쿼리에 따른 보고서의 출력 정확도를 높이기 위한 방안으로, 상기 외부 연계 서버(300)를 통해 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터로 저장한 다음, 상기 전처리하여 정제한 것 중에서 '내용'을 Few-Shot Dataset으로 제공해서, 사용자의 쿼리를 보다 구체적으로 나타낸 프롬프트(prompt)를 생성(④)하고, 상기 생성한 프롬프트를 상기 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출(⑤)하여 상기 사용자 단말(200)로 제공(⑥)할 수 있다.Subsequently, the device 100 for generating and utilizing a learning dataset of the deep learning-based generative AI system is a method for increasing the output accuracy of a report according to a user's query through the deep learning-based generative AI model, and the external linkage The latest information retrieved through the server 300 is pre-processed into query, title, summary information, content, and English and stored as learning data, and then 'content' among the pre-processed and refined information is provided as a Few-Shot Dataset, A prompt representing the user's query in more detail is generated (④), and a report is extracted (⑤) by inputting the generated prompt into the deep learning-based generative AI model and provided to the user terminal 200. (⑥) I can.

이는 본 발명의 또 다른 특징 중 하나로서, 사용자의 쿼리에 따라 외부 연계 서버(300)에서 검색한 최신정보로부터 전처리하여 정제한 항목 중에서 '내용'을 퓨 샷 러닝 데이터셋(Few-shot Learning Dataset)으로 활용하여 프롬프트를 생성함으로써, 사용자의 쿼리보다 풍성한 질문을 상기 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출할 수 있도록 하는 것이다.This is another feature of the present invention, and among the items pre-processed and refined from the latest information retrieved from the external linkage server 300 according to the user's query, 'content' is selected from the Few-shot Learning Dataset By using it to generate a prompt, it is possible to extract a report by inputting richer questions than the user's query into the deep learning-based generative AI model.

일 예로, 사용자가 쿼리로 '농어민단체 현안'을 제공한 경우, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 "농어민단체 현안과 관련하여, 목록과 현황으로 분류하여 분석 및 대책을 작성해줘"의 프롬프트를 생성하고, 이를 상기 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출하도록 한다. 이때 상기 프롬프트는 사용자 쿼리는 물론, 상기 전처리한 항목 중 내용에서 추출한 키워드, 문장 등을 조합한 형태로 구성할 수 있다.For example, when a user provides 'current issues of farmers and fishermen groups' as a query, the device 100 for generating and utilizing a learning dataset of the deep learning-based generative AI system classifies "current issues of farmers and fishermen groups into lists and current status." Create a prompt of "Please analyze and write a countermeasure", and input it to the deep learning-based generative AI model to extract a report. In this case, the prompt may be configured in a form in which a keyword, a sentence, etc. extracted from the contents of the preprocessed items as well as a user query are combined.

또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 프롬프트에 따라 보고서를 추출할 때, 제목, 목차 및 내용으로 분류하여 보고서를 추출할 수 있다. 이때 상기 프롬프트에 따라 추출되는 보고서의 형태는 하나의 예시일 뿐, 다양한 순서 및 형태로 추출할 수 있음을 밝혀둔다.In addition, when extracting a report according to the prompt, the device 100 for generating and utilizing the learning dataset of the deep learning-based generative AI system may extract the report by classifying it into title, table of contents, and contents. At this time, it should be noted that the form of the report extracted according to the prompt is only an example, and can be extracted in various orders and forms.

한편, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 최신정보로부터 전처리하여 생성한 학습데이터를 가능한 짧은 주기로 딥러닝 기반 생성형 AI 모델을 파인 튜닝할 수 있다(⑦).On the other hand, the device 100 for generating and utilizing the learning dataset of the deep learning-based generative AI system can fine-tune the deep learning-based generative AI model with the shortest possible cycle of learning data generated by preprocessing from the latest information ( ⑦).

일 예로, 상기 생성한 학습데이터가 사전에 설정되어 있는 임계값(예, 10,000개)에 도달되면, 상기 딥러닝 기반 생성형 AI 모델을 재학습하도록 하는 것이다.For example, when the generated training data reaches a pre-set threshold (eg, 10,000), the deep learning-based generative AI model is re-learned.

이는 본 발명의 주요 특징 중 하나로서, 본 발명은 상기 딥러닝 기반 생성형 AI 모델에 축적되어 있는 학습데이터가 많지 않아 사용자의 쿼리에 대한 보고서를 추출할 때 성능이 떨어지는 것을 방지하기 위해서, 해당 쿼리에 대한 사전에 학습되어 있지 않은 최신정보를 즉시 검색하여 상기 딥러닝 기반 생성형 AI 모델의 성능을 개선한 다음, 상기 개선한 딥러닝 기반 생성형 AI 모델을 통해 사용자가 원하는 보고서의 정확도를 향상시키고, 이를 통해 딥러닝 기반 생성형 AI 모델의 신뢰도를 높일 수 있도록 하는 것이다.This is one of the main features of the present invention, in order to prevent performance degradation when extracting a report on a user's query because there is not much learning data accumulated in the deep learning-based generative AI model, the query Improve the performance of the deep learning-based generative AI model by immediately retrieving the latest information that has not been learned in advance for , This is to increase the reliability of deep learning-based generative AI models.

상기 사용자 단말(200)은 사용자가 보유하고 있는 스마트폰, 태블릿, PC 등의 유무선 통신기기로서, 애플리케이션 프로그램이나 네트워크를 통한 웹 접속을 통해 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)와 통신 접속을 수행한 후, 사용자가 입력하는 쿼리를 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)로 전송한다.The user terminal 200 is a wired/wireless communication device such as a smartphone, tablet, or PC possessed by a user, and generates and utilizes a learning dataset of the deep learning-based generative AI system through an application program or web access through a network. After performing a communication connection with the device 100, the query input by the user is transmitted to the device 100 for generating and utilizing a learning dataset of the deep learning-based generative AI system.

이때 상기 네트워크는 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미한다.In this case, the network may be a core network integrated with a wired public network, a wireless mobile communication network, or a portable Internet, and various services existing in the TCP/IP protocol and its upper layer, that is, HTTP (Hyper Text Transfer Protocol), HTTPS (Hyper Text Transfer) Protocol Secure), Telnet, FTP (File Transfer Protocol), DNS (Domain Name System), SMTP (Simple Mail Transfer Protocol), etc. It comprehensively means a data communication network capable of transmitting and receiving data in a form.

또한, 상기 사용자 단말(200)은 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)로부터 사용자의 쿼리에 따른 보고서를 제공받아 사용자가 확인할 수 있도록 한다.In addition, the user terminal 200 receives a report according to the user's query from the learning dataset generation and utilization device 100 of the deep learning-based generative AI system so that the user can check it.

상기 외부 연계 서버(300)는 검색 및 포털 서비스를 제공하는 사업자가 운영하는 서버로서, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)의 특정 쿼리에 대한 검색 요청에 따라 검색을 수행하고, 상기 검색한 결과를 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)에 제공한다.The external connection server 300 is a server operated by a provider providing search and portal services, and according to a search request for a specific query of the device 100 for generating and utilizing a learning dataset of the deep learning-based generative AI system A search is performed, and the search results are provided to the device 100 for generating and utilizing learning datasets of the deep learning-based generative AI system.

이때 상기 외부 연계 서버(300)는 서버 환경을 수행하기 위한 다른 구성들이 포함될 수도 있으며, 임의의 형태의 장치를 모두 포함할 수 있다. 예를 들어, 랩톱(laptop) 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 웹 패드, 이동 전화기와 같이 프로세서를 탑재하고 메모리를 구비한 연산 능력을 갖춘 디지털 기기일 수 있다.At this time, the external connection server 300 may include other configurations for performing a server environment, and may include all types of devices. For example, it may be a digital device equipped with a processor and having an arithmetic capability including a memory, such as a laptop computer, a notebook computer, a desktop computer, a web pad, and a mobile phone.

도 2는 본 발명의 일 실시예에 따른 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치의 구성을 보다 상세하게 나타낸 블록도이다.2 is a block diagram showing the configuration of a learning dataset generation and utilization device of a deep learning-based generative AI system according to an embodiment of the present invention in more detail.

도 2에 도시한 것과 같이, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 쿼리 입력부(110), 검색부(120), 전처리 및 학습데이터 생성부(130), 재학습부(140), 프롬프트 생성부(150), 보고서 추출부(160), 보고서 제공부(170) 등을 포함하여 구성된다.As shown in FIG. 2, the apparatus 100 for generating and utilizing learning datasets of the deep learning-based generative AI system includes a query input unit 110, a search unit 120, a preprocessing and learning data generation unit 130, It is composed of a re-learning unit 140, a prompt generation unit 150, a report extraction unit 160, a report providing unit 170, and the like.

상기 쿼리 입력부(110)는 네트워크를 통해 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)에 통신 접속한 상기 사용자 단말(200)로부터 보고서 제공을 위한 질문인 쿼리를 입력받는다.The query input unit 110 receives a query, which is a question for providing a report, from the user terminal 200 communicatively connected to the learning dataset generation and utilization device 100 of the deep learning-based generative AI system through a network. .

상기 검색부(120)는 상기 쿼리 입력부(110)를 통해 사용자가 입력한 쿼리에 대한 최신정보를 검색하여 수집하기 위해서, 상기 외부 연계 서버(300)에 상기 쿼리를 제공하고, 상기 외부 연계 서버(300)로부터 최신정보에 대한 검색결과를 제공받는다.The search unit 120 provides the query to the external connection server 300 in order to search for and collect the latest information on the query input by the user through the query input unit 110, and the external connection server ( 300) provides search results for the latest information.

상기 전처리 및 학습데이터 생성부(130)는 상기 검색부(120)를 통해 상기 외부 연계 서버(300)에서 검색한 최신정보를 토대로 학습데이터를 생성한다.The preprocessing and learning data generation unit 130 generates learning data based on the latest information retrieved from the external linkage server 300 through the search unit 120 .

즉, 상기 전처리 및 학습데이터 생성부(130)는 상기 검색부(120)를 통해 검색한 사용자의 쿼리에 따른 각각의 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하고, 상기 전처리한 항목들을 상기 딥러닝 기반 생성형 AI 모델에 적합한 형태의 학습데이터로 생성하는 것이다.That is, the pre-processing and learning data generation unit 130 pre-processes each of the latest information according to the user's query searched through the search unit 120 into a query, title, summary information, content, and English, and the pre-processing Items are created as learning data in a form suitable for the deep learning-based generative AI model.

상기 재학습부(140)는 상기 전처리 및 학습데이터 생성부(130)에서 생성하여 저장한 각 최신정보별 학습데이터가 사전에 설정한 임계값을 초과하는지를 판단하고, 상기 판단한 결과 저장된 학습데이터가 상기 임계값을 초과하면 상기 딥러닝 기반 생성형 AI 모델을 재학습한다. 이때, 본 발명에서는 상기 임계값을 10,000개로 설정할 수 있는데, 그 이외에 사용 환경에 따라 다양하게 변경하여 적용할 수 있다.The re-learning unit 140 determines whether the learning data for each latest information generated and stored in the pre-processing and learning data generation unit 130 exceeds a preset threshold, and as a result of the determination, the stored learning data If the threshold value is exceeded, the deep learning-based generative AI model is re-learned. At this time, in the present invention, the threshold may be set to 10,000, but other than that, various changes may be applied depending on the use environment.

또한, 상기 딥러닝 기반 생성형 AI 모델은 초거대 AI를 기반으로 하는 오픈 대화형 언어모델을 의미하며, 사전에 학습된 정보는 물론, 상기 외부 연계 서버(300)에서 검색하여 재학습한 최신정보를 토대로 상기 프롬프트 생성부(150)에서 생성되는 프롬프트에 따라 보고서를 생성할 수 있다.In addition, the deep learning-based generative AI model means an open conversational language model based on super-large AI, and the latest information retrieved and re-learned from the external linkage server 300 as well as previously learned information. Based on the prompt generated by the prompt generation unit 150, a report may be generated.

상기 프롬프트 생성부(150)는 상기 전처리 및 학습데이터 생성부(130)에서 생성한 학습데이터를 참조하여 사용자가 입력한 쿼리를 구체화한 프롬프트를 생성한다.The prompt generation unit 150 refers to the learning data generated by the preprocessing and learning data generation unit 130 to generate a prompt embodying the query input by the user.

즉, 상기 프롬프트 생성부(150)는 사용자가 제공한 쿼리에 상기 외부 연계 서버(300)에서 검색한 최신정보로부터 전처리하여 잘 정제한 항목 중에서 '내용' 항목을 퓨 샷 러닝 데이터셋으로 제공해서, 사용자의 쿼리보다 풍성한 질문 형태로 된 프롬프트를 생성하고, 상기 생성한 프롬프트를 상기 재학습된 딥러닝 기반 생성형 AI 모델에 입력하여 사용자가 원하는 보고서를 생성하도록 하는 것이다.That is, the prompt generating unit 150 provides the 'content' item among well-refined items pre-processed from the latest information retrieved from the external linkage server 300 to the query provided by the user as a shot learning dataset, A prompt in the form of a richer question than the user's query is generated, and the generated prompt is input into the retrained deep learning-based generative AI model to generate a report desired by the user.

상기 보고서 추출부(160)는 상기 프롬프트 생성부(150)에서 생성한 프롬프트를 상기 재학습부(140)를 통해 재학습된 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출하도록 한다.The report extraction unit 160 extracts a report by inputting the prompt generated by the prompt generation unit 150 to the deep learning-based generative AI model retrained through the relearning unit 140.

상기 보고서 제공부(170)는 상기 보고서 추출부(160)에서 사용자의 쿼리를 기반으로 생성된 프롬프트에 따라 추출한 보고서를 해당 쿼리를 제공한 상기 사용자 단말(200)로 전송하여 사용자가 확인할 수 있도록 한다.The report providing unit 170 transmits the report extracted according to the prompt generated by the report extracting unit 160 based on the user's query to the user terminal 200 that provided the query so that the user can check it. .

이때 상기 보고서 제공부(170)는 상기 보고서를 사용자가 원하는 파일 형식(예를 들어, txt, pdf, doc, hwp 등), 형태(텍스트, 그래픽 또는 이들의 조합 형태) 등으로 변환하여 제공할 수 있다.At this time, the report providing unit 170 converts the report into a file format desired by the user (eg, txt, pdf, doc, hwp, etc.), form (text, graphic, or a combination thereof) and provides the report. there is.

한편, 상기 검색부(120)는 각각의 사용자가 입력한 보고서 생성을 위한 쿼리에 대한 최신정보를 사전에 설정한 소정 주기(예를 들어, 일, 주, 월 등)에 따라 상기 외부 연계 서버(300)를 통해 검색하는 기능을 추가로 적용할 수 있다.On the other hand, the search unit 120 is configured to update the latest information on the query for report generation input by each user according to a predetermined period (eg, day, week, month, etc.) set in advance to the external connection server ( 300) can be additionally applied.

이 경우, 상기 전처리 및 학습데이터 생성부(130)는 상기 검색부(120)를 통해 소정 주기에 따라 검색한 최신정보로부터 학습데이터를 생성할 수 있으며, 상기 재학습부(140)는 상기 전처리 및 학습데이터 생성부(130)에서 생성한 학습데이터를 토대로 상기 딥러닝 기반 생성형 AI 모델을 재학습할 수 있다.In this case, the pre-processing and learning data generation unit 130 may generate learning data from the latest information searched according to a predetermined cycle through the search unit 120, and the re-learning unit 140 may perform the pre-processing and Based on the learning data generated by the learning data generation unit 130, the deep learning-based generative AI model may be re-learned.

이때 상기 재학습부(140)는 상기 전처리 및 학습데이터 생성부(130)에서 생성한 학습데이터의 수가 사전에 설정한 임계값(예를 들어, 천개, 만개 등)을 초과할 때마다 재학습을 진행할 수 있다. At this time, the re-learning unit 140 performs re-learning whenever the number of learning data generated by the pre-processing and learning data generation unit 130 exceeds a preset threshold (eg, 1,000, 10,000, etc.). can proceed

도 3은 본 발명의 일 실시예에 따른 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치의 하드웨어 구조를 나타낸 도면이다.3 is a diagram showing the hardware structure of an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system according to an embodiment of the present invention.

도 3에 도시한 것과 같이, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.As shown in FIG. 3, the hardware structure of the device 100 for generating and utilizing learning datasets of the deep learning-based generative AI system includes a central processing unit 1000, a memory 2000, a user interface 3000, It is configured to include a database interface 4000, a network interface 5000, a web server 6000, and the like.

상기 사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.The user interface 3000 provides an input and output interface to the user by using a graphical user interface (GUI).

상기 데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다. 상기 네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.The database interface 4000 provides an interface between a database and a hardware structure. The network interface 5000 provides a network connection between devices possessed by a user.

상기 웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)를 사용할 수 있다.The web server 6000 provides a means for users to access hardware structures through a network. Most users can access the web server remotely and use the device 100 for generating and utilizing learning datasets of the deep learning-based generative AI system.

상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.Each step of the above configuration or method may be implemented as computer readable code on a computer readable recording medium or transmitted through a transmission medium. A computer-readable recording medium is a data storage device capable of storing data that can be read by a computer system.

컴퓨터 판독 가능한 기록매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.Examples of computer-readable recording media include, but are not limited to, databases, ROMs, RAMs, CD-ROMs, DVDs, magnetic tapes, floppy disks, and optical data storage devices. The transmission medium may include a carrier wave transmitted through the Internet or various types of communication channels. Also, the computer readable recording medium may be distributed over a network coupled computer system such that the computer readable code is stored and executed in a distributed manner.

또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.In addition, at least one component applied to the present invention may include or be implemented by a processor such as a central processing unit (CPU) or a microprocessor that performs each function, and two or more of the components are one single All operations or functions for two or more components that are combined into components can be performed. In addition, some of at least one or more components applied to the present invention may be performed by other components among these components. Also, communication between the components may be performed through a bus (not shown).

다음에는, 이와 같이 구성된 본 발명에 따른 최신정보를 적용한 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법의 일 실시예를 도 4를 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.Next, an embodiment of a method for generating and utilizing a learning dataset of a deep learning-based generative AI system using ultra-large AI to which the latest information according to the present invention configured as described above will be described in detail with reference to FIG. 4. At this time, the order of each step according to the method of the present invention may be changed by a user environment or a person skilled in the art.

도 4는 본 발명의 일 실시예에 따른 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법의 동작과정을 상세하게 나타낸 순서도이다.4 is a flowchart showing in detail the operation process of a method for generating and utilizing a learning dataset of a deep learning-based generative AI system using super-large AI according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 네트워크를 통해 접속된 상기 사용자 단말(200)로부터 보고서 생성을 위한 쿼리를 입력받는다(S100).As shown in FIG. 4, the device 100 for generating and utilizing a learning dataset of the deep learning-based generative AI system receives a query for generating a report from the user terminal 200 connected through a network (S100). ).

상기 S100 단계를 통해 상기 사용자 단말(200)로부터 쿼리가 입력되면, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 쿼리를 토대로 상기 외부 연계 서버(300)를 통해 최신정보를 검색하여 그 결과를 수집한다(S200). 이때 상기 최신정보는 딥러닝 기반 생성형 AI 모델에 반영되지 않은 상기 쿼리에 대한 학습되지 않은 데이터이다.When a query is input from the user terminal 200 through the step S100, the device 100 for generating and utilizing a learning dataset of the deep learning-based generative AI system through the external linkage server 300 based on the query. The latest information is searched and the results are collected (S200). At this time, the latest information is unlearned data for the query that is not reflected in the deep learning-based generative AI model.

이어서, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 S200 단계에서 검색하여 수집한 각각의 최신정보를 전처리하여 학습데이터를 생성한다(S300). 즉, 상기 검색한 각각의 최신정보별로 질의, 제목, 요약정보, 내용 및 영문으로 전처리하는 것을 토대로 학습데이터를 생성하는 것이다.Subsequently, the learning dataset generation and utilization device 100 of the deep learning-based generative AI system preprocesses each of the latest information retrieved and collected in the step S200 to generate learning data (S300). That is, learning data is generated based on pre-processing into query, title, summary information, content, and English for each of the latest information retrieved.

또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 S300 단계에서 전처리하여 정제한 항목 중에서 '내용'을 참조하여 사용자가 제공하는 쿼리를 구체화한 프롬프트를 생성한다(S400). 즉 전처리하여 정제한 것 중에서 '내용'을 Few-Shot Dataset으로 제공해서, 딥러닝 기반 생성형 AI 모델의 프롬프트 입력으로 하여 보고서를 생성할 수 있도록 하는 것이다.In addition, the device 100 for generating and utilizing the learning dataset of the deep learning-based generative AI system refers to 'content' among the preprocessed and refined items in step S300 to generate a prompt embodying the query provided by the user. (S400). In other words, 'content' among preprocessed and refined items is provided as a Few-Shot Dataset so that a report can be generated as a prompt input for a deep learning-based generative AI model.

상기 S400 단계를 통해 프롬프트를 생성한 이후, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 프롬프트를 상기 딥러닝 기반 생성형 AI 모델에 입력하여 사용자가 원하는 보고서를 추출하도록 한다(S500).After generating the prompt through the step S400, the device 100 for generating and utilizing the learning dataset of the deep learning-based generative AI system inputs the prompt to the deep learning-based generative AI model to obtain a report desired by the user. It is extracted (S500).

이어서, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 S500 단계를 통해 상기 딥러닝 기반 생성형 AI 모델에서 추출한 보고서를 쿼리를 제공한 상기 사용자 단말(200)로 제공한다(S600).Next, the device 100 for generating and utilizing the learning dataset of the deep learning-based generative AI system transmits the report extracted from the deep learning-based generative AI model through the step S500 to the user terminal 200 that provided a query. It is provided (S600).

또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 S300 단계를 통해 생성하여 저장한 학습데이터가 사전에 설정된 임계값을 초과하는지를 판단하고, 상기 판단한 결과 상기 생성하여 저장한 학습데이터가 상기 임계값을 초과하면 딥러닝 기반 생성형 AI 모델을 재학습한다(S700). 즉, 가능한 짧은 주기로 딥러닝 기반 생성형 AI 모델을 파인 튜닝할 수 있도록 하는 것이다.In addition, the device 100 for generating and utilizing the learning dataset of the deep learning-based generative AI system determines whether the learning data generated and stored through the step S300 exceeds a preset threshold, and as a result of the determination, the generated When the stored learning data exceeds the threshold, the deep learning-based generative AI model is re-learned (S700). In other words, it is to enable fine-tuning of deep learning-based generative AI models in the shortest possible cycle.

한편, 상기 도 4에는 도시하지 않았지만, 상기 S200 단계를 통해 상기 외부 연계 서버(300)로부터 사용자가 제공한 쿼리에 따라 검색을 수행할 때, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 각 사용자들이 제공하는 각종 쿼리에 대한 최신정보를 사전에 설정한 소정 주기가 도래할 때마다 상기 외부 연계 서버(300)를 통해 검색하여 수집할 수 있다.On the other hand, although not shown in FIG. 4, when searching according to the query provided by the user from the external link server 300 through the step S200, the deep learning-based generative AI system generates a learning dataset and The utilization device 100 may retrieve and collect the latest information on various queries provided by each user through the external connection server 300 whenever a preset period arrives.

이 경우, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 소정 주기가 도래할 때마다 검색한 각 최신정보로부터 학습데이터를 생성하고, 상기 생성한 학습데이터를 토대로 상기 딥러닝 기반 생성형 AI 모델을 재학습할 수 있다. 또한, 상기 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치(100)는 상기 생성한 학습데이터를 모아두었다가 사전에 설정한 임계값을 초과할 때마다 상기 딥러닝 기반 생성형 AI 모델을 재학습하도록 설정할 수 있다.In this case, the device 100 for generating and utilizing learning datasets of the deep learning-based generative AI system generates learning data from each latest information searched every time a predetermined period arrives, and based on the generated learning data, Deep learning-based generative AI models can be retrained. In addition, the deep learning-based generative AI system's learning dataset generation and utilization device 100 collects the generated learning data and generates the deep learning-based generative AI model whenever it exceeds a pre-set threshold. It can be set to relearn.

이처럼, 본 발명은 사용자의 질의에 따라 외부의 연계 서버를 통해 사전에 학습되어 있지 않은 최신정보를 검색하고, 상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터로 저장하고, 상기 전처리를 통해 정제한 것 중에서 내용을 Few-Shot Dataset으로 제공해서 생성한 프롬프트를 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성하도록 하기 때문에, 최신 경향이나 분석이 반영된 보고서의 생성이 가능하며, 보고서의 정확도와 신뢰성을 높일 수 있다.In this way, according to the user's query, the present invention searches for the latest information that has not been learned in advance through an external connection server, and preprocesses the searched latest information into query, title, summary information, content, and English to convert it into learning data. After storing and providing the content refined through the preprocessing as a Few-Shot Dataset, the generated prompt is input into the deep learning-based generative AI model to generate a report, so the report is created reflecting the latest trends or analysis. This is possible and can increase the accuracy and reliability of the report.

또한, 본 발명은 사용자의 질의에 따라 검색한 최신정보로부터 생성된 학습데이터를 가능한 짧은 주기를 통해 딥러닝 기반 생성형 AI 모델을 파인 튜닝하게 때문에, 딥러닝 모델의 성능을 향상시킬 수 있다.In addition, the present invention can improve the performance of the deep learning model because the deep learning-based generative AI model is fine-tuned through the shortest possible cycle of learning data generated from the latest information retrieved according to the user's query.

첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.In the accompanying drawings, in order to more clearly express the technical idea of the present invention, components that are not related to or detached from the technical idea of the present invention are briefly expressed or omitted.

상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.In the above, the configuration and characteristics of the present invention have been described based on the embodiments according to the present invention, but the present invention is not limited thereto, and various changes or modifications can be made within the spirit and scope of the present invention. It is apparent to those skilled in the art, and therefore such changes or modifications are intended to fall within the scope of the appended claims.

100 : 초거대 AI를 활용한 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치
110 : 쿼리 입력부 120 : 검색부
130 : 전처리 및 학습데이터 생성부 140 : 재학습부
150 : 프롬프트 생성부 160 : 보고서 추출부
170 : 보고서 제공부 200 : 사용자 단말
300 : 외부 연계 서버
100: Device for generating and utilizing learning datasets of deep learning-based generative AI systems using super-large AI
110: query input unit 120: search unit
130: pre-processing and learning data generation unit 140: re-learning unit
150: prompt generation unit 160: report extraction unit
170: report providing unit 200: user terminal
300: external linked server

Claims (10)

딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치에서, 사용자 단말로부터 쿼리를 입력받는 쿼리 입력 단계;
상기 입력받은 쿼리에 대한 최신정보를 외부 연계 서버를 통해 검색하는 검색 단계;
상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터를 생성하는 전처리 및 학습데이터 생성 단계;
상기 전처리를 통해 정제한 항목 중 내용을 퓨 샷 데이터셋(Few-Shot Dataset)으로 제공해서, 상기 쿼리를 구체화한 프롬프트를 생성하는 프롬프트 생성 단계;
상기 생성한 프롬프트를 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출하는 보고서 추출 단계;
상기 추출한 보고서를 상기 쿼리를 제공한 상기 사용자 단말로 제공하는 보고서 제공 단계; 및
상기 생성한 학습데이터를 토대로 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 재학습 단계;를 포함하며,
상기 프롬프트는, 상기 쿼리와 상기 전처리한 항목 중 내용에서 추출한 키워드 및 문장을 조합한 형태로 생성하며,
사용자가 입력한 쿼리를 토대로 생성한 프롬프트를 상기 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성하되, 기존에 학습되어 있는 적은 수의 학습데이터가 아닌 상기 재학습된 딥러닝 기반 생성형 AI 모델을 통해서 사용자가 입력한 쿼리에 따라 검색한 최신정보가 반영된 보고서를 생성하는 것을 더 포함하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법.
A query input step of receiving a query from a user terminal in an apparatus for generating and utilizing a learning dataset of a deep learning-based generative AI system;
a search step of searching for the latest information on the inputted query through an external connection server;
A preprocessing and learning data generation step of generating learning data by preprocessing the searched latest information into a query, title, summary information, content, and English;
a prompt generation step of generating a prompt embodying the query by providing content among the items refined through the preprocessing as a Few-Shot Dataset;
A report extraction step of extracting a report by inputting the generated prompt into a deep learning-based generative AI model;
a report providing step of providing the extracted report to the user terminal that provided the query; and
A re-learning step of re-learning the deep learning-based generative AI model based on the generated learning data;
The prompt is generated in the form of a combination of the query and keywords and sentences extracted from the contents of the preprocessed items,
A report is generated by inputting a prompt generated based on a query entered by the user into the deep learning-based generative AI model, but the retrained deep learning-based generative AI model instead of the small number of previously learned training data. A method of generating and using a learning dataset of a deep learning-based generative AI system, further comprising generating a report reflecting the latest information searched according to a query entered by a user through.
삭제delete 청구항 1에 있어서,
상기 딥러닝 기반 생성형 AI 모델은,
초거대 AI를 기반으로 하는 오픈 대화형 언어모델로서, 상기 쿼리를 보완하여 생성한 프롬프트에 따라 보고서를 생성하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법.
The method of claim 1,
The deep learning-based generative AI model,
An open conversational language model based on super-large AI, characterized by generating a report according to a prompt generated by supplementing the query.
청구항 1에 있어서,
상기 재학습 단계는,
상기 전처리 및 학습데이터 생성 단계를 통해 생성한 학습데이터가 사전에 설정한 임계값(threshold)에 도달되면, 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법.
The method of claim 1,
In the relearning step,
Deep learning-based generative AI system characterized by re-learning the deep learning-based generative AI model when the learning data generated through the preprocessing and generating the learning data reaches a preset threshold How to create and use training datasets.
청구항 1에 있어서,
상기 검색 단계는, 각각의 사용자가 입력한 보고서 생성을 위한 쿼리에 대한 최신정보를 사전에 설정한 소정 주기에 따라 상기 외부 연계 서버를 통해 검색하는 것을 더 포함하며,
상기 전처리 및 학습데이터 생성 단계는, 상기 검색 단계를 통해 소정 주기에 따라 검색한 최신정보를 전처리하여 학습데이터를 생성하는 것을 더 포함하며,
상기 재학습 단계는, 상기 전처리 및 학습데이터 생성 단계에서 생성한 학습데이터를 토대로 상기 딥러닝 기반 생성형 AI 모델을 재학습하되, 상기 전처리 및 학습데이터 생성 단계에서 생성한 학습데이터가 사전에 설정한 임계값을 초과할 때마다 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 더 포함하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용방법.
The method of claim 1,
The search step further includes searching for the latest information on a query for generating a report input by each user through the external connection server according to a predetermined period set in advance,
The preprocessing and generating learning data step further includes generating learning data by preprocessing the latest information retrieved according to a predetermined cycle through the searching step,
In the re-learning step, the deep learning-based generative AI model is re-learned based on the learning data generated in the pre-processing and learning data generation step, and the learning data generated in the pre-processing and learning data generation step is set in advance. A method of generating and using a learning dataset of a deep learning-based generative AI system, further comprising re-learning the deep learning-based generative AI model whenever the threshold value is exceeded.
사용자 단말로부터 쿼리를 입력받는 쿼리 입력부;
상기 입력받은 쿼리에 대한 최신정보를 외부 연계 서버를 통해 검색하는 검색부;
상기 검색한 최신정보를 질의, 제목, 요약정보, 내용 및 영문으로 전처리하여 학습데이터를 생성하는 전처리 및 학습데이터 생성부;
상기 전처리를 통해 정제한 항목 중 내용을 퓨 샷 데이터셋(Few-Shot Dataset)으로 제공해서, 상기 쿼리를 구체화한 프롬프트를 생성하는 프롬프트 생성부;
상기 생성한 프롬프트를 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 추출하는 보고서 추출부;
상기 추출한 보고서를 상기 쿼리를 제공한 상기 사용자 단말로 제공하는 보고서 제공부; 및
상기 생성한 학습데이터를 토대로 딥러닝 기반 생성형 AI 모델을 재학습하는 재학습부;를 포함하며,
상기 프롬프트는, 상기 쿼리와 상기 전처리한 항목 중 내용에서 추출한 키워드 및 문장을 조합한 형태로 생성하며,
사용자가 입력한 쿼리를 토대로 생성한 프롬프트를 상기 딥러닝 기반 생성형 AI 모델에 입력하여 보고서를 생성하되, 기존에 학습되어 있는 적은 수의 학습데이터가 아닌 상기 재학습된 딥러닝 기반 생성형 AI 모델을 통해서 사용자가 입력한 쿼리에 따라 검색한 최신정보가 반영된 보고서를 생성하는 것을 더 포함하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치.
a query input unit that receives a query from a user terminal;
a search unit for searching the latest information on the inputted query through an external connection server;
a pre-processing and learning data generation unit for generating learning data by pre-processing the searched latest information into queries, titles, summary information, contents and English;
a prompt generation unit generating a prompt materializing the query by providing content among the items refined through the preprocessing as a Few-Shot Dataset;
a report extractor extracting a report by inputting the generated prompt to a deep learning-based generative AI model;
a report providing unit providing the extracted report to the user terminal that provided the query; and
A re-learning unit for re-learning a deep learning-based generative AI model based on the generated learning data;
The prompt is generated in the form of a combination of the query and keywords and sentences extracted from the contents of the preprocessed items,
A report is generated by inputting a prompt generated based on a query entered by the user into the deep learning-based generative AI model, but the retrained deep learning-based generative AI model instead of the small number of previously learned training data. Device for generating and utilizing a learning dataset of a deep learning-based generative AI system, further comprising generating a report reflecting the latest information searched according to a query entered by a user through.
삭제delete 청구항 6에 있어서,
상기 딥러닝 기반 생성형 AI 모델은,
초거대 AI를 기반으로 하는 오픈 대화형 언어모델로서, 상기 쿼리를 보완하여 생성한 프롬프트에 따라 보고서를 생성하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치.
The method of claim 6,
The deep learning-based generative AI model,
An open conversational language model based on super-large AI, generating and utilizing a learning dataset of a deep learning-based generative AI system, characterized in that it generates a report according to a prompt generated by complementing the query.
청구항 6에 있어서,
상기 재학습부는,
상기 전처리 및 학습데이터 생성부를 통해 생성한 학습데이터가 사전에 설정한 임계값(threshold)에 도달되면, 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치.
The method of claim 6,
The relearning department,
When the learning data generated through the preprocessing and learning data generation unit reaches a preset threshold, the deep learning-based generative AI model is re-learned. Device for creating and utilizing learning datasets.
청구항 6에 있어서,
상기 검색부는, 각각의 사용자가 입력한 보고서 생성을 위한 쿼리에 대한 최신정보를 사전에 설정한 소정 주기에 따라 상기 외부 연계 서버를 통해 검색하는 것을 더 포함하며,
상기 전처리 및 학습데이터 생성부는, 상기 검색부를 통해 소정 주기에 따라 검색한 최신정보로부터 학습데이터를 생성하는 것을 더 포함하며,
상기 재학습부는, 상기 전처리 및 학습데이터 생성부에서 생성한 학습데이터를 토대로 상기 딥러닝 기반 생성형 AI 모델을 재학습하되, 상기 전처리 및 학습데이터 생성부에서 생성한 학습데이터가 사전에 설정한 임계값을 초과할 때마다 상기 딥러닝 기반 생성형 AI 모델을 재학습하는 것을 더 포함하는 것을 특징으로 하는 딥러닝 기반 생성형 AI 시스템의 학습 데이터셋 생성 및 활용장치.
The method of claim 6,
The search unit further includes searching for the latest information on a query for report generation input by each user through the external connection server according to a predetermined period set in advance,
The pre-processing and learning data generation unit further comprises generating learning data from the latest information searched according to a predetermined period through the search unit,
The re-learning unit re-learns the deep learning-based generative AI model based on the learning data generated by the pre-processing and learning data generation unit, and the learning data generated by the pre-processing and learning data generation unit has a threshold set in advance. Device for generating and utilizing a learning dataset of a deep learning-based generative AI system, further comprising re-learning the deep learning-based generative AI model whenever the value is exceeded.
KR1020230049811A 2023-04-17 2023-04-17 Method for generating and utilizing a training dataset for deep learning based generative ai system using super-large ai KR102570178B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230049811A KR102570178B1 (en) 2023-04-17 2023-04-17 Method for generating and utilizing a training dataset for deep learning based generative ai system using super-large ai

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230049811A KR102570178B1 (en) 2023-04-17 2023-04-17 Method for generating and utilizing a training dataset for deep learning based generative ai system using super-large ai

Publications (1)

Publication Number Publication Date
KR102570178B1 true KR102570178B1 (en) 2023-08-25

Family

ID=87847140

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230049811A KR102570178B1 (en) 2023-04-17 2023-04-17 Method for generating and utilizing a training dataset for deep learning based generative ai system using super-large ai

Country Status (1)

Country Link
KR (1) KR102570178B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102660690B1 (en) * 2023-12-04 2024-04-25 리더이노베이션 주식회사 Design proposal production and proposal design production cost reduction system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220120004A (en) * 2021-02-22 2022-08-30 포항공과대학교 산학협력단 Optimizing hvac system operarion using interconnected neural networks and online learning and operatiing method thereof
KR102492685B1 (en) * 2021-10-27 2023-01-30 리앤킴 주식회사 Method for data hybridization using artificial intelligence and device therefor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220120004A (en) * 2021-02-22 2022-08-30 포항공과대학교 산학협력단 Optimizing hvac system operarion using interconnected neural networks and online learning and operatiing method thereof
KR102492685B1 (en) * 2021-10-27 2023-01-30 리앤킴 주식회사 Method for data hybridization using artificial intelligence and device therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102660690B1 (en) * 2023-12-04 2024-04-25 리더이노베이션 주식회사 Design proposal production and proposal design production cost reduction system

Similar Documents

Publication Publication Date Title
KR101153082B1 (en) Application programming interface for text mining and search
US8756185B2 (en) Generating a document representation using semantic networks
JP4750456B2 (en) Content propagation for enhanced document retrieval
KR100461019B1 (en) web contents transcoding system and method for small display devices
US8438164B2 (en) Techniques for targeting information to users
Deshpande et al. Text summarization using clustering technique
KR20060045783A (en) Mining service requests for product support
AU2019201531A1 (en) An in-app conversational question answering assistant for product help
JP7095114B2 (en) Generating a domain-specific model in a networked system
Zhang et al. Mining and clustering service goals for restful service discovery
Contreras et al. A semantic portal for the international affairs sector
CN111723256A (en) Government affair user portrait construction method and system based on information resource library
WO2023278052A1 (en) Automated troubleshooter
KR102570178B1 (en) Method for generating and utilizing a training dataset for deep learning based generative ai system using super-large ai
JP6537211B1 (en) Search device and program
KR102460438B1 (en) A document information processing system and a document information processing method for extracting summary sentences and keywords
CN114238735B (en) Intelligent internet data acquisition method
KR102252096B1 (en) System for providing bigdata based minutes process service
US20230142351A1 (en) Methods and systems for searching and retrieving information
Singh et al. Semantic web mining: survey and analysis
Costa et al. SmartEDU: Accelerating slide deck production with Natural Language Processing
KR20090095939A (en) System and Method for Displaying Search Result and Recording Medium
Habib et al. Iot-based pervasive sentiment analysis: A fine-grained text normalization framework for context aware hybrid applications
US20220405336A1 (en) System and Method for Modification, Personalization and Customization of Search Results and Search Result Ranking in an Internet-Based Search Engine
KR102607516B1 (en) Apparatus for text sequence processing of input document based on deep learning model and method thereof

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant