KR102540944B1 - Digital content system supporting document management using meta data and integrated search based on artificial intelligent - Google Patents

Digital content system supporting document management using meta data and integrated search based on artificial intelligent Download PDF

Info

Publication number
KR102540944B1
KR102540944B1 KR1020220176858A KR20220176858A KR102540944B1 KR 102540944 B1 KR102540944 B1 KR 102540944B1 KR 1020220176858 A KR1020220176858 A KR 1020220176858A KR 20220176858 A KR20220176858 A KR 20220176858A KR 102540944 B1 KR102540944 B1 KR 102540944B1
Authority
KR
South Korea
Prior art keywords
information
search
document
unit
digital content
Prior art date
Application number
KR1020220176858A
Other languages
Korean (ko)
Inventor
고형석
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020220176858A priority Critical patent/KR102540944B1/en
Application granted granted Critical
Publication of KR102540944B1 publication Critical patent/KR102540944B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

본 발명은 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템에 관한 것으로, 외부 시스템으로부터 수집된 문서를 분석하여 키워드 정보 및 요약문을 생성하는 문서정보 분석부, 외부 시스템으로부터 수집한 상기 문서의 메타데이터, 요약문 및 키워드를 조합하여 검색을 위한 색인 정보를 생성하는 색인정보 생성부, 사용자의 검색 요청에 포함된 검색 정보를 조합하여, 색인 정보와 유사도를 비교하여 검색 결과를 제공하는 지능형 검색부 및 외부 시스템으로 검색, 업무 분류 추천 및 법령정보 제공 중 적어도 하나 이상의 서비스를 제공하기 위한 인터페이스를 제공하는 인터페이스 제공부를 구비하는 디지털 콘텐츠 시스템에 관한 것이다.The present invention relates to an artificial intelligence-based document management and integrated search support digital content system using metadata, a document information analysis unit that analyzes documents collected from an external system to generate keyword information and a summary, and a document information analysis unit that analyzes documents collected from an external system. An index information generation unit that generates index information for search by combining metadata, abstracts, and keywords of the document, and provides search results by combining search information included in a user's search request and comparing index information and similarity The present invention relates to a digital content system having an intelligent search unit and an interface providing unit for providing an interface for providing at least one service among searching, job classification recommendation, and legal information provision to an external system.

Description

메타데이터를 활용한 인공지능 기반 문서관리 및 통합 검색 지원 디지털 콘텐츠 시스템{DIGITAL CONTENT SYSTEM SUPPORTING DOCUMENT MANAGEMENT USING META DATA AND INTEGRATED SEARCH BASED ON ARTIFICIAL INTELLIGENT}AI-based document management and integrated search support digital content system using metadata

본 발명은 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템에 관한 것으로, 독립적으로 운영되는 여러 정보시스템에서 생성, 관리되는 문서와 관련 메타데이터를 수집하고, 딥러닝 분석으로 구축된 검색 정보를 통해 업무 시 통합 검색 및 정보 공유를 지원하는 디지털 콘텐츠 시스템에 관한 것이다.The present invention relates to a digital content system that supports artificial intelligence-based document management and integrated search using metadata, and collects documents and related metadata generated and managed in several independently operated information systems and builds them through deep learning analysis. It relates to a digital content system that supports integrated search and information sharing at work through search information.

정부기관에서 관리하는 전자 문서는 문서를 생산하는 시스템과 생산된 문서를 이관하여 각 기록 단계별로 관리하는 각각의 정보시스템이 독립적으로 존재한다. 이러한 개별적인 시스템으로 구성되는 방식은 사용자가 문서의 이관 단계에 따라 문서의 상태를 확인하여 개별 시스템으로 접속하여 검색해야 하는 불편함이 있으며, 이렇게 검색한 문서를 업무 시스템에 적용하여 활용하기 어려운 문제점을 가지고 있다.Electronic documents managed by government agencies exist independently of a system that produces documents and an information system that transfers produced documents and manages them at each record level. The method composed of these individual systems is inconvenient for the user to check the status of the document according to the transfer stage of the document and connect to the individual system to search, and it is difficult to apply the searched document to the business system and utilize it. Have.

본 발명은 상기 문제점을 해결하기 위해 각 단계별 독립적인 시스템에서 관리되고 있는 문서에 대한 상태 정보를 메타데이터로 관리하고, 문서의 본문 및 첨부파일 내용을 검색할 수 있도록 딥러닝 분석을 통해 색인 정보, 키워드, 요약 정보를 구축하여 통합 검색을 지원한다. 또한, 검색 키워드와 관련된 업무 분류 정보 및 관련 법령 정보를 제공하는 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템을 제공하는데 그 목적이 있다.In order to solve the above problems, the present invention manages status information about documents managed in an independent system for each stage as metadata, and indexes information, It supports integrated search by constructing keywords and summary information. In addition, the purpose is to provide an artificial intelligence-based document management and integrated search support digital content system using metadata that provides business classification information related to search keywords and related laws and regulations.

본 발명의 일 실시예에 따른 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템은, 외부 시스템으로부터 수집된 문서를 분석하여 키워드 정보 및 요약문을 생성하는 문서정보 분석부; 상기 외부 시스템으로부터 수집한 상기 문서의 메타데이터, 상기 요약문 및 상기 키워드를 조합하여 검색을 위한 색인 정보를 생성하는 색인정보 생성부; 사용자의 검색 요청에 포함된 검색 정보를 조합하여, 상기 색인 정보와 유사도를 비교하여 검색 결과를 제공하는 지능형 검색부; 및 상기 외부 시스템으로 검색, 업무 분류 추천 및 법령정보 제공 중 적어도 하나 이상의 서비스를 제공하기 위한 인터페이스를 제공하는 인터페이스 제공부;를 구비할 수 있다.An artificial intelligence-based document management and integrated search support digital content system using metadata according to an embodiment of the present invention includes a document information analysis unit that analyzes documents collected from an external system to generate keyword information and a summary; an index information generation unit generating index information for search by combining the metadata of the document collected from the external system, the summary, and the keyword; an intelligent search unit that combines search information included in a user's search request, compares a similarity with the index information, and provides a search result; and an interface providing unit that provides an interface for providing at least one service of search, work classification recommendation, and provision of legal information to the external system.

또한, 상기 외부 시스템은, 업무 관련 문서를 생산하는 시스템, 상기 문서를 이관하여 기록/저장하는 시스템 및 상기 업무에 대한 분류 정보를 관리하는 시스템 중 적어도 하나 이상을 포함할 수 있다.Also, the external system may include at least one of a system for producing work-related documents, a system for transferring and recording/storing the documents, and a system for managing classification information for the work.

또한, 상기 메타데이터는, 문서 정보, 연계 업무 정보 및 문서 상태 정보 중 적어도 하나 이상을 포함하는 것을 특징으로 할 수 있다.In addition, the metadata may include at least one or more of document information, linked work information, and document status information.

또한, 상기 인터페이스 제공부는, 특정 문서 및 상기 문서와 연계된 업무 정보 중 적어도 하나 이상을 검색할 수 있는 인터페이스를 상기 외부 시스템으로 제공하는 검색 인터페이스부; 및 상기 외부 시스템에서 이루어지는 문서의 생성, 변경 및 이관 중 적어도 하나 이상의 상태 변경 정보를 수신하는 정보변경 인터페이스부;를 포함할 수 있다.The interface providing unit may include: a search interface unit providing an interface capable of searching for at least one of a specific document and business information associated with the document to the external system; and an information change interface unit that receives at least one state change information among the creation, change, and transfer of documents made in the external system.

또한, 상기 검색 인터페이스부는, 자연어 검색어를 지원하고, 검색을 위한 연동 모듈, 검색 API, 및 검색 화면을 중 적어도 하나 이상을 포함하는 인터페이스를 제공할 수 있다.In addition, the search interface unit may support natural language search words and provide an interface including at least one of an interworking module for search, a search API, and a search screen.

또한, 상기 지능형 검색부는, 상기 검색 요청에 포함된 검색어의 형식에 따라 상기 검색어를 분석하는 검색어 처리부; 적어도 하나 이상의 검색 쿼리를 생성하고, 상기 검색 쿼리를 통해 추출된 결과의 유사도를 산출하는 문서 검색부; 및 상기 유사도에 따라 정해진 방식으로 검색 결과를 제공하는 결과 제공부;를 포함할 수 있다.In addition, the intelligent search unit may include a search word processing unit analyzing the search word according to the form of the search word included in the search request; a document search unit generating at least one search query and calculating a similarity of results extracted through the search query; and a result providing unit providing search results in a manner determined according to the degree of similarity.

또한, 상기 문서정보 분석부는, 상기 문서의 형식에 따라 분석 대상 텍스트를 추출하는 텍스트 추출부; 상기 텍스트를 문장 단위로 분리한 후 문장 중요도를 판단하여 요약 문장을 추출하는 요약문장 추출부; 상기 요약 문장을 문맥에 맞게 요약문으로 생성하는 요약문 생성부; 및 상기 요약문에서 키워드를 추출하는 키워드 추출부;를 포함할 수 있다.In addition, the document information analysis unit may include a text extraction unit for extracting text to be analyzed according to the format of the document; a summary sentence extraction unit configured to divide the text into sentence units, determine sentence importance, and extract summary sentences; a summary sentence generating unit generating a summary sentence according to the context; and a keyword extraction unit extracting keywords from the summary.

또한, 상기 디지털 콘텐츠 시스템은, 상기 문서가 포함될 업무 분류 정보를 추천하는 업무분류 추천부; 및 상기 문서와 관련된 법령 정보를 제공하는 법령정보 제공부;를 구비하는 업무정보 제공부를 더 포함할 수 있다.In addition, the digital content system may include a business classification recommendation unit for recommending business classification information to be included in the document; It may further include a business information providing unit having a; and a legal information providing unit for providing legal information related to the document.

또한, 상기 업무분류 추천부는, 딥러닝 알고리즘을 적용하여, 분석된 상기 문서의 키워드 또는 상기 사용자가 입력한 검색 정보에 연관된 상기 업무 분류 정보를 추천하는 것을 특징으로 할 수 있다.In addition, the job classification recommendation unit may be characterized in that it recommends the job classification information related to the keyword of the analyzed document or the search information input by the user by applying a deep learning algorithm.

또한, 상기 법령정보 제공부는, 딥러닝 알고리즘을 적용하여, 분석된 상기 문서의 키워드 또는 상기 사용자가 입력한 검색 정보와 연관된 상기 법령 정보를 제공하는 것을 특징으로 할 수 있다.In addition, the statutory information providing unit may be characterized in providing the statutory information associated with keywords of the analyzed document or search information input by the user by applying a deep learning algorithm.

문서의 생산부터 문서의 기록 관리까지 각 단계별 시스템에서 관리되는 문서 정보를 관리하여, 문서의 상태에 상관없이 통합된 검색을 할 수 있다.By managing the document information managed by the system at each stage from document production to document record management, integrated search can be performed regardless of document status.

문서의 내용뿐 아니라 문서와 관련된 업무 관련 정보로 검색이 가능하여 업무 생산성을 높일 수 있다.It is possible to search not only the contents of the document but also work-related information related to the document, thereby increasing work productivity.

문서 공유 및 통합 검색을 위한 다양한 인터페이스를 제공함으로써, 기존 정보시스템과의 연동을 용이하게 할 수 있고, 이로써, 기존 정보시스템에 인공지능 기반 문서 통합 검색 기능을 적용할 수 있다.By providing various interfaces for document sharing and integrated search, it is possible to facilitate interworking with existing information systems, and thus, AI-based document integrated search function can be applied to existing information systems.

도 1은 본 발명의 일 실시예에 따른 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템의 관계도이다.
도 2는 본 발명의 일 실시예에 따른 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템에서 디지털 콘텐츠 시스템의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템의 업무 단계별 수행 프로세스이다.
1 is a relationship diagram of an artificial intelligence-based document management and integrated search support digital content system using metadata according to an embodiment of the present invention.
2 is a block diagram of a digital content system in an artificial intelligence-based document management and integrated search support digital content system using metadata according to an embodiment of the present invention.
3 is a step-by-step performance process of a digital content system that supports document management and integrated search based on artificial intelligence using metadata according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. However, the spirit of the present invention is not limited to the presented embodiments, and those skilled in the art who understand the spirit of the present invention may add, change, delete, etc. other elements within the scope of the same spirit, through other degenerative inventions or the present invention. Other embodiments included within the scope of the inventive idea can be easily proposed, but it will also be said to be included within the scope of the inventive concept.

그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로써 이는 발명자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이고, 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 생략하기로 한다.In addition, the terms to be described later are terms set in consideration of functions in the present invention, which may vary according to the intention or custom of the inventor, so the definitions should be made based on the contents throughout this specification, and in this specification related to the present invention If it is determined that a detailed description of a well-known configuration or function may obscure the gist of the present invention, a detailed description thereof will be omitted.

이하, 도면을 참조로 하여 본 발명에 따른 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템(200)을 설명한다.Hereinafter, an artificial intelligence-based document management and integrated search support digital content system 200 using metadata according to the present invention will be described with reference to the drawings.

도 1은 본 발명의 일 실시예에 따른 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템(이하, 디지털 콘텐츠 시스템)의 관계도이다.1 is a relationship diagram of a digital content system (hereinafter referred to as a digital content system) supporting document management and integrated search based on artificial intelligence using metadata according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 디지털 콘텐츠 시스템(200)은 업무관리시스템(100), 정보시스템(300) 및 사용자 단말기(400)와 네트워크로 연결되어 서로 통신할 수 있다.The digital content system 200 according to an embodiment of the present invention is connected to the business management system 100, the information system 300, and the user terminal 400 through a network to communicate with each other.

본 발명에서 언급하는 온라인 네트워크라 함은 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.The online network referred to in the present invention may be a core network integrated with a wired public network, a wireless mobile communication network, or a mobile Internet, etc. , HTTPS (Hyper Text Transfer Protocol Secure), Telnet, FTP (File Transfer Protocol), DNS (Domain Name System), SMTP (Simple Mail Transfer Protocol), etc. It comprehensively means a data communication network capable of transmitting and receiving data in various forms without being limited thereto.

본 발명의 일 실시예에 따른 정보시스템(100)은 디지털 콘텐츠 문서와 네트워크로 연동하는 외부 시스템으로, 문서를 수집하고, 데이터 처리를 하여 가공 정보를 산출하는 시스템일 수 있다.The information system 100 according to an embodiment of the present invention is an external system that works with digital content documents through a network, and may be a system that collects documents and processes data to calculate processed information.

일례로, 정보시스템(100)은 행정기관의 업무를 효율적으로 하기 위해 기관 내에서 업무 처리의 전 과정에 필요한 자원, 프로세스 등을 효율적으로 관리하기 위한 업무관리시스템 일 수 있다.For example, the information system 100 may be a business management system for efficiently managing resources and processes necessary for the entire process of business processing within an institution in order to efficiently perform business of an administrative institution.

또한, 정보시스템(100)은 전자 문서를 생산하는 온-나라 문서시스템 또는 전자결재시스템 일 수 있다.Also, the information system 100 may be an on-nara document system or an electronic payment system that produces electronic documents.

또한, 정보시스템(100)은 문서를 기록, 보관하는 기록관리시스템 및 영구기록관리시스템을 일 수 있다.In addition, the information system 100 may be a record management system and a permanent record management system for recording and storing documents.

다만, 이러한 예에 한정하지 않고 다양한 형태의 정보시스템을 포괄적으로 의미하는 것일 수 있다.However, it is not limited to these examples and may mean various types of information systems comprehensively.

본 발명에서 언급하는 시스템은 웹 서버, 데이터 분석 서버, 어플리케이션 서버, 데이터베이스 및 모바일 서버 중 적어도 하나 이상의 역할을 하는 서버로 구축될 수 있다.The system mentioned in the present invention may be constructed as a server serving at least one of a web server, a data analysis server, an application server, a database, and a mobile server.

또한, 상기 시스템은 클라우드 환경 내에 구성된 클라우드 서버일 수 있다.Also, the system may be a cloud server configured in a cloud environment.

또한, 처리된 결과를 온라인 네트워크를 통해 웹 페이지 상에서 보여주거나 필요한 입력 데이터를 웹 페이지를 통해 전송 받을 수 있고, 여기서 웹 페이지는 단순한 텍스트, 이미지, 사운드, 동영상 등 이외에도 웹 어플리케이션과 같은 특정 작업을 수행하기 위한 소프트웨어를 포함하는 것으로 해석되어야 하며, 또한 데스크탑, 노트북, 스마트폰, 태블릿 PC 등에 설치되는 어플리케이션과 인터페이스를 제공하도록 구축될 수도 있다. 다만, 이에 한정하지 않고, 시스템의 종류는 통상의 기술자에게 자명한 수준에서 다양하게 변경 가능하다.In addition, the processed result can be displayed on a web page through an online network or necessary input data can be transmitted through a web page, where the web page performs a specific task such as a web application in addition to simple text, image, sound, and video. It should be interpreted as including software for doing so, and may also be constructed to provide applications and interfaces installed on desktops, laptops, smart phones, tablet PCs, and the like. However, it is not limited to this, and the type of system can be variously changed at a level obvious to those skilled in the art.

본 발명의 일 실시예에 따른 사용자 단말기(300)는 데스크톱, 태블릿, 노트북, 스마트폰, 웨어러블(Wearable) 스마트 기기 등의 다양한 통신 수단을 포함하는 것으로 해석되어야 하며, 정보시스템(100) 및 디지털 콘텐츠 시스템(200) 중 적어도 하나 이상에서 제공하는 각종 기능을 웹 기반 또는 별도의 소프트웨어/애플리케이션 등을 통해 실행할 수 있다.The user terminal 300 according to an embodiment of the present invention should be interpreted as including various communication means such as a desktop, tablet, laptop, smartphone, wearable smart device, and the information system 100 and digital contents Various functions provided by at least one of the systems 200 may be executed through web-based or separate software/applications.

한편, 본 발명에서 언급하는 데이터베이스(DB)는 디지털 콘텐츠 시스템(200)내에 물리적 저장 공간이 포함되어 있거나, 외부에 별도의 독립된 데이터베이스 서버로 구성되어 네트워크 상에서 연결되어 통신할 수 있다.Meanwhile, the database (DB) referred to in the present invention may include a physical storage space in the digital content system 200 or may be configured as a separate and independent database server externally and connected to and communicated on a network.

DB는 하나의 서버 내에서 하나 또는 복수개의 DB로 구성될 수 있다.A DB can be composed of one or a plurality of DBs within one server.

예를 들어, 수집한 문서 정보를 통해 인공지능 분석으로 추출한 키워드, 요약 정보, 첨부 문서 정보, 업무 분류 정보, 관련 법령 정보 등을 관리하는 AI분석DB, 문서에 대한 메타데이터를 관리하는 메타데이터DB 및 문서 검색을 위한 색인 정보를 포함하는 검색DB를 포함할 수 있다.For example, an AI analysis DB that manages keywords extracted by artificial intelligence analysis through collected document information, summary information, attached document information, business classification information, and related statute information, and a metadata DB that manages metadata about documents. and a search DB including index information for document search.

다만, 이에 한정하지 않고, DB의 구성은 통상의 기술자에게 자명한 수준에서 다양하게 변경 가능하다.However, it is not limited to this, and the configuration of the DB can be variously changed at a level obvious to those skilled in the art.

본 발명의 문서는 기관 내에서 작성되거나 관리되는 전자 문서 일 수 있으며, 예를 들어, 보고서, 논문, 결제 서류, 메모, 보도 자료, 평가서 등을 포함할 수 있다.The document of the present invention may be an electronic document prepared or managed within an institution, and may include, for example, reports, papers, payment documents, memos, press releases, evaluation reports, and the like.

또한, 전자 문서는 odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp 및 hwpx 등 파일 형식을 갖출 수 있으며, 데이터베이스를 포함하는 스토리지(Storage)에 저장될 수 있다.In addition, the electronic document may have a file format such as odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp, and hwpx, and may be stored in a storage including a database.

다만, 이에 한정하지 않고, 상기 문서의 종류 및 형식은 통상의 기술자에게 자명한 수준에서 다양하게 변형 가능하다.However, it is not limited to this, and the type and format of the document can be variously modified at a level obvious to those skilled in the art.

도 2는 본 발명의 일 실시예에 따른 디지털 콘텐츠 시스템(200)의 구성도이다.2 is a configuration diagram of a digital content system 200 according to an embodiment of the present invention.

이하에서는 도 2를 참조하여 디지털 콘텐츠 시스템(200)에 대해 자세히 설명한다.Hereinafter, the digital content system 200 will be described in detail with reference to FIG. 2 .

본 발명의 일 실시예에 따른 디지털 콘텐츠 시스템(200)은 문서 및 메타데이터를 수집하는 문서정보 수집부(210), 수집한 문서 정보를 딥러닝을 통해 분석 모델을 산출하고, 분석 모델을 통해 키워드 및 요약문을 추출하는 문서정보 분석부(220), 문서의 메타데이터, 키워드, 요약문 정보를 조합하여 검색을 위한 색인 정보를 생성 또는 갱신하는 색인정보 생성부(230), 구축된 색인 정보를 통해 자연어 기반 문서 검색을 지원하는 지능형 검색부(240), 문서와 관련된 업무 분류 추천 및 법령 정보를 제공하는 업무정보 제공부(250) 및 외부 시스템이 통합 문서 및 업무 정보 검색을 가능하도록 인터페이스를 제공하는 인터페이스 제공부(260)을 구비할 수 있다.The digital content system 200 according to an embodiment of the present invention calculates an analysis model through a document information collection unit 210 for collecting documents and metadata, the collected document information through deep learning, and keywords through the analysis model. and a document information analysis unit 220 that extracts a summary, an index information generation unit 230 that generates or updates index information for search by combining metadata, keywords, and summary information of documents, and natural language through the built index information. An intelligent search unit 240 that supports based document search, a business information providing unit 250 that provides job classification recommendation and statutory information related to documents, and an interface that provides an interface so that an external system can search integrated documents and business information. A provision unit 260 may be provided.

문서정보 수집부(210)는 외부 시스템으로부터 문서 및 메타데이터를 수집한다.The document information collection unit 210 collects documents and metadata from external systems.

문서정보 수집부(210)는 적어도 하나 이상의 외부 시스템으로부터 문서 및 메타데이터를 수집할 수 있고, 외부 시스템이 제공하는 연동API를 이용하거나, FTP, HTTP 프로토콜 기반 통신 모듈, TCP/IP기반 Socket 통신 모듈을 통해 외부 시스템과 사전에 협의된 방식으로 정보를 수집할 수 있다. The document information collection unit 210 may collect documents and metadata from at least one external system, use an interworking API provided by an external system, FTP, HTTP protocol-based communication module, TCP/IP-based Socket communication module. Through this, information can be collected in a way agreed upon in advance with an external system.

다만, 이에 한정하지 않고, 수집 방식은 통상의 기술자에게 자명한 수준에서 다양하게 변형 가능하다.However, it is not limited to this, and the collection method can be variously modified at a level obvious to those skilled in the art.

문서정보 수집부(210)는 각각의 외부 시스템에서 새롭게 생성된 문서나, 이미 존재하는 문서의 메타데이터가 변경된 문서를 수집 대상으로 판단할 수 있다.The document information collection unit 210 may determine a document newly created in each external system or a document whose metadata of an already existing document is changed as a collection target.

상기 메타데이터는 문서 정보, 연계 업무 정보 및 상태 정보 중 적어도 하나 이상을 포함할 수 있다.The metadata may include at least one or more of document information, linked business information, and status information.

예를 들어, 문서 정보는 문서의 제목, 문서의 크기, 파일 형식, 첨부 문서 정보, 서식 정보, 생성자, 생성시간, 저장위치, 파일이름 등을 포함할 수 있다.For example, document information may include a document title, document size, file format, attached document information, format information, creator, creation time, storage location, file name, and the like.

연계 업무 정보는 업무 분류, 담당부서, 일정, 연계 메모 정보, 발신자, 수신자, 공유자, 문서열람 권한 등을 포함할 수 있다.Linked task information may include task classification, department in charge, schedule, linked memo information, sender, receiver, sharer, document viewing authority, and the like.

문서 상태 정보는 업무 진행 단계 및 문서의 생성/변경/이관에 대한 처리일시 및 내역을 포함할 수 있다.The document status information may include the processing date and time and details of the work progress stage and creation/change/transfer of the document.

메타데이터는 계층적 구조를 포함하는 xml 또는 html 형식일 수 있으며, 메타데이터는 수신 후 데이터 항목과 그에 따른 데이터 값을 추출하여 데이터베이스의 테이블 형태로 변환되어 저장되고 관리될 수 있다.The metadata may be in an xml or html format including a hierarchical structure, and after receiving the metadata, data items and corresponding data values may be extracted, converted into a table form of a database, stored, and managed.

문서정보 분석부(220)는 수집된 문서에서 텍스트를 추출하여 딥러닝 분석을 통해 키워드 및 요약문을 추출한다. 이때, 텍스트 추출 대상은 본문내용 및 첨부 문서를 포함할 수 있다.The document information analysis unit 220 extracts text from the collected documents and extracts keywords and summaries through deep learning analysis. In this case, the text extraction target may include body contents and attached documents.

문서정보 분석부(220)는 문서의 형식에 따라 텍스트를 추출하는 텍스트 추출부(221), 추출된 텍스트에서 문장 단위로 분리 후 문장 중요도를 판단하여 요약 문장을 추출하는 요약문장 추출부(222), 추출된 요약 문장을 문맥에 맞게 요약문을 생성하는 요약문 생성부(223) 및 본문에서 키워드를 추출하는 키워드 추출부(224)를 포함할 수 있다.The document information analysis unit 220 includes a text extraction unit 221 that extracts text according to the format of the document, and a summary sentence extraction unit 222 that extracts a summary sentence by determining the importance of the sentence after separating the extracted text into sentence units. , It may include a summary sentence generation unit 223 that generates a summary sentence according to the context of the extracted summary sentence and a keyword extraction unit 224 that extracts keywords from the text.

텍스트 추출부(221)는 문서의 구조를 분석하고 문서의 형식을 자동으로 파악한다. 이때, 문서 형식은 표지, 제목, 목차, 본문, 표 등의 문서 구조를 의미할 수 있다.The text extraction unit 221 analyzes the structure of the document and automatically recognizes the format of the document. In this case, the document format may mean a document structure such as a cover page, a title, a table of contents, a body, and a table.

또한, 미리 정의된 문서 형식을 따르는 문서의 경우 목차, 요약, 결과 등 주요 내용이 담긴 일부 영역의 텍스트만 추출 할 수 있다.In addition, in the case of a document that follows a predefined document format, it is possible to extract only the text of some areas containing the main contents such as the table of contents, summary, and results.

문서 형식을 분류하기 위해 결과보고서, 평가서, 활용보고서, 논문, 보도자료 등의 문서 형식을 사전에 정의하고, 정규 표현식, TextCNN 및 BERT를 통한 분류 모델을 사용하여 문서 형식을 분류할 수 있다.To classify document types, document types such as result reports, evaluation reports, utilization reports, papers, and press releases can be defined in advance, and document types can be classified using regular expressions, classification models through TextCNN and BERT.

추출된 텍스트는 문장 단위로 토큰화하여, 분석이 용이하도록 문장 묶음 형태의 데이터로 저장한다. The extracted text is tokenized in sentence units and stored as data in the form of sentence bundles for easy analysis.

이때, 문장 단위 토큰화는 형태소 분석기를 통해 형태소를 분석한 후 마지막 형태소를 판단하여 문장을 분리 또는 연결할 수 있다.At this time, in the sentence unit tokenization, sentences may be separated or connected by determining the last morpheme after analyzing the morpheme through the morpheme analyzer.

또한, 토큰화된 문장은 형태소 분석을 통해 산출된 형태소가 부착된 문장 형태로 관리 될 수 있다.In addition, tokenized sentences can be managed in the form of sentences with attached morphemes calculated through morpheme analysis.

또한, 특수문자, 불용어, 사용하지 않는 개체명 등을 제거하는 작업이 수반될 수 있고, 텍스트 분석 정확도를 위해 문서 형식 별로 다른 제거 규칙을 적용할 수 있다.In addition, special characters, stop words, unused object names, etc. may be removed, and different removal rules may be applied for each document type for text analysis accuracy.

요약문장 추출부(222)는 텍스트 추출부(221)에서 추출한 문장 단위 묶음 데이터를 지정된 분석 모델을 사용하여 문장 별 중요도 태그를 부착하고, 중요도가 높은 문장 순으로 사전에 정의된 수의 문장을 추출한다.The summary sentence extractor 222 attaches importance tags for each sentence using a designated analysis model to the sentence unit bundle data extracted from the text extractor 221, and extracts a predefined number of sentences in order of highest importance. do.

이때, 지정된 분석 모델은 TextRank, SBERT 등 복수개의 모델을 포함할 수 있고, 상기 모델 중 정확도가 가장 높은 모델을 지정할 수 있다.In this case, the designated analysis model may include a plurality of models such as TextRank and SBERT, and a model with the highest accuracy among the models may be designated.

또한, 문장 중요도 분석 모델은 평가 정확도가 사전에 정해진 임계치 이상 또는 임계치 이하일 경우 자동 모델 재학습 및 평가가 수행될 수 있다.In addition, when the evaluation accuracy of the sentence importance analysis model is higher than or lower than a predetermined threshold, automatic model relearning and evaluation may be performed.

또한, 문장 중요도 판단 시 사용된 일부 데이터는 재학습을 위한 검증용 문장으로 저장될 수 있다.In addition, some data used when determining the importance of sentences may be stored as sentences for verification for re-learning.

요약문 생성부(223)는 요약문장 추출부(222)에서 추출한 요약 문장을 바탕으로 요약 문장을 생성한다.The summary sentence generator 223 generates a summary sentence based on the summary sentence extracted by the summary sentence extractor 222 .

요약문 생성부(223)는 추출한 요약 문장을 간결하고 문맥이 자연스러운 요약문으로 생성하는 것을 목적으로 한다.The purpose of the summary sentence generating unit 223 is to generate the extracted summary sentence into a concise and context-natural summary sentence.

이 때, 지정된 생성 모델은 GPT3(Generative Pre-trained Transformer 3), BART(Bidirectional and Auto-Regressive Transformers), T5, PEGASUS(Pre-training with Extracted Gap-sentences for Abstractive Summarization), LED(Longformer Encoder-Decoder) 등 복수개의 모델을 포함할 수 있고, 상기 모델 중 정확도가 가장 높은 모델을 지정할 수 있다.At this time, the designated generation model is GPT3 (Generative Pre-trained Transformer 3), BART (Bidirectional and Auto-Regressive Transformers), T5, PEGASUS (Pre-training with Extracted Gap-sentences for Abstractive Summarization), LED (Longformer Encoder-Decoder) ), etc., and a model with the highest accuracy among the models may be designated.

키워드 추출부(224)는 텍스트 추출부(221)에서 추출한 본문 또는 문서의 일부 내용 텍스트에서 형태소 태그를 확인하여 조사, 어미 등을 제거한다. The keyword extractor 224 checks morpheme tags in the text extracted by the text extractor 221 or removes postpositions, endings, and the like.

이때, 제거할 조사, 어미 등의 제거할 형태소 태그는 사전에 정의될 수 있다.In this case, morpheme tags to be removed, such as a particle to be removed and a suffix to be removed, may be defined in advance.

키워드 추출부(224)는 조사, 어미가 제거된 단어들을 키워드 추출 모델을 적용하여 단어 별 본문과의 의미 유사도를 분석하고 유사도 태그를 부착한다.The keyword extraction unit 224 analyzes semantic similarity with the text for each word by applying a keyword extraction model to the words from which the search and suffixes have been removed, and attaches a similarity tag.

이후, 유사도가 높은 단어 순으로 사전에 정의된 수의 단어를 추출하여 핵심 키워드로 저장한다.Thereafter, a number of words defined in the dictionary are extracted in order of high similarity and stored as core keywords.

이때, 키워드 추출 모델은 TextRank, SBERT 등 복수개의 모델을 포함할 수 있고, 상기 모델 중 정확도가 가장 높은 모델을 지정할 수 있다.In this case, the keyword extraction model may include a plurality of models such as TextRank and SBERT, and a model with the highest accuracy among the models may be designated.

또한, 키워드 추출 모델은 평가 정확도가 사전에 정해진 임계치 이상 또는 임계치 이하일 경우 자동 모델 재학습 및 평가가 수행될 수 있다.In addition, when the evaluation accuracy of the keyword extraction model is higher than or lower than a predetermined threshold, automatic model relearning and evaluation may be performed.

또한, 키워드 추출 시 사용된 일부 데이터는 재학습을 위한 검증용 데이터로 저장될 수 있으며, 유사어, 신조어 학습을 목적으로 사용될 수 있다.In addition, some data used when extracting keywords can be stored as verification data for re-learning, and can be used for the purpose of learning similar words and new words.

색인정보 생성부(230)는 수집한 문서의 메타데이터, 문서내용을 분석하여 추출된 요약문, 키워드 정보를 검색을 위한 색인 정보로 생성하여 저장하고, 관리한다. The index information generation unit 230 generates, stores, and manages metadata of collected documents, summaries extracted by analyzing document contents, and keyword information as index information for search.

예를 들어, 색인 정보는 키워드와 해당 키워드가 포함된 문서 정보를 연결하여 관리하는 역 색인(Inverted Index) 구조로 구축될 수 있다.For example, the index information may be constructed in an inverted index structure in which keywords and document information including the keywords are connected and managed.

또한, 문서 내 키워드가 포함된 수, 문서의 길이, 키워드에 대한 가중치 등을 관리할 수 있다.In addition, the number of keywords included in the document, the length of the document, and the weight for keywords can be managed.

또한, 검색 조건으로 사용되는 메타데이터와 문서 정보를 연결하여 관리할 수 있다.In addition, metadata used as search conditions and document information can be linked and managed.

색인정보 생성부(230)는 문서정보 수집부(210)에서 수집한 정보 또는 정보변경 인터페이스부(262)에서 수집되는 문서 상태 변경 정보를 전달받아 색인 정보를 갱신할 수 있다.The index information generation unit 230 may update index information by receiving information collected by the document information collection unit 210 or document state change information collected by the information change interface unit 262 .

지능형 검색부(240)는 사용자의 검색 요청에 포함된 검색 정보를 조합하여, 상기 문서의 색인 정보와 유사도를 비교하여 검색 결과를 제공한다.The intelligent search unit 240 combines the search information included in the user's search request, compares the index information of the document with a similarity, and provides a search result.

지능형 검색부(240)는 검색 정보에 포함된 검색어의 형식에 따라 검색어를 분석하여 검색 단어를 추출하는 검색어 처리부(241), 검색 단어를 조합하여 검색 쿼리를 생성하고, 검색 쿼리를 통해 추출된 결과의 유사도를 산출하는 문서 검색부(242) 및 유사도에 따라 정해진 방식으로 검색 결과를 제공하는 결과 제공부(243)를 포함한다.The intelligent search unit 240 analyzes the search word according to the form of the search word included in the search information and extracts the search word processing unit 241, generates a search query by combining the search word, and results extracted through the search query. It includes a document search unit 242 that calculates the similarity of and a result providing unit 243 that provides search results in a method determined according to the similarity.

본 발명에 따른 실시예에 따른 디지털 콘텐츠 시스템(200)은 자연어 검색 및 정규 표현식 검색어를 지원할 수 있다.The digital content system 200 according to an embodiment of the present invention may support natural language search and regular expression search words.

이때, 정규 표현식에 사용되는 문자 및 패턴은 사전에 정의되어 사용자에게 안내될 수 있다.In this case, characters and patterns used in the regular expression may be defined in advance and guided to the user.

검색 정보는 적어도 하나 이상의 항목명과 검색어의 페어(Pair) 형태로 구성될 수 있고, 검색어는 적어도 하나 이상의 단어의 나열 또는 문장으로 이루어 질 수 있다.The search information may be formed in the form of a pair of at least one item name and a search word, and the search word may be composed of a sequence of at least one word or a sentence.

검색어 처리부(241)는 사용자로부터 입력 받은 검색 정보를 항목과 검색어로 분리하고, 검색어가 정규 표현식인지를 판단한다.The search word processing unit 241 separates the search information received from the user from an item and a search word, and determines whether the search word is a regular expression.

정규 표현식인 경우 정의된 정규 표현식에 따라 토큰 단위로 분리한다.If it is a regular expression, it is divided into token units according to the defined regular expression.

정규 표현식이 아닌 경우 자연어로 인식하고, 토큰 단위로 분리한다.If it is not a regular expression, it is recognized as a natural language and separated into token units.

이때, 토큰 단위로 분리하기 위해 standard, nori, whitespace, pattern, lowercase tokenizer를 사용할 수 있다.At this time, standard, nori, whitespace, pattern, and lowercase tokenizer can be used to separate token units.

또한, 형태소 분석을 통해 조사와 어미를 제거하는 과정을 수행할 수 있다.In addition, it is possible to carry out the process of removing suffixes and suffixes through morpheme analysis.

문서 검색부(242)는 분리된 토큰을 조합하여 복수개의 검색 쿼리를 생성한다. The document search unit 242 generates a plurality of search queries by combining the separated tokens.

여기서, 분리된 토큰의 유의어를 적용하여 복수개의 쿼리를 생성할 수 있다.Here, a plurality of queries may be generated by applying synonyms of separated tokens.

문서 검색부(242)는 복수개의 쿼리에 대한 가중치를 적용하고, 각 쿼리의 검색 결과로 도출된 문서의 유사도를 산출할 수 있다.The document search unit 242 may apply weights to a plurality of queries and calculate a similarity of documents derived as a search result of each query.

가중치 평가의 지표는 문서의 길이에 따른 문서 내 토큰이 등장하는 횟수, 유의어의 유사도가 될 수 있다.Indicators of weight evaluation can be the number of occurrences of tokens in a document according to the length of the document and the similarity of synonyms.

상기 검색어에 대한 쿼리 적용 시 검색 조건으로 포함된 문서의 메타데이터 항목을 포함하여 문서 검색의 범위를 줄일 수 있다. When a query is applied to the search term, the scope of a document search may be reduced by including a metadata item of a document included as a search condition.

예를 들어, 업무 단계, 결재 단계, 담당자, 담당부서, 생성일자, 문서 형식, 문서 이관 상태 등 문서의 메타데이터로 제공된 항목들이 검색 조건에 포함된 경우 상기 조건을 만족하는 문서의 대해 검색어에 대한 쿼리를 적용할 수 있다. For example, if items provided as metadata of documents, such as work stage, approval stage, person in charge, department in charge, creation date, document format, document transfer status, etc. are included in the search conditions, search terms for documents that satisfy the above conditions query can be applied.

결과 제공부(243)는 문서 검색부(242)에서 추출한 문서 검색 결과에서 문서의 유사도에 따라 정해진 방식으로 검색 결과를 제공한다.The result providing unit 243 provides a search result according to the similarity of documents in the document search result extracted by the document search unit 242 in a predetermined manner.

여기서, 정해진 방식은 검색 결과를 내림차순으로 정렬하고, 검색 결과로 제공될 사전에 정의된 검색 결과 항목들을 하나의 데이터 세트로 만들어 제공할 수 있다. Here, the predetermined method may arrange search results in descending order, and make and provide predefined search result items to be provided as search results as one data set.

여기서 데이터 세트는 검색 결과를 담을 수 있는 데이터베이스 테이블, 리소스 오브젝트(Resource Object), xml파일 등을 포함할 수 있다.Here, the data set may include a database table capable of containing search results, a resource object, an xml file, and the like.

검색 결과는 문서 정보, 키워드 정보, 요약 정보, 연계 업무 관련 정보, 문서 상태 정보 등을 포함할 수 있다.The search result may include document information, keyword information, summary information, related work-related information, document status information, and the like.

업무정보 제공부(250)는 문서와 연관된 업무 정보를 제공하며, 문서의 업무 분류 정보를 추천하는 업무분류 추천부(251) 및 문서와 관련된 법령 정보를 제공하는 법령정보 제공부(252)를 포함한다.The business information providing unit 250 provides business information related to documents, and includes a business classification recommendation unit 251 that recommends business classification information of documents and a legal information providing unit 252 that provides legal information related to documents. do.

업무분류 추천부(251)는 대상 문서의 키워드 또는 사용자가 입력한 검색 정보와 연관된 업무 분류를 추천한다. The business classification recommendation unit 251 recommends a job classification associated with a keyword of a target document or search information input by a user.

업무분류 추천부(251)는 업무 분류 추천을 위해 딥러닝 알고리즘을 적용한 업무 분류 추천 모델을 적용할 수 있다.The task classification recommendation unit 251 may apply a task classification recommendation model to which a deep learning algorithm is applied for task classification recommendation.

본 발명의 일 실시예로, 업무 분류 모델이 예측하는 업무 분류는 정부기능분류체계에 포함된 단위과제 일 수 있다.As an embodiment of the present invention, the task classification predicted by the task classification model may be a unit task included in the government functional classification system.

정부기능분류체계는 정부가 상시적으로 수행하는 업무를 기능 수준에 따라 정책분야, 정책영역, 대기능, 중기능, 소기능, 단위과제로 분류한다.The governmental function classification system classifies tasks that the government regularly performs into policy areas, policy areas, large functions, medium functions, small functions, and unit tasks according to the functional level.

업무분류 추천부(251)는 정부기능분류체계 정보를 수집하기 위해 정부기능분류시스템과 연동할 수 있다.The task classification recommendation unit 251 may interwork with the government function classification system to collect government function classification system information.

다만, 이에 한정하지 않고, 업무 분류 체계 및 수집 대상은 본 발명의 적용통상분야에 따라 다양하게 변경 가능하다. However, it is not limited to this, and the business classification system and the collection target can be variously changed according to the general application field of the present invention.

업무 분류 추천 모델은 문서의 키워드와 해당 문서가 포함된 업무 분류 정보를 적용하여 딥러닝 학습 및 평가를 수행하여 구축된 모델이다.The task classification recommendation model is a model built by performing deep learning learning and evaluation by applying the keywords of the document and the task classification information included in the document.

여기서, 업무 분류 추천 모델에 적용되는 딥러닝 알고리즘은 TextCNN, GRU(Gated Recurrent Unit), BERT, BiLSTM(Bidirectional Long Short-Term Memory)을 사용할 수 있고, 각 알고리즘을 적용한 모델의 성능 평가를 통해 예측 결과가 가장 좋은 모델을 적용할 수 있다.Here, TextCNN, GRU (Gated Recurrent Unit), BERT, and BiLSTM (Bidirectional Long Short-Term Memory) can be used as deep learning algorithms applied to the task classification recommendation model. can apply the best model.

법령정보 제공부(252)는 대상 문서의 키워드 또는 사용자가 입력한 검색 정보와 연관된 법령정보를 제공한다.The legal information provider 252 provides legal information related to keywords of target documents or search information input by a user.

여기서, 관련 법령 정보 제공을 위해 딥러닝 알고리즘을 적용한 법령정보 제공 모델을 적용할 수 있다.Here, a statutory information provision model applied with a deep learning algorithm can be applied to provide related statutory information.

본 발명의 일 실시예로, 법령정보 제공 모델이 예측하는 법령정보는 국가법령체계에 포함된 법률, 대통령령, 부령, 행정규칙, 자치법규 일 수 있다.As an embodiment of the present invention, the statutory information predicted by the statutory information provision model may be laws, presidential decrees, ministerial ordinances, administrative rules, and self-governing laws included in the national statutory system.

법령정보 제공부(252)는 법령체계 정보를 수집하기 위해 국가법령정보시스템과 연동할 수 있다.The legal information providing unit 252 may be interlocked with the national legal information system to collect legal system information.

법령정보 제공 모델은 문서의 키워드, 해당 문서가 포함된 업무 분류 정보, 해당 기관 또는 부처 및 관련 법령 정보를 적용하여 딥러닝 학습 및 평가를 수행하여 구축된 모델이다.The statutory information provision model is a model built by performing deep learning learning and evaluation by applying the keywords of documents, business classification information that includes relevant documents, relevant agencies or departments, and related laws and regulations.

여기서, 법령정보 제공 모델에 적용되는 딥러닝 알고리즘은 TextCNN, GRU, BERT, BiLSTM을 사용할 수 있고, 각 알고리즘을 적용한 모델의 성능 평가를 통해 예측 결과가 가장 좋은 모델을 적용할 수 있다.Here, TextCNN, GRU, BERT, and BiLSTM can be used as the deep learning algorithm applied to the statutory information provision model, and the model with the best prediction result can be applied through performance evaluation of the model to which each algorithm is applied.

인터페이스 제공부(260)는 외부 시스템에게 검색, 업무 분류 추천 및 법령정보 제공 중 적어도 하나 이상의 서비스를 제공하기 위한 인터페이스를 제공한다.The interface providing unit 260 provides an interface for providing at least one service of search, work classification recommendation, and provision of legal information to an external system.

인터페이스 제공부(260)는 특정 문서 및 문서와 연계된 업무 정보 중 적어도 하나 이상을 검색할 수 있는 인터페이스를 외부 시스템으로 제공하는 검색 인터페이스부(261)와 외부 시스템에서 이루어지는 문서의 생성, 변경 및 이관 중 적어도 하나 이상의 상태 변경 정보를 수신하는 문서상태 인터페이스부(262)를 포함한다.The interface providing unit 260 includes a search interface unit 261 that provides an external system with an interface capable of searching for at least one of a specific document and business information associated with the document, and creates, changes, and transfers documents made in the external system. and a document state interface unit 262 for receiving at least one state change information among

검색 인터페이스부(261)는 외부 시스템의 활용 목적에 따라 검색을 위한 연동 모듈, 검색 API, 및 검색 화면을 제공하여 다양한 방식으로 검색을 지원하는 인터페이스를 제공함으로써, 디지털 콘텐츠 시스템(200)의 활용성과 접근성을 높일 수 있다. The search interface unit 261 provides an interface that supports search in various ways by providing an interworking module for search, a search API, and a search screen according to the purpose of using the external system, thereby improving the usability and performance of the digital content system 200. accessibility can be increased.

예를 들어, 외부 시스템이 사용자가 접속하여 검색할 수 있는 화면 인터페이스를 보유하고 있는 경우, 검색 연동 모듈을 해당 외부 시스템의 화면에 적용하여 검색 기능을 구현할 수 있다.For example, when an external system has a screen interface through which a user can access and search, a search function can be implemented by applying a search linkage module to the screen of the corresponding external system.

이때, 검색 연동 모듈은 라이브러리 형태로 제공될 수 있다.At this time, the search interworking module may be provided in the form of a library.

다른 예로, 외부 시스템은 본 발명인 디지털 콘텐츠 시스템(200)의 검색 기능을 활용하기 위해 검색 인터페이스부(261)가 제공하는 검색 API를 사용하여 검색을 요청하고 그 결과를 수신할 수 있다. As another example, an external system may request a search using a search API provided by the search interface unit 261 and receive the search result in order to utilize the search function of the digital content system 200 according to the present invention.

이때, API는 HTTP기반 SOAP, RESTful 방식 등의 통신규약 기반 일 수 있다.At this time, the API may be based on a communication protocol such as HTTP-based SOAP or RESTful method.

다른 예로, 검색 인터페이스부(261)는 외부 시스템의 요청에 따라 검색 화면을 제공할 수 있다. 필요에 따라 외부 시스템이 정의된 방식으로 검색 화면을 요청하면 검색 인터페이스부(261)는 해당 시스템에 대한 인증 및 세션 정보를 체크하여 검색 화면의 링크를 제공할 수 있다.As another example, the search interface unit 261 may provide a search screen according to a request from an external system. If necessary, when an external system requests a search screen in a defined manner, the search interface unit 261 may provide a link to the search screen by checking authentication and session information for the corresponding system.

정보변경 인터페이스부(262)는 외부 시스템에서 이루어지는 문서의 생성, 변경, 이관 등의 관리 대상 문서에 대한 이벤트 정보를 수신하여, 수집 대상으로 포함하거나, 문서의 메타데이터를 갱신한다.The information change interface unit 262 receives event information about a document to be managed, such as creation, change, transfer, etc. of a document made in an external system, includes it as a collection target, or updates metadata of the document.

정보변경 인터페이스부(262)는 API 형태로 제공될 수 있고, 외부 시스템과 사전에 정의된 방식으로 요청/응답이 이루어질 수 있다.The information change interface unit 262 may be provided in the form of an API, and a request/response may be made with an external system in a predefined manner.

정보변경 인터페이스부(262)가 이벤트 요청에 대한 메타데이터를 갱신은 실시간 및/또는 주기적으로 이루어 질 수 있다.The information change interface unit 262 may update the metadata for the event request in real time and/or periodically.

도 3은 본 발명의 일 실시예에 따른 메타데이터를 활용한 인공지능 기반 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템(200)의 업무 단계별 수행 프로세스이다.3 is a process performed by each task of the digital content system 200 supporting artificial intelligence-based document management and integrated search using metadata according to an embodiment of the present invention.

이하, 도 3을 참조하여 업무 단계별 디지털 콘텐츠 시스템(200)의 수행 프로세스에 대해 자세히 설명한다.Hereinafter, the process of performing the digital content system 200 for each business step will be described in detail with reference to FIG. 3 .

사용자는 외부 시스템 중 하나인 업무관리시스템에 접속하여 기관의 과제 수행을 위한 문서를 작성할 수 있다. 이때, 필요한 정보 및 관련 문서를 디지털 콘텐츠 시스템(200)의 검색 기능을 활용하여 검색할 수 있다.The user can access the task management system, one of the external systems, and create documents for the institution's task performance. At this time, necessary information and related documents may be searched using the search function of the digital content system 200 .

업무관리시스템으로 제공된 디지털 콘텐츠 시스템(200)의 검색 인터페이스를 통해 사용자가 검색어를 입력하면, 디지털 콘텐츠 시스템(200)은 구축된 검색 데이터베이스를 검색하여 검색 결과를 제공한다. When a user inputs a search word through the search interface of the digital content system 200 provided as a business management system, the digital content system 200 searches the built search database and provides search results.

이때, 사용자가 선택한 검색 결과를 별도로 저장하여, 딥러닝의 학습 데이터로 적용하여 모델의 정확도를 높일 수 있다.At this time, the search result selected by the user can be separately stored and applied as deep learning training data to increase the accuracy of the model.

사용자는 과제 수행을 위해 일정등록, 회의, 자료 공유 등을 수행할 수 있고, 각 업무 단계에서 검색 기능을 활용할 수 있다. Users can perform schedule registration, meetings, data sharing, etc. to perform tasks, and can utilize the search function at each work stage.

또한, 작성한 문서의 주제 또는 핵심 키워드를 입력하여 해당 문서의 업무 분류 정보를 자동으로 추천받아 문서에 적용할 수 있다.In addition, by inputting the subject or core keyword of the document, job classification information of the document can be automatically recommended and applied to the document.

작성이 완료된 문서는 다른 업무 담당자와 공유될 수 있도록 기록관리시스템과 같은 특정 정보시스템(100)에 등록될 수 있는데, 이때, 디지털 콘텐츠 시스템(200)은 문서와 문서에 관련된 메타데이터를 수집할 수 있다. 문서 수집 및 메타데이터 수집은 정보변경 인터페이스부(262)를 통해 문서 생성에 대한 이벤트를 수신하여 내부에 저장 후, 주기적으로 일괄 수행되거나, 이벤트 접수 시 실시간으로 이루어질 수 있다.The completed document may be registered in a specific information system 100 such as a record management system so that it can be shared with other people in charge. At this time, the digital content system 200 can collect documents and metadata related to the documents. there is. Document collection and metadata collection can be performed periodically after receiving an event for document generation through the information change interface unit 262 and storing it therein, or in real time when an event is received.

수집된 문서와 메타데이터는 문서정보 분석부(220)를 통해 요약문, 키워드를 추출하고, 이를 바탕으로 검색을 위한 색인 정보를 생성한다.A summary sentence and keywords are extracted from the collected documents and metadata through the document information analysis unit 220, and index information for search is created based on these.

문서 등록 후 담당자 이관, 문서 이관, 업무 상태 변경, 문서 폐기 등의 문서 관련 정보가 변경되는 경우, 외부 시스템은 정보변경 인터페이스부(262)를 통해 변경 정보에 대한 이벤트를 전달하고, 디지털 콘텐츠 시스템(200)은 변경 정보를 반영하여, 메타데이터, 색인 정보를 갱신한다.If document-related information such as transfer of person in charge, document transfer, business status change, document disposal, etc. is changed after document registration, the external system transmits an event for the change information through the information change interface unit 262, and the digital content system ( 200) updates metadata and index information by reflecting the changed information.

디지털 콘텐츠 시스템(200)은 하나 이상의 외부 시스템이 생성하는 문서를 서로 공유하고, 통합 검색을 가능하게 하며, 문서의 생성 후 타 시스템으로 이관되는 문서의 상태를 모니터링하고, 통합 관리함으로써, 업무 처리 과정을 seamless하게 연계하고, 정보 공유 및 활용을 극대화하여 업무 효율 향상의 효과를 제공할 수 있다.The digital content system 200 shares documents generated by one or more external systems, enables integrated search, monitors the status of documents transferred to other systems after creation, and manages them in an integrated manner, thereby providing a work process process. can provide the effect of improving work efficiency by seamlessly linking information and maximizing information sharing and utilization.

상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.In the above, the configuration and characteristics of the present invention have been described based on the embodiments according to the present invention, but the present invention is not limited thereto, and various changes or modifications can be made within the spirit and scope of the present invention. It is ordered by those skilled in the art, and therefore such changes or modifications are included within the scope of the appended claims.

100: 정보시스템
200: 문서관리 및 통합검색 지원 디지털 콘텐츠 시스템
210: 문서정보 수집부
220: 문서정보 분석부
221: 텍스트 추출부
222: 요약문장 추출부
223: 요약문 생성부
224: 키워드 추출부
230: 색인정보 생성부
240: 지능형 검색부
241: 검색어 처리부
242: 문서 검색부
243: 결과 제공부
250: 업무정보 제공부
251: 업무분류 추천부
252: 법령정보 제공부
260: 인터페이스 제공부
261: 검색 인터페이스부
262: 정보변경 인터페이스부
300: 사용자 단말기
100: information system
200: Digital content system supporting document management and integrated search
210: document information collection unit
220: document information analysis unit
221: text extraction unit
222: summary sentence extraction unit
223: summary statement generation unit
224: keyword extraction unit
230: index information generation unit
240: intelligent search unit
241: search term processing unit
242: document search unit
243: result providing unit
250: business information provision unit
251: business classification recommendation unit
252: Legal information provision department
260: interface providing unit
261: search interface unit
262: information change interface unit
300: user terminal

Claims (10)

외부 시스템으로부터 수집된 문서를 분석하여 키워드 정보 및 요약문을 생성하는 문서정보 분석부;
상기 외부 시스템으로부터 수집한 상기 문서의 메타데이터, 상기 요약문 및 상기 키워드를 조합하여 검색을 위한 색인 정보를 생성하는 색인정보 생성부;
사용자의 검색 요청에 포함된 검색 정보를 조합하여, 상기 색인 정보와 유사도를 비교하여 검색 결과를 제공하는 지능형 검색부; 및
상기 외부 시스템으로 검색, 업무 분류 추천 및 법령정보 제공 중 적어도 하나 이상의 서비스를 제공하기 위한 인터페이스를 제공하는 인터페이스 제공부;를 구비하고,
상기 외부 시스템은,
전자결재시스템 및 업무관리시스템 중 적어도 하나를 포함하는 업무 관련 문서를 생산하는 시스템 및 상기 문서를 이관하여 기록/저장하는 시스템 중 적어도 하나 이상을 포함하고,
상기 메타데이터는,
문서 정보, 연계 업무 정보 및 문서 상태 정보를 포함하고,
상기 연계 업무 정보는 업무 분류, 담당부서, 일정, 연계 메모 정보, 발신자, 수신자, 공유자 및 문서 열람 권한 중 적어도 하나 이상을 포함하고,
상기 문서 상태 정보는 업무 진행 단계, 문서의 생성 정보, 문서의 변경 정보 및 문서의 이관 정보 중 적어도 하나 이상을 포함하고,
상기 인터페이스 제공부는,
특정 문서 및 상기 문서와 연계된 업무 정보를 검색할 수 있는 인터페이스를 상기 외부 시스템으로 제공하는 검색 인터페이스부; 및
상기 외부 시스템에서 이루어지는 문서의 생성, 변경 및 이관 중 적어도 하나 이상의 문서 상태 변경 정보를 수신하여 문서의 메타데이터를 갱신하는 정보변경 인터페이스부;를 포함하고,
상기 검색 인터페이스부는,
자연어 검색어를 지원하고, 검색을 위한 연동 모듈, 검색 API 및 검색 화면 중 적어도 하나 이상을 포함하는 인터페이스를 제공하는,
디지털 콘텐츠 시스템.
a document information analysis unit that analyzes documents collected from an external system and generates keyword information and a summary;
an index information generation unit generating index information for search by combining the metadata of the document collected from the external system, the summary, and the keyword;
an intelligent search unit that combines search information included in a user's search request, compares a similarity with the index information, and provides a search result; and
An interface providing unit providing an interface for providing at least one service of search, work classification recommendation, and provision of legal information to the external system;
The external system,
At least one of a system for producing work-related documents, including at least one of an electronic payment system and a business management system, and a system for transferring and recording/storing the documents;
The metadata,
Includes document information, linked business information and document status information;
The linked task information includes at least one of task classification, department in charge, schedule, linked memo information, sender, receiver, sharer, and document viewing authority,
The document status information includes at least one of a task progress stage, document creation information, document change information, and document transfer information,
The interface providing unit,
a search interface unit providing an interface for searching a specific document and business information associated with the document to the external system; and
An information change interface unit for receiving at least one document status change information among the creation, change, and transfer of documents in the external system and updating metadata of the document;
The search interface unit,
Supporting natural language search terms and providing an interface including at least one of an interlocking module for search, a search API, and a search screen,
digital content system.
삭제delete 삭제delete 삭제delete 삭제delete 청구항 1에 있어서,
상기 지능형 검색부는,
상기 검색 요청에 포함된 검색어의 형식에 따라 상기 검색어를 분석하는 검색어 처리부;
적어도 하나 이상의 검색 쿼리를 생성하고, 상기 검색 쿼리를 통해 추출된 결과의 유사도를 산출하는 문서 검색부; 및
상기 유사도에 따라 정해진 방식으로 검색 결과를 제공하는 결과 제공부;를 포함하는,
디지털 콘텐츠 시스템.
The method of claim 1,
The intelligent search unit,
a search word processing unit that analyzes the search word according to the form of the search word included in the search request;
a document search unit generating at least one search query and calculating a similarity of results extracted through the search query; and
Including, a result providing unit providing search results in a predetermined manner according to the degree of similarity;
digital content system.
청구항 1에 있어서,
상기 문서정보 분석부는,
상기 문서의 형식에 따라 분석 대상 텍스트를 추출하는 텍스트 추출부;
상기 텍스트를 문장 단위로 분리한 후 문장 중요도를 판단하여 요약 문장을 추출하는 요약문장 추출부;
상기 요약 문장을 문맥에 맞게 상기 요약문으로 생성하는 요약문 생성부; 및
상기 요약문에서 키워드를 추출하는 키워드 추출부;를 포함하는,
디지털 콘텐츠 시스템.
The method of claim 1,
The document information analysis unit,
a text extraction unit extracting text to be analyzed according to the format of the document;
a summary sentence extraction unit configured to divide the text into sentence units, determine sentence importance, and extract summary sentences;
a summary sentence generation unit that generates the summary sentence according to the context; and
A keyword extraction unit for extracting keywords from the summary; including,
digital content system.
청구항 1에 있어서,
상기 디지털 콘텐츠 시스템은,
상기 문서가 포함될 업무 분류 정보를 추천하는 업무분류 추천부; 및
상기 문서와 관련된 법령 정보를 제공하는 법령정보 제공부;를 구비하는
업무정보 제공부를 더 포함하는,
디지털 콘텐츠 시스템.
The method of claim 1,
The digital content system,
a business classification recommendation unit for recommending business classification information to include the document; and
Having a legal information providing unit for providing legal information related to the document;
Further comprising a business information provider,
digital content system.
청구항 8에 있어서,
상기 업무분류 추천부는,
딥러닝 알고리즘을 적용하여, 분석된 상기 문서의 키워드 또는 상기 사용자가 입력한 검색 정보에 연관된 상기 업무 분류 정보를 추천하는 것을 특징으로 하는,
디지털 콘텐츠 시스템.
The method of claim 8,
The business classification recommendation unit,
Characterized in that by applying a deep learning algorithm, the job classification information related to the keyword of the analyzed document or the search information input by the user is recommended.
digital content system.
청구항 8에 있어서,
상기 법령정보 제공부는,
딥러닝 알고리즘을 적용하여, 분석된 상기 문서의 키워드 또는 상기 사용자가 입력한 검색 정보와 연관된 상기 법령 정보를 제공하는 것을 특징으로 하는,
디지털 콘텐츠 시스템.
The method of claim 8,
The statutory information provider,
Characterized in that by applying a deep learning algorithm, the keyword of the analyzed document or the legal information related to the search information entered by the user is provided.
digital content system.
KR1020220176858A 2022-12-16 2022-12-16 Digital content system supporting document management using meta data and integrated search based on artificial intelligent KR102540944B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220176858A KR102540944B1 (en) 2022-12-16 2022-12-16 Digital content system supporting document management using meta data and integrated search based on artificial intelligent

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220176858A KR102540944B1 (en) 2022-12-16 2022-12-16 Digital content system supporting document management using meta data and integrated search based on artificial intelligent

Publications (1)

Publication Number Publication Date
KR102540944B1 true KR102540944B1 (en) 2023-06-07

Family

ID=86760706

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220176858A KR102540944B1 (en) 2022-12-16 2022-12-16 Digital content system supporting document management using meta data and integrated search based on artificial intelligent

Country Status (1)

Country Link
KR (1) KR102540944B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615956B1 (en) 2023-09-04 2023-12-20 주식회사 위드퓨처 Metadata management system for data sharing between companies

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120021011A (en) * 2010-08-31 2012-03-08 대한민국(법무부장관) Intergrated law information service system and method
KR20210089429A (en) * 2020-01-08 2021-07-16 한국전자통신연구원 Invention technology retrieval system and method using virtual composite technology document incorporating similar invention technology document
KR102426919B1 (en) * 2022-06-07 2022-07-29 (주)유알피시스템 An OPERATION METHOD FOR INTELLIGENT DOCUMENT PLATFORM AND An INTELLIGENT DOCUMENT PLATFORM IMPLEMENTING THE SAME

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120021011A (en) * 2010-08-31 2012-03-08 대한민국(법무부장관) Intergrated law information service system and method
KR20210089429A (en) * 2020-01-08 2021-07-16 한국전자통신연구원 Invention technology retrieval system and method using virtual composite technology document incorporating similar invention technology document
KR102426919B1 (en) * 2022-06-07 2022-07-29 (주)유알피시스템 An OPERATION METHOD FOR INTELLIGENT DOCUMENT PLATFORM AND An INTELLIGENT DOCUMENT PLATFORM IMPLEMENTING THE SAME

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615956B1 (en) 2023-09-04 2023-12-20 주식회사 위드퓨처 Metadata management system for data sharing between companies

Similar Documents

Publication Publication Date Title
US20180232362A1 (en) Method and system relating to sentiment analysis of electronic content
Cruz et al. ‘Long autonomy or long delay?’The importance of domain in opinion mining
US9613149B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN110866126A (en) College online public opinion risk assessment method
Rao et al. Decision support for e-governance: a text mining approach
Zhang et al. Mining and clustering service goals for restful service discovery
Kumar et al. Hashtag recommendation for short social media texts using word-embeddings and external knowledge
Mahata et al. From chirps to whistles: discovering event-specific informative content from twitter
AU2016346740B2 (en) Server for providing internet content and computer-readable recording medium including implemented internet content providing method
CN111723256A (en) Government affair user portrait construction method and system based on information resource library
Das et al. A CV parser model using entity extraction process and big data tools
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
JP6130270B2 (en) Comment list public server, program and method for sorting and specifying comment sets corresponding to media contents
JP2010044462A (en) Content evaluation server, content evaluation method and content evaluation program
KR102540944B1 (en) Digital content system supporting document management using meta data and integrated search based on artificial intelligent
Tian et al. Tagging augmented neural topic model for semantic sparse web service discovery
Pinto et al. Predicting the relevance of social media posts based on linguistic features and journalistic criteria
Al-Barhamtoshy et al. A data analytic framework for unstructured text
Jiang et al. A semantic-based approach to service clustering from service documents
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
CN111309997A (en) Digital resource integration and push system for distance education and architecture thereof
Xu et al. The study of content security for mobile internet
RU119908U1 (en) DEVICE FOR CLASSIFICATION OF HTML PAGES WITH PRELIMINARY SELECTION OF THE VALUABLE PART OF THE PAGE AND DETERMINATION OF THE FUNCTIONAL-SENSE TEXT OF TEXT
Preiss Predicting the impact of online news articles–is information necessary? Application to COVID-19 articles
CN110147488A (en) The processing method of content of pages, calculates equipment and storage medium at processing unit

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant