KR20200110907A - 딥러닝을 이용한 기록물 분류 시스템 - Google Patents

딥러닝을 이용한 기록물 분류 시스템 Download PDF

Info

Publication number
KR20200110907A
KR20200110907A KR1020190030397A KR20190030397A KR20200110907A KR 20200110907 A KR20200110907 A KR 20200110907A KR 1020190030397 A KR1020190030397 A KR 1020190030397A KR 20190030397 A KR20190030397 A KR 20190030397A KR 20200110907 A KR20200110907 A KR 20200110907A
Authority
KR
South Korea
Prior art keywords
disclosure
classification
information
document
reference data
Prior art date
Application number
KR1020190030397A
Other languages
English (en)
Other versions
KR102236585B1 (ko
Inventor
영 김
허준석
Original Assignee
주식회사 에이티앤아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이티앤아이 filed Critical 주식회사 에이티앤아이
Priority to KR1020190030397A priority Critical patent/KR102236585B1/ko
Publication of KR20200110907A publication Critical patent/KR20200110907A/ko
Application granted granted Critical
Publication of KR102236585B1 publication Critical patent/KR102236585B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Technology Law (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

딥러닝을 이용한 기록물 분류 시스템은 공공기관별 정보공개 관련 법률조항정보를 저장하고 있는 법률 데이터베이스와, 공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리하는 기록물 관리 데이터베이스와, 공개구분이 필요한 전자문서 - 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함함 - 를 제공하는 기록물관리시스템과, 기록물 관리 데이터베이스로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하고, 제1 공개구분 기준데이터와 상기 기록물관리시스템으로부터 전달되는 전자문서를 비교분석하여 상기 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하는 공개구분 처리수단을 포함하는 것을 특징으로 한다.

Description

딥러닝을 이용한 기록물 분류 시스템{Records management system using deep learning}
본 발명은 기록물 분류 시스템에 관한 것으로서, 더 상세하게는 딥러닝을 이용한 기록물 분류 시스템에 관한 것이다.
일반적으로, 국민은 법률에 의거 공공기관에 정보공개를 청구할 권리를 가지며, 공공기관은 국민생활에 영향을 미치는 정책정보 등에 대하여 국민의 청구가 없더라도 공개의 범위, 방법 등을 미리 정하여 공표하고 정기적으로 공개해야할 의무가 있다.
공공기관에서 생산되는 기록물(온오프라인 기록물을 모두 포함)들은 기록 관리법 및 정보공개법에 따라 열람하거나 그 사본, 복제물을 교부 또는 정보통신망을 통하여 제공될 수 있다.
이를 위해, 종래에는 기관별로 생산되는 기록물에 대해, 해당 기관의 기록물 담당자가 주기적으로 정보공개분류(공개, 비공개, 부분공개)를 수행하고, 비공개 사유가 소멸한 경우 해당 기록물을 공개하는 작업을 일일이 수작업으로 처리하였다.
하지만, 기록물은 대량으로 생산되고, 기록물의 이관도 발생되어 수작업으로 정보 공개분류 작업을 수행하는데 한계가 있고, 정확한 정보공개분류가 어렵다는 문제가 발생되었다.
KR 10-1887629 B
본 발명은 상기와 같은 기술적 과제를 해결하기 위해 제안된 것으로, 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 처리할 수 있는 딥러닝을 이용한 기록물 분류 시스템을 제공한다.
상기 문제점을 해결하기 위한 본 발명의 일 실시예에 따르면, 공공기관별 정보공개 관련 법률조항정보를 저장하고 있는 법률 데이터베이스와, 공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리하는 기록물 관리 데이터베이스와, 공개구분이 필요한 전자문서 - 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함함 - 를 제공하는 기록물관리시스템과, 상기 기록물 관리 데이터베이스로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하고, 제1 공개구분 기준데이터와 기록물관리시스템으로부터 전달되는 전자문서를 비교분석하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하는 공개구분 처리수단을 포함하는 딥러닝을 이용한 기록물 분류 시스템이 제공된다.
또한, 본 발명에서 상기 제1 공개구분 기준데이터는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하는 것을 특징으로 한다.
또한, 본 발명에서 상기 제1 공개구분 기준데이터는 법률조항정보의 유사도를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 포함되는 공개구분 처리수단은, 법률 데이터베이스가 업데이트될 때마다, 업데이트된 법률조항정보를 자연어 처리하여 제2 공개구분 기준데이터를 생성하고, 제2 공개구분 기준데이터를 토대로 기록물 관리 데이터베이스의 부분공개 및 비공개로 선정된 기존문서를 자동 재분류하는 것을 특징으로 한다.
또한, 본 발명에 포함되는 공개구분 처리수단은, 법률 데이터베이스로부터 법률조항정보를 추출하여 전자문서의 공개, 부분공개 및 비공개 여부의 근거를 할당하여 기록하는 것을 특징으로 한다.
또한, 본 발명에 포함되는 공개구분 처리수단은, 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 기록물관리시스템으로 전달함에 있어서, 기록물관리시스템으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하는 것을 특징으로 한다.
본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템은 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 처리할 수 있다.
즉, 딥러닝(Deep Learning)은 사물이나 데이터를 군집화하는데 사용하는 기술이며, 기계학습의 한 분야로서 기존 인공신경망(Artificial Neural Network, ANN) 알고리즘 기반으로 다수의 은닉층(Hidden Layer)으로 구성한 네트워크 모형을 사용하며 심층신경망(Deep Neural Network, DNN)이라고 정의될 수 있다. 따라서 데이터를 분류하고 이를 통해 예측을 가능하게 함으로써, 사람처럼 생각하고 학습할 수 있다.
딥러닝의 데이터를 스스로 군집화하는 기능을 이용하면, 매년 반복적으로 공개재분류/평가/폐기/보존기간 재책정을 하는 기록들의 종류를 인력을 사용하지 않고도 빠르게 파악할 수 있으며, 이를 통해 반복적으로 이루어지는 기록들의 공개재분류/평가/폐기/보존기간재책정의 속도를 좀 더 높일 수 있다.
도 1은 본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템(1)의 구성도
도 2는 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제1 순서도
도 3은 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제2 순서도
이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시예를 첨부한 도면을 참조하여 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템(1)의 구성도이다.
본 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템은 제안하고자 하는 기술적인 사상을 명확하게 설명하기 위한 간략한 구성만을 포함하고 있다.
도 1을 참조하면, 딥러닝을 이용한 기록물 분류 시스템은 법률 데이터베이스(100)와, 기록물 관리 데이터베이스(200)와, 기록물관리시스템(300)과, 공개구분 처리수단(400)을 포함하여 구성된다.
상기와 같이 구성되는 딥러닝을 이용한 기록물 분류 시스템의 주요동작을 살펴보면 다음과 같다.
법률 데이터베이스(100)는 공공기관별 정보공개 관련 법률조항정보를 저장하고 있다.
기록물 관리 데이터베이스(200)는 공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리한다.
기록물관리시스템(300)은 공개구분이 필요한 전자문서를 제공하는데, 전자문서는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함하고 있다.
공개구분 처리수단(400)은 기록물 관리 데이터베이스(200)로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성한다.
여기에서 제1 공개구분 기준데이터는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하고, 법률조항정보의 유사도를 더 포함할 수도 있다.
즉, 공개구분 처리수단(400)은 제1 공개구분 기준데이터와 기록물관리시스템(300)으로부터 전달되는 전자문서를 비교분석하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류한다.
참고적으로, 자연어 처리는 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 것을 의미한다.
예를 들어, 자연어 처리는 형태소 분석, 품사 부착, 구절 단위 분석, 구문 분석 등을 통하여 이루어질 수 있다.
또한, 본 발명의 시스템은 학습기반으로 운영되는데, 학습이란 일반적으로 자연어 처리된 학습 데이터를 학습하는 것을 의미한다.
즉, 딥러닝을 이용한 기록물 분류 시스템은 자연어 처리된 학습 데이터를 일반화, 즉 훈련한다. 예를 들어, 일련의 학습 데이터를 학습하여, 행정 문서의 공개구분 및 제목 정보에 따른 공개구분 정보 및 비공개 사유 정보를 학습할 수 있다.
딥러닝을 이용한 기록물 분류 시스템은 학습을 통해 제1 공개구분 기준데이터 및 제2 공개구분 기준데이터로 저장하는데, 이때, 제1 공개구분 기준데이터 및 제2 공개구분 기준데이터는 학습 데이터를 자연어 처리한 결과를 포함할 수 있다.
공개 구분할 전자문서를 획득할 경우 기존의 공개구분이 완료된 기존문서를 자연어 처리한 후 제1 공개구분 기준데이터를 생성하고, 제1 공개구분 기준데이터를 토대로 수신된 전자문서와 비교분석한다.
딥러닝을 이용한 기록물 분류 시스템은 제1 공개구분 기준데이터 및 제2 공개구분 기준데이터와 전자문서 사이의 유사도 매칭율을 비교하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류한다. 예를 들어, 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하는 제1 공개구분 기준데이터와 전자문서의 유사도를 비교하여 자동분류한다.
이때, 제1 공개구분 기준데이터에 법률조항정보의 유사도가 포함되어 있을 경우, 법률조항정보의 유사도를 더 고려하여 자동분류를 진행할 수 있다. 제1 공개구분 기준데이터와 전자문서 간의 패턴이 유사할수록 매칭율이 높은 것으로 판단할 수 있다.
한편, 공개구분 처리수단(400)은 법률 데이터베이스(100)가 업데이트될 때마다, 업데이트된 법률조항정보를 자연어 처리하여 제2 공개구분 기준데이터를 생성한다.
공개구분 처리수단(400)은 제2 공개구분 기준데이터를 토대로 기록물 관리 데이터베이스(200)의 부분공개 및 비공개로 선정된 기존문서의 자동 재분류 작업을 진행하게 된다.
즉, 공공기관별 정보공개 관련 법률조항정보가 업데이트 될 경우, 공개구분 처리수단(400)은 업데이트된 법률조항정보의 유사도를 고려하여 기존문서의 공개여부를 자동 재분류할 수 있다
또한, 공개구분 처리수단(400)은 법률 데이터베이스(100)로부터 법률조항정보를 추출하여 전자문서의 공개, 부분공개 및 비공개 여부의 근거를 할당하여 기록할 수 있다. 이렇게 할당된 법률조항정보는 제1 공개구분 기준데이터를 생성하는데 참조될 수 있다.
공개구분 처리수단(400)은 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 기록물관리시스템(300)으로 전달하고, 기록물관리시스템(300)은 이를 데이터베이스화하여 기존문서로써 관리한다.
기록물관리시스템(300)은 공개구분 처리수단(400)에서 전달된 기록물을 데이터베이스화하기 전에 전문가에 의한 최종점검 작업을 진행한다. 이때, 기록물의 분류가 잘못된 경우, 전문가는 재검증요청 및 수동 분류정보를 생성하도록 제어한다.
이때, 공개구분 처리수단(400)은 기록물관리시스템(300)으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하여 추후의 분류작업에 참조한다.
도 2는 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제1 순서도이다.
도 2를 참조하면, 딥러닝을 이용한 기록물 분류 시스템은 기록물 관리 데이터베이스(200)로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하는 단계를 진행한다.
다음으로, 제1 공개구분 기준데이터와 기록물관리시스템(300)으로부터 전달되는 전자문서를 비교분석하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류한다.
즉, 딥러닝을 이용한 기록물 분류 시스템은 자연어 처리된 학습 데이터를 일반화, 즉 훈련한다. 예를 들어, 일련의 학습 데이터를 학습하여, 행정 문서의 공개구분 및 제목 정보에 따른 공개구분 정보 및 비공개 사유 정보를 학습할 수 있다.
한편, 기록물의 분류가 잘못된 경우, 전문가는 재검증요청 및 수동 분류정보를 생성하도록 제어한다. 공개구분 처리수단(400)은 기록물관리시스템(300)으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하여 추후의 분류작업에 참조할 수 있다.
도 3은 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제2 순서도이다.
도 3을 참조하면, 딥러닝을 이용한 기록물 분류 시스템은 법률 데이터베이스(100)가 업데이트 되어 공공기관별 정보공개 관련 법률조항정보이 변경된 경우, 업데이트된 법률조항정보를 자연어 처리하여 제2 공개구분 기준데이터를 생성한다.
딥러닝을 이용한 기록물 분류 시스템은 제2 공개구분 기준데이터를 토대로 기록물 관리 데이터베이스(200)의 부분공개 및 비공개로 선정된 기존문서를 자동 재분류를 진행하게 된다.
즉, 공공기관별 정보공개 관련 법률조항정보가 업데이트 될 경우, 공개구분 처리수단(400)은 업데이트된 법률조항정보의 유사도를 고려하여 기존문서의 공개여부를 자동 재분류하게 된다.
자동 재분류 과정에서 기록물의 분류가 잘못된 경우, 전문가는 재검증요청 및 수동 분류정보를 생성하도록 제어한다. 공개구분 처리수단(400)은 기록물관리시스템(300)으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하여 추후의 분류작업에 참조할 수 있다. 즉, 추후 제1 공개구분 기준데이터를 생성할 때 가중치 정보를 참조할 수 있다.
상술한 딥러닝을 이용한 기록물 분류 시스템의 실시예에서는 공개, 부분공개, 비공개, 재분류의 예시만을 설명하였으나, 폐기/보존기간재책정을 진행하는데도 동일한 시스템을 사용하여 처리할 수 있을 것이다.
한편, 분류 재검증요청 및 수동 분류정보가 전달될 때마다 바로 마이너스 가중치를 부여할 경우, 너무 빠른 업데이트로 인해 불필요하게 연산량이 많아질 수 있다.
따라서 공개구분 처리수단(400)은 전자문서를 소정의 카테고리 단위로 구분한 후, 각 카테고리 단위로 분류 재검증요청 및 수동 분류정보의 요청횟수를 소정의 주기단위로 파악한다.
공개구분 처리수단(400)은 소정의 주기단위마다의 요청횟수를 토대로 요청횟수의 상승추세 및 하강추세를 파악하고, 상승추세 및 하강추세 - 최소자승법으로 파악한 기울기 값 - 에 따라 가중치를 자동조절 할 수 있다.
시간(분) 카테고리 1의 재검증 요청횟수 카테고리 2의 재검증 요청횟수
1 40 48
2 41 47
3 40 44
99 43 49
100 45 50
표 1을 참조하면, 본 발명의 실시예에서는 1분 주기로 각 1분동안에 발생한 재검증 요청횟수를 파악한 후 최소 자승법으로 요청횟수 - 분류 재검증요청 및 수동 분류정보의 요청횟수 - 의 변화추세를 파악하도록 동작한다.
이하, 본 발명에 적용된 최소자승법에 대해 상세히 설명하기로 한다.
- 1차 선형식의 최소자승법 -
최소자승법(Method of Least Squares)은 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 실험을 N회 실시하여 측정된 N개의 데이터를 확보하고 이 데이터 사이의 규칙성을 찾아내어 상관관계를 함수로 표현할 수 있는 방법이다.
즉, N번 측정한 측정값 y1, y2, y3, y4, ... , yn 이 있고, 함수 y=f(x) 일 것으로 추정할 수 있을 경우, 이 측정값들의 관계에서 가장 잘 맞는 함수를 y=f(x)라고 할때, 측정값 yi와 함수값 f(x)의 차이를 제곱한 것의 합을 <수학식 1>과 같이 표시할 수 있다.
<수학식 1>
Figure pat00001
수학식 1의 값은 편차제곱의 오차 총합으로 정의할 수 있으며, 이 값이 최소가 되도록 y=f(x)를 구하는 것이 최소자승법이라고 할 수 있다.
이 직선의 그래프가 측정값의 분포를 가장 잘 나타내는 직선으로 해당 직선의 기울기가 곧 측정값의 변화추이를 나타낸다고 볼 수 있다.
측정값 yi와, 함수값 f(xi) 사이의 관계를 살펴보면,
f(xi) 의 함수를 y = ax + b 로 표현할 때, 이 직선 위의 값(ycal1)과 측정 값(yi) 의 편차(yi - ycal1 )를 이용하여 편차 제곱의 오차총합(χ1 2)을 표현할 수 있으며 이는 <수학식 2>과 같이 표시할 수 있다.
<수학식 2>
Figure pat00002
여기에서 (ycal1) 는 ax + b 로 표현할 수 있으며 이는 <수학식 3>과 같이 표시할 수 있다.
<수학식 3>
Figure pat00003
여기서 측정한 데이터값(yi)과 해당 직선위의 값(f(xi)) 사이의 오차를 최대한 줄이는 a와 b를 찾아야 하며 이 때의 a와 b의 값은 (χ1 2) 값을 최소화 하는 값이 된다.
오차를 최소화하는 a, b 값을 구하기 위해서는 a와 b에 대해 각각 편미분한 값이 0 이 되면 된다. 이는 <수학식 4>와 같이 표시할 수 있다.
<수학식 4>
Figure pat00004
Figure pat00005
수학식 4를 만족하는 a와 b를 계산하면 <수학식 5>와 같이 표시할 수 있다.
<수학식 5>
Figure pat00006
Figure pat00007
- 2차 다항식의 최소자승법 -
1차 선형식에서 설명한 바와 같이, 최소자승법(Method of Least Squares)은 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 실험을 N회 실시하여 측정된 N개의 데이터를 확보하고 이 데이터 사이의 규칙성을 찾아내어 상관관계를 함수로 표현할 수 있는 방법이다.
즉, N번 측정한 측정값 y1, y2, y3, y4, ... , yn 이 있고, 함수 y=f(x) 일 것으로 추정할 수 있을 경우, 이 측정값들의 관계에서 가장 잘 맞는 함수를 y=f(x)라고 할때, 측정값 yi와 함수값 f(x)의 차이를 제곱한 것의 합을 <수학식 6>과 같이 표시할 수 있다.
<수학식 6>의 값은 편차제곱의 오차 총합으로 정의할 수 있으며, 이 값이 최소가 되도록 y=f(x)를 구하는 것이 최소자승법이라고 할 수 있다.
<수학식 6>
Figure pat00008
f(xi) 의 함수를 2차 다항식 y= ycal2 = a0 + a1x + a2x2 로 정의할 경우(a0, a1, a2는 상수),
이 수식의 그래프가 측정값의 분포를 가장 잘 나타낼 경우 해당 수식으로 예측한 요청횟수의 정확도가 좀 더 높다고 판단할 수 있다. 이는 <수학식 7>과 같이 표시할 수 있다.
<수학식 7>
Figure pat00009
여기서 측정한 데이터값(yi)과 해당 2차 다항식의 값(f(xi)) 사이의 오차를 최대한 줄이는 a0, a1, a2를 찾아야 하며 이 때의 a0, a1, a2 의 값은 편차 제곱의 오차총합(χ2 2) 값을 최소화 하는 값이 된다.
여기서 오차를 최소화하는 a0, a1, a2 값을 구하기 위해서 a0, a1, a2에 대해 각각 편미분한 값이 0이 되면 된다. 이는 <수학식 8>과 같이 표시할 수 있다.
<수학식 8>
Figure pat00010
Figure pat00011
Figure pat00012
여기서 다음과 같이 정의하고 치환하면 <수학식 9>와 같이 간단히 표시할 수 있다.
Figure pat00013
<수학식 9>
Figure pat00014
Figure pat00015
Figure pat00016
여기서 다음과 같이 정의하고 치환하면 <수학식 10>과 같이 간단히 표시할 수 있다.
Figure pat00017
<수학식 10>
Figure pat00018
Figure pat00019
Figure pat00020
여기서 <수학식 10>을 이용하여 각각 a0, a1, a2 에 대해 수식을 전개하면 <수학식 11>과 같이 표시할 수 있다.
<수학식 11>
Figure pat00021
Figure pat00022
Figure pat00023
결과적으로, 산출된 상수 a0, a1, a2를 2차 다항식 y= ycal2 = a0 + a1x + a2x2에 대입하여, 2차 다항식의 기울기를 통해 분류 재검증요청 및 수동 분류정보의 요청횟수의 변화량을 산출하고 예측할 수 있다.
즉, 공개구분 처리수단(400)은 소정의 주기단위마다의 요청횟수를 토대로 요청횟수 - 분류 재검증요청 및 수동 분류정보의 요청횟수 - 의 상승추세 및 하강추세를 파악하고, 상승추세 및 하강추세 - 최소자승법으로 파악한 기울기 값 - 에 따라 가중치를 자동조절 할 수 있다.
본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템은 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 처리할 수 있다.
즉, 딥러닝(Deep Learning)은 사물이나 데이터를 군집화하는데 사용하는 기술이며, 기계학습의 한 분야로서 기존 인공신경망(Artificial Neural Network, ANN) 알고리즘 기반으로 다수의 은닉층(Hidden Layer)으로 구성한 네트워크 모형을 사용하며 심층신경망(Deep Neural Network, DNN)이라고 정의될 수 있다.
따라서 데이터를 분류하고 이를 통해 예측을 가능하게 함으로써, 사람처럼 생각하고 학습할 수 있다.
딥러닝의 데이터를 스스로 군집화하는 기능을 이용하면, 매년 반복적으로 공개재분류/평가/폐기/보존기간 재책정을 하는 기록들의 종류를 인력을 사용하지 않고도 빠르게 파악할 수 있으며, 이를 통해 반복적으로 이루어지는 기록들의 공개재분류/평가/폐기/보존기간재책정의 속도를 좀 더 높일 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 법률 데이터베이스
200 : 기록물 관리 데이터베이스
300 : 기록물관리시스템
400 : 공개구분 처리수단

Claims (6)

  1. 공공기관별 정보공개 관련 법률조항정보를 저장하고 있는 법률 데이터베이스;
    공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리하는 기록물 관리 데이터베이스;
    공개구분이 필요한 전자문서 - 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함함 - 를 제공하는 기록물관리시스템; 및
    상기 기록물 관리 데이터베이스로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하고, 상기 제1 공개구분 기준데이터와 상기 기록물관리시스템으로부터 전달되는 전자문서를 비교분석하여 상기 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하는 공개구분 처리수단;
    을 포함하는 딥러닝을 이용한 기록물 분류 시스템.
  2. 제1항에 있어서,
    상기 제1 공개구분 기준데이터는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템
  3. 제2항에 있어서,
    상기 제1 공개구분 기준데이터는 법률조항정보의 유사도를 더 포함하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템
  4. 제1항에 있어서,
    상기 공개구분 처리수단은,
    상기 법률 데이터베이스가 업데이트될 때마다,
    업데이트된 법률조항정보를 자연어 처리하여 상기 제2 공개구분 기준데이터를 생성하고, 상기 제2 공개구분 기준데이터를 토대로 상기 기록물 관리 데이터베이스의 부분공개 및 비공개로 선정된 기존문서를 자동 재분류하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템.
  5. 제1항에 있어서,
    상기 공개구분 처리수단은,
    상기 법률 데이터베이스로부터 법률조항정보를 추출하여 상기 전자문서의 공개, 부분공개 및 비공개 여부의 근거를 할당하여 기록하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템.
  6. 제1항에 있어서,
    상기 공개구분 처리수단은,
    상기 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 상기 기록물관리시스템으로 전달함에 있어서,
    상기 기록물관리시스템으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템.
KR1020190030397A 2019-03-18 2019-03-18 딥러닝을 이용한 기록물 분류 시스템 KR102236585B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190030397A KR102236585B1 (ko) 2019-03-18 2019-03-18 딥러닝을 이용한 기록물 분류 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190030397A KR102236585B1 (ko) 2019-03-18 2019-03-18 딥러닝을 이용한 기록물 분류 시스템

Publications (2)

Publication Number Publication Date
KR20200110907A true KR20200110907A (ko) 2020-09-28
KR102236585B1 KR102236585B1 (ko) 2021-04-06

Family

ID=72801049

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190030397A KR102236585B1 (ko) 2019-03-18 2019-03-18 딥러닝을 이용한 기록물 분류 시스템

Country Status (1)

Country Link
KR (1) KR102236585B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220114339A (ko) * 2021-02-08 2022-08-17 대한민국(국가기록원) 전자기록물 공개재분류를 위한 시스템 및 그 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080053822A (ko) * 2006-12-11 2008-06-16 소프트캠프(주) 보안 문서의 반출입 제어를 위한 통제시스템
KR101887629B1 (ko) 2018-02-14 2018-08-10 대신네트웍스 주식회사 자연어기반 정보공개분류시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080053822A (ko) * 2006-12-11 2008-06-16 소프트캠프(주) 보안 문서의 반출입 제어를 위한 통제시스템
KR101887629B1 (ko) 2018-02-14 2018-08-10 대신네트웍스 주식회사 자연어기반 정보공개분류시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220114339A (ko) * 2021-02-08 2022-08-17 대한민국(국가기록원) 전자기록물 공개재분류를 위한 시스템 및 그 방법

Also Published As

Publication number Publication date
KR102236585B1 (ko) 2021-04-06

Similar Documents

Publication Publication Date Title
Mousseau et al. Using assignment examples to infer weights for ELECTRE TRI method: Some experimental results
CN108491928A (zh) 模型参数训练方法、装置、服务器及存储介质
CN112150298B (zh) 数据处理方法、系统、设备及可读介质
Moshkovich et al. Verbal Decision Analysis: Foundations and Trends.
US11562262B2 (en) Model variable candidate generation device and method
CN109740160B (zh) 一种基于人工智能语义分析的任务发布方法
CN112182246A (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
Buntine Decision tree induction systems: a Bayesian analysis
KR102236585B1 (ko) 딥러닝을 이용한 기록물 분류 시스템
CN109948649A (zh) 面向数据开放共享的软件访问行为数据特征表示方法
CN111652257A (zh) 一种样本数据清洗方法及系统
CN115794798A (zh) 一种市场监管信息化标准管理与动态维护系统及方法
Kultur et al. ENNA: software effort estimation using ensemble of neural networks with associative memory
US20220156862A1 (en) System and method for analyzing grantability of a legal filing
Ito et al. Iterated Learning Models of Language Change: A Case Study of Sino‐Korean Accent
CN114529351A (zh) 一种商品类目预测方法、装置、设备及存储介质
CN111460139B (zh) 一种基于智慧管理的工程监理知识服务系统及方法
Lenders et al. Real-life performance of fairness interventions-introducing a new benchmarking dataset for fair ML
CN113742498B (zh) 一种知识图谱的构建更新方法
CN113656692A (zh) 基于知识迁移算法的产品推荐方法、装置、设备及介质
CN113920366A (zh) 一种基于机器学习的综合加权主数据识别方法
Al Shalabi et al. A framework to deal with missing data in data sets
KR102600834B1 (ko) 웹사이트 통합 관리 시스템
Othman et al. Data mining approaches in business intelligence: Postgraduate data analytic
KR20210000916A (ko) 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant