KR20200110907A - 딥러닝을 이용한 기록물 분류 시스템 - Google Patents
딥러닝을 이용한 기록물 분류 시스템 Download PDFInfo
- Publication number
- KR20200110907A KR20200110907A KR1020190030397A KR20190030397A KR20200110907A KR 20200110907 A KR20200110907 A KR 20200110907A KR 1020190030397 A KR1020190030397 A KR 1020190030397A KR 20190030397 A KR20190030397 A KR 20190030397A KR 20200110907 A KR20200110907 A KR 20200110907A
- Authority
- KR
- South Korea
- Prior art keywords
- disclosure
- classification
- information
- document
- reference data
- Prior art date
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000003058 natural language processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 30
- 238000012795 verification Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012419 revalidation Methods 0.000 description 5
- 101150014174 calm gene Proteins 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Technology Law (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
딥러닝을 이용한 기록물 분류 시스템은 공공기관별 정보공개 관련 법률조항정보를 저장하고 있는 법률 데이터베이스와, 공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리하는 기록물 관리 데이터베이스와, 공개구분이 필요한 전자문서 - 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함함 - 를 제공하는 기록물관리시스템과, 기록물 관리 데이터베이스로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하고, 제1 공개구분 기준데이터와 상기 기록물관리시스템으로부터 전달되는 전자문서를 비교분석하여 상기 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하는 공개구분 처리수단을 포함하는 것을 특징으로 한다.
Description
본 발명은 기록물 분류 시스템에 관한 것으로서, 더 상세하게는 딥러닝을 이용한 기록물 분류 시스템에 관한 것이다.
일반적으로, 국민은 법률에 의거 공공기관에 정보공개를 청구할 권리를 가지며, 공공기관은 국민생활에 영향을 미치는 정책정보 등에 대하여 국민의 청구가 없더라도 공개의 범위, 방법 등을 미리 정하여 공표하고 정기적으로 공개해야할 의무가 있다.
공공기관에서 생산되는 기록물(온오프라인 기록물을 모두 포함)들은 기록 관리법 및 정보공개법에 따라 열람하거나 그 사본, 복제물을 교부 또는 정보통신망을 통하여 제공될 수 있다.
이를 위해, 종래에는 기관별로 생산되는 기록물에 대해, 해당 기관의 기록물 담당자가 주기적으로 정보공개분류(공개, 비공개, 부분공개)를 수행하고, 비공개 사유가 소멸한 경우 해당 기록물을 공개하는 작업을 일일이 수작업으로 처리하였다.
하지만, 기록물은 대량으로 생산되고, 기록물의 이관도 발생되어 수작업으로 정보 공개분류 작업을 수행하는데 한계가 있고, 정확한 정보공개분류가 어렵다는 문제가 발생되었다.
본 발명은 상기와 같은 기술적 과제를 해결하기 위해 제안된 것으로, 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 처리할 수 있는 딥러닝을 이용한 기록물 분류 시스템을 제공한다.
상기 문제점을 해결하기 위한 본 발명의 일 실시예에 따르면, 공공기관별 정보공개 관련 법률조항정보를 저장하고 있는 법률 데이터베이스와, 공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리하는 기록물 관리 데이터베이스와, 공개구분이 필요한 전자문서 - 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함함 - 를 제공하는 기록물관리시스템과, 상기 기록물 관리 데이터베이스로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하고, 제1 공개구분 기준데이터와 기록물관리시스템으로부터 전달되는 전자문서를 비교분석하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하는 공개구분 처리수단을 포함하는 딥러닝을 이용한 기록물 분류 시스템이 제공된다.
또한, 본 발명에서 상기 제1 공개구분 기준데이터는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하는 것을 특징으로 한다.
또한, 본 발명에서 상기 제1 공개구분 기준데이터는 법률조항정보의 유사도를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 포함되는 공개구분 처리수단은, 법률 데이터베이스가 업데이트될 때마다, 업데이트된 법률조항정보를 자연어 처리하여 제2 공개구분 기준데이터를 생성하고, 제2 공개구분 기준데이터를 토대로 기록물 관리 데이터베이스의 부분공개 및 비공개로 선정된 기존문서를 자동 재분류하는 것을 특징으로 한다.
또한, 본 발명에 포함되는 공개구분 처리수단은, 법률 데이터베이스로부터 법률조항정보를 추출하여 전자문서의 공개, 부분공개 및 비공개 여부의 근거를 할당하여 기록하는 것을 특징으로 한다.
또한, 본 발명에 포함되는 공개구분 처리수단은, 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 기록물관리시스템으로 전달함에 있어서, 기록물관리시스템으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하는 것을 특징으로 한다.
본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템은 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 처리할 수 있다.
즉, 딥러닝(Deep Learning)은 사물이나 데이터를 군집화하는데 사용하는 기술이며, 기계학습의 한 분야로서 기존 인공신경망(Artificial Neural Network, ANN) 알고리즘 기반으로 다수의 은닉층(Hidden Layer)으로 구성한 네트워크 모형을 사용하며 심층신경망(Deep Neural Network, DNN)이라고 정의될 수 있다. 따라서 데이터를 분류하고 이를 통해 예측을 가능하게 함으로써, 사람처럼 생각하고 학습할 수 있다.
딥러닝의 데이터를 스스로 군집화하는 기능을 이용하면, 매년 반복적으로 공개재분류/평가/폐기/보존기간 재책정을 하는 기록들의 종류를 인력을 사용하지 않고도 빠르게 파악할 수 있으며, 이를 통해 반복적으로 이루어지는 기록들의 공개재분류/평가/폐기/보존기간재책정의 속도를 좀 더 높일 수 있다.
도 1은 본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템(1)의 구성도
도 2는 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제1 순서도
도 3은 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제2 순서도
도 2는 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제1 순서도
도 3은 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제2 순서도
이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시예를 첨부한 도면을 참조하여 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템(1)의 구성도이다.
본 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템은 제안하고자 하는 기술적인 사상을 명확하게 설명하기 위한 간략한 구성만을 포함하고 있다.
도 1을 참조하면, 딥러닝을 이용한 기록물 분류 시스템은 법률 데이터베이스(100)와, 기록물 관리 데이터베이스(200)와, 기록물관리시스템(300)과, 공개구분 처리수단(400)을 포함하여 구성된다.
상기와 같이 구성되는 딥러닝을 이용한 기록물 분류 시스템의 주요동작을 살펴보면 다음과 같다.
법률 데이터베이스(100)는 공공기관별 정보공개 관련 법률조항정보를 저장하고 있다.
기록물 관리 데이터베이스(200)는 공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리한다.
기록물관리시스템(300)은 공개구분이 필요한 전자문서를 제공하는데, 전자문서는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함하고 있다.
공개구분 처리수단(400)은 기록물 관리 데이터베이스(200)로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성한다.
여기에서 제1 공개구분 기준데이터는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하고, 법률조항정보의 유사도를 더 포함할 수도 있다.
즉, 공개구분 처리수단(400)은 제1 공개구분 기준데이터와 기록물관리시스템(300)으로부터 전달되는 전자문서를 비교분석하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류한다.
참고적으로, 자연어 처리는 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 것을 의미한다.
예를 들어, 자연어 처리는 형태소 분석, 품사 부착, 구절 단위 분석, 구문 분석 등을 통하여 이루어질 수 있다.
또한, 본 발명의 시스템은 학습기반으로 운영되는데, 학습이란 일반적으로 자연어 처리된 학습 데이터를 학습하는 것을 의미한다.
즉, 딥러닝을 이용한 기록물 분류 시스템은 자연어 처리된 학습 데이터를 일반화, 즉 훈련한다. 예를 들어, 일련의 학습 데이터를 학습하여, 행정 문서의 공개구분 및 제목 정보에 따른 공개구분 정보 및 비공개 사유 정보를 학습할 수 있다.
딥러닝을 이용한 기록물 분류 시스템은 학습을 통해 제1 공개구분 기준데이터 및 제2 공개구분 기준데이터로 저장하는데, 이때, 제1 공개구분 기준데이터 및 제2 공개구분 기준데이터는 학습 데이터를 자연어 처리한 결과를 포함할 수 있다.
공개 구분할 전자문서를 획득할 경우 기존의 공개구분이 완료된 기존문서를 자연어 처리한 후 제1 공개구분 기준데이터를 생성하고, 제1 공개구분 기준데이터를 토대로 수신된 전자문서와 비교분석한다.
딥러닝을 이용한 기록물 분류 시스템은 제1 공개구분 기준데이터 및 제2 공개구분 기준데이터와 전자문서 사이의 유사도 매칭율을 비교하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류한다. 예를 들어, 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하는 제1 공개구분 기준데이터와 전자문서의 유사도를 비교하여 자동분류한다.
이때, 제1 공개구분 기준데이터에 법률조항정보의 유사도가 포함되어 있을 경우, 법률조항정보의 유사도를 더 고려하여 자동분류를 진행할 수 있다. 제1 공개구분 기준데이터와 전자문서 간의 패턴이 유사할수록 매칭율이 높은 것으로 판단할 수 있다.
한편, 공개구분 처리수단(400)은 법률 데이터베이스(100)가 업데이트될 때마다, 업데이트된 법률조항정보를 자연어 처리하여 제2 공개구분 기준데이터를 생성한다.
공개구분 처리수단(400)은 제2 공개구분 기준데이터를 토대로 기록물 관리 데이터베이스(200)의 부분공개 및 비공개로 선정된 기존문서의 자동 재분류 작업을 진행하게 된다.
즉, 공공기관별 정보공개 관련 법률조항정보가 업데이트 될 경우, 공개구분 처리수단(400)은 업데이트된 법률조항정보의 유사도를 고려하여 기존문서의 공개여부를 자동 재분류할 수 있다
또한, 공개구분 처리수단(400)은 법률 데이터베이스(100)로부터 법률조항정보를 추출하여 전자문서의 공개, 부분공개 및 비공개 여부의 근거를 할당하여 기록할 수 있다. 이렇게 할당된 법률조항정보는 제1 공개구분 기준데이터를 생성하는데 참조될 수 있다.
공개구분 처리수단(400)은 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 기록물관리시스템(300)으로 전달하고, 기록물관리시스템(300)은 이를 데이터베이스화하여 기존문서로써 관리한다.
기록물관리시스템(300)은 공개구분 처리수단(400)에서 전달된 기록물을 데이터베이스화하기 전에 전문가에 의한 최종점검 작업을 진행한다. 이때, 기록물의 분류가 잘못된 경우, 전문가는 재검증요청 및 수동 분류정보를 생성하도록 제어한다.
이때, 공개구분 처리수단(400)은 기록물관리시스템(300)으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하여 추후의 분류작업에 참조한다.
도 2는 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제1 순서도이다.
도 2를 참조하면, 딥러닝을 이용한 기록물 분류 시스템은 기록물 관리 데이터베이스(200)로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하는 단계를 진행한다.
다음으로, 제1 공개구분 기준데이터와 기록물관리시스템(300)으로부터 전달되는 전자문서를 비교분석하여 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류한다.
즉, 딥러닝을 이용한 기록물 분류 시스템은 자연어 처리된 학습 데이터를 일반화, 즉 훈련한다. 예를 들어, 일련의 학습 데이터를 학습하여, 행정 문서의 공개구분 및 제목 정보에 따른 공개구분 정보 및 비공개 사유 정보를 학습할 수 있다.
한편, 기록물의 분류가 잘못된 경우, 전문가는 재검증요청 및 수동 분류정보를 생성하도록 제어한다. 공개구분 처리수단(400)은 기록물관리시스템(300)으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하여 추후의 분류작업에 참조할 수 있다.
도 3은 딥러닝을 이용한 기록물 분류 시스템의 동작 과정을 나타낸 제2 순서도이다.
도 3을 참조하면, 딥러닝을 이용한 기록물 분류 시스템은 법률 데이터베이스(100)가 업데이트 되어 공공기관별 정보공개 관련 법률조항정보이 변경된 경우, 업데이트된 법률조항정보를 자연어 처리하여 제2 공개구분 기준데이터를 생성한다.
딥러닝을 이용한 기록물 분류 시스템은 제2 공개구분 기준데이터를 토대로 기록물 관리 데이터베이스(200)의 부분공개 및 비공개로 선정된 기존문서를 자동 재분류를 진행하게 된다.
즉, 공공기관별 정보공개 관련 법률조항정보가 업데이트 될 경우, 공개구분 처리수단(400)은 업데이트된 법률조항정보의 유사도를 고려하여 기존문서의 공개여부를 자동 재분류하게 된다.
자동 재분류 과정에서 기록물의 분류가 잘못된 경우, 전문가는 재검증요청 및 수동 분류정보를 생성하도록 제어한다. 공개구분 처리수단(400)은 기록물관리시스템(300)으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하여 추후의 분류작업에 참조할 수 있다. 즉, 추후 제1 공개구분 기준데이터를 생성할 때 가중치 정보를 참조할 수 있다.
상술한 딥러닝을 이용한 기록물 분류 시스템의 실시예에서는 공개, 부분공개, 비공개, 재분류의 예시만을 설명하였으나, 폐기/보존기간재책정을 진행하는데도 동일한 시스템을 사용하여 처리할 수 있을 것이다.
한편, 분류 재검증요청 및 수동 분류정보가 전달될 때마다 바로 마이너스 가중치를 부여할 경우, 너무 빠른 업데이트로 인해 불필요하게 연산량이 많아질 수 있다.
따라서 공개구분 처리수단(400)은 전자문서를 소정의 카테고리 단위로 구분한 후, 각 카테고리 단위로 분류 재검증요청 및 수동 분류정보의 요청횟수를 소정의 주기단위로 파악한다.
공개구분 처리수단(400)은 소정의 주기단위마다의 요청횟수를 토대로 요청횟수의 상승추세 및 하강추세를 파악하고, 상승추세 및 하강추세 - 최소자승법으로 파악한 기울기 값 - 에 따라 가중치를 자동조절 할 수 있다.
시간(분) | 카테고리 1의 재검증 요청횟수 | 카테고리 2의 재검증 요청횟수 |
1 | 40 | 48 |
2 | 41 | 47 |
3 | 40 | 44 |
: | : | : |
99 | 43 | 49 |
100 | 45 | 50 |
표 1을 참조하면, 본 발명의 실시예에서는 1분 주기로 각 1분동안에 발생한 재검증 요청횟수를 파악한 후 최소 자승법으로 요청횟수 - 분류 재검증요청 및 수동 분류정보의 요청횟수 - 의 변화추세를 파악하도록 동작한다.
이하, 본 발명에 적용된 최소자승법에 대해 상세히 설명하기로 한다.
- 1차 선형식의 최소자승법 -
최소자승법(Method of Least Squares)은 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 실험을 N회 실시하여 측정된 N개의 데이터를 확보하고 이 데이터 사이의 규칙성을 찾아내어 상관관계를 함수로 표현할 수 있는 방법이다.
즉, N번 측정한 측정값 y1, y2, y3, y4, ... , yn 이 있고, 함수 y=f(x) 일 것으로 추정할 수 있을 경우, 이 측정값들의 관계에서 가장 잘 맞는 함수를 y=f(x)라고 할때, 측정값 yi와 함수값 f(x)의 차이를 제곱한 것의 합을 <수학식 1>과 같이 표시할 수 있다.
<수학식 1>
수학식 1의 값은 편차제곱의 오차 총합으로 정의할 수 있으며, 이 값이 최소가 되도록 y=f(x)를 구하는 것이 최소자승법이라고 할 수 있다.
이 직선의 그래프가 측정값의 분포를 가장 잘 나타내는 직선으로 해당 직선의 기울기가 곧 측정값의 변화추이를 나타낸다고 볼 수 있다.
측정값 yi와, 함수값 f(xi) 사이의 관계를 살펴보면,
f(xi) 의 함수를 y = ax + b 로 표현할 때, 이 직선 위의 값(ycal1)과 측정 값(yi) 의 편차(yi - ycal1 )를 이용하여 편차 제곱의 오차총합(χ1 2)을 표현할 수 있으며 이는 <수학식 2>과 같이 표시할 수 있다.
<수학식 2>
여기에서 (ycal1) 는 ax + b 로 표현할 수 있으며 이는 <수학식 3>과 같이 표시할 수 있다.
<수학식 3>
여기서 측정한 데이터값(yi)과 해당 직선위의 값(f(xi)) 사이의 오차를 최대한 줄이는 a와 b를 찾아야 하며 이 때의 a와 b의 값은 (χ1 2) 값을 최소화 하는 값이 된다.
오차를 최소화하는 a, b 값을 구하기 위해서는 a와 b에 대해 각각 편미분한 값이 0 이 되면 된다. 이는 <수학식 4>와 같이 표시할 수 있다.
<수학식 4>
수학식 4를 만족하는 a와 b를 계산하면 <수학식 5>와 같이 표시할 수 있다.
<수학식 5>
- 2차 다항식의 최소자승법 -
1차 선형식에서 설명한 바와 같이, 최소자승법(Method of Least Squares)은 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 실험을 N회 실시하여 측정된 N개의 데이터를 확보하고 이 데이터 사이의 규칙성을 찾아내어 상관관계를 함수로 표현할 수 있는 방법이다.
즉, N번 측정한 측정값 y1, y2, y3, y4, ... , yn 이 있고, 함수 y=f(x) 일 것으로 추정할 수 있을 경우, 이 측정값들의 관계에서 가장 잘 맞는 함수를 y=f(x)라고 할때, 측정값 yi와 함수값 f(x)의 차이를 제곱한 것의 합을 <수학식 6>과 같이 표시할 수 있다.
<수학식 6>의 값은 편차제곱의 오차 총합으로 정의할 수 있으며, 이 값이 최소가 되도록 y=f(x)를 구하는 것이 최소자승법이라고 할 수 있다.
<수학식 6>
f(xi) 의 함수를 2차 다항식 y= ycal2 = a0 + a1x + a2x2 로 정의할 경우(a0, a1, a2는 상수),
이 수식의 그래프가 측정값의 분포를 가장 잘 나타낼 경우 해당 수식으로 예측한 요청횟수의 정확도가 좀 더 높다고 판단할 수 있다. 이는 <수학식 7>과 같이 표시할 수 있다.
<수학식 7>
여기서 측정한 데이터값(yi)과 해당 2차 다항식의 값(f(xi)) 사이의 오차를 최대한 줄이는 a0, a1, a2를 찾아야 하며 이 때의 a0, a1, a2 의 값은 편차 제곱의 오차총합(χ2 2) 값을 최소화 하는 값이 된다.
여기서 오차를 최소화하는 a0, a1, a2 값을 구하기 위해서 a0, a1, a2에 대해 각각 편미분한 값이 0이 되면 된다. 이는 <수학식 8>과 같이 표시할 수 있다.
<수학식 8>
여기서 다음과 같이 정의하고 치환하면 <수학식 9>와 같이 간단히 표시할 수 있다.
<수학식 9>
여기서 다음과 같이 정의하고 치환하면 <수학식 10>과 같이 간단히 표시할 수 있다.
<수학식 10>
여기서 <수학식 10>을 이용하여 각각 a0, a1, a2 에 대해 수식을 전개하면 <수학식 11>과 같이 표시할 수 있다.
<수학식 11>
결과적으로, 산출된 상수 a0, a1, a2를 2차 다항식 y= ycal2 = a0 + a1x + a2x2에 대입하여, 2차 다항식의 기울기를 통해 분류 재검증요청 및 수동 분류정보의 요청횟수의 변화량을 산출하고 예측할 수 있다.
즉, 공개구분 처리수단(400)은 소정의 주기단위마다의 요청횟수를 토대로 요청횟수 - 분류 재검증요청 및 수동 분류정보의 요청횟수 - 의 상승추세 및 하강추세를 파악하고, 상승추세 및 하강추세 - 최소자승법으로 파악한 기울기 값 - 에 따라 가중치를 자동조절 할 수 있다.
본 발명의 실시예에 따른 딥러닝을 이용한 기록물 분류 시스템은 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 처리할 수 있다.
즉, 딥러닝(Deep Learning)은 사물이나 데이터를 군집화하는데 사용하는 기술이며, 기계학습의 한 분야로서 기존 인공신경망(Artificial Neural Network, ANN) 알고리즘 기반으로 다수의 은닉층(Hidden Layer)으로 구성한 네트워크 모형을 사용하며 심층신경망(Deep Neural Network, DNN)이라고 정의될 수 있다.
따라서 데이터를 분류하고 이를 통해 예측을 가능하게 함으로써, 사람처럼 생각하고 학습할 수 있다.
딥러닝의 데이터를 스스로 군집화하는 기능을 이용하면, 매년 반복적으로 공개재분류/평가/폐기/보존기간 재책정을 하는 기록들의 종류를 인력을 사용하지 않고도 빠르게 파악할 수 있으며, 이를 통해 반복적으로 이루어지는 기록들의 공개재분류/평가/폐기/보존기간재책정의 속도를 좀 더 높일 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 법률 데이터베이스
200 : 기록물 관리 데이터베이스
300 : 기록물관리시스템
400 : 공개구분 처리수단
200 : 기록물 관리 데이터베이스
300 : 기록물관리시스템
400 : 공개구분 처리수단
Claims (6)
- 공공기관별 정보공개 관련 법률조항정보를 저장하고 있는 법률 데이터베이스;
공개구분이 완료되어 공개구분에 대한 법률조항정보를 포함하고 있는 기존문서를 관리하는 기록물 관리 데이터베이스;
공개구분이 필요한 전자문서 - 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용을 포함함 - 를 제공하는 기록물관리시스템; 및
상기 기록물 관리 데이터베이스로부터 공개구분이 완료된 기존문서를 제공받아 자연어 처리를 통해 제1 공개구분 기준데이터를 생성하고, 상기 제1 공개구분 기준데이터와 상기 기록물관리시스템으로부터 전달되는 전자문서를 비교분석하여 상기 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하는 공개구분 처리수단;
을 포함하는 딥러닝을 이용한 기록물 분류 시스템.
- 제1항에 있어서,
상기 제1 공개구분 기준데이터는 공공기관명, 단위업무명, 처리과명, 문서제목 및 문서내용의 유사도를 포함하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템
- 제2항에 있어서,
상기 제1 공개구분 기준데이터는 법률조항정보의 유사도를 더 포함하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템
- 제1항에 있어서,
상기 공개구분 처리수단은,
상기 법률 데이터베이스가 업데이트될 때마다,
업데이트된 법률조항정보를 자연어 처리하여 상기 제2 공개구분 기준데이터를 생성하고, 상기 제2 공개구분 기준데이터를 토대로 상기 기록물 관리 데이터베이스의 부분공개 및 비공개로 선정된 기존문서를 자동 재분류하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템.
- 제1항에 있어서,
상기 공개구분 처리수단은,
상기 법률 데이터베이스로부터 법률조항정보를 추출하여 상기 전자문서의 공개, 부분공개 및 비공개 여부의 근거를 할당하여 기록하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템.
- 제1항에 있어서,
상기 공개구분 처리수단은,
상기 전자문서의 공개, 부분공개 및 비공개 여부를 자동 분류하여 상기 기록물관리시스템으로 전달함에 있어서,
상기 기록물관리시스템으로부터 분류 재검증요청 및 수동 분류정보가 전달될 때마다 해당하는 전자문서의 자동 분류정보에 마이너스 가중치를 부여하는 것을 특징으로 하는 딥러닝을 이용한 기록물 분류 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190030397A KR102236585B1 (ko) | 2019-03-18 | 2019-03-18 | 딥러닝을 이용한 기록물 분류 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190030397A KR102236585B1 (ko) | 2019-03-18 | 2019-03-18 | 딥러닝을 이용한 기록물 분류 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200110907A true KR20200110907A (ko) | 2020-09-28 |
KR102236585B1 KR102236585B1 (ko) | 2021-04-06 |
Family
ID=72801049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190030397A KR102236585B1 (ko) | 2019-03-18 | 2019-03-18 | 딥러닝을 이용한 기록물 분류 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102236585B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220114339A (ko) * | 2021-02-08 | 2022-08-17 | 대한민국(국가기록원) | 전자기록물 공개재분류를 위한 시스템 및 그 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080053822A (ko) * | 2006-12-11 | 2008-06-16 | 소프트캠프(주) | 보안 문서의 반출입 제어를 위한 통제시스템 |
KR101887629B1 (ko) | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | 자연어기반 정보공개분류시스템 |
-
2019
- 2019-03-18 KR KR1020190030397A patent/KR102236585B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080053822A (ko) * | 2006-12-11 | 2008-06-16 | 소프트캠프(주) | 보안 문서의 반출입 제어를 위한 통제시스템 |
KR101887629B1 (ko) | 2018-02-14 | 2018-08-10 | 대신네트웍스 주식회사 | 자연어기반 정보공개분류시스템 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220114339A (ko) * | 2021-02-08 | 2022-08-17 | 대한민국(국가기록원) | 전자기록물 공개재분류를 위한 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102236585B1 (ko) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mousseau et al. | Using assignment examples to infer weights for ELECTRE TRI method: Some experimental results | |
CN108491928A (zh) | 模型参数训练方法、装置、服务器及存储介质 | |
CN112150298B (zh) | 数据处理方法、系统、设备及可读介质 | |
Moshkovich et al. | Verbal Decision Analysis: Foundations and Trends. | |
US11562262B2 (en) | Model variable candidate generation device and method | |
CN109740160B (zh) | 一种基于人工智能语义分析的任务发布方法 | |
CN112182246A (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
Buntine | Decision tree induction systems: a Bayesian analysis | |
KR102236585B1 (ko) | 딥러닝을 이용한 기록물 분류 시스템 | |
CN109948649A (zh) | 面向数据开放共享的软件访问行为数据特征表示方法 | |
CN111652257A (zh) | 一种样本数据清洗方法及系统 | |
CN115794798A (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
Kultur et al. | ENNA: software effort estimation using ensemble of neural networks with associative memory | |
US20220156862A1 (en) | System and method for analyzing grantability of a legal filing | |
Ito et al. | Iterated Learning Models of Language Change: A Case Study of Sino‐Korean Accent | |
CN114529351A (zh) | 一种商品类目预测方法、装置、设备及存储介质 | |
CN111460139B (zh) | 一种基于智慧管理的工程监理知识服务系统及方法 | |
Lenders et al. | Real-life performance of fairness interventions-introducing a new benchmarking dataset for fair ML | |
CN113742498B (zh) | 一种知识图谱的构建更新方法 | |
CN113656692A (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
Al Shalabi et al. | A framework to deal with missing data in data sets | |
KR102600834B1 (ko) | 웹사이트 통합 관리 시스템 | |
Othman et al. | Data mining approaches in business intelligence: Postgraduate data analytic | |
KR20210000916A (ko) | 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |