KR102255035B1 - 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법 - Google Patents

순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법 Download PDF

Info

Publication number
KR102255035B1
KR102255035B1 KR1020190076183A KR20190076183A KR102255035B1 KR 102255035 B1 KR102255035 B1 KR 102255035B1 KR 1020190076183 A KR1020190076183 A KR 1020190076183A KR 20190076183 A KR20190076183 A KR 20190076183A KR 102255035 B1 KR102255035 B1 KR 102255035B1
Authority
KR
South Korea
Prior art keywords
learning
data
retention period
information
unit
Prior art date
Application number
KR1020190076183A
Other languages
English (en)
Other versions
KR20210000916A (ko
Inventor
정일영
최재교
Original Assignee
주식회사 코이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코이션 filed Critical 주식회사 코이션
Priority to KR1020190076183A priority Critical patent/KR102255035B1/ko
Publication of KR20210000916A publication Critical patent/KR20210000916A/ko
Application granted granted Critical
Publication of KR102255035B1 publication Critical patent/KR102255035B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것으로서, 더욱 상세하게는, 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하여 보존기간을 신속하게 추천할 수 있으면서도, 추천한 보존기간에 대한 신뢰성을 향상시킬 수 있는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것이다.

Description

순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법 {Retention period recommendation system and method using RNN of records}
본 발명은 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것으로, 더욱 상세하게는 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하여 보존기간을 신속하게 추천할 수 있으면서도, 추천한 보존기간에 대한 신뢰성을 높일 수 있는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법에 관한 것이다.
일반적으로, 국민은 법률에 의거하여 공공기관의 기록물들에 대한 정보공개를 청구할 권리를 가지며, 공공기관은 국민생활에 영향을 미치는 정책정보 등에 대해서는 국민의 청구가 없더라도 공개의 범위, 주기, 사기, 방법 등을 미리 정하여 공표하고 정기적으로 공개해야 할 의무가 있다.
공공기관의 기록물 관리에 관한 법률 시행령 제26조(보존기간)에 따르면, 영구, 준영구, 30년, 10년, 5년, 3년, 1년 등 7종으로 구분하고 있으며, 어떤 기록이냐에 따라 보존기간에 차이가 발생하게 된다.
이러한 기록물을 관리하는 관리자는 기록물의 목록을 작성하고, 기록물 별로 메타데이터를 작성하여 시스템 상에 저장하는 것이 일반적이다. 특히, 기록물의 메타데이터 중 보존기간 등의 설정은 관리자의 판단에 의해 보존기간이 설정되기 때문에, 관리자가 다량의 기록물을 처리할 경우, 보존기관의 설정하는 과정에서의 인적오류가 발생할 가능성이 매우 높게 된다.
물론, 국가기록원에서 기록물 색인정보를 공개하고 있어, 공개된 기록물 색인정보 중 보존기간 관련 정보들은 각 기록물 담당자의 주관적 판단의 결과의 결과로 상당 부분 일관성이 결여되어 있기 때문에, 이를 이용하여 기계학습을 통해 신규 기록물들에 대한 보존기간 추측이 이루어지더라도 수집되는 자료에 대한 전처리 과정이 이루어지지 않고 있어 결과값의 신뢰도가 낮은 문제점이 있다.
이와 관련해서, 국내등록특허 제10-1887629호("자연어기반 정보공개분류시스템")에서는 정보공개분류를 위한 학습모델을 생성하고 공개분류대상 기록물을 적용하여 자연어처리를 통한 의미분석을 수행함으로써, 공개분류대상 기록물을 자동으로 공개, 비공개 및 부분공개 중 하나로 분류하여 제공하고 있다.
국내등록특허 제10-1887629호(등록일 2018.08.06.)
본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하기 앞서서 학습 데이터에 대한 전처리를 수행함으로써, 학습 데이터의 유의미성 및 정확성을 높여 산출 결과(보존기간의 추천)의 신뢰성을 향상시킬 수 있는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력부(100), 텍스트 마이닝을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리부(200), 기설정된 딥러닝 기법을 이용하여, 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습부(300), 상기 딥러닝 학습부(300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리부(400), 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력부(500) 및 상기 데이터 관리부(400)의 기준 데이터들과 상기 신규 데이터 입력부(500의 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 관리부(600)를 포함하여 구성되는 것이 바람직하다.
더 나아가, 상기 딥러닝 학습부(300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하다.
더 나아가, 상기 데이터 전처리부(200)는 상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것이 바람직하다.
더 나아가, 상기 딥러닝 학습부(300)는 상기 데이터 전처리부(200)로부터 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM(Long Short Term Memory) 방식을 적용하여 학습을 수행하는 것이 바람직하다.
본 발명의 또다른 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은, 학습 데이터 입력부에서, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력단계(S100), 데이터 전처리부에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리단계(S200), 딥러닝 학습부에서, 기설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에 의해 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습단계(S300), 데이터 관리부에서, 상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리단계(S400), 신규 데이터 입력부에서, 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력단계(S500) 및 보존기간 관리부에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 추천단계(S600)로 이루어지는 것이 바람직하다.
더 나아가, 상기 데이터 전처리단계(S200)는 상기 학습 데이터에 포함되어 있는 정보들 중 관리부서명 정보 또는 문서명 정보를 추출하고 중복 데이터를 제거한 후, 추출한 정보들에 대한 형태소 분리 분석을 수행하여, 각각의 형태소에 대한 출현빈도수를 분석하여 오름차순 정렬을 수행하는 것이 바람직하다.
더 나아가, 상기 딥러닝 학습단계(S300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하되, 상기 데이터 전처리단계(S200)에 의해 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM 방식을 적용하여 학습을 수행하는것이 바람직하다.
상기와 같은 구성에 의한 본 발명의 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은 공공기관의 공공기록물 또는, 민간기업의 기록물들에 대한 보존기간을 생성함에 있어서, 딥러닝 학습을 적용하기 앞서서 학습 데이터에 대한 전처리를 수행함으로써, 학습 데이터의 유의미성 및 정확성을 높여 산출 결과(보존기간의 추천/유추)의 신뢰성을 향상시킬 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 나타낸 순서도이다. 통계 분석을 수행한 결과 데이터를 디스플레이한 실시예이다.
이하 첨부한 도면들을 참조하여 본 발명의 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.
이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.
더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은 딥러닝 기술의 적용을 통한 기록물들의 보존기간을 유추할 수 있는 기술이다.
현재 수작업에 의존하고 있는 공공기관 또는 민간기업의 기록물 처리 중 보존기간 생성 작업에 있어서, 각 기록물 담당자의 주관적 판단의 결과로 이루어지기 때문에, 그 신뢰성이나 일관성에 대한 문제점이 대두되고 있는 실정이다.
그렇기 때문에, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법을 통해서, 기록물 중 특정 정보를 추출하고, 추출한 특정 정보들에 대한 형태소 분리 분석을 통해서, 유의미성을 향상시킴과 동시에, 딥러닝 기술을 적용하여 산출결과(보존기간 추천)의 신뢰성/정확성을 향상시킬 수 있는 장점이 있다.
도 1은 이러한 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 나타낸 구성도로서, 도 1을 참조로 하여 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 상세히 설명한다.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은 도 1에 도시된 바와 같이, 학습 데이터 입력부(100), 데이터 전처리부(200), 딥러닝 학습부(300), 데이터 관리부(400), 신규 데이터 입력부(500), 보존기간 관리부(600)를 포함하여 구성되는 것이 바람직하다.
각 구성에 대해서 자세히 알아보자면,
상기 학습 데이터 입력부(100)는 미리 연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.
상세하게는, 국가기록원이 공개하고 있는 공공기록물의 목록 데이터베이스, 정보공개법 데이터베이스, 전자서명법 데이터베이스, 공공기록물의 관리에 관한 법률 데이터베이스, 기록관리분류기준표 데이터베이스, 보존기간이 이미 설정된 기록물 데이터베이스 등과 연계되어, 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.
상기 데이터 전처리부(200)는 텍스트 마이닝(text mining)을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거하는 것이 바람직하다.
즉, 상기 데이터 전처리부(200)는 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터, 다시 말하자면, 기록물 관련 정보들은 메타데이터로 처리과 기관코드, 단위업무코드, 생산년도, 개록물철등록 일련번호, 권호수, 기록물 철제목, 기록물형태, 내용 요약, 기록물쪽수, 기록물등록건수, 전자파일 개수, 기록물 구분, 수정여부, 구기록물철생산기관명, 구기록물철 분류번호, 시작년도, 종료년도, 비치종결일자, 비치사유, 보존기간, 보존방법, 보존장소, 업무 담당자면, 인수인계구분 등을 포함하고 있어, 텍스트 마이닝을 통해서 이들 중 상기 데이터 전처리부(200)에서 의미있는 정보로 설정하고 있는 생산년도 정보, 관리부서명 정보, 문서명 정보 또는 보존기간 중 적어도 하나 이상을 추출하는 것이 바람직하다. 뿐만 아니라, 다수의 데이터베이스에 중복하여 저장되어 있어 중복하여 입력된 데이터들을 제거하는 것이 바람직하다.
이 후, 상기 데이터 전처리부(200)는 추출한 상기 특정 정보, 다시 말하자면, 생산년도 정보, 관리부서명 정보, 문서명 정보 또는 보존기간들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 것이 바람직하다.
이 때, 형태소 분석을 수행하는 것은, 문장을 이루고 있는 어절, 단어, 형태소 중 분류 정확도가 가장 높은 형태소를 이용하는 것이 가장 바람직하다.
상기 딥러닝 학습부(300)는 미리 설정된 딥러닝 기법을 이용하여 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아 학습을 수행하는 것이 바람직하다.
이 때, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템은, 상기 데이터 전처리부(200)에서 특정 정보들에 대한 형태소 분리 분석을 수행하고, 단순히 각각의 형태소에 대한 출현빈도수 만을 분석하는 것이 아니라, 형태소의 유의미성을 향상시켜 결과의 정확도/신뢰도를 향상시키기 위하여, 오름차순으로 정렬을 수행하는 것이 바람직하다.
이를 통해서, 상기 딥러닝 학습부(300)에서 미리 설정된 딥러닝 기법의 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택한 후, 벡터 길이를 한정하는 임베딩(embedding) 층을 생성하여 입력받은 입력 데이터들을 변환하는 것이 바람직하다.
특히, 상기 딥러닝 학습부(300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하다.
상기 LSTM 방식을 적용한 RNN 기법의 설명에 앞서서, RNN 기법이란 시간 순서대로 받아들인 입력데이터(시계열 데이터, time-series data)를 학습할 때, 은닉층에 기억 기능이 있어 각각의 상태를 저장했다가 학습에 활용하는 신경망 모델이다.
단, RNN 기법은 가까운 과거의 결과만을 판단에 반영하기 때문에, 문장이 길어지거나 문장과 문장의 간격이 멀어질수록 기억력이 희미해져, 이전의 문맥에 반영되지 못하는 문제점이 있다.
이를 해소하기 위하여, RNN의 은닉층의 뉴런을 LSTM block으로 대체한 것이 상기 LSTM 방식을 적용한 RNN 기법이다.
LSTM block이란, 이전의 결과(cell state)를 얼마나 반영할 것인지는 forget gate(ft)로 조절하고, 현재 입력 데이터와 이전 출력 데이터를 얼마나 반영할 것인지는 ignore gate(it)로 조절하되, ft와 it를 가중치로 하는 가중평균의 형태를 갖게 된다.
이러한 상기 LSTM 방식을 적용한 RNN 기법을 이용하여, 상기 딥러닝 학습부(300)는 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택하고, 은닉층의 가중치는 벡터 길이를 200으로 한정하는 것이 바람직하다.
상기 데이터 관리부(400)는 상기 딥러닝 학습부(300)의 학습 결과, 다시 말하자면, 상기 딥러닝 학습부(300)의 딥러닝 기법에 의한 형태소 별 추천 보존기간 정보를 포함하는 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것이 바람직하다.
보존기간 유형으로는 보존기간 없음, 1년, 3년, 5년, 10년, 25년, 30년, 40년, 영구인 총 9라벨로 한정하는 것이 바람직하나, 이는 본 발명의 일 실시예에 불과하다.
아울러, 상기 데이터 관리부(400)는 상기 딥러닝 학습부(300)의 출력 데이터에 대한 loss를 줄이기 위해서, softmax 함수를 이용하여 정의하는 것이 바람직하며, 이는 해당 분야에서 이미 공지된 기술로서 더 이상의 설명을 생략한다.
상기 신규 데이터 입력부(500)는 외부(기록물 관리자 등)로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 것이 바람직하다.
즉, 보존기간을 새롭게 설정할 필요가 있거나, 기존에 설정되어 있는 보존기간의 확인이 필요한 기록물 데이터 등을 입력받는 것이 바람직하다.
상기 보존기간 관리부(600)는 상기 데이터 관리부(400)의 기준데이터들과 상기 신규 데이터 입력부(500)의 신규 데이터를 매핑시켜 비교함으로써, 상기 신규 데이터에 대한 가장 최적의 보존기간을 추천할 수 있다.
상세하게는, 상기 보존기간 관리부(600)는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템을 사용하는 사용자가 학습 데이터의 딥러닝 학습을 통해서 추천되어진 보존기간 정보(상기 데이터 관리부(400)의 기준데이터) 중 최종 선택한 보존기간 정보 또는 수정하여 선택한 보존기간 정보(신규 데이터)들을 매핑시켜 비교함으로써, 별도의 데이터베이스(미도시)에 저장 및 관리할 수 있다. 이렇게 사용자에 의해 선택되어진 보존기간 정보 또는 수정하여 선택한 보존기간 정보들을 이용하여, 신뢰성 상위수준의 정보로 활용할 수 있다.
이를 통해서, 기록물을 관리하는 기관마다의 기록물 보존기간에 대한 미세한 차이 및 기관 특성을 반영할 수 있어,(추천되는 보존기간 정보와 실제 선택되어 있는 보존기간 정보를 이용) 각각의 사용자에 따른 맞춤 정보를 적극적으로 제공하고 각 기록관의 기록관리 차별성을 보존기간 추천(가장 최적의 보존기간 추천)에 반영할 수 있어 보존기관 추천의 신뢰성을 높일 수 있다.
도 2는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 나타낸 순서도로서, 도 2를 참조로 하여 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 상세히 설명한다.
본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은 도 2에 도시된 바와 같이, 학습 데이터 입력단계(S100), 데이터 전처리단계(S200), 딥러닝 학습단계(S300), 데이터 관리단계(S400), 신규 데이터 입력단계(S500) 및 보존기간 추천단계(S600)로 이루어지는 것이 바람직하다.
각 단계에 대해서 자세히 알아보자면,
상기 학습 데이터 입력단계(S100)는 상기 학습 데이터 입력부(100)에서, 미리 연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.
상세하게는, 정보공개법 데이터베이스, 전자서명법 데이터베이스, 공공기록물의 관리에 관한 법률 데이터베이스, 기록관리분류기준표 데이터베이스, 보존기간이 이미 설정된 기록물 데이터베이스 등과 연계되어, 학습을 위한 학습 데이터를 입력받는 것이 바람직하다.
상기 데이터 전처리단계(S200)는 상기 데이터 전처리부(200)에서, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거하는 것이 바람직하다.
이 때, 상기 데이터 전처리단계(S200)는 텍스트 마이닝(text mining)을 통해 수행하는 것이 가장 바람직하다.
상세하게는, 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터, 다시 말하자면, 기록물 관련 정보들은 메타데이터로 처리과 기관코드, 단위업무코드, 생산년도, 개록물철등록 일련번호, 권호수, 기록물 철제목, 기록물형태, 내용 요약, 기록물쪽수, 기록물등록건수, 전자파일 개수, 기록물 구분, 수정여부, 구기록물철생산기관명, 구기록물철 분류번호, 시작년도, 종료년도, 비치종결일자, 비치사유, 보존기간, 보존방법, 보존장소, 업무 담당자면, 인수인계구분 등을 포함하고 있어, 텍스트 마이닝을 통해서 이들 중 상기 데이터 전처리부(200)에서 의미있는 정보로 설정하고 있는 관리부서명 정보 또는 문서명 정보를 추출하는 것이 바람직하다. 뿐만 아니라, 다수의 데이터베이스에 중복하여 저장되어 있어 중복하여 입력된 데이터들을 제거하는 것이 바람직하다.
이 후, 상기 데이터 전처리단계(S200)는 추출한 상기 특정 정보, 다시 말하자면, 관리부서명 정보 또는 문서명 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 것이 바람직하다.
이 때, 형태소 분석을 수행하는 것은, 문장을 이루고 있는 어절, 단어, 형태소 중 분류 정확도가 가장 높은 형태소를 이용하는 것이 가장 바람직하다.
상기 딥러닝 학습단계(S300)는 상기 딥러닝 학습부(300)에서, 미리 설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아 학습을 수행하는 것이 바람직하다.
이를 위해, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법은 상기 데이터 전처리단계(S200)를 통해서, 특정 정보들에 대한 형태소 분리 분석을 수행하고, 단순히 각각의 형태소에 대한 출현빈도수 만을 분석하는 것이 아니라, 형태소의 유의미성을 향상시켜 결과의 정확도/신뢰도를 향상시키기 위하여, 오름차순으로 정렬을 수행하는 것이 바람직하다.
이를 통해서, 상기 딥러닝 학습단계(S300)에서, 미리 설정된 딥러닝 기법의 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택한 후, 벡터 길이를 한정하는 임베딩(embedding) 층을 생성하여 입력받은 입력 데이터들을 변환하는 것이 바람직하다.
특히, 상기 딥러닝 학습단계(S300)는 LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것이 바람직하며, 상기 LSTM 방식을 적용한 RNN 기법의 설명에 앞서서, RNN 기법이란 시간 순서대로 받아들인 입력데이터(시계열 데이터, time-series data)를 학습할 때, 은닉층에 기억 기능이 있어 각각의 상태를 저장했다가 학습에 활용하는 신경망 모델이다.
단, RNN 기법은 가까운 과거의 결과만을 판단에 반영하기 때문에, 문장이 길어지거나 문장과 문장의 간격이 멀어질수록 기억력이 희미해져, 이전의 문맥에 반영되지 못하는 문제점이 있다.
이를 해소하기 위하여, RNN의 은닉층의 뉴런을 LSTM block으로 대체한 것이 상기 LSTM 방식을 적용한 RNN 기법이다.
LSTM block이란, 이전의 결과(cell state)를 얼마나 반영할 것인지는 forget gate(ft)로 조절하고, 현재 입력 데이터와 이전 출력 데이터를 얼마나 반영할 것인지는 ignore gate(it)로 조절하되, ft와 it를 가중치로 하는 가중평균의 형태를 갖게 된다.
이러한 상기 LSTM 방식을 적용한 RNN 기법을 이용하여, 상기 딥러닝 학습부(300)는 입력 데이터로 출현빈도의 1순위부터 1000순위의 형태소를 선택하고, 은닉층의 가중치는 벡터 길이를 한정하는 것이 바람직하다.
상기 데이터 관리단계(S400)는 상기 데이터 관리부(400)에서, 상기 딥러닝 학습단계(S300)의 학습 결과, 다시 말하자면, 딥러닝 기법에 의한 형태소 별 추천 보존기간 정보를 포함하는 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것이 바람직하다.
보존기간 유형으로는 보존기간 없음, 1년, 3년, 5년, 10년, 25년, 30년, 40년, 영구인 총 9라벨로 한정하는 것이 바람직하나, 이는 본 발명의 일 실시예에 불과하다.
또한, 딥러닝 기법에 의한 출력 데이터에 대한 loss를 줄이기 위해서, softmax 함수를 이용하여 정의하는 것이 바람직하며, 이는 해당 분야에서 이미 공지된 기술로서 더 이상의 설명을 생략한다.
상기 신규 데이터 입력단계(S500)는 상기 신규 데이터 입력부(500)에서, 외부(기록물 관리자 등)로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 것이 바람직하다.
즉, 보존기간을 새롭게 설정할 필요가 있거나, 기존에 설정되어 있는 보존기간의 확인이 필요한 기록물 데이터 등을 입력받는 것이 바람직하다.
상기 보존기간 추천단계(S600)는 상기 보존기간 관리부(600)에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 신규 데이터들에 대한 가장 최적의 보존기간을 추천하는 것이 바람직하다.
상세하게는, 상기 보존기간 추천단계(S600)는 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법을 사용하는 사용자가 학습 데이터의 딥러닝 학습을 통해서 추천되어진 보존기간 정보(상기 데이터 관리부(400)의 기준데이터) 중 최종 선택한 보존기간 정보 또는 수정하여 선택한 보존기간 정보(신규 데이터)들을 매핑시켜 비교함으로써, 별도의 데이터베이스(미도시)에 저장 및 관리할 수 있다. 이렇게 사용자에 의해 선택되어진 보존기간 정보 또는 수정하여 선택한 보존기간 정보들을 이용하여, 신뢰성 상위수준의 정보로 활용할 수 있다.
이를 통해서, 기록물을 관리하는 기관마다의 기록물 보존기간에 대한 미세한 차이 및 기관 특성을 반영할 수 있어,(추천되는 보존기간 정보와 실제 선택되어 있는 보존기간 정보를 이용) 각각의 사용자에 따른 맞춤 정보를 적극적으로 제공하고 각 기록관의 기록관리 차별성을 보존기간 추천(가장 최적의 보존기간 추천)에 반영할 수 있어 보존기관 추천의 신뢰성을 높일 수 있다.
즉, 다시 말하자면, 본 발명의 일 실시예에 따른 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법은, 딥러닝 기법을 적용하여 기록물의 보존기간을 유추함에 있어서, 학습 데이터(입력 데이터)의 유의미성을 향상시켜 결과 데이터의 정확성 및 신뢰성을 향상시켜, 추천한 보존기간에 대한 정확성을 효과적으로 향상시킬 수 있는 장점이 있다.
이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100 : 학습 데이터 입력부
200 : 데이터 전처리부
300 : 딥러닝 학습부
400 : 데이터 관리부
500 : 신규 데이터 입력부
600 : 보존기간 관리부

Claims (7)

  1. 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력부(100);
    텍스트 마이닝을 통해 상기 학습 데이터 입력부(100)로부터 전달받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리부(200);
    기설정된 딥러닝 기법을 이용하여, 상기 데이터 전처리부(200)에서 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습부(300);
    상기 딥러닝 학습부(300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리부(400);
    외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력부(500); 및
    상기 데이터 관리부(400)의 기준 데이터들과 상기 신규 데이터 입력부(500의 신규 데이터를 매핑시켜 비교하여, 상기 딥러닝 학습부(300)의 학습 결과를 이용하여 추천되어진 보존기간 정보를 이용하여 상기 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 관리부(600);
    를 포함하여 구성되며,
    상기 데이터 전처리부(200)는
    상기 학습 데이터들 중 상기 기록물 정보 관련 데이터베이스들에 중복하여 저장되어 있는 데이터인 중복 데이터를 제거하고, 상기 학습 데이터에 포함되어 있는 정보들 중 특정 정보로 생산년도 정보, 관리부서명 정보, 문서명 정보 및 보존기간 정보를 포함하여 추출하여, 추출한 특정 정보들에 대한 형태소 분리 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 기준으로 오름차순 정렬을 수행한 후, 기설정된 출현빈도 순위까지의 형태소들을 포함하는 상기 특정 정보들을 상기 딥러닝 학습부(300)에서의 기설정된 딥러닝을 이용한 학습 데이터로 학습을 수행하도록 하며,
    상기 딥러닝 학습부(300)는
    기설정된 출현빈도 순위까지의 형태소들을 학습 데이터로 입력받아 학습을 수행하며,
    상기 데이터 관리부(400)는
    상기 딥러닝 학습부(300)의 학습 결과를 이용하여, 형태소 별 추천 보존기간 정보를 포함하는 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
  2. 제 1항에 있어서,
    상기 딥러닝 학습부(300)는
    LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
  3. 삭제
  4. 제 1항에 있어서,
    상기 딥러닝 학습부(300)는
    상기 데이터 전처리부(200)로부터 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM(Long Short Term Memory) 방식을 적용하여 학습을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템.
  5. 학습 데이터 입력부에서, 기연계된 기록물 정보 관련 데이터베이스들로부터 학습을 위한 학습 데이터를 입력받는 학습 데이터 입력단계(S100);
    데이터 전처리부에서, 텍스트 마이닝을 통해 상기 학습 데이터 입력단계(S100)에 의해 입력받은 상기 학습 데이터에 포함되어 있는 특정 정보들을 추출하고 중복 데이터를 제거한 후, 추출한 상기 특정 정보들에 대한 형태소 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 분석하는 데이터 전처리단계(S200);
    딥러닝 학습부에서, 기설정된 딥러닝 기법을 이용하여 상기 데이터 전처리단계(S200)에 의해 분석한 출현빈도수를 토대로 특정한 하나 이상의 특정 형태소들을 입력받아, 학습을 수행하는 딥러닝 학습단계(S300);
    데이터 관리부에서, 상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 데이터 관리단계(S400);
    신규 데이터 입력부에서, 외부로부터 보존기간 설정을 위한 기록물 정보 관련의 신규 데이터를 입력받는 신규 데이터 입력단계(S500); 및
    보존기간 관리부에서, 상기 데이터 관리단계(S400)에 의해 생성한 상기 기준 데이터들과 상기 신규 데이터 입력단계(S500)에 의해 입력받은 상기 신규 데이터를 매핑시켜 비교하여, 상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여 추천되어진 보존기간 정보를 이용하여 상기 신규 데이터에 대한 가장 최적의 보존기간을 추천하는 보존기간 추천단계(S600);
    로 이루어지며,
    상기 데이터 전처리단계(S200)는
    상기 학습 데이터들 중 상기 기록물 정보 관련 데이터베이스들에 중복하여 저장되어 있는 데이터인 중복 데이터를 제거하고, 상기 학습 데이터에 포함되어 있는 정보들 중 특정 정보로 생산년도 정보, 관리부서명 정보, 문서명 정보 및 보존기간 정보를 포함하여 추출하여, 추출한 특정 정보들에 대한 형태소 분리 분석을 수행하여 각각의 형태소에 대한 출현빈도수를 기준으로 오름차순 정렬을 수행한 후, 기설정된 출현빈도 순위까지의 형태소들을 포함하는 상기 특정 정보들을 상기 딥러닝 학습단계(S300)에서의 기설정된 딥러닝을 이용한 학습 데이터로 학습을 수행하도록 하며,
    상기 데이터 관리단계(S400)는
    상기 딥러닝 학습단계(S300)의 학습 결과를 이용하여, 형태소 별 추천 보존기간 정보를 포함하는 출력 데이터를 이용하여, 기록물에 대한 보존기간 유형의 기준 데이터들을 생성하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.
  6. 삭제
  7. 제 5항에 있어서,
    상기 딥러닝 학습단계(S300)는
    LSTM(Long Short Term Memory) 방식을 적용한 RNN(Recurrent Neural Networks) 기법을 이용하되,
    상기 데이터 전처리단계(S200)에 의해 기설정된 출현빈도 순위 내의 형태소들을 입력받으며, 임베딩(embedding) 층을 생성하여 입력받은 데이터를 변환한 후, 은닉층의 각각의 노드에 LSTM 방식을 적용하여 학습을 수행하는 것을 특징으로 하는 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 방법.
KR1020190076183A 2019-06-26 2019-06-26 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법 KR102255035B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190076183A KR102255035B1 (ko) 2019-06-26 2019-06-26 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190076183A KR102255035B1 (ko) 2019-06-26 2019-06-26 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법

Publications (2)

Publication Number Publication Date
KR20210000916A KR20210000916A (ko) 2021-01-06
KR102255035B1 true KR102255035B1 (ko) 2021-05-24

Family

ID=74128893

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190076183A KR102255035B1 (ko) 2019-06-26 2019-06-26 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법

Country Status (1)

Country Link
KR (1) KR102255035B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230071869A (ko) 2021-11-16 2023-05-24 (주)국전약품 리튬 이차전지용 전해액 첨가제 화합물 및 이를 포함하는 리튬 이차전지

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026773A (ja) * 2008-07-18 2010-02-04 Kddi Corp 地理的特徴情報抽出方法およびシステム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672522B1 (ko) * 2014-11-19 2016-11-04 주식회사 스토리안트 기록 보유목록 관리 방법 및 장치
KR101887629B1 (ko) 2018-02-14 2018-08-10 대신네트웍스 주식회사 자연어기반 정보공개분류시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026773A (ja) * 2008-07-18 2010-02-04 Kddi Corp 地理的特徴情報抽出方法およびシステム

Also Published As

Publication number Publication date
KR20210000916A (ko) 2021-01-06

Similar Documents

Publication Publication Date Title
CN110796470B (zh) 一种面向市场主体监管和服务的数据分析系统
CN110383319A (zh) 大规模异构数据摄取和用户解析
EP1504412B1 (en) Processing mixed numeric and/or non-numeric data
CN108345640B (zh) 一种基于神经网络语义分析的问答语料库构建方法
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN112396108A (zh) 业务数据评估方法、装置、设备及计算机可读存储介质
CN104462216B (zh) 居委标准代码转换系统及方法
CN112036842B (zh) 一种科技服务智能匹配装置
KR20210082105A (ko) 부동산 실거래가 예측을 위한 학습 모델 생성장치
JP6900479B2 (ja) 法的情報処理システム、方法及びプログラム
CN111198969A (zh) 一种基于网络大数据的经济信息咨询系统和方法
KR102255035B1 (ko) 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법
Nurhachita et al. A comparison between deep learning, naïve bayes and random forest for the application of data mining on the admission of new students
CN110889632B (zh) 一种公司形象提升系统的数据监测分析系统
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
CN116595191A (zh) 一种交互式低代码知识图谱的构建方法及装置
Cetera et al. Potential for the use of large unstructured data resources by public innovation support institutions
Abdullah et al. Decision making using document driven decision support systems
Abbott et al. Population statistics without a Census or register
Price et al. Making monitoring manageable: a framework to guide learning
Ngo et al. Exploration and integration of job portals in Vietnam
Huysmans et al. A new approach for measuring rule set consistency
KR20240074084A (ko) 주식 분석 리포트 관련 지표를 사용한 주식 매매 전략 성공률 예측 시스템
CN117932074A (zh) 一种基于数字化审计平台的审计知识图谱化系统
Wróblewska et al. Entity Graph Extraction from Legal Acts--a Prototype for a Use Case in Policy Design Analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant