KR101887629B1 - 자연어기반 정보공개분류시스템 - Google Patents

자연어기반 정보공개분류시스템 Download PDF

Info

Publication number
KR101887629B1
KR101887629B1 KR1020180018410A KR20180018410A KR101887629B1 KR 101887629 B1 KR101887629 B1 KR 101887629B1 KR 1020180018410 A KR1020180018410 A KR 1020180018410A KR 20180018410 A KR20180018410 A KR 20180018410A KR 101887629 B1 KR101887629 B1 KR 101887629B1
Authority
KR
South Korea
Prior art keywords
public
classification
information
disclosure
classified
Prior art date
Application number
KR1020180018410A
Other languages
English (en)
Inventor
윤재호
정문필
Original Assignee
대신네트웍스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대신네트웍스 주식회사 filed Critical 대신네트웍스 주식회사
Priority to KR1020180018410A priority Critical patent/KR101887629B1/ko
Application granted granted Critical
Publication of KR101887629B1 publication Critical patent/KR101887629B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F17/30011
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 자연어기반 정보공개분류시스템에 관한 것이다.
보다 구체적으로, 공공기관의 기록관리기준 및 정보공개기준에 따른 비공개 대상 키워드 및 상기 비공개 대상 키워드를 포함하는 문장을 기계 학습하여 생산된 학습모델에 의해 학습된 학습데이터를 저장하는 DB 및 상기 학습모델을 공개분류대상 기록물에 적용시켜 의미분석을 수행하면서, 상기 학습모델에 포함된 비공개 규정에 해당하는 정보가 상기 공개분류대상 기록물에 포함되어 있는지 판단하여, 상기 공개분류대상 기록물을 공개, 비공개 및 부분공개 중 하나로 분류된 분류결과를 상기 공개분류대상 기록물을 생산 및 관리하는 정보생산관리시스템으로 제공하고, 분류된 공개분류대상 기록물을 학습데이터로 상기 DB에 저장하는 정보공개분류 관리서버를 포함하는 정보공개분류 시스템에 관한 것이다.

Description

자연어기반 정보공개분류시스템{system for classifying and opening information based on natural language}
본 발명은 자연어기반 정보공개분류시스템에 관한 것이다.
보다 구체적으로, 공공기관의 기록관리기준 및 정보공개기준에 따른 비공개 대상 키워드 및 상기 비공개 대상 키워드를 포함하는 문장을 기계 학습하여 생산된 학습모델에 의해 학습된 학습데이터를 저장하는 DB 및 상기 학습모델을 공개분류대상 기록물에 적용시켜 의미분석을 수행하면서, 상기 학습모델에 포함된 비공개 규정에 해당하는 정보가 상기 공개분류대상 기록물에 포함되어 있는지 판단하여, 상기 공개분류대상 기록물을 공개, 비공개 및 부분공개 중 하나로 분류된 분류결과를 상기 공개분류대상 기록물을 생산 및 관리하는 정보생산관리시스템으로 제공하고, 분류된 공개분류대상 기록물을 학습데이터로 상기 DB에 저장하는 정보공개분류 관리서버를 포함하는 정보공개분류 시스템에 관한 것이다.
일반적으로, 국민은 법률에 의거 공공기관에 정보공개를 청구할 권리를 가지며, 공공기관은 국민생활에 영향을 미치는 정책정보 등에 대하여 국민의 청구가 없더라도 공개의 범위, 주기, 사기, 방법 등을 미리 정하여 공표하고 정기적으로 공개해야할 의무가 있다.
이에, 공공기관에서 생산되는 기록물(온오프라인 기록물을 모두 포함)들은 기록관리법 및 정보공개법에 따라 열람하거나 그 사본, 복제물을 교부 또는 정보통신망을 통하여 제공될 수 있다.
이를 위해, 종래에는 기관별로 생산되는 기록물에 대해, 해당 기관의 기록물 담당자가 주기적으로 정보공개분류(공개, 비공개, 부분공개)를 수행하고, 비공개 사유가 소멸한 경우 해당 기록물을 공개하는 작업을 일일히 처리하였다.
하지만, 기록물은 대량으로 생산되고, 기록물의 이관도 발생되어 수작업으로 정보 공개분류 작업을 수행하는데는 한계가 있고, 정확한 정보공개분류가 어렵다는 문제가 발생되었다.
이에, 본 출원인은 정보공개분류를 위한 학습모델을 생성하고, 공개분류대상 기록물을 적용하여 자연어처리를 통한 의미분석을 수행함으로써 공개분류대상 기록물을 자동으로 공개, 비공개 및 부분공개 중 하나로 분류하여 제공할 수 있는 자연어기반 정보공개분류시스템을 제공하고자 한다.
1. 한국등록특허 제10-0769685호(2007.10.19.공고)
본 발명의 목적은, 정보공개분류를 위한 학습모델을 생성하고, 공개분류대상 기록물을 적용하여 자연어처리를 통한 의미분석을 수행함으로써 공개분류대상 기록물을 자동으로 공개, 비공개 및 부분공개 중 하나로 분류하여 제공할 수 있는 자연어기반 정보공개분류시스템을 제공하는 데 있다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 자연어기반 정보공개분류시스템은 공공기관의 기록관리기준 및 정보공개기준에 따른 비공개 대상 키워드 및 상기 비공개 대상 키워드를 포함하는 문장을 기계 학습하여 생산된 학습모델에 의해 학습된 학습데이터를 저장하는 DB; 및 상기 학습모델을 공개분류대상 기록물에 적용시켜 의미분석을 수행하면서, 상기 학습모델에 포함된 비공개 규정에 해당하는 정보가 상기 공개분류대상 기록물에 포함되어 있는지 판단하여, 상기 공개 분류대상 기록물을 공개, 비공개 및 부분공개 중 하나로 분류된 분류결과를 상기 공개분류대상 기록물을 생산 및 관리하는 정보생산관리시스템으로 제공하고, 분류된 공개분류대상 기록물을 학습데이터로 상기 DB에 저장하는 관리서버를 포함할 수 있다.
또한, 상기 관리서버는, 상기 공개분류대상 기록물로부터 추출된 텍스트를 자연어 처리하여 의미분석을 수행하되, 상기 공개분류대상 기록물을 생산한 기관에서 사용되는 단어, 언어변천에 따른 유사어 및 문법제거를 통해 생산된 통합단어를 연관 매칭 저장한 유사어 사전을 이용하여 의미분석을 수행할 수 있다.
상기 관리서버는 상기 정보생산관리시스템으로부터 수신된 공개분류대상 기록물에 포함된 텍스트 추출시 보안정보를 특수문자 처리하며, 상기 기학습데이터를 기반으로 한글자 단위의 띄어쓰기가 적용된 전후단어를 띄어쓰기 제거 후 결합시켜 하나의 통합단어로 생산하고 상기 유사어 사전에 저장된 대응되는 유사어에 매칭시켜 저장할 수 있다.
또한, 상기 관리서버는, 상기 공개분류대상 기록물이 비공개 또는 부분공개로 판단되면, 상기 공공기관의 기록관리기준 및 정보공개기준 중 해당되는 사유정보를 제공할 수 있다.
또한, 상기 관리서버는, 공개분류대상 기록물을 생산하는 기관의 업무성향에 따라 학습데이터를 공유하여 기관별 공개분류대상 기록물의 공개분류를 판단하되, 기관별 정보생산관리시스템에서 해당 기관의 학습데이터 및 공개분류된 학습데이터만 열람하도록 접근을 제어할 수 있다.
이상에서 설명한 바와 같이, 본 발명의 정보공개분류시스템은 자연어처리를 통한 의미분석을 수행함으로써 공개분류대상 기록물을 세부적으로 분석함으로써, 공개, 비공개 및 부분공개를 정확하게 분류하여 제공할 수 있다.
또한, 문법(띄어쓰기 등)을 제거한 통합단어를 적용함으로써, 기록물 작성자의 문법 오류 발생시에도 단어의미를 정확하게 인식함으로써, 정보공개분류를 정확하게 할 수 있다.
또한, 언어변천에 따른 단어, 통합단어, 함축어, 신조어, 유사어 등을 유사의미기반으로 매칭시켜 의미분석에 이용할 수 있다.
또한, 정보공개분류시 비공개 및 부분공개로 분류된 경우, 해당 사유에 매칭되는 법률조항정보를 제공할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 자연어 기반 정보공개분류시스템의 개략적인 구성을 설명하기 위한 도면이다.
도 2는 도 1의 관리서버의 구성을 나타내는 구성 블럭도이다.
도 3은 도 1의 DB 활용을 설명하기 위한 도면이다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
이하, 도면을 참조하여 설명하기에 앞서, 본 발명의 요지를 드러내기 위해서 필요하지 않은 사항 즉 통상의 지식을 가진 당업자가 자명하게 부가할 수 있는 공지 구성에 대해서는 도시하지 않거나, 구체적으로 기술하지 않았음을 밝혀둔다.
도 1은 본 발명의 일 실시 예에 따른 자연어 기반 정보공개분류시스템의 개략적인 구성을 설명하기 위한 도면이다. 도 2는 도 1의 관리서버의 구성을 나타내는 구성 블럭도이다.
도 1을 참고하면, 본 발명의 일 실시 예에 따른 자연어 기반 정보공개분류시스템(100: 이하, 정보공개분류시스템이라 함)은 DB(110) 및 관리서버(120)를 포함할 수 있다. 또한, 도 2를 참고하면 관리서버(120)는 검색엔진부(130) 및 딥러닝부(140)를 포함할 수 있다.
본 발명에서, 정보공개분류 기록물은 정보 생산관리 시스템(10)에서 생산된 공공 기록물 및 정보로, 공공기관의 기록관리법 및 정보공개법에 따라 정보공개분류(공개, 비공개 및 부분공개로 분류)되어야 하는 기록물이 될 수 있다. 이때, 기록물은 온/오프라인 기록물을 모두 포함할 수 있다.
여기서, 정보 생산관리 시스템(10)은 중앙부처, 기초자치단체, 교육기관 등과 같은 공공기관의 기록물을 생산관리하는 온나라 시스템, 기록관리시스템(RMS:Record Management System) 등이 될 수 있다. 이외에, 기관별 기록물을 생산 관리하는 모든 시스템이 될 수도 있다.
한편, 본 발명의 일 실시 예에 따른 정보공개분류시스템(100)은 기관별 기록물에 대한 정보공개분류를 수행하고, 정보 생산관리 시스템(10)을 통해 해당 기관에서 정보공개분류된 기록물의 결과를 검색 및 확인할 수 있는 서비스를 제공할 수 있다.
DB(110)는 정보공개분류 요청된 기관별 기록물(이미지, 전자파일 등) 또는 기록물리스트를 저장하고, 저장된 기록물을 학습모델에 적용시켜 얻어진 학습데이터 및 정보공개분류 결과 등을 저장할 수 있다.
또한, DB(110)는 기관별 기록관리기준 및 정보공개기준에 따른 비공개 대상 키워드, 비공개 대상 키워드를 포함하는 문장을 정보공개분류 기준으로 저장할 수 있다.
또한, DB(110)는 학습데이터 및 정보공개기준에 포함된 키워드를 기반으로, 공개분류대상 기록물을 생산하는 기관에서 사용되는 단어, 언어변천에 따른 단어, 통합단어, 함축어, 신조어, 유사어 등을 유사의미기반으로 매칭시킨 유사어 사전을 저장할 수 있다.
관리서버(120)는 정보 생산관리 시스템(10)으로부터 특정기관의 기록물에 대한 정보공개분류 요청 수신시, 학습모델을 이용하여 해당 기록물에 대한 정보공개분류를 수행하며, 그 결과값을 DB(110)에 저장하고 정보 생산관리 시스템(10)으로 제공할 수 있다.
구체적으로, 관리서버(120)는 학습모델을 공개분류대상 기록물에 적용시켜 의미분석을 수행하면서, 학습모델에 포함된 비공개 규정에 해당하는 정보가 공개분류대상 기록물에 포함되어 있는지 판단하여, 공개 분류대상 기록물을 공개, 비공개 및 부분공개 중 하나로 분류할 수 있다. 이때, 관리서버(120)는 분류결과를 공개분류대상 기록물을 생산 및 관리하는 정보생산관리시스템(10)으로 제공하고, 분류된 공개분류대상 기록물을 학습데이터로 상기 DB(110)에 저장할 수 있다.
관리서버(120)에 대한 구체적인 설명은 도 2를 통해 설명할 수 있다. 도 2를 참고하면, 관리서버(120)는 검색엔진부(130) 및 딥러닝부(140)를 포함할 수 있다.
여기서, 검색엔진부(130)는 기록물 다운로드부(131), 텍스트 추출부(132), 개인정보 변환부(133) 및 통합단어 생성부(134)를 포함할 수 있다.
기록물 다운로드부(131)는 정보 생산관리 시스템(10)으로부터 특정기관의 기록물에 대한 정보공개분류 요청 수신시, 요청된 적어도 하나의 기록물 또는 기록물 리스트를 정보 생산관리 시스템(10)으로부터 다운로드하여 DB(110)에 저장할 수 있다. 이때, 기록물 또는 기록물 리스트는 기관별로 분류하여 저장관리할 수 있다.
텍스트 추출부(132)는 기록물 다운로드부(131)에 의해 다운로드된 기록물 또는 기록물 리스트에 포함된 기록물로부터 텍스트를 추출할 수 있다. 이때, 기록물 리스트를 수신시 권한부여를 통해 정보 생산관리 시스템(10)에 접근하여, 기록물 리스트에 포함된 기록물로부터 텍스트를 추출할 수 있다.
한편, 기록물은 오프라인 기록물을 스캔한 이미지 파일이거나, 전자 파일 등의 형태가 될 수 있다. 텍스트 추출부(132)는 기록물로부터 텍스트 추출을 위한 OCR, FTR 등의 기능을 수행할 수 있고, 해당 기록물의 기본정보(관리기관, 작성자, 작성일자, 보존기간 등)도 정보 생산관리 시스템(10)으로부터 수신할 수 있다.
개인정보 변환부(133)는 텍스트 추출부(132)에서 기록물의 텍스트 추출 수행 중, 개인정보 등과 같은 보안정보로 판단되는 단어(문자, 숫자 등)를 인식시, 특수문자로 변환하여 적용시킬 수 있다. 이때, 특수문자는 딥러닝부(140)에서 의미분석시 개인정보로 인식할 수 있도록 설정될 수 있다.
한편, 텍스트 인식시 작성자의 작성오류(문법오류, 오기 등)에 의해, 의미파악시 인식이 어려운 텍스트가 발생될 수 있다. 이러한 현상을 방지하기 위해, 통합단어 생성부(134)는 텍스트 인식 중, 한글자 단위의 띄어쓰기가 적용된 전후단어(여기서, 단어는 띄어쓰기에 의해 구분된 단위)의 관계를 기학습데이터를 기반으로 생성된 유사어 사전을 통해 파악하여, 전후단어가 유사어 사전상의 하나의 키워드에 의미매칭될시, 전후단어사이의 띄어쓰기 제거 후 결합시켜 하나의 통합단어로 생산하고, 유사어 사전에 저장된 대응되는 유사어에 매칭시켜 저장할 수 있다.
일 예로, 기학습데이터를 통해 유사어 사전에 키워드(단어) '국민기초생활보장에 의한 수급자'가 등록된 경우, 통합단어 생성부(134)는 다음의 예시에 따른 텍스트 인식시 통합단어를 생성하여 기등록된 '국민기초생활보장에 의한 수급자'와 매칭저장할 수 있다. 인식되는 텍스트 예시로는 오기를 포함한 '국민기초생활 수금자', ' 국민기초샌활 수급자' 등이 될 수 있다.
이때, 통합단어 생성부(134)는 유사어 사전을 기반으로, 띄어쓰기에 구분된 단어의 전후관계를 파악하여 통합단어 생산여부를 결정하고, 통합단어 생산시 전후관계파악시 이용된 유사어사전에 등록된 해당 유사어에 매칭시켜 저장할 수 있다.
이에, 상기 예시의 경우 '국민기초생활보장에 의한 수급자'(대표 키워드)에 매칭된 통합단어로 '국민기초생활수금자', '국민기초샌활수급자' 등이 등록될 수 있다.
한편, 검색엔진부(130)를 통해 텍스트 추출된 기록물은 특수문자 및 통합단어를 포함하는 텍스트 파일로 변환될 수 있다. 이때, 변환된 텍스트 파일은 딥러닝부(140)의 의미분석(semantic analysis)에 따라 정보공개분류(공개, 비공개, 부분공개)될 수 있다.
딥러닝부(140)는 파싱부(141), 유효성 검사부(142), 학습모델(143) 및 결과생성부(144)를 포함할 수 있다.
파싱부(141)는 검색엔진부(130)에서 최종적으로 출력된 기록물 즉, 특수문자 및 통합단어를 포함하는 텍스트파일을 자연어처리를 수행하여 단어 단위로 구분시킬 수 있다. 이때, 통합단어는 하나의 단어로 인식될 수 있다.
유효성 검사부(142)는 공공기관의 기록관리기준 및 정보공개기준에 따른 학습모델(143)을 기반으로 의미분석을 수행하여, 해당 기록물에 학습모델에 포함된 비공개 규정에 해당하는 정보가 포함되어 있는지에 따라, 정보생산관리시스템(10)에서 요청된 공개 분류대상 기록물을 공개, 비공개 및 부분공개 중 하나로 분류할 수 있다. 이때, 유효성 검사부(142)는 DB(110)에 저장된 유사어 사전을 이용하여 의미분석을 수행할 수 있다.
설명의 이해를 위해, 분석대상내용이 '..국민기초 생활보장법 제29조(급여의 변경)와 관련입니다. 국민기초생활보장 수급자 생활샐태 확인결과 소득인정액 변경 요청(보고) 하오니 처리하여 주시기 바랍니다...'인 경우를 일 예로 설명할 수 있다.
이때, 유사어 사전에는 상기 '국민기초 생활보장법' '국민기초생활보장 수급자' 및 '생활샐태'에 대한 유사어가 등록되어 있을 수 있고, 그 예시는 다음과 같이 될 수 있다. 한편, 이는 일 예이며 더 많은 유사어 또는 다른 유사어를 포함할 수도 있고 각 키워드별로 유사어 사전은 등록될 수 있다.
유사어 사전에는 대표키워드-유사어-통합단어가 매칭저장될 수 있다. 일예로, '국민기초생활보장법'을 대표키워드로 유사어인 '국민기초생활 보장법', '국민기초생활보장', '국민기초생활보장에 관한 법률' 및 '국민기초 생활보장법' 등이 저장될 수 있고, 대표키워드 및 유사어에 대한 통합단어 등이 매칭저장될 수 있다.
또한, '국민기초생활보장법에 의한 수급자'를 대표키워드로 유사어인 '국민기초생활보장 수급자', '국민기초생활보장법수급자', '국민기초생활보장법 수급자', '국민기초생활수급자', '국민기초생활 수급자', '기초생활보장수급자 등이 매되고, 대표키워드 및 유사어에 대한 통합단어 등이 매칭저장될 수 있다.
이때, 통합단어의 일 예로, '생활 실태'를 대표키워드로 통합단어인 '생활샐태', '생활 실태', '샌활 실태' 등이 매칭저장될 수 있다.
이를 기반으로 상기 분석대상내용을 분석시, 유효성 검사부(142)는 유사어 사전을 이용하여 분석키워드를 유사어 사전에 매칭된 대표키워드로 해석하여 의미분석을 수행할 수 있다.
즉, 국민기초 생활보장법은 국민기초생활보장법으로, 국민기초생활보장 수급자는 국민기초생활보장법에 의한 수급자, 생활샐태는 생활 실태로 변경적용하여 문장, 문단, 페이지 및 문서전체 등의 단위로 의미분석을 수행하여, 정보공개분류를 수행할 수 있다.
여기서, 학습모델(143)은 공공기관의 기록관리기준 및 정보공개기준에 따른 비공개 대상 키워드 및 상기 비공개 대상 키워드를 포함하는 문장을 기계 학습하여 생산된 모델이 될 수 있다. 한편, 학습모델(143)은 유효성 검사부(142)에 의해 정보공개분류되는 기록물들을 학습데이터로 이용하여 적응적으로 학습될 수 있다.
정보공개분류된 기록물(학습데이터)은 도 3과 같이 기관별(10,20)로 분류되어 저장 및 관리되고, 해당 기관(A,B)만 접근권한이 설정될 수 있다.
이때, 본 발명에서는 업무성향이 유사한 기관(A,B)들을 그룹화(20,30)하고 해당 그룹의 학습데이터를 공유시켜 해당 그룹의 기록물에 대한 정보공개분류판단 및 학습모델 적응학습시 이용할 수 있다. 한편, 기관(A,B)는 연관된 정보생산관리시스템(10)을 통해 DB(110)에 접근할 수 있다.
일 예로, 업무성향이 유사한 기관으로 각 도시의 구청, 각 도시의 시청 등으로 그룹핑될 수 있다. 이는 하나의 일 예이며, 다른 기준으로 기관의 업무성향을 구분할 수도 있다.
유효성 검사부(142)는 자연어 처리된 기록물을 문장, 문단, 페이지, 문서 전체 등의 단위로 의미분석기법에 따라 문맥을 분석하여 학습모델과 비교함으로써, 정확한 정보공개분류를 수행할 수 있다.
일 예로, 기록물의 내용이 "**훈련을 오늘부터 시행한다."(A 문장) 및 **훈련 시행에 대한 구체적인 내용(B 문장)을 포함하는 경우를 설명할 수 있다.
이때, 키워드 분석을 통해 정보공개분류를 수행하면, 해당 기록물은 "**훈련" 키워드에 의해 비공개로 분류될 수 있다. 하지만, 본원발명과 같이 의미분석을 통해 유효성 검사를 수행하면, A 문장 의미분석, B 문장 의미분석 및 A 문장과 B 문장 비교 의미분석을 통해, A 문장을 공개, B 문장을 비공개로 분류함으로써 정확한 분류를 수행할 수 있다.
결과 생성부(144)는 유효성 검사부(143)로부터 정보공개분류 결과를 수신하면, 공개분류대상 기록물의 정보공개분류 결과 및 분류결과(비공개, 부분공개) 사유를 생성할 수 있다. 이때, 분류결과 사유는 해당 기록물의 비공개 또는 부분공개가 적용된 근거가 되는 법률조항 등이 될 수 있다. 또한, 분류결과에는 비공개 또는 부분공개가 적용된 분류결과 기록물을 포함할 수도 있다.
한편, 결과 생성부(144)에서 생성된 분류결과는 DB(110)에 기관별로 분류되어 저장될 수 있고, 해당 기관은 정보생산관리시스템(10)을 통해 권한이 부여된 해당 기관의 기록물에 대한 분류결과만 열람할 수 있다. 또는, DB(110)에 저장된 분류결과는 정보생산관리시스템(10)으로 자동 업로드될 수 있다.
이에 따라, 정보공개분류를 요청한 해당 기관은 권한이 부여된 DB(110) 및 정보생산관리시스템(10)의 DB(미도시)를 통해 기록물의 분류결과를 검색 및 확인할 수 있다.
한편, 상기에서 도 1 내지 도 3을 이용하여 서술한 것은, 본 발명의 주요 사항만을 서술한 것으로, 그 기술적 범위 내에서 다양한 설계가 가능한 만큼, 본 발명이 도 1 내지 도 3의 구성에 한정되는 것이 아님은 자명하다.
100 : 자연어 처리기반의 정보공개분류시스템
110 : DB 120 : 관리서버
130 : 검색엔진부 140 : 딥러닝부
131 : 기록물 다운로드부 132 : 텍스트 추출부
133 : 개인정보 변환부 134 : 통합단어 생성부
141 : 파싱부 142 : 유효성 검사부
143 : 학습모델 144 : 결과생성부
10 : 정보생산관리시스템

Claims (5)

  1. 공공기관의 기록관리기준 및 정보공개기준에 따른 비공개 대상 키워드 및 상기 비공개 대상 키워드를 포함하는 문장을 기계 학습하여 생산된 학습모델에 의해 학습된 학습데이터를 저장하는 DB; 및
    상기 학습모델을 공개분류대상 기록물에 적용시켜 의미분석을 수행하면서, 상기 학습모델에 포함된 비공개 규정에 해당하는 정보가 상기 공개분류대상 기록물에 포함되어 있는지 판단하여, 상기 공개 분류대상 기록물을 공개, 비공개 및 부분공개 중 하나로 분류된 분류결과를 상기 공개분류대상 기록물을 생산 및 관리하는 정보생산관리시스템으로 제공하고, 분류된 공개분류대상 기록물을 학습데이터로 상기 DB에 저장하는 관리서버를 포함하고,
    상기 관리서버는,
    - 상기 공개분류대상 기록물로부터 추출된 텍스트를 자연어 처리하여 의미분석을 수행하되, 기 학습데이터를 기반으로 상기 공개분류대상 기록물을 생산한 기관에서 사용되는 단어, 언어변천에 따른 유사어, 문법제거를 통해 생산된 통합단어 및 대표키워드를 유사의미 기반으로 연관 매칭 저장한 유사어 사전을 이용하여 상기 추출된 텍스트를 상기 유사어 사전의 대표키워드로 해석하여 의미분석을 수행하며,
    - 상기 정보생산관리시스템으로부터 수신된 공개분류대상 기록물에 포함된 텍스트 추출시 보안정보를 특수문자 처리하고, 상기 기 학습데이터를 기반으로 한글자 단위의 띄어쓰기가 적용된 전후단어의 의미관계를 파악하여 띄어쓰기 제거 후 결합시켜 하나의 통합단어로 생산하여 상기 유사어 사전에 저장된 대응되는 유사어에 매칭시켜 저장하며,
    - 업무성향이 유사한 기관들을 그룹화하고, 그룹화된 기관에서 생산된 공개분류대상 기록물을 공유하여 그룹에 포함된 기관의 기록물에 대한 정보공개분류판단 및 학습모델의 적응 학습시 이용하는 것을 특징으로 하는 자연어기반 정보공개분류 시스템.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 관리서버는,
    상기 공개분류대상 기록물이 비공개 또는 부분공개로 판단되면, 상기 공공기관의 기록관리기준 및 정보공개기준 중 해당되는 사유정보를 제공하는 것을 특징으로 하는 자연어기반 정보공개분류 시스템.
  5. 삭제
KR1020180018410A 2018-02-14 2018-02-14 자연어기반 정보공개분류시스템 KR101887629B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180018410A KR101887629B1 (ko) 2018-02-14 2018-02-14 자연어기반 정보공개분류시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180018410A KR101887629B1 (ko) 2018-02-14 2018-02-14 자연어기반 정보공개분류시스템

Publications (1)

Publication Number Publication Date
KR101887629B1 true KR101887629B1 (ko) 2018-08-10

Family

ID=63229580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180018410A KR101887629B1 (ko) 2018-02-14 2018-02-14 자연어기반 정보공개분류시스템

Country Status (1)

Country Link
KR (1) KR101887629B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200110907A (ko) 2019-03-18 2020-09-28 주식회사 에이티앤아이 딥러닝을 이용한 기록물 분류 시스템
KR20210000916A (ko) 2019-06-26 2021-01-06 주식회사 코이션 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법
KR102503443B1 (ko) * 2022-10-13 2023-02-23 이동근 인공지능 기반 데이터베이스 관리 시스템 및 방법
CN116992035A (zh) * 2023-09-27 2023-11-03 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100769685B1 (ko) 2006-11-03 2007-10-24 (주)한텍시스템 행정정보 자동공개 시스템 및 그 방법
JP2010033470A (ja) * 2008-07-30 2010-02-12 Sharp Corp 文書管理装置、文書管理プログラムおよび記録媒体
JP2010072779A (ja) * 2008-09-17 2010-04-02 Mitsubishi Electric Corp データ分類装置及びコンピュータプログラム及びデータ分類方法
KR20100060165A (ko) * 2008-11-27 2010-06-07 엔에이치엔(주) 유사어 결정 방법 및 시스템
KR20140069756A (ko) * 2012-11-29 2014-06-10 대한민국(국가기록원) 트위터 기록물 장기보존 시스템
KR20140080594A (ko) * 2012-12-12 2014-07-01 한국발명진흥회 특허 평가 엔진을 이용한 특허 자동 평가 방법 및 평가 서버
KR101627550B1 (ko) * 2015-06-18 2016-06-07 주식회사 스토리안트 기계학습 기반 지능형 기록물 공개관리 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100769685B1 (ko) 2006-11-03 2007-10-24 (주)한텍시스템 행정정보 자동공개 시스템 및 그 방법
JP2010033470A (ja) * 2008-07-30 2010-02-12 Sharp Corp 文書管理装置、文書管理プログラムおよび記録媒体
JP2010072779A (ja) * 2008-09-17 2010-04-02 Mitsubishi Electric Corp データ分類装置及びコンピュータプログラム及びデータ分類方法
KR20100060165A (ko) * 2008-11-27 2010-06-07 엔에이치엔(주) 유사어 결정 방법 및 시스템
KR20140069756A (ko) * 2012-11-29 2014-06-10 대한민국(국가기록원) 트위터 기록물 장기보존 시스템
KR20140080594A (ko) * 2012-12-12 2014-07-01 한국발명진흥회 특허 평가 엔진을 이용한 특허 자동 평가 방법 및 평가 서버
KR101627550B1 (ko) * 2015-06-18 2016-06-07 주식회사 스토리안트 기계학습 기반 지능형 기록물 공개관리 시스템

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200110907A (ko) 2019-03-18 2020-09-28 주식회사 에이티앤아이 딥러닝을 이용한 기록물 분류 시스템
KR20210000916A (ko) 2019-06-26 2021-01-06 주식회사 코이션 순환 인공 신경망 기술을 이용한 기록물 보존기간 추천 시스템 및 그 추천 방법
KR102503443B1 (ko) * 2022-10-13 2023-02-23 이동근 인공지능 기반 데이터베이스 관리 시스템 및 방법
CN116992035A (zh) * 2023-09-27 2023-11-03 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质
CN116992035B (zh) * 2023-09-27 2023-12-08 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质

Similar Documents

Publication Publication Date Title
US11914954B2 (en) Methods and systems for generating declarative statements given documents with questions and answers
US10303683B2 (en) Translation of natural language questions and requests to a structured query format
KR101887629B1 (ko) 자연어기반 정보공개분류시스템
EP1331574B1 (en) Named entity interface for multiple client application programs
Tamboli et al. Authorship analysis and identification techniques: A review
CN116070599A (zh) 智能化题库生成及辅助管理系统
Ibrohim et al. Hate speech and abusive language detection in Indonesian social media: Progress and challenges
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Orasan A hybrid method for clause splitting in unrestricted English texts
Rao et al. Hierarchical RNN for information extraction from lawsuit documents
Uryupina et al. Detecting non-reference and non-anaphoricity
CN109344388B (zh) 一种垃圾评论识别方法、装置及计算机可读存储介质
Yang et al. EcForest: extractive document summarization through enhanced sentence embedding and cascade forest
CN111813947A (zh) 开庭询问提纲自动生成方法及装置
CN112668334B (zh) 实体识别方法以及电子设备、存储装置
Hermansson et al. Tracking amendments to legislation and other political texts with a novel minimum-edit-distance algorithm: DocuToads
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
Zajíc et al. First insight into the processing of the language consulting center data
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Halterman Extracting political events from text using syntax and semantics
Bruchansky Political footprints: Political discourse analysis using pre-trained word vectors
Xi et al. Hierarchical RNN for information extraction from lawsuit documents
Archer DATA RETRIEVAL IN A DIACHRONIC CONTEXT
El Moussaoui et al. Preserving Privacy in Arabic Judgments: AI-Powered Anonymization For Enhanced Legal Data Privacy

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant