KR102298033B1

KR102298033B1 - 텍스트마이닝 기반의 감사자료 분석 시스템

Info

Publication number: KR102298033B1
Application number: KR1020210020062A
Authority: KR
Inventors: 나우철; 훈 정; 박요한; 박혜진; 최해송; 강성용
Original assignee: 광주광역시
Priority date: 2021-02-15
Filing date: 2021-02-15
Publication date: 2021-09-06

Abstract

본 발명은 연도별로 그리고 부처의 업무별로 발생하는 감사자료에 대해 텍스트 마이닝을 통해 주된 지적사항을 파악하며, 관련 법령, 대응 메뉴얼 등을 매칭하여 제공할 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템에 관한 것이다. 이를 위해, 감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서, (i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 상기 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100); (ii) 상관관계 분석모듈(340)이 상기 데이타 베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상기 상관관계를 통해 대응방안을 매칭하는 상관관계 분석단계(S200); 및 (iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상기 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하는 단계(S300);를 포함하여 이루어진다.

Description

텍스트마이닝 기반의 감사자료 분석 시스템{Audit Data Analysis System Based on Text Mining}

본 발명은 연도별로 그리고 부처의 업무별로 발생하는 감사자료에 대해 텍스트 마이닝을 통해 주된 지적사항을 파악하며, 관련 법령, 대응 메뉴얼 등을 매칭하여 제공할 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템에 관한 것이다.

일반적으로 감사(audit, 監査)란 사무나 업무의 집행 또는 재산의 상황·회계의 진실성을 검사하여, 그 정당성 여부를 조사하는 일을 말한다. 넓은 의미로는 경영감사나 업무감사를 포함하지만 일반적으로 회계감사를 가리키며, 검사대상 기업의 회계행위나 회계사실에 관여하지 않은 독립된 제3자로서 회계전문가인 공인회계사가 기업의 재정과 경영상태를 분석적으로 검토하는 것이다. 그 목적은 감사를 통하여 기업의 재정상태와 경영실적을 판정하고 당해 기업의 이해관계자에게 이를 제공하는 데 있다.

또한, 국가기관, 지방자치단계, 국립학교, 국립병원, 행정기관, 법원, 경찰, 군부대 등은 공무원의 업무와 관련하여 정기적으로 또는 부정기적으로 감사를 받는다. 이러한 감사는 종류에 따라 감사원에 의한 감사, 상부기관에 의한 감사, 일반 감사, 특별 감사, 국회 감사, 내부 감사, 외부 감사, 회계 감사, 재무제표 감사, 업무 감사, 이행 감사 등이 있다. 또한, 공무원의 업무와 관련하여 적합여부 또는 비위 적발과 시정을 위한 종합감사, 부분감사, 특별감사, 자체감사 등이 있다.

통상적으로 이러한 감사가 수행될 때 감사위원은 서류, 현물, 현장, 증언 등을 살펴보고 지적사항, 개선사항, 비위사실의 적발, 책임 추궁, 상벌, 대책마련의 촉구, 재발방지의 대응책, 관계법령의 개정을 요구하게 된다.

이에 따라 관계자, 관련부처, 관계 기관 등에서는 전술한 요구사항에 대한 업무 메뉴얼을 작성하거나 대응방안을 마련하게 된다.

그러나, 이와 같은 후속대책이 널리 확산되거나 공유되어 전반적으로 적용되기 어려웠다. 즉, 담당 공무원이나 소규모 부처의 업무 노하우로만 남는 사례가 많았다. 따라서, 담당 공무원의 보직 변경, 인사 이동 또는 퇴직 등의 이유로 결원이 발생하는 경우 노하우나 메뉴얼 등이 원활히 인수인계되지 못했다. 이로 인해 매년 반복되는 감사에서 동일 유사한 지적사항이 나오는 문제점이 있었고, 담당 공무원은 메뉴얼 등의 본래 취지를 알지 못한 채 업무를 하는 경우가 많았다.

또한, 매년 정기적으로 받게 되는 감사로 인해 다량의 감사 관련자료가 발생하게 되나 자료의 내용이 방대하고 일목요연하게 가공정리되어 있지 않아서 업무에 참고하기는 현실적으로 불가능했다.

또한, 각 기관별 감사자료 역시 보안이나 시스템의 부재로 인해 널리 공유되거나 확산되지 못하고 감사후 폐기되는 사례가 빈번하였다.

1. 대한민국 등록특허번호 제10-1801257호(발명의 명칭 : 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술)

따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 해결하고자 하는 과제는 연도별, 기관별, 업무별로 발생하는 다량의 감사자료를 ID화 하여 검색어로 쉽게 검색할 수 있고, 대응되는 관계 법령, 메뉴얼 등을 손쉽게 제공받을 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템을 제공하는 것이다.

본 발명의 다른 목적은 감사자료에 노출되는 단어의 특성을 파악하여 타기관이나 타부처에서의 감사 지적사항, 이에 대한 대응책 마련, 관계 법령 등을 편리하게 제공받음으로써 선제적으로 업무에 참고하거나 신입 사원에 대한 교육 자료로 활용할 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템을 제공하는 것이다.

다만, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기의 기술적 과제를 달성하기 위하여, 감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서, (i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 상기 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 감사자료 내용의 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100); (ii) 상관관계 분석모듈(340)이 상기 데이타 베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상기 상관관계를 통해 대응방안을 매칭하는 상관관계 분석단계(S200); 및 (iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상기 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하는 단계(S300);를 포함하여 이루어지고,

상기 데이타 베이스 구축단계(S100) 및 상관관계 분석단계(S200)는, 상기 감사자료를 텍스트마이닝에 기반하여 데이터 베이스를 구축하여 상관관계를 분석하고,

상기 데이타 베이스 구축단계(S100)는, (i-1) 상기 감사자료 처리모듈(310)이 상기 감사자료를 연도별 및 부처별로 분류하여 저장하는 감사자료 처리단계(S110); (i-2) 상기 파싱모듈(320)이 상기 감사자료 처리단계(S110)를 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장하는 파싱단계(S120); 및 (i-3) 상기 ID 생성모듈(330)이 상기 파싱단계(S120)를 통해 구축된 데이터의 활용을 위해 형태소 마다 ID를 부여하고 이력화하여 관리하는 ID 생성단계(S130);를 포함하고,

상기 감사자료 처리단계(S110)는, (i-1-1) 연도별 키워드 분석부(311)가 연도별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 연도별 키워드 분석단계(S112); (i-1-2) 부처별 키워드 분석부(312)가 부처별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 부처별 키워드 분석단계(S114); 및 (i-1-3) 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료의 부정적 단어와 대응방안을 매칭하는 단계(S116);를 포함하고,

상기 상관관계 분석단계(S200)는, (ii-1) 데이터 특성 분류부(342)가 상기 데이타 베이스 구축단계(S100)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류하는 데이터 특성 분류단계(S210); (ii-2) 데이터 정제부(344)가 분류된 상기 감사자료 데이터를 컴퓨터에 코딩하는 데이터 정제단계(S220); 및 (ii-3) 감사자료 분석부(346)가 코딩된 상기 감사자료를 연도별 및 부처별로 나누어서 감사의 성향과 특성을 분석하는 감사자료 분석단계(S230);를 포함하여 이루어지는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법이 제공된다.

또한, 상관관계 분석단계(S200)의 특성은 상기 감사자료의 지적사항, 개선사항, 부정적인 사항 및 질문사항 중 적어도 하나를 포함한다.

또한, 데이타 베이스 구축단계(S100)에서의 데이터 입력은 스캐너(120) 또는 입력단말(140)을 통해 입력될 수 있다.

또한, 입력된 데이터는 PDF 파일, JPG 파일, 워드프로세서 파일, 프리젠테이션 파일, 엑셀 파일 중 하나이다.

또한, 표시단계(S300)의 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고, 분석결과는 클라이언트 단말(400) 또는 상기 휴대단말(420)을 통해 표시된다.

또한, 감사자료 분석단계(S230)는 3년 내지 5년 내의 감사자료를 대상으로 한다.

또한, 매칭단계(S116)는 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료를 관련 법령과 매칭하는 단계를 더 포함한다.

또한, 표시단계(S300)의 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고, 분석결과 및 매칭된 상기 관련법령은 클라이언트 단말(400) 또는 휴대단말(420)을 통해 표시된다.

또한, 부처별 키워드 분석단계(S114)는 기관별 그리고 기관의 하위 부처별로 구분하여 분석한다.

또한, 부처별 키워드 분석단계(S114)는 서로 다른 기관에서 동일한 업무를 수행하는 하위 부처별로 분석한다.

또한, 텍스트 마이닝은 신경망(FNN), 합성곱신경망(CNN), 순환신경망(RNN), MFCC와 결정트리, 랜덤 포레스트, 서포트 벡터 머신(SVM) 중 적어도 하나의 기계학습엔진을 이용할 수 있다.

본 발명의 일실시예에 따르면, 연도별, 기관별, 업무별로 발생하는 다량의 감사자료를 ID화 하여 검색어로 쉽게 검색할 수 있다. 또한, 대응되는 관계 법령, 메뉴얼 등을 손쉽게 제공받을 수 있다. 이로 인해, 감사에서 동일 유사한 지적사항이 나오는 것을 방지할 수 있다.

또한, 감사자료에 노출되는 단어의 특성을 파악하여 타기관이나 타부처에서의 감사 지적사항, 이에 대한 대응책 마련, 관계 법령 등을 편리하게 제공받을 수 있다. 이를 통해 선제적으로 업무에 참고하거나 신입 사원에 대한 교육 자료로 활용할 수 있다.

다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 명세서에서 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 후술하는 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어서 해석되어서는 아니된다.
도 1은 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 시스템의 개략적인 구성도,
도 2는 도 1중 데이터베이스(200)의 하부 테이블 구성도,
도 3 및 도 4는 본 발명에서 사용되는 텍스트마이닝의 개념을 나타내는 도면,
도 5는 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 방법을 나타내는 흐름도,
도 6은 도 5 중 감사자료 처리단계(S110)의 세부 흐름도,
도 7은 도 5 중 파싱단계(S120)의 파싱에 대한 개념도,
도 8은 도 1 중 텍스트마이닝 서버(300)의 개략적인 블럭도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

실시예의 구성

이하, 첨부된 도면을 참조하여 바람직한 실시예의 구성을 상세히 설명하기로 한다. 도 1은 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 시스템의 개략적인 구성도이다. 도 1에 도시된 바와 같이, 중앙서버(100)는 동작 프로그램이 탑재되어 실행되고, 주변장치를 제어하며, 네트워크와 연결된다. 중앙서버(100)는 윈도우, 유닉스 기반의 서버컴퓨터일 수 있다.

특히 중앙서버(100)는 미리 정해진 네트워크 상의 주소(예 : 특정 홈페이지)에서 감사자료를 자동으로 그리고 정기적으로 읽어 들일 수 있다. 예를 들어, 특정 기관의 홈페이지 게시판에 올려진 감사자료가 대상이 될 수 있다. 따라서, 정부 부처의 각 기관 홈페이지 상의 게시판 주소 또는 자료 다운로드 주소를 중앙서버(100)에 링크로 등록시켜 두는 경우, 중앙서버(100)는 정기적으로 해당 주소에 접근하여 새롭게 올려진 감사자료를 가져올 수 있다.

스캐너(120)는 중앙서버(100)에 연결되고, 감사자료, 문서, 사진 등을 스캔하여 JPG 파일 또는 PDF 파일로 변환하여 중앙서버(100)로 전송한다. 스캐너(120)는 복수개 구비될 수 있고, 네트워크(예 : 인터넷, 인트라넷, LAN 등)을 통해 연결될 수도 있다.

입력단말(140)은 중앙서버(100)에 연결되고, 감사자료, 파일 등을 입력받아 저장하고 중앙서버(100)로 전송한다. 파일은 PDF 파일, JPG 파일, 워드프로세서 파일, 프리젠테이션 파일, 엑셀 파일 등이 될 수 있고, USB로 전송되거나, 클라우드, FTP 등으로 전송될 수 있다. 입력단말(140)은 복수개 구비될 수 있고, 네트워크(예 : 인터넷, 인트라넷, LAN 등)을 통해 연결되는 퍼스널 컴퓨터, 노트북, 태블릿 PC 등이 될 수 있다.

데이터베이스(200)는 감사자료를 테이블 별로, 필드별로 분류하여 저장하고 검색어에 대응하여 검색을 수행하며, 검색결과를 출력한다. 이를 위해 관계형 데이터베이스를 구축하고, 검색엔진을 내장할 수 있다.

도 2는 도 1중 데이터베이스(200)의 하부 테이블 구성도이다. 도 2에 도시된 바와 같이, 데이터베이스(200)의 하부에는 다수의 테이블이 정의되어 있다. 일예로 법령 데이터베이스(210)는 다양한 국가 법령, 대통령령, 시행령, 시행규칙, 조례, 판례 등이 저장된다.

연도별 감사 데이터베이스(220)에는 각 연도별(2020년, 2019년, 2018년 등)로 발생된 감사자료가 저장된다. 텍스트마이닝을 위해서는 과거 5년 ~ 3년까지의 감사자료를 활용하는 것이 바람직하다.

메뉴얼 데이터베이스(240)는 메뉴얼이 저장된다. 본 발명에서 메뉴얼이란 감사에서 지적된 사항에 대한 대응책, 개선책 등을 문서로 작성한 업무지침이 될 수 있다.

FAQ 데이터베이스(250)는 빈번한 검색어, 빈번하게 검색되는 자료나 질문에 한 대답을 저장한다. FAQ 데이터베이스(250)는 게시판 형태로 운영될 수 있다.

부처별 데이터베이스(260)는 해당 기관(예 : 지방자치단체)의 부처별로 대응되는 감사자료를 저장하는 테이블이다. 이러한 부처의 일예로는 교통, 도시건설, 산업경제, 복지건강, 재난안전, 재정세정, 행정기타, 환경, 농업, 문화체육관광 부처가 될 수 있다.

도 1에서 클라인언트 단말(400)은 감사자료를 검색하고, 검색결과를 표출하는 퍼스널 컴퓨터이다. 클라인언트 단말(400)은 네트워크를 통해 중앙서버(100)에 접속할 수 있는 윈도우 기반의 퍼스널 컴퓨터, 안드로이드 기반의 태블릿PC 등이 될 수 있다.

휴대 단말(420)은 공무원이 휴대하는 스마트폰이 될 수 있다. 클라이언트 단말(400)과 동일하게 휴대 단말(420)은 무선 네트워크를 통해 감사자료를 검색하고, 검색결과를 표출한다. 휴대 단말(420)은 무선으로 네트워크를 통해 중앙서버(100)에 접속할 수 있는 태블릿PC나 스마트폰 등이 될 수 있다.

텍스트마이닝 서버(300)은 중앙서버(100)에 접속되어 데이터의 양방향 전송이 가능하다. 텍스트마이닝 서버(300)는 감사자료를 실제로 텍스트마이닝하여 ID를 부여하고 분석하는 기능을 수행한다. 필요에 따라 텍스트마이닝 서버(300)는 중앙서버(100)와 일체로 구성할 수 있다.

도 3 및 도 4는 본 발명에서 사용되는 텍스트마이닝의 개념을 나타내는 도면이고, 도 7은 도 5 중 파싱단계(S120)의 파싱에 대한 개념도이며, 도 8은 도 1 중 텍스트마이닝 서버(300)의 개략적인 블럭도이다. 도 3, 도 4, 도 7 및 도 8에 도시된 바와 같이, 텍스트마이닝(Text mining)은 비정형 텍스트에서 가치와 의미가 있는 정보를 찾아내는 기술로서, 근래에는 소비자 패턴, 소셜 네트워크 서비스 분석 등에 널리 쓰이고 있다. 구체적으로, 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술이다.

특히, 도 3은 텍스트마이닝을 위한 신경망(FNN) 중 피드포워드 뉴럴 네트워크(Feedforward Neural Network)를 통해 기계학습을 하는 엔진(학습기법)을 도시한다. 도 3에 도시된 바와 같이 입력층과 출력층 사이에는 다수의 히든층이 존재하며, 정의되는 변수, 히든층의 갯수 및 학습되는 횟수에 따라 텍스트마이닝의 품질이 좌우될 수 있다.

텍스트마이닝을 위해서는 피드포워드 뉴럴 네트워크 외에도 합성곱신경망, 순환신경망, MFCC, 결정트리, 랜덤 포레스트, 서포트 벡터 머신 등의 기법이 적용될 수 있다.

합성곱신경망(Convolutional Neural Network, CNN)은 심층 신경망(DNN: Deep Neural Network)의 한 종류로, 하나 또는 여러 개의 콘볼루션 계층(convolutional layer)과 통합 계층(pooling layer), 완전하게 연결된 계층(fully connected layer)들로 구성된 신경망을 통해 기계학습을 하는 엔진이다. 이러한 CNN(224)은 2차원 데이터의 학습에 적합한 구조를 가지고 있으며, 역전달(Backpropagation algorithm)을 통해 훈련될 수 있다. 음향 내 객체 분류, 객체 탐지 등 다양한 응용 분야에 폭넓게 활용되는 DNN의 대표적 모델 중 하나이다.

순환신경망(Recurrent Neural Network, RNN)은 시계열 데이터(time-series data)와 같이 시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 딥 러닝 모델로써, 기준 시점(t)과 다음 시점(t+1)에 네트워크를 연결하여 구성한 인공 신경망(ANN)이다. 그러나, 매 시점에 심층 신경망(DNN)이 연결되어 있을 경우 오래 전의 데이터에 의한 기울기 값이 소실되는 문제(vanishing gradient problem)로 학습이 어려워진다. 이를 해결하는 대표적인 모델로 장단기 메모리(LSTM: Long-Short term Memory) 방식의 순환 신경망이 사용되기도 한다.

MFCC(Mel Frequency Cepstral Coefficient)와 같은 방식으로 특징을 추출한 뒤 다양한 기계학습 알고리즘과 결합할 수 있다. 예를들 결정트리, 랜덤포레스트, SVM 등이 될 수 있다. 단어 인식을 위하여 주로 사용되는 특징은 LPC cepstrum, PLP cepstrum, MFCC(Mel frequency cepstral coefficient), 필터뱅크 에너지 등이 있으나, 이하 편의상 MFCC를 대표로 기술한다.

결정트리(Decision Tree)는 문장 전체가 아니라 특정 구나 절에서 단어의 특징을 추출하는 기술이다. 같은 단어의 다양한 사용 변화에 따라 달라지겠지만, 적절히 샘플의 갯수를 정의하면 신뢰도가 떨어지지 않게 유지될 수 있다.

랜덤 포레스트(Random Forest) 학습법은 의사 결정 트리를 만드는데 쓰이는 요소들을 무작위로 선정하는 것으로 안정성과 정확도가 장점인 기법이다. 각 노드에서 변수의 임의 선택을 기반으로 하며, 개별 트리 생성 단계에서부터 임의성이 적용되기 때문에 뿌리노드 자체가 달라지게 되어 개별 트리의 다양성을 추구하는 특징이 있다.

서포트 벡터 머신(Support Vector Machine, SVM)은 N차원을 공간을 (N-1)차원으로 나눌 수 있는 최적의 초평면을 찾는 분류 기법입니다.

본 발명의 일실시예에 따른 텍스트마이닝 기술은 광범위하고 다양하며 다량인 감사자료에 대해 텍스트마이닝 기법을 적용함으로써 키워드에 대한 특징을 추출하고 감사후 대응방안이나 개선책 등을 손쉽게 찾아 볼 수 있도록 한다.

도 8에 도시된 바와 같이, 감사자료 처리모듈(310)은 스캐너(120) 또는 입력단말(140)을 통해 수신되는 감사자료를 데이터로 처리하여 저장할 수 있다. 감사자료 처리모듈(310)은 연도별 키워드 분석부(311), 부처별 키워드 분석부(312), 매칭부(313)를 포함할 수 있다.

연도별 키워드 분석부(311)는 연도별 감사자료에 대한 특정 키워드를 분석할 수 있다. 예를 들어, 2019년 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합(예 "특혜성 계약", "가로등 오작동")을 텍스트마이닝할 수 있다.

부처별 키워드 분석 부(312)는 기관의 각 부처별 감사자료에 대한 특정 키워드를 분석할 수 있다. 예를 들어, "환경부처" 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합(예 : "오염된 하수", "그대로 방출")을 텍스트마이닝할 수 있다.

매칭부(313)는 연도별 키워드 분석부(311)와 부처별 키워드 분석부(312)를 통해 단어분석된 감사자료를 추적하여 매칭할 수 있다.

파싱(Parsing)모듈(320)은 감사자료 처리모듈(310)을 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장할 수 있다. 도 7은 이러한 파싱모듈(320)이 수행하는 파싱을 개념적으로 설명하고 있다. 도 7과 같이, 파싱은 컴퓨터에서 컴파일러 또는 번역기가 원시 부호를 기계어로 번역하는 과정의 한 단계로, 각 문장의 문법적인 구성 또는 구문을 분석하는 과정, 즉 원시 프로그램에서 나타난 토큰(token)의 열을 받아들여 이를 그 언어의 문법에 맞게 구문 분석 트리(parse tree)로 구성해 내는 작업이다.

ID 생성모듈(330)은 파싱모듈(320)을 통해 구축된 데이터의 활용을 위해 형태소 기반의 ID를 부여하고 이력화하여 관리할 수 있도록 한다. 구체적으로, 형태소(morpheme)란, 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소단위로, 형태소가 다른 형태소와의 구체적인 결합으로 실현되었을 때는 이형태(異形態:allomorph)라고 한다. 대부분의 형태소는 몇 가지 형태로 실현되기 때문에 형태소를 흔히 이형태의 부류로도 정의한다.

상관관계 분석모듈(340)은 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)을 통해 구축된 자료를 통해 감사의 주체, 감사의 내용, 감사 대상, 긍정/부정 여부 별로 상관관계를 분석하고, 도출된 상관관계를 통해 대응되는 메뉴얼을 검색하거나 파악할 수 있다. 상관관계 분석모듈(340)은 데이터 특성 분류부(342), 데이터 정제부(344) 및 감사자료 분석부(346)를 포함할 수 있다.

데이터 특성 분류부(342)는 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류할 수 있다.

데이터 정제부(344)는 데이터 특성 분류부(342)를 통해 특성이 분류된 감사자료 데이터를 컴퓨터에 코딩할 수 있다.

감사자료 분석부(346)는 데이터 정제부(344)를 통해 코딩된 감사자료의 키워드를 다양한 카테고리로 나누어서 감사의 성향, 특성 및 내용을 분석할 수 있다. 구체적으로, 감사자료를 연도별, 부처별, 업무 성격별 데이터의 정제, 분석을 통해 Category로 나누어 대응방안, 개선책, 메뉴얼 등을 쉽게 검색하거나 분석할 수 있다.

활용 자료 구성모듈(350)은 상관관계 분석모듈(340)을 통해 분석된 분석결과의 활용을 위해서 각 분야의 공무원들에게 검색 서비스를 제공할 수 있다. 활용 자료 구성모듈(3500)은 키워드 검색부(352) 및 검색결과 표시부(354)를 포함할 수 있다.

키워드 검색부(352)는 상관관계 분석모듈(340)을 통해 분석된 분석결과를 입력된 키워드로 검색하도록 한다. 즉, 감사자료를 찾아보길 원하는 공무원은 클라이언트 단말(400)에 특정 키워드를 입력하여 검색할 수 있다.

검색결과 표시부(354)는 키워드 검색부(352)에서 검색된 결과를 전송하여 클라이언트 단말(400)에 표시하도록 한다.

실시예의 동작

이하, 첨부된 도면을 참조하여 바람직한 실시예의 동작을 상세히 설명하기로 한다. 도 5는 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 방법을 나타내는 흐름도이고, 도 6은 도 5 중 감사자료 처리단계(S110)의 세부 흐름도이다. 도 5 및 도 6에 도시된 바와 같이, 감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서, 먼저 (i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100)가 수행된다.

이때, (i-1) 감사자료 처리모듈(310)이 감사자료를 연도별 및 부처별로 분류하여 저장한다(S110). 이러한 감사자료는 스캐너(120) 또는 입력단말(140)을 통해 입력된다. 더욱 상세하게는 (i-1-1) 연도별 키워드 분석부(311)가 연도별로 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝한다(S112). 그리고, (i-1-2) 부처별 키워드 분석부(312)가 부처별로 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝한다. 그 다음, (i-1-3) 매칭부(313)가 연도별 키워드 분석단계와 부처별 키워드 분석단계를 통해 단어분석된 감사자료의 부정적 단어와 대응방안을 매칭한다(S116). 추가적으로 매칭단계(S116)는 관계 법령과 매칭하는 단계를 더 포함할 수 있다.

그 다음, (i-2) 파싱모듈(320)이 감사자료 처리단계(S110)를 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장한다(S120). 그 다음, (i-3) ID 생성모듈(330)이 파싱단계(S120)를 통해 구축된 데이터의 활용을 위해 형태소 기반의 ID를 부여하고 이력화하여 관리한다(S130).

그 다음, (ii) 상관관계 분석모듈(340)이 데이타베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상관관계를 통해 대응방안을 매칭한다(S200). 이때, 특성은 감사자료의 지적사항, 개선사항, 부정적인 사항 및 질문사항 중 적어도 하나를 포함한다. 더욱 상세하게는 (ii-1) 데이터 특성 분류부(342)가 데이타베이스 구축단계(S100)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류한다(S210).

그 다음, (ii-2) 데이터 정제부(344)가 분류된 감사자료 데이터를 컴퓨터에 코딩한다(S220). 그 다음, (ii-3) 감사자료 분석부(346)가 코딩된 감사자료를 연도별 및 부처별로 나누어서 감사의 성향과 특성을 분석한다(S230). 이때 감사자료는 3년 내지 5년 내의 감사자료를 대상으로 하는 것이 바람직하다.

그 다음, (iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하게 한다(S300). 이때, 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고, 분석결과는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 표시된다.

이와 같은 과정을 통해 방대한 양의 감사자료가 누적되더라도 손쉽게 텍스트 마이닝으로 추론되어 매칭된 메뉴얼, 관계 법령 등을 찾아 볼 수 있다. 그리고, 이렇게 검색된 메뉴얼, 관계 법령 등을 업무에 반영함으로써 다음 감사 때 동일한 지적사항이 나오는 것을 방지할 수 있다. 또한, 신규 보직자도 원활하고 신속한 업무인수인계 또는 교육을 받을 수 있다.

상술한 바와 같이 개시된 본 발명의 바람직한 실시예들에 대한 상세한 설명은 당업자가 본 발명을 구현하고 실시할 수 있도록 제공되었다. 상기에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 본 발명의 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 당업자는 상술한 실시예들에 기재된 각 구성을 서로 조합하는 방식으로 이용할 수 있다. 따라서, 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다.

본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함할 수 있다.

100 : 중앙서버,
120 : 스캐너,
140 : 입력단말,
200 : 데이터베이스,
210 : 법령 데이터베이스
220 : 연도별 감사 데이터베이스,
240 : 메뉴얼 데이터베이스,
250 : FAQ 데이터베이스,
260 : 부처별 데이터베이스,
300 : 텍스트마이닝서버,
310 : 감사자료 처리모듈,
311 : 연도별 키워드 분석부,
312 : 부처별 키워드 분석부,
313 : 매칭부,
320 : 파싱부,
330 : ID생성모듈,
340 : 상관관계 분석모듈,
342 : 데이터 특성분류부,
344 : 데이터 정제부,
346 : 감사자료 분석부,
350 : 활용자료 구성모듈,
352 : 키워드 검색부,
354 : 검색결과 표시부,
400 : 클라이언트단말,
420 : 휴대단말.

Claims

감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서,
(i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 상기 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 상기 감사자료 내용의 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100);
(ii) 상관관계 분석모듈(340)이 상기 데이타 베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상기 상관관계를 통해 대응방안을 매칭하는 상관관계 분석단계(S200); 및
(iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상기 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하는 단계(S300);를 포함하여 이루어지고,
상기 데이타 베이스 구축단계(S100) 및 상관관계 분석단계(S200)는,
상기 감사자료를 텍스트마이닝에 기반하여 데이터 베이스를 구축하여 상관관계를 분석하고,
상기 데이타 베이스 구축단계(S100)는,
(i-1) 상기 감사자료 처리모듈(310)이 상기 감사자료를 연도별 및 부처별로 분류하여 저장하는 감사자료 처리단계(S110);
(i-2) 상기 파싱모듈(320)이 상기 감사자료 처리단계(S110)를 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장하는 파싱단계(S120); 및
(i-3) 상기 ID 생성모듈(330)이 상기 파싱단계(S120)를 통해 구축된 데이터의 활용을 위해 형태소 마다 ID를 부여하고 이력화하여 관리하는 ID 생성단계(S130);를 포함하고,
상기 감사자료 처리단계(S110)는,
(i-1-1) 연도별 키워드 분석부(311)가 연도별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 연도별 키워드 분석단계(S112);
(i-1-2) 부처별 키워드 분석부(312)가 부처별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 부처별 키워드 분석단계(S114); 및
(i-1-3) 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료의 부정적 단어와 대응방안을 매칭하는 단계(S116);를 포함하고,
상기 상관관계 분석단계(S200)는,
(ii-1) 데이터 특성 분류부(342)가 상기 데이타 베이스 구축단계(S100)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류하는 데이터 특성 분류단계(S210);
(ii-2) 데이터 정제부(344)가 분류된 상기 감사자료 데이터를 컴퓨터에 코딩하는 데이터 정제단계(S220); 및
(ii-3) 감사자료 분석부(346)가 코딩된 상기 감사자료를 연도별 및 부처별로 나누어서 감사의 성향과 특성을 분석하는 감사자료 분석단계(S230);를 포함하고,
상기 매칭단계(S116)는 상기 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료를 관련 법령과 매칭하는 단계를 더 포함하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 1 항에 있어서,
상기 상관관계 분석단계(S200)의 상기 특성은 상기 감사자료의 지적사항, 개선사항, 부정적인 사항 및 질문사항 중 적어도 하나를 포함하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 1 항에 있어서,
상기 데이타 베이스 구축단계(S100)에서의 데이터 입력은 스캐너(120) 또는 입력단말(140)을 통해 입력되는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 3 항에 있어서,
입력된 상기 데이터는 PDF 파일, JPG 파일, 워드프로세서 파일, 프리젠테이션 파일, 엑셀 파일 중 하나인 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 1 항에 있어서,
상기 표시단계(S300)의 상기 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고,
상기 분석결과는 상기 클라이언트 단말(400) 또는 상기 휴대단말(420)을 통해 표시되는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 1 항에 있어서,
상기 감사자료 분석단계(S230)는 3년 내지 5년 내의 상기 감사자료를 대상으로 하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
삭제
제 1 항에 있어서,
상기 표시단계(S300)의 상기 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고,
상기 분석결과 및 매칭된 상기 관련법령은 상기 클라이언트 단말(400) 또는 상기 휴대단말(420)을 통해 표시되는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 1 항에 있어서,
상기 부처별 키워드 분석단계(S114)는 기관별, 상기 기관의 하위 부처별로 구분하여 분석하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 9 항에 있어서,
상기 부처별 키워드 분석단계(S114)는 서로 다른 기관에서 동일한 업무를 수행하는 하위 부처별로 분석하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
제 1 항에 있어서,
텍스트 마이닝은 신경망(FNN), 합성곱신경망(CNN), 순환신경망(RNN), MFCC와 결정트리, 랜덤 포레스트, 서포트 벡터 머신(SVM) 중 적어도 하나의 기계학습엔진을 이용하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.