KR102298033B1 - 텍스트마이닝 기반의 감사자료 분석 시스템 - Google Patents

텍스트마이닝 기반의 감사자료 분석 시스템 Download PDF

Info

Publication number
KR102298033B1
KR102298033B1 KR1020210020062A KR20210020062A KR102298033B1 KR 102298033 B1 KR102298033 B1 KR 102298033B1 KR 1020210020062 A KR1020210020062 A KR 1020210020062A KR 20210020062 A KR20210020062 A KR 20210020062A KR 102298033 B1 KR102298033 B1 KR 102298033B1
Authority
KR
South Korea
Prior art keywords
audit data
data
audit
analysis
text mining
Prior art date
Application number
KR1020210020062A
Other languages
English (en)
Inventor
나우철
훈 정
박요한
박혜진
최해송
강성용
Original Assignee
광주광역시
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주광역시 filed Critical 광주광역시
Priority to KR1020210020062A priority Critical patent/KR102298033B1/ko
Application granted granted Critical
Publication of KR102298033B1 publication Critical patent/KR102298033B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 연도별로 그리고 부처의 업무별로 발생하는 감사자료에 대해 텍스트 마이닝을 통해 주된 지적사항을 파악하며, 관련 법령, 대응 메뉴얼 등을 매칭하여 제공할 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템에 관한 것이다. 이를 위해, 감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서, (i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 상기 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100); (ii) 상관관계 분석모듈(340)이 상기 데이타 베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상기 상관관계를 통해 대응방안을 매칭하는 상관관계 분석단계(S200); 및 (iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상기 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하는 단계(S300);를 포함하여 이루어진다.

Description

텍스트마이닝 기반의 감사자료 분석 시스템{Audit Data Analysis System Based on Text Mining}
본 발명은 연도별로 그리고 부처의 업무별로 발생하는 감사자료에 대해 텍스트 마이닝을 통해 주된 지적사항을 파악하며, 관련 법령, 대응 메뉴얼 등을 매칭하여 제공할 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템에 관한 것이다.
일반적으로 감사(audit, 監査)란 사무나 업무의 집행 또는 재산의 상황·회계의 진실성을 검사하여, 그 정당성 여부를 조사하는 일을 말한다. 넓은 의미로는 경영감사나 업무감사를 포함하지만 일반적으로 회계감사를 가리키며, 검사대상 기업의 회계행위나 회계사실에 관여하지 않은 독립된 제3자로서 회계전문가인 공인회계사가 기업의 재정과 경영상태를 분석적으로 검토하는 것이다. 그 목적은 감사를 통하여 기업의 재정상태와 경영실적을 판정하고 당해 기업의 이해관계자에게 이를 제공하는 데 있다.
또한, 국가기관, 지방자치단계, 국립학교, 국립병원, 행정기관, 법원, 경찰, 군부대 등은 공무원의 업무와 관련하여 정기적으로 또는 부정기적으로 감사를 받는다. 이러한 감사는 종류에 따라 감사원에 의한 감사, 상부기관에 의한 감사, 일반 감사, 특별 감사, 국회 감사, 내부 감사, 외부 감사, 회계 감사, 재무제표 감사, 업무 감사, 이행 감사 등이 있다. 또한, 공무원의 업무와 관련하여 적합여부 또는 비위 적발과 시정을 위한 종합감사, 부분감사, 특별감사, 자체감사 등이 있다.
통상적으로 이러한 감사가 수행될 때 감사위원은 서류, 현물, 현장, 증언 등을 살펴보고 지적사항, 개선사항, 비위사실의 적발, 책임 추궁, 상벌, 대책마련의 촉구, 재발방지의 대응책, 관계법령의 개정을 요구하게 된다.
이에 따라 관계자, 관련부처, 관계 기관 등에서는 전술한 요구사항에 대한 업무 메뉴얼을 작성하거나 대응방안을 마련하게 된다.
그러나, 이와 같은 후속대책이 널리 확산되거나 공유되어 전반적으로 적용되기 어려웠다. 즉, 담당 공무원이나 소규모 부처의 업무 노하우로만 남는 사례가 많았다. 따라서, 담당 공무원의 보직 변경, 인사 이동 또는 퇴직 등의 이유로 결원이 발생하는 경우 노하우나 메뉴얼 등이 원활히 인수인계되지 못했다. 이로 인해 매년 반복되는 감사에서 동일 유사한 지적사항이 나오는 문제점이 있었고, 담당 공무원은 메뉴얼 등의 본래 취지를 알지 못한 채 업무를 하는 경우가 많았다.
또한, 매년 정기적으로 받게 되는 감사로 인해 다량의 감사 관련자료가 발생하게 되나 자료의 내용이 방대하고 일목요연하게 가공정리되어 있지 않아서 업무에 참고하기는 현실적으로 불가능했다.
또한, 각 기관별 감사자료 역시 보안이나 시스템의 부재로 인해 널리 공유되거나 확산되지 못하고 감사후 폐기되는 사례가 빈번하였다.
1. 대한민국 등록특허번호 제10-1801257호(발명의 명칭 : 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술)
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 해결하고자 하는 과제는 연도별, 기관별, 업무별로 발생하는 다량의 감사자료를 ID화 하여 검색어로 쉽게 검색할 수 있고, 대응되는 관계 법령, 메뉴얼 등을 손쉽게 제공받을 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템을 제공하는 것이다.
본 발명의 다른 목적은 감사자료에 노출되는 단어의 특성을 파악하여 타기관이나 타부처에서의 감사 지적사항, 이에 대한 대응책 마련, 관계 법령 등을 편리하게 제공받음으로써 선제적으로 업무에 참고하거나 신입 사원에 대한 교육 자료로 활용할 수 있는 텍스트마이닝 기반의 감사자료 분석 시스템을 제공하는 것이다.
다만, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기의 기술적 과제를 달성하기 위하여, 감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서, (i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 상기 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 감사자료 내용의 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100); (ii) 상관관계 분석모듈(340)이 상기 데이타 베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상기 상관관계를 통해 대응방안을 매칭하는 상관관계 분석단계(S200); 및 (iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상기 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하는 단계(S300);를 포함하여 이루어지고,
상기 데이타 베이스 구축단계(S100) 및 상관관계 분석단계(S200)는, 상기 감사자료를 텍스트마이닝에 기반하여 데이터 베이스를 구축하여 상관관계를 분석하고,
상기 데이타 베이스 구축단계(S100)는, (i-1) 상기 감사자료 처리모듈(310)이 상기 감사자료를 연도별 및 부처별로 분류하여 저장하는 감사자료 처리단계(S110); (i-2) 상기 파싱모듈(320)이 상기 감사자료 처리단계(S110)를 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장하는 파싱단계(S120); 및 (i-3) 상기 ID 생성모듈(330)이 상기 파싱단계(S120)를 통해 구축된 데이터의 활용을 위해 형태소 마다 ID를 부여하고 이력화하여 관리하는 ID 생성단계(S130);를 포함하고,
상기 감사자료 처리단계(S110)는, (i-1-1) 연도별 키워드 분석부(311)가 연도별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 연도별 키워드 분석단계(S112); (i-1-2) 부처별 키워드 분석부(312)가 부처별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 부처별 키워드 분석단계(S114); 및 (i-1-3) 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료의 부정적 단어와 대응방안을 매칭하는 단계(S116);를 포함하고,
상기 상관관계 분석단계(S200)는, (ii-1) 데이터 특성 분류부(342)가 상기 데이타 베이스 구축단계(S100)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류하는 데이터 특성 분류단계(S210); (ii-2) 데이터 정제부(344)가 분류된 상기 감사자료 데이터를 컴퓨터에 코딩하는 데이터 정제단계(S220); 및 (ii-3) 감사자료 분석부(346)가 코딩된 상기 감사자료를 연도별 및 부처별로 나누어서 감사의 성향과 특성을 분석하는 감사자료 분석단계(S230);를 포함하여 이루어지는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법이 제공된다.
또한, 상관관계 분석단계(S200)의 특성은 상기 감사자료의 지적사항, 개선사항, 부정적인 사항 및 질문사항 중 적어도 하나를 포함한다.
또한, 데이타 베이스 구축단계(S100)에서의 데이터 입력은 스캐너(120) 또는 입력단말(140)을 통해 입력될 수 있다.
또한, 입력된 데이터는 PDF 파일, JPG 파일, 워드프로세서 파일, 프리젠테이션 파일, 엑셀 파일 중 하나이다.
또한, 표시단계(S300)의 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고, 분석결과는 클라이언트 단말(400) 또는 상기 휴대단말(420)을 통해 표시된다.
또한, 감사자료 분석단계(S230)는 3년 내지 5년 내의 감사자료를 대상으로 한다.
또한, 매칭단계(S116)는 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료를 관련 법령과 매칭하는 단계를 더 포함한다.
또한, 표시단계(S300)의 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고, 분석결과 및 매칭된 상기 관련법령은 클라이언트 단말(400) 또는 휴대단말(420)을 통해 표시된다.
또한, 부처별 키워드 분석단계(S114)는 기관별 그리고 기관의 하위 부처별로 구분하여 분석한다.
또한, 부처별 키워드 분석단계(S114)는 서로 다른 기관에서 동일한 업무를 수행하는 하위 부처별로 분석한다.
또한, 텍스트 마이닝은 신경망(FNN), 합성곱신경망(CNN), 순환신경망(RNN), MFCC와 결정트리, 랜덤 포레스트, 서포트 벡터 머신(SVM) 중 적어도 하나의 기계학습엔진을 이용할 수 있다.
본 발명의 일실시예에 따르면, 연도별, 기관별, 업무별로 발생하는 다량의 감사자료를 ID화 하여 검색어로 쉽게 검색할 수 있다. 또한, 대응되는 관계 법령, 메뉴얼 등을 손쉽게 제공받을 수 있다. 이로 인해, 감사에서 동일 유사한 지적사항이 나오는 것을 방지할 수 있다.
또한, 감사자료에 노출되는 단어의 특성을 파악하여 타기관이나 타부처에서의 감사 지적사항, 이에 대한 대응책 마련, 관계 법령 등을 편리하게 제공받을 수 있다. 이를 통해 선제적으로 업무에 참고하거나 신입 사원에 대한 교육 자료로 활용할 수 있다.
다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에서 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 후술하는 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어서 해석되어서는 아니된다.
도 1은 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 시스템의 개략적인 구성도,
도 2는 도 1중 데이터베이스(200)의 하부 테이블 구성도,
도 3 및 도 4는 본 발명에서 사용되는 텍스트마이닝의 개념을 나타내는 도면,
도 5는 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 방법을 나타내는 흐름도,
도 6은 도 5 중 감사자료 처리단계(S110)의 세부 흐름도,
도 7은 도 5 중 파싱단계(S120)의 파싱에 대한 개념도,
도 8은 도 1 중 텍스트마이닝 서버(300)의 개략적인 블럭도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
실시예의 구성
이하, 첨부된 도면을 참조하여 바람직한 실시예의 구성을 상세히 설명하기로 한다. 도 1은 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 시스템의 개략적인 구성도이다. 도 1에 도시된 바와 같이, 중앙서버(100)는 동작 프로그램이 탑재되어 실행되고, 주변장치를 제어하며, 네트워크와 연결된다. 중앙서버(100)는 윈도우, 유닉스 기반의 서버컴퓨터일 수 있다.
특히 중앙서버(100)는 미리 정해진 네트워크 상의 주소(예 : 특정 홈페이지)에서 감사자료를 자동으로 그리고 정기적으로 읽어 들일 수 있다. 예를 들어, 특정 기관의 홈페이지 게시판에 올려진 감사자료가 대상이 될 수 있다. 따라서, 정부 부처의 각 기관 홈페이지 상의 게시판 주소 또는 자료 다운로드 주소를 중앙서버(100)에 링크로 등록시켜 두는 경우, 중앙서버(100)는 정기적으로 해당 주소에 접근하여 새롭게 올려진 감사자료를 가져올 수 있다.
스캐너(120)는 중앙서버(100)에 연결되고, 감사자료, 문서, 사진 등을 스캔하여 JPG 파일 또는 PDF 파일로 변환하여 중앙서버(100)로 전송한다. 스캐너(120)는 복수개 구비될 수 있고, 네트워크(예 : 인터넷, 인트라넷, LAN 등)을 통해 연결될 수도 있다.
입력단말(140)은 중앙서버(100)에 연결되고, 감사자료, 파일 등을 입력받아 저장하고 중앙서버(100)로 전송한다. 파일은 PDF 파일, JPG 파일, 워드프로세서 파일, 프리젠테이션 파일, 엑셀 파일 등이 될 수 있고, USB로 전송되거나, 클라우드, FTP 등으로 전송될 수 있다. 입력단말(140)은 복수개 구비될 수 있고, 네트워크(예 : 인터넷, 인트라넷, LAN 등)을 통해 연결되는 퍼스널 컴퓨터, 노트북, 태블릿 PC 등이 될 수 있다.
데이터베이스(200)는 감사자료를 테이블 별로, 필드별로 분류하여 저장하고 검색어에 대응하여 검색을 수행하며, 검색결과를 출력한다. 이를 위해 관계형 데이터베이스를 구축하고, 검색엔진을 내장할 수 있다.
도 2는 도 1중 데이터베이스(200)의 하부 테이블 구성도이다. 도 2에 도시된 바와 같이, 데이터베이스(200)의 하부에는 다수의 테이블이 정의되어 있다. 일예로 법령 데이터베이스(210)는 다양한 국가 법령, 대통령령, 시행령, 시행규칙, 조례, 판례 등이 저장된다.
연도별 감사 데이터베이스(220)에는 각 연도별(2020년, 2019년, 2018년 등)로 발생된 감사자료가 저장된다. 텍스트마이닝을 위해서는 과거 5년 ~ 3년까지의 감사자료를 활용하는 것이 바람직하다.
메뉴얼 데이터베이스(240)는 메뉴얼이 저장된다. 본 발명에서 메뉴얼이란 감사에서 지적된 사항에 대한 대응책, 개선책 등을 문서로 작성한 업무지침이 될 수 있다.
FAQ 데이터베이스(250)는 빈번한 검색어, 빈번하게 검색되는 자료나 질문에 한 대답을 저장한다. FAQ 데이터베이스(250)는 게시판 형태로 운영될 수 있다.
부처별 데이터베이스(260)는 해당 기관(예 : 지방자치단체)의 부처별로 대응되는 감사자료를 저장하는 테이블이다. 이러한 부처의 일예로는 교통, 도시건설, 산업경제, 복지건강, 재난안전, 재정세정, 행정기타, 환경, 농업, 문화체육관광 부처가 될 수 있다.
도 1에서 클라인언트 단말(400)은 감사자료를 검색하고, 검색결과를 표출하는 퍼스널 컴퓨터이다. 클라인언트 단말(400)은 네트워크를 통해 중앙서버(100)에 접속할 수 있는 윈도우 기반의 퍼스널 컴퓨터, 안드로이드 기반의 태블릿PC 등이 될 수 있다.
휴대 단말(420)은 공무원이 휴대하는 스마트폰이 될 수 있다. 클라이언트 단말(400)과 동일하게 휴대 단말(420)은 무선 네트워크를 통해 감사자료를 검색하고, 검색결과를 표출한다. 휴대 단말(420)은 무선으로 네트워크를 통해 중앙서버(100)에 접속할 수 있는 태블릿PC나 스마트폰 등이 될 수 있다.
텍스트마이닝 서버(300)은 중앙서버(100)에 접속되어 데이터의 양방향 전송이 가능하다. 텍스트마이닝 서버(300)는 감사자료를 실제로 텍스트마이닝하여 ID를 부여하고 분석하는 기능을 수행한다. 필요에 따라 텍스트마이닝 서버(300)는 중앙서버(100)와 일체로 구성할 수 있다.
도 3 및 도 4는 본 발명에서 사용되는 텍스트마이닝의 개념을 나타내는 도면이고, 도 7은 도 5 중 파싱단계(S120)의 파싱에 대한 개념도이며, 도 8은 도 1 중 텍스트마이닝 서버(300)의 개략적인 블럭도이다. 도 3, 도 4, 도 7 및 도 8에 도시된 바와 같이, 텍스트마이닝(Text mining)은 비정형 텍스트에서 가치와 의미가 있는 정보를 찾아내는 기술로서, 근래에는 소비자 패턴, 소셜 네트워크 서비스 분석 등에 널리 쓰이고 있다. 구체적으로, 자연어 처리 기반 텍스트 마이닝은 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미있는 정보를 발견할 수 있도록 하는 텍스트 마이닝 기술이다.
특히, 도 3은 텍스트마이닝을 위한 신경망(FNN) 중 피드포워드 뉴럴 네트워크(Feedforward Neural Network)를 통해 기계학습을 하는 엔진(학습기법)을 도시한다. 도 3에 도시된 바와 같이 입력층과 출력층 사이에는 다수의 히든층이 존재하며, 정의되는 변수, 히든층의 갯수 및 학습되는 횟수에 따라 텍스트마이닝의 품질이 좌우될 수 있다.
텍스트마이닝을 위해서는 피드포워드 뉴럴 네트워크 외에도 합성곱신경망, 순환신경망, MFCC, 결정트리, 랜덤 포레스트, 서포트 벡터 머신 등의 기법이 적용될 수 있다.
합성곱신경망(Convolutional Neural Network, CNN)은 심층 신경망(DNN: Deep Neural Network)의 한 종류로, 하나 또는 여러 개의 콘볼루션 계층(convolutional layer)과 통합 계층(pooling layer), 완전하게 연결된 계층(fully connected layer)들로 구성된 신경망을 통해 기계학습을 하는 엔진이다. 이러한 CNN(224)은 2차원 데이터의 학습에 적합한 구조를 가지고 있으며, 역전달(Backpropagation algorithm)을 통해 훈련될 수 있다. 음향 내 객체 분류, 객체 탐지 등 다양한 응용 분야에 폭넓게 활용되는 DNN의 대표적 모델 중 하나이다.
순환신경망(Recurrent Neural Network, RNN)은 시계열 데이터(time-series data)와 같이 시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 딥 러닝 모델로써, 기준 시점(t)과 다음 시점(t+1)에 네트워크를 연결하여 구성한 인공 신경망(ANN)이다. 그러나, 매 시점에 심층 신경망(DNN)이 연결되어 있을 경우 오래 전의 데이터에 의한 기울기 값이 소실되는 문제(vanishing gradient problem)로 학습이 어려워진다. 이를 해결하는 대표적인 모델로 장단기 메모리(LSTM: Long-Short term Memory) 방식의 순환 신경망이 사용되기도 한다.
MFCC(Mel Frequency Cepstral Coefficient)와 같은 방식으로 특징을 추출한 뒤 다양한 기계학습 알고리즘과 결합할 수 있다. 예를들 결정트리, 랜덤포레스트, SVM 등이 될 수 있다. 단어 인식을 위하여 주로 사용되는 특징은 LPC cepstrum, PLP cepstrum, MFCC(Mel frequency cepstral coefficient), 필터뱅크 에너지 등이 있으나, 이하 편의상 MFCC를 대표로 기술한다.
결정트리(Decision Tree)는 문장 전체가 아니라 특정 구나 절에서 단어의 특징을 추출하는 기술이다. 같은 단어의 다양한 사용 변화에 따라 달라지겠지만, 적절히 샘플의 갯수를 정의하면 신뢰도가 떨어지지 않게 유지될 수 있다.
랜덤 포레스트(Random Forest) 학습법은 의사 결정 트리를 만드는데 쓰이는 요소들을 무작위로 선정하는 것으로 안정성과 정확도가 장점인 기법이다. 각 노드에서 변수의 임의 선택을 기반으로 하며, 개별 트리 생성 단계에서부터 임의성이 적용되기 때문에 뿌리노드 자체가 달라지게 되어 개별 트리의 다양성을 추구하는 특징이 있다.
서포트 벡터 머신(Support Vector Machine, SVM)은 N차원을 공간을 (N-1)차원으로 나눌 수 있는 최적의 초평면을 찾는 분류 기법입니다.
본 발명의 일실시예에 따른 텍스트마이닝 기술은 광범위하고 다양하며 다량인 감사자료에 대해 텍스트마이닝 기법을 적용함으로써 키워드에 대한 특징을 추출하고 감사후 대응방안이나 개선책 등을 손쉽게 찾아 볼 수 있도록 한다.
도 8에 도시된 바와 같이, 감사자료 처리모듈(310)은 스캐너(120) 또는 입력단말(140)을 통해 수신되는 감사자료를 데이터로 처리하여 저장할 수 있다. 감사자료 처리모듈(310)은 연도별 키워드 분석부(311), 부처별 키워드 분석부(312), 매칭부(313)를 포함할 수 있다.
연도별 키워드 분석부(311)는 연도별 감사자료에 대한 특정 키워드를 분석할 수 있다. 예를 들어, 2019년 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합(예 "특혜성 계약", "가로등 오작동")을 텍스트마이닝할 수 있다.
부처별 키워드 분석 부(312)는 기관의 각 부처별 감사자료에 대한 특정 키워드를 분석할 수 있다. 예를 들어, "환경부처" 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합(예 : "오염된 하수", "그대로 방출")을 텍스트마이닝할 수 있다.
매칭부(313)는 연도별 키워드 분석부(311)와 부처별 키워드 분석부(312)를 통해 단어분석된 감사자료를 추적하여 매칭할 수 있다.
파싱(Parsing)모듈(320)은 감사자료 처리모듈(310)을 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장할 수 있다. 도 7은 이러한 파싱모듈(320)이 수행하는 파싱을 개념적으로 설명하고 있다. 도 7과 같이, 파싱은 컴퓨터에서 컴파일러 또는 번역기가 원시 부호를 기계어로 번역하는 과정의 한 단계로, 각 문장의 문법적인 구성 또는 구문을 분석하는 과정, 즉 원시 프로그램에서 나타난 토큰(token)의 열을 받아들여 이를 그 언어의 문법에 맞게 구문 분석 트리(parse tree)로 구성해 내는 작업이다.
ID 생성모듈(330)은 파싱모듈(320)을 통해 구축된 데이터의 활용을 위해 형태소 기반의 ID를 부여하고 이력화하여 관리할 수 있도록 한다. 구체적으로, 형태소(morpheme)란, 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소단위로, 형태소가 다른 형태소와의 구체적인 결합으로 실현되었을 때는 이형태(異形態:allomorph)라고 한다. 대부분의 형태소는 몇 가지 형태로 실현되기 때문에 형태소를 흔히 이형태의 부류로도 정의한다.
상관관계 분석모듈(340)은 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)을 통해 구축된 자료를 통해 감사의 주체, 감사의 내용, 감사 대상, 긍정/부정 여부 별로 상관관계를 분석하고, 도출된 상관관계를 통해 대응되는 메뉴얼을 검색하거나 파악할 수 있다. 상관관계 분석모듈(340)은 데이터 특성 분류부(342), 데이터 정제부(344) 및 감사자료 분석부(346)를 포함할 수 있다.
데이터 특성 분류부(342)는 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류할 수 있다.
데이터 정제부(344)는 데이터 특성 분류부(342)를 통해 특성이 분류된 감사자료 데이터를 컴퓨터에 코딩할 수 있다.
감사자료 분석부(346)는 데이터 정제부(344)를 통해 코딩된 감사자료의 키워드를 다양한 카테고리로 나누어서 감사의 성향, 특성 및 내용을 분석할 수 있다. 구체적으로, 감사자료를 연도별, 부처별, 업무 성격별 데이터의 정제, 분석을 통해 Category로 나누어 대응방안, 개선책, 메뉴얼 등을 쉽게 검색하거나 분석할 수 있다.
활용 자료 구성모듈(350)은 상관관계 분석모듈(340)을 통해 분석된 분석결과의 활용을 위해서 각 분야의 공무원들에게 검색 서비스를 제공할 수 있다. 활용 자료 구성모듈(3500)은 키워드 검색부(352) 및 검색결과 표시부(354)를 포함할 수 있다.
키워드 검색부(352)는 상관관계 분석모듈(340)을 통해 분석된 분석결과를 입력된 키워드로 검색하도록 한다. 즉, 감사자료를 찾아보길 원하는 공무원은 클라이언트 단말(400)에 특정 키워드를 입력하여 검색할 수 있다.
검색결과 표시부(354)는 키워드 검색부(352)에서 검색된 결과를 전송하여 클라이언트 단말(400)에 표시하도록 한다.
실시예의 동작
이하, 첨부된 도면을 참조하여 바람직한 실시예의 동작을 상세히 설명하기로 한다. 도 5는 본 발명의 일실시예에 따른 텍스트마이닝 기반의 감사자료 분석 방법을 나타내는 흐름도이고, 도 6은 도 5 중 감사자료 처리단계(S110)의 세부 흐름도이다. 도 5 및 도 6에 도시된 바와 같이, 감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서, 먼저 (i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100)가 수행된다.
이때, (i-1) 감사자료 처리모듈(310)이 감사자료를 연도별 및 부처별로 분류하여 저장한다(S110). 이러한 감사자료는 스캐너(120) 또는 입력단말(140)을 통해 입력된다. 더욱 상세하게는 (i-1-1) 연도별 키워드 분석부(311)가 연도별로 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝한다(S112). 그리고, (i-1-2) 부처별 키워드 분석부(312)가 부처별로 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝한다. 그 다음, (i-1-3) 매칭부(313)가 연도별 키워드 분석단계와 부처별 키워드 분석단계를 통해 단어분석된 감사자료의 부정적 단어와 대응방안을 매칭한다(S116). 추가적으로 매칭단계(S116)는 관계 법령과 매칭하는 단계를 더 포함할 수 있다.
그 다음, (i-2) 파싱모듈(320)이 감사자료 처리단계(S110)를 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장한다(S120). 그 다음, (i-3) ID 생성모듈(330)이 파싱단계(S120)를 통해 구축된 데이터의 활용을 위해 형태소 기반의 ID를 부여하고 이력화하여 관리한다(S130).
그 다음, (ii) 상관관계 분석모듈(340)이 데이타베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상관관계를 통해 대응방안을 매칭한다(S200). 이때, 특성은 감사자료의 지적사항, 개선사항, 부정적인 사항 및 질문사항 중 적어도 하나를 포함한다. 더욱 상세하게는 (ii-1) 데이터 특성 분류부(342)가 데이타베이스 구축단계(S100)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류한다(S210).
그 다음, (ii-2) 데이터 정제부(344)가 분류된 감사자료 데이터를 컴퓨터에 코딩한다(S220). 그 다음, (ii-3) 감사자료 분석부(346)가 코딩된 감사자료를 연도별 및 부처별로 나누어서 감사의 성향과 특성을 분석한다(S230). 이때 감사자료는 3년 내지 5년 내의 감사자료를 대상으로 하는 것이 바람직하다.
그 다음, (iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하게 한다(S300). 이때, 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고, 분석결과는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 표시된다.
이와 같은 과정을 통해 방대한 양의 감사자료가 누적되더라도 손쉽게 텍스트 마이닝으로 추론되어 매칭된 메뉴얼, 관계 법령 등을 찾아 볼 수 있다. 그리고, 이렇게 검색된 메뉴얼, 관계 법령 등을 업무에 반영함으로써 다음 감사 때 동일한 지적사항이 나오는 것을 방지할 수 있다. 또한, 신규 보직자도 원활하고 신속한 업무인수인계 또는 교육을 받을 수 있다.
상술한 바와 같이 개시된 본 발명의 바람직한 실시예들에 대한 상세한 설명은 당업자가 본 발명을 구현하고 실시할 수 있도록 제공되었다. 상기에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 본 발명의 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 당업자는 상술한 실시예들에 기재된 각 구성을 서로 조합하는 방식으로 이용할 수 있다. 따라서, 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다.
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함할 수 있다.
100 : 중앙서버,
120 : 스캐너,
140 : 입력단말,
200 : 데이터베이스,
210 : 법령 데이터베이스
220 : 연도별 감사 데이터베이스,
240 : 메뉴얼 데이터베이스,
250 : FAQ 데이터베이스,
260 : 부처별 데이터베이스,
300 : 텍스트마이닝서버,
310 : 감사자료 처리모듈,
311 : 연도별 키워드 분석부,
312 : 부처별 키워드 분석부,
313 : 매칭부,
320 : 파싱부,
330 : ID생성모듈,
340 : 상관관계 분석모듈,
342 : 데이터 특성분류부,
344 : 데이터 정제부,
346 : 감사자료 분석부,
350 : 활용자료 구성모듈,
352 : 키워드 검색부,
354 : 검색결과 표시부,
400 : 클라이언트단말,
420 : 휴대단말.

Claims (11)

  1. 감사자료를 ID화하여 감사지적 사항을 업무에 반영하는 텍스트마이닝 기반의 감사자료 분석 방법에 있어서,
    (i) 감사자료 처리모듈(310), 파싱모듈(320) 및 ID 생성모듈(330)이 상기 감사자료를 데이터 베이스화하고 내용을 정형데이터로 저장하며, 상기 감사자료 내용의 단락별로 특성을 부여하는 데이타 베이스 구축단계(S100);
    (ii) 상관관계 분석모듈(340)이 상기 데이타 베이스 구축단계를 통해 구축된 감사자료를 통해 특성 별로 상관관계를 분석하고, 도출된 상기 상관관계를 통해 대응방안을 매칭하는 상관관계 분석단계(S200); 및
    (iii) 활용 자료 구성모듈(350)이 입력된 키워드로 상기 상관관계 분석단계를 통해 분석된 분석결과를 검색하여 표시하는 단계(S300);를 포함하여 이루어지고,
    상기 데이타 베이스 구축단계(S100) 및 상관관계 분석단계(S200)는,
    상기 감사자료를 텍스트마이닝에 기반하여 데이터 베이스를 구축하여 상관관계를 분석하고,
    상기 데이타 베이스 구축단계(S100)는,
    (i-1) 상기 감사자료 처리모듈(310)이 상기 감사자료를 연도별 및 부처별로 분류하여 저장하는 감사자료 처리단계(S110);
    (i-2) 상기 파싱모듈(320)이 상기 감사자료 처리단계(S110)를 통해 저장된 데이터 내용의 부정어, 키워드 포함이력 및 내용을 파싱하여 정형데이터로 저장하는 파싱단계(S120); 및
    (i-3) 상기 ID 생성모듈(330)이 상기 파싱단계(S120)를 통해 구축된 데이터의 활용을 위해 형태소 마다 ID를 부여하고 이력화하여 관리하는 ID 생성단계(S130);를 포함하고,
    상기 감사자료 처리단계(S110)는,
    (i-1-1) 연도별 키워드 분석부(311)가 연도별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 연도별 키워드 분석단계(S112);
    (i-1-2) 부처별 키워드 분석부(312)가 부처별로 상기 감사자료에 포함된 단어 빈도수와 단어간 연계성을 분석하여 부정적 단어 조합을 텍스트마이닝하는 부처별 키워드 분석단계(S114); 및
    (i-1-3) 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료의 부정적 단어와 대응방안을 매칭하는 단계(S116);를 포함하고,
    상기 상관관계 분석단계(S200)는,
    (ii-1) 데이터 특성 분류부(342)가 상기 데이타 베이스 구축단계(S100)에서 구축된 감사자료 데이터를 토대로 텍스트마이닝에 기반하여 데이터의 특성을 분류하는 데이터 특성 분류단계(S210);
    (ii-2) 데이터 정제부(344)가 분류된 상기 감사자료 데이터를 컴퓨터에 코딩하는 데이터 정제단계(S220); 및
    (ii-3) 감사자료 분석부(346)가 코딩된 상기 감사자료를 연도별 및 부처별로 나누어서 감사의 성향과 특성을 분석하는 감사자료 분석단계(S230);를 포함하고,
    상기 매칭단계(S116)는 상기 매칭부(313)가 상기 연도별 키워드 분석단계와 상기 부처별 키워드 분석단계를 통해 단어분석된 상기 감사자료를 관련 법령과 매칭하는 단계를 더 포함하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  2. 제 1 항에 있어서,
    상기 상관관계 분석단계(S200)의 상기 특성은 상기 감사자료의 지적사항, 개선사항, 부정적인 사항 및 질문사항 중 적어도 하나를 포함하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  3. 제 1 항에 있어서,
    상기 데이타 베이스 구축단계(S100)에서의 데이터 입력은 스캐너(120) 또는 입력단말(140)을 통해 입력되는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  4. 제 3 항에 있어서,
    입력된 상기 데이터는 PDF 파일, JPG 파일, 워드프로세서 파일, 프리젠테이션 파일, 엑셀 파일 중 하나인 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  5. 제 1 항에 있어서,
    상기 표시단계(S300)의 상기 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고,
    상기 분석결과는 상기 클라이언트 단말(400) 또는 상기 휴대단말(420)을 통해 표시되는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  6. 제 1 항에 있어서,
    상기 감사자료 분석단계(S230)는 3년 내지 5년 내의 상기 감사자료를 대상으로 하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 표시단계(S300)의 상기 입력된 키워드는 클라이언트 단말(400) 또는 휴대단말(420)을 통해 입력되고,
    상기 분석결과 및 매칭된 상기 관련법령은 상기 클라이언트 단말(400) 또는 상기 휴대단말(420)을 통해 표시되는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  9. 제 1 항에 있어서,
    상기 부처별 키워드 분석단계(S114)는 기관별, 상기 기관의 하위 부처별로 구분하여 분석하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  10. 제 9 항에 있어서,
    상기 부처별 키워드 분석단계(S114)는 서로 다른 기관에서 동일한 업무를 수행하는 하위 부처별로 분석하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
  11. 제 1 항에 있어서,
    텍스트 마이닝은 신경망(FNN), 합성곱신경망(CNN), 순환신경망(RNN), MFCC와 결정트리, 랜덤 포레스트, 서포트 벡터 머신(SVM) 중 적어도 하나의 기계학습엔진을 이용하는 것을 특징으로 하는 텍스트마이닝 기반의 감사자료 분석 방법.
KR1020210020062A 2021-02-15 2021-02-15 텍스트마이닝 기반의 감사자료 분석 시스템 KR102298033B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210020062A KR102298033B1 (ko) 2021-02-15 2021-02-15 텍스트마이닝 기반의 감사자료 분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020062A KR102298033B1 (ko) 2021-02-15 2021-02-15 텍스트마이닝 기반의 감사자료 분석 시스템

Publications (1)

Publication Number Publication Date
KR102298033B1 true KR102298033B1 (ko) 2021-09-06

Family

ID=77782273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020062A KR102298033B1 (ko) 2021-02-15 2021-02-15 텍스트마이닝 기반의 감사자료 분석 시스템

Country Status (1)

Country Link
KR (1) KR102298033B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999575A (zh) * 2022-05-27 2022-09-02 爱科思(北京)生物科技有限公司 生物信息数据管理系统
WO2023191129A1 (ko) * 2022-03-30 2023-10-05 주식회사 코딧 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2023191130A1 (ko) * 2022-03-30 2023-10-05 주식회사 코딧 규제 법령에 대한 정보 제공 서비스 장치 및 방법
CN117786099A (zh) * 2024-02-27 2024-03-29 中建安装集团有限公司 工程技术资料信息化管理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133569A (ja) * 2002-10-09 2004-04-30 Canon Sales Co Inc 監査システム、監査サーバ、端末装置、監査方法、プログラム、及び、記録媒体
JP2009129272A (ja) * 2007-11-26 2009-06-11 Shimadzu Corp 文書相関関係図作成システム、文書相関関係図作成方法及び文書相関関係図作成プログラム
KR101801257B1 (ko) 2016-03-23 2017-11-24 서울대학교산학협력단 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
KR20190009859A (ko) * 2017-07-19 2019-01-30 에스2정보 주식회사 보안감사 대응 시스템
KR20190139037A (ko) * 2018-06-07 2019-12-17 현대건설주식회사 텍스트마이닝 기반 건설공사 문서분석방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133569A (ja) * 2002-10-09 2004-04-30 Canon Sales Co Inc 監査システム、監査サーバ、端末装置、監査方法、プログラム、及び、記録媒体
JP2009129272A (ja) * 2007-11-26 2009-06-11 Shimadzu Corp 文書相関関係図作成システム、文書相関関係図作成方法及び文書相関関係図作成プログラム
KR101801257B1 (ko) 2016-03-23 2017-11-24 서울대학교산학협력단 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
KR20190009859A (ko) * 2017-07-19 2019-01-30 에스2정보 주식회사 보안감사 대응 시스템
KR20190139037A (ko) * 2018-06-07 2019-12-17 현대건설주식회사 텍스트마이닝 기반 건설공사 문서분석방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
나형종 외 3인, 감사보고서의 비정형 내용분석과 감사보수 및 시간을 이용한 감사의견의 적정성 연구: 텍스트 마이닝과 감성분석 기법 적용을 중심으로. 회계학연구 제44권 제4호. 2019.08. 175-214페이지. 1부.* *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023191129A1 (ko) * 2022-03-30 2023-10-05 주식회사 코딧 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2023191130A1 (ko) * 2022-03-30 2023-10-05 주식회사 코딧 규제 법령에 대한 정보 제공 서비스 장치 및 방법
CN114999575A (zh) * 2022-05-27 2022-09-02 爱科思(北京)生物科技有限公司 生物信息数据管理系统
CN117786099A (zh) * 2024-02-27 2024-03-29 中建安装集团有限公司 工程技术资料信息化管理系统及方法
CN117786099B (zh) * 2024-02-27 2024-04-26 中建安装集团有限公司 工程技术资料信息化管理系统及方法

Similar Documents

Publication Publication Date Title
KR102298033B1 (ko) 텍스트마이닝 기반의 감사자료 분석 시스템
Hagen Content analysis of e-petitions with topic modeling: How to train and evaluate LDA models?
US20190354544A1 (en) Machine learning-based relationship association and related discovery and search engines
US20190057310A1 (en) Expert knowledge platform
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
Naeem et al. A deep learning framework for clickbait detection on social area network using natural language cues
Galli et al. A comprehensive Benchmark for fake news detection
US20090089126A1 (en) Method and system for an automated corporate governance rating system
Wang et al. Harvesting facts from textual web sources by constrained label propagation
US10796097B2 (en) System and method for event profiling
US20210026835A1 (en) System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders
Sun et al. Pre-processing online financial text for sentiment classification: A natural language processing approach
Fayaz et al. Machine learning for fake news classification with optimal feature selection
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
Suryono et al. P2P Lending sentiment analysis in Indonesian online news
Tayal et al. Fast retrieval approach of sentimental analysis with implementation of bloom filter on Hadoop
Jlifi et al. Towards a soft three-level voting model (Soft T-LVM) for fake news detection
Sharma et al. Ideology detection in the Indian mass media
Naudé et al. A machine learning approach to detecting fraudulent job types
Ceballos Delgado et al. Deception detection using machine learning
Hosseini et al. Ambiguity and generality in natural language privacy policies
Li et al. automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective
CN112036841A (zh) 基于智能语义识别的政策解析系统及方法
Qasem et al. Leveraging contextual features to enhanced machine learning models in detecting COVID-19 fake news
CN113095078A (zh) 关联资产确定方法、装置和电子设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant