KR102594926B1 - 치안정보 문서 작성 가이드 시스템 및 그 방법 - Google Patents

치안정보 문서 작성 가이드 시스템 및 그 방법 Download PDF

Info

Publication number
KR102594926B1
KR102594926B1 KR1020210138547A KR20210138547A KR102594926B1 KR 102594926 B1 KR102594926 B1 KR 102594926B1 KR 1020210138547 A KR1020210138547 A KR 1020210138547A KR 20210138547 A KR20210138547 A KR 20210138547A KR 102594926 B1 KR102594926 B1 KR 102594926B1
Authority
KR
South Korea
Prior art keywords
security information
manuals
unit
similar
document
Prior art date
Application number
KR1020210138547A
Other languages
English (en)
Other versions
KR20230055164A (ko
Inventor
양중식
이영준
염경록
조영준
이정원
Original Assignee
(주)아이와즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이와즈 filed Critical (주)아이와즈
Priority to KR1020210138547A priority Critical patent/KR102594926B1/ko
Publication of KR20230055164A publication Critical patent/KR20230055164A/ko
Application granted granted Critical
Publication of KR102594926B1 publication Critical patent/KR102594926B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Technology Law (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 치안정보 문서 작성 가이드 시스템은, 치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부; 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부; 치안정보 초안 보고서의 요약을 수행하는 요약 수행부; 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부; 상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 검색 추출부; 치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 검증부 및 상기 각부를 제어하는 제어부를 포함하는 것을 특징으로 한다.

Description

치안정보 문서 작성 가이드 시스템 및 그 방법{Security information report and document creation guide system through security information manual and case recommendation}
본 발명은 치안정보 문서 작성 가이드 시스템에 관한 것으로서, 더욱 상세하게는 경찰에서 조사하는 사건의 내용과 관련 사례정보를 초기에 인지하여 매뉴얼 및 사례 추천을 통하여 보고서 및 문서 작성을 지원하는 문서 작성 가이드 시스템에 관한 것에 관한 것이다.
경찰이 조사나 수사를 하고 사건 관련 문서를 작성하기 위해서는 작성해야 하는 다양한 문서들의 종류만 해도 수십여 가지이다.
기존 수사관 또는 경험이 적은 신입 수사관들이 각 문서를 작성하기 위해서는 경험이 많은 수사관들의 노하우를 습득하고 기존 양식들을 찾아가며 작성해야 하는 어려움이 있다.
또한, 기존 매뉴얼과 매칭되는 사건이나 보고 사례들을 통합하여 검색하거나 추천하는 시스템 또는 통합 데이터의 공유 부재로 인하여 문서의 품질이 작성자별로 상이하여 4차 산업혁명 기술 확산에 따른 빅데이터를 구축하고 공유하는데 있어서 데이터 품질의 이슈가 존재한다.
한국공개특허 제10-2021-0058059호
상기의 문제점을 해결하고자 본 발명은 국민들의 생활과 안전을 보장하기 위해 경찰에서 조사하는 사건의 내용과 관련 사례정보를 초기에 인지하여 매뉴얼 및 사례 추천을 통하여 보고서 및 문서 작성을 지원하는 문서 작성 가이드 시스템을 제공하고자 한다.
상기의 해결하고자 하는 과제를 위한 본 발명에 따른 치안정보 문서 작성 가이드 시스템은, 치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부; 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부; 치안정보 초안 보고서의 요약을 수행하는 요약 수행부; 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부; 상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 검색 추출부; 치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 검증부 및 상기 각부를 제어하는 제어부를 포함하되,상기 치안정보 초안 보고서의 요약을 수행하는 요약 수행부는, 작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하고, 작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하고, TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하고, 생성된 통합 요약 정보를 통합 검색부로 전달하는 것을 특징으로 한다.
본 발명의 다른 실시예로서, 치안정보 문서 작성 가이드 시스템을 이용한 치안정보 문서 작성 가이드 방법은, 치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계; 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계; 치안정보 초안 보고서의 요약을 수행하는 단계; 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계; 상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 단계 및 치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계를 포함하되, 상기 치안정보 초안 보고서의 요약을 수행하는 단계는, 작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하는 단계; 작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하는 단계; TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및 생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함하는 것을 특징으로 한다.
치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는, 입력된 학습 데이터를 이용하여 TextRank 요약 알고리즘을 수행하는 단계; 입력된 학습 데이터를 이용하여 BERT 기반 생성요약 모델과 추출요약 모델을 생성하는 단계 및 생성된 생성요약 모델과 추출요약 모델을 요약 모델 데이터베이스에 저장하여 관리하는 단계를 포함하는 것을 특징으로 한다.
치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기(stem) 주요 키워드를 추출하는 단계; 추출된 주요 키워드를 이용하여 신축 검색(elastic search)엔진에서 통합 색인을 수행하는 단계 및 유사 매뉴얼 및 사례 통합 색인을 저장하고 관리하는 단계를 포함하는 것을 특징으로 한다.
치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기 주요 키워드를 추출하는 단계, 문서 형식 및 양식 정합성 체크를 위한 패턴 데이터를 생성하는 단계 및 문서 형식 및 양식 패턴 데이터를 저장하여 관리하는 단계를 포함하는 것을 특징으로 한다.
작성하려는 치안정보 문서의 요약을 수행하는 단계는, 작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반 요약을 수행하는 단계; 작성된 초안 보고서 및 문서의 BERT 기반 생성요약 및 추출요약을 수행하는 단계; TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및 생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함하는 것을 특징으로 한다.
치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계는, 요약된 핵심 정보에서 명사, 동사의 줄기 주요 키워드를 추출하는 단계; 추출된 주요 키워드를 이용하고 BM25 알고리즘을 이용하여 유사 매뉴얼 및사례를 검색하는 단계 및 유사 매뉴얼 및 사례들을 검색 추출부로 전달하는 단계를 포함하는 것을 특징으로 한다.
통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터(Word2vec)화 집합으로부터 유사도를 계산하여 추출하는 단계는, 전달받은 요약 정보를 이용하여 Word2vec 집합을 구성하는 단계; 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 Word2vec 집합을 구성하는 단계; 상기 두 개의 Word2vec 집합의 Cosine 유사도 계산을 통한 가장 유사한 매뉴얼 및 사례 데이터를 추출하는 단계 및 가장 유사한 매뉴얼 및 사례 데이터를 검증부에 전달하는 단계를 포함하는 것을 특징으로 한다.
완성된 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계는, 사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 주요 키워드를 추출하는 단계; 치안정보 문서형식에 대한 패턴 분석 후 양식 자동 검증을 수행하는 단계 및 최종 문서 및 검증 결과를 사용자 단말에 전달하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따른 치안정보 문서 작성 가이드 시스템 기술은, 기존 경험자들의 노하우 및 경험을 가이드 시스템을 통하여 관련 매뉴얼 정보와 사례 정보를 제공함으로써 초임 경찰 및 수사관들이 다양한 케이스에 대한 문서를 작성하는데 소요시간 및 품질 향상에 도움을 줄 수 있다.
또한, 기존 경찰 및 수사관들마다 상이한 방식으로 작성하던 보고서 및 문서에 대한 내용들을 본 발명에 따른 가이드 시스템을 통해 정형화 또는 일반화를 하여 추후 공공 데이터 공유 및 학습 데이터로써 활용 가능하도록 도움을 줄 수 있다. 기존 수사관이 경험하지 않는 내용에 대한 문서를 작성할 때도 최소의 문서 품질을 보장하여 생성된 정보의 이용 및 확장 가능성을 극대화하는데 도움을 줄 수 있다.
또한, 기존 부서마다 보유하고 있던 매뉴얼 및 사례 데이터에 대하여 통합색인을 구축하여 무한의 정보속에서 경찰 및 수사관들이 자신에게 필요한 정보와 중요한 정보를 선별하는데 도움을 준다.
또한, 기존의 키워드 검색에 머무르는 것이 아닌 경찰 및 수사관들이 작성한 초안에 대한 보고서 및 문서에 대한 비정형 데이터의 검색 및 활용을 통해 다양한 가치 창출에 도움을 줄 수 있다.
도 1은 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 개념도이다.
도 2는 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 서비스 서버 블록도이다.
도 3은 본 발명에 따른 전체 서비스의 개념도이다.
도 4는 본 발명에 따른 치안정보 문서 작성 가이드 방법의 전체 흐름도이다.
도 5는 본 발명에 따른 요약모델 구축부의 흐름도이다.
도 6은 본 발명에 따른 색인구축부의 흐름도이다.
도 7은 본 발명에 따른 패턴 데이터 생성부의 흐름도이다.
도 8은 본 발명에 따른 요약정보 수행부의 흐름도이다.
도 9는 유사도 기반 주거서비스의 통합검색 흐름도이다.
도 10은 본 발명에 따른 검색 추출부의 흐름도이다.
도 11은 본 발명에 따른 검증부의 흐름도이다.
이하, 본 발명의 실시를 위한 구체적인 실시예와 도면을 참고하여 설명한다. 본 발명의 실시예는 하나의 발명을 설명하기 위한 것으로서 권리범위는 예시된 실시예에 한정되지 아니하고, 예시된 도면은 발명의 명확성을 위하여 핵심적인 내용만 확대 도시하고 부수적인 것을 생략하였으므로 도면에 한정하여 해석하여서는 아니 된다.
삭제
도 1은 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 개념도로서, 서비스 서버와 사용자 단말기는 유무선 인터넷으로 연결된 시스템이나, 보안상 필요한 경우에는 서비스 서버는 방화벽으로 차단된 치안 서버로 대체된다.
도 2는 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 서비스 서버 블록도로서, 치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부, 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부, 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부, 작성하려는 치안정보 문서의 요약을 수행하는 요약 수행부, 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부, 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터화 집합으로부터 유사도를 계산하여 추출하는 검색 추출부, 완성된 문서를 패턴 데이터 구축부의 패턴 데이터와 정합성을 검증하는 검증부 및 상기 각부를 제어하는 제어부를 포함하는 것을 특징으로 한다.
도 3은 본 발명에 따른 전체 서비스의 개념도이고, 도 4는 본 발명에 따른 치안정보 문서 작성 가이드 방법의 전체 흐름도이다.
치안정보 문서 작성 가이드 시스템을 이용한 방법은 크게 치안정보 매뉴얼 및 사례 데이터의 데이터베이스를 구축하는 과정과 구축된 데이터베이스를 이용하여 치안정보 문서를 작성하는 과정으로 구분된다.
데이터베이스를 구축하는 과정은, 치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계, 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계 및 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계를 포함한다.
구축된 데이터베이스를 이용하여 치안정보 문서를 작성하는 과정은, 작성하려는 치안정보 문서의 요약을 수행하는 단계, 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계, 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터화 집합으로부터 유사도를 계산하여 추출하는 단계, 완성된 문서를 패턴 데이터 구축부의 패턴 데이터와 정합성을 검증하는 단계를 포함한다.
치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는 BERT(Bidirectional Encoder Representations from Transformers) 기반으로 생성요약과 추출요약을 수행한다.
BERT 모델은 대량의 코퍼스를 스스로 읽고 학습하여 단어의 문맥, 관계 등을 판단하고 예측하는 자연어처리 언어모델로 추출요약과 생성요약을 수행할 수 있다. 추출요약은 문서에서 핵심 내용이 되는 문장들을 추출하여 요약문을 생성하는 것이고, 생성요약은 문서에 없던 단어나 표현들로 문장들을 만들어 요약문을 생성해내는 방법이다.
본 발명은 경찰청이 보유한 치안정보 보고서와 문서에 특화하여 BERT 기반 학습 모델 구축이 특징으로, 치안정보 보고서 및 문서에 주요 내용들을 참고로 생성요약을 만들어 추가하고 치안정보 보고서 및 문서에 주요 문장을 이용하여 추출요약을 만들어 학습데이터를 구성한다.
치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는 사용자가 입력한 치안정보 매뉴얼 및 사례 학습 데이터를 이용하여 TextRank 알고리즘 기반 요약 결과와 BERT기반 생성/추출요약 모델을 생성하여 통합 요약 모델을 구축한다.
도 5는 본 발명에 따른 요약모델 구축부의 흐름도로서, 사용자가 입력한 학습 데이터를 이용하여 TextRank 요약 알고리즘을 수행하는 단계, 사용자가 입력한 학습 데이터를 이용하여 BERT 기반 생성/추출요약 모델을 생성하는 단계 및 문제가 없으면 요약 모델 데이터베이스에 저장하여 관리하는 단계를 포함한다.
TextRank 요약 알고리즘은 PageRank 알고리즘을 이용한 알고리즘으로 PageRank의 중요도가 높은 웹 사이트는 다른 많은 사이트로부터 링크를 받는다는 점에 착안하여 문서 내의 문장 또는 단어를 이용하여 상대적 중요도에 따라 수식 1과 같이 가중치를 부여한다. 서로 간의 인용과 참조로 연결된 임의의 묶음에 적용할 수 있다.
[수식 1]
TR(Vi)는 문장 또는 단어(Vi)에 대한 TextRank 값이고, Wji는 문장 또는 단어 i와 j 사이의 가중치이고, d는 PageRank에서 웹서핑을 하는 사람이 해당 페이지를 만족하지 못하고 다른 페이지로 이동하는 확률로 TextRank에서도 그 값(0.85)을 그대로 사용한다. TextRank는 TR(Vi)를 계산한 뒤 높은 순으로 정렬한다.
도 6은 본 발명에 따른 색인구축부의 흐름도로서, 유사 매뉴얼 및 사례 데이터 검색을 위하여 사용자가 입력한 치안정보 매뉴얼 및 사례 학습 데이터를 이용하여 주요 색인 키워드를 추출하고 추출된 주요 키워드를 이용하여 검색엔진에서 통합 색인을 수행한다.
치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기(stem) 주요 키워드를 추출하는 단계; 추출된 주요 키워드를 이용하여 신축 검색(elastic search)엔진에서 통합 색인을 수행하는 단계 및 색인이 성공적으로 수행되었으면 유사 매뉴얼 및 사례 통합 색인을 저장하고 관리하는 단계를 포함한다.
신축 검색(elastic search)엔진은 검색엔진에 하나로서 분산 기반 클러스터로 구성하여 빠른 검색 성능과 다양한 검색 옵션을 사용하기 위한 분산 검색 엔진으로 JSON 기반의 비정형 데이터 분산 검색 및 분석을 지원한다. 신축 검색엔진은 설치와 서버 확장이 매우 편리하며, 실시간 검색 서비스의 지원, 분산 및 병렬처리, 그리고 멀티테넌시 기능을 제공하고 다양한 기능을 플러그인 형태로 구현하여 적용할 수 있고, 클러스터로 구성할 수 있기 때문에 검색 대상의 용량이 증가했을 때 대응하기가 매우 수월한다.
신축 검색엔진은 현재 웹 문서 검색, 소셜 데이터 분석, 쇼핑몰 검색 등에 활용되고 있으며, 빅데이터 분석/처리 및 MSA 환경의 로그 모니터링 등에도 활용되고 있다.
도 7은 본 발명에 따른 패턴 데이터 생성부의 흐름도로서, 치안정보 문서 형식 및 양식 정합성 체크를 위하여 사용자가 입력한 학습 데이터를 이용하여 주요 키워드를 추출하고 문서 형식 및 양식에 대한 패턴 데이터를 생성한다.
치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기 주요 키워드를 추출하는 단계, 문서 형식 및 양식 정합성 체크를 위한 패턴 데이터를 생성하는 단계 및 문제없으면 문서 형식 및 양식 패턴 데이터를 저장하여 관리하는 단계를 포함한다.
도 8은 본 발명에 따른 요약정보 수행부의 흐름도로서, 사용자가 작성하려는 치안정보 보고서의 유사 매뉴얼 및 사례 검색을 수행하기 위하여 요약된 정보의 질의어를 생성한다.
작성하려는 치안정보 문서의 요약을 수행하는 단계는, 사용자가 작성한 초안 보고서 및 문서의 TextRank 알고리즘 기반 요약을 수행하는 단계; 사용자가 작성한 초안 보고서 및 문서의 BERT 기반 생성요약 및 추출요약을 수행하는 단계; TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및 문제없으면 생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함한다.
도 9는 본발명에 따른 통합검색 흐름도로서, 사용자가 치안정보 보고서 및 문서를 작성하기 위한 유사 매뉴얼 및 사례 정보를 검색한다.
치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계는, 요약된 핵심 정보에서 명사, 동사의 줄기 주요 키워드를 추출하는 단계; 추출된 주요키워드를 이용하고 BM25 알고리즘을 이용하여 유사 매뉴얼 및 사례 검색하는 단계 및 문제없으면 유사 매뉴얼 및 사례들을 검색 추출부로 전달하는 단계를 포함한다.
BM25 알고리즘은 검색 시 문서의 가중치를 부여하는 알고리즘으로 TF-IDF의 변형식으로 수식 2와 같다.
[수식 2]
Score(D,Q)는 문서 D에 대한 검색어 Q의 BM25 점수 또는 관련도를 의미하고, Q는 검색어 집합으로 q1, q2, q3 … , qn을 포함하고 있고, f(qi, D)는 문서 D에서 단어 qi의 빈도수이고, k1과 b는 상수이고, |D|는 문서 D의 길이이고, avgdl은 전체 문서의 길이 평균이다. IDF(qi)는 수식 3과 같이 표현된다.
[수식 3]
N은 전체 문서의 개수이고, n(qi)는 검색어 qi가 있는 문서의 개수이다.
TF에서 분자는 단순히 단어 빈도수가 되고, 분모는 단어 빈도수에 (문서 길이/전체문서의 길이 평균)을 더한 값이 되어 문서의 길이가 길수록 분모가 커져 TF 값이 작아진다는 것을 알 수 있다. IDF는 검색어 qi를 갖고 있는 문서의 개수가 많을수록 분자는 작아지고 분모는 커지기 때문에 IDF의 값이 작아진다는 것을 알 수 있다.
A문서와 B문서의 검색어 빈도수가 같을 때, 문서의 길이가 긴 쪽이 낮은 점수값을 가지며 다른 문서에서 잘 나오지 않는 단어 A를 포함한 문서의 단어 A의 빈도수가 높지 않아도 높은 점수값을 가진다.
도 10은 본 발명에 따른 검색 추출부의 흐름도로서, 단어-벡터(Word2vec) 기반으로 검색 결과를 재정렬 후 검증부에 전달한다.
통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터화 집합으로부터 유사도를 계산하여 추출하는 단계는, 전달받은 요약 정보를 이용하여 Word2vec 집합을 구성하는 단계; 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 Word2vec 집합을 구성하는 단계; 두 개의 Word2vec 집합의 Cosine 유사도 계산을 통한 가장 유사한 매뉴얼 및 사례 데이터를 추출하는 단계 및 문제없으면 가장 유사한 매뉴얼 및 사례 데이터를 검증부에 전달하는 단계를 포함한다.
Word2Vec 집합은 분포 가설(distributional hypothesis) 가정하에 표현한 분산 표현의 벡터를 구하는 방법이다. 예를 들어 '강아지'라는 단어는 '귀엽다', '예쁘다', '애교' 등의 단어와 같이 자주 등장한다고 하면 그에 따라 분포 가설에 맞춰 해당 단어들을 벡터화한다면 유사한 값이 나오면 유사도가 클수록 의미적으로 가까운 단어가 된다는 뜻이다.
Word2Vec은 간단한 인공신경망 모형을 기반으로 학습 데이터의 규모가 10억 단어 이상으로 커져도 요구되는 계산량을 낮은 수준으로 유지(computationally cheap)할 수 있어 효율성이 높다. 이는 학습 과정을 쉽게 병렬화하여 짧은 시간 안에 양질의 단어 벡터 표상을 얻을 수 있다. 이처럼 속도를 대폭 개선시킨 Word2Vec 집합은 중심 단어를 보고 어떤 주변 단어가 존재하는지 예측하는 모델인 Skip-Gram이라는 학습 방법에 사용한다.
Cosine 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다. Word2vec 집합으로 구성된 A, B 두 벡터 간의 유사도를 수식 4로 점수를 계산하여 가장 유사한 벡터를 찾을 수 있다.
[수식 4]
도 11은 본 발명에 따른 검증부의 흐름도로서, 사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 문서 양식 및 형식에 대한 자동 검증을 수행한다.
완성된 문서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계는, 사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 주요 키워드를 추출하는 단계; 치안정보 문서형식에 대한 패턴 분석 후 양식 자동 검증을 수행하는 단계 및 문제없으면 최종 문서 및 검증 결과를 사용자 단말에 전달한다.

Claims (9)

  1. 치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부;
    치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부;
    치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부;
    치안정보 초안 보고서의 요약을 수행하는 요약 수행부;
    치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부;
    상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 검색 추출부;
    치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 검증부 및
    상기 각부를 제어하는 제어부를 포함하되,
    상기 치안정보 초안 보고서의 요약을 수행하는 요약 수행부는,
    작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하고, 작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하고, TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하고, 생성된 통합 요약 정보를 통합 검색부로 전달하는 것을 특징으로 하는 것을 특징으로 하는 치안정보 문서 작성 가이드 시스템.
  2. 제1항의 치안정보 문서 작성 가이드 시스템을 이용한 치안정보 문서 작성 가이드 방법은,
    치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계;
    치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계;
    치안정보 초안 보고서의 요약을 수행하는 단계;
    치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계;
    상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 단계 및
    치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계를 포함하되,
    상기 치안정보 초안 보고서의 요약을 수행하는 단계는,
    작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하는 단계;
    작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하는 단계;
    TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및
    생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
  3. 제2항에 있어서,
    치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는,
    입력된 학습 데이터를 이용하여 TextRank 요약 알고리즘을 수행하는 단계;
    입력된 학습 데이터를 이용하여 BERT 기반 생성요약 모델과 추출요약 모델을 생성하는 단계 및
    생성된 생성요약 모델과 추출요약 모델을 요약 모델 데이터베이스에 저장하여 관리하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
  4. 제2항에 있어서,
    치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계는,
    사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기(stem) 주요 키워드를 추출하는 단계;
    추출된 주요 키워드를 이용하여 신축 검색(elastic search)엔진에서 통합 색인을 수행하는 단계 및
    유사 매뉴얼 및 사례 통합 색인을 저장하고 관리하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
  5. 제2항에 있어서,
    치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계는,
    사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기 주요 키워드를 추출하는 단계,
    문서 형식 및 양식 정합성 체크를 위한 패턴 데이터를 생성하는 단계 및
    문서 형식 및 양식 패턴 데이터를 저장하여 관리하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
  6. 삭제
  7. 제2항에 있어서,
    치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계는,
    요약된 핵심 정보에서 명사, 동사의 줄기 주요 키워드를 추출하는 단계;
    추출된 주요 키워드를 이용하고 BM25 알고리즘을 이용하여 유사 매뉴얼 및사례를 검색하는 단계 및
    유사 매뉴얼 및 사례들을 검색 추출부로 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
  8. 제2항에 있어서,
    통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터(Word2vec)화 집합으로부터 유사도를 계산하여 추출하는 단계는,
    전달받은 요약 정보를 이용하여 Word2vec 집합을 구성하는 단계;
    전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 Word2vec 집합을 구성하는 단계;
    상기 두 개의 Word2vec 집합의 Cosine 유사도 계산을 통한 가장 유사한 매뉴얼 및 사례 데이터를 추출하는 단계 및
    가장 유사한 매뉴얼 및 사례 데이터를 검증부에 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
  9. 제2항에 있어서,
    치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계는,
    사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 주요 키워드를 추출하는 단계;
    치안정보 문서형식에 대한 패턴 분석 후 양식 자동 검증을 수행하는 단계 및
    최종 문서 및 검증 결과를 사용자 단말에 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
KR1020210138547A 2021-10-18 2021-10-18 치안정보 문서 작성 가이드 시스템 및 그 방법 KR102594926B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210138547A KR102594926B1 (ko) 2021-10-18 2021-10-18 치안정보 문서 작성 가이드 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210138547A KR102594926B1 (ko) 2021-10-18 2021-10-18 치안정보 문서 작성 가이드 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20230055164A KR20230055164A (ko) 2023-04-25
KR102594926B1 true KR102594926B1 (ko) 2023-10-27

Family

ID=86101857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210138547A KR102594926B1 (ko) 2021-10-18 2021-10-18 치안정보 문서 작성 가이드 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102594926B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100847376B1 (ko) * 2006-11-29 2008-07-21 김준홍 질의어 자동 추출을 이용한 검색 방법 및 장치
KR101099908B1 (ko) * 2010-04-21 2011-12-28 엔에이치엔(주) 문서 간 유사도 계산 시스템 및 방법
KR20210058059A (ko) 2019-11-13 2021-05-24 주식회사 셀바스에이아이 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스

Also Published As

Publication number Publication date
KR20230055164A (ko) 2023-04-25

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
Andhale et al. An overview of text summarization techniques
CN100458795C (zh) 一种智能组词输入的方法和一种输入法系统及其更新方法
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
Chen et al. SMS-based web search for low-end mobile devices
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
KR20190017739A (ko) 개인과 관련된 소셜 네트워크들을 통해 컨텐츠를 검색하고 매칭하기 위한 시스템 및 방법
El-Fishawy et al. Arabic summarization in twitter social network
Dumani et al. A framework for argument retrieval: Ranking argument clusters by frequency and specificity
JP2019067433A (ja) 話題提供システム
CN104978314A (zh) 媒体内容推荐方法及装置
Wang et al. Encoding syntactic dependency and topical information for social emotion classification
CN116414968A (zh) 信息搜索方法、装置、设备、介质及产品
Qixiang et al. Exploiting domain-slot related keywords description for few-shot cross-domain dialogue state tracking
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
KR102594926B1 (ko) 치안정보 문서 작성 가이드 시스템 및 그 방법
Li et al. Text similarity computation model for identifying rumor based on bayesian network in microblog.
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
KR101752257B1 (ko) 링크드 오픈 데이터 클라우드 정보 서비스 시스템 및 그 제공 방법과 이를 구현하기 위한 프로그램이 저장된 기록매체
Jiang et al. A semantic-based approach to service clustering from service documents
Anoop et al. A distributional semantics-based information retrieval framework for online social networks
Dhokar et al. Tweet contextualization: combining sentence extraction, sentence aggregation and sentence reordering to enhance informativeness and readability
Xu et al. Extracting topic keywords from Sina Weibo text sets
Shao et al. An efficient expansion word extraction algorithm for educational video

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant