KR102594926B1

KR102594926B1 - 치안정보 문서 작성 가이드 시스템 및 그 방법

Info

Publication number: KR102594926B1
Application number: KR1020210138547A
Authority: KR
Inventors: 양중식; 이영준; 염경록; 조영준; 이정원
Original assignee: (주)아이와즈
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2023-10-27
Also published as: KR20230055164A

Abstract

본 발명에 따른 치안정보 문서 작성 가이드 시스템은, 치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부; 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부; 치안정보 초안 보고서의 요약을 수행하는 요약 수행부; 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부; 상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 검색 추출부; 치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 검증부 및 상기 각부를 제어하는 제어부를 포함하는 것을 특징으로 한다.

Description

치안정보 문서 작성 가이드 시스템 및 그 방법{Security information report and document creation guide system through security information manual and case recommendation}

본 발명은 치안정보 문서 작성 가이드 시스템에 관한 것으로서, 더욱 상세하게는 경찰에서 조사하는 사건의 내용과 관련 사례정보를 초기에 인지하여 매뉴얼 및 사례 추천을 통하여 보고서 및 문서 작성을 지원하는 문서 작성 가이드 시스템에 관한 것에 관한 것이다.

경찰이 조사나 수사를 하고 사건 관련 문서를 작성하기 위해서는 작성해야 하는 다양한 문서들의 종류만 해도 수십여 가지이다.

기존 수사관 또는 경험이 적은 신입 수사관들이 각 문서를 작성하기 위해서는 경험이 많은 수사관들의 노하우를 습득하고 기존 양식들을 찾아가며 작성해야 하는 어려움이 있다.

또한, 기존 매뉴얼과 매칭되는 사건이나 보고 사례들을 통합하여 검색하거나 추천하는 시스템 또는 통합 데이터의 공유 부재로 인하여 문서의 품질이 작성자별로 상이하여 4차 산업혁명 기술 확산에 따른 빅데이터를 구축하고 공유하는데 있어서 데이터 품질의 이슈가 존재한다.

한국공개특허 제10-2021-0058059호

상기의 문제점을 해결하고자 본 발명은 국민들의 생활과 안전을 보장하기 위해 경찰에서 조사하는 사건의 내용과 관련 사례정보를 초기에 인지하여 매뉴얼 및 사례 추천을 통하여 보고서 및 문서 작성을 지원하는 문서 작성 가이드 시스템을 제공하고자 한다.

상기의 해결하고자 하는 과제를 위한 본 발명에 따른 치안정보 문서 작성 가이드 시스템은, 치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부; 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부; 치안정보 초안 보고서의 요약을 수행하는 요약 수행부; 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부; 상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 검색 추출부; 치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 검증부 및 상기 각부를 제어하는 제어부를 포함하되,상기 치안정보 초안 보고서의 요약을 수행하는 요약 수행부는, 작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하고, 작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하고, TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하고, 생성된 통합 요약 정보를 통합 검색부로 전달하는 것을 특징으로 한다.

본 발명의 다른 실시예로서, 치안정보 문서 작성 가이드 시스템을 이용한 치안정보 문서 작성 가이드 방법은, 치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계; 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계; 치안정보 초안 보고서의 요약을 수행하는 단계; 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계; 상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 단계 및 치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계를 포함하되, 상기 치안정보 초안 보고서의 요약을 수행하는 단계는, 작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하는 단계; 작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하는 단계; TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및 생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함하는 것을 특징으로 한다.

치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는, 입력된 학습 데이터를 이용하여 TextRank 요약 알고리즘을 수행하는 단계; 입력된 학습 데이터를 이용하여 BERT 기반 생성요약 모델과 추출요약 모델을 생성하는 단계 및 생성된 생성요약 모델과 추출요약 모델을 요약 모델 데이터베이스에 저장하여 관리하는 단계를 포함하는 것을 특징으로 한다.

치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기(stem) 주요 키워드를 추출하는 단계; 추출된 주요 키워드를 이용하여 신축 검색(elastic search)엔진에서 통합 색인을 수행하는 단계 및 유사 매뉴얼 및 사례 통합 색인을 저장하고 관리하는 단계를 포함하는 것을 특징으로 한다.

치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기 주요 키워드를 추출하는 단계, 문서 형식 및 양식 정합성 체크를 위한 패턴 데이터를 생성하는 단계 및 문서 형식 및 양식 패턴 데이터를 저장하여 관리하는 단계를 포함하는 것을 특징으로 한다.

작성하려는 치안정보 문서의 요약을 수행하는 단계는, 작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반 요약을 수행하는 단계; 작성된 초안 보고서 및 문서의 BERT 기반 생성요약 및 추출요약을 수행하는 단계; TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및 생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함하는 것을 특징으로 한다.

치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계는, 요약된 핵심 정보에서 명사, 동사의 줄기 주요 키워드를 추출하는 단계; 추출된 주요 키워드를 이용하고 BM25 알고리즘을 이용하여 유사 매뉴얼 및사례를 검색하는 단계 및 유사 매뉴얼 및 사례들을 검색 추출부로 전달하는 단계를 포함하는 것을 특징으로 한다.

통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터(Word2vec)화 집합으로부터 유사도를 계산하여 추출하는 단계는, 전달받은 요약 정보를 이용하여 Word2vec 집합을 구성하는 단계; 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 Word2vec 집합을 구성하는 단계; 상기 두 개의 Word2vec 집합의 Cosine 유사도 계산을 통한 가장 유사한 매뉴얼 및 사례 데이터를 추출하는 단계 및 가장 유사한 매뉴얼 및 사례 데이터를 검증부에 전달하는 단계를 포함하는 것을 특징으로 한다.

완성된 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계는, 사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 주요 키워드를 추출하는 단계; 치안정보 문서형식에 대한 패턴 분석 후 양식 자동 검증을 수행하는 단계 및 최종 문서 및 검증 결과를 사용자 단말에 전달하는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따른 치안정보 문서 작성 가이드 시스템 기술은, 기존 경험자들의 노하우 및 경험을 가이드 시스템을 통하여 관련 매뉴얼 정보와 사례 정보를 제공함으로써 초임 경찰 및 수사관들이 다양한 케이스에 대한 문서를 작성하는데 소요시간 및 품질 향상에 도움을 줄 수 있다.

또한, 기존 경찰 및 수사관들마다 상이한 방식으로 작성하던 보고서 및 문서에 대한 내용들을 본 발명에 따른 가이드 시스템을 통해 정형화 또는 일반화를 하여 추후 공공 데이터 공유 및 학습 데이터로써 활용 가능하도록 도움을 줄 수 있다. 기존 수사관이 경험하지 않는 내용에 대한 문서를 작성할 때도 최소의 문서 품질을 보장하여 생성된 정보의 이용 및 확장 가능성을 극대화하는데 도움을 줄 수 있다.

또한, 기존 부서마다 보유하고 있던 매뉴얼 및 사례 데이터에 대하여 통합색인을 구축하여 무한의 정보속에서 경찰 및 수사관들이 자신에게 필요한 정보와 중요한 정보를 선별하는데 도움을 준다.

또한, 기존의 키워드 검색에 머무르는 것이 아닌 경찰 및 수사관들이 작성한 초안에 대한 보고서 및 문서에 대한 비정형 데이터의 검색 및 활용을 통해 다양한 가치 창출에 도움을 줄 수 있다.

도 1은 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 개념도이다.
도 2는 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 서비스 서버 블록도이다.
도 3은 본 발명에 따른 전체 서비스의 개념도이다.
도 4는 본 발명에 따른 치안정보 문서 작성 가이드 방법의 전체 흐름도이다.
도 5는 본 발명에 따른 요약모델 구축부의 흐름도이다.
도 6은 본 발명에 따른 색인구축부의 흐름도이다.
도 7은 본 발명에 따른 패턴 데이터 생성부의 흐름도이다.
도 8은 본 발명에 따른 요약정보 수행부의 흐름도이다.
도 9는 유사도 기반 주거서비스의 통합검색 흐름도이다.
도 10은 본 발명에 따른 검색 추출부의 흐름도이다.
도 11은 본 발명에 따른 검증부의 흐름도이다.

이하, 본 발명의 실시를 위한 구체적인 실시예와 도면을 참고하여 설명한다. 본 발명의 실시예는 하나의 발명을 설명하기 위한 것으로서 권리범위는 예시된 실시예에 한정되지 아니하고, 예시된 도면은 발명의 명확성을 위하여 핵심적인 내용만 확대 도시하고 부수적인 것을 생략하였으므로 도면에 한정하여 해석하여서는 아니 된다.

삭제

도 1은 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 개념도로서, 서비스 서버와 사용자 단말기는 유무선 인터넷으로 연결된 시스템이나, 보안상 필요한 경우에는 서비스 서버는 방화벽으로 차단된 치안 서버로 대체된다.

도 2는 본 발명에 따른 치안정보 문서 작성 가이드 시스템의 서비스 서버 블록도로서, 치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부, 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부, 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부, 작성하려는 치안정보 문서의 요약을 수행하는 요약 수행부, 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부, 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터화 집합으로부터 유사도를 계산하여 추출하는 검색 추출부, 완성된 문서를 패턴 데이터 구축부의 패턴 데이터와 정합성을 검증하는 검증부 및 상기 각부를 제어하는 제어부를 포함하는 것을 특징으로 한다.

도 3은 본 발명에 따른 전체 서비스의 개념도이고, 도 4는 본 발명에 따른 치안정보 문서 작성 가이드 방법의 전체 흐름도이다.

치안정보 문서 작성 가이드 시스템을 이용한 방법은 크게 치안정보 매뉴얼 및 사례 데이터의 데이터베이스를 구축하는 과정과 구축된 데이터베이스를 이용하여 치안정보 문서를 작성하는 과정으로 구분된다.

데이터베이스를 구축하는 과정은, 치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계, 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계 및 치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계를 포함한다.

구축된 데이터베이스를 이용하여 치안정보 문서를 작성하는 과정은, 작성하려는 치안정보 문서의 요약을 수행하는 단계, 치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계, 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터화 집합으로부터 유사도를 계산하여 추출하는 단계, 완성된 문서를 패턴 데이터 구축부의 패턴 데이터와 정합성을 검증하는 단계를 포함한다.

치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는 BERT(Bidirectional Encoder Representations from Transformers) 기반으로 생성요약과 추출요약을 수행한다.

BERT 모델은 대량의 코퍼스를 스스로 읽고 학습하여 단어의 문맥, 관계 등을 판단하고 예측하는 자연어처리 언어모델로 추출요약과 생성요약을 수행할 수 있다. 추출요약은 문서에서 핵심 내용이 되는 문장들을 추출하여 요약문을 생성하는 것이고, 생성요약은 문서에 없던 단어나 표현들로 문장들을 만들어 요약문을 생성해내는 방법이다.

본 발명은 경찰청이 보유한 치안정보 보고서와 문서에 특화하여 BERT 기반 학습 모델 구축이 특징으로, 치안정보 보고서 및 문서에 주요 내용들을 참고로 생성요약을 만들어 추가하고 치안정보 보고서 및 문서에 주요 문장을 이용하여 추출요약을 만들어 학습데이터를 구성한다.

치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는 사용자가 입력한 치안정보 매뉴얼 및 사례 학습 데이터를 이용하여 TextRank 알고리즘 기반 요약 결과와 BERT기반 생성/추출요약 모델을 생성하여 통합 요약 모델을 구축한다.

도 5는 본 발명에 따른 요약모델 구축부의 흐름도로서, 사용자가 입력한 학습 데이터를 이용하여 TextRank 요약 알고리즘을 수행하는 단계, 사용자가 입력한 학습 데이터를 이용하여 BERT 기반 생성/추출요약 모델을 생성하는 단계 및 문제가 없으면 요약 모델 데이터베이스에 저장하여 관리하는 단계를 포함한다.

TextRank 요약 알고리즘은 PageRank 알고리즘을 이용한 알고리즘으로 PageRank의 중요도가 높은 웹 사이트는 다른 많은 사이트로부터 링크를 받는다는 점에 착안하여 문서 내의 문장 또는 단어를 이용하여 상대적 중요도에 따라 수식 1과 같이 가중치를 부여한다. 서로 간의 인용과 참조로 연결된 임의의 묶음에 적용할 수 있다.

[수식 1]

TR(Vi)는 문장 또는 단어(Vi)에 대한 TextRank 값이고, Wji는 문장 또는 단어 i와 j 사이의 가중치이고, d는 PageRank에서 웹서핑을 하는 사람이 해당 페이지를 만족하지 못하고 다른 페이지로 이동하는 확률로 TextRank에서도 그 값(0.85)을 그대로 사용한다. TextRank는 TR(Vi)를 계산한 뒤 높은 순으로 정렬한다.

도 6은 본 발명에 따른 색인구축부의 흐름도로서, 유사 매뉴얼 및 사례 데이터 검색을 위하여 사용자가 입력한 치안정보 매뉴얼 및 사례 학습 데이터를 이용하여 주요 색인 키워드를 추출하고 추출된 주요 키워드를 이용하여 검색엔진에서 통합 색인을 수행한다.

치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기(stem) 주요 키워드를 추출하는 단계; 추출된 주요 키워드를 이용하여 신축 검색(elastic search)엔진에서 통합 색인을 수행하는 단계 및 색인이 성공적으로 수행되었으면 유사 매뉴얼 및 사례 통합 색인을 저장하고 관리하는 단계를 포함한다.

신축 검색(elastic search)엔진은 검색엔진에 하나로서 분산 기반 클러스터로 구성하여 빠른 검색 성능과 다양한 검색 옵션을 사용하기 위한 분산 검색 엔진으로 JSON 기반의 비정형 데이터 분산 검색 및 분석을 지원한다. 신축 검색엔진은 설치와 서버 확장이 매우 편리하며, 실시간 검색 서비스의 지원, 분산 및 병렬처리, 그리고 멀티테넌시 기능을 제공하고 다양한 기능을 플러그인 형태로 구현하여 적용할 수 있고, 클러스터로 구성할 수 있기 때문에 검색 대상의 용량이 증가했을 때 대응하기가 매우 수월한다.

신축 검색엔진은 현재 웹 문서 검색, 소셜 데이터 분석, 쇼핑몰 검색 등에 활용되고 있으며, 빅데이터 분석/처리 및 MSA 환경의 로그 모니터링 등에도 활용되고 있다.

도 7은 본 발명에 따른 패턴 데이터 생성부의 흐름도로서, 치안정보 문서 형식 및 양식 정합성 체크를 위하여 사용자가 입력한 학습 데이터를 이용하여 주요 키워드를 추출하고 문서 형식 및 양식에 대한 패턴 데이터를 생성한다.

치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계는, 사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기 주요 키워드를 추출하는 단계, 문서 형식 및 양식 정합성 체크를 위한 패턴 데이터를 생성하는 단계 및 문제없으면 문서 형식 및 양식 패턴 데이터를 저장하여 관리하는 단계를 포함한다.

도 8은 본 발명에 따른 요약정보 수행부의 흐름도로서, 사용자가 작성하려는 치안정보 보고서의 유사 매뉴얼 및 사례 검색을 수행하기 위하여 요약된 정보의 질의어를 생성한다.

작성하려는 치안정보 문서의 요약을 수행하는 단계는, 사용자가 작성한 초안 보고서 및 문서의 TextRank 알고리즘 기반 요약을 수행하는 단계; 사용자가 작성한 초안 보고서 및 문서의 BERT 기반 생성요약 및 추출요약을 수행하는 단계; TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및 문제없으면 생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함한다.

도 9는 본발명에 따른 통합검색 흐름도로서, 사용자가 치안정보 보고서 및 문서를 작성하기 위한 유사 매뉴얼 및 사례 정보를 검색한다.

치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계는, 요약된 핵심 정보에서 명사, 동사의 줄기 주요 키워드를 추출하는 단계; 추출된 주요키워드를 이용하고 BM25 알고리즘을 이용하여 유사 매뉴얼 및 사례 검색하는 단계 및 문제없으면 유사 매뉴얼 및 사례들을 검색 추출부로 전달하는 단계를 포함한다.

BM25 알고리즘은 검색 시 문서의 가중치를 부여하는 알고리즘으로 TF-IDF의 변형식으로 수식 2와 같다.

[수식 2]

Score(D,Q)는 문서 D에 대한 검색어 Q의 BM25 점수 또는 관련도를 의미하고, Q는 검색어 집합으로 q1, q2, q3 … , qn을 포함하고 있고, f(qi, D)는 문서 D에서 단어 qi의 빈도수이고, k1과 b는 상수이고, |D|는 문서 D의 길이이고, avgdl은 전체 문서의 길이 평균이다. IDF(qi)는 수식 3과 같이 표현된다.

[수식 3]

N은 전체 문서의 개수이고, n(qi)는 검색어 qi가 있는 문서의 개수이다.

TF에서 분자는 단순히 단어 빈도수가 되고, 분모는 단어 빈도수에 (문서 길이/전체문서의 길이 평균)을 더한 값이 되어 문서의 길이가 길수록 분모가 커져 TF 값이 작아진다는 것을 알 수 있다. IDF는 검색어 qi를 갖고 있는 문서의 개수가 많을수록 분자는 작아지고 분모는 커지기 때문에 IDF의 값이 작아진다는 것을 알 수 있다.

A문서와 B문서의 검색어 빈도수가 같을 때, 문서의 길이가 긴 쪽이 낮은 점수값을 가지며 다른 문서에서 잘 나오지 않는 단어 A를 포함한 문서의 단어 A의 빈도수가 높지 않아도 높은 점수값을 가진다.

도 10은 본 발명에 따른 검색 추출부의 흐름도로서, 단어-벡터(Word2vec) 기반으로 검색 결과를 재정렬 후 검증부에 전달한다.

통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터화 집합으로부터 유사도를 계산하여 추출하는 단계는, 전달받은 요약 정보를 이용하여 Word2vec 집합을 구성하는 단계; 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 Word2vec 집합을 구성하는 단계; 두 개의 Word2vec 집합의 Cosine 유사도 계산을 통한 가장 유사한 매뉴얼 및 사례 데이터를 추출하는 단계 및 문제없으면 가장 유사한 매뉴얼 및 사례 데이터를 검증부에 전달하는 단계를 포함한다.

Word2Vec 집합은 분포 가설(distributional hypothesis) 가정하에 표현한 분산 표현의 벡터를 구하는 방법이다. 예를 들어 '강아지'라는 단어는 '귀엽다', '예쁘다', '애교' 등의 단어와 같이 자주 등장한다고 하면 그에 따라 분포 가설에 맞춰 해당 단어들을 벡터화한다면 유사한 값이 나오면 유사도가 클수록 의미적으로 가까운 단어가 된다는 뜻이다.

Word2Vec은 간단한 인공신경망 모형을 기반으로 학습 데이터의 규모가 10억 단어 이상으로 커져도 요구되는 계산량을 낮은 수준으로 유지(computationally cheap)할 수 있어 효율성이 높다. 이는 학습 과정을 쉽게 병렬화하여 짧은 시간 안에 양질의 단어 벡터 표상을 얻을 수 있다. 이처럼 속도를 대폭 개선시킨 Word2Vec 집합은 중심 단어를 보고 어떤 주변 단어가 존재하는지 예측하는 모델인 Skip-Gram이라는 학습 방법에 사용한다.

Cosine 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다. Word2vec 집합으로 구성된 A, B 두 벡터 간의 유사도를 수식 4로 점수를 계산하여 가장 유사한 벡터를 찾을 수 있다.

[수식 4]

도 11은 본 발명에 따른 검증부의 흐름도로서, 사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 문서 양식 및 형식에 대한 자동 검증을 수행한다.

완성된 문서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계는, 사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 주요 키워드를 추출하는 단계; 치안정보 문서형식에 대한 패턴 분석 후 양식 자동 검증을 수행하는 단계 및 문제없으면 최종 문서 및 검증 결과를 사용자 단말에 전달한다.

Claims

치안정보 매뉴얼과 사례 요약 모델을 생성하는 요약모델 구축부;
치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 하는 색인 구축부;
치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터 구축부;
치안정보 초안 보고서의 요약을 수행하는 요약 수행부;
치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 검색하는 통합 검색부;
상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 검색 추출부;
치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 검증부 및
상기 각부를 제어하는 제어부를 포함하되,
상기 치안정보 초안 보고서의 요약을 수행하는 요약 수행부는,
작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하고, 작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하고, TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하고, 생성된 통합 요약 정보를 통합 검색부로 전달하는 것을 특징으로 하는 것을 특징으로 하는 치안정보 문서 작성 가이드 시스템.
제1항의 치안정보 문서 작성 가이드 시스템을 이용한 치안정보 문서 작성 가이드 방법은,
치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계; 치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계;
치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계;
치안정보 초안 보고서의 요약을 수행하는 단계;
치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계;
상기 요약 수행부로부터 전달받은 단어-벡터화 집합과 상기 통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터의 단어-벡터화 집합의 유사도를 계산하여 추출하는 단계 및
치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계를 포함하되,
상기 치안정보 초안 보고서의 요약을 수행하는 단계는,
작성된 초안 보고서 및 문서의 TextRank 알고리즘 기반으로 요약을 수행하는 단계;
작성된 초안 보고서 및 문서의 BERT 기반으로 생성요약 및 추출요약을 수행하는 단계;
TextRank 결과와 BERT 요약 수행 결과를 결합한 통합하여 요약 정보 생성하는 단계 및
생성된 통합 요약 정보를 통합 검색부로 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
제2항에 있어서,
치안정보 매뉴얼과 사례 요약 모델을 생성하여 요약모델을 구축하는 단계는,
입력된 학습 데이터를 이용하여 TextRank 요약 알고리즘을 수행하는 단계;
입력된 학습 데이터를 이용하여 BERT 기반 생성요약 모델과 추출요약 모델을 생성하는 단계 및
생성된 생성요약 모델과 추출요약 모델을 요약 모델 데이터베이스에 저장하여 관리하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
제2항에 있어서,
치안정보 매뉴얼과 사례 데이터로부터 색인 키워드를 추출하여 통합 색인을 구축하는 단계는,
사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기(stem) 주요 키워드를 추출하는 단계;
추출된 주요 키워드를 이용하여 신축 검색(elastic search)엔진에서 통합 색인을 수행하는 단계 및
유사 매뉴얼 및 사례 통합 색인을 저장하고 관리하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
제2항에 있어서,
치안정보 문서 형식 및 양식의 정합성 체크를 위한 패턴 데이터를 구축하는 단계는,
사용자가 입력한 학습 데이터를 이용하여 명사, 동사의 줄기 주요 키워드를 추출하는 단계,
문서 형식 및 양식 정합성 체크를 위한 패턴 데이터를 생성하는 단계 및
문서 형식 및 양식 패턴 데이터를 저장하여 관리하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
삭제
제2항에 있어서,
치안정보 초안 보고서에서 추출된 키워드를 이용하여 요약모델 구축부로부터 유사 매뉴얼 및 사례를 통합 검색하는 단계는,
요약된 핵심 정보에서 명사, 동사의 줄기 주요 키워드를 추출하는 단계;
추출된 주요 키워드를 이용하고 BM25 알고리즘을 이용하여 유사 매뉴얼 및사례를 검색하는 단계 및
유사 매뉴얼 및 사례들을 검색 추출부로 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
제2항에 있어서,
통합 검색부로부터 전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 단어-벡터(Word2vec)화 집합으로부터 유사도를 계산하여 추출하는 단계는,
전달받은 요약 정보를 이용하여 Word2vec 집합을 구성하는 단계;
전달받은 유사 매뉴얼 및 사례 데이터를 이용하여 Word2vec 집합을 구성하는 단계;
상기 두 개의 Word2vec 집합의 Cosine 유사도 계산을 통한 가장 유사한 매뉴얼 및 사례 데이터를 추출하는 단계 및
가장 유사한 매뉴얼 및 사례 데이터를 검증부에 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.
제2항에 있어서,
치안정보 최종 보고서를 패턴 데이터 구축부의 패턴 데이터와 문서 형식 및 양식을 비교하여 정합성을 검증하는 단계는,
사용자가 입력한 최종 완성된 보고서 및 문서를 입력받아 주요 키워드를 추출하는 단계;
치안정보 문서형식에 대한 패턴 분석 후 양식 자동 검증을 수행하는 단계 및
최종 문서 및 검증 결과를 사용자 단말에 전달하는 단계를 포함하는 것을 특징으로 하는 치안정보 문서 작성 가이드 방법.