KR20200062929A

KR20200062929A - 비정형 문서 인명 식별 시스템

Info

Publication number: KR20200062929A
Application number: KR1020180148927A
Authority: KR
Inventors: 염경록; 양중식; 이영준
Original assignee: (주)아이와즈
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-04
Also published as: KR102162850B1

Abstract

본 발명은 인명 사전과 근접어 사전을 이용하여 비정형 대상문서로부터 인명 후보와 근접어 후보를 추출하고, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하는 인명 판별부를 포함하여, 상기 인명 판별부는 제1 임계치에 기반하여 비정형 대상문서에 포함된 인명을 식별하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템을 개시한다.

Description

비정형 문서 인명 식별 시스템{SYSTEM FOR IDENTIFYING HUMAN NAME IN UNSTRUCTURED DOCUMENTS}

본 발명은 비정형 문서 인명 식별 시스템에 관한 것으로서, 더욱 상세하게는 인명 사전과 근접어 사전을 이용하여 비정형 문서에 포함된 인명을 식별하는 기술에 관한 것이다.

종래에는 공공기관들마다 치안과 관련된 정보들을 축척하여 보관하고 있다. 그러나 각각의 공공기관 자체 시스템들마다 치안정보가 분산되어 빅데이터 분석으로 활용하기 어렵고, 치안정보가 비정형 문서의 형태로 존재하여 비정형 문서의 연관정보를 활용하기 어려운 문제점이 있다. 연관정보에는 사건해결 또는 사건예측에 필요한 인명정보를 포함한다.

최근에는 분산된 치안정보를 한 곳에 통합하여 관리하는 추세이고, 범죄 예측을 위해 치안정보에 대한 빅데이터 분석으로 활용하고 있으나, 인명정보를 이용한 빅데이터 분석 기술이 미흡한 실정이다.

한국공개특허 제10-2016-0104223호

상기 문제점을 해결하기 위하여 본 발명은 인명 사전과 근접어 사전을 통해 비정형 대상문서에 포함된 인명을 식별하고, 인명에 출현하는 민감요소를 식별한다.

상기의 해결하고자 하는 과제를 위한 본 발명의 비정형 문서 인명 식별 시스템은, 인명 사전 및 인명과 근접하여 출현하는 단어가 포함된 근접어 사전을 이용하여 비정형 대상문서로부터 인명 후보와 근접어 후보를 추출하고, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하는 인명 판별부를 포함하여, 상기 인명 판별부는 제1 임계치에 기반하여 비정형 대상문서에 포함된 인명을 식별하는 것을 특징으로 한다.

본 발명의 비정형 문서 인명 식별 시스템은, 인명용 한자와 성씨별 인구 조사표에 구성된 성씨를 조합하여 인명 사전을 구축하는 인명 사전 구축부 및 인명 사전의 인명별 근접어를 복수 개의 인명 참조문서로부터 추출하여 근접어 사전을 구축하는 근접어 사전 구축부를 더 포함하는 것을 특징으로 할 수 있다.

상기 인명 사전 구축부는 성씨별 점유율에 기반하여 주요 성씨를 설정하고, 인명용 한자와 주요 성씨의 조합으로 인명을 생성하는 것을 특징으로 할 수 있다.

상기 근접어 사전 구축부는 인명 사전을 이용하여 인명 참조문서로부터 인명 후보를 추출하고, 형태소분석 알고리즘을 통해 인명 후보별 주요 키워드를 추출하며, 단어백터변환 알고리즘을 통해 주요 키워드에서 인명 후보별 근접어를 추출할 수 있다.

상기 인명 판별부는 비정형 대상문서로부터 제1 임계치에 만족된 인명 후보와 관련하여 출현하는 개인정보가 포함된 민감요소를 추출하고, 민감요소의 출현 빈도수가 설정된 제2 임계치에 만족하는지 비교하는 것을 특징으로 할 수 있다.

본 발명은 하나의 비정형 대상문서 또는 복수 개의 비정형 대상문서에 포함된 인명과 민감요소를 리스트화하여 인명 네트워크 추적을 위한 기초 자료를 제공할 수 있고, 인물 네트워크 및 인물 별 사건 추적을 위한 빅데이터 분석으로 활용할 수 있다.

도 1은 본 발명의 실시예에 따른 비정형 문서 인명 식별 시스템을 도시한 블록도이다.
도 2는 도 1의 인명 사전 구축부의 동작 방법을 도시한 흐름도이다.
도 3은 주요 성씨를 도시한 예이다.
도 4는 도 1의 근접어 사전 구축부의 동작 방법을 도시한 흐름도이다.
도 5는 도 1의 인명 판별부의 동작 방법을 도시한 흐름도이다.
도 6은 인명과 민감요소에 대응하는 식별 방법과 비식별화 알고리즘을 도시한 예이다.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.

도 1은 본 발명의 실시예에 따른 비정형 문서 인명 식별 시스템을 도시한 블록도로서, 비정형 문서 인명 식별 시스템(10)은 미리 인명 사전과 근접어 사전을 구축하고, 인명 사전과 근접어 사전을 이용하여 비정형 대상문서에 포함된 인명을 식별하며, 인명에 출현하는 민감요소를 식별한다. 또한 비정형 문서 인명 식별 시스템(10)은 인물 네트워크 및 인물 별 사건 추적을 위한 빅데이터 분석으로 활용하기 위해 하나의 비정형 대상문서 또는 복수 개의 비정형 대상문서에 포함된 인명과 민감요소를 리스트화하여 인명 네트워크 추적을 위한 기초 자료를 생성한다.

비정형 대상문서는 공공기관 관리 시스템에서 제공되는 문서이고, 민감요소는 인명의 개인정보뿐만 아니라 키, 몸무계, 발길이, 아이디, 계좌번호, 주민번호 또는 차량번호를 포함할 수 있다. 개인정보는 휴대폰 번호, 일반 전화번호, 나이 및 이메일을 포함할 수 있다.

비정형 문서 인명 식별 시스템(10)은 사전 구축부(100), 데이터베이스(200) 및 인명 판별부(300)를 포함한다. 사전 구축부(100)는 인명 사전 구축부(110) 및 근접어 사전 구축부(120)를 포함하고, 인명 사전 구축부(110)는 인명용 한자와 성씨별 인구 조사표에 구성된 성씨를 조합하여 인명을 생성하여 인명 사전을 구축하며, 근접어 사전 구축부(120)는 인명 사전의 인명별 근접어를 복수 개의 인명 참조문서로부터 추출하여 근접어 사전을 구축한다. 인명 판별부(300)는 인명 사전과 근접어 사전을 이용하여 인명 후보가 실제 인명인지 식별한다.

인명 사전 구축부(110)는 비정형 대상문서에 포함된 인명 후보를 추출하기 위해 인명 사전을 구축하는 것이고, 근접어 사전 구축부(120)는 인명 후보의 중의성 체크를 위해 근접어 사전을 구축하는 것이다. 중의성은 한 단어나 문장이 두 가지 이상의 뜻으로 해석될 수 있는 현상이나 특성을 의미하고, 본 발명에서는 인명의 뜻과 다른 의미로 해석될 수 있는 현상이나 특성을 의미한다. 근접어는 인명과 근접하여 출현하는 단어이다. 예를 들어 근접어는 주격조사, 직위를 나타내는 동격 명사 및 인명과 어울리는 다양한 품사를 포함하는 단어이다.

인명 판별부(300)는 인명 사전과 근접어 사전을 이용하여 인명 후보가 실제 인명인지 식별하는 것이다. 예를 들어 인명 판별부(300)는 인명 후보가 '강남구'이면, 인명 후보가 지역의 이름인지 또는 사람의 이름인지 인명 후보의 중의성을 체크한다.

도 2는 도 1의 인명 사전 구축부의 동작 방법을 도시한 흐름도로서, 인명 사전 구축부(110)는 대한민국 정부에서 지정한 인명용 한자를 설정하고, 성씨별 점유율에 기반하여 주요 성씨를 설정하며, 인명용 한자와 주요 성씨의 조합으로 인명을 생성하고, 생성된 인명을 인명 사전 DB(210)에 저장한다.

인명용 한자는 사람의 이름에 사용되는 한자로서, 벽자(僻字) 또는 동자이음자(同字異音字)로 인한 혼란을 방지하기 위한 목적으로 지정된 한자들의 목록이고, 성씨별 인구 조사표는 통계청에서 제공될 수 있다. 벽자는 흔히 쓰지 아니하는 까다로운 글자를 의미하고, 동자이음자는 글자가 같으나 음이 다른 것을 의미한다.

도 3은 주요 성씨를 도시한 예로서, 인명 사전 구축부(110)는 성씨별 점유율에 기반하여 주요 성씨 N개를 설정함으로써, 시스템의 처리속도를 향상시킬 수 있고, 색인 소요시간을 단축시킬 수 있다.

인명 사전 구축부(110)는 순우리말 이름 및 영문 한글화 이름을 포함하는 예외이름과 주요 성씨의 조합으로 인명을 생성할 수 있다.

데이터베이스(200)는 인명 사전을 저장하는 인명 사전 DB(210), 근접어 사전을 저장하는 근접어 사전 DB(220), 인명 참조문서를 저장하는 인명 참조문서 DB(230) 및 비정형 문서를 저장하는 비정형 문서 DB(240)를 포함할 수 있다. 인명 참조문서는 공공기관 관리 시스템에서 제공되는 정형 또는 비정형 문서를 포함하거나, 비정형 대상문서에 포함된 인명과 관련된 웹 문서를 포함할 수 있다.

도 4는 도 1의 근접어 사전 구축부의 동작 방법을 도시한 흐름도로서, 근접어 사전 구축부(120)는 인명 사전을 이용하여 하나 이상의 인명 후보를 인명 참조문서로부터 추출하고, 형태소분석 알고리즘을 통해 인명 후보별 주변의 주요 키워드를 추출하며, 단어백터변환 알고리즘을 통해 주요 키워드에서 인명 후보별 근접어를 추출하고, 추출된 근접어를 근접어 사전 DB(220)에 저장한다.

근접어 사전 구축부(120)는 근접어 추출 정확도를 증가시키기 위해 공공기관 관리 시스템에서 제공되는 정형 또는 비정형 문서뿐만 아니라 비정형 대상문서에 포함된 인명과 관련된 웹 문서를 포함하는 인명 참조문서를 수집할 수 있다.

근접어 사전 구축부(120)는 수집된 인명 참조문서의 본문에서 형태소분석 알고리즘을 통해 주요 키워드를 추출한 후, 단어백터변환 알고리즘을 통해 해당 인명과 가까이에 위치하면서 자주 출현하는 근접어를 추출할 수 있다. 근접어는 주격조사, 사람의 직위를 나타내는 명사 및 동격을 나타내는 명사에 해당된다. 예를 들어 근접어 사전 구축부(120)는 인명이 '홍길동'이고, 인명에 가까이 출현하는 것들이 '홍길동은', '홍길동 변호사' 및 '피고인 홍길동'이라고 가정하면, 주격조사 '은', 직위를 나타내는 명사 '변호사' 및 동격 명사 '피고인' 등 근접어를 추출할 수 있다.

도 5는 도 1의 인명 판별부의 동작 방법을 도시한 흐름도로서, 본 발명은 근접어/민감요소의 출현 빈도수를 통해 인명을 식별할 수 있고, 인명 후보와 근접어/민감요소 사이의 거리값을 통해 인명을 식별할 수 있다. 도 5는 근접어/민감요소의 출현 빈도수를 통해 인명을 식별하는 방법을 도시한 흐름도이다.

<근접어/민감요소의 출현 빈도수를 통해 인명을 식별하는 방법>

인명 판별부(300)는 인명 사전을 이용하여 하나 이상의 인명 후보를 비정형 대상문서로부터 추출하고, 근접어 사전을 이용하여 인명 후보의 주변에 출현하는 근접어를 비정형 대상문서로부터 추출하며, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하여 인명 후보의 중의성을 체크한다.

제1 임계치는 인명 후보에 대한 인명 가능성 높낮이를 판별하는데 사용되는 값이고, 근접어의 출현 빈도수와 비교하기 위한 값이다. 근접어의 출현 빈도수가 제1 임계치보다 같거나 크면 인명 가능성이 높고, 작으면 인명 가능성이 낮다. 예를 들어 근접어의 출현 빈도수가 클수록 인명 가능성이 높다. 제1 임계치는 시스템 설정에 따라 근접어의 출현 빈도수와 거리를 다양하게 설정될 수 있다.

인명 판별부(300)는 제1 임계치에 만족된 인명 후보 주변에 출현하는 민감요소를 비정형 대상문서로부터 추출하고, 민감요소의 출현 빈도수가 설정된 제2 임계치에 만족하는지 비교하여 인명을 식별한다.

제2 임계치는 인명 후보에 대한 인명을 판별하는데 사용되는 값이고, 민감요소의 출현 빈도수와 비교하기 위한 값이다. 민감요소의 출현 빈도수가 제2 임계치보다 같거나 크면 인명 가능성이 높고, 작으면 인명 가능성이 낮다. 예를 들어 민감요소의 출현 빈도수가 클수록 인명 가능성이 높다. 제2 임계치는 시스템 설정에 따라 민감요소의 출현 빈도수와 거리를 다양하게 설정될 수 있다.

본 발명은 1차적으로 제1 임계치를 통해 인명 가능성이 높은 인명 후보를 식별하고, 2차적으로 제2 임계치를 통해 인명을 식별함으로써, 인명 식별 정확도를 향상시킬 수 있다.

<인명 후보와 근접어/민감요소 사이의 거리값을 통해 인명을 식별하는 방법>

인명 판별부(300)는 인명 후보와 근접어 사이의 거리값이 설정된 제3 임계치에 만족하는지 비교하여 인명 후보의 중의성을 체크한다. 인명 후보와 근접어 사이의 거리값은 인명 후보와 근접어 사이에 띄어쓰기와 단어의 존재 유무에 따라 값이 설정된다. 예를 들어 인명 후보와 근접어 사이의 거리값은 인명 후보와 근접어 사이에 띄어쓰기와 단어가 존재하지 않으면 1로 설정되고, 한 번의 띄어쓰기와 단어가 존재하면 2로 설정되며, 두 번의 띄어쓰기와 단어가 존재하면 3으로 설정된다.

제3 임계치는 인명 후보에 대한 인명 가능성 높낮이를 판별하는데 사용되는 값이고, 인명 후보와 근접어 사이의 거리값과 비교하기 위한 값이다. 인명 후보와 근접어 사이의 거리값이 제3 임계치보다 같거나 크면 인명 가능성이 낮고, 작으면 인명 가능성이 높다. 예를 들어 인명 후보와 근접어 사이의 거리값이 작을수록 인명 가능성이 높다. 제3 임계치는 시스템 설정에 따라 근접어의 출현 빈도수와 거리를 다양하게 설정될 수 있다.

인명 판별부(300)는 제3 임계치에 만족된 인명 후보 주변에 출현하는 민감요소를 비정형 대상문서로부터 추출하고, 인명 후보와 민감요소 사이의 거리가 설정된 제4 임계치에 만족하는지 비교하여 인명을 식별한다.

제4 임계치는 인명 후보에 대한 인명을 판별하는데 사용되는 값이고, 인명 후보와 민감요소 사이의 거리값과 비교하기 위한 값이다. 인명 후보와 민감요소 사이의 거리값이 제4 임계치보다 같거나 크면 인명 가능성이 낮고, 작으면 인명 가능성이 높다. 예를 들어 인명 후보와 민감요소 사이의 거리값이 작을수록 인명 가능성이 높다. 제2 임계치는 시스템 설정에 따라 민감요소의 출현 빈도수와 거리를 다양하게 설정될 수 있다.

인명 판별부(300)는 패턴과 규칙 기반의 딥러닝을 통해 민감요소를 비정형 대상문서로부터 추출할 수 있다. 예를 들어 휴대폰 번호, 일반 전화번호, 나이, 키, 몸무계, 발길이, 계좌번호, 주민번호 또는 차량번호는 숫자 기반의 패턴을 갖고 있고, 아이디 또는 이메일은 @이라는 메일 형식 기반의 패턴을 갖고 있으며, 이름은 사전 규칙 기반의 패턴을 갖고 있으므로, 인명 판별부(300)는 패턴과 규칙 기반의 딥러닝을 통해 민감요소를 비정형 대상문서로부터 추출할 수 있다.

인명 판별부(300)는 근접어 및 민감요소 등 이중화된 인명 판별을 통해 판별 정확도를 향상시킬 수 있고, 인명대상에 대응하는 민감요소를 함께 식별하여 후술되는 내용과 같이 정보의 활용가치를 향상시킬 수 있다. 또한 인명 판별부(300)는 근접어를 통해 1차 검증된 인명 후보를 대상으로 민감요소를 추출하기 때문에 민감요소 추출을 위한 처리시간을 대폭 감소시킬 수 있다.

비정형 문서 인명 식별 시스템(10)은 비식별화부(400), 태그표출부(500) 및 리스트화부(600)를 더 포함할 수 있다.

비식별화부(400)는 비정형 대상문서에서 인명에 대응하는 민감요소 부분을 비식별화하여 비공개 문서이더라도 민감요소의 유출을 방지할 수 있다. 비식별화는 특정 개인을 식별할 수 없도록 인명과 민감요소의 일부 또는 전부를 변환하는 일련의 과정 또는 방법을 의미한다. 비식별화부(400)는 데이터 필드에서 인명과 민감요소의 일부 또는 전부를 비식별화할 수 있다. 예를 들어 범죄 동기가 유사한 사건들의 민감요소는 빅데이터 분석에서 불필요한 정보이므로, 비식별화부(400)에서 민감요소 부분을 비식별화하는 것이다.

도 6은 인명과 민감요소에 대응하는 식별 방법과 비식별화 알고리즘을 도시한 예로서, 인명 판별부(300)는 패턴과 규칙 기반의 딥러닝을 통해 민감요소를 비정형 대상문서로부터 추출할 수 있고, 비식별화부(400)는 휴리스틱 가명화, 공백과 대체 또는 라운딩 방식으로 인명과 민감요소를 비식별화할 수 있다.

태그표출부(500)는 비정형 대상문서에서 인명과 민감요소 부분에 태그 표출을 제공하여 인명 네트워크 추적 수사에 도움을 줄 수 있다. 예를 들어 수사자는 비정형 대상문서에서 인명과 민감요소 부분에 태그가 표출되어 인물 간의 관계 파악을 쉽게 할 수 있다.

리스트화부(600)는 하나의 비정형 대상문서 또는 복수 개의 비정형 대상문서에 포함된 인명과 민감요소를 리스트화하여 인명 네트워크 추적을 위한 기초 자료를 제공할 수 있다. 예를 들어 수사자는 인명과 민감요소가 리스트화된 내용을 보고 인물 간의 관계 맵 또는 인물 추적을 용이하게 할 수 있다.

10: 비정형 문서 인명 식별 시스템 100: 사전 구축부
110: 인명 사전 구축부 120: 근접어 사전 구축부
200: 데이터베이스 300: 인명 판별부
400: 비식별화부 500: 태그표출부
600: 리스트화부

Claims

인명 사전 및 인명과 근접하여 출현하는 단어가 포함된 근접어 사전을 이용하여 비정형 대상문서로부터 인명 후보와 근접어 후보를 추출하고, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하는 인명 판별부를 포함하여,
상기 인명 판별부는 제1 임계치에 기반하여 비정형 대상문서에 포함된 인명을 식별하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
제1항에 있어서,
인명용 한자와 성씨별 인구 조사표에 구성된 성씨를 조합하여 인명 사전을 구축하는 인명 사전 구축부 및
인명 사전의 인명별 근접어를 복수 개의 인명 참조문서로부터 추출하여 근접어 사전을 구축하는 근접어 사전 구축부를 더 포함하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
제2항에 있어서,
상기 인명 사전 구축부는 성씨별 점유율에 기반하여 주요 성씨를 설정하고, 인명용 한자와 주요 성씨의 조합으로 인명을 생성하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
제2항에 있어서,
상기 근접어 사전 구축부는 인명 사전을 이용하여 인명 참조문서로부터 인명 후보를 추출하고, 형태소분석 알고리즘을 통해 인명 후보별 주요 키워드를 추출하며, 단어백터변환 알고리즘을 통해 주요 키워드에서 인명 후보별 근접어를 추출하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
제1항에 있어서,
상기 인명 판별부는 비정형 대상문서로부터 제1 임계치에 만족된 인명 후보와 관련하여 출현하는 개인정보가 포함된 민감요소를 추출하고, 민감요소의 출현 빈도수가 설정된 제2 임계치에 만족하는지 비교하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.