KR20200062929A - 비정형 문서 인명 식별 시스템 - Google Patents

비정형 문서 인명 식별 시스템 Download PDF

Info

Publication number
KR20200062929A
KR20200062929A KR1020180148927A KR20180148927A KR20200062929A KR 20200062929 A KR20200062929 A KR 20200062929A KR 1020180148927 A KR1020180148927 A KR 1020180148927A KR 20180148927 A KR20180148927 A KR 20180148927A KR 20200062929 A KR20200062929 A KR 20200062929A
Authority
KR
South Korea
Prior art keywords
human
life
dictionary
person
proximity
Prior art date
Application number
KR1020180148927A
Other languages
English (en)
Other versions
KR102162850B1 (ko
Inventor
염경록
양중식
이영준
Original Assignee
(주)아이와즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이와즈 filed Critical (주)아이와즈
Priority to KR1020180148927A priority Critical patent/KR102162850B1/ko
Publication of KR20200062929A publication Critical patent/KR20200062929A/ko
Application granted granted Critical
Publication of KR102162850B1 publication Critical patent/KR102162850B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인명 사전과 근접어 사전을 이용하여 비정형 대상문서로부터 인명 후보와 근접어 후보를 추출하고, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하는 인명 판별부를 포함하여, 상기 인명 판별부는 제1 임계치에 기반하여 비정형 대상문서에 포함된 인명을 식별하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템을 개시한다.

Description

비정형 문서 인명 식별 시스템{SYSTEM FOR IDENTIFYING HUMAN NAME IN UNSTRUCTURED DOCUMENTS}
본 발명은 비정형 문서 인명 식별 시스템에 관한 것으로서, 더욱 상세하게는 인명 사전과 근접어 사전을 이용하여 비정형 문서에 포함된 인명을 식별하는 기술에 관한 것이다.
종래에는 공공기관들마다 치안과 관련된 정보들을 축척하여 보관하고 있다. 그러나 각각의 공공기관 자체 시스템들마다 치안정보가 분산되어 빅데이터 분석으로 활용하기 어렵고, 치안정보가 비정형 문서의 형태로 존재하여 비정형 문서의 연관정보를 활용하기 어려운 문제점이 있다. 연관정보에는 사건해결 또는 사건예측에 필요한 인명정보를 포함한다.
최근에는 분산된 치안정보를 한 곳에 통합하여 관리하는 추세이고, 범죄 예측을 위해 치안정보에 대한 빅데이터 분석으로 활용하고 있으나, 인명정보를 이용한 빅데이터 분석 기술이 미흡한 실정이다.
한국공개특허 제10-2016-0104223호
상기 문제점을 해결하기 위하여 본 발명은 인명 사전과 근접어 사전을 통해 비정형 대상문서에 포함된 인명을 식별하고, 인명에 출현하는 민감요소를 식별한다.
상기의 해결하고자 하는 과제를 위한 본 발명의 비정형 문서 인명 식별 시스템은, 인명 사전 및 인명과 근접하여 출현하는 단어가 포함된 근접어 사전을 이용하여 비정형 대상문서로부터 인명 후보와 근접어 후보를 추출하고, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하는 인명 판별부를 포함하여, 상기 인명 판별부는 제1 임계치에 기반하여 비정형 대상문서에 포함된 인명을 식별하는 것을 특징으로 한다.
본 발명의 비정형 문서 인명 식별 시스템은, 인명용 한자와 성씨별 인구 조사표에 구성된 성씨를 조합하여 인명 사전을 구축하는 인명 사전 구축부 및 인명 사전의 인명별 근접어를 복수 개의 인명 참조문서로부터 추출하여 근접어 사전을 구축하는 근접어 사전 구축부를 더 포함하는 것을 특징으로 할 수 있다.
상기 인명 사전 구축부는 성씨별 점유율에 기반하여 주요 성씨를 설정하고, 인명용 한자와 주요 성씨의 조합으로 인명을 생성하는 것을 특징으로 할 수 있다.
상기 근접어 사전 구축부는 인명 사전을 이용하여 인명 참조문서로부터 인명 후보를 추출하고, 형태소분석 알고리즘을 통해 인명 후보별 주요 키워드를 추출하며, 단어백터변환 알고리즘을 통해 주요 키워드에서 인명 후보별 근접어를 추출할 수 있다.
상기 인명 판별부는 비정형 대상문서로부터 제1 임계치에 만족된 인명 후보와 관련하여 출현하는 개인정보가 포함된 민감요소를 추출하고, 민감요소의 출현 빈도수가 설정된 제2 임계치에 만족하는지 비교하는 것을 특징으로 할 수 있다.
본 발명은 하나의 비정형 대상문서 또는 복수 개의 비정형 대상문서에 포함된 인명과 민감요소를 리스트화하여 인명 네트워크 추적을 위한 기초 자료를 제공할 수 있고, 인물 네트워크 및 인물 별 사건 추적을 위한 빅데이터 분석으로 활용할 수 있다.
도 1은 본 발명의 실시예에 따른 비정형 문서 인명 식별 시스템을 도시한 블록도이다.
도 2는 도 1의 인명 사전 구축부의 동작 방법을 도시한 흐름도이다.
도 3은 주요 성씨를 도시한 예이다.
도 4는 도 1의 근접어 사전 구축부의 동작 방법을 도시한 흐름도이다.
도 5는 도 1의 인명 판별부의 동작 방법을 도시한 흐름도이다.
도 6은 인명과 민감요소에 대응하는 식별 방법과 비식별화 알고리즘을 도시한 예이다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.
도 1은 본 발명의 실시예에 따른 비정형 문서 인명 식별 시스템을 도시한 블록도로서, 비정형 문서 인명 식별 시스템(10)은 미리 인명 사전과 근접어 사전을 구축하고, 인명 사전과 근접어 사전을 이용하여 비정형 대상문서에 포함된 인명을 식별하며, 인명에 출현하는 민감요소를 식별한다. 또한 비정형 문서 인명 식별 시스템(10)은 인물 네트워크 및 인물 별 사건 추적을 위한 빅데이터 분석으로 활용하기 위해 하나의 비정형 대상문서 또는 복수 개의 비정형 대상문서에 포함된 인명과 민감요소를 리스트화하여 인명 네트워크 추적을 위한 기초 자료를 생성한다.
비정형 대상문서는 공공기관 관리 시스템에서 제공되는 문서이고, 민감요소는 인명의 개인정보뿐만 아니라 키, 몸무계, 발길이, 아이디, 계좌번호, 주민번호 또는 차량번호를 포함할 수 있다. 개인정보는 휴대폰 번호, 일반 전화번호, 나이 및 이메일을 포함할 수 있다.
비정형 문서 인명 식별 시스템(10)은 사전 구축부(100), 데이터베이스(200) 및 인명 판별부(300)를 포함한다. 사전 구축부(100)는 인명 사전 구축부(110) 및 근접어 사전 구축부(120)를 포함하고, 인명 사전 구축부(110)는 인명용 한자와 성씨별 인구 조사표에 구성된 성씨를 조합하여 인명을 생성하여 인명 사전을 구축하며, 근접어 사전 구축부(120)는 인명 사전의 인명별 근접어를 복수 개의 인명 참조문서로부터 추출하여 근접어 사전을 구축한다. 인명 판별부(300)는 인명 사전과 근접어 사전을 이용하여 인명 후보가 실제 인명인지 식별한다.
인명 사전 구축부(110)는 비정형 대상문서에 포함된 인명 후보를 추출하기 위해 인명 사전을 구축하는 것이고, 근접어 사전 구축부(120)는 인명 후보의 중의성 체크를 위해 근접어 사전을 구축하는 것이다. 중의성은 한 단어나 문장이 두 가지 이상의 뜻으로 해석될 수 있는 현상이나 특성을 의미하고, 본 발명에서는 인명의 뜻과 다른 의미로 해석될 수 있는 현상이나 특성을 의미한다. 근접어는 인명과 근접하여 출현하는 단어이다. 예를 들어 근접어는 주격조사, 직위를 나타내는 동격 명사 및 인명과 어울리는 다양한 품사를 포함하는 단어이다.
인명 판별부(300)는 인명 사전과 근접어 사전을 이용하여 인명 후보가 실제 인명인지 식별하는 것이다. 예를 들어 인명 판별부(300)는 인명 후보가 '강남구'이면, 인명 후보가 지역의 이름인지 또는 사람의 이름인지 인명 후보의 중의성을 체크한다.
도 2는 도 1의 인명 사전 구축부의 동작 방법을 도시한 흐름도로서, 인명 사전 구축부(110)는 대한민국 정부에서 지정한 인명용 한자를 설정하고, 성씨별 점유율에 기반하여 주요 성씨를 설정하며, 인명용 한자와 주요 성씨의 조합으로 인명을 생성하고, 생성된 인명을 인명 사전 DB(210)에 저장한다.
인명용 한자는 사람의 이름에 사용되는 한자로서, 벽자(僻字) 또는 동자이음자(同字異音字)로 인한 혼란을 방지하기 위한 목적으로 지정된 한자들의 목록이고, 성씨별 인구 조사표는 통계청에서 제공될 수 있다. 벽자는 흔히 쓰지 아니하는 까다로운 글자를 의미하고, 동자이음자는 글자가 같으나 음이 다른 것을 의미한다.
도 3은 주요 성씨를 도시한 예로서, 인명 사전 구축부(110)는 성씨별 점유율에 기반하여 주요 성씨 N개를 설정함으로써, 시스템의 처리속도를 향상시킬 수 있고, 색인 소요시간을 단축시킬 수 있다.
인명 사전 구축부(110)는 순우리말 이름 및 영문 한글화 이름을 포함하는 예외이름과 주요 성씨의 조합으로 인명을 생성할 수 있다.
데이터베이스(200)는 인명 사전을 저장하는 인명 사전 DB(210), 근접어 사전을 저장하는 근접어 사전 DB(220), 인명 참조문서를 저장하는 인명 참조문서 DB(230) 및 비정형 문서를 저장하는 비정형 문서 DB(240)를 포함할 수 있다. 인명 참조문서는 공공기관 관리 시스템에서 제공되는 정형 또는 비정형 문서를 포함하거나, 비정형 대상문서에 포함된 인명과 관련된 웹 문서를 포함할 수 있다.
도 4는 도 1의 근접어 사전 구축부의 동작 방법을 도시한 흐름도로서, 근접어 사전 구축부(120)는 인명 사전을 이용하여 하나 이상의 인명 후보를 인명 참조문서로부터 추출하고, 형태소분석 알고리즘을 통해 인명 후보별 주변의 주요 키워드를 추출하며, 단어백터변환 알고리즘을 통해 주요 키워드에서 인명 후보별 근접어를 추출하고, 추출된 근접어를 근접어 사전 DB(220)에 저장한다.
근접어 사전 구축부(120)는 근접어 추출 정확도를 증가시키기 위해 공공기관 관리 시스템에서 제공되는 정형 또는 비정형 문서뿐만 아니라 비정형 대상문서에 포함된 인명과 관련된 웹 문서를 포함하는 인명 참조문서를 수집할 수 있다.
근접어 사전 구축부(120)는 수집된 인명 참조문서의 본문에서 형태소분석 알고리즘을 통해 주요 키워드를 추출한 후, 단어백터변환 알고리즘을 통해 해당 인명과 가까이에 위치하면서 자주 출현하는 근접어를 추출할 수 있다. 근접어는 주격조사, 사람의 직위를 나타내는 명사 및 동격을 나타내는 명사에 해당된다. 예를 들어 근접어 사전 구축부(120)는 인명이 '홍길동'이고, 인명에 가까이 출현하는 것들이 '홍길동은', '홍길동 변호사' 및 '피고인 홍길동'이라고 가정하면, 주격조사 '은', 직위를 나타내는 명사 '변호사' 및 동격 명사 '피고인' 등 근접어를 추출할 수 있다.
도 5는 도 1의 인명 판별부의 동작 방법을 도시한 흐름도로서, 본 발명은 근접어/민감요소의 출현 빈도수를 통해 인명을 식별할 수 있고, 인명 후보와 근접어/민감요소 사이의 거리값을 통해 인명을 식별할 수 있다. 도 5는 근접어/민감요소의 출현 빈도수를 통해 인명을 식별하는 방법을 도시한 흐름도이다.
<근접어/민감요소의 출현 빈도수를 통해 인명을 식별하는 방법>
인명 판별부(300)는 인명 사전을 이용하여 하나 이상의 인명 후보를 비정형 대상문서로부터 추출하고, 근접어 사전을 이용하여 인명 후보의 주변에 출현하는 근접어를 비정형 대상문서로부터 추출하며, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하여 인명 후보의 중의성을 체크한다.
제1 임계치는 인명 후보에 대한 인명 가능성 높낮이를 판별하는데 사용되는 값이고, 근접어의 출현 빈도수와 비교하기 위한 값이다. 근접어의 출현 빈도수가 제1 임계치보다 같거나 크면 인명 가능성이 높고, 작으면 인명 가능성이 낮다. 예를 들어 근접어의 출현 빈도수가 클수록 인명 가능성이 높다. 제1 임계치는 시스템 설정에 따라 근접어의 출현 빈도수와 거리를 다양하게 설정될 수 있다.
인명 판별부(300)는 제1 임계치에 만족된 인명 후보 주변에 출현하는 민감요소를 비정형 대상문서로부터 추출하고, 민감요소의 출현 빈도수가 설정된 제2 임계치에 만족하는지 비교하여 인명을 식별한다.
제2 임계치는 인명 후보에 대한 인명을 판별하는데 사용되는 값이고, 민감요소의 출현 빈도수와 비교하기 위한 값이다. 민감요소의 출현 빈도수가 제2 임계치보다 같거나 크면 인명 가능성이 높고, 작으면 인명 가능성이 낮다. 예를 들어 민감요소의 출현 빈도수가 클수록 인명 가능성이 높다. 제2 임계치는 시스템 설정에 따라 민감요소의 출현 빈도수와 거리를 다양하게 설정될 수 있다.
본 발명은 1차적으로 제1 임계치를 통해 인명 가능성이 높은 인명 후보를 식별하고, 2차적으로 제2 임계치를 통해 인명을 식별함으로써, 인명 식별 정확도를 향상시킬 수 있다.
<인명 후보와 근접어/민감요소 사이의 거리값을 통해 인명을 식별하는 방법>
인명 판별부(300)는 인명 후보와 근접어 사이의 거리값이 설정된 제3 임계치에 만족하는지 비교하여 인명 후보의 중의성을 체크한다. 인명 후보와 근접어 사이의 거리값은 인명 후보와 근접어 사이에 띄어쓰기와 단어의 존재 유무에 따라 값이 설정된다. 예를 들어 인명 후보와 근접어 사이의 거리값은 인명 후보와 근접어 사이에 띄어쓰기와 단어가 존재하지 않으면 1로 설정되고, 한 번의 띄어쓰기와 단어가 존재하면 2로 설정되며, 두 번의 띄어쓰기와 단어가 존재하면 3으로 설정된다.
제3 임계치는 인명 후보에 대한 인명 가능성 높낮이를 판별하는데 사용되는 값이고, 인명 후보와 근접어 사이의 거리값과 비교하기 위한 값이다. 인명 후보와 근접어 사이의 거리값이 제3 임계치보다 같거나 크면 인명 가능성이 낮고, 작으면 인명 가능성이 높다. 예를 들어 인명 후보와 근접어 사이의 거리값이 작을수록 인명 가능성이 높다. 제3 임계치는 시스템 설정에 따라 근접어의 출현 빈도수와 거리를 다양하게 설정될 수 있다.
인명 판별부(300)는 제3 임계치에 만족된 인명 후보 주변에 출현하는 민감요소를 비정형 대상문서로부터 추출하고, 인명 후보와 민감요소 사이의 거리가 설정된 제4 임계치에 만족하는지 비교하여 인명을 식별한다.
제4 임계치는 인명 후보에 대한 인명을 판별하는데 사용되는 값이고, 인명 후보와 민감요소 사이의 거리값과 비교하기 위한 값이다. 인명 후보와 민감요소 사이의 거리값이 제4 임계치보다 같거나 크면 인명 가능성이 낮고, 작으면 인명 가능성이 높다. 예를 들어 인명 후보와 민감요소 사이의 거리값이 작을수록 인명 가능성이 높다. 제2 임계치는 시스템 설정에 따라 민감요소의 출현 빈도수와 거리를 다양하게 설정될 수 있다.
인명 판별부(300)는 패턴과 규칙 기반의 딥러닝을 통해 민감요소를 비정형 대상문서로부터 추출할 수 있다. 예를 들어 휴대폰 번호, 일반 전화번호, 나이, 키, 몸무계, 발길이, 계좌번호, 주민번호 또는 차량번호는 숫자 기반의 패턴을 갖고 있고, 아이디 또는 이메일은 @이라는 메일 형식 기반의 패턴을 갖고 있으며, 이름은 사전 규칙 기반의 패턴을 갖고 있으므로, 인명 판별부(300)는 패턴과 규칙 기반의 딥러닝을 통해 민감요소를 비정형 대상문서로부터 추출할 수 있다.
인명 판별부(300)는 근접어 및 민감요소 등 이중화된 인명 판별을 통해 판별 정확도를 향상시킬 수 있고, 인명대상에 대응하는 민감요소를 함께 식별하여 후술되는 내용과 같이 정보의 활용가치를 향상시킬 수 있다. 또한 인명 판별부(300)는 근접어를 통해 1차 검증된 인명 후보를 대상으로 민감요소를 추출하기 때문에 민감요소 추출을 위한 처리시간을 대폭 감소시킬 수 있다.
비정형 문서 인명 식별 시스템(10)은 비식별화부(400), 태그표출부(500) 및 리스트화부(600)를 더 포함할 수 있다.
비식별화부(400)는 비정형 대상문서에서 인명에 대응하는 민감요소 부분을 비식별화하여 비공개 문서이더라도 민감요소의 유출을 방지할 수 있다. 비식별화는 특정 개인을 식별할 수 없도록 인명과 민감요소의 일부 또는 전부를 변환하는 일련의 과정 또는 방법을 의미한다. 비식별화부(400)는 데이터 필드에서 인명과 민감요소의 일부 또는 전부를 비식별화할 수 있다. 예를 들어 범죄 동기가 유사한 사건들의 민감요소는 빅데이터 분석에서 불필요한 정보이므로, 비식별화부(400)에서 민감요소 부분을 비식별화하는 것이다.
도 6은 인명과 민감요소에 대응하는 식별 방법과 비식별화 알고리즘을 도시한 예로서, 인명 판별부(300)는 패턴과 규칙 기반의 딥러닝을 통해 민감요소를 비정형 대상문서로부터 추출할 수 있고, 비식별화부(400)는 휴리스틱 가명화, 공백과 대체 또는 라운딩 방식으로 인명과 민감요소를 비식별화할 수 있다.
태그표출부(500)는 비정형 대상문서에서 인명과 민감요소 부분에 태그 표출을 제공하여 인명 네트워크 추적 수사에 도움을 줄 수 있다. 예를 들어 수사자는 비정형 대상문서에서 인명과 민감요소 부분에 태그가 표출되어 인물 간의 관계 파악을 쉽게 할 수 있다.
리스트화부(600)는 하나의 비정형 대상문서 또는 복수 개의 비정형 대상문서에 포함된 인명과 민감요소를 리스트화하여 인명 네트워크 추적을 위한 기초 자료를 제공할 수 있다. 예를 들어 수사자는 인명과 민감요소가 리스트화된 내용을 보고 인물 간의 관계 맵 또는 인물 추적을 용이하게 할 수 있다.
10: 비정형 문서 인명 식별 시스템 100: 사전 구축부
110: 인명 사전 구축부 120: 근접어 사전 구축부
200: 데이터베이스 300: 인명 판별부
400: 비식별화부 500: 태그표출부
600: 리스트화부

Claims (5)

  1. 인명 사전 및 인명과 근접하여 출현하는 단어가 포함된 근접어 사전을 이용하여 비정형 대상문서로부터 인명 후보와 근접어 후보를 추출하고, 근접어의 출현 빈도수가 설정된 제1 임계치에 만족하는지 비교하는 인명 판별부를 포함하여,
    상기 인명 판별부는 제1 임계치에 기반하여 비정형 대상문서에 포함된 인명을 식별하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
  2. 제1항에 있어서,
    인명용 한자와 성씨별 인구 조사표에 구성된 성씨를 조합하여 인명 사전을 구축하는 인명 사전 구축부 및
    인명 사전의 인명별 근접어를 복수 개의 인명 참조문서로부터 추출하여 근접어 사전을 구축하는 근접어 사전 구축부를 더 포함하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
  3. 제2항에 있어서,
    상기 인명 사전 구축부는 성씨별 점유율에 기반하여 주요 성씨를 설정하고, 인명용 한자와 주요 성씨의 조합으로 인명을 생성하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
  4. 제2항에 있어서,
    상기 근접어 사전 구축부는 인명 사전을 이용하여 인명 참조문서로부터 인명 후보를 추출하고, 형태소분석 알고리즘을 통해 인명 후보별 주요 키워드를 추출하며, 단어백터변환 알고리즘을 통해 주요 키워드에서 인명 후보별 근접어를 추출하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
  5. 제1항에 있어서,
    상기 인명 판별부는 비정형 대상문서로부터 제1 임계치에 만족된 인명 후보와 관련하여 출현하는 개인정보가 포함된 민감요소를 추출하고, 민감요소의 출현 빈도수가 설정된 제2 임계치에 만족하는지 비교하는 것을 특징으로 하는 비정형 문서 인명 식별 시스템.
KR1020180148927A 2018-11-27 2018-11-27 비정형 문서 인명 식별 시스템 KR102162850B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180148927A KR102162850B1 (ko) 2018-11-27 2018-11-27 비정형 문서 인명 식별 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180148927A KR102162850B1 (ko) 2018-11-27 2018-11-27 비정형 문서 인명 식별 시스템

Publications (2)

Publication Number Publication Date
KR20200062929A true KR20200062929A (ko) 2020-06-04
KR102162850B1 KR102162850B1 (ko) 2020-10-07

Family

ID=71080736

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180148927A KR102162850B1 (ko) 2018-11-27 2018-11-27 비정형 문서 인명 식별 시스템

Country Status (1)

Country Link
KR (1) KR102162850B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128205A (zh) * 2021-05-12 2021-07-16 北京奇艺世纪科技有限公司 一种剧本信息处理方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050054706A (ko) * 2003-12-05 2005-06-10 엘지전자 주식회사 음성인식을 위한 어휘 트리 구축 방법
KR20070059881A (ko) * 2005-12-06 2007-06-12 한국전자통신연구원 의미공기정보 지식베이스 구축 방법 및 장치
KR20120124629A (ko) * 2011-05-04 2012-11-14 아주대학교산학협력단 규칙기반 개체 인식을 이용한 스케줄 자동 관리 시스템 및 방법
KR101478016B1 (ko) * 2013-09-04 2015-01-02 한국과학기술정보연구원 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
KR101507521B1 (ko) * 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
KR20160104223A (ko) 2015-02-26 2016-09-05 광운대학교 산학협력단 빅데이터 기반의 범죄 패턴 분석을 이용한 범죄 예측 방법 및 범죄 예측 시스템
KR20160112248A (ko) * 2015-03-18 2016-09-28 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050054706A (ko) * 2003-12-05 2005-06-10 엘지전자 주식회사 음성인식을 위한 어휘 트리 구축 방법
KR20070059881A (ko) * 2005-12-06 2007-06-12 한국전자통신연구원 의미공기정보 지식베이스 구축 방법 및 장치
KR20120124629A (ko) * 2011-05-04 2012-11-14 아주대학교산학협력단 규칙기반 개체 인식을 이용한 스케줄 자동 관리 시스템 및 방법
KR101478016B1 (ko) * 2013-09-04 2015-01-02 한국과학기술정보연구원 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
KR101507521B1 (ko) * 2014-03-31 2015-03-31 주식회사 솔샘넷 IPC 자동 분류 방법 및 F-Term 추천 방법과 그 장치
KR20160104223A (ko) 2015-02-26 2016-09-05 광운대학교 산학협력단 빅데이터 기반의 범죄 패턴 분석을 이용한 범죄 예측 방법 및 범죄 예측 시스템
KR20160112248A (ko) * 2015-03-18 2016-09-28 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128205A (zh) * 2021-05-12 2021-07-16 北京奇艺世纪科技有限公司 一种剧本信息处理方法、装置、电子设备及存储介质
CN113128205B (zh) * 2021-05-12 2023-07-18 北京奇艺世纪科技有限公司 一种剧本信息处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR102162850B1 (ko) 2020-10-07

Similar Documents

Publication Publication Date Title
Watanabe et al. Theory-driven analysis of large corpora: Semisupervised topic classification of the UN speeches
Mossie et al. Vulnerable community identification using hate speech detection on social media
Papakyriakopoulos et al. Bias in word embeddings
Husain et al. A survey of offensive language detection for the Arabic language
US20200250139A1 (en) Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction
US20190057310A1 (en) Expert knowledge platform
US8078551B2 (en) Decision-support expert system and methods for real-time exploitation of documents in non-english languages
Torregrosa et al. Linguistic analysis of pro-ISIS users on Twitter
Potts et al. Healthcare professionals' online use of violence metaphors for care at the end of life in the US: a corpus-based comparison with the UK
Bhui The place of ‘race’in understanding immigration control and the detention of foreign nationals
US10839153B2 (en) Unconscious bias detection
US20090112892A1 (en) System and method for automatically summarizing fine-grained opinions in digital text
US20060112091A1 (en) Method and system for obtaining collection of variants of search query subjects
Hirst et al. Changes in style in authors with Alzheimer's disease
CN110826316A (zh) 一种应用于裁判文书中敏感信息的识别方法
Moradi et al. A hybrid approach for Persian named entity recognition
Ahmadi et al. A hybrid method for Persian named entity recognition
Cemri et al. Unsupervised simplification of legal texts
Almond et al. Predicting the criminal records of male-on-female UK homicide offenders from crime scene behaviors
Nini Corpus analysis in forensic linguistics
Zeng et al. Corpus-based metaphorical framing analysis: WAR metaphors in Hong Kong public discourse
KR102162850B1 (ko) 비정형 문서 인명 식별 시스템
Salah et al. Arabic rule-based named entity recognition systems progress and challenges
Fetahi et al. Automatic Hate Speech Detection using Natural Language Processing: A state-of-the-art literature review
Miller Terrorist violence and the enrollment of psychology in predicting Muslim extremism: critical terrorism studies meets critical algorithm studies

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant