KR20150050140A - 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치 - Google Patents

코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치 Download PDF

Info

Publication number
KR20150050140A
KR20150050140A KR1020130131596A KR20130131596A KR20150050140A KR 20150050140 A KR20150050140 A KR 20150050140A KR 1020130131596 A KR1020130131596 A KR 1020130131596A KR 20130131596 A KR20130131596 A KR 20130131596A KR 20150050140 A KR20150050140 A KR 20150050140A
Authority
KR
South Korea
Prior art keywords
name
dictionary
learning model
snippet
entity name
Prior art date
Application number
KR1020130131596A
Other languages
English (en)
Other versions
KR101727139B1 (ko
Inventor
조진만
김석현
최대선
김수형
김승현
노종혁
조상래
조영섭
진승헌
조현숙
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130131596A priority Critical patent/KR101727139B1/ko
Publication of KR20150050140A publication Critical patent/KR20150050140A/ko
Application granted granted Critical
Publication of KR101727139B1 publication Critical patent/KR101727139B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

비정형 개인정보 탐지 부분에 특화하여 탐지 정확도가 높고, 무거운 형태소 분석 기법을 적용하지 않아 속도가 빠르고, 최소한의 사전과 필요시 사전도 웹 검색을 통해 사전을 구축하여 최신 정보를 반영할 수 있는 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치를 제시한다. 제시된 개체명 인식 방법은 비정형 개인정보를 수록한 개체명 사전을 구축하는 단계, 개체명 사전의 표제어 및 사용자 입력 단어중에서 하나 이상을 검색대상으로 하는 개체명 검색 결과를 확인하여 데이터 특성별로 하나 이상의 스니펫을 추출하는 단계, 추출한 스니펫에 해당 개체명을 태깅하여 개체명 학습 데이터를 확보하는 단계, 확보된 개체명 학습 데이터를 기반으로 비정형 개인정보 개체명 인식을 위한 학습 모델을 결정하는 단계, 및 대상 문서를 입력받게 됨에 따라 개체명 사전과 결정된 학습 모델을 이용하여 해당 대상 문서 내에 있는 비정형 개인정보인 개체명을 자동으로 탐지하여 태깅한 문서를 출력하는 단계를 포함한다.

Description

코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치{Method for automactically constructing corpus, method and apparatus for recognizing named entity using the same}
본 발명은 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치에 관한 것으로, 보다 상세하게는 비정형 개인정보 탐지를 위한 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치에 관한 것이다.
개인정보보호법의 발효에 따라 법령에서 정한 고유식별정보와 민감정보에 대한 조치가 필요하게 되었다. 다만, 법령에서 다루지 않은 개인 일반정보도 여러 정보가 모아지면 개인을 특정할 수 있는 가능성이 높아지게 된다. 그럴 가능성이 있는 개인정보로서, 이름, 거주지역, 직장, 직업, 직위, 출신학교 등이 있다. 이들 정보는 고유식별정보와 달리 형식이 상이하여 비정형 정보(또는 비정형 개인정보)로 분류된다. 현재까지 비정형 정보에 대한 탐지는 이루어지지 않고 있다.
1990년대에 들어, 컴퓨터 기술의 발달로, 언어학적 접근을 통해 자동번역을 위한 개체명 인식 기법들이 제시되고 있다.
관련 선행기술로는, 학습데이터 생성을 위해 원시 코퍼스를 적용하여 반복 학습을 통해 학습 데이터를 수정해 가는 기법이, 대한민국등록특허 제10-0750886호(학습 데이터 구축 장치 및 방법)에 제시되었다.
다른 관련 선행기술로는, 형태소 분석을 통해 통계적 품사 확률을 구하고 다양한 사전을 활용하여 태깅하는 기법이, 대한민국등록특허 제10-0784730호(태깅된 도메인 코퍼스 없이 새로운 도메인에 적용가능한 통계적 HMM 품사 태깅 장치 및 방법)에 제시되었다.
또다른 관련 선행기술로는, 웹 검색을 통해 특정 단어와 연결되는 감성 단어들을 추론하는 기법이, 대한민국공개특허공보 제10-2012-0047802호(지능형 감성 추론장치 및 그 추론방법)에 제시되었다.
이러한 기법들은 방대한 사전을 사전에 구축하여야 하거나 많은 처리속도가 필요한 무거운 형태소 분석 기법을 함께 사용하고 있다. 또한, 범용 처리 기법으로서, 특정 분야에 특화하기 위해서는 추가적인 작업들이 필요하고 간략한 처리에 한계가 있다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 비정형 개인정보 탐지 부분에 특화하여 탐지 정확도가 높고, 무거운 형태소 분석 기법을 적용하지 않아 속도가 빠르고, 최소한의 사전과 필요시 사전도 웹 검색을 통해 사전을 구축하여 최신 정보를 반영할 수 있는 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치를 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 코퍼스 자동 구축 방법은, 미리 구축된 개체명 사전에서 추출한 표제어 및 사용자 입력 단어중에서 하나 이상을 검색대상으로 하는 개체명 검색 결과를 확인하여 데이터 특성별로 하나 이상의 스니펫을 추출하는 단계; 및 상기 추출한 스니펫에 해당 개체명을 태깅하여 개체명 학습 데이터를 확보하는 단계;를 포함한다.
바람직하게는, 상기 개체명 학습 데이터를 확보하는 단계는 상기 하나 이상의 스니펫을 추출하는 단계에서 추출된 하나 이상의 스니펫에서 오류가 없는 스니펫에 해당 개체명을 태깅할 수 있다.
바람직하게는, 상기 하나 이상의 스니펫을 추출하는 단계는, 상기 미리 구축된 개체명 사전에 수록된 표제어를 기반으로 검색 엔진을 통해 해당 스니펫을 확보하는 단계; 및 상기 사용자 입력 단어를 키워드로 하여 검색 엔진을 통해 해당 스니펫을 확보하는 단계;를 포함할 수 있다.
바람직하게는, 상기 개체명 사전은 기업명 리스트를 기반으로 확보된 사전 표제어, 및 웹 포털사이트의 검색 순위상 단어를 기반으로 확보한 사전 표제어를 수록할 수 있다.
한편, 본 발명의 바람직한 실시양태에 따른 개체명 인식 방법은, 비정형 개인정보를 수록한 개체명 사전을 구축하는 단계; 상기 개체명 사전의 표제어 및 사용자 입력 단어중에서 하나 이상을 검색대상으로 하는 개체명 검색 결과를 확인하여 데이터 특성별로 하나 이상의 스니펫을 추출하는 단계; 상기 추출한 스니펫에 해당 개체명을 태깅하여 개체명 학습 데이터를 확보하는 단계; 상기 확보된 개체명 학습 데이터를 기반으로 비정형 개인정보 개체명 인식을 위한 학습 모델을 결정하는 단계; 및 대상 문서를 입력받게 됨에 따라 상기 개체명 사전과 상기 결정된 학습 모델을 이용하여 해당 대상 문서 내에 있는 비정형 개인정보인 개체명을 자동으로 탐지하여 태깅한 문서를 출력하는 단계;를 포함한다.
바람직하게는, 상기 학습 모델을 결정하는 단계는, 상기 확보된 개체명 학습 데이터를 복수의 학습 모델에 적용하여 각각의 학습 모델별 신뢰 점수를 확인하는 단계; 및 상기 각각의 학습 모델별 신뢰 점수를 확인하는 단계의 결과를 근거로 어느 한 학습 모델을 비정형 개인정보 개체명 인식을 위한 학습 모델로 결정하는 단계;를 포함할 수 있다.
바람직하게는, 상기 복수의 학습 모델은 CRF 학습 모델, SVM 학습 모델, 및 HMM 학습 모델을 포함할 수 있다.
바람직하게는, 상기 태깅한 문서를 출력하는 단계는, 상기 대상 문서를 입력받게 됨에 따라 상기 개체명 사전의 표제어들과 상기 학습 모델을 결정하는 단계에 의해 결정된 상기 학습 모델을 근거로 상기 대상 문서에서 개체명 검색을 수행하는 단계; 및 상기 검색된 개체명들을 태깅하여 개체명 태깅 문서를 생성하여 출력하는 단계;를 포함할 수 있다.
한편, 본 발명의 바람직한 실시양태에 따른 개체명 인식 장치는, 비정형 개인정보를 수록한 개체명 사전을 구축하는 개체명 사전 구축부; 상기 개체명 사전의 표제어 및 사용자 입력 단어중에서 하나 이상을 검색대상으로 하는 개체명 검색 결과를 확인하여 데이터 특성별로 하나 이상의 스니펫을 추출하고, 상기 추출한 스니펫에 해당 개체명을 태깅하여 개체명 학습 데이터를 확보하는 학습 데이터 구축부; 상기 확보된 개체명 학습 데이터를 기반으로 비정형 개인정보 개체명 인식을 위한 학습 모델을 결정하는 학습 모델 결정부; 및 대상 문서를 입력받게 됨에 따라 상기 개체명 사전과 상기 결정된 학습 모델을 이용하여 해당 대상 문서 내에 있는 비정형 개인정보인 개체명을 자동으로 탐지하여 태깅한 문서를 출력하는 개체명 인식부;를 포함한다.
이러한 구성의 본 발명에 따르면, 필수적인 규모 수준의 사전만 구축하고 검색 엔진 또는 웹 포털사이트의 자료들을 활용하여 추가 사전 구축이 가능하다.
사전 구축 없이도 사용자 입력을 통해 키워드(keyword)로 활용하여 이후 작업 진행이 가능하다. 비정형 개인정보의 종류가 결정된 경우에도 해당 종류를 활용하여 웹 검색 등을 통해 관련 단어를 확보하여 사전을 구축할 수 있다.
사전이 구축되었거나 키워드가 확보된 경우 이를 다양한 범용 검색엔진을 활용하여 검색을 수행하고 그 결과로 나온 스니펫(snippet: 결과로 제시된 문장들 각각을 의미)을 활용하여 학습 데이터 확보가 가능하다.
확보된 학습 데이터에 해당 검색 키워드를 중심으로 자동 태깅하는 것이 가능하다.
CRF(Conditional Random Fields), SVM(Supported Vector Machine), HMM(Hidden Markov Model) 등 다양한 통계 기법을 적용하여 학습 모델 구축이 가능하다. 특정 정보에 대한 최적의 학습 모델 구축이 필요한 경우, 다양한 통계 모델에 따라 학습 모델을 구축하고 각각의 신뢰점수를 비교하여 최적의 통계 기법을 결정하여 학습 모델로 지정할 수 있다.
학습 모델이 구축된 이후, 대상 문서가 입력되면 개체명 인식을 수행하여, 개체명이 태깅된 문서를 출력하는 것이 가능하다.
도 1은 본 발명의 실시예에 따른 개체명 인식 장치의 구성도이다.
도 2는 도 1에 도시된 개체명 인식부의 내부 구성도이다.
도 3은 본 발명의 실시예에 따른 개체명 인식 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에서 개체명 사전을 구축하는 과정을 보다 상세하게 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 코퍼스 자동 구축 방법을 설명하기 위한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 실시예에 따른 개체명 인식 장치의 구성도이다.
본 발명의 실시예에 따른 개체명 인식 장치는 개체명 사전 구축부(10), 학습 데이터 구축부(12), 학습 모델 결정부(14), 개체명 인식부(16), 및 검색부(18)를 포함한다.
개체명 사전 구축부(10)는 비정형 개인정보 개체명 사전을 구축한다. 구축된 개체명 사전이 개체명 사전 구축부(10)에 포함된다고 볼 수 있다. 바람직하게, 개체명 사전 구축부(10)는 입수한 관련 정보 파일(직장의 경우, 상장기업명 리스트 등)을 기반으로 사전 표제어를 확보할 수 있다. 한편, 개체명 사전 구축부(10)는 웹 포털사이트의 검색 순위상 단어(사람 이름의 경우, 인물 검색 순위)를 주기적으로 수집하여 이를 기반으로 사전 표제어를 확보할 수 있다.
학습 데이터 구축부(12)는 개체명 사전 구축부(10)에 의해 구축된 개체명 사전에 수록된 단어(표제어 포함) 또는 사용자 입력 단어를 키워드로 하여 검색부(18)를 통해 자동으로 학습 데이터를 추출하고 태깅하여 학습 데이터를 구축한다. 여기서, 검색부(18)는 하나 이상의 검색엔진을 이용할 수 있다. 도 1에서는 학습 데이터 구축부(12)와 검색부(18)를 각기 별개의 구성요소로 하였으나, 검색부(18)가 학습 데이터 구축부(12)에 포함되는 것으로 하여도 무방하다.
학습 데이터 구축부(12)는 학습 데이터를 추출함에 있어서, 개체명 사전 구축부(10)에 의해 구축된 개체명 사전에 수록된 표제어를 기반으로 검색 엔진을 통해 해당 표제어 스니펫(snippet)을 확보할 수 있다. 또한, 학습 데이터 구축부(12)는 사용자 입력 단어를 키워드(keyword)로 하여 검색 엔진을 통해 해당 스니펫(snippet)을 확보할 수 있다. 검색부(18)는 사용자가 입력한 질의에 따른 검색 결과를 제목과 문서의 요약문으로 보여줄 수 있는데, 이렇게 제시되는 요약문(문장을 포함)을 스니펫(snippet)이라고 할 수 있다.
또한, 학습 데이터 구축부(12)는 태깅함에 있어서, 자동으로 추출된 학습 데이터에서 해당 표제어 또는 키워드를 찾아 자동으로 태깅한다.
학습 모델 결정부(14)는 학습 데이터 구축부(12)에 의해 구축된 학습 데이터에 적용하여 활용 가능한 통계적 학습 모델을 결정한다. 바람직하게, 학습 모델 결정부(14)는 학습 데이터 구축부(12)에 의해 구축된 학습 데이터에 다양한 통계적 학습 모델(예컨대, CRF(Conditional Random Fields), SVM(Supported Vector Machine), HMM(Hidden Markov Model) 등)을 적용하여 각각의 신뢰 점수를 구하고 이중에서 적절한 학습 모델을 자동으로 결정한다. 예컨대, 학습 모델 결정부(14)는 신뢰 점수가 가장 높은 통계적 학습 모델을 최종의 학습 모델(즉, 비정형 개인정보 개체명 인식을 위한 학습 모델)로 결정할 수 있다. 결정된 최종의 학습 모델은 개체명 인식부(16)에서 사용된다.
개체명 인식부(16)는 대상 문서(웹 페이지, 일반 문서, 트위터 멘션, 페이스 북 등의 문장 포함)를 입력받아 개체명 사전과 결정된 학습 모델을 이용하여 해당 대상 문서 내에 있는 비정형 개인정보인 개체명을 자동으로 탐지하여 태깅한 문서를 출력한다.
도 2는 도 1에 도시된 개체명 인식부(16)의 내부 구성도이다.
개체명 인식부(16)는 개체명 검색부(30) 및 개체명 태깅부(32)를 포함한다. 물론, 도 2에서는 개체명 사전(5)이 개체명 인식부(16)에 포함되는 것처럼 도시하였으나, 실제로는 개체명 사전(5)은 개체명 인식부(16)와는 독립적으로 배치되는 것으로 이해하면 된다.
개체명 검색부(30)는 대상 문서(22)를 입력받게 됨에 따라 개체명 사전(5)의 표제어들과 해당 개체명에 적합하게 결정된 통계적 학습 모델을 적용하여 대상 문서(22)에서 개체명 검색을 수행한다.
개체명 태깅부(32)는 개체명 검색부(30)에 의해 검색된 개체명들을 태깅하여 개체명 태깅 문서(24)를 생성하여 출력한다.
도 3은 본 발명의 실시예에 따른 개체명 인식 방법을 설명하기 위한 도면으로서, 비정형 개인정보 탐지를 위한 개체명 인식 기법의 전반적인 흐름을 예시한 개요도이다.
개체명 인식 동작을 위해서는, S1에서 미리 개체명 사전이 구축되어 있어야 한다. 개체명 사전 구축 동작은 개체명 사전 구축부(10)에서 행해진다.
이어, S2에서 개체명 사전을 통해 또는 사용자 선택에 의해 학습 데이터가 수집 및 구축된다. 학습 데이터 구축 동작은 학습 데이터 구축부(12)에서 행해진다.
개체명 사전 구축 및 학습데이터 수집/구축을 위해서는 상황에 따라 검색엔진을 통한 검색(S3)이 선행되고 학습 모델까지 결정이 완료되어야 한다. 학습 모델 결정 동작은 학습 모델 결정부(14)에서 행해진다.
이와 같이, 미리 개체명 사전, 학습데이터, 및 학습 모델이 구축되어 있는 상태에서, 대상 문서가 개체명 인식기(도 1의 개체명 인식부(16)가 될 수 있음)에 입력되면 개체명 인식기는 개체명 사전과 결정된 학습 모델을 활용하여 대상 문서내의 비정형 개인정보들을 탐지한다. 그리고, 개체명 인식기는 탐지한 비정형 개인정보를 태깅하여 개체명 태깅 문서를 생성하여 출력한다(S4).
도 4는 본 발명의 실시예에서 개체명 사전을 구축하는 과정을 보다 상세하게 설명하기 위한 흐름도이다. 이하의 개체명 사전 구축 동작은 개체명 사전 구축부(10)에서 행해지는 것으로 이해하면 된다.
개체명 사전(5)을 구축하기 위해, 우선적으로 표제어가 되는 사전 구축용 개체명을 설정한다(S10).
그 다음에, 미리 자료들을 보유한 경우와 그렇지 않은 경우를 대비하여 검색 필요 여부를 확인한다(S12).
검색이 필요하지 않은 경우 즉, 미리 입수한 파일이 있거나 제한적인 단어를 직접 입력하는 경우(S14)에는 해당 파일을 이용하거나 텍스트(TEXT) 파일을 제작하여 개체명 사전(5)을 구축한다(S24).
검색이 필요한 경우에는 키워드가 존재하는지를 확인한다(S16).
만약, 키워드가 존재하지 않는 경우에는 비정형 개인정보 항목을 고려하여 웹 포털 사이트의 해당 항목 검색 순위를 확인하여 해당 항목의 검색 순위를 확보한다(S18). 반대로, 키워드가 존재하는 경우에는 해당 키워드로 검색엔진을 통해 검색한다(S20).
S18의 결과 또는 S20의 결과를 개체명 검색 결과로서 확보한다. 즉, S18에서 확보한 해당 항목의 검색 순위 또는 S20의 검색 결과에서 확보한 표제어 리스트를 개체명 검색 결과로 확보한다(S22).
이후, 확보한 표제어 리스트로 개체명 사전(5)을 구축한다(S24).
도 5는 본 발명의 실시예에 따른 코퍼스 자동 구축 방법을 설명하기 위한 흐름도이다. 이하의 설명에서 학습 데이터를 코퍼스의 일예라고 할 수 있다.
먼저, 학습 데이터 구축부(12)는 개체명 사전(5)에서 표제어를 추출한다(S30).
학습 데이터 구축부(12)는 추출된 표제어를 검색대상으로 하여 검색부(18)에게로 제공하고 검색을 요청한다.
검색부(18)는 제공받은 표제어를 근거로 학습 데이터 수집을 위한 개체명 검색을 수행한다(S32). 여기서, 개체명 검색은 각 표제어로 범용 검색엔진(예컨대, 구글, 네이버, 다음 등)을 통해 검색을 수행한다.
검색부(18)는 개체명 검색 결과를 학습 데이터 구축부(12)에게로 전달한다.
학습 데이터 구축부(12)는 검색 수행후의 결과로 제공받은 개체명 검색 결과(스니펫(snippet) 포함)를 확인하여 데이터 특성(예컨대, 웹 페이지, 파일(PDF, HWP, DOC, PPT, XLS 등), 트위터 멘션, 페이스북 게시물 등) 별로 일정 개수 이상의 스니펫을 추출한다(S34). 스니펫을 추출함에 있어서, 도 5에서는 미리 구축된 개체명 사전(5)에 수록된 표제어를 기반으로 검색 엔진을 통해 해당 표제어 스니펫을 확보하는 것으로 설명하였으나, 사용자 입력 단어를 키워드로 하여 검색 엔진을 통해 해당 스니펫을 확보하는 과정이 추가되어도 무방하다.
학습 데이터 구축부(12)는 추출한 스니펫에 실제 검색 개체명이 존재하는지 오류가 없는지를 확인한다(S36).
S36에서의 확인 결과, 오류가 있는 것으로 확인되면 상술한 단계 S32로 복귀하여 S32부터의 동작을 반복한다.
오류가 없으면, 학습 데이터 구축부(12)는 오류가 없는 스니펫을 추출한다(S38).
이어, 학습 데이터 구축부(12)는 추출된 스니펫(즉, 오류가 없는 스니펫)에 해당 개체명을 태깅한다(S40).
이렇게 개체명 사전(5)의 모든 표제어를 대상으로 스니펫을 추출하여 개체명 학습 데이터를 확보한다(S42). 확보된 개체명 학습 데이터는 학습 모델 결정부(14)에게로 전송된다.
이후, 학습 모델 결정부(14)는 확보된 개체명 학습 데이터를 기반으로, 통계적 학습 모델(예컨대, CRF(Conditional Random Fields), SVM(Sopport Vector Machine), HMM(Hidden Markov Model) 등)을 적용하여 학습 모델에 따른 통계적 신뢰 점수를 확인한다(S44).
마지막으로, 학습 모델 결정부(14)는 각각의 신뢰 점수를 근거로 적절한 학습 모델을 자동으로 결정한다(S46). 예를 들어, 학습 모델 결정부(14)는 신뢰 점수가 가장 높은 통계적 학습 모델을 최종의 학습 모델(즉, 비정형 개인정보 개체명 인식을 위한 학습 모델)로 결정할 수 있다.
본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있다. 그에 따라, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하다. 그에 따라, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하다. 그에 따라, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10 : 개체명 사전 구축부 12 : 학습 데이터 구축부
14 : 학습 모델 결정부 16 : 개체명 인식부
18 : 검색부 22 : 대상 문서
24 : 개체명 태깅 문서 30 : 개체명 검색부
32 : 개체명 태깅부

Claims (18)

  1. 개체명 사전 구축부가, 비정형 개인정보를 수록한 개체명 사전을 구축하는 단계;
    학습 데이터 구축부가, 상기 개체명 사전의 표제어 및 사용자 입력 단어중에서 하나 이상을 검색대상으로 하는 개체명 검색 결과를 확인하여 데이터 특성별로 하나 이상의 스니펫을 추출하는 단계;
    상기 학습 데이터 구축부가, 상기 추출한 스니펫에 해당 개체명을 태깅하여 개체명 학습 데이터를 확보하는 단계;
    학습 모델 결정부가, 상기 확보된 개체명 학습 데이터를 기반으로 비정형 개인정보 개체명 인식을 위한 학습 모델을 결정하는 단계; 및
    개체명 인식부가, 대상 문서를 입력받게 됨에 따라 상기 개체명 사전과 상기 결정된 학습 모델을 이용하여 해당 대상 문서 내에 있는 비정형 개인정보인 개체명을 자동으로 탐지하여 태깅한 문서를 출력하는 단계;를 포함하는 것을 특징으로 하는 개체명 인식 방법.
  2. 청구항 1에 있어서,
    상기 학습 모델을 결정하는 단계는,
    상기 확보된 개체명 학습 데이터를 복수의 학습 모델에 적용하여 각각의 학습 모델별 신뢰 점수를 확인하는 단계; 및
    상기 각각의 학습 모델별 신뢰 점수를 확인하는 단계의 결과를 근거로 어느 한 학습 모델을 비정형 개인정보 개체명 인식을 위한 학습 모델로 결정하는 단계;를 포함하는 것을 특징으로 하는 개체명 인식 방법.
  3. 청구항 2에 있어서,
    상기 복수의 학습 모델은 CRF 학습 모델, SVM 학습 모델, 및 HMM 학습 모델을 포함하는 것을 특징으로 하는 개체명 인식 방법.
  4. 청구항 1에 있어서,
    상기 태깅한 문서를 출력하는 단계는,
    상기 대상 문서를 입력받게 됨에 따라 상기 개체명 사전의 표제어들과 상기 학습 모델을 결정하는 단계에 의해 결정된 상기 학습 모델을 근거로 상기 대상 문서에서 개체명 검색을 수행하는 단계; 및
    상기 검색된 개체명들을 태깅하여 개체명 태깅 문서를 생성하여 출력하는 단계;를 포함하는 것을 특징으로 하는 개체명 인식 방법.
  5. 청구항 1에 있어서,
    상기 개체명 학습 데이터를 확보하는 단계는 상기 하나 이상의 스니펫을 추출하는 단계에서 추출된 하나 이상의 스니펫에서 오류가 없는 스니펫에 해당 개체명을 태깅하는 것을 특징으로 하는 개체명 인식 방법.
  6. 청구항 1에 있어서,
    상기 하나 이상의 스니펫을 추출하는 단계는,
    상기 개체명 사전에 수록된 표제어를 기반으로 검색 엔진을 통해 해당 스니펫을 확보하는 단계; 및
    상기 사용자 입력 단어를 키워드로 하여 검색 엔진을 통해 해당 스니펫을 확보하는 단계;를 포함하는 것을 특징으로 하는 개체명 인식 방법.
  7. 청구항 1에 있어서,
    상기 개체명 사전은 기업명 리스트를 기반으로 확보된 사전 표제어, 및 웹 포털사이트의 검색 순위상 단어를 기반으로 확보한 사전 표제어를 수록하는 것을 특징으로 하는 개체명 인식 방법.
  8. 학습 데이터 구축부가, 미리 구축된 개체명 사전에서 추출한 표제어 및 사용자 입력 단어중에서 하나 이상을 검색대상으로 하는 개체명 검색 결과를 확인하여 데이터 특성별로 하나 이상의 스니펫을 추출하는 단계; 및
    상기 학습 데이터 구축부가, 상기 추출한 스니펫에 해당 개체명을 태깅하여 개체명 학습 데이터를 확보하는 단계;를 포함하는 것을 특징으로 하는 코퍼스 자동 구축 방법.
  9. 청구항 8에 있어서,
    상기 개체명 학습 데이터를 확보하는 단계는 상기 하나 이상의 스니펫을 추출하는 단계에서 추출된 하나 이상의 스니펫에서 오류가 없는 스니펫에 해당 개체명을 태깅하는 것을 특징으로 하는 코퍼스 자동 구축 방법.
  10. 청구항 8에 있어서,
    상기 하나 이상의 스니펫을 추출하는 단계는,
    상기 미리 구축된 개체명 사전에 수록된 표제어를 기반으로 검색 엔진을 통해 해당 스니펫을 확보하는 단계; 및
    상기 사용자 입력 단어를 키워드로 하여 검색 엔진을 통해 해당 스니펫을 확보하는 단계;를 포함하는 것을 특징으로 하는 코퍼스 자동 구축 방법.
  11. 청구항 8에 있어서,
    상기 개체명 사전은 기업명 리스트를 기반으로 확보된 사전 표제어, 및 웹 포털사이트의 검색 순위상 단어를 기반으로 확보한 사전 표제어를 수록하는 것을 특징으로 하는 코퍼스 자동 구축 방법.
  12. 비정형 개인정보를 수록한 개체명 사전을 구축하는 개체명 사전 구축부;
    상기 개체명 사전의 표제어 및 사용자 입력 단어중에서 하나 이상을 검색대상으로 하는 개체명 검색 결과를 확인하여 데이터 특성별로 하나 이상의 스니펫을 추출하고, 상기 추출한 스니펫에 해당 개체명을 태깅하여 개체명 학습 데이터를 확보하는 학습 데이터 구축부;
    상기 확보된 개체명 학습 데이터를 기반으로 비정형 개인정보 개체명 인식을 위한 학습 모델을 결정하는 학습 모델 결정부; 및
    대상 문서를 입력받게 됨에 따라 상기 개체명 사전과 상기 결정된 학습 모델을 이용하여 해당 대상 문서 내에 있는 비정형 개인정보인 개체명을 자동으로 탐지하여 태깅한 문서를 출력하는 개체명 인식부;를 포함하는 것을 특징으로 하는 개체명 인식 장치.
  13. 청구항 12에 있어서,
    상기 학습 모델 결정부는,
    상기 확보된 개체명 학습 데이터를 복수의 학습 모델에 적용하여 각각의 학습 모델별 신뢰 점수를 확인하여 어느 한 학습 모델을 비정형 개인정보 개체명 인식을 위한 학습 모델로 결정하는 것을 특징으로 하는 개체명 인식 장치.
  14. 청구항 13에 있어서,
    상기 복수의 학습 모델은 CRF 학습 모델, SVM 학습 모델, 및 HMM 학습 모델을 포함하는 것을 특징으로 하는 개체명 인식 장치.
  15. 청구항 12에 있어서,
    상기 개체명 인식부는,
    상기 대상 문서를 입력받게 됨에 따라 상기 개체명 사전의 표제어들과 상기 학습 모델 결정부에서 결정된 상기 학습 모델을 근거로 상기 대상 문서에서 개체명 검색을 수행하고, 상기 검색된 개체명들을 태깅하여 개체명 태깅 문서를 생성하여 출력하는 것을 특징으로 하는 개체명 인식 장치.
  16. 청구항 12에 있어서,
    상기 학습 데이터 구축부는 상기 추출된 하나 이상의 스니펫에서 오류가 없는 스니펫에 해당 개체명을 태깅하는 것을 특징으로 하는 개체명 인식 장치.
  17. 청구항 12에 있어서,
    상기 학습 데이터 구축부는 상기 개체명 사전에 수록된 표제어를 기반으로 검색 엔진을 통해 해당 스니펫을 확보하고, 상기 사용자 입력 단어를 키워드로 하여 검색 엔진을 통해 해당 스니펫을 확보하는 것을 특징으로 하는 개체명 인식 장치.
  18. 청구항 12에 있어서,
    상기 개체명 사전은 기업명 리스트를 기반으로 확보된 사전 표제어, 및 웹 포털사이트의 검색 순위상 단어를 기반으로 확보한 사전 표제어를 수록하는 것을 특징으로 하는 개체명 인식 장치.
KR1020130131596A 2013-10-31 2013-10-31 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치 KR101727139B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130131596A KR101727139B1 (ko) 2013-10-31 2013-10-31 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130131596A KR101727139B1 (ko) 2013-10-31 2013-10-31 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치

Publications (2)

Publication Number Publication Date
KR20150050140A true KR20150050140A (ko) 2015-05-08
KR101727139B1 KR101727139B1 (ko) 2017-04-14

Family

ID=53388078

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130131596A KR101727139B1 (ko) 2013-10-31 2013-10-31 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치

Country Status (1)

Country Link
KR (1) KR101727139B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN107800679A (zh) * 2017-05-22 2018-03-13 湖南大学 假冒学术期刊网站的检测方法
KR20180044800A (ko) 2016-10-24 2018-05-03 가천대학교 산학협력단 개체명 인식 모델 생성 장치 및 방법
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
KR20180113444A (ko) * 2017-04-06 2018-10-16 네이버 주식회사 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN110020428A (zh) * 2018-07-19 2019-07-16 成都信息工程大学 一种基于半马尔可夫的联合识别和规范化中医症状名的方法
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102455112B1 (ko) * 2020-11-27 2022-10-17 주식회사 투블럭에이아이 3단계 언어 모델을 이용한 문서 인식 개선 장치 및 방법
KR102533008B1 (ko) 2022-12-29 2023-05-17 월드버텍 주식회사 비정형 데이터로부터 개인정보를 탐지하고 노출 위험도를 측정하는 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100132376A (ko) * 2009-06-09 2010-12-17 성균관대학교산학협력단 스니펫 제공 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100132376A (ko) * 2009-06-09 2010-12-17 성균관대학교산학협력단 스니펫 제공 장치 및 방법

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN106095753B (zh) * 2016-06-07 2018-11-06 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
KR20180044800A (ko) 2016-10-24 2018-05-03 가천대학교 산학협력단 개체명 인식 모델 생성 장치 및 방법
KR20180113444A (ko) * 2017-04-06 2018-10-16 네이버 주식회사 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
CN107800679A (zh) * 2017-05-22 2018-03-13 湖南大学 假冒学术期刊网站的检测方法
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN110020428A (zh) * 2018-07-19 2019-07-16 成都信息工程大学 一种基于半马尔可夫的联合识别和规范化中医症状名的方法
CN110020428B (zh) * 2018-07-19 2023-05-23 成都信息工程大学 一种基于半马尔可夫的联合识别和规范化中医症状名的方法
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111079418B (zh) * 2019-11-06 2023-12-05 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
KR101727139B1 (ko) 2017-04-14

Similar Documents

Publication Publication Date Title
KR101727139B1 (ko) 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
US11657223B2 (en) Keyphase extraction beyond language modeling
Zhang et al. Entity linking leveraging automatically generated annotation
US10289952B2 (en) Semantic frame identification with distributed word representations
Alzahrani et al. Understanding plagiarism linguistic patterns, textual features, and detection methods
US8819047B2 (en) Fact verification engine
US20160239500A1 (en) System and methods for extracting facts from unstructured text
Singh et al. Named entity recognition system for Urdu
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
JP2016136341A5 (ko)
CN105426354A (zh) 一种句向量的融合方法和装置
US20160071511A1 (en) Method and apparatus of smart text reader for converting web page through text-to-speech
Nawab et al. An IR-based approach utilizing query expansion for plagiarism detection in MEDLINE
Hussein A plagiarism detection system for arabic documents
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Sarwar et al. The key factors and their influence in authorship attribution.
Dey et al. Named entity recognition using gazetteer method and n-gram technique for an inflectional language: A hybrid approach
WO2015023031A1 (ko) 전문분야 검색 지원 방법 및 그 장치
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
Zhou et al. Text and information analytics for fully automated energy code checking
Tran et al. A model of vietnamese person named entity question answering system
Meng et al. Chinese microblog entity linking system combining wikipedia and search engine retrieval results

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant