KR20120042562A - 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 - Google Patents

온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 Download PDF

Info

Publication number
KR20120042562A
KR20120042562A KR1020100104288A KR20100104288A KR20120042562A KR 20120042562 A KR20120042562 A KR 20120042562A KR 1020100104288 A KR1020100104288 A KR 1020100104288A KR 20100104288 A KR20100104288 A KR 20100104288A KR 20120042562 A KR20120042562 A KR 20120042562A
Authority
KR
South Korea
Prior art keywords
entity name
dictionary
entity
headword
online
Prior art date
Application number
KR1020100104288A
Other languages
English (en)
Other versions
KR101333485B1 (ko
Inventor
이창기
김현기
류법모
이충희
최윤재
윤여찬
임수종
최미란
오효정
신지애
허정
장명길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100104288A priority Critical patent/KR101333485B1/ko
Publication of KR20120042562A publication Critical patent/KR20120042562A/ko
Application granted granted Critical
Publication of KR101333485B1 publication Critical patent/KR101333485B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치가 개시된다. 먼저, 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하고, 생성된 개체명 분류 학습 데이터에 대해 기계 학습을 통하여 개체명 분류 모델을 생성한 후, 생성된 개체명 분류 모델을 이용하여 온라인 사전의 표제어에 대한 개체명을 분류하고, 분류된 개체명을 개체명 사전에 추가한다. 따라서, 방대한 양의 개체명 사전을 정확하고 용이하게 구축할 수 있다.

Description

온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치{METHOD FOR CONSTRUCTING NAMED ENTITIES USING ONLINE ENCYCLOPEDIA AND APPARATUS FOR PERFORMING THE SAME}
본 발명은 개체명 사전 구축에 관한 것으로, 더욱 상세하게는 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치에 관한 것이다.
정보의 양이 기하급수적으로 급증하면서 문서에서 자동으로 핵심어를 찾아내는 것은 정보추출이나 정보검색 등과 같은 자연어처리 응용분야에서 매우 중요한 부분을 차지한다. 핵심어의 대부분은 개체명으로, 개체명은 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현을 말한다. 개체명의 의미범주는 크게 인명, 지명, 기관명과 같은 고유명사와, 날짜나 시간과 같은 시간 표현과, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다.
수치 표현은 비교적 단순한 문법에 의해 효과적으로 인식될 수 있지만 고유명사는 새로운 고유명사가 계속적으로 만들어지고 그 형태가 가변적이기 때문에 사전에 등록되지 않은 개체명을 인식하는 것은 쉬운 일이 아니다. 또한, 동일한 개체명이 문맥에 따라 다른 범주로 사용될 수 있다는 문제점이 있다.
상술한 문제를 해결하기 위한 기존의 연구들은 크게 규칙 기반의 개체명 인식(Rule-based approach), 통계 기반의 개체명 인식(Statistics-based approach), 그리고 두 가지 방법을 통합하여 접근하는 하이브리드 방식의 개체명 인식(Hybrid approach)으로 구분할 수 있다.
규칙 기반의 방법은 개체명 인식을 위한 규칙을 수동으로 구축하고, 고유명사 사전, 개체명 인식의 단서가 되는 단어사전, 개체명의 문맥으로 나오는 단어 사전 등 다양한 사전을 이용하여 개체명을 인식하는 방법이다. 그러나, 이 방법은 사람의 직관에 크게 의존하며 새로운 도메인에 적용될 때, 규칙과 사전이 변경되어야 하므로 많은 시간과 비용이 요구된다.
통계 기반의 방법은 학습데이터로부터 개체명 인식에 필요한 지식을 자동적으로 학습하는 방법으로, 주로 철자, 품사, 형태소로부터 얻어낸 정보를 이용하여 개체명 인식을 위한 규칙을 학습한다. 통계 기반의 개체명 인식은 이미 개체명이 태깅된 학습데이터를 이용하는 교사 학습 방법과 아무런 처리가 되어 있지 않은 일반 문서들을 학습데이터로 이용하는 비교사 학습 방법으로 구분할 수 있다. 교사 학습 방법은 개체명이 태깅된 학습데이터를 생성하는데 많은 비용이 요구되며 구축할 수 있는 양 또한 제한적일 수 밖에 없다. 이에 반해, 비교사 학습 방법은 학습데이터의 생성이 용이하지만 한국어 개체명의 특성상 단순한 자질만으로는 개체명 인식을 위한 규칙을 생성하기 어렵다는 문제점이 있다.
하이브리드 방법은 규칙 기반의 방법과 통계 기반의 방법을 통합하여 보다 나은 결과를 얻기 위한 목적으로 통계 기반의 모델에 규칙이나 어휘, 사전 등의 다양한 지식들을 결합하는 방식이다. 그러나 이 방법은 규칙 기반과 통계 기반의 문제점을 모두 가지고 있다고 볼 수 있다.
상기한 바와 같은 단점을 극복하기 위한 본 발명의 목적은 방대한 양의 개체명 사전을 정확하고 용이하게 구축할 수 있는 온라인 사전을 이용한 개체명 사전 구축 방법을 제공하는 것이다.
또한, 본 발명의 다른 목적은 방대한 양의 개체명 사전을 정확하고 용이하게 구축하는 온라인 사전을 이용한 개체명 사전 구축 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 온라인 사전을 이용한 개체명 사전 구축 방법은 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 단계와, 생성된 상기 개체명 분류 학습 데이터에 대해 기계 학습을 통하여 개체명 분류 모델을 생성하는 단계와, 생성된 상기 개체명 분류 모델을 이용하여 상기 온라인 사전의 표제어에 대한 개체명을 분류하는 단계 및 분류된 개체명을 개체명 사전에 추가하는 단계를 포함한다.
상기 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 단계는, 상기 온라인 사전을 검색하여 상기 개체명 사전에 포함된 적어도 하나의 표제어 및 상기 적어도 하나의 표제어 각각에 대한 부가정보를 획득하는 단계와, 상기 적어도 하나의 표제어 각각에 대한 부가정보를 대상으로 기계학습을 위한 자질(feature)을 생성하는 단계 및 상기 생성된 자질을 이용하여 상기 적어도 하나의 표제어를 미리 정의된 범주로 분류하기 위한 개체명 학습 데이터를 생성하는 단계를 포함할 수 있다.
상기 적어도 하나의 표제어 각각에 대한 부가정보는 상기 적어도 하나의 표제어 각각의 카테고리, 정의문 및 링크 정보 중 적어도 하나의 정보를 포함할 수 있다.
상기 개체명 분류 모델을 이용하여 상기 온라인 사전의 표제어에 대한 개체명을 분류하는 단계는, 상기 개체명 사전에 포함되지 않은 상기 온라인 사전의 표제어를 검색하여 개체명 구축 후보를 추출하는 단계 및 상기 개체명 구축 후보에 포함된 각 표제어에 대해 상기 개체명 분류 모델을 적용하여 미리 설정된 개체명 범주로 개체명을 분류하는 단계를 포함할 수 있다.
상기 미리 설정된 개체명 범주로 개체명을 분류하는 단계는, 상기 개체명 구축 후보에 포함된 각 표제어에 대해 자질을 생성하는 단계를 포함할 수 있다.
상기 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 단계는 위키피디아를 이용할 수 있다.
또한, 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 온라인 사전을 이용한 개체명 사전 구축 장치는 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 학습 데이터 생성부와, 생성된 상기 개체명 분류 학습 데이터에 대해 기계 학습을 통하여 개체명 분류 모델을 생성하는 기계 학습부와, 생성된 상기 개체명 분류 모델이 저장되는 저장부 및 상기 개체명 분류 모델을 이용하여 상기 온라인 사전의 표제어에 대한 개체명을 분류한 후, 분류된 개체명을 상기 개체명 사전에 추가하는 개체명 분류부를 포함한다.
상기 학습 데이터 생성부는 상기 온라인 사전을 검색하여 상기 개체명 사전에 포함된 적어도 하나의 표제어 및 상기 적어도 하나의 표제어 각각에 대한 부가정보를 획득하고, 상기 적어도 하나의 표제어 각각에 대한 부가정보를 대상으로 기계학습을 위한 자질(feature)을 생성한 후, 상기 생성된 자질을 이용하여 상기 적어도 하나의 표제어를 미리 정의된 범주로 분류하기 위한 개체명 학습 데이터를 생성할 수 있다.
상기 적어도 하나의 표제어 각각에 대한 부가정보는 상기 적어도 하나의 표제어 각각의 카테고리, 정의문 및 링크 정보 중 적어도 하나의 정보를 포함할 수 있다.
상기 개체명 분류부는 상기 개체명 사전에 포함되지 않은 상기 온라인 사전의 표제어를 검색하여 개체명 구축 후보를 추출하고, 상기 개체명 구축 후보에 포함된 각 표제어에 대해 상기 개체명 분류 모델을 적용하여 미리 설정된 개체명 범주로 개체명을 분류할 수 있다.
상술한 바와 같은 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치에 따르면, 위키피디아 표제어의 카테고리뿐만 아니라 정의문, 링크정보를 이용하여 기계학습 자질을 생성하고, 이를 이용하여 개체명 분류 학습 데이터를 생성한 후, 기계학습을 통하여 개체명 분류 모델을 생성한다. 이후, 개체명 사전에 포함되지 않은 위키피디아 표제어를 대상으로 개체명 분류 모델을 적용하여 개체명을 분류한 후 기존의 개체명 사전에 추가함으로써, 방대한 양의 개체명 사전을 정확하고 용이하게 구축할 수 있다.
도 1은 본 발명의 일 실시예에 따른 온라인 사전을 이용한 개체명 사전 구축 방법을 나타내는 흐름도이다.
도 2는 도 1에 도시한 온라인 사전을 이용한 개체명 사전 구축 과정에서 이용되는 초기 개체명 사전과 위키피디아로부터 획득한 정보를 내타낸다.
도 3은 도 1에 도시한 온라인 사전을 이용한 개체명 사전 구축 과정에서 생성된 개체명 분류 학습 데이터의 예를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 개체명 사전 구축 장치의 구성을 나타내는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
이하, 본 발명의 실시예에서는 온라인 사전으로 다국어로 구축된 위키피디아(Wikipedia)를 이용하는 것으로 예를 들어 설명한다. 그러나, 온라인 사전이 위키피디아에 한정되지는 않으며, 다양한 사전들이 온라인 사전으로 이용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 온라인 사전을 이용한 개체명 사전 구축 방법을 나타내는 흐름도이다. 또한, 도 2는 도 1에 도시한 온라인 사전을 이용한 개체명 사전 구축 과정에서 이용되는 초기 개체명 사전과 위키피디아로부터 획득한 정보를 내타낸다. 도 3은 도 1에 도시한 온라인 사전을 이용한 개체명 사전 구축 과정에서 생성된 개체명 분류 학습 데이터의 예를 나타낸다.
도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 온라인 사전을 이용한 개체명 사전 구축 방법은 크게, 위키피디아를 이용하여 개체명 학습 데이터를 생성하는 단계와(단계 110), 생성된 개체명 학습 데이터를 이용하여 개체명 분류 모델을 생성하는 단계(단계 130) 및 생성된 개체명 분류 모델을 이용하여 위키피디아의 표제어에 대한 개체명을 분류하는 단계(단계 150)를 포함한다.
구체적으로, 위키피디아를 이용하여 개체명 학습 데이터를 생성하는 단계(단계 110)에서는, 먼저 개체명 사전 구축 장치가 온라인 상의 위키피디아를 검색하여 도 2의 (a)에 도시한 바와 같이 초기 개체명 사전에 포함된 개체명과 일치하는 위키피디아의 표제어를 검색하고(단계 111), 도 2의 (b)에 도시한 바와 같이 검색된 위키피디아의 표제어 및 각 표제어의 부가정보를 획득한다(단계 112). 여기서, 개체명 사전 구축 장치는 미리 설정된 검색 방법에 따라 위키피디아 표제어를 검색할 수 있다. 예를 들어, 개체명 사전 구축 장치는 미리 설정된 개수만큼 위키피디아 표제어를 검색할 수도 있고, 표제어 범주별로 미리 설정된 개수만큼 위키피디아 표제어를 검색할 수도 있다. 또는, 개체명 사전에 포함된 개체명 중 가장 등록 개수가 적은 개체명 범주에 포함된 개체명과 동일한 위키피디아 표제어를 검색할 수도 있다.
또한, 단계 112에서 개체명 사전 구축 장치는 검색된 위키피디아 표제어 각각에 해당하는 정의문, 카테고리, 링크 정보를 부가정보로 획득할 수 있다.
이후, 개체명 사전 구축 장치는 획득한 부가정보를 대상으로 개체명 분류를 위한 기계학습 자질(feature)을 생성한다(단계 113). 여기서, 상기 기계학습 자질은 공지된 다양한 방법을 통해 생성할 수 있다. 예를 들어, 상기 위키피디아 표제어의 정의문, 카테고리, 링크 정보에 대해 어간/어근 분리와 전치사, 조사, 숫자 등의 불용어를 제거한 후, 미리 선정된 자질 선정 기준을 적용하여 상기 기계학습 자질을 생성할 수 있다.
이후, 개체명 사전 구축 장치는 생성된 기계학습 자질을 이용하여 도 3에 도시한 바와 같이 위키피디아의 표제어를 미리 정의된 범주로 분류하기 위한 개체명 분류 학습 데이터를 생성한다(단계 114). 여기서, 상기 미리 정의된 범주는 인물(PERSON), 지역(LOCATION), 기관(ORGARNIZATION) 및 일반명사를 포함할 수 있다.
상술한 바와 같은 과정을 통해 개체명 분류 학습 데이터를 생성한 후, 개체명 사전 구축 장치는 생성된 상기 개체명 분류 학습 데이터를 이용하여 기계학습을 수행한 후 개체명 분류 모델을 생성한다(단계 130). 여기서, 상기 기계학습에는 지지벡터기계(SVM: Support Vector Machine)가 사용될 수 있다.
이후, 개체명 사전 구축 장치는 초기 개체명 사전에 포함되지 않은 위키피디아의 표제어를 검색하여 개체명 구축 후보를 추출한 후(단계 151), 추출된 개체명 구축 후보 각각의 기계학습 자질에 대해 생성된 상기 개체명 분류 모델을 적용하여 개체명 구축 후보에 포함된 각 표제어를 미리 설정된 개체명 분류 범주(예를 들면, 인물, 지역, 기관, 일반명사)로 분류한다(단계 152). 여기서, 개체명 사전 구축 장치는 단계 113과 동일한 방법으로 추출된 개체명 구축 후보 각각에 대해 기계학습 자질을 먼저 생성한 후, 생성된 기계학습 자질을 개체명 분류 모델에 적용하여 각 표제어를 개체명 분류 범주로 분류할 수 있다.
이후, 개체명 사전 구축 장치는 분류된 개체명 중 일반명사의 범주에 포함되는 개체명을 제외한 후, 다른 범주(즉, 인물, 지역, 기관)에 속하는 개체명을 초기 개체명 사전에 추가한다(단계 153).
여기서, 상기한 바와 같이 새로운 개체명들이 추가된 개체명 사전은 다시 개체명 분류 학습 데이터 생성, 기계학습을 통한 개체명 분류 모델 생성 및 개체명 분류 과정에 적용되어 재현율(recall)을 향상시킬 수 있다.
도 4는 본 발명의 일 실시예에 따른 개체명 사전 구축 장치의 구성을 나타내는 블록도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 개체명 사전 구축 장치(400)는 학습 데이터 생성부(410), 기계 학습부(420), 저장부(430) 및 개체명 분류부(440)를 포함할 수 있다.
학습 데이터 생성부(410)는 위키피디아의 표제어를 이용하여 기계학습 자질을 생성한 후, 생성된 기계학습 자질을 이용하여 개체명 학습 데이터를 생성한다.
구체적으로, 학습 데이터 생성부(410)는 표제어 검색 모듈(411), 기계학습 자질 생성 모듈(413) 및 학습 데이터 생성 모듈(415)를 포함할 수 있다.
표제어 검색 모듈(411)은 개체명 사전 데이터베이스(403)에 포함된 개체명과 일치하는 위키피디아 표제어를 검색하여, 검색된 위키피디아 표제어 및 각 표제어의 부가정보(예를 들면, 각 표제어의 정의문, 카테고리, 링크 정보 등)를 기계학습 자질 생성 모듈(413)에 제공한다. 여기서, 표제어 검색 모듈(411)은 인터넷을 통해 위키피디아 서버에 접속한 후, 미리 설정된 검색 방법(예를 들면, 검색 표제어 수, 검색 표제어 범주)에 따라 위키피디아 표제어를 검색할 수 있다.
기계학습 자질 생성 모듈(413)은 표제어 검색 모듈(411)로부터 제공된 위키피디아 각 표제어의 부가정보를 대상으로 개체명 분류를 위한 기계학습 자질(feature)을 생성한다. 여기서, 상기 기계학습 자질은 공지된 다양한 방법을 통해 생성할 수 있다. 예를 들어, 기계학습 자질 생성 모듈(413)은 상기 위키피디아 표제어의 정의문, 카테고리, 링크 정보에 대해 어간/어근 분리와 전치사, 조사, 숫자 등의 불용어를 제거한 후, 미리 선정된 자질 선정 기준을 적용하여 상기 기계학습 자질을 생성할 수 있다.
학습 데이터 생성 모듈(415)은 기계학습 자질 생성 모듈(413)로부터 제공된 기계학습 자질을 이용하여 위키피디아의 표제어를 미리 정의된 범주(예를 들면, 인물, 지역, 기관 및 일반명사)로 분류하기 위한 개체명 분류 학습 데이터를 생성한다.
기계 학습부(420)는 학습 데이터 생성부(410)로부터 제공된 개체명 분류 학습 데이터를 기계 학습하여 개체명 분류 모델을 생성한 후 저장부(430)에 제공한다. 여기서, 기계 학습부(420)는 지지벡터기계(SVM: Support Vector Machine)를 사용하여 개체명 분류 모델을 생성할 수 있다.
저장부(430)는 기계 학습부(420)가 생성한 개체명 분류 모델을 저장한다. 또는, 저장부(430)에는 개체명 사전 데이터베이스가 저장될 수도 있다.
개체명 분류부(440)는 위키피디아(401)에서 개체명 분류를 개체명 구축 후보를 추출하고, 추출된 개체명 구축 후보에 포함된 각 표제어에 대해 개체명 분류 모델을 적용하여 개체명을 분류한 후 분류된 개체명을 개체명 사전 데이터베이스(403)에 추가한다.
구체적으로, 개체명 분류부(440)는 개체명 구축 후보 추출 모듈(441) 및 개체명 분류 모듈(443)을 포함할 수 있다.
개체명 구축 후보 추출 모듈(441)은 위키피디아(401)를 검색하여 개체명 사전 데이터베이스(403)에 포함되지 않은 위키피디아의 표제어를 검색하여 개체명 구축 후보를 추출한 후, 추출한 개체명 구축 후보를 개체명 분류 모델(443)에 제공한다.
개체명 분류 모듈(443)은 추출된 개체명 구축 후보에 포함된 각 표제어의 기계학습 자질에 대해 저장부(430)에 저장된 개체명 분류 모델(431)을 적용하여 개체명 구축 후보에 포함된 각 표제어를 미리 설정된 개체명 분류 범주(예를 들면, 인물, 지역, 기관, 일반명사)로 분류하고, 분류된 개체명 중 일반명사의 범주에 포함되는 개체명을 제외한 후, 개체명 사전 데이터베이스(403)에 추가한다. 여기서, 개체명 분류 모듈(443)은 기계학습 자질 생성모듈(413)과 동일한 방법으로 추출된 개체명 구축 후보 각각에 대해 기계학습 자질을 먼저 생성한 후, 생성된 기계학습 자질을 개체명 분류 모델(431)에 적용하여 각 표제어를 개체명 분류 범주로 분류할 수 있다.
또한, 상술한 바와 같이 개체명 사전 데이터베이스(403)에 추가된 개체명은 이후의 개체명 사전 구축과정에 사용될 수 있다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
410 : 학습 데이터 생성부 411 : 표제어 검색 모듈
413 : 기계학습 자질 생성 모듈 415 : 학습 데이터 생성 모듈
420 : 기계 학습부 430 : 저장부
431 : 개체명 분류 모델 440 : 개체명 분류부
441 : 개체명 구축 후보 추출 모듈 443 : 개체명 분류 모듈

Claims (10)

  1. 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 단계;
    생성된 상기 개체명 분류 학습 데이터에 대해 기계 학습을 통하여 개체명 분류 모델을 생성하는 단계;
    생성된 상기 개체명 분류 모델을 이용하여 상기 온라인 사전의 표제어에 대한 개체명을 분류하는 단계; 및
    분류된 개체명을 개체명 사전에 추가하는 단계를 포함하는 온라인 사전을 이용한 개체명 사전 구축 방법.
  2. 제1항에 있어서, 상기 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 단계는,
    상기 온라인 사전을 검색하여 상기 개체명 사전에 포함된 적어도 하나의 표제어 및 상기 적어도 하나의 표제어 각각에 대한 부가정보를 획득하는 단계;
    상기 적어도 하나의 표제어 각각에 대한 부가정보를 대상으로 기계학습을 위한 자질(feature)을 생성하는 단계; 및
    상기 생성된 자질을 이용하여 상기 적어도 하나의 표제어를 미리 정의된 범주로 분류하기 위한 개체명 학습 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 방법.
  3. 제2항에 있어서, 상기 적어도 하나의 표제어 각각에 대한 부가정보는
    상기 적어도 하나의 표제어 각각의 카테고리, 정의문 및 링크 정보 중 적어도 하나의 정보를 포함하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 방법.
  4. 제1항에 있어서, 상기 개체명 분류 모델을 이용하여 상기 온라인 사전의 표제어에 대한 개체명을 분류하는 단계는,
    상기 개체명 사전에 포함되지 않은 상기 온라인 사전의 표제어를 검색하여 개체명 구축 후보를 추출하는 단계; 및
    상기 개체명 구축 후보에 포함된 각 표제어에 대해 상기 개체명 분류 모델을 적용하여 미리 설정된 개체명 범주로 개체명을 분류하는 단계를 포함하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 방법.
  5. 제4항에 있어서, 상기 미리 설정된 개체명 범주로 개체명을 분류하는 단계는,
    상기 개체명 구축 후보에 포함된 각 표제어에 대해 자질을 생성하는 단계를 포함하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 방법.
  6. 제1항에 있어서, 상기 온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 단계는,
    위키피디아를 이용하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 방법.
  7. 개체명 사전을 구축하는 개체명 사전 구축 장치에 있어서,
    온라인 사전을 이용하여 개체명 분류 학습 데이터를 생성하는 학습 데이터 생성부;
    생성된 상기 개체명 분류 학습 데이터에 대해 기계 학습을 통하여 개체명 분류 모델을 생성하는 기계 학습부;
    생성된 상기 개체명 분류 모델이 저장되는 저장부; 및
    상기 개체명 분류 모델을 이용하여 상기 온라인 사전의 표제어에 대한 개체명을 분류한 후, 분류된 개체명을 상기 개체명 사전에 추가하는 개체명 분류부를 포함하는 온라인 사전을 이용한 개체명 사전 구축 장치.
  8. 제7항에 있어서, 상기 학습 데이터 생성부는
    상기 온라인 사전을 검색하여 상기 개체명 사전에 포함된 적어도 하나의 표제어 및 상기 적어도 하나의 표제어 각각에 대한 부가정보를 획득하고, 상기 적어도 하나의 표제어 각각에 대한 부가정보를 대상으로 기계학습을 위한 자질(feature)을 생성한 후, 상기 생성된 자질을 이용하여 상기 적어도 하나의 표제어를 미리 정의된 범주로 분류하기 위한 개체명 학습 데이터를 생성하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 장치.
  9. 제8항에 있어서, 상기 적어도 하나의 표제어 각각에 대한 부가정보는
    상기 적어도 하나의 표제어 각각의 카테고리, 정의문 및 링크 정보 중 적어도 하나의 정보를 포함하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 장치.
  10. 제8항에 있어서, 상기 개체명 분류부는
    상기 개체명 사전에 포함되지 않은 상기 온라인 사전의 표제어를 검색하여 개체명 구축 후보를 추출하고, 상기 개체명 구축 후보에 포함된 각 표제어에 대해 상기 개체명 분류 모델을 적용하여 미리 설정된 개체명 범주로 개체명을 분류하는 것을 특징으로 하는 온라인 사전을 이용한 개체명 사전 구축 장치.
KR1020100104288A 2010-10-25 2010-10-25 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치 KR101333485B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100104288A KR101333485B1 (ko) 2010-10-25 2010-10-25 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100104288A KR101333485B1 (ko) 2010-10-25 2010-10-25 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치

Publications (2)

Publication Number Publication Date
KR20120042562A true KR20120042562A (ko) 2012-05-03
KR101333485B1 KR101333485B1 (ko) 2013-11-28

Family

ID=46263288

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100104288A KR101333485B1 (ko) 2010-10-25 2010-10-25 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치

Country Status (1)

Country Link
KR (1) KR101333485B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150066160A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
US10037381B2 (en) 2014-01-07 2018-07-31 Electronics And Telecommunications Research Institute Apparatus and method for searching information based on Wikipedia's contents
KR20200050620A (ko) * 2018-11-02 2020-05-12 한국전자통신연구원 온라인 백과 사전 기반 신규 개체명 및 신규 개체명의 이형태 사전 구축 장치 및 방법
KR20220047071A (ko) * 2020-10-08 2022-04-15 한국전자통신연구원 문장 의미 유사도 판단 방법 및 장치
KR102621869B1 (ko) * 2023-04-24 2024-01-05 고려대학교 산학협력단 한국어 문서-수준 관계 추출 데이터셋 구축 장치 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101725354B1 (ko) 2015-11-05 2017-04-10 광운대학교 산학협력단 개체명 사전 관리 방법 및 그 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150066160A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
US10037381B2 (en) 2014-01-07 2018-07-31 Electronics And Telecommunications Research Institute Apparatus and method for searching information based on Wikipedia's contents
KR20200050620A (ko) * 2018-11-02 2020-05-12 한국전자통신연구원 온라인 백과 사전 기반 신규 개체명 및 신규 개체명의 이형태 사전 구축 장치 및 방법
KR20220047071A (ko) * 2020-10-08 2022-04-15 한국전자통신연구원 문장 의미 유사도 판단 방법 및 장치
KR102621869B1 (ko) * 2023-04-24 2024-01-05 고려대학교 산학협력단 한국어 문서-수준 관계 추출 데이터셋 구축 장치 및 방법

Also Published As

Publication number Publication date
KR101333485B1 (ko) 2013-11-28

Similar Documents

Publication Publication Date Title
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
WO2021041722A1 (en) System and method to extract customized information in natural language text
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Althagafi et al. Arabic tweets sentiment analysis about online learning during COVID-19 in Saudi Arabia
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Ranjan et al. Question answering system for factoid based question
CN111159405B (zh) 基于背景知识的讽刺检测方法
Şenel et al. Measuring cross-lingual semantic similarity across European languages
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
KR102240910B1 (ko) 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템
Hacene et al. Ontology learning from text using relational concept analysis
KR101926669B1 (ko) 텍스트 임베딩 모델을 이용한 객관식 빈칸 채우기 퀴즈 생성 장치 및 방법
KR102632539B1 (ko) 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법
Rosyiq et al. Information extraction from Twitter using DBpedia ontology: Indonesia tourism places
Keezhatta Understanding EFL Linguistic Models through Relationship between Natural Language Processing and Artificial Intelligence Applications.
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
Lee et al. Syllable-based Malay word stemmer
Basnayake et al. Plagiarism detection in Sinhala language: A software approach
JP2007241900A (ja) ネーミングシステム及びネーミング自動化方法
Prasad et al. Lexicon based extraction and opinion classification of associations in text from Hindi weblogs
Safeena et al. Quranic computation: A review of research and application
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey
Karimi et al. Natural language query and control interface for database using afghan language

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161027

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee