KR100877477B1 - 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 - Google Patents

백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 Download PDF

Info

Publication number
KR100877477B1
KR100877477B1 KR1020070064689A KR20070064689A KR100877477B1 KR 100877477 B1 KR100877477 B1 KR 100877477B1 KR 1020070064689 A KR1020070064689 A KR 1020070064689A KR 20070064689 A KR20070064689 A KR 20070064689A KR 100877477 B1 KR100877477 B1 KR 100877477B1
Authority
KR
South Korea
Prior art keywords
feature
entity name
gram
training
backoff
Prior art date
Application number
KR1020070064689A
Other languages
English (en)
Inventor
박성찬
박성수
안세열
구명완
정영준
김효민
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020070064689A priority Critical patent/KR100877477B1/ko
Application granted granted Critical
Publication of KR100877477B1 publication Critical patent/KR100877477B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 웹문서, 전자문서, 사용자 입력 텍스트 등에 포함되어 있는 개체명을 인식하는데 있어, 입력 문장 상의 형태소와 단어로부터 개체명이 포함된 훈련 말뭉치를 생성한 상태에서 상기 훈련 말뭉치를 토대로 백오프 엔-그램 모델의 자질을 추출하여, 입력 문장의 각 단어에 대응되는 후보 개체를 선택하여 최종적인 개체명을 결정하는, 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 개체명 인식 장치에 있어서, 개체명 사전 DB로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하기 위한 개체명 입력기; 상기 개체명 입력기에서 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하며, 외부로부터 입력받은 문서 상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하기 위한 자질 정보 추출기; 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성해 통계 DB에 저장하기 위한 모델 학습기; 및 상기 통계 DB 상의 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하기 위한 후보 개체명 추출기를 포함함.
4. 발명의 중요한 용도
본 발명은 개체명 인식 분야 등에 이용됨.
Figure R1020070064689
백오프 엔-그램 자질, 개체명 인식, 훈련 말뭉치, 엔트로피 모델, 클래스 범주화, 레이블링, 최적 범주 경로

Description

백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그 방법{Apparatus and Method for recognizing the named entity using backoff n-gram features}
도 1은 본 발명에 따른 개체명 인식 과정을 보여주기 위한 일실시예 블록도이고,
도 2는 본 발명에 따른 백오프 엔-그램 자질을 이용한 개체명 인식 장치에 대한 일실시예 구성도이고,
도 3은 도 2의 후보 개체명 추출기에 대한 일실시예 상세 구성도이고,
도 4는 본 발명에서 제시하는 개체명에 대한 최적 범주 경로 탐색을 위한 전이 바이그램에 대한 상태 천이도이고,
도 5는 도 2의 자질정보 추출기에서 추출한 "n=5"인 백오프 엔-그램 자질 관계 그래프이고,
도 6은 도 5의 우측 자손의 상세 자질 관계 그래프이고,
도 7은 본 발명에 따른 백오프 엔-그램 자질을 이용한 개체명 인식 방법에 대한 일실시예 흐름도이다.
* 도면의 주요 부분에 대한 부호 설명
10 : 문장 입력기 20 : 형태소 분석기
31 : 개체명 사전 DB 32 : 개체명 입력기
33 : 자질 정보 추출기 34 : 모델 학습기
35 : 통계 DB 36 : 후보 개체명 추출기
51 : 최대 엔트로피 분류기
52 : 나이브 베이시안(Naive Baysian) 결정기
53 : 최적 경로 결정기
본 발명은 개체명 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 웹문서, 전자문서, 사용자 입력 텍스트 등에 포함되어 있는 개체명을 인식하는데 있어, 입력 문장 상의 형태소와 단어로부터 개체명이 포함된 훈련 말뭉치를 생성한 상태에서 상기 훈련 말뭉치를 토대로 백오프 엔-그램 모델의 자질을 추출하여, 입력 문장의 각 단어에 대응되는 후보 개체를 선택하여 최종적인 개체명을 결정하는, 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
개체명(named entity) 인식이란 문서상의 인명, 지명, 조직명 등과 같은 고 유 명사를 인식하는 것을 말하며, 정보 추출 분야, 정보 검색 분야, 텍스트 마이닝 분야, 시맨틱 웹 분야 등과 같은 다양한 분야에서 필수적으로 요구되는 작업이다. 여기서, 개체명이란 문서에 포함되어 있는 고유한 의미를 갖는 명사 표현, 숫자 표현 등을 일컬으며, 이러한 개체명 범주(category)로는 인명, 지명, 도시명, 기관명, 학교명 등과 같은 이름 표현과, 날짜, 시간 등과 같은 시간 표현과, 금액, 퍼센트 등과 같은 수치 표현 등으로 구분될 수 있다. 예컨대, 개체명 인식 기술에서는 언어학적인 문맥 정보 "x ∈ X"를 관찰한 후에 상기 "x"의 개체명 클래스(class)에 대응되는 "y ∈ Y"를 추정하는 것이다.
개체명 인식 분야에 있어 전통적으로 통계 기반의 개체명 인식 방식이 주로 사용되고 있는데, 근래의 기계 처리 성능 향상에 힘입어 대규모 말뭉치(corpus) 구축 용이, 도메인과 개체명간의 능동 변화 대처가 가능해 졌기에 통계 기반의 개체명 인식 방식이 각광받고 있다. 이러한 통계 기반의 개체명 인식 방식은 학습 말뭉치로부터 단어 클래스에 대한 확률 분포를 추정함으로서 개체명을 인식한다.
최근에는 바이-그램 자질(bi-gram features) 또는 트라이-그램 자질(tri-gram features) 등과 같은 엔-그램 자질(n-gram features)을 이용한 통계 기반 개체명 인식 기술이 연구되고 있다. 이러한 엔-그램 자질을 이용한 통계 기반 개체명 인식 기술에서는 품사 태깅의 경우에 추측 대상이 되는 확률 변수는 태그열이 되고, 개체명 추출의 경우에 추측 대상이 되는 확률 변수는 개체명 클래스열이 된다. 예컨대, 이와 같은 종래기술에서는 형태소 분석기를 통해 얻어진 품사 태깅된 말뭉치에 대해 이전의 "n"개 단어를 참고하여 현재의 단어를 확률적으로 추측해 내는 것이다.
그러나 상기와 같은 종래기술들, 예컨대 엔-그램 자질을 이용한 통계 기반 개체명 인식 방식은 전통적인 통계 기반 개체명 인식 방식보다도 조금 더 정확한 개체명 추측이 가능하나, 이를 위해서는 보다 많은 학습 데이터가 필요하다.
특히, 상기 종래기술에서는 대규모의 학습 데이터를 구축했을 지라도, 예컨대 아무리 많은 말뭉치를 사용하여 개체명 추측을 수행하더라도 항상 자료 희귀(data sparseness) 현상을 감안해야 되며, 이로 인해 미등록된 단어나 저빈도 단어에 대한 개체명 인식 신뢰도를 보장하지 못하는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하고 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 웹문서, 전자문서, 사용자 입력 텍스트 등에 포함되어 있는 개체명을 인식하는데 있어, 입력 문장 상의 형태소와 단어로부터 개체명이 포함된 훈련 말뭉치를 생성한 상태에서 상기 훈련 말뭉치를 토대로 백오프 엔-그램 모델의 자질을 추출하여, 입력 문장의 각 단어에 대응되는 후보 개체를 선택하여 최종적인 개체명을 결정하는, 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기의 목적을 달성하기 위한 본 발명의 장치는, 개체명 인식 장치에 있어서, 개체명 사전 DB로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하기 위한 개체명 입력기; 상기 개체명 입력기에서 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하며, 외부로부터 입력받은 문서 상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하기 위한 자질 정보 추출기; 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성해 통계 DB에 저장하기 위한 모델 학습기; 및 상기 통계 DB 상의 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하기 위한 후보 개체명 추출기를 포함한다.
또한, 상기 본 발명의 장치에서의 상기 후보 개체명 추출기는, 상기 통계 DB 상의 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시켜 해당 클래스 범주를 결정한 후에, 상기 클래스 범주 결과에 대해 레이블링을 수행해 1차 후보 개체명을 획득하기 위한 최대 엔트로피 분류기; 상기 통계 DB 상의 엔트로피 모델 중 워드 바이그램을 토대로 상기 최대 엔트로피 분류기에서 획득한 1차 후보 개체명으로부터 2차 후보 개체명을 결정하기 위한 나이브 베이시안 결정기; 및 상기 통계 DB 상의 엔트로피 모델 중 전이 바이그램을 토대로 상기 나이브 베이시안 결정기에서 결정한 2차 후보 개체명에 대해 최적 범주 경로에 대응되는 최종 개체명을 결정하기 위한 최적 경로 결정기를 포함한다.
한편, 본 발명의 방법은, 개체명 인식 방법에 있어서, 개체명 사전으로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하는 단계; 상기 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하는 단계; 외부로부터 입력받은 문서상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하는 단계; 상기 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성하는 단계; 및 상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하는 단계를 포함한다.
또한, 상기 본 발명의 방법에서의 상기 개체명을 결정하는 단계는, 상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시켜 해당 클래스 범주를 결정한 후에, 상기 클래스 범주 결과에 대해 레이블링을 수행해 1차 후보 개체명을 획득하는 과정; 상기 엔트로피 모델 중 워드 바이그램을 토대로 상기 획득한 1차 후보 개체명으로부터 2차 후보 개체명을 결정하는 과정; 및 상기 엔트로피 모델 중 전이 바이그램을 토대로 상기 결정한 2차 후보 개체명에 대해 최적 범주 경로에 대응되는 최종 개체명을 결정하는 과정을 포함한다.
한편, 본 발명은, 프로세서를 구비한 개체명 인식 장치에, 개체명 사전으로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하는 기능; 상기 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하는 기능; 외부로부터 입력받은 문서상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하는 기능; 상기 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성하는 기능; 및 상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 개체명 인식 과정을 보여주기 위한 일실시예 블록도이다.
도 1에 도시된 바와 같이, 본 발명에서는 문장 입력기(10)에서 외부로부터 입력되는 데이터 중에서 문장을 형태소 분석기(20)로 넘겨주며, 상기 형태소 분석기(20)에서 입력 문장의 형태소를 분석한 결과, 예컨대 형태소 분석된 입력 문장을 개체명 인식 장치(30)로 전달한다.
상기 문장 입력기(10)로 입력되는 데이터로는 하나의 파일 형태의 데이터 또는 스트림 형태로 실시간적으로 수신되는 데이터 등이며, 특히, 웹문서, 전자문서, 사용자 입력 텍스트, 음성 인식기를 거쳐 텍스트로 전환된 문장 등이 될 수 있다. 이러한 문장 입력기(10)는 형태소 분석기(20)에서 형태소 분석을 수행하는데 필요한 모든 전처리 과정을 수행하며, 그 구체적인 수행 과정은 공지기술인 바 상세한 설명은 생략하기로 한다.
상기 형태소 분석기(20)는 문장 입력기(10)로부터 넘겨받은 입력 문장의 형태소를 분석해 그 결과를 개체명 인식 장치(30)로 전달하며, 그 구체적인 수행 과정은 공지기술인 바 상세한 설명은 생략하기로 한다.
특히, 본 발명에서는 공지의 형태소 분석 과정과 본 발명에서 제시하는 개체명 인식 과정을 하나의 모듈로서 구성해 개체명 인식을 수행할 수 있으나, 형태소 분석 과정과 개체명 인식 과정을 별도의 모듈로서 구성함으로서 추측 대상 단어 앞뒤의 풍부한 문맥 정보를 충분히 활용해 개체명 인식을 수행하기 위함이다.
그럼, 본 발명에서 제시하는 상기 개체명 인식 장치(30)에 대해 도 2를 참조 하여 상세히 설명하기로 한다.
도 2는 본 발명에 따른 백오프 엔-그램 자질을 이용한 개체명 인식 장치에 대한 일실시예 구성도이다.
도 2에 도시된 바와 같이, 본 발명에 따른 백오프 엔-그램 자질을 이용한 개체명 인식 장치(30)는, 개체명 사전 DB(31), 개체명 입력기(32), 자질 정보 추출기(33), 모델 학습기(34), 통계 DB(35) 및 후보 개체명 추출기(36)를 포함한다.
본 발명에서 제시하는 개체명 인식 수행 과정은 크게 모델 학습 과정과 개체명 인식 과정으로 이루어지는데, 이 모든 과정이 형태소 분석된 훈련 말뭉치(41)를 기반으로 하여 수행된다.
상기 형태소 분석된 훈련 말뭉치(41)는 원시 말뭉치를 후술할 모델 학습기(34)에서 학습에 사용되도록 하기 위해 형태소 분석기(20)를 통과시켜 만든 학습 예제이다. 즉, 상기 개체명 입력기(32)는 공지의 개체명 사전 DB(31)로부터 자동 방식 또는 사용자 입력의 수동 방식에 따라 특정 개체명을 추출해 형태소 분석기(20)를 통과시켜 학습 예제[형태소 분석된 훈련 말뭉치(41)]가 만들어지도록 한다. 이러한 형태소 분석된 훈련 말뭉치(41)는 자질 정보 추출기(33)로 입력된다.
앞서 언급한 형태소 분석된 훈련 말뭉치(41)가 만들어진 상태에서, 먼저 상기 자질 정보 추출기(33)가 문장 입력기(10) 및 형태소 분석기(20)를 거쳐 외부로부터 입력되는 형태소 분석된 입력 문장(42)에 대한 처리, 즉 외부로부터 입력받은 웹문서, 전자문서, 사용자 입력 텍스트, 음성 인식기를 거쳐 텍스트로 전환된 문장 등의 형태소 분석된 입력 문장(42)에 대한 개체명 인식 과정 수행을 시작한다.
상기 자질 정보 추출기(33)는 백오프 엔-그램 자질(backoff n-gram features)을 기반으로 하여, 형태소 분석된 훈련 말뭉치(41)에 대해 자질을 추출해 모델 학습기(34)에서 사용할 훈련 자질(43)을 제공하고, 형태소 분석된 입력 문장(42)에 대해 자질을 추출해 후보 개체명 추출기(36)에서 사용할 테스트 자질(44)을 제공한다. 여기서, 자질 정보 추출기(33)는 훈련 자질(43) 및 테스트 자질(44) 각각에 대해 하나의 파일 형태인 자질 정보 리스트로서 구성해 모델 학습기(34) 및 후보 개체명 추출기(36) 각각에 제공한다. 덧붙여, 이하 훈련 자질과 훈련 자질 정보 리스트는 서로 동일한 의미이며, 테스트 자질과 테스트 자질 정보 리스트도 서로 동일한 의미이다.
즉, 상기 자질 정보 추출기(33)는, 형태소 분석된 훈련 말뭉치(41)에 포함되어 있는 각각의 형태소와 단어의 조합에 대응되는 백오프 엔-그램 단위의 훈련 자질(43)을 추출하며, 형태소 분석된 입력 문장(42)에 포함되어 있는 각각의 형태소와 단어의 조합에 대응되는 백오프 엔-그램 단위의 테스트 자질(44)을 추출한다.
앞서 언급한 바와 같이, 본 발명에서는 백오프 엔-그램 단위의 훈련 자질/테스트 자질 추출 알고리즘을 제시하며, 이를 상세히 설명하면 다음과 같다.
본 발명에서 제시하는 백오프 엔-그램 기반 자질 추출 알고리즘은 형태소 분석된 훈련 말뭉치(41) 또는 형태소 분석된 입력 문장(42)의 확률 분포를 추정할 수 없는 경우에 한 단계씩 해당 엔-그램 파라미터를 줄여가면서 자질 모델을 적용해 해당되는 훈련 자질(43) 또는 테스트 자질(44)을 추출하는 것이다.
예를 들어, "Pr(nc0 | t0w0)"[여기서, "w0"는 단어 정보, "t0"는 단어의 형태소 정보, "nc0"는 추정 대상 개체명의 클래스 정보임]라는 확률 분포를 추정할 수 없는 경우에, 본 발명에서는 상기 확률 분포의 파라미터를 줄여 "
Figure 112007047444105-pat00001
"와 같은 다음 순서로 후퇴하여 개체명 인식을 위한 모델을 적용한다.
상기 확률 분포에 있어 이론적으로 "n"을 크게 설정하면, 정밀도는 높아지지만 자질 개수가 "
Figure 112007047444105-pat00002
"개로 지나치게 증가하고, 개체명의 단어 길이가 최대 "4 ~ 5" 이하인 점을 고려하여, 본 발명에서는 "n=5"로 사용한다.
다음의 [표 1]은 현재 단어의 개체명 클래스를 추측하기 위해 본 발명에서 사용한 주변 문맥 정보이다.
Figure 112007047444105-pat00003
한편, 형태소 분석된 훈련 말뭉치(41)[학습 예제]와 형태소 분석된 입력 문장(42)[테스트 입력 문장]간의 관계를 다음의 [표 2]를 통해 살펴보면, 본 발명에서 제시한 백오프 엔-그램 단위의 훈련 자질/테스트 자질의 장점을 쉽게 이해할 수 있을 것이다.
Figure 112007047444105-pat00004
상기 [표 2]에서, 훈련 말뭉치에 "CD/12, NNS/years, RB/ago"가 "B-TMP, I, O"로 태깅되어 있다고 하자. 여기서, "BIO"는 개체명을 나누는 클래스 이름으로서, "B"는 클래스 시작을, "I"는 클래스 B의 계속을, "O"는 개체명과 무관한 단어를 의미한다. 예컨대, "I"는 항상 "B"에 이어서 나오게 되며, 문장 시작 부분에는 위치할 수 없다.
이에, 본 발명에서는 첫 번째 학습 예제로부터 "CD/*, NNS/years, RB/ago", "CD/12, NNS/years, RB/*" 및 "CD/*, NNS/years, RB/*"이 모델로 추가되며, 상기 훈련 말뭉치 안에 포함되어 있지 않은 "CD/250, BBS/years, RB/later"에 대한 올바른 개체명 인식이 가능해 진다.
정리하자면, 상기 자질 정보 추출기(33)는 형태소 분석된 훈련 말뭉치(41)로부터 연속적으로 "n, n-1, …, 1" 그램의 훈련 자질을 추출하여 모델 학습기(34)로 전달하며, 이에 모델 학습기(34)가 상기 훈련 자질을 학습시켜서 엔트로피 모델(45)을 생성해 통계 DB(35)에 저장되도록 한다. 여기서, 자질 정보 추출기(33)에서는 현재 단어를 중심으로 이전 "k"[여기서 k ≤ n] 단어와 이후 "k" 단어 길이만큼의 윈도우를 설정하고서 3단계로 분할하여 훈련 자질을 추출한다.
특히, 본 발명에서는 기관명 사전, 인명 사전 등과 같은 특정 클래스 사전 집합이나 외부의 언어 정보를 사용하지 않고서 오로지 훈련 말뭉치만을 사용해 특정 언어에 종속되지 않고 독립적으로 개체명 인식이 수행되도록 하였다.
상기 모델 학습기(34)는 자질 정보 추출기(33)로부터 입력받은 훈련 자질을 공지의 최대 엔트로피 모델링 툴 키트(Maximum Entropy Modeling Tool Kit)를 통해 학습시켜서 엔트로피 모델(45)을 생성해 통계 DB(35)에 저장시킨다. 상기 통계 DB(35)에 저장되는 엔트로피 모델(45)은 후보 개체명 추출기(36)에서 개체명 인식을 수행하는데 요구되는 정보로 사용된다.
즉, 상기 모델 학습기(34)에서는 현재의 반복 횟수와 목표 훈련 정확도를 셋팅한 상태에서 자질 정보 추출기(33)로부터 입력받은 훈련 자질에 관한 파라미터 개수와 훈련 이벤트를 설정하고서, 상기 훈련 자질에 대해 반복 스케일(Iterative Scale)을 적용해 가면서 최대 엔트로피 모델링 툴 키트에 통과시켜 확률 및 가중치를 계산해 해당 훈련 자질 각각에 할당함으로서 엔트로피 모델(45)을 생성한다. 이러한 엔트로피 모델(45)은 워드 바이그램 및 전이 바이그램을 포함한다. 여기서, 워드 바이그램은 문장 내의 클래스 확률 분포이며, 전이 바이그램은 클래스 사이의 이동 관계를 나타내는 확률 분포이다.
정리하자면, 상기 모델 학습기(34)에서 수행되는 학습 과정은 다음의 [수학식 1]과 같다.
Figure 112007047444105-pat00005
상기 [수학식 1]에서, 클래스 정보 "ne"와 문맥 정보 "ht"를 사용하여 훈련 자질 정보 리스트 내의 모든 자질에 대한 확률 및 가중치를 계산하며, 이 계산 결과를 상기 훈련 자질 각각에 할당해 엔트로피 모델(45)로서 생성하여 통계 DB(35)에 저장된다.
한편, 상기 자질 정보 추출기(33)는 형태소 분석된 입력 문장(42)으로부터 연속적으로 "n, n-1, …, 1" 그램의 테스트 자질을 추출하여 후보 개체명 추출기(36)로 전달한다. 여기서도, 자질 정보 추출기(33)에서는 현재 단어를 중심으로 이전 "k"[여기서 k ≤ n] 단어와 이후 "k" 단어 길이만큼의 윈도우를 설정하고서 3단계로 분할하여 테스트 자질을 추출한다.
상기 후보 개체명 추출기(36)에서는 통계 DB(35)에 저장되어 있는 엔트로피 모델(45)을 토대로 자질 정보 추출기(33)로부터 입력받은 테스트 자질(44)에 대한 최종 개체명(46)을 출력한다. 이러한 후보 개체명 추출기(36)에서 수행되는 개체명 인식 과정에 대해서는 도 3을 참조하여 상세히 후술하기로 한다.
도 3은 도 2의 후보 개체명 추출기에 대한 일실시예 상세 구성도이다.
도 3에 도시된 바와 같이, 상기 후보 개체명 추출기(36)는 최대 엔트로피 분류기[ME(Maximum Entropy) Classifier](51), 나이브 베이시안(Naive Baysian) 결정기(52) 및 최적 경로 결정기(53)를 포함한다.
상기 최대 엔트로피 분류기(51)는 통계 DB(35)에 저장되어 있는 엔트로피 모델(45)을 토대로, 자질 정보 추출기(33)로부터 입력받은 테스트 자질(44)을 범주화(Bracketing)시켜 상기 테스트 자질(44)에 대한 클래스 범주를 결정한 후에, 이 클래스 범주 결과에 대해 레이블링(Labeling)을 수행해 1차 후보 개체명(61)을 획득한다. 여기서, 최대 엔트로피 분류기(51)에서는 테스트 자질(44)을 범주화하는데 있어 각 테스트 자질에 대응되는 문장에 대해 조건부 확률을 추측하여 3가지 클래스 범주 후보, 예컨대 "B", "I" 및 "O" 중 어느 하나의 클래스 범주를 결정해 범주화를 수행한다.
본 발명에서는 상기와 같이 범주화 과정과 레이블링 과정을 2 스텝으로, 예컨대 범주화 과정 수행 결과에 따른 클래스 범주 결과를 레이블링해 1차 후보 개체명(61)을 획득하는데, 이는 범주화가 레이블링보다도 개체명 추측에 더 중요할 뿐더러 재현율(recall)을 더욱 높이고자 함이다. 즉, 범주화는 재현율과 밀접한 관련성이 있고, 레이블링은 정확률(precision)과 관련성이 높은데, 일단 범주화를 성공하게 되면 이후에 개체명 수동 조작을 통해 정확률을 높일 수 있지만 범주화에 실패하게 되면 개체명 인식 자체가 불가능하기 때문이다.
상기 나이브 베이시안 결정기(52)는 통계 DB(35)에 저장되어 있는 엔트로피 모델(45) 중에서 워드 바이그램(62)을 토대로, 최대 엔트로피 분류기(51)에서 획득 한 1차 후보 개체명(61)으로부터 2차 후보 개체명(63)을 결정한다. 여기서, 나이브 베이시안 결정기(52)는 공지의 나이브 베이시안(Naive Baysian) 방식을 사용해 최대 엔트로피 분류기(51)로부터 입력받은 1차 후보 개체명(61)에 대해 "B"로 태깅된 부분을 실제 개체명으로 태깅한다. 즉, 나이브 베이시안 결정기(52)에서는 "0"를 제외한 "B"와 "I"로 둘러싸인 윈도우 컨텍스트를 참조하여 "B"의 세부 클래스 범주 중 어느 하나의 클래스 범주를 선정하여 2차 후보 개체명(63)을 결정한다. 이와 같이, 본 발명에서는 클래스 범주 중에서 "B" 및 "I"로 둘러싸인 부분만을 참조하여 간단한 나이브 베이시안 방식을 사용해 손쉽게 후보 개체명을 결정할 수 있는 것이다.
상기 최적 경로 결정기(53)는 통계 DB(35)에 저장되어 있는 엔트로피 모델(45) 중에서 전이 바이그램(64)을 토대로, 나이브 베이시안 결정기(52)에서 결정한 2차 후보 개체명(63)에 대해 공지의 비터비 알고리즘(viterbi algorithm)을 사용해 최적 범주 경로에 대응되는 최종 개체명(46)을 결정한다. 여기서, 상기 최적 경로 결정기(53)에서는 엔트로피 모델(45) 상의 범주에 대한 전이 바이그램(64)과 나이브 베이시안 결정기(52)에서 결정한 2차 후보 개체명(63)에 대한 확률 정보를 비터비 알고리즘에 적용해 최적 범주 경로에 대응되는 최종 개체명(46)을 결정한다.
정리하자면, 상기 최적 경로 결정기(53)에서 수행되는 최적 범주 경로 탐색 과정은 다음의 [수학식 2]와 같다.
Figure 112007047444105-pat00006
본 발명에서는 상기 [수학식 2]의 좌측의 확률값을 가장 크게 하기 위해 비터비 알고리즘을 사용하였다. 여기서, [수학식 2]의 확률 분포 "Pr(ci | s, D)"는 1차 후보 개체명(61)이 개선된 2차 후보 개체명(63)에 반영되어 있고, 클래스 사이의 이동 관계를 나타내는 확률 분포는 전이 바이그램(64)을 통해 알 수 있다.
상기 [수학식 2]에서, 본 발명에서는 비터비 알고리즘을 사용해 2차 후보 개체명에 대응되는 확률 분포와 전이 바이그램에 대응되는 확률 분포 중에서 가장 높은 확률값을 갖는 최적 범주 경로를 포워드 방향 또는 백워드 방향으로 탐색한다.
도 4는 본 발명에서 제시하는 개체명에 대한 최적 범주 경로 탐색을 위한 전이 바이그램에 대한 상태 천이도이다.
도 4에 도시된 바와 같이, 본 발명에서 제시하는 전이 바이그램에 대한 상태는 문장 시작(71), 클래스 시작["B"](72), 클래스 계속["I"](73), 클래스와 상관없음["O"](74) 및 문장 끝(75)으로 존재하며, 도면에 도시된 화살표는 다음 상태로 전이됨을 의미한다. 여기서, "74"에서 "73"으로의 전이 및 "71"에서 "73"으로의 전이는 허용되지 않으므로 비터비 알고리즘을 통한 탐색 시에 최적 범주 경로에서 탈락한다.
도 5는 도 2의 자질정보 추출기에서 추출한 "n=5"인 백오프 엔-그램 자질 관 계 그래프이다.
도 5에 도시된 바와 같이, 본 발명에서는 현재의 개체명 인식 대상에 대응되는 단어를 중심으로 하여 앞, 뒤의 2 단어를 주변 문맥 윈도우로 정해서 개체명 인식 대상 단어에 가까울수록 연관성이 매우 높다고 설정한다. 즉, "n"을 크게 하면 할수록 자질 개수가 지나치게 증가되기 때문에, 본 발명에서는 엔-그램의 길이를 "n=5"로 설정해 현재 단어를 중심으로 왼쪽(83), 가운데(84) 및 오른쪽(85)으로 3등분하여 주변 문맥 정보를 최대한 활용하였다.
도 5에서, 도면부호 "81"은 "n=5"인 경우에 현재 개체명 인식 대상 단어에 대한 확률 분포를, 도면부호 "82"는 상기 도면부호 "81"을 3등분한 것 중에서 오른쪽의 단어에 대한 확률 분포를 나타낸다.
도 6은 도 5의 우측 자손의 상세 자질 관계 그래프이다.
도 6에 도시된 바와 같이, 본 발명에서는 도 5에 도시된 "n=5"인 백오프 엔-그램 자질 관계 그래프 상의 의존 관계에 따라 자질이 추출되며, 이는 상위 확률 모델을 적용할 수 없는 경우에 하위 확률 모델로 후퇴하면서 해당 자질을 추출하는 것을 보여준다. 덧붙여, 도 5 및 도 6에 있어 't'는 태그 정보를, 'w'는 어휘 정보를, '*'는 와일드 카드를 나타내며, "n=5"인 백오프 엔-그램 자질 관계 그래프 및 그 우측 자손의 상세 자질 관계 그래프를 통해 확인할 수 있듯이 본 발명에서는 자질정보 추출기가 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 모든 자질[훈련 자질 또는 테스트 자질]을 추출하는 것이다. 이와 같이 본 발명에서 추출된 훈련 자질을 '백오프 엔-그램 단위의 훈련 자질'이라 정의하고, 테스트 자질을 '백오프 엔-그램 단위의 테스트 자질'이라 정의한 것이다.
다음의 [표 3]은 본 발명에 따른 개체명 타입과 각 개체명 설명 및 일례를 나타낸다.
Figure 112007047444105-pat00007
상기 [표 3]에서, 각 단어에 대한 클래스는 "B", "I" 및 "O"로 구성된다. 또한, 상기 "B"를 기술하면, 개체명 타입은 "인명(Person)", "회사명(Organization Name)", "국가명(Geo-Political Entity)", "시간(Dates&Time)", "시설(Facility)", "탈것(Vehicle)", "지역명(Location Entity)" 및 "무기(Weapon)" 등과 같은 요소로 이루어진다.
도 7은 본 발명에 따른 백오프 엔-그램 자질을 이용한 개체명 인식 방법에 대한 일실시예 흐름도이며, 앞서 본 발명의 개체명 인식 장치(30)의 동작, 처리 과정 등에 대해 상세히 전술하였기에 이에 대응되는 방법적인 플로우에 대한 구체적인 설명은 생략하기로 한다.
먼저, 공지의 개체명 사전 DB(31)로부터 자동 방식 또는 사용자 입력의 수동 방식에 따라 특정 개체명을 추출해 형태소 분석기(20)를 통과시켜 학습 예제[형태소 분석된 훈련 말뭉치(41)]를 생성해 놓는다(701).
이후, 상기와 같이 형태소 분석된 훈련 말뭉치(41)를 생성한 상태에서, 외부로부터 입력되는 형태소 분석된 입력 문장(42)에 대한 처리, 즉 외부로부터 입력받은 웹문서, 전자문서, 사용자 입력 텍스트, 음성 인식기를 거쳐 텍스트로 전환된 문장 등의 형태소 분석된 입력 문장(42)에 대한 개체명 인식 과정 수행을 시작한다.
즉, 상기 형태소 분석된 훈련 말뭉치(41)에 포함되어 있는 각각의 형태소와 단어의 조합에 대응되는 백오프 엔-그램 단위의 훈련 자질(43)을 추출하며(702), 상기 외부 입력 문서상의 형태소 분석된 입력 문장(42)에 포함되어 있는 각각의 형태소와 단어의 조합에 대응되는 백오프 엔-그램 단위의 테스트 자질(44)을 추출한다(703). 상기 "702" 과정에서는 형태소 분석된 훈련 말뭉치(41) 상의 현재 단어를 중심으로 이전 "k"[여기서 k ≤ n] 단어와 이후 "k" 단어 길이만큼의 윈도우를 설정하고서 3단계로 분할하여 훈련 자질을 추출하며, 마찬가지로 상기 "703" 과정에서는 형태소 분석된 입력 문장(42) 상의 현재 단어를 중심으로 이전 "k"[여기서 k ≤ n] 단어와 이후 "k" 단어 길이만큼의 윈도우를 설정하고서 3단계로 분할하여 테스트 자질을 추출한다.
그리고서, 상기 추출한 훈련 자질을 공지의 최대 엔트로피 모델링 툴 키트(Maximum Entropy Modeling Tool Kit)를 통해 학습시켜서 엔트로피 모델(45)을 생성해 통계 DB(35)에 저장시킨다(704). 이때, 현재의 반복 횟수와 목표 훈련 정확도를 셋팅한 상태에서 훈련 자질에 관한 파라미터 개수와 훈련 이벤트를 설정하고서, 상기 훈련 자질에 대해 반복 스케일(Iterative Scale)을 적용해 가면서 최대 엔트로피 모델링 툴 키트에 통과시켜 확률 및 가중치를 계산해 해당 훈련 자질 각각에 할당함으로서 엔트로피 모델(45)을 생성한다. 여기서, 엔트로피 모델(45)은 워드 바이그램 및 전이 바이그램을 포함한다.
다음으로, 상기 "704" 과정에 의해 통계 DB(35)에 엔트로피 모델(45)이 저장된 상태에서, 상기 엔트로피 모델(45)을 토대로 상기 추출한 테스트 자질(44)에 대한 최종 개체명(46)을 인식하는 과정을 수행한다.
즉, 상기 엔트로피 모델(45)을 토대로 상기 테스트 자질(44)을 범주화(Bracketing)시켜 상기 테스트 자질(44)에 대해 클래스 범주 중 어느 하나의 클래스 범주를 결정한다(705). 이때, 테스트 자질(44)을 범주화하는데 있어 각 테스트 자질에 대응되는 문장에 대해 조건부 확률을 추측하여 3가지 클래스 범주 후보, 예컨대 "B", "I" 및 "O" 중 어느 하나의 클래스 범주를 결정해 범주화를 수행한다.
그런 후에, 상기 결정한 클래스 범주 결과에 대해 레이블링(Labeling)을 수행해 1차 후보 개체명(61)을 획득한다(706).
그리고서, 상기 통계 DB(35)에 저장되어 있는 엔트로피 모델(45) 중에서 워드 바이그램(62)을 토대로 상기 획득한 1차 후보 개체명(61)으로부터 2차 후보 개체명(63)을 결정한다(707). 이때, 공지의 나이브 베이시안(Naive Baysian) 방식을 사용해 상기 1차 후보 개체명(61)에 대해 "B"로 태깅된 부분을 실제 개체명으로 태깅한다. 즉, "0"를 제외한 "B"와 "I"로 둘러싸인 윈도우 컨텍스트를 참조하여 "B"의 세부 클래스 범주 중 어느 하나의 클래스 범주를 선정하여 2차 후보 개체명(63)을 결정한다.
그런 후, 상기 통계 DB(35)에 저장되어 있는 엔트로피 모델(45) 중에서 전이 바이그램(64)을 토대로 상기 결정한 2차 후보 개체명(63)에 대해 공지의 비터비 알고리즘(viterbi algorithm)을 사용해 최적 범주 경로에 대응되는 최종 개체명(46)을 결정한다(708).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은 개체명 인식을 수행하는데 있어 자료 희귀(data sparseness) 현상 문제를 해결할 수 있는 효과와, 미등록된 단어나 저빈도 단어에 대한 개체명 인식 신뢰도를 보장하는 효과가 있다.
또한, 본 발명은 기관명 사전, 인명 사전 등과 같은 특정 클래스 사전 집합이나 외부의 언어 정보를 사용하지 않고서 오로지 훈련 말뭉치만을 사용해 특정 언 어에 종속되지 않고 독립적으로 개체명 인식을 수행할 수 있는 효과가 있다.
또한, 본 발명은 학습 데이터에 따라 자질이 변화되며, 이러한 자질을 통해 개체명 인식을 수행함으로써 도메인에 관계없이 다양한 분야의 개체명을 정확하게 인식할 수 있는 효과가 있다.
또한, 본 발명은 특정 언어의 사전 온톨로지를 이용하거나 학습 데이터양을 늘려서 개체명 인식 성능 향상을 도모할 수 있도록 하는 효과가 있다.

Claims (18)

  1. 개체명 인식 장치에 있어서,
    개체명 사전 DB로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하기 위한 개체명 입력기;
    상기 개체명 입력기에서 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하며, 외부로부터 입력받은 문서 상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하기 위한 자질 정보 추출기;
    상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성해 통계 DB에 저장하기 위한 모델 학습기; 및
    상기 통계 DB 상의 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하기 위한 후보 개체명 추출기
    를 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  2. 제 1 항에 있어서,
    상기 후보 개체명 추출기는,
    상기 통계 DB 상의 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시켜 해당 클래스 범주를 결정한 후에, 상기 클래스 범주 결과에 대해 레이블링을 수행해 1차 후보 개체명을 획득하기 위한 최대 엔트로피 분류기;
    상기 통계 DB 상의 엔트로피 모델 중 워드 바이그램을 토대로 상기 최대 엔트로피 분류기에서 획득한 1차 후보 개체명으로부터 2차 후보 개체명을 결정하기 위한 나이브 베이시안 결정기; 및
    상기 통계 DB 상의 엔트로피 모델 중 전이 바이그램을 토대로 상기 나이브 베이시안 결정기에서 결정한 2차 후보 개체명에 대해 최적 범주 경로에 대응되는 최종 개체명을 결정하기 위한 최적 경로 결정기
    를 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  3. 제 2 항에 있어서,
    상기 최대 엔트로피 분류기는,
    상기 백오프 엔-그램 단위의 테스트 자질에 대응되는 문장에 대해 조건부 확률을 추측하여 클래스 범주 후보 중 어느 하나의 클래스 범주를 결정해, 상기 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시키는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  4. 제 3 항에 있어서,
    상기 클래스 범주 후보는 클래스 시작["B"], 클래스 계속["I"] 및 클래스와 상관없음["O"]을 포함하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  5. 제 2 항에 있어서,
    상기 나이브 베이시안 결정기는,
    상기 통계 DB 상의 엔트로피 모델 중 워드 바이그램을 토대로 상기 최대 엔트로피 분류기로부터 입력받은 1차 후보 개체명에 대해 클래스 범주 B["클래스 시작"]로 태깅된 부분을 실제 개체명으로 태깅하여 2차 후보 개체명을 결정하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  6. 제 2 항에 있어서,
    상기 최적 경로 결정기는,
    비터비 알고리즘을 사용해, 상기 통계 DB 상의 엔트로피 모델 중 전이 바이그램에 대응되는 확률 분포와 상기 나이브 베이시안 결정기에서 결정한 2차 후보 개체명에 대응되는 확률 분포 중에서 가장 높은 확률값을 갖는 최적 범주 경로를 탐색하여 최종 개체명을 결정하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 자질 정보 추출기는,
    상기 훈련 말뭉치 또는 상기 형태소 분석된 입력 문장의 확률 분포를 추정할 수 없음에 따라 한 단계씩 해당 엔-그램 파라미터를 줄여가면서 자질 모델을 적용해 해당되는 백오프 엔-그램 단위의 훈련 자질 또는 백오프 엔-그램 단위의 테스트 자질을 추출하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  8. 제 7 항에 있어서,
    상기 엔-그램 파라미터는 "n=5"인 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  9. 제 8 항에 있어서,
    상기 자질 정보 추출기는,
    상기 개체명 입력기로부터 입력받은 훈련 말뭉치로부터 연속적으로 "n, n-1, …, 1" 그램의 훈련 자질을 추출하고, 상기 외부 입력 문서상의 형태소 분석된 입력 문장으로부터 연속적으로 "n, n-1, …, 1" 그램의 테스트 자질을 추출하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  10. 제 9 항에 있어서,
    상기 자질 정보 추출기는,
    상기 백오프 엔-그램 단위의 훈련 자질 또는 상기 백오프 엔-그램 단위의 테스트 자질을 추출하는데 있어, 현재 단어를 중심으로 이전 "k"[여기서 k ≤ n] 단어와 이후 "k" 단어 길이만큼의 주변 문맥 윈도우를 설정하고서 3단계로 분할하여 해당되는 백오프 엔-그램 단위의 훈련 자질 또는 백오프 엔-그램 단위의 테스트 자질을 추출하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  11. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 모델 학습기는,
    상기 자질 정보 추출기로부터 입력받은 백오프 엔-그램 단위의 훈련 자질을 최대 엔트로피 모델링 툴 키트(Maximum Entropy Modeling Tool Kit)를 통해 학습시켜서 엔트로피 모델을 생성하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  12. 제 11 항에 있어서,
    상기 모델 학습기는,
    현재의 반복 횟수와 목표 훈련 정확도를 셋팅한 상태에서, 상기 자질 정보 추출기로부터 입력받은 백오프 엔-그램 단위의 훈련 자질에 관한 파라미터 개수와 훈련 이벤트를 설정하고서, 상기 백오프 엔-그램 단위의 훈련 자질에 대해 반복 스케일을 적용해 가면서 상기 최대 엔트로피 모델링 툴 키트에 통과시켜 확률 및 가중치를 계산하여 해당 백오프 엔-그램 단위의 훈련 자질에 할당하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  13. 제 12 항에 있어서,
    상기 엔트로피 모델은 워드 바이그램 및 전이 바이그램을 포함하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  14. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 개체명 입력기는,
    상기 개체명 사전 DB로부터 특정 개체명을 추출해 공지의 형태소 분석기를 통과시켜 형태소 분석된 상기 훈련 말뭉치를 생성하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  15. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 외부로부터 입력받은 문서는 웹문서, 전자문서, 사용자 입력 텍스트, 공지의 음성 인식기를 거쳐 텍스트로 전환된 문장 중 하나를 포함하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
  16. 개체명 인식 방법에 있어서,
    개체명 사전으로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하는 단계;
    상기 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하는 단계;
    외부로부터 입력받은 문서상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하는 단계;
    상기 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성하는 단계; 및
    상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하는 단계
    를 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 방법.
  17. 제 16 항에 있어서,
    상기 개체명을 결정하는 단계는,
    상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시켜 해당 클래스 범주를 결정한 후에, 상기 클래스 범주 결과에 대해 레이블링을 수행해 1차 후보 개체명을 획득하는 과정;
    상기 엔트로피 모델 중 워드 바이그램을 토대로 상기 획득한 1차 후보 개체명으로부터 2차 후보 개체명을 결정하는 과정; 및
    상기 엔트로피 모델 중 전이 바이그램을 토대로 상기 결정한 2차 후보 개체명에 대해 최적 범주 경로에 대응되는 최종 개체명을 결정하는 과정
    을 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 방법.
  18. 프로세서를 구비한 개체명 인식 장치에,
    개체명 사전으로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하는 기능;
    상기 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하는 기능;
    외부로부터 입력받은 문서상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하는 기능;
    상기 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성하는 기능; 및
    상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020070064689A 2007-06-28 2007-06-28 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 KR100877477B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070064689A KR100877477B1 (ko) 2007-06-28 2007-06-28 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070064689A KR100877477B1 (ko) 2007-06-28 2007-06-28 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법

Publications (1)

Publication Number Publication Date
KR100877477B1 true KR100877477B1 (ko) 2009-01-07

Family

ID=40482289

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070064689A KR100877477B1 (ko) 2007-06-28 2007-06-28 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법

Country Status (1)

Country Link
KR (1) KR100877477B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480837B1 (ko) 2014-10-27 2015-01-13 국방과학연구소 링크 구조 기반의 교차 언어간의 비정의 개체 추출 및 연결 방법
KR101559576B1 (ko) 2014-05-16 2015-10-15 동아대학교 산학협력단 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법
KR101846824B1 (ko) * 2017-12-11 2018-04-09 가천대학교 산학협력단 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
KR101941692B1 (ko) 2017-10-18 2019-01-23 서강대학교산학협력단 한국어 개체명 인식방법 및 장치
CN112307134A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040018008A (ko) * 2002-08-24 2004-03-02 한국전자통신연구원 품사 태깅 장치 및 태깅 방법
KR20040038559A (ko) * 2002-11-01 2004-05-08 한국전자통신연구원 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법
KR20060067071A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법
KR20070045748A (ko) * 2005-10-28 2007-05-02 삼성전자주식회사 개체명 검출 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040018008A (ko) * 2002-08-24 2004-03-02 한국전자통신연구원 품사 태깅 장치 및 태깅 방법
KR20040038559A (ko) * 2002-11-01 2004-05-08 한국전자통신연구원 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법
KR20060067071A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법
KR20070045748A (ko) * 2005-10-28 2007-05-02 삼성전자주식회사 개체명 검출 장치 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101559576B1 (ko) 2014-05-16 2015-10-15 동아대학교 산학협력단 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법
KR101480837B1 (ko) 2014-10-27 2015-01-13 국방과학연구소 링크 구조 기반의 교차 언어간의 비정의 개체 추출 및 연결 방법
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108205524B (zh) * 2016-12-20 2022-01-07 北京京东尚科信息技术有限公司 文本数据处理方法和装置
KR101941692B1 (ko) 2017-10-18 2019-01-23 서강대학교산학협력단 한국어 개체명 인식방법 및 장치
KR101846824B1 (ko) * 2017-12-11 2018-04-09 가천대학교 산학협력단 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체
CN112307134A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备及存储介质
CN112307134B (zh) * 2020-10-30 2024-02-06 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
Wang et al. An acoustic measure for word prominence in spontaneous speech
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
KR100877477B1 (ko) 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법
CN112183073A (zh) 一种适用于法律热线语音识别的文本纠错和补全方法
Juhár et al. Recent progress in development of language model for Slovak large vocabulary continuous speech recognition
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
Zhang et al. Automatic parliamentary meeting minute generation using rhetorical structure modeling
Kolář et al. Automatic sentence boundary detection in conversational speech: A cross-lingual evaluation on English and Czech
Masumura et al. Training a Language Model Using Webdata for Large Vocabulary Japanese Spontaneous Speech Recognition.
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
Kim et al. Automatic capitalisation generation for speech input
Lee et al. Sentence detection using multiple annotations
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Withanage et al. A stochastic part of speech tagger for the sinhala language based on social media data mining
Enzell Domain Adaptation with N-gram Language Models for Swedish Automatic Speech Recognition: Using text data augmentation to create domain-specific n-gram models for a Swedish open-source wav2vec 2.0 model
Navoda et al. Automated spelling and grammar checker tool for sinhala
Henderson et al. Data-driven methods for spoken language understanding
Hladek et al. Morphological analysis of the slovak language
Sproat et al. Dialectal Chinese speech recognition
Maarif et al. Adaptive language processing unit for Malaysian sign language synthesizer
Mengusoglu et al. Confidence Measures in HMM/MLP Hybrid Speech Recognition for Turkish Language
Staš et al. Incorporating grammatical features in the modeling of the slovak language for continuous speech recognition
Das et al. Voice Verter Using Whisper Algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121205

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131205

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20141208

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151207

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20161205

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20171204

Year of fee payment: 10