KR20040038559A - 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 - Google Patents

텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 Download PDF

Info

Publication number
KR20040038559A
KR20040038559A KR1020020067571A KR20020067571A KR20040038559A KR 20040038559 A KR20040038559 A KR 20040038559A KR 1020020067571 A KR1020020067571 A KR 1020020067571A KR 20020067571 A KR20020067571 A KR 20020067571A KR 20040038559 A KR20040038559 A KR 20040038559A
Authority
KR
South Korea
Prior art keywords
dictionary
name
document set
pattern rule
recognizing
Prior art date
Application number
KR1020020067571A
Other languages
English (en)
Other versions
KR100479205B1 (ko
Inventor
왕지현
이현숙
윤보현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0067571A priority Critical patent/KR100479205B1/ko
Publication of KR20040038559A publication Critical patent/KR20040038559A/ko
Application granted granted Critical
Publication of KR100479205B1 publication Critical patent/KR100479205B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서를 이용하여 반복학습을 통해 초기에 주어진 패턴규칙과 어휘사전을 자동적으로 확장함으로써, 점차적으로 개체명 인식의 범위를 확장해 나가도록 하기 위한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치에 있어서, 외부로부터 입력된 일반 텍스트 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출수단; 현재 보유하고 있는 패턴규칙 리스트를 상기 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하기 위한 어휘사전 확장수단; 및 상기 어휘사전을 상기 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 상기 패턴규칙 리스트를 확장하기 위한 패턴규칙 확장수단을 포함함.
4. 발명의 중요한 용도
본 발명은 개체명 인식 및 의미범주 분류 장치 등에 이용됨.

Description

텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치 및 그 방법{Apparatus and method for recongnizing and classifying named entities from text document using iterated learning}
본 발명은 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 문서가 포함하고 있는 개체명에 대한정보를 제공하지 않는 일반 한국어 텍스트 문서를 이용하여 반복학습을 통해 패턴규칙과 어휘사전을 자동적으로 확장함으로써, 개체명을 인식하고 분류할 수 있도록 하기 위한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
여기서, 개체명이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현을 말한다. 개체명의 의미범주는 크게 인명, 지명, 기관명과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다.
정보의 양이 기하급수적으로 급증하면서 문서에서 자동으로 핵심어를 찾아내는 것은 정보추출이나 정보검색과 같은 자연어처리 응용에서 매우 중요한 작업이다. 이러한 핵심어의 대부분은 개체명으로, 개체명은 인명, 지명, 기관명과 같은 고유명사와 날짜, 시간, 화폐 등의 수치 표현으로 구분할 수 있다.
즉, 수치 표현은 비교적 단순한 문법에 의해 효과적으로 인식될 수 있지만 고유명사는 새로운 고유명사가 계속적으로 만들어지고 그 형태가 가변적이기 때문에 사전에 등록되지 않은 개체명을 인식하는 것은 쉬운 일이 아니다. 또한, 동일한 개체명이 문맥에 따라 다른 범주로 사용될 수 있다는 문제점이 있다.
이러한 문제를 해결하기 위한 기존 연구들은 크게 규칙 기반의 개체명 인식(Rule-based approach), 통계 기반의 개체명 인식(Statistics-based approach), 그리고 두 가지 방법을 통합하여 접근하는 하이브리드 방식의 개체명 인식(Hybrid approach)으로 나누어 볼 수 있다.
규칙 기반의 방법은 개체명 인식을 위한 규칙을 수동으로 구축하고, 고유명사 사전, 개체명 인식의 단서가 되는 단어 사전, 개체명의 문맥으로 나오는 단어 사전 등 다양한 사전을 이용하여 개체명을 인식하는 방법이다. 그러나, 이 방법은 사람의 직관에 크게 의존하며 새로운 도메인에 적용될 때, 규칙과 사전이 변경되어야 하므로 많은 시간과 비용이 요구된다.
통계 기반의 방법은 학습데이터로부터 개체명 인식에 필요한 지식을 자동적으로 학습하는 방법으로, 주로 철자, 품사, 형태소로부터 얻어낸 정보를 이용하여 개체명 인식을 위한 규칙을 학습한다. 통계 기반의 개체명 인식은 이미 개체명이 태깅된 학습데이터를 이용하는 교사 학습 방법과 아무런 처리가 되어 있지 않은 일반 문서들을 학습데이터로 이용하는 비교사 학습 방법으로 구분할 수 있다. 교사 학습 방법은 개체명이 태깅된 학습데이터를 생성하는데 많은 비용이 요구되며 구축할 수 있는 양 또한 제한적일 수 밖에 없다.
이에 반해, 비교사 학습 방법은 학습데이터의 생성이 용이하지만 한국어 개체명의 특성상 단순한 자질만으로는 개체명 인식을 위한 규칙을 생성하기 어렵다는 문제점이 있다.
하이브리드 방법은 규칙 기반의 방법과 통계 기반의 방법을 통합하여 보다 나은 결과를 얻기 위한 목적으로 통계 기반의 모델에 규칙이나 어휘, 사전 등의 다양한 지식들을 결합하는 방식이다. 그러나 이 방법은 규칙 기반과 통계 기반의 문제점을 모두 가지고 있다고 볼 수 있다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서를 이용하여 반복학습을 통해 초기에 주어진 패턴규칙과 어휘사전을 자동적으로 확장함으로써, 점차적으로 개체명 인식의 범위를 확장해 나가도록 하기 위한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치의 일실시예 구성도.
도 2 는 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 대한 일실시예 흐름도.
도 3 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 개체명 인식을 위한 언어자질을 나타내는 일예시도.
도 4 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 어휘사전을 학습하는 과정을 나타내는 일실시예 상세 흐름도.
도 5 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 패턴규칙을 학습하는 과정을 나타내는 일실시예 상세 흐름도.
도 6 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 어휘사전의 일예시도.
도 7 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 패턴규칙의일예시도.
도 8 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 어휘사전을 학습하는 일예시도.
도 9 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 패턴규칙을 학습하는 일예시도.
도 10 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 패턴규칙의 신뢰도를 계산하는 과정을 나타낸 일실시예 설명도.
* 도면의 주요 부분에 대한 부호의 설명
10 : 언어자질 추출부11 : 문서집합
12 : 어휘사전20 : 어휘사전 학습부
21 : 패턴규칙 리스트22 : 개체명 리스트
30 : 패턴규칙 학습부
상기 목적을 달성하기 위한 본 발명은, 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치에 있어서, 외부로부터 입력된 일반 텍스트 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출수단; 현재 보유하고 있는 패턴규칙 리스트를 상기 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하기 위한 어휘사전 확장수단; 및 상기 어휘사전을 상기 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 상기 패턴규칙 리스트를 확장하기 위한 패턴규칙 확장수단을 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 있어서, 언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 단계; 어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 단계; 및 상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 프로세서를 구비한 개체명 인식 및 의미범주 분류 장치에, 언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 기능; 어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 기능; 및 상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치는, 외부로부터 입력된 일반 텍스트 문서집합(11)에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출부(10)와, 현재 보유하고 있는 패턴규칙 리스트(21)를 문서집합(11)에 적용하여개체명 리스트(22) 및 새로 추가될 어휘후보를 결정하고 어휘사전(12)을 확장하기 위한 어휘사전 학습부(20)와, 현재의 어휘사전(12)을 문서집합(11)에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙 리스트(21)를 확장하기 위한 패턴규칙 학습부(30)를 구비한다. 단, 어휘사전 학습부(20)와 패턴규칙 학습부(30)는 서로 상호작용하며 반복학습을 수행한다.
여기서, 언어자질 추출부(10)는 숫자나 한자, 특수문자와 같은 문자형태 정보를 이용하여 개체명을 인식하는데 필요한 언어자질을 추출한다. 도 3 은 본 발명에서 추출될 수 있는 개체명 인식을 위한 언어자질을 나타낸 것으로서, 언어자질 추출부(10)에서 추출된 언어자질은 패턴규칙의 구성요소가 될 수 있으며, 어휘사전 학습부(20)에서 패턴규칙 적용(도 4의 420) 단계와 패턴규칙 학습부(30)에서 패턴규칙 생성(도 5의 520) 단계에서 이용된다.
어휘사전(12)은 인명, 지명, 기관명 등의 고유명사사전, 개체명 인식의 단서가 되는 단어들로 구성된 단서단어사전, 개체명의 문맥으로 나오는 단어들로 구성된 문맥단어사전으로 도 6 은 어휘사전의 일예시도이다.
패턴규칙 리스트(21)는 개체명을 구성하는 규칙을 나타내는 개체명 확장규칙과 개체명이 문맥과 결합되는 규칙을 나타내는 개체명 결합규칙으로 구분될 수 있다. 도 7은 패턴규칙의 일예시도로서, 개체명 확장규칙은 개체명의 의미범주별로 여러 개 존재할 수 있으며, 개체명 결합규칙은 개체명 간 결합규칙, 병렬형 결합규칙, 어휘 결합규칙으로 분류할 수 있다. 개체명 간 결합규칙은 개체명 간 결합을 나타낸 규칙 혹은 개체명과 사전에 의해 의미 범주가 정해진 어휘간의 결합을 나타낸 규칙이다. 병렬형 결합규칙은 문서에서 같은 의미 범주의 개체명이 나열될 때의 규칙을 의미한다. 어휘 결합 규칙은 개체명과 사전에 포함되지 않는 일반 어휘나 기호와의 결합을 나타내는 규칙이다.
어휘사전 학습부(20)는 어휘사전(12)에 포함된 단어들을 문서집합(11)에서 탐색하여 의미 범주를 표시한 후, 패턴규칙 리스트(21)를 적용하여 개체명 및 특정 의미범주에 해당하는 새로운 어휘들을 인식하고 사전을 확장한다. 어휘사전 학습 단계는 후술되는 도 4와 도 8을 참고로 한다.
패턴규칙 학습부(30)는 어휘사전(12)을 적용하여 문서집합(11)에서 사전에 포함된 어휘들을 탐색하여 의미 범주를 표시하고 반복되어 출현하는 패턴을 찾아내어 패턴규칙 리스트(21)를 확장한다. 패턴규칙 학습 단계는 후술되는 도 5와 도 9를 참고로 한다.
상기한 바와 같은 구조를 갖는 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치의 동작을 상세하게 설명하면 다음과 같다.
도 2 는 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 대한 일실시예 흐름도이다.
도 2에 도시된 바와 같이, 본 발명에 따른 텍스트 문서집합에서 반복학습을 통해 개체명을 인식하고 그것의 의미범주로 분류하기 위해서는, 먼저 언어자질 추출부(10)가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하고(210), 어휘사전 학습부(20)에서 패턴규칙 리스트를 문서집합에 적용하여개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장한 후(220), 패턴규칙 학습부(30)가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장한다.
도 4 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 어휘사전을 학습하는 과정(220)을 나타내는 일실시예 상세 흐름도이다.
도 4에 도시된 바와 같이, 어휘사전 적용 단계(410)는 입력된 문서집합에서 고유명사사전, 단서단어사전, 문맥단어사전과 같은 어휘사전(411)에 해당하는 단어들을 검색하여 사전과 대응하는 의미범주를 할당해 준다. 패턴규칙 적용 단계(420)는 패턴규칙 리스트(개체명 확장규칙 및 개체명 결합규칙)(421)를 적용하여 개체명 또는 특정 의미범주의 어휘 후보 등 패턴규칙의 구성요소들을 인식한다. 어휘 후보 추출 단계(520)는 패턴규칙 적용 단계(420)에서 인식된 패턴규칙의 구성요소들로부터 현재 어휘사전에 포함되어 있지 않은 새로운 개체명 및 어휘 후보들을 추출한다. 어휘 확률 계산 단계(440)는 어휘 후보들 중 적절하지 못한 어휘를 여과하기 위하여 각 어휘 후보마다 해당 의미 범주에 포함될 확률을 계산한다.
어휘사전 확장 단계(450)는 최상위 확률을 가지는 n개의 어휘를 선택하여 각각의 의미 범주에 해당하는 사전에 추가한다.
도 8 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 어휘사전을 학습하는 일예시도이다.
도 8에 도시된 바와 같이, 어휘사전이 (81)과정과 같을 때, 어휘사전을 적용한 결과 문서집합의 일부분이 (82)과정와 같이 의미 범주가 태깅된다. 패턴규칙 중개체명 확장규칙인 (83)과정이 적용되면 그에 해당하는 '[한국:지명]광고주[협회:기관명단서]', '[한국:지명]마케팅[포럼:기관명단서]'이 기관명 후보로 추출된다.
그 다음, 개체명 결합 규칙인 (85)과정을 적용하면 '[서울대:기관명] 송병락 [교수:직위]'에서 '송병락'이 인명 후보로, '[삼성물산:기관명] [배종렬:인명] 사장'에서 '사장'이 직위 후보로 추출된다. 패턴규칙 (83)과정 및 (85)과정의 적용 결과 추출된 어휘후보는 (87)과정과 같다.
도 5 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 패턴규칙을 학습하는 과정(230)을 나타내는 일실시예 상세 흐름도이다.
도 5에 도시된 바와 같이, 어휘사전 적용 단계(510)는 어휘사전(511)에 해당하는 단어들을 문서집합에서 검색하여 사전과 대응하는 의미 범주를 할당해 준다.
패턴규칙 생성 단계(520)는, 먼저 고유명사사전에 의해 인명, 지명, 기관명 등으로 의미 범주가 분류된 어휘를 대상으로 개체명 확장규칙을 생성한다. 그 다음, 개체명, 의미 범주가 할당된 어휘, 의미 범주가 할당되지 않은 일반 어휘 간의 반복되는 패턴을 검색하여 개체명 결합규칙을 생성한다. 패턴규칙 후보 추출 단계(530)는 패턴규칙 생성 단계(520)에서 생성된 패턴 중 패턴규칙 리스트(551)에 포함되지 않은 새로 발견된 패턴을 패턴규칙 후보로 추출한다. 패턴규칙 확률 계산 단계(540)는 패턴규칙 후보가 추출하는 어휘와 그것의 의미 범주가 어느 정도 일치하는지를 계산하여 패턴규칙의 신뢰도를 결정한다. 패턴규칙 확장 단계(550)는 최상위 신뢰도를 가지는 n개의 후보를 선택하여 패턴규칙 리스트를 확장함으로써 부적절한 패턴규칙 후보를 여과한다.
도 9 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 패턴규칙을 학습하는 일예시도이다.
도 9에 도시된 바와 같이, 어휘사전이 (91)과정과 같을 때, 어휘사전을 적용한 결과 반복되는 패턴이 나타나는 문장을 수집하면 (92)과정과 같다. (93)과정은 '[현대전자:기관명](대표 [정몽헌:인명])', '[효성중공업:기관명](대표 [유종열:인명])', '[삼성전자:기관명](대표 [김광호:인명])'에서 볼 수 있듯이, 기관명과 일반 어휘인 '대표'와 괄호, 인명이 반복되어 나타나는 것을 인식한 결과를 보여준다. (93)과정에서 인식된 패턴이 패턴규칙 리스트에 존재하지 않는 새로운 패턴이라고 가정할 때, (94)과정이 패턴규칙 후보로 추출된다.
도 10 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 패턴규칙의 신뢰도를 계산하는 과정을 나타낸 일실시예 설명도이다.
도 10에 도시된 바와 같이, 새로 발견된 각 패턴규칙의 신뢰도를 계산하는 수식으로, 패턴규칙이 추출하는 어휘와 의미범주가 얼마나 정확히 일치하는지를 측정한다. 즉, 패턴규칙이 인식한 의미범주의 어휘가 바르게 추출된 것이 많을수록 패턴의 신뢰도가 높다.
상기한 바와 같이 본 발명은, 입력된 텍스트 문서집합을 대상으로 언어자질 추출부가 개체명을 인식하는데 필요한 언어자질을 추출하고, 어휘사전 학습부가 초기에 주어진 패턴규칙 리스트를 문서집합에 적용한 후, 개체명 리스트를 추출하고, 새로 어휘사전에 추가될 어휘 후보를 결정하여 어휘사전을 확장하고, 패턴규칙 학습부가 확장된 어휘사전을 문서집합에 적용한 후, 새로운 패턴규칙을 생성 및 탐색하여 패턴규칙 리스트를 확장하고, 확장된 어휘사전과 패턴규칙 리스트를 이용하여 위와 같은 방법으로 어휘사전 학습부와 패턴규칙 학습부를 반복함으로써 점점 확장적으로 개체명을 인식한다.
이에 따라서, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서로부터 초기에 주어진 패턴규칙과 어휘사전을 학습에 의해 자동적으로 확장함으로써, 기존 개체명 인식 시스템의 문제점인 도메인 이식성 관점에서의 한계를 극복할 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서로부터 초기에 주어진 패턴규칙과 어휘사전을 학습에 의해 자동적으로 확장함으로써 점차적으로 개체명 인식의 범위를 확장해 나가는 기술로서, 패턴규칙과 어휘사전이 고정적이거나 수동으로 확장되지 않고 학습에 의해 자동으로 확장되므로 점점 더 다양한 분야의 문서들로부터 많은 개체명을 인식할 수 있다는 효과가 있다.
또한, 본 발명은, 개체명이 태깅된 대량의 학습데이터를 생성하는데 부담이 없으므로 적은 비용으로 학습을 수행할 수 있으므로 새로운 도메인으로의 이식성 한계를 극복할 수 있는 효과가 있다.

Claims (9)

  1. 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치에 있어서,
    외부로부터 입력된 일반 텍스트 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출수단;
    현재 보유하고 있는 패턴규칙 리스트를 상기 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하기 위한 어휘사전 확장수단; 및
    상기 어휘사전을 상기 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 상기 패턴규칙 리스트를 확장하기 위한 패턴규칙 확장수단
    을 포함하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
  2. 제 1 항에 있어서,
    상기 언어자질 추출수단은,
    숫자나 한자, 특수문자와 같은 문자형태 정보를 이용하여 개체명을 인식하는데 필요한 언어자질을 추출하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 어휘사전 확장수단은,
    입력된 문서집합에서 고유명사사전, 단서단어사전, 문맥단어사전과 같은 어휘사전에 포함된 단어들을 검색하여 사전과 대응하는 의미 범주를 할당한 후, 개체명 확장규칙 및 개체명 결합규칙을 적용하여 개체명 및 특정 의미범주에 해당하는 새로운 어휘들을 인식하고 어휘사전을 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
  4. 제 3 항에 있어서,
    상기 패턴규칙 확장수단은,
    상기 어휘사전에 해당하는 단어들을 문서집합에서 검색하여 사전과 대응하는 의미 범주를 할당하고, 고유명사사전에 의해 인명, 지명, 기관명 등으로 의미 범주가 할당된 어휘를 대상으로 개체명 확장 규칙을 생성하고, 개체명과 의미 범주가 할당된 어휘, 일반 어휘 간의 반복되는 패턴을 탐색하여 개체명 결합규칙을 생성한 후, 새로 발견된 패턴규칙으로 패턴규칙 리스트를 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
  5. 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 있어서,
    언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 단계;
    어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 단계; 및
    상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 단계
    를 포함하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
  6. 제 5 항에 있어서,
    상기 언어자질을 추출하는 과정은,
    숫자나 한자, 특수문자와 같은 문자형태 정보를 이용하여 개체명을 인식하는데 필요한 언어자질을 추출하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 어휘사전을 확장하는 과정은,
    입력된 문서집합에서 고유명사사전, 단서단어사전, 문맥단어사전과 같은 어휘사전에 포함된 단어들을 검색하여 사전과 대응하는 의미 범주를 할당한 후, 개체명 확장규칙 및 개체명 결합규칙을 적용하여 개체명 및 특정 의미범주에 해당하는 새로운 어휘들을 인식하고 어휘사전을 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
  8. 제 7 항에 있어서,
    상기 패턴규칙을 확장하는 과정은,
    상기 어휘사전에 해당하는 단어들을 문서집합에서 검색하여 사전과 대응하는 의미 범주를 할당하고, 고유명사사전에 의해 인명, 지명, 기관명 등으로 의미 범주가 할당된 어휘를 대상으로 개체명 확장 규칙을 생성하고, 개체명과 의미 범주가 할당된 어휘, 일반 어휘 간의 반복되는 패턴을 탐색하여 개체명 결합규칙을 생성한 후, 새로 발견된 패턴규칙으로 패턴규칙 리스트를 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
  9. 프로세서를 구비한 개체명 인식 및 의미범주 분류 장치에,
    언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 기능;
    어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 기능; 및
    상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2002-0067571A 2002-11-01 2002-11-01 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 KR100479205B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0067571A KR100479205B1 (ko) 2002-11-01 2002-11-01 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0067571A KR100479205B1 (ko) 2002-11-01 2002-11-01 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20040038559A true KR20040038559A (ko) 2004-05-08
KR100479205B1 KR100479205B1 (ko) 2005-03-28

Family

ID=37336758

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0067571A KR100479205B1 (ko) 2002-11-01 2002-11-01 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100479205B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
KR100825687B1 (ko) * 2006-03-08 2008-04-29 학교법인 포항공과대학교 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템
KR100877477B1 (ko) * 2007-06-28 2009-01-07 주식회사 케이티 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법
KR20180136830A (ko) * 2017-06-15 2018-12-26 주식회사 넥슨코리아 게임 제공장치 및 게임 제공방법
KR20200010679A (ko) * 2018-07-11 2020-01-31 국민대학교산학협력단 이질성 학습 기반의 정보 분류 장치
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN113032562A (zh) * 2021-03-18 2021-06-25 中国人民解放军火箭军工程大学 一种多次迭代对折词汇层级分类方法及系统
CN113190541A (zh) * 2021-05-12 2021-07-30 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于数字人文的实体识别方法
WO2023093421A1 (en) * 2021-11-24 2023-06-01 Beijing Youzhuju Network Technology Co., Ltd. Vocabulary generation for neural machine translation

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
US8655646B2 (en) 2005-10-28 2014-02-18 Samsung Electronics Co., Ltd. Apparatus and method for detecting named entity
KR100825687B1 (ko) * 2006-03-08 2008-04-29 학교법인 포항공과대학교 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
KR100877477B1 (ko) * 2007-06-28 2009-01-07 주식회사 케이티 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법
KR20180136830A (ko) * 2017-06-15 2018-12-26 주식회사 넥슨코리아 게임 제공장치 및 게임 제공방법
KR20200010679A (ko) * 2018-07-11 2020-01-31 국민대학교산학협력단 이질성 학습 기반의 정보 분류 장치
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN113032562A (zh) * 2021-03-18 2021-06-25 中国人民解放军火箭军工程大学 一种多次迭代对折词汇层级分类方法及系统
CN113032562B (zh) * 2021-03-18 2024-02-02 中国人民解放军火箭军工程大学 一种多次迭代对折词汇层级分类方法及系统
CN113190541A (zh) * 2021-05-12 2021-07-30 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于数字人文的实体识别方法
WO2023093421A1 (en) * 2021-11-24 2023-06-01 Beijing Youzhuju Network Technology Co., Ltd. Vocabulary generation for neural machine translation
US12112139B2 (en) 2021-11-24 2024-10-08 Beijing Youzhuju Network Technology Co. Ltd. Vocabulary generation for neural machine translation

Also Published As

Publication number Publication date
KR100479205B1 (ko) 2005-03-28

Similar Documents

Publication Publication Date Title
Lita et al. Truecasing
Shaalan et al. Arabic word generation and modelling for spell checking.
Sawalha et al. SALMA: standard Arabic language morphological analysis
Almohimeed et al. Arabic text to Arabic sign language translation system for the deaf and hearing-impaired community
Zaghouani et al. Adapting a resource-light highly multilingual named entity recognition system to Arabic.
KR100479205B1 (ko) 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Btoush et al. Rule based approach for Arabic part of speech tagging and name entity recognition
Indhuja et al. Text based language identification system for indian languages following devanagiri script
Silla Jr et al. An analysis of sentence boundary detection systems for English and Portuguese documents
Lahbari et al. A rule-based method for Arabic question classification
Polifroni et al. Bootstrapping Named Entity Extraction for the Creation of Mobile Services.
Dündar et al. A Hybrid Approach to Question-answering for a Banking Chatbot on Turkish: Extending Keywords with Embedding Vectors.
KR102109858B1 (ko) 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
Alfaries et al. A rule-based annotation system to extract Tajweed rules from Quran
Zayyan et al. Automatic diacritics restoration for dialectal arabic text
Basnayake et al. Plagiarism detection in Sinhala language: A software approach
Lee et al. Syllable-based Malay word stemmer
Yamaguchi et al. An accessible captcha system for people with visual disability–generation of human/computer distinguish test with documents on the net
Yohan et al. Automatic named entity identification and classification using heuristic based approach for telugu
Charoenpornsawat et al. Feature-based proper name identification in Thai
Abushaala et al. A comparative study on various deep learning techniques for Arabic NLP syntactic tasks on noisy data
Hassan et al. Rule based method of name entity recognition for matching Allah's finest names in Holy Quran
Zidouni et al. Efficient combined approach for named entity recognition in spoken language
Sithamparanathan et al. A sinhala and tamil extension to generic environment for context-aware correction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090303

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee