KR100877477B1 - 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 - Google Patents
백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 Download PDFInfo
- Publication number
- KR100877477B1 KR100877477B1 KR1020070064689A KR20070064689A KR100877477B1 KR 100877477 B1 KR100877477 B1 KR 100877477B1 KR 1020070064689 A KR1020070064689 A KR 1020070064689A KR 20070064689 A KR20070064689 A KR 20070064689A KR 100877477 B1 KR100877477 B1 KR 100877477B1
- Authority
- KR
- South Korea
- Prior art keywords
- feature
- entity name
- gram
- training
- backoff
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (18)
- 개체명 인식 장치에 있어서,개체명 사전 DB로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하기 위한 개체명 입력기;상기 개체명 입력기에서 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하며, 외부로부터 입력받은 문서 상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하기 위한 자질 정보 추출기;상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성해 통계 DB에 저장하기 위한 모델 학습기; 및상기 통계 DB 상의 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하기 위한 후보 개체명 추출기를 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 1 항에 있어서,상기 후보 개체명 추출기는,상기 통계 DB 상의 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 자질 정보 추출기에서 추출한 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시켜 해당 클래스 범주를 결정한 후에, 상기 클래스 범주 결과에 대해 레이블링을 수행해 1차 후보 개체명을 획득하기 위한 최대 엔트로피 분류기;상기 통계 DB 상의 엔트로피 모델 중 워드 바이그램을 토대로 상기 최대 엔트로피 분류기에서 획득한 1차 후보 개체명으로부터 2차 후보 개체명을 결정하기 위한 나이브 베이시안 결정기; 및상기 통계 DB 상의 엔트로피 모델 중 전이 바이그램을 토대로 상기 나이브 베이시안 결정기에서 결정한 2차 후보 개체명에 대해 최적 범주 경로에 대응되는 최종 개체명을 결정하기 위한 최적 경로 결정기를 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 2 항에 있어서,상기 최대 엔트로피 분류기는,상기 백오프 엔-그램 단위의 테스트 자질에 대응되는 문장에 대해 조건부 확률을 추측하여 클래스 범주 후보 중 어느 하나의 클래스 범주를 결정해, 상기 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시키는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 3 항에 있어서,상기 클래스 범주 후보는 클래스 시작["B"], 클래스 계속["I"] 및 클래스와 상관없음["O"]을 포함하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 2 항에 있어서,상기 나이브 베이시안 결정기는,상기 통계 DB 상의 엔트로피 모델 중 워드 바이그램을 토대로 상기 최대 엔트로피 분류기로부터 입력받은 1차 후보 개체명에 대해 클래스 범주 B["클래스 시작"]로 태깅된 부분을 실제 개체명으로 태깅하여 2차 후보 개체명을 결정하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 2 항에 있어서,상기 최적 경로 결정기는,비터비 알고리즘을 사용해, 상기 통계 DB 상의 엔트로피 모델 중 전이 바이그램에 대응되는 확률 분포와 상기 나이브 베이시안 결정기에서 결정한 2차 후보 개체명에 대응되는 확률 분포 중에서 가장 높은 확률값을 갖는 최적 범주 경로를 탐색하여 최종 개체명을 결정하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,상기 자질 정보 추출기는,상기 훈련 말뭉치 또는 상기 형태소 분석된 입력 문장의 확률 분포를 추정할 수 없음에 따라 한 단계씩 해당 엔-그램 파라미터를 줄여가면서 자질 모델을 적용해 해당되는 백오프 엔-그램 단위의 훈련 자질 또는 백오프 엔-그램 단위의 테스트 자질을 추출하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 7 항에 있어서,상기 엔-그램 파라미터는 "n=5"인 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 8 항에 있어서,상기 자질 정보 추출기는,상기 개체명 입력기로부터 입력받은 훈련 말뭉치로부터 연속적으로 "n, n-1, …, 1" 그램의 훈련 자질을 추출하고, 상기 외부 입력 문서상의 형태소 분석된 입력 문장으로부터 연속적으로 "n, n-1, …, 1" 그램의 테스트 자질을 추출하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 9 항에 있어서,상기 자질 정보 추출기는,상기 백오프 엔-그램 단위의 훈련 자질 또는 상기 백오프 엔-그램 단위의 테스트 자질을 추출하는데 있어, 현재 단어를 중심으로 이전 "k"[여기서 k ≤ n] 단어와 이후 "k" 단어 길이만큼의 주변 문맥 윈도우를 설정하고서 3단계로 분할하여 해당되는 백오프 엔-그램 단위의 훈련 자질 또는 백오프 엔-그램 단위의 테스트 자질을 추출하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,상기 모델 학습기는,상기 자질 정보 추출기로부터 입력받은 백오프 엔-그램 단위의 훈련 자질을 최대 엔트로피 모델링 툴 키트(Maximum Entropy Modeling Tool Kit)를 통해 학습시켜서 엔트로피 모델을 생성하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 11 항에 있어서,상기 모델 학습기는,현재의 반복 횟수와 목표 훈련 정확도를 셋팅한 상태에서, 상기 자질 정보 추출기로부터 입력받은 백오프 엔-그램 단위의 훈련 자질에 관한 파라미터 개수와 훈련 이벤트를 설정하고서, 상기 백오프 엔-그램 단위의 훈련 자질에 대해 반복 스케일을 적용해 가면서 상기 최대 엔트로피 모델링 툴 키트에 통과시켜 확률 및 가중치를 계산하여 해당 백오프 엔-그램 단위의 훈련 자질에 할당하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 12 항에 있어서,상기 엔트로피 모델은 워드 바이그램 및 전이 바이그램을 포함하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,상기 개체명 입력기는,상기 개체명 사전 DB로부터 특정 개체명을 추출해 공지의 형태소 분석기를 통과시켜 형태소 분석된 상기 훈련 말뭉치를 생성하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,상기 외부로부터 입력받은 문서는 웹문서, 전자문서, 사용자 입력 텍스트, 공지의 음성 인식기를 거쳐 텍스트로 전환된 문장 중 하나를 포함하는 것을 특징으로 하는 백오프 엔-그램 자질을 이용한 개체명 인식 장치.
- 개체명 인식 방법에 있어서,개체명 사전으로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하는 단계;상기 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하는 단계;외부로부터 입력받은 문서상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하는 단계;상기 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성하는 단계; 및상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하는 단계를 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 방법.
- 제 16 항에 있어서,상기 개체명을 결정하는 단계는,상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질을 클래스 범주화시켜 해당 클래스 범주를 결정한 후에, 상기 클래스 범주 결과에 대해 레이블링을 수행해 1차 후보 개체명을 획득하는 과정;상기 엔트로피 모델 중 워드 바이그램을 토대로 상기 획득한 1차 후보 개체명으로부터 2차 후보 개체명을 결정하는 과정; 및상기 엔트로피 모델 중 전이 바이그램을 토대로 상기 결정한 2차 후보 개체명에 대해 최적 범주 경로에 대응되는 최종 개체명을 결정하는 과정을 포함하는 백오프 엔-그램 자질을 이용한 개체명 인식 방법.
- 프로세서를 구비한 개체명 인식 장치에,개체명 사전으로부터 특정 개체명을 추출해 형태소 분석된 훈련 말뭉치를 생성하는 기능;상기 생성한 훈련 말뭉치에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 훈련 자질을 추출하는 기능;외부로부터 입력받은 문서상의 형태소 분석된 입력 문장에 포함되어 있는 각각의 형태소와 단어의 조합에 대해, 주변 문맥 윈도우를 통해 어휘 정보, 태그 정보, 상대 위치, 와일드 카드를 이용해 현재 단어의 위치에서 전후 엔(n) 거리 이내에 드는 백오프 엔-그램(backoff n-gram) 단위의 테스트 자질을 추출하는 기능;상기 추출한 백오프 엔-그램 단위의 훈련 자질을 학습시켜서 엔트로피 모델을 생성하는 기능; 및상기 엔트로피가 최대가 되는 엔트로피 모델을 이용해 상기 추출한 백오프 엔-그램 단위의 테스트 자질의 클래스 범주화를 수행하고서 나이브 베이시안을 이용해 개체명을 결정하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070064689A KR100877477B1 (ko) | 2007-06-28 | 2007-06-28 | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070064689A KR100877477B1 (ko) | 2007-06-28 | 2007-06-28 | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100877477B1 true KR100877477B1 (ko) | 2009-01-07 |
Family
ID=40482289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070064689A KR100877477B1 (ko) | 2007-06-28 | 2007-06-28 | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100877477B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480837B1 (ko) | 2014-10-27 | 2015-01-13 | 국방과학연구소 | 링크 구조 기반의 교차 언어간의 비정의 개체 추출 및 연결 방법 |
KR101559576B1 (ko) | 2014-05-16 | 2015-10-15 | 동아대학교 산학협력단 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
KR101846824B1 (ko) * | 2017-12-11 | 2018-04-09 | 가천대학교 산학협력단 | 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
KR101941692B1 (ko) | 2017-10-18 | 2019-01-23 | 서강대학교산학협력단 | 한국어 개체명 인식방법 및 장치 |
CN112307134A (zh) * | 2020-10-30 | 2021-02-02 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040018008A (ko) * | 2002-08-24 | 2004-03-02 | 한국전자통신연구원 | 품사 태깅 장치 및 태깅 방법 |
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
KR20060067071A (ko) * | 2004-12-14 | 2006-06-19 | 한국전자통신연구원 | 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법 |
KR20070045748A (ko) * | 2005-10-28 | 2007-05-02 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
-
2007
- 2007-06-28 KR KR1020070064689A patent/KR100877477B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040018008A (ko) * | 2002-08-24 | 2004-03-02 | 한국전자통신연구원 | 품사 태깅 장치 및 태깅 방법 |
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
KR20060067071A (ko) * | 2004-12-14 | 2006-06-19 | 한국전자통신연구원 | 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법 |
KR20070045748A (ko) * | 2005-10-28 | 2007-05-02 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101559576B1 (ko) | 2014-05-16 | 2015-10-15 | 동아대학교 산학협력단 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
KR101480837B1 (ko) | 2014-10-27 | 2015-01-13 | 국방과학연구소 | 링크 구조 기반의 교차 언어간의 비정의 개체 추출 및 연결 방법 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN108205524B (zh) * | 2016-12-20 | 2022-01-07 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
KR101941692B1 (ko) | 2017-10-18 | 2019-01-23 | 서강대학교산학협력단 | 한국어 개체명 인식방법 및 장치 |
KR101846824B1 (ko) * | 2017-12-11 | 2018-04-09 | 가천대학교 산학협력단 | 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 |
CN112307134A (zh) * | 2020-10-30 | 2021-02-02 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备及存储介质 |
CN112307134B (zh) * | 2020-10-30 | 2024-02-06 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8200491B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
Wang et al. | An acoustic measure for word prominence in spontaneous speech | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
KR100877477B1 (ko) | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 | |
CN112183073A (zh) | 一种适用于法律热线语音识别的文本纠错和补全方法 | |
Juhár et al. | Recent progress in development of language model for Slovak large vocabulary continuous speech recognition | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
Zhang et al. | Automatic parliamentary meeting minute generation using rhetorical structure modeling | |
Kolář et al. | Automatic sentence boundary detection in conversational speech: A cross-lingual evaluation on English and Czech | |
Masumura et al. | Training a Language Model Using Webdata for Large Vocabulary Japanese Spontaneous Speech Recognition. | |
JP5124012B2 (ja) | 音声認識装置及び音声認識プログラム | |
Kim et al. | Automatic capitalisation generation for speech input | |
Lee et al. | Sentence detection using multiple annotations | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
Withanage et al. | A stochastic part of speech tagger for the sinhala language based on social media data mining | |
Enzell | Domain Adaptation with N-gram Language Models for Swedish Automatic Speech Recognition: Using text data augmentation to create domain-specific n-gram models for a Swedish open-source wav2vec 2.0 model | |
Navoda et al. | Automated spelling and grammar checker tool for sinhala | |
Henderson et al. | Data-driven methods for spoken language understanding | |
Hladek et al. | Morphological analysis of the slovak language | |
Sproat et al. | Dialectal Chinese speech recognition | |
Maarif et al. | Adaptive language processing unit for Malaysian sign language synthesizer | |
Mengusoglu et al. | Confidence Measures in HMM/MLP Hybrid Speech Recognition for Turkish Language | |
Staš et al. | Incorporating grammatical features in the modeling of the slovak language for continuous speech recognition | |
Das et al. | Voice Verter Using Whisper Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121205 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20131205 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20141208 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20151207 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20161205 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20171204 Year of fee payment: 10 |