KR101049984B1 - 기분석 사전 갱신장치 및 그 방법 - Google Patents
기분석 사전 갱신장치 및 그 방법 Download PDFInfo
- Publication number
- KR101049984B1 KR101049984B1 KR1020080138604A KR20080138604A KR101049984B1 KR 101049984 B1 KR101049984 B1 KR 101049984B1 KR 1020080138604 A KR1020080138604 A KR 1020080138604A KR 20080138604 A KR20080138604 A KR 20080138604A KR 101049984 B1 KR101049984 B1 KR 101049984B1
- Authority
- KR
- South Korea
- Prior art keywords
- analysis
- token
- dictionary
- unit
- analysis dictionary
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (11)
- 검색엔진의 색인시 사용되는 기분석 사전을 갱신하는 방법으로서 기분석 사전 갱신장치에서 실행되는 방법에 있어서,기분석 사전을 메모리에 적재하는 제 110 단계;색인하고자 하는 문서로부터 토큰을 얻는 제 120 단계;기분석 사전에 상기 획득한 토큰에 해당하는 항목이 존재하는지 판단하고, 없으면 형태소 분석을 하는 제 130 단계;상기 형태소 분석결과 및 상기 토큰을 이용하여 기분석 사전의 포맷으로 변환하는 제 140 단계; 및상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 150 단계;로 이루어지는 것을 특징으로 하는 기분석 사전 갱신방법.
- 제 1 항에 있어서,상기 색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 130 단계로 분기하되, 다음 토큰이 없으면 종료하는 제 160 단계;를 더 포함하는 것을 특징으로 하는 기분석 사전 갱신방법.
- 제 2 항에 있어서,제 130 단계 이후 상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분 석결과를 이용하여 색인하는 제 131 단계;를 더 포함하는 것을 특징으로 하는 기분석 사전 갱신방법.
- 제 1 항에 있어서,상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신방법.
- 검색엔진의 색인시 사용되는 기분석 사전을 갱신하는 방법으로서 기분석 사전 갱신장치에서 실행되는 방법에 있어서,색인하고자 하는 문서로부터 토큰을 얻는 제 210 단계;기분석 사전에 토큰이 존재하는지 판단하고, 존재하면 제 240 단계로 분기하되 존재하지 않으면 형태소 분석을 하는 제 220 단계;상기 토큰 및 상기 형태소 분석결과를 저장하는 제 230 단계;상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분석결과를 이용하여 색인하는 제 240 단계;색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 220 단계로 분기하되, 다음 토큰이 없으면 다음 단계로 진행하는 제 250 단계;상기 저장된 토큰 및 상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 제 260 단계;상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 270 단계;로 이루어지는 것을 특징으로 하는 기분석 사전 갱신방법.
- 제 5 항에 있어서,상기 제 210 단계 이전에 기분석 사전을 메모리에 적재하는 단계;를 더 구비하는 것을 특징으로 하는 기분석 사전 갱신방법.
- 제 5 항에 있어서,상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신방법.
- 색인하고자 하는 문서로부터 토큰을 얻는 토큰 분석부;상기 얻어진 토큰이 기분석 사전에 존재하는가 판단하는 기분석사전 비교부;기분석 사전에 존재하지 않는 토큰의 형태소를 분석하는 형태소 분석부;상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 변환부;상기 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인하는 색인부; 및상기 변환된 데이터를 기분석 사전에 추가하는 기분석 사전 갱신부;를 구비 하는 것을 특징으로 하는 기분석 사전 갱신장치.
- 제 8 항에 있어서,상기 변환부는 상기 형태소 분석부가 토큰에 대한 형태소를 분석할 때마다 분석결과를 기분석 사전의 포맷으로 변환하는 것을 특징으로 하는 기분석 사전 갱신장치.
- 제 8 항에 있어서,형태소 분석기가 분석한 데이터를 저장하는 임시 저장부;를 더 구비하되,상기 변환부는 상기 색인부를 통하여 상기 색인하고자 하는 문서에 대한 색인이 완료되면 상기 형태소 분석기가 분석한 결과를 기분석 사전의 포맷으로 변환하는 것을 특징으로 하는 기분석 사전 갱신장치.
- 제 8 항에 있어서,상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080138604A KR101049984B1 (ko) | 2008-12-31 | 2008-12-31 | 기분석 사전 갱신장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080138604A KR101049984B1 (ko) | 2008-12-31 | 2008-12-31 | 기분석 사전 갱신장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100079992A KR20100079992A (ko) | 2010-07-08 |
KR101049984B1 true KR101049984B1 (ko) | 2011-07-19 |
Family
ID=42641009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080138604A KR101049984B1 (ko) | 2008-12-31 | 2008-12-31 | 기분석 사전 갱신장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101049984B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102347887B1 (ko) * | 2015-10-30 | 2022-01-05 | 삼성에스디에스 주식회사 | 검색 엔진을 이용한 타임라인 관리 방법 및 그 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100757340B1 (ko) * | 2006-03-30 | 2007-09-11 | 엔에이치엔(주) | 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템 |
-
2008
- 2008-12-31 KR KR1020080138604A patent/KR101049984B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100757340B1 (ko) * | 2006-03-30 | 2007-09-11 | 엔에이치엔(주) | 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20100079992A (ko) | 2010-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9195738B2 (en) | Tokenization platform | |
KR101122942B1 (ko) | 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템 | |
US8577155B2 (en) | System and method for duplicate text recognition | |
US9552349B2 (en) | Methods and apparatus for performing spelling corrections using one or more variant hash tables | |
CN107688488B (zh) | 一种基于元数据的任务调度的优化方法及装置 | |
US7941418B2 (en) | Dynamic corpus generation | |
JP5629976B2 (ja) | 特許明細書評価・作成作業支援装置、方法及びプログラム | |
KR101049984B1 (ko) | 기분석 사전 갱신장치 및 그 방법 | |
CN116340365B (zh) | 一种缓存数据的匹配方法、匹配装置及终端设备 | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
US8438010B2 (en) | Efficient stemming of semitic languages | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
CN115455040A (zh) | 提高数据库sql查询效率的方法、装置、设备、介质 | |
Kasthuri et al. | An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering | |
Winarti et al. | Improving stemming algorithm using morphological rules | |
JP5374938B2 (ja) | 関連情報登録装置、関連情報登録方法および関連情報登録プログラム | |
JP4253483B2 (ja) | 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム | |
Fatmawati et al. | Implementation of the common phrase index method on the phrase query for information retrieval | |
JP5761033B2 (ja) | 文書分析装置、文書分析方法、およびプログラム | |
WO2020203276A1 (ja) | 新語候補抽出装置、新語候補抽出方法、及びプログラム | |
JP5642229B2 (ja) | 重要性判定システム、重要性判定方法及びコンピュータプログラム | |
US20230195734A1 (en) | Machine learning enabled real time query handling system and method | |
JP2010140107A (ja) | 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2007149022A (ja) | 文書特徴抽出装置、方法及びプログラム | |
JP2010186349A (ja) | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140702 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150708 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160704 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170627 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180620 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190625 Year of fee payment: 9 |