KR101089722B1 - 프리픽스 트리 기반 색인 방법 및 장치, 그 기록 매체 - Google Patents
프리픽스 트리 기반 색인 방법 및 장치, 그 기록 매체 Download PDFInfo
- Publication number
- KR101089722B1 KR101089722B1 KR20090117015A KR20090117015A KR101089722B1 KR 101089722 B1 KR101089722 B1 KR 101089722B1 KR 20090117015 A KR20090117015 A KR 20090117015A KR 20090117015 A KR20090117015 A KR 20090117015A KR 101089722 B1 KR101089722 B1 KR 101089722B1
- Authority
- KR
- South Korea
- Prior art keywords
- node
- hash
- tree
- index tree
- prefix
- Prior art date
Links
Images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
Abstract
Description
해시 코드 | 해시 코드에 해당하는 문자 코드 | 해시 버킷 포인터 |
000 | XXXXXXXXXXX00X0X | 0X000000ff |
001 | XXXXXXXXXXX00X1X | 0X0000ff00 |
010 | XXXXXXXXXXX01X0X | 0X000f0000 |
011 | XXXXXXXXXXX01X1X | 0X00f00000 |
100 | XXXXXXXXXXX10X0X | 0X0f000000 |
101 | XXXXXXXXXXX10X1X | 0Xf0000000 |
110 | XXXXXXXXXXX11X0X | 0X0000000f |
111 | XXXXXXXXXXX11X1X | 0X000000f0 |
Claims (13)
- 문서에 포함된 키워드 또는 인덱싱할 문장의 프리픽스에 따라 인덱스 트리를 관리하는 방법에 있어서,정보 검색 시스템이 메모리부에 저장된 상기 인덱스 트리에서 문자가 삽입될 제1노드를 검색하는 단계;상기 제1노드가 포화 상태가 아니면 상기 정보 검색 시스템이 상기 문자를 상기 제1노드에 새로운 엔트리로 삽입하는 단계; 및상기 제1노드가 포화 상태이면, 상기 정보 검색 시스템이 상기 문자와 상기 제1노드의 키값 및 자식 노드 포인터를 해시 버킷에 저장하여 상기 제1노드를 해시 테이블로 변환하는 단계를 포함하는, 프리픽스 트리 기반 색인 방법.
- 제 1 항에 있어서,엔트리의 삭제가 요청되면, 상기 정보 검색 시스템이 삭제가 요청된 엔트리가 속한 제2노드를 검색하는 단계; 및 상기 정보 검색 시스템이 상기 삭제가 요청된 엔트리만 삭제하는 단계를 더 포함하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 방법.
- 제 2 항에 있어서,상기 제2노드가 해시 함수를 이용한 노드가 아니고 상기 제2노드에 남아있는 엔트리가 없다면, 상기 정보 검색 시스템이 상기 제2노드의 부모 노드에서 상기 제2노드에 대한 링크를 삭제하는 단계를 더 포함하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 방법.
- 제 2 항에 있어서,상기 제2노드가 해시 함수를 이용한 노드인 경우, 상기 제2노드의 전체 엔트리의 수가 임계값 미만이면, 상기 정보 검색 시스템이 상기 제2노드의 전체 엔트리로부터 추출된 문자들을 이용하여 상기 제2노드를 재구성하는 단계를 더 포함하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 방법.
- 제 1 항에 있어서,상기 제1노드에 삽입하는 단계 및 상기 제1노드를 해시 테이블로 변환하는 단계는상기 제1노드의 해시 플래그를 검사하여 상기 제1노드가 해시 함수를 이용한 노드인지 판단하는 단계를 포함하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 방법.
- 제 1 항에 있어서,상기 제1노드가 해시 함수를 이용한 노드이면서 포화 상태이면, 상기 정보 검색 시스템이 상기 해시 버킷의 수를 증가시켜 상기 프리픽스 문자를 해시 버킷에 저장하는 단계를 더 포함하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 방법.
- 문서에 포함된 키워드 또는 인덱싱할 문장의 프리픽스에 따라 인덱스 트리를 검색하는 방법에 있어서,정보 검색 시스템이 메모리부에 저장된 상기 인덱스 트리의 루트부터 시작하여 검색 대상 문자열의 키값들을 해당키의 포인터를 따라가면서 상기 인덱스 트리에서 깊이 우선으로 검색하는 단계;검색 중인 노드가 해시 함수를 이용한 노드라고 판단되면, 상기 정보 검색 시스템이 상기 검색된 노드의 해시 값들에 따라 자식 노드 포인터를 찾는 단계; 및상기 정보 검색 시스템이 상기 자식 노드 포인터에 따른 단말 노드에서 데이터를 추출하는 단계를 포함하는, 프리픽스 트리 기반 색인 방법.
- 제 7 항에 있어서,상기 데이터를 추출하는 단계는상기 자식 노드 포인터가 가리키는 노드가 내부 노드인 경우, 단말 노드가 나올 때까지 상기 자식 노드 포인터가 가리키는 다음 노드로 이동하는 단계를 포함하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 방법.
- 제 7 항에 있어서,상기 자식 노드 포인터를 찾는 단계는상기 인덱스 트리를 깊이 우선으로 검색하면서 각 노드의 해시 플래그를 검사하여 해당 노드가 해시 함수를 이용한 노드인지 판단하는 단계를 포함하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 방법.
- 제1항 내지 제9항 중 어느 한 항의 방법을 컴퓨터 시스템에서 실행하기 위한 프로그램이 기록된, 컴퓨터 시스템이 판독할 수 있는 기록매체.
- 정보 검색 시스템에서 문서에 포함된 키워드 또는 인덱싱할 문장의 프리픽스에 따라 인덱스 트리를 관리하는 장치에 있어서,상기 인덱스 트리를 저장하는 메모리부;상기 인덱스 트리에서 문자가 삽입될 제1노드를 검색하는 노드 검색부; 및상기 제1노드가 포화 상태가 아니면 상기 문자를 상기 제1노드에 새로운 엔트리로 삽입하고, 상기 제1노드가 포화 상태이면 상기 문자와 상기 제1노드의 키값 및 자식 노드 포인터를 해시 버킷에 저장하여 상기 제1노드를 해시 테이블로 변환하는 인덱스 트리 갱신부를 포함하는, 프리픽스 트리 기반 색인 장치.
- 제 11 항에 있어서,상기 인덱스 트리 갱신부는상기 인덱스 트리의 노드들을 순회하면서 현재 노드 및 자식 노드의 통합 가능 여부를 검사하고, 통합 가능한 경우 상기 자식 노드의 엔트리들을 상기 현재 노드에 통합하면서 상기 현재 노드의 압축 플래그를 변경하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 장치.
- 제 12 항에 있어서,상기 인덱스 트리 갱신부는복수개의 노드들이 압축되어 있는 압축 노드가 포화 상태에서 새로운 엔트리가 삽입되는 경우, 상기 복수의 노드 중 적어도 일부의 노드를 압축 해제한 후, 상기 압축이 해제된 노드를 상기 인덱스 트리에 삽입하는 것을 특징으로 하는, 프리픽스 트리 기반 색인 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20090117015A KR101089722B1 (ko) | 2009-11-30 | 2009-11-30 | 프리픽스 트리 기반 색인 방법 및 장치, 그 기록 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20090117015A KR101089722B1 (ko) | 2009-11-30 | 2009-11-30 | 프리픽스 트리 기반 색인 방법 및 장치, 그 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110060428A KR20110060428A (ko) | 2011-06-08 |
KR101089722B1 true KR101089722B1 (ko) | 2011-12-07 |
Family
ID=44395202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20090117015A KR101089722B1 (ko) | 2009-11-30 | 2009-11-30 | 프리픽스 트리 기반 색인 방법 및 장치, 그 기록 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101089722B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710833B (zh) * | 2018-12-29 | 2021-07-16 | 上海蜜度信息技术有限公司 | 用于确定内容节点的方法与设备 |
CN111339382B (zh) * | 2020-03-11 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 字符串数据检索方法、装置、计算机设备及存储介质 |
CN117194440B (zh) * | 2023-11-08 | 2024-02-13 | 本原数据(北京)信息技术有限公司 | 数据库索引压缩方法、装置、电子设备及存储介质 |
-
2009
- 2009-11-30 KR KR20090117015A patent/KR101089722B1/ko active IP Right Grant
Non-Patent Citations (3)
Title |
---|
"Hashed B-트리 인덱스를 이용한 효율적인 무결성 검사", 박선섭 외 2명, 정보과학회논문지 데이타베이스 제27권 제2호, 2000년 6월 |
"SGML 정보 검색 인덱스 설계를 위한 K-ary 트리, 문서 단위 구문 트리와 엘리먼트 단위 구문 트리의 비교", 손정한 외 3명, 한국정보과학회 학술발표논문집, 1998년 10월 |
"최대키 값을 이용한 CST-트리 인덱스의 빠른 재구축", 한국컴퓨터종합학술대회 2005 논문집 Vol.32, No.1(B), 2005년 |
Also Published As
Publication number | Publication date |
---|---|
KR20110060428A (ko) | 2011-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Martínez-Prieto et al. | Practical compressed string dictionaries | |
US9195738B2 (en) | Tokenization platform | |
US8838551B2 (en) | Multi-level database compression | |
JP3149337B2 (ja) | システム生成辞書を用いたデータ圧縮のための方法及びシステム | |
US7756859B2 (en) | Multi-segment string search | |
US10498357B2 (en) | Method, apparatus, system, and computer program product for data compression | |
US7526497B2 (en) | Database retrieval apparatus, retrieval method, storage medium, and program | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
US10671586B2 (en) | Optimal sort key compression and index rebuilding | |
JP2016522524A (ja) | 同義表現の探知及び関連コンテンツを検索する方法及び装置 | |
KR20070049664A (ko) | 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법 | |
US8266150B1 (en) | Scalable document signature search engine | |
JP4237813B2 (ja) | 構造化文書管理システム | |
KR101089722B1 (ko) | 프리픽스 트리 기반 색인 방법 및 장치, 그 기록 매체 | |
Flor | A fast and flexible architecture for very large word n-gram datasets | |
KR100999408B1 (ko) | 해시트리를 이용한 url 검색방법 | |
CN114780502A (zh) | 基于压缩数据直接计算的数据库方法、系统、设备和介质 | |
Navarro et al. | Practical indexing of repetitive collections using relative Lempel-Ziv | |
Belazzougui et al. | Compressed string dictionary look-up with edit distance one | |
CN109657108B (zh) | 一种域名资产数据存储和查询方法和系统 | |
Belazzougui et al. | Compressed string dictionary search with edit distance one | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
Petri et al. | Efficient indexing algorithms for approximate pattern matching in text | |
Boytsov | Super-linear indices for approximate dictionary searching | |
KR102013839B1 (ko) | 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20141121 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20151027 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20161102 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20171103 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20181031 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20191105 Year of fee payment: 9 |