KR20200014979A - 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 - Google Patents
역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 Download PDFInfo
- Publication number
- KR20200014979A KR20200014979A KR1020180090159A KR20180090159A KR20200014979A KR 20200014979 A KR20200014979 A KR 20200014979A KR 1020180090159 A KR1020180090159 A KR 1020180090159A KR 20180090159 A KR20180090159 A KR 20180090159A KR 20200014979 A KR20200014979 A KR 20200014979A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- index
- section
- sections
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000003672 processing method Methods 0.000 claims abstract description 12
- 238000013075 data extraction Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 유사 데이터 검색을 위한 색인 처리 방법을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 도 2의 색인 처리 방법을 보다 구체적으로 도시한 도면이다.
도 4는 데이터 유형 저장소 데이터의 일례를 예시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 데이터 추출 로직(logic)을 설명하기 위한 도면이다.
도 6 및 도 7은 각각 본 발명의 일 실시예에 따른 데이터 추출 결과로서 생성된 파일 정보 데이터베이스 및 색인 데이터베이스의 일례이다.
도 8은 본 발명의 다른 실시예에 따른 역 색인 데이터베이스를 이용한 유사 데이터 검색 방법을 도시한 흐름도이다.
도 9는 본 발명의 다른 실시예에 따른 도 8의 유사 데이터 검색 방법을 보다 구체적으로 도시한 흐름도이다.
도 10은 본 발명의 다른 실시예에 따른 유사 데이터 검색 방법을 구현한 프로토타입(prototype)을 이용하여 데이터 유사도 비교 결과를 예시한 도면이다.
도 11은 본 발명의 실시예들을 통해 구성한 데이터의 저장 및 유사 데이터의 검색 과정을 예시한 흐름도이다.
도 12는 본 발명의 또 다른 실시예에 따른 역 색인 데이터베이스를 이용한 유사 데이터 검색 장치를 도시한 블록도이다.
120, 120a, 120b: 헤더(header)
130: 생성 정보
10: 역 색인 데이터베이스
20: 입출력부
30: 처리부
40: 유사 데이터 검색 장치/시스템
Claims (14)
- (a) 입력 데이터의 유형을 검사하여 상기 입력 데이터로부터 미리 정의된 하나 이상의 관련 데이터 섹션을 추출하는 단계;
(b) 추출된 상기 관련 데이터 섹션에 대해 각각 퍼지 해시(fuzzy hash) 값을 산출하고 상기 입력 데이터에 포함된 질의어를 검색하기 위한 역 색인(inverted index)을 생성하는 단계; 및
(c) 생성된 상기 역 색인과 상기 관련 데이터 섹션에 대해 생성된 고유 식별자를 매칭하여 색인 데이터베이스에 저장하는 단계를 포함하는 유사 데이터 검색을 위한 색인 처리 방법. - 제 1 항에 있어서,
상기 (a) 단계는,
(a1) 입력 데이터의 유형에 따라 데이터 추출 정책이 존재하는지 여부를 검사하는 단계; 및
(a2) 검사 결과에 따라 독출된 데이터 추출 정책에 기초하여 상기 입력 데이터의 구조를 분석하여 데이터 내용과 직접 관련된 것으로 미리 정의된 관련 데이터 섹션을 추출하는 단계를 포함하는 유사 데이터 검색을 위한 색인 처리 방법. - 제 2 항에 있어서,
상기 (a2) 단계는,
검사 결과, 상기 데이터 추출 정책이 존재하지 않거나 상기 관련 데이터 섹션의 추출이 불가능한 경우 원본 데이터를 상기 관련 데이터 섹션으로 설정하는 것을 특징으로 하는 유사 데이터 검색을 위한 색인 처리 방법. - 제 2 항에 있어서,
상기 (a2) 단계는,
데이터 내용과 직접 관련 없이 환경에 따라 변화하는 헤더(header) 및 파일 생성 정보를 포함하는 비관련 데이터를 제외한 나머지 섹션을 추출하는 것을 특징으로 하는 유사 데이터 검색을 위한 색인 처리 방법. - 제 1 항에 있어서,
상기 (b) 단계는,
(b1) 추출된 상기 관련 데이터 섹션에 대해 퍼지 해시 함수(fuzzy hash function)를 이용하여 각각 퍼지 해시 값을 산출하는 단계; 및
(b2) 산출된 상기 퍼지 해시 값으로부터 복수 개의 n-그램(gram)을 분리하여 상기 입력 데이터에 포함된 질의어를 검색하기 위한 역 색인(inverted index)으로 설정하는 단계를 포함하는 유사 데이터 검색을 위한 색인 처리 방법. - 제 5 항에 있어서,
상기 (b2) 단계는,
미리 지정된 색인어의 크기 n에 따라 상기 퍼지 해시 값으로부터 복수 개의 n-그램을 분리하는 것을 특징으로 하는 유사 데이터 검색을 위한 색인 처리 방법. - 제 1 항에 있어서,
상기 (c) 단계는,
(c1) 추출된 상기 관련 데이터 섹션에 대해 해시 함수를 이용하여 고유 식별자를 생성하는 단계; 및
(c2) 상기 역 색인과 상기 고유 식별자를 매칭하되 섹션 유형, 섹션 정보, 및 부모 파일인 입력 데이터 정보를 함께 색인 데이터베이스에 저장하는 단계를 포함하는 유사 데이터 검색을 위한 색인 처리 방법. - (d) 복수 개의 데이터에 대한 색인 데이터베이스를 미리 생성하는 단계;
(e) 질의하고자 하는 새로운 입력 데이터의 유형을 검사하여 상기 새로운 입력 데이터로부터 미리 정의된 하나 이상의 관련 데이터 섹션을 추출하고, 추출된 상기 관련 데이터 섹션에 대해 각각 퍼지 해시(fuzzy hash) 값을 산출하고 검색용 역 색인(inverted index)을 생성하는 단계;
(f) 생성된 상기 검색용 역 색인을 이용하여 상기 색인 데이터베이스를 검색하는 단계; 및
(g) 검색된 데이터에 대해 상기 관련 데이터 섹션별로 역 색인의 매칭 비율을 산출하여 유사도를 표시하는 단계를 포함하고,
상기 (d) 단계는,
상기 데이터의 유형을 검사하여 상기 데이터로부터 미리 정의된 하나 이상의 관련 데이터 섹션을 추출하고, 추출된 상기 관련 데이터 섹션에 대해 각각 퍼지 해시 값을 산출하고 상기 데이터에 포함된 질의어를 검색하기 위한 역 색인을 생성하며, 생성된 상기 역 색인과 상기 관련 데이터 섹션에 대해 생성된 고유 식별자를 매칭하여 색인 데이터베이스에 저장하는 것을 특징으로 하는 유사 데이터 검색 방법. - 제 8 항에 있어서,
상기 (f) 단계는,
생성된 상기 검색용 역 색인 및 상기 새로운 입력 데이터로부터 추출된 섹션 유형에 동시에 대응하는 데이터를 독출하는 것을 특징으로 하는 유사 데이터 검색 방법. - 제 8 항에 있어서,
상기 (g) 단계는,
(g1) 검색된 데이터에 대해 상기 관련 데이터 섹션별로 검색을 위해 입력된 색인의 개수로 검색된 색인의 개수를 제산함으로써 역 색인의 매칭 비율을 산출하는 단계; 및
(g2) 상기 매칭 비율이 높은 순서로 상기 새로운 입력 데이터와의 유사도를 정렬하여 표시하는 단계를 포함하는 유사 데이터 검색 방법. - 복수 개의 데이터에 대한 색인 정보를 미리 생성하여 저장하는 색인 데이터베이스;
질의하고자 하는 새로운 입력 데이터를 입력받고 그에 따른 검색 결과를 출력하는 입출력부; 및
상기 색인 데이터베이스를 조회하여 상기 새로운 입력 데이터에 대응하는 유사 데이터의 검색 결과를 반환하는 처리부를 포함하고,
상기 색인 데이터베이스는, 상기 데이터의 유형을 검사하여 상기 데이터로부터 미리 정의된 하나 이상의 관련 데이터 섹션을 추출하고, 추출된 상기 관련 데이터 섹션에 대해 각각 퍼지 해시(fuzzy hash) 값을 산출하고 상기 데이터에 포함된 질의어를 검색하기 위한 역 색인(inverted index)을 생성하며, 생성된 상기 역 색인과 상기 관련 데이터 섹션에 대해 생성된 고유 식별자를 매칭하여 저장하고,
상기 처리부는, 상기 새로운 입력 데이터의 유형을 검사하여 상기 새로운 입력 데이터로부터 미리 정의된 하나 이상의 관련 데이터 섹션을 추출하고, 추출된 상기 관련 데이터 섹션에 대해 각각 퍼지 해시 값을 산출하고 검색용 역 색인을 생성하고, 생성된 상기 검색용 역 색인을 이용하여 상기 색인 데이터베이스를 검색하며, 검색된 데이터에 대해 상기 관련 데이터 섹션별로 역 색인의 매칭 비율을 산출하여 유사도를 표시하는 것을 특징으로 하는 유사 데이터 검색 장치. - 제 11 항에 있어서,
상기 색인 데이터베이스는,
추출된 상기 관련 데이터 섹션에 대해 퍼지 해시 함수(fuzzy hash function)를 이용하여 각각 퍼지 해시 값을 산출하고, 산출된 상기 퍼지 해시 값으로부터 복수 개의 n-그램(gram)을 분리하여 상기 데이터에 포함된 질의어를 검색하기 위한 역 색인(inverted index)으로 설정하는 것을 특징으로 하는 유사 데이터 검색 장치. - 제 11 항에 있어서,
상기 색인 데이터베이스는,
추출된 상기 관련 데이터 섹션에 대해 해시 함수를 이용하여 고유 식별자를 생성하고, 상기 역 색인과 상기 고유 식별자를 매칭하되 섹션 유형, 섹션 정보, 및 부모 파일인 데이터 정보를 함께 색인 데이터베이스에 저장하는 것을 특징으로 하는 유사 데이터 검색 장치. - 제 11 항에 있어서,
상기 처리부는,
검색된 데이터에 대해 상기 관련 데이터 섹션별로 검색을 위해 입력된 색인의 개수로 검색된 색인의 개수를 제산함으로써 역 색인의 매칭 비율을 산출하고, 상기 매칭 비율이 높은 순서로 상기 새로운 입력 데이터와의 유사도를 정렬하여 표시하는 것을 특징으로 하는 유사 데이터 검색 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180090159A KR102081867B1 (ko) | 2018-08-02 | 2018-08-02 | 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180090159A KR102081867B1 (ko) | 2018-08-02 | 2018-08-02 | 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200014979A true KR20200014979A (ko) | 2020-02-12 |
KR102081867B1 KR102081867B1 (ko) | 2020-02-26 |
Family
ID=69569584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180090159A Active KR102081867B1 (ko) | 2018-08-02 | 2018-08-02 | 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102081867B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022097881A1 (ko) * | 2020-11-05 | 2022-05-12 | 국민대학교산학협력단 | 네트워크 패킷 분석 기반의 대상파일 검출 장치 및 방법 |
CN118585528A (zh) * | 2024-08-06 | 2024-09-03 | 杭州古珀医疗科技有限公司 | 基于动态配置标签倒排索引的数据查询方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005004560A (ja) * | 2003-06-13 | 2005-01-06 | Fujitsu Ltd | インバーテッドファイル作成方法 |
KR20070047544A (ko) | 2005-11-02 | 2007-05-07 | 김정진 | 유사도를 적용하여 특허 문서를 검색하는 방법 및 그시스템 |
JP2009175826A (ja) * | 2008-01-22 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | テキスト検索装置、テキスト検索方法、テキスト検索プログラムおよびそのプログラムを記録した記録媒体 |
KR20160109870A (ko) * | 2015-03-13 | 2016-09-21 | 한국전자통신연구원 | 안드로이드 멀웨어의 고속 검색 시스템 및 방법 |
-
2018
- 2018-08-02 KR KR1020180090159A patent/KR102081867B1/ko active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005004560A (ja) * | 2003-06-13 | 2005-01-06 | Fujitsu Ltd | インバーテッドファイル作成方法 |
KR20070047544A (ko) | 2005-11-02 | 2007-05-07 | 김정진 | 유사도를 적용하여 특허 문서를 검색하는 방법 및 그시스템 |
JP2009175826A (ja) * | 2008-01-22 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | テキスト検索装置、テキスト検索方法、テキスト検索プログラムおよびそのプログラムを記録した記録媒体 |
KR20160109870A (ko) * | 2015-03-13 | 2016-09-21 | 한국전자통신연구원 | 안드로이드 멀웨어의 고속 검색 시스템 및 방법 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022097881A1 (ko) * | 2020-11-05 | 2022-05-12 | 국민대학교산학협력단 | 네트워크 패킷 분석 기반의 대상파일 검출 장치 및 방법 |
KR20220060842A (ko) * | 2020-11-05 | 2022-05-12 | 국민대학교산학협력단 | 네트워크 패킷 분석 기반의 대상파일 검출 장치 및 방법 |
US12007949B2 (en) | 2020-11-05 | 2024-06-11 | Kookmin University Industry Academy Cooperation Foundation | Apparatus and method for detecting target file based on network packet analysis |
CN118585528A (zh) * | 2024-08-06 | 2024-09-03 | 杭州古珀医疗科技有限公司 | 基于动态配置标签倒排索引的数据查询方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
KR102081867B1 (ko) | 2020-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
US7788262B1 (en) | Method and system for creating context based summary | |
US8122045B2 (en) | Method for mapping a data source to a data target | |
AU2009234120B2 (en) | Search results ranking using editing distance and document information | |
CN104991905B (zh) | 一种基于层次索引的数学表达式检索方法 | |
US20100293179A1 (en) | Identifying synonyms of entities using web search | |
US6446066B1 (en) | Method and apparatus using run length encoding to evaluate a database | |
US10915543B2 (en) | Systems and methods for enterprise data search and analysis | |
US10372718B2 (en) | Systems and methods for enterprise data search and analysis | |
EP2577521A2 (en) | Detection of junk in search result ranking | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
EP4091063A1 (en) | Systems and methods for mapping a term to a vector representation in a semantic space | |
WO2018070026A1 (ja) | 商品情報表示システム、商品情報表示方法、及びプログラム | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
WO2024078141A1 (zh) | 主题文献检索预测方法 | |
KR102081867B1 (ko) | 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
US20100063966A1 (en) | Method for fast de-duplication of a set of documents or a set of data contained in a file | |
Consoli et al. | A quartet method based on variable neighborhood search for biomedical literature extraction and clustering | |
US10394870B2 (en) | Search method | |
KR100964207B1 (ko) | 해시 기반 문서의 색인화 및 검색 방법 및 장치 | |
RU2409849C2 (ru) | Способ поиска информации в политематических массивах неструктурированных текстов | |
US20150046437A1 (en) | Search Method | |
Schmidt et al. | A concept for plagiarism detection based on compressed bitmaps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180802 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190722 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200218 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200220 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200221 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20221202 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20231220 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20250205 Start annual number: 6 End annual number: 6 |