KR101108600B1 - 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치 - Google Patents
온톨로지를 이용한 문서간 유사도 측정 방법 및 장치 Download PDFInfo
- Publication number
- KR101108600B1 KR101108600B1 KR1020090107897A KR20090107897A KR101108600B1 KR 101108600 B1 KR101108600 B1 KR 101108600B1 KR 1020090107897 A KR1020090107897 A KR 1020090107897A KR 20090107897 A KR20090107897 A KR 20090107897A KR 101108600 B1 KR101108600 B1 KR 101108600B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- query
- similarity
- range
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 7
- 238000000691 measurement method Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims 2
- 210000004185 liver Anatomy 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 24
- 241000282320 Panthera leo Species 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 241000252233 Cyprinus carpio Species 0.000 description 4
- 241000124008 Mammalia Species 0.000 description 3
- 241000283973 Oryctolagus cuniculus Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 241001609213 Carassius carassius Species 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Business, Economics & Management (AREA)
- Algebra (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
일련번호 | 키워드 | 빈도 |
1 | 사람 | 2 |
2 | 사자 | 3 |
3 | 토끼 | 1 |
4 | 동물 | 2 |
M | 1 | 2 | 3 | 4 |
1 | 0 | 2 | 2 | 3 |
2 | 2 | 0 | 2 | 3 |
3 | 2 | 2 | 0 | 3 |
4 | 3 | 3 | 3 | 0 |
T | 1 | 2 | 3 | 4 |
1 | 0 | 2 | 2 | 3 |
2 | 0 | 2 | 3 | |
3 | 0 | 3 | ||
4 | 0 |
일련번호 | 키워드 | 빈도 |
1 | 사람 | 2 |
2 | 사자 | 3 |
3 | 토끼 | 1 |
4 | 동물 | 2 |
일련번호 | 키워드 | 빈도 |
1 | 붕어 | 1 |
2 | 잉어 | 2 |
3 | 척추동물 | 2 |
4 | 동물 | 2 |
P | 1 | 2 | 3 | 4 |
1 | 4 | 4 | 2 | 3 |
2 | 4 | 4 | 2 | 3 |
3 | 4 | 4 | 2 | 3 |
4 | 3 | 3 | 1 | 0 |
Q | 1 | 2 | 3 | 4 |
1 | 8 | 16 | 8 | 12 |
2 | 12 | 24 | 12 | 18 |
3 | 4 | 8 | 4 | 6 |
4 | 6 | 12 | 4 | 0 |
Claims (22)
- 문서간 유사도 측정 장치에서 질의 문서와 하나 이상의 대상 문서간의 유사도를 계산하는 방법으로서,상기 문서간 유사도 측정 장치에서, 상기 질의 문서 및 상기 대상 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 단계;상기 문서간 유사도 측정 장치에서, 상기 질의 문서 및 상기 대상 문서에서 추출된 키워드로부터 상기 질의 문서 및 상기 대상 문서의 주제어를 선정하는 단계;상기 문서간 유사도 측정 장치에서, 상기 질의 문서 및 상기 대상 문서의 범위를 계산하는 단계; 및상기 문서간 유사도 측정 장치에서, 상기 선정된 주제어 및 범위를 이용하여 상기 질의 문서와 상기 대상 문서의 유사도를 계산하는 단계를 포함하며,상기 질의 문서 또는 상기 대상 문서의 범위는, 상기 질의 문서 또는 상기 대상 문서의 주제어와 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 간의 온톨로지 isA 계층구조상의 평균거리, 중간거리, 최근거리 또는 최장거리 중 어느 하나인, 문서간 유사도 측정 방법.
- 제1항에 있어서,상기 키워드 선정 단계는, 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 중 빈도수가 가장 높은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법.
- 제1항에 있어서,상기 주제어 선정 단계는, 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 별로 상기 빈도수 추출 단계에서 추출된 다른 키워드들 간의 온톨로지 isA 계층구조상의 평균거리를 계산하고, 계산된 상기 평균거리가 가장 짧은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법.
- 제1항에 있어서,상기 주제어 선정 단계는, 상기 질의 문서 또는 상기 대상 문서의 제목으로부터 추출된 키워드 중 상기 질의 문서 또는 상기 대상 문서 내에서의 빈도수가 가장 높은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법.
- 제1항에 있어서,상기 주제어 선정 단계는, 상기 질의 문서 또는 상기 대상 문서의 제목으로부터 추출된 키워드 별로 상기 빈도수 추출 단계에서 추출된 다른 키워드들 간의 온톨로지 isA 계층구조상의 평균 거리를 계산하고, 계산된 상기 평균 거리가 가장 짧은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법.
- 삭제
- 제1항에 있어서,상기 질의 문서와 상기 대상 문서간의 유사도는, 상기 질의 문서의 주제어 및 상기 대상 문서의 주제어 간의 온톨로지 isA 계층구조상에서의 거리에 따라 정해지는, 문서간 유사도 측정 방법.
- 제1항에 있어서,상기 질의 문서와 상기 대상 문서간의 유사도는, 상기 질의 문서로부터 추출된 각 키워드 및 상기 대상 문서로부터 추출된 각 키워드 간의 온톨로지 isA 계층구조상에서의 평균거리에 따라 정해지는, 문서간 유사도 측정 방법.
- 제1항에 있어서,상기 질의 문서와 상기 대상 문서간의 유사도는, 상기 질의 문서의 주제어 및 상기 대상 문서의 주제어의 온톨로지 isA 계층구조상에서의 정규화된 거리와 상기 질의 문서의 범위 및 상기 대상 문서의 범위의 정규화된 비율에 따라 정해지되, 상기 유사도는 상기 정규화된 거리가 0에 가까울수록 높아지며, 상기 정규화된 거리가 동일한 경우에는 상기 정규화된 비율이 0에 가까울수록 상기 유사도가 높아지도록 구성되는, 문서간 유사도 측정 방법.
- 제1항에 있어서,상기 유사도 계산 단계의 수행 이후,상기 문서간 유사도 측정 장치에서, 상기 계산된 유사도가 높은 순서로 소정 개수의 대상 문서를 상기 질의 문서와 유사한 문서로 선정하는 단계;를 더 포함하는, 문서간 유사도 측정 방법.
- 제1항 내지 제5항 또는 제7항 내지 제18항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 키워드들간의 온톨로지 isA 계층구조가 저장된 데이터베이스;질의 문서 및 대상 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 키워드 추출부;상기 질의 문서 및 상기 대상 문서에서 추출된 키워드로부터 상기 질의 문서 및 상기 대상 문서의 주제어를 선정하는 주제어 선정부;상기 질의 문서 및 상기 대상 문서의 범위를 계산하는 문서 범위 계산부; 및상기 주제어 선정부에서 선정된 상기 질의 문서 및 상기 대상 문서의 주제어, 상기 문서 범위 계산부에서 계산된 상기 질의 문서 및 상기 대상 문서의 범위를 이용하여 상기 온톨로지 isA 계층구조상에서의 상기 질의 문서와 상기 대상 문서의 유사도를 계산하는 유사도 계산부를 포함하며,상기 질의 문서 또는 상기 대상 문서의 범위는, 상기 질의 문서 또는 상기 대상 문서의 주제어와 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 간의 온톨로지 isA 계층구조상의 평균거리, 중간거리, 최근거리 또는 최장거리 중 어느 하나인, 문서간 유사도 측정 장치.
- 제20항에 있어서,상기 유사도 계산부는, 상기 계산된 유사도가 높은 순서로 소정 개수의 대상 문서를 상기 질의 문서와 유사한 문서로 선정하는, 문서간 유사도 측정 장치.
- 제20항에 있어서,상기 대상 문서의 주제어 및 범위 및 상기 주제어 및 범위로부터 구축된 인덱스가 저장되는 문서 주제어 및 범위 데이터베이스를 더 포함하는, 문서간 유사도 측정 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090107897A KR101108600B1 (ko) | 2009-11-10 | 2009-11-10 | 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090107897A KR101108600B1 (ko) | 2009-11-10 | 2009-11-10 | 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110051366A KR20110051366A (ko) | 2011-05-18 |
KR101108600B1 true KR101108600B1 (ko) | 2012-01-31 |
Family
ID=44361635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090107897A Expired - Fee Related KR101108600B1 (ko) | 2009-11-10 | 2009-11-10 | 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101108600B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101931859B1 (ko) * | 2016-09-29 | 2018-12-21 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080005208A (ko) * | 2005-04-25 | 2008-01-10 | 가부시키가이샤 아이.피.비. | 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법 |
-
2009
- 2009-11-10 KR KR1020090107897A patent/KR101108600B1/ko not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080005208A (ko) * | 2005-04-25 | 2008-01-10 | 가부시키가이샤 아이.피.비. | 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20110051366A (ko) | 2011-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5346279B2 (ja) | 検索による注釈付与 | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
US8332434B2 (en) | Method and system for finding appropriate semantic web ontology terms from words | |
KR101479040B1 (ko) | 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체 | |
Xiong et al. | Towards better text understanding and retrieval through kernel entity salience modeling | |
Lan | Research on Text Similarity Measurement Hybrid Algorithm with Term Semantic Information and TF‐IDF Method | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
US9251289B2 (en) | Matching target strings to known strings | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
KR102091633B1 (ko) | 연관법령 제공 방법 | |
Thijs | Using neural-network based paragraph embeddings for the calculation of within and between document similarities | |
Angeli et al. | Stanford’s distantly supervised slot filling systems for KBP 2014 | |
KR101058895B1 (ko) | 온톨로지를 이용한 문서의 주제 측정 방법 및 장치 | |
KR101108600B1 (ko) | 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치 | |
CN112417147A (zh) | 训练样本的选取方法与装置 | |
KR101071700B1 (ko) | 온톨로지를 이용한 문서의 주제어 및 관련어 측정 방법 및 장치 | |
El-Barbary | Arabic news classification using field association words | |
KR101127795B1 (ko) | 색인어의 근접도를 이용하는 검색 방법 및 검색 시스템 | |
KR100952077B1 (ko) | 키워드를 이용한 표제어 선정 장치 및 방법 | |
Boutari et al. | Evaluating Term Concept Association Mesaures for Short Text Expansion: Two Case Studies of Classification and Clustering. | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20091110 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20110422 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E90F | Notification of reason for final refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20111021 Patent event code: PE09021S02D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20120109 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20120116 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20120117 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20141230 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20141230 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160105 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20160105 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20170102 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20170102 Start annual number: 6 End annual number: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180103 Year of fee payment: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20180103 Start annual number: 7 End annual number: 7 |
|
FPAY | Annual fee payment |
Payment date: 20200106 Year of fee payment: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20200106 Start annual number: 9 End annual number: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20201218 Start annual number: 10 End annual number: 10 |
|
PR1001 | Payment of annual fee |
Payment date: 20220117 Start annual number: 11 End annual number: 11 |
|
PR1001 | Payment of annual fee |
Payment date: 20221228 Start annual number: 12 End annual number: 12 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20241027 |