KR101033670B1 - 문서 간 유사도 산출 시스템 및 방법 - Google Patents
문서 간 유사도 산출 시스템 및 방법 Download PDFInfo
- Publication number
- KR101033670B1 KR101033670B1 KR1020090031387A KR20090031387A KR101033670B1 KR 101033670 B1 KR101033670 B1 KR 101033670B1 KR 1020090031387 A KR1020090031387 A KR 1020090031387A KR 20090031387 A KR20090031387 A KR 20090031387A KR 101033670 B1 KR101033670 B1 KR 101033670B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- data
- group
- string
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (15)
- 제 1 문서의 데이터와 제 2 문서의 데이터를 형태소 분석을 통해 각각 2 이상의 그룹으로 분리하는 분리부; 및상기 분리부에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 모두 비교하는 비교부를 포함하되,상기 분리부는 제 1 문서의 데이터와 제 2 문서의 데이터를 같은 수의 그룹으로 분리하고, 제 1 문서와 제 2 문서의 데이터를 각각 명사 문자열을 포함하는 제 1 그룹, 특수 기호 문자열을 포함하는 제 2 그룹, 및 명사와 특수 기호를 제외한 문자열을 포함하는 제 3 그룹을 포함하도록 분리하는 문서 간 유사도 산출 시스템.
- 삭제
- 제 1 항에 있어서,상기 분리부는,상기 제 1 문서와 제 2 문서의 데이터를 각 어절 간 분리 기호를 기준으로 분리하여 제 1 문자열을 생성하는 어절 분리 모듈;상기 어절 분리 모듈로부터 각각의 제 1 문자열을 순차적으로 제공 받아, 당해 제 1 문자열에 기호가 포함된 경우 당해 기호를 상기 제 2 그룹에 포함시키는 특수 기호 문자열 생성 모듈;상기 특수 기호 문자열 생성 모듈로부터 상기 제 1 문자열을 순차적으로 제공 받아, 당해 제 1 문자열에 마침표 또는 느낌표 중 하나가 포함된 경우 당해 제 1 문자열에서 기호를 제거한 문자열을 상기 제 3 그룹에 포함시키고, 당해 제 1 문자열에서 수사, 대명사, 관형사, 조사 데이터베이스에 포함된 문자열이 발견된 경우 발견된 문자열을 상기 제 3 그룹에 포함시키며, 그 외의 경우 당해 제 1 문자열에서 기호를 제거하여 제 2 문자열을 생성하는 기타 문자열 생성 모듈; 및상기 기타 문자열 생성 모듈로부터 상기 제 2 문자열을 순차적으로 제공 받아, 당해 제 2 문자열에 조사 데이터베이스에 저장된 조사가 포함된 경우 조사를 제외한 문자열을 상기 제 1 그룹에 포함시키고, 당해 제 2 문자열에 괄호가 포함된 경우 괄호 내부의 문자열을 상기 제 1 그룹에 포함시키며, 그 외의 경우 당해 제 2 문자열을 상기 제 1 그룹에 포함시키는 명사 문자열 생성 모듈을 포함하는 문서 간 유사도 산출 시스템.
- 제 1 항에 있어서,상기 비교부는,제 1 문서 데이터와 제 2 문서 데이터의 각 그룹을 비교하여 산출된 각 그룹별 비교 결과에 서로 상이한 가중치를 적용하여 합산하는 문서 간 유사도 산출 시스템.
- 제 1 항에 있어서,한 개 이상의 저장 장치를 포함하여 구성되고 두 개 이상의 저장 장치가 연결된 경우 각각의 저장 장치들은 네트워크를 통하여 서로 연결될 수 있으며 제 1 문서 데이터와 비교 대상 문서 군이 저장된 저장부를 더 포함하는 문서 간 유사도 산출 시스템.
- 제 5 항에 있어서,상기 문서 간 유사도 산출 시스템은,상기 비교 대상 문서 군에서 하나의 제 2 문서를 선택하고 선택된 제 2 문서에 대하여 제 1 문서 및 제 2 문서 위치 정보를 포함하는 그룹화 요청 메시지를 상기 분리부에 제공한 후 유사도 산출 요청 메시지를 상기 비교부에 제공하며, 상기 제 2 문서의 선택, 그룹화 요청 메시지 제공 및 유사도 산출 요청 메시지 제공 동작을 비교 대상 문서 군의 모든 문서 데이터에 대하여 수행하는 제어부를 더 포함하고,상기 분리부는,상기 제어부로부터 상기 그룹화 요청 메시지를 제공받으면 당해 메시지 속에 포함된 제 1 문서 및 제 2 문서 위치 정보에 대응하는 각 문서의 데이터를 상기 저장부로부터 제공 받아, 제 1 문서 데이터와 제 2 문서 데이터를 각각 그룹화하고,상기 비교부는,상기 제어부로부터 상기 유사도 산출 요청 메시지를 제공받으면 제 1 문서와 제 2 문서의 그룹화된 데이터를 같은 종류의 그룹끼리 비교하는 문서 간 유사도 산출 시스템.
- 제 6 항에 있어서,상기 저장부에 저장된 제 1 문서와 비교 대상 문서 군의 데이터는,각 문서 데이터의 초록과 본문이 분리된 것이고,상기 제어부는,상기 비교 대상 문서 군에서 하나의 제 2 문서를 선택함에 있어 제 1 문서의 초록 데이터와 비교 대상 문서 군에 속한 문서의 초록 데이터를 비교하여 선택하는 문서 간 유사도 산출 시스템.
- 제 5 항에 있어서,상기 분리부는,제 2 문서의 각 그룹별 데이터를 제 2 문서 데이터의 한 구성요소로써 상기 저장부에 저장하고, 제 1 문서의 각 그룹별 데이터를 제 1 문서 데이터의 한 구성요소로써 상기 저장부에 저장한 후, 제 1 문서 데이터는 비교 대상 문서 군에 포함시키는 문서 간 유사도 산출 시스템.
- 제 8 항에 있어서,상기 분리부는,제 1 문서 데이터에 제 1 문서의 각 그룹별 데이터가 포함되지 아니한 경우에 한하여 제 1 문서의 데이터를 그룹화하고 제 2 문서 데이터에 제 2 문서의 각 그룹별 데이터가 포함되지 아니한 경우에 한하여 제 2 문서의 데이터를 그룹화하는 문서 간 유사도 산출 시스템.
- 제 1 항에 있어서,상기 분리부는,제 1 문서와 제 2 문서의 데이터를 각각의 문서에 포함된 이미지 오브젝트 내에 존재하는 각 외곽선상에 일정 간격으로 존재하는 기준점 사이의 거리 비율 데이터를 포함하는 제 1 그룹, 각각의 문서에 포함된 이미지 오브젝트의 각 픽셀 컬러 데이터를 포함하는 제 2 그룹을 포함하도록 분리하는 문서 간 유사도 산출 시스템.
- 제 10 항에 있어서,상기 각 픽셀 컬러 데이터는,각 픽셀의 색상, 명도, 채도 값인 문서 간 유사도 산출 시스템.
- 제 11 항에 있어서,상기 각 픽셀의 색상 데이터는,각 픽셀을 흑백 변환한 후의 색상, 명도, 채도 값인 문서 간 유사도 산출 시스템.
- 제 1 문서의 데이터와 제 2 문서의 데이터를 각각 2 이상의 같은 수의 그룹으로 분리하되, 제 1 문서와 제 2 문서의 데이터를 각각 명사 문자열을 포함하는 제 1 그룹, 특수 기호 문자열을 포함하는 제 2 그룹, 및 명사와 특수 기호를 제외한 문자열을 포함하는 제 3 그룹을 포함하도록 분리하는 제 1 단계;상기 제 1 단계에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 비교하는 제 2 단계; 및상기 제 2 단계에 의한 각 그룹별 비교 결과를 종합하여 제 1 문서와 제 2 문서의 유사도를 산출하는 제 3 단계를 포함하는 문서 간 유사도 산출 방법.
- 삭제
- 삭제
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR20080122625 | 2008-12-04 | ||
| KR1020080122625 | 2008-12-04 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20100064297A KR20100064297A (ko) | 2010-06-14 |
| KR101033670B1 true KR101033670B1 (ko) | 2011-05-12 |
Family
ID=42363990
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020090031387A Expired - Fee Related KR101033670B1 (ko) | 2008-12-04 | 2009-04-10 | 문서 간 유사도 산출 시스템 및 방법 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR101033670B1 (ko) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101350384B1 (ko) * | 2011-07-12 | 2014-01-10 | 강지훈 | 디지털문서의 단계적 비교 방법 |
| RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
| KR101580784B1 (ko) | 2015-09-04 | 2015-12-31 | 주식회사 무하유 | 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체 |
| KR101869362B1 (ko) | 2016-11-15 | 2018-06-21 | 한국과학기술원 | 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체 |
| CN114298227B (zh) * | 2021-12-29 | 2025-06-27 | 中国建设银行股份有限公司 | 文本去重方法、装置、设备及介质 |
| KR20240055309A (ko) * | 2022-10-20 | 2024-04-29 | 주식회사 아이팩토리 | 논문 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 |
| KR20250033889A (ko) | 2023-08-31 | 2025-03-10 | 고려대학교 산학협력단 | 외형적 특징을 활용한 유사 문서 검색 시스템 및 방법 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001155027A (ja) | 1999-11-26 | 2001-06-08 | Nec Corp | 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体 |
| KR100406671B1 (ko) * | 2000-07-24 | 2003-11-21 | 주식회사 유니마이다스 | 문장 표절 및 도용 검색 방법 |
| JP2004272352A (ja) | 2003-03-05 | 2004-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 |
| KR100717998B1 (ko) * | 2005-12-26 | 2007-05-15 | 고려대학교 산학협력단 | 문서의 표절 검사 방법 |
-
2009
- 2009-04-10 KR KR1020090031387A patent/KR101033670B1/ko not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001155027A (ja) | 1999-11-26 | 2001-06-08 | Nec Corp | 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体 |
| KR100406671B1 (ko) * | 2000-07-24 | 2003-11-21 | 주식회사 유니마이다스 | 문장 표절 및 도용 검색 방법 |
| JP2004272352A (ja) | 2003-03-05 | 2004-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 |
| KR100717998B1 (ko) * | 2005-12-26 | 2007-05-15 | 고려대학교 산학협력단 | 문서의 표절 검사 방법 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20100064297A (ko) | 2010-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101033670B1 (ko) | 문서 간 유사도 산출 시스템 및 방법 | |
| RU2686590C1 (ru) | Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений | |
| CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
| CN107463666B (zh) | 一种基于文本内容的敏感词过滤方法 | |
| CN103760991B (zh) | 一种实体输入方法和装置 | |
| CN110609902A (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
| CN110502664A (zh) | 视频标签索引库创建方法、视频标签生成方法及装置 | |
| CN112214984B (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
| CN103995816B (zh) | 信息处理设备和信息处理方法 | |
| CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
| US9906588B2 (en) | Server and method for extracting content for commodity | |
| JP2004341940A (ja) | 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム | |
| CN111159354A (zh) | 一种敏感资讯检测方法、装置、设备及系统 | |
| CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
| CN113591881B (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
| JP5446877B2 (ja) | 目次構造特定装置 | |
| WO2024188044A1 (zh) | 视频标签生成方法、装置、电子设备及存储介质 | |
| WO2008062822A1 (en) | Text mining device, text mining method and text mining program | |
| CN111522903A (zh) | 一种深度哈希检索方法、设备及介质 | |
| CN112732867A (zh) | 文件的处理方法及装置 | |
| KR102185831B1 (ko) | 디해시 기반 악성코드 분석 장치 및 방법 | |
| CN119272756A (zh) | 多模态知识库的管理方法、设备及存储介质 | |
| CN118114660A (zh) | 文本检测方法、系统及计算机可读存储介质 | |
| JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
| CN113626637B (zh) | 视频数据筛选法、装置、计算机设备和存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| D13-X000 | Search requested |
St.27 status event code: A-1-2-D10-D13-srh-X000 |
|
| D14-X000 | Search report completed |
St.27 status event code: A-1-2-D10-D14-srh-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| FPAY | Annual fee payment |
Payment date: 20140424 Year of fee payment: 4 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| FPAY | Annual fee payment |
Payment date: 20150427 Year of fee payment: 5 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 5 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R14-asn-PN2301 |
|
| FPAY | Annual fee payment |
Payment date: 20160510 Year of fee payment: 6 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 6 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R14-asn-PN2301 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 7 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| LAPS | Lapse due to unpaid annual fee | ||
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20180430 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| P14-X000 | Amendment of ip right document requested |
St.27 status event code: A-5-5-P10-P14-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20180430 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |