KR101033670B1

KR101033670B1 - 문서 간 유사도 산출 시스템 및 방법

Info

Publication number: KR101033670B1
Application number: KR1020090031387A
Authority: KR
Inventors: 임민수; 강미애
Original assignee: (주)야긴스텍
Priority date: 2008-12-04
Filing date: 2009-04-10
Publication date: 2011-05-12
Also published as: KR20100064297A

Abstract

문서 간 유사도 산출 시스템 및 방법이 제공된다. 문서 간 유사도 산출 시스템은 제 1 문서의 데이터와 제 2 문서의 데이터를 형태소 분석을 통해 각각 2 이상의 같은 수의 그룹으로 분리하는 분리부 및 상기 분리부에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 모두 비교하는 비교부를 구비한다. 또한 문서 간 유사도 산출 방법은 제 1 문서의 데이터와 제 2 문서의 데이터를 각각 2 이상의 같은 수의 그룹으로 분리하는 제 1 단계, 상기 제 1 단계에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 비교하는 제 2 단계 및 상기 제 2 단계에 의한 각 그룹별 비교결과를 종합하여 제 1 문서와 제 2 문서의 유사도를 산출하는 제 3 단계를 포함한다.

표절, 문서, 이미지, 도용, 형태소 분석

Description

문서 간 유사도 산출 시스템 및 방법{Document similarity calculating system and method thereof}

본 발명은 문서 간 유사도 산출 시스템 및 방법에 관한 것으로, 하나의 문서 데이터를 다른 하나 이상의 문서 데이터와 비교 하여 유사도를 산출하는 시스템 및 그 방법에 관한 것이다.

최근 문서의 작성이 주로 컴퓨터에 의해 이루어지고, 인터넷이 대중화 되어 일반인들이 보다 풍부한 자료들을 접근할 수 있게 되면서, 논문, 기술문서 등 많은 문서들이 인터넷 또는 기타 네트워크를 통해 얻어진 원본 문서들로부터 표절, 도용 되어 작성되고 있다.

따라서, 상기 언급한 표절 및 도용행위를 방지하기 위하여 여러 방법을 이용한 표절, 도용 탐지 방법이 제안되고 있다.

본 발명이 해결하고자 하는 기술적 과제는 명사의 단순치환 또는 단락의 재배치 등의 단순 텍스트 편집에 불구하고 텍스트의 유사도를 최대한 빠르고 정확하게 산출할 수 있고 이미지가 포함된 문서의 경우 이미지의 유사도도 측정하여 이를 감안한 문서 전체의 유사도를 산출 할 수 있는 문서 간 유사도 산출 시스템 및 그 방법을 제공하고자 하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해 될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 일 태양에 따른 문서 간 유사도 산출 시스템은 제 1 문서의 데이터와 제 2 문서의 데이터를 형태소 분석을 통해 각각 2 이상의 같은 수의 그룹으로 분리하는 분리부; 및 상기 분리부에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 모두 비교하는 비교부를 포함한다.

상기 기술적 과제를 달성하기 위한 본 발명의 다른 태양에 따른 문서 간 유사도 산출 방법은 제 1 문서의 데이터와 제 2 문서의 데이터를 각각 2 이상의 같은 수의 그룹으로 분리하는 제 1 단계; 상기 제 1 단계에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 비교하는 제 2 단계; 및 상기 제 2 단계에 의한 각 그룹별 비교결과를 종합하여 제 1 문서와 제 2 문서의 유사도를 산출하는 제 3 단계를 포함한다.

상기와 같은 본 발명에 따르면, 명사의 단순치환 또는 단락의 재배치 등의 단순 편집에 불구하고 문서의 유사도를 최대한 정확하게 산출할 수 있는 효과가 있다.

또한, 문서에 포함된 이미지를 회전 변환, 색상 변환 등을 통하여 편집한 경우에도 문서의 유사도를 최대한 정확하게 산출할 수 있는 효과가 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

도 1 내지 도 4를 참조하여, 본 발명의 실시예들에 따른 문서 간 유사도 산출 시스템, 문서 간 유사도 산출 방법을 설명한다.

이하 제 1 문서는 유사한 문서가 존재하는지 의뢰된 문서라 하고, 제 2 문서는 제 1 문서와 비교하게 될 문서를 지칭하기로 한다. 제 2 문서는 하나 이상의 문 서 데이터로 구성 된 비교 대상 문서 데이터 중에 선정 된 하나의 문서일 수 있다. 제 1 문서와 제 2 문서는 이하 설명의 편의를 위하여 임시적으로 각각 정의되었을 뿐, 실제 본 발명을 실시하는 경우 각 문서를 지칭하는 용어는 바뀌어도 본 발명의 내용에 영향을 미치지 않는다.

도 1은 본 발명의 일 실시예에 따른 문서 간 유사도 산출 시스템의 블록 구성도이다. 도 1을 참조하면 본 실시예에 따른 문서 간 유사도 산출 시스템은 분리부(102), 비교부(104)를 포함한다.

분리부(102)는 제 1 문서의 데이터와 제 2 문서의 데이터를 각각 2 이상의 같은 수의 그룹으로 분리한다. 상기 각 그룹으로 분리하는 작업을 이하 '그룹화'라 지칭하기로 한다. 상기 그룹화는 데이터를 그룹별로 분리함에 있어서 어떠한 규칙을 사용하여도 무방하다. 예를 들어, 각각의 데이터를 분리함에 있어서 각 그룹별 데이터의 교집합이 존재하지 않도록 분리할 수 있다. 또 다른 예로는 형태소 분석을 통한 그룹화를 상정해 볼 수 있다. 즉, 문자와 기호를 그룹화하고, 문자 그룹 데이터는 각 어절의 품사를 판단한 후 품사에 따라 문자 그룹 데이터를 다시 그룹화하는 것일 수 있다. 다만, 그룹화의 규칙은 제 1 문서의 데이터와 제 2 문서의 데이터에 대하여 동일하게 적용되어야 함에 유의한다.

비교부(104)는 분리부(102)에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 모두 비교한다. 예를 들어, 제 1 문서와 제 2 문서를 각각 3 그룹으로 분리부(102)가 분리하였다면, 비교부(104)는 제 1 문서와 제 2 문서의 제 1 그룹을 각각 비교하고, 제 1 문서와 제 2 문서의 제 2 그룹을 각 각 비교하며, 제 1 문서와 제 2 문서의 제 3 그룹을 각각 비교한다. 비교부(104)는 분리부(102)에 의하여 분리된 제 1 문서와 제 2 문서의 그룹이 N개라면, N개의 그룹을 모두 각각 비교해야 함에 유의한다.

이하 본 실시예에 따른 문서 간 유사도 산출 시스템의 동작을 설명하기로 한다.

분리부(102)는 제 1 문서의 데이터를 2 이상의 그룹으로 분리한다. 분리부(102)는 또한 제 2 문서의 데이터도 제 1 문서와 같은 방법으로 2 이상의 그룹으로 분리한다. 상기 그룹화의 순서는 제 2 문서를 먼저 그룹화한 후 제 1 문서를 그룹화하는 것일 수 있다. 상기 그룹의 개수는 2개 혹은 그 이상이면 된다.

분리부(102)는 각 그룹의 데이터를 새로 생성하여 당해 문서 데이터의 한 구성요소로써 별도 저장하거나, 연결 리스트 등을 이용하여 기존의 문서 데이터를 재구성할 수 있다.

분리부(102)는 그룹화 작업이 완료된 경우, 비교부(104)에 신호를 제공할 수 있다. 상기 신호는 예를 들면 비교부(104)가 제공하는 함수의 호출, 비교부(104)에 의해 수신되는 메시지 송신 등이 사용될 수 있다.

비교부(104)는 분리부(102)로부터 상기 신호를 제공받아 분리부(102)에 의해 분리된 상기 그룹별 데이터를 서로 비교한다. 예를 들어 2 개의 그룹으로 분리했다고 하면 제 1 문서의 제 1그룹과 제 2 문서의 제 1 그룹을 비교하고, 제 2 문서의 제 1 그룹과 제 2 문서의 제 2 그룹을 비교할 수 있다.

비교부(104)는 상기 각 그룹별 비교 결과를 종합하여 유사도를 산출 할 수 있다. 상기 각 그룹별 비교 결과는 서로 다른 가중치에 의해 합산되어 문서 간 유사도가 산출 될 수 있다. 상기 가중치는 추후 관리자 또는 사용자에 의하여 재지정 될 수 있다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 한 개 이상의 저장 장치를 포함하여 구성되고 두 개 이상의 저장 장치가 연결된 경우 각각의 저장 장치들은 네트워크를 통하여 서로 연결될 수 있으며 제 1 문서와 하나 이상의 비교 대상 문서 데이터를 포함하는 비교 대상 문서 군을 저장하는 저장부(100)를 더 포함할 수 있다.

저장부(100)는 예를 들어 하드디스크(Hard Disc), 플로피디스크(Floppy Disc), CD(Compact Disc), DVD(Digital Versatile Disc), RAM(Random Access Memory), ROM(Read Only Memory), 플래쉬 메모리(Flash Memory) 등이 사용될 수 있다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 비교부(104)에 의해 산출된 문서 간 유사도 데이터를 게시하는 게시부(106)를 더 포함할 수 있다. 상기 게시 수단(106)은 예를 들어 모니터, 텔레비전, 프린터, 텍스트 파일 등이 사용될 수 있다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 유사 판단 시 중요도가 상이할 수 있는 문서 데이터 내 각각의 그룹을 비교한 결과를 균형 있게 참조함으로써 유사도 판단의 정확성을 증가시킬 수 있는 효과가 있다.

이하 도 1, 도 2, 도 3을 참조하여 분리부(102)가 각 문서의 데이터를 명사 문자열을 포함하는 제 1 그룹, 특수 기호 문자열을 포함하는 제 2 그룹, 및 명사와 특수 기호를 제외한 문자열을 포함하는 제 3 그룹으로 분리하는 경우를 일 실시예로 들어 문서 간 유사도 산출 시스템의 동작을 설명하기로 한다.

분리부(102)는 제 1 문서의 데이터를 상기 제 1 그룹 내지 제 3 그룹으로 분리한다. 분리부(102)는 또한 제 2 문서의 데이터도 제 1 문서와 같은 방법으로 제 1 그룹 내지 제 3 그룹으로 분리한다. 상기 분리부(102)는 제 2 문서를 먼저 그룹화 한 후 제 1 문서를 그룹화할 수 있다.

도 2를 참조하여 분리부(102)의 동작을 설명하기로 한다.

도 2는 본 실시예에 따른 문서 간 유사도 산출 시스템의 분리부(102) 블록 구성도이다.

도 2를 참조하면 분리부(102)는 어절 분리 모듈(260), 특수 기호 문자열 생성 모듈(262), 기타 문자열 생성 모듈(264) 및 명사 문자열 생성 모듈(266)을 포함할 수 있다.

어절 분리 모듈(260)은 상기 제 1 문서와 제 2 문서의 데이터를 각 어절 간 분리 기호를 기준으로 분리하여 제 1 문자열을 생성한다. 즉, 제 1 문자열은 각 문장을 구성하는 각 어절이다.

특수 기호 문자열 생성 모듈(262)은 어절 분리 모듈(260)로부터 각각의 제 1 문자열을 순차적으로 제공 받아, 당해 제 1 문자열에 기호가 포함된 경우 당해 기호를 상기 제 2 그룹에 포함시킨다. 특수 기호 문자열 생성 모듈(262)은 상기 제 2 그룹에 기호를 포함시킴에 있어서, 기존의 제 2 그룹의 오른쪽에 기호를 연 결(concatenation)할 수 있다.

기타 문자열 생성 모듈(264)은 특수 기호 문자열 생성 모듈(262)로부터 상기 제 1 문자열을 순차적으로 제공 받아, 당해 제 1 문자열에 마침표 또는 느낌표 중 하나가 포함된 경우 당해 제 1 문자열에서 기호를 제거한 문자열을 상기 제 3 그룹에 포함시키고, 당해 제 1 문자열에서 수사, 대명사, 관형사, 조사 데이터베이스에 포함된 문자열이 발견된 경우 발견된 문자열을 상기 제 3 그룹에 포함시키며, 그 외의 경우 당해 제 1 문자열에서 기호를 제거하여 제 2 문자열을 생성한다.

기타 문자열 생성 모듈(264)은 상기 제 3 그룹에 문자열을 포함시킴에 있어서, 기존의 제 3 그룹의 오른쪽에 문자열을 연결할 수 있다. 기타 문자열 생성 모듈(264)은 제 3 그룹에 새로운 문자열을 연결한 후 구분자 '|' 공백(space)등을 더 연결할 수 있다.

명사 문자열 생성 모듈(266)은 기타 문자열 생성 모듈(264)로부터 상기 제 2 문자열을 순차적으로 제공 받아, 당해 제 2 문자열에 조사 데이터베이스에 저장된 조사가 포함된 경우 조사를 제외한 문자열을 상기 제 1 그룹에 포함시키고, 당해 제 2 문자열에 괄호가 포함된 경우 괄호 내부의 문자열을 상기 제 1 그룹에 포함시키며, 그 외의 경우 당해 제 2 문자열을 상기 제 1 그룹에 포함시킨다.

명사 문자열 생성 모듈(266)은 상기 제 1 그룹에 문자열을 포함시킴에 있어서, 기존의 제 1 그룹의 오른쪽에 문자열을 연결(concatenation)할 수 있다. 명사 문자열 생성 모듈(266)은 제 1 그룹에 새로운 문자열을 연결한 후 구분자 '|' 공백(space)등을 더 연결할 수 있다.

이하, 도 3을 참조하여 분리부(102)의 동작을 설명하기로 한다.

도 3은 본 실시예에 따른 제 1 그룹 내지 제 3 그룹의 추출 예시를 나타낸 도면이다. 도 3에 게시된 단락의 두 번째 문장을 대상으로 분리부(102)의 동작을 설명하기로 한다. 이하 기타 문자열과 명사 문자열의 각 단위 사이의 구분자는 '|'를 사용하는 것으로 가정한다.

단락의 두 번째 문장은 'RFID 미들웨어는 정제, 요약된 태그데이터를 데이터 수요자인 기존 응용 시스템에 신뢰성 있게 전송 할 수 있는 기능을 제공해야 한다[1,8].'이다.

어절 분리 모듈(260)은 상기 문장을 공백(space)을 기준으로 각 어절을 ‘RFID’ ‘미들웨어는’ ‘정제,’ ‘요약된’ ‘태그데이터를’ ‘데이터’ ‘수요자인’ ‘기존’ ‘응용’ ‘시스템에’ ‘신뢰성’ ‘있게’ ‘전송’ ‘할’ ‘수’ ‘있는’ ‘기능을’ ‘제공해야’ ‘한다[1,8].’와 같이 분리하여, 각 어절을 순차대로 특수 기호 문자열 생성 모듈(262)에 제공한다.

특수 기호 문자열 생성 모듈(262)은 어절 분리 모듈(260)로부터 어절을 제공받아 문자가 아닌 기호가 포함된 경우 당해 기호를 제 2 그룹에 포함시키고 각각의 어절을 그대로 기타 문자열 생성 모듈(264)에 제공한다. 그 결과 제 2 그룹 데이터인 ‘,,[,].’이 생성된다.

기타 문자열 생성 모듈(264)은 특수 기호 문자열 생성 모듈(262)로부터 어절을 제공받아 다음과 같은 규칙에 의해 각각의 어절을 처리한다. ㄱ) 어절에 마침표 또는 느낌표 중 하나가 포함된 경우, 당해 마침표 또는 느낌표를 제거한 문자열을 제 3 그룹에 포함시킨다. ㄴ) 어절에 수사, 대명사, 관형사, 조사 데이터베이스에 포함된 문자열이 발견된 경우 발견된 문자열을 제 3 그룹에 포함시킨다. ㄷ) 상기 ㄱ), ㄴ) 에 모두 해당하지 아니하는 경우 당해 어절에서 기호를 제거하여 명사 문자열 생성 모듈에 제공한다.

그 결과 제 3 그룹 데이터인 ‘는|된|를|인|에|기존|에|있게|할|수|있는|을|제공해야|한다’가 생성된다.

명사 문자열 생성 모듈(266)은 기타 문자열 생성 모듈(264)로부터 제공 받은 문자열을 다음 규칙에 의하여 처리한다. ㄱ) 어절에 조사 데이터베이스에 포함된 문자열이 발견된 경우 당해 조사를 제외한 문자열을 제 1 그룹에 포함시킨다. ㄴ) 어절에 괄호가 포함된 경우 괄호 내부의 문자열을 제 1 그룹에 포함시킨다. ㄷ) 상기 ㄱ), ㄴ)에 모두 해당하지 아니하는 경우에는 당해 어절 전체를 제 1 그룹에 포함시킨다.

그 결과 제 1 그룹 데이터인 ‘RFID|미들웨어|정제|요약|태그데이터|데이터|수요자|응용|시스템|신뢰성|전송|기능’가 생성된다.

분리부(102)는 제 1 문서 및 제 2 문서의 데이터가 초록 및 본문으로 구성되어 있는 경우, 초록과 본문의 데이터에 대하여 각각 제 1 그룹 내지 3 그룹을 분리할 수 있다. 분리부(102)는 상기 과정을 거쳐 생성된 제 1 그룹 내지 3 그룹 데이터를 비교부(104)로 제공한다.

비교부(104)는 분리부(102)에 의해 3 개의 그룹으로 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 제 1 그룹끼리, 제 2 그룹끼리, 제 3 그룹끼리 각각 비 교한다. 상기 비교부(104)의 비교방식은 특정 방식에 의하여 제한되지 아니하며, 특히 각 그룹별 비교 결과에 서로 다른 가중치를 주어 합산하는 방식도 사용이 가능하다.

본 실시예에 의한 문서 간 유사도 산출 시스템은 표절 시도 시 누구나 중요하게 생각하는 핵심 키워드는 단순 치환 등을 통하여 변경될 가능성이 높지만 중요하지 않게 생각하는 특수 기호 등은 그대로 유지될 가능성이 있는 바, 이러한 경우에도 중요성이 떨어지는 그룹인 특수 기호의 비교를 통하여 문서의 표절, 도용 등의 판단이 가능한 효과가 있다.

이하 도 1을 참조하여 상기 비교 대상 문서 군에 3개의 문서 데이터가 존재하는 경우를 예로 들어 본 발명의 일 실시예에 따른 문서 간 유사도 산출 시스템의 구성 및 동작을 설명하기로 한다.

도 1에 도시된 바와 같이 본 실시예에 따른 문서 간 유사도 산출 시스템은 저장부(100), 분리부(102), 비교부(104), 게시부(106), 및 제어부(108)를 포함할 수 있다.

저장부(100)는 한 개 이상의 저장 장치를 포함하여 구성되고 두 개 이상의 저장 장치가 연결된 경우 각각의 저장 장치들은 네트워크를 통하여 서로 연결될 수 있으며 제 1 문서와 하나 이상의 비교 대상 문서 데이터를 포함하는 비교 대상 문서 군을 저장한다.

제어부(108)는 상기 비교 대상 문서 군에서 하나의 제 2 문서를 선택하고 선택된 제 2 문서에 대하여 제 1 문서 및 제 2 문서 위치 정보를 포함하는 그룹화 요 청 메시지를 상기 분리부에 제공한 후 유사도 산출 요청 메시지를 상기 비교부에 제공하며, 상기 제 2 문서의 선택, 그룹화 요청 메시지 제공 및 유사도 산출 요청 메시지 제공 동작을 비교 대상 문서 군의 모든 문서 데이터에 대하여 수행한다.

분리부(102)는 제어부(108)로부터 상기 그룹화 요청 메시지를 제공받으면 당해 메시지 속에 포함된 제 1 문서 및 제 2 문서 위치 정보에 대응하는 각 문서의 데이터를 저장부(100)로부터 제공 받아, 제 1 문서 데이터와 제 2 문서 데이터를 각각 그룹화한다.

비교부(104)는 제어부(108)로부터 상기 유사도 산출 요청 메시지를 제공받으면 제 1 문서와 제 2 문서의 그룹화된 데이터를 같은 종류의 그룹끼리 비교한다.

이하 비교 대상 문서 군에 3개의 문서 데이터(문서A, 문서 B, 문서 C)가 포함되었고, 각 문서를 3개의 그룹으로 그룹화하여 각각 비교하는 경우를 예로 들어 본 실시예에 따른 문서 간 유사도 산출 시스템의 동작을 설명한다.

처음으로, 제어부(108)는 제 1 문서 및 문서A 위치 정보를 포함하는 그룹화 요청 메시지를 분리부(102)에 제공한다. 분리부(102)는 제어부(108)로부터 상기 그룹화 요청 메시지를 제공받으면 제 1 문서 및 문서A의 데이터를 저장부(100)로부터 제공 받아, 제 1 문서와 제 2 문서를 각각 제 1 그룹 내지 3 그룹으로 분리한다. 그 후 제어부(108)는 유사도 산출 요청 메시지를 비교부(104)에 제공한다. 비교부(104)는 제어부(108)로부터 유사도 산출 요청 메시지를 제공받으면 제 1 문서와 문서A의 제 1 그룹 데이터끼리, 제 2 그룹 데이터끼리, 제 3 그룹 데이터끼리 각각 비교한다.

다음으로, 제어부(108)는 제 1 문서 및 문서B 위치 정보를 포함하는 그룹화 요청 메시지를 분리부(102)에 제공한다. 분리부(102)는 제어부(108)로부터 상기 그룹화 요청 메시지를 제공받으면 제 1 문서 및 문서B의 데이터를 저장부(100)로부터 제공 받아, 제 1 문서와 제 2 문서를 각각 제 1 그룹 내지 3 그룹으로 분리한다. 그 후 제어부(108)는 유사도 산출 요청 메시지를 비교부(104)에 제공한다. 비교부(104)는 제어부(108)로부터 유사도 산출 요청 메시지를 제공받으면 제 1 문서와 문서B의 제 1 그룹 데이터끼리, 제 2 그룹 데이터끼리, 제 3 그룹 데이터끼리 각각 비교한다.

마지막으로, 제어부(108)는 제 1 문서 및 문서C 위치 정보를 포함하는 그룹화 요청 메시지를 분리부(102)에 제공한다. 분리부(102)는 제어부(108)로부터 상기 그룹화 요청 메시지를 제공받으면 제 1 문서 및 문서C의 데이터를 저장부(100)로부터 제공 받아, 제 1 문서와 제 2 문서를 각각 제 1 그룹 내지 3 그룹으로 분리한다. 그 후 제어부(108)는 유사도 산출 요청 메시지를 비교부(104)에 제공한다. 비교부(104)는 제어부(108)로부터 유사도 산출 요청 메시지를 제공받으면 제 1 문서와 문서C의 제 1 그룹 데이터끼리, 제 2 그룹 데이터끼리, 제 3 그룹 데이터끼리 각각 비교한다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 비교 대상 문서 군에 포함된 모든 문서 데이터에 대하여 제 1 문서와 비교하는 것이 아니라 비교 대상 문서 군에 포함된 문서 데이터 중 일부에 대하여 제 1 문서와 비교할 수 있다. 예를 들면, 저장된 제 1 문서와 비교 대상 문서 군의 데이터는 각각의 초록과 본문이 분리 된 형태 일 수 있고, 제어부(108)는 제 1 문서의 초록 데이터와 문서A, 문서B, 문서C의 초록 데이터를 각각 비교하여 문서A, 문서B, 문서C 중 일부를 제 2 문서로 선택할 수 있다. 제어부(200)는 초록에 기재된 기술 분야를 기준으로 제 2 문서 데이터를 선택할 수 있다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 제 2 문서의 각 그룹별 데이터를 제 2 문서 데이터의 한 구성요소로써 상기 저장부에 저장하고, 제 1 문서의 각 그룹별 데이터를 제 1 문서 데이터의 한 구성요소로써 상기 저장부에 저장한 후, 제 1 문서 데이터는 비교 대상 문서 군에 포함시킬 수 있다. 이 경우, 분리부(102)는 제 1 문서 데이터에 제 1 문서의 각 그룹별 데이터가 포함되지 아니한 경우에 한하여 제 1 문서의 데이터를 분리하고 제 2 문서 데이터에 제 2 문서의 각 그룹별 데이터가 포함되지 아니한 경우에 한하여 제 2 문서의 데이터를 분리할 수 있다. 이 경우, 한번 그룹화한 데이터를 다시 그룹화하지 않아도 되므로 시간이 절약되는 효과가 있고, 제 1 문서 데이터를 비교 대상 문서 군에 자동적으로 포함시킬 수 있어 문서 풀(Pool)이 유사도 산출 작업을 수행할수록 넓어지는 효과가 있다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 비교부(104)에 의해 산출된 문서 간 유사도 데이터를 게시하는 게시부(106)를 더 포함할 수 있다. 상기 게시 수단(106)은 예를 들어 모니터, 텔레비전, 프린터, 텍스트 파일 등이 사용될 수 있다. 상기 게시부(106)는 기준치 이상의 유사도를 가지는 제 2 문서에 대하여만 제 1 문서와 제 2 문서의 유사도를 게시할 수도 있다. 그 경우, 관리자 또는 사용자가 표절 또는 도용의 가능성이 높은 문서를 위주로 세세하게 검토할 수 있는 효과가 있다.

이하 도 1을 참조하여 분리부(102)가 각 문서의 데이터를 각각의 문서에 포함된 이미지 오브젝트 내에 존재하는 각 외곽선상에 일정 간격으로 존재하는 기준점 사이의 거리 비율 데이터를 포함하는 제 1 그룹, 각각의 문서에 포함된 이미지 오브젝트 내의 각 픽셀 컬러 데이터를 포함하는 제 2 그룹으로 분리하는 경우를 일 실시예로 들어 문서 간 유사도 산출 시스템의 동작을 설명하기로 한다.

도 1에 도시된 바와 같이 본 실시예에 따른 문서 간 유사도 산출 시스템은 분리부(102), 비교부(104)를 포함한다.

분리부(102)는 제 1 문서와 제 2 문서의 데이터를 각각의 문서에 포함된 이미지 오브젝트 내에 존재하는 각 외곽선상에 일정 간격으로 존재하는 기준점 사이의 거리 비율 데이터를 포함하는 제 1 그룹, 각각의 문서에 포함된 이미지 오브젝트의 각 픽셀 컬러 데이터를 포함하는 제 2 그룹을 포함하도록 분리한다.

비교부(104)는 분리부(102)에 의하여 분리된 제 1 문서와 제 2 문서의 제 1 그룹 데이터를 서로 비교하고, 제 1 문서와 제 2 문서의 제 2 그룹 데이터를 서로 비교한다.

이하 본 실시예에 따른 문서 간 유사도 산출 시스템의 동작을 설명하기로 한다. 이하 제 1 문서 데이터와 제 2 문서 데이터에는 각각 이미지 데이터가 포함되어 있다고 가정한다. 또한 각 문서의 이미지 데이터는 문서 내부의 각각의 이미지에 대응하는 이미지 오브젝트들을 포함한다고 가정한다.

분리부(102)는 제 1 문서에 포함된 각각의 이미지 오브젝트를 분석하여 상기 제 1 그룹의 데이터를 생성한다.

상기 제 1 그룹의 데이터는 각각의 이미지 오브젝트 별로 다음과 같은 단계를 거쳐 생성될 수 있다. a) 각 이미지 오브젝트의 이미지를 흑백 변환 한다. b) 당해 이미지의 윤곽선을 구한다. c) 상기 윤곽선 상에 일정한 거리마다 위치하는 기준점을 정하고 그 중 한 점을 시작점으로 한다. d) 상기 시작점으로부터 다른 기준점까지의 거리의 비율을 구한다.

상기 c)단계의 기준점은 다음 단계를 거쳐 정하여 질 수 있다. c1) 상기 윤곽선이 연결된 형태인 경우 윤곽선 상에 있는 어느 한 점을 시작점으로 정하고 일정 간격마다 기준을 정하면서 윤곽선 상을 이동하다가 시작점이 나오면 종료한다. c2) 윤곽선이 연결된 형태가 아닌 경우 윤곽선의 한 쪽 끝 점을 시작점으로 정하고 일정 간격마다 기준점을 정하면서 다른 쪽 끝 점이 나오면 종료한다.

분리부(102)는 상기 단계를 거쳐 생성된 각각의 이미지 오브젝트 별 제 1 그룹 데이터를 구분자를 사용하여 구분되도록 연결하여 제 1 문서 전체의 제 1 그룹 데이터를 생성할 수 있다. 상기 구분자는'|' 공백 등이 사용될 수 있다.

분리부(102)는 제 1 문서에 포함된 각각의 이미지 오브젝트를 분석하여 제 2 그룹 데이터를 생성한다.

상기 제 2 그룹 데이터는 제 1 문서의 각각의 이미지 오브젝트 별로 이미지 오브젝트를 구성하는 각각의 픽셀의 색상, 명도, 채도 값을 열거하거나, 각 픽셀의 흑백 변환 후의 색상, 명도, 채도 값을 열거하여 생성될 수 있다.

분리부(102)는 상기 단계를 거쳐 생성된 각각의 이미지 오브젝트 별 제 2 그룹 데이터를 구분자를 사용하여 구분되도록 연결하여 제 1 문서 전체의 제 2 그룹 데이터를 생성할 수 있다. 상기 구분자는 '|' 공백 등이 사용될 수 있다.

분리부(102)는 제 2 문서의 데이터에 대하여도 제 1 문서와 같은 단계를 거쳐 제 2 문서의 제 1 그룹 데이터 및 제 2 문서의 제 2 그룹 데이터를 생성한다.

비교부(104)는 분리부(102)에 의해 생성된 제 1 문서와 제 2 문서의 제 1 그룹 데이터를 비교하고, 제 1 문서와 제 2 문서의 제 2 그룹 데이터를 비교하여 그 결과를 종합한 제 1 문서와 제 2 문서 간 유사도를 산출한다.

상기 유사도는 제 1 그룹의 유사도에 제 1 가중치를 적용한 값과 제 2 그룹의 유사도에 제 2 가중치를 적용한 값을 합산하여 산출 될 수 있다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 제 1 문서와 제 2 문서의 데이터를 텍스트 데이터를 그룹화한 1 이상의 그룹과 이미지 데이터를 그룹화한 1 이상의 그룹을 각각 비교한 후 종합하여 유사도를 산출하도록 변경될 수 있다.

본 실시예에 따른 문서 간 유사도 산출 시스템은 문서에 포함된 이미지를 회전 변환, 색상 변환 등을 통하여 편집한 경우에도 문서의 유사도를 최대한 정확하게 산출할 수 있는 효과가 있다.

이하 도 4를 참조하여 본 발명의 일 실시예에 따른 문서 간 유사도 산출 방법을 설명하기로 한다.

도 4는 본 실시예에 따른 문서 간 유사도 산출 방법의 순서도이다.

제 1 문서에 이미지가 포함되어 있는 경우 제 1 문서의 이미지 데이터와 텍 스트 데이터를 분리한다(S400). 상기 분리 단계(S400)는 예를 들면 당해 문서파일에 대응하는 워드 프로그램에서 제공하는 API(Application Programming Interface)를 이용하여 수행 될 수 있다.

상기 분리 단계(S400)를 통하여 분리된 제 1 문서의 텍스트 데이터를 2 이상의 그룹으로 분리한다(S402). 상기 텍스트 데이터의 분리 단계(S402)는, 텍스트 데이터의 모든 데이터에 대하여 2 이상의 그룹에 동시에 속하지 않도록 분리하는 것일 수 있다. 상기 텍스트 데이터의 분리 단계(S402)는, 제 1 문서의 데이터를 각각 명사 문자열을 포함하는 제 1 그룹, 특수 기호 문자열을 포함하는 제 2 그룹, 및 명사와 특수 기호를 제외한 문자열을 포함하는 제 3 그룹을 포함하도록 분리하는 것일 수 있다.

상기 분리 단계(S400)를 통하여 분리된 제 1 문서의 이미지 데이터를 2 이상의 그룹으로 분리한다(S404). 상기 이미지 데이터의 분리 단계(S404)는 제 1 문서의 이미지 데이터를 동시에 2개의 그룹에 속하는 데이터가 없도록 2 이상의 그룹으로 분리하는 것일 수 있다. 상기 이미지 데이터의 분리 단계(S404)는 제 1 문서의 데이터를 각 이미지 오브젝트 별로 외곽선상에 일정 간격으로 존재하는 기준점 사이의 거리 비율에 관한 데이터를 포함하는 제 4 그룹, 각 이미지 오브젝트 별 픽셀 컬러 데이터를 포함하는 제 5 그룹을 더 포함하도록 분리하는 것일 수 있다.

비교 대상 문서 군에 포함된 2 이상의 문서 데이터 중 하나의 문서를 제 2 문서로 선정한다(S406). 그 후, 선정된 제 2 문서 데이터 내에 그룹별 데이터가 존재하는지 판단한다(S408). 그룹별 데이터가 존재하지 않는 경우, 제 2 문서에 이미 지가 포함되어 있는지 판단하고, 이미지가 포함되어 있다면 제 2 문서의 이미지 데이터와 텍스트 데이터를 분리하며(S410), 제 2 문서의 텍스트 데이터를 2 이상의 그룹으로 분리하고(S412), 제 2 문서의 이미지 데이터도 2 이상의 그룹으로 분리한다(S414).

그 후, 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 비교하여 유사도를 산출한다(S416).

비교 대상 문서 군에 포함된 모든 문서 데이터에 대하여 제 1 문서와의 비교 작업을 마쳤는지 판단한다(S418). 아직 남은 문서 데이터가 있는 경우, 제 2 문서 선정 단계부터(S406), 유사도 산출 단계(S416)까지를 비교 대상 문서 군에 포함된 각 문서 데이터에 대하여 반복한다.

그 후, 산출된 제 1 문서와 각각의 제 2 문서의 유사도 데이터를 게시 한다(S420). 상기 게시 단계(S420)는 제 1 문서와의 유사도가 기준치 이상인 제 2 문서에 대하여만 유사도 데이터를 게시하는 것이 바람직하다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 아닌 것으로 이해해야만 한다.

도 1은 본 발명의 일 실시예에 따른 문서 간 유사도 산출 시스템의 블록 구성도이다.

도 2는 본 발명의 일 실시예에 따른 문서 간 유사도 산출 시스템의 분리부 부분의 블록 구성도이다.

도 3은 본 발명의 일 실시예에 따른 그룹화 예시를 나타낸 도면이다.

도 4는 본 발명의 일 실시예에 따른 문서 간 유사도 산출 방법의 순서도이다.

Claims

제 1 문서의 데이터와 제 2 문서의 데이터를 형태소 분석을 통해 각각 2 이상의 그룹으로 분리하는 분리부; 및

상기 분리부에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 모두 비교하는 비교부를 포함하되,

상기 분리부는 제 1 문서의 데이터와 제 2 문서의 데이터를 같은 수의 그룹으로 분리하고, 제 1 문서와 제 2 문서의 데이터를 각각 명사 문자열을 포함하는 제 1 그룹, 특수 기호 문자열을 포함하는 제 2 그룹, 및 명사와 특수 기호를 제외한 문자열을 포함하는 제 3 그룹을 포함하도록 분리하는 문서 간 유사도 산출 시스템.
삭제
제 1 항에 있어서,

상기 분리부는,

상기 제 1 문서와 제 2 문서의 데이터를 각 어절 간 분리 기호를 기준으로 분리하여 제 1 문자열을 생성하는 어절 분리 모듈;

상기 어절 분리 모듈로부터 각각의 제 1 문자열을 순차적으로 제공 받아, 당해 제 1 문자열에 기호가 포함된 경우 당해 기호를 상기 제 2 그룹에 포함시키는 특수 기호 문자열 생성 모듈;

상기 특수 기호 문자열 생성 모듈로부터 상기 제 1 문자열을 순차적으로 제공 받아, 당해 제 1 문자열에 마침표 또는 느낌표 중 하나가 포함된 경우 당해 제 1 문자열에서 기호를 제거한 문자열을 상기 제 3 그룹에 포함시키고, 당해 제 1 문자열에서 수사, 대명사, 관형사, 조사 데이터베이스에 포함된 문자열이 발견된 경우 발견된 문자열을 상기 제 3 그룹에 포함시키며, 그 외의 경우 당해 제 1 문자열에서 기호를 제거하여 제 2 문자열을 생성하는 기타 문자열 생성 모듈; 및

상기 기타 문자열 생성 모듈로부터 상기 제 2 문자열을 순차적으로 제공 받아, 당해 제 2 문자열에 조사 데이터베이스에 저장된 조사가 포함된 경우 조사를 제외한 문자열을 상기 제 1 그룹에 포함시키고, 당해 제 2 문자열에 괄호가 포함된 경우 괄호 내부의 문자열을 상기 제 1 그룹에 포함시키며, 그 외의 경우 당해 제 2 문자열을 상기 제 1 그룹에 포함시키는 명사 문자열 생성 모듈을 포함하는 문서 간 유사도 산출 시스템.
제 1 항에 있어서,

상기 비교부는,

제 1 문서 데이터와 제 2 문서 데이터의 각 그룹을 비교하여 산출된 각 그룹별 비교 결과에 서로 상이한 가중치를 적용하여 합산하는 문서 간 유사도 산출 시스템.
제 1 항에 있어서,

한 개 이상의 저장 장치를 포함하여 구성되고 두 개 이상의 저장 장치가 연결된 경우 각각의 저장 장치들은 네트워크를 통하여 서로 연결될 수 있으며 제 1 문서 데이터와 비교 대상 문서 군이 저장된 저장부를 더 포함하는 문서 간 유사도 산출 시스템.
제 5 항에 있어서,

상기 문서 간 유사도 산출 시스템은,

상기 비교 대상 문서 군에서 하나의 제 2 문서를 선택하고 선택된 제 2 문서에 대하여 제 1 문서 및 제 2 문서 위치 정보를 포함하는 그룹화 요청 메시지를 상기 분리부에 제공한 후 유사도 산출 요청 메시지를 상기 비교부에 제공하며, 상기 제 2 문서의 선택, 그룹화 요청 메시지 제공 및 유사도 산출 요청 메시지 제공 동작을 비교 대상 문서 군의 모든 문서 데이터에 대하여 수행하는 제어부를 더 포함하고,

상기 분리부는,

상기 제어부로부터 상기 그룹화 요청 메시지를 제공받으면 당해 메시지 속에 포함된 제 1 문서 및 제 2 문서 위치 정보에 대응하는 각 문서의 데이터를 상기 저장부로부터 제공 받아, 제 1 문서 데이터와 제 2 문서 데이터를 각각 그룹화하고,

상기 비교부는,

상기 제어부로부터 상기 유사도 산출 요청 메시지를 제공받으면 제 1 문서와 제 2 문서의 그룹화된 데이터를 같은 종류의 그룹끼리 비교하는 문서 간 유사도 산출 시스템.
제 6 항에 있어서,

상기 저장부에 저장된 제 1 문서와 비교 대상 문서 군의 데이터는,

각 문서 데이터의 초록과 본문이 분리된 것이고,

상기 제어부는,

상기 비교 대상 문서 군에서 하나의 제 2 문서를 선택함에 있어 제 1 문서의 초록 데이터와 비교 대상 문서 군에 속한 문서의 초록 데이터를 비교하여 선택하는 문서 간 유사도 산출 시스템.
제 5 항에 있어서,

상기 분리부는,

제 2 문서의 각 그룹별 데이터를 제 2 문서 데이터의 한 구성요소로써 상기 저장부에 저장하고, 제 1 문서의 각 그룹별 데이터를 제 1 문서 데이터의 한 구성요소로써 상기 저장부에 저장한 후, 제 1 문서 데이터는 비교 대상 문서 군에 포함시키는 문서 간 유사도 산출 시스템.
제 8 항에 있어서,

상기 분리부는,

제 1 문서 데이터에 제 1 문서의 각 그룹별 데이터가 포함되지 아니한 경우에 한하여 제 1 문서의 데이터를 그룹화하고 제 2 문서 데이터에 제 2 문서의 각 그룹별 데이터가 포함되지 아니한 경우에 한하여 제 2 문서의 데이터를 그룹화하는 문서 간 유사도 산출 시스템.
제 1 항에 있어서,

상기 분리부는,

제 1 문서와 제 2 문서의 데이터를 각각의 문서에 포함된 이미지 오브젝트 내에 존재하는 각 외곽선상에 일정 간격으로 존재하는 기준점 사이의 거리 비율 데이터를 포함하는 제 1 그룹, 각각의 문서에 포함된 이미지 오브젝트의 각 픽셀 컬러 데이터를 포함하는 제 2 그룹을 포함하도록 분리하는 문서 간 유사도 산출 시스템.
제 10 항에 있어서,

상기 각 픽셀 컬러 데이터는,

각 픽셀의 색상, 명도, 채도 값인 문서 간 유사도 산출 시스템.
제 11 항에 있어서,

상기 각 픽셀의 색상 데이터는,

각 픽셀을 흑백 변환한 후의 색상, 명도, 채도 값인 문서 간 유사도 산출 시스템.
제 1 문서의 데이터와 제 2 문서의 데이터를 각각 2 이상의 같은 수의 그룹으로 분리하되, 제 1 문서와 제 2 문서의 데이터를 각각 명사 문자열을 포함하는 제 1 그룹, 특수 기호 문자열을 포함하는 제 2 그룹, 및 명사와 특수 기호를 제외한 문자열을 포함하는 제 3 그룹을 포함하도록 분리하는 제 1 단계;

상기 제 1 단계에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 비교하는 제 2 단계; 및

상기 제 2 단계에 의한 각 그룹별 비교 결과를 종합하여 제 1 문서와 제 2 문서의 유사도를 산출하는 제 3 단계를 포함하는 문서 간 유사도 산출 방법.
삭제
삭제