KR102162711B1

KR102162711B1 - 비텍스트 영역의 표절 검사 방법 및 장치

Info

Publication number: KR102162711B1
Application number: KR1020180169489A
Authority: KR
Inventors: 문민주
Original assignee: 주식회사 무하유
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-10-07
Also published as: KR20200079854A

Abstract

비텍스트 영역의 표절 검사 방법이 제공된다. 상기 방법은 표절검사대상인 타겟문서로부터 비텍스트 영역을 인식하는 단계, 상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계, 및 상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 포함한다.

Description

비텍스트 영역의 표절 검사 방법 및 장치{METHOD AND APPARATUS FOR DETERMINING PLAGIARISM OF NON-TEXT REGION OF DOCUMENT}

본 발명은 문서 내 비텍스트 영역의 표절 검사 방법 및 장치에 관한 것이다.

컴퓨터 관련 산업이 비약적인 발전을 이루면서, 과거 필기도구를 이용하여 작성되던 종이문서가 최근 들어 전자문서로 대체되고 있는 추세이다.

전자문서란 컴퓨터 등 정보처리능력을 가진 장치에 의하여 전자적인 형태로 작성되어 송수신되거나 저장된 문서형식의 자료로서 표준화된 것을 일컫는다.

이러한 전자문서는 작성 및 편집이 용이하다. 전자문서는 다양한 경로를 통하여 유통될 수 있다. 특히, 최근 인터넷이 대중화됨에 따라, 일반인들도 인터넷 검색 엔진을 이용하여 원하는 정보를 손쉽게 획득할 수 있게 되면서, 논문, 기술문서 등 많은 문서들이 인터넷을 통하여 얻어진 원본 문서들로부터 무분별하게 표절되어 작성되고 있다. 예컨대, 자기 소개서, 독후감, 레포트, 논문 등의 문서 작성시, 인터넷으로 관련 주제의 전문 자료, 레포트 자료, 블로그 글, 카페 글 등을 쉽게 구할 수 있다. 이에, 표절 행위가 하나의 문서를 놓고 베끼는 것을 넘어서 여러 문서로부터 짜깁기하는 형태로 점점 더 정교화 되고 있다. 짜깁기(splicing)는 크게 단락 단위나 문장 단위로 발생하기도 하고, 문장보다 작은 구절 단위로도 발생한다.

또한, 문장이나 구절과 같은 텍스트 부분에 대한 표절 행위뿐만 아니라, 비텍스트 부분인 이미지, 수식, 표, 그래프 등과 같은 영역에 대해서도 표절 행위가 발생하고 있다. 따라서, 텍스트뿐만 아니라 비텍스트 부분에 대해 얼마만큼 표절을 했는지 찾아내는 기술이 필요하다.

본 발명이 해결하고자 하는 과제는 문서 내 비텍스트 영역의 표절 검사 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 과제는 문서 내 비텍스트 영역에 대해 형태적인 유사성뿐만 아니라 내용적 유사성을 검사하여 표절 여부를 판단하는 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 과제는 표절검사대상 문서의 종류나 분야에 따라 서로 다른 기준을 적용하여 표절률을 산출할 수 있는 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 컴퓨터가 수행하는 비텍스트 영역의 표절 검사 방법은, 표절검사대상인 타겟문서로부터 비텍스트 영역을 인식하는 단계, 상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계, 및 상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 포함하되, 상기 비교하는 단계는, 상기 타겟문서의 비텍스트 영역에 대응하는 상기 비교문서의 비텍스트 영역과 비교할 수 있다.

본 발명의 일 실시예에 있어서, 상기 비텍스트 영역을 인식하는 단계는, 상기 타겟문서로부터 이미지 객체, 표 객체, 또는 도형 객체를 추출하여 상기 비텍스트 영역으로 인식하는 단계, 및 상기 인식된 비텍스트 영역의 객체 종류에 따라 범주를 분류하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 비교하는 단계는, 상기 타겟문서의 비텍스트 영역의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역과 비교하되, 상기 타겟문서의 비텍스트 영역과 상기 비교문서의 비텍스트 영역 사이의 형태적 유사도 및 내용적 유사도 중 적어도 하나를 비교할 수 있다.

본 발명의 일 실시예에 있어서, 상기 비교하는 단계는, 상기 타겟문서의 비텍스트 영역으로부터 이미지 객체를 인식한 경우, 상기 이미지 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고, 상기 비교문서의 비텍스트 영역 내 이미지 객체와, 상기 타겟문서의 비텍스트 영역 내 이미지 객체 사이의 특징점을 비교하여 상기 형태적 유사도를 산출하고, 또는, 상기 비교문서의 비텍스트 영역 내 이미지 객체와, 상기 타겟문서의 비텍스트 영역 내 이미지 객체 사이의 키워드를 비교하여 상기 내용적 유사도를 산출할 수 있다.

본 발명의 일 실시예에 있어서, 상기 타겟문서의 비텍스트 영역으로부터 표 객체를 인식한 경우, 상기 표 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고, 상기 비교문서의 비텍스트 영역 내 표 객체와, 상기 타겟문서의 비텍스트 영역 내 표 객체 사이의 어문을 추출하여 비교함으로써 상기 형태적 유사도 및 상기 내용적 유사도 중 적어도 하나를 산출할 수 있다.

본 발명의 일 실시예에 있어서, 상기 비교하는 단계는, 상기 타겟문서의 비텍스트 영역으로부터 도형 객체를 인식한 경우, 상기 도형 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고, 상기 비교문서의 비텍스트 영역 내 도형 객체와, 상기 타겟문서의 비텍스트 영역 내 도형 객체 사이의 특징점을 비교하여 상기 형태적 유사도를 산출하고, 또는, 상기 비교문서의 비텍스트 영역 내 도형 객체와, 상기 타겟문서의 비텍스트 영역 내 도형 객체 사이의 키워드를 비교하여 상기 내용적 유사도를 산출할 수 있다.

본 발명의 일 실시예에 있어서, 상기 비교하는 단계는, 상기 타겟문서의 비텍스트 영역에 대한 캡션 객체를 인식하는 단계를 더 포함하되, 상기 캡션 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고, 상기 비교문서의 비텍스트 영역 내 캡션 객체와, 상기 타겟문서의 비텍스트 영역 내 캡션 객체 사이의 어문을 추출하여 비교함으로써 상기 형태적 유사도 및 상기 내용적 유사도 중 적어도 하나를 산출할 수 있다.

본 발명의 일 실시예에 있어서, 상기 표절여부를 판단하는 단계는, 상기 형태적 유사도 및 상기 내용적 유사도에 가중치를 부여하여, 상기 타겟문서의 비텍스트 영역에 대한 표절률을 산출하는 단계, 및 상기 표절률을 기초로 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 표절률을 산출하는 단계는, 상기 타겟문서의 비텍스트 영역의 범주에 따라 가중치를 부여하여, 상기 형태적 유사도 및 상기 내용적 유사도를 산출할 수 있다.

본 발명의 일 실시예에 따른 장치는, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 표절검사대상인 타겟문서로부터 비텍스트 영역을 인식하는 단계, 상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계, 및 상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 수행하되, 상기 비교하는 단계는, 상기 타겟문서의 비텍스트 영역에 대응하는 상기 비교문서의 비텍스트 영역과 비교할 수 있다.

본 발명의 일 실시예에 따른 컴퓨터프로그램은 하드웨어인 컴퓨터와 결합되어, 상기 비텍스트 영역의 표절 검사 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된다.

본 발명에 따르면, 문서 내 비텍스트 영역에 대한 표절 여부를 판단할 수 있다. 또한, 문서 내 비텍스트 영역의 형태적인 표절 여부와 함께 내용적인 표절 여부를 검사할 수 있다.

본 발명에 따르면, 표절검사대상 문서의 종류나 분야에 따라 형태적인 부분에 가중치를 둘 것인지 내용적인 부분에 가중치를 둘 것인지를 결정하여, 보다 표절 검사의 정확도 및 신뢰도를 높일 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 비텍스트 영역의 표절 검사 방법을 개략적으로 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따라 이미지로부터 키워드를 추출한 예시를 나타낸 도면이고, 도 3은 본 발명의 일 실시예에 따라 이미지로부터 자연어를 추출한 예시를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 비텍스트 영역의 표절 검사 방법을 수행하는 장치(300)의 구성을 개략적으로 나타내는 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.

본 명세서에서 "컴퓨터"는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 헤드마운트 디스플레이(Head Mounted Display; HMD) 장치가 컴퓨팅 기능을 포함하는 경우, HMD장치가 컴퓨터가 될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 비텍스트 영역의 표절 검사 방법을 개략적으로 도시한 흐름도이다.

도 1의 방법은 설명의 편의를 위하여 컴퓨터에 의하여 수행되는 것으로 서술하나, 각 단계의 수행주체가 특정 장치에 제한되는 것은 아니고 컴퓨팅 처리를 수행할 수 있는 장치를 포괄하는 의미로 사용될 수 있다. 즉, 본 실시예에서 컴퓨터는 본 발명의 실시예에 따른 비텍스트 영역의 표절 검사 방법을 수행할 수 있는 장치를 의미할 수 있다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 비텍스트 영역의 표절 검사 방법은, 표절검사대상인 타겟문서로부터 비텍스트 영역을 인식하는 단계(S100), 상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계(S200), 및 상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계(S300)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.

컴퓨터는 표절검사대상인 타겟문서로부터 비텍스트 영역을 인식할 수 있다(S100).

일 실시예로, 컴퓨터는 텍스트 영역과 비텍스트 영역을 포함하고 있는 타겟문서를 획득할 수 있다. 여기서, 텍스트 영역은 문자, 숫자 등을 포함한 문장으로 이루어진 영역을 말하며, 비텍스트 영역은 이미지, 표, 도형, 수식, 그래프 등과 같은 비텍스트로 이루어진 영역을 말한다.

그리고, 컴퓨터는 획득된 타겟문서로부터 텍스트 영역과 비텍스트 영역을 분리하여, 비텍스트 영역에 포함된 이미지, 표, 도형, 수식, 그래프 등을 추출할 수 있다.

예를 들어, 컴퓨터는 스캔이미지, PDF 등과 같은 이미지 형태의 문서나, 한글, 워드 등과 같은 형태의 문서를 타겟문서로 획득할 수 있다. 이미지 형태의 타겟문서의 경우, 컴퓨터는 타겟문서 내 이미지, 표, 도형, 수식, 그래프 등을 검출하고, 이를 비텍스트 영역으로 추출할 수 있다. 한글, 워드 등과 같은 형태의 타겟문서의 경우, 컴퓨터는 타겟문서의 바이트 스트림(byte stream)으로부터 이미지, 표, 도형, 수식, 그래프 등을 나타내는 특정한 바이트 스트림을 검출하고, 이를 비텍스트 영역으로 추출할 수 있다.

컴퓨터는 타겟문서로부터 비텍스트 영역을 인식한 다음, 인식된 비텍스트 영역의 종류에 따라 범주를 분류할 수 있다. 일 실시예로, 사진, 그림, 삽화 등의 객체를 이미지 객체로 분류하여 제1 범주로 정의하고, 표와 같은 형태의 객체를 표 객체로 분류하여 제2 범주로 정의하고, 도형, 수식, 그래프 등의 객체를 도형 객체로 분류하여 제3 범주로 정의하고, 사진, 그림, 삽화, 표 등의 이해를 돕기 위해 쓰는 간단한 주석문, 캡션 등의 객체를 캡션 객체로 분류하여 제4 범주로 정의할 수 있다. 이와 같이 사진, 그림, 삽화, 표, 도형 등과 같은 객체를 종류에 따라 분류하여 특정 범주에 속하는 것으로 정의한 것은 하나의 예시일 뿐이며, 본 발명이 이에 한정되는 것은 아니다. 설명의 편의를 위해 유사한 속성을 가진 객체들을 하나의 범주에 속하는 것으로 정의하여 제시한 것일 뿐, 사진, 그림, 삽화, 표, 도형 등을 각각의 범주로 분류하여 사용할 수도 있다.

여기서, 제1 범주로 분류하여 정의한 이미지 객체에서, 그림은 정물화, 풍경화, 인물화 등 사진과 유사하게 묘사한 것으로, 사람이 물감 등의 재료를 사용하여 캔버스 등에 작가의 사상을 표현해 낸 것을 말할 수 있다. 다시 말해, 그림은 컴퓨터로 그려진 것이 아닌 사람이 직접 그린 것을 의미할 수 있다. 또한, 삽화는 책, 잡지 등의 인쇄물에서 문장 내용을 보충하거나 강조하기 위해 첨부하는 그림으로, 글의 내용을 보완하고 이해하기 쉽도록 간략하게 그려 삽입된 그림일 수 있다. 전술한 그림과는 달리, 삽화의 경우 인물이 실제 신체 비율을 따르지 않거나 동물이 옷을 입고 있는 등 보다 자유로운 특징을 가질 수 있다. 또한, 사진은 사람 또는 컴퓨터에 의해 인위적으로 생성된 이미지가 아니라, 실제 인물, 풍경 등의 자연물 또는 인공물을 대상으로 카메라에 의해 촬영된 이미지 데이터를 말한다.

비텍스트 영역을 범주화함에 있어서, 컴퓨터는 타겟문서로부터 인식된 비텍스트 영역을 이미지로 변환하고, 변환된 이미지를 기초로 제1 내지 제4 범주 중 어느 하나의 범주로 분류할 수 있다. 예를 들어, 컴퓨터는 타겟문서로부터 표를 추출한 경우, 타겟문서 내부에서 추출된 표의 위치정보나 메타정보를 획득하여 해당 영역을 이미지로 변환할 수 있다. 그리고, 컴퓨터는 이미지로 변환된 해당 영역에 대해, 이미지 객체, 표 객체, 도형 객체, 및 캡션 객체 중 어떤 객체에 속하는지에 따라 범주를 분류할 수 있다.

또한, 컴퓨터는 타겟문서로부터 비텍스트 영역을 인식함에 있어 보다 인식률을 향상시키기 위해 다양한 영상 처리 기술을 적용할 수도 있고, 학습을 수행할 수도 있다. 일 실시예로, 컴퓨터는 이미지로 변환된 비텍스트 영역에 대해 영상 전처리 기술(예컨대, 노이즈 제거, 콘투어(contour) 기반의 영상 보정 등), 이미지 세그먼테이션 기술, 텍스처 특성을 이용한 분류 기법 등을 적용하여 그림, 사진, 삽화, 표, 도형 등의 객체를 보다 효과적으로 인식하여 추출할 수 있다.

다른 실시예로, 컴퓨터는 딥러닝(예컨대, CNN; convolutional neural network)을 이용하여 학습을 수행함으로써, 이미지로부터 인식하고자 하는 특정 객체(예컨대, 그림, 삽화, 사진, 도형, 표, 그래프 등)를 효과적으로 추출할 수 있다. 예를 들어, 컴퓨터는 그림, 삽화, 사진, 도형, 표, 그래프 등을 포함하는 이미지들을 데이터셋으로 구성하고, 데이터셋을 기초로 적어도 하나의 레이어(예컨대, 콘볼루션 레이어(convolution layer) 및 풀링 레이어(pooling layer))를 포함하는 CNN을 통해 학습을 수행할 수 있다. 이때, 컴퓨터는 학습을 통해 학습 모델을 생성할 수 있다. 따라서, 컴퓨터는 타겟문서로부터 인식된 비텍스트 영역을 이미지로 변환하고, 변환된 이미지를 학습 모델의 입력값으로 입력할 수 있다. 컴퓨터는 학습 모델에 입력된 이미지로부터 특징 맵(feature map)을 추출하고, 특징 맵을 기초로 이미지 내 정보가 무엇인지를 출력값으로 획득할 수 있다. 즉, 컴퓨터는 학습 모델을 통해 타겟문서 내 비텍스트 영역의 종류를 파악하여 범주화할 수 있다.

컴퓨터는 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교할 수 있다(S200).

이때, 컴퓨터는 타겟문서의 비텍스트 영역과 대응하는 비교문서의 비텍스트 영역을 매칭하여 비교할 수 있다.

여기서, 비교문서는 타겟문서와 비교를 수행할 문서를 말한다. 예를 들어, 컴퓨터는 데이터베이스를 포함할 수 있고, 데이터베이스는 표절검사에 필요한 다양한 데이터를 저장할 수 있다. 예를 들어, 컴퓨터는 데이터베이스로부터 비교문서를 검색하여 획득하고, 비교문서와 타겟문서의 비교를 수행할 수 있다. 또는, 데이터베이스가 외부 서버에 구축되어 있을 수도 있으며, 이 경우 컴퓨터는 외부 서버의 데이터베이스와 연결하여 비교문서를 획득할 수도 있다. 또는, 컴퓨터는 타겟문서와 표절 여부를 비교할 비교문서를 사용자로부터 직접 수신하거나 또는 사용자 단말장치로부터 수신할 수도 있다.

일 실시예로, 컴퓨터는 타겟문서로부터 인식된 비텍스트 영역을 범주화한 경우, 타겟문서의 비텍스트 영역의 범주와 동일한 범주에 속하는 비교문서의 비텍스트 영역과 비교할 수 있다. 다시 말해, 컴퓨터는 타겟문서로부터 인식된 비텍스트 영역의 객체 종류와 동일한 객체 종류에 해당하는 비교문서 내 비텍스트 영역과 비교할 수 있다. 예를 들어, 컴퓨터는 타겟문서로부터 이미지(사진, 그림, 삽화 등)를 인식한 경우 제1 범주에 속하는 것으로 판단할 수 있고, 이 경우 비교문서 내 제1 범주에 속하는 객체 영역(즉, 사진, 그림, 삽화 등의 이미지 객체)을 획득하여 이를 타겟문서의 이미지와 비교할 수 있다.

그리고, 컴퓨터는 타겟문서의 비텍스트 영역과 비교문서의 비텍스트 영역을 비교하여, 형태적 유사도 및 내용적 유사도 중 적어도 하나를 산출할 수 있다.

여기서, 형태적 유사도는 그림, 삽화, 사진, 그래프, 도형, 수식, 표 등과 같은 비텍스트 영역 내 포함된 객체의 형상, 모양, 색상, 크기 등과 같은 외형적인 형태가 얼마나 유사한지를 나타내는 것일 수 있다. 내용적 유사도는 그림, 삽화, 사진, 그래프, 도형, 수식, 표 등과 같은 비텍스트 영역 내 포함된 객체가 표현하거나 나타내고 있는 의미나 내용이 얼마나 유사한지를 나타내는 것일 수 있다.

일 실시예로, 컴퓨터는 타겟문서로부터 이미지 객체를 추출하여 비텍스트 영역으로 인식한 경우, 이미지 객체의 범주와 동일한 범주에 속하는 비교문서의 비텍스트 영역(즉, 비교문서 내 이미지 객체 영역)을 획득한 다음, 비교문서의 비텍스트 영역 내 이미지 객체와 타겟문서의 비텍스트 영역 내 이미지 객체 사이의 형태적 유사도 또는 내용적 유사도를 산출할 수 있다.

예를 들어, 형태적 유사도는 이미지 유사도 알고리즘을 적용할 수 있다. 일례로, 컴퓨터는 비교문서의 이미지 객체와 타겟문서의 이미지 객체 각각으로부터 특징점들을 추출하고, 두 문서의 이미지 객체 사이의 특징점 매칭을 통해 형태적으로 어느 정도 유사한지를 비교할 수 있다. 또한, 내용적 유사도는 자연어 해석 알고리즘, 키워드 추출 알고리즘 등을 적용할 수 있다. 일례로, 컴퓨터는 비교문서의 이미지 객체와 타겟문서의 이미지 객체 각각으로부터 키워드를 추출하거나, 자연어를 추출하여 내용에 대한 해석을 통해 내용적으로 어느 정도 유사한지를 비교할 수 있다.

도 2는 본 발명의 일 실시예에 따라 이미지로부터 키워드를 추출한 예시를 나타낸 도면이고, 도 3은 본 발명의 일 실시예에 따라 이미지로부터 자연어를 추출한 예시를 나타낸 도면이다.

도 2의 (a)를 참조하면, 컴퓨터는 이미지(100) 내 등장하는 객체를 인식하고, 인식된 객체에 대해 "사람", "노트북", "의자"를 키워드로 추출할 수 있다. 도 2의 (b)를 참조하면, 컴퓨터는 이미지(110) 내 등장하는 객체를 인식하고, 인식된 객체에 대해 "보트", "사람"을 키워드로 추출할 수 있다.

도 3을 참조하면, 컴퓨터는 이미지(200) 내 포함된 객체를 인식하고 인식된 객체에 대한 의미를 파악함으로써 "걷고 있는 여자", "행복한 표정의 개" 등을 자연어로 추출할 수 있다.

따라서, 컴퓨터는 도 2 및 도 3에서와 같이, 타겟문서 및 비교문서로부터 각각 키워드나 자연어를 추출하여, 두 문서 사이의 키워드나 자연어 매칭을 통해 상호 간의 내용적 유사도를 비교할 수 있다.

다른 실시예로, 컴퓨터는 타겟문서로부터 표 객체를 추출하여 비텍스트 영역으로 인식한 경우, 표 객체의 범주와 동일한 범주에 속하는 비교문서의 비텍스트 영역(즉, 비교문서 내 표 객체 영역)을 획득한 다음, 비교문서의 비텍스트 영역 내 표 객체와 타겟문서의 비텍스트 영역 내 표 객체 사이의 형태적 유사도 또는 내용적 유사도를 산출할 수 있다.

예를 들어, 컴퓨터는 표 객체로부터 표나 테이블 형태의 레이아웃을 인식하고, 레이아웃 내 텍스트(즉, 어문)를 추출할 수 있다. 컴퓨터는 타겟문서 및 비교문서 각각으로부터 추출된 표 내에 포함된 텍스트를 음절 단위로 비교함으로써 형태적 유사도 또는 내용적 유사도를 판단할 수 있다. 일반적으로, 표는 다수의 줄 및 칸으로 구성될 수 있으며, 각 줄 및 칸에 숫자, 문자, 기호 등의 텍스트가 존재할 수 있다. 컴퓨터는 각 줄 및 칸 내 텍스트를 각각 비교함으로써 타겟문서와 비교문서 사이의 표 상호간의 유사 정도를 판단할 수 있다. 예를 들어, 비교문서 내 표와 비교 결과, 타겟문서 내 표에서 일부 텍스트(예컨대, 일부 숫자)를 변경하거나 일부 줄 및/또는 칸을 누락시키거나 일부 줄 및/또는 칸의 순서를 변경하는 등과 같은 결과를 도출할 수 있으며, 이 경우 비교문서와 타겟문서 간의 두 표는 서로 내용적 유사도가 높은 것으로 판단할 수 있다.

또 다른 실시예로, 컴퓨터는 타겟문서로부터 도형 객체를 추출하여 비텍스트 영역으로 인식한 경우, 도형 객체의 범주와 동일한 범주에 속하는 비교문서의 비텍스트 영역(즉, 비교문서 내 도형 객체 영역)을 획득한 다음, 비교문서의 비텍스트 영역 내 도형 객체와 타겟문서의 비텍스트 영역 내 도형 객체 사이의 형태적 유사도 또는 내용적 유사도를 산출할 수 있다.

예를 들어, 도형 객체가 도형, 그래프와 같은 이미지로 인식될 수 있는 객체라면, 상술한 바와 같이 컴퓨터는 비교문서 내 도형 객체와 타겟문서 내 도형 객체 각각으로부터 특징점을 추출하여 매칭함으로써, 형태적 유사도를 산출할 수 있다. 또한, 도형 객체가 수식, 수치로 표현된 그래프 등과 같이 이미지와 텍스트(즉, 어문)를 모두 포함하는 경우라면, 상술한 바와 같이 컴퓨터는 비교문서 내 도형 객체와 타겟문서 내 도형 객체 각각으로부터 키워드, 자연어, 텍스트(즉, 어문) 등을 추출하여 매칭함으로써, 내용적 유사도를 산출할 수 있다.

또 다른 실시예로, 컴퓨터는 타겟문서로부터 캡션 객체를 추출하여 비텍스트 영역으로 인식한 경우, 캡션 객체의 범주와 동일한 범주에 속하는 비교문서의 비텍스트 영역(즉, 비교문서 내 캡션 객체 영역)을 획득한 다음, 비교문서의 비텍스트 영역 내 캡션 객체와 타겟문서의 비텍스트 영역 내 캡션 객체 사이의 형태적 유사도 또는 내용적 유사도를 산출할 수 있다.

예를 들어, 컴퓨터는 캡션 객체로부터 텍스트(즉, 어문)를 추출할 수 있다. 컴퓨터는 타겟문서 및 비교문서 각각으로부터 추출된 캡션 영역 내에 포함된 텍스트를 비교함으로써 형태적 유사도 또는 내용적 유사도를 판단할 수 있다.

컴퓨터는 타겟문서의 비텍스트 영역과 비교문서의 비텍스트 영역 사이의 비교 결과에 기초하여, 타겟문서의 비텍스트 영역에 대한 표절 여부를 판단할 수 있다(S300).

일 실시예로, 컴퓨터는 동일 범주에 속하는 타겟문서의 비텍스트 영역과 비교문서의 비텍스트 영역 사이의 형태적 유사도 및 내용적 유사도 중 적어도 하나를 이용하여, 타겟문서의 비텍스트 영역에 대한 표절률을 산출할 수 있다. 컴퓨터는 표절률을 기초로 타겟문서의 비텍스트 영역에 대한 표절 여부를 판단할 수 있다.

표절률을 산출함에 있어, 컴퓨터는 형태적 유사도 및 내용적 유사도에 상이한 가중치를 부여할 수 있다. 또한, 컴퓨터는 이미지 객체, 표 객체, 도형 객체, 캡션 객체 등의 각 범주에 상이한 가중치를 부여할 수도 있다. 예를 들어, 타겟문서가 실험 결과를 중심으로 작성된 과학 분야의 논문인 경우, 컴퓨터는 표 객체, 도형 객체에 해당하는 범주에 높은 가중치를 부여할 수 있고, 또한 형태적 유사도보다 내용적 유사도에 더 높은 가중치를 부여할 수도 있다. 또는 타겟문서가 사진이나 그림 등의 이미지를 많이 포함하는 문서인 경우, 컴퓨터는 이미지 객체에 해당하는 범주에 높은 가중치를 부여할 수 있다. 또한 타겟문서의 성격에 따라 비텍스트 영역의 형태적 의미가 중요한지 내용적 해석이 중요한지를 판단하여, 이에 따라 형태적 유사도 및 내용적 유사도에 서로 다른 가중치를 부여하고 타겟문서의 비텍스트 영역에 대한 표절률을 산출할 수도 있다.

일 실시예로, 타겟문서의 비텍스트 영역에 대한 표절률은 아래 수학식 1과 같이 계산될 수 있다.

여기서, A는 타겟문서이고, B는 비교문서일 수 있다.

수학식 1에 따르면, 표절률(S)은 타겟문서 및 비교문서에서 전체 비교 대상 비텍스트 영역에 대한 표절 영역으로 판단된 비텍스트 영역의 비율로 나타낼 수 있다. 이때, 표절 영역이라 함은, 타겟문서 및 비교문서 간의 비텍스트 영역에 대한 형태적 유사도 및 내용적 유사도를 산출하여, 소정의 기준값 이상의 유사도를 나타낸 경우 타겟문서의 해당 영역이 표절 영역인 것으로 판단할 수 있다.

도 4는 본 발명의 일 실시예에 따른 비텍스트 영역의 표절 검사 방법을 수행하는 장치(300)의 구성을 개략적으로 나타내는 도면이다.

도 4를 참조하면, 프로세서(310)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.

일 실시예에 따른 프로세서(310)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 1 내지 도 3과 관련하여 설명된 비텍스트 영역의 표절 검사 방법을 수행한다.

일례로, 프로세서(310)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써 표절검사대상인 타겟문서로부터 비텍스트 영역을 인식하는 단계, 상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계, 및 상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 수행할 수 있다.

한편, 프로세서(310)는 프로세서(310) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(310)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.

메모리(320)에는 프로세서(310)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(320)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 비텍스트 영역의 표절 검사 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

컴퓨터가 수행하는 비텍스트 영역의 표절 검사 방법에 있어서,
표절검사대상인 타겟문서로부터 이미지 객체, 표 객체 또는 도형 객체를 추출하여 비텍스트 영역으로 인식하는 단계;
상기 인식된 비텍스트 영역의 객체 종류에 따라 범주를 분류하는 단계;
상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 포함하며,
상기 비교하는 단계는,
상기 타겟문서의 비텍스트 영역의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역과 비교하되,
상기 타겟문서의 비텍스트 영역과 상기 비교문서의 비텍스트 영역 사이의 형태적 유사도 및 내용적 유사도 중 적어도 하나를 비교하는, 비텍스트 영역의 표절 검사 방법.
삭제
삭제
제1항에 있어서,
상기 비교하는 단계는,
상기 타겟문서의 비텍스트 영역으로부터 이미지 객체를 인식한 경우,
상기 이미지 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고,
상기 비교문서의 비텍스트 영역 내 이미지 객체와, 상기 타겟문서의 비텍스트 영역 내 이미지 객체 사이의 특징점을 비교하여 상기 형태적 유사도를 산출하고, 또는,
상기 비교문서의 비텍스트 영역 내 이미지 객체와, 상기 타겟문서의 비텍스트 영역 내 이미지 객체 사이의 키워드를 비교하여 상기 내용적 유사도를 산출하는, 비텍스트 영역의 표절 검사 방법.
제1항에 있어서,
상기 타겟문서의 비텍스트 영역으로부터 표 객체를 인식한 경우,
상기 표 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고,
상기 비교문서의 비텍스트 영역 내 표 객체와, 상기 타겟문서의 비텍스트 영역 내 표 객체 사이의 어문을 추출하여 비교함으로써 상기 형태적 유사도 및 상기 내용적 유사도 중 적어도 하나를 산출하는, 비텍스트 영역의 표절 검사 방법.
제1항에 있어서,
상기 비교하는 단계는,
상기 타겟문서의 비텍스트 영역으로부터 도형 객체를 인식한 경우,
상기 도형 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고,
상기 비교문서의 비텍스트 영역 내 도형 객체와, 상기 타겟문서의 비텍스트 영역 내 도형 객체 사이의 특징점을 비교하여 상기 형태적 유사도를 산출하고, 또는,
상기 비교문서의 비텍스트 영역 내 도형 객체와, 상기 타겟문서의 비텍스트 영역 내 도형 객체 사이의 키워드를 비교하여 상기 내용적 유사도를 산출하는, 비텍스트 영역의 표절 검사 방법.
제1항에 있어서,
상기 비교하는 단계는,
상기 타겟문서의 비텍스트 영역에 대한 캡션 객체를 인식하는 단계를 더 포함하되,
상기 캡션 객체의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역을 획득하고,
상기 비교문서의 비텍스트 영역 내 캡션 객체와, 상기 타겟문서의 비텍스트 영역 내 캡션 객체 사이의 어문을 추출하여 비교함으로써 상기 형태적 유사도 및 상기 내용적 유사도 중 적어도 하나를 산출하는, 비텍스트 영역의 표절 검사 방법.
제1항에 있어서,
상기 표절여부를 판단하는 단계는,
상기 형태적 유사도 및 상기 내용적 유사도에 가중치를 부여하여, 상기 타겟문서의 비텍스트 영역에 대한 표절률을 산출하는 단계; 및
상기 표절률을 기초로 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 포함하는, 비텍스트 영역의 표절 검사 방법.
제8항에 있어서,
상기 표절률을 산출하는 단계는,
상기 타겟문서의 비텍스트 영역의 범주에 따라 가중치를 부여하여, 상기 형태적 유사도 및 상기 내용적 유사도를 산출하는, 비텍스트 영역의 표절 검사 방법.
하나 이상의 인스트럭션을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,
상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
표절검사대상인 타겟문서로부터 이미지 객체, 표 객체 또는 도형 객체를 추출하여 비텍스트 영역으로 인식하는 단계;
상기 인식된 비텍스트 영역의 객체 종류에 따라 범주를 분류하는 단계;
상기 타겟문서의 비텍스트 영역을 비교문서의 비텍스트 영역과 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 타겟문서의 비텍스트 영역에 대한 표절여부를 판단하는 단계를 수행하되,
상기 비교하는 단계는,
상기 타겟문서의 비텍스트 영역의 범주와 동일한 범주에 속하는 상기 비교문서의 비텍스트 영역과 비교하되,
상기 타겟문서의 비텍스트 영역과 상기 비교문서의 비텍스트 영역 사이의 형태적 유사도 및 내용적 유사도 중 적어도 하나를 비교하는, 장치.
하드웨어인 컴퓨터와 결합되어, 제1항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.