KR101634681B1 - 검사문서 내 인용구문 탐색 방법 및 프로그램 - Google Patents

검사문서 내 인용구문 탐색 방법 및 프로그램 Download PDF

Info

Publication number
KR101634681B1
KR101634681B1 KR1020150124650A KR20150124650A KR101634681B1 KR 101634681 B1 KR101634681 B1 KR 101634681B1 KR 1020150124650 A KR1020150124650 A KR 1020150124650A KR 20150124650 A KR20150124650 A KR 20150124650A KR 101634681 B1 KR101634681 B1 KR 101634681B1
Authority
KR
South Korea
Prior art keywords
document
phrase
inspection
identification
citation
Prior art date
Application number
KR1020150124650A
Other languages
English (en)
Inventor
신동호
Original Assignee
주식회사 무하유
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 무하유 filed Critical 주식회사 무하유
Priority to KR1020150124650A priority Critical patent/KR101634681B1/ko
Application granted granted Critical
Publication of KR101634681B1 publication Critical patent/KR101634681B1/ko

Links

Images

Classifications

    • G06F17/30011
    • G06F17/21
    • G06F17/30525
    • G06F17/30648

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 검사문서 내 인용구문 탐색 방법 및 프로그램에 관한 것이다.
본 발명의 일실시예에 따른 검사문서 내 인용구문 탐색 방법은, 검사문서 내에 포함된 식별대상을 탐색하는 단계(S100); 상기 식별대상을 바탕으로 인용문서를 결정하는 단계(S200); 및 상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계(S300);를 포함한다.
본 발명에 따르면, 검사문서 내의 주석을 표시하여 인용한 영역이나 별도의 인용표시없이 일반적으로 인용하는 내용에 상응하는 영역이 표절로 판단되는 것을 방지할 수 있어, 표절률 산출의 정확도를 높일 수 있다.

Description

검사문서 내 인용구문 탐색 방법 및 프로그램 {METHOD AND PROGRAM FOR SEARCHING QUOTED PHRASE IN DOCUMENT}
본 발명은 검사문서 내 인용구문 탐색 방법 및 프로그램에 관한 것으로, 보다 자세하게는 검사문서 내의 인용기호가 표시되지 않은 영역 중에서 표절검사의 인용구문에 상응하는 제외영역을 탐색하는 방법에 관한 것이다.
컴퓨터 관련 산업이 비약적인 발전을 이루면서, 과거 필기도구를 이용하여 작성되던 종이문서가 최근 들어 전자문서로 대체되고 있는 추세이다. 전자문서란 컴퓨터 등 정보처리능력을 가진 장치에 의하여 전자적인 형태로 작성되어 송수신되거나 저장된 문서형식의 자료로서 표준화된 것을 일컫는다.
이러한 전자문서는 작성 및 편집이 용이하다. 전자문서는 다양한 경로를 통하여 유통될 수 있다. 특히, 최근 인터넷이 대중화 됨에 따라, 일반인들도 인터넷 검색 엔진을 이용하여 원하는 정보를 손쉽게 획득할 수 있게 되면서, 논문, 기술문서 등 많은 문서들이 인터넷을 통하여 얻어진 원본 문서들로부터 무분별하게 표절되어 작성되고 있다. 자기소개서, 독후감, 레포트, 논문 등의 문서 작성시, 인터넷으로 관련 주제의 전문 자료, 레포트 자료, 블로그 글, 카페 글 등을 쉽게 구할 수 있으며, 표절 행위는 하나의 문서를 놓고 베끼는 것을 넘어서 여러 문서로부터 짜깁기하는 형태로 점점 더 정교화 되고 있다. 짜깁기(splicing)는 크게 단락 단위나 문장 단위로 발생하기도 하고, 문장보다 작은 구절 단위로도 발생한다.
표절을 하는 사람은 자신의 표절 행위가 밝혀지지 않게 하기 위해 짜깁기를 비롯한 다양한 편집 과정을 거치는데, 그럼에도 불구하고 어떤 문서에서 얼마만큼 표절했는지 찾아내는 기술이 표절검사 기술이다.
본 발명의 배경이 되는 기술은 대한민국 등록특허공보 제10-1264151호(2013.05.14.)에 개시되어 있다.
표절검사 수행과정에서 따옴표와 같은 인용표시가 되어 있는 경우 쉽게 인용구문으로 판단되어 표절검사에서 제외될 수 있으나, 인용표시가 없는 경우에는 인용구문에 해당하여 표절영역에서 제외되어야 할 지 판단하기 어렵다.
특히, 법령이나 경전을 인용하는 경우, 특정 분야의 문서에서는 인용표시 또는 각주를 기재 조차 하지 않고도 정당한 인용으로 인정되는 경우가 있다. 표절검사를 수행하는 컴퓨터가 이러한 부분을 표절영역으로 산출하게 되면, 사용자들은 해당 부분이 표절로 표시됨에 의해 표절률이 높아지는 것에 대해 표절검사의 정확도가 낮다고 판단할 수 있다.
따라서, 검사문서 내에 특정한 인용표시 없이 기재된 인용구문을 탐색하여 정당한 인용구문이 표절영역으로 판단되지 않아 정확한 표절률을 산출하도록 하는, 검사문서 내 인용구문 탐색 방법 및 프로그램을 제공하고자 한다.
본 발명의 일실시예에 따른 검사문서 내 인용구문 탐색 방법은, 검사문서 내에 포함된 식별대상을 탐색하는 단계; 상기 식별대상을 바탕으로 인용문서를 결정하는 단계; 및 상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계;를 포함하며, 상기 식별대상은 상기 검사문서 내 주석에 상응하는 형식문구, 서식에 상응하는 형식문구, 법령 또는 경전에 상응하는 특정한 형식문구 중 어느 하나이다.
또한, 상기 식별대상이 상기 주석 형식문구인 경우, 상기 식별대상 탐색단계는, 상기 검사문서 내 특정위치에 배치된 하나 이상의 주석 형식문구를 추출하는 단계;를 포함하고, 상기 인용문서 결정단계는, 상기 추출된 하나 이상의 주석 형식문구에서 상기 인용문서의 식별정보를 인식하는 단계;를 포함하고, 상기 제외영역 식별단계는, 상기 주석 형식문구에 대응되는 상기 검사문서 내 검사영역과 상기 식별정보에 대응하는 상기 인용문서 내 인용영역을 비교하여, 상기 제외영역을 식별하는 것을 특징으로 할 수 있다.
또한, 상기 인용문서 결정단계는, 상기 검사문서의 주석기재방식을 인식하는 단계;를 더 포함할 수 있다.
또한, 상기 식별대상이 상기 서식 형식문구인 경우, 상기 제외영역 식별단계는, 상기 형식문구를 복수의 제1어절데이터로 생성하는 단계; 상기 검사문서 내 검사영역을 복수의 제2어절데이터로 생성하는 단계; 상기 복수의 제1어절데이터에 대응하는 상기 제2어절데이터의 존재여부를 판단하는 단계; 및 상기 검사영역이 상기 제1어절데이터를 포함하는 경우, 상기 검사영역 내의 상기 제1어절데이터를 포함하는 특정영역을 상기 제외영역으로 판단하는 단계;를 포함하며, 상기 제1어절데이터는 상기 형식문구의 각각의 어절을 시작지점으로 하는, 연속되는 특정한 개수의 어절 그룹이며, 상기 제2어절데이터는 상기 검사문서의 각각의 어절을 시작지점으로 하는, 연속되는 특정한 개수의 어절 그룹일 수 있다.
또한, 상기 식별대상이 법령 또는 경전에 상응하는 특정한 형식문구인 경우, 상기 제외영역 식별단계는, 상기 식별대상으로부터 특정범위 내를 검사영역으로 설정하는 단계; 상기 인용문서를 기준단위로 분할하여 복수의 제1성분을 생성하는 단계; 상기 검사영역을 기준단위로 분할하여 복수의 제2성분을 생성하는 단계; 특정한 상기 제2성분을 제2개시성분으로 설정하고, 상기 제2개시성분에 대응하는 상기 제1성분을 탐색하여 제1개시성분으로 결정하는 단계; 및 상기 검사영역 및 상기 인용문서에서 인용구문 및 인용대상구문을 추출하는 단계;를 포함하며, 상기 제1성분 및 제2성분은, 띄어쓰기를 제외하는 것을 특징으로 할 수 있다.
또한, 상기 인용구문 및 인용대상구문 추출단계는, 상기 제2개시성분에 대응하는 복수의 상기 제1개시성분이 결정되는 경우, 각각의 상기 제1개시성분에 대한 상기 인용대상구문을 식별하는 단계; 각각의 상기 인용대상구문에 대한 기준단위 길이를 산출하는 단계; 및 상기 기준단위 길이가 최대인 상기 인용대상구문을 추출하고, 상기 추출된 인용대상구문에 대응하는 상기 인용구문을 추출하는 단계;를 포함할 수 있다.
또한, 상기 인용문서 결정단계는, 상기 식별대상에서 키워드를 추출하는 단계; 및 상기 키워드에 상응하는 하나 이상의 인용문서를 탐색하는 단계;를 포함할 수 있다.
또한, 상기 식별대상이 상기 서식 형식문구에 해당하는 경우, 상기 인용문서 결정단계는, 상기 검사문서 내에 포함된 서식특징정보을 추출하는 단계; 및 상기 추출된 서식특징정보에 상응하는 형식문구 그룹을 선택하는 단계;를 더 포함할 수 있다.
또한, 상기 검사문서를 비교문서와 비교하여 산출된 표절영역에서 상기 제외영역을 제외하고, 전체 어절에 대한 표절률을 산출하는 단계;를 더 포함할 수 있다.
또한, 상기 식별된 제외영역에 상기 인용문서를 매칭하는 단계;를 더 포함할 수 있다.
본 발명의 다른 일실시예에 따른 검사문서 내 인용구문 탐색 프로그램은, 하드웨어와 결합되어 상기 언급된 검사문서 내 인용구문 탐색방법을 실행하며, 매체에 저장된다.
상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.
첫째, 검사문서 내의 주석을 표시하여 인용한 영역이나 별도의 인용표시없이 일반적으로 인용하는 내용에 상응하는 영역이 표절로 판단되는 것을 방지할 수 있어, 표절률 산출의 정확도를 높일 수 있다. 즉, 인용구문에 해당하는 부분을 표절영역으로 표시하고 표절률을 산출함에 따라 표절검사의 신뢰도가 떨어지는 것을 방지할 수 있다.
둘째, 검사문서 내에 식별대상을 탐색하여 인용문서 탐색방식과 제외영역 추출방식을 결정할 수 있어서, 신속하게 제외영역을 판단할 수 있다.
도 1은 본 발명의 일실시예에 따른 검사문서 내 인용구문 탐색 방법에 대한 순서도이다.
도 2는 본 발명의 일실시예에 따라, 식별대상이 서식 내 형식문구인 서식문구에 해당하는 경우, 인용문서를 결정하는 방식의 순서도이다.
도 3은 본 발명의 일실시예에 따라, 키워드 추출을 통해 인용문서를 결정하는 방식의 순서도이다.
도 4는 본 발명의 일실시예에 따라, 식별대상이 서식 내 형식문구인 경우, 제외영역을 식별하는 방식의 순서도이다.
도 5는 본 발명의 일실시예에 따라, 식별대상이 법령 또는 경전에 상응하는 특정한 형식문구인 경우, 제외영역을 식별하는 방식의 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
본 명세서에서 컴퓨터는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.
본 명세서에서 검사문서는 표절여부 검사 및 표절률 산출의 대상이 되는 문서를 의미한다. 또한, 검사영역은, 검사문서 내에서 인용구문을 탐색하기 위해 특정한 영역으로 한정된 영역을 의미한다.
본 명세서에서 비교문서는 검사문서의 표절 부분을 파악하기 위해 비교 대상이 되는 문서를 의미한다. 본 명세서에서 인용문서는 검사문서 내에 일부 인용되는 부분을 포함하는 문서를 의미한다. 인용문서는 전체문서가 해당될 수도 있고, 인용되는 부분을 포함하는 문서 내 특정한 영역일 수도 있다.
본 명세서에서 인용구문은 다른 문서(즉, 인용문서)를 인용한 검사문서 내 영역 또는 문구를 의미한다. 본 명세서에서 인용대상구문은 검사문서 내 인용구문에 대응되는 인용문서 내 영역 또는 문구를 의미한다.
본 명세서에서 제외영역은 표절검사 시에 표절에 해당하는 영역(즉, 표절영역)으로 판단되더라도 인용구문에 해당하여 표절영역에서 제외되어야 하는 영역을 의미한다. 즉, 제외영역은, 특정한 인용기호가 표시된 영역, 인용기호가 표시되어 있지 않으나 주석에 의해 인용문헌이 표시된 영역, 인용표시(즉, 인용기호 또는 주석)를 하지 않았으나 해당 분야에서 통상적으로 표절부분으로 판단하지 않는 영역을 포함할 수 있다.
본 명세서에서 식별대상은, 검사문서 내에 포함된 문구 중에서 제외영역 탐색방식 또는 제외영역의 탐색을 수행하는 검사영역을 설정하는 기준이 되는 문구를 의미한다.
본 명세서에서 형식문구는, 특정한 목적으로 사용되는 표현 형식에 상응하는 문구를 의미한다. 예를 들어, 각주의 경우, '연구자명, "논문명," 자료명(발행단체명) 권, 호 (연월차): 인용면수.'와 같은 형식으로 기재되므로, 이러한 기재형식을 각주에 상응하는 형식문구 또는 각주 형식문구로 표현할 수 있다. 또한, 예를 들어, 법령의 경우, 'OOO법률 O조O항'과 같은 형식으로 기재되므로, 이러한 기재형식을 법령에 상응하는 형식문구 또는 법령 형식문구로 표현할 수 있다.
본 명세서에서 상기 기준단위는, 각 언어별 글자단위일 수 있다. 즉, 한글의 경우, 초성, 중성, 종성이 결합된 하나의 음절이 분할되는 글자단위에 해당될 수 있다. 또한, 영어, 독일어 등의 알파벳 형태를 사용하는 언어의 경우, 알파벳 각각이 분할되는 글자단위에 해당될 수 있다. 또한, 일본어, 중국어 등의 한자를 사용하는 언어의 경우, 각각의 한자가 분할되는 글자단위에 해당될 수 있다.
본 명세서에서 성분은, 각 문서를 특정한 언어의 기준단위로 분할한 최소단위를 의미한다. 예를 들어, 문서가 한글로 작성된 경우, 초성, 중성, 종성이 결합된 하나의 음절을 성분으로 할 수 있다.
인용기호가 표시된 경우에는 컴퓨터가 인용기호를 인용구문에 해당함을 식별할 수 있으나, 인용표시가 없는 경우(즉, 인용기호가 표시되어 있지 않으나 주석에 의해 인용문헌이 표시된 영역, 인용표시(즉, 인용기호 또는 주석)를 하지 않았으나 해당 분야에서 통상적으로 표절부분으로 판단하지 않는 영역인 경우)에는 컴퓨터가 제외영역으로 판단하기 어렵다. 따라서, 이하, 본 발명의 실시예들에 따른 인용표시가 표시되지 않은 제외영역을 탐색하는 방법 및 탐색프로그램을 설명한다,
이하, 도면을 참조하여 본 발명의 실시예들에 따른 검사문서 내 인용구문 탐색 방법 및 탐색 프로그램에 대해 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 검사문서 내 인용구문 탐색 방법에 대한 순서도이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 검사문서 내 인용구문 탐색 방법은, 검사문서 내에 포함된 식별대상을 탐색하는 단계(S100); 상기 식별대상을 바탕으로 인용문서를 결정하는 단계(S200); 및 상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계(S300);를 포함한다. 본 발명의 일실시예에 따른 검사문서 내 인용구문 탐색 방법을 순서대로 설명한다.
컴퓨터는 검사문서 내에 포함된 식별대상을 탐색한다(S100). 상기 식별대상은, 상기 검사문서 내 주석에 상응하는 형식문구(이하, 주석 형식문구), 서식 내 형식문구, 법령 또는 경전에 상응하는 특정한 형식문구 등이 해당될 수 있다.
일실시예로, 상기 식별대상이 주석 형식문구인 경우, 컴퓨터는 검사문서 내 특정위치에 배치된 하나 이상의 주석 형식문구를 추출할 수 있다. 상기 주석 중 각주는 검사문서 내의 특정한 위치에 각주표시를 하고 검사문서의 각 페이지 하단(또는 말단)에 상응하는 위치에 배치될 수 있고, 상기 주석 중 미주는 검사문서의 마지막에 배치될 수 있다. 따라서, 컴퓨터는 주석이 배치될 수 있는 특정한 위치(예를 들어, 검사문서의 특정 페이지의 끝 또는 검사문서 전체의 끝)을 확인하여 주석 형식문구가 존재하는지 탐색할 수 있다.
또한, 다른 일실시예로, 주석 중 내주는 검사문서 내의 특정한 문구 뒤에 바로 배치될 수 있으므로, 검사문서 내의 문장 뒤에 원 괄호가 존재하면서 단어(저자명에 해당), 숫자(발행연도에 해당), 숫자(인용범위, 즉 페이지범위)가 포함되어 있으면 내주로 판단할 수 있다.
또한, 다른 일실시예로, 컴퓨터는 특정한 서식형태를 식별대상으로 인식할 수 있다. 예를 들어, 서식을 포함하는 문서는 문장 시작이 head number(예를 들어, 로마자, 숫자, 또는 숫자에 상응하는 기호)로 되어 있는 경우가 많으며, head number가 검사문서 내의 각 지점(예를 들어, 각 문장 또는 단락의 시작지점)에서 순차적 증가할 수 있다. 따라서 컴퓨터는 문장 시작이 head number 를 포함하여 순차적 증가를 하고 있는 영역을 탐색하고, head number 뒤에 이어지는 문장을 서식문구로 인식할 수 있다. 이외에도, 서식에 해당하는 영역은 비교적 짧은 문장으로 되어 있는 경우가 많으므로 길이가 N 이하인 문장들이 모여있는 영역을 탐색하는 방식, 종결어미 '-다'로 끝나지 않는 문장들로 구성된 문단을 서식 영역으로 인식하는 방식 등을 함께 활용하여 식별대상에 상응하는 서식을 구성하는 요소를 파악할 수 있다.
또한, 다른 일실시예로, 컴퓨터는 법령에 상응하는 형식문구(예를 들어, 법령을 문서 내에 인용할 때 자주 사용되는 형식)을 식별대상으로 탐색할 수 있다. 예를 들어, 'O조O항', 'OOO법률', 'OOO시행규칙' 의 형식을 포함하는지 여부를 판단할 수 있다. 이러한 형식문구가 포함되면, 컴퓨터는 법률이 검사문서 내에 인용되었을 것으로 판단할 수 있다.
또한, 다른 일실시예로, 컴퓨터는 경전(예를 들어, 성경 또는 불경 등)에 상응하는 형식문구(예를 들어, 성경을 문서 내에 인용할 때 자주 사용되는 형식)을 식별대상으로 탐색할 수 있다. 예를 들어, '(요 20:30)', '3장 16절', '(요한복음 1:1~2)'의 형식을 포함하는지 여부를 판단할 수 있다. 이러한 형식문구가 포함되면, 컴퓨터는 경전 중 하나인 성경이 검사문서 내에 인용되었을 것으로 판단할 수 있다.
컴퓨터는 상기 식별대상을 바탕으로 인용문서를 결정한다(S200). 즉, 컴퓨터는 검사문서 내에서 탐색된 식별대상을 바탕으로 검사문서 내 제외영역 판단에 활용할 인용문서를 결정할 수 있다. 컴퓨터는 탐색된 식별대상에 따라 상이한 방식으로 인용문서를 파악할 수 있으며, 특정한 인용문헌을 추출할 수도 있고 하나 이상의 인용문헌 그룹을 추출할 수도 있다.
일실시예로, 상기 식별대상이 상기 주석 형식문구인 경우, 상기 추출된 하나 이상의 주석 형식문구에서 인용문서의 식별정보를 인식하는 단계;를 포함할 수 있다. 즉, 컴퓨터는 검사문서 내 특정위치(예를 들어, 페이지의 끝단, 문서의 끝단)에서 추출된 하나 이상의 주석 형식문구 내 인용문서의 식별정보를 인식할 수 있다. 상기 식별정보는, 타인이 인용문서를 식별할 수 있도록 기재된 정보 또는 인용문서 내의 어느 영역(예를 들어, 페이지범위)에 기재된 내용인지에 관한 정보를 의미할 수 있다. 예를 들어, 각주의 경우, '연구자명, "논문명," 자료명(발행단체명) 권, 호 (연월차): 인용면수'의 형식으로 복수의 식별정보를 포함하고 있으므로, '연구자명, "논문명," 자료명(발행단체명) 권, 호 (연월차)'를 통해 인용문서를 식별할 수 있고, 인용면수를 통해 어느 페이지범위에 인용된 내용이 포함되어 있는지 식별할 수 있다.
또한, 상기 식별대상이 상기 주석 형식문구인 경우, 상기 인용문서 결정단계(S200)는, 상기 검사문서의 주석기재방식을 인식하는 단계;를 더 포함할 수 있다. 주석의 표기양식은 미국 심리학회의 APA양식, 미국 현대언어학회의 MLA양식, 미국 시카고 대학교 출판부의 시카고 양식 등이 널리 쓰이고 있으며, 표기 양식에 따라 식별정보의 종류 또는 기재순서에 차이가 있을 수 있다. 따라서, 컴퓨터는 검사문서 내에 포함된 하나 이상의 주석에서 특징을 추출하여 어떠한 표기 양식으로 작성되었는지를 판단할 수 있다. 이를 통해, 컴퓨터는 검사문서 전체에서 주석에 기재된 인용문서를 빠르게 탐색할 수 있으며, 인용문서 내에 인용대상영역이 포함된 페이지범위를 빠르게 추출할 수 있다.
또한, 다른 일실시예로, 상기 식별대상이 서식 내 형식문구인 서식문구에 해당하는 경우, 상기 인용문서 결정단계(S200)는, 검사문서 내에 포함된 서식특징정보를 추출하는 단계(S210); 및 상기 추출된 서식특징정보에 상응하는 형식문구 그룹을 선택하는 단계(S211);를 더 포함할 수 있다. 예를 들어, 검사문서는 작성된 문서의 종류 또는 용도에 따라 이용되는 서식이 상이할 수 있다. 즉, 문서의 용도에 따라 논문표지 서식, 설문조사 서식, 자소서 서식, 테이블 서식, 나열식 서식, 빈칸 채우기 서식 등이 존재할 수 있으며, 각 용도에 따라 서식문구가 상이할 수 있다.
따라서, 컴퓨터는 검사문서에서 서식특징정보를 추출할 수 있고, 추출된 서식특징정보를 바탕으로 종류 또는 용도 등의 기준에 따라 분류된 서식문구 그룹 중에서 어떠한 그룹을 인용문서로 활용할 지 여부를 판단할 수 있다. 예를 들어, 컴퓨터는 서식특징정보로 로마자와 뒤에 연결된 제목(예를 들어, 서론, 초록, 참고문헌 등)이 등장하면 논문에 해당함을 인식하고, 인용문서로 논문 서식들을 추출할 수 있다. 서식특징정보는 탐색된 식별대상에서 파악될 수도 있고, 식별대상이 아닌 검사문서 내 다른 영역에서 파악될 수도 있다. 또한, 예를 들어, 숫자와 함께 이어지는 문장이 '기술하세요.'와 같은 표현으로 종결되는 경우(예를 들어, '1. 지원자의 성장과정과 교육환경(가정, 학교, 지역사회 등)에 대해 기술하세요.'와 같은 문장이 인식되는 경우), 컴퓨터는 자기소개서에 해당함을 인식하고, 인용문서로 자기소개서 서식들을 추출할 수 있다. 이를 통해, 컴퓨터는 저장하고 있는 모든 서식과 비교할 필요없이 문서의 유형 또는 용도 등에 따라 부합하는 서식문구 그룹과 비교하면 되므로, 인용문구의 탐색 속도가 높아질 수 있다.
또한, 다른 일실시예로, 상기 인용문서 결정단계(S200)는, 상기 식별대상에서 키워드를 추출하는 단계(S220); 및 상기 키워드에 상응하는 하나 이상의 인용문서를 탐색하는 단계(S221);를 포함할 수 있다. 먼저, 컴퓨터는 탐색된 식별대상 내에서 키워드를 추출할 수 있다. 키워드는 식별대상 내에 포함된 일부 문구가 될 수 있고, 식별대상 자체가 될 수도 있다.
예를 들어, 법령에 상응하는 형식문구가 탐색된 경우, 컴퓨터는 형식문구 내에 기재된 법령 명칭을 키워드로 추출할 수 있다. 또한, 법령 명칭에 이어서 조항이 기재되어 있는 경우, 컴퓨터는 조항도 키워드로 추출할 수 있다. 또한, 컴퓨터는 탐색범위를 한정할 수 있는 키워드(예를 들어, 지방자치법규에 함께 기재되는 지역 명칭)를 추출할 수 있고, 이를 통해 특정한 인용문서 범위(예를 들어, 특정 지역의 자치법규만을 인용문서 범위)로 탐색범위를 한정할 수 있다.
또한, 예를 들어, 컴퓨터는 경전에 상응하는 형식문구가 탐색된 경우, 경전의 명칭을 키워드로 인식할 수 있다. 특정한 경전의 명칭(예를 들어, 불경인 경우, 반야심경 등의 명칭)이 기재된 경우, 해당 경전의 명칭을 키워드로 추출할 수 있다.
그 후, 컴퓨터는 키워드에 상응하는 하나 이상의 인용문서를 탐색할 수 있다(S221). 예를 들어, 식별대상이 경전에 상응하는 형식문구인 경우, 컴퓨터는 식별대상을 바탕으로 어떠한 종교의 경전에 해당하는 지 인식하여 해당 종교의 경전을 인용문서로 추출할 수 있다.
또한, 경전에 상응하는 형식문구가 탐색된 경우, 경전은 번역에 따라 차이가 있으므로, 어떠한 번역본에 해당하는 지 확인할 필요가 있다. 성경의 경우, 한글로 된 성경의 버전에는 6 개가 있고, 영문 성경도 3 종류가 있으므로, 어떠한 버전이 인용되었는지 판단하여야 제외영역을 정확하게 판단할 수 있다. 인용된 버전을 판단하기 위해, 컴퓨터는 특정한 식별대상 또는 키워드를 바탕으로 여러 버전 내의 대응되는 영역을 추출할 수 있다. 그 후, 컴퓨터는 각 버전의 추출된 영역과 비교하여 일치하는 버전을 결정할 수 있다. 이를 통해, 컴퓨터는 결정된 하나의 버전으로만 제외영역 판단을 수행할 수 있어서, 제외영역 판단의 정확도를 높일 수 있다.
컴퓨터는 상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별한다(S300). 컴퓨터는 식별대상에 따라 상이한 제외영역 판단방식을 적용할 수 있다.
일실시예로, 식별대상이 상기 주석 형식문구인 경우, 상기 주석 형식문구에 대응되는 상기 검사문서 내 검사영역과 상기 식별정보에 대응하는 상기 인용문서 내 인용영역을 비교하여, 상기 제외영역을 식별할 수 있다. 즉, 컴퓨터는 주석에 기재된 식별정보를 바탕으로 검사문서 내에 인용된 인용문서의 페이지 범위를 파악할 수 있고, 해당 페이지 범위와 검사영역을 비교하여 인용된 것으로 표절영역에서 제외되어야 하는 영역을 식별할 수 있다. 검사영역은 주석번호가 기재된 위치의 인접한 영역(예를 들어, 주석번호가 기재된 문단 또는 기재된 주석번호 앞의 특정 개수의 문장 조합) 등으로 결정될 수 있다.
또한, 다른 일실시예로, 식별대상이 서식 내 형식문구인 경우, 상기 제외영역 식별단계(S300)는, 형식문구를 복수의 제1어절데이터로 생성하는 단계(S310); 검사문서 내 검사영역을 복수의 제2어절데이터로 생성하는 단계(S311); 복수의 제1어절데이터에 대응하는 제2어절데이터의 존재여부를 판단하는 단계(S312); 및 검사영역이 제1어절데이터를 포함하는 경우, 검사영역 내의 제1어절데이터를 포함하는 특정영역을 제외영역으로 판단하는 단계(S313);를 포함할 수 있다. 서식문구의 경우, 짜깁기를 수행하기보다는 서식문구 내의 어절들의 순서를 유지하면서 특정 어절(즉, 문서에 적합한 내용을 구성하는 어절)들이 부가되는 방식으로 작성된다. 예를 들어, 자기소개서의 질문사항인 경우, 자기소개서 질문용 서식문구에 회사 또는 직책 등에 적합한 내용이 부가될 수 있다. 따라서, 중간에 다른 어절이 부가되더라도 기본적인 서식문구의 어절을 일정 비율이상 포함하면 제외영역으로 판단할 필요가 있다.
먼저, 컴퓨터는 형식문구를 복수의 제1어절데이터로 생성할 수 있다(S310). 상기 제1어절데이터는 상기 형식문구의 각각의 어절을 시작지점으로 하는, 연속되는 특정한 개수의 어절 그룹일 수 있다. 예를 들어, 서식문구가 'A B C D E F G H I J K'(각각의 문자가 하나의 어절을 의미한다.)로 된 경우, '(ABC,0) (BCD,1) (CDE,2) (DEF,3) (EFG,4) (FGH,5) (GHI,6) (HIJ,7) (IJK,8)'와 같이 3개의 어절을 하나의 어절 그룹으로 하여 복수의 제1어절데이터를 생성할 수 있다. 컴퓨터는 시작지점에 해당하는 어절의 순서에 대응하는 번호를 함께 저장할 수 있다.
그 후, 컴퓨터는 검사문서 내 검사영역을 복수의 제2어절데이터로 생성할 수 있다(S311). 상기 제2어절데이터는 상기 검사문서의 각각의 어절을 시작지점으로 하는, 연속되는 특정한 개수의 어절 그룹일 수 있다. 제2어절데이터는 제1어절데이터와의 비교를 위한 동일한 개수의 어절그룹으로 생성될 수 있다. 예를 들어, 검사영역이 'A B C 가 나 다 D E F 라 마 바 사 G H I J K 아 자 차'(각각의 문자가 하나의 어절을 의미한다.)로 된 경우, '(ABC) (BC가) (C가나) (가나다) (나다D) (다DE) (DEF) (EF라) (F라마) (라마바) (마바사) (바사G) (사GH) (GHI) (HIJ) (IJK) (JK아) (K아자) (아자차)'와 같이 3개의 어절을 하나의 어절 그룹으로 하여 복수의 제1어절데이터를 생성할 수 있다.
그 후, 컴퓨터는 복수의 제1어절데이터에 대응하는 제2어절데이터의 존재여부를 판단할 수 있다(S312). 컴퓨터는 제1어절데이터가 제2어절데이터 중에 존재하는지 차례대로 파악할 수 있다. 예를 들어, 컴퓨터는 제1어절데이터 중에서 (ABC,0) (DEF,3) (GHI,6) (HIJ,7) (IJK,8)가 제2어절데이터 내에 존재하는 것으로 판단할 수 있다.
그 후, 컴퓨터는 검사영역이 제1어절데이터를 포함하는 경우, 검사영역 내의 제1어절데이터를 포함하는 특정영역을 제외영역으로 판단할 수 있다(S313). 예를 들어, 컴퓨터는 제1어절데이터가 검사영역 내에 어절 순서 번호에 부합하도록 배치되면서 전부 또는 일정비율 이상 포함하면, 서식문구에 대응하는 것으로 판단할 수 있고, 검사영역 내의 처음 등장하는 제1어절데이터부터 마지막으로 등장하는 제1어절데이터를 포함하는 문장들을 제외영역으로 판단할 수 있다.
또한, 다른 일실시예로, 상기 식별대상이 법령 또는 경전에 상응하는 특정한 형식문구인 경우, 상기 제외영역 식별단계(S300)는, 상기 식별대상으로부터 특정범위 내를 검사영역으로 설정하는 단계(S320); 상기 인용문서를 상기 기준단위로 분할하여 복수의 제1성분을 생성하는 단계(S321); 상기 검사영역을 기준단위로 분할하여 복수의 제2성분을 생성하는 단계(S322); 특정한 상기 제2성분을 제2개시성분으로 설정하고, 상기 제2개시성분에 대응하는 상기 제1성분을 탐색하여 제1개시성분으로 결정하는 단계(S323); 상기 검사영역 및 상기 및 인용문서에서 인용구문 및 인용대상구문을 추출하는 단계(S324);를 포함할 수 있다. 법령 또는 경전의 경우, 인용되는 부분에서 특정 단어가 변형, 추가 또는 제외되지 않으며 어순 또한 변경되지 않는다. 다만, 인용하는 과정에서 띄어쓰기에 차이가 발생하는 경우가 있다. 따라서, 컴퓨터는 검사영역의 띄어쓰기를 배제하고, 대응하는 특정한 법령 또는 경전 내 인용대상구문에 매칭되는 인용구문(즉, 제외영역)을 식별할 수 있다.
컴퓨터는 상기 식별대상으로부터 특정범위 내를 검사영역으로 설정할 수 있다(S320). 예를 들어, 법령명칭과 조항이 기재된 부분 앞의 특정 개수의 문장을 검사영역으로 설정할 수 있다.
그 후, 컴퓨터는 인용문서를 기준단위로 분할하여 복수의 제1성분을 생성할 수 있다(S321). 즉, 컴퓨터는 식별대상 또는 키워드를 통해 추출된 인용문서(인용문서의 특정영역(예를 들어, 식별대상에 대응하는 법령의 특정 조문)을 포함할 수 있다.)를 작성된 언어의 기본단위를 바탕으로 분할하여 복수의 제1성분을 생성할 수 있다.
컴퓨터는 검사영역을 기준단위로 분할하여 복수의 제2성분을 생성할 수 있다(S322). 즉, 컴퓨터는 인용문서의 제1성분 생성과 동일한 기준단위에 따라 검사문서를 분할하여 제2성분을 생성할 수 있다.
컴퓨터는 특정한 상기 제2성분을 제2개시성분으로 설정하고, 상기 제2개시성분에 대응하는 상기 제1성분을 탐색하여 제1개시성분으로 결정할 수 있다(S323). 상기 제2개시성분은, 컴퓨터에 의해 교정을 시작할 검사문서 내 특정한 제2성분에 해당한다. 즉, 컴퓨터는 특정한 제2성분을 인용문서와 매칭여부 확인을 시작할 지점으로 설정할 수 있다. 예를 들어, 컴퓨터는 검사문서의 진행 순서상 첫번째 제2성분을 제2개시성분으로 설정할 수 있다. 그 후, 컴퓨터는 제2개시성분에 대응하는 제1성분을 탐색하여 제1개시성분으로 결정한다.
컴퓨터는 상기 검사영역 및 상기 및 인용문서에서 인용구문 및 인용대상구문을 추출할 수 있다(S324). 상기 인용구문은 상기 제2개시성분 및 상기 제1개시성분으로부터 상기 제1성분 및 상기 제2성분을 순서대로 비교수행 시, 연속적으로 상기 제1성분에 매칭이 되는 상기 제2성분의 조합이다. 상기 인용대상구문은 상기 인용구문에 대응하는 상기 제1성분의 조합이다. 따라서, 성분이 대응되는 것으로 파악된 검사문서의 영역과 인용문서의 영역을 각각 인용구문 및 인용대상구문으로 판단할 수 있다. 컴퓨터는 검사문서 내 인용구문을 제외영역으로 판단할 수 있다.
또한, 컴퓨터는 특정 개수 이하의 기준단위인 성분이 일치하는 경우에는 인용구문 및 인용대상구문으로 추출하지 않도록 설정할 수 있다. 예를 들어, 검사문서의 '에'는 인용문서와 대응이 되지만, 연속되는 성분 개수가 2개(예를 들어,'에도')이면 인용문서로 볼 수 없다. 따라서 검사문서의 특정 성분인 '에'에 의해서 파악된 영역(예를 들어,'에도')은 인용구문으로 추출되지 않을 수 있다. 따라서, 컴퓨터는 인용문서와 검사문서의 대응되는 성분 개수가 소정의 개수 이하이면 인용구문 및 인용대상구문으로 추출하지 않도록 설정할 수 있다.
또한, 상기 인용구문 및 인용대상구문 추출단계(S324)는, 제2개시성분에 대응하는 복수의 상기 제1개시성분이 결정되는 경우, 각각의 상기 제1개시성분에 대한 상기 인용대상구문을 식별하는 단계; 각각의 상기 인용대상구문에 대한 기준단위 길이를 산출하는 단계; 및 상기 기준단위 길이가 최대인 상기 인용대상구문을 추출하고, 상기 추출된 인용대상구문에 대응하는 상기 인용구문을 추출하는 단계;를 포함할 수 있다. 하나의 인용문서(즉, 특정한 법령) 내의 여러 부분(예를 들어, 특정한 법령 내의 여러 조문)이 인용대상구문으로 파악될 수도 있고, 여러 문서(예를 들어, 여러 법령) 내의 특정 부분들이 인용대상구문으로 파악될 수 있다. 따라서, 컴퓨터는 제2개시성분에 해당하는 제2성분과 동일한 제1성분(제1개시성분)이 여러 개 존재하는 경우, 최적의 제1성분(제1개시성분)을 결정할 필요가 있다.
먼저, 컴퓨터는 각각의 제1개시성분에 대한 인용대상구문을 식별할 수 있다. 컴퓨터는 인용문서 내에서 제2개시성분과 동일한 복수의 제1성분을 추출하고, 제2개시성분과 제1개시성분으로부터 차례대로 성분의 동일여부를 비교하여 인용대상구문을 추출하는 과정을 각각의 제1개시성분에 대해서 수행할 수 있다.
그 후, 컴퓨터는 각각의 인용대상구문에 대한 기준단위 길이를 산출할 수 있다. 기준단위 길이는 제1개시성분 또는 제2개시성분으로부터 연속되는 성분의 개수를 의미한다. 즉, 컴퓨터는 각각의 인용대상구문에 포함되는 제1성분의 개수를 산출할 수 있다.
그 후, 컴퓨터는 기준단위 길이가 최대인 인용대상구문을 추출하고, 추출된 인용대상구문에 대응하는 인용구문을 추출할 수 있다. 즉, 컴퓨터는 최다의 제1성분이 포함된 인용대상구문을 추출하고, 추출된 인용대상구문에 대응하는 검사문서 내 부분을 인용구문으로 판단할 수 있다.
또한, 상기 검사문서를 비교문서와 비교하여 산출된 표절영역에서 상기 제외영역을 제외하고, 전체 어절에 대한 표절률을 산출하는 단계;를 더 포함할 수 있다. 즉, 검사문서와 비교문서 간의 표절검사를 수행하여 산출된 표절영역에 인용된 영역에 해당하는 제외영역을 포함하면, 컴퓨터는 정확한 표절률을 산출하기 위해 표절영역에서 제외영역을 제외할 수 있다.
예를 들어, 문서 내 전체 어절들에 대해 어절번호를 부여한 경우(예를 들어, 0, 1, …, 99), 표절영역에 속하는 어절번호 집합이 (13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28)에 해당하고, 제외영역에 속하는 어절번호 집합이 (19, 20, 21, 22, 23, 24, 25)일 수 있다. 컴퓨터는 표절영역에 해당하는 16개의 어절 중에서 제외영역에 해당하는 7개의 어절을 제외하고 표절률을 산출할 수 있다. 즉, 컴퓨터는 (16-7)/100 = 9/100 = 9%로 표절률을 산출할 수 있다. 이를 통해, 주석을 통해 인용구문으로 언급된 영역 또는 별도의 인용표시나 주석 없이 인용하여 사용하는 영역을 표절로 판단하여 산출된 표절률이 높아지는 것을 방지할 수 있으며, 표절검사의 신뢰도가 낮아지는 것을 방지할 수 있다.
또한, 상기 식별된 제외영역에 상기 인용문서를 매칭하는 단계;를 더 포함할 수 있다. 표절검사의 신뢰도를 높이기 위해서는, 특정한 영역이 표절영역에서 제외되는 이유를 사용자에게 제공할 필요가 있다. 따라서, 컴퓨터는 제외영역을 설정하는데 활용된 인용문서를 제외영역에 매칭할 수 있다. 이를 통해, 사용자가 단말기의 화면을 통해 표절검사 결과를 확인 시(예를 들어, PC로 표절검사 결과를 확인하면서 제외영역에 마우스 커서를 오버랩 시)에 표절영역에서 제외된 이유를 제공할 수 있다.
이상에서 전술한 본 발명의 일 실시예에 따른 검사문서 내 인용구문 탐색 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.
첫째, 검사문서 내의 주석을 표시하여 인용한 영역이나 별도의 인용표시없이 일반적으로 인용하는 내용에 상응하는 영역이 표절로 판단되는 것을 방지할 수 있어, 표절률 산출의 정확도를 높일 수 있다. 즉, 인용구문에 해당하는 부분을 표절영역으로 표시하고 표절률을 산출함에 따라 표절검사의 신뢰도가 떨어지는 것을 방지할 수 있다.
둘째, 검사문서 내에 식별대상을 탐색하여 인용문서 탐색방식과 제외영역 추출방식을 결정할 수 있어서, 신속하게 제외영역을 판단할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (11)

  1. 삭제
  2. 컴퓨터가 검사문서 내의 인용기호가 표시되지 않은 영역 중에서 인용구문에 상응하는 제외영역을 탐색하는 방법에 있어서,
    검사문서 내에 포함된 식별대상을 탐색하는 단계;
    상기 식별대상을 바탕으로 인용문서를 결정하는 단계; 및
    상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계;를 포함하며,
    상기 식별대상은,
    상기 검사문서 내 주석에 상응하는 형식문구, 서식에 상응하는 형식문구, 법령 또는 경전에 상응하는 특정한 형식문구 중 어느 하나이며,
    상기 식별대상이 상기 주석 형식문구인 경우,
    상기 식별대상 탐색단계는,
    상기 검사문서 내 특정위치에 배치된 하나 이상의 주석 형식문구를 추출하는 단계;를 포함하고,
    상기 인용문서 결정단계는,
    상기 추출된 하나 이상의 주석 형식문구에서 상기 인용문서의 식별정보를 인식하는 단계;를 포함하고,
    상기 제외영역 식별단계는,
    상기 주석 형식문구에 대응되는 상기 검사문서 내 검사영역과 상기 식별정보에 대응하는 상기 인용문서 내 인용영역을 비교하여, 상기 제외영역을 식별하는 것을 특징으로 하는, 검사문서 내 인용구문 탐색방법.
  3. 제2항에 있어서,
    상기 인용문서 결정단계는,
    상기 검사문서의 주석기재방식을 인식하는 단계;를 더 포함하는, 검사문서 내 인용구문 탐색방법.
  4. 컴퓨터가 검사문서 내의 인용기호가 표시되지 않은 영역 중에서 인용구문에 상응하는 제외영역을 탐색하는 방법에 있어서,
    검사문서 내에 포함된 식별대상을 탐색하는 단계;
    상기 식별대상을 바탕으로 인용문서를 결정하는 단계; 및
    상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계;를 포함하며,
    상기 식별대상은,
    상기 검사문서 내 주석에 상응하는 형식문구, 서식에 상응하는 형식문구, 법령 또는 경전에 상응하는 특정한 형식문구 중 어느 하나이며,
    상기 식별대상이 상기 서식 형식문구인 경우,
    상기 제외영역 식별단계는,
    상기 형식문구를 복수의 제1어절데이터로 생성하는 단계;
    상기 검사문서 내 검사영역을 복수의 제2어절데이터로 생성하는 단계;
    상기 복수의 제1어절데이터에 대응하는 상기 제2어절데이터의 존재여부를 판단하는 단계; 및
    상기 검사영역이 상기 제1어절데이터를 포함하는 경우, 상기 검사영역 내의 상기 제1어절데이터를 포함하는 특정영역을 상기 제외영역으로 판단하는 단계;를 포함하며,
    상기 제1어절데이터는,
    상기 형식문구의 각각의 어절을 시작지점으로 하는, 연속되는 특정한 개수의 어절 그룹이며,
    상기 제2어절데이터는,
    상기 검사문서의 각각의 어절을 시작지점으로 하는, 연속되는 특정한 개수의 어절 그룹인, 검사문서 내 인용구문 탐색방법.
  5. 컴퓨터가 검사문서 내의 인용기호가 표시되지 않은 영역 중에서 인용구문에 상응하는 제외영역을 탐색하는 방법에 있어서,
    검사문서 내에 포함된 식별대상을 탐색하는 단계;
    상기 식별대상을 바탕으로 인용문서를 결정하는 단계; 및
    상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계;를 포함하며,
    상기 식별대상은,
    상기 검사문서 내 주석에 상응하는 형식문구, 서식에 상응하는 형식문구, 법령 또는 경전에 상응하는 특정한 형식문구 중 어느 하나이며,
    상기 식별대상이 법령 또는 경전에 상응하는 특정한 형식문구인 경우,
    상기 제외영역 식별단계는,
    상기 식별대상으로부터 특정범위 내를 검사영역으로 설정하는 단계;
    상기 인용문서를 기준단위로 분할하여 복수의 제1성분을 생성하는 단계;
    상기 검사영역을 기준단위로 분할하여 복수의 제2성분을 생성하는 단계;
    특정한 상기 제2성분을 제2개시성분으로 설정하고, 상기 제2개시성분에 대응하는 상기 제1성분을 탐색하여 제1개시성분으로 결정하는 단계; 및
    상기 검사영역 및 상기 인용문서에서 인용구문 및 인용대상구문을 추출하는 단계;를 포함하며,
    상기 제1성분 및 제2성분은,
    띄어쓰기를 제외하는 것을 특징으로 하는, 검사문서 내 인용구문 탐색방법.
  6. 제5항에 있어서,
    상기 인용구문 및 인용대상구문 추출단계는,
    상기 제2개시성분에 대응하는 복수의 상기 제1개시성분이 결정되는 경우,
    각각의 상기 제1개시성분에 대한 상기 인용대상구문을 식별하는 단계;
    각각의 상기 인용대상구문에 대한 기준단위 길이를 산출하는 단계; 및
    상기 기준단위 길이가 최대인 상기 인용대상구문을 추출하고, 상기 추출된 인용대상구문에 대응하는 상기 인용구문을 추출하는 단계;를 포함하는, 검사문서 내 인용구문 탐색방법.
  7. 컴퓨터가 검사문서 내의 인용기호가 표시되지 않은 영역 중에서 인용구문에 상응하는 제외영역을 탐색하는 방법에 있어서,
    검사문서 내에 포함된 식별대상을 탐색하는 단계;
    상기 식별대상을 바탕으로 인용문서를 결정하는 단계; 및
    상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계;를 포함하며,
    상기 식별대상은,
    상기 검사문서 내 주석에 상응하는 형식문구, 서식에 상응하는 형식문구, 법령 또는 경전에 상응하는 특정한 형식문구 중 어느 하나이며,
    상기 인용문서 결정단계는,
    상기 식별대상에서 키워드를 추출하는 단계; 및
    상기 키워드에 상응하는 하나 이상의 인용문서를 탐색하는 단계;를 포함하는, 검사문서 내 인용구문 탐색방법.
  8. 제4항에 있어서,
    상기 식별대상이 상기 서식 형식문구에 해당하는 경우,
    상기 인용문서 결정단계는,
    상기 검사문서 내에 포함된 서식특징정보을 추출하는 단계; 및
    상기 추출된 서식특징정보에 상응하는 형식문구 그룹을 선택하는 단계;를 더 포함하는, 검사문서 내 인용구문 탐색방법.
  9. 컴퓨터가 검사문서 내의 인용기호가 표시되지 않은 영역 중에서 인용구문에 상응하는 제외영역을 탐색하는 방법에 있어서,
    검사문서 내에 포함된 식별대상을 탐색하는 단계;
    상기 식별대상을 바탕으로 인용문서를 결정하는 단계; 및
    상기 식별대상에 부합하는 제외영역 판단방식에 따라, 상기 인용문서와 상기 검사문서를 비교하여 상기 제외영역을 식별하는 단계;를 포함하며,
    상기 식별대상은,
    상기 검사문서 내 주석에 상응하는 형식문구, 서식에 상응하는 형식문구, 법령 또는 경전에 상응하는 특정한 형식문구 중 어느 하나이며,
    상기 검사문서를 비교문서와 비교하여 산출된 표절영역에서 상기 제외영역을 제외하고, 전체 어절에 대한 표절률을 산출하는 단계;를 더 포함하는, 검사문서 내 인용구문 탐색방법.
  10. 삭제
  11. 하드웨어인 컴퓨터와 결합되어, 제2항 내지 제9항 중 어느 한 항의 방법을 실행시키기 위하여 매체에 저장된, 검사문서 내 인용구문 탐색 프로그램.
KR1020150124650A 2015-09-03 2015-09-03 검사문서 내 인용구문 탐색 방법 및 프로그램 KR101634681B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150124650A KR101634681B1 (ko) 2015-09-03 2015-09-03 검사문서 내 인용구문 탐색 방법 및 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150124650A KR101634681B1 (ko) 2015-09-03 2015-09-03 검사문서 내 인용구문 탐색 방법 및 프로그램

Publications (1)

Publication Number Publication Date
KR101634681B1 true KR101634681B1 (ko) 2016-06-29

Family

ID=56365990

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150124650A KR101634681B1 (ko) 2015-09-03 2015-09-03 검사문서 내 인용구문 탐색 방법 및 프로그램

Country Status (1)

Country Link
KR (1) KR101634681B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102297721B1 (ko) 2021-02-18 2021-09-03 주식회사 투비유니콘 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314421B1 (en) * 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
KR20100071287A (ko) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
KR20100115048A (ko) * 2009-04-17 2010-10-27 정원석 복사 문서 판별 시스템 및 그 방법
KR101264151B1 (ko) * 2012-10-24 2013-05-14 주식회사 무하유 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314421B1 (en) * 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
KR20100071287A (ko) * 2008-12-19 2010-06-29 테크놀러지리딩퓨처(주) 문서 표절 탐색 방법 및 장치
KR20100115048A (ko) * 2009-04-17 2010-10-27 정원석 복사 문서 판별 시스템 및 그 방법
KR101264151B1 (ko) * 2012-10-24 2013-05-14 주식회사 무하유 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102297721B1 (ko) 2021-02-18 2021-09-03 주식회사 투비유니콘 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템

Similar Documents

Publication Publication Date Title
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
Gupta et al. Mining Hindi-English Transliteration Pairs from Online Hindi Lyrics.
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
JP2010538374A (ja) 曖昧感応自然言語処理システムにおける同一指示解決
Osman et al. Plagiarism detection using graph-based representation
KR101565367B1 (ko) 숫자정규화를 이용한 문서 표절률 산출 방법
Ganfure et al. Design and implementation of morphology based spell checker
KR101634681B1 (ko) 검사문서 내 인용구문 탐색 방법 및 프로그램
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
WO2015075920A1 (ja) 入力支援装置、入力支援方法及び記録媒体
Charton et al. Improving Entity Linking using Surface Form Refinement.
Matsuoka et al. Examination of effective features for CRF-based bibliography extraction from reference strings
US8977538B2 (en) Constructing and analyzing a word graph
Soo A non-learning approach to spelling correction in web queries
US10042843B2 (en) Method and system for searching words in documents written in a source language as transcript of words in an origin language
Archer et al. The identification of spelling variants in English and German historical texts: manual or automatic
Dahar et al. An efficient Sindhi spelling checker for Microsoft Word
KR20130122437A (ko) 영어의 한글 표기 방법 및 시스템
KR101572021B1 (ko) 검사문서 내 표절영역 표시방법
KR101663521B1 (ko) 띄어쓰기 교정 방법 및 프로그램
Mori et al. A method of cross language question-answering based on machine translation and transliteration
KR20150111587A (ko) 디비피디아를 활용한 uri 스포팅 시스템 및 방법
KR101629726B1 (ko) 띄어쓰기 교정 방법 및 프로그램
Verulkar et al. Transliterated search of Hindi lyrics

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190408

Year of fee payment: 4