KR101663521B1

KR101663521B1 - 띄어쓰기 교정 방법 및 프로그램

Info

Publication number: KR101663521B1
Application number: KR1020160053747A
Authority: KR
Inventors: 신동호
Original assignee: 주식회사 무하유
Priority date: 2016-05-02
Filing date: 2016-05-02
Publication date: 2016-10-07

Abstract

본 발명은 띄어쓰기 교정 방법 및 프로그램에 관한 것이다.
본 발명의 일실시예에 따른 띄어쓰기 교정방법은, 기준문서를 기준단위로 분할하여 복수의 제1성분을 생성하는 단계(S100); 교정문서를 상기 기준단위로 분할하여 복수의 제2성분을 생성하는 단계(S200); 특정한 상기 제2성분을 교정개시성분으로 설정하고, 상기 교정개시성분에 대응하는 상기 제1성분을 탐색하여 매칭개시성분으로 결정하는 단계(S300); 상기 교정문서 및 상기 기준문서에서 교정영역 및 매칭영역을 추출하는 단계(S400); 및 상기 매칭영역의 띄어쓰기를 기준으로 상기 교정영역의 띄어쓰기를 교정하는 단계(S500);를 포함한다.
본 발명에 따르면, 컴퓨터는 비교를 수행할 기준문서와 띄어쓰기 방식이 일치하는지 여부만 판단하면 되므로, 기존의 띄어쓰기 방식에 비해서 신속하게 수행될 수 있는 장점이 있다.

Description

띄어쓰기 교정 방법 및 프로그램 {METHOD AND PROGRAM FOR PROOFREADING WORD SPACING}

본 발명은 띄어쓰기 교정 방법 및 프로그램에 관한 것으로, 보다 자세하게는 특정한 문서의 띄어쓰기 방식을 기준으로 다른 문서의 띄어쓰기를 교정하는 방법 및 프로그램에 관한 것이다.

문서를 작성함에 있어서 띄어쓰기가 사용된다. 영어 등의 알파벳을 사용하는 경우, 띄어쓰기(word spacing)가 잘못되면 단어의 경계를 인식할 수 없어 의미 파악을 할 수 없게 된다. 예를 들어, "All work and no play makes Jack a dull boy"라는 문장을 띄어쓰기가 없이 표현하게 되면, "AllworkandnoplaymakesJackadullboy"와 같이 표현이 되며, 독자들은 의미를 파악하는데 어려움을 겪게 된다. 반면, 한글(한국어)의 경우, 띄어쓰기가 제대로 이루어지지 않으면 독자들이 읽기가 불편할 뿐, 대체적으로 의미를 이해하는데 문제는 없다.

따라서, 한국어의 경우 띄어쓰기가 엄격하게 지켜지지 않고 비교적 자유로운 편이다. 즉, 한국어에는 붙여 쓰는 것과 띄어 쓰는 것이 모두 표준어로 인정되는 경우가 존재한다. 예를 들어, 한국어에서는 '불이 꺼져간다'와 '불이 꺼져 간다'를 모두 표준어로 인정한다. 한국어 띄어쓰기 규정은 형태론적 품사 정보에 근거하며, 붙여쓰고 띄어쓰는 두 경우를 모두 허용하는 느슨한 체계이다 보니, 컴퓨터 프로그램에 의해 자동으로 띄어쓰기를 교정하게 만들기가 어려운 편이다.

기존에는 문서 간의 띄어쓰기를 일치시키는 방식으로, 각각의 문서 내 특정영역을 형태소 분석하여 각 단어의 품사 정보를 추출한 후, 추출된 품사 정보를 기반으로 국립국어원의 띄어쓰기 규정에 맞추어 오류가 있는 부분을 찾아 교정하는 방식을 사용하였다.

본 발명의 배경이 되는 기술은 대한민국 등록특허공보 제10-0191001호(1999.06.15.)에 개시되어 있다.

특정한 문서(기준문서)를 기준으로 다른 문서(교정문서)의 띄어쓰기를 교정하여 연관된 문서들이 동일한 띄어쓰기 기준에 따라 작성되도록 하는, 띄어쓰기 교정 방법 및 프로그램을 제공하고자 한다.

또한, 표절검사를 수행하는 프로그램들은 일반적으로 어절을 기반으로 비교키를 생성하여 표절여부를 판단한다. 띄어쓰기로 분리된 단위가 어절에 해당하므로, 표절 검사를 수행할 문서와 교정문서 간 띄어쓰기가 다르게 되어 있으면 제대로 된 표절검사를 수행 할 수 없게 된다.

또한, 표절검사는 두 문서를 서로 대조하여 표절률을 산출하는 방식이므로, 중복적으로 허용되는 맞춤법 중에서 기준문서 내의 형식에 맞게 띄어쓰기를 통일할 필요가 있다.

따라서, 표절검사를 수행함에 있어 띄어쓰기의 차이에 의해 산출되는 표절률이 달라지는 것을 방지하기 위해, 검사문서와 교정문서의 일관성을 가지는 띄어쓰기 기준을 적용하는 띄어쓰기 교정 방법 및 프로그램을 제공하고자 한다.

본 발명의 일실시예에 따른 띄어쓰기 교정방법은, 기준문서를 기준단위로 분할하여 복수의 제1성분을 생성하는 단계; 교정문서를 상기 기준단위로 분할하여 복수의 제2성분을 생성하는 단계; 특정한 상기 제2성분을 교정개시성분으로 설정하고, 상기 교정개시성분에 대응하는 상기 제1성분을 탐색하여 매칭개시성분으로 결정하는 단계; 상기 교정문서 및 상기 기준문서에서 교정영역 및 매칭영역을 추출하는 단계; 및 상기 매칭영역의 띄어쓰기를 기준으로 상기 교정영역의 띄어쓰기를 교정하는 단계;를 포함하며, 상기 교정영역은 상기 교정개시성분 및 상기 매칭개시성분으로부터 상기 제1성분 및 상기 제2성분을 순서대로 비교수행 시, 연속적으로 상기 제1성분에 매칭이 되는 상기 제2성분의 조합이며, 상기 매칭영역은 상기 교정영역에 대응하는 상기 제1성분의 조합이다.

또한, 상기 기준단위는, 각 언어별 글자단위인 것을 특징으로 할 수 있다.

또한, 특정기준에 따라 복수의 상기 제1성분을 배열 또는 분류한 탐색테이블을 생성하는 단계;를 더 포함하며, 상기 매칭개시성분 결정단계는, 특정한 상기 교정개시성분에 대응하는 상기 제1성분을 상기 탐색테이블에서 탐색하는 것을 특징으로 할 수 있다.

또한, 상기 탐색테이블 생성단계는, 상기 제1성분에 차례대로 제1식별번호를 부여하는 단계; 동일한 상기 제1성분은 상기 탐색테이블 내 동일 그룹으로 분류하는 단계; 및 상기 그룹에 포함된 성분에 특정한 정렬기준을 적용하여, 하나 이상의 상기 그룹을 정렬하는 단계;를 포함할 수 있다.

또한, 상기 교정개시성분에 대응하는 복수의 상기 매칭개시성분이 결정되는 경우, 상기 교정영역 및 매칭영역 추출단계는, 각각의 상기 매칭개시성분에 대한 상기 매칭영역을 식별하는 단계; 각각의 상기 매칭영역에 대한 기준단위 길이를 산출하는 단계; 및 상기 기준단위 길이가 최대인 상기 매칭영역을 추출하고, 상기 추출된 매칭영역에 대응하는 상기 교정영역을 추출하는 단계;를 포함하되, 상기 기준단위 길이는 상기 매칭개시성분 또는 상기 교정개시성분으로부터 연속되는 성분의 개수일 수 있다.

또한, 상기 교정영역 및 매칭영역 추출단계는, 상기 추출된 매칭영역에 포함된 상기 제1성분을 상기 탐색테이블에서 제외하는 단계;를 더 포함할 수 있다.

또한, 상기 기준단위는, 공백영역을 상기 제1성분 및 상기 제2성분에 포함하는 것을 특징으로 하며, 상기 교정영역 및 매칭영역 추출단계는, 상기 제1성분과 상기 제2성분을 비교 수행 시, 상기 제1성분 또는 상기 제2성분이 상기 공백영역에 해당하는 경우, 상기 공백영역의 다음 순서에 해당하는 상기 제1성분 또는 상기 제2성분과 비교수행하는 것을 특징으로 할 수 있다.

또한, 상기 제1성분 생성단계는, 각각의 공백영역에 배치위치정보를 포함하는 제2식별번호를 부여하는 단계;를 포함하며, 상기 교정영역 및 매칭영역 추출단계는, 상기 공백영역을 제외한 상기 교정영역 및 매칭영역을 탐색하는 것을 특징으로 하며, 상기 띄어쓰기 교정단계는, 상기 제2식별번호를 반영하여 상기 교정영역의 띄어쓰기를 교정하는 것을 특징으로 할 수 있다.

또한, 상기 매칭개시성분 결정단계, 상기 교정영역 및 상기 매칭영역 추출단계, 및 상기 띄어쓰기 교정단계를 상기 교정문서의 특정영역에 대해서 반복 수행하는 것을 특징으로 하며, 상기 매칭개시성분 결정단계는, 상기 제2성분에 대응하는 상기 제1성분이 존재하지 않는 경우, 다음순번의 제2성분을 상기 교정개시성분으로 설정하며, 상기 제2성분에 대응하는 상기 제1성분이 존재하여 상기 교정영역이 추출된 경우, 상기 교정영역의 다음 순번에 대응하는 상기 제2성분을 상기 교정개시성분으로 설정하는 것을 특징으로 할 수 있다.

또한, 상기 기준문서를 띄어쓰기가 교정된 상기 교정문서와 비교 분석하여, 상기 기준문서의 표절률을 산출하는 단계;를 더 포함할 수 있다.

또한, 상기 기준문서를 상기 교정문서와 비교 분석하여, 상기 기준문서의 표절의심영역을 추출하는 단계;를 더 포함하고, 상기 제1성분 생성단계 및 상기 제2성분 생성단계는, 상기 기준문서 내 상기 표절의심영역 및 상기 표절의심영역에 대응되는 상기 교정문서 내 표절대상영역에 대해 수행되는 것을 특징으로 할 수 있다.

본 발명의 다른 일실시예에 따른 띄어쓰기 교정 프로그램은, 하드웨어와 결합되어 상기 언급된 띄어쓰기 교정 방법을 실행하며, 매체에 저장된다.

상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.

첫째, 컴퓨터는 비교를 수행할 기준문서와 띄어쓰기 방식이 일치하는지 여부만 판단하면 되므로, 기존의 띄어쓰기 방식에 비해서 신속하게 수행될 수 있는 장점이 있다.

둘째, 기존 방식과 같은 띄어쓰기 기준이 되는 말뭉치(Corpus) 구축 작업 등이 필요하지 않으므로, 띄어쓰기 교정 시스템을 구축하는데 필요한 비용이 적은 장점이 있다.

셋째, 한국어의 느슨한 띄어쓰기 규정에 따라 동일한 내용이 서로 다른 띄어쓰기 형태로 작성되는 것을 방지할 수 있다.

넷째, 표절검사를 수행함에 있어서, 두 문서(비교문서 및 검사문서)를 동일한 띄어쓰기 방식으로 통일할 수 있어, 띄어쓰기의 차이에 의해서 표절률이 상이하게 산출되는 것을 방지할 수 있다. 즉, 서로 다른 복수개의 띄어쓰기 방식을 인정하는 국립어학원의 느슨한 띄어쓰기 규정에 따라 어절 단위 표절검사 방식의 정확도가 떨어지는 문제를 해결하는 효과가 있다.

도 1은 본 발명의 일실시예에 따른 띄어쓰기 교정방법에 대한 순서도이다.
도 2는 본 발명의 일실시예에 따라 기준문서 내 복수의 매칭개시성분 중에서 최적의 매칭영역을 제공하는 매칭개시성분을 탐색하는 과정에 대한 순서도이다.
도 3은 본 발명의 일실시예에 따라 기준문서를 기준단위로 분할하여 식별번호를 차례대로 부여한 예시도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

본 명세서에서 띄어쓰기는 글쓰기에서 문서를 작성할 때 어절마다 사이에 띄어쓰는 것을 가리킨다. 일반적으로, 띄어쓰기는 공백을 사용하여 어절 간을 구별하는 것을 지칭하지만, 넓은 의미로는 구두점 등의 특수기호에 의해 분할하는 것도 띄어쓰기로 포함할 수 있다.

본 명세서에서 컴퓨터는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.

본 명세서에서 기준문서는, 띄어쓰기 교정의 기준이 되는 문서를 의미한다. 또한, 본 명세서에서 교정문서는, 상기 기준문서의 띄어쓰기 방식에 따라 교정이 이루어지는 문서를 의미한다.

본 명세서에서 성분은, 각 문서를 특정한 언어의 기본단위로 분할한 최소단위를 의미한다. 예를 들어, 문서가 한글로 작성된 경우, 초성, 중성, 종성이 결합된 하나의 음절을 성분으로 할 수 있다. 이하, 교정의 기준이 되는 기준문서 내 성분을 제1성분, 교정의 대상이 되는 교정문서 내 성분을 제2성분이라 한다.

이하, 도면을 참조하여 본 발명의 실시예들에 따른 띄어쓰기 교정방법 및 교정프로그램에 대해 설명하기로 한다.

도 1을 참조하면, 본 발명의 일실시예에 따른 띄어쓰기 교정방법은, 기준문서를 기준단위로 분할하여 복수의 제1성분을 생성하는 단계(S100); 교정문서를 상기 기준단위로 분할하여 복수의 제2성분을 생성하는 단계(S200); 특정한 상기 제2성분을 교정개시성분으로 설정하고, 상기 교정개시성분에 대응하는 상기 제1성분을 탐색하여 매칭개시성분으로 결정하는 단계(S300); 상기 교정문서 및 상기 기준문서에서 교정영역 및 매칭영역을 추출하는 단계(S400); 및 상기 매칭영역의 띄어쓰기를 기준으로 상기 교정영역의 띄어쓰기를 교정하는 단계(S500);를 포함한다. 본 발명의 일 실시예에 따른 띄어쓰기 교정방법을 순서대로 설명한다.

이하, 각 단계를 '과거에도 구한말과 개화기, 일제시대를 다룬 연극이 있었지만, 2000년대 이후 최근작들이 보여준 역사인식과 극적 재현의 전략은 이전시기 작품들과 확연히 다르다.'라는 문장을 기준문서로, '옛날에도 일제 시대를 다룬 연극이 있었지만 2000 년대 이후에는 신진 작가들이 대거 등장하면서 역사 인식과 극적재현의 전략이 이전 시기와 달라졌다.'라는 문장을 교정문서로 하여 구체적인 예시를 설명한다.

컴퓨터는 기준문서를 기준단위로 분할하여 복수의 제1성분을 생성한다(S100). 상기 기준단위는, 각 언어별 글자단위일 수 있다. 즉, 한글의 경우, 초성, 중성, 종성이 결합된 하나의 음절이 분할되는 글자단위에 해당될 수 있다. 또한, 영어, 독일어 등의 알파벳 형태를 사용하는 언어의 경우, 알파벳 각각이 분할되는 글자단위에 해당될 수 있다. 또한, 일본어, 중국어 등의 한자를 사용하는 언어의 경우, 각각의 한자가 분할되는 글자단위에 해당될 수 있다. 컴퓨터는 기준문서에서 작성된 언어의 기본단위를 바탕으로 기준문서를 분할하여 복수의 제1성분을 생성한다. 컴퓨터는 기준문서 전체에 대해서 복수의 제1성분을 생성할 수 있고, 기준문서 내 특정영역에 대해서만 복수의 제1성분을 생성할 수 있다. 예를 들어, 컴퓨터는 사용자로부터 기준문서 내 특정영역만을 선택받아서 제1성분 생성을 수행할 수 있으며, 컴퓨터의 작업 수행에 의해 선별된 특정영역에 대해서만 제1성분 생성을 수행할 수 있다.

컴퓨터는 교정문서를 상기 기준단위로 분할하여 복수의 제2성분을 생성한다(S200). 즉, 컴퓨터는 기준문서의 제1성분 생성과 동일한 기준단위에 따라 교정문서를 분할하여 제2성분을 생성할 수 있다.

컴퓨터는 특정한 제2성분을 교정개시성분으로 설정하고, 교정개시성분에 대응하는 제1성분을 탐색하여 매칭개시성분으로 결정한다(S300). 상기 교정개시성분은, 컴퓨터에 의해 교정을 시작할 교정문서 내 특정한 제2성분에 해당한다. 즉, 컴퓨터는 특정한 제2성분을 교정작업을 시작할 지점으로 설정할 수 있다. 예를 들어, 컴퓨터는 교정문서의 진행 순서상 첫번째 제2성분을 교정개시성분으로 설정할 수 있다. 그 후, 컴퓨터는 교정개시성분에 대응하는 제1성분을 탐색하여 매칭개시성분으로 결정한다. 컴퓨터는 매칭개시성분을 탐색하는 과정에서 후술하는 바와 같이 탐색테이블을 생성하여 활용할 수 있다.

컴퓨터는 교정문서 및 기준문서에서 교정영역 및 매칭영역을 추출한다(S400). 상기 교정영역은 상기 교정개시성분 및 상기 매칭개시성분으로부터 상기 제1성분 및 상기 제2성분을 순서대로 비교수행 시, 연속적으로 상기 제1성분에 매칭이 되는 상기 제2성분의 조합이다. 상기 매칭영역은 상기 교정영역에 대응하는 상기 제1성분의 조합이다. 예를 들어, 교정문서에서 5번째 음절인 '일'을 교정개시성분으로 하는 경우, 교정문서의 '일제 시대를 다룬 연극이 있었지만 2000 년대 이후'는 기준문서의 '일제시대를 다룬 연극이 있었지만 2000년대 이후'와 띄어쓰기의 차이 외에 성분은 동일하다. 따라서, 성분이 대응되는 것으로 파악된 교정문서의 영역과 기준문서의 영역을 각각 교정영역 및 매칭영역으로 판단할 수 있다.

또한, 컴퓨터는 특정 개수 이하의 기준단위인 성분이 일치하는 경우에는 교정영역 및 매칭영역으로 추출하지 않도록 설정할 수 있다. 예를 들어, 교정문서의 3번째 성분인 '에'는 기준문서와 대응이 되지만, 연속되는 성분 개수가 2개('에도')이므로 띄어쓰기 교정이 필요한 부분이 없게 된다. 따라서 교정문서의 3번째 성분인 '에'에 의해서 파악된 영역은 교정영역으로 추출되지 않을 수 있다. 따라서, 컴퓨터는 기준문서와 교정문서의 대응되는 성분 개수가 소정의 개수 이하이면 교정영역 및 매칭영역으로 추출하지 않도록 설정할 수 있다.

또한, 상기 교정영역 및 매칭영역 추출단계(S400)는, 도 2에서와 같이, 교정개시성분에 대응하는 복수의 상기 매칭개시성분이 결정되는 경우, 각각의 상기 매칭개시성분에 대한 상기 매칭영역을 식별하는 단계(S410); 각각의 상기 매칭영역에 대한 기준단위 길이를 산출하는 단계(S420); 및 상기 기준단위 길이가 최대인 상기 매칭영역을 추출하고, 상기 추출된 매칭영역에 대응하는 상기 교정영역을 추출하는 단계(S430);를 포함할 수 있다. 즉, 컴퓨터는, 교정개시성분에 해당하는 제2성분과 동일한 제1성분(매칭개시성분)이 여러 개 존재하는 경우, 최적의 제1성분(매칭개시성분)을 결정할 필요가 있다.

컴퓨터는 각각의 매칭개시성분에 대한 매칭영역을 식별한다(S410). 컴퓨터는 기준문서 내에서 교정개시성분과 동일한 복수의 제1성분을 추출한다. 그 후, 컴퓨터는 교정개시성분과 매칭개시성분으로부터 차례대로 성분의 동일여부를 비교하여 매칭영역을 추출하는 과정을 각각의 매칭개시성분에 대해서 수행할 수 있다.

컴퓨터는 각각의 매칭영역에 대한 기준단위 길이를 산출한다(S420). 기준단위 길이는 매칭개시성분 또는 교정개시성분으로부터 연속되는 성분의 개수를 의미한다. 즉, 컴퓨터는 각각의 매칭영역에 포함되는 제1성분의 개수를 산출할 수 있다.

그 후, 컴퓨터는 기준단위 길이가 최대인 매칭영역을 추출하고, 추출된 매칭영역에 대응하는 교정영역을 추출한다(S430). 즉, 컴퓨터는 최다의 제1성분이 포함된 매칭영역을 추출하고, 추출된 매칭영역에 대응하는 교정문서 내 부분을 교정영역으로 판단할 수 있다.

컴퓨터는 매칭영역의 띄어쓰기를 기준으로 교정영역의 띄어쓰기를 교정한다(S500). 예를 들어, 컴퓨터는 교정영역의 띄어쓰기를 제거한 후, 매칭영역의 띄어쓰기 지점을 적용하여 띄어쓰기 교정을 수행할 수 있다.

또한, 본 발명의 일실시예는 특정기준에 따라 복수의 제1성분을 배열 또는 분류한 탐색테이블을 생성하는 단계;를 더 포함할 수 있다. 컴퓨터는 교정문서의 교정개시성분에 대응하는 제1성분 탐색을 빠르게 하기 위해서 특정기준에 따라 복수의 제1성분을 분류할 수 있다. 예를 들어, 컴퓨터는 복수의 제1성분을 글자유형(예를 들어, 기호문자, ASCII 영문, 한글음절, 한자)에 따라 분류할 수 있고, 동일한 성분을 하나의 그룹으로 분류할 수 있다. 상기 탐색테이블 생성단계는, 제1성분에 식별번호를 부여하고 동일한 제1성분을 동일 그룹으로 분류하는 방식을 적용할 수 있다. 즉, 상기 탐색테이블 생성단계는, 제1성분에 차례대로 제1식별번호를 부여하는 단계; 동일한 상기 제1성분을 상기 탐색테이블 내 동일 그룹으로 분류하는 단계; 및 상기 그룹에 포함된 성분에 특정한 정렬기준을 적용하여, 하나 이상의 상기 그룹을 정렬하는 단계;를 포함할 수 있다. 컴퓨터는 제1성분에 차례대로 제1식별번호를 부여할 수 있다. 즉, 컴퓨터는 분할된 각각의 제1성분을 첫 번째 성분부터 차례대로 식별번호를 부여할 수 있다. 예를 들어, 기준문서인 '과거에도 구한말과 개화기, 일제시대를 다룬 연극이 있었지만, 2000년대 이후 최근작들이 보여준 역사인식과 극적 재현의 전략은 이전시기 작품들과 확연히 다르다.'를 분할하여 도 3에 도시된 바와 같이 차례대로 식별번호를 부여할 수 있다(도 3은 공백영역에도 식별번호를 부여한 형태에 해당한다).

그 후, 컴퓨터는 동일한 제1성분은 상기 탐색테이블 내 동일 그룹으로 분류한다. 즉, 기준문서 내에 동일한 글자가 복수 개 포함되어 있으면, 동일한 글자를 하나의 그룹으로 생성할 수 있다. 예를 들어, 도 3에서 보면, '과'라는 글자는 식별번호 0, 8, 57, 78에 4번 등장하고, 이를 동일 제1성분 그룹으로 묶고 해당 그룹을 식별하는 명칭으로'과'를 부여할 수 있다.

그 후, 컴퓨터는 상기 그룹에 포함된 성분에 특정한 정렬기준을 적용하여, 하나 이상의 상기 그룹을 정렬한다. 컴퓨터가 교정개시성분에 대응하는 제1성분 그룹을 빠르게 탐색하기 위해서는 특정한 기준에 따라 분류된 그룹이 나열 또는 정렬될 필요가 있다. 컴퓨터가 동일한 하나 이상의 제1성분을 하나의 그룹으로 분류함에 따라 그룹 내에 포함된 성분이 각 그룹을 의미(또는 표시)할 수 있다. 컴퓨터는 각 그룹에 포함된 성분에 특정한 정렬기준을 적용하여, 하나 이상의 그룹을 특정한 순서로 정렬할 수 있다. 상기 정렬기준은, 오름차순 또는 내림차순(예를 들어, 가나나 순서, 알파벳 순서 등) 등의 다양한 정렬방식이 해당될 수 있다. 예를 들어, 영문일 경우는 알파벳 순서대로 제1성분 그룹을 나열할 수 있고, 한글인 경우에는 초성, 중성, 종성 순서에 따라 자음 또는 모음 순서를 적용하여 나열할 수 있다. 이를 통해, 컴퓨터는 처음부터 차례대로 비교할 필요 없이 대응되는 제1성분 그룹을 파악할 수 있다.

컴퓨터는 위와 같은 과정을 통해 생성된 탐색테이블을 이용하여 매칭개시성분 결정을 수행할 수 있다. 즉, 매칭개시성분 결정단계(S300)는, 특정한 교정개시성분에 대응하는 제1성분을 탐색테이블에서 탐색할 수 있다.

또한, 교정개시성분과 동일한 제1성분이 복수 개 존재하여, 최적의 제1성분을 결정하는 과정에서도 탐색테이블을 활용할 수 있다. 컴퓨터는 교정개시성분에 해당하는 제1성분 그룹을 파악하고, 상기 그룹에 포함된 각각의 제1성분에 대한 기준단위 길이를 산출할 수 있다. 컴퓨터는 산출된 각각의 제1성분에 대한 기준단위 길이를 바탕으로, 기준단위 길이가 최대인 최적의 제1성분을 매칭개시성분으로 결정할 수 있다. 컴퓨터는 해당 매칭개시성분의 기준문서 내의 위치도 식별번호를 통해 바로 파악할 수 있어, 교정문서의 띄어쓰기 교정 속도를 높일 수 있는 효과가 있다.

또한, 상기 교정영역 및 매칭영역 추출단계(S400)는, 상기 추출된 매칭영역에 포함된 상기 제1성분을 상기 탐색테이블에서 제외하는 단계;를 더 포함할 수 있다. 즉, 매칭영역으로 추출된 제1성분들이 탐색테이블 내에 포함되어 있으면, 이미 제1성분과 제2성분 사이의 매칭이 완료된 제1성분에 대한 기준단위 길이 산출과정도 불필요하게 수행될 수 있다. 따라서 컴퓨터는 추출된 매칭영역에 포함된 제1성분을 탐색테이블에서 제외할 수 있다. 예를 들어, 컴퓨터는 매칭개시성분과 상기 매칭개시성분에 대응하는 기준단위 길이를 알고 있으므로, 매칭개시성분의 식별번호로부터 기준단위 길이의 값만큼 차이가 나는 식별번호까지 탐색테이블에서 제외할 수 있다.

또한, 본 발명의 일실시예는 교정영역과 매칭영역을 추출하는 과정에서 공백영역을 제1성분 또는 제2성분에 포함하는지 여부에 따라 구체적인 수행과정에서 차이가 있을 수 있다.

공백영역을 상기 제1성분 및 상기 제2성분에 포함하는 경우, 상기 교정영역 및 매칭영역 추출단계(S400)는, 상기 제1성분과 상기 제2성분을 비교 수행 시, 상기 제1성분 또는 상기 제2성분이 상기 공백영역에 해당하는 경우, 상기 공백영역의 다음 순서에 해당하는 제1성분 또는 제2성분과 비교 수행할 수 있다. 즉, 기준문서와 교정문서는 띄어쓰기에서 차이가 존재하므로, 띄어쓰기에 해당하는 공백영역은 넘어가면서 제1성분 및 제2성분 간의 대응여부를 확인할 수 있다.

또한, 컴퓨터는 어절의 끝부분이 조사인지 여부를 판단할 수 있고, 조사는 건너뛰며 제1성분 및 제2 성분의 대응여부를 확인할 수 있다. 한국어는 조사를 생략하거나 바꾸어 쓰는 일이 빈번하다. 따라서, 컴퓨터는 특정한 어절의 성분을 차례대로 인식하여 비교하는 과정에서 특정한 단어로 인식된 성분 이후에 나타나는 어절 내 성분은 조사로 판단하여 성분 비교를 띄어 넘을 수 있다. 컴퓨터는 조사에 해당하는 성분을 따로 분류한 후 추후에 조사에 대응하는 제1성분과 제2성분 간의 비교를 수행할 수 있다.

또한, 컴퓨터는 공백영역에 대해서는 별도의 식별번호를 부여할 수 있다. 즉, 상기 제1성분 생성단계(S100)는, 배치위치정보를 포함하는 제2식별번호를 각각의 공백영역에 부여하는 단계;를 포함할 수 있다. 상기 배치위치정보는, 공백영역이 삽입 또는 배치되는, 성분 사이의 위치에 해당할 수 있다. 예를 들어, 기준문서 내의 공백영역의 경우, 공백영역 앞의 식별번호에 추가적인 표시를 더 포함하는 제2식별번호를 부여하는 방식을 적용할 수 있다. 이를 통해, 컴퓨터는, 교정영역 및 매칭영역 추출단계(S400)에서, 공백영역을 제외한 기준문서와 교정문서 내의 성분의 대응여부를 비교하고, 공백영역을 제외한 상기 교정영역 및 매칭영역을 탐색할 수 있다. 그 후, 상기 띄어쓰기 교정단계(S400)에서, 컴퓨터는 공백영역에 대한 제2식별번호를 반영하여, 교정영역의 띄어쓰기를 교정할 수 있다.

또한, 컴퓨터는 매칭개시성분 결정단계(S300), 교정영역 및 매칭영역 추출단계(S400), 및 띄어쓰기 교정단계(S500)를 교정문서의 특정영역에 대해서 반복 수행할 수 있다. 반복 수행하는 과정에서, 상기 매칭개시성분 결정단계(S300)는, 제2성분에 대응하는 제1성분이 존재하지 않는 경우, 다음순번의 제2성분을 교정개시성분으로 설정할 수 있다. 반면, 제2성분에 대응하는 제1성분이 존재하여 교정영역이 추출된 경우, 교정영역의 다음 순번(즉, 교정영역 내의 마지막 제2성분의 다음 순번)에 대응하는 상기 제2성분을 교정개시성분으로 설정할 수 있다. 이를 통해, 컴퓨터는 교정문서 전체 또는 교정 수행할 범위 전체에 대해서 기준문서의 띄어쓰기와 비교하여 교정을 수행할 수 있다.

또한, 상기 기준문서를 띄어쓰기가 교정된 상기 교정문서와 비교 분석하여, 상기 기준문서의 표절률을 산출하는 단계;를 더 포함할 수 있다. 컴퓨터는, 기준문서의 표절률 산출과정에서 띄어쓰기 차이에 의해 표절률이 다르게 산출되지 않도록, 표절검사의 비교대상이 되는 문서(즉, 교정문서)를 기준문서의 띄어쓰기 방식에 부합하게 띄어쓰기 교정을 할 수 있다. 그 후, 컴퓨터는 기준문서를 기준문서의 띄어쓰기 방식에 부합하여 교정된 교정문서를 비교하여, 기준문서의 표절률을 산출할 수 있다.

먼저, 컴퓨터는 교정문서와의 비교분석을 통해 기준문서 내의 표절 부분을 탐색할 수 있다. 예를 들어, 컴퓨터는 표절로 인정될 수 있는 최소 청크 단위로 교정문서와 교정문서의 문장을 분할하여 비교를 수행할 수 있다. 다만, 기준문서 내의 표절부분을 탐색하는 방법은 이에 한정되지 않고, 기준문서와 하나 이상의 교정문서를 비교하여 표절 부분을 탐색하는 다양한 방법이 적용될 수 있다.

그 후, 컴퓨터는 기준교정문서와 교정문서의 문장을 분할하여 비교를 수행할 수 있다. 다만, 기준문서 내의 표절부분을 탐색하는 방법은 이에 한정되지 않고, 기준문서와 하나 이상의 교정문서를 비교하여 표절 부분을 탐색하는 다양한 방법이 적용될 수 있다.

그 후, 컴퓨터는 기준문서의 표절률을 산출할 수 있다. 표절률을 산출하는 방법으로는 다양한 방식이 적용될 수 있다. 컴퓨터는 숫자정규화가 수행된 기준문서와 교정문서에서 문장을 추출하고, 상기 기준문서의 문장과 상기 교정문서의 문장 간의 문장유사도를 계산할 수 있다. 컴퓨터는 기준문서에 포함된 모든 문장의 문장유사도를 평균하여 기준문서의 표절률을 산출할 수 있다. 예를 들어, 서버가 2개의 문장을 포함하는 기준문서의 표절률을 산출할 때, 각 문장의 문장유사도가 80%와 20%로 계산되면 기준문서의 표절률은 평균계산에 의해 50%로 산출할 수 있다. 상술한 예시는 설명의 편의를 위해 문장데이터의 수를 두 개로 예시하였으나, 이에 한정되는 것은 아니며, 복수의 문장데이터로부터 평균 문장유사도를 산출하여 이를 표절률로 결정할 수 있다.

또한, 표절률을 산출하는 방법으로, 복수의 문장유사도의 평균이 아닌 기준문서의 전체 어절대비 표절 어절의 비율로 표절률을 산출할 수 있다. 즉, 기준문서에 포함된 전체 어절데이터의 개수를 카운팅하고, 표절 부분으로 판단된 표절 어절데이터의 전체 개수를 카운팅할 수 있다. 그 후, 컴퓨터는 검사대상에 포함된 전체 어절데이터의 개수와 표절 어절데이터의 개수의 비율을 이용하여 검사대상 전자문서의 종합적인 표절률을 산출할 수 있다.

또한, 띄어쓰기 교정을 수행하기 전에, 상기 기준문서를 상기 교정문서와 비교 분석하여, 상기 기준문서의 표절의심영역을 추출하는 단계;를 더 포함할 수 있다. 컴퓨터는 띄어쓰기 교정을 수행하기 전에 먼저 표절의심영역을 추출할 수 있다. 표절의심영역은 기준문서 내에서 비교대상이 되는 교정문서의 특정영역(즉, 표절대상영역)을 표절한 것으로 의심되는 영역을 의미할 수 있다. 즉, 컴퓨터가 교정문서 전체를 띄어쓰기 교정하려면 매우 시간이 오래 걸리게 되므로, 표절한 것으로 의심되는 영역만 추출하여 그 부분만 띄어쓰기 교정하여 정확한 표절률을 산출할 수 있다. 따라서, 상기 제1성분 생성단계(S100) 및 상기 제2성분 생성단계(S200)에서, 기준문서 내 표절의심영역 및 표절의심영역에 대응되는 교정문서 내 표절대상영역에 대해서만 기준단위로 분할하여 제1성분 및 제2성분 생성하는 과정을 수행할 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 띄어쓰기 분석방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

표절검사 전에 기준문서의 띄어쓰기를 기준으로 교정문서를 띄어쓰기를 교정하는 과정으로서, 컴퓨터가 문서 내 띄어쓰기를 교정하는 방법에 있어서,
기준문서를 기준단위로 분할하여 복수의 제1성분을 생성하는 단계;
교정문서를 상기 기준단위로 분할하여 복수의 제2성분을 생성하는 단계;
특정한 상기 제2성분을 교정개시성분으로 설정하고, 상기 교정개시성분에 대응하는 상기 기준문서 내 복수의 제1성분 중에서 상기 교정개시성분과 일치하는 하나 이상의 특정한 제1성분을 탐색하여 매칭개시성분으로 결정하는 단계;
상기 교정문서 및 상기 기준문서에서, 상기 교정개시성분 및 상기 매칭개시성분으로부터 상기 제1성분 및 상기 제2성분을 순서대로 비교수행하여 교정영역 및 매칭영역의 조합을 하나 이상 추출하는 단계;
기준단위 길이가 최대인 특정한 교정영역 및 매칭영역의 조합을 선택하는 단계; 및
상기 매칭영역의 띄어쓰기를 기준으로 상기 교정영역의 띄어쓰기를 교정하는 단계;를 포함하며,
상기 교정영역은, 상기 교정개시성분 및 상기 매칭개시성분으로부터 상기 제1성분 및 상기 제2성분을 순서대로 비교수행 시, 연속적으로 상기 제1성분에 매칭이 되는 상기 제2성분의 조합이며,
상기 매칭영역은 상기 교정영역에 대응하는 상기 제1성분의 조합이며,
상기 기준단위는 각 언어별 글자단위인, 띄어쓰기 교정방법.
제1항에 있어서,
특정기준에 따라 복수의 상기 제1성분을 배열 또는 분류한 탐색테이블을 생성하는 단계;를 더 포함하며,
상기 매칭개시성분 결정단계는,
특정한 상기 교정개시성분에 대응하는 상기 제1성분을 상기 탐색테이블에서 탐색하는 것을 특징으로 하는, 띄어쓰기 교정방법.
제2항에 있어서,
상기 탐색테이블 생성단계는,
상기 제1성분에 차례대로 제1식별번호를 부여하는 단계;
동일한 상기 제1성분은 상기 탐색테이블 내 동일 그룹으로 분류하는 단계; 및
상기 그룹에 포함된 성분에 특정한 정렬기준을 적용하여, 하나 이상의 상기 그룹을 정렬하는 단계;를 포함하는, 띄어쓰기 교정방법.
제2항에 있어서,
상기 교정개시성분에 대응하는 복수의 상기 매칭개시성분이 결정되는 경우,
상기 특정한 교정영역 및 매칭영역의 조합 선택단계는,
각각의 상기 매칭개시성분에 대한 상기 매칭영역을 식별하는 단계;
각각의 상기 매칭영역에 대한 기준단위 길이를 산출하는 단계; 및
상기 기준단위 길이가 최대인 상기 매칭영역을 추출하고, 상기 추출된 매칭영역에 대응하는 상기 교정영역을 추출하는 단계;를 포함하되,
상기 기준단위 길이는,
상기 매칭개시성분 또는 상기 교정개시성분으로부터 연속되는 성분의 개수인, 띄어쓰기 교정방법.
제4항에 있어서,
상기 교정영역 및 매칭영역 추출단계는,
상기 추출된 매칭영역에 포함된 상기 제1성분을 상기 탐색테이블에서 제외하는 단계;를 더 포함하는, 띄어쓰기 교정방법.
제1항에 있어서,
상기 기준단위는,
공백영역을 상기 제1성분 및 상기 제2성분에 포함하는 것을 특징으로 하며,
상기 교정영역 및 매칭영역 추출단계는,
상기 제1성분과 상기 제2성분을 비교 수행 시, 상기 제1성분 또는 상기 제2성분이 상기 공백영역에 해당하는 경우,
상기 공백영역의 다음 순서에 해당하는 상기 제1성분 또는 상기 제2성분과 비교수행하는 것을 특징으로 하는, 띄어쓰기 교정방법.
제1항에 있어서,
상기 제1성분 생성단계는,
각각의 공백영역에 배치위치정보를 포함하는 제2식별번호를 부여하는 단계;를 포함하며,
상기 교정영역 및 매칭영역 추출단계는,
상기 공백영역을 제외한 상기 교정영역 및 매칭영역을 탐색하는 것을 특징으로 하며,
상기 띄어쓰기 교정단계는,
상기 제2식별번호를 반영하여 상기 교정영역의 띄어쓰기를 교정하는 것을 특징으로 하는, 띄어쓰기 교정방법.
제1항에 있어서,
상기 매칭개시성분 결정단계, 상기 교정영역 및 상기 매칭영역 추출단계, 및 상기 띄어쓰기 교정단계를 상기 교정문서의 특정영역에 대해서 반복 수행하는 것을 특징으로 하며,
상기 매칭개시성분 결정단계는,
상기 제2성분에 대응하는 상기 제1성분이 존재하지 않는 경우, 다음순번의 제2성분을 상기 교정개시성분으로 설정하며,
상기 제2성분에 대응하는 상기 제1성분이 존재하여 상기 교정영역이 추출된 경우, 상기 교정영역의 다음 순번에 대응하는 상기 제2성분을 상기 교정개시성분으로 설정하는 것을 특징으로 하는, 띄어쓰기 교정방법.
제1항에 있어서,
상기 기준문서를 상기 교정문서와 비교 분석하여, 상기 기준문서의 표절률을 산출하는 단계;를 더 포함하는, 띄어쓰기 교정방법.
제1항에 있어서,
상기 기준문서를 상기 교정문서와 비교 분석하여, 상기 기준문서의 표절의심영역을 추출하는 단계;를 더 포함하고,
상기 제1성분 생성단계 및 상기 제2성분 생성단계는,
상기 기준문서 내 상기 표절의심영역 및 상기 표절의심영역에 대응되는 상기 교정문서 내 표절대상영역에 대해 수행되는 것을 특징으로 하는, 띄어쓰기 교정방법.
하드웨어인 컴퓨터와 결합되어, 제1항 내지 제10항 중 어느 한 항의 방법을 실행시키기 위하여 매체에 저장된, 컴퓨터를 이용한 띄어쓰기 교정 프로그램.