KR102009901B1 - 문서 비교 분석 방법 및 이를 수행하기 위한 장치 - Google Patents

문서 비교 분석 방법 및 이를 수행하기 위한 장치 Download PDF

Info

Publication number
KR102009901B1
KR102009901B1 KR1020180130765A KR20180130765A KR102009901B1 KR 102009901 B1 KR102009901 B1 KR 102009901B1 KR 1020180130765 A KR1020180130765 A KR 1020180130765A KR 20180130765 A KR20180130765 A KR 20180130765A KR 102009901 B1 KR102009901 B1 KR 102009901B1
Authority
KR
South Korea
Prior art keywords
document
paragraph
input
standard
type
Prior art date
Application number
KR1020180130765A
Other languages
English (en)
Inventor
이광현
이세진
유민규
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020180130765A priority Critical patent/KR102009901B1/ko
Application granted granted Critical
Publication of KR102009901B1 publication Critical patent/KR102009901B1/ko

Links

Images

Classifications

    • G06F17/2705

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 비교 분석 방법 및 이를 수행하기 위한 장치가 개시된다. 개시되는 일 실시예에 따른 문서 비교 분석 방법은, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 입력 문서에서 본문을 추출하는 단계, 추출한 본문에 포함된 복수 개의 문단의 유형을 분류하는 단계, 입력 문서의 전문 및 복수 개의 문단의 유형 중 하나 이상을 기반으로 입력 문서의 유형을 분류하는 단계, 기 저장된 유형 별 표준 문서들 중에서 입력 문서의 유형과 대응되는 표준 문서를 추출하는 단계, 및 표준 문서를 기준으로 입력 문서와 표준 문서의 차이점을 분석하는 단계를 포함한다.

Description

문서 비교 분석 방법 및 이를 수행하기 위한 장치{METHOD FOR COMPARATIVE ANALYSIS OF DOCUMENT AND APPARATUS FOR EXECUTING THE METHOD}
본 발명의 실시예는 문서 비교 분석 기술과 관련된다.
계약서와 같이 새로운 문서가 작성되는 경우, 기존의 문서를 참고하여 수정하여 재 작성하는 경우가 대부분이다. 이러한 문서 작성 업무의 효율을 향상시키기 위해, 각 문서 양식마다 표준 문서를 설정하고 이를 활용하는 경우가 많다. 즉, 계약서가 새롭게 작성되는 경우, 계약과 관련한 표준 문서와 새로 작성되는 계약서를 비교하여 변경 사항을 검사하게 된다.
특히, 기업 간 계약에서는 다양한 요구 사항을 반영하기 위해 표준 문서에 여러 내용을 추가, 삭제, 변경하는 경우가 많은데, 표준 문서에서 변경된 이력을 사람이 직접 확인하는 경우 많은 시간이 소요되고 실수가 발생하기 쉬우므로, 문서 간 비교 툴을 이용하여 변경 내용을 확인하였다.
그러나, 기존의 문서 간 비교 툴은 단순히 문서 전체를 순차적으로 비교하여 동일성 여부를 판단하는 바, 동일성 판단 결과에 오류가 많고 작업 처리 속도가 떨어지는 문제점이 있다.
한국등록특허공보 제10-1744020호(2017.06.20)
개시되는 실시예들은 문서 비교의 정확도 및 속도를 향상시킬 수 있는 문서 비교 분석 방법 및 이를 수행하기 위한 장치를 제공하기 위한 것이다.
개시되는 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 입력 문서에서 본문을 추출하고, 상기 추출한 본문에 포함된 복수 개의 문단의 유형을 분류하는 문단 유형 분류 모듈; 상기 입력 문서의 전문 및 상기 복수 개의 문단의 유형 중 하나 이상을 기반으로 상기 입력 문서의 유형을 분류하고, 기 저장된 유형 별 표준 문서들 중에서 상기 입력 문서의 유형과 대응되는 표준 문서를 추출하는 문서 유형 분류 모듈; 및 상기 표준 문서를 기준으로 상기 입력 문서와 상기 표준 문서의 차이점을 분석하는 문서 비교 모듈을 포함한다.
상기 컴퓨팅 장치는, 상기 입력 문서를 전문, 본문, 및 말미로 구분하는 전처리 모듈을 더 포함하고, 상기 전처리 모듈은, 상기 입력 문서에서 번호를 기반으로 상기 본문을 구분할 수 있다.
상기 문단 유형 분류 모듈은, 상기 문단의 기 설정된 개수의 초기 문장을 기반으로 해당 문단의 유형을 분류할 수 있다.
상기 문서 유형 분류 모듈은, 상기 추출한 표준 문서에 매칭되는 문서 유형 값 및 상기 추출한 표준 문서에 포함된 문단들의 문단 유형 값을 추출할 수 있다.
상기 문서 비교 모듈은, 상기 입력 문서의 각 문단에 대해 해당 문단의 유형과 대응되는 문단 유형 값을 가지는 상기 표준 문서 내 문단을 추출하고, 상기 입력 문서의 해당 문단과 상기 추출한 표준 문서 내 문단을 비교할 수 있다.
상기 문서 비교 모듈은, 상기 입력 문단의 해당 문단을 문장 단위로 구분하고, 상기 입력 문서의 각 문장에서 키워드들을 추출하며, 상기 추출한 키워드 및 키워드의 출현 빈도를 기반으로 상기 표준 문서 내 문단에서 비교 대상 문장을 추출할 수 있다.
상기 문서 비교 모듈은, 상기 표준 문서 내 문단에서 상기 입력 문서의 해당 문장과 키워드 및 키워드의 출현 빈도가 동일한 문장이 2개 이상 있는 경우, 상기 입력 문서의 해당 문장과 상기 표준 문서의 2개 이상의 후보 문장들을 각각 비교하고, 상기 표준 문서의 2개 이상의 후보 문장들 중 상기 입력 문서의 해당 문장과 가장 유사한 후보 문장을 상기 비교 대상 문장으로 추출할 수 있다.
상기 컴퓨팅 장치는, 상기 입력 문서와 상기 표준 문서의 차이점에 따라 비교 결과 문서를 생성하는 결과 처리 모듈을 더 포함할 수 있다.
상기 결과 처리 모듈은, 상기 입력 문서에서 상기 표준 문서를 기준으로 순서가 변경된 문단을 검출하고, 상기 표준 문서의 비교 대상 문장을 기준으로 상기 순서가 변경된 문장의 내용이 변경되었는지 여부를 확인할 수 있다.
개시되는 일 실시예에 따른 문서 비교 분석 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 입력 문서에서 본문을 추출하는 단계; 상기 추출한 본문에 포함된 복수 개의 문단의 유형을 분류하는 단계; 상기 입력 문서의 전문 및 상기 복수 개의 문단의 유형 중 하나 이상을 기반으로 상기 입력 문서의 유형을 분류하는 단계; 기 저장된 유형 별 표준 문서들 중에서 상기 입력 문서의 유형과 대응되는 표준 문서를 추출하는 단계; 및 상기 표준 문서를 기준으로 상기 입력 문서와 상기 표준 문서의 차이점을 분석하는 단계를 포함한다.
상기 문서 비교 분석 방법은, 상기 본문을 추출하기 이전에, 상기 입력 문서를 전문, 본문, 및 말미로 구분하는 단계를 더 포함하고, 상기 구분하는 단계는, 상기 입력 문서에서 번호를 기반으로 상기 본문을 구분할 수 있다.
상기 문단의 유형을 분류하는 단계는, 상기 문단의 기 설정된 개수의 초기 문장을 기반으로 해당 문단의 유형을 분류할 수 있다.
상기 표준 문서를 추출하는 단계는, 상기 추출한 표준 문서에 매칭되는 문서 유형 값 및 상기 추출한 표준 문서에 포함된 문단들의 문단 유형 값을 추출하는 단계를 포함할 수 있다.
상기 차이점을 분석하는 단계는, 상기 입력 문서의 각 문단에 대해 해당 문단의 유형과 대응되는 문단 유형 값을 가지는 상기 표준 문서 내 문단을 추출하는 단계; 및 상기 입력 문서의 해당 문단과 상기 추출한 표준 문서 내 문단을 비교하는 단계를 포함할 수 있다.
상기 차이점을 분석하는 단계는, 상기 입력 문단의 해당 문단을 문장 단위로 구분하고, 상기 입력 문서의 각 문장에서 키워드들을 추출하는 단계; 및 상기 추출한 키워드 및 키워드의 출현 빈도를 기반으로 상기 표준 문서 내 문단에서 비교 대상 문장을 추출하는 단계를 더 포함할 수 있다.
상기 비교 대상 문장을 추출하는 단계는, 상기 표준 문서 내 문단에서 상기 입력 문서의 해당 문장과 키워드 및 키워드의 출현 빈도가 동일한 문장이 2개 이상 있는 경우, 상기 입력 문서의 해당 문장과 상기 표준 문서의 2개 이상의 후보 문장들을 각각 비교하는 단계; 및 상기 표준 문서의 2개 이상의 후보 문장들 중 상기 입력 문서의 해당 문장과 가장 유사한 후보 문장을 상기 비교 대상 문장으로 추출하는 단계를 포함할 수 있다.
상기 문서 비교 분석 방법은, 상기 차이점을 분석하는 단계 이후에, 상기 입력 문서와 상기 표준 문서의 차이점에 따라 비교 결과 문서를 생성하는 단계를 더 포함할 수 있다.
상기 문서 비교 분석 방법은, 상기 차이점을 분석하는 단계 이후에, 상기 입력 문서에서 상기 표준 문서를 기준으로 순서가 변경된 문단을 검출하는 단계; 및 상기 표준 문서의 비교 대상 문장을 기준으로 상기 순서가 변경된 문장의 내용이 변경되었는지 여부를 확인하는 단계를 더 포함할 수 있다.
개시되는 실시예에 의하면, 입력 문서에 포함된 문단들의 유형을 분류하고, 입력 문서의 유형과 대응되는 표준 문서 내의 문단 유형 값을 이용하여 입력 문서의 소정 문단과 대응되는 표준 문서 내 문단을 추출함으로써, 입력 문서와 표준 문서 비교 시 문단 단위로 순차적으로 비교할 수 있으며, 표준 문서를 기준으로 입력 문서 내에서 문단의 변경된 위치가 있더라도 대응하는 문단 간에 내용이 동일한지 여부를 용이하게 파악할 수 있게 된다.
또한, 입력 문서의 문장과 표준 문서의 문장을 직접 비교하지 않고 문장 내 키워드 및 키워드의 출현 빈도를 통해 표준 문서 내 비교 대상 문장을 추출함으로써, 비교 작업에 소요되는 자원 및 시간을 줄일 수 있게 된다. 그리고, 이를 통해 표준 문서를 기준으로 입력 문서 내 해당 문단에서 문장의 위치가 변경된 부분이 있다고 하더라도, 위치가 변경된 문장의 내용이 표준 문서의 비교 대상 문장을 기준으로 내용이 변경되었는지 여부를 용이하게 확인할 수 있게 된다. 이때, 내용이 변경된 부분을 사용자가 확인 가능하도록 출력함으로써, 입력 문서에서 사용자가 확인해야 하는 부분을 줄여 줄 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 문서 비교 분석 장치의 구성을 나타낸 블록도
도 2는 본 발명의 일 실시예에서 각 문단의 초기 2개의 문장을 기반으로 해당 문단의 유형을 분류하는 상태를 나타낸 도면
도 3은 본 발명의 일 실시예에서 입력 문서에 포함된 각 문단의 유형 및 입력 문서의 전문을 기반으로 입력 문서의 유형을 분류하는 상태를 나타낸 도면
도 4는 본 발명의 실시예에서 입력 문서의 문단 유형과 대응되는 표준 문서의 문단을 추출하는 상태를 나타낸 도면
도 5는 본 발명의 일 실시예에 따른 문서 비교 분석 방법을 나타낸 흐름도
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 문서 비교 분석 장치의 구성을 나타낸 블록도이다.
도 1을 참조하면, 문서 비교 분석 장치(100)는 전처리 모듈(102), 문단 유형 분류 모듈(104), 문서 유형 분류 모듈(106), 문서 비교 모듈(108), 및 결과 처리 모듈(110)을 포함할 수 있다.
전처리 모듈(102)은 입력되는 문서(즉, 입력 문서)를 전문, 본문, 말미로 구분할 수 있다. 여기서, 입력 문서는 검토 대상이 되는 문서로서, 문서 비교 분석 장치(100)를 통해 표준 문서와 비교하기 위한 문서이다. 입력 문서는 문서 비교 분석 장치(100)에 구비된 사용자 인터페이스(미도시)를 통해 입력될 수 있다. 이하에서는, 설명의 편의상 입력 문서의 일 실시예가 계약서인 것으로 설명하나, 본 발명의 적용 범위가 이에 한정되는 것은 아니다.
예시적인 실시예에서, 전처리 모듈(102)은 입력 문서에서 번호(예를 들어, 조항 번호(제1조, 제2조, ... 등) 또는 문단 번호(1. 2. ... 등))를 기반으로 입력 문서의 본문을 구분할 수 있다. 예를 들어, 전처리 모듈(102)은 입력 문서에서 조항 번호 또는 문단 번호가 맨 앞 부분에 나오는 단락들을 입력 문서의 본문을 구성하는 단락으로 구분할 수 있다.
전처리 모듈(102)은 입력 문서에서 본문의 앞 부분은 전문으로 구분하고, 본문의 뒷 부분은 말미로 구분할 수 있다. 이와 같이, 입력 문서의 본문을 구분하게 되면, 입력 문서의 전문 및 말미도 용이하게 구분할 수 있게 된다.
문단 유형 분류 모듈(104)은 입력 문서에 포함된 각 문단의 유형을 분류할 수 있다. 구체적으로, 문단 유형 분류 모듈(104)은 입력 문서에서 본문을 추출할 수 있다. 문단 유형 분류 모듈(104)은 입력 문서의 본문에서 각 문단을 분리하고, 각 문단의 유형을 분류할 수 있다. 예시적인 실시예에서, 문단 유형 분류 모듈(104)은 각 문단의 기 설정된 개수의 초기 문장을 기반으로 해당 문단의 유형을 분류할 수 있다. 예를 들어, 문단 유형 분류 모듈(104)은 각 문단의 초기 2개의 문장을 기반으로 해당 문단의 유형을 분류할 수 있다.
도 2는 본 발명의 일 실시예에서 각 문단의 초기 2개의 문장을 기반으로 해당 문단의 유형을 분류하는 상태를 나타낸 도면이다. 도 2를 참조하면, 입력 문서는 계약서이고, 계약서의 제1조는 " 이 계약의 목적은 공익이다. 공공의 이익을 추구한다. 추가로..."의 내용을 포함하고 있으며, 계약서의 제2조는 "책임이 발생할 경우에 대한 배상은 다음과 같다. 먼저..."의 내용을 포함하는 경우를 가정한다.
문단 유형 분류 모듈(104)은 제1조에 대응하는 문단에서 초기 2개의 문장(즉, 이 계약의 목적은 공익이다. 공공의 이익을 추구한다.)을 입력 값으로 하여 해당 문단의 유형이 "목적"인 것으로 분류할 수 있다. 또한, 문단 유형 분류 모듈(104)은 제2조에 대응하는 문단에서 초기 2개의 문장(즉, 책임이 발생할 경우에 대한 배상은 다음과 같다. 먼저...)을 입력 값으로 하여 해당 문단의 유형이 "배상 책임"인 것으로 분류할 수 있다.
문단 유형 분류 모듈(104)은 기계 학습 방법에 의해 각 문단의 유형을 분류할 수 있다. 즉, 개시되는 실시예에서, 다양한 유형의 문서들의 각 문단의 유형들이 각각 분류되어 저장될 수 있다. 각 문단들은 주제 또는 제목 등에 의해 소정의 유형으로 각각 분류될 수 있다. 여기서, 문단 유형 분류 모듈(104)은 입력 문서의 각 문단의 초기 2개의 문장을 기계 학습의 함수 입력 값으로 하여 해당 문단의 유형을 분류할 수 있다.
문서 유형 분류 모듈(106)은 입력 문서에 포함된 복수 개의 문단의 유형 및 입력 문서의 전문 중 하나 이상을 기반으로 입력 문서의 유형을 분류할 수 있다. 즉, 문서 유형 분류 모듈(106)은 입력 문서가 어떤 유형의 문서인지를 분류할 수 있다.
문서 유형 분류 모듈(106)은 기계 학습 방법에 의해 입력 문서의 유형을 분류할 수 있다. 즉, 개시되는 실시예에서, 다양한 유형의 문서들이 유형별로 분류되어 저장될 수 있다. 각 문서들은 제목 또는 문서 내용 등에 의해 소정의 유형으로 각각 분류될 수 있다. 여기서, 문서 유형 분류 모듈(106)은 입력 문서에 포함된 복수 개의 문단의 유형 및 입력 문서의 전문을 기계 학습의 함수 입력 값으로 하여 해당 입력 문서의 유형을 분류할 수 있다.
도 3은 본 발명의 일 실시예에서 입력 문서에 포함된 각 문단의 유형 및 입력 문서의 전문을 기반으로 입력 문서의 유형을 분류하는 상태를 나타낸 도면이다. 도 3을 참조하면, 문서 유형 분류 모듈(106)은 입력 문서의 전문에 해당하는 내용(즉, " 이 문서는 ... 값은 A, 을은 B...") 및 입력 문서의 각 문단의 유형(즉, "목적", "배상 책임")을 기계 학습의 함수 입력 값으로 하여 해당 입력 문서의 유형을 분류할 수 있다.
그러나, 이에 한정되는 것은 아니며 문서 유형 분류 모듈(106)은 입력 문서에 포함된 기 설정된 개수 이상의 문단의 유형을 기반으로 해당 입력 문서의 유형을 분류할 수도 있다. 또한, 문서 유형 분류 모듈(106)은 입력 문서의 전문을 기반으로 해당 입력 문서의 유형을 분류할 수도 있다.
문서 유형 분류 모듈(106)은 입력 문서의 유형과 대응하는 표준 문서를 추출할 수 있다. 즉, 문서 유형 분류 모듈(106)은 기 저장된 유형 별 표준 문서들 중에서 입력 문서의 유형과 대응하는 표준 문서를 추출할 수 있다. 각 표준 문서들은 문서 유형 값과 각 표준 문서에 포함된 문단들의 문단 유형 값이 상호 매칭되어 기 저장될 수 있다.
문서 비교 모듈(108)은 입력 문서 및 상기 추출된 표준 문서를 비교할 수 있다. 문서 비교 모듈(108)은 표준 문서를 기준으로 입력 문서의 차이점(예를 들어, 추가, 삭제, 변경 등)을 분석할 수 있다. 문서 비교 모듈(108)은 입력 문서와 표준 문서의 문단 간 비교 작업을 수행할 수 있다. 문서 비교 모듈(108)은 입력 문서의 각 문단에 대해 순차적으로 표준 문서의 대응되는 문단과 비교할 수 있다. 문서 비교 모듈(108)은 입력 문서의 해당 문단의 유형과 대응되는 표준 문서의 문단을 추출하여 비교 작업을 수행할 수 있다. 즉, 문서 비교 모듈(108)은 비교 작업을 수행하려고 하는 입력 문서의 문단의 유형과 대응되는 문단 유형 값을 가지는 표준 문서 내 문단을 추출하여 비교 작업을 수행할 수 있다.
도 4는 본 발명의 실시예에서 입력 문서의 문단 유형과 대응되는 표준 문서의 문단을 추출하는 상태를 나타낸 도면이다. 도 4를 참조하면, 입력 문서에서 제1조에 해당하는 문단의 유형은 "목적"이고, 제2 조에 해당하는 문단의 유형은 "배상 책임"인 것을 확인할 수 있다. 그리고, 입력 문서의 유형과 대응되는 표준 문서에서 제1조에 해당하는 문단의 유형이 "목적"이고, 제2조에 해당하는 문단의 유형이 "재산권"이며, 제3조에 해당하는 문단의 유형이 "배상 책임"인 경우, 문서 비교 모듈(108)은 입력 문서의 제1조에 해당하는 문단과 문단 유형이 동일한 표준 문서의 제1조에 해당하는 문단을 비교할 수 있다. 또한, 문서 비교 모듈(108)은 입력 문서의 제2조에 해당하는 문단과 문단 유형이 동일한 표준 문서의 제3조에 해당하는 문단을 비교할 수 있다.
즉, 문서 비교 모듈(108)은 입력 문서의 문단과 표준 문서의 문단의 위치가 서로 다르더라도 동일 또는 유사한 문단 유형을 가지는 문단끼리 비교 작업을 수행할 수 있다.
또한, 문서 비교 모듈(108)은 입력 문서와 표준 문서의 문단 간 비교 시 문장 단위로 비교할 수 있다. 이를 위해, 문서 비교 모듈(108)은 입력 문서의 해당 문단을 문장 단위로 분리하고, 입력 문서의 각 문장에서 키워드들을 추출할 수 있다. 예를 들어, 문서 비교 모듈(108)은 입력 문서의 각 문장에서 명사 및 동사를 각각 추출하고, 추출한 단어들의 형태소 분석 등을 통해 키워드를 추출할 수 있다. 이때, 문서 비교 모듈(108)은 입력 문서의 각 문장에서 고유 명사를 제외한 명사를 추출할 수 있다. 표준 문서의 경우, 각 문단 별로 문장 단위로 분리되고, 각 문장의 키워드들이 사전 작업을 통해 미리 추출되어 저장될 수 있다.
문서 비교 모듈(108)은 각 문장 내 키워드 및 키워드의 출현 빈도를 기반으로 입력 문서의 해당 문장과 대응되는 표준 문서의 문장을 추출할 수 있다. 이와 같이, 입력 문서의 문장과 표준 문서의 문장을 직접 비교하지 않고 문장 내 키워드 및 키워드의 출현 빈도를 통해 표준 문서 내 비교 대상 문장을 추출함으로써, 비교 작업에 소요되는 자원 및 시간을 줄일 수 있게 된다.
만약, 표준 문서에서 입력 문서의 해당 문장과 키워드 및 키워드의 출현 빈도가 동일한 문장이 2개 이상 있는 경우, 문서 비교 모듈(108)은 입력 문서의 해당 문장과 표준 문서의 2개 이상의 후보 문장들을 각각 비교하고, 표준 문서의 2개 이상의 후보 문장들 중 입력 문서의 해당 문장과 가장 유사한 후보 문장을 비교 대상 문장으로 추출할 수 있다.
이러한 작업을 통해, 문서 비교 모듈(108)은 입력 문서에서 표준 문서를 기준으로 문장의 위치가 변경된 경우에도 그에 대응하는 비교 대상 문장을 추출할 수 있으며, 그에 따라 입력 문서의 해당 문장과 표준 문서의 비교 대상 문장을 상호 비교할 수 있게 된다. 이하, 표 1 내지 표 을 참조하여 입력 문서의 소정 문장과 대응되는 표준 문서의 문장(비교 대상 문장)을 추출하는 과정을 살펴보기로 한다.
표 1은 입력 문서의 각 문단의 유형과 문단 내용을 나타낸 표이고, 표 2는 입력 문서의 유형과 대응되는 표준 문서의 각 문단의 유형과 문단 내용을 나타낸 표이다.
문단 유형 문단 내용
문단 1 목적 (1) 갑이 요청한 용역을 을이 갑에게...
문단 2 기간 (1) 용역 수행 일정은 다음과 같이 정의...
문단 3 대금 지급 (1) 대금 지불 시기와 방법... (2) 갑은 검수...
문단 4 인력 투입 (1) 계약의 기간 동안... (2) 용역을 실행...
문단 유형 문단 내용
문단 1 목적 (1) 갑이 요청한 용역을 을이 갑에게...
문단 2 기간 (1) 용역 수행 기간은 다음과 같이 정의...
문단 3 대금 지급 (1) 대금 지급 시기와 방법... (2) 갑은 본 계약...
문단 4 인력 투입 (1) 계약의 기간 동안... (2) 용역을 수행...
문서 비교 모듈(108)은 입력 문서의 각 문단을 문장 단위로 구분할 수 있다. 표 3은 표 1에서 문단 3을 문장 단위로 구분한 상태를 나타낸 표이다.
문장 내용
문장 1 대금 지불 시기와 방법은 다음과 같다.
문장 2 갑은 검수 확인 후 30일 이내에 금액의...
문장 3 갑은 본 계약 체결 후 30일 이내에 금액...
문서 비교 모듈(108)은 입력 문서의 각 문장에서 명사 및 동사를 각각 추출하고, 추출한 단어들의 형태소 분석 등을 통해 키워드를 추출할 수 있다. 표 4는 입력 문서의 문단 3의 각 문장에서 키워드들을 추출한 상태를 나타낸 표이다.
키워드
문장 1 대금, 지불, 시기, 방법, 다음
문장 2 검수, 확인, 30일, 금액...
문장 3 계약, 체결, 30일, 금액, 계약...
문서 비교 모듈(108)은 동의어 처리를 통해 각 문장 내 키워드들을 최종 확정할 수 있다. 예를 들어, 문장 내 "지불"은 "지급"과 동일어 처리를 할 수 있다. 문서 비교 모듈(108)은 기 저장된 동의어 사전을 기반으로 동일어 처리를 수행할 수 있다.
문서 비교 모듈(108)은 입력 문서의 해당 문단에서 각 문장들의 키워드 및 키워드의 출현 빈도를 표준 문서의 해당 문단과 비교할 수 있다. 표 5는 입력 문서의 문단 3에서 각 문장들의 키워드 및 키워드의 출현 빈도를 나타낸 표이고, 표 6은 표준 문서의 입력 문서의 문단 3과 대응되는 문단(대금 지급)에서 각 문장들의 키워드 및 키워드의 출현 빈도를 나타낸 표이다.
문장 대금 지급 시기 방법 계약 고객 체결
1 1 1 1 1 0 0 0
2 0 1 0 0 1 2 0
3 0 1 0 0 2 1 1
문장 대금 지급 시기 방법 계약 고객 체결
1 1 1 1 1 0 0 0
2 0 1 0 0 2 1 1
3 0 1 0 0 1 2 0
표 5 및 표 6을 참조하면, 입력 문서의 문장 1은 표준 문서의 문장 1과 대응되고, 입력 문서의 문장 2는 표준 문서의 문장 3과 대응되며, 입력 문서의 문장 3은 표준 문서의 문장 2와 대응되는 것을 알 수 있다. 즉, 입력 문서의 해당 문단의 경우, 표준 문서와 비교하여 문장 3과 문장 2의 순서가 바뀌어 있는 것을 확인할 수 있다.
문서 비교 모듈(108)은 입력 문서와 표준 문서 간의 차이가 기 설정된 임계치를 초과하는지 여부를 확인할 수 있다. 예시적인 실시예에서, 입력 문서와 표준 문서 간의 차이가 기 설정된 임계치(예를 들어, 5%)를 초과하는 경우(즉, 입력 문서와 표준 문서 간 유사도가 95% 미만인 경우), 문서 비교 모듈(108)은 입력 문서가 표준 문서를 준수하고 있지 않은 것으로 판단할 수 있다.
문서 비교 모듈(108)은 입력 문서 및 표준 문서 간 비교 시 기 설정된 중요 단어의 차이에 가중치를 부여할 수 있다. 즉, 입력 문서 및 표준 문서 간 비교 시 기 설정된 중요 단어에 차이가 있는 경우에는 일반적인 단어의 차이 보다 그 차이 정도를 높게 설정할 수 있다.
결과 처리 모듈(110)은 입력 문서와 표준 문서 간 비교 결과에 따라 비교 결과 문서를 생성할 수 있다. 예시적인 실시예에서, 결과 처리 모듈(110)은 입력 문서에서 표준 문서와 차이가 있는 부분에 대해 표준 문서의 내용을 반영하여 비교 결과 문서를 생성할 수 있다. 예를 들어, 입력 문서가 계약서이고, 제13조의 내용이 "...손해를 확인하여야 한다."이며, 그와 대응되는 표준 문서의 내용은 "...손해를 배상하여야 한다."인 경우, 결과 처리 모듈(110)은 제13조에서 "...손해를 배상(확인)하여야 한다."는 내용의 비교 결과 문서를 생성할 수 있다. 이때, 결과 처리 모듈(110)은 표준 문서와 비교하여 차이가 나는 부분이 시각적으로 확인되도록 굵은 글씨 또는 색상 처리 등을 할 수 있다.
또한, 결과 처리 모듈(110)은 입력 문서와 표준 문서의 유사 정도(또는 차이 정도)를 사용자가 확인할 수 있도록 출력할 수 있다. 결과 처리 모듈(110)은 입력 문서의 소정 문단에서 표준 문서를 기준으로 순서가 변경된 문장을 검출할 수 있다. 결과 처리 모듈(110)은 순서가 변경된 문장이 검출된 경우, 순서가 변경된 문장의 내용이 서로 동일한지 여부를 확인할 수 있다. 결과 처리 모듈(110)은 순서가 변경된 문장의 내용이 동일하면 검토가 불필요한 것으로 처리하고, 순서가 변경된 문장의 내용이 동일하지 않으면 해당 문장에 대해 사용자의 검토가 필요한 것으로 처리할 수 있다. 예를 들어, 결과 처리 모듈(110)은 순서가 변경된 문장에서 내용이 동일하지 않은 부분을 사용자가 확인 가능하도록 출력할 수 있다.
개시되는 실시예에 의하면, 입력 문서에 포함된 문단들의 유형을 분류하고, 입력 문서의 유형과 대응되는 표준 문서 내의 문단 유형 값을 이용하여 입력 문서의 소정 문단과 대응되는 표준 문서 내 문단을 추출함으로써, 입력 문서와 표준 문서 비교 시 문단 단위로 순차적으로 비교할 수 있으며, 표준 문서를 기준으로 입력 문서 내에서 문단의 변경된 위치가 있더라도 대응하는 문단 간에 내용이 동일한지 여부를 용이하게 파악할 수 있게 된다.
또한, 입력 문서의 문장과 표준 문서의 문장을 직접 비교하지 않고 문장 내 키워드 및 키워드의 출현 빈도를 통해 표준 문서 내 비교 대상 문장을 추출함으로써, 비교 작업에 소요되는 자원 및 시간을 줄일 수 있게 된다. 그리고, 이를 통해 표준 문서를 기준으로 입력 문서 내 해당 문단에서 문장의 위치가 변경된 부분이 있다고 하더라도, 위치가 변경된 문장의 내용이 표준 문서의 비교 대상 문장을 기준으로 내용이 변경되었는지 여부를 용이하게 확인할 수 있게 된다.
이때, 내용이 변경된 부분을 사용자가 확인 가능하도록 출력함으로써, 입력 문서에서 사용자가 확인해야 하는 부분을 줄여 줄 수 있게 된다. 즉, 사용자가 입력 문서 전체를 확인할 필요가 없으며, 표준 문서를 기준으로 표준 문서의 문장과 차이 나는 부분만을 확인함으로써, 사용자가 확인해야 하는 부분이 줄어들게 된다.
본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예건대, 상기 "모듈"은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아니다.
도 5는 본 발명의 일 실시예에 따른 문서 비교 분석 방법을 나타낸 흐름도이다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 5를 참조하면, 문서 비교 분석 장치(100)는 입력 문서를 전문, 본문, 및 말미로 구분한다(S 101). 문서 비교 분석 장치(100)는 입력 문서에서 조항 번호 또는 문단 번호 등을 기반으로 입력 문서의 본문을 구분할 수 있다. 문서 비교 분석 장치(100)는 입력 문서에서 본문의 앞 부분을 전문으로 구분하고, 본문의 뒷 부분을 말미로 구분할 수 있다.
다음으로, 문서 비교 분석 장치(100)는 입력 문서의 본문에서 각 문단을 분리하고, 각 문단의 유형을 분류한다(S 103). 예시적인 실시예에서, 문서 비교 분석 장치(100)는 각 문단의 기 설정된 개수의 초기 문장을 기반으로 해당 문단의 유형을 분류할 수 있다. 문서 비교 분석 장치(100)는 각 문단의 유형 분류를 위해 기계 학습 방법을 사용할 수 있다.
다음으로, 문서 비교 분석 장치(100)는 입력 문서에 포함된 각 문단의 유형 및 입력 문서의 전문을 기반으로 입력 문서의 유형을 분류한다(S 105). 문서 비교 분석 장치(100)는 입력 문서의 유형 분류를 위해 기계 학습 방법을 사용할 수 있다.
다음으로, 문서 비교 분석 장치(100)는 기 저장된 유형 별 표준 문서들 중에서 입력 문서의 유형과 대응되는 표준 문서를 추출한다(S 107). 문서 비교 분석 장치(100)는 추출된 표준 문서에 매칭되는 문서 유형 값 및 해당 표준 문서에 포함된 문단들의 문단 유형 값을 함께 추출할 수 있다.
다음으로, 문서 비교 분석 장치(100)는 입력 문서의 각 문단에 대응하는 표준 문서의 문단을 추출한다(S 109). 문서 비교 분석 장치(100)는 입력 문서의 해당 문단의 유형과 대응되는 문단 유형 값을 가지는 표준 문서 내 문단을 추출할 수 있다.
다음으로, 문서 비교 분석 장치(100)는 입력 문서의 해당 문단을 문장 단위로 분리하고, 각 문장에서 키워드들을 추출한다(S 111). 문서 비교 분석 장치(100)는 입력 문서의 각 문장에서 명사 및 동사를 각각 추출하고, 추출한 단어들의 형태소 분석 등을 통해 키워드를 추출할 수 있다. 문서 비교 분석 장치(100)는 동의어 처리를 통해 각 문장 내 키워드들을 최종 확정할 수 있다.
다음으로, 문서 비교 분석 장치(100)는 입력 문서의 문장 내 키워드 및 키워드의 출현 빈도를 기반으로 입력 문서의 해당 문장과 대응되는 표준 문서의 문장(즉, 비교 대상 문장)을 추출한다(S 113). 표준 문서에서 입력 문서의 해당 문장과 키워드 및 키워드의 출현 빈도가 동일한 문장이 2개 이상 있는 경우, 문서 비교 분석 장치(100)는 입력 문서의 해당 문장과 표준 문서의 2개 이상의 후보 문장들을 각각 비교하고, 표준 문서의 2개 이상의 후보 문장들 중 입력 문서의 해당 문장과 가장 유사한 후보 문장을 비교 대상 문장으로 추출할 수 있다.
다음으로, 문서 비교 분석 장치(100)는 입력 문서의 각 문장 및 그에 대응하는 표준 문서의 각 문장을 비교하고(S 115), 입력 문서와 표준 문서 간 비교 결과에 따라 비교 결과 문서를 생성한다(S 117).
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 문서 비교 분석을 위한 장치(예를 들어, 문서 비교 분석 장치(100))일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 문서 비교 분석 장치
102 : 전처리 모듈
104 : 문단 유형 분류 모듈
106 : 문서 유형 분류 모듈
108 : 문서 비교 모듈
110 : 결과 처리 모듈

Claims (18)

  1. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서,
    입력 문서에서 본문을 추출하고, 상기 추출한 본문에 포함된 복수 개의 문단의 유형을 분류하는 문단 유형 분류 모듈;
    상기 입력 문서의 전문 및 상기 복수 개의 문단의 유형 중 하나 이상을 기계 학습의 입력값으로 하여 상기 입력 문서의 유형을 분류하고, 기 저장된 유형 별 표준 문서들 중에서 상기 입력 문서의 유형과 대응되는 표준 문서를 추출하는 문서 유형 분류 모듈; 및
    상기 표준 문서를 기준으로 상기 입력 문서와 상기 표준 문서의 차이점을 분석하는 문서 비교 모듈을 포함하는, 컴퓨팅 장치.
  2. 청구항 1에 있어서,
    상기 컴퓨팅 장치는,
    상기 입력 문서를 전문, 본문, 및 말미로 구분하는 전처리 모듈을 더 포함하고,
    상기 전처리 모듈은, 상기 입력 문서에서 번호를 기반으로 상기 본문을 구분하는, 컴퓨팅 장치.
  3. 청구항 1에 있어서,
    상기 문단 유형 분류 모듈은,
    상기 문단의 기 설정된 개수의 초기 문장을 기반으로 해당 문단의 유형을 분류하는, 컴퓨팅 장치.
  4. 청구항 1에 있어서,
    상기 문서 유형 분류 모듈은,
    상기 추출한 표준 문서에 매칭되는 문서 유형 값 및 상기 추출한 표준 문서에 포함된 문단들의 문단 유형 값을 추출하는, 컴퓨팅 장치.
  5. 청구항 4에 있어서,
    상기 문서 비교 모듈은,
    상기 입력 문서의 각 문단에 대해 해당 문단의 유형과 대응되는 문단 유형 값을 가지는 상기 표준 문서 내 문단을 추출하고, 상기 입력 문서의 해당 문단과 상기 추출한 표준 문서 내 문단을 비교하는, 컴퓨팅 장치.
  6. 청구항 5에 있어서,
    상기 문서 비교 모듈은,
    상기 입력 문서의 해당 문단을 문장 단위로 구분하고, 상기 입력 문서의 각 문장에서 키워드들을 추출하며, 상기 추출한 키워드 및 키워드의 출현 빈도를 기반으로 상기 표준 문서 내 문단에서 비교 대상 문장을 추출하는, 컴퓨팅 장치.
  7. 청구항 6에 있어서,
    상기 문서 비교 모듈은,
    상기 표준 문서 내 문단에서 상기 입력 문서의 해당 문장과 키워드 및 키워드의 출현 빈도가 동일한 문장이 2개 이상 있는 경우, 상기 입력 문서의 해당 문장과 상기 표준 문서의 2개 이상의 후보 문장들을 각각 비교하고, 상기 표준 문서의 2개 이상의 후보 문장들 중 상기 입력 문서의 해당 문장과 가장 유사한 후보 문장을 상기 비교 대상 문장으로 추출하는, 컴퓨팅 장치.
  8. 청구항 1에 있어서,
    상기 컴퓨팅 장치는,
    상기 입력 문서와 상기 표준 문서의 차이점에 따라 비교 결과 문서를 생성하는 결과 처리 모듈을 더 포함하는, 컴퓨팅 장치.
  9. 청구항 8에 있어서,
    상기 결과 처리 모듈은,
    상기 입력 문서에서 상기 표준 문서를 기준으로 순서가 변경된 문단을 검출하고, 상기 표준 문서의 비교 대상 문장을 기준으로 상기 순서가 변경된 문장의 내용이 변경되었는지 여부를 확인하는, 컴퓨팅 장치.
  10. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    입력 문서에서 본문을 추출하는 단계;
    상기 추출한 본문에 포함된 복수 개의 문단의 유형을 분류하는 단계;
    상기 입력 문서의 전문 및 상기 복수 개의 문단의 유형 중 하나 이상을 기계 학습의 입력값으로 하여 상기 입력 문서의 유형을 분류하는 단계;
    기 저장된 유형 별 표준 문서들 중에서 상기 입력 문서의 유형과 대응되는 표준 문서를 추출하는 단계; 및
    상기 표준 문서를 기준으로 상기 입력 문서와 상기 표준 문서의 차이점을 분석하는 단계를 포함하는, 문서 비교 분석 방법.
  11. 청구항 10에 있어서,
    상기 문서 비교 분석 방법은,
    상기 본문을 추출하기 이전에,
    상기 입력 문서를 전문, 본문, 및 말미로 구분하는 단계를 더 포함하고,
    상기 구분하는 단계는, 상기 입력 문서에서 번호를 기반으로 상기 본문을 구분하는, 문서 비교 분석 방법.
  12. 청구항 10에 있어서,
    상기 문단의 유형을 분류하는 단계는,
    상기 문단의 기 설정된 개수의 초기 문장을 기반으로 해당 문단의 유형을 분류하는, 문서 비교 분석 방법.
  13. 청구항 10에 있어서,
    상기 표준 문서를 추출하는 단계는,
    상기 추출한 표준 문서에 매칭되는 문서 유형 값 및 상기 추출한 표준 문서에 포함된 문단들의 문단 유형 값을 추출하는 단계를 포함하는, 문서 비교 분석 방법.
  14. 청구항 13에 있어서,
    상기 차이점을 분석하는 단계는,
    상기 입력 문서의 각 문단에 대해 해당 문단의 유형과 대응되는 문단 유형 값을 가지는 상기 표준 문서 내 문단을 추출하는 단계; 및
    상기 입력 문서의 해당 문단과 상기 추출한 표준 문서 내 문단을 비교하는 단계를 포함하는, 문서 비교 분석 방법.
  15. 청구항 14에 있어서,
    상기 차이점을 분석하는 단계는,
    상기 입력 문서의 해당 문단을 문장 단위로 구분하고, 상기 입력 문서의 각 문장에서 키워드들을 추출하는 단계; 및
    상기 추출한 키워드 및 키워드의 출현 빈도를 기반으로 상기 표준 문서 내 문단에서 비교 대상 문장을 추출하는 단계를 더 포함하는, 문서 비교 분석 방법.
  16. 청구항 15에 있어서,
    상기 비교 대상 문장을 추출하는 단계는,
    상기 표준 문서 내 문단에서 상기 입력 문서의 해당 문장과 키워드 및 키워드의 출현 빈도가 동일한 문장이 2개 이상 있는 경우, 상기 입력 문서의 해당 문장과 상기 표준 문서의 2개 이상의 후보 문장들을 각각 비교하는 단계; 및
    상기 표준 문서의 2개 이상의 후보 문장들 중 상기 입력 문서의 해당 문장과 가장 유사한 후보 문장을 상기 비교 대상 문장으로 추출하는 단계를 포함하는, 문서 비교 분석 방법.
  17. 청구항 10에 있어서,
    상기 문서 비교 분석 방법은,
    상기 차이점을 분석하는 단계 이후에,
    상기 입력 문서와 상기 표준 문서의 차이점에 따라 비교 결과 문서를 생성하는 단계를 더 포함하는, 문서 비교 분석 방법.
  18. 청구항 17에 있어서,
    상기 문서 비교 분석 방법은,
    상기 차이점을 분석하는 단계 이후에,
    상기 입력 문서에서 상기 표준 문서를 기준으로 순서가 변경된 문단을 검출하는 단계; 및
    상기 표준 문서의 비교 대상 문장을 기준으로 상기 순서가 변경된 문장의 내용이 변경되었는지 여부를 확인하는 단계를 더 포함하는, 문서 비교 분석 방법.

KR1020180130765A 2018-10-30 2018-10-30 문서 비교 분석 방법 및 이를 수행하기 위한 장치 KR102009901B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180130765A KR102009901B1 (ko) 2018-10-30 2018-10-30 문서 비교 분석 방법 및 이를 수행하기 위한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180130765A KR102009901B1 (ko) 2018-10-30 2018-10-30 문서 비교 분석 방법 및 이를 수행하기 위한 장치

Publications (1)

Publication Number Publication Date
KR102009901B1 true KR102009901B1 (ko) 2019-08-12

Family

ID=67624718

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180130765A KR102009901B1 (ko) 2018-10-30 2018-10-30 문서 비교 분석 방법 및 이를 수행하기 위한 장치

Country Status (1)

Country Link
KR (1) KR102009901B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222314A (zh) * 2020-01-03 2020-06-02 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
KR20210024365A (ko) * 2019-08-23 2021-03-05 주식회사 인텔리콘 연구소 인공지능 기반의 법률 문서 분석 시스템 및 방법
CN112487784A (zh) * 2020-11-18 2021-03-12 中信银行股份有限公司 一种技术文档管理方法、装置、电子设备和可读存储介质
KR20210056085A (ko) * 2019-11-08 2021-05-18 주식회사 엘지유플러스 고객 상담 요약 장치 및 방법
KR102260396B1 (ko) * 2020-09-09 2021-06-03 주식회사 트위그팜 범용 신경망 기계번역기를 활용한 하이브리드 번역 시스템
CN113128195A (zh) * 2021-04-23 2021-07-16 达而观信息科技(上海)有限公司 一种金融行业基于文档结构自动寻找局部差异点的方法和装置
KR20220073432A (ko) * 2020-11-26 2022-06-03 주식회사 리걸인사이트 계약서 리스크 분석 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070100184A (ko) * 2007-05-04 2007-10-10 (주)첫눈 본문 식별에 기반한 문서정보 추출방법 및 시스템
KR20090044101A (ko) * 2007-10-31 2009-05-07 (주)오픈베이스 효율적인 법령 편집 지원 및 자동화 기술을 이용한 법령안편집 방법
KR20100094565A (ko) * 2007-12-12 2010-08-26 쓰리엠 이노베이티브 프로퍼티즈 컴파니 고유 이미지 프로세스에 따른 미지 문서의 식별 및 검증
KR20160106984A (ko) * 2015-03-03 2016-09-13 단국대학교 산학협력단 주제어 추출 장치 및 방법
KR101744020B1 (ko) 2015-07-21 2017-06-20 주식회사 인프라웨어 스프레드 시트 문서를 비교할 수 있는 컴퓨팅 장치 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070100184A (ko) * 2007-05-04 2007-10-10 (주)첫눈 본문 식별에 기반한 문서정보 추출방법 및 시스템
KR20090044101A (ko) * 2007-10-31 2009-05-07 (주)오픈베이스 효율적인 법령 편집 지원 및 자동화 기술을 이용한 법령안편집 방법
KR20100094565A (ko) * 2007-12-12 2010-08-26 쓰리엠 이노베이티브 프로퍼티즈 컴파니 고유 이미지 프로세스에 따른 미지 문서의 식별 및 검증
KR20160106984A (ko) * 2015-03-03 2016-09-13 단국대학교 산학협력단 주제어 추출 장치 및 방법
KR101744020B1 (ko) 2015-07-21 2017-06-20 주식회사 인프라웨어 스프레드 시트 문서를 비교할 수 있는 컴퓨팅 장치 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102289935B1 (ko) * 2019-08-23 2021-08-17 주식회사 인텔리콘 연구소 인공지능 기반의 법률 문서 분석 시스템 및 방법
KR20210024365A (ko) * 2019-08-23 2021-03-05 주식회사 인텔리콘 연구소 인공지능 기반의 법률 문서 분석 시스템 및 방법
KR20210056085A (ko) * 2019-11-08 2021-05-18 주식회사 엘지유플러스 고객 상담 요약 장치 및 방법
KR102332268B1 (ko) * 2019-11-08 2021-11-29 주식회사 엘지유플러스 고객 상담 요약 장치 및 방법
CN111222314A (zh) * 2020-01-03 2020-06-02 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
CN111222314B (zh) * 2020-01-03 2021-12-21 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
KR102260396B1 (ko) * 2020-09-09 2021-06-03 주식회사 트위그팜 범용 신경망 기계번역기를 활용한 하이브리드 번역 시스템
US11983506B2 (en) 2020-09-09 2024-05-14 Twig Farm Co., Ltd. Hybrid translation system using a general-purpose neural network machine translator
CN112487784A (zh) * 2020-11-18 2021-03-12 中信银行股份有限公司 一种技术文档管理方法、装置、电子设备和可读存储介质
CN112487784B (zh) * 2020-11-18 2024-05-03 中信银行股份有限公司 一种技术文档管理方法、装置、电子设备和可读存储介质
KR20220073432A (ko) * 2020-11-26 2022-06-03 주식회사 리걸인사이트 계약서 리스크 분석 방법 및 장치
KR102506778B1 (ko) * 2020-11-26 2023-03-07 주식회사 리걸인사이트 계약서 리스크 분석 방법 및 장치
CN113128195A (zh) * 2021-04-23 2021-07-16 达而观信息科技(上海)有限公司 一种金融行业基于文档结构自动寻找局部差异点的方法和装置

Similar Documents

Publication Publication Date Title
KR102009901B1 (ko) 문서 비교 분석 방법 및 이를 수행하기 위한 장치
US10963691B2 (en) Platform for document classification
EP3584728B1 (en) Method and device for analyzing open-source license
US10073834B2 (en) Systems and methods for language feature generation over multi-layered word representation
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US10546088B2 (en) Document implementation tool for PCB refinement
US9535910B2 (en) Corpus generation based upon document attributes
US20100161663A1 (en) Searching For A Business Name In A Database
US10049108B2 (en) Identification and translation of idioms
US20170109697A1 (en) Document verification
US8972328B2 (en) Determining document classification probabilistically through classification rule analysis
US9633009B2 (en) Knowledge-rich automatic term disambiguation
US10354013B2 (en) Dynamic translation of idioms
CN111598122B (zh) 数据校验方法、装置、电子设备和存储介质
US20130322773A1 (en) Methods of object search and recognition
CN107688609B (zh) 一种职位标签推荐方法和计算设备
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
US9836532B2 (en) Foreign organization name matching
US20210049322A1 (en) Input error detection device, input error detection method, and computer readable medium
US10558778B2 (en) Document implementation tool for PCB refinement
AU2016247220A1 (en) Method and system for managing data quality for Spanish names and addresses in a database
CN111310481A (zh) 语音翻译方法、装置、计算机设备和存储介质
US11482027B2 (en) Automated extraction of performance segments and metadata values associated with the performance segments from contract documents
CN113517047A (zh) 医学数据的获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant