KR101549792B1

KR101549792B1 - 문서 자동 작성 장치 및 방법

Info

Publication number: KR101549792B1
Application number: KR1020140132533A
Authority: KR
Inventors: 이정봉
Original assignee: 삼성에스디에스 주식회사
Priority date: 2014-10-01
Filing date: 2014-10-01
Publication date: 2015-09-02

Abstract

문서 자동 작성 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 문서 자동 작성 장치는, 기 저장된 문서들 중 사용자로부터 입력되는 문서 작성 요구 사항과의 매칭 유사도에 따라 후보 문서들을 추출하는 후보 문서 추출부 및 추출된 후보 문서들의 문서 개체 요소를 이용하여 추출된 후보 문서들 간의 유사도를 계산하고, 유사도가 가장 높은 후보 문서를 최종 선정 문서로 추출하는 문서 유사도 계산부를 포함한다.

Description

문서 자동 작성 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATICALLY CREATING DOCUMENT}

본 발명의 실시예는 문서 작성 기술에 관한 것으로, 보다 상세하게는 문서 패턴 분석을 통한 문서 자동 작성 장치 및 방법에 관한 것이다.

기존의 문서 편집기는 문서 작성을 위해 일률적인 레이아웃을 가진 문서 템플릿을 제공하였으며, 그로 인해 사용자는 자신이 원하는 형태로 문서를 편집하는데 많은 시간과 노력을 들여야 하는 문제점이 있다. 그리고, 사용자가 수동으로 내용을 입력하여야 하므로 문서 작성에 많은 시간이 걸리는 문제점이 있다.

한국공개특허공보 제10-2009-0089601호(2009.08.24)

본 발명의 실시예는 사용자의 문서 작성 요구 사항에 부합하는 문서 템플릿을 자동으로 제공할 수 있는 문서 자동 작성 장치 및 방법을 제공하고자 한다.

본 발명의 일 실시예에 따른 문서 자동 작성 장치는, 기 저장된 문서들 중 사용자로부터 입력되는 문서 작성 요구 사항과의 매칭 유사도에 따라 후보 문서들을 추출하는 후보 문서 추출부; 및 상기 추출된 후보 문서들의 문서 개체 요소를 이용하여 상기 추출된 후보 문서들 간의 유사도를 계산하고, 유사도가 가장 높은 후보 문서를 최종 선정 문서로 추출하는 문서 유사도 계산부를 포함한다.

상기 문서 개체 요소는, 상기 후보 문서에 포함되는 문단, 표, 이미지, 도형, 수식, 그래프, 및 첨부된 파일 중 적어도 하나일 수 있다.

상기 문서 유사도 계산부는, 상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도 중 적어도 하나를 이용하여 상기 후보 문서들 간의 유사도를 계산할 수 있다.

상기 문서 개체 요소별 속성 유사도는, 상기 추출된 후보 문서들 간의 문단 내용 유사도, 표 속성 유사도, 이미지 속성 유사도, 및 첨부된 파일 유사도 중 적어도 하나를 이용하여 계산될 수 있다.

상기 문단 내용 유사도는, 상기 추출된 후보 문서들에 포함된 문단의 텍스트에서 키워드를 추출하고, 추출한 키워드의 종류 및 키워드 별 개수를 벡터로 변환하며, 변환된 벡터 간 유사도를 계산함으로써 계산될 수 있다.

상기 표 속성 유사도는, 상기 추출된 후보 문서들에 포함된 표의 행과 열의 개수, 테두리의 종류, 색깔, 각 셀에 삽입되는 텍스트 중 적어도 하나를 비교함으로써 계산될 수 있다.

상기 이미지 속성 유사도는, 상기 추출된 후보 문서들에 포함된 이미지의 픽셀값을 비교함으로써 계산될 수 있다.

상기 첨부된 파일 유사도는, 상기 추출된 후보 문서들에 첨부된 파일의 용량 및 파일의 타입 중 적어도 하나를 비교함으로써 계산될 수 있다.

상기 문서 유사도 계산부는, 상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도를 합산하여 상기 후보 문서들 간의 유사도를 계산할 수 있다.

상기 문서 자동 작성 장치는, 상기 최종 선정 문서의 문서 개체 요소별 키워드를 추출하고, 추출한 키워드에 부합하는 데이터를 검색하여 제공하는 검색부를 더 포함할 수 있다.

상기 문서 자동 작성 장치는, 상기 기 저장된 문서들에 대해 각 문서에 포함되는 문서 개체 요소의 종류, 개수, 위치, 및 크기를 분석하여 문서 패턴 테이블을 생성하는 문서 패턴 분석부를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 문서 자동 작성 방법은, 문서 자동 작성 장치에서, 사용자로부터 문서 작성 요구 사항을 입력받는 단계; 상기 문서 자동 작성 장치에서, 기 저장된 문서들 중 상기 문서 작성 요구 사항과의 매칭 유사도에 따라 후보 문서들을 추출하는 단계; 및 상기 문서 자동 작성 장치에서, 상기 추출된 후보 문서들의 문서 개체 요소를 이용하여 상기 추출된 후보 문서들 간의 유사도를 계산하고, 유사도가 가장 높은 후보 문서를 최종 선정 문서로 추출하는 단계를 포함한다.

상기 추출된 후보 문서들 간의 유사도를 계산하는 단계는, 상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도 중 적어도 하나를 이용하여 상기 후보 문서들 간의 유사도를 계산할 수 있다.

상기 추출된 후보 문서들 간의 유사도를 계산하는 단계는, 상기 추출된 후보 문서들 간의 문단 내용 유사도, 표 속성 유사도, 이미지 속성 유사도, 및 첨부된 파일 유사도 중 적어도 하나를 이용하여 문서 개체 요소별 속성 유사도를 계산하는 단계를 포함할 수 있다.

상기 문서 개체 요소별 속성 유사도를 계산하는 단계는, 상기 추출된 후보 문서들에 포함된 문단의 텍스트에서 키워드를 추출하는 단계; 상기 추출한 키워드의 종류 및 키워드 별 개수를 벡터로 변환하는 단계; 및 상기 변환된 벡터 간 유사도를 계산하는 단계를 포함할 수 있다.

상기 문서 개체 요소별 속성 유사도를 계산하는 단계는, 상기 추출된 후보 문서들에 포함된 표의 행과 열의 개수, 테두리의 종류, 색깔, 각 셀에 삽입되는 텍스트 중 적어도 하나를 비교하여 표 속성 유사도를 계산할 수 있다.

상기 문서 개체 요소별 속성 유사도를 계산하는 단계는, 상기 추출된 후보 문서들에 포함된 이미지의 픽셀값을 비교하여 상기 이미지 속성 유사도를 계산할 수 있다.

상기 문서 개체 요소별 속성 유사도를 계산하는 단계는, 상기 추출된 후보 문서들에 첨부된 파일의 용량 및 파일의 타입 중 적어도 하나를 비교하여 첨부된 파일 유사도를 계산 할 수 있다.

상기 추출된 후보 문서들 간의 유사도를 계산하는 단계는, 상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도를 합산하여 상기 후보 문서들 간의 유사도를 계산할 수 있다.

상기 최종 선정 문서로 추출하는 단계 이후에, 상기 문서 자동 작성 장치에서, 상기 최종 선정 문서의 문서 개체 요소별 키워드를 추출하고, 추출한 키워드에 부합하는 데이터를 검색하여 제공하는 단계를 더 포함할 수 있다.

상기 문서 작성 요구 사항을 입력받는 단계 이전에, 상기 문서 작성 장치에서, 상기 기 저장된 문서들에 대해 각 문서에 포함되는 문서 개체 요소의 종류, 개수, 위치, 및 크기를 분석하여 문서 패턴 테이블을 생성하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 의하면, 사용자가 입력한 문서 작성 요구 사항과의 매칭 유사도에 따라 후보 문서들을 추출하고, 추출한 후보 문서들 간의 유사도를 계산하여 유사도가 가장 높은 후보 문서를 최종 선정 문서로 제공함으로써, 사용자의 문서 작성 요구 사항에 부합하는 템플릿을 찾는 수고 및 시간을 줄일 수 있게 된다. 그리고, 최종 선정 문서의 문서 개체 요소별 키워드에 부합하는 데이터를 검색하여 제공함으로써, 사용자의 문서 작성에 따른 편의를 도모하고 문서 작성을 자동화 할 수 있게 된다.

도 1은 본 발명의 실시예에 따른 문서 자동 작성 장치의 구성을 나타낸 블럭도
도 2는 본 발명의 일 실시예에 따른 문서 패턴 테이블을 나타낸 예시도
도 3은 본 발명의 실시예에 따른 후보 문서들을 추출하는 과정을 설명하기 위한 예시도
도 4는 본 발명의 실시예에 따른 후보 문서들 간의 유사도를 계산하는 과정을 설명하기 위한 예시도
도 5는 본 발명의 실시예에 따른 최종 선정 문서에서 문서 개체 요소별 키워드를 추출한 상태를 나타낸 예시도
도 6은 본 발명의 일 실시예에 따른 문서 자동 작성 방법을 나타낸 순서도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.

도 1은 본 발명의 실시예에 따른 문서 자동 작성 장치의 구성을 나타낸 블럭도이다.

도 1을 참조하면, 문서 자동 작성 장치(100)는 입력부(102), 문서 패턴 분석부(104), 후보 문서 추출부(106), 문서 유사도 계산부(108), 및 검색부(110)를 포함할 수 있다. 여기서, 문서 자동 작성 장치(100)는 네트워크의 서버 및 상기 서버를 통해 연결되는 각 단말기에 설치될 수 있다.

입력부(102)는 사용자의 문서 작성 요구 사항을 입력받는다. 문서 작성 요구 사항은 키워드 형태로 입력될 수 있으나, 이에 한정되는 것은 아니며 키워드를 포함하는 텍스트 형태로 입력될 수도 있다. 예를 들어, 문서 작성 요구 사항은 "8월 4주차 주간 보고를 작성하라. 이슈 사항을 모두 포함하라"와 같은 텍스트 형태로 입력될 수도 있고, "8월, 주간보고, 이슈 사항"과 같은 키워드 형태로 입력될 수도 있다. 문서 작서 요구 사항이 텍스트 형태로 입력되는 경우, 입력부(102)는 텍스트에 대한 형태소 분석 등을 통해 텍스트로부터 키워드를 추출할 수 있다.

문서 패턴 분석부(104)는 동일한 네트워크에 속하는 각 단말기 및 서버에 저장된 문서들의 문서 패턴을 분석하여 문서 패턴 테이블을 생성할 수 있다. 구체적으로, 문서 패턴 분석부(104)는 각 문서별로 해당 문서에 포함되는 문서 개체 요소의 종류, 개수, 위치(해당 문서 내에서의 위치), 및 크기 등을 분석하여 문서 패턴 테이블을 생성할 수 있다. 문서 개체 요소는 해당 문서를 구성하는 개체들로서, 예를 들어, 해당 문서에 포함되는 문단, 표, 이미지, 도형, 수식, 그래프, 첨부된 파일 등이 포함될 수 있다. 문서 패턴 분석부(104)는 문서 개체 요소 내의 텍스트에서 키워드를 추출할 수 있다.

도 2는 본 발명의 일 실시예에 따른 문서 패턴 테이블을 나타낸 예시도이다. 여기서는, 설명의 편의상 5개의 문서에 대해 생성된 문서 패턴 테이블을 도시하였으나, 이에 한정되는 것은 아니며 서버 및 서버에 연결되는 각 단말기 내의 모든 문서들에 대해 문서 패턴 테이블이 생성될 수 있다.

도 2를 참조하면, 문서 패턴 분석부(104)는 각 문서(문서 1 내지 문서 5)에 대해 해당 문서에 포함되는 문서 개체 요소를 추출할 수 있다. 문서 패턴 분석부(104)는 추출한 문서 개체 요소의 종류 및 종류별 개수를 분석할 수 있다. 그리고, 문서 패턴 분석부(104)는 해당 문서에 포함되는 문서 개체 요소의 해당 문서 내에서의 위치 및 크기를 분석할 수 있다. 여기서, 문서 개체 요소의 위치는 해당 문서에서 해당 문서 개체 요소가 존재하는 페이지 및 상기 페이지에서 해당 문서의 기준점(0, 0)으로부터 계산된 좌표값(x, y)으로 나타낼 수 있다. 이때, 문서 개체 요소의 좌표값(x, y)은 해당 문서 개체 요소의 중심점의 좌표일 수 있으나, 이에 한정되는 것은 아니다. 문서의 기준점(0, 0)은 문서의 4개 꼭지점 중 어느 하나가 될 수 있다. 문서 개체 요소의 크기는 폭(w)과 높이(h)로 나타낼 수 있다.

또한, 문서 패턴 분석부(104)는 문서 개체 요소 내의 텍스트에서 키워드를 추출할 수 있다. 이때, 추출한 키워드는 해당 문서의 키워드가 될 수 있다. 문서 패턴 분석부(104)는 도 2에 도시된 바와 같이, 각 문서별로 해당 문서에 포함되는 문서 개체 요소의 종류, 개수, 위치(해당 문서 내에서의 위치), 크기, 및 키워드를 테이블화하여 문서 패턴 테이블을 생성할 수 있다.

후보 문서 추출부(106)는 서버 및 각 단말기에 저장된 문서들 중 사용자의 문서 작성 요구 사항과 부합되는 후보 문서들을 추출한다. 구체적으로, 후보 문서 추출부(106)는 사용자의 문서 작성 요구 사항의 키워드와 문서 별 키워드 간의 매칭 유사도를 분석하여 후보 문서들을 추출할 수 있다.

도 3은 본 발명의 실시예에 따른 후보 문서들을 추출하는 과정을 설명하기 위한 예시도이다. 여기서, 사용자의 문서 작성 요구 사항의 키워드는 주간 보고, 8월, 이슈 사항으로 하였다.

도 3을 참조하면, 후보 문서 추출부(106)는 사용자의 문서 작성 요구 사항의 키워드(예를 들어, 주간 보고, 8월, 이슈 사항 등)와 문서 별 키워드 간의 매칭 유사도를 분석할 수 있다. 이때, 후보 문서 추출부(106)는 각 문서 별로 해당 문서의 키워드에 상기 문서 작성 요구 사항의 키워드가 포함되는지 여부 및 포함되는 키워드의 빈도수를 통해 해당 문서의 매칭 유사도를 정할 수 있다.

예를 들어, 문서 1의 경우, 주간 보고라는 키워드가 1개 포함되고, 8월이라는 키워드가 2개 포함되며, 이슈 사항이라는 키워드가 1개 포함되므로, 문서 1의 매칭 유사도를 4(=1+2+1)로 정할 수 있다. 문서 2 및 3의 경우, 상기 문서 작성 요구 사항의 키워드가 하나도 포함되어 있지 않으므로, 문서 2 및 3의 매칭 유사도는 각각 0으로 정할 수 있다. 문서 4의 경우, 주간 보고라는 키워드가 1개 포함되고, 이슈 사항이라는 키워드가 1개 포함되므로, 문서 4의 매칭 유사도는 2(=1+1)로 정할 수 있다. 문서 5의 경우, 주간 보고라는 키워드가 1개 포함되고, 8월이라는 키워드가 1개 포함되며, 이슈 사항이라는 키워드가 1개 포함되므로, 문서 5의 매칭 유사도를 3(=1+1+1)으로 정할 수 있다.

후보 문서 추출부(106)는 사용자의 문서 작성 요구 사항의 키워드와 문서 별 키워드 간의 매칭 유사도가 높은 문서들을 후보 문서로 추출할 수 있다. 예를 들어, 후보 문서 추출부(106)는 상기 매칭 유사도가 높은 상위 3번째 문서까지 후보 문서로 추출할 수 있다. 이 경우, 후보 문서 추출부(106)는 문서 1, 문서 5, 문서 4를 후보 문서로 추출하게 된다. 그러나, 이에 한정되는 것은 아니며 후보 문서 추출부(106)는 상기 매칭 유사도 값이 기 설정된 값(예를 들어, 3) 이상이 되는 문서들을 후보 문서로 추출할 수 있다. 이 경우, 후보 문서 추출부(106)는 문서 1 및 문서 5를 후보 문서로 추출하게 된다.

문서 유사도 계산부(108)는 상기 추출된 후보 문서들 간의 유사도를 계산하여 문서 간 유사도가 가장 높은 문서를 추출한다. 즉, 문서 유사도 계산부(108)는 사용자의 문서 작성 요구 사항과 부합되는 문서들 간의 유사도를 계산한 후, 유사도가 가장 높은 문서를 최종 선정 문서로 추출한다. 이 경우, 최종 선정 문서는 후보 문서들 중 범용성 및 호환성이 가장 높은 문서가 되게 된다. 여기서, 후보 문서들 간의 유사도는 예를 들어, 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 및 크기 유사도 등을 통해 계산할 수 있다.

도 4는 본 발명의 실시예에 따른 후보 문서들 간의 유사도를 계산하는 과정을 설명하기 위한 예시도이다. 여기서는, 도 2에 도시된 문서 1 내지 문서 5 중 문서 1, 문서 4, 및 문서 5가 후보 문서로 추출된 경우에 대해 설명하기로 한다.

도 2 및 도 4를 참조하면, 문서 유사도 계산부(108)는 문서 1 및 문서 4, 문서 1 및 문서 5, 문서 4 및 문서 5 간의 유사도를 각각 계산한다. 이때, 문서 유사도 계산부(108)는 문서 1 및 문서 4, 문서 1 및 문서 5, 문서 4 및 문서 5 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 및 크기 유사도를 계산할 수 있다.

문서 개체 요소별 매칭 개수 유사도는 예를 들어, 문서 1의 문서 개체 요소별 개수(즉, 표 2개, 문단 2개, 이미지 2개)와 문서 4의 문서 개체 요소별 개수(즉, 표 2개, 문단 2개, 이미지 2개)를 비교하여 계산할 수 있다. 문서 1과 문서 4는 문서 개체 요소의 종류와 개수가 동일하므로, 문서 1과 문서 4의 문서 개체 요소별 매칭 개수 유사도는 1이 된다. 그리고, 문서 1의 문서 개체 요소별 개수(즉, 표 2개, 문단 2개, 이미지 2개)와 문서 5의 문서 개체 요소별 개수(즉, 표 2개, 문단 2개)를 비교하면, 문서 1의 문서 개체 요소 6개 중 4개(즉, 표 2개 및 문단 2개)가 문서 5와 동일하므로, 문서 1과 문서 5의 문서 개체 요소별 매칭 개수 유사도는 0.67(=4/6)이 된다. 마찬가지로, 문서4의 문서 개체 요소별 개수(즉, 표 2개, 문단 2개, 이미지 2개)와 문서 5의 문서 개체 요소별 개수(즉, 표 2개, 문단 2개)를 비교하면, 문서 4의 문서 개체 요소 6개 중 4개(즉, 표 2개 및 문단 2개)가 문서 5와 동일하므로, 문서 4와 문서 5의 문서 개체 요소별 매칭 개수 유사도도 0.67(=4/6)이 된다.

문서 개체 요소별 속성 유사도는 후보 문서들 간의 문단 내용 유사도, 표 속성 유사도, 이미지 속성 유사도, 및 첨부된 파일 유사도 등을 합산하여 계산할 수 있다. 여기서, 문단 내용 유사도는 제1 후보 문서에 포함된 문단의 내용과 제2 후보 문서에 포함된 문단의 내용을 상호 비교하여 그 내용의 동일성 정도로 계산할 수 있다. 예를 들어, 문단 내용 유사도는 각 후보 문서에 포함된 문단의 텍스트에서 키워드를 추출하고, 추출한 키워드의 종류 및 키워드 별 개수를 벡터로 변환하며, 변환된 벡터 간 코사인 유사도 또는 유클리디안 거리 등을 계산하여 후보 문서들 간의 문단 내용 유사도를 구할 수 있다.

표 속성 유사도는 제1 후보 문서에 포함된 표의 속성(예를 들어, 표의 행과 열의 개수, 테두리 종류, 색깔, 각 셀에 삽입되는 텍스트 등)과 제2 후보 문서에 포함된 표의 속성을 상호 비교하여 그 내용의 동일성 정도로 계산할 수 있다. 여기서, 각 후보 문서에 포함된 표의 행과 열의 개수, 테두리의 종류, 색깔, 각 셀에 삽입되는 텍스트 등이 유사할수록 후보 문서 간의 표 속성 유사도는 높게 계산될 수 있다. 이때, 문서 유사도 계산부(108)는 상기 표의 속성에 따라 가중치를 부여할 수 있다. 예를 들어, 문서 유사도 계산부(108)는 각 후보 문서에 포함되는 표의 행과 열의 개수 및 및 각 셀에 삽입되는 텍스트의 동일성 정도에 따라 가중치를 부여할 수 있다.

이미지 속성 유사도는 예를 들어, 제1 후보 문서에 포함된 이미지의 각 픽셀값(예를 들어, 그레이값 또는 RGB 값 등)과 제2 후보 문서에 포함된 이미지의 각 픽셀값을 비교하여 계산할 수 있다. 그러나, 이에 한정되는 것은 아니며 이미지 속성 유사도는 이미지 인식 기술을 통해 각 후보 문서에 포함되는 인물, 동물, 배경 등을 비교하여 계산할 수도 있다.

첨부된 파일 유사도는 제1 후보 문서에 첨부된 파일의 용량 및 파일의 타입(예를 들어, 파일의 확장자 등)와 제2 후보 문서에 첨부된 파일의 용량 및 파일의 타입을 비교하여 계산할 수 있다. 문서 유사도 계산부(108)는 파일의 확장자 간 유사도 테이블을 이용하여 첨부된 파일 유사도를 계산할 수 있다. 예를 들어, 문서 파일의 경우 DOC, HWP, XLS, PPT, PDF 등과 같은 확장자 간에 유사도를 설정한 테이블을 이용하여 첨부된 파일 유사도를 계산할 수 있다.이때, DOC와 HWP는 유사도가 높은 것으로 설정하고, DOC 또는 HWP와 PPT는 유사도가 낮은 것으로 설정하며, DOC 또는 HWP와 PDF는 유사도가 중간 수준인 것으로 설정할 수 있다.

한편, 도 2에 도시된 문서 패턴 테이블에는 문서 개체 요소의 종류, 개수, 위치, 크기가 기재되어 있으나, 이에 한정되는 것은 아니며 해당 문서에 표가 포함되어 있는 경우, 해당 문서의 문서 패턴 테이블에는 각 표의 행 개수, 열 개수, 테두리 종류, 색깔, 및 표에 삽입되는 텍스트 등이 포함될 수 있다. 또한, 해당 문서에 이미지가 포함되어 있는 경우, 해당 문서의 문서 패턴 테이블에는 각 이미지의 픽셀값이 포함될 수 있다. 또한, 해당 문서에 파일이 삽입된 경우, 해당 문서의 문서 패턴 테이블에는 첨부된 파일의 용량 및 파일의 타입이 포함될 수 있다.

문서 개체 요소별 위치 및 크기 유사도는 제1 후보 문서에 포함된 문서 개체 요소의 위치 및 크기와 제2 후보 문서에 포함되는 동일 종류의 문서 개체 요소의 위치 및 크기를 비교하여 계산할 수 있다. 문서 개체 요소별 위치 유사도는 제1 후보 문서에 포함된 문서 개체 요소의 좌표(x, y)와 제2 후보 문서에 포함되는 동일 종류의 문서 개체 요소의 좌표(x, y)의 근접도로 계산할 수 있다. 이는, 코사인 유사도(Cosine Similarity) 또는 유클리디안 거리 등을 통해 계산할 수 있다. 문서 개체 요소별 크기 유사도는 제1 후보 문서에 포함된 문서 개체 요소의 면적과 제2 후보 문서에 포함되는 동일 종류의 문서 개체 요소의 면적을 비교하여 계산할 수 있다.

문서 유사도 계산부(108)는 문서 1 및 문서 4, 문서 1 및 문서 5, 문서 4 및 문서 5 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 및 크기 유사도를 합산하여 문서 간 총 유사도를 계산할 수 있다.

도 4에서, 문서 1 및 문서 4 간의 유사도를 살펴보면, 문서 개체 요소별 매칭 개수 유사도는 1이고, 문서 개체 요소별 속성 유사도는 2.7(=1+0.8+0.9)이며, 문서 개체 요소별 위치 및 크기 유사도는 2.1(=0.3+0.8+1)이므로, 문서 1 및 문서 4 간의 총 유사도는 1+2.7+2.1 = 5.8이 된다.

문서 1 및 문서 5 간의 유사도를 살펴보면, 문서 개체 요소별 매칭 개수 유사도는 0.66이고, 문서 개체 요소별 속성 유사도는 1.4(=1+0.4)이며, 문서 개체 요소별 위치 및 크기 유사도는 1.4(=1+0.4)이므로, 문서 1 및 문서 5 간의 총 유사도는 0.66+1.4+1.4 = 3.46이 된다.

문서 4 및 문서 5 간의 유사도를 살펴보면, 문서 개체 요소별 매칭 개수 유사도는 0.66이고, 문서 개체 요소별 속성 유사도는 1.5(=1+0.5)이며, 문서 개체 요소별 위치 및 크기 유사도는 1.6(=1+0.6)이므로, 문서 4 및 문서 5 간의 총 유사도는 0.66+1.5+1.6 = 3.76이 된다.

여기서, 문서 1의 후보 문서 간 유사도는 5.8(문서 1 및 문서 4 간의 유사도) + 3.46(문서 1 및 문서 5 간의 유사도) = 9.26이고, 문서 4의 후보 문서 간 유사도는 5.8(문서 1 및 문서 4 간의 유사도) + 3.76(문서 4 및 문서 5 간의 유사도) = 9.56이며, 문서 5의 후보 문서 간 유사도는 3.46(문서 1 및 문서 5 간의 유사도) + 3.76(문서 4 및 문서 5 간의 유사도) = 7.26이 된다. 문서 4의 후보 문서 간 유사도가 9.56으로 가장 높으므로, 문서 유사도 계산부(108)는 문서 4를 최종 선정 문서로 추출할 수 있다.

여기서는, 문서 패턴 분석부(104)가 각 문서들에 대해 생성한 문서 패턴 테이블을 이용하여 후보 문서들 간의 유사도를 계산하는 것으로 설명하였으나, 이에 한정되는 것은 아니며 문서 유사도 계산부(108)가 추출된 후보 문서들에 대해 각 후보 문서의 문서 개체 요소를 분석(문서 개체 요소의 종류, 개수, 위치, 및 크기 등을 분석)하고, 분석된 내용을 통해 후보 문서들 간의 유사도를 계산할 수도 있다.

검색부(110)는 최종 선정 문서(즉, 후보 문서들 간의 유사도가 가장 높은 문서)의 문서 개체 요소별 키워드를 추출하고, 추출한 키워드에 부합하는 데이터를 검색하여 제공할 수 있다.

도 5는 본 발명의 실시예에 따른 최종 선정 문서에서 문서 개체 요소별 키워드를 추출한 상태를 나타낸 예시도이다. 여기서는, 도 2에 도시된 문서 1 내지 문서 5 중 문서 4가 최종 선정 문서로 추출된 경우를 나타내었다.

도 5를 참조하면, 검색부(110)는 문서 4에서 문서 개체 요소별로 키워드를 추출한다. 예를 들어, 검색부(110)는 문서 4의 1 페이지에 위치하는 문단 1에서 "주간 보고"라는 키워드를 추출하고, 문서 4의 1 페이지에 위치하는 표 1에서 "개발 진행 사항 및 운영 진행 사항"이라는 키워드를 추출할 수 있다. 문서 4의 1 페이지에 위치하는 이미지 1에 텍스트가 존재하는 경우, 상기 텍스트에서 키워드를 추출할 수 있다.

다음으로, 검색부(110)는 네트워크 내의 서버 및 단말기에 저장된 파일, 문서, 메신저, 메일 등에서 문서 개체 요소별로 추출한 키워드에 대응하는 데이터를 검색할 수 있다. 검색부(110)는 검색된 데이터들을 디스플레이부(미도시)에 표시할 수 있다. 이 경우, 사용자는 화면에 표시된 데이터들 중 각 문서 개체 요소에 삽입할 데이터를 선택할 수 있다. 그러나, 이에 한정되는 것은 아니며 검색부(110)는 검색된 데이터를 해당 문서 개체 요소 내에 자동으로 삽입할 수도 있다. 이때, 사용자는 해당 문서 개체 요소 내에 삽입된 내용을 편집할 수 있다.

도 6은 본 발명의 일 실시예에 따른 문서 자동 작성 방법을 나타낸 순서도이다.

도 6을 참조하면, 문서 자동 작성 장치(100)는 사용자로부터 문서 작성 요구 사항이 입력되는지 여부를 확인한다(S 101).

단계 S 101의 확인 결과, 사용자로부터 문서 작성 요구 사항이 입력되는 경우, 문서 자동 작성 장치(100)는 기 저장된 문서(예를 들어, 네트워크의 서버 및 단말기들에 기 저장된 문서) 중 사용자의 문서 작성 요구 사항과 부합되는 후보 문서들을 추출한다(S 103). 예를 들어, 문서 자동 작성 장치(100)는 사용자의 문서 작성 요구 사항의 키워드와 문서 별 키워드 간의 매칭 유사도를 분석하여 후보 문서들을 추출할 수 있다.

다음으로, 문서 자동 작성 장치(100)는 추출된 후보 문서들 간의 유사도를 계산하여 문서 간 유사도가 가장 높은 후보 문서를 최종 선정 문서로 추출한다(S 105). 이때, 후보 문서들 간의 유사도는 예를 들어, 문서 개체 요소별 매칭 개수, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 및 크기 유사도 등을 통해 계산할 수 있다.

다음으로, 문서 자동 작성 장치(100)는 최종 선정 문서의 문서 개체 요소별 키워드를 추출하고, 추출된 키워드에 부합하는 데이터를 검색하여 제공한다(S 107).

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100 : 문서 자동 작성 장치
102 : 입력부
104 : 문서 패턴 분석부
106 : 후보 문서 추출부
108 : 문서 유사도 계산부
110 : 검색부

Claims

기 저장된 문서들 중 사용자로부터 입력되는 문서 작성 요구 사항과의 매칭 유사도에 따라 후보 문서들을 추출하는 후보 문서 추출부; 및
상기 추출된 후보 문서들의 문서 개체 요소를 이용하여 상기 추출된 후보 문서들 간의 유사도를 계산하고, 유사도가 가장 높은 후보 문서를 최종 선정 문서로 추출하는 문서 유사도 계산부를 포함하는, 문서 자동 작성 장치.
청구항 1에 있어서,
상기 문서 개체 요소는,
상기 후보 문서에 포함되는 문단, 표, 이미지, 도형, 수식, 그래프, 및 첨부된 파일 중 적어도 하나인, 문서 자동 작성 장치.
청구항 1에 있어서,
상기 문서 유사도 계산부는,
상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도 중 적어도 하나를 이용하여 상기 후보 문서들 간의 유사도를 계산하는, 문서 자동 작성 장치.
청구항 3에 있어서,
상기 문서 개체 요소별 속성 유사도는,
상기 추출된 후보 문서들 간의 문단 내용 유사도, 표 속성 유사도, 이미지 속성 유사도, 및 첨부된 파일 유사도 중 적어도 하나를 이용하여 계산되는, 문서 자동 작성 장치.
청구항 4에 있어서,
상기 문단 내용 유사도는,
상기 추출된 후보 문서들에 포함된 문단의 텍스트에서 키워드를 추출하고, 추출한 키워드의 종류 및 키워드 별 개수를 벡터로 변환하며, 변환된 벡터 간 유사도를 계산함으로써 계산되는, 문서 자동 작성 장치.
청구항 4에 있어서,
상기 표 속성 유사도는,
상기 추출된 후보 문서들에 포함된 표의 행과 열의 개수, 테두리의 종류, 색깔, 각 셀에 삽입되는 텍스트 중 적어도 하나를 비교함으로써 계산되는, 문서 자동 작성 장치.
청구항 4에 있어서,
상기 이미지 속성 유사도는,
상기 추출된 후보 문서들에 포함된 이미지의 픽셀값을 비교함으로써 계산되는, 문서 자동 작성 장치.
청구항 4에 있어서,
상기 첨부된 파일 유사도는,
상기 추출된 후보 문서들에 첨부된 파일의 용량 및 파일의 타입 중 적어도 하나를 비교함으로써 계산되는, 문서 자동 작성 장치.
청구항 1에 있어서,
상기 문서 유사도 계산부는,
상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도를 합산하여 상기 후보 문서들 간의 유사도를 계산하는, 문서 자동 작성 장치.
청구항 1에 있어서,
상기 문서 자동 작성 장치는,
상기 최종 선정 문서의 문서 개체 요소별 키워드를 추출하고, 추출한 키워드에 부합하는 데이터를 검색하여 제공하는 검색부를 더 포함하는, 문서 자동 작성 장치.
청구항 1에 있어서,
상기 문서 자동 작성 장치는,
상기 기 저장된 문서들에 대해 각 문서에 포함되는 문서 개체 요소의 종류, 개수, 위치, 및 크기를 분석하여 문서 패턴 테이블을 생성하는 문서 패턴 분석부를 더 포함하는, 문서 자동 작성 장치.
사용자로부터 문서 작성 요구 사항을 입력받는 단계;
기 저장된 문서들 중 상기 문서 작성 요구 사항과의 매칭 유사도에 따라 후보 문서들을 추출하는 단계; 및
상기 추출된 후보 문서들의 문서 개체 요소를 이용하여 상기 추출된 후보 문서들 간의 유사도를 계산하고, 유사도가 가장 높은 후보 문서를 최종 선정 문서로 추출하는 단계를 포함하는, 문서 자동 작성 방법.
청구항 12에 있어서,
상기 문서 개체 요소는,
상기 후보 문서에 포함되는 문단, 표, 이미지, 도형, 수식, 그래프, 및 첨부된 파일 중 적어도 하나인, 문서 자동 작성 방법.
청구항 12에 있어서,
상기 추출된 후보 문서들 간의 유사도를 계산하는 단계는,
상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도 중 적어도 하나를 이용하여 상기 후보 문서들 간의 유사도를 계산하는, 문서 자동 작성 방법.
청구항 14에 있어서,
상기 추출된 후보 문서들 간의 유사도를 계산하는 단계는,
상기 추출된 후보 문서들 간의 문단 내용 유사도, 표 속성 유사도, 이미지 속성 유사도, 및 첨부된 파일 유사도 중 적어도 하나를 이용하여 문서 개체 요소별 속성 유사도를 계산하는 단계를 포함하는, 문서 자동 작성 방법.
청구항 15에 있어서,
상기 문서 개체 요소별 속성 유사도를 계산하는 단계는,
상기 추출된 후보 문서들에 포함된 문단의 텍스트에서 키워드를 추출하는 단계;
상기 추출한 키워드의 종류 및 키워드 별 개수를 벡터로 변환하는 단계; 및
상기 변환된 벡터 간 유사도를 계산하는 단계를 포함하는, 문서 자동 작성 방법.
청구항 15에 있어서,
상기 문서 개체 요소별 속성 유사도를 계산하는 단계는,
상기 추출된 후보 문서들에 포함된 표의 행과 열의 개수, 테두리의 종류, 색깔, 각 셀에 삽입되는 텍스트 중 적어도 하나를 비교하여 상기 표 속성 유사도를 계산하는, 문서 자동 작성 방법.
청구항 15에 있어서,
상기 문서 개체 요소별 속성 유사도를 계산하는 단계는,
상기 추출된 후보 문서들에 포함된 이미지의 픽셀값을 비교하여 상기 이미지 속성 유사도를 계산하는, 문서 자동 작성 방법.
청구항 15에 있어서,
상기 문서 개체 요소별 속성 유사도를 계산하는 단계는,
상기 추출된 후보 문서들에 첨부된 파일의 용량 및 파일의 타입 중 적어도 하나를 비교하여 상기 첨부된 파일 유사도를 계산하는, 문서 자동 작성 방법.
청구항 12에 있어서,
상기 추출된 후보 문서들 간의 유사도를 계산하는 단계는,
상기 추출된 후보 문서들 간의 문서 개체 요소별 매칭 개수 유사도, 문서 개체 요소별 속성 유사도, 및 문서 개체 요소별 위치 유사도, 및 문서 개체 요소별 크기 유사도를 합산하여 상기 후보 문서들 간의 유사도를 계산하는, 문서 자동 작성 방법.
청구항 12에 있어서,
상기 최종 선정 문서로 추출하는 단계 이후에,
상기 최종 선정 문서의 문서 개체 요소별 키워드를 추출하고, 추출한 키워드에 부합하는 데이터를 검색하여 제공하는 단계를 더 포함하는, 문서 자동 작성 방법.
청구항 12에 있어서,
상기 문서 작성 요구 사항을 입력받는 단계 이전에,
상기 기 저장된 문서들에 대해 각 문서에 포함되는 문서 개체 요소의 종류, 개수, 위치, 및 크기를 분석하여 문서 패턴 테이블을 생성하는 단계를 더 포함하는, 문서 자동 작성 방법.
하드웨어와 결합되어,
사용자로부터 문서 작성 요구 사항을 입력받는 단계;
기 저장된 문서들 중 상기 문서 작성 요구 사항과의 매칭 유사도에 따라 후보 문서들을 추출하는 단계; 및
상기 추출된 후보 문서들의 문서 개체 요소를 이용하여 상기 추출된 후보 문서들 간의 유사도를 계산하고, 유사도가 가장 높은 후보 문서를 최종 선정 문서로 추출하는 단계를 포함하는 단계들을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램.