KR20190005495A - 목차 기반 자동 문서 작성 시스템 - Google Patents

목차 기반 자동 문서 작성 시스템 Download PDF

Info

Publication number
KR20190005495A
KR20190005495A KR1020170086224A KR20170086224A KR20190005495A KR 20190005495 A KR20190005495 A KR 20190005495A KR 1020170086224 A KR1020170086224 A KR 1020170086224A KR 20170086224 A KR20170086224 A KR 20170086224A KR 20190005495 A KR20190005495 A KR 20190005495A
Authority
KR
South Korea
Prior art keywords
contents
document
ontology
unit
storing
Prior art date
Application number
KR1020170086224A
Other languages
English (en)
Inventor
김선욱
Original Assignee
김선욱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김선욱 filed Critical 김선욱
Priority to KR1020170086224A priority Critical patent/KR20190005495A/ko
Publication of KR20190005495A publication Critical patent/KR20190005495A/ko

Links

Images

Classifications

    • G06F17/2745
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • G06F17/211
    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시예에 따른 목차 기반 자동 문서 작성 시스템은, 일반문서를 분석하여 목차 및 내용으로 분리하는 문서 분석부, 상기 목차를 계층화된 트리 구조 형태로 저장하는 문서 구조화부, 및 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 구축하는 온톨로지 구축부를 포함한다.

Description

목차 기반 자동 문서 작성 시스템{SYSTEM FOR AUTOMATICALLY GENERATING DOCUMENT BASED ON CONTENTS}
본 발명은 목차 기반 자동 문서 작성 시스템에 관한 것으로, 더욱 상세하게는 표준화된 컨텐츠를 작성하고 이를 기초로 문서 양식에 따라 자동으로 문서를 작성해주는 목차 기반 자동 문서 작성 시스템에 관한 것이다.
컴퓨터상에 존재하는 다양한 문서들은 정보를 표현하는 방식에 따라 구조화된 정보(structured information), 준구조화된 정보(semi-structured information), 비구조화된 정보(unstructured information)로 나뉠 수 있다.
구조화된 정보란, 정형화된 정보모델에 따라 기록된 정보를 의미하는 것으로 표준화된 스키마 또는 정보모델에 의해 생성되며, 데이터베이스에 저장되어 있는 정보도 이에 해당한다. 준구조화된 정보란, 정형화된 스키마는 없지만 데이터의 내용과 더불어 형식이나 의미를 지니는 부가적인 정보가 포함된 정보로서 HTML과 같은 웹문서나 스키마가 없는 XML 문서가 이에 속한다.
최근 대부분의 기업 간 거래 및 금융기관, 정부기관과의 사업추진 및 거래시에 사업계획서 및 제안서 등 비즈니스 관련 서류의 필요성이 증가하고 있다. 그리고, 갈수록 비즈니스 서류의 내용과 디자인 등의 부분에서 높은 질과 전문성을 요구하고 있다. 하지만, 전문 기획인력을 보유하고 있지 않은 회사의 경우에는 컨설팅 업체에 100만원 이상의 고가의 비용을 지불하고 의뢰하여 작성하는 경우가 많다.
비즈니스 서류 작성 시 전문지식이 없는 초보자의 경우에는 지식거래 사이트에서 유료로 샘플 서류를 구입하여 벤치마킹하여 작성하지만 대부분 1~2주일 이상의 시간과 노력을 투입하여 작성하여야 한다. 그리고, 고가의 비용을 지불하고 컨설팅업체에 의뢰하는 경우에도 평균적으로 1주일 정도의 시간이 소요된다.
그리고 현재 국내 기업 중 사업계획서 자동작성 서비스를 제공하고 있다. 인터넷상에서 직접 작성되어 미리 작성된 서식에 계획한 사업구조, 사업비용, 공장부지, 상품, 마케팅 방향 등을 입력하면 자동으로 전체 사업계획서를 만들어준다. 하지만, 웹상에서만 편집 및 출력이 가능하고 결과물이 파워포인트나 한글 등의 문서로 변환되어 저장이 불가능하다. 최근 대부분의 비즈니스 문서는 프리젠테이션을 고려하여 파워포인트 양식을 사용하고 있으며, 이메일 등을 통하여 비즈니스서류를 전송하는 경우가 많다.
등록특허공보 제10-0751691호, 2007.08.23. 공고
본 발명이 해결하고자 하는 과제는 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법을 제공하는 것이다.
또한, 현재 제안서, 사업계획서, 기획서 등의 비즈니스 서류 작성 시 수작업으로 이루어지고 있는 복잡하고 전문지식이 필요한 디자인, 목차구성, 내용구성 등의 모든 작업을 간단한 입력 작업을 통하여 초보자도 간단하게 30분 정도의 단시간 내에 서류를 작성할 수 있는 자동 비즈니스 서류작성 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 목차 기반 자동 문서 작성 시스템은, 일반문서를 분석하여 목차 및 내용으로 분리하는 문서 분석부; 상기 목차를 계층화된 트리 구조 형태로 저장하는 문서 구조화부; 및 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 자동으로 구축하는 온톨로지 구축부를 포함한다.
본 발명의 실시예에서, 상기 온톨로지 구축부는, 상기 목차를 온톨로지의 Tbox 형태의 스키마로 표현하여 관계들을 맵핑하고, 상기 내용을 온톨로지의 Abox 형태의 스키마로 표현하여 관계들을 맵핑할 수 있다.
본 발명의 실시예에서, 상기 문서 분석부는, 상기 일반문서를 파싱하는 문서 파싱부; 및 상기 파싱된 일반문서를 미리 설정된 목차 유형과 비교하여 목차를 추출하는 목차 추출부를 포함할 수 있다.
본 발명의 실시예에서, 상기 문서 분석부는, 미리 설정된 목차 유형을 저장하는 목차 유형 저장부를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 장치는 분리된 목차를 저장하는 목차 저장부; 및 분리된 내용을 저장하는 내용 저장부를 더 포함할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 실시예에 따른 목차 기반 자동 문서 작성 시스템은, 비구조화된 정보를 다루는 문서 중 일반문서에 해당하는 문서의 목차 유형을 선정하고, 자동으로 목차 추출을 위한 알고리즘의 고안과 트리 형태의 자료구조를 통해 구조적 정보로 저장할 수 있다. 또한, 시맨틱 웹 기술을 활용하여 의미적인 정보들을 시맨틱 검색 및 문서자동화시스템에서 이용할 수 있도록 온톨로지 형태로 자동 구축하는 기술을 제공할 수 있다.
또한, 사업계획서, 제안서, 기획서 등 다양한 비즈니스 서류를 사용자가 인터넷을 통하여 자동 서류작성 프로그램을 다운받아 사용자의 컴퓨터에 설치하여, 현재 서류작성 시 수작업으로 이루어지고 있는 디자인, 목차구성, 내용구성 등의 모든 작업을 전문지식이 없는 초보자도 간단한 입력 작업을 통하여 원하는 비즈니스 문서를 자동으로 작성하고, 결과물을 파워포인트, 엑셀, HWP 등 다양한 문서 형태로 저장 및 편집 가능하다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 목차 기반 자동 문서 작성 시스템의 블록도이다.
도 2는 도 1의 문서 분석도의 상세 블록도이다.
도 3은 도 1의 온톨로지 구축부의 온톨로지 스키마를 설명하기 위한 개념도이다.
도 4는 도 1의 온톨로지 구축부에서 일반문서의 변환 형태를 설명하기 위한 개념도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 목차 기반 자동 문서 작성 시스템의 블록도이다. 도 2는 도 1의 문서 분석도의 상세 블록도이다. 도 3은 도 1의 온톨로지 구축부의 온톨로지 스키마를 설명하기 위한 개념도이다. 도 4는 도 1의 온톨로지 구축부에서 일반문서의 변환 형태를 설명하기 위한 개념도이다.
본 발명은 비구조화된 정보를 다루는 문서 중 일반문서에 해당하는 문서의 목차 유형을 선정하고, 자동으로 목차 추출을 위한 알고리즘의 고안과 트리 형태의 자료구조를 통한 구조적 정보로의 저장을 구현한다. 그리고, 시맨틱 웹 기술을 활용하여 의미적인 정보들을 시맨틱 검색 및 문서자동화시스템에서 이용할 수 있도록 온톨로지 형태로 자동 구축하는 기술을 제안한다.
온톨로지란, 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다.
온톨로지는 공유된 개념화에 대한 정형화되고 명시적인 명세로서 단어와 관계들로 구성된 일종의 사전으로서 생각할 수 있으며, 그 속에는 특정 도메인에 관련된 단어들이 계층적으로 표현되어 있고, 추가적으로 이를 확장할 수 있는 추론 규칙이 포함되어 있어, 웹 기반의 지식 처리나 응용 프로그램 사이의 지식 공유, 재사용 등이 가능토록 되어있다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 목차 기반 자동 문서 작성 시스템(10)은 문서 분석부(110), 문서 구조화부(130) 및 온톨로지 구축부(150)를 포함한다.
본 발명의 상기 시스템(10)은 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 문서 분석부(110) 등의 구성은 상기 시스템(10)에서 실행되는 상기 음주 판별을 위한 소프트웨어에 의해 제어될 수 있다.
상기 시스템(10)은 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 상기 시스템(10)은 이동성을 갖거나 고정될 수 있다. 상기 시스템(10)은, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 단말(terminal), UE(user equipment), MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 문서 분석부(110)는 일반문서를 분석하여 목차 및 내용으로 분리한다. 여기서, 일반문서란, 스키마 및 특정한 형식 없이 저장된 비구조적 문서로서, 대표적으로 한글, 워드 등으로 작성된 문서들을 의미한다.
일반적으로 표준화된 스키마 또는 정보모델에 의해 생성된 구조 문서 및 정형화된 스키마는 없지만 데이터의 내용과 더불어 형식이나 의미를 지니는 부가적인 정보가 포함된 정보로서 HTML과 같은 웹문서나 스키마가 없는 XML 문서인 반구조적 문서는 문서자동화시스템에서 활용하기 편리하다.
그러나, 한글, 워드와 같이 많은 사람들이 사용하고 있는 정보저장 매체이자 많이 쓰는 문서의 형태인 비구조적 문서는 특정한 형식 없이 자유롭게 형성되어 문서들을 검색하거나, 기구축된 문서들을 활용하여 문서자동화시스템에서 활용하기 어렵다. 이에 따라, 본 발명에서는 일반문서를 구조화된 형태로 변환하고 구조화된 자료를 이용하여 온톨로지 파일로 자동 변환한다.
먼저, 상기 문서 분석부(110)는 일반문서의 형태를 구조화시킬 수 있는 정보를 추출하기 위해서, 일반문서를 한줄씩 파싱(parsing)하면서, 목차에 해당하는 부분과 내용에 해당하는 부분을 구별하여 목차에 해당하는 부분을 미리 설정된 목차 유형과 비교를 통해 목차 부분을 추출한다.
이를 위해, 상기 문서 분석부(110)는 상기 일반문서를 파싱하는 문서 파싱부(111) 및 상기 파싱된 일반문서로부터 목차를 추출하는 목차 추출부(115)를 포함한다(도 1 참조).
또한, 상기 문서 분석부(110)는 미리 설정된 목차 유형을 저장하는 목차 유형 저장부(113)를 더 포함할 수 있다. 즉, 상기 문서 분석부(110)는 (Ⅰ, Ⅱ, Ⅲ,...), (ⅰ, ⅱ, ⅲ,...), (①, ②, ③,...), (1), (2), (3),...), (1, 2, 3,...), (A, B, C,...), (a, b, c,...), (가, 나, 다,...), (ㄱ, ㄴ, ㄷ,...) 등의 번호 순서 및 들여쓰기, 내어쓰기, 탭 등의 서식을 포함하는 목차 유형을 미리 저장해 둘 수 있다.
이 경우, 상기 목차 추출부(115)는 상기 파싱된 일반문서를 미리 저장된 목차 유형과 비교하여 목차를 추출할 수 있다. 여기서, 목차는 (Ⅰ, Ⅱ, Ⅲ,...), (ⅰ, ⅱ, ⅲ,...) 등의 번호 순서 및 서식을 포함하는 개념이고, 내용은 목차 옆의 제목 및 목차 아래의 실질적 내용을 포함하는 개념이다.
상기 문서 분석부(110)가 목차를 추출하여 일반문서를 목차 및 내용으로 분리하면, 분리된 목차 및 내용을 상기 문서 구조화부(130)로 출력한다.
다만, 상기 시스템(10)이 상기 분리된 목차를 저장하는 목차 저장부(미도시) 및 상기 분리된 내용을 저장하는 내용 저장부(미도시)를 더 포함하여, 상기 분리된 목차 및 내용이 각각 저장될 수 있다.
상기 문서 구조화부(130)는 상기 목차를 계층화된 트리 구조 형태로 저장하여, 계층화 및 구조화되지 않은 일반 문서의 형태를 구조화시킨다. 다시 말해, 상기 문서 구조화부(130)는 목차의 상하 계층관계에 따라 목차의 순서 및 서식을 저장한다. 계층화된 문서의 정보는 내부 트리 구조에 의해 저장되어 관리 및 추적이 가능하도록 한다.
상기 온톨로지 구축부(150)는 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 자동으로 구축한다. 상기 온톨로지 구축부(150)는 상기 목차에 관한 온톨로지를 구축하는 제1 온톨로지 구축부(151) 및 상기 내용에 관한 온톨로지를 구축하는 제2 온톨로지 구축부(153)를 포함할 수 있다.
이때, 상기 온톨로지 구축부(150)는 일반문서의 분석 및 추출에 의해 계층화된 트리 구조 정보를 바탕으로 웹 온톨로지 언어(Ontology Web Language, 이하 OWL) 형태의 온톨로지 로직을 자동 구축한다.
상기 OWL는 웹 상에서 첨단의 웹 검색, 소프트웨어 에이전트 및 지식 관리 기능을 제공하는 온톨로지를 발간 및 공유하기 위한 시맨틱 웹 생성 언어로서, 웹 온톨로지와 그에 관련된 지식을 정의하는 언어로 추론 시스템에 축적된 명제들을 정의하며, 클래스 및 그 구성원 간의 관계를 기술하고, 구문적으로 정의되지 않은 사실의 논리적 유추를 가능하게 하는 클래스 및 속성과 이에 적용할 수 있는 제약 사항의 집합으로 되어 있다.
상기 온톨로지 구축부(150)에서 온톨로지 구축 시 필요한 OWL 레벨은 디스크립션 로직(description logic, DL)을 따르며, 기존의 시맨틱 웹 프레임워크(Jena: https://jena.apache.org/, OWL API: http://owlapi.sourceforge.net/)를 이용하여 구축 및 파싱, 추론까지 가능한 레벨로 만들 수 있다.
상기 온톨로지 구축부(150)에서 온톨로지를 구축하기 위한 스키마 정의는 기본적으로 레벨 온톨로지, 내용 온톨로지의 2개 온톨로지를 구축한다. 상기 2개의 온톨로지는 level class, contents class 형태로 정의되며 level class는 hasContents 프로퍼티에 의해 contents class 요소를 가질 수 있도록 연결한다.
도 3을 참고하여 설명하면, level class는 계층 정의에 의해 구분된 목차들의 레벨을 나타내는 클래스로 level class의 하위 클래스로 레벨의 단계를 나타낸다. 예를 들어, level class의 하위 클래스는 levell 값을 나타내는 클래스가 정의되어, level1 class가 된다. 관계로 기술하면, 다음과 같이 level1 sub Class Of level의 트리플로 묘사할 수 있다. 그 외, 해당 컨텐츠 내용과 관련된 웹 정보를 가지고 있는 온톨로지 및 해당 컨텐츠를 세부적으로 분석해서 컨텐츠의 의미를 파악하는 온톨로지 클래스까지 구축 스키마에 포함될 수 있다.
도 4를 참조하면, 적재된 자료구조에서 목차에 대한 부분과 내용에 대한 부분을 분리 적용하여, 목차에 대한 부분은 온톨로지의 TBox(terminological component) 형태의 스키마로 표현하여 관계들을 맵핑하게 된다. 또한, 내용 부분에 해당하는 ABox(assertion component)를 인스턴스 형태로 자동 기술하여 온톨로지를 완성한다.
TBox는 사실의 집합으로 알려진 ABox와 관계된 개념화로서, ABox 및 TBox는 온톨로지에 진술의 두 가지 유형을 설명하는데 사용된다. TBox 진술은, 개념 및 이러한 개념의 속성 집합의 개념화를 설명하고, ABox는 그 개념에 속하는 개인에 관한 TBox 호환 진술이다. 이로서, ABox 및 TBox 진술은 지식 기반을 구성하고, TBox는 정의와 전문화의 집합이다.
상기 제1 온톨로지 구축부(151)는 목차를 TBox 형태로 구축하며, 상기 제2 온톨로지 구축부(153)는 내용을 ABox 형태로 구축할 수 있다. 이때, 상기 TBox는 스키마 정의, 공리(axiom), 추론 규칙, 분류 법칙 등을 이용하여 온톨로지를 구축하고, 상기 ABox는 인스턴스, 속성값, 일관성 체크 등을 이용하여 온톨로지를 구축할 수 있다.
이와 같은 온톨로지 구축은 자동화된 엔진에 의해서 수행되며, 일련의 미리 정의된 규칙에 의해 해당 문서 데이터를 의미적인 문서로의 변환을 완료한다. 변환된 문서 데이터는 의미가 맵핑된 문서로, 시맨틱 검색 및 검색 시스템에서 활용 가능하다. 즉, 시맨틱 웹 기술을 이용하여 의미적 검색에 활용이 가능하다.
시맨틱 웹이란, 현재의 인터넷과 같은 분산 환경에서 리소소(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(semantics)를 기계(컴퓨터)가 처리할 수 있는 형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임 워크이자 기술이다. 시맨틱은 기계끼리 대화를 주고받는 것으로, 웹을 지능형으로 만들어, 컴퓨터들이 웹상의 모든 데이터와 컨텐츠, 링크들을 분석해 인간과 컴퓨터 간의 대화를 처리하는 것이다. 이미 우리 주변에는 시맨틱 웹이 존재하고 있는데, RDF, OWL, 마이크로포맷 등이 그 중 일부이다.
본 발명에서는 의미를 이해하기 힘든 일반문서의 구조를 자동적으로 분석하여, 추출해 낼 수 있는 정보인 목차와 내용적인 부분을 분리 적용함으로써, 해당 문서의 구조 및 계층이 정의된다. 목차 추출은 일반문서에서 나타나는 공공기관, 금융기관과 같은 곳의 문서 형태를 바탕으로 목차대상 범위를 지정, 해당 문서의 비교 모듈로서 동작 가능하게끔 한다. 이렇게 정의된 구조적 정보를 컴퓨터가 이해 가능한 자료구조에 적재하여 다른 활용을 위한 준비를 마치는 것이다.
따라서, 본 발명에 따라 온톨로지 형태로 변환 구축된 일반문서의 데이터는 의미가 맵핑된 문서로서, 시맨틱 웹기술을 이용하여 의미적 검색 등 다양한 분야에서 활용 가능하며, 종래 기술에 비해 발전된 검색 결과를 제공할 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (5)

  1. 일반문서를 분석하여 목차 및 내용으로 분리하는 문서 분석부;
    상기 목차를 계층화된 트리 구조 형태로 저장하는 문서 구조화부; 및
    상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 구축하는 온톨로지 구축부를 포함하는, 목차 기반 자동 문서 작성 시스템.
  2. 제1항에 있어서,
    상기 온톨로지 구축부는,
    상기 목차를 온톨로지의 Tbox 형태의 스키마로 표현하여 관계들을 맵핑하고, 상기 내용을 온톨로지의 Abox 형태의 스키마로 표현하여 관계들을 맵핑하는, 목차 기반 자동 문서 작성 시스템.
  3. 제1항에 있어서,
    상기 문서 분석부는,
    상기 일반문서를 파싱하는 문서 파싱부; 및
    상기 파싱된 일반문서를 미리 설정된 목차 유형과 비교하여 목차를 추출하는 목차 추출부를 포함하는, 목차 기반 자동 문서 작성 시스템.
  4. 제3항에 있어서,
    상기 문서 분석부는,
    미리 설정된 목차 유형을 저장하는 목차 유형 저장부를 더 포함하는, 목차 기반 자동 문서 작성 시스템.
  5. 제1항에 있어서,
    분리된 목차를 저장하는 목차 저장부; 및
    분리된 내용을 저장하는 내용 저장부를 더 포함하는, 목차 기반 자동 문서 작성 시스템.
KR1020170086224A 2017-07-07 2017-07-07 목차 기반 자동 문서 작성 시스템 KR20190005495A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170086224A KR20190005495A (ko) 2017-07-07 2017-07-07 목차 기반 자동 문서 작성 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170086224A KR20190005495A (ko) 2017-07-07 2017-07-07 목차 기반 자동 문서 작성 시스템

Publications (1)

Publication Number Publication Date
KR20190005495A true KR20190005495A (ko) 2019-01-16

Family

ID=65280978

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170086224A KR20190005495A (ko) 2017-07-07 2017-07-07 목차 기반 자동 문서 작성 시스템

Country Status (1)

Country Link
KR (1) KR20190005495A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100751691B1 (ko) 2005-11-08 2007-08-23 삼성에스디에스 주식회사 다수의 파워포인트 문서 편집 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100751691B1 (ko) 2005-11-08 2007-08-23 삼성에스디에스 주식회사 다수의 파워포인트 문서 편집 방법

Similar Documents

Publication Publication Date Title
US11321364B2 (en) System and method for analysis and determination of relationships from a variety of data sources
Zipser et al. A model oriented approach to the mapping of annotation formats using standards.
Dawood From requirements engineering to uml using natural language processing–survey study
Moreno-Schneider et al. Orchestrating NLP services for the legal domain
Casellas et al. Methodologies, tools and languages for ontology design
CN114218472A (zh) 基于知识图谱的智能搜索系统
Gupta et al. Streamlining management of multiple cloud services
Corcho A layered declarative approach to ontology translation with knowledge preservation
Berti et al. Abstractions, Scenarios, and Prompt Definitions for Process Mining with LLMs: A Case Study
Barbieri et al. Towards a natural language conversational interface for process mining
Forcher et al. Towards understandable explanations for document analysis systems
KR101499571B1 (ko) 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치
CN112883202A (zh) 一种基于知识图谱的多组件建模方法和系统
Nistala et al. Towards digitalization of requirements: generating context-sensitive user stories from diverse specifications
Bermudez-Edo et al. Managing technological knowledge of patents: HCOntology, a semantic approach
KR20190005495A (ko) 목차 기반 자동 문서 작성 시스템
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备
Gomez et al. Towards the automatic generation of conversational interfaces to facilitate the exploration of tabular data
Ribarić et al. Model-Driven engineering of rules for web services
Afsarmanesh et al. Ontology engineering and management for VO breeding environments
CN109491649A (zh) Dao代码生成方法及计算机终端
Lewis et al. Global Intelligent Content: Active Curation of Language Resources using Linked Data.
Manika et al. Knowledge Representation in Business Process Automation Systems
US20240095466A1 (en) Method and system for document structure based unsupervised long-form technical question generation
KR101079795B1 (ko) Swrl 룰 정의 시스템