KR101499571B1

KR101499571B1 - 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR101499571B1
Application number: KR20140041663A
Authority: KR
Inventors: 김명호; 조대웅; 최지웅
Original assignee: 숭실대학교산학협력단
Priority date: 2014-04-08
Filing date: 2014-04-08
Publication date: 2015-03-10
Also published as: KR101499571B9

Abstract

일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법은, 일반문서를 분석하여 목차 및 내용으로 분리하는 단계; 목차를 트리 구조 형태로 계층화하는 단계; 및 목차와 내용의 관계를 연결시키면서, 목차 및 내용에 관한 각각의 온톨로지를 자동으로 구축하는 단계를 포함한다. 이에 따라, 비구조화된 정보를 의미 있는 문서로 변환할 수 있으므로, 효율적인 검색 및 활용이 가능하다.

Description

일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD OF CONVERSION TO SEMANTIC DOCUMENTS THROUGH AUTO HIERARCHY CLASSIFICATION OF GENERAL DOCUMENTS, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 시맨틱 검색 및 문서자동화시스템에 이용 가능한 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것이다.

컴퓨터상에 존재하는 다양한 문서들은 정보를 표현하는 방식에 따라 구조화된 정보(structured information), 준구조화된 정보(semi-structured information), 비구조화된 정보(unstructured information)로 나뉠 수 있다.

구조화된 정보란, 정형화된 정보모델에 따라 기록된 정보를 의미하는 것으로 표준화된 스키마 또는 정보모델에 의해 생성되며, 데이터베이스에 저장되어 있는 정보도 이에 해당한다. 준구조화된 정보란, 정형화된 스키마는 없지만 데이터의 내용과 더불어 형식이나 의미를 지니는 부가적인 정보가 포함된 정보로서 HTML과 같은 웹문서나 스키마가 없는 XML 문서가 이에 속한다.

비구조화된 정보란, 특정한 형식 없이 저장된 정보를 의미한다. 대표적으로 한글, 워드로 작성된 문서들을 의미한다. 비구조화된 정보를 저장하는 한글, 워드와 같은 문서의 수는 많은 사람들이 사용하고 있는 정보저장 매체이자 널리 쓰이는 문서의 형태이다. 하지만, 이러한 문서들은 특정한 형식 없이 비구조화된 형태로 자유롭게 생성 가능한 모습을 가지고 있다. 따라서 문서들을 검색하거나, 기구축된 문서들을 활용하여 문서자동화시스템에서 활용하기에는 어려운 모습을 보이고 있다.

목차 정보 추출을 통한 검색 기술은 종래 두 가지 형태의 기술이 존재한다. 문서 내의 검색을 위해 고안된 목차들을 추출하는 방식은 비슷하다. 하지만 추출된 목차의 저장 형태 및 활용방안에 따라 다른 결과가 나타나게 된다.

첫 번째 기술은, 문서파일 내의 정보 검색을 위한 시스템에 관한 것으로서, 사용자가 선택한 문서파일을 등록하되, 문서파일의 파일제목을 문서파일별 고유한 파일고유코드와 연계하여 문서파일을 등록하는 문서등록부, 문서등록부에 등록된 문서파일 내의 각 목차를 추출하되, 각 목차별로 목차제목, 목차가 위치한 페이지, 현재 목차에 대한 상하 목차 간의 계층관계, 목차 내의 텍스트 내용인 내용정보를 각각 추출하고, 목차제목, 페이지, 계층관계 및 내용정보를 목차별 고유한 목차고유코드와 연계하여 저장하는 목차추출부를 포함한다(도 1 참조).

이 경우, 검색창에 검색어가 입력되는 경우, 문서파일 중 내용정보의 텍스트 상에 해당 검색어가 존재하는 모든 문서파일을 검색하여, 해당 문서파일의 파일제목, 텍스트를 포함한 내용정보, 내용정보를 포함하고 있는 목차의 목차제목을 각각 문서파일별로 그룹핑한 검색결과를 검색결과란에 표시하되, 내용정보의 경우 미리보기 형태로 제공한다. 그러나, 이러한 시스템은 단순 키워드 검색 매칭에 의존한 방법으로 그 이상의 검색결과를 기대하기는 어려운 형태로서, 정확한 검색결과를 얻기 위해선 좀 더 진보된 형태의 기술이 필요하다.

두 번째 기술은, 엔지니어링 문서의 문장 자동 계층정의를 위해 목차 추출을 통한 XML 스키마로의 반구조적 문서로 변환하는 기술이다. 도 2를 참조하면, 엔지니어링 문서에서 각 제목의 머리기호가 그 문서의 논리적 계층 구조를 표현한다는 점을 이용하여 문서 내 각 제목의 계층을 자동으로 분류하는 방법론을 제시하였다. 제시된 방법론은 일반 텍스트 문서에서 세부 제목을 추출하는 방법과 추출된 제목의 계층을 정의하는 방법으로 구성된다. 문서의 세부 제목은 문장의 맨 앞에 위치한 머리기호의 형태를 미리 정의된 머리기호 그룹과 비교하여 추출하며, 추출된 제목의 계층은 머리기호 형태의 변화에 따라 각 제목간의 상대적 위치를 파악함으로써 정한다. 제시된 방법론을 이용하여 일반 텍스트 문서를 세부 제목에 따라 구조화된 XML 문서로 변환하는 시범 모듈을 개발하였다.

그러나, 이러한 시스템은 XML 문서의 한계를 지니고 있다. 즉, 이전 세대의 구조적 문서를 만들기 위한 노력으로 XML 문서 형태로의 변환과 관련된 연구는 한때 있었던 기술적 이슈였다. 하지만, XML 문서를 가지고 그 이상의 변환, 응용을 하기엔 기본적인 한계가 있고, 제시된 방법은 머리기호에 해당하는 목차들만을 구조화된 형태로 만들었을 뿐, 실제 내용과의 연계, 응용을 위해선 그 이상의 기술적 진보가 필요하다.

KR

10-0912288

B1

박상일, 김봉근, 김경환, 이상호, "엔지니어링 문서의 문장 자동 계층정의 방법론", 한국전산구조공학회 논문집 제 22 권 제 4 호, pp.323-330, 2009.08.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법은, 일반문서를 분석하여 목차 및 내용으로 분리하는 단계; 상기 목차를 트리 구조 형태로 계층화하는 단계; 및 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 자동으로 구축하는 단계를 포함한다.

본 발명의 실시예에서, 상기 일반문서를 분석하여 목차 및 내용으로 분리하는 단계는, 상기 일반문서를 파싱하는 단계; 및상기 파싱된 일반문서를 미리 설정된 목차 유형과 비교하여 목차를 추출하는 단계를 포함할 수 있다.

본 발명의 실시예에서, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법은, 분리된 목차 및 내용을 각각 저장하는 단계를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 온톨로지를 자동으로 구축하는 단계는, 상기 목차를 온톨로지의 Tbox 형태의 스키마로 표현하여 관계들을 맵핑하는 단계; 및 상기 내용을 온톨로지의 Abox 형태의 스키마로 표현하여 관계들을 맵핑하는 단계를 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 전술한 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환을 수행하기 위한 장치는, 일반문서를 분석하여 목차 및 내용으로 분리하는 문서 분석부; 상기 목차를 계층화된 트리 구조 형태로 저장하는 문서 구조화부; 및 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 자동으로 구축하는 온톨로지 구축부를 포함한다.

본 발명의 실시예에서, 상기 온톨로지 구축부는, 상기 목차를 온톨로지의 Tbox 형태의 스키마로 표현하여 관계들을 맵핑하고, 상기 내용을 온톨로지의 Abox 형태의 스키마로 표현하여 관계들을 맵핑할 수 있다.

본 발명의 실시예에서, 상기 문서 분석부는, 상기 일반문서를 파싱하는 문서 파싱부; 및 상기 파싱된 일반문서를 미리 설정된 목차 유형과 비교하여 목차를 추출하는 목차 추출부를 포함할 수 있다.

본 발명의 실시예에서, 상기 문서 분석부는, 미리 설정된 목차 유형을 저장하는 목차 유형 저장부를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 장치는 분리된 목차를 저장하는 목차 저장부; 및 분리된 내용을 저장하는 내용 저장부를 더 포함할 수 있다.

이와 같은 본 발명에 따르면, 비구조화된 정보를 다루는 문서 중 일반문서에 해당하는 문서의 목차 유형을 선정하고, 자동으로 목차 추출을 위한 알고리즘의 고안과 트리 형태의 자료구조를 통해 구조적 정보로 저장할 수 있다. 또한, 시맨틱 웹 기술을 활용하여 의미적인 정보들을 시맨틱 검색 및 문서자동화시스템에서 이용할 수 있도록 온톨로지 형태로 자동 구축하는 기술을 제공할 수 있다.

도 1은 종래 기술의 문서 내 목차정보를 이용한 검색의 흐름도이다.
도 2는 종래 기술의 엔지니어링 문서의 문장 자동 계층정의를 위해 목차를 추출하는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환을 수행하기 위한 장치의 블록도이다.
도 4는 도 3의 문서 분석도의 상세 블록도이다.
도 5는 도 3의 온톨로지 구축부의 온톨로지 스키마를 설명하기 위한 개념도이다.
도 6은 도 3의 온톨로지 구축부에서 일반문서의 변환 형태를 설명하기 위한 개념도이다.
도 7은 본 발명의 일 실시예에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법의 대략적인 흐름도이다.
도 8은 도 7의 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법의 자세한 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 3은 본 발명의 일 실시예에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환을 수행하기 위한 장치의 블록도이다. 도 4는 도 3의 문서 분석도의 상세 블록도이다. 도 5는 도 3의 온톨로지 구축부의 온톨로지 스키마를 설명하기 위한 개념도이다. 도 6은 도 3의 온톨로지 구축부에서 일반문서의 변환 형태를 설명하기 위한 개념도이다.

본 발명은 비구조화된 정보를 다루는 문서 중 일반문서에 해당하는 문서의 목차 유형을 선정하고, 자동으로 목차 추출을 위한 알고리즘의 고안과 트리 형태의 자료구조를 통한 구조적 정보로의 저장을 구현한다. 그리고, 시맨틱 웹 기술을 활용하여 의미적인 정보들을 시맨틱 검색 및 문서자동화시스템에서 이용할 수 있도록 온톨로지 형태로 자동 구축하는 기술을 제안한다.

온톨로지란, 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다.

온톨로지는 공유된 개념화에 대한 정형화되고 명시적인 명세로서 단어와 관계들로 구성된 일종의 사전으로서 생각할 수 있으며, 그 속에는 특정 도메인에 관련된 단어들이 계층적으로 표현되어 있고, 추가적으로 이를 확장할 수 있는 추론 규칙이 포함되어 있어, 웹 기반의 지식 처리나 응용 프로그램 사이의 지식 공유, 재사용 등이 가능토록 되어있다.

도 3을 참조하면, 본 실시예에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환을 수행하기 위한 장치(10, 이하, 장치)는 문서 분석부(110), 문서 구조화부(130) 및 온톨로지 구축부(150)를 포함한다.

본 발명의 상기 장치(10)는 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 문서 분석부(110) 등의 구성은 상기 장치(10)에서 실행되는 상기 음주 판별을 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 단말(terminal), UE(user equipment), MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 문서 분석부(110)는 일반문서를 분석하여 목차 및 내용으로 분리한다. 여기서, 일반문서란, 스키마 및 특정한 형식 없이 저장된 비구조적 문서로서, 대표적으로 한글, 워드 등으로 작성된 문서들을 의미한다.

일반적으로 표준화된 스키마 또는 정보모델에 의해 생성된 구조 문서 및 정형화된 스키마는 없지만 데이터의 내용과 더불어 형식이나 의미를 지니는 부가적인 정보가 포함된 정보로서 HTML과 같은 웹문서나 스키마가 없는 XML 문서인 반구조적 문서는 문서자동화시스템에서 활용하기 편리하다.

그러나, 한글, 워드와 같이 많은 사람들이 사용하고 있는 정보저장 매체이자 많이 쓰는 문서의 형태인 비구조적 문서는 특정한 형식 없이 자유롭게 형성되어 문서들을 검색하거나, 기구축된 문서들을 활용하여 문서자동화시스템에서 활용하기 어렵다. 이에 따라, 본 발명에서는 일반문서를 구조화된 형태로 변환하고 구조화된 자료를 이용하여 온톨로지 파일로 자동 변환한다.

먼저 상기 문서 분석부(110)는 일반문서의 형태를 구조화시킬 수 있는 정보를 추출하기 위해서, 일반문서를 한 줄씩 파싱(parsing)하면서, 목차에 해당하는 부분과 내용에 해당하는 부분을 구별하여 목차에 해당하는 부분을 미리 설정된 목차 유형과 비교를 통해 목차 부분을 추출한다.

이를 위해, 상기 문서 분석부(110)는 상기 일반문서를 파싱하는 문서 파싱부(111) 및 상기 파싱된 일반문서로부터 목차를 추출하는 목차 추출부(115)를 포함한다(도 3 참조).

또한, 상기 문서 분석부(110)는 미리 설정된 목차 유형을 저장하는 목차 유형 저장부(113)를 더 포함할 수 있다. 즉, 상기 문서 분석부(110)는 (Ⅰ, Ⅱ, Ⅲ,...), (ⅰ, ⅱ, ⅲ,...), (①, ②, ③,...), (1), 2), 3),...), (1, 2, 3,...), (A, B, C,...), (a, b, c,...), (가, 나, 다,...), (ㄱ, ㄴ, ㄷ,...) 등의 번호 순서 및 들여쓰기, 내어쓰기, 탭 등의 서식을 포함하는 목차 유형을 미리 저장해 둘 수 있다.

이 경우, 상기 목차 추출부(115)는 상기 파싱된 일반문서를 미리 저장된 목차 유형과 비교하여 목차를 추출할 수 있다. 여기서, 목차는 (Ⅰ, Ⅱ, Ⅲ,...), (ⅰ, ⅱ, ⅲ,...) 등의 번호 순서 및 서식을 포함하는 개념이고, 내용은 목차 옆의 제목 및 목차 아래의 실질적 내용을 포함하는 개념이다.

상기 문서 분석부(110)가 목차를 추출하여 일반문서를 목차 및 내용으로 분리하면, 분리된 목차 및 내용을 상기 문서 구조화부(130)로 출력한다.

다만, 상기 장치(10)가 상기 분리된 목차를 저장하는 목차 저장부(미도시) 및 상기 분리된 내용을 저장하는 내용 저장부(미도시)를 더 포함하여, 상기 분리된 목차 및 내용이 각각 저장될 수 있다.

상기 문서 구조화부(130)는 상기 목차를 계층화된 트리 구조 형태로 저장하여, 계층화 및 구조화되지 않은 일반문서의 형태를 구조화시킨다. 다시 말해, 상기 문서 구조화부(130)는 목차의 상하 계층관계에 따라 목차의 순서 및 서식을 저장한다. 계층화된 문서의 정보는 내부 트리 구조에 의해 저장되어 관리 및 추적이 가능하도록 한다.

상기 온톨로지 구축부(150)는 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 자동으로 구축한다. 상기 온톨로지 구축부(150)는 상기 목차에 관한 온톨로지를 구축하는 제1 온톨로지 구축부(151) 및 상기 내용에 관한 온톨로지를 구축하는 제2 온톨로지 구축부(153)를 포함할 수 있다.

이때, 상기 온톨로지 구축부(150)는 일반문서의 분석 및 추출에 의해 계층화된 트리 구조 정보를 바탕으로 웹 온톨로지 언어(Ontology Web Language, 이하 OWL) 형태의 온톨로지 로직을 자동 구축한다.

상기 OWL는 웹 상에서 첨단의 웹 검색, 소프트웨어 에이전트 및 지식 관리 기능을 제공하는 온톨로지를 발간 및 공유하기 위한 시맨틱 웹 생성 언어로서, 웹 온톨로지와 그에 관련된 지식을 정의하는 언어로 추론 시스템에 축적된 명제들을 정의하며, 클래스 및 그 구성원 간의 관계를 기술하고, 구문적으로 정의되지 않은 사실의 논리적 유추를 가능하게 하는 클래스 및 속성과 이에 적용할 수 있는 제약 사항의 집합으로 되어 있다.

상기 온톨로지 구축부(150)에서 온톨로지 구축 시 필요한 OWL 레벨은 디스크립션 로직(description logic, DL)을 따르며, 기존의 시맨틱 웹 프레임워크(Jena: https://jena.apache.org/, OWL API: http://owlapi.sourceforge.net/)를 이용하여 구축 및 파싱, 추론까지 가능한 레벨로 만들 수 있다.

상기 온톨로지 구축부(150)에서 온톨로지를 구축하기 위한 스키마 정의는 기본적으로 레벨 온톨로지, 내용 온톨로지의 2개 온톨로지를 구축한다. 상기 2개의 온톨로지는 level class, contents class 형태로 정의되며 level class는 hasContents 프로퍼티에 의해 contents class 요소를 가질 수 있도록 연결한다.

도 5를 참고하여 설명하면, level class는 계층 정의에 의해 구분된 목차들의 레벨을 나타내는 클래스로 level class의 하위 클래스로 레벨의 단계를 나타낸다. 예를 들어, level class의 하위 클래스는 levell 값을 나타내는 클래스가 정의되어, level1 class가 된다. 관계로 기술하면, 다음과 같이 level1 sub Class Of level의 트리플로 묘사할 수 있다. 그 외, 해당 컨텐츠 내용과 관련된 웹 정보를 가지고 있는 온톨로지 및 해당 컨텐츠를 세부적으로 분석해서 컨텐츠의 의미를 파악하는 온톨로지 클래스까지 구축 스키마에 포함될 수 있다.

도 6을 참조하면, 적재된 자료구조에서 목차에 대한 부분과 내용에 대한 부분을 분리 적용하여, 목차에 대한 부분은 온톨로지의 TBox(terminological component) 형태의 스키마로 표현하여 관계들을 맵핑하게 된다. 또한, 내용 부분에 해당하는 ABox(assertion component)를 인스턴스 형태로 자동 기술하여 온톨로지를 완성한다.

TBox는 사실의 집합으로 알려진 ABox와 관계된 개념화로서, ABox 및 TBox는 온톨로지에 진술의 두 가지 유형을 설명하는데 사용된다. TBox 진술은, 개념 및 이러한 개념의 속성 집합의 개념화를 설명하고, ABox는 그 개념에 속하는 개인에 관한 TBox 호환 진술이다.　이로서, ABox 및 TBox 진술은 지식 기반을 구성하고, TBox는 정의와 전문화의 집합이다.

상기 제1 온톨로지 구축부(151)는 목차를 TBox 형태로 구축하며, 상기 제2 온톨로지 구축부(153)는 내용을 ABox 형태로 구축할 수 있다. 이때, 상기 TBox는 스키마 정의, 공리(axiom), 추론 규칙, 분류 법칙 등을 이용하여 온톨로지를 구축하고, 상기 ABox는 인스턴스, 속성값, 일관성 체크 등을 이용하여 온톨로지를 구축할 수 있다.

이와 같은 온톨로지 구축은 자동화된 엔진에 의해서 수행되며, 일련의 미리 정의된 규칙에 의해 해당 문서 데이터를 의미적인 문서로의 변환을 완료한다. 변환된 문서 데이터는 의미가 맵핑된 문서로, 시맨틱 검색 및 검색 시스템에서 활용 가능하다. 즉, 시맨틱 웹 기술을 이용하여 의미적 검색에 활용이 가능하다.

시맨틱 웹이란, 현재의 인터넷과 같은 분산 환경에서 리소소(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(semantics)를 기계(컴퓨터)가 처리할 수 있는 형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임 워크이자 기술이다. 시맨틱은 기계끼리 대화를 주고받는 것으로, 웹을 지능형으로 만들어, 컴퓨터들이 웹상의 모든 데이터와 컨텐츠, 링크들을 분석해 인간과 컴퓨터 간의 대화를 처리하는 것이다. 이미 우리 주변에는 시맨틱 웹이 존재하고 있는데, RDF, OWL, 마이크로포맷 등이 그 중 일부이다.

본 발명에서는 의미를 이해하기 힘든 일반문서의 구조를 자동적으로 분석하여, 추출해 낼 수 있는 정보인 목차와 내용적인 부분을 분리 적용함으로써, 해당 문서의 구조 및 계층이 정의된다. 목차 추출은 일반문서에서 나타나는 공공기관, 금융기관과 같은 곳의 문서 형태를 바탕으로 목차대상 범위를 지정, 해당 문서의 비교 모듈로서 동작 가능하게끔 한다. 이렇게 정의된 구조적 정보를 컴퓨터가 이해 가능한 자료구조에 적재하여 다른 활용을 위한 준비를 마치는 것이다.

따라서, 본 발명에 따라 온톨로지 형태로 변환 구축된 일반문서의 데이터는 의미가 맵핑된 문서로서, 시맨틱 웹 기술을 이용하여 의미적 검색 등 다양한 분야에서 활용 가능하며, 종래 기술에 비해 발전된 검색 결과를 제공할 수 있다.

도 7은 본 발명의 일 실시예에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법의 대략적인 흐름도이다. 도 8은 도 7의 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법의 자세한 흐름도이다.

본 실시예에 따른 문서 변환 방법은, 도 3의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다. 또는, 본 실시예에 따른 문서 변환 방법은 문서 변환을 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 7을 참조하면, 본 실시예에 따른 문서 변환 방법은, 일반문서의 목차를 추출한다(단계 S10). 이어, 상기 목차를 트리 구조 형태로 구조화 하고(단계 S30), 트리 구조 형태로 저장된 자료를 바탕으로 목차의 레벨과 내용에 관한 온톨로지 클래스를 생성하여 각각의 관계를 연결시키면서, 자동으로 온톨로지 형태로 구축한다(단계 S50).

이하에서는 도 8을 참고하여, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법을 상세히 설명한다.

도 8을 참조하면, 먼저 일반문서를 분석하는 단계(단계 S11)를 거친다. 상기 일반문서를 분석하는 단계(단계 S11)는 일반문서를 분석하여 목차 및 내용으로 분리한다. 여기서, 일반문서란, 스키마 및 특정한 형식 없이 저장된 비구조적 문서로서, 대표적으로 한글, 워드 등으로 작성된 문서들을 의미한다.

구체적으로, 상기 일반문서를 분석하는 단계(단계 S11)는, 상기 일반문서를 파싱하는 단계 및 상기 파싱된 일반문서를 미리 설정된 목차 유형과 비교하여 목차를 추출하는 단계를 포함한다. 이때, 미리 목차 유형으로 설정된 목차의 번호 순서 및 들여쓰기, 내어쓰기, 탭 등의 서식을 미리 저장해 두고, 파싱된 일반문서의 데이터를 미리 저장된 목차 유형과 비교하여 목차에 해당하는 부분을 추출할 수 있다.

목차는 예를 들어, (Ⅰ, Ⅱ, Ⅲ,...), (ⅰ, ⅱ, ⅲ,...), (①, ②, ③,...), (1), 2), 3),...), (1, 2, 3,...), (A, B, C,...), (a, b, c,...), (가, 나, 다,...), (ㄱ, ㄴ, ㄷ,...) 등이다. 그러나, 이에 한정되지 않고 목차는 내용의 차례를 나타내는 모든 대상을 포함할 수 있을 것이다.

본 발명에서, 목차는 (Ⅰ, Ⅱ, Ⅲ,...), (ⅰ, ⅱ, ⅲ,...) 등의 번호 순서 및 서식을 포함하는 개념이고, 내용은 목차 옆의 제목 및 목차 아래의 실질적 내용을 포함하는 개념이다.

이 과정에서 상기 분리된 목차 및 내용이 각각 저장될 수 있다(단계 S21 및 단계 S23).

상기 목차는 트리 구조 형태로 계층화 된다(단계 S31). 이 단계(단계 S31)는 계층화 및 구조화되지 않은 일반문서의 형태를 구조화하여 관리 및 추적이 가능하도록 한다.

상기 분리된 목차 및 내용 또는 상기 저장된 목차 및 내용은 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 자동으로 구축된다(단계 S51).

이때, 적재된 자료구조에서 목차에 대한 부분과 내용에 대한 부분을 분리 적용하여, 목차에 대한 부분은 온톨로지의 TBox 형태의 스키마로 표현하여 관계들을 맵핑하게 된다. 또한, 내용 부분에 해당하는 ABox를 인스턴스 형태로 자동 기술하여 온톨로지를 완성한다.

이와 같은 온톨로지 구축은 자동화된 엔진에 의해서 수행되며, 일련의 미리 정의된 규칙에 의해 해당 문서 데이터를 의미적인 문서로의 변환을 완료한다. 변환된 문서 데이터는 의미가 맵핑된 문서로, 시맨틱 프레임 워크를 이용하여 의미적 검색에 활용이 가능하다.

이와 같은, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치를 통해, 일반문서를 웹 온톨로지 언어 형태로 자동변환 함으로서, 데스크탑 내의 문서검색 및 문서자동화시스템, 웹에서의 문서검색에서의 시맨틱 검색을 위한 메타데이터로 사용될 수 있다. 이는 일반문서에 의미론적 추론이 가능한 시맨틱 문서로의 변경을 했다는데 의의가 있다.

또한, 의미적 문서 혹은 시맨틱 문서는 시맨틱 검색으로 활용이 가능하며, 검색하고자 하는 정보 외에 또 다른, 요소의 부가적 정보까지 문서 내에서 도출해낼 수 있다는 장점을 갖는다. 나아가, 규정에 준하는 지침, 기준, 매뉴얼 등 일반문서에 대한 개정절차 및 개정과정에 필요한 문서작성규칙 표준화 연구 및 개정법 대비표(현행법률 및 개정법률) 자동작성편집기 개발 등에 활용할 수 있다.

10: 장치 110: 문서 분석부
130: 문서 구조화부 150: 온톨로지 구축부
151: 제1 온톨로지 구축부 153: 제2 온톨로지 구축부
111: 문서 파싱부 113: 목차 유형 저장부
115: 목차 추출부

Claims

문서 분석부가 일반문서를 분석하여 목차 및 내용으로 분리하는 단계;
문서 구조화부가 상기 목차를 트리 구조 형태로 계층화하는 단계; 및
온톨로지 구축부가 상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 구축하는 단계를 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법.
제1항에 있어서,
상기 문서 분석부가 상기 일반문서를 분석하여 목차 및 내용으로 분리하는 단계는,
상기 일반문서를 파싱하는 단계; 및
상기 파싱된 일반문서를 미리 설정된 목차 유형과 비교하여 목차를 추출하는 단계를 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법.
제1항에 있어서,
목차 저장부가 상기 분리된 목차를 저장하는 단계; 및
내용 저장부가 상기 분리된 내용을 저장하는 단계를 더 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법.
제1항에 있어서,
상기 온톨로지 구축부가 상기 온톨로지를 구축하는 단계는,
상기 목차를 온톨로지의 Tbox 형태의 스키마로 표현하여 관계들을 맵핑하는 단계; 및
상기 내용을 온톨로지의 Abox 형태의 스키마로 표현하여 관계들을 맵핑하는 단계를 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법.
제1항 내지 제4항 중 어느 하나의 항에 따른 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
일반문서를 분석하여 목차 및 내용으로 분리하는 문서 분석부;
상기 목차를 계층화된 트리 구조 형태로 저장하는 문서 구조화부; 및
상기 목차와 상기 내용의 관계를 연결시키면서, 상기 목차 및 상기 내용에 관한 각각의 온톨로지를 구축하는 온톨로지 구축부를 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 장치.
제6항에 있어서, 상기 온톨로지 구축부는,
상기 목차를 온톨로지의 Tbox 형태의 스키마로 표현하여 관계들을 맵핑하고, 상기 내용을 온톨로지의 Abox 형태의 스키마로 표현하여 관계들을 맵핑하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 장치.
제6항에 있어서, 상기 문서 분석부는,
상기 일반문서를 파싱하는 문서 파싱부; 및
상기 파싱된 일반문서를 미리 설정된 목차 유형과 비교하여 목차를 추출하는 목차 추출부를 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 장치.
청구항 9은(는) 설정등록료 납부시 포기되었습니다.

제8항에 있어서, 상기 문서 분석부는,
미리 설정된 목차 유형을 저장하는 목차 유형 저장부를 더 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 장치.
제6항에 있어서,
분리된 목차를 저장하는 목차 저장부; 및
분리된 내용을 저장하는 내용 저장부를 더 포함하는, 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 장치.