KR20070062800A - 규칙기반의 전자문서 변환방법 및 그 시스템 - Google Patents

규칙기반의 전자문서 변환방법 및 그 시스템 Download PDF

Info

Publication number
KR20070062800A
KR20070062800A KR1020050122613A KR20050122613A KR20070062800A KR 20070062800 A KR20070062800 A KR 20070062800A KR 1020050122613 A KR1020050122613 A KR 1020050122613A KR 20050122613 A KR20050122613 A KR 20050122613A KR 20070062800 A KR20070062800 A KR 20070062800A
Authority
KR
South Korea
Prior art keywords
document
hml
xml
processing
information
Prior art date
Application number
KR1020050122613A
Other languages
English (en)
Other versions
KR100762712B1 (ko
Inventor
주원균
정창후
박동인
최기석
양명석
김태현
성낙윤
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020050122613A priority Critical patent/KR100762712B1/ko
Publication of KR20070062800A publication Critical patent/KR20070062800A/ko
Application granted granted Critical
Publication of KR100762712B1 publication Critical patent/KR100762712B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙기반의 자동화 기법을 도입함으로써 과제관리 및 성과정보서비스에서 필요로 하는 방대한 양의 정보를 빠른시간 내에 정확하게 구축할 수 있는 규칙기반의 전자문서 변환방법 및 그 시스템을 제시한다.
본 발명에 의하면, 입력대상 문서는 데몬 형태의 워드2HML 변환엔진을 통해 HML이라는 중간형태의 XML 문서로 변환되고, HML 문서에 매핑 규칙을 적용함으로써 다양한 형태(표, 리스트, 특정 문자열 등)의 정보를 추출해 낼 수 있다. 상기 추출된 정보는 데이터베이스 입력을 위해 메모리나 외부 파일에 XML 형식의 자료 모양을 갖추고 있어서 별도의 처리기를 거쳐 데이터베이스(DB)에 저장된다. 따라서, 이러한 일련의 자동화된 방법은 기존의 웹 기반의 수동 입력 인터페이스를 이용한 정보 구축의 단점을 보완하기 위한 대체 입력 방법으로서 가시적인 효과를 보여줄 수 있다.
전자문서, 매핑규칙, 규칙문서, HML, XML, 정보추출

Description

규칙기반의 전자문서 변환방법 및 그 시스템{Method for transforming of electronic document based on mapping rule and system thereof}
도 1은 종래 기술에 따른 워드 문서의 수동입력 방식을 설명하기 위한 개략도이다.
도 2는 본 발명에 따라 규칙기반 워드 문서의 정보 자동 추출 및 입력 방식을 나타낸 개략도이다.
도 3은 본 발명의 실시 예에 따른 규칙기반 정보 자동 추출시스템의 세부 구성도이다.
도 4는 본 발명에 따라 HML 형태로 변환된 전자문서에서 정보를 추출하기 위해 매핑 규칙을 정의한 XML 매핑 규칙 문서의 구조도 이다.
< 도면의 주요부분에 대한 부호의 설명 >
22: 입력 문서 28: 데이터베이스
32: HML 문서 34: 매핑 문서
100: 워드2HML 변환엔진 110: HML 변환부
120: HWP 변환 OCX 라이브러리 130: DOC 변환 OCX 라이브러리
200: HML2XML 변환엔진 210: XML 처리엔진
211: HML 처리기 212: 매핑 처리기
220: HWP2XML 메인 처리기 230: 파일 처리기
240: 로그처리기 300: XML2DB
310: XML 처리엔진 320: DB 저장부
330: DB 처리기
본 발명은 규칙기반의 전자문서 변환방법 및 그 시스템에 관한 것이다. 더욱 상세하게는 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙 기반의 자동화 기법을 적용할 수 있는 기술에 관한 것이다.
최근 전자/반도체 분야 및 통신기술분야의 비약적인 발전에 동반해서 대량의 정보를 고속으로 처리할 수 있도록 설계된 컴퓨터가 보급되면서 정보화 사회의 발전이 가속화되는 상황이다.
이러한 정보화 사회에서는 컴퓨터에 의한 전자문서처리의 필요성이 요구됨에 따라 워드프로세서라든지 전자출판을 포함하는 전자문서처리시스템이 현실화된 상태이지만, 전자문서처리시스템에 의해 작성된 문서는 각기 독립적인 문서구조와 다양한 내용정보를 갖기 때문에 상호 다른 문서처리시스템 및 장치에 의한 문서처리 환경에서 각 문서의 교환 및 공유를 위한 표준문서구조모델이 요구되었다.
최근 확장성 표기언어(eXtensible Markup Language; XML)를 이용해서 전자문서를 작성하는 예가 늘어나고 있다. 세계적으로 XML의 이용률이 급속히 높아지고 있으며, 국내에서도 일반 기업체는 물론 정부와 관공서, 공공 기관에서의 XML 도입이 크게 늘고 있다. 이들 전자문서들은 각 기관 내에서 정한 문법에 기반해서 작성되는 경우가 일반적이다.
특히, XML로 작성된 전자문서들이 급속히 늘면서 서버에서 문서들을 유지하고 있다가 사용자 요청에 따라 원하는 전자문서를 찾아서 제공하는 클라이언트/서버 구조로 전자문서가 관리되는 예가 늘어나고 있다.
이와 관련된 공지의 종래 기술로서,“출원번호: 10-2005-0092446(2005.09.30), 발명의 명칭: 확장성 표기언어 기반의 전자문서 버전 매김 및 버전을 이용한 갱신 문서 제공 방법”이 제시되어 있다.
상기의 공지 기술에서는 구조화된 전자문서의 구조를 정의하는 문법을 이용하여 전자문서를 작성함에 있어서, 수정 또는 추가된 날짜를 버전 값으로 사용함으로써 저장소에서 문서를 쉽게 관리할 수 있게 하고, 갱신 정보 요청시 버전 값을 이용하여 변경, 추가된 내용들만을 모아서 통보하여 제공받는 측의 전자문서의 점진적 갱신을 가능케 하는 것을 기술적 특징으로 한다.
또한, 공지의 종래 기술로서 “출원번호: 10-2003-0084285(2003.11.26), 발명의 명칭: XML 기반의 전자문서 변환 장치 및 방법”이 제시되어 있다.
상기의 공지 기술을 살펴보면, 매핑부는 관리부를 통해 외부장치로부터 수신된 제1형식의 전자문서에 대한 목표 전자문서의 형식을 입력받으며, 변환부는 매핑부의 요청에 의해 제1형식의 전자문서를 제1형식에 대응하는 어댑터에 의해 제1IXML 문서로 변환한다.
이때, 상기 매핑부는 제1IXML 문서로부터 목표 전자문서의 형식에 대응하는 제2IXML 문서를 생성하며, 상기 변환부는 매핑부의 요청에 의해 제2IXML문서를 목표 전자문서의 형식에 대응하는 어댑터를 이용하여 목표 전자문서로 변환할 수 있다. 따라서, 새로운 전자문서 유형이 추가되더라도 짧은 시간 안에 기타 유형들과 연동되어 시스템의 유지보수성과 적응성을 증대시킬 수 있다.
그러나, 상기의 공지된 종래 기술들은 구조화된 전자문서의 구조를 정의하는 문법을 이용하여 전자문서를 작성하거나 혹은 XML 기술을 기반으로 다양한 전자문서 유형들 사이의 상호 변환을 효율적으로 수행할 수 있다는 장점이 있으나, 전자문서(HWP,DOC) 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙 기반(매핑 룰)의 자동화 기법을 도입하는 본 발명의 기술과는 기술적 특징의 차이점이 존재한다.
도 1은 종래 기술에 따른 워드 문서의 수동입력 방식을 설명하기 위한 개략도이다.
도 1을 살펴보면, HWP, DOC 등과 같은 입력문서(10)가 컴퓨터에 의해 판독되어 사용자 단말(12)로 제공되면, 사용자 단말(12)에서는 사용자가 수동입력 인터페 이스(12)를 이용하여 필요에 따라 정보를 수동 입력하며, 상기 수동 입력된 데이터는 데이터베이스(DB)(14)에 저장된다.
이때, 상기 사용자 단말(12)와 데이터베이스(16)는 연구성과정보시스템이나 과제관리시스템을 나타내는 서비스시스템(18)과 연동 되어 있다.
상기와 같은 구조의 종래 기술에서는 사용자가 연구성과정보시스템이나 과제관리시스템에 자료를 입력하기 위해 데이터베이스에 대한 직접적인 접근이나 관리 권한이 없으며, 자료 입력을 위한 별도의 편리한 도구를 제공받지 못하였다.
이러한 종래 방식에서는 사용자가 입력문서를 참고하여 폼(Form)에 수동으로 자료를 직접 타이핑함으로써 자신이 속한 기관의 데이터를 구축해야 했기 때문에 많은 인력과 시간을 소모되었다.
이에 대한 보완책으로 종래 기술에서는 일부 항목에 대해서 엑셀로 데이터를 구축하여 입력하는 방식이 사용되기도 하였다.
그러나, 기관의 제출을 위한 전자문서(HWP,DOC)를 작성하고 별도의 전자문서(EXCEL)를 작성한다는 것 역시 시스템 사용자의 업무 부담을 가중시키게 하였다. 또한 데이터 입력의 작업 효율을 떨어뜨리며, 입력 데이터에 대한 오류 검증에 많은 시간이 소요되었다.
이에, 본 발명은 상기한 문제점을 해결하기 위한 것으로서 본 발명은 기존의 웹 기반의 수동입력 인터페이스를 이용한 정보 구축의 단점을 보안 하기 위한 대체 입력방법으로서 규칙기반의 전자문서 변환방법 및 그 시스템을 제공하는 데 그 목적이 있다.
본 발명의 다른 목적은 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙기반의 자동화 기법을 도입함으로써 과제 관리 및 성과정보 서비스에서 필요로 하는 방대한 양의 정보를 빠른 시간내에 정확하게 구축할 수 있도록 하는 데 있다.
상기한 본 발명의 목적을 달성하기 위한 기술적 사상으로서 본 발명은 입력된 전자문서를 HML 문서로 변환하는 단계; 상기 HML 문서에 매핑 규칙을 적용하여 소정 형태의 정보를 추출하고, 데이터베이스 처리용 XML 문서를 생성하는 단계; 및 상기 XML 문서를 데이터베이스(DB)에 저장하는 단계를 포함하는 전자문서 변환방법을 제공한다.
또한, 본 발명에 의하면, 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 워드2HML 변환부와; 상기 HML 문서에 매핑 문서를 적용하여 정보를 분석하고 정보를 자동 추출하여 DB용 XML 문서를 생성하기 위한 HML2XML 변환부; 및 상기 XML 문서를 데이터 처리하여 데이터베이스(DB)에 저장하기 위한 XML2DB부를 포함하며, 상기 워드2HML 변환부는 HWP 혹은 DOC의 입력 전자문서를 HWP 변환 OCX 라이브러리 혹은 DOC 변환 OCX 라이브러리를 이용하여 HML 문서로 변환하는 HML 변환부로 구성되며, 상기 HWP2XML 변환부는 HML 문서 처리를 위한 HML 처리기와 매핑 규칙이 적용되어 XML 문서 생성을 위한 매핑 처리기를 구비하는 XML 처리엔진과; 소스구조 처리, 대상구조 처리, 함수 처리 및 변수 처리를 위한 HWP2XML 메인 처리기; 파일을 처리하기 위한 파일처리기 및 로그를 처리하기 위한 로그처리기로 구성되며, 상기 XML2DB부에는 XML 문서를 처리하기 위한 XML 처리엔진과; 상기 처리된 XML문서를 데이터베이스 하기 위한 DB저장부; 및 상기 저장된 XML 문서를 데이터베이스에 저장하기 위해 데이터 처리하는 DB 처리기로 구성되는 것을 특징으로 하는 전자문서 변환시스템을 제공한다.
이하, 본 발명의 실시 예에 대한 구성 및 그 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
도 2는 본 발명에 따라 규칙기반 워드 문서의 정보 자동 추출 및 입력 방식을 나타낸 개략도이다.
도 2에 도시된 바와 같이, 사용자 단말(20)의 지시에 의해 입력문서(예; HWP, DOC)(22)와 규칙문서(예; XML)(24)를 바탕으로 규칙기반 정보 자동 추출시스템(26)을 이용하여 문서 정보를 변환하고 필요한 정보를 자동 추출한 후 상기 추출된 정보를 데이터베이스(DB)(28)에 저장한다.
이때, 상기 사용자 단말(20)과 데이터베이스(28)는 연구성과정보시스템이나 과제관리시스템을 나타내는 서비스시스템(30)과 연동 되어 있다.
즉, 본 발명에서는 종래 방식의 해결책으로써 기관의 제출을 위한 입력용 전자문서(HWP, DOC)에서 정보를 자동 추출하여 데이터베이스를 구축한다. 따라서, 시 스템 사용자는 기관의 제출을 위해 작성한 전자문서를 시스템 데이터 구축 시 동일하게 사용함으로써 업무 부담을 해소할 수 있다.
도 3은 본 발명의 실시 예에 따른 규칙기반 정보 자동 추출시스템의 세부 구성도를 나타낸 것이다.
본 발명에 의한 규칙기반 정보 자동추출 방법은 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 제 1단계와; 상기 HML 문서에 규칙(Mapping Rule)을 적용함으로써 다양한 형태(표, 리스트, 특정 문자열 등)의 정보를 추출하고, DB 처리용 XML 문서를 생성하기 위한 제 2단계; 및 상기 DB 처리용 XML 문서를 데이터베이스에 저장하는 제 3단계로 구성된다.
이러한 과정은 도 3에 도시된 규칙기반 정보 자동추출 시스템으로 구현된다. 도 3을 살펴보면, 본 발명은 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 워드2HML 변환엔진(100)과; 상기 HML 문서에 매핑 문서를 적용하여 정보를 분석하고 정보를 자동 추출하여 DB용 XML 문서를 생성하기 위한 HML2XML 변환엔진(200); 및 상기 XML 문서를 데이터 처리하여 데이터베이스(DB)에 저장하기 위한 XML2DB(300)로 구성된다.
워드2HML 변환엔진(100)은 HWP 혹은 DOC의 입력 전자문서(22)를 HWP 변환 OCX 라이브러리(120) 혹은 DOC 변환 OCX 라이브러리(130)을 이용하여 HML 변환부(110)를 거쳐 HML 문서로 변환한다.
즉, 상기의 입력 전자문서를 HML 문서(32)로 변환하기 위해서는 HWP 워드 (HWP) 혹은 마이크로 소프트 워드(DOC)문서 변환을 위해 각 벤더(Vender)에서 제공하는 OCX 라이브러리를 이용한다.
또한, 불특정 다수를 대상으로 효과적인 변환서비스를 제공하기 위해 워드2HML 변환엔진(100)을 적용한 독립 데몬(Standalone Daemon)을 적용하여 윈도우즈 서버환경에서 서비스를 제공한다.
HWP2XML 변환엔진(200)은 HML 문서 처리를 위한 HML 처리기(211)와 매핑 규칙이 적용되어 XML 문서 생성을 위한 매핑 처리기(212)를 구비하는 XML 처리엔진(210)과; 소스구조 처리, 대상구조 처리, 함수 처리 및 변수 처리를 위한 HWP2XML 메인 처리기(220); 파일을 처리하기 위한 파일처리기(230) 및 로그를 처리하기 위한 로그처리기(240)로 구성된다.
이때, HWP2XML 변환엔진(200)은 비구조화 문서인 HWP 문서에서 데이터를 추출해서 구조화된 문서인 XML를 생성하는 도구로서, 그 특징은 매핑(Mapping) 문서에 의해서 변환 정보를 표현하며, 잘못된 문서나 혹은 문서 틀의 편집 여부를 검사하는 문서유효성 검증 기능, 미리 주어진 조건에 의해서 데이터를 검증하는 데이터 검증 기능, 데이터를 원하는 형태로 변형하는 데이터 가공 기능 및 함수 및 변수를 사용하는 기능을 구비한다.
또한, HWP2XML 변환엔진(200)의 기능은 크게 유효성 검증기능과 XML문서 생성기능으로 나누어진다. 유효성 검증(Validation)에는 XML 문서를 생성하지 않으며, 문서와 데이터의 유효성을 검사할 수 있다. 미리 기술된 매핑 문서를 기준으로 잘못된 문서를 입력하거나 문서의 기본 틀은 변경한 경우 또는 잘못된 데이터를 입 력한 경우를 검사할 수 있다.
따라서, HWP2XML 변환엔진(200)은 매핑 문서(34)를 사용함으로써 HML 문서(32)를 분석하여 정보를 추출하고 DB 저장용 XML 문서를 생성해 낼 수 있다.
부연 설명하면, 본 발명에서의 매핑(규칙) 문서(34)는 HML문서(32) 내에서 추출할 정보에 대한 각종 구조적인 정보를 명세하고, 검증을 위한 정보, 각종 계산과 처리를 위한 함수와 변수를 갖고 있으며, DB 저장용 XML 문서(36)를 위한 정보와 규칙을 구비하고 있다.
여기서, 상기의 매핑 규칙이란 비정형문서에서 데이터를 억세스할 수 있도록 하기 위한 규칙으로서 종래의 hwp, doc 등 구조화 되지 않은 문서들은 특성상 데이터(태그(tag)정보 포함) 상호 간의 관계에 의한 데이터의 억세스(access)가 불가능하다. 또한, XML 문서에서와 같이 문서 전체에 공통으로 통하는 룰(rule)이 존재하지 않는다. 그러나, 구조화되지 않은 문서라도 문서의 일부분에는 특정 룰을 적용할 수 있으며, 또한 문서 내에 다른 데이터를 찾기 위한 기준이 될 수 있는 데이터가 존재하기 때문에 그러한 것들을 이용하면 데이터를 억세스할 수 있게 된다.
이때, 상기의 매핑 문서(파일)에는 헤드(head), 프로퍼티(properties), 소스(source) 문서의 계층구조와 데이터의 위치, 타겟(target) 문서정보, 소스(source) 문서의 검증(validation) 정보, 데이터 검증정보, 데이터 변환정보 등이 분류되어 기록되어 있다.
XML2DB(300)는 XML 문서를 처리하기 위한 XML 처리엔진(310)과; 상기 처리된 XML문서를 데이터베이스 하기 위한 DB저장부(320); 및 상기 저장된 XML 문서를 데 이터베이스에 저장하기 위해 데이터 처리하는 DB 처리기(330)로 구성되어 있다. 상기 데이터 처리된 파일 혹은 메모리 형태의 XML 문서는 최종적으로 데이터베이스(28)에 저장된다.
즉, 상기 추출된 정보를 데이터베이스(28) 입력을 위해 메모리나 외부 파일에 XML문서(36) 형식의 자료 모양을 갖추고 있어서 별도의 처리기를 거쳐 데이터베이스(28)에 저장된다.
도 4는 도 3에 도시된 모듈 중 HML 형태로 변환된 전자문서에서 정보를 추출하기 위해 매핑 규칙을 정의한 XML 매핑 규칙 문서를 나타낸 것이다.
도 4에 도시된 바와 같이, XML 매핑 규칙 문서의 상위계층에는 컨버젼(Conversion) 엘리먼트가 존재하고, 그 하위 계층에는 헤드(head), 프로퍼티(properties), 프리페어(prepared), 매핑(mapping) 엘리먼트가 각각 존재한다.
각 구성요소의 기능을 살펴보면, 헤드(head) 엘리먼트는 매칭 규칙 작성 및 갱신에 대한 정보를 유지하며, 프로퍼티(properties) 엘리먼트는 소스 HML 문서의 일반 정보 및 대상 XML 문서의 생성을 위한 기본설정 정보가 담겨져 있다.
프리페어(prepared) 엘리먼트는 대상 XML 문서의 구조를 형성하며 타겟 문서의 틀을 미리 정의해 둘 수 있으며, 매핑(mapping) 엘리먼트는 소스 HML 문서 구조 분석을 위한 상세 매핑 정보와 대상 XML 문서 구조를 연결하여 위한 내용으로 구성된다.
이때, 상기 매핑(mapping)의 하위 계층에 위치하는 에어리어(area)는 데이터 를 검색하기 위한 범위를 제한하며, 반드시 시작 포인트(sPoint)와 끝 포인트(ePoint)를 갖으며, 다른 area, point, apply를 포함할 수 있다.
상기 포인트(point)는 다른 에어리어나 포인트를 찾기 위한 기준점의 역할을 하며, 상기 어플라이(apply)는 주로 타겟 문서를 생성하기 위한 용도로 사용된다.
그리고, 에어리어(area)는 에어리어(area) 내에서 재귀적으로 반복되어 수행될 수 있고, 각종 함수 및 변수는 어플라이(Apply) 하위에 존재하게 된다.
한편, 본 발명에서는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
즉, 컴퓨터가 읽을 수 있는 기록매체의 예로는 롬(ROM), 램(RAM), 씨디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광데이터 저장장치 등이 있으며, 또한 캐리어웨이브(예컨대, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
또한 컴퓨터로 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
상술한 바와 같이, 본 발명의 바람직한 실시 예에 대해 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하 는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 기술적 범위 내에 포함된다 할 수 있다.
이상에서와 같이 본 발명에 의하면, 기존 수동 입력 인터페이스 방식에 의존함으로써 많은 문제점이 발생했던 연구개발성과 정보시스템과 연구과제 관리시스템에 전자문서 분석 기법을 사용한 자동화 기법의 데이터 입력 방식을 도입할 수 있다.
이러한 방식을 사용하여 전자문서에서 데이터를 자동 추출하여 입력함으로써 데이터 입력 효율(입력속도, 용이성)을 증대시키고, 더욱 상세한 규격의 정보를 입력으로 사용할 수 있으며, 입력된 데이터에 대해 오류 검증을 함으로써 데이터 품질을 향상시킬 수 있다.

Claims (13)

  1. 입력된 전자문서를 HML 문서로 변환하는 단계;
    상기 HML 문서에 매핑 규칙을 적용하여 소정 형태의 정보를 추출하고, 데이터베이스 처리용 XML 문서를 생성하는 단계; 및
    상기 XML 문서를 데이터베이스(DB)에 저장하는 단계를 포함하는 전자문서 변환방법.
  2. 제 1항에 있어서, 상기 입력 전자문서는 HWP 또는 DOC 문서인 것을 특징으로 하는 전자문서 변환방법.
  3. 제 2항에 있어서, 상기 HWP 문서는 HWP 변환 OCX 라이브러리를 이용하여 HML 문서로 변환되는 것을 특징으로 하는 전자문서 변환방법.
  4. 제 2항에 있어서, 상기 DOC 문서는 DOC 변환 OCX 라이브러리를 이용하여 HML 문서로 변환되는 것을 특징으로 하는 전자문서 변환방법.
  5. 제 3항 또는 제 4항에 있어서, 상기 HML 문서 변환은 워드2HML 변환엔진을 적용한 독립 데몬을 이용하는 것을 특징으로 하는 전자문서 변환방법.
  6. 제 1항에 있어서, 상기 HML 문서에 매핑 규칙을 적용하여 표, 리스트, 특정 문자열 중 어느 하나의 형태로 정보를 추출하는 특징으로 하는 전자문서 변환방법.
  7. 제 6항에 있어서, 상기 매핑 규칙이 적용된 HML 문서에 HML2XML 변환엔진을 적용하여 문서 정보를 처리하는 것을 특징으로 하는 전자문서 변환방법.
  8. 제 7항에 있어서, 상기 HML2XML 변환엔진에서는 소스구조, 대상구조, 함수 및 변수에 대한 정보 처리를 진행하는 것을 특징으로 하는 전자문서 변환방법.
  9. 제 1항에 있어서, 상기 XML 문서는 파일 또는 메모리 형태로 저장되는 것을 특징으로 하는 전자문서 변환방법.
  10. 제 9항에 있어서, 상기 XML 문서를 XML 처리엔진을 이용하여 데이터 처리하여 데이터베이스(DB)에 저장하는 것을 특징으로 하는 전자문서 변환방법.
  11. 제 9항에 있어서, 상기 XML 문서의 상위 계층에는 컨버젼(conversion) 엘리먼트가 존재하고, 하위 계층에는 헤드(head), 프로퍼티(properties), 프리페어(prepared), 매핑(mapping) 엘리먼트가 존재하는 것을 특징으로 하는 전자문서 변환방법.
  12. 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 워드2HML 변환부와;
    상기 HML 문서에 매핑 문서를 적용하여 정보를 분석하고 정보를 추출하여 DB용 XML 문서를 생성하기 위한 HML2XML 변환부; 및
    상기 XML 문서를 데이터 처리하여 데이터베이스(DB)에 저장하기 위한 XML2DB부를 포함하며,
    상기 워드2HML 변환부는 HWP 혹은 DOC의 입력 전자문서를 HWP 변환 OCX 라이브러리 혹은 DOC 변환 OCX 라이브러리를 이용하여 HML 문서로 변환하는 HML 변환부로 구성되며,
    상기 HWP2XML 변환부는 HML 문서 처리를 위한 HML 처리기와 매핑 규칙이 적용되어 XML 문서 생성을 위한 매핑 처리기를 구비하는 XML 처리엔진과; 소스구조 처리, 대상구조 처리, 함수 처리 및 변수 처리를 위한 HWP2XML 메인 처리기; 파일을 처리하기 위한 파일처리기 및 로그를 처리하기 위한 로그처리기로 구성되며,
    상기 XML2DB부는 XML 문서를 처리하기 위한 XML 처리엔진과; 상기 처리된 XML문서를 데이터베이스 하기 위한 DB저장부; 및 상기 저장된 XML 문서를 데이터베이스에 저장하기 위해 데이터 처리하는 DB 처리기로 구성되는 것을 특징으로 하는 전자문서 변환시스템.
  13. 입력된 전자문서를 HML 문서로 변환하는 단계;
    상기 HML 문서에 매핑 규칙을 적용하여 소정 형태의 정보를 추출하고, 데이 터베이스 처리용 XML 문서를 생성하는 단계; 및
    상기 XML 문서를 데이터베이스(DB)에 저장하는 단계를 포함하는 전자문서 변환방법을 컴퓨터에서 실행시키기 위한 프로그램을 구비한 컴퓨터로 읽을 수 있는 기록매체.
KR1020050122613A 2005-12-13 2005-12-13 규칙기반의 전자문서 변환방법 및 그 시스템 KR100762712B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050122613A KR100762712B1 (ko) 2005-12-13 2005-12-13 규칙기반의 전자문서 변환방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050122613A KR100762712B1 (ko) 2005-12-13 2005-12-13 규칙기반의 전자문서 변환방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20070062800A true KR20070062800A (ko) 2007-06-18
KR100762712B1 KR100762712B1 (ko) 2007-10-02

Family

ID=38363034

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050122613A KR100762712B1 (ko) 2005-12-13 2005-12-13 규칙기반의 전자문서 변환방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR100762712B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016190680A1 (ko) * 2015-05-28 2016-12-01 현대중공업 주식회사 선박 데이터 통합 관리 방법 및 장치
KR20200069797A (ko) * 2018-12-07 2020-06-17 유병섭 한글워드파일의 웹 변환 시스템
KR20210094702A (ko) * 2020-01-21 2021-07-30 윤디스크주식회사 문제 은행 변환 방법 및 장치
WO2022169010A1 (ko) * 2021-02-05 2022-08-11 주식회사 알티스트 Arxml 마이그레이션을 위한 문서 구조 변환 시스템 및 방법
KR102494927B1 (ko) * 2022-02-24 2023-02-06 리서치팩토리 주식회사 논문 형식 자동 변환 시스템 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007439A (ja) 2000-06-20 2002-01-11 Nec Corp 文書情報を管理するidテーブル作成方法
KR20030075594A (ko) * 2002-03-19 2003-09-26 주식회사 인터유져 한글고문(古文)과 확장한자를 포함한 유니코드기반의웹문서 변환 시스템
KR20040000194A (ko) * 2002-06-24 2004-01-03 오동익 문서구조정보 추출방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016190680A1 (ko) * 2015-05-28 2016-12-01 현대중공업 주식회사 선박 데이터 통합 관리 방법 및 장치
KR20180004182A (ko) * 2015-05-28 2018-01-10 현대중공업 주식회사 선박 데이터 통합 관리 방법 및 장치
CN107848617A (zh) * 2015-05-28 2018-03-27 现代重工业株式会社 船舶数据综合管理方法和船舶数据综合管理设备
US11072403B2 (en) 2015-05-28 2021-07-27 Korea Shipbuilding & Offshore Engineering Co., Ltd. Ship data consolidated management method and device
KR20200069797A (ko) * 2018-12-07 2020-06-17 유병섭 한글워드파일의 웹 변환 시스템
KR20210094702A (ko) * 2020-01-21 2021-07-30 윤디스크주식회사 문제 은행 변환 방법 및 장치
WO2022169010A1 (ko) * 2021-02-05 2022-08-11 주식회사 알티스트 Arxml 마이그레이션을 위한 문서 구조 변환 시스템 및 방법
KR102494927B1 (ko) * 2022-02-24 2023-02-06 리서치팩토리 주식회사 논문 형식 자동 변환 시스템 및 방법

Also Published As

Publication number Publication date
KR100762712B1 (ko) 2007-10-02

Similar Documents

Publication Publication Date Title
KR101755365B1 (ko) 레코드 포맷 정보의 관리
US7240279B1 (en) XML patterns language
JP2023506362A (ja) 文書監査方法、装置、システム、デバイス及び記憶媒体
US8010899B2 (en) System offering a data-skin based on standard schema and the method
US10922614B2 (en) Converting procedural text to an actionable knowledge form
CN110020358B (zh) 用于生成动态页面的方法和装置
Neubauer et al. XMLText: from XML schema to Xtext
CN112231407B (zh) PostgreSQL数据库的DDL同步方法、装置、设备和介质
KR100762712B1 (ko) 규칙기반의 전자문서 변환방법 및 그 시스템
CN109325217B (zh) 一种文件转换方法、系统、装置及计算机可读存储介质
US11526367B1 (en) Systems and methods for translation of a digital document to an equivalent interactive user interface
CN111126008B (zh) 基于xsd的代码生成方法、装置、计算机设备及存储介质
CN113672233B (zh) 一种基于Redfish的服务器带外管理方法、装置及设备
US20090199089A1 (en) Converting a Heterogeneous Document
JP2020024567A (ja) Api仕様書生成装置、api仕様書生成方法、およびプログラム
US7437714B1 (en) Category partitioning markup language and tools
CN114625413A (zh) 一种路由数据生成方法、装置、设备及存储介质
Hallagan The design of XML-based model and experiment description languages for network simulation
Greiner-Petter Making Presentation Math Computable: A Context-Sensitive Approach for Translating LaTeX to Computer Algebra Systems
Jongejan Workflow management in CLARIN-DK
Alter et al. Capturing data provenance from statistical software
CN110618809B (zh) 一种前端网页输入约束提取方法和装置
CN113486269B (zh) 基于web的电子表格数据处理方法、计算设备和存储介质
JP5683209B2 (ja) ドキュメント類自動生成機能付クライアントコンピュータ
CN111279350B (zh) 用于在服务管理应用接口中提供全球化特征的系统和方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20110922

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee