KR100762712B1 - Method for transforming of electronic document based on mapping rule and system thereof - Google Patents

Method for transforming of electronic document based on mapping rule and system thereof Download PDF

Info

Publication number
KR100762712B1
KR100762712B1 KR1020050122613A KR20050122613A KR100762712B1 KR 100762712 B1 KR100762712 B1 KR 100762712B1 KR 1020050122613 A KR1020050122613 A KR 1020050122613A KR 20050122613 A KR20050122613 A KR 20050122613A KR 100762712 B1 KR100762712 B1 KR 100762712B1
Authority
KR
South Korea
Prior art keywords
document
hml
information
xml
processing
Prior art date
Application number
KR1020050122613A
Other languages
Korean (ko)
Other versions
KR20070062800A (en
Inventor
주원균
정창후
박동인
최기석
양명석
김태현
성낙윤
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020050122613A priority Critical patent/KR100762712B1/en
Publication of KR20070062800A publication Critical patent/KR20070062800A/en
Application granted granted Critical
Publication of KR100762712B1 publication Critical patent/KR100762712B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Abstract

본 발명은 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙기반의 자동화 기법을 도입함으로써 과제관리 및 성과정보서비스에서 필요로 하는 방대한 양의 정보를 빠른시간 내에 정확하게 구축할 수 있는 규칙기반의 전자문서 변환방법 및 그 시스템을 제시한다.The present invention introduces a rule-based automation technique in the process of extracting and databaseting various types of information contained in an electronic document, so that a large amount of information required for task management and performance information service can be quickly and accurately constructed. We present a rule-based electronic document conversion method and a system thereof.

본 발명에 의하면, 입력대상 문서는 데몬 형태의 워드2HML 변환엔진을 통해 HML이라는 중간형태의 XML 문서로 변환되고, HML 문서에 매핑 규칙을 적용함으로써 다양한 형태(표, 리스트, 특정 문자열 등)의 정보를 추출해 낼 수 있다. 상기 추출된 정보는 데이터베이스 입력을 위해 메모리나 외부 파일에 XML 형식의 자료 모양을 갖추고 있어서 별도의 처리기를 거쳐 데이터베이스(DB)에 저장된다. 따라서, 이러한 일련의 자동화된 방법은 기존의 웹 기반의 수동 입력 인터페이스를 이용한 정보 구축의 단점을 보완하기 위한 대체 입력 방법으로서 가시적인 효과를 보여줄 수 있다.According to the present invention, the input target document is converted into an intermediate XML document called HML through a daemon-type Word2HML conversion engine, and information of various forms (tables, lists, specific strings, etc.) is applied by applying mapping rules to the HML document. Can be extracted. The extracted information has a data format in XML format in a memory or an external file for database input, and is stored in a database through a separate processor. Therefore, such a series of automated methods can show a visible effect as an alternative input method to supplement the disadvantages of information construction using the existing web-based manual input interface.

전자문서, 매핑규칙, 규칙문서, HML, XML, 정보추출 Electronic document, mapping rule, rule document, HML, XML, information extraction

Description

규칙기반의 전자문서 변환방법 및 그 시스템{Method for transforming of electronic document based on mapping rule and system thereof}Method for transforming of electronic document based on mapping rule and system

도 1은 종래 기술에 따른 워드 문서의 수동입력 방식을 설명하기 위한 개략도이다.1 is a schematic diagram illustrating a manual input method of a word document according to the prior art.

도 2는 본 발명에 따라 규칙기반 워드 문서의 정보 자동 추출 및 입력 방식을 나타낸 개략도이다.2 is a schematic diagram showing an automatic information extraction and input method of a rule-based word document according to the present invention.

도 3은 본 발명의 실시 예에 따른 규칙기반 정보 자동 추출시스템의 세부 구성도이다.3 is a detailed block diagram of a rule-based information automatic extraction system according to an embodiment of the present invention.

도 4는 본 발명에 따라 HML 형태로 변환된 전자문서에서 정보를 추출하기 위해 매핑 규칙을 정의한 XML 매핑 규칙 문서의 구조도 이다.4 is a structural diagram of an XML mapping rule document in which a mapping rule is defined to extract information from an electronic document converted into an HML form according to the present invention.

< 도면의 주요부분에 대한 부호의 설명 ><Description of Symbols for Major Parts of Drawings>

22: 입력 문서 28: 데이터베이스22: Input Document 28: Database

32: HML 문서 34: 매핑 문서32: HML document 34: Mapping document

100: 워드2HML 변환엔진 110: HML 변환부100: word 2HML conversion engine 110: HML conversion unit

120: HWP 변환 OCX 라이브러리 130: DOC 변환 OCX 라이브러리120: HWP Conversion OCX Library 130: DOC Conversion OCX Library

200: HML2XML 변환엔진 210: XML 처리엔진200: HML2XML conversion engine 210: XML processing engine

211: HML 처리기 212: 매핑 처리기211: HML Handler 212: Mapping Handler

220: HWP2XML 메인 처리기 230: 파일 처리기220: HWP2XML Main Handler 230: File Handler

240: 로그처리기 300: XML2DB240: log processor 300: XML2DB

310: XML 처리엔진 320: DB 저장부310: XML processing engine 320: DB storage unit

330: DB 처리기330: DB handler

본 발명은 규칙기반의 전자문서 변환방법 및 그 시스템에 관한 것이다. 더욱 상세하게는 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙 기반의 자동화 기법을 적용할 수 있는 기술에 관한 것이다.The present invention relates to a rule-based electronic document conversion method and a system thereof. More specifically, the present invention relates to a technology that can apply rule-based automation techniques to the process of extracting and databaseting various types of information included in an electronic document.

최근 전자/반도체 분야 및 통신기술분야의 비약적인 발전에 동반해서 대량의 정보를 고속으로 처리할 수 있도록 설계된 컴퓨터가 보급되면서 정보화 사회의 발전이 가속화되는 상황이다.Recently, with the rapid development of electronic / semiconductor field and communication technology field, the development of information society is accelerating with the spread of computers designed to process a large amount of information at high speed.

이러한 정보화 사회에서는 컴퓨터에 의한 전자문서처리의 필요성이 요구됨에 따라 워드프로세서라든지 전자출판을 포함하는 전자문서처리시스템이 현실화된 상태이지만, 전자문서처리시스템에 의해 작성된 문서는 각기 독립적인 문서구조와 다양한 내용정보를 갖기 때문에 상호 다른 문서처리시스템 및 장치에 의한 문서처리 환경에서 각 문서의 교환 및 공유를 위한 표준문서구조모델이 요구되었다.In this information society, electronic document processing systems including word processors and electronic publishing have become a reality as the necessity of electronic document processing by computers is required. However, the documents created by the electronic document processing system have various independent document structures and various forms. Because of the content information, a standard document structure model was required for the exchange and sharing of each document in a document processing environment by different document processing systems and devices.

최근 확장성 표기언어(eXtensible Markup Language; XML)를 이용해서 전자문서를 작성하는 예가 늘어나고 있다. 세계적으로 XML의 이용률이 급속히 높아지고 있으며, 국내에서도 일반 기업체는 물론 정부와 관공서, 공공 기관에서의 XML 도입이 크게 늘고 있다. 이들 전자문서들은 각 기관 내에서 정한 문법에 기반해서 작성되는 경우가 일반적이다.Recently, an example of writing an electronic document using an eXtensible Markup Language (XML) has been increasing. The utilization rate of XML is increasing rapidly in the world, and the introduction of XML in the government, government offices and public institutions as well as general enterprises is increasing significantly in Korea. These electronic documents are generally written based on the grammar set by each institution.

특히, XML로 작성된 전자문서들이 급속히 늘면서 서버에서 문서들을 유지하고 있다가 사용자 요청에 따라 원하는 전자문서를 찾아서 제공하는 클라이언트/서버 구조로 전자문서가 관리되는 예가 늘어나고 있다.In particular, as the number of electronic documents written in XML is rapidly increasing, there is an increasing number of electronic documents being managed by a client / server structure that maintains documents on a server and finds and provides desired electronic documents according to user requests.

이와 관련된 공지의 종래 기술로서,“출원번호: 10-2005-0092446(2005.09.30), 발명의 명칭: 확장성 표기언어 기반의 전자문서 버전 매김 및 버전을 이용한 갱신 문서 제공 방법”이 제시되어 있다.As a related art known in the related art, "Application No. 10-2005-0092446 (September 30, 2005), Title of the invention: Extensible notation based electronic document versioning and a method of providing an update document using a version" is proposed. .

상기의 공지 기술에서는 구조화된 전자문서의 구조를 정의하는 문법을 이용하여 전자문서를 작성함에 있어서, 수정 또는 추가된 날짜를 버전 값으로 사용함으로써 저장소에서 문서를 쉽게 관리할 수 있게 하고, 갱신 정보 요청시 버전 값을 이용하여 변경, 추가된 내용들만을 모아서 통보하여 제공받는 측의 전자문서의 점진적 갱신을 가능케 하는 것을 기술적 특징으로 한다.In the above known technology, when creating an electronic document using a grammar defining the structure of the structured electronic document, the document can be easily managed in the repository by using a modified or added date as a version value, and requesting for update information. It is a technical feature that a gradual update of an electronic document of a receiving party is provided by collecting and notifying only changes and additions using a city version value.

또한, 공지의 종래 기술로서 “출원번호: 10-2003-0084285(2003.11.26), 발명의 명칭: XML 기반의 전자문서 변환 장치 및 방법”이 제시되어 있다.In addition, as a known prior art, "Application No. 10-2003-0084285 (2003.11.26), the title of the invention: XML-based electronic document conversion apparatus and method" is proposed.

상기의 공지 기술을 살펴보면, 매핑부는 관리부를 통해 외부장치로부터 수신된 제1형식의 전자문서에 대한 목표 전자문서의 형식을 입력받으며, 변환부는 매핑부의 요청에 의해 제1형식의 전자문서를 제1형식에 대응하는 어댑터에 의해 제1IXML 문서로 변환한다.Referring to the above-described known technology, the mapping unit receives a format of a target electronic document for a first type electronic document received from an external device through a management unit, and the conversion unit receives the electronic document of the first format at the request of the mapping unit. The adapter corresponding to the format converts the first IXML document.

이때, 상기 매핑부는 제1IXML 문서로부터 목표 전자문서의 형식에 대응하는 제2IXML 문서를 생성하며, 상기 변환부는 매핑부의 요청에 의해 제2IXML문서를 목표 전자문서의 형식에 대응하는 어댑터를 이용하여 목표 전자문서로 변환할 수 있다. 따라서, 새로운 전자문서 유형이 추가되더라도 짧은 시간 안에 기타 유형들과 연동되어 시스템의 유지보수성과 적응성을 증대시킬 수 있다.In this case, the mapping unit generates a second IXML document corresponding to the format of the target electronic document from the first IXML document, and the conversion unit uses the adapter corresponding to the format of the target electronic document to convert the second IXML document at the request of the mapping unit. You can convert it to a document. Therefore, even if a new electronic document type is added, it can be linked with other types in a short time to increase the maintainability and adaptability of the system.

그러나, 상기의 공지된 종래 기술들은 구조화된 전자문서의 구조를 정의하는 문법을 이용하여 전자문서를 작성하거나 혹은 XML 기술을 기반으로 다양한 전자문서 유형들 사이의 상호 변환을 효율적으로 수행할 수 있다는 장점이 있으나, 전자문서(HWP,DOC) 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙 기반(매핑 룰)의 자동화 기법을 도입하는 본 발명의 기술과는 기술적 특징의 차이점이 존재한다.However, the above known prior arts can be used to create an electronic document using a grammar defining the structure of a structured electronic document or to efficiently perform mutual conversion between various electronic document types based on XML technology. However, there are differences in technical features from the technology of the present invention which introduces a rule-based (mapping rule) automation technique in the process of extracting and databaseting various types of information included in electronic documents (HWP, DOC). .

도 1은 종래 기술에 따른 워드 문서의 수동입력 방식을 설명하기 위한 개략도이다.1 is a schematic diagram illustrating a manual input method of a word document according to the prior art.

도 1을 살펴보면, HWP, DOC 등과 같은 입력문서(10)가 컴퓨터에 의해 판독되어 사용자 단말(12)로 제공되면, 사용자 단말(12)에서는 사용자가 수동입력 인터페 이스(12)를 이용하여 필요에 따라 정보를 수동 입력하며, 상기 수동 입력된 데이터는 데이터베이스(DB)(14)에 저장된다.Referring to FIG. 1, when an input document 10 such as HWP, DOC, etc. is read by a computer and provided to the user terminal 12, the user terminal 12 uses a manual input interface 12 as needed. Information is manually entered accordingly, and the manually entered data is stored in a database (DB) 14.

이때, 상기 사용자 단말(12)와 데이터베이스(16)는 연구성과정보시스템이나 과제관리시스템을 나타내는 서비스시스템(18)과 연동 되어 있다.In this case, the user terminal 12 and the database 16 are linked with the service system 18 representing the research performance information system or the task management system.

상기와 같은 구조의 종래 기술에서는 사용자가 연구성과정보시스템이나 과제관리시스템에 자료를 입력하기 위해 데이터베이스에 대한 직접적인 접근이나 관리 권한이 없으며, 자료 입력을 위한 별도의 편리한 도구를 제공받지 못하였다.In the prior art of the above structure, the user does not have direct access or management authority to the database for inputting data into the research performance information system or the task management system, and has not been provided a separate convenient tool for data input.

이러한 종래 방식에서는 사용자가 입력문서를 참고하여 폼(Form)에 수동으로 자료를 직접 타이핑함으로써 자신이 속한 기관의 데이터를 구축해야 했기 때문에 많은 인력과 시간을 소모되었다.In this conventional method, since a user has to manually input data into a form by referring to an input document, he or she has to build data of an organization to which he / she belongs, which consumes a lot of manpower and time.

이에 대한 보완책으로 종래 기술에서는 일부 항목에 대해서 엑셀로 데이터를 구축하여 입력하는 방식이 사용되기도 하였다.As a countermeasure for this, in the related art, a method of constructing and inputting data into Excel for some items has been used.

그러나, 기관의 제출을 위한 전자문서(HWP,DOC)를 작성하고 별도의 전자문서(EXCEL)를 작성한다는 것 역시 시스템 사용자의 업무 부담을 가중시키게 하였다. 또한 데이터 입력의 작업 효율을 떨어뜨리며, 입력 데이터에 대한 오류 검증에 많은 시간이 소요되었다.However, the preparation of electronic documents (HWP, DOC) for submission to the agency and the creation of separate electronic documents (EXCEL) also added to the burden on the system users. In addition, the efficiency of data input is reduced, and a lot of time is required for error verification of the input data.

이에, 본 발명은 상기한 문제점을 해결하기 위한 것으로서 본 발명은 기존의 웹 기반의 수동입력 인터페이스를 이용한 정보 구축의 단점을 보안 하기 위한 대체 입력방법으로서 규칙기반의 전자문서 변환방법 및 그 시스템을 제공하는 데 그 목적이 있다.Accordingly, the present invention is to solve the above problems, the present invention provides a rule-based electronic document conversion method and system as an alternative input method for securing the shortcomings of information construction using the existing web-based manual input interface. Its purpose is to.

본 발명의 다른 목적은 전자문서 내에 포함된 다양한 형태의 정보를 추출하고 데이터베이스화하는 과정에 규칙기반의 자동화 기법을 도입함으로써 과제 관리 및 성과정보 서비스에서 필요로 하는 방대한 양의 정보를 빠른 시간내에 정확하게 구축할 수 있도록 하는 데 있다.Another object of the present invention is to introduce a rule-based automated technique in the process of extracting and databaseting various types of information contained in an electronic document, thereby quickly and accurately generating a large amount of information required for task management and performance information service. To build.

상기한 본 발명의 목적을 달성하기 위한 기술적 사상으로서 본 발명은 입력된 전자문서를 HML 문서로 변환하는 단계; 상기 HML 문서에 매핑 규칙을 적용하여 소정 형태의 정보를 추출하고, 데이터베이스 처리용 XML 문서를 생성하는 단계; 및 상기 XML 문서를 데이터베이스(DB)에 저장하는 단계를 포함하는 전자문서 변환방법을 제공한다.As a technical idea for achieving the above object of the present invention, the present invention comprises the steps of converting an input electronic document into an HML document; Applying a mapping rule to the HML document to extract information of a predetermined type, and generating an XML document for database processing; And storing the XML document in a database (DB).

또한, 본 발명에 의하면, 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 워드2HML 변환부와; 상기 HML 문서에 매핑 문서를 적용하여 정보를 분석하고 정보를 자동 추출하여 DB용 XML 문서를 생성하기 위한 HML2XML 변환부; 및 상기 XML 문서를 데이터 처리하여 데이터베이스(DB)에 저장하기 위한 XML2DB부를 포함하며, 상기 워드2HML 변환부는 HWP 혹은 DOC의 입력 전자문서를 HWP 변환 OCX 라이브러리 혹은 DOC 변환 OCX 라이브러리를 이용하여 HML 문서로 변환하는 HML 변환부로 구성되며, 상기 HML2XML 변환부는 HML 문서 처리를 위한 HML 처리기와 매핑 규칙이 적용되어 XML 문서 생성을 위한 매핑 처리기를 구비하는 XML 처리엔진과; 소스구조 처리, 대상구조 처리, 함수 처리 및 변수 처리를 위한 HML2XML 메인 처리기; 파일을 처리하기 위한 파일처리기 및 로그를 처리하기 위한 로그처리기로 구성되며, 상기 XML2DB부에는 XML 문서를 처리하기 위한 XML 처리엔진과; 상기 처리된 XML문서를 데이터베이스 하기 위한 DB저장부; 및 상기 저장된 XML 문서를 데이터베이스에 저장하기 위해 데이터 처리하는 DB 처리기로 구성되는 것을 특징으로 하는 전자문서 변환시스템을 제공한다.In addition, according to the present invention, there is provided a word 2HML converter for converting an input electronic document into an HML document which is an intermediate XML document for processing; An HML2XML converter for applying a mapping document to the HML document to analyze information and automatically extracting information to generate an XML document for DB; And an XML2DB unit for processing the XML document and storing the data in a database. The word 2HML converter converts an input electronic document of HWP or DOC into an HML document using an HWP conversion OCX library or a DOC conversion OCX library. An HML converter comprising: an XML processing engine including an HML processor for processing an HML document and a mapping processor for generating an XML document by applying a mapping rule; HML2XML main processor for source structure processing, object structure processing, function processing, and variable processing; A file processor for processing a file and a log processor for processing a log, the XML2DB unit comprising: an XML processing engine for processing an XML document; A DB storage unit for databaseing the processed XML document; And a DB processor configured to process data to store the stored XML document in a database.

이하, 본 발명의 실시 예에 대한 구성 및 그 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.Hereinafter, with reference to the accompanying drawings, the configuration and operation of the embodiment of the present invention will be described in detail.

도 2는 본 발명에 따라 규칙기반 워드 문서의 정보 자동 추출 및 입력 방식을 나타낸 개략도이다.2 is a schematic diagram showing an automatic information extraction and input method of a rule-based word document according to the present invention.

도 2에 도시된 바와 같이, 사용자 단말(20)의 지시에 의해 입력문서(예; HWP, DOC)(22)와 규칙문서(예; XML)(24)를 바탕으로 규칙기반 정보 자동 추출시스템(26)을 이용하여 문서 정보를 변환하고 필요한 정보를 자동 추출한 후 상기 추출된 정보를 데이터베이스(DB)(28)에 저장한다.As shown in FIG. 2, an automatic rule-based information extraction system based on an input document (eg, HWP, DOC) 22 and a rule document (eg, XML) 24 according to an instruction of the user terminal 20 ( 26), the document information is converted, the necessary information is automatically extracted, and the extracted information is stored in a database (DB) 28.

이때, 상기 사용자 단말(20)과 데이터베이스(28)는 연구성과정보시스템이나 과제관리시스템을 나타내는 서비스시스템(30)과 연동 되어 있다.At this time, the user terminal 20 and the database 28 is linked with the service system 30 representing the research performance information system or task management system.

즉, 본 발명에서는 종래 방식의 해결책으로써 기관의 제출을 위한 입력용 전자문서(HWP, DOC)에서 정보를 자동 추출하여 데이터베이스를 구축한다. 따라서, 시 스템 사용자는 기관의 제출을 위해 작성한 전자문서를 시스템 데이터 구축 시 동일하게 사용함으로써 업무 부담을 해소할 수 있다.That is, in the present invention, a database is constructed by automatically extracting information from the input electronic documents (HWP, DOC) for submission of the institution as a conventional solution. Therefore, system users can alleviate the burden by using the same electronic documents created for the submission of institutions in the system data construction.

도 3은 본 발명의 실시 예에 따른 규칙기반 정보 자동 추출시스템의 세부 구성도를 나타낸 것이다.3 is a detailed block diagram of a rule-based automatic information extraction system according to an embodiment of the present invention.

본 발명에 의한 규칙기반 정보 자동추출 방법은 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 제 1단계와; 상기 HML 문서에 규칙(Mapping Rule)을 적용함으로써 다양한 형태(표, 리스트, 특정 문자열 등)의 정보를 추출하고, DB 처리용 XML 문서를 생성하기 위한 제 2단계; 및 상기 DB 처리용 XML 문서를 데이터베이스에 저장하는 제 3단계로 구성된다.The method for automatically extracting rule-based information according to the present invention includes a first step for converting an input electronic document into an HML document which is an intermediate XML document for processing; A second step of extracting information of various forms (table, list, specific character string, etc.) by applying a mapping rule to the HML document and generating an XML document for DB processing; And a third step of storing the DB processing XML document in a database.

이러한 과정은 도 3에 도시된 규칙기반 정보 자동추출 시스템으로 구현된다. 도 3을 살펴보면, 본 발명은 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 워드2HML 변환엔진(100)과; 상기 HML 문서에 매핑 문서를 적용하여 정보를 분석하고 정보를 자동 추출하여 DB용 XML 문서를 생성하기 위한 HML2XML 변환엔진(200); 및 상기 XML 문서를 데이터 처리하여 데이터베이스(DB)에 저장하기 위한 XML2DB(300)로 구성된다.This process is implemented by the rule-based automatic information extraction system shown in FIG. 3, the present invention provides a word 2HML conversion engine 100 for converting an input electronic document into an HML document which is an intermediate XML document for processing; An HML2XML conversion engine 200 for analyzing the information by applying the mapping document to the HML document and automatically extracting the information to generate an XML document for the DB; And an XML2DB 300 for processing the XML document and storing the data in a database.

워드2HML 변환엔진(100)은 HWP 혹은 DOC의 입력 전자문서(22)를 HWP 변환 OCX 라이브러리(120) 혹은 DOC 변환 OCX 라이브러리(130)을 이용하여 HML 변환부(110)를 거쳐 HML 문서로 변환한다.The word 2HML conversion engine 100 converts the input electronic document 22 of the HWP or DOC into the HML document through the HML conversion unit 110 using the HWP conversion OCX library 120 or the DOC conversion OCX library 130. .

즉, 상기의 입력 전자문서를 HML 문서(32)로 변환하기 위해서는 HWP 워드 (HWP) 혹은 마이크로 소프트 워드(DOC)문서 변환을 위해 각 벤더(Vender)에서 제공하는 OCX 라이브러리를 이용한다. That is, in order to convert the input electronic document into the HML document 32, an OCX library provided by each vendor is used to convert the HWP word (HWP) or the Microsoft Word (DOC) document.

또한, 불특정 다수를 대상으로 효과적인 변환서비스를 제공하기 위해 워드2HML 변환엔진(100)을 적용한 독립 데몬(Standalone Daemon)을 적용하여 윈도우즈 서버환경에서 서비스를 제공한다.In addition, in order to provide an effective conversion service for an unspecified number, a service is provided in a Windows server environment by applying a standalone daemon applying the word 2HML conversion engine 100.

HML2XML 변환엔진(200)은 HML 문서 처리를 위한 HML 처리기(211)와 매핑 규칙이 적용되어 XML 문서 생성을 위한 매핑 처리기(212)를 구비하는 XML 처리엔진(210)과; 소스구조 처리, 대상구조 처리, 함수 처리 및 변수 처리를 위한 HML2XML 메인 처리기(220); 파일을 처리하기 위한 파일처리기(230) 및 로그를 처리하기 위한 로그처리기(240)로 구성된다.The HML2XML conversion engine 200 includes an XML processing engine 210 including a HML processor 211 for processing an HML document and a mapping processor 212 for generating an XML document by applying a mapping rule; An HML2XML main processor 220 for source structure processing, object structure processing, function processing, and variable processing; A file processor 230 for processing a file and a log processor 240 for processing a log.

이때, HML2XML 변환엔진(200)은 비구조화 문서인 HML 문서에서 데이터를 추출해서 구조화된 문서인 XML를 생성하는 도구로서, 그 특징은 매핑(Mapping) 문서에 의해서 변환 정보를 표현하며, 잘못된 문서나 혹은 문서 틀의 편집 여부를 검사하는 문서유효성 검증 기능, 미리 주어진 조건에 의해서 데이터를 검증하는 데이터 검증 기능, 데이터를 원하는 형태로 변형하는 데이터 가공 기능 및 함수 및 변수를 사용하는 기능을 구비한다.At this time, the HML2XML conversion engine 200 is a tool for generating XML, which is a structured document by extracting data from an HML document, which is an unstructured document, and its characteristic is to express the conversion information by a mapping document. Or a document validity verification function for checking whether a document frame has been edited, a data verification function for verifying data according to a predetermined condition, a data processing function for transforming data into a desired form, and a function for using functions and variables.

또한, HML2XML 변환엔진(200)의 기능은 크게 유효성 검증기능과 XML문서 생성기능으로 나누어진다. 유효성 검증(Validation)에는 XML 문서를 생성하지 않으며, 문서와 데이터의 유효성을 검사할 수 있다. 미리 기술된 매핑 문서를 기준으로 잘못된 문서를 입력하거나 문서의 기본 틀은 변경한 경우 또는 잘못된 데이터를 입력한 경우를 검사할 수 있다.In addition, the function of the HML2XML conversion engine 200 is largely divided into a validation function and an XML document generation function. Validation does not generate an XML document. You can validate the document and data. Based on the mapping document described in advance, you can check if the wrong document has been entered, if the document's basic frame has changed, or if the wrong data has been entered.

따라서, HML2XML 변환엔진(200)은 매핑 문서(34)를 사용함으로써 HML 문서(32)를 분석하여 정보를 추출하고 DB 저장용 XML 문서를 생성해 낼 수 있다. Therefore, the HML2XML conversion engine 200 may use the mapping document 34 to analyze the HML document 32 to extract information and generate an XML document for DB storage.

부연 설명하면, 본 발명에서의 매핑(규칙) 문서(34)는 HML문서(32) 내에서 추출할 정보에 대한 각종 구조적인 정보를 명세하고, 검증을 위한 정보, 각종 계산과 처리를 위한 함수와 변수를 갖고 있으며, DB 저장용 XML 문서(36)를 위한 정보와 규칙을 구비하고 있다.In other words, the mapping (rules) document 34 in the present invention specifies various structural information about information to be extracted in the HML document 32, and includes information for verification, functions for various calculations and processing, and the like. It has a variable and contains information and rules for XML document 36 for DB storage.

여기서, 상기의 매핑 규칙이란 비정형문서에서 데이터를 억세스할 수 있도록 하기 위한 규칙으로서 종래의 hwp, doc 등 구조화 되지 않은 문서들은 특성상 데이터(태그(tag)정보 포함) 상호 간의 관계에 의한 데이터의 억세스(access)가 불가능하다. 또한, XML 문서에서와 같이 문서 전체에 공통으로 통하는 룰(rule)이 존재하지 않는다. 그러나, 구조화되지 않은 문서라도 문서의 일부분에는 특정 룰을 적용할 수 있으며, 또한 문서 내에 다른 데이터를 찾기 위한 기준이 될 수 있는 데이터가 존재하기 때문에 그러한 것들을 이용하면 데이터를 억세스할 수 있게 된다.Here, the mapping rule is a rule for allowing data to be accessed from an unstructured document. In the conventional unstructured documents such as hwp and doc, data access including data (tag information) is related to each other. access is not possible. In addition, there is no common rule throughout the document as in an XML document. However, even unstructured documents can apply certain rules to parts of the document, and because there is data in the document that can be used as a reference for finding other data, such data can be accessed.

이때, 상기의 매핑 문서(파일)에는 헤드(head), 프로퍼티(properties), 소스(source) 문서의 계층구조와 데이터의 위치, 타겟(target) 문서정보, 소스(source) 문서의 검증(validation) 정보, 데이터 검증정보, 데이터 변환정보 등이 분류되어 기록되어 있다. In this case, the mapping document (file) includes a head, a property, a hierarchical structure and a location of data of a source document, target document information, and validation of a source document. Information, data verification information, data conversion information, and the like are classified and recorded.

XML2DB(300)는 XML 문서를 처리하기 위한 XML 처리엔진(310)과; 상기 처리된 XML문서를 데이터베이스 하기 위한 DB저장부(320); 및 상기 저장된 XML 문서를 데 이터베이스에 저장하기 위해 데이터 처리하는 DB 처리기(330)로 구성되어 있다. 상기 데이터 처리된 파일 혹은 메모리 형태의 XML 문서는 최종적으로 데이터베이스(28)에 저장된다.The XML2DB 300 includes an XML processing engine 310 for processing an XML document; A DB storage unit 320 for databaseing the processed XML document; And a DB processor 330 for data processing to store the stored XML document in a database. The data processed file or XML document in memory form is finally stored in database 28.

즉, 상기 추출된 정보를 데이터베이스(28) 입력을 위해 메모리나 외부 파일에 XML문서(36) 형식의 자료 모양을 갖추고 있어서 별도의 처리기를 거쳐 데이터베이스(28)에 저장된다.That is, the extracted information has a data shape in the form of an XML document 36 in a memory or an external file for database 28 input, and is stored in the database 28 through a separate processor.

도 4는 도 3에 도시된 모듈 중 HML 형태로 변환된 전자문서에서 정보를 추출하기 위해 매핑 규칙을 정의한 XML 매핑 규칙 문서를 나타낸 것이다.FIG. 4 illustrates an XML mapping rule document in which mapping rules are defined to extract information from an electronic document converted into an HML form among the modules shown in FIG. 3.

도 4에 도시된 바와 같이, XML 매핑 규칙 문서의 상위계층에는 컨버젼(Conversion) 엘리먼트가 존재하고, 그 하위 계층에는 헤드(head), 프로퍼티(properties), 프리페어(prepared), 매핑(mapping) 엘리먼트가 각각 존재한다.As shown in FIG. 4, a conversion element exists in an upper layer of the XML mapping rule document, and a head, properties, prepared, and mapping element in a lower layer of the XML mapping rule document. Are present respectively.

각 구성요소의 기능을 살펴보면, 헤드(head) 엘리먼트는 매칭 규칙 작성 및 갱신에 대한 정보를 유지하며, 프로퍼티(properties) 엘리먼트는 소스 HML 문서의 일반 정보 및 대상 XML 문서의 생성을 위한 기본설정 정보가 담겨져 있다.Looking at the functionality of each component, the head element holds information about creating and updating matching rules, and the property element contains general information about the source HML document and preference information for creating the target XML document. It is contained.

프리페어(prepared) 엘리먼트는 대상 XML 문서의 구조를 형성하며 타겟 문서의 틀을 미리 정의해 둘 수 있으며, 매핑(mapping) 엘리먼트는 소스 HML 문서 구조 분석을 위한 상세 매핑 정보와 대상 XML 문서 구조를 연결하여 위한 내용으로 구성된다.The prepared element forms the structure of the target XML document and can define the target document in advance. The mapping element links the target XML document structure with detailed mapping information for analyzing the source HML document structure. It consists of the contents for

이때, 상기 매핑(mapping)의 하위 계층에 위치하는 에어리어(area)는 데이터 를 검색하기 위한 범위를 제한하며, 반드시 시작 포인트(sPoint)와 끝 포인트(ePoint)를 갖으며, 다른 area, point, apply를 포함할 수 있다.In this case, an area located in a lower layer of the mapping restricts a range for retrieving data, and necessarily has a start point and an end point, and different areas, points, and apply. It may include.

상기 포인트(point)는 다른 에어리어나 포인트를 찾기 위한 기준점의 역할을 하며, 상기 어플라이(apply)는 주로 타겟 문서를 생성하기 위한 용도로 사용된다. The point serves as a reference point for finding another area or point, and the application is mainly used for generating a target document.

그리고, 에어리어(area)는 에어리어(area) 내에서 재귀적으로 반복되어 수행될 수 있고, 각종 함수 및 변수는 어플라이(Apply) 하위에 존재하게 된다.In addition, the area may be repeatedly and recursively performed in the area, and various functions and variables exist under the application.

한편, 본 발명에서는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.Meanwhile, the present invention can be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.

즉, 컴퓨터가 읽을 수 있는 기록매체의 예로는 롬(ROM), 램(RAM), 씨디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광데이터 저장장치 등이 있으며, 또한 캐리어웨이브(예컨대, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.That is, examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, flash memory, optical data storage device. And also implemented in the form of a carrier wave (eg, transmission over the Internet).

또한 컴퓨터로 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

상술한 바와 같이, 본 발명의 바람직한 실시 예에 대해 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하 는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 기술적 범위 내에 포함된다 할 수 있다.As described above, although preferred embodiments of the present invention have been described, the present invention is not limited to the specific preferred embodiments described above, and the technology to which the present invention belongs without departing from the gist of the present invention as claimed in the claims. Various modifications can be made by those skilled in the art, and such changes can be included within the technical scope of the claims.

이상에서와 같이 본 발명에 의하면, 기존 수동 입력 인터페이스 방식에 의존함으로써 많은 문제점이 발생했던 연구개발성과 정보시스템과 연구과제 관리시스템에 전자문서 분석 기법을 사용한 자동화 기법의 데이터 입력 방식을 도입할 수 있다.As described above, according to the present invention, the data input method of the automation method using the electronic document analysis method can be introduced into the R & D performance information system and the project management system, which have caused many problems by relying on the existing manual input interface method. .

이러한 방식을 사용하여 전자문서에서 데이터를 자동 추출하여 입력함으로써 데이터 입력 효율(입력속도, 용이성)을 증대시키고, 더욱 상세한 규격의 정보를 입력으로 사용할 수 있으며, 입력된 데이터에 대해 오류 검증을 함으로써 데이터 품질을 향상시킬 수 있다.By using this method, data can be automatically extracted and input from the electronic document to increase the data input efficiency (input speed and ease), and more detailed information can be used as input. Can improve the quality.

Claims (13)

입력된 전자문서를 HML 문서로 변환하는 단계; 상기 HML 문서에 매핑 규칙을 적용하여 소정 형태의 정보를 추출하고, 데이터베이스 처리용 XML 문서를 생성하는 단계; 및 상기 XML 문서를 데이터베이스(DB)에 저장하는 단계;를 포함하는 전자문서 변환방법에 있어서,Converting the input electronic document into an HML document; Applying a mapping rule to the HML document to extract information of a predetermined type, and generating an XML document for database processing; And storing the XML document in a database (DB). 상기 입력된 전자문서를 HML 문서로 변환하는 단계는, 독립 서비스 데몬을 적용한 서버환경에서, 문서 변환 OCX 라이브러리를 이용하여 이루어지는 것을 특징으로 하는 전자문서 변환방법.And converting the input electronic document into an HML document using a document conversion OCX library in a server environment to which an independent service daemon is applied. 제 1항에 있어서, The method of claim 1, 상기 입력된 전자문서는 HWP 또는 DOC 문서인 것을 특징으로 하는 전자문서 변환방법.The input electronic document is an electronic document conversion method, characterized in that the HWP or DOC document. 삭제delete 삭제delete 삭제delete 제 1항에 있어서, 상기 HML 문서에 매핑 규칙을 적용하여 표, 리스트, 특정 문자열 중 어느 하나의 형태로 정보를 추출하는 특징으로 하는 전자문서 변환방법.The method of claim 1, wherein the information is extracted in the form of a table, a list, or a specific character string by applying a mapping rule to the HML document. 삭제delete 삭제delete 삭제delete 삭제delete 제 1항에 있어서, The method of claim 1, 상기 XML 문서는, The XML document is 상위 계층으로서 컨버젼(conversion) 엘리먼트와,A conversion element as a higher layer, 하위 계층으로서, 매칭 규칙 작성 및 개싱에 대한 정보를 유지하는 헤드(head)와; 변환 대상인 HML 문서의 일반 정보 및 대상 XML 문서의 생성을 위한 기본 설정 정보가 담긴 프로퍼티(properties)와; 대상 XML 문서의 구조를 형성하며 대상 문서의 틀을 미리 정의하는 프리페어(prepared)와; 변환 대상인 HML 문서 구조 분석을 위한 상세 매핑 정보와 대상 XML 문서 구조를 연결하기 위한 내용으로 구성된 매핑(mapping) 엘리먼트;를 포함하는 XML 매핑 규칙 문서인 것을 특징으로 하는 전자문서 변환방법.A lower layer, comprising: a head for maintaining information about matching rules creation and gassing; Properties including general information of the HML document to be converted and basic setting information for generating the target XML document; A pre-pared to form a structure of the target XML document and to predefine the frame of the target document; And a mapping element comprising detailed mapping information for analyzing the HML document structure to be converted and content for connecting the target XML document structure. 입력 전자문서를 처리용 중간 XML 문서인 HML 문서로 변환하기 위한 워드2HML 변환부와;A word 2HML converter for converting the input electronic document into an HML document which is an intermediate XML document for processing; 상기 HML 문서에 매핑 문서를 적용하여 정보를 분석하고 정보를 추출하여 DB용 XML 문서를 생성하기 위한 HML2XML 변환부; 및An HML2XML converter for applying a mapping document to the HML document to analyze information, extract information, and generate an XML document for DB; And 상기 XML 문서를 데이터 처리하여 데이터베이스(DB)에 저장하기 위한 XML2DB부를 포함하며,An XML2DB unit for processing the XML document and storing the data in a database (DB), 상기 워드2HML 변환부는 독립 서비스 데몬을 적용한 서버환경에서, HWP 혹은 DOC의 입력 전자문서를, HWP 변환 OCX 라이브러리 혹은 DOC 변환 OCX 라이브러리를 이용하여 HML 문서로 변환하는 HML 변환부로 구성되며,The word 2HML conversion unit is composed of an HML conversion unit for converting the input electronic document of the HWP or DOC into an HML document using the HWP conversion OCX library or DOC conversion OCX library in a server environment to which the independent service daemon is applied, 상기 HWP2XML 변환부는 HML 문서 처리를 위한 HML 처리기와 매핑 규칙이 적용되어 XML 문서 생성을 위한 매핑 처리기를 구비하는 XML 처리엔진과; 소스구조 처리, 대상구조 처리, 함수 처리 및 변수 처리를 위한 HWP2XML 메인 처리기; 파일을 처리하기 위한 파일처리기 및 로그를 처리하기 위한 로그처리기로 구성되며,The HWP2XML converter includes an XML processing engine including a mapping processor for generating an XML document by applying an HML processor and a mapping rule for processing an HML document; HWP2XML main processor for source structure processing, object structure processing, function processing, and variable processing; It consists of a file processor for processing files and a log processor for processing logs. 상기 XML2DB부는 XML 문서를 처리하기 위한 XML 처리엔진과; 상기 처리된 XML문서를 데이터베이스 하기 위한 DB저장부; 및 상기 저장된 XML 문서를 데이터베이스에 저장하기 위해 데이터 처리하는 DB 처리기로 구성되는 것을 특징으로 하는 전자문서 변환시스템.The XML2DB unit comprises an XML processing engine for processing an XML document; A DB storage unit for databaseing the processed XML document; And a DB processor configured to process data to store the stored XML document in a database. 독립 서비스 데몬 프로그램을 적용한 서버환경에서, 문서 변환 OCX 라이브러리를 이용하여, 입력된 전자문서를 HML 문서로 변환하는 단계;Converting the input electronic document into an HML document using a document conversion OCX library in a server environment to which an independent service daemon program is applied; 상기 HML 문서에 매핑 규칙을 적용하여 소정 형태의 정보를 추출하고, 데이터베이스 처리용 XML 문서를 생성하는 단계; 및Applying a mapping rule to the HML document to extract information of a predetermined type, and generating an XML document for database processing; And 상기 XML 문서를 데이터베이스(DB)에 저장하는 단계를 포함하는 전자문서 변환방법을 컴퓨터에서 실행시키기 위한 프로그램을 구비한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having a computer program for executing an electronic document conversion method comprising the step of storing the XML document in a database (DB).
KR1020050122613A 2005-12-13 2005-12-13 Method for transforming of electronic document based on mapping rule and system thereof KR100762712B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050122613A KR100762712B1 (en) 2005-12-13 2005-12-13 Method for transforming of electronic document based on mapping rule and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050122613A KR100762712B1 (en) 2005-12-13 2005-12-13 Method for transforming of electronic document based on mapping rule and system thereof

Publications (2)

Publication Number Publication Date
KR20070062800A KR20070062800A (en) 2007-06-18
KR100762712B1 true KR100762712B1 (en) 2007-10-02

Family

ID=38363034

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050122613A KR100762712B1 (en) 2005-12-13 2005-12-13 Method for transforming of electronic document based on mapping rule and system thereof

Country Status (1)

Country Link
KR (1) KR100762712B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107848617B (en) * 2015-05-28 2021-10-01 现代重工业株式会社 Ship data comprehensive management method and ship data comprehensive management equipment
KR102140648B1 (en) * 2018-12-07 2020-08-04 유병섭 System for converting hangeul word file on the web

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007439A (en) 2000-06-20 2002-01-11 Nec Corp Method for preparing id table for managing document information
KR20030075594A (en) * 2002-03-19 2003-09-26 주식회사 인터유져 The Web Document Transform System based on Unicode involving Korean Ancient Writings and Chinese Characters
KR20040000194A (en) * 2002-06-24 2004-01-03 오동익 A Method of Extracting a Document Type Definition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007439A (en) 2000-06-20 2002-01-11 Nec Corp Method for preparing id table for managing document information
KR20030075594A (en) * 2002-03-19 2003-09-26 주식회사 인터유져 The Web Document Transform System based on Unicode involving Korean Ancient Writings and Chinese Characters
KR20040000194A (en) * 2002-06-24 2004-01-03 오동익 A Method of Extracting a Document Type Definition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"XML을 적용한 표준문서 관리 시스템의 설계 및 구현", 한국문헌정보과학회지 2001, 35(1), 77-99쪽

Also Published As

Publication number Publication date
KR20070062800A (en) 2007-06-18

Similar Documents

Publication Publication Date Title
KR101755365B1 (en) Managing record format information
US7240279B1 (en) XML patterns language
CN100399323C (en) Apparatus and method for parsing xml document by using external xml validator
JP5247983B2 (en) Actionable email document
US10922614B2 (en) Converting procedural text to an actionable knowledge form
US20080222517A1 (en) Applying Patterns to XSD for Extending Functionality to Both XML and non-XML Data Data Structures
US9424003B1 (en) Schema-less system output object parser and code generator
US6766350B1 (en) Shared management of data objects in a communication network
AU2021212135A1 (en) Building and managing data-processing attributes for modelled data sources
Neubauer et al. XMLText: from XML schema to Xtext
CN103902269B (en) System and method for generating MIB files through XML files
US20080114797A1 (en) Importing non-native content into a document
US8161376B2 (en) Converting a heterogeneous document
US7437714B1 (en) Category partitioning markup language and tools
KR100762712B1 (en) Method for transforming of electronic document based on mapping rule and system thereof
US20200410170A1 (en) Method and system for translating natural language policy to logical access control policy
CN110020358B (en) Method and device for generating dynamic page
CN111125598A (en) Intelligent data query method, device, equipment and storage medium
US20040025114A1 (en) Preserving content or attribute information during conversion from a structured document to a computer program
CN108920659B (en) Data processing system, data processing method thereof, and computer-readable storage medium
CN110618809B (en) Front-end webpage input constraint extraction method and device
JP2005242912A (en) Device, method, and program for processing electronic document
CN113312373A (en) Method and equipment for analyzing data structured query statement
Taghva et al. An efficient tool for xml data preparation
US20050267881A1 (en) Methods and systems for data storage

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20110922

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee