KR20040016198A - 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법 - Google Patents

원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법 Download PDF

Info

Publication number
KR20040016198A
KR20040016198A KR1020020048457A KR20020048457A KR20040016198A KR 20040016198 A KR20040016198 A KR 20040016198A KR 1020020048457 A KR1020020048457 A KR 1020020048457A KR 20020048457 A KR20020048457 A KR 20020048457A KR 20040016198 A KR20040016198 A KR 20040016198A
Authority
KR
South Korea
Prior art keywords
document
text
original
sentence
translated
Prior art date
Application number
KR1020020048457A
Other languages
English (en)
Inventor
강명주
Original Assignee
(주) 클릭큐
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 클릭큐 filed Critical (주) 클릭큐
Priority to KR1020020048457A priority Critical patent/KR20040016198A/ko
Publication of KR20040016198A publication Critical patent/KR20040016198A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Abstract

본 발명은 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법에 관한 것으로서, 본 발명은 선택한 원문 문서를 RTF 파일 포맷 문서로 변환하고, 상기 RTF 파일 포맷 문서의 분석을 통해 텍스트의 위치와 속성 및 객체의 위치와 속성을 추출하여 제1 인덱스 DB 및 제2 인덱스 DB로 각각 저장하고, 상기 제1 인덱스 DB와 제2 인덱스 DB를 참조하여 최종 번역문 문서를 생성하는 것을 특징으로 한다.
이상과 같은 본 발명에 따르면 원문 문서와 동일한 형태의 번역문 문서를 생성하기 위한 별도의 편집 작업이 필요없으며, 사용자가 번역문 문서를 보다 더 쉽게 이해할 수 있다는 효과가 있다.

Description

원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법{METHOD OF MAKING TRANSLATION DOCUMENT FOR KEEPING LAYOUT OF ORIGINAL TEXT}
본 발명은 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법에 관한 것으로서, 보다 상세하게는 원문 문서를 RTF(Rich Text Format) 파일 포맷 문서로 변환한후 RTF 파일 포맷 문서를 분석하여 텍스트 위치와 속성 및 객체의 위치와 속성을 추출하고, 상기 추출한 정보를 이용하여 번역을 수행함으로써 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법에 관한 것이다.
종래에는 원문 문서가 가지는 속성정보들을 무시하고 원문 문서의 텍스트만으로 번역이 수행되므로 원문 문서의 형태를 그대로 유지할 수가 없었다. 따라서, 사용자는 원문 문서와 동일한 레이아웃을 가지는 번역문 문서를 얻기 위해 별도의 편집작업을 수행해야 했으며, 이에 따른 편집시간이 많이 소요되는 문제점이 있었다.
본 발명은 상기한 바와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 원문 문서의 형태와 특성을 유지하는 번역문 문서를 자동으로 생성함으로써 별도의 편집작업 없이도 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법을 제공하는 것이다.
도 1은 본 발명을 구현하기 위한 번역 시스템 구성도이다.
도 2는 본 발명에 따른 번역문 문서 생성 방법을 설명하기 위한 전체 흐름도이다.
도 3은 본 발명에 따른 최종 번역문 문서 생성 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일실시예에 따른 편집기 화면을 나타내는 도면이다.
* 도면의 주요부분에 대한 부호의 설명 *
100 : RTF 변환기110 : 편집기
120 : 텍스트/객체 분석부130 : 텍스트/객체 추출부
140 : 번역기150 : 검색기
160 : 번역문장 DB 162 : 번역문장 정렬기
170 : DB 관리기172 : 제1 인덱스 DB
174 : 제2 인덱스 DB176 : 용어 DB
180 : 프로젝트 생성기190 : 텍스트/객체 재결합부
상기한 목적을 달성하기 위하여 본 발명에 따른 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법은 선택된 원문 문서를 RTF 파일 포맷 문서로 변환하는 단계, 상기 RTF 파일 포맷 문서의 분석을 통해 텍스트 위치와 텍스트 속성을 추출하여 제1 인덱스 DB로 저장하고, 객체 위치와 객체 속성을 추출하여 제2 인덱스 DB로 저장하는 동시에, 텍스트만을 추출하여 원문 텍스트 문서를 획득하는 단계,상기 원문 텍스트 문서를 문장단위로 정렬하고, 제1 인덱스 DB를 참조하여 상기 원문 텍스트 문서에 텍스트의 위치와 속성 정보를 적용하는 단계, 상기 원문 텍스트 문서의 번역을 수행하는데, 사용자가 문장을 선택하면 원문과 번역문의 쌍으로 구성된 번역문장 DB로부터 해당 문장과 가장 유사한 원문을 검색하고 상기 원문과 원문의 쌍으로 저장된 번역문을 번역문장 표시창에 게시하는 단계, 및 상기 원문 텍스트 문서의 번역을 통해 얻어지는 번역문 텍스트 문서에 상기 제2 인덱스 DB를 참조하여 객체 위치와 객체 속성을 적용함으로써 최종 번역문 문서를 생성하는 단계를 포함한다.
또한, 본 발명은 번역을 수행하는 동안 원문 텍스트 문서와 번역문 텍스트 문서가 번역문장 DB에 실시간 기록되는 것을 특징으로 한다.
또한, 본 발명의 객체 속성은 도형, 글상자, 테이블, 그림 등의 문서 서식 정보를 포함하는 것을 특징으로 한다.
이러한 본 발명에 따른 바람직한 실시예를 첨부된 도면에 의거하여 상세하게 설명하면 다음과 같다.
도 1은 본 발명을 구현하기 위한 번역 시스템 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 번역 시스템은 RTF 변환기(100), 편집기(110), 텍스트/객체 분석부(120), 텍스트/객체 추출부(130), 텍스트/객체 재결합부(190), 검색기(150), 번역문장(TM:Translation Memory) DB(160), 번역문장 정렬기(162), 번역기(140), 프로젝트 생성기(180), DB 관리기(170), 제1 인덱스 DB(172), 제2 인덱스 DB(174), 용어 DB(176)로 구성된다.
상기와 같이 구성되는 본 발명에 따른 시스템의 동작관계를 살펴보면 다음과 같다.
상기 편집기(110)는 번역을 원하는 사용자와의 인터페이스 역할을 수행하는 것으로서, 사용자는 이 편집기(110)를 통해 번역작업을 수행한다.
우선, 상기 프로젝트 생성기(180)는 원문 대 번역문의 언어 및 번역옵션 등의 번역작업을 위한 모든 정보가 기록되는 프로젝트를 생성한다.
프로젝트 생성후, 사용자가 원문 문서를 열면 상기 RTF 변환기(100)는 원문 문서를 RTF 파일 포맷 문서로 변환한다.
그 다음에, 상기 텍스트/객체 분석부(120)가 RTF 파일 포멧 문서를 분석하고, 텍스트/객체 추출부(130)가 분석된 RTF 파일 포멧 문서의 텍스트 위치와 텍스트 속성 및 객체 위치와 객체 속성을 추출하여 제1 인덱스 DB(172) 및 제2 인덱스 DB(174)로 각각 저장한다.
그리고, 텍스트만을 추출하여 원문 텍스트 문서를 획득하고, 획득된 원문 텍스트 문서를 문장단위로 정렬한후, 제1 인덱스 DB(172)를 참조하여 원문 텍스트 문서에 텍스트의 위치와 속성 정보를 적용한다.
그 다음에, 번역기(140)가 원문 텍스트 문서의 번역을 수행하는데, 사용자가 문장을 선택하면 상기 검색기(150)가 선택된 문장과 매칭되는 용어 및 문장을 용어DB(176) 및 번역문장 DB(160)에서 검색하여 번역문장 표시창과 용어창에 게시한다.
상기 DB 관리기(170)는 용어 DB(176)와 제1 인덱스 DB(172), 제2 인덱스 DB(174)를 관리하고, 상기 번역문장 정렬기(162)는 번역문장 DB(160)에 원문과 번역문을 쌍으로 저장하는 역할을 수행한다. 여기서, 상기 번역문장 정렬기(162)는 작업한 번역문과 이에따른 원문을 문장단위로 실시간 저장한다.
상기 텍스트/객체 재결합부(190)는 원문 텍스트 문서의 번역을 통해 생성된 번역문 텍스트 문서에 제2 인덱스 DB를 참조하여 객체 위치와 객체 속성을 적용한다.
그러면, 상기 RTF 변환기(100)는 완성된 번역 텍스트 문서를 원문 문서 포맷에 맞게 저장하여 최종 번역문 문서를 생성한다.
본 발명에 있어서, 번역문장 DB, 용어 DB, 작업환경 등 번역작업과 관련한 모든 정보는 일명 프로젝트 파일로 저장되어 관리된다. 또한, 이러한 프로젝트 파일은 사용자가 지정하는 원문과 번역문의 언어 정보, 번역문장 DB 또는 용어 DB의 사용여부와 같은 번역옵션을 포함한다.
이하 본 발명에 따른 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법을 구체적으로 살펴보면 다음과 같다.
도 2를 참조하면, 사용자는 앞서 설명한 바와 같은 과정으로 프로젝트를 생성하고 편집기(110)를 통해 번역하고자 하는 원문 문서(예를들면, DOC 문서 또는 RTF 문서)를 선택한다(S100).
그러면, RTF 변환기(100)가 상기 선택된 원문 문서를 RTF 파일 포맷 문서로변환한다(S110). RTF 파일 포맷 문서의 잇점은 원문 문서의 속성 즉, 글자의 종류와 크기, 그림, 도표, 페이지 배치 정보 등이 없어지지 않고 유지되기 때문에 원문 문서의 레이아웃을 유지할 수 있다는 것이다.
본 발명은 이러한 RTF의 잇점을 이용하여 원문 문서의 레이아웃을 유지한 번역문 문서를 얻기 때문에 원문 문서와 동일한 형태의 번역문 문서를 만들기 위한 별도의 편집작업이 필요없는 효과가 있다.
RTF는 다음과 같이 각 속성을 시작 태그와 끝 태그로 나타낸다.
<문서 시작> <텍스트 시작> 텍스트 내용 <텍스트 끝> <그림 시작> 그림 <그림 끝> <텍스트 시작> 텍스트 내용 <텍스트 속성 시작> 텍스트 속성 <텍스트 속성 끝> <텍스트 시작> 텍스트 내용 <텍스트 끝> <문서 끝>
따라서, RTF 파일 포맷 문서의 분석은 태그단위로 이루어지며, 텍스트, 그림, 테이블, 도형, 글상자 등의 모든 태그를 분석한다.
그 다음에, 텍스트/객체 추출부(120)가 상기 RTF 파일 포맷 문서의 텍스트 위치와 텍스트 속성을 추출하여 제1 인덱스 DB(172)로 저장하고, 객체 위치와 객체 속성을 추출하여 제2 인덱스 DB(174)로 저장한다. 여기서 객체는 텍스트 정보를 제외한 그림, 테이블, 도형, 글상자 등의 문서 서식 정보를 통칭한다.
예를들면, 상기 객체와 관련한 인덱스 DB는 아래의 표 1과 같이 구성될 수 있다.
객체정보의 번호 객체정보의 길이 객체정보
1 23 <그림시작>그림<그림끝>
... ... ...
1000 10 <테이블시작>테이블<테이블끝>
이와 동시에, 상기 RTF 파일 포맷 문서의 텍스트만을 추출하여 원문 텍스트 문서를 획득한다(S120). 그래서, 상기 원문 텍스트 문서를 문장끝에 위치하게 되는 '.' 또는 ';' 등의 기호를 기준으로 문장단위로 정렬하고, 제1 인덱스 DB(172)를 참조하여 상기 원문 텍스트 문서에 텍스트의 위치와 속성 정보를 적용한다(S130).
그 다음에, 사용자가 번역하고자 하는 문장을 선택하면 검색기(150)는 해당 문장의 용어를 용어 DB(176)로부터 검색하여 검색결과가 있으면 용어창(440)에 게시하고 검색결과가 없으면 원어를 원문 순서대로 용어창(440)에 게시한다.
또한, 설정된 일치 기준(예를들면, 해당문장과 저장된 원문과의 일치율 80% 이상)에 따라 원문과 번역문의 쌍으로 구성된 번역문장 DB(160)로부터 해당 문장과 가장 유사한 원문을 검색하여 원문과 그 원문의 쌍으로 저장된 번역문을 번역문장 표시창에 게시한다(S140).
용어창에 게시된 검색 결과를 참고하여 번역문 텍스트 문서를 생성하거나 번역문장 표시창에 게시된 문장을 선택하여 번역문 텍스트 문서를 생성한다. 이때, 번역기(140)는 번역문 텍스트 문서를 원문 텍스트 문서의 속성과 동일한 속성을 가지도록 생성한다.
그리고, 번역문장 정렬기(162)는 번역을 수행하는 동안 원문 텍스트 문서와 번역문 텍스트 문서를 실시간으로 새로운 번역문장 DB(160)에 저장하며, 이 번역문장 DB(160)는 추후 번역수행시 사용자의 선택에 의해 사용될 수 있다.
그후, 텍스트/객체 재결합부(190)가 번역문 텍스트 문서(420)에 제2 인덱스 DB를 참조하여 객체 위치와 객체 속성을 적용함으로써 최종 번역문 문서를 생성한다(S150).
상기 최종 번역문 문서는 도 3에 도시된 바와 같이 번역문 텍스트 문서가 생성되면(S152), 생성된 번역문 텍스트 문서를 문단단위로 결합하고(S154), 제2 인덱스 DB(174)를 참조하여 객체 위치와 객체 속성을 적용하여(S156) 원문 문서의 레이아웃을 유지하는 최종 번역문문서를 생성하는데, RTF 변환기(100)가 RTF 파일 포맷 문서를 다시 원문 문서 포맷으로 변환함으로써 최종 번역문 문서를 생성한다(S158).
도 4는 본 발명의 일실시예에 따른 편집기 화면을 나타내는 도면으로, 편집기 화면은 프로젝트 창(400), 원문 텍스트 문서 표시창(410), 번역문 텍스트 문서 표시창(420), 번역문장 표시창(430), 용어창(440)으로 구성된다.
상기 프로젝트 창(400)에는 선택한 원문 문서 정보, 번역문장 DB 정보, 용어 DB 정보 등이 표시되고, 원문 텍스트 문서 표시창(410)에는 원문 문서로부터 추출된 텍스트들이 문장단위로 표시되고, 번역문 텍스트 문서 표시창(420)에는 사용자가 선택한 문장에 대한 번역문 텍스트들이 표시된다. 또한, 번역문장 표시창(430)에는 원문과 그 원문의 쌍으로 저장된 번역문 및 선택된 문장과의 일치율(0 내지 100% 범위)이 표시된다. 물론, 용어창(440)에는 선택된 문장내의 용어가 표시된다.
이상과 같은 본 발명에 따르면, RTF 파일 포맷 문서를 이용하여 원문 문서의그림, 표, 도형, 글상자 등 객체의 위치와 속성 및 텍스트의 위치와 속성을 그대로 유지하여 번역할 수 있어 원문 문서와 동일한 형태의 번역문 문서를 생성하기 위한 별도의 편집 작업이 필요없다.
또한, 번역문 문서가 원문 문서와 동일한 레이아웃을 가지기 때문에 사용자가 번역문 문서를 보다 더 쉽게 이해할 수 있다.

Claims (3)

  1. 원문 문서의 레이아웃을 유지하는 번역문 문서 생성 방법에 있어서,
    선택된 원문 문서를 RTF 파일 포맷 문서로 변환하는 단계;
    상기 RTF 파일 포맷 문서의 분석을 통해 텍스트 위치와 텍스트 속성 추출하여 제1 인덱스 DB에 저장하고, 객체 위치와 객체 속성을 추출하여 제2 인덱스 DB에 저장하는 동시에, 텍스트만을 추출하여 원문 텍스트 문서를 획득하는 단계;
    상기 원문 텍스트 문서를 문장단위로 정렬하고, 제1 인덱스 DB를 참조하여 상기 원문 텍스트 문서에 텍스트의 위치와 속성 정보를 적용하는 단계;
    상기 원문 텍스트 문서의 번역을 수행하는데, 사용자가 문장을 선택하면 원문과 번역문의 쌍으로 구성된 번역문장 DB로부터 해당 문장과 가장 유사한 원문을 검색하고, 상기 검색된 원문과 원문의 쌍으로 저장된 번역문을 번역문장 표시창에 게시하는 단계; 및
    상기 원문 텍스트 문서의 번역을 통해 얻어지는 번역문 텍스트 문서에 상기 제2 인덱스 DB를 참조하여 객체 위치와 객체 속성을 적용함으로써 최종 번역문 문서를 생성하는 단계를 포함하는 것을 특징으로 하는 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법.
  2. 청구항 1에 있어서, 번역을 수행하는 동안 원문 텍스트 문서와 번역문 텍스트 문서가 번역문장 DB에 실시간 기록되는 것을 특징으로 하는 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법.
  3. 청구항 1에 있어서, 상기 객체 속성은 도형, 글상자, 테이블, 그림 등의 문서 서식 정보를 포함하는 것을 특징으로 하는 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법.
KR1020020048457A 2002-08-16 2002-08-16 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법 KR20040016198A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020048457A KR20040016198A (ko) 2002-08-16 2002-08-16 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020048457A KR20040016198A (ko) 2002-08-16 2002-08-16 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법

Publications (1)

Publication Number Publication Date
KR20040016198A true KR20040016198A (ko) 2004-02-21

Family

ID=37322251

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020048457A KR20040016198A (ko) 2002-08-16 2002-08-16 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법

Country Status (1)

Country Link
KR (1) KR20040016198A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
KR101059631B1 (ko) * 2008-07-04 2011-08-25 야후! 인크. 자동 입출력 인터페이스를 갖춘 번역기 및 그 인터페이싱방법
WO2013067233A1 (en) * 2011-11-03 2013-05-10 Microsoft Corporation Techniques for automated document translation
KR20190011421A (ko) * 2017-07-25 2019-02-07 주식회사 한글과컴퓨터 문서 일괄 번역 시스템
KR20190025188A (ko) * 2017-08-31 2019-03-11 주식회사 에버트란 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
US8108202B2 (en) 2007-07-27 2012-01-31 Electronics And Telecommunications Research Institute Machine translation method for PDF file
KR101059631B1 (ko) * 2008-07-04 2011-08-25 야후! 인크. 자동 입출력 인터페이스를 갖춘 번역기 및 그 인터페이싱방법
WO2013067233A1 (en) * 2011-11-03 2013-05-10 Microsoft Corporation Techniques for automated document translation
US9367539B2 (en) 2011-11-03 2016-06-14 Microsoft Technology Licensing, Llc Techniques for automated document translation
US10452787B2 (en) 2011-11-03 2019-10-22 Microsoft Technology Licensing, Llc Techniques for automated document translation
KR20190011421A (ko) * 2017-07-25 2019-02-07 주식회사 한글과컴퓨터 문서 일괄 번역 시스템
KR20190025188A (ko) * 2017-08-31 2019-03-11 주식회사 에버트란 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법

Similar Documents

Publication Publication Date Title
US7168040B2 (en) Document processing apparatus and method for analysis and formation of tagged hypertext documents
KR100324456B1 (ko) 구조화문서검색표시방법및장치
US7606797B2 (en) Reverse value attribute extraction
JPH0293866A (ja) 要約生成方法および要約生成装置
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
CN109492199A (zh) 一种基于ocr预判断的pdf文件转换方法
KR20040070323A (ko) 프로그램, 문자 입력 편집 방법과 장치 및 기록 매체
KR100912288B1 (ko) 문서 내 목차정보를 이용한 검색 시스템
Menzel et al. Cohesion and coherence in multilingual contexts
KR20040016198A (ko) 원문 문서의 레이아웃 유지가 가능한 번역문 문서 생성 방법
Futrelle Handling figures in document summarization
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
Chen et al. Understanding multilingual four-scene comics with deep learning methods
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JPH03105566A (ja) 抄録作成方式
JP2005129086A (ja) 文書編集装置並びに文書編集処理プログラムを記録した記録媒体
KR102215613B1 (ko) 문서에 삽입된 텍스트를 구성하는 언어에 기반한 텍스트 검색을 가능하게 하는 전자 장치 및 그 동작 방법
Ku et al. Predicting opinion dependency relations for opinion analysis
Hanumanthappa et al. Identification and extraction of different objects and its location from a Pdf file using efficient information retrieval tools
JP3969689B2 (ja) 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体
JPH06348756A (ja) 索引作成装置及び索引利用装置
JP2009266065A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
Moeed et al. Evaluation metrics for headline generation using deep pre-trained embeddings
Press Emerging dynabase tools
Nguyen et al. A new sentence reduction technique based on a decision tree model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application