KR100818628B1 - Apparatus and method for building patent translation dictionary - Google Patents

Apparatus and method for building patent translation dictionary Download PDF

Info

Publication number
KR100818628B1
KR100818628B1 KR1020060089003A KR20060089003A KR100818628B1 KR 100818628 B1 KR100818628 B1 KR 100818628B1 KR 1020060089003 A KR1020060089003 A KR 1020060089003A KR 20060089003 A KR20060089003 A KR 20060089003A KR 100818628 B1 KR100818628 B1 KR 100818628B1
Authority
KR
South Korea
Prior art keywords
word
dictionary
band
terminology
entry
Prior art date
Application number
KR1020060089003A
Other languages
Korean (ko)
Other versions
KR20080024635A (en
Inventor
최승권
권오욱
이기영
노윤형
홍문표
김영길
서영애
김창현
양성일
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060089003A priority Critical patent/KR100818628B1/en
Publication of KR20080024635A publication Critical patent/KR20080024635A/en
Application granted granted Critical
Publication of KR100818628B1 publication Critical patent/KR100818628B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Abstract

대용량의 특허 번역 사전을 효율적이며 경제적으로 구축하는 장치 및 방법을 개시한다. 이를 위하여, 상기 장치는 기구축된 전문 용어를 입력받아 특허 번역 사전용 DB에 기록 가능한 형태로 상기 입력된 전문 용어의 포맷을 변경하여 확장 사전용 DB에 기록하는 용어 재구성부와, 출발 언어 특허 문서를 입력받아 상기 확장 사전용 DB에 기록되지 않은 미등록 전문 용어를 상기 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하며, 대역어가 부착되지 않은 상기 단일어 엔트리에 대해 상기 대역어를 부착한 후, 상기 확장 사전용 DB에 상기 엔트리를 추가하는 용어 처리부와, 목표 언어 특허 문서를 입력받아 상기 확장 사전용 DB에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역한 후, 상기 특허 번역 사전용 DB에 기록하는 대역어 특화부를 포함함으로써, 특허 분야별로 대역어가 구분된 대용량의 특허 번역 사전을 구축하는 시간과 비용을 절약할 수 있다.An apparatus and method for efficiently and economically constructing a large volume of patent translation dictionaries are disclosed. To this end, the apparatus receives a pre-composed terminology, the term reconstruction unit for changing the format of the input terminology in a form that can be recorded in the DB for patent translation dictionary, and recording in the DB for extended dictionary, the starting language patent document Extracts unregistered terminology not recorded in the extended dictionary DB from the patent document, classifies a single word entry among the extracted unregistered terminology, and attaches the bandword to the single word entry to which no band word is attached After that, the term processing unit which adds the entry to the DB for expansion dictionary and a target language patent document are received, and a band word suitable for a patent field is selected for a plurality of band words in the DB for expansion dictionary, and the compound word is specialized. Band word specialization recorded in the DB for dictionary translation after translation into single word band language Can save time and costs to build in the translated words are separated by a large sector patent Patent Translation Dictionary by including.

대용량, 단일어, 번역, 사전 Large, monolingual, translation, dictionary

Description

특허 번역 사전 구축 장치 및 방법{APPARATUS AND METHOD FOR BUILDING PATENT TRANSLATION DICTIONARY}Patent translation dictionary construction device and method {APPARATUS AND METHOD FOR BUILDING PATENT TRANSLATION DICTIONARY}

도 1은 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치를 나타내는 구성도.1 is a block diagram showing a patent translation dictionary construction apparatus according to an embodiment of the present invention.

도 2는 도 1의 용어 재구성부를 나타내는 상세 구성도.FIG. 2 is a detailed configuration diagram illustrating the term reconstruction unit of FIG. 1. FIG.

도 3은 도 1의 용어 처리부를 나타내는 상세 구성도.3 is a detailed configuration diagram illustrating a term processing unit of FIG. 1.

도 4는 도 1의 대역어 특화부를 나타내는 상세 구성도.FIG. 4 is a detailed configuration diagram illustrating the bandword specialized unit of FIG. 1. FIG.

도 5는 도 4의 용어 선택부의 동작을 나타내는 순서도.5 is a flowchart illustrating an operation of a term selector of FIG. 4.

본 발명은 번역 사전을 구축하는 장치 및 방법에 관한 것으로, 더욱 상세하게는 대용량 단일어 특허 문서를 기반으로 특허 번역 사전을 구축하는 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for constructing a translation dictionary, and more particularly, to an apparatus and method for constructing a patent translation dictionary based on a large-capacity monolingual patent document.

번역 사전을 구축하는 기술에는, 출발 언어(또는 원시 언어, source language)의 전문 용어에 대해 목표 언어(또는 목적 언어, target language)의 대역어를 수동으로 단순히 부착하는 방법이 있다. 이는, 예컨대 네트워크를 이용한 번역 시스템에서 출발 언어에 대해 기계 번역을 수행한 후, 출발 언어의 전문 용어에 대해서는 목표 언어의 대역어를 번역자들에 의해 수동으로 부착하는(번역하는) 방법이다. Techniques for building a translation dictionary include a method of manually attaching a band language of a target language (or target language) manually with respect to a jargon of a source language (or source language). This is, for example, a method of performing machine translation on a starting language in a translation system using a network, and then manually attaching (translating) the band language of the target language to the terminology of the starting language.

또한, 미등록어를 추출하여 그 미등록어들 사이의 관계 정보를 파악하는 기술을 그 예로서 들 수 있다. 이는, 예컨대 정보 검색 시스템에서 검색어 확장과 관련하여 미등록어를 추출하고 해당 미등록어에 대해 개념 정보를 부착한 후, 해당 개념 정보를 분석하여 수동으로 번역 사전에 등재 여부(예를 들면, 복합 명사의 경우에 모호성 제거)를 결정하는 방법이다. Further, a technique of extracting unregistered words and grasping relationship information between the unregistered words may be cited as an example. For example, the information retrieval system extracts unregistered words in relation to search term expansion, attaches conceptual information to the unregistered words, analyzes the conceptual information, and manually registers them in a translation dictionary (eg, a compound noun). In the case of ambiguity removal).

이러한 방법들은 결국 번역 사전을 구축하기 위해서 인간의 개입이 결정적인 요소를 이루며, 이러한 인간의 개입은 대용량의 번역 사전을 구축하는데 그 시간과 노력이 과다하게 소비되는 문제점이 있다. These methods ultimately constitute a critical factor for human intervention in order to build a translation dictionary, and this human intervention has a problem in that an excessive amount of time and effort is spent in constructing a large-capacity translation dictionary.

따라서, 본 발명의 목적은 인간의 개입을 최소화하는 대용량의 특허 번역 사전을 구축하는 장치 및 방법을 제공하는데 있다. Accordingly, it is an object of the present invention to provide an apparatus and method for constructing a large volume of patent translation dictionaries that minimize human intervention.

또한, 본 발명의 다른 목적은 대용량의 특허 번역 사전을 효율적이며 경제적으로 구축하는 장치 및 방법을 제공하는데 있다. Another object of the present invention is to provide an apparatus and method for efficiently and economically constructing a large-capacity patent translation dictionary.

이를 위하여, 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치는, 기구축된 전문 용어를 입력받아 특허 번역 사전용 DB에 기록 가능한 형태로 상기 입력된 전문 용어의 포맷을 변경하여 확장 사전용 DB에 기록하는 용어 재구성부; 출발 언어 특허 문서를 입력받아 상기 확장 사전용 DB에 기록되지 않은 미등록 전문 용어를 상기 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하며, 대역어가 부착되지 않은 상기 단일어 엔트리에 대해 상기 대역어를 부착한 후, 상기 확장 사전용 DB에 상기 엔트리를 추가하는 용어 처리부; 및 목표 언어 특허 문서를 입력받아 상기 확장 사전용 DB에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역한 후, 상기 특허 번역 사전용 DB에 기록하는 대역어 특화부를 포함한다. To this end, the patent translation dictionary construction apparatus according to an embodiment of the present invention, by receiving a mechanical terminology terminology and changes the format of the input terminology in a form that can be recorded in the patent translation dictionary DB DB expansion dictionary A term reconstruction unit recorded in the; Extracts unregistered jargon not recorded in the extended dictionary DB from the patent document, classifies a single word entry among the extracted unregistered jargon, and searches for the single word entry without a band word A term processing unit for adding the entry to the DB for expansion dictionary after attaching the band word; And receiving a target language patent document, selecting a band word suitable for a patent field from a plurality of band words in the extended dictionary DB, translating a compound word into a specialized single word band word for a composite word, and then recording the band word in the DB for dictionary translation. Includes a specialization.

또한, 본 발명의 일 실시예에 따른 특허 번역 사전 구축 방법은, a) 특허 번역 사전에 기록 가능한 형태로 기존에 구축된 전문 용어의 포맷을 변경하여 확장 사전을 구축하는 단계; b) 상기 확장 사전에 등록되지 않은 미등록 전문 용어를 출발 언어 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하고 대역어가 부착되지 않은 단일어 엔트리에 대해 해당 대역어를 부착한 후에 상기 확장 사전에 상기 엔트리를 추가하는 단계; 및 c) 상기 확장 사전에서 특정 표제어에 대해 복수의 대역어들이 존재하는 경우, 목표 언어 전문 용어를 토대로 상기 복수의 대역어들 중에서 특허 분야에 적합한 대역어를 선택하는 단계를 포함한다.In addition, a method for constructing a patent translation dictionary according to an embodiment of the present invention includes the steps of: a) constructing an extension dictionary by changing a format of a terminology previously constructed in a form recordable in a patent translation dictionary; b) extracting the unregistered terminology not registered in the extension dictionary from a starting language patent document, classifying a single word entry among the extracted unregistered terminology, and attaching the corresponding bandword to a single word entry without a bandword; Adding the entry to a dictionary; And c) when a plurality of band words exist for a specific headword in the extension dictionary, selecting a band word suitable for a patent field from among the plurality of band words based on a target language terminology.

한편, 본 발명의 일 실시예에 따라 특허 번역 사전 구축 과정에서 특정 표제어에 대해 복수의 대역어들 중에서 특허 분야에 적합한 대역어를 선택하는 방법은, 1) 확장 사전에 기록된 엔트리가 입력되면, 상기 엔트리가 마지막인지 판단하는 단계; 2) 상기 대역어들 중 하나를 특허 전분야의 디폴트 대역어로 결정하는 단계; 3) 상기 엔트리의 표제어가 출발 언어 전문 용어의 빈도순 목록에서 특정 누적빈도 이상인지를 판단하는 단계; 및 4) 상기 판단 결과 상기 특정 누적빈도 이하인 경우, 상기 2) 단계에서 결정된 특허 전 분야의 디폴트 대역어보다 상기 출발 언어 전문 용어의 빈도순 목록에서의 특정 분야 디폴트 대역어가 더 고빈도인 경우에만 상기 특정 분야의 대역어로 결정하는 단계를 포함한다.Meanwhile, according to an embodiment of the present invention, a method of selecting a band word suitable for a patent field among a plurality of band words in a patent translation dictionary construction process according to an embodiment of the present invention includes: 1) when an entry recorded in an extension dictionary is inputted, Determining whether is the last; 2) determining one of the band words to be the default band word of a patent; 3) determining whether the entry term of the entry is equal to or greater than a specific cumulative frequency in a frequency-ordered list of starting language terminology; And 4) when the determination result is less than or equal to the specific cumulative frequency, only when the specific sector default band word in the frequency order list of the starting language terminology is higher than the default band word of the entire patent area determined in step 2). Determining the language of the field.

이하에서는, 첨부 도면 및 실시예를 참조하여 본 발명을 상세히 설명한다. 도면상에서 동일 또는 유사한 구성요소에 대하여는 동일한 참조번호를 부여하였다. Hereinafter, with reference to the accompanying drawings and embodiments will be described the present invention in detail. Like reference numerals refer to like or similar elements throughout the drawings.

도 1은 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치를 나타내는 구성도이다. 1 is a block diagram showing a patent translation dictionary construction apparatus according to an embodiment of the present invention.

도 1에 도시한 바와 같이, 이 장치는, 기존에 구축된 전문 용어를 토대로 확장된 일반 번역 사전용 DB(900, 이하 확장 사전용 DB라 함)를 구축하는 용어 재구성부(200)와, 이 확장 사전용 DB에 등록되지 않은 미등록 전문 용어를 부가하는 용어 처리부(300)와, 이 확장 사전용 DB를 토대로 특허 분야에 맞는 대역어로 번역하여 본 발명에 따른 특허 번역 사전용 DB(500)를 반자동으로 구축하는 대역어 특화부(400)를 포함한다. As shown in FIG. 1, the apparatus includes a term reconstruction unit 200 for constructing an extended DB for general translation dictionary (hereinafter referred to as DB for extended dictionary) based on existing terminology. Semi-automatically translates the term processing unit 300 to add unregistered terminology not registered in the extended dictionary DB, and the patent translation dictionary DB 500 according to the present invention by translating into a band language suitable for the patent field based on the extended dictionary DB. Band word specialization unit 400 to be built.

또한, 상기 장치는 본 발명에 따른 특허 번역 사전용 DB(500)를 구축하기 위해서 일반 번역 사전용 DB(100)와, 기존의 전문 용어를 입력받는 기구축 용어 입력부(600)와, 출발 언어 특허 문서를 입력받는 출발 언어 입력부(700)와, 목표 언어 특허 문서를 입력받는 목표 언어 입력부(800)를 더 포함한다. In addition, the apparatus is a DB 100 for general translation dictionary, instrument axis term input unit 600 for receiving existing technical terms, and starting language patents to build a DB for patent translation dictionary 500 according to the present invention The apparatus further includes a starting language input unit 700 for receiving a document and a target language input unit 800 for receiving a target language patent document.

이와 같이 구성된 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치의 동작을 간략하게 설명한다. The operation of the patent translation dictionary construction device according to the embodiment of the present invention configured as described above will be briefly described.

먼저, 용어 재구성부(200)는 기구축 용어 입력부(600)에서 기존에 구축된 전문 용어를 입력받아 일반 번역 사전용 DB(100)를 토대로 특허 번역 사전용 DB(500)에 기록 가능한 형태로 그 포맷을 변경하여 확장 사전용 DB(900)를 구축한다. First, the term reconstruction unit 200 is a form that can be recorded in the patent translation dictionary DB (500) based on the general translation dictionary DB (100) by receiving the existing terminology established in the instrument axis term input unit (600) Change the format to build the extended dictionary DB (900).

이어, 용어 처리부(300)는 출발 언어 입력부(700)로부터 특정 출발 언어 특허 문서를 입력받아 새로 구축된 확장 사전용 DB(900)에 등록되지 않은 미등록 전문 용어를 이 특허 문서로부터 추출한다. 또한, 용어 처리부(300)는 이 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하고 대역어가 부착되지 않은 단일어 엔트리에 대해서는 수동으로 부착한 후에 확장 사전용 DB(900)에 그 엔트리를 추가한다. Subsequently, the term processing unit 300 receives a specific departure language patent document from the departure language input unit 700 and extracts unregistered terminology not registered in the newly constructed extended dictionary DB 900 from this patent document. In addition, the term processing unit 300 classifies the single word entry among the extracted unregistered terminology and manually attaches the single word entry without the band word attached thereto, and adds the entry to the extended dictionary DB 900.

이후, 대역어 특화부(400)는 목표 언어 입력부(800)로부터 목표 언어 특허 문서를 입력받아 미등록 전문 용어가 추가된 확장 사전용 DB(900)에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역하여 특허 번역 사전용 DB(500)를 구축한다. Subsequently, the band language specialization unit 400 receives a target language patent document from the target language input unit 800 and selects a band word suitable for the patent field from a plurality of band words in the extended dictionary DB 900 in which unregistered terminology is added. In addition, the compound language is translated into a specialized monolingual language to construct a DB 500 for a patent translation dictionary.

이하, 본 발명에 따른 특허 번역 사전용 DB의 구축 장치를 첨부된 도면을 참조하여 더욱 상세히 설명한다. Hereinafter, an apparatus for constructing a DB for patent translation dictionary according to the present invention will be described in more detail with reference to the accompanying drawings.

도 2는 도 1의 용어 재구성부를 나타내는 상세 구성도이다. FIG. 2 is a detailed block diagram illustrating the term reconstruction unit of FIG. 1.

도 2에 도시한 바와 같이, 용어 재구성부(200)는 일반 번역 사전용 DB(100)의 일반 용어와 기존에 구축된 전문 용어의 표제어 및 대역어를 비교하는 용어 비교부(210)와, 용어 비교부(210)의 비교 결과에 따라 입력되는 기존에 구축된 전문 용어를 일반 번역 사전용 DB(100)의 포맷으로 변환시키는 용어 변환부(220)와, 변환된 전문 용어를 일반 번역 사전용 DB(100)에 그 엔트리의 존재 여부에 따라 상기 DB(100)에 삭제 또는 추가하는 용어 제거부(230)와, 추가된 전문 용어를 단일어 엔트리와 복합어 엔트리로 분리하여 확장 사전용 DB(900)에 개별적으로 추가하는 전문 용어 처리부(240)를 포함한다. As shown in FIG. 2, the term reconstruction unit 200 is a term comparison unit 210 that compares general terms of the DB 100 for general translation dictionary and headwords and band words of existing terminology, and term comparison. The term conversion unit 220 converts the existing terminology inputted according to the comparison result of the unit 210 into the format of the DB 100 for general translation dictionary, and the DB for general translation dictionary The term removing unit 230 which deletes or adds to the DB 100 according to the existence of the entry in the DB 100, and separates the added terminology into a single word compound and a compound word entry, and separately stores the extended dictionary DB 900. Includes a terminology processor 240 to add to.

또한, 용어 재구성부(200)는 용어 비교부(210)에 참조되는 일반 번역 사전용 DB(100)와, 기존의 전문 용어를 입력받는 기구축 용어 입력부(600)를 더 포함한다. In addition, the term reconstruction unit 200 further includes a general translation dictionary DB 100 referred to the term comparison unit 210, and an instrument axis term input unit 600 for receiving existing technical terms.

이와 같이 구성된 용어 재구성부(200)를 더욱 상세히 설명한다. The term reconstruction unit 200 configured as described above will be described in more detail.

용어 비교부(210)는, 기존에 구축된 전문 용어를 입력받아 이 전문 용어의 표제어 언어 및 대역어 언어와 일반 번역 사전용 DB(100)에 기록된 언어를 비교한다. 비교결과, 상기 DB(100)의 표제어 언어와 상기 전문 용어의 표제어 언어가 동일하거나, 상기 DB(100)의 표제어 언어와 상기 전문 용어의 대역어 언어가 동일하면, 용어 비교부(210)는 용어 변환부(220)로 그 전문 용어를 전달하고, 그 이외에는 그 전문 용어를 용어 변환부(220)로 전달하지 않고 그냥 반환한다. The term comparison unit 210 receives a conventionally constructed terminology and compares the terminology and band language of the terminology with the language recorded in the DB 100 for a general translation dictionary. As a result of the comparison, if the heading language of the DB 100 and the heading language of the terminology are the same, or if the heading language of the DB 100 and the head language of the terminology are the same, the term comparison unit 210 converts the term. The terminology is transferred to the unit 220, and other than that, the term is simply returned without passing the terminology to the term conversion unit 220.

용어 변환부(220)는 전달된 전문 용어를 일반 번역 사전용 DB(100)에 적합한 포맷으로 변환한다. 용어 제거부(230)는 이 변환된 전문 용어가 일반 번역 사전용 DB(100)에 존재하는 엔트리인 경우에 이 DB(100)의 해당 표제어에 전문 용어의 대 역어를 추가시키고, 존재하지 않는 엔트리인 경우에 그 전문 용어를 이 DB(100)의 새로운 엔트리로 추가시킨다. The term converter 220 converts the transferred terminology into a format suitable for the DB 100 for a general translation dictionary. The term removing unit 230 adds a counterpart of the term to the corresponding heading of the DB 100 when the converted term is an entry existing in the DB 100 for a general translation dictionary, and an entry that does not exist. If the term is added as a new entry of this DB (100).

전문 용어 처리부(240)는 상기 DB(100)의 엔트리와 상기 전문 용어를 단일어 엔트리와 복합어 엔트리로 각각 분리한다. 또한, 전문 용어 처리부(240)는, 이렇게 분리된 단일어 엔트리 중에서 대역어가 결합된 단일어 엔트리에 대해서는 확장 사전용 DB(900)에 기록하고, 대역어가 결합되지 않은 단일어 엔트리에 대해서는 적합한 대역어를 수동으로 부착하여 확장 사전용 DB(900)에 기록한다. 또한, 전문 용어 처리부(240)는 상기 분리된 복합어 엔트리를 그대로 확장 사전용 DB(900)에 기록한다. The terminology processor 240 separates the entry of the DB 100 and the terminology into single word entries and compound word entries, respectively. In addition, the terminology processor 240 records in the extended dictionary DB 900 for the single word entry where the band words are combined among the separated single word entries, and manually attaches the appropriate band word for the single word entry where the band words are not combined. Record in the extended dictionary DB (900). In addition, the terminology processor 240 records the separated compound word entry as it is in the extended dictionary DB 900.

예컨대, 1) 일반 번역 사전용 DB(100)에는For example, 1) a general translation dictionary DB 100

solution -> {솔루션, 용액, 설명, 해결책},solution-> {solution, solution, description, solution},

fluid -> {유동체, 액체},fluid-> {fluid, liquid},

melting -> {용해, 융해} 등과 같이 기록되고,melting-> {melting, melting}, etc.,

2) 기존에 구축된 전문 용어로는2) In the existing terminology

솔루션 -> {solution}, Solution-> {solution},

용액 -> {solution, fluid}, Solution-> {solution, fluid},

용해 -> {solution, melting} 등과 같이 기록되었다고 가정하면, 용어 비교부(210)는, 상기 DB(100)의 표제어 언어와 상기 전문 용어의 대역어 언어가 일치하는 경우(예컨대, solution, fluid, melting)를 비교/검출한다. Assuming that the solution is recorded as {solution, melting}, etc., the term comparison unit 210 may match the head language of the DB 100 and the band language of the terminology (eg, solution, fluid, melting). ) Compare / detect.

이어, 용어 변환부(220) 및 용어 제거부(230)는, 이 전문 용어가 상기 DB(100)에 존재하는 엔트리이므로, 상기 DB(100)의 해당 표제어에 전문 용어의 대역어를 추가시킨다. 즉, solution 은 {솔루션, 용액, 설명, 해결책, 용해}, fluid 는 {유동체, 액체, 용액}가 되고, melting 은 이전과 같은 {용해, 융해}가 된다. Then, since the terminology conversion unit 220 and the term removal unit 230 is an entry existing in the DB 100, the term translation unit 220 and the term removal unit 230 add a band word of the terminology to the corresponding headword of the DB 100. That is, solution becomes {solution, solution, explanation, solution, dissolution}, fluid becomes {fluid, liquid, solution}, and melting becomes {dissolution, melting} as before.

이후, 전문 용어 처리부(240)는, 상술한 solution, fluid, melting은 모두 단일어 엔트리이고 대역어가 부착되었으므로 확장 사전용 DB(900)에는 다음과 같이 기록된다. Since the terminology processor 240 is a single word entry with all the above-described solution, fluid, and melting, and the band word is attached, the terminology processing unit 240 is recorded in the extended dictionary DB 900 as follows.

solution -> {솔루션, 용액, 설명, 해결책, 용해},solution-> {solution, solution, description, solution, dissolution},

fluid -> {유동체, 액체, 용액},fluid-> {fluid, liquid, solution},

melting -> {용해, 융해}melting-> {melting}

도 3은 도 1의 용어 처리부를 나타내는 상세 구성도이다. 3 is a detailed block diagram illustrating the term processor of FIG. 1.

도 3에 도시한 바와 같이, 용어 처리부(300)는, 출발 언어로 구성된 대용량의 특허 문서를 입력받아 IPC 분류에 따른 산업 분야로 분류하는 문서 분류부(310)와, 분류된 특허 분야별 문서로부터 일반 번역 사전용 DB(100)에 등재되지 않은 미등록 전문 용어를 추출하는 용어 추출부(330)와, 추출된 미등록 전문 용어를 출현 빈도순으로 정렬하는 미등록 용어 정렬부(350)와, 정렬된 미등록 전문 용어를 단일어 엔트리와 복합어 엔트리로 분리하여 확장 사전용 DB(900)에 개별적으로 추가하는 전문 용어 처리부(240)를 포함한다. As shown in FIG. 3, the term processing unit 300 receives a large-capacity patent document composed of a starting language, and classifies it into an industrial field according to the IPC classification. A term extraction unit 330 for extracting unregistered terminology that is not listed in the translation dictionary DB 100, an unregistered term alignment unit 350 for sorting the extracted unregistered terminology in order of appearance, and an ordered unregistered term The terminology processor 240 separates a term into a single word entry and a compound word entry, and separately adds the term to the extended dictionary DB 900.

또한, 용어 처리부(300)는 출발 언어 특허 문서를 입력받는 출발 언어 입력 부(700)와, 특허 문서 분류를 위해서 IPC와 산업분류 사이를 맵핑하는 맵핑 테이블(320)과, 형태소 분석기(340)를 더 포함한다. In addition, the term processor 300 may include a departure language input unit 700 for receiving a departure language patent document, a mapping table 320 for mapping between the IPC and the industrial classification for classification of the patent document, and a morpheme analyzer 340. It includes more.

이와 같이 구성된 용어 처리부(300)를 더욱 상세히 설명한다. The term processing unit 300 configured as described above will be described in more detail.

문서 분류부(310)는 대용량의 출발 언어 특허 문서를 입력받아 맵핑 테이블(320)을 참조하여 IPC 분류에 따른 산업 분야로 분류한다. 여기서, IPC 분류에 따른 산업 분야는 12개(즉, 기계, 농림수산, 사무용품, 섬유, 음료식품, 의료위생, 잡화, 전기전자, 채광금속, 컴퓨터, 토목건설, 화학일반)로 분류된다. The document classifier 310 receives a large-scale starting language patent document and classifies it into an industrial field according to the IPC classification with reference to the mapping table 320. Here, the industrial sectors according to the IPC classification are classified into 12 (ie, machinery, agriculture, forestry and fisheries, office supplies, textiles, beverage food, medical hygiene, sundries, electrical and electronics, mining metals, computers, civil engineering, and general chemical).

용어 추출부(330)는 상술한 바와 같이 분류된 특허 문서를 형태소 분석기(340)를 이용하여 확장 사전용 DB(900)에 기록되지 않은 특허 분야별 출발 언어 미등록 전문 용어를 추출한다. 여기서, 형태소 분석기(340)는 이 기술분야의 숙련자에게 공지되어 있으므로, 본 발명을 명확히 하기 위해 그 상세한 설명은 생략한다. 또한, 미등록 용어 정렬부(350)는 추출된 미등록 전문 용어를 분야별로 고빈도 순으로 정렬한다. The term extracting unit 330 extracts the registered language of the patent field, which is not recorded in the DB 900 for the expansion dictionary, using the morpheme analyzer 340 of the patent documents classified as described above. Here, since the morpheme analyzer 340 is known to those skilled in the art, detailed description thereof will be omitted to clarify the present invention. In addition, the unregistered term alignment unit 350 sorts the extracted unregistered terminology in the order of high frequency.

이후, 전문 용어 처리부(240)는 각 분야별로 고빈도 순으로 정렬된 전문 용어를 단일어 엔트리와 복합어 엔트리로 각각 분리한다. 또한, 전문 용어 처리부(240)는, 이렇게 분리된 단일어 엔트리 중에서 대역어가 결합된 단일어 엔트리에 대해서는 확장 사전용 DB(900)에 기록하고, 대역어가 결합되지 않은 단일어 엔트리에 대해서는 적합한 대역어를 수동으로 부착하여 확장 사전용 DB(900)에 기록한다. 또한, 전문 용어 처리부(240)는 상기 분리된 복합어 엔트리를 그대로 확장 사전용 DB(900)에 기록한다. Thereafter, the terminology processor 240 separates the terminology sorted in the order of high frequency for each field into a single word entry and a compound word entry. In addition, the terminology processor 240 records in the extended dictionary DB 900 for the single word entry where the band words are combined among the separated single word entries, and manually attaches the appropriate band word for the single word entry where the band words are not combined. Record in the extended dictionary DB (900). In addition, the terminology processor 240 records the separated compound word entry as it is in the extended dictionary DB 900.

예컨대, 도 3에서 설명한 출발 언어 특허 문서를 기반으로 미등록 전문 용어를 추출한 후, 단일어 대역어가 없는 엔트리에는 대역어를 부착하여 구축된 확장 사전용 DB(900)의 예가 다음 표 1과 같이 도시된다. For example, after extracting the unregistered terminology based on the starting language patent document described with reference to FIG. 3, an example of the extended dictionary DB 900 constructed by attaching a band word to an entry without a single word band word is shown in Table 1 below.

분야Field 추출된_미등록어Extracted_unregistered words 빈도수Frequency 전기전자Electric nitride-based untrusted intermediate_transfernitride-based untrusted intermediate_transfer 4068 1579 527474068 1579 52747 기계machine paintball in-cylinder pressurized_fluidpaintball in-cylinder pressurized_fluid 11939 5411 3446411939 5411 34464 화학일반Chemistry General crosslinked alkoxylated condensable_hydrocarboncrosslinked alkoxylated condensable_hydrocarbon 37606 10862 25337637606 10862 253376

표 1은 출발 언어 특허 문서로부터 추출된 특허 분야별 출발 언어 전문 용어 고빈도 리스트의 예를 나타낸다. 이 표 1을 토대로 구축된 확장 사전용 DB(900)에 기록된 예를 다음 표 2에 나타낸다. Table 1 shows an example of a high frequency list of starting language jargon by patent field extracted from a starting language patent document. An example recorded in the DB 900 for an extended dictionary built on the basis of Table 1 is shown in Table 2 below.

표제어entry 대역어Band word solutionsolution {솔루션, 용액, 설명, 해결책, 용해}{Solution, solution, description, solution, dissolution} fluidfluid {유동체, 액체, 용액}{Fluid, liquid, solution} meltingmelting {용해, 융해}{Melting, melting} nitride_basednitride_based {질화물_기반}{Nitride_based} untrusteduntrusted {비신뢰성}{Unreliable} intermediate_transferintermediate_transfer {}{} paintballpaintball {페인트볼}{Paintball} in-cylinderin-cylinder {실린더_안}{Cylinder_in} pressurized_fluidpressurized_fluid { }{} crosslinkedcrosslinked {가교결합}{Crosslinking} alkoxylatedalkoxylated {알콕실화 } {Alkoxylation} condensable_hydrocarboncondensable_hydrocarbon { } {}

도 4는 도 1의 대역어 특화부를 나타내는 상세 구성도이다. FIG. 4 is a detailed block diagram illustrating the bandword specialized unit of FIG. 1.

도 4에 도시한 바와 같이, 대역어 특화부(400)는 목표 언어로 구성된 대용량의 특허 문서를 입력받아 IPC 분류에 따른 산업 분야로 분류하는 문서 분류부(310)와, 분류된 특허 문서상의 어휘들을 단일어 및 복합어로 분류하는 용어 분석부(420)와, 분류된 단일어 및 복합어를 특허 분야별 빈도순으로 정렬하는 용어 정렬부(440)와, 도 3에서 기 설명된 미등록 용어 정렬부(350)와, 용어 정렬부(440) 및 미등록 용어 정렬부(350)에서 정렬된 전문 용어 목록을 토대로 확장 사전용 DB(900)에 기록된 대역어에 대해 특화된 대역어를 선택하는 용어 선택부(450)를 포함한다. As shown in FIG. 4, the band word specialization unit 400 receives a large-capacity patent document composed of a target language and classifies it into an industrial field according to IPC classification, and a vocabulary on the classified patent document. A term analyzing unit 420 for classifying single words and compound words, a term sorting unit 440 for sorting the classified single words and compound words in frequency order according to patent fields, an unregistered term sorting unit 350 described above with reference to FIG. 3, The term selector 450 may include a term selector 450 that selects a band word specialized for a band word recorded in the DB 900 for the expansion dictionary based on the terminology list sorted by the term sorter 440 and the unregistered term sorter 350.

또한, 대역어 특화부(400)는 목표 언어 특허 문서를 입력받는 목표 언어 입력부(800)와, 특허 문서 분류를 위해서 IPC와 산업분류 사이를 맵핑하는 맵핑 테이블(320)과, 형태소 분석기(340)와, 복합어 자동 번역부(460)와, 확장 사전용 DB(900)와, 특허 정보가 부착된 대역어 정보를 반영한 특허 번역 사전용 DB(500)를 더 포함한다. In addition, the band language specialization unit 400 may include a target language input unit 800 that receives a target language patent document, a mapping table 320 that maps between the IPC and the industrial classification for classification of the patent document, and a morpheme analyzer 340. The apparatus further includes a compound word automatic translation unit 460, an extension dictionary DB 900, and a patent translation dictionary DB 500 reflecting the bandword information to which the patent information is attached.

이와 같이 구성된 대역어 특화부(400)를 더욱 상세히 설명한다. The bandword specializing unit 400 configured as described above will be described in more detail.

문서 분류부(310)는 목표 언어로 구성된 대용량의 특허 문서를 입력받아 맵핑 테이블(320)을 이용하여 IPC 분류에 따른 산업 분야로 분류한다. 여기서, IPC 분류에 따른 산업 분야는 12개(즉, 기계, 농림수산, 사무용품, 섬유, 음료식품, 의료위생, 잡화, 전기전자, 채광금속, 컴퓨터, 토목건설, 화학일반)로 분류된다. The document classifier 310 receives a large-capacity patent document composed of a target language and classifies it into an industrial field according to the IPC classification by using the mapping table 320. Here, the industrial sectors according to the IPC classification are classified into 12 (ie, machinery, agriculture, forestry and fisheries, office supplies, textiles, beverage food, medical hygiene, sundries, electrical and electronics, mining metals, computers, civil engineering, and general chemical).

용어 분석부(420)는 형태소 분석기(340)를 이용하여 상기 분류된 특허 문서상의 어휘들을 단일어 및 복합어로 분류한다. 용어 정렬부(440)는 이와 같이 분류된 단일어 및 복합어를 특허 분야별 고빈도순으로 정렬한다. The term analyzing unit 420 classifies the vocabulary on the classified patent document using a morpheme analyzer 340 as a single word and a compound word. The term alignment unit 440 sorts the single words and compound words classified as described above in high frequency order by patent field.

복합어 자동 번역부(460)는 도 3에서 구축된 확장 사전용 DB(900)에서 목표 언어 대역어가 붙지 않은 복합어를 자동 번역하여 상술한 확장 사전용 DB(900)에 추가한다. 이 결과로서, 확장 사전용 DB(900)에 기록된 단일어 및 복합어는 모두 목표 언어 대역어를 가진다. 여기서, 복합어 자동 번역부(460)는 기계적인 복합어 번역기를 이용할 수도 있으며, 경우에 따라서는 수동으로도 가능하다. The compound word automatic translation unit 460 automatically translates the compound word without the target language band word from the extension dictionary DB 900 constructed in FIG. 3 and adds the compound word to the extension dictionary DB 900 described above. As a result of this, both the single word and the compound word recorded in the extended dictionary DB 900 have a target language band word. Here, the compound word automatic translation unit 460 may use a mechanical compound word translator, and in some cases, may be manually.

또한, 용어 선택부(450)는 상술한 용어 정렬부(440)에서 정렬된 특허 분야별 목표 언어 전문 용어 고빈도순 목록과 미등록 용어 정렬부(350)에서 정렬된 특허 분야별 출발 언어 전문 용어 고빈도순 목록을 토대로 확장 사전용 DB(900)에 기록된 대역어에 대해 특허 분야별 특화된 대역어를 선택한다(특화된 대역어 선택에 대한 상세한 설명은 도 5를 토대로 후술한다). 이렇게 함으로써 특허 분야의 정보가 반영된 특허 번역 사전용 DB(500)를 구축할 수 있다. In addition, the term selector 450 is a list of target language terminology high frequency for each patent field sorted by the term sorter 440 and the starting language terminology high frequency order for each patent field sorted by the unregistered term sorter 350. Based on the list, the band word recorded for each patent field is selected for the band word recorded in the extended dictionary DB 900 (a detailed description of the band word selection will be described later based on FIG. 5). In this way, the patent translation dictionary DB 500 reflecting the information of the patent field can be constructed.

상술한 대역어 특화부(400)에 대한 이해를 돕기 위해서, 확장 사전용 DB(900)에 존재하는 대역어가 2개 이상인 엔트리에 대해 특허 분야별로 대역어를 구분하여 특허 번역 사전용 DB(500)를 구축하는 방법을 구체적인 예를 들어 설명한다. In order to help the above-described band word specializing unit 400, a DB 500 for patent translation dictionary is constructed by classifying band words for each patent field for entries having two or more band words existing in the extended dictionary DB 900. How to do this will be described with a specific example.

우선, 확장 사전용 DB(900)에 기록된 예가 전술한 표 2와 같이 도시된다. 이 가운데 대역어가 2개 이상인 엔트리에 대한 표제어는 solution, fluid, melting임을 알 수가 있다. First, an example recorded in the extended dictionary DB 900 is shown as Table 2 described above. Among these, the headwords for entries with two or more bandwords are solution, fluid, and melting.

이어, 문서 분류부(310)와 용어 분석부(420)를 거쳐 용어 정렬부(440)에서 정렬된 목표 언어에 대해 특허 분야별 고빈도순에 따라 표제어를 정리한다. 예컨대, solution의 경우 화학일반 분야(예컨대, "PAT-화학일반"으로 표시)와 의료위생 분야(예컨대, "PAT-의료위생"으로 표시)에서는 {용액}이 그 대역어로, 특허 전 분야의 디폴트로는 {솔루션, 용액, 설명, 해결책, 용해}가 그 대역어로 정리된다. 왜냐하면, solution은 화학일반 분야와 의료위생 분야에서는 {용액}이 대역어로 쓰인 경우가 특허 전분야의 디폴트인 {솔루션}보다 그 빈도수가 높기 때문에 특정 분야의 대역어가 될 수 있다. Subsequently, headings are sorted according to the high frequency order of the patent fields with respect to the target language sorted by the term alignment unit 440 via the document classification unit 310 and the term analysis unit 420. For example, in the case of solutions, in the general chemical field (e.g., "PAT-chemical general") and in the medical hygiene field (e.g., "PAT-medical hygiene"), {solution} is the default word and the default for all patents In the furnace, {solution, solution, explanation, solution, dissolution} is summarized in the band word. Because, in general chemical field and medical hygiene field, {solution} can be a band word in a specific field because the frequency of {solution} is used more frequently than {solution} which is the default of all patent fields.

특허 분야별로 대역어를 구분한 예는 다음 표 3과 같이 도시된다. An example of classifying band words by patent field is shown in Table 3 below.

표제어entry 대역어Band word solutionsolution {PAT-화학일반 용액} {PAT-의료위생 용액} {PAT-DEFAULT 솔루션, 용액, 설명, 해결책, 용해}{PAT-Chemical Solution} {PAT-Hygiene Solution} {PAT-DEFAULT Solution, Solution, Description, Solution, Dissolution} fluidfluid {PAT-DEFAULT 유동체, 액체, 용액}{PAT-DEFAULT Fluid, Liquid, Solution} meltingmelting {PAT-DEFAULT 용해, 융해}{PAT-DEFAULT Molten, Melt} nitride_basednitride_based {PAT-DEFAULT 질화물_기반}{PAT-DEFAULT nitride_based} untrusteduntrusted {PAT-DEFAULT 비신뢰성}{PAT-DEFAULT unreliable} intermediate_transferintermediate_transfer {PAT-DEFAULT 중간_전송}{PAT-DEFAULT intermediate_send} paintballpaintball {PAT-DEFAULT 페인트볼}{PAT-DEFAULT Paintball} in-cylinderin-cylinder {PAT-DEFAULT 실린더_안}{PAT-DEFAULT cylinder_in} pressurized_fluidpressurized_fluid {PAT-DEFAULT 가압된_유체}{PAT-DEFAULT pressurized_fluid} crosslinkedcrosslinked {PAT-DEFAULT 가교결합}{PAT-DEFAULT Crosslink} alkoxylatedalkoxylated {PAT-DEFAULT 알콕실화 } {PAT-DEFAULT alkoxylation} condensable_hydrocarboncondensable_hydrocarbon {PAT-DEFAULT 응축가능_탄화수소} {PAT-DEFAULT Condensable Hydrocarbons}

한편, 상술한 설명과는 대조적으로 fluid의 경우에는 특허 전 분야의 디폴트인 {용액} 보다도 더 고빈도로 나타나는 특정 분야의 대역어가 없기 때문에 "PAT-DEFAULT"가 할당된다. On the other hand, in contrast to the above description, in the case of fluid, "PAT-DEFAULT" is assigned because there is no band word in a specific field which appears at a higher frequency than {solution}, which is the default in all patent fields.

또한, 표 2에서 대역어가 존재하지 않았던 복합어는 복합어 자동 번역부(460)에서 자동 번역되어 해당 표제어에 대해 대역어가 부착된다. In addition, in Table 2, a compound word without a band word is automatically translated by the compound word automatic translation unit 460, and a band word is attached to the headword.

도 5는 도 4의 용어 선택부의 동작을 나타내는 순서도로서, 용어 선택부(450)가 대역어 특화부(400)에서 확장 사전용 DB(900)에 기록된 대역어를 토대로 분야별 전문 용어를 선택하는 방법을 도시한다. FIG. 5 is a flowchart illustrating an operation of the term selector of FIG. 4, wherein the term selector 450 selects the terminology terminology based on the bandword recorded in the DB 900 for the extended dictionary by the bandword specialization unit 400. Illustrated.

먼저, 확장 사전용 DB(900)에 기록된 엔트리가 입력되면, 현재의 엔트리가 마지막인지 판단한다(S501). 판단 결과, 마지막이면 전체 동작을 종료한다. First, when an entry recorded in the extended dictionary DB 900 is input, it is determined whether the current entry is the last (S501). As a result of the determination, if it is the last time, the entire operation is terminated.

다음으로, 상기 엔트리에 대한 표제어의 대역어가 1개인가를 판단한다(S503). 판단 결과, 1개이면 특허 번역 사전용 DB(500)에 해당 표제어에 대한 대역어를 추가/기록하고(S504), 단계 S501을 다시 수행한다. 그러나, 복수이면 단계 S505를 수행한다. Next, it is determined whether there is one band word of the headword for the entry (S503). As a result of the determination, if there is one, the band word for the corresponding headword is added / recorded in the patent translation dictionary DB 500 (S504), and step S501 is performed again. However, if there is more than one, step S505 is performed.

그러면, 현재의 엔트리에 대한 표제어의 대역어가 복수이므로, 이들 중 하나를 특허 전분야의 디폴트 대역어로 설정한다(S505). 즉, 용어 정렬부(440)에 의해 정리된 특허 분야별 목표 언어 전문 용어의 고빈도순 목록에서 특허 전 분야에 걸쳐 가장 높은 빈도로 사용되는 대역어를 특허 전 분야의 디폴트 대역어로 결정한다. Then, since there are a plurality of band words for the current entry, one of them is set as a default band word in all patent fields (S505). That is, in the high frequency order list of target language jargon by patent field arranged by the term aligning unit 440, the band word used at the highest frequency throughout the patent field is determined as the default band word of the entire patent field.

이후, 미등록 용어 정렬부(350)에 의해 정리된 특허 분야별 출발 언어 전문 용어의 고빈도순 목록에서, 현재 엔트리의 표제어가 상기 목록에서 특정 누적빈도(예컨대, 전체 빈도 대비 상위로부터 누적 빈도가 70%) 이상인지를 판단한다(S506). Then, in the high-frequency order list of the starting language terminology for each patent field organized by the unregistered term sorting unit 350, the heading of the current entry has a specific cumulative frequency in the list (e.g., 70% of the cumulative frequency from the top of the total frequency). It is determined whether or not (S506).

판단 결과, 그 이상인 경우에만 해당 출발 언어 표제어의 엔트리를 분리하고(S507), 번역자를 통해 그 표제어 대한 특허 분야별 디폴트 대역어를 결정한다(S508). 이러한 결정은 경우에 따라서 수동으로 결정된다.As a result of the determination, the entry of the corresponding starting language headword is separated only (S507), and the default band word for each patent field is determined through the translator (S508). This decision is made manually in some cases.

그 이하인 경우에는, 목표 언어 전문 용어 고빈도순 목록에서 특허 전 분야의 디폴트 대역어보다 상술한 출발 언어 전문 용어의 고빈도순 목록에서 특정 분야의 디폴트 대역어가 더 고빈도인 경우에만 상기 특정 분야의 대역어를 자동으로 설정한다(S509). 예컨대, 전술한 solution의 경우, 화학일반 분야와 의료위생 분야에서 {용액}이 대역어로 쓰인 경우가 이 경우에 해당한다. If less than that, the band word of the specific field only if the default band word of the specific field is more frequent in the high frequency order list of the starting language terminology than the default band word of the entire patent field in the target language terminology high frequency order list. Is automatically set (S509). For example, in the case of the above-described solution, this case is the case where {solution} is used as a band word in the chemical general field and the medical hygiene field.

이후, 상기 단계 S505 내지 단계 S509에서 결정 또는 선택된 대역어를 특허 번역 사전용 DB(500)에 기록하고(S510), 다음 엔트리로 이동하여 단계 S501부터 반복적으로 수행하여 확장 사전용 DB(900)에 기록된 엔트리가 없어질 때까지 수행한다(S511). Subsequently, the band word determined or selected in steps S505 to S509 is recorded in the patent translation dictionary DB 500 (S510), and the next entry is repeatedly performed from step S501 to record in the extended dictionary DB 900. This operation is performed until the lost entry (S511).

지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 당업자는 본 발명의 사상 및 범위를 벗어나지 않고 다양한 변형 또는 수정이 가능하다는 것을 알 것이다. While the present invention has been described in detail with reference to preferred embodiments, those skilled in the art will recognize that various modifications or changes can be made without departing from the spirit and scope of the invention.

이상에서 상세히 설명한 바와 같이, 본 발명에 따르면, 종래의 일반 번역 사전과, 기존에 구축된 전문 용어와, 대용량의 특허 문서 등과 같이 쉽게 구할 수 있는 언어적 자원을 활용하여, 해당 분야의 전문가만이 알 수 있는 특허 문서 전문 용어에 대해, 특허 분야별로 대역어가 구분된 대용량의 특허 번역 사전을 구축하는 시간과 비용을 절약할 수 있는 효과가 있다. As described in detail above, according to the present invention, by using a conventional general translation dictionary, existing terminology, and linguistic resources readily available such as a large amount of patent documents, only experts in the relevant field For known patent document terminology, there is an effect of saving time and cost for constructing a large-capacity patent translation dictionary in which band words are divided by patent field.

Claims (10)

기구축된 전문 용어를 입력받아 특허 번역 사전용 DB에 기록 가능한 형태로 상기 입력된 전문 용어의 포맷을 변경하여 확장 사전용 DB에 기록하는 용어 재구성부;A term reconstruction unit configured to receive a structured terminology and change the format of the input terminology in a form that can be recorded in a DB for patent translation dictionary and record the term in the extended dictionary DB; 출발 언어 특허 문서를 입력받고, 상기 출발 언어 특허 문서로부터 상기 확장 사전용 DB에 기록되지 않은 미등록 전문 용어를 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하며, 대역어가 부착되지 않은 상기 단일어 엔트리에 대해 상기 대역어를 부착한 후, 상기 확장 사전용 DB에 상기 엔트리를 추가하는 용어 처리부; 및Receiving a starting language patent document, extracting unregistered terminology not recorded in the extended dictionary DB from the starting language patent document, classifying a single word entry among the extracted unregistered terminology, and the single word having no band word attached A term processing unit that adds the entry to the DB for expansion dictionary after attaching the band word to an entry; And 목표 언어 특허 문서를 입력받고, 상기 목표 언어 특허 문서에 포함된 단일어에 대하여는 상기 확장 사전용 DB에 기록된 복수의 대역어 중 상기 목표 언어 특허 문서가 속하는 특허 분야에 대응하는 대역어를 선택하고, 상기 목표 언어 특허 문서에 포함된 복합어에 대하여는 상기 목표 언어 특허 문서가 속하는 특허 분야에 대응되는 단일어 대역어로 번역한 후, 상기 특허 번역 사전용 DB에 기록하는 대역어 특화부를 포함하는 특허 번역 사전 구축 장치. A target language patent document is input, and for a single word included in the target language patent document, a band word corresponding to a patent field to which the target language patent document belongs is selected from a plurality of band words recorded in the extended dictionary DB. A patent translation dictionary construction apparatus comprising a band language specialized unit for translating a compound word included in a language patent document into a single language band word corresponding to a patent field to which the target language patent document belongs, and then recording the written word in the DB for dictionary for patent translation. 제 1 항에 있어서, 상기 용어 재구성부는,The method of claim 1, wherein the term reconstruction unit, 상기 기구축된 전문 용어를 입력받아 상기 기구축된 전문 용어의 표제어 언어 및 대역어 언어와 일반 번역 사전용 DB에 기록된 언어를 비교하는 용어 비교부;A term comparison unit which receives the instrumented terminology and compares the terminology and band language of the instrumented terminology with a language recorded in a DB for a general translation dictionary; 상기 비교결과에 따른 상기 전문 용어를 상기 일반 번역 사전용 DB에 기록 가능한 포맷으로 변환하는 용어 변환부;A term converting unit converting the terminology according to the comparison result into a format recordable in the general translation dictionary DB; 상기 변환된 전문 용어가 상기 일반 번역 사전용 DB에 존재하는 엔트리인 경우, 상기 일반 번역 사전용 DB의 상기 엔트리에 대응하는 표제어에 상기 전문 용어의 대역어를 추가시키고, 존재하지 않는 엔트리인 경우, 상기 전문 용어를 상기 일반 번역 사전용 DB의 새로운 엔트리로 추가시키는 용어 제거부; 및If the converted terminology is an entry existing in the DB for general translation dictionary, add the bandword of the terminology to a headword corresponding to the entry of the DB for general translation dictionary, and if the entry does not exist, A term removing unit that adds the terminology as a new entry of the DB for general translation dictionary; And 상기 일반 번역 사전용 DB의 엔트리와 상기 미등록 전문 용어를 단일어 엔트리와 복합어 엔트리로 각각 분리하고, 상기 분리된 단일어 엔트리 중에서 대역어가 결합된 단일어 엔트리에 대해서는 확장 사전용 DB에 기록하고, 상기 대역어가 결합되지 않은 단일어 엔트리에 대해서는 해당 대역어를 부착하여 상기 확장 사전용 DB에 기록하는 전문 용어 처리부를 포함하는 것을 특징으로 하는 특허 번역 사전 구축 장치.The entry of the general translation dictionary DB and the unregistered terminology are separated into a single word entry and a compound word entry, respectively, and a single word entry combined with a band word among the separated single word entries is recorded in an extension dictionary DB, and the band words are combined. And a terminology processing unit for attaching the corresponding band word to the single word entry which is not provided and recording it in the DB for expansion dictionary. 제 2 항에 있어서, 상기 용어 비교부는,The method of claim 2, wherein the term comparison unit, 상기 비교결과, 상기 일반 번역 사전용 DB의 표제어 언어와 상기 전문 용어의 표제어 언어가 동일하거나, 상기 일반 번역 사전용 DB의 표제어 언어와 상기 전문 용어의 대역어 언어가 동일한 경우에만, 상기 용어 변환부로 상기 전문 용어를 전달하는 것을 특징으로 하는 특허 번역 사전 구축 장치.As a result of the comparison, the term translation unit may be used only when the head language of the DB for the general translation dictionary and the head language of the terminology are the same, or if the head language of the DB and the band language of the terminology are the same. Patent translation dictionary construction device characterized in that the transmission of the terminology. 제 1 항에 있어서, 상기 용어 처리부는,The method of claim 1, wherein the term processing unit, 대용량의 상기 출발 언어 특허 문서를 입력받아 IPC 분류에 따른 산업 분야로 분류하는 문서 분류부;A document classification unit configured to receive a large amount of the starting language patent document and classify it into an industrial field according to IPC classification; 상기 분류된 특허 문서를 상기 확장 사전용 DB에 기록되지 않은 상기 특허 분야별 상기 출발 언어 미등록 전문 용어를 추출하는 용어 추출부;A term extracting unit which extracts the classified patent document for the starting language unregistered terminology for each patent field not recorded in the extended dictionary DB; 상기 추출된 미등록 전문 용어를 상기 특허 분야별 및 빈도 순으로 정렬하는 미등록 용어 정렬부; 및An unregistered term alignment unit to sort the extracted unregistered terminology by the patent field and the frequency order; And 상기 미등록 전문 용어를 단일어 엔트리와 복합어 엔트리로 각각 분리하고, 상기 분리된 단일어 엔트리 중에서 대역어가 결합된 단일어 엔트리에 대해서는 확장 사전용 DB에 기록하고, 상기 대역어가 결합되지 않은 단일어 엔트리에 대해서는 해당 대역어를 부착하여 상기 확장 사전용 DB에 기록하는 전문 용어 처리부를 포함하는 것을 특징으로 하는 특허 번역 사전 구축 장치.The unregistered terminology is divided into a single word entry and a compound word entry, respectively, and a single word entry combined with a band word among the separated single word entries is recorded in an extended dictionary DB, and the corresponding band word for a single word entry without combining the band words. Patent terminology dictionary construction apparatus comprising a terminology processing unit for attaching and recording in the expansion dictionary DB. 제 1 항에 있어서, 상기 대역어 특화부는,The method of claim 1, wherein the band word specialized unit, 대용량의 상기 목표 언어 특허 문서를 입력받아 IPC 분류에 따른 산업 분야로 분류하는 문서 분류부;A document classification unit configured to receive a large amount of the target language patent document and classify it into an industrial field according to IPC classification; 상기 분류된 특허 문서상의 어휘들을 상기 단일어 및 복합어로 분류하는 용어 분석부;A term analysis unit that classifies the words on the classified patent document into the single word and the compound word; 상기 분류된 단일어 및 복합어를 상기 특허 분야별 및 빈도순으로 정렬하는 용어 정렬부;A term alignment unit for sorting the classified single words and compound words by the patent field and the frequency order; 상기 확장 사전용 DB에서 상기 목표 언어의 대역어가 붙지 않은 복합어에 대해 해당 대역어를 추가하여 상기 확장 사전용 DB에 기록하는 복합어 자동 번역부; 및A compound word automatic translation unit for adding the corresponding band word to the compound dictionary without the band word of the target language in the extended dictionary DB and recording the recorded word in the extended dictionary DB; And 상기 용어 정렬부에서 정렬된 빈도순 목록 및 상기 용어 처리부에서 정렬된 빈도순 목록을 토대로 상기 확장 사전용 DB에 기록된 대역어에 대해 상기 특허 분야에 대응하는 대역어를 선택하여 상기 특허 번역 사전용 DB에 기록하는 용어 선택부를 포함하는 것을 특징으로 하는 특허 번역 사전 구축 장치.On the basis of the frequency ordered list sorted by the term sorting unit and the frequency ordered list sorted by the term processing unit, a banded word corresponding to the patent field is selected for the banded words recorded in the extended dictionary DB, and the DBd translation dictionary DB is selected. And a terminology selecting section for recording. 제 5 항에 있어서, 상기 용어 선택부는,The method of claim 5, wherein the term selector, 상기 확장 사전용 DB에 기록된 엔트리가 입력되면, 현재의 엔트리가 마지막인지 판단하는 제 1 판단 수단;First judging means for judging whether a current entry is last when an entry recorded in the extension dictionary DB is input; 상기 엔트리에 대한 표제어의 대역어 중 하나를 디폴트 대역어로 결정하는 제 1 결정수단;First determining means for determining one of the band words of the headword for the entry as a default band word; 상기 엔트리의 표제어가 상기 특허 분야별 및 빈도순 목록에서 특정 누적빈도 이상인지를 판단하는 제 2 판단 수단; Second judging means for judging whether a headword of said entry is above a specific cumulative frequency in said patent field and frequency order list; 상기 제 2 판단 수단의 판단 결과, 상기 특정 누적 빈도 이하인 경우에, 상기 용어 정렬부에서 정렬된 빈도순 목록에서의 특허 전 분야의 디폴트 대역어 보다 상기 용어 처리부에서 정렬된 빈도순 목록에서의 특허 특정 분야의 디폴트 대역어가 더 고빈도인 경우에만 상기 용어 처리부에서 정렬된 빈도순 목록에서 상기 특정 분야의 대역어를 결정하는 제 2 결정 수단; 및As a result of the determination by the second judging means, when it is less than or equal to the specific cumulative frequency, the patent specification field in the frequency order list sorted by the term processing unit rather than the default band word of the patent field in the frequency order list sorted by the term sorting unit. Second determining means for determining a band word of the specific field from an ordered frequency list in the term processing section only if the default band word of the term is higher frequency; And 상기 제 1 내지 제 2 결정 수단에서 결정된 대역어를 상기 특허 번역 사전용 DB에 기록하는 기록 수단을 포함하는 것을 특징으로 하는 특허 번역 사전 구축 장치.And recording means for recording the band word determined by said first to second determining means in said patent translation dictionary DB. a) 특허 번역 사전에 기록 가능한 형태로 기존에 구축된 전문 용어의 포맷을 변경하여 확장 사전을 구축하는 단계;a) constructing an extended dictionary by changing the format of the terminology established previously in a form recordable in the patent translation dictionary; b) 상기 확장 사전에 등록되지 않은 미등록 전문 용어를 출발 언어 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하고 대역어가 부착되지 않은 단일어 엔트리에 대해 해당 대역어를 부착한 후에 상기 확장 사전에 상기 엔트리를 추가하는 단계; 및b) extracting the unregistered terminology not registered in the extension dictionary from a starting language patent document, classifying a single word entry among the extracted unregistered terminology, and attaching the corresponding bandword to a single word entry without a bandword; Adding the entry to a dictionary; And c) 상기 확장 사전에서 특정 표제어에 대해 복수의 대역어들이 존재하는 경우, 목표 언어 전문 용어를 토대로 상기 복수의 대역어들 중에서 특허 분야에 대응하는 대역어를 선택하는 단계를 포함하는 것을 특징으로 하는 특허 번역 사전 구축 방법.c) if there are a plurality of band words for a specific headword in the extension dictionary, selecting a band word corresponding to a patent field among the plurality of band words based on a target language terminology. How to build. 제 7 항에 있어서, 상기 c) 단계는,The method of claim 7, wherein the step c) 대용량의 목표 언어 특허 문서를 입력받아 IPC 분류에 따른 산업 분야로 분류하는 단계; Receiving a large amount of target language patent documents and classifying them into industrial fields according to IPC classification; 상기 분류된 특허 문서상의 어휘들을 단일어 및 복합어로 분류하는 단계;Classifying the words on the classified patent document into a single word and a compound word; 상기 분류된 단일어 및 복합어를 특허 분야별 빈도순으로 정렬하는 단계;Sorting the categorized single words and compound words in order of frequency per patent field; 상기 확장 사전에서 목표 언어 대역어가 붙지 않은 복합어에 대해 해당 대역어를 추가하여 상기 확장 사전에 기록하는 단계; 및 Adding a corresponding band word to a compound word without a target language band word in the extension dictionary and recording the same in the extension dictionary; And 상기 b) 단계에서 정렬된 고빈도순 목록과 상기 c) 단계에서 정렬된 고빈도순 목록을 토대로 확장 사전에 기록된 대역어 중 상기 특허 분야에 대응하는 대역어를 선택하는 단계를 포함하는 것을 특징으로 하는 특허 번역 사전 구축 방법.Selecting a band word corresponding to the patent field from among the band words recorded in the expansion dictionary based on the high frequency order list sorted in step b) and the high frequency order list sorted in step c). How to build a patent translation dictionary. 특허 번역 사전 구축 과정에서 특정 표제어에 대해 복수의 대역어들 중 특허 분야에 대응하는 대역어를 선택하는 방법으로서,A method of selecting a band word corresponding to a patent field among a plurality of band words for a specific headword in a patent translation dictionary construction process, 1) 확장 사전에 기록된 엔트리가 입력되면, 상기 엔트리가 마지막인지 판단하는 단계;1) if an entry recorded in the expansion dictionary is input, determining whether the entry is last; 2) 상기 대역어들 중 하나를 특허 전분야의 디폴트 대역어로 결정하는 단계;2) determining one of the band words to be the default band word of a patent; 3) 상기 엔트리의 표제어가 출발 언어 전문 용어의 빈도순 목록에서 특정 누적빈도 이상인지를 판단하는 단계; 및3) determining whether the entry term of the entry is equal to or greater than a specific cumulative frequency in a frequency-ordered list of starting language terminology; And 4) 상기 판단 결과 상기 특정 누적빈도 이하인 경우, 상기 2) 단계에서 결정된 특허 전 분야의 디폴트 대역어보다 상기 출발 언어 전문 용어의 빈도순 목록에서의 특정 분야 디폴트 대역어가 더 고빈도인 경우에만 상기 특정 분야의 대역어로 결정하는 단계를 포함하는 것을 특징으로 하는 특허 번역 사전 구축 과정에서의 대역어 선택 방법.4) when the determination result is less than the specific cumulative frequency, the specific field only when the specific field default band word in the frequency order list of the starting language terminology is higher than the default band word of the entire patent field determined in step 2). Band word selection method in the patent translation dictionary construction process comprising the step of determining the band word of. 특허 번역 사전을 구축하는 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서, A computer-readable recording medium recording a program for constructing a patent translation dictionary, 상기 프로그램은,The program, 상기 특허 번역 사전에 기록 가능한 형태로 기존에 구축된 전문 용어의 포맷을 변경하여 확장 사전을 구축하는 과정;Constructing an extended dictionary by changing a format of a term that has been previously established in a form recordable in the patent translation dictionary; 상기 확장 사전에 등록되지 않은 미등록 전문 용어를 출발 언어 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하고 대역어가 부착되지 않은 단일어 엔트리에 대해 해당 대역어를 부착한 후에 상기 확장 사전에 상기 엔트리를 추가하는 과정; 및The unregistered terminology not registered in the extension dictionary is extracted from a starting language patent document, a single word entry is classified from the extracted unregistered terminology, and the band word is attached to the single word entry without a band word attached to the extension dictionary. Adding the entry; And 상기 확장 사전에서 특정 표제어에 대해 복수의 대역어들이 존재하는 경우, 목표 언어 전문 용어를 토대로 상기 복수의 대역어들 중에서 특허 분야에 대응하는 대역어를 선택하는 과정을 포함하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록 매체.And when a plurality of band words exist for a specific headword in the extension dictionary, selecting a band word corresponding to a patent field from among the plurality of band words based on a target language terminology. media.
KR1020060089003A 2006-09-14 2006-09-14 Apparatus and method for building patent translation dictionary KR100818628B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060089003A KR100818628B1 (en) 2006-09-14 2006-09-14 Apparatus and method for building patent translation dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060089003A KR100818628B1 (en) 2006-09-14 2006-09-14 Apparatus and method for building patent translation dictionary

Publications (2)

Publication Number Publication Date
KR20080024635A KR20080024635A (en) 2008-03-19
KR100818628B1 true KR100818628B1 (en) 2008-04-02

Family

ID=39412848

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060089003A KR100818628B1 (en) 2006-09-14 2006-09-14 Apparatus and method for building patent translation dictionary

Country Status (1)

Country Link
KR (1) KR100818628B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176966A (en) * 2011-12-22 2013-06-26 苏州威世博知识产权服务有限公司 Method and system used for realizing translation of basic patent information
KR20180077594A (en) * 2016-12-29 2018-07-09 (주)준소프트웨어 System and method for translation service of patent publication

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039749A (en) * 1998-12-15 2000-07-05 정선종 Converting apparatus for machine translation and converting method using the converting apparatus
JP2003296327A (en) 2002-04-02 2003-10-17 Nec Corp Translation server, genre-classified online machine translation method, and program therefor
KR20060067071A (en) * 2004-12-14 2006-06-19 한국전자통신연구원 Apparatus for constructing verb pattern db in a technical domain automatically and method thereof
KR20070059869A (en) * 2005-12-07 2007-06-12 한국전자통신연구원 Apparatus and method of construction for single noun korean-english technical word dictionary using compound noun's target word notation in patent documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039749A (en) * 1998-12-15 2000-07-05 정선종 Converting apparatus for machine translation and converting method using the converting apparatus
JP2003296327A (en) 2002-04-02 2003-10-17 Nec Corp Translation server, genre-classified online machine translation method, and program therefor
KR20060067071A (en) * 2004-12-14 2006-06-19 한국전자통신연구원 Apparatus for constructing verb pattern db in a technical domain automatically and method thereof
KR20070059869A (en) * 2005-12-07 2007-06-12 한국전자통신연구원 Apparatus and method of construction for single noun korean-english technical word dictionary using compound noun's target word notation in patent documents

Also Published As

Publication number Publication date
KR20080024635A (en) 2008-03-19

Similar Documents

Publication Publication Date Title
JP3356536B2 (en) Machine translation equipment
JP2005251206A (en) Word collection method and system for use in word segmentation
JP2007226797A (en) Rapid similarity links computation for table of contents determination
JP2008165563A (en) Bilingual example retrieval program, bilingual example retrieval device and bilingual example retrieval method
CN101021851B (en) Text search device, text search method
JP2001052029A (en) Document retrieval system
KR100818628B1 (en) Apparatus and method for building patent translation dictionary
JP3594701B2 (en) Key sentence extraction device
KR20030039575A (en) Method and system for summarizing document
US20160196303A1 (en) String search device, string search method, and string search program
CN104462552A (en) Question and answer page core word extracting method and device
CN1955979A (en) Automatic extraction device, method and program of essay title and correlation information
JP2004046438A (en) Text retrieval method and device, text retrieval program and storage medium storing text retrieval program
KR101452638B1 (en) Method and apparatus for recommending contents
CN112818645A (en) Chemical information extraction method, device, equipment and storage medium
JP3253657B2 (en) Document search method
JP2005202924A (en) Translation determination system, method, and program
JP4205753B2 (en) Document search system
CN101986308B (en) Quick term marking method
KR100956413B1 (en) Method and system for language-cross search
JP2006179019A (en) Document retrieval device
JP3314720B2 (en) String search device
JP2001344256A (en) Word class automatic determination device, example sentence retrieval device, medium, and information aggregate
CN115238686A (en) Tibetan data processing method based on artificial intelligence
JP2000029877A (en) Method and device for analyzing document structure and storage medium storing document structure analyzing program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160226

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170224

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180226

Year of fee payment: 11