KR100818628B1 - Apparatus and method for building patent translation dictionary - Google Patents
Apparatus and method for building patent translation dictionary Download PDFInfo
- Publication number
- KR100818628B1 KR100818628B1 KR1020060089003A KR20060089003A KR100818628B1 KR 100818628 B1 KR100818628 B1 KR 100818628B1 KR 1020060089003 A KR1020060089003 A KR 1020060089003A KR 20060089003 A KR20060089003 A KR 20060089003A KR 100818628 B1 KR100818628 B1 KR 100818628B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- dictionary
- band
- terminology
- entry
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
Abstract
대용량의 특허 번역 사전을 효율적이며 경제적으로 구축하는 장치 및 방법을 개시한다. 이를 위하여, 상기 장치는 기구축된 전문 용어를 입력받아 특허 번역 사전용 DB에 기록 가능한 형태로 상기 입력된 전문 용어의 포맷을 변경하여 확장 사전용 DB에 기록하는 용어 재구성부와, 출발 언어 특허 문서를 입력받아 상기 확장 사전용 DB에 기록되지 않은 미등록 전문 용어를 상기 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하며, 대역어가 부착되지 않은 상기 단일어 엔트리에 대해 상기 대역어를 부착한 후, 상기 확장 사전용 DB에 상기 엔트리를 추가하는 용어 처리부와, 목표 언어 특허 문서를 입력받아 상기 확장 사전용 DB에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역한 후, 상기 특허 번역 사전용 DB에 기록하는 대역어 특화부를 포함함으로써, 특허 분야별로 대역어가 구분된 대용량의 특허 번역 사전을 구축하는 시간과 비용을 절약할 수 있다.An apparatus and method for efficiently and economically constructing a large volume of patent translation dictionaries are disclosed. To this end, the apparatus receives a pre-composed terminology, the term reconstruction unit for changing the format of the input terminology in a form that can be recorded in the DB for patent translation dictionary, and recording in the DB for extended dictionary, the starting language patent document Extracts unregistered terminology not recorded in the extended dictionary DB from the patent document, classifies a single word entry among the extracted unregistered terminology, and attaches the bandword to the single word entry to which no band word is attached After that, the term processing unit which adds the entry to the DB for expansion dictionary and a target language patent document are received, and a band word suitable for a patent field is selected for a plurality of band words in the DB for expansion dictionary, and the compound word is specialized. Band word specialization recorded in the DB for dictionary translation after translation into single word band language Can save time and costs to build in the translated words are separated by a large sector patent Patent Translation Dictionary by including.
대용량, 단일어, 번역, 사전 Large, monolingual, translation, dictionary
Description
도 1은 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치를 나타내는 구성도.1 is a block diagram showing a patent translation dictionary construction apparatus according to an embodiment of the present invention.
도 2는 도 1의 용어 재구성부를 나타내는 상세 구성도.FIG. 2 is a detailed configuration diagram illustrating the term reconstruction unit of FIG. 1. FIG.
도 3은 도 1의 용어 처리부를 나타내는 상세 구성도.3 is a detailed configuration diagram illustrating a term processing unit of FIG. 1.
도 4는 도 1의 대역어 특화부를 나타내는 상세 구성도.FIG. 4 is a detailed configuration diagram illustrating the bandword specialized unit of FIG. 1. FIG.
도 5는 도 4의 용어 선택부의 동작을 나타내는 순서도.5 is a flowchart illustrating an operation of a term selector of FIG. 4.
본 발명은 번역 사전을 구축하는 장치 및 방법에 관한 것으로, 더욱 상세하게는 대용량 단일어 특허 문서를 기반으로 특허 번역 사전을 구축하는 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for constructing a translation dictionary, and more particularly, to an apparatus and method for constructing a patent translation dictionary based on a large-capacity monolingual patent document.
번역 사전을 구축하는 기술에는, 출발 언어(또는 원시 언어, source language)의 전문 용어에 대해 목표 언어(또는 목적 언어, target language)의 대역어를 수동으로 단순히 부착하는 방법이 있다. 이는, 예컨대 네트워크를 이용한 번역 시스템에서 출발 언어에 대해 기계 번역을 수행한 후, 출발 언어의 전문 용어에 대해서는 목표 언어의 대역어를 번역자들에 의해 수동으로 부착하는(번역하는) 방법이다. Techniques for building a translation dictionary include a method of manually attaching a band language of a target language (or target language) manually with respect to a jargon of a source language (or source language). This is, for example, a method of performing machine translation on a starting language in a translation system using a network, and then manually attaching (translating) the band language of the target language to the terminology of the starting language.
또한, 미등록어를 추출하여 그 미등록어들 사이의 관계 정보를 파악하는 기술을 그 예로서 들 수 있다. 이는, 예컨대 정보 검색 시스템에서 검색어 확장과 관련하여 미등록어를 추출하고 해당 미등록어에 대해 개념 정보를 부착한 후, 해당 개념 정보를 분석하여 수동으로 번역 사전에 등재 여부(예를 들면, 복합 명사의 경우에 모호성 제거)를 결정하는 방법이다. Further, a technique of extracting unregistered words and grasping relationship information between the unregistered words may be cited as an example. For example, the information retrieval system extracts unregistered words in relation to search term expansion, attaches conceptual information to the unregistered words, analyzes the conceptual information, and manually registers them in a translation dictionary (eg, a compound noun). In the case of ambiguity removal).
이러한 방법들은 결국 번역 사전을 구축하기 위해서 인간의 개입이 결정적인 요소를 이루며, 이러한 인간의 개입은 대용량의 번역 사전을 구축하는데 그 시간과 노력이 과다하게 소비되는 문제점이 있다. These methods ultimately constitute a critical factor for human intervention in order to build a translation dictionary, and this human intervention has a problem in that an excessive amount of time and effort is spent in constructing a large-capacity translation dictionary.
따라서, 본 발명의 목적은 인간의 개입을 최소화하는 대용량의 특허 번역 사전을 구축하는 장치 및 방법을 제공하는데 있다. Accordingly, it is an object of the present invention to provide an apparatus and method for constructing a large volume of patent translation dictionaries that minimize human intervention.
또한, 본 발명의 다른 목적은 대용량의 특허 번역 사전을 효율적이며 경제적으로 구축하는 장치 및 방법을 제공하는데 있다. Another object of the present invention is to provide an apparatus and method for efficiently and economically constructing a large-capacity patent translation dictionary.
이를 위하여, 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치는, 기구축된 전문 용어를 입력받아 특허 번역 사전용 DB에 기록 가능한 형태로 상기 입력된 전문 용어의 포맷을 변경하여 확장 사전용 DB에 기록하는 용어 재구성부; 출발 언어 특허 문서를 입력받아 상기 확장 사전용 DB에 기록되지 않은 미등록 전문 용어를 상기 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하며, 대역어가 부착되지 않은 상기 단일어 엔트리에 대해 상기 대역어를 부착한 후, 상기 확장 사전용 DB에 상기 엔트리를 추가하는 용어 처리부; 및 목표 언어 특허 문서를 입력받아 상기 확장 사전용 DB에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역한 후, 상기 특허 번역 사전용 DB에 기록하는 대역어 특화부를 포함한다. To this end, the patent translation dictionary construction apparatus according to an embodiment of the present invention, by receiving a mechanical terminology terminology and changes the format of the input terminology in a form that can be recorded in the patent translation dictionary DB DB expansion dictionary A term reconstruction unit recorded in the; Extracts unregistered jargon not recorded in the extended dictionary DB from the patent document, classifies a single word entry among the extracted unregistered jargon, and searches for the single word entry without a band word A term processing unit for adding the entry to the DB for expansion dictionary after attaching the band word; And receiving a target language patent document, selecting a band word suitable for a patent field from a plurality of band words in the extended dictionary DB, translating a compound word into a specialized single word band word for a composite word, and then recording the band word in the DB for dictionary translation. Includes a specialization.
또한, 본 발명의 일 실시예에 따른 특허 번역 사전 구축 방법은, a) 특허 번역 사전에 기록 가능한 형태로 기존에 구축된 전문 용어의 포맷을 변경하여 확장 사전을 구축하는 단계; b) 상기 확장 사전에 등록되지 않은 미등록 전문 용어를 출발 언어 특허 문서로부터 추출하고, 상기 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하고 대역어가 부착되지 않은 단일어 엔트리에 대해 해당 대역어를 부착한 후에 상기 확장 사전에 상기 엔트리를 추가하는 단계; 및 c) 상기 확장 사전에서 특정 표제어에 대해 복수의 대역어들이 존재하는 경우, 목표 언어 전문 용어를 토대로 상기 복수의 대역어들 중에서 특허 분야에 적합한 대역어를 선택하는 단계를 포함한다.In addition, a method for constructing a patent translation dictionary according to an embodiment of the present invention includes the steps of: a) constructing an extension dictionary by changing a format of a terminology previously constructed in a form recordable in a patent translation dictionary; b) extracting the unregistered terminology not registered in the extension dictionary from a starting language patent document, classifying a single word entry among the extracted unregistered terminology, and attaching the corresponding bandword to a single word entry without a bandword; Adding the entry to a dictionary; And c) when a plurality of band words exist for a specific headword in the extension dictionary, selecting a band word suitable for a patent field from among the plurality of band words based on a target language terminology.
한편, 본 발명의 일 실시예에 따라 특허 번역 사전 구축 과정에서 특정 표제어에 대해 복수의 대역어들 중에서 특허 분야에 적합한 대역어를 선택하는 방법은, 1) 확장 사전에 기록된 엔트리가 입력되면, 상기 엔트리가 마지막인지 판단하는 단계; 2) 상기 대역어들 중 하나를 특허 전분야의 디폴트 대역어로 결정하는 단계; 3) 상기 엔트리의 표제어가 출발 언어 전문 용어의 빈도순 목록에서 특정 누적빈도 이상인지를 판단하는 단계; 및 4) 상기 판단 결과 상기 특정 누적빈도 이하인 경우, 상기 2) 단계에서 결정된 특허 전 분야의 디폴트 대역어보다 상기 출발 언어 전문 용어의 빈도순 목록에서의 특정 분야 디폴트 대역어가 더 고빈도인 경우에만 상기 특정 분야의 대역어로 결정하는 단계를 포함한다.Meanwhile, according to an embodiment of the present invention, a method of selecting a band word suitable for a patent field among a plurality of band words in a patent translation dictionary construction process according to an embodiment of the present invention includes: 1) when an entry recorded in an extension dictionary is inputted, Determining whether is the last; 2) determining one of the band words to be the default band word of a patent; 3) determining whether the entry term of the entry is equal to or greater than a specific cumulative frequency in a frequency-ordered list of starting language terminology; And 4) when the determination result is less than or equal to the specific cumulative frequency, only when the specific sector default band word in the frequency order list of the starting language terminology is higher than the default band word of the entire patent area determined in step 2). Determining the language of the field.
이하에서는, 첨부 도면 및 실시예를 참조하여 본 발명을 상세히 설명한다. 도면상에서 동일 또는 유사한 구성요소에 대하여는 동일한 참조번호를 부여하였다. Hereinafter, with reference to the accompanying drawings and embodiments will be described the present invention in detail. Like reference numerals refer to like or similar elements throughout the drawings.
도 1은 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치를 나타내는 구성도이다. 1 is a block diagram showing a patent translation dictionary construction apparatus according to an embodiment of the present invention.
도 1에 도시한 바와 같이, 이 장치는, 기존에 구축된 전문 용어를 토대로 확장된 일반 번역 사전용 DB(900, 이하 확장 사전용 DB라 함)를 구축하는 용어 재구성부(200)와, 이 확장 사전용 DB에 등록되지 않은 미등록 전문 용어를 부가하는 용어 처리부(300)와, 이 확장 사전용 DB를 토대로 특허 분야에 맞는 대역어로 번역하여 본 발명에 따른 특허 번역 사전용 DB(500)를 반자동으로 구축하는 대역어 특화부(400)를 포함한다. As shown in FIG. 1, the apparatus includes a
또한, 상기 장치는 본 발명에 따른 특허 번역 사전용 DB(500)를 구축하기 위해서 일반 번역 사전용 DB(100)와, 기존의 전문 용어를 입력받는 기구축 용어 입력부(600)와, 출발 언어 특허 문서를 입력받는 출발 언어 입력부(700)와, 목표 언어 특허 문서를 입력받는 목표 언어 입력부(800)를 더 포함한다. In addition, the apparatus is a
이와 같이 구성된 본 발명의 일 실시예에 따른 특허 번역 사전 구축 장치의 동작을 간략하게 설명한다. The operation of the patent translation dictionary construction device according to the embodiment of the present invention configured as described above will be briefly described.
먼저, 용어 재구성부(200)는 기구축 용어 입력부(600)에서 기존에 구축된 전문 용어를 입력받아 일반 번역 사전용 DB(100)를 토대로 특허 번역 사전용 DB(500)에 기록 가능한 형태로 그 포맷을 변경하여 확장 사전용 DB(900)를 구축한다. First, the
이어, 용어 처리부(300)는 출발 언어 입력부(700)로부터 특정 출발 언어 특허 문서를 입력받아 새로 구축된 확장 사전용 DB(900)에 등록되지 않은 미등록 전문 용어를 이 특허 문서로부터 추출한다. 또한, 용어 처리부(300)는 이 추출된 미등록 전문 용어 중에서 단일어 엔트리를 분류하고 대역어가 부착되지 않은 단일어 엔트리에 대해서는 수동으로 부착한 후에 확장 사전용 DB(900)에 그 엔트리를 추가한다. Subsequently, the
이후, 대역어 특화부(400)는 목표 언어 입력부(800)로부터 목표 언어 특허 문서를 입력받아 미등록 전문 용어가 추가된 확장 사전용 DB(900)에서 복수의 대역어들에 대해 특허 분야에 적합한 대역어를 선택하고, 복합어에 대해서는 특화된 단일어 대역어로 번역하여 특허 번역 사전용 DB(500)를 구축한다. Subsequently, the band
이하, 본 발명에 따른 특허 번역 사전용 DB의 구축 장치를 첨부된 도면을 참조하여 더욱 상세히 설명한다. Hereinafter, an apparatus for constructing a DB for patent translation dictionary according to the present invention will be described in more detail with reference to the accompanying drawings.
도 2는 도 1의 용어 재구성부를 나타내는 상세 구성도이다. FIG. 2 is a detailed block diagram illustrating the term reconstruction unit of FIG. 1.
도 2에 도시한 바와 같이, 용어 재구성부(200)는 일반 번역 사전용 DB(100)의 일반 용어와 기존에 구축된 전문 용어의 표제어 및 대역어를 비교하는 용어 비교부(210)와, 용어 비교부(210)의 비교 결과에 따라 입력되는 기존에 구축된 전문 용어를 일반 번역 사전용 DB(100)의 포맷으로 변환시키는 용어 변환부(220)와, 변환된 전문 용어를 일반 번역 사전용 DB(100)에 그 엔트리의 존재 여부에 따라 상기 DB(100)에 삭제 또는 추가하는 용어 제거부(230)와, 추가된 전문 용어를 단일어 엔트리와 복합어 엔트리로 분리하여 확장 사전용 DB(900)에 개별적으로 추가하는 전문 용어 처리부(240)를 포함한다. As shown in FIG. 2, the
또한, 용어 재구성부(200)는 용어 비교부(210)에 참조되는 일반 번역 사전용 DB(100)와, 기존의 전문 용어를 입력받는 기구축 용어 입력부(600)를 더 포함한다. In addition, the
이와 같이 구성된 용어 재구성부(200)를 더욱 상세히 설명한다. The
용어 비교부(210)는, 기존에 구축된 전문 용어를 입력받아 이 전문 용어의 표제어 언어 및 대역어 언어와 일반 번역 사전용 DB(100)에 기록된 언어를 비교한다. 비교결과, 상기 DB(100)의 표제어 언어와 상기 전문 용어의 표제어 언어가 동일하거나, 상기 DB(100)의 표제어 언어와 상기 전문 용어의 대역어 언어가 동일하면, 용어 비교부(210)는 용어 변환부(220)로 그 전문 용어를 전달하고, 그 이외에는 그 전문 용어를 용어 변환부(220)로 전달하지 않고 그냥 반환한다. The
용어 변환부(220)는 전달된 전문 용어를 일반 번역 사전용 DB(100)에 적합한 포맷으로 변환한다. 용어 제거부(230)는 이 변환된 전문 용어가 일반 번역 사전용 DB(100)에 존재하는 엔트리인 경우에 이 DB(100)의 해당 표제어에 전문 용어의 대 역어를 추가시키고, 존재하지 않는 엔트리인 경우에 그 전문 용어를 이 DB(100)의 새로운 엔트리로 추가시킨다. The
전문 용어 처리부(240)는 상기 DB(100)의 엔트리와 상기 전문 용어를 단일어 엔트리와 복합어 엔트리로 각각 분리한다. 또한, 전문 용어 처리부(240)는, 이렇게 분리된 단일어 엔트리 중에서 대역어가 결합된 단일어 엔트리에 대해서는 확장 사전용 DB(900)에 기록하고, 대역어가 결합되지 않은 단일어 엔트리에 대해서는 적합한 대역어를 수동으로 부착하여 확장 사전용 DB(900)에 기록한다. 또한, 전문 용어 처리부(240)는 상기 분리된 복합어 엔트리를 그대로 확장 사전용 DB(900)에 기록한다. The
예컨대, 1) 일반 번역 사전용 DB(100)에는For example, 1) a general
solution -> {솔루션, 용액, 설명, 해결책},solution-> {solution, solution, description, solution},
fluid -> {유동체, 액체},fluid-> {fluid, liquid},
melting -> {용해, 융해} 등과 같이 기록되고,melting-> {melting, melting}, etc.,
2) 기존에 구축된 전문 용어로는2) In the existing terminology
솔루션 -> {solution}, Solution-> {solution},
용액 -> {solution, fluid}, Solution-> {solution, fluid},
용해 -> {solution, melting} 등과 같이 기록되었다고 가정하면, 용어 비교부(210)는, 상기 DB(100)의 표제어 언어와 상기 전문 용어의 대역어 언어가 일치하는 경우(예컨대, solution, fluid, melting)를 비교/검출한다. Assuming that the solution is recorded as {solution, melting}, etc., the
이어, 용어 변환부(220) 및 용어 제거부(230)는, 이 전문 용어가 상기 DB(100)에 존재하는 엔트리이므로, 상기 DB(100)의 해당 표제어에 전문 용어의 대역어를 추가시킨다. 즉, solution 은 {솔루션, 용액, 설명, 해결책, 용해}, fluid 는 {유동체, 액체, 용액}가 되고, melting 은 이전과 같은 {용해, 융해}가 된다. Then, since the
이후, 전문 용어 처리부(240)는, 상술한 solution, fluid, melting은 모두 단일어 엔트리이고 대역어가 부착되었으므로 확장 사전용 DB(900)에는 다음과 같이 기록된다. Since the
solution -> {솔루션, 용액, 설명, 해결책, 용해},solution-> {solution, solution, description, solution, dissolution},
fluid -> {유동체, 액체, 용액},fluid-> {fluid, liquid, solution},
melting -> {용해, 융해}melting-> {melting}
도 3은 도 1의 용어 처리부를 나타내는 상세 구성도이다. 3 is a detailed block diagram illustrating the term processor of FIG. 1.
도 3에 도시한 바와 같이, 용어 처리부(300)는, 출발 언어로 구성된 대용량의 특허 문서를 입력받아 IPC 분류에 따른 산업 분야로 분류하는 문서 분류부(310)와, 분류된 특허 분야별 문서로부터 일반 번역 사전용 DB(100)에 등재되지 않은 미등록 전문 용어를 추출하는 용어 추출부(330)와, 추출된 미등록 전문 용어를 출현 빈도순으로 정렬하는 미등록 용어 정렬부(350)와, 정렬된 미등록 전문 용어를 단일어 엔트리와 복합어 엔트리로 분리하여 확장 사전용 DB(900)에 개별적으로 추가하는 전문 용어 처리부(240)를 포함한다. As shown in FIG. 3, the
또한, 용어 처리부(300)는 출발 언어 특허 문서를 입력받는 출발 언어 입력 부(700)와, 특허 문서 분류를 위해서 IPC와 산업분류 사이를 맵핑하는 맵핑 테이블(320)과, 형태소 분석기(340)를 더 포함한다. In addition, the
이와 같이 구성된 용어 처리부(300)를 더욱 상세히 설명한다. The
문서 분류부(310)는 대용량의 출발 언어 특허 문서를 입력받아 맵핑 테이블(320)을 참조하여 IPC 분류에 따른 산업 분야로 분류한다. 여기서, IPC 분류에 따른 산업 분야는 12개(즉, 기계, 농림수산, 사무용품, 섬유, 음료식품, 의료위생, 잡화, 전기전자, 채광금속, 컴퓨터, 토목건설, 화학일반)로 분류된다. The
용어 추출부(330)는 상술한 바와 같이 분류된 특허 문서를 형태소 분석기(340)를 이용하여 확장 사전용 DB(900)에 기록되지 않은 특허 분야별 출발 언어 미등록 전문 용어를 추출한다. 여기서, 형태소 분석기(340)는 이 기술분야의 숙련자에게 공지되어 있으므로, 본 발명을 명확히 하기 위해 그 상세한 설명은 생략한다. 또한, 미등록 용어 정렬부(350)는 추출된 미등록 전문 용어를 분야별로 고빈도 순으로 정렬한다. The
이후, 전문 용어 처리부(240)는 각 분야별로 고빈도 순으로 정렬된 전문 용어를 단일어 엔트리와 복합어 엔트리로 각각 분리한다. 또한, 전문 용어 처리부(240)는, 이렇게 분리된 단일어 엔트리 중에서 대역어가 결합된 단일어 엔트리에 대해서는 확장 사전용 DB(900)에 기록하고, 대역어가 결합되지 않은 단일어 엔트리에 대해서는 적합한 대역어를 수동으로 부착하여 확장 사전용 DB(900)에 기록한다. 또한, 전문 용어 처리부(240)는 상기 분리된 복합어 엔트리를 그대로 확장 사전용 DB(900)에 기록한다. Thereafter, the
예컨대, 도 3에서 설명한 출발 언어 특허 문서를 기반으로 미등록 전문 용어를 추출한 후, 단일어 대역어가 없는 엔트리에는 대역어를 부착하여 구축된 확장 사전용 DB(900)의 예가 다음 표 1과 같이 도시된다. For example, after extracting the unregistered terminology based on the starting language patent document described with reference to FIG. 3, an example of the
표 1은 출발 언어 특허 문서로부터 추출된 특허 분야별 출발 언어 전문 용어 고빈도 리스트의 예를 나타낸다. 이 표 1을 토대로 구축된 확장 사전용 DB(900)에 기록된 예를 다음 표 2에 나타낸다. Table 1 shows an example of a high frequency list of starting language jargon by patent field extracted from a starting language patent document. An example recorded in the
도 4는 도 1의 대역어 특화부를 나타내는 상세 구성도이다. FIG. 4 is a detailed block diagram illustrating the bandword specialized unit of FIG. 1.
도 4에 도시한 바와 같이, 대역어 특화부(400)는 목표 언어로 구성된 대용량의 특허 문서를 입력받아 IPC 분류에 따른 산업 분야로 분류하는 문서 분류부(310)와, 분류된 특허 문서상의 어휘들을 단일어 및 복합어로 분류하는 용어 분석부(420)와, 분류된 단일어 및 복합어를 특허 분야별 빈도순으로 정렬하는 용어 정렬부(440)와, 도 3에서 기 설명된 미등록 용어 정렬부(350)와, 용어 정렬부(440) 및 미등록 용어 정렬부(350)에서 정렬된 전문 용어 목록을 토대로 확장 사전용 DB(900)에 기록된 대역어에 대해 특화된 대역어를 선택하는 용어 선택부(450)를 포함한다. As shown in FIG. 4, the band
또한, 대역어 특화부(400)는 목표 언어 특허 문서를 입력받는 목표 언어 입력부(800)와, 특허 문서 분류를 위해서 IPC와 산업분류 사이를 맵핑하는 맵핑 테이블(320)과, 형태소 분석기(340)와, 복합어 자동 번역부(460)와, 확장 사전용 DB(900)와, 특허 정보가 부착된 대역어 정보를 반영한 특허 번역 사전용 DB(500)를 더 포함한다. In addition, the band
이와 같이 구성된 대역어 특화부(400)를 더욱 상세히 설명한다. The
문서 분류부(310)는 목표 언어로 구성된 대용량의 특허 문서를 입력받아 맵핑 테이블(320)을 이용하여 IPC 분류에 따른 산업 분야로 분류한다. 여기서, IPC 분류에 따른 산업 분야는 12개(즉, 기계, 농림수산, 사무용품, 섬유, 음료식품, 의료위생, 잡화, 전기전자, 채광금속, 컴퓨터, 토목건설, 화학일반)로 분류된다. The
용어 분석부(420)는 형태소 분석기(340)를 이용하여 상기 분류된 특허 문서상의 어휘들을 단일어 및 복합어로 분류한다. 용어 정렬부(440)는 이와 같이 분류된 단일어 및 복합어를 특허 분야별 고빈도순으로 정렬한다. The
복합어 자동 번역부(460)는 도 3에서 구축된 확장 사전용 DB(900)에서 목표 언어 대역어가 붙지 않은 복합어를 자동 번역하여 상술한 확장 사전용 DB(900)에 추가한다. 이 결과로서, 확장 사전용 DB(900)에 기록된 단일어 및 복합어는 모두 목표 언어 대역어를 가진다. 여기서, 복합어 자동 번역부(460)는 기계적인 복합어 번역기를 이용할 수도 있으며, 경우에 따라서는 수동으로도 가능하다. The compound word
또한, 용어 선택부(450)는 상술한 용어 정렬부(440)에서 정렬된 특허 분야별 목표 언어 전문 용어 고빈도순 목록과 미등록 용어 정렬부(350)에서 정렬된 특허 분야별 출발 언어 전문 용어 고빈도순 목록을 토대로 확장 사전용 DB(900)에 기록된 대역어에 대해 특허 분야별 특화된 대역어를 선택한다(특화된 대역어 선택에 대한 상세한 설명은 도 5를 토대로 후술한다). 이렇게 함으로써 특허 분야의 정보가 반영된 특허 번역 사전용 DB(500)를 구축할 수 있다. In addition, the
상술한 대역어 특화부(400)에 대한 이해를 돕기 위해서, 확장 사전용 DB(900)에 존재하는 대역어가 2개 이상인 엔트리에 대해 특허 분야별로 대역어를 구분하여 특허 번역 사전용 DB(500)를 구축하는 방법을 구체적인 예를 들어 설명한다. In order to help the above-described band
우선, 확장 사전용 DB(900)에 기록된 예가 전술한 표 2와 같이 도시된다. 이 가운데 대역어가 2개 이상인 엔트리에 대한 표제어는 solution, fluid, melting임을 알 수가 있다. First, an example recorded in the
이어, 문서 분류부(310)와 용어 분석부(420)를 거쳐 용어 정렬부(440)에서 정렬된 목표 언어에 대해 특허 분야별 고빈도순에 따라 표제어를 정리한다. 예컨대, solution의 경우 화학일반 분야(예컨대, "PAT-화학일반"으로 표시)와 의료위생 분야(예컨대, "PAT-의료위생"으로 표시)에서는 {용액}이 그 대역어로, 특허 전 분야의 디폴트로는 {솔루션, 용액, 설명, 해결책, 용해}가 그 대역어로 정리된다. 왜냐하면, solution은 화학일반 분야와 의료위생 분야에서는 {용액}이 대역어로 쓰인 경우가 특허 전분야의 디폴트인 {솔루션}보다 그 빈도수가 높기 때문에 특정 분야의 대역어가 될 수 있다. Subsequently, headings are sorted according to the high frequency order of the patent fields with respect to the target language sorted by the
특허 분야별로 대역어를 구분한 예는 다음 표 3과 같이 도시된다. An example of classifying band words by patent field is shown in Table 3 below.
한편, 상술한 설명과는 대조적으로 fluid의 경우에는 특허 전 분야의 디폴트인 {용액} 보다도 더 고빈도로 나타나는 특정 분야의 대역어가 없기 때문에 "PAT-DEFAULT"가 할당된다. On the other hand, in contrast to the above description, in the case of fluid, "PAT-DEFAULT" is assigned because there is no band word in a specific field which appears at a higher frequency than {solution}, which is the default in all patent fields.
또한, 표 2에서 대역어가 존재하지 않았던 복합어는 복합어 자동 번역부(460)에서 자동 번역되어 해당 표제어에 대해 대역어가 부착된다. In addition, in Table 2, a compound word without a band word is automatically translated by the compound word
도 5는 도 4의 용어 선택부의 동작을 나타내는 순서도로서, 용어 선택부(450)가 대역어 특화부(400)에서 확장 사전용 DB(900)에 기록된 대역어를 토대로 분야별 전문 용어를 선택하는 방법을 도시한다. FIG. 5 is a flowchart illustrating an operation of the term selector of FIG. 4, wherein the
먼저, 확장 사전용 DB(900)에 기록된 엔트리가 입력되면, 현재의 엔트리가 마지막인지 판단한다(S501). 판단 결과, 마지막이면 전체 동작을 종료한다. First, when an entry recorded in the
다음으로, 상기 엔트리에 대한 표제어의 대역어가 1개인가를 판단한다(S503). 판단 결과, 1개이면 특허 번역 사전용 DB(500)에 해당 표제어에 대한 대역어를 추가/기록하고(S504), 단계 S501을 다시 수행한다. 그러나, 복수이면 단계 S505를 수행한다. Next, it is determined whether there is one band word of the headword for the entry (S503). As a result of the determination, if there is one, the band word for the corresponding headword is added / recorded in the patent translation dictionary DB 500 (S504), and step S501 is performed again. However, if there is more than one, step S505 is performed.
그러면, 현재의 엔트리에 대한 표제어의 대역어가 복수이므로, 이들 중 하나를 특허 전분야의 디폴트 대역어로 설정한다(S505). 즉, 용어 정렬부(440)에 의해 정리된 특허 분야별 목표 언어 전문 용어의 고빈도순 목록에서 특허 전 분야에 걸쳐 가장 높은 빈도로 사용되는 대역어를 특허 전 분야의 디폴트 대역어로 결정한다. Then, since there are a plurality of band words for the current entry, one of them is set as a default band word in all patent fields (S505). That is, in the high frequency order list of target language jargon by patent field arranged by the
이후, 미등록 용어 정렬부(350)에 의해 정리된 특허 분야별 출발 언어 전문 용어의 고빈도순 목록에서, 현재 엔트리의 표제어가 상기 목록에서 특정 누적빈도(예컨대, 전체 빈도 대비 상위로부터 누적 빈도가 70%) 이상인지를 판단한다(S506). Then, in the high-frequency order list of the starting language terminology for each patent field organized by the unregistered
판단 결과, 그 이상인 경우에만 해당 출발 언어 표제어의 엔트리를 분리하고(S507), 번역자를 통해 그 표제어 대한 특허 분야별 디폴트 대역어를 결정한다(S508). 이러한 결정은 경우에 따라서 수동으로 결정된다.As a result of the determination, the entry of the corresponding starting language headword is separated only (S507), and the default band word for each patent field is determined through the translator (S508). This decision is made manually in some cases.
그 이하인 경우에는, 목표 언어 전문 용어 고빈도순 목록에서 특허 전 분야의 디폴트 대역어보다 상술한 출발 언어 전문 용어의 고빈도순 목록에서 특정 분야의 디폴트 대역어가 더 고빈도인 경우에만 상기 특정 분야의 대역어를 자동으로 설정한다(S509). 예컨대, 전술한 solution의 경우, 화학일반 분야와 의료위생 분야에서 {용액}이 대역어로 쓰인 경우가 이 경우에 해당한다. If less than that, the band word of the specific field only if the default band word of the specific field is more frequent in the high frequency order list of the starting language terminology than the default band word of the entire patent field in the target language terminology high frequency order list. Is automatically set (S509). For example, in the case of the above-described solution, this case is the case where {solution} is used as a band word in the chemical general field and the medical hygiene field.
이후, 상기 단계 S505 내지 단계 S509에서 결정 또는 선택된 대역어를 특허 번역 사전용 DB(500)에 기록하고(S510), 다음 엔트리로 이동하여 단계 S501부터 반복적으로 수행하여 확장 사전용 DB(900)에 기록된 엔트리가 없어질 때까지 수행한다(S511). Subsequently, the band word determined or selected in steps S505 to S509 is recorded in the patent translation dictionary DB 500 (S510), and the next entry is repeatedly performed from step S501 to record in the
지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 당업자는 본 발명의 사상 및 범위를 벗어나지 않고 다양한 변형 또는 수정이 가능하다는 것을 알 것이다. While the present invention has been described in detail with reference to preferred embodiments, those skilled in the art will recognize that various modifications or changes can be made without departing from the spirit and scope of the invention.
이상에서 상세히 설명한 바와 같이, 본 발명에 따르면, 종래의 일반 번역 사전과, 기존에 구축된 전문 용어와, 대용량의 특허 문서 등과 같이 쉽게 구할 수 있는 언어적 자원을 활용하여, 해당 분야의 전문가만이 알 수 있는 특허 문서 전문 용어에 대해, 특허 분야별로 대역어가 구분된 대용량의 특허 번역 사전을 구축하는 시간과 비용을 절약할 수 있는 효과가 있다. As described in detail above, according to the present invention, by using a conventional general translation dictionary, existing terminology, and linguistic resources readily available such as a large amount of patent documents, only experts in the relevant field For known patent document terminology, there is an effect of saving time and cost for constructing a large-capacity patent translation dictionary in which band words are divided by patent field.
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060089003A KR100818628B1 (en) | 2006-09-14 | 2006-09-14 | Apparatus and method for building patent translation dictionary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060089003A KR100818628B1 (en) | 2006-09-14 | 2006-09-14 | Apparatus and method for building patent translation dictionary |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080024635A KR20080024635A (en) | 2008-03-19 |
KR100818628B1 true KR100818628B1 (en) | 2008-04-02 |
Family
ID=39412848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060089003A KR100818628B1 (en) | 2006-09-14 | 2006-09-14 | Apparatus and method for building patent translation dictionary |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100818628B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176966A (en) * | 2011-12-22 | 2013-06-26 | 苏州威世博知识产权服务有限公司 | Method and system used for realizing translation of basic patent information |
KR20180077594A (en) * | 2016-12-29 | 2018-07-09 | (주)준소프트웨어 | System and method for translation service of patent publication |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000039749A (en) * | 1998-12-15 | 2000-07-05 | 정선종 | Converting apparatus for machine translation and converting method using the converting apparatus |
JP2003296327A (en) | 2002-04-02 | 2003-10-17 | Nec Corp | Translation server, genre-classified online machine translation method, and program therefor |
KR20060067071A (en) * | 2004-12-14 | 2006-06-19 | 한국전자통신연구원 | Apparatus for constructing verb pattern db in a technical domain automatically and method thereof |
KR20070059869A (en) * | 2005-12-07 | 2007-06-12 | 한국전자통신연구원 | Apparatus and method of construction for single noun korean-english technical word dictionary using compound noun's target word notation in patent documents |
-
2006
- 2006-09-14 KR KR1020060089003A patent/KR100818628B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000039749A (en) * | 1998-12-15 | 2000-07-05 | 정선종 | Converting apparatus for machine translation and converting method using the converting apparatus |
JP2003296327A (en) | 2002-04-02 | 2003-10-17 | Nec Corp | Translation server, genre-classified online machine translation method, and program therefor |
KR20060067071A (en) * | 2004-12-14 | 2006-06-19 | 한국전자통신연구원 | Apparatus for constructing verb pattern db in a technical domain automatically and method thereof |
KR20070059869A (en) * | 2005-12-07 | 2007-06-12 | 한국전자통신연구원 | Apparatus and method of construction for single noun korean-english technical word dictionary using compound noun's target word notation in patent documents |
Also Published As
Publication number | Publication date |
---|---|
KR20080024635A (en) | 2008-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3356536B2 (en) | Machine translation equipment | |
JP2005251206A (en) | Word collection method and system for use in word segmentation | |
JP2007226797A (en) | Rapid similarity links computation for table of contents determination | |
JP2008165563A (en) | Bilingual example retrieval program, bilingual example retrieval device and bilingual example retrieval method | |
CN101021851B (en) | Text search device, text search method | |
JP2001052029A (en) | Document retrieval system | |
KR100818628B1 (en) | Apparatus and method for building patent translation dictionary | |
JP3594701B2 (en) | Key sentence extraction device | |
KR20030039575A (en) | Method and system for summarizing document | |
US20160196303A1 (en) | String search device, string search method, and string search program | |
CN104462552A (en) | Question and answer page core word extracting method and device | |
CN1955979A (en) | Automatic extraction device, method and program of essay title and correlation information | |
JP2004046438A (en) | Text retrieval method and device, text retrieval program and storage medium storing text retrieval program | |
KR101452638B1 (en) | Method and apparatus for recommending contents | |
CN112818645A (en) | Chemical information extraction method, device, equipment and storage medium | |
JP3253657B2 (en) | Document search method | |
JP2005202924A (en) | Translation determination system, method, and program | |
JP4205753B2 (en) | Document search system | |
CN101986308B (en) | Quick term marking method | |
KR100956413B1 (en) | Method and system for language-cross search | |
JP2006179019A (en) | Document retrieval device | |
JP3314720B2 (en) | String search device | |
JP2001344256A (en) | Word class automatic determination device, example sentence retrieval device, medium, and information aggregate | |
CN115238686A (en) | Tibetan data processing method based on artificial intelligence | |
JP2000029877A (en) | Method and device for analyzing document structure and storage medium storing document structure analyzing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130304 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140303 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150226 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160226 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20170224 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20180226 Year of fee payment: 11 |