KR100792203B1 - 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법 - Google Patents

특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법 Download PDF

Info

Publication number
KR100792203B1
KR100792203B1 KR1020060056184A KR20060056184A KR100792203B1 KR 100792203 B1 KR100792203 B1 KR 100792203B1 KR 1020060056184 A KR1020060056184 A KR 1020060056184A KR 20060056184 A KR20060056184 A KR 20060056184A KR 100792203 B1 KR100792203 B1 KR 100792203B1
Authority
KR
South Korea
Prior art keywords
terminology
band word
noun
word
patent document
Prior art date
Application number
KR1020060056184A
Other languages
English (en)
Other versions
KR20070059869A (ko
Inventor
양성일
서영애
박상규
김영길
류철
홍문표
박세영
김창현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070059869A publication Critical patent/KR20070059869A/ko
Application granted granted Critical
Publication of KR100792203B1 publication Critical patent/KR100792203B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 본 발명은 한국어를 원문으로 하는 특허 문서에서 빈번히 등장하는 전문용어의 대역어 선정을 위해 구축되는 대역어 사전의 정보를 자동으로 생성하여 제시함으로써 수동으로 구축되던 대역어 사전의 구축 작업을 반자동화하여 대역어 사전 구축의 효율성을 높이기 위한 장치 및 방법에 관한 것으로, 특허문서에서 전문용어를 구성하는 단위 명사 및 접사의 대역어 정보를 이용하여 복합명사형 전문용어 대상 엔트리와 대역어를 추출하는 단계와, 상기 추출된 복합명사형 전문용어 대상 엔트리 및 대역어에서 미등록 단일명사 전문용어의 대역어 후보자를 선정하는 단계와, 상기 대역어 후보자가 없는 경우에 수동 구축을 위해 해당 전문용어의 예문을 추출하여 제시하는 단계를 포함하여 이루어지는데 있다.
자동번역, 전문용어 추출, 특허 문서 번역, 대역어 선정

Description

특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치 및 방법{Apparatus and Method of Construction for Single Noun Korean-English Technical Word Dictionary Using Compound Noun's Target Word Notation in Patent Documents}
도 1 은 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치의 구성도
도 2 는 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 방법을 나타낸 흐름도
도 3 은 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치 및 방법을 통해 단일 명사 전문 용어 대역어 결정을 보여준 일 실시예를 나타낸 도면
* 도면의 주요 부분에 대한 부호의 설명*
100 : 형태소 분석기 110 : 대상 전문용어 선별부
120 : 단일명사 대역어 선정부 130 : 대역어 후보 선정 가능 판정부
140 : 대역어 제시부 150 : 일반분야 대상 형태소 분석사전
160 : 일반용어 대역어 사전 170 : 예문 제시부
본 발명은 한국어를 원문으로 하는 특허 문서에서 빈번히 등장하는 전문용어의 대역어 선정을 위해 구축되는 대역어 사전의 정보를 자동으로 생성하여 제시함으로써 수동으로 구축되던 대역어 사전의 구축 작업을 반자동화하여 대역어 사전 구축의 효율성을 높이기 위한 장치 및 방법에 관한 것이다.
먼저, 본 명세서에서 사용되는 용어를 정의하면 다음과 같다.
한국어를 원문으로 하는 특허문서에서 복합명사 전문용어라 함은, '가시오가피+배발생+세포+발견'과 같은 형태로 단위가 되는 명사들의 모음으로 전체가 하나의 명사의 역할을 해내는 독립 품사를 복합 명사라 할 때, 이러한 복합명사가 일반 분야에 잘 쓰이지 않는 전문적 성격을 띠고 있는 경우 복합명사 전문용어라 한다.
기계번역 장치에서 대역어라 함은 '사과', '포도' 등과 같은 한국어 원문에 'apple', 'grape'와 같이 동일한 뜻을 나타내는 대상언어를 대역어라 한다.
한국어를 원문으로 하는 기계번역 장치라 함은 한국어를 자동번역 하기 위한 입력 문장으로 하여 대상 언어의 대역어를 생성하는 장치를 말한다.
한국어를 원문으로 하는 특허문서에서 단일명사 전문용어라 함은, 복합명사 전문용어를 이루는 각각의 단위가 되는 명사들을 단일 명사라 할 때, 이러한 단일명사가 일반 분야에 잘 쓰이지 않는 전문적 성격을 띠고 있는 경우 단일명사 전문용어라 한다.
한국어를 원문으로 하는 특허문서에서 전문용어라 함은 일반 분야에 잘 쓰이 지 않는 전문적 성격을 띠고 있는 경우로 일반 분야를 대상으로 하는 분석 사전에 등록되지 않은 단어를 전문용어라 한다.
단일 명사의 대역어 선정이라 함은 복합 명사를 구성하는 단일명사의 뜻을 나타낼 수 있는 대역어를 선택하는 것을 말한다.
기계번역 장치에서 원시언어라 함은 번역을 하기 위한 읽어들이는 대상 언어를 말하며, 한국어-영어 기계 번역을 하는 경우 한국어를 원시언어라 한다.
기계번역 장치에서 목적언어라 함은 번역을 하여 생성하기 위한 대상 언어를 말하며, 한국어-영어 기계 번역을 하는 경우 영어를 대상언어라 한다.
다음으로, 종래 기술에 대하여 살펴보면 다음과 같다.
종래의 기계 번역 장치에서의 대역어 선정은 대역어 사전에 등록된 원시 언어 표제어와 그에 대응하는 대역어 정보를 사용하여 입력 문장에 대해 해당 대역어를 조합하여 선정하는 방식을 사용하였다. 그리고 복합 명사 대역어 선정의 경우, 해당 복합 명사를 대역어 사전에 등록하여 입력 문장에서 해당 복합 명사에 대해 미리 지정한 대역어를 선정하는 방식을 사용하였다.
이때, 일반 명사나 복합 명사의 대역어를 선정하기 위해서는 해당 단어를 키워드로 하는 대역어 사전의 엔트리가 있어야 한다.
그러나 사실상 복합 명사의 조합수는 무한하므로 복합 명사의 대역어는 사전에만 의존할 수 없으며, 복합 명사를 구성하는 단위 명사의 대역어를 조합하여 대역어를 산정하게 된다.
따라서, 단일 명사의 대역어 정보 구축은 복합 명사 대역어 정보 구축보다 중요해지며, 이러한 대역어 정보 구축은 모두 수작업으로 이루어져 왔다.
이때, 특허 문서와 같이 전문용어의 사용이 빈번한 문서를 대상으로 기계번역을 하고자 하는 경우에는 대부분의 단일명사 전문용어가 일반 분야를 대상으로 하는 기존 대역어 사전에 등록되지 않아 기계번역의 성능을 떨어뜨리는 주된 요인이 된다. 또한, 이러한 단일명사 전문용어 대역어 정보의 구축 필요성이 제기되지만, 다양한 신조 전문 용어들이 계속 발생하는 특허 문서의 경우, 수작업에 의한 대량 구축 작업은 막대한 시간과 자본을 필요로 한다는 문제점이 제기된다.
따라서, 상기와 같은 문제점을 해결하기 위해, 단일 명사 전문용어의 대역어 정보를 위한 효율적인 구축 방법과, 이를 위해 또 다른 추가 지식이 아닌 기존 구축 지식의 이용 방법이 필요하다.
본 발명은 상기 문제점을 해결하고 상기 요구에 부응하기 위하여 제안된 것으로, 한국어를 원문으로 하는 특허 문서에서 빈번히 등장하는 전문용어의 대역어 선정을 위해 단일명사 전문용어 대역어 정보 구축 작업을 효율화시키기 위한 장치 및 방법을 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치의 특징은 입력되는 특허 문서의 문장을 대상 형태소 분석 사전을 사용하여 형태소 분석 결과를 얻는 형태소 분석기와, 상기 형태소 분석 결과에서 명사 나열로 이루어진 복합 명사를 전문용어 후보자로 추출하고, 추출된 복합 명사를 구성하는 단일 명사 전문 용어 중 형태소 분석 사전에 등록되지 않아 미등록(unknown)으로 분석된 단일 명사를 대역어 선정을 위한 대상으로 선택하는 대상 전문용어 선별부와, 상기 추출 및 선택된 복합 명사 전문 용어와 대역어를 입력으로 대상 단일 명사를 제외한 나머지 단일 명사들의 일반용어 대역어 사전을 이용하여 필요 없는 부분을 삭제하여 대역어 선정에 필요한 단일 명사 대역어 정보를 구하는 단일명사 대역어 선정부와, 상기 단일명사 대역어 선정부에서 삭제되고 남는 용어 대역어의 유무를 파악하는 대역어 후보 선정 가능 판정부와, 상기 대역어 후보 선정 가능 판정부에서 남은 대역어가 있는 경우에 전문용어 대역어 정보 구축자에게 자동 결정된 대역어 후보자를 제시하는 대역어 제시부와, 상기 대역어 후보 선정 가능 판정부에서 남는 대역어가 없는 경우에 대역어 선정에 실패한 것으로 간주하여 소정 예문을 출력하는 예문 제시부를 포함하여 구성되는데 있다.
바람직하게 상기 형태소 분석기는 특허 문서의 한국어 문장이 텍스트 스트링의 형태로 입력되는 것을 특징으로 한다.
바람직하게 상기 예문 제시부에서 출력되는 소정 예문은 대역어 실패에 따른 해당 단일 명사 전문용어가 발생한 위치에서 앞뒤 단어를 지정한 갯수만큼 잘라 만드는 것을 특징으로 한다.
바람직하게 상기 후보 선정 가능 판정부에서 남는 용어 대역어의 유무는 남은 대역어의 갯수와 위치 정보를 참조하여 파악하는 것을 특징으로 한다.
바람직하게 상기 대상 전문용어 선별부는 제목에 나타나는 전문용어 및 본문에 나타나는 전문용어들 중 처음 나타나는 전문용어들은 그에 대응하는 영어 대역어를 괄호 표현으로 표기하여 대역어 선정을 위한 대상으로 선택하는 것을 특징으로 한다.
바람직하게 상기 단일명사 대역어 선정부에서 삭제되는 필요없는 부분은 대역어가 복합명사 전문용어를 구성하는 단일 명사 및 접사 정보인 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 방법의 특징은 (a) 특허문서에서 전문용어를 구성하는 단위 명사 및 접사의 대역어 정보를 이용하여 복합명사형 전문용어 대상 엔트리와 대역어를 추출하는 단계와, (b) 상기 추출된 복합명사형 전문용어 대상 엔트리 및 대역어에서 미등록 단일명사 전문용어의 대역어 후보자를 선정하는 단계와, (c) 상기 대역어 후보자가 없는 경우에 수동 구축을 위해 해당 전문용어의 예문을 추출하여 제시하는 단계를 포함하여 이루어지는데 있다.
바람직하게 상기 (a) 단계는 (a1) 특허문서 문장을 형태소 분석하여 명사/접사/미등록어의 나열을 포함하는 분석 결과를 추출하는 단계와, (a2) 상기 추출 결과 명사/접사/미등록어의 나열 뒤에 괄호 표현에 의해 대역어가 있는 경우 단위 명사들을 묶어 이루어진 복합 명사 및 괄호 표현에 의한 대역어를 추출하는 단계와, (a3) 특허 문서의 제목 표기에 의해 대역어가 있는 경우 제목과 해당 대역어를 추출하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게 상기 (b) 단계는 (b1) 상기 단위 명사 중에서 미등록어가 있는 경우, 미등록어를 제외한 나머지 품사 정보에 따른 대역어 정보를 사용하여 해당 대역어 정보를 제거하는 단계와, (b2) 상기 제거되고 남은 대역어의 갯수와 나타나는 위치 정보를 사용하여 대상 미등록어의 대역어 후보자를 선정하는 단계를 포함하는 것을 특징으로 한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시 예를 상세히 설명한다.
이하 본 발명의 실시 예에서는 복합 명사 전문 용어를 포함한 특허 문서 문장을 입력으로 하여 동작하는 전문용어 대역어 사전 구축 지원 장치를 일례로 들어 설명하기로 한다.
도 1 은 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치의 구성도이다.
도 1과 같이, 대역어 사전 구축 장치는 형태소 분석기(100)와, 대상 전문용어 선별부(110)와, 단일명사 대역어 선정부(120)와, 대역어 후보 선정 가능 판정부(130)와, 대역어 제시부(140)와, 예문 제시부(170)로 구성된다.
이때, 상기 형태소 분석기(100)는 자연어 형태로 입력되는 특허 문서의 한국어 문장이 텍스트 스트링의 형태로 입력되어져 일반 분야 대상 형태소 분석 사전을 사용하여 형태소 분석 결과를 얻는다.
이어 상기 대상 전문용어 선별부(110)에서는 상기 형태소 분석 결과를 입력 으로 받아 명사 나열로 이루어진 복합 명사를 전문용어 후보자로 간주하여 추출한다. 이때 특허 문서의 특성상, 제목에 나타나는 전문용어는 그 대역어를 함께 표기하며, 본문에 나타나는 전문용어들도 처음 나타나는 전문용어들은 그에 대응하는 영어 대역어를 괄호 표현으로 같이 표기함에 착안하여 해당 대역어를 함께 추출한다.
아울러, 상기 대상 전문용어 선별부(110)는 이렇게 추출된 복합명사 전문용어에서 복합 명사를 구성하는 단일 명사 전문 용어 중 일반 분야를 대상으로 하는 형태소 분석 사전(150)에 등록되지 않아 미등록(unknown)으로 분석된 단일 명사를 대역어 선정을 위한 대상으로 선택한다.
그러면 상기 단일 명사 대역어 선정부(120)는 이렇게 추출된 복합 명사 전문 용어와 대역어를 입력으로 받아 대역어 선정이 필요한 단일 명사 대역어 정보를 구하기 위해 대상 단일 명사를 제외한 나머지 단일 명사들의 일반용어 대역어 사전(160)을 이용하여 복합 명사 전문 용어의 대역어에서 필요 없는 부분을 삭제한다. 이때 삭제되는 대역어는 복합명사 전문용어를 구성하는 단일 명사뿐만 아니라 접사정보 역시 사용될 수 있다.
그리고 상기 대역어 후보자 선정 가능 판정부(130)에서는 이렇게 삭제되고 남은 용어 대역어가 남은 것이 있는지를 파악한다.
상기 파악결과, 남은 대역어의 갯수와 위치 정보를 참조하여 남은 대역어가 있는 경우에는 대역어 제시부(140)를 통해 전문용어 대역어 정보 구축자에게 자동 결정된 대역어 후보자를 제시하게 된다.
또한, 상기 파악결과, 남는 대역어가 없는 경우 대역어 선정에 실패한 것으로 간주한다. 그리고 대역어 실패에 따른 예문 제시부(170)에 의해 해당 단일 명사 전문용어가 발생한 위치에서 앞뒤 단어를 지정한 갯수만큼 잘라 만든 예문(예를 들어 3개씩 지정하는 경우 해당 단일명사 이전에 나온 3개 단어와 이후에 나온 단어 3개 단어를 합쳐 총 7개 단어로 이루어진 예문)을 출력하도록 한다.
이와 같이 구성된 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 방법을 나타낸 흐름도이다.
도 2를 참조하여 설명하면, 먼저 한국어 특허문서에서 특허 문서의 특성을 이용하여 복합명사형 전문용어 대상 엔트리와 대역어를 추출한다(S10).
즉, 특허문서 문장을 형태소 분석하여 명사/접사/미등록어의 나열을 포함하는 분석 결과를 추출한다. 그리고 상기 추출 결과 명사/접사/미등록어의 나열 뒤에 괄호 표현에 의해 대역어가 있는 경우 단위 명사들을 묶어 이루어진 복합 명사 및 괄호 표현에 의한 대역어를 추출한다.
아울러 특허 문서의 제목 표기에 의해 대역어가 있는 경우에는 제목과 해당 대역어를 추가로 추출한다.
이때, 특허 문서에 발생하는 대부분의 전문용어들은 그 내용을 설명하기 위 하여 대역어 정보를 함께 표기하며, 이러한 대역어 정보를 이용할 수 있다는 점에 착안하여, 단일 명사 전문용어의 대역어 정보는 없지만 복합 명사 전문용어에 병행 표기된 대역어 정보를 입수하여 기존 대역어 사전을 사용함으로써 대역어 선정이 필요한 단일 명사 전문용어를 추출하게 된다.
이어, 상기 추출된 전문용어를 구성하는 단일 명사 및 접사의 대역어 정보를 이용하여 미등록 단일명사 전문용어의 대역어 후보자를 선정한다(S20).
즉, 상기 단위 명사 중에서 미등록어가 있는 경우, 미등록어를 제외한 나머지 품사 정보에 따른 대역어 정보를 사용하여 해당 대역어 정보를 제거한다. 그리고 상기 제거되고 남은 대역어의 갯수와 나타나는 위치 정보를 사용하여 대상 미등록어의 대역어 후보자를 선정한다.
그리고 대역어 후보자의 자동 선정에 실패한 경우, 즉 대역어 후보자가 없는 경우에 수동 구축을 위해 해당 전문용어의 예문을 추출하여 제시한다(S30).
이처럼 대역어 후보자가 없는 경우 단일 명사 전문용어가 발생하는 예문을 추출하여 제시함으로써 단일명사 전문용어 대역어 정보 구축 작업을 효율화시킬 수 있게 된다.
도 3 은 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치 및 방법을 통해 단일 명사 전문 용어 대역어 결정을 보여준 일 실시예를 나타낸 도면으로, 농축 스티그마스테롤 용액?이라는 복합 명사 전문 용어에 대해 '스티그마스테롤'이라는 단일 명사 전문 용어 대역어 결정의 일 예시도이다.
도 3을 참조하여 설명하면, 먼저 특허 문서 문장에 대한 형태소 분석기(100)의 결과는 도 1에서 제시된 대상 전문용어 선별부(110)의 입력이 되며 이러한 결과에는 문장의 각 단어에는 품사 정보가 붙어 있게 된다.
따라서, 특허 문서 원문에서 "농축", "스티그마스테롤", "용액"에 붙어 있는 "/n", "/u" 표기는 각각 명사(Noun), 미등록어(Unknown)를 나타내는 것으로, 형태소 분석 결과에 의해 발생한다(S200).
이어 대상 전문 용어 선별부(110)에서는 이러한 원문 결과를 받아 우선 대상 문장에서 명사나 미등록어, 접사로 분석된 결과가 연결되어 나오는 부분을 찾아 하나로 묶어 복합 명사로 만들어 작업 대상 복합 명사 전문 용어를 추출한다. 이때 뒤에 나오는 괄호 기호를 이용하여 복합 명사에 해당되는 것으로 예측되는 영어 대역어를 함께 추출한다.
이에 따라, 대상 전문용어 선별 결과가 얻어지므로, "농축+스티그마스테롤+용액"이 해당 복합 명사 전문 용어로 추출되며, 이에 따른 "a concentrated stigmasterol solution"이 영어 대역어 후보자로 함께 추출된다(S210).
그리고 복합 명사 전문용어를 이루는 단일 명사 중에 일반 분야 형태소 분석 사전(150)에 등록되지 않아 미등록어로 판단되는 명사를 대역어 선정 대상 단어로 결정하여, "농축 스티그마스테롤 용액"에서 "스티그마스테롤"이 대역어 정보가 부재한 단일 명사 전문 용어임을 구분해 낸다.
이어, 대상 단일명사 전문용어 대역어 선정에서는 대상 단일 명사 전문 용어 인 "스티그마스테롤"을 제외한 나머지 단어 "농축", "용액"의 대역어 정보를 기존 일반용어 대역어 사전(160)에서 참조하여 대역어 후보 중에 "concentrated"와 "solution", 그리고 관사 "a"와 같은 불용어를 제거한다(S220).
이렇게 제거되고 남은 용어 대역어 "stigmasterol"은 대상 단일 명사 전문 용어 "스티그마스테롤"의 대역어 후보자가 되며 전문용어 대역어 제시에 의해 전문용어 대역어 사전 구축자에게 제시된다(S230).
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치 및 방법은 특허 문서에 등장하는 복합 명사 전문 용어 대역어 정보를 사용하여, 사전에 등록되지 않은 단일 명사 전문 용어의 대역어 후보자를 자동으로 결정하여 제시하고, 복합 명사 전문 용어 대역어로부터 단일 명사 대역어 후보자를 추출하지 못하는 경우 발생 예문을 제시하 여 단일 명사 전문 용어의 대역어 사전 정보를 반자동으로 구축할 수 있도록 지원하여 대용량 전문 용어 대역어 사전 구축 작업 효율성을 향상시키는 효과를 가져온다.

Claims (10)

  1. 입력되는 특허 문서의 문장을 대상 형태소 분석 사전을 사용하여 형태소 분석 결과를 얻는 형태소 분석기와,
    상기 형태소 분석 결과에서 명사 나열로 이루어진 복합 명사를 전문용어 후보자로 추출하고, 추출된 복합 명사를 구성하는 단일 명사 전문 용어 중 형태소 분석 사전에 등록되지 않아 미등록(unknown)으로 분석된 단일 명사를 대역어 선정을 위한 대상으로 선택하는 대상 전문용어 선별부와,
    상기 추출 및 선택된 복합 명사 전문 용어와 대역어를 입력으로 대상 단일 명사를 제외한 나머지 단일 명사들의 일반용어 대역어 사전을 이용하여 필요 없는 부분을 삭제하여 대역어 선정에 필요한 단일 명사 대역어 정보를 구하는 단일명사 대역어 선정부와,
    상기 단일명사 대역어 선정부에서 삭제되고 남는 용어 대역어의 유무를 파악하는 대역어 후보 선정 가능 판정부와,
    상기 대역어 후보 선정 가능 판정부에서 남은 대역어가 있는 경우에 전문용어 대역어 정보 구축자에게 자동 결정된 대역어 후보자를 제시하는 대역어 제시부와,
    상기 대역어 후보 선정 가능 판정부에서 남는 대역어가 없는 경우에 대역어 선정에 실패한 것으로 간주하여 소정 예문을 출력하는 예문 제시부를 포함하여 구성되는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치.
  2. 제 1 항에 있어서,
    상기 형태소 분석기는 특허 문서의 한국어 문장이 텍스트 스트링의 형태로 입력되는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치.
  3. 제 1 항에 있어서,
    상기 예문 제시부에서 출력되는 소정 예문은 대역어 실패에 따른 해당 단일 명사 전문용어가 발생한 위치에서 앞뒤 단어를 지정한 갯수만큼 잘라 만드는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치.
  4. 제 1 항에 있어서,
    상기 후보 선정 가능 판정부에서 남는 용어 대역어의 유무는 남은 대역어의 갯수와 위치 정보를 참조하여 파악하는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치.
  5. 제 1 항에 있어서,
    상기 대상 전문용어 선별부는 제목에 나타나는 전문용어 및 본문에 나타나는 전문용어들 중 처음 나타나는 전문용어들은 그에 대응하는 영어 대역어를 괄호 표현으로 표기하여 대역어 선정을 위한 대상으로 선택하는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치.
  6. 제 1 항에 있어서,
    상기 단일명사 대역어 선정부에서 삭제되는 필요없는 부분은 대역어가 복합명사 전문용어를 구성하는 단일 명사 및 접사 정보인 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 장치.
  7. (a) 특허문서에서 전문용어를 구성하는 단위 명사 및 접사의 대역어 정보를 이용하여 복합명사형 전문용어 대상 엔트리와 대역어를 추출하는 단계와,
    (b) 상기 추출된 복합명사형 전문용어 대상 엔트리 및 대역어에서 미등록 단일명사 전문용어의 대역어 후보자를 선정하는 단계와,
    (c) 상기 대역어 후보자가 없는 경우에 수동 구축을 위해 해당 전문용어의 예문을 추출하여 제시하는 단계를 포함하여 이루어지는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 방법.
  8. 제 7 항에 있어서, 상기 (a) 단계는
    (a1) 특허문서 문장을 형태소 분석하여 명사/접사/미등록어의 나열을 포함하는 분석 결과를 추출하는 단계와,
    (a2) 상기 추출 결과 명사/접사/미등록어의 나열 뒤에 괄호 표현에 의해 대역어가 있는 경우 단위 명사들을 묶어 이루어진 복합 명사 및 괄호 표현에 의한 대역어를 추출하는 단계를 포함하는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 방법.
  9. 제 8 항에 있어서,
    (a3) 특허 문서의 제목 표기에 의해 대역어가 있는 경우 제목과 해당 대역어를 추출하는 단계를 더 포함하는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 방법.
  10. 제 7 항에 있어서, 상기 (b) 단계는
    (b1) 상기 단위 명사 중에서 미등록어가 있는 경우, 미등록어를 제외한 나머지 품사 정보에 따른 대역어 정보를 사용하여 해당 대역어 정보를 제거하는 단계와,
    (b2) 상기 제거되고 남은 대역어의 갯수와 나타나는 위치 정보를 사용하여 대상 미등록어의 대역어 후보자를 선정하는 단계를 포함하는 것을 특징으로 하는 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의 대역어 사전 구축 방법.
KR1020060056184A 2005-12-07 2006-06-22 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법 KR100792203B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050119107 2005-12-07
KR1020050119107 2005-12-07

Publications (2)

Publication Number Publication Date
KR20070059869A KR20070059869A (ko) 2007-06-12
KR100792203B1 true KR100792203B1 (ko) 2008-01-08

Family

ID=38356124

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060056184A KR100792203B1 (ko) 2005-12-07 2006-06-22 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100792203B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818628B1 (ko) * 2006-09-14 2008-04-02 한국전자통신연구원 특허 번역 사전 구축 장치 및 방법
KR100831037B1 (ko) * 2006-09-29 2008-05-20 한국전자통신연구원 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치
KR101335144B1 (ko) * 2012-02-27 2013-12-05 조선대학교산학협력단 도메인 대역어 추천 시스템 및 그 방법
KR102385531B1 (ko) 2016-05-31 2022-04-13 주식회사 라이프시맨틱스 공통 용어체계 기반 의료용어 번역 시스템
KR102382477B1 (ko) 2018-08-29 2022-04-04 주식회사 아이팩토리 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
KR980004128A (ko) * 1997-12-03 1998-03-30 양승택 서식문서 자동번역 시스템
KR20010081770A (ko) * 2000-02-18 2001-08-29 윤종용 목적언어 분석에 기반한 언어 번역 방법 및 장치
KR20040065468A (ko) * 2003-01-14 2004-07-22 주식회사 크로스랭귀지 (영업소) 특허문서의 다국어 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
KR20060067071A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법
KR20060067785A (ko) * 2004-12-15 2006-06-20 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JP2013209642A (ja) * 2012-02-29 2013-10-10 Canon Inc アゾ骨格を有する新規化合物、該化合物を含有する顔料分散剤、顔料組成物、顔料分散体およびトナー

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980004128A (ko) * 1997-12-03 1998-03-30 양승택 서식문서 자동번역 시스템
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
KR20010081770A (ko) * 2000-02-18 2001-08-29 윤종용 목적언어 분석에 기반한 언어 번역 방법 및 장치
KR20040065468A (ko) * 2003-01-14 2004-07-22 주식회사 크로스랭귀지 (영업소) 특허문서의 다국어 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
KR20060067071A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법
KR20060067785A (ko) * 2004-12-15 2006-06-20 한국전자통신연구원 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JP2013209642A (ja) * 2012-02-29 2013-10-10 Canon Inc アゾ骨格を有する新規化合物、該化合物を含有する顔料分散剤、顔料組成物、顔料分散体およびトナー

Also Published As

Publication number Publication date
KR20070059869A (ko) 2007-06-12

Similar Documents

Publication Publication Date Title
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
JP4940325B2 (ja) 文書校正支援装置、方法およびプログラム
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2007249606A (ja) 対訳辞書作成装置,対訳辞書作成方法およびコンピュータプログラム
KR100792203B1 (ko) 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
Barlow Parallel texts and corpus-based contrastive analysis
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
KR100831037B1 (ko) 병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및장치
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP6417359B2 (ja) 請求の範囲の構文解析構成方法
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
Boizou et al. An online linguistic analyser for scottish gaelic
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0561902A (ja) 機械翻訳システム
JPH08329059A (ja) 汎用参照装置
JP2006190226A (ja) 用言自動換言装置、用言換言方法及び用言換言処理プログラム
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
KR20120072196A (ko) 가변요소를 자동으로 생성하여 이를 이용하는 번역시스템 및 그 번역방법
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPS62203266A (ja) 機械翻訳システム
JP2003296323A (ja) 形態素解析装置
JP2001195402A (ja) 言語処理装置、言語処理方法およびその方法を記憶した記憶媒体
JPH1063664A (ja) 自然言語の翻訳方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20101201

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee