KR20060067785A - 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치 - Google Patents

복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치 Download PDF

Info

Publication number
KR20060067785A
KR20060067785A KR1020050013906A KR20050013906A KR20060067785A KR 20060067785 A KR20060067785 A KR 20060067785A KR 1020050013906 A KR1020050013906 A KR 1020050013906A KR 20050013906 A KR20050013906 A KR 20050013906A KR 20060067785 A KR20060067785 A KR 20060067785A
Authority
KR
South Korea
Prior art keywords
terminology
analysis
noun
dictionary
speech
Prior art date
Application number
KR1020050013906A
Other languages
English (en)
Other versions
KR100617317B1 (ko
Inventor
양성일
이기영
최승권
노윤형
권오욱
김영길
김창현
홍문표
류철
서영애
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067785A publication Critical patent/KR20060067785A/ko
Application granted granted Critical
Publication of KR100617317B1 publication Critical patent/KR100617317B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B26HAND CUTTING TOOLS; CUTTING; SEVERING
    • B26DCUTTING; DETAILS COMMON TO MACHINES FOR PERFORATING, PUNCHING, CUTTING-OUT, STAMPING-OUT OR SEVERING
    • B26D3/00Cutting work characterised by the nature of the cut made; Apparatus therefor
    • B26D3/24Cutting work characterised by the nature of the cut made; Apparatus therefor to obtain segments other than slices, e.g. cutting pies
    • B26D3/26Cutting work characterised by the nature of the cut made; Apparatus therefor to obtain segments other than slices, e.g. cutting pies specially adapted for cutting fruit or vegetables, e.g. for onions
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23NMACHINES OR APPARATUS FOR TREATING HARVESTED FRUIT, VEGETABLES OR FLOWER BULBS IN BULK, NOT OTHERWISE PROVIDED FOR; PEELING VEGETABLES OR FRUIT IN BULK; APPARATUS FOR PREPARING ANIMAL FEEDING- STUFFS
    • A23N1/00Machines or apparatus for extracting juice
    • A23N1/02Machines or apparatus for extracting juice combined with disintegrating or cutting
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23NMACHINES OR APPARATUS FOR TREATING HARVESTED FRUIT, VEGETABLES OR FLOWER BULBS IN BULK, NOT OTHERWISE PROVIDED FOR; PEELING VEGETABLES OR FRUIT IN BULK; APPARATUS FOR PREPARING ANIMAL FEEDING- STUFFS
    • A23N15/00Machines or apparatus for other treatment of fruits or vegetables for human purposes; Machines or apparatus for topping or skinning flower bulbs
    • A23N15/08Devices for topping or skinning onions or flower bulbs
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B26HAND CUTTING TOOLS; CUTTING; SEVERING
    • B26DCUTTING; DETAILS COMMON TO MACHINES FOR PERFORATING, PUNCHING, CUTTING-OUT, STAMPING-OUT OR SEVERING
    • B26D2210/00Machines or methods used for cutting special materials
    • B26D2210/02Machines or methods used for cutting special materials for cutting food products, e.g. food slicers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Food Science & Technology (AREA)
  • Polymers & Plastics (AREA)
  • Forests & Forestry (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치는 전문용어 사전에서 단일 명사 전문용어와 복합 명사 전문용어를 분리하는 단계; 상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 생성하는 단계; 상기 단일명사 전문용어와 형태소 분석 기본 사전을 기초로 상기 부분문장의 형태소를 분석하는 단계; 및 상기 분석결과 상기 부분생성된 문장이 단일 명사 이외의 품사로 해석될 가능성의 유무로 상기 복합 명사의 등록 여부를 결정하는 단계;를 포함하는 것을 특징으로 하며, 형태소 분석 사전에 등재가 요구되는 복합 명사 전문용어 엔트리를 재분석하여 복합 명사 전문용어 삭제에 따른 분석 모호성 발생을 판단하고, 이에 따른 분석 사전 등재 대상 전문용어 엔트리를 선정하여 대용량 전문용어에 의해 크기가 커지는 분석 사전의 크기를 효과적으로 축소하면서 분석 정확률은 유지할 수 있는 시스템 효율성을 향상시키는 효과를 가져올 수 있다.

Description

복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치{Method for re-analysis of compound noun to decide lexical entries and apparatus thereof}
도 1 은 본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법의 과정을 보여주는 흐름도이다.
도 2는 본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법을 구체적 예를 보여주는 도면이다.
도 3은 복합 명사 전문용어 사전 엔트리의 재분석 장치의 구성을 보여주는 블럭도이다.
* 도면의 주요 부분에 대한 부호의 설명
210 : 전문용어 사전에 등재된 표제어의 예
220 : 추출된 복합 명사 전문용어 표제어의 예
230 : 부분 문장으로 생성된 표제어의 예
240 : 형태소 재분석 결과
250 : 재분석 필터링에 의해 사전 등록이 필요한 엔트리
310 : 대용량 전문용어 사전
320 : 전문용어를 분리하기 위한 단일/복합명사분리부
330 : 추출된 복합 명사로 부분문장을 생성하는 부분문장생성부
340 : 부분문장의 형태소를 분석하는 형태소분석부
350 : 일반 분야 대상 기본 형태소 분석 사전
360 : 분리된 복합 명사 전문용어를 사전에 등재할 것인지의 여부를 결정하는 등록결정부
본 발명은 복합 명사로 이루어진 전문용어를 분석하여 분석모호성을 해소하면서 동시에 전문용어 사전에 등재할 것인지의 여부를 결정하기 위한 방법 및 그 장치에 관한 것이다.
종래의 형태소 분석 장치에서의 전문 용어 분석은 해당 전문 용어를 구축한 사전을 일반 분야 대상의 기본 형태소 분석 사전에 전문용어와 품사 정보를 추가하며 이를 분석 사전으로 사용하여, 입력 문장에서 해당 전문용어의 품사 정보를 부여하는 방법을 사용하였다. 일반 명사나 복합 명사 전문용어의 품사를 선정하기 위해서는 해당 단어를 표제어로 하는 형태소 분석 사전의 엔트리가 있어야 하며, 없는 경우 인명, 지명과 같은 고유명사로 간주하여 임의 품사를 부여하게 된다. 그러나 복합 명사 전문 용어의 발생은 일반 분야의 복합 명사보다 규모가 월등히 크므로 일반 분야 사전과 달리 분석 사전의 크기가 매우 크게 증가하게 된다.
따라서, 이러한 분석 사전의 크기는 분석 시스템 구동을 위한 메모리, 구동 시간과 같은 효율성을 저하시키는 원인이 된다. 이러한 문제점을 해결하기 위해 지금까지 사전 엔트리와 품사 정보의 인코딩 방법에 근거한 사전 축소 방법을 사용하여 왔다. 그러나 인코딩 방법에 의한 사전 축소 방법도 대량으로 구축되는 전문용어에 의해 그 규모가 계속 늘어나고 있으며, 이러한 사전의 크기 축소를 위해 분석 성능에 영향을 주지 않으면서 분석 사전의 역할을 할 수 있는 새로운 분석 사전 압축 방법의 필요성이 제기 되고 있다.
본 발명이 이루고자 하는 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 복합 명사 전문용어의 대부분은 단일 명사로 구성된 점에 착안하여, 복합 명사 전문용어의 단위 명사들이 모두 일반 명사로 이루어진 경우, 단일 명사만을 분석 사전에 등재하고, 복합 명사 전문용어는 사전에 등재하지 않도록 하여 분석 사전의 크기를 축소 할 수 있도록 하되, 이로 인해 발생되는 분석 모호성을 없애기 위하여 복합 명사 전문용어를 실제 문장에 발생 가능한 형태의 문맥을 생성하여 이를 형태소 재분석 하여, 분석 결과가 일반 명사가 아닌 타 품사로 분석 되는 경우에는 복합 명사 전체를 사전에 등록하여 명사 전문용어 분석의 모호성을 없애도록 하고, 그렇지 않은 경우 필터링 하여 사전에 등록하지 않도록 판단할 수 있는 방법 및 그 장치, 그리고 상기 방법을 실현시키기 위한 프로그램을 기록한 기록매체를 제공하는데 있다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 복합 명사 전문용어 사 전 엔트리의 재분석 방법은 전문용어 사전에서 단일 명사 전문용어와 복합 명사 전문용어를 분리하는 단계; 상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 생성하는 단계; 상기 단일명사 전문용어와 형태소 분석 기본 사전을 기초로 상기 부분문장의 형태소를 분석하는 단계; 및 상기 분석결과 상기 부분생성된 문장이 단일 명사 이외의 품사로 해석될 가능성의 유무로 상기 복합 명사의 등록 여부를 결정하는 단계;를 포함하는 것을 특징으로 한다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 장치는 전문용어를 수신하여 명사간의 띄어쓰기의 존재 유무를 기준으로하여 단일 명사 전문용어와 복합 명사 전문용어로 분리하여 출력하는 단일/복합명사분리부; 상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 출력하는 부분문장생성부; 상기 단일/복합명사분리부가 출력하는 단일명사 전문용어와 형태소 분석 기본 사전으로부터 형태소 분석자료를 입력받아 부분문장의 형태소를 분석하는 형태소분석부; 및 상기 형태소분석부의 분석결과를 입력받아 상기 부분문장으로 변환된 복합 명사 전문용어가 명사이외의 품사로 해석될 분석모호성이 있는지 판단하여 상기 분석모호성이 있으면 상기 복합 명사 전체를 분석 사전에의 등록을 결정하고, 상기 분석모호성이 없이 단일 명사로 분석되거나 상기 부분문장이 비문이 되면 상기 분석 사전에의 등록을 배제하는 등록결정부;를 포함하는 것을 특징으로 한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람 직한 일실시 예를 상세히 설명한다.
먼저, 본 발명에서 사용되는 용어를 정의하면 다음과 같다. 형태소 분석 장치에서 복합 명사라 함은 '통신+전송+시스템'과 같은 형태로 단위가 되는 단일 명사들의 모음으로 전체가 하나의 명사의 역할을 해내는 독립 품사를 복합 명사라 한다. 한국어 분석에서 전문용어라 함은 전문분야의 개념을 언어적으로 표현된 형태를 말하며, 품사적으로 명사가 90% 이상을 차지한다.
한국어를 원문으로 하는 형태소 분석 장치라 함은 한국어 문장을 입력 문장으로 하여 문장의 단어에 대해 통사적인 어휘와 품사 표지를 부여하기 위한 장치를 말한.
한국어 형태소 분석 장치에서 분석 사전이라 함은, 형태소 분석을 위해 분석 단위가 되는, 통사적 구분이 된 어휘 표제어와 표제어의 품사 정보를 갖는 엔트리들을 모은 사전을 뜻한다.
이하 본 발명의 실시 예에서는 형태소 분석 사전 엔트리 결정을 위해 복합 명사 전문용어를 포함한 전문용어 사전을 입력으로 하여 동작하는 복합명사 전문용어 재분석 방법 및 그 장치를 일례로 들어 설명하기로 한다. 또한 설명의 편의를 위하여 장치와 방법의 흐름을 같이 설명하도록 한다.
도 1 은 본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법의 과정을 보여주는 흐름도이고, 도 3은 복합 명사 전문용어 사전 엔트리의 재분석 장치의 구성을 보여주는 블럭도이다.
먼저, 단일/복합명사분리부(320)는 대용량 규모의 전문용어 사전(310)으로부 터 전문용어 표제어를 입력받아, 표제어의 띄어쓰기 형태를 파악하여 단일 명사와 복합 명사 형태를 구분하고, 이에 따라 단일 명사 전문용어와 복합 명사 전문용어를 분리해 낸다(S110단계). 단일/복합명사분리부(310)가 출력하는 분리된 복합 명사 전문용어 표제어들을 입력받는 부분문장생성부(330)은 문장에서 발생되었을 때 분석 모호성이 발생되는 지를 검증하기 위하여 의존명사, 일반명사, 어미, 조사를 임의로 부착하여 부분 문장의 형태로 생성시킨다. 이것은 표제어의 앞뒤에 임의 품사를 가지는 어휘를 부착한 부분 문장을 생성하는 것을 의미한다(S120단계).
형태소분석부(340)는 이렇게 만들어진 복합 명사 전문용어 부분 문장을 전문용어 단일/복합명사추출부(320)에서 분리해 낸 단일 명사 전문용어와 일반 분야를 대상으로 구축된 기본 형태소 분석 사전(350)을 사용하여 형태소 재분석을 수행하여 분석 후보자들을 생성하게 된다. 분석 후보자들은 아래의 수학식 1에 의해 가중치를 할당 받아 그 중에서 가중치가 가장 높은 후보자를 최우선 후보자로 선정된다.
Figure 112005008860135-PAT00001
여기서, T(W1,n)는 n개의 단어 W로 이루어진 문장의 품사 태깅 가중치이고,
P(Ti|Ti-1)는 i-1번째 단어의 품사 Ti-1에 대한 i번째 단어의 품사 Ti의 확률이며,
P(Wi|Ti, Ti-1)는 Ti와 Ti-1에 대한 Wi의 확률이다.
이렇게 선정된 후보자가 단일 명사로만 구성되어 있는지를 판단(S140단계)하여 단일 명사가 아닌 타품사로 분석될 수 있는 가능성이 있는 분석 모호성을 갖는 복합 명사 전문용어는 모호성 해소를 위해 분석 사전에 등록되기 위해 분류되고(S150단계), 순수한 단일 명사로 분석되어 모호성이 없는 경우에는 분석 사전에 등록되지 않고 삭제되도록 판단된다(S160단계). 결국 이렇게 재분석 필터링 과정에 의해 사전에 등록이 필요한 엔트리는 분석 사전에 등재가 필요했던 대용량 전문용어 사전의 엔트리에서 실제 분석 사전에 등재가 되는 엔트리 수를 감소시키게 된다.
도 2를 참조하면서 실제 복합 명사 전문용어의 예를 보면서 보다 구체적으로 설명하도록 한다. 도 2는 본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법을 구체적 예를 보여주는 도면이다.
대용량 전문용어 사전의 엔트리(210)는 사전에 등록되기 위한 전문용어 표제어의 형태로서 일례로 띄어쓰기는 '_' 기호를 사용하여 표기되며, 도 3에서 제시된 단일/복합명사분리부(320)의 입력이 된다. 단일/복합명사분리부(320)는 이러한 띄어쓰기 기호를 이용하여 단일 명사 전문용어를 추출하고, 이와 분리하여 추출된 복합 명사 전문용어 표제어(220)를 생성한다.
이렇게 추출된 복합 명사 전문용어는 부분문장생성부(330)에 의해 임의적으로 명사("사람"), 조사나 관형격 어미("는")등을 붙여 부분 문장으로 생성된 표제어(230)를 얻는다. 부분 문장 형태의 복합 명사 전문용어는 형태소분석부(340)에 의해 형태소 분석이 수행되어 형태소 재분석 결과(240)를 얻게 된다. 이 경우 "공급_피드_판"의 경우 "팔다"라는 동사와 "는"이라는 관형격 어미로 분석이 가능하게 되므로 분석 모호성을 가지고 있음을 알수 있으며, 따라서 "공급_피드_판"은 단일 명사 이외의 품사로 분석될 수 있는 모호성을 제거하기 위해 분석 사전에 "공급_피드_판"의 형태 전체로 엔트리를 등록한다. "누적_위상_차" 역시 분석 모호성을 가지고 있으므로 동일하게 등록되는 엔트리의 대상이 된다. 반명, "비복귀_기록"과 "광전송_시스템"은 부분 생성된 문장에서도 모두 단일 명사로 분석 되거나, 분석이 안되는 비문이 생성된 경우이므로 분석 모호성이 발생하지 않음을 알 수 있으므로 분석 사전에 등재할 필요가 없도록 삭제된다. 따라서, 이렇게 재분석 필터링 되어 사전 등록이 필요한 엔트리(250)는 최초 사전 등재를 대상으로 하는 엔트리에서 "비복귀_기록"과 "광전송_시스템"을 제외한 2개 엔트리로 축소 된다.
본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상기에서 설명한 바와 같이 본 발명에 의한 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치에 의하면, 형태소 분석 사전에 등재가 요구되는 복합 명사 전문용어 엔트리를 재분석하여 복합 명사 전문용어 삭제에 따른 분석 모호성 발생을 판단하고, 이에 따른 분석 사전 등재 대상 전문용어 엔트리를 선정하여 대용량 전문용어에 의해 크기가 커지는 분석 사전의 크기를 효과적으로 축소하면서 분석 정확률은 유지할 수 있는 시스템 효율성을 향상시키는 효과를 가져올 수 있다.

Claims (10)

  1. (a) 전문용어 사전에서 단일 명사 전문용어와 복합 명사 전문용어를 분리하는 단계;
    (b) 상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 생성하는 단계;
    (c) 상기 단일명사 전문용어와 형태소 분석 기본 사전을 기초로 상기 부분문장의 형태소를 분석하는 단계; 및
    (d) 상기 (c)단계의 분석결과 상기 부분생성된 문장이 단일 명사 이외의 품사로 해석될 가능성의 유무로 상기 복합 명사의 등록 여부를 결정하는 단계;를 포함하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 방법.
  2. 제1항에 있어서, 상기 (a)단계는
    상기 단일 명사 전문용어와 복합 명사 전문용어를 상기 전문용어들을 형성하는 적어도 하나 이상의 명사 사이의 띄어쓰기로 구분하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 방법.
  3. 제1항에 있어서, 상기 (b)단계는
    상기 소정의 품사는 의존명사, 어미, 조사로 하여 상기 부분문장을 생성하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 방법.
  4. 제1항에 있어서, 상기 (c)단계는
    (c1) 상기 형태소 분석 결과 적어도 하나 이상의 분석후보자들을 생성하는 단계; 및
    (c2) 상기 분석후보자들중에서 소정의 가중치가 가장 높은 것을 최적 후보자 로 선정하는 단계;를 포함하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 방법.
  5. 제4항에 있어서, 상기 가중치는
    아래의 수학식 2에 의하여 구하여지는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 방법.
    Figure 112005008860135-PAT00002
    여기서, T(W1,n): n개의 단어 W로 이루어진 문장의 품사 태깅 가중치이고,
    P(Ti|Ti-1): i-1번째 단어의 품사 Ti-1에 대한 i번째 단어의 품사 Ti의 확률이며,
    P(Wi|Ti, Ti-1): Ti와 Ti-1에 대한 Wi의 확률이다.
  6. 제1항에 있어서, 상기 (d)단계는
    (d1) 상기 (c)단계의 분석결과 상기 부분문장으로 변환된 복합 명사 전문용어가 명사이외의 품사로 해석될 분석모호성이 있는지 판단하는 단계;
    (d2) 상기 (d1)단계의 판단 결과 상기 분석모호성이 있으면 상기 복합 명사 전체를 분석 사전에 등록하는 단계; 및
    (d3) 상기 분석모호성이 없이 단일 명사로 분석되거나 상기 부분문장이 비문이 되면 상기 분석 사전에의 등록을 배제하는 단계;를 포함하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 방법.
  7. 전문용어를 수신하여 명사간의 띄어쓰기의 존재 유무를 기준으로하여 단일 명사 전문용어와 복합 명사 전문용어로 분리하여 출력하는 단일/복합명사분리부;
    상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 출력하는 부분문장생성부;
    상기 단일/복합명사분리부가 출력하는 단일명사 전문용어와 형태소 분석 기본 사전으로부터 형태소 분석자료를 입력받아 부분문장의 형태소를 분석하는 형태소분석부; 및
    상기 형태소분석부의 분석결과를 입력받아 상기 부분문장으로 변환된 복합 명사 전문용어가 명사이외의 품사로 해석될 분석모호성이 있는지 판단하여 상기 분석모호성이 있으면 상기 복합 명사 전체를 분석 사전에의 등록을 결정하고, 상기 분석모호성이 없이 단일 명사로 분석되거나 상기 부분문장이 비문이 되면 상기 분석 사전에의 등록을 배제하는 등록결정부;를 포함하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 장치.
  8. 제7항에 있어서, 상기 부분문장생성부는
    상기 복합명사 전문용어에 의존명사, 일반명사, 어미, 조사를 포함하는 품사 를 가지는 단어를 무작위로 부착시켜 상기 부분문장을 출력하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 장치.
  9. 제7항에 있어서, 상기 형태소분석부는
    형태소 분석 결과 적어도 하나 이상의 분석후보자들을 생성하여 소정의 가중치가 가장 높은 것을 최적 후보자로 선정하는 것을 특징으로 하는 복합 명사 전문용어 엔트리 재분석 장치.
  10. (a) 전문용어 사전에서 단일 명사 전문용어와 복합 명사 전문용어를 분리하는 단계;
    (b) 상기 복합 명사 전문용어에 소정의 품사를 가지는 단어를 부착하여 부분 문장을 생성하는 단계;
    (c) 상기 단일명사 전문용어와 형태소 분석 기본 사전을 기초로 상기 부분문장의 형태소를 분석하는 단계; 및
    (d) 상기 (c)단계의 분석결과 상기 부분생성된 문장이 단일 명사 이외의 품사로 해석될 가능성의 유무로 상기 복합 명사의 등록 여부를 결정하는 단계;를 포함하는 것을 특징으로 하는 복합 명사 전문용어 사전 엔트리의 재분석 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020050013906A 2004-12-15 2005-02-19 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치 KR100617317B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20040106497 2004-12-15
KR1020040106497 2004-12-15

Publications (2)

Publication Number Publication Date
KR20060067785A true KR20060067785A (ko) 2006-06-20
KR100617317B1 KR100617317B1 (ko) 2006-08-30

Family

ID=37162305

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050013906A KR100617317B1 (ko) 2004-12-15 2005-02-19 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR100617317B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792203B1 (ko) * 2005-12-07 2008-01-08 한국전자통신연구원 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
KR100858035B1 (ko) * 2007-03-13 2008-09-10 서승현 형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원해석 사전 구축 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230059401A (ko) 2021-10-26 2023-05-03 삼성에스디에스 주식회사 복합 명사 사전 구성 방법 및 그에 기반한 복합 명사 추출 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039406A (ko) * 1998-12-12 2000-07-05 이계철 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법
JP2001125898A (ja) 1999-11-01 2001-05-11 Cai Kk 言語解析処理の方法、システム
KR100481579B1 (ko) * 2002-11-13 2005-04-08 한국전자통신연구원 정보추출을 위한 이벤트 문장의 단문 구조 분석 장치 및그 방법
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792203B1 (ko) * 2005-12-07 2008-01-08 한국전자통신연구원 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
KR100858035B1 (ko) * 2007-03-13 2008-09-10 서승현 형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원해석 사전 구축 장치

Also Published As

Publication number Publication date
KR100617317B1 (ko) 2006-08-30

Similar Documents

Publication Publication Date Title
KR100734741B1 (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US6922809B2 (en) Method and apparatus providing capitalization recovery for text
Lita et al. Truecasing
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US8589370B2 (en) Acronym extraction
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
KR20070115400A (ko) 데이터 요약 생성 방법 및 장치
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
KR20030039575A (ko) 문서 요약 방법 및 시스템
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
JP2536633B2 (ja) 複合語抽出装置
Marcińczuk et al. Statistical proper name recognition in Polish economic texts
KR100886687B1 (ko) 중국어 미등록어 자동 추출 방법 및 장치
KR19990042430A (ko) 문장의 구조정보를 이용한 명사구 추출장치 및 그 방법
Grishman Information extraction and speech recognition
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR101092355B1 (ko) 대용어 복원 방법
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee