KR20010057781A - 다중어 형태소 분석장치 및 그 방법 - Google Patents

다중어 형태소 분석장치 및 그 방법 Download PDF

Info

Publication number
KR20010057781A
KR20010057781A KR1019990061188A KR19990061188A KR20010057781A KR 20010057781 A KR20010057781 A KR 20010057781A KR 1019990061188 A KR1019990061188 A KR 1019990061188A KR 19990061188 A KR19990061188 A KR 19990061188A KR 20010057781 A KR20010057781 A KR 20010057781A
Authority
KR
South Korea
Prior art keywords
analysis
morpheme
word
information
words
Prior art date
Application number
KR1019990061188A
Other languages
English (en)
Inventor
서광준
김태완
심철민
최승권
여상화
김영길
정한민
서영애
박상규
박세영
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1019990061188A priority Critical patent/KR20010057781A/ko
Publication of KR20010057781A publication Critical patent/KR20010057781A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 다중어 형태소 분석장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 다중어 형태소를 일반 형태소처럼 사전에 등록하고, 분석시에는 다수의 어절을 결합하여 접속기반 형태소 분석에 의해 다중어 형태소를 인식할 수 있는 다중어 형태소 분석장치 및 그 방법을 제공하기 위하여, 입력된 문장의 첫 어절을 분석 시작점으로 설정하고, 분석할 최대 어절의 개수를 설정하는 제 1 단계; 기 저장되어 있는 연결정보를 참조하여 상기 분석 시작점부터 어절을 연결하고, 결합된 문자열에 대하여 형태소 분석을 수행하는 제 2 단계; 상기 형태소 분석이 성공하였는가를 판단하는 제 3 단계; 상기 제 3 단계의 판단결과, 형태소 분석이 성공하였으면, 상기 분석 시작점을 상기 결합되어 분석된 문자열의 다음에 나타나는 어절로 설정하고, 다음 어절을 분석 시작점으로 설정한 후에, 상기 제 1 단계의 어절 개수 설정과정부터 반복 수행하는 제 4 단계; 및 상기 제 3 단계의 판단결과, 형태소 분석이 성공하지 못했으면, 어절의 개수를 하나 감소시키고 상기 제 2 단계부터 반복 수행하는 제 5 단계를 포함하며, 언어번역 시스템 등에 이용됨.

Description

다중어 형태소 분석장치 및 그 방법{APPARATUS FOR ANALYSING MULTI-WORD MORPHEME AND METHOD USING THE SAME}
본 발명은 다중어 형태소 분석장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로, 형태소는 일정한 음성에 일정한 뜻이 결합되어 있는 말의 가장 작은 단위, 즉 최소의 유의적 단위(minimum meaningful unit)라고 정의된다.
다중어 형태소(multi-word morpheme)는 인명인 "홍 길동"과 진행의 양상을 나타내는 어미 "고 있"처럼 여러 어절에 걸쳐 나타나지만, 하나의 형태소로 취급되어야 할 것들을 의미한다.
종래의 다중어 형태소 분석방법은, 한 어절내의 분석을 목적으로 개발되었으므로, 다수의 어절에 걸친 다중어 형태소를 인식하지 못한다. 따라서, 다중어 형태소를 구문 분석단계 또는 구문분석의 독립적인 전 단계에서 처리한다.
그러나, 상기한 바와 같은 종래의 다중어 형태소 분석방법은, 다중어 형태소를 처리하기 위한 구문 단위의 개수가 많아져 구분 분석시에 소요되는 메모리 및 시간의 낭비가 많고, 형태소 분석결과를 접속하여 다시 형태소 분석과 같은 과정을 수행해야 하므로 중복수행에 따른 작업의 능률이 저하되는 문제가 있다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 다중어 형태소를 일반 형태소처럼 사전에 등록하고, 분석시에는 다수의 어절을 결합하여 접속기반 형태소 분석에 의해 다중어 형태소를 인식할 수 있는 다중어 형태소분석장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 다중어 형태소 분석장치의 일실시예 구성도.
도 2 는 본 발명에 따른 다중어 형태소 분석방법에 대한 일실시예 처리 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
100 : 다중어 형태소 분석장치 101 : 분석 제어부
102 : 연결사전 103 : 어휘사전
104 : 접속규칙 110 : 형태소 분석기
111 : 형태소 분석부 112 : 형태 분석부
113 : 오류 처리부 114 : 형태 복원부
115 : 코드 변환부
상기 목적을 달성하기 위한 본 발명의 장치는, 다수의 어절을 결합하여 다중어 형태소를 분석하기 위한 다중어 형태소 분석장치에 있어서, 분석할 어절들을 결정하기 위한 정보를 저장하고 분석시에 상기 정보를 제공하는 연결정보 저장수단; 외부로부터 입력문장을 입력받아 상기 연결정보 저장수단을 참조하여 어절들을 연결하여 전송하는 분석 제어수단; 단일 및 다중 형태소를 표제어로 하며 형태소 분석과 번역에 필요한 정보를 저장하는 어휘정보 저장수단; 형태소의 접속 유형을 분류하여 접속범주를 설정하고 그 범주들 사이의 접속 가능성을 기술한 접속규칙 저장수단; 및 상기 분석 제어수단으로부터 연결정보 저장수단의 정보로 연결된 어절들을 수신하여, 상기 어절들을 결합하고, 상기 어휘 정보 저장수단을 참조하여 다중어 형태소를 분석하는 형태소 분석수단을 포함한다.
한편, 본 발명의 방법은, 다중어 형태소 분석장치에 적용되는 다중어 형태소 분석방법에 있어서, 입력된 문장의 첫 어절을 분석 시작점으로 설정하고, 분석할 최대 어절의 개수를 설정하는 제 1 단계; 기 저장되어 있는 연결정보를 참조하여 상기 분석 시작점부터 어절을 연결하고, 결합된 문자열에 대하여 형태소 분석을 수행하는 제 2 단계; 상기 형태소 분석이 성공하였는가를 판단하는 제 3 단계; 상기 제 3 단계의 판단결과, 형태소 분석이 성공하였으면, 상기 분석 시작점을 상기 결합되어 분석된 문자열의 다음에 나타나는 어절로 설정하고, 다음 어절을 분석 시작점으로 설정한 후에, 상기 제 1 단계의 어절 개수 설정과정부터 반복 수행하는 제 4 단계; 및 상기 제 3 단계의 판단결과, 형태소 분석이 성공하지 못했으면, 어절의 개수를 하나 감소시키고 상기 제 2 단계부터 반복 수행하는 제 5 단계를 포함한다.
또한, 본 발명은, 마이크로 프로세서를 구비한 다중어 형태소 분석장치에 있어서, 입력된 문장의 첫 어절을 분석 시작점으로 설정하고, 분석할 최대 어절의 개수를 설정하는 제 1 기능; 기 저장되어 있는 연결정보를 참조하여 상기 분석 시작점부터 어절을 연결하고, 결합된 문자열에 대하여 형태소 분석을 수행하는 제 2 기능; 상기 형태소 분석이 성공하였는가를 판단하는 제 3 기능; 상기 제 3 기능의 판단결과, 형태소 분석이 성공하였으면, 상기 분석 시작점을 상기 결합되어 분석된 문자열의 다음에 나타나는 어절로 설정하고, 다음 어절을 분석 시작점으로 설정한 후에, 상기 제 1 기능의 어절 개수 설정기능부터 반복 수행하는 제 4 기능; 및 상기 제 3 기능의 판단결과, 형태소 분석이 성공하지 못했으면, 어절의 개수를 하나 감소시키고 상기 제 2 기능부터 반복 수행하는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 다중어 형태소 분석장치의 일실시예 구성도이다.
도면에 도시된 바와 같이, 본 발명에 따른 다중어 형태소 분석장치는, 외부로부터 입력문장을 입력받아 분석할 어절들을 결정하기 위한 정보를 저장하고 있는 연결사전(102)을 참조하여 어절들을 연결하여 전송하는 분석제어부(101)와, 단일 및 다중 형태소를 표제어로 하며 형태소 분석과 번역에 필요한 정보를 저장하는 어휘사전(103)과, 형태소의 접속 유형을 분류하여 접속범주를 설정하고 그 범주들 사이의 접속 가능성을 기술한 접속규칙(104) 및 상기 연결사전(102)의 정보로 연결된 어절들을 결합하여 상기 어휘사전(103)를 참조하여 다중어 형태소를 분석하는 형태소 분석기(110)를 포함한다.
여기서, 상기 형태소 분석기(11)는, 상기 분석제어부(101)로부터 연결된 어절을 수신하여 결합하고, 오류처리, 형태분석 및 형태복원과정을 거쳐 형태소 분석을 수행하는 형태소 분석부(111)와, 상기 결합된 어절의 형태소 품사의 형태를 분석하는 형태 분석부(112)와, 상기 결합된 어절의 미등록어 및 띄어쓰기 오류를 처리하는 오류 처리부(113)와, 상기 결합된 어절의 용언류의 원형 또는 기능어류의 대표형으로 형태를 복원하는 형태 복원부(114) 및 형태 분석부(112), 오류 처리부(113) 및 형태 복원부(114)의 내부처리를 위하여 2바이트 완성형 코드와 3바이트 조합형 코드를 상호 변환하는 코드 변환부(115)를 포함한다.
상기 어휘사전(103)의 형태소 분석에 사용되는 정보는, 한 형태소의 좌우에 연결될 수 있는 형태소의 범주에 관한 정보이며, 번역에 사용되는 정보로는 대역어를 포함하여 번역에 필요한 다양한 정보를 포함한다.
하나의 형태소는 구문/의미적인 모호성(ambiguity)을 가질 수 있기 때문에 여러 개의 다른 사전정보를 가질 수 있다. 이러한 모호성을 고려하여 하나의 형태소 표제어가 갖는 정보의 형식은 품사 및 다양한 분석정보를 포함하는 정보코드 하나와 상기 정보코드가 사용된 빈도, 그리고 번역에 필요한 다수의 정보들을 기술한다. 즉, 표제어 코드1 빈도1[번역정보1] ... 코드n 빈도n[번역정보n]의 형식으로 기술된다.
또한, 형태소에 빈 공간이 나타날 수 있는 다중어 형태소를 상기 어휘사전(103)에 등록할 때, 표제어에는 빈 공간을 "_"로 대치해서 기술한다. 즉, "고 있"을 등록할 때에는 "고_있"을 표제어로 기술한다.
상기 정보코드는 4비트(16진수)의 6자리로 구성되며, 한 형태소의 좌우에 이어질 수 있는 형태소의 범주에 관한 정보와 세분된 품사정보를 기술한다. 사전 작성시에는 도구를 사용하여 계층화된 문자열 형태로 작성하며, 그 구조는 다음과 같다.
상기 정보코드 "AB"의 2자리는 품사코드라 명명되고, 형태소 표제어의 품사를 표기한다.
상기 정보코드 "ABCD"의 4자리는 좌정보코드라고 명명되고, "CD"는 형태소의 앞에 나타날 수 있는 형태소에 따라 분류된 범주정보를 기술한다.
상기 정보코드 "ABEF"의 4자리는 우정보코드라고 명명되고, "EF"는 형태소 뒤에 나타날 수 있는 형태소에 따라 분류된 범주정보를 기술한다.
그러면, 하기의 「표1」을 참조하여 사전 정보코드를 설명하기로 한다.
형태소 개수 정보코드
귀하 2 121021 702971
3 122023 612931 a10012
2 410111 6149b1
상기「표1」에 기술된 각 사전 정보코드가 의미하는 내용은,
"귀하"
120021 : 보통명사(12), '하다'형 불가(2), 무종성(1)
700071 : 형용사(70), 'ㅎ'규칙형(71)
"불"
120023 : 보통명사(12), '하다'형 불가(2), 'ㄹ'종성(3)
610031 : 자동사(61), 'ㄹ'규칙 어간(31)
a10012 : 접두사(a1), 한자형(12)
"가"
410111 : 용언격 조사(41), 앞 무종성(01), 주격(1), 대표조사(1)
6100b1 : 자동사(61), '거라' 규칙형(b1)과 같다.
상기 접속규칙(104)에서, 좌우접속정보란, 형태소의 접속유형을 분류하여 접속범주를 설정하고, 그 범주들 사이의 접속가능성을 기술한 것이다. 상기 좌우접속정보는 다수의 접속규칙으로 구성되며, 상기 접속규칙은 하나의 좌접속코드에 접속가능한 우접속코드들의 리스트로 구성된다. 여기서, 접속규칙이 표현하는 의미는,접속규칙의 좌접속코드를 갖는 형태소의 바로 앞에는 기술된 우접속코드를 갖는 형태소들만이 붙을 수 있다는 것을 의미한다.
그러면, 하기의 「표2」을 참조하여 접속규칙을 설명하기로 한다.
좌접속코드 우접속코드
4001 1001 2001 9302 a201
상기의 「표2」에서, 좌접속코드 '4001'은 무종성형 격조사를 의미하고, 우접속코드의 '1001'은 무종성 명사류이다. 상기 「표2」에서 무종성형 명사를 기술하는 방법으로, 모든 명사 코드를 나열하는 것이 아니라, 간단하게 '1001'로 기술할 수 있다.
상기 연결사전(102)은, 다중 형태소 인식을 위해 연이어 나타나는 어절들 중에 연결하여 분석할 어절들을 결정하는데 사용된다. 상기 연결사전(102)의 표제어는 연결할 수 있는 앞 어절의 끝 음절과 뒤 어절의 첫 음절이 "_"로 연결된 형태이다. 예를 들어, 상기 연결사전(102)에 "고_있"이 기술되어 있다면, "그것을 생각하고 있다."라는 분석대상 문장에서는 "생각하고 있다"가 다중어 형태소를 분석하기 위한 대상으로 "생각하+고_있+다"로 분석되고, 다중어 형태소인 "고_있"을 인식하게 된다.
이제, 첨부된 도 2 를 참조하여 본 발명에 따른 다중어 형태소 분석방법에 대해 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 다중어 형태소 분석방법에 대한 일실시예 처리 흐름도이다.
먼저, 입력된 문장의 첫 어절을 분석 시작점으로 설정하고(200), 분석할 최대 어절의 개수를 설정한다(202).
다음으로, 연결사전(102)을 참조하여 상기 분석 시작점부터 어절을 연결하고(204), 결합된 문자열에 대하여 형태소 분석을 수행한 후(206), 상기 형태소 분석이 성공하였는가를 판단한다(208).
상기 판단결과(208), 형태소 분석이 성공하였으면, 상기 분석 시작점을 상기 결합되어 분석된 문자열의 다음에 나타나는 어절로 설정하고(210), 분석 시작점이 없는가를 확인하여 다음 어절을 분석 시작점으로 설정한 후(212), 상기 상기 분석 시작점부터 어절을 연결하는 과정(204)을 수행한다.
상기 판단결과(208), 형태소 분석이 성공하지 못했으면, 어절의 개수를 하나 감소시키고(212), 상기 분석할 최대 어절의 개수를 설정하는 과정(202)을 수행한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은, 다중어 형태소를 일반 형태소처럼 사전에 등록하고, 분석시에는 다수의 어절을 결합하여 접속기반 형태소 분석에 의해 다중어 형태소를 인식함으로써, 문장단위 자연언어 처리 및 기계번역의 효율을 현저하게 높일 수 있는 효과가 있다.

Claims (7)

  1. 다수의 어절을 결합하여 다중어 형태소를 분석하기 위한 다중어 형태소 분석장치에 있어서,
    분석할 어절들을 결정하기 위한 정보를 저장하고 분석시에 상기 정보를 제공하는 연결정보 저장수단;
    외부로부터 입력문장을 입력받아 상기 연결정보 저장수단을 참조하여 어절들을 연결하여 전송하는 분석 제어수단;
    단일 및 다중 형태소를 표제어로 하며 형태소 분석과 번역에 필요한 정보를 저장하는 어휘정보 저장수단;
    형태소의 접속 유형을 분류하여 접속범주를 설정하고 그 범주들 사이의 접속 가능성을 기술한 접속규칙 저장수단; 및
    상기 분석 제어수단으로부터 연결정보 저장수단의 정보로 연결된 어절들을 수신하여, 상기 어절들을 결합하고, 상기 어휘 정보 저장수단을 참조하여 다중어 형태소를 분석하는 형태소 분석수단
    을 포함하는 다중어 형태소 분석장치.
  2. 제 1 항에 있어서,
    상기 형태소 분석수단은,
    상기 분석 제어수단으로부터 연결된 어절을 수신하여 결합하고, 오류처리, 형태분석 및 형태복원과정을 거쳐 형태소 분석을 수행하는 형태소 분석수단;
    상기 결합된 어절의 형태소 품사의 형태를 분석하는 형태적 분석수단;
    상기 결합된 어절의 미등록어 및 띄어쓰기 오류를 처리하는 오류 처리수단;
    상기 결합된 어절의 용언류의 원형 또는 기능어류의 대표형으로 형태를 복원하는 형태 복원수단; 및
    상기 형태 분석수단, 오류 처리수단 및 형태 복원수단의 내부처리를 위하여 코드를 상호 변환하는 코드 변환수단을 포함하는 다중어 형태소 분석장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 어휘정보 저장수단은,
    품사 및 다양한 분석정보를 포함하는 정보코드, 상기 정보코드가 사용된 빈도 및 번역정보를 포함하는 것을 특징으로 하는 다중어 형태소 분석장치
  4. 제 3 항에 있어서,
    상기 정보코드는,
    형태소 표제어의 품사를 표기하는 품사코드, 형태소의 앞에 나타날 수 있는 형태소에 따라 분류된 범주정보를 기술하는 좌정보코드 및 형태소 뒤에 나타날 수있는 형태소에 따라 분류된 범주정보를 기술하는 우정보코드를 포함하는 것을 특징으로 하는 다중어 형태소 분석장치.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 접속규칙 저장수단은,
    형태소의 접속유형을 분류하여 접속범주를 설정하고, 그 범주들 사이의 접속가능성을 기술하는 좌우접속정보를 포함하는 것을 특징으로 하는 다중어 형태소 분석장치.
  6. 다중어 형태소 분석장치에 적용되는 다중어 형태소 분석방법에 있어서,
    입력된 문장의 첫 어절을 분석 시작점으로 설정하고, 분석할 최대 어절의 개수를 설정하는 제 1 단계;
    기 저장되어 있는 연결정보를 참조하여 상기 분석 시작점부터 어절을 연결하고, 결합된 문자열에 대하여 형태소 분석을 수행하는 제 2 단계;
    상기 형태소 분석이 성공하였는가를 판단하는 제 3 단계;
    상기 제 3 단계의 판단결과, 형태소 분석이 성공하였으면, 상기 분석 시작점을 상기 결합되어 분석된 문자열의 다음에 나타나는 어절로 설정하고, 다음 어절을 분석 시작점으로 설정한 후에, 상기 제 1 단계의 어절 개수 설정과정부터 반복 수행하는 제 4 단계; 및
    상기 제 3 단계의 판단결과, 형태소 분석이 성공하지 못했으면, 어절의 개수를 하나 감소시키고 상기 제 2 단계부터 반복 수행하는 제 5 단계
    를 포함하는 다중어 형태소 분석방법.
  7. 마이크로 프로세서를 구비한 다중어 형태소 분석장치에 있어서,
    입력된 문장의 첫 어절을 분석 시작점으로 설정하고, 분석할 최대 어절의 개수를 설정하는 제 1 기능;
    기 저장되어 있는 연결정보를 참조하여 상기 분석 시작점부터 어절을 연결하고, 결합된 문자열에 대하여 형태소 분석을 수행하는 제 2 기능;
    상기 형태소 분석이 성공하였는가를 판단하는 제 3 기능;
    상기 제 3 기능의 판단결과, 형태소 분석이 성공하였으면, 상기 분석 시작점을 상기 결합되어 분석된 문자열의 다음에 나타나는 어절로 설정하고, 다음 어절을 분석 시작점으로 설정한 후에, 상기 제 1 기능의 어절 개수 설정기능부터 반복 수행하는 제 4 기능; 및
    상기 제 3 기능의 판단결과, 형태소 분석이 성공하지 못했으면, 어절의 개수를 하나 감소시키고 상기 제 2 기능부터 반복 수행하는 제 5 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990061188A 1999-12-23 1999-12-23 다중어 형태소 분석장치 및 그 방법 KR20010057781A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990061188A KR20010057781A (ko) 1999-12-23 1999-12-23 다중어 형태소 분석장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990061188A KR20010057781A (ko) 1999-12-23 1999-12-23 다중어 형태소 분석장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20010057781A true KR20010057781A (ko) 2001-07-05

Family

ID=19628839

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990061188A KR20010057781A (ko) 1999-12-23 1999-12-23 다중어 형태소 분석장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20010057781A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
KR100834549B1 (ko) * 2006-10-19 2008-06-02 한국전자통신연구원 번역 시스템 및 번역 서비스 제공방법
KR20200082559A (ko) * 2018-12-31 2020-07-08 경희대학교 산학협력단 한글 형태소 분석 장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
KR100834549B1 (ko) * 2006-10-19 2008-06-02 한국전자통신연구원 번역 시스템 및 번역 서비스 제공방법
US7921018B2 (en) 2006-10-19 2011-04-05 Electronics And Telecommunications Research Institute Translation system and method of providing translation service
KR20200082559A (ko) * 2018-12-31 2020-07-08 경희대학교 산학협력단 한글 형태소 분석 장치 및 방법

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7937263B2 (en) System and method for tokenization of text using classifier models
KR100542755B1 (ko) 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
US5680628A (en) Method and apparatus for automated search and retrieval process
US6965857B1 (en) Method and apparatus for deriving information from written text
US6862566B2 (en) Method and apparatus for converting an expression using key words
KR101099177B1 (ko) 기계 번역기를 훈련하기 위한 방법 및 시스템
JPS6299865A (ja) 自然言語の共起関係辞書保守方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPS62121569A (ja) 原文中の成句置換方法
KR20030094632A (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
KR20040086775A (ko) 단어 분석 시스템 및 방법
Akkerman et al. Designing a computerized lexicon for linguistic purposes
KR20010057781A (ko) 다중어 형태소 분석장치 및 그 방법
JPS5892063A (ja) イデイオム処理方式
KR19990042430A (ko) 문장의 구조정보를 이용한 명사구 추출장치 및 그 방법
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2897942B2 (ja) 日本語形態素解析システム及び形態素解析方式
Nasr et al. Integrating a POS tagger and a chunker implemented as weighted finite state machines
JPH09160920A (ja) 機械翻訳装置
JPS6389975A (ja) 言語解析装置
JPH02208775A (ja) 機械翻訳方式
JP2009009583A (ja) 構文パースを用いてセグメント化されていないテキストをセグメント化する方法
JPH10105552A (ja) 機械翻訳システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application