KR100283100B1 - 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법 - Google Patents

대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법 Download PDF

Info

Publication number
KR100283100B1
KR100283100B1 KR1019980052941A KR19980052941A KR100283100B1 KR 100283100 B1 KR100283100 B1 KR 100283100B1 KR 1019980052941 A KR1019980052941 A KR 1019980052941A KR 19980052941 A KR19980052941 A KR 19980052941A KR 100283100 B1 KR100283100 B1 KR 100283100B1
Authority
KR
South Korea
Prior art keywords
corpus
pointer table
usage
entry
extracting
Prior art date
Application number
KR1019980052941A
Other languages
English (en)
Other versions
KR20000038079A (ko
Inventor
정한민
김태완
심철민
최승권
여상화
김영길
박상규
박세영
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980052941A priority Critical patent/KR100283100B1/ko
Publication of KR20000038079A publication Critical patent/KR20000038079A/ko
Application granted granted Critical
Publication of KR100283100B1 publication Critical patent/KR100283100B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법에 관한 것이다.
본 발명은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에서 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 출력하는 수단으로 구성되며, 이들의 작용에 따라 그 방법도 구현된다.
본 발명에 의하면 대용량의 말뭉치로부터 연속, 비연속 형태의 다양한 용례들을 추출할 수 있기 때문에 말뭉치의 특성을 분석하고자 하는 분야나 다량의 용례를 이용하여 자연어 처리를 하고자 하는 분야를 포함하여 자연어 처리의 전 분야에서 기본 지식의 구축을 위해 광범위하게 사용될 수 있다.

Description

대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법
본 발명은 대용량의 말뭉치로부터 공간과 시간을 효율적으로 이용하여 연속 및 비연속 용례들의 추출 수단 및 그 방법에 관한 것으로, 특히 말뭉치로부터 추출된 문자열들로부터 다른 문자열들과 비교하여 용례 후보들을 결정하고, 공간 및 시간적인 효율성을 위해 축소된 테이블상에서 연속, 비연속 용례들을 결정하며, 최종적으로 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하므로써 대용량의 말뭉치에서 자연어 처리의 전 분야에서 이용 가능한 말뭉치 특성을 반영한 용례 추출 수단 및 그 방법에 관한 것이다.
용례 추출 수단이라 함은 사용자가 해당 말뭉치의 특성을 반영할 수 있다고 여겨지는, 말뭉치 내에서 반복적으로 나타나는 복합 명사나 숙어 표현 형태를 포함하는 구문 및 단어들을 패턴 테이블과 정렬 패턴 테이블 등을 이용하여 불필요한 패턴들을 최소화하고 추출 시간을 단축하는 효율적인 방법으로 추출하는 수단을 의미한다.
자연어 처리 분야에서 1990년 초부터 지식 자동 추출에 관한 일련의 연구들이 진행되면서 지식 자동 추출에 관한 많은 기술적인 진보가 있었다. 이러한 기술은 실세계의 온라인 텍스트나 컴퓨터 네트워크에서 추출 가능한 자원들로부터 미리 정의된 각 언어 패턴들에 대한 신속하고 강건한 자동 추출을 가능하게 하였다.
자동 추출된 패턴들에 의해 구축된 구 또는 패턴 단위의 전자 사전들은 기계 번역 시스템에서의 복합 단위 처리 등에 있어 유용하게 사용될 수 있다. 특히, 패턴 기반의 번역을 위해서 실제 자주 사용하는 패턴들의 식별과 자동 추출 과정이 전제되어야 한다. 국외에서는 각 언어들에 나타나는 단어들의 유사성을 이용한 방법, 비교적 작은 규모의 말뭉치들로부터 문자 기반의 N-gram 정렬 방식을 이용한 방법이 제시된 바 있으며, 국내에서는 어절 단위의 용례 제시기에 관한 연구가 이루어진 바 있다.
기존의 문자 기반 패턴 추출은 불필요한 많은 수의 패턴들을 생성하며 테이블의 크기가 과도하게 커서 추출 시간이 코퍼스에 비해 과도하다는 단점이 있다.
본 발명은 자연어 처리 응용 분야에서 범용적으로 이용할 수 있도록 용례를 추출하고자 하는 대상이 되는 말뭉치의 크기가 대규모가 되더라도 처리 가능하도록 하고, 용례 추출에 소요되는 메모리 공간과 시간을 효율적으로 관리할 수 있도록 하며, 기존의 단순한 키워드(동사 어간이나 명사) 위주의 추출에서 벗어나 연속, 비연속 용례들을 추출할 수 있도록 하는 것을 목적으로 한다.
상술한 목적을 달성하기 위한 본 발명에 따른 대용량 말뭉치를 위한 통계학적 용례 추출 수단은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에서 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 제시하는 수단을 포함하는 이루어진 것을 특징으로 한다.
또한, 상술한 목적을 달성하기 위한 본 발명에 따른 대용량 말뭉치를 위한 통계학적 용례 추출 방법은 입력 장치를 통해 입력된 말뭉치내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 포인터 테이블에 하나의 엔트리로서 삽입되는 단계와, 상기 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우 상기 포인터 테이블을 복사하여 정렬 포인터 테이블을 생성하는 단계와, NMC를 구하여 상기 정렬 포인터 테이블의 N 번째 엔트리에 삽입한 후 상기 정렬 포인터 테이블의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC중 큰 값으로부터 결정하는 단계와, 상기 포인터 테이블에 대하여 구한 유효 플래그가 1인지를 확인하는 단계와, 상기 확인 결과 유효 플래그가 1일 경우 엔트리를 축소 포인터 테이블로 삽입하고, 유효 플래그가 0일 경우 다음 엔트리로 이동하여 엔트리가 존재하는가를 검사하는 단계와, 상기 검사 결과 엔트리가 존재할 경우 유효 플래그를 계산하는 단계로 천이하고, 엔트리가 존재하지 않을 경우 축소 포인터 테이블로부터 축소 정렬 포인터 테이블을 생성하는 단계와, 상기 축소 정렬 포인터 테이블에서 NES를 계산하여 연속 용례를 추출하고, 상기 축소 정렬 포인터 테이블에서 스타트 포인터를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침을 검사하는 단계와, 상기 겹침 검사 결과 겹침이 발생하지 않으면서 같은 문장에 속한 연속 용례들을 새로운 비연속 용례로 간주하고 패턴 제거 규칙을 이용하여 상기 연속 용례 및 상기 비연속 용례로부터 불필요한 용례를 제거하는 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 상술한 목적을 달성하기 위한 본 발명은 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과, 테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과, 메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과, 용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과, 추출된 용례에 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하는 수단과, 최종적으로 추출된 용례들을 출력하는 수단을 기능시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체인 것을 특징으로 한다.
도 1은 본 발명에 따른 통계학적 용례 추출 수단의 개념을 설명하기 위해 도시한 블록도.
도 2는 본 발명에 따른 통계학적 연속 및 비연속 용례 추출 방법을 설명하기 위한 흐름도.
도 3(a) 및 도 3(b)는 본 발명에서 사용하는 PT, SPT 및 RPT, RSPT의 내부 구조도.
도 4는 본 발명에 따른 통계학적 용례 추출 수단의 실시 예.
〈도면의 주요 부분에 대한 부호의 설명〉
101 : 입력 수단 102 : PT 생성부
103 : SPT 생성부 104 : NMC 계산부
105 : NSC 계산부 106 : 유효 플래그 계산부
107 : RPT 생성부 108 : RSPT 생성부
109 : NES 계산부 110 : ST 계산부
111 : 불필요 용례 제거부 112 : 인쇄부
113 : 인쇄 장치 114 : 표시 제어부
115 : 표시 장치
연속 용례라 함은 추출된 용례가 해당 문장 내에서 연속적인 단어들의 나열로 나타나는 것을 말하며, 비연속 용례라 함은 추출된 용례가 해당 문장 내에서 비연속적으로 다른 단어나 구절 등에 의해 분리되어 나타나는 형태를 말한다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 통계학적 용례 추출 수단의 개념을 설명하기 위해 도시한 블록도이다.
입력 장치(101)를 통해 말뭉치내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 포인터 테이블(Pointer Table: 이하 PT라 함) 생성부(102)에 의해 생성된 PT에 하나의 엔트리로서 삽입된다. 만일, 더 이상의 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우에는 정렬 포인터 테이블(Sorted Pointer Table: 이하 SPT라 함) 생성부(103)에서 PT를 복사하여 SPT를 생성한다. PT와 SPT의 내부 구조는 도 3(a)에 도시되어 있다. SPT는 문자열에 따라 PT를 정렬한 형태로 현재 엔트리의 바로 위나 아래 엔트리와 동일한 문자 수를 비교하는데 이용된다. NMC(Number of Matched Characters) 계산부(104)에서 N 번째 문자열과 N+1 번째 문자열과의 공통 문자수인 NMC를 구하여 SPT의 N 번째 엔트리에 삽입한다. 다음으로 NSC(Number of Significant Characters) 계산부(105)에서 SPT의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC 중의 큰 값으로부터 결정한다. PT에 대해서 유효(Validity) 플래그 계산부(106)에서 유효 플래그를 구하여 이를 용례 후보를 결정하는데 이용한다. 유효(Validity) 플래그는 N 번째 NSC의 값이 N-1 번째 NSC의 값보다 크거나 같으면 1로 세팅되며, 그렇지 않으면 0으로 세팅된다. 유효(Validity) 플래그가 1인 엔트리들은 축소된 포인터 테이블(Reduced PT: 이하 RPT라 함)(107)에 의해 생성된 RPT로 옮겨져서 불필요하게 다음부터의 연산을 필요 없는 엔트리에 동작하지 않도록 하여 메모리 공간 및 속도를 개선한다. 유효 플래그가 0일 경우 다음 엔트리로 이동하여 거기에 엔트리가 존재하지 않을 경우 축소된 정렬 포인터 테이블(Reduced SPT: 이하 RSPT라 함) 생성부(108)에서 PT에서 SPT를 만드는 과정과 동일하게 PSTP를 생성한다. RPT와 RSPT의 내부 구조는 도 3(b)에 도시되어 있다. NES(Number of Extracted Substring)는 추출된 용례의 번호로 용례가 발견될 때마다 1씩 증가하므로, 최종 NES 값으로부터 추출된 용례의 수를 알 수 있다. NES는 RSPT에서 유효(Validity) 플래그와 NSC의 값이 존재하면서 이전 인덱스의 값들과 같은 경우에 증가한다. 이를 NEC 계산부(109)에서 NES의 값이 바뀔 때마다 새로운 연속 용례가 추출된 것으로 간주하며, RSPT에서 스타트 포인터(Start Point: 이하 ST라 함) 계산부(110)를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침(Overlap)을 검사한다. ST는 처음에 말뭉치로부터 문자열이 PT로 삽입될 때, 그 문자열이 속한 문장내에서의 몇 번째 문자인가의 정보이다. 겹침(Overlap)이 발생하지 않으면서 같은 문장에 속한 연속 용례들은 새로운 비연속 용례로 간주한다. 최종적으로 불필요 용례 제거부(111)에 패턴 제거 규칙을 적용하여 불필요한 용례를 제거하고, 인쇄부(112)를 통해 인쇄 장치(113)로 출력하거나, 표시 제어부(114)를 통해 표시 장치(115)로 출력한다.
도 2는 본 발명에 따른 연속 및 비연속 용례 추출 수단을 포함하는 통계학적 용례 추출 장치의 블록도이다.
입력 장치를 통해 입력된 말뭉치(200)내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 PT에 하나의 엔트리로서 삽입된다(202). 만일, 더 이상의 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우(201)에는 PT를 복사하여 SPT를 생성한다(203). SPT는 문자열에 따라 PT를 정렬한 형태로 현재 엔트리의 바로 위나 아래 엔트리와 동일한 문자 수를 비교하는데 이용된다. N 번째 문자열과 N+1 번째 문자열과의 공통 문자수인 NMC를 구하여 SPT의 N 번째 엔트리에 삽입한다. 다음으로 SPT의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC 중의 큰 값으로부터 결정한다(206). PT에 대해서 유효 플래그를 구하여 이를 용례 후보를 결정하는데 이용한다(207). 유효 플래그는 N 번째 NSC의 값이 N-1 번째 NSC의 값보다 크거나 같으면 1로 세팅되며, 그렇지 않으면 0으로 세팅된다. 유효 플래그가 1인 엔트리들은 RPT로 옮겨져서 불필요하게 다음부터의 연산을 필요 없는 엔트리에 동작하지 않도록 하여 메모리 공간 및 속도를 개선한다(209). 유효 플래그가 0일 경우(208) 다음 엔트리로 이동하여 엔트리가 존재하는가를 검사한다(211). 검사 결과 엔트리가 존재할 경우 단계 (207)로 천이하고, 엔트리가 존재하지 않을 경우 RSPT의 생성을 PT에서 SPT를 만드는 과정과 동일하게 수행한다(212 및 213). NES는 추출된 용례의 번호로 용례가 발견될 때마다 1씩 증가하므로, 최종 NES 값으로부터 추출된 용례의 수를 알 수 있다. NES는 RSPT에서 유효 플래그와 NSC의 값이 존재하면서 이전 인덱스의 값들과 같은 경우에 증가한다(214). NES의 값이 바뀔 때마다 새로운 연속 용례가 추출된 것으로 간주하며(215), RSPT에서 ST를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침(Overlap)을 검사한다(216). ST는 처음에 말뭉치로부터 문자열이 PT로 삽입될 때, 그 문자열이 속한 문장내에서의 몇 번째 문자인가의 정보이다. 겹침(Overlap)이 발생하지 않으면서 같은 문장에 속한 연속 용례들은 새로운 비연속 용례로 간주한다(217). 최종적으로 패턴 제거 규칙을 이용하여 불필요한 용례를 제거함으로써(218) 용례 추출을 종료한다.
도 4는 본 발명에 따른 통계학적 용례 추출 수단의 실시 예로 말뭉치를 선택한 후에 추출 대상이 연속이냐 비연속이냐를 선택하면 해당 용례들과 그 용례들이 속해 있는 문장들을 제시하는 예를 보여준다.
이상에서 설명한 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 한정하고 있는 것은 아니다.
상술한 바와 같이 본 발명에 의하면 대용량의 말뭉치로부터 연속, 비연속 형태의 다양한 용례들을 추출할 수 있기 때문에 말뭉치의 특성을 분석하고자 하는 분야나 다량의 용례를 이용하여 자연어 처리를 하고자 하는 분야를 포함하여 자연어 처리의 전 분야에서 기본 지식의 구축을 위해 광범위하게 사용될 수 있다.

Claims (10)

  1. 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과,
    테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과,
    메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과,
    용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과,
    추출된 용례에 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하는 수단과,
    최종적으로 추출된 용례들을 출력하는 수단으로 구성된 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
  2. 제 1 항에 있어서, 기본 테이블 생성 수단은 말뭉치로부터 문자열을 순차적으로 추출하여 포인터 테이블을 생성하는 포인터 테이블 생성부와,
    상기 포인터 테이블과 동기화된 형태로 정렬된 포인터 테이블을 생성하는 정렬된 포인터 테이블 생성부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
  3. 제 1 항에 있어서, 용례 후보 결정 수단은 문자열 간의 동일 문자 수를 계산하는 NMC 계산부 및 NSC 계산부와,
    용례 후보 여부를 판단하는 유효 플래그 계산부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
  4. 제 1 항에 있어서, 축소 테이블 생성 수단은 용례 후보들 만을 기본 테이블에서 추출하여 축소된 형태의 테이블로 구성하는 축소된 포인터 테이블 생성부와,
    상기 축소된 포인터 테이블과 동기화된 형태로 정렬된 축소 포인터 테이블을 생성하는 정렬된 축소 포인터 테이블 생성부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
  5. 제 1 항에 있어서, 연속 및 비연속 용례 추출 수단은 용례 후보가 말뭉치 내에서 최장 일치로 선택된 것인가를 판단하는 NES 계산부와,
    문장 내에서의 두 용례 간의 겹침 여부를 조사하는 스타트 포인터 계산부를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
  6. 제 1 항에 있어서, 불필요한 용례 제거 수단은 패턴 제거 규칙을 이용하여 불필요한 용례를 제거하는 불필요한 용례부로 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 수단.
  7. 입력 장치를 통해 입력된 말뭉치내의 일정한 길이의 문자열이 순차적으로 한 문자씩 이동하면서 포인터 테이블에 하나의 엔트리로서 삽입되는 단계와,
    상기 삽입될 문자열이 말뭉치내에 남아 있지 않은 경우 상기 포인터 테이블을 복사하여 정렬 포인터 테이블을 생성하는 단계와,
    NMC를 구하여 상기 정렬 포인터 테이블의 N 번째 엔트리에 삽입한 후 상기 정렬 포인터 테이블의 N 번째 NSC를 N-1 번째 NMC와 N 번째 NMC중 큰 값으로부터 결정하는 단계와,
    상기 포인터 테이블에 대하여 구한 유효 플래그가 1인지를 확인하는 단계와,
    상기 확인 결과 유효 플래그가 1일 경우 엔트리를 축소 포인터 테이블로 삽입하고, 유효 플래그가 0일 경우 다음 엔트리로 이동하여 엔트리가 존재하는가를 검사하는 단계와,
    상기 검사 결과 엔트리가 존재할 경우 유효 플래그를 계산하는 단계로 천이하고, 엔트리가 존재하지 않을 경우 축소 포인터 테이블로부터 축소 정렬 포인터 테이블을 생성하는 단계와,
    상기 축소 정렬 포인터 테이블에서 NES를 계산하여 연속 용례를 추출하고, 상기 축소 정렬 포인터 테이블에서 스타트 포인터를 이용하여 같은 문장내에서 나타난 연속 용례들 간의 겹침을 검사하는 단계와,
    상기 겹침 검사 결과 겹침이 발생하지 않으면서 같은 문장에 속한 연속 용례들을 새로운 비연속 용례로 간주하고 패턴 제거 규칙을 이용하여 상기 연속 용례 및 상기 비연속 용례로부터 불필요한 용례를 제거하는 단계를 포함하여 이루어진 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 방법.
  8. 제 7 항에 있어서, 상기 정렬 포인터 테이블은 문자열에 따라 상기 포인터 테이블을 정렬한 형태로 현재 엔트리의 바로 위나 아래 엔트리와 동일한 문자 수를 비교하는데 이용되는 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 방법.
  9. 제 7 항에 있어서, 상기 유효 플래그는 N 번째 NSC의 값이 N-1 번째 NSC의 값보다 크거나 같으면 1로 세팅되고, 그렇지 않으면 0으로 세팅되는 것을 특징으로 하는 대용량 말뭉치를 위한 통계학적 용례 추출 방법.
  10. 말뭉치로부터 용례 추출을 위한 기본 테이블을 생성하는 수단과,
    테이블 엔트리에서 용례 후보들을 결정하는 용례 후보 결정 수단과,
    메모리와 추출 시간의 효율적인 관리를 위해 기본 테이블을 축소한 축소 테이블을 생성하는 수단과,
    용례 후보로부터 연속 및 비연속 용례를 추출하는 수단과,
    추출된 용례에 패턴 제거 규칙을 이용하여 불필요한 용례들을 제거하는 수단과,
    최종적으로 추출된 용례들을 출력하는 수단을 기능시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019980052941A 1998-12-03 1998-12-03 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법 KR100283100B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980052941A KR100283100B1 (ko) 1998-12-03 1998-12-03 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980052941A KR100283100B1 (ko) 1998-12-03 1998-12-03 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법

Publications (2)

Publication Number Publication Date
KR20000038079A KR20000038079A (ko) 2000-07-05
KR100283100B1 true KR100283100B1 (ko) 2001-03-02

Family

ID=19561280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980052941A KR100283100B1 (ko) 1998-12-03 1998-12-03 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법

Country Status (1)

Country Link
KR (1) KR100283100B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100401466B1 (ko) * 2000-09-22 2003-10-11 이효숙 자연어 검색 시스템을 위한 한글 스태머와 그 스태밍 방법
KR100561227B1 (ko) 2003-12-19 2006-03-15 한국전자통신연구원 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법

Also Published As

Publication number Publication date
KR20000038079A (ko) 2000-07-05

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
KR100542755B1 (ko) 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
JP4413349B2 (ja) サンプルテキスト基調言語識別方法及びコンピュータシステム
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Zitouni et al. The impact of morphological stemming on Arabic mention detection and coreference resolution
JP5107556B2 (ja) 改善された中国語−英語翻訳ツール
Agbago et al. Truecasing for the Portage system
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR100283100B1 (ko) 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법
JP2008234049A (ja) 要約文生成装置及び要約文生成プログラム
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
Diewald Matrix and double-array representations for efficient finite state tokenization
US20040054677A1 (en) Method for processing text in a computer and a computer
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
Mráková et al. From Czech morphology through partial parsing to disambiguation
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
KR100422809B1 (ko) 기계 번역을 위한 장문 분할 방법
KR20020020406A (ko) 문서분할에 의한 병렬처리가 가능한 기계번역장치
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
JPH0232467A (ja) 機械翻訳方式

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20071115

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee