KR100327109B1 - 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법 - Google Patents

음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법 Download PDF

Info

Publication number
KR100327109B1
KR100327109B1 KR1019990061893A KR19990061893A KR100327109B1 KR 100327109 B1 KR100327109 B1 KR 100327109B1 KR 1019990061893 A KR1019990061893 A KR 1019990061893A KR 19990061893 A KR19990061893 A KR 19990061893A KR 100327109 B1 KR100327109 B1 KR 100327109B1
Authority
KR
South Korea
Prior art keywords
syllable
probability
spacing
hypothesis
state
Prior art date
Application number
KR1019990061893A
Other languages
English (en)
Other versions
KR20010063799A (ko
Inventor
권오욱
박준
황규웅
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1019990061893A priority Critical patent/KR100327109B1/ko
Publication of KR20010063799A publication Critical patent/KR20010063799A/ko
Application granted granted Critical
Publication of KR100327109B1 publication Critical patent/KR100327109B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은, 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 어휘 지식 또는 발견적 교수법(heuristic)을 사용하지 않고 통계적인 방법을 사용하여 띄어쓰기가 일부 되어있는 문장 또는 띄어쓰기가 전혀 되어있지 않은 문장에 대해서 띄어쓰기를 처리할 수 있는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하며, 표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 단계; 상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 단계; 및 상기 제 2 단계의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 단계를 수행한다.

Description

음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법{METHOD FOR AUTOMATIC WORD SPACING USING SYLLABLE-BASED CONDITIONAL PROBABILITY}
본 발명은 한국어 띄어쓰기 방법에 관한 것으로 특히, 마코프 문장발생 모델을 가정하고, 통계적인 방법을 사용한 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
컴퓨터를 사용하여 한글 문장의 띄어쓰기를 자동으로 처리하기 위하여 종래 '문서편집기 상에서 상호 정보를 이용한 자동 띄어쓰기 교정방법'인 대한민국 공개특허공보 98-47272(1998.9.15)와 '한글문장의 띄어쓰기를 위한 자동화 시스템'인 대한민국 공개특허공보 86-2056(1986.3.26)에서는, 품사를 미리 결정하는 형태소 분석기법을 이용한 자동 띄어쓰기 방법을 사용하였다.
그러나, 형태소 분석기법을 이용한 종래의 자동 띄어쓰기 방법은, 전처리 과정으로써 형태소 분석기를 필요로 하며, 형태소 분석에 많은 시간이 소요되며, 형태소 분석의 성능에 따라 띄어쓰기 성능이 좌우되는 단점이 있고, 형태소간 상호정보에 대한 사전의 상당한 어휘 지식과 발견적 교수법(heuristic)이 필요하며 띄어쓰기의 정확도가 낮은 문제점이 있었다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 어휘 지식 또는 발견적 교수법(heuristic)을 사용하지 않고 통계적인 방법을 사용하여 띄어쓰기가 일부 되어있는 문장 또는 띄어쓰기가 전혀 되어있지 않은 문장에 대해서 띄어쓰기를 처리할 수 있는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.즉, 본 발명은 형태소 분석기나 어휘 지식 또는 발견적 교수법(heuristic)을 사용하지 않고 기존의 방식과는 전혀 다른 확률적 접근방식으로서 통계적인 방법을 사용하여 띄어쓰기가 일부 되어있는 문장 또는 띄어쓰기가 전혀 되어있지 않은 문장에 대해서 띄어쓰기를 처리할 수 있는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도1은 본 발명이 적용되는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기시스템의 일실시예 구성도.
도2는 본 발명에 따른 마코프 모델의 'ABCDE'의 5개의 음절로 구성된 문장에 대한 일실시예 예시도.
도3은 본 발명에 따른 마코프 모델의 'AB<b>CDE'의 6개의 음절로 구성된 문장에 대한 일실시예 예시도.
도4는 본 발명에 따른 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법을 수행하기 위한 일실시예 처리흐름도.
도5는 상기 도4의 최적패턴 탐색 가설 설정 서브루틴의 일실시예 상세흐름도.
도6은 상기 도4에서 최대 누적 로그 확률을 계산하기 위한 일실시예 상세흐름도.
도7은 상기 도4에서 최적패턴을 탐색하기 위한 일실시예 상세흐름도.
도8은 본 발명에 따른 최적 패턴 탐색방법을 설명하기 위한 일실시예 상태천이도.
상기 목적을 달성하기 위한 본 발명의 방법은, 한국어 자동 띄어쓰기 방법에 있어서, 표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 단계; 상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 단계; 및 상기 제 2 단계의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 마이크로 프로세서를 구비한, 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 시스템에, 표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 기능; 상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 기능; 및 상기 제 2 기능의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
본 발명에서는 다른 상태로의 천이시에는 음절이 발생되고, 같은 상태로의 천이시에는 공백이 발생하는 마코프 문장 발생 모델을 가정하고, 최적의 스트링(string)을 찾기 위해 상태천이의 제한조건을 이용하고, 빔(beam) 탐색기법을 사용한다.
도1은 본 발명이 적용되는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기시스템의 일실시예 구성도로서, 자동 띄어쓰기를 수행할 음절을 입력하기 위한 입력장치(10)와, 상기 입력장치(10)로부터 입력된 음절에 자동 띄어쓰기를 수행하는 중앙처리장치(11)와, 상기 중앙처리장치(11)에서 수행되는 프로그램을 저장하고 작업 수행중 이용되는 또는 작업 수행중에 발생되는 각종 데이터를 저장하는 기억장치(12)와, 상기 중앙처리장치(11)에서 자동 띄어쓰기를 완료한 출력 스트링을 출력하기 위한 출력장치(13)를 포함한다.
그러나, 상기한 바와 같은 구성을 갖는 컴퓨터 하드웨어 환경은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명은 생략하기로 한다. 다만, 상기 기억장치(12)에 탑재되어 한국어 자동 띄어쓰기를 수행하는 과정에 대해 보다 상세히 설명한다.
도2는 본 발명에 따른 마코프 모델의 ABCDE의 5개의 음절로 구성된 문장에 대한 일실시예 예시도이다.종래의 방식은 기본적으로 형태소 분석을 토대로 형태소간 사전 정보를 이용하여 형태소 단위로 띄어쓰기 여부를 판단하는 것임에 반하여, 본 발명은 형태소 분석과정은 전혀 필요로 하지 않으며, 음절단위의 확률적인 접근 방식으로서 띄어쓰기 여부를 결정하는 것으로 종래의 방식과는 전혀 다른 발명이다.
도2에 도시된 바와 같이, 도면에서 0 내지 5는 6개의 상태(state)를 나타내며, 상기 마코프 모델은 9개의 천이(transition)로 구성된다. 여기서, A, B, C, D 및 E는 임의의 한글 음절을 의미하고, b는 공백을 의미한다.
음절발생 순서가 주어진 입력 음절들의 순서와 같아야 하고, 주어진 모든 음절은 출력에도 나타나야 하며, 두개 이상의 공백이 연속해서 발생하면 안된다는 상태천이의 제한조건이 있다. 따라서, 상태천이는 왼쪽에서 오른쪽으로의 천이만 허용되고, 주어진 음절이 공백이 아닌 경우에는 건너뛰기가 허용되지 않으며, 같은 상태로의 천이는 한번만 허용된다.
상기 도2에서 가능한 한글 띄어쓰기 형태는 'A B C D E', 'AB C D E', 'AB CD E', 'AB CDE', ..., 'ABCDE'까지 총 16가지가 존재하고, 띄어쓰기 교정문제는 이들 패턴 중에서 최적의 패턴을 고르는 것이 된다.
상기 16가지의 패턴에서 나타나는 서로 다른 단어의 개수는 15개이다.
일반적으로, S개의 음절로 구성된 문장을 띄어쓰기 하기 위하여 2S-1개의 패턴을 검사하여야 하며, 단어가 사전에 존재하는지를 검사한다면 S*(S+1)/2번의 사전검색이 필요하다. 만일, 음절개수가 증가하면 비교하여야 할 패턴의 수는 기하급수적으로 증가하게 된다.
주어진 문장에 공백이 존재하는 경우에는 붙여쓰기를 위하여 공백문자를 발생하는 상태로의 천이를 건너뛸 수 있으며, 두 개의 공백이 연속적으로 나타나지 않게 하기 위한 추가적인 제한조건이 적용된다.
첨부된 도3은 본 발명에 따른 마코프 모델의 ABbCDE의 6개의 음절로 구성된 문장에 대한 일실시예 예시도로서, 공백도 하나의 음절로 간주되어 모델을 형성하고, 이때 공백을 건너뛰기 위하여 공천이(null transition)이 추가되었으며, 공백을 발생시키는 다른 상태로의 천이의 도착상태(301)에서는 그 자신으로의 천이가 없다. 여기서, 공천이(null transition)는 음절을 발생하지 않는 천이이며, 천이시간을 소비하지 않는다.
첨부된 도3에서 공천이를 삭제하고 상태2(300)에서 상태4(302)로 음절 C를 발생하는 천이를 추가해도 동일한 효과를 갖는다.
첨부된 도3에서 발생 가능한 각 패턴의 확률 값을 계산하여 가장 높은 확률 값을 갖는 패턴을 최종결과로 한다. 즉, (x1, x2, ..., xt)로 구성된 각 패턴에 대하여 확률값 P(x1, x2, ..., xt)가 최대인 패턴을 찾는다. 여기서, xt는 공백문자 또는 한글음절을 나타낸다.
각 패턴의 확률 값을 구하기 위하여 t차원의 확률분포를 구하는 것은 데이터도 부족하고 저장공간도 많이 필요하게 되어 바람직하지 않으므로, n-gram확률을 사용한다. 즉, 시간적으로 연속 발생하는 음절의 확률은 이전의 n-1개의 음절에만 의존한다고 가정하여 확률 값을 구하는 것이다. 여기서, 상기 n-gram은 이전 (n-1)개의 요소가 주어진 조건에서 다음 요소가 출현할 확률을 의미한다. 이러한 가정 하에 확률 값은 다음과 같이 표현된다.
각 패턴에 대하여 상기와 같은 확률 값을 계산하는 방법으로 음성인식 분야에서 널리 사용되는 비터비(Viterbi) 디코딩 방법을 사용한다.
본 발명에서는, n-gram을 적용하므로 과거의 n-1개의 음절에 대한 정보에 따라서 상태를 다르게 취급하여야 한다는 것이 기존의 비터비 디코딩 방법과 다른 점이다.
그러면, 첨부된 도4 내지 도7을 참조하여 본 발명에 따른 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법을 설명한다.
도4는 본 발명에 따른 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법을 수행하기 위한 일실시예 처리흐름도이다.
먼저, 띄어쓰기 최적 패턴 탐색을 위한 가설을 설정하고(400), 상기 설정된 가설에 의거하여 최대 누적 로그 확률을 계산한 후(402), 상기 최대 누적 로그 확률 및 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득한다(404).
첨부된 도5는 상기 도4에서 띄어쓰기 최적 패턴 탐색을 위한 가설을 설정하는 과정(400)의 상세흐름도로서, 상태 s에서 같은 상태로 천이할 때는 공백이 발생하고, 다른 상태 s'에서 상태 s로 천이할 때에는 음절A[s](syllableA[s])가 발생한다고 가정한다(500). 각 노드에는 여러 개의 가설들이 저장될 수 있으며, 하나의 가설에는 최근 n-1개의 음절, 누적 로그 확률, 백 포인터(back pointer)를 갖는다. 여기서, 백 포인터는 현재 가설이 이전 어느 가설에서 추출되었는지를 알아내기 위한 것으로 이전 가설의 시간, 상태, 포인터를 저장한다.
다음으로, t=0 이고 s=0인 노드의 누적 로그 확률을 0으로 설정하고, 그 외 시간 t=0 또는 s=0인 노드의 누적 로그 확률은 -∞로 설정하며, 백 포인터는 모드 -1로 설정한다(502).
그리고, 최대 누적 확률은 0으로 설정한다(504).
첨부된 도6은 상기 도4에서 설정된 가설에 의거하여 최대 누적 로그 확률을 계산하는 과정(402)의 상세흐름도로서, 시간 t=1부터 t=T까지 차례대로 최장경로와최단경로 사이에 존재하는 노드만을 처리한다.
시간 t와 상태가 s인 노드(t,s)로의 천이가 가능한 t-1에서의 노드들 (t-1,s), (t-1,s-1), (t-2,s-2)에 저장된 모든 가설을 추출하고(600), 상태 s-1에서 추출된 가설들에는 음절A[s]를 가설에 추가하고, 백 포인터에는 상기 상태 s-1을 저장한다(602). 여기서, 상태 s에서 추출된 가설들에는 공백을 추가하고, 백 포인터에는 상기 상태 s를 저장하며, 상태 s-2에서 추출된 가설들에는 음절A[s]가 공백인 경우만으로 제한된다. 만일 두개의 공백문자가 연속으로 발생하는 가설들은 제거한다.
다음으로, 상기 602단계에서 추출된 가설들에 대하여 새롭게 추가된 음절의 조건 로그 확률 logP(xt|xt-2,xt-1)을 별칙으로서 누적 로그 확률에 추가하고(604), 띄어쓰기 성능 향상을 위해 단어 길이에 따른 로그 확률 logP(d)를 누적 로그확률에 추가한다(606). 단, d는 그 가설이 속한 경로에서 최후단어의 음절수를 의미한다. 여기서, 여러 가지 다른 정보를 이용하여 벌칙을 부여할 수 있는데, 예를 들어 단어의 끝에서만 발생하는 음절에 벌칙을 작게 줄 수 있다. 또한, 본 발명에서는 띄어쓰기 성능향상을 최대화하기 위하여 형태소 해석을 이용하는 경우, 그 결과를 활용할 수도 있다.
이렇게 추출된 가장 나중의 n-1개 음절이 동일한 가설들 중 누적 로그확률이 높은 가설만 남긴 후 나머지는 제거한다(608). 여기서, 입력 음절에 공백이 없을 경우, 천이 제한조건에 따라 2-gram의 경우, 한 노드에 존재할 수 있는 가설의 최대수는 1개이고, 3-gram의 경우는 3개, 4-gram의 경우는 6개가된다.
그리고, 각 가설에서 최대 누적 로그 확률과 누적 로그 확률의 차이가 미리 주어진 빔 크기보다 큰 가설은 제거하고(610), 시간 t에서의 모든 가설 중에서 최대 누적 로그확률을 계산한다(612). 이때, 상기 최대 누적 로그확률은 시간 t+1에서 누적 로그확률이 낮은 가설들을 제거하는데 이용된다.
첨부된 도7은 상기 도 4에서 상기 최대 누적 로그 확률 및 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 과정(404)의 상세흐름도이다.
먼저, s=S이고 시간이 S와 T사이에 있는 노드에 저장된 가설들 중에서 누적 로그 확률을 그 가설이 속한 경로내의 음절 개수로 나눈 후, 상태개수 S를 곱한 정규 누적 로그 확률이 최대인 가설 h 및 그 때의 시간 t를 구하고(700), 상기 가설 h로부터 백 포인터를 이용하여 이전 가설 h'을 탐색한 후(702), 상기 이전 가설 h'으로부터 가설 h로의 상태변화 결과에 따라 입력음절 또는 공백을 출력 스트링의 앞에 삽입한다(704).
마지막으로, 상기 정규 누적 로그 확률이 최대인 가설 h의 시간 t를 이전 가설 h'가 속한 노드의 시간을 설정한다(706).
상기와 같은 일련의 과정을 수행하므로써, 입력 스트링 음절A(syllableA)에 대하여 띄어쓰기가 교정된 최종 출력 스트링을 획득할 수 있다.
첨부된 도8은 본 발명에 따른 최적 패턴 탐색방법을 설명하기 위한 일실시예 상태천이도로서, 입력으로 주어진 음절A(syllableA)는 세로축에 나열되고, 문장발생 모델에 따라 상태천이가 일어난다. 각 상태는 과거 음절의 종류에 따라 서로 다른 가설을 가지며, 상태 s에서 상태 s로 즉, 같은 상태로의 천이일 경우에는 공백이 발생하고, 다른 상태로의 천이일 경우에는 음절A[s](syllableA[s])가 발생한다.
문장 발생모델의 제한조건에 의하여 음절개수가 S일 때의 최대 시간 T=2*(S-1)+1이 되고, 가능한 최장경로(802)는 모든 음절사이에 공백이 삽입되는 경우로서 그 길이는 2*(S-1)+1이되며, 최단경로(800)는 공백이 하나도 삽입되지 않은 경우로서 그 길이는 S가 된다.
시간 t에서 최장경로(802)는 상태 s=(t+1)/2 노드를 지나고, 최단경로(800)는 상태 s=t 노드를 지난다. 따라서, 가능한 모든 경로는 최장경로(802)와 최단경로(800)사이에만 존재하게 된다. 만일, 상태 s=S(803)에 도달하면, 입력으로 주어진 모든 음절이 발생된 것이다.
도면에서 도면번호 801은 공백을 포함하는 임의의 음절x의 최적 패턴 탐색과정을 도시한다.상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은, 컴퓨터를 사용하여 한국어를 사용할 때 발생되는 띄어쓰기 오류를 자동으로 교정할 수 있는 효과가 있으며, 대량의 코퍼스를 필요로하는 한국어 처리 시스템 개발을 위하여 텍스트 전처리기에서 수작업으로 행해지던 띄어쓰기 교정작업을 자동화함으로써, 비용절감에 우수한 효과가 있다.

Claims (8)

  1. 한국어 자동 띄어쓰기 방법에 있어서,
    표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 단계;
    상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 단계; 및
    상기 제 2 단계의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 단계
    를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
  2. 제 1항에 있어서,
    상기 제 1 단계는,
    같은 상태로 천이할 때는 공백이 발생하고, 다른 상태로 천이할 때에는 음절이 발생한다고 가정하는 제 4 단계;
    시간이 0이고 상태가 0인 노드의 누적 로그 확률을 0으로 설정하고, 시간이 0 또는 상태가 0인 노드의 누적 로그 확률은 -∞로 설정하는 제 5 단계;
    백 트랙킹을 위해 사용되는 백 포인터를 -1로 설정하는 제 6 단계; 및
    최대 누적 확률은 0으로 설정하는 제 7단계
    를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법.
  3. 제 2 항에 있어서,
    상기 백 포인터는,
    현재 가설이 이전 어느 가설에서 추출되었는지를 알아내기 위해 사용되며, 이전 가설의 시간, 상태, 포인터를 저장하는 것을 특징으로 하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법.
  4. 제 1항 또는 제 2항에 있어서,
    상기 제 2 단계는,
    제 1 시간(t)이고, 제 1 상태(s)인 노드(t,s)로의 천이가 가능한 제 2 상태(t-1)에서의 노드들에 저장된 모든 가설을 추출하는 제 8 단계;
    제 2 상태(s-1)에서 추출된 가설에 음절A[s]를 추가하고, 백 포인터에는 상기 제 2 상태(s-1)를 저장하는 제 9 단계;
    상기 제 8 단계에서 추출된 가설들에 대하여 새롭게 추가된 음절의 조건 로그 확률을 누적 로그 확률에 추가하고, 띄어쓰기 성능 향상을 위해 단어 길이에 따른 로그 확률을 누적 로그확률에 추가하는 제 10 단계;
    상기 제 10 단계 수행후, 추출된 가장 나중의 n-1개 음절이 동일한 가설들 중 누적 로그확률이 높은 가설만 남긴 후 나머지는 제거하는 제 11 단계; 및
    상기 제 8 단계에서 추출된 각 가설중 최대 누적 로그 확률과 누적 로그 확률의 차이가 미리 주어진 빔 크기보다 큰 가설을 제거하고, 제 1 시간(t)에서의 모든 가설 중에서 최대 누적 로그확률을 계산하는 제 12 단계
    를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법.
  5. 제 4 항에 있어서,
    상태 s에서 추출된 가설들에는 공백을 추가한 후, 백 포인터에는 상기 제 1 상태(s)를 저장하고, 제 3 상태(s-2)에서 추출된 가설들에는 음절A[s]가 공백인 경우만으로 제한되며, 만일 두개의 공백문자가 연속으로 발생하는 가설을 제거하는 제 13단계
    를 더 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법.
  6. 제 4항에 있어서,
    상기 제 12 단계는,
    상기 최대 누적 로그확률은 제 3 시간(t+1)에서 누적 로그확률이 낮은 가설들을 제거하는데 사용되는 것을 특징으로 하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법.
  7. 제 4 항에 있어서,
    상기 제 3 단계는,
    상태가 S의 음절로 구성된 입력문장의 마지막 음절이 입력된 상태에서 띄어쓰기가 전혀 없는 경우에 해당하는 가장 빨리 도달할 수 있는 소정시간(S)과 매 음절간에 띄어쓰기가 되는 경우의 마지막 음절이 입력된 상태의 시간(T) 사이에 있는 노드에 저장된 가설들 중 정규 누적 로그 확률이 최대인 제 1 가설(h) 및 그 때의 시간(t)을 계산하는 제 14 단계;
    상기 제 1 가설(h)로부터 백 포인터를 이용하여 상기 제 1 가설의 이전 가설인 제 2 가설(h')을 탐색하는 제 15 단계;
    상기 제 2 가설(h')에서 제 1 가설(h)로의 상태변화 결과에 따라 입력음절 또는 공백을 출력 스트링의 앞에 삽입하는 제 16 단계; 및
    상기 정규 누적 로그 확률이 최대인 제 1 가설(h)의 시간(t)을 상기 제 2 가설(h')가 속한 노드의 시간으로 설정하는 제 17 단계
    를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법.
  8. 마이크로 프로세서를 구비한, 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 시스템에,
    표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 기능;
    상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 기능; 및
    상기 제 2 기능의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990061893A 1999-12-24 1999-12-24 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법 KR100327109B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990061893A KR100327109B1 (ko) 1999-12-24 1999-12-24 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990061893A KR100327109B1 (ko) 1999-12-24 1999-12-24 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

Publications (2)

Publication Number Publication Date
KR20010063799A KR20010063799A (ko) 2001-07-09
KR100327109B1 true KR100327109B1 (ko) 2002-03-07

Family

ID=19629456

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990061893A KR100327109B1 (ko) 1999-12-24 1999-12-24 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

Country Status (1)

Country Link
KR (1) KR100327109B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100376032B1 (ko) * 2000-10-12 2003-03-15 (주)언어와 컴퓨터 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100887726B1 (ko) * 2007-05-28 2009-03-12 엔에이치엔(주) 자동 띄어쓰기 방법 및 그 시스템
CN112016322B (zh) * 2020-08-28 2023-06-27 沈阳雅译网络技术有限公司 一种英文粘连词错误的还原方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100376032B1 (ko) * 2000-10-12 2003-03-15 (주)언어와 컴퓨터 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법

Also Published As

Publication number Publication date
KR20010063799A (ko) 2001-07-09

Similar Documents

Publication Publication Date Title
Song et al. Fast wordpiece tokenization
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
US5146405A (en) Methods for part-of-speech determination and usage
US4641264A (en) Method for automatic translation between natural languages
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US6278973B1 (en) On-demand language processing system and method
TW448381B (en) Automatic segmentation of a text
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
US7552051B2 (en) Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
EP1033663B1 (en) Apparatus and method for generating processor usable data from natural input data
JPH0689302A (ja) 辞書メモリ
US6098035A (en) Morphological analysis method and device and Japanese language morphological analysis method and device
US7346511B2 (en) Method and apparatus for recognizing multiword expressions
KR100327109B1 (ko) 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
JP2999768B1 (ja) 音声認識誤り訂正装置
Hall et al. Language modeling using efficient best-first bottom-up parsing
JP4113204B2 (ja) 機械翻訳装置、その方法およびプログラム
Gerdjikov et al. Extraction of spelling variations from language structure for noisy text correction
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
KR100303171B1 (ko) 형태소 접속 그래프를 사용한 형태소 및 구문 분석 방법
JP3035261B2 (ja) 日本語構文解析装置
JP3027553B2 (ja) 構文解析装置
CN115759087B (zh) 中文分词的方法、装置及电子设备
EP1429257B1 (en) Method and apparatus for recognizing multiword expressions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20091228

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee