KR20000018924A - 띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치 - Google Patents

띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치 Download PDF

Info

Publication number
KR20000018924A
KR20000018924A KR1019980036775A KR19980036775A KR20000018924A KR 20000018924 A KR20000018924 A KR 20000018924A KR 1019980036775 A KR1019980036775 A KR 1019980036775A KR 19980036775 A KR19980036775 A KR 19980036775A KR 20000018924 A KR20000018924 A KR 20000018924A
Authority
KR
South Korea
Prior art keywords
analysis
word
candidate
transition
result
Prior art date
Application number
KR1019980036775A
Other languages
English (en)
Other versions
KR100328963B1 (ko
Inventor
양승현
김영섬
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980036775A priority Critical patent/KR100328963B1/ko
Publication of KR20000018924A publication Critical patent/KR20000018924A/ko
Application granted granted Critical
Publication of KR100328963B1 publication Critical patent/KR100328963B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Abstract

본 발명은 확장 품사 전이망을 이용한 띄어쓰기 오류 허용 한국어 형태소 분석방법에 관한 것으로서, 어절내 품사 전이 외에 어절간 품사 전이와 품사 전이 가중치를 하나로 통합한 확장 품사 전이망을 분석 후보의 생성 및 여과에 이용함으로써, 띄붙 오류 어절처럼 띄어쓰기가 비정상적으로 된 어절에서도 분석 후보를 생성해 낼 수 있으며, 각 후보의 적합도를 확장 품사 전이망의 전이 가중치를 이용하여 계산함으로써 올바른 분석 결과를 얻을 수 있음은 물론, 정상적인 어절의 분석 정확도나 분석 속도 등에 영향을 주지 않는 효과를 가진다.

Description

띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치
본 발명은 확장 품사 전이망을 이용한 띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치에 관한 것으로, 특히 띄어써야 할 어절이 잘못 붙여진 오류, 즉 띄붙 오류가 있는 어절도 분석할 수 있는 수단이 구비된 형태소 분석방법에 관한 것이다.
한편, 선행특허로 국내특허 "어절구조 특성을 이용한 형태소 분석 시스템 및 분석방법[권리권자 한국전기통신공사, 등록번호 123238, 97.09.11]"과 "빈도 정보를 이용한 형태소 해석 방법[출원인 삼성전자(주), 공개번호 98-004120, 98.03.30]"및 "한글 문장의 형태소 분석방법[출원인 금성사, 공개번호 92-5023, 92.03.28]" 등은 형태소 분석을 위해 사전, 어절 구조 정보, 접속 정보표를 이용한 분석을 함으로써 띄어쓰기가 잘된 일반 어절에 대한 분석만을 하기 때문에 분석 범위가 매우 좁은 문제점이 있었다.
또한, 선행논문으로 인공지능연구회 학술발표논문집에 게재된 "한국어 철자 오류 교정 시스템[저자 이영식, 채영숙, 윤애선, 권혁철, pp. 25-38, 1993]"은 띄붙 오류를 처리하는 철자 검사기의 구현을 위해 사전을 이용해 형태소를 구분해서 형태소 경계에 공백 문자를 삽입하는 방식을 사용함으로써 띄붙 오류 어절을 원래 어절로 복원할 수 있으나, 단순히 어절을 분리함에 따른 공백을 삽입하는 방법을 사용함으로써 처리시간이 매우 길며, 여러 어절의 띄붙 오류의 처리가 불가능한 문제점이 따른다.
종래의 기술에서는 띄어쓰기가 올바른 정상적인 어절만을 분석 대상으로 하고 있으므로 띄붙 오류가 발생하면, 즉 띄어써야 될 두 어절이 붙여 써져서 마치 하나의 어절로 입력되면 분석에 실패한다는 문제점이 있었다.
이러한 문제점을 보완하기 위해 종래의 기술에서는 분석에 실패한 경우에 추정을 통해 형태소를 분석하는 방법과 어절 경계를 찾는 방법을 사용하고 있다.
먼저, 추정 방법을 살펴보면 분석에 실패한 어절에 대해 사전에 없는 어휘로 간주하여 인명, 지명 등과 같은 고유명사로 추정하는 방법이 있다.
그러나 예를 들어 "힘좋은엔진을쓰는"과 같이 띄붙 오류가 있어서 분석에 실패한 어절을 "힘좋은엔진을쓰는/고유명사"와 같이 추정하게 된다면 항상 틀린 결과를 얻을 수 밖에 없다.
좀더 개선된 추정 방법으로는 조사나 어미 등의 기능어를 실마리로 해서 앞쪽에 오는 문자열은 모두 미지 명사나 미지 동사(혹은 형용사)로 추정하는 방법인데, 이 방법 역시 어절 "힘좋은엔진을쓰는"에 대해 "힘좋은엔진을쓰/명사 + 는/조사"와 같이 무조건 명사로 추정해 버리기 때문에 띄붙 오류의 어절에 대해서는 항상 잘못된 분석 결과를 낼 수 밖에 없다.
어절 경계 구분법은 입력 어절에 대해 하나의 단위 어절 형성이 될 때까지 분석한 후 나머지 문자열이 남아 있으면 띄붙 오류 어절로 간주하여 그 다음 위치부터 다시 분석을 하는 방법이다.
이 방법은 한국어의 특성상 어절내 매 음절 위치마다 하나의 단위 어절이 형성될 수 있으므로 여러 번의 분석 과정을 반복해야 하고, 또 정상적인 어절에도 띄붙 오류 어절인지 아닌지를 판단하기 위해 똑같은 과정을 반복해야 하므로 너무 많은 계산 부하가 걸려 처리의 실시간성을 확보하기 어렵고, 세 어절 이상이 붙은 오류를 처리하기 어려우므로 분석 성공률이 떨어져서 실용적으로 사용하기는 어려운 문제점이 따른다.
상기 문제점을 해결하기 위해 본 발명은, 띄어쓰기 오류가 없는 정상적인 어절은 물론 띄붙 오류 어절도 동일한 방법으로 분석해 낼 수 있도록 하는데 그 목적이 있다.
본 발명의 또 다른 목적은, 띄붙 오류가 있는 어절을 분석하면서도 정상적인 어절만을 분석하는 일반적인 경우와 비교하여 분석 처리 속도의 저하없이 분석을 수행해서 처리의 실시간성을 확보할 수 있도록 하는데 있다.
또 다른 목적은, 일반 문서에서 자주 출현하는 띄붙 오류 어절을 분석해 냄으로써 분석 실패 어절의 수를 최소화하는데 있다.
본 발명의 또 다른 목적은, 1차 분석 실패 후에 강제적으로 추정되는 추정 명사의 수를 최소화하는데 있다.
또 다른 목적은, 문서의 자동 처리를 위해 문서 작성자에게 띄어쓰기 원칙을 준수할 것을 강요하지 않고도 융통성 있게 문서를 작성할 수 있게 함으로써, 인간 중심의 문서 처리 기술을 제공하는데 있다.
도 1은 본 발명에 따른 하드웨어 구성도,
도 2는 본 발명이 적용되는 형태소 분석 장치 상의 어절 분석방법 순서도,
도 3은 본 발명의 형태소 분석방법의 적용에 이용되는 확장 품사 전이망에 대한 행렬 구조도,
도 4는 본 발명에 따른 한국어 어절의 형태소 분석 예시도.
* 도면의 주요부분에 대한 부호의 설명
10 : 형태소 분석 장치 11 : 사전 저장장치
12 : 확장 품사 전이망 13 : 문자열 저장장치
14 : 분석 후보 생성 모듈 15 : 분석 후보 저장장치
16 : 적합도 평가 모듈 17 : 결과 여과 모듈
18 : 최종 결과 저장장치 20 : 문자열 입력장치
30 : 표시장치
상기 목적을 달성하기 위해 본 발명은, 문자열 입력장치를 통해 입력된 문자열과 사전 저장장치에 저장된 사전 정보를 비교하여 형태소 분석 후보를 생성하는 분석 후보 생성 모듈, 분석 후보 저장장치에 저장된 상기 분석 후보들에 대해 적합도 평가를 수행하는 적합도 평가 모듈, 평가 결과에 따라 최종 분석 후보를 골라주는 결과 여과 모듈을 포함하는 것을 특징으로 한다.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
도 1 은 본 발명에 따른 하드웨어 구성도로서, 크게 형태소 분석 장치(10)와 문자열 입력장치(20)와 표시장치(30)로 구성된다.
형태소 분석 장치(10)는 상기 문자열 입력장치(20)를 통해 입력된 문자열을 저장하는 문자열 저장장치(13)와, 저장된 문자열과 사전 저장장치(11)에 저장되어 있는 사전 정보를 비교하여 형태소 분석 후보를 생성해내는 분석 후보 생성 모듈(14)과, 분석된 후보 결과를 저장하는 분석 후보 저장장치(15)와, 저장된 분석 후보들에 대해 적합도 평가를 수행하는 적합도 평가 모듈(16)과, 평가 결과에 따라 적합한 분석 후보를 골라주는 결과 여과 모듈(17)과, 여과된 결과를 저장하는 최종 결과 저장장치(18)로 구성되어 있다.
먼저 상기 확장 품사 전이망(12)을 도 3의 상세도를 통해 자세히 설명하면 다음과 같다.
본 발명에서 품사 전이란 한국어 어절 내에서 한 품사 뒤에 어떤 품사가 뒤따를 수 있는가를 나타내는 정보이며, 이에는 "어절내 전이(intra-word transition)"와 "어절간 전이(inter-word transition)"가 있다.
어절내 전이는 정상적인 어절 내에서 어떤 품사 뒤에 어떤 품사가 뒤따를 수 있는가를 나타내고, 어절간 전이는 어절 두개가 붙어서 하나의 어절로 입력되었을 때 선행 어절의 가장 끝 품사 뒤에 후행 어절의 어떤 품사가 뒤따를 수 있는지를 나타내므로 정상적인 어절 내에서는 관측되지 않는 품사 전이이다.
도 3의 확장 품사 전이망에서는 전이 정보를 행렬을 이용해 표현하고 있는데, 각 행은 전이 전 품사를 나타내고 각 열은 전이 후 품사를 나타낸다.
행렬값은 행에 해당하는 품사에서 열에 해당하는 품사로 품사 전이가 일어날 수 있는가를 나타내며 전이가 일어날 수 없는 경우에는 -∞로 값이 표시되어 있다.
전이가 일어날 수 있는 경우에는 행렬 원소에 정수값으로 "전이 가중치"가 설정되어 있는데, 이 값은 해당 전이가 한국어 어절 형성에 얼마나 적합한지를 수치로 표현한 값이다.
원칙적으로 이 값은 해당 품사 전이가 어절내 전이이면, 즉 한국어 단위 어절 형성 원칙에 부합되면 0 이상의 값을, 어절간 전이이면 즉 한국어 단위 어절 형성 원칙에 부합되지는 않지만 어절과 어절이 붙었을 때 일어날 수 있는 전이이면 0 보다 작은 음수 값을 갖도록 구성되는데, 이때 어절내 전이인 경우라도 전이 가능성이 작은 경우에는 가중치가 음수가 될 수도 있다.
상기 전이 가중치가 -∞인 경우에는 어떠한 경우에도 해당 전이가 일어날 수 없음을 의미한다.
예를 들어, 도 3의 확장 품사 전이망 행렬에서 (NN, JO)의 행렬값은 1로서, 이것은 어절 내에서 NN(명사) 뒤에 JO(조사) 형태소가 뒤따르는 것이 가능하며 이때 전이 가중치 값이 1 임을 나타낸다.
또, (JO, VV)의 행렬값은 -5로서, 이것은 JO(조사) 뒤에 VV(동사)가 뒤따르는 것이 가능하기는 하지만 0 보다 작은 값이므로 어절에서 어절로의 품사 전이인 어절간 전이임을 알 수 있다.
한편 (VV, NN)은 가중치가 -∞인데 이것은 띄붙 오류와 관계없이 어떤 경우에도 VV(동사) 뒤에 NN(명사)가 뒤따를 수 없다는 것을 나타낸다.
종래의 기술에서 어절 구조 정보나 형태소 오토마타 등으로 불리기도 하는 품사 전이망은 어절내 전이만 가지므로, 본 발명에서 사용하는 상기 확장 품사 전이망(12)에서 어절간 전이와 전이 가중치 정보를 빼면 종래의 기술에서 사용하는 품사 전이망과 같아진다. 본 발명에서는 어절간 전이와 전이 가중치 정보를 허용하고 있는데, 그 이유는 물론 띄붙 오류를 처리하기 위해서이다.
예를 들어, "힘""좋은""엔진을""쓰는"과 같은 네 어절이 있는데 각각은 단위 어절 측면에서는 올바른 어절이지만 네 어절이 붙어서 "힘좋은엔진을쓰는"과 같이 하나의 어절이 되어 버리면, 종래의 방법으로는 품사 전이망에서 (NN, AJ), (EM, NN), (JO, VV) 등의 전이를 허용하지 않기 때문에 분석을 할 수 없게 된다.
그러나 본 발명의 상기 확장 품사 전이망(12)에서는 (NN, AJ), (EM, NN), (JO, VV) 등의 전이를 허용하므로 이러한 어절에 대해서도 분석을 할 수 있게 된다.
다만, (JO, VV) 전이에서도 알 수 있듯이 품사 전이 자체는 허용하되 가중치 값은 0 보다 작은 값을 부여함으로써 정상적인 품사 전이인 어절내 품사 전이와 구분할 수 있도록 전이망이 구성되어 있다.
결과적으로 띄어쓰기가 옳게 된 입력 어절 내에서의 통상적인 품사 전이는 0 이상의 점수를 부여받게 되므로 전체 어절의 적합도 점수를 높게 하고, 띄붙 어절 경계에서 발생하는 품사 전이는 음의 점수를 부여받게 되므로 전체 어절의 적합도 점수를 낮게하는 작용을 한다.
그러나 비록 점수는 낮지만 -∞ 즉, 분석할 수 없는 어절로 취급하지는 않는데서 종래의 기술과는 차이가 있다.
도 2 는 본 발명이 적용되는 형태소 분석장치 상의 어절 분석방법 순서도이다.
먼저 문자열 입력장치에서 입력된 문자열에서 공백으로 구분된 어절을 분리해내고(S1), 분리된 어절의 부분 문자열을 사전에서 탐색하여 분석 후보 리스트를 생성해낸다.
각 부분 문자열마다 여러 품사로 분석 가능하므로 전체 어절에 대해서는 이들의 조합 때문에 많은 수의 분석 후보 리스트가 생길 수 있다.
다만 이때 확장 품사 전이망에서 품사 전이가 없는 리스트는 분석 후보에서 제외된다.
이렇게 만들어진 분석 후보 리스트의 집합을 L = {l1, ..., ln}이라고 하고(S2), L의 원소인 각 분석 후보 리스트 li에 대한 적합도 평가를 위해 i를 1로 초기화한다(S3).
그리고 i가 n 보다 큰가를 판단한 후(S4) 크지 않으면, 임의의 분석 후보 리스트를 li= {m1/t1, ..., mni/tni}(단 li∈L, mj는 형태소 문자열, tj는 품사)이라고 표시한다(S5).
리스트 li에서 t1은 어절 시작(WB) 형태소이고, tni는 어절 끝(WE) 형태소이다.
이 리스트의 원소는 ni개이므로 총 ni-1개의 품사 전이 (tj, tj+1)(1≤j<ni)가 생기는데, 상기 j가 ni보다 큰가를 판단하여(S6) 크지 않을 경우 품사 전이(tj, tj+1)의 전이 가중치를 li의 적합도 값인 si에 더한 후(S7) 상기 j값을 증가시키는(S8) 과정을 리스트의 끝까지 반복하면, 후보 리스트 li에 대한 적합도 값 si가 계산된다.
상기 판단(S6) 후 j가 ni보다 큰 경우에는 i값을 증가시켜(S9) 다음 li의 적합도 계산을 계속한다.
이 과정을 L의 모든 후보 분석 리스트 li에 대해 반복하면(S4), 각 후보 리스트별로 적합도 값 si가 계산되는데, 이 중에서 최종 결과를 선택해야 한다.
최종 결과의 선택을 위해 먼저 모든 후보 리스트 li를 si의 내림차순으로 정렬하고(S10) 정렬된 si중에 가장 큰 값인 S1이 0 보다 큰가를 판단하여(S11) S1이 0 보다 크면 정상적인 어절에 대한 분석 결과로 볼 수 있으므로 si≥ 0인 li를 최종 결과로 선택하면 되고(S12), si이 0 보다 작으면 띄붙 오류에 대한 분석 결과로 볼 수 있으므로 si가 큰 순서대로 최종 결과로 선택하면 된다(S13).
다만 후자의 경우 띄붙 오류 어절은 두 어절 이상이 붙어 있으므로 어절 길이가 길고, 따라서 분석 후보의 수 역시 매우 많아지므로 전부 선택하는 것은 곤란하고 본 발명에서는 s1과의 차가 9 보다 작은 것들인 적정선 안에 있는 분석 후보만 최종 결과로서 선택한다(S13).
이렇게 선택된 최종 결과는 별도의 저장장치에 저장된 다음(S14), 화면/인쇄 등의 표시 과정을 통해 결과가 출력된다(S15).
도 4 는 본 발명에 따른 한국어 어절의 형태소 분석 예시도로서, 띄붙 오류 어절 "힘좋은엔진을쓰는"이 입력되었을 때의 분석 예를 도시하고 있다.
먼저 사전을 참조하여 부분 문자열별 형태소를 얻고(S1), 그 조합으로 다수의 분석 후보 리스트를 생성해낸다(S2).
그러나 이 과정에서 상당수의 후보 리스트가 접속 정보나 품사 전이망 정보를 통해 미리 배제될 수 있음을 알 수 있다(S2).
종래의 발명은 어절간 전이를 허용하지 않으므로 사실상 이 과정에서 모든 후보가 배제되어 곧바로 추정을 통해 "힘좋은엔진을쓰"를 명사로, "는"을 조사로 해서 틀린 분석 결과를 내게 된다.
그러나 본 발명에서는 어절간 전이를 허용하는 확장 품사 전이망을 이용하므로 비록 띄붙 오류가 있는 어절이라도 후보 형태소 리스트를 제대로 구할 수 있음을 볼 수 있다(S2).
이렇게 해서 얻은 후보 형태소 리스트에 대해 적합도 값을 계산하여(S4), 이 중에서 적합도 값이 큰 것을 선택하여 최종 결과를 얻는다(S10).
상술한 바와 같이 본 발명의 분석 장치에 따르면, 띄붙 오류가 있는 어절에 대해서도 분석 후보를 생성해 내고 그 중에서 가장 적합한 후보를 고를 수 있는 수단을 갖추고 있기 때문에 띄어쓰기 오류가 없는 어절은 물론 띄붙 오류가 있는 어절도 분석해 낼 수 있게 된다.
또한 기존의 기술은 일단 분석이 실패한 후에 처리를 하거나 여러 번 분석을 반복해서 어절 경계룰 찾기 때문에 성능의 저하가 크지만, 본 발명은 오류가 있는 어절에 대해서도 오류가 없는 어절을 처리할 때와 동일한 방법으로 처리를 할 수 있게 해 주므로 띄붙 오류가 있는 어절을 분석하면서도 성능의 저하가 거의 없다.
또한 일차 분석 실패 후 강제적으로 추정되는 명사의 수를 대폭 줄일 수 있으므로 대용량 문서의 자동 색인 등에서 색인어 추출 등에 효과적으로 이용할 수 있다.
그리고 문서의 자동 처리를 위해 문서 작성자에게 띄어쓰기 원칙을 준수할 것을 강요하지 않고도 융통성 있게 문서를 작성할 수 있게 함으로써, 인간 중심의 문서 처리 기술을 구현하는데 효과적으로 이용할 수 있다.

Claims (2)

  1. 띄어써야 할 어절을 붙여 쓴 오류를 처리하기 위한 형태소 분석 장치에 있어서,
    문자열 입력장치를 통해 입력된 문자열과 사전 저장장치에 저장된 사전 정보를 비교하여 형태소 분석 후보를 생성하는 분석 후보 모듈과;
    분석 후보 장치에 저장된 상기 분석된 후보들에 대해 적합도 평가를 수행하는 적합도 평가 모듈과;
    평가 결과에 따라 적합한 분석 후보를 골라 최종 결과를 저장하도록 분석 후보를 여과시키는 결과 여과 모듈을 포함하는 것을 특징으로 하는 띄어쓰기 오류 허용 한국어 형태소 분석장치.
  2. 입력 텍스트의 어절에서 형태소와 품사를 자동으로 분석해 주는 한국어 형태소 분석방법에 있어서,
    문자열 입력장치에서 입력된 문자열을 공백으로 구분된 어절을 분리하는 제 1 단계와;
    분리된 어절의 부분 문자열을 사전에서 탐색하여 분석 후보 리스트의 집합을 생성하는 제 2 단계와;
    상기 분석 후보 리스트 집합의 원소인 각 후보 리스트에 대한 적합도 평가를 위해 임의의 분석 후보 리스트를 품사전이(형태소 문자열/어절 끝 형태소)로 표현하는 제 3 단계와;
    상기 후보 리스트의 원소로부터 생기는 품사전이의 전이 가중치를 상기 분석 후보 리스트의 집합의 적합도 값에 더하는 과정을 리스트의 끝까지 반복하여 후보 리스트의 집합에 대한 적합도 값을 구하는 제 4 단계와;
    상기 계산된 각 후보 리스트별 적합도 값의 최종 결과의 선택을 위해 상기 분석 후보 리스트 집합을 내림차순으로 정렬하고 정렬된 적합도 값이 0 보다 크면 상기 적합도 값을 최종 결과로 선택하는 제 5 단계와;
    상기 정렬된 적합도 값이 0 보다 작으면 띄붙 오류에 대한 분석결과로서 적합도 값이 큰 순서대로 최종 결과를 선택하는 제 6 단계와;
    상기 선택된 최종 결과를 별도의 저장장치에 저장한 후 화면/인쇄 등의 표시 과정을 통해 결과를 출력하는 제 7 단계로 이루어진 것을 특징으로 하는 띄어쓰기 오류 허용 한국어 형태소 분석방법.
KR1019980036775A 1998-09-07 1998-09-07 띄어쓰기오류허용한국어형태소분석방법및그장치 KR100328963B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980036775A KR100328963B1 (ko) 1998-09-07 1998-09-07 띄어쓰기오류허용한국어형태소분석방법및그장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980036775A KR100328963B1 (ko) 1998-09-07 1998-09-07 띄어쓰기오류허용한국어형태소분석방법및그장치

Publications (2)

Publication Number Publication Date
KR20000018924A true KR20000018924A (ko) 2000-04-06
KR100328963B1 KR100328963B1 (ko) 2002-09-04

Family

ID=19549790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980036775A KR100328963B1 (ko) 1998-09-07 1998-09-07 띄어쓰기오류허용한국어형태소분석방법및그장치

Country Status (1)

Country Link
KR (1) KR100328963B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735308B1 (ko) * 2005-08-30 2007-07-03 경북대학교 산학협력단 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
KR20200044176A (ko) 2018-10-05 2020-04-29 동아대학교 산학협력단 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980066877A (ko) * 1997-01-29 1998-10-15 김광호 미등록어의 유형에 근거한 형태소 해석 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735308B1 (ko) * 2005-08-30 2007-07-03 경북대학교 산학협력단 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체
KR100757340B1 (ko) * 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
KR20200044176A (ko) 2018-10-05 2020-04-29 동아대학교 산학협력단 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법

Also Published As

Publication number Publication date
KR100328963B1 (ko) 2002-09-04

Similar Documents

Publication Publication Date Title
Kukich Techniques for automatically correcting words in text
US5752051A (en) Language-independent method of generating index terms
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
Pedler Computer correction of real-word spelling errors in dyslexic text
US5285386A (en) Machine translation apparatus having means for translating polysemous words using dominated codes
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
Verberne Context-sensitive spell checking based on word trigram probabilities
JPS63254559A (ja) 複合ワードのためのスペリング援助方法
Sooraj et al. Deep learning based spell checker for Malayalam language
Ismailov et al. A comparative study of stemming algorithms for use with the Uzbek language
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
Gulati et al. A novel technique for multidocument Hindi text summarization
Dai et al. A new statistical formula for Chinese text segmentation incorporating contextual information
Tonkin Searching the long tail: Hidden structure in social tagging
Ekbal et al. Voted NER system using appropriate unlabeled data
Kaur et al. Spell checker for Punjabi language using deep neural network
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
KR100328963B1 (ko) 띄어쓰기오류허용한국어형태소분석방법및그장치
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
Merhbene et al. An experimental study for some supervised lexical disambiguation methods of Arabic language
Thalji et al. A novel rule-based root extraction algorithm for Arabic language
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
Al-Abweeny et al. Arabic stemmer system based on rules of roots
SAMIR et al. AMAZIGH NAMED ENTITY RECOGNITION: A NOVEL APPROACH.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee