KR101500617B1 - 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 - Google Patents

한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 Download PDF

Info

Publication number
KR101500617B1
KR101500617B1 KR1020130093506A KR20130093506A KR101500617B1 KR 101500617 B1 KR101500617 B1 KR 101500617B1 KR 1020130093506 A KR1020130093506 A KR 1020130093506A KR 20130093506 A KR20130093506 A KR 20130093506A KR 101500617 B1 KR101500617 B1 KR 101500617B1
Authority
KR
South Korea
Prior art keywords
context
information
spelling error
error correction
rule
Prior art date
Application number
KR1020130093506A
Other languages
English (en)
Other versions
KR20150017507A (ko
Inventor
윤애선
권혁철
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020130093506A priority Critical patent/KR101500617B1/ko
Publication of KR20150017507A publication Critical patent/KR20150017507A/ko
Application granted granted Critical
Publication of KR101500617B1 publication Critical patent/KR101500617B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

본 발명은 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써 좁게는 한국어 문서 교정기의 성능을 높일 수 있도록 한 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법에 관한 것으로, 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부;상기 입력부를 통해 입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부;상기 분석된 형태소 중에서 문맥 철자오류 교정규칙이 적용되는 형태소가 있을 경우 문맥 철자오류 여부 판별과 교정 작업을 수행하는 문맥 철자오류 처리부;를 포함하고, 상기 문맥 철자오류 교정규칙은 한국어 어휘 의미망 계층 정보를 이용하여 최소 공통 조상을 찾아 범주 정보를 자동으로 추출하여 문맥 철자오류 교정 규칙을 일반화하여 적용하는 것이다.

Description

한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법{Method and system for Context-sensitive Spelling Correction Rules using Korean WordNet}
본 발명은 문맥 철자오류(context-sensitive spelling error) 교정에 관한 것으로, 구체적으로 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써 좁게는 한국어 문서 교정기의 성능을 높일 수 있도록 한 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법에 관한 것이다.
컴퓨터와 모바일 기기의 급속한 확산으로 사용자는 언제 어디서든 자기가 원하는 글을 손쉽게 여러 사람과 공유할 수 있게 되었다. 이 때문에 예전에는 교과서나 도서 교열을 담당하는 전문가뿐만 아니라 일반인도 한국어 맞춤법 검사기(Korean Spelling and Grammar Checker)에 깊은 관심을 보이고 있다.
한국어 맞춤법 검사기의 기능은 전자화된 한국어 텍스트에 나타난 오류어를 검색하고, 이를 교정할 대치어를 제시하는 것이다. 이때 오류어의 유형은 크게 단순 철자오류(Non-word Spelling Error)와 문맥 철자오류로 구분할 수 있다.
전자는 '결죄'와 같이 사전에 등재되지 않은 어휘를 사용한 오류로서 텍스트를 형태적으로 분석하는 것만으로 쉽게 오류어를 검색할 수 있다. 반면에 후자는 '요금 결재'의 '결재'와 같이 문맥의 의미통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있다.
문맥 철자오류의 발생 원인으로는 오타, 음성적 유사성, 관련 지식의 부재 등을 들 수 있다. 실제 한국어 텍스트에서 문맥 철자 오류가 얼마나 나타나는지에 대한 정확한 연구결과는 없지만, 영어권 연구에서 문맥 철자오류가 전체 철자오류의 30~40%임을 보였다. 따라서 문맥 철자오류의 검색과 교정이 맞춤법 검사기의 전체 성능에 크게 영향을 미친다.
국외의 문맥 철자오류 교정 연구는 크게 구문 분석에 기반을 둔 규칙을 이용한 방법과 n-gram과 같은 통계 모형을 이용한 통계적 방법으로 구분할 수 있다.
구문 분석에 기반을 둔 규칙을 이용한 방법은 텍스트에 문맥 철자오류가 발생하였을 때, 구문 분석이 실패한다는 점에서 착안한 방법이다.
어휘 분석이 되지 않는 오류를 먼저 처리하고 규칙 기반 구문 분석기를 사용하여 구분 분석을 수행한다. 이때 구문 분석 오류가 발생하면 해당 어휘의 대치어로 다시 구문 분석을 수행한다. 대치어는 미리 생성해 놓은 후보 집합(Cohort Set)에서 선택하는데, 이들 후보 집합은 모양이나 발음이 유사한 단어들의 집합이다.
구문 분석에 기반을 둔 규칙을 이용한 방법에서 가장 중요한 부분은 구문 분석이 실패하였을 때 원인을 찾는 메타 규칙(meta rule)이다. 이 메타 규칙은 관사 생략, 동의어 철자오류, 선택제약 위반 등을 포함한다.
그러나 이와 같은 구문 분석에 기반을 둔 규칙을 이용한 방법은 사용하는 구문 분석기와 메타 규칙에 따라 문맥 철자오류 교정 성능은 달라질 수 있으며, 문맥 철자오류에 의한 구문 분석 실패와 일반 구문 분석 실패 원인을 구분하는 데 어려움이 있다는 단점이 있다.
그리고 통계적 문맥 철자 오류 검사와 교정 방법은 영어를 대상으로 활발히 연구되었으며, 다음과 같이 크게 3가지를 들 수 있다.
첫 번째는 교정 어휘 쌍을 이용한 방법으로 기본적으로 어의 중의성 해결(word sense disambiguation, WSD) 방식과 같은 방법론을 이용한다.
두 번째 방법은 n-gram에 기반을 둔 언어모형을 사용하는 것이다.
세 번째 방법은 문서 전체를 분석하여 사용된 어휘가 문맥상으로 일관성을 유지하는지를 검증하는 방법이다. 이 방법은 어휘 간의 관계를 분석하기 위한 일종의 지식베이스가 필요하다.
그러나 이와 같은 통계적 문맥 철자 오류 검사와 교정 방법은 앞서 설명한 규칙을 이용한 방법과 비교하여 정확도는 다소 낮지만, 재현율이 높다는 장점이 있다. 그러나 어휘의 발생 확률에 기반을 두기 때문에 해당 어휘가 사용된 용례가 충분하지 않다면 자료부족 문제가 발생할 수 있다.
이와 같이 영어권처럼 구문 분석 기술을 이용하여 통사 오류를 처리하거나 n-gram 모형을 이용한 통계적 방법으로 문맥 철자오류를 교정하려는 연구가 시도되고 있으나 실제 구현에 한계가 있다.
이는 교착어인 한국어는 영어와 달리 문장 구성요소의 생략이 잦고, 어순이 자유로워 구문 분석이 쉽지 않으며, 충분한 통계 정보를 추출할 수 있을 만큼 신뢰성이 확보된 대규모 말뭉치가 없기 때문이다.
본 발명은 이와 같은 종래 기술의 문맥 철자 오류 교정의 문제를 해결하기 위한 것으로, 사용자가 입력한 한국어 문장에서 나타나는 여러 맞춤법 문법 오류 중에서 사전(事典) 검색을 통해 해결할 수 없는 문맥 철자오류(context-sensitive spelling error)를 검색하고, 이를 교정할 대치어를 제시하는 문맥 철자오류 교정 방법을 제공하는데 그 목적이 있다.
본 발명은 문맥 철자오류 교정규칙의 일반화를 위하여 조사제약 적용 여부를 자동으로 판단할 수 있도록 교정규칙의 오류어와 대치어에 사용되는 문맥의 조사 결합 정보를 대규모 말뭉치에서 자동으로 추출하는 수단을 갖는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써 한국어 문서 교정기의 성능을 높일 수 있도록 한 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 문맥 철자오류 교정 규칙에서 문맥 정보의 범주 정보를 자동으로 추출하여 문맥 철자오류 교정 규칙을 일반화하고, 문맥 정보의 범주 정보를 자동으로 추출할 때, 최소 공통 조상을 이용하여 범주 정보를 자동으로 추출하여 정확성을 높인 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 문맥 철자오류 교정 규칙을 일반화 과정에서 최소 공통 조상을 찾기 위해 한국어 어휘 의미망 계층 정보를 이용하고 문맥 정보 중 중의성 어휘는 어의 중의성 해소 과정을 포함하는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 최소 공통 조상을 찾을 때 서로 상반되는 두 개의 규칙에서 추출한 문맥 정보를 이용하여 각각의 문맥 정보를 이용하여 찾은 최소 공통 조상이 서로 중복되지 않도록 하여 정확성을 높인 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치는 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부;상기 입력부를 통해 입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부;상기 분석된 형태소 중에서 문맥 철자오류 교정규칙이 적용되는 형태소가 있을 경우 문맥 철자오류 여부 판별과 교정 작업을 수행하는 문맥 철자오류 처리부;를 포함하고, 상기 문맥 철자오류 교정규칙은 한국어 어휘 의미망 계층 정보를 이용하여 최소 공통 조상을 찾아 범주 정보를 자동으로 추출하여 문맥 철자오류 교정 규칙을 일반화하여 적용하는 것을 특징으로 한다.
여기서, 상기 문맥 철자오류 교정규칙의 일반화를 위하여 최소 공통 조상을 찾기 위해 한국어 어휘 의미망 계층 정보를 이용할 때, 문맥 정보 중 중의성 어휘는 어의 중의성 해소 과정을 거친 후 이용하는 것을 특징으로 한다.
그리고 상기 문맥 철자오류 교정규칙의 일반화를 위하여 최소 공통 조상을 찾을 때 서로 상반되는 두 개의 규칙에서 추출한 문맥 정보를 이용하여 각각의 문맥 정보를 이용하여 찾은 최소 공통 조상이 서로 중복되지 않도록 하는 것을 특징으로 한다.
그리고 상기 문맥 철자오류 처리부에서 적용되는 문맥 철자오류 교정규칙을 일반화하기 위한 수단으로, 구축된 문맥 철자오류 교정규칙을 저장하는 교정 규칙 저장부와,한국어 어휘 의미망을 이용하여 문맥 정보에 포함된 어휘의 최소 공통 조상을 문맥 정보의 범주 정보로 판단하여 문맥 정보의 범주 정보를 추출하는 문맥 정보 일반화부와,각 조사에 대해 생략 가능성과 대치 가능성을 두어 교정규칙의 조사 정보를 생략하거나 대치하여 조사를 일반화하는 조사 제약 일반화부와,문맥 정보 일반화부 및 조사 제약 일반화부를 통하여 일반화된 교정 규칙을 출력하는 일반화된 교정 규칙 출력부를 포함하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 방법은 입력된 문장에 대하여 형태소 분석을 하고 문맥 철자오류 교정규칙을 적용하여 문맥 철자오류 여부 판별과 교정 작업을 수행하기 위하여,한국어 어휘 의미망을 이용하여 문맥 정보에 포함된 어휘의 최소 공통 조상을 문맥 정보의 범주 정보로 판단하여 추출하는 단계;하나의 규칙을 일반화할 때 서로 상반되는 두 개의 규칙에서 문맥 어휘의 최소 공통 조상을 찾고, 서로 겹치는 최소 공통 조상은 각 교정규칙의 일반화 과정에서 제외하는 단계;문맥 어휘 중 중의성 어휘가 발견되면 교정 대상 어휘와의 의미적 연관성을 이용하여 어의 중의성 해소를 위한 처리를 하는 단계;각 조사에 대해 생략 가능성과 대치 가능성을 두어 교정규칙의 조사 정보를 생략하거나 대치하여 조사를 일반화하는 단계;를 포함하여, 문맥 철자오류 교정규칙을 일반화하는 것을 특징으로 한다.
여기서, 최소 공통 조상을 찾을 때 하위어에서 상위어로 확장되는 경우 공통 상위어로만 확장이 일어나도록 하는 것을 특징으로 한다.
이와 같은 본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법은 다음과 같은 효과를 갖는다.
첫째, 사전(事典) 검색을 통해 해결할 수 없는 문맥 철자오류(context-sensitive spelling error)를 검색하고, 이를 교정할 대치어를 제시하여 문맥 철자오류를 교정할 수 있다.
둘째, 교정규칙의 오류어와 대치어에 사용되는 문맥의 조사 결합 정보를 대규모 말뭉치에서 자동으로 추출하여 조사제약 적용 여부를 자동으로 판단할 수 있다.
셋째, 문맥 철자오류 교정 규칙을 일반화하기 위하여 최소 공통 조상을 이용하여 범주 정보를 자동으로 추출하여 정확성을 높일 수 있다.
넷째, 문맥 철자오류 교정 규칙을 일반화 과정에서 최소 공통 조상을 찾기 위해 한국어 어휘 의미망 계층 정보를 이용하고 어의 중의성 해소 과정을 포함하여 정확성을 높일 수 있다.
다섯째, 최소 공통 조상을 찾을 때 서로 상반되는 두 개의 규칙에서 추출한 문맥 정보를 이용하여 각각의 문맥 정보를 이용하여 찾은 최소 공통 조상이 서로 중복되지 않도록 한다.
여섯째, 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써 한국어 문서 교정기의 성능을 높일 수 있다.
일곱째, 한국어 정보검색과 정보추출, 한국어 사용자 인터페이스, 기계번역, 자동통역 등 다양한 한국어 관련 응용 시스템의 기반 기술로 활용할 수 있다.
여덟째, 다양한 한국어 관련 응용 시스템이 최적의 성능을 낼 수 있게 함으로써 사용자 만족도를 높이면서 새로운 응용을 창출하게 하는 효과가 있다.
도 1은 본 발명에 따른 문맥 철자오류 교정 장치의 구성도
도 2a는 본 발명에 따른 언어 전문가가 수작업으로 구축한 문맥 철자오류 교정규칙을 일반화하기 위한 수단의 상세 구성도
도 2b는 본 발명에 따른 문맥 철자오류 교정규칙을 일반화 과정을 나타낸 플로우 차트
도 3은 문맥 철자오류 교정규칙의 문맥 정보를 범주화할 때 사용되는 한국어 어휘의미망의 예시도
도 4는 문맥 정보의 범주 정보를 최소 공통 조상(lowest common ancestor)을 이용하여 찾은 예시도
도 5는 서로 반대되는 2개의 규칙을 이용하여 최소 공통 조상을 제약한 예시도
도 6은 최소 공통 조상을 찾을 때 중의성 어휘가 일으킬 수 있는 문제를 보이는 예시도
도 7은 한국어 어휘 의미망의 형제어를 고려하여 최소 공통 조상을 찾는 방법을 보여주는 예시도
이하, 본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 문맥 철자오류 교정 장치의 구성도이다.
그리고 도 2a는 본 발명에 따른 언어 전문가가 수작업으로 구축한 문맥 철자오류 교정규칙을 일반화하기 위한 수단의 상세 구성도이고, 도 2b는 본 발명에 따른 문맥 철자오류 교정규칙을 일반화 과정을 나타낸 플로우 차트이다.
본 발명은 사용자가 입력한 한국어 문장에서 나타나는 여러 맞춤법 문법 오류 중에서 사전(事典) 검색을 통해 해결할 수 없는 문맥 철자오류(context-sensitive spelling error)를 검색하고, 이를 교정할 대치어를 제시하는 문맥 철자오류 교정 방법에 관한 것이다.
이를 위하여, 문맥 정보의 범주 정보를 자동으로 추출하여 문맥 철자오류 교정 규칙을 일반화하는 수단, 문맥 정보의 범주 정보를 자동으로 추출할 때, 최소 공통 조상을 이용하여 범주 정보를 자동으로 추출하는 수단, 최소 공통 조상을 찾기 위해 한국어 어휘 의미망 계층 정보를 이용하는 수단을 포함한다.
특히, 최소 공통 조상을 찾기 위해 한국어 어휘의미망 계층 정보를 이용할 때, 문맥 정보 중 중의성 어휘는 어의 중의성 해소 과정을 거친 후 이용하는 수단 및 최소 공통 조상을 찾을 때 서로 상반되는 두 개의 규칙에서 추출한 문맥 정보를 이용하여 각각의 문맥 정보를 이용하여 찾은 최소 공통 조상이 서로 중복되지 않도록 하는 수단을 구비한다.
여기서, 한국어 어휘의미망(Korean Lexico-semantic Network)은 영어 워드넷(PWN)을 참조모델로 하여 확장 개발된 대규모 지식베이스이다.
본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치는 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부(101)와, 입력부(101)를 통해 입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부(102)와, 형태소 분석부(102)에서 문맥 철자오류 교정규칙이 적용되는 형태소가 있을 경우 문맥 철자오류 교정규칙을 이용하여 문맥 철자오류 여부 판별과 교정 작업을 수행하는 문맥 철자오류 처리부(103)를 포함한다.
형태소 분석부(102)에서 분석된 형태소 중 문맥 철자오류 교정규칙이 적용되는 형태소가 있을 때는 문맥 철자오류 처리부(103)로 처리가 진행되고, 그렇지 않으면 출력부(104)로 처리가 진행된다.
본 발명은 언어 전문가가 수작업으로 구축한 문맥 철자오류 교정규칙을 한국어 어휘 의미망을 이용하여 교정 규칙을 일반화하는 것으로, 표 1은 교정규칙의 가장 간단한 예로서 발음 유사성에 의해 따른 문맥 철자오류 중 하나인 '다리다'를 '달이다'로 교정하는 규칙이다.
Figure 112013071496814-pat00001
교정규칙은 정규문법으로 표현되며, 사용될 때는 유한상태기계로 바뀌어 작동한다.
각 규칙이 작동하는 핵심 어휘(위의 예에서는 '다리다'와 '마치다')를 기준으로 해당 규칙을 찾게 되고, 문맥 정보를 통해 오류어를 대치어로 교정한다.
문맥 정보는 규칙을 구성하는 언어 전문가가 핵심 어휘와의 문법적,의미적 의존관계를 고려하여 선정한다. 위의 예에서는 문맥 정보를 '한약', '보약'과 같이 어휘 단위로 표현하였지만 '음식류'와 같이 어휘의 범주 정보로 표현하여 일반화할 수 있다.
본 발명은 문맥 정보의 범주 정보를 한국어 어휘 의미망을 이용하여 자동으로 찾아서 문맥 철자오류 교정규칙을 일반화한다.
이와 같은 본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치에서의 문맥 철자오류 교정규칙을 일반화는 다음과 같이 이루어진다.
먼저, 문맥 철자오류 교정규칙을 일반화하기 위한 수단은 도 2a에서와 같이, 언어 전문가가 수작업으로 구축한 문맥 철자오류 교정규칙을 저장하는 교정 규칙 저장부(201)와, 한국어 어휘 의미망을 이용하여 문맥 정보에 포함된 어휘의 최소 공통 조상을 문맥 정보의 범주 정보로 판단하여 문맥 정보의 범주 정보를 추출하는 문맥 정보 일반화부(202)와, 각 조사에 대해 생략 가능성과 대치 가능성을 두어 교정규칙의 조사 정보를 생략하거나 대치하여 조사를 일반화하는 조사 제약 일반화부(203)와, 문맥 정보 일반화부(202) 및 조사 제약 일반화부(203)를 통하여 일반화된 교정 규칙을 출력하는 일반화된 교정 규칙 출력부(204)를 포함한다.
그리고 이와 같은 문맥 철자오류 교정규칙을 일반화하기 위한 수단을 통한 교정 규칙 일반화 과정은 다음과 같다.
도 2b에서와 같이, 한국어 어휘 의미망을 이용하여 문맥 정보에 포함된 어휘의 최소 공통 조상을 문맥 정보의 범주 정보로 판단하여 문맥 정보의 범주 정보를 추출한다.(S201)
그리고 하나의 규칙을 일반화할 때 서로 상반되는 두 개의 규칙에서 문맥 어휘의 최소 공통 조상을 찾고, 서로 겹치는 최소 공통 조상은 각 교정규칙의 일반화 과정에서 제외한다.(S202)
이어, 문맥 어휘 중 중의성 어휘가 발견되면 교정 대상 어휘와의 의미적 연관성을 이용하여 어의 중의성 해소를 위한 처리를 한다.(S203)
그리고 최소 2개 이상의 하위어가 있을 경우에만 상위어로 확장한다.(S204)
이어, 각 조사에 대해 생략 가능성과 대치 가능성을 두어 교정규칙의 조사 정보를 생략하거나 대치하여 조사를 일반화한다.(S205)
도 3은 문맥 어휘 일반화부(202)에서 사용하는 한국어 어휘 의미망의 일 예를 나타낸 것이다.
한국어 어휘 의미망은 같은 의미를 갖는 동의어 집합이 하나의 노드가 되며, 이들 노드는 계층 구조를 이루고 있다. 예를 들어, '의상1(302)'은 '의복1 의류1 옷1(301)'의 하위어이고, '교복1(303)'의 상위어이다. 하위어는 상위어의 의미적 특성을 상속받는다.
그리고 도 4는 문맥 정보의 범주 정보를 최소 공통 조상(lowest common ancestor)을 이용하여 찾는 일 예를 나타낸 것이다.
도 4는 문맥 정보의 범주 정보를 추출하는 가장 간단한 방법을 나타낸 것으로, 트리 구조에서 둘 이상의 노드는 하나 이상의 공통 상위어를 가진다. 이들 공통 상위어 중 가장 낮은 계층에 위치한 노드를 최소 공통 조상(lowest common ancestor)이라고 한다.
도 4에서 '교복1(403)'과 '소복1(404)'의 공통 조상은 '소비재1(401)'과 '의복1 의류1 옷1(402)'이고, 가장 낮은 계층에 위치한 '의복1 의류1 옷1(402)'이 '교복1(403)'과 '소복1(404)'의 최소 공통 조상이 된다.
이때, 문맥 정보에 포함된 어휘(이하, 문맥 어휘)의 최소 공통 조상은 문맥 정보의 범주 정보로 볼 수 있다.
이와 같은 도 4에서 설명한 최소 공통 조상을 이용한 문맥 정보 일반화 방법은 경우에 따라 지나친 일반화로 인하여 교정규칙의 정확도를 떨어트릴 수 있다.
따라서, 서로 반대되는 2개의 규칙을 이용하여 최소 공통 조상을 제약하는 단계를 포함한다.
도 5에서 '교복1(501)'과 '수건1(502)'의 최소 공통 조상은 '가공물1(505)'이다. 따라서, 기존의 교정규칙은 표 2에서와 같이 일반화된다.
Figure 112013071496814-pat00002
즉, 문맥에 '헝겊'이라는 어휘가 나타나면 '헝겊'은 '가공물'의 하위어이기 때문에 '달이다'를 '다리다'로 교정하는 규칙이 적용되게 되는 것이다.
문제는 '가공물'은 한국어 어휘 의미망에서 비교적 상위 계층에 속하는 개념으로 많은 하위어를 갖는다. 그중에는 '탕1(503)'이나 '장2(504)'과 같은 어휘도 포함되어 '탕을 달이다'라는 바른 문장을 '탕을 다리다'로 잘못 교정하게 된다.
이러한 오류를 방지하고자 본 발명에서는 하나의 규칙을 일반화할 때 서로 상반되는 두 개의 규칙에서 문맥 어휘의 최소 공통 조상을 찾고, 서로 겹치는 최소 공통 조상은 각 교정규칙의 일반화 과정에서 제외한다.
그리고 도 6은 최소 공통 조상을 찾을 때 중의성 어휘가 일으킬 수 있는 문제를 보이는 일 예를 나타낸 것이다.
한국어 어휘의미망의 최소 공통 조상을 이용한 문맥 정보의 일반화에서 문제가 되는 또 다른 경우는 문맥 어휘가 하나의 어휘가 여러 개의 의미로 사용될 수 있는 중의성 어휘일 때이다.
도 6에서 '장'이라는 어휘는 '장 2(601)'와 '장 12(602)'라는 두 개의 의미로 사용되어 교정규칙에 함께 포함된 문맥 어휘에 따라 문맥 정보가 여러 가지로 일반화될 수 있는 위험이 있다.
본 발명에서는 이를 해결하고자 어의 중의성 해소 과정을 거친 후 문맥 정보를 일반화한다. 즉, 문맥 어휘 중 중의성 어휘가 발견되면 교정 대상 어휘와의 의미적 연관성을 이용하여 어의 중의성 해소하도록 한다.
어의 중의성 해소 방법은 동일 출원인에 의해 등록된 "한국어 어휘 의미망을 이용한 이의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체(등록번호 10-1070371)"에서 제시한 방법을 사용할 수도 있다.
그리고 도 7은 최소 공통 조상을 찾을 때 한국어 어휘 의미망의 형제어를 고려하여 좀 더 정확한 최소 공통 조상을 찾는 방법을 나타낸 것이다.
일반적으로 최소 공통 조상을 이용한 문맥 정보의 일반화는 지나친 일반화로 교정 규칙의 정확도를 떨어트릴 수 있다. 도 7에서 '교복1(704)'과 '소복1(705)'의 최소 공통 조상은 '의복1 의류1 옷1(702)'이다.
그러나 최소 공통 조상의 모든 하위어가 문맥 어휘의 공통 조상인 것은 아니다. 최소 공통 조상은 문맥 교정규칙의 범주화 정보로 이용되기 때문에 '교복1(704)'과 '소복1(705)'의 상위어인 '제복1'과 '상복1'은 공통 조상이 아님에도 불구하고 이들의 하위어까지 문맥 정보에 포함되게 된다.
이를 방지하고자 본 발명에서는 최소 2개 이상의 하위어가 있을 경우에만 상위어로 확장을 하는 방법을 사용한다.
그리고 표 3은 문맥 철자오류 교정규칙에 사용된 격조사의 생략 가능성과 대치 가능성을 나타낸 것이다.
조사 제약 일반화부(203)는 기존 교정규칙의 조사 제약 정보를 일반화하는데, 조사의 종류는 크게 격조사, 접속조사, 보조사로 구분할 수 있다. 기존 교정규칙에는 주로 격조사가 사용되는데, 종류에 따라 보조사 및 '격조사+보조사'결합형과의 대치 가능성과 그 목록에 차이를 보인다.
따라서 조사 제약의 지나친 완화는 자칫 정확도의 큰 하락을 초래할 수 있다. 본 발명에서는 표 3에서와 같이 각 조사에 대해 생략 가능성과 대치 가능성을 두어 교정규칙의 조사 정보를 생략하거나 대치하여 조사를 일반화한다.
Figure 112013071496814-pat00003
이상에서와 같은 본 발명에 따른 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법은 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써 한국어 문서 교정기의 성능을 높일 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
201. 교정 규칙 저장부 202. 문맥 정보 일반화부
203. 조사 제약 일반화부 204. 일반화된 교정 규칙 출력부

Claims (6)

  1. 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부;
    상기 입력부를 통해 입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부;
    상기 분석된 형태소 중에서 문맥 철자오류 교정규칙이 적용되는 형태소가 있을 경우 문맥 철자오류 여부 판별과 교정 작업을 수행하는 문맥 철자오류 처리부;를 포함하고,
    상기 문맥 철자오류 교정규칙은 한국어 어휘 의미망 계층 정보를 이용하여 최소 공통 조상을 찾아 범주 정보를 자동으로 추출하여 문맥 철자오류 교정 규칙을 일반화하여 적용하고, 최소 공통 조상을 찾을 때 서로 상반되는 두 개의 규칙에서 추출한 문맥 정보를 이용하여 각각의 문맥 정보를 이용하여 찾은 최소 공통 조상이 서로 중복되지 않도록 하는 것을 특징으로 하는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치.
  2. 제 1 항에 있어서, 상기 문맥 철자오류 교정규칙의 일반화를 위하여 최소 공통 조상을 찾기 위해 한국어 어휘 의미망 계층 정보를 이용할 때,
    문맥 정보 중 중의성 어휘는 어의 중의성 해소 과정을 거친 후 이용하는 것을 특징으로 하는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치.
  3. 삭제
  4. 제 1 항에 있어서, 상기 문맥 철자오류 처리부에서 적용되는 문맥 철자오류 교정규칙을 일반화하기 위한 수단으로,
    구축된 문맥 철자오류 교정규칙을 저장하는 교정 규칙 저장부와,
    한국어 어휘 의미망을 이용하여 문맥 정보에 포함된 어휘의 최소 공통 조상을 문맥 정보의 범주 정보로 판단하여 문맥 정보의 범주 정보를 추출하는 문맥 정보 일반화부와,
    각 조사에 대해 생략 가능성과 대치 가능성을 두어 교정규칙의 조사 정보를 생략하거나 대치하여 조사를 일반화하는 조사 제약 일반화부와,
    상기 문맥 정보 일반화부 및 조사 제약 일반화부를 통하여 일반화된 교정 규칙을 출력하는 일반화된 교정 규칙 출력부를 포함하는 것을 특징으로 하는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치.
  5. 입력된 문장에 대하여 형태소 분석을 하고 문맥 철자오류 교정규칙을 적용하여 문맥 철자오류 여부 판별과 교정 작업을 수행하기 위하여,
    한국어 어휘 의미망을 이용하여 문맥 정보에 포함된 어휘의 최소 공통 조상을 문맥 정보의 범주 정보로 판단하여 추출하는 단계;
    하나의 규칙을 일반화할 때 서로 상반되는 두 개의 규칙에서 문맥 어휘의 최소 공통 조상을 찾고, 서로 겹치는 최소 공통 조상은 각 교정규칙의 일반화 과정에서 제외하는 단계;
    문맥 어휘 중 중의성 어휘가 발견되면 교정 대상 어휘와의 의미적 연관성을 이용하여 어의 중의성 해소를 위한 처리를 하는 단계;
    각 조사에 대해 생략 가능성과 대치 가능성을 두어 교정규칙의 조사 정보를 생략하거나 대치하여 조사를 일반화하는 단계;를 포함하여, 문맥 철자오류 교정규칙을 일반화하는 것을 특징으로 하는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 방법.
  6. 제 5 항에 있어서, 최소 공통 조상을 찾을 때 하위어에서 상위어로 확장되는 경우 공통 상위어로만 확장이 일어나도록 하는 것을 특징으로 하는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 방법.
KR1020130093506A 2013-08-07 2013-08-07 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 KR101500617B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130093506A KR101500617B1 (ko) 2013-08-07 2013-08-07 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130093506A KR101500617B1 (ko) 2013-08-07 2013-08-07 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150017507A KR20150017507A (ko) 2015-02-17
KR101500617B1 true KR101500617B1 (ko) 2015-03-10

Family

ID=53046330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130093506A KR101500617B1 (ko) 2013-08-07 2013-08-07 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101500617B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190133624A (ko) 2018-05-23 2019-12-03 부산대학교 산학협력단 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
US11074406B2 (en) 2016-11-10 2021-07-27 Changwon National University Industry University Cooperation Foundation Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor
KR20210128315A (ko) 2020-04-16 2021-10-26 부산대학교 산학협력단 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR20220075807A (ko) 2020-11-30 2022-06-08 부산대학교 산학협력단 생성적 적대 신경망을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR102453373B1 (ko) * 2021-10-08 2022-10-07 한국전자기술연구원 심층 학습 기반의 자동 오타 교정 장치 및 방법
KR20230054223A (ko) 2021-10-15 2023-04-24 부산대학교 산학협력단 단어 간의 관계 그래프 정보 기반의 문맥의존 철자오류 교정 장치 및 방법
KR20230057238A (ko) 2021-10-21 2023-04-28 부산대학교 산학협력단 실시간 채팅 환경에서의 이후 문맥 예측 정보를 이용한 문맥의존 철자오류 교정 장치 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101689002B1 (ko) * 2015-12-16 2016-12-22 김영길 모바일 단말기를 이용한 문자 수정 방법
KR102188739B1 (ko) * 2018-04-23 2020-12-09 부산대학교 산학협력단 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법
CN110929514B (zh) * 2019-11-20 2023-06-27 北京百分点科技集团股份有限公司 文本校对方法、装置、计算机可读存储介质及电子设备
KR102540293B1 (ko) * 2020-11-16 2023-06-07 주식회사 솔트룩스 딥 러닝 언어 모델 기반의 한국어 교정 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496873B1 (ko) * 2003-10-24 2005-06-22 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496873B1 (ko) * 2003-10-24 2005-06-22 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김민호 외 1명, ‘한국어 어휘의미망의 의미 관계를 이용한 어의 중의성 해소’, 한국정보과학회 논문지, vol.38, No.10, 2011.10
김민호 외 1명, '한국어 어휘의미망의 의미 관계를 이용한 어의 중의성 해소', 한국정보과학회 논문지, vol.38, No.10, 2011.10 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074406B2 (en) 2016-11-10 2021-07-27 Changwon National University Industry University Cooperation Foundation Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor
KR20190133624A (ko) 2018-05-23 2019-12-03 부산대학교 산학협력단 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR20210128315A (ko) 2020-04-16 2021-10-26 부산대학교 산학협력단 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR102531114B1 (ko) 2020-04-16 2023-05-11 부산대학교 산학협력단 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR20220075807A (ko) 2020-11-30 2022-06-08 부산대학교 산학협력단 생성적 적대 신경망을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR102453373B1 (ko) * 2021-10-08 2022-10-07 한국전자기술연구원 심층 학습 기반의 자동 오타 교정 장치 및 방법
KR20230054223A (ko) 2021-10-15 2023-04-24 부산대학교 산학협력단 단어 간의 관계 그래프 정보 기반의 문맥의존 철자오류 교정 장치 및 방법
KR20230057238A (ko) 2021-10-21 2023-04-28 부산대학교 산학협력단 실시간 채팅 환경에서의 이후 문맥 예측 정보를 이용한 문맥의존 철자오류 교정 장치 및 방법

Also Published As

Publication number Publication date
KR20150017507A (ko) 2015-02-17

Similar Documents

Publication Publication Date Title
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
CN109271626B (zh) 文本语义分析方法
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
US8972432B2 (en) Machine translation using information retrieval
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
Ehsan et al. Grammatical and context‐sensitive error correction using a statistical machine translation framework
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Zhang et al. Automated multiword expression prediction for grammar engineering
Neale et al. Leveraging lexical resources and constraint grammar for rule-based part-of-speech tagging in Welsh
KR20120064559A (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
Toral et al. Linguistically-augmented perplexity-based data selection for language models
Hkiri et al. Arabic-English text translation leveraging hybrid NER
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Klang et al. Linking, searching, and visualizing entities in wikipedia
Sakaguchi et al. Joint English spelling error correction and POS tagging for language learners writing
Rofiq Indonesian news extractive text summarization using latent semantic analysis
Spasic et al. Unsupervised multi-word term recognition in Welsh
Purev et al. Language resources for Mongolian
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
Fashwan et al. A rule based method for adding case ending diacritics for modern standard Arabic texts
Lu et al. Language model for Mongolian polyphone proofreading
Alkhazi et al. BAAC: Bangor Arabic Annotated Corpus
Wu et al. Correcting serial grammatical errors based on n-grams and syntax

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180209

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190226

Year of fee payment: 5