KR20150007647A - 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 - Google Patents

교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 Download PDF

Info

Publication number
KR20150007647A
KR20150007647A KR20130081911A KR20130081911A KR20150007647A KR 20150007647 A KR20150007647 A KR 20150007647A KR 20130081911 A KR20130081911 A KR 20130081911A KR 20130081911 A KR20130081911 A KR 20130081911A KR 20150007647 A KR20150007647 A KR 20150007647A
Authority
KR
South Korea
Prior art keywords
vocabulary
context
spelling error
correction
morpheme
Prior art date
Application number
KR20130081911A
Other languages
English (en)
Other versions
KR101495240B1 (ko
Inventor
권혁철
윤애선
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR20130081911A priority Critical patent/KR101495240B1/ko
Publication of KR20150007647A publication Critical patent/KR20150007647A/ko
Application granted granted Critical
Publication of KR101495240B1 publication Critical patent/KR101495240B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)

Abstract

본 발명은 문맥 철자오류(context-sensitive spelling error) 교정을 위하여 미리 구축한 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 출현빈도에 바탕을 둔 통계적 언어모형을 이용하여 문맥 철자오류 교정의 정확도와 재현율 모두를 일정 수준 이상으로 유지할 수 있도록 한 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법에 관한 것으로, 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부;입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부;상기 형태소 분석부에서 분석된 형태소 중 형태소 중의성이 발생하면 형태소 중의성 제거를 하는 품사 태깅부;해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 연관성 분석부;상기 연관성 분석부에서 도출한 수치를 이용하여 철자오류 여부를 판단하고 철자오류를 교정하는 철자오류 교정부;를 포함하는 것이다.

Description

교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법{Method and system for statistical context-sensitive spelling correction using confusion set}
본 발명은 문맥 철자오류(context-sensitive spelling error) 교정에 관한 것으로, 구체적으로 미리 구축한 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 출현빈도에 바탕을 둔 통계적 언어모형을 이용하여 문맥 철자오류 교정의 정확도와 재현율 모두를 일정 수준 이상으로 유지할 수 있도록 한 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법에 관한 것이다.
컴퓨터, 인터넷과 스마트폰(smart phone)이 융합된 정보환경은 SNS(social network service)를 비롯한 새로운 정보유통 환경을 구축하였고, 모든 사람이 정보의 생산자이자 소비자가 되었다. 이에 따라 실수든 의도적이든 또는 무지든 문서에 포함된 철자 오류는 더욱 증가하고 있다.
여기에 더해 두벌식 자판, 세벌식 자판, 스마트폰과 피처폰(feature phone; 일반 휴대전화) 등 다양한 입력 환경에 따라 입력 오류의 형태도 다양한 다른 특성을 보이면서 발생하고 있다. 여기에 더해 한류, 국제결혼의 증가와 같은 국제화에 따라 한국어를 사용하거나 배우는 외국인이 크게 늘고 있다.
이런 환경 변화에 따라 한국어 문서 교정기의 성능 향상에 대한 요구가 증대하고 있다.
그런데 기존의 규칙에 기반을 둔 철자 검사 기술로는 이런 변화에 적응하는 문서 교정기를 개발하기는 불가능하다. 그 가장 큰 이유는 '문맥 철자오류'가 현재 해결해야 할 중요한 대상이지만, 기존 문서 교정기는 규칙에 기반을 둔 접근이므로 한국어 사용자가 자주 틀리는 정형화된 문맥 철자오류 외에는 고칠 수 없기 때문이다.
Figure pat00001
일반적으로 한국어 문장에서 나타나는 오류어의 유형은 크게 단순 철자오류(non-word spelling error)와 문맥 철자오류로 구분할 수 있다.
전자는 '결죄'와 같이 사전에 등재되지 않은 어휘를 사용한 오류로서 텍스트를 형태적으로 분석하는 것만으로 쉽게 오류어를 검색할 수 있다. 반면에 후자는 '요금 결재'의 '결재'와 같이 문맥의 의미통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있다.
표 1은 문맥 철자 오류의 유형을 구분한 것으로, 문맥 철자 오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계적 방법으로 나뉜다.
규칙을 이용한 방법은 사람이 직접 규칙을 만드는 방법과 기계 학습을 이용하는 방법으로 나뉜다.
통계적 문맥 철자 오류 검사와 교정 방법은 영어를 대상으로 활발히 연구되었으며, 다음과 같이 크게 3가지를 들 수 있다.
첫 번째는 교정 어휘 쌍을 이용한 방법으로 기본적으로 어의 중의성 해결(word sense disambiguation, WSD) 방식과 같은 방법론을 이용한다. 즉, 교정 어휘 쌍에 해당하는 단어가 중의적이라 보고, 통계적 방법으로 중의성을 해결한 후 그 결과와 원래 단어가 같으면 철자가 바르다고 보고, 아니면 문맥 철자 오류로 본다.
두 번째 방법은 n-gram에 기반을 둔 언어모형을 사용하는 것이다. 이 방법은 대용량 말뭉치에서 어절 n-gram을 구하고, 이를 바탕으로 각 문장 또는 부분 문장의 확률을 계산한다. 그리고 그 문장 또는 부분 문장에서 빈도가 낮은 n-gram 중 철자 오류로 생성될 수 있으면서 확률이 높은 n-gram으로 대치한 문장이나 부분 문장의 확률을 원래 확률과 비교하여 문맥 철자 오류를 찾는 방법이다.
세 번째 방법은 문서 전체를 분석하여 사용된 어휘가 문맥상으로 일관성을 유지하는지를 검증하는 방법이다. 이 방법은 어휘 간의 관계를 분석하기 위한 일종의 지식베이스가 필요하다.
그러나 이와 같은 통계적 문맥 철자 오류 검사와 교정 방법은 교정 결과의 정확도와 재현율이 크기 떨어지거나, 실제 구현이 어려운 문제가 있다.
특히, 문맥 철자오류 유형 중 가장 빈번하게 발생하는 오류는 오타에 의해 발생하는 오류이다.
예를 들어, 자판을 이용하여 "오류 교정"을 입력할 때 글쇠 위치가 가까워 "오류 교정"을 "오류 고정"으로 입력할 수 있다. 그런데 "교정"에서 "ㅛ"를 위에 있는 "ㅗ"로 잘못 입력한 결과가 우리가 사용하는 단어인 "고정"이 되어 의미 분석 없이 이 오류를 찾기는 쉽지 않다.
"교정"은 편집거리 1인 "고정", "교장", "교전", "교종" 따위로 잘못 입력되어도 오류를 교정하려면 의미 분석이 필요하다. 하지만 현재 개발된 의미분석 기술로 문맥 철자 오류를 교정하는 것은 불가능하다.
본 발명은 이와 같은 종래 기술의 문맥 철자 오류 검사와 교정 방법의 문제를 해결하기 위한 것으로, 미리 구축한 교정 어휘 쌍을 이용하여 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 출현빈도에 바탕을 둔 통계 모형을 이용하여 문맥 철자오류를 검색하고 교정하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 미리 구축한 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 출현빈도에 바탕을 둔 통계적 언어모형을 이용하여 문맥 철자오류 교정의 정확도와 재현율 모두를 일정 수준 이상으로 유지할 수 있도록 한 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 오타 발생률(typing error rate)에 바탕을 둔 신뢰도를 이용하여 문맥 철자오류 교정의 정확도를 일정 수준 이상으로 유지하면서, 문맥 철자오류 검색과 교정에 이용하는 주변 문맥 어휘의 범위를 제한하면서 문맥 철자오류를 검색하고 교정하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치는 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부;입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부;상기 형태소 분석부에서 분석된 형태소 중 형태소 중의성이 발생하면 형태소 중의성 제거를 하는 품사 태깅부;해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 연관성 분석부;상기 연관성 분석부에서 도출한 수치를 이용하여 철자오류 여부를 판단하고 철자오류를 교정하는 철자오류 교정부;를 포함하는 것을 특징으로 한다.
여기서, 상기 철자오류 교정부는, 교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 조건부 확률값과 오타율에 기반을 둔 신뢰도의 곱을 이용하여 문맥 철자오류 교정을 수행하는 것을 특징으로 한다.
그리고 상기 철자오류 교정부는, 교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 오타율에 기반을 둔 신뢰도를 변화시켜 교정의 정확도와 재현율을 조절하는 것을 특징으로 한다.
그리고 상기 연관성 분석부는, 조건부 확률값을 구할 때, 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 의미 연관성이 일정값을 넘지 않을 때는 해당 어휘는 제외하는 것을 특징으로 한다.
그리고 상기 연관성 분석부는, 조건부 확률값을 구할 때, 주변 문맥에 나타나는 어휘를 교정 어휘 쌍의 각 어휘가 발생한 위치를 기준으로 윈도우 크기(window size)를 이용하여 선별하는 것을 특징으로 한다.
그리고 상기 연관성 분석부는, 윈도우 크기(window size)를 고정하지 않고 동적으로 구하면서 주변 문맥에 나타나는 어휘를 선별하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법은 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 단계;입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 단계;분석된 형태소 중 형태소 중의성이 발생하면 형태소 중의성 제거를 하는 단계;해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 단계;정량화하여 도출한 수치를 이용하여 철자오류 여부를 판단하고 철자오류를 교정하는 단계;를 포함하는 것을 특징으로 한다.
여기서, 상기 해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 단계에서,
나이브베이즈(naive bayes)를 이용하여 '교정 어휘 쌍' 중 문맥에 해당하는 어휘를 선택하는 방법을 수식화하면,
Figure pat00002
이고, TW(target words)는 교정 어휘 쌍, tw1과 tw2는 편집거리 1에 해당하는 어휘, CW(context words)는 교정 어휘 쌍과 함께 나타나는 문맥 정보이고, 나이브베이즈에 의해 사후 확률(posterior probability) P(CW|TW)는 tw와 CW 간 조건부 확률로 계산하고, 사전 확률(prior probability) P(TW)는 TW의 발생빈도로 계산하는 것을 특징으로 한다.
상기 사전 확률을 오타 발생률로 보고 수식을 정리하면,
Figure pat00003
CR(credibility reliability)은 어휘의 신뢰도이고, 교정 어휘 쌍의 어휘 중 문맥 철자오류 발생 여부를 검사하는 문맥에 나타난 대상어에는 CR의 신뢰도를 대치어에는 1-CR의 신뢰도를 부여하고, 나이브베이즈에서와 같이 사후 확률(posterior probability) P(CW|TW)는 tw와 CW 간 조건부 확률로 계산하는 것을 특징으로 한다.
이와 같은 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법은 다음과 같은 효과를 갖는다.
첫째, 미리 구축한 교정 어휘 쌍을 이용하여 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 출현빈도에 바탕을 둔 통계 모형을 이용하여 문맥 철자오류를 검색하고 교정할 수 있다.
둘째, 통계적 언어모형을 이용하여 문맥 철자오류 교정의 정확도와 재현율 모두를 일정 수준 이상으로 유지할 수 있다.
셋째, 오타 발생률(typing error rate)에 바탕을 둔 신뢰도를 이용하여 문맥 철자오류 교정의 정확도를 일정 수준 이상으로 유지할 수 있다.
넷째, 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써 좁게는 한국어 문서 교정기의 성능을 높일 수 있다.
다섯째, 한국어 정보검색과 정보추출, 한국어 사용자 인터페이스, 기계번역, 자동통역 등 다양한 한국어 관련 응용 시스템의 기반 기술로 활용할 수 있다.
여섯째, 다양한 한국어 관련 응용 시스템이 최적의 성능을 낼 수 있게 함으로써 사용자 만족도를 높이면서 새로운 응용을 창출하게 하는 효과가 있다.
도 1은 본 발명에 따른 문맥 철자오류 교정 장치의 구성도
도 2는 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 나타낸 플로우 차트
이하, 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 문맥 철자오류 교정 장치의 구성도이고, 도 2는 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 나타낸 플로우 차트이다.
본 발명은 사용자가 입력한 한국어 문장에서 나타나는 여러 맞춤법 문법 오류 중에서 사전(事典) 검색을 통해 해결할 수 없는 문맥철자오류(context-sensitive spelling error)를 검색하고, 이를 교정할 대치어를 제시하는 문맥 철자오류 교정 장치 및 그 방법에 관한 것이다.
문맥 철자오류의 처리를 위한 연구는 크게 규칙을 이용한 방법과 통계적 방법으로 나눌 수 있다.
규칙을 이용한 방법은 통계적 방법과 비교하면 정확도(precision)는 높지만, 재현율(recall)은 낮다. 이론적으로 정확도와 재현율은 반대로 움직이기 때문에, 정확도를 높이는 방법은 재현율의 감소를 동반한다.
맞춤법에 관한 지식이 없는 일반 사용자는 정확도가 높은 방법을 선호하겠지만, 교과서나 도서 교열을 담당하는 전문가는 정확도가 너무 떨어져 불편한 정도가 아니라면 오류 검색과 대치어 제시가 최대한으로 이루어지기를 원한다.
즉, 정확도가 어느 정도 유지되는 선에서 재현율이 높아지기를 원한다. 본 발명은 문맥 철자오류 교정의 정확도와 재현율 모두를 일정 수준 이상으로 유지하면서 재현율을 높이기 위해 통계적 언어모형을 이용하여 문맥 철자오류를 교정할 수 있도록 한 것이다.
이를 위한 본 발명은 통계적 문맥 철자오류 교정을 위하여 "교정 어휘 쌍"을 이용하는 것이다.
이를 위한 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치는 도 1에서와 같이, 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부(101)와, 입력부(101)를 통해 입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부(102)와, 형태소 분석부(102)에서 분석된 형태소 중 형태소 중의성이 발생하면 형태소 중의성 제거를 하는 품사 태깅부(103)와, 해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 연관성 분석부(104)와, 연관성 분석부(104)에서 도출한 수치를 이용하여 철자오류 여부를 판단하고 철자오류를 교정하여 출력부(106)로 교정 결과를 보내는 철자오류 교정부(105)를 포함한다.
여기서, 철자오류 교정부(105)는 교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 조건부 확률값과 오타율에 기반을 둔 신뢰도의 곱을 이용하여 문맥 철자오류 교정을 수행한다.
그리고 철자오류 교정부(105)는 교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 오타율에 기반을 둔 신뢰도를 변화시켜 교정의 정확도와 재현율을 조절할 수 있다.
그리고 연관성 분석부(104)는 조건부 확률값을 구할 때, 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 의미 연관성이 일정값을 넘지 않을 때는 해당 어휘는 제외한다.
그리고 연관성 분석부(104)는 조건부 확률값을 구할 때, 주변 문맥에 나타나는 어휘를 교정 어휘 쌍의 각 어휘가 발생한 위치를 기준으로 윈도우 크기(window size)를 이용하여 선별한다.
여기서, 윈도우 크기(window size)를 고정하지 않고 동적으로 구하면서 주변 문맥에 나타나는 어휘를 선별하는 것도 가능하다.
이와 같은 본 발명에 따른 문맥 철자오류 교정 장치에서의 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정은 다음과 같은 방법으로 이루어진다.
도 2에서와 같이, 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 단계(S201)와, 입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 단계(S202)와, 분석된 형태소 중 형태소 중의성이 발생하면 형태소 중의성 제거를 하는 단계(S203)와, 해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 단계(S204)와, 도출한 수치를 이용하여 철자오류 여부를 판단하고 철자오류를 교정하고(S205), 교정 결과를 출력하는 단계(S206)를 포함한다.
여기서, 교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 조건부 확률값과 오타율에 기반을 둔 신뢰도의 곱을 이용하여 문맥 철자오류 교정을 수행한다.
그리고 교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 오타율에 기반을 둔 신뢰도를 변화시켜 교정의 정확도와 재현율을 조절할 수 있다.
그리고 조건부 확률값을 구할 때, 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 의미 연관성이 일정값을 넘지 않을 때는 해당 어휘는 제외한다. 조건부 확률값을 구할 때, 주변 문맥에 나타나는 어휘를 교정 어휘 쌍의 각 어휘가 발생한 위치를 기준으로 윈도우 크기(window size)를 이용하여 선별한다.
여기서, 윈도우 크기(window size)를 고정하지 않고 동적으로 구하면서 주변 문맥에 나타나는 어휘를 선별하는 것도 가능하다.
이상에서 설명한 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법에 관하여 좀더 구체적으로 설명하면 다음과 같다.
본 발명은 편집거리 1(edit distance)에 해당하는 어휘들을 '교정 어휘 쌍'으로 선정하고, '교정 어휘 쌍'의 어휘들과 문맥에 나타난 공기 어휘 간 확률을 계산하여 문맥 철자오류를 검색하고 교정한다.
편집거리는 일반적으로 하나의 문자열을 다른 문자열로 변환할 때 필요한 최소한의 연산의 개수를 의미한다.
수학식 1의 수식은 나이브베이즈(naive bayes)를 이용하여 '교정 어휘 쌍' 중 문맥에 해당하는 어휘를 선택하는 방법을 수식화한 것이다.
Figure pat00004
수학식 1에서 TW(target words)는 교정 어휘 쌍이고, tw1과 tw2는 편집거리 1에 해당하는 어휘이다. CW(context words)는 교정 어휘 쌍과 함께 나타나는 문맥 정보이다.
나이브베이즈에 의해 사후 확률(posterior probability) P(CW|TW)는 tw와 CW 간 조건부 확률로 계산할 수 있다. 그리고 사전 확률(prior probability) P(TW)는 TW의 발생빈도로 계산할 수 있다.
나이브베이즈에 의한 문맥 철자오류 교정은 특정 단어 자체의 발생 빈도를 사전 확률로 사용하기 때문에 교정 어휘 쌍의 어휘 중 발생 빈도가 높은 어휘에 유리하게 작용한다.
본 발명에서는 사전 확률을 오타 발생률로 보고 수식을 다음과 같이 수학식 2에서와 같이 변경하여 정의한다.
Figure pat00005
CR(credibility reliability)은 어휘의 신뢰도이고,
교정 어휘 쌍의 어휘 중 문맥 철자오류 발생 여부를 검사하는 문맥에 나타난 대상어에는 CR의 신뢰도를 대치어에는 1-CR의 신뢰도롤 부여한다.
이는 기존 발표된 오타 발생률이 0.95%로서 매우 낮으므로 실제 텍스트에 쓰인 단어가 오류가 아닐 확률이 높기 때문이다. 위 수학식 2에서 CR의 값에 따라 문맥 철자오류 교정의 정확도와 재현율이 달라질 수 있다.
나이브베이즈에서와 같이 사후 확률(posterior probability) P(CW|TW)는 tw와 CW 간 조건부 확률로 계산할 수 있다. 이때, CW의 모든 단어를 이용하여 사후 확률을 계산하지는 않는다. 왜냐하면, tw에서 멀리 떨어져서 발생하는 단어일수록 tw에 영향을 덜 미치기 때문이다.
또한, 윈도우 크기(windows size)를 특정값으로 고정하지 않고 동적으로 윈도우 크기(windows size)를 정하기 위해 부분적인 구문 분석을 수행하여 tw와 같은 구에 위치한 cw만 이용하도록 한다.
부분적인 구문 분석은 구를 찾는 방법으로서 tw를 기준으로 tw에 선행하는 동사의 바로 다음 어절부터 tw에 후행하는 동사까지의 cw만 문맥 철자오류 교정에 이용한다.
이와 같은 본 발명에 따른 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법은 사용자가 입력한 한국어 문장에서 나타나는 여러 맞춤법 문법 오류 중에서 사전(事典) 검색을 통해 해결할 수 없는 문맥철자오류(context-sensitive spelling error)를 검색하고, 이를 교정할 대치어를 제시하는 것이다. 이를 위하여 미리 구축한 교정 어휘 쌍을 이용하여 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 출현빈도에 바탕을 둔 통계 모형을 이용하여 문맥 철자오류를 검색하고 교정하는 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
101. 입력부 102. 형태소 분석부
103. 품사 태깅부 104. 연관성 분석부
105. 철자 오류 교정부 106. 출력부

Claims (9)

  1. 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 입력부;
    입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 형태소 분석부;
    상기 형태소 분석부에서 분석된 형태소 중 형태소 중의성이 발생하면 형태소 중의성 제거를 하는 품사 태깅부;
    해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 연관성 분석부;
    상기 연관성 분석부에서 도출한 수치를 이용하여 철자오류 여부를 판단하고 철자오류를 교정하는 철자오류 교정부;를 포함하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치.
  2. 제 1 항에 있어서, 상기 철자오류 교정부는,
    교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 조건부 확률값과 오타율에 기반을 둔 신뢰도의 곱을 이용하여 문맥 철자오류 교정을 수행하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치.
  3. 제 1 항에 있어서, 상기 철자오류 교정부는,
    교정 어휘 쌍을 이용한 문맥 철자오류 교정 과정에서 오타율에 기반을 둔 신뢰도를 변화시켜 교정의 정확도와 재현율을 조절하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치.
  4. 제 1 항에 있어서, 상기 연관성 분석부는,
    조건부 확률값을 구할 때, 교정 어휘 쌍의 각 어휘와 주변 문맥에 나타난 어휘 간 의미 연관성이 일정값을 넘지 않을 때는 해당 어휘는 제외하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치.
  5. 제 1 항에 있어서, 상기 연관성 분석부는,
    조건부 확률값을 구할 때, 주변 문맥에 나타나는 어휘를 교정 어휘 쌍의 각 어휘가 발생한 위치를 기준으로 윈도우 크기(window size)를 이용하여 선별하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치.
  6. 제 5 항에 있어서, 상기 연관성 분석부는,
    윈도우 크기(window size)를 고정하지 않고 동적으로 구하면서 주변 문맥에 나타나는 어휘를 선별하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치.
  7. 문맥 철자오류를 검색하고 교정하기 위한 문장을 입력하는 단계;
    입력된 문장에 대하여 형태소 분석 사전에 기반을 두고 어절을 형태소 단위로 분리해내는 형태소 분석을 수행하는 단계;
    분석된 형태소 중 형태소 중의성이 발생하면 형태소 중의성 제거를 하는 단계;
    해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 단계;
    정량화하여 도출한 수치를 이용하여 철자오류 여부를 판단하고 철자오류를 교정하는 단계;를 포함하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법.
  8. 제 7 항에 있어서, 상기 해당 어휘와 주변 문맥에 나타난 어휘 간 연관성을 조건부 확률과 신뢰도를 이용하여 정량화하는 단계에서,
    나이브베이즈(naive bayes)를 이용하여 '교정 어휘 쌍' 중 문맥에 해당하는 어휘를 선택하는 방법을 수식화하면,
    Figure pat00006
    이고, TW(target words)는 교정 어휘 쌍, tw1과 tw2는 편집거리 1에 해당하는 어휘, CW(context words)는 교정 어휘 쌍과 함께 나타나는 문맥 정보이고,
    나이브베이즈에 의해 사후 확률(posterior probability) P(CW|TW)는 tw와 CW 간 조건부 확률로 계산하고, 사전 확률(prior probability) P(TW)는 TW의 발생빈도로 계산하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법.
  9. 제 8 항에 있어서, 상기 사전 확률을 오타 발생률로 보고 수식을 정리하면,
    Figure pat00007

    CR(credibility reliability)은 어휘의 신뢰도이고, 교정 어휘 쌍의 어휘 중 문맥 철자오류 발생 여부를 검사하는 문맥에 나타난 대상어에는 CR의 신뢰도를 대치어에는 1-CR의 신뢰도롤 부여하고, 나이브베이즈에서와 같이 사후 확률(posterior probability) P(CW|TW)는 tw와 CW 간 조건부 확률로 계산하는 것을 특징으로 하는 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법.
KR20130081911A 2013-07-12 2013-07-12 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 KR101495240B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130081911A KR101495240B1 (ko) 2013-07-12 2013-07-12 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130081911A KR101495240B1 (ko) 2013-07-12 2013-07-12 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150007647A true KR20150007647A (ko) 2015-01-21
KR101495240B1 KR101495240B1 (ko) 2015-02-25

Family

ID=52570505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130081911A KR101495240B1 (ko) 2013-07-12 2013-07-12 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101495240B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180113849A (ko) * 2017-04-07 2018-10-17 주식회사 카카오 대량 데이터 기반 의미 오류 교정 규칙 생성 및 의미 오류 교정 방법, 이를 구현한 오류 교정 시스템
KR20190032911A (ko) * 2017-09-20 2019-03-28 장창영 문장 습관 분석 장치 및 방법
KR102182248B1 (ko) * 2020-06-16 2020-11-24 정승택 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
KR20220066738A (ko) * 2020-11-16 2022-05-24 주식회사 솔트룩스 딥 러닝 언어 모델 기반의 한국어 교정 시스템
CN114997148A (zh) * 2022-08-08 2022-09-02 湖南工商大学 一种基于对比学习的中文拼写校对预训练模型构建方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102348845B1 (ko) 2018-05-23 2022-01-11 부산대학교 산학협력단 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR102531114B1 (ko) 2020-04-16 2023-05-11 부산대학교 산학협력단 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR102517983B1 (ko) 2020-11-30 2023-04-05 부산대학교 산학협력단 생성적 적대 신경망을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR102453373B1 (ko) * 2021-10-08 2022-10-07 한국전자기술연구원 심층 학습 기반의 자동 오타 교정 장치 및 방법
KR20230054223A (ko) 2021-10-15 2023-04-24 부산대학교 산학협력단 단어 간의 관계 그래프 정보 기반의 문맥의존 철자오류 교정 장치 및 방법
KR20230057238A (ko) 2021-10-21 2023-04-28 부산대학교 산학협력단 실시간 채팅 환경에서의 이후 문맥 예측 정보를 이용한 문맥의존 철자오류 교정 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496873B1 (ko) 2003-10-24 2005-06-22 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
KR101070371B1 (ko) * 2009-08-13 2011-10-05 부산대학교 산학협력단 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180113849A (ko) * 2017-04-07 2018-10-17 주식회사 카카오 대량 데이터 기반 의미 오류 교정 규칙 생성 및 의미 오류 교정 방법, 이를 구현한 오류 교정 시스템
KR20190032911A (ko) * 2017-09-20 2019-03-28 장창영 문장 습관 분석 장치 및 방법
KR102182248B1 (ko) * 2020-06-16 2020-11-24 정승택 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
KR20220066738A (ko) * 2020-11-16 2022-05-24 주식회사 솔트룩스 딥 러닝 언어 모델 기반의 한국어 교정 시스템
CN114997148A (zh) * 2022-08-08 2022-09-02 湖南工商大学 一种基于对比学习的中文拼写校对预训练模型构建方法
CN114997148B (zh) * 2022-08-08 2022-11-04 湖南工商大学 一种基于对比学习的中文拼写校对预训练模型构建方法

Also Published As

Publication number Publication date
KR101495240B1 (ko) 2015-02-25

Similar Documents

Publication Publication Date Title
KR101495240B1 (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
JP5362353B2 (ja) 文書中のコロケーション誤りを処理すること
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
US20120297294A1 (en) Network search for writing assistance
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
US20100332217A1 (en) Method for text improvement via linguistic abstractions
KR102348845B1 (ko) 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN110147546B (zh) 一种英语口语的语法校正方法及装置
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
Dashti Real-word error correction with trigrams: correcting multiple errors in a sentence
Gamon et al. Search right and thou shalt find... using web queries for learner error detection
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
EP3629218A1 (en) Spell correction, morphological analysis and parsing for potentially ungrammatical language
Chiu et al. Chinese spell checking based on noisy channel model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180110

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190130

Year of fee payment: 5