KR102129575B1

KR102129575B1 - 단어 교정 시스템

Info

Publication number: KR102129575B1
Application number: KR1020180139409A
Authority: KR
Inventors: 이반 베를로셰; 김성현
Original assignee: 주식회사 솔트룩스
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2020-07-02
Also published as: KR20200057824A

Abstract

오탈자에 대하여 단어 의미 임베딩을 수행하는 단어 교정 시스템을 제공한다. 본 발명에 따른 단어 교정 시스템은, 네트워크를 통하여 사용자로부터 사용자 입력 단어를 입력받는 사용자 인터페이스; 학습용 어절과 사용자 입력 단어를 형태소별로 분리하고 분리된 각 형태소를 자소별로 분리하여 분석용 가공 데이터를 생성하고, 분석용 가공 데이터를 엔그램(n-Gram)들로 분리하여 엔그램 리스트를 생성하는 가공 데이터 생성부; 엔그램 리스트에 대하여 스킵-그램(Skip-Gram) 모델을 통해 단어 임베딩 학습을 수행하는 단어 임베딩 학습부; 및 엔그램 리스트로부터 의미 벡터를 생성하는 의미 벡터 생성부;를 포함한다.

Description

단어 교정 시스템{Word spelling correction system}

본 발명은 단어 교정 시스템에 관한 것으로, 자세하게는 오탈자를 교정하는 시스템에 관한 것이다.

본 발명은 산업통상자원부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 (주)솔트룩스에서 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2017.10.01.~2018.09.30., 연구관리 전문기관: 한국산업기술진흥원, 연구과제명: 모바일에 최적화된 멀티모달 질의응답 프레임워크 개발, 과제 고유번호: N0001701]

자연어는 사람들이 일상적으로 사용하는 언어를 말하며, 컴퓨터 과학에서 자연어 처리는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해 모사할 수 있도록 하는 과정을 말한다. 따라서, 자연어 처리에 가장 핵심적인 요소는 자연어를 컴퓨터가 이해할 수 있는 데이터로 변환시키는 기술이다.

정보기술이 발달하면서 단어 의미 임베딩 기술을 이용해 단어의 의미를 벡터 공간을 통해 표현함으로써 자연어 처리나 자연어 이해의 다양한 분야에 이것을 적용하려는 시도가 이뤄지고 있다.

하지만, 기존의 단어 의미 임베딩 기술은 문서 단어장에 존재하는 단어에 대해서만 임베딩이 가능하며, 신조어나 오탈자처럼 단어장에 존재하지 않은 단어는 벡터 정보를 획득하는 것이 불가능하다는 한계점이 있었다. 특히 한국어는 외래어에 대해서 외래어 표기법의 혼동에 따른 오탈자, 또는 겹받침에 대하여 발음으로 구분이 어려움에 따른 오탈자 등이 매우 많이 발생하며, 기존의 단어 의미 임베딩으로는 해결할 수 없다는 한계점이 있다.

본 발명의 기술적 과제는, 오탈자에 대하여 단어 의미 임베딩을 수행하는 단어 교정 시스템에 관한 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 기술적 사상의 일측면에 따른 단어 교정 시스템은, 네트워크를 통하여 사용자로부터 사용자 입력 단어를 입력받는 사용자 인터페이스; 학습용 어절과 상기 사용자 입력 단어를 형태소별로 분리하고 분리된 각 형태소를 자소별로 분리하여 분석용 가공 데이터를 생성하고, 상기 분석용 가공 데이터를 엔그램(n-Gram)들로 분리하여 엔그램 리스트를 생성하는 가공 데이터 생성부; 상기 엔그램 리스트에 대하여 스킵-그램(Skip-Gram) 모델을 통해 단어 임베딩 학습을 수행하는 단어 임베딩 학습부; 및 상기 엔그램 리스트로부터 의미 벡터를 생성하는 의미 벡터 생성부;를 포함한다.

상기 분석용 가공 데이터는, 형태소의 시각과 끝을 구분하는 기호, 및 음절 구분 기호를 포함할 수 있다.

상기 가공 데이터 생성부는, 상기 학습용 어절과 상기 사용자 입력 단어에 대하여 형태소 분석을 하여 형태소 별로 분리하는 형태소 분리부, 상기 형태소 분리부에서 분리된 각 형태소를 자소별로 분리하는 자소 분리부, 및 상기 자소 분리부에서 분리된 자음과 모음을 이용하여 엔그램들로 분리하는 엔그램 분리부를 포함할 수 있다.

상기 엔그램 분리부는, 상기 분석용 가공 데이터에서 각각 음절의 모음을 제거한 모음 제거 가공 데이터들을 생성한 후, 상기 모음 제거 가공 데이터들을 분리하여 엔그램들을 생성할 수 있다.

상기 엔그램 분리부는, 상기 모음 제거 가공 데이터들 각각을 이루는 x개의 문자에 대하여, 2개의 문자 내지 2보다 크고 x보다 작은 개수의 문자로 이루어지는 분리된 엔그램들을 생성할 수 있다.

상기 모음 제거 가공 데이터들의 개수는 상기 분석용 가공 데이터을 생성하는 데 사용된 형태소가 가지는 음절수와 동일할 수 있다.

상기 엔그램 분리부는, 상기 분석용 가공 데이터에서 각각 음절의 모음을 제거한 모음 제거 가공 데이터들, 및 각각의 음절의 종성을 제거한 종성 제거 가공 데이터들을 생성한 후, 상기 모음 제거 가공 데이터들, 및 상기 종성 제거 가공 데이터들을 분리하여 엔그램들을 생성할 수 있다.

상기 학습용 어절로부터 얻어진 의미 벡터와 상기 사용자 입력 단어로부터 얻어진 의미 벡터를 비교하여, 상기 사용자 입력 단어에 대한 인접 단어들을 선별하여 인접 단어 리스트를 제공하는 인접 단어 리스트 출력부; 상기 사용자 입력 단어로부터 얻어진 의미 벡터와 상기 선별된 인접 단어들의 의미 벡터의 유사도를 계산하여, 상기 사용자 입력 단어에 대하여 교정된 단어를 선정하는 유사도 계산부; 상기 선정된 교정된 단어를 자연어로 생성하여 상기 사용자 인터페이스를 통하여 사용자에게 제공하는 교정 단어 출력부;를 더 포함할 수 있다.

상기 의미 벡터 생성부는, 상기 엔그램 리스트의 모든 엔그램의 벡터를 합산한 후 그 평균을 구하여, 상기 의미 벡터를 생성할 수 있다.

본 발명에 따른 단어 교정 시스템은 다양한 자원으로부터의 학습할 단어 목록, 변환된 말뭉치 및 단어 의미 데이터를 이용한 단어 임베딩 학습을 통해 학습하고 인접 어절간의 유사도를 비교하여 오탈자와 같은 미학습 패턴에 대해서 본래의 단어와 유사한 벡터 정보를 획득할 수 있다.

또한, 종래의 단어 임베딩이 아닌 말뭉치에서 실질형태소의 의미적 정보를 이용한 단어 임베딩 학습을 수행하기 때문에 적은 학습 데이터로도 단어 임베딩 학습이 가능하며 학습 시간도 적게 걸릴 수 있다.

또한, 단순하게 등장하는 단어 위치적 정보가 아닌 학습할 단어의 의미 기반으로 학습함으로써 저 빈도의 단어 학습에도 효율적이며, 사전에 등장한 단어의 앤그램을 대상으로 하기 때문에 종래의 단어 임베딩 보다 많은 단어를 벡터로 표현할 수 있다.

또한, 종래의 위치 기반의 단어 임베딩이 아닌 실질형태소와 인접한 어절과 그 인접한 어절의 단어 의미 데이터(예컨대, 상위어나 동의어)를 인접 어절로 처리하여 단어 벡터를 생성함으로써, 단어들의 관계를 코사인 유사도를 통해 볼 수 있다.

특히, 본 발명에 따른 단어 교정 시스템은 형태소로 분리된 단어에 대하여 스킵-그램 모델을 통하여 단어 임베딩 학습을 수행하지 않고, 분리된 엔그램들의 목록인 엔그램 리스트를 이용해 스킵-그램 모델을 통해 단어 임베딩 학습을 수행하므로, 미학습 단어인 오탈자의 경우에도, 의미 벡터가 가장 인접한 단어를 통하여 본래의 단어를 획득할 수 있으므로, 오탈자를 교정할 수 있다.

도 1은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 개략적인 블록도이다.
도 2는 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 가공 데이터 생성부의 동작을 설명하기 위한 블록도이다.
도 3은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 형태소 분리부 및 자소 분리부의 동작을 설명하기 위한 순서도이다.
도 4는 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 엔그램 분리부의 동작을 설명하기 위한 순서도이다.
도 5는 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 가공 데이터 생성부의 동작을 설명하기 위한 블록도이다.
도 6은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 개략적인 블록도이다.
도 7은 도 1은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 개략적인 블록도이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하 도면 및 설명에서, 하나의 블록, 예를 들면, '~부' 또는 '~모듈'로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다.

본 발명의 구성 및 효과를 충분히 이해하기 위하여, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예들을 설명한다.

도 1은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 개략적인 블록도이다.

도 1을 참조하면, 단어 교정 시스템(1)은 가공 데이터 저장부(1000)로부터 학습용 어절을 제공받아 엔그램(n-Gram) 리스트(140)를 생성하는 가공 데이터 생성부(100), 가공 데이터 생성부(100)에서 생성한 엔그램 리스트(140)를 기초로 단어 임베딩 학습을 수행하는 단어 임베딩 학습부(200), 및 의미 벡터 생성부(300)를 포함한다. 단어 교정 시스템(1)은 의미 벡터 생성부(300)에서 생성한 학습 단어 의미 벡터를 저장하는 학습 단어 의미 벡터 저장소(350)를 더 포함할 수 있다.

가공 데이터 저장부(1000)는 가공 데이터 생성부(100)에서 엔그램 리스트(140)를 생성하기 위한 가공용 데이터인 학습용 어절을 가질 수 있다. 가공 데이터 생성부(100)는 예를 들면, NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 가공 데이터 생성부(100)는 논리적으로 구분되는 하나의 저장 장치이거나, 하나 또는 복수의 저장 장치를 논리적으로 구분하는 구분 단위이거나 물리적으로 구분되는 하나의 저장 장치 또는 논리적으로 구분되는 하나의 구분 단위 중 일부일 수 있다. 일부 실시 예에서, 가공 데이터 저장부(1000)는 단어 교정 시스템(1) 내에 포함되는 학습용 어절을 저장할 수 있는 공간일 수 있다.

다른 일부 실시 예에서, 가공 데이터 저장부(1000)는 단어 교정 시스템(1) 외부에서 학습용 어절을 저장하고 있는 공간 또는 시스템일 수 있으며, 이 경우, 단어 교정 시스템(1)은 네트워크를 통하여 가공 데이터 저장부(1000)와 연결될 수 있다. 가공 데이터 저장부(1000)는 예를 들면, 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료인 말뭉치, 또는 대용량의 어휘를 어휘 간의 연상 관계나 의미 관계로 보여주는 지식 베이스인 어휘 의미망일 수 있다. 예를 들면, 가공 데이터 저장부(1000)는 하나의 말뭉치, 또는 어휘 의미망일 수도 있으나, 이에 한정되지 않으며, 각각 별개로 구축된 복수의 말뭉치, 또는 어휘 의미망일 수도 있다.

가공 데이터 생성부(100)는 형태소 분리부(110), 자소 분리부(120), 및 엔그램 분리부(130)를 포함할 수 있다.

형태소 분리부(110)는 가공 데이터 저장부(1000)로부터 제공받은 학습용 어절에 대하여 형태소 분석을 하여, 형태소 별로 분리할 수 있다.

자소 분리부(120)는 형태소 분리부(110)에서 분리된 각 형태소를 자소별로 분리할 수 있다. 일부 실시 예에서, 자소 분리부(120)는 각 형태소를 자음과 모음으로 구분하여 분리할 수 있다. 다른 일부 실시 예에서, 자소 분리부(120)는 각 형태소를 초성, 중성, 종성(받침)으로 구분하도록 자음과 모음으로 분리할 수 있다.

일부 실시 예에서, 자소 분리부(120)는 분리된 자소 사이에 음절 구분 기호를 삽입할 수 있다.

엔그램 분리부(130)는 각 형태소를 자소 분리부(120)에서 분리된 자음과 모음을 이용하여 엔그램(n-Gram)으로 분리한다. 엔그램 분리부(130)는 엔그램으로 분리하기 이전에, 각 형태소가 포함하는 모음 각각, 및/또는 종성 각각에 대한 제거 과정을 수행할 수 있으며, 이 경우, 제거된 모음 및/또는 종성 대신에 제거 기호가 부여될 수 있다.

예를 들면, 하나의 형태소가 x개의 문자로 이루어지는 경우, 해당 형태소의 엔그램은 2개 내지 x-1개의 문자로 이루어질 수 있다. 이때, 형태소를 이루는 x개의 문자는, 자음과 모음 이외에, 형태소 분리부(110) 및/또는 자소 분리부(120)에서 부여된 구분 기호, 및/또는 엔그램 분리부(130)에서 부여된 제거 기호 등을 더 포함할 수 있다.

엔그램 분리부(130)에서 분리된 엔그램들의 목록은 엔그램 리스트(140)로 생성될 수 있다.

단어 임베딩 학습부(200)는 가공 데이터 생성부(100)로부터 전달받은 가공 데이터, 예를 들면 엔그램 리스트를 이용해 스킵-그램(Skip-Gram) 모델을 통해 단어 임베딩 학습을 수행할 수 있다.

예를 들면, 단어 임베딩 학습부(200)는 형태소에 대한 엔그램들의 목록인 엔그램 리스트 중에서 학습할 단어를 단어 임베딩에서의 스킵-그램의 입력층에 위치시키고, 단어 임베딩 학습을 통해 학습할 단어를 학습하여 단어 벡터를 생성할 수 있다. 단어 임베딩 학습부(200)는 단어 임베딩 학습의 피드포워드(feed forward) 과정과 백 프로퍼게이션(back propagation) 과정을 통해 단어 임베딩 학습을 수행하고, 백프로퍼게이션 과정에서 학습할 단어의 가공 데이터와 연결된 가중치 값을 변경하지 않고, 학습할 단어와 연결된 가중치 값을 변경할 수 있다.

의미 벡터 생성부(300)는 단어 임베딩 학습부(200)를 통해 학습된 단어의 의미 벡터를 생성할 수 있다. 일부 실시 예에서, 의미 벡터 생성부(300)는 학습된 단어 벡터 정보를 이용해 가장 벡터 유사도가 높은 단어들을 내림차순으로 n개 만큼 생성할 수 있으며, 이를 통하여 오탈자에 대한 교정 단어를 제공할 수 있다.

학습 단어 의미 벡터 저장소(350)는 학습된 단어의 의미 벡터를 저장할 수 있다. 학습 단어 의미 벡터 저장소(350)에 저장된 학습된 단어의 의미 벡터는, 오탈자에 대한 교정 단어를 제공하는 데에 사용될 수 있다.

학습 단어 의미 벡터 저장소(350)는 예를 들면, NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 학습 단어 의미 벡터 저장소(350)는 논리적으로 구분되는 하나의 저장 장치이거나, 하나 또는 복수의 저장 장치를 논리적으로 구분하는 구분 단위이거나 물리적으로 구분되는 하나의 저장 장치 또는 논리적으로 구분되는 하나의 구분 단위 중 일부일 수 있다.

본 발명에 따른 단어 교정 시스템(1)은 다양한 자원(예컨대, 말뭉치, 어휘 의미망)으로부터의 학습할 단어 목록, 변환된 말뭉치 및 단어 의미 데이터를 이용한 단어 임베딩 학습을 통해 학습하고 인접 어절간의 유사도를 비교하여 오탈자와 같은 미학습 패턴에 대해서 본래의 단어와 유사한 벡터 정보를 획득할 수 있다.

또한, 단순하게 등장하는 단어 위치적 정보가 아닌 학습할 단어의 의미 기반으로 학습함으로써 저 빈도의 단어 학습에도 효율적이며, 사전에 등장한 단어의 앤그램를 대상으로 하기 때문에 종래의 단어 임베딩 보다 많은 단어를 벡터로 표현할 수 있다.

특히, 본 발명에 따른 단어 교정 시스템(1)은 형태소로 분리된 단어에 대하여 스킵-그램 모델을 통하여 단어 임베딩 학습을 수행하지 않고, 분리된 엔그램들의 목록을 이용해 스킵-그램 모델을 통해 단어 임베딩 학습을 수행하므로, 미학습 단어인 오탈자의 경우에도, 의미 벡터가 가장 인접한 단어를 통하여 본래의 단어를 획득할 수 있으므로, 오탈자를 교정할 수 있다.

도 2는 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 가공 데이터 생성부의 동작을 설명하기 위한 블록도이고, 도 3은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 형태소 분리부 및 자소 분리부의 동작을 설명하기 위한 순서도이고, 도 4는 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 엔그램 분리부의 동작을 설명하기 위한 순서도이다.

도 2 내지 도 4를 함께 참조하면, 가공 데이터 생성부(100)는 형태소 분리부(110), 자소 분리부(120), 및 엔그램 분리부(130)를 포함한다. 엔그램 분리부(130)에서 분리된 엔그램들의 목록은 엔그램 리스트(140)로 생성될 수 있다.

형태소 분리부(110)는 가공 데이터 저장부(도 1의 1000)로부터 제공받은 학습용 어절에 대하여 형태소 분석을 하여, 형태소 별로 분리할 수 있다. 예를 들면, 가공 데이터 저장부(1000)가 '오렌지는 맛있다'라는 언어 자료를 가지고 있는 경우(S100), 가공 데이터 저장부(1000)는 '오렌지는'과 '맛있다'라는 학습용 어절을 형태소 분리부(110)에 제공할 수 있다(S200).

형태소 분리부(110)는 형태소 분리 모듈(112) 및 형태소 구분 기호 삽입 모듈(114)을 포함할 수 있다. 형태소 분리 모듈(112)은 '오렌지는'과 '맛있다'라는 어절에 대하여 형태소 분리를 하여, '오렌지', '는', '맛있', '다'와 같은 분리된 형태소를 구할 수 있다(S300). 형태소 구분 기호 삽입 모듈(114)은 형태소의 시작과 끝을 구분하는 기호를 삽입할 수 있다.

자소 분리부(120)는 자소 분리 모듈(122) 및 음절 구분 기호 삽입 모듈(124)을 포함할 수 있다. 자소 분리 모듈(122)은 각 형태소를 자음과 모음으로 구분하여 분리할 수 있다. 예를 들면, 자소 분리 모듈(122)은 각 형태소를 한국어 자소인 자음 19개(ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅅ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ, ㄲ, ㄸ, ㅃ, ㅆ, ㅉ) 및 모음 21개(ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, ㅜ, ㅠ, ㅡ, ㅣ, ㅐ, ㅒ, ㅔ, ㅖ, ㅘ, ㅙ, ㅚ, ㅝ, ㅞ, ㅟ, ㅢ)의 총 40자로 분해하는 과정을 수행할 수 있다.

자소 분리 모듈(122)은 우선 형태소인 '오렌지'에 대하여 '오', '렌', '지'로 음절 분리를 한 후에(S400), 'ㅇ', 'ㅗ', 'ㄹ', 'ㅔ', 'ㄴ', 'ㅈ', 'ㅣ'로 자소 분리를 할 수 있다(S500). 음절 구분 기호 삽입 모듈(124)은 각 음절 사이에 음절 구분 기호를 삽입할 수 있다.

예를 들면, 형태소 구분 기호 삽입 모듈(114)에서는 형태소의 시작과 끝 각각에 형태소의 시작과 끝을 구분하는 기호인 '<'과 '>'를 삽입하고, 음절 구분 기호 삽입 모듈(124)은 각 음절 사이에 음절 구분 기호인 '

'를 삽입할 수 있다. 따라서, 형태소 분리부(110)와 자소 분리부(120)를 통하여, '오렌지'라는 형태소는 '<ㅇㅗ

ㄹㅔㄴ

ㅈㅣ>'와 같은 분석용 가공 데이터로 가공될 수 있다(S600). 자소가 분리되고, 형태소 구분 기호와 음절 구분 기호가 삽입되도록 가공된 형태소를 분석용 가공 데이터라 호칭할 수 있다.

도 3에서는, 형태소 구분 기호와 음절 구분 기호를 최종 단계(S600)에서 삽입한 것으로 도시되었으나, 이는 형태소, 음절, 및 자소 분리 각각의 과정을 위주로 도시하기 위한 것으로, 이에 한정되지 않는다. 예를 들면, 형태소 구분 기호는 형태소가 분리되는 S300 단계에서 삽입될 수 있고, 음절 구분 기호는 음절이 분리되는 S400 단계에서 삽입될 수도 있다.

엔그램 분리부(130)는 각 형태소의 분석용 가공 데이터를 이용하여 엔그램으로 분리한다. 엔그램 분리부(130)는 엔그램으로 분리하기 이전에, 각 형태소가 포함하는 모음 각각에 대한 제거 과정을 수행하는 모음 제거 모듈(132) 및, 엔그램으로 분리하는 엔그램 리스트 생성 모듈(136)을 포함할 수 있다.

'오렌지'라는 형태소에 대하여 '<ㅇㅗ

ㄹㅔㄴ

ㅈㅣ>'라는 분석용 가공 데이터가 제공되면(S600), 모음 제거 모듈(132)은 음절 각각의 모음을 제거하여, '<ㅇ

ㄹㅔㄴ

ㅈㅣ>', '<ㅇㅗ

ㄹㄴ

ㅈㅣ>', '<ㅇㅗ

ㄹㅔㄴ

ㅈ>'와 같은 모음 제거 가공 데이터들을 생성할 수 있다(S700). 모음 제거 가공 데이터들의 개수는 분석용 가공 데이터를 생성하는 데에 사용된 형태소가 가지는 음절수와 동일할 수 있다.

엔그램 리스트 생성 모듈(136)은 모음 제거 가공 데이터들 각각을 엔그램으로 분리할 수 있다. 예를 들면, 하나의 형태소에 대한 모음 제거 가공 데이터가 x개의 문자로 이루어지는 경우, 엔그램 리스트 생성 모듈(136)은 해당 형태소에 대하여 2개 내지 x-1개의 문자로 이루어지는 분리된 엔그램을 생성할 수 있다. 즉, 엔그램 범위는 2 내지 x-1일 수 있다. '<ㅇ

ㄹㅔㄴ

ㅈㅣ>', '<ㅇㅗ

ㄹㄴ

ㅈㅣ>', '<ㅇㅗ

ㄹㅔㄴ

ㅈ>'와 같이 모음 제거 가공 데이터들이 10개의 문자로 이루어지는 경우, 엔그램 리스트 생성 모듈(136)은 2개 내지 9개의 문자로 이루어지는 분리된 엔그램을 생성할 수 있다.

구체적으로 살펴보면, '<ㅇ

ㄹㅔㄴ

ㅈㅣ>'에 대해서 3개로 이루어지는 엔그램을 분리하여, '<ㅇ

', 'ㅇ

ㄹ', '

ㄹㅔ', 'ㄹㅔㄴ', 'ㅔㄴ

', 'ㄴ

ㅈ', '

ㅈㅣ', 'ㅈㅣ>'와 같은 엔그램을 분리할 수 있고, '<ㅇㅗ

ㄹㄴ

ㅈㅣ>'에 대해서 3개로 이루어지는 엔그램을 분리하여, '<ㅇㅗ', 'ㅇㅗ

', 'ㅗ

ㄹ', '

ㄹㄴ', 'ㄹㄴ

', 'ㄴ

ㅈ', '

ㅈㅣ', 'ㅈㅣ>'와 같은 엔그램을 분리할 수 있고, , '<ㅇㅗ

ㄹㅔㄴ

ㅈ>'에 대하여 3개로 이루어지는 엔그램을 분리하여, '<ㅇㅗ', 'ㅇㅗ

', 'ㅗ

ㄹ', '

ㄹㅔ', 'ㄹㅔㄴ', 'ㅔㄴ

', 'ㄴ

ㅈ', '

ㅈ>'와 같은 엔그램을 분리할 수 있다(S800).

일부 실시 예에서, 엔그램 리스트 생성 모듈(136)은 2개 내지 2보다 크고 x-1보다 작은 개수의 문자, 예를 들면, 2개 내지 6개로 이루어지는 분리된 엔그램을 생성할 수도 있다. 즉, 엔그램 범위는 2 내지 x-1보다 작은 수, 예를 들면, 2 내지 6일 수 있다.

이와 같은, 엔그램 리스트 생성 모듈(136)에서 생성된 분리된 엔그램들의 목록은 엔그램 리스트(140)로 생성될 수 있다. 예를 들면, 엔그램 리스트(140)는 분리된 엔그램들 중 중복되는 엔그램이 제거된 '<ㅇ

', 'ㅇ

ㄹ', '

ㄹㅔ', 'ㄹㅔㄴ', 'ㅔㄴ

', 'ㄴ

ㅈ', '

ㅈㅣ', 'ㅈㅣ>', '<ㅇㅗ', 'ㅇㅗ

', 'ㅗ

ㄹ', '

ㄹㄴ', 'ㄹㄴ

', '

ㅈ>'로 생성될 수 있다(S900). 도 4에는 예시적으로, 3개로 이루어지는 분리된 엔그램을 도시하였으며, 이에 대해여 설명하였으나, 생성된 엔그램 리스트(140)는 2개, 및 4개 이상의 분리된 엔그램을 더 포함할 수 있다.

도 5는 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 가공 데이터 생성부의 동작을 설명하기 위한 블록도이다.

도 5를 참조하면, 가공 데이터 생성부(100)는 형태소 분리부(110), 자소 분리부(120), 및 엔그램 분리부(130)를 포함한다. 엔그램 분리부(130)에서 분리된 엔그램들의 목록은 엔그램 리스트(140)로 생성될 수 있다.

자소 분리부(120)는 자소 분리 모듈(122) 및 음절 구분 기호 삽입 모듈(124)을 포함할 수 있다. 자소 분리 모듈(122)은 일부 실시 예에서, 자소 분리 모듈(122)은 각 형태소를 초성, 중성, 종성(받침)으로 구분하도록 자음과 모음으로 분리할 수 있다. 예를 들면, 자소 분리 모듈(120)은 각 형태소를 초성인 자음 19개(ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅅ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ, ㄲ, ㄸ, ㅃ, ㅆ, ㅉ), 중성인 모음 21개(ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, ㅜ, ㅠ, ㅡ, ㅣ, ㅐ, ㅒ, ㅔ, ㅖ, ㅘ, ㅙ, ㅚ, ㅝ, ㅞ, ㅟ, ㅢ), 및 받침 27개(ㄱ, ㄲ, ㄳ, ㄴ, ㄵ, ㄶ, ㄷ, ㄹ, ㄺ, ㄻ, ㄼ, ㄽ, ㄾ, ㄿ, ㅀ, ㅁ, ㅂ, ㅄ, ㅅ, ㅆ, ㅇ, ㅈ, ㅊ, ㅋ, ㅌ, ㅍ, ㅎ)의 총 67자로 분해하는 과정을 수행할 수 있다. 일부 실시 예에서, 자소 분리 모듈(120)은 종성(받침)을 가지지 않는 음절에는 종성 미포함 기호(예를 들면, '

')를 삽입할 수 있다. 따라서, 자소 분리부(120)는 '오렌지'라는 형태소에 대하여 '<ㅇㅗ

ㄹㅔㄴ

ㅈㅣ

>'라는 분석용 가공 데이터를 제공할 수 있다. 다른 일부 실시 예에서, 자소 분리 모듈(120)은 종성 미포함 기호를 삽입하지 않을 수 있고, 이 경우, 음절 구분 기호인 '

' 앞에 모음이 오는 경우, 종성이 포함되지 않는 것으로 판단할 수 있다.

엔그램 분리부(130)는 각 형태소의 분석용 가공 데이터를 이용하여 엔그램으로 분리한다. 엔그램 분리부(130)는 모음 제거 모듈(132), 종성 제거 모듈(134) 및, 엔그램으로 분리하는 엔그램 리스트 생성 모듈(136)을 포함할 수 있다.

'오렌지'라는 형태소에 대하여 '<ㅇㅗ

ㄹㅔㄴ

ㅈㅣ

>''라는 분석용 가공 데이터가 제공되면, 모음 제거 모듈(132)은 음절 각각의 모음을 제거하여, '<ㅇ

ㄹㅔㄴ

ㅈㅣ

>', '<ㅇㅗ

ㄹㄴ

ㅈㅣ

>', '<ㅇㅗ

ㄹㅔㄴ

ㅈ

>'와 같은 모음 제거 가공 데이터들을 생성할 수 있고, 종성 제거 모듈(134)은 음절 각각의 종성을 제거하여, '<ㅇㅗ

ㄹㅔㄴ

ㅈㅣ

>', '<ㅇㅗ

ㄹㅔ

ㅈㅣ

>', '<ㅇㅗ

ㄹㅔㄴ

ㅈㅣ>'와 같은 종성 제거 가공 데이터들을 생성할 수 있다. 종성 제거 가공 데이터들의 개수는 분석용 가공 데이터를 생성하는 데에 사용된 형태소가 가지는 음절수와 동일할 수 있다.

엔그램 리스트 생성 모듈(136)은 모음 제거 가공 데이터 및 종성 제거 가공 데이터 각각을 엔그램으로 분리할 수 있고, 이와 같은, 엔그램 리스트 생성 모듈(136)에서 생성된 분리된 엔그램들의 목록은 엔그램 리스트(140)로 생성될 수 있다.

도 6은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 개략적인 블록도이다.

도 6을 참조하면, 단어 교정 시스템(2)은 네트워크(50)를 통하여 사용자(10)로부터 단어를 입력받고, 교정된 단어를 제공하는 사용자 인터페이스(UI, 20)를 포함한다.

네트워크(50)는 유선 인터넷 서비스, 근거리 통신망(LAN), 광대역 통신망(WAN), 인트라넷, 무선 인터넷 서비스, 이동 컴퓨팅 서비스, 무선 데이터 통신 서비스, 무선 인터넷 접속 서비스, 위성 통신 서비스, 무선 랜, 블루투스 등 유/무선을 통하여 데이터를 주고 받을 수 있는 것을 모두 포함할 수 있다. 네트워크(50)가 스마트폰 또는 태블릿 등과 연결되는 경우, 네트워크(50)는 3G, 4G, 5G 등의 무선 데이터 통신 서비스, 와이파이(Wi-Fi) 등의 무선 랜, 블루투스 등일 수 있다.

사용자 인터페이스(50)는 사용자(10)가 사용하는 단말기 등을 통하여 단어 교정 시스템(2)에 엑세스하기 위한 인터페이스를 제공할 수 있다. 사용자(10)는 사용자 인터페이스(20)를 통하여 단어 교정 시스템(2)에 단어를 입력하여 전송할 수 있고, 사용자 인터페이스(20)를 통하여 단어 교정 시스템(2)가 제공하는 교정된 단어를 수신할 수 있다.

단어 교정 시스템(2)은, 가공 데이터 생성부(100), 단어 임베딩 학습부(200), 의미 벡터 생성부(300), 및 학습 단어 의미 벡터 저장소(350)를 포함한다. 단어 교정 시스템(2)이 가지는 가공 데이터 생성부(100), 단어 임베딩 학습부(200), 및 의미 벡터 생성부(300)는 도 1 내지 도 5를 통하여 설명한 가공 데이터 생성부(100), 단어 임베딩 학습부(200), 및 의미 벡터 생성부(300)와 실질적으로 동일하며, 사용자(10)가 사용자 인터페이스(50)를 통하여 입력한 단어가 교정이 필요한 오탈자인 경우에, 오탈자인 단어(사용자 입력 단어)에 대해서 도 1 내지 도 5를 통하여 설명한 과정을 수행한다. 학습 단어 의미 벡터 저장소(350)는 도 1 내지 도 5를 통하여 설명한 오타자가 아닌 올바른 형태소(학습 단어, 또는 학습용 어절)에 대한 학습 단어의 의미 벡터가 저장될 수 있다.

단어 임베딩 학습부(200) 및 의미 벡터 생성부(300)는 엔그램 리스트(140)를 대상으로 엔그램 임베딩을 수행함으로써 엔그램 벡터들을 획득할 수 있다. 단어의 의미 벡터는 엔그램 리스트의 모든 엔그램 벡터를 모두 합산하여 그 평균을 구함으로써 획득할 수 있으며, 이를 수학식으로 나타내면, 다음과 같다.

여기서, Vw는 입력 단어 w의 의미 벡터값을 나타내고, i는 엔그램 리스트의 인덱스를 나타내고, k는 엔그램 리스트의 전체 개수를 나타내고, Vi는 i번째 엔그램의 벡터를 나타낸다.

단어 교정 시스템(2)은 인접 단어 리스트 출력부(400), 유사도 계산부(500), 및 교정 단어 출력부(600)를 더 포함한다.

의미 벡터 생성부(300)가 사용자 입력 단어에 대한 의미 벡터를 생성하면, 인접 단어 리스트 출력부(400)는 학습 단어 의미 벡터 저장소(350)에 저장된 학습된 단어의 의미 벡터를 참조하여, 사용자 입력 단어에 대한 인접 단어 리스트를 선별할 수 있다. 예를 들면, 인접 단어 리스트 출력부(400)는 학습된 단어가 가지는 엔그램 리스트와 사용자 입력 단어의 엔그램 리스트를 비교하여, 사용자 입력 단어의 엔그램 리스트와 중복되는 엔그램의 비율이 일정값 이상인 엔그램 리스트를 가지는 학습된 단어들을 인접 단어들로 선별하여, 그 리스트를 제공할 수 있다. 예를 들면, 인접 단어 리스트 출력부(400)는 학습된 단어의 엔그램 벡터와 사용자 입력 단어의 엔그램 벡터의 유사도를 비교하여, 사용자 입력 단어의 엔그램 벡터와 유사도가 높은 엔그램 벡터를 가지는 학습된 단어들을 인접 단어들로 선별하여, 그 리스트를 제공할 수 있다.

유사도 계산부(500)는 사용자 입력 단어의 의미 벡터와 선별된 인접 단어의 의미 벡터의 유사도를 계산하여, 오탈자에 대하여 교정된 단어를 선정할 수 있다. 예를 들면, 유사도 계산부(500)는, 사용자 입력 단어의 의미 벡터와 선별된 인접 단어들의 의미 벡터들간의 코사인 유사도를 비교함으로써 벡터값이 인접한 단어들을 교정된 단어로 선정할 수 있다. 일부 실시 예에서, 유사도 계산부(500)는 의미 벡터의 유사도가 높은 단어들을 내림차순으로 복수개를 선정할 수 있다.

교정 단어 출력부(600)는 사용자 인터페이스(20)를 통하여 선정된 교정된 단어를 자연어로 생성하여 사용자(10)에게 제공할 수 있다. 일부 실시 예에서, 교정 단어 출력부(600)는 의미 벡터의 유사도가 높은 단어들을 자연어로 생성하여 내림차순으로 복수개를 사용자(10)에게 제공할 수 있다.

도 7은 도 1은 본 발명의 예시적 실시 예에 따른 단어 교정 시스템의 개략적인 블록도이다. 예를 들면, 도 1에 보인 단어 교정 시스템(1)은 단어 교정을 하기 위하여, 오탈자가 아닌 올바른 형태소인 단어에 대한 의미 벡터를 얻어서 학습 단어 의미 벡터 저장소(350)에 저장하는 시스템이고, 도 6에 보인 단어 교정 시스템(2)은 올바른 형태소인 단어에 대한 이미 벡터 정보가 저장된 학습 단어 의미 벡터 저장소(350)를 이용하여, 단어 교정이 필요한 오탈자에 대하여 교정된 단어를 구하는 시스템이라면, 도 7에 보이는 단어 교정 시스템(1)은 올바른 형태소인 단어에 대한 의미 벡터를 얻어서 학습 단어 의미 벡터 저장소(350)에 저장하는 것과, 학습 단어 의미 벡터 저장소(350)를 이용하여 단어 교정이 필요한 오탈자에 대하여 교정된 단어를 구하는 것이 함께 이루어지는 시스템일 수 있다. 따라서, 도 1 내지 도 6에서 설명된 내용가 중복되는 내용은 생략될 수 있다.

도 7을 참조하면, 교정 단어 제공 시스템(3)은 사용자 인터페이스(20), 가공 데이터 생성부(100), 단어 임베딩 학습부(200), 의미 벡터 생성부(300), 학습 단어 의미 벡터 저장소(350), 인접 단어 리스트 출력부(400), 유사도 계산부(500), 및 교정 단어 출력부(600)를 포함할 수 있다.

단어 교정 시스템(3)은 가공 데이터 저장부(1000)로부터 학습용 어절을 제공받아, 가공 데이터 생성부(100)에서 학습용 어절에 대한 엔그램 리스트(140)를 생성하고, 단어 임베딩 학습부(200)에서 단어 임베딩 학습을 수행한 후, 의미 벡터 생성부(300)에서 학습 단어 의미 벡터를 생성하여 학습 단어 의미 벡터 저장소(350)에 저장한다.

또한 단어 교정 시스템(3)은 네트워크(50)를 통하여 사용자(10)로부터 교정이 필요한 오탈자인 사용자 입력 단어를 입력받아, 가공 데이터 생성부(100)에서 사용자 입력 단어에 대한 엔그램 리스트(140)를 생성하고, 단어 임베딩 학습부(200)에서 단어 임베딩 학습을 수행한 후, 의미 벡터 생성부(300)에서 사용자 입력 단어의 의미 벡터를 생성한다.

인접 단어 리스트 출력부(400)는 학습 단어 의미 벡터 저장소(350)에 저장된 학습 단어와 사용자 입력 단어의 엔그램 리스트를 비교하거나, 엔그램 벡터의 유사도를 비교하여, 사용자 입력 단어에 대한 인접 단어들을 선별하여 제공할 수 있다.

이후, 유사도 계산부(500)는 사용자 입력 단어의 의미 벡터와 선별된 인접 단어의 의미 벡터의 유사도를 계산하여, 오탈자인 사용자 입력 단어에 대하여 교정된 단어를 선정할 수 있고, 교정 단어 출력부(600)는 사용자 인터페이스(20)를 통하여 선정된 교정된 단어를 자연어로 생성하여 사용자(10)에게 제공할 수 있다.

이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상 및 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형 및 변경이 가능하다.

1, 2, 3 : 단어 교정 시스템, 10 : 사용자, 20 : 사용자 인터페이스, 50 : 네트워크, 100 : 가공 데이터 생성부, 200 : 단어 임베딩 학습부, 300 : 의미 벡터 생성부, 350 : 학습 단어 의미 벡터 저장소, 400 : 인접 단어 리스트 출력부, 500 : 유사도 계산부, 600 : 교정 단어 출력부, 1000 : 가공 데이터 저장부

Claims

네트워크를 통하여 사용자로부터 사용자 입력 단어를 입력받는 사용자 인터페이스;
학습용 어절과 상기 사용자 입력 단어를 형태소별로 분리하고 분리된 각 형태소를 자소별로 분리하여 분석용 가공 데이터를 생성하고, 상기 분석용 가공 데이터를 엔그램(n-Gram)들로 분리하여 엔그램 리스트를 생성하는 가공 데이터 생성부;
상기 엔그램 리스트에 대하여 스킵-그램(Skip-Gram) 모델을 통해 단어 임베딩 학습을 수행하는 단어 임베딩 학습부; 및
상기 엔그램 리스트로부터 의미 벡터를 생성하는 의미 벡터 생성부;를 포함하되,
상기 가공 데이터 생성부는, 상기 학습용 어절과 상기 사용자 입력 단어에 대하여 형태소 분석을 하여 형태소 별로 분리하는 형태소 분리부, 상기 형태소 분리부에서 분리된 각 형태소를 자소별로 분리하는 자소 분리부, 및 상기 자소 분리부에서 분리된 자음과 모음을 이용하여 엔그램들로 분리하는 엔그램 분리부를 포함하고,
상기 엔그램 분리부는, 상기 분석용 가공 데이터에서 각각 음절의 모음을 제거한 모음 제거 가공 데이터들을 생성한 후, 상기 모음 제거 가공 데이터들을 분리하여 엔그램들을 생성하는 단어 교정 시스템.
제1 항에 있어서,
상기 분석용 가공 데이터는, 형태소의 시각과 끝을 구분하는 기호, 및 음절 구분 기호를 포함하는 것을 특징으로 하는 단어 교정 시스템.
제1 항에 있어서,
상기 학습용 어절로부터 얻어진 의미 벡터와 상기 사용자 입력 단어로부터 얻어진 의미 벡터를 비교하여, 상기 사용자 입력 단어에 대한 인접 단어들을 선별하여 인접 단어 리스트를 제공하는 인접 단어 리스트 출력부;
상기 사용자 입력 단어로부터 얻어진 의미 벡터와 상기 선별된 인접 단어들의 의미 벡터의 유사도를 계산하여, 상기 사용자 입력 단어에 대하여 교정된 단어를 선정하는 유사도 계산부; 및
상기 선정된 교정된 단어를 자연어로 생성하여 상기 사용자 인터페이스를 통하여 사용자에게 제공하는 교정 단어 출력부;를 더 포함하는 것을 특징으로 하는 단어 교정 시스템.
제1 항에 있어서,
상기 의미 벡터 생성부는, 상기 엔그램 리스트의 모든 엔그램의 벡터를 합산한 후 그 평균을 구하여, 상기 의미 벡터를 생성하는 것을 특징으로 하는 단어 교정 시스템.
제1 항에 있어서,
상기 엔그램 분리부는, 상기 모음 제거 가공 데이터들 각각을 이루는 x개의 문자에 대하여, 2개의 문자 내지 2보다 크고 x보다 작은 개수의 문자로 이루어지는 분리된 엔그램들을 생성하는 것을 특징으로 하는 단어 교정 시스템.
제1 항에 있어서,
상기 모음 제거 가공 데이터들의 개수는 상기 분석용 가공 데이터을 생성하는 데 사용된 형태소가 가지는 음절수와 동일한 것을 특징으로 하는 단어 교정 시스템.
네트워크를 통하여 사용자로부터 사용자 입력 단어를 입력받는 사용자 인터페이스;
학습용 어절과 상기 사용자 입력 단어를 형태소별로 분리하고 분리된 각 형태소를 자소별로 분리하여 분석용 가공 데이터를 생성하고, 상기 분석용 가공 데이터를 엔그램(n-Gram)들로 분리하여 엔그램 리스트를 생성하는 가공 데이터 생성부;
상기 엔그램 리스트에 대하여 스킵-그램(Skip-Gram) 모델을 통해 단어 임베딩 학습을 수행하는 단어 임베딩 학습부; 및
상기 엔그램 리스트로부터 의미 벡터를 생성하는 의미 벡터 생성부;를 포함하되,
상기 가공 데이터 생성부는, 상기 학습용 어절과 상기 사용자 입력 단어에 대하여 형태소 분석을 하여 형태소 별로 분리하는 형태소 분리부, 상기 형태소 분리부에서 분리된 각 형태소를 자소별로 분리하는 자소 분리부, 및 상기 자소 분리부에서 분리된 자음과 모음을 이용하여 엔그램들로 분리하는 엔그램 분리부를 포함하고,
상기 엔그램 분리부는, 상기 분석용 가공 데이터에서 각각 음절의 모음을 제거한 모음 제거 가공 데이터들, 및 각각의 음절의 종성을 제거한 종성 제거 가공 데이터들을 생성한 후, 상기 모음 제거 가공 데이터들, 및 상기 종성 제거 가공 데이터들을 분리하여 엔그램들을 생성하는 것을 특징으로 하는 단어 교정 시스템.
제7 항에 있어서,
상기 학습용 어절로부터 얻어진 의미 벡터와 상기 사용자 입력 단어로부터 얻어진 의미 벡터를 비교하여, 상기 사용자 입력 단어에 대한 인접 단어들을 선별하여 인접 단어 리스트를 제공하는 인접 단어 리스트 출력부;
상기 사용자 입력 단어로부터 얻어진 의미 벡터와 상기 선별된 인접 단어들의 의미 벡터의 유사도를 계산하여, 상기 사용자 입력 단어에 대하여 교정된 단어를 선정하는 유사도 계산부; 및
상기 선정된 교정된 단어를 자연어로 생성하여 상기 사용자 인터페이스를 통하여 사용자에게 제공하는 교정 단어 출력부;를 더 포함하는 것을 특징으로 하는 단어 교정 시스템.
제7 항에 있어서,
상기 의미 벡터 생성부는, 상기 엔그램 리스트의 모든 엔그램의 벡터를 합산한 후 그 평균을 구하여, 상기 의미 벡터를 생성하는 것을 특징으로 하는 단어 교정 시스템.