WO2015023035A1 - 전치사 교정 방법 및 이를 수행하는 장치 - Google Patents

전치사 교정 방법 및 이를 수행하는 장치 Download PDF

Info

Publication number
WO2015023035A1
WO2015023035A1 PCT/KR2014/001514 KR2014001514W WO2015023035A1 WO 2015023035 A1 WO2015023035 A1 WO 2015023035A1 KR 2014001514 W KR2014001514 W KR 2014001514W WO 2015023035 A1 WO2015023035 A1 WO 2015023035A1
Authority
WO
WIPO (PCT)
Prior art keywords
input text
error
pattern
preposition
text
Prior art date
Application number
PCT/KR2014/001514
Other languages
English (en)
French (fr)
Inventor
이근배
이규송
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to US14/909,565 priority Critical patent/US20160180742A1/en
Publication of WO2015023035A1 publication Critical patent/WO2015023035A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied

Abstract

전치사 교정 방법 및 이를 수행하는 장치가 개시된다. 전치사 교정 방법은 입력 텍스트에 입력 텍스트를 구성하는 단어의 품사 정보를 태깅(tagging)하여 입력 텍스트를 정규화하는 단계, 정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 입력 텍스트의 구조를 나타내는 패턴을 추출하는 단계 및 미리 구축된 오류 패턴 DB에 포함된 오류 패턴과 추출된 패턴 간의 매칭(matching)을 통하여 입력 텍스트에 포함되는 전치사의 오류를 교정하는 단계를 포함한다. 따라서, 외국어 학습자의 전치사 오류를 효율적으로 교정할 수 있으며, 외국어 학습자의 전치사 오류를 정확하게 검출함으로써 외국어 문법 학습을 효과적으로 수행할 수 있다.

Description

전치사 교정 방법 및 이를 수행하는 장치
본 발명은 외국어 학습에 관한 것으로, 더욱 상세하게는, 사용자로부터 입력된 텍스트에서 전치사와 관련된 문법적 오류를 교정하는 전치사 교정 방법 및 이를 수행하는 장치에 관한 것이다.
세계화, 국제화되어 가고 있는 현대 사회에서 외국어 구사 능력에 대한 요구가 증가함에 따라 외국어를 효율적으로 학습할 수 있는 외국어 교육 시스템이 활발하게 연구되고 있는 추세이다.
또한, 정보 통신 기술이 발달함에 따라 스마트폰, 태블릿 PC, PMP(Portable Multimedia Player), PDA(Personal Digital Assistant), 컴퓨터와 같은 정보 처리 기기를 활용한 외국어 학습이 증가하고 있다.
특히, 외국어 문법에 대한 사용자의 학습 요구가 증가함에 따라 정보 처리 기기를 활용하여 사용자로부터 입력된 외국어 작문에서 문법적인 오류를 검출하고 오류에 대한 교정 정보를 제공하는 시스템이 상용화되고 있다.
외국어 작문에 포함된 문법의 오류를 교정하는 대표적인 프로그램으로 마이크로소프트(Microsoft) 사의 MS Word를 예로 들 수 있다. MS Word는 사용자가 작성한 텍스트의 철자법(spelling) 또는 맞춤법과 같은 문법 검사를 수행하여 검출된 오류를 표시함으로써 사용자에게 문법에 대한 정보를 제공할 수 있다.
그러나, MS Word는 텍스트에 포함된 단어의 철자 또는 문장의 대소문자 구별과 같은 단순한 문법의 오류를 교정한다는 점에서 단어의 품사 정보에 기반한 문법적인 오류에 대한 교정은 어렵다는 문제가 있다.
그리하여, 외국어가 표현되는 형식이나 문법 규칙을 미리 등록함으로써 외국어 학습자의 문법 오류를 교정하는 방법과 외국어의 품사 정보를 기반으로 통계적인 분류 과정을 통해 외국어 학습자의 문법의 오류를 교정하는 방법이 제안되었다. 그러나, 외국어의 형식 또는 문법 규칙이 다양하게 존재하기 때문에 정교한 문법 규칙을 만들기가 매우 어렵다는 점에서 한계가 있다.
특히, 전치사에 대한 문법 규칙은 시간 표현 및 장소 표현인지에 따라 구분해야 할 규칙의 양이 방대하여 외국어 작문에서 정확하게 외국어의 전치사 문법에 대한 오류를 검출하고 교정하는 것에 한계가 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자로부터 제공받은 입력 텍스트에서 전치사 오류에 대한 패턴을 추출함으로써 외국어 학습자의 전치사 오류를 효율적으로 교정하는 전치사 교정 방법을 제공하는데 있다.
또한, 본 발명의 다른 목적은, 입력 텍스트에 포함된 전치사 오류를 정확하게 검출함으로써 외국어 학습을 효과적으로 수행할 수 있도록 하는 문법 교정 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 전치사 교정 방법은, 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되며 입력 텍스트에 입력 텍스트를 구성하는 단어의 품사 정보를 태깅(tagging)하여 입력 텍스트를 정규화하는 단계, 정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 입력 텍스트의 구조를 나타내는 패턴(pattern)을 추출하는 단계 및 미리 구축된 오류 패턴 DB에 포함된 오류 패턴과 추출된 패턴 간의 매칭(matching)을 통하여 입력 텍스트에 포함되는 전치사의 오류를 교정하는 단계를 포함한다.
여기서, 오류 패턴 DB는, 문법적으로 오류가 있는 텍스트를 이용하여 미리 구축된 문법 오류 말뭉치와 추출된 패턴을 비교하여 전치사 오류가 있는지를 검증하고, 전치사 오류가 있는 것으로 검증되면 추출된 패턴을 기록함으로써 구축될 수 있다.
여기서, 입력 텍스트를 정규화하는 단계는, 텍스트 사전을 기반으로 품사 정보가 태깅된 입력 텍스트에서 시간을 표현하는 단어를 시간 타입 정보로 치환하여 입력 텍스트를 정규화할 수 있다.
또한, 입력 텍스트를 정규화하는 단계는, 개체명 인식(Named Entity Recognition)을 기반으로 품사 정보가 태깅된 입력 텍스트에서 장소를 표현하는 단어를 장소 타입 정보로 치환하여 입력 텍스트를 정규화할 수 있다.
여기서, 입력 텍스트에 대한 패턴을 추출하는 단계는, 정규화된 텍스트에 포함된 전치사를 기준으로 앞 또는 뒤에 위치하는 단어를 이용하여 복수의 단어 시퀀스(sequence)를 추출함으로써 입력 텍스트로부터 전치사를 기준으로 복수의 패턴을 추출할 수 있다.
여기서, 전치사 오류를 교정하는 단계는, 전치사를 기준으로 추출된 패턴 중 오류 패턴 DB에 포함되는 오류 패턴과 매칭되는 패턴에 대하여, 확률적 언어 모델 및 통계적 언어 모델 중 적어도 하나의 언어 모델을 이용하여 입력 텍스트에 포함된 전치사 오류를 교정할 수 있다.
또한, 상기 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 전치사 교정 장치는, 입력 텍스트에 입력 텍스트를 구성하는 단어의 품사 정보를 태깅(tagging)하여 입력 텍스트를 정규화하는 텍스트 정규화부, 정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 입력 텍스트의 구조를 나타내는 패턴(pattern)을 추출하는 패턴 추출부 및 미리 구축된 오류 패턴 DB에 포함된 오류 패턴과 추출된 패턴 간의 매칭(matching)을 통하여 입력 텍스트에 포함되는 전치사의 오류를 교정하는 오류 교정부를 포함한다.
상술한 바와 같은 본 발명의 실시예에 따른 전치사 교정 방법 및 이를 수행하는 장치에 따르면, 사용자로부터 제공받은 입력 텍스트에서 전치사 오류에 대한 패턴을 추출함으로써 외국어 학습자의 전치사 오류를 효율적으로 교정할 수 있다.
또한, 입력 텍스트에 포함된 전치사 오류를 정확하게 검출함으로써 외국어 학습을 효과적으로 수행할 수 있다.
도 1은 본 발명의 실시예에 따른 전치사 교정 방법을 설명하는 흐름도이다.
도 2는 본 발명의 실시예에 따른 오류 패턴 DB가 구축되는 것을 설명하는 흐름도이다.
도 3은 본 발명의 실시예에 따른 텍스트 사전을 기반으로 입력 텍스트를 정규화하는 것을 설명하는 예시도이다.
도 4는 본 발명의 실시예에 따른 개체명 인식을 기반으로 입력 텍스트를 정규화하는 것을 설명하는 예시도이다.
도 5는 본 발명의 실시예에 따른 입력 텍스트에서 패턴을 추출하는 것을 설명하는 예시도이다.
도 6은 본 발명의 실시예에 따른 전치사 교정 장치를 나타내는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명의 실시예에서 전치사 교정 방법 및 장치는, 디지털 신호 처리를 수행할 수 있는 사용자 단말과 적어도 하나의 서버를 포함하여 구현될 수 있다.
사용자 단말은 적어도 하나의 서버 또는 다른 사용자 단말과 USB(Universal Serial Bus), 블루투스, 와이파이(WiFi: Wireless-Fidelity), LTE(Long Term Evolution)와 같은 유무선 네트워크로 연결되어 외국어 작문 또는 전치사 오류 교정을 위한 정보를 주고받을 수 있다.
여기서, 서버는 웹 서버를 의미할 수 있으며 사용자 단말은 사용자로부터 텍스트를 입력 받을 수 있는 키보드, 마우스, 터치스크린과 같은 입력 장치 또는 마이크와 같은 음성 인식 센서를 탑재하고, 입력된 신호를 처리할 수 있는 정보 처리 기능을 구비하는 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant), 노트북, 컴퓨터와 같은 정보 처리 장치를 포함할 수 있으나 이에 한정되는 것은 아니다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 전치사 교정 방법을 설명하는 흐름도이다.
도 1을 참조하면, 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 전치사 교정 방법은, 입력 텍스트를 정규화하는 단계(S100), 정규화된 입력 텍스트로부터 패턴을 추출하는 단계(S200) 및 패턴 매칭을 통해 전치사 오류를 교정하는 단계(S300)를 포함할 수 있다.
여기서, 입력 텍스트는 분리하여 자립적으로 쓸 수 있거나 음절의 조합으로 문법적 기능을 나타내는 단어, 두 개 이상의 단어의 조합으로 구성되는 구절, 구절들의 조합으로 이루어지는 문장과 같은 모든 형태의 글이나 문서를 포함할 수 있으나 이에 한정되는 것은 아니다.
사용자는 직접 정보 처리 장치를 접촉하거나 정보 처리 장치에 탑재된 음성 인식 기술을 이용하여 텍스트를 입력할 수 있다.
사용자로부터 텍스트가 입력되면 입력 텍스트를 구성하는 단어의 품사 정보를 태깅(tagging)하여 입력 텍스트를 정규화할 수 있다(S100). 이 때, 입력 텍스트를 구성하는 각각의 단어는 상이하지만 동일한 품사에 소속되는 단어의 조합으로 이루어지는 복수의 입력 텍스트는 동일하게 형태로 정규화될 수 있다.
예를 들어, “She was at the bank”과 “He is at the airport”은 각각 상이한 단어로 구성된 입력 텍스트이지만 “인칭대명사(PP) + 동사(VB) + at + 정관사(DA) + 장소명사(NN)”와 같이 동일한 품사로 태깅되므로 동일한 형식으로 정규화될 수 있다.
그리하여, 품사가 태깅된 입력 텍스트에서 시간이나 시점을 표현하는 단어를 미리 구축된 텍스트 사전을 기반으로 시간 타입 정보로 치환할 수 있다. 또한, 품사가 태깅된 입력 텍스트에서 장소를 표현하는 단어는 개체명 인식(Named Entity Recognition)을 기반으로 장소 타입 정보로 치환할 수 있다.
시간 타입 정보 또는 장소 타입 정보로 입력 텍스트를 치환하여 정규화하는 이유는 전치사가 시간, 시점 또는 장소를 나타내는 단어의 종류와 위치에 따라 다르게 표현될 수 있기 때문이다.
시간이나 시점을 표현하는 단어를 치환하는데 이용되는 텍스트 사전은 시간을 나타내는 단어를 미리 <DATE>, <MONTH>, <HOLIDAY>, <ORDNUM>, <INDAY>, <YEAR>, <NUM>, <MEAL>과 같은 타입으로 분류하여 미리 구축될 수 있다.
예컨대 breakfast, lunch, dinner은 식사를 나타내는 단어로써 일반적으로 텍스트에서 시간이나 시점을 나타내는 표현에 이용될 수 있음에 따라 텍스트 사전에 <MEAL> 타입으로 미리 설정될 수 있다.
따라서, 입력 텍스트에 breakfast, lunch, dinner 중 어느 하나의 단어가 포함되면 해당 단어를 텍스트 사전에 미리 설정된 시간 타입인 <MEAL> 태그로 태깅하여 입력 텍스트를 정규화할 수 있다.
장소를 표현하는 단어의 치환은 개체명 인식 방법(Named Entity Recognition)이 이용될 수 있다. 개체명 인식 방법은 입력 텍스트 내의 인명(Person), 지명(Location) 및 기관명(Organization) 중 어느 하나에 해당되는 단어를 <PER>, <LOC>, <ORG>과 같은 태그로 치환함으로써 입력 텍스트를 정규화할 수 있다.
예를 들어, 입력 텍스트에 Seoul, New York과 같이 지명을 나타내는 단어가 포함되면 해당 단어에 <LOC> 태그를 태깅함으로써 입력 텍스트를 정규화할 수 있다.
정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 입력 텍스트의 구조를 나타내는 패턴을 추출할 수 있다(S200). 구체적으로, 정규화된 텍스트에 포함된 전치사를 기준으로 앞 또는 뒤에 위치하는 단어를 이용하여 복수의 단어 시퀀스를 추출함으로써 입력 텍스트로부터 전치사를 기준으로 복수의 패턴을 추출할 수 있다.
예를 들어, “In late nineteenth century, there was a severe air crash happening on Miami international airport”와 같은 입력 텍스트에 정규화를 수행한 후 미리 설정된 윈도우 사이즈를 기반으로 단어 시퀀스를 추출할 수 있다.
여기서, 윈도우 사이즈란 입력 텍스트에서 추출될 단어의 개수를 미리 설정한 값으로써 이 때 전치사를 기준으로 앞 또는 뒤에 위치하는 윈도우 사이즈만큼의 단어를 이용하여 단어 시퀀스를 추출할 수 있다.
시간 타입 정보 및 장소 타입 정보를 이용하여 상기 입력 텍스트를 “In late <ORDNUM> century, there was a severe air crash happening on <LOC> international airport.”과 같이 정규화할 수 있고, 미리 설정된 윈도우 사이즈 3으로 단어 시퀀스를 추출할 수 있다.
그리하여, 정규화된 입력 텍스트에 포함된 전치사 중, at을 기준으로 앞 또는 뒤에 위치하는 단어를 이용하여 ‘crash happening on’, ‘happening on <LOC>’ 및 ‘on <LOC> international’의 단어 시퀀스를 추출할 수 있다.
여기서는 윈도우 사이즈가 3인 경우만 예를 들어 설명하였으나 이에 한정되지 않고 전치사를 기준으로 다양한 크기의 단어 시퀀스를 추출하여 전치사 오류에 대한 복수의 패턴을 추출할 수 있다.
단어 시퀀스를 통해 추출된 복수의 패턴은 검증을 통하여 오류 패턴 DB(130)로 미리 구축될 수 있다. 보다 구체적으로, 문법적으로 오류가 있는 텍스트를 이용하여 미리 구축된 문법 오류 말뭉치와 복수의 패턴을 비교하여 전치사 오류가 있는지를 검증하고, 전치사 오류가 있는 것으로 검증되는 패턴을 오류 패턴 DB(130)에 기록함으로써 미리 구축될 수 있다.
이 때, 패턴을 검증하는 이유는 단어 시퀀스를 이용하여 방대하게 추출된 패턴에서 전치사 오류가 포함된 유효한 패턴만을 오류 패턴 DB(130)에 기록하기 위함이다.
그리하여, 문법 오류 말뭉치와 추출된 패턴을 비교하여 매칭되는 패턴은 오류 패턴 DB(130)에 기록할 수 있다. 반면, 문법 오류 말뭉치에 매칭되지 않는 패턴은 전치사 오류가 포함되지 않아 유효하지 않은 패턴으로 간주하여 오류 패턴 DB(130)에 기록되지 않는다.
미리 구축된 오류 패턴 DB(130)에 포함된 오류 패턴과 추출된 패턴 간의 매칭을 통하여 입력 텍스트에 포함되는 전치사의 오류를 교정할 수 있다(S300).
보다 구체적으로, 전치사를 기준으로 추출된 복수의 패턴 중에서 오류 패턴 DB(130)에 포함되는 오류 패턴과 매칭되는 패턴은, 확률적 언어 모델 및 통계적 언어 모델 중 적어도 하나의 언어 모델을 이용하여 전치사 오류를 교정할 수 있다.
여기서, 확률적 언어 모델 및 통계적 언어 모델은 기계 학습 기반의 나이브 베이지안(Nave Bayesian) 모델, 은닉 마코프 모델(Hidden Markov Model), 귀납적 의사결정-트리(Inductive decision-tree), 신경망(Neural Network)과 같은 언어 모델을 포함할 수 있으나 이에 한정되는 것은 아니다.
여기서는 단어의 품사 중에서 전치사에 대한 문법적 오류를 교정하는 방법만을 기재하였으나 이에 한정되지 않고 수사, 한정사, 관형사, 조사, 형용사, 부사와 같은 다양한 품사로 확대하여 적용할 수 있다.
도 2는 본 발명의 실시예에 따른 오류 패턴 DB가 구축되는 것을 설명하는 흐름도이다.
도 2를 참조하면, 오류 패턴 DB(130)는 문법 오류 말뭉치와 추출된 패턴을 비교하여(S410), 전치사 오류 여부를 검증함으로써(S420) 미리 구축될 수 있다.
여기서, 문법 오류 말뭉치는 문법적으로 오류가 있는 텍스트를 기계 학습하여 미리 구축될 수 있다.
먼저, 입력 텍스트가 수신되면 품사 정보, 텍스트 사전 및 개체명 인식을 기반으로 입력 텍스트를 구성하는 단어에 해당 태그를 태깅함으로써 정규화하고, 정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 미리 설정된 윈도우 사이즈에 따라 단어 시퀀스를 추출할 수 있다.
여기서, 윈도우 사이즈는 입력 텍스트에서 추출될 단어의 개수를 미리 설정한 값이므로 입력 텍스트에 포함된 전치사를 기준으로 앞 또는 뒤에 위치하는 윈도우 사이즈만큼의 단어를 이용하여 단어 시퀀스를 추출할 수 있으며, 추출된 단어 시퀀스에서 복수의 패턴을 추출할 수 있다.
추출된 복수의 패턴을 미리 구축한 문법 오류 말뭉치와 비교하여 전치사 오류가 존재하는지를 검증할 수 있다(S420).
이 때, 패턴을 검증하는 이유는 단어 시퀀스를 이용하여 방대하게 추출된 패턴에서 전치사 오류가 포함된 유효한 패턴만을 오류 패턴 DB(130)에 기록하기 위함이다.
따라서, 문법 오류 말뭉치와 추출된 패턴을 비교하여 매칭되는 패턴은 오류 패턴 DB(130)에 기록할 수 있다(S430). 반면, 문법 오류 말뭉치에 매칭되지 않는 패턴은 전치사 오류가 포함되지 않아 유효하지 않은 패턴으로 간주하여 오류 패턴 DB(130)에 기록되지 않는다(S440).
도 3은 본 발명의 실시예에 따른 텍스트 사전을 기반으로 입력 텍스트를 정규화하는 것을 설명하는 예시도이다.
도 3을 참조하면, 입력 텍스트를 구성하는 단어의 품사를 태깅하고 텍스트 사전을 기반으로 입력 텍스트를 정규화할 수 있다.
도 3 (a)에 도시된 바와 같이 입력 텍스트 “She goes on Monday”에 입력 텍스트를 구성하는 단어의 품사 태그를 태깅하여 “She/PP$ goes/VB$ on Monday/NN”로 표준화할 수 있다.
여기서, PP는 Personal Pronoun으로 인칭대명사를 의미하며 VB는 Verb의 동사, NN은 Noun의 명사를 의미하는 품사 태그일 수 있으며 이에 한정되지 않고 다양한 형태의 태그로 입력 텍스트를 태깅할 수 있다.
품사 태그가 태깅된 입력 텍스트에서 시간이나 시점을 표현하는 단어는 미리 구축한 텍스트 사전에 기반하여 시간 타입 정보로 치환할 수 있다.
표 1
Figure PCTKR2014001514-appb-T000001
표 1은 미리 구축된 텍스트 사전을 도시한 것으로써 표 1을 참조하여 시간이나 시점을 표현하는 단어인 ‘Monday’를 <DATE>로 치환하여 입력 텍스트를 “PP$ VB$ on <DATE>”의 형태로 정규화할 수 있다.
도 3 (b)의 입력 텍스트 “I go on Tuesday”는 입력 텍스트를 구성하는 단어의 품사 태그를 태깅하여 “I/PP$ go/VB$ on Tuesday/NN”로 표준화할 수 있다.
그리하여, 표 1의 텍스트 사전을 기반으로 시간이나 시점을 표현하는 단어 ‘Tuesday’를 <DATE>로 치환함으로써 입력 텍스트를 “PP$ VB$ on <DATE>”로 정규화할 수 있다.
이 때, 도 3 (a)의 입력 텍스트 “She goes on Monday”와 도 3 (b)의 입력 텍스트 “I go on Tuesday”를 구성하는 각각의 단어는 상이하지만 품사 정보 및 텍스트 사전을 기반으로 “PP$ VB$ on <DATE>”의 형태로 동일하게 정규화될 수 있다.
따라서, “PP$ VB$ on <DATE>”의 형태를 가진 복수의 입력 텍스트는 동일한 패턴으로 인식될 수 있으며 이로써 보다 정확하고 유효한 전치사 오류에 대한 패턴을 검출할 수 있다.
도 4는 본 발명의 실시예에 따른 개체명 인식을 기반으로 입력 텍스트를 정규화하는 것을 설명하는 예시도이다.
도 4를 참조하면, 입력 텍스트를 구성하는 단어의 품사를 태깅하고 개체명 인식 방법을 기반으로 입력 텍스트를 정규화할 수 있다.
도 4 (a)에 도시된 바와 같이 입력 텍스트 “I live in Seoul”에 입력 텍스트를 구성하는 단어의 품사 태그를 태깅하여 “I/PP$ live/VB& in Seoul/NN”로 표준화할 수 있다.
여기서, PP는 Personal Pronoun으로 인칭대명사를 의미하며 VB는 Verb의 동사, NN은 Noun의 명사를 의미하는 품사 태그일 수 있으며 이에 한정되지 않고 다양한 형태의 태그로 입력 텍스트를 태깅할 수 있다.
품사 태그가 태깅된 입력 텍스트에서 장소를 표현하는 단어는 개체명 인식(Named Entity Recognition) 방법을 이용하여 치환할 수 있다. 보다 구체적으로 입력 텍스트에 포함된 인명(Person), 지명(Location) 및 기관명(Organization) 중 어느 하나에 해당되는 단어를 <PER>, <LOC>, <ORG>과 같은 태그로 치환함으로써 입력 텍스트를 정규화할 수 있다.
따라서, 입력 텍스트에서 지명을 표현하는 단어 ‘Seoul’을 <LOC>로 치환함으로써 입력 텍스트를 “PP$ VB$ in <LOC>”로 정규화할 수 있다.
도 4 (b)의 입력 텍스트 “He lived in Busan”에 입력 텍스트를 구성하는 단어의 품사 태그를 태깅하면 “He/PP$ lived/VB$ in Busan/NN”으로 표준화할 수 있다.
품사 태그가 태깅된 입력 텍스트에서 개체명 인식(Named Entity Recognition) 방법을 이용하여 지명을 표현하는 단어 ‘Busan’을 <LOC>로 치환함으로써 입력 텍스트를 “PP$ VB$ in <LOC>”로 정규화할 수 있다.
여기서, 도 4 (a)의 입력 텍스트 “I live in Seoul”와 도 4 (b)의 입력 텍스트 “He lived in Busan”를 구성하는 각각의 단어는 상이하지만 품사 정보 및 개체 인식명 방법을 기반으로 “PP$ VB$ in <LOC>”의 형태로 정규화될 수 있다.
따라서, “PP$ VB$ in <LOC>”의 형태를 가진 복수의 입력 텍스트는 동일한 패턴으로 인식될 수 있으며 이로써 보다 정확하고 유효한 전치사 오류에 대한 패턴을 검출할 수 있다.
도 5는 본 발명의 실시예에 따른 입력 텍스트에서 패턴을 추출하는 것을 설명하는 예시도이다.
도 5를 참조하면, 미리 설정된 윈도우 사이즈를 기반으로 정규화된 텍스트에 포함된 전치사를 기준으로 앞 또는 뒤에 위치하는 단어를 이용하여 복수의 단어 시퀀스를 추출함으로써 복수의 패턴을 추출할 수 있다.
예를 들어, “As you know, in this season is the end of the accounting term.”과 같은 입력 텍스트에 대하여 윈도우 사이즈 2부터 5까지의 단어 시퀀스가 추출될 수 있다. 여기서, 윈도우 사이즈는 윈도우 사이즈란 입력 텍스트에서 추출될 단어의 개수를 미리 설정한 값을 의미할 수 있다.
구체적으로, 상기 입력 텍스트에서 전치사를 기준으로 전치사를 포함하는 윈도우 사이즈 5의 단어 시퀀스(a)는 ‘as you know, in’, ‘you know, in this’, ‘know, in this season’, ‘, in this season is’ 및 ‘in this season is the’로 추출될 수 있다.
또한, 입력 텍스트에서 전치사를 기준으로 전치사를 포함하는 윈도우 사이즈 4의 단어 시퀀스(b)는 ‘you know, in’, ‘know, in this’, ‘, in this season’ 및 ‘in this season is’로 추출될 수 있다.
윈도우 사이즈 3의 단어 시퀀스(c)는 ‘know, in’, ‘, in this’ 및 ‘in this season’가 추출될 수 있으며 윈도우 사이즈 2의 단어 시퀀스(d)는‘, in’ 및 ‘in this’가 추출될 수 있다.
윈도우 사이즈와 정규화된 입력 텍스트를 기반으로 추출된 단어 시퀀스를 검증하여 전치사 오류가 포함된 패턴을 추출할 수 있다. 여기서, 패턴을 검증하는 이유는 방대하게 추출된 단어 시퀀스에서 전치사 오류가 포함된 유효한 패턴만을 추출하기 위해서이다.
예컨대, 단어 시퀀스 ‘in this season is’를 이용하면 ‘in this season is’, ‘in this season VB’, ‘in this NN is’, ‘in this NN VB’, ‘in DT NN ZB’과 같은 복수의 패턴이 추출될 수 있고, 추출된 복수의 패턴을 검증하고 기계 학습하여 전치사 오류를 포함하는 유효한 패턴을 추출할 수 있다.
도 6은 본 발명의 실시예에 따른 전치사 교정 장치를 나타내는 블록도이다.
도 6을 참조하면, 전치사 교정 장치(100)는 텍스트 정규화부(110), 패턴 추출부(120) 및 오류 교정부(140)를 포함할 수 있으며 오류 패턴 DB(130)를 더 포함하여 구현될 수 있다.
전치사 교정 장치(100)는 디지털 신호 처리가 가능한 정보 처리 장치에 탑재될 수 있다.
여기서, 정보 처리 장치는 사용자로부터 직접 정보 처리 장치를 접촉하거나 정보 처리 장치에 탑재된 음성 인식 기술을 이용하여 텍스트를 입력할 수 있도록 키보드, 마우스, 터치스크린과 같은 입력 장치 또는 마이크와 같은 음성 인식 센서를 탑재하고, 입력된 신호를 처리할 수 있는 정보 처리 기능을 구비하는 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant), 노트북, 컴퓨터와 같은 사용자 단말을 의미할 수 있으나 이에 한정되는 것은 아니다.
또한, 입력 텍스트는 분리하여 자립적으로 쓸 수 있거나 음절의 조합으로 문법적 기능을 나타내는 단어, 두 개 이상의 단어의 조합으로 구성되는 구절, 구절들의 조합으로 이루어지는 문장과 같은 모든 형태의 글이나 문서를 포함할 수 있으나 이에 한정되는 것은 아니다.
텍스트 정규화부(110)는 입력 텍스트에 입력 텍스트를 구성하는 단어의 품사 정보를 태깅하여 입력 텍스트를 정규화할 수 있다. 보다 구체적으로, 입력 텍스트를 구성하는 단어의 품사 태그를 입력 텍스트에 태깅함으로써 입력 텍스트를 정규화할 수 있다.
그리하여, 입력 텍스트를 구성하는 각각의 단어는 상이하지만 동일한 품사에 소속되는 단어의 조합으로 이루어지는 복수의 입력 텍스트는 동일한 형태로 정규화될 수 있다.
텍스트 정규화부(110)는 시간 정규화 모듈(111) 및 장소 정규화 모듈(113)을 포함할 수 있다.
시간 정규화 모듈(111)은 품사가 태깅된 입력 텍스트에서 시간이나 시점을 표현하는 단어를 미리 구축된 텍스트 사전을 기반으로 시간 타입 정보로 치환할 수 있다.
여기서, 시간이나 시점을 표현하는 단어를 치환하는데 이용되는 텍스트 사전은 시간을 나타내는 단어를 미리 <DATE>, <MONTH>, <HOLIDAY>, <ORDNUM>, <INDAY>, <YEAR>, <NUM>, <MEAL>과 같은 타입으로 분류하여 미리 구축될 수 있다.
그리하여, 입력 텍스트에 시간이나 시점을 표현하는 단어가 포함되면 텍스트 사전에 미리 설정된 시간 타입에 해당되는 태그로 해당 단어를 태깅함으로써 입력 텍스트를 정규화할 수 있다.
장소 정규화 모듈(113)은 품사가 태깅된 입력 텍스트에서 장소를 표현하는 단어를 개체명 인식(Named Entity Recognition)을 기반으로 장소 타입 정보로 치환할 수 있다.
여기서, 개체명 인식 방법(Named Entity Recognition)은 입력 텍스트 내의 인명(Person), 지명(Location) 및 기관명(Organization) 중 어느 하나에 해당되는 단어를 <PER>, <LOC>, <ORG>과 같은 태그로 치환함으로써 입력 텍스트를 정규화할 수 있다.
시간 타입 정보 또는 장소 타입 정보로 치환하여 입력 텍스트를 정규화 이유는 전치사가 명사나 대명사의 앞 또는 뒤에 위치하여 명사 또는 대명사와의 관계를 나타내는 품사로써 특히 시간, 시점 또는 장소를 나타내는 단어의 종류에 따라 다르게 표현될 수 있기 때문이다.
패턴 추출부(120)는 정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 입력 텍스트의 구조를 나타내는 패턴을 추출할 수 있다. 즉, 정규화된 텍스트에 포함된 전치사를 기준으로 복수의 단어 시퀀스를 추출함으로써 입력 텍스트로부터 전치사를 기준으로 복수의 패턴을 추출할 수 있다.
여기서, 윈도우 사이즈란 입력 텍스트에서 추출될 단어의 개수를 미리 설정한 값이므로 전치사를 기준으로 앞 또는 뒤에 위치하는 윈도우 사이즈만큼의 단어를 이용하여 단어 시퀀스를 추출함으로써 복수의 패턴을 추출할 수 있다.
단어 시퀀스를 통해 추출된 복수의 패턴은 검증을 통하여 오류 패턴 DB(130)로 구축될 수 있다. 즉, 문법적으로 오류가 있는 텍스트를 이용하여 미리 구축된 문법 오류 말뭉치와 패턴을 비교하여 전치사 오류가 있는지를 검증하고, 전치사 오류가 있는 것으로 검증되는 패턴을 오류 패턴 DB(130)에 기록함으로써 미리 구축될 수 있다.
여기서, 패턴을 검증하는 이유는 단어 시퀀스를 이용하여 방대하게 추출된 패턴에서 전치사 오류가 포함된 유효한 패턴만을 오류 패턴 DB(130)에 기록하기 위함이다.
그리하여, 문법 오류 말뭉치와 추출된 패턴을 비교하여 매칭되는 패턴은 오류 패턴 DB(130)에 기록할 수 있다. 반면, 문법 오류 말뭉치에 매칭되지 않는 패턴은 전치사 오류가 포함되지 않아 유효하지 않은 패턴으로 간주하여 오류 패턴 DB(130)에 기록되지 않는다.
오류 교정부(140)는 전치사를 기준으로 추출된 패턴 중 오류 패턴 DB(130)에 포함되는 오류 패턴과 매칭되는 패턴에 대하여, 확률적 언어 모델 및 통계적 언어 모델 중 적어도 하나의 언어 모델을 이용하여 입력 텍스트에 포함된 전치사 오류를 교정할 수 있다.
여기서, 확률적 언어 모델 및 통계적 언어 모델은 기계 학습 기반의 나이브 베이지안(Nave Bayesian) 모델, 은닉 마코프 모델(Hidden Markov Model), 귀납적 의사결정-트리(Inductive decision-tree), 신경망(Neural Network)과 같은 언어 모델을 포함할 수 있으나 이에 한정되는 것은 아니다.
여기서는 단어의 품사 중에서 전치사에 대한 문법적 오류를 교정하는 방법만을 기재하였으나 이에 한정되지 않고 수사, 한정사, 관형사, 조사, 형용사, 부사와 같은 다양한 품사로 확대하여 적용할 수 있다.
상술한 바와 같은 본 발명의 실시예에 따른 전치사 교정 방법 및 이를 수행하는 장치에 따르면, 사용자로부터 제공받은 입력 텍스트를 구성하는 단어의 품사 정보를 기반으로 전치사 오류에 대한 패턴을 추출함으로써 외국어 학습자의 전치사 오류를 효율적으로 교정할 수 있다.
또한, 패턴 간의 매칭을 통하여 외국어 학습자의 전치사 오류를 정확하게 검출함으로써 외국어 문법 학습을 효과적으로 수행할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (12)

  1. 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 전치사 교정 방법에 있어서,
    입력 텍스트에 상기 입력 텍스트를 구성하는 단어의 품사 정보를 태깅(tagging)하여 상기 입력 텍스트를 정규화하는 단계;
    상기 정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 상기 입력 텍스트의 구조를 나타내는 패턴(pattern)을 추출하는 단계; 및
    미리 구축된 오류 패턴 DB에 포함된 오류 패턴과 상기 추출된 패턴 간의 매칭(matching)을 통하여 상기 입력 텍스트에 포함되는 전치사의 오류를 교정하는 단계를 포함하는 전치사 교정 방법.
  2. 청구항 1에 있어서,
    상기 오류 패턴 DB는,
    문법적으로 오류가 있는 텍스트를 이용하여 미리 구축된 문법 오류 말뭉치와 상기 추출된 패턴을 비교하여 전치사 오류가 있는지를 검증하고, 상기 전치사 오류가 있는 것으로 검증되면 상기 추출된 패턴을 기록함으로써 구축되는 것을 특징으로 하는 전치사 교정 방법.
  3. 청구항 1에 있어서,
    상기 입력 텍스트를 정규화하는 단계는,
    텍스트 사전을 기반으로 상기 품사 정보가 태깅된 입력 텍스트에서 시간을 표현하는 단어를 시간 타입 정보로 치환하여 상기 입력 텍스트를 정규화하는 것을 특징으로 하는 전치사 교정 방법.
  4. 청구항 1에 있어서,
    상기 입력 텍스트를 정규화하는 단계는,
    개체명 인식(Named Entity Recognition)을 기반으로 상기 품사 정보가 태깅된 입력 텍스트에서 장소를 표현하는 단어를 장소 타입 정보로 치환하여 상기 입력 텍스트를 정규화하는 것을 특징으로 하는 전치사 교정 방법.
  5. 청구항 1에 있어서,
    상기 입력 텍스트에 대한 패턴을 추출하는 단계는,
    상기 정규화된 텍스트에 포함된 전치사를 기준으로 앞 또는 뒤에 위치하는 단어를 이용하여 복수의 단어 시퀀스(sequence)를 추출함으로써 상기 입력 텍스트로부터 전치사를 기준으로 복수의 패턴을 추출하는 것을 특징으로 하는 전치사 교정 방법.
  6. 청구항 5에 있어서,
    상기 전치사 오류를 교정하는 단계는,
    상기 전치사를 기준으로 추출된 패턴 중 상기 오류 패턴 DB에 포함되는 오류 패턴과 매칭되는 상기 패턴에 대하여, 확률적 언어 모델 및 통계적 언어 모델 중 적어도 하나의 언어 모델을 이용하여 상기 입력 텍스트에 포함된 전치사 오류를 교정하는 것을 특징으로 하는 전치사 교정 방법.
  7. 입력 텍스트에 상기 입력 텍스트를 구성하는 단어의 품사 정보를 태깅(tagging)하여 상기 입력 텍스트를 정규화하는 텍스트 정규화부;
    상기 정규화된 입력 텍스트에 포함되어 있는 전치사를 기준으로 상기 입력 텍스트의 구조를 나타내는 패턴(pattern)을 추출하는 패턴 추출부; 및
    미리 구축된 오류 패턴 DB에 포함된 오류 패턴과 상기 추출된 패턴 간의 매칭(matching)을 통하여 상기 입력 텍스트에 포함되는 전치사의 오류를 교정하는 오류 교정부를 포함하는 전치사 교정 장치.
  8. 청구항 7에 있어서,
    상기 오류 패턴 DB는,
    문법적으로 오류가 있는 텍스트를 이용하여 미리 구축된 문법 오류 말뭉치와 상기 추출된 패턴을 비교하여 상기 전치사 오류가 있는지를 검증하고, 상기 전치사 오류가 있는 것으로 검증되면 상기 추출된 패턴을 기록함으로써 구축되는 것을 특징으로 하는 전치사 교정 장치.
  9. 청구항 7에 있어서,
    상기 텍스트 정규화부는,
    텍스트 사전을 기반으로 상기 품사 정보가 태깅된 입력 텍스트에서 시간을 표현하는 단어를 시간 타입 정보로 치환하여 상기 입력 텍스트를 정규화하는 시간 정규화 모듈을 포함하는 것을 특징으로 하는 전치사 교정 장치.
  10. 청구항 7에 있어서,
    상기 텍스트 정규화부는,
    개체명 인식(Named Entity Recognition)을 기반으로 상기 품사 정보가 태깅된 입력 텍스트에서 장소를 표현하는 단어를 장소 타입 정보로 치환하여 상기 입력 텍스트를 정규화하는 장소 정규화 모듈을 포함하는 것을 특징으로 하는 전치사 교정 장치.
  11. 청구항 7에 있어서,
    상기 패턴 추출부는,
    상기 정규화된 텍스트에 포함된 전치사를 기준으로 앞 또는 뒤에 위치하는 단어를 이용하여 복수의 단어 시퀀스(sequence)를 추출함으로써 상기 입력 텍스트로부터 전치사를 기준으로 복수의 패턴을 추출하는 것을 특징으로 하는 전치사 교정 장치.
  12. 청구항 11에 있어서,
    상기 오류 교정부는,
    상기 전치사를 기준으로 추출된 패턴 중 상기 오류 패턴 DB에 포함되는 오류 패턴과 매칭되는 상기 패턴에 대하여, 확률적 언어 모델 및 통계적 언어 모델 중 적어도 하나의 언어 모델을 이용하여 상기 입력 텍스트에 포함된 전치사 오류를 교정하는 것을 특징으로 하는 전치사 교정 장치.
PCT/KR2014/001514 2013-08-13 2014-02-25 전치사 교정 방법 및 이를 수행하는 장치 WO2015023035A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/909,565 US20160180742A1 (en) 2013-08-13 2014-02-25 Preposition error correcting method and device performing same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0096123 2013-08-13
KR20130096123A KR101482430B1 (ko) 2013-08-13 2013-08-13 전치사 교정 방법 및 이를 수행하는 장치

Publications (1)

Publication Number Publication Date
WO2015023035A1 true WO2015023035A1 (ko) 2015-02-19

Family

ID=52468410

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/001514 WO2015023035A1 (ko) 2013-08-13 2014-02-25 전치사 교정 방법 및 이를 수행하는 장치

Country Status (3)

Country Link
US (1) US20160180742A1 (ko)
KR (1) KR101482430B1 (ko)
WO (1) WO2015023035A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013MU02915A (ko) * 2013-09-10 2015-07-03 Tata Consultancy Services Ltd
US9514185B2 (en) * 2014-08-07 2016-12-06 International Business Machines Corporation Answering time-sensitive questions
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
US10860800B2 (en) * 2017-10-30 2020-12-08 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
US10515148B2 (en) 2017-12-15 2019-12-24 King Fahd University Of Petroleum And Minerals Arabic spell checking error model
KR20190090646A (ko) * 2018-01-25 2019-08-02 필아이티 주식회사 단어 예측을 수행하는 방법 및 모바일 장치
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN111008519B (zh) * 2019-12-25 2023-06-30 掌阅科技股份有限公司 阅读页面的展示方法、电子设备及计算机存储介质
CN111161578B (zh) * 2020-01-06 2022-03-11 广东小天才科技有限公司 学习互动方法、装置及终端设备
CN114613516B (zh) * 2020-12-29 2022-12-06 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质
CN114881011B (zh) * 2022-07-12 2022-09-23 中国人民解放军国防科技大学 多通道中文文本更正方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040089774A (ko) * 2003-04-15 2004-10-22 한국전자통신연구원 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
KR20080039009A (ko) * 2006-10-31 2008-05-07 포항공과대학교 산학협력단 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치
KR20120125310A (ko) * 2010-02-01 2012-11-14 진저 소프트웨어 인코퍼레이티드 특히 소형 키보드 디바이스를 위한 인터넷 코퍼스를 사용하는 자동 문맥 감응식 언어 교정
KR20130059795A (ko) * 2011-11-29 2013-06-07 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001255599A1 (en) * 2000-04-24 2001-11-07 Microsoft Corporation Computer-aided reading system and method with cross-language reading wizard
JP2003058861A (ja) * 2001-08-15 2003-02-28 Communication Research Laboratory データエラーの検出方法及び装置、ソフトウェア並びにその記憶媒体
US8849648B1 (en) * 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
KR20070088687A (ko) * 2004-12-01 2007-08-29 화이트스모크 인코포레이션 문서의 질을 자동으로 향상시키는 시스템 및 방법
IL186505A0 (en) * 2007-10-08 2008-01-20 Excelang Ltd Grammar checker
CN104484319A (zh) * 2010-09-24 2015-04-01 新加坡国立大学 用于自动化文本校正的方法和系统
US8781810B2 (en) * 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040089774A (ko) * 2003-04-15 2004-10-22 한국전자통신연구원 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
KR20080039009A (ko) * 2006-10-31 2008-05-07 포항공과대학교 산학협력단 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치
KR20120125310A (ko) * 2010-02-01 2012-11-14 진저 소프트웨어 인코퍼레이티드 특히 소형 키보드 디바이스를 위한 인터넷 코퍼스를 사용하는 자동 문맥 감응식 언어 교정
KR20130059795A (ko) * 2011-11-29 2013-06-07 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법

Also Published As

Publication number Publication date
KR101482430B1 (ko) 2015-01-15
US20160180742A1 (en) 2016-06-23

Similar Documents

Publication Publication Date Title
WO2015023035A1 (ko) 전치사 교정 방법 및 이를 수행하는 장치
US8706472B2 (en) Method for disambiguating multiple readings in language conversion
WO2021040124A1 (ko) 인공지능 기반의 법률 문서 분석 시스템 및 방법
WO2013081301A1 (ko) 작문 자동 평가를 위해 샬로우 파서를 이용한 문장 자동 평가 장치, 이를 위한 오류 검출 장치 및 이를 위한 방법
Lu et al. Towards a metaphor-annotated corpus of Mandarin Chinese
WO2015050321A1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
WO2016208941A1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
WO2018088664A1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
CN104008093A (zh) 用于中文姓名音译的方法和系统
WO2013062302A1 (ko) 작문 자동 평가를 위한 예제기반 오류 검출 시스템, 이를 위한 방법 및 이를 위한 오류 검출 장치
CN106601253B (zh) 智能机器人文字播音朗读审核校对方法和系统
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
Chowdhury et al. Towards Bangla named entity recognition
Ahamed et al. Spell corrector for Bangla language using Norvig’s algorithm and Jaro-Winkler distance
US9690797B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
WO2012060534A1 (ko) 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
KR20120088032A (ko) 실시간 번역 지식 자동 추출/검증 방법 및 그 장치
Oudah et al. Person name recognition using the hybrid approach
WO2016117854A1 (ko) 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법
WO2020111374A1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
AlShenaifi et al. ARIB@ QALB-2015 shared task: a hybrid cascade model for Arabic spelling error detection and correction
KS et al. Automatic error detection and correction in malayalam
Darģis et al. The use of text alignment in semi-automatic error analysis: use case in the development of the corpus of the Latvian language learners

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14835844

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14909565

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14835844

Country of ref document: EP

Kind code of ref document: A1