KR101431339B1 - 확률적 구문 오류 검출 방법 및 장치 - Google Patents

확률적 구문 오류 검출 방법 및 장치 Download PDF

Info

Publication number
KR101431339B1
KR101431339B1 KR1020120134420A KR20120134420A KR101431339B1 KR 101431339 B1 KR101431339 B1 KR 101431339B1 KR 1020120134420 A KR1020120134420 A KR 1020120134420A KR 20120134420 A KR20120134420 A KR 20120134420A KR 101431339 B1 KR101431339 B1 KR 101431339B1
Authority
KR
South Korea
Prior art keywords
syntax
probability
corpus
appearance
error
Prior art date
Application number
KR1020120134420A
Other languages
English (en)
Other versions
KR20140067330A (ko
Inventor
러브트이안?카이
김지홍
조항준
김강일
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020120134420A priority Critical patent/KR101431339B1/ko
Publication of KR20140067330A publication Critical patent/KR20140067330A/ko
Application granted granted Critical
Publication of KR101431339B1 publication Critical patent/KR101431339B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

하나 이상의 단어로 이루어진 구문의 오류를 검출하기 위해, 상기 구문을 구성하는 각 단어가 코퍼스 내에서 출현할 출현 확률을 구하는 단계; 상기 구문이 상기 코퍼스 내에서 출현할 추정 확률(Pe), 예상 출현 빈도 확률(Po), 및 상기 구문의 실제 출현 확률(Pa)을 구하는 단계; 및 상기 예상 출현 빈도 확률(Po) 및 상기 실제 확률(Pa)에 기초하여 상기 구문의 오류 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는 구문 오류 검출방법 및 이 방법을 수행하는 장치가 개시된다.

Description

확률적 구문 오류 검출 방법 및 장치 {Method and apparatus for Probabilistic phrase error detection}
본 발명은 확률적 구문 오류 검출 방법 및 장치에 관한 것으로, 보다 상세하게는, 빈도수가 낮은 특수한 표현이나 반복적인 실수가 많이 행해지는 표현에 대해서도 오류검출을 정확히 할 수 있는 확률적 구문 오류 검출 방법 및 장치에 관한 것이다.
임의의 구문이 문법적으로 올바른지 여부를 판단하는 기존 방법으로 통계적 문법 오류 검출 기술이 있다. 그러나 이 통계적 검출 기술에서는 모집단인 코퍼스(corpus: 대규모로 수집한 문장들을 담고 있는 말뭉치)의 N-그램 표본들이 모두 참이라는 가정을 하기 때문에 코퍼스 자체의 불완전성을 검증할 수 없고, 표본들의 빈도수만으로 문장 오류를 판단하기 때문에 빈도수가 낮은 특수한 문장 표현이나 반복적인 실수에 대한 정확한 오류 검출이 어렵다는 문제가 있다.
그러므로 코퍼스의 오류를 보정하면서, 일반적으로 잘 쓰이지 않는 전문적인 표현이나 새롭게 등장한 표현들도 효과적으로 교정할 수 있는 구문 오류 검출 방법에 대한 필요성이 제기되고 있다.
본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 빈도수가 낮은 특수한 표현이나 반복적인 실수가 많이 행해지는 표현에 대해서도 오류검출을 정확히 할 수 있는, 확률에 기반한 문장 오류 검출 방법이 제공된다.
본 발명적 개념의 예시적 실시예에 따르면, 하나 이상의 단어로 이루어진 구문의 오류를 검출하는 장치에 의한 구문 오류 검출방법에 있어서, 상기 장치의 구문오류 검출부가, 상기 구문을 구성하는 각 단어가 코퍼스 내에서 출현할 출현 확률을 구하는 단계; 상기 구문오류 검출부가, 상기 구문이 상기 코퍼스 내에서 출현할 추정 확률(Pe) 및 상기 구문의 실제 출현 확률(Pa)을 구하는 단계; 및 상기 구문오류 검출부가, 상기 추정 확률(Pe) 및 상기 실제 확률(Pa)에 기초하여 상기 구문의 오류 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는 구문 오류 검출 방법이 제공될 수 있다.
본 발명적 개념의 예시적 실시예에 따르면, 하나 이상의 단어로 이루어진 구문의 오류를 검출하는 장치에 있어서, 코퍼스를 저장하는 코퍼스 저장부; 및 상기 코퍼스 내에서 상기 구문을 검색하고 이 구문의 오류를 검출하는 구문오류 검출부;를 포함하고, 상기 구문오류 검출부는 상기 구문이 코퍼스 내에 출현하는 빈도, 확률, 및/또는 확률분포를 계산할 수 있고, 상기 계산된 빈도, 확률 및/또는 확률분포에 기초하여 상기 구문의 오류 여부를 판단하는 것을 특징으로 하는 구문 오류 검출장치가 제공될 수 있다.
본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 빈도수가 낮은 특수한 표현이나 반복적인 실수가 많이 행해지는 표현에 대해서도 오류검출을 정확히 할 수 있는 이점을 가진다.
도1은 일 실시예에 따른 구문 오류 판단 장치의 개략적인 블록도,
도2는 일 실시예에 따른 구문 오류 검출 방법의 예시적인 흐름도,
도3은 일 실시예에 따른 구문 오류 검출을 위한 예시적인 확률분포 그래프,
도4a 및 도4b는 대안적인 실시예에 따른 구문 오류 검출을 위한 임계값 설정을 나타내는 그래프,
도5는 대안적 실시예에 따른 구문 오류 검출 장치의 개략적인 블록도이다.
이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제3의 구성요소가 게재될 수도 있다는 것을 의미한다.
또한, 어떤 구성요소가 다른 구성요소 상에서 동작 또는 실행된다고 언급될 때, 그 구성요소는 다른 구성요소가 동작 또는 실행되는 환경에서 동작 또는 실행되거나 또는 다른 구성요소와 직접 또는 간접적으로 상호 작용을 통해서 동작 또는 실행되는 것으로 이해되어야 할 것이다.
어떤 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.
또한 어떤 구성요소가 구현됨에 있어서 특별한 언급이 없다면, 그 구성요소는 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어 어떤 형태로도 구현될 수 있는 것으로 이해되어야 할 것이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다' 및/또는 '포함하는'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급해 둔다.
도1은 일 실시예에 따른 구문 오류 검출장치의 개략적인 블록도이다.
도1을 참고하면, 일 실시예에 따른 구문 오류 검출장치(100)는 입력부(10), 출력부(20), 통신부(30), 구문오류 검출부(40), 및 코퍼스 저장부(50)를 포함할 수 있다.
입력부(10)는 사용자로부터 검색 대상인 구문(이하 "검색대상 구문"이라고도 함)을 입력받는다. 입력부(10)는 예컨대 키보드와 같은 입력장치로 구현될 수 있으며 이에 한정되지 않는다.
출력부(20)는 검색대상 구문을 검색한 결과를 사용자에게 보여주기 위해 출력하는 수단이다. 예를 들어 출력부(20)는 디스플레이가 될 수 있으며 이에 한정되지 않는다.
통신부(30)는 원거리에 있는 사용자가 예컨대 인터넷과 같은 네트워크를 통해 구문 오류 검출장치(100)와 통신하기 위한 수단이고, 검색대상 구문 또는 검색결과와 같은 데이터를 송신 및/또는 수신할 수 있다.
이와 같이 입력부(10), 출력부(20), 및 통신부(30)는 사용자와 검출장치(100) 사이의 인터페이스 역할을 하며, 실시 형태에 따라 상술한 입력부(10), 출력부(20), 및 통신부(30) 중 하나 이상이 생략되거나 또는 다른 인터페이스 수단이 부가될 수 있음은 물론이다.
코퍼스 저장부(50)는 코퍼스를 저장하는 저장수단이다. 코퍼스 저장부(50)는 예를 들어 하드디스크 드라이브, 플래시 메모리 등의 비휘발성 메모리로 구현가능하고 예컨대 데이터베이스 서버나 파일 서버 등의 형태로 존재할 수 있다.
구문오류 검출부(40)는 일 실시예에 따라 코퍼스 저장부(50)에 저장된 코퍼스 내에서 검색대상 구문을 검색하고 이 구문의 오류를 검출한다. 여기서, 본 명세서에서 사용되는 용어인 "구문"은 사용자가 검색하고자 하는 언어 표현으로서, 하나 이상의 단어로 구성된다. 즉 "구문"은 하나의 단어이거나 또는 둘 이상의 단어로 이루어진 구, 절, 또는 문장일 수 있다. 구문이 둘 이상의 단어로 이루어진 구, 절, 또는 문장인 경우, 각 단어들은 연속적으로 인접할 수도 있지만 각 단어들이 서로 떨어져 있을 수도 있다.
또한 본 명세서에서 사용되는 "구문의 오류를 검출한다" 또는 "구문의 오류 여부를 판단한다"라는 것은, 해당 구문, 즉 검색대상인 단어, 구, 절, 또는 문장이 문법적으로 올바른지 여부 또는 비록 문법적으로 완벽히 올바르지 않더라도 다수의 사용자가 사용하는 자연스러운 표현인지 여부를 판단함을 의미한다.
도시된 실시예에서 구문오류 검출부(40)는 확률 계산부(41)와 판단부(42)를 포함할 수 있다. 확률 계산부(41)는 검색대상 구문이 코퍼스 내에 출현하는 빈도, 확률, 및/또는 확률분포 등의 계산을 수행할 수 있고, 판단부(42)는 계산된 빈도, 확률 및/또는 확률분포에 근거하여 해당 검색대상 구문이 문법적으로 올바른지 또는 자연스럽게 사용되는지 등의 판단을 행할 수 있다. 구문오류 검출부(40)의 구체적인 기능에 대해서는 도2를 참조하여 후술하기로 한다.
구문오류 검출부(40)의 확률 계산부(41)와 판단부(42)는 예컨대 컴퓨팅 장치 내에 설치되어 컴퓨터 프로세서의 제어하에 메모리에 로딩되어 동작되는 프로그램 코드로 구현 가능하다. 그러나 실시 형태에 따라 구문오류 검출부(40)의 일부 기능이 하드웨어적으로 구현되어도 무방하다.
도2는 일 실시예에 따른 구문 오류 검출 방법의 예시적인 흐름도이다.
도시된 실시예는 예를 들어 두 단어로 이루어진 구문을 검색한다고 가정한다. 여기서 단어는 예컨대 최소한의 의미상 단위를 의미하며, 영어인 경우 한 단어(word)를 의미할 수 있고, 한국어인 경우 한 음절 이상의 단어일 수 있다. 또한 이 때 두 단어는 서로 인접해 있을 수도 있지만 떨어져 있을 수도 있다.
사용자가 키보드와 같은 입력부(10)를 통해 검색하고자 하는 구문을 입력하면, 단계(S210)에서, 구문오류 검출부(40)는 이 입력된 검색대상 구문을 구성하는 각 단어가 코퍼스 내에서 출현하는 확률을 구한다. 예컨대 검색대상 구문(W)이 각각 w1 및 w2라는 두 단어로 이루어진 경우(즉, W=w1w2), 구문오류 검출부(40)는 단어(w1)의 출현 확률(P(w1)) 및 단어(w2)의 출현 확률(P(w2))을 각각 구한다.
일 실시예에서 이 확률은, 코퍼스 내에서 실제로 해당 단어가 몇 번 검색되었는지를 카운트하여 구할 수 있다. 즉 단어(w1)에 대한 출현 확률(P(w1))은 이 단어(w1)가 코퍼스 내에서 검색된 빈도를 이 코퍼스의 크기(즉, 코퍼스를 구성하는 모든 단어들의 빈도의 합(N))으로 나눈 값일 수 있고, 마찬가지로 단어(w2)의 출현 확률(P(w2))은 이 단어(w2)의 코퍼스 내의 빈도를 코퍼스의 모든 단어들의 빈도의 합(N)으로 나눈 값일 수 있다.
다음으로 단계(S220)에서, 구문오류 검출부(40)는 검색대상 구문(W)이 출현할 확률(P(W)), 예상 출현 빈도 확률(Po), 및 실제로 이 구문(W)이 코퍼스에서 출현한 확률(Pa)을 구한다.
여기서, 구문(W)이 출현할 확률(P(W))은 이 구문(W)이 코퍼스 내에서 출현할 추정(estimated) 확률(Pe)이다. 즉 P(W) = Pe 이다. 이 추정 확률(Pe)은 두 단어(w1,w2)의 조합인 검색대상 구문(W)이 코퍼스 내에서 나타날 확률이고, 일 실시예에서, 각 단어(w1,w2)가 서로 독립적이라고 가정하면, 추정 확률(Pe)은 단계(S210)에서 계산한 각 단어에 대한 확률(P(w1), P(w2))의 곱이다. 즉, P(W) = Pe = P(w1)*P(w2) 이다. 다른 대안적 실시예에서, 예를 들어 구문(W)이 세 개 이상의 단어(w1, w2, w3,...)로 이루어진 경우, Pe = P(w1)*P(w2)*P(w3)*... 등으로 확장가능함은 물론이다. 또한, 예컨대 구문(W)을 구성하는 단어들이 서로 떨어져 있을 경우 Pe는 위와 같이 단순히 각 단어의 확률을 곱하지 않고 각 단어의 확률에 기초하여 더 복잡한 수식에 따라 산출될 수 있음도 이해할 것이다.
다시 상기 일 실시예에서, 위의 추정 확률(Pe)을 바탕으로 코퍼스에서 구문(W)의 예상 출현 빈도의 확률(Po)은, 추정 확률(Pe)로 N번을 시도(샘플링)하는 이항 확률 분포 B(N, Pe)를 따른다고 볼 수 있고, 코퍼스의 크기가 매우 크면(즉, N이 매우 크면) 예상 출현 빈도 확률(Po)은 푸아송 분포를 따른다고 간주할 수 있다.
한편, 검색대상 구문(W)이 실제로 코퍼스 내에서 출현한 확률(Pa)은 실제로 이 구문(W)이 코퍼스 내에서 검출된 빈도(Nw)를 전체 코퍼스의 크기(N)로 나눔으로써 구할 수 있다. 실시 형태에 따라, 실제 출현한 확률(Pa) 대신 실제 출현한 빈도(Nw)만 구하여도 무방하다.
그 후 단계(S230)에서, 구문오류 검출부(40)는 예상 출현 빈도 확률(Po)과 실제 출현 확률(Pa)을 비교하여 구문의 오류 여부를 판단한다. 일 실시예에서, 이 단계(S230)는 추정 확률(Pe)의 확률 분포 상에서 구문(W)이 실제로 검출된 빈도(Nw)를 비교하는 것이어도 무방하다.
이와 관련하여 도3은 일 실시예에 따른 구문 오류 검출을 위한 예시적인 확률분포 그래프를 나타낸다. 이 그래프는 구문(W)에 대한 예상 출현 빈도 확률(Po)이 푸아송 분포를 따른다고 가정한 것이다. 그래프에서 가로축은 구문의 출현 빈도를 나타내고 세로축은 이 구문의 예상 출현 빈도 확률(Po)을 나타낸다.
이와 같이 나타낸 확률분포 곡선은 구문(W)을 이루는 두 단어(w1,w2)가 서로 완전히 독립적이라고 가정하였을 때의 확률분포이다. 그러므로, 예컨대 이 구문(W)이 실제로 코퍼스 내에서 검출된 빈도수(Nw)가 확률분포 곡선의 오른쪽에 위치한다면, 두 단어가 서로 완전히 독립적인 관계가 아님을 의미한다. 즉 두 단어가 함께 사용되는 경우가 많다는 것을 의미하고, 이것은 두 단어(w1,w2)의 조합인 해당 구문(W)이 문법적으로 올바르거나 또는 문법적으로 엄밀하게 올바른 표현은 아니라 하더라도 많은 사람들에 의해 사용되고 있으므로 자연스러운 표현인 것을 의미할 수 있다.
만일 구문(W)의 실제 출현 빈도(Nw)가 확률분포 곡선의 왼쪽에 위치한다면, 두 단어(w1,w2)는 서로 완전히 독립적인 관계가 아니라 두 단어가 함께 사용되는 경우가 매우 드물다는 것을 의미한다. 즉 이 구문(W)은 문법적으로 오류가 있거나 또는 문법적으로는 올바르지만 부자연스러운 표현이어서 사람들이 잘 사용하지 않음을 의미한다.
만일 구문(W)의 실제 출현 빈도(Nw)가 확률분포 곡선의 중간에 위치한다면, 두 단어(w1,w2)는 실제로도 서로 독립적인 관계일 가능성이 높음을 의미한다. 즉 두 단어는 특별한 관련성 없이 서로 독립적으로 사용되고 있으므로, 구문(W)이 적절한지 여부를 확신할 수 없다. 즉 두 단어(w1,w2)의 조합이 문법적으로 옳은지 그른지 또는 자연스러운 표현인지 아닌지를 알 수 없고, 이 구문의 오류 여부를 판단하기 위해 추가적인 검증 과정이 부가될 수 있다.
바람직한 실시예에서, 확률분포 곡선에서 최대값 Pmax의 X축 위치(N*Pe)를 중심으로 좌우에 각각 소정 임계값(c1,c2)을 설정함으로써 위와 같이 구문의 오류 여부 판단을 수행할 수 있다. 도시된 실시예의 경우, 확률분포 곡선의 최대값(출현 빈도가 대략 18)을 중심으로 좌측 임계값(c1)은 출현 빈도가 8인 값으로, 우측 임계값(c2)은 출현 빈도가 28인 값으로 각각 설정하였다.
임계값은 실시 형태에 따라 임의의 방식으로 선택할 수 있다. 예컨대 추정 확률(Pe)이 소정 값을 가질 때의 출현 빈도 값을 각각 좌측 및 우측 임계값으로 선택할 수 있다. 또 다른 예로서, 추정 확률(Pe)의 최대값에서의 출현 빈도를 기준으로 좌우로 각각 소정 값을 뺀 값을 좌측 임계값(c1)으로, 소정 값을 더한 값을 우측 임계값(c2)으로 선택할 수도 있고, 그 외에 다른 다양한 방식이 사용될 수도 있다.
이와 같은 도3의 확률분포 곡선에서, 구문오류 검출부(40)는, 구문(W)의 실제 출현 빈도(Nw)가 예컨대 좌측 임계값(c1) 보다 작은 영역(I)에 있다면 이 구문(W)이 문법적으로 틀리거나 부자연스러운 표현으로 판단하고, 실제 출현 빈도(Nw)가 우측 임계값(c2) 보다 큰 영역(III)에 속한다면 이 구문(W)이 문법적으로 올바르거나 자연스러운 표현이라고 판단하고, 실제 출현 빈도(Nw)가 좌우측 임계값(c1,c2) 사이의 영역(II)에 속한다면 이 구문(W)의 오류 여부 판단을 하지 않고, 추가적인 검증 단계를 더 수행할 수도 있다.
도4a 및 도4b는 대안적인 실시예에 따른 구문 오류 검출을 위한 임계값 설정을 나타내는 그래프이다.
도4a의 그래프는, 구문(W)의 예상 출현 빈도 확률(Po)의 확률분포 곡선이 푸아송 분포가 아닌 임의의 다른 분포 곡선을 따른다고 가정한 것이다. 즉 실시 형태에 따라, 예상 출현 빈도 확률(Po)은 푸아송 분포가 아닌 다른 임의의 확률 분포(예컨대, 이항 확률 분포) 곡선을 따른다고 가정할 수 있고, 이 분포곡선에 기초하여 임계값(c1,c2)을 설정할 수 있다.
도4b는 임계값(c1,c2)를 설정함에 있어서 확률 분포 곡선을 사용하지 않을 수도 있음을 나타낸다. 예컨대 예상 출현 빈도 확률(Po)의 최대값(Pmax)에서의 구문(W)의 출현 빈도수를 기준으로 좌우로 소정 값을 뺀 값을 좌측 임계값(c1)으로, 소정 값을 더한 값을 우측 임계값(c2)으로 선택할 수도 있다.
이상과 같이 도2 내지 도4를 참조하여 설명한 구문 오류 검출 방법은 구문(W)이 두 개의 단어(w1,w2)의 조합인 경우를 예로 들었지만, 검색대상 구문은 한 단어 이상의 임의의 수의 조합으로 된 구문일 수 있음을 이해할 것이다. 또한 둘 이상의 단어의 조합으로 이루어진 구문인 경우, 단어들이 서로 인접하여 있을 수도 있지만 서로 떨어져 있는 경우에도 상술한 구문 오류 검출 방법이 사용될 수 있음을 이해할 것이다.
이제 도5를 참조하여 대안적인 실시예에 따른 구문 오류 검출 장치를 설명하기로 한다. 도5는 대안적 실시예에 따른 구문 오류 검출 장치의 개략적인 블록도이다.
도5을 참고하면, 대안적 실시예에 따른 구문 오류 검출장치(100)는 입력부(10), 출력부(20), 통신부(30), 구문오류 검출부(40), 및 제1 내지 제3 저장부(51~53)를 포함할 수 있다.
입력부(10), 출력부(20), 통신부(30), 및 구문오류 검출부(40)는 도1에 도시한 각 구성요소에 각각 대응하며 동일 또는 유사한 기능을 가지므로 설명을 생략한다.
제1 내지 제3 저장부(51~53)는 코퍼스를 저장할 수 있는 저장수단으로, 도1의 코퍼스 저장부(50)와 동일 또는 유사한 기능을 가진다. 각 저장부(51~53)는 각기 서로 다른 코퍼스를 저장할 수 있으며, 예를 들어, 제1 저장부(51)는 가장 일반적이고 광범위한 문장들을 포함하는 코퍼스를 저장하고, 제2 저장부(52)는 특정 전문분야의 코퍼스를 저장하고, 제3 저장부(53)도 또 다른 특정 전문분야의 코퍼스를 저장할 수 있다.
이와 같이 다수의 저장부(51~53)의 각각에 각기 다른 분야의 코퍼스를 저장하고 각 코퍼스에 대해 도1 내지 도4를 참조하여 설명한 구문 오류 검출 방법을 수행함으로써 보다 전문화된 영역에 대해서도 검색대상 구문의 오류 여부를 판단할 수 있다. 다수의 코퍼스를 사용하는 예로서는 다음과 같은 방법이 있다.
(i) 특정 전문분야 내에서만 검색대상 구문을 검색하고자 하는 경우, 사용자는 상기 특정 분야의 코퍼스만을 미리 선택하고 이 코퍼스에 대해서만 예컨대 도2의 방법을 수행함으로써 해당 구문의 오류 여부를 판단할 수 있다.
(ii) 복수개의 코퍼스에 대해 각 코퍼스마다 검색대상 구문의 오류 여부를 모두 판단하고, 판단결과 (도3, 도4a, 또는 도4b에서의) 영역(I) 내지 영역(III) 중 가장 많이 속하는 것으로 판단된 영역에 기초하여 해당 구문의 오류 여부를 판단할 수 있다.
(iii) 복수개의 코퍼스에 대해 각 코퍼스마다 구문의 오류 여부를 판단하고, 코퍼스마다 서로 다른 판단 결과가 나오면, 좀 더 전문화된 코퍼스의 결과에 따를 수 있다. 더 전문화된 코퍼스는 예컨대 사용자가 미리 지정한 코퍼스일 수도 있고, 구문오류 검출부(40)가 선택한 코퍼스일 수도 있다. 구문오류 검출부(40)가 선택하는 경우, 예를 들어, 각 코퍼스마다의 해당 검색대상 구문의 출현 빈도수를 비교하여 가장 많이 출현한 코퍼스 또는 출현 확률이 가장 높은 코퍼스를 상기 더 전문화된 코퍼스라고 판단하여 선택할 수 있다.
한편 도5에서는 구문 오류 검출장치가 3개의 상이한 코퍼스를 포함하는 것으로 설명하였지만 이것은 예시적 실시예에 불과하고, 구문 오류 검출장치가 두 개의 코퍼스만을 갖거나 또는 4개 이상의 더 많은 코퍼스를 가질 수 있음을 이해할 것이다. 이 때 하나의 저장부가 둘 이상의 복수개의 코퍼스를 저장하거나 하나의 코퍼스가 둘 이상의 저정부에 분산 저장될 수 있음도 물론이다.
이상 설명한 본 발명의 하나 이상의 방법에 따른 방법들은, 이들 방법을 수행하는 컴퓨터에서 판독가능한 프로그램으로 기록된 저장매체의 형태로 제공될 수 있다.
상기와 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위 뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 입력부 20: 출력부
30: 통신부 40: 구문오류 검출부
41: 확률 계산부 42: 판단부
50~51: 저장부

Claims (12)

  1. 하나 이상의 단어로 이루어진 구문의 오류를 검출하는 장치에 의한 구문 오류 검출방법에 있어서,
    상기 장치의 구문오류 검출부가, 상기 구문을 구성하는 각 단어가 코퍼스 내에서 출현할 출현 확률을 구하는 단계;
    상기 구문오류 검출부가, 상기 구문이 상기 코퍼스 내에서 출현할 추정 확률(Pe), 예상 출현 빈도 확률(Po), 및 상기 구문의 실제 출현 확률(Pa)을 구하는 단계; 및
    상기 구문오류 검출부가, 상기 예상 출현 빈도 확률(Po) 및 상기 실제 출현 확률(Pa)에 기초하여 상기 구문의 오류 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는, 구문 오류 검출 방법.
  2. 제 1 항에 있어서, 상기 각 단어의 출현 확률은 상기 코퍼스에서 단어가 실제로 출현한 빈도수에 기초하여 계산된 것을 특징으로 하는, 구문 오류 검출방법.
  3. 제 1 항에 있어서, 상기 추정 확률(Pe)이 상기 각 단어의 출현 확률에 기초하여 산출되는 것을 특징으로 하는, 구문 오류 검출방법.
  4. 제 1 항에 있어서, 상기 예상 출현 빈도 확률(Po)이 푸아송 분포 또는 이항 확률 분포를 따르는 것을 특징으로 하는, 구문 오류 검출방법.
  5. 제 1 항에 있어서, 상기 실제 출현 확률(Pa)은 상기 구문이 상기 코퍼스 내에서 검출된 빈도에 기초하여 계산된 것을 특징으로 하는, 구문 오류 검출방법.
  6. 제 1 항에 있어서,
    상기 오류 여부를 판단하는 단계는, 상기 예상 출현 빈도 확률(Po)의 확률분포 상에서, 상기 구문이 코퍼스 내에서 실제로 출현한 빈도(Nw)를 비교하는 단계를 더 포함하는 것을 특징으로 하는, 구문 오류 검출방법.
  7. 제 6 항에 있어서,
    상기 오류 여부를 판단하는 단계는, 상기 확률분포의 곡선의 최대값을 중심으로 설정된 좌측 임계값(c1) 및 우측 임계값(c2)과 상기 구문의 출현 빈도(Nw)를 비교함으로써 수행되는 것을 특징으로 하는, 구문 오류 검출방법.
  8. 제 7 항에 있어서,
    상기 오류 여부를 판단하는 단계는,
    상기 출현 빈도(Nw)가 상기 좌측 임계값(c1) 보다 작으면 상기 구문에 오류가 있다고 판단하고,
    상기 출현 빈도(Nw)가 상기 우측 임계값(c2) 보다 크면 상기 구문에 오류가 없다고 판단하고,
    상기 출현 빈도(Nw)가 상기 좌측 임계값(c1)과 우측 임계값(c2)의 사이에 있으면 상기 구문의 오류 여부를 판단하지 않는 것을 특징으로 하는, 구문 오류 검출방법.
  9. 하나 이상의 단어로 이루어진 구문의 오류를 검출하는 장치에 있어서,
    코퍼스를 저장하는 코퍼스 저장부; 및
    상기 코퍼스 내에서 상기 구문을 검색하고 이 구문의 오류를 검출하는 구문오류 검출부;를 포함하고,
    상기 구문오류 검출부는, 상기 구문을 구성하는 각 단어가 코퍼스 내에서 출현할 출현 확률을 구하고, 상기 구문이 상기 코퍼스 내에서 출현할 추정 확률(Pe), 예상 출현 빈도 확률(Po), 및 상기 구문의 실제 출현 확률(Pa)을 구하고, 그리고 상기 예상 출현 빈도 확률(Po) 및 상기 실제 출현 확률(Pa)에 기초하여 상기 구문의 오류 여부를 판단하는 것을 특징으로 하는, 구문 오류 검출장치.
  10. 삭제
  11. 제 9 항에 있어서,
    상기 코퍼스 저장부가 서로 상이한 복수개의 코퍼스를 저장하는 것을 특징으로 하는, 구문 오류 검출장치.
  12. 제 11 항에 있어서,
    상기 구문오류 검출부가 상기 복수개의 코퍼스의 각 코퍼스에 대해, 상기 구문을 검색하고 이 구문의 오류를 검출할 수 있는 것을 특징으로 하는, 구문 오류 검출장치.
KR1020120134420A 2012-11-26 2012-11-26 확률적 구문 오류 검출 방법 및 장치 KR101431339B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120134420A KR101431339B1 (ko) 2012-11-26 2012-11-26 확률적 구문 오류 검출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120134420A KR101431339B1 (ko) 2012-11-26 2012-11-26 확률적 구문 오류 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20140067330A KR20140067330A (ko) 2014-06-05
KR101431339B1 true KR101431339B1 (ko) 2014-08-18

Family

ID=51123596

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120134420A KR101431339B1 (ko) 2012-11-26 2012-11-26 확률적 구문 오류 검출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101431339B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074406B2 (en) 2016-11-10 2021-07-27 Changwon National University Industry University Cooperation Foundation Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980079586A (ko) * 1997-03-13 1998-11-25 포맨 제프리 엘 한자 문장 세그멘테이션 방법 및 한자 에러 점검(cec) 시스템에의 응용
KR20050051811A (ko) * 2003-11-28 2005-06-02 구글 잉크. 검색 질의의 철자를 체크하는 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980079586A (ko) * 1997-03-13 1998-11-25 포맨 제프리 엘 한자 문장 세그멘테이션 방법 및 한자 에러 점검(cec) 시스템에의 응용
KR20050051811A (ko) * 2003-11-28 2005-06-02 구글 잉크. 검색 질의의 철자를 체크하는 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074406B2 (en) 2016-11-10 2021-07-27 Changwon National University Industry University Cooperation Foundation Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor

Also Published As

Publication number Publication date
KR20140067330A (ko) 2014-06-05

Similar Documents

Publication Publication Date Title
US10956464B2 (en) Natural language question answering method and apparatus
US10311146B2 (en) Machine translation method for performing translation between languages
US8494835B2 (en) Post-editing apparatus and method for correcting translation errors
US10025819B2 (en) Generating a query statement based on unstructured input
US20150154173A1 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
EP2713255B1 (en) Method and electronic device for prompting character input
US10789431B2 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
US20180336883A1 (en) Language recognition method, apparatus and device and computer storage medium
EP3937029A2 (en) Method and apparatus for training search model, and method and apparatus for searching for target object
JP2019526142A (ja) 検索語句の誤り訂正方法および装置
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
KR101495240B1 (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
US10032448B1 (en) Domain terminology expansion by sensitivity
US20120209590A1 (en) Translated sentence quality estimation
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
Xiong et al. Enhancing language models in statistical machine translation with backward n-grams and mutual information triggers
US20210109959A1 (en) Automatic keyphrase extraction from text using the cross-entropy method
JP5234232B2 (ja) 同義表現判定装置、方法及びプログラム
KR20150092879A (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
KR101431339B1 (ko) 확률적 구문 오류 검출 방법 및 장치
US10445353B2 (en) Sentence retrieval method and sentence retrieval system
Luong Integrating lexical, syntactic and system-based features to improve word confidence estimation in smt
CN109190115B (zh) 一种文本匹配方法、装置、服务器及存储介质
de Souza et al. Mt quality estimation for e-commerce data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20170724

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190902

Year of fee payment: 6