KR100376032B1 - 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법 - Google Patents

음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법 Download PDF

Info

Publication number
KR100376032B1
KR100376032B1 KR10-2000-0060025A KR20000060025A KR100376032B1 KR 100376032 B1 KR100376032 B1 KR 100376032B1 KR 20000060025 A KR20000060025 A KR 20000060025A KR 100376032 B1 KR100376032 B1 KR 100376032B1
Authority
KR
South Korea
Prior art keywords
syllable
frequency
pairs
pair
string
Prior art date
Application number
KR10-2000-0060025A
Other languages
English (en)
Other versions
KR20010000673A (ko
Inventor
강승식
Original Assignee
(주)언어와 컴퓨터
강승식
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)언어와 컴퓨터, 강승식 filed Critical (주)언어와 컴퓨터
Priority to KR10-2000-0060025A priority Critical patent/KR100376032B1/ko
Publication of KR20010000673A publication Critical patent/KR20010000673A/ko
Application granted granted Critical
Publication of KR100376032B1 publication Critical patent/KR100376032B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 음절 바이그램 특성을 이용하여 한글 문서의 오류를 인식하고, 이를 교정할 수 있는 방법에 관한 것이다.
본 발명의 한글 문서 오류 인식 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하고, 각 음절 쌍에 대한 공백 빈도 수를 계산한다. 공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하고, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 대하여 공백 삽입 임계치를 설정한다. 그런 다음, 각 음절 쌍에 대한 공백 삽입 확률과 임계치를 비교하여 띄어쓰기 오류 여부를 판단한다.

Description

음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및 교정 방법{METHOD FOR RECOGNITION AND CORRECTING KOREAN WORD ERRORS USING SYLLABLE BIGRAM}
본 발명은 문서의 오류 인식 및 교정 방법에 관한 것으로서, 보다 구체적으로는 음절 바이그램 특성을 이용하여 한글 문서의 띄어쓰기, 철자, 단어 등의 오류 또는 특정 유형의 스트링을 인식하고 이를 교정하는 방법에 관한 것이다.
한글은 자음과 모음을 초성, 중성 및 종성의 3개 항목으로 구성하여 하나의 음절을 구성한다. 이러한 음절 단위의 표기 특성은 한국어의 정보 처리 시스템을 연구하는데 중요한 요소로 활용될 수 있다.
일반적인 언어 모델로서는 여러 가지 방법이 연구되고 있으나 가장 많이 이용되고 있는 것으로는 통계적 언어 모델이다. 구체적으로는 유니그램(Unigram), 바이그램(Bigram), 트라이그램(Trigram) 등 단어의 연쇄 확률이 이용된다.
그 밖의 언어 모델로서는 문맥 자유 문법, 유한 상태 네트워크 문법 등이 이용되고 있다. 이 때, 모든 음향적 언어적 제약을 만족하는 가장 가능성이 높은 문장을 탐색하는 알고리즘에 관한 연구도 매우 중요한데, 그 예로 프레임 동기형 빔 탐색, A*탐색 등이 이용되고 있다.
한편, 복수의 지식원을 통합하는 방법으로서 N-best 탐색법도 이상적 방법의 하나로서 널리 이용되고 있다. 이것은 우선 간단한 음향 모델과 언어 모델을 이용해서 N 개까지의 인식 결과 후보를 선택한 후에 다음에 나타날 정도가 높은 모델을 이용하여 이들 후보의 순위를 재평가함으로 인식 성능을 향상시키는 방법이다.
여기에서, 음절 유니그램(Unigram)은 11,172개 음절이 빈도 수에 따라 고빈도 음절과 저빈도 음절 그리고 실제로 거의 사용되지 않는 초 저빈도 음절로 구분되는 특성을 기반으로 하고 있다. 이러한 특성은 음절 집합을 특정 언어 현상에 속하는 것과 그렇지 않은 2 개의 집합으로 구분하거나, 특정 언어 현상에 속하는 음절들에 대한 빈도 수 정보에 의하여 구체적으로 각 음절들이 해당 언어 현상에 속할 확률을 계산함으로써 활용하기도 한다.
유니그램 음절 특성은 어떤 음절이 사람의 성씨에 사용되는 정도와 이름에 사용될 확률을 이용하여 3음절 미 등록어가 인명인지를 판단하는데 사용될 수 있다. 또한, 특정한 언어 현상에 속하는 것과 그렇지 않은 것을 확률적으로 구분할 수 있는 모든 응용 분야에서 활용이 가능하다.
한국어 정보 처리 연구에서 유니그램 음절 특성을 이용한 예로는 조사/어미 등 문법 형태소에 사용되는 음절 집합과 불규칙 용언의 끝 음절 특성을 이용하여 형태소 분석 후보의 과 생성을 방지하여 분석 효율을 증가시키는 방법 등이 있다. 이러한 방법은 본 발명자가 1993년 "음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석"이라는 제목으로 논문을 발표한 바가 있다.
한국어 유니그램의 경우, 기억 공간의 크기가 음절 개수를 기준으로 최대 11,172 이며, KS 완성형 한글 코드 집합을 사용할 경우에는 2,350 이다. 그리고, 특정 언어 현상에만 사용되는 음절 집합을 별도로 정의하면 기억 공간의 크기를 줄이는 방법도 가능하다.
한편, 음절 자체의 출현 확률만 고려하는 유니그램 음절 특성의 제약을 극복하기 위하여, 연속된 2 음절에 대한 바이그램 음절 특성으로 이를 확대할 수 있다.즉, 한국어 바이그램의 음절 특성은 기억 공간의 크기가 약 1억 가지(11,172 × 11,172)이며, 현대 한국어에 거의 사용되지 않는 음절들을 제외하고 KS 완성형 코드 집합을 기준으로 할 때는 2,350 × 2,350 이다. 이러한 기억 공간의 제약 때문에 바이그램 음절 특성을 실제로 활용하는데 어려움이 있다. 정보 검색 시스템에서는 유니그램 및 바이그램 음절 쌍을 색인어로 추출하여 사용하기도 하지만, 검색 효율이 저하되는 문제점이 있다.
또한, 형태소 분석에 있어서 본 발명자는 1995년 "음절 특성을 이용한 한국어 불규칙 용언의 형태소 분석"이라는 제목으로 논문을 발표한 적이 있다. 그 내용은 음절 바이그램 특성을 '단일어 후보 생성 제약 조건'으로 활용하여 '단일어 후보' 즉, 명사, 관형사, 부사, 감탄사 등 입력 어절 자체가 하나의 형태소로 구성되는 어절을 생성할 것인지를 판단하거나, 조사/어미가 분리될 수 있는지를 판단하는 '형태소 분리 제약 조건'으로 적용한 것이다. 이 논문에서는 형태소 분석을 위하여 빈도 수나 통계적 기법이 아니라 단순히 한글의 연속 음절 특성을 이용하였다.
또한, 1996년 정보 과학회 논문지(B) 23권 9호에는 "음절간 상호 정보를 이용한 한국어 자동 띄어쓰기"의 논문이 발표되었다. 여기에는, 말뭉치에서 추출한 음절 바이그램 빈도 수를 이용하여 음절간 띄어쓰기 확률을 계산하는 방법을 제안하였고, 이를 자동 띄어쓰기에 유용하게 활용할 수 있음을 보이고 있다.
또한, 1997년 정보 과학회 논문지(B) 24권 11호에는 "합성된 상호 정보를 이용한 복합 명사 분리"라는 제목의 논문이 발표되었다. 여기에는, 복합 명사 분해 과정에서도 음절 바이그램 정보가 자동 띄어쓰기 문제와 유사한 방법으로 적용되고있다.
그리고, 1997년 한글 및 한국어 정보 처리 학술 발표 논문집에는 "음절 단위 바이그램 정보를 이용한 한국어 단어 인식 모델"이 발표되었다. 여기에서, 발표자는 바이그램 정보와 동적 프로그래밍 기법을 이용한 어절 인식 알고리즘을 제안하였다.
또한, 1998년 정보 과학회 논문지(B) 25권 12호에는 "연속 음절 문장에 대한 3단계 한국어 띄어쓰기 시스템"의 제목으로 논문이 발표되었다. 이 논문은 음절 정보와 결합 규칙을 이용하여 어절 분리 및 재결합 방식에 의한 자동 띄어쓰기 알고리즘을 포함하고 있다.
본 발명은 종래의 방법에서 탈피하여 말뭉치에서 바이그램 음절 쌍과 빈도 수를 추출하고, 바이그램 음절 특성을 이용하여 한글 문서의 띄어쓰기의 오류를 인식할 수 있는 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 바이그램 음절 특성을 이용하여 한글 문서의 철자 오류를 인식하고 오류를 교정하는 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 한국어 바이그램 음절 특성을 이용하여 성명이나 지명, 회사명 등 특정 유형의 스트링과, 구어체 또는 방언을 인식할 수 있는 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 바이그램 음절 특성을 이용하여 문자 인식기에서 인식한 라인의 끝과 다음 라인의 처음에 오는 두 개의 음절 스트링이 하나의 어절을 구성하는지를 판단하는 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 바이그램 음절 특성을 이용하여 음성 인식기가 인식한 스트링이 오류어인지 아닌지를 판단하고, 음성 인식 오류어를 교정하는 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 바이그램 음절 특성을 이용하여 어떤 스트링이 체언인지, 용언인지, 독립언 인지를 판단하는 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 바이그램 음절 데이터를 최소의 크기로 저장하고 저장된 정보를 신속하게 검색할 수 있는 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 음절 바이그램 특성을 이용하여 음절 스트링이 복합 명사인지를 판단하고, 복합 명사를 분해하는 방법을 제공하는데 그 목적이 있다.
도 1은 본 발명의 바람직한 실시예에 따른 띄어쓰기 오류 인식 방법에 있어서, 한글 바이그램의 음절 특성을 추출하기 위한 말뭉치의 구성을 나타내는 도면.
도 2는 본 발명의 바람직한 실시예에 따른 띄어쓰기 오류 인식 방법에 있어서, 상기 도 1의 말뭉치로부터 추출된 바이그램의 개수를 유형별로 나타낸 도면.
도 3은 상기 도 1에서 추출된 바이그램 중에서 영문자, 숫자, 문장 부호 등을 제외하고 순수한 한글 음절 쌍 256,189 개에 대하여 빈도 수가 높은 순서로 정렬하여 누적 빈도에 대한 백분율을 나타낸 도면.
도 4는 본 발명의 바람직한 실시예에 따른 오류 인식 방법에 있어서, 수집한 말뭉치로부터 추출된 각 음절 쌍에 대하여, 빈도 수에 따라 음절 쌍의 저장하는 데이터 테이블을 나타낸 예시 화면.
도 5는 상기 도 1의 말뭉치에서, 약 25 만개의 한글 음절 쌍에 대하여, 누적 빈도 수에 따라 고빈도 음절 쌍을 1 만개 단위로 끊어서 누적 백분율을 계산한 그래프.
도 6은 본 발명의 바람직한 실시예에 따른 띄어쓰기 오류 인식 방법의 흐름도.
도 7은 본 발명의 바람직한 실시예에 따른 띄어쓰기 오류 인식 방법에 있어서, 공백 삽입 확률과 임계치에 의한 자동 띄어쓰기 실험 결과를 나타낸 도면.
도 8은 본 발명의 바람직한 실시예에 따른 오류 인식 방법에 있어서, 바이그램 데이터의 크기에 따른 오류어 인식 정확도를 측정한 결과 도면.
도 9는 본 발명의 또 다른 실시예에 있어서, 음절 바이그램 특성을 이용하여 음절 스트링에 포함된 음절 쌍의 띄어쓰기 오류를 판단하는 과정의 흐름도.
도 10은 본 발명의 또 다른 실시예에 있어서, 음절 바이그램 특성을 이용한 철자 오류어 교정 방법의 흐름도.
도 11은 본 발명의 또 다른 실시예에 있어서, 음절 바이그램 특성을 이용하여 고유 명사를 인식하는 과정의 흐름도.
도 12는 본 발명의 또 다른 실시예에 있어서, 음절 바이그램 특성을 이용하여 음절 스트링을 검색하는 과정의 흐름도.
도 13은 본 발명의 바람직한 실시예에 따른 오류 인식 방법에 있어서, 바이그램 특성을 라인의 끝 문자와 다음 라인의 첫 문자의 띄어쓰기 오류를 판단하는데 적용한 결과를 나타낸 도면.
도 14는 본 발명의 바람직한 실시예에 따른 오류 인식 방법에 있어서, 바이그램 특성을 이용하여 체언, 용언, 독립언을 판단하는 과정의 흐름도.
상기한 목적을 달성하기 위하여, 본 발명의 띄어쓰기 오류 인식 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계와, 공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 대하여 공백 삽입 임계치를 설정하는 단계와, 각 음절 쌍에 대한 공백 삽입 확률과 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계를 포함할 수 있다.
상기 말뭉치는 신문 기사, 출판물 정보, 논문과 같은 인쇄 문서, 또는 웹 문서, 컴퓨터 기록 매체와 같은 전자 문서를 포함할 수 있다.
상기 바이그램 특성은 음절 쌍의 배열 유형, 출현 빈도 수, 빈도 수에 대한 음절 쌍 개수 중 적어도 하나를 포함할 수 있다.
상기 공백 빈도 수를 계산하는 단계는 음절 쌍에 대한 좌 공백 빈도 수, 우 공백 빈도 수 및 사이 공백 빈도 수를 각각 계산할 수 있다.
상기 공백 삽입 확률은 아래의 수학식에 의하여 계산될 수 있다.
여기에서,는 두 음절(Xi, Xi+1) 사이에 사이 공백이 삽입될 확률을 나타내고,는 두 음절(Xi+1, Xi+2) 사이에 좌 공백이 삽입될 확률을 나타내며,는 두 음절(Xi-1, Xi) 사이에 우 공백이 삽입될 확률을 나타낸다. 그리고, WR과 WM, WL은 각각 우 공백, 사이 공백, 좌 공백이 삽입되는 확률에 대한 가중치를 나타낸다.
상기 사이 공백이 삽입될 확률은 아래의 수학식에 의하여 계산될 수 있다.
여기에서,은 두 음절 Xi와 Xi+1이 연속해서 출현한 총 빈도 수를 나타내고,은 두 음절 Xi와 Xi+1의 사이에 공백이 출현한 빈도 수를 나타낸다
상기 좌 공백이 삽입될 확률은 아래의 수학식에 의하여 계산될 수 있다.
여기에서,은 두 음절 Xi와 Xi+1이 연속해서 출현한 총 빈도 수를 나타내고,은 두 음절 Xi와 Xi+1의 왼쪽에 공백이 출현한 빈도 수를 나타낸다
상기 우 공백이 삽입될 확률은 아래의 수학식에 의하여 계산될 수 있다.
여기에서,은 두 음절 Xi와 Xi+1이 연속해서 출현한 총 빈도 수를 나타내고,은 두 음절 Xi와 Xi+1의 오른쪽에 공백이 출현한 빈도 수를 나타낸다
상기 공백이 삽입되는 확률에 대한 계수 WR, WM, WL관계를 만족한다.
상기 임계치를 설정하는 단계는 공백이 삽입되는 확률에 대한 계수 WR, WM, WL를 증감하면서 음절 쌍의 정확도가 가장 높은 값을 설정할 수 있다.
상기 임계치는 음절 쌍을 띄어쓴 오류와 붙여쓴 오류의 개수가 교차되는 지점의 확률 값으로 설정할 수 있다.
상기 띄어쓰기 오류 여부를 판단하는 단계는 공백 삽입 확률이 임계치 이상인 경우에 띄어쓰기 오류로 판정할 수 있다.
본 발명의 띄어쓰기 오류 인식 방법은 임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계를 더 포함할 수 있다.
또한, 본 발명의 한글 문서 자동 띄어쓰기 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계와, 공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 대하여 공백 삽입 임계치를 설정하는 단계와, 각 음절 쌍에 대한 공백 삽입 확률과 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계와, 임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계를 포함할 수 있다.
또한, 본 발명의 음절 스트링 띄어쓰기 오류 인식 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계와, 연속하는 복수의 음절로 구성된 음절 스트링에 있어서, 공백 빈도 수에 따라 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 대하여 공백 삽입 임계치(T)를 설정하는 단계와, 음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계치(T + α)를 비교하여 음절 스트링의 띄어쓰기 오류 여부를 판단하는 단계를 포함할 수 있다.
상기에서 공백이 삽입되는 확률에 대한 계수 WR, WM, WL에 대한 관계가인 조건 하에서, 가중치 α는 -0.5 이상 0.5 이하의 값을 가질 수 있다.
또한, 본 발명의 철자 오류어 인식 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하여, 이를 정렬하는 단계와, 복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하는 단계와, 음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계를 포함할 수 있다.
상기 철자 오류어 인식 방법은 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계와, 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링을 교정 후보로 분류하는 단계와, 피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정하는 단계를 더 포함할 수 있다.
상기 철자 오류어 인식 방법은 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계와, 피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계와, 추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계와, 피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계를 더 포함할 수 있다.
또한, 본 발명의 철자 오류어 인식 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하여, 이를 정렬하는 단계와, 복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하는 단계와, 음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계와, 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계와, 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링을 교정 후보로 분류하는 단계와, 피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정하는 단계를 포함할 수 있다.
또한, 본 발명의 철자 오류어 교정 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하여, 이를 정렬하는 단계와, 복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하는 단계와, 음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계와, 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계와, 피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계와, 추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계와, 피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계를 포함할 수 있다.
또한, 본 발명의 고유 명사 인식 방법은 실험 데이터로서 수집한 말뭉치로부터 고유 명사를 추출하는 단계와, 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 고유 명사의 유형에 따라 사용된 음절 쌍의 빈도 수를 계산하는 단계와, 각 음절 쌍에 대하여 수집된 말 뭉치에서 입력된 어절이 고유 명상의유형에 속한 음절로 구성된 경우에, 일정 빈도 수 이상인 음절 쌍이 사용된 입력 어절을 해당하는 고유 명사로 판단하는 단계를 포함할 수 있다.
상기 고유 명사는 성명, 상호, 지명, 외래어, 방언 또는 축약어 중 적어도 하나를 포함할 수 있다.
또한, 본 발명에서 문자 인식기를 통하여 인식된 문장에서 한 라인의 끝과 다음 라인의 처음에 오는 스트링이 하나의 어절을 구성하는지를 판단하는 방법은 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계와, 공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 대하여 공백 삽입 임계치를 설정하는 단계와, 각 음절 쌍에 대한 공백 삽입 확률과 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계와, 임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계를 포함할 수 있다.
또한, 본 발명의 음성 인식에 의한 오류어 인식 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하여, 이를 정렬하는 단계와, 복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하는 단계와, 음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의음성 인식 오류 여부를 판단하는 단계를 포함할 수 있다.
또한, 본 발명의 음성 인식에 의한 오류어 교정 방법은 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계와, 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링을 교정 후보로 분류하는 단계와, 피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정하는 단계를 더 포함할 수 있다.
또한, 본 발명의 음성 인식 오류어 교정 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하여, 이를 정렬하는 단계와, 복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계와, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하는 단계와, 음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 음성 인식 오류 여부를 판단하는 단계와, 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계와, 피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계와, 추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계와, 피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계를 포함할수 있다.
또한, 본 발명의 체언, 용언 또는 독립언 인식 방법은 실험 데이터로서 수집한 말뭉치에서 체언, 용언 또는 독립언을 구분하여 추출하는 단계와, 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 체언, 용언 또는 독립언의 각 유형에 따라 사용된 음절 쌍의 빈도 수를 계산하는 단계와, 각 음절 쌍에 대하여 수집된 말뭉치에서 음절 스트링이 체언, 용언 또는 독립언의 어느 한 유형에 속한 음절 쌍들로 조합된 경우에, 일정 빈도 수 이상인 음절 쌍이 사용된 입력 어절을 체언, 용언, 또는 독립언으로 판단하는 단계를 포함할 수 있다.
또한, 본 발명의 단어 특정 부분 인식 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 연속된 음절 쌍에 대한 출현 빈도 수를 계산하는 단계와, 인식 대상이 되는 단어의 정해진 부분에서 음절 쌍을 추출하여, 출현 빈도 수를 계산하는 단계와, 임의의 연속된 음절 쌍의 총 출현 빈도 수에 대하여, 음절 쌍이 상기 정해진 부분으로 사용될 확률을 계산하는 단계와, 실험 데이터에 따라 임계치를 설정하는 단계와, 상기 정해진 부분으로 사용될 확률과 임계치를 비교하여 선택된 음절 쌍이 인식 대상이 되는 단어의 정해진 부분인지를 판단하는 단계를 포함할 수 있다.
상기 인식 대상이 되는 단어의 정해진 부분은 단어의 첫 부분, 중간 부분 또는 끝 부분 중 하나일 수 있다.
또한, 본 발명의 한글 문서 정보 검색 방법은 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계와, 임의의 음절 스트링에대한 도입부를 테이블(X)로 구성하는 단계와, 상기 테이블(X)의 인덱스 및 도입부의 코드 값을 지정하는 단계와, 상기 음절 스트링에서, '도입부를 제외한 나머지 스트링' 및 '전체 음절 스트링에 대한 정보'를 테이블(Y)에 순차적으로 구성하는 단계와, 테이블(Y)에 저장된 음절 스트링을 지정할 수 있도록, 음절 스트링의 연결 정보를 해당하는 테이블(X)에 구성하는 단계와, 음절 쌍에 대한 정보 검색 요청이 있는 경우에, 테이블(X)에서 해당하는 음절 스트링의 도입부를 검색하여 음절 스트링의 연결 정보를 확인하는 단계와, 상기 음절 스트링의 연결 정보를 이용하여 테이블(Y)에서 '도입부를 제외한 나머지 스트링' 및 '전체 음절 스트링에 대한 정보'를 검색하는 단계를 포함할 수 있다.
상기 도입부를 테이블(X)로 구성하는 단계는 음절 스트링을 일정 코드 집합으로 변환하는 단계와, 코드 집합으로 변환된 음절 스트링의 도입부를 테이블로 구성하는 단계를 포함할 수 있다.
상기 코드 집합은 KS 완성형 한글 코드, KS 조합형 한글 코드, 유니 코드, 아스키 코드 중 하나일 수 있다.
상기 도입부는 첫 음절, 반 음절 또는 초성 중 하나일 수 있다.
상기 연결 정보는 테이블(Y)의 시작 위치 및 끝 위치 정보를 포함할 수 있다.
이하, 첨부한 도면에 의거하여 본 발명의 바람직한 실시예를 자세히 설명하도록 한다.
도 1은 본 발명의 바람직한 실시예에 따른 띄어쓰기 오류 인식 방법에 있어서, 한글의 바이그램 음절 특성을 추출하기 위한 말뭉치의 구성을 나타내는 도면이다. 도 1을 참조하면, 본 발명의 띄어쓰기 오류 인식 방법을 적용하기 위하여 신문 기사, 연구 개발 정보 센터에서 수집한 한글 자료(Krist collection), 한국 통신에서 수집한 한글 자료(KTSET) 또는 그 밖의 한글 자료를 통하여 한글의 바이그램 음절 특성을 추출하였다.
이 때, 말뭉치 유형은 도 1에 도시된 바와 같이 신문 기사로부터 수집된 한글 자료는 540만 어절을 포함하고, 연구 개발 정보 센터에서 수집한 한글 자료(Krist collection)는 370만 어절을 포함한다. 또한, 한국 통신에서 수집한 한글 자료(KTSET) 80만 어절과, 그 밖의 210만 어절을 포함하여 모두 1,200만 어절을 포함한다.
또한, 바이그램 음절 특성을 추출하기 위하여 선택된 상기의 각 말뭉치는 원시 말뭉치(raw corpus)로서 수집한 상태에서 전혀 가공되지 않은 상태이며, 띄어쓰기 오류 및 맞춤법 오류가 포함되어 있다. 그리고, 문서 작성일 등 한글 문장 이외의 데이터도 함께 포함되어 있다.
도 2는 본 발명의 바람직한 실시예에 따른 띄어쓰기 오류 인식 방법에 있어서, 상기 도 1의 말뭉치로부터 추출된 바이그램의 개수를 유형별로 나타낸 도면이다. 도 2를 참조하면, 도 1의 말뭉치로부터 추출된 바이그램의 개수는 291,025 개이고, 이 중에서 한글로 이루어진 음절 쌍의 개수는 256,189 개이다. 그밖에, 한글과 영어 또는 숫자의 순서로 이루어진 음절 쌍은 15,745 개이고, 영어 또는 숫자와한글의 순서로 이루어진 음절 쌍은 15,360 개이며, 영어 또는 숫자로 이루어진 음절 쌍의 개수는 3,731 개이다. 여기에서, 각 음절 쌍은 음절 X, Y에 대하여 연속된 "XY" 유형뿐만 아니라, 공백이 삽입된 "X Y"의 유형도 함께 포함하며, 문장 부호와 기호 등은 음절에서 제외하였다.
이 때, 말뭉치에 나타난 모든 음절 쌍이 현대 한국어에서 사용되는 것은 아닐 것이다. 왜냐하면, 말뭉치에는 철자 오류로 인해 실제 문서에서 사용되지 않는 음절이 포함되어 있을 가능성이 있으며, 바이그램 빈도가 향후 한글 문서에도 그대로 적용되는 것은 아니기 때문이다. 특히, 인명, 회사명, 외래어, 방언 등 고유 명사와 전문 분야의 용어들은 기존의 바이그램 특성과 상이한 음절 쌍이 사용될 수 있다.
추출된 바이그램 중에서 영문자, 숫자, 문장 부호 등을 제외하고 순수한 한글 음절 쌍 256,189 개에 대하여 빈도 수가 높은 순서로 정렬하여 누적 빈도에 대한 백분율을 도 3에 도시하였다. 도 3을 참조하면, 1,941 회 이상의 빈도 수를 가지는 음절 쌍은 2,299 개로서 전체 음절 쌍의 50.00 %를 차지하고, 1,137 회 이상의 빈도 수를 가지는 음절 쌍은 4,057 개로서 전체 음절 쌍의 60.00 %를 차지한다. 그리고, 7,171 개의 음절 쌍은 622 회 이상의 빈도로 나타나서 70.01 %의 누적 백분율을 차지하고, 13,269 개의 음절 쌍은 294 회 이상의 빈도로 나타나서 80.00 %의 누적 백분율을 차지하며, 28,651 개의 음절 쌍은 98 회 이상의 빈도로 90.00 %의 누적 백분율을 차지한다. 또한, 37 회 이상의 빈도 수를 가지는 음절 쌍은 50,406 개로서 전체 음절 쌍의 95.03 %를 차지하고, 6 회 이상의 빈도 수를 가지는음절 쌍은 117,765 개로서 전체 음절 쌍의 98.95 %를 차지하며, 3 회 이상의 빈도 수를 가지는 음절 쌍은 전체 음절 쌍의 99.52 %로서 156,487 개를 차지한다.
여기에서, 출현 빈도 수 14회 이상의 고빈도 음절 쌍은 81,382 개로서 누적 빈도는 97.72 %의 백분율을 가진다. 이와 같이, 말뭉치로부터 추출된 각 음절 쌍은 출현 빈도 수 또는 출현 빈도의 백분율을 통하여 순서대로 나열함으로써, 데이터베이스를 구축할 수 있을 것이다.
이 때, 출현 빈도가 1 또는 2인 음절 쌍은 철자 오류로 인해 발생했을 가능성이 있으며, 비록 정상적으로 발생한 경우라 하더라도 활용 가치가 매우 낮을 것으로 추측할 수 있다.
상기 말뭉치를 대상으로 누적 빈도에 대한 백분율을 조사한 결과, 가장 빈도가 높은 음절 쌍 10 개를 순서대로 나타내면, '으로', '에서', '연구', '이다', '하는', '있다', '하고', '고있', '하여' 및 '것이' 이다. 여기에서, '연구'가 10 개의 고빈도 음절 쌍에 포함된 이유는 연구 개발 정보 센터에서 수집한 한글 자료(Krist Collection)와, 한국 통신에서 수집한 한글 자료(KTSET)가 주로 논문 데이터로 구성되어 있기 때문일 것이다.
이와 같이, 각 음절 쌍에 대한 빈도 수를 조사하여 그 결과를 데이터 테이블로 구성할 수 있다. 빈도 수가 가장 많은 음절 쌍부터 빈도 수가 가장 적은 음절 쌍까지 빈도 수를 순차적으로 테이블로 구성한 다음, 오류를 검색할 문서에서 추출된 음절 쌍이 기준 빈도 수를 만족하지 못할 때, 이와 유사한 고빈도의 음절 쌍으로 교정이 가능할 것이다.
도 4는 수집한 말뭉치로부터 추출된 각 음절 쌍에 대하여, 빈도 수에 따라 데이터 테이블을 구성한 경우의 예시 화면을 나타낸 것이다. 도 4를 참조하면, 출현 빈도 수가 가장 높은 음절 쌍부터 빈도 수가 낮은 음절 쌍까지 순서에 따라 테이블로 구성될 수 있다. 이 때, 빈도 수 외에 출현 백분율에 따라 테이블이 구성될 수도 있을 것이다.
도 5는 약 25 만개의 한글 음절 쌍에 대하여, 누적 빈도 수에 따라 고빈도 음절 쌍을 1 만개 단위로 끊어서 누적 백분율을 계산한 그래프를 나타낸 것이다.
이와 같이, 한글 바이그램 특성을 이용하여 띄어쓰기 오류와 철자 오류를 인식할 수 있고, 이름이나 지명 또는 외래어 방언 등의 명사를 인식할 수 있다.
각 바이그램 음절 쌍에 대하여 공백의 출현 위치에 따라 좌 공백 빈도, 우 공백 빈도, 사이 공백 빈도, 그리고 총 출현 횟수를 계산할 수 있다. 음절 쌍 (X, Y)에 대한 각 빈도 수는 다음과 같이 계산된다.
좌 공백 빈도 수 : " XY"의 개수
우 공백 빈도 수 : "XY "의 개수
사이 공백 빈도 수 : "X Y"의 개수
음절 쌍의 공백 빈도 정보를 이용하여 자동 띄어쓰기 알고리듬을 구현하기 위한 방법으로, 임의의 두 음절 사이에 공백이 삽입될 확률을 계산할 필요가 있다. 연속된 임의의 두 음절 Xi와 Xi+1사이의 공백 삽입 확률 P(Xi, Xi+1)은 다음과 같이 계산할 수 있다.
여기에서,는 두 음절(Xi, Xi+1) 사이에 사이 공백이 삽입될 확률이고,는 두 음절(Xi+1, Xi+2) 사이에 좌 공백이 삽입될 확률이다. 또한,는 두 음절(Xi-1, Xi) 사이에 우 공백이 삽입될 확률을 나타낸다. 그리고, WR과 WM, WL은 각각 우 공백, 사이 공백, 좌 공백이 삽입되는 확률에 대한 계수를 나타낸다.
한편, 사이 공백 삽입 확률와, 좌 공백 삽입 확률, 우 공백 삽입 확률는 각각 아래와 같이 계산할 수 있다.
이 때,은 두 음절 Xi와 Xi+1이 연속해서 출현한 총 빈도 수를 나타내고,은 두 음절 Xi와 Xi+1의 사이에 공백이 출현한 빈도 수를 나타낸다. 마찬가지로,는 두 음절 Xi+1과 Xi+2의 왼쪽에 공백이 출현한 빈도 수를 나타내고,는 두 음절 Xi-1과 Xi의 오른쪽에 공백이 출현한 빈도 수를 각각 나타낸다. 이와 같이, 사이 공백, 좌 공백 또는 우 공백이 출현한 빈도 수는 한글의 말뭉치로부터 추출된 바이그램 음절 특성을 통하여 얻을 수 있다.
또한, 계수 WR, WM및 WL의 관계는 다음과 같은 관계를 가지도록 설정하는 것이 바람직할 것이다.
예컨대, 우 공백 계수 WR과 좌 공백 계수 WL은 각각 0.25를 부여하고, 사이 공백 계수 WM은 0.5를 부여할 수 있다. 사이 공백 계수 WM의 값을 WR과 WL에 비하여 2 배의 값을 설정한 것은 좌 공백 확률이나 우 공백 확률에 비하여 사이 공백의 확률이 2 배의 기여도가 있다고 추정할 수 있기 때문이다. 하지만, 각 계수의 값을 변화시켜 가면서, 띄어쓰기의 정확도를 측정함으로써, 최적의 가중치를 결정할 수 있을 것이다.
결국, 한글 바이그램 음절 특성을 이용하여 두 음절 쌍 사이에 공백이 삽입될 확률을 실험 데이터를 통하여 얻을 수 있다. 이렇게, 두 음절 사이에 공백이 삽입될 확률을 이용하여 한글 문서의 띄어쓰기 오류 인식 및 자동 띄어쓰기를 구현할 수 있다.
자동 띄어쓰기를 위해서는 연속하는 두 음절 사이에 공백을 삽입할 것인지, 삽입하지 않을 것인지를 결정하여야 한다. 이 때, 공백 삽입 여부를 결정하는 임계치 T는 자동 띄어쓰기의 정확도에 많은 영향을 미친다. 임계치 T가 클수록 붙여쓴 오류가 많아지고, 임계치 T가 작을수록 띄어쓴 오류가 많아진다. 따라서, 최적의 임계치는 띄어쓴 오류와 붙여쓴 오류의 개수가 교차되는 지점의 확률 값을 설정할 수 있다.
예컨대, 사이 공백 확률 PM(X1, X2) 만 적용하여 임의의 두 음절 사이에 공백 삽입 여부를 결정할 때의 임계치는 0.5 이다. 이것은, 두 음절 (X1, X2) 의 띄어쓴 빈도와 붙여쓴 빈도를 기준으로 할 때이다.
사이 공백 빈도만 적용하는 경우에 두 음절 (X1, X2)의 띄어쓴 빈도와 붙여쓴 빈도의 차이가 근소한 음절 쌍에 대해서는 오류 발생 확률이 높아진다. 이 경우에는 좌 공백 빈도와 우 공백 빈도를 이용하여 오류 발생 확률을 줄일 수 있다.
임계치를 변화시켜 가면서 정확도를 계산하는 실험에 의하여 정확도가 높은 값을 임계치로 결정하였는데, 이 때의 임계치는 바람직하게 0.375이다. 따라서, 임의의 두 음절(X1, X2)에 대한 사이 공백 확률 PM(X1, X2)이 0.75 이상일 경우에는 두 음절(X1, X2) 사이에 항상 공백을 삽입하게 된다.
따라서, 임의의 연속된 2 개의 음절 Xi와 Xi+1에 대하여 공백 삽입 여부를 결정하기 위해서, 임의의 두 음절 사이의 공백 삽입 확률 P(Xi, Xi+1)을 각각 구한다. 그런 다음, 선택된 두 음절 사이의 공백 삽입 확률 P(Xi, Xi+1)이 임계치 T 이상인 경우에는 해당하는 두 음절 사이에 공백을 삽입하고, 공백 삽입 확률 P(Xi, Xi+1)가 임계치 T 미만인 경우에는 공백을 삽입하지 않도록 한다.
도 6은 이와 같이, 바이그램 특성을 이용하여 띄어쓰기 오류를 판단하는 과정의 흐름도를 나타낸 것이다. 도 6을 참조하여, 이를 살펴보면 다음과 같다.
먼저, 수집된 말뭉치에 포함된 각 음절 쌍에 대한 바이그램 특성을 추출한다(s10). 추출된 바이그램 특성에 따라 각 음절 쌍의 공백 빈도 수를 계산한다(s12). 계산된 공백 빈도 수를 이용하여 두 음절 사이에 공백이 삽입될 공백 삽입 확률을 계산한다(s14). 이 때, 공백 삽입 확률을 계산하는 방법은 여러 가지가있을 수 있지만, 좌 공백 확률과, 우 공백 확률 그리고 사이 공백 확률을 이용하여 공백 삽입 확률을 계산하는 것이 바람직하다. 공백 삽입 확률을 계산하는 과정에서 가중치의 값을 변화시켜 가며, 적절한 임계치를 설정한다(s16).
임계치가 설정된 후에, 띄어쓰기 오류를 판단하고자 하는 문단으로부터 각 음절 쌍에 대한 공백 삽입 확률을 계산한다. 계산된 공백 삽입 확률을 임계치와 비교하여 공백 삽입 확률이 임계치 이상인 음절 쌍은 띄어쓰기 오류로 판단한다(s18). 띄어쓰기 오류로 판단된 음절 쌍은 그 사이에 공백을 삽입함으로써, 띄어쓰기 오류를 교정할 수 있다(s20).
도 7은 본 발명의 바람직한 실시예에 따른 띄어쓰기 오류 인식 방법에 있어서, 공백 삽입 확률 P(X1, X2)와 임계치 0.375에 의한 자동 띄어쓰기 실험 결과를 나타낸 것이다. 도 7을 참조하면, 띄어쓰기 정확도를 측정하기 위하여 입력된 한글 문서(비가공된 정답)가 임계치에 의한 공백 삽입 확률로 인하여 정확도가 상승된 것을 볼 수 있다.
즉, 빈도 3 이상의 156, 487 개의 음절 쌍은 공백 삽입 확률과 임계치를 통하여 띄어쓰기 정확도가 94.6 %에서 97.7 %로 상승하였고, 117, 765 개의 빈도 6 이상 음절 쌍은 94.4 %에서 97.6 %로 정확도가 상승하였다. 또한, 81, 382 개의 빈도 14 이상 음절 쌍과 50, 406 개의 빈도 37 이상 음절 쌍, 28, 651 개의 빈도 98 이상 음절 쌍은 각각 띄어쓰기 정확도가 94.0 %와 93.3 %, 92.0 %에서 97.1 %와 96.2 %, 94.4 %로 상승하였다.
이 경우에, 자동 띄어쓰기 실험을 위한 데이터 크기는 바이그램 정보를 습득하는데 사용되지 않은 말뭉치에서 1,532 어절(11.5 Kbytes)을 수집한 것이다. 또한, 마침표와 쉼표, 물음표, 느낌표 뒤에는 띄어쓰고, 그 이외의 다른 문장 부호는 붙여쓴 것이다. 그리고, (한글, 영문자) 또는 (한글-숫자) 음절 쌍은 띄어쓰도록 하였으며, (영문자, 한글) 또는 (숫자, 한글) 음절 쌍은 붙여쓰도록 하였다.
한편, 지금까지의 자동 띄어쓰기 방법을 이용하여 공백이 삽입되어야 할 어절인지를 결정하는 방법에 의해, 띄어쓰기 오류어인지 아닌지를 판단할 수 있다. 그런데, 자동 띄어쓰기가 문장 혹은 문서 단위로 수행되는데 비하여, 띄어쓰기 오류어 인식은 어절 단위로 처리된다. 예컨대, 3 음절어 '먹을수'에서, '을'과 '수' 사이의 공백 삽입 확률을 계산할 때, '수'의 좌 공백 확률이 계산될 수 없기 때문에, 그에 따른 기본 값을 지정할 수 있다.
여기에서, 띄어쓰기 오류어 인식의 정확도를 높이기 위하여 음절 X에 대해 " X"의 우 공백 확률과, "X "의 좌 공백 확률을 구하여 활용할 수 있다.
도 8은 본 발명의 바람직한 실시예에 따른 오류 인식 방법에 있어서, 바이그램 데이터의 크기에 따른 오류어 인식 정확도를 측정한 결과이다. 도 8을 참조하면, 빈도 3 이상인 156,487 개의 음절 쌍에 대한 실험 결과, 오류어 인식 정확도가 82.08 %로 나타나고, 빈도 6 이상인 117,756 개의 음절 쌍은 오류어 인식 정확도가 81.00 %로 나타나는 것을 볼 수 있다. 또한, 빈도 14 이상인 81,382 개의 음절 쌍은 오류어 인식 정확도가 77.78 %, 빈도 37 이상인 50,406 개의 음절 쌍은 인식 정확도가 72.76 % 이며, 빈도 98 이상의 음절 쌍은 28,651 개로서 오류어 인식 정확도가 67.03 % 로 나타나는 것을 볼 수 있다.
이 실험에 사용된 데이터는 웹 문서에서 수집된 문서에서, 띄어쓰기 오류어를 중심으로 추출한 것이며, 338 개의 총 어절 수를 가진다.
결국, 1,200만 어절 규모의 원시 말뭉치로부터 추출된 한글 음절 쌍의 공백 빈도 수를 이용하여 자동 띄어쓰기 및 띄어쓰기 오류어 인식 실험을 한 결과, 156,487 개의 음절 쌍을 이용했을 때 자동 띄어쓰기의 정확도가 97.7 %로 향상되었다. 이는 기존의 연구에서 문법 형태소의 음절 특성 또는 바이그램 정보와 형태소 분석기를 이용하는 방법보다 더 높은 정확도를 얻은 결과이다.
또한, 본 발명의 다른 실시예에 있어서, 음절 쌍의 빈도 수를 이용하여 음절 스트링 내에 포함된 음절 쌍의 오류 여부를 인식할 수 있다.
도 9는 본 발명의 또 다른 실시예에 있어서, 음절 바이그램 특성을 이용하여 음절 스트링에 포함된 음절 쌍의 띄어쓰기 오류를 판단하는 과정의 흐름도를 나타낸 것이다. 도 9를 참조하면, 수집된 말뭉치로부터 음절 바이그램 특성을 추출하고(s30), 추출된 바이그램 특성에 따라 각 음절 쌍의 공백 빈도 수를 계산하는 과정(s32)은 도 5의 경우와 동일하다.
예컨대, n 개의 음절로 구성된 입력 스트링 X1X2...Xn 을 가정해 보자.
1 ≤ i ≤ n-1 인 i 에 대하여, P(Xi, Xi+1)의 값이 임계치 T+α 보다 큰 경우가 있으면, 띄어쓰기 오류어로 간주한다. 여기에서, α는 -0.5 ≤ α ≤ 0.5 이고, α 값을 크게 할수록 띄어쓰기 오류어의 인식 정확률을 크게 할 수 있고, α 값을 작게 할수록 재현률을 높게 할 수 있다.
한편, 정확률과 재현률은 각각 다음과 같이 표시된다.
정확률
=
재현률
=
이 때, A는 띄어쓰기 오류 인식 시스템이 띄어쓰기 오류라고 판단한 어절 개수이고, B는 A 중에서 실제로 띄어쓰기 오류어인 어절 개수이다. 또한, E는 입력 어절 중에서 띄어쓰기 오류어인 어절의 개수이다.
그런 다음, 음절 스트링을 구성하는 음절 쌍의 공백 삽입 확률을 계산한다(s34). 공백 삽입 확률의 계산 방법은 도 5의 경우와 동일할 것이다. 그런 다음, 가중치를 변화시켜가며 적절한 공백 삽입 임계치를 설정한다(s36).
띄어쓰기 오류를 검색하고자 하는 문서에서 음절 스트링에 포함된 음절 쌍의 공백 삽입 확률을 각각 계산하여, 각 음절 쌍에 대한 공백 삽입 확률과 공백 삽입 임계치를 비교하여 띄어쓰기 오류를 판단한다(s38). 공백 삽입 확률이 공백 삽입 임계치 이상이 되어 띄어쓰기 오류로 판단된 음절 쌍 사이에 공백을 삽입함으로써(s40), 오류가 발생한 음절 쌍을 교정할 수 있다.
또한, 본 발명의 다른 실시예에 있어서, 음절 쌍의 공백 빈도 수를 이용하여 철자 오류어를 인식할 수 있다.
도 10은 본 발명의 바람직할 실시예에 따른 철자 오류어 교정 방법의 흐름도를 나타낸 것이다. 도 10을 참조하면, 본 발명의 음절 스트링 교정 방법은 먼저, 수집된 말뭉치로부터 음절 쌍에 대한 바이그램 특성을 추출한다(s50). 그런 다음, 추출된 음절 쌍 바이그램 특성에 따라 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산한다(s52). 그리고 나서, 음절 스트링의 두 음절에 대한 공백 삽입 확률을 계산하고(s54), 음절 쌍의 임계 빈도 수를 설정한다(s56). 그런 다음, 각 음절 쌍에 대한 공백 삽입 확률과 임계 빈도 수를 비교하여 철자 오류를 판단한다(s58).
이를 다시 설명하면, 두 음절 사이에 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 구하여, 출현 빈도 수가 높은 것부터 낮은 순으로 정렬한다. n 개의 음절로 구성된 입력 스트링 X1X2...Xn 에서, 1 ≤ i ≤ n-1인 i 에 대하여 P(Xi, Xi+1)의 값이 임계 빈도 수 T+α 이하인 음절 쌍이 발견되면, 철자 오류어로 판단하고 그렇지 않으면 올바른 어절로 판단한다. 이 때, 임계 빈도 수는 띄어쓰기 오류어를 인식하는 경우에서 α 값을 결정하는 방법과 동일하게, 정확률과 재현률에 따라 결정될 것이다.
여기에서, 오류가 발생한 철자를 교정할 수 있을 것이다(s60). 그 과정을 자세히 설명하면 다음과 같다.
먼저, 철자 검사기, 문자 인식기 또는 음성 인식기 등에서 생성된 단어 후보를 구성한다. 단어 후보를 구성하기 위하여, 상기 철자 오류어 인식 방법에서 사용된 연속 음절 쌍에 대한 출현 빈도 수를 구한다. 그런 다음, 음절 쌍의 각 출현 빈도 수에 대하여, 일정 빈도 수 이하인 음절 쌍은 순위를 낮추거나 제거한다. 그리고 나서, 일정 빈도 수 이상의 음절 쌍으로 구성된 단어 후보들에 대하여, 각 음절 쌍의 빈도 수를 합산하고, 빈도 수가 높은 단어 후보의 순위를 상승시킨다.
이와 같이, 각 음절 쌍의 후보 순위가 결정되면, 상기 철자 오류어 인식 방법에서 사용된 음절 쌍 빈도 수를 이용하여 한글 문서를 대상으로 일정 빈도 수 이하인 음절 쌍을 검색하는 저빈도 음절 쌍 검색 단계를 진행한다.
저빈도 음절 쌍 검색 단계에서 발견된 일정 빈도 수 이하의 음절 쌍과 자음이 1 개 또는 2 개가 다른 음절 쌍, 또는 발견된 일정 빈도 수 이하의 음절 쌍과 모음이 1 개 또는 2 개가 다른 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍들을 확인한다. 이 과정은 교정할 음절 쌍 리스트를 확보하는 교정 리스트 확보 단계이다.
저빈도 음절 쌍 검색 과정에서 발견된 음절 쌍을 교정 리스트 확보 단계에서 구해진 음절 쌍으로 각각 교체한다.
교정용 음절 쌍을 저빈도 음절 쌍과 순차적으로 교체해가며, 한글 문서에 대한 철자 오류어 인식 방법을 적용하여 일정 빈도 수 이하의 저빈도 음절 쌍을 검색한다.
저빈도 음절 쌍 검색 과정을 통하여 철자 오류일 가능성이 가장 적은 음절 쌍으로 교체된 어절들을 가능성이 높은 것부터 순서대로 생성함으로써, 한글 문서의 철자 오류어를 교정한다.
본 발명의 또 다른 실시예에 있어서, 음절 쌍의 빈도 수를 이용하여 성명이나 회사 이름, 지명, 외래어, 방언 또는 축약어 등의 고유 명사를 인식할 수 있다.
도 11은 음절 바이그램 특성을 이용하여 고유 명사를 인식하는 과정의 흐름도를 나타낸 것이다. 도 11을 참조하면, 먼저 수집된 말뭉치로부터 한글 음절 쌍의 바이그램 특성을 추출하고(s70), 추출된 바이그램 특성을 이용하여 인식하고자 하는 고유 명사들에 사용된 음절 쌍의 빈도 수와 기준 빈도 수를 각각 구한다(s72). 그런 다음, 입력된 어절이 각 음절 쌍에 대하여 고유 명사의 유형에 속하는 음절로 구성되었을 경우에, 사용된 음절 쌍의 빈도 수를 기준 빈도 수와 비교한다(s74). 음절 쌍의 빈도 수와 기준 빈도 수의 비교 결과에 따라, 각 음절 쌍들이 일정 빈도 수 이상인 입력 어절만 해당 고유 명사로 판단하여 이를 표시한다. 반면에, 일정 빈도 수 이하의 음절이 있는 경우에는 이를 오류로 판단하여 해당 음절과 가장 유사하고, 일정 빈도 수 이상인 음절로 교정할 수 있다(s76).
또한, 본 발명의 또 다른 실시예에서는 음절 쌍의 빈도 수를 이용하여 특정 단어 집합의 첫 부분, 중간 부분 또는 끝 부분을 인식할 수 있다. 즉, 임의의 연속된 두 음절이 명사의 첫 부분인지, 중간 부분인지 또는 끝 부분인지를 판단할 수 있다.
즉, 인식 대상이 되는 단어들로부터 해당 단어의 첫 부분, 중간 부분 또는 끝 부분에 대한 음절 쌍 및 해당 빈도 수를 각각 구한다. 임의의 연속된 두 음절에 있어서, 총 빈도 수에 대한 첫 부분으로 사용될 확률을 구한다. 여기에서 구해진확률이 일정 임계 값 이상인 경우에는 해당 단어의 첫 부분으로 판단하고, 확률이 일정 임계 값 미만인 경우에는 단어의 첫 부분이 아닌 것으로 판단하여, 일정 임계 값 이상인 음절 쌍을 대상으로 음절 쌍의 교정 과정을 진행한다.
단어의 중간 부분 또는 끝 부분에 대한 인식 방법도 첫 부분의 인식 과정과 동일하게 진행할 수 있다.
또한, 본 발명의 다른 실시예에 따르면 바이그램 특성을 이용하여 음절 쌍 또는 임의의 한글 스트링 집합에 관한 정보를 저장 및 검색할 수 있다.
도 12는 본 발명의 또 다른 실시예에 따른 음절 스트링 검색 과정의 흐름도를 나타낸 것이다. 도 12를 참조하여, 그 과정을 살펴보면 다음과 같다.
먼저, 수집된 말뭉치로부터 음절 쌍의 바이그램 특성을 추출한다(s80). 추출된 바이그램 특성에 따라, n 개의 스트링을 가지는 음절 스트링 "A1A2...An"을 KS 완성형 한글 코드와 같이 현대 국어에서 자주 사용되는 음절들로 구성된 코드 집합으로 변환하거나, 스트링에 사용된 코드 집합을 그대로 사용할 수 있다. KS 완성형 한글 코드 또는 스트링에 사용된 코드 집합에 대한 첫 음절, 반 음절 또는 초성으로 이루어진 테이블 X를 구성한다(s82). 테이블 X의 인덱스와 해당 음절의 코드 값은 간단한 수식에 의하여 상호 계산될 수 있도록 하는 것이 바람직하다.
스트링 "A1A2...An"에 있어서 'A1을 제거한 나머지 스트링(A2A3...An)' 및 '전체 스트링(A1A2...An)에 대한 정보 데이터들'을 테이블 Y에 순서대로 저장한다.(s86)
첫 음절(반 음절 또는 초성)로 이루어진 테이블 X의 각 항목에는 테이블 Y에서 첫 음절이 동일한 음절 쌍들의 시작 위치 및 끝 위치를 알 수 있는 값을 지정한다(s88).
검색 요청이 있는 경우에, 임의의 음절 쌍에 대한 음절 쌍 정보를 검색하는 과정에서, 첫 음절 테이블 X를 검색하여 첫 음절에 대한 테이블 Y의 시작 및 끝 위치를 검색한다(s90). 그런 다음, 일반적인 검색 기법을 이용하여 첫 음절을 제외한 나머지 스트링에 대하여 테이블 Y를 탐색하여 저장된 정보를 검색한다(s92).
결국, 음절 스트링들의 특성을 바이그램 음절 쌍에 대한 정보로 축약하여 저장함으로써, 음절 스트링을 모두 나열하여 사전 형태로 구축할 경우에 저장 공간의 크기가 매우 커지고 검색 속도가 저하되는 문제를 해결할 수 있다.
한편, 일반적인 문자 인식 시스템은 한 라인의 끝 문자와 다음 라인의 첫 문자가 하나의 음절 쌍인지, 서로 다른 음절 쌍인지를 구별하지 못한다. 본 발명은 문자 인식기를 통하여 인식된 문장에서 한 라인의 끝 문자와 다음 라인의 처음에 오는 문자가 하나의 어절을 구성하는지를 판단하는데 적용할 수 있다.
즉, 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출한다. 그런 다음, 각 음절 쌍에 대한 공백 빈도 수를 계산하고, 공백 빈도 수에 따라 특정 라인의 끝 문자와 다음 라인의 첫 문자로 이루어진 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산한다. 그 후에, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 대하여 공백 삽입 임계치를 설정한다. 그리고 나서, 입력된 어절에서 특정 라인의 끝 문자와 다음 라인의 첫 문자로 구성되는 각 음절 쌍에 대한 공백 삽입 확률과 임계치를 비교하여 띄어쓰기 오류 여부를 판단한다. 임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입한다.
도 13은 본 발명의 바람직한 실시예에 따른 오류 인식 방법에 있어서, 바이그램 특성을 라인의 끝 문자와 다음 라인의 첫 문자의 띄어쓰기 오류를 판단하는데 적용한 결과를 나타낸 것이다. 도 13을 참조하면, 빈도 3 이상의 156,487 개의 음절 쌍에 대한 인식 정확도는 90.49 %이고, 빈도 6 이상에 해당하는 117,765 개의 음절 쌍은 인식 정확도가 89.90 %를 나타낸다. 또한, 빈도 14 이상에 해당하는 81,382 개의 음절 쌍은 인식 정확도가 89.32 % 이고, 빈도 37 이상에 해당하는 50,406 개의 음절 쌍은 인식 정확도가 88.74 % 이며, 빈도 98 이상에 해당하는 28,651 개의 음절 쌍은 인식 정확도가 87.77 % 에 상당한다.
또한, 본 발명의 오류 인식 방법은 음성 인식을 통하여 인식된 음절 쌍의 경우에도 동일하게 적용할 수 있다.
즉, 실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하고, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하여, 이를 정렬한다. 음성 인식을 통하여 인식된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산한다. 이 때, 공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하고, 음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 음성 인식 오류 여부를 판단할 수 있다.
이와 같이, 오류가 판단된 음절 쌍의 교정 방법은 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류한다. 그런 다음, 출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링을 교정 후보로 분류하고, 피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정할 수 있다.
또한, 본 발명은 바이그램 특성을 이용하여 체언-용언-독립언을 인식할 수 있다.
도 14는 본 발명의 바람직한 실시예에 따른 오류 인식 방법에 있어서, 바이그램 특성을 이용하여 체언, 용언, 독립언을 판단하는 과정의 흐름도를 나타낸 것이다. 도 14를 참조하면, 먼저 실험 데이터로서 수집한 말뭉치에서 체언, 용언, 독립언을 구분하여 추출한다(s100). 수집한 말뭉치에서 추출된 체언, 용언, 또는 독립언에 포함된 각 음절 쌍에 대하여 바이그램 특성을 추출한다(s102). 그런 다음, 입력된 어절에 포함된 체언, 용언, 또는 독립언의 각 유형에 따라 사용된 음절 쌍의 빈도 수를 계산한다(s104). 입력된 어절에 포함된 각 음절 쌍이, 수집된 말뭉치에서 추출된 체언, 용언, 또는 독립언의 음절 쌍에 해당하면, 해당 음절 쌍의 빈도 수와 기준 빈도 수를 비교한다(s106). 비교 결과, 입력된 어절에 포함된 체언, 용언 또는 독립언 음절 쌍의 빈도 수가 기준 빈도 수 이상인 경우에는 해당 음절 쌍을 체언, 용언, 또는 독립언으로 판단할 것이다(s108).
또한, 본 발명은 음절 바이그램 특성을 이용하여 복합 명사의 오류를 판단하고, 오류가 발생한 복합 명사를 분해할 수 있다.
이를 위하여, 먼저 실험 데이터로서 수집한 말뭉치에서 띄어쓴 복합 명사를추출한다. 그리고, 띄어쓴 복합 명사에 사용된 음절 쌍들의 바이그램 특성을 추출하고, 기준 빈도 수 또는 임계치를 설정한다. 입력된 임의의 음절 스트링에 포함된 복합 명사를 추출하여, 추출된 복합 명사의 빈도 수와 기준 빈도수 또는 임계치를 비교하여 붙여쓴 복합 명사인지를 판단한다. 붙여쓴 복합 명사는 정해진 위치에 사이 공백을 삽입함으로써 복합 명사를 분해할 수 있다.
상술한 바와 같이, 본 발명의 바이그램을 이용한 오류 인식 방법은 공백 빈도 수와 공백 삽입 확률을 이용하여 한글 띄어쓰기 오류 또는 철자 오류를 인식하고, 인식된 결과에 따라 띄어쓰기 오류 또는 철자 오류를 보다 정확하게 교정할 수 있다.
또한, 본 발명은 문자 인식기나 음성 인식기를 통하여 인식된 음절 쌍의 띄어쓰기 오류 또는 철자 오류를 인식하고 이를 보다 정확하게 교정할 수 있다.
또한, 본 발명은 바이그램 특성을 추출하기 위한 음절 쌍의 빈도 수 또는 공백 빈도 수를 이용하여 성명, 지명, 외래어, 방언 또는 축약어 등의 고유 명사 오류를 인식하고, 이를 교정할 수 있다. 또한, 이를 통하여 특정 단어 집합을 인식할 수 있고, 한글 스트링 집합에 관한 정보를 용이하게 저장 및 검색할 수 있다.
영어의 빈도 정보 및 바이그램 정보는 문서 압축 기술 등 다양한 목적으로 활용되어 왔다. 한글의 경우에는 음절 빈도, 공백 빈도 및 바이그램 빈도를 추출하고 이에 대한 데이터베이스를 구축함으로써, 자동 띄어쓰기뿐만 아니라 맞춤법 오류의 인식, 철자 오류 교정, 대용량 데이터의 효율적인 구축 등 한국어 정보 처리에 유용하게 활용될 수 있을 것이다.
또한, 본 발명은 음절 스트링들의 특성을 바이그램 음절 쌍에 대한 정보로 축약하여 저장함으로써, 해당하는 음절 스트링을 모두 나열하여 사전 형태로 구축할 경우에 저장 공간의 크기가 매우 커지고 검색 속도가 저하되는 문제를 해결할 수 있다.
상기에서는 본 발명의 한글 문서 오류 인식 방법의 바람직한 실시예를 통하여 상세하게 기술하였지만, 그 내용은 하기 청구범위에 기술된 본 발명의 분야에만 한정되지 않는다. 또한, 상기 기술 분야에 있어서, 통상의 지식을 가진 사람은 본 발명의 범위 내에서 이를 다양하게 변경하거나 수정할 수 있는 것이 자명할 것이다.

Claims (52)

  1. 한글 문서의 오류를 인식하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계;
    입력된 어절에 포함된 음절 쌍의 공백 빈도 수에 따라 연속된 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계; 및
    각 음절 쌍에 대한 공백 삽입 확률과 설정된 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계
    를 포함하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  2. 제1항에 있어서,
    상기 말뭉치는
    신문 기사, 출판물 정보, 논문과 같은 인쇄 문서, 웹 문서, 컴퓨터 기록 매체와 같은 전자 문서 중 적어도 하나를 포함하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  3. 제1항에 있어서,
    상기 바이그램 특성은
    음절 쌍의 배열 유형, 출현 빈도 수, 빈도 수에 대한 음절 쌍 개수 중 적어도 하나를 포함하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  4. 제1항에 있어서,
    상기 공백 빈도 수를 계산하는 단계는
    음절 쌍에 대한 좌 공백 빈도 수, 우 공백 빈도 수 및 사이 공백 빈도 수를 각각 계산하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  5. 제1항에 있어서,
    상기 공백 삽입 확률
    아래의 수학식에 의하여 계산되는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
    여기서,
    는 두 음절(Xi, Xi+1) 사이에 사이 공백이 삽입될 확률을 나타내고,
    는 두 음절(Xi+1, Xi+2) 사이에 좌 공백이 삽입될 확률을 나타내며,
    는 두 음절(Xi-1, Xi) 사이에 우 공백이 삽입될 확률을 나타내고,
    WR과 WM, WL은 각각 우 공백, 사이 공백, 좌 공백이 삽입되는 확률에 대한 계수를 나타냄.
  6. 제5항에 있어서,
    상기 사이 공백이 삽입될 확률
    아래의 수학식에 의하여 계산되는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
    여기서,은 두 음절 Xi와 Xi+1이 연속해서 출현한 총 빈도 수를 나타내고,
    은 두 음절 Xi와 Xi+1의 사이에 공백이 출현한 빈도 수를 나타냄.
  7. 제5항에 있어서,
    상기 좌 공백이 삽입될 확률
    아래의 수학식에 의하여 계산되는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
    여기서,은 두 음절 Xi와 Xi+1이 연속해서 출현한 총 빈도 수를 나타내고,
    은 두 음절 Xi와 Xi+1의 왼쪽에 공백이 출현한 빈도 수를 나타냄.
  8. 제5항에 있어서,
    상기 우 공백이 삽입될 확률
    아래의 수학식에 의하여 계산되는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
    여기서,은 두 음절 Xi와 Xi+1이 연속해서 출현한 총 빈도 수를 나타내고,
    은 두 음절 Xi와 Xi+1의 오른쪽에 공백이 출현한 빈도 수를 나타냄.
  9. 제5항에 있어서,
    상기 공백이 삽입되는 확률에 대한 계수 WR, WM, WL
    아래 수학식의 관계를 만족하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  10. 제1항 또는 제9항에 있어서,
    상기 임계치는
    공백이 삽입되는 확률에 대한 가중치 WR, WM, WL를 증감하면서 음절 쌍의 정확도가 가장 높은 값을 설정하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  11. 제10항에 있어서,
    상기 임계치는
    0 과 1 사이의 값을 갖도록 설정하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  12. 제10항에 있어서,
    상기 임계치는
    음절 쌍을 띄어쓴 오류와 붙여쓴 오류의 개수가 교차되는 지점의 확률 값으로 설정하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  13. 제1항에 있어서,
    상기 띄어쓰기 오류 여부를 판단하는 단계는
    공백 삽입 확률이 임계치 이상인 경우에 띄어쓰기 오류로 판정하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  14. 제1항에 있어서,
    임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계
    를 더 포함하는 바이그램 특성을 이용한 띄어쓰기 오류 인식 방법.
  15. 한글 문서의 오류를 인식하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계;
    입력된 어절에 포함된 음절 쌍의 공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계;
    각 음절 쌍에 대한 공백 삽입 확률과 설정된 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계; 및
    임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계
    를 포함하는 바이그램 특성을 이용한 자동 띄어쓰기 방법.
  16. 한글 문서의 오류를 인식하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계;
    연속하는 복수의 음절로 구성된 음절 스트링에 있어서, 공백 빈도 수에 따라 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계; 및
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계치(T + α)를 비교하여 음절 스트링의 띄어쓰기 오류 여부를 판단하는 단계
    를 포함하는 바이그램 특성을 이용한 음절 스트링의 띄어쓰기 오류 인식 방법.
  17. 제16항에 있어서,
    상기 가중치 α는
    -0.5 이상 0.5 이하의 값을 갖는 바이그램 특성을 이용한 음절 스트링의 띄어쓰기 오류 인식 방법.
  18. 한글 문서의 오류를 인식하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계; 및
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계
    를 포함하는 바이그램 특성을 이용한 음절 스트링의 철자 오류어 인식 방법.
  19. 제18항에 있어서,
    상기 가중치 α는
    -0.5 이상 0.5 이하의 값을 갖는 바이그램 특성을 이용한 음절 스트링의 철자 오류어 인식 방법.
  20. 제18항에 있어서,
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링 또는 일정 빈도 수 이상인 음절 쌍들로만 구성된 음절 스트링을 교정 후보로 분류하는 단계; 및
    피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정하는 단계
    를 더 포함하는 바이그램 특성을 이용한 음절 스트링의 철자 오류어 인식 방법.
  21. 제18항에 있어서,
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계;
    추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계; 및
    피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계
    를 더 포함하는 바이그램 특성을 이용한 음절 스트링의 철자 오류어 인식 방법.
  22. 한글 문서의 오류를 교정하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계;
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링을 교정 후보로 분류하는 단계; 및
    피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정하는 단계
    를 포함하는 바이그램 특성을 이용한 음절 스트링의 철자 오류어 교정 방법.
  23. 한글 문서의 오류를 교정하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계;
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계;
    추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계; 및
    피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계
    를 포함하는 바이그램 특성을 이용한 음절 스트링의 철자 오류어 교정 방법.
  24. 한글 문서의 데이터를 처리하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 고유 명사의 유형에 따라 사용된 음절 쌍의 빈도 수를 계산하는 단계; 및
    입력된 어절에 포함된 각 음절 쌍에 있어서, 음절 쌍이 수집된 말 뭉치에서 추출된 고유 명사의 유형에 속하는 경우에, 일정 빈도 수 이상인 음절 쌍이 사용된 입력 어절을 해당하는 고유 명사로 판단하는 단계
    를 포함하는 바이그램 특성을 이용한 고유 명사 인식 방법.
  25. 제24항에 있어서,
    상기 고유 명사는
    성명, 상호, 지명, 외래어, 방언 또는 축약어 중 적어도 하나를 포함하는 바이그램 특성을 이용한 고유 명사 인식 방법.
  26. 한글 문서의 데이터를 인식하는 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 연속된 음절 쌍에 대한 출현 빈도 수를 계산하는 단계;
    입력된 어절로부터 인식 대상이 되는 단어의 정해진 부분에서 음절 쌍을 추출하여, 출현 빈도 수를 계산하는 단계;
    임의의 연속된 음절 쌍의 총 출현 빈도 수에 대하여, 음절 쌍이 상기 정해진 부분으로 사용될 확률을 계산하는 단계; 및
    상기 정해진 부분으로 사용될 확률과 설정된 임계치를 비교하여 선택된 음절 쌍이 인식 대상이 되는 단어의 정해진 부분인지를 판단하는 단계
    를 포함하는 바이그램 특성을 이용한 단어의 특정 부분 인식 방법.
  27. 제26항에 있어서,
    상기 인식 대상이 되는 단어의 정해진 부분은
    단어의 첫 부분, 중간 부분 또는 끝 부분 중 하나인 바이그램 특성을 이용한 단어의 특정 부분 인식 방법.
  28. 한글 문서의 정보 검색 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    추출된 바이그램 특성을 이용하여 임의의 음절 스트링에 대한 도입부를 테이블(X)로 구성하는 단계;
    상기 테이블(X)의 인덱스 및 도입부의 코드 값을 지정하는 단계;
    상기 음절 스트링에서, '도입부를 제외한 나머지 스트링' 및 '전체 음절 스트링에 대한 정보'를 테이블(Y)에 순차적으로 구성하는 단계;
    테이블(Y)에 저장된 음절 스트링을 지정할 수 있도록, 음절 스트링의 연결 정보를 해당하는 테이블(X)에 구성하는 단계;
    음절 쌍에 대한 정보 검색 요청이 있는 경우에, 테이블(X)에서 해당하는 음절 스트링의 도입부를 검색하여 음절 스트링의 연결 정보를 확인하는 단계;
    상기 음절 스트링의 연결 정보를 이용하여 테이블(Y)에서 '도입부를 제외한 나머지 스트링' 및 '전체 음절 스트링에 대한 정보'를 검색하는 단계
    를 포함하는 바이그램 특성을 이용한 한글 정보 검색 방법.
  29. 제28항에 있어서,
    상기 도입부를 테이블(X)로 구성하는 단계는
    음절 스트링을 일정 코드 집합으로 변환하는 단계; 및
    코드 집합으로 변환된 음절 스트링의 도입부를 테이블로 구성하는 단계
    를 포함하는 바이그램 특성을 이용한 한글 정보 검색 방법.
  30. 제29항에 있어서,
    상기 코드 집합은
    KS 완성형 한글 코드, KS 조합형 한글 코드, 유니 코드, 아스키 코드 중 하나인 바이그램 특성을 이용한 한글 정보 검색 방법.
  31. 제28항에 있어서,
    상기 도입부는
    첫 음절, 반 음절 또는 초성 중 하나인 바이그램 특성을 이용한 한글 정보 검색 방법.
  32. 제28항에 있어서,
    상기 연결 정보는
    테이블(Y)의 시작 위치 및 끝 위치 정보
    를 포함하는 바이그램 특성을 이용한 한글 정보 검색 방법.
  33. 한글 문서의 오류 교정 방법에 있어서,
    수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    말뭉치로부터 추출된 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계;
    문자 인식기를 통하여 인식된 음절 쌍에 있어서, 공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계;
    공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 대하여 공백 삽입 임계치를 설정하는 단계;
    각 음절 쌍에 대한 공백 삽입 확률과 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계; 및
    임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계
    를 포함하는 바이그램 특성을 이용한 문자 인식 오류 교정 방법.
  34. 음성 인식에 대한 오류 확인 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    음성 인식 과정을 통하여 인식된 음절 스트링에 있어서, 이웃하는 두 음절에대한 공백 삽입 확률을 계산하는 단계;
    공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하는 단계; 및
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 음성 인식 오류 여부를 판단하는 단계
    를 포함하는 바이그램 특성을 이용한 음성 인식 오류 확인 방법.
  35. 제34항에 있어서,
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링을 교정 후보로 분류하는 단계; 및
    피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정하는 단계
    를 더 포함하는 바이그램 특성을 이용한 음성 인식 오류 확인 방법.
  36. 음성 인식에 대한 오류 교정 방법에 있어서,
    실험 데이터로서 수집한 말뭉치의 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    음성 인식 과정을 통하여 인식된 복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계;
    공백 삽입 확률을 계산하는 과정에서, 실험 데이터에 따라 음절 쌍의 임계 빈도 수(N)를 설정하는 단계;
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 음성 인식 오류 여부를 판단하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계;
    추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계; 및
    피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계
    를 포함하는 바이그램 특성을 이용한 음성 인식 오류 교정 방법.
  37. 한글 문서의 오류 인식 방법에 있어서,
    실험 데이터로서 수집한 말뭉치에서 체언, 용언, 또는 독립언을 구분하여 추출하는 단계;
    추출된 체언, 용언, 또는 독립언에 포함된 각 음절 쌍에 대한 바이그램 특성을 추출하는 단계;
    체언, 용언, 또는 독립언의 각 유형에 따라 사용된 음절 쌍의 빈도 수를 계산하는 단계; 및
    각 음절 쌍에 대하여 수집된 말뭉치에서 음절 스트링이 체언, 용언, 또는 독립언의 어느 한 유형에 속한 음절 쌍들로 조합된 경우에, 일정 빈도 수 이상인 음절 쌍이 사용된 입력 어절을 체언, 용언, 또는 독립언으로 판단하는 단계
    를 포함하는 바이그램 특성을 이용한 오류 인식 방법.
  38. 한글 문서의 복합 명사 오류를 교정하는 방법에 있어서,
    실험 데이터로부터 수집한 말뭉치에서 띄어쓴 복합 명사를 추출하는 단계;
    추출된 복합 명사에 포함된 음절 쌍의 바이그램 특성을 추출하는 단계;
    말뭉치로부터 추출된 음절 쌍 바이그램 특성에 따라 임계치를 설정하는 단계;
    입력된 음절 스트링에 대하여 붙여쓴 복합 명사를 추출하고, 추출된 복합 명사에 포함된 음절 쌍의 공백 삽입 확률을 계산하는 단계;
    붙여쓴 복합 명사에 포함된 음절 쌍의 공백 삽입 확률과 임계치를 비교하여 오류 여부를 판단하는 단계; 및
    붙여쓴 복합 명사에 포함된 음절 쌍의 공백 삽입 확률이 임계치 이상인 경우에, 해당하는 음절 쌍의 사이에 공백을 삽입하여 복합 명사를 분해하는 단계
    를 포함하는 바이그램 특성을 이용한 복합 명사 오류 교정 방법.
  39. 음절 바이그램 특성을 이용하여 한글 문서의 오류를 인식하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 오류 인식 방법이
    입력된 어절에 포함된 각 음절 쌍의 공백 빈도 수를 계산하는 단계;
    공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계; 및
    각 음절 쌍에 대한 공백 삽입 확률과 말뭉치로부터 추출된 바이그램 특성으로부터 설정된 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계
    를 포함하는 컴퓨터 기록 매체.
  40. 음절 바이그램 특성을 이용하여 한글 문서의 자동 띄어쓰기 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 자동 띄어쓰기 방법이
    입력된 어절에 포함된 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계;
    공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계;
    각 음절 쌍에 대한 공백 삽입 확률과 말뭉치로부터 추출된 바이그램 특성으로부터 설정된 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계; 및
    임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계
    를 포함하는 컴퓨터 기록 매체.
  41. 음절 바이그램 특성을 이용하여 한글 문서의 오류를 인식하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 오류 인식 방법이
    복수의 음절로 구성된 음절 스트링에 있어서, 각 음절 쌍에 대한 공백 빈도 수를 계산하는 단계;
    공백 빈도 수에 따라 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계; 및
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 말뭉치로부터 추출된 바이그램 특성으로부터 설정된 임계치를 비교하여 음절 스트링의 띄어쓰기 오류 여부를 판단하는 단계
    를 포함하는 컴퓨터 기록 매체.
  42. 음절 바이그램 특성을 이용하여 한글 문서의 철자 오류어를 인식하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 철자 오류어 인식 방법이
    복수의 음절로 구성된 음절 스트링에 있어서, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    출현 빈도 수에 따라 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계; 및
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 말뭉치로부터 추출된 바이그램 특성으로부터 설정된 임계 빈도 수를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계
    를 포함하는 컴퓨터 기록 매체.
  43. 음절 바이그램 특성을 이용하여 한글 문서의 철자 오류어를 교정하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 철자 오류어 교정 방법이
    복수의 음절로 구성된 음절 스트링에 있어서, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    출현 빈도 수에 따라 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계;
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 말뭉치로부터 추출된 바이그램 특성으로부터 설정된 임계 빈도 수를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이상의 음절 쌍이 포함된 음절 스트링을 교정 후보로 분류하는 단계; 및
    피교정 후보인 음절 스트링을 사용자의 선택에 따라 교정 후보인 음절 스트링으로 교정하는 단계
    를 포함하는 컴퓨터 기록 매체.
  44. 음절 바이그램 특성을 이용하여 한글 문서의 철자 오류어를 교정하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 철자 오류어 교정 방법이
    복수의 음절로 구성된 음절 스트링에 있어서, 사이 공백이 없는 연속된 음절 쌍의 출현 빈도 수를 계산하는 단계;
    출현 빈도 수에 따라 이웃하는 두 음절에 대한 공백 삽입 확률을 계산하는 단계;
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 말뭉치로부터 추출된 바이그램 특성으로부터 설정된 임계 빈도 수를 비교하여 음절 스트링의 철자 오류 여부를 판단하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계;
    추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계; 및
    피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계
    를 포함하는 컴퓨터 기록 매체.
  45. 음절 바이그램 특성을 이용하여 한글 문서의 고유 명사를 인식하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 고유 명사 인식 방법이
    말뭉치로부터 추출된 바이그램 특성으로부터 고유 명사의 유형에 따라 사용된 음절 쌍의 빈도 수를 계산하는 단계; 및
    각 음절 쌍에 대하여 수집된 말 뭉치에서 입력된 어절이 고유 명사의 유형에 속한 음절로 구성된 경우에, 일정 빈도 수 이상인 음절 쌍이 사용된 입력 어절을 해당하는 고유 명사로 판단하는 단계
    를 포함하는 컴퓨터 기록 매체.
  46. 음절 바이그램 특성을 이용하여 단어의 특정 부분을 인식하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 단어의 특정 부분 인식 방법이
    인식 대상이 되는 단어의 정해진 부분에서 음절 쌍을 추출하여, 출현 빈도 수를 계산하는 단계;
    임의의 연속된 음절 쌍의 총 출현 빈도 수에 대하여, 음절 쌍이 상기 정해진 부분으로 사용될 확률을 계산하는 단계; 및
    상기 정해진 부분으로 사용될 확률과 말뭉치로부터 추출된 바이그램 특성으로부터 설정된 임계치를 비교하여 선택된 음절 쌍이 인식 대상이 되는 단어의 정해진 부분인지를 판단하는 단계
    를 포함하는 컴퓨터 기록 매체.
  47. 음절 바이그램 특성을 이용하여 한글 문서의 정보를 검색하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 정보 검색 방법이
    임의의 음절 스트링에 대한 도입부를 테이블(X)로 구성하는 단계;
    말뭉치로부터 추출된 바이그램 특성을 이용하여 상기 테이블(X)의 인덱스 및 도입부의 코드 값을 지정하는 단계;
    상기 음절 스트링에서, '도입부를 제외한 나머지 스트링' 및 '전체 음절 스트링에 대한 정보'를 테이블(Y)에 순차적으로 구성하는 단계;
    테이블(Y)에 저장된 음절 스트링을 지정할 수 있도록, 음절 스트링의 연결 정보를 해당하는 테이블(X)에 구성하는 단계;
    음절 쌍에 대한 정보 검색 요청이 있는 경우에, 테이블(X)에서 해당하는 음절 스트링의 도입부를 검색하여 음절 스트링의 연결 정보를 확인하는 단계; 및
    상기 음절 스트링의 연결 정보를 이용하여 테이블(Y)에서 '도입부를 제외한 나머지 스트링' 및 '전체 음절 스트링에 대한 정보'를 검색하는 단계
    를 포함하는 컴퓨터 기록 매체.
  48. 음절 바이그램 특성을 이용하여 한글 문서의 오류를 교정하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 오류 교정 방법이
    문자 인식기를 통하여 인식된 음절 쌍에 대한 공백 빈도 수를 계산하는 단계;
    공백 빈도 수에 따라 연속한 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계;
    말뭉치로부터 추출된 바이그램 특성을 이용하여 공백을 삽입할 임계치를 설정하는 단계;
    각 음절 쌍에 대한 공백 삽입 확률과 임계치를 비교하여 띄어쓰기 오류 여부를 판단하는 단계; 및
    임의의 음절 쌍 공백 삽입 확률이 임계치 이상인 경우에 해당하는 음절 쌍 사이에 공백을 삽입하는 단계
    를 포함하는 컴퓨터 기록 매체.
  49. 음절 바이그램 특성을 이용하여 음성 인식 오류를 판단하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 음성 인식 오류 판단 방법이
    음성 인식 과정을 통하여 인식된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 빈도 수를 계산하는 단계;
    공백 빈도 수에 따라 두 음절 사이에 공백을 삽입할 공백 삽입 확률을 계산하는 단계;
    말뭉치로부터 추출된 바이그램 특성을 이용하여 음절 쌍의 임계 빈도 수(N)를 설정하는 단계; 및
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 음성 인식 오류 여부를 판단하는 단계
    를 포함하는 컴퓨터 기록 매체.
  50. 음절 바이그램 특성을 이용하여 음성 인식 오류를 교정하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 음성 인식 오류를 교정하는 방법이
    음성 인식 과정을 통하여 인식된 복수의 음절로 구성된 음절 스트링에 있어서, 이웃하는 두 음절에 대한 공백 빈도 수를 계산하는 단계;
    공백 빈도 수에 따라 두 음절의 공백 삽입 확률을 계산하는 단계;
    말뭉치로부터 추출된 바이그램 특성을 이용하여 음절 쌍의 임계 빈도 수(N)를 설정하는 단계;
    음절 스트링의 각 음절 쌍에 대한 공백 삽입 확률과 가중치(α)가 부가된 임계 빈도 수(N + α)를 비교하여 음절 스트링의 음성 인식 오류 여부를 판단하는 단계;
    출현 빈도 수가 계산된 음절 쌍에 대하여, 일정 빈도 수 이하의 음절 쌍이 포함된 음절 스트링을 피교정 후보로 분류하는 단계;
    피교정 후보로 분류된 음절 스트링 중에서, 발견된 음절 쌍과 자음이나 모음이 1 개 또는 2 개가 서로 다른 음절 쌍을 추출하는 단계;
    추출된 음절 쌍 중에서 일정 빈도 수 이상인 음절 쌍을 추출하여 교정 후보로 분류하는 단계; 및
    피교정 후보로 분류된 음절 쌍을 교정 후보로 분류된 음절 쌍으로 교정하는 단계
    를 포함하는 컴퓨터 기록 매체.
  51. 음절 바이그램 특성을 이용하여 한글 문서의 오류를 인식하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 오류를 인식하는 방법이
    실험 데이터로서 수집한 말뭉치에서 체언, 용언, 또는 독립언을 구분하여 추출하는 단계;
    체언, 용언, 또는 독립언의 각 유형에 따라 사용된 음절 쌍의 빈도 수를 계산하는 단계;
    말뭉치로부터 추출된 바이그램 특성에 따라 기준 빈도 수를 설정하는 단계; 및
    각 음절 쌍에 대하여 수집된 말뭉치에서 음절 스트링이 체언, 용언, 또는 독립언의 어느 한 유형에 속한 음절 쌍들로 조합된 경우에, 해당 음절 쌍의 빈도 수와 기준 빈도 수를 비교하여 체언, 용언, 또는 독립언을 판단하는 단계
    를 포함하는 컴퓨터 기록 매체.
  52. 음절 바이그램 특성을 이용하여 한글 문서의 오류를 교정하는 방법을 수행하기 위하여, 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 디지털 처리 장치에 의해 판독될 수 있는 기록 매체에 있어서,
    상기 오류를 교정하는 방법이
    입력된 음절 스트링에 대하여 붙여쓴 복합 명사를 추출하는 단계;
    추출된 복합 명사에 포함된 음절 쌍의 공백 삽입 확률을 계산하는 단계;
    말뭉치로부터 추출된 복합 명사의 음절 바이그램 특성을 이용하여 임계치를 설정하는 단계;
    붙여쓴 복합 명사에 포함된 음절 쌍의 공백 삽입 확률과 임계치를 비교하여 오류 여부를 판단하는 단계; 및
    붙여쓴 복합 명사에 포함된 음절 쌍의 공백 삽입 확률이 임계치 이상인 경우에, 해당하는 음절 쌍의 사이에 공백을 삽입하여 복합 명사를 분해하는 단계
    를 포함하는 컴퓨터 기록 매체.
KR10-2000-0060025A 2000-10-12 2000-10-12 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법 KR100376032B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0060025A KR100376032B1 (ko) 2000-10-12 2000-10-12 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0060025A KR100376032B1 (ko) 2000-10-12 2000-10-12 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법

Publications (2)

Publication Number Publication Date
KR20010000673A KR20010000673A (ko) 2001-01-05
KR100376032B1 true KR100376032B1 (ko) 2003-03-15

Family

ID=19693140

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0060025A KR100376032B1 (ko) 2000-10-12 2000-10-12 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법

Country Status (1)

Country Link
KR (1) KR100376032B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467340B2 (en) 2015-01-02 2019-11-05 Samsung Electronics Co., Ltd. Grammar correcting method and apparatus
KR20220074547A (ko) * 2020-11-27 2022-06-03 주식회사 투블럭에이아이 3단계 언어 모델을 이용한 문서 인식 개선 장치 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735308B1 (ko) * 2005-08-30 2007-07-03 경북대학교 산학협력단 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체
KR100887726B1 (ko) * 2007-05-28 2009-03-12 엔에이치엔(주) 자동 띄어쓰기 방법 및 그 시스템
KR102204395B1 (ko) * 2013-12-06 2021-01-19 주식회사 케이티 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970006402A (ko) * 1995-07-26 1997-02-19 채스킨 제이 엘 폴리카보네이트 및 모노비닐리덴 방향족 화합물의 방염 조성물
JPH1185179A (ja) * 1997-09-16 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデルの作成方法
KR100327109B1 (ko) * 1999-12-24 2002-03-07 오길록 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970006402A (ko) * 1995-07-26 1997-02-19 채스킨 제이 엘 폴리카보네이트 및 모노비닐리덴 방향족 화합물의 방염 조성물
JPH1185179A (ja) * 1997-09-16 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデルの作成方法
KR100327109B1 (ko) * 1999-12-24 2002-03-07 오길록 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467340B2 (en) 2015-01-02 2019-11-05 Samsung Electronics Co., Ltd. Grammar correcting method and apparatus
KR20220074547A (ko) * 2020-11-27 2022-06-03 주식회사 투블럭에이아이 3단계 언어 모델을 이용한 문서 인식 개선 장치 및 방법
KR102455112B1 (ko) 2020-11-27 2022-10-17 주식회사 투블럭에이아이 3단계 언어 모델을 이용한 문서 인식 개선 장치 및 방법

Also Published As

Publication number Publication date
KR20010000673A (ko) 2001-01-05

Similar Documents

Publication Publication Date Title
US10216725B2 (en) Integration of domain information into state transitions of a finite state transducer for natural language processing
JP3950535B2 (ja) データ処理方法及び装置
EP0830668B1 (en) Systems and methods for word recognition
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
EP2248051B1 (en) Computer implemented method for indexing and retrieving documents in database and information retrieval system
CN111639489A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US20030046078A1 (en) Supervised automatic text generation based on word classes for language modeling
CN101261623A (zh) 基于搜索的无词边界标记语言的分词方法以及装置
US20110106523A1 (en) Method and Apparatus for Creating a Language Model and Kana-Kanji Conversion
CN112199945A (zh) 一种文本纠错的方法和装置
Verberne Context-sensitive spell checking based on word trigram probabilities
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
Thet et al. Word segmentation for the Myanmar language
KR100376032B1 (ko) 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
CN101499056A (zh) 倒排参考句型语言分析方法
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
Athanaselis et al. A corpus based technique for repairing ill-formed sentences with word order errors using co-occurrences of n-grams
L’haire FipsOrtho: A spell checker for learners of French
KR100328963B1 (ko) 띄어쓰기오류허용한국어형태소분석방법및그장치
Kavros et al. SoundexGR: An algorithm for phonetic matching for the Greek language
CN115630638A (zh) 改进的文本特征词汇提取方法、系统、介质、设备及终端

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee