KR101049525B1

KR101049525B1 - 중문 문장 오류 검출 장치 및 방법

Info

Publication number: KR101049525B1
Application number: KR1020080124261A
Authority: KR
Inventors: 춘 쿠; 시흐-헝 우; 웬-난 왕; 웬-타이 셰; 타-헝 헝
Original assignee: 인스티튜트 포 인포메이션 인더스트리
Priority date: 2008-09-09
Filing date: 2008-12-08
Publication date: 2011-07-15
Also published as: TW201011566A; US8374847B2; JP4796118B2; KR20100030547A; TWI391832B; JP2010067250A; US20100063798A1

Abstract

본 발명은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는, 중문 문장 오류 검출 방법을 개시한다. 이 방법은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계를 포함하고, 여기서 각각의 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스를 제공하는 단계를 구비하고, 여기서 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 제 1 서브그룹에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득하는 단계를 포함한다. 이 방법은 또한 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계 및 디스플레이 디바이스 상에 중문자열 및 최선의 후보 문장을 표시하는 단계를 구비한다.

제 1 오류 문자열, 중문자열, 중문 문장, 제 1 서브그룹, 제 1 정확한 인덱스, 후보 문장

Description

중문 문장 오류 검출 장치 및 방법{Error-detecting apparatus and methods for a chinese article}

관련 출원의 상호 참조

이 출원은 2008년 9월 9일자로 출원된 대만 특허 출원 제 097134531의 우선권을 주장하며, 그 전체 내용이 여기서 참조로서 포함된다.

발명의 분야

본 발명은 일반적으로 중문 문장(Chinese article) 오류 검출 장치에 관한 것으로, 특히 바이-그램(bi-gram) 메카니즘을 도입한 오류 검출 장치에 관한 것이다.

컴퓨터 사용의 증가에 비추어, 점점 더 많은 사람이 중문 문장들을 기록하기 위해 수기(handwriting) 대신에 컴퓨터들을 사용한다. 그러나, 중국어의 특징으로 인해, 동일 발음 또는 유사한 모양을 갖는 많은 문자들이 있다. 이것은 중국어를 어렵하게 하여, 사용자들은 올바른 문자와 단지 유사하게 보이는(또는 동일하게 발음되는) 잘못된 문자를 이용하기 쉽다.

전술한 문제들의 견지에서, 본 발명의 목적은 중문 문장 오류 검출 장치 및 방법을 제공하기 위한 것이다. 상기 장치 및 방법으로, 종래 기술이 직면했던 문제들이 해결될 수 있다.

본 발명은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는 데 적용 가능한, 중문 문장 오류 검출 방법을 개시한다. 이 방법은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계를 포함하고, 여기서 각각의 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스를 제공하는 단계를 구비하고, 여기서 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 제 1 서브그룹에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득하는 단계를 포함한다. 이 방법은 또한 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계 및 디스플레이 디바이스 상에 중문자열 및 최선의 후보 문장을 표시하는 단계를 포함한다.

더욱이, 본 발명은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는 데 적용할 수 있는, 중문 문장 오류 검출 장치를 개시한다. 이 장치는 문장 분할 모듈, 데이터베이스, 후보 용어 생성 모듈, 후보 문장 생성 및 스코어링 모듈 및 디스플레이 디바이스를 포함한다. 문장 분할 모듈은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하고, 여기서 각각의 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 데이터베이스는 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하며, 여기서 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 후보 용어 생성 모듈은 제 1 서브그룹들에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득한다. 후보 문장 생성 및 스코어링 모듈은 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하고, 디스플레이 디바이스는 중문자열 및 최선의 후보 문장을 보인다.

더욱이, 본 발명은 중문 문장 오류 검출 프로그램을 저장하기 위한 저장 매체를 개시한다. 오류 검출 프로그램은 중문 문장 오류 검출 방법이 컴퓨터 시스템에 의해 실행되도록 컴퓨터 시스템에 로딩될 복수의 프로그램 코드들을 포함한다. 이 오류 검출 방법은 제 1 위치에 제1 오류 문자열을 포함하는 중문자열을 취급하는 데 적용 가능하다. 이 오류 검출 방법은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계를 포함하고, 여기서, 각각의 상기 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 오류 검출 방법은 또한 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 저장하는 단계를 포함하고, 여기서, 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 오류 검출 방법은 또한 제 1 서브그룹들에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득하는 단계를 포함한다. 이 오류 검출 방법은 또한 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계, 및 중문자열 및 최선의 후보 문장을 표시하는 단계를 포함한다.

본 발명은 첨부 도면들을 참조하여 만들어진 다음의 상세한 설명 및 예들을 읽음으로써 더 완전하게 이해될 수 있다.

다음의 설명은 본 발명을 실행하는 최선의 의도된 형태이다. 이 설명은 본 발명의 일반 원리를 설명하기 위해 만들어진 것이고 본 발명을 제한하고자 하는 것은 아니다. 본 발명의 범위는 첨부 청구항들을 참조하여 가장 잘 결정된다.

도 1은 본 발명에 따른 중문 문장(Chinese article) 오류 검출 장치(100)의 실시예를 나타낸 도면이다. 오류 검출 장치(100)는 문장-수신 모듈(110), 문장-분할 모듈(120), 정확한 언어 데이터베이스(130), 오류 언어 데이터베이스(140), 후보 용어 생성 모듈(150), 후보 문장 생성 및 스코어링 모듈(160), 문자-유사성 데이터베이스(170), 발음-유사성 데이터베이스(180), 언어 모델 데이터베이스(190), 문장-리마킹 모듈(200) 및 디스플레이 디바이스(210)를 포함한다.

문장-수신 모듈(110)은 중문 문장(Art)를 수신하고 추가의 분할 과정을 위해 문장-분할 모듈(120)에 중문 문장(Art)를 전송한다. 정확한 언어 데이터베이스(130)는 예를 들어, 숙어들, 속어들, 방언들, 적절한 명사들 및 운문과 같은 정확한 어구를 미리 저장하기 위해 사용되고, 복수의 제 1 정확한 문자열 및 대응하 는 복수의 제 1 정확한 인덱스들을 포함한다. 오류 언어 데이터베이스(140)는 사용자들이 종종 잘못 사용하는 틀린 어구 및 이들의 대응하는 정확한 어구를 미리 저장하기 위해 사용된다. 유사하게, 오류 언어 데이터베이스(140)는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 포함한다. 후보 용어 생성 모듈(150)은 적절한 제 1 및 제 2 정확한 문자열들을 획득하고 획득한 제 1 및 제 2 정확한 문자열들을 제 1 및 제 2 후보 용어들로 각각 설정한다. 후보 문장 생성 및 스코어링 모듈(160)은 제 1 및 제 2 후보 용어들에 따라 복수의 후보 문장들을 생성하기 위해 사용된다. 더욱이, 후보 문장 생성 및 스코어링 모듈(160)은 또한 문자-유사성 데이터베이스(170), 발음-유사성 데이터베이스(180) 및 언어 모델 데이터베이스(190)에 저장된 데이터에 기초하고 후보 문장 스코어링 메카니즘을 이용하여 후보 문장들을 스코어링함으로써 최선의 후보 문장을 생성한다. 끝으로, 문장-리마킹 모듈(200)은 디스플레이 디바이스(210) 상에 중문 문장(Art) 및 최선의 후보 문장을 리마크한다.

상기한 것은 오류 검출 장치(100)의 간단한 소개이고, 그 구성요소의 기능 설명은 이하에 상세히 설명될 것이다.

도 2는 본 발명에 따른 중문 문장 오류 검출 장치(100)의 실시예의 플로우 차트를 나타낸다. 단계 S100에서, 문장-수신 모듈(110)은 중문 문장(Art)를 수신한다. 단계 S110에서, 문장-분할 모듈(120)은 중문 문장(Art)의 분할 과정을 처리한다. 우선, 문장-분할 모듈(120)은 중문 문장(Art)를 구두점들에 따라 복수의 중문자열들로 세분한다. 예를 들면, 다음과 같이 주어지는 중문 문장(Art)를 고려하라:

이 예에서, 문장-분할 모듈(120)은 구두점들(쉼표들 및 마침표들)에 따라, 중문 문장(Art)를 표시하는 3개의 중문자열들로 세분한다:

,

및

.

분할 과정이 행해진 후, 개개의 중문자열을 위한 분할 과정이 수행된다.

개개의 중문자열의 분할 과정이 실행되기 전에, 미리 명확히 할 필요가 있는 몇 가지 정의들이 있다. 예를 들면, 중문자열(Str)

에 있어서, 중문자열(Str)은 제 1 위치의 제 1 오류 문자열

및 제 2 위치의 제 2 오류 문자열

을 포함한다. 도 3에 도시된 것과 같이, 제 1 위치는 중문자열(Str)에서 8번째 내지 11번째 문자의 위치를 나타내고, 제 2 위치는 중문자열(Str)에서 4번째 내지 5번째 문자의 위치를 나타낸다.

이 실시예에서, 문장-분할 모듈(120)은 중문자열을 스킵핑 바이-그램 방식(skipping bi-gram manner)으로 복수의 제 1 서브그룹들로 세분하고, 여기서 각각의 제 1 서브그룹들은 중문자열(Str) 중에서 임의의 2개의 연속 및 불연속 문자들로 구성된다. 제 1 서브그룹 각각이 중문자열(Str) 중에서 연속하는 임의의 2개 의 문자들로 구성되는 경우에, 제 1 서브그룹들은 다음과 같은 문자들의 세트: 12, 23, 34 등에 의해 표현될 수 있다. 여기서 "12"는 중문자열(Str) 중에서 1번째 및 2번째 문자들로 구성된 제 1 서브그룹이다. 유사하게, "23"은 중문자열(Str) 중에서 2번째 및 3번째 문자들로 구성된 제 1 서브그룹이다. 한편, 각각의 제 1 서브그룹이 중문자열(Str) 중에서 임의의 2개의 불연속 문자들로 구성되는 경우, 제 1 서브그룹들은 다음과 같은 문자들의 세트들, 즉 13, 35, 57 등 및 24, 46, 68 등으로 표현될 수 있다. 여기서 "13"은 중문자열(Str) 중에서 1번째 및 3번째 문자들로 구성되는 제 1 서브그룹이다. 유사하게, "35"는 중문자열(Str) 중에서 3번째 및 5번째 문자들로 구성되는 제 1 서브그룹이다. 이것은 스킵된 하나의 문자가 있다는 것을 의미한다(이것은 스킵핑 바이-그램 방식(skipping bi-gram manner)이라 불리는 것이다). 게다가, 각각의 제 1 서브그룹이 중문자열(Str) 중에서 임의의 2개의 불연속 문자들로 구성되는 경우, 제 1 서브그룹은 또한 다음과 같은 문자들의 세트들, 즉 14, 47 등 및 25, 58 등, 및 36, 69 등으로 표현될 수 있다. 여기서 "14"는 중문자열(Str) 중에서 1번째 및 4번째 문자들로 구성되는 제 1 서브그룹이다. 유사하게, "47"은 중문자열(Str) 중에서 4번째 및 7번째로 구성되는 제 1 서브그룹이다. 이것은 제 1 서브그룹을 형성하는 2개의 문자들을 선택하는 동안 스킵되는 2개의 문자들이 있다는 것을 의미한다.

상기 설명의 결론으로, 중문자열(Str)

은 다음과 같이 제 1 서브그룹으로서 세분될 수 있다:

여기서 N은 제 1 서브그룹을 형성하는 2개의 문자들을 선택할 때 스킵된 문자들의 수를 나타낸다. N이 0이라는 것은 중문자열(Str) 중에서 2개의 문자들을 선택할 때 이들 선택된 2개의 문자들 사이에 스킵되는 문자가 없다는 것을 나타낸다. 유사하게, N이 1이라는 것은 중문자열(Str)에서 2개의 문자들을 선택할 때 이들 선택된 2개의 문자들 사이에 하나의 스킵되는 문자가 있다는 것을 나타낸다.

단계 S110의 분할 과정이 행해진 후, 후속과정인 단계 S120은 정확한 언어 데이터베이스(130) 및 오류 언어 데이터베이스(140)를 제공하기 위한 것이다. 단계 S120에서는 정확한 언어 데이터베이스(130) 및 오류 언어 데이터베이스(140)에 저장된 데이터를 포함하는 하나의 데이터베이스만을 제공할 수도 있다는 것에 유의하여야 한다. 그러므로, 2개의 데이터베이스(130, 140)는 제한하지 않은 예로서만 사용된다.

상기한 바와 같이, 정확한 언어 데이터베이스(130)는 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함한다. 제 1 서브그룹들과 유사하게, 제 1 정확한 인덱스들은 전술한 바이-그램 메카니즘을 이용하여 제 1 정확한 문자열들을 세분함으로써 얻어진다. 예를 들면, 정확한 언어 데이터베이스(130)가 숙어

및 적절한 명사 "乙太網路"와 같은 2개의 제 1 정확한 문자열들을 포함하고, 정확한 언어 데이터베이스(130)에 저장된 데이터는 다음과 같이 표시될 수 있는 것으로 가정한다:

단계 S130에서, 후보 용어 생성 모듈(150)은 제 1 서브그룹들에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득한다. 더욱 상세하게는, 후보 용어 생성 모듈(150)은 표 1에 나타낸 임의의 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 검색한다. 매치가 있으면, 후보 용어 생성 모듈(150)은 적절한 제 1 정확한 인덱스를 획득하고, 획득한 제 1 정확한 인덱스에 따라 적절한 제 1 정확한 문자열을 또한 획득한다. 예를 들면, 후보 용어 생성 모듈(150)은 먼저 "也因"(표 1 참조)의 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 검색한다. 표 2에는 이와 같은 매치가 없기 때문에, 후보 용어 생성 모듈(150)은 "因此"의 다음 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 검속 검색한다. 유사하게, 표 2에 이와 같은 매치가 없기 때문에, 후보 용어 생성 모듈(150)은

의 다음 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 계속 검색한다. 검색 동작은 표 1 제 1 서브그룹들 모두가 검색될 때까지 반복된다. 한편,

의 제 1 서브그룹을 검색할 때, 후보 용어 생성 모듈(150)이 표 2에서

의 제 1 정확한 인덱스를 발견하여, 후보 용어 생성 모듈(150)이 제 1 정확한 인덱스(

)를 획득할 수 있다. 그 후, 후보 용어 생성 모듈(150)은 또한 대응하는 제 1 정확한 문자열, 즉

를 획득한다. 유사하게, "酸苦"의 제 1 서브그룹을 검색할 때, 후보 용어 생성 모듈(150)도 표 2에서 "酸苦"의 제 1 정확한 인덱스를 발견하고, 따라서

의 제 1 정확한 문자열을 또한 획득한다.

제 1 정확한 문자열

이 획득된 후, 다음 과정인 단계 S140은 제 1 오류 문자열과 획득된 제 1 정확한 문자열 사이의 문자 유사성에 따라 획득한 제 1 정확한 문자열을 필터링하고, 이후 필터링된 제 1 정확한 문자열을 제 1 후보 용어로서 설정하기 위한 것이다. 문자들의 유사성은 획득한 제 1 정확한 문자열 중 얼마나 많은 문자들이 중문자열(Str)에 나타나는 가에 의존한다. 유사성값은 미리 정해진 임계값(대표적인 경험적 임계값)보다 높아야 하며 그 결과 특정 신뢰 지수(confidence index)가 보장된다. 상기 예에서는, 중문자열(Str)

에 나타나는, 획득한 4개의 문자 즉 제 1 정확한 문자열

중 3개의 문자들

이 있고 여기서 문자

만이 나타나지 않는다. 그러므로, 유사성값은 75%인 것으로 결정된다(4개중 3개의 문자들). 미리 정해진 임계값이 60%(비제한)이면, 획득한 제 1 정확한 문자열은 그 유사성값이 미리 정해진 임계값보다 높으므로 필터링된다. 이후, 필터링된 제 1 정확한 문자열

은 제 1 후보 용어로서 또한 설정되고, 여기서 제 1 후보 용어는 도 3에 도시된 제 1 위치의 제 1 오류 문자열에 대응한다. 제 1 후보 용어는 또한 최선의 후보 문장을 생성하기 위해 사용되고, 이에 대해서는 본원 명세서에서 나중에 상세히 설명된다.

상기한 것은 제 1 오류 문자열

의 처리이고, 다음에는 제 2 오류 문자열

의 처리가 기술될 것이다.

상기한 바와 같이, 오류 언어 데이터베이스(140)는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 포함한다. 이 경우에, 일 예로서 오류 언어 데이터베이스(140)에 저장된 5개의 제 2 오류 인덱스들 및 2개의 제 2 정확한 문자열들이 있고, 오류 언어 데이터베이스(140) 내의 데이터 포맷이 다음과 같이 표시될 수 있다고 가정한다:

여기서 5개의 제 2 오류 인덱스들은 사용자들이 종종 잘못 사용하는 잘못된 어구이고, 2개의 제 2 정확한 문자열들은 이들의 대응하는 정확한 어구이다. 예를 들면, 표 3에서, 제 2 정확한 문자열

는 사용자가 종종 잘못 사용하는 틀린 어구 "棕子" 및 "綜子"에 대한 정확한 어구이다. 혼동은 정확한 어구

와 틀린 어구 "棕子" 또는 "綜子" 사이의 문자-유사성에 의해 생긴다(모두 문자의 일부로서 "宗"을 부분적으로 포함함). 유사하게, 사용자들은 종종

을

(문자 유사성으로 인해) 또는 "

"(동일하게 발음되는 "遍"과 "片"의 발음 유사성으로 인해)으로 종종 잘못 기재할 수 있다. 이것을 고려하여, 본 발명은 종종 잘못 사용된 어구

및

을 오류 언어 데이터베이스(140)에 제 2 오류 인덱스들로서 미리 저장하고, 또한 이들의 대응하는 정확한 어구

를 오류 언어 데이터베이스(140)에 미리 저장한다.

오류 언어 데이터베이스(140) 데이터 포맷의 설명 후, 상기 다음 과정은 단계 S150으로 이행한다.

단계 S150에서, 후보 용어 생성 모듈(150)은 제 2 오류 인덱스들에 따라 제 2 후보 용어를 생성한다. 그 과정에 있어서, 후보 용어 생성 모듈(150)은 제 2 오류 문자열이 제 2 오류 인덱스들 중 어느 하나와 동일한지의 여부를 판정한다. 동일하다면, 후보 용어 생성 모듈(150)은 먼저 제 2 오류 문자열과 동일한 제 2 오류 인덱스를 획득하고, 이 후 획득한 제 2 오류 인덱스에 따라 제 2 정확한 문자열들 중 하나를 획득하고, 끝으로 획득한 제 2 정확한 문자열을 제 2 후보 용어로서 설정한다. 더욱 상세하게는, 상기 예에 의해, 후보 용어 생성 모듈(150)은 먼저 제 1 서브그룹 "也因"이 표 3에 나타낸 제 2 오류 인덱스들 중 어느 하나와 동일한지의 여부를 판정한다. 표 3에는 이와 같은 매치가 없기 때문이, 후보 용어 생성 모듈(150)은 다음의 제 1 서브그룹 "因此"로 이동하여 다음의 제 1 서브그룹 "因此"와 동일한 임의의 제 2 오류 인덱스가 있는지의 여부를 결정한다. 유사하게, 또한 이와 같은 매치가 없기 때문에, 후보 용어 생성 모듈(150)은 모든 제 1 서브그룹들이 끝날 때까지 다음 제 1 서브그룹

을 계속 검색한다. 한편, 제 1 서브그룹

을 검색할 때, 후보 용어 생성 모듈(150)은 표 3에서 제 2 오류 인덱스

을 찾는다. 다음에, 후보 용어 생성 모듈(150)은 제 2 오류 인덱스

을 획득하고, 이후 대응하는 제 2 정확한 문자열

을 획득하고, 끝으로 획득한 제 2 정확한 문자열

으로 제 2 후보 용어로서 설정한다. 여기서, 제 2 후보 용어는 도 3에 나타낸 제 2 위치의 제 2 오류 문자열에 대응한다.

제 2 후보 용어의 생성 후, 제 1 및 제 2 후보 용어들이 이용 가능하게 되고, 다음 과정으로서 이들을 단계 S160에서 처리한다.

단계 S160에서, 후보 문장 생성 및 스코어링 모듈(160)은 대응하는 위치들에 따라, 제 1 오류 문자열, 제 2 오류 문자열, 제 1 후보 용어 및 제 2 후보 용어로 중문자열의 제 1 위치 및 제 2 위치를 대체함으로써 모든 가능한 조합들로 복수의 후보 문장들을 생성한다. 이후, 후보 문장 생성 및 스코어링 모듈(160)은 후보 문장 스코어링 메카니즘에 따라 후보 문장들을 스코어링하고, 최고로 스코어링된 후보 문장을 최선의 후보 문장으로서 설정한다.

도 4는 중문자열(Str)을 위한 모든 가능한 후보 문장 조합들을 나타낸다. 도 4에 나타낸 것과 같이, 후보 문장 생성 및 스코어링 모듈(160)은 제 1 오류 문자열, 제 2 오류 문자열, 제 1 후보 용어 및 제 2 후보 용어를 이용하여 다음과 같은 4개의 후보 문장들을 생성한다:

,

도 5는 본 발명에 따른 실시예의 후보 문장 스코어링 메카니즘을 나타낸 도면이다. 상기 생성된 4개의 후보 문장들로, 후보 문장 생성 및 스코어링 모듈(160)은 다음과 같은 요소들에 따라 후보 문장들을 스코어링한다: (1) 후보 문장들의 퍼플렉시티(PerPLexity)(이하 줄여서 PPL이라 함), (2) 중문자열(Str)(즉, 원래의 문장)과 후보 문장들간의 문장 유사성(이하 줄여서 SS라 함), (3) 중문자열(Str)과 후보 문장들 사이의 발음 유사성(이하 줄여서 PS라 함), 및 (4) 중문자열(Str)과 후보 문장들 사이의 문자 유사성(CS). 여기서, PPL은 예를 들면 의학, 천문학 또는 과학 등과 같은 특정 지식 분야에 대한 언어 모델을 나타낸다. PPL로, 후보 문장 생성 및 스코어링 모듈(160)은 사용자들에 의해 지정된 적어도 특정 지식 분야에 따라 각각의 후보 문장을 스코어링할 수 있다. 예를 들면, 중문 문장이 천문 분야와 관계가 있으면, 이 때 PPL은 각각의 후보 문장이 천문 어구에 기초하여 스코어링되도록 천문 언어 모델로 설정될 수 있다. 한편, 원래의 문장과 후보 문장들 사이의 문장 유사성은 (A-B)/C로서 정의된다. 여기서, A는 후보 문장들의 문자의 수를 나타내고, B는 후보 문장들과 원래의 문장 간의 상이한 문자들의 수를 나타내고, C는 원래의 문장의 문자의 수를 나타낸다. 또한, 원래의 문장과 후보 문장들 사이의 발음 유사성은 (A-B)/C로서 정의된다. 여기서, A는 후보 문장들의 문자의 수를 나타내고, B는 후보 문장들과 원래의 문장 사이에 상이한 발음들을 갖는 문자들의 수를 나타내고, C는 원래의 문장의 문자의 수를 나타낸다. 게다가, 원래의 문장과 각각의 후보 문장 사이의 문자 유사성은 (A-B)/C로서 정의된다. 여기서, A는 후보 문장들의 문자의 수를 나타내고, B는 후보 문장들과 원래의 문장 사이에 유사하지 않은 모양들(dissimilar appearances)을 갖는 문자들의 수를 나타내고, C는 원래의 문장의 문자의 수를 나타낸다. 상기 설명의 결론으로, 각각의 후보 문장은 상기 4개의 요소들에 따라 스코어가 개별적으로 주어지고, 스코어링을 위한 식은 다음과 같이 표현된다:

SCORE = w1*PPL + w2*SS + w3*PS + w4*CS

여기서, w1은 PPL에 대한 가중치를, w2는 SS에 대한 가중치를, w3는 PS에 대한 가중치를, w4는 WS에 대한 가중치를 나타낸다. w1, w2, w3 및 w4는 요구조건들에 기초하여 사용자들에 의해 지정된다. 또한, 후보 문장들에 대한 PPL은 하나 이상의 언어 모델들(지식 분야)을 포함할 수 있으므로 PPL은 다음 식으로 계산될 수 있다:

PPL = (1 - α)*PPL₁ + α*PPL₂

여기서 PPL₁은 제 1 언어 모델이고, PPL₂은 제 2 언어 모델이고, α는 사용자들에 의해 선택된다.

상기 식으로, 실험으로 주어진 패러미터들은 다음과 같다:

α= 0.6, w1 = -0.0001, w2 = 1, w3 = 1, w4 =1

결과로서, 도 4의 문장

가 최고의 스코어를 얻으므로, 그것은 후보 문장 생성 및 스코어링 모듈(160)에 의해 최선의 후보 문장으로서 설정된다.

끝으로, 단계 S170에서, 문장-리마킹 모듈(200)은 디스플레이 디바이스(210) 상에 최선의 후보 문장과 원래의 문장 사이의 변경을 리마크한다.

상기한 것은 본 발명의 상세한 설명이고, 상기한 플로우 차트는 본 발명의 범위를 벗어나지 않고 변할 수 있다는 점이 주목된다. 예를 들면, 제 1 후보 용어는 제 2 후보 용어의 생성 이전에 생성되어야 할 필요가 없다. 그러므로, 제 1 후보 용어는 제 2 후보 용어의 생성 후 또는 제 2 후보 용어와 동시에 생성될 수 있다.

더욱이, 상기 실시예에서, 제 2 오류 문자열은 단지 2개의 문자들

만을 포함한다. 그러나, 그것은 더 많은 문자들을 포함할 수 있다. 예를 들면, 제 2 오류 문자열은

일 수 있다. 이 경우에, 문자열 "想用"은 그것이 옳은 사용일지라도, 생각을 표현하는 잘못된 방식일 수 있다. 이것은 문자열 "想用"이 통상 함께 존재하지 않는 다른 문자열

과 함께 문자열에 나타나기 때문이다. 실수를 일으키는 것은 "亨"과 "想" 사이에 발음 유사성이므로, 동일한 발음을 가진 잘못된 문자를 사용하기 쉽게 한다. 이러한 문제에 대한 해결방법이 다음 실시예에 제공될 것이다.

이 실시예에서, 상기 표 3에 새로운 요소가 추가된 표 4가 다음에 나타난다.

표 4는 오류 언어 데이터베이스(140)의 데이터 포맷을 나타내고, 여기서 제 1 및 제 2 줄들은 표 3에 나타낸 것과 같은 원래의 내용들이고, 제 3 및 제 4 줄들은 이 실시예에서 새로 추가된 내용들이다. 이와 관련하여, 오류 언어 데이터베이스(140)는 또한 제 3 및 제 4 줄들에 나타낸 것과 같이, 대응하는 복수의 문맥들을 포함한다. 그러나, 이 기술분야에서 숙련된 사람은 상기 표는 단지 일 예라는 것을 이해해야 하고, 본 발명을 제한하는 것으로 간주하지 않아야 한다.

상기 표 3에서, 제 2 오류 문자열이

(또는 "綜子")인 상태에서, 대응하는 문자열

(또는

)은 이들 자신이 잘못된 어구들이므로 즉시 발견될 수 있다. 그렇지만, 제 2 오류 문자열이 "佳佳" 또는 "想用"인 상태에서, 대응하는 정확한 문자열이 본래부터 발견될 수는 없다. 이것은 이들 자신이 잘못된 어구들이 아니지만, 이들은 단지 이들과 함께 나타나는 특정 문자열들로 인한 잘못된 어구들이기 때문이다. 그러므로, 이들 특정 문자열들은 이 실시예에서 문맥들(표 4에 제 3 칸에 나타낸)으로서 정의되고, 오류 언어 데이터베이스(140)에 저장된다. 다음은 더 상세한 설명을 제공하는 것을 목적으로 한다.

중문자열

에 의해, 중문자열은 오류 문자열 "想用"을 가진다. 먼저, 중문자열은 또한 바이-그램 방식으로 복수의 문자 서브그룹들로 세분된다. 상기 과정은 표 1의 과정과 유사하므로, 그것은 간략히 하기 위해 여기서는 다시 기술하지 않는다. 다음 과정에서, 후보 용어 생성 모듈(150)은 문자 서브그룹 "想用"이 표 4에 나타낸 제 2 오류 인덱스들 중 어느 하나와 동일한지의 여부를 결정한다. 표 4에 매치가 있기 때문에, 후보 용어 생성 모듈(150)은 제 2 오류 문자열과 동일한 제 2 오류 인덱스 "想用"을 획득하고, 획득한 제 2 오류 인덱스에 대응하는 문맥

을 획득하고, 끝으로 중문자열이 획득한 문맥

을 포함하는지의 여부를 결정한다. 중문자열이 획득한 문맥

을 포함하면, 그것은 "想用"이 정말로 잘못된 어구라는 것을 의미한다. 중문자열이 획득한 문맥

을 포함하지 않으면, 그것은 "想用"이 정확한 어구라는 것을 의미하고, 그것에 의해 모든 문자 서브그룹들이 끝날 때까지 다음의 문자 서브그룹 "用著"을 처리한다. 이 경우에, 중문자열이

을 포함하기 때문에, 후보 용어 생성 모듈(150)은 획득한 문맥

에 대응하는 제 2 정확한 문자열 "享用"을 획득하고, 획득한 제 2 정확한 문자열 "享用"을 제 2 후보 용어로서 획득한다.

이 실시예에서, 중문자열(

)에 나타나는 단지 하나의 오류 문자열(想用)이 있기 때문에 단지 하나의 후보 용어가 있다. 즉, 제 2 후보 용어는 단지 후보 용어이다. 게다가, 이 기술분야에서 숙련된 사람은 중문자열에 나타나는 N개의 오류 문자열들이 있다면 발생되는 N개의 후보 용어들이 있을 수 있고, 이들 N개의 오류 문자열들은 모든 가능한 조합들을 갖는 2^N 후보 문장들(원래의 문장을 포함)의 생성으로 이어질 것이라는 것을 이해해야 한다.

게다가, 중문 문장들을 위한 오류-검출 방법은 광 디스크, 플로피 디스크 및 휴대형 하드 드라이브 등과 같은, 상기 과정들을 수행하기 위한 저장 매체에 프로그램으로서 기록될 수 있다. 오류-검출 방법의 프로그램은 상기한 과정들에 대응하는 복수의 프로그램 코드들에 의해 형성된다는 것이 강조된다.

이상 본 발명이 예로서 그리고 최선의 실시예들로 설명되었지만, 본 발명은 개시된 실시예들로 한정되지 않음을 이해해야 한다. 반대로, 다양한 변형예들 및 유사한 구성들을 포함하도록 의도된다(이 기술분야에서 숙련된 사람에게 명백한 바와 같이). 그러므로, 첨부된 청구항들의 범위는 모든 이와 같은 변형예들 및 유사한 구성들을 포함하도록 가장 넓게 해석되어야 한다.

도 1은 본 발명에 따른 중문 문장 오류 검출 장치(100)의 실시예를 나타낸 도면;

도 2는 본 발명에 따른 중문 문장 오류 검출 장치(100)의 실시예의 플로차트.

도 3은 본 발명에 따른 중문 문장(Art)의 구조.

도 4는 중문자열(Str)을 위한 모든 가능한 후보 문장 조합들을 나타낸 도면.

도 5는 본 발명에 따른 실시예의 후보 문장 스코어링 메카니즘을 나타낸 도면.

*도면의 주요 부분에 대한 부호의 설명

110 문장 수신 모듈 120 문장 분할 모듈

130 정확한 언어 데이터베이스 140 오류 언어 데이터베이스

150 후보 용어 생성 모듈 160 후보 문장 생성 및 스코어링 모듈

170 문자 유사성 데이터베이스 180 발음 유사성 데이터베이스

190 언어 모델 데이터베이스 200 문장 리마킹 모듈

210 디스플레이 디바이스

Claims

제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는데 적용 가능한 중문 문장(Chinese article) 오류 검출 방법에 있어서,

상기 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계로서, 각각의 상기 제 1 서브그룹들은 상기 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 세분하는 단계;

복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스를 제공하는 단계로서, 상기 제 1 정확한 인덱스들은 상기 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 데이터베이스를 제공하는 단계;

상기 제 1 서브그룹들에 따라 상기 제 1 정확한 인덱스들 중 하나를 획득하고, 상기 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득하는 단계;

상기 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계; 및

디스플레이 디바이스 상에 상기 중문자열 및 상기 최선의 후보 문장을 표시하는 단계를 포함하는, 중문 문장 오류 검출 방법.
제 1 항에 있어서,

상기 최선의 후보 문장은 상기 중문자열의 상기 제 1 오류 문자열을 상기 획득한 제 1 정확한 문자열로 대체함으로써 생성되는, 중문 문장 오류 검출 방법.
제 1 항에 있어서,

상기 중문자열은 제 2 위치에 제 2 오류 문자열을 더 포함하는, 중문 문장 오류 검출 방법.
제 3 항에 있어서,

상기 데이터베이스는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 더 포함하는, 중문 문장 오류 검출 방법.
제 4 항에 있어서,

상기 획득한 제 1 정확한 문자열을 제 1 후보 용어로서 설정하는 단계; 및

상기 제 2 오류 인덱스들에 따라 제 2 후보 용어를 생성하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
제 5 항에 있어서,

상기 제 2 오류 문자열이 상기 제 2 오류 인덱스들 중 하나와 동일한지 여부를 판정하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
제 6 항에 있어서,

상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 제 2 정확한 문자열들 중 하나를 획득하는 단계; 및

상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
제 7 항에 있어서,

상기 중문자열의 상기 제 1 위치 및 상기 제 2 위치를, 상기 제 1 오류 문자열, 상기 제 2 오류 문자열, 상기 제 1 후보 용어 및 상기 제 2 후보 용어로 대체함으로써 복수의 후보 문장들을 생성하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
제 8 항에 있어서,

후보 문장 스코어링 메카니즘에 따라 상기 후보 문장들을 스코어링함으로써 상기 최선의 후보 문장을 생성하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
제 9 항에 있어서,

상기 후보 문장 스코어링 메카니즘은 하기 4개의 요소들:

적어도 하나의 언어 모델;

상기 중문자열과 상기 후보 문장들 사이의 문장 유사성;

상기 중문자열과 상기 후보 문장들 사이의 발음 유사성; 및

상기 중문자열과 상기 후보 문장들 사이의 문자 유사성

에 따라 상기 후보 문장들을 스코어링하는, 중문 문장 오류 검출 방법.
제 6 항에 있어서,

상기 데이터베이스는 복수의 문맥들(contexts)을 더 포함하는, 중문 문장 오류 검출 방법.
제 11 항에 있어서,

상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 문맥들 중 하나를 획득하는 단계; 및

상기 중문자열이 상기 획득한 문맥을 포함하는지의 여부를 결정하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
제 12 항에 있어서,

상기 중문자열이 상기 획득한 문맥을 포함할 때 상기 제 2 정확한 문자열들 중 하나를 획득하는 단계; 및

상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 단계 를 더 포함하는, 중문 문장 오류 검출 방법.
제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는데 적용할 수 있는 중문 문장 오류 검출 장치에 있어서,

상기 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 문장 분할 모듈로서, 각각의 상기 제 1 서브그룹들은 상기 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 문장 분할 모듈;

복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스로서, 상기 제 1 정확한 인덱스들은 상기 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 데이터베이스;

상기 제 1 서브그룹들에 따라 상기 제 1 정확한 인덱스들 중 하나를 획득하고, 상기 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득하는 후보 용어 생성 모듈;

상기 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 후보 문장 생성 및 스코어링 모듈; 및

상기 중문자열 및 상기 최선의 후보 문장을 표시하는 디스플레이 디바이스를 포함하는, 중문 문장 오류 검출 장치.
제 14 항에 있어서,

상기 최선의 후보 문장은 상기 중문자열의 상기 제 1 오류 문자열을 상기 획 득한 제 1 정확한 문자열로 대체함으로써 생성되는, 중문 문장 오류 검출 장치.
제 14 항에 있어서,

상기 중문자열은 제 2 위치에 제 2 오류 문자열을 더 포함하는, 중문 문장 오류 검출 장치.
제 16 항에 있어서,

상기 데이터베이스는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 더 포함하는, 중문 문장 오류 검출 장치.
제 17 항에 있어서,

상기 후보 용어 생성 모듈은 또한 상기 획득한 제 1 정확한 문자열을 제 1 후보 용어로서 설정하고 상기 제 2 오류 인덱스들에 따라 제 2 후보 용어를 생성하는, 중문 문장 오류 검출 장치.
제 18 항에 있어서,

상기 후보 용어 생성 모듈은 또한 상기 제 2 오류 문자열이 상기 제 2 오류 인덱스들 중 어느 하나와 동일한지 여부를 판정하는, 중문 문장 오류 검출 장치.
제 19 항에 있어서,

상기 후보 용어 생성 모듈은 또한 하기 과정들:

상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 제 2 정확한 문자열들 중 하나를 획득하는 과정; 및

상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 과정

을 수행하는, 중문 문장 오류 검출 장치.
제 20 항에 있어서,

상기 후보 문장 생성 및 스코어링 모듈은 또한 상기 중문자열의 상기 제 1 위치 및 상기 제 2 위치를 상기 제 1 오류 문자열, 상기 제 2 오류 문자열, 상기 제 1 후보 용어 및 상기 제 2 후보 용어로 대체함으로써 복수의 후보 문장들을 생성하는, 중문 문장 오류 검출 장치.
제 21 항에 있어서,

상기 후보 문장 생성 및 스코어링 모듈은 또한 후보 문장 스코어링 메카니즘에 따라 상기 후보 문장들을 스코어링함으로써 상기 최선의 후보 문장을 생성하는, 중문 문장 오류 검출 장치.
제 22 항에 있어서,

상기 후보 문장 스코어링 메카니즘은 하기 4개의 요소들:

적어도 하나의 언어 모델;

상기 중문자열과 상기 후보 문장들 사이의 문장 유사성;

상기 중문자열과 상기 후보 문장들 사이의 발음 유사성; 및

상기 중문자열과 상기 후보 문장들 사이의 문자 유사성

에 따라 상기 후보 문장들을 스코어링하는, 중문 문장 오류 검출 장치.
제 19 항에 있어서,

상기 데이터베이스는 복수의 문맥들을 더 포함하는, 중문 문장 오류 검출 장치.
제 24 항에 있어서,

상기 후보 용어 생성 모듈은 또한 하기 과정들:

상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 문맥들 중 하나를 획득하는 과정; 및

상기 중문자열이 상기 획득한 문맥을 포함하는지의 여부를 결정하는 과정

을 수행하는, 중문 문장 오류 검출 장치.
제 25 항에 있어서,

상기 후보 용어 생성 모듈은 또한 하기 과정들:

상기 중문자열이 상기 획득한 문맥을 포함할 때 상기 제 2 정확한 문자열들 중 하나를 획득하는 과정; 및

상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 과정

을 수행하는, 중문 문장 오류 검출 장치.
중문 문장 오류 검출 프로그램을 저장하기 위한 저장 매체로서, 상기 오류 검출 프로그램은 중문 문장 오류 검출 방법이 컴퓨터 시스템에 의해 실행되도록 상기 컴퓨터 시스템에 로딩될 복수의 프로그램 코드들을 포함하고, 상기 오류 검출 방법은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는데 적용 가능한, 상기 저장 매체에 있어서,

상기 오류 검출 방법은,

상기 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계로서, 각각의 상기 제 1 서브그룹들은 상기 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 세분하는 단계;

복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 저장하는 단계로서, 상기 제 1 정확한 인덱스들은 상기 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 저장하는 단계;

상기 제 1 서브그룹들에 따라 상기 제 1 정확한 인덱스들 중 하나를 획득하고, 상기 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득하는 단계;

상기 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계; 및

상기 중문자열 및 상기 최선의 후보 문장을 표시하는 단계를 포함하는, 저장 매체.