KR101049525B1 - 중문 문장 오류 검출 장치 및 방법 - Google Patents

중문 문장 오류 검출 장치 및 방법 Download PDF

Info

Publication number
KR101049525B1
KR101049525B1 KR1020080124261A KR20080124261A KR101049525B1 KR 101049525 B1 KR101049525 B1 KR 101049525B1 KR 1020080124261 A KR1020080124261 A KR 1020080124261A KR 20080124261 A KR20080124261 A KR 20080124261A KR 101049525 B1 KR101049525 B1 KR 101049525B1
Authority
KR
South Korea
Prior art keywords
string
error
correct
candidate
sentence
Prior art date
Application number
KR1020080124261A
Other languages
English (en)
Other versions
KR20100030547A (ko
Inventor
춘 쿠
시흐-헝 우
웬-난 왕
웬-타이 셰
타-헝 헝
Original Assignee
인스티튜트 포 인포메이션 인더스트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인스티튜트 포 인포메이션 인더스트리 filed Critical 인스티튜트 포 인포메이션 인더스트리
Publication of KR20100030547A publication Critical patent/KR20100030547A/ko
Application granted granted Critical
Publication of KR101049525B1 publication Critical patent/KR101049525B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는, 중문 문장 오류 검출 방법을 개시한다. 이 방법은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계를 포함하고, 여기서 각각의 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스를 제공하는 단계를 구비하고, 여기서 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 제 1 서브그룹에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득하는 단계를 포함한다. 이 방법은 또한 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계 및 디스플레이 디바이스 상에 중문자열 및 최선의 후보 문장을 표시하는 단계를 구비한다.
Figure R1020080124261
제 1 오류 문자열, 중문자열, 중문 문장, 제 1 서브그룹, 제 1 정확한 인덱스, 후보 문장

Description

중문 문장 오류 검출 장치 및 방법{Error-detecting apparatus and methods for a chinese article}
관련 출원의 상호 참조
이 출원은 2008년 9월 9일자로 출원된 대만 특허 출원 제 097134531의 우선권을 주장하며, 그 전체 내용이 여기서 참조로서 포함된다.
발명의 분야
본 발명은 일반적으로 중문 문장(Chinese article) 오류 검출 장치에 관한 것으로, 특히 바이-그램(bi-gram) 메카니즘을 도입한 오류 검출 장치에 관한 것이다.
컴퓨터 사용의 증가에 비추어, 점점 더 많은 사람이 중문 문장들을 기록하기 위해 수기(handwriting) 대신에 컴퓨터들을 사용한다. 그러나, 중국어의 특징으로 인해, 동일 발음 또는 유사한 모양을 갖는 많은 문자들이 있다. 이것은 중국어를 어렵하게 하여, 사용자들은 올바른 문자와 단지 유사하게 보이는(또는 동일하게 발음되는) 잘못된 문자를 이용하기 쉽다.
전술한 문제들의 견지에서, 본 발명의 목적은 중문 문장 오류 검출 장치 및 방법을 제공하기 위한 것이다. 상기 장치 및 방법으로, 종래 기술이 직면했던 문제들이 해결될 수 있다.
본 발명은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는 데 적용 가능한, 중문 문장 오류 검출 방법을 개시한다. 이 방법은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계를 포함하고, 여기서 각각의 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스를 제공하는 단계를 구비하고, 여기서 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 방법은 또한 제 1 서브그룹에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득하는 단계를 포함한다. 이 방법은 또한 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계 및 디스플레이 디바이스 상에 중문자열 및 최선의 후보 문장을 표시하는 단계를 포함한다.
더욱이, 본 발명은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는 데 적용할 수 있는, 중문 문장 오류 검출 장치를 개시한다. 이 장치는 문장 분할 모듈, 데이터베이스, 후보 용어 생성 모듈, 후보 문장 생성 및 스코어링 모듈 및 디스플레이 디바이스를 포함한다. 문장 분할 모듈은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하고, 여기서 각각의 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 데이터베이스는 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하며, 여기서 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 후보 용어 생성 모듈은 제 1 서브그룹들에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득한다. 후보 문장 생성 및 스코어링 모듈은 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하고, 디스플레이 디바이스는 중문자열 및 최선의 후보 문장을 보인다.
더욱이, 본 발명은 중문 문장 오류 검출 프로그램을 저장하기 위한 저장 매체를 개시한다. 오류 검출 프로그램은 중문 문장 오류 검출 방법이 컴퓨터 시스템에 의해 실행되도록 컴퓨터 시스템에 로딩될 복수의 프로그램 코드들을 포함한다. 이 오류 검출 방법은 제 1 위치에 제1 오류 문자열을 포함하는 중문자열을 취급하는 데 적용 가능하다. 이 오류 검출 방법은 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계를 포함하고, 여기서, 각각의 상기 제 1 서브그룹들은 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 오류 검출 방법은 또한 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 저장하는 단계를 포함하고, 여기서, 제 1 정확한 인덱스들은 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성된다. 이 오류 검출 방법은 또한 제 1 서브그룹들에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득하는 단계를 포함한다. 이 오류 검출 방법은 또한 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계, 및 중문자열 및 최선의 후보 문장을 표시하는 단계를 포함한다.
본 발명은 첨부 도면들을 참조하여 만들어진 다음의 상세한 설명 및 예들을 읽음으로써 더 완전하게 이해될 수 있다.
다음의 설명은 본 발명을 실행하는 최선의 의도된 형태이다. 이 설명은 본 발명의 일반 원리를 설명하기 위해 만들어진 것이고 본 발명을 제한하고자 하는 것은 아니다. 본 발명의 범위는 첨부 청구항들을 참조하여 가장 잘 결정된다.
도 1은 본 발명에 따른 중문 문장(Chinese article) 오류 검출 장치(100)의 실시예를 나타낸 도면이다. 오류 검출 장치(100)는 문장-수신 모듈(110), 문장-분할 모듈(120), 정확한 언어 데이터베이스(130), 오류 언어 데이터베이스(140), 후보 용어 생성 모듈(150), 후보 문장 생성 및 스코어링 모듈(160), 문자-유사성 데이터베이스(170), 발음-유사성 데이터베이스(180), 언어 모델 데이터베이스(190), 문장-리마킹 모듈(200) 및 디스플레이 디바이스(210)를 포함한다.
문장-수신 모듈(110)은 중문 문장(Art)를 수신하고 추가의 분할 과정을 위해 문장-분할 모듈(120)에 중문 문장(Art)를 전송한다. 정확한 언어 데이터베이스(130)는 예를 들어, 숙어들, 속어들, 방언들, 적절한 명사들 및 운문과 같은 정확한 어구를 미리 저장하기 위해 사용되고, 복수의 제 1 정확한 문자열 및 대응하 는 복수의 제 1 정확한 인덱스들을 포함한다. 오류 언어 데이터베이스(140)는 사용자들이 종종 잘못 사용하는 틀린 어구 및 이들의 대응하는 정확한 어구를 미리 저장하기 위해 사용된다. 유사하게, 오류 언어 데이터베이스(140)는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 포함한다. 후보 용어 생성 모듈(150)은 적절한 제 1 및 제 2 정확한 문자열들을 획득하고 획득한 제 1 및 제 2 정확한 문자열들을 제 1 및 제 2 후보 용어들로 각각 설정한다. 후보 문장 생성 및 스코어링 모듈(160)은 제 1 및 제 2 후보 용어들에 따라 복수의 후보 문장들을 생성하기 위해 사용된다. 더욱이, 후보 문장 생성 및 스코어링 모듈(160)은 또한 문자-유사성 데이터베이스(170), 발음-유사성 데이터베이스(180) 및 언어 모델 데이터베이스(190)에 저장된 데이터에 기초하고 후보 문장 스코어링 메카니즘을 이용하여 후보 문장들을 스코어링함으로써 최선의 후보 문장을 생성한다. 끝으로, 문장-리마킹 모듈(200)은 디스플레이 디바이스(210) 상에 중문 문장(Art) 및 최선의 후보 문장을 리마크한다.
상기한 것은 오류 검출 장치(100)의 간단한 소개이고, 그 구성요소의 기능 설명은 이하에 상세히 설명될 것이다.
도 2는 본 발명에 따른 중문 문장 오류 검출 장치(100)의 실시예의 플로우 차트를 나타낸다. 단계 S100에서, 문장-수신 모듈(110)은 중문 문장(Art)를 수신한다. 단계 S110에서, 문장-분할 모듈(120)은 중문 문장(Art)의 분할 과정을 처리한다. 우선, 문장-분할 모듈(120)은 중문 문장(Art)를 구두점들에 따라 복수의 중문자열들로 세분한다. 예를 들면, 다음과 같이 주어지는 중문 문장(Art)를 고려하라:
Figure 112008084507916-pat00001
이 예에서, 문장-분할 모듈(120)은 구두점들(쉼표들 및 마침표들)에 따라, 중문 문장(Art)를 표시하는 3개의 중문자열들로 세분한다:
Figure 112008084507916-pat00002
,
Figure 112008084507916-pat00003
Figure 112008084507916-pat00004
.
분할 과정이 행해진 후, 개개의 중문자열을 위한 분할 과정이 수행된다.
개개의 중문자열의 분할 과정이 실행되기 전에, 미리 명확히 할 필요가 있는 몇 가지 정의들이 있다. 예를 들면, 중문자열(Str)
Figure 112008084507916-pat00005
에 있어서, 중문자열(Str)은 제 1 위치의 제 1 오류 문자열
Figure 112008084507916-pat00006
및 제 2 위치의 제 2 오류 문자열
Figure 112008084507916-pat00007
을 포함한다. 도 3에 도시된 것과 같이, 제 1 위치는 중문자열(Str)에서 8번째 내지 11번째 문자의 위치를 나타내고, 제 2 위치는 중문자열(Str)에서 4번째 내지 5번째 문자의 위치를 나타낸다.
이 실시예에서, 문장-분할 모듈(120)은 중문자열을 스킵핑 바이-그램 방식(skipping bi-gram manner)으로 복수의 제 1 서브그룹들로 세분하고, 여기서 각각의 제 1 서브그룹들은 중문자열(Str) 중에서 임의의 2개의 연속 및 불연속 문자들로 구성된다. 제 1 서브그룹 각각이 중문자열(Str) 중에서 연속하는 임의의 2개 의 문자들로 구성되는 경우에, 제 1 서브그룹들은 다음과 같은 문자들의 세트: 12, 23, 34 등에 의해 표현될 수 있다. 여기서 "12"는 중문자열(Str) 중에서 1번째 및 2번째 문자들로 구성된 제 1 서브그룹이다. 유사하게, "23"은 중문자열(Str) 중에서 2번째 및 3번째 문자들로 구성된 제 1 서브그룹이다. 한편, 각각의 제 1 서브그룹이 중문자열(Str) 중에서 임의의 2개의 불연속 문자들로 구성되는 경우, 제 1 서브그룹들은 다음과 같은 문자들의 세트들, 즉 13, 35, 57 등 및 24, 46, 68 등으로 표현될 수 있다. 여기서 "13"은 중문자열(Str) 중에서 1번째 및 3번째 문자들로 구성되는 제 1 서브그룹이다. 유사하게, "35"는 중문자열(Str) 중에서 3번째 및 5번째 문자들로 구성되는 제 1 서브그룹이다. 이것은 스킵된 하나의 문자가 있다는 것을 의미한다(이것은 스킵핑 바이-그램 방식(skipping bi-gram manner)이라 불리는 것이다). 게다가, 각각의 제 1 서브그룹이 중문자열(Str) 중에서 임의의 2개의 불연속 문자들로 구성되는 경우, 제 1 서브그룹은 또한 다음과 같은 문자들의 세트들, 즉 14, 47 등 및 25, 58 등, 및 36, 69 등으로 표현될 수 있다. 여기서 "14"는 중문자열(Str) 중에서 1번째 및 4번째 문자들로 구성되는 제 1 서브그룹이다. 유사하게, "47"은 중문자열(Str) 중에서 4번째 및 7번째로 구성되는 제 1 서브그룹이다. 이것은 제 1 서브그룹을 형성하는 2개의 문자들을 선택하는 동안 스킵되는 2개의 문자들이 있다는 것을 의미한다.
상기 설명의 결론으로, 중문자열(Str)
Figure 112008084507916-pat00008
은 다음과 같이 제 1 서브그룹으로서 세분될 수 있다:
Figure 112008084507916-pat00009
여기서 N은 제 1 서브그룹을 형성하는 2개의 문자들을 선택할 때 스킵된 문자들의 수를 나타낸다. N이 0이라는 것은 중문자열(Str) 중에서 2개의 문자들을 선택할 때 이들 선택된 2개의 문자들 사이에 스킵되는 문자가 없다는 것을 나타낸다. 유사하게, N이 1이라는 것은 중문자열(Str)에서 2개의 문자들을 선택할 때 이들 선택된 2개의 문자들 사이에 하나의 스킵되는 문자가 있다는 것을 나타낸다.
단계 S110의 분할 과정이 행해진 후, 후속과정인 단계 S120은 정확한 언어 데이터베이스(130) 및 오류 언어 데이터베이스(140)를 제공하기 위한 것이다. 단계 S120에서는 정확한 언어 데이터베이스(130) 및 오류 언어 데이터베이스(140)에 저장된 데이터를 포함하는 하나의 데이터베이스만을 제공할 수도 있다는 것에 유의하여야 한다. 그러므로, 2개의 데이터베이스(130, 140)는 제한하지 않은 예로서만 사용된다.
상기한 바와 같이, 정확한 언어 데이터베이스(130)는 복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함한다. 제 1 서브그룹들과 유사하게, 제 1 정확한 인덱스들은 전술한 바이-그램 메카니즘을 이용하여 제 1 정확한 문자열들을 세분함으로써 얻어진다. 예를 들면, 정확한 언어 데이터베이스(130)가 숙어
Figure 112008084507916-pat00010
및 적절한 명사 "乙太網路"와 같은 2개의 제 1 정확한 문자열들을 포함하고, 정확한 언어 데이터베이스(130)에 저장된 데이터는 다음과 같이 표시될 수 있는 것으로 가정한다:
Figure 112008084507916-pat00011
단계 S130에서, 후보 용어 생성 모듈(150)은 제 1 서브그룹들에 따라 제 1 정확한 인덱스들 중 하나를 획득하고, 획득한 제 1 정확한 인덱스에 따라 제 1 정확한 문자열들 중 하나를 획득한다. 더욱 상세하게는, 후보 용어 생성 모듈(150)은 표 1에 나타낸 임의의 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 검색한다. 매치가 있으면, 후보 용어 생성 모듈(150)은 적절한 제 1 정확한 인덱스를 획득하고, 획득한 제 1 정확한 인덱스에 따라 적절한 제 1 정확한 문자열을 또한 획득한다. 예를 들면, 후보 용어 생성 모듈(150)은 먼저 "也因"(표 1 참조)의 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 검색한다. 표 2에는 이와 같은 매치가 없기 때문에, 후보 용어 생성 모듈(150)은 "因此"의 다음 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 검속 검색한다. 유사하게, 표 2에 이와 같은 매치가 없기 때문에, 후보 용어 생성 모듈(150)은
Figure 112008084507916-pat00012
의 다음 제 1 서브그룹과 동일한 임의의 제 1 정확한 인덱스를 표 2에서 계속 검색한다. 검색 동작은 표 1 제 1 서브그룹들 모두가 검색될 때까지 반복된다. 한편,
Figure 112008084507916-pat00013
의 제 1 서브그룹을 검색할 때, 후보 용어 생성 모듈(150)이 표 2에서
Figure 112008084507916-pat00014
의 제 1 정확한 인덱스를 발견하여, 후보 용어 생성 모듈(150)이 제 1 정확한 인덱스(
Figure 112008084507916-pat00015
)를 획득할 수 있다. 그 후, 후보 용어 생성 모듈(150)은 또한 대응하는 제 1 정확한 문자열, 즉
Figure 112008084507916-pat00016
를 획득한다. 유사하게, "酸苦"의 제 1 서브그룹을 검색할 때, 후보 용어 생성 모듈(150)도 표 2에서 "酸苦"의 제 1 정확한 인덱스를 발견하고, 따라서
Figure 112008084507916-pat00017
의 제 1 정확한 문자열을 또한 획득한다.
제 1 정확한 문자열
Figure 112008084507916-pat00018
이 획득된 후, 다음 과정인 단계 S140은 제 1 오류 문자열과 획득된 제 1 정확한 문자열 사이의 문자 유사성에 따라 획득한 제 1 정확한 문자열을 필터링하고, 이후 필터링된 제 1 정확한 문자열을 제 1 후보 용어로서 설정하기 위한 것이다. 문자들의 유사성은 획득한 제 1 정확한 문자열 중 얼마나 많은 문자들이 중문자열(Str)에 나타나는 가에 의존한다. 유사성값은 미리 정해진 임계값(대표적인 경험적 임계값)보다 높아야 하며 그 결과 특정 신뢰 지수(confidence index)가 보장된다. 상기 예에서는, 중문자열(Str)
Figure 112008084507916-pat00019
에 나타나는, 획득한 4개의 문자 즉 제 1 정확한 문자열
Figure 112008084507916-pat00020
중 3개의 문자들
Figure 112008084507916-pat00021
이 있고 여기서 문자
Figure 112008084507916-pat00022
만이 나타나지 않는다. 그러므로, 유사성값은 75%인 것으로 결정된다(4개중 3개의 문자들). 미리 정해진 임계값이 60%(비제한)이면, 획득한 제 1 정확한 문자열은 그 유사성값이 미리 정해진 임계값보다 높으므로 필터링된다. 이후, 필터링된 제 1 정확한 문자열
Figure 112008084507916-pat00023
은 제 1 후보 용어로서 또한 설정되고, 여기서 제 1 후보 용어는 도 3에 도시된 제 1 위치의 제 1 오류 문자열에 대응한다. 제 1 후보 용어는 또한 최선의 후보 문장을 생성하기 위해 사용되고, 이에 대해서는 본원 명세서에서 나중에 상세히 설명된다.
상기한 것은 제 1 오류 문자열
Figure 112008084507916-pat00024
의 처리이고, 다음에는 제 2 오류 문자열
Figure 112008084507916-pat00025
의 처리가 기술될 것이다.
상기한 바와 같이, 오류 언어 데이터베이스(140)는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 포함한다. 이 경우에, 일 예로서 오류 언어 데이터베이스(140)에 저장된 5개의 제 2 오류 인덱스들 및 2개의 제 2 정확한 문자열들이 있고, 오류 언어 데이터베이스(140) 내의 데이터 포맷이 다음과 같이 표시될 수 있다고 가정한다:
Figure 112008084507916-pat00026
여기서 5개의 제 2 오류 인덱스들은 사용자들이 종종 잘못 사용하는 잘못된 어구이고, 2개의 제 2 정확한 문자열들은 이들의 대응하는 정확한 어구이다. 예를 들면, 표 3에서, 제 2 정확한 문자열
Figure 112008084507916-pat00027
는 사용자가 종종 잘못 사용하는 틀린 어구 "棕子" 및 "綜子"에 대한 정확한 어구이다. 혼동은 정확한 어구
Figure 112008084507916-pat00028
와 틀린 어구 "棕子" 또는 "綜子" 사이의 문자-유사성에 의해 생긴다(모두 문자의 일부로서 "宗"을 부분적으로 포함함). 유사하게, 사용자들은 종종
Figure 112008084507916-pat00029
Figure 112008084507916-pat00030
(문자 유사성으로 인해) 또는 "
Figure 112008084507916-pat00031
"(동일하게 발음되는 "遍"과 "片"의 발음 유사성으로 인해)으로 종종 잘못 기재할 수 있다. 이것을 고려하여, 본 발명은 종종 잘못 사용된 어구
Figure 112008084507916-pat00032
Figure 112008084507916-pat00033
을 오류 언어 데이터베이스(140)에 제 2 오류 인덱스들로서 미리 저장하고, 또한 이들의 대응하는 정확한 어구
Figure 112008084507916-pat00034
를 오류 언어 데이터베이스(140)에 미리 저장한다.
오류 언어 데이터베이스(140) 데이터 포맷의 설명 후, 상기 다음 과정은 단계 S150으로 이행한다.
단계 S150에서, 후보 용어 생성 모듈(150)은 제 2 오류 인덱스들에 따라 제 2 후보 용어를 생성한다. 그 과정에 있어서, 후보 용어 생성 모듈(150)은 제 2 오류 문자열이 제 2 오류 인덱스들 중 어느 하나와 동일한지의 여부를 판정한다. 동일하다면, 후보 용어 생성 모듈(150)은 먼저 제 2 오류 문자열과 동일한 제 2 오류 인덱스를 획득하고, 이 후 획득한 제 2 오류 인덱스에 따라 제 2 정확한 문자열들 중 하나를 획득하고, 끝으로 획득한 제 2 정확한 문자열을 제 2 후보 용어로서 설정한다. 더욱 상세하게는, 상기 예에 의해, 후보 용어 생성 모듈(150)은 먼저 제 1 서브그룹 "也因"이 표 3에 나타낸 제 2 오류 인덱스들 중 어느 하나와 동일한지의 여부를 판정한다. 표 3에는 이와 같은 매치가 없기 때문이, 후보 용어 생성 모듈(150)은 다음의 제 1 서브그룹 "因此"로 이동하여 다음의 제 1 서브그룹 "因此"와 동일한 임의의 제 2 오류 인덱스가 있는지의 여부를 결정한다. 유사하게, 또한 이와 같은 매치가 없기 때문에, 후보 용어 생성 모듈(150)은 모든 제 1 서브그룹들이 끝날 때까지 다음 제 1 서브그룹
Figure 112008084507916-pat00035
을 계속 검색한다. 한편, 제 1 서브그룹
Figure 112008084507916-pat00036
을 검색할 때, 후보 용어 생성 모듈(150)은 표 3에서 제 2 오류 인덱스
Figure 112008084507916-pat00037
을 찾는다. 다음에, 후보 용어 생성 모듈(150)은 제 2 오류 인덱스
Figure 112008084507916-pat00038
을 획득하고, 이후 대응하는 제 2 정확한 문자열
Figure 112008084507916-pat00039
을 획득하고, 끝으로 획득한 제 2 정확한 문자열
Figure 112008084507916-pat00040
으로 제 2 후보 용어로서 설정한다. 여기서, 제 2 후보 용어는 도 3에 나타낸 제 2 위치의 제 2 오류 문자열에 대응한다.
제 2 후보 용어의 생성 후, 제 1 및 제 2 후보 용어들이 이용 가능하게 되고, 다음 과정으로서 이들을 단계 S160에서 처리한다.
단계 S160에서, 후보 문장 생성 및 스코어링 모듈(160)은 대응하는 위치들에 따라, 제 1 오류 문자열, 제 2 오류 문자열, 제 1 후보 용어 및 제 2 후보 용어로 중문자열의 제 1 위치 및 제 2 위치를 대체함으로써 모든 가능한 조합들로 복수의 후보 문장들을 생성한다. 이후, 후보 문장 생성 및 스코어링 모듈(160)은 후보 문장 스코어링 메카니즘에 따라 후보 문장들을 스코어링하고, 최고로 스코어링된 후보 문장을 최선의 후보 문장으로서 설정한다.
도 4는 중문자열(Str)을 위한 모든 가능한 후보 문장 조합들을 나타낸다. 도 4에 나타낸 것과 같이, 후보 문장 생성 및 스코어링 모듈(160)은 제 1 오류 문자열, 제 2 오류 문자열, 제 1 후보 용어 및 제 2 후보 용어를 이용하여 다음과 같은 4개의 후보 문장들을 생성한다:
Figure 112008084507916-pat00041
,
Figure 112008084507916-pat00042
,
Figure 112008084507916-pat00043
,
Figure 112008084507916-pat00044
도 5는 본 발명에 따른 실시예의 후보 문장 스코어링 메카니즘을 나타낸 도면이다. 상기 생성된 4개의 후보 문장들로, 후보 문장 생성 및 스코어링 모듈(160)은 다음과 같은 요소들에 따라 후보 문장들을 스코어링한다: (1) 후보 문장들의 퍼플렉시티(PerPLexity)(이하 줄여서 PPL이라 함), (2) 중문자열(Str)(즉, 원래의 문장)과 후보 문장들간의 문장 유사성(이하 줄여서 SS라 함), (3) 중문자열(Str)과 후보 문장들 사이의 발음 유사성(이하 줄여서 PS라 함), 및 (4) 중문자열(Str)과 후보 문장들 사이의 문자 유사성(CS). 여기서, PPL은 예를 들면 의학, 천문학 또는 과학 등과 같은 특정 지식 분야에 대한 언어 모델을 나타낸다. PPL로, 후보 문장 생성 및 스코어링 모듈(160)은 사용자들에 의해 지정된 적어도 특정 지식 분야에 따라 각각의 후보 문장을 스코어링할 수 있다. 예를 들면, 중문 문장이 천문 분야와 관계가 있으면, 이 때 PPL은 각각의 후보 문장이 천문 어구에 기초하여 스코어링되도록 천문 언어 모델로 설정될 수 있다. 한편, 원래의 문장과 후보 문장들 사이의 문장 유사성은 (A-B)/C로서 정의된다. 여기서, A는 후보 문장들의 문자의 수를 나타내고, B는 후보 문장들과 원래의 문장 간의 상이한 문자들의 수를 나타내고, C는 원래의 문장의 문자의 수를 나타낸다. 또한, 원래의 문장과 후보 문장들 사이의 발음 유사성은 (A-B)/C로서 정의된다. 여기서, A는 후보 문장들의 문자의 수를 나타내고, B는 후보 문장들과 원래의 문장 사이에 상이한 발음들을 갖는 문자들의 수를 나타내고, C는 원래의 문장의 문자의 수를 나타낸다. 게다가, 원래의 문장과 각각의 후보 문장 사이의 문자 유사성은 (A-B)/C로서 정의된다. 여기서, A는 후보 문장들의 문자의 수를 나타내고, B는 후보 문장들과 원래의 문장 사이에 유사하지 않은 모양들(dissimilar appearances)을 갖는 문자들의 수를 나타내고, C는 원래의 문장의 문자의 수를 나타낸다. 상기 설명의 결론으로, 각각의 후보 문장은 상기 4개의 요소들에 따라 스코어가 개별적으로 주어지고, 스코어링을 위한 식은 다음과 같이 표현된다:
SCORE = w1*PPL + w2*SS + w3*PS + w4*CS
여기서, w1은 PPL에 대한 가중치를, w2는 SS에 대한 가중치를, w3는 PS에 대한 가중치를, w4는 WS에 대한 가중치를 나타낸다. w1, w2, w3 및 w4는 요구조건들에 기초하여 사용자들에 의해 지정된다. 또한, 후보 문장들에 대한 PPL은 하나 이상의 언어 모델들(지식 분야)을 포함할 수 있으므로 PPL은 다음 식으로 계산될 수 있다:
PPL = (1 - α)*PPL1 + α*PPL2
여기서 PPL1은 제 1 언어 모델이고, PPL2은 제 2 언어 모델이고, α는 사용자들에 의해 선택된다.
상기 식으로, 실험으로 주어진 패러미터들은 다음과 같다:
α= 0.6, w1 = -0.0001, w2 = 1, w3 = 1, w4 =1
결과로서, 도 4의 문장
Figure 112008084507916-pat00045
가 최고의 스코어를 얻으므로, 그것은 후보 문장 생성 및 스코어링 모듈(160)에 의해 최선의 후보 문장으로서 설정된다.
끝으로, 단계 S170에서, 문장-리마킹 모듈(200)은 디스플레이 디바이스(210) 상에 최선의 후보 문장과 원래의 문장 사이의 변경을 리마크한다.
상기한 것은 본 발명의 상세한 설명이고, 상기한 플로우 차트는 본 발명의 범위를 벗어나지 않고 변할 수 있다는 점이 주목된다. 예를 들면, 제 1 후보 용어는 제 2 후보 용어의 생성 이전에 생성되어야 할 필요가 없다. 그러므로, 제 1 후보 용어는 제 2 후보 용어의 생성 후 또는 제 2 후보 용어와 동시에 생성될 수 있다.
더욱이, 상기 실시예에서, 제 2 오류 문자열은 단지 2개의 문자들
Figure 112008084507916-pat00046
만을 포함한다. 그러나, 그것은 더 많은 문자들을 포함할 수 있다. 예를 들면, 제 2 오류 문자열은
Figure 112008084507916-pat00047
일 수 있다. 이 경우에, 문자열 "想用"은 그것이 옳은 사용일지라도, 생각을 표현하는 잘못된 방식일 수 있다. 이것은 문자열 "想用"이 통상 함께 존재하지 않는 다른 문자열
Figure 112008084507916-pat00048
과 함께 문자열에 나타나기 때문이다. 실수를 일으키는 것은 "亨"과 "想" 사이에 발음 유사성이므로, 동일한 발음을 가진 잘못된 문자를 사용하기 쉽게 한다. 이러한 문제에 대한 해결방법이 다음 실시예에 제공될 것이다.
이 실시예에서, 상기 표 3에 새로운 요소가 추가된 표 4가 다음에 나타난다.
Figure 112008084507916-pat00049
표 4는 오류 언어 데이터베이스(140)의 데이터 포맷을 나타내고, 여기서 제 1 및 제 2 줄들은 표 3에 나타낸 것과 같은 원래의 내용들이고, 제 3 및 제 4 줄들은 이 실시예에서 새로 추가된 내용들이다. 이와 관련하여, 오류 언어 데이터베이스(140)는 또한 제 3 및 제 4 줄들에 나타낸 것과 같이, 대응하는 복수의 문맥들을 포함한다. 그러나, 이 기술분야에서 숙련된 사람은 상기 표는 단지 일 예라는 것을 이해해야 하고, 본 발명을 제한하는 것으로 간주하지 않아야 한다.
상기 표 3에서, 제 2 오류 문자열이
Figure 112008084507916-pat00050
(또는 "綜子")인 상태에서, 대응하는 문자열
Figure 112008084507916-pat00051
(또는
Figure 112008084507916-pat00052
)은 이들 자신이 잘못된 어구들이므로 즉시 발견될 수 있다. 그렇지만, 제 2 오류 문자열이 "佳佳" 또는 "想用"인 상태에서, 대응하는 정확한 문자열이 본래부터 발견될 수는 없다. 이것은 이들 자신이 잘못된 어구들이 아니지만, 이들은 단지 이들과 함께 나타나는 특정 문자열들로 인한 잘못된 어구들이기 때문이다. 그러므로, 이들 특정 문자열들은 이 실시예에서 문맥들(표 4에 제 3 칸에 나타낸)으로서 정의되고, 오류 언어 데이터베이스(140)에 저장된다. 다음은 더 상세한 설명을 제공하는 것을 목적으로 한다.
중문자열
Figure 112008084507916-pat00053
에 의해, 중문자열은 오류 문자열 "想用"을 가진다. 먼저, 중문자열은 또한 바이-그램 방식으로 복수의 문자 서브그룹들로 세분된다. 상기 과정은 표 1의 과정과 유사하므로, 그것은 간략히 하기 위해 여기서는 다시 기술하지 않는다. 다음 과정에서, 후보 용어 생성 모듈(150)은 문자 서브그룹 "想用"이 표 4에 나타낸 제 2 오류 인덱스들 중 어느 하나와 동일한지의 여부를 결정한다. 표 4에 매치가 있기 때문에, 후보 용어 생성 모듈(150)은 제 2 오류 문자열과 동일한 제 2 오류 인덱스 "想用"을 획득하고, 획득한 제 2 오류 인덱스에 대응하는 문맥
Figure 112008084507916-pat00054
을 획득하고, 끝으로 중문자열이 획득한 문맥
Figure 112008084507916-pat00055
을 포함하는지의 여부를 결정한다. 중문자열이 획득한 문맥
Figure 112008084507916-pat00056
을 포함하면, 그것은 "想用"이 정말로 잘못된 어구라는 것을 의미한다. 중문자열이 획득한 문맥
Figure 112008084507916-pat00057
을 포함하지 않으면, 그것은 "想用"이 정확한 어구라는 것을 의미하고, 그것에 의해 모든 문자 서브그룹들이 끝날 때까지 다음의 문자 서브그룹 "用著"을 처리한다. 이 경우에, 중문자열이
Figure 112008084507916-pat00058
을 포함하기 때문에, 후보 용어 생성 모듈(150)은 획득한 문맥
Figure 112008084507916-pat00059
에 대응하는 제 2 정확한 문자열 "享用"을 획득하고, 획득한 제 2 정확한 문자열 "享用"을 제 2 후보 용어로서 획득한다.
이 실시예에서, 중문자열(
Figure 112008084507916-pat00060
)에 나타나는 단지 하나의 오류 문자열(想用)이 있기 때문에 단지 하나의 후보 용어가 있다. 즉, 제 2 후보 용어는 단지 후보 용어이다. 게다가, 이 기술분야에서 숙련된 사람은 중문자열에 나타나는 N개의 오류 문자열들이 있다면 발생되는 N개의 후보 용어들이 있을 수 있고, 이들 N개의 오류 문자열들은 모든 가능한 조합들을 갖는 2N 후보 문장들(원래의 문장을 포함)의 생성으로 이어질 것이라는 것을 이해해야 한다.
게다가, 중문 문장들을 위한 오류-검출 방법은 광 디스크, 플로피 디스크 및 휴대형 하드 드라이브 등과 같은, 상기 과정들을 수행하기 위한 저장 매체에 프로그램으로서 기록될 수 있다. 오류-검출 방법의 프로그램은 상기한 과정들에 대응하는 복수의 프로그램 코드들에 의해 형성된다는 것이 강조된다.
이상 본 발명이 예로서 그리고 최선의 실시예들로 설명되었지만, 본 발명은 개시된 실시예들로 한정되지 않음을 이해해야 한다. 반대로, 다양한 변형예들 및 유사한 구성들을 포함하도록 의도된다(이 기술분야에서 숙련된 사람에게 명백한 바와 같이). 그러므로, 첨부된 청구항들의 범위는 모든 이와 같은 변형예들 및 유사한 구성들을 포함하도록 가장 넓게 해석되어야 한다.
도 1은 본 발명에 따른 중문 문장 오류 검출 장치(100)의 실시예를 나타낸 도면;
도 2는 본 발명에 따른 중문 문장 오류 검출 장치(100)의 실시예의 플로차트.
도 3은 본 발명에 따른 중문 문장(Art)의 구조.
도 4는 중문자열(Str)을 위한 모든 가능한 후보 문장 조합들을 나타낸 도면.
도 5는 본 발명에 따른 실시예의 후보 문장 스코어링 메카니즘을 나타낸 도면.
*도면의 주요 부분에 대한 부호의 설명
110 문장 수신 모듈 120 문장 분할 모듈
130 정확한 언어 데이터베이스 140 오류 언어 데이터베이스
150 후보 용어 생성 모듈 160 후보 문장 생성 및 스코어링 모듈
170 문자 유사성 데이터베이스 180 발음 유사성 데이터베이스
190 언어 모델 데이터베이스 200 문장 리마킹 모듈
210 디스플레이 디바이스

Claims (27)

  1. 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는데 적용 가능한 중문 문장(Chinese article) 오류 검출 방법에 있어서,
    상기 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계로서, 각각의 상기 제 1 서브그룹들은 상기 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 세분하는 단계;
    복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스를 제공하는 단계로서, 상기 제 1 정확한 인덱스들은 상기 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 데이터베이스를 제공하는 단계;
    상기 제 1 서브그룹들에 따라 상기 제 1 정확한 인덱스들 중 하나를 획득하고, 상기 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득하는 단계;
    상기 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계; 및
    디스플레이 디바이스 상에 상기 중문자열 및 상기 최선의 후보 문장을 표시하는 단계를 포함하는, 중문 문장 오류 검출 방법.
  2. 제 1 항에 있어서,
    상기 최선의 후보 문장은 상기 중문자열의 상기 제 1 오류 문자열을 상기 획득한 제 1 정확한 문자열로 대체함으로써 생성되는, 중문 문장 오류 검출 방법.
  3. 제 1 항에 있어서,
    상기 중문자열은 제 2 위치에 제 2 오류 문자열을 더 포함하는, 중문 문장 오류 검출 방법.
  4. 제 3 항에 있어서,
    상기 데이터베이스는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 더 포함하는, 중문 문장 오류 검출 방법.
  5. 제 4 항에 있어서,
    상기 획득한 제 1 정확한 문자열을 제 1 후보 용어로서 설정하는 단계; 및
    상기 제 2 오류 인덱스들에 따라 제 2 후보 용어를 생성하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
  6. 제 5 항에 있어서,
    상기 제 2 오류 문자열이 상기 제 2 오류 인덱스들 중 하나와 동일한지 여부를 판정하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
  7. 제 6 항에 있어서,
    상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 제 2 정확한 문자열들 중 하나를 획득하는 단계; 및
    상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
  8. 제 7 항에 있어서,
    상기 중문자열의 상기 제 1 위치 및 상기 제 2 위치를, 상기 제 1 오류 문자열, 상기 제 2 오류 문자열, 상기 제 1 후보 용어 및 상기 제 2 후보 용어로 대체함으로써 복수의 후보 문장들을 생성하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
  9. 제 8 항에 있어서,
    후보 문장 스코어링 메카니즘에 따라 상기 후보 문장들을 스코어링함으로써 상기 최선의 후보 문장을 생성하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
  10. 제 9 항에 있어서,
    상기 후보 문장 스코어링 메카니즘은 하기 4개의 요소들:
    적어도 하나의 언어 모델;
    상기 중문자열과 상기 후보 문장들 사이의 문장 유사성;
    상기 중문자열과 상기 후보 문장들 사이의 발음 유사성; 및
    상기 중문자열과 상기 후보 문장들 사이의 문자 유사성
    에 따라 상기 후보 문장들을 스코어링하는, 중문 문장 오류 검출 방법.
  11. 제 6 항에 있어서,
    상기 데이터베이스는 복수의 문맥들(contexts)을 더 포함하는, 중문 문장 오류 검출 방법.
  12. 제 11 항에 있어서,
    상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 문맥들 중 하나를 획득하는 단계; 및
    상기 중문자열이 상기 획득한 문맥을 포함하는지의 여부를 결정하는 단계를 더 포함하는, 중문 문장 오류 검출 방법.
  13. 제 12 항에 있어서,
    상기 중문자열이 상기 획득한 문맥을 포함할 때 상기 제 2 정확한 문자열들 중 하나를 획득하는 단계; 및
    상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 단계 를 더 포함하는, 중문 문장 오류 검출 방법.
  14. 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는데 적용할 수 있는 중문 문장 오류 검출 장치에 있어서,
    상기 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 문장 분할 모듈로서, 각각의 상기 제 1 서브그룹들은 상기 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 문장 분할 모듈;
    복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 포함하는 데이터베이스로서, 상기 제 1 정확한 인덱스들은 상기 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 데이터베이스;
    상기 제 1 서브그룹들에 따라 상기 제 1 정확한 인덱스들 중 하나를 획득하고, 상기 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득하는 후보 용어 생성 모듈;
    상기 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 후보 문장 생성 및 스코어링 모듈; 및
    상기 중문자열 및 상기 최선의 후보 문장을 표시하는 디스플레이 디바이스를 포함하는, 중문 문장 오류 검출 장치.
  15. 제 14 항에 있어서,
    상기 최선의 후보 문장은 상기 중문자열의 상기 제 1 오류 문자열을 상기 획 득한 제 1 정확한 문자열로 대체함으로써 생성되는, 중문 문장 오류 검출 장치.
  16. 제 14 항에 있어서,
    상기 중문자열은 제 2 위치에 제 2 오류 문자열을 더 포함하는, 중문 문장 오류 검출 장치.
  17. 제 16 항에 있어서,
    상기 데이터베이스는 복수의 제 2 오류 인덱스들 및 대응하는 복수의 제 2 정확한 문자열들을 더 포함하는, 중문 문장 오류 검출 장치.
  18. 제 17 항에 있어서,
    상기 후보 용어 생성 모듈은 또한 상기 획득한 제 1 정확한 문자열을 제 1 후보 용어로서 설정하고 상기 제 2 오류 인덱스들에 따라 제 2 후보 용어를 생성하는, 중문 문장 오류 검출 장치.
  19. 제 18 항에 있어서,
    상기 후보 용어 생성 모듈은 또한 상기 제 2 오류 문자열이 상기 제 2 오류 인덱스들 중 어느 하나와 동일한지 여부를 판정하는, 중문 문장 오류 검출 장치.
  20. 제 19 항에 있어서,
    상기 후보 용어 생성 모듈은 또한 하기 과정들:
    상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 제 2 정확한 문자열들 중 하나를 획득하는 과정; 및
    상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 과정
    을 수행하는, 중문 문장 오류 검출 장치.
  21. 제 20 항에 있어서,
    상기 후보 문장 생성 및 스코어링 모듈은 또한 상기 중문자열의 상기 제 1 위치 및 상기 제 2 위치를 상기 제 1 오류 문자열, 상기 제 2 오류 문자열, 상기 제 1 후보 용어 및 상기 제 2 후보 용어로 대체함으로써 복수의 후보 문장들을 생성하는, 중문 문장 오류 검출 장치.
  22. 제 21 항에 있어서,
    상기 후보 문장 생성 및 스코어링 모듈은 또한 후보 문장 스코어링 메카니즘에 따라 상기 후보 문장들을 스코어링함으로써 상기 최선의 후보 문장을 생성하는, 중문 문장 오류 검출 장치.
  23. 제 22 항에 있어서,
    상기 후보 문장 스코어링 메카니즘은 하기 4개의 요소들:
    적어도 하나의 언어 모델;
    상기 중문자열과 상기 후보 문장들 사이의 문장 유사성;
    상기 중문자열과 상기 후보 문장들 사이의 발음 유사성; 및
    상기 중문자열과 상기 후보 문장들 사이의 문자 유사성
    에 따라 상기 후보 문장들을 스코어링하는, 중문 문장 오류 검출 장치.
  24. 제 19 항에 있어서,
    상기 데이터베이스는 복수의 문맥들을 더 포함하는, 중문 문장 오류 검출 장치.
  25. 제 24 항에 있어서,
    상기 후보 용어 생성 모듈은 또한 하기 과정들:
    상기 제 2 오류 문자열과 동일한 상기 제 2 오류 인덱스를 획득하고, 상기 획득한 제 2 오류 인덱스에 따라 상기 문맥들 중 하나를 획득하는 과정; 및
    상기 중문자열이 상기 획득한 문맥을 포함하는지의 여부를 결정하는 과정
    을 수행하는, 중문 문장 오류 검출 장치.
  26. 제 25 항에 있어서,
    상기 후보 용어 생성 모듈은 또한 하기 과정들:
    상기 중문자열이 상기 획득한 문맥을 포함할 때 상기 제 2 정확한 문자열들 중 하나를 획득하는 과정; 및
    상기 획득한 제 2 정확한 문자열을 상기 제 2 후보 용어로서 설정하는 과정
    을 수행하는, 중문 문장 오류 검출 장치.
  27. 중문 문장 오류 검출 프로그램을 저장하기 위한 저장 매체로서, 상기 오류 검출 프로그램은 중문 문장 오류 검출 방법이 컴퓨터 시스템에 의해 실행되도록 상기 컴퓨터 시스템에 로딩될 복수의 프로그램 코드들을 포함하고, 상기 오류 검출 방법은 제 1 위치에 제 1 오류 문자열을 포함하는 중문자열을 취급하는데 적용 가능한, 상기 저장 매체에 있어서,
    상기 오류 검출 방법은,
    상기 제 1 오류 문자열을 복수의 제 1 서브그룹들로 세분하는 단계로서, 각각의 상기 제 1 서브그룹들은 상기 제 1 오류 문자열 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 세분하는 단계;
    복수의 제 1 정확한 문자열 및 대응하는 복수의 제 1 정확한 인덱스들을 저장하는 단계로서, 상기 제 1 정확한 인덱스들은 상기 제 1 정확한 문자열들 중에서 2개의 연속 및 불연속 문자들로 구성되는, 상기 저장하는 단계;
    상기 제 1 서브그룹들에 따라 상기 제 1 정확한 인덱스들 중 하나를 획득하고, 상기 획득한 제 1 정확한 인덱스에 따라 상기 제 1 정확한 문자열들 중 하나를 획득하는 단계;
    상기 획득한 제 1 정확한 문자열에 따라 최선의 후보 문장을 생성하는 단계; 및
    상기 중문자열 및 상기 최선의 후보 문장을 표시하는 단계를 포함하는, 저장 매체.
KR1020080124261A 2008-09-09 2008-12-08 중문 문장 오류 검출 장치 및 방법 KR101049525B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW97134531 2008-09-09
TW097134531A TWI391832B (zh) 2008-09-09 2008-09-09 中文文章偵錯裝置、中文文章偵錯方法以及儲存媒體

Publications (2)

Publication Number Publication Date
KR20100030547A KR20100030547A (ko) 2010-03-18
KR101049525B1 true KR101049525B1 (ko) 2011-07-15

Family

ID=41800001

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080124261A KR101049525B1 (ko) 2008-09-09 2008-12-08 중문 문장 오류 검출 장치 및 방법

Country Status (4)

Country Link
US (1) US8374847B2 (ko)
JP (1) JP4796118B2 (ko)
KR (1) KR101049525B1 (ko)
TW (1) TWI391832B (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
US20140136184A1 (en) * 2012-11-13 2014-05-15 Treato Ltd. Textual ambiguity resolver
TWI570578B (zh) * 2012-12-19 2017-02-11 英業達股份有限公司 中文詞句的詞彙查詢系統及其方法
CN103970798B (zh) * 2013-02-04 2019-05-28 商业对象软件有限公司 数据的搜索和匹配
US9442917B2 (en) * 2013-07-11 2016-09-13 University Of Oregon Detecting semantic errors in text using ontology-based extraction rules
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN107608963B (zh) * 2017-09-12 2021-04-16 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN109344387B (zh) * 2018-08-01 2023-12-19 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN110852087B (zh) * 2019-09-23 2022-02-22 腾讯科技(深圳)有限公司 中文纠错方法和装置、存储介质及电子装置
CN110852074B (zh) * 2019-11-07 2023-05-16 腾讯科技(深圳)有限公司 生成修正语句的方法和装置、存储介质和电子设备
CN111859907B (zh) * 2020-06-11 2023-06-23 北京百度网讯科技有限公司 文字纠错方法、装置、电子设备及存储介质
CN112509581B (zh) * 2020-11-20 2024-03-01 北京有竹居网络技术有限公司 语音识别后文本的纠错方法、装置、可读介质和电子设备
CN113343678A (zh) * 2021-06-25 2021-09-03 北京市商汤科技开发有限公司 一种文本纠错的方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980079586A (ko) * 1997-03-13 1998-11-25 포맨 제프리 엘 한자 문장 세그멘테이션 방법 및 한자 에러 점검(cec) 시스템에의 응용
KR20040089774A (ko) * 2003-04-15 2004-10-22 한국전자통신연구원 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
KR20050063815A (ko) * 2003-12-19 2005-06-28 한국전자통신연구원 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
KR20080021064A (ko) * 2005-07-01 2008-03-06 마이크로소프트 코포레이션 중국어 2행연구의 생성

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793328A (ja) * 1993-09-24 1995-04-07 Matsushita Electric Ind Co Ltd 綴り不適切訂正装置
TW260772B (en) * 1994-04-25 1995-10-21 Ind Tech Res Inst Method for auto-correcting Chinese words and device thereof
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
JP4283898B2 (ja) * 1995-10-20 2009-06-24 富士通株式会社 文章校正装置
JP2003288366A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 類似テキスト検索装置
JP2006172231A (ja) * 2004-12-16 2006-06-29 Yoshikazu Miura 文書校正方法及び文書校正装置
US20060271882A1 (en) * 2005-05-26 2006-11-30 Inventec Appliances Corp. Method for implementing a fuzzy spelling while inputting Chinese characters into a mobile phone
US7558725B2 (en) * 2006-05-23 2009-07-07 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for multilingual spelling corrections
US7856598B2 (en) * 2006-07-06 2010-12-21 Oracle International Corp. Spelling correction with liaoalphagrams and inverted index

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980079586A (ko) * 1997-03-13 1998-11-25 포맨 제프리 엘 한자 문장 세그멘테이션 방법 및 한자 에러 점검(cec) 시스템에의 응용
KR20040089774A (ko) * 2003-04-15 2004-10-22 한국전자통신연구원 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
KR20050063815A (ko) * 2003-12-19 2005-06-28 한국전자통신연구원 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
KR20080021064A (ko) * 2005-07-01 2008-03-06 마이크로소프트 코포레이션 중국어 2행연구의 생성

Also Published As

Publication number Publication date
TW201011566A (en) 2010-03-16
US8374847B2 (en) 2013-02-12
JP4796118B2 (ja) 2011-10-19
KR20100030547A (ko) 2010-03-18
TWI391832B (zh) 2013-04-01
JP2010067250A (ja) 2010-03-25
US20100063798A1 (en) 2010-03-11

Similar Documents

Publication Publication Date Title
KR101049525B1 (ko) 중문 문장 오류 검출 장치 및 방법
US8812301B2 (en) Linguistically-adapted structural query annotation
US9026426B2 (en) Input method editor
US6848080B1 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7853874B2 (en) Spelling and grammar checking system
KR101425182B1 (ko) 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법
JP4960461B2 (ja) ウェブベースのコロケーション誤りの校正
US7165019B1 (en) Language input architecture for converting one text form to another text form with modeless entry
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
US20100332217A1 (en) Method for text improvement via linguistic abstractions
Pedler Computer correction of real-word spelling errors in dyslexic text
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20120297294A1 (en) Network search for writing assistance
WO2012039686A1 (en) Methods and systems for automated text correction
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2006031295A (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
US8725497B2 (en) System and method for detecting and correcting mismatched Chinese character
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JP2004303240A (ja) 単語解析のためのシステムおよび方法
Bagchi et al. Bangla Spelling Error Detection and Correction Using N-Gram Model
Kasahara et al. Error correcting Romaji-kana conversion for Japanese language education
Mon Spell checker for Myanmar language
Elahimanesh et al. An unsupervised approach for bilingual Arabic and Persian spell correction using N-gram based Language models
KR102523767B1 (ko) Bleu 스코어를 기초로 유사 문장에 대한 검색을 수행하는 전자 장치 및 그 동작 방법
JP7124358B2 (ja) 出力プログラム、情報処理装置及び出力制御方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140625

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150624

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160627

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170628

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180627

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190627

Year of fee payment: 9