KR101146539B1 - 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법 - Google Patents

비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법 Download PDF

Info

Publication number
KR101146539B1
KR101146539B1 KR1020077001543A KR20077001543A KR101146539B1 KR 101146539 B1 KR101146539 B1 KR 101146539B1 KR 1020077001543 A KR1020077001543 A KR 1020077001543A KR 20077001543 A KR20077001543 A KR 20077001543A KR 101146539 B1 KR101146539 B1 KR 101146539B1
Authority
KR
South Korea
Prior art keywords
entry
input
language
input entry
user input
Prior art date
Application number
KR1020077001543A
Other languages
English (en)
Other versions
KR20070027726A (ko
Inventor
쥔 위
홍쥔 주
후이찬 주
웨이-화 후앙
치우-키 찬
Original Assignee
구글 잉크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 잉크. filed Critical 구글 잉크.
Publication of KR20070027726A publication Critical patent/KR20070027726A/ko
Application granted granted Critical
Publication of KR101146539B1 publication Critical patent/KR101146539B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

규칙 기반 분류기 및 은닉 마르코프 모델 (Hidden Markov Model) 을 사용하여 중국어, 일본어, 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하는 시스템 및 방법이 개시된다. 본 방법은 일반적으로 중국어와 같은 제 1 언어로 된 입력 엔트리를, 병음과 같은, 제 1 언어와 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅 하는 단계, 중간 엔트리를 제 1 언어로 된, 입력의 하나 이상의 가능한 대체 철자 또는 대체 형태로 컨버팅하는 단계, 및 입력 엔트리와 입력 엔트리에 대해 가능한 모든 대체 철자들 사이의 매치가 검색된 경우 또는 검색되지 않은 경우, 입력 엔트리가 정확한 입력 엔트리인지 의심 입력 엔트리인지 각각 판정하는 단계를 포함한다. 의심 입력 엔트리는, 예를 들어, 변환 규칙 생성기에 의해 생성된 변환 규칙들에 기초하는 변환 규칙 기반 분류기를 사용하여 분류될 수도 있다.
비-로마자 언어, 철자 정정, 컨버터, 변환 규칙, 은닉 마르코프 모델

Description

비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및 방법 {SYSTEMS AND METHODS FOR SPELL CORRECTION OF NON-ROMAN CHARACTERS AND WORDS}
발명의 배경
발명의 분야
본 발명은 일반적으로 비-로마자 기반 언어들을 프로세싱하는 것에 관한 것이다. 더 상세하게는, 규칙 기반 분류기 및 은닉 마르코프 모델 (Hidden Markov Model) 을 사용하여 중국어, 일본어, 및 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하는 시스템 및 방법이 개시된다.
관련 기술의 설명
철자 정정은 일반적으로 잘못된 단어 검출 및 잘못된 단어에 대한 적절한 교체 판정을 포함한다. 영어와 같은 알파벳, 즉, 로마자 기반 언어에서 대부분의 철자 오류는, 예를 들어, "than" 을 "thna" 로 사용하는 것처럼 어휘 단어에서 나오거나, 예를 들어, "stranger than" 가 아닌 "stranger then" 으로 사용하는 것처럼 문맥에서 부적절하게 사용되는 유효한 단어에서 나온다. 로마자 기반 언어에서의 어휘 철자 오류를 검출 및 정정하는 철자 검사기는 널리 공지되어 있다.
그러나, 중국어, 일본어, 및 한국어 (CJK) 와 같은 비-로마자 기반 언어들은, 예를 들어, UTF-8 문자 세트 같은 임의의 컴퓨터 문자 세트로 인코딩되는 무효한 문자를 갖지 않아, 대부분의 절차 오류들은 어휘 철자 오류에서 나오기보다 문 맥에서 부적절하게 사용된 유효한 문자들이다. 중국어에서, 단어의 정확한 사용은 일반적으로 문맥에서만 판정될 수 있다. 따라서 비-로마자 기반 언어들에 대한 효과적인 철자 검사기는 문맥에서 어느 문자 및/또는 단어가 적당하지 않은지 판정하기 위해 문맥상의 정보를 사용하여야 한다.
또한, CJK 언어와 같은 비-로마자 언어들에 대한 철자 정정은, CJK 단어들의 정의가 명확하지 않기 때문에 그 언어들에 대해 표준 사전이 없다는 점에서 복잡하고 난제이다. 예를 들어, 중국어로 "Beijing city" 를 두 단어로 간주하는 사람들이 있음에 반해 하나의 단어로 간주하는 사람들도 있다. 반면, 영어 사전/단어리스트 검색은 영어 철자 정정에서의 핵심적 특징이며, 따라서 영어 철자 정정 방법은 CJK 언어에서의 사용에 쉽게 적용될 수 없다. 또한, 영어에는 26개의 문자가 있음에 반해, 중국어에는 보편적으로 사용되는 수천 개의 문자들이 있어, 잘못된 중국어 단어의 부정확한 문자들을 모든 대체물들로 교체하고, 새로 생성된 단어가 적절한지 판정하는 것은 비실용적이 된다. 또한, 중국어는 보이지 않는 (또는 은닉된) 단어 경계들뿐만 아니라 동형이의어 및 동음이의어가 많이 집중되어 있어 중의성을 야기하며, 효율적이고 효과적인 중국어 철자 정정을 구현하기 복잡하고 어렵게 만들기도 한다. 중국어와 영어 간의 그러한 차이들이 명백하여, 영어 철자 정정에 이용 가능한 다수의 효율적인 기술들이 중국어 철자 정정에는 적당하지 않다.
따라서, 중국어, 일본어 및 한국어와 같은 비-로마자 기반 언어들에서 철자 오류를 효과적이고, 효율적이고, 정확하게 검출 및 정정하기 위한 컴퓨터 시스템 및 방법이 필요하다.
발명의 요약
규칙 기반 분류기 및 은닉 마르코프 모델을 사용하여 중국어, 일본어, 및 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하기 위한 시스템 및 방법이 개시된다. 더 상세하게는, 본 시스템 및 방법은 변환 규칙, 은닉 마르코프 모델 및 혼동되는 문자들의 유사 매트릭스를 사용한다. 중국어 철자 검사 애플리케이션에서는 혼동되는 문자 쌍 사이의 유사성은, 문자들이 동일한 발음을 가지는 경우, 및/또는 간략화된 또는 전통적인 중국어에서 동일한 키 입력을 공유하는 경우에 양수 (positive number) 가 될 수도 있다. 그렇지 않으면, 값은 0이다. 일 구현에서, 유사 값은, 예를 들어, 혼동되는 문자 쌍에 대해서는 1을, 혼동되지 않는 문자 쌍에 대해서는 0 의 불 (Boolean) 값을 가질 수도 있다. 이 시스템 및 방법은, 예를 들어 툴바 또는 데스크바에서 구현되는, 클라이언트 사이트에서의 웹 기반 검색 엔진 및 다운로드 가능한 애플리케이션에 특별히 적용될 수 있을 뿐 아니라, 그 외의 다양한 애플리케이션에도 적용될 수 있다. 본 발명이, 프로세스로서, 장치로서, 시스템으로서, 디바이스로서, 방법으로서, 또는 컴퓨터 판독가능 저장 매체와 같은 컴퓨터 판독가능 매체로서 또는 프로그램 명령들이 광통신 라인 또는 전자 통신 라인으로 전송되는 컴퓨터 네트워크로서의 방식을 포함하여, 다양한 방식으로 구현될 수 있다는 것을 인식하여야 할 것이다. 컴퓨터라는 용어는 일반적으로 개인 휴대 정보 단말기 (PDA), 셀룰러폰, 및 네트워크 스위치와 같이 연산 능력을 가진 임의의 디바이스를 나타낸다. 본 발명의 수개의 신규 실시형태들을 아래에서 설명한다.
본 방법은 일반적으로 중국어와 같은 제 1 언어로 된 입력 엔트리를, 제 1 언어와는 상이한 중간 표현 (예를 들어, 병음 (pinyin)) 으로 된 하나 이상의 중간 엔트리로 컨버팅하는 단계, 중간 엔트리를 제 1 언어로 된 입력 엔트리의 하나 이상의 가능한 대체 철자로 컨버팅하는 단계, 및 입력 엔트리와 입력 엔트리에 대한 모든 가능한 대체 철자들 사이의 매치가 검색된 경우 또는 검색되지 않은 경우 입력 엔트리가 정확한 입력 엔트리인지 의심 입력 엔트리인지 각각 판정하는 단계를 포함한다. 본 명세서에 사용되는, "병음" 은 간략화된 또는 전통적인 중국어를 위한 모든 음성 표기법을 나타내고, zhuyin fuhao (주음부호 (Bopomofo)), 즉, "주석으로 첨부된 음성 표기법" 을 포함한다. 제 1 언어로 된 혼동되는 문자 쌍들 사이에서의 유사성은 중간 표현으로, 통상 발음되는 것에 따라서 정의될 수 있다. 의심 입력 엔트리는, 예를 들어, 변환 규칙 생성기에 의해 발생한 변환 규칙들에 기초하는 변환 규칙 기반 분류기를 사용하여 분류될 수도 있다. 결정 트리 및 신경망 분류기와 같은 그 외의 다양한 분류기들이 유사하게 이용될 수도 있다.
컨버팅하는 단계는 쿼리 로그 (query log) 내의 사용자 쿼리와 같은 다수의 입력 엔트리들을 컨버팅하는 단계를 포함할 수도 있다. 본 방법은, 예를 들어, 변환 규칙 기반 분류기에 의해, 철자 정정 변환 규칙들 같은 규칙 세트에 기초하여 의심 엔트리를 철자가 정확한 엔트리나 철자가 정확하지 않은 엔트리로 분류하는 단계를 더 포함할 수도 있다. 사용자들의 투표, 예를 들어, 쿼리 로그들 및/또는 웹페이지들을 이용하여 변환 규칙들을 생성시키는 것이 바람직하다. 본 방법은 의심 입력 엔트리 및 가능한 대체 철자를 사용하는 변환 규칙 생성기를 사용하여 철자 정정 변환 규칙들을 생성 및 트레이닝하는 단계도 더 포함할 수도 있다. 본 방법은 제 1 언어로 된 사용자 입력을 수신하는 단계, 임의의 규칙들이 사용자 입력에 적용되는지 판정하는 단계, 하나 이상의 규칙이 사용자 입력에 적용된다고 판정되면 사용자 입력에 대응하는 제 1 언어로 된 하나 이상의 대체 철자를 생성시키는 단계, 사용자 입력의 가능성을 사용자 입력의 하나 이상의 대체 철자의 가능성과 비교하는 단계, 및 사용자 입력보다 더 높은 가능성을 가진, 사용자 입력의 하나 이상의 대체 철자를 통해 철자 정정 제안 및/또는 철자 정정을 실행하는 단계를 더 포함할 수도 있다.
시스템은 일반적으로, 제 1 언어로 된 입력 엔트리를 그 입력 엔트리의 제 1 언어와는 상이한 하나 이상의 중간 표현으로 컨버팅하도록 구성된 제 1 컨버터, 중간 표현을 제 1 언어로 된 입력 엔트리의 하나 이상의 가능한 대체 철자로 컨버팅하도록 구성되는 제 2 컨버터, 및 가능한 대체 철자를 입력 엔트리와 비교하여 매치를 검색하고 또한 모든 가능한 대체 철자들로부터 매치가 검색되지 않는다면 입력 엔트리가 의심 입력 엔트리라고 판정하고, 매치가 검색된다면 입력 엔트리가 정확한 입력 엔트리라고 판정하도록 구성된 비교기를 포함한다.
컴퓨터 시스템과 협력하여 사용하는 컴퓨터 프로그램 제품으로서, 이 컴퓨터 프로그램 제품은, 컴퓨터 프로세서에서 실행 가능한 명령들이 저장된 컴퓨터 판독가능 저장 매체를 포함하고, 그 명령들은 일반적으로, 제 1 언어로 된 입력 엔트리를 수신하는 명령, 입력 엔트리를 제 1 언어와 상이한 입력 엔트리의 하나 이상의 중간 표현으로 컨버팅하는 명령, 중간 표현을 제 1 언어로 된 하나 이상의 가능한 대체 철자로 컨버팅하는 명령, 하나 이상의 가능한 대체 철자를 입력 엔트리와 비교하여 매치를 검색하는 명령, 및 매치가 모든 가능한 대체 철자들로부터 검색되지 않는다면 입력 엔트리가 의심 엔트리라고 판정하고, 매치가 검색된다면 입력 엔트리가 정확한 입력 엔트리라고 판정하는 명령을 포함한다.
본 시스템 및 방법을 구현하는 애플리케이션은 검색 엔진에서와 같은 서버 사이트에서 구현되거나, 예를 들어 다운로드되어, 사용자 컴퓨터와 같은 클라이언트 사이트에서 구현되어, 문서로의 텍스트 입력에 철자 정정을 제공하거나 검색 엔진과 같은 원격 서버와 접속할 수도 있다. 클라이언트 사이트 애플리케이션은, 예를 들어 X가 Z에 선행하거나 후행할 때를 제외하고는 절대 X와 Y의 교환을 금지하는 것과 같은, 임의의 철자 정정을 불허함을 특정함으로써, 사용자가 애플리케이션을 커스터마이즈하도록 허용하는, 정지 규칙 패턴의 사용자 편집가능 테이블을 선택적으로 포함할 수도 있다.
본 발명의 이러한 특징과 이점, 및 다른 특징과 이점들을, 본 발명의 원리를 예시의 방식으로 설명하는 상세한 설명 및 첨부한 도면에서 더 상세히 설명한다.
도면의 간단한 설명
본 발명은 첨부한 도면과 상세한 설명에 의해 쉽게 이해될 것이며, 유사한 도면 부호는 유사한 구조적 요소를 지정한다.
도 1은 의심되는 원시 입력들에 대한 가능한 대체 철자들을 판정하기 위해, 비-로마자 기반 언어의 중간 형태로의 전환 및 중간 형태로부터의 역전환을 수행하 는 시스템 및 방법을 도시한 블록도이다.
도 2는 엔트리 세트로부터 철자 정정 변환 규칙을 생성시키는 시스템 및 방법을 도시한 블록도이다.
도 3은 철자 정정 변환 규칙들을 자동으로 생성시키는 프로세스를 도시하는 플로우차트이다.
도 4는 철자 정정 제안들이 있다면 이를 판정하기 위해, 엔트리 프로세싱을 위한 변환 규칙들을 이용하는 프로세스를 도시하는 플로우차트이다.
구체적 실시형태의 설명
규칙 기반 분류기 및 은닉 마르코프 모델을 사용하여 중국어, 일본어, 및 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하는 시스템 및 방법이 개시된다. 다만 명료히 하기 위한 목적으로, 본 명세서에 나타난 예시들은 중국어 철자 오류를 검출 및 정정함에 적용될 수 있고, 더 상세하게는 간략화된 중국어 철자 오류 검출에 적용될 수 있다는 것을 언급한다. 그러나, 철자 오류를 검출 및 정정하는 시스템 및 방법은, 전통적인 중국어, 일본어, 한국어, 타이어 등과 같은 그 외의 비-로마자 기반 언어들에 대해 유사하게 적용될 수도 있다. 다음의 설명은, 당업자가 본 발명을 실시하고 사용할 수 있도록 제공된다. 구체적인 실시형태들의 설명과 애플리케이션들은 예시로서만 제공되며 다양한 변형예들은 당업자에게 자명할 것이다. 본 명세서에 정의된 일반적 원리들은 본 발명의 정신과 범위에서 벗어나지 않으면서 그 외의 실시형태 및 애플리케이션에 적용될 수도 있다. 따라서, 본 발명은 본 명세서에 설명된 원리 및 특징들과 일치하는, 최광의의 다양한 대체물들, 변형물들 및 균등물들을 용인한다. 명료히 하기 위한 목적으로, 본 발명에 관한 기술 분야에 공지된 기술 재료에 관한 세부 사항은 불필요하게 본 발명을 불명료하게 하지 않도록 상세히 설명하지 않았다.
본 명세서에 설명된 시스템 및 방법은 일반적으로, 입력 엔트리들로부터 생성된 철자 정정 변환 규칙들을 사용하는, 비-로마자 기반 언어들의 철자 오류들을 검출 및 정정하는 것에 관한 것이다. 본 명세서에 사용되는 것처럼, "철자" 라는 용어는 문맥상 부적절하게 사용된 유효한 문자들 또는 단어들뿐 아니라, 어휘 문자들 또는 단어들 모두에 관한 것이다. 또한, 입력의 대체 철자 또는 대체 형태라는 용어는, 본 명세서에서 입력과 상이하나 같은 언어로 된, 문자 및/또는 단어의 대체 세트에 관한 것이며, 입력은 하나의 문자나 단어, 문자들 및/또는 단어들의 시리즈나 모음, 절, 문자 등에 무관하다. 의심 입력 엔트리들은 입력 엔트리들로부터 식별되고, 가능한 대체 철자는 도 1에서 도시된 의심 입력 엔트리 검출기에 의해 생성된다. 의심 입력 엔트리, 및 의심 입력 엔트리 검출기로부터 얻어진 가능한 입력 엔트리들을 입력으로 사용하여 철자 정정 변환 규칙들이 그 후 생성 및 트레이닝되며 의심 엔트리들은 도 2에서 도시된 바와 같은 변환 규칙 생성기와 분류기에 의해 정확 또는 부정확으로 분류된다. 본 시스템 및 방법은 변환 규칙, 은닉 마르코프 모델 및 혼동되는 문자들의 유사 값 매트릭스를 사용한다. 중국어 애플리케이션에서, 혼동되는 문자 쌍 사이의 유사 값은, 문자들이 동일한 발음을 가지는 경우, 및/또는 간략화된 또는 전통적인 중국어에서 동일한 키 입력을 공유하는 경우 양수가 될 수도 있다. 그렇지 않으면, 그 값은 0이다. 일 구현에서, 유사 값은, 예를 들어, 혼동되는 문자 쌍에 대해서는 1, 혼동되지 않는 문자 쌍에 대해서는 0 의 불 값을 가질 수도 있다. 트레이닝된 철자 정정 변환 규칙 세트를 사용하여 철자 오류들을 식별하고 제안된 철자 정정들을 생성하는 프로세스가 도 4의 플로우차트에서 도시된다. 따라서, 변환 규칙들을 트레이닝하기 위해 입력 세트를 사용함으로써, 가장 통상적인 철자 오류 및 정정들이 판정되고 프로세싱되어, 철자 검사 및 정정 시스템의 효율성과 유효성을 강화할 수도 있다.
도 1은, 의심되는 원시 입력들을 식별하고, 의심되는 원시 입력들에 대한 가능한 대체 철자들을 판정하기 위해, 간략화된 중국어의 중간 형태 (예를 들어, 병음) 로의 전환 및 중간 형태로부터의 역전환을 수행하는 의심 입력 엔트리 검출기 (100) 를 도시한 블록도이다. 도 1에서 도시된 의심 입력 엔트리 검출기 (100) 는, 병음이 간략화된 중국어에 통상적으로 사용되는 입력 방법이라는 편리한 사실을 사용한다. 그러나, 로마자 기반 또는 비-로마자 기반의, 그 외의 임의의 중간 형태가 구현되고 이용될 수도 있다. 유사하게, 의심 입력 엔트리 검출기 (100) 는 그 외의 다양한 비-로마자 기반 언어들과의 사용에 적용될 수도 있다.
도 1에 도시된 바와 같이, 단어-병음 컨버터 (104) 는 중국 문자로 된 각각의 원시 입력 엔트리 (102) 를, 원시 입력 엔트리 (102) 에 대응하는 하나 이상의 발음 또는 병음 (106) 으로 컨버팅한다. 그 후, 병음-단어 컨버터 (108) 는 병음 (106) 을 중국 문자로 된 가능한 철자 (110) 로 컨버팅한다. 제 1 언어를 중간 표현으로 컨버팅하고, 그 후 제 1 언어로 다시 컨버팅하는, 그 외의 적당한 컨버터들 (104, 106) 이 사용될 수도 있다. 병음은 다만 중국어 또는 간략화된 중국어를 위한 편리한 중간 표현이다. 비교기 (112) 는, 양자 모두 제 1 언어로 된, 원시 입력 엔트리 (102) 와 가능한 철자 (110) 를 비교하여 매치가 존재하는지 판정한다. 원시 엔트리 (102) 가 병음-단어 컨버터 (108) 에 의해 출력된 가능한 철자 (110) 중 하나와 매치되면, 원시 엔트리 (102) 는 정확한 철자 (114) 로 가정되며 매치된 것이다. 그러나, 원시 엔트리 (102) 가 병음-단어 컨버터 (108) 에 의해 출력된 가능한 철자 (110) 중 임의의 것과 매치되지 않는다면, 원시 엔트리 (102) 는 의심 엔트리 (116), 즉, 부정확한 것일 수도 있다.
병음은 주로 간략화된 중국어 문자를 입력하는 과정에 사용되는 음성적 입력 방법이다. 본 명세서에 언급되는 것처럼, 병음은 중국어 글자와 관련된 톤의 표현이 동반되기도 하고 동반되지 않기도 하는 일반적으로 중국어 문자의 음성적 표현에 관한 것이다. 더 상세하게는, "병음" 은 간략화된 또는 전통적인 중국어의 모든 음성 표기법에 관한 것이며, zhuyin fuhao (주음부호), 즉, "주석으로 첨부된 음성 표기법" 을 포함한다.
병음은 로마자들을 사용하며 다음절 단어들의 형태로 열거한 어휘를 가진다. 중국어에는 다양한 동형이의어 및 동음이의어가 있어, 각각의 원시 엔트리 (102) 는 단어-병음 컨버터 (104) 에 의해 다수의 병음 (106) 으로 컨버팅될 수도 있으며, 유사하게, 각 병음 (106) 은 병음-단어 컨버터 (108) 에 의해 중국어 문자로 된 다수의 가능한 철자들 (110) 로 컨버팅될 수도 있다. 더 상세하게는, 수만 개의 중국 문자 (한자 (Hanzi)) 를 표현함에 있어 (병음에 의해 표현될 수 있 는) 대략 1,300개의 상이한 톤 있는 음성 음절 및 대략 400개의 톤 없는 음성 음절만이 존재하기 때문에, 하나의 (톤이 있거나 없는) 음성 음절은 다수의 상이한 한자에 대응될 수도 있다. 예를 들어, 만다린어로 "yi" 의 발음은 100개 이상의 한자에 대응될 수 있다. 따라서, 각각의 원시 엔트리 (102) 를 병음 (106) 으로, 그 후 중국 문자 (110) 로 다시 컨버팅하는, 단어-병음 컨버터 (104) 및 병음-단어 컨버터 (108) 에 의해 구현되는 프로세스는 동형이의어 및/또는 동음이의어인 중국어 단어들이 큰 비율로 주어져 용이하지 않을 수도 있다.
본 명세서에 설명된 시스템 및 방법은 변환 규칙, 은닉 마르코프 모델 및 혼동되는 문자들의 유사 값 매트릭스를 사용한다. 중국어 애플리케이션에서는, 혼동되는 문자 쌍 사이의 유사 값은, 문자들이 유사한 발음을 가지고, 유사한 키입력을 공유하는 경우 및/또는 철자가 유사한 경우, 즉, 시각적으로 유사한 경우라면 양수가 될 수도 있다. 그렇지 않으면, 그 값은 0이다. 일 구현에서, 유사 값은, 예를 들어, 혼동되는 문자 쌍에 대해서는 1, 혼동되지 않는 문자 쌍에 대해서는 0 의 불 값을 가질 수도 있다. 제 1 언어로 된 혼동되는 문자 쌍 사이에서의 유사 값은, 중간 표현으로 통상 발음되는 것에 따라 정의될 수 있다.
중국어 단어를 병음으로 컨버팅하고 병음을 중국어로 컨버팅하는 다양하고 적절한 메커니즘이 구현될 수도 있다. 예를 들어, 다양한 디코더들이 병음을 한자 (중국 문자) 로 변환하는데 적절하다. 일 실시형태에서는, 은닉 마르코프 모델을 사용하는 비터비 (Veterbi) 디코더가 구현될 수도 있다. 은닉 마르코프 모델에 대한 트레이닝은, 예를 들어, 경험적 카운트를 수집함으로써 또는 예상치를 연산하고 반복적인 최대 프로세스를 수행함으로써 획득된다. 비터비 알고리즘은 마르코프 커뮤니케이션 채널의 출력 관찰에 따라 소스입력을 디코딩하는데 유용하고 효율적인 알고리즘이다. 비터비 알고리즘은 스피치 인식, 광학적 문자 인식, 기계 번역, 스피치 태깅, 파싱, 철자 검사와 같은, 자연어 프로세싱을 위한 다양한 애플리케이션에서 성공적으로 구현되어 왔다. 그러나, 마르코프 가정 대신, 그 외의 다양한 적절한 가정들이 디코딩 알고리즘을 구현하도록 실행될 수도 있다는 점을 이해해야 한다. 또한, 비터비 알고리즘은 디코더로 구현될 수 있는 다만 하나의 적당한 디코딩 알고리즘이고, 유한 상태 기계 (finite state machine), 베이시안 네트워크 (Bayesian network), 디시전 플레인 알고리즘 (decision plane algorithm : 고차원적 비터비 알고리즘) 또는 Bahl-Cocke-Jelinek-Raviv (BCJR) 알고리즘 (비터비 알고리즘의 전/후 2 패스) 과 같은 그 외의 다양하고 적당한 디코딩 알고리즘들이 구현될 수도 있다.
의심 입력 엔트리 검출기 (100) 에 의해 검출된 의심 엔트리들은 거의 모든 철자 오류들을 포함한다. 그러나, 의심 엔트리들은 또한 일반적으로 비교적 높은 허위-경고/허위-긍정 비율, 즉, 부정확한 쿼리 수 대 부정확하다고 마크된 정확한 쿼리 수의 비율을 포함하고 있다. 이하, 더 상세히 설명하는 바와 같이, 의심 엔트리 검출기 (100) 에 의해 판정된 의심 쿼리 (116) 는 그 후, 정확 또는 부정확으로 분류될 수도 있다. 분류기는, 바람직하게는 변환 규칙 기반 분류기일 수도 있고, 또는 결정 트리 분류기, 신경망 분류기 등과 같은 분류기일 수도 있다. 정확으로 분류된 엔트리들에 대해서는, 제안이 실행되지 않는다. 부정확으 로 분류된 엔트리들에 대해서는, 철자 정정 제안들이 각 가능한 대체 철자의 가능성에 따라 실행될 수도 있다.
도 2는 의심 엔트리 검출기 (100) 에 의해 프로세싱된 원시 엔트리 (102) 세트로부터 철자 정정 변환을 생성시키는 시스템 및 방법 (120) 을 도시한 블록도이다. 더 상세하게는, 원시 엔트리 (102) 세트는 웹 검색 엔진에서의 쿼리 로그와 같은 사용자 입력 엔트리들 및/또는, 예를 들어, 인터넷에서 이용 가능할 것 같은 문서로부터 얻어진 엔트리들을 포함한다. 사용자 입력 엔트리들의 경우에, 원시 입력 (102) 세트는, 예를 들어 지난 삼 주 또는 두 달간의 사용자 쿼리 모음을 포함할 수도 있다. 웹 컨텐츠와 신문, 책, 잡지, 웹페이지 등과 같은 다양한 발행물들이 문서의 예로 포함될 수도 있다. 원시 입력 (102) 세트는, 예를 들어 문서 세트, 문서 모음 또는 저장된 문서와 같은, 인터넷에서 이용 가능한 간략화된 및/또는 전통적인 중국어로 기록된 문서들로부터 얻어질 수도 있다. 본 명세서에 설명된 것처럼, 도시된 시스템 및 방법은 웹 검색 엔진의 문맥 내에서와, 조직된 데이터들을 포함하는 데이터베이스에 대한 검색 엔진에 특별히 적용 가능하다는 점을 언급한다. 그러나, 철자 오류를 검출 및 정정하는 그 외의 다양한 애플리케이션들에 대해, 더 상세하게는 비-로마자 기반 언어로 된 엔트리들을 위한, 본 시스템 및 방법이 적용되고 이용될 수 있다는 점을 이해해야 한다. 예를 들어, 본 시스템 및 방법은, 철자 오류를 검출 및 정정하는, 예를 들어 단어 프로세싱 애플리케이션과 같은 CJK 텍스트 입력 애플리케이션에 적용될 수도 있다.
변환 규칙 생성기 및 분류기 (120) 는 에릭 브릴 (Eric Brill) 에 의해 소개 된 학습 알고리즘에 기초한 변환을 구현하며, 그것은 트레이닝 프로세스 동안, 트레이닝하는 데이터, 예를 들어, 인간이 주석을 첨부한 부정확한 철자들로부터의 신뢰치에 따라 자동적으로 변환 규칙들을 추출하고 (학습하고) 등급을 매긴다. 이 변환 규칙들은 주석기/투표기 (124) 에 의해 사용된다. 변환 규칙들은 언어적 지식보다 통계에 기초한다는 점에서, 그 변환 규칙들은 언어상 사용되는 문법 규칙들과는 상이하다. 따라서, 예를 들어 대다수 엔트리들이 임의의 단어들을 동일한 부정확한 방법으로 부정확하게 철자한다면, 그 부정확한 철자는 정확으로 분류될 것이다. 변환 규칙 기반 방법에 대한 부가적 정보는 2004년 1월 27일에 발행된 에릭 브릴의 미국 특허 No.6,684201에 나타나 있으며, "문자열 기반 패턴 트레이닝을 사용한 모호 사이트 분해 학습을 위한 언어상 비모호 시스템 및 방법 (Linguistic Disambiguation System and Method Using String-Based Pattern Training to Learn to Resolve Ambiguity Sites)" 이라는 명칭으로, 전체 내용은 본 명세서에 참조로 통합되어 있다. 따라서 변환 규칙 생성기 (120) 는 자동적으로, 즉 통제되지 않고, 사용자 투표를 이용하여 규칙들을 생성한다. 즉, 문자 패턴의 정확함은 인간이 주석을 첨부한 데이터보다, 예를 들어, 쿼리 로그와 같은 데이터베이스에서 다수결에 따라 판정된다.
각 변환 규칙은 신뢰치와 관련되어 있어, 보다 신뢰치가 낮은 규칙보다 후에 보다 신뢰치가 높은 규칙이 적용되도록 한다. 일 예로, 제 1 변환 규칙은, B가 X에 선행하면 X를 Y로 교환하도록 특정할 수도 있다. 신뢰치가 높은 제 2 변환 규칙은, E가 Y에 후행하면 Y를 X로 교환하도록 특정할 수도 있다. 따라서 제 1 변환 규칙이 먼저 엔트리 BXE에 적용되어 BYE를 생성시킬 것이다. 그 후, 제 2 변환 규칙이 결과물인 엔트리 BYE에 적용되어 다시 BXE로 컨버팅할 것이다. 명백하듯이, 변환 규칙이 적용되는 순서는 결과에 영향을 미칠 수 있다. 또한 교환되는 문자들과 교환하는 문자들은 엔트리의 임의의 구성요소일 수도 있고 단어일 필요는 없다는 점을 언급한다. 유사하게, 이 조건은 임의의 문맥, 스피치 부분의 태그 또는 문법적으로 끝나지 않은 라벨 (예를 들어, noun phrase를 의미하는 NP) 에 기초할 수도 있다. 비록 변환 규칙 기반 분류기가 바람직하다 하더라도, 단순한 베이시안 분류기, 결정 트리 분류기, 신경망 분류기, 또는 그 외 다양한 적절한 분류기들 중 임의의 것이 의심 엔트리 (116) 를 분류하는데 유사하게 구현될 수도 있다.
도 2로 돌아가, 도시된 바와 같이, 의심 엔트리 검출기 (100) 에 의해 출력된 각 의심 엔트리 (116) 및 그에 대응하는 가능한 대체 철자 (110) 가 철자 정정 변환 규칙 생성기 (120) 의 주석기 (124) 에 수신된다. 주석기 (124) 는 처음에는 초기 변환 규칙 (126) 에 기초하여, 마지막에는 추출되고 등급 매겨진 변환 규칙 (130) 에 기초하여 엔트리 (128) 를 분류한다.
학습 단계는, 인간 개인에 의해 통제될 수도 있고, 및/또는 통제되지 않을 수도 있다. 일 구현에서, 수동적으로 생성된 몇몇 통상적인 변환 규칙의 초기 세트는 작은 의심 엔트리 세트에 자동적으로 주석을 첨부하는데 사용되며, 다소의 인간 모니터링을 같이하거나, 인간 모니터링 없이 사용자 투표를 이용한다. 초기의 학습 단계 후, 바람직하게는 다소의 인간 모니터링과 함께, 부가적 변환 규칙 들이 생성되며, 추가적인 의심 엔트리들에 주석이 첨부된다. 예를 들어, 상대적으로 적은 수의 규칙들로 사용자 트래픽의 상당량을 제어하는, 결과물로 나온 규칙들은 매우 신뢰성이 높다고 간주되며, 따라서 높은 신뢰치에 대응된다. 보다 신뢰도가 높은 규칙들이 보다 신뢰도가 낮은 규칙들보다 전형적으로 작은 커버리지를 가지기 때문에, 신뢰도가 높은 규칙들과 비교적 신뢰도가 낮은 규칙들이 모두 사용된다.
예를 들어, 사용자 트래픽에서 상대적으로 작은 비율을 차지하는 상대적으로 다수인 잔존하는 의심 엔트리가 비용 효율성 목적으로 인간 모니터링 없이 자동적으로 생성된다. 그러한 규칙들을 자동적으로 생성시키는 하나의 도시된 프로세스 (150) 가 도 3 의 플로우차트로 도시된다. 더 상세하게는, 루프 (152) 에서의 각 의심 쿼리 Q와, 루프 (154) 에서의 각 대응하는 대체 철자 Q'에 대해, Q 와 대체 철자 Q'의 비교가 블록 (156) 에서 이루어지며, 부적절할 가능성이 있는 Q의 문자들과 그 대체물 C'를 판정한다. 블록 (158) 에서, C의 선행 문자들 N개와 C의 후행 문자들 N개로, 폭 2N+1의 윈도우가 개방된다. 예를 들어 2N+1과 같은 임의의 적절한 문맥 길이가 구현될 수도 있으며, 의심되는 문자의 앞의 문맥 길이와 뒤의 문맥 길이가 동일할 필요는 없다는 점을 언급한다. C_{-N}, ..., C, ..., C_{N}으로부터의 모든 부분열 (pre-C, C, post-C) 의 빈도 F(pre-C, C, post-C) 는 카운트되어, 즉, 규칙이 의심 엔트리 내의 합당하게 큰 비율의 철자 오류를 커버한다면 그 규칙이 중요도가 높음을 보증한다. 문자열 S = xs1, xs2, ..., xsj는, 1≤s1<s2...<sj<k일때, 문자열 X = x1, x2, ..., xk의 부분열이다.
다음으로, 블록 (160) 에서, C와 C'를 교환함으로써 대응 빈도가 판정된다. 그 후 결정 블록 (162) 에서, 예를 들어, 쿼리 로그 및 웹페이지, 즉, 사용자 투표를 사용하여 규칙이 신뢰성이 높은지 여부를 결정한다. 규칙이 신뢰성이 높다고 판정되면, 즉, pre-C와 post-C가 주어진 C를, C'로 대체하는 변환 규칙이 추출된다. 구체적으로, 규칙은
F (pre-C, C, post-C) > T1 이고
F (pre-C, C', post-C) / F (pre-C, C, post-C) > T2 이라면 신뢰성이 높다고 간주되며, T1은 최소 중요도 임계치 (minimum significance threshold) 이고, T2는 최소 신뢰도 임계치 (minimum confidence threshold) 이다. 전술한 바와 같이, 변환 규칙 생성기에 의해 구현되는 프로세스 (150) 는 자동적으로, 즉 통제되지 않고, 사용자 투표를 이용하여 규칙들을 생성시켜, 문자 패턴의 정확성은 인간이 주석을 첨부한 데이터보다는, 예를 들어 쿼리 로그와 같은 데이터베이스에서의 다수결에 따라 판정되도록 한다.
가장 빈번한 변환 규칙들이 오류 패턴의 매우 큰 비율을 차지할 것이기 때문에, 규칙 세트의 사이즈는 바람직하게는 의심 엔트리들의 수와 함께 급속히 증가하지는 않는다. 또한 각 규칙의 최소 발생을 설정하여 변환 규칙 세트의 사이즈를 제한할 수도 있다.
본 명세서에서 설명하는 시스템 및 방법을 구현하는 애플리케이션은 검색 엔진에서와 같이 서버 사이트에서 구현될 수도 있고, 또는, 예를 들어, 다운로드 되어 최종 사용자 컴퓨터와 같은 클라이언트 사이트에서 구현될 수도 있어, 단어 프로세싱 문서에 대한 텍스트 입력단계에 철자 정정을 제공하거나 검색 엔진과 같은 원격 서버와 접속할 수도 있다. 클라이언트 사이트 애플리케이션은, 예를 들어 툴바에서 구현될 수도 있고, 예를 들어 X가 Z에 선행하거나 후행할 때를 제외하고 절대 X와 Y의 교환을 금지하는 것과 같은, 임의의 철자 정정을 불허함을 특정함으로써, 사용자가 애플리케이션을 커스터마이즈하도록 허용하는, 정지 규칙 패턴의 사용자 편집가능 테이블을 선택적으로 포함할 수도 있다. 예를 들어, "buy" 와 "sell" 같은 다소의 중국 문자들은 "mai" 라는 동일한 (반면 톤은 상이한) 발음을 가지며, 그 언어에서 대부분 신택스상 동일한 역할을 하지만 완전히 상이한 의미를 지닌다. 다수의 자동 방식의 철자 규칙 생성 프로그램들은 "buy" 를 "sale" 로, 또는 그 역으로 부정확하게 변경하려는 경향이 있다. 최종 사용자는 정지 규칙 패턴의 테이블에서 금지 규칙 "(X, Y)" 를 특정하여 X가 Y로 교환되는 철자 정정 애플리케이션을 방지할 수도 있다.
도 4는 철자 정정 제안이 있다면 이를 판정하는, 엔트리 프로세싱에 대해 변환 규칙을 이용하는 프로세스 (200) 를 도시하는 플로우차트이다. 결정 블록 (202) 은 임의의 철자 정정 규칙이 사용자 입력에 적용되는지 여부를 판정한다. 결정 블록 (202) 을 수행하기 위해, 철자 정정 변환 규칙의 해시 (hash) 테이블을 검사하여 임의의 변환 규칙이 사용자 입력에 적용되는지 여부를 판정한다. 예를 들어, 변환 규칙이, 주어진 중국어 사용자 입력 ABCDE에 대해 C의 선행 문자 들이 AB이면 문자 C를 C'로 교환하여야 한다고 지시한다면, 그 후 이 특정 규칙은 사용자 입력에 적용될 수 있다. 사용자 입력에 규칙이 적용될 수 없다면, 사용자 입력에 대해 철자 정정 제안이 실행되지 않는다. 또는, 사용자 입력에 적용 가능한 각 철자 정정 변환 규칙에 대해, 적용 가능한 철자 정정 변환 규칙에 대응하는, 사용자 입력에 대한 대체 철자들이 블록 (204) 에서 생성된다. 위의 예에서, 대체 철자 ABC'DE는 사용자 입력 ABCDE에 대해, 적용 가능한 철자 정정 변환 규칙에 대응하여 생성되었다.
결정 블록 (206) 에서, 각 대체 철자의 가능성이 판정되고, 사용자 입력의 가능성에 비교된다. 일 실시형태에서, 결정 블록 (206) 은 은닉 마르코프 모델과 비터비 디코더를 이용하여 가능성을 계산할 수도 있다. 현재 예에서, ABCDE와 ABC'DE의 상대적인 출력 확률이 판정되고 비교된다. 대체 철자는 사용자 입력보다 높은 가능성을 가지며, 따라서 다음 조건을 만족하면 유효한 정정으로 간주된다:
P (ABC'DE) * P (변환 규칙) > P (ABCDE), P (변환 규칙) 는 성공적 정정의 수와 총 정정 수의 비로 정의된다. P (ABCDE)는 분할에서의 모호성을 고려하여야 한다. 예를 들어, ABCDE가 AB-CDE 및 ABC-DE의 두 가지 분할이 가능하다면, 베이시안 확률의 곱의 합이 될 것이다:
P (ABCDE) = P (후단 입력|CDE) * P (CDE|AB) * P (AB|전단 입력) +
P (후단 입력|DE) * P (DE|ABC) * P (ABC|전단 입력).
위의 방정식은, 전체 연혁에 의하기보다 선행 단어에 의해 현재 단어를 판정 하는 마르코프 가정을 적용함으로써 원시의 베이시안 확률로부터 얻어진 베이시안 확률임을 언급한다. P (ABC'DE) 의 판정은 유사하게 실행된다.
주어진 대체 철자가 사용자 입력보다 더 가능성이 높지 않다면, 특정 철자 정정 제안이 실행되지 않는다. 그러나, 주어진 대체 철자가 사용자 입력보다 더 가능성이 높다고 결정 블록 (206) 에서 판정되면, 사용자 입력에 대응하는 대체 철자가 제안되고, 및/또는 자동적으로 블록 (208) 에서 실행된다.
본 명세서에 설명된 철자 정정을 위한 시스템 및 방법은 특별히 비-로마자 기반 언어를 사용하는 사용자에 매우 적당하고, 철자 오류 검출 및, 대체 철자 제안 또는 정정의 생성 양자 모두에 효과가 높을 수 있다. 또한, 철자 정정을 위한 시스템 및 방법은 다양한 사용자 입력 또는 쿼리의 철자 정정을 수행하여, 특별히 웹 검색 엔진의 문맥 내에서와, 조직된 데이터들을 포함하는 데이터베이스를 위한 검색 엔진에도 적용 가능하다.
본 명세서에 본 발명의 예시적 실시형태들이 설명되고 도시되었으나, 그것들은 단지 도시적이며 본 발명의 정신과 범위에서 벗어나지 않고 이 실시형태들에 수정을 가할 수 있음이 인식될 것이다. 따라서, 본 발명의 범위는 수정될 수도 있는 다음 청구항들에 의해서만 정의되도록 하며, 각 청구항은 상기 발명의 실시형태로서 이 구체적 실시형태의 설명에 명백히 포함된다.

Claims (39)

  1. 제 1 언어로 된 입력 엔트리를 수신하는 단계;
    상기 입력 엔트리를 상기 제 1 언어와는 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅하는 단계;
    상기 중간 엔트리를 상기 제 1 언어로 된 상기 입력 엔트리의 하나 이상의 가능한 대체 형태로 컨버팅하는 단계;
    매치를 검색하기 (locate) 위해 상기 입력 엔트리를 상기 입력 엔트리의 하나 이상의 가능한 대체 형태와 비교하는 단계;
    상기 비교에 기초하여 상기 입력 엔트리가 의심 입력 엔트리 (questionable input entry) 인 것으로 판정하는 단계; 및
    상기 의심 입력 엔트리와 상기 하나 이상의 가능한 대체 형태를 사용하는 변환규칙 생성기를 사용하여, 철자 정정 변환 규칙들을 생성 및 트레이닝하는 단계를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 중간 엔트리는, 상기 제 1 언어로 된 상기 입력 엔트리의 2 이상의 가능한 대체 형태들로 컨버팅되고,
    상기 비교하는 단계는, 상기 제 1 언어로 된 상기 입력 엔트리의 각각의 가능한 대체물과 상기 입력 엔트리를 비교하는 단계를 포함하고,
    상기 판정하는 단계는, 상기 가능한 대체 형태 전체로부터 매치가 검색되지 않는다면 상기 입력 엔트리는 의심 입력 엔트리인 것으로 판정하고, 매치가 검색된다면 상기 입력 엔트리는 정확한 입력 엔트리인 것으로 판정하는 단계를 포함하는, 방법.
  3. 제 1 항에 있어서,
    상기 제 1 언어는 비-로마자 기반 언어인, 방법.
  4. 제 1 항에 있어서,
    상기 제 1 언어는 중국어이고 상기 중간 표현은 병음 (pinyin) 인, 방법.
  5. 제 1 항에 있어서,
    상기 입력 엔트리는 쿼리 로그 (query log) 내의 사용자 쿼리인, 방법.
  6. 제 1 항에 있어서,
    상기 수신하는 단계는 복수의 입력 엔트리를 수신하는 단계를 포함하는, 방법.
  7. 제 1 항에 있어서,
    상기 철자 정정 변환 규칙들의 세트에 기초하여 상기 의심 입력 엔트리를 철자가 정확한 엔트리와 철자가 부정확한 엔트리 중 하나로서 분류하는 단계를 더 포함하는, 방법.
  8. 제 7 항에 있어서,
    상기 분류하는 단계는 변환 규칙 기반 분류기 (transformation rule based classifier) 에 의해 수행되는, 방법.
  9. 삭제
  10. 제 1 항에 있어서,
    상기 철자 정정 변환 규칙들을 생성 및 트레이닝하는 단계는, 의심 입력 엔트리 데이터베이스를 사용하여 자동적으로 수행되는, 방법.
  11. 제 7 항에 있어서,
    상기 분류하는 단계는 자동적인 방식과 수동 모니터링 중 하나 이상으로 수행되는, 방법.
  12. 제 7 항에 있어서,
    상기 제 1 언어로 된 사용자 입력을 수신하는 단계;
    임의의 상기 철자 정정 변환 규칙들이 상기 사용자 입력에 적용되는지 여부를 판정하는 단계;
    상기 철자 정정 변환 규칙들 중 적어도 하나가 상기 사용자 입력에 적용된다고 판정되면 상기 사용자 입력에 대응하는, 상기 제 1 언어로 된 하나 이상의 대체 형태를 생성시키는 단계;
    상기 사용자 입력의 가능성을 상기 사용자 입력의 하나 이상의 대체 형태의 가능성과 비교하는 단계; 및
    상기 사용자 입력보다 더 높은 가능성을 가진, 상기 사용자 입력의 하나 이상의 대체 형태로 철자 정정 및 철자 정정 제안 중 하나 이상을 실행하는 단계를 더 포함하는, 방법.
  13. 제 12 항에 있어서,
    사용자 입력과 대체 철자의 특정한 조합에 대해, 철자 정정 제안 또는 철자 정정을 실행하는 것을 불허하는, 정지 규칙 패턴 (stop rule pattern) 의 사용자 편집 가능 테이블을 유지하는 단계를 더 포함하는, 방법.
  14. 제 1 언어로 된 입력 엔트리를 상기 제 1 언어와는 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅하도록 구성되는 제 1 컨버터;
    상기 중간 엔트리를, 상기 제 1 언어로 된 상기 입력 엔트리의 하나 이상의 가능한 대체 철자로 컨버팅하도록 구성되는 제 2 컨버터; 및
    상기 입력 엔트리를 하나 이상의 가능한 대체 철자와 비교하여 매치를 검색하도록 구성되는 비교기; 를 포함하며,
    상기 비교기는 상기 비교에 기초하여 상기 입력 엔트리가 의심 입력 엔트리인지 여부를 판정하도록 또한 구성되고,
    상기 의심 입력 엔트리 및 상기 제 1 언어로 된 상기 입력 엔트리의 상기 하나 이상의 가능한 대체 철자를 사용하여 철자 정정 변환 규칙들을 생성하는 변환 규칙 생성기를 더 포함하는, 시스템.
  15. 제 14 항에서,
    상기 제 2 컨버터는, 상기 중간 엔트리를 상기 제 1 언어로 된 상기 입력 엔트리의 2 이상의 가능한 대체 형태들로 컨버팅하도록 구성되고,
    상기 비교기는, 상기 제 1 언어로 된 상기 입력 엔트리의 상기 하나 이상의 가능한 대체물 각각과 상기 입력 엔트리를 비교하고, 모든 상기 가능한 대체 형태들로부터 매치가 검색되지 않는다면 상기 입력 엔트리가 의심 입력 엔트리인 것으로 판정하고, 매치가 검색된다면 상기 입력 엔트리가 정확한 입력 엔트리인 것으로 판정하도록 구성되는, 시스템.
  16. 제 14 항에서,
    상기 제 1 언어는 비-로마자 기반 언어인, 시스템.
  17. 제 14 항에 있어서,
    상기 제 1 언어는 중국어이고 상기 중간 표현은 병음인, 시스템.
  18. 제 14 항에 있어서,
    상기 입력 엔트리는 쿼리 로그 내의 사용자 쿼리인, 시스템
  19. 제 14 항에 있어서,
    상기 철자 정정 변환 규칙들의 세트에 기초하여 상기 의심 입력 엔트리를 철자가 정확한 엔트리와 철자가 부정확한 엔트리 중 하나로서 분류하도록 구성되는 분류기를 더 포함하는, 시스템.
  20. 제 19 항에 있어서,
    상기 분류기는 변환 규칙 기반 분류기인, 시스템.
  21. 삭제
  22. 제 14 항에 있어서,
    상기 변환 규칙 생성기는, 의심 입력 엔트리 데이터베이스를 사용하여 자동적으로 상기 철자 정정 변환 규칙들을 생성시키는, 시스템.
  23. 제 19 항에 있어서,
    상기 분류기는 자동적인 방식과 수동 모니터링 중 하나 이상으로 수행하는, 시스템.
  24. 제 19 항에 있어서,
    임의의 상기 철자 정정 변환 규칙들이 사용자 입력에 적용되는지 여부를 판정하도록 구성되는 검출기;
    상기 철자 정정 변환 규칙들 중 적어도 하나가 상기 사용자 입력에 적용된다고 판정되면 상기 제 1 언어로 된 상기 사용자 입력의 하나 이상의 대체 철자를 생성시키도록 구성되는 생성기;
    상기 사용자 입력의 가능성을 상기 사용자 입력의 하나 이상의 대체 철자의 가능성과 비교하도록 구성되는 비교기; 및
    상기 사용자 입력보다 더 높은 가능성을 가진 상기 사용자 입력의 하나 이상의 대체 철자로 철자 정정 및 철자 정정 제안 중 하나 이상을 실행하도록 구성되는 정정기를 더 포함하는, 시스템.
  25. 제 24 항에 있어서,
    상기 정정기가 사용자 입력과 대체 철자의 특정한 조합에 대해, 철자 정정 제안 또는 철자 정정을 실행하는 것을 불허하도록 하는, 커스터마이즈 가능한 정지 규칙 패턴 테이블 (customizable stop rule pattern table) 을 더 포함하는, 시스템.
  26. 컴퓨터 프로세서에서 실행 가능한 명령들이 저장된 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은,
    제 1 언어로 된 입력 엔트리를 수신하는 것;
    상기 입력 엔트리를 상기 제 1 언어와는 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅하는 것;
    상기 제 1 언어로 된 상기 입력 엔트리의 하나 이상의 가능한 대체 형태로 상기 중간 엔트리를 컨버팅하는 것;
    매치를 검색하기 위해 상기 입력 엔트리를 상기 입력 엔트리의 하나 이상의 가능한 대체 형태와 비교하는 것;
    상기 비교에 기초하여 상기 입력 엔트리를 의심 입력 엔트리인 것으로 판정하는 것; 및
    상기 의심 입력 엔트리와 상기 대체 형태를 사용하는 변환 규칙 생성기를 사용하여, 철자 정정 변환 규칙들을 생성 및 트레이닝하는 것을 포함하는, 컴퓨터 판독가능 저장 매체.
  27. 제 26 항에 있어서,
    상기 중간 엔트리는, 상기 제 1 언어로 된 상기 입력 엔트리의 2 이상의 가능한 대체 형태들로 컨버팅되고,
    상기 비교하는 것은, 상기 제 1 언어로 된 상기 입력 엔트리의 각각의 가능한 대체물과 상기 입력 엔트리를 비교하는 것을 포함하고,
    상기 판정하는 것은, 모든 상기 가능한 대체 형태들로부터 매치가 검색되지 않는다면 상기 입력 엔트리가 의심 입력 엔트리인 것으로 판정하고, 매치가 검색된다면 상기 입력 엔트리가 정확한 입력 엔트리인 것으로 판정하는 것을 포함하는, 컴퓨터 판독가능 저장 매체.
  28. 제 26 항에 있어서,
    상기 제 1 언어는 비-로마자 기반 언어인, 컴퓨터 판독가능 저장 매체.
  29. 제 26 항에 있어서,
    상기 제 1 언어는 중국어이고 상기 중간 표현은 병음인, 컴퓨터 판독가능 저장 매체.
  30. 제 26 항에 있어서,
    상기 입력 엔트리는 쿼리 로그 내의 사용자 쿼리인, 컴퓨터 판독가능 저장 매체.
  31. 제 26 항에 있어서,
    상기 수신하는 것은 복수의 입력 엔트리를 수신하는 것을 포함하는, 컴퓨터 판독가능 저장 매체.
  32. 제 26 항에 있어서,
    상기 컴퓨터 판독가능 저장 매체는 툴바 내의 클라이언트 사이트에서 구현되는, 컴퓨터 판독가능 저장 매체.
  33. 제 26 항에 있어서,
    상기 명령들은, 상기 철자 정정 변환 규칙들의 세트에 기초하여 상기 의심 입력 엔트리를 철자가 정확한 엔트리와 철자가 부정확한 엔트리 중 하나로서 분류하는 것을 더 포함하는, 컴퓨터 판독가능 저장 매체.
  34. 제 33 항에 있어서,
    상기 분류하는 것은 변환 규칙 기반 분류인, 컴퓨터 판독가능 저장 매체.
  35. 삭제
  36. 제 26 항에 있어서,
    상기 철자 정정 변환 규칙들은 의심 입력 엔트리 데이터베이스를 사용하여 자동적으로 생성되는, 컴퓨터 판독가능 저장 매체.
  37. 제 33 항에 있어서,
    상기 분류하는 것은 자동적인 방식과 수동 모니터링 중 하나 이상으로 수행되는, 컴퓨터 판독가능 저장 매체.
  38. 제 33 항에 있어서,
    상기 명령들은,
    상기 제 1 언어로 된 사용자 입력을 수신하는 것;
    임의의 상기 철자 정정 변환 규칙들이 상기 사용자 입력에 적용되는지 여부를 판정하는 것;
    상기 철자 정정 변환 규칙들 중 적어도 하나가 상기 사용자 입력에 적용된다고 판정되면 상기 사용자 입력에 대응하는, 상기 제 1 언어로 된 하나 이상의 대체 형태를 생성시키는 것;
    상기 사용자 입력의 가능성을 상기 사용자 입력의 하나 이상의 대체 형태의 가능성과 비교하는 것; 및
    상기 사용자 입력보다 더 높은 가능성을 가진, 상기 사용자 입력의 하나 이상의 대체 형태로 철자 정정 및 철자 정정 제안 중 하나 이상을 실행하는 것을 더 포함하는, 컴퓨터 판독가능 저장 매체.
  39. 제 38 항에 있어서,
    상기 명령들은,
    사용자 입력과 대체 형태의 특정한 조합에 대해, 철자 정정 제안 또는 철자 정정을 실행하는 것을 불허하는, 정지 규칙 패턴의 사용자 편집가능 테이블을 유지하는 것을 더 포함하는, 컴퓨터 판독가능 저장 매체.
KR1020077001543A 2004-06-23 2005-06-21 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법 KR101146539B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/875,449 2004-06-23
US10/875,449 US20050289463A1 (en) 2004-06-23 2004-06-23 Systems and methods for spell correction of non-roman characters and words
PCT/US2005/022027 WO2006002219A2 (en) 2004-06-23 2005-06-21 Systems and methods for spell correction of non-roman characters and words

Publications (2)

Publication Number Publication Date
KR20070027726A KR20070027726A (ko) 2007-03-09
KR101146539B1 true KR101146539B1 (ko) 2012-05-25

Family

ID=35427493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077001543A KR101146539B1 (ko) 2004-06-23 2005-06-21 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법

Country Status (5)

Country Link
US (1) US20050289463A1 (ko)
JP (2) JP2008504605A (ko)
KR (1) KR101146539B1 (ko)
CN (1) CN101002198B (ko)
WO (1) WO2006002219A2 (ko)

Families Citing this family (156)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8650187B2 (en) * 2003-07-25 2014-02-11 Palo Alto Research Center Incorporated Systems and methods for linked event detection
US7260780B2 (en) * 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7321892B2 (en) * 2005-08-11 2008-01-22 Amazon Technologies, Inc. Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7895223B2 (en) 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US8006180B2 (en) * 2006-01-10 2011-08-23 Mircrosoft Corporation Spell checking in network browser based applications
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US8732314B2 (en) * 2006-08-21 2014-05-20 Cisco Technology, Inc. Generation of contact information based on associating browsed content to user actions
US9552349B2 (en) * 2006-08-31 2017-01-24 International Business Machines Corporation Methods and apparatus for performing spelling corrections using one or more variant hash tables
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8024173B1 (en) 2006-09-11 2011-09-20 WordRake Holdings, LLC Computer processes for detecting and correcting writing problems associated with nominalizations
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
WO2009000103A1 (en) * 2007-06-25 2008-12-31 Google Inc. Word probability determination
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8589149B2 (en) * 2008-08-05 2013-11-19 Nuance Communications, Inc. Probability-based approach to recognition of user-entered data
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
CN102439540B (zh) * 2009-03-19 2015-04-08 谷歌股份有限公司 输入法编辑器
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US9183834B2 (en) * 2009-07-22 2015-11-10 Cisco Technology, Inc. Speech recognition tuning tool
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102541837A (zh) * 2010-12-22 2012-07-04 张家港市赫图阿拉信息技术有限公司 一种校正输入中文拼写的方法
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8712931B1 (en) * 2011-06-29 2014-04-29 Amazon Technologies, Inc. Adaptive input interface
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8976118B2 (en) 2012-01-20 2015-03-10 International Business Machines Corporation Method for character correction
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
TW201403354A (zh) * 2012-07-03 2014-01-16 Univ Nat Taiwan Normal 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
KR102069697B1 (ko) * 2013-07-29 2020-02-24 한국전자통신연구원 자동 통역 장치 및 방법
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
WO2015109468A1 (en) * 2014-01-23 2015-07-30 Microsoft Corporation Functionality to reduce the amount of time it takes a device to receive and process input
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9377871B2 (en) 2014-08-01 2016-06-28 Nuance Communications, Inc. System and methods for determining keyboard input in the presence of multiple contact points
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9753915B2 (en) 2015-08-06 2017-09-05 Disney Enterprises, Inc. Linguistic analysis and correction
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3398080A4 (en) 2015-12-29 2019-07-31 Microsoft Technology Licensing, LLC FORMATTING DOCUMENT OBJECTS BY VISUAL SUGGESTIONS
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10180930B2 (en) 2016-05-10 2019-01-15 Go Daddy Operating Company, Inc. Auto completing domain names comprising multiple languages
US10430485B2 (en) 2016-05-10 2019-10-01 Go Daddy Operating Company, LLC Verifying character sets in domain name requests
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
TWI614618B (zh) * 2016-06-17 2018-02-11 National Central University 字詞校正方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10269352B2 (en) * 2016-12-23 2019-04-23 Nice Ltd. System and method for detecting phonetically similar imposter phrases
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109844743B (zh) * 2017-06-26 2023-10-17 微软技术许可有限责任公司 在自动聊天中生成响应
CN112445953B (zh) * 2019-08-14 2024-07-19 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
US11443734B2 (en) 2019-08-26 2022-09-13 Nice Ltd. System and method for combining phonetic and automatic speech recognition search
US11675920B2 (en) * 2019-12-03 2023-06-13 Sonicwall Inc. Call location based access control of query to database
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质
JP2023039822A (ja) * 2021-09-09 2023-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN118133813B (zh) * 2024-05-08 2024-08-09 北京澜舟科技有限公司 中文拼写纠错模型的训练方法以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
US5706502A (en) * 1996-03-25 1998-01-06 Sun Microsystems, Inc. Internet-enabled portfolio manager system and method
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JPH10269204A (ja) * 1997-03-28 1998-10-09 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及びその装置
CN1652107A (zh) * 1998-06-04 2005-08-10 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6649222B1 (en) * 1998-09-07 2003-11-18 The Procter & Gamble Company Modulated plasma glow discharge treatments for making superhydrophobic substrates
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6684201B1 (en) * 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files

Also Published As

Publication number Publication date
WO2006002219A3 (en) 2006-08-03
WO2006002219A2 (en) 2006-01-05
KR20070027726A (ko) 2007-03-09
CN101002198A (zh) 2007-07-18
JP5444308B2 (ja) 2014-03-19
JP2008504605A (ja) 2008-02-14
US20050289463A1 (en) 2005-12-29
CN101002198B (zh) 2013-10-23
JP2012069142A (ja) 2012-04-05

Similar Documents

Publication Publication Date Title
KR101146539B1 (ko) 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법
CN109271626B (zh) 文本语义分析方法
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
Azmi et al. Real-word errors in Arabic texts: A better algorithm for detection and correction
Farrús et al. Overcoming statistical machine translation limitations: error analysis and proposed solutions for the Catalan–Spanish language pair
Mishra et al. A survey of spelling error detection and correction techniques
Doush et al. A novel Arabic OCR post-processing using rule-based and word context techniques
Noaman et al. Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system
Zhang et al. Design and implementation of Chinese Common Braille translation system integrating Braille word segmentation and concatenation rules
Jain et al. Detection and correction of non word spelling errors in Hindi language
Kaur et al. Spell checker for Punjabi language using deep neural network
Yang et al. Spell Checking for Chinese.
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Xie et al. ABC-Fusion: Adapter-based BERT-level confusion set fusion approach for Chinese spelling correction
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
Yesuf et al. Amharic Word Sense Disambiguation Using Wordnet
Sonnadara et al. Sinhala spell correction: A novel benchmark with neural spell correction
Eutamene et al. Ontologies and Bigram-based Approach for Isolated Non-word Errors Correction in OCR System.
Mahadevan et al. Tamil Grammarly–A Typing Assistant for Tamil Language using Natural Language Processing
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
Lyashevskaya et al. An HMM-based PoS Tagger for Old Church Slavonic
Khoroshilov et al. Introduction of Phrase Structures into the Example-Based Machine Translation System
Mon et al. Myanmar spell checker

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150427

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160426

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee