KR101146539B1 - 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법 - Google Patents
비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법 Download PDFInfo
- Publication number
- KR101146539B1 KR101146539B1 KR1020077001543A KR20077001543A KR101146539B1 KR 101146539 B1 KR101146539 B1 KR 101146539B1 KR 1020077001543 A KR1020077001543 A KR 1020077001543A KR 20077001543 A KR20077001543 A KR 20077001543A KR 101146539 B1 KR101146539 B1 KR 101146539B1
- Authority
- KR
- South Korea
- Prior art keywords
- entry
- input
- language
- input entry
- user input
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
규칙 기반 분류기 및 은닉 마르코프 모델 (Hidden Markov Model) 을 사용하여 중국어, 일본어, 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하는 시스템 및 방법이 개시된다. 본 방법은 일반적으로 중국어와 같은 제 1 언어로 된 입력 엔트리를, 병음과 같은, 제 1 언어와 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅 하는 단계, 중간 엔트리를 제 1 언어로 된, 입력의 하나 이상의 가능한 대체 철자 또는 대체 형태로 컨버팅하는 단계, 및 입력 엔트리와 입력 엔트리에 대해 가능한 모든 대체 철자들 사이의 매치가 검색된 경우 또는 검색되지 않은 경우, 입력 엔트리가 정확한 입력 엔트리인지 의심 입력 엔트리인지 각각 판정하는 단계를 포함한다. 의심 입력 엔트리는, 예를 들어, 변환 규칙 생성기에 의해 생성된 변환 규칙들에 기초하는 변환 규칙 기반 분류기를 사용하여 분류될 수도 있다.
비-로마자 언어, 철자 정정, 컨버터, 변환 규칙, 은닉 마르코프 모델
Description
발명의 배경
발명의 분야
본 발명은 일반적으로 비-로마자 기반 언어들을 프로세싱하는 것에 관한 것이다. 더 상세하게는, 규칙 기반 분류기 및 은닉 마르코프 모델 (Hidden Markov Model) 을 사용하여 중국어, 일본어, 및 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하는 시스템 및 방법이 개시된다.
관련 기술의 설명
철자 정정은 일반적으로 잘못된 단어 검출 및 잘못된 단어에 대한 적절한 교체 판정을 포함한다. 영어와 같은 알파벳, 즉, 로마자 기반 언어에서 대부분의 철자 오류는, 예를 들어, "than" 을 "thna" 로 사용하는 것처럼 어휘 단어에서 나오거나, 예를 들어, "stranger than" 가 아닌 "stranger then" 으로 사용하는 것처럼 문맥에서 부적절하게 사용되는 유효한 단어에서 나온다. 로마자 기반 언어에서의 어휘 철자 오류를 검출 및 정정하는 철자 검사기는 널리 공지되어 있다.
그러나, 중국어, 일본어, 및 한국어 (CJK) 와 같은 비-로마자 기반 언어들은, 예를 들어, UTF-8 문자 세트 같은 임의의 컴퓨터 문자 세트로 인코딩되는 무효한 문자를 갖지 않아, 대부분의 절차 오류들은 어휘 철자 오류에서 나오기보다 문 맥에서 부적절하게 사용된 유효한 문자들이다. 중국어에서, 단어의 정확한 사용은 일반적으로 문맥에서만 판정될 수 있다. 따라서 비-로마자 기반 언어들에 대한 효과적인 철자 검사기는 문맥에서 어느 문자 및/또는 단어가 적당하지 않은지 판정하기 위해 문맥상의 정보를 사용하여야 한다.
또한, CJK 언어와 같은 비-로마자 언어들에 대한 철자 정정은, CJK 단어들의 정의가 명확하지 않기 때문에 그 언어들에 대해 표준 사전이 없다는 점에서 복잡하고 난제이다. 예를 들어, 중국어로 "Beijing city" 를 두 단어로 간주하는 사람들이 있음에 반해 하나의 단어로 간주하는 사람들도 있다. 반면, 영어 사전/단어리스트 검색은 영어 철자 정정에서의 핵심적 특징이며, 따라서 영어 철자 정정 방법은 CJK 언어에서의 사용에 쉽게 적용될 수 없다. 또한, 영어에는 26개의 문자가 있음에 반해, 중국어에는 보편적으로 사용되는 수천 개의 문자들이 있어, 잘못된 중국어 단어의 부정확한 문자들을 모든 대체물들로 교체하고, 새로 생성된 단어가 적절한지 판정하는 것은 비실용적이 된다. 또한, 중국어는 보이지 않는 (또는 은닉된) 단어 경계들뿐만 아니라 동형이의어 및 동음이의어가 많이 집중되어 있어 중의성을 야기하며, 효율적이고 효과적인 중국어 철자 정정을 구현하기 복잡하고 어렵게 만들기도 한다. 중국어와 영어 간의 그러한 차이들이 명백하여, 영어 철자 정정에 이용 가능한 다수의 효율적인 기술들이 중국어 철자 정정에는 적당하지 않다.
따라서, 중국어, 일본어 및 한국어와 같은 비-로마자 기반 언어들에서 철자 오류를 효과적이고, 효율적이고, 정확하게 검출 및 정정하기 위한 컴퓨터 시스템 및 방법이 필요하다.
발명의 요약
규칙 기반 분류기 및 은닉 마르코프 모델을 사용하여 중국어, 일본어, 및 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하기 위한 시스템 및 방법이 개시된다. 더 상세하게는, 본 시스템 및 방법은 변환 규칙, 은닉 마르코프 모델 및 혼동되는 문자들의 유사 매트릭스를 사용한다. 중국어 철자 검사 애플리케이션에서는 혼동되는 문자 쌍 사이의 유사성은, 문자들이 동일한 발음을 가지는 경우, 및/또는 간략화된 또는 전통적인 중국어에서 동일한 키 입력을 공유하는 경우에 양수 (positive number) 가 될 수도 있다. 그렇지 않으면, 값은 0이다. 일 구현에서, 유사 값은, 예를 들어, 혼동되는 문자 쌍에 대해서는 1을, 혼동되지 않는 문자 쌍에 대해서는 0 의 불 (Boolean) 값을 가질 수도 있다. 이 시스템 및 방법은, 예를 들어 툴바 또는 데스크바에서 구현되는, 클라이언트 사이트에서의 웹 기반 검색 엔진 및 다운로드 가능한 애플리케이션에 특별히 적용될 수 있을 뿐 아니라, 그 외의 다양한 애플리케이션에도 적용될 수 있다. 본 발명이, 프로세스로서, 장치로서, 시스템으로서, 디바이스로서, 방법으로서, 또는 컴퓨터 판독가능 저장 매체와 같은 컴퓨터 판독가능 매체로서 또는 프로그램 명령들이 광통신 라인 또는 전자 통신 라인으로 전송되는 컴퓨터 네트워크로서의 방식을 포함하여, 다양한 방식으로 구현될 수 있다는 것을 인식하여야 할 것이다. 컴퓨터라는 용어는 일반적으로 개인 휴대 정보 단말기 (PDA), 셀룰러폰, 및 네트워크 스위치와 같이 연산 능력을 가진 임의의 디바이스를 나타낸다. 본 발명의 수개의 신규 실시형태들을 아래에서 설명한다.
본 방법은 일반적으로 중국어와 같은 제 1 언어로 된 입력 엔트리를, 제 1 언어와는 상이한 중간 표현 (예를 들어, 병음 (pinyin)) 으로 된 하나 이상의 중간 엔트리로 컨버팅하는 단계, 중간 엔트리를 제 1 언어로 된 입력 엔트리의 하나 이상의 가능한 대체 철자로 컨버팅하는 단계, 및 입력 엔트리와 입력 엔트리에 대한 모든 가능한 대체 철자들 사이의 매치가 검색된 경우 또는 검색되지 않은 경우 입력 엔트리가 정확한 입력 엔트리인지 의심 입력 엔트리인지 각각 판정하는 단계를 포함한다. 본 명세서에 사용되는, "병음" 은 간략화된 또는 전통적인 중국어를 위한 모든 음성 표기법을 나타내고, zhuyin fuhao (주음부호 (Bopomofo)), 즉, "주석으로 첨부된 음성 표기법" 을 포함한다. 제 1 언어로 된 혼동되는 문자 쌍들 사이에서의 유사성은 중간 표현으로, 통상 발음되는 것에 따라서 정의될 수 있다. 의심 입력 엔트리는, 예를 들어, 변환 규칙 생성기에 의해 발생한 변환 규칙들에 기초하는 변환 규칙 기반 분류기를 사용하여 분류될 수도 있다. 결정 트리 및 신경망 분류기와 같은 그 외의 다양한 분류기들이 유사하게 이용될 수도 있다.
컨버팅하는 단계는 쿼리 로그 (query log) 내의 사용자 쿼리와 같은 다수의 입력 엔트리들을 컨버팅하는 단계를 포함할 수도 있다. 본 방법은, 예를 들어, 변환 규칙 기반 분류기에 의해, 철자 정정 변환 규칙들 같은 규칙 세트에 기초하여 의심 엔트리를 철자가 정확한 엔트리나 철자가 정확하지 않은 엔트리로 분류하는 단계를 더 포함할 수도 있다. 사용자들의 투표, 예를 들어, 쿼리 로그들 및/또는 웹페이지들을 이용하여 변환 규칙들을 생성시키는 것이 바람직하다. 본 방법은 의심 입력 엔트리 및 가능한 대체 철자를 사용하는 변환 규칙 생성기를 사용하여 철자 정정 변환 규칙들을 생성 및 트레이닝하는 단계도 더 포함할 수도 있다. 본 방법은 제 1 언어로 된 사용자 입력을 수신하는 단계, 임의의 규칙들이 사용자 입력에 적용되는지 판정하는 단계, 하나 이상의 규칙이 사용자 입력에 적용된다고 판정되면 사용자 입력에 대응하는 제 1 언어로 된 하나 이상의 대체 철자를 생성시키는 단계, 사용자 입력의 가능성을 사용자 입력의 하나 이상의 대체 철자의 가능성과 비교하는 단계, 및 사용자 입력보다 더 높은 가능성을 가진, 사용자 입력의 하나 이상의 대체 철자를 통해 철자 정정 제안 및/또는 철자 정정을 실행하는 단계를 더 포함할 수도 있다.
시스템은 일반적으로, 제 1 언어로 된 입력 엔트리를 그 입력 엔트리의 제 1 언어와는 상이한 하나 이상의 중간 표현으로 컨버팅하도록 구성된 제 1 컨버터, 중간 표현을 제 1 언어로 된 입력 엔트리의 하나 이상의 가능한 대체 철자로 컨버팅하도록 구성되는 제 2 컨버터, 및 가능한 대체 철자를 입력 엔트리와 비교하여 매치를 검색하고 또한 모든 가능한 대체 철자들로부터 매치가 검색되지 않는다면 입력 엔트리가 의심 입력 엔트리라고 판정하고, 매치가 검색된다면 입력 엔트리가 정확한 입력 엔트리라고 판정하도록 구성된 비교기를 포함한다.
컴퓨터 시스템과 협력하여 사용하는 컴퓨터 프로그램 제품으로서, 이 컴퓨터 프로그램 제품은, 컴퓨터 프로세서에서 실행 가능한 명령들이 저장된 컴퓨터 판독가능 저장 매체를 포함하고, 그 명령들은 일반적으로, 제 1 언어로 된 입력 엔트리를 수신하는 명령, 입력 엔트리를 제 1 언어와 상이한 입력 엔트리의 하나 이상의 중간 표현으로 컨버팅하는 명령, 중간 표현을 제 1 언어로 된 하나 이상의 가능한 대체 철자로 컨버팅하는 명령, 하나 이상의 가능한 대체 철자를 입력 엔트리와 비교하여 매치를 검색하는 명령, 및 매치가 모든 가능한 대체 철자들로부터 검색되지 않는다면 입력 엔트리가 의심 엔트리라고 판정하고, 매치가 검색된다면 입력 엔트리가 정확한 입력 엔트리라고 판정하는 명령을 포함한다.
본 시스템 및 방법을 구현하는 애플리케이션은 검색 엔진에서와 같은 서버 사이트에서 구현되거나, 예를 들어 다운로드되어, 사용자 컴퓨터와 같은 클라이언트 사이트에서 구현되어, 문서로의 텍스트 입력에 철자 정정을 제공하거나 검색 엔진과 같은 원격 서버와 접속할 수도 있다. 클라이언트 사이트 애플리케이션은, 예를 들어 X가 Z에 선행하거나 후행할 때를 제외하고는 절대 X와 Y의 교환을 금지하는 것과 같은, 임의의 철자 정정을 불허함을 특정함으로써, 사용자가 애플리케이션을 커스터마이즈하도록 허용하는, 정지 규칙 패턴의 사용자 편집가능 테이블을 선택적으로 포함할 수도 있다.
본 발명의 이러한 특징과 이점, 및 다른 특징과 이점들을, 본 발명의 원리를 예시의 방식으로 설명하는 상세한 설명 및 첨부한 도면에서 더 상세히 설명한다.
도면의 간단한 설명
본 발명은 첨부한 도면과 상세한 설명에 의해 쉽게 이해될 것이며, 유사한 도면 부호는 유사한 구조적 요소를 지정한다.
도 1은 의심되는 원시 입력들에 대한 가능한 대체 철자들을 판정하기 위해, 비-로마자 기반 언어의 중간 형태로의 전환 및 중간 형태로부터의 역전환을 수행하 는 시스템 및 방법을 도시한 블록도이다.
도 2는 엔트리 세트로부터 철자 정정 변환 규칙을 생성시키는 시스템 및 방법을 도시한 블록도이다.
도 3은 철자 정정 변환 규칙들을 자동으로 생성시키는 프로세스를 도시하는 플로우차트이다.
도 4는 철자 정정 제안들이 있다면 이를 판정하기 위해, 엔트리 프로세싱을 위한 변환 규칙들을 이용하는 프로세스를 도시하는 플로우차트이다.
구체적 실시형태의 설명
규칙 기반 분류기 및 은닉 마르코프 모델을 사용하여 중국어, 일본어, 및 한국어와 같은 비-로마자 기반 단어들에 대해 철자 오류를 프로세싱 및 정정하는 시스템 및 방법이 개시된다. 다만 명료히 하기 위한 목적으로, 본 명세서에 나타난 예시들은 중국어 철자 오류를 검출 및 정정함에 적용될 수 있고, 더 상세하게는 간략화된 중국어 철자 오류 검출에 적용될 수 있다는 것을 언급한다. 그러나, 철자 오류를 검출 및 정정하는 시스템 및 방법은, 전통적인 중국어, 일본어, 한국어, 타이어 등과 같은 그 외의 비-로마자 기반 언어들에 대해 유사하게 적용될 수도 있다. 다음의 설명은, 당업자가 본 발명을 실시하고 사용할 수 있도록 제공된다. 구체적인 실시형태들의 설명과 애플리케이션들은 예시로서만 제공되며 다양한 변형예들은 당업자에게 자명할 것이다. 본 명세서에 정의된 일반적 원리들은 본 발명의 정신과 범위에서 벗어나지 않으면서 그 외의 실시형태 및 애플리케이션에 적용될 수도 있다. 따라서, 본 발명은 본 명세서에 설명된 원리 및 특징들과 일치하는, 최광의의 다양한 대체물들, 변형물들 및 균등물들을 용인한다. 명료히 하기 위한 목적으로, 본 발명에 관한 기술 분야에 공지된 기술 재료에 관한 세부 사항은 불필요하게 본 발명을 불명료하게 하지 않도록 상세히 설명하지 않았다.
본 명세서에 설명된 시스템 및 방법은 일반적으로, 입력 엔트리들로부터 생성된 철자 정정 변환 규칙들을 사용하는, 비-로마자 기반 언어들의 철자 오류들을 검출 및 정정하는 것에 관한 것이다. 본 명세서에 사용되는 것처럼, "철자" 라는 용어는 문맥상 부적절하게 사용된 유효한 문자들 또는 단어들뿐 아니라, 어휘 문자들 또는 단어들 모두에 관한 것이다. 또한, 입력의 대체 철자 또는 대체 형태라는 용어는, 본 명세서에서 입력과 상이하나 같은 언어로 된, 문자 및/또는 단어의 대체 세트에 관한 것이며, 입력은 하나의 문자나 단어, 문자들 및/또는 단어들의 시리즈나 모음, 절, 문자 등에 무관하다. 의심 입력 엔트리들은 입력 엔트리들로부터 식별되고, 가능한 대체 철자는 도 1에서 도시된 의심 입력 엔트리 검출기에 의해 생성된다. 의심 입력 엔트리, 및 의심 입력 엔트리 검출기로부터 얻어진 가능한 입력 엔트리들을 입력으로 사용하여 철자 정정 변환 규칙들이 그 후 생성 및 트레이닝되며 의심 엔트리들은 도 2에서 도시된 바와 같은 변환 규칙 생성기와 분류기에 의해 정확 또는 부정확으로 분류된다. 본 시스템 및 방법은 변환 규칙, 은닉 마르코프 모델 및 혼동되는 문자들의 유사 값 매트릭스를 사용한다. 중국어 애플리케이션에서, 혼동되는 문자 쌍 사이의 유사 값은, 문자들이 동일한 발음을 가지는 경우, 및/또는 간략화된 또는 전통적인 중국어에서 동일한 키 입력을 공유하는 경우 양수가 될 수도 있다. 그렇지 않으면, 그 값은 0이다. 일 구현에서, 유사 값은, 예를 들어, 혼동되는 문자 쌍에 대해서는 1, 혼동되지 않는 문자 쌍에 대해서는 0 의 불 값을 가질 수도 있다. 트레이닝된 철자 정정 변환 규칙 세트를 사용하여 철자 오류들을 식별하고 제안된 철자 정정들을 생성하는 프로세스가 도 4의 플로우차트에서 도시된다. 따라서, 변환 규칙들을 트레이닝하기 위해 입력 세트를 사용함으로써, 가장 통상적인 철자 오류 및 정정들이 판정되고 프로세싱되어, 철자 검사 및 정정 시스템의 효율성과 유효성을 강화할 수도 있다.
도 1은, 의심되는 원시 입력들을 식별하고, 의심되는 원시 입력들에 대한 가능한 대체 철자들을 판정하기 위해, 간략화된 중국어의 중간 형태 (예를 들어, 병음) 로의 전환 및 중간 형태로부터의 역전환을 수행하는 의심 입력 엔트리 검출기 (100) 를 도시한 블록도이다. 도 1에서 도시된 의심 입력 엔트리 검출기 (100) 는, 병음이 간략화된 중국어에 통상적으로 사용되는 입력 방법이라는 편리한 사실을 사용한다. 그러나, 로마자 기반 또는 비-로마자 기반의, 그 외의 임의의 중간 형태가 구현되고 이용될 수도 있다. 유사하게, 의심 입력 엔트리 검출기 (100) 는 그 외의 다양한 비-로마자 기반 언어들과의 사용에 적용될 수도 있다.
도 1에 도시된 바와 같이, 단어-병음 컨버터 (104) 는 중국 문자로 된 각각의 원시 입력 엔트리 (102) 를, 원시 입력 엔트리 (102) 에 대응하는 하나 이상의 발음 또는 병음 (106) 으로 컨버팅한다. 그 후, 병음-단어 컨버터 (108) 는 병음 (106) 을 중국 문자로 된 가능한 철자 (110) 로 컨버팅한다. 제 1 언어를 중간 표현으로 컨버팅하고, 그 후 제 1 언어로 다시 컨버팅하는, 그 외의 적당한 컨버터들 (104, 106) 이 사용될 수도 있다. 병음은 다만 중국어 또는 간략화된 중국어를 위한 편리한 중간 표현이다. 비교기 (112) 는, 양자 모두 제 1 언어로 된, 원시 입력 엔트리 (102) 와 가능한 철자 (110) 를 비교하여 매치가 존재하는지 판정한다. 원시 엔트리 (102) 가 병음-단어 컨버터 (108) 에 의해 출력된 가능한 철자 (110) 중 하나와 매치되면, 원시 엔트리 (102) 는 정확한 철자 (114) 로 가정되며 매치된 것이다. 그러나, 원시 엔트리 (102) 가 병음-단어 컨버터 (108) 에 의해 출력된 가능한 철자 (110) 중 임의의 것과 매치되지 않는다면, 원시 엔트리 (102) 는 의심 엔트리 (116), 즉, 부정확한 것일 수도 있다.
병음은 주로 간략화된 중국어 문자를 입력하는 과정에 사용되는 음성적 입력 방법이다. 본 명세서에 언급되는 것처럼, 병음은 중국어 글자와 관련된 톤의 표현이 동반되기도 하고 동반되지 않기도 하는 일반적으로 중국어 문자의 음성적 표현에 관한 것이다. 더 상세하게는, "병음" 은 간략화된 또는 전통적인 중국어의 모든 음성 표기법에 관한 것이며, zhuyin fuhao (주음부호), 즉, "주석으로 첨부된 음성 표기법" 을 포함한다.
병음은 로마자들을 사용하며 다음절 단어들의 형태로 열거한 어휘를 가진다. 중국어에는 다양한 동형이의어 및 동음이의어가 있어, 각각의 원시 엔트리 (102) 는 단어-병음 컨버터 (104) 에 의해 다수의 병음 (106) 으로 컨버팅될 수도 있으며, 유사하게, 각 병음 (106) 은 병음-단어 컨버터 (108) 에 의해 중국어 문자로 된 다수의 가능한 철자들 (110) 로 컨버팅될 수도 있다. 더 상세하게는, 수만 개의 중국 문자 (한자 (Hanzi)) 를 표현함에 있어 (병음에 의해 표현될 수 있 는) 대략 1,300개의 상이한 톤 있는 음성 음절 및 대략 400개의 톤 없는 음성 음절만이 존재하기 때문에, 하나의 (톤이 있거나 없는) 음성 음절은 다수의 상이한 한자에 대응될 수도 있다. 예를 들어, 만다린어로 "yi" 의 발음은 100개 이상의 한자에 대응될 수 있다. 따라서, 각각의 원시 엔트리 (102) 를 병음 (106) 으로, 그 후 중국 문자 (110) 로 다시 컨버팅하는, 단어-병음 컨버터 (104) 및 병음-단어 컨버터 (108) 에 의해 구현되는 프로세스는 동형이의어 및/또는 동음이의어인 중국어 단어들이 큰 비율로 주어져 용이하지 않을 수도 있다.
본 명세서에 설명된 시스템 및 방법은 변환 규칙, 은닉 마르코프 모델 및 혼동되는 문자들의 유사 값 매트릭스를 사용한다. 중국어 애플리케이션에서는, 혼동되는 문자 쌍 사이의 유사 값은, 문자들이 유사한 발음을 가지고, 유사한 키입력을 공유하는 경우 및/또는 철자가 유사한 경우, 즉, 시각적으로 유사한 경우라면 양수가 될 수도 있다. 그렇지 않으면, 그 값은 0이다. 일 구현에서, 유사 값은, 예를 들어, 혼동되는 문자 쌍에 대해서는 1, 혼동되지 않는 문자 쌍에 대해서는 0 의 불 값을 가질 수도 있다. 제 1 언어로 된 혼동되는 문자 쌍 사이에서의 유사 값은, 중간 표현으로 통상 발음되는 것에 따라 정의될 수 있다.
중국어 단어를 병음으로 컨버팅하고 병음을 중국어로 컨버팅하는 다양하고 적절한 메커니즘이 구현될 수도 있다. 예를 들어, 다양한 디코더들이 병음을 한자 (중국 문자) 로 변환하는데 적절하다. 일 실시형태에서는, 은닉 마르코프 모델을 사용하는 비터비 (Veterbi) 디코더가 구현될 수도 있다. 은닉 마르코프 모델에 대한 트레이닝은, 예를 들어, 경험적 카운트를 수집함으로써 또는 예상치를 연산하고 반복적인 최대 프로세스를 수행함으로써 획득된다. 비터비 알고리즘은 마르코프 커뮤니케이션 채널의 출력 관찰에 따라 소스입력을 디코딩하는데 유용하고 효율적인 알고리즘이다. 비터비 알고리즘은 스피치 인식, 광학적 문자 인식, 기계 번역, 스피치 태깅, 파싱, 철자 검사와 같은, 자연어 프로세싱을 위한 다양한 애플리케이션에서 성공적으로 구현되어 왔다. 그러나, 마르코프 가정 대신, 그 외의 다양한 적절한 가정들이 디코딩 알고리즘을 구현하도록 실행될 수도 있다는 점을 이해해야 한다. 또한, 비터비 알고리즘은 디코더로 구현될 수 있는 다만 하나의 적당한 디코딩 알고리즘이고, 유한 상태 기계 (finite state machine), 베이시안 네트워크 (Bayesian network), 디시전 플레인 알고리즘 (decision plane algorithm : 고차원적 비터비 알고리즘) 또는 Bahl-Cocke-Jelinek-Raviv (BCJR) 알고리즘 (비터비 알고리즘의 전/후 2 패스) 과 같은 그 외의 다양하고 적당한 디코딩 알고리즘들이 구현될 수도 있다.
의심 입력 엔트리 검출기 (100) 에 의해 검출된 의심 엔트리들은 거의 모든 철자 오류들을 포함한다. 그러나, 의심 엔트리들은 또한 일반적으로 비교적 높은 허위-경고/허위-긍정 비율, 즉, 부정확한 쿼리 수 대 부정확하다고 마크된 정확한 쿼리 수의 비율을 포함하고 있다. 이하, 더 상세히 설명하는 바와 같이, 의심 엔트리 검출기 (100) 에 의해 판정된 의심 쿼리 (116) 는 그 후, 정확 또는 부정확으로 분류될 수도 있다. 분류기는, 바람직하게는 변환 규칙 기반 분류기일 수도 있고, 또는 결정 트리 분류기, 신경망 분류기 등과 같은 분류기일 수도 있다. 정확으로 분류된 엔트리들에 대해서는, 제안이 실행되지 않는다. 부정확으 로 분류된 엔트리들에 대해서는, 철자 정정 제안들이 각 가능한 대체 철자의 가능성에 따라 실행될 수도 있다.
도 2는 의심 엔트리 검출기 (100) 에 의해 프로세싱된 원시 엔트리 (102) 세트로부터 철자 정정 변환을 생성시키는 시스템 및 방법 (120) 을 도시한 블록도이다. 더 상세하게는, 원시 엔트리 (102) 세트는 웹 검색 엔진에서의 쿼리 로그와 같은 사용자 입력 엔트리들 및/또는, 예를 들어, 인터넷에서 이용 가능할 것 같은 문서로부터 얻어진 엔트리들을 포함한다. 사용자 입력 엔트리들의 경우에, 원시 입력 (102) 세트는, 예를 들어 지난 삼 주 또는 두 달간의 사용자 쿼리 모음을 포함할 수도 있다. 웹 컨텐츠와 신문, 책, 잡지, 웹페이지 등과 같은 다양한 발행물들이 문서의 예로 포함될 수도 있다. 원시 입력 (102) 세트는, 예를 들어 문서 세트, 문서 모음 또는 저장된 문서와 같은, 인터넷에서 이용 가능한 간략화된 및/또는 전통적인 중국어로 기록된 문서들로부터 얻어질 수도 있다. 본 명세서에 설명된 것처럼, 도시된 시스템 및 방법은 웹 검색 엔진의 문맥 내에서와, 조직된 데이터들을 포함하는 데이터베이스에 대한 검색 엔진에 특별히 적용 가능하다는 점을 언급한다. 그러나, 철자 오류를 검출 및 정정하는 그 외의 다양한 애플리케이션들에 대해, 더 상세하게는 비-로마자 기반 언어로 된 엔트리들을 위한, 본 시스템 및 방법이 적용되고 이용될 수 있다는 점을 이해해야 한다. 예를 들어, 본 시스템 및 방법은, 철자 오류를 검출 및 정정하는, 예를 들어 단어 프로세싱 애플리케이션과 같은 CJK 텍스트 입력 애플리케이션에 적용될 수도 있다.
변환 규칙 생성기 및 분류기 (120) 는 에릭 브릴 (Eric Brill) 에 의해 소개 된 학습 알고리즘에 기초한 변환을 구현하며, 그것은 트레이닝 프로세스 동안, 트레이닝하는 데이터, 예를 들어, 인간이 주석을 첨부한 부정확한 철자들로부터의 신뢰치에 따라 자동적으로 변환 규칙들을 추출하고 (학습하고) 등급을 매긴다. 이 변환 규칙들은 주석기/투표기 (124) 에 의해 사용된다. 변환 규칙들은 언어적 지식보다 통계에 기초한다는 점에서, 그 변환 규칙들은 언어상 사용되는 문법 규칙들과는 상이하다. 따라서, 예를 들어 대다수 엔트리들이 임의의 단어들을 동일한 부정확한 방법으로 부정확하게 철자한다면, 그 부정확한 철자는 정확으로 분류될 것이다. 변환 규칙 기반 방법에 대한 부가적 정보는 2004년 1월 27일에 발행된 에릭 브릴의 미국 특허 No.6,684201에 나타나 있으며, "문자열 기반 패턴 트레이닝을 사용한 모호 사이트 분해 학습을 위한 언어상 비모호 시스템 및 방법 (Linguistic Disambiguation System and Method Using String-Based Pattern Training to Learn to Resolve Ambiguity Sites)" 이라는 명칭으로, 전체 내용은 본 명세서에 참조로 통합되어 있다. 따라서 변환 규칙 생성기 (120) 는 자동적으로, 즉 통제되지 않고, 사용자 투표를 이용하여 규칙들을 생성한다. 즉, 문자 패턴의 정확함은 인간이 주석을 첨부한 데이터보다, 예를 들어, 쿼리 로그와 같은 데이터베이스에서 다수결에 따라 판정된다.
각 변환 규칙은 신뢰치와 관련되어 있어, 보다 신뢰치가 낮은 규칙보다 후에 보다 신뢰치가 높은 규칙이 적용되도록 한다. 일 예로, 제 1 변환 규칙은, B가 X에 선행하면 X를 Y로 교환하도록 특정할 수도 있다. 신뢰치가 높은 제 2 변환 규칙은, E가 Y에 후행하면 Y를 X로 교환하도록 특정할 수도 있다. 따라서 제 1 변환 규칙이 먼저 엔트리 BXE에 적용되어 BYE를 생성시킬 것이다. 그 후, 제 2 변환 규칙이 결과물인 엔트리 BYE에 적용되어 다시 BXE로 컨버팅할 것이다. 명백하듯이, 변환 규칙이 적용되는 순서는 결과에 영향을 미칠 수 있다. 또한 교환되는 문자들과 교환하는 문자들은 엔트리의 임의의 구성요소일 수도 있고 단어일 필요는 없다는 점을 언급한다. 유사하게, 이 조건은 임의의 문맥, 스피치 부분의 태그 또는 문법적으로 끝나지 않은 라벨 (예를 들어, noun phrase를 의미하는 NP) 에 기초할 수도 있다. 비록 변환 규칙 기반 분류기가 바람직하다 하더라도, 단순한 베이시안 분류기, 결정 트리 분류기, 신경망 분류기, 또는 그 외 다양한 적절한 분류기들 중 임의의 것이 의심 엔트리 (116) 를 분류하는데 유사하게 구현될 수도 있다.
도 2로 돌아가, 도시된 바와 같이, 의심 엔트리 검출기 (100) 에 의해 출력된 각 의심 엔트리 (116) 및 그에 대응하는 가능한 대체 철자 (110) 가 철자 정정 변환 규칙 생성기 (120) 의 주석기 (124) 에 수신된다. 주석기 (124) 는 처음에는 초기 변환 규칙 (126) 에 기초하여, 마지막에는 추출되고 등급 매겨진 변환 규칙 (130) 에 기초하여 엔트리 (128) 를 분류한다.
학습 단계는, 인간 개인에 의해 통제될 수도 있고, 및/또는 통제되지 않을 수도 있다. 일 구현에서, 수동적으로 생성된 몇몇 통상적인 변환 규칙의 초기 세트는 작은 의심 엔트리 세트에 자동적으로 주석을 첨부하는데 사용되며, 다소의 인간 모니터링을 같이하거나, 인간 모니터링 없이 사용자 투표를 이용한다. 초기의 학습 단계 후, 바람직하게는 다소의 인간 모니터링과 함께, 부가적 변환 규칙 들이 생성되며, 추가적인 의심 엔트리들에 주석이 첨부된다. 예를 들어, 상대적으로 적은 수의 규칙들로 사용자 트래픽의 상당량을 제어하는, 결과물로 나온 규칙들은 매우 신뢰성이 높다고 간주되며, 따라서 높은 신뢰치에 대응된다. 보다 신뢰도가 높은 규칙들이 보다 신뢰도가 낮은 규칙들보다 전형적으로 작은 커버리지를 가지기 때문에, 신뢰도가 높은 규칙들과 비교적 신뢰도가 낮은 규칙들이 모두 사용된다.
예를 들어, 사용자 트래픽에서 상대적으로 작은 비율을 차지하는 상대적으로 다수인 잔존하는 의심 엔트리가 비용 효율성 목적으로 인간 모니터링 없이 자동적으로 생성된다. 그러한 규칙들을 자동적으로 생성시키는 하나의 도시된 프로세스 (150) 가 도 3 의 플로우차트로 도시된다. 더 상세하게는, 루프 (152) 에서의 각 의심 쿼리 Q와, 루프 (154) 에서의 각 대응하는 대체 철자 Q'에 대해, Q 와 대체 철자 Q'의 비교가 블록 (156) 에서 이루어지며, 부적절할 가능성이 있는 Q의 문자들과 그 대체물 C'를 판정한다. 블록 (158) 에서, C의 선행 문자들 N개와 C의 후행 문자들 N개로, 폭 2N+1의 윈도우가 개방된다. 예를 들어 2N+1과 같은 임의의 적절한 문맥 길이가 구현될 수도 있으며, 의심되는 문자의 앞의 문맥 길이와 뒤의 문맥 길이가 동일할 필요는 없다는 점을 언급한다. C_{-N}, ..., C, ..., C_{N}으로부터의 모든 부분열 (pre-C, C, post-C) 의 빈도 F(pre-C, C, post-C) 는 카운트되어, 즉, 규칙이 의심 엔트리 내의 합당하게 큰 비율의 철자 오류를 커버한다면 그 규칙이 중요도가 높음을 보증한다. 문자열 S = xs1, xs2, ..., xsj는, 1≤s1<s2...<sj<k일때, 문자열 X = x1, x2, ..., xk의 부분열이다.
다음으로, 블록 (160) 에서, C와 C'를 교환함으로써 대응 빈도가 판정된다. 그 후 결정 블록 (162) 에서, 예를 들어, 쿼리 로그 및 웹페이지, 즉, 사용자 투표를 사용하여 규칙이 신뢰성이 높은지 여부를 결정한다. 규칙이 신뢰성이 높다고 판정되면, 즉, pre-C와 post-C가 주어진 C를, C'로 대체하는 변환 규칙이 추출된다. 구체적으로, 규칙은
F (pre-C, C, post-C) > T1 이고
F (pre-C, C', post-C) / F (pre-C, C, post-C) > T2 이라면 신뢰성이 높다고 간주되며, T1은 최소 중요도 임계치 (minimum significance threshold) 이고, T2는 최소 신뢰도 임계치 (minimum confidence threshold) 이다. 전술한 바와 같이, 변환 규칙 생성기에 의해 구현되는 프로세스 (150) 는 자동적으로, 즉 통제되지 않고, 사용자 투표를 이용하여 규칙들을 생성시켜, 문자 패턴의 정확성은 인간이 주석을 첨부한 데이터보다는, 예를 들어 쿼리 로그와 같은 데이터베이스에서의 다수결에 따라 판정되도록 한다.
가장 빈번한 변환 규칙들이 오류 패턴의 매우 큰 비율을 차지할 것이기 때문에, 규칙 세트의 사이즈는 바람직하게는 의심 엔트리들의 수와 함께 급속히 증가하지는 않는다. 또한 각 규칙의 최소 발생을 설정하여 변환 규칙 세트의 사이즈를 제한할 수도 있다.
본 명세서에서 설명하는 시스템 및 방법을 구현하는 애플리케이션은 검색 엔진에서와 같이 서버 사이트에서 구현될 수도 있고, 또는, 예를 들어, 다운로드 되어 최종 사용자 컴퓨터와 같은 클라이언트 사이트에서 구현될 수도 있어, 단어 프로세싱 문서에 대한 텍스트 입력단계에 철자 정정을 제공하거나 검색 엔진과 같은 원격 서버와 접속할 수도 있다. 클라이언트 사이트 애플리케이션은, 예를 들어 툴바에서 구현될 수도 있고, 예를 들어 X가 Z에 선행하거나 후행할 때를 제외하고 절대 X와 Y의 교환을 금지하는 것과 같은, 임의의 철자 정정을 불허함을 특정함으로써, 사용자가 애플리케이션을 커스터마이즈하도록 허용하는, 정지 규칙 패턴의 사용자 편집가능 테이블을 선택적으로 포함할 수도 있다. 예를 들어, "buy" 와 "sell" 같은 다소의 중국 문자들은 "mai" 라는 동일한 (반면 톤은 상이한) 발음을 가지며, 그 언어에서 대부분 신택스상 동일한 역할을 하지만 완전히 상이한 의미를 지닌다. 다수의 자동 방식의 철자 규칙 생성 프로그램들은 "buy" 를 "sale" 로, 또는 그 역으로 부정확하게 변경하려는 경향이 있다. 최종 사용자는 정지 규칙 패턴의 테이블에서 금지 규칙 "(X, Y)" 를 특정하여 X가 Y로 교환되는 철자 정정 애플리케이션을 방지할 수도 있다.
도 4는 철자 정정 제안이 있다면 이를 판정하는, 엔트리 프로세싱에 대해 변환 규칙을 이용하는 프로세스 (200) 를 도시하는 플로우차트이다. 결정 블록 (202) 은 임의의 철자 정정 규칙이 사용자 입력에 적용되는지 여부를 판정한다. 결정 블록 (202) 을 수행하기 위해, 철자 정정 변환 규칙의 해시 (hash) 테이블을 검사하여 임의의 변환 규칙이 사용자 입력에 적용되는지 여부를 판정한다. 예를 들어, 변환 규칙이, 주어진 중국어 사용자 입력 ABCDE에 대해 C의 선행 문자 들이 AB이면 문자 C를 C'로 교환하여야 한다고 지시한다면, 그 후 이 특정 규칙은 사용자 입력에 적용될 수 있다. 사용자 입력에 규칙이 적용될 수 없다면, 사용자 입력에 대해 철자 정정 제안이 실행되지 않는다. 또는, 사용자 입력에 적용 가능한 각 철자 정정 변환 규칙에 대해, 적용 가능한 철자 정정 변환 규칙에 대응하는, 사용자 입력에 대한 대체 철자들이 블록 (204) 에서 생성된다. 위의 예에서, 대체 철자 ABC'DE는 사용자 입력 ABCDE에 대해, 적용 가능한 철자 정정 변환 규칙에 대응하여 생성되었다.
결정 블록 (206) 에서, 각 대체 철자의 가능성이 판정되고, 사용자 입력의 가능성에 비교된다. 일 실시형태에서, 결정 블록 (206) 은 은닉 마르코프 모델과 비터비 디코더를 이용하여 가능성을 계산할 수도 있다. 현재 예에서, ABCDE와 ABC'DE의 상대적인 출력 확률이 판정되고 비교된다. 대체 철자는 사용자 입력보다 높은 가능성을 가지며, 따라서 다음 조건을 만족하면 유효한 정정으로 간주된다:
P (ABC'DE) * P (변환 규칙) > P (ABCDE), P (변환 규칙) 는 성공적 정정의 수와 총 정정 수의 비로 정의된다. P (ABCDE)는 분할에서의 모호성을 고려하여야 한다. 예를 들어, ABCDE가 AB-CDE 및 ABC-DE의 두 가지 분할이 가능하다면, 베이시안 확률의 곱의 합이 될 것이다:
P (ABCDE) = P (후단 입력|CDE) * P (CDE|AB) * P (AB|전단 입력) +
P (후단 입력|DE) * P (DE|ABC) * P (ABC|전단 입력).
위의 방정식은, 전체 연혁에 의하기보다 선행 단어에 의해 현재 단어를 판정 하는 마르코프 가정을 적용함으로써 원시의 베이시안 확률로부터 얻어진 베이시안 확률임을 언급한다. P (ABC'DE) 의 판정은 유사하게 실행된다.
주어진 대체 철자가 사용자 입력보다 더 가능성이 높지 않다면, 특정 철자 정정 제안이 실행되지 않는다. 그러나, 주어진 대체 철자가 사용자 입력보다 더 가능성이 높다고 결정 블록 (206) 에서 판정되면, 사용자 입력에 대응하는 대체 철자가 제안되고, 및/또는 자동적으로 블록 (208) 에서 실행된다.
본 명세서에 설명된 철자 정정을 위한 시스템 및 방법은 특별히 비-로마자 기반 언어를 사용하는 사용자에 매우 적당하고, 철자 오류 검출 및, 대체 철자 제안 또는 정정의 생성 양자 모두에 효과가 높을 수 있다. 또한, 철자 정정을 위한 시스템 및 방법은 다양한 사용자 입력 또는 쿼리의 철자 정정을 수행하여, 특별히 웹 검색 엔진의 문맥 내에서와, 조직된 데이터들을 포함하는 데이터베이스를 위한 검색 엔진에도 적용 가능하다.
본 명세서에 본 발명의 예시적 실시형태들이 설명되고 도시되었으나, 그것들은 단지 도시적이며 본 발명의 정신과 범위에서 벗어나지 않고 이 실시형태들에 수정을 가할 수 있음이 인식될 것이다. 따라서, 본 발명의 범위는 수정될 수도 있는 다음 청구항들에 의해서만 정의되도록 하며, 각 청구항은 상기 발명의 실시형태로서 이 구체적 실시형태의 설명에 명백히 포함된다.
Claims (39)
- 제 1 언어로 된 입력 엔트리를 수신하는 단계;상기 입력 엔트리를 상기 제 1 언어와는 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅하는 단계;상기 중간 엔트리를 상기 제 1 언어로 된 상기 입력 엔트리의 하나 이상의 가능한 대체 형태로 컨버팅하는 단계;매치를 검색하기 (locate) 위해 상기 입력 엔트리를 상기 입력 엔트리의 하나 이상의 가능한 대체 형태와 비교하는 단계;상기 비교에 기초하여 상기 입력 엔트리가 의심 입력 엔트리 (questionable input entry) 인 것으로 판정하는 단계; 및상기 의심 입력 엔트리와 상기 하나 이상의 가능한 대체 형태를 사용하는 변환규칙 생성기를 사용하여, 철자 정정 변환 규칙들을 생성 및 트레이닝하는 단계를 포함하는, 방법.
- 제 1 항에 있어서,상기 중간 엔트리는, 상기 제 1 언어로 된 상기 입력 엔트리의 2 이상의 가능한 대체 형태들로 컨버팅되고,상기 비교하는 단계는, 상기 제 1 언어로 된 상기 입력 엔트리의 각각의 가능한 대체물과 상기 입력 엔트리를 비교하는 단계를 포함하고,상기 판정하는 단계는, 상기 가능한 대체 형태 전체로부터 매치가 검색되지 않는다면 상기 입력 엔트리는 의심 입력 엔트리인 것으로 판정하고, 매치가 검색된다면 상기 입력 엔트리는 정확한 입력 엔트리인 것으로 판정하는 단계를 포함하는, 방법.
- 제 1 항에 있어서,상기 제 1 언어는 비-로마자 기반 언어인, 방법.
- 제 1 항에 있어서,상기 제 1 언어는 중국어이고 상기 중간 표현은 병음 (pinyin) 인, 방법.
- 제 1 항에 있어서,상기 입력 엔트리는 쿼리 로그 (query log) 내의 사용자 쿼리인, 방법.
- 제 1 항에 있어서,상기 수신하는 단계는 복수의 입력 엔트리를 수신하는 단계를 포함하는, 방법.
- 제 1 항에 있어서,상기 철자 정정 변환 규칙들의 세트에 기초하여 상기 의심 입력 엔트리를 철자가 정확한 엔트리와 철자가 부정확한 엔트리 중 하나로서 분류하는 단계를 더 포함하는, 방법.
- 제 7 항에 있어서,상기 분류하는 단계는 변환 규칙 기반 분류기 (transformation rule based classifier) 에 의해 수행되는, 방법.
- 삭제
- 제 1 항에 있어서,상기 철자 정정 변환 규칙들을 생성 및 트레이닝하는 단계는, 의심 입력 엔트리 데이터베이스를 사용하여 자동적으로 수행되는, 방법.
- 제 7 항에 있어서,상기 분류하는 단계는 자동적인 방식과 수동 모니터링 중 하나 이상으로 수행되는, 방법.
- 제 7 항에 있어서,상기 제 1 언어로 된 사용자 입력을 수신하는 단계;임의의 상기 철자 정정 변환 규칙들이 상기 사용자 입력에 적용되는지 여부를 판정하는 단계;상기 철자 정정 변환 규칙들 중 적어도 하나가 상기 사용자 입력에 적용된다고 판정되면 상기 사용자 입력에 대응하는, 상기 제 1 언어로 된 하나 이상의 대체 형태를 생성시키는 단계;상기 사용자 입력의 가능성을 상기 사용자 입력의 하나 이상의 대체 형태의 가능성과 비교하는 단계; 및상기 사용자 입력보다 더 높은 가능성을 가진, 상기 사용자 입력의 하나 이상의 대체 형태로 철자 정정 및 철자 정정 제안 중 하나 이상을 실행하는 단계를 더 포함하는, 방법.
- 제 12 항에 있어서,사용자 입력과 대체 철자의 특정한 조합에 대해, 철자 정정 제안 또는 철자 정정을 실행하는 것을 불허하는, 정지 규칙 패턴 (stop rule pattern) 의 사용자 편집 가능 테이블을 유지하는 단계를 더 포함하는, 방법.
- 제 1 언어로 된 입력 엔트리를 상기 제 1 언어와는 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅하도록 구성되는 제 1 컨버터;상기 중간 엔트리를, 상기 제 1 언어로 된 상기 입력 엔트리의 하나 이상의 가능한 대체 철자로 컨버팅하도록 구성되는 제 2 컨버터; 및상기 입력 엔트리를 하나 이상의 가능한 대체 철자와 비교하여 매치를 검색하도록 구성되는 비교기; 를 포함하며,상기 비교기는 상기 비교에 기초하여 상기 입력 엔트리가 의심 입력 엔트리인지 여부를 판정하도록 또한 구성되고,상기 의심 입력 엔트리 및 상기 제 1 언어로 된 상기 입력 엔트리의 상기 하나 이상의 가능한 대체 철자를 사용하여 철자 정정 변환 규칙들을 생성하는 변환 규칙 생성기를 더 포함하는, 시스템.
- 제 14 항에서,상기 제 2 컨버터는, 상기 중간 엔트리를 상기 제 1 언어로 된 상기 입력 엔트리의 2 이상의 가능한 대체 형태들로 컨버팅하도록 구성되고,상기 비교기는, 상기 제 1 언어로 된 상기 입력 엔트리의 상기 하나 이상의 가능한 대체물 각각과 상기 입력 엔트리를 비교하고, 모든 상기 가능한 대체 형태들로부터 매치가 검색되지 않는다면 상기 입력 엔트리가 의심 입력 엔트리인 것으로 판정하고, 매치가 검색된다면 상기 입력 엔트리가 정확한 입력 엔트리인 것으로 판정하도록 구성되는, 시스템.
- 제 14 항에서,상기 제 1 언어는 비-로마자 기반 언어인, 시스템.
- 제 14 항에 있어서,상기 제 1 언어는 중국어이고 상기 중간 표현은 병음인, 시스템.
- 제 14 항에 있어서,상기 입력 엔트리는 쿼리 로그 내의 사용자 쿼리인, 시스템
- 제 14 항에 있어서,상기 철자 정정 변환 규칙들의 세트에 기초하여 상기 의심 입력 엔트리를 철자가 정확한 엔트리와 철자가 부정확한 엔트리 중 하나로서 분류하도록 구성되는 분류기를 더 포함하는, 시스템.
- 제 19 항에 있어서,상기 분류기는 변환 규칙 기반 분류기인, 시스템.
- 삭제
- 제 14 항에 있어서,상기 변환 규칙 생성기는, 의심 입력 엔트리 데이터베이스를 사용하여 자동적으로 상기 철자 정정 변환 규칙들을 생성시키는, 시스템.
- 제 19 항에 있어서,상기 분류기는 자동적인 방식과 수동 모니터링 중 하나 이상으로 수행하는, 시스템.
- 제 19 항에 있어서,임의의 상기 철자 정정 변환 규칙들이 사용자 입력에 적용되는지 여부를 판정하도록 구성되는 검출기;상기 철자 정정 변환 규칙들 중 적어도 하나가 상기 사용자 입력에 적용된다고 판정되면 상기 제 1 언어로 된 상기 사용자 입력의 하나 이상의 대체 철자를 생성시키도록 구성되는 생성기;상기 사용자 입력의 가능성을 상기 사용자 입력의 하나 이상의 대체 철자의 가능성과 비교하도록 구성되는 비교기; 및상기 사용자 입력보다 더 높은 가능성을 가진 상기 사용자 입력의 하나 이상의 대체 철자로 철자 정정 및 철자 정정 제안 중 하나 이상을 실행하도록 구성되는 정정기를 더 포함하는, 시스템.
- 제 24 항에 있어서,상기 정정기가 사용자 입력과 대체 철자의 특정한 조합에 대해, 철자 정정 제안 또는 철자 정정을 실행하는 것을 불허하도록 하는, 커스터마이즈 가능한 정지 규칙 패턴 테이블 (customizable stop rule pattern table) 을 더 포함하는, 시스템.
- 컴퓨터 프로세서에서 실행 가능한 명령들이 저장된 컴퓨터 판독가능 저장 매체로서,상기 명령들은,제 1 언어로 된 입력 엔트리를 수신하는 것;상기 입력 엔트리를 상기 제 1 언어와는 상이한 중간 표현으로 된 하나 이상의 중간 엔트리로 컨버팅하는 것;상기 제 1 언어로 된 상기 입력 엔트리의 하나 이상의 가능한 대체 형태로 상기 중간 엔트리를 컨버팅하는 것;매치를 검색하기 위해 상기 입력 엔트리를 상기 입력 엔트리의 하나 이상의 가능한 대체 형태와 비교하는 것;상기 비교에 기초하여 상기 입력 엔트리를 의심 입력 엔트리인 것으로 판정하는 것; 및상기 의심 입력 엔트리와 상기 대체 형태를 사용하는 변환 규칙 생성기를 사용하여, 철자 정정 변환 규칙들을 생성 및 트레이닝하는 것을 포함하는, 컴퓨터 판독가능 저장 매체.
- 제 26 항에 있어서,상기 중간 엔트리는, 상기 제 1 언어로 된 상기 입력 엔트리의 2 이상의 가능한 대체 형태들로 컨버팅되고,상기 비교하는 것은, 상기 제 1 언어로 된 상기 입력 엔트리의 각각의 가능한 대체물과 상기 입력 엔트리를 비교하는 것을 포함하고,상기 판정하는 것은, 모든 상기 가능한 대체 형태들로부터 매치가 검색되지 않는다면 상기 입력 엔트리가 의심 입력 엔트리인 것으로 판정하고, 매치가 검색된다면 상기 입력 엔트리가 정확한 입력 엔트리인 것으로 판정하는 것을 포함하는, 컴퓨터 판독가능 저장 매체.
- 제 26 항에 있어서,상기 제 1 언어는 비-로마자 기반 언어인, 컴퓨터 판독가능 저장 매체.
- 제 26 항에 있어서,상기 제 1 언어는 중국어이고 상기 중간 표현은 병음인, 컴퓨터 판독가능 저장 매체.
- 제 26 항에 있어서,상기 입력 엔트리는 쿼리 로그 내의 사용자 쿼리인, 컴퓨터 판독가능 저장 매체.
- 제 26 항에 있어서,상기 수신하는 것은 복수의 입력 엔트리를 수신하는 것을 포함하는, 컴퓨터 판독가능 저장 매체.
- 제 26 항에 있어서,상기 컴퓨터 판독가능 저장 매체는 툴바 내의 클라이언트 사이트에서 구현되는, 컴퓨터 판독가능 저장 매체.
- 제 26 항에 있어서,상기 명령들은, 상기 철자 정정 변환 규칙들의 세트에 기초하여 상기 의심 입력 엔트리를 철자가 정확한 엔트리와 철자가 부정확한 엔트리 중 하나로서 분류하는 것을 더 포함하는, 컴퓨터 판독가능 저장 매체.
- 제 33 항에 있어서,상기 분류하는 것은 변환 규칙 기반 분류인, 컴퓨터 판독가능 저장 매체.
- 삭제
- 제 26 항에 있어서,상기 철자 정정 변환 규칙들은 의심 입력 엔트리 데이터베이스를 사용하여 자동적으로 생성되는, 컴퓨터 판독가능 저장 매체.
- 제 33 항에 있어서,상기 분류하는 것은 자동적인 방식과 수동 모니터링 중 하나 이상으로 수행되는, 컴퓨터 판독가능 저장 매체.
- 제 33 항에 있어서,상기 명령들은,상기 제 1 언어로 된 사용자 입력을 수신하는 것;임의의 상기 철자 정정 변환 규칙들이 상기 사용자 입력에 적용되는지 여부를 판정하는 것;상기 철자 정정 변환 규칙들 중 적어도 하나가 상기 사용자 입력에 적용된다고 판정되면 상기 사용자 입력에 대응하는, 상기 제 1 언어로 된 하나 이상의 대체 형태를 생성시키는 것;상기 사용자 입력의 가능성을 상기 사용자 입력의 하나 이상의 대체 형태의 가능성과 비교하는 것; 및상기 사용자 입력보다 더 높은 가능성을 가진, 상기 사용자 입력의 하나 이상의 대체 형태로 철자 정정 및 철자 정정 제안 중 하나 이상을 실행하는 것을 더 포함하는, 컴퓨터 판독가능 저장 매체.
- 제 38 항에 있어서,상기 명령들은,사용자 입력과 대체 형태의 특정한 조합에 대해, 철자 정정 제안 또는 철자 정정을 실행하는 것을 불허하는, 정지 규칙 패턴의 사용자 편집가능 테이블을 유지하는 것을 더 포함하는, 컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/875,449 | 2004-06-23 | ||
US10/875,449 US20050289463A1 (en) | 2004-06-23 | 2004-06-23 | Systems and methods for spell correction of non-roman characters and words |
PCT/US2005/022027 WO2006002219A2 (en) | 2004-06-23 | 2005-06-21 | Systems and methods for spell correction of non-roman characters and words |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070027726A KR20070027726A (ko) | 2007-03-09 |
KR101146539B1 true KR101146539B1 (ko) | 2012-05-25 |
Family
ID=35427493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077001543A KR101146539B1 (ko) | 2004-06-23 | 2005-06-21 | 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20050289463A1 (ko) |
JP (2) | JP2008504605A (ko) |
KR (1) | KR101146539B1 (ko) |
CN (1) | CN101002198B (ko) |
WO (1) | WO2006002219A2 (ko) |
Families Citing this family (156)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8650187B2 (en) * | 2003-07-25 | 2014-02-11 | Palo Alto Research Center Incorporated | Systems and methods for linked event detection |
US7260780B2 (en) * | 2005-01-03 | 2007-08-21 | Microsoft Corporation | Method and apparatus for providing foreign language text display when encoding is not available |
US8438142B2 (en) | 2005-05-04 | 2013-05-07 | Google Inc. | Suggesting and refining user input based on original user input |
US7321892B2 (en) * | 2005-08-11 | 2008-01-22 | Amazon Technologies, Inc. | Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7895223B2 (en) | 2005-11-29 | 2011-02-22 | Cisco Technology, Inc. | Generating search results based on determined relationships between data objects and user connections to identified destinations |
US8006180B2 (en) * | 2006-01-10 | 2011-08-23 | Mircrosoft Corporation | Spell checking in network browser based applications |
US7849144B2 (en) | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
US8732314B2 (en) * | 2006-08-21 | 2014-05-20 | Cisco Technology, Inc. | Generation of contact information based on associating browsed content to user actions |
US9552349B2 (en) * | 2006-08-31 | 2017-01-24 | International Business Machines Corporation | Methods and apparatus for performing spelling corrections using one or more variant hash tables |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8024173B1 (en) | 2006-09-11 | 2011-09-20 | WordRake Holdings, LLC | Computer processes for detecting and correcting writing problems associated with nominalizations |
US8024319B2 (en) * | 2007-01-25 | 2011-09-20 | Microsoft Corporation | Finite-state model for processing web queries |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008151466A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
WO2009000103A1 (en) * | 2007-06-25 | 2008-12-31 | Google Inc. | Word probability determination |
US8019748B1 (en) | 2007-11-14 | 2011-09-13 | Google Inc. | Web search refinement |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8589149B2 (en) * | 2008-08-05 | 2013-11-19 | Nuance Communications, Inc. | Probability-based approach to recognition of user-entered data |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
CN102439540B (zh) * | 2009-03-19 | 2015-04-08 | 谷歌股份有限公司 | 输入法编辑器 |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101083540B1 (ko) * | 2009-07-08 | 2011-11-14 | 엔에이치엔(주) | 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법 |
US9183834B2 (en) * | 2009-07-22 | 2015-11-10 | Cisco Technology, Inc. | Speech recognition tuning tool |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
CN101777124A (zh) * | 2010-01-29 | 2010-07-14 | 北京新岸线网络技术有限公司 | 一种提取视频文本信息的方法及装置 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102541837A (zh) * | 2010-12-22 | 2012-07-04 | 张家港市赫图阿拉信息技术有限公司 | 一种校正输入中文拼写的方法 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8712931B1 (en) * | 2011-06-29 | 2014-04-29 | Amazon Technologies, Inc. | Adaptive input interface |
US8706472B2 (en) * | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8976118B2 (en) | 2012-01-20 | 2015-03-10 | International Business Machines Corporation | Method for character correction |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
TW201403354A (zh) * | 2012-07-03 | 2014-01-16 | Univ Nat Taiwan Normal | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
KR102069697B1 (ko) * | 2013-07-29 | 2020-02-24 | 한국전자통신연구원 | 자동 통역 장치 및 방법 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
WO2015109468A1 (en) * | 2014-01-23 | 2015-07-30 | Microsoft Corporation | Functionality to reduce the amount of time it takes a device to receive and process input |
CN104808806B (zh) * | 2014-01-28 | 2019-10-25 | 北京三星通信技术研究有限公司 | 根据不确定性信息实现汉字输入的方法和装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9377871B2 (en) | 2014-08-01 | 2016-06-28 | Nuance Communications, Inc. | System and methods for determining keyboard input in the presence of multiple contact points |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US9753915B2 (en) | 2015-08-06 | 2017-09-05 | Disney Enterprises, Inc. | Linguistic analysis and correction |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3398080A4 (en) | 2015-12-29 | 2019-07-31 | Microsoft Technology Licensing, LLC | FORMATTING DOCUMENT OBJECTS BY VISUAL SUGGESTIONS |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10180930B2 (en) | 2016-05-10 | 2019-01-15 | Go Daddy Operating Company, Inc. | Auto completing domain names comprising multiple languages |
US10430485B2 (en) | 2016-05-10 | 2019-10-01 | Go Daddy Operating Company, LLC | Verifying character sets in domain name requests |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
TWI614618B (zh) * | 2016-06-17 | 2018-02-11 | National Central University | 字詞校正方法 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10269352B2 (en) * | 2016-12-23 | 2019-04-23 | Nice Ltd. | System and method for detecting phonetically similar imposter phrases |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109844743B (zh) * | 2017-06-26 | 2023-10-17 | 微软技术许可有限责任公司 | 在自动聊天中生成响应 |
CN112445953B (zh) * | 2019-08-14 | 2024-07-19 | 阿里巴巴集团控股有限公司 | 信息的搜索纠错方法、计算设备及存储介质 |
US11443734B2 (en) | 2019-08-26 | 2022-09-13 | Nice Ltd. | System and method for combining phonetic and automatic speech recognition search |
US11675920B2 (en) * | 2019-12-03 | 2023-06-13 | Sonicwall Inc. | Call location based access control of query to database |
CN112232062A (zh) * | 2020-12-11 | 2021-01-15 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和存储介质 |
JP2023039822A (ja) * | 2021-09-09 | 2023-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN118133813B (zh) * | 2024-05-08 | 2024-08-09 | 北京澜舟科技有限公司 | 中文拼写纠错模型的训练方法以及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167367A (en) * | 1997-08-09 | 2000-12-26 | National Tsing Hua University | Method and device for automatic error detection and correction for computerized text files |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US5903861A (en) * | 1995-12-12 | 1999-05-11 | Chan; Kun C. | Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer |
US5706502A (en) * | 1996-03-25 | 1998-01-06 | Sun Microsystems, Inc. | Internet-enabled portfolio manager system and method |
US5956739A (en) * | 1996-06-25 | 1999-09-21 | Mitsubishi Electric Information Technology Center America, Inc. | System for text correction adaptive to the text being corrected |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
JPH10269204A (ja) * | 1997-03-28 | 1998-10-09 | Matsushita Electric Ind Co Ltd | 中国語文書自動校正方法及びその装置 |
CN1652107A (zh) * | 1998-06-04 | 2005-08-10 | 松下电器产业株式会社 | 语言变换规则产生装置、语言变换装置及程序记录媒体 |
US6035269A (en) * | 1998-06-23 | 2000-03-07 | Microsoft Corporation | Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text |
US6401060B1 (en) * | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US6649222B1 (en) * | 1998-09-07 | 2003-11-18 | The Procter & Gamble Company | Modulated plasma glow discharge treatments for making superhydrophobic substrates |
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
US7613601B2 (en) * | 2001-12-26 | 2009-11-03 | National Institute Of Information And Communications Technology | Method for predicting negative example, system for detecting incorrect wording using negative example prediction |
US7031911B2 (en) * | 2002-06-28 | 2006-04-18 | Microsoft Corporation | System and method for automatic detection of collocation mistakes in documents |
US7024360B2 (en) * | 2003-03-17 | 2006-04-04 | Rensselaer Polytechnic Institute | System for reconstruction of symbols in a sequence |
US20050177358A1 (en) * | 2004-02-10 | 2005-08-11 | Edward Melomed | Multilingual database interaction system and method |
-
2004
- 2004-06-23 US US10/875,449 patent/US20050289463A1/en not_active Abandoned
-
2005
- 2005-06-21 WO PCT/US2005/022027 patent/WO2006002219A2/en active Application Filing
- 2005-06-21 JP JP2007518226A patent/JP2008504605A/ja not_active Withdrawn
- 2005-06-21 CN CN2005800263504A patent/CN101002198B/zh not_active Expired - Fee Related
- 2005-06-21 KR KR1020077001543A patent/KR101146539B1/ko not_active IP Right Cessation
-
2011
- 2011-11-04 JP JP2011242872A patent/JP5444308B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167367A (en) * | 1997-08-09 | 2000-12-26 | National Tsing Hua University | Method and device for automatic error detection and correction for computerized text files |
Also Published As
Publication number | Publication date |
---|---|
WO2006002219A3 (en) | 2006-08-03 |
WO2006002219A2 (en) | 2006-01-05 |
KR20070027726A (ko) | 2007-03-09 |
CN101002198A (zh) | 2007-07-18 |
JP5444308B2 (ja) | 2014-03-19 |
JP2008504605A (ja) | 2008-02-14 |
US20050289463A1 (en) | 2005-12-29 |
CN101002198B (zh) | 2013-10-23 |
JP2012069142A (ja) | 2012-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101146539B1 (ko) | 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법 | |
CN109271626B (zh) | 文本语义分析方法 | |
CN106537370B (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
US8670975B2 (en) | Adaptive pattern learning for bilingual data mining | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
Azmi et al. | Real-word errors in Arabic texts: A better algorithm for detection and correction | |
Farrús et al. | Overcoming statistical machine translation limitations: error analysis and proposed solutions for the Catalan–Spanish language pair | |
Mishra et al. | A survey of spelling error detection and correction techniques | |
Doush et al. | A novel Arabic OCR post-processing using rule-based and word context techniques | |
Noaman et al. | Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system | |
Zhang et al. | Design and implementation of Chinese Common Braille translation system integrating Braille word segmentation and concatenation rules | |
Jain et al. | Detection and correction of non word spelling errors in Hindi language | |
Kaur et al. | Spell checker for Punjabi language using deep neural network | |
Yang et al. | Spell Checking for Chinese. | |
Shekhar et al. | Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants | |
Xie et al. | ABC-Fusion: Adapter-based BERT-level confusion set fusion approach for Chinese spelling correction | |
Ren et al. | A hybrid approach to automatic Chinese text checking and error correction | |
Yesuf et al. | Amharic Word Sense Disambiguation Using Wordnet | |
Sonnadara et al. | Sinhala spell correction: A novel benchmark with neural spell correction | |
Eutamene et al. | Ontologies and Bigram-based Approach for Isolated Non-word Errors Correction in OCR System. | |
Mahadevan et al. | Tamil Grammarly–A Typing Assistant for Tamil Language using Natural Language Processing | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language | |
Lyashevskaya et al. | An HMM-based PoS Tagger for Old Church Slavonic | |
Khoroshilov et al. | Introduction of Phrase Structures into the Example-Based Machine Translation System | |
Mon et al. | Myanmar spell checker |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150427 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160426 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |