KR100734741B1 - 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스 - Google Patents
단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스 Download PDFInfo
- Publication number
- KR100734741B1 KR100734741B1 KR1020047018492A KR20047018492A KR100734741B1 KR 100734741 B1 KR100734741 B1 KR 100734741B1 KR 1020047018492 A KR1020047018492 A KR 1020047018492A KR 20047018492 A KR20047018492 A KR 20047018492A KR 100734741 B1 KR100734741 B1 KR 100734741B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- root
- words
- characters
- valid
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
본 발명은 사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 방법에 관한 것이다. 사전 데이터베이스 내에 어떠한 유효한 어근도 존재하지 않으면, 통계 프로세스가 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트의 시퀀스를 체크하여 어근이 유효한 단어일 확률을 결정한다. 다른 실시예에서, 본 발명은 접두어 제거 프로세스, 접미어 제거 프로세스, 어근 프로세스 및/또는 합성 프로세스를 포함한다.
Description
본 발명은 컴퓨터의 텍스트 처리 분야에 관한 것이다. 특히, 본 발명은 자연 언어에서 가능한 실제 어휘(probable real words) 및 이 어휘의 품사(part of speech)(POS)를 인식하는 방법에 관한 것이다.
언어는 변하고 인류는 창조성이 있기 때문에, 현재의 어떠한 사전도 모든 가능한 단어를 포함하고 있는 것은 아니다. 요즘에, 이러한 현상은 새로운 기술이 이전보다 신속하게 출현함에 따라서 더욱 중요해지고 있다. 새로운 단어가 발견될 때마다 사전을 수동으로 갱신하는 것은 거의 불가능하며 만일에 가능하다면 수 많은 전문가의 시간과 노력을 필요로 한다.
따라서, 필수적으로, 여러 문헌에는 사전에 존재하지 않는 어휘(out-of-vocabulary)(OOV)가 존재하기 마련이다. 특히, 가령 새로운 합성어 및 접사 첨가에 의한 기존의 단어들의 어형론적 변화를 포함하는 새롭게 파생된 단어 및 특정 분야의 기술적 어휘들은 소정의 사전에 존재하지 않는다. 대부분의 사전에 존재하지 않는 이러한 실제 어휘들의 몇 개의 실례는 오토인젝터(autoinjector), 일렉트로카디오그래피electrocardiography, 아이드랍(eyedrop), 리매뉴팩처러빌러티(remanufacturability) 및 웹사이트(website) 등이다.
이러한 사전에 알려지지 않는 어휘로 인해서 기계 번역 시스템 및 파저(parser)와 같은 자연 언어 처리(NLP) 시스템에 있어서 문제가 발생하는데 그 이유는 상기 사전이 이러한 애플리케이션에 있어서 매우 중요하고 기본적인 지식의 원천이 되기 때문이다. NLP 애플리케이션이 그의 사전에 알려지지 않은 어휘를 만나게 되면, 이 애플리케이션은 그 문서를 처리할 수 없거나 그 문서를 처리하는데 필요한 정보를 추정하게 된다. 그러나, 이러한 추정은 통상적으로 매우 정확하지 않아서 그 애플리케이션은 양호하지 않은 결과를 내게 된다.
특히 품사(POS) 태거(tagger) 및 음성 인식 분야에서 이러한 문제를 해결하려는 많은 노력이 있었다. 그러나, 상이한 애플리케이션들은 상이한 안목으로 이러한 사전에 나오지 않는 어휘(OOV)의 문제를 인식하여 상이한 목적을 가지게 된다.
어휘에 대해서 사전적(구문론적) 정보에 의존하는 POS(품사) 태거(tagger) 및 파저(parser)의 경우, 그의 목적은 이 알려지지 않은 단어가 이에 이웃하는 단어와 함께 출현하는 확률을 기반으로 하여 그 문맥에서 OOV의 가장 그럴듯한 POS(품사)를 추정하는 것이다. Dermatas 및 Kokkinakis는 이전에 만났던 텍스트에서 오직 한번 출현하는 단어의 확률 분포로부터 알려지지 않은 단어가 특정 POS를 가 질 확률을 추정하였다. "Automatic stochastic tagging of natural language texts" in Computational Linguistics, 21(2), pp 137 - 164, 1995를 참조하라.
보다 개선된 POS 추정 방법은 선두 단어 부분 및 후미 단어 부분을 사용하여 알려지지 않은 단어에 대한 가능한 태그를 결정하는 것이다. Weischedel 등은 그의 대문자화 특징부 및 그의 끝부분이 주어진 경우에 알려지지 않는 단어가 특정 POS 태그일 확률을 사용하여 이 알려지지 않은 단어에 대한 POS를 추정하는 방법을 제안했다. Ralph Weischedel, Marie meeter, Richard Schwartz, Lance Ramshaw 및 Jeff Palmucci에 의한 "Coping with ambiguity and unknown words through probabilistic models" in Computational Linguistics, 19(2), pp 359 - 382, 1993을 참조하라.
Eric Brill은 종료부 추정 및 보다 어형론적으로 동기화된 규칙을 사용하는 규칙의 시스템을 개시하였다. "Transformation-Based Error-Driven Learning and Natural Language Processing : A Case Study in Part of Speech Tagging" in Computational Linguistics, 21(4), pp 543 - 565, 1995를 참조하라.
음성 인식 시스템에 있어서, OOV 어휘는 시스템 어휘 목록에 알려지지 않은 단어 또는 인식기가 인식할 수 없는 단어이다. 이 시스템의 목적은 이 시스템의 어휘 목록으로부터 이 OOV 단어에 (음성 및 의미의 차원에서) 가장 가까운 어휘를 발견하는 것이다.
문자 n그램 기반 통계적 방식(character ngram-based statistical approach)은 철차 보정 및 단어 분절과 같은 단어 레벨 언어 처리 분야에서 사용되었다. Angell, Freund 및 Willett는 유사 정도의 척도로서 Dice의 유사도 계수(Dice's similarity coefficient)를 사용하여 두 개의 스트링이 공통으로 갖는 트라이그램(trigram)의 개수를 기반으로 하여 오철자부와 사전 용어(dictionary term)를 비교하는 방법을 개시하였다. 이 오철자를 갖는 단어는 이 오철자부와 가장 잘 일치하는 사전 상의 단어로 대체된다. "Automatic Spelling Correction Using a Trigram Similarity Measure" in Information Processing and Management, 19(4), pp 255-261, 1983를 참조하라.
다음은 종래 기술이 갖는 문제를 다룬다.
종래 기술은 적어도 2 개의 문제를 갖는다.
첫째로, 종래 기술은 임의의 소정의 자연 언어에서 유효한 단어의 인식 및/또는 식별을 허용하지 않는다. 가령, (어형론적으로 변화된 및/또는 파생된) 단어의 모든 형태가 특정 사전에 존재하지 않을 수 있다. 또한, 새로운 단어 및/또는 신조어가 사전 데이터베이스 내에 존재하지 않을 수 있다. 이러한 문제는 특히 새로운 기술 또는 기존의 기술에서의 진보를 기술하기 위해서 새로운 단어가 사용될 필요가 있는 기술 관련 주제에서는 분명하다.
종래 기술은 OOV 단어가 그 시스템의 사전에 알려지지 않는 단어라고 가정하고 프로세스를 시작하지만 실제로 이들은 가능한 실제 단어들이다. 이로써, 이 시스템은 가령 새로운 단어 웹사이트(website)와 adkfiedifd 또는 v3.5a와 같은 부적합한 단어를 동일한 방식으로 간주하게 된다. 이전의 어떠한 기술도 가능한 새로운 단어를 인식하여 기존의 사전에 추가하여 이러한 단어가 차후에는 적절하게 OOV가 아닌 단어로서 식별될 수 있게 하도록 하지 않았다.
둘째로, 이전의 기술들은 시스템이 OOV 단어를 만나게 될 때에 이 시스템이 기능 고장을 일으키는 것을 방지하기 위해서 또는 그 시스템의 성능을 개선하기 위해서 이 애플리케이션 시스템 내부에 내장되었다. 이로써, 가능한 실제 단어를 발견하고 이 단어의 사전적 정보를 획득할 수 있는 어떠한 독립형 자동 시스템도 존재하지 않았다.
이전의 방식들이 OOV 문제를 해결하려고 했지만, 이들은 특정 애플리케이션을 위해서 설계되었다. 이들은 이들 OOV 단어가 나타나는 문맥을 기반으로 하여 특정 애플리케이션에서 필요한 이 단어의 정보를 추정한다. 따라서, 그 단어의 정보가 문맥에 따라서 다르게 된다.
발명의 개요
본 발명의 목적은 자연 언어에서는 존재하지만 사전에는 존재하지 않는 가능한 실제 어휘 및/또는 이의 품사를 인식하는 시스템 및 방법을 제공하는 것이다.
본 발명의 다른 목적은 기존의 단어에 첨가될 수 있는 새로운 어휘를 텍스트로부터 자동 또는 반자동으로 식별하는 시스템 및 방법을 제공하는 것이다.
본 발명은 사전 데이터베이스(a dictionary database)에 열거되지 않은 하나 이상의 어휘를 인식하는 시스템, 방법, 프로그램 제품 및 네트워크 용도에 관한 것이다. 통계적 프로세스가 그 단어 내의 하나 이상의 문자의 서브세트(subset)의 하나 이상의 시퀀스(sequecne)를 체크하여 그 단어가 유효한 단어(a vaild word)일 확률을 결정한다. 바람직한 실시예에서, 그 단어의 품사를 결정하는 데 있어서 규칙이 사용된다.
다른 실시예에서, 본 발명은 접두어 제거 프로세스, 접미어 제거 프로세스, 어근 획득 프로세스(a root process) 및/또는 조합 프로세스를 포함한다. 접두어 제거 프로세스는 접두어들이 바람직하게는 접두어 목록에 존재하는 단어로부터 하나 이상의 접두어를 제거한다. 접두어 제거는 바람직하게는 하나 이상의 접두어 제거 규칙에 의해 한정된다. 접두어 제거 프로세스는 또한 (가령, 사전 데이터베이스 또는 접두어 목록으로부터) 제거된 접두어에 대한 접두어 정보를 획득한다. 접미어 제거 프로세스는 그 접미어들이 바람직하게는 접미어 목록에 존재하는 단어로부터 하나 이상의 접미어를 제거한다. 접미어 제거는 바람직하게는 하나 이상의 접미어 제거 규칙에 의해 한정된다. 접미어 제거 프로세스는 또한 (가령, 사전 데이터베이스 또는 접미어 목록으로부터) 제거된 접미어에 대한 접미어 정보를 획득한다. 어근 획득 프로세스는 사전 데이터베이스로부터 어근에 대한 정보를 획득한다. (이 어근은 접미어 및 접두어가 제거된 단어이다.) 이어서, 조합 프로세스는 이 접두어, 어근 및 접미어가 하나 이상의 조합 규칙에 의해서 조합되어 유효한 단어를 생성하는지의 여부를 결정한다. 이 조합 프로세스는 만일 그 단어가 유효한 단어이면 그 유효한 단어의 하나 이상의 가능한 품사를 획득하고 이 유효한 단어와 함께 그의 품사를 사전 데이터베이스(또는 다른 메모리 위치)에 저장한다.
전술한 목적, 측면 및 장점 및 다른 목적, 측면 및 장점이 다음의 첨부 도면 을 참조하지만 본 발명을 한정하지는 않는 다음의 본 발명의 바람직한 실시예에 대한 상세한 설명 부분을 독해하면 분명해질 것이다.
도 1은 본 발명을 사용하는 시스템의 일 바람직한 실시예의 블록도,
도 2는 전체적인 사전 부가 프로세스의 흐름도,
도 3은 접두어 프로세스, 접미어 프로세스, 조합 프로세스를 포함하는 언어학적 프로세스의 흐름도,
도 4는 이 언어학적 프로세스에서 사용되는 접두어 프로세스의 흐름도,
도 5는 이 언어학적 프로세스에서 사용되는 접미어 프로세스의 흐름도,
도 6은 이 언어학적 프로세스에서 사용되는 조합 프로세스의 흐름도,
도 7은 통계적 프로세스의 흐름도,
도 8은 통계적 학습 프로세스의 흐름도,
도 9는 본 발명에 의해 식별된 단어를 자연 언어의 단어로서 출력하는 실례를 도시한 도면.
본 발명은 텍스트 내의 사전에 존재하지 않는 단어 중에서 실제 가능한 단어를 인식하는 시스템, 방법 및 프로그램을 제공하며, 다른 실시예에서는 식별된 단어의 품사를 파악하고 이를 기존의 사전에 추가하는 시스템, 방법 및 프로그램을 제공한다. 통상적인 사전에 존재하지 않는 어휘(OOV) 처리 시스템과는 달리, 본 발명은 일 바람직한 실시예에서 소정 단어에서의 트라이그램 시퀀스(trigram sequence)의 확률을 기반으로 하는 엔트로피 모델(an entropy model)을 제안한다.
실제 단어로서 인식된 단어들은 컴퓨터 시스템의 기존의 사전에 부가되어 컴퓨터 애플리케이션은 사전에 존재하지 않는 단어를 인식하여 이 단어를 차후에 적절하게 처리할 수 있다. 본 발명은 용어 추출 시스템(a terminology extraction system), 기계 번역 시스템 및 음성 인식 시스템과 같은 수 많은 언어 처리 시스템 내부로 통합될 수 있다. 또한, 이러한 단어는 사전 편찬자가 출판된 사전을 갱신 또는 첨가하는 데 사용된다. 본 발명은 사전 편찬자에게 새로운 단어들의 우수한 목록을 제공하여 그들의 작업을 줄인다. 본 발명은 또한 영어뿐만 아니라 프랑스어, 독일어 및 스페인어와 같은 다른 언어에도 적용될 수 있지만 여기에만 한정되는 것은 아니다.
도 1은 본 발명에 의해 수행되는 전체 프로세스를 도시한다. 본 발명, 즉 사전 첨가 시스템(a dictionary augmentation system)(100)은 임의의 알려진 컴퓨터 시스템에 의해서 운영된다. 이 시스템은 하드디스크 또는 네트워크(가령, 웹, 인트라넷, 기업 네트워크 등)로부터 문서(120)를 판독하고 이 문서 내의 각 단어에 대해서 이 시스템이 사용하는 온 라인 사전(140) 내에서 이 단어를 검색한다. (온 라인 사전은 잘 알려져 있으며 검색가능한 방식으로 단어들을 저장한 임의의 메모리 저장 디바이스를 포함한다.) 이 단어가 그 사전 내에 존재하지 않는다면, 본 발명은 그 단어가 대상 언어의 가능한 실제 단어인지의 여부를 검사한다. 여기서, 목적이 되는 언어는 일반적으로 알려진 자연 언어 뿐만 아니라 가령 컴퓨터 프로그래밍/복구 메뉴얼 또는 의학 용어와 같은 특정 기술 분야의 다양한 언어를 포함한다. 이 시스템은 만일 이 단어가 가능한 실제 단어이면 이 단어 및 이의 품사를 데이터베이스(160)에 기록한다. 이 가능한 실제 단어는 온 라인 사전(140) 상의 새로운 어휘 데이터베이스(160) 내에 또는 알려진 다른 타입의 저장 위치 내에 저장될 수 있다.
이 새로운 어휘 데이터베이스는 나중에 다른 컴퓨터 애플리케이션(200)이 문서 또는 음성(220)을 처리하는 데 사용될 수 있다. 이 애플리케이션은 잘 알려져 있으며 파저, 기계 번역 시스템 및 음성 인식 시스템을 포함한다. 이 데이터베이스는 또한 사전 편찬자(300)가 인류를 위해서 사전(320)을 출판 및/또는 개정할 때에 사용될 수 있다.
도 2는 전체적인 사전 첨가 프로세스(100)의 흐름도이다. 문서(120)가 가령 표준 기술에 의해서 시스템 내에서 판독될 때, 이 시스템은 그 문서로부터 단어를 접수하여 시스템 사전(140) 내에서 이 단어를 검색한다(110). 만일 이 단어가 사전 내에 존재하면(130), 다른 프로세스는 필요하지 않다. 그러나, 이 단어가 이 사전 내에 존재하지 않는다면, 이 시스템은 이 단어가 오직 문자로만 구성된지의 여부를 체크한다(150). 그 단어가 하나 이상의 숫자 또는 특수 문자를 포함하면, 시스템은 이 단어를 무시한다.
만일 이 단어가 오직 문자로만 구성되었으면, 이 시스템은 먼저 언어학적 프로세스(400)를 수행하여 이 단어가 새롭게 파생된 단어(즉, 기존의 단어들의 어형론적 변화 및/또는 합성된 단어)인지의 여부를 검사한다. 이 프로세스는 성공적이면(170), 이 시스템은 선택사양적으로 이 단어 및 그의 사전적 정보를 새로운 어휘 데이터베이스(160) 또는 다른 저장 장치 내에 저장한다(190). 만일 이 프로세스가 실패했다면, 시스템은 통계적 프로세스(500)를 수행한다. 만일 이 프로세스(500)가 이 단어를 새로운 단어로서 인식하면(180), 시스템은 이 단어 및 그의 사전적 정보를 새로운 어휘 데이터베이스(160) 내에 저장한다(190). 이러한 처리 절차는 이 문서 내에 어떠한 단어도 남기지 않고 검색될 때까지 수행된다.
도 3은 전체 언어학적 프로세스(400)의 흐름도이다. 이 프로세스는 새롭게 파생된 단어를 인식하는 프로세스이다. 새롭게 파생된 단어는 사전에 이미 알려진 단어를 대부분 접사 첨가함으로써, 즉 접두어를 단어의 처음 부분에 첨가하거나 접미어를 단어의 끝부분에 첨가함으로써 또는 단어 합성에 의해서, 즉 2 개 이상의 단어가 한 단어로 합성됨으로써 어형론적으로 변화된 것을 말한다. 먼저, 시스템은 그 단어가 하나 이상의 접두어 및 어근을 포함하는지의 여부를 검사한다(410). 접두어 프로세스(410)가 성공적이면(420), 이 단어는 새로운 단어로 간주되고 이 프로세스는 종료된다. 이 접두어 프로세스가 실패하면(420), 이 시스템은 그 단어가 하나 이상의 접미어와 어근을 포함하는지의 여부를 결정한다(430). 만일 접미어 프로세스가 성공적이면, 이 단어는 새로운 단어로 간주되고 이 프로세스는 종료된다. 만일 접미어 프로세스(430)가 실패하면(440), 이 시스템은 합성 프로세스(450)를 수행하여 이 단어가 내용을 갖는 2 개의 단어로 구성된 것인지의 여부를 검사한다. 만일 이 합성 프로세스가 성공적이면, 이 단어는 새로운 단어로 간주 되고 이 프로세스는 종료된다. 본 발명에서 접두어 프로세스(410), 접미어 프로세스(430) 및/또는 합성 프로세스(450)는 단독으로 동작하거나 다른 프로세스와 조합하여 동작한다.
도 4는 언어학적 프로세스(400) 내에서 사용되는 접두어 프로세스(410)의 흐름도이다. 접두어를 갖는 단어에 대한 프로세스(410)는 다음과 같다.
먼저, 시스템은 접두어 목록(417) 내의 임의의 접두어가 그 단어의 처음 부분에 나타나는지의 여부를 체크한다(411). 만일 그 단어가 접두어를 포함하면(412), 이 시스템은 그 단어로부터 접두어를 제거하고(413) 나머지 부분(어근)을 사전에서 검색한다(414). 일 바람직한 실시예에서, 이 어근의 길이는 2 개의 문자가 최소의 길이이다. 만일 사전이 이 어근을 포함하면(415), OOV 단어는 실제 단어로 고려되고 이 프로세스(410)에 의해 처리된 이 단어는 어근의 사전적 정보를 물려 받는다(416). 가령, antiasthmatic(부사), autoinjector(명사), remanufactured(동사의 과거 시제), streoselectivity(명사)는 접두어 프로세스(410)에 의해서 발견된다.
도 5는 언어학적 프로세스(400) 내에서 사용되는 접미어 프로세스(430)의 흐름도이다. 이 프로세스는 다음과 같다. 먼저, 시스템은 접미어 데이터베이스(438) 내의 임의의 접미어가 그 단어(431)의 끝부분에서 나타나는지의 여부를 체크한다. 바람직한 실시예에서, 본 발명은 특정 접미어 및 이로 인한 POS를 갖는 어근의 전제적 POS를 기술하는 접미어를 위한 규칙 세트(438)를 사용한다.
바람직한 실시예에서 사용되는 오직 예시적인 접미어 규칙 구조는 다음과 같 다. 접미어 able에 대한 규칙은 [able, {VB => JJ}, {NN => JJ}]. 이는 동사(VB) 또는 명사(NN)는 그 단어의 끝부분에 접미어 able를 가질 수 있으며 이로써 생성된 단어의 품사는 형용사(JJ)이다. 단어가 접미어를 가지면(432), 시스템은 이 접미어(433)를 제거하고 사전에서 이 단어의 어근을 검색한다(435). 어근이 사전에서 발견되고(436) 이 어근이 전제적 POS 중 하나를 가지면, 이 단어는 실제 단어로서 간주되며 상기 규칙에 따라 결과적인 POS를 갖는다(437).
그러나, 이 어근이 사전에서 발견되지 않으면, 시스템은 어근 형태 복구를 수행한다(434). 접미어가 그 단어에 첨가되면, 이 어근의 철자는 변할 수 있다. 가령, 영어에서, 묵음 e로 끝나는 단어는 통상적으로 모음으로 시작되는 접미어 앞에서 e가 생략된다. 가령, 시스템이 browsable를 판독할 때, 이 시스템은 접미어 able를 분리하여 어근 brows를 얻는다. 이 시스템은 사전에서 brows를 검색하지만 실패한다. 이어서, 시스템은 어근 형태를 복구하여 본래의 형태 browse를 얻는다.
어근 형태를 복구하기 위해서 바람직한 실시에에서 다음과 같은 규칙이 사용된다.
(1) 어근의 두 개의 마지막 문자가 동일한 자음이면, 하나를 삭제한다.
(2) 어근의 마지막 문자가 'i' 이면, 이 i를 y로 변경한다.
(3) 어근의 마자막 문자가 자음이지만 (1)의 경우는 아니면, 'e'를 첨가한다.
복구된 어근이 사전에서 발견되고(436) 이 단어가 전제적 POS 중 하나를 가 지면, 이 단어는 실제 단어로서 간주되고 규칙에 따르는 품사를 갖는다(437). 이러한 경우의 몇몇 실례는 browsable(형용사), migranious(형용사) 및 oxidizability(명사)이다.
가령, remanufacturability와 같은 몇몇 단어는 하나 이상의 접두어 및 하나 이상의 접미어 및 어근을 포함한다. 이 경우에, 이 단어는 상술된 접두어 프로세스 및 접미어 프로세스를 받는다.
도 6은 언어학적 프로세스에서 사용되는 합성 프로세스의 흐름도이다. 단어가 위의 접미어 프로세스 및 접두어 프로세스 모두에 해당되지 않으면, 이 단어는 합성 프로세스(450)를 위한 것으로 고려된다. 이 시스템은 소정의 OOV 단어를 두 개의 요소, 즉 처음 문자에서 분할 지점까지의 문자를 포함하는 제 1 요소 및 분할 지점 + 1 문자에서 그 단어의 최종 문자까지의 문자를 포함하는 제 2 요소로 분할된다. 초기 분할 지점은 3 번째 문자부터이다(451). 이어서, 시스템은 사전에서 제 1 요소를 검색한다(454). 제 1 요소가 사전에서 존재하지 않으면(455), 시스템은 분할 지점을 증가시켜서(459), 제 2 요소의 문자의 개수가 2 개 이하가 될 때까지 이 프로세스를 반복한다(452).
제 1 요소가 사전에서 발견되면(455), 제 2 요소가 사전에서 검색된다(456). 제 2 요소도 사전에서 발견되면(457), 시스템은 두 요소의 조합이 유효한지의 여부를 조사한다(458). 단어들의 가능한 조합은 명사 + 명사, 명사 + 동사의 분사 형태이다. 이 조합이 유효하면, OOV 단어는 실제 단어로서 간주되고 제 2 요소의 품사를 갖는다(459). 이러한 합성어의 실례는 airbreathing(명사, 동명사), eyedrops(명사), photophobia(명사) 및 website(명사)이다.
도 7은 바람직한 전체적인 통계적 프로세스(500)의 흐름도이다. 이 프로세스는 파생되지 않은 새로운 단어를 인식하기 위한 것이다. 이러한 비파생형 새로운 단어는 파생 규칙(또는 어휘 형성 규칙)에 의해서 기존의 단어로부터 생성될 수 없는 단어를 의미한다. 수 많은 특정 기술 분야의 용어들이 이 범위에 속한다. 인류는 이전에 보이지 않던 단어가 가능한 새로운 단어인지의 여부를 성공적으로 추정할 수 있지만, 이 단어는 이미 알려진 단어들로 구성되지 않는다. 일 실시예에서, 만일 단어에서 문자 시퀀스가 가능하게 보이고 이를 발음하기가 자연스럽다면 인류는 이 단어를 실제 단어로서 결론지을 수 있다고 가정해보자. 비파생형 새로운 단어의 인식은 이러한 가정을 기반으로 한다.
본 발명에서, 스트링 내의 모든 문자가 그의 이웃하는 문자와 동시에 발생할 수 있다면 이 문자의 시퀀스를 가능한 실제 단어로서 간주한다. (이웃하는 문자와 결합되는 문자들의 시퀀스는 스트링(string)으로 지칭된다.) 이웃하는 문자들은 임의의 개수를 갖는 선행하는 또는 후속하는 문자일 수 있다. 이 방법은 언어의 예측확률을 기반으로 한다. 즉, 선행하는 n 개의 문자 또는 후속하는 n 개의 문자를 알고 있을 경우에, 그 텍스트의 다음의 문자가 어느 정도 양호하게 예측될 수 있는지를 기반으로 한다. 바람직한 실시예에서, 본 발명은 이웃하는 문자를 두 개의 선행하는 문자로서 규정한다. 즉, 단어 내의 문자들이 두 개의 선행하는 문자들이 보여진 경우(즉, 트라이그램 모델, 여기서 스트링은 3 개의 문자 또는 트라이그램임) 그들의 위치에서 발생할 수 있는 확률이 높다면, 그 단어는 실제 단어로서 간주된다.
이 모델은 2 개의 모드, 즉 학습 모드(510) 및 애플리케이션 모드(550,560)를 갖는다. 학습 모드에서, 시스템은 시스템 사전(140)으로부터 문자 트라이그램 통계치의 확률을 학습하여 이 트라이그램 통계치를 데이터베이스에 저장한다(520). 학습 모드는 또한 트레이닝 데이터로부터 단어의 끝부분을 기반으로 하여 품사 추정 규칙을 생성한다(530). 애플리케이션 모드에서, 시스템이 OOV 단어를 획득하면(540), 이 시스템은 그 단어 내의 모든 문자 트라이그램의 확률의 엔트로피(entropy)를 계산한다(550).
언어 모델의 엔트로피는 정보의 예상된 값이다. 엔트로피는 미래에 대한 그 모델의 불확실성의 척도이다. 이는 추정된 확률 분포가 균일하게 됨에 따라서 증가한다. 본 발명은 사전에 나오지 않는 어휘(하나 이상의 문자 시퀀스 또는 단어 시퀀스)가 제공될 경우에 그 단어가 가능한 실제 단어인지를 그의 통계적 구조를 기반으로 하여 결정할 수 있는 모델을 제안한다. 말하자면, 단어는 강한 내부의 통계적 영향을 갖는 문자들의 응집성 그룹(a cohesive group)이다.
단어 w가 n 개의 문자로 구성되었다고 가정해보자. 즉, w = c1c2....cn이다. 하나의 선두 스페이스 및 하나의 후미 스페이스를 첨가하고 이로써 w를 c0c1c2....cncn+1로 만들어 트라이그램 확률을 추정해보자(이는 도 8에서 보다 상세하게 설명될 것이다). 단어 w의 엔트로피, H(w)은 다음과 같이 계산된다.
바람직한 실시예에서, 엔트로피 값이 소정의 임계치보다 높으면, 본 발명은 이 단어가 실제 단어라고 결론을 내린다. 일 실시예에서, 임계치는 2.3으로 설정되는데 이 값은 트레이닝 데이터(training data)(이 트레이닝 데이터에 대해서는 도 8에 대한 설명을 참조하라)의 (평균 엔트로피 - 최소 엔트로피)로 결정된다. 이 단어가 실제 단어로 결정되면, 시스템은 끝부분 추정 규칙 데이터베이스(530)로부터 모든 가능한 품사를 생성한다. 이 끝부분 추정 규칙은 도 8에 설명되어 있다. 이 규칙 세트를 사용함으로써, 시스템은 가장 긴 정합 패턴을 기반으로 하여 그 단어의 모든 가능한 품사를 생성한다. 본 발명은 가장 긴 끝부분(이 가장 긴 끝부분은 단어의 길이가 7 개의 문자보다 많으면 5 개의 문자이고 그렇지 않으면 그 단어의 길이에 3 개의 문자를 뺀 문자임)에서 마지막 한 개의 문자에 이르는 이 단어의 끝부분 문자를 규칙 세트 내에서 검색한다. 만일 이 끝부분이 이 규칙 세트 내에 존재하면, 정합 프로세스는 종료되고 이 시스템은 이 끝부분의 모든 품사를 규칙 빈도의 크기 순으로 생성한다. 가령, cortical는 형용사 및 명사로서 추정되지만 tical이 트레이닝 데이터에서 명사로서보다 형용사로서 4 배 정도 더 많이 나타나기 때문에 형용사로 판독하는 것이 바람직하다. 통계치 프로세스에 의해서 인식된 새로운 단어의 몇몇 실례는 accelerometers(명사), diastolic(형용사, 명사), kinesiology(명사) 및 ingressed(동사의 과거 시제)이다.
도 8은 통계치 학습 프로세스(510)의 흐름도이다. 단어의 트라이그램 확률을 학습하기 위해서, 시스템은 모두 유효한 단어를 가지고 있는 시스템 사전(140)을 사용한다. 이 시스템은 사전으로부터 단어를 판독하고 그 단어의 모든 가능한 활용을 검색한다(511). 이 시스템은 생성된 단어에 선두 스페이스 및 후미 스페이스를 첨가하고(512) 이 단어를 데이터베이스(513)에 저장한다. 가령, n 개의 문자로 구성된 단어 w = c1c2....cn가 사전에 나오지 않는 OOV 단어라고 가정해보자. 이 시스템은 이 단어에 선두 스페이스(b1) 및 후미 스페이스(b2)를 첨가하여(512) w' = b1c1c2....cnb2 를 생성한다. 이 단어 목록은 사전에서 생성될 수 있는 모든 유효한 단어 형태를 포함한다. 이 시스템은 사전의 모든 단어가 처리될까지 이러한 프로세스를 반복한다(514). 생성된 단어 목록과 함께, 시스템은 두 가지 지식, 즉 트라이그램 통계치 및 품사 규칙을 터득한다. 이러한 학습 프로그램은 단어 목록 내의 모든 단어가 처리될 때까지 계속된다(519).
이 시스템은 3 개의 문자의 시퀀스 및 2 개의 문자의 시퀀스의 빈도를 카운트함으로써 단어 목록(513)으로부터 트라이그램 확률을 계산한다. 이 시스템이 단어 목록(513)으로부터 단어를 판독하고(515) 모든 가능한 3 개의 문자의 시퀀스 및 2 개의 문자의 시퀀스를 생성하고 이들의 빈도를 증가시킨다(516).
가령, w = b1c1c2....cnb2 가 n 개의 문자와 두 개의 스페이스(선두 스페이스 및 후미 스페이스)로 구성된다고 해보자. 이어서, 시스템은 b1c2, c1c
2 ... cn-1cn , cnb2 와 같은 모든 가능한 2 개 문자의 시퀀스 및 b1c1c
2, c1c2 c3 .... cn-1cnb2 와 같은 모든 가능한 3 개 문자의 시퀀스를 생성한다. 이 시스템은 단어 목록 내의 단어로부터 찾을 수 있는 모든 가능한 두 개의 문자의 시퀀스 및 3 개의 문자의 시 퀀스의 빈도를 카운트한다.
시스템이 3 개의 문자 시퀀스 및 2 개의 문자 시퀀스의 빈도를 획득하면, 이 시스템은 모든 가능한 트라이그램 확률을 계산하고(517) 이 통계치를 데이터베이스 내에 저장한다(520). 트라이그램의 확률, 즉 문자 c3의 발생 확률은 이 문자에 선행하는 두 문자 c1 및 c2 가 주어진 경우에 다음과 같이 계산된다.
또한, 시스템은 단어 목록으로부터 품사 추정 규칙을 생성한다(518). 단어 목록 내의 모든 단어에 대해, 문자의 길이가 한 개 내지 5 개에 달하는 모든 가능한 끝부분을 단어의 품사와 함께 생성할 수 있다. 나머지 부분의 최소한의 길이는 적어도 3 개의 문자로 구성된다. 이 시스템은 끝부분 추정 규칙의 빈도를 카운트하고 이 규칙을 끝부분 추정 규칙 데이터베이스 내에 저장한다(530).
가령, 단어 "ailments"는 트레이닝 사전(training dictionary) 내에서 복수 명사(NNS)로서 열거된다. 이어서, 끝부분 추정 규칙 생성기는 길이가 1 개인 끝부분(s)에서 길이가 5 문자에 달하는 끝부분(ments)을 포함하는 모든 가능한 끝부분을 자신의 품사와 함께 생성한다. 말하자면, 이 생성기는 s-NNS, ts-NNS,...,ments-NNS를 생성한다. 단어 "mounting"는 두 개의 품사, 즉 명사(NN) 및 동명사(VBG)를 갖는다. 이 경우에, 각 끝부분은 두 개의 품사를 갖는다. 말하자면, 이는 g-NN, g-VBG, ng-NN 및 ng-VBG, ... , nting-NN 및 nting-VGB이다. 다음의 표는 끝부분 추정 규칙이 트레이닝 데이터로부터 생성되는 방식을 나타낸 다.
도 9는 본 발명에 의해 식별된 단어를 자연 언어의 단어로서 출력하는 것의 실례이다. 이 도면에서 방법 열은 새로운 단어 샘플을 인식하는 데 사용된 메카니즘을 명시한다. 접두어 방법에서 단어들은 프로세스(410)에 의해서 인식되며, 접미어 방법에서 단어들은 프로세스(430)에 의해서 인식된다. 접두어 + 접미어 방법에서 단어들은 프로세스(410) 및 프로세스(430)에 의해서 인식되고, 합성 방법에서 단어들은 프로세스(450)에 의해서 인식된다. 마지막으로, 엔트로피 통계치 방법에서 단어들은 프로세스(500)에 의해서 식별된다. 말하자면, 그 단어의 엔트로피 값은 소정의 임계치보다 크다.
본 발명의 예시적인 실례는 텍스트 내의 사전에 나오지 않는 단어 중에서 실제로 가능한 단어를 식별하는 데 사용된다. 상술된 기술을 사용하여, 문자 트라이그램의 확률의 엔트로피 및 영어의 어형론적 규칙을 기반으로 하여 실제 단어가 식별된다. 본 발명은 또한 이 식별된 단어의 품사(POS)를 사전적 정보 규칙 및 단어 끝부분을 기반으로 하여 인식한다. 본 발명의 실시예는 정확도가 매우 높으며 단어를 매우 양호하게 다시 기억할 수 있다. 다른 예시적인 실시예에서, 본 발명은 특정 기술 분야의 용어를 인식하는 데 매우 유용하며, 단일 또는 다수의 어휘 용어집 항목들을 식별하고 특정 분야의 사전을 형성하는 용어집 추출 시스템 내에 성공적으로 내장될 수 있다. 다른 실시예들은 본 명세서로부터 본 기술 분야의 당업자에게 자명해질 것이다. 이들 실시예들은 또한 본 발명의 범위 내에 포함된다.
Claims (21)
- 사전 데이터베이스(a dictionary database) 내에 열거되지 않은 하나 이상의 단어를 인식하는 시스템에 있어서,하나 이상의 중앙 처리 장치 및 하나 이상의 메모리를 구비하고,상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근(a root word)에 대한 어근 정보를 획득하는 어근 프로세스(a root process)와,상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트(subset)에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 상기 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 통계적 프로세스를 포함하는 단어 인식 시스템.
- 제 1 항에 있어서,상기 확률은 상기 어근 내에서 상기 하나 이상의 문자로 구성된 서브세트의 서브세트가 하나 이상의 다른 문자들에 인접하여 올바르게 배치되는 가능성의 척도를 포함하는단어 인식 시스템.
- 청구항 3은(는) 설정등록료 납부시 포기되었습니다.제 2 항에 있어서,상기 인접하는 다른 문자들은 상기 서브세트에 선행하는단어 인식 시스템.
- 청구항 4은(는) 설정등록료 납부시 포기되었습니다.제 2 항에 있어서,상기 인접하는 다른 문자들은 상기 서브세트에 후속하는단어 인식 시스템.
- 청구항 5은(는) 설정등록료 납부시 포기되었습니다.제 4 항에 있어서,상기 서브세트 및 상기 인접하는 다른 문자들은 트라이그램(trigram)을 형성하는단어 인식 시스템.
- 제 2 항에 있어서,상기 확률은,상기 어근 내의 상기 하나 이상의 문자로 구성된 서브세트 및 상기 하나 이상의 인접하는 문자들의 각각에 대해, 상기 하나 이상의 문자로 구성된 서브세트와 상기 인접하는 다른 문자들로 구성된 스트링(string)을, 각각의 확률과 연관된 스트링들의 데이터베이스와 비교하여 스트링 확률의 세트를 산출하고,상기 스트링 확률의 로그에 의해 스트링 확률 세트 내에 각각의 스트링 확률을 승산하여 로그 스트링 확률의 세트를 산출하며,상기 로그 스트링 확률의 세트 내에 상기 로그 스트링 확률을 합산하여 상기 어근이 유효한 단어일 확률을 산출하함으로써 결정되는단어 인식 시스템.
- 제 6 항에 있어서,상기 데이터베이스 내의 상기 스트링들의 각각의 확률은 문자들로 구성된 하나 이상의 가능한 스트링을 발견하여, 유효한 단어들의 데이터베이스 내에서 상기 가능한 문자 스트링의 발생 빈도를 카운트함으로써 결정되는단어 인식 시스템.
- 제 2 항에 있어서,상기 단어의 품사(a part of speech)를 규정하는 하나 이상의 규칙을 더 포함하되,상기 규칙이 유효한 단어의 데이터베이스에 대해 올바르게 적용되는 발생 빈도 중, 소정의 임계치보다 큰 발생 빈도를 기반으로 하는 규칙 확률을 갖는단어 인식 시스템.
- 청구항 9은(는) 설정등록료 납부시 포기되었습니다.제 8 항에 있어서,상기 어근의 품사는 상기 규칙 중 하나에 의해 결정되는단어 인식 시스템.
- 청구항 10은(는) 설정등록료 납부시 포기되었습니다.제 8 항에 있어서,상기 규칙은 상기 어근의 끝부분(ending)에 적용되는단어 인식 시스템.
- 청구항 11은(는) 설정등록료 납부시 포기되었습니다.제 1 항에 있어서,상기 단어를 두 개의 요소로 분할하는 합성어 프로세스를 포함하며,상기 어근은 상기 두 개의 요소 중 제 2 요소인단어 인식 시스템.
- 청구항 12은(는) 설정등록료 납부시 포기되었습니다.제 11 항에 있어서,상기 합성어 프로세스는 또한 상기 어근의 품사를 결정하는단어 인식 시스템.
- 청구항 13은(는) 설정등록료 납부시 포기되었습니다.제 1 항에 있어서,상기 단어가 유효한 단어로 판정되면, 상기 단어는 새로운 어휘 사전 메모리 내에 저장되는단어 인식 시스템.
- 청구항 14은(는) 설정등록료 납부시 포기되었습니다.제 1 항에 있어서,상기 단어가 유효한 단어로 판정되면, 하나 이상의 문서에서 상기 단어의 발생 빈도를 카운트하여 상기 단어의 중요도를 결정하는 단어 카운트 프로세스를 더 포함하는단어 인식 시스템.
- 제 1 항에 있어서,상기 단어로부터 하나 이상의 접두어를 제거하는 접두어 제거 프로세스를 더 포함하며,상기 접두어는 접두어 목록 내에 존재하고,상기 접두어 제거는 하나 이상의 접두어 제거 규칙에 의해 제한되며,상기 접두어 제거 프로세스는 상기 제거된 접두어에 대한 접두어 정보를 획득하는 것을 더 포함하는단어 인식 시스템.
- 청구항 16은(는) 설정등록료 납부시 포기되었습니다.제 15 항에 있어서,상기 접두어 정보는 사전 데이터베이스 및 접두어 목록 중 하나 이상으로부터 획득되는단어 인식 시스템.
- 제 1 항에 있어서,상기 단어로부터 하나 이상의 접미어를 제거하는 접미어 제거 프로세스를 더 포함하며,상기 접미어는 접미어 목록 내에 존재하고,상기 접미어 제거는 하나 이상의 접미어 제거 규칙에 의해 제한되며,상기 접미어 제거 프로세스는 상기 제거된 접미어에 대한 접미어 정보를 획득하는 것을 더 포함하는단어 인식 시스템.
- 청구항 18은(는) 설정등록료 납부시 포기되었습니다.제 17 항에 있어서,상기 접미어 정보는 사전 데이터베이스 및 접미어 목록 중 하나 이상으로부터 획득되는단어 인식 시스템.
- 사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 방법에 있어서,상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 단계와,상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 단계를 포함하는 단어 인식 방법.
- 사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 시스템에 있어서,상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 수단과,상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 수단을 포함하는 단어 인식 시스템.
- 컴퓨터 프로그램을 저장하는 컴퓨터 메모리 저장 디바이스에 있어서,상기 컴퓨터 프로그램은,상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 단계와,상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 단계를 수행하는 컴퓨터 프로그램 메모리 저장 디바이스.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/173,931 | 2002-06-17 | ||
US10/173,931 US7680649B2 (en) | 2002-06-17 | 2002-06-17 | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages |
PCT/US2003/012549 WO2003107217A1 (en) | 2002-06-17 | 2003-04-21 | Recognizing words and their parts of speech in one or more natural languages |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050007547A KR20050007547A (ko) | 2005-01-19 |
KR100734741B1 true KR100734741B1 (ko) | 2007-07-03 |
Family
ID=29733454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020047018492A KR100734741B1 (ko) | 2002-06-17 | 2003-04-21 | 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7680649B2 (ko) |
JP (1) | JP2006512629A (ko) |
KR (1) | KR100734741B1 (ko) |
CN (1) | CN100587686C (ko) |
AU (1) | AU2003231051A1 (ko) |
CA (1) | CA2488814C (ko) |
WO (1) | WO2003107217A1 (ko) |
Families Citing this family (232)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7747428B1 (en) | 2003-09-24 | 2010-06-29 | Yahoo! Inc. | Visibly distinguishing portions of compound words |
US7464020B1 (en) * | 2003-09-24 | 2008-12-09 | Yahoo! Inc. | Visibly distinguishing portions of compound words |
US7421386B2 (en) * | 2003-10-23 | 2008-09-02 | Microsoft Corporation | Full-form lexicon with tagged data and methods of constructing and using the same |
US7398210B2 (en) * | 2003-10-23 | 2008-07-08 | Microsoft Corporation | System and method for performing analysis on word variants |
US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
EP1717668A1 (en) * | 2005-04-29 | 2006-11-02 | Research In Motion Limited | Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP3986531B2 (ja) * | 2005-09-21 | 2007-10-03 | 沖電気工業株式会社 | 形態素解析装置及び形態素解析プログラム |
US7698128B2 (en) | 2006-01-13 | 2010-04-13 | Research In Motion Limited | Handheld electronic device and method for disambiguation of compound text input and that employs N-gram data to limit generation of low-probability compound language solutions |
JP4720570B2 (ja) * | 2006-03-27 | 2011-07-13 | カシオ計算機株式会社 | 情報表示制御装置及び情報表示制御プログラム |
JP4671898B2 (ja) * | 2006-03-30 | 2011-04-20 | 富士通株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
GB0611303D0 (en) * | 2006-06-08 | 2006-07-19 | Ibm | A method, apparatus and software for selecting terms for a glossary in a document processing system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080208566A1 (en) * | 2007-02-23 | 2008-08-28 | Microsoft Corporation | Automated word-form transformation and part of speech tag assignment |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
US7983902B2 (en) | 2007-08-23 | 2011-07-19 | Google Inc. | Domain dictionary creation by detection of new topic words using divergence value comparison |
US8265162B2 (en) * | 2007-10-01 | 2012-09-11 | Cisco Technology, Inc. | Context adaptive position and amplitude coding of coefficients for video compression |
CN102016837B (zh) * | 2007-11-26 | 2014-08-20 | 沃伦·丹尼尔·蔡尔德 | 中文型文字及文字偏旁的分类及检索的系统与方法 |
US7437291B1 (en) * | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262397B2 (en) | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8855997B2 (en) * | 2011-07-28 | 2014-10-07 | Microsoft Corporation | Linguistic error detection |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9251143B2 (en) | 2012-01-13 | 2016-02-02 | International Business Machines Corporation | Converting data into natural language form |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9064492B2 (en) * | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
KR101629415B1 (ko) * | 2012-08-10 | 2016-06-10 | 에스케이텔레콤 주식회사 | 문법 오류 검출 방법 및 이를 위한 오류검출장치 |
CN103680261B (zh) * | 2012-08-31 | 2017-03-08 | 英业达科技有限公司 | 词汇学习系统及其方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP2014067179A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書処理装置及び文書処理プログラム |
CN102902757B (zh) * | 2012-09-25 | 2015-07-29 | 姚明东 | 一种电子商务字典自动生成方法 |
US8612213B1 (en) | 2012-10-16 | 2013-12-17 | Google Inc. | Correction of errors in character strings that include a word delimiter |
US8713433B1 (en) | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
JP2016508007A (ja) | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | デジタルアシスタントのためのボイストリガ |
CN103136191A (zh) * | 2013-03-14 | 2013-06-05 | 姚明东 | 一种电子商务字典中单字词的自动抽取方法 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9805018B1 (en) | 2013-03-15 | 2017-10-31 | Steven E. Richfield | Natural language processing for analyzing internet content and finding solutions to needs expressed in text |
US8788263B1 (en) * | 2013-03-15 | 2014-07-22 | Steven E. Richfield | Natural language processing for analyzing internet content and finding solutions to needs expressed in text |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US10853572B2 (en) * | 2013-07-30 | 2020-12-01 | Oracle International Corporation | System and method for detecting the occureances of irrelevant and/or low-score strings in community based or user generated content |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
GB201321927D0 (en) * | 2013-12-11 | 2014-01-22 | Touchtype Ltd | System and method for inputting text into electronic devices |
CN104750676B (zh) * | 2013-12-31 | 2017-10-24 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9933994B2 (en) * | 2014-06-24 | 2018-04-03 | Lenovo (Singapore) Pte. Ltd. | Receiving at a device audible input that is spelled |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
JP6277921B2 (ja) * | 2014-09-25 | 2018-02-14 | 京セラドキュメントソリューションズ株式会社 | 用語集管理装置および用語集管理プログラム |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9852124B2 (en) | 2015-09-02 | 2017-12-26 | International Business Machines Corporation | Dynamic portmanteau word semantic identification |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10268684B1 (en) | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US9959271B1 (en) * | 2015-09-28 | 2018-05-01 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10185713B1 (en) | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10134388B1 (en) * | 2015-12-23 | 2018-11-20 | Amazon Technologies, Inc. | Word generation for speech recognition |
WO2017130089A1 (en) * | 2016-01-26 | 2017-08-03 | Koninklijke Philips N.V. | Systems and methods for neural clinical paraphrase generation |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10347249B2 (en) * | 2016-05-02 | 2019-07-09 | The Regents Of The University Of California | Energy-efficient, accelerometer-based hotword detection to launch a voice-control system |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
CN106211165B (zh) * | 2016-06-14 | 2020-04-21 | 北京奇虎科技有限公司 | 检测外文骚扰短信的方法、装置及相应的客户端 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10120860B2 (en) * | 2016-12-21 | 2018-11-06 | Intel Corporation | Methods and apparatus to identify a count of n-grams appearing in a corpus |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10754441B2 (en) | 2017-04-26 | 2020-08-25 | Microsoft Technology Licensing, Llc | Text input system using evidence from corrections |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109766539B (zh) * | 2018-11-30 | 2022-12-20 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109582975B (zh) * | 2019-01-31 | 2023-05-23 | 北京嘉和海森健康科技有限公司 | 一种命名实体的识别方法及装置 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
KR102236846B1 (ko) * | 2019-04-09 | 2021-04-06 | 넷마블 주식회사 | 욕설 필터링 방법 및 장치 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110263210B (zh) * | 2019-06-24 | 2020-10-27 | 上海松鼠课堂人工智能科技有限公司 | 自适应英语学习词库图谱管理方法和系统 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210052958A (ko) * | 2019-11-01 | 2021-05-11 | 엘지전자 주식회사 | 인공 지능 서버 |
US20230144379A1 (en) * | 2021-11-08 | 2023-05-11 | Genesys Cloud Services, Inc. | Method and system for unsupervised discovery of unigrams in speech recognition systems |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963893A (en) | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0682403B2 (ja) * | 1986-03-24 | 1994-10-19 | 沖電気工業株式会社 | 光学式文字読取装置 |
US5189610A (en) * | 1986-10-20 | 1993-02-23 | Xerox Corporation | Electronic dictionary with correct and incorrect words |
JPH0731677B2 (ja) * | 1987-09-29 | 1995-04-10 | シャープ株式会社 | 文書作成・校正支援装置 |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5029223A (en) * | 1990-02-02 | 1991-07-02 | International Business Machines Corporation | Constraint driven-on line recognition of handwritten characters and symbols |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
JPH05233623A (ja) * | 1991-11-27 | 1993-09-10 | Internatl Business Mach Corp <Ibm> | ストローク構文入力装置 |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
US5392212A (en) * | 1993-07-07 | 1995-02-21 | The United States Of America As Represented By The Secretary Of Commerce | Apparatus for identifying unknown words by comparison to known words |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
JPH0844719A (ja) * | 1994-06-01 | 1996-02-16 | Mitsubishi Electric Corp | 辞書アクセスシステム |
US5537317A (en) * | 1994-06-01 | 1996-07-16 | Mitsubishi Electric Research Laboratories Inc. | System for correcting grammer based parts on speech probability |
US5761689A (en) * | 1994-09-01 | 1998-06-02 | Microsoft Corporation | Autocorrecting text typed into a word processing document |
DE19510083C2 (de) * | 1995-03-20 | 1997-04-24 | Ibm | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
US6192333B1 (en) * | 1998-05-12 | 2001-02-20 | Microsoft Corporation | System for creating a dictionary |
US6401060B1 (en) * | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US6393399B1 (en) * | 1998-09-30 | 2002-05-21 | Scansoft, Inc. | Compound word recognition |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6349282B1 (en) * | 1999-04-20 | 2002-02-19 | Larnout & Hauspie Speech Products N.V. | Compound words in speech recognition systems |
DE60026637T2 (de) * | 1999-06-30 | 2006-10-05 | International Business Machines Corp. | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems |
US6529864B1 (en) * | 1999-08-11 | 2003-03-04 | Roedy-Black Publishing, Inc. | Interactive connotative dictionary system |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
SE519636C2 (sv) * | 2000-07-06 | 2003-03-25 | Hapax Information Systems Ab | Förfarande och anordning för analys av sammansatta ord |
WO2004084176A1 (ja) * | 2000-08-15 | 2004-09-30 | Yoichi Ando | 音響評価方法およびそのシステム |
US7613601B2 (en) * | 2001-12-26 | 2009-11-03 | National Institute Of Information And Communications Technology | Method for predicting negative example, system for detecting incorrect wording using negative example prediction |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
-
2002
- 2002-06-17 US US10/173,931 patent/US7680649B2/en active Active - Reinstated
-
2003
- 2003-04-21 CA CA2488814A patent/CA2488814C/en not_active Expired - Lifetime
- 2003-04-21 AU AU2003231051A patent/AU2003231051A1/en not_active Abandoned
- 2003-04-21 JP JP2004513965A patent/JP2006512629A/ja active Pending
- 2003-04-21 CN CN03811430A patent/CN100587686C/zh not_active Expired - Fee Related
- 2003-04-21 WO PCT/US2003/012549 patent/WO2003107217A1/en active Application Filing
- 2003-04-21 KR KR1020047018492A patent/KR100734741B1/ko not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963893A (en) | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
Also Published As
Publication number | Publication date |
---|---|
AU2003231051A1 (en) | 2003-12-31 |
CA2488814C (en) | 2010-06-22 |
CA2488814A1 (en) | 2003-12-24 |
KR20050007547A (ko) | 2005-01-19 |
CN100587686C (zh) | 2010-02-03 |
WO2003107217A1 (en) | 2003-12-24 |
CN1656477A (zh) | 2005-08-17 |
US7680649B2 (en) | 2010-03-16 |
JP2006512629A (ja) | 2006-04-13 |
US20030233235A1 (en) | 2003-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100734741B1 (ko) | 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스 | |
Lita et al. | Truecasing | |
Azmi et al. | A survey of automatic Arabic diacritization techniques | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
EP1675019B1 (en) | System and method for disambiguating non diacritized arabic words in a text | |
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
Ekbal et al. | Named entity recognition in Bengali: A multi-engine approach | |
Arisoy et al. | Discriminative language modeling with linguistic and statistically derived features | |
EP1503295A1 (en) | Text generation method and text generation device | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Paripremkul et al. | Segmenting words in Thai language using Minimum text units and conditional random Field | |
KR100496873B1 (ko) | 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법 | |
EP0316743B1 (en) | Method for removing enclitic endings from verbs in romance languages | |
Elshafei et al. | Machine Generation of Arabic Diacritical Marks. | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
Zayyan et al. | Automatic diacritics restoration for modern standard Arabic text | |
KR20080028655A (ko) | 품사 태깅 장치 및 태깅 방법 | |
Kim et al. | Cross-lingual lexical triggers in statistical language modeling | |
Doermann et al. | Translation lexicon acquisition from bilingual dictionaries | |
Okhovvat et al. | An Accurate Persian Part-of-Speech Tagger. | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
Sekine et al. | NYU/BBN 1994 CSR evaluation | |
Díaz et al. | Cole experiments at qa@ clef 2004 spanish monolingual track | |
KR100422809B1 (ko) | 기계 번역을 위한 장문 분할 방법 | |
Ali | Automatic urdu diacritization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20100428 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |