KR100734741B1 - 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스 - Google Patents

단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스 Download PDF

Info

Publication number
KR100734741B1
KR100734741B1 KR1020047018492A KR20047018492A KR100734741B1 KR 100734741 B1 KR100734741 B1 KR 100734741B1 KR 1020047018492 A KR1020047018492 A KR 1020047018492A KR 20047018492 A KR20047018492 A KR 20047018492A KR 100734741 B1 KR100734741 B1 KR 100734741B1
Authority
KR
South Korea
Prior art keywords
word
root
words
characters
valid
Prior art date
Application number
KR1020047018492A
Other languages
English (en)
Other versions
KR20050007547A (ko
Inventor
박영자
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20050007547A publication Critical patent/KR20050007547A/ko
Application granted granted Critical
Publication of KR100734741B1 publication Critical patent/KR100734741B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

본 발명은 사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 방법에 관한 것이다. 사전 데이터베이스 내에 어떠한 유효한 어근도 존재하지 않으면, 통계 프로세스가 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트의 시퀀스를 체크하여 어근이 유효한 단어일 확률을 결정한다. 다른 실시예에서, 본 발명은 접두어 제거 프로세스, 접미어 제거 프로세스, 어근 프로세스 및/또는 합성 프로세스를 포함한다.

Description

단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리 저장 디바이스{RECOGNIZING WORDS AND THEIR PARTS OF SPEECH IN ONE OR MORE NATURAL LANGUAGES}
본 발명은 컴퓨터의 텍스트 처리 분야에 관한 것이다. 특히, 본 발명은 자연 언어에서 가능한 실제 어휘(probable real words) 및 이 어휘의 품사(part of speech)(POS)를 인식하는 방법에 관한 것이다.
언어는 변하고 인류는 창조성이 있기 때문에, 현재의 어떠한 사전도 모든 가능한 단어를 포함하고 있는 것은 아니다. 요즘에, 이러한 현상은 새로운 기술이 이전보다 신속하게 출현함에 따라서 더욱 중요해지고 있다. 새로운 단어가 발견될 때마다 사전을 수동으로 갱신하는 것은 거의 불가능하며 만일에 가능하다면 수 많은 전문가의 시간과 노력을 필요로 한다.
따라서, 필수적으로, 여러 문헌에는 사전에 존재하지 않는 어휘(out-of-vocabulary)(OOV)가 존재하기 마련이다. 특히, 가령 새로운 합성어 및 접사 첨가에 의한 기존의 단어들의 어형론적 변화를 포함하는 새롭게 파생된 단어 및 특정 분야의 기술적 어휘들은 소정의 사전에 존재하지 않는다. 대부분의 사전에 존재하지 않는 이러한 실제 어휘들의 몇 개의 실례는 오토인젝터(autoinjector), 일렉트로카디오그래피electrocardiography, 아이드랍(eyedrop), 리매뉴팩처러빌러티(remanufacturability) 및 웹사이트(website) 등이다.
이러한 사전에 알려지지 않는 어휘로 인해서 기계 번역 시스템 및 파저(parser)와 같은 자연 언어 처리(NLP) 시스템에 있어서 문제가 발생하는데 그 이유는 상기 사전이 이러한 애플리케이션에 있어서 매우 중요하고 기본적인 지식의 원천이 되기 때문이다. NLP 애플리케이션이 그의 사전에 알려지지 않은 어휘를 만나게 되면, 이 애플리케이션은 그 문서를 처리할 수 없거나 그 문서를 처리하는데 필요한 정보를 추정하게 된다. 그러나, 이러한 추정은 통상적으로 매우 정확하지 않아서 그 애플리케이션은 양호하지 않은 결과를 내게 된다.
특히 품사(POS) 태거(tagger) 및 음성 인식 분야에서 이러한 문제를 해결하려는 많은 노력이 있었다. 그러나, 상이한 애플리케이션들은 상이한 안목으로 이러한 사전에 나오지 않는 어휘(OOV)의 문제를 인식하여 상이한 목적을 가지게 된다.
어휘에 대해서 사전적(구문론적) 정보에 의존하는 POS(품사) 태거(tagger) 및 파저(parser)의 경우, 그의 목적은 이 알려지지 않은 단어가 이에 이웃하는 단어와 함께 출현하는 확률을 기반으로 하여 그 문맥에서 OOV의 가장 그럴듯한 POS(품사)를 추정하는 것이다. Dermatas 및 Kokkinakis는 이전에 만났던 텍스트에서 오직 한번 출현하는 단어의 확률 분포로부터 알려지지 않은 단어가 특정 POS를 가 질 확률을 추정하였다. "Automatic stochastic tagging of natural language texts" in Computational Linguistics, 21(2), pp 137 - 164, 1995를 참조하라.
보다 개선된 POS 추정 방법은 선두 단어 부분 및 후미 단어 부분을 사용하여 알려지지 않은 단어에 대한 가능한 태그를 결정하는 것이다. Weischedel 등은 그의 대문자화 특징부 및 그의 끝부분이 주어진 경우에 알려지지 않는 단어가 특정 POS 태그일 확률을 사용하여 이 알려지지 않은 단어에 대한 POS를 추정하는 방법을 제안했다. Ralph Weischedel, Marie meeter, Richard Schwartz, Lance Ramshaw 및 Jeff Palmucci에 의한 "Coping with ambiguity and unknown words through probabilistic models" in Computational Linguistics, 19(2), pp 359 - 382, 1993을 참조하라.
Eric Brill은 종료부 추정 및 보다 어형론적으로 동기화된 규칙을 사용하는 규칙의 시스템을 개시하였다. "Transformation-Based Error-Driven Learning and Natural Language Processing : A Case Study in Part of Speech Tagging" in Computational Linguistics, 21(4), pp 543 - 565, 1995를 참조하라.
음성 인식 시스템에 있어서, OOV 어휘는 시스템 어휘 목록에 알려지지 않은 단어 또는 인식기가 인식할 수 없는 단어이다. 이 시스템의 목적은 이 시스템의 어휘 목록으로부터 이 OOV 단어에 (음성 및 의미의 차원에서) 가장 가까운 어휘를 발견하는 것이다.
문자 n그램 기반 통계적 방식(character ngram-based statistical approach)은 철차 보정 및 단어 분절과 같은 단어 레벨 언어 처리 분야에서 사용되었다. Angell, Freund 및 Willett는 유사 정도의 척도로서 Dice의 유사도 계수(Dice's similarity coefficient)를 사용하여 두 개의 스트링이 공통으로 갖는 트라이그램(trigram)의 개수를 기반으로 하여 오철자부와 사전 용어(dictionary term)를 비교하는 방법을 개시하였다. 이 오철자를 갖는 단어는 이 오철자부와 가장 잘 일치하는 사전 상의 단어로 대체된다. "Automatic Spelling Correction Using a Trigram Similarity Measure" in Information Processing and Management, 19(4), pp 255-261, 1983를 참조하라.
다음은 종래 기술이 갖는 문제를 다룬다.
종래 기술은 적어도 2 개의 문제를 갖는다.
첫째로, 종래 기술은 임의의 소정의 자연 언어에서 유효한 단어의 인식 및/또는 식별을 허용하지 않는다. 가령, (어형론적으로 변화된 및/또는 파생된) 단어의 모든 형태가 특정 사전에 존재하지 않을 수 있다. 또한, 새로운 단어 및/또는 신조어가 사전 데이터베이스 내에 존재하지 않을 수 있다. 이러한 문제는 특히 새로운 기술 또는 기존의 기술에서의 진보를 기술하기 위해서 새로운 단어가 사용될 필요가 있는 기술 관련 주제에서는 분명하다.
종래 기술은 OOV 단어가 그 시스템의 사전에 알려지지 않는 단어라고 가정하고 프로세스를 시작하지만 실제로 이들은 가능한 실제 단어들이다. 이로써, 이 시스템은 가령 새로운 단어 웹사이트(website)와 adkfiedifd 또는 v3.5a와 같은 부적합한 단어를 동일한 방식으로 간주하게 된다. 이전의 어떠한 기술도 가능한 새로운 단어를 인식하여 기존의 사전에 추가하여 이러한 단어가 차후에는 적절하게 OOV가 아닌 단어로서 식별될 수 있게 하도록 하지 않았다.
둘째로, 이전의 기술들은 시스템이 OOV 단어를 만나게 될 때에 이 시스템이 기능 고장을 일으키는 것을 방지하기 위해서 또는 그 시스템의 성능을 개선하기 위해서 이 애플리케이션 시스템 내부에 내장되었다. 이로써, 가능한 실제 단어를 발견하고 이 단어의 사전적 정보를 획득할 수 있는 어떠한 독립형 자동 시스템도 존재하지 않았다.
이전의 방식들이 OOV 문제를 해결하려고 했지만, 이들은 특정 애플리케이션을 위해서 설계되었다. 이들은 이들 OOV 단어가 나타나는 문맥을 기반으로 하여 특정 애플리케이션에서 필요한 이 단어의 정보를 추정한다. 따라서, 그 단어의 정보가 문맥에 따라서 다르게 된다.
발명의 개요
본 발명의 목적은 자연 언어에서는 존재하지만 사전에는 존재하지 않는 가능한 실제 어휘 및/또는 이의 품사를 인식하는 시스템 및 방법을 제공하는 것이다.
본 발명의 다른 목적은 기존의 단어에 첨가될 수 있는 새로운 어휘를 텍스트로부터 자동 또는 반자동으로 식별하는 시스템 및 방법을 제공하는 것이다.
본 발명은 사전 데이터베이스(a dictionary database)에 열거되지 않은 하나 이상의 어휘를 인식하는 시스템, 방법, 프로그램 제품 및 네트워크 용도에 관한 것이다. 통계적 프로세스가 그 단어 내의 하나 이상의 문자의 서브세트(subset)의 하나 이상의 시퀀스(sequecne)를 체크하여 그 단어가 유효한 단어(a vaild word)일 확률을 결정한다. 바람직한 실시예에서, 그 단어의 품사를 결정하는 데 있어서 규칙이 사용된다.
다른 실시예에서, 본 발명은 접두어 제거 프로세스, 접미어 제거 프로세스, 어근 획득 프로세스(a root process) 및/또는 조합 프로세스를 포함한다. 접두어 제거 프로세스는 접두어들이 바람직하게는 접두어 목록에 존재하는 단어로부터 하나 이상의 접두어를 제거한다. 접두어 제거는 바람직하게는 하나 이상의 접두어 제거 규칙에 의해 한정된다. 접두어 제거 프로세스는 또한 (가령, 사전 데이터베이스 또는 접두어 목록으로부터) 제거된 접두어에 대한 접두어 정보를 획득한다. 접미어 제거 프로세스는 그 접미어들이 바람직하게는 접미어 목록에 존재하는 단어로부터 하나 이상의 접미어를 제거한다. 접미어 제거는 바람직하게는 하나 이상의 접미어 제거 규칙에 의해 한정된다. 접미어 제거 프로세스는 또한 (가령, 사전 데이터베이스 또는 접미어 목록으로부터) 제거된 접미어에 대한 접미어 정보를 획득한다. 어근 획득 프로세스는 사전 데이터베이스로부터 어근에 대한 정보를 획득한다. (이 어근은 접미어 및 접두어가 제거된 단어이다.) 이어서, 조합 프로세스는 이 접두어, 어근 및 접미어가 하나 이상의 조합 규칙에 의해서 조합되어 유효한 단어를 생성하는지의 여부를 결정한다. 이 조합 프로세스는 만일 그 단어가 유효한 단어이면 그 유효한 단어의 하나 이상의 가능한 품사를 획득하고 이 유효한 단어와 함께 그의 품사를 사전 데이터베이스(또는 다른 메모리 위치)에 저장한다.
전술한 목적, 측면 및 장점 및 다른 목적, 측면 및 장점이 다음의 첨부 도면 을 참조하지만 본 발명을 한정하지는 않는 다음의 본 발명의 바람직한 실시예에 대한 상세한 설명 부분을 독해하면 분명해질 것이다.
도 1은 본 발명을 사용하는 시스템의 일 바람직한 실시예의 블록도,
도 2는 전체적인 사전 부가 프로세스의 흐름도,
도 3은 접두어 프로세스, 접미어 프로세스, 조합 프로세스를 포함하는 언어학적 프로세스의 흐름도,
도 4는 이 언어학적 프로세스에서 사용되는 접두어 프로세스의 흐름도,
도 5는 이 언어학적 프로세스에서 사용되는 접미어 프로세스의 흐름도,
도 6은 이 언어학적 프로세스에서 사용되는 조합 프로세스의 흐름도,
도 7은 통계적 프로세스의 흐름도,
도 8은 통계적 학습 프로세스의 흐름도,
도 9는 본 발명에 의해 식별된 단어를 자연 언어의 단어로서 출력하는 실례를 도시한 도면.
본 발명은 텍스트 내의 사전에 존재하지 않는 단어 중에서 실제 가능한 단어를 인식하는 시스템, 방법 및 프로그램을 제공하며, 다른 실시예에서는 식별된 단어의 품사를 파악하고 이를 기존의 사전에 추가하는 시스템, 방법 및 프로그램을 제공한다. 통상적인 사전에 존재하지 않는 어휘(OOV) 처리 시스템과는 달리, 본 발명은 일 바람직한 실시예에서 소정 단어에서의 트라이그램 시퀀스(trigram sequence)의 확률을 기반으로 하는 엔트로피 모델(an entropy model)을 제안한다.
실제 단어로서 인식된 단어들은 컴퓨터 시스템의 기존의 사전에 부가되어 컴퓨터 애플리케이션은 사전에 존재하지 않는 단어를 인식하여 이 단어를 차후에 적절하게 처리할 수 있다. 본 발명은 용어 추출 시스템(a terminology extraction system), 기계 번역 시스템 및 음성 인식 시스템과 같은 수 많은 언어 처리 시스템 내부로 통합될 수 있다. 또한, 이러한 단어는 사전 편찬자가 출판된 사전을 갱신 또는 첨가하는 데 사용된다. 본 발명은 사전 편찬자에게 새로운 단어들의 우수한 목록을 제공하여 그들의 작업을 줄인다. 본 발명은 또한 영어뿐만 아니라 프랑스어, 독일어 및 스페인어와 같은 다른 언어에도 적용될 수 있지만 여기에만 한정되는 것은 아니다.
도 1은 본 발명에 의해 수행되는 전체 프로세스를 도시한다. 본 발명, 즉 사전 첨가 시스템(a dictionary augmentation system)(100)은 임의의 알려진 컴퓨터 시스템에 의해서 운영된다. 이 시스템은 하드디스크 또는 네트워크(가령, 웹, 인트라넷, 기업 네트워크 등)로부터 문서(120)를 판독하고 이 문서 내의 각 단어에 대해서 이 시스템이 사용하는 온 라인 사전(140) 내에서 이 단어를 검색한다. (온 라인 사전은 잘 알려져 있으며 검색가능한 방식으로 단어들을 저장한 임의의 메모리 저장 디바이스를 포함한다.) 이 단어가 그 사전 내에 존재하지 않는다면, 본 발명은 그 단어가 대상 언어의 가능한 실제 단어인지의 여부를 검사한다. 여기서, 목적이 되는 언어는 일반적으로 알려진 자연 언어 뿐만 아니라 가령 컴퓨터 프로그래밍/복구 메뉴얼 또는 의학 용어와 같은 특정 기술 분야의 다양한 언어를 포함한다. 이 시스템은 만일 이 단어가 가능한 실제 단어이면 이 단어 및 이의 품사를 데이터베이스(160)에 기록한다. 이 가능한 실제 단어는 온 라인 사전(140) 상의 새로운 어휘 데이터베이스(160) 내에 또는 알려진 다른 타입의 저장 위치 내에 저장될 수 있다.
이 새로운 어휘 데이터베이스는 나중에 다른 컴퓨터 애플리케이션(200)이 문서 또는 음성(220)을 처리하는 데 사용될 수 있다. 이 애플리케이션은 잘 알려져 있으며 파저, 기계 번역 시스템 및 음성 인식 시스템을 포함한다. 이 데이터베이스는 또한 사전 편찬자(300)가 인류를 위해서 사전(320)을 출판 및/또는 개정할 때에 사용될 수 있다.
도 2는 전체적인 사전 첨가 프로세스(100)의 흐름도이다. 문서(120)가 가령 표준 기술에 의해서 시스템 내에서 판독될 때, 이 시스템은 그 문서로부터 단어를 접수하여 시스템 사전(140) 내에서 이 단어를 검색한다(110). 만일 이 단어가 사전 내에 존재하면(130), 다른 프로세스는 필요하지 않다. 그러나, 이 단어가 이 사전 내에 존재하지 않는다면, 이 시스템은 이 단어가 오직 문자로만 구성된지의 여부를 체크한다(150). 그 단어가 하나 이상의 숫자 또는 특수 문자를 포함하면, 시스템은 이 단어를 무시한다.
만일 이 단어가 오직 문자로만 구성되었으면, 이 시스템은 먼저 언어학적 프로세스(400)를 수행하여 이 단어가 새롭게 파생된 단어(즉, 기존의 단어들의 어형론적 변화 및/또는 합성된 단어)인지의 여부를 검사한다. 이 프로세스는 성공적이면(170), 이 시스템은 선택사양적으로 이 단어 및 그의 사전적 정보를 새로운 어휘 데이터베이스(160) 또는 다른 저장 장치 내에 저장한다(190). 만일 이 프로세스가 실패했다면, 시스템은 통계적 프로세스(500)를 수행한다. 만일 이 프로세스(500)가 이 단어를 새로운 단어로서 인식하면(180), 시스템은 이 단어 및 그의 사전적 정보를 새로운 어휘 데이터베이스(160) 내에 저장한다(190). 이러한 처리 절차는 이 문서 내에 어떠한 단어도 남기지 않고 검색될 때까지 수행된다.
도 3은 전체 언어학적 프로세스(400)의 흐름도이다. 이 프로세스는 새롭게 파생된 단어를 인식하는 프로세스이다. 새롭게 파생된 단어는 사전에 이미 알려진 단어를 대부분 접사 첨가함으로써, 즉 접두어를 단어의 처음 부분에 첨가하거나 접미어를 단어의 끝부분에 첨가함으로써 또는 단어 합성에 의해서, 즉 2 개 이상의 단어가 한 단어로 합성됨으로써 어형론적으로 변화된 것을 말한다. 먼저, 시스템은 그 단어가 하나 이상의 접두어 및 어근을 포함하는지의 여부를 검사한다(410). 접두어 프로세스(410)가 성공적이면(420), 이 단어는 새로운 단어로 간주되고 이 프로세스는 종료된다. 이 접두어 프로세스가 실패하면(420), 이 시스템은 그 단어가 하나 이상의 접미어와 어근을 포함하는지의 여부를 결정한다(430). 만일 접미어 프로세스가 성공적이면, 이 단어는 새로운 단어로 간주되고 이 프로세스는 종료된다. 만일 접미어 프로세스(430)가 실패하면(440), 이 시스템은 합성 프로세스(450)를 수행하여 이 단어가 내용을 갖는 2 개의 단어로 구성된 것인지의 여부를 검사한다. 만일 이 합성 프로세스가 성공적이면, 이 단어는 새로운 단어로 간주 되고 이 프로세스는 종료된다. 본 발명에서 접두어 프로세스(410), 접미어 프로세스(430) 및/또는 합성 프로세스(450)는 단독으로 동작하거나 다른 프로세스와 조합하여 동작한다.
도 4는 언어학적 프로세스(400) 내에서 사용되는 접두어 프로세스(410)의 흐름도이다. 접두어를 갖는 단어에 대한 프로세스(410)는 다음과 같다.
먼저, 시스템은 접두어 목록(417) 내의 임의의 접두어가 그 단어의 처음 부분에 나타나는지의 여부를 체크한다(411). 만일 그 단어가 접두어를 포함하면(412), 이 시스템은 그 단어로부터 접두어를 제거하고(413) 나머지 부분(어근)을 사전에서 검색한다(414). 일 바람직한 실시예에서, 이 어근의 길이는 2 개의 문자가 최소의 길이이다. 만일 사전이 이 어근을 포함하면(415), OOV 단어는 실제 단어로 고려되고 이 프로세스(410)에 의해 처리된 이 단어는 어근의 사전적 정보를 물려 받는다(416). 가령, antiasthmatic(부사), autoinjector(명사), remanufactured(동사의 과거 시제), streoselectivity(명사)는 접두어 프로세스(410)에 의해서 발견된다.
도 5는 언어학적 프로세스(400) 내에서 사용되는 접미어 프로세스(430)의 흐름도이다. 이 프로세스는 다음과 같다. 먼저, 시스템은 접미어 데이터베이스(438) 내의 임의의 접미어가 그 단어(431)의 끝부분에서 나타나는지의 여부를 체크한다. 바람직한 실시예에서, 본 발명은 특정 접미어 및 이로 인한 POS를 갖는 어근의 전제적 POS를 기술하는 접미어를 위한 규칙 세트(438)를 사용한다.
바람직한 실시예에서 사용되는 오직 예시적인 접미어 규칙 구조는 다음과 같 다. 접미어 able에 대한 규칙은 [able, {VB => JJ}, {NN => JJ}]. 이는 동사(VB) 또는 명사(NN)는 그 단어의 끝부분에 접미어 able를 가질 수 있으며 이로써 생성된 단어의 품사는 형용사(JJ)이다. 단어가 접미어를 가지면(432), 시스템은 이 접미어(433)를 제거하고 사전에서 이 단어의 어근을 검색한다(435). 어근이 사전에서 발견되고(436) 이 어근이 전제적 POS 중 하나를 가지면, 이 단어는 실제 단어로서 간주되며 상기 규칙에 따라 결과적인 POS를 갖는다(437).
그러나, 이 어근이 사전에서 발견되지 않으면, 시스템은 어근 형태 복구를 수행한다(434). 접미어가 그 단어에 첨가되면, 이 어근의 철자는 변할 수 있다. 가령, 영어에서, 묵음 e로 끝나는 단어는 통상적으로 모음으로 시작되는 접미어 앞에서 e가 생략된다. 가령, 시스템이 browsable를 판독할 때, 이 시스템은 접미어 able를 분리하여 어근 brows를 얻는다. 이 시스템은 사전에서 brows를 검색하지만 실패한다. 이어서, 시스템은 어근 형태를 복구하여 본래의 형태 browse를 얻는다.
어근 형태를 복구하기 위해서 바람직한 실시에에서 다음과 같은 규칙이 사용된다.
(1) 어근의 두 개의 마지막 문자가 동일한 자음이면, 하나를 삭제한다.
(2) 어근의 마지막 문자가 'i' 이면, 이 i를 y로 변경한다.
(3) 어근의 마자막 문자가 자음이지만 (1)의 경우는 아니면, 'e'를 첨가한다.
복구된 어근이 사전에서 발견되고(436) 이 단어가 전제적 POS 중 하나를 가 지면, 이 단어는 실제 단어로서 간주되고 규칙에 따르는 품사를 갖는다(437). 이러한 경우의 몇몇 실례는 browsable(형용사), migranious(형용사) 및 oxidizability(명사)이다.
가령, remanufacturability와 같은 몇몇 단어는 하나 이상의 접두어 및 하나 이상의 접미어 및 어근을 포함한다. 이 경우에, 이 단어는 상술된 접두어 프로세스 및 접미어 프로세스를 받는다.
도 6은 언어학적 프로세스에서 사용되는 합성 프로세스의 흐름도이다. 단어가 위의 접미어 프로세스 및 접두어 프로세스 모두에 해당되지 않으면, 이 단어는 합성 프로세스(450)를 위한 것으로 고려된다. 이 시스템은 소정의 OOV 단어를 두 개의 요소, 즉 처음 문자에서 분할 지점까지의 문자를 포함하는 제 1 요소 및 분할 지점 + 1 문자에서 그 단어의 최종 문자까지의 문자를 포함하는 제 2 요소로 분할된다. 초기 분할 지점은 3 번째 문자부터이다(451). 이어서, 시스템은 사전에서 제 1 요소를 검색한다(454). 제 1 요소가 사전에서 존재하지 않으면(455), 시스템은 분할 지점을 증가시켜서(459), 제 2 요소의 문자의 개수가 2 개 이하가 될 때까지 이 프로세스를 반복한다(452).
제 1 요소가 사전에서 발견되면(455), 제 2 요소가 사전에서 검색된다(456). 제 2 요소도 사전에서 발견되면(457), 시스템은 두 요소의 조합이 유효한지의 여부를 조사한다(458). 단어들의 가능한 조합은 명사 + 명사, 명사 + 동사의 분사 형태이다. 이 조합이 유효하면, OOV 단어는 실제 단어로서 간주되고 제 2 요소의 품사를 갖는다(459). 이러한 합성어의 실례는 airbreathing(명사, 동명사), eyedrops(명사), photophobia(명사) 및 website(명사)이다.
도 7은 바람직한 전체적인 통계적 프로세스(500)의 흐름도이다. 이 프로세스는 파생되지 않은 새로운 단어를 인식하기 위한 것이다. 이러한 비파생형 새로운 단어는 파생 규칙(또는 어휘 형성 규칙)에 의해서 기존의 단어로부터 생성될 수 없는 단어를 의미한다. 수 많은 특정 기술 분야의 용어들이 이 범위에 속한다. 인류는 이전에 보이지 않던 단어가 가능한 새로운 단어인지의 여부를 성공적으로 추정할 수 있지만, 이 단어는 이미 알려진 단어들로 구성되지 않는다. 일 실시예에서, 만일 단어에서 문자 시퀀스가 가능하게 보이고 이를 발음하기가 자연스럽다면 인류는 이 단어를 실제 단어로서 결론지을 수 있다고 가정해보자. 비파생형 새로운 단어의 인식은 이러한 가정을 기반으로 한다.
본 발명에서, 스트링 내의 모든 문자가 그의 이웃하는 문자와 동시에 발생할 수 있다면 이 문자의 시퀀스를 가능한 실제 단어로서 간주한다. (이웃하는 문자와 결합되는 문자들의 시퀀스는 스트링(string)으로 지칭된다.) 이웃하는 문자들은 임의의 개수를 갖는 선행하는 또는 후속하는 문자일 수 있다. 이 방법은 언어의 예측확률을 기반으로 한다. 즉, 선행하는 n 개의 문자 또는 후속하는 n 개의 문자를 알고 있을 경우에, 그 텍스트의 다음의 문자가 어느 정도 양호하게 예측될 수 있는지를 기반으로 한다. 바람직한 실시예에서, 본 발명은 이웃하는 문자를 두 개의 선행하는 문자로서 규정한다. 즉, 단어 내의 문자들이 두 개의 선행하는 문자들이 보여진 경우(즉, 트라이그램 모델, 여기서 스트링은 3 개의 문자 또는 트라이그램임) 그들의 위치에서 발생할 수 있는 확률이 높다면, 그 단어는 실제 단어로서 간주된다.
이 모델은 2 개의 모드, 즉 학습 모드(510) 및 애플리케이션 모드(550,560)를 갖는다. 학습 모드에서, 시스템은 시스템 사전(140)으로부터 문자 트라이그램 통계치의 확률을 학습하여 이 트라이그램 통계치를 데이터베이스에 저장한다(520). 학습 모드는 또한 트레이닝 데이터로부터 단어의 끝부분을 기반으로 하여 품사 추정 규칙을 생성한다(530). 애플리케이션 모드에서, 시스템이 OOV 단어를 획득하면(540), 이 시스템은 그 단어 내의 모든 문자 트라이그램의 확률의 엔트로피(entropy)를 계산한다(550).
언어 모델의 엔트로피는 정보의 예상된 값이다. 엔트로피는 미래에 대한 그 모델의 불확실성의 척도이다. 이는 추정된 확률 분포가 균일하게 됨에 따라서 증가한다. 본 발명은 사전에 나오지 않는 어휘(하나 이상의 문자 시퀀스 또는 단어 시퀀스)가 제공될 경우에 그 단어가 가능한 실제 단어인지를 그의 통계적 구조를 기반으로 하여 결정할 수 있는 모델을 제안한다. 말하자면, 단어는 강한 내부의 통계적 영향을 갖는 문자들의 응집성 그룹(a cohesive group)이다.
단어 w가 n 개의 문자로 구성되었다고 가정해보자. 즉, w = c1c2....cn이다. 하나의 선두 스페이스 및 하나의 후미 스페이스를 첨가하고 이로써 w를 c0c1c2....cncn+1로 만들어 트라이그램 확률을 추정해보자(이는 도 8에서 보다 상세하게 설명될 것이다). 단어 w의 엔트로피, H(w)은 다음과 같이 계산된다.
Figure 112004053099183-pct00001
바람직한 실시예에서, 엔트로피 값이 소정의 임계치보다 높으면, 본 발명은 이 단어가 실제 단어라고 결론을 내린다. 일 실시예에서, 임계치는 2.3으로 설정되는데 이 값은 트레이닝 데이터(training data)(이 트레이닝 데이터에 대해서는 도 8에 대한 설명을 참조하라)의 (평균 엔트로피 - 최소 엔트로피)로 결정된다. 이 단어가 실제 단어로 결정되면, 시스템은 끝부분 추정 규칙 데이터베이스(530)로부터 모든 가능한 품사를 생성한다. 이 끝부분 추정 규칙은 도 8에 설명되어 있다. 이 규칙 세트를 사용함으로써, 시스템은 가장 긴 정합 패턴을 기반으로 하여 그 단어의 모든 가능한 품사를 생성한다. 본 발명은 가장 긴 끝부분(이 가장 긴 끝부분은 단어의 길이가 7 개의 문자보다 많으면 5 개의 문자이고 그렇지 않으면 그 단어의 길이에 3 개의 문자를 뺀 문자임)에서 마지막 한 개의 문자에 이르는 이 단어의 끝부분 문자를 규칙 세트 내에서 검색한다. 만일 이 끝부분이 이 규칙 세트 내에 존재하면, 정합 프로세스는 종료되고 이 시스템은 이 끝부분의 모든 품사를 규칙 빈도의 크기 순으로 생성한다. 가령, cortical는 형용사 및 명사로서 추정되지만 tical이 트레이닝 데이터에서 명사로서보다 형용사로서 4 배 정도 더 많이 나타나기 때문에 형용사로 판독하는 것이 바람직하다. 통계치 프로세스에 의해서 인식된 새로운 단어의 몇몇 실례는 accelerometers(명사), diastolic(형용사, 명사), kinesiology(명사) 및 ingressed(동사의 과거 시제)이다.
도 8은 통계치 학습 프로세스(510)의 흐름도이다. 단어의 트라이그램 확률을 학습하기 위해서, 시스템은 모두 유효한 단어를 가지고 있는 시스템 사전(140)을 사용한다. 이 시스템은 사전으로부터 단어를 판독하고 그 단어의 모든 가능한 활용을 검색한다(511). 이 시스템은 생성된 단어에 선두 스페이스 및 후미 스페이스를 첨가하고(512) 이 단어를 데이터베이스(513)에 저장한다. 가령, n 개의 문자로 구성된 단어 w = c1c2....cn가 사전에 나오지 않는 OOV 단어라고 가정해보자. 이 시스템은 이 단어에 선두 스페이스(b1) 및 후미 스페이스(b2)를 첨가하여(512) w' = b1c1c2....cnb2 를 생성한다. 이 단어 목록은 사전에서 생성될 수 있는 모든 유효한 단어 형태를 포함한다. 이 시스템은 사전의 모든 단어가 처리될까지 이러한 프로세스를 반복한다(514). 생성된 단어 목록과 함께, 시스템은 두 가지 지식, 즉 트라이그램 통계치 및 품사 규칙을 터득한다. 이러한 학습 프로그램은 단어 목록 내의 모든 단어가 처리될 때까지 계속된다(519).
이 시스템은 3 개의 문자의 시퀀스 및 2 개의 문자의 시퀀스의 빈도를 카운트함으로써 단어 목록(513)으로부터 트라이그램 확률을 계산한다. 이 시스템이 단어 목록(513)으로부터 단어를 판독하고(515) 모든 가능한 3 개의 문자의 시퀀스 및 2 개의 문자의 시퀀스를 생성하고 이들의 빈도를 증가시킨다(516).
가령, w = b1c1c2....cnb2 가 n 개의 문자와 두 개의 스페이스(선두 스페이스 및 후미 스페이스)로 구성된다고 해보자. 이어서, 시스템은 b1c2, c1c 2 ... cn-1cn , cnb2 와 같은 모든 가능한 2 개 문자의 시퀀스 및 b1c1c 2, c1c2 c3 .... cn-1cnb2 와 같은 모든 가능한 3 개 문자의 시퀀스를 생성한다. 이 시스템은 단어 목록 내의 단어로부터 찾을 수 있는 모든 가능한 두 개의 문자의 시퀀스 및 3 개의 문자의 시 퀀스의 빈도를 카운트한다.
시스템이 3 개의 문자 시퀀스 및 2 개의 문자 시퀀스의 빈도를 획득하면, 이 시스템은 모든 가능한 트라이그램 확률을 계산하고(517) 이 통계치를 데이터베이스 내에 저장한다(520). 트라이그램의 확률, 즉 문자 c3의 발생 확률은 이 문자에 선행하는 두 문자 c1 및 c2 가 주어진 경우에 다음과 같이 계산된다.
Figure 112004053099183-pct00002
또한, 시스템은 단어 목록으로부터 품사 추정 규칙을 생성한다(518). 단어 목록 내의 모든 단어에 대해, 문자의 길이가 한 개 내지 5 개에 달하는 모든 가능한 끝부분을 단어의 품사와 함께 생성할 수 있다. 나머지 부분의 최소한의 길이는 적어도 3 개의 문자로 구성된다. 이 시스템은 끝부분 추정 규칙의 빈도를 카운트하고 이 규칙을 끝부분 추정 규칙 데이터베이스 내에 저장한다(530).
가령, 단어 "ailments"는 트레이닝 사전(training dictionary) 내에서 복수 명사(NNS)로서 열거된다. 이어서, 끝부분 추정 규칙 생성기는 길이가 1 개인 끝부분(s)에서 길이가 5 문자에 달하는 끝부분(ments)을 포함하는 모든 가능한 끝부분을 자신의 품사와 함께 생성한다. 말하자면, 이 생성기는 s-NNS, ts-NNS,...,ments-NNS를 생성한다. 단어 "mounting"는 두 개의 품사, 즉 명사(NN) 및 동명사(VBG)를 갖는다. 이 경우에, 각 끝부분은 두 개의 품사를 갖는다. 말하자면, 이는 g-NN, g-VBG, ng-NN 및 ng-VBG, ... , nting-NN 및 nting-VGB이다. 다음의 표는 끝부분 추정 규칙이 트레이닝 데이터로부터 생성되는 방식을 나타낸 다.
Figure 112004053099183-pct00003
도 9는 본 발명에 의해 식별된 단어를 자연 언어의 단어로서 출력하는 것의 실례이다. 이 도면에서 방법 열은 새로운 단어 샘플을 인식하는 데 사용된 메카니즘을 명시한다. 접두어 방법에서 단어들은 프로세스(410)에 의해서 인식되며, 접미어 방법에서 단어들은 프로세스(430)에 의해서 인식된다. 접두어 + 접미어 방법에서 단어들은 프로세스(410) 및 프로세스(430)에 의해서 인식되고, 합성 방법에서 단어들은 프로세스(450)에 의해서 인식된다. 마지막으로, 엔트로피 통계치 방법에서 단어들은 프로세스(500)에 의해서 식별된다. 말하자면, 그 단어의 엔트로피 값은 소정의 임계치보다 크다.
본 발명의 예시적인 실례는 텍스트 내의 사전에 나오지 않는 단어 중에서 실제로 가능한 단어를 식별하는 데 사용된다. 상술된 기술을 사용하여, 문자 트라이그램의 확률의 엔트로피 및 영어의 어형론적 규칙을 기반으로 하여 실제 단어가 식별된다. 본 발명은 또한 이 식별된 단어의 품사(POS)를 사전적 정보 규칙 및 단어 끝부분을 기반으로 하여 인식한다. 본 발명의 실시예는 정확도가 매우 높으며 단어를 매우 양호하게 다시 기억할 수 있다. 다른 예시적인 실시예에서, 본 발명은 특정 기술 분야의 용어를 인식하는 데 매우 유용하며, 단일 또는 다수의 어휘 용어집 항목들을 식별하고 특정 분야의 사전을 형성하는 용어집 추출 시스템 내에 성공적으로 내장될 수 있다. 다른 실시예들은 본 명세서로부터 본 기술 분야의 당업자에게 자명해질 것이다. 이들 실시예들은 또한 본 발명의 범위 내에 포함된다.

Claims (21)

  1. 사전 데이터베이스(a dictionary database) 내에 열거되지 않은 하나 이상의 단어를 인식하는 시스템에 있어서,
    하나 이상의 중앙 처리 장치 및 하나 이상의 메모리를 구비하고,
    상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근(a root word)에 대한 어근 정보를 획득하는 어근 프로세스(a root process)와,
    상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트(subset)에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 상기 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 통계적 프로세스
    를 포함하는 단어 인식 시스템.
  2. 제 1 항에 있어서,
    상기 확률은 상기 어근 내에서 상기 하나 이상의 문자로 구성된 서브세트의 서브세트가 하나 이상의 다른 문자들에 인접하여 올바르게 배치되는 가능성의 척도를 포함하는
    단어 인식 시스템.
  3. 청구항 3은(는) 설정등록료 납부시 포기되었습니다.
    제 2 항에 있어서,
    상기 인접하는 다른 문자들은 상기 서브세트에 선행하는
    단어 인식 시스템.
  4. 청구항 4은(는) 설정등록료 납부시 포기되었습니다.
    제 2 항에 있어서,
    상기 인접하는 다른 문자들은 상기 서브세트에 후속하는
    단어 인식 시스템.
  5. 청구항 5은(는) 설정등록료 납부시 포기되었습니다.
    제 4 항에 있어서,
    상기 서브세트 및 상기 인접하는 다른 문자들은 트라이그램(trigram)을 형성하는
    단어 인식 시스템.
  6. 제 2 항에 있어서,
    상기 확률은,
    상기 어근 내의 상기 하나 이상의 문자로 구성된 서브세트 및 상기 하나 이상의 인접하는 문자들의 각각에 대해, 상기 하나 이상의 문자로 구성된 서브세트와 상기 인접하는 다른 문자들로 구성된 스트링(string)을, 각각의 확률과 연관된 스트링들의 데이터베이스와 비교하여 스트링 확률의 세트를 산출하고,
    상기 스트링 확률의 로그에 의해 스트링 확률 세트 내에 각각의 스트링 확률을 승산하여 로그 스트링 확률의 세트를 산출하며,
    상기 로그 스트링 확률의 세트 내에 상기 로그 스트링 확률을 합산하여 상기 어근이 유효한 단어일 확률을 산출하함으로써 결정되는
    단어 인식 시스템.
  7. 제 6 항에 있어서,
    상기 데이터베이스 내의 상기 스트링들의 각각의 확률은 문자들로 구성된 하나 이상의 가능한 스트링을 발견하여, 유효한 단어들의 데이터베이스 내에서 상기 가능한 문자 스트링의 발생 빈도를 카운트함으로써 결정되는
    단어 인식 시스템.
  8. 제 2 항에 있어서,
    상기 단어의 품사(a part of speech)를 규정하는 하나 이상의 규칙을 더 포함하되,
    상기 규칙이 유효한 단어의 데이터베이스에 대해 올바르게 적용되는 발생 빈도 중, 소정의 임계치보다 큰 발생 빈도를 기반으로 하는 규칙 확률을 갖는
    단어 인식 시스템.
  9. 청구항 9은(는) 설정등록료 납부시 포기되었습니다.
    제 8 항에 있어서,
    상기 어근의 품사는 상기 규칙 중 하나에 의해 결정되는
    단어 인식 시스템.
  10. 청구항 10은(는) 설정등록료 납부시 포기되었습니다.
    제 8 항에 있어서,
    상기 규칙은 상기 어근의 끝부분(ending)에 적용되는
    단어 인식 시스템.
  11. 청구항 11은(는) 설정등록료 납부시 포기되었습니다.
    제 1 항에 있어서,
    상기 단어를 두 개의 요소로 분할하는 합성어 프로세스를 포함하며,
    상기 어근은 상기 두 개의 요소 중 제 2 요소인
    단어 인식 시스템.
  12. 청구항 12은(는) 설정등록료 납부시 포기되었습니다.
    제 11 항에 있어서,
    상기 합성어 프로세스는 또한 상기 어근의 품사를 결정하는
    단어 인식 시스템.
  13. 청구항 13은(는) 설정등록료 납부시 포기되었습니다.
    제 1 항에 있어서,
    상기 단어가 유효한 단어로 판정되면, 상기 단어는 새로운 어휘 사전 메모리 내에 저장되는
    단어 인식 시스템.
  14. 청구항 14은(는) 설정등록료 납부시 포기되었습니다.
    제 1 항에 있어서,
    상기 단어가 유효한 단어로 판정되면, 하나 이상의 문서에서 상기 단어의 발생 빈도를 카운트하여 상기 단어의 중요도를 결정하는 단어 카운트 프로세스를 더 포함하는
    단어 인식 시스템.
  15. 제 1 항에 있어서,
    상기 단어로부터 하나 이상의 접두어를 제거하는 접두어 제거 프로세스를 더 포함하며,
    상기 접두어는 접두어 목록 내에 존재하고,
    상기 접두어 제거는 하나 이상의 접두어 제거 규칙에 의해 제한되며,
    상기 접두어 제거 프로세스는 상기 제거된 접두어에 대한 접두어 정보를 획득하는 것을 더 포함하는
    단어 인식 시스템.
  16. 청구항 16은(는) 설정등록료 납부시 포기되었습니다.
    제 15 항에 있어서,
    상기 접두어 정보는 사전 데이터베이스 및 접두어 목록 중 하나 이상으로부터 획득되는
    단어 인식 시스템.
  17. 제 1 항에 있어서,
    상기 단어로부터 하나 이상의 접미어를 제거하는 접미어 제거 프로세스를 더 포함하며,
    상기 접미어는 접미어 목록 내에 존재하고,
    상기 접미어 제거는 하나 이상의 접미어 제거 규칙에 의해 제한되며,
    상기 접미어 제거 프로세스는 상기 제거된 접미어에 대한 접미어 정보를 획득하는 것을 더 포함하는
    단어 인식 시스템.
  18. 청구항 18은(는) 설정등록료 납부시 포기되었습니다.
    제 17 항에 있어서,
    상기 접미어 정보는 사전 데이터베이스 및 접미어 목록 중 하나 이상으로부터 획득되는
    단어 인식 시스템.
  19. 사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 방법에 있어서,
    상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 단계와,
    상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 단계
    를 포함하는 단어 인식 방법.
  20. 사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 시스템에 있어서,
    상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 수단과,
    상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 수단
    을 포함하는 단어 인식 시스템.
  21. 컴퓨터 프로그램을 저장하는 컴퓨터 메모리 저장 디바이스에 있어서,
    상기 컴퓨터 프로그램은,
    상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 단계와,
    상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 단계
    를 수행하는 컴퓨터 프로그램 메모리 저장 디바이스.
KR1020047018492A 2002-06-17 2003-04-21 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스 KR100734741B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/173,931 2002-06-17
US10/173,931 US7680649B2 (en) 2002-06-17 2002-06-17 System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
PCT/US2003/012549 WO2003107217A1 (en) 2002-06-17 2003-04-21 Recognizing words and their parts of speech in one or more natural languages

Publications (2)

Publication Number Publication Date
KR20050007547A KR20050007547A (ko) 2005-01-19
KR100734741B1 true KR100734741B1 (ko) 2007-07-03

Family

ID=29733454

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047018492A KR100734741B1 (ko) 2002-06-17 2003-04-21 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스

Country Status (7)

Country Link
US (1) US7680649B2 (ko)
JP (1) JP2006512629A (ko)
KR (1) KR100734741B1 (ko)
CN (1) CN100587686C (ko)
AU (1) AU2003231051A1 (ko)
CA (1) CA2488814C (ko)
WO (1) WO2003107217A1 (ko)

Families Citing this family (232)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7747428B1 (en) 2003-09-24 2010-06-29 Yahoo! Inc. Visibly distinguishing portions of compound words
US7464020B1 (en) * 2003-09-24 2008-12-09 Yahoo! Inc. Visibly distinguishing portions of compound words
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
EP1717668A1 (en) * 2005-04-29 2006-11-02 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP3986531B2 (ja) * 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム
US7698128B2 (en) 2006-01-13 2010-04-13 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and that employs N-gram data to limit generation of low-probability compound language solutions
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
GB0611303D0 (en) * 2006-06-08 2006-07-19 Ibm A method, apparatus and software for selecting terms for a glossary in a document processing system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US7983902B2 (en) 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
US8265162B2 (en) * 2007-10-01 2012-09-11 Cisco Technology, Inc. Context adaptive position and amplitude coding of coefficients for video compression
CN102016837B (zh) * 2007-11-26 2014-08-20 沃伦·丹尼尔·蔡尔德 中文型文字及文字偏旁的分类及检索的系统与方法
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9251143B2 (en) 2012-01-13 2016-02-02 International Business Machines Corporation Converting data into natural language form
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
KR101629415B1 (ko) * 2012-08-10 2016-06-10 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치
CN103680261B (zh) * 2012-08-31 2017-03-08 英业达科技有限公司 词汇学习系统及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム
CN102902757B (zh) * 2012-09-25 2015-07-29 姚明东 一种电子商务字典自动生成方法
US8612213B1 (en) 2012-10-16 2013-12-17 Google Inc. Correction of errors in character strings that include a word delimiter
US8713433B1 (en) 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
CN103136191A (zh) * 2013-03-14 2013-06-05 姚明东 一种电子商务字典中单字词的自动抽取方法
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9805018B1 (en) 2013-03-15 2017-10-31 Steven E. Richfield Natural language processing for analyzing internet content and finding solutions to needs expressed in text
US8788263B1 (en) * 2013-03-15 2014-07-22 Steven E. Richfield Natural language processing for analyzing internet content and finding solutions to needs expressed in text
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US10853572B2 (en) * 2013-07-30 2020-12-01 Oracle International Corporation System and method for detecting the occureances of irrelevant and/or low-score strings in community based or user generated content
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
GB201321927D0 (en) * 2013-12-11 2014-01-22 Touchtype Ltd System and method for inputting text into electronic devices
CN104750676B (zh) * 2013-12-31 2017-10-24 橙译中科信息技术(北京)有限公司 机器翻译处理方法及装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9933994B2 (en) * 2014-06-24 2018-04-03 Lenovo (Singapore) Pte. Ltd. Receiving at a device audible input that is spelled
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
JP6277921B2 (ja) * 2014-09-25 2018-02-14 京セラドキュメントソリューションズ株式会社 用語集管理装置および用語集管理プログラム
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9852124B2 (en) 2015-09-02 2017-12-26 International Business Machines Corporation Dynamic portmanteau word semantic identification
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US9959271B1 (en) * 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10185713B1 (en) 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10134388B1 (en) * 2015-12-23 2018-11-20 Amazon Technologies, Inc. Word generation for speech recognition
WO2017130089A1 (en) * 2016-01-26 2017-08-03 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10347249B2 (en) * 2016-05-02 2019-07-09 The Regents Of The University Of California Energy-efficient, accelerometer-based hotword detection to launch a voice-control system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN106211165B (zh) * 2016-06-14 2020-04-21 北京奇虎科技有限公司 检测外文骚扰短信的方法、装置及相应的客户端
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10120860B2 (en) * 2016-12-21 2018-11-06 Intel Corporation Methods and apparatus to identify a count of n-grams appearing in a corpus
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10754441B2 (en) 2017-04-26 2020-08-25 Microsoft Technology Licensing, Llc Text input system using evidence from corrections
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109766539B (zh) * 2018-11-30 2022-12-20 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109582975B (zh) * 2019-01-31 2023-05-23 北京嘉和海森健康科技有限公司 一种命名实体的识别方法及装置
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
KR102236846B1 (ko) * 2019-04-09 2021-04-06 넷마블 주식회사 욕설 필터링 방법 및 장치
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110263210B (zh) * 2019-06-24 2020-10-27 上海松鼠课堂人工智能科技有限公司 自适应英语学习词库图谱管理方法和系统
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버
US20230144379A1 (en) * 2021-11-08 2023-05-11 Genesys Cloud Services, Inc. Method and system for unsupervised discovery of unigrams in speech recognition systems

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963893A (en) 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0682403B2 (ja) * 1986-03-24 1994-10-19 沖電気工業株式会社 光学式文字読取装置
US5189610A (en) * 1986-10-20 1993-02-23 Xerox Corporation Electronic dictionary with correct and incorrect words
JPH0731677B2 (ja) * 1987-09-29 1995-04-10 シャープ株式会社 文書作成・校正支援装置
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5029223A (en) * 1990-02-02 1991-07-02 International Business Machines Corporation Constraint driven-on line recognition of handwritten characters and symbols
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
JPH05233623A (ja) * 1991-11-27 1993-09-10 Internatl Business Mach Corp <Ibm> ストローク構文入力装置
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US5392212A (en) * 1993-07-07 1995-02-21 The United States Of America As Represented By The Secretary Of Commerce Apparatus for identifying unknown words by comparison to known words
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
JPH0844719A (ja) * 1994-06-01 1996-02-16 Mitsubishi Electric Corp 辞書アクセスシステム
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5761689A (en) * 1994-09-01 1998-06-02 Microsoft Corporation Autocorrecting text typed into a word processing document
DE19510083C2 (de) * 1995-03-20 1997-04-24 Ibm Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6192333B1 (en) * 1998-05-12 2001-02-20 Microsoft Corporation System for creating a dictionary
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6349282B1 (en) * 1999-04-20 2002-02-19 Larnout & Hauspie Speech Products N.V. Compound words in speech recognition systems
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
US6529864B1 (en) * 1999-08-11 2003-03-04 Roedy-Black Publishing, Inc. Interactive connotative dictionary system
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
WO2004084176A1 (ja) * 2000-08-15 2004-09-30 Yoichi Ando 音響評価方法およびそのシステム
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963893A (en) 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system

Also Published As

Publication number Publication date
AU2003231051A1 (en) 2003-12-31
CA2488814C (en) 2010-06-22
CA2488814A1 (en) 2003-12-24
KR20050007547A (ko) 2005-01-19
CN100587686C (zh) 2010-02-03
WO2003107217A1 (en) 2003-12-24
CN1656477A (zh) 2005-08-17
US7680649B2 (en) 2010-03-16
JP2006512629A (ja) 2006-04-13
US20030233235A1 (en) 2003-12-18

Similar Documents

Publication Publication Date Title
KR100734741B1 (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
Lita et al. Truecasing
Azmi et al. A survey of automatic Arabic diacritization techniques
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
EP1675019B1 (en) System and method for disambiguating non diacritized arabic words in a text
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
Arisoy et al. Discriminative language modeling with linguistic and statistically derived features
EP1503295A1 (en) Text generation method and text generation device
Tufiş et al. DIAC+: A professional diacritics recovering system
Paripremkul et al. Segmenting words in Thai language using Minimum text units and conditional random Field
KR100496873B1 (ko) 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
EP0316743B1 (en) Method for removing enclitic endings from verbs in romance languages
Elshafei et al. Machine Generation of Arabic Diacritical Marks.
JP3309174B2 (ja) 文字認識方法及び装置
Zayyan et al. Automatic diacritics restoration for modern standard Arabic text
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
Kim et al. Cross-lingual lexical triggers in statistical language modeling
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
Okhovvat et al. An Accurate Persian Part-of-Speech Tagger.
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Sekine et al. NYU/BBN 1994 CSR evaluation
Díaz et al. Cole experiments at qa@ clef 2004 spanish monolingual track
KR100422809B1 (ko) 기계 번역을 위한 장문 분할 방법
Ali Automatic urdu diacritization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100428

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee