KR100734741B1

KR100734741B1 - 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스

Info

Publication number: KR100734741B1
Application number: KR1020047018492A
Authority: KR
Inventors: 박영자
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2002-06-17
Filing date: 2003-04-21
Publication date: 2007-07-03
Also published as: AU2003231051A1; CA2488814C; CA2488814A1; KR20050007547A; CN100587686C; WO2003107217A1; CN1656477A; US7680649B2; JP2006512629A; US20030233235A1

Abstract

본 발명은 사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 방법에 관한 것이다. 사전 데이터베이스 내에 어떠한 유효한 어근도 존재하지 않으면, 통계 프로세스가 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트의 시퀀스를 체크하여 어근이 유효한 단어일 확률을 결정한다. 다른 실시예에서, 본 발명은 접두어 제거 프로세스, 접미어 제거 프로세스, 어근 프로세스 및/또는 합성 프로세스를 포함한다.

Description

단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리 저장 디바이스{RECOGNIZING WORDS AND THEIR PARTS OF SPEECH IN ONE OR MORE NATURAL LANGUAGES}

본 발명은 컴퓨터의 텍스트 처리 분야에 관한 것이다. 특히, 본 발명은 자연 언어에서 가능한 실제 어휘(probable real words) 및 이 어휘의 품사(part of speech)(POS)를 인식하는 방법에 관한 것이다.

언어는 변하고 인류는 창조성이 있기 때문에, 현재의 어떠한 사전도 모든 가능한 단어를 포함하고 있는 것은 아니다. 요즘에, 이러한 현상은 새로운 기술이 이전보다 신속하게 출현함에 따라서 더욱 중요해지고 있다. 새로운 단어가 발견될 때마다 사전을 수동으로 갱신하는 것은 거의 불가능하며 만일에 가능하다면 수 많은 전문가의 시간과 노력을 필요로 한다.

따라서, 필수적으로, 여러 문헌에는 사전에 존재하지 않는 어휘(out-of-vocabulary)(OOV)가 존재하기 마련이다. 특히, 가령 새로운 합성어 및 접사 첨가에 의한 기존의 단어들의 어형론적 변화를 포함하는 새롭게 파생된 단어 및 특정 분야의 기술적 어휘들은 소정의 사전에 존재하지 않는다. 대부분의 사전에 존재하지 않는 이러한 실제 어휘들의 몇 개의 실례는 오토인젝터(autoinjector), 일렉트로카디오그래피electrocardiography, 아이드랍(eyedrop), 리매뉴팩처러빌러티(remanufacturability) 및 웹사이트(website) 등이다.

이러한 사전에 알려지지 않는 어휘로 인해서 기계 번역 시스템 및 파저(parser)와 같은 자연 언어 처리(NLP) 시스템에 있어서 문제가 발생하는데 그 이유는 상기 사전이 이러한 애플리케이션에 있어서 매우 중요하고 기본적인 지식의 원천이 되기 때문이다. NLP 애플리케이션이 그의 사전에 알려지지 않은 어휘를 만나게 되면, 이 애플리케이션은 그 문서를 처리할 수 없거나 그 문서를 처리하는데 필요한 정보를 추정하게 된다. 그러나, 이러한 추정은 통상적으로 매우 정확하지 않아서 그 애플리케이션은 양호하지 않은 결과를 내게 된다.

특히 품사(POS) 태거(tagger) 및 음성 인식 분야에서 이러한 문제를 해결하려는 많은 노력이 있었다. 그러나, 상이한 애플리케이션들은 상이한 안목으로 이러한 사전에 나오지 않는 어휘(OOV)의 문제를 인식하여 상이한 목적을 가지게 된다.

어휘에 대해서 사전적(구문론적) 정보에 의존하는 POS(품사) 태거(tagger) 및 파저(parser)의 경우, 그의 목적은 이 알려지지 않은 단어가 이에 이웃하는 단어와 함께 출현하는 확률을 기반으로 하여 그 문맥에서 OOV의 가장 그럴듯한 POS(품사)를 추정하는 것이다. Dermatas 및 Kokkinakis는 이전에 만났던 텍스트에서 오직 한번 출현하는 단어의 확률 분포로부터 알려지지 않은 단어가 특정 POS를 가 질 확률을 추정하였다. "Automatic stochastic tagging of natural language texts" in Computational Linguistics, 21(2), pp 137 - 164, 1995를 참조하라.

보다 개선된 POS 추정 방법은 선두 단어 부분 및 후미 단어 부분을 사용하여 알려지지 않은 단어에 대한 가능한 태그를 결정하는 것이다. Weischedel 등은 그의 대문자화 특징부 및 그의 끝부분이 주어진 경우에 알려지지 않는 단어가 특정 POS 태그일 확률을 사용하여 이 알려지지 않은 단어에 대한 POS를 추정하는 방법을 제안했다. Ralph Weischedel, Marie meeter, Richard Schwartz, Lance Ramshaw 및 Jeff Palmucci에 의한 "Coping with ambiguity and unknown words through probabilistic models" in Computational Linguistics, 19(2), pp 359 - 382, 1993을 참조하라.

Eric Brill은 종료부 추정 및 보다 어형론적으로 동기화된 규칙을 사용하는 규칙의 시스템을 개시하였다. "Transformation-Based Error-Driven Learning and Natural Language Processing : A Case Study in Part of Speech Tagging" in Computational Linguistics, 21(4), pp 543 - 565, 1995를 참조하라.

음성 인식 시스템에 있어서, OOV 어휘는 시스템 어휘 목록에 알려지지 않은 단어 또는 인식기가 인식할 수 없는 단어이다. 이 시스템의 목적은 이 시스템의 어휘 목록으로부터 이 OOV 단어에 (음성 및 의미의 차원에서) 가장 가까운 어휘를 발견하는 것이다.

문자 n그램 기반 통계적 방식(character ngram-based statistical approach)은 철차 보정 및 단어 분절과 같은 단어 레벨 언어 처리 분야에서 사용되었다. Angell, Freund 및 Willett는 유사 정도의 척도로서 Dice의 유사도 계수(Dice's similarity coefficient)를 사용하여 두 개의 스트링이 공통으로 갖는 트라이그램(trigram)의 개수를 기반으로 하여 오철자부와 사전 용어(dictionary term)를 비교하는 방법을 개시하였다. 이 오철자를 갖는 단어는 이 오철자부와 가장 잘 일치하는 사전 상의 단어로 대체된다. "Automatic Spelling Correction Using a Trigram Similarity Measure" in Information Processing and Management, 19(4), pp 255-261, 1983를 참조하라.

다음은 종래 기술이 갖는 문제를 다룬다.

종래 기술은 적어도 2 개의 문제를 갖는다.

첫째로, 종래 기술은 임의의 소정의 자연 언어에서 유효한 단어의 인식 및/또는 식별을 허용하지 않는다. 가령, (어형론적으로 변화된 및/또는 파생된) 단어의 모든 형태가 특정 사전에 존재하지 않을 수 있다. 또한, 새로운 단어 및/또는 신조어가 사전 데이터베이스 내에 존재하지 않을 수 있다. 이러한 문제는 특히 새로운 기술 또는 기존의 기술에서의 진보를 기술하기 위해서 새로운 단어가 사용될 필요가 있는 기술 관련 주제에서는 분명하다.

종래 기술은 OOV 단어가 그 시스템의 사전에 알려지지 않는 단어라고 가정하고 프로세스를 시작하지만 실제로 이들은 가능한 실제 단어들이다. 이로써, 이 시스템은 가령 새로운 단어 웹사이트(website)와 adkfiedifd 또는 v3.5a와 같은 부적합한 단어를 동일한 방식으로 간주하게 된다. 이전의 어떠한 기술도 가능한 새로운 단어를 인식하여 기존의 사전에 추가하여 이러한 단어가 차후에는 적절하게 OOV가 아닌 단어로서 식별될 수 있게 하도록 하지 않았다.

둘째로, 이전의 기술들은 시스템이 OOV 단어를 만나게 될 때에 이 시스템이 기능 고장을 일으키는 것을 방지하기 위해서 또는 그 시스템의 성능을 개선하기 위해서 이 애플리케이션 시스템 내부에 내장되었다. 이로써, 가능한 실제 단어를 발견하고 이 단어의 사전적 정보를 획득할 수 있는 어떠한 독립형 자동 시스템도 존재하지 않았다.

이전의 방식들이 OOV 문제를 해결하려고 했지만, 이들은 특정 애플리케이션을 위해서 설계되었다. 이들은 이들 OOV 단어가 나타나는 문맥을 기반으로 하여 특정 애플리케이션에서 필요한 이 단어의 정보를 추정한다. 따라서, 그 단어의 정보가 문맥에 따라서 다르게 된다.

발명의 개요

본 발명의 목적은 자연 언어에서는 존재하지만 사전에는 존재하지 않는 가능한 실제 어휘 및/또는 이의 품사를 인식하는 시스템 및 방법을 제공하는 것이다.

본 발명의 다른 목적은 기존의 단어에 첨가될 수 있는 새로운 어휘를 텍스트로부터 자동 또는 반자동으로 식별하는 시스템 및 방법을 제공하는 것이다.

본 발명은 사전 데이터베이스(a dictionary database)에 열거되지 않은 하나 이상의 어휘를 인식하는 시스템, 방법, 프로그램 제품 및 네트워크 용도에 관한 것이다. 통계적 프로세스가 그 단어 내의 하나 이상의 문자의 서브세트(subset)의 하나 이상의 시퀀스(sequecne)를 체크하여 그 단어가 유효한 단어(a vaild word)일 확률을 결정한다. 바람직한 실시예에서, 그 단어의 품사를 결정하는 데 있어서 규칙이 사용된다.

다른 실시예에서, 본 발명은 접두어 제거 프로세스, 접미어 제거 프로세스, 어근 획득 프로세스(a root process) 및/또는 조합 프로세스를 포함한다. 접두어 제거 프로세스는 접두어들이 바람직하게는 접두어 목록에 존재하는 단어로부터 하나 이상의 접두어를 제거한다. 접두어 제거는 바람직하게는 하나 이상의 접두어 제거 규칙에 의해 한정된다. 접두어 제거 프로세스는 또한 (가령, 사전 데이터베이스 또는 접두어 목록으로부터) 제거된 접두어에 대한 접두어 정보를 획득한다. 접미어 제거 프로세스는 그 접미어들이 바람직하게는 접미어 목록에 존재하는 단어로부터 하나 이상의 접미어를 제거한다. 접미어 제거는 바람직하게는 하나 이상의 접미어 제거 규칙에 의해 한정된다. 접미어 제거 프로세스는 또한 (가령, 사전 데이터베이스 또는 접미어 목록으로부터) 제거된 접미어에 대한 접미어 정보를 획득한다. 어근 획득 프로세스는 사전 데이터베이스로부터 어근에 대한 정보를 획득한다. (이 어근은 접미어 및 접두어가 제거된 단어이다.) 이어서, 조합 프로세스는 이 접두어, 어근 및 접미어가 하나 이상의 조합 규칙에 의해서 조합되어 유효한 단어를 생성하는지의 여부를 결정한다. 이 조합 프로세스는 만일 그 단어가 유효한 단어이면 그 유효한 단어의 하나 이상의 가능한 품사를 획득하고 이 유효한 단어와 함께 그의 품사를 사전 데이터베이스(또는 다른 메모리 위치)에 저장한다.

전술한 목적, 측면 및 장점 및 다른 목적, 측면 및 장점이 다음의 첨부 도면 을 참조하지만 본 발명을 한정하지는 않는 다음의 본 발명의 바람직한 실시예에 대한 상세한 설명 부분을 독해하면 분명해질 것이다.

도 1은 본 발명을 사용하는 시스템의 일 바람직한 실시예의 블록도,

도 2는 전체적인 사전 부가 프로세스의 흐름도,

도 3은 접두어 프로세스, 접미어 프로세스, 조합 프로세스를 포함하는 언어학적 프로세스의 흐름도,

도 4는 이 언어학적 프로세스에서 사용되는 접두어 프로세스의 흐름도,

도 5는 이 언어학적 프로세스에서 사용되는 접미어 프로세스의 흐름도,

도 6은 이 언어학적 프로세스에서 사용되는 조합 프로세스의 흐름도,

도 7은 통계적 프로세스의 흐름도,

도 8은 통계적 학습 프로세스의 흐름도,

도 9는 본 발명에 의해 식별된 단어를 자연 언어의 단어로서 출력하는 실례를 도시한 도면.

본 발명은 텍스트 내의 사전에 존재하지 않는 단어 중에서 실제 가능한 단어를 인식하는 시스템, 방법 및 프로그램을 제공하며, 다른 실시예에서는 식별된 단어의 품사를 파악하고 이를 기존의 사전에 추가하는 시스템, 방법 및 프로그램을 제공한다. 통상적인 사전에 존재하지 않는 어휘(OOV) 처리 시스템과는 달리, 본 발명은 일 바람직한 실시예에서 소정 단어에서의 트라이그램 시퀀스(trigram sequence)의 확률을 기반으로 하는 엔트로피 모델(an entropy model)을 제안한다.

실제 단어로서 인식된 단어들은 컴퓨터 시스템의 기존의 사전에 부가되어 컴퓨터 애플리케이션은 사전에 존재하지 않는 단어를 인식하여 이 단어를 차후에 적절하게 처리할 수 있다. 본 발명은 용어 추출 시스템(a terminology extraction system), 기계 번역 시스템 및 음성 인식 시스템과 같은 수 많은 언어 처리 시스템 내부로 통합될 수 있다. 또한, 이러한 단어는 사전 편찬자가 출판된 사전을 갱신 또는 첨가하는 데 사용된다. 본 발명은 사전 편찬자에게 새로운 단어들의 우수한 목록을 제공하여 그들의 작업을 줄인다. 본 발명은 또한 영어뿐만 아니라 프랑스어, 독일어 및 스페인어와 같은 다른 언어에도 적용될 수 있지만 여기에만 한정되는 것은 아니다.

도 1은 본 발명에 의해 수행되는 전체 프로세스를 도시한다. 본 발명, 즉 사전 첨가 시스템(a dictionary augmentation system)(100)은 임의의 알려진 컴퓨터 시스템에 의해서 운영된다. 이 시스템은 하드디스크 또는 네트워크(가령, 웹, 인트라넷, 기업 네트워크 등)로부터 문서(120)를 판독하고 이 문서 내의 각 단어에 대해서 이 시스템이 사용하는 온 라인 사전(140) 내에서 이 단어를 검색한다. (온 라인 사전은 잘 알려져 있으며 검색가능한 방식으로 단어들을 저장한 임의의 메모리 저장 디바이스를 포함한다.) 이 단어가 그 사전 내에 존재하지 않는다면, 본 발명은 그 단어가 대상 언어의 가능한 실제 단어인지의 여부를 검사한다. 여기서, 목적이 되는 언어는 일반적으로 알려진 자연 언어 뿐만 아니라 가령 컴퓨터 프로그래밍/복구 메뉴얼 또는 의학 용어와 같은 특정 기술 분야의 다양한 언어를 포함한다. 이 시스템은 만일 이 단어가 가능한 실제 단어이면 이 단어 및 이의 품사를 데이터베이스(160)에 기록한다. 이 가능한 실제 단어는 온 라인 사전(140) 상의 새로운 어휘 데이터베이스(160) 내에 또는 알려진 다른 타입의 저장 위치 내에 저장될 수 있다.

이 새로운 어휘 데이터베이스는 나중에 다른 컴퓨터 애플리케이션(200)이 문서 또는 음성(220)을 처리하는 데 사용될 수 있다. 이 애플리케이션은 잘 알려져 있으며 파저, 기계 번역 시스템 및 음성 인식 시스템을 포함한다. 이 데이터베이스는 또한 사전 편찬자(300)가 인류를 위해서 사전(320)을 출판 및/또는 개정할 때에 사용될 수 있다.

도 2는 전체적인 사전 첨가 프로세스(100)의 흐름도이다. 문서(120)가 가령 표준 기술에 의해서 시스템 내에서 판독될 때, 이 시스템은 그 문서로부터 단어를 접수하여 시스템 사전(140) 내에서 이 단어를 검색한다(110). 만일 이 단어가 사전 내에 존재하면(130), 다른 프로세스는 필요하지 않다. 그러나, 이 단어가 이 사전 내에 존재하지 않는다면, 이 시스템은 이 단어가 오직 문자로만 구성된지의 여부를 체크한다(150). 그 단어가 하나 이상의 숫자 또는 특수 문자를 포함하면, 시스템은 이 단어를 무시한다.

만일 이 단어가 오직 문자로만 구성되었으면, 이 시스템은 먼저 언어학적 프로세스(400)를 수행하여 이 단어가 새롭게 파생된 단어(즉, 기존의 단어들의 어형론적 변화 및/또는 합성된 단어)인지의 여부를 검사한다. 이 프로세스는 성공적이면(170), 이 시스템은 선택사양적으로 이 단어 및 그의 사전적 정보를 새로운 어휘 데이터베이스(160) 또는 다른 저장 장치 내에 저장한다(190). 만일 이 프로세스가 실패했다면, 시스템은 통계적 프로세스(500)를 수행한다. 만일 이 프로세스(500)가 이 단어를 새로운 단어로서 인식하면(180), 시스템은 이 단어 및 그의 사전적 정보를 새로운 어휘 데이터베이스(160) 내에 저장한다(190). 이러한 처리 절차는 이 문서 내에 어떠한 단어도 남기지 않고 검색될 때까지 수행된다.

도 3은 전체 언어학적 프로세스(400)의 흐름도이다. 이 프로세스는 새롭게 파생된 단어를 인식하는 프로세스이다. 새롭게 파생된 단어는 사전에 이미 알려진 단어를 대부분 접사 첨가함으로써, 즉 접두어를 단어의 처음 부분에 첨가하거나 접미어를 단어의 끝부분에 첨가함으로써 또는 단어 합성에 의해서, 즉 2 개 이상의 단어가 한 단어로 합성됨으로써 어형론적으로 변화된 것을 말한다. 먼저, 시스템은 그 단어가 하나 이상의 접두어 및 어근을 포함하는지의 여부를 검사한다(410). 접두어 프로세스(410)가 성공적이면(420), 이 단어는 새로운 단어로 간주되고 이 프로세스는 종료된다. 이 접두어 프로세스가 실패하면(420), 이 시스템은 그 단어가 하나 이상의 접미어와 어근을 포함하는지의 여부를 결정한다(430). 만일 접미어 프로세스가 성공적이면, 이 단어는 새로운 단어로 간주되고 이 프로세스는 종료된다. 만일 접미어 프로세스(430)가 실패하면(440), 이 시스템은 합성 프로세스(450)를 수행하여 이 단어가 내용을 갖는 2 개의 단어로 구성된 것인지의 여부를 검사한다. 만일 이 합성 프로세스가 성공적이면, 이 단어는 새로운 단어로 간주 되고 이 프로세스는 종료된다. 본 발명에서 접두어 프로세스(410), 접미어 프로세스(430) 및/또는 합성 프로세스(450)는 단독으로 동작하거나 다른 프로세스와 조합하여 동작한다.

도 4는 언어학적 프로세스(400) 내에서 사용되는 접두어 프로세스(410)의 흐름도이다. 접두어를 갖는 단어에 대한 프로세스(410)는 다음과 같다.

먼저, 시스템은 접두어 목록(417) 내의 임의의 접두어가 그 단어의 처음 부분에 나타나는지의 여부를 체크한다(411). 만일 그 단어가 접두어를 포함하면(412), 이 시스템은 그 단어로부터 접두어를 제거하고(413) 나머지 부분(어근)을 사전에서 검색한다(414). 일 바람직한 실시예에서, 이 어근의 길이는 2 개의 문자가 최소의 길이이다. 만일 사전이 이 어근을 포함하면(415), OOV 단어는 실제 단어로 고려되고 이 프로세스(410)에 의해 처리된 이 단어는 어근의 사전적 정보를 물려 받는다(416). 가령, antiasthmatic(부사), autoinjector(명사), remanufactured(동사의 과거 시제), streoselectivity(명사)는 접두어 프로세스(410)에 의해서 발견된다.

도 5는 언어학적 프로세스(400) 내에서 사용되는 접미어 프로세스(430)의 흐름도이다. 이 프로세스는 다음과 같다. 먼저, 시스템은 접미어 데이터베이스(438) 내의 임의의 접미어가 그 단어(431)의 끝부분에서 나타나는지의 여부를 체크한다. 바람직한 실시예에서, 본 발명은 특정 접미어 및 이로 인한 POS를 갖는 어근의 전제적 POS를 기술하는 접미어를 위한 규칙 세트(438)를 사용한다.

바람직한 실시예에서 사용되는 오직 예시적인 접미어 규칙 구조는 다음과 같 다. 접미어 able에 대한 규칙은 [able, {VB => JJ}, {NN => JJ}]. 이는 동사(VB) 또는 명사(NN)는 그 단어의 끝부분에 접미어 able를 가질 수 있으며 이로써 생성된 단어의 품사는 형용사(JJ)이다. 단어가 접미어를 가지면(432), 시스템은 이 접미어(433)를 제거하고 사전에서 이 단어의 어근을 검색한다(435). 어근이 사전에서 발견되고(436) 이 어근이 전제적 POS 중 하나를 가지면, 이 단어는 실제 단어로서 간주되며 상기 규칙에 따라 결과적인 POS를 갖는다(437).

그러나, 이 어근이 사전에서 발견되지 않으면, 시스템은 어근 형태 복구를 수행한다(434). 접미어가 그 단어에 첨가되면, 이 어근의 철자는 변할 수 있다. 가령, 영어에서, 묵음 e로 끝나는 단어는 통상적으로 모음으로 시작되는 접미어 앞에서 e가 생략된다. 가령, 시스템이 browsable를 판독할 때, 이 시스템은 접미어 able를 분리하여 어근 brows를 얻는다. 이 시스템은 사전에서 brows를 검색하지만 실패한다. 이어서, 시스템은 어근 형태를 복구하여 본래의 형태 browse를 얻는다.

어근 형태를 복구하기 위해서 바람직한 실시에에서 다음과 같은 규칙이 사용된다.

(1) 어근의 두 개의 마지막 문자가 동일한 자음이면, 하나를 삭제한다.

(2) 어근의 마지막 문자가 'i' 이면, 이 i를 y로 변경한다.

(3) 어근의 마자막 문자가 자음이지만 (1)의 경우는 아니면, 'e'를 첨가한다.

복구된 어근이 사전에서 발견되고(436) 이 단어가 전제적 POS 중 하나를 가 지면, 이 단어는 실제 단어로서 간주되고 규칙에 따르는 품사를 갖는다(437). 이러한 경우의 몇몇 실례는 browsable(형용사), migranious(형용사) 및 oxidizability(명사)이다.

가령, remanufacturability와 같은 몇몇 단어는 하나 이상의 접두어 및 하나 이상의 접미어 및 어근을 포함한다. 이 경우에, 이 단어는 상술된 접두어 프로세스 및 접미어 프로세스를 받는다.

도 6은 언어학적 프로세스에서 사용되는 합성 프로세스의 흐름도이다. 단어가 위의 접미어 프로세스 및 접두어 프로세스 모두에 해당되지 않으면, 이 단어는 합성 프로세스(450)를 위한 것으로 고려된다. 이 시스템은 소정의 OOV 단어를 두 개의 요소, 즉 처음 문자에서 분할 지점까지의 문자를 포함하는 제 1 요소 및 분할 지점 + 1 문자에서 그 단어의 최종 문자까지의 문자를 포함하는 제 2 요소로 분할된다. 초기 분할 지점은 3 번째 문자부터이다(451). 이어서, 시스템은 사전에서 제 1 요소를 검색한다(454). 제 1 요소가 사전에서 존재하지 않으면(455), 시스템은 분할 지점을 증가시켜서(459), 제 2 요소의 문자의 개수가 2 개 이하가 될 때까지 이 프로세스를 반복한다(452).

제 1 요소가 사전에서 발견되면(455), 제 2 요소가 사전에서 검색된다(456). 제 2 요소도 사전에서 발견되면(457), 시스템은 두 요소의 조합이 유효한지의 여부를 조사한다(458). 단어들의 가능한 조합은 명사 + 명사, 명사 + 동사의 분사 형태이다. 이 조합이 유효하면, OOV 단어는 실제 단어로서 간주되고 제 2 요소의 품사를 갖는다(459). 이러한 합성어의 실례는 airbreathing(명사, 동명사), eyedrops(명사), photophobia(명사) 및 website(명사)이다.

도 7은 바람직한 전체적인 통계적 프로세스(500)의 흐름도이다. 이 프로세스는 파생되지 않은 새로운 단어를 인식하기 위한 것이다. 이러한 비파생형 새로운 단어는 파생 규칙(또는 어휘 형성 규칙)에 의해서 기존의 단어로부터 생성될 수 없는 단어를 의미한다. 수 많은 특정 기술 분야의 용어들이 이 범위에 속한다. 인류는 이전에 보이지 않던 단어가 가능한 새로운 단어인지의 여부를 성공적으로 추정할 수 있지만, 이 단어는 이미 알려진 단어들로 구성되지 않는다. 일 실시예에서, 만일 단어에서 문자 시퀀스가 가능하게 보이고 이를 발음하기가 자연스럽다면 인류는 이 단어를 실제 단어로서 결론지을 수 있다고 가정해보자. 비파생형 새로운 단어의 인식은 이러한 가정을 기반으로 한다.

본 발명에서, 스트링 내의 모든 문자가 그의 이웃하는 문자와 동시에 발생할 수 있다면 이 문자의 시퀀스를 가능한 실제 단어로서 간주한다. (이웃하는 문자와 결합되는 문자들의 시퀀스는 스트링(string)으로 지칭된다.) 이웃하는 문자들은 임의의 개수를 갖는 선행하는 또는 후속하는 문자일 수 있다. 이 방법은 언어의 예측확률을 기반으로 한다. 즉, 선행하는 n 개의 문자 또는 후속하는 n 개의 문자를 알고 있을 경우에, 그 텍스트의 다음의 문자가 어느 정도 양호하게 예측될 수 있는지를 기반으로 한다. 바람직한 실시예에서, 본 발명은 이웃하는 문자를 두 개의 선행하는 문자로서 규정한다. 즉, 단어 내의 문자들이 두 개의 선행하는 문자들이 보여진 경우(즉, 트라이그램 모델, 여기서 스트링은 3 개의 문자 또는 트라이그램임) 그들의 위치에서 발생할 수 있는 확률이 높다면, 그 단어는 실제 단어로서 간주된다.

이 모델은 2 개의 모드, 즉 학습 모드(510) 및 애플리케이션 모드(550,560)를 갖는다. 학습 모드에서, 시스템은 시스템 사전(140)으로부터 문자 트라이그램 통계치의 확률을 학습하여 이 트라이그램 통계치를 데이터베이스에 저장한다(520). 학습 모드는 또한 트레이닝 데이터로부터 단어의 끝부분을 기반으로 하여 품사 추정 규칙을 생성한다(530). 애플리케이션 모드에서, 시스템이 OOV 단어를 획득하면(540), 이 시스템은 그 단어 내의 모든 문자 트라이그램의 확률의 엔트로피(entropy)를 계산한다(550).

언어 모델의 엔트로피는 정보의 예상된 값이다. 엔트로피는 미래에 대한 그 모델의 불확실성의 척도이다. 이는 추정된 확률 분포가 균일하게 됨에 따라서 증가한다. 본 발명은 사전에 나오지 않는 어휘(하나 이상의 문자 시퀀스 또는 단어 시퀀스)가 제공될 경우에 그 단어가 가능한 실제 단어인지를 그의 통계적 구조를 기반으로 하여 결정할 수 있는 모델을 제안한다. 말하자면, 단어는 강한 내부의 통계적 영향을 갖는 문자들의 응집성 그룹(a cohesive group)이다.

단어 w가 n 개의 문자로 구성되었다고 가정해보자. 즉, w = c₁c₂....c_n이다. 하나의 선두 스페이스 및 하나의 후미 스페이스를 첨가하고 이로써 w를 c₀c₁c₂....c_nc_n+1로 만들어 트라이그램 확률을 추정해보자(이는 도 8에서 보다 상세하게 설명될 것이다). 단어 w의 엔트로피, H(w)은 다음과 같이 계산된다.

바람직한 실시예에서, 엔트로피 값이 소정의 임계치보다 높으면, 본 발명은 이 단어가 실제 단어라고 결론을 내린다. 일 실시예에서, 임계치는 2.3으로 설정되는데 이 값은 트레이닝 데이터(training data)(이 트레이닝 데이터에 대해서는 도 8에 대한 설명을 참조하라)의 (평균 엔트로피 - 최소 엔트로피)로 결정된다. 이 단어가 실제 단어로 결정되면, 시스템은 끝부분 추정 규칙 데이터베이스(530)로부터 모든 가능한 품사를 생성한다. 이 끝부분 추정 규칙은 도 8에 설명되어 있다. 이 규칙 세트를 사용함으로써, 시스템은 가장 긴 정합 패턴을 기반으로 하여 그 단어의 모든 가능한 품사를 생성한다. 본 발명은 가장 긴 끝부분(이 가장 긴 끝부분은 단어의 길이가 7 개의 문자보다 많으면 5 개의 문자이고 그렇지 않으면 그 단어의 길이에 3 개의 문자를 뺀 문자임)에서 마지막 한 개의 문자에 이르는 이 단어의 끝부분 문자를 규칙 세트 내에서 검색한다. 만일 이 끝부분이 이 규칙 세트 내에 존재하면, 정합 프로세스는 종료되고 이 시스템은 이 끝부분의 모든 품사를 규칙 빈도의 크기 순으로 생성한다. 가령, cortical는 형용사 및 명사로서 추정되지만 tical이 트레이닝 데이터에서 명사로서보다 형용사로서 4 배 정도 더 많이 나타나기 때문에 형용사로 판독하는 것이 바람직하다. 통계치 프로세스에 의해서 인식된 새로운 단어의 몇몇 실례는 accelerometers(명사), diastolic(형용사, 명사), kinesiology(명사) 및 ingressed(동사의 과거 시제)이다.

도 8은 통계치 학습 프로세스(510)의 흐름도이다. 단어의 트라이그램 확률을 학습하기 위해서, 시스템은 모두 유효한 단어를 가지고 있는 시스템 사전(140)을 사용한다. 이 시스템은 사전으로부터 단어를 판독하고 그 단어의 모든 가능한 활용을 검색한다(511). 이 시스템은 생성된 단어에 선두 스페이스 및 후미 스페이스를 첨가하고(512) 이 단어를 데이터베이스(513)에 저장한다. 가령, n 개의 문자로 구성된 단어 w = c₁c₂....c_n가 사전에 나오지 않는 OOV 단어라고 가정해보자. 이 시스템은 이 단어에 선두 스페이스(b₁) 및 후미 스페이스(b₂)를 첨가하여(512) w' = b₁c₁c₂....c_nb₂를 생성한다. 이 단어 목록은 사전에서 생성될 수 있는 모든 유효한 단어 형태를 포함한다. 이 시스템은 사전의 모든 단어가 처리될까지 이러한 프로세스를 반복한다(514). 생성된 단어 목록과 함께, 시스템은 두 가지 지식, 즉 트라이그램 통계치 및 품사 규칙을 터득한다. 이러한 학습 프로그램은 단어 목록 내의 모든 단어가 처리될 때까지 계속된다(519).

이 시스템은 3 개의 문자의 시퀀스 및 2 개의 문자의 시퀀스의 빈도를 카운트함으로써 단어 목록(513)으로부터 트라이그램 확률을 계산한다. 이 시스템이 단어 목록(513)으로부터 단어를 판독하고(515) 모든 가능한 3 개의 문자의 시퀀스 및 2 개의 문자의 시퀀스를 생성하고 이들의 빈도를 증가시킨다(516).

가령, w = b₁c₁c₂....c_nb₂가 n 개의 문자와 두 개의 스페이스(선두 스페이스 및 후미 스페이스)로 구성된다고 해보자. 이어서, 시스템은 b₁c₂, c₁c ₂... c_n-1c_n, c_nb₂와 같은 모든 가능한 2 개 문자의 시퀀스 및 b₁c₁c ₂, c₁c₂c₃.... c_n-1c_nb₂와 같은 모든 가능한 3 개 문자의 시퀀스를 생성한다. 이 시스템은 단어 목록 내의 단어로부터 찾을 수 있는 모든 가능한 두 개의 문자의 시퀀스 및 3 개의 문자의 시 퀀스의 빈도를 카운트한다.

시스템이 3 개의 문자 시퀀스 및 2 개의 문자 시퀀스의 빈도를 획득하면, 이 시스템은 모든 가능한 트라이그램 확률을 계산하고(517) 이 통계치를 데이터베이스 내에 저장한다(520). 트라이그램의 확률, 즉 문자 c₃의 발생 확률은 이 문자에 선행하는 두 문자 c₁ 및 c₂ 가 주어진 경우에 다음과 같이 계산된다.

또한, 시스템은 단어 목록으로부터 품사 추정 규칙을 생성한다(518). 단어 목록 내의 모든 단어에 대해, 문자의 길이가 한 개 내지 5 개에 달하는 모든 가능한 끝부분을 단어의 품사와 함께 생성할 수 있다. 나머지 부분의 최소한의 길이는 적어도 3 개의 문자로 구성된다. 이 시스템은 끝부분 추정 규칙의 빈도를 카운트하고 이 규칙을 끝부분 추정 규칙 데이터베이스 내에 저장한다(530).

가령, 단어 "ailments"는 트레이닝 사전(training dictionary) 내에서 복수 명사(NNS)로서 열거된다. 이어서, 끝부분 추정 규칙 생성기는 길이가 1 개인 끝부분(s)에서 길이가 5 문자에 달하는 끝부분(ments)을 포함하는 모든 가능한 끝부분을 자신의 품사와 함께 생성한다. 말하자면, 이 생성기는 s-NNS, ts-NNS,...,ments-NNS를 생성한다. 단어 "mounting"는 두 개의 품사, 즉 명사(NN) 및 동명사(VBG)를 갖는다. 이 경우에, 각 끝부분은 두 개의 품사를 갖는다. 말하자면, 이는 g-NN, g-VBG, ng-NN 및 ng-VBG, ... , nting-NN 및 nting-VGB이다. 다음의 표는 끝부분 추정 규칙이 트레이닝 데이터로부터 생성되는 방식을 나타낸 다.

도 9는 본 발명에 의해 식별된 단어를 자연 언어의 단어로서 출력하는 것의 실례이다. 이 도면에서 방법 열은 새로운 단어 샘플을 인식하는 데 사용된 메카니즘을 명시한다. 접두어 방법에서 단어들은 프로세스(410)에 의해서 인식되며, 접미어 방법에서 단어들은 프로세스(430)에 의해서 인식된다. 접두어 + 접미어 방법에서 단어들은 프로세스(410) 및 프로세스(430)에 의해서 인식되고, 합성 방법에서 단어들은 프로세스(450)에 의해서 인식된다. 마지막으로, 엔트로피 통계치 방법에서 단어들은 프로세스(500)에 의해서 식별된다. 말하자면, 그 단어의 엔트로피 값은 소정의 임계치보다 크다.

본 발명의 예시적인 실례는 텍스트 내의 사전에 나오지 않는 단어 중에서 실제로 가능한 단어를 식별하는 데 사용된다. 상술된 기술을 사용하여, 문자 트라이그램의 확률의 엔트로피 및 영어의 어형론적 규칙을 기반으로 하여 실제 단어가 식별된다. 본 발명은 또한 이 식별된 단어의 품사(POS)를 사전적 정보 규칙 및 단어 끝부분을 기반으로 하여 인식한다. 본 발명의 실시예는 정확도가 매우 높으며 단어를 매우 양호하게 다시 기억할 수 있다. 다른 예시적인 실시예에서, 본 발명은 특정 기술 분야의 용어를 인식하는 데 매우 유용하며, 단일 또는 다수의 어휘 용어집 항목들을 식별하고 특정 분야의 사전을 형성하는 용어집 추출 시스템 내에 성공적으로 내장될 수 있다. 다른 실시예들은 본 명세서로부터 본 기술 분야의 당업자에게 자명해질 것이다. 이들 실시예들은 또한 본 발명의 범위 내에 포함된다.

Claims

사전 데이터베이스(a dictionary database) 내에 열거되지 않은 하나 이상의 단어를 인식하는 시스템에 있어서,

하나 이상의 중앙 처리 장치 및 하나 이상의 메모리를 구비하고,

상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근(a root word)에 대한 어근 정보를 획득하는 어근 프로세스(a root process)와,

상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트(subset)에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 상기 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 통계적 프로세스

를 포함하는 단어 인식 시스템.
제 1 항에 있어서,

상기 확률은 상기 어근 내에서 상기 하나 이상의 문자로 구성된 서브세트의 서브세트가 하나 이상의 다른 문자들에 인접하여 올바르게 배치되는 가능성의 척도를 포함하는

단어 인식 시스템.
청구항 3은(는) 설정등록료 납부시 포기되었습니다.

제 2 항에 있어서,

상기 인접하는 다른 문자들은 상기 서브세트에 선행하는

단어 인식 시스템.
청구항 4은(는) 설정등록료 납부시 포기되었습니다.

제 2 항에 있어서,

상기 인접하는 다른 문자들은 상기 서브세트에 후속하는

단어 인식 시스템.
청구항 5은(는) 설정등록료 납부시 포기되었습니다.

제 4 항에 있어서,

상기 서브세트 및 상기 인접하는 다른 문자들은 트라이그램(trigram)을 형성하는

단어 인식 시스템.
제 2 항에 있어서,

상기 확률은,

상기 어근 내의 상기 하나 이상의 문자로 구성된 서브세트 및 상기 하나 이상의 인접하는 문자들의 각각에 대해, 상기 하나 이상의 문자로 구성된 서브세트와 상기 인접하는 다른 문자들로 구성된 스트링(string)을, 각각의 확률과 연관된 스트링들의 데이터베이스와 비교하여 스트링 확률의 세트를 산출하고,

상기 스트링 확률의 로그에 의해 스트링 확률 세트 내에 각각의 스트링 확률을 승산하여 로그 스트링 확률의 세트를 산출하며,

상기 로그 스트링 확률의 세트 내에 상기 로그 스트링 확률을 합산하여 상기 어근이 유효한 단어일 확률을 산출하함으로써 결정되는

단어 인식 시스템.
제 6 항에 있어서,

상기 데이터베이스 내의 상기 스트링들의 각각의 확률은 문자들로 구성된 하나 이상의 가능한 스트링을 발견하여, 유효한 단어들의 데이터베이스 내에서 상기 가능한 문자 스트링의 발생 빈도를 카운트함으로써 결정되는

단어 인식 시스템.
제 2 항에 있어서,

상기 단어의 품사(a part of speech)를 규정하는 하나 이상의 규칙을 더 포함하되,

상기 규칙이 유효한 단어의 데이터베이스에 대해 올바르게 적용되는 발생 빈도 중, 소정의 임계치보다 큰 발생 빈도를 기반으로 하는 규칙 확률을 갖는

단어 인식 시스템.
청구항 9은(는) 설정등록료 납부시 포기되었습니다.

제 8 항에 있어서,

상기 어근의 품사는 상기 규칙 중 하나에 의해 결정되는

단어 인식 시스템.
청구항 10은(는) 설정등록료 납부시 포기되었습니다.

제 8 항에 있어서,

상기 규칙은 상기 어근의 끝부분(ending)에 적용되는

단어 인식 시스템.
청구항 11은(는) 설정등록료 납부시 포기되었습니다.

제 1 항에 있어서,

상기 단어를 두 개의 요소로 분할하는 합성어 프로세스를 포함하며,

상기 어근은 상기 두 개의 요소 중 제 2 요소인

단어 인식 시스템.
청구항 12은(는) 설정등록료 납부시 포기되었습니다.

제 11 항에 있어서,

상기 합성어 프로세스는 또한 상기 어근의 품사를 결정하는

단어 인식 시스템.
청구항 13은(는) 설정등록료 납부시 포기되었습니다.

제 1 항에 있어서,

상기 단어가 유효한 단어로 판정되면, 상기 단어는 새로운 어휘 사전 메모리 내에 저장되는

단어 인식 시스템.
청구항 14은(는) 설정등록료 납부시 포기되었습니다.

제 1 항에 있어서,

상기 단어가 유효한 단어로 판정되면, 하나 이상의 문서에서 상기 단어의 발생 빈도를 카운트하여 상기 단어의 중요도를 결정하는 단어 카운트 프로세스를 더 포함하는

단어 인식 시스템.
제 1 항에 있어서,

상기 단어로부터 하나 이상의 접두어를 제거하는 접두어 제거 프로세스를 더 포함하며,

상기 접두어는 접두어 목록 내에 존재하고,

상기 접두어 제거는 하나 이상의 접두어 제거 규칙에 의해 제한되며,

상기 접두어 제거 프로세스는 상기 제거된 접두어에 대한 접두어 정보를 획득하는 것을 더 포함하는

단어 인식 시스템.
청구항 16은(는) 설정등록료 납부시 포기되었습니다.

제 15 항에 있어서,

상기 접두어 정보는 사전 데이터베이스 및 접두어 목록 중 하나 이상으로부터 획득되는

단어 인식 시스템.
제 1 항에 있어서,

상기 단어로부터 하나 이상의 접미어를 제거하는 접미어 제거 프로세스를 더 포함하며,

상기 접미어는 접미어 목록 내에 존재하고,

상기 접미어 제거는 하나 이상의 접미어 제거 규칙에 의해 제한되며,

상기 접미어 제거 프로세스는 상기 제거된 접미어에 대한 접미어 정보를 획득하는 것을 더 포함하는

단어 인식 시스템.
청구항 18은(는) 설정등록료 납부시 포기되었습니다.

제 17 항에 있어서,

상기 접미어 정보는 사전 데이터베이스 및 접미어 목록 중 하나 이상으로부터 획득되는

단어 인식 시스템.
사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 방법에 있어서,

상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 단계와,

상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 단계

를 포함하는 단어 인식 방법.
사전 데이터베이스 내에 열거되지 않은 하나 이상의 단어를 인식하는 시스템에 있어서,

상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 수단과,

상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 수단

을 포함하는 단어 인식 시스템.
컴퓨터 프로그램을 저장하는 컴퓨터 메모리 저장 디바이스에 있어서,

상기 컴퓨터 프로그램은,

상기 사전 데이터베이스로부터 어떠한 접두어 및 접미어도 가지지 않는 단어들 중 하나인 어근에 대한 어근 정보를 획득하는 단계와,

상기 사전 데이터베이스 내에 유효한 어근이 발견되지 않으면, 개별적인 유효한 단어의 서브세트에 대해 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트를 체크하여, 개별적인 유효한 단어의 서브세트의 시퀀스 내에 상기 어근 내의 하나 이상의 문자로 구성된 하나 이상의 서브세트가 발생할 가능성으로부터, 상기 어근이 유효한 단어일 확률을 결정하는 단계

를 수행하는 컴퓨터 프로그램 메모리 저장 디바이스.