KR100766169B1

KR100766169B1 - 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치

Info

Publication number: KR100766169B1
Application number: KR1020060007697A
Authority: KR
Inventors: 리킨 수; 민유 슈에
Original assignee: 엔이씨 (차이나) 씨오., 엘티디.
Priority date: 2005-01-31
Filing date: 2006-01-25
Publication date: 2007-10-10
Also published as: CN100530171C; EP1686493A2; US20060206313A1; EP1686493A3; TW200729001A; CN1815467A; KR20060088027A; JP2006216044A

Abstract

본 발명은 사전 학습 방법을 제공하는데, 상기 방법은 비태그화 자료로부터 어휘집 및 통계 언어 모델을 학습하는 단계; 어휘집, 통계 언어 모드 및 보조 워드 인코딩 정보를 소형 크기 사전으로 통합하는 단계를 포함한다. 본 발명은 또한 품사 정보 및 품사 바이그램 모델이 추가된 사전을 사용하는 사용자 단말기 장치에서의 입력 방법 및 이를 사용한 사용자 단말기 장치를 제공한다. 따라서, 문장 레벨 예측 및 워드 레벨 예측이 사용자 단말기 장치에 의해 제공될 수 있으며, 사전 인덱스의 패트리샤(Patricia) 트리 인덱스에 의해 탐색되는 사전을 사용해서 입력 속도가 향상된다.

자연어 처리, 사용자 입력, 중국어 입력, 사전 학습 장치, 태그화 자료

Description

컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치{COMPUTER-IMPLEMENTED DICTIONARY LEARNING METHOD AND DEVICE USING THE SAME, INPUT METHOD AND USER TERMINAL DEVICE USING THE SAME}

도 1은 본 발명에 따른 사전 학습 장치와 사용자 단말기 장치 간의 관계를 도시한 개략도.

도 2a는 사전 학습 장치에 의해 학습된 사전의 개략 구조의 일례를 도시한 도면.

도 2b는 사전 학습 장치에 의해 학습된 사전의 개략 구조의 다른 일례를 도시한 도면.

도 3은 본 발명에 따른 사전 학습 장치의 블록도.

도 4a는 사전 학습 장치의 사전 학습 프로세싱 모듈의 일례의 상세한 블록도.

도 4b는 사전 학습 장치의 사전 학습 프로세싱 모듈의 다른 일례의 상세한 블록도.

도 5는 본 발명에 따른 사전 학습 프로세싱 모듈의 어휘집 및 통계 언어 모델 학습 유닛에 의해 구현되는 사전 및 통계 언어 모델을 학습하는 프로세스를 설명하기 위한 플로우챠트.

도 6은 본 발명에 따른 어휘집 정련의 플로우챠트.

도 7은 본 발명의 제1 실시예에 따른 사용자 단말기 장치의 블록도.

도 8a 내지 도 8d는 사용자 단말기 장치의 전형적인 키보드들의 4개의 개략도들.

도 9a는 가장 전형적인 입력 방법을 사용해서 중국어 캐릭터 "今"을 입력하는 T9의 입력 시퀀스를 도시한 도면.

도 9b는 가장 전형적인 입력 방법을 사용해서 중국어 워드 "今天"을 입력하는 T9의 입력 시퀀스를 도시한 도면.

도 10은 본 발명의 사용자 단말기 장치의 입력 프로세싱 유닛의 상이한 섹션들 간의 접속 관계를 도시한 블록도.

도 11은 본 발명의 사용자 단말기 장치의 디스플레이의 사용자 인터페이스의 일례를 도시한 도면.

도 12는 본 발명의 사용자 단말기 장치의 사전 인덱싱 모듈에 의해 구현된 패트리샤 트리 인덱스를 생성하는 플로우챠트.

도 13은 본 발명의 정렬 결과 및 패트리샤 트리 인덱스의 일례를 도시한 도면.

도 14는 본 발명의 사용자 단말기 장치의 사용자 입력 예측 및 조정 모듈에 의해 구현되는 사용자 입력 예측 및 조정 프로세스의 플로우챠트.

도 15는 사용자 단말기 장치의 일례의 입력 시퀀스를 도시한 도면.

도 16은 본 발명의 제2 실시예에 따른 사용자 단말기 장치의 블록도.

<도면의 주요 부분에 대한 부호의 설명>

1 : 사전 학습 장치

2 : 사전

3 : 사용자 단말기 장치

11 : 어휘집

12 : 비태그화 자료

13 : 품사 태그화 자료

15 : 어휘집 및 통계 언어 모델 학습 유닛

16 : 품사 학습 유닛

17 : 사전 통합 유닛

본 발명은 자연어 프로세스에 관한 것으로, 특히, 사전 학습 방법 및 상기 방법을 사용하는 장치와, 사용자 입력을 처리하기 위한 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치에 관한 것이다.

중국에서의 컴퓨터, PDA, 이동 전화가 광범위하게 사용됨에 따라, 사용자가 중국어를 입력할 수 있게 해주는 기능은 상기 기계들에서 중요한 기능이다. 중국의 현 이동 단말기 시장에서, 거의 모든 이동 전화에는 디지트 키보드를 사용하는 입력 방법이 제공된다. T9 및 iTap은 현재 가장 흔히 사용되는 입력 방법들이다. 이러한 종류의 방법에서, 사용자는 10-버튼 키보드에서 중국어 캐릭터용 병음(Pinyin) 또는 스트로크(stroke)를 입력할 수 있다. 도 8a 내지 도 8b는 병음 및 스트로크 입력을 위한 일례의 키보드들을 도시한다. 입력 방법은 버튼 시퀀스 사용자 탭에 따라 예측 캐릭터를 제공할 수 있다. 통상 병음 입력의 경우, 각각의 버튼은 도 8a에 도시된 바와 같이 알파벳의 3~4 문자들을 나타낸다. 사용자가 캐릭터에 대한 병음을 입력할 때, 사용자는 가장 전형적인 입력 방법에 의해 요구되는 각각의 우측 문자를 입력하기 위해 버튼을 서너번 클릭할 필요가 없다. 사용자가 단지 상기 캐릭터의 병음에 따라 버튼 시퀀스를 클릭하면, 입력 방법은 후보 리스트에서 우측 병음 및 우측 캐릭터를 예측한다. 예를 들어, 사용자가 병음 "jin"을 갖는

을 입력하기 원할 때, "5"("jkl"을 나타냄)를 1번 탭해서 "j"를 입력하고, "4"("ghi"를 나타냄) 3번 탭하고 "6"("mno"를 나타냄)을 2번 탭할 필요가 없다. 사용자가 단지 "546"을 탭하면, 입력 방법은 예측 병음 "jin" 및 대응 예측 한자 후보들

을 제공한다. 가장 전형적인 입력 방법에 따란 한자

을 입력하는 T9의 입력 시퀀스는 도 9a에 도시되어 있다.

현행의 이동 단말기(mobile terminal)의 경우, 사용자는 중국어 캐릭터를 각각 입력해야만 한다. 몇몇 입력 방법이 사용자 입력에 따라 예측 결과를 제공할 수 있더라도, 실제로 캐릭터별로 예측을 제공한다. 각각의 캐릭터에 대해, 사용자는 버튼을 수회 클릭해야만 하며 적어도 하나의 가시적 검증을 해야만 한다. 따라서, 문장 레벨 및 워드 레벨 예측 결과를 제공할 수 있는 방법 및 상기 방법을 사용하는 장치를 발명하고자 시도중이다.

상술된 바와 같이, T9 및 iTap은 현재 이동 단말기에서 가장 흔히 사용되는 입력 방법들이다. 그러나, 상기 방법들의 속도는 대부분의 사용자들을 만족시키지 못한다. 싱글 캐릭터를 입력하는데도 수회 클릭이 요구되며, 보다 중요하게는, 다수의 상호 작용들이 요구된다.

상기 문제점의 중요 이유는 중국어 입력 방법에 적용되는 대부분의 현 디지털 키보드들이 단지 캐릭터-기반이기 때문이다(미국 특허 출원 2003-0027601). 중국에서는, 워드들 간에 명백한 경계가 없고, 워드 정의가 명백하지 않기 때문이다. 따라서, 상기 입력 방법들은 영어 버전에 대응하는 "워드"로서 싱글 캐릭터를 처리하도록 선택한다. 그러나, 이러한 필연성은 싱글 캐릭터의 디지털 시퀀스에 따른 어마어마한 수의 여분의 캐릭터들을 야기한다. 따라서, 상당히 속도가 느려진다. 또한, 예측이 싱글 캐릭터에 따라서만 달성될 수 있기에, 캐릭터-기반 입력 방법들은 워드 예측 효과를 어느 정도로 제한한다. 이는 이동 핸드셋(mobile handset)의 현재의 입력 방법이 사용자 입력 디지털 시퀀스를 캐릭터 후보 리스트로 전송할 수만 있음을 의미한다. 그 후, 사용자는 후보 리스트에서 정확한 캐릭터를 선택해야만 한다. 사용자는 계속해서 워드 또는 문장을 입력할 수 없다.

예를 들어, 사용자가 워드

을 입력하기 원한다고 하자. 먼저, 사용자는 캐릭터

에 대한 병음 "jin"을 의미하는 "546"을 디지털 키보드에서 입력한다. 후보 리스트

가 사용자에게 디스플레이된다. 그 다음, 사용자는 리스트에서 정확한 캐릭터

를 선택해야만 한다. 그 후, 캐릭터

에 이어 질 수 있는 후보 리스트

가 사용자에게 디스플레이된다. 사용자는 리스트에서 정확한 캐릭터

을 선택해야만 한다. 중국어 워드

을 입력하는 T9의 입력 시퀀스가 도 9b에 도시되어 있다.

PC 플랫폼에는, 마이크로소프트 병음, 자광병음

및 지능광병

등과 같은 PC 키보드에 기초한 다수의 진보 고속 입력 방법들이 있다. 그들 중 몇몇은 문장 레벨 예측을 제공할 수 있으며, 상기 모든 입력 방법들은 워드 레벨 예측을 제공할 수 있다. 문장 레벨 예측을 제공할 수 있는 입력 방법의 경우, 사전 크기가 매우 크다. 예를 들어, 마이크로소프트 병음은 20 내지 70MB를 필요로 하고, 지능광병은 최대 100MB를 필요로 한다. 예측 문장을 제공할 수 있는 워드 기반 통계 언어 모델(통상 워드 바이그램 모델(Word Bi-gram model) 또는 워드 트리그램 모델(Word tri-gram model))을 형성하기 위해 통계 언어 모델(SLM)을 모두 채택한다. 이러한 종류의 SLM이 선정된 어휘집을 사용하고 다수의 워드 바이그램 또는 워드 트리그램 엔트리들을 사전에 저장하는 반면, 사전 크기는 이동 단말기에서 전개되기에는 너무 크다. 이동 단말기 플랫폼에서 예측 속도는 매우 느리다.

다른 단점은 거의 모든 입력 방법들이 어휘집을 갖지 않거나 단지 선정된 어휘집을 갖는다는 점이다. 따라서, 언어에서 빈번히 사용되는, 예를 들어

와 같은 몇몇 중요 워드들 및 구절들이 계속해서 입력될 수 없다. .

따라서, 본 발명은 상술된 문제점들의 관점에서 달성된 것으로, 본 발명의 목적은 사전 학습 방법 및 사전 학습 방법을 사용하는 장치를 제공하려는데 있다. 또한, 본 발명은 입력 방법 및 입력 방법을 사용하는 사용자 단말기 장치를 제공한다. 장치는 자료로부터 사전을 학습한다. 학습된 사전은 자료로부터 학습된 다수의 주요 워드들 및 구절들을 포함하는 정련된 어휘집을 포함한다. 사전이 후술되는 입력 방법에 적용되는 중에, 품사 정보 및 품사 바이그램 모델을 더 포함한다. 사용자 단말기 장치는 사전을 탐색하기 위해 패트리샤 트리(일종의 트리형 데이터 구조) 인덱스를 사용한다. 사용자 입력을 수신하고 사전 탐색 결과들을 근거로 문장 및 워드 예측을 제공한다. 상기 워드 예측은 현 워드 후보 리스트 및 예측 워드 후보 리스트를 포함한다. 모든 결과들은 사용자에게 디스플레이된다. 이는 사용자가 계속해서 상기 워드 또는 문장에 대응하는 디지털 시퀀스를 입력함으로써 워드 또는 문장을 입력할 수 있음을 의미한다. 사용자는 모든 캐릭터에 대한 디지털 시퀀스를 입력하고 후보 리스트에서 정확한 캐릭터를 선택할 필요가 없다. 따라서, 입력 속도가 매우 향상된다.

본 발명의 제1 양상에 따라, 비태그화 자료로부터 어휘집 및 통계 언어 모델을 학습하는 단계; 어휘집, 통계 언어 모델 및 보조 워드 인코딩 정보를 사전으로 통합하는 단계를 포함하는 사전 학습 방법이 제공된다.

본 발명의 제2 양상에 따라, 상기 방법은 어휘집의 각각의 워드에 대한 품사 정보 및 품사 태그화 자료로부터의 품사 바이그램 모델을 획득하는 단계; 및 품사 정보 및 품사 바이그램 모델을 사전에 추가하는 단계를 더 포함한다.

본 발명의 제3 양상에 따라, 사전을 학습하는 사전 학습 프로세싱 모듈; 비태그화 자료를 저장하는 메모리 유닛; 장치의 각각의 파트를 제어하는 제어 유닛을 포함하는 사전 학습 장치가 제공되는데, 상기 사전 학습 프로세싱 모듈은 비태그화 자료로부터 어휘집 및 통계 언어 모델을 학습하는 어휘집 및 통계 언어 모델 학습 유닛; 및 어휘집, 통계 언어 모델 및 보조 워드 인코딩 정보를 사전으로 통합하는 사전 통합 유닛을 포함한다.

본 발명의 제4 양상에 따라, 사전 학습 장치의 메모리 유닛은 품사 태그화 자료를 더 포함하고, 사전 학습 프로세싱 모듈은 어휘집의 각각의 워드에 대한 품사 정보 및 품사 태그화 자료로부터의 품사 바이그램 모델을 획득하는 품사 학습 유닛; 및 품사 정보 및 품사 바이그램 모델을 사전에 추가하는 사전 통합 유닛을 더 포함한다.

본 발명의 제5 양상에 따라, 사용자 입력을 처리하기 위한 입력 방법이 제공되는데, 상기 방법은 사용자 입력을 수신하기 위한 수신 단계; 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하기 위한 해석 단계를 포함하는데, 사전의 각각의 워드에 대한 상기 인코딩 정보는 사전을 근거로 미리 획득되고; 사전의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스를 사용해서 문장 및 워드 예측을 제공하고, 인코딩 정보 또는 사용자 액션이 수신될 때, 문장 및 워드 예측을 사용자 액션에 따라 조정하기 위한 사용자 입력 예측 및 조정 단계; 문장 및 워드 예측 결과를 디스플레이하기 위한 디스플레이 단계를 포함한다.

본 발명의 제6 양상에 따라, 사용자 입력을 처리하기 위한 사용자 단말기 장치가 제공되는데, 상기 장치는 사용자 입력을 수신하는 사용자 입력 단말기; 패트리샤 트리 인덱스를 포함하는 사전 인덱스 및 사전을 저장하는 메모리 유닛; 사용자 입력을 근거로 문장 및 워드 예측을 제공하는 입력 프로세싱 유닛; 및 문장 및 워드 예측의 결과를 디스플레이하는 디스플레이를 포함하고; 입력 프로세싱 유닛은 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하는 입력 인코딩 인터프리터를 포함하는데, 사전의 각각의 워드에 대한 인코딩 정보는 사전을 근거로 미리 획득되며; 사전의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스를 사용해서 문장 및 워드 예측을 제공하고, 인코딩 정보 또는 사용자 액션이 수신될 때, 사용자 액션에 따라 문장 및 워드 예측을 조정하는 사용자 입력 예측 및 조정 모듈을 포함한다.

본 발명에 따라, 소형 사이즈의 학습된 사전을 사용해서 문장 레벨 예측 및 워드 레벨 예측을 제공할 수 있다. 사전은 본 발명의 제4 양상의 사전 학습 장치에 의해 학습된다. 사전 학습 장치는 자료로부터 대량의 주요 정보를 추출하고 소형 사이즈로 저장될 수 있는 특별 콘텐츠 및 구조로 유지한다. 이동 핸드셋들의 종래의 입력 방법과 달리, 본 발명의 기본 입력 유닛은 "워드"이다. 본 명세서에서 "워드"는 자료로부터 학습된 "구절"을 포함한다. 사전의 콘텐츠 및 구조를 근거로, 입력 방법은 문장 레벨 및 워드 레벨 예측을 제공할 수 있다. 따라서, T9 및 iTap과 같은 종래의 입력 방법과 비교해서, 입력 속도가 향상된다.

문장 및 워드 예측을 제공할 수 있지만 선정된 어휘집 및 대응하는 다수의 워드 바이그램 엔트리들 또는 워드 트리그램 엔트리들을 저장하기 위해 대형 사전을 사용하는 마이크로소프트 병음(Pinyin)과 같은 PC 베이스 입력 방법과 비교해서, 본 발명은 최적화된 어휘집 및 대응 워드 유니그램(Word Uni-gram)으로 추출된 중요 언어 정보만을 저장하는 사전을 학습한다. 따라서, 사전의 모든 정보는 언어 프로세스에 있어 필수 정보이며 훨씬 적은 저장 비용을 요구한다. 본 발명의 장점들은 다음과 같이 상세히 기술된다:

1. 정련된 어휘집을 포함하는 사전이 학습될 수 있다. 정련된 어휘집은 자료로부터 학습된 다수의 주요 워드들 및 구절들을 포함한다.

2. 학습된 사전은 정련된 어휘집 및 몇몇 품사 정보를 포함한다. 문장 및 워드 예측 제공을 도울 수 있는 사전은 이동 핸드셋에서 전개될만큼 충분히 작다.

3. 사전은 패트리샤 트리 인덱스를 사용해서 인덱싱된다. 그것은 워드들을 신속하게 검색하도록 돕는다. 따라서, 문장 및 워드 예측은 쉽고 신속하게 달성될 수 있다. 상술된 장점들로 인해, 입력 속도가 향상될 수 있다.

본 발명의 앞서의 및 그외의 특징들 및 이점들은, 첨부 도면들을 참조하여 이하의 상세하게 기술된 양호한 실시예들에 의해 당업자에게 더 명백해질 것이다.

본 발명의 사전 학습 장치(dictionary learning device)와 사용자 단말기 장치 간의 관계를 도시한 개략적인 블록도가 도 1을 참조해서 설명될 것이다. 사전 학습 장치(1)는 컴퓨터 판독 가능 사전(2)을 학습한다. 사용자 단말기 장치(3)는 사용자 입력 텍스트를 돕기 위해 사전을 사용한다. 사전 학습 장치(1) 및 사용자 단말기 장치(3)는 몇몇 의미에서 독립적이다. 사전 학습 장치(1)로부터 트레이닝된 사전(2)은 다른 애플리케이션에서 사용될 수 있다. 사전 학습 장치(1)는 특별 사전 학습 방법 및 특별 사전 구조를 사용해서 사용자가 신속하게 입력할 수 있는 소형 사전을 생성한다.

도 2a는 사전 학습 장치(1)에 의해 학습된 사전의 개략 구조의 일례를 도시한다. 본 일례에서, 파트 2는 다수의 워드 엔트리들(파트(21))을 포함한다. 상기 워드 엔트리는 "워드"(예를 들어,

)뿐만 아니라 "구절"(예를 들어,

,

)을 위한 것이기도 하다. 상기 "구절"은 실제로 복합어(워드 시퀀스로 구성됨)이다. 이하의 설명에서 불편함을 방지하기 위해, 용어 "워드"는 종래의 "워드" 및 종래의 "구절" 둘 다를 말한다. 몇몇 다른 워드 일례들은

,

을 포함한다. 파트(21)는 워드 부명제(파트(211)), 워드 유니그램(파트(212)), 상기 워드의 수개의 품사(파트(213)) 및 품사의 대응 확률들(파트(214)), 몇몇 보조 워드 인코딩 정보(파트(215))를 포함한다. 파트(215)는 병음(중국어용 발음) 인코딩 정보 또는 스트로크 인코딩 정보 또는 다른 워드 인코딩 정보일 수도 있다. 파트(21)에 추가될 파트(215)의 종류는 애플리케이션에 좌우된다. 후술되는 몇몇 일례들에서, 파트(21)는 파트(215)를 포함하지 않을 수도 있다. 마지막으로, 파트(22), 품사 바이그램 모델이 본 일례에 포함된다. 이는 또한 애플리케이션에 좌우되며, 다른 일례들에서 포함되지 않을 수도 있다. 본 기술 분야에 숙련된 자들에게 명백한 바와 같이, 사전(2)은 중국어에만 제한되지 않으며, 중국어가 아닌 임의의 다른 종류의 사전일 수도 있다. 일본어의 경우, 사전의 모든 파트들은 보조 워드 인코딩 정보(파트(215))가 병음 인코딩 정보 대신 히라가나 인코딩 정보인 것만 제외하고 중국어와 동일하다. 예를 들어, 워드

의 경우, 히라가나 인코딩 정보는

이다. 영어의 경우, 모든 파트들은 영어 워드 인코딩 정보가 단지 워드의 캐릭터 시퀀스이기 때문에 보조 워드 인코딩 정보(파트(215))가 생략되어야 하는 점을 제외하고 중국어와 동일하다. 한국어의 경우, 모든 파트들은 보조 워드 인코딩 정보(파트(215))가 병음 인코딩 정보 대신 한국어 스트로크 인코딩 정보라는 점을 제외하고 중국어와 동일하다. 예를 들어, 워드 "휴대폰"의 경우, 한국어 스트로크 인코딩 정보는

이다. 상기 사전은 후술되는 도 4a에 도시된 일례의 장치에 의해 학습된다.

도 2b는 사전 학습 장치(1)에 의해 학습된 사전의 개략 구조의 다른 일례를 도시한다. 도 2a에 도시된 일례와 비교해서, 워드의 품사(파트(213)), 품사의 대응 확률들(파트(214)) 및 품사 바이그램 모델(파트(22))은 본 일례에서 생략된다. 본 사전은 제1 일례 보다 더 광범위하게 사용될 수 있다. 수기 및 음성 인식 포스트-프로세싱, 입력 방법 및 다수의 다른 언어 관련 애플리케이션에서 사용될 수 있다. 본 사전은 후술되는 도 4b에 도시된 일례의 장치에 의해 학습된다.

이제, 사전을 학습하는 사전 학습 장치(1)가 도 3 및 도 4a를 참조해서 기술될 것이다. 도 3 및 도 4a에 도시된 바와 같이, 사전 학습 장치(1)는 CPU(101), 액세서리(102), 메모리(104) 및 하드 디스크(105)를 포함하는데, 모두 내부 버스(103)를 통해 연결된다. 메모리(104)는 운영 체제(1041), 사전 학습 프로세싱 모듈(1042) 및 다른 애플리케이션들(1043)을 저장한다. 하드 디스크(105)는 자료(1051), 사전 학습 파일들(1052) 및 다른 파일들(도시되지 않음)을 저장한다. 상기 장치에 의해 학습된 사전(2)도 또한 하드 디스크(105)에 저장된다. 자료(1051)는 예를 들어, 비태그화 자료(untagged corpus)(12) 및 품사 태그화 자료(Part-of-Speech tagged corpus)(13)를 포함한다. 사전 학습 파일들(1052)은 어휘집(11) 및 통계 언어 모델(14)을 포함한다. 사전 학습 프로세싱 모듈(1042)은 어휘집 및 통계 언어 모델 학습 유닛(15), 품사 학습 유닛(16) 및 사전 통합 유닛(17)을 포함한다.

최종 사전(2)은 사전 학습 프로세싱 모듈(1042)에 의해 트레이닝된다. 사전학습 프로세싱 모듈(1042)은 자료(1051)를 판독하고 어휘집(11) 및 통계 언어 모델(14)을 하드 디스크(105)에 기록하며, 마지막으로, 사전(2)을 하드 디스크(105)에 출력한다.

어휘집(11)은 워드 부명제들(word lemmas)의 집합으로 이루어진다. 처음에, 언어의 통상 종래 "워드"를 구성하는 일반 어휘집이 어휘집(11)으로서 사용될 수 있다. 어휘집 및 통계 언어 모델 학습 파트(lexicon and Statistical Language Model learning part)(15)는 최종 어휘집 및 통계 언어 모델을 학습할 것이고, 어휘집(11)은 상기 프로세스 중에 정련될 것이다. 몇몇 중요하지 않은 워드들은 삭제되고 몇몇 중요 워드들 및 구절들이 어휘집(11)에 추가된다. 비태그화 자료(12)는 워드 시퀀스로 분할되지 않지만 다수의 문장들을 포함하는 다수의 텍스트들을 갖는 자료이다(영어의 경우, 문장은 스페이스와 같은 몇몇 "토큰"에 의해 "워드" 시퀀스로 분리될 수 있음. 워드 시퀀스의 상기 워드들은 단지 종래의 "워드"들이며, 본 설명에서 "워드"라고도 하는 종래의 "구절들"을 포함하지는 않음). 어휘집 및 통계 언어 모델 학습 유닛(15)은 어휘집(11) 및 비태그화 자료(12)를 처리하고, 그 후 통계 언어 모델(14)(처음에는 존재하지 않음)이 생성된다. 통계 언어 모델(14)은 워드 트리그램 모델(141) 및 워드 유니그램 모델(142)을 포함한다. 어휘집 및 통계 언어 모델 학습 유닛(15)은 통계 언어 모델(14)의 정보를 사용해서 어휘집(11)을 정련한다. 어휘집 및 통계 언어 모델 학습 유닛(15)은 상기 프로세스를 반복해서, 최종 어휘집(11) 및 최종 워드 유니그램 모델(142)을 생성한다.

품사 태그화 자료(13)는 대응 품사에 의해 태그화되는 워드들의 시퀀스를 갖는 자료이다. 통상, 그것은 수동으로 생성되어서, 크기가 제한된다. 품사 학습 유닛(16)은 품사 태그화 자료(13)의 워드 시퀀스를 스캔한다. 어휘집(11)을 근거로, 품사(16)는 어휘집의 각각의 워드에 대한 품사 정보를 통계화한다. 워드의 모든 품사(사전(2) 내의 파트(213)) 및 대응 확률들(사전(2) 내의 파트(214))이 카운트된다. 워드 시퀀스에서 발생하지 않은 어휘집(11) 내의 워드의 경우, 수동으로 품사 및 대응 확률 1을 제공한다. 품사 바이그램 모델(사전(2) 내의 파트(22))은 본 프로세스에서 공통 바이그램 모델 계산 방법을 사용해서 제공된다.

워드 유니그램 모델(142), 어휘집(11) 및 품사 학습 유닛(16)에 의해 제공되는 몇몇 정보를 사용해서, 사전 통합 유닛(17)은 모든 데이터를 통합하고 몇몇 애플리케이션-요구 보조 워드 인코딩 정보(사전(2) 내의 파트(215))를 추가해서, 도 2a에 도시된 최종 사전(2)이 생성된다.

사전을 학습하는 사전 학습 장치(1)의 다른 일례가 도 3 및 도 4b를 참조해서 기술될 것이다. 도 3 및 도 4a에 도시된 일례와 비교할 때, 자료(1051)는 비태그화 자료(12)만을 포함한다. 사전 학습 프로세싱 모듈(1042)은 품사 학습 유닛(16)을 포함하지 않는다. 따라서, 품사 관련 정보는 본 일례에서 고려되지 않는다. 사전 통합 유닛(17)은 워드 트리그램 모델(141), 워드 유니그램 모델(142), 어휘집(11) 및 몇몇 애플리케이션-요구 보조 워드 인코딩 정보(사전(2) 내의 파트(215))를 기술된 도 2b와 같이 최종 사전(2)으로 통합한다.

도 5는 어휘집 및 통계 언어 모델 학습 유닛(15)에 의해 구현되는 어휘집 및 통계 언어 모델을 학습하는 프로세스를 설명하는 플로우챠트이다. 먼저, 비태그화 자료(12)는 단계(151)에서 워드 시퀀스로 분할된다. 상기 분할 단계에는 몇몇 상이한 방법들이 있다. 제1 일례는 단지 어휘집을 근거로 최대 매칭을 사용해서 자료(12)를 분할한다. 제2 일례는 워드 유니그램 모델(142)이 존재하는 경우 워드 유니그램 모델(142)을 근거로 최대 가능성을 사용해서 자료(12)를 분할한다. 최대 가능성은 수학식 1에 도시된 표준 분할 측정값이다:

수학식 1에서,

는 워드 시퀀스

를 나타낸다.

는 상기 워드 시퀀스의 가능성의 확률을 나타낸다. 최적화된 워드 시퀀스는

이다.

단계(152)에서, 분할된 워드 시퀀스가 수신되고 워드 트리그램 모델(141) 및 워드 유니그램 모델(142)을 포함하는 통계 언어 모델(14)이 종래의 SLM 생성 방법으로 워드 시퀀스를 근거로 생성된다.

단계(153)에서, 단계(152)에서 생성된 워드 트리그램 모델이 단계(151)에서 생성된 워드 시퀀스의 혼란성(perplexity)을 평가하는데 사용된다. 만약 상기 단계가 처음으로 혼란성을 계산하는 것이면, 프로세스는 단계(154)로 직접 진행한다. 아니면, 새로 획득된 혼란성이 구 혼란성과 비교된다. 혼란성이 선정된 임계값보다 큰 값으로 감소하면, 프로세스는 단계(154)로 진행하고; 그렇지 않으면, 프로세스는 단계(155)로 진행한다.

단계(154)에서, 자료(12)는 새롭게 생성된 워드 트리그램 모델(141)에 의해 최대 가능성을 사용해서 워드 시퀀스로 다시 분할되며, 단계(152)가 실행된다.

단계(155)에서, 몇몇 새로운 워드들이 어휘집에 추가되고, 어휘집의 중요하지 않은 몇몇 워드들이 통계 언어 모델의 몇몇 정보를 근거로 어휘집에서 제거된다. 따라서, 어휘집이 정련된다. 어휘집 정련 방법은 후술될 것이다. 새로운 워드는 통상 워드 트리그램 모델(141)의 트리그램 엔트리 또는 바이그램 엔트리인 워드 시퀀스를 포함하는 워드이다. 일례:

,

및

이 모두 현 어휘집의 워드들이면, 바이그램 엔트리

또는 트리그램 엔트리

이 정련된 어휘집의 새로운 워드로 될 수 있다. 둘 다 추가되면, 정련된 어휘집은 워드

및

를 둘 다 포함해야만 한다.

단계(156)에서, 어휘집이 평가된다. 어휘집이 단계(155)에서 변경되지 않았으면(새로운 워드가 추가되지 않았거나 중요하지 않은 워드가 삭제되지 않은 경우), 어휘집 및 통계 언어 모델 학습 유닛(15)은 프로세스를 정지한다. 그렇지 않으면, 프로세스는 단계(157)로 진행한다.

단계(157)에서, 워드 트리그램 모델(141) 및 워드 유니그램 모델(142)은 새롭게 생성된 어휘집에 대응하지 않기 때문에 이때 유효하지 않다. 워드 유니그램 모델은 새로운 어휘집에 따라 갱신된다. 새로운 워드의 워드 유니그램 발생 확률은 워드 트리그램 모델에서 획득된다. 또한, 삭제될 워드 유니그램 엔트리가 삭제된다. 마지막으로, 워드 트리그램 모델(141)이 삭제되고, 단계(151)가 반복된다.

도 6은 본 발명에 따른 어휘집 정련의 플로우챠트를 도시한다. 어휘집 정련이 개시될 때, 두가지 경로들이 있다. 하나는 단계(1551)로 진행하는 것이고, 다른 하나는 단계(1554)로 진행하는 것이다. 어떠한 경로든 먼저 선택될 수 있다.

먼저, 모든 트리그램 엔트리들(예를 들어,

) 및 바이그램 엔트리들(예를 들어,

)이 단계(1551)에서 발생 카운트 임계값에 의해 필터링된다. 예를 들어, 자료에서 100회 이상 발생된 모든 엔트리들이 새로운 워드 후보 리스트로 선택된다. 따라서, 새로운 워드 후보 리스트가 생성된다. 단계(1552)에서, 모든 워드 후보들이 상호 정보 임계값에 의해 필터링된다. 상호 정보는 다음과 같이 정의된다:

는 워드 시퀀스

의 발생 빈도를 나타낸다. 여기서,

는 새로운 워드 후보이고, n은 2 또는 3이다. 예를 들어,

,

및

의 경우, 후보

의 상호 정보(mutual information)는

이다. 상호 정보가 임계값보다 작은 모든 후보들이 후보 리스트에서 제거된다.

단계(1553)에서, 새로운 워드 후보 리스트의 각각의 후보의 상대 엔트로피가 계산된다. 상대 엔트로피는 다음과 같이 정의된다:

P(w₁,w₂ _,...,w_n)는 현 워드 트리그램 모델에 의해 제공된 워드 시퀀스

의 가능성 확률이다. 그 후, 단계(1553)에서, 모든 후보들이 상대 엔트로피 내림 차순으로 정렬된다.

단계(1557)로 가기 전에, 우 경로(단계(1554~1556))가 먼저 처리되어야만 한다. 우측 경로는 중요하지 않은 몇몇 워드들(예를 들어,

) 및 몇몇 "거짓 워드들"을 제거하는 것이다. 워드 시퀀스가 새로운 워드로서 추가될 때, "거짓 워드"(예를 들어,

)가 있을 수도 있다. 따라서, 몇몇 어휘집 엔트리들은 제거될 필요가 있다.

어휘집 내의 모든 워드들이 단계(1554)에서, 발생 카운트 임계값에 의해 필터링된다. 예를 들어, 어휘집에서 100회 미만으로 발생된 모든 워드들은 삭제된 워드 후보 리스트로 선택된다. 삭제된 워드 후보 리스트가 생성된다.

단계(1555)에서, 삭제된 워드 후보 리스트의 각각의 워드는 다른 워드들의 시퀀스로 분할된다. 예를 들어,

는

,

로 분할된다. 분할 방법은 단계(152) 또는 단계(154)에서 기술된 방법과 유사하다. 상기 두 단계들의 임의의 방법이 사용될 수 있다.

단계(1553)와 유사하게, 각각의 후보의 상대 엔트로피가 단계(1556)에서 계 산된다. 그 후, 모든 후보들이 상대 엔트로피 오름 차순으로 정렬된다.

단계(1557)에서, 두 워드 후보 리스트(하나는 새로운 워드들을 위한 것이고, 다른 하나는 삭제될 워드들을 위한 것임)를 근거로 얼마나 많은 새로운 워드 후보들(새로운 워드 후보 리스트에 있음)이 추가되어야 하고 얼마나 많은 삭제 워드 후보들(삭제 워드 후보 리스트에 있음)이 삭제되어야 하는지를 결정하기 위한 기법이 채택된다. 상기 기법은 규칙이거나 규칙 집합일 수 있으며, 예를 들어, 상대 엔트로피에 대한 임계값을 사용하거나, 어휘집의 워드들의 총 수를 측정값으로서 사용하거나, 상기 규칙들 둘 다를 사용한다. 최종적으로, 어휘집이 갱신된다.

어휘집 정련 실행은 매우 중요하다. 본 어휘집 정련 프로세스에서, 본래 단지 몇몇 워드 시퀀스들인 몇몇 중요 구절들은 어휘집에 새로운 워드들로서 추가되고, 따라서, 고유 워드 유니그램 모델에 존재하지 않는 몇몇 중요 언어 정보가 최종 워드 유니그램 모델로 추출될 수 있다. 또한, 중요하지 않은 몇몇 언어 정보가 고유 워드 유니그램 모델로부터 삭제된다. 따라서, 최종 워드 유니그램 모델은 소형 사이즈를 유지할 수 있으나, 언어 예측에 있어 훨씬 더 양호한 성능을 갖는다. 따라서, 소형 사이즈 사전이 획득될 수 있으며, 본 발명은 소형 사이즈 사전을 사용해서 워드 및 문장 예측에 있어 양호한 성능을 제공할 수 있다.

도 7은 본 발명의 제1 실시예에 따른 사용자 단말기 장치의 블록도를 도시한다. 도 7에 도시된 바와 같이, 프로세서(31), 사용자 입력 단말기(32), 디스플레이(33), RAM(35) 및 ROM(플래시)(36)이 버스(34)를 통해 연결되며 상호 작용한다. 입력 인코딩 인터프리터(362), 사전 인덱싱 모듈(363), 사용자 입력 예측 및 조정 모듈(364)이 입력 프로세싱 유닛(3601)을 구성한다. 입력 프로세싱 유닛(3601), 사전(2), 사전 인덱스(366), 운영 체제(361) 및 다른 애플리케이션들(365)이 ROM(36)에 존재한다.

도 8a 내지 도 8d는 본 발명에 의해 사용되는 사용자 단말기 장치의 전형적인 키보드들의 4개의 개략도들을 도시한다. 사용자 입력 단말기(32)는 임의의 타입의 사용자 입력 장치일 수 있다. 사용자 입력 단말기(32)의 한 일례는 도 8a에 도시된 바와 같이, 각각의 디지털 버튼이 수개의 병음 코드들을 나타내는 디지털 키보드이다. 버튼(321)은 병음 캐릭터 "g" 또는 "h" 또는 "i"를 나타내는 디지트 "4"이다. 버튼(322)은 "기능" 버튼이고, 사용자가 이러한 종류의 버튼을 사용해서 몇몇 액션을 취할 수 있다. 예를 들어, 상기 버튼을 수회 클릭해서 정확한 후보를 후보 리스트에서 선택한다. 사용자 입력 단말기의 상기 일례는 또한 영어 입력에서도 사용될 수 있다. 따라서, 각각의 디지털 버튼은 수개의 알파벳 캐릭터를 나타낸다. 사용자 입력 단말기(32)의 다른 일례는 도 8b에 도시된 바와 같이, 각각의 디지털 버튼이 수개의 스트로크 코드들을 나타내는 디지털 키보드이다. 도 8b에서, 버튼(321)은 스트로크 "、"을 나타내는 디지트 "4"이다. 사용자 입력 단말기(32)의 제3 일례는 일본어 입력 방법에서 사용되는 디지털 키보드이다. 상기 일례의 각각의 디지털 버튼은 수개의 히라가나를 나타낸다. 도 8c에서, 버튼(321)은 히라가나 "た" 또는 "ち" 또는 "っ" 또는 "て" 또는 "と"를 나타내는 디지트 "4"이다. 사용자 입력 단말기(32)의 제4 일례는 한국어 입력 방법에서 사용되는 디지털 키보드이다. 상기 일례의 각각의 디지털 버튼은 수개의 한국어 스트로크를 나타낸다. 도 8d에서, 버튼(321)은 한국어 "ㄱ" 또는 "ㅋ" 또는 "ㄲ"을 나타내는 디지트 "4"이다. 사용자 입력 단말기(32)의 제5 일례는 펜 트레이스가 기록될 수 있는 터치 패드이다. 몇몇 사용자 액션들이 몇몇 종류의 펜 터칭 또는 스크린에 의해 기록될 수 있다.

도 10은 도 7에 도시된 사용자 단말기 장치의 입력 프로세싱 유닛의 상이한 섹션들 간의 접속 관계를 도시한 블록도이다. 사용자 입력 예측 및 조정 모듈(364)이 작동하기 전에, 사전 인덱싱 모듈(363)은 사전(2)을 판독하고 사전 인덱스(366)를 ROM(36)에 추가한다. 사전 인덱스(366)는 대응 워드 인코딩 정보를 근거로 사전(2)의 모든 워드 엔트리들에 대한 인덱스이다. 사용자 입력 단말기(32)의 제1 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드

의 병음은 "jintian"이어서, 인코딩 정보는 "5468426"이다. 사용자 입력 단말기(32)의 제2 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드

의 스트로크는

이어서, 인코딩 정보는 "34451134"이다. 사용자 입력 단말기(32)의 제3 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드

의 히라가나는

이어서, 인코딩 정보는 "205#0"이다. 사용자 입력 단말기(32)의 제4 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드 "휴대폰"의 한국어 스트로크는

이어서, 인코딩 정보는 "832261217235"이다. 사용자 입력 단말기(32)의 제5 일례의 경우, 워드의 인코딩 정보는 유니코드 시퀀스이다. 예를 들어, 워드

의 유니코드는 "(4ECA)(5929)"여서, 인코딩 정보는 "(4ECA)(5929)" 이다.

사용자 입력 단말기(32)는 사용자 입력을 수신해서, 버스(34)를 통해 입력 인코딩 인터프리터(362)에 송신한다. 입력 인코딩 인터프리터(362)는 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석해서, 사용자 입력 예측 및 조정 모듈(364)에 전송한다. 상기 인코딩 정보는 한정적이거나 확률론적일 수 있다. 사용자 입력 단말기(32)의 제1 일례의 경우, 입력 인코딩 인터프리터(362)는 병음("a"~"z")의 싱글 캐릭터의 수개의 확률들을 나타내는 유한 디지트 코드("0"~"9")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제2 일례의 경우, 입력 인코딩 인터프리터(362)는 스트로크("―"~"￢")의 캐릭터를 나타내는 유한 디지트 코드("0"~"9")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제3 일례의 경우, 입력 인코딩 인터프리터(362)는 싱글 히라가나의 수개의 확률들을 나타내는 유한 디지트 코드("0"~"9" 및 "#")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제4 일례의 경우, 입력 인코딩 인터프리터(362)는 싱글 한국어 스트로크의 수개의 확률들을 나타내는 유한 디지트 코드("0"~"9")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제5 일례의 경우, 입력 인코딩 인터프리터(362)는 수개의 가능성 있는 유니코드 및 대응 확률들을 나타내는 확률론적 변수로 각각의 펜 트레이스를 해석한다. (본 입력 인코딩 인터프리터(362)는 수기 인식 엔진일 수 있으며, 캐릭터 후보들 및 대응 확률들의 집합으로서 펜 트레이스를 인식한다.)

사용자 입력 예측 및 조정 모듈(364)은 입력 인코딩 인터프리터(362)에 의해 송신된 해석된 인코딩 정보 또는 사용자 액션을 수신한다. 사전(2) 및 사전 인덱스(366)를 근거로, 사용자 입력의 결과들이 생성되고 버스(34)를 통해 디스플레이(33)에 송신된다. 디스플레이(33)는 입력 방법의 결과들 및 입력 방법과 관련된 다른 정보를 사용자에게 디스플레이하는 장치이다. 도 11은 사용자 단말기 장치의 디스플레이(33)의 사용자 인터페이스의 일례를 도시한다.

디스플레이의 본 일례는 입력 상태 정보 영역(331) 및 입력 결과 영역(332)을 포함한다. 영역(331)에서, 사용자 입력(3311)의 디지트 시퀀스 및 입력 방법 상태(3312)가 디스플레이된다. 영역(3311)은 사용자에 의해 이미 입력된 현 디지털 시퀀스를 나타낸다. 영역(3312)은 현 입력 방법이 병음을 위한 디지털 키보드 입력 방법임을 나타낸다. 영역(332)에서, 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 몇몇 결과들이 디스플레이된다. 문장 예측(3321)은 입력 디지털 시퀀스(3311)에 따른 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 예측인 문장이다. 현 워드 후보들(3322)은 입력 디지털 시퀀스(3311)의 음영 파트(현 워드 파트)에 따라 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 모든 현 워드 후보들에 대한 리스트이다. 본 리스트의 모든 후보들은 동일한 워드 인코딩 정보, 즉, 디지털 시퀀스 "24832"를 갖는다. 현 예측 워드 후보들(3323)은 입력 디지털 시퀀스(3311)의 음영 파트(현 워드 파트)에 따라 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 모든 예측 현 워드 후보들에 대한 리스트이다. 본 리스트의 모든 후보들의 워드 인코딩 정보의 처음 4개의 디지트들은 동일한 디지트 시퀀스 "24832"를 갖는다. (

"248323426",

"2483234",

"2483234"). 디스플레이(33)의 레이아웃은 변할 수 있으며 모든 컴포넌트가 제거되거나 변경될 수 있다.

도 12는 사전 인덱싱 모듈(363)에 의해 구현된 패트리샤 트리 인덱스를 생성하는 플로우챠트를 도시한다. 단계(3631)에서, 사전 인덱싱 모듈(363)은 사전(2)을 판독한다. 특정 사용자 입력 단말기(32)에 따라, 각각의 워드에 대한 인코딩 정보가 제공된다. 그 후, 단계(3632)에서, 워드 엔트리들이 인코딩 정보에 의해 먼저 정렬된다. 두개의 워드 엔트리들의 인코딩 정보가 동일하면, 워드 유니그램에 의해 두번째로 정렬된다. 정렬 결과를 근거로, 사전용 패트리샤 트리 인덱스가 생성된다. 패트리샤 트리 인덱스는 다수의 레코드들을 저장하며 레코드들에 대한 고속 연속 탐색을 제공할 수 있다. 마지막으로, 패트리샤 트리 인덱스는 사전 인덱스에 기록된다.

도 13은 본 발명의 정렬 결과 및 패트리샤 트리 인덱스의 일례를 도시한다. 상기 패트리샤 트리 인덱스를 갖는 사전 인덱스(366)를 사용해서, 추가 사용자 입력 액션이 수신될 때 사용자 입력 예측 및 조정 모듈(364)은 고속 워드 탐색을 실행한다. 예를 들어, 먼저 "2"가 제공되면, 사용자 입력 예측 및 조정 모듈(364)은 한 단계에서 노드 "2"에 대해 신속하게 탐색할 수 있고 상기 노드를 메모리에 기록할 수 있다. 다음 단계에서, "3"이 입력될 때, 사용자 입력 예측 및 조정 모듈(364)은 노드 "2"로부터 "23"까지 단지 하나의 단계에서 탐색한다. 각각의 노드에서, 대응 워드 후보들 및 예측 후보들을 계산하기 위한 정보가 쉽게 획득될 수 있다.

도 14는 사용자 단말기 장치(1)의 사용자 입력 예측 및 조정 모듈(364)에 의해 구현되는 사용자 입력 예측 및 조정 프로세스의 플로우챠트를 도시한다. 단계(3641)에서, 사용자 입력 정보는 입력 인코딩 인터프리터(362)로부터 수신되며, 사용자 입력 예측 및 조정 모듈(364)은 수신된 입력 정보가 사용자 액션 또는 인코딩 정보인지를 결정한다. 사용자 액션이면, 단계(3648)가 실행된다. 아니면, 단계(3642)가 실행된다.

단계(3642)에서, 상기 입력 인코딩 정보가 사용되고, 프로세스는 사전 인덱스(366)의 패트리샤 트리 인덱스를 따라 한 단계 앞으로 진행한다. 이는, 사용자 입력 예측 및 조정 모듈(364)이 현 패트리샤 트리 노드들의 리스트를 저장함을 의미한다. 추가 인코딩 정보가 추가될 때, 본 리스트의 노드들을 개시점으로서 사용해서, 단계(3642)는 새로운 패트리샤 트리 노드(들)를 탐색하기 위해 패트리샤 트리 인덱스를 따라 한 단계 앞으로 진행한다. 추가 인코딩 정보가 처음으로 추가되는 인코딩 정보이면, 단계(3642)는 패트리샤 트리의 루트로부터 출발한다. 즉, 도 13의 일례의 패트리샤 트리의 경우, "2"가 제1 인코딩 정보로서 추가되고, 단계(3642)는 루트로부터 패트리샤 트리의 새로운 노드 "2"를 탐색한다. 두번째로, "2" 및 루트 노드는 현 패트리샤 트리 노드들로서 설정된다. "3"이 제2 인코딩 정보로서 추가되면, 단계(3642)에서, 새로운 노드 "23"이 현 노드 "2"로부터 탐색되고, 새로운 노드 "3"이 현 노드의 루트 노드로부터 탐색된다. 세번째로, 노드 "23", 노드 "3" 및 루트 노드가 현 노드드로서 설정될 것이다.

단계(3643)에서, 새로운 노드가 탐색되지 않으면, 프로세스는 단계(3644)로 진행한다. 이는 상기 인코딩 정보가 무효함을 의미한다. 아니면, 프로세스는 단계(3645)로 진행한다.

단계(3644)에서, 인코딩 정보는 무시되며, 모든 결과들 및 상태들은 상기 인코딩 정보가 추가되기 전에 이전 값들로 복원된다. 그 후, 프로세스는 단계(3641)로 리턴해서 다음 사용자 입력 정보를 기다린다.

단계(3645)에서, 새로운 패트리샤 트리 노드들이 수신되고, 현 패트리샤 트리 노드들로서 설정된다. 각각의 현 노드는 모든 입력 인코딩 정보의 가능한 현 워드들의 집합을 나타낸다. 그 후, 문장 예측이 본 단계에서 실행되어 가장 가능성 있는 워드 문장이 결정된다. 가장 가능성 있는 워드 문장이 최종 문장 예측이다. 예를 들어, "2" 및 "3"은 제1 및 제2 사용자 입력 인코딩 정보로서 각각 추가된다. 현 노드들은 "23", "3" 및 루트 노드이다. 인코딩 정보 "23"을 갖는 모든 워드가 단 하나의 워드를 갖는 워드 시퀀스이다. 이는 일종의 가능한 문장이다(

은 가능성 문장이다). 인코딩 정보 "3"을 갖는 모든 워드는 인코딩 정보 "2"를 갖는 워드를 따를 수 있으며, 두 워드 시퀀스들 "2"-"3"을 형성할 수 있다. 이는 다른 종류의 가능한 문장(

은 가능성 있는 문장이고,

도 또한 가능성 있는 문장이다). 가장 가능성 있는 문장을 결정하는 방법은: 인코딩의 워드 시퀀스가 주어진 상황에서, I에 대응하는 가장 가능성 있는 워드 시퀀스

를 찾는 것으로서 표현될 수 있다. 이러한 수학식의 한가지 솔루션은 수학식 4로 표현된다:

은 w₁이 갖는 모든 품사의 집합이다.

은 워드 w_n의 품사 중 하나이다.

질문은 P(S)를 최대화하는 것이다. 수학식 5가 유추될 수 있다:

및

은 각각 품사 유니그램 및 바이그램이다. 품사 바이그램 모델(도 2a에 도시된 사전 내의 파트(22))에 포함된다.

은 워드 유니그램(도 2a에 도시된 사전 내의 파트(212))이다.

은 워드에 따른 품사의 확률(사전의 다이어그램 내의 파트(214))이다.

단계(3646)에서, 문장 예측의 현 워드가 결정된다. 현 워드 후보들 및 예측 현 워드 후보들은 상기 워드의 패트리샤 트리 노드로부터 추론된다. 예를 들어, 문장 예측이

이라고 가정하면, 현 워드는

이다. 그 후, 현 워드에 대한 패트리샤 트리 노드는 노드 "3"이다. 따라서, 현 워드 후보 리스트는 하나의 워드

만을 가지며, 예측 현 워드 후보 리스트는 어떠한 워드도 갖지 않는다.

마지막으로, 디스플레이 결과가 단계(3647)에서 출력되고, 프로세스는 단계(3641)로 돌아가서, 다른 사용자 입력 정보를 기다린다.

사용자 입력 정보가 사용자 액션이면, 단계(3648)는 결과들에 대한 몇몇 대응 조정을 실행한다. 예를 들어, 사용자가 현 워드 후보 리스트로부터 제2 워드를 선택하면, 문장 예측의 현 워드는 선택된 워드를 근거로 새로운 현 워드로 변경되어야 한다. 예를 들어, 사용자가 문장 예측 결과에 대해 "F2"(OK를 의미함)를 클릭하면, 도 11에 도시된 바와 같이, 문장 예측(3321)이 사용자 애플리케이션에 송신되고, 디지털 시퀀스(331) 및 영역(332)의 모든 결과들이 리셋된다.

도 15는 도 8a에 도시된 키보드를 사용하는 사용자 단말기 장치(3)의 일례의 입력 시퀀스를 도시한다. 본 도면에서, 사용자는 사용자 입력 단말기(32)의 제1 일례의 병음을 사용해서 중국어

을 입력한다.

도 16은 본 발명의 제2 실시예에 따른 사용자 단말기 장치의 블록도를 도시한다. 도 7에 도시된 제1 실시예가 하나의 이동 단말기만을 포함하는 반면, 본 실시예는 두 파트들: 이동 단말기 및 컴퓨터를 도시한다. 두 실시예들 간의 차이점은, 본 실시예가 컴퓨터에서 사전 인덱싱 모듈(363)을 전개한다는 점이다. 사전 인덱싱 모듈(363)은 사전(2)을 처리하며 컴퓨터의 디스크에 사전 인덱스(366)를 출력한다. 그 후, 사전(2) 및 사전 인덱스(366)는 이동 단말기의 ROM(플래시)에 전송된다. 전송 프로세스는 이동 단말기 프로바이더에 의해 제공되는 툴에 의해 실행될 수 있다. 그 후, 사용자 입력 예측 및 조정 모듈(364)이 제1 실시예처럼 작동할 수 있다.

상술된 바로부터 알 수 있는 바와 같이, 일례의 실시예들이 상세히 기술되었지만, 본 기술 분야에 숙련된 자들은 첨부된 청구항들에 기재된 본 발명의 범위 및 원리 내에서 다양한 변경들, 추가들 및 치환들이 가능함을 알 것이다.

본 발명에 따라 다음과 같은 장점들이 제공된다.

3. 사전은 패트리샤 트리 인덱스를 사용해서 인덱싱된다. 워드들을 신속하게 검색하도록 돕는다. 따라서, 문장 및 워드 예측은 쉽고 신속하게 달성될 수 있다. 상술된 장점들로 인해, 입력 속도가 향상될 수 있다.

Claims

컴퓨터-구현 사전 학습 방법(a computer-implemented dictionary learning method)으로서,

반복적으로, 비태그화 자료(untagged corpus)를 분할하고, 통계 언어 모델을 생성하고, 어휘집을 정련하는 단계; 및

상기 어휘집, 상기 통계 언어 모델 및 보조 워드 인코딩 정보(subsidiary word encoding information)를 사전에 통합하는 단계

를 포함하는 컴퓨터-구현 사전 학습 방법.
제1항에 있어서,

품사 태그화 자료(Part-of-Speech tagged corpus)로부터 상기 어휘집의 각각의 워드에 대한 품사 정보(Part-of-Speech information) 및 품사 바이그램 모델(Part-of-Speech Bi-gram Model)을 획득하는 단계; 및

상기 품사 정보 및 상기 품사 바이그램 모델을 사전에 추가하는 단계

를 더 포함하는 컴퓨터-구현 사전 학습 방법.
제1항 또는 제2항에 있어서,

상기 보조 워드 인코딩 정보는 중국어 인코딩 정보를 포함하는

컴퓨터-구현 사전 학습 방법.
제1항 또는 제2항에 있어서,

상기 보조 워드 인코딩 정보는 비-중국어 인코딩 정보를 포함하는

컴퓨터-구현 사전 학습 방법.
제3항에 있어서,

상기 중국어 인코딩 정보는 병음(Pinyin) 인코딩 정보 및 스트로크 인코딩 정보 중 적어도 하나를 포함하는

컴퓨터-구현 사전 학습 방법.
제1항 또는 제2항에 있어서,

반복적으로, 비태그화 자료(untagged corpus)를 분할하고, 통계 언어 모델을 생성하고, 어휘집을 정련하는 단계는,

a) 상기 비태그화 자료를 워드 시퀀스로 분할하는 단계;

b) 상기 워드 시퀀스를 사용해서 통계 언어 모델을 생성하는 단계 -상기 통계 언어 모델은 워드 유니그램 모델(Word Uni-gram Model) 및 워드 트리그램 모델(Word Tri-gram Model)을 포함함- ;

c) 혼란성(perplexity)을 계산하고, 상기 혼란성이 처음으로 계산되는 것인지 또는 제1 임계값보다 큰 값으로 감소하는지를 결정하는 단계;

d) c)의 결과가 긍정적인 경우, 워드 트리그램 모델에 의해 상기 자료를 워드 시퀀스로 다시 분할하고 단계 b)를 실행하는 단계;

e) c)의 결과가 부정적인 경우, 새로운 워드들이 추가되고 중요하지 않은 워드들이 제거되도록 상기 통계 언어 모델을 근거로 상기 어휘집을 정련하는 단계; 및

f) 상기 워드 유니그램 모델을 갱신하고, 유효하지 않은 상기 워드 트리그램 모델을 삭제하고, 상기 어휘집이 더 이상 변경되지 않을 때까지 단계 a)를 실행하는 단계

를 포함하는 컴퓨터-구현 사전 학습 방법.
제6항에 있어서,

단계 a)는 수학식
에 따라 상기 비태그화 자료를 분할하고, 여기서
는 워드 시퀀스
를 나타내고,
는 상기 워드 시퀀스의 가능성의 확률을 나타내며, 최적화된 워드 시퀀스는
인

컴퓨터-구현 사전 학습 방법.
제7항에 있어서,

단계 d)는 상기 어휘집을 근거로 최대 매칭을 사용해서 상기 자료를 재분할하는 단계를 포함하는

컴퓨터-구현 사전 학습 방법.
제6항에 있어서,

단계 a)는 상기 어휘집을 근거로 최대 매칭을 사용해서 상기 자료를 분할하는 단계를 포함하는

컴퓨터-구현 사전 학습 방법.
제9항에 있어서,

단계 d)는 상기 어휘집을 근거로 최대 매칭을 사용해서 상기 자료를 다시 분할하는 단계를 포함하는

컴퓨터-구현 사전 학습 방법.
제6항에 있어서, 단계 e)는,

e1) 새로운 워드 후보 리스트를 형성하기 위해, 제1 발생 카운트 임계값에 의해 모든 트리그램 엔트리들(Tri-gram entries) 및 바이그램 엔트리들(Bi-gram entries)을 필터링하는 단계;

e2) 제1 후보들로서, 상호 정보 임계값에 의해 상기 새로운 워드 후보 리스트로부터의 모든 후보들을 필터링하는 단계;

e3) 상기 새로운 워드 후보 리스트 내의 모든 제1 후보들의 상대 엔트로피(Relative Entropy)를 계산하고 이들을 상대 엔트로피 내림차순으로 정렬하는 단계;

e4) 삭제된 워드 후보 리스트를 형성하기 위해, 제2 발생 카운트 임계값에 의해 상기 어휘집 내의 모든 워드들을 필터링하는 단계;

e5) 상기 삭제된 워드 후보 리스트 내의 각 워드를, 제2 후보로서, 상기 어휘집의 일련의 다른 워드들로 분할하는 단계;

e6) 상기 삭제된 워드 후보 리스트 내의 모든 제2 후보들의 상대 엔트로피를 계산하고 상대 엔트로피 오름차순으로 정렬하는 단계;

e7) 추가되어야 하는 상기 제1 후보들의 수 및 삭제되어야 하는 상기 제2 후보들의 수를 결정하고 상기 어휘집을 갱신하는 단계

를 포함하는 컴퓨터-구현 사전 학습 방법.
제11항에 있어서,

단계 e2)는 수학식

에 따라 모든 후보들의 상기 상호 정보를 계산하는 단계를 포함하고, 여기서
는 워드 시퀀스이고,
는 워드 시퀀스
의 발생 빈도를 나타내며, n은 2 또는 3인

컴퓨터-구현 사전 학습 방법.
사전 학습 장치로서,

사전을 학습하는 사전 학습 프로세싱 모듈;

비태그화 자료를 저장하는 메모리 유닛; 및

상기 장치의 각각의 파트를 제어하는 제어 유닛

을 포함하고,

상기 사전 학습 프로세싱 모듈은,

반복적으로, 상기 비태그화 자료(untagged corpus)를 분할하고, 통계 언어 모델을 생성하고, 어휘집을 정련하는 어휘집 및 통계 언어 모델 학습 유닛; 및

상기 어휘집, 상기 통계 언어 모델 및 보조 워드 인코딩 정보를 사전에 통합하는 사전 통합 유닛을 포함하는

사전 학습 장치.
제13항에 있어서,

상기 메모리 유닛은 품사 태그화 자료를 더 저장하고,

상기 사전 학습 프로세싱 모듈은,

품사 태그화 자료로부터 상기 어휘집의 각각의 워드에 대한 품사 정보 및 품사 바이그램 모델을 획득하는 품사 학습 유닛; 및

상기 품사 정보 및 상기 품사 바이그램 모델을 상기 사전에 추가하는 상기 사전 통합 유닛을 더 포함하는

사전 학습 장치.
제13항 또는 제14항에 있어서,

상기 어휘집 및 통계 언어 모델 학습 유닛은,

상기 비태그화 자료를 워드 시퀀스로 분할하고;

상기 워드 시퀀스를 사용해서 상기 통계 언어 모델을 생성하고 -상기 통계 언어 모델은 워드 유니그램 모델 및 워드 트리그램 모델을 포함함-,

혼란성이 처음으로 계산되는 것이 아니고 제1 임계값 보다 작은 수로 감소될 때까지, 상기 자료를 상기 워드 트리그램 모델에 의해 워드 시퀀스로 재분할하고, 상기 워드 시퀀스를 사용해서 상기 통계 언어 모델을 생성하는 것을 반복하고;

새로운 워드들이 추가되고 중요하지 않은 워드들이 제거되도록 상기 통계 언어 모델을 근거로 상기 어휘집을 정련하고;

상기 워드 유니그램 모델을 갱신하고, 유효하지 않은 워드 트리그램 모델을 삭제하며 상기 어휘집이 더 이상 변경되지 않을 때까지 상기 비태그화 자료를 워드 시퀀스로 분할하는 것을 반복함으로써,

상기 어휘집 및 상기 통계 언어 모델을 상기 비태그화 자료로부터 학습하는

사전 학습 장치.
제15항에 있어서,

상기 어휘집 및 통계 언어 모델 학습 유닛은,

새로운 워드 후보 리스트를 형성하기 위해, 제1 발생 카운트 임계값에 의해 모든 트리그램 엔트리들 및 바이그램 엔트리들을 필터링하고;

제1 후보들로서, 상호 정보 임계값에 의해 상기 새로운 워드 후보 리스트로부터의 모든 후보들을 필터링하고;

상기 새로운 워드 후보 리스트의 모든 제1 후보들의 상대 엔트로피를 계산하고 이들을 상대 엔트로피의 내림차순으로 정렬하고;

삭제된 워드 후보 리스트를 형성하기 위해, 제2 발생 카운트 임계값에 의해 상기 어휘집의 모든 워드들을 필터링하고;

상기 삭제된 워드 후보 리스트의 각각의 워드를 제2 후보들로서 상기 어휘집 내의 일련의 다른 워드들로 분할하고;

상기 삭제된 워드 후보 리스트 내의 모든 제2 후보들의 상대 엔트로피를 계산하고 이들을 상대 엔트로피의 오름차순으로 정렬하고;

추가되어야 하는 상기 제1 후보들의 수 및 삭제되어야 하는 상기 제2 후보들의 수를 결정하고 상기 어휘집을 갱신함으로써

상기 어휘집을 정련하는

사전 학습 장치.
제13항에 있어서,

상기 보조 워드 인코딩 정보는 중국어 인코딩 정보를 포함하는

사전 학습 장치.
제13항에 있어서,

상기 보조 워드 인코딩 정보는 비-중국어 인코딩 정보를 포함하는

사전 학습 장치.
제17항에 있어서,

상기 중국어 인코딩 정보가 병음 인코딩 정보 및 스트로크 인코딩 정보 중 적어도 하나를 포함하는

사전 학습 장치.
사용자 입력을 처리하기 위한 입력 방법으로서,

사용자 입력을 수신하는 수신 단계;

상기 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하는 해석 단계 -사전 내의 각각의 워드에 대한 상기 인코딩 정보는 상기 사전을 근거로 미리 획득됨-;

상기 인코딩 정보 또는 상기 사용자 액션이 수신되었을 때, 상기 사전 내의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스(Patricia Tree index)를 사용해서 문장 및 워드 예측을 제공하고, 상기 사용자 액션에 따라 상기 문장 및 워드 예측을 조정하는 사용자 입력 예측 및 조정 단계; 및

상기 문장 및 워드 예측 결과를 디스플레이하는 디스플레이 단계

를 포함하는 사용자 입력을 처리하기 위한 입력 방법.
제20항에 있어서,

상기 수신 단계는 중국어 입력을 수신하는

사용자 입력을 처리하기 위한 입력 방법.
제20항에 있어서,

상기 수신 단계는 비-중국어 입력을 수신하는

사용자 입력을 처리하기 위한 입력 방법.
제21항에 있어서,

상기 중국어 입력은 병음 입력, 스트로크 입력 및 펜 트레이스 입력(pen trace input) 중 하나를 포함하는

사용자 입력을 처리하기 위한 입력 방법.
제20항에 있어서, 상기 사용자 입력 예측 및 조정 단계는,

a) 상기 해석된 인코딩 정보 또는 사용자 액션을 수신하는 단계;

b) 수신된 것이 상기 사용자 액션인 경우 상기 예측 결과를 변경하고 하기 단계 h)를 실행하는 단계;

c) 상기 인코딩 정보에 따라 모든 현재의 패트리샤 트리 노드들로부터 상기 패트리샤 트리 인덱스의 모든 가능한 새로운 패트리샤 트리 노드들을 탐색하는 단계;

d) 어떠한 새로운 패트리샤 트리 노드도 없는 경우 상기 인코딩 정보를 무시하고 모든 탐색 결과들 및 상태를 복원하고 단계 a)를 실행하는 단계;

e) 새로운 패트리샤 트리 노드가 하나라도 있는 경우 현재의 패트리샤 트리 노드들로서 새로운 패트리샤 트리 노드들을 설정하는 단계;

f) 상기 현재의 패트리샤 트리 노드들로부터 모든 가능한 워드들을 탐색하고 문장 예측을 제공하는 단계;

g) 상기 문장 예측의 결과로부터 현재 워드를 결정하고, 워드 예측을 제공하는 단계 - 상기 워드 예측은 워드 후보 리스트 및 예측 워드 후보 리스트를 포함함- ; 및

h) 상기 예측된 결과를 디스플레이에 출력하고 단계 a)를 실행하도록 복귀하는 단계

를 포함하는

사용자 입력을 처리하기 위한 입력 방법.
제24항에 있어서,

단계 f)는 하기의 수학식

에 따라 가장 가능성 있는 워드 시퀀스를 예측 문장으로서 결정함으로써 상기 문장 예측을 제공하고, 여기서

은 워드 w₁이 갖는 모든 품사의 집합이고;

은 워드 w_n의 상기 품사 중 하나이며;

및
은 각각 품사 유니그램 및 품사 바이그램이고;

은 워드 유니그램이며;

은 워드에 대응하는 품사의 확률인

사용자 입력을 처리하기 위한 입력 방법.
사용자 입력을 처리하기 위한 사용자 단말기 장치로서,

사용자 입력을 수신하는 사용자 입력 단말기;

패트리샤 트리 인덱스를 포함하는 사전 인덱스 및 사전을 저장하는 메모리 유닛;

상기 사용자 입력을 근거로 문장 및 워드 예측을 제공하는 입력 프로세싱 유닛; 및

상기 문장 및 워드 예측의 결과를 디스플레이하는 디스플레이

를 포함하고,

상기 입력 프로세싱 유닛은,

상기 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하는 입력 인코딩 인터프리터 -상기 사전 내의 각각의 워드에 대한 상기 인코딩 정보는 상기 사전에 기초하여 미리 획득됨- ; 및

상기 인코딩 정보 또는 상기 사용자 액션이 수신되었을 때, 상기 사전 내의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스를 사용해서 문장 및 워드 예측을 제공하고, 상기 사용자 액션에 따라 상기 문장 및 워드 예측을 조정하는 사용자 입력 예측 및 조정 모듈을 포함하는

사용자 입력을 처리하기 위한 사용자 단말기 장치.
제26항에 있어서,

상기 입력 프로세싱 유닛은, 상기 사전의 각각의 워드 엔트리에 대한 인코딩 정보를 제공하고, 인코딩 정보 및 워드 유니그램에 의해 모든 워드 엔트리들을 정렬하고, 패트리샤 트리 인덱스를 생성하며 이를 상기 사전 인덱스에 추가하는 사전 인덱싱 모듈을 더 포함하는

사용자 입력을 처리하기 위한 사용자 단말기 장치.
제26항 또는 제27항에 있어서,

상기 사용자 입력 예측 및 조정 모듈은,

상기 해석된 인코딩 정보 또는 사용자 액션을 수신하고;

상기 수신된 정보가 상기 사용자 액션인 경우 상기 예측된 결과를 변경하고 그 결과를 디스플레이에 출력하고;

상기 수신된 정보가 상기 인코딩 정보인 경우 모든 현재 패트리샤 트리 노드들로부터 상기 패트리샤 트리 인덱스의 모든 가능한 새로운 패트리샤 트리 노드들을 탐색하고;

어떠한 새로운 패트리샤 트리 노드도 없는 경우 상기 인코딩 정보를 무시하고 모든 탐색 결과들 및 상태를 복원하고, 상기 해석된 인코딩 정보 또는 사용자 액션을 수신하는 것을 반복하고;

새로운 패트리샤 트리 노드가 하나라도 있는 경우 현재 패트리샤 트리 노드들로서 새로운 패트리샤 트리 노드들을 설정하고;

상기 현재 패트리샤 트리 노드들로부터 모든 가능한 워드들을 탐색하고 문장 예측을 제공하고;

상기 문장 예측의 결과로부터 현재 워드를 결정하고, 워드 예측을 제공하고 -상기 워드 예측은 워드 후보 리스트 및 예측 워드 후보 리스트를 포함함- ; 및

상기 예측 결과를 디스플레이에 출력함으로써

상기 문장 및 워드 예측을 제공하고 상기 예측을 조정하는

사용자 입력을 처리하기 위한 사용자 단말기 장치.
제26항에 있어서,

상기 사용자 입력 단말기는 중국어 입력을 위해 사용되는

사용자 입력을 처리하기 위한 사용자 단말기 장치.
제26항에 있어서,

상기 사용자 입력 단말기는 비-중국어 입력을 위해 사용되는

사용자 입력을 처리하기 위한 사용자 단말기 장치.
제29항에 있어서,

상기 사용자 입력 단말기는 각각의 디지털 버튼이 수개의 병음 코드들을 나타내는 디지털 키보드일 수 있는

사용자 입력을 처리하기 위한 사용자 단말기 장치.
제29항에 있어서,

상기 사용자 입력 단말기는 각각의 디지털 버튼이 수개의 스트로크 코드들을 나타내는 디지털 키보드일 수 있는

사용자 입력을 처리하기 위한 사용자 단말기 장치.
제29항에 있어서,

상기 사용자 입력 단말기는 터치패드일 수 있는

사용자 입력을 처리하기 위한 사용자 단말기 장치.