KR100766169B1 - 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치 - Google Patents

컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치 Download PDF

Info

Publication number
KR100766169B1
KR100766169B1 KR1020060007697A KR20060007697A KR100766169B1 KR 100766169 B1 KR100766169 B1 KR 100766169B1 KR 1020060007697 A KR1020060007697 A KR 1020060007697A KR 20060007697 A KR20060007697 A KR 20060007697A KR 100766169 B1 KR100766169 B1 KR 100766169B1
Authority
KR
South Korea
Prior art keywords
word
dictionary
lexicon
input
encoding information
Prior art date
Application number
KR1020060007697A
Other languages
English (en)
Other versions
KR20060088027A (ko
Inventor
리킨 수
민유 슈에
Original Assignee
엔이씨 (차이나) 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔이씨 (차이나) 씨오., 엘티디. filed Critical 엔이씨 (차이나) 씨오., 엘티디.
Publication of KR20060088027A publication Critical patent/KR20060088027A/ko
Application granted granted Critical
Publication of KR100766169B1 publication Critical patent/KR100766169B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G45/00Lubricating, cleaning, or clearing devices
    • B65G45/10Cleaning devices
    • B65G45/12Cleaning devices comprising scrapers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B1/00Cleaning by methods involving the use of tools
    • B08B1/10Cleaning by methods involving the use of tools characterised by the type of cleaning tool
    • B08B1/16Rigid blades, e.g. scrapers; Flexible blades, e.g. wipers
    • B08B1/165Scrapers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B1/00Cleaning by methods involving the use of tools
    • B08B1/20Cleaning of moving articles, e.g. of moving webs or of objects on a conveyor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65GTRANSPORT OR STORAGE DEVICES, e.g. CONVEYORS FOR LOADING OR TIPPING, SHOP CONVEYOR SYSTEMS OR PNEUMATIC TUBE CONVEYORS
    • B65G2812/00Indexing codes relating to the kind or type of conveyors
    • B65G2812/02Belt or chain conveyors
    • B65G2812/02128Belt conveyors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 사전 학습 방법을 제공하는데, 상기 방법은 비태그화 자료로부터 어휘집 및 통계 언어 모델을 학습하는 단계; 어휘집, 통계 언어 모드 및 보조 워드 인코딩 정보를 소형 크기 사전으로 통합하는 단계를 포함한다. 본 발명은 또한 품사 정보 및 품사 바이그램 모델이 추가된 사전을 사용하는 사용자 단말기 장치에서의 입력 방법 및 이를 사용한 사용자 단말기 장치를 제공한다. 따라서, 문장 레벨 예측 및 워드 레벨 예측이 사용자 단말기 장치에 의해 제공될 수 있으며, 사전 인덱스의 패트리샤(Patricia) 트리 인덱스에 의해 탐색되는 사전을 사용해서 입력 속도가 향상된다.
자연어 처리, 사용자 입력, 중국어 입력, 사전 학습 장치, 태그화 자료

Description

컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치{COMPUTER-IMPLEMENTED DICTIONARY LEARNING METHOD AND DEVICE USING THE SAME, INPUT METHOD AND USER TERMINAL DEVICE USING THE SAME}
도 1은 본 발명에 따른 사전 학습 장치와 사용자 단말기 장치 간의 관계를 도시한 개략도.
도 2a는 사전 학습 장치에 의해 학습된 사전의 개략 구조의 일례를 도시한 도면.
도 2b는 사전 학습 장치에 의해 학습된 사전의 개략 구조의 다른 일례를 도시한 도면.
도 3은 본 발명에 따른 사전 학습 장치의 블록도.
도 4a는 사전 학습 장치의 사전 학습 프로세싱 모듈의 일례의 상세한 블록도.
도 4b는 사전 학습 장치의 사전 학습 프로세싱 모듈의 다른 일례의 상세한 블록도.
도 5는 본 발명에 따른 사전 학습 프로세싱 모듈의 어휘집 및 통계 언어 모델 학습 유닛에 의해 구현되는 사전 및 통계 언어 모델을 학습하는 프로세스를 설명하기 위한 플로우챠트.
도 6은 본 발명에 따른 어휘집 정련의 플로우챠트.
도 7은 본 발명의 제1 실시예에 따른 사용자 단말기 장치의 블록도.
도 8a 내지 도 8d는 사용자 단말기 장치의 전형적인 키보드들의 4개의 개략도들.
도 9a는 가장 전형적인 입력 방법을 사용해서 중국어 캐릭터 "今"을 입력하는 T9의 입력 시퀀스를 도시한 도면.
도 9b는 가장 전형적인 입력 방법을 사용해서 중국어 워드 "今天"을 입력하는 T9의 입력 시퀀스를 도시한 도면.
도 10은 본 발명의 사용자 단말기 장치의 입력 프로세싱 유닛의 상이한 섹션들 간의 접속 관계를 도시한 블록도.
도 11은 본 발명의 사용자 단말기 장치의 디스플레이의 사용자 인터페이스의 일례를 도시한 도면.
도 12는 본 발명의 사용자 단말기 장치의 사전 인덱싱 모듈에 의해 구현된 패트리샤 트리 인덱스를 생성하는 플로우챠트.
도 13은 본 발명의 정렬 결과 및 패트리샤 트리 인덱스의 일례를 도시한 도면.
도 14는 본 발명의 사용자 단말기 장치의 사용자 입력 예측 및 조정 모듈에 의해 구현되는 사용자 입력 예측 및 조정 프로세스의 플로우챠트.
도 15는 사용자 단말기 장치의 일례의 입력 시퀀스를 도시한 도면.
도 16은 본 발명의 제2 실시예에 따른 사용자 단말기 장치의 블록도.
<도면의 주요 부분에 대한 부호의 설명>
1 : 사전 학습 장치
2 : 사전
3 : 사용자 단말기 장치
11 : 어휘집
12 : 비태그화 자료
13 : 품사 태그화 자료
15 : 어휘집 및 통계 언어 모델 학습 유닛
16 : 품사 학습 유닛
17 : 사전 통합 유닛
본 발명은 자연어 프로세스에 관한 것으로, 특히, 사전 학습 방법 및 상기 방법을 사용하는 장치와, 사용자 입력을 처리하기 위한 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치에 관한 것이다.
중국에서의 컴퓨터, PDA, 이동 전화가 광범위하게 사용됨에 따라, 사용자가 중국어를 입력할 수 있게 해주는 기능은 상기 기계들에서 중요한 기능이다. 중국의 현 이동 단말기 시장에서, 거의 모든 이동 전화에는 디지트 키보드를 사용하는 입력 방법이 제공된다. T9 및 iTap은 현재 가장 흔히 사용되는 입력 방법들이다. 이러한 종류의 방법에서, 사용자는 10-버튼 키보드에서 중국어 캐릭터용 병음(Pinyin) 또는 스트로크(stroke)를 입력할 수 있다. 도 8a 내지 도 8b는 병음 및 스트로크 입력을 위한 일례의 키보드들을 도시한다. 입력 방법은 버튼 시퀀스 사용자 탭에 따라 예측 캐릭터를 제공할 수 있다. 통상 병음 입력의 경우, 각각의 버튼은 도 8a에 도시된 바와 같이 알파벳의 3~4 문자들을 나타낸다. 사용자가 캐릭터에 대한 병음을 입력할 때, 사용자는 가장 전형적인 입력 방법에 의해 요구되는 각각의 우측 문자를 입력하기 위해 버튼을 서너번 클릭할 필요가 없다. 사용자가 단지 상기 캐릭터의 병음에 따라 버튼 시퀀스를 클릭하면, 입력 방법은 후보 리스트에서 우측 병음 및 우측 캐릭터를 예측한다. 예를 들어, 사용자가 병음 "jin"을 갖는
Figure 112007020686058-pat00001
을 입력하기 원할 때, "5"("jkl"을 나타냄)를 1번 탭해서 "j"를 입력하고, "4"("ghi"를 나타냄) 3번 탭하고 "6"("mno"를 나타냄)을 2번 탭할 필요가 없다. 사용자가 단지 "546"을 탭하면, 입력 방법은 예측 병음 "jin" 및 대응 예측 한자 후보들
Figure 112007020686058-pat00002
을 제공한다. 가장 전형적인 입력 방법에 따란 한자
Figure 112007020686058-pat00003
을 입력하는 T9의 입력 시퀀스는 도 9a에 도시되어 있다.
현행의 이동 단말기(mobile terminal)의 경우, 사용자는 중국어 캐릭터를 각각 입력해야만 한다. 몇몇 입력 방법이 사용자 입력에 따라 예측 결과를 제공할 수 있더라도, 실제로 캐릭터별로 예측을 제공한다. 각각의 캐릭터에 대해, 사용자는 버튼을 수회 클릭해야만 하며 적어도 하나의 가시적 검증을 해야만 한다. 따라서, 문장 레벨 및 워드 레벨 예측 결과를 제공할 수 있는 방법 및 상기 방법을 사용하는 장치를 발명하고자 시도중이다.
상술된 바와 같이, T9 및 iTap은 현재 이동 단말기에서 가장 흔히 사용되는 입력 방법들이다. 그러나, 상기 방법들의 속도는 대부분의 사용자들을 만족시키지 못한다. 싱글 캐릭터를 입력하는데도 수회 클릭이 요구되며, 보다 중요하게는, 다수의 상호 작용들이 요구된다.
상기 문제점의 중요 이유는 중국어 입력 방법에 적용되는 대부분의 현 디지털 키보드들이 단지 캐릭터-기반이기 때문이다(미국 특허 출원 2003-0027601). 중국에서는, 워드들 간에 명백한 경계가 없고, 워드 정의가 명백하지 않기 때문이다. 따라서, 상기 입력 방법들은 영어 버전에 대응하는 "워드"로서 싱글 캐릭터를 처리하도록 선택한다. 그러나, 이러한 필연성은 싱글 캐릭터의 디지털 시퀀스에 따른 어마어마한 수의 여분의 캐릭터들을 야기한다. 따라서, 상당히 속도가 느려진다. 또한, 예측이 싱글 캐릭터에 따라서만 달성될 수 있기에, 캐릭터-기반 입력 방법들은 워드 예측 효과를 어느 정도로 제한한다. 이는 이동 핸드셋(mobile handset)의 현재의 입력 방법이 사용자 입력 디지털 시퀀스를 캐릭터 후보 리스트로 전송할 수만 있음을 의미한다. 그 후, 사용자는 후보 리스트에서 정확한 캐릭터를 선택해야만 한다. 사용자는 계속해서 워드 또는 문장을 입력할 수 없다.
예를 들어, 사용자가 워드
Figure 112006005770076-pat00004
을 입력하기 원한다고 하자. 먼저, 사용자는 캐릭터
Figure 112006005770076-pat00005
에 대한 병음 "jin"을 의미하는 "546"을 디지털 키보드에서 입력한다. 후보 리스트
Figure 112006005770076-pat00006
가 사용자에게 디스플레이된다. 그 다음, 사용자는 리스트에서 정확한 캐릭터
Figure 112006005770076-pat00007
를 선택해야만 한다. 그 후, 캐릭터
Figure 112006005770076-pat00008
에 이어 질 수 있는 후보 리스트
Figure 112006005770076-pat00009
가 사용자에게 디스플레이된다. 사용자는 리스트에서 정확한 캐릭터
Figure 112006005770076-pat00010
을 선택해야만 한다. 중국어 워드
Figure 112006005770076-pat00011
을 입력하는 T9의 입력 시퀀스가 도 9b에 도시되어 있다.
PC 플랫폼에는, 마이크로소프트 병음, 자광병음
Figure 112007020686058-pat00012
및 지능광병
Figure 112007020686058-pat00013
등과 같은 PC 키보드에 기초한 다수의 진보 고속 입력 방법들이 있다. 그들 중 몇몇은 문장 레벨 예측을 제공할 수 있으며, 상기 모든 입력 방법들은 워드 레벨 예측을 제공할 수 있다. 문장 레벨 예측을 제공할 수 있는 입력 방법의 경우, 사전 크기가 매우 크다. 예를 들어, 마이크로소프트 병음은 20 내지 70MB를 필요로 하고, 지능광병은 최대 100MB를 필요로 한다. 예측 문장을 제공할 수 있는 워드 기반 통계 언어 모델(통상 워드 바이그램 모델(Word Bi-gram model) 또는 워드 트리그램 모델(Word tri-gram model))을 형성하기 위해 통계 언어 모델(SLM)을 모두 채택한다. 이러한 종류의 SLM이 선정된 어휘집을 사용하고 다수의 워드 바이그램 또는 워드 트리그램 엔트리들을 사전에 저장하는 반면, 사전 크기는 이동 단말기에서 전개되기에는 너무 크다. 이동 단말기 플랫폼에서 예측 속도는 매우 느리다.
다른 단점은 거의 모든 입력 방법들이 어휘집을 갖지 않거나 단지 선정된 어휘집을 갖는다는 점이다. 따라서, 언어에서 빈번히 사용되는, 예를 들어
Figure 112007020686058-pat00014
와 같은 몇몇 중요 워드들 및 구절들이 계속해서 입력될 수 없다. .
따라서, 본 발명은 상술된 문제점들의 관점에서 달성된 것으로, 본 발명의 목적은 사전 학습 방법 및 사전 학습 방법을 사용하는 장치를 제공하려는데 있다. 또한, 본 발명은 입력 방법 및 입력 방법을 사용하는 사용자 단말기 장치를 제공한다. 장치는 자료로부터 사전을 학습한다. 학습된 사전은 자료로부터 학습된 다수의 주요 워드들 및 구절들을 포함하는 정련된 어휘집을 포함한다. 사전이 후술되는 입력 방법에 적용되는 중에, 품사 정보 및 품사 바이그램 모델을 더 포함한다. 사용자 단말기 장치는 사전을 탐색하기 위해 패트리샤 트리(일종의 트리형 데이터 구조) 인덱스를 사용한다. 사용자 입력을 수신하고 사전 탐색 결과들을 근거로 문장 및 워드 예측을 제공한다. 상기 워드 예측은 현 워드 후보 리스트 및 예측 워드 후보 리스트를 포함한다. 모든 결과들은 사용자에게 디스플레이된다. 이는 사용자가 계속해서 상기 워드 또는 문장에 대응하는 디지털 시퀀스를 입력함으로써 워드 또는 문장을 입력할 수 있음을 의미한다. 사용자는 모든 캐릭터에 대한 디지털 시퀀스를 입력하고 후보 리스트에서 정확한 캐릭터를 선택할 필요가 없다. 따라서, 입력 속도가 매우 향상된다.
본 발명의 제1 양상에 따라, 비태그화 자료로부터 어휘집 및 통계 언어 모델을 학습하는 단계; 어휘집, 통계 언어 모델 및 보조 워드 인코딩 정보를 사전으로 통합하는 단계를 포함하는 사전 학습 방법이 제공된다.
본 발명의 제2 양상에 따라, 상기 방법은 어휘집의 각각의 워드에 대한 품사 정보 및 품사 태그화 자료로부터의 품사 바이그램 모델을 획득하는 단계; 및 품사 정보 및 품사 바이그램 모델을 사전에 추가하는 단계를 더 포함한다.
본 발명의 제3 양상에 따라, 사전을 학습하는 사전 학습 프로세싱 모듈; 비태그화 자료를 저장하는 메모리 유닛; 장치의 각각의 파트를 제어하는 제어 유닛을 포함하는 사전 학습 장치가 제공되는데, 상기 사전 학습 프로세싱 모듈은 비태그화 자료로부터 어휘집 및 통계 언어 모델을 학습하는 어휘집 및 통계 언어 모델 학습 유닛; 및 어휘집, 통계 언어 모델 및 보조 워드 인코딩 정보를 사전으로 통합하는 사전 통합 유닛을 포함한다.
본 발명의 제4 양상에 따라, 사전 학습 장치의 메모리 유닛은 품사 태그화 자료를 더 포함하고, 사전 학습 프로세싱 모듈은 어휘집의 각각의 워드에 대한 품사 정보 및 품사 태그화 자료로부터의 품사 바이그램 모델을 획득하는 품사 학습 유닛; 및 품사 정보 및 품사 바이그램 모델을 사전에 추가하는 사전 통합 유닛을 더 포함한다.
본 발명의 제5 양상에 따라, 사용자 입력을 처리하기 위한 입력 방법이 제공되는데, 상기 방법은 사용자 입력을 수신하기 위한 수신 단계; 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하기 위한 해석 단계를 포함하는데, 사전의 각각의 워드에 대한 상기 인코딩 정보는 사전을 근거로 미리 획득되고; 사전의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스를 사용해서 문장 및 워드 예측을 제공하고, 인코딩 정보 또는 사용자 액션이 수신될 때, 문장 및 워드 예측을 사용자 액션에 따라 조정하기 위한 사용자 입력 예측 및 조정 단계; 문장 및 워드 예측 결과를 디스플레이하기 위한 디스플레이 단계를 포함한다.
본 발명의 제6 양상에 따라, 사용자 입력을 처리하기 위한 사용자 단말기 장치가 제공되는데, 상기 장치는 사용자 입력을 수신하는 사용자 입력 단말기; 패트리샤 트리 인덱스를 포함하는 사전 인덱스 및 사전을 저장하는 메모리 유닛; 사용자 입력을 근거로 문장 및 워드 예측을 제공하는 입력 프로세싱 유닛; 및 문장 및 워드 예측의 결과를 디스플레이하는 디스플레이를 포함하고; 입력 프로세싱 유닛은 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하는 입력 인코딩 인터프리터를 포함하는데, 사전의 각각의 워드에 대한 인코딩 정보는 사전을 근거로 미리 획득되며; 사전의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스를 사용해서 문장 및 워드 예측을 제공하고, 인코딩 정보 또는 사용자 액션이 수신될 때, 사용자 액션에 따라 문장 및 워드 예측을 조정하는 사용자 입력 예측 및 조정 모듈을 포함한다.
본 발명에 따라, 소형 사이즈의 학습된 사전을 사용해서 문장 레벨 예측 및 워드 레벨 예측을 제공할 수 있다. 사전은 본 발명의 제4 양상의 사전 학습 장치에 의해 학습된다. 사전 학습 장치는 자료로부터 대량의 주요 정보를 추출하고 소형 사이즈로 저장될 수 있는 특별 콘텐츠 및 구조로 유지한다. 이동 핸드셋들의 종래의 입력 방법과 달리, 본 발명의 기본 입력 유닛은 "워드"이다. 본 명세서에서 "워드"는 자료로부터 학습된 "구절"을 포함한다. 사전의 콘텐츠 및 구조를 근거로, 입력 방법은 문장 레벨 및 워드 레벨 예측을 제공할 수 있다. 따라서, T9 및 iTap과 같은 종래의 입력 방법과 비교해서, 입력 속도가 향상된다.
문장 및 워드 예측을 제공할 수 있지만 선정된 어휘집 및 대응하는 다수의 워드 바이그램 엔트리들 또는 워드 트리그램 엔트리들을 저장하기 위해 대형 사전을 사용하는 마이크로소프트 병음(Pinyin)과 같은 PC 베이스 입력 방법과 비교해서, 본 발명은 최적화된 어휘집 및 대응 워드 유니그램(Word Uni-gram)으로 추출된 중요 언어 정보만을 저장하는 사전을 학습한다. 따라서, 사전의 모든 정보는 언어 프로세스에 있어 필수 정보이며 훨씬 적은 저장 비용을 요구한다. 본 발명의 장점들은 다음과 같이 상세히 기술된다:
1. 정련된 어휘집을 포함하는 사전이 학습될 수 있다. 정련된 어휘집은 자료로부터 학습된 다수의 주요 워드들 및 구절들을 포함한다.
2. 학습된 사전은 정련된 어휘집 및 몇몇 품사 정보를 포함한다. 문장 및 워드 예측 제공을 도울 수 있는 사전은 이동 핸드셋에서 전개될만큼 충분히 작다.
3. 사전은 패트리샤 트리 인덱스를 사용해서 인덱싱된다. 그것은 워드들을 신속하게 검색하도록 돕는다. 따라서, 문장 및 워드 예측은 쉽고 신속하게 달성될 수 있다. 상술된 장점들로 인해, 입력 속도가 향상될 수 있다.
본 발명의 앞서의 및 그외의 특징들 및 이점들은, 첨부 도면들을 참조하여 이하의 상세하게 기술된 양호한 실시예들에 의해 당업자에게 더 명백해질 것이다.
본 발명의 사전 학습 장치(dictionary learning device)와 사용자 단말기 장치 간의 관계를 도시한 개략적인 블록도가 도 1을 참조해서 설명될 것이다. 사전 학습 장치(1)는 컴퓨터 판독 가능 사전(2)을 학습한다. 사용자 단말기 장치(3)는 사용자 입력 텍스트를 돕기 위해 사전을 사용한다. 사전 학습 장치(1) 및 사용자 단말기 장치(3)는 몇몇 의미에서 독립적이다. 사전 학습 장치(1)로부터 트레이닝된 사전(2)은 다른 애플리케이션에서 사용될 수 있다. 사전 학습 장치(1)는 특별 사전 학습 방법 및 특별 사전 구조를 사용해서 사용자가 신속하게 입력할 수 있는 소형 사전을 생성한다.
도 2a는 사전 학습 장치(1)에 의해 학습된 사전의 개략 구조의 일례를 도시한다. 본 일례에서, 파트 2는 다수의 워드 엔트리들(파트(21))을 포함한다. 상기 워드 엔트리는 "워드"(예를 들어,
Figure 112007020686058-pat00015
)뿐만 아니라 "구절"(예를 들어,
Figure 112007020686058-pat00016
,
Figure 112007020686058-pat00017
)을 위한 것이기도 하다. 상기 "구절"은 실제로 복합어(워드 시퀀스로 구성됨)이다. 이하의 설명에서 불편함을 방지하기 위해, 용어 "워드"는 종래의 "워드" 및 종래의 "구절" 둘 다를 말한다. 몇몇 다른 워드 일례들은
Figure 112007020686058-pat00018
,
Figure 112007020686058-pat00019
,
Figure 112007020686058-pat00020
을 포함한다. 파트(21)는 워드 부명제(파트(211)), 워드 유니그램(파트(212)), 상기 워드의 수개의 품사(파트(213)) 및 품사의 대응 확률들(파트(214)), 몇몇 보조 워드 인코딩 정보(파트(215))를 포함한다. 파트(215)는 병음(중국어용 발음) 인코딩 정보 또는 스트로크 인코딩 정보 또는 다른 워드 인코딩 정보일 수도 있다. 파트(21)에 추가될 파트(215)의 종류는 애플리케이션에 좌우된다. 후술되는 몇몇 일례들에서, 파트(21)는 파트(215)를 포함하지 않을 수도 있다. 마지막으로, 파트(22), 품사 바이그램 모델이 본 일례에 포함된다. 이는 또한 애플리케이션에 좌우되며, 다른 일례들에서 포함되지 않을 수도 있다. 본 기술 분야에 숙련된 자들에게 명백한 바와 같이, 사전(2)은 중국어에만 제한되지 않으며, 중국어가 아닌 임의의 다른 종류의 사전일 수도 있다. 일본어의 경우, 사전의 모든 파트들은 보조 워드 인코딩 정보(파트(215))가 병음 인코딩 정보 대신 히라가나 인코딩 정보인 것만 제외하고 중국어와 동일하다. 예를 들어, 워드
Figure 112007020686058-pat00021
의 경우, 히라가나 인코딩 정보는
Figure 112007020686058-pat00022
이다. 영어의 경우, 모든 파트들은 영어 워드 인코딩 정보가 단지 워드의 캐릭터 시퀀스이기 때문에 보조 워드 인코딩 정보(파트(215))가 생략되어야 하는 점을 제외하고 중국어와 동일하다. 한국어의 경우, 모든 파트들은 보조 워드 인코딩 정보(파트(215))가 병음 인코딩 정보 대신 한국어 스트로크 인코딩 정보라는 점을 제외하고 중국어와 동일하다. 예를 들어, 워드 "휴대폰"의 경우, 한국어 스트로크 인코딩 정보는
Figure 112007020686058-pat00023
이다. 상기 사전은 후술되는 도 4a에 도시된 일례의 장치에 의해 학습된다.
도 2b는 사전 학습 장치(1)에 의해 학습된 사전의 개략 구조의 다른 일례를 도시한다. 도 2a에 도시된 일례와 비교해서, 워드의 품사(파트(213)), 품사의 대응 확률들(파트(214)) 및 품사 바이그램 모델(파트(22))은 본 일례에서 생략된다. 본 사전은 제1 일례 보다 더 광범위하게 사용될 수 있다. 수기 및 음성 인식 포스트-프로세싱, 입력 방법 및 다수의 다른 언어 관련 애플리케이션에서 사용될 수 있다. 본 사전은 후술되는 도 4b에 도시된 일례의 장치에 의해 학습된다.
이제, 사전을 학습하는 사전 학습 장치(1)가 도 3 및 도 4a를 참조해서 기술될 것이다. 도 3 및 도 4a에 도시된 바와 같이, 사전 학습 장치(1)는 CPU(101), 액세서리(102), 메모리(104) 및 하드 디스크(105)를 포함하는데, 모두 내부 버스(103)를 통해 연결된다. 메모리(104)는 운영 체제(1041), 사전 학습 프로세싱 모듈(1042) 및 다른 애플리케이션들(1043)을 저장한다. 하드 디스크(105)는 자료(1051), 사전 학습 파일들(1052) 및 다른 파일들(도시되지 않음)을 저장한다. 상기 장치에 의해 학습된 사전(2)도 또한 하드 디스크(105)에 저장된다. 자료(1051)는 예를 들어, 비태그화 자료(untagged corpus)(12) 및 품사 태그화 자료(Part-of-Speech tagged corpus)(13)를 포함한다. 사전 학습 파일들(1052)은 어휘집(11) 및 통계 언어 모델(14)을 포함한다. 사전 학습 프로세싱 모듈(1042)은 어휘집 및 통계 언어 모델 학습 유닛(15), 품사 학습 유닛(16) 및 사전 통합 유닛(17)을 포함한다.
최종 사전(2)은 사전 학습 프로세싱 모듈(1042)에 의해 트레이닝된다. 사전학습 프로세싱 모듈(1042)은 자료(1051)를 판독하고 어휘집(11) 및 통계 언어 모델(14)을 하드 디스크(105)에 기록하며, 마지막으로, 사전(2)을 하드 디스크(105)에 출력한다.
어휘집(11)은 워드 부명제들(word lemmas)의 집합으로 이루어진다. 처음에, 언어의 통상 종래 "워드"를 구성하는 일반 어휘집이 어휘집(11)으로서 사용될 수 있다. 어휘집 및 통계 언어 모델 학습 파트(lexicon and Statistical Language Model learning part)(15)는 최종 어휘집 및 통계 언어 모델을 학습할 것이고, 어휘집(11)은 상기 프로세스 중에 정련될 것이다. 몇몇 중요하지 않은 워드들은 삭제되고 몇몇 중요 워드들 및 구절들이 어휘집(11)에 추가된다. 비태그화 자료(12)는 워드 시퀀스로 분할되지 않지만 다수의 문장들을 포함하는 다수의 텍스트들을 갖는 자료이다(영어의 경우, 문장은 스페이스와 같은 몇몇 "토큰"에 의해 "워드" 시퀀스로 분리될 수 있음. 워드 시퀀스의 상기 워드들은 단지 종래의 "워드"들이며, 본 설명에서 "워드"라고도 하는 종래의 "구절들"을 포함하지는 않음). 어휘집 및 통계 언어 모델 학습 유닛(15)은 어휘집(11) 및 비태그화 자료(12)를 처리하고, 그 후 통계 언어 모델(14)(처음에는 존재하지 않음)이 생성된다. 통계 언어 모델(14)은 워드 트리그램 모델(141) 및 워드 유니그램 모델(142)을 포함한다. 어휘집 및 통계 언어 모델 학습 유닛(15)은 통계 언어 모델(14)의 정보를 사용해서 어휘집(11)을 정련한다. 어휘집 및 통계 언어 모델 학습 유닛(15)은 상기 프로세스를 반복해서, 최종 어휘집(11) 및 최종 워드 유니그램 모델(142)을 생성한다.
품사 태그화 자료(13)는 대응 품사에 의해 태그화되는 워드들의 시퀀스를 갖는 자료이다. 통상, 그것은 수동으로 생성되어서, 크기가 제한된다. 품사 학습 유닛(16)은 품사 태그화 자료(13)의 워드 시퀀스를 스캔한다. 어휘집(11)을 근거로, 품사(16)는 어휘집의 각각의 워드에 대한 품사 정보를 통계화한다. 워드의 모든 품사(사전(2) 내의 파트(213)) 및 대응 확률들(사전(2) 내의 파트(214))이 카운트된다. 워드 시퀀스에서 발생하지 않은 어휘집(11) 내의 워드의 경우, 수동으로 품사 및 대응 확률 1을 제공한다. 품사 바이그램 모델(사전(2) 내의 파트(22))은 본 프로세스에서 공통 바이그램 모델 계산 방법을 사용해서 제공된다.
워드 유니그램 모델(142), 어휘집(11) 및 품사 학습 유닛(16)에 의해 제공되는 몇몇 정보를 사용해서, 사전 통합 유닛(17)은 모든 데이터를 통합하고 몇몇 애플리케이션-요구 보조 워드 인코딩 정보(사전(2) 내의 파트(215))를 추가해서, 도 2a에 도시된 최종 사전(2)이 생성된다.
사전을 학습하는 사전 학습 장치(1)의 다른 일례가 도 3 및 도 4b를 참조해서 기술될 것이다. 도 3 및 도 4a에 도시된 일례와 비교할 때, 자료(1051)는 비태그화 자료(12)만을 포함한다. 사전 학습 프로세싱 모듈(1042)은 품사 학습 유닛(16)을 포함하지 않는다. 따라서, 품사 관련 정보는 본 일례에서 고려되지 않는다. 사전 통합 유닛(17)은 워드 트리그램 모델(141), 워드 유니그램 모델(142), 어휘집(11) 및 몇몇 애플리케이션-요구 보조 워드 인코딩 정보(사전(2) 내의 파트(215))를 기술된 도 2b와 같이 최종 사전(2)으로 통합한다.
도 5는 어휘집 및 통계 언어 모델 학습 유닛(15)에 의해 구현되는 어휘집 및 통계 언어 모델을 학습하는 프로세스를 설명하는 플로우챠트이다. 먼저, 비태그화 자료(12)는 단계(151)에서 워드 시퀀스로 분할된다. 상기 분할 단계에는 몇몇 상이한 방법들이 있다. 제1 일례는 단지 어휘집을 근거로 최대 매칭을 사용해서 자료(12)를 분할한다. 제2 일례는 워드 유니그램 모델(142)이 존재하는 경우 워드 유니그램 모델(142)을 근거로 최대 가능성을 사용해서 자료(12)를 분할한다. 최대 가능성은 수학식 1에 도시된 표준 분할 측정값이다:
Figure 112006005770076-pat00024
수학식 1에서,
Figure 112006005770076-pat00025
는 워드 시퀀스
Figure 112006005770076-pat00026
를 나타낸다.
Figure 112006005770076-pat00027
는 상기 워드 시퀀스의 가능성의 확률을 나타낸다. 최적화된 워드 시퀀스는
Figure 112006005770076-pat00028
이다.
단계(152)에서, 분할된 워드 시퀀스가 수신되고 워드 트리그램 모델(141) 및 워드 유니그램 모델(142)을 포함하는 통계 언어 모델(14)이 종래의 SLM 생성 방법으로 워드 시퀀스를 근거로 생성된다.
단계(153)에서, 단계(152)에서 생성된 워드 트리그램 모델이 단계(151)에서 생성된 워드 시퀀스의 혼란성(perplexity)을 평가하는데 사용된다. 만약 상기 단계가 처음으로 혼란성을 계산하는 것이면, 프로세스는 단계(154)로 직접 진행한다. 아니면, 새로 획득된 혼란성이 구 혼란성과 비교된다. 혼란성이 선정된 임계값보다 큰 값으로 감소하면, 프로세스는 단계(154)로 진행하고; 그렇지 않으면, 프로세스는 단계(155)로 진행한다.
단계(154)에서, 자료(12)는 새롭게 생성된 워드 트리그램 모델(141)에 의해 최대 가능성을 사용해서 워드 시퀀스로 다시 분할되며, 단계(152)가 실행된다.
단계(155)에서, 몇몇 새로운 워드들이 어휘집에 추가되고, 어휘집의 중요하지 않은 몇몇 워드들이 통계 언어 모델의 몇몇 정보를 근거로 어휘집에서 제거된다. 따라서, 어휘집이 정련된다. 어휘집 정련 방법은 후술될 것이다. 새로운 워드는 통상 워드 트리그램 모델(141)의 트리그램 엔트리 또는 바이그램 엔트리인 워드 시퀀스를 포함하는 워드이다. 일례:
Figure 112007020686058-pat00029
,
Figure 112007020686058-pat00030
Figure 112007020686058-pat00031
이 모두 현 어휘집의 워드들이면, 바이그램 엔트리
Figure 112007020686058-pat00032
또는 트리그램 엔트리
Figure 112007020686058-pat00033
이 정련된 어휘집의 새로운 워드로 될 수 있다. 둘 다 추가되면, 정련된 어휘집은 워드
Figure 112007020686058-pat00034
Figure 112007020686058-pat00035
를 둘 다 포함해야만 한다.
단계(156)에서, 어휘집이 평가된다. 어휘집이 단계(155)에서 변경되지 않았으면(새로운 워드가 추가되지 않았거나 중요하지 않은 워드가 삭제되지 않은 경우), 어휘집 및 통계 언어 모델 학습 유닛(15)은 프로세스를 정지한다. 그렇지 않으면, 프로세스는 단계(157)로 진행한다.
단계(157)에서, 워드 트리그램 모델(141) 및 워드 유니그램 모델(142)은 새롭게 생성된 어휘집에 대응하지 않기 때문에 이때 유효하지 않다. 워드 유니그램 모델은 새로운 어휘집에 따라 갱신된다. 새로운 워드의 워드 유니그램 발생 확률은 워드 트리그램 모델에서 획득된다. 또한, 삭제될 워드 유니그램 엔트리가 삭제된다. 마지막으로, 워드 트리그램 모델(141)이 삭제되고, 단계(151)가 반복된다.
도 6은 본 발명에 따른 어휘집 정련의 플로우챠트를 도시한다. 어휘집 정련이 개시될 때, 두가지 경로들이 있다. 하나는 단계(1551)로 진행하는 것이고, 다른 하나는 단계(1554)로 진행하는 것이다. 어떠한 경로든 먼저 선택될 수 있다.
먼저, 모든 트리그램 엔트리들(예를 들어,
Figure 112006005770076-pat00036
) 및 바이그램 엔트리들(예를 들어,
Figure 112006005770076-pat00037
)이 단계(1551)에서 발생 카운트 임계값에 의해 필터링된다. 예를 들어, 자료에서 100회 이상 발생된 모든 엔트리들이 새로운 워드 후보 리스트로 선택된다. 따라서, 새로운 워드 후보 리스트가 생성된다. 단계(1552)에서, 모든 워드 후보들이 상호 정보 임계값에 의해 필터링된다. 상호 정보는 다음과 같이 정의된다:
Figure 112006005770076-pat00038
Figure 112007020686058-pat00039
는 워드 시퀀스
Figure 112007020686058-pat00040
의 발생 빈도를 나타낸다. 여기서,
Figure 112007020686058-pat00041
는 새로운 워드 후보이고, n은 2 또는 3이다. 예를 들어,
Figure 112007020686058-pat00042
,
Figure 112007020686058-pat00043
Figure 112007020686058-pat00044
의 경우, 후보
Figure 112007020686058-pat00045
의 상호 정보(mutual information)는
Figure 112006005770076-pat00046
이다. 상호 정보가 임계값보다 작은 모든 후보들이 후보 리스트에서 제거된다.
단계(1553)에서, 새로운 워드 후보 리스트의 각각의 후보의 상대 엔트로피가 계산된다. 상대 엔트로피는 다음과 같이 정의된다:
Figure 112006005770076-pat00047
P(w1,w2 ,...,wn)는 현 워드 트리그램 모델에 의해 제공된 워드 시퀀스
Figure 112006005770076-pat00048
의 가능성 확률이다. 그 후, 단계(1553)에서, 모든 후보들이 상대 엔트로피 내림 차순으로 정렬된다.
단계(1557)로 가기 전에, 우 경로(단계(1554~1556))가 먼저 처리되어야만 한다. 우측 경로는 중요하지 않은 몇몇 워드들(예를 들어,
Figure 112007020686058-pat00049
) 및 몇몇 "거짓 워드들"을 제거하는 것이다. 워드 시퀀스가 새로운 워드로서 추가될 때, "거짓 워드"(예를 들어,
Figure 112007020686058-pat00050
)가 있을 수도 있다. 따라서, 몇몇 어휘집 엔트리들은 제거될 필요가 있다.
어휘집 내의 모든 워드들이 단계(1554)에서, 발생 카운트 임계값에 의해 필터링된다. 예를 들어, 어휘집에서 100회 미만으로 발생된 모든 워드들은 삭제된 워드 후보 리스트로 선택된다. 삭제된 워드 후보 리스트가 생성된다.
단계(1555)에서, 삭제된 워드 후보 리스트의 각각의 워드는 다른 워드들의 시퀀스로 분할된다. 예를 들어,
Figure 112007020686058-pat00051
Figure 112007020686058-pat00052
,
Figure 112007020686058-pat00053
로 분할된다. 분할 방법은 단계(152) 또는 단계(154)에서 기술된 방법과 유사하다. 상기 두 단계들의 임의의 방법이 사용될 수 있다.
단계(1553)와 유사하게, 각각의 후보의 상대 엔트로피가 단계(1556)에서 계 산된다. 그 후, 모든 후보들이 상대 엔트로피 오름 차순으로 정렬된다.
단계(1557)에서, 두 워드 후보 리스트(하나는 새로운 워드들을 위한 것이고, 다른 하나는 삭제될 워드들을 위한 것임)를 근거로 얼마나 많은 새로운 워드 후보들(새로운 워드 후보 리스트에 있음)이 추가되어야 하고 얼마나 많은 삭제 워드 후보들(삭제 워드 후보 리스트에 있음)이 삭제되어야 하는지를 결정하기 위한 기법이 채택된다. 상기 기법은 규칙이거나 규칙 집합일 수 있으며, 예를 들어, 상대 엔트로피에 대한 임계값을 사용하거나, 어휘집의 워드들의 총 수를 측정값으로서 사용하거나, 상기 규칙들 둘 다를 사용한다. 최종적으로, 어휘집이 갱신된다.
어휘집 정련 실행은 매우 중요하다. 본 어휘집 정련 프로세스에서, 본래 단지 몇몇 워드 시퀀스들인 몇몇 중요 구절들은 어휘집에 새로운 워드들로서 추가되고, 따라서, 고유 워드 유니그램 모델에 존재하지 않는 몇몇 중요 언어 정보가 최종 워드 유니그램 모델로 추출될 수 있다. 또한, 중요하지 않은 몇몇 언어 정보가 고유 워드 유니그램 모델로부터 삭제된다. 따라서, 최종 워드 유니그램 모델은 소형 사이즈를 유지할 수 있으나, 언어 예측에 있어 훨씬 더 양호한 성능을 갖는다. 따라서, 소형 사이즈 사전이 획득될 수 있으며, 본 발명은 소형 사이즈 사전을 사용해서 워드 및 문장 예측에 있어 양호한 성능을 제공할 수 있다.
도 7은 본 발명의 제1 실시예에 따른 사용자 단말기 장치의 블록도를 도시한다. 도 7에 도시된 바와 같이, 프로세서(31), 사용자 입력 단말기(32), 디스플레이(33), RAM(35) 및 ROM(플래시)(36)이 버스(34)를 통해 연결되며 상호 작용한다. 입력 인코딩 인터프리터(362), 사전 인덱싱 모듈(363), 사용자 입력 예측 및 조정 모듈(364)이 입력 프로세싱 유닛(3601)을 구성한다. 입력 프로세싱 유닛(3601), 사전(2), 사전 인덱스(366), 운영 체제(361) 및 다른 애플리케이션들(365)이 ROM(36)에 존재한다.
도 8a 내지 도 8d는 본 발명에 의해 사용되는 사용자 단말기 장치의 전형적인 키보드들의 4개의 개략도들을 도시한다. 사용자 입력 단말기(32)는 임의의 타입의 사용자 입력 장치일 수 있다. 사용자 입력 단말기(32)의 한 일례는 도 8a에 도시된 바와 같이, 각각의 디지털 버튼이 수개의 병음 코드들을 나타내는 디지털 키보드이다. 버튼(321)은 병음 캐릭터 "g" 또는 "h" 또는 "i"를 나타내는 디지트 "4"이다. 버튼(322)은 "기능" 버튼이고, 사용자가 이러한 종류의 버튼을 사용해서 몇몇 액션을 취할 수 있다. 예를 들어, 상기 버튼을 수회 클릭해서 정확한 후보를 후보 리스트에서 선택한다. 사용자 입력 단말기의 상기 일례는 또한 영어 입력에서도 사용될 수 있다. 따라서, 각각의 디지털 버튼은 수개의 알파벳 캐릭터를 나타낸다. 사용자 입력 단말기(32)의 다른 일례는 도 8b에 도시된 바와 같이, 각각의 디지털 버튼이 수개의 스트로크 코드들을 나타내는 디지털 키보드이다. 도 8b에서, 버튼(321)은 스트로크 "、"을 나타내는 디지트 "4"이다. 사용자 입력 단말기(32)의 제3 일례는 일본어 입력 방법에서 사용되는 디지털 키보드이다. 상기 일례의 각각의 디지털 버튼은 수개의 히라가나를 나타낸다. 도 8c에서, 버튼(321)은 히라가나 "た" 또는 "ち" 또는 "っ" 또는 "て" 또는 "と"를 나타내는 디지트 "4"이다. 사용자 입력 단말기(32)의 제4 일례는 한국어 입력 방법에서 사용되는 디지털 키보드이다. 상기 일례의 각각의 디지털 버튼은 수개의 한국어 스트로크를 나타낸다. 도 8d에서, 버튼(321)은 한국어 "ㄱ" 또는 "ㅋ" 또는 "ㄲ"을 나타내는 디지트 "4"이다. 사용자 입력 단말기(32)의 제5 일례는 펜 트레이스가 기록될 수 있는 터치 패드이다. 몇몇 사용자 액션들이 몇몇 종류의 펜 터칭 또는 스크린에 의해 기록될 수 있다.
도 10은 도 7에 도시된 사용자 단말기 장치의 입력 프로세싱 유닛의 상이한 섹션들 간의 접속 관계를 도시한 블록도이다. 사용자 입력 예측 및 조정 모듈(364)이 작동하기 전에, 사전 인덱싱 모듈(363)은 사전(2)을 판독하고 사전 인덱스(366)를 ROM(36)에 추가한다. 사전 인덱스(366)는 대응 워드 인코딩 정보를 근거로 사전(2)의 모든 워드 엔트리들에 대한 인덱스이다. 사용자 입력 단말기(32)의 제1 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드
Figure 112007020686058-pat00054
의 병음은 "jintian"이어서, 인코딩 정보는 "5468426"이다. 사용자 입력 단말기(32)의 제2 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드
Figure 112007020686058-pat00055
의 스트로크는
Figure 112007020686058-pat00056
이어서, 인코딩 정보는 "34451134"이다. 사용자 입력 단말기(32)의 제3 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드
Figure 112007020686058-pat00057
의 히라가나는
Figure 112007020686058-pat00058
이어서, 인코딩 정보는 "205#0"이다. 사용자 입력 단말기(32)의 제4 일례의 경우, 워드의 인코딩 정보는 디지털 시퀀스이다. 예를 들어, 워드 "휴대폰"의 한국어 스트로크는
Figure 112007020686058-pat00059
이어서, 인코딩 정보는 "832261217235"이다. 사용자 입력 단말기(32)의 제5 일례의 경우, 워드의 인코딩 정보는 유니코드 시퀀스이다. 예를 들어, 워드
Figure 112007020686058-pat00060
의 유니코드는 "(4ECA)(5929)"여서, 인코딩 정보는 "(4ECA)(5929)" 이다.
사용자 입력 단말기(32)는 사용자 입력을 수신해서, 버스(34)를 통해 입력 인코딩 인터프리터(362)에 송신한다. 입력 인코딩 인터프리터(362)는 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석해서, 사용자 입력 예측 및 조정 모듈(364)에 전송한다. 상기 인코딩 정보는 한정적이거나 확률론적일 수 있다. 사용자 입력 단말기(32)의 제1 일례의 경우, 입력 인코딩 인터프리터(362)는 병음("a"~"z")의 싱글 캐릭터의 수개의 확률들을 나타내는 유한 디지트 코드("0"~"9")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제2 일례의 경우, 입력 인코딩 인터프리터(362)는 스트로크("―"~"¬")의 캐릭터를 나타내는 유한 디지트 코드("0"~"9")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제3 일례의 경우, 입력 인코딩 인터프리터(362)는 싱글 히라가나의 수개의 확률들을 나타내는 유한 디지트 코드("0"~"9" 및 "#")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제4 일례의 경우, 입력 인코딩 인터프리터(362)는 싱글 한국어 스트로크의 수개의 확률들을 나타내는 유한 디지트 코드("0"~"9")로 각각의 버튼 클릭을 해석한다. 사용자 입력 단말기(32)의 제5 일례의 경우, 입력 인코딩 인터프리터(362)는 수개의 가능성 있는 유니코드 및 대응 확률들을 나타내는 확률론적 변수로 각각의 펜 트레이스를 해석한다. (본 입력 인코딩 인터프리터(362)는 수기 인식 엔진일 수 있으며, 캐릭터 후보들 및 대응 확률들의 집합으로서 펜 트레이스를 인식한다.)
사용자 입력 예측 및 조정 모듈(364)은 입력 인코딩 인터프리터(362)에 의해 송신된 해석된 인코딩 정보 또는 사용자 액션을 수신한다. 사전(2) 및 사전 인덱스(366)를 근거로, 사용자 입력의 결과들이 생성되고 버스(34)를 통해 디스플레이(33)에 송신된다. 디스플레이(33)는 입력 방법의 결과들 및 입력 방법과 관련된 다른 정보를 사용자에게 디스플레이하는 장치이다. 도 11은 사용자 단말기 장치의 디스플레이(33)의 사용자 인터페이스의 일례를 도시한다.
디스플레이의 본 일례는 입력 상태 정보 영역(331) 및 입력 결과 영역(332)을 포함한다. 영역(331)에서, 사용자 입력(3311)의 디지트 시퀀스 및 입력 방법 상태(3312)가 디스플레이된다. 영역(3311)은 사용자에 의해 이미 입력된 현 디지털 시퀀스를 나타낸다. 영역(3312)은 현 입력 방법이 병음을 위한 디지털 키보드 입력 방법임을 나타낸다. 영역(332)에서, 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 몇몇 결과들이 디스플레이된다. 문장 예측(3321)은 입력 디지털 시퀀스(3311)에 따른 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 예측인 문장이다. 현 워드 후보들(3322)은 입력 디지털 시퀀스(3311)의 음영 파트(현 워드 파트)에 따라 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 모든 현 워드 후보들에 대한 리스트이다. 본 리스트의 모든 후보들은 동일한 워드 인코딩 정보, 즉, 디지털 시퀀스 "24832"를 갖는다. 현 예측 워드 후보들(3323)은 입력 디지털 시퀀스(3311)의 음영 파트(현 워드 파트)에 따라 사용자 입력 예측 및 조정 모듈(364)에 의해 제공된 모든 예측 현 워드 후보들에 대한 리스트이다. 본 리스트의 모든 후보들의 워드 인코딩 정보의 처음 4개의 디지트들은 동일한 디지트 시퀀스 "24832"를 갖는다. (
Figure 112006005770076-pat00061
"248323426",
Figure 112006005770076-pat00062
"2483234",
Figure 112006005770076-pat00063
"2483234"). 디스플레이(33)의 레이아웃은 변할 수 있으며 모든 컴포넌트가 제거되거나 변경될 수 있다.
도 12는 사전 인덱싱 모듈(363)에 의해 구현된 패트리샤 트리 인덱스를 생성하는 플로우챠트를 도시한다. 단계(3631)에서, 사전 인덱싱 모듈(363)은 사전(2)을 판독한다. 특정 사용자 입력 단말기(32)에 따라, 각각의 워드에 대한 인코딩 정보가 제공된다. 그 후, 단계(3632)에서, 워드 엔트리들이 인코딩 정보에 의해 먼저 정렬된다. 두개의 워드 엔트리들의 인코딩 정보가 동일하면, 워드 유니그램에 의해 두번째로 정렬된다. 정렬 결과를 근거로, 사전용 패트리샤 트리 인덱스가 생성된다. 패트리샤 트리 인덱스는 다수의 레코드들을 저장하며 레코드들에 대한 고속 연속 탐색을 제공할 수 있다. 마지막으로, 패트리샤 트리 인덱스는 사전 인덱스에 기록된다.
도 13은 본 발명의 정렬 결과 및 패트리샤 트리 인덱스의 일례를 도시한다. 상기 패트리샤 트리 인덱스를 갖는 사전 인덱스(366)를 사용해서, 추가 사용자 입력 액션이 수신될 때 사용자 입력 예측 및 조정 모듈(364)은 고속 워드 탐색을 실행한다. 예를 들어, 먼저 "2"가 제공되면, 사용자 입력 예측 및 조정 모듈(364)은 한 단계에서 노드 "2"에 대해 신속하게 탐색할 수 있고 상기 노드를 메모리에 기록할 수 있다. 다음 단계에서, "3"이 입력될 때, 사용자 입력 예측 및 조정 모듈(364)은 노드 "2"로부터 "23"까지 단지 하나의 단계에서 탐색한다. 각각의 노드에서, 대응 워드 후보들 및 예측 후보들을 계산하기 위한 정보가 쉽게 획득될 수 있다.
도 14는 사용자 단말기 장치(1)의 사용자 입력 예측 및 조정 모듈(364)에 의해 구현되는 사용자 입력 예측 및 조정 프로세스의 플로우챠트를 도시한다. 단계(3641)에서, 사용자 입력 정보는 입력 인코딩 인터프리터(362)로부터 수신되며, 사용자 입력 예측 및 조정 모듈(364)은 수신된 입력 정보가 사용자 액션 또는 인코딩 정보인지를 결정한다. 사용자 액션이면, 단계(3648)가 실행된다. 아니면, 단계(3642)가 실행된다.
단계(3642)에서, 상기 입력 인코딩 정보가 사용되고, 프로세스는 사전 인덱스(366)의 패트리샤 트리 인덱스를 따라 한 단계 앞으로 진행한다. 이는, 사용자 입력 예측 및 조정 모듈(364)이 현 패트리샤 트리 노드들의 리스트를 저장함을 의미한다. 추가 인코딩 정보가 추가될 때, 본 리스트의 노드들을 개시점으로서 사용해서, 단계(3642)는 새로운 패트리샤 트리 노드(들)를 탐색하기 위해 패트리샤 트리 인덱스를 따라 한 단계 앞으로 진행한다. 추가 인코딩 정보가 처음으로 추가되는 인코딩 정보이면, 단계(3642)는 패트리샤 트리의 루트로부터 출발한다. 즉, 도 13의 일례의 패트리샤 트리의 경우, "2"가 제1 인코딩 정보로서 추가되고, 단계(3642)는 루트로부터 패트리샤 트리의 새로운 노드 "2"를 탐색한다. 두번째로, "2" 및 루트 노드는 현 패트리샤 트리 노드들로서 설정된다. "3"이 제2 인코딩 정보로서 추가되면, 단계(3642)에서, 새로운 노드 "23"이 현 노드 "2"로부터 탐색되고, 새로운 노드 "3"이 현 노드의 루트 노드로부터 탐색된다. 세번째로, 노드 "23", 노드 "3" 및 루트 노드가 현 노드드로서 설정될 것이다.
단계(3643)에서, 새로운 노드가 탐색되지 않으면, 프로세스는 단계(3644)로 진행한다. 이는 상기 인코딩 정보가 무효함을 의미한다. 아니면, 프로세스는 단계(3645)로 진행한다.
단계(3644)에서, 인코딩 정보는 무시되며, 모든 결과들 및 상태들은 상기 인코딩 정보가 추가되기 전에 이전 값들로 복원된다. 그 후, 프로세스는 단계(3641)로 리턴해서 다음 사용자 입력 정보를 기다린다.
단계(3645)에서, 새로운 패트리샤 트리 노드들이 수신되고, 현 패트리샤 트리 노드들로서 설정된다. 각각의 현 노드는 모든 입력 인코딩 정보의 가능한 현 워드들의 집합을 나타낸다. 그 후, 문장 예측이 본 단계에서 실행되어 가장 가능성 있는 워드 문장이 결정된다. 가장 가능성 있는 워드 문장이 최종 문장 예측이다. 예를 들어, "2" 및 "3"은 제1 및 제2 사용자 입력 인코딩 정보로서 각각 추가된다. 현 노드들은 "23", "3" 및 루트 노드이다. 인코딩 정보 "23"을 갖는 모든 워드가 단 하나의 워드를 갖는 워드 시퀀스이다. 이는 일종의 가능한 문장이다(
Figure 112006005770076-pat00064
은 가능성 문장이다). 인코딩 정보 "3"을 갖는 모든 워드는 인코딩 정보 "2"를 갖는 워드를 따를 수 있으며, 두 워드 시퀀스들 "2"-"3"을 형성할 수 있다. 이는 다른 종류의 가능한 문장(
Figure 112006005770076-pat00065
은 가능성 있는 문장이고,
Figure 112006005770076-pat00066
도 또한 가능성 있는 문장이다). 가장 가능성 있는 문장을 결정하는 방법은: 인코딩의 워드 시퀀스가 주어진 상황에서, I에 대응하는 가장 가능성 있는 워드 시퀀스
Figure 112006005770076-pat00067
를 찾는 것으로서 표현될 수 있다. 이러한 수학식의 한가지 솔루션은 수학식 4로 표현된다:
Figure 112006005770076-pat00068
Figure 112007020686058-pat00069
은 w1이 갖는 모든 품사의 집합이다.
Figure 112007020686058-pat00070
은 워드 wn의 품사 중 하나이다.
질문은 P(S)를 최대화하는 것이다. 수학식 5가 유추될 수 있다:
Figure 112006005770076-pat00071
Figure 112007020686058-pat00072
Figure 112007020686058-pat00073
은 각각 품사 유니그램 및 바이그램이다. 품사 바이그램 모델(도 2a에 도시된 사전 내의 파트(22))에 포함된다.
Figure 112007020686058-pat00074
은 워드 유니그램(도 2a에 도시된 사전 내의 파트(212))이다.
Figure 112007020686058-pat00075
은 워드에 따른 품사의 확률(사전의 다이어그램 내의 파트(214))이다.
단계(3646)에서, 문장 예측의 현 워드가 결정된다. 현 워드 후보들 및 예측 현 워드 후보들은 상기 워드의 패트리샤 트리 노드로부터 추론된다. 예를 들어, 문장 예측이
Figure 112006005770076-pat00076
이라고 가정하면, 현 워드는
Figure 112006005770076-pat00077
이다. 그 후, 현 워드에 대한 패트리샤 트리 노드는 노드 "3"이다. 따라서, 현 워드 후보 리스트는 하나의 워드
Figure 112006005770076-pat00078
만을 가지며, 예측 현 워드 후보 리스트는 어떠한 워드도 갖지 않는다.
마지막으로, 디스플레이 결과가 단계(3647)에서 출력되고, 프로세스는 단계(3641)로 돌아가서, 다른 사용자 입력 정보를 기다린다.
사용자 입력 정보가 사용자 액션이면, 단계(3648)는 결과들에 대한 몇몇 대응 조정을 실행한다. 예를 들어, 사용자가 현 워드 후보 리스트로부터 제2 워드를 선택하면, 문장 예측의 현 워드는 선택된 워드를 근거로 새로운 현 워드로 변경되어야 한다. 예를 들어, 사용자가 문장 예측 결과에 대해 "F2"(OK를 의미함)를 클릭하면, 도 11에 도시된 바와 같이, 문장 예측(3321)이 사용자 애플리케이션에 송신되고, 디지털 시퀀스(331) 및 영역(332)의 모든 결과들이 리셋된다.
도 15는 도 8a에 도시된 키보드를 사용하는 사용자 단말기 장치(3)의 일례의 입력 시퀀스를 도시한다. 본 도면에서, 사용자는 사용자 입력 단말기(32)의 제1 일례의 병음을 사용해서 중국어
Figure 112007020686058-pat00079
을 입력한다.
도 16은 본 발명의 제2 실시예에 따른 사용자 단말기 장치의 블록도를 도시한다. 도 7에 도시된 제1 실시예가 하나의 이동 단말기만을 포함하는 반면, 본 실시예는 두 파트들: 이동 단말기 및 컴퓨터를 도시한다. 두 실시예들 간의 차이점은, 본 실시예가 컴퓨터에서 사전 인덱싱 모듈(363)을 전개한다는 점이다. 사전 인덱싱 모듈(363)은 사전(2)을 처리하며 컴퓨터의 디스크에 사전 인덱스(366)를 출력한다. 그 후, 사전(2) 및 사전 인덱스(366)는 이동 단말기의 ROM(플래시)에 전송된다. 전송 프로세스는 이동 단말기 프로바이더에 의해 제공되는 툴에 의해 실행될 수 있다. 그 후, 사용자 입력 예측 및 조정 모듈(364)이 제1 실시예처럼 작동할 수 있다.
상술된 바로부터 알 수 있는 바와 같이, 일례의 실시예들이 상세히 기술되었지만, 본 기술 분야에 숙련된 자들은 첨부된 청구항들에 기재된 본 발명의 범위 및 원리 내에서 다양한 변경들, 추가들 및 치환들이 가능함을 알 것이다.
본 발명에 따라 다음과 같은 장점들이 제공된다.
1. 정련된 어휘집을 포함하는 사전이 학습될 수 있다. 정련된 어휘집은 자료로부터 학습된 다수의 주요 워드들 및 구절들을 포함한다.
2. 학습된 사전은 정련된 어휘집 및 몇몇 품사 정보를 포함한다. 문장 및 워드 예측 제공을 도울 수 있는 사전은 이동 핸드셋에서 전개될만큼 충분히 작다.
3. 사전은 패트리샤 트리 인덱스를 사용해서 인덱싱된다. 워드들을 신속하게 검색하도록 돕는다. 따라서, 문장 및 워드 예측은 쉽고 신속하게 달성될 수 있다. 상술된 장점들로 인해, 입력 속도가 향상될 수 있다.

Claims (33)

  1. 컴퓨터-구현 사전 학습 방법(a computer-implemented dictionary learning method)으로서,
    반복적으로, 비태그화 자료(untagged corpus)를 분할하고, 통계 언어 모델을 생성하고, 어휘집을 정련하는 단계; 및
    상기 어휘집, 상기 통계 언어 모델 및 보조 워드 인코딩 정보(subsidiary word encoding information)를 사전에 통합하는 단계
    를 포함하는 컴퓨터-구현 사전 학습 방법.
  2. 제1항에 있어서,
    품사 태그화 자료(Part-of-Speech tagged corpus)로부터 상기 어휘집의 각각의 워드에 대한 품사 정보(Part-of-Speech information) 및 품사 바이그램 모델(Part-of-Speech Bi-gram Model)을 획득하는 단계; 및
    상기 품사 정보 및 상기 품사 바이그램 모델을 사전에 추가하는 단계
    를 더 포함하는 컴퓨터-구현 사전 학습 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 보조 워드 인코딩 정보는 중국어 인코딩 정보를 포함하는
    컴퓨터-구현 사전 학습 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 보조 워드 인코딩 정보는 비-중국어 인코딩 정보를 포함하는
    컴퓨터-구현 사전 학습 방법.
  5. 제3항에 있어서,
    상기 중국어 인코딩 정보는 병음(Pinyin) 인코딩 정보 및 스트로크 인코딩 정보 중 적어도 하나를 포함하는
    컴퓨터-구현 사전 학습 방법.
  6. 제1항 또는 제2항에 있어서,
    반복적으로, 비태그화 자료(untagged corpus)를 분할하고, 통계 언어 모델을 생성하고, 어휘집을 정련하는 단계는,
    a) 상기 비태그화 자료를 워드 시퀀스로 분할하는 단계;
    b) 상기 워드 시퀀스를 사용해서 통계 언어 모델을 생성하는 단계 -상기 통계 언어 모델은 워드 유니그램 모델(Word Uni-gram Model) 및 워드 트리그램 모델(Word Tri-gram Model)을 포함함- ;
    c) 혼란성(perplexity)을 계산하고, 상기 혼란성이 처음으로 계산되는 것인지 또는 제1 임계값보다 큰 값으로 감소하는지를 결정하는 단계;
    d) c)의 결과가 긍정적인 경우, 워드 트리그램 모델에 의해 상기 자료를 워드 시퀀스로 다시 분할하고 단계 b)를 실행하는 단계;
    e) c)의 결과가 부정적인 경우, 새로운 워드들이 추가되고 중요하지 않은 워드들이 제거되도록 상기 통계 언어 모델을 근거로 상기 어휘집을 정련하는 단계; 및
    f) 상기 워드 유니그램 모델을 갱신하고, 유효하지 않은 상기 워드 트리그램 모델을 삭제하고, 상기 어휘집이 더 이상 변경되지 않을 때까지 단계 a)를 실행하는 단계
    를 포함하는 컴퓨터-구현 사전 학습 방법.
  7. 제6항에 있어서,
    단계 a)는 수학식
    Figure 112007020686058-pat00117
    에 따라 상기 비태그화 자료를 분할하고, 여기서
    Figure 112007020686058-pat00081
    는 워드 시퀀스
    Figure 112007020686058-pat00082
    를 나타내고,
    Figure 112007020686058-pat00083
    는 상기 워드 시퀀스의 가능성의 확률을 나타내며, 최적화된 워드 시퀀스는
    Figure 112007020686058-pat00084
    컴퓨터-구현 사전 학습 방법.
  8. 제7항에 있어서,
    단계 d)는 상기 어휘집을 근거로 최대 매칭을 사용해서 상기 자료를 재분할하는 단계를 포함하는
    컴퓨터-구현 사전 학습 방법.
  9. 제6항에 있어서,
    단계 a)는 상기 어휘집을 근거로 최대 매칭을 사용해서 상기 자료를 분할하는 단계를 포함하는
    컴퓨터-구현 사전 학습 방법.
  10. 제9항에 있어서,
    단계 d)는 상기 어휘집을 근거로 최대 매칭을 사용해서 상기 자료를 다시 분할하는 단계를 포함하는
    컴퓨터-구현 사전 학습 방법.
  11. 제6항에 있어서, 단계 e)는,
    e1) 새로운 워드 후보 리스트를 형성하기 위해, 제1 발생 카운트 임계값에 의해 모든 트리그램 엔트리들(Tri-gram entries) 및 바이그램 엔트리들(Bi-gram entries)을 필터링하는 단계;
    e2) 제1 후보들로서, 상호 정보 임계값에 의해 상기 새로운 워드 후보 리스트로부터의 모든 후보들을 필터링하는 단계;
    e3) 상기 새로운 워드 후보 리스트 내의 모든 제1 후보들의 상대 엔트로피(Relative Entropy)를 계산하고 이들을 상대 엔트로피 내림차순으로 정렬하는 단계;
    e4) 삭제된 워드 후보 리스트를 형성하기 위해, 제2 발생 카운트 임계값에 의해 상기 어휘집 내의 모든 워드들을 필터링하는 단계;
    e5) 상기 삭제된 워드 후보 리스트 내의 각 워드를, 제2 후보로서, 상기 어휘집의 일련의 다른 워드들로 분할하는 단계;
    e6) 상기 삭제된 워드 후보 리스트 내의 모든 제2 후보들의 상대 엔트로피를 계산하고 상대 엔트로피 오름차순으로 정렬하는 단계;
    e7) 추가되어야 하는 상기 제1 후보들의 수 및 삭제되어야 하는 상기 제2 후보들의 수를 결정하고 상기 어휘집을 갱신하는 단계
    를 포함하는 컴퓨터-구현 사전 학습 방법.
  12. 제11항에 있어서,
    단계 e2)는 수학식
    Figure 112007020686058-pat00085
    에 따라 모든 후보들의 상기 상호 정보를 계산하는 단계를 포함하고, 여기서
    Figure 112007020686058-pat00086
    는 워드 시퀀스이고,
    Figure 112007020686058-pat00087
    는 워드 시퀀스
    Figure 112007020686058-pat00088
    의 발생 빈도를 나타내며, n은 2 또는 3인
    컴퓨터-구현 사전 학습 방법.
  13. 사전 학습 장치로서,
    사전을 학습하는 사전 학습 프로세싱 모듈;
    비태그화 자료를 저장하는 메모리 유닛; 및
    상기 장치의 각각의 파트를 제어하는 제어 유닛
    을 포함하고,
    상기 사전 학습 프로세싱 모듈은,
    반복적으로, 상기 비태그화 자료(untagged corpus)를 분할하고, 통계 언어 모델을 생성하고, 어휘집을 정련하는 어휘집 및 통계 언어 모델 학습 유닛; 및
    상기 어휘집, 상기 통계 언어 모델 및 보조 워드 인코딩 정보를 사전에 통합하는 사전 통합 유닛을 포함하는
    사전 학습 장치.
  14. 제13항에 있어서,
    상기 메모리 유닛은 품사 태그화 자료를 더 저장하고,
    상기 사전 학습 프로세싱 모듈은,
    품사 태그화 자료로부터 상기 어휘집의 각각의 워드에 대한 품사 정보 및 품사 바이그램 모델을 획득하는 품사 학습 유닛; 및
    상기 품사 정보 및 상기 품사 바이그램 모델을 상기 사전에 추가하는 상기 사전 통합 유닛을 더 포함하는
    사전 학습 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 어휘집 및 통계 언어 모델 학습 유닛은,
    상기 비태그화 자료를 워드 시퀀스로 분할하고;
    상기 워드 시퀀스를 사용해서 상기 통계 언어 모델을 생성하고 -상기 통계 언어 모델은 워드 유니그램 모델 및 워드 트리그램 모델을 포함함-,
    혼란성이 처음으로 계산되는 것이 아니고 제1 임계값 보다 작은 수로 감소될 때까지, 상기 자료를 상기 워드 트리그램 모델에 의해 워드 시퀀스로 재분할하고, 상기 워드 시퀀스를 사용해서 상기 통계 언어 모델을 생성하는 것을 반복하고;
    새로운 워드들이 추가되고 중요하지 않은 워드들이 제거되도록 상기 통계 언어 모델을 근거로 상기 어휘집을 정련하고;
    상기 워드 유니그램 모델을 갱신하고, 유효하지 않은 워드 트리그램 모델을 삭제하며 상기 어휘집이 더 이상 변경되지 않을 때까지 상기 비태그화 자료를 워드 시퀀스로 분할하는 것을 반복함으로써,
    상기 어휘집 및 상기 통계 언어 모델을 상기 비태그화 자료로부터 학습하는
    사전 학습 장치.
  16. 제15항에 있어서,
    상기 어휘집 및 통계 언어 모델 학습 유닛은,
    새로운 워드 후보 리스트를 형성하기 위해, 제1 발생 카운트 임계값에 의해 모든 트리그램 엔트리들 및 바이그램 엔트리들을 필터링하고;
    제1 후보들로서, 상호 정보 임계값에 의해 상기 새로운 워드 후보 리스트로부터의 모든 후보들을 필터링하고;
    상기 새로운 워드 후보 리스트의 모든 제1 후보들의 상대 엔트로피를 계산하고 이들을 상대 엔트로피의 내림차순으로 정렬하고;
    삭제된 워드 후보 리스트를 형성하기 위해, 제2 발생 카운트 임계값에 의해 상기 어휘집의 모든 워드들을 필터링하고;
    상기 삭제된 워드 후보 리스트의 각각의 워드를 제2 후보들로서 상기 어휘집 내의 일련의 다른 워드들로 분할하고;
    상기 삭제된 워드 후보 리스트 내의 모든 제2 후보들의 상대 엔트로피를 계산하고 이들을 상대 엔트로피의 오름차순으로 정렬하고;
    추가되어야 하는 상기 제1 후보들의 수 및 삭제되어야 하는 상기 제2 후보들의 수를 결정하고 상기 어휘집을 갱신함으로써
    상기 어휘집을 정련하는
    사전 학습 장치.
  17. 제13항에 있어서,
    상기 보조 워드 인코딩 정보는 중국어 인코딩 정보를 포함하는
    사전 학습 장치.
  18. 제13항에 있어서,
    상기 보조 워드 인코딩 정보는 비-중국어 인코딩 정보를 포함하는
    사전 학습 장치.
  19. 제17항에 있어서,
    상기 중국어 인코딩 정보가 병음 인코딩 정보 및 스트로크 인코딩 정보 중 적어도 하나를 포함하는
    사전 학습 장치.
  20. 사용자 입력을 처리하기 위한 입력 방법으로서,
    사용자 입력을 수신하는 수신 단계;
    상기 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하는 해석 단계 -사전 내의 각각의 워드에 대한 상기 인코딩 정보는 상기 사전을 근거로 미리 획득됨-;
    상기 인코딩 정보 또는 상기 사용자 액션이 수신되었을 때, 상기 사전 내의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스(Patricia Tree index)를 사용해서 문장 및 워드 예측을 제공하고, 상기 사용자 액션에 따라 상기 문장 및 워드 예측을 조정하는 사용자 입력 예측 및 조정 단계; 및
    상기 문장 및 워드 예측 결과를 디스플레이하는 디스플레이 단계
    를 포함하는 사용자 입력을 처리하기 위한 입력 방법.
  21. 제20항에 있어서,
    상기 수신 단계는 중국어 입력을 수신하는
    사용자 입력을 처리하기 위한 입력 방법.
  22. 제20항에 있어서,
    상기 수신 단계는 비-중국어 입력을 수신하는
    사용자 입력을 처리하기 위한 입력 방법.
  23. 제21항에 있어서,
    상기 중국어 입력은 병음 입력, 스트로크 입력 및 펜 트레이스 입력(pen trace input) 중 하나를 포함하는
    사용자 입력을 처리하기 위한 입력 방법.
  24. 제20항에 있어서, 상기 사용자 입력 예측 및 조정 단계는,
    a) 상기 해석된 인코딩 정보 또는 사용자 액션을 수신하는 단계;
    b) 수신된 것이 상기 사용자 액션인 경우 상기 예측 결과를 변경하고 하기 단계 h)를 실행하는 단계;
    c) 상기 인코딩 정보에 따라 모든 현재의 패트리샤 트리 노드들로부터 상기 패트리샤 트리 인덱스의 모든 가능한 새로운 패트리샤 트리 노드들을 탐색하는 단계;
    d) 어떠한 새로운 패트리샤 트리 노드도 없는 경우 상기 인코딩 정보를 무시하고 모든 탐색 결과들 및 상태를 복원하고 단계 a)를 실행하는 단계;
    e) 새로운 패트리샤 트리 노드가 하나라도 있는 경우 현재의 패트리샤 트리 노드들로서 새로운 패트리샤 트리 노드들을 설정하는 단계;
    f) 상기 현재의 패트리샤 트리 노드들로부터 모든 가능한 워드들을 탐색하고 문장 예측을 제공하는 단계;
    g) 상기 문장 예측의 결과로부터 현재 워드를 결정하고, 워드 예측을 제공하는 단계 - 상기 워드 예측은 워드 후보 리스트 및 예측 워드 후보 리스트를 포함함- ; 및
    h) 상기 예측된 결과를 디스플레이에 출력하고 단계 a)를 실행하도록 복귀하는 단계
    를 포함하는
    사용자 입력을 처리하기 위한 입력 방법.
  25. 제24항에 있어서,
    단계 f)는 하기의 수학식
    Figure 112007020686058-pat00089
    에 따라 가장 가능성 있는 워드 시퀀스를 예측 문장으로서 결정함으로써 상기 문장 예측을 제공하고, 여기서
    Figure 112007020686058-pat00090
    은 워드 w1이 갖는 모든 품사의 집합이고;
    Figure 112007020686058-pat00091
    은 워드 wn의 상기 품사 중 하나이며;
    Figure 112007020686058-pat00092
    Figure 112007020686058-pat00093
    은 각각 품사 유니그램 및 품사 바이그램이고;
    Figure 112007020686058-pat00094
    은 워드 유니그램이며;
    Figure 112007020686058-pat00095
    은 워드에 대응하는 품사의 확률인
    사용자 입력을 처리하기 위한 입력 방법.
  26. 사용자 입력을 처리하기 위한 사용자 단말기 장치로서,
    사용자 입력을 수신하는 사용자 입력 단말기;
    패트리샤 트리 인덱스를 포함하는 사전 인덱스 및 사전을 저장하는 메모리 유닛;
    상기 사용자 입력을 근거로 문장 및 워드 예측을 제공하는 입력 프로세싱 유닛; 및
    상기 문장 및 워드 예측의 결과를 디스플레이하는 디스플레이
    를 포함하고,
    상기 입력 프로세싱 유닛은,
    상기 사용자 입력을 인코딩 정보 또는 사용자 액션으로 해석하는 입력 인코딩 인터프리터 -상기 사전 내의 각각의 워드에 대한 상기 인코딩 정보는 상기 사전에 기초하여 미리 획득됨- ; 및
    상기 인코딩 정보 또는 상기 사용자 액션이 수신되었을 때, 상기 사전 내의 통계 언어 모델 및 품사 바이그램 모델을 근거로 사전 인덱스의 패트리샤 트리 인덱스를 사용해서 문장 및 워드 예측을 제공하고, 상기 사용자 액션에 따라 상기 문장 및 워드 예측을 조정하는 사용자 입력 예측 및 조정 모듈을 포함하는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
  27. 제26항에 있어서,
    상기 입력 프로세싱 유닛은, 상기 사전의 각각의 워드 엔트리에 대한 인코딩 정보를 제공하고, 인코딩 정보 및 워드 유니그램에 의해 모든 워드 엔트리들을 정렬하고, 패트리샤 트리 인덱스를 생성하며 이를 상기 사전 인덱스에 추가하는 사전 인덱싱 모듈을 더 포함하는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
  28. 제26항 또는 제27항에 있어서,
    상기 사용자 입력 예측 및 조정 모듈은,
    상기 해석된 인코딩 정보 또는 사용자 액션을 수신하고;
    상기 수신된 정보가 상기 사용자 액션인 경우 상기 예측된 결과를 변경하고 그 결과를 디스플레이에 출력하고;
    상기 수신된 정보가 상기 인코딩 정보인 경우 모든 현재 패트리샤 트리 노드들로부터 상기 패트리샤 트리 인덱스의 모든 가능한 새로운 패트리샤 트리 노드들을 탐색하고;
    어떠한 새로운 패트리샤 트리 노드도 없는 경우 상기 인코딩 정보를 무시하고 모든 탐색 결과들 및 상태를 복원하고, 상기 해석된 인코딩 정보 또는 사용자 액션을 수신하는 것을 반복하고;
    새로운 패트리샤 트리 노드가 하나라도 있는 경우 현재 패트리샤 트리 노드들로서 새로운 패트리샤 트리 노드들을 설정하고;
    상기 현재 패트리샤 트리 노드들로부터 모든 가능한 워드들을 탐색하고 문장 예측을 제공하고;
    상기 문장 예측의 결과로부터 현재 워드를 결정하고, 워드 예측을 제공하고 -상기 워드 예측은 워드 후보 리스트 및 예측 워드 후보 리스트를 포함함- ; 및
    상기 예측 결과를 디스플레이에 출력함으로써
    상기 문장 및 워드 예측을 제공하고 상기 예측을 조정하는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
  29. 제26항에 있어서,
    상기 사용자 입력 단말기는 중국어 입력을 위해 사용되는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
  30. 제26항에 있어서,
    상기 사용자 입력 단말기는 비-중국어 입력을 위해 사용되는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
  31. 제29항에 있어서,
    상기 사용자 입력 단말기는 각각의 디지털 버튼이 수개의 병음 코드들을 나타내는 디지털 키보드일 수 있는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
  32. 제29항에 있어서,
    상기 사용자 입력 단말기는 각각의 디지털 버튼이 수개의 스트로크 코드들을 나타내는 디지털 키보드일 수 있는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
  33. 제29항에 있어서,
    상기 사용자 입력 단말기는 터치패드일 수 있는
    사용자 입력을 처리하기 위한 사용자 단말기 장치.
KR1020060007697A 2005-01-31 2006-01-25 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치 KR100766169B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNB2005100067089A CN100530171C (zh) 2005-01-31 2005-01-31 字典学习方法和字典学习装置
CN200510006708.9 2005-01-31

Publications (2)

Publication Number Publication Date
KR20060088027A KR20060088027A (ko) 2006-08-03
KR100766169B1 true KR100766169B1 (ko) 2007-10-10

Family

ID=36384403

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060007697A KR100766169B1 (ko) 2005-01-31 2006-01-25 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치

Country Status (6)

Country Link
US (1) US20060206313A1 (ko)
EP (1) EP1686493A3 (ko)
JP (1) JP2006216044A (ko)
KR (1) KR100766169B1 (ko)
CN (1) CN100530171C (ko)
TW (1) TW200729001A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101186166B1 (ko) 2009-12-17 2012-10-02 정철 휴대용 학습 단말기
KR20230007775A (ko) 2021-07-06 2023-01-13 국민대학교산학협력단 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치
KR20230014034A (ko) 2021-07-20 2023-01-27 국민대학교산학협력단 분류 정확도 향상을 위한 선택적 마스킹 기반 추가 사전 학습 방법 및 장치

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN101405683A (zh) * 2006-02-10 2009-04-08 字源加拿大公司 识别表意字符的方法和系统
US7646894B2 (en) * 2006-02-14 2010-01-12 Microsoft Corporation Bayesian competitive model integrated with a generative classifier for unspecific person verification
JP4156639B2 (ja) * 2006-08-14 2008-09-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声インターフェースの設計を支援するための装置、方法、プログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7698326B2 (en) * 2006-11-27 2010-04-13 Sony Ericsson Mobile Communications Ab Word prediction
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US20080249762A1 (en) * 2007-04-05 2008-10-09 Microsoft Corporation Categorization of documents using part-of-speech smoothing
WO2009000103A1 (en) * 2007-06-25 2008-12-31 Google Inc. Word probability determination
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
DE602008005428D1 (de) * 2008-06-11 2011-04-21 Exb Asset Man Gmbh Vorrichtung und Verfahren mit verbessertem Texteingabemechanismus
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
CN101833547B (zh) * 2009-03-09 2015-08-05 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法
CN102439540B (zh) * 2009-03-19 2015-04-08 谷歌股份有限公司 输入法编辑器
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP2488963A1 (en) * 2009-10-15 2012-08-22 Rogers Communications Inc. System and method for phrase identification
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
JP5605288B2 (ja) * 2011-03-31 2014-10-15 富士通株式会社 出現マップ生成方法、ファイル抽出方法、出現マップ生成プログラム、ファイル抽出プログラム、出現マップ生成装置、およびファイル抽出装置
US8914275B2 (en) * 2011-04-06 2014-12-16 Microsoft Corporation Text prediction
US20120290291A1 (en) * 2011-05-13 2012-11-15 Gabriel Lee Gilbert Shelley Input processing for character matching and predicted word matching
CN102253929A (zh) * 2011-06-03 2011-11-23 北京搜狗科技发展有限公司 一种提示用户输入字符的方法和装置
CN103106214B (zh) * 2011-11-14 2016-02-24 索尼爱立信移动通讯有限公司 一种候选词组输出方法和电子设备
JP5373998B1 (ja) * 2012-02-28 2013-12-18 楽天株式会社 辞書生成装置、方法、及びプログラム
US8818791B2 (en) * 2012-04-30 2014-08-26 Google Inc. Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9380009B2 (en) * 2012-07-12 2016-06-28 Yahoo! Inc. Response completion in social media
US9824085B2 (en) * 2012-08-31 2017-11-21 Microsoft Technology Licensing, Llc Personal language model for input method editor
US20140078065A1 (en) * 2012-09-15 2014-03-20 Ahmet Akkok Predictive Keyboard With Suppressed Keys
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103096154A (zh) * 2012-12-20 2013-05-08 四川长虹电器股份有限公司 基于传统遥控器的拼音输入方法
CN103077213A (zh) * 2012-12-28 2013-05-01 中山大学 一种应用于机顶盒的输入方法及其装置
US9047268B2 (en) * 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2015166606A1 (ja) * 2014-04-29 2015-11-05 楽天株式会社 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104199541A (zh) * 2014-08-08 2014-12-10 乐视网信息技术(北京)股份有限公司 基于笔画输入进行搜索的方法及装置
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10776710B2 (en) 2015-03-24 2020-09-15 International Business Machines Corporation Multimodal data fusion by hierarchical multi-view dictionary learning
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR101960434B1 (ko) * 2016-12-27 2019-03-20 주식회사 와이즈넛 음성 파일에 태깅을 실행하는 기계학습용 태깅 방법
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107329585A (zh) * 2017-06-28 2017-11-07 北京百度网讯科技有限公司 用于输入文字的方法和装置
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
US20200019641A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Responding to multi-intent user input to a dialog system
CN110908523B (zh) * 2018-09-14 2024-08-20 北京搜狗科技发展有限公司 一种输入方法及装置
CN113589946B (zh) * 2020-04-30 2024-07-26 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN113609844B (zh) * 2021-07-30 2024-03-08 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN113918030B (zh) * 2021-09-30 2024-10-15 北京搜狗科技发展有限公司 一种手写输入方法、装置和用于手写输入的装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000035144A (ko) * 1998-11-02 2000-06-26 케니스 에스 케이플랜 운두가 깊은 튀김기의 열교환기용 배플
KR20040070523A (ko) * 2003-02-03 2004-08-11 남 영 김 온라인 3차원오목 게임

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268840A (en) * 1992-04-30 1993-12-07 Industrial Technology Research Institute Method and system for morphologizing text
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
US5991712A (en) * 1996-12-05 1999-11-23 Sun Microsystems, Inc. Method, apparatus, and product for automatic generation of lexical features for speech recognition systems
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
JP4302326B2 (ja) * 1998-11-30 2009-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストの自動区分
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US6731802B1 (en) * 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
US6782357B1 (en) * 2000-05-04 2004-08-24 Microsoft Corporation Cluster and pruning-based language model compression
US6879722B2 (en) * 2000-12-20 2005-04-12 International Business Machines Corporation Method and apparatus for statistical text filtering
US7418386B2 (en) * 2001-04-03 2008-08-26 Intel Corporation Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system
US6947771B2 (en) * 2001-08-06 2005-09-20 Motorola, Inc. User interface for a portable electronic device
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
US6847311B2 (en) * 2002-03-28 2005-01-25 Motorola Inc. Method and apparatus for character entry in a wireless communication device
US7158930B2 (en) * 2002-08-15 2007-01-02 Microsoft Corporation Method and apparatus for expanding dictionaries during parsing
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000035144A (ko) * 1998-11-02 2000-06-26 케니스 에스 케이플랜 운두가 깊은 튀김기의 열교환기용 배플
KR20040070523A (ko) * 2003-02-03 2004-08-11 남 영 김 온라인 3차원오목 게임

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101186166B1 (ko) 2009-12-17 2012-10-02 정철 휴대용 학습 단말기
KR20230007775A (ko) 2021-07-06 2023-01-13 국민대학교산학협력단 신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 방법 및 장치
KR20230014034A (ko) 2021-07-20 2023-01-27 국민대학교산학협력단 분류 정확도 향상을 위한 선택적 마스킹 기반 추가 사전 학습 방법 및 장치

Also Published As

Publication number Publication date
CN100530171C (zh) 2009-08-19
EP1686493A2 (en) 2006-08-02
US20060206313A1 (en) 2006-09-14
EP1686493A3 (en) 2008-04-16
TW200729001A (en) 2007-08-01
CN1815467A (zh) 2006-08-09
KR20060088027A (ko) 2006-08-03
JP2006216044A (ja) 2006-08-17

Similar Documents

Publication Publication Date Title
KR100766169B1 (ko) 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치
US11614862B2 (en) System and method for inputting text into electronic devices
US11416679B2 (en) System and method for inputting text into electronic devices
US10402493B2 (en) System and method for inputting text into electronic devices
US9026428B2 (en) Text/character input system, such as for use with touch screens on mobile phones
JP5501625B2 (ja) 不確定なテキスト入力から明確な文字をフィルタリングする装置及び方法
KR100891358B1 (ko) 사용자의 다음 문자열 입력을 예측하는 글자 입력 시스템및 그 글자 입력 방법
KR100552085B1 (ko) 감소된 키보드 명확화 시스템
US7395203B2 (en) System and method for disambiguating phonetic input
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
WO2009149924A1 (en) Device and method incorporating an improved text input mechanism
JP2005202917A (ja) 表音入力の曖昧さを除くためのシステムおよび方法
JP3532780B2 (ja) 音声仮名文字の入力順序を生成するための入力システム
JP3492981B2 (ja) 音声仮名文字の入力順序を生成するための入力システム
CN101266599A (zh) 字典学习方法以及使用该方法的装置,输入方法以及使用该方法的用户终端装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120903

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130422

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140929

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150924

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee