KR20050043884A - 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템 - Google Patents
중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템 Download PDFInfo
- Publication number
- KR20050043884A KR20050043884A KR1020057000082A KR20057000082A KR20050043884A KR 20050043884 A KR20050043884 A KR 20050043884A KR 1020057000082 A KR1020057000082 A KR 1020057000082A KR 20057000082 A KR20057000082 A KR 20057000082A KR 20050043884 A KR20050043884 A KR 20050043884A
- Authority
- KR
- South Korea
- Prior art keywords
- syllable
- index
- array
- syllables
- word
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
Claims (21)
- 중국어 핀인 음절을 중국어 한자 음절로 변환하는데 사용하기 위한 언어 데이타 구조체로서,각각이 핀인 음절과 관련된 한자 문자 후보를 포함하고, 각각의 한자 문자 후보가 리스트 내의 인덱스를 갖는 복수의 한자 문자 후보 리스트와;각각이 복수의 핀인 음절을 갖는 워드에 대응하고 키 및 값을 포함하는 복수의 언어 데이타 레코드를 구비하며,각각의 언어 데이타 레코드내의 키는 언어 데이타 레코드가 대응하는 워드의 핀인 음절에 대한 인덱스 및 어조 정보의 시퀀스를 포함하며, 각각의 언어 데이타 레코드내의 값은 한자 문자 후보의 인덱스의 시퀀스를 워드의 핀인 음절과 각각 관련된 후보의 리스트에 포함하며, 그 후보들은 워드의 핀인 음절을 표현하는 것인 언어 데이타 구조체.
- 제1항에 있어서, 각각의 데이타 레코드는 길이에 있어서 전체 수의 바이트인 것인 언어 데이타 구조체.
- 제1항에 있어서, 각각의 핀인 음절에 대한 인덱스 및 음조 정보는 데이타 레코드에 2 바이트로 저장되는 것인 언어 데이타 구조체.
- 제3항에 있어서, 인덱스는 10비트 길이이며, 음조 정보는 5비트 길이인 것인 언어 데이타 구조체.
- 제1항에 있어서, 복수의 언어 데이타 레코드는 복수의 어레이로 저장되며, 각각의 어레이는 동일한 수의 핀인 음절을 갖는 워드에 대응하는 언어 데이타 레코드를 저장하는 것인 언어 데이타 구조체.
- 제5항에 있어서, 복수의 어레이의 각각에서의 언어 데이타 레코드는 인덱스 및 음조 정보의 시퀀스에서의 제1 인덱스에 기초하여 저장되는 것인 언어 데이타 구조체.
- 제1항에 있어서, 핀인 음절과 관련된 핀인 음절 식별자의 어레이를 더 포함하며, 워드의 핀인 음절의 인덱스는 워드의 핀인 음절과 각각 관련된 식별자의, 핀인 음절 식별자의 어레이에서의 인덱스인 것인 언어 데이타 구조체.
- 제7항에 있어서, 각각의 음절은 N개 문자의 알파벳으로부터의 n+1개의 문자를 포함하며, 식별자는 다음의 수식에 따라 결정되며,ID = index0*(N0) + index1*(N1) + … + indexn*(N n)여기서, index0는 음절에서의 첫번째 문자의 인덱스이고, index1은 음절에서의 두번째 문자의 인덱스이며, indexn은 음절에서의 (n+1)번째 문자의 인덱스이고, N은 음절 구성을 위해 사용된 문자의 가장 높은 인덱스인 것인 언어 데이타 구조체.
- 제7항에 있어서, 보포모포 음절과 관련된 중국어 보포모포 음절 식별자의 어레이와, 각각의 핀인 음절 식별자와 그 대응 보포모포 음절 식별자간의 대응을 나타내주는 대응 어레이를 더 포함하는 것인 언어 데이타 구조체.
- 제1항에 있어서, 복수의 데이타 레코드는 2-음절 워드에 대한 언어 데이타 레코드를 포함하며, 2-음절 워드에 대한 각각의 언어 데이타는,2-음절 워드에서의 두번째 핀인 음절의 인덱스와 2-음절 워드에서의 첫번째 핀인 음절 및 두번째 핀인 음절에 대한 음조 정보를 포함하는 키와;첫번째 핀인 음절 및 두번째 핀인 음절을 표현하는, 첫번째 핀인 음절 및 두번째 핀인 음절과 각각 관련된 후보의 리스트에서의, 한자 문자 후보의 인덱스의 시퀀스를 포함하는 값을 포함하는 것인 언어 데이타 구조체.
- 제10항에 있어서, 2-음절 워드에 대한 언어 데이타 레코드는 데이타 레코드 어레이에 저장되며, 2-음절 워드에 대한 언어 데이타 레코드의 각각은 첫번째 핀인 음절과 관련된 변형이며, 동일한 첫번째 핀인 음절과 관련된 변형은 데이타 레코드 어레이로 그룹화되며, 언어 데이타 구조는 첫번째 핀인 음절과 관련된 제1 변형의, 데이타 레코드 어레이에서의, 오프셋을 각각 포함하는 오프셋의 어레이를 더 포함하는 것인 언어 데이타 구조체.
- 중국어 언어 데이타를 작성하는 방법으로서,복수의 중국어 핀인 음절의 각각에 대한 식별자를 생성하는 단계와;생성된 식별자를, 식별자의 어레이에서의 식별자가 어레이 인덱스를 갖도록 식별자의 어레이로 저장하는 단계와;핀인 음절과 관련된 한자 문자 후보를 포함하는 복수의 한자 문자 후보 리스트를, 각각의 리스트 내의 각각의 한자 문자 후보가 리스트 내에 후보 인덱스를 갖도록 생성하는 단계와;다수의 핀인 음절을 갖는 복수의 워드의 각각에 대하여, 키와 값을 포함하는 데이타 레코드를 생성하는 단계를 포함하며, 상기 키는 다수의 핀인 음절의 각각에 대하여 식별자의 어레이 내에 식별자의 어레이 인덱스와, 다수의 핀인 음절의 각각에 대한 음조 정보를 포함하며, 상기 값은 다수의 핀인 음절의 각각을 표현하는 후보의, 다수의 핀인 음절의 각각과 관련된 후보의 리스트 내에서의, 후보 인덱스를 포함하는 것인 중국어 언어 데이타의 작성 방법.
- 제12항에 있어서, 식별자의 어레이를 식별자의 증가 순서로 저장하는 단계를 더 포함하는 것인 중국어 언어 데이타의 작성 방법.
- 제12항에 있어서, 상기 데이타 레코드를 생성하는 단계는 복수의 2-음절 워드의 각각에 대한 키와 값을 포함하는 데이타 레코드를 생성하는 단계를 포함하며, 상기 키는 2-음절 워드에서의 두번째 핀인 음절에 대한 식별자의 어레이에서의 식별자의 어레이 인덱스와, 2-음절 워드에서의 첫번째 핀인 음절과 두번째 핀인 음절에 대한 음조 정보를 포함하며, 상기 값은 첫번째 핀인 음절과 두번째 핀인 음절의 각각을 표현하는 후보의, 첫번째 핀인 음절과 두번째 핀인 음절의 각각과 관련된 후보의 리스트에서의, 후보 리스트를 포함하는 것인 중국어 언어 데이타의 작성 방법.
- 제14항에 있어서, 동일한 첫번째 핀인 음절을 갖는 2-음절 워드에 대한 데이타 레코드가 데이타 레코드 어레이에서 그룹화되도록, 2-음절 워드에 대한 데이타 레코드를 데이타 레코드 어레이에 저장하는 단계와;첫번째의 핀인 음절과 관련된 제1 데이타 레코드의, 데이타 레코드 어레이에서의, 오프셋을 각각 포함하는 오프셋의 어레이를 생성하는 단계를 더 포함하는 것인 중국어 언어 데이타의 작성 방법.
- 제12항에 있어서, 데이타 레코드를 복수의 데이타 레코드 어레이 중의 하나에 저장하는 단계를 더 포함하며, 각각의 어레이는 소정수의 핀인 음절을 갖는 워드에 대응하는 데이타 레코드를 저장하는 것인 중국어 언어 데이타의 작성 방법.
- 제16항에 있어서, 복수의 데이타 레코드 어레이의 각각에서의 데이타 레코드는 각각의 데이타 레코드에서의 제1 어레이 인덱스에 기초하여 저장되는 것인 중국어 언어 데이타의 작성 방법.
- 중국어 핀인 음절을 중국어 한자 문자로 변환하기 위해 중국어 언어 데이타를 사용하는 시스템으로서, 언어 데이타가 핀인 음절과 각각 관련된 복수의 한자 문자 후보 리스트와, 복수의 언어 데이타 레코드를 포함하며, 각각의 리스트내의 각각의 한자 문자 후보가 리스트 내에서의 인덱스를 가지며, 각각의 언어 데이타 레코드가 복수의 핀인 음절을 갖는 워드에 대응하고, 키와 값을 포함하며, 각각의 언어 데이타 레코드 내의 키가 인덱스의 시퀀스와, 언어 데이타 레코드가 대응하는 워드의 핀인 음절에 대한 음조 정보를 포함하며, 각각의 언어 데이타 레코드 내의 값이 워드의 핀인 음절을 표현하는, 워드의 핀인 음절과 각각 관련된 후보의 리스트 내에서의, 한자 문자 후보의 인덱스의 시퀀스를 포함하는 시스템에 있어서,핀인 음절을 구성하기 위한 복수의 문자를 표현하는 키를 갖는 키보드와;키보드로부터의 입력 핀인 음절을 수신하도록 구성된 입력 대기열과;복수의 한자 문자 후보 리스트 및 복수의 데이타 레코드를 저장하도록 구성된 메모리와;상기 메모리 및 입력 대기열에 연산 가능하게 접속되고 입력 핀인 음절을 입력 워드로 단편화하도록 구성되어, 입력 핀인 음절을 포함한 각각의 입력 워드에 각각 대응하는 언어 데이타 레코드에 대하여 언어 데이타 레코드를 검색하고, 각각의 입력 워드를 대응하는 데이타 레코드 내의 한자 문자 후보 인덱스를 사용하여 중국어 한자 문자 후보로 변환하는 입력 프로세서와;디스플레이 장치와;상기 디스플레이 장치와 입력 프로세서 사이에 접속되어, 디스플레이 장치 상에 입력 핀인 음절을 디스플레이하고, 입력 핀인 음절이 입력 프로세서에 의해 변환될 때 입력 핀인 음절을 중국어 한자 문자 후보로 대체하는 사용자 인터페이스를 구비하는 것인 시스템.
- 제18항에 있어서, 상기 입력 대기열은 하나 또는 그 이상의 입력 핀인 음절을 표현하는 선택된 한자 문자를 식별하는 한자 문자 선택 입력을 수신하도록 구성되며, 상기 입력 프로세서는 한자 문자 선택 입력이 수신되었는지의 여부를 판정하고 한자 문자 선택 입력이 수신된 경우 하나 또는 그 이상의 입력 핀인 음절 입력을 선택된 한자 문자로 변환하도록 구성되는 것인 시스템.
- 제19항에 있어서, 상기 입력 프로세서는 하나 또는 그 이상의 입력 핀인 음절을 포함하는 신규 워드를 형성하도록 구성되어, 신규 워드에 대응하는 신규 데이타 레코드를 생성하고 신규 데이타 레코드를 메모리에 저장하는 것인 시스템.
- 제20항에 있어서, 상기 입력 프로세서는 언어 데이타 레코드와, 각각의 입력 워드에 대응하는 데이타 레코드에 대한 임의의 신규 데이타 레코드를 검색하도록 구성되는 것인 시스템.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US39394802P | 2002-07-03 | 2002-07-03 | |
US60/393,948 | 2002-07-03 | ||
CA002413055A CA2413055C (en) | 2002-07-03 | 2002-11-27 | Method and system of creating and using chinese language data and user-corrected data |
US10/305,563 US7228267B2 (en) | 2002-07-03 | 2002-11-27 | Method and system of creating and using Chinese language data and user-corrected data |
CA2,413,055 | 2002-11-27 | ||
US10/305,563 | 2002-11-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050043884A true KR20050043884A (ko) | 2005-05-11 |
KR100712001B1 KR100712001B1 (ko) | 2007-04-30 |
Family
ID=30118652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057000082A KR100712001B1 (ko) | 2002-07-03 | 2003-07-03 | 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템 |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP1522027B8 (ko) |
JP (2) | JP2005531858A (ko) |
KR (1) | KR100712001B1 (ko) |
CN (1) | CN100561469C (ko) |
AT (1) | ATE329317T1 (ko) |
AU (1) | AU2003250637A1 (ko) |
DE (1) | DE60305922T2 (ko) |
WO (1) | WO2004006123A2 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2008136376A (ru) * | 2006-02-10 | 2010-03-20 | Зи Корпорейшн Оф Канада, Инк. (Ca) | Способ и устройство идентифицирования идеографического знака |
CN102609455B (zh) * | 2012-01-12 | 2014-12-03 | 北京中科大洋科技发展股份有限公司 | 一种实现汉语同音字检索的方法 |
CN107066104B (zh) * | 2016-11-14 | 2020-12-11 | 高商展 | 电脑汉英互读互译键盘最佳键位 |
CN109901727A (zh) * | 2019-03-06 | 2019-06-18 | 上海依智医疗技术有限公司 | 一种获取文字纠错信息的方法和装置 |
CN111354339B (zh) * | 2020-03-05 | 2023-11-03 | 深圳前海微众银行股份有限公司 | 词汇音素表构建方法、装置、设备及存储介质 |
CN113343639B (zh) * | 2021-05-19 | 2023-10-03 | 网易(杭州)网络有限公司 | 产品标识码图生成、基于产品标识码图的信息查询方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
FI112978B (fi) * | 1999-09-17 | 2004-02-13 | Nokia Corp | Symbolien syöttö |
-
2003
- 2003-07-03 AU AU2003250637A patent/AU2003250637A1/en not_active Abandoned
- 2003-07-03 AT AT03762373T patent/ATE329317T1/de not_active IP Right Cessation
- 2003-07-03 EP EP03762373A patent/EP1522027B8/en not_active Expired - Lifetime
- 2003-07-03 WO PCT/CA2003/001024 patent/WO2004006123A2/en active IP Right Grant
- 2003-07-03 KR KR1020057000082A patent/KR100712001B1/ko active IP Right Grant
- 2003-07-03 JP JP2004518332A patent/JP2005531858A/ja active Pending
- 2003-07-03 DE DE60305922T patent/DE60305922T2/de not_active Expired - Lifetime
- 2003-07-03 CN CNB038208431A patent/CN100561469C/zh not_active Expired - Lifetime
-
2006
- 2006-11-17 JP JP2006312021A patent/JP2007042146A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
KR100712001B1 (ko) | 2007-04-30 |
EP1522027B1 (en) | 2006-06-07 |
JP2007042146A (ja) | 2007-02-15 |
WO2004006123A2 (en) | 2004-01-15 |
EP1522027B8 (en) | 2006-08-16 |
CN1679023A (zh) | 2005-10-05 |
ATE329317T1 (de) | 2006-06-15 |
JP2005531858A (ja) | 2005-10-20 |
DE60305922T2 (de) | 2007-04-26 |
AU2003250637A1 (en) | 2004-01-23 |
AU2003250637A8 (en) | 2004-01-23 |
EP1522027A2 (en) | 2005-04-13 |
DE60305922D1 (de) | 2006-07-20 |
CN100561469C (zh) | 2009-11-18 |
WO2004006123A3 (en) | 2004-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7512533B2 (en) | Method and system of creating and using chinese language data and user-corrected data | |
US8803812B2 (en) | Apparatus and method for input of ideographic Korean syllables from reduced keyboard | |
US8726148B1 (en) | Method and apparatus for processing text and character data | |
JP3579351B2 (ja) | 日本語文字用ユーザインターフェースを実現するためのシステムおよび方法 | |
US5682158A (en) | Code converter with truncation processing | |
US5784069A (en) | Bidirectional code converter | |
US5721899A (en) | Retrieval apparatus using compressed trie node and retrieval method thereof | |
JP4286299B2 (ja) | 日本語仮想辞書 | |
JP2007042146A (ja) | 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム | |
US20050251519A1 (en) | Efficient language-dependent sorting of embedded numerics | |
EP1691298B1 (en) | Method and system of creating and using Chinese language data and user-corrected data | |
EP1665009B1 (en) | Apparatus and method for input of ideographic korean syllables from reduced keyboard | |
EP0852037B1 (en) | Unicode converter | |
JP3938087B2 (ja) | 言語入力システム及び方法 | |
JPS6246029B2 (ko) | ||
JP4061283B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JPH09179860A (ja) | キーボード入力値自動補正システム | |
JP2006099672A (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JPH03164859A (ja) | かな漢字変換装置 | |
KR20040062223A (ko) | 축소 키보드를 이용한 문자열 목록의 선택 및 노래반주기선곡 방법 | |
JPH0625990B2 (ja) | 中文自動区切入力方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130403 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140407 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160408 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170411 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180405 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20190410 Year of fee payment: 13 |