KR20050043884A - 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템 - Google Patents

중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템 Download PDF

Info

Publication number
KR20050043884A
KR20050043884A KR1020057000082A KR20057000082A KR20050043884A KR 20050043884 A KR20050043884 A KR 20050043884A KR 1020057000082 A KR1020057000082 A KR 1020057000082A KR 20057000082 A KR20057000082 A KR 20057000082A KR 20050043884 A KR20050043884 A KR 20050043884A
Authority
KR
South Korea
Prior art keywords
syllable
index
array
syllables
word
Prior art date
Application number
KR1020057000082A
Other languages
English (en)
Other versions
KR100712001B1 (ko
Inventor
푹스바딤
콜로미에츠세르게프브이
Original Assignee
2012244 온타리오 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CA002413055A external-priority patent/CA2413055C/en
Application filed by 2012244 온타리오 인크. filed Critical 2012244 온타리오 인크.
Publication of KR20050043884A publication Critical patent/KR20050043884A/ko
Application granted granted Critical
Publication of KR100712001B1 publication Critical patent/KR100712001B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

복수의 중국어 핀인 음절의 각각에 대한 고유 식별자가 생성되어 식별자의 어레이로 저장된다. 복수의 한자 문자 후보 리스트 또한 생성되며, 각각의 리스트는 핀인 음절과 관련된 한자 문자 후보를 포함한다. 어레이에서의 각각의 식별자는 어레이 인덱스를 가지며, 각각의 리스트에서의 각각의 한자 문자 후보는 리스트에 후보 인덱스를 갖는다. 다수의 핀인 음절을 갖는 복수의 워드의 각각에 대해, 키와 값을 갖는 데이타 레코드가 생성된다. 워드에 대한 데이타 레코드에서, 키는 식별자의 어레이에서의 식별자의 어레이 인덱스와, 워드의 다수의 핀인 음절의 각각에 대한 음조 정보이며, 값은 핀인 음절의 각각을 표현하는 후보의, 핀인 음절의 각각과 관련된 후보의 리스트에서의, 후보 인덱스이다.

Description

중국어 데이타 및 사용자에 의해 정정된 데이타를 작성하고 사용하는 방법 및 시스템{METHOD AND SYSTEM OF CREATING AND USING CHINESE LANGUAGE DATA AND USER-CORRECTED DATA}
본 출원은 2002년 6월 3일자 출원된 미국 가출원 일련번호 제60/393,948호를 그 우선권으로 한다. 본 출원인의 가출원에 포함된 도면 및 상세한 설명 전부는 본 출원의 참고자료로 통합된다.
본 발명은 전반적으로 전자 장치에의 언어 데이타 저장 및 텍스트 입력에 관한 것으로, 보다 구체적으로는 텍스트 처리와 텍스트 입력의 목적으로 중국어 데이타를 작성하여 사용하는 방법 및 시스템에 관한 것이다.
고급 중국어에서 모든 문자는 단음절 방식으로 발음된다. 고급 중국어는 405개의 기본적 핀인(Pinyin : 중국어의 로마자 표기법) 문자와 5개의 어조(tone)의 변형으로 이루어진 10,000개 이상의 문자를 갖고 있다. 음절문자표 원리(syllabary principle)는 다수의 음절이 동일한 사운드로 표현될 수 있고 그 동일한 사운드가 종종 다수의 상이한 기호로 표현되는 Hung and Tzeng과 같은 중국어 쓰기 시스템에 기반을 두고 있다. 또한, 중국어에서는 단어의 띄어쓰기가 없기때문에, 전자 장치에 중국어 문장을 입력하는 동안의 단어의 적절한 단편화를 위한 중국어의 언어학적 데이타를 필요로 한다. 불변의 언어학적 데이타가 대부분의 경우에서 적절한 단어 단편화를 제공하기에는 충분하지 않은 것으로 연구를 통해 밝혀졌다. 사용자 입력 패턴의 학습을 갖는 시스템만이 효율적인 중국어 문장 입력에 대한 일정 수준의 단편화 정확도를 제공한다. 그러므로, 광범위한 언어학적 데이타가 요구되어 대부분의 중국어 문장 입력 시스템은 매우 높은 메모리 사용량을 갖는다.
문장 입력을 목적으로 하는 언어학적 데이타를 저장 및 사용하기 위한 현재의 솔루션은 해쉬 테이블, 트리, 데이타베이스 또는 워드 리스트 등의 데이타 구조를 채용한다. 이들 솔루션은 대량의 처리 자원에 의존하고 소비하는 복잡한 데이타 구조를 저장 및 지원하기 위해 상당한 메모리와 코드 공간을 필요로 한다는 점에서 다수의 현재 시스템에서 실현 가능하지 않다. 예를들어 휴대용 통신 장치를 포함하는 휴대용 전자 장치와 같은 전자 장치는 제한된 처리 자원과 메모리 자원을 가지며, 이것은 이러한 현재의 솔루션의 사용을 불가능하게 한다.
도 1은 보포모포 음절에 대한 고유 식별자의 어레이를 나타내는 도면이다.
도 2는 핀인 음절에 대한 고유 식별자의 어레이를 나타내는 도면이다.
도 3은 핀인 음절과 보포모포 음절간의 대응의 어레이를 나타내는 도면이다.
도 4는 음조 정보 어레이를 나타내는 도면이다.
도 5는 다수-문자 워드에 대한 언어 데이타 레코드의 포맷을 나타내는 블록도이다.
도 6은 일례의 언어 데이타 레코드의 블록도이다.
도 7은 2-문자 워드에 대한 언어 데이타 레코드의 포맷을 나타내는 블록도이다.
도 8은 2-문자 워드에 대한 일례의 언어 데이타 레코드를 나타내는 블록도이다.
도 9는 학습 언어 데이타 헤더의 블록도이다.
도 10은 일례의 학습 언어 데이타 헤더의 블록도이다.
도 11은 학습 언어 데이타 어레이를 나타내는 블록도이다.
도 12는 언어 데이타를 사용하는 방법의 흐름도이다.
도 13은 언어 데이타를 사용하는 시스템의 블록도이다.
본 발명의 실시예에 따르면, 중국어 핀인 음절을 중국어 한자 문자(Hanzi character)로 변환하는데 사용하기 위한 중국어 데이타 구조는, 각각이 핀인 음절과 관련된 한자 문자 후보를 포함하고, 각각의 한자 문자 후보가 리스트 내의 인덱스를 갖는 복수의 한자 문자 후보 리스트와; 각각이 복수의 핀인 음절을 갖는 워드에 대응하고 키 및 값을 포함하는 복수의 언어 데이타 레코드를 구비하며, 각각의 언어 데이타 레코드 내의 키는 언어 데이타 레코드가 대응하는 워드의 핀인 음절에 대한 인덱스 및 어조 정보의 시퀀스를 포함하며, 각각의 언어 데이타 레코드내의 값은 한자 문자 후보의 인덱스의 시퀀스를 워드의 핀인 음절과 각각 관련된 후보의 리스트에 포함하며, 그 후보들은 워드의 핀인 음절을 표현한다.
본 발명의 다른 실시예에 따른 중국 언어 데이타를 작성하는 방법은 복수의 중국어 핀인 음절의 각각에 대한 식별자를 생성하는 단계와; 생성된 식별자를, 식별자의 어레이에서의 식별자가 어레이 인덱스를 갖도록 식별자의 어레이로 저장하는 단계와; 핀인 음절과 관련된 한자 문자 후보를 포함하는 복수의 한자 문자 후보 리스트를, 각각의 리스트 내의 각각의 한자 문자 후보가 리스트 내에 후보 인덱스를 갖도록 생성하는 단계와; 그리고, 다수의 핀인 음절을 갖는 복수의 워드의 각각에 대하여, 키와 값을 포함하는 데이타 레코드를 생성하는 단계를 포함하며, 상기 키는 다수의 핀인 음절의 각각에 대하여 식별자의 어레이 내에 식별자의 어레이 인덱스와, 다수의 핀인 음절의 각각에 대한 음조 정보를 포함하며, 상기 값은 다수의 핀인 음절의 각각을 표현하는 후보의, 다수의 핀인 음절의 각각과 관련된 후보의 리스트 내에서의, 후보 인덱스를 포함한다.
본 발명의 추가의 실시예에 따르면, 중국어 핀인 음절을 중국어 한자 문자로 변환하기 위한 중국어 언어 데이타를 사용하는 시스템이 제공된다. 언어 데이타는 핀인 음절과 각각 관련된 복수의 한자 문자 후보 리스트와, 복수의 언어 데이타 레코드를 포함하며, 각각의 리스트내의 각각의 한자 문자 후보는 리스트 내에서의 인덱스를 가지며, 각각의 언어 데이타 레코드는 복수의 핀인 음절을 갖는 워드에 대응하고, 키와 값을 포함한다. 각각의 언어 데이타 레코드 내의 키는 인덱스의 시퀀스와, 언어 데이타 레코드가 대응하는 워드의 핀인 음절에 대한 음조 정보를 포함하며, 각각의 언어 데이타 레코드 내의 값은 워드의 핀인 음절을 표현하는, 워드의 핀인 음절과 각각 관련된 후보의 리스트 내에서의, 한자 문자 후보의 인덱스의 시퀀스를 포함한다. 상기 시스템은 핀인 음절을 구성하기 위한 복수의 문자를 표현하는 키를 갖는 키보드와; 키보드로부터의 입력 핀인 음절을 수신하도록 구성된 입력 대기열(input queue)과; 복수의 한자 문자 후보 리스트 및 복수의 데이타 레코드를 저장하도록 구성된 메모리와; 상기 메모리 및 입력 대기열에 연산 가능하게 접속되고 입력 핀인 음절을 입력 워드로 단편화하도록 구성되어, 입력 핀인 음절을 포함한 각각의 입력 워드에 각각 대응하는 언어 데이타 레코드에 대하여 언어 데이타 레코드를 검색하고, 각각의 입력 워드를 대응하는 데이타 레코드 내의 한자 문자 후보 인덱스를 사용하여 중국어 한자 문자 후보로 변환하는 입력 프로세서와; 디스플레이 장치와; 상기 디스플레이 장치와 입력 프로세서 사이에 접속되어, 디스플레이 장치 상에 입력 핀인 음절을 디스플레이하고, 입력 핀인 음절이 입력 프로세서에 의해 변환될 때 입력 핀인 음절을 중국어 한자 문자 후보로 대체하는 사용자 인터페이스를 구비한다.
본 발명의 추가의 장점은 다음의 상세한 설명에 기술될 것이고, 이를 통해 더욱 명백해질 것이다.
본 발명의 특징에 따르면, 언어 데이타를 작성하고 사용하는 시스템 및 방법은 중국어 음절 및 문자 인덱싱을 기반으로 한다. 인덱싱은 공지된 중국어 텍스트 입력 기술에 비해 더 적은 메모리 사용과 더 신속한 워드에 대한 검색 및 액세스로 언어 데이타 저장을 가능하게 한다.
핀인 시스템(1981)에는 410개의 음절(사운드)이 존재하며, 이 음절은 중국어 입력을 위해 사용될 수 있는 405개의 기본 핀인 문자와 5개의 음조를 포함한다. 핀인 음절은 26개의 라틴어 알파벳 문자로 구성되며, 그에 따라 라틴어 문자가 표시된 키보드를 통한 중국어 텍스트 입력이 흔히 사용된다. 26개의 라틴어 알파벳 문자의 각각은 알파벳에서의 자신의 위치를 나타내는 0과 25 사이의 인덱스값이 할당될 수 있다. 예를들어, 글자 "A"는 인덱스 0가 되고, "B"는 인덱스 1이 되며, 그러한 방식으로 "Z"는 인덱스 25가 된다.
그와는 다르게, 410개의 중국어 음절은 37개의 "보포모포" 문자로 구성될 수도 있다. 이들 문자는 연속적인 유니코드 영역, 즉 0x3105 내지 0x3129로 존재하며, 십진수 0 내지 36에 의해 인덱스될 수도 있다. 0의 인덱스는 유니코드 영역에서의 첫번째 문자인 0x3105에 대응하고, 1의 인덱스는 유니코드 영역에서의 두번째 문자인 0x3106에 대응하며, 나머지도 이러한 방식으로 대응한다.
상기의 인덱스를 사용하면, 각각의 핀인 및 보포모포 음절은 고유 식별 번호에 의해 표현될 수 있다. 본 발명의 실시예에 따르면, 임의의 (n+1)-문자 음절에 대한 고유 식별 번호는 다음의 수식을 사용하여 계산된다:
ID = index0*(N0) + index1*(N1) + … + indexn*(N n)
여기서, index0는 음절에서의 첫번째 문자의 인덱스이고, index1은 음절에서의 두번째 문자의 인덱스이며, indexn은 음절에서의 (n+1)번째 문자의 인덱스이고, N은 음절 구성을 위해 사용된 문자의 가장 높은 인덱스이다.
예를들어, 보포모포 음절 에서, 유니코드 번호 0x310C를 갖는 첫번째 문자 의 인덱스는 0x310C에서 첫번째 보포모포 문자의 유니코드 번호 0x3105를 뺀 것이다. 그러므로, index0 = 0x310C - 0x3105이 된다. 마찬가지로, index1은 두번째 문자 "ㅡ"의 인덱스이고, 0x3127 - 0x3105 = 0x0022 = 34가 되며, index2는 세번째 문자 의 인덱스이고, 0x3120 - 0x3105 = 0x001B = 27이 된다. 보포모포 문자에 대한 가장 높은 인덱스가 36이므로, N은 보포모포 음절 식별자에 대해서는 36이 된다. 따라서, 상기 수식에 따른 이 음절에 대한 식별자는 다음과 같다:
ID = 7*(360) + 34*(361) + 27*(362) = 7 + 1224 + 34992 = 36223
고유 식별자 번호는 indexn이 0과 25 사이이고 N=25인 핀인 음절의 각각에 대해 유사하게 계산될 수 있다.
상기의 수식은 고유 식별자가 각각의 핀인 및 보포모포 음절에 할당될 수 있도록 한다. 핀인 및 보포모포 음절은 각각의 어레이로 저장되고, 각각의 어레이는 고유 식별자에 따라 저장된다.
도 1은 보포모포 음절에 대한 고유 식별자의 어레이를 도시하는 도면이다. 도 1의 어레이는 최초의 6개의 식별자를 표현하는 고유 식별자(2, 4, 6, 8, 10, 12)와 최종(410번째) 식별자를 표현하는 고유 식별자(14)를 나타내고 있다. 식별자(2∼14) 및 SylBop 6과 SylBop 410 사이에 놓여있는 식별자는 SylBop 1이 최저 식별자이고 SylBop 410이 최고 식별자가 되도록 증가순으로 저장되는 것이 바람직다. 0 내지 409 범위의 어레이 인덱스 또한 도 1에 도면부호 "16"으로 나타내어져 있다.
도 2는 핀인 음절에 대한 고유 식별자의 어레이를 나타낸다. 최초 6개의 핀인 음절 식별자(20, 22, 24, 26, 30)와 최종 식별자(32)는 핀인 기호 식별자 어레이에서의 410개의 고유 식별자를 나타낸다. 도 1의 인덱스(16)와 같이 핀인 음절 식별자 어레이에 대한 인덱스(34)는 0 내지 409의 범위를 갖는다.
도 1 및 도 2에 도시된 바와 같이, 보포모포 및 핀인 음절에 대한 식별자는 상이한 어레이로 존재한다. 이들 식별자가 인덱스에 의한 엄격한 대응을 갖지 못한다는 것은 본 기술분야의 당업자에게는 명백한 것일 것이다. 보포모포 음절 식별자의 어레이에서 인덱스 a-1에 있는 식별자 SylBop a와 핀인 음절 식별자의 어레이에서 인덱스 a-1에 있는 SylPin a는 보포모포 음절과 그것의 대응 핀인 음절 상대부를 반드시 식별하지는 못한다. 따라서, "보포모포"와 핀인 음절간의 대응에 관한 정보를 갖고 있는 추가의 어레이가 존재한다.
도 3은 핀인 음절과 보포모포 음절간의 대응의 어레이를 나타내는 도면이다. 대응 어레이에서의 구성성분(40∼50 및 52)과 구성성분 "50"과 "52" 사이에 위치하는 어레이 구성성분은 핀인 식별자 어레이 또는 보포모포 식별자 어레이 중의 하나에 대한 인덱스이다. 대응 어레이에 대한 인덱스(54)는 핀인 식별자 어레이와 보포모포 식별자 어레이의 다른 것에 대한 인덱스에 대응한다. 예를들어, 대응 어레이에 대한 인덱스(54)가 핀인 식별자 어레이의 인덱스(34)에 대응하는 곳에서는, 대응 어레이의 구성성분은 보포모포 식별자 어레이에 대한 인덱스(16)이다. 이 경우, 대응 어레이에서 인덱스 b-1에 있는 어레이 구성성분 인덱스 b는 핀인 식별자 어레이에서의 인덱스 b-1에 있는 식별자를 갖는 핀인 음절에 대응하는 보포모포 음절에 대한 보포모포 식별자의 보포모포 식별자 어레이의 인덱스이다. 즉, SylPin(b-1)에 의해 식별된 핀인 음절은 SylBop(index b)에 의해 식별된 보포모포 음절에 대응한다. 그러므로, 대응 어레이는 핀인 식별자에 대응하는 보포모포 식별자의 인덱스를 제공한다. 전술한 예와 달리, 대응 어레이에서 인덱스(54)가 보포모포 식별자 어레이 인덱스(16)에 대응하고 그 구성성분이 핀인 식별자 어레이 인덱스를 저장할 수도 있다는 것은 자명할 것이다.
도 4는 음조 정보 어레이를 나타내는 도면이다. 음조 정보 어레이는 인덱스 0 내지 409를 갖는 410개의 구성성분으로 구성된 추가의 바이트 어레이이다. 음조 정보는 구성성분 "60∼70", 도 4에 명확하게 도시되지는 않은 그 사이의 구성성분 및 구성성분 "72"을 포함한다. 이 어레이는 모두 410개의 보포모포 음절에 대한 음조 정보를 포함하며, "보포모포" 음절의 어레이와의 엄격한 대응을 갖는다. 인덱스 c-1에 있는 음조 정보 구성성분 "음조정보 c"는 보포모포 식별자 어레이의 동일 인덱스 c-1에 있는 보포모포 음절 식별자 SylBop c에 대응한다. 음조 정보 어레이의 각각의 바이트에서의 최초의 5개의 비트는 보포모포 식별자 어레이의 동일 인덱스에서 식별된 보포모포 음절이 5개의 중국어 음조의 어떠한 것과 사용될 수 있는지의 여부를 나타내준다.
모든 핀인 및 보포모포 음절은 2-바이트값을 사용하여 각각의 핀인 및 보포모포 음절에 대한 각각의 대응 어레이에 저장되는 "후보"의 리스트를 형성하는 여러 개의 대응 중국어 "한자" 문자를 갖는다. 이러한 어레이에서의 각각의 "후보"는 어레이 내에서의 고유 인덱스를 갖는다. 그러므로, 모든 중국어 워드는 워드를 구성하는 대응 중국어 한자 문자의 인덱스와 음절의 인덱스의 시퀀스에 의해 표현될 수 있을 것이다.
본 발명의 실시예에서, 언어 데이타는 별도의 어레이로 조직화된 2개 내지 8개의 음절의 길이를 범위로 하는 중국어 워드에 대한 레코드를 포함하며, 동일 길이를 갖는 워드에 대한 레코드는 경계기호(delimiter)없이 동일 어레이에 존재한다. 도 5는 복수-문자 워드에 대한 언어 데이타 레코드의 포맷을 나타내주는 블록도이다.
도 5에서의 레코드는 핀인1, 핀인2 및 핀인3를 포함한 3개의 음절을 갖는 복수-문자 워드에 대응한다. 워드에서의 각각의 핀인 음절에 대하여, 음절의 인덱스와, 음절과 함께 사용될 수도 있는 음조의 표식이 레코드에 저장된다. 도 2의 핀인 어레이에서의 음절의 인덱스에 대응하는 음절 인덱스는 도면부호 "82", "86" 및 "90"으로 도시되어 있으며, 음조는 도면부호 "84", "88" 및 "92"으로 도시되어 있다. 인덱스 및 음조 정보는 각각의 음절에 대한 엔트리(100, 102, 104)를 형성한다.
전술된 바와 같이, 한자 문자의 후보의 리스트는 각각의 핀인 및 보포모포 음절에 대한 대응 어레이에 저장된다. 인덱스 "94", "96" 및 "98"은 핀인 음절을 표현하는 한자 문자의, 후보의 리스트에서의 인덱스이다. 인덱스 "94"는 도 5에서의 레코드에 대응하는 워드에서의 첫번째 한자 문자의, 핀인1에 대한 후보의 리스트에서의 인덱스이다. 유사하게, 인덱스 "96" 및 "98"은 도 5에서의 레코드에 대응하는 워드에서의 각각 두번째와 세번째 한자 문자의, 핀인1과 핀인3에 대한 후보의 리스트에서의 인덱스이다.
워드에 대한 언어 데이타 레코드는 키(106)와 값(108)을 포함하며, 키(106)는 워드를 표현하는 음절에 대한 음조 정보(100, 102, 104) 및 인덱스의 시퀀스이고, 값(108)은 음절을 표현하는 한자 문자의 인덱스(94, 96, 98)의 시퀀스이다. 언어 데이타의 효율적인 검색을 용이하게 하기 위해, 레코드는 첫번째 음절의 인덱스에 의해 분류되는 것이 바람직하다.
도 6은 일례의 언어 데이타 레코드의 블록도이다. 도 6에서의 언어 데이타 레코드는 키(122)로써의 핀인 음절 인덱스(110, 114, 118) 및 음조 정보(112, 116, 120)의 시퀀스와 중국어 문자 인덱스의 시퀀스를 표시하는 값(124)을 포함하는 도 5에 도시된 포맷을 갖는다.
핀인 인덱스(110)는 핀인 "da15"의 핀인 식별자 어레이에서의 핀인 식별자의 인덱스이다. "da15"에서의 "15"는 첫번째와 다섯번째 음조를 표시한다. 핀인 음절과 유사한 이들 음조는 첫번째 음조가 고레벨 음조이고, 두번째 음조가 상승 음조이고, 세번째 음조가 저레벨 음조이고, 네번째 음조가 하강 음조이며, 다섯번째 음조가 중립 음조인 것으로 이해될 것이다. 각각의 음조는 언어 데이타 레코드에서의 5-비트 음조 정보 엔트리 내의 비트 위치와 관련되는 것이 바람직하다. 핀인 문자에 대한 각각의 유효 음조는 소정값에 대한 음조 정보 엔트리의 대응 위치에서의 비트를 세팅함으로써 나타내어진다. 음조 정보 엔트리(112)에서, 첫번째와 다섯번째 음조는 첫번째와 다섯번째 비트 위치에서 높은 비트값에 의해 나타내어진다. 이와 달리, 소정 비트값이 낮아질 수도 있을 것이다. 도 6에서의 다른 인덱스 및 음조 정보 엔트리(114/116 및 118/120)는 유사하게 포맷된다.
언어 데이타 레코드의 최소 길이는 데이타 레코드에서의 인덱스의 최소 길이에 좌우된다. 전술된 바와 같이, 각각의 핀인 인덱스에 대해 9비트의 최소 길이를 구축하는 410개의 핀인 음절이 존재한다. 음조 정보 엔트리는 음조당 1비트 또는 엔트리당 5비트를 포함하는 것이 바람직하다. 값(124)에서의 각각의 후보 리스트 인덱스가 단일 비트로써 도시되어 있지만, 각각의 후보 리스트 인덱스의 길이는 후보 리스트에서의 후보의 수에 좌우될 것이다. 가변장 인덱스가 통상적으로 인덱스 사이의 경계기호 또는 상대적으로 복잡한 관리 기술을 요구하기 때문에, 고정장 인덱스가 일반적으로 선호된다. 따라서, 후보 리스트 인덱스의 길이는 최장의 후보 리스트에서의 후보의 수에 좌우되는 것이 바람직하다.
당업자라면 알 수 있는 바와 같이, 대부분의 메모리 부품은 바이트-와이드(byte-wide) 메모리 세그먼트에 대한 액세스를 제공한다. 따라서, 언어 데이타 레코드는 다수의 전체 바이트를 점유하도록 포맷되는 것이 바람직하다. 예를들어, 언어 데이타 엔트리에서의 각각의 인덱스 및 음조 정보쌍은 2-바이트 엔트리로써 저장될 것이며, 적어도 제1 바이트와, 제2 바이트의 의 제1 비트(즉, 적어도 9비트)가 인덱스를 저장하고, 최종의 5비트가 음조 정보를 저장한다. 유사하게, 바이트-와이드 후보 리스트 인덱스는 3-바이트 레코드값(124)을 형성하고, 후보 리스트의 임의의 리스트에서의 최대 256개의 후보를 지원한다. 이러한 유형의 바이트 할당으로, 도 6에서의 데이타 레코드는 6-바이트 키(122) 및 3-바이트 값(124)을 포함한다.
언어 데이타를 추가로 간략화하기 위해, 2-문자 워드가 전용 포맷으로 저장되는 것이 바람직하다. 중국어 워드의 대다수가 2-문자 워드이기 때문에, 2-문자 워드와 관련된 레코드에 대한 공간 절감은 전체적인 메모리 공간 요건에서 상당한 감소의 결과로 나타난다. 도 7은 2-문자 워드에 대한 언어 데이타 레코드의 포맷을 나타내는 블록도이다.
전술된 바와 같이, 중국어 텍스트에는 410개의 핀인 음절만이 사용된다. 초기의 음절이 될 수 있는 모든 음절은 자기 자신의 쌍을 가지며, 각각의 쌍은 초기 음절에 변형을 더한 것을 포함한다. 각각의 초기 음절에 대한 변형은 초기 음절을 후속할 수도 있는 음절이다. 이러한 이유로, 초기 음절이 항상 동일한 것이므로 초기 음절을 특정 초기 음절에 대한 각각의 쌍에 저장할 필요가 없다.
더욱이, 초기 음절의 인덱스가 오프셋의 어레이의 인덱스와 호환 가능하여서, 초기 음절은 전혀 저장될 필요가 없으며, 초기 음절의 인덱스는 오프셋의 어레이의 인덱스와 동일한 것이 된다. 오프셋의 어레이는 특정한 초기 음절에 대응하는 각각의 인덱스에서 이 초기 음절에 대한 제1 변형의 인덱스가 저장되는 2-문자 워드에 대한 데이타 레코드의 어레이에서의 오프셋의 어레이이다. 예를들어, 오프셋의 어레이에서의 제1 오프셋은 제1 초기 음절에 대한 제1 변형의 오프셋이며, 그 제1 변형은 제1 초기 음절에 대해서는 0이다. 바람직한 실시예에서, 초기 음절은 고유 식별자 또는 식별자의 어레이에서의 인덱스에 따라 순서가 정해져, 제1 초기 음절은 최저의 또는 그와 달리 최고의 고유 식별자를 갖는 초기 음절이 된다. 제1 초기 음절에 대해 2개의 변형이 존재하는 곳에서, 제2 초기 음절에 대한 제1 변형에 대응하는 오프셋의 어레이에서의 제2 오프셋은 제2 초기 음절에 대한 제1 변형이 제1 레코드로부터 2만큼 오프셋되므로 2가 된다. 이와 달리, 오프셋의 어레이는 데이타 레코드의 어레이에서의 각각의 대응하는 초기 음절에 대한 제1 변형의 인덱스를 특정할 수 있다.
각각의 2-문자 워드는 2-문자 워드에 대한 언어 데이타 레코드의 포맷을 나타내고 있는 블록도인 도 7에 도시된 포맷을 갖는 것이 바람직하다. 도 7에서의 레코드는 제2 음절의 인덱스(130)와, 초기 및 제2 음절에 대한 음조 정보(132, 134)와, 초기 및 제2 음절을 표현하는 각각의 중국어 문자의 인덱스(136, 138)를 포함한다. 인덱스 및 음조 정보는 전술한 바 있다.
2-문자 워드에 대한 언어 데이타 레코드에서, 키(140)는 제2 음절에 대한 인덱스(130)와 양자의 음절 모두에 대한 음조 정보(132, 134)를 포함한다. 도 5 및 도 6에 도시된 언어 데이타 레코드와 마찬가지로, 값(142)은 중국어 문자의 인덱스(136, 138)의 시퀀스를 포함한다. 전술된 바와 같이, 동일한 초기 음절의 변형에 대한 데이타 레코드는 초기 음절에 대한 변형이 오프셋의 어레이를 사용하여 발견될 수 있도록 함께 그룹화된다. 동일한 초기 음절의 변형에 대한 데이타 레코드는 제1 음절의 인덱스(130)에 의해 저장될 수도 있을 것이다.
도 8은 2-문자 워드에 대한 일례의 언어 데이타 레코드를 나타내는 블록도이다. 도 8의 언어 데이타 레코드는 도 7에 도시된 전용 포맷으로 되어 있으며, 2-음절 워드 "da3" "jia4"에 대응한다. 데이타 레코드는 키(154)와 값(156)을 포함한다. 키(154)는 제2 음절 "jia4"만의 인덱스와, 제1 및 제2 음절에 대한 음조 정보(146, 148)를 포함한다. 키(154)에 후속하여, 값(156)은 제1 및 제2 음절에 대한 후보 리스트에서의 한자 문자 인덱스를 포함한다.
전술된 바와 같이, 음절 인덱스의 최소 길이는 9비트이고, 음조 정보 엔트리는 음조당 1비트 또는 엔트리당 5비트를 포함하며, 각각의 후보 리스트 인덱스의 길이는 후보 리스트에서의 후보의 수에 좌우되어, 최장 후보 리스트에서의 후보의 수에 좌우된 고정장 인덱스가 일반적으로 선호된다. 따라서, 인덱스(144)는 적어도 9비트이고, 음조 정보 엔트리(146, 148)는 도시된 바와 같이 5비트이며, 인덱스(150, 152)가 1-비트 길이를 갖는 것으로 도시되어 있지만, 이들 인덱스는 1비트보다 더 길 수도 있을 것이다.
전체-바이트 길이 2-문자 워드 언어 데이타 레코드를 제공하기 위해, 키(154)와 값(156)은 다수의 전체 바이트를 점유하도록 포맷화되는 것이 바람직하다. 인덱스(130 또는 144)가 길이가 적어도 9바이트이기 때문에, 인덱스는 단일 바이트로 저장될 수 없다. 각각의 음조 값(132, 134, 146, 148)은 길이가 5비트인 것이 바람직하여 1바이트 미만을 점유한다. 키(140 또는 154)는 따라서 예를들어 3바이트로 저장될 수 있을 것이며, 인덱스(130/144)가 적어도 제1 바이트와, 제2 바이트의 제1 비트에 저장되고, 제2 바이트 및 제3 바이트의 각각의 마지막 5비트가 음조 정보를 저장한다. 2-바이트 레코드 값(138 또는 156)을 형성하는, 1바이트의 길이를 갖는 후보 리스트 인덱스는 임의의 후보 리스트에서 최대 256개의 후보를 지원한다. 이러한 포맷화가 전체-바이트 길이 데이타 레코드를 제공하지만, 당업자에게는 명백한 바와 같이 다른 데이타 레코드 길이 또한 가능하다.
도 5에 도시된 언어 데이타 레코드 포맷에 비해, 도 7에 도시된 전용 포맷은 레코드당 하나의 음절 인덱스를 절감한다. 도 5의 레코드 포맷은 각각의 음절의 인덱스를 포함하는 반면, 도 7의 레코드 포맷에서는 제1 음절 인덱스가 저장되지 않는다. 도 7의 레코드 포맷이 오프셋의 상기 어레이에 의해 지원되기는 하지만, 대다수의 워드는 2-문자 워드이어서 상당한 전체 메모리 절감의 결과를 나타내며, 이것은 메모리 자원이 제한된 곳에서는 특히 중요하다.
전자 장치 상에 중국어 언어 데이타를 인스톨함으로써 전자 장치는 중국어 텍스트 입력이 가능하게 된다. 각각의 음절에 대한 식별자가 전술된 바와 같이 계산되며, 도 1 및 도 2에 도시된 식별자 어레이와, 도 3에서의 대응 어레이와, 도 4에 도시된 음조 정보 어레이를 발생하도록 사용된다. 식별자 어레이에서의 인덱스를 사용하면, 언어 데이타 레코드가 작성된다. 2-문자 워드는 도 7에 도시된 포맷을 갖는 데이타 레코드로 표현되고 데이타 레코드를 사용하여 액세스되는 것이 바람직하다. 2개보다 많은 문자를 갖는 워드에 대응하는 데이타 레코드는 도 5에 도시된 포맷을 갖는 것이 바람직하다. 이들 데이타 레코드는 사용자에 의해 입력된 입력 핀인 음절을 대응하는 중국어 텍스트 한자 문자로 대체하기 위해 사용된다. 당업자라면 알 수 있는 바와 같이, 핀인 음절의 사용자 입력은 디스플레이 상에서 보포모포 음절로 대체되고 텍스트 입력으로써의 중국어 한자 문자로 변환될 수도 있을 것이다. 대부분의 실시에서, 어레이 및 데이타 레코드가 생성되어, 전자 장치에 설치된, 텍스트 입력 소프트웨어 어플리케이션 또는 모듈의 공급장치와 같은 언어 데이타 소스에 의해 이용 가능하게 된다. 이러한 장치의 사용자는 언어 데이타를 먼저 생성할 필요없이 이전에 생성된 언어 데이타를 장치 상에 설치한다.
전술된 언어 데이타는 데이타 레코드가 존재하는 중국어 텍스트의 입력을 간략화한다. 본 발명의 추가의 실시예에 따르면, 사용자에 의해 추가된 신규 단어, 구문 및 문장이 저장된다. 사용자가 입력된 핀인 시퀀스를 보낼 때, 시퀀스는 단편화되고, 사용자에 대한 디스플레이를 위해 상기의 데이타 레코드를 사용하여 중국어 텍스트 한자 음절의 시퀀스로 변환된다. 중국어 텍스트가 디스플레이될 때, 사용자는 상이한 입력 텍스트가 의도되었다면 예를들어 시퀀스의 어떠한 일부분에 기초하여 탐색 함수를 호출함으로써 후보를 변경할 수 있을 것이다. 사용자가 변환 후의 핀인의 시퀀스에 대한 후보를 변경하였을 때, 변경된 후보를 갖는 신규 워드가 형성되어 언어 데이타에 추가되며, 이에 대해서는 더욱 상세히 후술될 것이다.
예를들어, 사용자가 핀인 시퀀스 "zhu4 ni3 hao3yun4"를 입력할 때, 시퀀스는 중국어 텍스트 에 대응하는 zhu4/ni3/hao3yun4 으로써 단편화될 수 있을 것이다. 중국어 문자 는 핀인 음절 "zhu4"의 첫번째 후보이다. 사용자가 첫번째 핀인에 대한 후보를 에서 핀인 "zhu4"의 네번째 후보인 으로 변경한다면, 신규 워드가 형성되어 언어 데이타에 추가된다.
사용자가 후보를 변경할 때에 형성된 특별한 신규 워드는 입력 시퀀스에서의 후보의 위치에 좌우된다. 사용자에 의해 선택된 후보가 시퀀스에서 첫번째 워드라면, 시퀀스에서의 다음 워드가 첫번째 워드에 추가되고, 신규 워드는 2개를 일체화하는 것에 기인하여 발생된다. 상기의 예에서, 첫번째 핀인에 대한 후보가 사용자에 의해 변경되고, 따라서 시퀀스에서의 두번째 핀인이 첫번째 핀인에 추가되어 신규 워드를 형성하며, 신규 워드에 대한 데이타 레코드가 언어 데이타에 추가된다. 신규 워드에 있어서의 첫번째 핀인에 대한 후보는 선택된 후보이다.
유사하게, 사용자에 의해 선택된 후보가 시퀀스에서의 최종 워드에 대응하는 곳에서, 이전의 워드는 최종 워드에 추가되고, 신규 워드는 2개를 일체화하는 것에 기인하여 발생된다. 사용자에 의해 선택된 후보가 2개의 다른 워드 사이의 중간 워드에 대응하면, 그 앞의 워드를 중간 워드에 추가하고 그리고 후속 워드를 중간 워드에 추가함으로써 2개의 신규 워드가 형성된다. 2개의 신규 워드는 그 후 언어 데이타에 추가된다.
사용자 입력 패턴은 학습 언어 데이타에 저장되며, 학습 언어 데이타는 학습 언어 데이타 헤더와 학습 언어 데이타 어레이를 포함하는 것이 바람직하다. 도 9는 학습 언어 데이타 헤더 포맷의 블록도를 도시한다. 도 10은 일례의 학습 언어 데이타 헤더의 블록도를 도시하고, 도 11은 학습 언어 데이타 어레이를 나타내는 블록도이다.
학습 언어 데이타는 가변 길이의 중국어 워드에 대한 데이타 레코드를 포함할 수도 있을 것이다. 도 9에 도시된 언어 데이타 헤더는 학습 언어 데이타에 그 데이타 레코드가 저장되는 워드의 길이와, 학습 언어 데이타에서의 이들 데이타 레코드의 위치에 대한 정보를 포함한다. 헤더 길이 엔트리(160)는 헤더 길이 엔트리를 포함한 헤더의 길이 자체이다. 다음 엔트리(162)는 데이타 레코드가 학습 언어 데이타 어레이에 존재하는 상이한 워드 길이의 수이며, 학습 언어 데이타 어레이에 대해서는 더욱 상세히 후술될 것이다. 예를들어, 학습 언어 데이타가 2-문자 및 5-문자 워드에 대한 데이타 레코드를 포함한다면, 엔트리(162)는 2이다.
학습 언어 데이타 헤더의 나머지 부분은 워드 길이와 오프셋의 쌍을 포함한다. 쌍의 수는 헤더 엔트리(162)에서의 상이한 워드 길이의 수에 대응한다. 이러한 이들 쌍(164/166, 168/170 및 172/174)은 도 9의 헤더에 도시되어 있다. 3개보다 많은 상이한 워드 길이에 대한 데이타 레코드가 학습 언어 데이타에 저장될 때, 학습 언어 데이타 헤더는 도면부호 "176"으로 나타내어진 추가의 쌍을 포함한다. 각각의 쌍은 데이타 레코드가 학습 언어 데이타에 존재하는 워드의 특정 길이를 나타내는 워드 길이 엔트리(164, 168 또는 172)와, 앞의 워드 길이 엔트리에서 나타내어진 길이의 워드에 대한, 학습 언어 데이타 어레이에서의 제1 데이타 레코드의 오프셋을 나타내는 오프셋 엔트리(166, 170 또는 174)를 포함한다.
도 10에서의 일례의 학습 언어 데이타 헤더는 2-문자 헤더 길이 엔트리(180)와, 1-바이트 워드 길이 번호 엔트리(182)와, 3쌍의 1-바이트 워드 길이 엔트리와 2-바이트 오프셋 엔트리(184/186, 188/190 및 192/194)를 포함한다. 학습 언어 헤더 및 그 안의 어떠한 엔트리의 길이는 도 10에 도시된 길이에 조금도 제한되지 않는다. 헤더의 전체 길이는 관련된 학습 언어 데이타 어레이에 좌우되며, 신규 워드가 학습 언어 데이타 어레이에 추가될 때 변경될 것이며, 이 학습 언어 데이타 어레이에는 예를들어 데이타 레코드가 존재하는 워드와는 상이한 길이를 갖는 신규 워드에 대한 데이타 레코드가 추가된다. 도 10의 헤더의 내용은 도 11에 도시된 학습 언어 데이타 어레이와 관련하여 더욱 상세히 하술될 것이다.
도 11에서의 학습 언어 데이타 어레이는 2-문자 워드의 어레이(218), 5-문자 워드의 어레이(220) 및 10-문자 워드의 어레이(222)를 포함한다. 학습 언어 데이타 어레이에서의 이들 어레이의 각각은 일련의 레코드(200∼204, 206∼210 및 212∼216)를 포함한다. 학습 언어 데이타 어레이는 사용자 입력에 좌우되며, 그에 따라 상이한 사용자 및 전자 장치에 대하여는 상이하게 될 것이라는 점에 유의하기 바란다. 학습 언어 데이타 어레이는 도 11에 도시된 워드 길이보다 더 적거나, 더 많거나 또는 상이한 워드 길이에 대한 데이타 레코드를 포함할 수도 있을 것이다.
도 10과 도 11 모두를 참조하면, 헤더 길이 엔트리는 헤더가 12바이트 길이라는 것을 나타내준다. 워드 길이 번호 엔트리(182)에 도시된 바와 같이, 대응하는 언어 데이타 어레이는 3개의 상이한 길이의 워드에 대한 데이타 레코드를 포함한다. 첫번째 워드 길이는 워드 길이 엔트리(184)에 의해 나타내어진 바와 같이 2개 문자이며, 2-문자 워드에 대한 첫번째 데이타 레코드(200)는 도면부호 "200"으로 도시된 바와 같이 학습 언어 데이타 어레이에서 12의 오프셋을 갖는다. 도면이 복잡하게 되는 것을 방지하기 위해 학습 언어 데이타가 도 11에 별도로 도시되어 있지만, 12-바이트 학습 언어 데이타 헤더는 학습 언어 데이타에서의 학습 언어 데이타 어레이의 앞에 있는 것이 바람직할 것이라는 점에 유념하기 바란다. 또한, 예시의 목적으로, 학습 언어 데이타 헤더 및 어레이가 복수의 1-바이트 엔트리로써 메모리에 저장되는 것으로 가정되어 있지만, 레코드(200)가 실제로는 학습 언어 데이타의 제1 엔트리(즉, 제1 헤더 길이 바이트)로부터 12개의 엔트리만큼 오프셋된, 학습 언어 데이타에서의 제13 엔트리라는 점에 유념하기 바란다.
학습 언어 데이타 어레이는 또한 학습 언어 데이타 어레이에서의 오프셋(152)에서 개시하는, 워드 길이 엔트리(188)에서 나타내어진 5-문자 워드에 대한 데이타 레코드를 포함한다. 2-문자 워드가 전술된 바와 같이 5-바이트 전용 포맷에 저장될 때, 오프셋(12)에서의 제1 2-문자 워드 데이타 레코드(200)와 오프셋(152)에서의 제1 5-문자 워드 데이타 레코드(206) 사이의 140개의 엔트리가 28개의 데이타 엔트리를 수용한다.
워드 길이와 오프셋 엔트리(192, 194)는 10-문자 워드에 대한 데이타 레코드가 학습 언어 데이타 어레이에서의 625의 오프셋에서 개시한다. 도 5에서의 데이타 레코드 포맷이 음절에 대한 인덱스/음조쌍당 2바이트와 후보 인덱스당 1바이트로 5-문자 워드에 대해 사용된다면, 각각의 데이타 레코드는 15바이트이며, 오프셋(152∼601)을 점유하는 학습 언어 데이타 어레이에서의 5-문자 워드에 대한 30개의 이러한 5-바이트 데이타 레코드가 존재한다. 오프셋(625)에서 엔트리(212)를 후속하는 학습 언어 데이타 어레이의 나머지 부분은 10-문자 워드에 대한 데이타 레코드를 저장한다.
전술한 설명과 도 10 및 도 11에 도시된 학습 언어 데이타의 예는 언어 데이타 어레이가 전체 수의 바이트의 오프셋을 사용하여 액세스 가능한 것으로 가정하고 있다. 그러나, 학습 언어 데이타 헤더가 학습 언어 데이타 어레이에 대한 인덱스, 어드레스 또는 다른 포인터를 저장하는 다른 액세스 메카니즘도 가능하다.
언어 데이타의 각종의 성분이 전술되었다. 텍스트 입력 동안의 언어 데이타의 사용은 더욱 상세히 후술된다. 도 12는 언어 데이타를 사용하는 방법의 흐름도이다.
본 방법은 사용자 입력이 수신되어 버퍼링되는 단계 "230"으로 개시한다. 당업자라면 알고 있는 바와 같이, 중국어 텍스트에 대한 사용자 입력은 통상적으로 핀인 음절의 형태이다. 수신된 사용자 입력 시퀀스는 단계 "232"에서 워드로 단편화되고, 단계 "234"에서 대응하는 중국어 텍스트로 변환된다. 본 기술분야의 당업자는 입력이 중국어 텍스트로 변환되기 전에 핀인 음절이 디스플레이 장치 상에서 대응하는 보포모포 음절로 대체될 수도 있음을 이해할 것이다. 단계 "234"에서의 변환은 이용 가능한 경우의 각각의 워드에 대한 학습 언어 데이타를 포함한 언어 데이타를 검색하고, 입력 핀인 시퀀스와 이용 가능한 경우의 디스플레이된 보포모포 시퀀스를 언어 데이타에서의 대응하는 데이타 레코드에서 식별된 한자 후보로 대체하는 것을 수반한다.
단계 "236"에서는 한자 후보를 포함하는 변환된 중국어 텍스트가 텍스트 입력 화면 상의 현재 텍스트 엔트리 위치에서 사용자에게 디스플레이되고, 바람직하게는 입력 핀인 또는 디스플레이된 보포모포를 대체한다. 그리고나서, 단계 "238"에서는 사용자가 예를들어 탐색 윈도우를 호출하여 선택함으로써 한자 후보의 어떠한 것을 변경하였는지의 여부가 판정된다. 본 방법은 단계 "244"으로 진행하여 변환된 중국어 텍스트를 본 방법과 관련하여 실시되는 전자 장치에 입력하고, 사용자가 후보의 어떠한 것도 변경하지 않은 단계 "230"에서의 사용자로부터의 추가의 입력을 수신한다. 추가의 사용자 입력이 단편화되고, 신규 워드를 입력하기 위해 전술된 바와 같이 변환된다.
단계 "238"에서 사용자가 후보를 변경한 것으로 판정되면, 선택된 후보를 포함한 후보의 시퀀스가 전자 장치에 입력되고, 입력 화면 상의 입력 핀인 시퀀스에 대응하는 현재 디스플레이된 후보 시퀀스를 대체한다. 전술된 바와 같은 학습을 제공하기 위해, 전술된 바와 같이 하나 또는 그 이상의 신규 워드가 형성되며, 학습 언어 데이타는 단계 "242"에서 신규 워드로 업데이트된다.
도 13은 언어 데이타를 사용하는 시스템의 블록도이다. 도 13의 시스템은 키보드(251), 입력 시퀀스(252), 사용자 인터페이스(253), 입력 프로세서(254) 및 디스플레이 장치(256)를 포함하며, 이 모든 수단은 전자 장치(250)에 구현된다.
대부분의 구현예에서의 키보드(251)는 핀인 음절의 입력을 위해 사용된 문자를 표현하는 키를 포함하며, QWERTY 혹은 DVORAK 키보드, 전화 키패드 또는 일부 다른 유형의 키보드나 키패드 등의 완전한 숫자문자 키보드일 것이다. 그러나, 키보드(251)는 그 대신에 예를들어 터치 스크린 또는 스타일러스를 이용한 핸드라이팅을 통한 사용자 입력을 지원하는 그래픽 인터페이스도 가능할 것이다. 전자 장치(250)에서, 키보드(251)로부터의 사용자 입력은 입력 대기열(252)에 의해 수신 및 버퍼링된다.
사용자 인터페이스(253)는 전자 장치(250)의 사용자에 대한 인터페이스를 제공한다. 사용자 인터페이스는 키보드(251)를 통한 사용자로부터의 입력을 받아들이고, 또한 디스플레이 장치(256)를 통해 사용자에게 출력을 제공한다. 사용자 인터페이스(253)는 예를들어 텍스트를 구성하기 위한 텍스트 입력 화면을 디스플레이 화면(156) 상에 디스플레이한다.
입력 프로세서(254)는 입력 대기열(252)로부터의 버퍼링된 핀인 입력을 사용자 인터페이스(253)를 통해 수신한다. 입력 프로세서(253)는 입력을 워드로 단편화하고, 단편화된 입력에 기초하여 중국어 텍스트 후보를 식별한다. 식별된 후보는 디스플레이 장치(256) 상에 디스플레이된다. 입력 프로세서(254)는 중국어 텍스트가 전자 장치(250)에 입력될 때에 필요한 상기의 어레이 및 언어 데이타 레코드를 액세스한다. 도 13의 시스템이 학습을 지원할 때, 입력 프로세서(254)는 또한 학습 언어 데이타 레코드를 액세스하고 저장한다.
도 13에서, 어레이 및 데이타 레코드는 예를들어 입력 프로세서(254)를 작동하는 소프트웨어 코드의 일부로써 통합된 입력 프로세서(254)에 저장된다. 이와 달리, 어레이 및 데이타 레코드는 입력 프로세서(254) 내의 또는 적어도 입력 프로세서에 액세스 가능한 버퍼 또는 메모리에 저장된다. 이러한 메모리는 하나 또는 그 이상의 데이타 저장장치를 포함하며, 하나 또는 그 이상의 유형의 저장 구성요소를 사용하여 실시된다. 도면부호 "250"과 같은 전자 장치는 통상적으로 기입 가능 메모리, 랜덤 액세스 메모리(RAM) 및 데이타 독출만이 가능한 리드 온리 메모리(ROM) 모두를 포함한다. 기입 가능 메모리는 기입 가능 메모리내의 어떠한 데이타도 전력 상실의 경우에 유지되어야만 할 때에는 플래시 램 또는 배터리 백-업 램과 같은 비휘발성 메모리가 바람직하기는 하지만 휘발성이나 비휘발성 중의 어떠한 것도 가능할 것이다. 어레이 및 언어 데이타 레코드가 구축된 후에는 통상적으로 변경되지 않기 때문에, 이들은 비휘발성 메모리에 저장되는 것이 바람직하여 기입 가능 메모리를 필요로 하지 않는다. 학습 언어 데이타 레코드는 신규 학습 언어 데이타 레코드가 학습 가능시에 추가되기 때문에 비휘발성 기입 가능 메모리에 저장되는 것이 바람직하다.
바람직한 실시예에서, 입력 프로세서(254)는 중국어 텍스트 입력이 소프트웨어 어플리케이션에 의한 처리가 가능하도록 하기 위해 전자 장치(250) 상의 하나 또는 그 이상의 소프트웨어 어플리케이션과 함께 동작하도록 구성된 소프트웨어 어플리케이션 또는 소프트웨어 모듈로써 실시된다.
디스플레이 장치(256)는 전자 장치(250)의 사용자에게 시각적 데이타 출력을 제공한다. 예를들어 휴대용 전자 장치에서는 액정 디스플레이 장치가 종종 사용된다.
전자 장치(250) 상에의 중국어 텍스트를 입력하기 위한 사용자 입력은 감소된 키보드(251) 상의 키를 누름으로써 이루어진다. 텍스트 엔트리는 예를들어 전자 장치(250)를 통해 지원된 특정 함수를 사용하여 특정 소프트웨어 어플리케이션, 모듈 또는 유틸리티를 개시함으로써 사용자에 의해 호출될 것이다. 연산 또는 함수가 중국어 텍스트의 입력을 요구할 때마다, 중국어 텍스트 입력 시스템은 정확한 중국어 음절을 예측하기 위해 사용자 핀인 입력을 처리한다. 하나보다 많은 소프트웨어 어플리케이션이 예를들어 텍스트 입력을 지원하는 곳에서는, 중국어 텍스트 입력 시스템은 임의의 소프트웨어 어플리케이션에 의해 호출될 수 있는 소프트웨어 모듈 또는 유틸리티로써 실시되는 것이 바람직하다. 이와 달리, 각각의 이러한 소프트웨어 어플리케이션은 본 명세서에서 설명된 바와 같이 중국어 텍스트 입력을 수행하기 위해 소프트웨어 명령을 통합할 것이다.
명백한 바와 같이, 사용자 인터페이스(253)는 텍스트 엔트리에 도움을 주기 위해 디스플레이 장치(256) 상에 텍스트 엔트리 화면을 제공한다. 텍스트 엔트리 화면을 포맷화하는 특정 내용은 예를들어 입력되는 텍스트의 성질, 텍스트가 입력되는 함수 또는 현재 사용중인 소프트웨어 어플리케이션에 좌우된다. 핀인은 텍스트 엔트리 화면 상에 우선적으로 디스플레이되며, 그에 후속하여 대응하는 보포모포로 대체될 수도 있을 것이다. 입력 핀인이 중국어 텍스트로 단편화되어 변환될 때, 텍스트 엔트리 시스템에 의해 식별되고 사용자에 의해 선택된 한자 문자 후보는 한자 문자로 대체된다.
사용자 핀인 입력이 수신될 때, 입력 프로세서(254)는 언어 데이타 레코드와 존재하는 경우의 학습 언어 데이타 레코드를 검색함으로써 핀인 입력을 중국어 텍스트로 단편화하고 변환한다. 전술된 바와 같이, 사용자에 의한 핀인 입력은 디스플레이 장치(256) 상에 디스플레이되며, 핀인이 단편화 및 변환된 후에 중국어 텍스트로 대체된다. 중국어 텍스트에서의 후보 한자 문자가 사용자에 의해 변경될 때, 입력 프로세서(254)는 디스플레이 장치(256) 상의 텍스트 엔트리 화면을 통해 후보를 선택된 후보로 대체하고, 학습이 가능하게 된 곳에서는 하나 또는 그 이상의 신규 워드를 학습 언어 데이타에 추가한다. 후보의 사용자 선택은 예를들어 사용자 입력의 시퀀스에 기초하여 탐색 함수를 호출하고 입력의 시퀀스에 대응하는 후보의 리스트로부터 선택하기 위해 키보드(251) 상의 네비게이션 키 또는 덤브휠(thumbwheel)과 같은 보조 입력 장치(도시되지 않음)를 사용함으로써 달성될 수 있다. 일실시예에서, 탐색 함수가 호출될 때, 사용자에 의한 핀인 입력 또는 대응 보포모포가 텍스트 입력 또는 탐색 윈도우 중의 하나로 디스플레이되는 것이 바람직하며, 사용자는 탐색 함수가 기반을 두어야만 하는 입력 시퀀스 또는 그 일부를 선택한다. 그리고나서, 사용자는 입력 시퀀스에 대한 하나 또는 그 이상의 한자 변형을 선택하며, 선택된 변형은 디스플레이 장치(256) 상의 텍스트 입력 화면에서의 입력 시퀀스를 대체한다.
전술된 설명이 입력 프로세서(254)에 의해 수행된 함수를 참조하고 있지만, 당업자는 중국어 텍스트 입력 방법이 구현되는 소프트웨어 어플리케이션, 모듈 또는 유틸리티의 소프트웨어 명령에 의해 입력 프로세서(254)의 이들 함수가 관리된다는 것을 이해할 것이다.
상기의 설명은 예로써의 바람직한 실시예를 참조하고 있다는 것을 이해할 수 있을 것이다. 전술된 시스템 및 방법에 대한 다수의 변형예가 본 기술 분야에 지식을 가지고 있는 사람에게는 명백할 것이며, 이러한 명백한 변형예는 전술된 바와 같은 본 발명의 기술사상과 청구범위에 포함되는 것이다.

Claims (21)

  1. 중국어 핀인 음절을 중국어 한자 음절로 변환하는데 사용하기 위한 언어 데이타 구조체로서,
    각각이 핀인 음절과 관련된 한자 문자 후보를 포함하고, 각각의 한자 문자 후보가 리스트 내의 인덱스를 갖는 복수의 한자 문자 후보 리스트와;
    각각이 복수의 핀인 음절을 갖는 워드에 대응하고 키 및 값을 포함하는 복수의 언어 데이타 레코드를 구비하며,
    각각의 언어 데이타 레코드내의 키는 언어 데이타 레코드가 대응하는 워드의 핀인 음절에 대한 인덱스 및 어조 정보의 시퀀스를 포함하며, 각각의 언어 데이타 레코드내의 값은 한자 문자 후보의 인덱스의 시퀀스를 워드의 핀인 음절과 각각 관련된 후보의 리스트에 포함하며, 그 후보들은 워드의 핀인 음절을 표현하는 것인 언어 데이타 구조체.
  2. 제1항에 있어서, 각각의 데이타 레코드는 길이에 있어서 전체 수의 바이트인 것인 언어 데이타 구조체.
  3. 제1항에 있어서, 각각의 핀인 음절에 대한 인덱스 및 음조 정보는 데이타 레코드에 2 바이트로 저장되는 것인 언어 데이타 구조체.
  4. 제3항에 있어서, 인덱스는 10비트 길이이며, 음조 정보는 5비트 길이인 것인 언어 데이타 구조체.
  5. 제1항에 있어서, 복수의 언어 데이타 레코드는 복수의 어레이로 저장되며, 각각의 어레이는 동일한 수의 핀인 음절을 갖는 워드에 대응하는 언어 데이타 레코드를 저장하는 것인 언어 데이타 구조체.
  6. 제5항에 있어서, 복수의 어레이의 각각에서의 언어 데이타 레코드는 인덱스 및 음조 정보의 시퀀스에서의 제1 인덱스에 기초하여 저장되는 것인 언어 데이타 구조체.
  7. 제1항에 있어서, 핀인 음절과 관련된 핀인 음절 식별자의 어레이를 더 포함하며, 워드의 핀인 음절의 인덱스는 워드의 핀인 음절과 각각 관련된 식별자의, 핀인 음절 식별자의 어레이에서의 인덱스인 것인 언어 데이타 구조체.
  8. 제7항에 있어서, 각각의 음절은 N개 문자의 알파벳으로부터의 n+1개의 문자를 포함하며, 식별자는 다음의 수식에 따라 결정되며,
    ID = index0*(N0) + index1*(N1) + … + indexn*(N n)
    여기서, index0는 음절에서의 첫번째 문자의 인덱스이고, index1은 음절에서의 두번째 문자의 인덱스이며, indexn은 음절에서의 (n+1)번째 문자의 인덱스이고, N은 음절 구성을 위해 사용된 문자의 가장 높은 인덱스인 것인 언어 데이타 구조체.
  9. 제7항에 있어서, 보포모포 음절과 관련된 중국어 보포모포 음절 식별자의 어레이와, 각각의 핀인 음절 식별자와 그 대응 보포모포 음절 식별자간의 대응을 나타내주는 대응 어레이를 더 포함하는 것인 언어 데이타 구조체.
  10. 제1항에 있어서, 복수의 데이타 레코드는 2-음절 워드에 대한 언어 데이타 레코드를 포함하며, 2-음절 워드에 대한 각각의 언어 데이타는,
    2-음절 워드에서의 두번째 핀인 음절의 인덱스와 2-음절 워드에서의 첫번째 핀인 음절 및 두번째 핀인 음절에 대한 음조 정보를 포함하는 키와;
    첫번째 핀인 음절 및 두번째 핀인 음절을 표현하는, 첫번째 핀인 음절 및 두번째 핀인 음절과 각각 관련된 후보의 리스트에서의, 한자 문자 후보의 인덱스의 시퀀스를 포함하는 값을 포함하는 것인 언어 데이타 구조체.
  11. 제10항에 있어서, 2-음절 워드에 대한 언어 데이타 레코드는 데이타 레코드 어레이에 저장되며, 2-음절 워드에 대한 언어 데이타 레코드의 각각은 첫번째 핀인 음절과 관련된 변형이며, 동일한 첫번째 핀인 음절과 관련된 변형은 데이타 레코드 어레이로 그룹화되며, 언어 데이타 구조는 첫번째 핀인 음절과 관련된 제1 변형의, 데이타 레코드 어레이에서의, 오프셋을 각각 포함하는 오프셋의 어레이를 더 포함하는 것인 언어 데이타 구조체.
  12. 중국어 언어 데이타를 작성하는 방법으로서,
    복수의 중국어 핀인 음절의 각각에 대한 식별자를 생성하는 단계와;
    생성된 식별자를, 식별자의 어레이에서의 식별자가 어레이 인덱스를 갖도록 식별자의 어레이로 저장하는 단계와;
    핀인 음절과 관련된 한자 문자 후보를 포함하는 복수의 한자 문자 후보 리스트를, 각각의 리스트 내의 각각의 한자 문자 후보가 리스트 내에 후보 인덱스를 갖도록 생성하는 단계와;
    다수의 핀인 음절을 갖는 복수의 워드의 각각에 대하여, 키와 값을 포함하는 데이타 레코드를 생성하는 단계를 포함하며, 상기 키는 다수의 핀인 음절의 각각에 대하여 식별자의 어레이 내에 식별자의 어레이 인덱스와, 다수의 핀인 음절의 각각에 대한 음조 정보를 포함하며, 상기 값은 다수의 핀인 음절의 각각을 표현하는 후보의, 다수의 핀인 음절의 각각과 관련된 후보의 리스트 내에서의, 후보 인덱스를 포함하는 것인 중국어 언어 데이타의 작성 방법.
  13. 제12항에 있어서, 식별자의 어레이를 식별자의 증가 순서로 저장하는 단계를 더 포함하는 것인 중국어 언어 데이타의 작성 방법.
  14. 제12항에 있어서, 상기 데이타 레코드를 생성하는 단계는 복수의 2-음절 워드의 각각에 대한 키와 값을 포함하는 데이타 레코드를 생성하는 단계를 포함하며, 상기 키는 2-음절 워드에서의 두번째 핀인 음절에 대한 식별자의 어레이에서의 식별자의 어레이 인덱스와, 2-음절 워드에서의 첫번째 핀인 음절과 두번째 핀인 음절에 대한 음조 정보를 포함하며, 상기 값은 첫번째 핀인 음절과 두번째 핀인 음절의 각각을 표현하는 후보의, 첫번째 핀인 음절과 두번째 핀인 음절의 각각과 관련된 후보의 리스트에서의, 후보 리스트를 포함하는 것인 중국어 언어 데이타의 작성 방법.
  15. 제14항에 있어서, 동일한 첫번째 핀인 음절을 갖는 2-음절 워드에 대한 데이타 레코드가 데이타 레코드 어레이에서 그룹화되도록, 2-음절 워드에 대한 데이타 레코드를 데이타 레코드 어레이에 저장하는 단계와;
    첫번째의 핀인 음절과 관련된 제1 데이타 레코드의, 데이타 레코드 어레이에서의, 오프셋을 각각 포함하는 오프셋의 어레이를 생성하는 단계를 더 포함하는 것인 중국어 언어 데이타의 작성 방법.
  16. 제12항에 있어서, 데이타 레코드를 복수의 데이타 레코드 어레이 중의 하나에 저장하는 단계를 더 포함하며, 각각의 어레이는 소정수의 핀인 음절을 갖는 워드에 대응하는 데이타 레코드를 저장하는 것인 중국어 언어 데이타의 작성 방법.
  17. 제16항에 있어서, 복수의 데이타 레코드 어레이의 각각에서의 데이타 레코드는 각각의 데이타 레코드에서의 제1 어레이 인덱스에 기초하여 저장되는 것인 중국어 언어 데이타의 작성 방법.
  18. 중국어 핀인 음절을 중국어 한자 문자로 변환하기 위해 중국어 언어 데이타를 사용하는 시스템으로서, 언어 데이타가 핀인 음절과 각각 관련된 복수의 한자 문자 후보 리스트와, 복수의 언어 데이타 레코드를 포함하며, 각각의 리스트내의 각각의 한자 문자 후보가 리스트 내에서의 인덱스를 가지며, 각각의 언어 데이타 레코드가 복수의 핀인 음절을 갖는 워드에 대응하고, 키와 값을 포함하며, 각각의 언어 데이타 레코드 내의 키가 인덱스의 시퀀스와, 언어 데이타 레코드가 대응하는 워드의 핀인 음절에 대한 음조 정보를 포함하며, 각각의 언어 데이타 레코드 내의 값이 워드의 핀인 음절을 표현하는, 워드의 핀인 음절과 각각 관련된 후보의 리스트 내에서의, 한자 문자 후보의 인덱스의 시퀀스를 포함하는 시스템에 있어서,
    핀인 음절을 구성하기 위한 복수의 문자를 표현하는 키를 갖는 키보드와;
    키보드로부터의 입력 핀인 음절을 수신하도록 구성된 입력 대기열과;
    복수의 한자 문자 후보 리스트 및 복수의 데이타 레코드를 저장하도록 구성된 메모리와;
    상기 메모리 및 입력 대기열에 연산 가능하게 접속되고 입력 핀인 음절을 입력 워드로 단편화하도록 구성되어, 입력 핀인 음절을 포함한 각각의 입력 워드에 각각 대응하는 언어 데이타 레코드에 대하여 언어 데이타 레코드를 검색하고, 각각의 입력 워드를 대응하는 데이타 레코드 내의 한자 문자 후보 인덱스를 사용하여 중국어 한자 문자 후보로 변환하는 입력 프로세서와;
    디스플레이 장치와;
    상기 디스플레이 장치와 입력 프로세서 사이에 접속되어, 디스플레이 장치 상에 입력 핀인 음절을 디스플레이하고, 입력 핀인 음절이 입력 프로세서에 의해 변환될 때 입력 핀인 음절을 중국어 한자 문자 후보로 대체하는 사용자 인터페이스를 구비하는 것인 시스템.
  19. 제18항에 있어서, 상기 입력 대기열은 하나 또는 그 이상의 입력 핀인 음절을 표현하는 선택된 한자 문자를 식별하는 한자 문자 선택 입력을 수신하도록 구성되며, 상기 입력 프로세서는 한자 문자 선택 입력이 수신되었는지의 여부를 판정하고 한자 문자 선택 입력이 수신된 경우 하나 또는 그 이상의 입력 핀인 음절 입력을 선택된 한자 문자로 변환하도록 구성되는 것인 시스템.
  20. 제19항에 있어서, 상기 입력 프로세서는 하나 또는 그 이상의 입력 핀인 음절을 포함하는 신규 워드를 형성하도록 구성되어, 신규 워드에 대응하는 신규 데이타 레코드를 생성하고 신규 데이타 레코드를 메모리에 저장하는 것인 시스템.
  21. 제20항에 있어서, 상기 입력 프로세서는 언어 데이타 레코드와, 각각의 입력 워드에 대응하는 데이타 레코드에 대한 임의의 신규 데이타 레코드를 검색하도록 구성되는 것인 시스템.
KR1020057000082A 2002-07-03 2003-07-03 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템 KR100712001B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US39394802P 2002-07-03 2002-07-03
US60/393,948 2002-07-03
CA002413055A CA2413055C (en) 2002-07-03 2002-11-27 Method and system of creating and using chinese language data and user-corrected data
US10/305,563 US7228267B2 (en) 2002-07-03 2002-11-27 Method and system of creating and using Chinese language data and user-corrected data
CA2,413,055 2002-11-27
US10/305,563 2002-11-27

Publications (2)

Publication Number Publication Date
KR20050043884A true KR20050043884A (ko) 2005-05-11
KR100712001B1 KR100712001B1 (ko) 2007-04-30

Family

ID=30118652

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057000082A KR100712001B1 (ko) 2002-07-03 2003-07-03 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템

Country Status (8)

Country Link
EP (1) EP1522027B8 (ko)
JP (2) JP2005531858A (ko)
KR (1) KR100712001B1 (ko)
CN (1) CN100561469C (ko)
AT (1) ATE329317T1 (ko)
AU (1) AU2003250637A1 (ko)
DE (1) DE60305922T2 (ko)
WO (1) WO2004006123A2 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2008136376A (ru) * 2006-02-10 2010-03-20 Зи Корпорейшн Оф Канада, Инк. (Ca) Способ и устройство идентифицирования идеографического знака
CN102609455B (zh) * 2012-01-12 2014-12-03 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN107066104B (zh) * 2016-11-14 2020-12-11 高商展 电脑汉英互读互译键盘最佳键位
CN109901727A (zh) * 2019-03-06 2019-06-18 上海依智医疗技术有限公司 一种获取文字纠错信息的方法和装置
CN111354339B (zh) * 2020-03-05 2023-11-03 深圳前海微众银行股份有限公司 词汇音素表构建方法、装置、设备及存储介质
CN113343639B (zh) * 2021-05-19 2023-10-03 网易(杭州)网络有限公司 产品标识码图生成、基于产品标识码图的信息查询方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö

Also Published As

Publication number Publication date
KR100712001B1 (ko) 2007-04-30
EP1522027B1 (en) 2006-06-07
JP2007042146A (ja) 2007-02-15
WO2004006123A2 (en) 2004-01-15
EP1522027B8 (en) 2006-08-16
CN1679023A (zh) 2005-10-05
ATE329317T1 (de) 2006-06-15
JP2005531858A (ja) 2005-10-20
DE60305922T2 (de) 2007-04-26
AU2003250637A1 (en) 2004-01-23
AU2003250637A8 (en) 2004-01-23
EP1522027A2 (en) 2005-04-13
DE60305922D1 (de) 2006-07-20
CN100561469C (zh) 2009-11-18
WO2004006123A3 (en) 2004-09-02

Similar Documents

Publication Publication Date Title
US7512533B2 (en) Method and system of creating and using chinese language data and user-corrected data
US8803812B2 (en) Apparatus and method for input of ideographic Korean syllables from reduced keyboard
US8726148B1 (en) Method and apparatus for processing text and character data
JP3579351B2 (ja) 日本語文字用ユーザインターフェースを実現するためのシステムおよび方法
US5682158A (en) Code converter with truncation processing
US5784069A (en) Bidirectional code converter
US5721899A (en) Retrieval apparatus using compressed trie node and retrieval method thereof
JP4286299B2 (ja) 日本語仮想辞書
JP2007042146A (ja) 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
US20050251519A1 (en) Efficient language-dependent sorting of embedded numerics
EP1691298B1 (en) Method and system of creating and using Chinese language data and user-corrected data
EP1665009B1 (en) Apparatus and method for input of ideographic korean syllables from reduced keyboard
EP0852037B1 (en) Unicode converter
JP3938087B2 (ja) 言語入力システム及び方法
JPS6246029B2 (ko)
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH09179860A (ja) キーボード入力値自動補正システム
JP2006099672A (ja) 字句をデータに変換する装置、方法及びプログラム
JPH03164859A (ja) かな漢字変換装置
KR20040062223A (ko) 축소 키보드를 이용한 문자열 목록의 선택 및 노래반주기선곡 방법
JPH0625990B2 (ja) 中文自動区切入力方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130403

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140407

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160408

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170411

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180405

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190410

Year of fee payment: 13