KR100259407B1 - 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법 - Google Patents

중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법 Download PDF

Info

Publication number
KR100259407B1
KR100259407B1 KR1019960028558A KR19960028558A KR100259407B1 KR 100259407 B1 KR100259407 B1 KR 100259407B1 KR 1019960028558 A KR1019960028558 A KR 1019960028558A KR 19960028558 A KR19960028558 A KR 19960028558A KR 100259407 B1 KR100259407 B1 KR 100259407B1
Authority
KR
South Korea
Prior art keywords
syllable
chinese
input
syllables
string
Prior art date
Application number
KR1019960028558A
Other languages
English (en)
Other versions
KR970012111A (ko
Inventor
줄리안 첸 쳉준
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Publication of KR970012111A publication Critical patent/KR970012111A/ko
Priority to KR1019990035578A priority Critical patent/KR100268297B1/ko
Application granted granted Critical
Publication of KR100259407B1 publication Critical patent/KR100259407B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Machine Translation (AREA)

Abstract

음성 중국어(Pinyin 및 BFMP)가 컴퓨터 시스템에 입력되어 한지(Hanzi) 형태로 정확히 변환된다. 본 발명의 시스템은 사용자가 음절의 성조를 표시하는 다이어크리틱(diacritic)을 갖는 각각의 입력된 음성 텍스트 음절에 주석을 달도록 하는 다이어크리틱 키(및 대응하는 ASCII 코딩)를 구비하는 신규한 키보드를 갖는다. 본 발명의 시스템 상에서 실행되는 프로세스는 다이어크리틱(또는 디리미터(delimiter)) 키가 눌러질 때 음절이 입력되었는지의 여부를 판단한다. 입력된 음성 음절은 채택 가능한 음성 음절 및 약어 리스트와 비교된다. 입력된 음절이 리스트 상에 있는 경우, 현재 표기(spell)되고 채택된 음절은 메모리에 저장되며 그래픽 디스플레이의 음성 부분 상에 디스플레이된다. 이 프로세스는 디리미터가 입력될 때까지 후속하는 음절에 대해 계속된다. 디리미터를 만날 때,(두 디리미터 간의 문자 스트링으로서 정의되는) 단어 스트링(word string)은 형태 및 구문론처리 및/또는 통계 언어를 이용하여 분석되어 단어 스트링 내에 단어를 나타내는 적절한 한지 문자를 명확히 결정한다. 유일한 한지 변환이 메모리에 입력되며 그래픽 인터페이스의 한지 부분 상예 디스플레이된다.

Description

중국어 텍스트 입력 키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력 장치, 음성 중국어의 음절 및 단어 저장 방법
본 발명은 중국어 텍스트(Chinese language text), 특히 음성 중국어 텍스트(phonetic Chinese text) 및 한지(Hanzi)를 처리하는 컴퓨터를 이용하는 개선된 시스템 및 방법에 관한 것이다.
컴퓨터 상에서 중국어를 입력하고 처리하는 것은 매우 어려운 문제이다. 중국 문자는 그 수가 엄청나기 때문에 이것이 어렵다. 중국어의 정방형 문자(한지) 표기 시스템에 있어서, 통상 이용되는 중국어 문자(한지)로서 3000개 내지 6000개가 있다. 비교적 희귀한 문자를 포함하면, 만 개를 초과하는 한지가 있다. 이러한 어려움 외에도 중국어에는 텍스트 표준화, 다수의 동음 이의어, 컴퓨터에 의해 한지의 효과적인 텍스트 처리를 방해하는 모호한 단어의 경계와 같은 문제점이 있다. 수 십 년동안 집중적으로 연구되고 수 백 가지 다양한 방법이 존재함에도 불구하고 한지의 컴퓨터 입력 및 처리는, 중국에서 특히 텍스트 처리에 있어서 컴퓨터를 이용하지 못하게 하는 큰 장애가 되고 있다.
오늘날 중국어를 입력하고 처리하는 데 이용 가능한 컴퓨터 시스템은 세 가지 카테고리로 분류된다.
첫 번째 카테고리는 정방형 문자를 기본적인 화상 성분으로 분해하는 방법에 기초한다. 키보드 상의 각종 키는 한지의 각종 기본적인 화상 성분을 나타내도록 할당되어 있다. 그 다음에, 각 문자는 이들 기본적인 화상 성분의 조합으로서 몇 번의 키 스트로크(key strokes)에 의해 키 입력될 수 있다. 이 방법의 일 예로서, 대만의 창지(Changji) 및 중국 본토의 오키 입력(Five-Stroke) 방법이 있다. 이러한 방법의 큰 단점은 키를 한지 성분에 할당하는 것이 인위적이라는 점이다. 창지 및 오키 입력 방법에서는, 코드의 할당을 기계적으로 암기하여야 한다. 요소를 나타내는 키를 암기하는 일은 어렵고 시간이 소모되는 일이다. 또한, 많은 경우에 한지를 그의 기본 요소로 분해하는 것은 유일하지 않다. 이들 방법이 직업적인 입력 오퍼레이터에 의해 이용되고, 잘 훈련된 타이피스트에 의할 경우에는 빠른 속도를 낼 수 있지만, 이들은 보통 사람은 물론 컴퓨터 전문가 및 다른 직업종사자에 의해서도 많이 이용되지 않는다. 따라서, 이러한 방법으로는 일반적인 중국어 사용 인구에 의한 컴퓨터 이용이 제한 받게 된다.
두 번째 및 세 번째 카테고리는 중국어 처리에서 "동음 이의어 문제"와 관련되어 있다.
두 번째 카테고리는 직업적인 타이피스트를 제외한 모든 사람에 대해 가장 흔히 이용되는 방법인 음성 입력(예를 들면, 중국 본토에 있어서 핀인(Pinyin) 및 대만에 있어서 "음성 부호" 또는 BPMF)이다. 중국어의 한지 표기 시스템은 이 방법에 대해 개념적이며 실질적인 장벽이다.
수 만 개의 문자와는 대조적으로, 단지 약 1300개의 상이한 음성 음절이 존재하므로, 한 음성 음절은 복수의 상이한 한지에 대응한다. 예를 들면, 북경 관어에서 "yi"의 발음은 100개 이상의 한지에 대응할 수 있다. 이 때문에, 음성 음절을 한지로 번역하는 경우 모호함이 발생한다.
이러한 "동음이의어 문제점"에 대처하기 위해, 음성 입력 시스템의 대부분은 복수 선택 방법을 이용한다. 제이 하인즐 등(J.Heizl et al.)에 의해 1983 년 5 월 5 일에 발행된 독일 특허 제 3,142,138 호, 케이.씨. 시에(K.C.Hsieh)에 의해 1991 년 9 월 10 일에 발행된 미국 특허 제 5,047,932 호, 탠 샹구앙(Tan Shanguang)에 의해 1991 년 3 월 8 일에 발행된 중국 특허 제1,064,957 호를 참조하라. 음성 음절이 키 입력된 후, 컴퓨터는 같은 발음을 갖는 모든 가능한 한지를 디스플레이한다. 어떤 경우에는, 같은 발음을 갖는 모든 가능한 문자를 디스플레이할 충분한 공간이 스크린상에 존재하지 않는다. 이러한 경우에는 스크롤업과 스크롤 다운(scrolling up and down)해야 한다. 따라서, 매 음절에 따라 이들 음성 방법은 매우 느리다.
인접한 한지의 도출 확률에 기초하는 복수 선택 방법에 대한 개선책이 종래기술에 개시되어 있다. 예를 들면, 알.더블유.스프로우트(R.W.Sproat)에 의해 1992 년 4 월 1 일에 발행된 영국 특허 제 2,248,328 호를 참조하라. 또한 이 확률적 접근법은 문법적인 제한 조건과도 또한 조합될 수 있다. 예를 들면 케이.티.루아 등(K.T.Lua et al.)의 Computer processing of Chinese and Oriental Languages, Vol.6, Numl, page 85, June 1992를 참조하라. 그러나, 이들 방법의 변환 정확도(음성 대 한지)는 전형적으로 약 80%로 제한되고 있다.
세 번째 카테고리는 비음성 문자의 부가와 음성 문자 입력 방법을 조합하는 것이다. 비음성 문자가 음성 문자에 부가되어 같은 발음을 갖는 문자를 인위적으로 구별한다. 일예로서, 부수에 의한 음성철자법(씨.씨. 첸에 의해1983년 11월 20 일에 발행된 영국 특허 제 2,158,776 호) 및 키 입력의 수를 갖는 음성 철자법(지.씨에(G.Xie)에 의해 1992 년 11 월 25 일에 발행된 중국 특허 제1,066,518호)이 있다. 이들 방법에서는, 인위적인 규칙 또는 키 입력의 횟수를 암기할 필요가 있으며 이 때문에 입력 속도가 실제로 느리게 된다.
"동음 이의어 문제점"외에도, 중국어를 처리하는 경우 "단어 경계 문제점"이 존재한다.
현대 중국어에서 80% 이상의 단어가 다음절(多音節)(즉, 둘 이상의 한지)을 가지지만,(모든 유럽 언어 및 심지어 한국어와 대조적으로) 중국어의 표기 시스템에는 단어 분리가 없다. 또한, 음성 중국어의 입력은 단어 경계가 없이 보통 음절마다 수행된다.
다음절 단어의 폭넓은 인식 및 단어 경계에서 단어를 구분하는 표준 방법의 결여에도 불구하고, 중국어에서의 단어의 정의 및 심지어 그 존재까지도 논란이 되고 있다. 더욱이, 중국어는 전통적으로 단어 사이에 간격을 두지 않고 한지의 연속적 스트링으로 표기하고 있으므로, 보통의 중국 사람은 "단어"가 무엇을 의미하는지 정확한 개념을 갖고 있지 않다. 많은 경우, 단어 경계 또는 디리미터(delimiter), 예를 들면, 스페이스를 어디에 두어야 할 지가 명확하지 않다. 그 논란은 다음과 같은 경우로 예시된다.
1. 복합 명사. 영어에서, 두 개의 독립적으로 유효한 단어를 조합하여 복합명사, 예를 들면, 칠판(blackboard) 또는 방울뱀(rattlesnake)을 형성할 수 있다. 영어에서와 같이, 이들 복합 스트링을 한 단어 또는 두 단어로서 처리하여야 하는지에 대한 논란이 존재한다. 중국에서는 일반적으로 상기의 예가 인정되지 않고 있으므로, 복합 명사에 대한 논란은 더 심각하다. 예를들면, 중국 핀인 어휘집에 리스트된 바와 같이, 단어"nanguangboyuan), (남성 아나운서)는 두단어(ngnguangboyuan) 또는 사람에 따라서는 세 단어까지 간주될 수 있다.
2. 접사(affixes). 모든 중국어 동사는 "구문 유닛(syntax units)",-ie,-guo, 또는 -zhe와 부가되어 과거, 현재 완료, 또는 진행 시제를 만들 수 있다. 모든 형용사는 -de와 부기될 수 있다. 그러나, 이들 구문 유닛은 불변화사(particles)로 불리우는 독립적인 단어로서 또한 나타난다. 언어학자의 각 학파는 이들 구문 유닛을 상이하게 다루고 있다. 일부 학파는 "고유(proper)" 접사 즉, 이들이 부착되는 단어의 일부로서 이들 구문 유닛을 다루고 있다. 다른 학파는 독립적인 불변화사, 즉, 분리된 단어로서 이들을 다루고 있다.
접사는 단어의 일부인 반면 불변화사는 독립적인 단어이다. 예를 들면, 대부분의 언어학자에 의해 명사 어미 -hua,-jia,-yuan, xing,-zhuyi는 단일 단어에서 접사로서 간주되는 한편, 일부 언어학자는 이들을 독립된 불변화사(별개의 단어)로 간주한다. 한편,-z,-r, tou와 같은 어미는 항상 명사에 대한 집미사로서 다루어지며 독립된 불변화사로서는 취급되지 않는다.
3. 복합 동사. aufziechen, heraufziehen 등과 같이 독일어(diezerbrechbar, Zeitwort)의 가분 동사(divisible verbs)와 매우 유사한 동사 부류가 중국어에 있다. 이들 "가분(divisible)" 동사는 삽입사 -zu-,-ge-를 이용하여 부정사 또는 과거 분사가 될 수 있다.
중국에서, 유사한 복합 명사가 "가능" 또는 부정을 의미하는 삽입사 -de- 또는 -bu-를 가질 수 있다. 일 예로서, 상기한 독일어 동사와 매우 유사한 taideqilai(올릴 수 있는) taibuqilai(올릴 수 없는)의 버전을 갖는 taiqilai(올리다)이 있다. 더욱이, 어구 ''taiqi tou lai", "taideqi tou lai", "taibuqi toulai"는 ("ziehen dein Kapf auf"와 같은) 복합 동사를 사용하는 유사한 문장 구조이다. 이러한 관점으로부터, "taiqilai"는 한 단어가 되어야 한다. 그러나, 많은 언어학자가 이들 음절을 분리된 단어(tai,qi,lai)로 간주하고 이들을 분리하여 표기한다.
앞서 예시된 바와 같이, 중국어에서는 자주 어디에 단어의 경계를 두어야 할지가 불명확하다.
이와 같은 논란에도 불구하고, 많은 다음절 단어가 (1) 명사 "gada", "putao", "feiji" 등, (2) 동사 "zhuanyou", "xingwu", 등, (3) 형용사 "heised", "pangdad" 등과 같이 최소 언어 단위, 또는 형태소(形態素)로서 흔히 인식된다. 또한, 복수의 단어로 구성되는 복수의 어구가 보통 채택된다. 예를 들면, 때때로 "dianzigongye"는 한 단어로 간주될 수 있지만, 아무도 어구 "fazhan dianzi dongye"를 한 단어로 간주하려 하지 않을 것이다. 핀인의 상이한 표기 스타일에서 하이픈이 사용되거나 사용되지 않을 수 있지만, 보편적으로 단어로서 흔히 간주되는 사자성어(four-syllable idioms)가 있다. 이들 부류의 단어에 대해, 유일한 단어 경계가 보편적으로 인식된다.
전술한 바와 같이, 보편적으로 채택되는 정통적인 규칙이 결여되어 있고 중국어에 대해 단어 분리 습관이 부족하므로, 중국어 텍스트의 컴퓨터 입력 및 처리에 대해 용이하게 사용될 표준을 개발하는 것은 어려우며 어떤 특정한 언어 학파도 보편적으로 추종되지 않고 있다. 단어의 좁은 의미의 정의(즉, 많은 복합 단어가 어구로서 다루어지고, 많은 접사가 불변화사로서 다루어짐)를 따른다 하더라도, 몇가지 모호성은 여전하다. 단어에 대해 넓게 정의(즉, 복수의 복합 단어를 하나의 단위로서 다루고, 복수의 접사를 단어의 일부로서 채택함)할 경우, 식별의 정확도는 향상될 것이지만, 컴퓨터 메모리에 저장하여야 하는 단어의 양이 너무 커서 모든 개별 단위의 단어 및 모든 접사 조합을 갖는 단어들을 감당할 수 없다.
외국인을 위한 구어체 중국어의 교과서는 다음절 단어가 기본 단위로서 간주되는 핀인이라 불리우는 철자 형태로 표기된다. 핀인은 로마 문자를 이용하며, 다음절 단어의 형태로 리스트된 어휘집을 갖는다. 중국어 핀인 어휘집(A Chinese Pinyin Vocabulary)은 1964 년에 발행되었다. 개정된 판은 약 60000 단어 엔트리를 포함하며, Language Press, Beijing, China에 의해 1989 년에 발행되었다. 단어 경계를 정의하는 핀인 형태로 표기된 중국어에 대한 정통적인 규칙은 1984 년에 발행되었다.
본 발명의 목적은 컴퓨터 상에서 음성 중국어 및 한지를 입력하고 처리하는 개선된 컴퓨터 시스템을 제공하는 것이다.
본 발명의 다른 목적은 중국어에 있어서, 단어 분리의 각종 언어 이론 및/또는 상이한 개인적 습관을 수용하면서 음성 중국어(핀인 또는 BPMF) 입력을 문자 기록(한지)으로 변환하는 비교적 작은 어휘집(메모리)을 필요로 하는 정확한 컴퓨터시스템, 프로세스를 제공하는 것이다.
본 발명의 다른 목적은 컴퓨터 키보드의 편리하고 효율적인 설계를 제공하여 중국어 텍스트의 입력 및 처리를 용이하게 하는 것이다.
본 발명의 다른 목적은 확장된 ASCII 코드의 설계를 제공하여 영어 및 GB2312-80 형태(중국어 문자를 통신하는 중국 관영 표준)의 정방형 문자(한지) 스트림과 충돌 없이 정보 스트림에 기초하여 음성 중국어의 저장, 프린팅, 전송을 용이하게 하는 것이다
본 발명의 다른 목적은 자동 에러 검출 및 정정을 제공하는 음성 중국어에 대한 컴퓨터 처리 시스템을 제공하는 것이다.
본 발명의 다른 목적은 중국어 및 비중국어(예를 들면, 영어) 혼합 텍스트가 처리될 수 있도록 하는, 음성 중국어에 대한 컴퓨터 처리 시스템을 제공하는 것이다.
본 발명은 음성 중국어(핀인 및 BPMF)를 컴퓨터 시스템에 정확하고 효율적으로 입력하고 음성 입력을 한지 형태로 정확히 변환하는 시스템 및 방법에 관한 것이다. 본 발명의 시스템은 사용자가 음절의 성조를 표시하는 다이어크리틱(diacritic)을 갖는 각각의 입력된 음성 텍스트 음절에 주석을 달도록 하는(annotate) 다이어크리틱 키(및 대응하는 ASCII 코딩)를 갖는 신규한 키보드를 갖는다. 시스템 상에서 실행되는 프로세스는 다이어크리틱(또는 디리미터(delimiter)) 키가 눌러질 때 음절이 입력되었는지의 여부를 판단한다. 입력된 음성 음절은 채택 가능한 음성 음절 및 약어(abbreviation)의 리스트와 비교된다. 입력된 음절이 리스트 상에 있는 경우, 현재 글로 표현(spell)되고 말로 표현된 음절이 메모리에 저장되며 그래픽 디스플레이의 음성 부분 상에 디스플레이된다.이 프로세스는 디리미터가 입력될 때까지 후속하는 음절에 대해 계속된다.
디리미터를 만날 때,(두 디리미터 간의 문자 스트링으로서 정의되는) 단어스트링(word string)이 처리되어, 단어 스트링 내의 단어를 나타내는 적절한 한지문자를 판단한다. 단어 스트링(또는 단어 스트링 내의 각 스트링)은 음성 단어의 사전과 비교된다. 단어 스트링이 유일한 한지 번역어(飜譯語)를 갖는 경우, 한지번역어가 메모리에 저장되고 그래픽 인터페이스의 한지 부분 상에 디스플레이된다. 단어 스트링이 사전에서 일치어(一致語;match)가 없는 경우, 형태 분석(morphological analysis)이 행해지는데, 즉 (접사 리스트 상에서 식별된) 임의의 표준 접사가 단어 스트링으로부터 제거된다. 나머지 단어 스트링(어근)은 재분석 된다. 어근이 사전에서 여전히 일치어를 갖지 않는 경우, 어근(나머지 단어 스트링)은 구성 요소/단어로 분해된다. 구성 요소가 사전에서 유일한 일치어를 갖는 경우, 이들 유일한 구성 요소/단어의 한지 번역어가 메모리에 저장되고 그래픽 인터페이스의 한지 부분 상에 디스플레이된다.
단어 입력 또는 임의의 구성 요소/단어가 모호한 번역어(사전에서 유일하게 일치하지 않음)를 갖는 경우, 구문 분석(syntactical analysis)이 행해진다. 단어 스트링 내의 단어는 기능어(기능어/접사 리스트 상에 있으며 성조 음절을 가지지 않음) 또는 개념어(notional word)(적어도 한 성조 음절을 갖는 단어)로서 분류된다. (본 발명의 목적을 위해, 기능어, 불변화사, 접사가 같은 방식으로 이용되고 다루어짐에 주의하라.) 기능어는 명확히 번역되며 나머지 단어 스트링(어근)입력의 구조를 또한 결정한다. 개념어에 남겨진 모호성은 번역된 기능어를 갖는 개념어의 이용에 기초하여 감소되거나 또는 제거된다. 개념어가 갖는 임의의 나머지 모호성은 통계 모델에 의해 제거된다.
음성 텍스트는 키보드 이외의 다른 장치, 예를 들면 네트워크, 자기 매체, 또는 음향 시스템을 통해 시스템으로 입력될 수 있다. 중국어 및 비중국어 단어의 혼합 텍스트는 특수 문자, 예를 들면, 스페이스 등으로 비중국어 문자를 구분함으로써 처리될 수 있다.
도1은 본 시스템의 바람직한 실시예의 블럭도.
도2a는 본 시스템에 이용되는 키보드의 한 바람직한 실시예를 도시한 도면.
도2b는 성조 키를 갖는 키보드 부분의 대체 실시예를 도시한 도면.
도2c 및 2d는 본 시스템에서 이용되는 키보드의 바람직한 대체 실시예로서 각 키보드가 성조 키로서 이용되는 스페이스 바의 분할된 섹션을 갖는 실시예를 도시한 도면.
도3은 하위 7 비트에서 성조 다이어크리틱 및 상위 7 비트에서 성조 다이어크리틱을 갖는 모든 이용 가능한 모음을 포함하는 ASCII 코드 데이타 구조의 바람직한 실시예.
도4는 메모리 내에서 핀인 단어 등록을 생산하는 키보드 입력에 대한 바람직한 프로세스를 도시하는 흐름도.
도5는 핀인 형태로 표기된 중국어 단어에 대해 형태 분석 및 분해 프로세스를 도시하는 흐름도.
도6은 모호한 단어 스트링을 갖는 핀인 입력을 처리하는 바람직한 구문 방법을 도시하는 흐름도.
도7은 각 음절에 대해 하나의 코드 형태를 갖는 중국어 음절의 바람직한 리스트를 나타내는 표.
도8은 기능어로서 다루어지는 중국어 기능어, 불변화사, 접사의 바람직한 리스트를 나타내는 표.
*도면의 주요부분에 대한 부호의 설명
1010 ; CPU 1020 ; 그래픽 인터페이스
1100 ; 주기억 장치 1200 ; 메모리 저장장치
도1은 본 시스템(1000)의 한 바람직한 실시예의 블럭도를 도시하고 있다. 시스템(1000)은 중국어 문자, 영어 텍스트를 디스플레이할 수 있는 그래픽 인터페이스(1020), CPU(1010), 주기억 장치(1100), 메모리 저장 장치(1200)를 포함한다. 키보드 프로파일(1070)은 주기억 장치(1100) 및/또는 메모리 저장 장치(1200)에 저장되어 있다. 시스템(1000)은 마우스와 같은 포인팅 장치(1031)를 가지며, 네트워크(1090)에 접속될 수 있다. IBM RS/6000은 CPU(1010), 메모리(1100,1200), 그래픽 인터페이스(1020)의 한 실시예이다.
신규한 키보드(1030)가 또한 도시되어 있다. 키보드는 성조 다이어크리틱키(1050) 및 표준 로마 문자인 음절 입력 키(1040)를 포함한다. 다른 성조 키(1060A,B)가 또한 가능하다. 성조 키(1060A)는 분할 스페이스 바 상에 배치될 수 있다. 성조 키(1060B)는 표준 화살표 키 위에 부가될 수 있다. 신규한 키보드의 다른 바람직한 실시예는 도2a-2d의 설명에 기술되어 있다.
키보드(1030)의 키 입력을 변환하는 데 사용되는 신규한 데이타 구조(300)가 메모리 저장 장치(1200) 및/또는 주기억 장치(1100)에 포함되어, 메모리(1100,1200)에 저장, 즉 등록되는 문자(예를 들면, ASCII) 및 다이어크리틱을 인코딩한다. 데이타 구조(700,800,950)는 메모리(1200)에도 역시 저장된다. 이들은 중국어 음절 리스트(700), 기능어/접사 리스트(800), 중국어 사전 또는 어휘집(950)을 포함한다.
메모리(1100,1200)에 신규한 프로세스(400,500,600)가 포함된다. 프로세스(400)는 음성 중국어를 시스템(1000)으로 입력하고 단어 경계를 선택 사양적으로 정의하는 방법이다. (본 개시에서 음성 중국어는 일반성을 상실하지 않고 핀인으로서 지칭할것임에 주의해야한다.) 프로세스(500)는 유일한 한지 번역어를 결정하기 위해 핀인 텍스트/단어의 스트링을 형태적으로 분석하는 방법이다. 프로세스(600)는 모호한 스트링/단어, 즉 하나를 초과하는 한지 번역어를 갖는 스트링/단어를 해결하기 위해 프로세스(500)에 의해 이용되는 구문 분석 방법이다. 데이타 구조(300,700,800)는 제 3,7,8 도에 제각기 기술되어 있다. 프로세스(400,500,600)는 제 4,5,6 도에 제각기 기술되어 있다.
전형적으로, 사용자는 키보드(1030)를 이용하여 적절한 다이어크리틱(이하를 참조)에 의해 핀인 텍스트 입력을 시스템(1000)에 입력한다. 데이타 구조(300) 및 프로세스(400)를 이용하여, 시스템(1000)은 그래픽 인터페이스(1020)의 분할 스크린의 제1섹션(1021) 상에 핀인 문자(1022)(로마 문자, 다이어크리틱, 구두점등)를 디스플레이한다. 프로세스(500 및 600)를 이용하여, 시스템(1000)은 핀인 입력을 분석하고, 핀인을 한지로 변환하며, 그래픽 인터페이스(1020)의 제2섹션(1024) 상에 한지 문자(1025)를 디스플레이한다. 프로세스(500 및 600) 및 부가적인 언어 번역 장치(1034)를 이용하여, 시스템(1000)은 다이어크리틱에 의해 코딩되거나 또는 표시된 입력 핀인을 영어 등의 다른 언어로 변환할 수 있다.
시스템(1000)은 키보드(1030) 외에 텍스트가 입력될 수 있도록 하는 다른 요소를 또한 포함할 수 있다. 예를 들면, 스트링은 네트워크(1090)를 통해 전송될 수 있다. 다른 입력은 오디오 텍스트 입력을 위한 요소(1033)를 포함한다. 이들 성분은 적절한 드라이버를 구비하여 시스템(1000)에 접속할 수 있다. 이하 전체적으로 참조 자료로 인용되는 1995 년 3 월 15 일에 출원된 첸 등에 의한 STATISTICAL ACOUSTIC PROCESSING METHOD AND APPARATUS FOR SPEECH RECOGNITION USING A TONED PHONEME SYSTEM이란 명칭의 미국 특허 제 08/404,786 호를 참조하라. 적절한 다이어크리틱에 의해 코딩되거나 또는 표시된 핀인의 스트링은 디스켓 등의 자기 매체(1032)를 포함하는 다른 잘 알려진 방법을 이용하여 시스템(1000)으로 또한 입력될 수 있다.
텍스트를 입력하는 경우, 중국어의 음성 표시에서 강조된 음절(및 일부 실시예에서 강조되지 않은 음절) 및 음절 값을 구분하는데 다이어크리틱이 사용된다. (프로세스(400)를 참조하라.) 다이어크리틱은 음절 성조를 나타내는 심볼이다. 본 발명에서, 성조를 갖는 단어의 음절은 음절이 성조를 가짐을 표시하는 다이어크리틱에 의해 주석이 붙여지게 된다. 또한, 다이어크리틱은 성조의 유형을 표시한다. 북경 관어(Mandarin)(중국 표준어)에는 네 가지 성조 유형이 있다. 이들은 상평성(high), 상성(rising), 하평성(low), 거성(falling)이다. 일부 언어학자들은 "성조 없음, 또는 무성조(untone or no tone)"으로 불리우는 제 5 성조(다이어크리틱)를 포함시킨다.
텍스트(400)를 시스템(1000)으로 입력하는 동안, 성조 다이어크리틱이 강조된 음절 상에 부가된다. 이 코딩 또는 구분에 의해, 개념어 및 기능어 간의 차, 불변화사, 접사가 텍스트(500,600)의 다른 프로세스에서 더 명확해진다. (액센트된 음절을 갖는 단어는 개념어, 기능어, 불변화사이며 접사는 모두 800으로 리스트 된다.)
대체 실시예에서, "무성조" 다이어크리틱이 (기능어, 불변화사, 접사를 포함하는) 각각 액센트되지 않은(성조가 없는) 중국어 음절 뒤에 부가된다. 본 실시예는 "혼합 언어/텍스트"가 입력되는 경우에, 즉, 영어 또는 다른 비중국어 텍스트가 중국어 텍스트 입력에 포함되는 경우에 유용하다. 비중국어 텍스트는 다이어크리틱에 의해 코딩되지 않고(표시되지 않고),(무성조 다이어크리틱을 포함하는 다이어크리틱에 의해 표시된) 중국어 단어/음절은 표시되지 않은 비중국어 텍스트와 구별된다. 비중국어 텍스트는 특별한 디리미터에 의해, 예를 들면, 단어 간의 스페이스에 의해 또한 구분된다.
다른 언어 처리, 즉, 번역, 분석, 및/또는 프린팅동안, 음절 스트링에서 액센트된 음절을 구분하고 각 강조된 음절의 성조 유형을 표시하는 다이어크리틱이 본 발명에 의해 사용되어 중국어의 음성 표시(핀인)를 단어 및 문장으로 파싱(parse)한다. (프로세스(500 및 600)를 참조하라.) 기능어, 불변화사, 및/또는 접사가 존재하는 지점에서 중국어 문장의 음성 표시를 분할함으로써 음성 표시를 파싱하는 규칙이 적용된다. 시스템(1000)은 이것을 효율적으로 행하는데, 그 이유는 각 중국어 방언에서 알려지고 식별된 기능어는 비교적 작은 수, 즉, 100개 이하이기 때문이다. 따라서, 모든 유용한 기능어 및 불변화사/접사(800)를 저장하는 데에는 비교적 적은 양의 컴퓨터 메모리가 필요하다.
시스템(1000)은 단어 의미 및 문장 구조를 정확히 판단한다. (프로세스(500 및 600)를 참조하라.) 먼저 유일하고 명확한 번역어를 갖는 기능어(및 불변화사/접사)가 의미, 사용, 성조의 관점에서 번역된다. 기능어(및 불변화사/접사)는 또한 문장 구조를 정의하는 데 사용된다. 기능어(및 불변화사/접사) 및 정의된 문장 구조의 번역을 사용하여, 문장에서 다른 (개념적) 단어의 의미가 결정될 수 있다.
또한, 본 발명의 목적을 위해 기능어, 불변화사, 접사가 같은 방식으로 이용되고 다루어진다. 이는 중국어의 표기 시 명확한 단어 경계가 없기 때문에 어떤 구별도 이루어지지 않는 경우가 자주 있기 때문이다. 기능어, 불변화사, 접사도 또한 유사한 성조 구조를 가지고 있다. 기능어, 불변화사, 접사의 바람직한 리스트는 시스템 메모리(1100,1200)에 저장되며 이하 도8에 제공되어 있다.
본 발명의 신규한 특성 중 하나는 핀인 중국어 입력을 위해 및/또는 혼합 텍스트 처리(비중국어 언어, 예를 들면, 영어를 포함하는 핀인 중국어)을 위해 특별히 설계된 새로운 키보드이다. 이 키보드는 다이어크리틱을 갖는 핀인 음절을 입력하는 방법을 제공한다. 도2a-2d는 키보드(1030)의 바람직한 대체 실시예의 일예이다. 이들 키보드(1030)에 의해 핀인이 시스템(1000)에 용이하고 신속하게 입력된다. 표준 미국 영어 키보드는 핀인 입력에 편리하지 않으며 성조/다이어크리틱의 입력 기능을 제공하지 않는다.
도2a는 미국 영어 키보드의 신규한 변형인 신규한 키보드(1030,2000)의 도면이다. 본 발명의 특정한 바람직한 실시예에서, 키의 몇 가지가 성조(다이어크리틱) 키(1050)로서 이용되는 반면, 다른 키(1040)는 핀인 및 다른 언어(영어) 문자의 입력을 위해 종래의 방식대로 음절 키(1040)로서 이용된다. 한 바람직한 실시예에서는, 잘 사용되지 않는 구두점 키의 일부가 성조 키(1050)로서 할당된다. 반드시 그러해야 하는 것은 아니지만 한 예로서, "[,(" 키는 상평성(다이어크리틱)키(2040)로서 할당되고,"],)"키는 상성 (다이어크리틱) 키(2050)로서 할당된다. "W, │ " 키는 하평성(다이어크리틱) 키(2060)로서 할당되고, " " ,' " 키는 거성(다이어크리틱) 키(2070)로서 할당된다. 순수한 핀인 텍스트의 처리를 위해, 이들 네 다이어크리틱 키(2040-2070)가 적절한데, 그 이유는 무성조 핀인 음절 및 기능어(및 불변화사 접사)가 다이어크리틱 없이 코딩되거나 또는 표시될 수 있기 때문이다. 그러나, 비중국어(영어) 텍스트(및 다른 바람직한 실시예)와 조합하여 핀인 텍스트를 처리하는 데 이용되는 실시예에서, 다른 다이어크리틱 키인 무성조(다이어크리틱) 키(2010)가 부가된다. 예를 들면, "alt 키"(2010) 중 하나가 이기능을 위해 사용될 수 있다. 혼합 텍스트(중국어 및 비중국어)를 처리함에 있어서 무성조 키가 자주 사용되므로, 제 2 무성조 키(2020)가 표준 영어 키보드 상의 제 2 "alt 키" 위치에 부가되어 부가적인 키 액세스를 제공할 수 있다. 본 실시예에서, "alt 키"는 두 개의 "control 키"(2030) 중 하나에 재할당될 수 있다. 영어 키보드는 키의 동등한 대체 할당을 포함하도록 용이하게 변형되어 다이어크리틱 입력(1050)을 제공할 수 있다.
도2b는 핀인 텍스트 처리에 있어서, 다이어크리틱의 입력을 위한 다이어크리틱 키(1060B)를 갖는 변형된 영어 키보드(1030)의 바람직한 대체 실시예(2100)이다. 본 실시예(2100)에서, 다이어크리틱 키(1060)는 표준 "화살표 키" 위의 영어키보드(1030)에 부가된다. 부가될 수 있는 다이어크리틱 키는 또한 상평성(다이어크리틱) 키(2120), 상성(다이어크리틱) 키(2130), 하평성(다이어크리틱) 키(2140), 거성(다이어크리틱) 키(2150)를 포함한다. 선택 사양적인 무성조 (다이어크리틱)키(2110)가 혼합 텍스트 (또는 다른) 처리를 위해 부가될 수 있다.
도2c는 키보드(1030)의 다른 바람직한 대체 실시예(2200)의 도면이다. 본 실시예(2200)는 미국 영어 키보드 레이아웃(1040)의 모든 키(또는 하나 또는 둘을 제외하고 모든 키)가 본래대로 유지되도록 하는 분할 스페이스 바(2270)를 갖는다. 한 바람직한 실시예에서, 스페이스 바(2270)는 네 섹션(2230,2240,2250,2260)으로 분할된다. 스페이스 바의 가장 좌측 섹션(2230)은 "상성" 성조(다이어크리틱)(2230)에 할당된다. 바로 다음의 큰 섹션(2260)은 스페이스 바(2260)로서 이용된다. 우측면상의 두 개의 작은 섹션(2240,2250)은 제각기 "거성"(2250) 및 "하평성"(2240) 성조(다이어크리틱)로 할당된다. 상평성(다이어크리틱)(2220)은 "alt 키" 중 하나로 할당된다.
이러한 배치는 인체 공학에 기반한다. 엄지손가락은 피아노를 연주하는 데는 중요한 손가락이나, 타이핑을 하는 데는 그다지 많이 사용되지 않는다. 중국어 키보드의 이러한 설계는 성조 입력시 보다 더 효율적으로 엄지손가락을 이용할 것이다. 새로운 스페이스 바(2260)는 키보드의 중앙, 즉, "F" 및 "J" 키 사이에 위치된다. 이 스페이스 바를 편안히 누르는 데 두 개의 엄지손가락을 사용할 수 있다. 따라서, 스페이스 바의 크기 감소는 혼합 텍스트 처리에서 영어 타이핑에 영향을 주지 않을 것이다. 손바닥을 향해 엄지손가락을 구부림으로써, 네 개의성조 키(2220,2230,2240,2250)는 용이하게 액세스될 수 있다.
순수한 핀인 입력에 대해, 무성조 키(2210)는 필요치 않다. 본 실시예에서, "스페이스 바" 키(2260)는 순수 핀인 입력에 대해 "무성조" 키로서 기능한다. 도2c도에서, 거성(2250) 및 하평성(2240)의 위치는 그들의 일반적 순서(제 3 및 제4 성조)로부터 전환되는데 그 이유는 거성은 하평성보다 보통 두 배 이상 자주 사용되기 때문이다. 이 "전환(reversing)"에 의해 피로가 감소되고 효율이 향상된다.
혼합 텍스트 처리(비중국어를 포함한 중국어) 및 순수한 중국어 텍스트 처리의 일부 바람직한 실시예에 대해, 무성조 키(2210)가 부가된다. 본 바람직한 실시예에서, 무성조 키(다이어크리틱)(2210)는 다른 "alt 키"에 할당된다. 제어 키(2280) 중 하나는 "alt 키"으로서 재할당된다.
도2d는 키보드(1030)의 다른 바람직한 실시예(2300)를 도시하고 있다. 본 실시 예는 키보드(2200)에 위치된 상성(2330), 거성(2350), 하평성(2340) (다이어크리틱)을 갖는 분할 스페이스 바(2370)를 사용한다. 그러나, 이 키보드(2300)에서, 스페이스 바(2370)의 중앙의 가장 큰 부분(2310)은 무성조(다이어크니틱)(2310)로 할당도니다. 스페이스 기능(2360)은 "alt키"중의 한 위치에 할당된다. 이것은 키보드(2300)가 혼합 텍스트를 입력하는 데 사용되는 경우에 특히 유용하다. 다른 "alt 키"는 상평성(다이어크리틱)(2320)에 할당된다. 또한 "control 키"의 하나는 "alt 키"(2320)로서 재할당된다. 본 실시예는 엄지손가락이 액세스 하기에 매우 편리한 위치에 무성조 키(2310)를 위치시킨다. 이것은 시스템(1000)이 혼합 텍스트를 처리하는 경우에 유용한데 그 이유는 무성조 키(2310)가 자주 사용되기 때문이다.
키보드(2300)는 키들 위에 부가적인 부호를 부가함으로써 확장될 수 있다. 예를 들면, 중국어에서, 좌측 인용 부호(quotation mark)(2338) 및 우측 인용 부호(2339)는 상이하며 각각 키가 주어진다. 좌측(2341) 및 우측(2342) 표제 부호(title mark)는 불릿(2344), 어포스트로피(2345), 십진 소수점(2337)과 함께 합쳐진다. 이들 부호는 혼합 텍스트를 입력하는 경우에 또한 사용된다. 중국어에서 디리미터로서 이용되는 위상 부호(2336)에 키 위치가 또한 제공된다.
키 할당 및 재할당은 잘 알려진 방법을 이용하여 수행된다. 예를 들면, 키보드(1030)의 프로파일은 키의 기능을 정의하는 시스템(1000)의 메모리(1100,1200)내의 화일(1070)이다. RS/6000에서, 이것은 "키보드 번역 표(keyboard translatetable)"(1070)로 불리운다. 이 표(1070)는 전형적으로 ASCII 코드로 문자, 또는 제어를 키보드(1030) 상의 각 키에 할당한다. 이 표(1070)에서 할당된 키 코드를 변화시킴으로써, 키보드(1030) 상에서 키들의 기능이 변화한다.
사용자는 키보드(1030)를 사용함으로써 핀인 또는 혼합 텍스트를 시스템에 입력한다. 사용자가 중국어(핀인) 음절을 입력한 후, 사용자는 음절에 연관된 적절한 다이어크리틱을 입력한다. 순수한 핀인이 입력되는 경우, 강조되지 않은 음절(및 기능어)에 대해 어떤 다이어크리틱(또는 이와 달리 스페이스)도 입력되지 않는다. 혼합 텍스트가 입력되는 경우(또는 핀인을 입력하는 데 사용된 바람직한 대체 실시예에서), 사용자는 각 액센트되지 않은 음절(및 기능 원드) 다음의 무성조 다이어크리틱을 입력한다. 비중국어 단어 다음에 스페이스(또는 이와 동등한 단어 경계 디리미터)가 입력된다. 일반적으로 채택되는 단어 경계로서 핀인(중국어) 단어를 구분하는 스페이스는 시스템(1000)의 정확도를 향상시킨다. 그러나, 본 발명의 실시에 있어 중국어 단어를 구분하는 것이 필수적이지는 않다. 프로세스(400)를 참조하라.
핀인(혼합 텍스트) 입력은 시스템(1000) 메모리(1100,1200)에 저장된다. 바람직한 실시예에서, 입력은 ASCII 포맷으로 디코딩된다. 영어 문자를 위한 코드 및/또는 GB2312-80 한지를 위한 코드를 갖는 표준 ASCII 코드 표는 다이어크리틱을 포함하도록 변형된다. 바람직한 실시예에서, 상평성, 상성, 하평성, 거성 다이어크리틱은 각각 보통으로 액센트된 모음의 높고 낮은 경우에 대해 코딩되어 적절한 다이어크리틱이 디스플레이된/프린트된 핀인 음절에서 모음에 대해 디스플레이/프린트될 수 있도록 한다.
도3은 핀인 또는 혼합 입력을 위한 ASCII 코딩에 대한 데이타 구조(300)의 한 바람직한 실시예이다. 메모리(300)의 블럭은 256개의 메모리 위치를 갖는다. 이들 위치는 0으로부터 255까지 넘버링된다. 이 번호는 또한 위치/ASCII 코드의 각각에 할당되는 ASCII 코드이다.
ASCII코드는 하위 7비트 섹션(위치 0-127를 나타냄) 및 상위 7비트 섹션(128-255를 나타냄)인 단일 바이트의 정보로 이루어진다. 단일 문자, 구두점, 제어 기능은 메모리 위치에 할당된다. 예를 들면, 로마자 대문자 "B"는 위치(66)에 할당되고, "escape" 기능은 위치(27)에 할당되며, "!"는 위치(33)에 할당된다.
로마 문자, 구두점, 숫자의 코딩이 잘 정의되어 있다 하더라도, ASCII 코드에서 복수의 선택 사양적 공간이 있다. 개개의 국가들은 이들 선택 사양적 공간에 특수 심볼을 할당할 수 있다.
다이어크리틱의 각각은 성조 코드 또는 부호로 표시된다. 바람직한 실시예에서, 다섯 개(또는 네 개) 성조 코드(부호)의 각각은 모든 ASCII 코드 데이타 구조(300)의 하반부의 숫자(ASCII 코드)를 갖는 메모리 위치에 할당된다. 이들 메모리 위치는 통신을 위해 사용된다. 따라서, 0으로부터 127 사이의 숫자를 다이어크리틱 ASCII 코드에 할당함으로써, 성조 코드는 네트워크(1090)를 통해 통신될 수 있다. 도3에 도시된 이러한 비제한적인 일 예에서, 무성조(301), 상평성(302), 상성(303), 하평성(304), 거성(305)의 성조 코드(부호)는 제각기 2,3,4,5,6의 ASCII 코드를 갖는 위치에 할당된다. 이들은 미국 ASCII 코딩에서 포커 위치(locations of Pokers)이다.
이러한 본 발명의 바람직한 실시예에서, 모음이 가질 수 있는 각 다이어크리틱(상평성, 상성, 하평성, 거성)에 대해 각 모음(높고 낮은 두 경우 모두)에 위치 및 ASCII 코드가 또한 할당된다. 무성조의 경우에는 ASCII 코드의 하위 7비트 섹션에 위치한 영어 모음을 사용할 수 있다. 또한, 다이어크리틱을 갖는 대문자 "I" 및 대문자 "U"가 생략되는데 그 이유는 이들 모음들로 시작되는 음성 음절이 없기 때문이다. 따라서 ASCII 코드가 할당되는 다이어크리틱을 갖는 32개의 모음지정이 존재한다. 다이어크리틱을 갖는 이들 모음은 데이타 구조(300)의 상반부, 즉, 숫자 128-255에 ASCII 코드(128-129)가 할당된다.
다이어크리틱을 갖는 모음에 유일한 ASCII 코드를 제공하는 것은 그래픽 인터페이스(1020) 상에 핀인 음절을 디스플레이하고 핀인 음절을 프린트하는 경우에 유용하다. 시스템(1000)은 다음의 다이어크리틱(301-303)으로 입력된 핀인 음절을 사용하여 음절의 모음 위에 다이어크리틱을 갖는 정확히 철자된 음절을 적절히 디스플레이/프린트한다. 따라서, 데이타 구조(300) 위치(128-129)에서 다이어크리틱에 의해 할당된 모음을 사용함으로써, 시스템(1000)은 모음 위에 다이어크리틱을 갖는 종래의 방식으로 핀인 음절을 프린트/디스플레이할 수 있다. 예를 들면, 키 입력 Pin'로 입력된 핀인 음절은 Pi'n으로서 디스플레이/프린트될 것이다.
ASCII 코드 128 내지 159를 갖는 데이타 구조(300)의 상반부에서 다이어크리틱을 갖는 모음을 배치하는 이러한 장점은, GB 코드가 단지 160으로부터 255 까지의 ASCII 코드 데이타 구조(300)의 상반부만을 사용한다는 점이다. 따라서, 다이어크리틱을 갖는 핀인 모음은 GB 코드(및 ASCII 코드의 하위 7비트)와 함께 저장되고 전송될 수 있다.
도4는 컴퓨터 메모리(1100,1200) 또는 디스플레이(1020)와 같은 본래의 매체에 핀인 음절을 입력하는 신규한 프로세스(400)를 도시하고 있다. 바람직한 실시예에서, 프로세스(400)는 키 입력(또는 다른 방법)에 의해 시스템(1000)에 입력된 음절을 체크하는 데 사용되는 철자 검색기 및 자동 에러 검출 및 정정 프로세스를 제공한다. 프로세스(400)는 중국어 및 비중국어(예를 들면, 영어) 텍스트의 혼합이 최소의 노력으로 입력되고, 다루어지며, 저장될 수 있도록 한다. 입력 유닛은 시스템(1000)에 의해 실행되는 입력 프로세스(400)이다.
단계(401)에서, 사용자는 키보드(1030)를 통한 키 입력에 의해 음절(여기서는 중국어 또는 비중국어)을 입력한다. 음절이 중국어인 경우, 음절 다음에 음절의 성조를 나타내는 다이어크리틱이 입력된다. (여기서는 무성조 다이어크리틱이 텍스트 입력에 사용된다.) 영어와 같은 비중국어 단어 다음에는 다이어크리틱도 입력되지 않는다. 또한 비중국어 단어가 식별될 수 있는데(단계 402) 그 이유는 이들이 스페이스와 같은 특별한 디리미터에 의해 구분되기 때문이다.
순수한 중국어 텍스트의 경우, 일부 실시예에서 기능어의 무성조 음절 다음에 다이어크리틱을 입력하는 것이 필수적이지는 않다. 순수한 중국어 텍스트 입력에서는 요구되지 않지만, 단어 분리에 대해 잘 정립된 규약이 알려진 중국어 단어 사이에는 단어 경계를 위해 디리미터를 입력함으로써 시스템(1000)의 정확도를 향상시킬 수 있다. 이것은 단어 경계에 스페이스 또는 다른 코드(예를 들면, 이중 다이어크리틱,"esc")와 같은 디리미터를 입력함으로써 행해질 수 있다. 이 경우, 잘 정립된 단어 분리를 갖는 중국어 단어의 리스트는 단계(403)에서 참조되어 이들을 중국어 음절/단어와 구별할 수 있다.
음절(또는 비중국어 단어)의 끝에 도달하는 경우, 시스템(1000)은 다이어크리틱, 에를 들면, 눌러진 성조 키(1000)(또는 스페이스)를 판독한다. 순수한 중국어 텍스트가 처리되는 일부 대체 실시예에서, 무성조 다이어크리틱이 제거될 수있다. 이러한 경우, 몇 개의 무성조(및 비부호) 음절이 서로간에 부가될 수 있다. 이들 음절(404)을 파싱하기 위해, 스트링은 음절(700) 사전과 비교된다. 사전(700)에서 가징 긴 음절이 입력된 스트링 텍스트와 먼저 비교된다. 입력된 스트링의 부분이 가장 긴 스트링과 일치하는 경우, 그 일치된 스트링이 음절 입력으로서 사용되고 입력된 스트링으로부터 제거된다. 이 프로세스는 입력된 스트링의 나머지에 대해 반복된다. 음절 사전(700)에서 가장 긴 스트링과 일치하지 않는 경우, 음절사진(700)에서 다음으로 긴 스트링이 비교된다. 이 프로세스는 입력된 스트링의 모든 음절이 일치할 때까지 반복된다. 이 프로세스는 소위 "최장스트링 매칭(longest string match)" 알고리즘으로서, 이것의 일 예는 잘 알려져 있다. 이하 전체적으로 참조 자료로 인용되는 제트. 우(Z. Wu) 및 지. 쳉(G. Tseng)에 의한 "Chinese text segmentation for next retrieval: achievements and problem", Journal of the American Society for Information Science, Vol. 44, No. 9, October, 1993, pages 532-542를 참조하라.
순수 중국어 텍스트를 입력하는 일부 바람직한 실시예 및 혼합 텍스트 처리에서, 무성조 키가 중국어에서 액센트되지 않은 음절을 표시하는 데 사용된다. 이들 실시예에서, 모든 중국어 음절은 다이어크리틱에 의해 코딩되고(표시되고) 명확히 구분된다. 따라서, 중국어 음절 경계가 명확히 표시된다. 이러한 실시예에서는 중국어 음절 약어를 사용할 수도 있게 되는데, 그 이유는 약어가 또한 명확히 구분되고 음절 리스트(700)에 부가됨으로써 유일하게 식별되기 때문이다. 음절 약어를 사용함으로써, 음성 중국어 텍스트를 입력하는 데 필요한 키 입력의 수가 크게 감소된다.
혼합 텍스트 처리에 사용된 단계(402)에서, 시스템(1000)은 음절이 중국어음절인지 아닌지의 여부를 판정한다. 음절 다음에 (무성조 다이어크리틱을 포함하는) 다이어크리틱이 존재하는 경우, 음절은 중국어이다(404). 다이어크리틱이 없는 경우, 음절(단어)은 비중국어, 예를 들면, 영어이다(403). 비중국어 단어가 자신들의 디리미터에 의해 또한 식별될 수 있다(403). 비중국어 단어는 이들 언어들을 처리하는 알려진 시스템에 의해 또한 처리될 수 있는데, 예를 들면, 철자가 체크될 수 있다.
성조 키(네 개의 성조 키 중 하나 또는 "무성조" 키)가 눌러진 후, 컴퓨터는 선행하는 문자가 핀인 음절을 나타낸다는 것을 인식하고(404), 음절의 철자가 체크되며(405), 약어 또는 교체 철자로서 체크되거나(407), 에러가 체크된다(408). 이들 단계들(405,407,408)은 도7에 도시된 중국어 음절 리스트 데이타 구조를 사용한다.
도7에서의 중국어 음절 리스트(700)는 북경 관어를 위해 사용된 한 바람직한 음절 리스트이다. 북경 관어에는 (상이한 성조를 포함하여) 모두 1300개 이상의 음절이 존재하므로, 2 바이트 코드 공간(65536 공간)의 작은 부분으로 이들 음절을 코딩하는 것이 편리하다. 음절의 각각에는 유일한 2 바이트 코드 또는 "단형정수(short integer)"가 할당된다. 특히, 각 음절을 나타내는 ASCII 코드 스트링에는 중국어 음절 리스트(700)에서 2 바이트 코드가 할당된다. 예를 들면, 북경관어 핀인 음절 Pi'n 에는 2 바이트 코드 "814"가 할당된다. 각 음절은 표준 철자 형태에 대응하고, 적절한 모음상부에 성조 다이어크리틱을 포함한다. 리스트(700)에 약어를 부가하기 위해, 약어에는 생략되는 음절과 같은 2 바이트 코드가 할당된다. 예를 들면, 약어 "d"는 "de"를 나타내는 음절 리스트(700) 상의 코드(212)에 "d"가 생략하는 음절이 할당될 수 있다. 음절 리스트(700)는 비교적 작은 양의 메모리(1100,1200) 스페이스를 취한다.
중국어 음절(404)을 만나면, 시스템(1000)은 중국어 음절 리스트(700)를 탐색하여 일치어를 갖는다. 일치어가 발견되는 경우, 음절(404)은 표준 철자(405), 즉, 중국어 음절 리스트(700) 상에서의 철자로서 입력되고, 입력된 키 입력 스트링은 중국어 음절 리스트(700) 상의 일치된 단어의 2 음절 코드로 교체된다. 예를들면, 중국어 음절 Pi'n이 입력되는 경우, 시스템(1000)은 키 입력을 ASCII 코드 스트링(80,105,110,6)으로 나타낸다. 도3을 참조하라. 일치어(404)를 위해 중국어 음절 리스트(700)를 체크하는 경우, 시스템은 이 스트링이 2 바이트 코드 814에 의해 표시되는 Pi'n에 대응함을 발견한다. 도7을 참조하라. 따라서 2바이트 코드 814는 메모리 내의 이 음절에 대해 ASCII 코드 스트링을 교체한다. 따라서, 표준 철자가 검출되는 경우(405), 단계(412)에서 전체 음절은 1300개의 중국어 음절(2 바이트 코드에 의한) 중 하나로서 메모리(1010/1020)에 저장되고 모니터 상에 디스플레이되며(411), 성조 다이어크리틱은 모음 위에 정확히 디스플레이된다. 이 핀인 디스플레이(411)는 핀인을 디스플레이하는 그래픽 인터페이스(1020)의 영역(1021)에 도시되어 있다.
이러한 방식으로, 사용자가 중국어 음절을 위해 약어 또는 속기 철자(shorthand spelling)를 입력하는 경우, 속기 철자를 나타내는 ASCII 코드가 중국어 음절 리스트(700)내의 엔트리와 비교된다(406). 일치하는 경우, 속기 철자(생략된) 음절은 속기 철자의 입력된 ASCII 코드를 적절하고 생략되지 않은 핀인 음절에 대응하는 2 바이트 코드로 교체함으로써 적절하고 생략되지 않은 핀인 음절 형태로 변환된다(407). 또한, 약어는 생략되는 전체 음절을 프린트할 코드를 갖는 중국어 음절 리스트(700)에 부가된다.
중국어 음절의 일부 실시예의 약어 또는 속기 철자를 예시한다. 예를 들면, "zi, "si", "ci", "ji", "qi", "xi"은 혼동을 주지 않고 "z", "c", "s", "j", "q", "x"으로서 표기될 수 있다. 마찬가지로, "yi", "wu", "yu"는 혼동을 주지 않고 "i", "u", "v"으로서 표기될 수 있다. "sheng"에 대한 "shg", "xing"에 대한 "xg", "qiang"에 대한 "qag", "jiao"에 대한 "jo" 등의 다른 속기는 명확히 인식될 수 있다.
음절 분리 부호를 갖는 음절에서, "Xi'an"에서와 같은 음절 분리 부호가 디스플레이 동안 나타날 수 있지만, 타이핑시에 완전히 방지될 수 있다. 본 시스템(1000) 및 프로세스(400)를 이용하여, 속기 타이핑의 상기한 일 예는 매우 편리하므로 어떤 학습도 요구되지 않는다. 약간의 학습에 의해서도 속기 음절의 수가 증가될 수 있다(중국어 음절 리스트(700)에 부가될 수 있다.)
틀린 철자가 검출되는 경우(408), 즉, 표(700)에서 일치하지 않는 경우, 가장 가능성이 높은 음절이 디스플레이된다(409). 이것은 중국어 음절 리스트(700)로부터 선택된 가능한 선택 메뉴, 즉, 최상의 일치어(1023)를 제공함으로써 행해진다. 사용자는 선택 장치, 예를 들면, 마우스(1034) 또는 키를 사용함으로써 메뉴로부터 적절한 음절을 선택한다(409). 이전과 같이, 컴퓨터는 이러한 선택된 음절을 2 바이트 값으로서 코딩하고, 이것을 메모리(412)에 저장한다.
디리미터, 예를 들면, 스페이스 바, 캐리지 리턴, 또는 구두점 키와 만나지 않는 경우(413), 프로세스(400)는 다음 음절을 위해 단계(415)를 반복한다. 디리미터와 만나는 경우 전체 스트링은 단어 스트링으로서 저장된다(414). 모니터 상에서, 이 단어 스트링의 정확한 핀인 철자가 그래픽 인터페이스(1020)의 핀인 부분(1021)에 디스플레이된다. 디리미터들 사이의 단어 스트링(414)은 디리미터가 (일반적으로 채택되는 규약에 따라) 입력되는 경우 단일 단어로서 다루어지고 단어 디리미터에 의해 코딩되고 표시된 유일한 단어 경계를 갖는 것에 주의해야 한다. 그러나, 단어 스트링(414)은 디리미터가 요소 단어 경계의 각각에 위치되지 않는 경우, 예를 들면, 요소 단어를 구분할 일반적으로 채택된 단어 경계가 없는 경우, 둘 이상의 단어(요소) 및/또는 접사를 포함할 수 있다.
단계(414)에서, 코딩된 핀인 형태의 텍스트는 표(700)의 2 바이트 코드를 요구된 음절의 적절한 모음 위에 성조 심볼을 갖는 로마 문자의 스트링으로 변환시키는 특수 판독 전용 메모리(1081)인 ROM 을 갖는 프린터(1080)를 이용하여 핀인 음절로서 프린트될 수 있다. 텍스트는 외국인을 위한 구어체 중국어에 관한 모든 교과서에서와 같은 핀인 형태로서 연속적이고 판독 가능한 프린트 출력이 된다.
도5 및 도6은 시스템(100)에 입력되는 핀인 텍스트를 처리하는, 예를 들면 프로세스(400)에 의한 방법의 흐름도이다. 한 바람직한 실시예에서, 핀인 텍스트(1022)는 시스템의 키보드(1030) 상에서 키 입력에 의해 입력되고, 전술한 바와같이 그래픽 인터페이스(1020)의 핀인 부분(1021) 상에 디스플레이된다. 동시에, 상기 단계(414)에서 저장된 단어 형태의 핀인 입력은 프로세스(500)에 의해 한지형태로 변환되고 그래픽 인터페이스(1020)의 한지 부분(1024)에 디스플레이된다 (1025). 따라서, 키보드(1030)를 통해 핀인 텍스트 및 다이어크리틱을 입력하는 사용자는 그래픽 인터페이스(1020)의 핀인 부분(1021) 상의 (프로세스(400)에 의해 적절한 모음 위에 배치된 다이어크리틱을 갖는) 핀인 텍스트(1022) 및 프로세스(500)에 의해 그래픽 인터페이스의 한지 부분(1024) 상에 디스플레이된 입력된 핀인의 정확한 한지 번역어(1025)를 보게 된다. 대체 실시예에서, 다이어크리틱을 갖는 핀인 텍스트는 키보드(1030) 외의 수단, 예를 들면 네트워크(1090), 음성 시스템(1033)을 통하거나 디스켓과 같은 자기 매체(1032)에 의해 시스템(1000)으로 입력될 수 있다.
프로세스(500)는 핀인 입력을 한지로 번역한다. 시스템(1000)은 핀인 및 한지를 다른 방식으로 처리할 수 있다. 예를 들면, 핀인(1022) 텍스트 및/또는 한지 텍스트(1025)는 프린트될 수 있다. 이와 달리, 핀인(1022) 및/또는 한지(1025) 텍스트가 알려진 언어 번역기(1034)에 입력될 수도 있고, 영어와 같은 다른언어로 번역될 수도 있다.
프로세스(500 및 600)는 강조된 음절 상의 단어 경계 및 다이어크리틱 코딩(부호)를 적절히 이용한다. 두 프로세스는 핀인 표기 이론 및 습관의 각종 다양한 형태를 처리하고 높은 변환 정확도를 얻는다. 예를 들면, 중국어 단어가 잘 설정된 경계에서 구분되는 경우, 단어 입력(단계 501)은 유일한 단어로서 인식될 것이다(511). 단어가 다른 "단어"로부터 구분되지 않고/않거나 구분될 수 없는 경우, 시스템(1000) 상에서 실행되는 프로세스(500)인 형태소 단위는 단어 스트링을 형태적으로 분석하고/하거나 분해한다. 따라서 본 발명은 단어 스트링에서 요소 "단어"를 결정할 수 있다. 이것은 어휘집(950) 및 전술한 "최장 스트링 비교" 알고리즘을 이용하여 행해진다.
본 발명은 다음의 규약, 즉 1. 단어의 일부로서 포함된 접사, 또는 2. 단어로부터 분리된 불변화사로서의 접사에 의해 핀인을 한지로 정확히 처리할 수 있다. 한 바람직한 실시예에서, 접사(불변화사)의 두 번째 유형은 기능어로서 다루어진다. 규약 1에 대해, 프로세스(500)는 형태 분석을 수행하는데, 즉, 인식되지 않은 단어(규약 1)에 포함된 접사가 제거되고 나머지 단어 스트링(어근)은 접사없이도 분석된다. 나중 처리에서 제거된 접사는 기능어로서 다루어진다.
프로세스(500)는 형태학을 이용하여 단어 스트링 입력을 처리한다. 형태학은 언어에서 단어 형식을 연구하는 것이다. 여기서 단어의 형식은 특히 접사 및 접사에 의해 단어의 의미가 어떻게 영향을 받는가 하는 것을 포함한다. 영어, 독어, 스페인어, 핀란드어, 헝가리어와 같은 대개의 유럽 언어의 철자법에서, 단어 의미는 접사가 사용되는 방식에 따라 변한다. 예를 들면, 영어 표현 "Calvin and Dorothy's Department Store"에서, " 's "는 "Calvin and Dorothy"에 속하나, "Dorothy"다음에 만 부가된다.
먼저 프로세스(500)는 예를 들면, 단계(414)로부터 입력된 단어 또는 단어스트링의 형태를 분석한다. 알고리즘은 입력된 단어(스트링)(501)를 알려진 어휘집(950)과 비교(510)함으로써 개시한다. 어휘집(950)은 자신들의 연관된 한지 번역어를 갖는 음성 중국어 및/또는 약어(핀인 및/또는 BPMF)의 표이다. 중국어 단어의 사전(950)이 또한 사용될 수 있다. 이러한 사전(950)은 잘 알려져 있다.
예를 들면, 1989년 출판된 언어 출판사(lauguage publishing house) "Yuwen Chubanshe"에 의한 "Hanyu Pinyin Cihui"를 참조하라. 이와 같은 사전은 다른 알려진 사전을 조합하고/하거나 다른 소스로부터 한지 번역어를 갖고 있는 중국어 단어를 부가함으로써 개선될 수 있다.
어휘집(510) 내에서 단어 입력(501)(단어 또는 단어 스트링)이 하나 이상의 단어와 일치하는 경우, 자신의 유상평성이 체크된다(511). 모호성이 존재하지 않은 경우, 즉, 어휘집(510)내에 단지 하나의 일치어가 있는 경우, 단어가 한지 형태로 변환되고 한지 부분(1024)에 디스플레이된다(550). 모호성이 존재하는 경우 (즉, 단어 입력(501)의 음성에 대응하는 어휘집(510,950)내에서 하나를 초과하는 한지 형태가 존재하는 경우), 다른 고려를 위해 상이한 단어가 저장된다(540).
단어 입력(501)이 어휘집에 있지 않은 경우, 단어 입력(스트링) 상에서 형태분석이 수행된다(501). 단어 입력의 일부는 기능 형태소, 또는 접사의 리스트와 비교된다(522). 접사의 바람직한 리스트(800)는 도8에 제공되어 있다. 표준접사가 발견되는 경우, 즉, 이것이 접사 리스트(800)에 있는 경우, 발견된 접사는 절단되고(524) 단어 입력의 나머지 부분(어근)은 사전(950)과 다시 비교된다. 어근의 어근이 어휘집에 있는 경우, 단계(511)가 적용된다. 어근이 어휘집(510)에 있지 않으나 어근(522)에 접사가 있는 더 남아 있는 경우, 어근에 남아있는 임의의 다른 표준 접사를 위해 단계(524)가 반복된다.
표준 접사가 인식되지 않는 경우(522), 즉, 단어 입력(501)내의 어떤 스트링도 접사 리스트(800)에 있지 않은 경우, 단어 스트링/어근이 분해된다(530). 한 바람직한 실시예에서, 어근은 어근을 어휘집(950)과 비교함으로써 전술한 "최장 비교 방법"을 이용하여 분해된다.
단어 스트링이 하나를 초과하는 요소로 구성되는 경우, 각 요소의 유상평성(531)이 탐색된다. 요소가 유일한 경우(531), 단어는 복합어로서 고려되고 대응하는 한지의 스트링이 디스플레이되며 기록된다(550). 단계(531)에서 단어가 모호한 경우, 예를 들면, 단어 입력(501)의 요소 중 하나 이상이 하나를 초과하는 한지 번역어를 갖고/갖거나 단어 스트링을 분해하는 데 하나를 초과하는 방법이 있는 경우, 다른 고려를 위한 이들 상이한 대안이 저장된다(540).
단계(540)에서, 전체 어구(또는 절, 또는 문장), 즉, 단어 스트링 입력(501)이 구두점, 캐리지 리턴과 같은 어구 디리미터, 또는 사용자에 의해 할당된 임의의 다른 어구 디리미터에 의해 구분되는 그 문자 스트링으로 결정된다. 전체 어구는 모호한 단어의 의미를 결정하기 위해 분석된다. 이하 도6의 프로세스(600)를 참조하라. 단계(540)다음에, 한지 형태의 전체 문장(어구, 절)이 디스플레이된다(550). 단계(560)에서 그래픽 인터페이스(1024) 상에 디스플레이된 텍스트(560)에 임의의 에러가 있는 경우, 사용자는 어구, 문장 또는 절을 직접 정정한다(561).
이하 주어진 본 발명(프로세스 600)에 의해 사용된 구문 분석의 설명을 지원하기 위해, 음성(성조 및 액센트) 음향의 음성 특징, 기능어, 불변화사, 접사, 개념어의 발견에 관한 설명이 제공된다.
흔히 간과되는 구어체 중국어에는 중요한 음성 현상이 있다. 중국어에는, 세상의 모든 구어체 언어에서와 같이, 개개의 음절의 단순한 스트링에 의해 제공되는 정보 외에도 음성 음향에 의해 제공되는 다량의 정보가 있다. 중국어에서, 각 단어는 흔히 단어 의미를 이해하는데 있어 중요한 단어에 대한 음성 음향을 야기하는 액센트 구조를 갖는다. 음절들이 단어를 형성하도록 그룹화되는 방법은 액센트 구조, 음성 음향, 단어의 이해에 영향을 줄 수 있다.
또한, 단어의 분리(음절 그룹화) 및 단어의 동등한 액센트 구조는 구어체 언어에 전달되는 정보의 일부이다. 중국어에 대해서는, 음성 음향의 일부인 성조도 역시 중요하다. 중국어에서, 음절의 성조는 단지 액센트된 음절에서만 두드러진다. 액센트가 없는 음절에 대해, 성조는 실질적으로 약화되거나 또는 완전히 사라진다.
중국어를 포함한 대부분의 언어에는, 기능어 및 개념어가 있음에 또한 주의해야 한다. 개념어는 한 언어의 모든 명사, 모든 동사, 모든 형용사, 대부분의 부사를 포함한다. 예를 들면, "man, run, fast, quickly"는 개념어이다. 기능어는 관사, 전치사, 몇 개의 접속사를 포함한다. 예를 들면, "a, the, to, from, but 등"은 기능어이다. 분리 불변화사로서 표시된 접사는 기능어의 특징을 갖는다.
중국어에서 기능어는 사전적인 의미를 표현하는 것외에 다른 단어의 문법 관계 및/또는 기능을 주로 표현하는 강조되지 않은 단어이다. 기능어는 전치사, 조동사, 접속사, 부사, 감탄사, 관사 및 특정의 대명사들을 포함한다. 중국어에서,기능어(관사, 전치사, 후치사 등), 불변화사 형태의 접사, 다음절 단어의 임의의 접사는 항상 액센트되지 않는다. 기능어(및 불변화사 형태의 접사 그리고 다음절 단어의 접사)는 무성조 또는 실질적으로 약화된 성조를 갖는다.
개념어는 완전한 사전적인 의미를 갖는 단어이다. 증국어에서, 개념어는 모든 명사, 모든 동사, 모든 형용사, 대부분의 부사를 포함한다. 개념어는 기능어가 아닌 중국어에서의 모든 단어이다. 개념어의 액센트 구조는 방언에 따라 달라진다.
지금까지, 말을 듣는 인간이 언어의 단어를 이해하기 위해 개념어 및 기능어를 직관적으로 식별하는 방법은 알려져 있지 않다. 이것은 중국어에서 특히 그러하다. 중국어에서 기능어의 성조 및 접사는 매우 약하거나 또는 완전히 사라지며, 중국어에는 제한된 수의 알려지고 식별된 기능어가 존재하므로, 기능어는 구어체 중국어를 듣는 사람들이 말하여지고 있는 것을 이해할 수 있도록 직관적으로 사용된다.
중국어를 이해하는 데 있어 기능어, 개념어, 성조의 중요성을 더 강조하기위해, 개념어의 액센트 구조 및 기능어(및 접사)의 사용이 분석된다.
상하이 방언은 개념어 및 기능어 사용의 액센트 구조의 가장 명확한 일 예를 나타낸다. 모든 개념어는 두드러진 성조를 갖는 액센트된 음절로 시작된다. 단어 내의 모든 다른 음절은 액센트를 전혀 가지지 않으므로, 첫 번째 음절에 이어지는 음절의 성조는 묵음(mute)이 된다. 예를 들면, 상하이에서, 명사 "wenti"(물음) 및 "dianhua"(전화)는 항상 첫 번째 음절에서 액센트된다.
상하이 방언에서 기능어는 액센트를 갖지 않는다. 기능어가 개념어를 뒤따르는 경우, 기능어는 때때로 불변화사 대신에 그 개념어의 접미사(즉, 접사)로서 해석될 수 있다. 그러나, 발견의 일부는 듣는 사람의 관점에서 보면, 이들 두 해석(불변화사로 되는 기능어 혹은 접미사로서)은 실질적으로 차이점을 갖지 않는다는 점이다.
북경어 및 북경 관어에서 액센트 구조는 약간 다르다.
북경어 방언의 대부분의 경우, 개념어의 액센트는 첫 번째 음절에 있다. 그러나, 액센트가 첫 번째 음절 대신 마지막 음절에 있는 경우가 많이 존재한다.
북경 관어는 표준 중국어이다. 북경 관어에서, 단어의 액센트는 보통 첫번째 음절에 있다. 세 개를 초과하는 음절을 갖는 몇 개의 단어에서, "프레임(framed)" 액센트 구조가 준수된다. 즉, 첫 번째 및 마지막 음절이 액센트되는 반면, 이들 사이의 모든 다른 음절은 액센트를 갖지 않으며 매우 약한 (또는 없는)성조를 갖는다. 북경 관어에서 다음절 개념어는 적어도 한 액센트, 보통 첫 번째음절에서 액센트를 갖는다. 예를 들면, 음절 스트링 "taiqilai"에서는 단지 첫 번째 음절 "tai"(올리다)만이 액센트를 갖는다. 나머지 두 음절에 대해서는, 음향에너지가 훨씬 감소될 뿐만 아니라, 성조가 실질적으로 약화되거나 또는 완전히 사라진다. 어구 "taibuqi tou lai"에서는, 단지 두 음절 "tai" 및 "tou"만이 액센트를 갖는다. 나머지 음절 "bu", "qi", "lai"은 약하고, 무성이거나 거의 무성이다.(무성이라는것은 성조가 없음을 의미한다.) 이러한 규약에서, "lai"는 성조를 갖지 않는 접사이고, 분리 불변화사로서 표기된다.
북경 및 북경 관어 방언에서, 기능어는 통상 액센트를 갖지 않으며, 기능어의 성조는 약하거나 또는 사라진다(퇴화된다).
이 발견은 구어체 중국어를 듣는 사람이 개념어(성조를 갖는 음절 및 성조를 갖지 않는 음절)의 액센트 및 무성조 기능어(및 접사)를 이용하여 단어 경계를 구분하고, 단어를 분류하며, 단어의 의미를 결정한다는 것이다. 이러한 자연적 음성 현상은 중국어 언어 철학의 상이한 관점 및/또는 단어 또는 어구를 중국어로 표기하는 방법과는 독립적이다. 본 발명은 이러한 현상에 기반하여 규칙을 개발하고 적용하며, 적절한 프로세스에 의해 이들 규칙을 구현하여, 음성 중국어 처리(입력, 분석, 번역, 표기)의 정확도를 향상시킨다.
지금까지 종래 기술에서 인식되지 않은 음성 관계에 관한 발견을 설명하였고, 다음 설명은 이들 관계가 프로세스(600)에 의해 행해지는 구문 분석에서 어떻게 이용되는지를 설명한다.
신규한 구문 분석 방법은 도6에 프로세스(600)로서 도시되어 있다. 이 프로세스는 앞서 발견되고 개시된 원리들을 이용하여 전체 어구(또는 절, 또는 문장)를 분석한다.
단어 스트링(절 또는 문장)(501)은 구두점, 캐리지 리턴, 또는 사용자에 의해 할당된 임의의 입력과 같은 디리미터에 의해 구분된다. 바람직한 실시예에서, 이들 디리미터, 또는 어구 디리미터는 스페이스(키 2360), 어구 부호(키 2336), 중국어 마침표(2335), 좌측 인용 부호(키 2338), 우측 인용 부호(키 2339), 좌측 표제 부호(키 2341), 우측 표제 부호(키 2342), 느낌표(키 2311), 콤마(키 2312), 슬래쉬(키 2313), 좌괄호(키 2314), 우괄호(키 2315), 콜론(키 2316), 세미콜론(키2316), 불릿(키 2344) 및 물음표(키 2317)를 포함한다. 임의의 성조 키(2310,2320,2330,2340,2350) 상에서의 이중 키 입력이 또한 어구 디리미터일 수도 있다. (여기서 괄호로 표시된 키는 본 실시예의 키보드(2300)에서 어구 디리미터를 입력하는 키를 지정한다.) 이들 어구 디리미터는 단어 경계, 즉, 한 어구의 끝 및 다른 어구의 시작을 명확히 정의한다(501).
단계(511 및 531)에서 정의된, 하나 이상의 모호한 단어를 갖는 어구가 프로세스(600)로 입력된다(601). 구문 유닛은 시스템(1000) 상에서 실행되는 프로세스(600 )이다.
먼저, 어구(601)의 단어 성분은 임의의 성조 다이어크리틱의 존재에 의해 분류된다. 적어도 한 다이어크리틱을 갖는 단어(610)는 개념어이다(620). 그러나, 다이어크리틱을 갖지 않는 단어(611)는 부적절하게 생략된 다이어크리틱을 갖는 개념어, 비중국어 단어, 기능어, 접사 또는 독립적인 불변화사로서 표기된 접사가 될 수 있다. 혼합 텍스트 입력에서, 비중국어 단어는 스페이스(또는 다른 동등한 문자, 예를 들면, "ESC")에 의해 구분되어 인식된다.
다이어크리틱을 갖지 않는 단어(611)가 기능어인지를 판정하기 위해, 단어(611)는 기능어 리스트(800)와 비교된다. 기능어의 수는 대부분의 언어학자에 의하면 100 개 이하로 제한된다. 단어(611)가 기능어 리스트(800) 상에 있는 경우,이것은 기능어이다. 각각의 기능어의 의미는 유일하게 정의된다. 바람직한 기능어 리스트(800)가 도8에 제공된다.
유사한 방식으로, 다이어크리틱(611)을 갖지 않는 단어는 접사 리스트(리스트(800)에도 또한 포함됨)와 비교되어 이들이 접사 및/또는 독립적인 접사 불변화사로서 표기된 접사인지를 판정한다. 이들 독립적인 불변화사의 의미는 유일하게 정의된다. 불변화사/접사의 한 바람직한 리스트는 비교적 짧고, 20개 이하의 엔트리를 갖는다. 자신들의 한지 번역어를 갖는 불변화사 접사는 도8의 기능어리스트 상에 포함된다.
기능어, 불변화사, 접사를 리스트하는 데이타 구조(800)는 컴퓨터 메모리(1100,1200)에 비교적 작은 공간을 취한다.
일단 모든 기능(및/또는 불변화사의 접사) 단어가 식별되어 유일하게 정의되면, 어구/문장 구조는 단계(630)에서 분석된다. 기능어(불변화사/접사)의 의미 및 기능이 알려져 있으므로, 임의의 특정 기능어에 선행하고 뒤따르는 단어(접사) 유형이 제한된다. 따라서, 임의의 개념어의 모호성은 하나 이상의 기능어(불변화사/접사)와 모호한 개념어의 관계를 이용함으로써 단계(640)에서 더 감소되고 제거될 수 있다. 예를 들면, 모호한 개념어에 대해 프로세스(500)의 단계(540)에서 식별된 다섯 개의 가능한 단어가 존재하는 경우, 이들 가능한 단어의 일부 또는 하나를 제외한 모두는 모호한 단어를 선행하거나 뒤따르는 기능어(접사)를 인지함으로써 제거될 수 있다.
예를 들면, 기능어로 간주된 전치사(810)는 도8에 리스트되어 있다. 이들 전치사에는 명사 또는 명사 어구가 뒤따라야 한다. 이들 전치사를 뒤따르는 임의의 개념어가 명사 또는 명사 어구가 아닌 번역어를 갖는 경우, 이 모호한 번역어는 제거된다.
시제 불변화사(820)(즉, zhe, guo)는 보통 동사를 뒤따른다. 따라서, 이들 뒤따르는 불변화사를 갖는 임의의 모호한 개념어는 동사로서 번역된다. 이 개념어에 대한 임의의 대체 번역어가 동사가 아닌 경우, 이들은 제거된다.
관계 불변화사(830)(de,zhi)는 명사 또는 형용사를 뒤따른다. 따라서, 이들 뒤따르는 불변화사를 갖는 임의의 모호한 개념어는 명사 또는 형용사로서 번역된다. 대체적인 모호한 번역어는 제거된다.
접속사(he, ji, gen)(840)는 기능어이며, 일반적으로 명사 사이에 위치된다. 따라서, 이들 접속사(840)의 양측 중 어느 한 측에 위치한 임의의 모호한 개념어는 명사로서 번역된다. 모호한 다른 번역어는 제거된다.
접속사(850)는 일반적으로 어구 사이에 위치하는 기능어이다. 이들 접속사(850) 중 어느 한 측에 위치한 개념어는 어구의 일부로서 고려된다.
명사 접미사(860)는 보통 명사의 일부인 접사이다. 이들 접미사(860)에 선행하는 개념어는 명사로서 번역된다. 모호한 다른 번역어는 제거된다.
형용사 또는 부사가 앞에 와야 하는 형용사 및 부사 접미사(870)가 존재한다. 형용사 또는 부사가 아닌 번역어를 갖는 이들 접미사(불변화사)에 선행하는 임의의 개념어가 제거된다.
hen-, zui-, bu-를 포함하는 형용사 및 부사 접두사가 또한 존재한다. 이들 불변화사/접사는 형용사 또는 부사가 뒤따라야 한다. 이들 접두사(불변화사)를 뒤따르는 임의의 개념어가 형용사 또는 부사가 아닌 번역어를 가지는 경우, 이들모호한 번역어가 제거된다.
이들 규칙에 대해서 드문 예외가 있으며 이들은 잘못된 번역을 초래할 수 있으므로 수작업으로 정정하여야 한다.
리스트(800)는 기능어, 불변화사, 접사의 약어를 포함하지 않는다는 점에 주의해야 한다. 약어는 대체 실시예에 포함될 수 있다.
단계(640)에서 여전히 모호성이 남는 경우 즉, 하나를·초과하는 가능한 개념어가 여전히 존재하면, 어구 내의 관계 어구 발생의 통계가 적용되어(641) 나머지 개념어 후보 중 가장 가능성이 높은 단어를 예측한다. 이와 같은 통계 모델(641)은 음성 인식 기술에서 잘 알려져 있다. 예를 들면, 이하 참조 자료로서 인용되는 라비너(Rabiner) 및 주앙(Juang)에 의한 1993, Fundamentals of Speech Recognition, 447-450페이지를 참조하라.
한 바람직한 실시예에서, 결과는 그래픽 인터페이스(1020)의 한지(1024) 부분 상에 디스플레이 된다(650). 명확히 해결될 수 없는 단어가 있는 경우, 나머지 후보 단어가 포인팅 장치(1031)에 의한 선택을 위해 그래픽 인터페이스(1020) 상으로 사용자에게 제공된다. 또한, 디스플레이된 결과(650,1025)가 사용자에 의해 수동 정정(650)이 된다. 대체 실시예에서, 최종 디스플레이는 프린트상에 프린트될 수 있거나 또는 네트워크 접속(1090)을 통해 전송될 수 있다. 디스플레이된 결과(650)는 다른 컴퓨터 시스템, 예를 들면, 한지 텍스트를 다른 언어로 번역하는 번역기(1034)에 대한 한지 입력이 될 수도 있다.
프로세스(500 및 600)를 이용함으로써, 시스템(1000)은 통상적으로 채택된 임의의 규약에 따라 분리되거나 또는 경계에서 구분되지 않는다 하더라도, 단어 입력(501)에서 요소 단어의 의미 및 한지 번역어를 결정할 수 있다.
본 개시에 따라 당 분야에서 통상의 지식을 가진 자라면 발명자의 고려 범위내에 있는 동등한 대체 실시예를 개발할 수 있다. 예를 들면, 도2d의 키보드와 같은 키보드는 BPMF 음성 알파벳의 37개의 문자를 포함하도록 설계될 수 있다. 이 음성 알파벳에 대한 키 할당은 사용자/제조자의 선택에 따른다. 37개의 문자를 위한 ASCII 코드 할당은 도3의 상위 7비트 영역에서 만들어질 수 있다. BPMF에 대한 다이어크리틱은 키보드 상에서 및 ASCII 코드 표에서 역시 제공될 수 있다. 그러나, 몇 가지 변형이 필수적일 수 있다. 예를 들면, 상평성을 위한 다이어크리틱이 제공될 수도 있다. 음절 표(700) 및 BPMF를 위한 기능어, 불변화사, 접사 표(800)는 핀인 경우에 대해 일대일 대응을 갖는다. 제 4,5 및 7도에 도시된 프로세스들이 역시 적용된다.

Claims (24)

  1. (2회 정정) 중국어 텍스트(Chinese text)를 컴퓨터 시스템(a computer system)에 입력하는 키보드(a keyboard)에 있어서,
    ① 각각 하나 이상의 문자(one or more characters)를 나타내는 음절 입력키 세트(a set of syllable input keys)와,
    ② 상기 키보드에서 아래쪽에 있으며, 둘 이상의 섹션으로 분할되어 있는 스페이스 바와,
    ③ 각각 하나 이상의 성조(one or more tones)를 나타내는 성조 키 세트(a set of tone keys) - 상기 섹션의 적어도 한 섹션은 상기 성조 키 중 하나임 -를 포함하는 중국어 텍스트 입력 키보드.
  2. (2회 정정) 제1항에 있어서, 상기 성조 키 세트에는 표시된 네 개의 성조가 있으며, 상기 네 개의 성조는 상평성(high tone), 상성(rising tone), 하평성(low tone), 거성(falling tone)을 포함하는 중국어 텍스트 입력 키보드.
  3. (2회 정정) 제1항에 있어서, 상기 성조 키 세트에는 표시된 다섯 개의 성조가 있으며, 상기 다섯 개의 성조는 무성조(no tone), 상평성, 상성, 하평성, 거성을 포함하는 중국어 텍스트 입력 키보드.
  4. (2회 정정) 제1항에 있어서, 상기 키보드는 미국 영어 키보드(a US English keyboard)이고 상기 성조 키세트 중 하나 이상의 성조 키는 상기 미국 영어 키보드 상의, 상기 키보드의 한 쪽에 있는 구두점 키(one or more punctuation keys)를 대신하는 중국어 텍스트 입력 키보드.
  5. (2회 정정) 제1항에 있어서, 상기 키보드는 미국 영어 키보드이고, 상기 성조 키 세트 중 하나 이상의 성조 키가 상기 미국 영어 키보드 상의 일군의 "화살표" 키(a group of "arrow" keys)와 함께 그룹화(grouping)되는 중국어 텍스트 입력 키보드.
  6. (정정) 제1항에 있어서, 상기 스페이스 바 섹션은 하나 이상의 좌측 섹션(one or more left sections), 하나 이상의 우측 섹션(one or more right sections) 및 상기 좌측 섹션 및 상기 우측 섹션 사이에 있는 중간 섹션(a middle sections)을 포함하는 중국어 텍스트 입력 키보드.
  7. (2회 정정) 제6항에 있어서, 상기 중간 섹션은 스페이스 키(a space key)이고, 상기 좌측 및 우측 섹션중 하나 이상이 하나 이상의 성조를 나타내는 성조 키인 중국어 텍스트 입력 키보드.
  8. (2회 정정) 제6항에 있어서, 상기 중간 섹션은 무성조 다이어크리틱(a no tone diacrotic)이고 상기 좌측 및 우측 섹션 중 하나 이상이 하나 이상의 성조를 나타내는 중국어 텍스트 입력 키보드.
  9. (2회 정정) 제8항에 있어서, 상기 좌측 섹션 중 하나는 상성을 나타내고, 제1우측 섹션(a first right section)은 거성을 나타내며, 제2우측 섹션(a second right section)은 하평성을 나타내는 중국어 텍스트 입력 키보드.
  10. (2회 정정) 중국어 텍스트를 처리하는 컴퓨터 시스템에 있어서,
    ① 컴퓨터 메모리(a computer memory)와,
    ② 복수의 중국어 음성 언어 음절(a plurality of Chinese phonetic language syllables)을 시스템에 입력하는 입력 장치(an input apparatus) - 각 음절은 하나 이상의 문자를 갖고, 상기 입력장치는 액센트된 음절(the accented syllable)의 성조를 표시하는 다이어크리틱으로 하나 이상의 액센트된 음절을 표시함 -와,
    ③ 상기 입력 장치에 의해 입력된 각 문자에 문자 코드(a character code)를 제공하고 각 다이어크리틱에 성조 코드(a tone code)를 제공하는 입력 유닛(an input unit)- 상기 입력 유닛은 성조 코드에 의해 표시된 문자 코드 스트링(a string of character codes)으로서 음절을 인식함 -과,
    ④ 하나 이상의 음절 스트링 코드에 각각 연관된 복수의 음절 스트링을 갖는 음절 리스트(a syllable list)- 상기 입력 유닛은 상기 다이어크리틱 코드에 의해 표시된 문자 코드 스트링을 상기 음절 스트링 코드 중 하나와 비교하고, 상기 성조 코드에 의해 표시된 상기 문자 코드 스트링과 일치하는 음절 스트링 코드에 연관된 상기 음절 스트링에 대한 음절 표시(a syllable representation)를 상기 컴퓨터 메모리에 저장함 -를 포함하는 중국어 텍스트 처리 컴퓨터 시스템.
  11. (정정) 제10항에 있어서, 상기 중국어 텍스트는 핀인(Pinyin)인 중국어 텍스트 처리 컴퓨터 시스템.
  12. (정정) 제10항에 있어서, 상기 중국어 텍스트는 BPMF인 중국어 텍스트 처리 컴퓨터 시스템.
  13. (정정) 제10항에 있어서, 상기 입력 장치는 다이어크리틱을 입력하는 하나 이상의 키를 갖는 키보드인 중국어 텍스트 처리 컴퓨터 시스템.
  14. (정정) 제10항에 있어서, 상기 입력 장치는 말로 표현된 중국어(spoken Chinese)를 입력하는 음향 장치(a acoustic device)인 중국어 텍스트 처리 컴퓨터 시스템.
  15. (정정) 제10항에 있어서, 상기 시스템은 프린터를 더 구비하고 상기 컴퓨터 메모리에 저장된 상기 음절 표시는 프린터 상에서 프린트되는 프린트된 음절로 변환되는 중국어 텍스트 처리 컴퓨터 시스템.
  16. (정정) 제10항에 있어서, 상기 시스템은 그래픽 사용자 인터페이스(a graphical user interface)를 더 구비하고 상기 음절 표시는 상기 그래픽 사용자 인터페이스 상에 디스플레이되는 음절 텍스트(a syllable text)로 변환되는 중국어 텍스트 처리 컴퓨터 시스템.
  17. (정정) 제10항에 있어서, 상기 하나 이상의 음절 스트링 코드는 연관된 음절 스트링의 약어(an abbreviation)를 표시하는 중국어 텍스트 처리 컴퓨터 시스템.
  18. (2회 정정) 제10항에 있어서, 상기 입력 유닛은 어떤 음절 스트링 코드(syllable string code)도 성조 코드에 의해 표시된 문자 코드 스트링과 일치하지 않는 경우, 그래픽 인터페이스 상에 최상의 일치어 리스트(a list of best matches)를 사용자에게 제공하는 중국어 텍스트 처리 컴퓨터 시스템.
  19. (정정) 제10항에 있어서, 상기 입력 유닛은 상기 문자 코드 스트링이 성조 코드에 의해 표시되지 않는 경우 상기 문자 코드 스트링을 비중국어 음절(non Chinese syllable)로 인식하는 중국어 텍스트 처리 컴퓨터 시스템.
  20. (2회 정정) 컴퓨터 시스템에 중국어 텍스트를 입력하는 장치에 있어서,
    ① 각각 하나 이상의 문자를 나타내는 음절 입력 키 수단(a set of syllable input key means)과,
    ② 상기 키보드에서 아래쪽에 있으며, 둘 이상의 섹션으로 분할되어 있는 스페이스 바 수단과,
    ③ 각각 하나 이상의 성조 값을 나타내는 성조 키 수단 세트(a set of tone key means) - 상기 성조키 수단들 중 적어도 하나의 성조 키 수단은 상기 섹션 키들 중의 한 섹션임 - 를 포함하는 중국어 텍스트 입력 장치.
  21. (2회 정정) 중국어 텍스트를 처리하는 컴퓨터 시스템에 있어서,
    ① 컴퓨터 메모리 수단(a computer memory means)과,
    ② 복수의 중국어 음성 언어 음절을 상기 시스템에 입력하는 입력 장치 수단 -각 음절은 하나 이상의 문자를 갖고, 상기 입력 수단은 액센트된 음절의 성조유형을 표시하는 다이어크리틱으로 하나 이상의 액센트된 음절을 표시함 -과,
    ③ 상기 입력 장치 수단에 의해 입력된 각 문자에 문자 코드를 제공하고 각 다이어크리틱에 성조 코드를 제공하는 입력 처리 수단(an input process means) -상기 입력 처리 수단은 상기 성조 코드에 의해 표시된 문자 코드 스트링으로서 음절을 인식함 - 과,
    ④ 하나 이상의 음절 스트링 코드에 각각 연관된 복수의 음절 스트링을 갖는 음절 리스트 수단(a syllable list means) - 상기 입력 처리 수단은 상기 성조 코드에 의해 표시된 문자 코드 스트링을 상기 음절 스트링 코드중 하나와 비교하고, 상기 성조 코드에 의해 표시된 문자 코드 스트링과 일치하는 상기 음절 스트링 코드에 연관된 음절 스트링에 대한 음절 표시를 상기 컴퓨터 메모리 수단에 저장함 -을 포함하는 중국어 텍스트 처리 컴퓨터 시스템.
  22. (2회 정정) 컴퓨터 시스템의 컴퓨터 메모리에 음성 중국어의 음절 및 단어를 저장하는 방법에 있어서,
    ① 입력 장치를 이용하여 상기 컴퓨터 시스템에 하나 이상의 문자를 입력하는 단계 - 음절은 하나 이상의 문자를 갖고, 단어는 하나 이상의 음절을 가지며, 어구는 하나 이상의 단어를 갖고, 상기 어구의 단어는 두 어구 디리미터 사이에 놓이며, 상기 음절은 음절의 성조를 나타내는 다이어크리틱으로 표시되고 상기 음절은 두 다이어크리틱 사이에 놓이며, 상기 입력은 입력된 각 문자에 대한 문자 코드를 저장하는 것이고 음절 중 하나를 표시하는 각 다이어크리틱에 대한 성조 코드를 저장하는 것임 - 와,
    ② 상기 음절 중 하나 이상을 중국어 음절로서 인식하는 단계 - 상기 중국어 음절은 하나 이상의 문자 코드 및 성조 코드의 스트링임 - 와,
    ③ 상기 중국어 스트링을 음절 리스트와 비교하는 단계 - 상기 음절 리스트와, 하나 이상의 음절 스트링 코드에 각각 연관된 복수의 음절 스트링을 가짐 -와,
    ④ 일치하는 음절 스트링을 컴퓨터 메모리에 저장하는 단계 - 상기 일치하는 음절 스트링은 상기 스트링에 일치하는 음절 스트링 코드에 연관되는 음절 스트링임 -를 포함하는 음성 중국어의 음절 및 단어 저장 방법.
  23. (정정) 제22항에 있어서, 어구 디리미터가 입력될 때까지 단계(①-④)가 반복되고, 상기 컴퓨터 메모리에 저장된 상기 하나 이상의 일치하는 음절 스트링은 단어 스트링인 음성 중국어의 음절 및 단어 저장 방법.
  24. (2회 정정) 알파뉴메릭 키보드(an alphanumeric keyboard)를 통해 음성 중국어 스트링(a phonetic Chinese language string)을 입력하는 방법에 있어서,
    ① 상기 중국어의 음성 표시를 컴퓨터 시스템의 입력 장치에 입력하는 단계 -상기 음성 표시는 각각 하나 이상의 음성 음절로 이루어진 하나 이상의 단어를 갖고, 상기 음절 중 하나 이상은 액센트된 음절이고 상기 음절 중 하나 이상은 액센트되지 않은 음절임 - 와,
    ② 상기 액센트된 음절의 성조 유형을 표시하는 다이어크리틱에 의해 상기 액센트된 음절을 표시하는 단계를 포함하는 알파뉴메릭 키보드를 통한 음성 중국어 스트링 입력 방법.
KR1019960028558A 1995-08-16 1996-07-15 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법 KR100259407B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990035578A KR100268297B1 (ko) 1995-08-16 1999-08-26 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/515,547 1995-08-16
US8/515,547 1995-08-16
US08/515,547 US5893133A (en) 1995-08-16 1995-08-16 Keyboard for a system and method for processing Chinese language text

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1019990035578A Division KR100268297B1 (ko) 1995-08-16 1999-08-26 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법

Publications (2)

Publication Number Publication Date
KR970012111A KR970012111A (ko) 1997-03-29
KR100259407B1 true KR100259407B1 (ko) 2000-06-15

Family

ID=24051782

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960028558A KR100259407B1 (ko) 1995-08-16 1996-07-15 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법

Country Status (6)

Country Link
US (2) US5893133A (ko)
JP (1) JP3277123B2 (ko)
KR (1) KR100259407B1 (ko)
CN (1) CN1191514C (ko)
SG (2) SG87039A1 (ko)
TW (1) TW411421B (ko)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044205A (en) * 1996-02-29 2000-03-28 Intermind Corporation Communications system for transferring information between memories according to processes transferred with the information
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
US6032164A (en) * 1997-07-23 2000-02-29 Inventec Corporation Method of phonetic spelling check with rules of English pronunciation
JPH1186434A (ja) * 1997-09-11 1999-03-30 Sony Corp 記録装置、記録方法、及びダビング装置
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
JP2000122768A (ja) * 1998-10-14 2000-04-28 Microsoft Corp 文字入力装置、方法および記録媒体
JP2000235567A (ja) * 1999-02-17 2000-08-29 Matsushita Electric Ind Co Ltd 声調符号無入力式中国語文字変換装置
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
JP2000298667A (ja) * 1999-04-15 2000-10-24 Matsushita Electric Ind Co Ltd 構文情報による漢字変換装置
US6507812B1 (en) 1999-06-29 2003-01-14 International Business Machines Corporation Mock translation method, system, and program to test software translatability
US6562078B1 (en) * 1999-06-29 2003-05-13 Microsoft Corporation Arrangement and method for inputting non-alphabetic language
US6453462B1 (en) * 1999-06-29 2002-09-17 International Business Machines Corporation Mock translation system, method, and program using multi-byte placeholder characters to test translatability of software that will display multi-byte languages
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US7403888B1 (en) 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US6809725B1 (en) * 2000-05-25 2004-10-26 Jishan Zhang On screen chinese keyboard
CN1171137C (zh) * 2000-06-23 2004-10-13 谭伟雄 改进的hlv汉字拼音输入方法
US6920247B1 (en) * 2000-06-27 2005-07-19 Cardiff Software, Inc. Method for optical recognition of a multi-language set of letters with diacritics
US6692170B2 (en) 2001-02-21 2004-02-17 Eli Abir Method and apparatus for text input
US6982658B2 (en) * 2001-03-22 2006-01-03 Motorola, Inc. Keypad layout for alphabetic symbol input
US7319950B2 (en) * 2001-04-10 2008-01-15 Chang Po Liu Automated word processor for chinese-style languages
US6993474B2 (en) * 2001-05-17 2006-01-31 Curry David G Interactive conversational speech communicator method and system
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system
US20030110036A1 (en) * 2001-12-10 2003-06-12 Sayling Wen Chinese input method for providing auxiliary writing model
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
US7228267B2 (en) * 2002-07-03 2007-06-05 2012244 Ontario Inc. Method and system of creating and using Chinese language data and user-corrected data
WO2004006123A2 (en) * 2002-07-03 2004-01-15 2012244 Ontario Inc. Method and system of creating and using chinese language data and user-corrected data
EP1691298B1 (en) * 2002-07-03 2007-09-19 2012244 Ontario Inc. Method and system of creating and using Chinese language data and user-corrected data
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US7315982B2 (en) 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
KR100566204B1 (ko) * 2003-04-22 2006-03-29 삼성전자주식회사 성조가 표기된 한어 병음 입력 방법 및 장치
US7884804B2 (en) * 2003-04-30 2011-02-08 Microsoft Corporation Keyboard with input-sensitive display device
US20050010391A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Chinese character / Pin Yin / English translator
US20050010392A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Traditional Chinese / simplified Chinese character translator
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
US8137105B2 (en) 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
US20050027547A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Chinese / Pin Yin / english dictionary
US20070213971A1 (en) * 2003-10-17 2007-09-13 Al-Sulaim Mazen M Method For Operating an Output Device
JP4213570B2 (ja) * 2003-11-20 2009-01-21 シャープ株式会社 文字入力方法、文字入力装置およびプログラム
WO2005065061A2 (en) * 2004-01-06 2005-07-21 In-Seop Lee The auto translator and the method thereof and the recording medium to program it
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
CA2496872C (en) * 2004-03-17 2010-06-08 America Online, Inc. Phonetic and stroke input methods of chinese characters and phrases
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
US20060020567A1 (en) * 2004-07-26 2006-01-26 Li Li Method for message browsing
US7595742B2 (en) * 2004-10-29 2009-09-29 Lenovo (Singapore) Pte. Ltd. System and method for generating language specific diacritics for different languages using a single keyboard layout
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
US7676357B2 (en) * 2005-02-17 2010-03-09 International Business Machines Corporation Enhanced Chinese character/Pin Yin/English translator
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US7516062B2 (en) * 2005-04-19 2009-04-07 International Business Machines Corporation Language converter with enhanced search capability
US7366984B2 (en) * 2005-07-29 2008-04-29 Microsoft Corporation Phonetic searching using multiple readings
US7538692B2 (en) * 2006-01-13 2009-05-26 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and for prioritizing compound language solutions according to quantity of text components
EP1987413A1 (en) * 2006-02-10 2008-11-05 ZI Corporation of Canada, Inc. Method and system of identifying an ideographic character
US20070250307A1 (en) * 2006-03-03 2007-10-25 Iq Technology Inc. System, method, and computer readable medium thereof for language learning and displaying possible terms
US8275602B2 (en) * 2006-04-21 2012-09-25 Scomm, Inc. Interactive conversational speech communicator method and system
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US7565624B2 (en) 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US8395586B2 (en) 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US20080131031A1 (en) * 2006-12-05 2008-06-05 Sherryl Lee Lorraine Scott Handheld electronic device with diacritical selection and text disambiguation
US8135590B2 (en) * 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US8677237B2 (en) * 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input
US8316295B2 (en) * 2007-03-01 2012-11-20 Microsoft Corporation Shared language model
US20080211777A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Stroke number input
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CN105117376B (zh) 2007-04-10 2018-07-10 谷歌有限责任公司 多模式输入法编辑器
CN105204617B (zh) * 2007-04-11 2018-12-14 谷歌有限责任公司 用于输入法编辑器集成的方法和系统
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
KR20100029221A (ko) * 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
JP5241828B2 (ja) * 2007-06-14 2013-07-17 グーグル・インコーポレーテッド 辞書の単語及び熟語の判定
EP2120130A1 (en) 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US9009591B2 (en) * 2008-12-11 2015-04-14 Microsoft Corporation User-specified phrase input learning
US20100149190A1 (en) * 2008-12-11 2010-06-17 Nokia Corporation Method, apparatus and computer program product for providing an input order independent character input mechanism
US8296680B2 (en) * 2009-01-15 2012-10-23 Research In Motion Limited Method and handheld electronic device for displaying and selecting diacritics
US20110171617A1 (en) * 2010-01-11 2011-07-14 Ideographix, Inc. System and method for teaching pictographic languages
US8381119B2 (en) * 2010-01-11 2013-02-19 Ideographix, Inc. Input device for pictographic languages
US8947076B2 (en) 2010-01-18 2015-02-03 Bourns, Inc. High resolution non-contacting multi-turn position sensor
US8280954B2 (en) 2010-03-25 2012-10-02 Scomm, Inc. Method and system for providing live real-time communication via text between mobile user devices
JP4940325B2 (ja) * 2010-03-29 2012-05-30 株式会社東芝 文書校正支援装置、方法およびプログラム
US10380241B2 (en) * 2010-05-26 2019-08-13 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
US8473277B2 (en) * 2010-08-05 2013-06-25 David Lynton Jephcott Translation station
CN103370705B (zh) * 2011-01-05 2018-01-02 谷歌公司 用于便利文本输入的方法和系统
CN102737535A (zh) * 2011-03-31 2012-10-17 赵文志 一种快速学习语言的工具设置
US9864782B2 (en) * 2013-08-28 2018-01-09 AV Music Group, LLC Systems and methods for identifying word phrases based on stress patterns
CN104699000A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 非特定人外语语音遥控的机器人系统
KR101449376B1 (ko) * 2014-03-31 2014-10-10 정창수 컴퓨터의 한자입력 장치 및 한자입력 방법
US10261674B2 (en) * 2014-09-05 2019-04-16 Microsoft Technology Licensing, Llc Display-efficient text entry and editing
JP6753401B2 (ja) * 2015-07-24 2020-09-09 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
CN105242932B (zh) * 2015-10-21 2018-08-31 宁波三星医疗电气股份有限公司 一种基于delphi工具开发的软件的自动翻译方法
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN107066104B (zh) * 2016-11-14 2020-12-11 高商展 电脑汉英互读互译键盘最佳键位
KR101880868B1 (ko) * 2017-12-29 2018-07-20 영 황보 한자입력장치
CN108536656B (zh) * 2018-03-09 2021-08-24 云知声智能科技股份有限公司 基于wfst的文本正则化方法及系统
US10885286B2 (en) * 2018-10-12 2021-01-05 Microsoft Technology Licensing, Llc Simultaneous and real time translation and language switching across a set of features
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59864B2 (ja) * 1979-03-30 1984-01-09 シャープ株式会社 電子辞書
DE3142138C2 (de) * 1981-10-23 1985-06-27 Siemens AG, 1000 Berlin und 8000 München Verfahren zur Eingabe chinesischer Zeichen sowie Vorrichtung zur Durchführung des Verfahrens
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
US5212638A (en) * 1983-11-14 1993-05-18 Colman Bernath Alphabetic keyboard arrangement for typing Mandarin Chinese phonetic data
GB2158776A (en) * 1984-02-24 1985-11-20 Chang Chi Chen Method of computerised input of Chinese words in keyboards
US4565459A (en) * 1984-06-04 1986-01-21 Dilucia Gilbert Phonetic Chinese printing apparatus
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPS6352143A (ja) * 1987-08-12 1988-03-05 Matsushita Electric Ind Co Ltd コ−ド印刷物の作成方法
US5109352A (en) * 1988-08-09 1992-04-28 Dell Robert B O System for encoding a collection of ideographic characters
US5047932A (en) * 1988-12-29 1991-09-10 Talent Laboratory, Inc. Method for coding the input of Chinese characters from a keyboard according to the first phonetic symbols and tones thereof
US4949260A (en) * 1989-01-03 1990-08-14 Hsu Su Hsia Method for inputting chinese information through hieroglyphic approach and keyboard arrangement therefor
LU87713A1 (de) * 1989-08-31 1990-07-24 Siemens Ag Kreuzschaltungsverfahren(cross-connect)fuer stm-1-signale der synchron-digital-multiplexhierarchie
JPH03101492A (ja) * 1989-09-14 1991-04-26 Hitachi Ltd 高密度画面変換処理方式
JPH03144846A (ja) * 1989-10-31 1991-06-20 Yokogawa Hewlett Packard Ltd アプリケーション・入力サーバ連携方法
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JPH04109365A (ja) * 1990-06-19 1992-04-10 Ricoh Co Ltd キヤビネツト間の文書コピー機能を有する画像文書フアイリング装置
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
US5255355A (en) * 1990-10-10 1993-10-19 Fuji Xerox Co., Ltd. Document processor
TW268115B (ko) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US5255189A (en) * 1992-06-09 1993-10-19 Woo Edward P H Method and system for retrieving ideographic characters and the associated dictionary entries
US5331557A (en) * 1993-01-14 1994-07-19 Liu Zhong Yi Audio-video coding system for Chinese characters
US5378068A (en) * 1993-10-12 1995-01-03 Hua; Teyh-Fwu Word processor for generating Chinese characters
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count

Also Published As

Publication number Publication date
KR970012111A (ko) 1997-03-29
SG87039A1 (en) 2002-03-19
JPH09128383A (ja) 1997-05-16
US5893133A (en) 1999-04-06
JP3277123B2 (ja) 2002-04-22
CN1191514C (zh) 2005-03-02
US6073146A (en) 2000-06-06
SG55208A1 (en) 1998-12-21
CN1143769A (zh) 1997-02-26
TW411421B (en) 2000-11-11

Similar Documents

Publication Publication Date Title
KR100259407B1 (ko) 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
Palmer Tokenisation and sentence segmentation
EP0370774B1 (en) Machine translation system
US6760695B1 (en) Automated natural language processing
JP2515726B2 (ja) 情報検索方法及び装置
EP0686286B1 (en) Text input transliteration system
US8977535B2 (en) Transliterating methods between character-based and phonetic symbol-based writing systems
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
WO1997040453A1 (en) Automated natural language processing
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
JP2010073177A (ja) 国際対応型日本語入力システム
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP2009075748A (ja) 機械翻訳装置及びプログラム
WO2006051647A1 (ja) テキストデータ構造、テキストデータ処理方法
Kawada Inputting Japanese from the keyboard
Popović et al. Automatic Morphological Annotation in a Text-to-Speech System for Hebrew
JPH03260687A (ja) 視覚障害者用点字漢字変換装置
JPH0414168A (ja) 文書作成装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH0773174A (ja) 日本語処理システム
JPS60207948A (ja) カナ漢字変換処理装置
JPH07121542A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20050124

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee