KR100268297B1 - 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법 - Google Patents

중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법 Download PDF

Info

Publication number
KR100268297B1
KR100268297B1 KR1019990035578A KR19990035578A KR100268297B1 KR 100268297 B1 KR100268297 B1 KR 100268297B1 KR 1019990035578 A KR1019990035578 A KR 1019990035578A KR 19990035578 A KR19990035578 A KR 19990035578A KR 100268297 B1 KR100268297 B1 KR 100268297B1
Authority
KR
South Korea
Prior art keywords
words
word
chinese
syllable
hanji
Prior art date
Application number
KR1019990035578A
Other languages
English (en)
Inventor
쳉준줄리안첸
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/515,547 external-priority patent/US5893133A/en
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Priority to KR1019990035578A priority Critical patent/KR100268297B1/ko
Application granted granted Critical
Publication of KR100268297B1 publication Critical patent/KR100268297B1/ko

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

음성 중국어(Pinyin 및 BPMF)가 컴퓨터 시스템에 입력되어 한지(Hanzi) 형태로 정확히 변환된다. 본 발명의 시스템은 사용자가 음절의 성조를 표시하는 다이어크리틱(diacritic)을 갖는 각각의 입력된 음성 텍스트 음절에 주석을 달도록 하는 다이어크리틱 키(및 대응하는 ASCII 코딩)를 구비하는 신규한 키보드를 갖는다. 본 발명의 시스템 상에서 실행되는 프로세스는 다이어크리틱(또는 디리미터(delimiter)) 키가 눌러질 때 음절이 입력되었는지의 여부를 판단한다. 입력된 음성 음절은 채택 가능한 음성 음절 및 약어 리스트와 비교된다. 입력된 음절이 리스트 상에 있는 경우, 현재 표기(spell)되고 채택된 음절은 메모리에 저장되며 그래픽 디스플레이의 음성 부분 상에 디스플레이된다. 이 프로세스는 디리미터가 입력될 때까지 후속하는 음절에 대해 계속된다. 디리미터를 만날 때, (두 디리미터 간의 문자 스트링으로서 정의되는) 단어 스트링(word string)은 형태 및 구문론 처리 및/또는 통계 언어를 이용하여 분석되어 단어 스트링 내에 단어를 나타내는 적절한 한지 문자를 명확히 결정한다. 유일한 한지 변환이 메모리에 입력되며 그래픽 인터페이스의 한지 부분 상에 디스플레이된다.

Description

중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법{SYSTEM AND METHOD FOR PROCESSING CHINESE LANGUAGE TEXT}
본 발명은 중국어 텍스트(Chinese language text), 특히 음성 중국어 텍스트(phonetic Chinese text) 및 한지(Hanzi)를 처리하는 컴퓨터를 이용하는 개선된 시스템 및 방법에 관한 것이다.
컴퓨터 상에서 중국어를 입력하고 처리하는 것은 매우 어려운 문제이다. 중국 문자는 그 수가 엄청나기 때문에 이것이 어렵다. 중국어의 정방형 문자(한지) 표기 시스템에 있어서, 통상 이용되는 중국어 문자(한지)로서 3000개 내지 6000개가 있다. 비교적 희귀한 문자를 포함하면, 만 개를 초과하는 한지가 있다. 이러한 어려움 외에도 중국어에는 텍스트 표준화, 다수의 동음 이의어, 컴퓨터에 의해 한지의 효과적인 텍스트 처리를 방해하는 모호한 단어의 경계와 같은 문제점이 있다. 수 십 년동안 집중적으로 연구되고 수 백 가지 다양한 방법이 존재함에도 불구하고 한지의 컴퓨터 입력 및 처리는, 중국에서 특히 텍스트 처리에 있어서 컴퓨터를 이용하지 못하게 하는 큰 장애가 되고 있다.
오늘날 중국어를 입력하고 처리하는 데 이용 가능한 컴퓨터 시스템은 세 가지 카테고리로 분류된다.
첫 번째 카테고리는 정방형 문자를 기본적인 화상 성분으로 분해하는 방법에 기초한다. 키보드 상의 각종 키는 한지의 각종 기본적인 화상 성분을 나타내도록 할당되어 있다. 그 다음에, 각 문자는 이들 기본적인 화상 성분의 조합으로서 몇 번의 키 스트로크(key strokes)에 의해 키 입력될 수 있다. 이 방법의 일 예로서, 대만의 창지(Changji) 및 중국 본토의 오키 입력(Five-Stroke) 방법이 있다. 이러한 방법의 큰 단점은 키를 한지 성분에 할당하는 것이 인위적이라는 점이다. 창지 및 오키 입력 방법에서는, 코드의 할당을 기계적으로 암기하여야 한다. 요소를 나타내는 키를 암기하는 일은 어렵고 시간이 소모되는 일이다. 또한, 많은 경우에 한지를 그의 기본 요소로 분해하는 것은 유일하지 않다. 이들 방법이 직업적인 입력 오퍼레이터에 의해 이용되고, 잘 훈련된 타이피스트에 의할 경우에는 빠른 속도를 낼 수 있지만, 이들은 보통 사람은 물론 컴퓨터 전문가 및 다른 직업 종사자에 의해서도 많이 이용되지 않는다. 따라서, 이러한 방법으로는 일반적인 중국어 사용 인구에 의한 컴퓨터 이용이 제한 받게 된다.
두 번째 및 세 번째 카테고리는 중국어 처리에서 '동음 이의어 문제'와 관련되어 있다.
두 번째 카테고리는 직업적인 타이피스트를 제외한 모든 사람에 대해 가장 흔히 이용되는 방법인 음성 입력(예를 들면, 중국 본토에 있어서 핀인(Pinyin) 및 대만에 있어서 '음성 부호' 또는 BPMF)이다. 중국어의 한지 표기 시스템은 이 방법에 대해 개념적이며 실질적인 장벽이다.
수 만 개의 문자와는 대조적으로, 단지 약 1300 개의 상이한 음성 음절이 존재하므로, 한 음성 음절은 복수의 상이한 한지에 대응한다. 예를 들면, 북경 관어에서 'yi'의 발음은 100개 이상의 한지에 대응할 수 있다. 이 때문에, 음성 음절을 한지로 번역하는 경우 모호함이 발생한다.
이러한 '동음 이의어 문제점'에 대처하기 위해, 음성 입력 시스템의 대부분은 복수 선택 방법을 이용한다. 제이 하인즐 등(J.Heizl et al.)에 의해 1983 년 5 월 5 일에 발행된 독일 특허 제 3,142,138 호, 케이.씨. 시에(K.C.Hsieh)에 의해 1991 년 9 월 10 일에 발행된 미국 특허 제 5,047,932 호, 탠 샹구앙(Tan Shanguang)에 의해 1991 년 3 월 8 일에 발행된 중국 특허 제 1,064,957 호를 참조하라. 음성 음절이 키 입력된 후, 컴퓨터는 같은 발음을 갖는 모든 가능한 한지를 디스플레이한다. 어떤 경우에는, 같은 발음을 갖는 모든 가능한 문자를 디스플레이할 충분한 공간이 스크린상에 존재하지 않는다. 이러한 경우에는 스크롤 업과 스크롤 다운(scrolling up and down)해야 한다. 따라서, 매 음절에 따라 이들 음성 방법은 매우 느리다.
인접한 한지의 도출 확률에 기초하는 복수 선택 방법에 대한 개선책이 종래 기술에 개시되어 있다. 예를 들면, 알.더블유.스프로우트(R.W.Sproat)에 의해 1992 년 4 월 1 일에 발행된 영국 특허 제 2,248,328 호를 참조하라. 또한 이 확률적 접근법은 문법적인 제한 조건과도 또한 조합될 수 있다. 예를 들면 케이.티.루아 등(K.T.Lua et al.)의 Computer processing of Chinese and Oriental Languages, Vol. 6, Num1, page 85, June 1992를 참조하라. 그러나, 이들 방법의 변환 정확도(음성 대 한지)는 전형적으로 약 80%로 제한되고 있다.
세 번째 카테고리는 비음성 문자의 부가와 음성 문자 입력 방법을 조합하는 것이다. 비음성 문자가 음성 문자에 부가되어 같은 발음을 갖는 문자를 인위적으로 구별한다. 일 예로서, 부수에 의한 음성 철자법(씨.씨. 첸에 의해 1983 년 11 월 20 일에 발행된 영국 특허 제 2,158,776 호) 및 키 입력의 수를 갖는 음성 철자법(지.씨에(G.Xie)에 의해 1992 년 11 월 25 일에 발행된 중국 특허 제 1,066,518 호)이 있다. 이들 방법에서는, 인위적인 규칙 또는 키 입력의 횟수를 암기할 필요가 있으며 이 때문에 입력 속도가 실제로 느리게 된다.
'동음 이의어 문제점'외에도, 중국어를 처리하는 경우 '단어 경계 문제점'이 존재한다.
현대 중국어에서 80% 이상의 단어가 다음절(多音節)(즉, 둘 이상의 한지)을 가지지만, (모든 유럽 언어 및 심지어 한국어와 대조적으로) 중국어의 표기 시스템에는 단어 분리가 없다. 또한, 음성 중국어의 입력은 단어 경계가 없이 보통 음절마다 수행된다.
다음절 단어의 폭넓은 인식 및 단어 경계에서 단어를 구분하는 표준 방법의 결여에도 불구하고, 중국어에서의 단어의 정의 및 심지어 그 존재까지도 논란이 되고 있다. 더욱이, 중국어는 전통적으로 단어 사이에 간격을 두지 않고 한지의 연속적 스트링으로 표기하고 있으므로, 보통의 중국 사람은 '단어'가 무엇을 의미하는지 정확한 개념을 갖고 있지 않다. 많은 경우, 단어 경계 또는 디리미터(delimiter), 예를 들면, 스페이스를 어디에 두어야 할 지가 명확하지 않다. 그 논란은 다음과 같은 경우로 예시된다.
1. 복합 명사. 영어에서, 두 개의 독립적으로 유효한 단어를 조합하여 복합 명사, 예를 들면, 칠판(blackboard) 또는 방울뱀(rattlesnake)을 형성할 수 있다. 영어에서와 같이, 이들 복합 스트링을 한 단어 또는 두 단어로서 처리하여야 하는지에 대한 논란이 존재한다. 중국에서는 일반적으로 상기의 예가 인정되지 않고 있으므로, 복합 명사에 대한 논란은 더 심각하다. 예를 들면, 중국 핀인 어휘집에 리스트된 바와 같이, 단어 'nanguangboyuan'(남성 아나운서)는 두 단어(nanguangboyuan), 또는 사람에 따라서는 세 단어까지 간주될 수 있다.
2. 접사(affixes). 모든 중국어 동사는 '구문 유닛(syntax units)', -ie,- guo, 또는 -zhe와 부가되어 과거, 현재 완료, 또는 진행 시제를 만들 수 있다. 모든 형용사는 -de와 부기될 수 있다. 그러나, 이들 구문 유닛은 불변화사(particles)로 불리우는 독립적인 단어로서 또한 나타난다. 언어학자의 각 학파는 이들 구문 유닛을 상이하게 다루고 있다. 일부 학파는 '고유(proper)' 접사 즉, 이들이 부착되는 단어의 일부로서 이들 구문 유닛을 다루고 있다. 다른 학파는 독립적인 불변화사, 즉, 분리된 단어로서 이들을 다루고 있다.
접사는 단어의 일부인 반면 불변화사는 독립적인 단어이다. 예를 들면, 대부분의 언어학자에 의해 명사 어미 -hua, -jia, -yuan, xing, -zhuyi는 단일 단어에서 접사로서 간주되는 한편, 일부 언어학자는 이들을 독립된 불변화사(별개의 단어)로 간주한다. 한편, -z,-r, tou와 같은 어미는 항상 명사에 대한 접미사로서 다루어지며 독립된 불변화사로서는 취급되지 않는다.
3. 복합 동사. aufziechen, heraufziehen 등과 같이 독일어(die zerbrechbar, Zeitwort)의 가분 동사(divisible verbs)와 매우 유사한 동사 부류가 중국어에 있다. 이들 '가분(divisible)' 동사는 삽입사 -zu-, -ge-를 이용하여 부정사 또는 과거 분사가 될 수 있다.
중국에서, 유사한 복합 명사가 '가능' 또는 부정을 의미하는 삽입사 -de- 또는 -bu-를 가질 수 있다. 일 예로서, 상기한 독일어 동사와 매우 유사한 taideqilai(올릴 수 있는) taibuqilai(올릴 수 없는)의 버전을 갖는 taiqilai(올리다)이 있다. 더욱이, 어구 'taiqi tou lai', 'taideqi tou lai', 'taibuqi tou lai'는 ('ziehen dein Kapf auf'와 같은) 복합 동사를 사용하는 유사한 문장 구조이다. 이러한 관점으로부터, 'taiqilai'는 한 단어가 되어야 한다. 그러나, 많은 언어학자가 이들 음절을 분리된 단어(tai,qi,lai)로 간주하고 이들을 분리하여 표기한다.
앞서 예시된 바와 같이, 중국어에서는 자주 어디에 단어의 경계를 두어야 할 지가 불명확하다.
이와 같은 논란에도 불구하고, 많은 다음절 단어가 (1) 명사 'gada', 'putao', 'feiji' 등, (2) 동사 'zhuanyou', 'xingwu', 등, (3) 형용사 'heised', 'pangdad' 등과 같이 최소 언어 단위, 또는 형태소(形態素)로서 흔히 인식된다. 또한, 복수의 단어로 구성되는 복수의 어구가 보통 채택된다. 예를 들면, 때때로 'dianzigongye'는 한 단어로 간주될 수 있지만, 아무도 어구 'fazhan dianzi dongye'를 한 단어로 간주하려 하지 않을 것이다. 핀인의 상이한 표기 스타일에서 하이픈이 사용되거나 사용되지 않을 수 있지만, 보편적으로 단어로서 흔히 간주되는 사자성어(four-syllable idioms)가 있다. 이들 부류의 단어에 대해, 유일한 단어 경계가 보편적으로 인식된다.
전술한 바와 같이, 보편적으로 채택되는 정통적인 규칙이 결여되어 있고 중국어에 대해 단어 분리 습관이 부족하므로, 중국어 텍스트의 컴퓨터 입력 및 처리에 대해 용이하게 사용될 표준을 개발하는 것은 어려우며 어떤 특정한 언어 학파도 보편적으로 추종되지 않고 있다. 단어의 좁은 의미의 정의(즉, 많은 복합 단어가 어구로서 다루어지고, 많은 접사가 불변화사로서 다루어짐)를 따른다 하더라도, 몇 가지 모호성은 여전하다. 단어에 대해 넓게 정의(즉, 복수의 복합 단어를 하나의 단위로서 다루고, 복수의 접사를 단어의 일부로서 채택함)할 경우, 식별의 정확도는 향상될 것이지만, 컴퓨터 메모리에 저장하여야 하는 단어의 양이 너무 커서 모든 개별 단위의 단어 및 모든 접사 조합을 갖는 단어들을 감당할 수 없다.
외국인을 위한 구어체 중국어의 교과서는 다음절 단어가 기본 단위로서 간주되는 핀인이라 불리우는 철자 형태로 표기된다. 핀인은 로마 문자를 이용하며, 다음절 단어의 형태로 리스트된 어휘집을 갖는다. 중국어 핀인 어휘집(A Chinese Pinyin Vocabulary)은 1964 년에 발행되었다. 개정된 판은 약 60000 단어 엔트리를 포함하며, Language Press, Beijing, China에 의해 1989 년에 발행되었다. 단어 경계를 정의하는 핀인 형태로 표기된 중국어에 대한 정통적인 규칙은 1984 년에 발행되었다.
본 발명의 목적은 컴퓨터 상에서 음성 중국어 및 한지를 입력하고 처리하는 개선된 컴퓨터 시스템을 제공하는 것이다.
본 발명의 다른 목적은 중국어에 있어서, 단어 분리의 각종 언어 이론 및/또는 상이한 개인적 습관을 수용하면서 음성 중국어(핀인 또는 BPMF) 입력을 문자 기록(한지)으로 변환하는 비교적 작은 어휘집(메모리)을 필요로 하는 정확한 컴퓨터 시스템, 프로세스를 제공하는 것이다.
본 발명의 다른 목적은 컴퓨터 키보드의 편리하고 효율적인 설계를 제공하여 중국어 텍스트의 입력 및 처리를 용이하게 하는 것이다.
본 발명의 다른 목적은 확장된 ASCII코드의 설계를 제공하여 영어 및 GB2312-80 형태(중국어 문자를 통신하는 중국 관영 표준)의 정방형 문자(한지) 스트림과 충돌 없이 정보 스트림에 기초하여 음성 중국어의 저장, 프린팅, 전송을 용이하게 하는 것이다.
본 발명의 다른 목적은 자동 에러 검출 및 정정을 제공하는 음성 중국어에 대한 컴퓨터 처리 시스템을 제공하는 것이다.
본 발명의 다른 목적은 중국어 및 비중국어(예를 들면, 영어) 혼합 텍스트가 처리될 수 있도록 하는, 음성 중국어에 대한 컴퓨터 처리 시스템을 제공하는 것이다.
본 발명은 음성 중국어(핀인 및 BPMF)를 컴퓨터 시스템에 정확하고 효율적으로 입력하고 음성 입력을 한지 형태로 정확히 변환하는 시스템 및 방법에 관한 것이다. 본 발명의 시스템은 사용자가 음절의 성조를 표시하는 다이어크리틱(diacritic)을 갖는 각각의 입력된 음성 텍스트 음절에 주석을 달도록 하는(annotate) 다이어크리틱 키(및 대응하는 ASCII 코딩)를 갖는 신규한 키보드를 갖는다. 시스템 상에서 실행되는 프로세스는 다이어크리틱(또는 디리미터(delimiter)) 키가 눌러질 때 음절이 입력되었는지의 여부를 판단한다. 입력된 음성 음절은 채택 가능한 음성 음절 및 약어(abbreviation)의 리스트와 비교된다. 입력된 음절이 리스트 상에 있는 경우, 현재 글로 표현(spell)되고 말로 표현된 음절이 메모리에 저장되며 그래픽 디스플레이의 음성 부분 상에 디스플레이된다. 이 프로세스는 디리미터가 입력될 때까지 후속하는 음절에 대해 계속된다.
디리미터를 만날 때, (두 디리미터 간의 문자 스트링으로서 정의되는) 단어 스트링(word string)이 처리되어, 단어 스트링 내의 단어를 나타내는 적절한 한지 문자를 판단한다. 단어 스트링(또는 단어 스트링 내의 각 스트링)은 음성 단어의 사전과 비교된다. 단어 스트링이 유일한 한지 번역어(飜譯語)를 갖는 경우, 한지 번역어가 메모리에 저장되고 그래픽 인터페이스의 한지 부분 상에 디스플레이된다. 단어 스트링이 사전에서 일치어(一致語;match)가 없는 경우, 형태 분석(morphological analysis)이 행해지는데, 즉 (접사 리스트 상에서 식별된) 임의의 표준 접사가 단어 스트링으로부터 제거된다. 나머지 단어 스트링(어근)은 재분석된다. 어근이 사전에서 여전히 일치어를 갖지 않는 경우, 어근(나머지 단어 스트링)은 구성 요소/단어로 분해된다. 구성 요소가 사전에서 유일한 일치어를 갖는 경우, 이들 유일한 구성 요소/단어의 한지 번역어가 메모리에 저장되고 그래픽 인터페이스의 한지 부분 상에 디스플레이된다.
단어 입력 또는 임의의 구성 요소/단어가 모호한 번역어(사전에서 유일하게 일치하지 않음)를 갖는 경우, 구문 분석(syntactical analysis)이 행해진다. 단어 스트링 내의 단어는 기능어(기능어/접사 리스트 상에 있으며 성조 음절을 가지지 않음) 또는 개념어(notional word)(적어도 한 성조 음절을 갖는 단어)로서 분류된다. (본 발명의 목적을 위해, 기능어, 불변화사, 접사가 같은 방식으로 이용되고 다루어짐에 주의하라.) 기능어는 명확히 번역되며 나머지 단어 스트링(어근) 입력의 구조를 또한 결정한다. 개념어에 남겨진 모호성은 번역된 기능어를 갖는 개념어의 이용에 기초하여 감소되거나 또는 제거된다. 개념어가 갖는 임의의 나머지 모호성은 통계 모델에 의해 제거된다.
음성 텍스트는 키보드 이외의 다른 장치, 예를 들면 네트워크, 자기 매체, 또는 음향 시스템을 통해 시스템으로 입력될 수 있다. 중국어 및 비중국어 단어의 혼합 텍스트는 특수 문자, 예를 들면, 스페이스 등으로 비중국어 문자를 구분함으로써 처리될 수 있다.
도 1은 본 시스템의 바람직한 실시예의 블럭도,
도 2a는 본 시스템에 이용되는 키보드의 한 바람직한 실시예를 도시한 도면,
도 2b는 성조 키를 갖는 키보드 부분의 대체 실시예를 도시한 도면,
도 2c 및 2d는 본 시스템에서 이용되는 키보드의 바람직한 대체 실시예로서 각 키보드가 성조 키로서 이용되는 스페이스 바의 분할된 섹션을 갖는 실시예를 도시한 도면,
도 3은 하위 7 비트에서 성조 다이어크리틱 및 상위 7 비트에서 성조 다이어크리틱을 갖는 모든 이용 가능한 모음을 포함하는 ASCII 코드 데이타 구조의 바람직한 실시예,
도 4는 메모리 내에서 핀인 단어 등록을 생산하는 키보드 입력에 대한 바람직한 프로세스를 도시하는 흐름도,
도 5는 핀인 형태로 표기된 중국어 단어에 대해 형태 분석 및 분해 프로세스를 도시하는 흐름도,
도 6은 모호한 단어 스트링을 갖는 핀인 입력을 처리하는 바람직한 구문 방법을 도시하는 흐름도,
도 7은 각 음절에 대해 하나의 코드 형태를 갖는 중국어 음절의 바람직한 리스트를 나타내는 표,
도 8은 기능어로서 다루어지는 중국어 기능어, 불변화사, 접사의 바람직한 리스트를 나타내는 표.
도면의 주요 부분에 대한 부호의 설명
1010; CPU 1020; 그래픽 인터페이스
1100; 주기억 장치 1200; 메모리 저장장치
도 1은 본 시스템(1000)의 한 바람직한 실시예의 블럭도를 도시하고 있다. 시스템(1000)은 중국어 문자, 영어 텍스트를 디스플레이할 수 있는 그래픽 인터페이스(1020), CPU(1010), 주기억 장치(1100), 메모리 저장 장치(1200)를 포함한다. 키보드 프로파일(1070)은 주기억 장치(1100) 및/또는 메모리 저장 장치(1200)에 저장되어 있다. 시스템(1000)은 마우스와 같은 포인팅 장치(1031)를 가지며, 네트워크(1090)에 접속될 수 있다. IBM RS/6000은 CPU(1010), 메모리(1100, 1200), 그래픽 인터페이스(1020)의 한 실시예이다.
신규한 키보드(1030)가 또한 도시되어 있다. 키보드는 성조 다이어크리틱 키(1050) 및 표준 로마 문자인 음절 입력 키(1040)를 포함한다. 다른 성조 키(1060A,B)가 또한 가능하다. 성조 키(1060A)는 분할 스페이스 바 상에 배치될 수 있다. 성조 키(1060B)는 표준 화살표 키 위에 부가될 수 있다. 신규한 키보드의 다른 바람직한 실시예는 도 2a-2d의 설명에 기술되어 있다.
키보드(1030)의 키 입력을 변환하는 데 사용되는 신규한 데이타 구조(300)가 메모리 저장 장치(1200) 및/또는 주기억 장치(1100)에 포함되어, 메모리(1100,1200)에 저장, 즉 등록되는 문자(예를 들면, ASCII) 및 다이어크리틱을 인코딩한다. 데이타 구조(700,800,950)는 메모리(1200)에도 역시 저장된다. 이들은 중국어 음절 리스트(700), 기능어/접사 리스트(800), 중국어 사전 또는 어휘집(950)을 포함한다.
메모리(1100,1200)에 신규한 프로세스(400, 500,600)가 포함된다. 프로세스(400)는 음성 중국어를 시스템(1000)으로 입력하고 단어 경계를 선택 사양적으로 정의하는 방법이다. (본 개시에서 음성 중국어는 일반성을 상실하지 않고 핀인으로서 지칭할 것임에 주의해야 한다.) 프로세스(500)는 유일한 한지 번역어를 결정하기 위해 핀인 텍스트/단어의 스트링을 형태적으로 분석하는 방법이다. 프로세스(600)는 모호한 스트링/단어, 즉 하나를 초과하는 한지 번역어를 갖는 스트링/단어를 해결하기 위해 프로세스(500)에 의해 이용되는 구문 분석 방법이다. 데이타 구조(300,700,800)는 제 3,7,8 도에 제각기 기술되어 있다. 프로세스(400,500,600)는 제 4,5,6 도에 제각기 기술되어 있다.
전형적으로, 사용자는 키보드(1030)를 이용하여 적절한 다이어크리틱(이하를 참조)에 의해 핀인 텍스트 입력을 시스템(1000)에 입력한다. 데이타 구조(300) 및 프로세스(400)를 이용하여, 시스템(1000)은 그래픽 인터페이스(1020)의 분할 스크린의 제 1 섹션(1021) 상에 핀인 문자(1022)(로마 문자, 다이어크리틱, 구두점 등)를 디스플레이한다. 프로세스(500 및 600)를 이용하여, 시스템(1000)은 핀인 입력을 분석하고, 핀인을 한지로 변환하며, 그래픽 인터페이스(1020)의 제 2 섹션(1024) 상에 한지 문자(1025)를 디스플레이한다. 프로세스(500 및 600) 및 부가적인 언어 번역 장치(1034)를 이용하여, 시스템(1000)은 다이어크리틱에 의해 코딩되거나 또는 표시된 입력 핀인을 영어 등의 다른 언어로 변환할 수 있다.
시스템(1000)은 키보드(1030) 외에 텍스트가 입력될 수 있도록 하는 다른 요소를 또한 포함할 수 있다. 예를 들면, 스트링은 네트워크(1090)를 통해 전송될 수 있다. 다른 입력은 오디오 텍스트 입력을 위한 요소(1033)를 포함한다. 이들 성분은 적절한 드라이버를 구비하여 시스템(1000)에 접속할 수 있다. 이하 전체적으로 참조 자료로 인용되는 1995 년 3 월 15 일에 출원된 첸 등에 의한 STATISTICAL ACOUSTIC PROCESSING METHOD AND APPARATUS FOR SPEECH RECOGNITION USING A TONED PHONEME SYSTEM이란 명칭의 미국 특허 제 08/404,786 호를 참조하라. 적절한 다이어크리틱에 의해 코딩되거나 또는 표시된 핀인의 스트링은 디스켓 등의 자기 매체(1032)를 포함하는 다른 잘 알려진 방법을 이용하여 시스템(1000)으로 또한 입력될 수 있다.
텍스트를 입력하는 경우, 중국어의 음성 표시에서 강조된 음절(및 일부 실시예에서 강조되지 않은 음절) 및 음절 값을 구분하는 데 다이어크리틱이 사용된다. (프로세스(400)를 참조하라.) 다이어크리틱은 음절 성조를 나타내는 심볼이다. 본 발명에서, 성조를 갖는 단어의 음절은 음절이 성조를 가짐을 표시하는 다이어크리틱에 의해 주석이 붙여지게 된다. 또한, 다이어크리틱은 성조의 유형을 표시한다. 북경 관어(Mandarin)(중국 표준어)에는 네 가지 성조 유형이 있다. 이들은 상평성(high), 상성(rising), 하평성(low), 거성(falling)이다. 일부 언어학자들은 '성조 없음, 또는 무성조(untone or no tone)'으로 불리우는 제 5 성조(다이어크리틱)를 포함시킨다.
텍스트(400)를 시스템(1000)으로 입력하는 동안, 성조 다이어크리틱이 강조된 음절 상에 부가된다. 이 코딩 또는 구분에 의해, 개념어 및 기능어 간의 차, 불변화사, 접사가 텍스트(500,600)의 다른 프로세스에서 더 명확해진다. (액센트된 음절을 갖는 단어는 개념어, 기능어, 불변화사이며 접사는 모두 800으로 리스트된다.)
대체 실시예에서, '무성조' 다이어크리틱이 (기능어, 불변화사, 접사를 포함하는) 각각 액센트되지 않은(성조가 없는) 중국어 음절 뒤에 부가된다. 본 실시예는 '혼합 언어/텍스트'가 입력되는 경우에, 즉, 영어 또는 다른 비중국어 텍스트가 중국어 텍스트 입력에 포함되는 경우에 유용하다. 비중국어 텍스트는 다이어크리틱에 의해 코딩되지 않고(표시되지 않고), (무성조 다이어크리틱을 포함하는 다이어크리틱에 의해 표시된) 중국어 단어/음절은 표시되지 않은 비중국어 텍스트와 구별된다. 비중국어 텍스트는 특별한 디리미터에 의해, 예를 들면, 단어 간의 스페이스에 의해 또한 구분된다.
다른 언어 처리, 즉, 번역, 분석, 및/또는 프린팅동안, 음절 스트링에서 액센트된 음절을 구분하고 각 강조된 음절의 성조 유형을 표시하는 다이어크리틱이 본 발명에 의해 사용되어 중국어의 음성 표시(핀인)를 단어 및 문장으로 파싱(parse)한다. (프로세스(500 및 600)를 참조하라.) 기능어, 불변화사, 및/또는 접사가 존재하는 지점에서 중국어 문장의 음성 표시를 분할함으로써 음성 표시를 파싱하는 규칙이 적용된다. 시스템(1000)은 이것을 효율적으로 행하는데, 그 이유는 각 중국어 방언에서 알려지고 식별된 기능어는 비교적 작은 수, 즉, 100개 이하이기 때문이다. 따라서, 모든 유용한 기능어 및 불변화사/접사(800)를 저장하는 데에는 비교적 적은 양의 컴퓨터 메모리가 필요하다.
시스템(1000)은 단어 의미 및 문장 구조를 정확히 판단한다. (프로세스(500 및 600)를 참조하라.) 먼저 유일하고 명확한 번역어를 갖는 기능어(및 불변화사/접사)가 의미, 사용, 성조의 관점에서 번역된다. 기능어(및 불변화사/접사)는 또한 문장 구조를 정의하는 데 사용된다. 기능어(및 불변화사/접사) 및 정의된 문장 구조의 번역을 사용하여, 문장에서 다른 (개념적) 단어의 의미가 결정될 수 있다.
또한, 본 발명의 목적을 위해 기능어, 불변화사, 접사가 같은 방식으로 이용되고 다루어진다. 이는 중국어의 표기 시 명확한 단어 경계가 없기 때문에 어떤 구별도 이루어지지 않는 경우가 자주 있기 때문이다. 기능어, 불변화사, 접사도 또한 유사한 성조 구조를 가지고 있다. 기능어, 불변화사, 접사의 바람직한 리스트는 시스템 메모리(1100,1200)에 저장되며 이하 도 8에 제공되어 있다.
본 발명의 신규한 특성 중 하나는 핀인 중국어 입력을 위해 및/또는 혼합 텍스트 처리(비중국어 언어, 예를 들면, 영어를 포함하는 핀인 중국어)을 위해 특별히 설계된 새로운 키보드이다. 이 키보드는 다이어크리틱을 갖는 핀인 음절을 입력하는 방법을 제공한다. 도 2a-2d는 키보드(1030)의 바람직한 대체 실시예의 일 예이다. 이들 키보드(1030)에 의해 핀인이 시스템(1000)에 용이하고 신속하게 입력된다. 표준 미국 영어 키보드는 핀인 입력에 편리하지 않으며 성조/다이어크리틱의 입력 기능을 제공하지 않는다.
도 2a는 미국 영어 키보드의 신규한 변형인 신규한 키보드(1030,2000)의 도면이다. 본 발명의 특정한 바람직한 실시예에서, 키의 몇 가지가 성조(다이어크리틱) 키(1050)로서 이용되는 반면, 다른 키(1040)는 핀인 및 다른 언어(영어) 문자의 입력을 위해 종래의 방식대로 음절 키(1040)로서 이용된다. 한 바람직한 실시예에서는, 잘 사용되지 않는 구두점 키의 일부가 성조 키(1050)로서 할당된다. 반드시 그러해야 하는 것은 아니지만 한 예로서, '[,(' 키는 상평성(다이어크리틱) 키(2040)로서 할당되고,'],)'키는 상성 (다이어크리틱) 키(2050)로서 할당된다. '\, |' 키는 하평성(다이어크리틱) 키(2060)로서 할당되고, ' ' ,' ' 키는 거성(다이어크리틱) 키(2070)로서 할당된다. 순수한 핀인 텍스트의 처리를 위해, 이들 네 다이어크리틱 키(2040-2070)가 적절한데, 그 이유는 무성조 핀인 음절 및 기능어(및 불변화사 접사)가 다이어크리틱 없이 코딩되거나 또는 표시될 수 있기 때문이다. 그러나, 비중국어(영어) 텍스트(및 다른 바람직한 실시예)와 조합하여 핀인 텍스트를 처리하는 데 이용되는 실시예에서, 다른 다이어크리틱 키인 무성조(다이어크리틱) 키(2010)가 부가된다. 예를 들면, 'alt 키'(2010) 중 하나가 이 기능을 위해 사용될 수 있다. 혼합 텍스트(중국어 및 비중국어)를 처리함에 있어서 무성조 키가 자주 사용되므로, 제 2 무성조 키(2020)가 표준 영어 키보드 상의 제 2 'alt 키' 위치에 부가되어 부가적인 키 액세스를 제공할 수 있다. 본 실시예에서, 'alt 키'는 두 개의 'control 키'(2030) 중 하나에 재할당될 수 있다. 영어 키보드는 키의 동등한 대체 할당을 포함하도록 용이하게 변형되어 다이어크리틱 입력(1050)을 제공할 수 있다.
도 2b는 핀인 텍스트 처리에 있어서, 다이어크리틱의 입력을 위한 다이어크리틱 키(1060B)를 갖는 변형된 영어 키보드(1030)의 바람직한 대체 실시예(2100)이다. 본 실시예(2100)에서, 다이어크리틱 키(1060)는 표준 '화살표 키' 위의 영어 키보드(1030)에 부가된다. 부가될 수 있는 다이어크리틱 키는 또한 상평성(다이어크리틱) 키(2120), 상성(다이어크리틱) 키(2130), 하평성(다이어크리틱) 키(2140), 거성(다이어크리틱) 키(2150)를 포함한다. 선택 사양적인 무성조 (다이어크리틱) 키(2110)가 혼합 텍스트 (또는 다른) 처리를 위해 부가될 수 있다.
도 2c는 키보드(1030)의 다른 바람직한 대체 실시예(2200)의 도면이다. 본 실시예(2200)는 미국 영어 키보드 레이아웃(1040)의 모든 키(또는 하나 또는 둘을 제외하고 모든 키)가 본래대로 유지되도록 하는 분할 스페이스 바(2270)를 갖는다. 한 바람직한 실시예에서, 스페이스 바(2270)는 네 섹션(2230,2240,2250,2260)으로 분할된다. 스페이스 바의 가장 좌측 섹션(2230)은 '상성' 성조(다이어크리틱)(2230)에 할당된다. 바로 다음의 큰 섹션(2260)은 스페이스 바(2260)로서 이용된다. 우측면상의 두 개의 작은 섹션(2240,2250)은 제각기 '거성'(2250) 및 '하평성'(2240) 성조(다이어크리틱)로 할당된다. 상평성(다이어크리틱)(2220)은 'alt 키' 중 하나로 할당된다.
이러한 배치는 인체 공학에 기반한다. 엄지손가락은 피아노를 연주하는 데는 중요한 손가락이나, 타이핑을 하는 데는 그다지 많이 사용되지 않는다. 중국어 키보드의 이러한 설계는 성조 입력시 보다 더 효율적으로 엄지손가락을 이용할 것이다. 새로운 스페이스 바(2260)는 키보드의 중앙, 즉, 'F' 및 'J' 키 사이에 위치된다. 이 스페이스 바를 편안히 누르는 데 두 개의 엄지손가락을 사용할 수 있다. 따라서, 스페이스 바의 크기 감소는 혼합 텍스트 처리에서 영어 타이핑에 영향을 주지 않을 것이다. 손바닥을 향해 엄지손가락을 구부림으로써, 네 개의 성조 키(2220,2230,2240,2250)는 용이하게 액세스될 수 있다.
순수한 핀인 입력에 대해, 무성조 키(2210)는 필요치 않다. 본 실시예에서, '스페이스 바' 키(2260)는 순수 핀인 입력에 대해 '무성조' 키로서 기능한다. 도 2c 도에서, 거성(2250) 및 하평성(2240)의 위치는 그들의 일반적 순서(제 3 및 제 4 성조)로부터 전환되는데 그 이유는 거성은 하평성보다 보통 두 배 이상 자주 사용되기 때문이다. 이 '전환(reversing)'에 의해 피로가 감소되고 효율이 향상된다.
혼합 텍스트 처리(비중국어를 포함한 중국어) 및 순수한 중국어 텍스트 처리의 일부 바람직한 실시예에 대해, 무성조 키(2210)가 부가된다. 본 바람직한 실시예에서, 무성조 키(다이어크리틱)(2210)는 다른 'alt 키'에 할당된다. 제어 키(2280) 중 하나는 'alt 키'으로서 재할당된다.
도 2d는 키보드(1030)의 다른 바람직한 실시예(2300)를 도시하고 있다. 본 실시예는 키보드(2200)에 위치된 상성(2330), 거성(2350), 하평성(2340) (다이어크리틱)을 갖는 분할 스페이스 바(2370)를 사용한다. 그러나, 이 키보드(2300)에서, 스페이스 바(2370)의 중앙의 가장 큰 부분(2310)은 무성조(다이어크리틱)(2310)로 할당된다. 스페이스 기능(2360)은 'alt 키'중의 한 위치에 할당된다. 이것은 키보드(2300)가 혼합 텍스트를 입력하는 데 사용되는 경우에 특히 유용하다. 다른 'alt 키'는 상평성(다이어크리틱)(2320)에 할당된다. 또한 'control 키'의 하나는 'alt 키'(2320)로서 재할당된다. 본 실시예는 엄지손가락이 액세스하기에 매우 편리한 위치에 무성조 키(2310)를 위치시킨다. 이것은 시스템(1000)이 혼합 텍스트를 처리하는 경우에 유용한데 그 이유는 무성조 키(2310)가 자주 사용되기 때문이다.
키보드(2300)는 키들 위에 부가적인 부호를 부가함으로써 확장될 수 있다. 예를 들면, 중국어에서, 좌측 인용 부호(quotation mark)(2338) 및 우측 인용 부호(2339)는 상이하며 각각 키가 주어진다. 좌측(2341) 및 우측(2342) 표제 부호(title mark)는 불릿(2344), 어포스트로피(2345), 십진 소수점(2337)과 함께 합쳐진다. 이들 부호는 혼합 텍스트를 입력하는 경우에 또한 사용된다. 중국어에서 디리미터로서 이용되는 위상 부호(2336)에 키 위치가 또한 제공된다.
키 할당 및 재할당은 잘 알려진 방법을 이용하여 수행된다. 예를 들면, 키보드(1030)의 프로파일은 키의 기능을 정의하는 시스템(1000)의 메모리(1100,1200)내의 화일(1070)이다. RS/6000에서, 이것은 '키보드 번역 표(keyboard translate table)'(1070)로 불리운다. 이 표(1070)는 전형적으로 ASCII 코드로 문자, 또는 제어를 키보드(1030) 상의 각 키에 할당한다. 이 표(1070)에서 할당된 키 코드를 변화시킴으로써, 키보드(1030) 상에서 키들의 기능이 변화한다.
사용자는 키보드(1030)를 사용함으로써 핀인 또는 혼합 텍스트를 시스템에 입력한다. 사용자가 중국어(핀인) 음절을 입력한 후, 사용자는 음절에 연관된 적절한 다이어크리틱을 입력한다. 순수한 핀인이 입력되는 경우, 강조되지 않은 음절(및 기능어)에 대해 어떤 다이어크리틱(또는 이와 달리 스페이스)도 입력되지 않는다. 혼합 텍스트가 입력되는 경우(또는 핀인을 입력하는 데 사용된 바람직한 대체 실시예에서), 사용자는 각 액센트되지 않은 음절(및 기능 원드) 다음의 무성조 다이어크리틱을 입력한다. 비중국어 단어 다음에 스페이스(또는 이와 동등한 단어 경계 디리미터)가 입력된다. 일반적으로 채택되는 단어 경계로서 핀인(중국어) 단어를 구분하는 스페이스는 시스템(1000)의 정확도를 향상시킨다. 그러나, 본 발명의 실시에 있어 중국어 단어를 구분하는 것이 필수적이지는 않다. 프로세스(400)를 참조하라.
핀인(혼합 텍스트) 입력은 시스템(1000) 메모리(1100,1200)에 저장된다. 바람직한 실시예에서, 입력은 ASCII 포맷으로 디코딩된다. 영어 문자를 위한 코드 및/또는 GB2312-80 한지를 위한 코드를 갖는 표준 ASCII 코드 표는 다이어크리틱을 포함하도록 변형된다. 바람직한 실시예에서, 상평성, 상성, 하평성, 거성 다이어크리틱은 각각 보통으로 액센트된 모음의 높고 낮은 경우에 대해 코딩되어 적절한 다이어크리틱이 디스플레이된/프린트된 핀인 음절에서 모음에 대해 디스플레이/프린트될 수 있도록 한다.
도 3은 핀인 또는 혼합 입력을 위한 ASCII 코딩에 대한 데이타 구조(300)의 한 바람직한 실시예이다. 메모리(300)의 블럭은 256개의 메모리 위치를 갖는다. 이들 위치는 0으로부터 255까지 넘버링된다. 이 번호는 또한 위치/ASCII 코드의 각각에 할당되는 ASCII 코드이다.
ASCII코드는 하위 7비트 섹션(위치 0-127를 나타냄) 및 상위 7비트 섹션(128-255를 나타냄)인 단일 바이트의 정보로 이루어진다. 단일 문자, 구두점, 제어 기능은 메모리 위치에 할당된다. 예를 들면, 로마자 대문자 'B'는 위치(66)에 할당되고, 'escape' 기능은 위치(27)에 할당되며, '!'는 위치(33)에 할당된다.
로마 문자, 구두점, 숫자의 코딩이 잘 정의되어 있다 하더라도, ASCII 코드에서 복수의 선택 사양적 공간이 있다. 개개의 국가들은 이들 선택 사양적 공간에 특수 심볼을 할당할 수 있다.
다이어크리틱의 각각은 성조 코드 또는 부호로 표시된다. 바람직한 실시예에서, 다섯 개(또는 네 개) 성조 코드(부호)의 각각은 모든 ASCII 코드 데이타 구조(300)의 하반부의 숫자(ASCII 코드)를 갖는 메모리 위치에 할당된다. 이들 메모리 위치는 통신을 위해 사용된다. 따라서, 0으로부터 127 사이의 숫자를 다이어크리틱 ASCII 코드에 할당함으로써, 성조 코드는 네트워크(1090)를 통해 통신될 수 있다. 도 3에 도시된 이러한 비제한적인 일 예에서, 무성조(301), 상평성(302), 상성(303), 하평성(304), 거성(305)의 성조 코드(부호)는 제각기 2,3,4,5,6의 ASCII 코드를 갖는 위치에 할당된다. 이들은 미국 ASCII 코딩에서 포커 위치(locations of Pokers)이다.
이러한 본 발명의 바람직한 실시예에서, 모음이 가질 수 있는 각 다이어크리틱(상평성, 상성, 하평성, 거성)에 대해 각 모음(높고 낮은 두 경우 모두)에 위치 및 ASCII 코드가 또한 할당된다. 무성조의 경우에는 ASCII 코드의 하위 7비트 섹션에 위치한 영어 모음을 사용할 수 있다. 또한, 다이어크리틱을 갖는 대문자 'I' 및 대문자 'U'가 생략되는데 그 이유는 이들 모음들로 시작되는 음성 음절이 없기 때문이다. 따라서 ASCII 코드가 할당되는 다이어크리틱을 갖는 32개의 모음 지정이 존재한다. 다이어크리틱을 갖는 이들 모음은 데이타 구조(300)의 상반부, 즉, 숫자 128-255에 ASCII 코드(128-129)가 할당된다.
다이어크리틱을 갖는 모음에 유일한 ASCII 코드를 제공하는 것은 그래픽 인터페이스(1020) 상에 핀인 음절을 디스플레이하고 핀인 음절을 프린트하는 경우에 유용하다. 시스템(1000)은 다음의 다이어크리틱(301-303)으로 입력된 핀인 음절을 사용하여 음절의 모음 위에 다이어크리틱을 갖는 정확히 철자된 음절을 적절히 디스플레이/프린트한다. 따라서, 데이타 구조(300) 위치(128-129)에서 다이어크리틱에 의해 할당된 모음을 사용함으로써, 시스템(1000)은 모음 위에 다이어크리틱을 갖는 종래의 방식으로 핀인 음절을 프린트/디스플레이할 수 있다. 예를 들면, 키 입력 Pin'로 입력된 핀인 음절은 Pi'n으로서 디스플레이/프린트될 것이다.
ASCII 코드 128 내지 159를 갖는 데이타 구조(300)의 상반부에서 다이어크리틱을 갖는 모음을 배치하는 이러한 장점은, GB 코드가 단지 160으로부터 255 까지의 ASCII 코드 데이타 구조(300)의 상반부만을 사용한다는 점이다. 따라서, 다이어크리틱을 갖는 핀인 모음은 GB 코드(및 ASCII 코드의 하위 7비트)와 함께 저장되고 전송될 수 있다.
도 4는 컴퓨터 메모리(1100,1200) 또는 디스플레이(1020)와 같은 본래의 매체에 핀인 음절을 입력하는 신규한 프로세스(400)를 도시하고 있다. 바람직한 실시예에서, 프로세스(400)는 키 입력(또는 다른 방법)에 의해 시스템(1000)에 입력된 음절을 체크하는 데 사용되는 철자 검색기 및 자동 에러 검출 및 정정 프로세스를 제공한다. 프로세스(400)는 중국어 및 비중국어(예를 들면, 영어) 텍스트의 혼합이 최소의 노력으로 입력되고, 다루어지며, 저장될 수 있도록 한다. 입력 유닛은 시스템(1000)에 의해 실행되는 입력 프로세스(400)이다.
단계(401)에서, 사용자는 키보드(1030)를 통한 키 입력에 의해 음절(여기서는 중국어 또는 비중국어)을 입력한다. 음절이 중국어인 경우, 음절 다음에 음절의 성조를 나타내는 다이어크리틱이 입력된다. (여기서는 무성조 다이어크리틱이 텍스트 입력에 사용된다.) 영어와 같은 비중국어 단어 다음에는 다이어크리틱도 입력되지 않는다. 또한 비중국어 단어가 식별될 수 있는데(단계 402) 그 이유는 이들이 스페이스와 같은 특별한 디리미터에 의해 구분되기 때문이다.
순수한 중국어 텍스트의 경우, 일부 실시예에서 기능어의 무성조 음절 다음에 다이어크리틱을 입력하는 것이 필수적이지는 않다. 순수한 중국어 텍스트 입력에서는 요구되지 않지만, 단어 분리에 대해 잘 정립된 규약이 알려진 중국어 단어 사이에는 단어 경계를 위해 디리미터를 입력함으로써 시스템(1000)의 정확도를 향상시킬 수 있다. 이것은 단어 경계에 스페이스 또는 다른 코드(예를 들면, 이중 다이어크리틱,'esc')와 같은 디리미터를 입력함으로써 행해질 수 있다. 이 경우, 잘 정립된 단어 분리를 갖는 중국어 단어의 리스트는 단계(403)에서 참조되어 이들을 중국어 음절/단어와 구별할 수 있다.
음절(또는 비중국어 단어)의 끝에 도달하는 경우, 시스템(1000)은 다이어크리틱, 에를 들면, 눌러진 성조 키(1000)(또는 스페이스)를 판독한다. 순수한 중국어 텍스트가 처리되는 일부 대체 실시예에서, 무성조 다이어크리틱이 제거될 수 있다. 이러한 경우, 몇 개의 무성조(및 비부호) 음절이 서로간에 부가될 수 있다. 이들 음절(404)을 파싱하기 위해, 스트링은 음절(700) 사전과 비교된다. 사전(700)에서 가징 긴 음절이 입력된 스트링 텍스트와 먼저 비교된다. 입력된 스트링의 부분이 가장 긴 스트링과 일치하는 경우, 그 일치된 스트링이 음절 입력으로서 사용되고 입력된 스트링으로부터 제거된다. 이 프로세스는 입력된 스트링의 나머지에 대해 반복된다. 음절 사전(700)에서 가장 긴 스트링과 일치하지 않는 경우, 음절 사전(700)에서 다음으로 긴 스트링이 비교된다. 이 프로세스는 입력된 스트링의 모든 음절이 일치할 때까지 반복된다. 이 프로세스는 소위 '최장 스트링 매칭(longest string match)' 알고리즘으로서, 이것의 일 예는 잘 알려져 있다. 이하 전체적으로 참조 자료로 인용되는 제트. 우(Z. Wu) 및 지. 쳉(G. Tseng)에 의한 'Chinese text segmentation for next retrieval: achievements and problem', Journal of the American Society for Information Science, Vol. 44, No. 9, October, 1993, pages 532-542를 참조하라.
순수 중국어 텍스트를 입력하는 일부 바람직한 실시예 및 혼합 텍스트 처리에서, 무성조 키가 중국어에서 액센트되지 않은 음절을 표시하는 데 사용된다. 이들 실시예에서, 모든 중국어 음절은 다이어크리틱에 의해 코딩되고(표시되고) 명확히 구분된다. 따라서, 중국어 음절 경계가 명확히 표시된다. 이러한 실시예에서는 중국어 음절 약어를 사용할 수도 있게 되는데, 그 이유는 약어가 또한 명확히 구분되고 음절 리스트(700)에 부가됨으로써 유일하게 식별되기 때문이다. 음절 약어를 사용함으로써, 음성 중국어 텍스트를 입력하는 데 필요한 키 입력의 수가 크게 감소된다.
혼합 텍스트 처리에 사용된 단계(402)에서, 시스템(1000)은 음절이 중국어 음절인지 아닌지의 여부를 판정한다. 음절 다음에 (무성조 다이어크리틱을 포함하는) 다이어크리틱이 존재하는 경우, 음절은 중국어이다(404). 다이어크리틱이 없는 경우, 음절(단어)은 비중국어, 예를 들면, 영어이다(403). 비중국어 단어가 자신들의 디리미터에 의해 또한 식별될 수 있다(403). 비중국어 단어는 이들 언어들을 처리하는 알려진 시스템에 의해 또한 처리될 수 있는데, 예를 들면, 철자가 체크될 수 있다.
성조 키(네 개의 성조 키 중 하나 또는 '무성조' 키)가 눌러진 후, 컴퓨터는 선행하는 문자가 핀인 음절을 나타낸다는 것을 인식하고(404), 음절의 철자가 체크되며(405), 약어 또는 교체 철자로서 체크되거나(407), 에러가 체크된다(408). 이들 단계들(405,407,408)은 도 7에 도시된 중국어 음절 리스트 데이타 구조를 사용한다.
도 7에서의 중국어 음절 리스트(700)는 북경 관어를 위해 사용된 한 바람직한 음절 리스트이다. 북경 관어에는 (상이한 성조를 포함하여) 모두 1300개 이상의 음절이 존재하므로, 2 바이트 코드 공간(65536 공간)의 작은 부분으로 이들 음절을 코딩하는 것이 편리하다. 음절의 각각에는 유일한 2 바이트 코드 또는 '단형 정수(short integer)'가 할당된다. 특히, 각 음절을 나타내는 ASCII 코드 스트링에는 중국어 음절 리스트(700)에서 2 바이트 코드가 할당된다. 예를 들면, 북경 관어 핀인 음절 Pi'n 에는 2 바이트 코드'814'가 할당된다. 각 음절은 표준 철자 형태에 대응하고, 적절한 모음상부에 성조 다이어크리틱을 포함한다. 리스트(700)에 약어를 부가하기 위해, 약어에는 생략되는 음절과 같은 2 바이트 코드가 할당된다. 예를 들면, 약어 'd'는 'de'를 나타내는 음절 리스트(700) 상의 코드(212)에 'd'가 생략하는 음절이 할당될 수 있다. 음절 리스트(700)는 비교적 작은 양의 메모리(1100,1200) 스페이스를 취한다.
중국어 음절(404)을 만나면, 시스템(1000)은 중국어 음절 리스트(700)를 탐색하여 일치어를 갖는다. 일치어가 발견되는 경우, 음절(404)은 표준 철자(405), 즉, 중국어 음절 리스트(700) 상에서의 철자로서 입력되고, 입력된 키 입력 스트링은 중국어 음절 리스트(700) 상의 일치된 단어의 2 음절 코드로 교체된다. 예를 들면, 중국어 음절 Pi'n이 입력되는 경우, 시스템(1000)은 키 입력을 ASCII 코드 스트링(80,105,110,6)으로 나타낸다. 도 3 을 참조하라. 일치어(404)를 위해 중국어 음절 리스트(700)를 체크하는 경우, 시스템은 이 스트링이 2 바이트 코드 814에 의해 표시되는 Pi'n에 대응함을 발견한다. 도 7 을 참조하라. 따라서 2 바이트 코드 814는 메모리 내의 이 음절에 대해 ASCII 코드 스트링을 교체한다. 따라서, 표준 철자가 검출되는 경우(405), 단계(412)에서 전체 음절은 1300개의 중국어 음절(2 바이트 코드에 의한) 중 하나로서 메모리(1010/1020)에 저장되고 모니터 상에 디스플레이되며(411), 성조 다이어크리틱은 모음 위에 정확히 디스플레이된다. 이 핀인 디스플레이(411)는 핀인을 디스플레이하는 그래픽 인터페이스(1020)의 영역(1021)에 도시되어 있다.
이러한 방식으로, 사용자가 중국어 음절을 위해 약어 또는 속기 철자(shorthand spelling)를 입력하는 경우, 속기 철자를 나타내는 ASCII 코드가 중국어 음절 리스트(700)내의 엔트리와 비교된다(406). 일치하는 경우, 속기 철자(생략된) 음절은 속기 철자의 입력된 ASCII 코드를 적절하고 생략되지 않은 핀인 음절에 대응하는 2 바이트 코드로 교체함으로써 적절하고 생략되지 않은 핀인 음절 형태로 변환된다(407). 또한, 약어는 생략되는 전체 음절을 프린트할 코드를 갖는 중국어 음절 리스트(700)에 부가된다.
중국어 음절의 일부 실시예의 약어 또는 속기 철자를 예시한다. 예를 들면, 'zi','si','ci','ji','qi', 'xi'은 혼동을 주지 않고 'z', 'c', 's'. 'j', 'q', 'x'으로서 표기될 수 있다. 마찬가지로, 'yi','wu','yu'는 혼동을 주지 않고 'i', 'u', 'v'으로서 표기될 수 있다. 'sheng'에 대한 'shg', 'xing'에 대한 'xg', 'qiang'에 대한 'qag', 'jiao'에 대한 'jo' 둥의 다른 속기는 명확히 인식될 수 있다.
음절 분리 부호를 갖는 음절에서, 'Xi'an'에서와 같은 음절 분리 부호가 디스플레이 동안 나타날 수 있지만, 타이핑시에 완전히 방지될 수 있다. 본 시스템(1000) 및 프로세스(400)를 이용하여, 속기 타이핑의 상기한 일 예는 매우 편리하므로 어떤 학습도 요구되지 않는다. 약간의 학습에 의해서도 속기 음절의 수가 증가될 수 있다(중국어 음절 리스트(700)에 부가될 수 있다.)
틀린 철자가 검출되는 경우(408), 즉, 표(700)에서 일치하지 않는 경우, 가장 가능성이 높은 음절이 디스플레이된다(409). 이것은 중국어 음절 리스트(700)로부터 선택된 가능한 선택 메뉴, 즉, 최상의 일치어(1023)를 제공함으로써 행해진다. 사용자는 선택 장치, 예를 들면, 마우스(1034) 또는 키를 사용함으로써 메뉴로부터 적절한 음절을 선택한다(409). 이전과 같이, 컴퓨터는 이러한 선택된 음절을 2 바이트 값으로서 코딩하고, 이것을 메모리(412)에 저장한다.
디리미터, 예를 들면, 스페이스 바, 캐리지 리턴, 또는 구두점 키와 만나지 않는 경우(413), 프로세스(400)는 다음 음절을 위해 단계(415)를 반복한다. 디리미터와 만나는 경우 전체 스트링은 단어 스트링으로서 저장된다(414). 모니터 상에서, 이 단어 스트링의 정확한 핀인 철자가 그래픽 인터페이스(1020)의 핀인 부분(1021)에 디스플레이된다. 디리미터들 사이의 단어 스트링(414)은 디리미터가 (일반적으로 채택되는 규약에 따라) 입력되는 경우 단일 단어로서 다루어지고 단어는 디리미터에 의해 코딩되고 표시된 유일한 단어 경계를 갖는 것에 주의해야 한다. 그러나, 단어 스트링(414)은 디리미터가 요소 단어 경계의 각각에 위치되지 않는 경우, 예를 들면, 요소 단어를 구분할 일반적으로 채택된 단어 경계가 없는 경우, 둘 이상의 단어(요소) 및/또는 접사를 포함할 수 있다.
단계(414)에서, 코딩된 핀인 형태의 텍스트는 표(700)의 2 바이트 코드를 요구된 음절의 적절한 모음 위에 성조 심볼을 갖는 로마 문자의 스트링으로 변환시키는 특수 판독 전용 메모리(1081)인 ROM 을 갖는 프린터(1080)를 이용하여 핀인 음절로서 프린트될 수 있다. 텍스트는 외국인을 위한 구어체 중국어에 관한 모든 교과서에서와 같은 핀인 형태로서 연속적이고 판독 가능한 프린트 출력이 된다.
도 5 및 도 6은 시스템(100)에 입력되는 핀인 텍스트를 처리하는, 예를 들면 프로세스(400)에 의한 방법의 흐름도이다. 한 바람직한 실시예에서, 핀인 텍스트(1022)는 시스템의 키보드(1030) 상에서 키 입력에 의해 입력되고, 전술한 바와 같이 그래픽 인터페이스(1020)의 핀인 부분(1021) 상에 디스플레이된다. 동시에, 상기 단계(414)에서 저장된 단어 형태의 핀인 입력은 프로세스(500)에 의해 한지 형태로 변환되고 그래픽 인터페이스(1020)의 한지 부분(1024)에 디스플레이된다(1025). 따라서, 키보드(1030)를 통해 핀인 텍스트 및 다이어크리틱을 입력하는 사용자는 그래픽 인터페이스(1020)의 핀인 부분(1021) 상의 (프로세스(400)에 의해 적절한 모음 위에 배치된 다이어크리틱을 갖는) 핀인 텍스트(1022) 및 프로세스(500)에 의해 그래픽 인터페이스의 한지 부분(1024) 상에 디스플레이된 입력된 핀인의 정확한 한지 번역어(1025)를 보게 된다. 대체 실시예에서, 다이어크리틱을 갖는 핀인 텍스트는 키보드(1030) 외의 수단, 예를 들면 네트워크(1090), 음성 시스템(1033)을 통하거나 디스켓과 같은 자기 매체(1032)에 의해 시스템(1000)으로 입력될 수 있다.
프로세스(500)는 핀인 입력을 한지로 번역한다. 시스템(1000)은 핀인 및 한지를 다른 방식으로 처리할 수 있다. 예를 들면, 핀인(1022) 텍스트 및/또는 한지 텍스트(1025)는 프린트될 수 있다. 이와 달리, 핀인(1022) 및/또는 한지(1025) 텍스트가 알려진 언어 번역기(1034)에 입력될 수도 있고, 영어와 같은 다른 언어로 번역될 수도 있다.
프로세스(500 및 600)는 강조된 음절 상의 단어 경계 및 다이어크리틱 코딩(부호)를 적절히 이용한다. 두 프로세스는 핀인 표기 이론 및 습관의 각종 다양한 형태를 처리하고. 높은 변환 정확도를 얻는다. 예를 들면, 중국어 단어가 잘 설정된 경계에서 구분되는 경우, 단어 입력(단계 501)은 유일한 단어로서 인식될 것이다(511). 단어가 다른 '단어'로부터 구분되지 않고/않거나 구분될 수 없는 경우, 시스템(1000) 상에서 실행되는 프로세스(500)인 형태소 단위는 단어 스트링을 형태적으로 분석하고/하거나 분해한다. 따라서 본 발명은 단어 스트링에서 요소 '단어'를 결정할 수 있다. 이것은 어휘집(950) 및 전술한 '최장 스트링 비교' 알고리즘을 이용하여 행해진다.
본 발명은 다음의 규약, 즉 1. 단어의 일부로서 포함된 접사, 또는 2. 단어로부터 분리된 불변화사로서의 접사에 의해 핀인을 한지로 정확히 처리할 수 있다. 한 바람직한 실시예에서, 접사(불변화사)의 두 번째 유형은 기능어로서 다루어진다. 규약 1에 대해, 프로세스(500)는 형태 분석을 수행하는데, 즉, 인식되지 않은 단어(규약 1)에 포함된 접사가 제거되고 나머지 단어 스트링(어근)은 접사없이도 분석된다. 나중 처리에서 제거된 접사는 기능어로서 다루어진다.
프로세스(500)는 형태학을 이용하여 단어 스트링 입력을 처리한다. 형태학은 언어에서 단어 형식을 연구하는 것이다. 여기서 단어의 형식은 특히 접사 및 접사에 의해 단어의 의미가 어떻게 영향을 받는가 하는 것을 포함한다. 영어, 독어, 스페인어, 핀란드어, 헝가리어와 같은 대개의 유럽 언어의 철자법에서, 단어 의미는 접사가 사용되는 방식에 따라 변한다. 예를 들면, 영어 표현 'Calvin and Dorothy's Department Store'에서, ' 's '는 'Calvin and Dorothy'에 속하나, 'Dorothy'다음에만 부가된다.
먼저 프로세스(500)는 예를 들면, 단계(414)로부터 입력된 단어 또는 단어 스트링의 형태를 분석한다. 알고리즘은 입력된 단어(스트링)(501)를 알려진 어휘집(950)과 비교(510)함으로써 개시한다. 어휘집(950)은 자신들의 연관된 한지 번역어를 갖는 음성 중국어 및/또는 약어(핀인 및/또는 BPMF)의 표이다. 중국어 단어의 사전(950)이 또한 사용될 수 있다. 이러한 사전(950)은 잘 알려져 있다. 예를 들면, 1989 년 출판된 언어 출판사(lauguage publishing house) 'Yuwen Chubanshe'에 의한 'Hanyu Pinyin Cihui'를 참조하라. 이와 같은 사전은 다른 알려진 사전을 조합하고/하거나 다른 소스로부터 한지 번역어를 갖고 있는 중국어 단어를 부가함으로써 개선될 수 있다.
어휘집(510) 내에서 단어 입력(501)(단어 또는 단어 스트링)이 하나 이상의 단어와 일치하는 경우, 자신의 유상평성이 체크된다(511). 모호성이 존재하지 않은 경우, 즉, 어휘집(510)내에 단지 하나의 일치어가 있는 경우, 단어가 한지 형태로 변환되고 한지 부분(1024)에 디스플레이된다(550). 모호성이 존재하는 경우(즉, 단어 입력(501)의 음성에 대응하는 어휘집(510,950)내에서 하나를 초과하는 한지 형태가 존재하는 경우), 다른 고려를 위해 상이한 단어가 저장된다(540).
단어 입력(501)이 어휘집에 있지 않은 경우, 단어 입력(스트링) 상에서 형태 분석이 수행된다(501). 단어 입력의 일부는 기능 형태소, 또는 접사의 리스트와 비교된다(522). 접사의 바람직한 리스트(800)는 도 8에 제공되어 있다. 표준 접사가 발견되는 경우, 즉, 이것이 접사 리스트(800)에 있는 경우, 발견된 접사는 절단되고(524) 단어 입력의 나머지 부분(어근)은 사전(950)과 다시 비교된다. 어근의 어근이 어휘집에 있는 경우, 단계(511)가 적용된다. 어근이 어휘집(510)에 있지 않으나 어근(522)에 접사가 있는 더 남아 있는 경우, 어근에 남아있는 임의의 다른 표준 접사를 위해 단계(524)가 반복된다.
표준 접사가 인식되지 않는 경우(522), 즉, 단어 입력(501)내의 어떤 스트링도 접사 리스트(800)에 있지 않은 경우, 단어 스트링/어근이 분해된다(530). 한 바람직한 실시예에서, 어근은 어근을 어휘집(950)과 비교함으로써 전술한 '최장 비교 방법'을 이용하여 분해된다.
단어 스트링이 하나를 초과하는 요소로 구성되는 경우, 각 요소의 유상평성(531)이 탐색된다. 요소가 유일한 경우(531), 단어는 복합어로서 고려되고 대응하는 한지의 스트링이 디스플레이되며 기록된다(550). 단계(531)에서 단어가 모호한 경우, 예를 들면, 단어 입력(501)의 요소 중 하나 이상이 하나를 초과하는 한지 번역어를 갖고/갖거나 단어 스트링을 분해하는 데 하나를 초과하는 방법이 있는 경우, 다른 고려를 위한 이들 상이한 대안이 저장된다(540).
단계(540)에서, 전체 어구(또는 절, 또는 문장), 즉, 단어 스트링 입력(501)이 구두점, 캐리지 리턴과 같은 어구 디리미터, 또는 사용자에 의해 할당된 임의의 다른 어구 디리미터에 의해 구분되는 그 문자 스트링으로 결정된다. 전체 어구는 모호한 단어의 의미를 결정하기 위해 분석된다. 이하 도 6의 프로세스(600)를 참조하라. 단계(540)다음에, 한지 형태의 전체 문장(어구, 절)이 디스플레이된다(550). 단계(560)에서 그래픽 인터페이스(1024) 상에 디스플레이된 텍스트(560)에 임의의 에러가 있는 경우, 사용자는 어구, 문장 또는 절을 직접 정정한다(561).
이하 주어진 본 발명(프로세스 600)에 의해 사용된 구문 분석의 설명을 지원하기 위해, 음성(성조 및 액센트) 음향의 음성 특징, 기능어, 불변화사, 접사, 개념어의 발견에 관한 설명이 제공된다.
흔히 간과되는 구어체 중국어에는 중요한 음성 현상이 있다. 중국어에는, 세상의 모든 구어체 언어에서와 같이, 개개의 음절의 단순한 스트링에 의해 제공되는 정보 외에도 음성 음향에 의해 제공되는 다량의 정보가 있다. 중국어에서, 각 단어는 흔히 단어 의미를 이해하는 데 있어 중요한 단어에 대한 음성 음향을 야기하는 액센트 구조를 갖는다. 음절들이 단어를 형성하도록 그룹화되는 방법은 액센트 구조, 음성 음향, 단어의 이해에 영향을 줄 수 있다.
또한, 단어의 분리(음절 그룹화) 및 단어의 동등한 액센트 구조는 구어체 언어에 전달되는 정보의 일부이다. 중국어에 대해서는, 음성 음향의 일부인 성조도 역시 중요하다. 중국어에서, 음절의 성조는 단지 액센트된 음절에서만 두드러진다. 액센트가 없는 음절에 대해, 성조는 실질적으로 약화되거나 또는 완전히 사라진다.
중국어를 포함한 대부분의 언어에는, 기능어 및 개념어가 있음에 또한 주의해야 한다. 개념어는 한 언어의 모든 명사, 모든 동사, 모든 형용사, 대부분의 부사를 포함한다. 예를 들면, 'man, run, fast, quickly'는 개념어이다. 기능어는 관사, 전치사, 몇 개의 접속사를 포함한다. 예를 들면, 'a, the, to, from, but 등'은 기능어이다. 분리 불변화사로서 표시된 접사는 기능어의 특징을 갖는다.
중국어에서 기능어는 사전적인 의미를 표현하는 것외에 다른 단어의 문법 관계 및/또는 기능을 주로 표현하는 강조되지 않은 단어이다. 기능어는 전치사, 조동사, 접속사, 부사, 감탄사, 관사 및 특정의 대명사들을 포함한다. 중국어에서, 기능어(관사, 전치사, 후치사 등), 불변화사 형태의 접사, 다음절 단어의 임의의 접사는 항상 액세트되지 않는다. 기능어(및 불변화사 형태의 접사 그리고 다음절 단어의 접사)는 무성조 또는 실질적으로 약화된 성조를 갖는다.
개념어는 완전한 사전적인 의미를 갖는 단어이다. 중국어에서, 개념어는 모든 명사, 모든 동사, 모든 형용사, 대부분의 부사를 포함한다. 개념어는 기능어가 아닌 중국어에서의 모든 단어이다. 개념어의 액센트 구조는 방언에 따라 달라진다.
지금까지, 말을 듣는 인간이 언어의 단어를 이해하기 위해 개념어 및 기능어를 직관적으로 식별하는 방법은 알려져 있지 않다. 이것은 중국어에서 특히 그러하다. 중국어에서 기능어의 성조 및 접사는 매우 약하거나 또는 완전히 사라지며, 중국어에는 제한된 수의 알려지고 식별된 기능어가 존재하므로, 기능어는 구어체 중국어를 듣는 사람들이 말하여지고 있는 것을 이해할 수 있도록 직관적으로 사용된다.
중국어를 이해하는 데 있어 기능어, 개념어, 성조의 중요성을 더 강조하기 위해, 개념어의 액센트 구조 및 기능어(및 접사)의 사용이 분석된다.
상하이 방언은 개념어 및 기능어 사용의 액센트 구조의 가장 명확한 일 예를 나타낸다. 모든 개념어는 두드러진 성조를 갖는 액센트된 음절로 시작된다. 단어 내의 모든 다른 음절은 액센트를 전혀 가지지 않으므로, 첫 번째 음절에 이어지는 음절의 성조는 묵음(mute)이 된다. 예를 들면, 상하이에서, 명사 'wenti'(물음) 및 'dianhua'(전화)는 항상 첫 번째 음절에서 액센트된다.
상하이 방언에서 기능어는 액센트를 갖지 않는다. 기능어가 개념어를 뒤따르는 경우, 기능어는 때때로 불변화사 대신에 그 개념어의 접미사(즉, 접사)로서 해석될 수 있다. 그러나, 발견의 일부는 듣는 사람의 관점에서 보면, 이들 두 해석(불변화사로 되는 기능어 혹은 접미사로서)은 실질적으로 차이점을 갖지 않는다는 점이다.
북경어 및 북경 관어에서 액센트 구조는 약간 다르다.
북경어 방언의 대부분의 경우, 개념어의 액센트는 첫 번째 음절에 있다. 그러나, 액센트가 첫 번째 음절 대신 마지막 음절에 있는 경우가 많이 존재한다.
북경 관어는 표준 중국어이다. 북경 관어에서, 단어의 액센트는 보통 첫 번째 음절에 있다. 세 개를 초과하는 음절을 갖는 몇 개의 단어에서, '프레임(framed)' 액센트 구조가 준수된다. 즉, 첫 번째 및 마지막 음절이 액센트되는 반면, 이들 사이의 모든 다른 음절은 액센트를 갖지 않으며 매우 약한 (또는 없는) 성조를 갖는다. 북경 관어에서 다음절 개념어는 적어도 한 액센트, 보통 첫 번째 음절에서 액센트를 갖는다. 예를 들면, 음절 스트링 'taiqilai'에서는 단지 첫 번째 음절 'tai'(올리다)만이 액센트를 갖는다. 나머지 두 음절에 대해서는, 음향 에너지가 훨씬 감소될 뿐만 아니라, 성조가 실질적으로 약화되거나 또는 완전히 사라진다. 어구 'taibuqi tou lai'에서는, 단지 두 음절 'tai' 및 'tou'만이 액센트를 갖는다. 나머지 음절 'bu', 'qi', 'lai'은 약하고, 무성이거나 거의 무성이다. (무성이라는 것은 성조가 없음을 의미한다.) 이러한 규약에서, 'lai'는 성조를 갖지 않는 접사이고, 분리 불변화사로서 표기된다.
북경 및 북경 관어 방언에서, 기능어는 통상 액센트를 갖지 않으며, 기능어의 성조는 약하거나 또는 사라진다(퇴화된다).
이 발견은 구어체 중국어를 듣는 사람이 개념어(성조를 갖는 음절 및 성조를 갖지 않는 음절)의 액센트 및 무성조 기능어(및 접사)를 이용하여 단어 경계를 구분하고, 단어를 분류하며, 단어의 의미를 결정한다는 것이다. 이러한 자연적 음성 현상은 중국어 언어 철학의 상이한 관점 및/또는 단어 또는 어구를 중국어로 표기하는 방법과는 독립적이다. 본 발명은 이러한 현상에 기반하여 규칙을 개발하고 적용하며, 적절한 프로세스에 의해 이들 규칙을 구현하여, 음성 중국어 처리(입력, 분석, 번역, 표기)의 정확도를 향상시킨다.
지금까지 종래 기술에서 인식되지 않은 음성 관계에 관한 발견을 설명하였고, 다음 설명은 이들 관계가 프로세스(600)에 의해 행해지는 구문 분석에서 어떻게 이용되는지를 설명한다.
신규한 구문 분석 방법은 도 6에 프로세스(600)로서 도시되어 있다. 이 프로세스는 앞서 발견되고 개시된 원리들을 이용하여 전체 어구(또는 절, 또는 문장)를 분석한다.
단어 스트링(절 또는 문장)(501)은 구두점, 캐리지 리턴, 또는 사용자에 의해 할당된 임의의 입력과 같은 디리미터에 의해 구분된다. 바람직한 실시예에서, 이들 디리미터, 또는 어구 디리미터는 스페이스(키 2360), 어구 부호(키 2336), 중국어 마침표(2335), 좌측 인용 부호(키 2338), 우측 인용 부호(키 2339), 좌측 표제 부호(키 2341), 우측 표제 부호(키 2342), 느낌표(키 2311), 콤마(키 2312), 슬래쉬(키 2313), 좌괄호(키 2314), 우괄호(키 2315), 콜론(키 2316), 세미콜론(키 2316), 불릿(키 2344) 및 물음표(키 2317)를 포함한다. 임의의 성조 키(2310, 2320, 2330, 2340, 2350) 상에서의 이중 키 입력이 또한 어구 디리미터일 수도 있다. (여기서 괄호로 표시된 키는 본 실시예의 키보드(2300)에서 어구 디리미터를 입력하는 키를 지정한다.) 이들 어구 디리미터는 단어 경계, 즉, 한 어구의 끝 및 다른 어구의 시작을 명확히 정의한다(501).
단계(511 및 531)에서 정의된, 하나 이상의 모호한 단어를 갖는 어구가 프로세스(600)로 입력된다(601). 구문 유닛은 시스템(1000) 상에서 실행되는 프로세스(600)이다.
먼저, 어구(601)의 단어 성분은 임의의 성조 다이어크리틱의 존재에 의해 분류된다. 적어도 한 다이어크리틱을 갖는 단어(610)는 개념어이다(620). 그러나, 다이어크리틱을 갖지 않는 단어(611)는 부적절하게 생략된 다이어크리틱을 갖는 개념어, 비중국어 단어, 기능어, 접사 또는 독립적인 불변화사로서 표기된 접사가 될 수 있다. 혼합 텍스트 입력에서, 비중국어 단어는 스페이스(또는 다른 동등한 문자, 예를 들면, 'ESC')에 의해 구분되어 인식된다.
다이어크리틱을 갖지 않는 단어(611)가 기능어인지를 판정하기 위해, 단어(611)는 기능어 리스트(800)와 비교된다. 기능어의 수는 대부분의 언어학자에 의하면 100 개 이하로 제한된다. 단어(611)가 기능어 리스트(800) 상에 있는 경우, 이것은 기능어이다. 각각의 기능어의 의미는 유일하게 정의된다. 바람직한 기능어 리스트(800)가 도 8에 제공된다.
유사한 방식으로, 다이어크리틱(611)을 갖지 않는 단어는 접사 리스트(리스트(800)에도 또한 포함됨)와 비교되어 이들이 접사 및/또는 독립적인 접사 불변화사로서 표기된 접사인지를 판정한다. 이들 독립적인 불변화사의 의미는 유일하게 정의된다. 불변화사/접사의 한 바람직한 리스트는 비교적 짧고, 20개 이하의 엔트리를 갖는다. 자신들의 한지 번역어를 갖는 불변화사 접사는 도 8의 기능어 리스트 상에 포함된다.
기능어, 불변화사, 접사를 리스트하는 데이타 구조(800)는 컴퓨터 메모리(1100,1200)에 비교적 작은 공간을 취한다.
일단 모든 기능(및/또는 불변화사의 접사) 단어가 식별되어 유일하게 정의되면, 어구/문장 구조는 단계(630)에서 분석된다. 기능어(불변화사/접사)의 의미 및 기능이 알려져 있으므로, 임의의 특정 기능어에 선행하고 뒤따르는 단어(접사) 유형이 제한된다. 따라서, 임의의 개념어의 모호성은 하나 이상의 기능어(불변화사/접사)와 모호한 개념어의 관계를 이용함으로써 단계(640)에서 더 감소되고 제거될 수 있다. 예를 들면, 모호한 개념어에 대해 프로세스(500)의 단계(540)에서 식별된 다섯 개의 가능한 단어가 존재하는 경우, 이들 가능한 단어의 일부 또는 하나를 제외한 모두는 모호한 단어를 선행하거나 뒤따르는 기능어(접사)를 인지함으로써 제거될 수 있다.
예를 들면, 기능어로 간주된 전치사(810)는 도 8에 리스트되어 있다. 이들 전치사에는 명사 또는 명사 어구가 뒤따라야 한다. 이들 전치사를 뒤따르는 임의의 개념어가 명사 또는 명사 어구가 아닌 번역어를 갖는 경우, 이 모호한 번역어는 제거된다.
시제 불변화사(820)(즉, zhe, guo)는 보통 동사를 뒤따른다. 따라서, 이들 뒤따르는 불변화사를 갖는 임의의 모호한 개념어는 동사로서 번역된다. 이 개념어에 대한 임의의 대체 번역어가 동사가 아닌 경우, 이들은 제거된다.
관계 불변화사(830)(de,zhi)는 명사 또는 형용사를 뒤따른다. 따라서, 이들 뒤따르는 불변화사를 갖는 임의의 모호한 개념어는 명사 또는 형용사로서 번역된다. 대체적인 모호한 번역어는 제거된다.
접속사(he, ji, gen)(840)는 기능어이며, 일반적으로 명사 사이에 위치된다. 따라서, 이들 접속사(840)의 양측 중 어느 한 측에 위치한 임의의 모호한 개념어는 명사로서 번역된다. 모호한 다른 번역어는 제거된다.
접속사(850)는 일반적으로 어구 사이에 위치하는 기능어이다. 이들 접속사(850) 중 어느 한 측에 위치한 개념어는 어구의 일부로서 고려된다.
명사 접미사(860)는 보통 명사의 일부인 접사이다. 이들 접미사(860)에 선행하는 개념어는 명사로서 번역된다. 모호한 다른 번역어는 제거된다.
형용사 또는 부사가 앞에 와야 하는 형용사 및 부사 접미사(870)가 존재한다. 형용사 또는 부사가 아닌 번역어를 갖는 이들 접미사(불변화사)에 선행하는 임의의 개념어가 제거된다.
hen-, zui-, bu-를 포함하는 형용사 및 부사 접두사가 또한 존재한다. 이들 불변화사/접사는 형용사 또는 부사가 뒤따라야 한다. 이들 접두사(불변화사)를 뒤따르는 임의의 개념어가 형용사 또는 부사가 아닌 번역어를 가지는 경우, 이들 모호한 번역어가 제거된다.
이들 규칙에 대해서 드문 예외가 있으며 이들은 잘못된 번역을 초래할 수 있으므로 수작업으로 정정하여야 한다.
리스트(800)는 기능어, 불변화사, 접사의 약어를 포함하지 않는다는 점에 주의해야 한다. 약어는 대체 실시예에 포함될 수 있다.
단계(640)에서 여전히 모호성이 남는 경우 즉, 하나를 초과하는 가능한 개념어가 여전히 존재하면, 어구 내의 관계 어구 발생의 통계가 적용되어(641) 나머지 개념어 후보 중 가장 가능성이 높은 단어를 예측한다. 이와 같은 통계 모델(641)은 음성 인식 기술에서 잘 알려져 있다. 예를 들면, 이하 참조 자료로서 인용되는 라비너(Rabiner) 및 주앙(Juang)에 의한 1993, Fundamentals of Speech Recognition, 447-450 페이지를 참조하라.
한 바람직한 실시예에서, 결과는 그래픽 인터페이스(1020)의 한지(1024) 부분 상에 디스플레이된다(650). 명확히 해결될 수 없는 단어가 있는 경우, 나머지 후보 단어가 포인팅 장치(1031)에 의한 선택을 위해 그래픽 인터페이스(1020) 상으로 사용자에게 제공된다. 또한, 디스플레이된 결과(650,1025)가 사용자에 의해 수동 정정(650)이 된다. 대체 실시예에서, 최종 디스플레이는 프린트상에 프린트될 수 있거나 또는 네트워크 접속(1090)을 통해 전송될 수 있다. 디스플레이된 결과(650)는 다른 컴퓨터 시스템, 예를 들면, 한지 텍스트를 다른 언어로 번역하는 번역기(1034)에 대한 한지 입력이 될 수도 있다.
프로세스(500 및 600)를 이용함으로써, 시스템(1000)은 통상적으로 채택된 임의의 규약에 따라 분리되거나 또는 경계에서 구분되지 않는다 하더라도, 단어 입력(501)에서 요소 단어의 의미 및 한지 번역어를 결정할 수 있다.
본 개시에 따라 당 분야에서 통상의 지식을 가진 자라면 발명자의 고려 범위 내에 있는 동등한 대체 실시예를 개발할 수 있다. 예를 들면, 도 2d의 키보드와 같은 키보드는 BPMF 음성 알파벳의 37개의 문자를 포함하도록 설계될 수 있다. 이 음성 알파벳에 대한 키 할당은 사용자/제조자의 선택에 따른다. 37개의 문자를 위한 ASCII 코드 할당은 도 3의 상위 7비트 영역에서 만들어질 수 있다. BPMF에 대한 다이어크리틱은 키보드 상에서 및 ASCII 코드 표에서 역시 제공될 수 있다. 그러나, 몇 가지 변형이 필수적일 수 있다. 예를 들면, 상평성을 위한 다이어크리틱이 제공될 수도 있다. 음절 표(700) 및 BPMF를 위한 기능어, 불변화사, 접사 표(800)는 핀인 경우에 대해 일대일 대응을 갖는다. 제 4,5 및 7 도에 도시된 프로세스들이 역시 적용된다.

Claims (11)

  1. 중국어 텍스트를 처리하는 컴퓨터 시스템에 있어서,
    ① 음성 중국어 어구를 입력하는 입력 장치 ― 상기 어구는 하나 이상의 단어(one or more words)를 갖고, 각 단어는 하나 이상의 음절(one or more syllables)을 가지며, 각 음절은 하나 이상의 문자(one or more characters)를 갖고, 상기 어구는 제 1 및 제 2 어구 디리미터(a first and second phrase delimiter)간의 문자 스트링임 ― 와,
    ② 복수의 엔트리가 음성 중국어 접사인 접사 리스트(affix list)와,
    ③ 중국어 단어 어휘집(a vocabulary of Chinese words) ― 상기 어휘집은 한지 번역어(a Hanzi translation)를 갖는 복수의 음성 중국어 단어 리스트(a list of phonetic Chinese words)임 ― 과,
    ④ 상기 어구로부터 하나 이상의 접사(one or more affixes)를 제거하여 어근(a root)을 생성하는 형태 유닛(a morphology unit) ― 상기 제거된 접사는 상기 접사 리스트 상의 접사 중 하나이고, 상기 형태 유닛은 상기 어근을 상기 어휘집 내의 하나 이상의 단어와 비교하여 일치어(a match)를 찾으며, 상기 어근과 일치하는 상기 어휘집 내의 단어의 한지 번역어를 컴퓨터 메모리에 저장함 ― 을 포함하는
    중국어 텍스트 처리 컴퓨터 시스템.
  2. 제 1 항에 있어서,
    구문 유닛(a syntactical unit)을 더 포함하며, 상기 구문 유닛은 상기 어근을 액센트된 단어(accented words) 및 액센트되지 않은 단어(unaccented words)로 파싱(parsing)하고, 상기 액센트된 단어는 다이어크리틱에 의해 표시되며, 상기 액센트되지 않은 단어는 다이어크리틱에 의해 표시되지 않는
    중국어 텍스트 처리 컴퓨터 시스템.
  3. 제 2 항에 있어서,
    상기 엔트리(the entries)는 접사, 기능어(function words), 불변화사(particles)를 구비하고, 각 엔트리는 한지 번역어를 가지며, 상기 구문 유닛은 액센트되지 않은 단어를 하나 이상의 상기 엔트리와 비교하고, 상기 액세트되지 않은 단어와 일치하는 상기 엔트리는 일치된 엔트리이며, 상기 구문 유닛은 상기 일치된 엔트리의 상기 한지 번역어를 상기 어구 내의 액센트되지 않은 단어의 번역어로서 사용하는
    중국어 텍스트 처리 컴퓨터 시스템.
  4. 제 3 항에 있어서,
    상기 구문 유닛은 상기 하나 이상의 액센트된 단어를 모호한 개념어(a ambiguous notional word)로서 또한 번역하고, 상기 모호한 개념어는 상기 어휘집 내의 상기 모호한 개념어의 하나를 초과하는 한지 번역어가 있음으로 인해 모호성(a ambiguity)을 가지며, 상기 구문 유닛은 상기 모호한 개념어와 상기 어구 내의 상기 하나 이상의 액센트되지 않은 단어와의 관계를 이용함으로써 상기 모호성을 제거하는
    중국어 텍스트 처리 컴퓨터 시스템.
  5. 제 2 항에 있어서,
    상기 제 1 및 제 2 어구 디리미터는 다음 중 임의의 하나, 즉, 캐리지 리턴, 스페이스, 어구 부호(phrase mark), 중국어 마침표, 좌측 인용 부호, 우측 인용 부호, 좌측 표제 부호, 우측 표제 부호, 느낌표, 콤마, 슬래쉬, 좌괄호, 우괄호, 콜론, 세미콜론, 불릿, 물음표, 성조 키의 둘 이상의 키 입력(two or more strokes of key) 중 하나인
    중국어 텍스트 처리 컴퓨터 시스템.
  6. 제 2 항에 있어서,
    상기 형태 유닛은 상기 단어가 상기 어휘집 내의 단어 중 하나와 일치하지 않는 경우 상기 단어를 요소 단어(constituent words)로 분해하고, 상기 구문 유닛이 상기 요소 단어를 파싱하는
    중국어 텍스트 처리 컴퓨터 시스템.
  7. 형태 처리(a morphology process)에 의해 단어 스트링(a word string)이 처리되는 방법에 있어서,
    ① 상기 단어 스트링으로부터 하나 이상의 접사를 제거하여 어근을 생성하는 단계 ― 상기 제거된 접사는 접사 리스트 상의 접사 중 하나임 ― 와,
    ② 상기 어근을 상기 어휘집 내의 하나 이상의 단어와 비교하여 일치어를 찾는 단계 ― 상기 어휘집은 각각 하나 이상의 한지 번역어를 갖는 복수의 단어를 가지며, 상기 어근과 일치하는 상기 어휘집 내의 단어가 어근 일치어임 ― 와,
    ③ 상기 어근 일치어의 한지 번역어를 상기 컴퓨터 메모리에 저장하는 단계를 포함하는
    형태 처리에 의한 단어 스트링 처리 방법.
  8. 제 7 항에 있어서,
    하나 이상의 어근이 불일치(unmatched) 어근이고, 상기 불일치 어근은 상기 어휘집 내에서 일치어를 갖지 않으며, 상기 불일치 어근은 요소 단어로 분해되는
    형태 처리에 의한 단어 스트링 처리 방법.
  9. 음성 음절(phonetic syllables)의 중국어 어구(a Chinese phrase)를 구문적으로 분석하는 방법에 있어서,
    ① 상기 중국어 어구를 음절의 성조를 나타내는 다이어크리틱으로 표시된 하나 이상의 음절을 갖는 액센트된 단어로 파싱하는 단계 ― 액센트되지 않은 단어는 다이어크리틱에 의해 표시된 음절을 갖지 않음 ― 와,
    ② 상기 액센트되지 않은 단어를 하나 이상의 상기 엔트리와 비교하는 단계 ― 상기 엔트리는 0개 이상의 접사(zero or more affixes), 기능어, 접사 리스트 상의 불변화사이며, 각 엔트리는 한지 번역어를 가짐 ― 와,
    ③ 상기 각각의 한지 번역어를 이용하여 상기 액센트되지 않은 단어를 한지로 번역하는 단계를 포함하는
    중국어 어구를 구문적으로 분석하는 방법.
  10. 제 9 항에 있어서,
    상기 액센트된 하나 이상의 단어를 개념어로서 번역하는 단계 ― 상기 개념어 중 0개 이상은 모호한 개념어이고, 상기 모호한 개념어는 어휘집 내의 한지에 대해 하나를 초과하는 번역어를 가짐 ― 를 더 포함하는
    중국어 어구를 구문적으로 분석하는 방법.
  11. 제 10 항에 있어서,
    상기 하나 이상의 번역어가 제거되며 그 이유는 상기 제거된 번역어가 상기 액센트되지 않은 단어 중 어느 것과도 관계를 갖지 않기 때문인
    중국어 어구를 구문적으로 분석하는 방법.
KR1019990035578A 1995-08-16 1999-08-26 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법 KR100268297B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990035578A KR100268297B1 (ko) 1995-08-16 1999-08-26 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US08/515,547 1995-08-16
US08/515,547 US5893133A (en) 1995-08-16 1995-08-16 Keyboard for a system and method for processing Chinese language text
KR1019960028558A KR100259407B1 (ko) 1995-08-16 1996-07-15 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법
KR1019990035578A KR100268297B1 (ko) 1995-08-16 1999-08-26 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1019960028558A Division KR100259407B1 (ko) 1995-08-16 1996-07-15 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법

Publications (1)

Publication Number Publication Date
KR100268297B1 true KR100268297B1 (ko) 2000-09-15

Family

ID=26632020

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990035578A KR100268297B1 (ko) 1995-08-16 1999-08-26 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법

Country Status (1)

Country Link
KR (1) KR100268297B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143308A (ko) 2015-06-05 2016-12-14 도레이첨단소재 주식회사 벼 육묘용 친수성 폴리프로필렌 장섬유 부직포 및 그 제조방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143308A (ko) 2015-06-05 2016-12-14 도레이첨단소재 주식회사 벼 육묘용 친수성 폴리프로필렌 장섬유 부직포 및 그 제조방법

Similar Documents

Publication Publication Date Title
KR100259407B1 (ko) 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
Palmer Tokenisation and sentence segmentation
EP0370774B1 (en) Machine translation system
US8977535B2 (en) Transliterating methods between character-based and phonetic symbol-based writing systems
US6760695B1 (en) Automated natural language processing
JP2515726B2 (ja) 情報検索方法及び装置
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
WO2001035249A2 (en) Language input architecture for converting one text form to another text form with modeless entry
CA2523992C (en) Automatic segmentation of texts comprising chunks without separators
WO1997040453A1 (en) Automated natural language processing
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JPS634206B2 (ko)
Kirov et al. Context-aware Transliteration of Romanized South Asian Languages
Tzoukermann et al. Tagging French without lexical probabilities—combining linguistic knowledge and statistical learning
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPH07325825A (ja) 英文法チェックシステム装置
Kawada Inputting Japanese from the keyboard
Popović et al. Automatic morphological annotation in a text-to-speech system for Hebrew
KR100984293B1 (ko) 세계 공용어를 위한 한아글 체계와 한아글 변환 장치 및 변환 방법
Sadigh et al. A rule-based approach to farsi language text-to-phoneme conversion.
JPH03260687A (ja) 視覚障害者用点字漢字変換装置
JPH0414168A (ja) 文書作成装置
Snae et al. A Framework for an Ontology-Driven Multi-Lingual Transcription System with IPA Representation

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee