KR100235223B1

KR100235223B1 - 텍스트 검색에 사용하기 위하여 다중-바이트 문자를 아스키문자의 단일문자 열로 맵핑하는 방법 및 장치

Info

Publication number: KR100235223B1
Application number: KR1019930005266A
Authority: KR
Inventors: 케이. 호퍼트 데이비드; 유다까 요시다
Original assignee: 마이클 에이치. 모리스; 썬 마이크로시스템즈 인코오퍼레이티드
Priority date: 1992-04-13
Filing date: 1993-03-31
Publication date: 1999-12-15
Also published as: US5337233A; JP3300866B2; TW310400B; KR930022225A; JPH0689304A

Abstract

비 영어권 언어가 수천개의 문자를 가질지라도, 비영어권 언어의 문서 텍스트 또는 탐색 및 검색인수를 현존하는 ASCII에 기초한 자동화된 텍스트 처리시스템으로 처리할 수 있게 변환하고, 그것에 의하여 현존하는 텍스트 처리시스템을 다중 바이트 문자언어를 다룰수 있도록 변환할 필요없이 현존하는 텍스트 처리시스템과 현존하는 텍스트 데이타 베이스를 사용할 수 있게 하는 장치 및 방법.

Description

텍스트 검색에 사용하기 위하여 다중-바이트 문자를 아스키문자의 단일문자 열로 맵핑하는 방법 및 장치

제1도는 표의(表意) 문자와 JIS 및 EUC 코드와의 관계 (종래기술)를 보여주는 현(現) 코딩차트의 일부분을 도시한다.

제2도는 영어단어 또는 일어(로만지; Romanji) 단어를 16 진법(＂16진수)으로 및 16진수에서 ASCII로의 맵핑을 도시한다.

제3도는 현 ASCII 입력방식의 탐색 및 검색시스템(종래기술)의 블럭 다이어그램이다.

제4도는 본발명을 도시하는 탐색 및 검색시스템의 다이어그램이다.

제5도를 본발명의 상세한 다이어그램이다.

본발명은 텍스트 기억 및 검색을 위한 기술을 사용한 컴퓨터 시스템의 분야에 관련된다. 더 자세히는 영어 알파벳 위주로 설계된 시스템에 사용하기 위해 비-영어권 언어로된 텍스트를 기억 및 검색하는 기술의 사용에 관련된다.

문서검색시스템 또는 자동화된 텍스트 프로세서 시스템은 오늘날 많은 컴퓨터 시스템에서 주요한 응용대상이다. 이것은 임의의 형태의 컴퓨터 메모리 또는 기억공간에 다양한 종류의 텍스트가 기억되고, 사용자가 쉽게 접근할 수 있고 메모리 또는 기억장소로부터 빠르게 검색될 수 있는 시스템이다.

현재 많은 컴퓨터 시스템에 사용중인 그런 기억장소의 일종류를 컴팩트 디스크-판독전용 메모리(CD-ROM)이다. CD-ROM을 단일 디스크상에 수백만 문자의 데이타를 포함할 수 있는 디스크 파일이다.

그런 CD-ROM을 판독하고 그러한 유형의 데이타 베이스로부터 데이타를 판독하는데 사용되는 한종류의 소프트웨어 시스템은 선 마이크로시스템즈 인코오퍼레이티드에 의해 개발된 AnswerBook^TM이라 불리는 시스템이다(AnswerBook 은 선 마이크로 시스템즈 인코오퍼레이티드의 상표이다).

AnswerBook은 다른 그런 시스템과 유사하게 16,000 페이지에 이르는 문서를 전(全) - 텍스트 탐색(때때로 ＂내용에 기초한 검색＂으로 불리우는)할 수 있는 능력이 구비된다. 그런 탐색은 사용자가 하나의 단어 또는 구 또는 문장(즉, 문자의 열)을 입력하고 , 입력된 단어 또는 문자열의 임의의 예로써 기억된 텍스트를 탐색하도록 텍스트 검색시스템에게 요청하면, 빠르게 그 예들을 디스플레이 한다.

문서가 CD-ROM 또는 다른 기억장치에 기억될때, 그것들은 정보교환을 위한 미국 표준코드(ASCII) 8-비트 포맷으로 인코딩된 텍스트 문자로써 기억된다.

영어 알파벳이 단지 26개의 문자로 되었고, 일상적인 기능과 특수문자를 더한 숫자가 256개의 문자보다 적으므로, 그 문자들의 이진 표현은 일바이트(8비트)의 컴퓨터 데이타로 충족된다(2⁸=256).

어떤 비-영어권 언어는 256문자보다 많은 문자를 가지고 있다 : 예를 들어, 일본어는 8,000문자 이상의 문자세트를 요구한다. 이 숫자는 8-비트(일-바이트) 숫자의 범위내에 수용될 수 있기 때문에 다중-바이트 문자가 컴퓨터용 일본 문자를 기술하기 위하여 사용되어야 한다. 그 결과로서 대부분의 자동화된 문서처리시스템은 다중-바이트 텍스트 파일을 표시 또는 억세스 할 수 없으므로 일본어 또는 그들의 알파벳에 256문자보다 많은 문자를 가진 다른 언어에서는 현존하는 자동화된 문서처리시스템 및 CD-ROM 텍스트 데이타 베이스로 사용할 수 없다.

많은 기술적 진보가 이루어져서 전세계 언어의 코드세트를 표준화 하고 이 국제적인 코드세트를 사용해서 컴퓨터 응용프로그램을 개발하고 있지만, 일본어 같은 다른 언어로 프로그램을 사용하기 위하여 영어로 되어있는 응용프로그램을 제작성하는 것이 일반적으로 필요하다. 많은 경우에 그런 제작성 비용은 과중하다. 본발명은 비영어 문자코드를 ASCII 포맷으로 변환하는 신규의 기술에 의해서 제작성할 필요없이 현존하는 탐색 및 검색프로그램을 사용하는 다른 설계를 사용한다.

국제표준기구(ISO)는 상이한 언어를 다룰수 있는 다양한 표준 코딩설계를 채용했고 수시로 더많은 언어를 추가하기 위해 개정한다. 1984년 4월에 제록스(주)는 ISO 646에 의해 규정된 라틴문자세트에 추가하여 그리스, 시릴, 및 일본문자에 할당된 코드를 포함한 자체의 문자코드를 공개했다(초기의 제록스 표준에 대한 좀더 상세한 정보는 ＂제록스 네트윅 시스템즈 아키텍쳐, 일반 정보매뉴얼 ＂XNSG 068504, 1984년 4월, 57∼61페이지를 참조). 그 결과로서 다양한 일본공업표준(JIS) 코드세트가 규정되었고 ISO 표준 2022에 따른 ＂확장된 유닉스코드(EUC)＂라 불리우는 유사한 표준코드가 AT & T에 의해 규정되었다. 최근에는 개방시스템 재단(OSF), 유닉스 인터내셔날(UI) 및 유닉스시스템 래버러토리 퍼시픽(USLP)은 컴퓨터 응용프로그램의 이식성 및 호환성을 강화시키는 일본어를 위한 확장된 유닉스코드(EUC)를 지원하는데 합의했다. 이 일반규정(EUC)은 1990년에 정해진 일본표준코드에는 JIS XO212부록한자(漢字), 및 JIS XO0208 한자, JIS X0201 일-바이트 가나를 지원한다. 이러한 사항은 ＂정보교환을 위한 일본 그래픽 문자세트의 코드(Code of the Japanese Graphic Character Set for Information Exchange)＂라는 제목의 표준 발행물에 기술되어 있다(UNIX는 UNIX 시스템 래버러토리(주)의 등록상표이다). 일본문자를 위한 이러한 표준코드 규정(다중 바이트로 코딩된 정보로서 문자를 규정하는) 이 단일 바이트로 코딩된 입력정보를 다루도록 설계된 응용프로그램에서는 문제가 되므로, 일본어로 기록된 문장은 텍스트 파서(parser)에 대해 많은 다른 복잡한 문제를 야기한다. 일본어 텍스트의 전-텍스트 검색을 허용하기 위하여 해결해야만 하는 2개의 중요한 문제는 1) 텍스트내의 단어들을 분리하는 문제(영어 텍스트내의 공백같이 단어를 구분하는 것이 없다); 및 2) 탐색을 개선하기 위해 합성명사는 나누어져야만 하는 문제이다.

본발명은 또한 ASCII에 기초한 텍스트 처리시스템의 문맥내에서 이러한 문제들을 다룰수 있는 방법을 또한 제공한다. 비영어권의 복잡한 언어를 가지고 현존하는 영어에 기초한 텍스트 검색 응용프로그램을 사용하게 하는 그런 문제를 해결할 수 있는 방법은 종래에는 알려져 있지 않았다.

그러므로 본발명의 목적은 중국어, 일본어 등과 같이 256 문자보다 많은 문자를 포함하는 언어를 현존하는 텍스트 처리시스템에 사용할 수 있게 준비하는 것이다.

본발명의 또다른 목적은 그런 언어 텍스트의 데이타 베이스를 탐색하기 위한 탐색인수로서 텍스트 처리시스템에 그 언어를 사용할 수 있게 하는 것이다.

본발명의 또다른 목적은 일본어를 현존하는 ASCII에 기초한 텍스트 처리시스템에 사용할 수 있게 준비하는 것이다.

본발명하에, 이것 및 다른 목적은 256 문자보다 많은 문자를 포함하는 언어의 텍스트를 현존하는 텍스트 처리시스템에 사용할 수 있게 준비하는 방법 및 장치에 의해 달성된다. 이것은 소정언어를 나타내는 문자의 입력흐름을 포획하고 문자의 입력흐름을 단어그룹으로 분리하고, 이 단어그룹을 다음 처리과정을 위하여 선택된 텍스트 처리시스템으로 전달될 수 있는 단일바이트 문자의 단일문자열로 맵핑함으로써 수행된다.

본발명은 선택된 언어의 문법규칙을 사용하여 단어그룹을 식별할 수 있는 능력을 제공하고, 또한 합성명사를 단순한 단어부로 분리하는 메카니즘을 제공한다.

그 언어가 일본어인 경우에, 바람직한 실시예는 2바이트 16 진 문자의 흐름을 발생시키는 확장된 UNIX 코드(EUC)를 사용하여 일본어 문자를 인코딩함으로써 현존하는 텍스트 프로세서 시스템에 의해 일본어 텍스트를 처리할 수 있게 준비 해준다. 16진문자의 이 흐름은 각 문자코드가 한자, 가다가나, 또는 히라가나 문자-세트에 속하는지를 먼저 인식하고, 명사 및 다른 주요어(한자 또는 가나가나 타입의)는 정상적으로 조사(preposition)(히라가나 타입)가 이어진다는 일반 문법규칙을 적용함으로써 단어 분리된다. 합성단어는 합성단어 조사표를 사용하여 단순한 단어부로 분리된다. 16진 문자열은 최종적으로 텍스트 처리시스템으로 전송하기 위해 ASCII 문자의 단일 바이트 문자열로 맵핑된다.

후술되는 상세한 설명은 컴퓨터 또는 컴퓨터의 네트윅상에서 실행된 프로그램 절차에 관하여 기술된다. 이러한 절차 설명은 당업자가 그들의 연구의 요지를 다른 당업자에게 효과적으로 알릴 수 있는 수단이다.

본문에서 절차는 소망결과를 이끌어내는 일관성있는 단계의 순서로 간주된다. 이러한 단계는 물리량의 물리적 조작을 요구한다. 항상(필요하지는 않지만) 이러한 양들은 기억되고, 전송되고, 결합되고, 비교되고, 조작될수 있는 전기 또는 자기신호의 형태를 취한다. 주로 일반적으로 사용되기 때문에 이 신호들(비트, 값, 요소, 심볼, 문자, 용어, 숫자 등)을 참조하는 것이 때때로 편리하다. 그러나, 이것 및 유사용어는 모두 적절한 물리량에 관련되고 단지 이러한 양들에 인가된 편리한 라벨일뿐 이라는 것을 주의해야 한다.

더우기, 수행된 조작은 인간조작자에 의해 수행되는 지적연산에 일반적으로 관련되는 가산 및 비교같은 용어에 자주 인용된다. 인간 조작자의 그런 능력은 본발명의 일부를 형성하는 본문에 기술된 임의의 조작(기계 조작인)에서 대부분의 경우에 필요하거나 또는 바람직한 것은 아니다.

본 발명의 연산을 수행하는 유용한 기계는 범용 디지탈 컴퓨터 또는 유사장치를 포함한다.

본발명은 또한 이러한 조작을 수행하는 장치에 관련된다. 이 장치는 요구된 목적을 위해 특별히 제조되거나, 컴퓨터에 기억된 컴퓨터 프로그램에 의해 선택적으로 가동 또는 재구성된 범용컴퓨터를 포함할 수 있다. 본문중에 나타난 절차는 본래 특정컴퓨터 또는 다른 장치에 관련되지는 않는다. 여러가지 법용기계가 본문중의 교시에 따라 작성된 프로그램을 가지고 사용될수 있고, 좀더 특수화된 장치를 제조하여 요구된 방법단계를 수행할 수 있다. 이러한 장치의 다양하게 요구된 구조가 본문중에 나타날 것이다.

[바람직한 실시예의 설명]

[정의]

표의 문자 : 일본어 또는 중국어의 문자같이, 특정한 단어 또는 어구를 표현하지 않고 생각이나 물건을 나타내는 문자 또는 심볼,

로만지(ROMANJI) : 일본어 또는 문장의 음성학적 알파벳식 표현,

히라가나 : 일본어의 이름과 지명을 음성학상으로 기술하는데 주로 사용되는 일본어 문자의 3 세트중 하나, 이 문자세트는 조사 및 단어 접미사에도 사용된다.

가다가나 : (또는 줄여서 가나)-주로 서양이름과 지명을 음성학상으로 읽는데 사용되는 일본문자의 3세트중 다른 하나,

한자 : 동사 및 형용사의 어간(語幹) 및 명사에 가장 자주 사용되는 일본표의 문자의 형태, 이것은 3일본 문자세트중 가장 큰 세트이고 중국 표의 문자에 기초한다.

본발명은 256 문자보다 많은 문자를 가지는 비영어권 언어를 현존하는 텍스트 처리시스템에 사용할 수 있게 준비하는 방법 및 장치이다. 이것은 언어를 나타내는 문자의 흐름을 포획하고, 문자열을 단어그룹(즉, 단어들)내로 맵핑하고, 합성단어를 기본단어부로 나누고, 그 단어들을 영어-알파벳에 기초한 자동화된 텍스트 처리시스템에 사용하기 위하여 ASCII 문자의 단일문자열로 맵핑함으로써 수행된다. 본발명은 비영어권 언어(예를 들어 일본, 중국등과 같이 표의 언어를 사용하는)를 가지고 현존하는 ASCII에 기초한 텍스트 탐색 및 검색시스템을 사용하는 실용적인 방법을 제공한다.

본 발명에서 간단하지만 효과적인 맵핑기술을 사용하여 ASCII(단일 바이트) 환경에서 다중바이트 문자를 사용하는 문제는 해결된다. 일본어의 표의 문자는 ISO JIS, EUC 등과 같은 다양한 코딩 설계에 의해 열거된다(즉, 각각의 표의문자 당 하나의 숫자를 할당한다). 대표값은 2개의 바이트(8-비트) 또는 16 비트로 코딩될 수 있다. 즉, 일본어의 표의 문자의 숫자(8000 +)는 2¹⁶=65536개 보다는 작다. 이 2-바이트 숫자는 16 진수가 16의 베이스를 가진 코드구성이므로 16 진법 ＂16진수＂로 코딩될수 있다. 제1도는 17 가지의 동일한 일본 표의문자(표의문자는 도시되지 않음)에 대한 3가지 상이한 코드구성; 일본 공업표준 JIS X0208-1990(10열), S-JIS 코드(제2 일본표준코드세트) (30열) 및 확장된 유닉스 코드(EUC) (20열)을 보여주는 표를 도시한다. 전체 코드세트는 공용표준공보에서 찾을수 있다. 본발명의 바람직한 실시예에서, ＂EUC＂라고 표시된 열에 도시된 코드가 사용된다. 이 16 진수 형태는 일본 문자가 2바이트 16 진수 표현으로부터 단일 바이트 ASCII 표현의 문자열로 맵핑될수 있게 한다. 이 기술은 그 언어의 표의문자가 영어단어같이 고유의 의미를 포함하는, 예를 들어 일본어 같은 언어에 적합하다. 바람직한 실시예에서 일본어는 EUC 16 진수형태(4개의 영숫자 문자로 표현되는 2개의 16바이트인)의 일본어의 표의문자를 단일 ASCII ＂단어＂ 열(대응하는 영숫자문자 각각에 하나씩 4개의 ASCII바이트인)로 맵핑함으로써 영어로 맵핑된다.

이제 제2도를 참조하면서, 맵핑기술이 설명된다. 예를 들어 영어에서 숫자(＂하나＂)는 수치(＂1＂)로서 표현된다(62). 수치(＂1＂)는 16 진 코드 (＂31＂)로 표현될수 있다(64). 이후에 완전히 기술되는 본발명의 기술을 사용하면, 이 16 진 코드(＂31＂)는 ASCII 코드열(＂31＂)로 변환될수 있고(65), 이것은 컴퓨터내에서 8진 코드(＂063＂ 061＂)로 표현된다(66).

유사하게 일본어에서 숫자(＂하나＂)는 로마문자(로만지)로 ＂ichi＂로 표현된다(74). Ichi는 EUC 표준코드에서 16 진 코드(＂b0ec＂)로 표현될수 있다(76). 16진 코드(＂b0ec＂)(76)를 본발명의 기술에 의해 ASCII(＂b0ec＂)로 맵핑하고(77) 8진코드 (＂142 060 145 143＂)의 열이 만들어진다(78). 그러므로 16 진수열(＂31＂)이 수치(＂1＂)를 표현하는 단일문자 열인 것과 마찬가지로, 16진수 열(＂b0ec＂)은 일본 숫자(하나, ichi)를 표현하는 단일 문자열이다. 더우기 일본어는 본래 표의 문자로된 언어이기 때문에 하나의 소정 기호는 하나의 완전한 생각 또는 단어를 표현할 수 있다. 그러므로 대부분의 일본어 기호 및 대응하는 로만지 단어는 4개의 ASCII 문자의 열로써 표현될 수 있다. 단일 16진수 열(본예에서 ＂b0ec＂)을 ASCII 문자의 단일열(＂b＂＂0＂＂e＂＂c＂)로 맵핑하는 능력은 현존하는 ASCII에 기초한 텍스트 검색시스템을 비 영어권 언어로서 사용할 수 있게 한다. 바람직한 실시예는 일본어와 EUC코드 세트를 사용하지만 다른 코드세트가 일본어 또는 다른 언어와 함께 유사하게 사용될수 있다.

일본어 같은 언어에서 문자의 열내에서 단어를 분리하는 문제를 완전하게 해결하기 위해서는 정상적으로는 완전 자연어 파서(natural-language parser)가 필요하다. 그러나 통상, 일본어 문장은 어떤 ＂문자세트＂가 각각의 2바이트 표현에 사용되는지를 식별함으로써 단어로 대략 나누어질수 있다. 예를 들어 한자 문자세트는 몇몇의 형용사 및 부사, 및 동사의 어간, 그리고 대부분의 명사에 사용된다. 히라가나는 주로 조사, 단어의 어형변화/격변화를 위한 접미사, 그리고 몇몇의 형용사와 부사에 사용된다. 가다가나는 외국어의 명사에 사용된다.

더우기, 전형적으로 일본어로된 문장에서 명사의 조사(＂PP＂)를 부가하여 주어, 목적어, 시간, 장소등과 같은 ＂등급＂을 기술한다. 이 구조는 다음것과 유사한 것처럼 보인다.

＂명사 + PP＂ + ＂명사 + PP＂ + ＂명사 + PP＂ + 동사＂.

이러한 특징이 개별적인 단어를 식별하는데 사용되는 방법을 기술하기 위하여 다음 예를 고려하라. 기억 및 검색시스템으로의 입력인 일본어 텍스트의 줄을 표현하는 16 진수 문자의 열은 다음과 유사하다.

＂bbe4a4cfb3aaa4c8a5eda5d6a5b9a5bfalb

ca4f2a4aaa4a4a4b7a4a4a4c8bbd7a4ab＂

일본어의 표의 문자가 두개의 16 진 바이트 인것을 알수 있으므로 문자 열은 한번에 2바이트씩 구문해석되고 각 2바이트쌍은 그것이 한자, 가다가나, 또는 히라가나 인지 결정하기 위해 검사된다. 바람직한 실시예에서 EUC 코딩 구성이 문자세트를 분리하므로 쉽게 수행된다. 즉, 히라가나 단어는 ＂a4a0＂에서 ＂a4f3＂까지 코딩되고, 가다가나는 ＂a5a0＂에서 ＂a5f6＂까지 코딩되고 한자는 ＂b0a0＂에서 ＂f4a4＂까지 코딩된다. 아래에 좀더 자세히 설명된 바와 같이, 2바이트 쌍이 어떤 ＂문자-세트＂에 속하는지 결정하는 것은 SunOS^TM일본어 환경(JLE)의 C-언어기능을 사용하여 수행된다. 계속 예를 참조하면, 16진 문자의 전체흐름은 처음에는 다음과 같이 맵핑된다 :

각 문자세트 변화가 식별되면, 공백(16 진수; 20) 이 단어분리기로서 16 진 코드흐름내로 삽입된다. 그후 ＂a5eda5d6a5b9a5bfalbc＂ 와 a4f2a4aaa4a4a4b7a4a4a4c8＂와 ＂bbd7a4a6＂과 같이 다중문자(합성단어)로 구성된 ＂단어＂는 ＂합성단어＂ 조사표(LUT)와 비교함으로써 추가로 분석된다. 표에서 합성단어열이 발견되지 않으면 한 단어로 간주된다.

상기 합성단어 문자 열에서, 히라가나 문자의 세트(＂a4f2a4aaa4a4a4b7a4a4a4c8＂)는

에 대응되고 공백(16 진수; ＂20＂)가 각 단어 사이에 삽입된다. 그후에 이 문장은 다음과 같이 영어로 대략 번역된다;

또는 대개 ＂나는 게와 새우가 맛있다고 생각한다.＂

그러므로 본 발명의 바람직한 실시예에서 일본어 문장은 이러한 상이한 문자세트를 인식하고 상기 문자세트 맵핑기술을 사용하여 발견된 단어사이에 공백을 삽입함으로써 대략적으로 나누어진다. 이것은 어떤 단어에 대해서는 모호한 경우도 있지만, 이러한 단어는 의미상으로는 명사만큼 중요하지 않다. 중국어, 베트남어 또는 다른 표의문자언어의 경우에서 유사한 단어 정의 맵핑기술이 생각되어질 수 있다.

상기에 언급된 합성단어 조사표는 이후에 추가로 기술된다. 몇몇의 일본단어는 하나의 생각 또는 물체를 표현하는 여러개의 표의 문자로 이루어져 합성단어를 형성한다. 영어텍스트의 하나의 예는 합성단어(＂blackwalnuttree＂)이다. 이 합성단어가 한 단어로서 기억되면, ＂tree＂, ＂black＂, 또는 ＂walnut＂에 대한 텍스트 검색은 이 경우 모두 실패하게 된다. 최선의 결과를 위하여 합성단어는 구성부(＂black walnut tree＂)로 나누어져야 한다.

본발명의 바람직한 실시예에서 이 문제를 조사표(LUT)를 사용하여 상용 합성단어 요소를 인식하고 텍스트 기억 및 검색시스템의 인덱스 엔진내로 통과할때 그것들을 나눔으로써 해결된다. 이것은 본발명의 설계에서 다음과 같은 결과를 가진다 :

조사표는 다음 엔트리를 포함한다.

대개 대부분의 컴퓨터 시스템에서 합성단어의 모든 조합을 보유하는 것은 일반적으로 가능한 일이 아니다. 그러나, 이 표의 크기를 제한하여 컴퓨터 장비 또는 유지 설명서, 의학서적, 정치분야 등과 같은 특정응용분야에서 사용되는 상용합성단어만을 포함하는 것은 언제나 가능하다. 바람직한 실시예에서 사전은 5K 바이트로 제한되고, 특정 응용분야에서 가장 많이 사용되는 단지 100개의 상용합성단어만을 가진다. 당업자에게는 이 조사표의 구성 및 크기가 이 개념에 따라 폭넓게 변화할 수 있다는 것이 이해될 것이다.

다른 언어를 사용하는 몇몇의 탐색 및 검색응용프로그램에서 많은 사용을 통하여 그 언어에서 ＂일상적＂인 것이 된 몇몇의 동등한 영어단어를 비영어 텍스트에 포함하는 것이 바람직하다. 따라서, 본 바람직한 실시예에서 ＂등가의 키(key) 영어 단어＂의 제2 조사표(LUT)와 그런 키 영어단어를 찾기위해 스캔되고 이 단어들은 일본의 16 진 단어에 인접한 16진 흐름내로 삽입된다.

[본발명의 사용법]

다음에 본발명의 바람직한 실시예가 좀더 자세히 기술된다. 제3도를 참조하면, 예를 들어 AnswerBook 제품 같은 전형적인 종래의 자동화된 텍스트 처리시스템은 2개의 주요부(인덱싱 엔진(44)과 탐색엔진(48))를 가진 탐색 및 검색시스템과 문서 프로세서를 포함한다. 인덱싱 엔진(44)은 ASCII 파일을 판독하고 의미정보를 탐색엔진(48)에 기억 또는 사용될 수 있는 최종형태로 처리한다. 인덱싱 엔진(44)의 최종 출력은 ＂탐색 인덱스＂(46)라 불린다. 탐색엔진(48)는 ＂사전-컴파일된＂ 또는 사전-처리된 텍스트 데이타 베이스를 사용하고 사용자가 입력한 탐색인수와 부합되는 점을 빨리 발견하는 부분이다. 전형적인 ASCII에 기초한 자동화된 텍스트 프로세서 시스템에서 순서 텍스트(40)는 필터(42)로 공급되고, 필터(42)는 인덱싱 엔진(44)을 위한 문서 텍스트(40)를 준비하고 , 처리후, 인덱싱엔진(44)은 데이타를 탐색엔진(48)으로 전달한다. 인덱싱엔진(44)은 인식할 수 있는 문자(즉, 텍스트 프로세서의 내부 문자세트) 및, 제목, 헤더(Herder; 구조적 구성요소), 또는 본문같이 정의된 등급에 속하는 어떤 문자를 식별하는 몇몇의 제어문자만을 찾으려 한다. 그럼으로 필터(42)는 인덱싱 엔진(44)이 이해할 수 있는 적당한 포맷으로 ASCII 텍스트를 변환하고 입력텍스트내의 구조적 구성요소를 결정하고 필요없는 포맷팅 명령을 무시한다. 각 단어는 인덱싱 엔진(44)이 문자흐름으로부터 단어를 ＂실감 즉, 명확히 이해＂ 할 수 있게 해주고 분리문자(공백, 뉴라인, 탭)에 의해 분리된다는 고유의 가정이 있다. 필터(필터(42)같은)는 정상적으로는 인덱싱 엔진(44)이 요구되는 각 포맷에 특정되게 작성된다.

이제 제4도를 참조하면, 본발명의 바람직한 실시예에서 추가적인 필터(＂번역 필터＂; 52)가 외국어 문서텍스트(50)(일본어의 경우는 EUC 형태인) 및 인덱스 엔진필터(42)사이에 추가되어 비영어권 영어의 다중-바이트 문자를 인덱스 가능한 ASCII 문자 열로 변환한다. 바람직한 실시예에서 이 번역필터(52)는 각 문자(영어인지 아닌지 상관없이)를 2바이트로 처리하기 위해 특수한 ＂폭 문자＂ 기능을 사용한다. 번역 필터(52)는 단어 경계를 결정하고, 합성단어를 나누고, 16진 흐름을 ASCII 흐름으로 최종적으로 맵핑하기 전에 특수한 등가의 영어단어를 일본어 문자흐름내로 삽입하고, ASCII 흐름은 그후 ＂정규＂ 필터(42)로 전달된다.

다중바이트 문자가 번역 필터(52)에 의해 16 진 문자 열에서 ASCII로 변환되었으면, 텍스트 프로세서에 의한 처리(즉, 텍스트 기억 또는 탐색 및 검색)는 정상적으로 진행한다. 즉, 그때 모든 구조 정보(장, 제목등)는 영어 텍스트에서와 동일하므로 정규의 인덱스 엔진 필터(42)는 수정없이 동작할 수 있다. 그러나, 이 구조정보가 일본어(또는 다른언어) 문자로 변환된 경우, 인덱스 필터(42)는 수정되어 그 문자들을 구조데이타로 인식한다. 예를 들어 ＂a4a5c9c3d3a9＂는 ＂ChapterTitle＂로 인식될 것이다.

번역필터(52)의 이러한 동작은 제5도를 참조하며 좀더 자세히 기술된다. 번역필터(52)에의 입력시, EUC 형태의 일본어 문자의 라인이 판독된다(82). 이 문자라인은 데이타를 번역필터(52) 프로그램이 보다 쉽게 다룰수 있는 2-바이트 형태의 고정된 길이로 만드는 ＂처리＂ 코드로 변환된다(84). 이것은 ＂다중 바이트 세트를 폭문자세트로 변환＂하는 기능을 수행하는 C-언어기능(＂mbstowcs(s1, s2, n)＂)를 사용하여 이루어진다. 이 기능은 EUC 문자열(＂s2＂)을 처리코드 문자열(＂s1)로 변환한다. 그것은 ＂s1＂에 의해 지시된 어레이 내에 ＂n＂ 요소만을 기억하고 널(Null) 문자를 만난경우 그 앞에 멈춘다. 이것은 모든 문자가 동일한 폭을 가지도록 하기 위하여 수행된다. 예를 들어, 1 바이트를 사용하는 영어 ASCII 문자가 2 바이트를 사용하는 한자문자와 혼합될수 있다. 이 기능(＂mbstowcs＂)은 영어문자(및 필요로하는 다른 문자)에 0바이트를 넣어서 2 바이트의 폭을 가지게 함으로써 모든 문자에 2바이트를 할당한다.

예를 들어,

이 변환된 코드 열로부터 2-바이트쌍이 처리되어 문자세트(한자, 가다가나, 히라가나, 영어, 또는 숫자)를 결정한다(86). 이것은 JLE의 일본어 라이브러리의 다음 C-언어기능을 사용함으로써 수행된다 :

이 처리과정은 다음 2-바이트 쌍에 대하여 반복되고 제2세트가 다른 문자 세트로 결론지어지면, 공백(16 진수 ＂20＂)이 이것과 전 세트 사이에 삽입된다. 예를 들어 제1문자세트가 ＂한자＂이고, 다음 문자-세트가 ＂가다가나＂이면, 공백이 제1과 제2의 2-바이트 코드쌍 사이에 삽입된다. 코드라인이 완료될때, 이 처리과정으로 발생된 임의의 단어를 합성-명사사전 조사표(LUT)로 검사되고(88), LUT에서 발견된 합성명사는 대응되는 분리된 단어부 및 개별단어를 분리하는데 필요한 공백으로 교체된다. 시스템은 그후 상기 처리과정으로 식별된 각 단어를 작은 영-일 키단어 사전으로 체크한다(90). 키(Key) 영어 단어가 발견되면, 적당한 공백 분리자와 함께 문자흐름(거의 동등한 일본어 단어)내로 삽입된다. 이 2바이트 폭의 문자열은 ＂폭 문자＂를 프린트 하는 점을 제외하고는 표준 C-언어 기능 ＂sprintf ( )＂과 동등한 기능인 C-언어기능 ＂wsprintf ( )＂ 을 사용하여 ASCII 코드표현 방식으로 변환된다(92). 이 기능은 실제로는 ＂프린트＂ 하지는 않지만 문자를 ASCII 문자로 변환함으로써 프링팅을 준비시킨다. 본발명의 바람직한 실시예에서 이 ASCII 문자파일은 적용 가능한 텍스트 검색 인덱싱 필터(42; 제4도)로의 입력으로 사용된다. 제2도의 예를 사용한 영어 및 일본어 숫자(＂하나＂)의 변환은 다음과 같다 :

ASCII 코드의 라인은 파일로 기록되고(94), 처리과정은 모든 텍스트 라인이 처리될때까지 반복되고(96), 제어는 ASCII에 기초한 시스템에서의 처리를 위해 정규필터 제4도의 42)로 옮겨진다.

바람직한 실시예에서 이 동일한 필터 절차는 일본어 텍스트가 기억을 위해 판독중인지 또는 어떤 일본어 단어가 텍스트 검색을 위해 입력(검색 인수로서)되는지는 상관없이 사용된다. 이것은 일본어 사용자가 로만지로 일본어 문자를 컴퓨터 디스플레이의 검색윈도우내로 입력하여 그 일본어 문자를 적당한 문자열로 변환하고 검색엔진으로 전송할 수 있게 해준다. 문자열을 일본어 문자로 역변환하는 프로그램은 검색의 결과를 디스플레이 하는데 사용되고, 그 결과는 일본어로 역변환된다.

단어 ＂face＂(영어 단어 ＂face＂와 일본어 EUC 코드값 = ＂face＂)와 같이 서로 겹치는 영어 텍스트/16 진 문자열은 영어 또는 일본어 텍스트를 식별하는 태그를 붙혀서 영어인 경우를 알려줌으로서 16 진 문자열, 즉 일본어 변환을 도와주는 것이 필요하다. 즉, EUC 코드로된 일본어 문자세트의 범위내에서 및 문자(＂a,b,c,d,e,f,0-9＂)로 이루어진 영어단어는 일본어 문자와 동일할 것이다. 바람직한 실시예에서 일본어 문장내의 영어단어는 그런 혼동을 방지하기 위하여 이중 앰퍼샌드(ampersand)로 표시한다. 예를 들어, 영어단어(＂face＂)는 ＂＠＠face＠＠＂로 표시된다. 바람직한 실시예에서 번역필터(52; 제4)와 정규의 인덱스 필터(42)는 구현 연속체(현재 하나에서의 필터에서 일어나는 처리과정은 다른 필터에서 일어날수 있고 그역도 가능한)를 이룬다. 자체의 요구에 가장 적합한 노동의 구분을 선택하는 것은 실시자에게 알려있고, 당업자는 상기에 공개된 방법의 다양한 구현예를 생각할 수 있다.

본 바람직한 실시예에서 합성명사에서 정보를 추출하는 추가적인 방법이 사용된다. 어떤 탐색엔진(예를 들어, AnswerBook에서 사용된 것과 같은)은 탐색 질의 상에서 ＂와일드 카딩(wild carding)＂ 이라는 기술을 사용할 수 있게 한다. 와일드 카딩은 추가적인 문자가 특수문자의 위치에 또는 그후에 나타나는 임의의 경우를 탐색엔진이 선택해야 한다는 것을 지시하기 위하여 특수문자(＂*＂ 또는 ＂!＂ 같은)를 삽입할 수 있게 한다. 이러한 종류의 탐색은 LUT에 의하여 나누어 지지 않는 합성명사내에 포함할 수 있는 단어를 엔진이 찾을 수 있게 된다.

예를 들어, ＂a3a4b2b5*＂를 탐색하면;

a3a4b2b5

a3a4b2b5d8e3

a3a4b2b5a4a2c9c0d0c2

등이 발견된다.

본발명이 바람직한 실시예에 관하여 기술되었지만, 당업자는 본발명이 기술된 실시예에 제한되지 않는다는 것을 인식할 것이다. 다른 언어의 문자를 16진 문자로 단일하게 맵핑하고 문자열을 단어로 파싱하는 방법이 당업자에 의해 쉽게 생각되어 질수 있다. 본발명의 방법 및 장치를 첨부된 특허청구범위의 사상과 범위내에서 수정 및 변경되어 실행될수 있다. 그러므로 설명은 본발명의 범위를 제한하는 것이 아니라 예시적인 것으로 간주되어야 한다.

Claims

256 문자보다 많은 문자를 포함하는 언어의 텍스트를 텍스트 처리시스템에 사용하기 위해 준비하는 방법에 있어서, 상기 방법은 :

a) 상기 언어를 나타내는 문자의 입력흐름을 포획하는 단계;

b) 문자의 상기 입력흐름을 단어를 나타내는 문자열로 분리하는 단계;

c) 상기 문자 열을 단일 바이트 문자의 단일 세트로 맵핑하는 단계; 및

d) 다음 처리과정을 위해 상기 텍스트 처리시스템으로 단어를 나타내는 단일 바이트 문자의 상기 단일 세트를 전송하는 단계로 구성되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 언어의 문법규칙은 단어분리자가 필요한 경우, 상기 문자 흐름내로 단어분리자를 삽입해서 상기 언어로 단어를 구성하는 상기 문자의 그룹의 범위를 정하는 경우를 결정하기 위해 사용되는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 언어의 합성단어의 합성단어의 조사표가 제공되어 상기 문자열에서 상기 합성단어중 임의것을 각각의 단순한 단어구성요소로 분리하는 것을 촉진하는 것을 특징으로 하는 방법.
제3항에 있어서, 상기 언어는 일본어인 것을 특징으로 하는 방법.
제4항에 있어서, 상기 일본어를 상기 문자의 입력흐름내로 포획하는 상기 단계는 각각의 상기 일본어 문자에 대하여 2바이트 16진 코드를 생성하는 확장된 UNIX 코드를 사용함으로써 이루어지는 것을 특징으로 하는 방법.
제5항에 있어서, 상기 단어 분리자를 상기 16진 문자열내로 삽입하는 상기 단계는 : 각각의 상기 2바이트 16진 코드가 한자, 가다가나 또는 히라가나 문자세트에 속하는지 여부를 결정하는 단계; 상기 한자, 가다가나 또는 히라가나 문자세트코드중 상이한 코드에 속하는 상기 2바이트 16진 코드중 2개의 인접한 코드 사이에 상기 단어 분리자중 하나를 삽입하는 단계; 상기 한자, 가다가나 또는 히라가나 문자세트의 동일한 세트인 2개이상의 상기 2바이트 16진 코드의 문장열을 합성단어로 식별하는 단계; 및 각각의 상기 합성단어를 합성단어 조사표내의 엔트리와 비교하고, 일치되는 것이 있으면, 일치되는 상기 합성단어를 상기 조사표에 의해 지시되는 구성 단어부로 분리하고, 각각의 상기 단어부 사이에 상기 단어분리자중 하나를 삽입하는 단계로 추가로 구성되는 것을 특징으로 하는 방법.
256문자보다 많은 문자로 구성되는 언어의 텍스트를 텍스트 처리시스템에서 사용할 수 있게 준비하는 장치에 있어서, 상기 장치는;

a) 상기 언어를 나타내는 문자의 입력흐름을 포획하는 필터장치;

b) 상기 필터장치에 접속되어, 문자의 상기 입력흐름을 단어를 나타내는 문자의 열로 분리하는 단어 필터;

c) 상기 단어필터에 접속되어, 단어를 나타내는 문자의 상기 문자열을 단일 바이트 문자의 단일 문자열로 맵핑하는 맵핑장치; 및

d) 상기 맵핑장치에 접속되어, 단어를 나타내는 단일-바이트 문자의 상기 단일 문자열을 상기 텍스트 프로세서로 전달하는 출력장치로 구성되는 것을 특징으로 하는 장치.
제7항에 있어서, 상기 언어는 일본어인 것을 특징으로 하는 장치.
제8항에 있어서, 상기 필터장치에 의해 사용된 상기 일본어를 나타내는 문자의 상기 입력흐름은 확장된 UNIX 코드를 채용하여 상기 문자를 표현하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 단어필터는 단어를 나타내는 상기 문자의 문자열로의 상기 문자의 분리를 촉진하기 위해 일본어 문법 분석기를 추가로 포함하는 것을 특징으로 하는 장치.
제10항에 있어서, 상기 단어필터는 문자의 상기 단어 그룹을 상기 합성단어 요소를 나타내는 문자의 소그룹으로 더욱더 쪼개기 위하여, 상용 합성단어 요소의 문자그룹을 포함하는 조사표내의 엔트리와 각각의 문자의 상기 단어그룹을 비교하는 수단으로 추가로 구성되는 것을 특징으로 하는 장치.
제11항에 있어서, 상기 단어필터는 상기 일본어 단어를 나타내는 문자흐름비도 상기 키(Key) 영어단어를 추가할 목적으로 등가의 키영어단어의 문자그룹을 포함하는 조사표내의 엔트리와 각각의 문자의 상기 단어그룹을 비교하는 표-조사장치로 추가로 구성되는 것을 특징으로 하는 장치.
제8항에 있어서, 상기 단어 필터는;

a) 각각의 상기 일본어 문자를 나타내는 코드가 한자, 가다가나, 또는 히라가나 문자세트에 속하는지 여부를 결정하는 문자-세트 분석기;

b) 상기 문자세트 분석기에 접속되어, 상기 문자-세트 분석기가 상기 문자세트가 변경되었다고 결정할때마다 상기 문자코드 열내에 분리자 표시를 삽입하는 문자 삽입장치;

c) 상기 문자세트 분석기에 접속되어, 상기 문자세트 분석기가 문자세트가 이전 문자-세트 유형으로 부터 변경되지 않았다고 결정할때 일련의 상기 일본어 문자를 합성단어로 선택하는 단어크기 분석기; 및

d) 상기 단어 크기 분석기에 접속되어, 상기 합성단어를 구성단어부로 분리하고 각각의 상기 단어부를 분리단어로 표시하는 단어 분리장치로 구성되는 것을 특징으로 하는 장치.
아스키에 기초한 덱스트 처리시스템을 처리할 수 있고 16진 문자를 아스키문자로 변환하는 능력을 가진 컴퓨터 시스템에서 256문자보다 많은 문자로 구성되는 언어의 텍스트를 상기 텍스트 처리시스템에 의해 사용될 수 있게 준비하는 방법에 있어서, 상기 방법은;

a) 상기 언어 텍스트를 16 진 문자로 번역하는 단계;

b) 상기 16 진 문자열을 단일 바이트 아스키 문자의 단일세트로 맵핑하는 단계; 및

c) 다음 처리를 위해 상기 언어를 나타내는 단일 바이트 아스키 문자의 상기 단일세트를 상기 자동화된 텍스트 프로세서 프로그램으로 전송하는 단계로 구성되는 것을 특징으로 하는 방법.
제14항에 있어서, 단어 분리자가 필요한 경우, 상기 16 진 문자열내에 상기 단어분리자를 삽입하여 상기 언어의 단어를 구성하는 상기 16 진 문자의 그룹의 범위를 정하는 능력을 제공하는 단계로 추가로 구성되는 것을 특징으로 하는 장치.
제15항에 있어서, 상기 언어의 문법규칙이 상기 단어분리자를 상기 16진 문자열 내로 삽입해야되는 경우를 결정하기 위하여 사용될수 있는 것을 특징으로 하는 방법.
제16항에 있어서, 상기 언의 합성단어의 조사표가 제공되어 상기 합성단어중 임의의 단어를 상기 16진 문자열의 각각의 단순한 단어 구성요소로 분리하는 것을 촉진하는 것을 특징으로 하는 방법.