KR20040047939A - 언어제한 없는 컴퓨터 코더-디코더와 그 방법 - Google Patents

언어제한 없는 컴퓨터 코더-디코더와 그 방법 Download PDF

Info

Publication number
KR20040047939A
KR20040047939A KR10-2004-7005869A KR20047005869A KR20040047939A KR 20040047939 A KR20040047939 A KR 20040047939A KR 20047005869 A KR20047005869 A KR 20047005869A KR 20040047939 A KR20040047939 A KR 20040047939A
Authority
KR
South Korea
Prior art keywords
semantic
code
words
result
unique
Prior art date
Application number
KR10-2004-7005869A
Other languages
English (en)
Inventor
포틸라구스타보
Original Assignee
디지털 에스페란토 인코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디지털 에스페란토 인코포레이션 filed Critical 디지털 에스페란토 인코포레이션
Publication of KR20040047939A publication Critical patent/KR20040047939A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 컴퓨터 시스템은 다수의 다른 언어들의 단어와 부호에 관련된 고유 의미의 인덱스된 데이타베이스(101)로 소스언어의 한정된 갯수의 단어와 부호들을 코딩하기 위한 것이다. 코딩된 단어들의 배치는 단어나 부호의 등급 시퀀스로 특징되는 언어들 각각의 한정된 수의 문법구조에 반응한다. 소스 언어의 사용자는 번역 방법을 조정하고 애매모호한 정보교환을 배제할 수 있다.

Description

언어제한 없는 컴퓨터 코더-디코더와 그 방법{COMPUTERIZED CODER-DECODER WITHOUT BEING RESTRICTED BY LANGUAGE AND METHOD}
본 발명은 1999년 7월 일 출원된 미국특허출원 09/351,208의 일부계속출원이고, 그 내용은 본 명세서에서 참고하였다.
정보는 보내는 사람이 선택하는 방식으로 유지되고 다른 사람들과 교류된다. 모든 사람은 자기가 관찰하는 사건에서 유래되거나 자신의 사고방식에서 유래되는 정보를 전달하는 문자 포맷을 갖는다. 대개, 같은 언어를 사용하는 사람들 사이에는 정보의 교류에 있어서 효과적인 대화가 이루어진다.
본 발명은 명확한 의미와 문법구조에 관한 인덱스 데이타베이스를 갖는 컴퓨터 시스템으로 정보를 코드화 및 암호화하는 것에 관한 것이다. 문장, 구 또는 단순히 절이든 간에 모든 코드 정보를 디코딩하면 이것을 소스언어나 다른 언어로 풀 수 있다. 어느 경우에도, 대역폭 및/또는 저장용량을 적게 필요로 하는 정보는 그 전달 및/또는 저장에 있어서 효율성이 증가된다.
과거에 적은 대역폭으로 좀더 효과적으로 정보를 전송하기 위해 정보를 압축코딩하는 문제를 해결하려는 많은 시도가 있었다. 그렇지만 이런 시도들은 한가지 언어만을 사용한다는 제한이 있는 것이 일반적이다. 이들 시도는 기본적으로 사용되는 언어에 제한이 있고, 모든 언어들은 애매한 부분이 있다. 이들 애매한 부분은 번역 과정에 영향을 준다. 종래 기술의 번역 과정은 경직되어 있고, 얻을 수 있는 정보에 제한이 있다.
본 발명은 모든 언어가 제한된 수의 의미(주로 단어지만 그 외 부호도 있음)를 갖는다는 인식에서 출발한다. 단어는 대부분 한가지 이상의 뜻을 갖는다고 알려져 있다. 그리고 모든 언어는 한정된 수의 문법구조를 가지므로, 서로 다른 언어들을 연계할 수 있다. 본 발명은 소스언어에서 사용되고 수신 언어에서 생성되는 문법구조의 상세내역으로 애매모호함을 없애는 메커니즘으로 지원되면서 각각의 언어의 의미들을 상호참조한다. 본 발명에 의하면, 사용자는 자신이 선호하는 언어를 지정할 수 있다.
본 발명에서는 다른 코드 언어에 대해 비대칭 특성을 갖는 중간/독립 코드를 생성하여 정보를 코딩 및 디코딩한다. 이런 중간코드는 서로 다른 언어의 의미 및 문법구조를 연계한다.
사용자는 수신단에서 본 시스템을 자신의 선호도에 맞게 조작할 수 있다. 따라서, 사용자는 자신의 선호도에 맞는 의미를 다른 의미보다 우선적으로 의미 리스트에서 선택할 수 있다. 특정 영역에서는 어떤 언어에서 공식적으로 받아들일 수 있는 다른 단어보다 더 잘 이해되는 단어가 있을 수 있다. 또는, 특수한 기술수준을 나타내고 복잡한 사상이나 의미들을 코드화하는 어휘집이 있을 수도 있다.
본 출원인은 가장 비슷한 참고자료는 Asahioca 일행의 미국특허 5,075,850과 Ikuta 일행의 미국특허 5,852,798이라고 본다.
Asahioka의 특허에 공개된 기술은 좀더 최근의 문장에서의 단어번역에 우선권을 두는 추정에 의한 "retrieval flag"와 상당한 심사숙고의 이용에 관련된다. 또, 하나의 단어가 여러개의 뜻을 갖는 문제를 인식하고 있다. 그러나, 본 발명은 이 특허에 공개된 기술을 이용하지 않는다. 이 특허기술은 가장 최근의 문장에서 사용된 뜻에 우선권을 두어 여러가지 뜻을 갖는 단어들을 선택하기 위한 절제된 추정(educated guess) 기술이라 할 수 있다.
본 발명은 상당히 정확하고, 서로 다른 언어, 정보요소(단어를 포함하지만 이에 한정되지 않음), 정보요소의 등급, 구조배열을 위한 인덱스 데이타베이스를 사용하여 신뢰성이 높다. 본 발명은, 각각의 언어에 대한 이들 요소, 등급 및 배열들의 수가 한정되어 있다는 사실에 중점을 두었고, 다른 언어에 대해 상호참조한다. 또, 단어는 어떤 언어에서 한가지가 아닌 여러가지 의미를 가질 수 있으므로, 단어가 아닌 정보요소로 취급된다. 이들 정보요소들은 문장구조배열의 특정 위치나 주어진 등급에 따라 하나의 의미를 갖는다.
인용된 특허 어느 것도 인덱스형 구조배열의 사용이나 이런 배열들을 다른 언어에 대해 상호참조하는 것에 대해서는 언급하지 않았다. 근본적으로, 본 발명자는 정보요소들이 어떻게 표현되는지에 무관하게 정보요소의 기본처리를 기초로 디지탈 에스페란토(세계공통어)를 창조한다.
Ikuta의 특허에서는 여러개의 뜻을 갖는 단어들을 사용할 때의 문장문제와불확실성을 해결하지 못했다. Ikuta의 특허는 단순히 특허된 번역장치와 기계적인 번역방법을 이용해 최종 문장을 만들 뿐이다. 각각의 언어에서 볼 수 있는 한정된 수의 요소, 등급 및 구조들은 전혀 인식하지 못하고 있다. 이들 요소들을 구조적인 위치에 맞게 매칭시켜 여러가지 의미에 의한 불확실성이나 모든 언어에 고유한 문장문제들을 피하는 것에 대해서는 설명이 없다.
Asahioka 특허의 변형례를 Ikuta의 특허에서 취할 수 있다 해도, 그 장치는 문장론적 문제에 있어서 여러가지 뜻을 갖는 요소들에 의한 불확실성을 없앨 수 없었다. Asahioka의 특허에서 사용된 메커니즘은 번역중인 정보의 바로 직전 내용에 의지하여 여러가지 뜻을 갖는 요소의 가장 올바른 번역을 "대략적으로" 선택하는 것이다. 본 발명은 이런 제한으로부터 출발했다. 본 발명은 기본적으로 불활실성을 갖는 Asahioka 특허의 "retrieval falg" 메커니즘을 사용하지 않는다.
본 발명과 가장 가까운 주제를 설명하는 다른 특허들에서는 효율적이고 경제적으로 이런 문제를 해결하지 못하는 여러가지 다소간 복잡한 특징들을 갖는다. 어떤 특허에서도 본 발명과 같은 새로운 특징들을 제시하지는 못했다.
본 발명은 사용자의 선호도에 따라 명확하게 정보를 코딩 및 디코딩하는 시스템에 관한 것이다.
도 1은 하나 이상의 관련 정보요소(단어나 부호)와, 각각의 의미요소에 대한 설명을 갖는 인데스형 의미요소의 데이타베이스로서, 의미요소들은 한정된 수의 의미요소를 갖는 데이타베이스의 필드들중 하나를 구성하고, 추가적인 필드쌍은 동의어와 설명정보의 리스트와 같은 한정된 수의 정보요소들에 대응하는 언어들 각각에 할당되는 데이타베이스;
도 2는 각각의 문법구조에 대한 고유 시퀀스를 갖는 각각의 언어에 대한 인덱스형 문법구조의 데이타베이스로서, 인덱스 문법구조 단위들은 하나의 필드에 그룹화되고 각각의 단위는 각각의 필드들이 할당된 서로 다른 언어들의 다른 단위에 대응하는 데이타베이스;
도 3은 사용자가 제공한 정보를 소스언어로부터 선택적으로 코딩하고 미리 코딩된 텍스트의 코딩을 위한 소프트웨어와 방법을 보여주는 도면;
도 4는 사용자가 제공한 정보를 문법구조로서 소스언어로부터 코딩하되, 도 3의 308 단계의 자세한 방법을 보여주는 도면;
도 5는 앞에서 코딩된 정보를 문법구조로서 디코딩하되, 도 3의 314 단계의 자세한 방법을 보여주는 도면;
도 6은 앞에서 코딩된 구와 절을 문법구조로서 디코딩하되, 도 4의 413과 415 단계의 자세한 방법을 보여주는 도면;
도 7은 앞에서 코딩된 구와 절을 문법구조로서 디코딩하되, 도 5의 514와 516 단계의 자세한 방법을 보여주는 도면;
도 8은 앞에서 코딩된 텍스트의 단어들을 문법구조로서 코딩하되, 도 4의 410 단계의 자세한 방법을 보여주는 도면;
도 9는 앞에서 코딩된 텍스트를 주어진 코드의 의미로 번역하기 위해 사용자가 선호하는 어휘로 디코딩하되, 도 5의 511 단계의 자세한 방법을 보여주는 도면.
발명의 개요
본 발명의 주목적은, 언어제한이 없고 사용자들이 다른 언어로 접근할 수 있는 고유의 의미요소들을 전달하는 정보로 이벤트나 사상을 표현하는 시스템을 제공하는데 있다.
본 발명의 다른 목적은, 불확실성이 없고 사용자가 불확실성을 피하기 위한소스언어를 사용해 조정할 수 있는 시스템을 제공하는데 있다.
본 발명의 또다른 목적은, 다른 언어를 사용하는 사용자들이 자신의 단어와 부호들을 다른 언어로부터 접근할 수 있는 중간 의미요소로 변환시킬 수 있는 시스템을 제공하는데 있다.
본 발명의 다른 목적은, 언어제한이 없고 디코드했을 때 전달된 정보의 의미를 잃지 않고 수용 언어 사용자의 선호도를 충분히 허용할 정도로 유연성을 갖는 결과 코드로, 소스언어로부터 정보를 캡처하는데 있어서 확실하고도 불확실성이 없는 시스템을 제공하는데 있다.
본 발명의 또다른 목적은, 서로 독립적인 과정을 거쳐 정보요소(단어, 부호)를 코딩 및 디코딩하고, 불확실성이 없는 정보요소, 구문 및 문장들을 유도하는데 한정된 소스언어로 사용자에게 상호작용 메커니즘을 제시하는 비대칭 시스템을 제공하는데 있다.
본 발명의 다른 목적은, 소스 사용자의 사상을 정확히 표현하는 통합 정보 코딩/디코딩용 유연한 비대칭 시스템을 제공하는데 있다.
본 발명의 또다른 목적은, 효율성을 가지면서도 구현과 유지관리에 있어서 저렴한 시스템을 제공하는데 있다.
이하, 첨부 도면들을 참조하여 본 발명에 대해 자세히 설명한다.
이하, 첨부 도면을 참조하여 본 발명을 설명하되, 도면에서 박스는 소프트웨어와 방법의 단계들을 나타내고, 도 1, 2는 각각 인덱스된 의미요소와 문법구조를 나타낸다. 도 1의 의미요소는 인간에 대한 의미를 갖는 단어, 부호, 그림, 표현 등의 모든 정보요소를 광범위하게 커버한다. 의미요소는 등급별로 동사, 형용사 등으로 그룹화된다. 이들 종류는 이들이 저장된 코드나 장소의 확장으로 표시된다.
도 2는 문법구조를 위한 필드(201)의 유한 갯수의 설명들을 인간이 인식하는 소정 언어로 리스트한 데이타베이스를 나타낸다. 필드(202)는 필드(201)의 각각의 설명에 기재된 문법구조들 각각이나 문법구조 단위에 대한 성분등급의 시퀀스에 대응한다. 필드(203)는 각각의 문법구조에 대한 고유코드를 보유한다. 필드(203)의 코드는 필드(201,202)에 각각 포함된 설명문과 시퀀스에 대응한다.
도 3은 사용자의 소스 언어, 통상적으로 아래 설명되는 소프트웨어로 컴퓨터 시스템에 입력되는 텍스트 문자열을 통해 공급되는 정보를 선택적으로 코딩하거나 디코딩하기 위한 일반적인 알고리즘에 해당한다.
본 발명자는 주어진 언어의 단어와 부호가 한정되어 있다는 개념으로 시작했다. 또한 의미요소도 한정되어 있다. 도 1에서, 명사 "하우스"는 인덱스 번호 02348에 대응하고 거처 역할을 하는 구조에 관련된다. "거처", "홈"과 같은 동의어는 동일한 정보를 제공하므로, 동일한 의미요소 02348에 대응한다. 이들 3개 단어중 어떤 것을 포함하는 구나 문장도 동일한 의미요소를 생성한다. 다른 언어들을추가하면, 동일한 정보요소에 대응하고 하나 이상의 단어나 부호들을 갖는 3차원 레벨로 이들을 비주얼화할 수 있다. 그러나, "하우스"란 단어는 동사로도 사용되고 이런 다른 의미의 다른 동의어를 갖기도 한다.
의미요소 10159는 다른 의미를 갖는 동사인 필드(102)의 동의어(하우스)에 대응한다. 따라서, 문장으로 입력하면, "하우스"란 단어가 다른 의미요소 인덱스에 참조된다.
도 3에는 텍스트를 처리하는 알고리즘이 도시되어 있다. 다른 도면들에는 다른 기능들을 수행하는 소프트웨어 알고리즘이 표시되어 있는바, 이에 대해서는 후술한다. 부호나, 더 큰 정보 사운드, 전체 노래 등을 받도록 설계될 수도 있다. 편의상, 본 명세서에서는 의미요소를 상호참조하는 텍스트 단어에 한정한다. 도 3에 표현된 일반적 알고리즘은 문법구조를 코딩하거나 디코딩하는 처리방법을 보여준다. 다른 하위 과정들은 다른 도면들에 도시되어 있다.
주어진 소스언어의 텍스트는 사용자에 의해 입력장치(301)에서 입력된다. 텍스트는 하나 이상의 문법구조단위로 구성된다. 문법구조단위들은 전체 문장이나 구 또는 하나 이상의 절을 포함할 수 있다. 문법구조단위들은 하나 이상의 절이나 구와 같은 하위단위로 구성될 수 있다. 콤마, 마침표와 같은 구두점과 접속사는 문법구조단위의 시작과 끝을 검출하는데 사용된다. 사용자는 코딩연산이나 디코딩연산을 요청하는 명령어를 사용자 인터페이스 소프트웨어(302)에 입력할 필요가 있다. 소프트웨어(303)는 사용자의 요청을 검색하고 연산을 시작하기에 적당한 테이블을 초기화한다. 코딩을 위해서는 텍스트가 소프트웨어(304)에 입력된 다음소프트웨어(305)에 의해 전체 문장, 구 또는 등급 그룹일 수 있는 순차 문법구조단위로 순차적으로 분리된다. 소프트웨어(306)는 사용자가 입력한 텍스트에 존재하는 문법구조단위의 갯수를 조사하고 소프트웨어(307)에서는 갯수를 카운트하기 시작한다.
다음, 문법구조단위를 디코딩하는 과정이 소프트웨어(308)와 도 4에 더 자세히 도시되어 있다. 여기서, 문법구조단위는 도 2에 표시된 소스언어의 인덱스 문법구조 테이블에 따라 코딩된다. 소프트웨어(309)는 최종 단위를 점검하고, 최종 단위가 없으면 소프트웨어(309)의 과정이 다음 단위에서 다시 시작한다. 최종 단위가 처리되었으면, 코딩된 문법구조단위의 시퀀스가 코드 텍스트의 다음 처리를 위해 소프트웨어(316)로 보내진다.
반대로, 코딩된 시퀀스를 301에서 입력하고 사용자가 디코딩 옵션을 요청하면, 이 시퀀스는 소프트웨어(310)로 보내지고, 이곳에서 구두점이나 다른 표시가 확인된다. 이어서, 다른 코딩 문법구조단위들이 분리되어 스프트웨어(312)에서 카운트될 때 시퀀스가 소프트웨어(311)에서 처리된다. 코딩된 시퀀스와 관련 정보는 카운터 소프트웨어(310)로 보내져 처리되는 각 단위를 카운트한다. 다음, 코딩된 단위는 소프트웨어(314)에서 디코딩되는데, 이에 대해서는 도 5를 참조하여 자세히 설명한다. 디코딩된 문법구조단위들은 소프트웨어(316)로 보내져 출력장치를 통해 더 처리되어 사용자가 수신하게 된다.
도 3의 소프트웨어(308)를 자세히 보여주는 도 4에서 볼 수 있듯이, 첫번째 문법구조단위의 코딩될 텍스트가 입력되는 403에서 시작한다. 첫번째 단위는 완전한 문장이 아닌 한 가능한한 구나 절의 시퀀스로 입력된다. 소프트웨어(404)는 문법구조단위를 대응하는 하위단위인 구나 절로 분리한다. 소프트웨어(405)는 문법단위의 구나 절의 갯수를 카운트하고, 하위단위에 대한 처음 카운터를 "0"으로 설정한다. 텍스트가 소프트웨어(406)로 입력되면, 하위단위 카운터가 1씩 증가한 다음, 소프트웨어(407)가 (바람직한 실시예에서 텍스트 단어에 해당하는) 다른 의미요소의 다른 문법구조 하위단위들을 분리한다. 소프트웨어(408)는 각각의 하위단위의 단어수를 카운트한다.
디코딩 방법이 도 5에 도시되어 있는데, 여기서 블록(501)은 코딩된 텍스트를 입력하는 입력장치로서, 디코딩에 필요한 기능을 입력하기 위한 사용자 인터페이스 소프트웨어(502)에 연결된다.
디코딩할 첫번째 코딩 구(phrase)가 소프트웨어(503)에 입력되고, 문법구조의 등급은 소프트웨어(504)에 의해 디코딩되어 하위단위인 문장이나 문장을 구성하는 구나 절의 특정 시퀀스를 제공한다. 소프트웨어(505)는 인덱스 문법구조들의 데이타베이스에서 지시된 특정 배열을 갖는 각각의 문법단위/구의 하위단위들을 분리한다. 하위단위 카운터는 0에서 시작하고, 주어진 문법구조단위의 하위단위의 총 갯수는 소프트웨어(506)에서 조사된다. 하위단위 카운터(507)는 1씩 증가한다. 다음, 각각의 하위단위의 코드 텍스트는 개별적인 코드 단어들로 분리되고, 단어카운터 소프트웨어(509)는 0에서 시작하며, 처리중인 하위단위의 총 단어수가 조사된다. 단어카운터는 소프트웨어(510)에 의해 1씩 증가한다. 다음, 소프트웨어(511)는 처리중인 단어를 디코딩하는데, 이에 대해서는 도 9를 참조해 자세히 설명한다. 블록(512)은 단어의 등급(예; 동사, 형용사 등)을 추출하는 소프트웨어이다. 바람직한 실시예에서, 이 정보는 단어(또는 의미요소)에 추가로 첨부되는 코드로 표시되거나, 코드그룹에서 쉽게 추정할 수 있다.
소프트웨어(513)는 최종 단어를 판단한다. 최종 단어가 아니면, 다음 단어의 처리가 소프트웨어(510)에서 시작한다. 최종 단어이면, 하위단위가 디코딩되고 디코딩된 단워의 시퀀스가 소프트웨어(514)에 의해 제위치에 삽입되는데, 이에 대해서는 도 7을 참조해 자세히 설명한다. 소프트웨어(515)는 디코딩되는 문법구조단위의 최종 하위단위가 있는지를 판단한다. 최종 하위단위가 없으면, 그 다음 하위단위 처리를 블록(507)에서 시작한다. 최종 하위단위가 있으면, 완벽한 문법구조단위의 결과가 소프트웨어(516)로 보내져 조립된다. 이곳에서 문법구조단위는 출력 소프트웨어(517)로 보내져 더 처리된다.
도 6에는 도 4의 블록(413)에 표현된 문법구조단위의 하위단위들을 코딩하는 방법이 도시되어 있다. 소프트웨어(605)에서 시작하고, 이곳에서 하위단위나 단어들의 시퀀스를 수신하여 코딩한다. 소프트웨어(606)는 의미의 등급 시퀀스를 분석한다. 단어 시퀀스로부터, 주어진 하위단위의 코드가 얻어진다. 하위단위의 시퀀스 조합으로부터, 단위들(구나 문장)의 코드가 얻어진다. 이어서, 결과는 조립을 위해 소프트웨어(609)로 보내지고 더이상의 처리를 위해 출력소프트웨어(610)로 보내진다.
도 7에는 도 5의 블록(514)에 표현된 문법구조단위를 디코딩하는 방법과 소프트웨어 알고리즘이 도시되어 있다. 소프트웨어(704)는 코딩된 문법구조단위를 받아 디코딩하여 소프트웨어(708)로 보낸다. 이 단위의 코드는 도 2에 표현된 문법구조의 인덱스 데이타베이스와 비교되고, 하위단위나 언어성분(단어)의 대응 시퀀스가 복귀된다. 디코딩 결과는 소프트웨어(709)에 의해 조립되고 출력소프트웨어(710)에 의해 처리된다.
전술한 바와 같이 그리고 도 4의 블록(410)에 표현된 것처럼, 도 8에 단어를 코딩하는 방법이 도시되어 있다. 소프트웨어(805)는 텍스트 단어를 받아 비교 소프트웨어(806)로 보내고, 비교 소프트웨어는 도 1의 인덱스 데이타베이스에 접속한다. 이 단어가 고유 의미를 갖고 하나의 의미요소에 대응하는지의 여부를 소프트웨어(807)가 판단한다. 그렇다면, 의미요소의 코드가 소프트웨어(812)에 의해 선택되어 소프트웨어(815)로 보내져 조립된 다음 출력소프트웨어(816)에서 처리된다. 이 단어의 뜻이 하나만이 아니면, 애매모호함을 해소해야 하므로 소프트웨어(808)가 작동되며, 이곳에서 사용자는 단어가 특정 의미요소에 대응하는지를 판단할 기회를 받는다. 특정 의미요소에 대응하지 않으면, 다른 의미요소가 사용자에게 제시되고 사용자는 이 의미요소를 선택하거나 다른 의미요소를 점검할 기회를 한번 더 갖는다. 사용자는 필드(102)의 동의어 디스플레이를 읽거나 필드(101)의 의미요소 설명을 읽어 의미요소를 확인한다. 코딩을 조정하는 소스 사용자가 가능한 모든 애매모호함을 제거하는 메커니즘을 구현하는 다른 방식도 있다. 디코딩 연산은 애매모호함이 없도록 한다.
도 9는 도 5의 블록(511)에 표현된 디코딩 방법을 설명하는데, 이곳에서 코딩된 단어는 소프트웨어(903)로 보내진 다음 소프트웨어(908)로 보내져 도 1의 인덱스 데이타베이스에서 고유 의미요소를 추출한다. 사용자는 자신의 선호도나 인종적인 사용을 기초로 의미요소의 데이타베이스를 수정하여, 특정 의미요소가 특정 동의어를 출력하도록 할 수도 있다. 이런식으로, 코딩된 단어를 디코딩할 때 선호하는 단어를 사용한다. 디코딩된 단어는 조립 소프트웨어(910)와 출력 소프트웨어(912)로 보내진다.
어떤 언어에서는 특정 의미를 하나의 단어로 충분한 표현할 수 있지만 다른 언어에서는 두개의 단어로 표현해야 하는 경우도 있다. 예컨대, 영어로는 "stopped raining"이라고 두개의 단어를 사용하지만 스페인어로는 "escampo"라고 말하기만 하면 된다. 마찬가지로, 영어로는 "injunction"이란 한 단어가 스페인어로는 "orden de prohibicion"이라고 표현되기도 한다. 그러나, 하나의 정보요소에는 하나의 의미만 표현됨은 분명하다.
이상의 설명으로 부터 알 수 있듯이, 단어와 부호를 코딩하고 디코딩하는 컴퓨터 시스템과 방법은 하나의 언어를 다른 언어로 명확하고 정확하게 번역하는데 아주 바람직하다. 또, 다른 언어로 번역되지 않는 경우에도, 최소의 저장 및/또는 대역폭 조건으로 정보를 더 효과적으로 저장했다가 뒤에 재구성할 수 있다.

Claims (12)

  1. 단어와 부호를 코딩하는 컴퓨터 시스템에 있어서:
    A) 관련 저장수단을 갖는 컴퓨터 수단;
    B) 다수의 고유 의미요소들을 위한 코드를 갖는 제1 필드, 상기 고유 의미요소들 각각에 의미상으로 대응하는 단어나 부호의 제2 필드, 및 소정 갯수의 등급들중 하나로 상기 의미요소들을 등급화하는 수단을 포함하고, 상기 저장수단에 거주하는 제1 인덱스 데이타베이스;
    C) 상기 컴퓨터 수단에 단어와 부호들을 입력하기 위한 입력수단;
    D) 상기 입력수단을 통해 앱력된 단어나 부호들 각각에 대해 상기 의미요소들중 하나를 선택하고, 입력된 단어나 부호가 고유 의미요소를 비준하는지를 판단하는 수단을 포함하며, 상기 단어나 부호가 하나의 의미요소를 갖지 않으면 결과코드를 생성하고, 입력된 단어나 부호가 하나 이상의 의미요소를 비준하면 의미요소의 선택을 디스플레이하는 수단을 더 포함하며, 비준된 의미요소의 상기 디스플레이 선택수단으로부터 사용자가 하나의 의미요소를 검출하여 결과 의미코드를 생성하기 위한 수단을 더 포함하는 코딩 소프트웨어 수단; 및
    E) 상기 결과 의미코드를 저장하기 위한 출력수단;을 포함하는 것을 특징으로 하는 컴퓨터 시스템.
  2. 제1항에 있어서, 상기 제1 인덱스 데이타베이스가 다수의 제2 필드들을 포함하고, 각각의 제2 필드는 상기 의미요소들 각각에 의미상 대응하는 하나 이상의 단어나 부호를 갖는 언어에 관련되는 것을 특징으로 하는 컴퓨터 시스템.
  3. 제2항에 있어서,
    F) 다수의 문법구조단위들을 위한 코드를 갖는 제3 필드와 다수의 제4 필드를 구비하고, 제4 필드들 각각은 어떤 언어의 문법구조 단위들을 소정 갯수 포함하며, 상기 제4 필드 각각의 상기 문법구조단위들 각각은 다른 제4 필드의 제2 문법구조단위들 각각에 관련되며, 상기 문법구조단위들은 각각의 단위에 제시된 상기 의미요소들의 등급의 시퀀스에 따라 분류되어 있는 제2 인덱스 데이타베이스;
    G) 상기 결과 의미코드들의 등급 시퀀스들을 확인하고, 상기 의미코드들에 내재하는 상기 등급 시퀀스들을 문법구조단위들 각각과 관련시켜 결과 문법구조코드를 생성하는 수단; 및
    H) 결과 문법구조코드를 저장하기 위한 출력수단;을 더 포함하는 것을 특징으로 하는 컴퓨터 시스템.
  4. 제1항에 있어서,
    I) 상기 결과 의미코드들중 하나를 선택하고 이들 코드 각각을 고유 단어나 부호에 상호참조하기 위한 디코딩 소프트웨어 수단; 및
    J) 상기 단어나 부호들을 저장하기 위한 출력수단;을 더 포함하는 것을 특징으로 하는 컴퓨터 시스템.
  5. 제4항에 있어서, 상기 제1 인덱스 데이타베이스가 다수의 제2 필드들을 포함하고, 각각의 제2 필드는 의미상 상기 의미요소들 각각에 대응하는 하나 이상의 단어나 부호를 갖는 하나의 언어와 관련되는 것을 특징으로 하는 컴퓨터 시스템.
  6. 제5항에 있어서,
    F) 다수의 제3 필드를 갖고, 각각의 제3 필드는 어떤 언어의 문법구조단위들을 소정 갯수 구비하며, 제3 필드의 상기 문법구조단위들 각각은 다른 제3 필드의 문법구조단위들중 하나하고만 관련되고, 상기 문법구조단위들은 각각의 단위에 제시된 상기 의미요소의 등급 시퀀스에 따라 분류되어 있는 제2 인덱스 데이타베이스;
    G) 상기 결과 의미코드의 등급 시퀀스를 확인하고 상기 의미코드에 내재된 상기 등급 시퀀스를 문법구조단위들중 하나와 관련시켜 결과 문법구조코드를 생성하는 수단; 및
    I) 상기 결과 문법구조코드를 저장하기 위한 출력수단;
    K) 결과 의미요소들의 고유 등급 시퀀스로 상기 결과 문법구조코드들을 확인하는 수단;
    L) 상기 고유 단어나 부호들을 결과 의미요소의 상기 고유 등급 시퀀스들중 하나로 조립하는 수단; 및
    M) 고유 단어나 부호의 상기 시퀀스들을 저장하기 위한 출력수단;을 더 포함하는 것을 특징으로 하는 컴퓨터 시스템.
  7. 단어와 부호를 코딩하는 방법에 있어서:
    A) 다수의 고유 의미요소들을 제1 인덱스 데이타베이스의 제1 필드에 배열하는 단계;
    B) 대응하는 다수의 단어나 부호들을 제1 인덱스 데이타베이스의 제2 필드에 배열하는 단계;
    C) 상기 의미요소들을 여러 등급으로 그룹화하는 단계;
    D) 컴퓨터 시스템에 단어나 부호를 입력하고, 입력된 단어나 부호 각각의 의미요소를 선택하는 단계;
    E) 상기 단어나 부호들 각각이 고유 의미요소를 비준하는지 여부를 판단하는 단계;
    F) 입력된 단어나 부호의 모든 고유 의미요소들이 하나 이상의 고유 의미요소를 갖고 그중 하나만을 비준하는지 판단하는 단계;
    G) 비준된 단어나 부호의 고유 의미요소를 선택하여 결과 코드를 생성하는 단계; 및
    H) 상기 결과 의미 코드를 저장하는 단계;를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    I) 상기 의미요소 각각에 의미상 대응하는 단어나 부호를 하나 이상 갖고 언어당 하나씩 배치되는 소정 갯수의 제2 필드들을 배열하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 제7항에 있어서,
    J) 의미요소의 고유 등급 시퀀스를 갖는 것을 특징으로 하는 다수의 문법구조단위들을 제2 인덱스 데이타베이스의 소정 갯수의 제3 필드 각각에 배열하되, 제3 필드 각각은 서로 다른 언어에 관련되고, 제3 필드 각각의 상기 문법구조단위들 각각은 다른 제3 필드의 다른 문법구조단위에 참조되어 공통적으로 문법구조단위 코드로 확인되게 하는 단계;
    K) 상기 결과 의미코드들의 등급 시퀀스를 확인하고 이 시퀀스를 상기 제3 필드의 문법구조단위들중 하나와 연관시키는 단계; 및
    L) 상기 결과 문법코드를 저장하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  10. 제7항에 있어서,
    M) 컴퓨터 시스템에 상기 결과코드들을 입력하는 단계;
    N) 상기 결과코드들 각각을 선택하여 고유 단어나 부호에 상호참조하는 단계; 및
    O) 상기 단어나 부호를 저장하는 단계;를 더 포함하는 것을 특징으로 하는방법.
  11. 제10항에 있어서,
    P) 의미적으로 상기 의미요소들 각각에 대응하는 단어나 부호를 하나 이상 갖고 언어당 하나씩 대응되는 소정 갯수의 제2 필드들을 배열하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  12. 제11항에 있어서,
    J) 의미요소의 고유 등급 시퀀스를 갖는 것을 특징으로 하는 다수의 문법구조단위들을 제2 인덱스 데이타베이스의 소정 갯수의 제3 필드 각각에 배열하되, 제3 필드 각각은 서로 다른 언어에 관련되고, 제3 필드 각각의 상기 문법구조단위들 각각은 다른 제3 필드의 다른 문법구조단위에 참조되어 공통적으로 문법구조단위 코드로 확인되게 하는 단계;
    K) 상기 결과 의미코드들의 등급 시퀀스를 확인하고 이 시퀀스를 상기 제3 필드의 문법구조단위들중 하나와 연관시키는 단계;
    L) 상기 결과 문법코드를 저장하는 단계;
    Q) 결과 의미요소들의 고유 등급 시퀀스로 상기 결과 문법구조단위 코드들을 확인하는 단계;
    R) 상기 고유 단어나 부호들을 결과 의미요소의 상기 고유 등급 시퀀스들중 하나로 조합하는 단계; 및
    S) 상기 고유 단어나 부호의 시퀀스들을 저장하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
KR10-2004-7005869A 2001-10-22 2002-03-28 언어제한 없는 컴퓨터 코더-디코더와 그 방법 KR20040047939A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/033,133 2001-10-22
US10/033,133 US20020052748A1 (en) 1999-07-09 2001-10-22 Computerized coder-decoder without being restricted by language and method
PCT/US2002/009840 WO2003036522A1 (en) 2001-10-22 2002-03-28 Computerized coder-decoder without being restricted by language and method

Publications (1)

Publication Number Publication Date
KR20040047939A true KR20040047939A (ko) 2004-06-05

Family

ID=21868726

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7005869A KR20040047939A (ko) 2001-10-22 2002-03-28 언어제한 없는 컴퓨터 코더-디코더와 그 방법

Country Status (10)

Country Link
US (1) US20020052748A1 (ko)
EP (1) EP1449118A1 (ko)
JP (1) JP2005506635A (ko)
KR (1) KR20040047939A (ko)
CN (1) CN1575467A (ko)
BR (1) BR0213667A (ko)
CA (1) CA2503329A1 (ko)
MX (1) MXPA04003792A (ko)
RU (1) RU2004115749A (ko)
WO (1) WO2003036522A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
CN100517300C (zh) * 2002-11-28 2009-07-22 皇家飞利浦电子股份有限公司 分配词类信息的设备和方法
US20100280818A1 (en) * 2006-03-03 2010-11-04 Childers Stephen R Key Talk
US20070206771A1 (en) * 2006-03-03 2007-09-06 Childers Stephen Steve R Key talk
WO2008048090A2 (en) * 2006-10-18 2008-04-24 Calculemus B.V. Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language.
US9323854B2 (en) * 2008-12-19 2016-04-26 Intel Corporation Method, apparatus and system for location assisted translation
JP6704928B2 (ja) * 2014-12-10 2020-06-03 キンダイ、インコーポレイテッドKyndi, Inc. 重み付きサブシンボリックデータ符号化
CN110096481B (zh) * 2019-04-19 2021-03-23 福建天晴数码有限公司 文件编码的识别方法及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2831647B2 (ja) * 1988-03-31 1998-12-02 株式会社東芝 機械翻訳システム
JP3176059B2 (ja) * 1990-11-15 2001-06-11 キヤノン株式会社 翻訳装置
US5442782A (en) * 1993-08-13 1995-08-15 Peoplesoft, Inc. Providing information from a multilingual database of language-independent and language-dependent items
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5852798A (en) * 1995-08-08 1998-12-22 Matsushita Electric Industrial Co., Ltd. Machine translation apparatus and method for translating received data during data communication
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method

Also Published As

Publication number Publication date
RU2004115749A (ru) 2005-10-27
EP1449118A1 (en) 2004-08-25
WO2003036522A1 (en) 2003-05-01
CN1575467A (zh) 2005-02-02
MXPA04003792A (es) 2004-07-30
US20020052748A1 (en) 2002-05-02
JP2005506635A (ja) 2005-03-03
BR0213667A (pt) 2004-11-30
CA2503329A1 (en) 2003-05-01

Similar Documents

Publication Publication Date Title
Guy Searching by talking: Analysis of voice queries on mobile web search
US20080158023A1 (en) Apparatus and Method for Expressing Hangul
Zajic et al. Multi-candidate reduction: Sentence compression as a tool for document summarization tasks
US7831911B2 (en) Spell checking system including a phonetic speller
US5828991A (en) Sentence reconstruction using word ambiguity resolution
EP0562818A2 (en) System for pattern based text translation
US20060069546A1 (en) Autonomous response engine
EP1224569A1 (en) Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
CN110991180A (zh) 一种基于关键词和Word2Vec的命令识别方法
US7136803B2 (en) Japanese virtual dictionary
Soto et al. Joint part-of-speech and language ID tagging for code-switched data
Grif et al. Development of computer sign language translation technology for deaf people
KR20040047939A (ko) 언어제한 없는 컴퓨터 코더-디코더와 그 방법
Dittenbach et al. A natural language query interface for tourism information
KR100379735B1 (ko) 코드화를 통한 자연어 처리장치 및 방법
JP2004240859A (ja) 言い換えシステム
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
Gong et al. Improved word list ordering for text entry on ambiguous keypads
CN111414459A (zh) 人物关系获取方法、装置、电子设备及存储介质
Zitouni et al. A cascaded approach to mention detection and chaining in Arabic
Zajic Multiple alternative sentence compressions as a tool for automatic summarization tasks
AU2002247446A1 (en) Computerized coder-decoder without being restricted by language and method
CN101135937A (zh) 一种整句输入法
Schneider et al. Statistical sequence and parsing models for descriptive linguistics and psycholinguistics
US7805291B1 (en) Method of identifying topic of text using nouns

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination