KR20040007741A - Cross-idea association database creation - Google Patents

Cross-idea association database creation Download PDF

Info

Publication number
KR20040007741A
KR20040007741A KR10-2003-7016595A KR20037016595A KR20040007741A KR 20040007741 A KR20040007741 A KR 20040007741A KR 20037016595 A KR20037016595 A KR 20037016595A KR 20040007741 A KR20040007741 A KR 20040007741A
Authority
KR
South Korea
Prior art keywords
word
document
words
state
correlation
Prior art date
Application number
KR10-2003-7016595A
Other languages
Korean (ko)
Inventor
엘리 에이버
Original Assignee
엘리 에이버
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘리 에이버 filed Critical 엘리 에이버
Publication of KR20040007741A publication Critical patent/KR20040007741A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

교차-아이디어 상관 데이터베이스를 생성하는 방법 및 장치가 공개된다. 교차-아이디어 데이터베이스는 한 상태의 정보에 해당하는 한가지 언어의 단어 및 어구들을 제 2 상태의 정보에 해당하는 제 2 언어의 단어 및 어구들에 상관시킨다. 이 방법은 제 1 상태로 표현된 콘텐트를 수신하고 제 2 상태로 표현된 콘텐트를 수신하여, 제 1 상태의 콘텐트와 제 2 상태의 콘텐트로 분석하는 단계를 포함한다. 분석은 제 1 상태로 표현된 콘텐트 세그먼트들과 제 2 상태로 콘텐트 세그먼트들을 이용한다. 이 방법은 상기 제 2 상태의 상기 콘텐트에 대한 상기 제 1 상태의 콘텐트의 상관 데이터베이스를 생성하는 과정을 포함한다.A method and apparatus for generating a cross-ideal correlation database are disclosed. The cross-ideal database correlates words and phrases in one language corresponding to information in a state with words and phrases in a second language corresponding to information in a second state. The method includes receiving content represented in the first state and receiving content represented in the second state, and analyzing the content in the first state and the content in the second state. The analysis uses the content segments represented in the first state and the content segments in the second state. The method includes creating a correlation database of content in the first state relative to the content in the second state.

Description

교차-아이디어 상관 데이터베이스 방법 및 시스템{CROSS-IDEA ASSOCIATION DATABASE CREATION}Cross-ideal correlation database method and system {CROSS-IDEA ASSOCIATION DATABASE CREATION}

발명의 한 실시예에서, 두개의 상태는 언어(가령, 영어, 히브리어, 중국어 등)을 나타내며, 본 발명은 제 1 언어의 단어 및 어구를 제 2 단어의 번역 대응어에 상관시키는 교차-언어 데이터베이스를 생성하게 한다. 본 예에서, 본 발명은 두 언어로 된 문서를 검사함으로서 그리고 두 언어로 된 각각의 단어나 어구에 대한 변환 데이터베이스를 생성함으로서 데이터베이스를 생성한다. 본 발명으로 인해, 사용자는 아이디어의 데이터베이스를 생성하고, 이 아이디어들을 다른 아이디어에 수직구조 방식으로 상관시킨다. 따라서, 아이디어들이 타 아이디어와 상관되며, 발생 빈도에 따라 등급화된다. 발생 빈도에 부여되는 구체적 가중치와, 이에 따라 생성된 데이터베이스에 적용되는 용도는 사용자 요건에 따라 변할 수 있다.In one embodiment of the invention, two states represent a language (eg, English, Hebrew, Chinese, etc.) and the present invention provides a cross-language database that correlates words and phrases of a first language to translation counterparts of a second word. To generate. In this example, the present invention creates a database by examining documents in two languages and by creating a translation database for each word or phrase in both languages. Due to the present invention, the user creates a database of ideas and correlates these ideas to other ideas in a vertical fashion. Thus, ideas are correlated with other ideas and ranked according to their frequency of occurrence. The specific weights given to the frequency of occurrence, and the uses applied to the generated databases, may vary according to user requirements.

예를 들어, 한 언어로부터 다른 언어로의 변환에 있어, 본 발명은 영어 단어에 대한 외국어 단어 및 어구 변환을 생성하도록 동작할 것이다. 본 발명은 충분히 큰 샘플 크기가 제공될 때, 상기 단어들(또는 어구들)에 대한 상관도 순위를 내보낼 것이다. 가령, 가장 자주 발생하는 단어는 영어 단어와 동등한 외국어 단어일 것이다. 그러나, 본 발명은 영어 단어와의 타언어 상관도도 내보낼 것이며, 사용자는 요망하는 바대로 상기 상관도를 조작할 수 있다. 예를 들어, 단어 "mountain"은, 발명에 따라 동작할 때, 검사되고 있는 언어의 외국어 단어의 리스트를 내보낼 수 있다. 단어 "mountain"에 대응하는 외국어는 가장 높은 순위로 매겨질 것이다. 그러나, 본 발명은 "snow"나 "ski"처럼 "mountain"에 상관된 다른 외국어 단어들을 내보낼 것이다. 이 단어들은, "mountain"의 번역보다는 낮은 순위로 매겨질 수 있는(그렇지 않을 수도 있는) 것으로서, 사용자가 요망하는 바대로 조작될 수 있다. 따라서, 본 발명은 자동 상관 데이터베이스 생성기이다. 가장 큰 상관도는 어떤 측면에서 "번역"을 의미하지만, 그 외 자주 나타나는 상관도는 검사중인 아이디어에 밀접하게 상관된 아이디어를 나타낸다.For example, in the conversion from one language to another, the present invention will operate to generate foreign language words and phrase translations for English words. The present invention will export a correlation ranking for the words (or phrases) when a sufficiently large sample size is provided. For example, the most frequently occurring words will be foreign language words equivalent to English words. However, the present invention will also export other language correlations with English words, and the user can manipulate the correlations as desired. For example, the word "mountain", when operating in accordance with the invention, may export a list of foreign language words of the language being examined. The foreign language corresponding to the word "mountain" will be ranked highest. However, the present invention will export other foreign language words related to "mountain", such as "snow" or "ski". These words, which may (or may not) be ranked lower than the translation of "mountain", may be manipulated as desired by the user. Thus, the present invention is an autocorrelation database generator. The largest correlation means "translation" in some respects, while the other frequent correlations represent ideas that are closely correlated to the idea under examination.

본 발명은 한 상태에서 다른 상태로 정보를 변환 및 조작하기 위한 교차-아이디어 상관 데이터베이스의 생성 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for creating a cross-ideal correlation database for transforming and manipulating information from one state to another.

본 발명의 목적은 한 언어와 제 2 언어 사이에 단어 및 어구의 상관도 데이터베이스를 발전시키는 것이다. 일반적으로, 이 방법은 두 문서에 대한 검사와 동작을 실시하는 단계를 포함하고, 이때, 각각의 문서는 동일한 개념이나 콘텐트를 나타내는 텍스트를 두개의 언어로 지닌다. 본 발명에 따른 방법 및 장치는 두 언어간의 상관도에 의해 데이터베이스가 생성되도록 이용된다. 단어 및 어구에 대한 번역은 기본이고, 이에 대한 상관도를 가진 데이터베이스가 생성되도록 이용된다. 두 언어 사이에서 단어 및 어구에 대한 번역 및 그 외 다른 상관도는 본 발명에 의해 보다 많은 문서가 검사될수록 강해지고 빈도가 잦아진다. 따라서, 충분히 풍부한문서 "샘플"에서 동작함으로서, 가장 공통된(그리고 가장 정확한) 상관도가 나타날 것이며, 이 방법 및 장치가 번역 용도로 사용될 수 있게 된다.It is an object of the present invention to develop a database of correlation of words and phrases between one language and a second language. In general, the method includes performing inspections and operations on two documents, where each document has text in two languages that represent the same concept or content. The method and apparatus according to the invention are used such that a database is created by the correlation between the two languages. Translations of words and phrases are basic and are used to create a database with correlations. Translations and other correlations for words and phrases between the two languages become stronger and more frequent as more documents are examined by the present invention. Thus, by operating on sufficiently rich document "samples", the most common (and most accurate) correlation will appear, allowing the method and apparatus to be used for translation purposes.

발명의 선호되는 실시예는 당 분야에서 공지된 종류의 개인용 컴퓨터 시스템같은 연산 장치를 이용한다. 그러나, 본 발명의 방법 및 장치가 이러한 연산 장치를 이용해야할 필요는 없으며, 교차-상관의 수작업 생성을 포함한 다른 수단에 의해서도 쉽게 달성될 수 있다. 문서 "샘플"을 확대하고 교차-상관 데이터베이스를 생성하기 위해 일련의 문서들이 검사되는 방법은 변한다. 즉, 문서들이 수동으로, 또는 자동 공급(가령, 공지 기술에서 알려진 바와 같은 자동 종이 공급기)에 의해, 또는 상관 문서의 자동 검색을 위해 인터넷에서의 검색 기술을 이용함으로서, 분석 및 조작을 위해 설정될 수 있다.Preferred embodiments of the invention utilize computing devices such as personal computer systems of the kind known in the art. However, the method and apparatus of the present invention do not need to use such a computing device, and can be easily accomplished by other means, including manual generation of cross-correlation. The manner in which a series of documents are examined to magnify document "samples" and create a cross-correlation database varies. That is, documents can be set up for analysis and manipulation either manually or by automatic feeding (eg, an automatic paper feeder as known in the art) or by using a search technique on the Internet for automatic retrieval of a correlated document. Can be.

다음의 설명에서 "문서(documents)"라는 용어는 동일한 개념을 나타내는 아이템 쌍들(가령, 도서, 논문, 철자, 등)을 의미하기 위해 상호교환가능하게 사용된다. 하지만, 위 쌍에서 하나는 한개의 언어, 다른 하나는 제 2 언어이다. 추가적으로, 본 발명이 단어에 대해 동작한다고 간주할 때마다, 동일한 기술이 어구에 적용되 것임은 명백하며 단지 한 단어에 제한되지 않는다.In the following description the term "documents" is used interchangeably to mean item pairs (eg, books, articles, spellings, etc.) representing the same concept. However, one in the pair is one language and the other is a second language. In addition, whenever the present invention is deemed to operate on words, it is obvious that the same techniques apply to phrases and are not limited to just one word.

본 출원은 2001년 3월 16일자 미국임시출원 60/276,107 호, "Method and Apparatus for Content Manipulation"을 인용한다.This application cites US Provisional Application No. 60 / 276,107, "Method and Apparatus for Content Manipulation," dated March 16, 2001.

본 발명의 선호되는 실시예가 이제부터 설명될 것이다.Preferred embodiments of the invention will now be described.

본 발명은 한개 이상의 디스플레이 수단, 입력 방법 및 출력 방법, 그리고프로세서를 포함하는 전형적인 컴퓨터 시스템에서 사용될 수 있다. 디스플레이 수단은 음극관 단말기, LCD, 플랫 패널 디스플레이 장치 등과 같이 공지 기술에서 가용한 것 중 어느 것도 가능하다. 프로세서 수단은 연산 환경에 사용되는 가용한 것 중 어느 것으로도 사용할 수 있어서, 본 발명의 실행을 위해 컴퓨터가 동작하도록 프로세서 수단이 공급되게 한다. 마지막으로, 입력 방법은 교차-상관도 데이터베이스를 구축할 목적으로 문서를 입력하는 데 사용되며, 앞서 설명한 바와 같이, 구체적인 입력 방법은 사용자 필요에 따라 변할 수 있다.The invention can be used in a typical computer system including one or more display means, input methods and output methods, and a processor. The display means can be any of those available in the known art, such as cathode ray tube terminals, LCDs, flat panel display devices and the like. The processor means may use any of the available ones used in the computing environment, such that the processor means is supplied to operate the computer for the implementation of the present invention. Finally, the input method is used for inputting a document for the purpose of building a cross-correlation database, and as described above, the specific input method may vary according to user needs.

발명에 따르면, 문서들은 데이터베이스 구축을 위해 검사된다. (두개의 언어로 동일 텍스트를 나타내는 한쌍의 문서의) 문서 입력 후, 여기서 소개되는 방법 및 장치를 이용하여 생성 과정이 시작된다.According to the invention, documents are checked for database construction. After inputting a document (of a pair of documents representing the same text in two languages), the generation process begins using the method and apparatus introduced herein.

이해를 돕기 위해, 문서들은 두개의 언어로 된 동일한 단어(포괄적 측면에서 아이디어)를 포함한다. 문서 A는 언어 A로 작성되어 있고, 문서 B는 언어 B로 작성되어 있다. 이 문서들은 다음의 텍스트를 가진다.To aid understanding, the documents contain the same word (ideology in comprehensive terms) in two languages. Document A is written in language A, and document B is written in language B. These documents have the following text:

문서 A(언어 A) : X Y Z X W V Y Z X ZDocument A (Language A): X Y Z X W V Y Z X Z

문서 B(언어 B) : AA BB CC AA EE FF GG CCDocument B (Language B): AA BB CC AA EE FF GG CC

본 발명의 첫 번째 단계는 주어진 단어나 어구에 대해 근사 상관도를 결정하는 단어 범위를 연산하는 것이다. 단어 대 단어 번역이 적절하지 않기 때문에(즉, 문서 A의 단어 1이 문서 B의 단어 1의 글자그대로 번역으로 존재하지 않을 가능성이 높기 때문에), 본 발명의 데이터베이스 생성 기술은 제 1 언어의 각각의 단어를 제 2 언어의 단어 범위에 대해 테스트한다. 따라서 이 범위는 두 문서를 검사함으로서 발전되며, 제 2 문서의 단어, 어구, 또는 그 외 다른 단어 스트링을 제 1 문서의 단어, 어구, 또는 그 외 다른 단어 스트링과 비교하는 데 사용된다. 즉, 제 2 문서의 단어 범위가 제 1 문서의 어떤 단어(또는 어구, 또는 단어 스트링)에 대해 가능한 일치하도록 적용된다. 한가지 범위에 대해 테스트를 실행함으로서, 데이터베이스 생성 기술은 제 1 언어 단어에 대해 필적하는 번역일 수 있는 다수의 제 2 언어를 구축한다.The first step of the present invention is to compute a word range that determines an approximate correlation for a given word or phrase. Because word-to-word translation is not appropriate (ie, it is likely that word 1 of document A does not exist as a literal translation of word 1 of document B), the database generation technique of the present invention provides Test words against a range of words in a second language. Thus, this range is developed by examining two documents and is used to compare words, phrases, or other word strings in the second document with words, phrases, or other word strings in the first document. That is, the word range of the second document is applied to match as much as possible with any word (or phrase, or word string) of the first document. By running tests for one range, the database generation technique builds a number of second languages that may be comparable translations for the first language words.

이 범위 값은 궁극적으로 사용자에 의해 규정된다. 문서의 단어수를 바탕으로 벨 곡선의 편위같은 공통적 통계 기술을 포함하여, 범위 값을 결정하는 데 다양한 기술이 사용될 수 있다. 벨 곡선같은 통계 기술을 이용하면, 문서의 서두와 말미에서의 범위가 문서 중간의 범위보다 작을 것이다. 범위 단어들에 대한 벨-형태 빈도는, 요망하는 단어수의 포괄 백분율에 따라 도출되는 지, 또는 문서의 단어수에 따라 도출되는 지 여하에 상관없이, 가능한 단어 변환의 합리적 외삽을 가능하게 한다. 어떤 퍼센티지의 단어에 대해 제 1 레벨, 또다른 퍼센티지의 단어에 대해 제 2 레벨, 마지막 퍼센티지의 단어에 대해 제 1 레벨과 같은 제 3 레벨에서 범위가 존재하도록 하는 "스테어(stair)" 기술처럼, 범위 연산을 위한 다른 기술도 존재한다. 또한, 다른 가능한 변수에 따라 범위가 사용자에 의해 규정된다.This range value is ultimately defined by the user. Various techniques can be used to determine range values, including common statistical techniques such as the declination of the bell curve based on the number of words in the document. Using statistical techniques such as the bell curve, the range at the beginning and end of the document will be smaller than the range in the middle of the document. The bell-shape frequency for range words enables rational extrapolation of possible word conversions, whether derived from a comprehensive percentage of the number of words desired or from the number of words in the document. Like a "stair" technique that allows a range to exist at a third level, such as a first level for a word in a percentage, a second level for a word in another percentage, and a first level for a word in the last percentage. There are other techniques for calculating ranges. In addition, the range is defined by the user according to other possible variables.

범위 값은 두 문서의 단어수에 따라 좌우될 수 있다. 두 문서의 단어수가 동일할 경우 어떤 값도 부여될 수 있다. 통계 기술을 적용할 때, 문서 도입부에서 적은 수의 단어, 문서 중반부에서 가장 큰 수의 단어, 문서 말미에서 적은 수의 단어로 범위가 구성되도록 벨 곡선이 생성될 수 있다.The range value can depend on the number of words in both documents. Any value can be given if the two documents have the same number of words. When applying statistical techniques, a bell curve can be generated such that the range is composed of a small number of words at the beginning of the document, the largest number of words in the middle of the document, and a small number of words at the end of the document.

두 문서의 단어수가 동일하지 않을 경우, 이 범위를 정확하게 위치설정하는 데 비율이 사용될 수 있다. 예를 들어, 문서 A가 75개의 단어를, 문서 B가 100개의 단어를 가질 경우, 두 문서간 비율은 3:4이다. 문서 A의 중간점은 단어 위치 37(또는 38)이다. 그러나, (벨곡선을 이용하여 결정된 경우) 문서 B의 가장 큰 범위 값을 위한 위치로 이 중간점(단어 위치 37 또는 38)을 이용하는 것은 효과적이지 못하다. 왜냐하면, 이 위치(단어 위치 37 또는 38)는 문서 B의 중간점이 아니기 때문이다. 대신에, 문서 B의 범위 값의 최대값 적용점은 두 문서간 단어의 비율에 의해, 문서 B의 중간점의 수동 위치설정에 의해, 또는 그 외 다른 기술에 의해, 결정될 수 있다.If the words in the two documents are not the same, the ratio can be used to position this range correctly. For example, if document A has 75 words and document B has 100 words, the ratio between the two documents is 3: 4. The midpoint of document A is word position 37 (or 38). However, using this midpoint (word position 37 or 38) as the position for the largest range value of document B (if determined using the bell curve) is not effective. This is because this position (word position 37 or 38) is not the midpoint of document B. Instead, the maximum application point of the range value of Document B can be determined by the ratio of words between two documents, by manual positioning of the midpoint of Document B, or by some other technique.

본 발명의 요지는 각각의 가능한 변환에 대한 상관 빈도를 생성하는 데 있다. 문서 내 한 단어의 위치를 바라봄으로서, 그리고 상술한 바와 같이 범위를 적용함으로서, 본 발명의 데이터베이스 기술은 제 1 문서의 단어로 변환될 제 2 언어 문서의 가능 문자 세트를 내보낸다. 본 발명의 데이터베이스 생성 기술이 사용됨에 따라, 가능 문자 세트의 폭이 좁아질 것이고, 잠재적 변환 결정을 도울 상관 빈도가 발전될 것이다. 따라서, 한쌍의 문서를 검사한 후, 본 발명은 제 2 언어의 동일 단어(또는 어구, 또는 단어 스트링)에 대한 한 언어의 단어(또는 어구, 또는 단어 스트링)의 상관 빈도를 생성할 것이다. 다수의 문서 쌍들이 본 발명에 따라 검사되면, 그래서 많은 샘플이 생성되면, 교차-언어 상관 데이터베이스 생성 기술은 어떤 한 단어, 어구, 또는 단어 스트링에 대해 점점 더 높은 상관 빈도를 내보낼 것이다. 충분한 샘플이 리뷰된 후 가장 높은 상관 빈도가 번역으로 나타난다. 물론, 상관 빈도가 정확한 번역이라고 간주되는 궁극적인 점은 사용자에 의해 규정되며, 가령, 2001년 3월 16일자 미국임시출원 60/276,107 호, "Method and Apparatus for Content Manipulation"에 소개되는 같은 다른 번역/변환 기술에 종속된다. 예를 들어, 다수의 문서를 검색한 후, 다음의 상관 빈도는 영어 "friend"에 대등한 스페인어로 "gato"- 25%, "burro"- 15%, "amigo"- 60%를 얻을 수 있다. 보다 많은 쌍들이 검사됨에 따라, 본 발명의 동작은 "amigo"에 대한 상관 빈도를 증가시킬 것이고 "gato"와 "burro"에 대한 빈도를 감소시킬 것이다. 사용자에 의해 규정된 지점에서, 영어 단어 "freind"가 스페인어 "amigo"로 번역되도록 번역이 이루어진 것으로 간주되도록 하는 수준에 상관 빈도가 도달할것이다.The gist of the present invention is to generate a correlation frequency for each possible transform. By looking at the position of a word in the document, and by applying a range as described above, the database technology of the present invention exports the set of possible characters of the second language document to be converted into the words of the first document. As the database generation technique of the present invention is used, the possible character set will be narrowed, and the correlation frequency will be developed to help the potential conversion decision. Thus, after examining a pair of documents, the present invention will generate a correlation frequency of a word (or phrase, or word string) of one language relative to the same word (or phrase, or word string) of the second language. If multiple document pairs are examined in accordance with the present invention, so that many samples are generated, the cross-language correlation database generation technique will yield increasingly higher correlation frequencies for any single word, phrase, or word string. After enough samples have been reviewed, the highest correlation frequency appears in translation. Of course, the ultimate point that the correlation frequency is considered to be an accurate translation is defined by the user, such as other translations such as those introduced in US Provisional Application No. 60 / 276,107, "Method and Apparatus for Content Manipulation," dated March 16, 2001. Depends on the conversion technique. For example, after searching a large number of documents, the following correlation frequency can be obtained in Spanish equivalent to "friend": "gato"-25%, "burro"-15%, "amigo"-60% . As more pairs are examined, the operation of the present invention will increase the correlation frequency for "amigo" and decrease the frequency for "gato" and "burro". At the point defined by the user, a correlation frequency will be reached at which level the translation of the English word "freind" is considered to have been translated into Spanish "amigo".

상술한 바와 같이, 발명은 단어뿐 아니라 어구들도 테스트하며, 단어 스트링들도 테스트한다. 한개의 단어가 분석된 후, 본 발명에 따른 데이터베이스 생성 기술은 2-단어 단어 스트링을 분석하고, 그후 3-단어 단어 스트링을 분석하고, 등등해서 증가하는 방식으로 분석한다. 이 기술로 인해, 어구나 단어 스트링을 한 언어에서 다른 언어의 한 단어로 번역을 할 수 있다. 단어들의 수가 1보다 클 경우, 단어나 단어 스트링에 대한 모든 위치가 분석되었을 때 분석이 종료된다. 단어가 문서 내에서 한번만 나타나면, 이 과정은 단어를 즉시 증가시키고 단어 스트링을 내보낼 것이다. 단어 스트링이 한번만 나타나면, 이 과정은 다시 문서의 제 2 단어로 되돌아올 것이고, 여기서, 분석 사이클이 상술한 바와 같이 다시 나타난다.As mentioned above, the invention tests phrases as well as words, as well as word strings. After one word has been analyzed, the database generation technique according to the present invention analyzes the two-word word string, and then the three-word word string, and so on, in an incremental manner. This technique allows you to translate a phrase or word string from one language to one word in another language. If the number of words is greater than 1, the analysis ends when all positions for the word or word string have been analyzed. If a word appears only once in the document, this process will immediately increment the word and export the word string. If the word string appears only once, this process will return back to the second word of the document, where the analysis cycle reappears as described above.

이 과정에 대한 변화는 검사될 두 문서에 단어가 한번만 나타나는 경우를 수용하도록 이루어질 수 있다. 예를 들어, 단어가 문서에 한번만 나타날 경우, 본 발명의 변화는 상관 단어나 단어 스트링들을 검색하기 위해 다른 문서에 대해서도 분석이 이루어지게 한다. 한 측면에서, 어떤 수의 문서들도 집약되어 본 발명의 동작을 위해 한 단일 문서로 취급될 수 있다. 추가적으로 또다른 실시예로서, 단어가 한번만 나타나는 상황을 수용하도록 전체 문서에 대해 작업이 이루어질 수 있다.Changes to this process can be made to accommodate the case where a word appears only once in both documents to be examined. For example, if a word appears only once in a document, a change in the present invention allows analysis to be made on other documents to search for correlated words or word strings. In one aspect, any number of documents can be aggregated and treated as a single document for the operation of the present invention. In yet another embodiment, work can be done on the entire document to accommodate situations where words appear only once.

단어 스트링에 대해서도 마찬가지 방식으로 증가, 테스트, 리턴 과정이 이루어진다. 따라서, 어떤 어구에 대한 빈도 수가 검사되고, 그 범위를 바탕으로 어구들이 되돌아오며, 그리고 상기 어구에 대한 가능한 번역 데이터베이스가 생성된다.The same goes for word strings: increment, test, and return. Thus, the frequency count for a phrase is checked, the phrases are returned based on the range, and a possible translation database for that phrase is created.

추가적으로, 본 발명은 정확한 위치설정이나 단어에 따라 좌우되는 단어 스트링을 분석하도록 하는 방식으로 동작할 수 있고, 어구, 스타일, 또는 축약어 등처럼 문법적 특이성을 고려하도록 하는 방식으로 동작할 수 있다.In addition, the present invention may operate in such a manner as to analyze a word string that depends on exact positioning or words, and may operate in such a manner as to consider grammatical specificity such as a phrase, a style, or an abbreviation.

본 발명은 단어 서브세트들이 더 큰 단어 스트링 내에서 나타나는 문서들에서 발생하는 여러 다른 변화들을 수용할 수 있다. 예를 들어, 정확한 이름이 완전하게 제시되기도 하고(가령, "John Doe"), 성이나 이름으로만 불리기도 하며(가령, "Doe"또는 "John"), 또다른 방식으로 축약되기도 한다(가령, "Mr. Doe"). 본 발명은 상관 데이터베이스 내 이 패턴들의 존재를 분석을 통해 인지함으로서, 그리고 빈도 리턴을 조작함으로서, 이 패턴들을 책임진다. 본 발명이 단어 스트링 리턴보다 더 개별적인 단어 리턴들을 내보내기 쉬워서(즉, 완전한 이름인 "John Doe"의 단어 스트링보다 성이나 이름만의 경우가 보다 많은 리턴을 얻음), 단어 스트링을 구성하는 단어들이 어구의 일부와 마찬가지로 개별적으로 카운팅될 것이기 때문에, 순위의 변화가 이용될 수 있다. 예를 들어, 어떤 문서에서도, "John Doe"라는 명칭이 백번 나타날 수 있고, "John"은 120번 나타날 수 있고, "Doe"는 백열번 나타날 수 있다. 정상 번역 리턴은 "Doe"보다 "John"의 순위를 높게 매길 것이고, 이 두 단어 모두 단어 스트링 "John Doe"보다는 높은 순위를 가질 것이다(모두 "John Doe"라는 단얼 스트링을 분석하려 시도할 때). 서브셋에 대한 리턴으로부터 가장 큰 워드 스트링 빈도의 수를 빼는 동작에 의해, 적절한 정렬(ordering)이 달성될 수 있다(물론 유사한 결과를 얻기 위해 다른 방법도 사용될 수 있다). 따라서, 120으로부터 100을 뺌으로서, "John"에 대한 교정된 리턴은 20이다. 이 분석을 적용하면 "John Doe"에 대한 빈도 수로 100을, "John"에 대한 빈도수로 20을, "Doe"에 대한 빈도수로 10을 얻을 수 있고, 따라서 적절한 상관도를 생성할 수 있다.The present invention can accommodate many other changes that occur in documents where word subsets appear within larger word strings. For example, the exact name may be given completely (e.g. "John Doe"), may be called only by last name or first name (e.g. "Doe" or "John"), or may be abbreviated in another way (e.g. , "Mr. Doe"). The present invention is responsible for recognizing the presence of these patterns in the correlation database through analysis, and by manipulating frequency returns. The present invention is easier to export individual word returns than a word string return (i.e., the surname or first name only returns more than the full name "John Doe" word string), so that the words that make up the word string are phrases. As will be counted separately, as in part of, a change in rank may be used. For example, in any document, the name "John Doe" may appear a hundred times, "John" may appear 120 times, and "Doe" may appear one hundred times. A normal translation return will rank "John" higher than "Doe", and both words will rank higher than the word string "John Doe" (both when attempting to parse a single string called "John Doe"). . By subtracting the largest word string frequency from the return for the subset, proper ordering can be achieved (other methods can of course be used to achieve similar results). Thus, subtracting 100 from 120, the corrected return for "John" is 20. Applying this analysis, one can get 100 as the frequency for "John Doe", 20 as the frequency for "John", and 10 as the frequency for "Doe", thus generating an appropriate correlation.

발명의 한 실시예가 상술한 두 문서를 이용하여 이제부터 설명될 것이다. 표가 아래와 같이 재생성된다.One embodiment of the invention will now be described using the two documents described above. The table is regenerated as follows.

문서 A(언어 A): X Y Z X W V Y Z X ZDocument A (Language A): X Y Z X W V Y Z X Z

문서 B(언어 B) : AA BB CC AA EE FF GG CCDocument B (Language B): AA BB CC AA EE FF GG CC

상기 나열된 두 문서를 이용하여, 데이터베이스 생성 기술을 위한 다음의 단계들이 발생한다.Using the two documents listed above, the following steps occur for a database creation technique.

단계 1: 먼저, 범위가 결정된다. 상술한 바처럼, 범위는 다양한 방법에 의해 근사되거나 사용자에 의해 규정될 수 있다. 두 문서의 단어 카운트는 대략적으로 같다(문서 A에 단어 10개, 문서 B에 단어 8개). 3의 범위값(문서 A의 단어의 30%)이 최적의 결과를 제공할 수 있다. 본 예에서, 벨 곡선에 근사하기 위해, 범위는 문서의 서두와 말미에서 하나, 문서 중간에서 두개일 것이다. 그러나, 상술한 바처럼, 범위가 전체적으로 사용자에 의해 규정될 수 있다.Step 1: First, the range is determined. As mentioned above, the range can be approximated by various methods or defined by the user. The word counts for the two documents are approximately the same (10 words in document A and 8 words in document B). A range of 3 (30% of the words in document A) can provide the best results. In this example, to approximate the bell curve, the range will be one at the beginning and end of the document, and two at the middle of the document. However, as mentioned above, the range may be defined by the user as a whole.

따라서, 본 예의 경우에, 본 발명의 데이터베이스 기술이 이용됨에 따라 범위는 한단어로부터 두 단어로, 한 단어로 변할 수 있다.Thus, in the case of this example, as the database technology of the present invention is used, the range may change from one word to two words, to one word.

단계 2: 그후, 문서 A의 첫 번째 단어가 검사되고 문서 A에 대해 테스트되어 문서의 상기 단어의 빈도 수를 결정할 수 있다. 본 예에서, 문서 A의 첫 단어는 X다. X는 문서 A에서 세 번 나타난다(위치 1, 4, 9). 단어, 어구, 또는 단어 스트링의 위치 번호는 단어, 어구, 단어 스트링이 문서에 제시되는 횟수와 다른 단어들에 대한 문서 내 단어, 어구, 단어 스트링의 위치에 대한 단순한 표시이다. 따라서, 위치 번호는 문서 내 단어의 수에 대응하며, 구두점을 무시한다. 예를 들어, 문서 내에 10개의 단어가 있을 경우, 그리고 "kick"이라는 단어가 2번 나타날 경우, 단어 "king"의 위치 번호는 단순히 단어가 나타나는 위치(10개의 단어 중)이다.Step 2: Then, the first word of document A can be examined and tested for document A to determine the frequency of the word in the document. In this example, the first word of document A is X. X appears three times in document A (positions 1, 4, 9). The position number of a word, phrase, or word string is a simple indication of the number of times a word, phrase, word string is presented in the document and the position of the word, phrase, or word string in the document relative to other words. Thus, the location number corresponds to the number of words in the document and ignores punctuation. For example, if there are 10 words in the document, and the word "kick" appears twice, the position number of the word "king" is simply the position (of 10 words) where the word appears.

단어 X가 문서에서 두 번 이상 나타나기 때문에, 과정은 다음 단계로 진행된다. 단어 X가 한번만 나타나면, 상기 단어는 건너뛰고 다음 단어 스트링(또는 어구) 단계로 넘어가고 생성 과정이 계속된다.Since the word X appears more than once in the document, the process goes to the next step. If the word X appears only once, the word is skipped and the process proceeds to the next word string (or phrase) phase and the generation process continues.

단계 3: 위치 1에서 제 1 언어 단어 X에 대한 가능한 제 2 언어 번역이 되돌아온다. 문서 B에 대해 상기 범위를 적용하면 문서 B의 위치1과 위치 2(1 +/- 1)의 단어들 AA와 BB를 나타낸다. 이 단어의 모든 가능한 조합들이 X에 대한 잠재적 번역으로 되돌아온다: AA, BB, 그리고 AA BB(단어 스트링 조합). 단어 스트링 조합은 w 1 언어의 한 단어가 제 2 언어의 한 어구에 동등할 수 있다는 사실을 수용하기 위한 가능한 매치(match)로 되돌아온다. 따라서, X1(단어 X의 첫 번째 발생)은 상관자로 AA, BB, AA BB를 내보낸다.Step 3: A possible second language translation for the first language word X in position 1 is returned. Applying this range to Document B indicates the words AA and BB at position 1 and position 2 (1 +/− 1) of document B. All possible combinations of this word revert to potential translations for X: AA, BB, and AA BB (word string combinations). The word string combination returns to a possible match to accommodate the fact that one word of the w 1 language can be equivalent to a phrase of the second language. Thus, X1 (first occurrence of word X) exports AA, BB, AA BB as correlators.

단계 4: 단어 X의 다음 위치가 분석된다. 이 단어(X2)는 위치 4에서 나타난다. 위치 4가 문서의 중앙에 있기 때문에, 범위는 두 단어가 될 것이다. 가능한 번역은 문서 B의 단어 4를 바라보고 그 범위(2)를 적용함으로서 나타난다. 그러므로, 단어 4 앞의 두 단어와 단어 4 뒤의 두 단어가 나타난다. 따라서, 위치 4 +/- 2에서의 단어들이 나타나고, 또는 위치 2, 3, 4, 5, 6에서 나타난다. 이 위치들은 문서 B의 단어 BB, CC, AA, EE, FF에 해당한다. 이 단어들의 모든 순방향 순열이 이제 고려된다. 즉, BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, EE FF가 고려된다. 따라서 X2는 BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, EE FF를 상관어로 내보낸다.Step 4: The next position of the word X is analyzed. This word X2 appears at position 4. Because position 4 is in the center of the document, the range will be two words. Possible translations are shown by looking at word 4 of document B and applying its range (2). Thus, two words before word 4 and two words after word 4 appear. Thus, words at position 4 +/- 2 appear, or at position 2, 3, 4, 5, 6. These positions correspond to the words BB, CC, AA, EE, and FF in document B. All forward permutations of these words are now considered. That is, BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, EE FF is considered. Thus, X2 is BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, Export EE FF as a correlation.

단계 5: X(위치 1)의 첫 번째 발생 리턴은 X(위치 4)의 첫 번째 발생의 리턴과 비교되고, 일치(match)가 결정된다. 이 경우에 X1 및 X2에 대한 상관도가 비교되고, 두 문서의 일치가 제공된다. 두 범위간 중복 구역 내에 동일한 리턴들(또는 단어 발생이나 단어 스트링)은 단일 발생으로 감소될 수 있다. 예를 들어 위치 2의 단어가 BB인 본 예에서, 이는 X의 첫 번째 발생과 X의 두 번째 발생에 대해 똑같이 나타난다. 이 동일한 단어 위치가 X1 및 X2에 대해 모두 나타나기 때문에, 단어는 한번의 발생으로 카운트된다. 그러나 동일한 단어가 나타나더라도 중복 구역 내에 놓이지 않으면(즉, 동일한 단어 위치가 X1 및 X2에 대해 나타나지 않지만 결과는 동일한 단어로 나타날 경우), 단어는 두 번으로 간주된다. 이 경우에 단어 X에 대한 리턴은 AA이다. 왜냐하면, 단어(AA)가 X1 및 X2에 대한 상관 리턴에서 모두 발생하기 때문이다. 두 상관 리턴에서 발생하는 다른 단어는 BB다. 그러나, 상술한 바와 같이, 상기 단어가 X의 첫 번째 및 두 번째 발생에 대한 범위 동작에 의해 도달하는 동일한 위치에 있기 때문에, 이 단어가 무시될 수 있다.Step 5: The return of the first occurrence of X (position 1) is compared with the return of the first occurrence of X (position 4) and a match is determined. In this case the correlations for X1 and X2 are compared and a match of the two documents is provided. Identical returns (or word occurrences or word strings) in the overlap region between two ranges can be reduced to a single occurrence. For example, in this example where the word at position 2 is BB, it appears the same for the first occurrence of X and the second occurrence of X. Since this same word position appears for both X1 and X2, words are counted in one occurrence. However, even if the same word appears, if it is not placed within the overlapping zone (ie, the same word position does not appear for X1 and X2 but the result appears with the same word), the word is considered twice. In this case the return for word X is AA. This is because the word AA occurs in both the correlation returns for X1 and X2. The other word that occurs in both correlation returns is BB. However, as mentioned above, since the word is in the same position reached by the range operation for the first and second occurrences of X, this word can be ignored.

단계 6: 단어 X(위치 9)(X3)의 다음 위치가 분석된다. (문서 말미 근처에서) 1의 범위를 적용하면 문서 B의 다음 위치들의 값, 즉, 8, 9, 10이 나타난다. 문서 B가 8개의 위치만을 가지기 때문에, 그 결과는 잘려나가고 단지 단어 위치 8만이 X에 대한 가능한 값으로 나타난다. 즉 CC가 나타난다.Step 6: The next position of the word X (position 9) X3 is analyzed. Applying a range of 1 (near the end of the document) results in the values of the following positions in document B: 8, 9, 10. Since document B has only eight positions, the result is truncated and only word position 8 appears as a possible value for X. That is, CC appears.

X(X1)에 대한 첫 번째 리턴에 비교하면 어떤 일치점도 나타나지 않는다. 따라서, 어떤 일치점도 나타나지 않기 때문에, X3에 대해 나타난 값, 즉, CC는 무시되고 상관 일치가 제공되지 않는다.There is no match when compared to the first return for X (X1). Thus, since no match is shown, the value shown for X3, i.e., CC, is ignored and no correlation match is provided.

단계 7: 단어 X에 대한 다음 위치가 분석된다. 그러나, 문서 A에서 단어 X는 더 이상 나타나지 않는다. 이 시점에서 상관 빈도가 단어 X에 대해 구축되고, 다음의 데이터베이스가 X에 대한 가능한 번역(AA)으로 생성되어 있다. 따라서, 이 시점에서, AA에 대한 X의 상관도가 존재한다.Step 7: The next position for word X is analyzed. However, in document A the word X no longer appears. At this point a correlation frequency is built for word X, and the following database is created with a possible translation (AA) for X. Thus, at this point, there is a correlation of X to AA.

단계 8: 단어 X의 추가 발생이 없기 때문에, 과정이 단어마다 증분되고 단어 스트링이 테스트된다. 이 경우에 검사받는 단어 스트링은 "X Y"이고, 문서 A의 첫 번째 두 단어이다. 단계 2-7에 설명된 동일한 기술이 이 어구에 적용된다.Step 8: Since there is no further occurrence of word X, the process is incremented word by word and the word string is tested. In this case the word string being checked is "X Y", which is the first two words of document A. The same technique described in steps 2-7 applies to this phrase.

단계 9: 문서 A를 바라봄으로서, 단어 스트링 X Y는 한번만 발생함을 알 수 있다. 이 시점에서, 증분 과정이 중단되고 어떤 데이터베이스 생성도 발생하지 않는다. 종점에 도달하였기 때문에, 다음 단어가 검사된다(단어 스트링에 대한 일치사항이 없을 때마다 이 과정이 발생됨). 이 경우에 문서 A의 위치 2의 단어는 "Y"다.Step 9: By looking at document A, we can see that the word string X Y occurs only once. At this point, the incremental process stops and no database creation takes place. Since the end point is reached, the next word is checked (this happens whenever there is no match for the word string). In this case, the word at position 2 of document A is "Y".

단계 10: 단어 "Y"에 대해 단계 2-7의 과정을 적용하면 다음의 결과를 얻을 수 있다.Step 10: Applying the steps 2-7 to the word "Y", the following results are obtained.

- 단어 Y가 두 번 나타나고(위치 2, 위치 7), 따라서 데이터베이스 생성 과정이 계속된다(또한, 문서 A에 Y가 한번 나타날 경우 Y는 검사되지 않는다).The word Y appears twice (positions 2 and 7), and so the database creation process continues (and if Y appears once in document A, Y is not checked).

- 위치 2의 범위는 1 단어이다.The range of position 2 is 1 word.

- 문서 B에 대해 범위를 적용하면(위치 2, 단어 Y의 첫 번째 발생 위치), 문서 B의 위치 1, 2, 3에서 결과가 나타난다.Applying a range to document B (position 2, the first occurrence of word Y) results in positions 1, 2 and 3 of document B.

- 이렇게 나타난 위치에서 대응하는 외국어 단어들은 AA, BB, CC이다.-The corresponding foreign language words in this position are AA, BB, CC.

- 순방향 순열을 적용하면 Y1에 대해 다음의 가능성이 도출된다. 즉, AA, BB, CC, AA BB, AA BB CC, BB CC.Applying forward permutation leads to the following possibilities for Y1. That is, AA, BB, CC, AA BB, AA BB CC, BB CC.

- Y의 다음 위치가 분석된다(위치 7).The next position of Y is analyzed (position 7).

- 위치 7의 범위는 두 단어이다.The range of position 7 is two words.

문서 B에 이 범위를 적용하면(위치 7), 위치 5, 6, 7, 8에서 결과가 나타난다. 즉, EE FF GG CC.Applying this range to document B (position 7) results in positions 5, 6, 7, and 8. EE FF GG CC.

- 모든 순열은 Y2에 대해 다음의 가능성을 도출한다: EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC, GG CC.All permutations yield the following possibilities for Y2: EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC, GG CC.

- Y1으로부터의 일치 결과는 단일 일치사항으로 CC를 내보낸다.The match result from Y1 exports the CC as a single match.

- Y1과 Y2에 대한 일치사항을 조합하면 한개의 값에서, Y에 대한 상관 빈도로 CC를 도출한다.Combining the correspondences for Y1 and Y2 yields a CC with a correlation frequency for Y at one value.

단계 11: 단어 Y에 대해 유일하게 가능한 일치사항(단어 CC)이 Y의 첫 번째 발생에 대한 범위의 끝에서 발생하기 때문에(문서 B의 위치 3에서 발생하는 CC), 범위는 위치 1, 2, 3, 4를 내보내도록, 또는 다음의 순방향 순열: AA, BB, CC, AA BB, AA BB CC, AA BB CC AA, BB CC, BB CC AA, CC AA를 내보내도록, 첫 번째 발생에서 1만큼 증분된다. 이 결과를 적용하면 Y에 대한 가능한 번역으로 CC를 여전히 도출할 수 있다. 나타난 일치사항이 제 1 발생에 대한 범위 종료시에 있기 때문에 범위가 증분되었다. 이 패턴이 나타날 때마다 범위 증분의 종료가 완료 보장을 위한 서브단계(또는 대안의 단계)로 발생할 것이다.Step 11: Because the only possible match for word Y (word CC) occurs at the end of the range for the first occurrence of Y (CC occurring at position 3 of document B), the range is position 1, 2, To export 3, 4, or the following forward permutations: AA, BB, CC, AA BB, AA BB CC, AA BB CC AA, BB CC, BB CC AA, CC AA, to export 1 by 1 Incremented. Applying this result, one can still derive CC as a possible translation of Y. The range was incremented because the indicated matches were at the end of the range for the first occurrence. Each time this pattern occurs, the end of the range increment will occur as a substep (or alternative step) to ensure completion.

단계 12: 문서 A에 "Y"의 어떤 증분도 없기 때문에, 분석은 문서 A의 한 단어를 증분하고 단어스트링 "Y Z"가 검사된다(단어 Y 다음의 단어). 다음 스트링(Y Z)으로 증분하여 과정을 반복하면 다음의 결과를 얻을 수 있다.Step 12: Since there is no increment of "Y" in document A, the analysis increments one word of document A and the wordstring "Y Z" is checked (word after word Y). Incrementing to the next string (Y Z) and repeating the process yields:

- 문서 A에서 단어 스트링 Y Z 가 두 번 나타난다: 위치 2, 위치 7.In document A, the word string Y Z appears twice: position 2, position 7.

- 제 1 발생(Y Z1)에서의 Y Z에 대한 가능성은 AA, BB, CC, AA BB, AA BB CC, BB CC.The possibility for Y Z in the first occurrence (Y Z1) is AA, BB, CC, AA BB, AA BB CC, BB CC.

- 제 2 발생(Y Z2)에서의 Y Z 에 대한 가능성은 EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC, 그리고 GG CC.The possibility for Y Z in the second occurrence (Y Z2) is EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC, and GG CC.

- 일치 및 조합은 단어 스트링 Y Z에 대한 가능한 번역으로 CC를 도출한다.Matches and combinations derive CC as a possible translation for the word string Y Z.

- 범위 연장(범위 증분의 말미)은 Y Z에 대해 다음의 결과를 도출한다: AA,BB, CC, AA BB, AA BB CC, BB CC, BB CC AA, CC AA.Range extension (end of range increment) yields the following results for Y Z: AA, BB, CC, AA BB, AA BB CC, BB CC, BB CC AA, CC AA.

- 이 결과를 적용하면 단어 스트링 Y Z에 대한 상관 빈도로 CC를 도출한다.Applying this result, we derive CC as the correlation frequency for the word string Y Z.

단계 13: "Y Z"의 추가 발생이 문서 A에 없기 때문에, 분석은 문서 A의 한 단어를 증분시키고 단어 스트링 "X Y Z"가 검사된다(문서 A의 위치 3에서 단어 Z 다음의 단어). 다음 어구(Y Z X)로 증분하여 이 과정을 반복하면(문서 A에서 Y Z X가 두 번 발생) 다음의 결과가 도출된다.Step 13: Since there is no further occurrence of "Y Z" in document A, the analysis increments one word of document A and the word string "X Y Z" is checked (word after word Z in position 3 of document A). Repeating this process incrementing to the next phrase (Y Z X) (two occurrences of Y Z X in document A) yields the following result:

- 범위는 2다. 왜냐하면, 어구의 중간점이 문서의 중간점에 더가깝게 나타나기 때문이다.-Range is 2. Because the midpoint of the phrase appears closer to the midpoint of the document.

- Y Z X의 첫 번째 발생에 대한 결과는 위치 2, 3, 4, 5에 있다.The result of the first occurrence of Y Z X is in positions 2, 3, 4 and 5.

- 순열은 BB, CC, AA, EE, BB CC, BB CC AA, BB CC AA EE, CC AA CC AA EE, 그리고 AA EE.The permutations are BB, CC, AA, EE, BB CC, BB CC AA, BB CC AA EE, CC AA CC AA EE, and AA EE.

- Y Z X의 두 번째 발생에 대한 결과는 위치 5, 6, 7, 8에 있다.The result of the second occurrence of Y Z X is at positions 5, 6, 7, 8.

-순열은 EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC, GG CC이다.The permutations are EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC, GG CC.

단계 14: 다음 단어 스트링(Y Z X A)으로의 증분은 단 한번의 발생만을 발견한다. 따라서, 단어 스트링 데이터베이스 생성이 완료되고 다음 단어 Z가 검사된다(문서 A의 위치 3).Step 14: Increment to the next word string (Y Z X A) finds only one occurrence. Thus, the word string database generation is completed and the next word Z is checked (position 3 of document A).

단계 15: 문서 A에 세 번 나타나는 Z에 대해 상술한 단계를 적용하면, 다음의 결과를 얻을 수 있다.Step 15: Applying the above steps for Z appearing three times in Document A, the following results are obtained.

- Z1에 대한 리턴은 AA, BB, CC, AA, EE, AA BB, AA BB CC, AA BB CC AA, AABB CC AA EE, BB CC, BB CC AA, BB CC AA EE, CC AA, CC AA EE, AA EE이다.-Returns to Z1 are AA, BB, CC, AA, EE, AA BB, AA BB CC, AA BB CC AA, AABB CC AA EE, BB CC, BB CC AA, BB CC AA EE, CC AA, CC AA EE, AA EE.

- Z2에 대한 리턴은 FF, GG, CC, FF GG, FF GG CC, 그리고 GG CC이다.The return for Z2 is FF, GG, CC, FF GG, FF GG CC, and GG CC.

- Z1과 Z2를 비교하면 가능한 일치사항으로 CC를 도출한다.Comparing Z1 and Z2 leads to CC as possible matches.

- Z3에 대한 리턴과 Z1과 비교로 단어 Z에 대한 상관 빈도로 CC를 도출한다.CC is derived by the correlation frequency for the word Z by returning Z3 and comparing with Z1.

단계 16: 다음 단어 스트링으로의 증분은 단어 스트링 Z X를 도출하며, 이는 문서 A에 두 번 나타난다. Z X 에 대해 상술한 단계들을 적용하면 다음의 결과를 얻을 수 있다.Step 16: The increment to the next word string results in the word string Z X, which appears twice in document A. Applying the steps described above for Z X yields the following results.

- Z X1에 대한 리턴들은 BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, EE FF다.Returns for Z X1 are BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, EE FF.

- Z X2에 대한 리턴들은 FF, GG, FF GG, FF GG CC, GG CC 이다.The returns for Z X2 are FF, GG, FF GG, FF GG CC, GG CC.

- 비교과정을 통해 단어 스트링 Z X의 상관사항이 CC 로 나타난다.-Through the comparison process, the correlation of the word string Z X is represented as CC.

- Z X에 대한 리턴과 비교를 통해 순방향 스트링 Z X에 대한 상관 빈도로 CC가 도출된다.The comparison with the return for Z X yields the CC as the correlation frequency for the forward string Z X.

단계 17: 증분된 다음 어구는 Z X A이고, 이는 한번만 발생하여, 문서 A의 다음 단어(X)가 검사된다.Step 17: The next phrase incremented is Z X A, which occurs only once, so that the next word X of Document A is checked.

단계 18: 단어 X는 이미 제 1 위치에서 검사된 바 있다. 그러나, 다른 문서에 비해 단어 X의 제 2 위치가 단어 X에 대해 가능한 리턴들에 대해서는 검사되지 않았다. 따라서 (제 2 위치의) 단어 X는 단어 X의 첫 번째 발생에서처럼 동작하며 문서에서 순방향으로 진행된다.Step 18: The word X has already been checked in the first position. However, compared to other documents, the second position of word X was not checked for possible returns for word X. Thus, word X (in the second position) behaves as in the first occurrence of word X and proceeds forward in the document.

- 위치 4의 X에 대한 리턴은 BB, CC, EE, FF, BB CC, BB CC AA, BB CC AAEE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, EE FF이다.The return for X in position 4 is BB, CC, EE, FF, BB CC, BB CC AA, BB CC AAEE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF and EE FF.

- 위치 9의 X에 대한 리턴은 GG, CC, GG CC이다.The return for X in position 9 is GG, CC, GG CC.

- 위치 4의 결과에 비교한 위치 9의 결과를 비교하면 단어 X에 대한 가능한 매치로 CC를 도출한다.Comparing the result of position 9 to the result of position 4 yields a CC with a possible match for word X.

- X에 대한 리턴들과 비교는 단어 X에 대한 상관 빈도로 CC를 도출한다.Comparisons with the returns for X yield a CC with a correlation frequency for word X.

단계 19: 다음 단어 스트링으로 중분하면, 단어 스트링 X A를 얻는다. 그러나, 이 단어 스트링이 문서 A에 두 번 이상 나타나지는 않는다. 따라서, 과정은 다음 단어(A)를 검사하게 된다. 단어 "A"가 문서 A에 한번만 나타나고, 따라서, 증분이 발생한다. 이때 증분은 다음 단어 스트링으로 넘어가지 않는다. 왜냐하면, 단어 "A"가 한번만 나타나기 때문이며, 따라서 문서 A의 다음 단어 "B"로 넘어간다. 단어 "B"가 문서 A에 한번만 나타나며, 따라서 다음 단어(Y)가 검사된다. 단어 "Y"가 문서 A의 위치 7보다 높은 위치에서는 나타나지 않기 때문에 다음 단어 (Z)가 거사된다. 단어 "Z"는 문서 A에 두 번 나타난다: 위치 8과 위치 10.Step 19: Dividing by the next word string, the word string X A is obtained. However, this word string does not appear more than once in document A. Thus, the process examines the next word (A). The word "A" appears only once in document A, and therefore an increment occurs. The increment does not proceed to the next word string. This is because the word "A" appears only once, and thus goes on to the next word "B" of document A. The word "B" appears only once in document A, and therefore the next word Y is checked. Since the word "Y" does not appear at a position higher than position 7 of document A, the next word (Z) is negated. The word "Z" appears twice in document A: position 8 and position 10.

단계 20: 단어 Z의 두 번째 발생에 대해 상술한 과정을 적용하면 다음의 결과를 얻을 수 있다.Step 20: Applying the above procedure to the second occurrence of the word Z, the following results are obtained.

- 위치 8의 Z에 대한 리턴은 FF, GG, CC, FF GG, FF GG CC, GG CC를 얻는다.The return for Z in position 8 gets FF, GG, CC, FF GG, FF GG CC, GG CC.

- 위치 10의 Z에 대한 리턴은 CC를 얻는다.Return to Z at position 10 to get CC.

- 위치 10을 위치 8에 비교한 결과는 단어 Z에 대해 어떤 일치사항도 얻지 못한다.Comparing position 10 to position 8 yields no match for the word Z.

또한, 단어 CC가 가능한 일치사항으로 나타난다. 그러나, CC가 위치 8의 Z와위치 10의 Z를 분석함으로서 도달하는 동일한 단어 위치를 나타내기 때문에, 일치사항이 무시된다.In addition, the word CC appears as a possible match. However, since CC represents the same word position reached by analyzing the Z at position 8 and the Z at position 10, the match is ignored.

단계 21: 한 단어만큼의 증분은 단어 스트링 Z X를 도출한다. 이 단어 스트링은 문서 A에서 다른 추가 위치에 나타나지 않는다. 따라서 과정은 문서 A의 다음 단어 "X"에서 다시 시작된다. 단어 "X"는 문서 A의 어떤 추가 위치에서도 나타나지 않으므로 과정이 다시 새로이 시작된다. 그러나, 문서 A의 말미에 도달하여 분석이 종료된다.Step 21: Increment by one word yields the word string Z X. This word string does not appear anywhere else in Document A. Thus, the process starts again at the next word "X" in document A. The word "X" does not appear anywhere in Document A, so the process starts over again. However, the analysis ends when the end of document A is reached.

단계 22: 최종 상관 분석은 위 내용으로부터의 모든 결과를 조합하여 도표화된다.Step 22: The final correlation analysis is tabulated combining all the results from the above.

문서 A의 다른 단어 및 어구에 대한 결과를 내보내기에 데이터가 불충분하다. 문서 A의 개별적 단어나 단어 스트링으로 문서 B의 단어 CC에 대해 여러 가능한 상관사항이 발생한다. 언어 B의 단어 CC를 가진 보다 많은 문서 쌍들이 검사됨에 따라, 상관 빈도는 통계적 신뢰도를 높일 것이고, 따라서, 단어 CC에 대한 번역으로 한 단어(또는 단어 스트링)가 존재할 것이다.Insufficient data to export results for other words and phrases in document A. Individual possible words or word strings in document A result in several possible correlations for word CC in document B. As more document pairs with the word CC of language B are examined, the correlation frequency will increase the statistical confidence, so there will be one word (or word string) in translation for the word CC.

또다른 실시예에서, 본 발명의 데이터베이스 생성 기술은 교차-언어 상관을 생성하기 위해 다양한 방식으로 이용될 수 있다. 예를 들어, 데이터베이스는, 단어의 다중 발생에 비교하지 않고, 그리고 범위 증분 기술을 이용하지 않으면서, 문서 B의 단어 범위로 문서 A에 발생하는 모든 단어와 단어 스트링을 단순히 짝지음으로서 생성될 수 있다. 이 방법은 상술한 것과는 다른 방식으로 데이터베이스를 생성하기 위해 교차-언어 상관 원칙을 이용한다.In another embodiment, the database generation techniques of the present invention can be used in a variety of ways to generate cross-language correlation. For example, a database can be created by simply pairing all words and word strings that occur in Document A with a range of words in Document B, without comparing them to multiple occurrences of words, and without using range increment techniques. have. This method uses the cross-language correlation principle to create a database in a different way than described above.

본 실시예의 한 예로서, 동일한 개념이나 콘텐트를 서로 다른 언어로 표시하는 두 문서의 예를 고려해보자.As an example of this embodiment, consider an example of two documents displaying the same concept or content in different languages.

문서 A: The sky is blue. The grass is green. The sky includes clouds and stars. The grass dies in the winter.Document A: The sky is blue. The grass is green. The sky includes clouds and stars. The grass dies in the winter.

문서 B: AAA BB CCC. AAA EEE DDDD. AAA BB FFF GGGG HHH. AAA EEE III JJJJJ.Document B: AAA BB CCC. AAA EEE DDDD. AAA BB FFF GGGG HHH. AAA EEE III JJJJJ.

본 실시예의 첫단계로서, 각 문서의 단어 카운트가 구축되어 적절한 비율을 생성할 수 있다. 이 비율은 아래 소개되는 바와 같이 비교형 범위 위치설정에 사용된다. 본 예에서, 문서 A는 20 단어, 문서 BB는 15개의 단어를 포함하며, 그 비율은 4:3이다. 따라서, 문서 A의 네단어들이 문서 B의 세단어에 대응한다.As a first step in this embodiment, the word count of each document can be constructed to generate the appropriate ratio. This ratio is used for comparative range positioning as introduced below. In this example, document A contains 20 words, document BB contains 15 words, and the ratio is 4: 3. Thus, the four words of document A correspond to the three words of document B.

다음 단계로서, 검사될 단어 스트링이나 어구에 대해 단어 세그먼트가 구축된다. 이 세그먼트는 공통 언어 규칙에 따라 결정될 수 있다. 가령, 세그먼트가 한 문장이거나 한 문단일 수 있다. 그러나, 세그먼트의 길이는 사용자에 의해 규정되며, 요망하는 단어 스트링들의 어떤 부분도 가능하다. 본 예의 경우에 세그먼트는 각 문서의 문장들에 대응하지만, 본 발명의 상관도 생성을 위해 단일 문장보다는 더 긴 세그먼트들이 훨씬 효과적이다. 왜냐하면, 데이터베이스를 채우기 위한 잠재적 상관도의 베이스가 훨씬 크기 때문이다.As a next step, a word segment is constructed for the word string or phrase to be examined. This segment may be determined according to common language rules. For example, a segment may be a sentence or a paragraph. However, the length of the segment is defined by the user, and any portion of the desired word strings is possible. In the case of this example, the segments correspond to the sentences of each document, but longer segments than the single sentence are much more effective for generating the correlation of the present invention. Because the base of the potential correlation to populate the database is much larger.

다음 단계로서, 제 1 세그먼트의 제 1 단어를 검사해보자. 본 예에서 제 1 세그먼트의 제 1 단어는 "the"이다.As a next step, let's examine the first word of the first segment. In this example, the first word of the first segment is "the".

다음 단계로서, 문서 A의 제 1 단어의 모든 발생 위치를 결정한다. 어떤 문서에서도 각각의 단어 카운트 위치에 의해 단어 위치가 결정된다. 본 예를 이용하여, 단어 "the"의 우치는 1, 5, 9, 15이다.As a next step, all occurrence positions of the first word of document A are determined. The word position is determined by each word count position in any document. Using this example, the spaces of the word "the" are 1, 5, 9, 15.

다음 단계로서, 검사되는 제 1 단어에 상관된 타겟 단어들을 결정한다. 타겟 단어들은 문서 B의 상대 포인트를 결정하기 위해 단어 비율을 이용함으로서, 그리고 문서 B의 상기 단어 위치에 대해 범위를 적용함으로서 결정된다. 문서 B에서 단어의 상대 위치는 상술한 비율을 적용함으로서 결정된다. 본 예에서, 단어 "the"는 문서 A의 1, 5, 9, 15 위치에 나타난다. 이 위치들은 문서 B의 상대 위치 1, 4, 7, 11에 대응한다. 이 계산은 문서 A의 위치를 취하여, (문서 A에 대한 문서 B의 단어 비를 곱함으로서 또는 3/4를 곱함으로서) 비율을 구축하며, 그리고 상기 비율을 적용함으로서 이루어진다. 1(문서 A) x 3/4 = 1(올림); 5(문서 A) x 3/4 = 3 3/4 = 4(올림)(문서 B); 9(문서 A) x 3/4 = 7(문서 B, 올림); 15(문서 a) x 3/4 = 11(문서 B, 내림).As a next step, determine target words correlated to the first word being examined. Target words are determined by using word ratios to determine the relative points of document B, and by applying a range to the word position of document B. The relative position of a word in document B is determined by applying the above mentioned ratio. In this example, the word "the" appears at positions 1, 5, 9, and 15 of document A. These positions correspond to relative positions 1, 4, 7, 11 of document B. This calculation is made by taking the position of document A, building the ratio (by multiplying the word ratio of document B to document A or by multiplying 3/4), and applying the ratio. 1 (Document A) x 3/4 = 1 (rounded up); 5 (document A) x 3/4 = 3 3/4 = 4 (rounded up) (document B); 9 (document A) x 3/4 = 7 (document B, rounded up); 15 (document a) x 3/4 = 11 (document B, down).

검사될 제 1 단어(the)에 대하여 위 내용을 적용할 때 다음의 결과를 얻을 수 있다.When applying the above to the first word (the) to be examined, the following results can be obtained.

- 문서 A의 위치 = 1-Position of document A = 1

- 문서 B의 상대적 위치 = 1-Relative position of document B = 1

- 문서 B의 앞/뒤 단어에 적용되는 빈도 범위는 문서 B의 단어 위치 1-3에 대응한다. 이 결정은 위치 +/- 빈도 범위, 또는 1 +/-2, 또는 -1 ~ 3을 취함으로서 이루어진다. 음수 및 0 위치를 무시함으로서 문서 B의 단어 위치 결과는 1-3으로 나타난다.The frequency range applied to the front / back words of document B corresponds to word positions 1-3 of document B. This determination is made by taking the position +/- frequency range, or 1 +/- 2, or -1 to 3. By ignoring negative and zero positions, the word position results in document B appear as 1-3.

- 문서 B에 상기 빈도 범위를 적용하면 문서 B의 위치 1, 2, 3의 단어들이 나타난다. 즉, AAA, BB, CCC가 나타난다.Applying this frequency range to document B results in words at positions 1, 2 and 3 of document B. That is, AAA, BB and CCC are shown.

따라서, 문서 A의 단어 "the"의 첫 번째 발생은 문서 B의 단어 AAA, BB, CCC를 도출한다.Thus, the first occurrence of the word "the" in document A derives the words AAA, BB, CCC of document B.

다음 단계로서, 문서 A의 단어 "the"의 다음 발생으로 진행하여, 앞서 과정을 적용해보면,As a next step, proceeding to the next occurrence of the word "the" in document A, and applying the preceding procedure,

- 문서 A의 위치 = 4Position of Document A = 4

- 문서 B의 상대적 위치 = 3Relative Position of Document B = 3

- 상대적 위치 3에서의 빈도 범위(+/- 2)는 문서 B의 위치 1, 2, 3, 4, 5를 도출한다. 즉, AAA, BB, CCC, AAA, EEE를 도출한다.The frequency range (+/- 2) at relative position 3 leads to positions 1, 2, 3, 4 and 5 of document B. That is, AAA, BB, CCC, AAA, and EEE are derived.

그후 제 2 위치에 대한 타겟 단어가 제 1 위치에 대한 타겟 단어와 일치하는 지를 결정한다.It is then determined whether the target word for the second location matches the target word for the first location.

- 제 1 검색으로부터의 결과는 AAA BB CCC.The result from the first search is AAA BB CCC.

- 제 2 검색으로부터의 결과는 AAA BB CCC AAA EEE.The result from the second search is AAA BB CCC AAA EEE.

- 일치사항은 AAA(두번), BB, CCC.-Matches are AAA (twice), BB, CCC.

이 일치사항들은 단어 "the"와의 가능한 상관에 대한 메모리 소자에 저장된다.These matches are stored in the memory element for possible correlation with the word "the".

과정은 단어 "the"의 다음 발생에 대하여 계속 반복된다. 단어 "the"의 세 번째 발생으로부터의 결과는 CCC AAA EEE DDDD AAA이다. 일치시항은 AAA(두번)과 CCC이다. 일치사항은 가능한 상관에 대한 메모리 소자에 저장된다.The process is repeated for the next occurrence of the word "the". The result from the third occurrence of the word "the" is CCC AAA EEE DDDD AAA. The match terms are AAA (twice) and CCC. The match is stored in a memory element for possible correlation.

단어 "the"의 모든 다른 발생에 대해 이 과정이 반복된다. 이 분석으로부터의 결과는 가능한 상관으로 AAA BB FFF GGGG HHH와, AAA 및 BB를 나타낸다.This process is repeated for all other occurrences of the word "the". The results from this analysis show AAA BB FFF GGGG HHH and AAA and BB in a possible correlation.

다음 단계로서, 본 발명은 검사되는 단어수를 하나씩 증분한다. 본 예에서, 검사되는 단어는 "the"이다(문서 A의 첫 단어). 증분되어 분석될 다음 단어 스트링은 "the sky"이다.As a next step, the present invention increments the number of words being checked one by one. In this example, the word being checked is "the" (the first word of document A). The next word string to be incrementally analyzed is "the sky".

이 단어 스트링에 대해 상술한 단계들을 반복한다. 위치 1 및 9에서 "The sky"가 나타난다. 문서 A에서의 상대적 위치는 1과 6이다. 이 빈도 범위를 상대적 위치 번호에 적용하면, 제 1 위치에 대해 AAA, BB, CCC, 그리고 제 2 위치에 대해 AAA EEE DDDD AAA BB가 도출된다. 두 단어 어구에 대한 두 결과를 비교하면, 데이터베이스에 저장될 가능한 상관어로 AAA와 BB를 얻는다.The above steps are repeated for this word string. "The sky" appears in positions 1 and 9. The relative positions in document A are 1 and 6. Applying this frequency range to the relative location number, AAA, BB, CCC, and AAA EEE DDDD AAA BB are derived for the first location. Comparing the two results for two word phrases yields AAA and BB as possible correlations to be stored in the database.

과정이 한단어만큼 증분되어 과정은 "the sky is"에 대해 반복된다. 이 과정은 가능한 일치사항으로 AAA BB CCC만을 도출한다. 그 외 다른 발생이 없기 때문이다.The process is incremented by one word, so the process repeats for "the sky is". This process derives only the AAA BB CCC as a possible correspondence. This is because there is no other occurrence.

"the sky is blue"라는 어구에 대해 과정을 반복하면, 데이터베이스에 저장될 가능한 상관어로 AAA BB CCC를 가지는 발생이 단 한번 존재한다.Repeating the process for the phrase "the sky is blue", there is only one occurrence with AAA BB CCC as a possible correlation to be stored in the database.

다음 단계로서, 문서 A의 구두점으로 표시되는 바처럼 사용자에 의해 규정된 제 1 세그먼트의 말미에 다다랐다. 다음 단계는 제 1 세그먼트의 두 번째 단어를 취하는 것으로서 상술한 반복 과정을 계속하는 것이다. 본 예에서 분석은 "sky", "sky is", "sky is blue"를 포함하며, 그 결과, 문서 B에서 상대적 위치로 2와 7을 도출하고, 제 1 일치사항으로 AAA BB CCC AAA를, 제 2 일치사항으로 EEE DDDD AAABB FFF를 도출한다. 데이터베이스에 저장될 가능한 상관어로 AAA와 BB를 도출한다.As a next step, we have reached the end of the first segment defined by the user, as indicated by the punctuation in Document A. The next step is to continue the iterative process described above by taking the second word of the first segment. In this example, the analysis includes "sky", "sky is", "sky is blue", resulting in 2 and 7 relative positions in document B, and AAA BB CCC AAA as the first match, The second match yields the EEE DDDD AAABB FFF. AAA and BB are derived as possible correlations to be stored in the database.

세그먼트에서 다음 증분된 단어는 "is"와 "is blue"다. "is"와 "is blue"에 대해 앞서의 과정을 반복하면 일치사항으로 AAA BB CCC AAA와, CCC AAA EEE DDDD AAA를 얻으며, 이때, AAA와 CCC가 데이터베이스에 저장될 가능한 상관어다.The next incremental words in the segment are "is" and "is blue". Repeating the above process for "is" and "is blue" yields AAA BB CCC AAA and CCC AAA EEE DDDD AAA as a match, where AAA and CCC are possible correlations to be stored in the database.

세그먼트에서 다음 증분 단어는 "blue"로서, 데이터베이스에 저장될 가능한 상관어로 AAA BB CCC AAA EEE를 도출한다.The next incremental word in the segment is "blue", which yields AAA BB CCC AAA EEE as a possible correlation to be stored in the database.

분석은 세그먼트 말미에 도달하였다. 다음 세그먼트는 "the grass is green."이다. "the"가 이미 분석되었기 때문에, 다음 분석될 단어 부분은 "the grass"이다. 이어서, "the grass is", "the grass is green", "grass", "grass is", "grass is green", "green"이다.The analysis reached the end of the segment. The next segment is "the grass is green." Since "the" has already been analyzed, the next part of the word to be analyzed is "the grass". Then, "the grass is", "the grass is green", "grass", "grass is", "grass is green" and "green".

과정은 다음 세그먼트("the sky includes clouds and stars")로 계속되고, 분석은 "the sky includes", "the sky includes clouds", "the sky includes and", "the sky includes clouds and stars", "includes", "includes clouds", "includes clouds and ", "includes clouds and stars", "clouds", "clouds and", "clouds and stars", "and", "and stars", "stars"에 대하여 이루어진다.The process continues with the next segment ("the sky includes clouds and stars"), and analysis continues with "the sky includes clouds", "the sky includes clouds", "the sky includes and", "the sky includes clouds and stars", " About includes "," includes clouds "," includes clouds and "," includes clouds and stars "," clouds "," clouds and "," clouds and stars "," and "," and stars ", and" stars " Is done.

마지막으로, 과정은 다음 세그먼트("the grass dies in the winter")로 계속되고, 분석은 "the grass dies", "the grass dies in", "the grass dies in the", "the grass dies in the winter", "grass dies", "grass dies in", "grass dies in the", "grass dies in the winter", "dies", "dies in", "dies in the", "dies in the winter", "in", "in the", "in the winter", "the winter", "winter"에 대하여이루어진다.Finally, the process continues to the next segment ("the grass dies in the winter"), and analysis continues with "the grass dies", "the grass dies in", "the grass dies in the", "the grass dies in the winter "," grass dies "," grass dies in "," grass dies in the "," grass dies in the winter "," dies "," dies in "," dies in the "," dies in the winter " , "in", "in the", "in the winter", "the winter", and "winter".

세그먼트들이 문장이나 문단에 제한될 필요가 없다는 앞서 상술한 내용에 비추어, 세그먼트들이 분석용으로 확장될 수 있다. 본 발명이 언어 번역의 기능으로 기여할 때 사람(she)을 제 1 문장에 통합시키도록 세그먼트를 확장함으로서 여러 문장들이 한 세그먼트로 분석될 수 있다("Went to school today. She walked to the school on the street").In view of the foregoing that the segments need not be limited to sentences or paragraphs, the segments can be extended for analysis. When the present invention contributes to the function of language translation, several sentences can be analyzed into one segment by extending the segment to incorporate the person into the first sentence ("Went to school today. She walked to the school on the street ").

상술한 바와 같이, 이 두 실시예들은 상관도를 생성하는 데 사용되는 기술을 나타낸다. 본 발명의 기술들은 언어 번역에 제한될 필요가 없다. 넓은 의미에서, 이 기술들은 상관될 수 있는 동일한 아이디어의 어떤 두 실시예에도 적용될 것이다. 왜냐하면, 외국어 번역이 한개의 아이디어(단어나 어구)에 대한 커플 관계로 존재하기 때문이다. 따라서, 본 발명은 데이터, 소리, 음악, 비디오뿐 아니라, 어떤 감각적인 경험(가령, 소리, 시야, 냄새 등)을 나타낼 수 있는 아이디어를 포함한 한개의 아이디어로 존재하는 그 외 다른 폭넓은 범위의 개념까지 상관시키도록 적용될 수 있다. 오직 요구되는 것은 본 발명이 두 실시예를 분석해야 한다는 점이다. 언어 번역에서 실시예들은 문서이고, 음악의 경우 실시예들은 동일한 곡을 표시하는 음파 진동수와 악보의 디지털 표현일 수 있다.As mentioned above, these two embodiments represent techniques used to generate the correlation. The techniques of the present invention need not be limited to language translation. In a broad sense, these techniques will apply to any two embodiments of the same idea that can be correlated. This is because foreign language translation exists as a couple of ideas (words or phrases). Thus, the present invention encompasses not only data, sound, music, and video, but also a broad range of other concepts that exist as one idea, including ideas that can represent any sensory experience (eg, sound, sight, smell, etc.). Can be applied to correlate. All that is required is that the present invention analyze two examples. In language translation, the embodiments are documents, and in the case of music, the embodiments may be digital representations of sound waves and musical scores representing the same song.

추가적으로, 기계적, 전기적, 또는 그 외 다른 수단에 의해 어떤 상관사항을 데이터베이스로 로딩하는 본 발명의 한 실시예를 가질 수 있다. 예를 들어, 상관 데이터베이스를 보다 정확하고 효율적으로 그리고 더 빠른 분해능으로 생성하기 위해 영어 단어 it, his, her, an, a, of, 또는 그 외 다른 흔한 단어의 외국어 대응어를 가진 데이터베이스를 로딩하는 것이 가능하다. 따라서, 본 실시예 내에서 본 발명은 데이터베이스로 로딩된 어떤 단어들의 외국어 대응어를 자동적으로 내보낼 수 있다. 본 실시예는 본 발명의 상관 데이터베이스 생성 기술을 이용하여, 분석을 빗나가게 할 수 있는 공통어를 수용할 수 있다.In addition, one embodiment of the present invention may be loaded with any correlation into the database by mechanical, electrical, or other means. For example, loading a database with the foreign language counterparts of the English words it, his, her, an, a, of, or other common words to create a correlation database more accurately, efficiently, and with faster resolution. It is possible. Therefore, within the present embodiment, the present invention can automatically export foreign language counterparts of certain words loaded into the database. This embodiment can accommodate common words that may deviate from the analysis using the correlation database generation technique of the present invention.

추가적으로, 한 실시예는 단어 패턴을 생성하고 인지하기 위해 공통 상관어를 이용할 수 있다. 예를 들어, "Clinton"에 대하여 "President"처럼, 텍스트가 President Clinton을 의미하지만 단어 "president"는 축약어로 사용되는 상황을 상관 데이터베이스가 수용하도록, 상관어를 데이터베이스에 로딩하는 것이 가능하다.Additionally, one embodiment may use a common correlation to generate and recognize word patterns. For example, like "President" for "Clinton", it is possible to load a correlation into the database so that the correlation database accommodates situations where the text means President Clinton but the word "president" is used as an abbreviation.

가능한 상관어 데이터베이스를 생성하기 위한 교차-아이디어 상관 기술처럼 넓은 의미로 교차-언어 상관이 존재할 때, 상관이 구축될 때 결과가 조작될 수 있다. 따라서 예를 들어, 각각의 "idea"가 전자기파에 대한 상관을 할당받을 때, 아이디어의 "electromagnetic association"을 생성하는 것이 가능할 것이다. 주어진 수의 아이디어가 해당 전자기 상관으로 인코딩되었을 경우, 데이터는 전자기파로 조작될 수 있고 기존 통신망 구조를 통해 전송될 수 있다. 전자기파가 수신 장치에 도달하면, 수신 장치는 파들을 별도의 구성요소로 합성할 것이고, 상기 상관 하에서, 전자기 상관에 의해 나타난 개별적 아이디어들을 제시할 것이다.When cross-language correlation exists in a broad sense, such as a cross-ideal correlation technique for generating a possible correlation database, the result can be manipulated when the correlation is established. Thus, for example, when each "idea" is assigned a correlation to electromagnetic waves, it will be possible to create an "electromagnetic association" of the idea. When a given number of ideas have been encoded with the corresponding electromagnetic correlation, the data can be manipulated with electromagnetic waves and transmitted over existing network structures. When the electromagnetic wave reaches the receiving device, the receiving device will synthesize the waves into separate components and, under the correlation, will present the individual ideas represented by the electromagnetic correlation.

Claims (2)

콘텐트 상관 방법에 있어서, 이 방법은,In the content correlation method, - 제 1 상태로 표현된 콘텐트를 수신하고,Receive content expressed in a first state, - 제 2 상태로 표현된 콘텐트를 수신하며,Receive content expressed in a second state, - 상기 제 1 상태로 표현된 상기 콘텐트를 상기 제 2 상태로 표현된 상기 콘텐트와 함께 분석하고, 이때, 상기 분석은 제 1 상태의 콘텐트 세그먼트들과 상기 제 2 상태의 콘텐트 세그먼트들을 이용하며, 그리고Analyze the content represented by the first state together with the content represented by the second state, wherein the analysis uses content segments of the first state and content segments of the second state, and - 상기 제 2 상태의 상기 콘텐트에 대한 상기 제 1 상태의 상기 콘텐트의 상관 데이터베이스를 생성하는Create a correlation database of the content of the first state with respect to the content of the second state 이상의 단계를 포함하는 것을 특징으로 하는 콘텐트 상관 방법.Content correlation method comprising the above steps. 콘텐트 상관용 컴퓨터 시스템에 있어서, 이 시스템은In a computer system for content correlation, the system - 제 1 상태로 표현된 콘텐트를 수신하고 제 2 상태로 표현된 콘텐트를 수신하는 연산 장치An arithmetic device that receives the content represented in the first state and the content represented in the second state 를 포함하며, 이때, 상기 연산 장치는 제 1 상태의 콘텐트 세그먼트들과 상기 제 2 상태의 콘텐트 세그먼트들을 이용하여 상기 제 1 상태로 표현된 상기 콘텐트를 상기 제 2 상태로 표현된 콘텐트와 함께 분석하고, 그리고Wherein the computing device analyzes the content represented by the first state together with the content represented by the second state by using content segments of the first state and content segments of the second state. , And 상기 연산 장치는 상기 제 2 상태의 상기 콘텐트에 대한 상기 제 1 상태의 상기 콘텐트의 상관 데이터베이스를 생성하는 것을 특징으로 하는 콘텐트 상관 용컴퓨터 시스템.And said computing device generates a correlation database of said content in said first state relative to said content in said second state.
KR10-2003-7016595A 2001-06-21 2002-06-21 Cross-idea association database creation KR20040007741A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US29947201P 2001-06-21 2001-06-21
US60/299,472 2001-06-21
PCT/US2002/019587 WO2003001403A1 (en) 2001-06-21 2002-06-21 Cross-idea association database creation

Publications (1)

Publication Number Publication Date
KR20040007741A true KR20040007741A (en) 2004-01-24

Family

ID=23154946

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-7016595A KR20040007741A (en) 2001-06-21 2002-06-21 Cross-idea association database creation

Country Status (9)

Country Link
EP (1) EP1397754A4 (en)
JP (1) JP2004531832A (en)
KR (1) KR20040007741A (en)
CN (1) CN1520558A (en)
CA (1) CA2447229A1 (en)
EA (1) EA006182B1 (en)
IL (1) IL158749A0 (en)
WO (1) WO2003001403A1 (en)
ZA (1) ZA200309843B (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1786954B (en) * 2005-12-20 2010-05-05 无敌科技(西安)有限公司 Method and system for integrated inquiry of multi language and multi text

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728819A (en) * 1993-07-07 1995-01-31 Kokusai Denshin Denwa Co Ltd <Kdd> Automatic bilingual dictionary preparing system
JP3408291B2 (en) * 1993-09-20 2003-05-19 株式会社東芝 Dictionary creation support device
JPH09128396A (en) * 1995-11-06 1997-05-16 Hitachi Ltd Preparation method for bilingual dictionary
DE69837979T2 (en) * 1997-06-27 2008-03-06 International Business Machines Corp. System for extracting multilingual terminology

Also Published As

Publication number Publication date
ZA200309843B (en) 2005-01-19
EP1397754A4 (en) 2006-05-10
JP2004531832A (en) 2004-10-14
CA2447229A1 (en) 2003-01-03
EA200400059A1 (en) 2004-04-29
CN1520558A (en) 2004-08-11
EP1397754A1 (en) 2004-03-17
IL158749A0 (en) 2004-05-12
WO2003001403A1 (en) 2003-01-03
EA006182B1 (en) 2005-10-27

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US20090094017A1 (en) Multilingual Translation Database System and An Establishing Method Therefor
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
KR20050005523A (en) Word association method and apparatus
KR20040068319A (en) Content conversion method and apparatus
CN105068997B (en) The construction method and device of parallel corpora
CN102982021A (en) Method for disambiguating multiple readings in language conversion
Callison-Burch et al. A program for automatically selecting the best output from multiple machine translation engines
CN110678868B (en) Translation support system, translation support apparatus, translation support method, and computer-readable medium
KR100911372B1 (en) Apparatus and method for unsupervised learning translation relationships among words and phrases in the statistical machine translation system
KR20040004558A (en) Content conversion method and apparatus
Meelen et al. Segmenting and POS tagging Classical Tibetan using a memory-based tagger
Michel et al. Exploring bilingual word embeddings for Hiligaynon, a low-resource language
JP2017021523A (en) Term meaning code determination device, method and program
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
KR20040007741A (en) Cross-idea association database creation
JP3369127B2 (en) Morphological analyzer
CN109766551A (en) A kind of determination method and system of polysemant semanteme
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Xu et al. Partitioning parallel documents using binary segmentation
KR100385863B1 (en) Method and device of korean-to-english query translation using mutual information
WO2024004184A1 (en) Generation device, generation method, and program
WO2024004183A1 (en) Extraction device, generation device, extraction method, generation method, and program
JP3353647B2 (en) Dictionary / rule learning device for machine translation system and storage medium storing dictionary / rule learning program for machine translation system
Tukeyev et al. Computational Model of Morphology and Stemming of Karakalpak Words on a Complete Set of Inflectional Endings

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid