KR20080066965A - 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체 - Google Patents

단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체 Download PDF

Info

Publication number
KR20080066965A
KR20080066965A KR1020087012563A KR20087012563A KR20080066965A KR 20080066965 A KR20080066965 A KR 20080066965A KR 1020087012563 A KR1020087012563 A KR 1020087012563A KR 20087012563 A KR20087012563 A KR 20087012563A KR 20080066965 A KR20080066965 A KR 20080066965A
Authority
KR
South Korea
Prior art keywords
words
search
text
parallel
extracted
Prior art date
Application number
KR1020087012563A
Other languages
English (en)
Inventor
준이치 고이시
Original Assignee
로제따 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로제따 코포레이션 filed Critical 로제따 코포레이션
Publication of KR20080066965A publication Critical patent/KR20080066965A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문장으로서 단어들의 배열의 자연스러움을 결정하는 장치가 제공된다. 번역될 전체 소스 텍스트가 사전에 등록되어 있지 않을 때, 상기 소스 텍스트는 복수의 단어들로 분리된다. 상기 소스 텍스트 내의 각각의 단어에 대하여 병렬 번역이 병렬 번역 패턴들을 생성하기 위하여 획득되고, 웹 검색이 병렬 번역 패턴들의 각각을 포함하는 텍스트에 대하여 구성된다(단계 36 내지 44).

Description

단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법, 및 프로그램을 저장하는 저장 매체 {Apparatus, method, and storage medium storing program for determining naturalness of array of words}
본 발명은 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법, 및 프로그램을 저장하는 저장 매체에 관련되고, 보다 구체적으로 인터넷에 연결된 컴퓨터에서 실현되는 단어들의 배열의 자연스러움을 결정하기 위한 장치, 단어들의 배열의 자연스러움을 결정하기 위해 상기 장치에 적용될 수 있는 단어들의 배열의 자연스러움을 결정하기 위한 방법, 및 단어들의 배열의 자연스러움을 결정하기 위한 장치로서 기능하는 컴퓨터에서 구현되는 단어들의 배열의 자연스러움을 결정하기 위한 프로그램을 저장하는 저장 매체에 관련된다.
자연 언어(소스 언어)로 표현된 문장(소스 텍스트)이 다른 자연 언어(목표 언어)로 표현된 다른 문장(병렬/상응하는 번역된 텍스트)으로 번역되는 소위 자연 번역이라 불리는 번역 시스템의 실현이 굉장히 오랜 기간동안 기대되어왔고, 상기 자연 번역을 위해 다양한 개선된 기술들이 제안되어왔다.
예를 들면, EBMT(예시 기반 기계 번역, Example Based Machine Translation) 및 TDMT(전달 구동 기계 번역, Transfer Driven Machine Translation)는 자동 번역 을 위한 잘 알려진 대표적인 접근들이다. EBMT에서, 소스 언어 예시들 및 목표 언어 예시들의 수 개의 쌍들이 소스 텍스트에 가장 유사한 예시가 번역을 위하여 이용되기 위하여 코퍼스(corpus)에서 검색되도록 코퍼스에 등록된다. TDMT에서, 번역은 구문의 기본 구조 유닛인 성분 경계 패턴에서 코퍼스로부터 번역 지식을 학습하고 번역을 위한 전달 지식을 이용함에 의하여 수행된다. 일본 특허 출원 공개 제2003-263434호는 다른 기술을 개시한다. 여기서 입력 데이터는 두개의 번역 시스템들 TDMT 및 EBMT에 의하여 번역되고; TDMT에 의하여 입력 데이터를 번역함에 있어서 입력 데이터 및 예시들 사이에 유사성을 보여주는 문장 구조 점수 및 EBMT에 의하여 입력 데이터를 번역하는데 있어서 입력 데이터 및 예시들 사이에 유사성을 보여주는 DP 거리가 산출되며; TDMT 또는 EBMT가 입력 데이터의 번역을 위하여 적절한지 여부를 보여주는 평가 데이터, 및 상기 문장 구조 점수 및 상기 산출된 DP 거리가 상기 입력 데이터의 번역을 위하여 적절한 번역 시스템을 선택하기 위하여 선택자를 생성하기 위하여 이용된다.
그러나 현존하는 자동 번역 기술을 이용함에 의하여 생성되는 병렬 번역된 텍스트는 상기 병렬 번역된 텍스트가 단어 단위들에서 어떠한 문법 오류들 또는 병렬 번역 오류들을 갖지 않음에도 불구하고 종종 목표 언어에서 자연스럽지 않은 문장이고, 실제 이용을 위한 번역에서의 정확성이 앞서 설명된 특허의 개시를 포함하는 전통적인 자동 번역 기술들에 의하여 아직은 실질적으로 성취되지 않았다. 그 이유는 어떠한 메커니즘도 자동 번역에 의하여 생성되는 병렬 번역된 텍스트가 목표 언어에서 문장으로서 자연스럽거나 그렇지 않은지 여부를 결정하고 판단하기 위 하도록, 현존하는 자동 번역 장치들에 대해, 설비되지 않기 때문이라고 가정된다. 그러나 측정은 감각적인 인덱스들에 의존하기 때문에 문장의 자연스러움을 정량적으로 측정하는 것을 어렵고, 또한 목표 언어에서 문장으로서 생성된 단어들의 배열의 자연스러움을 결정하기 위한 기준을 정의하는 것이 어렵니다. 그러므로 자동 번역에 의하여 병렬 번역된 텍스트로서 획득된 문장으로서 단어들의 배열, 또는 사람에 의하여 문장으로서 수동으로 구성된 단어들의 배열의 자연스러움을 결정하기 위한 기술이 아직 수립되지 않았다.
본 발명은 앞선 사실들을 고려하여 만들어졌고, 본 발명의 한 목적은, 문장으로서 단어들의 배열의 자연스러움을 적절하게 결정할 수 있는 단어들의 배열의 자연스러움을 결정하기 위한 장치, 단어들의 배열의 자연스러움을 결정하기 위한 방법, 및 단어들의 배열의 자연스러움을 결정하기 위한 프로그램을 저장하는 저장 매체를 제공하는 것이다.
앞선 목적을 성취하기 위하여, 본 발명의 제1 측면은 인터넷에 연결된 컴퓨터에서 실현되는 단어들의 배열의 자연스러움을 결정하기 위한 장치이고, 상기 장치는 인터넷을 통하여 접근 가능한 텍스트들에서 검색 객체로서 특정된 단어들의 배열을 검색하기 위한 검색 섹션, 및 상기 검색 섹션이 복수의 단어들이 배열된 결정 객체의 단어들의 배열을 검색 객체로서 특정함에 의하여 상기 검색을 수행하도록 야기하고, 상기 검색에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 문장으로서 단어들의 배열의 자연스러움을 결정하기 위한 결정 섹션을 포함한다.
인터넷을 통하여 접근 가능한 텍스트들의 많은 양이 있고, 상기 텍스트들은 다른 언어들로 표현된 다양한 콘텐츠들을 포함한다. 비록 어떠한 텍스트들은 문장으로서 부자연스러운 표현을 포함할 수 있더라도, 상기 텍스트들은 사람들에 의하여 접근 및 참조되는 가정에 기초하여 만들어지기 때문에, 대부분의 텍스트들은 자연스러운 문장으로 쓰인다고 고려될 수 있다. 나아가, 비록 개별 언어에서 문장들의 자연스러움에 대한 그 자체의 기준이 긴 시간에 걸쳐 변화할 것이더라도, 인터넷을 통해 접근 가능한 텍스트들은 날마다 갱신되거나, 삭제되거나, 추가되고, 상기 갱신되거나 추가된 텍스트들은 그 시간에서 문장들의 자연스러움에 대한 기준 변화를 반영한다고 고려될 수 있다. 본 발명의 발명자는 인터넷을 통해 접근 가능한 전체 텍스트들이 갖는 앞서 설명된 특징들에 관심을 집중하였고, 이는 기준으로서 인터넷을 통해 접근 가능한 전체 텍스트들을 이용함에 의하여, 문장으로서 배열 또는 단어들의 자연스러움이 결정될 수 있다는 결론에 이르렀고, 이는 본 발명의 사용을 야기한다.
앞서 설명된 바와 같이, 본 발명의 제1 측면에 따르면 단어들의 배열의 자연스러움을 결정하기 위한 장치는 인터넷으로 연결된 컴퓨터에서 실현되고, 인터넷을 통하여 접근 가능한 텍스트들에서 검색 객체로서 특정된 단어들의 배열을 검색하기 위한 검색 섹션을 포함한다. 본 발명의 제1 측면에 따른 결정 섹션은 복수의 단어들이 배열된 결정 객체의 단어들의 배열을 검색 객체로서 특정함에 의하여 상기 검색을 수행하도록 상기 검색 섹션을 운영하고, 각각의 검색에 의해 추출된 텍스트의 존재 또는 부재 및 상기 검색 섹션에 의하여 추출된 텍스트들의 수에 기초하여 문장으로서 상기 결정 객체의 단어들의 특정된 배열의 자연스러움을 결정한다.
상기 결정 객체의 단어들의 배열은 수동으로 구성된 문장일 수 있고, 또는 아래 설명된 바와 같이 소스 언어에서 소스 텍스트의 각각의 단어에 상응하는 목표 언어에서 병렬 번역된 단어, 또는 상기 소스 문장의 일부에 상응하는 단어들의 배열을 결합함에 의하여 자동적으로 생성된 병렬 (상응하는) 번역된 단어들의 배열인 문장일 수 있다. 상기 검색 섹션을 위한 상기 검색 객체로서 특정된 단어들의 배열은 상기 검색 객체의 단어들의 전체 배열일 수 있고, 또는 상기 부분들의 각각을 포함하는 텍스트를 연속적으로 검색하기 위한 상기 결정 객체의 단어들의 배열의 분리된 부분들 일 수 있다. 상기 결정 섹션에 의하여 단어들의 배열의 자연스러움을 결정하는데 있어서, 특히, 관련 텍스트가 상기 검색 섹션에 의하여 상기 검색에서 추출될 때, 단어들의 배열은 어떠한 텍스트도 추출되지 않은 단어들의 배열보다 "더 높은 자연스러움"을 갖는 것으로 결정되고, 관련 텍스트가 상기 검색 섹션에 의하여 상기 검색에서 추출될 때, 더 많은 텍스트들이 추출되는 단어들의 배열은 더 적은 텍스트들이 추출되는 단어들의 배열들보다 "더 높은 자연스러움"을 갖는 것으로 결정된다.
이러한 방식에서, 본 발명의 제1 측면에 따라, 상기 결정 객체의 단어들의 배열(모두 또는 그들의 일부)을 포함하는 텍스트가 인터넷을 통하여 접근 가능한 텍스트들 중에서 검색된 후에, 문장으로서 상기 결정 객체의 단어들의 상기 특정된 배열의 자연스러움이 상기 검색의 각각에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 결정된다. 이것은 문장으로서 단어들의 배열의 자연스러움에 대한 적절한 결정이 성취되는 것을 허용한다. 한 언어에서 문장들의 자연스러움에 대한 그 자신의 기준이 변화함에 따라, 인터넷을 통해 접근 가능한 텍스트들 중에서 상기 언어로 표현된 전체 텍스트에서 나타나는 상기 언어에서의 문장들의 자연스러움에 대한 기준도 또한 변한다. 그러므로 본 발명의 제1 측면에 따른 장치는 한 언어에서 문장들의 자연스러움의 어떠한 기준 변화를 검출하고, 개선되어 저장 섹션에서 검색의 시간에 검색 섹션에 의하여 참조되는 텍스트들을 저장하는 장치들에 비교하여, 상기 검출된 변화들에 의존하여 저장 섹션에서 텍스트들을 갱신하거나, 삭제하거나, 또는 추가한다.
본 발명의 제1 측면에 따른 결정 섹션은, 예를 들면, 상기 결정 섹션이 검색 객체로서 상기 결정 객체의 단어들의 전체 배열을 특정하고 상기 검색 섹션이 상기 배열에 대하여 검색을 수행하도록 야기하고, 어떠한 관련 텍스트도 상기 검색에 의하여 추출되지 않을 때, 상기 결정 섹션이 검색 객체로서 상기 결정 객체의 단어들의 전채 배열보다 더 작은 길이를 갖는 단어들의 하위 배열을 상기 결정 객체의 단어들의 배열로부터 추출하는 처리, 및 상기 검출 섹션이 점차적으로 줄어드는 검색 객체로서 추출되기 위한 단어들의 하위 배열의 길이를 가지고 검색 객체로서 단어들의 하위 배열을 특정함에 의하여 검색을 수행하도록 야기하는 처리를 반복적으로 수행하고, 상기 검출에 의해 추출된 텍스트의 존재 또는 부재, 상기 검색에 의해 추출된 텍스트들의 수, 및 상기 텍스트가 추출된 상기 검색 객체로서 단어들의 하위 배열의 길이에 기초하여 문장으로서 단어들의 배열의 자연스러움을 결정한다.
비록 인터넷을 통해 접근 가능한 텍스트들에서 결정 객체의 단어들의 전체 배열을 포함하는 어떠한 텍스트도 없다 하더라도, 상기 결정 객체의 단어들의 배열의 일부(단어들의 하위 배열)를 포함하는 텍스트가 발견될 수 있다. 단어들의 하위 배열의 검색에서, 관련 텍스트가 추출되는 검색 객체로서 단어들의 하위 배열에서 단어들의 수는 문장으로서 상기 결정 객체의 단어들의 상응하는 배열의 자연스러움의 결정에 관련된다: 관련 텍스트가 추출된 검색 객체로서 단어들의 하위 배열에 더 많은 단어들이 있을수록, 상기 문장은 더 높은 자연스러움을 갖는 것으로 고려될 수 있다. 그러므로 본 발명에서, 상기 검색 객체로서 상기 결정 객체의 단어들의 전체 배열을 특정함에 의하여 상기 검색에 의하여 추출된 어떠한 관련 텍스트도 없는 경우, 검색 객체로서 단어들의 하위 배열을 이용하는 검색이 상기 검색 객체로서 점차적으로 감소하는 상기 결정 객체의 단어들의 배열로부터 추출되는 단어들의 하위 배열의 길이를 가지고 반복된다. 이것은 상기 결정 섹션이 존재 또는 부재, 및 상기 검색 섹션에 의한 검색에 의하여 추출된 텍스트들의 수 및 상기 텍스트가 추출되는 상기 검색 객체로서 단어들의 하위 배열에서 단어들의 수에 기초하여 문장으로서 상기 결정 객체의 단어들의 배열의 자연스러움을 결정하도록 허용하고, 이는 문장으로서 단어들의 배열의 자연스러움의 더욱 적절한 결정을 야기한다.
본 발명의 제1 측면에서, 소스 언어에서 소스 텍스트로부터 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 텍스트를 획득하기 위하여, 예를 들면, 본 발명에 따른 장치는 바람직하게는, 소스 언어에서 소스 텍스트의 각각의 단어에 대한 목표 언어에서 병렬 (상응하는) 번역된 단어를 획득하고, 상기 소스 텍스트의 각각의 단어에 대하여 획득된 상기 병렬 번역된 단어들의 조합에 상응하는, 상기 목표 언어에서 병렬 번역된 단어들의 복수의 배열을, 상기 결정 객체의 단어들의 배열로서 생성하기 위한 생성 섹션을 더 포함하도록 구성될 수 있고, 상기 결정 섹션은 상기 생성 섹션에 의하여 생성된 병렬 번역된 단어들의 복수의 배열들 각각을 검색 객체로서 특정하고, 상기 검색 섹션이 상기 배열들의 각각에 대하여 검색을 수행하도록 야기하고, 상기 결정 섹션이 각각의 검색에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 병렬 번역된 단어들의 복수의 배열들 중에서부터 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열을 선택한다.
본 발명에서, 소스 텍스트에서 각각의 단어에 대하여 획득된 병렬 번역된 단어들의 조합에 상응하는 목표 언어에서 병렬 번역된 단어들의 복수의 배열들은 생성 섹션에 의하여 생성된다. 병렬 번역된 단어들의 복수의 배열들은 상기 소스 언어에서 상기 소스 텍스트에 상응하는 상기 목표 언어에서 병렬 번역된 텍스트에 대한 후보일 것이고, 상기 결정 섹션은 검색 객체로서 상기 생성 섹션에 의해 생성된 병렬 번역된 단어들의 복수의 배열들의 각각을 특정하고 각각의 배열에 대한 검색을 수행하도록 상기 검색 섹션을 운영하고, 그로 인해 각각의 검색에 의해 추출된 텍스트의 존재 또는 부재, 및 각각의 배열에 대해 추출된 텍스트들의 수에 기초하여 병렬 번역된 단어들의 복수의 배열들 중에서부터 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열을 선택한다. 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열에 대하여, 예를 들면, 상기 결정 섹션은 텍스트들의 최대 수가 상기 검색 섹션에 의한 검색에 의하여 추출된 병렬 번역된 단어들의 오직 하나의 배열을 선택할 수 있고, 또는 텍스트들이 상기 검색 섹션에 의한 상기 검색에 의하여 추출되고 텍스트들의 수가 앞선 배열에 대한 추출된 텍스트들의 최대 수에 대하여 미리 결정된 퍼센트를 갖거나 더 많은 병렬 번역된 단어들의 배열들을 선택할 수 있다.
이러한 방식에서, 상기 검색들은 소스 텍스트로부터 생성된 병렬 번역된 단어들의 복수의 배열들(병렬 번역된 텍스트에 대한 복수의 후보들)의 각각에 대하여 인터넷을 통하여 접근 가능한 텍스트들에서 만들어지기 때문에, 문장으로서 병렬 번역된 단어들의 각각의 배열의 자연스러움을 적절하게 결정하기 위하여 인덱스들(각각의 검색에 의해 추출된 텍스트의 존재 또는 부재, 및 상기 추출된 텍스트들의 수)이 획득될 수 있다. 상기 인덱스들에 기초하여, 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열은 병렬 번역된 단어들의 복수의 배열들 중에서부터 선택될 수 있다. 그러므로 병렬 번역된 단어들의 복수의 배열들 중에서(병렬 번역된 텍스트에 대한 복수의 후보들), 상기 소스 텍스트에 대한 병렬 번역된 텍스트로서 더욱 적절한 병렬 번역된 텍스트인, 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열( 또는 상기 병렬 번역된 텍스트에 상응하는 병렬 번역된 단어들의 배열)이 선택될 수 있다.
이러한 구조에서, 본 발명은 예를 들면, 바람직하게는 상기 결정 섹션이 병렬 번역된 단어들의 복수의 배열들에서 상기 배열의 전체를 검색 객체로서 특정하고, 상기 검색 섹션이 상기 배열들 각각에 대한 검색을 수행하도록 야기하도록 구성될 수 있고, 어떠한 관련 텍스트도 상기 검색에 의해 추출되지 않았을 때, 상기 결정 섹션은 상기 생성 섹션이 병렬 번역된 단어들로서 이들 각각은 병렬 번역된 단어들의 복수의 배열들에서 상기 배열의 전체보다 더 작은 길이를 갖는 병렬 번역된 단어들의 복수의 하위 배열들을 생성하도록 야기하는 처리를 수행하고, 복수의 하위 배열들은 상기 소스 언어에서 소스 텍스트에서 일련의 단어들의 미리 결정된 수에 상응하는 상기 병렬 번역된 단어들의 조합이고, 상기 결정 섹션은 검색 객체로서 복수의 병렬 번역된 단어들의 상기 생성된 하위 배열들 각각을 특정하고, 상기 검색 섹션이 점차적으로 감소하는 병렬 번역된 단어들의 하위 배열의 생성을 위하여 이용되기 위해 상기 소스 텍스트에서 상기 단어들의 수를 가지고 상기 하위 배열들의 각각에 대하여 검색을 수행하도록 야기하고, 상기 결정 섹션은 상기 검색에 의하여 추출된 텍스트의 존재 또는 부재, 상기 추출된 텍스트들의 수, 및 상기 텍스트가 추출된 상기 검색 객체로서 병렬 번역된 단어들의 하위 배열에서 단어들의 수에 기초하여 복수의 병렬 번역된 단어들의 배열 중으로부터 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열을 선택한다.
이것은 비록 인터넷을 통해 접근 가능한 텍스트들에서 병렬 번역된 단어들의 전체 배열을 포함하는 어떠한 텍스트도 없다 할지라도 더욱 적절한 병렬 번역된 텍스트(또는 상기 병렬 번역된 텍스트에 상응하는 병렬 번역된 단어들의 배열)가 상기 소스 텍스트에 대한 병렬 번역된 텍스트로서 선택되도록 허용한다.
더 나아가, 앞선 구성에서, 더욱 구체적으로, 본 발명은 바람직하게는 저장 섹션을 더 포함하도록 구성될 수 있고, 관련 텍스트가 상기 검색에 의하여 추출될 때마다, 상기 결정 섹션은 상기 저장 섹션에서 상기 검색을 위하여 이용되는 병렬 번역된 단어들의 하위 배열을 저장하고, 병렬 번역된 단어들의 하위 배열의 연속적인 생성을 위하여 이용되기 위해 단어들로부터 병렬 번역된 단어들의 저장된 하위 배열에 상응하는 소스 텍스트에서 미리 결정된 수의 단어들을 배제하고, 더 이상 일련의 단어들이 병렬 번역된 단어들의 하위 배열의 연속적인 생성을 위하여 이용될 수 있는 소스 텍스트에 존재하지 않을 때, 병렬 번역된 단어들의 하위 배열의 저장된 조합들 각각에 대하여, 상기 결정 섹션은 상기 검색 섹션이 상기 조합에서 병렬 번역된 단어들의 모두를 포함하는 텍스트에 대한 검색을 수행하도록 야기하고, 상기 결정 섹션은 상기 조합 내의 병렬 번역된 단어들 모두를 포함하는 텍스트의 존재 또는 부재 및 상기 병렬 번역된 단어들의 모두를 포함하고 상기 검색에 의하여 추출된 텍스트들의 수에 기초하여, 병렬 번역된 단어들의 하위 배열들의 저장된 조합들 중에서부터 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 하위 배열의 조합을 선택한다.
앞서 설명된 바와 같이, 관련 텍스트가 상기 검색 섹션에 의하여 상기 검색에 의해 추출될 때마다, 병렬 번역된 단어들의 하위 배열에 상응하는 상기 소스 텍스트 내의 미리 결정된 수의 단어들은 병렬 번역된 단어들의 하위 배열들의 연속적인 생성을 위하여 이용되기 위한 단어들로부터 배제된다. 이것은 상기 소스 텍스트가 상기 검색 섹션에 의하여 상기 검색 결과(인터넷을 통해 접근 가능한 텍스트들에서 병렬 번역된 단어들의 상응하는 하위 배열의 존재 또는 부재)에 기초하여 더욱 가능한 병렬 번역된 텍스트를 제공하도록 고려되는 분할 패턴에 따라 단어들의 배열들로 분할되도록 허용한다. 상기 저장 섹션에서, 상기 분할 패턴에 따른 상기 분할 이후에 상기 소스 텍스트 내의 단어들의 각각의 배열에 상응하는 병렬 번역된 단어들의 하위 배열이 저장된다.
이러한 구조에서, 상기 소스 텍스트 내에서 병렬 번역된 단어들의 하위 배열들의 연속적인 생성을 위하여 이용될 수 있는 일련의 단어들이 더 이상 없을 때, 상기 저장 섹션에 저장된 병렬 번역된 단어들의 하위 배열들의 조합들의 각각에 대하여, 상기 하위 배열들의 조합들의 각각에서 상기 병렬 번역된 단어들의 모두를 포함하는 텍스트에 대한 검색이 이루어진다. 이것은 텍스트 내에 포함되는 상기 조합 내에서 상기 병렬 번역된 단어들 모두의 가능성에 대한 결정이, 상기 검색 결과에 기초하여 병렬 번역된 단어들의 하위 배열의 각각의 조합에 대하여 이루어지도록 허용한다. 상기 저장 섹션에 저장된 병렬 번역된 단어들의 하위 배열들의 조합들 중에서 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 하위 배열들의 조합이 상기 조합에서 병렬 번역된 단어들 모두를 포함하는 텍스트의 존재 또는 부재, 및 상기 병렬 번역된 단어들 모두를 포함하고 상기 검색에 의하여 추출된 텍스트들의 수에 기초하여 선택된다. 그러므로 상기 소스 텍스트에 대해 병렬 번역된 텍스트로서 더욱 적절한 병렬 번역된 텍스트( 또는 상기 병렬 번역된 텍스트에 상응하는 병렬 번역된 단어들의 하위 배열들의 조합)가 상기 병렬 번역된 단어들의 하위 배열들의 각각의 조합에 대하여 함께 발생하는 가능성에 기초하여 선택될 수 있다.
본 발명의 제2 측면은 인터넷으로 연결된 컴퓨터에서 실현되는 단어들의 배열의 자연스러움을 결정하기 위한 방법이고, 상기 방법은 인터넷을 통해 접근 가능한 텍스트들에서, 복수의 단어들이 배열된 결정 객체의 단어들의 배열에 대해 검색하는 단계; 및 상기 검색에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 문장으로서 결정 객체의 단어들의 배열의 자연스러움을 결정하는 단계를 포함한다.
그러므로 본 발명의 제2 측면은 문장으로서 단어들의 배열의 자연스러움을 적절하게 결정하는 것을 허용한다.
본 발명의 제3 측면은 단어들의 배열의 자연스러움을 결정하기 위한 프로그램을 저장하는 저장 매체이고, 이는 인터넷에 연결된 컴퓨터가 단어들의 배열의 자연스러움을 결정하기 위한 장치로서 기능하도록 허용하고, 상기 프로그램은 상기 컴퓨터가, 인터넷을 통해 접근 가능한 텍스트들에서 검색 객체로서 특정된 단어들의 배열을 검색하는 단계로서, 상기 검색은 복수의 단어들이 배열된 결정 객체의 단어들의 배열을 검색 객체로서 특정함에 의하여 수행되는 검색하는 단계; 및 상기 검색에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 문장으로서 결정 객체의 단어들의 특정된 배열의 자연스러움을 결정하는 단계를 포함하는 처리들을 수행하도록 한다.
본 발명의 제3 측면에 따른 단어들의 배열의 자연스러움을 결정하기 위한 프로그램을 저장하는 저장 매체가 인터넷에 연결된 컴퓨터가 앞서 설명된 검색 섹션 및 결정 섹션으로 기능하는 것을 허용하기 때문에, 상기 컴퓨터가 단어들의 배열의 자연스러움을 결정하기 위한 프로그램을 실행할 때, 상기 컴퓨터는 본 발명의 제1 측면에 따른 단어들의 배열의 자연스러움을 결정하기 위한 장치로서 기능하고, 이는 문장으로서 단어들의 배열의 자연스러움의 적절한 결정을 허용한다.
앞서 설명된 바와 같이, 본 발명은 복수의 단어들이 인터넷을 통해 접근 가능한 텍스트들에 배열된 결정 객체의 단어들의 배열을 검색하고, 상기 검색에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 문장으로서 상기 결정 객체의 단어들의 배열의 자연스러움을 결정하는 장치를 제공한다.
도 1은 본 발명에 따른 컴퓨터 시스템의 실시예의 계략적인 구조를 보여주는 블록도이다.
도 2는 병렬 번역 결정의 처리를 보여주는 흐름도이다.
도 3a 및 3b는 본 발명에 따른 컴퓨터의 다른 실시예들을 보여주는 개념적인 도면들이다.
이제 본 발명의 실시예의 예시가 첨부된 도면을 참조하여 아래에서 상세히 설명될 것이다. 도 1은 본 발명에 따른 컴퓨터 시스템(10)을 보여준다. 상기 컴퓨터 시스템(10)은 수 개의 클라이언트 단말들(16)을 포함하고, 이들 각각은 수 개의 웹 서버들(12)이 연결된 인터넷(14)으로 연결된다.
인터넷(14)에 연결된 개별 클라이언트 단말(16)은 예를 들면 개인용 컴퓨터(PC)를 포함하고, CPU(16A), RAM 또는 유사한 것을 포함하는 메모리(16B), OS(운 영 시스템) 및 브라우저를 포함하는 프로그램들이 설치된 하드디스크 드라이브(HDD, 16C) 또는 저장 장치/매체, 및 네트워크 인터페이스(I/F) 섹션(16D)을 갖고, 상기 네트워크 섹션(16D)을 통하여 상기 인터넷(14)으로 연결된다. 상기 클라이언트 단말(16)은 또한 디스플레이, 마우스, 및 키보드(미도시)와 같은 디스플레이 수단을 포함하는 입력 수단과 또한 연결된다.
인터넷(14)으로 연결된 개별 클라이언트 단말(16)은 본 발명에 따른 단어들의 배열의 자연스러움을 결정하기 위한 장치로서 기능하는 클라이언트 단말(16)을 포함한다. 그러한 클라이언트 단말(16)은 병렬 번역 결정 프로그램이 아래 묘사된 병렬 번역 결정을 위한 처리의 실현을 위하여 개선되게 설치되고, 2개 언어 (또는 다중 언어/병렬 번역) 사전 데이터베이스(DB)가 또한 설치된 HDD(16C)를 갖는다. 이러한 병렬 번역 결정 프로그램은 단어들의 배열의 자연스러움을 결정하기 위한 프로그램에 상응한다. 2개 언어 사전 DB에서, 소스 언어에서 묘사된 단어들의 수개의 텍스트 데이터(복수의 단어들, 연어들(collocations), 및 유사한 것으로 이루어진 단어들, 구들)가 목표 언어에서 표현된 병렬 번역 텍스트 데이터에 상응하여 등록된다.
개별 웹 서버(12)는 CPU(12A), RAM 또는 유사한 것을 포함하는 메모리(12B), OS와 같은 프로그램이 설치된 HDD(12C), 및 네트워크 인터페이스(I/F) 섹션(12D)을 갖고, 상기 네트워크 (I/F) 섹션(12D)을 통하여 인터넷(14)으로 연결된다. 다양한 웹 서버들(12) 중에서, 텍스트들, 이미지들, 음악, 및 유사한 것과 같은 어떠한 웹 콘텐츠를 제공하는 웹 서버(웹 콘텐츠 제공 서버, 12)는 상기 HDD(12C)에 저장된 텍스트들 또는 유사한 것과 같은 웹 콘텐츠들을 갖는다. 콘텐츠 전달 프로그램은 또한, 인터넷(14)을 통해 컴퓨터(어떠한 클라이언트 단말(16) 또는 어떠한 웹 서버(12))에 의하여 어떠한 웹 콘텐츠의 전달을 위한 요청에 따라, 상기 요청된 웹 콘텐츠가 요청 컴퓨터로 전달되는 콘텐츠 전달 처리를 위하여 거기에 설치된다.
다양한 웹 서버들(12) 중에서, 인터넷상에서 접근 가능한 거대한 텍스트들(웹 문서들) 중으로부터 특정된 키워드들을 갖는 텍스트들에 대한 검색의 검색 결과를 나타내기 위해 웹 검색 서비스를 제공하는 웹 서버(12, 검색 서비스를 제공하는 서버)가 있다. 웹 검색 서비스 제공 서버로서 기능하는 그러한 웹 서버(12)는 검색 데이터베이스(DB)가 저장된 HDD(12C)를 갖고, 또한 검색 서비스 제공 프로그램이 개선되게 설치된다. 상기 CPU(12A)가 상기 검색 서비스 제공 프로그램을 실행할 때, 웹 검색 서비스 제공 서버로서 기능하는 웹 서버(12)는, 연속적으로 상기 웹 문서들의 링크들을 따라감에 의하여 수 개의 웹 문서들을 검토하는 단계; 수집되지 않은 또는 갱신된 문서의 검출에 따라, 검색 DB 내에서 상기 검출된 웹 문서의 콘텐츠를 저장하거나 또는 상기 검색 DB 내에서 검출된 웹 문서에 상응하는 저장된 정보를 갱신하는 단계; 및 특정된 키워드에 의한 검색을 위한 요청에 따라, 상기 특정된 키워드를 이용함에 의하여 상기 검색 DB를 검색하고 상기 결과를 출력하는 단계를 포함하는 처리를 제공하는 웹 검색 서비스를 수행한다.
다음으로, 상기 실시예의 동작이 설명될 것이다. 이러한 실시예에서, 사용자가 소스 언어에서 표현된 소스 텍스트에 상응하는 목표 언어에서 표현된 병렬 번역된 텍스트를 아는 것을 희망할 때, 상기 사용자는 번역되기 위한 번역 객체 및 목 표 언어로서 상기 소스 텍스트를 특정하도록 클라이언트 단말(16) 상에서 동작을 수행한다. 상기 소스 텍스트는, 키보드를 이용하여 사용자에 의해 입력된 텍스트, 워드 프로세서 소프트웨어를 이용하여 생성되고 상기 HDD(16C)에 이미 저장된 텍스트, 상기 사용자가 브라우저를 통하여 인터넷을 통하여 접근 가능한 텍스트들 중에서 보고 있는 웹 문서 내의 텍스트, OCR(광학 문자 인식(Optical Character Recognition): 광학 접근에 의한 텍스트 인식)을 이용하여 판독 처리에 의하여 획득된 텍스트 및 유사한 것을 포함하는, 텍스트 데이터로서 상기 클라이언트 단말(16)로 판독될 수 있는 어떠한 텍스트일 수 있다. 상기 소스 텍스트는 문장으로 제한될 필요는 없고, 복수의 단어들을 포함하는 구, 연어 및 유사한 것일 수 있다.
번역될 소스 텍스트가 앞서 설명된 바와 같이 특정되었을 때, 상기 클라이언트 단말(16)의 CPU(16A)는 병렬 번역 결정 프로그램을 실행하고, 그로 인해 도 2에 보인 병렬 번역 결정을 위한 처리들이 동작된다. 단어들의 배열의 자연스러움을 결정하기 위한 방법은 병렬 번역 결정을 위한 이러한 처리들에 적용되고, 상기 처리들의 동작은 단어들의 배열의 자연스러움을 결정하기 위한 장치로서 상기 클라이언트 단말(16)이 기능하도록 한다.
단계 30에서, 상기 실시예에 따른 병렬 번역 결정을 위한 처리에서, 번역 객체로서 특정된 전체 소스 텍스트가 2개 언어 사전 DB에서 그것이 거기에 등록(저장)되었는지 아닌지 여부가 검색된다. 다음 단계 32에서, 상기 전체 텍스트가 단계 30에서 상기 검색에 의하여 상기 2개 언어 사전 DB에서 발견되었는지 여부가 결정된다. 긍정적인 결정이 단계 32에서 이루어졌을 때, 다음으로 단계 34에서, 2개 언 어 사전 DB에 등록된 병렬 번역 (텍스트)이 단계 30에서 상기 검색에서 발견된 전체 소스 텍스트와 관련하여 판독되고, 상기 판독된 병렬 번역 (텍스트)은 상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보로서 출력된다(예를 들면, 상기 판독된 병렬 번역(텍스트)은 클라이언트 단말(16)의 디스플레이 또는 유사한 것 상에 디스플레이 된다). 다음으로, 병렬 번역 결정을 위한 처리가 완료된다. 만약 복수의 병렬 번역들(텍스트들)이 웹 검색에 대하여 아래 설명될 바와 같이, 전체 소스 텍스트와 관련하여 상기 2개 언어 사전 DB에 등록되었다면, 개별 병렬 번역(텍스트)을 포함하는 텍스트들은 검색 서비스 제공 서버에 의하여 제공된 검색 서비스를 이용함에 의하여 검색되고, 관련 텍스트들이 상기 검색에 의하여 추출되고 다른 추출된 텍스트들의 수에 대한 비율로서 상기 추출된 텍스트들의 수가 문턱값과 같거나 그보다 큰(아래 설명될 것이다) 병렬 번역(텍스트)이 병렬 번역된 텍스트 후보로서 출력된다.
전체 소스 텍스트가 단계 30에서 상기 검색의 결과로서 2개 언어 사전 DB로부터 발견되지 않았을 때, 부정적인 결정이 단계 32에서 이루어지고, 상기 처리는 단계 36으로 이동한다. 단계 36에서, 최장 매치 원칙이 2개 언어 DB를 참조하여 복수의 단어들( 또는 단어들의 배열들)로 소스 텍스트를 나누기 위하여 상기 소스 텍스트에 적용된다. 상기 소스 텍스트의 이러한 분할에서, 상기 2개 언어 사전 DB로부터 검색에 의한 접근이, 아래 설명될 단계 48 및 단계 68에서 수행되는 웹 검색 대신에 적용되고, 상기 소스 텍스트의 미리 결정된 길이( 미리 결정된 수의 구성 단어들)를 갖는 단어들의 배열의 하위 세트를 추출하는 단계; 상기 2개 언어 사전 DB로부터 단어들의 배열의 상기 추출된 하위 세트를 검색하는 단계; 상기 단어들의 배열의 하위 세트가 2개 언어 DB에 등록되었음이 발견되었을 때 분리되기 위한 부분으로서 단어들의 배열의 하위 세트를 저장하는 단계; 다음 단계들에서 추출되기 위해 단어들의 배열의 하위 세트로부터 단어들의 배열의 하위 세트 내의 각각의 단어들을 제거하는 단계; 및 상기 소스 텍스트가 유닛으로서 추출될 수 있는(단어들의 배열의 하위 세트로서) 더 이상 근접한 단어들을 갖지 않을 때까지 감소되는(즉, 하나씩 구성 단어들의 수를 줄임에 의하여) 배열의 하위 세트에서 단어들의 수를 가지고 이러한 동작들을 반복하는 단계에 의하여 성취된다. 이 이후에, 단계 36에서 최장 매치 원칙에 의하여 소스 텍스트로부터 분할된 단어들 또는 단어들의 배열이 "단어들"로서 단순하게 지칭될 것이고, 상기 단어들의 총 수(분할된 단어들의 수)는 "a"로서 지칭될 것이다.
단계 38에서, 단계 36에서 상기 소스 텍스트로부터 분리된 개별 단어들에 상응하는 모든 병렬 번역들이 상기 2개 언어 사전 DB로부터 획득되고, 상기 개별 단어들에 대한 상기 획득된 병렬 번역들이 상기 HDD(16C)에 저장된다. 다음 단계 40에서, 단계 38에서 획득된 개별 단어들에 대한 병렬 번역들의 조합 패턴들이 생성된다. 즉, 예를 들면, 분할된 단어들의 수가 a이고, 상기 개별 단어들의 병렬 번역들의 각각의 수가 각각 n1, n2, ..., n3일 때, 상기 병렬 번역들의 조합 패턴들의 수 n1 x n2 x... x na가 생성될 것이다. 단계 40은 본 발명에 따른 장치의 생성 섹션에 상응한다.
다음 단계 42에서, 웹 검색은, 웹 검색 서비스 제공 서버에 의하여 제공되는 검색 서비스를 이용함에 의하여 인터넷(14)을 통하여 접근 가능한 모든 텍스트들로부터, 단계 40에서 생성된 개별 병렬 번역 조합 패턴을 포함하는 텍스트에 대해 검색하도록 연속적으로 수행된다. 특히, 단계 40은 웹 검색 서비스 제공 서버에 의하여 동작되는 검색 서비스를 제공하는 웹 사이트에 접근하는 단계; 검색을 위한 키워드로서 특정 병렬 번역 조합 패턴을 특정하고, 검색을 실행하도록 명령어를 발행하는 단계; 및 상기 HDD(16C)에서 웹 검색 서비스 제공 서버로부터 송신된 검색 결과(상기 특정된 키워드를 포함하는 텍스트들에 대한 히트 수)를 저장하는 단계를 포함한다. 상기 검색 조건들은 특정 병렬 번역 조합 패턴의 개별 병렬 번역된 단어들이 특정 병렬 번역 조합 패턴에서의 것과 동일한 순서에서 시리즈로 나타나는 텍스트들만이 검색되도록 특정될 수 있다. 이러한 동작들은 상기 생성된 병렬 번역 조합 패턴들의 각각에 대하여 연속적으로 반복된다.
단계 42는 본 발명에 따른 검색 섹션에 상응하고, 또한 상기 결정 섹션이 검색 객체로서 상기 결정 객체의 단어들의 전체 배열을 특정하고 상기 배열에 대한 검색을 수행하도록 상기 검색 섹션을 운영하는 단계, 및 상기 검색 섹션이 병렬 번역된 단어들의 복수의 배열들의 전체를 검색 객체로서 특정하고 상기 배열의 각각에 대한 검색을 수행하도록 상기 검색 섹션을 운영하는 단계에 상응한다.
단계 44에서, 상기 HDD(16C)에 저장된 검색 결과가 참조되고, 텍스트가 단계 42에서 웹 검색에 의하여 검색된 병렬 번역 조합 패턴(히트의 수가 하나 이상이다)이 발견되었는지 아닌지 여부가 결정된다. 상기 결정이 긍정일 때, 단계 46에서, 텍스트가 상기 웹 검색에 의하여 검색된 병렬 번역 조합 패턴들의 수가 인식된다. 상기 인식된 수가 하나일 대, 텍스트가 상기 웹 검색에 의하여 검색된 오직 하나의 병렬 번역 조합 패턴들이 예를 들면 클라이언트 단말(16)의 디스플레이 또는 유사한 것 상에 패턴을 디스플레이 함에 의하여, 상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보로서 출력되고, 상기 병렬 번역 결정을 위한 처리가 완료된다. 텍스트가 상기 웹 검색에 의하여 검색된 복수의 병렬 번역 조합 패턴이 있을 때, 상기 병렬 번역 조합 패턴 중에서 히트 텍스트들의 최고수를 갖는 병렬 번역 조합 패턴이 결정되고, 히트 텍스트들의 최고수(100%로서 취해짐)를 갖는 병렬 번역 조합 패턴에 기초하여, 히트 텍스트들의 최고수에 대하여 다른 병렬 번역 조합 패턴들에 대한 히트 텍스트들의 수들의 비율이 산출된다. 그 문턱값과 같거나 그보다 큰 히트 수의 비율을 갖는 병렬 번역 조합 패턴들이 예를 들면 클라이언트 단말(16)의 디스플레이 상에 패턴을 디스플레이 함에 의하여 상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보들로서 출력되고, 병렬 번역 결정을 위한 처리가 완료된다.
이러한 방법에서, 단계 40에서 생성된 전체 소스 텍스트에 상응하는 복수의 병렬 번역 조합 패턴들 중에서, 목표 언어에서의 문장으로서 가장 높은 자연스러움 또는 더 높은 자연스러움을 갖는 병렬 번역 조합 패턴들이 상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보들로서 출력된다. 단계 44 및 단계 46은 본 발명에 따른 결정 섹션에 상응한다.
이제, 단계 36 내지 단계 46에서 앞선 처리가 실제 예시의 방법에 의하여 아래에서 설명될 것이다. 예를 들면, 일본어에서 "Eiyo-Shiccho"가 번역 객체의 소스 텍스트로서 특정되고, 영어가 목표 언어로서 특정되고, 상기 번역 객체의 전체 소스 텍스트("Eiyo-Shiccho")가 2개 언어 사전 DB에 등록되지 않았을 때, 부정적인 결정이 단계 32에서 이루어지고, 단계 36에서 상기 소스 텍스트가 "Eiyo" 및 "Shiccho"의 개별 단어들로 분할된다(분할 단어들의 수 a=2). 다음으로 단계 38에서, 병렬 번역들이 각각의 단어들에 대하여 2개 언어 사전 DB로부터 획득된다. 만약 "Eiyo"에 대한 병렬 번역들이 "dietary", "alimentary", "nutritional", "nutrition", 및 "trophic"의 5개의 단어들을 포함하고, "Shiccho"에 대한 병렬 번역들이 "deficiency", "disorder", "disturbance", 및 "disease"를 포함한다면, 단계 40에서, 병렬 번역 조합 패턴들의 n1 x n2 = 5 x 4 = 20개가 생성된다(아래 표 1 참조).
<"Eiyo-Shiccho"를 위한 병렬 번역 조합 패턴의 예시>
조합 패턴 조합 패턴 조합 패턴
1 dietary deficiency 2 dietary disorder 3 dietary disturbance
4 dietary disease 5 alimentary deficiency 6 alimentary disorder
7 alimentary disturbance 8 alimentary disease 9 nutritional deficiency
10 nutritional disorder 11 nutritional disturbance 12 nutritional disease
13 nutrition deficiency 14 nutrition disorder 15 nutrition disiurbance
16 nutrition disease 17 trophic deficiency 18 trophic disorder
19 trophic disturbance 20 trophic disease
예를 들면 아래 표 2에서 보인 것과 같은 검색 결과가 단계 42에서 웹 검색에 의하여 획득되고(표 2에서, 병렬 번역 조합 패턴들은 히트의 수의 내림차순으로 순위 매겨진다), 상기 병렬 번역 조합 패턴 "nutrition deficiency"는 히트의 가장 큰 수, 즉 79600을 갖기 때문에, 상기 패턴 "nutrition disease"는 히트의 수의 86%의 비율을 차지하고, 상기 패턴 "dietary deficiency"는 히트의 수의 38%의 비율을 차지한다. 만약 상기 병렬 번역 조합 패턴들이 병렬 번역된 텍스트 후보들로서 출력되도록 허용하기 위한 히트의 수의 비율에 대한 문턱값이 예를 들면 70%라면, "nutrition deficiency" 및 "nutritional disease"는 병렬 번역 텍스트 후보로서 출력될 것이다. 만약 상기 병렬 번역 조합 패턴들이 병렬 번역된 텍스트 후보들로서 출력되도록 허용하기 위한 히트들의 수의 비율에 대한 문턱값이 100%라면, 오직 하나의 병렬 번역 조합 패턴만이 모든 경우에서 병렬 번역된 텍스트 후보로서 출력된다(이 경우 "nutrition deficiency").
<병렬 번역 조합 패턴들에 대한 웹 검색 결과들의 예>
조합 패턴 히트의 수 조합 패턴 히트의 수
1 nutritional deficiency 79600 2 nutrition disease 68200
3 dietary deficiency 30500 4 nutritional disorder 13300
5 nutritional disease 10600 6 nutrition deficiency 4710
7 nutrition disorder 1360 8 nutritional disturbance 647
9 dietary disease 521 10 dietary disorder 394
11 alimentary disease 278 12 alimentary disorder 173
13 trophic disorder 72 14 trophic disturbance 67
15 dietary disturbance 56 16 alimentary deficiency 55
17 nutrition disturbance 20 18 trophic disease 7
19 trophic deficiency 5 20 alimentary disturbance 0
단계 40에서 생성된 병렬 번역 조합 패턴들은 상기 소스 텍스트로부터 나뉜 시퀀스에서 병렬 번역된 단어들의 배열의 패턴들로 제한되지 않는다(예를 들면, "[A][B]"의 배열의 패턴에서 [A]는 단어 A에 대한 병렬 번역이고 [B]는 소스 텍스트 = (A,B)에서 단어 B에 대한 병렬 번역이고 A 및 B는 개별 단어들이다). 다른 패턴들은 상기 목적 언어가 예를 들면 영어일 때 [B] of [A]와 같이 생성될 수 있다(아래 설명될 단계 60에서 병렬 번역 조합 패턴들의 생성의 경우에서와 같다). 아래 표 3은 상기 "[B] of [A]"의 패턴이 또한 패턴 "[A][B]"에 추가하여 병렬 번역 조합 패턴으로서 생성될 때 표 1 및 2를 가지고 앞서 묘사된 예시에 대한 병렬 번역 조합 패턴들 및 웹 검색 결과를 보여준다. 표 3에서 보인 바와 같이, 패턴 유형의 수가 본 예에서 p=2이기 때문에, 병렬 번역 조합 패턴들의 n1 x n2 x p = 5 x 4 x 2 = 40이 생성되고, 이들 각각에 대해 웹 검색이 수행된다.
#1 <"Eiyo-Shiccho"에 대한 병렬 번역 조합 패턴들의 예 및 웹 검색 결과>
조합 패턴 히트의 수 조합 패턴 히트의 수
1 nutritional deficiency 79600 2 nutrition disease 68200
3 dietary deficiency 30500 4 nutritional disorder 13300
5 nutritional disease 10600 6 nutrition deficiency 4710
7 nutrition disorder 1360 8 nutritional disturbance 647
9 deficiency of dietary 584 10 dietary disease 521
11 dietary disorder 394 12 deficiency of nutritional 292
13 alimentary disease 278 14 alimentary disorder 173
15 deficiency of nutrition 131 16 disorder of nutrition 125
17 disease of nutrition 112 18 disturbance of nutrition 86
19 disease of dietary 73 20 trophic disorder 72
21 trophic disturbance 67 22 disease of nutritional 62
23 dietary disturbance 56 24 alimentary deficiency 55
25 nutrition disturbance 20 26 disturbance of nutritional 20
27 deficiency of trophic 17 28 disease of alimentary 11
29 deficiency of alimentary 10 30 disturbance of trophic 8
31 disturbance of alimentary 8 32 trophic disease 71
33 trophic deficiency 5 34 disease of trophic 0
35 disturbance of dietary 0 36 disorder of trophic 0
37 disorder of nutritional 0 38 disorder of alimentary 0
39 disorder of dietary 0 40 alimentary disturbance 0
표 3에서 보인 예시에서, 다른 패턴들보다 히트 수의 더 높은 비율을 갖는 병렬 번역 조합 패턴들은 표 2에서와 같다. 그러므로 만약 병렬 번역 조합 패턴들이 병렬 번역 텍스트 후보들로서 출력되도록 허용하기 위한 히트들의 수의 비율들에 대한 문턱값이 70%라면, "nutrition deficiency" 및 "nutrition disease"가 표 2의 경우에서와 같이 소스 텍스트 "Eiyo-Shiccho"에 대한 병렬 번역된 텍스트 후보들로서 출력될 것이다. 그러나 패턴 "[B] of [A]"에 상응하는 다른 병렬 번역 조합 패턴들이 다른 소스 텍스트에 대해 출력될 수 있고, 그로 인해 더욱 적절한 병렬 번역된 텍스트 후보들의 출력에 대한 가능성이 증대된다.
표 1 내지 표 3을 참조한 앞선 설명에서, 오직 적은 단어들을 갖는 소스 텍스트들만이 번역되는 것으로 특정된 예시가 설명의 간결함을 위하여 이용되었다. 그러나 실질적으로 문장이 번역되기 위한 소스 텍스트로서 종종 특정되고, 이는 어떠한 텍스트도 단계 40에서 생성된 병렬 번역 조합 패턴들의 어떠한 하나를 포함하는 것으로 발견되지 않는 경우를 종종 야기한다. 이러한 경우에서, 부정적인 결정이 단계 44, 단계 48 내지 단계 72에서 이루어진 후에, 병렬 번역된 텍스트 후보들을 선택하고 출력하기 위한 처리가 상기 소스 텍스트의 단어들의 배열의 일부에 상응하는 검색 객체로서 병렬 번역 조합 패턴들을 특정함에 의하여 실행되고, 반복적으로 상기 병렬 번역 조합 패턴들의 각각에 대한 웹 검색을 수행하는 것이 수행된다.
부정적인 결정이 단계 44에서 이루어진 경우는 어떠한 관련 텍스트도 상기 결정 섹션이 상기 결정 객체의 단어들의 전체 배열을 검색 객체로서 특정하는 검색에 의해 추출되지 않는 조건, 및 어떠한 관련 텍스트도 상기 결정 섹션이 상기 결정 객체의 단어들의 전체 배열을 검색 객체로서 특정하는 배열에 대한 검색에 의하여 추출되지 않는 경우에 상응한다. 단계 48 내지 단계 72의 흐름은 상기 결정 섹션의 동작에 상응하고, 단계 48 내지 단계 72의 흐름에서 단계 59 및 단계 60을 제외한 각각의 단계는 상기 결정 섹션의 동작에 상응한다.
단계 48 내지 단계 72에 대한 아래 설명에서, 예시가 앞서 언급된 최장 매치 원칙에 기초하여 15개의 단어들로 분리된 소스 텍스트(분리된 단어들의 수는 a=15)가 검색 객체로서 특정되어 아래 설명될 것이고, 병렬 번역된 텍스트 후보들이 상기 소스 텍스트의 15개의 단어들에 상응하는 15개의 병렬 번역된 단어들로 이루어진 병렬 번역된 단어들 (o, p, q, r, s, t, u, v, w, x, y, z, a, b, c)의 배열을 이용함에 의하여 추출된다. 상기 배열 내의 상기 병렬 번역된 단어들 o, p, q, r, s, t, u, v, w, x, y, z, a, b, 및 c는 그들 각각이 병렬 번역된 단어들의 no, np, nq, nr, ns, nt, nu, nv, nw, nx, ny, nz, na, nb, 및 nc개를 각각 갖는 전체 병렬 번역 단어들을 나타낸다.
단계 48에서, 분리된 단어들 a의 개수로부터 1을 뺌에 의하여 획득된 값(이 경우에서 상기 값은 14)이 상기 변수 i가 초기화되도록 변수 i에 할당된다. 상기 변수 i는 웹 검색이 아래 설명된 바와 같이 수행되는 단어들의 배열의 길이를 나타낸다. 다음 단계 50에서, 상기 변수 i의 값이 1인지 아닌지 여부가 결정된다. 상기 결정이 부정적이라면, 단계 52에서, 값 1이 변수 j에 할당된다. 상기 변수 j는 웹 검색이 아래 설명된 바와 같이 수행되는 단어들의 배열의 시작 위치를 나타낸다.
단계 54에서, 1의 빼기에 의한 상기 변수 j로 상기 변수 i의 더하기에 의하여 획득된 값이 상기 값 a(분리된 단어들의 수)보다 큰지 아닌지 여부가 결정된다. 상기 변수 a는 이러한 예에서 15이기 때문에, 단계 54에서 상기 결정은 부정적이고, 상기 처리는 단계 58로 이동한다. 단계 58에서, 상기 소스 텍스트에서 수 개의 단어들에서 j번째 단어 내지 (j+ i -1)번째 단어 중 어느 것이라도 아래 설명될 웹 검색에 의하여 추출되지 않았는지 여부가 결정된다. 이 때, 상기 웹 검색이 아직 수행되지 않기 때문에, 상기 결정은 긍정적이고, 상기 처리는 단계 59로 이동한다. 다음 단계 59에서, 상기 소스 텍스트에서 상기 j번째 단어 내지 (j + i -1)번째 단어에 상응하는 병렬 번역된 단어들의 조합 패턴들(병렬 번역 조합 패턴들)이 생성된다. 단계 59는 상기 생성 섹션의 동작에 상응하고, 그리고 상기 결정 섹션에 의해 병렬 번역된 단어들의 복수의 하위 배열들을 생성하기 위한 생성 섹션을 운영하는 단계에 상응한다. 단계 59에서 생성된 상기 병렬 번역 조합 패턴들은 병렬 번역된 단어들의 복수의 배열들보다 더 작은 길이를 갖는 병렬 번역된 단어들의 복수의 하위 배열들에 상응하고, 상기 복수의 하위 배열들은 상기 소스 언어에서 상기 소스 텍스트 내의 일련의 미리 결정된 수의 단어들의 병렬 번역된 단어들의 조합에 상응하고, 또한 단계 59에서 생성된 상기 병렬 번역 조합 패턴들이 단계 40에서 생성된 병렬 번역 조합 패턴들의 일부이기 때문에 상기 "단어들의 하위 배열"에 상응한다.
다음 단계 60에서, 웹 검색은, 텍스트에 대한 검색을 위하여, 웹 검색 서비스 제공 서버에 의하여 제공되는 검색 서비스를 이용함에 의하여 인터넷(14)을 통하여 접근 가능한 텍스트들의 모두로부터, 상기 병렬 번역 조합 패턴(즉, 검색 객체의 병렬 번역 조합 패턴의 상기 개별 병렬 번역된 단어들이 병렬 번역 조합 패턴들에서와 동일한 순서로 시리즈로 나타나는 텍스트)을 포함하는, 단계 59에서 생성된 개별 병렬 번역 조합 패턴을 위해 연속적으로 수행된다. 이러한 점에서, 변수 j=1 및 (j + i -1) = 14의 조건 하에서, 아래 설명된 바와 같이, "|"에 의하여 제거된 0 내지 b로부터 병렬 번역된 단어들에 상응하는 병렬 번역 조합 패턴들이 단계 59에서 생성되고(상기 생성된 병렬 번역 조합 패턴들의 수 = no x np x ... x nb), 웹 검색은 상기 생성된 개별 병렬 번역 조합 패턴의 각각을 포함하는 텍스트에 대해 검색하기 위하여, 단계 60에서 연속적으로 수행된다.
|o p q r s t u v w x y z a b| c
단계 62에서, 관련 텍스트가 단계 60에서 수행된 웹 검색에 의하여 추출된 어떠한 병렬 번역 조합 패턴(즉, 히트 텍스트의 수가 1 또는 그 이상)이 발견되었는지 아닌지 여부가 결정된다. 부정적인 결정이 이루어졌을 때, 단계 64에서, 상기 변수 j는 1씩 증가되고, 상기 처리는 단계 54로 돌아간다. 이러한 때, 변수 j =2 및 (j + i -1) = 15의 조건 하에서, 단계 54에서 결정은 부정적이고, 단계 58에서 상기 결정은 긍정적이고, 상기 처리는 단계 59로 이동한다. 단계 59에서, 아래 보인 바와 같이, p 내지 c의 병렬 번역된 단어들의 배열에 상응하는 병렬 번역 조합 패턴들로서, 위치가 단어들의 이전 배열에 대하여 한 단어씩 뒤로 이동되고 이전에 생성된 배열의 것들과 동일한 수의 단어들을 갖는, 병렬 번역 조합 패턴들이 생성되고(생성된 병렬 번역 조합 패턴들의 수 = np x nq x ... x nc), 웹 검색이 상기 생성된 병렬 번역 조합 패턴들의 어떠한 하나를 포함하는 텍스트에 대한 검색을 위하여 단계 60에서 연속적으로 수행된다.
o | p q r s t u v w x y z a b c |
만약 관련 텍스트가 이러한 웹 검색에 의하여 추출되지 않은 병렬 번역 조합 패턴이 여전히 발견되지 않고 부정적인 결정이 단계 62에서 이루어진다면, 단계 64에서, 변수 j는 다시 1씩 증가되고, 상기 처리는 단계 54로 돌아간다. 이러한 때, 변수 j = 3이고 (j + i -1) = 16의 조건 하에서, 긍정적인 결정이 단계 54에서 이루어진 후에, 상기 변수 i는 단계 56에서 1씩 감소되고(i = 13), 상기 처리는 단계 50으로 돌아간다. 단계 50에서 상기 결정 이후에, 단계 52에서, 상기 변수 j는 1로 리셋 된다. 이러한 때에, 변수 j = 1 및 (j + i -1) = 13의 조건 하에서, 단계 54 및 단계 58에서 결정 후에, 단계 59에서, o 내지 a의 병렬 번역된 단어들의 배열에 상응하는 아래 보인 바와 같은 병렬 번역 조합 패턴들이 생성되고(상기 생성된 병렬 번역 조합 패턴들의 수 = no x np x ... x na), 웹 검색은 상기 생성된 개별 병렬 번역 조합 패턴들 중 어느 하나를 포함하는 텍스트에 대해 검색하기 위하여, 단계 60에서 연속적으로 수행된다.
|o p q r s t u v w x y z a | b c
만약 관련 텍스트가 상기 웹 검색에 의하여 추출된 병렬 번역 조합 패턴이 여전히 발견되지 않고 부정적인 결정이 단계 62에서 이루어진다면, 단계 64에서 상기 변수 j가 다시 1씩 증가되고, 상기 처리는 단계 54로 돌아간다. 이러한 때, 변수 j = 2 및 (j + i -1) = 14의 조건 하에서, 단계 54 및 단계 58에서 결정 후에, 단계 59에서 아래 보인 바와 같이, p 내지 b의 병렬 번역된 단어들의 배열에 상응하는 병렬 번역 조합 패턴들로서, 위치가 단어들의 이전 배열에 대하여 한 단어씩 뒤로 이동되고 이전에 생성된 배열의 것들과 동일한 수의 단어들을 갖는, 병렬 번역 조합 패턴들이 생성되고(상기 생성된 병렬 번역 조합 패턴들의 수 = np x nq x ... x nb), 웹 검색은 상기 생성된 병렬 번역 조합 패턴들 중 어느 하나를 포함하는 텍스트에 대해 검색하기 위하여, 단계 60에서 연속적으로 수행된다.
o | p q r s t u v w x y z a b | c
만약 관련 텍스트가 상기 웹 검색에 의하여 추출된 병렬 번역 조합 패턴이 여전히 발견되지 않고 부정적인 결정이 단계 62에서 이루어진다면, 단계 64에서 상기 변수 j가 다시 1씩 증가되고, 상기 처리는 단계 54로 돌아간다. 이러한 때, 변수 j = 3 및 (j + i -1) = 15의 조건 하에서, 단계 54 및 단계 58에서 결정 후에, 단계 59에서 아래 보인 바와 같이, q 내지 c의 병렬 번역된 단어들의 배열에 상응하는 병렬 번역 조합 패턴들로서, 위치가 단어들의 이전 배열에 대하여 한 단어씩 뒤로 이동되고 이전에 생성된 배열의 것들과 동일한 수의 단어들을 갖는, 병렬 번역 조합 패턴들이 생성되고(상기 생성된 병렬 번역 조합 패턴들의 수 = nq x nr x ... x nc), 웹 검색은 상기 생성된 병렬 번역 조합 패턴들 중 어느 하나를 포함하는 텍스트에 대해 검색하기 위하여, 단계 60에서 연속적으로 수행된다.
o p | q r s t u v w x y z a b c |
만약 관련 텍스트가 상기 웹 검색에 의하여 추출된 병렬 번역 조합 패턴이 여전히 발견되지 않고 부정적인 결정이 단계 62에서 이루어진다면, 단계 64에서 상기 변수 j가 다시 1씩 증가되고, 상기 처리는 단계 54로 돌아간다. 이러한 때, 변수 j = 4 및 (j + i -1) = 16의 조건 하에서, 단계 54에서 긍정적인 결정이 이루어진 후에, 단계 56에서, 상기 변수 j는 1씩 감소되고(i = 12), 상기 처리는 단계 50으로 돌아간다. 단계 50에서 결정 이후에, 단계 52에서 상기 변수 j는 1로 리셋 된다. 이러한 때, 변수 j = 1 및 (j + i -1) = 12의 조건 하에서 단계 54 및 단계 58에서 결정 후에, 단계 59에서 o 내지 z의 병렬 번역된 단어들의 배열에 상응하는 병렬 번역 조합 패턴들이 아래 보인 바와 같이 생성되고(상기 생성된 병렬 번역 조합 패턴들의 수 = no x np x ... x nz), 웹 검색은 상기 생성된 병렬 번역 조합 패턴들 중 하나를 포함하는 텍스트에 대해 검색하기 위하여, 단계 60에서 연속적으로 수행된다.
|o p q r s t u v w x y z | a b c
유사하게, 관련 텍스트가 웹 검색에 의하여 추출된 병렬 번역 조합 패턴이 발견되지 않는 동안, 단어들의 배열에 대한 병렬 번역 조합 패턴들의 생성으로서 상기 (상기 생성을 위하여 이용되는) 소스 텍스트에서 단어들의 배열의 시작 단어의 위치가 상기 소스 텍스트에서 단어들의 이전 배열에 대하여 한 단어씩 뒤로 이동되는 병렬 번역 조합 패턴들의 생성 및 각각의 생성된 패턴에 대한 웹 검색이 반복될 것이다. 병렬 번역 조합 패턴들의 생성을 위하여 이용된 소스 텍스트에서 단어들의 배열의 마지막 끝이 상기 소스 텍스트의 마지막 끝으로 오는 매번마다(긍정적인 결정이 단계 54에서 이루어지는 매번마다), 병렬 번역 조합 패턴들의 생성을 위하여 이용되는 상기 소스 텍스트에서 단어들의 배열의 길이가 한 단어씩 줄어든다.
이제 다음 처리들이 예시의 방법에 의하여 아래 설명될 것이고, 상기 예시에서 변수 i(즉, 병렬 번역 조합 패턴들의 생성을 위하여 이용되는 소스 텍스트에서 단어들의 배열 내의 단어들의 수) = 4, 변수 j(즉, 병렬 번역 조합 패턴들의 생성을 위하여 이용되는 소스 텍스트에서 단어들의 배열 내의 시작 단어의 위치) = 4, 및 (j + i -1) = 7인 조건 하에서, 단계 54 및 단계 58에서 결정들 이후에, 단계 59에서, r 내지 u의 병렬 번역된 단어들의 배열에 상응하는 병렬 번역 조합 패턴들이 아래 보이는 바와 같이 생성되고(생성된 병렬 번역 조합 패턴들의 수 = nr x ns x nt x nu), 웹 검색이 상기 생성된 병렬 번역 조합 패턴들 중 어느 하나를 포함하는 텍스트에 대해 검색하기 위하여 단계 60에서 연속적으로 수행되고, 관련 텍스트가 추출되는 병렬 번역 조합 패턴의 발견을 야기한다.
o p q | r s t u | v w x y z a b c
이러한 경우에서, 긍정적인 결정이 단계 62에서 이루어진 후에, 단계 66에서 관련 텍스트가 상기 웹 검색에 의하여 추출되는 병렬 번역 조합 패턴들의 수가 인지된다. 상기 인지된 수가 1일 때, 관련 텍스트가 상기 웹 검색에 의하여 추출되는 오직 하나의 병렬 번역 조합 패턴이 상기 소스 텍스트 내의 단어들의 배열 중에서 j번째 내지 (j + i -1)번째 단어들의 배열에 대한 병렬 번역 후보로서 상기 HDD(16C, 상기 저장 섹션) 내에 저장된다. 관련 텍스트가 단계 60에서 상기 웹 검색에 의하여 추출되는 복수의 병렬 번역 조합 패턴들이 있을 때, 상기 병렬 번역 조합 패턴들 중에서 히트 텍스트들의 최대 수를 갖는 병렬 번역 조합 패턴이 결정되고, 히트 텍스트들의 최대 수(100%로서 취해진다)를 갖는 병렬 번역 조합 패턴들에 기초하여, 다른 병렬 번역 조합 패턴들에 대한 히트 텍스트들의 수들의 비율이 산출된다. 다음으로 문턱값과 같거나 그보다 큰 히트 수의 비율을 갖는 병렬 번역 조합 패턴들은 상기 소스 테스트 내의 단어들의 배열 중에서 j번째 내지 (j + i -1)번째 단어들의 배열에 대한 병렬 번역 후보들로서 상기 HDD(16C)에 저장된다.
다음 단계 68에서, 변수 j는 1씩 증가되고, 상기 처리는 단계 54로 돌아온다. 이러한 때에, 변수 j = 5이고 (j + i -1) = 8의 조건 하에서, 비록 부정적인 결정이 단계 54에서 이루어지더라도, 상기 소스 텍스트 내의 4번째 내지 7번째에 상응하는 병렬 번역된 단어들은 이미 상기 웹 검색에 의하여 히트 텍스트들을 갖는다(히트 텍스트들을 갖는 병렬 번역된 단어들이 상기 괄호들 "[" 및 "]" 사이에 대문자로 아래 보인다).
o p q [ R S T U ] v w x y z a b c
그러므로 부정적인 결정이 단계 58에서 또한 이루어지고 변수 j가 단계 64에서 1씩 증가되고, 상기 처리가 단계 54로 돌아간다. 따라서 단계 58에서 상기 결정은 "병렬 번역된 단어들의 하위 배열들의 연속적인 생성을 위하여 이용되기 위해 단어들로부터 상기 저장 섹션에 저장된 병렬 번역된 단어들의 하위 배열에 상응하는 상기 소스 텍스트 내의 미리 결정된 수의 단어들을 배제"하기 위한 단계에 상응한다. 단계들 54, 58 및 64의 이러한 루프는 j = 8이고 (j + i -1) = 11의 조건 하에서 단계 58에서 긍정적인 결정이 이루어지고, 웹 검색에 의하여 히트 텍스트들을 갖는 상기 소스 텍스트 내의 j번째 내지 (j + i -1)번째 단어들에 상응하는 병렬 번역된 단어들이 발견되지 않을 때까지 반복될 것이다. 그 이후에, j = 8이고 (j + i -1) = 11의 조건 하에서, 긍정적인 결정이 단계 58에서 이루어지고, 단계 59에서 v 내지 y의 병렬 번역된 단어들의 배열에 상응하는 병렬 번역 조합 패턴들이 아래 보인 바와 같이 생성되고(생성된 병렬 번역 조합 패턴들의 수 = nv x nw x nx x ny), 상기 웹 검색은 상기 생성된 개별 병렬 번역 조합 패턴들 중 어느 하나를 포함하는 텍스트에 대해 검색하기 위하여, 단계 60에서 연속적으로 수행된다.
o p q [ R S T U ] v w x y | z a b c
만약 관련 텍스트가 상기 웹 검색에 의하여 추출된 병렬 번역 조합 패턴이 발견되지 않고 부정적인 결정이 단계 62에서 이루어졌다면, 단계 64에서 상기 변수 j는 다시 1씩 증가되고, 상기 처리는 단계 54로 돌아간다. 이러한 때에, j = 9이고 (j + i -1) = 12의 조건 하에서, 단계 54 및 단계 58에서 결정들 이후에, 아래 보인 바와 같이, 단계 59에서 w 내지 z의 병렬 번역된 단어들의 배열에 상응하는 병렬 번역 조합 패턴들로서, 위치가 단어들의 이전 배열에 대하여 한 단어씩 뒤로 이동되고 이전에 생성된 배열의 것들과 동일한 수의 단어들을 갖는, 병렬 번역 조합 패턴들이 생성되고(생성된 병렬 번역 조합 패턴들의 수 = nw x nx x ny x nz), 웹 검색이 상기 생성된 병렬 번역 조합 패턴들 중 어느 하나를 포함하는 텍스트에 대해 검색하기 위하여 단계 60에서 연속적으로 수행된다.
o p q [ R S T U ] v | w x y z | a b c
관련 텍스트가 상기 웹 검색에 의하여 추출되는 어떠한 병렬 번역 조합 패턴이 발견되는 경우에, 긍정적인 결정이 단계 62에서 이루어진 후에, 상기 처리는 단계 66으로 이동한다. 단계 66에서, 관련 텍스트가 상기 웹 검색에 의하여 추출되는 병렬 번역 조합 패턴의 수가 1인 때, 관련 텍스트가 상기 웹 검색에 의하여 추출되는 오직 하나의 병렬 번역 조합 패턴이 상기 소스 텍스트 내의 단어들의 배열 중에서 j번째 내지 (j + i -1)번째 단어들의 배열에 대한 병렬 번역 후보로서 상기 HDD(16C)에 저장된다. 관련 텍스트가 상기 웹 검색에 의하여 추출된 복수의 병렬 번역 조합 패턴들이 있을 때, 상기 병렬 번역 조합 패턴들에 대한 히트 텍스트들의 수의 비율이 병렬 번역 조합 패턴들 중에서 히트 텍스트들의 최대 수(100%로서 취해진다)를 갖는 상기 병렬 번역 조합 패턴에 대한 히트 텍스트들의 수에 대하여 산출된다. 그리고 문턱값과 같거나 그보다 큰 히트 수의 비율을 갖는 병렬 번역 조합 패턴들이 상기 소스 텍스트 내의 단어들의 배열 중에 j번째 내지 (j + i -1)번째 단어들의 배열에 대한 병렬 번역 후보들로서 HDD(16C) 내에 저장된다. 다음으로 상기 변수 j는 1씩 증가되고, 상기 처리는 단계 54로 돌아간다.
이때, 변수 j = 10이고 (j + i -1) = 13의 조건 하에서, 비록 부정적인 결정이 단계 54에서 이루어지더라도, 상기 소스 텍스트 내의 4번째 내지 7번째 및 8번째 내지 11번째 단어들에 상응하는 병렬 번역된 단어들은 이미 웹 검색에 의하여 추출된 히트 텍스트들을 갖는다(아래 병렬 번역된 단어들의 배열 참조).
o p q [R S T U] v [W X Y Z] a b c
그러므로 부정적인 결정이 단계 58에서 이루어지고, 상기 처리는 단계들 54, 58 및 64의 앞서 설명된 루프로 들어간다.
이때, 상응하는 병렬 번역된 단어들이 웹 검색에 의하여 히트되지 않은 상기 소스 텍스트 내의 11번째 단어 이후의 시리즈에 오직 3개의(<i) 단어들이 있기 때문에, 변수 j = 13이고 (j + i -1) = 16의 조건 하에서, 긍정적인 결정이 단계 54에서 이루어지고, 그로 인해 변수 (병렬 번역된 단어들의 수) i = 4를 갖는 병렬 번역 조합 패턴들에 대한 검색이 완료된다. 다음으로 단계 56에서 상기 변수 i는 1씩 감소되고(i = 3), 상기 변수 j는 단계 50에서 결정 이후에 단계 52에서 1로 리셋 된다.
다음으로, 상기 변수 (병렬 번역된 단어들의 수) i = 3을 갖는 병렬 번역 조합 패턴들에 대한 검색이 수행될 것이다. 상기 소스 텍스트 내의 1 내지 3번째 및 13 내지 15번째 단어들만이 시리즈에서 3개 또는 그 이상의 단어들을 포함하는 배열이고, 상응하는 병렬 번역된 단어들은 웹 검색에 의하여 히트되지 않기 때문에, 병렬 번역 조합 패턴들(단계 59)의 조합 및 생성된 병렬 번역 조합 패턴의 어떠한 하나를 포함하는 텍스트들에 대한 웹 검색은 o 내지 q의 병렬 번역된 단어들의 배열 및 a 내지 c의 병렬 번역된 단어들의 배열에 대해서만 연속적으로 수행된다.
|o p q| [R S T U] v [W X Y Z] a b c
o p q [R S T U] v [W X Y Z] |a b c|
관련 텍스트가 a 내지 c의 병렬 번역된 단어들에 상응하는 병렬 번역 조합 패턴에 대한 웹 검색에 의하여 추출된 어떠한 병렬 번역 조합 패턴이 발견되는 경우, 단계 66에서, 관련 텍스트가 상기 웹 검색에 의하여 추출되는 병렬 번역 조합 패턴의 수가 1일 때, 관련 텍스트가 상기 웹 검색에 의하여 추출되는 오직 하나의 병렬 번역 조합 패턴이, 상기 소스 텍스트 내의 단어들의 배열 중에서, 13번째 내지 15번째 단어들인 j번째 내지 (j + i -1)번째 단어들의 배열에 대한 병렬 번역 후보로서 상기 HDD(16C)에 저장된다. 관련 텍스트가 추출되는 복수의 병렬 번역 조합 패턴들이 있을 때, 병렬 번역 조합 패턴들 중에서 히트 텍스트의 최대 수(100%로서 취해진다)를 갖는 병렬 번역 조합 패턴에 대한 히트 텍스트의 수에 대하여 병렬 번역 조합 패턴들을 위한 히트 텍스트의 수의 비율이 산출된다. 그리고 히트 텍스트의 수의 비율이 문턱값과 같거나 그보다 큰 병렬 번역 조합 패턴이 소스 텍스트 내의 13번째 내지 15번째 단어들의 배열에 대하여 병렬 번역 후보들로서 상기 HDD(16C)에 저장된다. 병렬 번역된 단어들의 배열은, 변수 (병렬 번역된 단어들의 수) i = 3을 갖는 병렬 번역 조합 패턴들에 대한 모든 검색이 완료되었을 때, 아래 보인다.
o p q [R S T U] v [W X Y Z] [A B C]
다음으로 변수 (병렬 번역된 단어들의 수) i = 2를 갖는 병렬 번역 조합 패턴들에 대한 검색이 수행될 것이다. 상기 소스 텍스트 내의 1번째 내지 3번째 단어들만이 상응하는 병렬 번역된 단어들이 웹 검색에 의하여 히트되지 않은 시리즈에서 두 개 또는 그 이상의 단어들을 포함하는 배열이기 때문에, 병렬 번역 조합 패턴들의 생성(단계 59) 및 상기 생성된 병렬 번역 조합 패턴의 어느 하나를 포함하는 텍스트들에 대한 웹 검색(단계 60)이 아래 보인 바와 같이 o 내지 q의 병렬 번역된 단어들의 배열 및 p 내지 q의 병렬 번역된 단어들의 배열에 대해서만 연속적으로 수행된다.
| o p | q [R S T U] v [W X Y Z] [A B C]
o | p q | [R S T U] v [W X Y Z] [A B C]
관련 텍스트가 p 내지 q의 병렬 번역된 단어들에 상응하는 병렬 번역 조합 패턴에 대한 웹 검색에 의하여 추출된 어떠한 병렬 번역 조합 패턴이 발견되는 경우, 단계 66에서, 관련 텍스트가 상기 웹 검색에 의하여 추출되는 병렬 번역 조합 패턴의 수가 1일 때, 관련 텍스트가 상기 웹 검색에 의하여 추출되는 오직 하나의 병렬 번역 조합 패턴이, 상기 소스 텍스트 내의 단어들의 배열 중에서, 2번째 내지 3번째 단어들인 j번째 내지 (j + i -1)번째 단어들의 배열에 대한 병렬 번역 후보로서 상기 HDD(16C)에 저장된다. 관련 텍스트가 추출되는 복수의 병렬 번역 조합 패턴들이 있을 때, 병렬 번역 조합 패턴들 중에서 히트 텍스트의 최대 수(100%로서 취해진다)를 갖는 병렬 번역 조합 패턴에 대한 히트 텍스트의 수에 대하여 병렬 번역 조합 패턴들을 위한 히트 텍스트의 수의 비율이 산출된다. 그리고 히트 텍스트의 수의 비율이 문턱값과 같거나 그보다 큰 병렬 번역 조합 패턴이 소스 텍스트 내의 2번째 내지 3번째 단어들의 배열에 대하여 병렬 번역 후보들로서 상기 HDD(16C)에 저장된다. 병렬 번역된 단어들의 배열은, 변수 (병렬 번역된 단어들의 수) i = 2를 갖는 병렬 번역 조합 패턴들에 대한 모든 검색이 완료되었을 때, 아래 보인다.
o [P Q] [R S T U] v [W X Y Z] [A B C]
상기 변수 (병렬 번역된 단어들의 수) i =2를 갖는 병렬 번역 조합 패턴들에 대한 모든 검색이 완료되었을 때, 긍정적인 결정이 단계 54에서 이루어지고, 변수 i는 단계 56에서 1(i = 1)씩 증가되고, 그로 인해 긍정적인 결정이 단계50에서 이루어지고, 그로 인해 상기 처리는 단계 70으로 이동한다. 이때, 상기 처리는 단계 70으로 이동하고, 번역될 소스 텍스트 내의 단어들의 배열은 더욱 적절한 병렬 번역된 텍스트들을 제공하는 것으로 고려되는 몇몇 분리된 패턴들로 이미 분리된다(앞선 예에서, [PQ], [RSTU], [WXYZ] 및 [ABC]의 단어들의 배열들이고, 여기서 문턱값과 같거나 그보다 큰 히트 수의 비율을 갖는 그것의 병렬 번역 조합 패턴들이 병렬 번역 후보들로서 HDD(16C)에 저장되고, 다시 말하면 o 및 v이다).
단계 70에서, 분리된 패턴들로 분리된 소스 텍스트의 구성요소의 각각(단어들의 배열 또는 한 단어) 중에서, 저장된 병렬 번역 후보들(병렬 번역 조합 패턴들)로서 이들 각각은 문턱값과 같거나 그보다 큰 히트 수의 비율을 갖는 저장된 병렬 번역 후보들을 갖는 단어들의 배열에 대하여, 병렬 번역 후보들의 모두가, 어떠한 텍스트도 웹 검색에 의하여 추출되지 않은 상응하는 병렬 번역된 단어들을 갖는 단어들에 대하여, 2개 언어 사전 DB로부터 획득된 병렬 번역된 단어들 모두가 HDD(16C)로부터 판독되는 동안, 상기 HDD(16C)로부터 판독된다. 다음으로, 판독된 병렬 번역 후보들 및 병렬 번역된 단어들의 조합들(병렬 번역된 텍스트 후보들)이 생성된다. 그러므로 분리된 패턴들이 b개의 구성 요소들을 갖고 각각의 구성요소가 병렬 번역 후보들 또는 병렬 번역된 단어들의 n1, n2, ..., nb개를 가질 때, n1 x n2 x ... x nb개의 병렬 번역된 텍스트 후보들이 생성된다.
다음으로 웹 검색이, 상기 웹 검색 서비스 제공 서버에 의하여 제공되는 검색 서비스를 이용함에 의하여, 인터넷(14)을 통하여 접근 가능한 텍스트들 모두로부터, 생성된 병렬 번역된 텍스트 후보에서 병렬 번역된 단어들 모두를 포함하는 텍스트(상기 단어순서가 특정 병렬 번역된 텍스트 후보에서의 것과 같거나 다른지 여부에 관계없이, 그리고 상기 단어들이 시리즈로 이용되는지 별도로 이용되는지 여부에 관계없이, 특정 병렬 번역된 텍스트 후보 내의 모든 병렬 번역된 단어를 포함하는 텍스트)에 대해 검색하기 위하여 앞서 설명된 처리에서 생성된 병렬 번역된 텍스트 후보들 모두에 대하여 연속적으로 수행된다. 이것은 각각의 병렬 번역된 텍스트 후보에서 병렬 번역된 단어들의 함께 발생할 가능성을 시험한다.
다음 단계 72에서, 관련 텍스트가 단계 70에서 웹 검색에 의하여 추출된 하나의 병렬 번역된 텍스트 후보가 발견되었을 때, 텍스트가 상기 웹 검색에 의하여 추출된 오직 하나의 병렬 번역된 텍스트 후보가 상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보로서 출력되고, 병렬 번역 결정을 위한 처리가 완료된다. 과련 텍스트가 단계 70에서 웹 검색에 의하여 추출된 복수의 병렬 번역된 텍스트 후보들이 있을 때, 병렬 번역된 텍스트 후보들 중에서 히트 텍스트들의 최대 수(100%로서 취해진다)를 갖는 병렬 번역된 텍스트 후보에 대한 히트 텍스트들의 수에 대하여, 다른 병렬 번역된 텍스트 후보들에 대한 히트 텍스트들의 수의 비율이 산출된다. 다음으로 문턱값과 같거나 그보다 큰 히트 텍스트의 수의 비율을 갖는 병렬 번역된 텍스트 후보들이 소스 텍스트에 대한 병렬 번역된 텍스트 후보들로서 출력되고, 병렬 번역 결정을 위한 처리가 완료된다. 또한 이러한 경우에서, 상기 웹 검색 결과에 기초하여 단계 66에서 상기 HDD(16C)에 저장된 병렬 번역 후보들을 포함하는 복수의 병렬 번역된 텍스트 후보들 중에서, 함께 발생하는 가능성에 기초하여 목표 언어에서 문장으로서 가장 높은 또는 더 높은 자연스러움을 갖는 것으로 고려되는 병렬 번역된 텍스트 후보가 상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보로서 출력될 것이다.
앞서 설명된 실시예에서, 상기 소스 텍스트 내의 단어들 중에서 소스 텍스트 내의 미리 결정된 수의 일련의 단어들에 대한 병렬 번역된 단어들의 각각의 조합에 상응하는 복수의 병렬 번역 조합 패턴들이 생성되고, 각각의 생성된 병렬 번역 조합 패턴에 대하여, 생성된 병렬 번역 조합 패턴을 포함하는 텍스트의 연속적인 검색이 하나씩 감소되는 병렬 번역 조합의 생성을 위하여 이용되기 위하여 소스 텍스트 내의 수개의 단어들과 함께 반복적으로 수행되고, 관련 텍스트가 상기 검색에 의하여 추출된 병렬 번역 조합 패턴(들)이 병렬 번역 후보로서 채택(저장)되고, 상기 채택된 병렬 번역 조합 패턴에 상응하는 소스 텍스트 내의 단어들의 배열이 병렬 번역 조합 패턴들의 연속적인 생성을 위하여 이용되기 위하여 상기 단어들로부터 배제된다. 그러므로 병렬 번역된 텍스트 후보는 관련 텍스트가 상기 검색에 의하여 추출된 관련 텍스트들의 수 대신에 상기 검색에 의하여 추출된 병렬 번역 조합 패턴의 길이(단어들의 수)에 기초하여 우선적으로 결정된다. 그러나 본 발명은 앞선 실시예로 제한되지 않는다. 특정 긴 병렬 번역 조합 패턴이 병렬 번역된 텍스트 후보의 일부로서 채택되는 가능성을 제거하기 위하여, 병렬 번역 조합 패턴을 포함하는 텍스트가 인터넷을 통하여 접근 가능한 텍스트들로부터 발견되도록 되기 대문에, 비록 특정 병렬 번역 조합 패턴이 예를 들면 병렬 번역 조합 패턴들에 대한 검색에서 목표 언어에서 자연스러움의 낮은 등급을 갖더라도, 오직 관련 히트 텍스트들의 수가 문턱값과 같거나 그보다 더 클 때만, 상응하는 병렬 번역 조합 패턴이 병렬 번역 후보로서 채택될 수 있다. 대안으로, 추출된 관련 텍스트를 갖는 병렬 번역 조합 패턴에 상응하는 소스 텍스트 내의 단어들의 배열이 병렬 번역 조합 패턴의 연속적인 생성을 위하여 이용되기 위하여 상기 단어들로부터 배제되지 않을 수 있다. 병렬 번역 조합 패턴들의 생성 및 상기 생성된 병렬 번역 조합 패턴들에 대한 웹 검색이 수행된 후에, 관련 텍스트들이 웹 검색에 의하여 추출된 병렬 번역 조합 패턴들의 모두에 대하여, 병렬 번역 조합 패턴들의 길이 및 병렬 번역 조합 패턴들에 대한 히트 텍스트의 수가 병렬 번역 후보로서 채택되기 위해 병렬 번역 조합 패턴을 선택하도록 비교될 수 있고, 병렬 번역 텍스트 후보가 생성될 수 있다.
앞서 설명된 측면에서, 2개 언어 사전 DB가 클라이언트 단말(16)의 HDD(16C)에 저장되지만, 본 발명은 이러한 실시에로 제한되지 않는다. 예를 들면 도 3A에 보인 바와 같이, 다른 구성들이 2개 언어 사전 DB가 인터넷(14)에 연결되고 2개 언어(다중 언어/병렬 번역) 서비스 제공 서버로서 기능하는 웹 서버(12)의 HDD(12C)에 저장되어 이용될 수 있다. 번역된 특정된 소스 텍스트에 대한 병렬 번역을 결정하기 위하여, 상기 클라이언트 단말(16)이 2개 언어 서비스 제공 서버를 참조함에 의하여 상기 소스 텍스트 내의 가각의 단어에 대한 병렬 번역들을 획득할 수 있고(도 3A의 (1) 내지 (3) 참조), 다음으로 각각의 단어가 상기 소스 텍스트에 대한 병렬 번역된 텍스트(상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보)를 결정하기 위하여 상기 획득된 병렬 번역들에 기초하여 웹 검색을 수행할 수 있다.
앞서 설명된 실시예에서, 소스 텍스트에 대한 병렬 번역(상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보)에 대한 결정이 클라이언트 단말(16)에서 이루어지지만, 본 발명은 이러한 실시예로 제한되지 않는다. 예를 들면, 도 3B에서 보인 바와 같이, 다른 실시예들이 2개 언어 사전 DB가 2개 언어 서비스 제공 서버로서 기능하는 웹 서버(12)의 HDD(12C)에 저장되고 또한 병렬 번역 결정을 위한 앞서 설명된 처리와 유사한 처리를 실행하기 위한 프로그램이 개선되게 상기 HDD(12C)에 설치되게 이용될 수 있다. 상기 클라이언트 단말(16)로부터 소스 텍스트의 텍스트 데이터를 수신함에 의하여 상기 소스 텍스트에 대한 병렬 번역된 텍스트를 참조함에 따라(도 3B의 (1) 참조), 상기 웹 서버(12)는 2개 언어 사전 DB로부터 수신된 소스 텍스트 내의 각각의 단어에 대한 병렬 번역들을 획득하고, 각각의 단어에 대한 상기 획득된 병렬 번역들에 기초하여 웹 검색을 수행하고, 상기 소스 텍스트에 대한 병렬 번역된 텍스트를 결정하고(상기 소스 텍스트에 상응하는 병렬 번역된 텍스트 후보)(도 3B의 (2) 참조), 상기 참조를 구성한 클라이언트 단말(16)로 상기 결정된 병렬 번역된 텍스트를 송신할 수 있다(도 3B의 (3) 참조). 앞서 설명된 측면에서, 2개 언어 서비스 제공 서버로서 기능하는 웹 서버(12)는 컴퓨터에 상응하고, 개선되게 상기 웹 서버(12)에 설치된 프로그램은 결과적인 단어들의 배열의 자연스러움을 결정하기 위한 프로그램에 상응한다.
더 나아가, 앞선 설명에서, 본 발명은 번역 객체로서 특정된 소스 텍스트에 상응하는 병렬 번역된 텍스트를 결정하기 위한 실시예에 적용되었지만, 본 발명은 병렬 번역된 텍스트의 결정으로 제한되지 않는다. 예를 들면, 본 발명은, 문장으로서 구성된 각각의 단어의 복수의 배열이 있을 때, 문장으로서 더 높은 자연스러움을 갖는 단어들의 배열을 자동적으로 결정하고 평가하는 실시예에 적용될 수 있다.

Claims (6)

  1. 인터넷에 연결된 컴퓨터에서 실현되는 단어들의 배열의 자연스러움을 결정하기 위한 장치에 있어서, 상기 장치는,
    인터넷을 통해 접근 가능한 텍스트들에서 검색 객체로서 특정된 단어들의 배열에 대해 검색하기 위한 검색 섹션; 및
    상기 검색 섹션이 복수의 단어들이 배열된 결정 객체의 단어들의 배열을 검색 객체로서 특정함에 의하여 검색을 수행하도록 하고, 상기 검색에 의하여 추출된 텍스트의 존재나 부재 그리고 상기 추출된 텍스트들의 수에 기초하여, 문장으로서 단어들의 배열의 자연스러움을 결정하기 위한 결정 섹션을 포함하고,
    상기 결정 섹션은 검색 객체로서 상기 결정 객체의 단어들의 전체 배열을 특정하고 상기 검색 섹션이 상기 배열에 대한 검색을 수행하도록 야기하고,
    어떠한 관련 텍스트도 상기 검색에 의하여 추출되지 않을 때, 상기 결정 섹션은 상기 결정 객체의 단어들의 전체 배열보다 작은 길이를 갖는 검색 객체로서 단어들의 하위 배열을 상기 결정 객체의 단어들의 배열로부터 추출하는 처리, 및 상기 검색 섹션이 점차적으로 감소된 검색 객체로서 추출되기 위한 단어들의 하위 배열의 길이를 가지고 검색 객체로서 단어들의 하위 배열을 특정함에 의하여 검색을 수행하도록 야기하는 처리를 수행하고, 상기 검색에 의하여 추출된 텍스트의 존재 또는 부재, 상기 검색에 의하여 추출된 텍스트들의 수, 및 상기 텍스트가 추출되는 상기 검출 객체로서 단어들의 하위 배열의 길이에 기초하여 문장으로서 단어 들의 배열의 자연스러움을 결정하는, 단어들의 배열의 자연스러움을 결정하기 위한 장치.
  2. 제1항에 있어서,
    소스 언어에서 소스 텍스트의 각각의 단어에 대해 목표 언어에서 병렬 번역된 단어를 획득하고, 상기 소스 텍스트의 각각의 단어에 대해 획득된 상기 병렬 번역된 단어들의 조합들에 상응하는 상기 목표 언어에서 병렬 번역된 단어들의 복수의 배열을 상기 결정 객체의 단어들의 배열로서 생성하기 위한 생성 섹션을 더 포함하고,
    상기 결정 섹션은 상기 생성 섹션에 의하여 생성된 병렬 번역된 단어들의 복수의 배열들의 각각을 검색 객체로서 특정하고, 상기 검색 섹션이 상기 배열들의 각각에 대한 검색을 수행하도록 야기하고,
    상기 결정 섹션은 각각의 검색에 의해 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 병렬 번역된 단어들의 복수의 배열들 중으로부터 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열을 선택하는, 단어들의 배열의 자연스러움을 결정하기 위한 장치.
  3. 제2항에 있어서,
    상기 결정 섹션은 병렬 번역된 단어들의 복수의 배열들에서 상기 배열의 전체를 검색 객체로서 특정하고, 상기 검색 섹션이 상기 배열들의 각각에 대하여 검 색을 수행하도록 야기하고,
    어떠한 관련 텍스트도 상기 검색에 의하여 추출되지 않은 때, 상기 결정 섹션은 병렬 번역된 단어들로서 각각이 상기 생성 섹션이 병렬 번역된 단어들의 복수의 배열들에서 상기 배열의 전체보다 작은 길이를 갖는 병렬 번역된 단어들의 복수의 하위 배열들을 생성하도록 야기하는 처리를 수행하고, 상기 복수의 하위 배열들은 상기 소스 언어에서 상기 소스 텍스트에서 일련의 미리 결정된 수의 단어들에 상응하는 병렬 번역된 단어들의 조합이고,
    상기 결정 섹션은 검색 객체로서 복수의 병렬 번역된 단어들의 상기 생성된 하위 배열의 각각을 특정하고, 상기 검색 섹션이 점차적으로 감소되는 병렬 번역된 단어들의 하위 배열의 생성을 위하여 이용되기 위하여 상기 소스 텍스트에서 상기 단어들의 수를 가지고 상기 하위 배열들의 각각에 대하여 검색을 수행하도록 야기하고,
    상기 결정 섹션은 상기 검색에 의하여 추출된 텍스트의 존재 또는 부재, 상기 추출된 텍스트들의 수, 및 상기 텍스트가 추출된 상기 검색 객체로서 병렬 번역된 단어들의 하위 배열에서 단어들의 수에 기초하여 복수의 병렬 번역된 단어들의 배열들 중에서부터 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 배열을 선택하는, 단어들의 배열의 자연스러움을 결정하기 위한 장치.
  4. 제3항에 있어서,
    저장 섹션을 더 포함하고,
    관련 텍스트가 상기 검색에 의하여 추출될 때마다, 상기 결정 섹션은 상기 저장 섹션에 상기 검색을 위해 이용되는 병렬 번역된 단어들의 하위 배열을 저장하고, 병렬 번역된 단어들의 하위 배열의 연속적인 생성을 위하여 이용되기 위해 단어들로부터 병렬 번역된 단어들의 상기 저장된 하위 배열에 상응하는 소스 텍스트 내의 미리 결정된 수의 단어들을 배제하고,
    더 이상 일련의 단어들이 병렬 번역된 단어들의 하위 배열의 연속적인 생성을 위하여 이용될 수 있는 상기 소스 텍스트에 존재하지 않을 때, 병렬 번역된 단어들의 하위 배열들의 상기 저장된 조합들의 각각에 대하여, 상기 결정 섹션은 상기 검색 섹션이 상기 조합에서 상기 병렬 번역된 단어들 모두를 포함하는 텍스트에 대한 검색을 수행하도록 야기하고,
    상기 결정 섹션은 상기 조합에서 병렬 번역된 단어들 모두를 포함하는 텍스트의 존재 또는 부재 및 상기 병렬 번역된 단어들 모두를 포함하고 상기 검색에 의하여 추출된 상기 텍스트들의 수에 기초하여, 병렬 번역된 단어들의 하위 배열의 상기 저장된 조합들 중에서부터 상기 목표 언어에서 문장으로서 더 높은 자연스러움을 갖는 병렬 번역된 단어들의 하위 배열의 조합을 선택하는, 단어들의 배열의 자연스러움을 결정하기 위한 장치.
  5. 인터넷에 연결된 컴퓨터에서 실현되는 단어들의 배열의 자연스러움을 결정하기 위한 방법에 있어서, 상기 방법은,
    인터넷을 통하여 접근 가능한 텍스트들에서, 복수의 단어들이 배열된 결정 객체의 단어들의 배열을 검색하는 단계; 및
    상기 검색에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 문장으로서 상기 결정 객체의 단어들의 배열의 자연스러움을 결정하는 단계를 포함하고,
    상기 결정하는 단계는,
    검색 객체로서 상기 결정 객체의 단어들의 전체 배열을 특정하는 단계;
    상기 배열을 검색하는 단계;
    어떠한 관련 텍스트도 상기 검색에 의하여 추출되지 않았을 때, 검색 객체로서, 상기 결정 객체의 단어들의 전체 배열보다 작은 길이를 갖는 단어들의 하위 배열을 상기 결정 객체의 단어들의 배열로부터 반복적으로 추출하는 단계;
    점차적으로 줄어드는 검색 객체로서 추출되기 위하여 단어들의 하위 배열의 길이를 가지고, 검색 객체로서 단어들의 하위 배열을 특정함에 의하여 검색을 수행하는 단계; 및
    상기 검색에 의하여 추출된 텍스트의 존재 또는 부재, 상기 검색에 의하여 추출된 텍스트들의 수, 및 상기 텍스트가 추출된 상기 검색 객체로서 상기 단어들의 하위 배열의 길이에 기초하여 문장으로서 단어들의 배열의 자연스러움을 결정하는 단계를 포함하는, 단어들의 배열의 자연스러움을 결정하기 위한 방법.
  6. 단어들의 배열의 자연스러움을 결정하기 위한 프로그램을 저장하는 저장 매 체에 있어서, 인터넷에 연결된 컴퓨터가 단어들의 배열의 자연스러움을 결정하기 위한 장치로서 기능하는 것을 허용하고, 상기 프로그램은 상기 컴퓨터가,
    인터넷을 통해 접근 가능한 텍스트들에서 검색 객체로서 특정된 단어들의 배열을 검색하는 단계로서, 상기 검색은 복수의 단어들이 배열된 결정 객체의 단어들의 배열을 상기 검색 객체로서 특정함에 의하여 수행되는, 검색하는 단계; 및
    상기 검색에 의하여 추출된 텍스트의 존재 또는 부재 및 상기 추출된 텍스트들의 수에 기초하여 문장으로서 상기 결정 객체의 단어들의 상기 특정된 배열의 자연스러움을 결정하는 단계를 포함하고,
    상기 결정하는 단계는,
    검색 객체로서 상기 결정 객체의 단어들의 전체 배열을 특정하는 단계;
    상기 배열을 검색하는 단계;
    어떠한 관련 텍스트도 상기 검색에 의하여 추출되지 않을 때, 검색 객체로서, 상기 결정 객체의 단어들의 전체 배열보다 작은 길이를 갖는 단어들의 하위 배열을 상기 결정 객체의 단어들의 배열로부터 반복적으로 추출하는 단계;
    점차적으로 줄어드는 검색 객체로서 추출되기 위하여 단어들의 하위 배열의 길이를 가지고, 검색 객체로서 단어들의 하위 배열을 특정함에 의하여 검색을 수행하는 단계; 및
    상기 검색에 의하여 추출된 텍스트의 존재 또는 부재, 상기 검색에 의하여 추출된 텍스트들의 수, 및 상기 텍스트가 추출된 상기 검색 객체로서 단어들의 하위 배열의 길이에 기초하여 문장으로서 단어들의 배열의 자연스러움을 결정하는 단 계를 포함하는, 단어들의 배열의 자연스러움을 결정하기 위한 프로그램을 저장하는 저장 매체.
KR1020087012563A 2005-10-28 2006-10-25 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체 KR20080066965A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005315261A JP2007122509A (ja) 2005-10-28 2005-10-28 語句配列の自然度判定装置、方法及びプログラム
JPJP-P-2005-00315261 2005-10-28

Publications (1)

Publication Number Publication Date
KR20080066965A true KR20080066965A (ko) 2008-07-17

Family

ID=37967897

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087012563A KR20080066965A (ko) 2005-10-28 2006-10-25 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체

Country Status (8)

Country Link
US (1) US20090292525A1 (ko)
EP (1) EP1949261A1 (ko)
JP (1) JP2007122509A (ko)
KR (1) KR20080066965A (ko)
CN (1) CN101297288A (ko)
CA (1) CA2627321A1 (ko)
TW (1) TW200805091A (ko)
WO (1) WO2007049792A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101255979B1 (ko) * 2012-12-17 2013-04-23 학교법인 화신학원 스마트기기를 이용한 영단어 학습 프로그램

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009537038A (ja) 2006-05-07 2009-10-22 バーコード リミティド 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP2010526386A (ja) 2007-05-06 2010-07-29 バーコード リミティド バーコード標識を利用する品質管理のシステムと方法
WO2009016631A2 (en) * 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
EP2218055B1 (en) 2007-11-14 2014-07-16 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US7984034B1 (en) 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
US8515729B2 (en) * 2008-03-31 2013-08-20 Microsoft Corporation User translated sites after provisioning
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
JP5584212B2 (ja) * 2008-07-31 2014-09-03 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
EP2531930A1 (en) 2010-02-01 2012-12-12 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
WO2012066650A1 (ja) * 2010-11-17 2012-05-24 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
KR20130014106A (ko) * 2011-07-29 2013-02-07 한국전자통신연구원 다중 번역 엔진을 사용한 번역 장치 및 방법
US20140100923A1 (en) * 2012-10-05 2014-04-10 Successfactors, Inc. Natural language metric condition alerts orchestration
US9323736B2 (en) 2012-10-05 2016-04-26 Successfactors, Inc. Natural language metric condition alerts generation
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
CA2985160C (en) 2015-05-18 2023-09-05 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
EP3320315B1 (en) 2015-07-07 2020-03-04 Varcode Ltd. Electronic quality indicator
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251055A (ja) * 1993-02-22 1994-09-09 Nippon Hoso Kyokai <Nhk> 機械翻訳方式
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US6236768B1 (en) * 1997-10-14 2001-05-22 Massachusetts Institute Of Technology Method and apparatus for automated, context-dependent retrieval of information
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
SE517496C2 (sv) * 2000-06-22 2002-06-11 Hapax Information Systems Ab Metod och system för informationsextrahering
US20030101044A1 (en) * 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
AU2003267953A1 (en) * 2002-03-26 2003-12-22 University Of Southern California Statistical machine translation using a large monlingual corpus
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US7774292B2 (en) * 2003-11-10 2010-08-10 Conversive, Inc. System for conditional answering of requests
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
US20060212426A1 (en) * 2004-12-21 2006-09-21 Udaya Shakara Efficient CAM-based techniques to perform string searches in packet payloads

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101255979B1 (ko) * 2012-12-17 2013-04-23 학교법인 화신학원 스마트기기를 이용한 영단어 학습 프로그램

Also Published As

Publication number Publication date
CA2627321A1 (en) 2007-05-03
JP2007122509A (ja) 2007-05-17
EP1949261A1 (en) 2008-07-30
US20090292525A1 (en) 2009-11-26
TW200805091A (en) 2008-01-16
CN101297288A (zh) 2008-10-29
WO2007049792A1 (en) 2007-05-03

Similar Documents

Publication Publication Date Title
KR20080066965A (ko) 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체
Al-Saleh et al. Automatic Arabic text summarization: a survey
US8543565B2 (en) System and method using a discriminative learning approach for question answering
US7949514B2 (en) Method for building parallel corpora
US7890500B2 (en) Systems and methods for using and constructing user-interest sensitive indicators of search results
US7587420B2 (en) System and method for question answering document retrieval
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
JP3041268B2 (ja) 中国語誤り検査(cec)システム
US8073877B2 (en) Scalable semi-structured named entity detection
US20130018650A1 (en) Selection of Language Model Training Data
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP2010519655A (ja) 名前照合システムの名前インデックス付け
Croce et al. Neural learning for question answering in italian
CN115380260A (zh) 用于网络游戏的用户输入文本的语言检测
Alarcón et al. Exploration of Spanish Word Embeddings for Lexical Simplification.
EP1503295A1 (en) Text generation method and text generation device
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
de Oliveira et al. Evaluating and mitigating the impact of OCR errors on information retrieval
Zhang et al. Multi-document extractive summarization using window-based sentence representation
Corrada-Emmanuel et al. Answer passage retrieval for question answering
Patel et al. An automatic text summarization: A systematic review
JP3937741B2 (ja) 文書の標準化
JP4401269B2 (ja) 対訳判断装置及びプログラム
Chelamet A Text Summarization System for Faster Data Access

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination