KR101797125B1 - 다국어 사업 표시 큐레이션 및 음역 합성 - Google Patents

다국어 사업 표시 큐레이션 및 음역 합성 Download PDF

Info

Publication number
KR101797125B1
KR101797125B1 KR1020157028924A KR20157028924A KR101797125B1 KR 101797125 B1 KR101797125 B1 KR 101797125B1 KR 1020157028924 A KR1020157028924 A KR 1020157028924A KR 20157028924 A KR20157028924 A KR 20157028924A KR 101797125 B1 KR101797125 B1 KR 101797125B1
Authority
KR
South Korea
Prior art keywords
characters
pattern
character
translation
string
Prior art date
Application number
KR1020157028924A
Other languages
English (en)
Other versions
KR20150140683A (ko
Inventor
안토니 제이. 스크리피그나노
마이클 클레인
신 캐롤란
워릭 매튜스
Original Assignee
더 던 앤드 브래드스트리트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 던 앤드 브래드스트리트 코포레이션 filed Critical 더 던 앤드 브래드스트리트 코포레이션
Publication of KR20150140683A publication Critical patent/KR20150140683A/ko
Application granted granted Critical
Publication of KR101797125B1 publication Critical patent/KR101797125B1/ko

Links

Images

Classifications

    • G06F17/2872
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • G06F17/2223
    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

문자열을 그것의 문자소들로 구문 해석하고, 그 문자소들의 추상적 개념을 나타내는 문자들의 패턴을 생성하는 방법이 제공된다. 또한 상기 방법을 수행하는 시스템과, 상기 방법을 수행하는 프로세서를 제어하기 위한 지침들을 담고 있는 저장장치가 제공된다.

Description

다국어 사업 표시 큐레이션 및 음역 합성{MULTI-LINGUAL BUSINESS INDICIA CURATION AND TRANSLITERATION SYNTHESIS}
본원은 2013년 3월 15일에 출원하여 그 내용이 여기서 언급하여 합체된 미국 가출원 번호 61/793,044 호의 우선권을 청구한다.
본원은 정보가 두 개 이상의 언어 또는 표기 체계(writing systems) 중에서 변환되어 원래의 정보의 제2, 제3 및 다차의 표현(multi-order representations)을 생성하는 상황에 관한 것이다.
본 항목에서 언급된 접근법은 추구될 수 있는 접근법이지만, 반드시 이전에 고안되었거나 추구되었던 접근법은 아니다. 그러므로, 본 항목에서 언급된 접근법은 본원의 청구항들에 대한 선행기술이 아닐 수도 있고, 본 항목에 포함됨으로써 선행기술로 인정되는 것은 아니다.
본원은 (사업체 이름과 같은) 특정 문맥(specific contexts) 내에서 (러시아어 키릴 문자를 라틴어 문자로와 같은) 다른 철자법(orthographies) 사이의 변환에 특별한 초점을 가진 데이터의 자동화된 언어 변환의 분야에 관한 것이다.
종래의 기술은 제1 언어에서의 하나의 이름의 여러 부분을 만족스럽게 제2 언어로 변환시키지 못한다. 이 문맥에서 "여러 부분(different parts)"은 주어진 이름, 지리적 이름, 보통 명사, 서술적 형용사, 통합 접미사 등과 같은 의미론적 요소들(semantic elements)을 언급한 것이다. 예를 들어, 단순히 키릴 문자로 쓰여진 러시아 내의 사업체의 이름을 독일어 청중에게 "이해 가능한" 라틴 문자로 변환시킬 필요가 있을 수 있다. 종래의 기술은 일반적으로 이러한 문제를 1대1 매핑 및/또는 직역을 수행함으로써 접근했다. 이 문맥에서, "1대1 매핑(1-to-1 mapping)"은 소스 데이터(그 이름)의 한 단어에 대해 매핑되었던 타깃 언어(target language)의 단일의 문자의 저장 및 검색을 언급한 것이다. 이 문맥에서, "직역(direct translation)"은 소스 언어로부터의 한 단어(또는 전체 이름)의 의미를 타깃 언어로 번역하는 것을 언급한 것이다. 따라서, 종래의 기술은 "발음할 수"는 있지만, 예를 들어 그 사업체 이름의 묘사적인 부분을 독일어 스피커가 이해할 수 있는 언어로 변환시키지는 못하는 변환을 실현하였다.
종래의 기술의 또 다른 문제는 하나의 기술이 잘못된 번역 또는 변환을 발생시키는 경우에, 그 기술은 번역 또는 변환의 질을 향상시킬 자동적인 방법을 갖지 못하는 것이다. 즉, 종래의 기술은 경험으로부터 배우고 경험을 이용하지 못한다.
문자열(a string of characters)을 그것의 문자소들(graphemes)로 구문 해석(parsing)하고, 그 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성시키는 것을 포함하는 방법을 제공한다. 또한 상기 방법을 수행하는 시스템과, 상기 방법을 수행하기 위한 프로세서를 제어하기 위한 지시를 담고 있는 저장장치를 제공한다.
상기 과제를 해결하기 위한 방법은 문자열(a string of characters)을 그것의 문자소들(graphemes)로 구문 해석(parsing)하고, 상기 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성시키는 것을 포함하는 것을 특징으로 한다.
상기 과제를 해결하기 위한 시스템은 프로세서와, 상기 프로세서에 통신적으로 연결되는 메모리를 포함하고,
상기 메모리는 상기 프로세스가 문자열(a string of characters)을 그것의 문자소들(graphemes)로 구문 해석(parsing)하고;
상기 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성시키는; 작용을 수행하도록 야기하기 위해 상기 프로세서에 의해 판독 가능한 지시들을 담고 있는 것을 특징으로 한다.
상기 과제를 해결하기 위한 저장장치는 한 프로세서가 문자열(a string of characters)을 그것의 문자소들(graphemes)로 구문 해석(parsing)하고;
상기 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성시키는; 작용을 수행하도록 야기하기 위해 상기 프로세서에 의해 판독 가능한 지시들을 포함하는 것을 특징으로 한다.
도 1은 데이터의 자동화된 언어 변환을 위한 프로세스의 논리 구조의 블록도이다.
도 2는 도 1의 프로세스에 의해 사용되는 참조 데이터 저장소의 논리 구조의 블록도이다.
도 3은 도 1의 프로세스에 의해 사용되는 경험적 데이터 저장소의 논리 구조의 블록도이다.
도 4는 도 1의 프로세스의 1차 기능들의 논리 구조의 블록도이다.
도 5는 도 1의 프로세스의 2차 기능들의 논리 구조의 블록도이다.
도 6은 도 1의 프로세스의 반복 완료 기능(recursive perfective functions)의 논리 구조의 블록도이다.
도 7은 도 1의 프로세스의 1차 기능들의 예시적인 동작의 흐름도이다.
도 7a는 도 7의 일부분의 상세도로서, 문자소 매트리스 프로세스(graphemes matrices process)에 의해 수행되는 예시적인 동작의 흐름도를 묘사한 것이다.
도 7b는 도 7의 일부분의 상세도로서, 문맥 통찰 프로세스(contextual insight process)에 의해 수행되는 예시적인 동작의 흐름도를 묘사한 것이다.
도 7c는 도 7의 일부분의 상세도로서, 의미 통찰 프로세스(semantic insight process)에 의해 수행되는 예시적인 동작의 흐름도를 묘사한 것이다.
도 8은 도 1의 프로세스의 2차 기능들의 예시적인 동작의 흐름도이다.
도 8a는 도 8의 일부분의 상세도로서, 규칙 엔진(rules engine) 및 오케스트레이션 서비스(orchestration service)와 전환 오케스트레이션 규칙 저장소(conversion orchestration rules store)와의 상호작용을 묘사한 것이다.
도 8b는 러시아어 키릴 문자 실예의 번역 및 두 언어 사이의 변환에 의한 프로세싱을 묘사한 것이다.
도 9는 반복 완료 기능의 예시적인 동작의 흐름도이다.
도 9a는 도 9의 일부분의 상세도로서, 추론 프로세스(heuristics process)의 상징적 표현 및 상기 추론 프로세스의 서브 컴포넌트들(sub-components)에 의해 참조되는 데이터 저장소들을 묘사한 것이다.
도 9b는 도 9의 일부분의 상세도로서, 통합 프로세스(integration process) 및 통합 프로세스의 서브 컴포넌트들에 의해 참조되는 데이터 저장소들을 묘사한 것이다.
도 9c는 규칙 엔진과 오케스트레이션 서비스의 상징적 표현을 묘사한 것이다.
도 10은 여기에 기술된 방법을 사용하는 시스템의 블록도이다.
하나 이상의 도면에 공통되는 구성요소 또는 특징은 각 도면에서 동일한 참조번호로 표시된다.
여기서 사용되는 "두 개 언어를 사용하는(interlingual)"이라는 용어 및 미국 가출원 번호 61/793,044 호에서 사용되는 "그래픽 묘사(lexigraphical)"라는 용어는 모두 "두 개 이상의 언어 사이 또는 두 개 이상의 언어와 관련하는" 것을 의미한다.
도 1은 데이터의 자동화된 언어 변환을 위한 프로세스(100)의 논리 구조의 블록도이다. 프로세스(100)는 사람 또는 호출 시스템이 될 수 있는 사용자(130)로부터 두 언어 간의 변환 통찰 환경(135)에 제공되는 입력(105)을 수신하고, 두 개 또는 그 이상의 언어 또는 표기 체계(writing systems) 사이에서 변환된 입력(105)의 버전(version)인 출력 데이터(106)를 생성시킨다. 프로세스(100)는 입력(105)의 2차, 3차, 그리고 다차(multi-order)의 표현(representations)을 생성시키며, 따라서 사용자(130)에게 소스와 타깃 철자법(target orthographies) 사이에서 문자 그대로의 전사(literal transcription)를 능가하는 통찰을 제공한다.
프로세스(100)는 상호 언어의 특정 범위(specific domain)에서, 즉 언어들 사이 또는 상호 철자법(inter-orthographic) 사이, 즉 표기 체계들 사이, 의미와 비의미 사이, 문맥과 비문맥적인 두 언어 사이의 변환 또는 번역 사이에서 유사성의 추론을 포함하지만 그것에 제한되지 않는 통찰을 제공한다. 프로세스(100)는 사용자(130)에게 동시에 여러 언어 형태학(multiple simultaneous morphologies)과 함께 입력(105)에 담겨있는 정보, 즉 하나 이상의 언어 또는 표기 체계에 존재하는 정보를 인식하고 분석하고 비교하고 대비 또는 순화시켜서 그 중에서도 입력(105)에 대한 본질적인 요소들의 식별 또는 표시의 속성에 의해 다른 언어들 사이, 서체들 또는 표기 체계들(언어 형태학) 사이에서 입력(105)을 바꾸는 능력을 제공한다. 이 본질적인 요소들은 다른 언어 형태학들에서 기원되는 데이터의 의미있는 비교를 허용하는 어원(cognates)의 역할을 한다.
입력(105)은 입력 실질적 데이터(input substantive data)(110)와 입력 의미론적 문맥 데이터(input semantic context data)(115)를 포함한다.
입력 실질적 데이터(110)는 특별한 언어 및 표기 체계(언어 형태학)로 표현된 전형적으로 사업의 이름이 될 그 자체로 들어오는 입력의 대상 데이터(subject data)이다. 입력 실질적 데이터(110)는 프로세스(100)의 실행을 돕는 입력 실질적 데이터(110)의 내용에 대한 고유의 지침이 없다는 점에서 "구조화되지 않은(unstructured)" 것이다.
입력 의미론적 문맥 데이터(115)는 그 중에서도 입력(105)의 분석, 문맥, 입력(105)이 마련되는 기록(history) 또는 환경(milieu), 또는 입력(105)의 메타 데이터(meta data)로부터 발견되거나 추론될 수 있는 문맥 데이터이다.
입력 의미론적 문맥 데이터(115)는 그것이 입력 실질적 데이터(110)에 대한 메타 데이터, 예를 들어 입력 실질적 데이터(110)의 소스, 입력 실질적 데이터(110)가 수신된 날짜, 그리고 입력 실질적 데이터(110)를 프로세스(100)를 수행하는 시스템으로 전달한 시스템이기 때문에, "구조화된(structured)" 것으로 간주된다.
프로세스(100)는 다수의 서브 도메인(sub-domains) 또는 기능적인 서브 어그리게이션(subaggregations)을 가로지르는 기능, 즉 1차 기능(first order functions)(140), 2차 기능(second order functions)(150), 그리고 반복 완료 기능(recursive perfective functions)(160)을 포함한다.
데이터 저장소(170)들은 데이터 저장 설비이고, 참조 데이터 저장소(reference data store)(172)와 경험 데이터 저장소(experiential data store)(174)를 포함한다. 경험 데이터 저장소(174)는 프로세스(100)의 실행 동안 얻은 경험에 기초하여 업데이트된다. 참조 데이터 저장소(172)는 프로세스(100)의 실행에 의해 얻어진 경험에 기초하기 보다는 목표 규칙(objective rules) 및 표준에 따라 업데이트된다. 데이터 저장소(170)를 참조 데이터 저장소(172)와 경험 데이터 저장소(174)로 분리하는 것은 오직 설명의 편의를 위한 것이고, 반드시 관련 저장소들의 물리적인 분리를 반영하는 것은 아니다.
1차 기능(140)은 들어오는 입력 데이터, 즉 입력(105)에 대해 작업하는 한 세트의 기능이며, 세 개의 서브 컴포넌트, 즉 문자소 매트리스(graphemes matrices)(142)와 문맥 통찰(contextual insight)(144)과 의미 통찰(semantic insight)(146)을 포함한다.
2차 기능(150)은 한 세트의 기능 및 입력(105)과 1차 기능(140)의 출력들의 조합으로 동작하는 프로세스들이다. 2차 기능(150)은 두 개의 서브 컴포넌트, 즉 번역(translation)(152)과 두 언어 간의 변환(interlingual transformation)(154)을 포함한다.
반복 완료 기능(160)은 프로세스(100)의 효율성 및 효과를 향상시키기 위해, 프로세스(100)의 성과(performance)의 인식과 분석으로부터 유도되는 다른 입력들 뿐만 아니라 1차 기능(140)과 2차 기능(150)으로부터의 결과로 동작하는 한 세트의 기능이다. 그와 같은 분석은 경험 데이터 저장소(174)에 존재하는 참조 데이터의 큐레이션 및 합성(synthesis)을 포함한다.
도 2는 참조 데이터 저장소(172)의 논리 조직의 블록도이다. 참조 데이터 저장소(172)는
(a) 특정 단어들 또는 다른 언어의 부성분(sub-component)들에 대한 동의어 및 대체어 엔트리(alternate entries)의 세트를 저장하는 동의어 저장소(synonym store)(205);
(b) 문자 언어의 문체적인 측면(stylistic aspects)에 대한 상대적인 가중치(weightings) 또는 점수(scores)와 같은 정보 및 질적인 데이터를 담고 있는 문체 저장소(style store)(210);
(c) 단어, 문구, 또는 다른 언어의 부성분의 표준화를 돕기 위해 규칙 및 사전을 담고 있는 표준화 저장소(standardization store)(215);
(d) 소스 철자법으로부터 타깃 철자법으로 특정 단어, 문구 또는 다른 언어의 부성분들의 번역을 위한 규칙과, 두 개의 철자법(즉, 소스 철자법과 타깃 철자법) 사이의 잠재적인 번역을 담고 있는 번역 사전(translation lexicon)(220);
(e) 소스 철자법으로부터 타깃 철자법으로 특정 단어, 문구 또는 다른 언어의 부성분의 두 언어 사이의 변환에 대한 규칙과, 두 개의 철자법(즉, 소스 철자법과 타깃 철자법) 사이의 잠재적인 두 언어 사이의 변환을 담고 있는 두 언어 간의 변환 저장소(interlingual transformation store)(225);
(f) 데이터 소스 타입에 대한 정보를 담고 있는 소스 타입 저장소(source type store)(230);
(g) 오케스트레이션 규칙을 담고 있는 전환 오케스트레이션 규칙 저장소(conversion orchestration rules store)(235); 그리고
(h) 전반적인 시스템의 최적화를 위한 규칙을 담고 있는 최적화 규칙 저장소(optimization rules store)(240);를 포함한다.
도 3은 경험 데이터 저장소(174)의 논리 조직의 블록도이다. 경험 데이터 저장소(174)는
(a) 어휘(lexicons), 구문 해석(parsing) 및 문자소(grapheme)들의 분석(analysis)을 위한 규칙을 담고 있는 문자소 분석기 저장소(grapheme analyzer store)(305);
(b) 문자소들의 빈도 계산을 담고 있는 문자소 패턴 빈도 저장소(grapheme pattern frequency store)(310);
(c) 단어, 문구 및 다른 언어의 부성분의 고유성(uniqueness)에 관한 규칙과 빈도표와 어휘(lexicons)를 담고 있는 고유성 저장소(uniqueness store)(315);
(d) 특정 데이터 소스들에 대한 정보를 담고 있는 소스 저장소(sources store)(320);
(e) 두 언어 간의 변환 통찰 환경(135)의 서브 컴포넌트들의 실행에서 발생되는 통계를 담고 있는 통계 저장소(statistics store)(325);
(f) 두 언어 간의 변환 통찰 환경(135)에 의해 입력(105)의 처리과정의 모든 출력을 담고 있는 기록 보관소(archive)(330);
(g) 그 중에서도(inter alia) 두 언어 간의 변환 통찰 환경(135)의 성과로부터 유도되는 세마포르(semaphores)와 점수(scores)를 담고 있는 신호 저장소(signals store)(335);
(h) 특정 단어, 문구 및 다른 언어의 부성분(subcomponents)에 대한 대체어 엔트리(alternative entries)를 담고 있는 대체어 저장소(alternates store)(340); 그리고
(i) 두 언어 간의 변환 통찰 환경(135)에 대한 핵심 성과 지표(key performance indicators)와 관련한 통계를 담고 있는 성과 저장소(performance store)(345);를 포함한다.
도 4는 1차 기능(140)의 논리 구조의 블록도이다. 이전에 언급된 바와 같이, 1차 기능(140)은 문자소 매트리스(142)와 문맥 통찰(144)과 의미 통찰(146)을 포함한다.
문자소 매트리스(142)는 가장 기본적인 의미의 수준에서 입력(105)에 대해 동작하는 컴포넌트 서브 프로세스의 모음(a collection of component sub-processes), 예컨대 그것의 기본 문자소로의 입력(105)의 변형(reduction)이다. 문자소 매트리스(142)는 문자소 구문 해석기 및 분석기(grapheme parser & analyzer)(405), 문자소 패턴 매퍼(grapheme pattern mapper)(410), 그리고 문자소 패턴 모델러(grapheme pattern modeler)(415)를 포함한다.
문자소 구문 해석기 및 분석기(405)는 다른 프로세스들로 공급되는 의미론적 요소(semantic element)들을 인식하고 속성화시키기 위해, 그 중에서도 문자소 분석기 저장소(305)에 저장된 어휘(lexicons)와 메타 데이터를 사용하여 입력(105)을 구문 해석하고 분석한다.
문자소 패턴 매퍼(410)는 문자소 구문 해석기 및 분석기(405)의 출력을 사용하여 상징적인 방식으로 입력(105)의 내용의 의미론적 패턴들을 명확하게, 즉 재해석한다. 문자소 패턴 매퍼(410)의 출력은 상징적인 패턴, 즉 입력(105)의 내용의 구조를 드러내는 추상화된 표현(abstracted representation)이다. 그와 같은 명확화(disambiguation)의 실예는 "Jim's Mowing Springvale"을 "PN-CD-GL"로 변환 시키는 것일 것이며, 여기서 "PN"은 고유명사를 의미하고, "CD"는 상업적인 설명을 의미하며, "GL"은 지리적 위치를 의미한다.
문자소 패턴 모델러(415)는 문자소 패턴 매퍼(410)의 출력을 받고 문자소 패턴 빈도 저장소(310) 내의 데이터를 사용하여 입력(105)의 성분을 이루는 문자소들과 유사한 패턴을 식별한다.
문맥 통찰(144)은 문맥 수준에서 입력(105)에 대해 동작하는 컴포넌트 서브 프로세스의 모음(a collection of component sub-processes)이다. 즉, 그들은 입력(105)의 기원(provenance)으로부터 오는 속성 및 표시, 시기(timing)와 내용을 고려하여, 그러나 기본 문자소 수준 의미 분석을 넘어 분석한다. 문맥 통찰(144)은 문맥 분석기(context analyzer)(420), 소스 분류기(source classifier)(425), 고유성 분석기(uniqueness analyzer)(430) 및 대체어 생성기(alternates generator)(435)를 포함한다.
문맥 분석기(420)는 문자소 패턴 매퍼(410)와 문자소 패턴 모델러(415)에 의해 발생되는 속성들(attributes) 뿐만 아니라 그 내용의 전체적인 의미에 초점을 맞추는 수준에서 그 내용의 분석에 의해 입력(105)을 분석한다. 이러한 분석은 그 중에서도 "기술 용어(terms of art)"와 "특수용어(jargon)"를 발견하기 위해 입력(105)의 내용의 분석을 포함하며, 지오 코더(geocoders)와 같은 기능들, 즉 지리적 실체의 정체(identity)와 산업 어휘(industry lexicons)를 해결하는 서비스, 예컨대 특별한 언어의 특별한 나라에 대한 산업별 약어 목록(industry-specific acronym lists)에 대한 참조를 가질 수 있다.
분류 및 패턴이 다듬어짐에 따라 문맥 분석기(420)와 문자소 매트리스(142)의 구성요소(component)들 사이에 다수 반복의 처리과정이 있을 수 있다.
소스 분류기(425)는 프로세스(100)로의 이전의 입력의 소스 및 소스 타입에 대한 기록 데이터(historical data)를 참조하여 입력 의미론적 문맥 데이터(115) 내에서 제공된 입력(105)에 대한 소스 메타 데이터를 분석하는데, 상기 기록 데이터는 소스 저장소(320)와 소스타입 저장소(230) 내에 담겨 있다. 소스 분류기(425)의 출력은 입력(105)의 소스와 동일 또는 유사한 소스들로부터의 전형적인 입력들의 (문체(style), 톤(tone) 및 문법적인 구조와 같은) 구조적인 측면 및 (정확성, 충실도, 변동성, 완전성 및 복잡성과 같은) 질적인 측면에 대한 설명 데이터(descriptive data)이다.
고유성 분석기(430)는 참조로서 고유성 저장소(315)를 고려하여 다양한 베이스라인에 대해 상대적인 단어 또는 문구의 그룹들의 고유성 뿐만 아니라, 단어(또는 다른 언어의 부성분) 수준에서 고유성에 대해 입력(105)을 분석한다. 고유성 분석기(430)의 출력은 입력(105)의 상대적인 고유성 및 그것의 구성을 이루는 부분들을 설명하는 소스들이다.
대체어 생성기(435)는 입력(105)의 구성을 이루는 부분들에 대한 대체 단어들(또는 문자소 표현), 문구들 및 이름들을 생성한다. 이 대체어들은 경험에 기초하고 대체어 저장소(340)로부터 소스를 받은 (표준 빈도표들 또는 언어 레벨 규칙에 기초하지 않은 것으로 말해지는) 문맥적인 것이다.
의미 통찰(146)은 언어 수준에서 입력(105)에 대해 동작하는 컴포넌트 서브 프로세스의 모음이다. 즉, 그들은 입력의 추정된 언어적 문맥(presumed linguistic context)의 수준에서 동작한다(예컨대, 러시아어 키릴 문자 또는 정부기관의 이름을 위한 러시아어 키릴 문자와 같은 보다 구체적인 "언어"). 의미 통찰(146)은 표준화 프로세스(standardization process)(440)와 동의어 분석기(synonym analyzer)(445)와 문체 분석기(style analyzer)(450)를 포함한다.
표준화 프로세스(440)는 그 내용의 "최선의 표준 뷰(a best standard view)"를 창출하기 위해 입력(105)에 대해 정화(cleansing)와 구문 해석 및 표준화 프로세스를 수행한다. 표준화 프로세스(440)는 표준화 저장소(215)의 데이터를 이용할 것이다.
동의어 분석기(445)는 입력(105)의 특정 언어에 대한 대체어들로서 동의어들을 얻기 위해 단어들, 또는 다른 언어의 부성분(sub-component)들을 분석한다. 동의어 분석기(445)는 동의어 저장소(205)를 이용한다.
문체 분석기(450)는 속성화된 문체(the attributed style)를 표현하기 위해 (톤(tone)과 형식(formality)과 전문 용어(jargon)와 약어 등의 관찰(abservations)을 포함하여) 입력(105)의 언어의 문체 및 성분들(components)을 분석한다. 문체 분석기(450)는 문체 저장소(345)의 데이터를 이용할 것이다. 문체 분석기(450)의 출력은 입력(105)의 문체의 품질을 설명하는 점수 및 표시이다.
도 5는 2차 기능(150)의 논리 구조의 블록도이다. 이전에 언급된 바와 같이, 2차 기능(150)은 번역(152)과 두 언어 간의 변환(154)을 포함한다. 2차 기능(150)은 규칙 엔진(525)과 오케스트레이션 서비스(530)를 사용한다.
규칙 엔진(525)은 전환 오케스트레이션 규칙 저장소(235)에 담겨 있는 규칙을 사용한다.
오케스트레이션 서비스(530)는 전환 오케스트레이션 규칙 저장소(235)에 담겨 있는 작업 흐름(workflows) 및 결정 논리를 사용하는 작업흐름 시스템(workflow system)이다.
규칙 엔진(525)과 오케스트레이션 서비스(530)는 입력(105)의 위치 및 그것을 구성하는 부분들을 설정하기 위해, 2차 기능(150)에 걸쳐서, 즉 번역(152) 및 두 언어 간의 변환(154)에 걸쳐서 동시에 작업하여 1차 기능(140)의 구성 부분들(component parts)의 출력을 정리한다.
규칙 엔진(525) 및 오케스트레이션 서비스(530)에 의해 실행되는 작업 흐름들 및 규칙 세트들은 전환 오케스트레이션 규칙 저장소(235)에 담겨 있다. 이 작업 흐름들 및 규칙들은 1차 기능(140)의 출력을 형성하는 표시, 점수 및 다른 데이터를 활용할 것이다.
번역(152)은 언어들 사이의 입력(105)으로부터 단어들(또는 다른 언어의 부성분들)을 변환시키는 서브 프로세스(sub-processes)로 이루어진다. 이와 관련하여, 번역(152)은 번역 예약어 검색(translated reserved word lookup)(505) 및 번역 프로세스(translation process)(510)를 포함한다.
번역 예약어 검색(505)은 메타 데이터 및 1차 기능(140)에 의해 생성되는 변형(variants)을 포함하는 입력(105)의 부분들이 그 부분들의 특별화된 후보 또는 '기술의 용어(term of art)'에 기초한 번역을 생성시키기 위해 번역 사전(220)을 사용하여 분석하는 프로세스이다.
번역 프로세스(510)는 메타 데이터 및 언어들 사이, 예컨대 러시아어와 영어 사이에서 1차 기능(140)에 의해 생성되는 변형을 포함하는 입력(105)의 부분들을 번역한다. 번역 프로세스(510)는 번역 기능을 수행하는 웹 서비스, 애플리케이션 및 다른 시스템들의 호출을 수반할 수도 있다.
두 언어 간의 변환(154)은 언어들 사이의 입력(105)으로부터 단어들(또는 다른 언어의 부성분들)을 번역하는 수 개의 서브 프로세스로 구성된다. 두 언어 간의 번환(154)은 상호 어휘 예약어 검색(interlexicon reserved word lookup)(515)과 변환 프로세스(transformation process)(520)를 포함한다.
상호 어휘 예약어 검색(515)은 메타 데이터 및 1차 기능(140)에 의해 생성된 변형을 포함하는 입력(105)의 부분들이 입력(105) 또는 그 부분들의 특별화된 또는 '기술의 용어(term of art)'에 기초한 변환인 후보 번역들을 생성시키기 위해 번역 사전(220)을 사용하여 분석하는 프로세스이다.
변환 프로세스(520)는 스크립트(script)들 사이의 (예컨대, 그리스어 스크립트에서 라틴어 스크립트로) 입력(105)의 부분들을 번역한다. 변환 프로세스(520)는 음역 기능(transliteration functions)을 수행하는 웹 서비스, 애플리케이션 및 다른 시스템들의 호출을 수반할 수도 있다.
도 6은 반복 완료 기능(160)의 논리 구조의 볼록도이다. 이전에 언급된 바와 같이, 반복 완료 기능(160)은 추론(heuristics)(162) 및 통합(integration)(164)을 포함한다. 2차 기능(150)에 의해 이용되는 규칙 엔진(525)과 오케스트레이션 서비스(530)는 또한 프로세스(100)의 효율성 및 효과에 대한 최적화와 향상을 초래하기 위해 반복 완료 기능(160)에 의해 이용되고 추론(162) 및 통합(164)에 걸쳐서 동시에 작업한다.
전술된 바와 같이, 오케스트레이션 서비스(530)는 반복 완료 기능(160)의 문맥에서 최적화 규칙 저장소(240)에 담겨 있는 작업 흐름 및 결정 논리를 사용하는 작업 흐름 시스템이다.
추론(162)은 관찰된 거동에 따라 프로세스(100)의 성과(performance)를 최적화하기 위해, 기록 보관소(330)에 저장된 출력 데이터(106) 뿐만 아니라, 두 언어 간의 변환 통찰 환경(135)의 모든 부성분(sub-components)의 (기록 보관소(330)에 담겨 있는) 출력을 연속적으로 분석하는 컴포넌트 서브 프로세스들의 모음이다. 추론(162)에 의해, 프로세스(100)는 자체 완성된다. 즉, 추론(162)은 경험으로부터 학습하여 가장 최적의 또는 방향을 결정하는 결과를 생성하기 위해 프로세스(100) 내에서 실행되는 작업 흐름들을 변경시키거나 다시 배열한다. 추론(162)은 통계 분석기(statistical analyzer)(605)와 어휘 시퀀서(lexicons sequencer)(610)와 신호 점수기(signals scorer)(615)를 포함한다.
통계 분석기(605)는 통계 저장소(325)에 저장된 점수(scores) 및 다른 표시(indicia)를 창출하기 위해, 입력(105)의 단어 문구들 또는 다른 언어의 부성분(sub-components)의 빈도 분석과 같은 통계적인 분석과, 기록 보관소(330) 및 경험 데이터 저장소(174)에 담겨 있는, 그리고 통합(164)에 의해 1차 기능(140)과 2차 기능(150)의 조율(tuning)로 리소스(resource)로서 사용될 수 있는 두 언어 간의 변환 통찰 환경(135)의 프로세스(105)의 기록 입력 및 출력들의 기록 데이터(historical data)에 걸쳐서 중심적인 경향의 대책(measures of central tendency)을 수행한다.
어휘 시퀀서(610)는 두 언어 간의 변환 저장소(225)와 동의어 저장소(205)와 문자소 패턴 빈도 저장소(310)와 고유성 저장소(315) 및 대체어 저장소(340)를 포함하여 어휘들(lexicions)을 다시 정렬하는 작업 흐름들을 창출하거나 업데이트하기 위해 그 중에서도 통계 분석기(605)의 출력들을 소비하여서, 가장 최적의 또는 방향을 결정하는 엔트리(entries)가 그 저장소들을 이용하는 프로세스들에 의해 리턴된다(예컨대, 문자소 패턴 빈도 저장소(310)로부터의 데이터의 검색).
신호 점수기(615)는 프로세스(100)의 성과(performance)로부터 도출되는 다양한 표시 및 메트리스에 대한 우선 속성(priority attributes)을 부여하기 위해 루틴(routines)을 실행하고, 이 점수들을 신호 저장소(335)로 보낸다.
통합(164)은 프로세스(100)의 성과의 효율성 및 효과를 증대시키기 위해, 그 중에서도 추론(162)의 출력들을 소비하고 나서 규칙 엔진(525) 및 오케스트레이션 서비스(530)에 의해 실행되는 작업 흐름들(workflows)에 입력을 제공하여 두 언어 간의 변환 통찰 환경(135)의 서브 컴포넌트들 내의 프로세스들 및 루틴들에 대한 변화를 만드는 컴포넌트 서브 프로세스의 모음이다. 이 변화들은 최적화 규칙 저장소(240) 내의 엔트리(entries)로서 기록된다. 이와 관련하여, 통합(164)은 기록 분석기(historical analyzer)(620)와 최적화기(optimizer)(625)를 포함한다.
기록 분석기(620)는 프로세스(100)의 실행 동안 두 언어 간의 변환 통찰 환경(135)의 (실행 시간, 리소스 이용, 데이터 저장소 이용, 품질 및 정확성 속성(quality and veracity attributions), 그리고 피드백 점수를 포함하지만, 이에 제한되지 않는) 성과 표시(permforance indicia)를 분석한다. 성과 표시는 기록 분석기(620)에 의해 성과 저장소(345)에 기록되며, 그 성과 표시는 업데이트 또는 변경을 위한 프로세스들을 선택하기 위해 최적화기(625)에 의해 판독된다.
최적화기(625)는 그 중에서도 기록 분석기(620)에 의해 생성되는 성과 표시를 소비하여 최적화 규칙 저장소(240)에 대한 업데이트를 만들고, 규칙 엔진(525) 및 오케스트레이션 서비스(530)에서 최적화 루틴(optimization routines)의 실행을 시작한다.
도 7은 러시아어 키릴 문자의 실예에 대한 1차 기능(140)의 동작의 블록도이다.
도 7a는 도 7의 일부분의 상세도로서, 러시아어 키릴 문자의 실예에 대한 문자소 매트리스(142)에 의해 수행되는 동작의 흐름도를 묘사한 것이다.
도 7b는 도 7의 일부분의 상세도로서, 러시아어 키릴 문자의 실예에 대한 문맥 통찰(144)에 의해 수행되는 동작의 흐름도를 묘사한 것이다.
도 7c는 도 7의 일부분의 상세도로서, 러시아어 키릴 문자의 실예에 대한 의미 통찰(146)에 의해 수행되는 동작의 흐름도를 묘사한 것이다.
도 7을 참조하면, 1차 기능(140)은 이 실예에서 러시아어 키릴 문자 "
Figure 112015098736632-pct00001
" 즉 2014년 1월 1일에 소스 "파트너 컬렉션 시스템(Partner Collection System)"으로부터의 조회 실질적 데이터(inquiry substantive data)(110), 즉 입력 의미론적 문맥 데이터(115)인 입력(105)을 수신한다. 1차 기능(140)은 기록 보관소(330)에 저장된 중간 출력(interim output)(760)을 생성시킨다.
도 7a를 참조하면, 문자소 구문 해석기 및 분석기(405)는 입력(105)을 구문 해석하고, 문자소 분석기 저장소(305)를 참조하여 조회 실질적 데이터(110)의 구성을 이루는 부분들(문자소, 단어, 구문 등)에 대한 분류(classifications)를 부여한다.
이 실예에서, 문자소 구문 해석기 및 분석기(405)는 입력 실질적 데이터(110)를 분석하고, 표 1에 나타낸 바와 같이 그것을 분류한다.
입력의 부분 메타 데이터: 타입 메타 데이터: 시퀀싱(SEQUENCING)
Figure 112015098736632-pct00002
명사 - 이름 N1
Figure 112015098736632-pct00003
형용사 - 기술어(descriptor) N2
Figure 112015098736632-pct00004
명사 - 상업 실체 타입 (Commercial Entity Type) S3
문자소 패턴 매퍼(410)는 문자소 구문 해석기 및 분석기(405)에 의해 발생되는 (위의 표 1에서 2 및 3 컬럼에 나타낸) 입력 실질적 데이터(110) 및 메타 데이터를 받아서 조회 실질적 데이터(110)의 문법적 및 의미론적 구조의 추상적 개념(abstraction)인 "문자소 패턴(Grapheme Pattern)"을 창출한다.
이 실예에서, 문자소 패턴 매퍼(410)는 그 입력이 2개의 주요 부분, 이름(N) 및 접미사(suffix)(S)와, 또한 3개의 상세한 부분들: 지리적 이름(GN)과 상업 설명(CD) 및 통합 접미사(IN)로 이루어지는 것을 명시하는 1N:GN-2N:CD-3S:IN의 패턴을 생성시킨다.
문자소 패턴 모델러(415)는 문자소 패턴 매퍼(410)의 출력을 받아서 의미있는 방법으로 유사한 패턴들을 발견하기 위해 문자소 패턴 빈도 저장소(310)를 기반으로 서치를 수행한다.
표 2는 문자소 패턴 모델러(415)에 의해 검색된 몇몇 패턴들의 실예를 나타낸 것이다. 실제로는, 문자소 패턴 모델러(415)의 내부에서 도 7a에 나타낸 것들과 같은 다른 패턴들도 또한 검색될 것이다.
(문자소 패턴 매퍼(410)에 의해 생성된)
원래의 패턴
(문자소 패턴 모델러(415)에 의해 검색된)
검색 패턴
1N:GN-2N:CD-3S:IN


GN-CD-*
PN-GN-CD-IN
CD-GN-IN
IN-CD-GN
도 7b를 참조하면, 소스 분류기(425)는 입력의 소스 메타 데이터(입력 의미론적 문맥 데이터(115))를 분석한다. 이 실예에서, 소스 "파트너 컬렉션 시스템(Partner Collection System)"은 키(Key) "PCS"와 함께 발견되며, 소스 분류기(425)는 표 3에 나타낸 바와 같이, 320 소스 저장소 메타 데이터로부터 검색한다.
소스 코드 메타 데이터
PCS

결합 접미사 존재 점수(INCORPORATION SUFFIX PRESENCE SCORE): 10
변동성 점수(VARIABILITY SCORE): 33
충실도 점수(FIDELITY SCORE): 62
표 3의 메타 데이터 리스트는 오직 예시적인 것이며, 폐집합(a closed set)을 나타내는 것이 아니다.
문맥 분석기(420)는 입력(105) 및 문자소 매트리스(142)의 출력을 받고, 지오 코더(geocoders) 및 상용 어휘(commercial lexicons)를 참조하여 입력(105)의 내용의 구성을 이루는 부분들(단어 및 문구, 또는 상당 어구)의 상세한 분류를 생성시킨다. 이 실예에서 상세한 분류는 표 4에 나타나 있다.
입력의 부분 문맥 분석
Figure 112015098736632-pct00005
고유 명사 - 장소, ST. PETERSBURG;
METRO SUBURB, RIVER; 의미론적 그룹 - MARITIME
Figure 112015098736632-pct00006
형용사 - INDUSTRIAL; 지위(NICHE) - ENGINEERING; 지위 - ELECTRICAL
Figure 112015098736632-pct00007
명사 - 회사 타입(INCORPORATION TYPE); 국내(DOMESTIC); 제네릭(GENERIC); 중간
크기(MID-SIZE)
새로운 메타 데이터(즉, 표 4에 나타낸 문맥 분석)가 다른 성분들(components)에 의한 효율적인 사용을 위해 코드(codes) 또는 토큰(tokens)으로서 저장될 수도 있다.
대체어 발생기(435)는 입력(105)을 받고, 대체어 저장소(340)를 참조하여 표 5에 나타낸 것과 같은 대체어 데이터를 발생시킨다.
입력의 부분 대체어(ALTERNATES)
Figure 112015098736632-pct00008
1.
Figure 112015098736632-pct00009
, St. Petersburg
2.
Figure 112015098736632-pct00010
, Neva River
Figure 112015098736632-pct00011
1.
Figure 112015098736632-pct00012
Figure 112015098736632-pct00013
[없음(none)]
고유성 분석기(430)는 (1차 기능(140)의 다른 부분들의 출력을 포함하는) 입력(105)을 받고, 고유성 저장소(315)를 참조하여 고유성 점수, 즉 입력(105)의 부분들의 고유성을 나타내는 점수를 발생시킨다. 본 실예에 대한 고유성 점수는 표 6에 나타나 있다.
입력의 부분 패턴 고유성
Figure 112015098736632-pct00014

Figure 112015098736632-pct00015
GN-CD-IN 100
Figure 112015098736632-pct00016
GN-CD 86
Figure 112015098736632-pct00017
GN 15
Figure 112015098736632-pct00018
CD 6
Figure 112015098736632-pct00019
IN 1
고유성 점수가 생성될 때, 고유성 분석기(430)는 또한 대체어 발생기(435)에 의해 생성되는 대체어 데이터를 고려한다.
도 7c를 참조하면, 표준화 프로세스(440)는 어휘 특정 규칙(lexicon-specific rules)(이 경우에, 관련 어휘는 "키릴 러시아어 상용 이름"이 될 수 있다)을 사용하여 (대체어 생성기(435)에 의해 생성된 대체어를 포함하여) 입력(105)의 내용을 표준화한다. 이 실예에서 입력은 표 7에 나타낸 바와 같이 표준화될 수 있다.
입력의 부분 표준화
Figure 112015098736632-pct00020
Figure 112015098736632-pct00021
Figure 112015098736632-pct00022
Figure 112015098736632-pct00023
Figure 112015098736632-pct00024
Figure 112015098736632-pct00025
Figure 112015098736632-pct00026
Figure 112015098736632-pct00027
Figure 112015098736632-pct00028
Figure 112015098736632-pct00029
Figure 112015098736632-pct00030
Figure 112015098736632-pct00031
동의어 분석기(445)는 입력(105)의 구성을 이루는 부분들 및 대체어 생성기(435)에 의해 생성된 대체어들에 대해 예컨대 표 8에 나타낸 바와 같은 동의어들을 생성시키기 위해, 동의어 저장소(205)에서 입력(105) 및 그 부분들을 검색한다.
입력의 부분 동의어
Figure 112015098736632-pct00032

Figure 112015098736632-pct00033

Figure 112015098736632-pct00034
1.
Figure 112015098736632-pct00035

2.
Figure 112015098736632-pct00036
Figure 112015098736632-pct00037
[무(nil)]
Figure 112015098736632-pct00038
1.
Figure 112015098736632-pct00039

2.
Figure 112015098736632-pct00040

3.
Figure 112015098736632-pct00041

4.
Figure 112015098736632-pct00042
문체 분석기(450)는 여러 차원(a number of dimensions)에 걸쳐서 입력(105)의 문체를 분석하고, 이 분석을 표현하기 위한 메타 데이터를 창출한다. 이 실예에서, 문체 분석기(450)는 표 9에 나타낸 바와 같은 출력을 생성시킨다.
입력 문체 메타 데이터
Figure 112015098736632-pct00043

Figure 112015098736632-pct00044
형식 점수(Formality Score): 88
약어 점수(Acronyms Score): 0
전문용어 점수(Jargon Score): 15
표 9에서, 문체 메타 데이터 컬럼은 예로서 언어별 전문용어(language-specific jargon)의 사용, 입력(105)의 구조의 약어 및 문법적인 형식의 사용과 같은 차원(dimensions)에 기초하여 입력(105)의 문체를 분류하는 문체 기반의 점수의 입력 "
Figure 112015098736632-pct00045
"에 대한 속성(attribution)을 묘사한 것이다.
도 8은 실예로서 러시아어 키릴문자 입력을 사용하여 2차 기능(150)의 예시적인 동작의 흐름도이다.
도 8a는 도 8의 일부분의 상세도로서, 도 8의 러시아어 키릴문자 실예의 프로세싱에 대한 그것들의 관계를 설명하기 위해 규칙 엔진(525)과 오케스트레이션 서비스(530)가 전환 오케스트레이션 규칙 저장소(235)와 상호 작용하는 것을 묘사한 것이다.
도 8a를 참조하면, 입력(105) 및 1차 기능(140)의 모든 출력들은 이 데이터와 전환 오케스트레이션 규칙 저장소(235)의 모든 것을 참조하여 그 후 전환 오케스트레이션 규칙 저장소(235)에 저장되는 데이터 기반의 규칙(data-driven rules)("작업 흐름들(workflows)")을 생성시키는 규칙 엔진(525)에 의해 소비되며, 이 작업 흐름들은 입력(105)의 배치(disposition)에 대해 프로세스(100)에서 다음에 일어나는 일련의 단계들을 결정한다.
오케스트레이션 서비스(530)는 규칙 엔진(525)에 의해 규정되고 전환 오케스트레이션 규칙 저장소(235)에 저장된 작업 흐름들을 실행한다.
표 10에는 본 실예에 대해 규칙 엔진(525)에 의해 규정된 작업흐름 단계들이 열거되어 있다.
입력의 부분 작업흐름 단계(WORKFLOW STEPS)
Figure 112015098736632-pct00046
1. 상호 어휘 예약어 검색(515)으로 보냄
2. 변환 프로세스(520)로 보냄
Figure 112015098736632-pct00047
3. 번역 예약어 검색(505)으로 보냄
4. 번역 프로세스(510)로 보냄
Figure 112015098736632-pct00048
5. 상호 어휘 예약어 검색(515)으로 보냄
Figure 112015098736632-pct00049

Figure 112015098736632-pct00050
6. 변환 프로세스(520)로 보냄
표 10에 나타낸 작업흐름 단계들은 이 실예에 대해 요구될 지침들(instructions)의 오직 작은 서브 세트(subset)이다. 완전한 세트(full set)는 1차 기능(140)에 의해 발생되는 입력(105)의 여러 변형(variants) 및 그것의 속성화된 부분(attributed parts)에서의 작용들을 포함할 것이다.
도 8b는 도 8의 일부분의 상세도로서, 도 8의 러시아어 키릴문자 실예에 대한 번역(152) 및 두 언어 간의 변환(154)에 의해 처리되는 실예적인 데이터를 묘사한 것이다. 이와 관련하여, 번역(152)은 번역 데이터(860)를 생성시키고, 두 언어 간의 변환(154)은 변환 데이터(870)를 생성시킨다.
도 8을 다시 참조하면, 번역 데이터(860)와 변환 데이터(870)는 출력 데이터(106)를 생성시키기 위해 조합된다. 더 구체적으로, 규칙 엔진(525)은 번역(152) 및 두 언어 간의 변환(154)의 결과에 대해 규칙을 실행하여 최종 결과, 즉 기록 저장소(330)에 저장된 출력 데이터(106)를 모은다.
표 11은 번역 데이터(860) 및 변환 데이터(870)의 샘플 내용을 나타낸 것이다.
입력의 부분 번역 데이터(860) 변환 데이터(870)
Figure 112015098736632-pct00051
[무(nil)] NEVSKOYE, NEVA
Figure 112015098736632-pct00052
WIRING, ELECTRICAL ELEKTROMONTAZHNOYE
Figure 112015098736632-pct00053
ASSOCIATION, SOCIETY,
ENTERPRISES
OBSHCHESTVO, OOO, LLC
표 12는 출력 데이터(106)로 되는 최종 합성 버전(final synthesized version)을 나타낸 것이다.
입력의 부분 출력 데이터(106)를 생성하기 위한 합성
Figure 112015098736632-pct00054
NEVA
Figure 112015098736632-pct00055
ELECTRICAL
Figure 112015098736632-pct00056
LLC
따라서 "
Figure 112015098736632-pct00057
"는 "NEVA ELECTRICAL LLC"로 변환된다.
도 9는 반복 완료 기능(160)의 예시적인 동작의 흐름도이다. 도 9는 반복 완료 기능(160) 및 반복 완료 기능(160)의 서브 컴포넌트(sub-component)들에 의해 참조되는 데이터 저장소들의 상징적인 표시(symbolic representation)를 묘사한 것이다.
도 9a는 도 9의 일부분의 상세도로서, 서브 컴포넌트들이 상호 작용하는 데이터 저장소들 뿐만 아니라, 추론(162) 및 그것의 서브 컴포넌트 통계 분석기(605), 신호 점수기(615), 그리고 어휘 시퀀서(610)를 묘사한 것이다.
도 9b는 도 9의 일부분의 상세도로서, 통합(164) 및 통합(164)의 서브 컴포넌트들에 의해 참조되는 데이터 저장소들을 표사한 것이다.
도 9c는 도 9의 일부분의 상세도로서, 규칙 엔진(525)과 오케스트레이션 서비스(530)가 최적화 규칙 저장소(240)와 상호 작용하는 것을 묘사한 것이다.
따라서 프로세스(100)는
(a) 입력(105), 즉 문자열(a string of characters)을 그것의 문자소들로 구문 해석하고(도 7a, 문자소 구문해석 분석기(405) 참조);
(b) 상기 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성시키는 것(도 7a, 문자소 패턴 매퍼(410) 참조)을 포함하는 방법이다.
문자들의 패턴은 입력(105)의 문자소들의 한 문자소에 대응하는 문자들의 그룹을 포함한다. 예를 들어, 도 7a에서 패턴 "1N:GN-2N:CD-3S:IN"은 "상업 설명(commercial description)"의 지정에 대응하는 문자 "CD"의 그룹을 포함하고, 문자소 분석기 저장소(305)를 참조하여 문자소 패턴 매퍼(410)에 의해 매핑된다.
프로세스(100)는 또한 데이터 소스, 문자소에 대한 정보로부터 검색하는 것을 포함한다. 예를 들어, 도 7b의 문맥 분석기(420) 참조.
도 7a, 문자소 패턴 매퍼(410)를 다시 참조하면, 문자들의 패턴은 문자들의 제1 그룹의 시퀀스(sequence) 즉, GN과, 문자들의 제2 그룹 즉, CD를 포함한다. GN은 입력(105)의 문자소들의 제1 문자소에 대응하고, CD는 입력(105)의 문자소들의 제2 문자소에 대응한다. 도 8a를 참조하면, 프로세스(100)는 (a) 상기 시퀀스에 기초하여 복수의 프로세스 중으로부터 하나의 프로세스를 선택하고, (b) 상기 문자열에 대하여 상기 프로세스를 실행하는 것을 더 포함한다.
프로세스(100)는 상기 문자열의 번역의 조합, 즉 번역 데이터(860)와 두 언어 간의 변환, 즉 변환 데이터(870)를 생성한다.
도 10은 여기에 기술된 방법들을 사용하는 시스템(1000)의 블록도이다. 시스템(1000)은 인터넷과 같은 데이터 통신 네트워크, 즉 네트워크(1030)에 연결되는 컴퓨터(1005)를 구비한다.
컴퓨터(1005)는 사용자 인터페이스(1010)와 프로세서(1015)와 메모리(1020)를 구비한다. 여기서 컴퓨터(1005)는 독립형 장치(a standalone device)로서 표현되어 있지만 그와 같이 제한되지 않으며, 대신 분산 처리 시스템(a distributed processing system)에 있는 다른 장치들(미도시)에 연결될 수 있다.
사용자 인터페이스(1010)는 사용자(130)가 정보 및 명령 선택을 프로세서(1015)와 통신할 수 있게 하기 위해 키보드 또는 음성 인식 서브시스템과 같은 입력장치를 구비한다. 사용자 인터페이스(1010)는 또한 디스플레이 또는 프린터와 같은 출력장치를 구비한다. 마우스, 트랙 볼(track-ball), 또는 조이 스틱(joy stick)과 같은 커서 제어기(cursor control)는 사용자(130)가 부가적인 정보 및 명령 선택을 프로세서(1015)와 통신하기 위해 상기 디스플레이 상의 커서를 조작하게 허용한다.
시스템(1000)은 또한 네트워크(1030)를 통해 컴퓨터(1005)와 통신적으로 연결되는 사용자 장치(1045)를 구비한다. 사용자(130)는 사용자 인터페이스(1010)에 의해 행하는 것에 대한 대안으로서 사용자 장치(1045)에 의해 컴퓨터(205)와 상호 작용할 수 있다.
프로세서(1015)는 지시들에 답변하고 지시들을 실행하는 논리 회로로 구성된 전자장치이다.
메모리(1020)는 컴퓨터 프로그램으로 인코딩된 비 일시적 컴퓨터 판독가능 장치이다. 이와 관련해서, 메모리(1020)는 프로세서(1015)의 작동을 제어하기 위해 프로세서(1015)에 의해 판독 가능하고 실행 가능한 데이터와 지시(instructions)를 저장한다. 메모리(1020)는 랜덤 액세스 메모리(RAM), 하드 드라이브, 판독 전용 메모리(ROM), 또는 그 조합으로 구현될 수 있다. 메모리(1020)의 구성요소들 중의 하나는 프로그램 모듈(1025)이다.
프로그램 모듈(1025)은 여기에 기술된 방법들을 실행하기 위해 프로세서(1015)를 제어하기 위한 지시를 담고 있다. 예를 들어, 프로그램 모듈(1025)의 제어 하에서 프로세서(1015)는 프로세스(100)를 실행한다. 여기서 "모듈(module)"이라는 용어는 독립 실행형 구성요소로서 또는 복수의 하위 구성요소의 통합된 구성으로서 구현될 수 있는 기능적인 작동을 의미하기 위해 사용된다. 따라서, 프로그램 모듈(1025)은 단일 모듈 또는 서로 협조하여 작동하는 복수의 모듈로 구현될 수 있다. 더욱, 여기서 프로그램 모듈(1025)이 메모리(1020)에 설치되는 것으로, 그리고 그러므로 소프트웨어에서 구현되는 것으로 기재되어 있더라도, 그것은 하드웨어(예컨대, 전자 회로), 펌웨어(firmware), 소프트웨어, 또는 그 조합 중의 어느 것으로 실행될 수 있다.
프로세서(1015)는 네트워크(1030) 또는 사용자 인터페이스(1010)를 통해 입력(105)을 수신한다. 입력(105)은 사용자 인터페이스(1010) 또는 사용자 장치(1045)를 통해 사용자(130)에 의해 컴퓨터(1005)에, 따라서 프로세스(100)에 제공될 수 있다. 입력(105)은 또한 예를 들어 배치 머신 기능(batch machine capabilities)으로부터 제시된 파일로부터 도출된 것과 같이, 컴퓨터(1005) 내에서 또는 네트워크(1030)를 통해 컴퓨터(1005)에 연결된 원격장치(미도시)에서 작동하는 자동화된 프로세스(automated process)에 의해 제공될 수 있다. 데이터 저장소(170)는 컴퓨터(1005)의 구성요소가 될 수 있는 바, 예를 들어 메모리(1020) 내에 저장될 수 있거나, 컴퓨터(1005)의 외부에 위치될 수 있는 바, 예를 들어 데이터 베이스(1040) 내에, 또는 컴퓨터(1005)가 로컬 네트워크(미도시)를 통해 또는 네트워크(1030)를 통해 접속하는 데이터 베이스(미도시) 내에 위치될 수 있다. 프로세서(1015)는 네트워크(1030) 또는 사용자 인터페이스(1010)를 통해 출력 데이터(106)를 리턴한다.
프로그램 모듈(1025)은 이미 메모리(1020) 안에 로딩된 것으로 표시되어 있지만, 그것은 메모리(1020) 안에서의 후속 로딩을 위해 저장장치(1035)에 구성될 수도 있다. 저장장치(1035)는 또한 컴퓨터 프로그램으로 인코딩된 비 일시적 컴퓨터 판독가능 장치이며, 그 위에 프로그램 모듈(1025)을 저장하는 종래의 저장장치로 될 수 있다. 저장장치(1035)의 실예는 플로피 디스크, 컴팩트 디스크, 마그네틱 테이프, 판독 전용 메모리, 광학 저장 매체, 범용 직렬 버스(USB) 플래시 드라이브, 디지탈 다용도 디스크, 또는 집 드라이브(zip drive)를 포함한다. 저장장치(1035)는 또한 랜덤 액세스 메모리, 또는 원격 저장 시스템에 위치되어 네트워크(1030)를 통해 컴퓨터(1005)에 연결되는 다른 타입의 전자 저장소(electronic storage)일 수 있다.
프로세스(100) 및 시스템(1000)의 기술적인 혜택은 프로세스(100)가 시간이 지남에 따라 정확도가 증가됨과 함께 실행하게 허용하는 폐루프 확습 프로세스(closed-loop learning processes)의 도입 뿐만 아니라, 출력의 향상된 정확도 및 동작의 증대된 확장성(scalability)을 포함한다.
여기에 기재된 기술은 예시적인 것이며, 본 개시에 대해 어떤 특별한 제한을 함축하는 것으로 유추되어서는 안된다. 다양한 대안과 조합 및 변경이 당업자에 의해 고안될 수 있다는 것을 이해해야 한다. 예를 들어, 여기에 기재된 프로세스들과 연관된 단계들은 달리 그 자체의 단계에 의해 특정되거나 드러나지 않는다면 임의의 순서로 수행될 수 있다. 본 개시는 첨부된 청구항들의 범위 내에 들어오는 그와 같은 모든 대안과 변경과 변형을 포함하도록 의도된 것이다.
"포함한다(comprises)" 또는 "포함하는(comprising)"이라는 용어는 진술된 특징들과 완전체(integers)와 단계들 또는 구성요소들의 존재를 명기하는 것으로 해석되어야 하지만, 하나 이상의 다른 특징들과 완전체들과 단계들 또는 구성요소들 또는 그 그룹들의 존재를 배제하는 것으로 해석되어서는 안된다. "하나의("a" and "an")"라는 용어는 부정관사이며, 그것 자체로 복수의 관사를 가진 실시예들을 배제하지 않는다.

Claims (18)

  1. 하나의 프로세서에서 수행되는 방법에 있어서,
    (a) 제1언어의 문자열(a string of characters)을 구비하는 입력 데이터와, (b) 상기 입력 데이터의 소스(source)에 관한 의미론적 문맥 데이터(semantic contextual data)를 수신하고;
    상기 문자열을 그것의 문자소들(graphemes)로 구문 해석(parsing)하고;
    상기 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성하고;
    규칙에 따라 상기 의미론적 문맥 데이터와 상기 문자들의 패턴을 분석하여 상기 문자들의 패턴의 잠재적인 두 언어 간의 변환(interlingual transformation)을 가져오고(yield);
    상기 제1언어로부터의 상기 문자열을 상기 잠재적인 두 언어 간의 변환에 따른 제2언어로 변환하여 하나의 변환을 가져오고;
    상기 변환에 대한 성능 표시(performance indicia)를 분석하고; 그리고
    상기 성능 표시에 기초하여 상기 규칙을 업데이트하는; 것을 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 문자들의 패턴은 상기 문자소들의 한 문자소에 대응하고 상기 소스로 매핑되는 문자들의 한 그룹을 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 소스로부터 상기 문자소에 대한 정보를 검색하는 것을 더 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 문자들의 패턴은 문자들의 제1그룹 및 문자들의 제2그룹의 시퀀스(sequence)를 포함하고,
    상기 문자들의 제1그룹은 상기 문자소들의 제1문자소에 대응하고,
    상기 문자들의 제2그룹은 상기 문자소들의 제2문자소에 대응하며,
    상기 방법은
    상기 시퀀스에 기초하여 복수의 프로세스 중으로부터 한 프로세스를 선택하고,
    상기 문자열에 대해 상기 프로세스를 실행하는 것을 더 포함하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 프로세스는 상기 문자열의 번역 및 두 언어 간의 변환의 조합을 가져오는 것을 특징으로 하는 방법.
  6. 프로세서와, 상기 프로세서에 통신적으로 연결되는 메모리를 포함하고,
    상기 메모리는 상기 프로세서가
    (a) 제1언어의 문자열(a string of characters)을 구비하는 입력 데이터와, (b) 상기 입력 데이터의 소스(source)에 관한 의미론적 문맥 데이터(semantic contextual data)를 수신하고;
    상기 문자열을 그것의 문자소들(graphemes)로 구문 해석(parsing)하고;
    상기 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성하고;
    규칙에 따라 상기 의미론적 문맥 데이터와 상기 문자들의 패턴을 분석하여 상기 문자들의 패턴의 잠재적인 두 언어 간의 변환(interlingual transformation)을 가져오고(yield);
    상기 제1언어로부터의 상기 문자열을 상기 잠재적인 두 언어 간의 변환에 따른 제2언어로 변환하여 하나의 변환을 가져오고;
    상기 변환에 대한 성능 표시(performance indicia)를 분석하고; 그리고
    상기 성능 표시에 기초하여 상기 규칙을 업데이트하는; 작용을 수행하도록 야기하기 위해 상기 프로세서에 의해 판독 가능한 지시들을 담고 있는 것을 특징으로 하는 시스템.
  7. 제6항에 있어서,
    상기 문자들의 패턴은 상기 문자소들의 한 문자소에 대응하고 상기 소스로 매핑되는 문자들의 한 그룹을 포함하는 것을 특징으로 하는 시스템.
  8. 제7항에 있어서,
    상기 지시들은 또한 상기 프로세서가 상기 소스로부터 상기 문자소에 대한 정보를 검색하는 작용을 수행하도록 야기하는 것을 특징으로 하는 시스템.
  9. 제6항에 있어서,
    상기 문자들의 패턴은 문자들의 제1그룹 및 문자들의 제2그룹의 시퀀스(sequence)를 포함하고,
    상기 문자들의 제1그룹은 상기 문자소들의 제1문자소에 대응하고,
    상기 문자들의 제2그룹은 상기 문자소들의 제2문자소에 대응하며,
    상기 지시들은 또한 상기 프로세서가
    상기 시퀀스에 기초하여 복수의 프로세스 중으로부터 한 프로세스를 선택하고;
    상기 문자열에 대해 상기 프로세스를 실행하는; 작용을 수행하도록 야기하는 것을 특징으로 하는 시스템.
  10. 제9항에 있어서,
    상기 프로세스는 상기 문자열의 번역 및 두 언어 간의 변환의 조합을 가져오는 것을 특징으로 하는 시스템.
  11. 하나의 프로세서가
    (a) 제1언어의 문자열(a string of characters)을 구비하는 입력 데이터와, (b) 상기 입력 데이터의 소스(source)에 관한 의미론적 문맥 데이터(semantic contextual data)를 수신하고;
    상기 문자열을 그것의 문자소들(graphemes)로 구문 해석(parsing)하고,
    상기 문자소들의 추상적 개념(abstraction)을 나타내는 문자들의 패턴을 생성하고;
    규칙에 따라 상기 의미론적 문맥 데이터와 상기 문자들의 패턴을 분석하여 상기 문자들의 패턴의 잠재적인 두 언어 간의 변환(interlingual transformation)을 가져오고(yield);
    상기 제1언어로부터의 상기 문자열을 상기 잠재적인 두 언어 간의 변환에 따른 제2언어로 변환하여 하나의 변환을 가져오고;
    상기 변환에 대한 성능 표시(performance indicia)를 분석하고; 그리고
    상기 성능 표시에 기초하여 상기 규칙을 업데이트하는; 작용을 수행하도록 야기하기 위해 상기 프로세서에 의해 판독 가능한 지시들을 포함하는 것을 특징으로 하는 저장장치.
  12. 제11항에 있어서,
    상기 문자들의 패턴은 상기 문자소들의 한 문자소에 대응하고 상기 소스로 매핑되는 문자들의 한 그룹을 포함하는 것을 특징으로 하는 저장장치.
  13. 제12항에 있어서,
    상기 지시들은 또한 상기 프로세서가 상기 소스로부터 상기 문자소에 대한 정보를 검색하는 작용을 수행하도록 야기하는 것을 특징으로 하는 저장장치.
  14. 제11항에 있어서,
    상기 문자들의 패턴은 문자들의 제1그룹 및 문자들의 제2그룹의 시퀀스(sequence)를 포함하고,
    상기 문자들의 제1그룹은 상기 문자소들의 제1문자소에 대응하고,
    상기 문자들의 제2그룹은 상기 문자소들의 제2문자소에 대응하며,
    상기 지시들은 또한 상기 프로세서가
    상기 시퀀스에 기초하여 복수의 프로세스 중으로부터 한 프로세스를 선택하고;
    상기 문자열에 대해 상기 프로세스를 실행하는; 작용을 수행하도록 야기하는 것을 특징으로 하는 저장장치.
  15. 제14항에 있어서,
    상기 프로세스는 상기 문자열의 번역 및 두 언어 간의 변환의 조합을 가져오는 것을 특징으로 하는 저장장치.
  16. 제1항에 있어서,
    상기 의미론적 문맥 데이터와 상기 문자들의 패턴을 분석하는 단계는 또한 선호(preferences) 및 속성(attributions)에 따라 수행되고, (a) 상기 문자들의 패턴의 후보 의미(candidate meanings) 및 후보 두 언어 간의 배치 전략(candidate interlingual disposition strategies)과, (b) 상기 방법의 미래의 반복(future iteration)을 알리기 위한 정보를 가져오며,
    상기 방법은 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴을 분석하는 단계 후와 상기 변환 단계 전에,
    (a) 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴의 상기 분석과 (b) 상기 규칙, 선호 및 속성을 고려하여, 상기 문자들의 패턴의 구성 부분들(constituent parts)에 대한 최적의 두 언어 간의 배치 전략을 선택하여 상기 방법의 사전 반복 학습에 의해 통보되는 것을 더 포함하는 것을 특징으로 하는 방법.
  17. 제6항에 있어서,
    상기 의미론적 문맥 데이터 및 상기 문자들의 패턴의 분석은 또한 선호(preferences) 및 속성(attributions)에 따라 수행되고, (a) 상기 문자들의 패턴의 후보 의미(candidate meanings) 및 후보 두 언어 간의 배치 전략(candidate interlingual disposition strategies)과, (b) 수신하고, 해석(parsing)하고, 생성하고, 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴을 분석하고, 변환하고, 상기 성능 표시를 분석하고, 및 업데이트 하는 것의 미래의 반복(future iteration)을 알리기 위한 정보를 가져오며,
    상기 지시는 또한 상기 프로세서가 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴의 분석 후와 상기 변환 전에,
    (a) 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴의 상기 분석과 (b) 상기 규칙, 선호 및 속성을 고려하여, 상기 문자들의 패턴의 구성 부분들(constituent parts)에 대한 최적의 두 언어 간의 배치 전략을 선택하여 수신하고, 해석(parsing)하고, 생성하고, 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴을 분석하고, 변환하고, 상기 성능 표시를 분석하고, 및 업데이트 하는 것의 사전 반복 학습에 의해 통보되는 작용을 수행하도록 야기하는 것을 특징으로 하는 시스템.
  18. 제11항에 있어서,
    상기 의미론적 문맥 데이터 및 상기 문자들의 패턴의 분석은 또한 선호(preferences) 및 속성(attributions)에 따라 수행되고, (a) 상기 문자들의 패턴의 후보 의미(candidate meanings) 및 후보 두 언어 간의 배치 전략(candidate interlingual disposition strategies)과, (b) 수신하고, 해석(parsing)하고, 생성하고, 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴을 분석하고, 변환하고, 상기 성능 표시를 분석하고, 및 업데이트 하는 것의 미래의 반복(future iteration)을 알리기 위한 정보를 가져오며,
    상기 지시는 또한 상기 프로세서가 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴의 분석 후와 상기 변환 전에,
    (a) 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴의 상기 분석과 (b) 상기 규칙, 선호 및 속성을 고려하여, 상기 문자들의 패턴의 구성 부분들(constituent parts)에 대한 최적의 두 언어 간의 배치 전략을 선택하여 수신하고, 해석(parsing)하고, 생성하고, 상기 의미론적 문맥 데이터 및 상기 문자들의 패턴을 분석하고, 변환하고, 상기 성능 표시를 분석하고, 및 업데이트 하는 것의 사전 반복 학습에 의해 통보되는 작용을 수행하도록 야기하는 것을 특징으로 하는 저장장치.
KR1020157028924A 2013-03-15 2014-03-14 다국어 사업 표시 큐레이션 및 음역 합성 KR101797125B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361793044P 2013-03-15 2013-03-15
US61/793,044 2013-03-15
PCT/US2014/029244 WO2014144716A1 (en) 2013-03-15 2014-03-14 Multi-lingual business indicia curation and transliteration synthesis

Publications (2)

Publication Number Publication Date
KR20150140683A KR20150140683A (ko) 2015-12-16
KR101797125B1 true KR101797125B1 (ko) 2017-11-13

Family

ID=51531780

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157028924A KR101797125B1 (ko) 2013-03-15 2014-03-14 다국어 사업 표시 큐레이션 및 음역 합성

Country Status (13)

Country Link
US (1) US9489351B2 (ko)
EP (1) EP2973003A4 (ko)
JP (1) JP6595979B2 (ko)
KR (1) KR101797125B1 (ko)
CN (1) CN105210057B (ko)
AU (1) AU2014228823B2 (ko)
BR (1) BR112015023779A2 (ko)
CA (1) CA2906763C (ko)
HK (1) HK1217784A1 (ko)
PH (1) PH12015502103B1 (ko)
RU (1) RU2644071C2 (ko)
SG (1) SG11201507601TA (ko)
WO (1) WO2014144716A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6008693B2 (ja) * 2012-10-30 2016-10-19 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
WO2016151761A1 (ja) * 2015-03-24 2016-09-29 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
US10269353B2 (en) 2016-08-30 2019-04-23 Tata Consultancy Services Limited System and method for transcription of spoken words using multilingual mismatched crowd unfamiliar with a spoken language
US10339931B2 (en) 2017-10-04 2019-07-02 The Toronto-Dominion Bank Persona-based conversational interface personalization using social network preferences
US10460748B2 (en) * 2017-10-04 2019-10-29 The Toronto-Dominion Bank Conversational interface determining lexical personality score for response generation with synonym replacement
KR102070452B1 (ko) 2019-06-14 2020-02-03 최재용 업소용 음식물 쓰레기 처리장치
KR20210152099A (ko) 2020-06-05 2021-12-15 박성근 음식물 쓰레기 처리장치
CN111680647A (zh) * 2020-06-12 2020-09-18 中华人民共和国杭州海关 一种用于危化品检验的护目镜及其检验方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US20100299133A1 (en) * 2009-05-19 2010-11-25 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
KR100515698B1 (ko) 2003-05-16 2005-09-16 (주)다음소프트 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
JP2008276517A (ja) * 2007-04-27 2008-11-13 Oki Electric Ind Co Ltd 訳文評価装置、訳文評価方法およびプログラム
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
KR20090008865A (ko) 2007-07-19 2009-01-22 서오텔레콤(주) 휴대폰 컨텐츠 실시간 번역 시스템 및 그 방법
WO2010046782A2 (en) * 2008-10-24 2010-04-29 App Tek Hybrid machine translation
US8326600B2 (en) * 2010-08-11 2012-12-04 Google Inc. Evaluating and modifying transliteration rules
CN103189859B (zh) * 2010-08-26 2016-08-17 谷歌公司 输入文本字符串的转换
WO2012061588A2 (en) * 2010-11-04 2012-05-10 Legendum Pro Vita, Llc Methods and systems for transcribing or transliterating to an iconophonological orthography
WO2012071630A1 (en) * 2010-12-02 2012-06-07 Accessible Publishing Systems Pty Ltd Text conversion and representation system
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149180A (ja) 2000-11-16 2002-05-24 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US20100299133A1 (en) * 2009-05-19 2010-11-25 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tatiana G. et al, Pattern-based English-Latvian Toponym Translation, Conf. of Computational Linguistics, pp.41-47, Nodalida 2009, (2009.05.14)

Also Published As

Publication number Publication date
US9489351B2 (en) 2016-11-08
PH12015502103A1 (en) 2016-01-11
KR20150140683A (ko) 2015-12-16
RU2644071C2 (ru) 2018-02-07
AU2014228823A1 (en) 2015-10-22
JP6595979B2 (ja) 2019-10-23
BR112015023779A2 (pt) 2017-07-18
CN105210057A (zh) 2015-12-30
CA2906763A1 (en) 2014-09-18
JP2016516247A (ja) 2016-06-02
CN105210057B (zh) 2018-12-14
HK1217784A1 (zh) 2017-01-20
EP2973003A4 (en) 2016-12-21
AU2014228823B2 (en) 2017-06-22
EP2973003A1 (en) 2016-01-20
CA2906763C (en) 2019-04-16
US20140278350A1 (en) 2014-09-18
WO2014144716A1 (en) 2014-09-18
RU2015142998A (ru) 2017-04-20
PH12015502103B1 (en) 2016-01-11
SG11201507601TA (en) 2015-10-29

Similar Documents

Publication Publication Date Title
KR101797125B1 (ko) 다국어 사업 표시 큐레이션 및 음역 합성
Karimi et al. Machine transliteration survey
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
CN103970798B (zh) 数据的搜索和匹配
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
Goutte Learning machine translation
JP2016516247A5 (ko)
Chen et al. A study of language modeling for Chinese spelling check
Barrière Natural language understanding in a semantic web context
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
US20220391647A1 (en) Application-specific optical character recognition customization
Chinnakotla et al. Transliteration for resource-scarce languages
Lyons A review of Thai–English machine translation
Kiros et al. Tigrigna language spellchecker and correction system for mobile phone devices
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
L’haire FipsOrtho: A spell checker for learners of French
WO2009144890A1 (ja) 翻訳前換言規則生成システム
Jabin et al. An online English-Khmer hybrid machine translation system
Kaalep et al. You can’t suggest that?!: Comparisons and improvements of speller error models
Kirschenbaum Lightly supervised transliteration for machine translation
Dawit Context Based Afaan Oromo Language Spell Checker For Handheld Device
Chaudhary et al. A Study of Transliteration Approaches
Amies Machine Learning Approaches with Multilingual Bibliographic, Quotation, and Terminology Databases for the Study of the Chinese Buddhist Canon
Pirinen et al. You can’t suggest that?! Comparisons and improvements of speller error models
Atwell et al. Multi-level disambiguation grammar inferred from English corpus, treebank, and dictionary

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant