KR101543992B1

KR101543992B1 - 언어-내 통계적 머신 번역

Info

Publication number: KR101543992B1
Application number: KR1020107021217A
Authority: KR
Inventors: 시아오 리; 윤-쳉 주; 조프리 즈웨이그; 알렉스 아세로
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2008-03-28
Filing date: 2009-02-27
Publication date: 2015-08-13
Also published as: CN101981566B; EP2269148A4; US8615388B2; WO2009120449A1; EP2269148A1; EP2269148B1; CN101981566A; US20090248422A1; KR20100135757A

Abstract

소스 문구과 타겟 문구의 쌍들을 포함하는 훈련 데이터가 제공될 수 있다. 이 쌍들은 언어-내 통계적 머신 번역 모델을 훈련하는데 사용될 수 있으며, 여기서 언어-내 통계적 머신 번역 모델은, 인간 언어의 텍스트의 입력 문구가 주어지면, 상기 입력 문구와 상기 인간 언어의 입력 문구의 가능한 번역물과의 의미적으로 등가의 확률을 계산할 수 있다. 통계적 머신 번역 모델은 쿼리와 목록 간을 번역하는데 이용될 수 있다. 쿼리는 검색 엔진에 제출된 인간 언어의 텍스트 스트링일 수 있다. 목록 스트링은 쿼리 스트링과 매치하는 것을 찾는 검색 엔진에 의해 검색될 실세계 엔티티들의 공식 명칭의 텍스트 스트링일 수 있다.

Description

언어-내 통계적 머신 번역{INTRA-LANGUAGE STATISTICAL MACHINE TRANSLATION}

정보를 검색하고 탐색하기 위한 네트워크 기반 검색 서비스, 인터넷 검색 엔진, 음성 검색, 국부적 검색(local search), 및 각종 다른 기술들은 사람들이 정보를 찾는데 도움을 주기 위한 목적으로 점차 중요해지고 있다. 음성 검색은 음성 인식과 정보 탐색의 결합을 필요로 한다. 발음된 문구는 자동으로 텍스트로서 인식되며, 그 텍스트는 쿼리로서 검색 서비스에 제출된다. 예를 들어, 어떤 사람은 음성 검색 애플리케이션을 내장한 이동 전화기를 이용하여 이동 장치에 음식점의 명칭을 말함으로써 음식점을 찾을 수 있으며, 이동 장치는 말한 음식점 명칭을 인식하고(즉, 이를 텍스트로 변환하고) 음식점 명칭의 텍스트를 기업 디렉토리와 같은 원격 검색 서비스에 전송할 수 있다. 국부적 검색은 업소들, 회사들, 단체들, 또는 다른 엔티티들의 목록(listings)을 사용하여 이동 장치가 이와 같은 것들을 찾을 수 있게 한 특수한 검색 사례이다. 아래와 같은 예를 고려해보자.

사용자는 디렉토리에 "Kung Ho Cuisine of China"라고 목록에 기입된 사업에 관한 정보를 찾는데 관심을 가질 수 있다. 그러나, 사용자는 쿼리를 "Kung Ho Restaurant"라고 공식화한다. 현재, 이러한 목록 검색은 쿼리 부분과 목록 형태들 간의 통계적 유사성들(statistical parallels)을 이용하지 못할 것이다. 더욱이, 오류 목록, 예를 들어, "Kung Ho Grocery"가 관련성 있는 매치라고 되돌아올 수 있다.

아래에는 통계적 언어-내 머신 번역에 관련한 기술과, 이 기술의 음성 인식, 검색, 및 다른 기술에의 적용예가 기술된다.

다음의 요약은 아래의 상세한 설명에서 기술된 일부 개념을 소개할 뿐이다. 이 요약은 포괄적인 내용은 아니며 또한 본 명세서의 끝 부분에서 제시된 특허청구범위에서 기술된 청구된 주제의 범주를 서술하고자 한 것은 아니다.

훈련 데이터가 제공될 수 있다. 이 훈련 데이터는 소스 문구와 타겟 문구의 쌍을 포함할 수 있다. 이 쌍들은 언어-내 통계적 머신 번역 모델을 훈련하는데 사용될 수 있으며, 여기서 언어-내 통계적 머신번역 모델은, 인간 언어의 텍스트의 입력 문구가 주어질 때, 인간 언어의 입력 문구의 가능한 번역물에 대한 입력 문구의 의미적 등가(semantic equivalence)의 확률을 계산할 수 있다. 통계적 머신 번역 모델은 쿼리와 목록 간을 번역하는데 사용될 수 있다. 쿼리는 검색 엔진에 제출된 인간 언어에서의 텍스트 스트링일 수 있다. 목록 스트링은 쿼리 스트링과 매치하는 것을 찾기 위해 검색 엔진에 의해 검색될 실세계 엔티티들의 공식 명칭의 텍스트 스트링일 수 있다.

첨부 도면과 함께 고려된 다음의 상세한 설명을 참조하여 많은 부수적인 특징들이 아래에서 설명될 것이다.

본 설명은 첨부 도면의 견지에서 읽어본 다음의 상세한 설명으로부터 더 잘 이해될 것이며, 도면에서 동일한 참조부호는 다음의 설명에서 동일한 요소를 지정하는데 사용된다.
도 1은 언어-내 통계적 머신 번역을 위한 일반적인 프로세스를 도시한다.
도 2는 n-그램 기반 모델을 구축하기 위한 프로세스를 도시한다.
도 3은 통계적 번역 모델을 이용하여 검색 시스템 및/또는 음성 인식 시스템의 언어 모델을 향상시키는 구성을 도시한다.

개요

아래의 설명은 동일한 인간 언어의 문장들 또는 문구들 간에 번역하는 통계적 머신 번역 모델을 사용하는 것과 관련한 실시예들을 커버한다. 이 설명은 비교적 작은 집합의 훈련 문장들 또는 문구들이 통계적 번역 모델을 훈련하는데 어떻게 사용되는지를 설명하는 것으로 시작한다. 그 다음, 언어-내 머신 번역 모델의 응용예가 설명되며, 이 응용예는 검색, 자동 음성 인식(automatic speech recognition: ASR), 및 음성 인식 결과의 디스플레이에의 응용예를 포함한다.

언어내 통계적 머신 번역 모델( INTRALANGUAGE STATISTICAL MACHINE TRANSLATION MODEL )

통계적 모델들은 문장들(sentences)을 한 언어에서 다른 언어로 번역하는데 사용되어 왔다. 그러나, 이 모델들은 동일 언어의 문구들(phrases) 또는 문장들 간에 번역하는데 훈련되거나 사용되지 않았다. 즉, 통계적 모델링은 이전에 영어의 문구를, 예를 들어, 역시 영어 내에서 의미적으로 유사한 다른 문구로 번역하는데 사용되지 않았다.

통계적 번역 모델은 쿼리 스트링과 이에 대응하는 디렉토리 목록과 같은 유사 문구들일 수 있는 어떤 텍스트 샘플을 일반화한 것이다. 몇 가지 형태의 통계적 번역 모델은 타겟 문장 또는 문구가 소스 문장 또는 문구의 번역물이라는 확률을 제공하며, 이 확률은 훈련 텍스트로부터 유도된 통계적 패턴을 반영한다. 사실상, 모델은 훈련 문장의 통계적 측정치로부터 반영된 특징 또는 추세의 확률적 일반화이다. 본 설명의 전체에서, "문장"과 "문구"라는 용어는 비교적 짧은 배열의 단어들을 치환가능하게 지칭하는데 사용될 것임을 주목하자. 사업의 공식 및 비공식 명칭, 사용자에 의해 입력된 쿼리 스트링, 문법적 문장, 절 등은 문장 또는 문구의 예이다. 또한 본 설명은 문구 기반 검색(특히 음성 및/또는 지리적으로 국한된 검색)에 적용되는 것으로 언어-내 통계적 머신 번역을 기술하지만, 그 개념은 검색 응용예로 국한되지 않는다는 것을 알아야 한다. 더욱이, 짧은 구의 검색 목록은 제품 검색, 직업 검색 등을 포함하는 국부적 검색 이외에 다른 형태의 검색에도 적용가능하다.

도 1은 언어-내 통계적 머신 번역을 위한 개괄적인 프로세스를 도시한다. 처음에, 통계적 머신 번역 모델은 훈련(100)된다. 훈련(100)은 나중에 상세히 설명될 것이다. 훈련(100)은 각종 소스로부터 올 수 있는 훈련 데이터의 샘플을 이용하여 수행된다. 훈련 데이터는 동일한 인간 언어 내에서 유사한 (쌍으로 된) 문구들을 포함할 것이다. 훈련(100)은 문구의 후보 번역물들의 확률 또는 개연성을 계산하는데 사용될 수 있는 통계치(예를 들어, n-gram)를 번역 모델에 알려준다. n-gram 기반 모델의 특정한 훈련(100)은 아래에서 기술될 것이다.

모델이 훈련(100)된 후, 모델은 소스 문구를 타겟 문구로 번역(102)하는데 사용된다. 번역(102)은 소스 문구에서 시작하는 단계와 의미적으로 유사한 또는 대등한 타겟 문구를 획득하는 단계를 포함한다. 예를 들어, "Kung Ho Cuisine of China"라는 소스 문구는 "Kung Ho Chinese Restaurant" 또는 "Kung Ho Restaurant" 라는 타겟 문구로 변역될 수 있다. 다른 형태의 후보 타겟 문구들이 획득된다. 통계적 번역 모델은 하나 이상의 가장 유망한 후보 타겟 문구를 찾는데 사용된다. 다음의 음성 기반 검색의 개요와 이것이 어떻게 언어-내 머신 번역에 관련하는지를 고려해보자.

음성 검색 시스템은 두 컴포넌트, 즉, 음성 인식 컴포넌트 및 정보 탐색(검색) 컴포넌트를 포함할 수 있다. 말한 발성음 o는 자동 음성 인식(ASR)을 이용하여 텍스트 쿼리 q로, 즉, 아래와 같이 변환된다.

여기서, p(o│q) 및 p(q)는 각각 음향 모델 및 언어 모델(LM)을 나타낸다. 통계적 LM, 예를 들어, n-gram 모델은 종종 사용자가 말할 수 있는 유연성을 부여하는데 사용된다. 즉, 이 모델들은 각종의 말들이 ASR 컴포넌트에 의해 인식되게 해준다. 그 다음, 최적 (또는 n-best) q는 검색 엔진에 전달되어 가장 관련성 있는 문서 d를, 즉, 아래와 같이 탐색한다.

국부적 검색의 문맥에서, 문서 d는 전형적으로 짧은, 예를 들어, "Kung Ho Cuisine of China"라는 사업 목록(사업, 단체, 또는 다른 엔티티의 명칭)의 형태일 수 있다.

이러한 음성 기반 검색 체계의 경우, 목록 및 쿼리는 둘 다 비교적 짧기 때문에 2개국어 번역 훈련에서 발견된 "문장 쌍들(sentence pairs)"과 유사한 쌍으로서 취급된다. 언어-내 번역에 적합한 2개국어 통계적 번역 모델은 원래 형태의 목록을 자동으로 그의 쿼리 형태(즉, 목록을 검색할 때 사용자가 입력할 것으로 예상될 수 있는 형태)로 변환하는데 사용될 수 있으며, 나아가 음성 검색, 문법 체크, 또는 다른 응용을 위해 더 강건한 LM들을 구축하는 데에 사용될 수 있다. 편의상, 통계적 번역 모델은 매칭 목록들을 반드시 습득할 필요없이 소수의 변환한 또는 인위적으로 생성한 쿼리를 이용하여 훈련될 수 있다. 다양한 형태의 통계적 모델이 머신 번역에 사용될 수 있지만, n-gram 기반 모델이 다음에 기술될 것이다.

비록 쿼리 문구 및 그의 의도된 목록 문구는 형태가 다를 수 있을지라도, 통상 두 문구들 사이에는 단어 수준에서 의미적 대응성(semantic correspondence)이 있다. 다시 말해서, 쿼리 내 단어들은 목록 내 단어들 또는 공백 단어(null word)에 맵핑될 수 있으며, 그 반대로도 가능하다. 머신 번역 접근법은 목록의 가능한 쿼리 형태를 예측하고, 그런 다음 예측된 쿼리 형태를 활용하여 언어 모델링을 개선하는데 사용될 수 있다. 특히, 다음에 설명되는 바와 같이, n-gram은 목록 및 쿼리의 결합(조건부) 확률(joint (conditional) probability)을 모델링하는 단어 쌍에 대해 사용될 수 있다.

도 2는 n-gram 기반 모델을 구축하기 위한 프로세스를 도시한다. 동일한 인간 언어에서 한 쌍의 소스 및 타겟 문장들이 수신된다(120). 소스 및 타겟 문장들은 두 문장들 간의 편집 거리를 계산함으로써 정렬된다(122). 그 다음, 정렬된 문장의 단어들 및/또는 문구들이 쌍으로 구성되고(124) 의미적 단위로 취급된다. 그 다음, 쌍의 구성은 의미적으로/문자 그대로 유사한/대등한 단어들 또는 문구들을 찾음으로써 형성될 수 있다. 그런 다음, 쌍의 구성은 n-gram 모델을 훈련(126)시키는데 사용된다. 이 프로세스의 단계들은 상이한 소스 및 타겟 문장들에 대해 반복될 수 있다. 어떤 응용예에서는 소수 집합의 훈련 문장들이면 충분할 수 있지만, 더 많은 훈련 데이터를 사용하면 더 강력한 모델을 생성할 것이다. 정렬과 n-gram 모델은 반복적으로 갱신되고 최우도 의미(maximum likelihood sense)로 정제(refine)될 수 있음을 알아야 한다.

이제, n-gram 기반 모델을 생성하는 세부 내용이 기술될 것이다. n-gram 기반 모델을 훈련(100)하기 위하여, 초기의 훈련 데이터가 제공된다. 이 데이터는 유사한 텍스트(d, q)의 보디일 수 있으며, 여기서 목록 d 및 쿼리 q는 각각 소스 및 타겟 문장들로서 역할을 한다. 문장 d 및 q는 단조롭게 정렬되는데, 필요하다면, 그 정렬에서 발생하는 삽입 또는 삭제를 고려하여 공백 단어가 추가된다. 단조로운 정렬은 a라고 표시될 것이다. 또 다른 실시예에서, 단조롭지 않은 정렬이 사용될 수 있음을 알아야 한다.

일단 정렬되면, d 및 q로부터의 단어들의 순서 쌍이 생성되며, 이것은 (d, q, a) = ((d₁, q₁), (d₂, q₂), ..., (d_L, q_L))로 표시되며, 여기서 각각의 (d_i, q_i)는 단일의 의미적 단위로서 취급된다. 필요하다면, 연속하는 단어 쌍들이 합쳐져서 문구 쌍들을 형성할 수 있다.

그 다음, 단어 쌍들의 순서는 n-gram 모델을 훈련하는데 사용될 수 있다. 결과적으로, 정렬된 문장 쌍의 확률은 다음과 같이 계산된다.

여기서, M은 단조로운 조건을 나타낸다. 초기 정렬 a는 d와 q 간의 레빈스타인 거리(Levenshtein distance)를 이용하여 계산될 수 있다. 이 정렬과 n-gram 모델의 파라미터는 최우도 의미로 갱신될 수 있다. 재정렬은, 예를 들어, 쌍을 구성하는 빈도수에 따라서 이루어질 수 있다.

n-gram 모델이 훈련되면, 목록-대-쿼리 번역이 수행될 수 있다. 목록 형태 d가 주어지고, (나중에 설명되는 디코더로부터) 쿼리 형태 q가 주어지면, 쿼리 형태가 검색되어 가장 높은 조건부 확률을 갖는 쿼리 형태를 찾는다.

여기서, p(d, q, a)는 수학식 3을 이용하여 평가된다.

번역은 유니그램에 의해 모델링된 단어 수준의 의미적 대응성을 이용할 뿐 아니라 고차 n-gram을 이용함으로써 단어 문맥(context)을 고려하기도 한다. 최적 또는 n-best 쿼리 형태는, Russell과 Norvig에 의해 Artificial Intelligence : A Modern Approach(Prentice Hall, second edition, 2003)에서 기술된, 최적 우선 탐색 알고리즘(best-first search algorithm)을 적용함으로써 효율적으로 검색될 수 있다. 이러한 형태의 검색을 이용하면, 가지치기 기술을 계산적인 복잡성을 줄이는데 적용될 수 있다. 음성 인식을 위한 언어 모델(LM)로 되돌아가면, 일단 목록에 대해 n-best 쿼리 형태가 구해지면, 이들은 LM 추정을 위한 훈련 문장으로서 사용될 수 있다.

고려할 두 가지 상세 구현 내용이 있다. 첫째, d에서 공백 단어를 사용하면 디코드 시간에서 잠재적 문제가 일어나며, 즉, 소스 문장의 어떤 위치에서 공백이 존재 또는 부재할 수 있기 때문에 검색 공간이 상당히 확장된다. 이 문제를 방지하기 위하여, q_i의 값들의 의미적 단위로서 (d_i = null, q_i)의 사용을 제거하는 것이 바람직하다. 특히, 훈련시, (d_i = null, q_i)는 문구들, q_i _-1q_i 또는 q_iq_i ₊₁, 중 어떤 문구가 훈련 데이터에서 더 많이 발생하는지에 따라서 그의 선행 또는 후행 의미적 단위와 합쳐질 수 있다. 그러면, (d_i ₊₁, q_i _-1q_i) 또는 (d_i ₊₁, q_iq_i ₊₁)은 단일의 의미적 단위로 취급될 수 있다. 디코드 시간에서, 의미적 단위들 (d_i _-1, q_i _-1q_i) 또는 (d_i+1, q_iq_i ₊₁)을 사용하는 것은 소스 문장 내에 공백(null)을 추가하는 것과 등가이므로, 공백은 명시적으로 d에 삽입되지 않는다.

두 번째 상세 구현 내용은 d 내의 OOV 단어들(out-of-vocabulary words)에 관한 것이다. OOV가 발생할 때, 어떤 q_i 값에 대해 p(d_i = OOV, q_i) = 0이기 때문에, 어떤 쿼리 형태도 생성하기가 가능하지 않을 수 있다. 그러한 경우를 처리하기 위하여, d_i = OOV 일 때마다, 양(positive)의 확률이 유니그램(d_i, q_i = d_i)에 할당될 수 있다. 이것은, 훈련 데이터에서 찾을 수 없다면, 목록 단어가 그 자체로 번역된다는 것을 의미한다.

정렬이 단조롭지 않은 실시예들 역시 가능하다는 것을 주목하여야 한다. 더욱이, 재순서화(re-ordering) 전략이 사용될 수 있다. 이것은 단조로운 정렬이 적용되기 전에 q의 순서를 유지하면서 d를 재순서화함으로써 구현될 수 있다. 번역 모델을 훈련할 때, 소스 형태로 단어들을 재순서화하는 가장 좋은 방식은 결과 결합 n-gram 모델 가능성(resulting joint n-gram model likelihood)을 계산함으로써 결정된다. 원래의 순서를 시프트한 순서만이 고려되며, 이러한 순서를 위해 최대 엔트로피 분류기(maximum entropy classifier)가 구축되며, 여기서 분류기의 입력은 소스 형태이며, 그 출력은 순서이다. 번역하기 전에, 이 분류기가 적용되어 소스 형태를 재순서화한다.

언어 내 통계적 번역 모델의 응용

도 3은 통계적 번역 모델을 이용하여 검색 시스템 및/또는 음성 인식 시스템의 언어 모델을 개선하는 구성을 도시한다. 검색 엔진(152)은 목록(154), 예를 들어, 사업 목록을 검색하도록 구성된다. 검색 엔진(152)은 사용자에 의해 생성되어 검색 엔진(152)에 제출된 텍스트 쿼리 또는 변환된 발성 쿼리(156)를 수신한다. 대응하는 관련 목록(158)이 검색 엔진(152)에 의해 탐색된다. 훈련 쌍은 또한 TF-IDF(term frequency-inverse document frequency)를 이용하여 알고리즘적으로 획득될 수 있다.

텍스트 또는 변환된 쿼리(156) 및 대응하는 검색 엔진에서 탐색된 목록(158)은 n-gram 기반 모델 또는 다른 형태의 모델일 수 있는 통계적 번역 모델(162)을 훈련하는 훈련 컴포넌트(160)에 전달된다. 전술한 바와 같이, 훈련 컴포넌트(160)는 소스-타겟 쌍의 변환된 쿼리(156) 및 목록(158)을 통해 반복한다. n-gram 기반 모델의 경우, (소스, 타겟) 쌍이 주어지면, 편집 거리를 계산함으로써 소스 형태와 타겟 형태 사이에서 초기의 단조로운 정렬이 이루어진다. 정렬이 이루어지면, 훈련 컴포넌트(160)는 단어 수준 쌍을 찾고 단어 수준 쌍을 기반으로 하여 n-gram 번역 모델(162)을 구축한다. 번역 모델(162)의 정렬 및 n-gram 모델 파라미터는 반복적으로 정제되어서 번역 모델(162)을 향상시킨다. 더욱이, 훈련은 언어-내 번역으로 가능한 것과 같이, 단어가 자신으로 번역될 수 있다고 가정하는 백오프 전략을 구현할 수 있다. 다시 말해서, 정렬된 단위 WORD-WORD는 양의 확률을 가질 것이며, 여기서 WORD는 단어 또는 문구일 수 있다.

번역 모듈(164)은 번역 모델(162)을 사용하여 디코드된 후보들(잠재 번역물들)을 테스트한다. 번역 모델(162) 및 소스 형태가 훈련되면, 최적 우선 탐색 알고리즘은 최고 n-best 타겟 형태(번역 모델(162)에 따라 최고의 확률을 갖는 n 개의 디코드된 타겟 형태들)를 획득하는데 사용될 수 있다. 각 타겟 형태의 가중치는 번역 모델에 의해 생성된 p(타겟 소스)에 의해 결정된다. 가망 없는 단어 수준 쌍은 가지치기하여 번역 속도를 높일 수 있다.

번역 모델(162) 및 번역 모듈(164)이 주어지면, 후속 검색은 다음과 같이 개선될 수 있다. 사용자의 쿼리 q 및 목록 d가 검색 엔진(152)에 의해 발견되면, 목록 d의 번역된 쿼리 형태 x 는 목록 d의 사용자 쿼리와의 관련성을 측정할 때 고려된다. s(_,_)를 함수 또는 관련성(또는 유사성)의 함수 또는 측정치라 하면, 관련성의 측정치는

일 수 있다. 대안으로, 관련성은 s(q, d) = p(q,d)의 경우가 되는 번역 확률로부터 직접 측정될 수 있다. 일 실시예에서, 만일 잠재적 번역물의 유사도 측정치가 특정 임계치보다 낮으면 그 잠재 번역물은 걸러질 수 있다.

더욱이, 전술한 바와 같이 검색을 개선할 수 있을 뿐만 아니라 언어-내 번역을 이용하여 언어 모델(168)이 구축 또는 증강될 수 있다. 언어 모델은 ASR, 머신 번역, 및 파싱(parsing)과 같은 많은 자연어 처리 애플리케이션들에서 사용된다. 번역 모델(162) 및 번역 모듈(164)에 의해 제공된 언어-내 번역은 언어 모델을 추정(168)할 때 목록을 쿼리 형태로 번역하고 그와 동일한 언어의 번역된 쿼리 형태를 이용함으로써 언어 모델링하는데 사용될 수 있다. 언어 모델을 추정(168)할 때, 번역된 쿼리 형태의 계수는 그의 원래 목록의 계수만큼 곱한 그의 이후의 확률로 설정될 수 있다.

일 실시예에서, 서버 기반 또는 클라이언트 기반 음성 인식기는 언어 모델(168)을 구비할 수 있으며, 이 모델은 음성 인식기로 하여금 목록(154) 또는 목록에 전달된 발성음에 대해 더 정확하고 이해가 빠른 음성 인식을 수행하게 해줄 것이다. 번역 모델(162)은 또한 서버 또는 이동 클라이언트에서 이동 장치(ASR에 의하건 아니면 다른 것에 의하건)에서 입력된 스트링을 디스플레이 형태로 번역하는데 사용될 수 있다.

결론

전술한 실시예들 및 특징들은 휘발성 또는 비휘발성 컴퓨터 또는 장치 판독가능 매체에 저장된 정보의 형태로 실현될 수 있다. 이것은 적어도 광 스토리지(예를 들어, CD-ROM), 자기 매체, 플래시 ROM, 또는 디지털 정보를 저장하는 어떤 현재 또는 미래의 수단 등의 매체를 포함하는 것으로 간주된다. 저장된 정보는 컴퓨팅 장치들이 전술한 다양한 실시예들을 수행하는 것을 가능하게 하거나 구성하는데 사용될 수 있는 머신 실행가능 명령어(예컨대, 컴파일된 실행가능 이진 코드), 소스 코드, 바이트코드, 또는 어떤 다른 정보의 형태일 수 있다. 이것은 또한 적어도 어떤 실시예를 실행하는 프로그램의 실행 중에 CPU 명령어와 같은 정보를 저장하는 RAM 및/또는 가상 메모리와 같은 휘발성 메모리뿐만 아니라 프로그램이 로드되고 실행되도록 해주거나 실행 가능한 정보를 저장하는 비휘발성 매체를 포함하는 것으로 간주된다. 이러한 실시예들 및 특징들은 모든 형태의 휴대용 장치, 워크스테이션, 서버, 이동 무선 장치 등을 포함하는 어떠한 형태의 컴퓨팅 장치에서도 실행될 수 있다. 전술한 모듈, 컴포넌트, 프로세스, 및 검색 엔진(152)은 하나의 컴퓨팅 장치 또는 다수의 협업 컴퓨팅 장치들에서 실현될 수 있다.

Claims

인간 언어의 문구들의 언어-내 머신 번역(intra-language machine translation)을 위한 컴퓨터로 구현된 방법으로서,
상기 방법은 하나 이상의 프로세서와 메모리로 구성되는 하나 이상의 컴퓨터에 의해 수행되고,
상기 방법은,
검색 엔진으로 제출되는 인간 언어의 텍스트 쿼리들의 목록 및 상기 텍스트 쿼리들이 상기 검색 엔진에 제출된 경우에 상기 검색 엔진에 의해 반환된 상기 인간 언어의 텍스트 문장들의 목록을 포함하는 훈련 데이터를 수신하고, 상기 텍스트 쿼리들과 상기 텍스트 문장들을 비교하여 텍스트 문장과 유사한 텍스트 쿼리를 식별하고 소스 문구들로서의 상기 식별된 텍스트 쿼리들을 타깃 문구들로서의 각각의 식별된 텍스트 문장들과 쌍을 이루게 함으로써 상기 소스 문구들과 상기 타깃 문구들의 쌍을 형성하며, 상기 훈련 데이터를 상기 메모리에 저장하는 단계와,
상기 하나 이상의 프로세서에 의해, 각각의 쌍을 처리하는 단계 - 상기 처리하는 단계는 처리되는 현재의 쌍에 대해 상기 현재의 쌍의 소스 문구를 소스 단어로 파싱하고, 상기 현재의 쌍의 타깃 문구를 타깃 단어로 파싱하며, 상기 소스 단어 및 상기 타깃 단어의 정렬(alignment)을 계산하는 것을 포함함 - 와,
상기 하나 이상의 프로세서에 의해, 상기 훈련 데이터 및 이들의 각각의 정렬의 쌍을 사용하여 n-gram 기반 언어-내 통계적 머신 번역 모델을 훈련하는 단계 - 상기 언어-내 통계적 머신 번역 모델은 상기 인간 언어의 텍스트의 입력 문구가 주어지면, 상기 인간 언어의 입력 문구에 대한 가능한 번역물을 식별하고 상기 인간 언어의 상기 입력 문구의 가능한 번역물에 대한 상기 입력 문구의 의미적 등가의 확률을 계산할 수 있음 - 와,
상기 언어-내 통계적 머신 번역 모델을 이용하여 쿼리의 번역물을 찾아내고 상기 번역물을 사용하여 상기 쿼리와 일치하는 목록을 평가하는 단계 - 상기 쿼리는 상기 검색 엔진에 제출된 상기 인간 언어의 텍스트 스트링들을 포함하고, 목록 스트링은 쿼리 스트링과 일치하는 것으로 상기 검색 엔진에 의해 검색되는 실세계 엔티티들의 공식 명칭(formal names)의 텍스트 스트링들을 포함함 -
를 포함하는 컴퓨터로 구현된 방법.
제1항에 있어서,
상기 언어-내 통계적 머신 번역 모델을 이용하여 쿼리의 번역물을 찾아내고 상기 쿼리와 일치하는 목록을 평가하는 단계는,
상기 검색 엔진으로부터 상기 검색 엔진이 사용자의 쿼리와 일치한 목록들을 수신하는 단계와,
상기 번역 모델을 이용하여 상기 목록들 중 하나의 목록을 쿼리 형태로 번역함으로써 상기 목록들 중 하나의 목록의 상기 쿼리 형태를 생성하는 단계와,
상기 번역 모델을 이용하여 상기 사용자의 쿼리에 대한 상기 쿼리 형태의 유사도를 계산하는 단계와,
상기 계산된 유사도에 기초하여 상기 목록이 상기 사용자의 쿼리와 일치하지 않는지를 판정하는 단계를
를 포함하는 컴퓨터로 구현된 방법.
제1항에 있어서,
상기 언어-내 통계적 번역 모델을 이용하여 쿼리의 번역물을 찾아내고 상기 쿼리와 일치하는 목록을 평가하는 단계는,
상기 검색 엔진으로부터 상기 검색 엔진이 사용자의 쿼리와 일치한 목록을 수신하는 단계와,
상기 모델을 이용하여 상기 목록이 상기 사용자의 쿼리의 번역물인 확률을 구하는 단계와,
상기 확률에 기초하여 상기 목록이 상기 사용자의 쿼리와 일치하는지를 판정하는 단계
를 포함하는 컴퓨터로 구현된 방법.
제1항에 있어서,
상기 정렬을 계산하는 것은
상기 소스 및 타겟 문구들의 의미적으로 대등한 단어들이 정렬되도록 상기 현재의 소스 단어, 상기 타겟 단어 또는 이들 모두를 재배열(rearranging)하는 것과,
상기 정렬 및, n-gram 기반 언어-내 통계적 번역 모델의 파라미터를 반복적으로 갱신하는 것
을 포함하는 컴퓨터로 구현된 방법.
제1항에 있어서,
상기 언어-내 통계적 번역 모델을 이용하여 상기 인간 언어의 언어 모델을 생성하는 단계를 더 포함하며,
상기 언어 모델은 상기 인간 언어의 스트링의 개연성(likelihood)을 결정할 수 있는
컴퓨터로 구현된 방법.
제5항에 있어서,
상기 언어-내 통계적 번역 모델을 이용하여 상기 인간 언어의 언어 모델을 생성하는 단계는 상기 언어-내 통계적 번역 모델로부터의 상기 언어 모델 번역물을 함께 포함하는 단계를 포함하는
컴퓨터로 구현된 방법.
제5항에 있어서,
상기 언어 모델을 이용하여 자동 음성 인식을 수행하는 단계를 더 포함하는
컴퓨터로 구현된 방법.
컴퓨팅 장치가 인간 언어의 문구를 상기 언어의 다른 문구로 번역하기 위한 프로세스를 실행할 수 있게 하는 정보를 저장하는 하나 이상의 컴퓨터 판독가능 저장 매체로서,
상기 프로세스는,
상기 인간 언어의 문구들의 쌍들을 포함하는 훈련 쌍들을 액세스하는 단계 - 상기 훈련 쌍들은 검색 엔진에 제출된 상기 인간 언어의 텍스트 쿼리들 및 상기 텍스트 쿼리들이 상기 검색 엔진에 제출된 경우에 상기 검색 엔진에 의해 반환된 상기 인간 언어의 대응하는 텍스트 문장들을 포함하고, 상기 훈련 쌍들은 상기 텍스트 쿼리들과 상기 텍스트 문장들을 비교하여 상기 텍스트 문장들과 유사한 텍스트 쿼리들을 식별하고 상기 식별된 텍스트 쿼리들을 상기 각각의 식별된 텍스트 문장들과 쌍을 이루게 함으로써 형성됨 - 와,
상기 훈련 쌍들의 각각의 정렬을 계산함으로써 통계적 머신 번역 모델을 상기 훈련 쌍들로 훈련하는 단계 - 상기 정렬은 공백 단어(null word)를 상기 문구에 삽입하거나 또는 상기 문구의 단어들을 재배열함으로써 문구의 단어를 상기 문구가 쌍을 이루는 상기 단어들과 매핑하고, 상기 통계적 머신 번역 모델은 상기 인간 언어의 타겟 스트링이 상기 인간 언어의 주어진 소스 스트링의 유효 번역물일 확률을 계산할 수 있음 - 와,
상기 인간 언어의 텍스트 문구를 수신하고, 상기 텍스트 문구를 상기 인간 언어의 상기 텍스트 문구의 상이한 후보 번역물로 디코딩하며, 상기 통계적 머신 번역 모델을 사용하여 상기 후보 번역물이 상기 텍스트 문구의 번역물인 확률을 계산하는 단계와,
상기 확률에 기초하여, 상기 후보 번역물 중 하나 이상을 컴퓨터에 의해 저장 및 디스플레이 중 하나 이상을 하는 단계
를 포함하는 컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 훈련 쌍들은 검색 엔진이 상기 쿼리 스트링과 일치한 목록들과 쌍을 이루는 사용자에 의해 제출된 쿼리 스트링을 포함하는
컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 수신된 텍스트 문구는 사용자에 의해 입력된 쿼리 스트링을 포함하고, 상기 쿼리 스트링은 상기 인간 언어의 텍스트를 포함하며,
상기 프로세스는 상기 통계적 머신 번역 모델을 이용하여 상기 쿼리 스트링의 복수의 가능성 있는 잠재적 번역물을 식별하는 단계를 더 포함하며,
상기 잠재적 번역물은 상기 인간 언어의 텍스트를 포함하는
컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 수신된 텍스트 문구는 사업 또는 단체 명칭의 목록을 검색하는 검색 엔진으로부터 획득된 단체 또는 사업의 명칭을 포함하고,
상기 명칭은 사용자가 입력한 쿼리에 따라서 상기 검색 엔진으로부터 구해지며,
상기 프로세스는
상기 통계적 머신 번역 모델을 이용하여 상기 명칭이 상기 쿼리 스트링의 유효 번역물일 확률을 결정하는 단계와,
상기 확률에 기초하여 상기 목록과 상기 쿼리의 관련성을 결정하는 단계를 더 포함하는
컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 프로세스는, 상기 통계적 머신 번역 모델을 이용하여 상기 인간 언어의 통계적 언어 모델을 구축하는 단계를 더 포함하고,
상기 통계적 언어 모델은 상기 인간 언어의 문구들의 확률을 제공하는
컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 프로세스는, 상기 통계적 머신 번역 모델을 이용하여 음성 인식기에 의해 인식된 텍스트 쿼리들을 디스플레이 형태로 번역하는 단계를 더 포함하는
컴퓨터 판독가능 저장 매체.
하나 이상의 프로세서 및 물리적 저장소로 구성되는 하나 이상의 컴퓨터에 의해 수행되는 방법으로서,
상기 물리적 저장소에 저장되며, 상기 하나 이상의 프로세서로 하여금 문구의 번역물의 확률을 계산하게 하도록 구성된 통계적 머신 번역 모델을 제공하는 단계 - 상기 문구는 인간 언어 내에 존재하고, 상기 문구의 번역물은 동일한 인간 언어 내에 존재하며, 상기 통계적 머신 번역 모델은 훈련 쌍을 이용하여 훈련되고, 상기 훈련 쌍은 검색 엔진으로 제출된 상기 인간 언어의 텍스트 쿼리들의 목록 및 상기 텍스트 쿼리들이 상기 검색 엔진에 제출된 경우에 상기 검색 엔진에 의해 반환된 상기 인간 언어의 텍스트 문장들의 목록으로부터, 상기 텍스트 쿼리들을 상기 텍스트 문장들과 비교하여 상기 텍스트 쿼리들 중 어느 텍스트 쿼리가 상기 텍스트 문장들 중 어느 문장과 유사한지를 식별함으로써 계산되며, 상기 텍스트 쿼리와 유사한 것으로 식별된 텍스트 문장은 상기 훈련 쌍을 형성하도록 각각이 쌍을 이룸 - 와,
상기 프로세서에 의해, 상기 통계적 머신 번역 모델을 이용하여 단체 및 사업 중 하나 이상의 쿼리 형태와 목록 형태 간에 번역을 하는 단계를 포함하되,
상기 쿼리 형태는 상기 검색 엔진에 제출된 상기 인간 언어의 문구들을 포함하며, 상기 목록 형태는 상기 검색 엔진에 의해 검색가능한 단체 및 사업 중 하나 이상의 상기 인간 언어의 공식 명칭(formal name)을 포함하는
컴퓨터에 의해 수행되는 방법.
제14항에 있어서,
상기 통계적 머신 번역 모델을 이용하여 단체 및 사업 중 하나 이상의 쿼리 형태와 목록 형태 간에 번역을 하는 단계는 쿼리 형태와 목록 형태 사이의 유사도를 계산하는 단계를 포함하는
컴퓨터에 의해 수행되는 방법.
제14항에 있어서,
사용자에 의해 입력된 상기 인간 언어의 사용자 쿼리가 주어지고, 상기 검색 엔진에 의해 발견된 상기 인간 언어의 대응하는 목록이 주어지고, 상기 목록의 후보 번역물들 - 상기 후보 번역물들은 또한 상기 인간 언어로 됨 - 의 집합이 주어지면, 상기 통계적 머신 번역 모델을 이용하여 단체 및 사업 중 하나 이상의 쿼리 형태와 목록 형태 간에 번역하는 단계는 상기 후보 번역물들의 확률을 계산하는 단계를 포함하는
컴퓨터에 의해 수행되는 방법.
제16항에 있어서,
상기 계산된 확률에 기반하여 상기 주어진 사용자 쿼리의 검색 결과를 생성하는 단계를 더 포함하는
컴퓨터에 의해 수행되는 방법.
제14항에 있어서,
상기 통계적 머신 번역 모델에 의해 계산된 확률에 기초하여 상기 검색 엔진의 검색 결과를 생성 또는 변경하는 단계를 더 포함하되,
상기 검색 결과는 사용자가 입력한 쿼리 형태에 대응하는
컴퓨터에 의해 수행되는 방법.
제18항에 있어서,
상기 확률을 이용하여 검색 결과를 순위매김(rank)하거나 제거하는 단계를 더 포함하는
컴퓨터에 의해 수행되는 방법.
삭제